CN111767716A

CN111767716A - 企业多级行业信息的确定方法、装置及计算机设备

Info

Publication number: CN111767716A
Application number: CN202010584609.3A
Authority: CN
Inventors: 季潮
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-13
Anticipated expiration: 2040-06-24
Also published as: CN111767716B

Abstract

本申请公开了一种企业多级行业信息的确定方法、装置及计算机设备，涉及区块链技术，可以解决企业所属的多级行业信息无法全面确定，导致无法精确反映各个企业的真实经营信息，且行业划分效率较低的问题。其中方法包括：创建包含各个行业关键词的行业词典，其中，所述行业词典包括行业关键词之间的多级拓扑关系；对目标企业的企业经营数据进行预处理，得到目标文本句；将所述目标文本句与所述行业关键词进行信息匹配，并依据匹配结果确定所述目标企业对应的目标多级行业。本申请适用于根据企业经营数据确定出企业对应所属的所有多级行业。

Description

企业多级行业信息的确定方法、装置及计算机设备

技术领域

本申请涉及区块链技术，尤其涉及到一种企业多级行业信息的确定方法、装置及计算机设备。

背景技术

在保险业务中，企业的归属行业，在承保定价、理赔阶段都有很重要的用途，并且企业需要承保的标的不一定是主营业务对应的行业，若直接引用外部数据的多级行业，不一定准确，也可能不是需要承保标的行业。故如何准确地提取出企业真实所属的多级行业显得尤为重要。

本申请的发明人在研究中发现，目前提供企业所属行业查询的外部接口多是由企业主自行勾选获得，并且是单选一个多级行业。但是，更多的情况是企业主不能很好的明确自己的经营范围应该归属于哪个多级行业，并且大部分企业除了主营业务外还会经营多个其他行业领域的业务，进而可导致提供出的多级行业信息无法精确反映各个企业的真实信息，同时这种人为勾选所属三级行业的方式，也会导致行业划分效率较低。

发明内容

有鉴于此，本申请提供了一种企业多级行业信息的确定方法、装置及计算机设备，主要解决企业所属的多级行业信息无法全面确定，导致无法精确反映各个企业的真实经营信息，且行业划分效率较低的问题。

根据本申请的一个方面，提供了一种企业多级行业信息的确定方法，该方法包括：

创建包含各个行业关键词的行业词典，其中，所述行业词典包括行业关键词之间的多级拓扑关系；

对目标企业的企业经营数据进行预处理，得到目标文本句；

将所述目标文本句与所述行业关键词进行信息匹配，并依据匹配结果确定所述目标企业对应的目标多级行业。

根据本申请的另一个方面，提供了一种企业多级行业信息的确定装置，该装置包括：

创建模块，用于创建包含各个行业关键词的行业词典，其中，所述行业词典包括行业关键词之间的多级拓扑关系；

处理模块，用于对目标企业的企业经营数据进行预处理，得到目标文本句；

确定模块，用于将所述目标文本句与所述行业关键词进行信息匹配，并依据匹配结果确定所述目标企业对应的目标多级行业。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述企业多级行业信息的确定方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述企业多级行业信息的确定方法。

借由上述技术方案，本申请提供的一种企业多级行业信息的确定方法、装置及计算机设备，与目前企业主自行勾选多级行业的方式相比，本申请可预先基于标准行业书创建包含各个行业关键词的行业词典，通过人工智能将预处理后的企业经营数据与行业词典中的行业关键词进行相似度匹配，进一步确定出目标企业对应所属的一个或多个目标多级行业，使识别出的企业信息更加全面可靠，进而能够有效确定出目标企业的真实行业信息，并且通过与行业词典中行业关键词的对比，可直接快速确定出目标企业对应所属的所有多级行业，故能够有效提高行业划分的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种企业多级行业信息的确定方法的流程示意图；

图2示出了本申请实施例提供的另一种企业多级行业信息的确定方法的流程示意图；

图3示出了本申请实施例提供的一种企业多级行业信息的确定装置的结构示意图；

图4示出了本申请实施例提供的另一种企业多级行业信息的确定装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前在企业主自行勾选多级行业时，企业所属的多级行业信息无法全面确定，导致无法精确反映各个企业的真实经营信息，且行业划分效率较低的问题，本申请实施例提供了一种企业多级行业信息的确定方法，如图1 所示，该方法包括：

101、创建包含各个行业关键词的行业词典，其中，行业词典包括行业关键词之间的多级拓扑关系。

对于本实施例，在具体的应用场景中，由于企业主不能很好的明确自己的经营范围应该归属于哪个多级行业，但是他们往往对于自身企业经营范围的描述是比较有把握的。因此，本申请旨在从企业的‘经营范围描述’中提取多级行业关键词。但从的‘行业词典’。没有很好的样本，‘分词’或‘语义分析’也都不能很好的支持提取多个归属多级行业。故在本申请中，会先对国家公布的标准行业书中多级行业做关键词提取，编写一本自用‘行业词典’，行业词典包括行业关键词之间的多级拓扑关系，如一级行业关键词对应包含多个二级行业关键词，二级行业关键词有对应包含多个三级行业关键词。其中，多级拓扑关系可对应存储在区块链的分布式数据库中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中可用于存储行业词典中的各级行业关键词。在完成‘行业词典’的创建后，可进一步利用‘行业词典’对 ‘经营范围描述’做规则匹配，最终得到企业涉及的一个或多个多级行业。‘行业词典’上线后由业务人员做校准，同时累计样本，并利用‘语义分析’机器学习算法模型来做未来的整体优化校准并最终实现机器在线学习。

102、对目标企业的企业经营数据进行预处理，得到目标文本句。

其中，目标企业为待利用本方案确定所归属多级行业的企业；企业经营数据为目标企业对应的‘经营范围描述’，在具体的应用场景中，企业经营数据可从相应信息网站智能化获取或由企业主录入得到。

对于本实施例，在具体的应用场景中，由于企业经营数据不是统一规范的文字模式，故在利用企业经营数据进行信息匹配之前，为了有效降低搜索引擎对企业经营范围的检索量，需要预先对企业经营数据进行处理操作，即对企业经营数据做有效描述提取，进而滤除一些不相关数据，提高信息匹配的正确率。

103、将目标文本句与行业关键词进行信息匹配，并依据匹配结果确定目标企业对应的目标多级行业。

对于本实施例，在具体的应用场景中，每个多级行业对应的行业关键词均可涵盖‘动词’、‘名词’和“形容词”三种词性类别，当且仅当企业经营数据中同时存在同一多级行业对应各个词性类别的行业关键词时，才可将该多级行业判定为目标企业对应的目标多级行业。

通过本实施例中企业多级行业信息的确定方法，可预先基于标准行业书创建包含各个行业关键词的行业词典，通过人工智能将预处理后的企业经营数据与行业词典中的行业关键词进行相似度匹配，进一步确定出目标企业对应所属的一个或多个目标多级行业，通过较为真实可靠的企业经营数据确定目标多级行业，可使识别出的企业信息更加全面可靠，进而能够有效确定出目标企业的真实行业信息，并且通过与行业词典中行业关键词的对比，可直接快速确定出目标企业对应所属的所有目标多级行业，故能够有效提高行业划分的效率。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种企业多级行业信息的确定方法，如图2所示，该方法包括：

201、基于TF-IDF算法提取标准行业书中的行业关键词。

其中，TF-IDF算法是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想就是，如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。在本申请中，可利用TF-IDF算法计算多级行业信息中所包含的各个词语在该多级行业信息中的出现频率，即词频TF_ij，以及计算各个词语在所有多级行业信息中的出现频率，即逆向文件频率IDF_i。当判定某个词语在一个多级行业信息中出现的频率TF_ij较高，并且在其他多级行业信息中很少出现时，则可认为此词语具有很好的类别区分能力，适合作为用于行业区分的行业关键词。

对于本实施例，在具体的应用场景中，TF-IDF算法可包括第一计算公式和第二计算公式，为了提取出各个多级行业对应的行业关键词，实施例步骤 201具体可以包括：根据第一计算公式计算在标准行业书中各个多级行业信息所包含词语的词频；根据第二计算公式计算在标准行业书中各个多级行业信息所包含词语的逆向文件频率；基于词频以及逆向文件频率，确定各个词语对应所属多级行业的相关度；将相关度大于第一预设阈值的词语确定为行业关键词。

其中，国家公布的《国家标准行业书》中包含对于每个不同层级的行业归类及详细说明及描述，具体可包含“一级行业名称”列、“二级行业名称” 列……“多级行业名称”列，以及对应的“行业说明及描述”列。在创建行业词典时，可依据各级行业名称以及对应的行业说明及描述，提取出各个多级行业的行业关键词，并创建各个行业关键词之间的多级拓扑关系。

具体的，第一计算公式的特征描述为：

其中，TF_ij为词语 i的词频，ni,j为词语i在多级行业信息dj中出现的次数，

为多级行业信息dj中所有词语的数量之和；第二计算公式的特征描述为：

其中，IDF_i为词语ti的逆向文件频率，|D|为标准行业书中多级行业信息的总数量，|{j:ti∈dj}|+1表示包含词语ti的多级行业信息的数量。

相应的，基于词频以及逆向文件频率，确定各个词语对应所属多级行业的相关度，具体可以包括：计算同一词语对应的词频和逆向文件频率的乘积，将乘积确定为词语对应所属多级行业的相关度。

202、根据语料库识别各个行业关键词的词性，并基于词性将行业关键词划分为不同属性的判定词列。

对于本实施例，在具体的应用场景中，由于相同的名词若对应不同的生产或活动，会归属于不同的多级行业。故为了便于区分，需要根据词性划分不同属性的判定词列。例如，比较有代表性的，有双性的词，‘纺织’，既是动词也是名词。为了区分是做纺织衣物的生产活动，或者是零售一些纺织物品，创建的行业词典一定需要分开编写动词和名词。

相应的，由于需要提取关键词的《国家标准行业书》，都是描述的一般行业信息，故目前网上公开的语料库，已经足够区分出它的“名词”、“动词”、 “形容词”。并且，TF-IDF算法已经分装在python的jieba库中，故可利用 NLP自然语言领域的中文分词技术‘结巴分词’，提取每个行业对应的“名词” “动词”“形容词”。需要分词的五列，可以直接利用python的jieba库中 jieba.analyse.extract_tags(sentence,topK＝topk,withWeight＝False,allowPOS＝('n')) 方法来提取。

参数说明：

sentence需要提取的字符串

topK提取前多少个关键字

withWeight是否返回每个关键词的权重

allowPOS是允许的提取的词性，例如，allowPOS＝’ns’,’n’,’vn’,’ v’，可以提取地名、名词、动名词、动词。

203、根据各个多级行业与对应的判定词列构建行业词典。

对于本实施例，在具体的应用场景中，在基于实施例步骤201-202提取出各个行业关键词，并依据词性将行业关键词划分为不同词性的判定词列后，可将判定词列对应收录到对应每一行的多级行业上。具体可以类似打标签的方式，为每个多级行业打上高度有效的行业关键词标签，进一步获取得到每个多级行业都对应各自判定词序的行业词典。

204、按照预设字符对企业经营数据进行断句处理，获取得到各个文本句。

其中，预设字符为表示句子结束的标点符号，如‘。’、‘；’、‘！’、‘？’ 等。将企业经营数据切分为各个文本句的目的是为了不跨句做行业词典匹配，且保证一个完整的句子可以包含有‘动词’和‘名词’，故不能把句子切太小。具体可使用python的re模块的split()函数来实现文本句的切分。

205、剔除文本句中预设标识内的第一特殊文字信息以及包含预设字段的第二特殊文字信息，得到各个目标文本句。

其中，第一特殊文字信息可为特定括号内的说明文字，例如，‘【】’、‘《》’ ‘<<>>’等，由于此类括号内的说明一般是特定法律说明，对行业没有区分度。例如，【依法须经批准的项目，经相关部门批准后方可开展经营活动】。开发中可以利用正则的方法：'\\【.*？\\】|\\《.*？\\》|\\<<.*？\\>>'。具体可以利用python的re模块sub()函数来解决。re模块是python独有的匹配字符串的模块。模块中提供的很多功能都是基于正则表达式实现的。正则表达式描述了一种字符串匹配的模式(pattern)，可以用来检查一个字符串是否含有某种子字符串、将匹配的子字符串做替换、提取等操作。此处可利用re.sub()函数， re.sub('\\【.*？\\】|\\《.*？\\》|\\<<.*？\\>>',”,string)，通过此函数把这些括号替换为空字符。

相应的，可设定第二特殊文字信息中的预设字段为：‘不得经营’、‘禁止’、 ‘不包含’、‘不包括’、‘不得’、‘除’、‘不含’、‘不涉及’等，之后可识别并将包含该预设字段的第二特殊文字信息删除。首先，需要对文本句做所有 “标点符号”的断句。其中，断句可利用python的re模块的字符串分割器split() 函数。其调用语法为，re.split(pattern,string)。split函数根据正则表达式pattern 来分开string，分开的字符存放在返回的列表元素内。变量pattern即为用于字符串切分的正则表达式字符。具体的，可设定pattern＝ r',|\.|/|；|\'|`|\[|\]|<|>|\？|:|"|\{|\}|\～|！|@|#|\$|％|\^|&|$|$|-|＝|\_|\+|，|。|、|；|‘|’|【|】|·|！ ||…|(|)'，即一系列中文语句中的任何“标点符号”作为断句的依据。若断句之后的小句子中，包含‘不得经营’、‘禁止’、‘不包含’、‘不包括’、‘不得’、‘除’、‘不含’、‘不涉及’等设定的预设字段，则把此小句子即第二特殊文字信息剔除，将原文本句中其它未剔除的小句子按照原文顺序重组为目标文本句，以使每个目标文本句均是以句末标点符号，如‘。’、‘；’、‘！’、‘？’ 等结束。其中，第二特殊文字信息的剔除方法同样使用re.sub()函数的功能。

206、将目标文本句与行业关键词进行信息匹配，并依据匹配结果确定目标企业对应的目标多级行业。

对于本实施例，在具体的应用场景中，为了进一步确定出目标企业对应所属的目标多级行业，实施例步骤206具体可以包括：将目标文本句分别与各个多级行业对应的判定词列进行匹配；若判定词列包括名词判定词列和动词判定词列，则计算目标文本句与名词判定词列中各个行业关键词的第一相似度，以及目标文本句与动词判定词列中各个行业关键词的第二相似度；若确定名词判定词列中存在与目标文本句相似度大于第一预设阈值的第一行业关键词，且动词判定词列中存在与目标文本句相似度大于第二预设阈值的第二行业关键词，则将判定词列对应的多级行业确定为目标企业对应的目标多级行业；或若判定词列包括名词判定词列、动词判定词列和形容词判定词列，则计算目标文本句与名词判定词列中各个行业关键词的第三相似度、目标文本句与动词判定词列中各个行业关键词的第四相似度，以及目标文本句与形容词判定词列中各个行业关键词的第五相似度；若确定名词判定词列中存在与目标文本句相似度大于第三预设阈值的第三行业关键词，且动词判定词列中存在与目标文本句相似度大于第四预设阈值的第四行业关键词，且形容词判定词列中存在与目标文本句相似度大于第五预设阈值的第五行业关键词，则将判定词列对应的多级行业确定为目标企业对应的目标多级行业。

其中，在将预处理后的企业经营数据与行业关键词进行信息匹配，并依据匹配结果确定目标企业对应的目标多级行业时，具体可通过设定匹配规则，并利用匹配规则来确定所属的多级行业。可设定匹配规则为：仅用目标文本句或句子内的关键词，与行业词典中行业关键词进行匹配。在行业词典中，一个多级行业所对应‘动词’和‘名词’都需要在企业经营数据的目标文本句中找到。若有‘形容词’也需要匹配上。具体的，可以利用python的字符串内置函数.count()，该方法返回子字符串在字符串中出现的次数。例如， var_industry_desc是其中一个企业经营数据的目标文本句，在python中只需编码如，var_industry_desc.count(‘纺织’)，即可以判断“纺织”在目标文本句中出现的次数，若结果大于0，则判定匹配成功。

相应的，在将目标文本句分别与各个多级行业对应的判定词列进行匹配时，可采用两种方式：一种方式是直接将目标文本句与各个行业关键词进行匹配，确定目标文本句是否存在与各属性行业关键词均相同的字段信息，若存在，则确定匹配成功，进一步可确定出目标多级行业。

为了提高匹配速度且为了后续在线学习提供基础，在将目标文本句与判定词列进行匹配时，还可提供另外一种方式，即对企业经营数据预处理得到的目标文本句再次做句子内的关键词提取，按照词性归类划分各个关键词，并与属于同一词性的各个行业关键词进行匹配，确定在行业关键词中是否存在与之相同的字段，若各个属性的关键词均匹配成功，则可将对应的多级行业确定为目标多级行业。其中，在进行目标文本句的关键词切分时，可利用 python jieba模块中的cut()函数，jieba.cut()函数也是基于TF-IDF算法的关键词抽取。cut()函数共有3个分词模式，分别为精确模式、全模式、搜索引擎模式。精准模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。由于之前已经做了定制化行业词典，对企业经营数据的分词并不希望做很小的切分，不然行业词典的行业关键词很难与企业经营数据的分词匹配上，从而可能错过很多有用信息。所以，在本实施例中可选用“精准模式”，即jieba.cut(str_text,cut_all＝False)，其中，cut_all参数用来控制是否采用全模式，cut_all＝False为精准模式。

此外，作为一种优选方式，为了提高关键词匹配的效率，在利用上述方法提取出企业经营数据中的关键词后，还可进一步对关键词进行识别，剔除其中存在的一些停用词，如语气助词、副词、介词、连接词等，这些停用词通常自身并无什么明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“哎”，“哎哟”，“别的”，“结果”，“让”，“不过”等。由于这些词很少单独表达文档相关程度的信息，且这些功能词对于区分“多级行业” 基本没有什么帮助，故为了提高索引的速度和节省存储空间，可事先过滤掉这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与滤除，比如“百度停用词表”、“哈工大停用词表”等。

例如：原经营范围描述：法律、法规决定规定禁止的不得经营；法律、法规决定规定无需许可(审批)的，市场主体自主选择经营。(污水处理，中水的生产和销售，并提供膜工艺的技术咨询及服务)。因“法律、法规决定规定禁止的不得经营；”、“法律、法规决定规定无需许可(审批)的，市场主体自主选择经营。”这两个文本句中分别包含预设字段“禁止、不得”和“无需”，故可确定这两个文本句为第二特殊文字信息，进一步滤除。而后对剩余的目标文本句“污水处理，中水的生产和销售，并提供膜工艺的技术咨询及服务” 进行关键词提取，可得到企业经营数据中的关键词：名词(污水，中水，膜工艺，技术，技术咨询)，动词(处理，生产，销售，提供，咨询，服务)。

在具体的应用场景中，作为一种优选方式，为了不断提高行业词典的信息判定精准度，可通过深度学习，采用有监督的关键词抽取算法不断优化补充定制的行业词典，如在实际操作中，基于企业经营数据无法筛选出对应的目标多级行业。则需要对模型做优化提升，即需要再次筛选一遍多级行业词典，剔除词典中对判断多级行业没有帮助的词，并加入遗漏的“动词”、“名词”、“形容词”等行业关键词。这时候，需要有“有监督”的关键词算法来做模型提升。由于在使用有监督的关键词抽取算法的前提是，需要足量的样本，并对样本的归属行业做人工标注，故此时可将业务人员在日常应用此推荐行业的功能时，最终做出的多级行业选择作为接下来模型的样本集。有监督的关键词抽取算法可以看作是二分类问题，即判断定制的多级行业词典中的分词是否对选出目标多级行业有效。后台会记录每个被选出的目标多级行业对应多级行业词典中的“动词”、“名词”、“形容词”。若被选择，则记录这几个“动词”、“名词”、“形容词”对于选出此目标多级行业有效，其余没匹配上的“动词”、“名词”、“形容词”，则认为无效。若业务选择“其他行业”，则记录当前此多级行业词典中的分词对于选出此“多级行业”也是无效的，补充“企业经营范围”中的其他“动词”、“名词”、“形容词”进入词典。这样以类似打标签的方式，为每个多级行业打上高度有效的关键词标签。

借由上述企业多级行业信息的确定方法，可基于TF-IDF算法提取出各个多级行业对应的行业关键词，进而创建包含多级行业判定词列的行业词典，通过人工智能将预处理后的企业经营数据与行业词典中的行业关键词进行相似度匹配，进一步确定出目标企业对应所属的一个或多个目标多级行业，通过较为真实可靠的企业经营数据确定目标多级行业，可使识别出的企业信息更加全面可靠，进而能够有效确定出目标企业的真实行业信息，并且通过与行业词典中行业关键词的对比，可直接快速确定出目标企业对应所属的所有目标多级行业，故能够有效提高行业划分的效率。

进一步的，作为图1和图2所示方法的具体实现，本申请实施例提供了一种企业多级行业信息的确定装置，如图3所示，该装置包括：创建模块31、处理模块32、确定模块33；

创建模块31，可用于创建包含各个行业关键词的行业词典，其中，行业词典包括行业关键词之间的多级拓扑关系；

处理模块32，可用于对目标企业的企业经营数据进行预处理，得到目标文本句；

确定模块33，可用于将目标文本句与行业关键词进行信息匹配，并依据匹配结果确定目标企业对应的目标多级行业。

在具体的应用场景中，为了获取得到包含各个行业关键词的多级行业词典，如图4所示，创建模块31，具体可包括：提取单元311、划分单元312、构建单元313；

提取单元311，可用于基于TF-IDF算法提取标准行业书中的行业关键词；

划分单元312，可用于根据语料库识别各个行业关键词的词性，并基于词性将行业关键词划分为不同属性的判定词列；

构建单元313，可用于根据各个多级行业与对应的判定词列构建行业词典。

相应的，为了提取出各个多级行业对应的行业关键词，提取单元311，具体可用于根据第一计算公式计算在标准行业书中各个多级行业信息所包含词语的词频；根据第二计算公式计算在标准行业书中各个多级行业信息所包含词语的逆向文件频率；基于词频以及逆向文件频率，确定各个词语对应所属多级行业的相关度；将相关度大于第一预设阈值的词语确定为行业关键词。

其中，第一计算公式的特征描述为：

其中，TF_ij为词语i的词频，ni,j为词语i在多级行业信息 dj中出现的次数，

为多级行业信息dj中所有词语的数量之和；

第二计算公式的特征描述为：

相应的，提取单元311，具体可用于计算同一词语对应的词频和逆向文件频率的乘积，将乘积确定为词语对应所属多级行业的相关度。

在具体的应用场景中，为了对目标企业的企业经营数据进行预处理，如图4所示，处理模块32，具体可包括：处理单元321、剔除单元322；

处理单元321，可用于按照预设字符对企业经营数据进行断句处理，获取得到各个文本句；

剔除单元322，可用于剔除文本句中预设标识内的第一特殊文字信息以及包含预设字段的第二特殊文字信息，得到各个目标文本句。

相应的，为了确定出目标企业对应所属的目标多级行业，如图4所示，确定模块33，具体可包括：匹配单元331、计算单元332、确定单元333；

匹配单元331，可用于将目标文本句分别与各个多级行业对应的判定词列进行匹配；

计算单元332，可用于若判定词列包括名词判定词列和动词判定词列，则计算目标文本句与名词判定词列中各个行业关键词的第一相似度，以及目标文本句与动词判定词列中各个行业关键词的第二相似度；

确定单元333，可用于若确定名词判定词列中存在与目标文本句相似度大于第一预设阈值的第一行业关键词，且动词判定词列中存在与目标文本句相似度大于第二预设阈值的第二行业关键词，则将判定词列对应的多级行业确定为目标企业对应的目标多级行业；或

计算单元332，还可用于若判定词列包括名词判定词列、动词判定词列和形容词判定词列，则计算目标文本句与名词判定词列中各个行业关键词的第三相似度、目标文本句与动词判定词列中各个行业关键词的第四相似度，以及目标文本句与形容词判定词列中各个行业关键词的第五相似度；

确定单元333，还可用于若确定名词判定词列中存在与目标文本句相似度大于第三预设阈值的第三行业关键词，且动词判定词列中存在与目标文本句相似度大于第四预设阈值的第四行业关键词，且形容词判定词列中存在与目标文本句相似度大于第五预设阈值的第五行业关键词，则将判定词列对应的多级行业确定为目标企业对应的目标多级行业。

需要说明的是，本实施例提供的一种企业多级行业信息的确定装置所涉及各功能单元的其他相应描述，可以参考图1至图2的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本实施例还提供了一种非易失性存储介质，其上存储有计算机可读指令，该可读指令被处理器执行时实现上述如图1至图2所示的企业多级行业信息的确定方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；非易失性存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的企业多级行业信息的确定方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频 (RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请可基于TF-IDF 算法提取出各个多级行业对应的行业关键词，进而创建包含行业判定词列的多级行业词典，通过人工智能将预处理后的企业经营数据与多级行业词典中的行业关键词进行相似度匹配，进一步确定出目标企业对应所属的一个或多个目标多级行业，通过较为真实可靠的企业经营数据确定目标多级行业，可使识别出的企业信息更加全面可靠，进而能够有效确定出目标企业的真实行业信息，并且可通过与行业词典中行业关键词的对比，直接快速确定出目标企业对应所属的所有目标多级行业，故能够有效提高行业划分的效率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种企业多级行业信息的确定方法，其特征在于，包括：

对目标企业的企业经营数据进行预处理，得到目标文本句；

2.根据权利要求1所述的方法，其特征在于，所述创建包含各个行业关键词的行业词典，包括：

基于TF-IDF算法提取标准行业书中的行业关键词；

根据语料库识别各个所述行业关键词的词性，并基于所述词性将所述行业关键词划分为不同属性的判定词列；

根据各个多级行业与对应的所述判定词列构建行业词典。

3.根据权利要求2所述的方法，其特征在于，所述TF-IDF算法包括：第一计算公式和第二计算公式，所述基于TF-IDF算法提取标准行业书中的行业关键词，包括：

根据所述第一计算公式计算在所述标准行业书中各个多级行业信息所包含词语的词频；

根据所述第二计算公式计算在所述标准行业书中各个多级行业信息所包含词语的逆向文件频率；

基于所述词频以及所述逆向文件频率，确定各个词语对应所属多级行业的相关度；

将所述相关度大于第一预设阈值的词语确定为行业关键词。

4.根据权利要求3所述的方法，其特征在于，所述第一计算公式的特征描述为：

其中，TF_ij为词语i的词频，ni,j为词语i在多级行业信息dj中出现的次数，

为多级行业信息dj中所有词语的数量之和；

所述第二计算公式的特征描述为：

其中，IDF_i为词语ti的逆向文件频率，|D|为所述标准行业书中多级行业信息的总数量，|{j:ti∈dj}|+1表示包含词语ti的多级行业信息的数量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述词频以及所述逆向文件频率，确定各个词语对应所属多级行业的相关度，包括：

计算同一词语对应的所述词频和所述逆向文件频率的乘积，将所述乘积确定为所述词语对应所属多级行业的相关度。

6.根据权利要求1所述的方法，其特征在于，所述对目标企业的企业经营数据进行预处理，得到目标文本句，包括：

按照预设字符对企业经营数据进行断句处理，获取得到各个文本句；

剔除所述文本句中预设标识内的第一特殊文字信息以及包含预设字段的第二特殊文字信息，得到各个目标文本句。

7.根据权利要求6所述的方法，其特征在于，将所述目标文本句与所述行业关键词进行信息匹配，并依据匹配结果确定所述目标企业对应的目标多级行业，包括：

将所述目标文本句分别与各个多级行业对应的判定词列进行匹配；

若所述判定词列包括名词判定词列和动词判定词列，则计算所述目标文本句与所述名词判定词列中各个行业关键词的第一相似度，以及所述目标文本句与所述动词判定词列中各个行业关键词的第二相似度；

若确定所述名词判定词列中存在与所述目标文本句相似度大于第一预设阈值的第一行业关键词，且所述动词判定词列中存在与所述目标文本句相似度大于第二预设阈值的第二行业关键词，则将所述判定词列对应的所述多级行业确定为所述目标企业对应的目标多级行业；或

若判定词列包括名词判定词列、动词判定词列和形容词判定词列，则计算所述目标文本句与所述名词判定词列中各个行业关键词的第三相似度、所述目标文本句与所述动词判定词列中各个行业关键词的第四相似度，以及所述目标文本句与所述形容词判定词列中各个行业关键词的第五相似度；

若确定所述名词判定词列中存在与所述目标文本句相似度大于第三预设阈值的第三行业关键词，且所述动词判定词列中存在与所述目标文本句相似度大于第四预设阈值的第四行业关键词，且所述形容词判定词列中存在与所述目标文本句相似度大于第五预设阈值的第五行业关键词，则将所述判定词列对应的所述多级行业确定为所述目标企业对应的目标多级行业。

8.一种企业多级行业信息的确定装置，其特征在于，包括：

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的企业多级行业信息的确定方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的企业多级行业信息的确定方法。