CN111767716A - 企业多级行业信息的确定方法、装置及计算机设备 - Google Patents
企业多级行业信息的确定方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN111767716A CN111767716A CN202010584609.3A CN202010584609A CN111767716A CN 111767716 A CN111767716 A CN 111767716A CN 202010584609 A CN202010584609 A CN 202010584609A CN 111767716 A CN111767716 A CN 111767716A
- Authority
- CN
- China
- Prior art keywords
- industry
- enterprise
- target
- word
- text sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012528 membrane Substances 0.000 description 3
- 239000010865 sewage Substances 0.000 description 3
- 239000004753 textile Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种企业多级行业信息的确定方法、装置及计算机设备,涉及区块链技术,可以解决企业所属的多级行业信息无法全面确定,导致无法精确反映各个企业的真实经营信息,且行业划分效率较低的问题。其中方法包括:创建包含各个行业关键词的行业词典,其中,所述行业词典包括行业关键词之间的多级拓扑关系;对目标企业的企业经营数据进行预处理,得到目标文本句;将所述目标文本句与所述行业关键词进行信息匹配,并依据匹配结果确定所述目标企业对应的目标多级行业。本申请适用于根据企业经营数据确定出企业对应所属的所有多级行业。
Description
技术领域
本申请涉及区块链技术,尤其涉及到一种企业多级行业信息的确定方法、 装置及计算机设备。
背景技术
在保险业务中,企业的归属行业,在承保定价、理赔阶段都有很重要的 用途,并且企业需要承保的标的不一定是主营业务对应的行业,若直接引用 外部数据的多级行业,不一定准确,也可能不是需要承保标的行业。故如何 准确地提取出企业真实所属的多级行业显得尤为重要。
本申请的发明人在研究中发现,目前提供企业所属行业查询的外部接口 多是由企业主自行勾选获得,并且是单选一个多级行业。但是,更多的情况 是企业主不能很好的明确自己的经营范围应该归属于哪个多级行业,并且大 部分企业除了主营业务外还会经营多个其他行业领域的业务,进而可导致提 供出的多级行业信息无法精确反映各个企业的真实信息,同时这种人为勾选 所属三级行业的方式,也会导致行业划分效率较低。
发明内容
有鉴于此,本申请提供了一种企业多级行业信息的确定方法、装置及计 算机设备,主要解决企业所属的多级行业信息无法全面确定,导致无法精确 反映各个企业的真实经营信息,且行业划分效率较低的问题。
根据本申请的一个方面,提供了一种企业多级行业信息的确定方法,该 方法包括:
创建包含各个行业关键词的行业词典,其中,所述行业词典包括行业关 键词之间的多级拓扑关系;
对目标企业的企业经营数据进行预处理,得到目标文本句;
将所述目标文本句与所述行业关键词进行信息匹配,并依据匹配结果确 定所述目标企业对应的目标多级行业。
根据本申请的另一个方面,提供了一种企业多级行业信息的确定装置, 该装置包括:
创建模块,用于创建包含各个行业关键词的行业词典,其中,所述行业 词典包括行业关键词之间的多级拓扑关系;
处理模块,用于对目标企业的企业经营数据进行预处理,得到目标文本 句;
确定模块,用于将所述目标文本句与所述行业关键词进行信息匹配,并 依据匹配结果确定所述目标企业对应的目标多级行业。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存 储有计算机程序,所述程序被处理器执行时实现上述企业多级行业信息的确 定方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读 存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的 计算机程序,所述处理器执行所述程序时实现上述企业多级行业信息的确定 方法。
借由上述技术方案,本申请提供的一种企业多级行业信息的确定方法、 装置及计算机设备,与目前企业主自行勾选多级行业的方式相比,本申请可 预先基于标准行业书创建包含各个行业关键词的行业词典,通过人工智能将 预处理后的企业经营数据与行业词典中的行业关键词进行相似度匹配,进一 步确定出目标企业对应所属的一个或多个目标多级行业,使识别出的企业信 息更加全面可靠,进而能够有效确定出目标企业的真实行业信息,并且通过 与行业词典中行业关键词的对比,可直接快速确定出目标企业对应所属的所 有多级行业,故能够有效提高行业划分的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请 的不当限定。在附图中:
图1示出了本申请实施例提供的一种企业多级行业信息的确定方法的流 程示意图;
图2示出了本申请实施例提供的另一种企业多级行业信息的确定方法的 流程示意图;
图3示出了本申请实施例提供的一种企业多级行业信息的确定装置的结 构示意图;
图4示出了本申请实施例提供的另一种企业多级行业信息的确定装置的 结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不 冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在企业主自行勾选多级行业时,企业所属的多级行业信息无法 全面确定,导致无法精确反映各个企业的真实经营信息,且行业划分效率较 低的问题,本申请实施例提供了一种企业多级行业信息的确定方法,如图1 所示,该方法包括:
101、创建包含各个行业关键词的行业词典,其中,行业词典包括行业关 键词之间的多级拓扑关系。
对于本实施例,在具体的应用场景中,由于企业主不能很好的明确自己 的经营范围应该归属于哪个多级行业,但是他们往往对于自身企业经营范围 的描述是比较有把握的。因此,本申请旨在从企业的‘经营范围描述’中提 取多级行业关键词。但从的‘行业词典’。没有很好的样本,‘分词’或‘语 义分析’也都不能很好的支持提取多个归属多级行业。故在本申请中,会先 对国家公布的标准行业书中多级行业做关键词提取,编写一本自用‘行业词 典’,行业词典包括行业关键词之间的多级拓扑关系,如一级行业关键词对应 包含多个二级行业关键词,二级行业关键词有对应包含多个三级行业关键词。 其中,多级拓扑关系可对应存储在区块链的分布式数据库中,区块链是分布 式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模 式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码 学方法相关联产生的数据块,每一个数据块中可用于存储行业词典中的各级 行业关键词。在完成‘行业词典’的创建后,可进一步利用‘行业词典’对 ‘经营范围描述’做规则匹配,最终得到企业涉及的一个或多个多级行业。‘行 业词典’上线后由业务人员做校准,同时累计样本,并利用‘语义分析’机 器学习算法模型来做未来的整体优化校准并最终实现机器在线学习。
102、对目标企业的企业经营数据进行预处理,得到目标文本句。
其中,目标企业为待利用本方案确定所归属多级行业的企业;企业经营 数据为目标企业对应的‘经营范围描述’,在具体的应用场景中,企业经营数 据可从相应信息网站智能化获取或由企业主录入得到。
对于本实施例,在具体的应用场景中,由于企业经营数据不是统一规范 的文字模式,故在利用企业经营数据进行信息匹配之前,为了有效降低搜索 引擎对企业经营范围的检索量,需要预先对企业经营数据进行处理操作,即 对企业经营数据做有效描述提取,进而滤除一些不相关数据,提高信息匹配 的正确率。
103、将目标文本句与行业关键词进行信息匹配,并依据匹配结果确定目 标企业对应的目标多级行业。
对于本实施例,在具体的应用场景中,每个多级行业对应的行业关键词 均可涵盖‘动词’、‘名词’和“形容词”三种词性类别,当且仅当企业经营 数据中同时存在同一多级行业对应各个词性类别的行业关键词时,才可将该 多级行业判定为目标企业对应的目标多级行业。
通过本实施例中企业多级行业信息的确定方法,可预先基于标准行业书 创建包含各个行业关键词的行业词典,通过人工智能将预处理后的企业经营 数据与行业词典中的行业关键词进行相似度匹配,进一步确定出目标企业对 应所属的一个或多个目标多级行业,通过较为真实可靠的企业经营数据确定 目标多级行业,可使识别出的企业信息更加全面可靠,进而能够有效确定出 目标企业的真实行业信息,并且通过与行业词典中行业关键词的对比,可直 接快速确定出目标企业对应所属的所有目标多级行业,故能够有效提高行业 划分的效率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明 本实施例中的具体实施过程,提供了另一种企业多级行业信息的确定方法, 如图2所示,该方法包括:
201、基于TF-IDF算法提取标准行业书中的行业关键词。
其中,TF-IDF算法是一种统计方法,用以评估一个词语对于一个文件集 或一个语料库中其中一份文件的重要程度。字词的重要性随着它在文件中出 现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想就是,如果某个单词在一篇文章中出现的频率TF高,并 且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力, 适合用来分类。在本申请中,可利用TF-IDF算法计算多级行业信息中所包含 的各个词语在该多级行业信息中的出现频率,即词频TFij,以及计算各个词语 在所有多级行业信息中的出现频率,即逆向文件频率IDFi。当判定某个词语 在一个多级行业信息中出现的频率TFij较高,并且在其他多级行业信息中很 少出现时,则可认为此词语具有很好的类别区分能力,适合作为用于行业区 分的行业关键词。
对于本实施例,在具体的应用场景中,TF-IDF算法可包括第一计算公式 和第二计算公式,为了提取出各个多级行业对应的行业关键词,实施例步骤 201具体可以包括:根据第一计算公式计算在标准行业书中各个多级行业信息 所包含词语的词频;根据第二计算公式计算在标准行业书中各个多级行业信 息所包含词语的逆向文件频率;基于词频以及逆向文件频率,确定各个词语 对应所属多级行业的相关度;将相关度大于第一预设阈值的词语确定为行业 关键词。
其中,国家公布的《国家标准行业书》中包含对于每个不同层级的行业 归类及详细说明及描述,具体可包含“一级行业名称”列、“二级行业名称” 列……“多级行业名称”列,以及对应的“行业说明及描述”列。在创建行 业词典时,可依据各级行业名称以及对应的行业说明及描述,提取出各个多 级行业的行业关键词,并创建各个行业关键词之间的多级拓扑关系。
具体的,第一计算公式的特征描述为:其中,TFij为词语 i的词频,ni,j为词语i在多级行业信息dj中出现的次数,为多级行业 信息dj中所有词语的数量之和;第二计算公式的特征描述为: 其中,IDFi为词语ti的逆向文件频率,|D|为标准行业 书中多级行业信息的总数量,|{j:ti∈dj}|+1表示包含词语ti的多级行业信息 的数量。
相应的,基于词频以及逆向文件频率,确定各个词语对应所属多级行业 的相关度,具体可以包括:计算同一词语对应的词频和逆向文件频率的乘积, 将乘积确定为词语对应所属多级行业的相关度。
202、根据语料库识别各个行业关键词的词性,并基于词性将行业关键词 划分为不同属性的判定词列。
对于本实施例,在具体的应用场景中,由于相同的名词若对应不同的生 产或活动,会归属于不同的多级行业。故为了便于区分,需要根据词性划分 不同属性的判定词列。例如,比较有代表性的,有双性的词,‘纺织’,既是 动词也是名词。为了区分是做纺织衣物的生产活动,或者是零售一些纺织物 品,创建的行业词典一定需要分开编写动词和名词。
相应的,由于需要提取关键词的《国家标准行业书》,都是描述的一般行 业信息,故目前网上公开的语料库,已经足够区分出它的“名词”、“动词”、 “形容词”。并且,TF-IDF算法已经分装在python的jieba库中,故可利用 NLP自然语言领域的中文分词技术‘结巴分词’,提取每个行业对应的“名词” “动词”“形容词”。需要分词的五列,可以直接利用python的jieba库中 jieba.analyse.extract_tags(sentence,topK=topk,withWeight=False,allowPOS=('n')) 方法来提取。
参数说明:
sentence需要提取的字符串
topK提取前多少个关键字
withWeight是否返回每个关键词的权重
allowPOS是允许的提取的词性,例如,allowPOS=’ns’,’n’,’vn’,’ v’,可以提取地名、名词、动名词、动词。
203、根据各个多级行业与对应的判定词列构建行业词典。
对于本实施例,在具体的应用场景中,在基于实施例步骤201-202提取出 各个行业关键词,并依据词性将行业关键词划分为不同词性的判定词列后, 可将判定词列对应收录到对应每一行的多级行业上。具体可以类似打标签的 方式,为每个多级行业打上高度有效的行业关键词标签,进一步获取得到每 个多级行业都对应各自判定词序的行业词典。
204、按照预设字符对企业经营数据进行断句处理,获取得到各个文本句。
其中,预设字符为表示句子结束的标点符号,如‘。’、‘;’、‘!’、‘?’ 等。将企业经营数据切分为各个文本句的目的是为了不跨句做行业词典匹配, 且保证一个完整的句子可以包含有‘动词’和‘名词’,故不能把句子切太小。 具体可使用python的re模块的split()函数来实现文本句的切分。
205、剔除文本句中预设标识内的第一特殊文字信息以及包含预设字段的 第二特殊文字信息,得到各个目标文本句。
其中,第一特殊文字信息可为特定括号内的说明文字,例如,‘【】’、‘《》’ ‘<<>>’等,由于此类括号内的说明一般是特定法律说明,对行业没有区分 度。例如,【依法须经批准的项目,经相关部门批准后方可开展经营活动】。 开发中可以利用正则的方法:'\\【.*?\\】|\\《.*?\\》|\\<<.*?\\>>'。具体可以利 用python的re模块sub()函数来解决。re模块是python独有的匹配字符串的 模块。模块中提供的很多功能都是基于正则表达式实现的。正则表达式描述 了一种字符串匹配的模式(pattern),可以用来检查一个字符串是否含有某种 子字符串、将匹配的子字符串做替换、提取等操作。此处可利用re.sub()函数, re.sub('\\【.*?\\】|\\《.*?\\》|\\<<.*?\\>>',”,string),通过此函数把这些括号替换 为空字符。
相应的,可设定第二特殊文字信息中的预设字段为:‘不得经营’、‘禁止’、 ‘不包含’、‘不包括’、‘不得’、‘除’、‘不含’、‘不涉及’等,之后可识别 并将包含该预设字段的第二特殊文字信息删除。首先,需要对文本句做所有 “标点符号”的断句。其中,断句可利用python的re模块的字符串分割器split() 函数。其调用语法为,re.split(pattern,string)。split函数根据正则表达式pattern 来分开string,分开的字符存放在返回的列表元素内。变量pattern即为用于 字符串切分的正则表达式字符。具体的,可设定pattern= r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|,|。|、|;|‘|’|【|】|·|! ||…|(|)',即一系列中文语句中的任何“标点符号”作为断句的依据。若断 句之后的小句子中,包含‘不得经营’、‘禁止’、‘不包含’、‘不包括’、‘不 得’、‘除’、‘不含’、‘不涉及’等设定的预设字段,则把此小句子即第二特 殊文字信息剔除,将原文本句中其它未剔除的小句子按照原文顺序重组为目 标文本句,以使每个目标文本句均是以句末标点符号,如‘。’、‘;’、‘!’、‘?’ 等结束。其中,第二特殊文字信息的剔除方法同样使用re.sub()函数的功能。
206、将目标文本句与行业关键词进行信息匹配,并依据匹配结果确定目 标企业对应的目标多级行业。
对于本实施例,在具体的应用场景中,为了进一步确定出目标企业对应 所属的目标多级行业,实施例步骤206具体可以包括:将目标文本句分别与 各个多级行业对应的判定词列进行匹配;若判定词列包括名词判定词列和动 词判定词列,则计算目标文本句与名词判定词列中各个行业关键词的第一相 似度,以及目标文本句与动词判定词列中各个行业关键词的第二相似度;若 确定名词判定词列中存在与目标文本句相似度大于第一预设阈值的第一行业 关键词,且动词判定词列中存在与目标文本句相似度大于第二预设阈值的第 二行业关键词,则将判定词列对应的多级行业确定为目标企业对应的目标多 级行业;或若判定词列包括名词判定词列、动词判定词列和形容词判定词列, 则计算目标文本句与名词判定词列中各个行业关键词的第三相似度、目标文 本句与动词判定词列中各个行业关键词的第四相似度,以及目标文本句与形 容词判定词列中各个行业关键词的第五相似度;若确定名词判定词列中存在 与目标文本句相似度大于第三预设阈值的第三行业关键词,且动词判定词列 中存在与目标文本句相似度大于第四预设阈值的第四行业关键词,且形容词 判定词列中存在与目标文本句相似度大于第五预设阈值的第五行业关键词,则将判定词列对应的多级行业确定为目标企业对应的目标多级行业。
其中,在将预处理后的企业经营数据与行业关键词进行信息匹配,并依 据匹配结果确定目标企业对应的目标多级行业时,具体可通过设定匹配规则, 并利用匹配规则来确定所属的多级行业。可设定匹配规则为:仅用目标文本 句或句子内的关键词,与行业词典中行业关键词进行匹配。在行业词典中, 一个多级行业所对应‘动词’和‘名词’都需要在企业经营数据的目标文本 句中找到。若有‘形容词’也需要匹配上。具体的,可以利用python的字符 串内置函数.count(),该方法返回子字符串在字符串中出现的次数。例如, var_industry_desc是其中一个企业经营数据的目标文本句,在python中只需编 码如,var_industry_desc.count(‘纺织’),即可以判断“纺织”在目标文本句 中出现的次数,若结果大于0,则判定匹配成功。
相应的,在将目标文本句分别与各个多级行业对应的判定词列进行匹配 时,可采用两种方式:一种方式是直接将目标文本句与各个行业关键词进行 匹配,确定目标文本句是否存在与各属性行业关键词均相同的字段信息,若 存在,则确定匹配成功,进一步可确定出目标多级行业。
为了提高匹配速度且为了后续在线学习提供基础,在将目标文本句与判 定词列进行匹配时,还可提供另外一种方式,即对企业经营数据预处理得到 的目标文本句再次做句子内的关键词提取,按照词性归类划分各个关键词, 并与属于同一词性的各个行业关键词进行匹配,确定在行业关键词中是否存 在与之相同的字段,若各个属性的关键词均匹配成功,则可将对应的多级行 业确定为目标多级行业。其中,在进行目标文本句的关键词切分时,可利用 python jieba模块中的cut()函数,jieba.cut()函数也是基于TF-IDF算法的关键 词抽取。cut()函数共有3个分词模式,分别为精确模式、全模式、搜索引擎模 式。精准模式,试图将句子最精确地切开,适合文本分析;全模式,把句子 中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜 索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用 于搜索引擎分词。由于之前已经做了定制化行业词典,对企业经营数据的分 词并不希望做很小的切分,不然行业词典的行业关键词很难与企业经营数据 的分词匹配上,从而可能错过很多有用信息。所以,在本实施例中可选用“精准模式”,即jieba.cut(str_text,cut_all=False),其中,cut_all参数用来控制是否 采用全模式,cut_all=False为精准模式。
此外,作为一种优选方式,为了提高关键词匹配的效率,在利用上述方 法提取出企业经营数据中的关键词后,还可进一步对关键词进行识别,剔除 其中存在的一些停用词,如语气助词、副词、介词、连接词等,这些停用词 通常自身并无什么明确的意义,只有将其放入一个完整的句子中才有一定作 用,如常见的“哎”,“哎哟”,“别的”,“结果”,“让”,“不过”等。由于这 些词很少单独表达文档相关程度的信息,且这些功能词对于区分“多级行业” 基本没有什么帮助,故为了提高索引的速度和节省存储空间,可事先过滤掉 这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与 滤除,比如“百度停用词表”、“哈工大停用词表”等。
例如:原经营范围描述:法律、法规决定规定禁止的不得经营;法律、 法规决定规定无需许可(审批)的,市场主体自主选择经营。(污水处理,中 水的生产和销售,并提供膜工艺的技术咨询及服务)。因“法律、法规决定规 定禁止的不得经营;”、“法律、法规决定规定无需许可(审批)的,市场主体 自主选择经营。”这两个文本句中分别包含预设字段“禁止、不得”和“无需”, 故可确定这两个文本句为第二特殊文字信息,进一步滤除。而后对剩余的目 标文本句“污水处理,中水的生产和销售,并提供膜工艺的技术咨询及服务” 进行关键词提取,可得到企业经营数据中的关键词:名词(污水,中水,膜 工艺,技术,技术咨询),动词(处理,生产,销售,提供,咨询,服务)。
在具体的应用场景中,作为一种优选方式,为了不断提高行业词典的信 息判定精准度,可通过深度学习,采用有监督的关键词抽取算法不断优化补 充定制的行业词典,如在实际操作中,基于企业经营数据无法筛选出对应的 目标多级行业。则需要对模型做优化提升,即需要再次筛选一遍多级行业词 典,剔除词典中对判断多级行业没有帮助的词,并加入遗漏的“动词”、“名 词”、“形容词”等行业关键词。这时候,需要有“有监督”的关键词算法来 做模型提升。由于在使用有监督的关键词抽取算法的前提是,需要足量的样 本,并对样本的归属行业做人工标注,故此时可将业务人员在日常应用此推 荐行业的功能时,最终做出的多级行业选择作为接下来模型的样本集。有监 督的关键词抽取算法可以看作是二分类问题,即判断定制的多级行业词典中 的分词是否对选出目标多级行业有效。后台会记录每个被选出的目标多级行 业对应多级行业词典中的“动词”、“名词”、“形容词”。若被选择,则记录这 几个“动词”、“名词”、“形容词”对于选出此目标多级行业有效,其余没匹 配上的“动词”、“名词”、“形容词”,则认为无效。若业务选择“其他行业”, 则记录当前此多级行业词典中的分词对于选出此“多级行业”也是无效的, 补充“企业经营范围”中的其他“动词”、“名词”、“形容词”进入词典。这 样以类似打标签的方式,为每个多级行业打上高度有效的关键词标签。
借由上述企业多级行业信息的确定方法,可基于TF-IDF算法提取出各个 多级行业对应的行业关键词,进而创建包含多级行业判定词列的行业词典, 通过人工智能将预处理后的企业经营数据与行业词典中的行业关键词进行相 似度匹配,进一步确定出目标企业对应所属的一个或多个目标多级行业,通 过较为真实可靠的企业经营数据确定目标多级行业,可使识别出的企业信息 更加全面可靠,进而能够有效确定出目标企业的真实行业信息,并且通过与 行业词典中行业关键词的对比,可直接快速确定出目标企业对应所属的所有 目标多级行业,故能够有效提高行业划分的效率。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了 一种企业多级行业信息的确定装置,如图3所示,该装置包括:创建模块31、 处理模块32、确定模块33;
创建模块31,可用于创建包含各个行业关键词的行业词典,其中,行业 词典包括行业关键词之间的多级拓扑关系;
处理模块32,可用于对目标企业的企业经营数据进行预处理,得到目标 文本句;
确定模块33,可用于将目标文本句与行业关键词进行信息匹配,并依据 匹配结果确定目标企业对应的目标多级行业。
在具体的应用场景中,为了获取得到包含各个行业关键词的多级行业词 典,如图4所示,创建模块31,具体可包括:提取单元311、划分单元312、 构建单元313;
提取单元311,可用于基于TF-IDF算法提取标准行业书中的行业关键词;
划分单元312,可用于根据语料库识别各个行业关键词的词性,并基于词 性将行业关键词划分为不同属性的判定词列;
构建单元313,可用于根据各个多级行业与对应的判定词列构建行业词典。
相应的,为了提取出各个多级行业对应的行业关键词,提取单元311,具 体可用于根据第一计算公式计算在标准行业书中各个多级行业信息所包含词 语的词频;根据第二计算公式计算在标准行业书中各个多级行业信息所包含 词语的逆向文件频率;基于词频以及逆向文件频率,确定各个词语对应所属 多级行业的相关度;将相关度大于第一预设阈值的词语确定为行业关键词。
其中,第一计算公式的特征描述为:
第二计算公式的特征描述为:
相应的,提取单元311,具体可用于计算同一词语对应的词频和逆向文件 频率的乘积,将乘积确定为词语对应所属多级行业的相关度。
在具体的应用场景中,为了对目标企业的企业经营数据进行预处理,如 图4所示,处理模块32,具体可包括:处理单元321、剔除单元322;
处理单元321,可用于按照预设字符对企业经营数据进行断句处理,获取 得到各个文本句;
剔除单元322,可用于剔除文本句中预设标识内的第一特殊文字信息以及 包含预设字段的第二特殊文字信息,得到各个目标文本句。
相应的,为了确定出目标企业对应所属的目标多级行业,如图4所示, 确定模块33,具体可包括:匹配单元331、计算单元332、确定单元333;
匹配单元331,可用于将目标文本句分别与各个多级行业对应的判定词列 进行匹配;
计算单元332,可用于若判定词列包括名词判定词列和动词判定词列,则 计算目标文本句与名词判定词列中各个行业关键词的第一相似度,以及目标 文本句与动词判定词列中各个行业关键词的第二相似度;
确定单元333,可用于若确定名词判定词列中存在与目标文本句相似度大 于第一预设阈值的第一行业关键词,且动词判定词列中存在与目标文本句相 似度大于第二预设阈值的第二行业关键词,则将判定词列对应的多级行业确 定为目标企业对应的目标多级行业;或
计算单元332,还可用于若判定词列包括名词判定词列、动词判定词列和 形容词判定词列,则计算目标文本句与名词判定词列中各个行业关键词的第 三相似度、目标文本句与动词判定词列中各个行业关键词的第四相似度,以 及目标文本句与形容词判定词列中各个行业关键词的第五相似度;
确定单元333,还可用于若确定名词判定词列中存在与目标文本句相似度 大于第三预设阈值的第三行业关键词,且动词判定词列中存在与目标文本句 相似度大于第四预设阈值的第四行业关键词,且形容词判定词列中存在与目 标文本句相似度大于第五预设阈值的第五行业关键词,则将判定词列对应的 多级行业确定为目标企业对应的目标多级行业。
需要说明的是,本实施例提供的一种企业多级行业信息的确定装置所涉 及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再 赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易 失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实 现上述如图1至图2所示的企业多级行业信息的确定方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来, 该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移 动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例, 为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括 存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用 于执行计算机程序以实现上述如图1至图2所示的企业多级行业信息的确定 方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频 (RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接 口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户 接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的 有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构 成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件, 或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是 管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软 件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之 间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申 请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可基于TF-IDF 算法提取出各个多级行业对应的行业关键词,进而创建包含行业判定词列的 多级行业词典,通过人工智能将预处理后的企业经营数据与多级行业词典中 的行业关键词进行相似度匹配,进一步确定出目标企业对应所属的一个或多 个目标多级行业,通过较为真实可靠的企业经营数据确定目标多级行业,可 使识别出的企业信息更加全面可靠,进而能够有效确定出目标企业的真实行 业信息,并且可通过与行业词典中行业关键词的对比,直接快速确定出目标 企业对应所属的所有目标多级行业,故能够有效提高行业划分的效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中 的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实 施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置 中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述 实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅 为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的 技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种企业多级行业信息的确定方法,其特征在于,包括:
创建包含各个行业关键词的行业词典,其中,所述行业词典包括行业关键词之间的多级拓扑关系;
对目标企业的企业经营数据进行预处理,得到目标文本句;
将所述目标文本句与所述行业关键词进行信息匹配,并依据匹配结果确定所述目标企业对应的目标多级行业。
2.根据权利要求1所述的方法,其特征在于,所述创建包含各个行业关键词的行业词典,包括:
基于TF-IDF算法提取标准行业书中的行业关键词;
根据语料库识别各个所述行业关键词的词性,并基于所述词性将所述行业关键词划分为不同属性的判定词列;
根据各个多级行业与对应的所述判定词列构建行业词典。
3.根据权利要求2所述的方法,其特征在于,所述TF-IDF算法包括:第一计算公式和第二计算公式,所述基于TF-IDF算法提取标准行业书中的行业关键词,包括:
根据所述第一计算公式计算在所述标准行业书中各个多级行业信息所包含词语的词频;
根据所述第二计算公式计算在所述标准行业书中各个多级行业信息所包含词语的逆向文件频率;
基于所述词频以及所述逆向文件频率,确定各个词语对应所属多级行业的相关度;
将所述相关度大于第一预设阈值的词语确定为行业关键词。
5.根据权利要求4所述的方法,其特征在于,所述基于所述词频以及所述逆向文件频率,确定各个词语对应所属多级行业的相关度,包括:
计算同一词语对应的所述词频和所述逆向文件频率的乘积,将所述乘积确定为所述词语对应所属多级行业的相关度。
6.根据权利要求1所述的方法,其特征在于,所述对目标企业的企业经营数据进行预处理,得到目标文本句,包括:
按照预设字符对企业经营数据进行断句处理,获取得到各个文本句;
剔除所述文本句中预设标识内的第一特殊文字信息以及包含预设字段的第二特殊文字信息,得到各个目标文本句。
7.根据权利要求6所述的方法,其特征在于,将所述目标文本句与所述行业关键词进行信息匹配,并依据匹配结果确定所述目标企业对应的目标多级行业,包括:
将所述目标文本句分别与各个多级行业对应的判定词列进行匹配;
若所述判定词列包括名词判定词列和动词判定词列,则计算所述目标文本句与所述名词判定词列中各个行业关键词的第一相似度,以及所述目标文本句与所述动词判定词列中各个行业关键词的第二相似度;
若确定所述名词判定词列中存在与所述目标文本句相似度大于第一预设阈值的第一行业关键词,且所述动词判定词列中存在与所述目标文本句相似度大于第二预设阈值的第二行业关键词,则将所述判定词列对应的所述多级行业确定为所述目标企业对应的目标多级行业;或
若判定词列包括名词判定词列、动词判定词列和形容词判定词列,则计算所述目标文本句与所述名词判定词列中各个行业关键词的第三相似度、所述目标文本句与所述动词判定词列中各个行业关键词的第四相似度,以及所述目标文本句与所述形容词判定词列中各个行业关键词的第五相似度;
若确定所述名词判定词列中存在与所述目标文本句相似度大于第三预设阈值的第三行业关键词,且所述动词判定词列中存在与所述目标文本句相似度大于第四预设阈值的第四行业关键词,且所述形容词判定词列中存在与所述目标文本句相似度大于第五预设阈值的第五行业关键词,则将所述判定词列对应的所述多级行业确定为所述目标企业对应的目标多级行业。
8.一种企业多级行业信息的确定装置,其特征在于,包括:
创建模块,用于创建包含各个行业关键词的行业词典,其中,所述行业词典包括行业关键词之间的多级拓扑关系;
处理模块,用于对目标企业的企业经营数据进行预处理,得到目标文本句;
确定模块,用于将所述目标文本句与所述行业关键词进行信息匹配,并依据匹配结果确定所述目标企业对应的目标多级行业。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的企业多级行业信息的确定方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的企业多级行业信息的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584609.3A CN111767716B (zh) | 2020-06-24 | 2020-06-24 | 企业多级行业信息的确定方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584609.3A CN111767716B (zh) | 2020-06-24 | 2020-06-24 | 企业多级行业信息的确定方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767716A true CN111767716A (zh) | 2020-10-13 |
CN111767716B CN111767716B (zh) | 2024-05-28 |
Family
ID=72722200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010584609.3A Active CN111767716B (zh) | 2020-06-24 | 2020-06-24 | 企业多级行业信息的确定方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767716B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065343A (zh) * | 2021-03-25 | 2021-07-02 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113255370A (zh) * | 2021-06-22 | 2021-08-13 | 中国平安财产保险股份有限公司 | 基于语义相似度的行业类型推荐方法、装置、设备及介质 |
CN113377904A (zh) * | 2021-06-04 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113420978A (zh) * | 2021-06-18 | 2021-09-21 | 中国神华能源股份有限公司国华电力分公司 | 一种自动检测方法和电子设备 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
CN113869640A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 企业筛选方法、装置、电子设备及存储介质 |
CN113869639A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
CN115905506A (zh) * | 2023-02-21 | 2023-04-04 | 江西省科技事务中心 | 基础理论文件推送方法、系统、计算机及可读存储介质 |
CN117033561A (zh) * | 2023-10-07 | 2023-11-10 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
-
2020
- 2020-06-24 CN CN202010584609.3A patent/CN111767716B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
张越;刘琦岩;张玄玄;望俊成;: "科技成果转化政策文本中的领域关键词汇提取研究", 中国科技资源导刊, vol. 50, no. 03, pages 68 - 75 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065343A (zh) * | 2021-03-25 | 2021-07-02 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113377904A (zh) * | 2021-06-04 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113377904B (zh) * | 2021-06-04 | 2024-05-10 | 百度在线网络技术(北京)有限公司 | 行业动作识别方法、装置、电子设备及存储介质 |
CN113420978A (zh) * | 2021-06-18 | 2021-09-21 | 中国神华能源股份有限公司国华电力分公司 | 一种自动检测方法和电子设备 |
CN113255370B (zh) * | 2021-06-22 | 2022-09-20 | 中国平安财产保险股份有限公司 | 基于语义相似度的行业类型推荐方法、装置、设备及介质 |
CN113255370A (zh) * | 2021-06-22 | 2021-08-13 | 中国平安财产保险股份有限公司 | 基于语义相似度的行业类型推荐方法、装置、设备及介质 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
CN113869639A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
CN113869639B (zh) * | 2021-08-26 | 2023-11-07 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
CN113869640A (zh) * | 2021-08-26 | 2021-12-31 | 中国环境科学研究院 | 企业筛选方法、装置、电子设备及存储介质 |
CN115905506A (zh) * | 2023-02-21 | 2023-04-04 | 江西省科技事务中心 | 基础理论文件推送方法、系统、计算机及可读存储介质 |
CN117033561A (zh) * | 2023-10-07 | 2023-11-10 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
CN117033561B (zh) * | 2023-10-07 | 2023-12-26 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111767716B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US12039074B2 (en) | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
US11687218B1 (en) | User interface for use with a search engine for searching financial related documents | |
US20120124064A1 (en) | Transformation of regular expressions | |
US20180032527A1 (en) | Automated Search Matching | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
Zhang et al. | EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
Bianchi et al. | Identifying e‐Commerce in Enterprises by means of Text Mining and Classification Algorithms | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
Hu et al. | The methods of big data fusion and semantic collision detection in Internet of Thing | |
CN110941713B (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
RU2755606C2 (ru) | Способ и система классификации данных для выявления конфиденциальной информации в тексте | |
Hirsch et al. | Evolving rules for document classification | |
Kang et al. | A transfer learning algorithm for automatic requirement model generation | |
CN111782601A (zh) | 电子文件的处理方法、装置、电子设备及机器可读介质 | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |