CN111597304B - 一种中文企业名实体精准识别二次匹配方法 - Google Patents
一种中文企业名实体精准识别二次匹配方法 Download PDFInfo
- Publication number
- CN111597304B CN111597304B CN202010410620.8A CN202010410620A CN111597304B CN 111597304 B CN111597304 B CN 111597304B CN 202010410620 A CN202010410620 A CN 202010410620A CN 111597304 B CN111597304 B CN 111597304B
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- matching
- enterprise
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 2
- 230000007115 recruitment Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000011597 CGF1 Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000004039 social cognition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种中文企业名实体精准识别二次匹配方法,通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。通过BiLSTM‑CRF模型从公众舆论中提取潜在实体并通过TF‑IDF通过特征词提取特征词。其次,通过Jaro‑Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。
Description
技术领域
本发明涉及文本识别技术领域,具体涉及一种中文企业名实体精准识别二次匹配方法。
背景技术
公众舆论通常包含指向社会认知的特定实体关键信息。实体识别是信息检索与自然语言处理的核心技术之一。传统的信息检索与自然语言处理技术已经能够准确识别中文名称实体,但是非规范的公众表达往往涉及多个实体,混淆了真正目标指向的对象。
针对信息检索技术,中国专利申请CN201910129259.9公开了一种通讯录联系人的企业名称自动补全的方法。中国专利申请CN201511016095.7公开了一种数据检索及检索结果呈现方法和系统,其中方法包括:基于获取的企业名称作为关键字在诉讼案件资源库中进行匹配,以得到至少一个匹配企业,并将匹配企业确立为目标企业。中国专利申请CN201810508600.7提供了一种猎头招聘信息获取方法和系统响应于猎头公司网站检索信息,将行业按照检索频次的高低由高到低排列;获取检索频次在预设频次范围的行业的企业名单;按照企业名单获取各招聘网站的企业招聘信息,获取未在招聘网站上发布招聘信息的企业内部网站的招聘信息;按照具有招聘信息的企业名单,获取各大招聘网站上与在预设频次范围的行业相关的求职者简历;分析求职者简历与企业招聘信息之间的匹配度,将简历与企业招聘信息进行存储;推送合作意向与合作要求给具有招聘要求的企业。
信息检索技术解决的是检索名称与实体名称的一一对应关系问题。已有的方法的新颖性体现在技术应用领域的创新,还缺少在一对多、多对多的关系中识别出唯一的一对一关系技术。
针对自然语言处理技术,与数据库检索相关的有:中国专利申请CN201810717283.X公开了一种互联网用户所属企业的识别方法、装置和终端,所述方法包括:获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络;构建企业信息库,并在企业信息库中提取企业的实体特征;计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系;获取目标用户使用无线访问接入点的数据信息,以建立无线访问接入点与所述目标用户的第二映射关系;根据第一映射关系和第二映射关系生成所述目标用户所属企业的识别结果。中国专利申请CN201810121667.5提出一种企业实体的识别方法、装置、计算机设备及存储介质,其中,方法包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过该方法,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。
此外,纯文本实体识别技术中,中国专利申请CN201610286191.1涉及自然语言处理领域,特别涉及一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,所述系统使用现有企业名称数据库中存储的企业名称标注训练样本来训练双向递归神经网络,所述双向递归神经网络识别出待处理文本中的企业名称,并将不属于现有企业名称的名称提取出来。中国专利申请CN201710371464.7公开一种面向纯文本的企业实体分类方法,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,以作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。该方法用得到的语义向量作为实体的特征,减少对人工特征和外部数据的依赖,并且通用性和健壮性得到保证。
自然语言处理技术解决的是从已有数据中,准确地把所有企业名称提取出来。已有的方法的新颖性体现在企业名称识别的模型与流程。但存在的问题是,企业名有短名(字号)与全名(企业名全称),与公众提到的企业名以短名,在涉及匹配问题的时候,就涉及到短名与全名的匹配比较。
综上,现有的中文企业名识别技术,与公众舆论中具有歧义的表达匹配无法实现精准识别。当舆论中提及多个企业名实体,同时还包含了对相关实体的描述词时,具体针对的对象可能存在歧义。
发明内容
针对现有技术的不足,本发明旨在提供一种中文企业名实体精准识别二次匹配方法。
为了实现上述目的,本发明采用如下技术方案:
一种中文企业名实体精准识别二次匹配方法,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
S2、爬取舆情文本信息内容;
S3、对舆情文本信息内容进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配;
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik},那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·},需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数:
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…,那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·},如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即 则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·},并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik},则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系,即{a·}→{C·,I·},则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
S7.2、引入行业特征词词典进行二次匹配:
首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数,如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体,即有n1>n2>…,则完成匹配;如果有多个中文企业名实体对应的出现的次数相同,即n1=n2=…=nm,那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现,如果仅有一个实体特征在关键词中出现,即则完成匹配,否则无法匹配。
进一步地,步骤S3中,使用Python的j ieba分词对舆情文本信息内容进行初步切词、分词。
进一步地,步骤S4的具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,…,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量d是embedding矩阵的维度;在输入下一层之前,设置dropout以缓解过拟合;
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列(x1,x2,...,xn)作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列
把中的每一维pij都视作将字xi分类到第j个标签的打分值,接下来将接入一个CRF层来进行标注;BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分;如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定;进而可以利用Softmax得到归一化后的概率:
其中y’表示所有可能的标签序列集合中的任一个标签序列;
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y,exp(score(x,y′));
BiLSTM-CRF模型在预测过程时使用动态规划的Viterbi算法来求解最优路径:
进一步地,步骤S5中,采用TF-IDF算法提取特征词的过程为:
对于给定的文档,文档中各个词的词频表示为:
式中,分子表示文档dj中的第i个词wij出现的次数,分母表示文档dj中所有词出现的次数之和;反文档频率为:
式中,分子表示文档的总数,分母表示包含词语wij的文档数目;
idfi表示文档的总数D与包含有词语wij的文档数目求商之后的对数值,tfidfij=tfij×idfi,tfidfij的值越大表示词wij的重要性越大、越关键;选择权重最大的前Q个词作为特征词。
本发明的有益效果在于:当前,公众舆论涉及大量非规范的表达导致了评论的对象模糊且具有歧义,本发明通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。具体通过BiLSTM-CRF模型从公众舆论中提取潜在实体并通过TF-IDF通过特征词提取特征词。其次,通过Jaro-Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。
附图说明
图1为本发明实施例的方法总体流程示意图;
图2为本发明实施例中一次匹配与行业特征词词典构建方法流程图;
图3为本发明实施例中二次匹配方法全流程框架图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供了一种中文企业名实体精准识别二次匹配方法,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
构成企业名称的四项基本要素是“行政区划”、“字号”、“行业”、“组织形式”。在配对实体信息时,企业名称中“字号”与“行业”,是用到的两项关键的内容。
S2、从新浪微博等渠道中爬取舆情文本信息内容;
S3、对舆情文本信息内容使用Python的j ieba分词进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子(字的序列)记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,…,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(character embedding)d是embedding矩阵的维度。在输入下一层之前,设置dropout以缓解过拟合。
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列(x1,x2,...,xn)作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列
把中的每一维pij都视作将字xi分类到第j个标签的打分值,如果再对矩阵P进行Softmax分类的话,就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息,所以接下来将接入一个CRF层来进行标注。
BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
其中y’表示所有可能的标签序列集合中的任一个标签序列。
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y,exp(score(x,y′));
BiLSTM-CRF模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
采用TF-IDF算法提取特征词的过程为:
对于给定的文档(舆情文档或企业基础信息文档),文档中各个词的词频表示为:
式中,分子表示文档dj中的第i个词wij出现的次数,分母表示文档dj中所有词出现的次数之和。反文档频率为:
式中,分子表示文档的总数,分母表示包含词语wij的文档数目。
idfi表示文档的总数D与包含有词语wij的文档数目求商之后的对数值,tfidfij=tfij×idfi,tfidfij的值越大表示词wij的重要性越大、越关键;选择权重最大的前20个词作为特征词。
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
在本实施例中,采用Jaro-Winkler distance算法来进行一次匹配。Jaro-Winklerdistance是计算2个字符串之间相似度的一种算法,最早提出是用来判定健康记录上两个名字是否相同,适合于串比如名字这样较短的字符之间计算相似度。给定两个字符串s1和s2,首先计算Jaro相似性:
其中,di是相似性得分,|s1|和|s2|是字符串长度,m是匹配的字符数(保证顺序相同),t是换位数目。
Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数,它定义了一个前缀范围q,对于要匹配的两个字符串,如果前缀部分有长度为L的部分字符串相同,则Jaro-Winkler Distance为:
dw=di+L·q(1-di),
L是前缀部分匹配的长度,考虑到企业名称中“字号”以两个字名称居多,用户投诉中文企业名称简称也以两个字为多,因此这里设定L=2;q是一个范围因子常量,用来调整前缀匹配的权值,但是q的值不能超过0.25,如果超过0.25,则最后得分可能超过1分。Winkler的标准默认设置值q=0.1。计算得到的Jaro-Winkler Distance dw在0到1之间,0分表示没有任何相似度,1分则代表完全匹配。
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配(图3中的(1));
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik}(图3中的(2)),那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·}(图3中的(3)),则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·}(图3中的(4)),需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数(图3中的(5)):
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…(图3中的(6)),那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·}(图3中的(7)),如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即 (图3中的(8)),则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·}(图3中的(9)),并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik}(图3(10)),则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·}(图3中的(3)),则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系(多个关键词与企业名称词库实体特征一一对应),即{a·}→{C·,I·}(图3(11)),,则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
行业特征词词典中,两个最重要特征是高频舆情描述特征词与经营范围描述特征词(如图2的(b)中最后两列所示)。
舆情文本信息内容进行分词、切词后会得到关键词集合a={a1,a2,a3,……},关键词集合中包含了中文企业名实体 舆情文本信息内容中的中文企业名实体往往是非规范用词,有一部分能匹配到企业名称词库,与规范的字号C={C1,C2,C3,……}对应,而这些字号对应了行业I={I1,I2,I3,……}(如图2的(a)所示)。
于是,根据行业I,重新整理得到初始化的行业特征词词典,其中包括:中文企业名实体c(舆论文本信息内容中的非规范词)、舆情描述特征词、中文企业名实体匹配到的字号C(企业名称词库中的规范词)、字号对应的归属行业及行业对应的经营范围描述特征词。
S7.2、引入行业特征词词典进行二次匹配:
首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数(图3(12)),如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体,即有n1>n2>…(图3(13)),则完成匹配(注意,这里由于已经是单映射的关系,因此无需如图3中(7))的检验)。如果有多个中文企业名实体出现的次数相同,即n1=n2=…=nm,那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现,如果仅有一个实体特征在关键词中出现,即 (如图3中的(14)),则完成匹配,否则无法匹配。
S9、定义匹配关联率和准确率评价系统效率。
在本实施例中,以疫情为背景为样本池选择了3个类别,包括:电商(454条微博)、旅游(285条微博)、租赁(391条微博)、时间为2020年1月1日至2月1日期间。在3个数据集上分别随机抽取了150条已匹配的投诉记录,通过人工标注的方式进行手动配对企业名录,与算法配对的结果验证。定义2个指标:1)关联率:算法匹配的记录数/测试集中投诉记录数,该指标为全局指标,不涉及人工验证;2)准确率:人工验证正确的算法匹配记录数/人工匹配记录数,该指标为抽样指标,仅对比500条/每领域中的抽样记录。公式表示为:
表1 匹配效果对比
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (4)
1.一种中文企业名实体精准识别二次匹配方法,其特征在于,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
S2、爬取舆情文本信息内容;
S3、对舆情文本信息内容进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配;
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik},那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·},需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数:
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…,那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·},如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即 则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·},并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik},则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系,即{a·}→{C·,I·},则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
S7.2、引入行业特征词词典进行二次匹配:
2.根据权利要求1所述的方法,其特征在于,步骤S3中,使用Python的jieba分词对舆情文本信息内容进行初步切词、分词。
3.根据权利要求1所述的方法,其特征在于,步骤S4的具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,...,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量d是embedding矩阵的维度;在输入下一层之前,设置dropout以缓解过拟合;
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列
把中的每一维pij都视作将字xi分类到第j个标签的打分值,接下来将接入一个CRF层来进行标注;BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分;如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定;进而可以利用Softmax得到归一化后的概率:
其中y’表示所有可能的标签序列集合中的任一个标签序列;
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y′exp(score(x,y′)));
BiLSTM-CRF模型在预测过程时使用动态规划的Viterbi算法来求解最优路径:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010410620.8A CN111597304B (zh) | 2020-05-15 | 2020-05-15 | 一种中文企业名实体精准识别二次匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010410620.8A CN111597304B (zh) | 2020-05-15 | 2020-05-15 | 一种中文企业名实体精准识别二次匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597304A CN111597304A (zh) | 2020-08-28 |
CN111597304B true CN111597304B (zh) | 2023-04-07 |
Family
ID=72190988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010410620.8A Active CN111597304B (zh) | 2020-05-15 | 2020-05-15 | 一种中文企业名实体精准识别二次匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597304B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231472B (zh) * | 2020-09-18 | 2022-07-29 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN112163153B (zh) * | 2020-09-30 | 2024-05-03 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
CN112199588A (zh) * | 2020-09-30 | 2021-01-08 | 深圳壹账通智能科技有限公司 | 舆情文本筛选方法及装置 |
CN113177412A (zh) * | 2021-04-05 | 2021-07-27 | 北京智慧星光信息技术有限公司 | 基于bert的命名实体识别方法、系统、电子设备及存储介质 |
CN113239261A (zh) * | 2021-06-18 | 2021-08-10 | 红盾大数据(北京)有限公司 | 企业名称匹配方法及装置 |
CN113254596B (zh) * | 2021-06-22 | 2021-10-08 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113643158A (zh) * | 2021-08-06 | 2021-11-12 | 杨洪志 | 一种根据不标准企业名称多维度统计企业专利的方法 |
CN113901172B (zh) * | 2021-09-16 | 2024-04-26 | 昆明理工大学 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
CN113987145B (zh) * | 2021-10-22 | 2024-02-02 | 智联网聘信息技术有限公司 | 一种精准推理用户属性实体的方法、系统、设备和存储介质 |
CN114880996B (zh) * | 2022-03-01 | 2024-08-09 | 中国人民解放军92728部队 | 基于分段加权相似度匹配算法的机构名称归一化方法 |
CN114298038A (zh) * | 2022-03-07 | 2022-04-08 | 北京英视睿达科技股份有限公司 | 企业名称的模糊匹配方法、装置、存储介质及计算机设备 |
CN114742062B (zh) * | 2022-05-24 | 2022-08-23 | 启客(北京)科技有限公司 | 文本关键词提取处理方法及系统 |
CN114943234B (zh) * | 2022-06-27 | 2024-03-19 | 企查查科技股份有限公司 | 企业名称链接方法、装置、计算机设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109559169A (zh) * | 2018-11-26 | 2019-04-02 | 上海财经大学 | 一种基于在线用户评分的敏锐用户识别的方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN109871526A (zh) * | 2017-12-01 | 2019-06-11 | 武汉楚鼎信息技术有限公司 | 一种股票行业的语义识别方法及系统装置 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
-
2020
- 2020-05-15 CN CN202010410620.8A patent/CN111597304B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN109871526A (zh) * | 2017-12-01 | 2019-06-11 | 武汉楚鼎信息技术有限公司 | 一种股票行业的语义识别方法及系统装置 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109559169A (zh) * | 2018-11-26 | 2019-04-02 | 上海财经大学 | 一种基于在线用户评分的敏锐用户识别的方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘建国等.基于有限信息的网络邻接关系识别研究.《电子科技大学学报》.2019,全文. * |
李仁徳等.Topic Discovery and Clustering Research for Online Courses Based on Text Mining.《Shanghai Ligong Daxue Xuebao/Journal of University of Shanghai for Science and Technology》.2018,全文. * |
顾溢.基于BiLSTM-CRF的复杂中文命名实体识别研究.《中国知网硕士电子期刊》.2019,(第6期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111597304A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597304B (zh) | 一种中文企业名实体精准识别二次匹配方法 | |
US11914954B2 (en) | Methods and systems for generating declarative statements given documents with questions and answers | |
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Jung | Semantic vector learning for natural language understanding | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN111767368B (zh) | 一种基于实体链接的问答知识图谱构建方法及存储介质 | |
CN110502738A (zh) | 中文命名实体识别方法、装置、设备和查询系统 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
GB2572320A (en) | Hate speech detection system for online media content | |
CN117648916A (zh) | 文本相似度识别模型训练方法和文本相关信息获取方法 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
Sarkar | A hidden markov model based system for entity extraction from social media english text at fire 2015 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 | |
CN110941713B (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN111625722B (zh) | 一种基于深度学习的人才推荐方法、系统及存储介质 | |
CN111858885B (zh) | 一种关键词分离的用户问题意图识别方法 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN114328902A (zh) | 文本标注模型构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |