CN111597304A - 一种中文企业名实体精准识别二次匹配方法 - Google Patents

一种中文企业名实体精准识别二次匹配方法 Download PDF

Info

Publication number
CN111597304A
CN111597304A CN202010410620.8A CN202010410620A CN111597304A CN 111597304 A CN111597304 A CN 111597304A CN 202010410620 A CN202010410620 A CN 202010410620A CN 111597304 A CN111597304 A CN 111597304A
Authority
CN
China
Prior art keywords
word
entity
matching
enterprise name
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010410620.8A
Other languages
English (en)
Other versions
CN111597304B (zh
Inventor
刘建国
李仁德
郭强
王梓懿
马皓添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai university of finance and economics
Original Assignee
Shanghai university of finance and economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai university of finance and economics filed Critical Shanghai university of finance and economics
Priority to CN202010410620.8A priority Critical patent/CN111597304B/zh
Publication of CN111597304A publication Critical patent/CN111597304A/zh
Application granted granted Critical
Publication of CN111597304B publication Critical patent/CN111597304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种中文企业名实体精准识别二次匹配方法,通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。通过BiLSTM‑CRF模型从公众舆论中提取潜在实体并通过TF‑IDF通过特征词提取特征词。其次,通过Jaro‑Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。

Description

一种中文企业名实体精准识别二次匹配方法
技术领域
本发明涉及文本识别技术领域,具体涉及一种中文企业名实体精准识别二次匹配方法。
背景技术
公众舆论通常包含指向社会认知的特定实体关键信息。实体识别是信息检索与自然语言处理的核心技术之一。传统的信息检索与自然语言处理技术已经能够准确识别中文名称实体,但是非规范的公众表达往往涉及多个实体,混淆了真正目标指向的对象。
针对信息检索技术,中国专利申请CN201910129259.9公开了一种通讯录联系人的企业名称自动补全的方法。中国专利申请CN201511016095.7公开了一种数据检索及检索结果呈现方法和系统,其中方法包括:基于获取的企业名称作为关键字在诉讼案件资源库中进行匹配,以得到至少一个匹配企业,并将匹配企业确立为目标企业。中国专利申请CN201810508600.7提供了一种猎头招聘信息获取方法和系统响应于猎头公司网站检索信息,将行业按照检索频次的高低由高到低排列;获取检索频次在预设频次范围的行业的企业名单;按照企业名单获取各招聘网站的企业招聘信息,获取未在招聘网站上发布招聘信息的企业内部网站的招聘信息;按照具有招聘信息的企业名单,获取各大招聘网站上与在预设频次范围的行业相关的求职者简历;分析求职者简历与企业招聘信息之间的匹配度,将简历与企业招聘信息进行存储;推送合作意向与合作要求给具有招聘要求的企业。
信息检索技术解决的是检索名称与实体名称的一一对应关系问题。已有的方法的新颖性体现在技术应用领域的创新,还缺少在一对多、多对多的关系中识别出唯一的一对一关系技术。
针对自然语言处理技术,与数据库检索相关的有:中国专利申请CN201810717283.X公开了一种互联网用户所属企业的识别方法、装置和终端,所述方法包括:获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络;构建企业信息库,并在企业信息库中提取企业的实体特征;计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系;获取目标用户使用无线访问接入点的数据信息,以建立无线访问接入点与所述目标用户的第二映射关系;根据第一映射关系和第二映射关系生成所述目标用户所属企业的识别结果。中国专利申请CN201810121667.5提出一种企业实体的识别方法、装置、计算机设备及存储介质,其中,方法包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过该方法,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。
此外,纯文本实体识别技术中,中国专利申请CN201610286191.1涉及自然语言处理领域,特别涉及一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,所述系统使用现有企业名称数据库中存储的企业名称标注训练样本来训练双向递归神经网络,所述双向递归神经网络识别出待处理文本中的企业名称,并将不属于现有企业名称的名称提取出来。中国专利申请CN201710371464.7公开一种面向纯文本的企业实体分类方法,包括如下步骤:S1、对采集到的纯文本数据中的企业实体进行类别标注,作为企业实体识别模块的训练集;对采集到的纯文本数据中的企业实体按照行业性质进行类别标注,以作为企业实体分类模块的训练样本集;S2、通过条件随机场模型进行企业实体识别模型训练,并得到企业实体识别模型;S3、对原始训练集的文本数据进行语义向量化构建;S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型;S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。该方法用得到的语义向量作为实体的特征,减少对人工特征和外部数据的依赖,并且通用性和健壮性得到保证。
自然语言处理技术解决的是从已有数据中,准确地把所有企业名称提取出来。已有的方法的新颖性体现在企业名称识别的模型与流程。但存在的问题是,企业名有短名(字号)与全名(企业名全称),与公众提到的企业名以短名,在涉及匹配问题的时候,就涉及到短名与全名的匹配比较。
综上,现有的中文企业名识别技术,与公众舆论中具有歧义的表达匹配无法实现精准识别。当舆论中提及多个企业名实体,同时还包含了对相关实体的描述词时,具体针对的对象可能存在歧义。
发明内容
针对现有技术的不足,本发明旨在提供一种中文企业名实体精准识别二次匹配方法。
为了实现上述目的,本发明采用如下技术方案:
一种中文企业名实体精准识别二次匹配方法,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
S2、爬取舆情文本信息内容;
S3、对舆情文本信息内容进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配;
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik},那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·},需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数:
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…,那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·},如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即
Figure BDA0002493054820000051
Figure BDA0002493054820000052
则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·},并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik},则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系,即{a·}→{C·,I·},则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
S7.2、引入行业特征词词典进行二次匹配:
首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数,如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体,即有n1>n2>…,则完成匹配;如果有多个中文企业名实体对应的出现的次数相同,即n1=n2=…=nm,那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现,如果仅有一个实体特征在关键词中出现,即
Figure BDA0002493054820000061
则完成匹配,否则无法匹配。
进一步地,步骤S3中,使用Python的j ieba分词对舆情文本信息内容进行初步切词、分词。
进一步地,步骤S4的具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,…,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量
Figure BDA0002493054820000071
d是embedding矩阵的维度;在输入下一层之前,设置dropout以缓解过拟合;
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列(x1,x2,...,xn)作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure BDA0002493054820000072
与反向LSTM输出的隐状态序列
Figure BDA0002493054820000073
在各个位置输出的隐状态进行按位置拼接
Figure BDA0002493054820000074
得到完整的隐状态序列
Figure BDA0002493054820000075
在设置dropout后,接入一个线性层,将完整的隐状态序列从m维映射到k维,k是BIO标注集的标签数,从而得到自动提取的句子特征,记作矩阵
Figure BDA0002493054820000076
pi(i=1,...,n)分别表示句子中每个字xi的特征;
Figure BDA0002493054820000081
中的每一维pij都视作将字xi分类到第j个标签的打分值,接下来将接入一个CRF层来进行标注;BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分;如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
Figure BDA0002493054820000082
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定;进而可以利用Softmax得到归一化后的概率:
Figure BDA0002493054820000083
其中y’表示所有可能的标签序列集合中的任一个标签序列;
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y,exp(score(x,y′));
BiLSTM-CRF模型在预测过程时使用动态规划的Viterbi算法来求解最优路径:
Figure BDA0002493054820000084
进一步地,步骤S5中,采用TF-IDF算法提取特征词的过程为:
对于给定的文档,文档中各个词的词频表示为:
Figure BDA0002493054820000091
式中,分子表示文档dj中的第i个词wij出现的次数,分母表示文档dj中所有词出现的次数之和;反文档频率为:
Figure BDA0002493054820000092
式中,分子表示文档的总数,分母表示包含词语wij的文档数目;
idfi表示文档的总数D与包含有词语wij的文档数目求商之后的对数值,tfidfij=tfij×idfi,tfidfij的值越大表示词wij的重要性越大、越关键;选择权重最大的前Q个词作为特征词。
本发明的有益效果在于:当前,公众舆论涉及大量非规范的表达导致了评论的对象模糊且具有歧义,本发明通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。具体通过BiLSTM-CRF模型从公众舆论中提取潜在实体并通过TF-IDF通过特征词提取特征词。其次,通过Jaro-Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。
附图说明
图1为本发明实施例的方法总体流程示意图;
图2为本发明实施例中一次匹配与行业特征词词典构建方法流程图;
图3为本发明实施例中二次匹配方法全流程框架图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供了一种中文企业名实体精准识别二次匹配方法,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
构成企业名称的四项基本要素是“行政区划”、“字号”、“行业”、“组织形式”。在配对实体信息时,企业名称中“字号”与“行业”,是用到的两项关键的内容。
S2、从新浪微博等渠道中爬取舆情文本信息内容;
S3、对舆情文本信息内容使用Python的j ieba分词进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子(字的序列)记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,…,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(character embedding)
Figure BDA0002493054820000111
d是embedding矩阵的维度。在输入下一层之前,设置dropout以缓解过拟合。
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列(x1,x2,...,xn)作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure BDA0002493054820000112
与反向LSTM输出的隐状态序列
Figure BDA0002493054820000113
在各个位置输出的隐状态进行按位置拼接
Figure BDA0002493054820000114
得到完整的隐状态序列
Figure BDA0002493054820000115
在设置dropout后,接入一个线性层,将完整的隐状态序列从m维映射到k维,k是BIO标注集的标签数,从而得到自动提取的句子特征,记作矩阵
Figure BDA0002493054820000116
pi(i=1,...,n)分别表示句子中每个字xi的特征;
Figure BDA0002493054820000117
中的每一维pij都视作将字xi分类到第j个标签的打分值,如果再对矩阵P进行Softmax分类的话,就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息,所以接下来将接入一个CRF层来进行标注。
BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
Figure BDA0002493054820000121
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
Figure BDA0002493054820000122
其中y’表示所有可能的标签序列集合中的任一个标签序列。
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y,exp(score(x,y′));
BiLSTM-CRF模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
Figure BDA0002493054820000131
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
采用TF-IDF算法提取特征词的过程为:
对于给定的文档(舆情文档或企业基础信息文档),文档中各个词的词频表示为:
Figure BDA0002493054820000132
式中,分子表示文档dj中的第i个词wij出现的次数,分母表示文档dj中所有词出现的次数之和。反文档频率为:
Figure BDA0002493054820000133
式中,分子表示文档的总数,分母表示包含词语wij的文档数目。
idfi表示文档的总数D与包含有词语wij的文档数目求商之后的对数值,tfidfij=tfij×idfi,tfidfij的值越大表示词wij的重要性越大、越关键;选择权重最大的前20个词作为特征词。
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
在本实施例中,采用Jaro-Winkler distance算法来进行一次匹配。Jaro-Winklerdistance是计算2个字符串之间相似度的一种算法,最早提出是用来判定健康记录上两个名字是否相同,适合于串比如名字这样较短的字符之间计算相似度。给定两个字符串s1和s2,首先计算Jaro相似性:
Figure BDA0002493054820000141
其中,di是相似性得分,|s1|和|s2|是字符串长度,m是匹配的字符数(保证顺序相同),t是换位数目。
只有当s1和s2的字符相同,且距离不超过
Figure BDA0002493054820000142
时才认为该两个字符是匹配的。将s1和s2匹配的字符进行比较,相同位置但字符不同的字符数除以2就是换位数目t。
Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数,它定义了一个前缀范围q,对于要匹配的两个字符串,如果前缀部分有长度为L的部分字符串相同,则Jaro-Winkler Distance为:
dw=di+L·q(1-di),
L是前缀部分匹配的长度,考虑到企业名称中“字号”以两个字名称居多,用户投诉中文企业名称简称也以两个字为多,因此这里设定L=2;q是一个范围因子常量,用来调整前缀匹配的权值,但是q的值不能超过0.25,如果超过0.25,则最后得分可能超过1分。Winkler的标准默认设置值q=0.1。计算得到的Jaro-Winkler Distance dw在0到1之间,0分表示没有任何相似度,1分则代表完全匹配。
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配(图3中的(1));
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik}(图3中的(2)),那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·}(图3中的(3)),则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·}(图3中的(4)),需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数(图3中的(5)):
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…(图3中的(6)),那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·}(图3中的(7)),如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即
Figure BDA0002493054820000151
Figure BDA0002493054820000152
(图3中的(8)),则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·}(图3中的(9)),并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik}(图3(10)),则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·}(图3中的(3)),则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系(多个关键词与企业名称词库实体特征一一对应),即{a·}→{C·,I·}(图3(11)),,则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
行业特征词词典中,两个最重要特征是高频舆情描述特征词与经营范围描述特征词(如图2的(b)中最后两列所示)。
舆情文本信息内容进行分词、切词后会得到关键词集合a={a1,a2,a3,……},关键词集合中包含了中文企业名实体
Figure BDA0002493054820000161
Figure BDA0002493054820000162
舆情文本信息内容中的中文企业名实体往往是非规范用词,有一部分能匹配到企业名称词库,与规范的字号C={C1,C2,C3,……}对应,而这些字号对应了行业I={I1,I2,I3,……}(如图2的(a)所示)。
于是,根据行业I,重新整理得到初始化的行业特征词词典,其中包括:中文企业名实体c(舆论文本信息内容中的非规范词)、舆情描述特征词、中文企业名实体匹配到的字号C(企业名称词库中的规范词)、字号对应的归属行业及行业对应的经营范围描述特征词。
S7.2、引入行业特征词词典进行二次匹配:
首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数(图3(12)),如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体,即有n1>n2>…(图3(13)),则完成匹配(注意,这里由于已经是单映射的关系,因此无需如图3中(7))的检验)。如果有多个中文企业名实体出现的次数相同,即n1=n2=…=nm,那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现,如果仅有一个实体特征在关键词中出现,即
Figure BDA0002493054820000173
Figure BDA0002493054820000174
(如图3中的(14)),则完成匹配,否则无法匹配。
S9、定义匹配关联率和准确率评价系统效率。
在本实施例中,以疫情为背景为样本池选择了3个类别,包括:电商(454条微博)、旅游(285条微博)、租赁(391条微博)、时间为2020年1月1日至2月1日期间。在3个数据集上分别随机抽取了150条已匹配的投诉记录,通过人工标注的方式进行手动配对企业名录,与算法配对的结果验证。定义2个指标:1)关联率:算法匹配的记录数/测试集中投诉记录数,该指标为全局指标,不涉及人工验证;2)准确率:人工验证正确的算法匹配记录数/人工匹配记录数,该指标为抽样指标,仅对比500条/每领域中的抽样记录。公式表示为:
Figure BDA0002493054820000171
Figure BDA0002493054820000172
其中,|c|为测试集中用户投诉的企业名称c的总数,
Figure BDA0002493054820000181
为算法匹配得到的配对集合,
Figure BDA0002493054820000182
为人工匹配得到的配对集合。对此测试结果如表1所示:
表1 匹配效果对比
Figure BDA0002493054820000183
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (4)

1.一种中文企业名实体精准识别二次匹配方法,其特征在于,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
S2、爬取舆情文本信息内容;
S3、对舆情文本信息内容进行初步切词、分词,得到关键词集合;
S4、采用BiLSTM-CRF算法,提取舆情文本信息内容的关键词集合中的中文企业名实体;
S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词,并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里;
S6、采用Jaro-Winkler distance算法,对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配;
一次匹配的具体过程为:
记企业名称词库为{C·,I·},{C·}为字号集合,{I·}为行业集合,由字号和行业构成的企业名称为企业名称字库中的实体特征;关键词集合记为{a·};分五种情况处理:
1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征,即ai=Cj+Ik,则完成匹配;
2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征,即ai∈{Cj,Ik},那么需要判断匹配到的实体特征是否在关键词集合中出现,如仅有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征,即{a·}∩{C·,I·},需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数:
如果有一个实体特征在关键词中出现的次数高于其他实体特征的话,即n1>n2>…,那么再检验该实体特征是否出现在关键词中,即Cj+Ik∈{a·},如果是,完成匹配,否则无法匹配;如果有多个实体特征出现的次数相同,即n1=n2=…=nm,那么需要检验每个实体特征是否在关键词中出现,如果仅有一个实体特征出现在关键词中,即
Figure FDA0002493054810000021
Figure FDA0002493054810000022
则完成匹配,否则无法匹配;
4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征,由于{a·}包含了行业特征词,先剔除行业特征词{a·}-{I·},并作如下判断:如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征ai∈{Cj,Ik},则判断匹配到的每个实体特征是否在关键词集合中出现,如有一个实体特征在关键词集合中出现,即Cj+Ik∈{a·},则完成匹配,否则无法匹配;
5)如果关键词集合与企业名称词库存在单映射的关系,即{a·}→{C·,I·},则跳转至步骤S7进行二次匹配;
S7、二次匹配:
S7.1、根据一次匹配中情况5)的匹配结果,建立行业特征词词典,所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词,以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词;
S7.2、引入行业特征词词典进行二次匹配:
首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数,如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体,即有n1>n2>…,则完成匹配;如果有多个中文企业名实体对应的出现的次数相同,即n1=n2=…=nm,那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现,如果仅有一个实体特征在关键词中出现,即
Figure FDA0002493054810000031
则完成匹配,否则无法匹配。
2.根据权利要求1所述的方法,其特征在于,步骤S3中,使用Python的jieba分词对舆情文本信息内容进行初步切词、分词。
3.根据权利要求1所述的方法,其特征在于,步骤S4的具体过程如下:
使用BIO标注集,其中标签B-PER和I-PER分别代表人名首字和人名非首字,标签B-LOC和I-LOC分别代表地名首字和地名非首字,标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字,标签O代表该字不属于命名实体的一部分;
以句子为单位,将一个含有n个字的句子记作:
x=(x1,x2,...,xn);
其中xi表示句子的第i个字,i=1,2,...,n;由此可以得到每个字的one-hot向量;
BiLSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量
Figure FDA0002493054810000041
d是embedding矩阵的维度;在输入下一层之前,设置dropout以缓解过拟合;
BiLSTM-CRF模型的第二层是双向LSTM层,用于自动提取句子特征;将一个句子的各个字的字向量的序列(x1,x2,...,xn)作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure FDA0002493054810000042
与反向LSTM输出的隐状态序列
Figure FDA0002493054810000043
在各个位置输出的隐状态进行按位置拼接
Figure FDA0002493054810000044
得到完整的隐状态序列
Figure FDA0002493054810000045
在设置dropout后,接入一个线性层,将完整的隐状态序列从m维映射到k维,k是BI0标注集的标签数,从而得到自动提取的句子特征,记作矩阵
Figure FDA0002493054810000046
pi(i=1,...,n)分别表示句子中每个字xi的特征;
Figure FDA0002493054810000047
中的每一维pij都视作将字xi分类到第j个标签的打分值,接下来将接入一个CRF层来进行标注;BiLSTM-CRF模型的第三层是CRF层,用于进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的转移矩阵A,转移矩阵A中的每个Aij表示的是从第i个标签到第j个标签的转移得分;如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),那么BiLSTM-CRF模型对于句子x的标签等于y的打分为:
Figure FDA0002493054810000051
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由pi决定,另一部分则由CRF的转移矩阵A决定;进而可以利用Softmax得到归一化后的概率:
Figure FDA0002493054810000052
其中y′表示所有可能的标签序列集合中的任一个标签序列;
BiLSTM-CRF模型训练时通过最大化对数似然函数进行,下式给出了对一个训练样本(x,y)的对数似然:
log(p(y|x))=score(x,y)-log(∑y,exp(score(x,y′));
BiLSTM-CRF模型在预测过程时使用动态规划的Viterbi算法来求解最优路径:
Figure FDA0002493054810000053
4.根据权利要求1所述的方法,其特征在于,步骤S5中,采用TF-IDF算法提取特征词的过程为:
对于给定的文档,文档中各个词的词频表示为:
Figure FDA0002493054810000054
式中,分子表示文档dj中的第i个词wij出现的次数,分母表示文档dj中所有词出现的次数之和;反文档频率为:
Figure FDA0002493054810000061
式中,分子表示文档的总数,分母表示包含词语wij的文档数目;
idfi表示文档的总数D与包含有词语wij的文档数目求商之后的对数值,tfidfij=tfij×idfi,tfidfij的值越大表示词wij的重要性越大、越关键;
选择权重最大的前Q个词作为特征词。
CN202010410620.8A 2020-05-15 2020-05-15 一种中文企业名实体精准识别二次匹配方法 Active CN111597304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010410620.8A CN111597304B (zh) 2020-05-15 2020-05-15 一种中文企业名实体精准识别二次匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010410620.8A CN111597304B (zh) 2020-05-15 2020-05-15 一种中文企业名实体精准识别二次匹配方法

Publications (2)

Publication Number Publication Date
CN111597304A true CN111597304A (zh) 2020-08-28
CN111597304B CN111597304B (zh) 2023-04-07

Family

ID=72190988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010410620.8A Active CN111597304B (zh) 2020-05-15 2020-05-15 一种中文企业名实体精准识别二次匹配方法

Country Status (1)

Country Link
CN (1) CN111597304B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113239261A (zh) * 2021-06-18 2021-08-10 红盾大数据(北京)有限公司 企业名称匹配方法及装置
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统
CN113643158A (zh) * 2021-08-06 2021-11-12 杨洪志 一种根据不标准企业名称多维度统计企业专利的方法
CN113901172A (zh) * 2021-09-16 2022-01-07 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质
CN114298038A (zh) * 2022-03-07 2022-04-08 北京英视睿达科技股份有限公司 企业名称的模糊匹配方法、装置、存储介质及计算机设备
CN114742062A (zh) * 2022-05-24 2022-07-12 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114880996A (zh) * 2022-03-01 2022-08-09 中国人民解放军92728部队 基于分段加权相似度匹配算法的机构名称归一化方法
CN114943234A (zh) * 2022-06-27 2022-08-26 企查查科技有限公司 企业名称链接方法、装置、计算机设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN109559169A (zh) * 2018-11-26 2019-04-02 上海财经大学 一种基于在线用户评分的敏锐用户识别的方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109871526A (zh) * 2017-12-01 2019-06-11 武汉楚鼎信息技术有限公司 一种股票行业的语义识别方法及系统装置
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN109871526A (zh) * 2017-12-01 2019-06-11 武汉楚鼎信息技术有限公司 一种股票行业的语义识别方法及系统装置
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN109559169A (zh) * 2018-11-26 2019-04-02 上海财经大学 一种基于在线用户评分的敏锐用户识别的方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘建国等: "基于有限信息的网络邻接关系识别研究" *
李仁徳等: "Topic Discovery and Clustering Research for Online Courses Based on Text Mining" *
顾溢: "基于BiLSTM-CRF的复杂中文命名实体识别研究" *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN112163153B (zh) * 2020-09-30 2024-05-03 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113239261A (zh) * 2021-06-18 2021-08-10 红盾大数据(北京)有限公司 企业名称匹配方法及装置
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统
CN113643158A (zh) * 2021-08-06 2021-11-12 杨洪志 一种根据不标准企业名称多维度统计企业专利的方法
CN113901172A (zh) * 2021-09-16 2022-01-07 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
CN113901172B (zh) * 2021-09-16 2024-04-26 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
CN113987145B (zh) * 2021-10-22 2024-02-02 智联网聘信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质
CN114880996A (zh) * 2022-03-01 2022-08-09 中国人民解放军92728部队 基于分段加权相似度匹配算法的机构名称归一化方法
CN114298038A (zh) * 2022-03-07 2022-04-08 北京英视睿达科技股份有限公司 企业名称的模糊匹配方法、装置、存储介质及计算机设备
CN114742062B (zh) * 2022-05-24 2022-08-23 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114742062A (zh) * 2022-05-24 2022-07-12 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114943234A (zh) * 2022-06-27 2022-08-26 企查查科技有限公司 企业名称链接方法、装置、计算机设备、存储介质
CN114943234B (zh) * 2022-06-27 2024-03-19 企查查科技股份有限公司 企业名称链接方法、装置、计算机设备、存储介质

Also Published As

Publication number Publication date
CN111597304B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111597304B (zh) 一种中文企业名实体精准识别二次匹配方法
Jung Semantic vector learning for natural language understanding
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Neculoiu et al. Learning text similarity with siamese recurrent networks
CN111767368B (zh) 一种基于实体链接的问答知识图谱构建方法及存储介质
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
WO2023040493A1 (zh) 事件检测
CN114090762B (zh) 一种期货领域的自动问答方法和系统
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Sarkar A hidden markov model based system for entity extraction from social media english text at fire 2015
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
CN113688633A (zh) 一种提纲确定方法及装置
CN114328902A (zh) 文本标注模型构建方法和装置
CN112000782A (zh) 一种基于k-means聚类算法的智能客服问答系统
Sheikh et al. Improved neural bag-of-words model to retrieve out-of-vocabulary words in speech recognition
CN111858885A (zh) 一种关键词分离的用户问题意图识别方法
Tüselmann et al. Named entity linking on handwritten document images
CN113220850B (zh) 一种面向庭审阅卷的案件画像挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant