CN111597304A

CN111597304A - 一种中文企业名实体精准识别二次匹配方法

Info

Publication number: CN111597304A
Application number: CN202010410620.8A
Authority: CN
Inventors: 刘建国; 李仁德; 郭强; 王梓懿; 马皓添
Original assignee: Shanghai university of finance and economics
Current assignee: Shanghai university of finance and economics
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-28
Anticipated expiration: 2040-05-15
Also published as: CN111597304B

Abstract

本发明提供了一种中文企业名实体精准识别二次匹配方法，通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。通过BiLSTM‑CRF模型从公众舆论中提取潜在实体并通过TF‑IDF通过特征词提取特征词。其次，通过Jaro‑Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后，二次识别需要构建一个行业特征词词典，根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明，本发明最高关联率和准确率分别为0.93和0.95，比仅使用一次匹配过程的准确率提到约30％。

Description

一种中文企业名实体精准识别二次匹配方法

技术领域

本发明涉及文本识别技术领域，具体涉及一种中文企业名实体精准识别二次匹配方法。

背景技术

公众舆论通常包含指向社会认知的特定实体关键信息。实体识别是信息检索与自然语言处理的核心技术之一。传统的信息检索与自然语言处理技术已经能够准确识别中文名称实体，但是非规范的公众表达往往涉及多个实体，混淆了真正目标指向的对象。

针对信息检索技术，中国专利申请CN201910129259.9公开了一种通讯录联系人的企业名称自动补全的方法。中国专利申请CN201511016095.7公开了一种数据检索及检索结果呈现方法和系统，其中方法包括：基于获取的企业名称作为关键字在诉讼案件资源库中进行匹配，以得到至少一个匹配企业，并将匹配企业确立为目标企业。中国专利申请CN201810508600.7提供了一种猎头招聘信息获取方法和系统响应于猎头公司网站检索信息，将行业按照检索频次的高低由高到低排列；获取检索频次在预设频次范围的行业的企业名单；按照企业名单获取各招聘网站的企业招聘信息，获取未在招聘网站上发布招聘信息的企业内部网站的招聘信息；按照具有招聘信息的企业名单，获取各大招聘网站上与在预设频次范围的行业相关的求职者简历；分析求职者简历与企业招聘信息之间的匹配度，将简历与企业招聘信息进行存储；推送合作意向与合作要求给具有招聘要求的企业。

信息检索技术解决的是检索名称与实体名称的一一对应关系问题。已有的方法的新颖性体现在技术应用领域的创新，还缺少在一对多、多对多的关系中识别出唯一的一对一关系技术。

针对自然语言处理技术，与数据库检索相关的有：中国专利申请CN201810717283.X公开了一种互联网用户所属企业的识别方法、装置和终端，所述方法包括：获取用于接入无线访问接入点的服务集标识符，根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络；构建企业信息库，并在企业信息库中提取企业的实体特征；计算企业类无线网络和企业的实体特征之间的相似度，以建立企业类无线网络和企业之间的第一映射关系；获取目标用户使用无线访问接入点的数据信息，以建立无线访问接入点与所述目标用户的第二映射关系；根据第一映射关系和第二映射关系生成所述目标用户所属企业的识别结果。中国专利申请CN201810121667.5提出一种企业实体的识别方法、装置、计算机设备及存储介质，其中，方法包括：采集舆情文本进行分词处理，得到分词结果；根据所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称；根据所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称；将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过该方法，能够从网络舆情文本中提取出企业实体，提高企业实体识别的准确率。

此外，纯文本实体识别技术中，中国专利申请CN201610286191.1涉及自然语言处理领域，特别涉及一种企业实体名称分析识别系统，所述系统包括双向递归神经网络模块，所述系统使用现有企业名称数据库中存储的企业名称标注训练样本来训练双向递归神经网络，所述双向递归神经网络识别出待处理文本中的企业名称，并将不属于现有企业名称的名称提取出来。中国专利申请CN201710371464.7公开一种面向纯文本的企业实体分类方法，包括如下步骤：S1、对采集到的纯文本数据中的企业实体进行类别标注，作为企业实体识别模块的训练集；对采集到的纯文本数据中的企业实体按照行业性质进行类别标注，以作为企业实体分类模块的训练样本集；S2、通过条件随机场模型进行企业实体识别模型训练，并得到企业实体识别模型；S3、对原始训练集的文本数据进行语义向量化构建；S4、将经语义向量化后的有类别标注的训练集数据作为训练参数训练出企业实体分类模型；S5、利用企业实体分类模型对待预测文本中的企业实体进行分类。该方法用得到的语义向量作为实体的特征，减少对人工特征和外部数据的依赖，并且通用性和健壮性得到保证。

自然语言处理技术解决的是从已有数据中，准确地把所有企业名称提取出来。已有的方法的新颖性体现在企业名称识别的模型与流程。但存在的问题是，企业名有短名(字号)与全名(企业名全称)，与公众提到的企业名以短名，在涉及匹配问题的时候，就涉及到短名与全名的匹配比较。

综上，现有的中文企业名识别技术，与公众舆论中具有歧义的表达匹配无法实现精准识别。当舆论中提及多个企业名实体，同时还包含了对相关实体的描述词时，具体针对的对象可能存在歧义。

发明内容

针对现有技术的不足，本发明旨在提供一种中文企业名实体精准识别二次匹配方法。

为了实现上述目的，本发明采用如下技术方案：

一种中文企业名实体精准识别二次匹配方法，具体包括如下步骤：

S1、从工商局获取企业基础信息，构建企业名称词库；所述企业基础信息包括企业全称、归属行业及经营范围；所述企业名称词库中的企业名称由字号和行业构成；

S2、爬取舆情文本信息内容；

S3、对舆情文本信息内容进行初步切词、分词，得到关键词集合；

S4、采用BiLSTM-CRF算法，提取舆情文本信息内容的关键词集合中的中文企业名实体；

S5、采用TF-IDF算法在舆情文本信息内容的关键词集合中提取与步骤S4得到各个中文企业名实体相关的舆情描述特征词，并采用TF-IDF算法在从工商局获取的企业基础信息中各个行业的经营范围描述特征词并存入企业名称词库中行业的数据集里；

S6、采用Jaro-Winkler distance算法，对舆情文本信息内容中涉及的关键词与企业名称词库进行一次匹配；

一次匹配的具体过程为：

记企业名称词库为{C_·,I_·}，{C_·}为字号集合，{I_·}为行业集合，由字号和行业构成的企业名称为企业名称字库中的实体特征；关键词集合记为{a_·}；分五种情况处理：

1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征，即a_i＝C_j+I_k，则完成匹配；

2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征，即a_i∈{C_j,I_k}，那么需要判断匹配到的实体特征是否在关键词集合中出现，如仅有一个实体特征在关键词集合中出现，即C_j+I_k∈{a_·}，则完成匹配，否则无法匹配；

3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征，即{a_·}∩{C_·,I_·}，需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数：

如果有一个实体特征在关键词中出现的次数高于其他实体特征的话，即n₁>n₂>…，那么再检验该实体特征是否出现在关键词中，即C_j+I_k∈{a_·}，如果是，完成匹配，否则无法匹配；如果有多个实体特征出现的次数相同，即n₁＝n₂＝…＝n_m，那么需要检验每个实体特征是否在关键词中出现，如果仅有一个实体特征出现在关键词中，即

则完成匹配，否则无法匹配；

4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征，由于{a_·}包含了行业特征词，先剔除行业特征词{a_·}-{I_·}，并作如下判断：如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征a_i∈{C_j,I_k}，则判断匹配到的每个实体特征是否在关键词集合中出现，如有一个实体特征在关键词集合中出现，即C_j+I_k∈{a_·}，则完成匹配，否则无法匹配；

5)如果关键词集合与企业名称词库存在单映射的关系，即{a_·}→{C_·,I_·}，则跳转至步骤S7进行二次匹配；

S7、二次匹配：

S7.1、根据一次匹配中情况5)的匹配结果，建立行业特征词词典，所述行业特征词词典包括有一次匹配中匹配到的中文企业名实体、中文企业名实体相关的舆情描述特征词，以及中文企业名实体匹配到的字号、字号归属的行业和各行业对应的经营范围描述特征词；

S7.2、引入行业特征词词典进行二次匹配：

首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数，如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体，即有n₁>n₂>…，则完成匹配；如果有多个中文企业名实体对应的出现的次数相同，即n₁＝n₂＝…＝n_m，那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现，如果仅有一个实体特征在关键词中出现，即

则完成匹配，否则无法匹配。

进一步地，步骤S3中，使用Python的j ieba分词对舆情文本信息内容进行初步切词、分词。

进一步地，步骤S4的具体过程如下：

使用BIO标注集，其中标签B-PER和I-PER分别代表人名首字和人名非首字，标签B-LOC和I-LOC分别代表地名首字和地名非首字，标签B-ORG和I-ORG分别代表组织机构名首字和组织机构名非首字，标签O代表该字不属于命名实体的一部分；

以句子为单位，将一个含有n个字的句子记作：

x＝(x₁，x₂，...，x_n)；

其中x_i表示句子的第i个字,i＝1,2,…,n；由此可以得到每个字的one-hot向量；

BiLSTM-CRF模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维稠密的字向量

d是embedding矩阵的维度；在输入下一层之前，设置dropout以缓解过拟合；

BiLSTM-CRF模型的第二层是双向LSTM层，用于自动提取句子特征；将一个句子的各个字的字向量的序列(x₁，x₂，...，x_n)作为双向LSTM层各个时间步的输入，再将正向LSTM输出的隐状态序列

与反向LSTM输出的隐状态序列

在各个位置输出的隐状态进行按位置拼接

得到完整的隐状态序列

在设置dropout后，接入一个线性层，将完整的隐状态序列从m维映射到k维，k是BIO标注集的标签数，从而得到自动提取的句子特征，记作矩阵

p_i(i＝1,...,n)分别表示句子中每个字x_i的特征；

把

中的每一维p_ij都视作将字x_i分类到第j个标签的打分值，接下来将接入一个CRF层来进行标注；BiLSTM-CRF模型的第三层是CRF层，用于进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的转移矩阵A，转移矩阵A中的每个A_ij表示的是从第i个标签到第j个标签的转移得分；如果记一个长度等于句子长度的标签序列为y＝(y₁，y₂，...，y_n)，那么BiLSTM-CRF模型对于句子x的标签等于y的打分为：

整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由p_i决定，另一部分则由CRF的转移矩阵A决定；进而可以利用Softmax得到归一化后的概率：

其中y’表示所有可能的标签序列集合中的任一个标签序列；

BiLSTM-CRF模型训练时通过最大化对数似然函数进行，下式给出了对一个训练样本(x，y)的对数似然：

log(p(y|x))＝score(x，y)-log(∑_y，exp(score(x，y′))；

BiLSTM-CRF模型在预测过程时使用动态规划的Viterbi算法来求解最优路径：

进一步地，步骤S5中，采用TF-IDF算法提取特征词的过程为：

对于给定的文档，文档中各个词的词频表示为：

式中，分子表示文档d_j中的第i个词w_ij出现的次数，分母表示文档d_j中所有词出现的次数之和；反文档频率为：

式中，分子表示文档的总数，分母表示包含词语w_ij的文档数目；

idf_i表示文档的总数D与包含有词语w_ij的文档数目求商之后的对数值，tfidf_ij＝tf_ij×idf_i，tfidf_ij的值越大表示词w_ij的重要性越大、越关键；选择权重最大的前Q个词作为特征词。

本发明的有益效果在于：当前，公众舆论涉及大量非规范的表达导致了评论的对象模糊且具有歧义，本发明通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。具体通过BiLSTM-CRF模型从公众舆论中提取潜在实体并通过TF-IDF通过特征词提取特征词。其次，通过Jaro-Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后，二次识别需要构建一个行业特征词词典，根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明，本发明最高关联率和准确率分别为0.93和0.95，比仅使用一次匹配过程的准确率提到约30％。

附图说明

图1为本发明实施例的方法总体流程示意图；

图2为本发明实施例中一次匹配与行业特征词词典构建方法流程图；

图3为本发明实施例中二次匹配方法全流程框架图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供了一种中文企业名实体精准识别二次匹配方法，具体包括如下步骤：

构成企业名称的四项基本要素是“行政区划”、“字号”、“行业”、“组织形式”。在配对实体信息时，企业名称中“字号”与“行业”，是用到的两项关键的内容。

S2、从新浪微博等渠道中爬取舆情文本信息内容；

S3、对舆情文本信息内容使用Python的j ieba分词进行初步切词、分词，得到关键词集合；

S4、采用BiLSTM-CRF算法，提取舆情文本信息内容的关键词集合中的中文企业名实体；具体过程如下：

以句子为单位，将一个含有n个字的句子(字的序列)记作：

x＝(x₁，x₂，...，x_n)；

BiLSTM-CRF模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维稠密的字向量(character embedding)

d是embedding矩阵的维度。在输入下一层之前，设置dropout以缓解过拟合。

与反向LSTM输出的隐状态序列

在各个位置输出的隐状态进行按位置拼接

得到完整的隐状态序列

p_i(i＝1,...,n)分别表示句子中每个字x_i的特征；

把

中的每一维p_ij都视作将字x_i分类到第j个标签的打分值，如果再对矩阵P进行Softmax分类的话，就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息，所以接下来将接入一个CRF层来进行标注。

BiLSTM-CRF模型的第三层是CRF层，用于进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的转移矩阵A，转移矩阵A中的每个A_ij表示的是从第i个标签到第j个标签的转移得分，进而在为一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列为y＝(y₁，y₂，...，y_n)，那么BiLSTM-CRF模型对于句子x的标签等于y的打分为：

可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由p_i决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率：

其中y’表示所有可能的标签序列集合中的任一个标签序列。

log(p(y|x))＝score(x，y)-log(∑_y，exp(score(x，y′))；

BiLSTM-CRF模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径：

采用TF-IDF算法提取特征词的过程为：

对于给定的文档(舆情文档或企业基础信息文档)，文档中各个词的词频表示为：

式中，分子表示文档d_j中的第i个词w_ij出现的次数，分母表示文档d_j中所有词出现的次数之和。反文档频率为：

式中，分子表示文档的总数，分母表示包含词语w_ij的文档数目。

idf_i表示文档的总数D与包含有词语w_ij的文档数目求商之后的对数值，tfidf_ij＝tf_ij×idf_i，tfidf_ij的值越大表示词w_ij的重要性越大、越关键；选择权重最大的前20个词作为特征词。

在本实施例中，采用Jaro-Winkler distance算法来进行一次匹配。Jaro-Winklerdistance是计算2个字符串之间相似度的一种算法，最早提出是用来判定健康记录上两个名字是否相同，适合于串比如名字这样较短的字符之间计算相似度。给定两个字符串s₁和s₂，首先计算Jaro相似性：

其中，d_i是相似性得分，|s₁|和|s₂|是字符串长度，m是匹配的字符数(保证顺序相同)，t是换位数目。

只有当s₁和s₂的字符相同，且距离不超过

时才认为该两个字符是匹配的。将s₁和s₂匹配的字符进行比较，相同位置但字符不同的字符数除以2就是换位数目t。

Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数，它定义了一个前缀范围q，对于要匹配的两个字符串，如果前缀部分有长度为L的部分字符串相同，则Jaro-Winkler Distance为：

d_w＝d_i+L·q(1-d_i),

L是前缀部分匹配的长度，考虑到企业名称中“字号”以两个字名称居多，用户投诉中文企业名称简称也以两个字为多，因此这里设定L＝2；q是一个范围因子常量，用来调整前缀匹配的权值，但是q的值不能超过0.25，如果超过0.25，则最后得分可能超过1分。Winkler的标准默认设置值q＝0.1。计算得到的Jaro-Winkler Distance d_w在0到1之间，0分表示没有任何相似度，1分则代表完全匹配。

一次匹配的具体过程为：

1)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的实体特征，即a_i＝C_j+I_k，则完成匹配(图3中的(1))；

2)如果关键词集合中仅有一个关键词匹配到了企业名称词库中的多个实体特征，即a_i∈{C_j,I_k}(图3中的(2))，那么需要判断匹配到的实体特征是否在关键词集合中出现，如仅有一个实体特征在关键词集合中出现，即C_j+I_k∈{a_·}(图3中的(3))，则完成匹配，否则无法匹配；

3)如果存在多个关键词分别匹配到了企业名称词库中的多个实体特征，即{a_·}∩{C_·,I_·}(图3中的(4))，需要统计匹配到的实体特征在舆论文本信息内容的关键词中出现的次数(图3中的(5))：

如果有一个实体特征在关键词中出现的次数高于其他实体特征的话，即n₁>n₂>…(图3中的(6))，那么再检验该实体特征是否出现在关键词中，即C_j+I_k∈{a_·}(图3中的(7))，如果是，完成匹配，否则无法匹配；如果有多个实体特征出现的次数相同，即n₁＝n₂＝…＝n_m，那么需要检验每个实体特征是否在关键词中出现，如果仅有一个实体特征出现在关键词中，即

(图3中的(8))，则完成匹配，否则无法匹配；

4)如果关键词集合中没有关键词对应到了企业名称词库中的实体特征，由于{a_·}包含了行业特征词，先剔除行业特征词{a_·}-{I_·}(图3中的(9))，并作如下判断：如果只剩下一个关键词匹配到了企业名称词库中的多个实体特征a_i∈{C_j,I_k}(图3(10))，则判断匹配到的每个实体特征是否在关键词集合中出现，如有一个实体特征在关键词集合中出现，即C_j+I_k∈{a_·}(图3中的(3))，则完成匹配，否则无法匹配；

5)如果关键词集合与企业名称词库存在单映射的关系(多个关键词与企业名称词库实体特征一一对应)，即{a_·}→{C_·,I_·}(图3(11))，，则跳转至步骤S7进行二次匹配；

S7、二次匹配：

行业特征词词典中，两个最重要特征是高频舆情描述特征词与经营范围描述特征词(如图2的(b)中最后两列所示)。

舆情文本信息内容进行分词、切词后会得到关键词集合a＝{a₁,a₂,a₃,……}，关键词集合中包含了中文企业名实体

舆情文本信息内容中的中文企业名实体往往是非规范用词，有一部分能匹配到企业名称词库，与规范的字号C＝{C₁,C₂,C₃,……}对应，而这些字号对应了行业I＝{I₁,I₂,I₃,……}(如图2的(a)所示)。

于是，根据行业I，重新整理得到初始化的行业特征词词典，其中包括：中文企业名实体c(舆论文本信息内容中的非规范词)、舆情描述特征词、中文企业名实体匹配到的字号C(企业名称词库中的规范词)、字号对应的归属行业及行业对应的经营范围描述特征词。

S7.2、引入行业特征词词典进行二次匹配：

首先统计行业特征词词典中各个中文企业名实体对应的舆情描述特征词和经营范围描述特征词在关键词中的出现次数(图3(12))，如果有一个中文企业名实体对应的出现次数高于其他中文企业名实体，即有n₁>n₂>…(图3(13))，则完成匹配(注意，这里由于已经是单映射的关系，因此无需如图3中(7))的检验)。如果有多个中文企业名实体出现的次数相同，即n₁＝n₂＝…＝n_m，那么需要检验每个中文企业名实体对应的企业名称词库实体特征是否在关键词中出现，如果仅有一个实体特征在关键词中出现，即

(如图3中的(14))，则完成匹配，否则无法匹配。

S9、定义匹配关联率和准确率评价系统效率。

在本实施例中，以疫情为背景为样本池选择了3个类别，包括：电商(454条微博)、旅游(285条微博)、租赁(391条微博)、时间为2020年1月1日至2月1日期间。在3个数据集上分别随机抽取了150条已匹配的投诉记录，通过人工标注的方式进行手动配对企业名录，与算法配对的结果验证。定义2个指标：1)关联率：算法匹配的记录数/测试集中投诉记录数，该指标为全局指标，不涉及人工验证；2)准确率：人工验证正确的算法匹配记录数/人工匹配记录数，该指标为抽样指标，仅对比500条/每领域中的抽样记录。公式表示为：

其中，|c|为测试集中用户投诉的企业名称c的总数，

为算法匹配得到的配对集合，

为人工匹配得到的配对集合。对此测试结果如表1所示：

表1 匹配效果对比

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。