CN113553400A

CN113553400A - 一种企业知识图谱实体链接模型的构建方法及装置

Info

Publication number: CN113553400A
Application number: CN202110845479.9A
Authority: CN
Inventors: 朱安安; 邱彦林; 赵粉玉; 俞一奇
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-26

Abstract

本发明涉及一种企业知识图谱实体链接模型的构建方法及装置，包括对待链接企业实体进行企业名称实体识别标注；进行行业门类分类和模糊匹配，得到精准行业类别，对完成实体识别的企业拆分，将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体；待链接企业实体与知识图谱中的企业进行相似度评分，按照评分进行实体链接或知识图谱关系链接，完成实体链接和知识图谱数据补充。本发明根据企业名称构造的特性，对序列标注得到的行业信息、地点信息以及企业专有名词信息分别进行相似度计算，并予以不同的权重，从而得到更为合理的企业名称之间的相似度值，根据相似度值大小完成实体链接的工作。

Description

一种企业知识图谱实体链接模型的构建方法及装置

技术领域

本发明涉及信息处理技术领域，具体为一种企业知识图谱实体链接模型的构建方法及装置。

背景技术

随着信息技术的发展，网络上充斥着越来越多元化的文本数据信息，基于行业知识图谱的语义搜索、智能推理等应用越来越广泛。而在构建知识图谱的过程中，对于一个实体，往往有着不同的命名或描述方式。特别是在企业知识图谱中，一个企业实体可能拥有着多种别称、简称或不规范描述的情况，这对知识图谱构建的准确性造成了一定的影响。也为企业知识图谱数据扩充与实体链接的工作带来了不小的挑战。

目前的企业知识图谱构建中，针对企业实体链接往往采用两种方式：第一种是根据企业的如法人、组织关系等相关关联信息构建特征工程进行实体链接；另一种是通过企业名称硬匹配或模糊匹配的方式完成实体链接。第一种方法准确性较高，但往往需要较多的企业关联信息，若仅仅在文本中获取了企业的名称而无其他额外信息则难以完成准确的实体链接。对于第二种方法，由于企业名称为短文本数据，且对于除描述地点、行业外的信息一字之差往往就代表着不同的企业，因此，采用模糊匹配或硬匹配的实体链接模型准确率较低。鉴于此，需要一种针对企业知识图谱的实体链接模型来进行企业名称的实体链接。

发明内容

本发明要解决的问题是针对企业名称实体的特殊情况，构建一种企业实体链接模型，对于文本中抽取到的采用简称、别称等的企业名称链接至企业知识图谱中。并同时在企业名称中抽取出行业、地点及关联公司等相关信息，用这些信息对企业知识图谱进行补充。

本发明技术方法是：

一种企业知识图谱实体链接模型的构建方法，其包括以下步骤：

s1：对待链接企业实体进行企业名称实体识别，并进行序列标注；

s2：对标注为行业实体的文本进行行业门类分类，在分入的行业门类下进行行业子类目的模糊匹配，得到精准行业类别；

s3：按照企业名称结尾标记对完成实体识别的企业拆分，将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体；

s4：待链接企业实体与知识图谱中的企业进行相似度评分，按照评分进行实体链接或知识图谱关系链接，完成实体链接和知识图谱数据补充。

优选地，s1中采用Bi-LSTM-CRF进行实体识别。

优选地，s1中企业名称实体识别具体包括以下步骤：

s11文本数据处理：在训练阶段，对每个企业名称进行实体识别，进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾；

s12数据标注：对文本按字进行拆分，按照BMESO的策略给予每个字一个标签，非实体则全部标注为“O”，实体长度为一个字符，则该实体直接标注为“S_实体名称”，否则将该实体的开头字符标注为“B_实体名称”，中间字标注为“M_实体名称”，最后一个字标注为“E_实体名称”

s13实体识别模型建立：采用one-hot对输入文本按字进行编码，编码后向量即为模型的输入向量；将向量输入Bi-LSTM模型中，经过Bi-LSTM模型编码得到输入的每个字的最终状态向量，保存最终状态向量，将最终状态向量输出CRF模型进行解码，得到最终的序列标注结果；

s14在预测阶段，对于获取到的待链接企业实体，将其输入训练好的序列标注模型，输出该企业的序列标注结果。

优选地，s2中采用贝叶斯分类算法进行行业文本分类，具体包括以下步骤：

s21根据国民经济行业划分，构建每个行业的类别训练数据：根据行业分类结果首先确定企业所属的国民经济行业门类，在该门类下依次与其中的大类、中类和小类的行业名称进行模糊匹配，选择行业实体与国民经济分类名称中相似度最高的类别进行链接，作为该企业的行业类别信息；

s22采用贝叶斯模型对标注的数据集进行训练：将行业文本采用LAC进行分词，然后将分词后的词语通过计算词频，将文本进行向量化处理，最后对向量化后的文本采用贝叶斯分类器进行分类。

优选地，s4中根据s1的实体识别结果和s2的行业分类结果，对待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，具体步骤包括：

s41对待链接企业名称A与知识图谱中的一个企业名称B进行实体识别；

s42对待链接企业名称A和知识图谱中的一个企业名称B中抽取出的实体进行编码转换；

s43待链接企业名称A和知识图谱中的一个企业名称B进行实体相似度计算，不同类型的实体给予不同的权重，综合计算最终两企业名称的相似度。

一种企业知识图谱实体链接模型的构建装置，包括：

名称序列标注模块，用于企业名称实体识别和序列标注；

行业实体分类与匹配模块，用于行业实体的门类分类和个门类下小类目的模糊匹配；

行业名称拆解模块，用于对企业名称中包含母公司的企业进行拆分，并将拆分结果作为企业之间的关系存储至企业知识图谱中，完成企业知识图谱企业间关系的补充；

行业相似度打分模块，用于待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，进行实体链接。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述企业知识图谱实体链接模型的构建方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述企业知识图谱实体链接模型的构建方法的计算机程序。

本发明的有益效果是：

针对企业名称相似度较高，文本长度较短，以往的实体链接模型准确率较差的问题。本发明提出了一种对企业名称进行特定实体类型序列标注，根据企业名称构造的特性，对序列标注得到的行业信息、地点信息以及企业专有名词信息分别进行相似度计算，并予以不同的权重，从而得到更为合理的企业名称之间的相似度值，根据相似度值大小完成实体链接的工作。并在实体链接的同时根据序列标注结果对企业进行行业分类，完成企业与行业关联关系的补充；另外，还对企业名称进行拆分，找出企业主体，进行子公司之间的关系连接，从而对企业知识图谱进行补充。在提高了实体链接准确率的同时还完成了知识图谱知识的补充工作。

附图说明

图1为发明发明方法流程图；

图2为本发明系统结构框图；

具体实施方式

为进一步了解本发明的内容，结合实施例对本发明作详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

如图1所示，本身实施例涉及一种企业知识图谱实体链接模型的构建方法，其包括以下步骤：

s1：需要对企业名称采用Bi-LSTM-CRF进行实体识别，Bi-LSTM为双向长短时记忆网络，是由前向LSTM与后向LSTM组合而成。CRF为条件随机场，属于判别式概率图模型。CRF能够在已知观测变量序列的条件下，标记序列发生的概率。在该项任务中，观测序列为单词序列，标记序列为对应的词性序列，标记序列具有线性的序列结构。由于企业的名称文本结构较为规则，且人工标注的样本数据量较小，因此直接采用该模型就可以达到较好的效果。

企业名称实体识别具体包括以下步骤：

s11文本数据处理：在训练阶段，对每个企业名称进行实体识别，进行识别的实体包括地点(ns)、企业专有名词(nz)、行业(trade)、企业类型(type)、名称结尾(tail)5类实体；其中“地点(ns)”为企业名称中所体现的公司地点；如“杭州叙简科技有限公司”中“杭州”为地点实体；“企业专有名词(nz)”为企业的名称，“叙简”即为企业专有名词，该实体往往为区分是否为统一公司的重要依据；“行业(trade)”为企业名称中说明企业行业的实体，如“科技”,“化工”,“农产品”,“超市”等；“企业类型(type)”为表示企业类型的实体，如“有限责任”,“集团”,“个体”,“股份有限”等；“名称结尾(tail)”为表示企业名称结束的实体，如“公司”,“厂”,“部”等，该实体可以对如“杭州叙简科技有限公司山西分公司”这样的名称进行拆分，可取出其中包含的主体公司“杭州叙简科技有限公司”，并将其与“山西分公司”进行关联。

s12数据标注：对文本按字进行拆分，按照BMESO的策略给予每个字一个标签，非实体则全部标注为“O”，实体长度为一个字符，则该实体直接标注为“S_实体名称”，否则将该实体的开头字符标注为“B_实体名称”，中间字标注为“M_实体名称”，最后一个字标注为“E_实体名称”。

如企业名称：“杭州叙简科技有限公司山西分公司”，将该名称按字拆分，经过标注后每个字所对应的序列标签为：

“B_ns,E_ns,B_nz,E_nz,B_trade,E_trade,B_type,E_type,B_tail,E_tail,B_ns,E_ns,B_tail,M_tail,E_tail”。

s13实体识别模型建立：采用one-hot对输入文本按字进行编码，编码后向量即为模型的输入向量；将向量输入Bi-LSTM模型中，经过Bi-LSTM模型编码得到输入的每个字的最终状态向量，保存最终状态向量，将最终状态向量输出CRF模型进行解码，得到最终的序列标注结果。

s14在预测阶段，对于获取到的待链接企业实体，将其输入训练好的序列标注模型，输出该企业的序列标注结果，用以后续进行实体链接。

由于每个公司对行业的表示有差异，且不同的行业类别表述可能表示着同一个行业，为了在企业知识图谱中将企业与行业信息进行关联，也为了在企业名称实体链接中提高行业信息的匹配度，本发明根据国民经济行业划分中的门类分类标准对企业行业进行门类分类，共分为20个类别。再根据分类结果在对应门类下匹配相似度更高的大中小类目，以完成企业行业的分类与链接。由于行业文本都是短文本，采用简单的分类器就可以达到较好的分类效果，因此本发明中采用贝叶斯分类算法进行行业文本分类，包括以下步骤：

s21根据国民经济行业划分，构建每个行业的类别训练数据；

s22采用贝叶斯模型对标注的数据集进行训练；

将标题文本首先进行采用LAC进行分词，LAC是百度开源的一款主要用于分词、词性标注和命名实体识别的工具。然后将分词后的词语通过计算词频，将文本进行向量化处理，最后对向量化后的文本采用贝叶斯分类器进行分类。

词频即考虑每个单词出现的频率；然后构成一个特征矩阵，每一行表示一个训练文本的词频统计结果。其思想是，先根据所有训练文本，不考虑其出现顺序，只将训练文本中每个出现过的词汇单独视为一列特征，构成一个词汇表(vocabulary list)，该方法又称为词袋法(Bag of Words)。

朴素贝叶斯分类器(Navie Bayes)是基于贝叶斯原理所构造的分类器。在训练阶段，输入训练样本特征与类别，计算每个类别在训练样本中的出现频率以及每个特征属性对每个类别的条件概率，训练后保存这些概率。在预测阶段，将输入文本做分词及向量转换处理后，计算该文本在不同类别下出现的概率，选取概率最大的即作为该文本的分类结果。朴素贝叶斯公式如公式(2-1)所示：

P(y_k|x)＝P(y_k)×∏P(x_i|y_k) (2-1)

其中x表示属于某个分类的概率，yk表示词条出现组合。

根据行业分类结果首先确定企业所属的国民经济行业门类，然后在该门类下依次与其中的大类、中类和小类的行业名称进行模糊匹配，选择行业实体与国民经济分类名称中相似度最高的类别进行链接，该类别即作为该企业的行业类别信息。其中相似度计算方式采用字符串编辑距离相似度与Jaccard相似度相结合的方式进行计算。两者的权重均为0.5。

编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。levenshtein算法中，默认添加和删除一个字符时需要的距离为1修改一个字符时需要的距离为2。

Jaccard相似度用于比较有限样本集之间的相似性和差异性，如公式(2-2)所示，Jaccard值越大说明相似度越高。

s3按照企业名称结尾标记对完成实体识别的企业拆分，将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体。

对企业名称中包含母公司等的企业进行拆分，并将拆分结果作为企业之间的关系存储至企业知识图谱中，完成企业知识图谱企业间关系的补充。所述企业名称中包含母公司的情况，以“杭州叙简科技有限公司山西分公司经营部”为例。该企业名称实体标注结果为：

杭州/ns叙简/nz科技/trade有限/type公司/tail山西/ns分公司

/tail经营/trade部/tail

其中“/”后表示该词语的实体类型。根据模块(1)，公司名称应以实体类型“tail”为结尾。根据这一构造特点该名称可拆分为三个企业：“杭州叙简科技有限公司”，“山西分公司”和“经营部”，三者为上下级的关系，将企业名称连起来即可在知识图谱中构建两个子公司的关系。即可构建企业关联关系：

[杭州叙简科技有限公司-子公司->杭州叙简科技有限公司山西分公司]和

[杭州叙简科技有限公司山西分公司-子公司->杭州叙简科技有限公司山西分公司经营部]

对待链接企业名称依次进行拆分，即可完成企业间子公司关联关系的补充，并找到企业名称中所指的企业主体。

s4待链接企业实体与知识图谱中的企业进行相似度评分，按照评分进行实体链接或知识图谱关系链接，完成实体链接和知识图谱数据补充。

对待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，具体步骤包括：

起始得分为0.05，地点相似度权重为0.3，企业专有名词(nz)相似度权重为0.45；行业实体(trade)相似度权重为0.1；行业类别相似度权重为0.05；企业类型(type)相似度权重为0.05。各类型实体相似度计算方式如下：

地点相似度

对s2中得到的areaCode进行比较，该编码从左至右每两位表示一个地区，越往后则地点的相似度越高。因此对该编码从左至右依次每两位进行比较，若最开始的前两位相同则计得分为0.6，后每两位相同增加0.2，从而计算出areaCode的相似度。另外对模块(1)中得到的地点实体文本计算Jaccard相似度，取Jaccard相似度和areaCode相似度中较高者作为地点的相似度值。

企业专有名词相似度

企业专有名词相似度计算采用Jaccard相似度计算公式计算，针对企业专有名词对企业实体链接敏感度较高，很多企业名称较为相似的问题，当专有名词的相似度小于0.5时判定企业专有名词相似度为0。

行业实体及企业类型相似度

对s1中实体识别结果为“trade”的实体进行行业相似度比较，计算方式为Jaccard相似度计算。对标注结果为“type”的实体进行同样的相似度计算。

企业行业类别相似度

对s2中行业分类得到的分类结果，计算所在类别的相似度，由于行业类别按照上下级依次分为门类、大类、中类和小类，则同属于一个小类判定相似度为1，同属于一个中类判定相似度为0.8；同属于一个大类相似度为0.6，同属于一个门类则相似度为0.5，门类不同则相似度为0。根据该规则得到企业行业类别的相似度。

对不同的实体类型分别计算二者的相似度，与各自的权重相乘再相加即可得到待链接企业A和知识图谱中企业实体B的相似度，将企业A与知识图谱中的企业实体依次进行计算，取相似度最高的企业，根据测试，当相似度值

≥0.8时即判定为同一公司，完成实体链接。对于0.7≤相似度＜0.8之间的企业，往往有着相同的企业专有名词但所在地区不同，或所在地区相同但行业表述不同，根据企业名称的特性，这往往为关联性较强的企业，因此对这样的两个企业判定为两个不同的存在潜在关联关系的企业，在知识图谱中连接关系“潜在关联”，以补充企业知识图谱的知识内容。对于相似度＜0.7的企业名称判定为新企业，专家进行相关企业信息审核后作为新的企业实体存储到企业知识图谱中，即完成了企业的实体链接与知识图谱知识补充工作。

实施例2

基于同一发明构思，本发明实施例还提供一种企业知识图谱实体链接模型的构建装置，由于企业知识图谱实体链接模型的构建装置所解决问题的原理与企业知识图谱实体链接模型的构建方法相似，因此企业知识图谱实体链接模型的构建装置的实施可以参见企业知识图谱的构建方法的实施，重复之处不再赘述，具体结构如图2所示，包括：

名称序列标注模块1，用于企业名称实体识别和序列标注；

行业实体分类与匹配模块2，用于行业实体的门类分类和个门类下小类目的模糊匹配；

行业名称拆解模块3，用于对企业名称中包含母公司的企业进行拆分，并将拆分结果作为企业之间的关系存储至企业知识图谱中，完成企业知识图谱企业间关系的补充；

行业相似度打分模块4，用于待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，进行实体链接。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述企业知识图谱实体链接模型的构建方法。

本发明实施例还提供一种计算机可读存储介质，存储有执行上述企业知识图谱的构建方法的计算机程序。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方案，实际的结构并不局限于此。所以本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种企业知识图谱实体链接模型的构建方法，其特征在于，其包括以下步骤： s1：对待链接企业实体进行企业名称实体识别，并进行序列标注； s2：对标注为行业实体的文本进行行业门类分类，在分入的行业门类下进行行业子类目的模糊匹配，得到精准行业类别；s3：按照企业名称结尾标记对完成实体识别的企业拆分，将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体； s4：待链接企业实体与知识图谱中的企业进行相似度评分，按照评分进行实体链接或知识图谱关系链接，完成实体链接和知识图谱数据补充。

2.根据权利要求1所述的企业知识图谱实体链接模型的构建方法，其特征在于，s1中采用Bi-LSTM-CRF进行实体识别。

3.根据权利要求2所述的企业知识图谱实体链接模型的构建方法，其特征在于，s1中企业名称实体识别具体包括以下步骤： s11文本数据处理：在训练阶段，对每个企业名称进行实体识别，进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾； s12数据标注：对文本按字进行拆分，按照BMESO的策略给予每个字一个标签，非实体则全部标注为“O”，实体长度为一个字符，则该实体直接标注为“S_实体名称”，否则将该实体的开头字符标注为“B_实体名称”，中间字标注为“M_实体名称”，最后一个字标注为“E_实体名称”； s13实体识别模型建立：采用one-hot对输入文本按字进行编码，编码后向量即为模型的输入向量；将向量输入Bi-LSTM模型中，经过Bi-LSTM模型编码得到输入的每个字的最终状态向量，保存最终状态向量，将最终状态向量输出CRF模型进行解码，得到最终的序列标注结果；s14在预测阶段，对于获取到的待链接企业实体，将其输入训练好的序列标注模型，输出该企业的序列标注结果。

4.根据权利要求1所述的企业知识图谱实体链接模型的构建方法，其特征在于，s2中采用贝叶斯分类算法进行行业文本分类，具体包括以下步骤： s21根据国民经济行业划分，构建每个行业的类别训练数据：根据行业分类结果首先确定企业所属的国民经济行业门类，在该门类下依次与其中的大类、中类和小类的行业名称进行模糊匹配，选择行业实体与国民经济分类名称中相似度最高的类别进行链接，作为该企业的行业类别信息； s22采用贝叶斯模型对标注的数据集进行训练：将行业文本采用LAC进行分词，然后将分词后的词语通过计算词频，将文本进行向量化处理，最后对向量化后的文本采用贝叶斯分类器进行分类。

5.根据权利要求1所述的企业知识图谱实体链接模型的构建方法，其特征在于，s4中根据s1的实体识别结果和s2的行业分类结果，对待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，具体步骤包括： s41对待链接企业名称A与知识图谱中的一个企业名称B进行实体识别； s42对待链接企业名称A和知识图谱中的一个企业名称B中抽取出的实体进行编码转换； s43待链接企业名称A和知识图谱中的一个企业名称B进行实体相似度计算，不同类型的实体给予不同的权重，综合计算最终两企业名称的相似度。

6.一种企业知识图谱实体链接模型的构建装置，其特征在于，包括：名称序列标注模块，用于企业名称实体识别和序列标注；行业实体分类与匹配模块，用于行业实体的门类分类和个门类下小类目的模糊匹配；

行业名称拆解模块，用于对企业名称中包含母公司的企业进行拆分，并将拆分结果作为企业之间的关系存储至企业知识图谱中，完成企业知识图谱企业间关系的补充；行业相似度打分模块，用于待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算，进行实体链接。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。