CN112784604A

CN112784604A - 一种基于实体边界网络的实体链接方法

Info

Publication number: CN112784604A
Application number: CN202110172278.7A
Authority: CN
Inventors: 张海军; 伍映吉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-11

Abstract

本发明提出了一种基于实体边界网络的实体链接方法，首先候选实体生成，通过候选实体提取和候选实体匹配来保证候选实体列表具有较高的召回率；再进行候选实体消歧，构建基于关键词的神经网络模型，利用实体描述信息，语义信息和上下文信息，使用一个损失函数来处理多个加权类型，然后使用全连接网络进行训练，最后通过二分类方法得到实体链接的预测结果，输出实体链接关系；和现有方案相比，本发明具有更高的实体召回率。

Description

一种基于实体边界网络的实体链接方法

技术领域

本发明涉及人工智能自然语言处理领域，具体地，涉及一种基于实体边界网络的实体链接方法。

背景技术

近年来，随着人工智能技术的迅猛发展，如何通过自然语言处理技术(NLP)让机器实现人类语言理解受到众多学者的关注。而如何训练计算机识别文本中的实体，并将实体正确无误的链接到数据库中，这是让计算机理解人类语言的关键步骤。实体链接(EntityLinking，EL)是指挖掘人类语言文本出现的潜在实体关系，并链接到所在的知识图谱实体上，解决实体间存在歧义性(即一词多义)和多样性(即多词一义)的任务。常用于知识图谱的构建、信息事件抽取和智能问答等应用中。目前传统的实体链接模型往往依赖于海量的文本标注，存在着需要消耗大量人工、大量时间、大量金钱的问题、且存在受限于语言和无法快速规模化的困难。如何利用自然语言处理技术、机器学习技术(ML)和深度学习技术(DL)等前沿方法，自动或者高效进行实体关系的链接，成为了当前亟需攻克的问题。因此，实体链接的方法研究得到了世界范围内研究人员的广泛关注。

发明内容

本发明为了解决现有技术中的不足，将命名实体识别任务的数据和方法引入，获得更好的候选实体召回结果，提出了一种基于实体边界网络的实体链接方法。

一种基于实体边界网络的实体链接方法，所述方法包括以下步骤：

A、候选实体生成：所述候选实体生成通过候选实体提取和候选实体匹配两个步骤，来保证候选实体列表具有较的召回率；

B、候选实体消歧：构建一个基于关键词的神经网络模型，所述模型给定一个的起始<i，j>，通过模型来预测p(l|<i，j>)，从而得到实体的得分；所述模型利用实体描述信息、语义信息和上下文信息，并使用一个损失函数来处理多个加权类型，再使用全连接网络进行训练，最后通过二分类方法得到实体链接的结果。

进一步地，所述步骤A包括以下步骤：

A1、候选实体提取：通过命名实体识别步骤，先使用Bert算法模型进行词向量的扩展，再基于BiLSTM和CRF的候选实体生成针对命名实体识别任务，完成候选实体提取：

A2、候选实体匹配：通过子字符串扩展解决多词一义的问题，完成候选实体匹配。

进一步地，所述步骤A1包括以下步骤：

A1₁、将Bert算法模型改进：基于Bert算法模型的词向量扩展任务分为预训练阶段和微调阶段，同时预训练阶段的模型参数可以复用，因此利用完成预训练的Bert模型参数作为微调阶段的输入；

(1)预训练阶段：

在预训练阶段，分别使用两个无监督任务对模型进行预训练；

所述第一无监督任务为基于语言模型的词预测任务；在训练过程中，模型随机遮盖[MASK]了一定比例的字符，之后利用模型对这些被遮盖的词进行预测；同时，为了解决在微调阶段模型从未看到[MASK]字符的问题，对于选中的字符，方法为

1)80％的概率利用[MASK]字符代替；

2)10％的概率利用随机单词代替；

3)10％的概率保证单词不被遮盖；

采用随机遮蔽方法，能够强制Bert模型记住更多的上下文语义信息；

所述第二无监督任务为句子预测任务：对模型同时输入两个句子A和B，其中，句子B有一定概率是句子A的下一句，通过模型获取的上下文信息判断句子B是否为A的下一句，利用针对多个句子的建模，来强迫Bert模型编码更多的篇章信息；

(2)微调阶段：

针对实体链接任务，Bert模型的输入包含了代表短文本中的句子数据，位置信息和字典的语义信息；再将Bert模型的输入合并为一个序列，所述序列包含为[CLS]和[SEP]标识符；

其中[CLS]标识符标识了序列中的第一个元素，表示该序列的分类模型，并作为模型的最终隐藏状态输出；[SEP]标识符用于分割一对句子；

在微调阶段，将[CLS]的输出接一个全连接层进行分类，能够得到针对文本相关性的分类结果输出；

A1₂、基于BiLSTM和CRF的候选实体生成针对命名实体识别任务：

针对实体识别任务，综合两者的上下文信息和语义信息，对文本进行联合建模；

作为语义特征的表示层，RNN通过利用多层结构深入挖掘语义特征标识，在建模过程中，通过内部隐藏层单元提取文本词语间的依赖关系，同时建模当前时刻的输入及上一时刻的输出；

通过BiLSTM特征提取，对数据中语句进行特征建模，解决文本中的长距离依赖问题，同时从正向和反向两个词语方向分别提取上下文语义特征；再通过CRF模型进一步做句子级约束，解决梯度消失问题。

进一步地，所述步骤A2包括以下步骤：

在A2中，对CRF层输出的结果采用子字符串扩展的方法，构建候选实体集，对于候选实体集中每一个命名实体，将文档中所有包含相同实体的命名实体都标注出来。

进一步地，所述步骤B包括以下步骤：

(1)构建候选实体词向量：

神经网络模型应用Bert算法模型进行上下文语义的词汇表征来提取候选实体词信息；然后将预先训练好的单词嵌入，形成单词表示[h₁,h₂,…,h_n]；

(2)构建句子上下文信息词向量：

给定一个范围c＝<i，j>，将句子分为三个部分，从BiLSTM层得到三个部分对应的隐藏信息表示，同时加入包含候选实体语句信息的句子边界信息；

将候选实体词向量和句子上下文信息词向量进行拼接，得到拼接向量m，将拼接向量m输入进全连接网络中进行特征学习；

基于二分类方法进行实体消歧：将候选实体输入到Bert模型，选择构建候选实体词向量和句子上下文信息词向量，以及候选实体对应开始和结束为止对应的特征向量，三个向量拼接到一起，经过全连接网络，sigmoid激活得到候选实体的概率得分，针对候选实体消歧中所有候选实体的结果得分进行排序，将排序首位作为实体链接模型的最终输出。

附图说明

图1为本发明的基于实体边界网络的实体链接方法的流程图；

图2为本发明的候选实体生成任务示意图；

图3为本发明的候选实体生成示意图；

图4为本发明的候选实体消歧任务示意图；

图5为本发明的候选实体消歧任务结构图；

图6为本发明的Bert改进示意图；

图7为本发明的基于BiLSTM+CRF的框架图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

A、候选实体生成：所述候选实体生成通过候选实体提取和候选实体匹配两个步骤，来保证候选实体列表具有较高的召回率；

B、候选实体消歧：构建一个基于关键词的神经网络模型，所述模型给定一个的起始<i，j>，通过模型来预测p(l|＝<i，j>)，从而得到实体的得分；所述模型利用实体描述信息、语义信息和上下文信息，并使用一个损失函数来处理多个加权类型，再使用全连接网络进行训练，最后通过二分类方法得到实体链接的结果。

所述步骤A包括以下步骤：

A1、候选实体提取：通过命名实体识别步骤，先使用Bert算法模型进行词向量的扩展，再基于BiLSTM和CRF的候选实体生成针对命名实体识别任务，通过命名实体识别，增加候选实体的数量，提升候选实体集的召回率，完成候选实体提取：

所述步骤A1包括以下步骤：

(1)预训练阶段：

所述第一无监督任务为基于语言模型的词预测任务；在训练过程中，类似于完形填空，模型随机遮盖[MASK]了一定比例的字符，之后利用模型对这些被遮盖的词进行预测；同时，为了解决在微调阶段模型从未看到[MASK]字符的问题，对于选中的字符，方法为

1)80％的概率利用[MASK]字符代替；

2)10％的概率利用随机单词代替；

3)10％的概率保证单词不被遮盖；

(2)微调阶段：

Bert模型的输入包括三个向量的求和，所述三个向量分别为：表示当前字符的向量、表示当前句子的向量，和表示当前词所在位置的向量；

与传统的Bert预训练算法不同的是，本步骤通过实验验证了Bert每一层对文本的理解都有所不同。

以十二层Transformer为例：

1.Transformer低层网络结构学习到的是短语句法的特征信息；

2.Transformer中层网络结构学习到的是语言学特征信息；

3.Transformer.高层网络结构学习到的是语义信息特征信息，

由此提出一个Bert的改进方法，针对Bert的十二层Transformer构建一个动态权重，与Bert不同的具体实验步骤如下。

1)将Bert的十二层Transformer生成的表示赋予一个权重，通过训练来确定权重值,α_i越大说明这一层对结果贡献越大；权重公式为：

α_i＝Dense_unit＝1(represent_i)

2)将每一层生成的表示加权平均；

3)再通过一层全连接层降维至512维；

其中represent i为Bert每一层输出的表示，为权重Bert每一层表示的权重值。

在得到权重矩阵值后，得到句子的概率向量logit，进而得到每一个字或英文单词的标注概率：

Logit＝[C]_L×H[W]_K×H ^T

给定输出文本x＝(x₁，...，x_n)，BiLSTM层首先将x转换为对应的隐状态向量(h₁，...，h_n)，其中，每个隐状态向量h_i通过连接单词x_i对应的正反向两个隐状态向量

和

得到完整的隐状态序列，通过双向LSTM层能高效的表示出这个单词在上下文中的含义。然后，基于h_i通过softmax函数可以获得单词x_i在全部可能NER标记上的分布P_i，P_i表示该单词对应各个类别的分数，由此得到隐状态序列学习到隐含的句子信息。其中，

表示x_i单词对应NER标记是tag_j的概率，这些分数将是CRF层的输入。

NER是一类特殊的任务，因为表征标签的可解释为基于序列“语法”的基础上加了特定的约束特征，比如：命名实体的开始部位应该不是“I-”而是“B-”。句子的前后的语义特征可通过CRF层学习到，最终实验结果的有效性利用约束条件来保障。CRF层定义输入文本x的某个标注结果y对应的得分为s(x，y):

其中A表示状态转移参数矩阵，通过模型训练得到矩阵

从状态y_i-1转移到状态y_i的概率，目的是学习标签之间的约束关系。每种NER标注结果y的概率通过公式进行归一化计算：

该模型设计的参数通过在训练数据上最大化Log[P(y|x)]进行优化，采用维特比解码，维特比解码具有复杂度较低的优点。每个节点将会记录之前所有节点到当前节点的路径总和，并计算得到所有路径的总和,最后选择得分最高的作为预测结果，输出公式为：

previous＝[max(score[00]，score[10]，max(score[01]，score[11])]

所述步骤A2包括以下步骤：

A2₁、步骤A1中，对CRF层输出的结果采用子字符串扩展的方法，构建候选实体集，对于数据集中每一个命名实体，将文档中所有包含相同实体的命名实体都标注出来，有效解决多词一义的问题。

所述步骤B包括以下步骤：

(1)构建候选实体词向量：

(2)构建句子上下文信息词向量：

将候选实体词向量和句子上下文信息词向量进行拼接得到m。将m输入进全连接网络中进行特征学习；

以上对本发明所提出的一种基于实体边界网络的实体链接方法，进行了详细介绍，本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于实体边界网络的实体链接方法，其特征在于，所述方法包括以下步骤：

A、候选实体生成：所述候选实体生成通过候选实体提取和候选实体匹配两个步骤，来保证候选实体列表具有高的召回率；

B、候选实体消歧：构建一个基于关键词的神经网络模型，所述模型给定一个的起始<i，j>，通过模型来预测p(l|<i，j>)，从而得到实体的得分；所述模型利用实体描述信息、语义信息和上下文信息，并使用一个损失函数来处理多个加权类型，再使用全链接网络进行训练，最后通过二分类方法得到实体链接的结果。

2.根据权利要求1所述方法，其特征在于：所述步骤A包括以下步骤：

3.根据权利要求2所述方法，其特征在于：所述步骤A1包括以下步骤：

(1)预训练阶段：

所述第一无监督任务为基于语言模型的词预测任务；在训练过程中,模型随机遮盖[MASK]了一定比例的字符，之后利用模型对这些被遮盖的词进行预测；同时，为了解决在微调阶段模型从未看到[MASK]字符的问题，对于选中的字符，方法为

1)80％的概率利用[MASK]字符代替；

2)10％的概率利用随机单词代替；

3)10％的概率保证单词不被遮盖；

(2)微调阶段：

4.根据权利要求3所述方法，其特征在于：所述步骤A2包括以下步骤：

在步骤A2中，对CRF层输出的结果采用子字符串扩展的方法，构建候选实体集，对于候选实体集中每一个命名实体，将文档中所有包含相同实体的命名实体都标注出来。

5.根据权利要求4所述方法，其特征在于：所述步骤B包括以下步骤：

(1)构建候选实体词向量：

(2)构建句子上下文信息词向量：

将候选实体词向量和句子上下文信息词向量进行拼接，得到拼接向量m；将拼接向量m输入进全链接网络中进行特征学习；

基于二分类方法进行实体消歧：将候选实体输入到Bert模型，选择构建候选实体词向量和句子上下文信息词向量，以及候选实体对应开始和结束为止对应的特征向量，三个向量拼接到一起，经过全链接网络，sigmoid激活得到候选实体的概率得分，针对候选实体消歧中所有候选实体的结果得分进行排序，将排序首位作为实体链接模型的最终输出。