CN111428443A

CN111428443A - 一种基于实体上下文语义交互的实体链接方法

Info

Publication number: CN111428443A
Application number: CN202010294780.0A
Authority: CN
Inventors: 王伟; 许峻峰; 张焱; 刘刚; 孙成胜; 敖佳
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-07-17
Anticipated expiration: 2040-04-15
Also published as: CN111428443B

Abstract

本发明涉及数据处理技术领域，本发明公开了一种基于实体上下文语义交互的实体链接方法，结合待链接实体的上下文信息和知识库实体的属性描述信息，采用Transformer结构编码知识库实体文本，采用LSTM网络编码查询实体文本，并对知识库实体文本和查询实体文本的语义编码采用细粒度词级注意力交互来捕捉文本局部相似信息。本发明在利用LSTM和Transformer网络分别编码两段文本的基础上，增加了词级别细粒度语义特征交互，丰富了文本的细节语义特征，在验证集和测试集上达到了89.1％和88.5％的准确率，分别超过了目前主流的实体链接编码模型CNN和LSTM网络2.1％和1.7％，表明了本发明的实体链接方法的有效性。

Description

一种基于实体上下文语义交互的实体链接方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于实体上下文语义交互的实体链接方法。

背景技术

实体链接是将自然语言中的实体指称映射到知识库中正确的候选实体的过程。非结构化的自然语言表述往往存在大量模糊和不规范的表达，在医疗领域，这种多样性和歧义性更为常见。比如，“丁香蓼”既可指治疗肺热咳嗽等病的中药，也可指柳叶菜科的植物，作为植物，也被称为“小石榴树”、“小石榴叶”、“小疗药”等。准确理解文本中指称所指代的具体实体并将实体和已有知识库实体正确链接可极大提高信息检索、基于知识库的问答等任务的效果。

传统实体链接方法主要有基于字串匹配方法和基于相似特征分类或排序的方法，这两种方法只能提取文本表面的浅层特征，不能表示实体指称真正的语义信息，效果不佳，还耗费人力。特别是针对同名实体消歧，利用字面相似特征根本无法找到同名实体的不同指称，对于这类同名实体，往往还需要结合上下文语义信息来综合判断。基于深度学习的实体链接方法则是利用文本语义信息来判断。将实体指称和候选实体上下文转换成向量的形式，利用神经网络训练并选择与实体指称文本语义相似度最高的候选实体。现有的研究通常采用CNN(卷积神经网络)或LSTM(长短期记忆网络)对实体文本编码，并没有对查询文本和知识库文本交互做进一步的局部相似特征提取，导致可能丢失文本细节特征。

发明内容

为了解决上述问题，本发明提出一种基于实体上下文语义交互的实体链接方法，结合待链接实体的上下文信息和知识库实体的属性描述信息，采用Transformer结构编码知识库实体文本，采用LSTM网络编码查询实体文本，并对知识库实体文本和查询实体文本的语义编码采用细粒度词级注意力交互来捕捉文本局部相似信息。

进一步的，在对知识库实体文本和查询实体文本编码前，预先生成候选实体，包括以下步骤：

在训练阶段，候选实体通过与知识库中实体精确匹配生成，所有候选实体为查询实体的同名实体；

在数据预处理阶段，将知识库中所有实体名字、别称以及对应的库名称以字典形式存储，以便于查询实体查找候选实体对应的库名称；

在预测阶段，若查询实体在知识库中没有同名实体，则将整个知识库实体作为候选实体。

进一步的，查询文本为q，查询文本长度为l_q，查询文本中待链接实体，即查询实体记为m，将查询实体和查询文本拼接融合后文本表示记为链接文本q_M，知识库中的候选实体文本为e。

进一步的，采用LSTM网络编码查询实体文本包括以下步骤：

采用双向LSTM网络对查询文本进行编码：

用one-hot编码标识查询实体的位置，将编码后的查询文本

和查询实体m进行拼接，

将q_M用一个过滤器大小为3的一维卷积进行编码融合：

进一步的，采用Transformer结构编码知识库实体文本包括以下步骤：

将知识库中候选实体的所有属性及描述信息连接起来作为候选实体的文本信息，采用Transformer网络中的encoder部分对候选实体文本编码：

其中，l_e为候选实体文本长度，

为编码后的候选实体文本。

进一步的，Transformer网络由多个块组成，每个块包括多头注意力子模块和前馈神经网络子模块，每部分输出后面连接一个残差和层归一化以加强信息传输，每头注意力通过缩放点积方式计算：

其中，Q,K,V均为候选实体文本，d_k为每头注意力的隐层大小；

采用四头注意力计算以提高并行能力：

MultiHead(Q,K,V)＝[head₁,head₂,head₃,head₄]W_o (5)

head_i＝Attention(Q_i,K_i,V_i) (6)

每个head由Attention计算出，Q_i,K_i,V_i分别为每头注意力的输入，W_o为训练参数，用于调整隐层维度。

进一步的，前馈神经网络子模块包括两层全连接神经网络：

FFN(x)＝Relu(xW₁+b₁)W₂+b₂ (7)

其中，W₁,W₂,b₁,b₂均为全连接层学习的参数，x为多头注意力子模块的输出，Relu为第一层全连接层采用的激活函数。

进一步的，对编码融合后的链接文本和候选实体文本采用词级别点积注意力进行细粒度匹配交互：

其中，a_ij表示查询文本第i个词和候选实体文本第j个词的对齐权重，

表示查询文本关于第j个候选实体文本的注意力加权向量，

表示候选实体文本关于第i个查询文本的注意力加权向量。

进一步的，得到候选实体文本相关的链接文本表示

和链接文本表示相关的候选实体文本表示

将两段文本进行细粒度融合以提取两者局部相似特征，对于同名实体进一步比较文本细节差异，提高相似特征聚合能力；分别将经过注意力后的文本表示与原编码表示进行拼接和相乘操作，得到最终链接文本表示q_M和最终候选实体文本表示

以丰富文本表示：

进一步的，将拼接后的链接文本表示和分别通过一层激活函数为Relu的前馈神经网络进行信息提取，采用最大池化将文本表示转为固定长度向量，最后将文本向量拼接送入激活函数为sigmoid的全连接层用于二分类。

本发明的有益效果在于：

本发明在利用LSTM和Transformer网络分别编码两段文本的基础上，增加了词级别细粒度语义特征交互，丰富了文本的细节语义特征，在验证集和测试集上达到了89.1％和88.5％的准确率，分别超过了目前主流的实体链接编码模型CNN和LSTM网络2.1％和1.7％，表明了本发明的实体链接方法的有效性。同时，本发明也高出采用Transformer编码候选实体文本的模型0.8％的准确率，进一步验证了词级交互结构的有效性。

附图说明

图1本发明的实体链接方法示意图；

图2验证集准确率曲线图；

图3词级注意力权重图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例提出一种基于实体上下文语义交互的实体链接方法，如图1所示，对链接实体上下文和候选实体知识库文本分别采用不同编码方式进行编码，并对两段编码文本采用词级注意力矩阵进行交互，然后将交互后的表示送入到全连接和最大池化层进一步提取交互文本向量，最后将向量拼接用于二分类，具体如下：

1.1候选实体生成

查询文本为q，查询文本长度为l_q，查询文本中待链接实体，即查询实体记为m，将查询实体和查询文本拼接融合后文本表示记为链接文本q_M，知识库中的候选实体文本为e。

1.2查询实体文本编码

由于查询文本通常较短，用LSTM网络即可捕捉文本的全部依赖关系。本实施例采用双向LSTM网络对查询文本进行编码：

用one-hot编码标识查询实体的位置，如：查询文本“儿童轻微感冒吃什么药”，待链接实体为“感冒”，则m＝[0,0,0，0,1,1,0,0,0，0]^T，m向量的维度和是查询文本的字符长度，“感冒”在查询文本的第5个和第6个位置，即m向量中第5个和第6个位置的值为1。将编码后的查询文本

和查询实体m进行拼接，

将q_M用一个过滤器大小为3的一维卷积进行编码融合：

1.3候选实体文本编码

将知识库中候选实体的所有属性及描述信息连接起来作为候选实体的文本信息。由于候选实体文本较长，采用LSTM编码不能有效捕捉长距离依赖关系，故采用Transformer网络中的encoder部分对候选实体文本编码：

其中，l_e为候选实体文本长度，

为编码后的候选实体文本。

Transformer网络由多个块组成，每个块包括多头注意力子模块和前馈神经网络子模块，每部分输出后面连接一个残差和层归一化以加强信息传输，每头注意力通过缩放点积方式计算：

其中，Q,K,V均为候选实体文本，d_k为每头注意力的隐层大小。

采用四头注意力计算以提高并行能力：

MultiHead(Q,K,V)＝[head₁,head₂,head₃,head₄]W_o (5)

head_i＝Attention(Q_i,K_i,V_i) (6)

前馈神经网络子模块包括两层全连接神经网络：

FFN(x)＝Relu(xW₁+b₁)W₂+b₂ (7)

1.4细粒度文本交互

对编码融合后的链接文本和候选实体文本采用词级别点积注意力进行细粒度匹配交互：

表示查询文本关于第j个候选实体文本的注意力加权向量，

表示候选实体文本关于第i个查询文本的注意力加权向量。

得到候选实体文本相关的链接文本表示

和链接文本表示相关的候选实体文本表示

以丰富文本表示：

1.5文本输出层

将拼接后的链接文本表示和分别通过一层激活函数为Relu的前馈神经网络进行信息提取，采用最大池化将文本表示转为固定长度向量，最后将文本向量拼接送入激活函数为sigmoid的全连接层用于二分类。

实验验证

为了证明了本发明的基于实体上下文语义交互的实体链接方法(以下简称本模型)的有效性，本实施例在ccks2019实体链接数据集上进行实验，并在“虚拟病人”项目数据集上进行验证。

2.1实验设置

本模型基于Tensorflow框架搭建，为了更方便实体识别任务的衔接，本模型采用字级别输入表示，字表示采用200维随机初始化的向量，字向量随模型的训练而训练。模型的优化器为ADAM，batch size为64，学习率为0.001，dropout为0.2，用于防止模型过拟合。LSTM网络编码隐层为128，Transformer网络隐层维度为256，每头注意力子维度为64。

本模型在训练阶段将实体链接问题看成一个二分类问题，而在预测阶段，将链接实体对应的全部候选实体的得分进行排序，取分数最高的候选实体即为链接到知识库的实体。

2.2数据集和评价指标

本模型实验采用ccks2019实体链接比赛的数据集，该数据集的知识库中包含399252条实体信息，每条库实体文本包含实体id，实体别称，实体类型，实体描述等信息。查询文本是平均长度为16的短文本。

每条查询文本标注出了实体位置和对应的知识库id。训练集为80000条，验证集为1000条，测试集为9000条。本模型采用的评价指标为准确率。

2.3实验结果

本模型实验结果如表1所示，可看到在ccks2019实体链接数据集上的准确率均好于基模型。

表1 ccks2019数据集实验结果

由表1可知，基于语义编码的模型效果大幅度优于传统余弦相似度方法，对于同名实体消歧，传统基于词的共现信息的链接效果并不好，这是因为同名实体上下文信息均含有较多相同的共现词，导致无法通过共现词来判断，基于语义相似的方法则可以解决这个问题。

采用CNN或LSTM网络仅编码文本信息两者效果相当，LSTM编码网络在测试集下效果优于CNN网络，因为LSTM可以捕捉到文本的序列信息。而采用Transformer编码候选实体的长文本序列可取得更好的效果，且在训练速度上也优于LSTM网络。本模型在用LSTM和Transformer网络分别编码两段文本基础上增加了词级别细粒度语义特征交互，丰富了文本的细节语义特征，在验证集和测试集上达到了89.1％和88.5％的准确率，分别超过了目前主流的实体链接编码模型CNN和LSTM网络2.1％和1.7％，表明了本模型的有效性。同时，也高出采用Transformer编码候选实体文本的模型0.8％的准确率，进一步验证了词级交互结构的有效性。

2.4模型分析

本模型实验的四个语义编码模型在训练过程中验证集精度曲线如图2所示。

由图2和表1可知，相比余弦相似度方法，仅用CNN或LSTM网络的语义编码模型在训练开始阶段即可达到较高的准确率，分别为80.0％和79.1％。采用Transformer网络编码候选实体长文本信息在训练后期可进一步提高编码效果，准确率提升了约0.5％，本模型在此基础上增加交互信息，在训练过程中可稳定整体的准确率，最终在验证集上效果达到了89.1％。

2.5医学知识库实体链接应用

为进一步验证本模型的有效性和泛化能力，用训练好的链接模型在“虚拟病人”项目数据集上挑选部分疾病样例数据验证模型效果。“虚拟病人”是基于医学知识图谱来建设可视化知识服务系统，以支持临床模拟培训和辅助诊断决策的项目。此项目中包含一个医学知识图谱，在构建和查询知识库实体时都需用到实体链接技术。

输入查询文本为“吃坏肚子了，感冒发烧，上吐下泻好难受”。查询实体：感冒发烧。从“虚拟病人”项目数据集的疾病库中选取6个与查询实体较为相似的候选知识库实体，候选实体及描述信息如表3所示。将查询文本和候选实体输入到三个语义模型中计算分数如表2所示，为方便比较，所有分数为归一化之前结果。为直接观察到词级注意力的作用，图3为目标实体部分文本和查询文本的词级注意力可视化结果，颜色越深表示权重越大。

表2医学样例候选实体得分

由查询文本分析可知，6个候选实体中最适合的应为“肠胃性感冒”。由表2所示，本模型对“肠胃性感冒”计算得到了最高的分数，其他模型均未找到正确候选实体。根据候选实体的描述可看到，描述信息中均含有“感冒”这一实体，导致仅对文本编码都可得到相似度较高的分数，要准确找到候选实体，还需要进一步比较查询文本和候选实体文本的局部信息。而由图3可知，通过词级注意力对齐了查询文本中“感冒发烧”、“上吐下泻”和候选实体文本中“乏力”、“下泻”等关键词，捕捉到文本细节，提高了链接准确率，进一步验证了文本模型交互部分的有效性。

表3“虚拟病人”医学样例数据

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。