CN110851620B

CN110851620B - 一种基于文本嵌入和结构嵌入联合的知识表示方法

Info

Publication number: CN110851620B
Application number: CN201911036834.7A
Authority: CN
Inventors: 喻梅; 张妍; 于瑞国; 于健; 李雪威; 赵满坤; 徐天一; 刘春凤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-07-04
Anticipated expiration: 2039-10-29
Also published as: CN110851620A

Abstract

本发明公开一种基于文本嵌入和结构嵌入联合的知识表示方法，包括步骤一：将知识库中的实体描述文本进行预处理，对每个实体描述提取主题词；步骤二：使用fasttext将主题词编码成词向量，每个实体描述表示为多维词向量；步骤三：将处理后的多维词向量，输入到带有注意力机制的双向长短记忆网络(A‑BiLSTM)或带有注意力机制的长短记忆网络(A‑LSTM)编码，将表示每个实体的多维词向量处理成一维向量，也就是文本表示，并训练现有的StransE模型，得到实体的结构表示；步骤四：引入门控机制，并提出四种关于文本嵌入和结构嵌入联合的方法，得到最终的实体嵌入矩阵；步骤五：将实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中，提高知识补全任务。

Description

一种基于文本嵌入和结构嵌入联合的知识表示方法

技术领域

本发明属于知识图谱、自然语言处理和信息检索领域，涉及知识表示学习中的异质信息融合与知识图谱补全，尤其是一种在知识库中联合基于实体描述的文本嵌入和结构嵌入的知识表示方法。

背景技术

将知识表示嵌入方法分为两个方面，一个方面是仅使用符号三元组的基于结构的嵌入模型。Bordes等人受到词向量空间对于词汇语义与句法关系存在有趣的平移不变现象的启发，提出了TransE模型，将知识库中的关系看作实体间的某种平移向量。与以往模型相比，TransE模型参数较少，计算复杂度低，却能直接建立实体和关系之间的复杂语义联系。可以说，TransE已经成为知识表示学习的代表模型。但是也由于过于简单，导致TransE在处理前面提到的知识库的复杂关系时捉襟见肘。

为了解决TransE模型在处理1-N、N-1、N-N复杂关系时的局限性，TransH模型提出让一个实体在不同的关系下拥有不同的表示。TransR模型进一步认为不同的关系拥有不同的语义空间。对每个三元组，首先应将实体利用矩阵投影到对应的关系空间中，然后再建立从头实体到尾实体的翻译关系。针对在知识库中实体的异质性和不平衡性，还有TransR模型中矩阵参数过多的问题，TransD模型和TranSparse模型对TransR模型中的投影矩阵进行了进一步的优化。此外，TransG模型和KG2E模型提出了利用高斯分布来表示知识库中的实体和关系，可以在表示过程中考虑实体和关系本身语义上的不确定性。上述模型都从不同角度尝试解决复杂关系建模问题。

另一种是使用文本描述的文本增强嵌入模型。现在主要是考虑实体描述的知识表示学习模型，以及文本与知识库融合的知识表示学习。文本嵌入模型通常可追溯到NTN。NTN使用实体名称并嵌入实体作为名称的平均单词嵌入向量。将知识图与语料库对齐，然后联合进行知识嵌入和单词嵌入。然而，对准信息的必要性在性能和实际适用性方面限制了该方法。因此，提出了“联合”方法，该方法仅将freebase实体与相应的wiki页面对齐。DKRL将基于翻译的嵌入方法从特定三元组方法扩展到“文本增强”模型。更重要的是，DKRL采用CNN结构来表示单词，这提升了单词语义的表达能力。一般而言，通过联合建模知识和文本，文本增强嵌入模型获得了最先进的性能。

但是，还有几个问题需要解决。(1)在这些方法中，结构表示和文本表示的最佳组合没有得到很好的研究，一个实体的良好表示应该同时编码结构和文本信息，并且能够适用于多种基于结构的模型。(2)给定实体描述文本，其描述中提供的所有信息并非都可用于预测链接实体。一个好的编码器应该根据不同的关系上下文从文本中选择文本信息，使其最有易于实体链接任务。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于文本嵌入和结构嵌入联合的知识表示方法，本发明是一个新的文本增强知识表示方法，能够有效地融合事实三元组的结构信息和实体的描述信息，增强知识图谱的表示学习。此方法能适用于已存在的多种知识图谱嵌入模型，且能提高这些嵌入模型的链接预测任务。

本发明的目的是通过以下技术方案实现的：一种基于文本嵌入和结构嵌入联合的知识表示方法，包括以下步骤：

步骤一：将知识库中的实体描述文本进行预处理，对每个实体描述提取主题词；

步骤二：使用fasttext将主题词编码成词向量，每个实体描述表示为多维词向量；

步骤三：将处理后的多维词向量，输入到带有注意力机制的双向长短记忆网络(A-BiLSTM)或带有注意力机制的长短记忆网络(A-LSTM)编码，将表示每个实体的多维词向量处理成一维向量，也就是文本表示，并训练现有的StransE模型，得到实体的结构表示；

步骤四：引入门控机制，并通过文本嵌入和结构嵌入联合的方法，得到最终的实体嵌入矩阵；

步骤五：将实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中，提高知识补全任务。

进一步的，步骤一中对实体描述文本进行预处理的具体步骤如下：首先从原始文本中删除所有停止词，之后在描述中标记所有短语，并将这些短语视为单词；然后，对每个实体提取多个主题单词作为描述。

进一步的，步骤三的具体步骤如下：双向长短时神经网络(Bi-LSTM，Bi-directional Long Short-Term Memory)被认为两个单独的不同方向的LSTMs；其中一个LSTM从左到右将文本描述编码，而另一个LSTM分别将文本描述从右向左编码，然后把两次结果组合起来；在解码端引入注意力机制，对目标数据进行加权变化，能够有效提高文本编码的表示；利用提供的参数训练StransE知识图谱嵌入模型得到结构表示。

进一步的，步骤四的具体步骤如下：

对于实体e，定义e_d表示是它的结构嵌入信息，e_s是对实体e文本描述的编码；对于如何结合e_s和e_d，即要得到平衡系数g_s与g_d如公式(1)所示；

通过以下四种方法将结构特征矩阵和文本特征矩阵组合；分别为：

(2)根据attention机制的思想，得到平衡系数g_s和g_d如公式(2)所示。

u_s＝tanh(e_s·w+b)

u_d＝tanh(e_d·w+b)

(2)将平衡系数g_s和g_d总和设置为1，并利用在(2)中的评分系数u_s和u_d，得到g_s和g_d如公式(3)所示：

(4)利用公式评分函数

即/>

来代替评分系数u_s和u_d，得到平衡系数g_s和g_d如公式(4)所示：

(5)同样地，将g_s和g_d总和为1，并利用评分函数z(e)，得到g_s和g_d如公式(5)所示：

g_d＝1-g_s (5)。

与现有技术相比，本发明的技术方案所带来的有益效果是：

现有的知识表示学习模型如TransE等，仅利用知识图谱的三元组结构信息进行表示学习，尚有大量与知识有关的其他信息没有得到有效利用。本发明方法充分利用知识库中的补充文本，提高知识表示的区分能力，以较好地完成知识图谱补全、知识问答等任务。

在公开数据集WN18RR和FB15k-237上，将本发明联合表示方法引入到现有经典知识图谱嵌入模型中，H@10、MRR、MR的值都比原模型提高很多。

附图说明

图1是本发明的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于实体描述的联合文本嵌入和结构嵌入的知识表示方法，如图1所示，为本发明知识表示方法一具体实施例的整体示意图，包括：

步骤S1：将知识库中的实体描述文本进行预处理，对每个实体描述提取多个主题词。

步骤S2：使用fasttext将主题词编码成词向量，每个实体描述表示为多维词向量。

步骤S3：将处理后的多维词向量，输入到带有注意力机制的双向长短记忆网络(A-BiLSTM)或带有注意力机制的长短记忆网络(A-LSTM)编码，将表示每个实体的多维词向量处理成一维向量，也就是文本表示，并训练现有的StransE模型，得到实体的结构表示。

步骤S4：提出了一个联合机制来学习结构和文本信息。对于实体e，我们定义e_d表示是它的结构嵌入信息，e_s是对其文本描述的编码。主要关注的是如何结合e_s和e_d，即要得到g_s和g_d如公式(1)所示。

通过提出的四种方法将结构特征矩阵和文本特征矩阵组合。分别为：

(1)根据attention机制的思想，得到g_s和g_d如公式(2)所示：

u_s＝tanh(e_s·w+b)

u_d＝tanh(e_d·w+b)

(2)将g_s和g_d总和为1，并利用u_s和u_d，得到g_s和g_d如如公式(3)所示：

g_d＝1-g_s (3)

(3)利用公式

即/>

来代替u_s和u_d，得到g_s和g_d如公式(4)所示：

(4)同样地，将g_s和g_d总和为1，并利用z(e)，得到g_s和g_d如公式(1)所示：

步骤S5：将得到的实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中，可得到MRR、MR和hist@10的值。

表1 ConvKB模型链接预测结果

表2各模型链接预测结果对比

在知识库补全或链接预测任务是目的是预测在知识图中丢失的三元组，即预测一个不在知识图中的三元组是否可能有效，在一个链接预测任务(h,r,？)中，对于一个给定的实体h，和一个给定的关系r，我们的目标是确定哪个实体或者哪些实体t可以形成一个知识三元组(h,r,t)。利用“Filtered”设置，即不考虑出现在知识库中的任何错误的三元组。按分数的从大到小排列正确的测试三元组和错误的三元组。我们使用三种常用的评估指标：平均排名(MR)、平均倒数排名(MRR)和Hits@10(即有效的测试三元组排在前10的概率)。较低的MR，较高的MRR或Hits@10表示性能更好。

实验结果表1表明，当利用BiLSTM时，虽然MR的排名结果大幅度提升260-220＝40，但MRR也下降。显然模型结合BiLSTM的鲁棒性不是很好。所以我们认为综合考虑，结合A-BiLSTM时，训练效果最好。当结合A-BiLSTM时，尤其在WN18RR数据集上，ConvKB模型的MR值降低了2664-1754＝910(大约34％的提高)。

实验结果表2表明，在FB15k-237数据集上，DistMult利用Gate1的方式MR降低了16。对Hole来说，MR、Hits@10、Hits@3也都有小幅度地提升，其中MR降低了50。在Gate3方式上，TransH和TransD的MR、Hits@10、Hits@3也都有小幅度地提升，其中TransH的MR降低了13，Trans的MR降低了15。值得注意的是，在Gate4方式上，TransH的MRR增加了3％，hist@10提高了3.8％，MR降低了25。TransD的MRR增加了4.3％，hist@10提高了2.8％，MR降低了23。相比Gate3，Gate4的结合方式较好。在WN18RR数据集上，MR都下降了，即实验结果提高了。在Gate1的方式下，DistMult、Hole、TransH、TransD的MR降低了322、222、67、22。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于文本嵌入和结构嵌入联合的知识表示方法，其特征在于，包括以下步骤：

步骤三：将处理后的多维词向量，输入到带有注意力机制的双向长短记忆网络A-BiLSTM或带有注意力机制的长短记忆网络A-LSTM编码，将表示每个实体的多维词向量处理成一维向量，也就是文本表示，并训练现有的transE模型，得到实体的结构表示；

步骤四：引入门控机制，并通过文本嵌入和结构嵌入联合的方法，得到最终的实体嵌入矩阵；具体如下：

(1)根据attention机制的思想，得到平衡系数g_s和g_d如公式(2)所示；

u_s＝tanh(e_s·w+b)

u_d＝tanh(e_d·w+b)

(3)利用公式评分函数

即/>

(4)同样地，将g_s和g_d总和为1，并利用评分函数z(e)，得到g_s和g_d如公式(5)所示：

2.根据权利要求1所述一种基于文本嵌入和结构嵌入联合的知识表示方法，其特征在于，步骤一中对实体描述文本进行预处理的具体步骤如下：首先从原始文本中删除所有停止词，之后在描述中标记所有短语，并将这些短语视为单词；然后，对每个实体提取多个主题单词作为描述。

3.根据权利要求1所述一种基于文本嵌入和结构嵌入联合的知识表示方法，其特征在于，步骤三的具体步骤如下：双向长短时神经网络Bi-LSTM，Bi-directional Long Short-Term Memory被认为两个单独的不同方向的LSTMs；其中一个LSTM从左到右将文本描述编码，而另一个LSTM分别将文本描述从右向左编码，然后把两次结果组合起来；在解码端引入注意力机制，对目标数据进行加权变化，能够有效提高文本编码的表示；利用提供的参数训练transE知识图谱嵌入模型得到结构表示。