CN111538848A

CN111538848A - 一种融合多源信息的知识表示学习方法

Info

Publication number: CN111538848A
Application number: CN202010354486.4A
Authority: CN
Inventors: 李瑞轩; 辜希武; 夏光兵; 李玉华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-14
Anticipated expiration: 2040-04-29
Also published as: CN111538848B

Abstract

本发明公开了一种融合多源信息的知识表示学习方法，属于自然语言处理技术领域。包括：通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合，得到多源信息的初步融合结果；将多源信息的初步融合向量输入到解码器模型中进一步训练，得到最终的实体向量和关系向量。本发明提出的编码器‑解码器模型，一方面通过自定义的编码器将实体层次类型信息、实体文本描述信息、图结构信息和原始三元组结合，能更充分地表现出知识图谱中实体和关系的特征；另一方面使用ConvKB模型作为解码器，将编码器生成的结果向量输入卷积神经网络中进行语义匹配，捕获了三元组不同维度间的全局信息。

Description

一种融合多源信息的知识表示学习方法

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种融合多源信息的知识表示学习方法。

背景技术

知识图谱是存储实体、语义类型、属性以及实体间关系的大规模网络。近年来，人们花费大量时间建立了很多各个领域的知识图谱，如WordNet、Freebase、DBpedia、YAGO、NELL和维基数据等。知识图谱是将人类现有知识组建成有结构的系统的工具，它为我们提供了一个新的视角来描述现实世界。如今，知识图谱在人工智能和智能信息服务的许多任务中都扮演着重要的角色，例如单词相似度计算，词义歧义消除，实体歧义消除，语义解析，主题索引，文档摘要，信息提取和智能问答等。同时，知识图谱也被广泛应用于与语义Web技术、链接数据、大规模数据分析和云计算密切相关的商业和研究中。

知识图谱存储了现实世界中具体实体和抽象概念的结构化关系三元组。这种结构化的三元组既可以自动从海量文本和结构化互联网数据中抽取，也可以被专家们人工标注。为了存储这些知识，知识图谱中主要包含两个元素，即表示具体和抽象概念的实体(Entity)，以及表示实体之间相互联系的关系(Relation)。为了在知识图谱中记录关系三元组，人们提出过许多方案，如W3C发布的RDF(资源描述框架)，通常将这些实体和关系表示为离散符号。然而，在实际应用中使用知识图谱仍然面临着两个主要挑战：(1)计算效率低下：采用图结构来表示知识虽然简洁直观且符合人们的经验，但是当进行检索和多步推理任务时，一般都要利用专门的图论算法。而图论算法的时间和空间复杂度都较大，很难应用到大规模知识图谱上。(2)数据稀疏性：在大型知识库中，很多时候罕见的实体只与很少的关系相关，这就导致了长尾分布问题。在知识图谱上对这些实体和关系的运算经常难以得到期望的结果。

传统的知识构造和应用方法通常用独热表示(One-Hot Representation)来存储关系三元组。独热表示是经典词袋模型(COBW)的基础，它将每个实体或关系映射到索引，简单高效，而且无需任何学习过程。但是，它假设所有实体和关系之间都是独立的，由此得到的实体和关系向量都相互正交，因此无法嵌入任何与实体和关系相关的语义信息，人们从中无法获取任何有效的语义和推断信息。另一方面，这些工作还依赖于从外部信息源或知识图谱网络结构中提取特征。在信息爆炸的时代，知识图谱中每天都会增加很多新的知识，而独热表示通常会受到计算效率低下和可扩展性不足的影响。

随着深度学习的发展，分布式表示式学习在计算机视觉和自然语言处理方面已经显示出了自己的能力。近年来，人们也探索了知识图谱的分布式表示学习，发现了其在关系提取、知识推理和其他知识驱动应用中代表知识的强大能力。知识表示学习(KRL)通常学习实体和关系的分布式表示，并将它们投影到低维语义空间中。知识表示学习通常希望编码实体的语义意义及其相应的低维向量的关系。与传统表示形式相比，知识表示学习在知识图谱中的实体和关系具有许多密集的表示形式，从而降低了其应用中的计算复杂性。此外，知识表示学习可以通过测量实体和关系的低维嵌入的相似性来显式捕获实体和关系之间的相似性。凭借上述优势，知识表示学习在知识图谱中的应用正在蓬勃发展。

现有的对知识表示学习的研究大致集中在两个方面：一种是通过神经网络进行更加复杂的变换，从而找出实体和关系之间的内在联系，然后利用基于相似度的评分函数，通过匹配实体和关系的潜在语义在向量空间中的表示来度量三元组的合理性。另一种是融合多源异质信息，从而改善知识图谱数据稀疏的问题。这种方式通常是将附加信息编码后融合到传统的TransE模型(Translating Embedding，翻译模型)中，以此来改善TransE模型在处理一对多、多对一和多对多问题时所面临的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种融合多源信息的知识表示学习方法，其目的在于更充分地表现出知识图谱中实体和关系的特征，从而获得更加高效的实体和关系的嵌入表示。

为实现上述目的，按照本发明的一个方面，提供了一种融合多源信息的知识表示学习方法，该方法包括以下步骤：

S1.通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合，得到多源信息的初步融合结果；

S2.将多源信息的初步融合向量输入到解码器模型中进一步训练，得到最终的实体向量和关系向量；

所述编码器模型包括：第一分支、第二分支和门单元；第一分支依次包括：第一加权层次编码器和第一图注意力网络，其中，所述第一加权层次编码器用于将三元组中的实体向量进行层次类型投影，得到投影后的实体向量；所述第一图注意力网络用于捕获投影后的实体向量的邻节点特征，找出每个实体与它的邻节点之间的相互影响，得到经过变换后的三元组实体向量；第二分支依次包括：卷积神经网络、第二加权层次编码器和第二图注意力网络，其中，所述卷积神经网络用于将实体的文本描述信息编码成实体的文本描述向量；所述加权层次编码器用于将实体的文本描述向量进行层次类型投影，得到投影后的实体的文本描述向量；所述第二图注意力网络用于捕获投影后的实体的文本描述向量的邻节点特征，得到经过变换后的实体文本描述向量；门单元用于对第一分支的结果和第二分支的结果进行组合，得到多源信息的初步融合向量。

优选地，步骤S1之前，对实体的层次类型数据和实体的文本描述数据进行预处理，所述预处理包括：

(1.1)进行数据清洗，过滤掉实体的文本描述中的停用词，并去除三元组中没有层次类型的关系以及实体中没有文本描述或文本中单词过少的部分，再将剩下的实体、关系、单词以及所有层次类型都编码成数字id；

(1.2)寻找图结构中所有的2跳辅助关系和对应的实体，将得到辅助三元组作为原始三元组的补充。

优选地，在训练编码器模型之前，将三元组中的实体、三元组中的关系和文本中的单词分别初始化为实体向量、关系向量和单词向量，实体对应的不同层次类型信息随机初始化为矩阵。

优选地，使用加权层次编码器将域矩阵和类型矩阵组合为实体的层次类型投影矩阵：

M_r＝αM_t+(1-α)M_d

其中，α为类型信息所占的权重，M_d为实体的域矩阵，M_t为实体的类型矩阵。

优选地，分别将头实体和尾实体投影到各自所的特定关系空间中，经过变换后，实体向量可表示为：

h′_s＝M_rhh_s，t′_s＝M_rtt_s

h′_d＝M_rhh_d，t′_d＝M_rtt_d

其中，M_rh和M_rt都是M_r的一部分，分别表示特定关系下头实体和尾实体的层次类型投影矩阵。

优选地，图注意力网络包含两个图注意力层：第一个图注意力层中采用了2个注意力机制，分别单独计算头实体不同邻接点的相对影响，产生2个嵌入结果；将这两个结果拼接到一起后输入到第二个图注意力层中，重复注意力机制的计算过程，从而得到卷积层的实体嵌入。

优选地，将卷积层嵌入结果与卷积前上一次的嵌入结果线性组合，生成三元组实体的最终向量表示h″_s和t″_t。

优选地，训练编码器模型时，采用最大间隔法，损失函数如下：

其中，γ＞0为指定的间隔参数，f_e(h，r，t)为编码器模型对三元组(h，r，t)评分，T`为T中三元组对应的负样本，表示为：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}

其中，E为实体集合。

优选地，使用了KBGAN模型，进一步利用生成对抗网络生成负样本来训练，具体包括以下步骤：

(1)使用三元组数据训练ComplEx模型至收敛，将生成的实体和关系的嵌入保存；

(2)对于每个三元组，利用生成器选择出最佳的负样本，所述生成器中包含训练好的ComplEx模型，然后和正样本一起输入判别器中，所述判别器中包含经过初步训练的编码器模型；

假设在给定正样本(h，r，t)的条件下，生成器生成的负三元组(h′，r，t′)的函数分布定义为：

其中，Neg(h，r，t)为三元组(h，r，t)对应的所有负样本集合；

判别器的目标可以看成最小化损失函数L_e，生成器的目标定义为最大化负样本评分的期望值：

(3)判别器利用负样本训练编码器模型，并将负样本的评分反馈给生成器，通过梯度的反向传播更新生成器的参数；

(4)不断重复步骤(2)～(3)直至编码器模型收敛，得到编码器中关系向量r′和两种实体向量h″_s和t″_t，h″_d和t″_d。

优选地，使用ConvKB模型作为解码器，训练ConvKB模型时，使用软间隔损失函数作为损失函数，表示为：

f_d(h，r，t)＝concat(σ([h；r′；t]*Ω))·w

其中，f_d(h，r，t)为ConvKB模型对三元组(h，r，t)评分，Ω为卷积核参数，w为全连接层权重参数，*为卷积操作，σ为非线性激活函数，concat为连接操作，λ为L₂正则化参数。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明提出一种编码器-解码器模型，一方面通过自定义的编码器将实体层次类型信息、实体文本描述信息、图结构信息和原始三元组结合，将它们与原始的三元组融合到一起，能更充分地表现出知识图谱中实体和关系的特征；另一方面使用ConvKB模型作为解码器，将编码器生成的结果向量输入卷积神经网络中进行语义匹配，捕获了三元组不同维度间的全局信息。

(2)针对传统方法嵌入图结构时通常采用随机游走或图卷积网络，但它们一般适用于无向图，而且所有邻节点的重要性相同的问题，本发明利用图的注意力机制来区分实体不同邻节点的重要性，进而计算它们对此节点的不同影响，这更符合知识图谱的特性。同时，为了更充分利用图的拓扑结构，计算了2跳辅助关系，进而推断两个实体的联系，这能够有效改善数据稀疏的问题，是对原始三元组信息的有力扩充。

(3)针对传统通过随机方式生成的负样本很多时候太容易区分，损失值很小或直接变为0，因而对模型的训练没有帮助。本发明在模型中引入了KBGAN模型，利用生成对抗网络来生成高质量的负样本，不仅能够提高模型训练效率，加快收敛速度，还能最大限度挖掘模型的潜力。

附图说明

图1为本发明提供的实体的文本描述示意图；

图2为本发明提供的实体的层次类型示意图；

图3为本发明提供的模型的整体架构图；

图4为本发明提供的实体描述信息编码图；

图5为本发明提供的图注意力机制模型图；

图6为本发明提供的ConvKB解码器模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，对本发明涉及的术语进行解释。

三元组，知识图谱中的实体指的是具有具体或抽象含义的单词，关系指的是不同实体间的联系，它们通常以三元组(头实体h，头实体与尾实体之间的关系r，尾实体t)的形式存储。

实体的文本描述，是指对实体中包含的语义更为细致的文字说明，它们可以看成是以文字的方式来对这个实体进行简洁而全面介绍。如图1所示，维基百科中对三元组(Jane Austen，is the author of，Pride and Prejudice)中头尾实体的文本描述。对于Jane Austen和Pride and Prejudice的描述中，都有单词直接包含或间接暗示了三元组中要表示的内容。实体的文本描述信息是对实体相关内容更为详细的说明，里面包含了很多关键的知识，是对三元组结构的重要补充。

实体的层次类型，是指知识图谱中实体的不同粒度层次结构。如图2所示，知识图谱Freebase中三元组(Jane Austen，is the author of，Pride and Prejudice)头尾实体对应的层次类型信息。显然，在这种关系中，头实体Jane Austen最重要的层次类型是book/author，尾实体Pride and Preiudice最要的层次类型是book/written_work。实体的层次类型信息可以帮助人们自动将不同实体联系到一起，并通过实体所属的类型信息约束实体中的语义特征。

图拓扑结构信息，每个头实体通过不同的关系与多个尾实体相连，尾实体又可以作为其它关系中的头实体，所有的三元组由此构成了知识图谱的拓扑结构。其描述了不同实体之间的联系，能够真实地反映不同实体在空间上的相互影响。

本发明公开了一种融合多源信息的知识表示学习方法，该方法包括以下步骤：

步骤S1.通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合，得到多源信息的初步融合结果。

本实施例以FB15K237数据集为例，从Freebase中下载FB15K237数据集中实体的层次类型数据和实体的文本描述数据，并对数据进行预处理。预处理主要包含以下两个方面：

(1.1)进行数据清洗，过滤掉实体的文本描述中的停用词(如“and”、“but”、“can”等)，并去除三元组中没有层次类型的关系以及实体中没有文本描述或文本中单词过少(如少于3个)的部分，再将剩下的实体、关系、单词以及所有层次类型都编码成数字id。

本实施例中，清洗后数据集信息如下表1：

表1

(1.2)使用广度优先遍历算法寻找图结构中所有的2跳辅助关系和对应的实体，将得到辅助三元组作为原始三元组的补充。

例如，给定三元组(e₁，r₁₂，e₂)和三元组(e₂，r₂₃，e₃)，实体e₁和e₃之间的2跳辅助关系可表示为：

r₁₃＝r₁₂+r₂₃

由此得到新的辅助三元组(e₁，r₁₃，e₃)，将其作为原始三元组的补充。

在训练编码器模型之前，将三元组中的实体、三元组中的关系和文本中的单词分别初始化为实体向量(h_s，t_s)、关系向量(r)和单词向量，实体对应的不同层次类型信息随机初始化为矩阵。

三元组中的实体和关系可以用随机向量初始化，也可以使用通过TransE模型训练好的向量。三元组中头尾实体分别表示为h_s，t_s，关系表示为r。文本中的单词可以用随机向量初始化，也可以使用Word2Vec模型训练好的向量。在本实施例中，实体包含域和类型两个层次，将其随机初始化为实体的域矩阵M_d和类型矩阵M。

如图3所示，所述编码器模型包括：第一分支、第二分支和门单元。

第一分支依次包括：第一加权层次编码器和第一图注意力网络，其中，所述第一加权层次编码器用于将三元组中的实体向量进行层次类型投影，得到投影后的实体向量；所述第一图注意力网络用于捕获投影后的实体向量的邻节点特征，找出每个实体与它的邻节点之间的相互影响，得到经过变换后的三元组实体向量。

第二分支依次包括：卷积神经网络、第二加权层次编码器和第二图注意力网络，其中，所述卷积神经网络用于将实体的文本描述信息编码成实体的文本描述向量；所述加权层次编码器用于将实体的文本描述向量进行层次类型投影，得到投影后的实体的文本描述向量；所述第二图注意力网络用于捕获投影后的实体的文本描述向量的邻节点特征，得到经过变换后的实体文本描述向量。

门单元用于对第一分支的结果和第二分支的结果进行组合，得到多源信息的初步融合向量。

(1)将单词向量输入到卷积神经网络中提取文本特征，得到实体文本描述的向量h_d和t_d。

将单词向量输入到1维卷积神经网络中进行训练，提取文本特征，进而得到实体文本描述的向量表示h_d(头实体)和t_d(尾实体)。由于文本序列长短不一，因此对短序列进行补零，在短序后面添加零向量，使文本对齐。

CNN模型(卷积神经网络，Convolutional Neural Networks)如图4所示，将文本描述中的单词向量作为输入，两个卷积层的输出分别通过最大池化和平均池化合并，该模型可以为每个实体生成固定长度的表示向量，而不会丢失太多信息。

(2)对于三元组中的头实体和尾实体，使用加权层次编码器建立层次类型投影矩阵。

将域矩阵和类型矩阵组合为实体的层次类型投影矩阵：

M_r＝αM_t+(1-α)M_d

其中，α为类型信息所占的权重，M_d为实体的域矩阵，M为实体的类型矩阵。本实施例中，权重α取值0.9。层次类型投影，在特定关系对应的向量空间中约束实体的语义信息，过滤掉其他不相干描述和语义的噪声干扰。

(3)将三元组中的头实体和尾实体以及2跳关系对应的实体向量分别与层次类型投影矩阵相乘，从而将实体投影到关系对应的空间中，使用层次类型信息约束了实体的语义。

分别将头实体和尾实体投影到各自所的特定关系空间中。对于同一种关系中的两种实体信息，我们使用同样的矩阵进行计算。经过变换后，实体向量可表示为：

h′_s＝M_rhh_s，t′_s＝M_rtt_s

h′_d＝M_rhh_d，t′_d＝M_rtt_d

(4)将三元组实体和多跳关系对应的实体相组合，然后输入到图注意力网络(Graph Attention Networks，GAT)。

GAT的内部结构如图5所示，其核心是两个图注意力层：第一个图注意力层中为了使学习过程更加稳定，采用了2个注意力机制，它们会分别单独计算头实体不同邻接点的相对影响，因此会产生多2个嵌入结果。将这两个结果拼接到一起，进一步输入到第二个图注意力层中，重复注意力机制的计算过程，从而得到卷积层的实体嵌入。在第一个图注意力层中，为了保持关系向量的维度与实体向量维度一致，采用了一个线性转换矩阵W_r将原始的关系向量映射到高维空间，更新后的关系表示为r′。

r′＝W_rr

(5)将卷积层嵌入结果与卷积前上一次的嵌入结果线性组合，生成三元组实体的最终向量表示h″_s和t″_t。

上述处理是为了避免实体丢失原始的嵌入信息。

(6)对于实体的文本描述向量，重复步骤(3)～(5)，生成实体的描述向量h″_d和t″_d。

(7)利用门机制组合两种实体信息，头实体、尾实体分别表示为

h＝g_h⊙h″_s+(1-g_h)⊙h″_d

t＝g_t⊙h″_s+(1-g_t)⊙t″_d

其中，g_h和g_t分别为头实体和尾实体对应的门，其中的元素都位于区间[0，1]中，⊙为元素级的乘法。为了约束g_h，g_t∈[0，1]，在模型中引入了实向量参数

训练编码器模型时，采用最大间隔法，损失函数如下：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}。

其中，E为实体集合。

上述训练过程中，负样本T中的实体是通过随机方式替换的，这样会使导致多负样本过于容易区分，无法达到最好的训练效果。优选地，在此基础上，本发明引入了KBGAN模型，进一步利用生成对抗网络生成负样本来训练，从而充分发挥模型的表示能力。

(1)使用三元组数据训练ComplEx模型至收敛，将生成的实体和关系的嵌入保存。

(2)对于每个三元组，利用生成器选择出最佳的负样本，所述生成器中包含训练好的ComplEx模型，然后和正样本一起输入判别器中，所述判别器中包含经过初步训练的编码器模型。

其中，Neg(h，r，t)为三元组(h，r，t)对应的所有负样本集合。

判别器的目标可以看成最小化损失函数(3.7)中的L_e。生成器的目标定义为最大化负样本评分的期望值：

(3)判别器利用负样本训练编码器模型，并将负样本的评分反馈给生成器，通过梯度的反向传播更新生成器的参数。

由于原始的生成对抗网络无法处理离散数据，因此在KBGAN中使用了策略梯度理论，L_G的梯度可表示为：

其中，≈为使用实际采样估计期望，N为采样数。

(4)不断重复步骤(2)～(3)直至编码器模型收敛，得到编码器中关系向量(r′)和两种实体向量(h″_s和t″_t，h″_d和t″_d)。

步骤S2.将多源信息的初步融合向量输入到解码器模型中进一步训练，得到最终的实体向量和关系向量。

通过解码器模型计算三元组向量在不同维度上的全局特征，同时保留模型的翻译特性。如图6所示，本实施例使用ConvKB模型作为解码器，将编码器生成的结果向量输入卷积神经网络中进行语义匹配，捕获了三元组不同维度间的全局信息。

ConvKB模型使用软间隔损失函数(sofimarginloss)来训练，损失函数可以表示为：

f_d(h，r，t)＝concat(σ([h；r′；t]*Ω))·w

其中，f_d(h，r，t)为ConvKB的评分函数，Ω为卷积核参数，w为全连接层权重参数，*为卷积操作，σ为非线性激活函数，concat为连接操作，λ为L₂正则化参数。

实施例

参数设置

编码器模型中，使用卷积神经网络获取文本描述信息中单词的特征，，单词和三元组的输入维度选择50。第一个卷积层窗口设为2，第二个卷积层窗口设为1。两个卷积层后的非线性函数都选择tanh函数。第一个池化层采用最大池化方式，窗口大小为4，第二个池化层采用平均池化方式，窗口大小为1。层次类型信息中，每种关系类型和域矩阵维度都随机初始化为50×50，类型矩阵权重设置为0.9，域矩阵权重设为0.1。在GAT的第一层中单独使用了2个注意力机制，每个注意力机制中输出维度为100，因此组合后输出的三元组向量维度都变为200，Leaky ReLU函数斜率设置为0.2。评分函数间隔取1.0。使用Adam算法优化，学习率为10^-3，权重衰减参数为10^-5。

KBGAN中，首先训练ComplEx模型作为生成器。ComplEx模型随机初始化向量维度为50，使Adam算法优化，学习率为10^-3，权重衰减参数设为0.01。生成器和判别器都使用Adam算法优化，学习率为10^-3。

对于解码器，实体和关系的输入维度都为200，二维卷积层的输出通道数选择50。同样使用Adam算法优化，学习率取10^-3，权重衰减参数取10^-5。

实验结果

为了证明本发明的知识表示学习模型的效果，分别在知识图谱的的链接预测任务和三元组分类任务上进行了实验。

链接预测的目的是在三元组头实体或尾实体缺失的条件下，利用知识表示学习模型，准确预测出缺失的实体，从而找出不同实体间隐含的联系。使用三种评估指标来评价结果：(1)平均倒数排序(Mean Reciprocal Rank，MRR)，表示正确三元组排名倒数的平均值。(2)平均排序(Mean Rank，MR)，表示正确三元组排名的平均值。(3)Hits@N，表示前N(N＝1，3，10)个预测结果中正确三元组的比例。实验结果如表2下：

表2

三元组分类是知识图谱中另一个重要的任务，目标是判断给定三元组的真实性，常用于问答系统中。比如回答“中国首都是不是北京”这样的问题，可以变成判断三元组(中国，首都，北京)是否为真。三元组分类本质上是一个传统的二分类问题，对于每种关系，我们设置一个阈值δ_r，当三元组的评分S(h，r，t)＜δ_r时，三元组被判断为真，反之则为假。最终使用准确率作为三元组分类的评价指标。实验结果如表3下：

表3

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。