CN111949764B

CN111949764B - 一种基于双向注意力机制的知识图谱补全方法

Info

Publication number: CN111949764B
Application number: CN202010830648.7A
Authority: CN
Inventors: 李凤英; 马安侨; 董荣胜
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2021-06-29
Anticipated expiration: 2040-08-18
Also published as: CN111949764A

Abstract

本发明公开一种基于双向注意力机制的知识图谱补全方法，通过在注意力机制的技术之上，引入了双向注意力机制来学习实体间的双向语义关系，并通过双向注意力值对初始化的实体嵌入矩阵和关系嵌入矩阵进行更新。在对新冠开放知识图谱补全中，能学习到实体间的双向语义关系，对实体所聚合的邻居实体的信息更加完善。经过多次训练，实现更加准确的实体嵌入和关系嵌入，能够提高新冠开放知识图谱补全的准确率。

Description

一种基于双向注意力机制的知识图谱补全方法

技术领域

本发明涉及知识图谱技术领域，具体涉及一种基于双向注意力机制的知识图谱补全方法。

背景技术

知识图谱(Knowledge Graph,KG)的概念是谷歌于2012年5月17日提出的，它是一种结构化的知识库。其本质是带标签的有向图，图中的每个节点表示实体，而每条边则表示关系，用标准三元组(s,r,o)表示，s、o分别为头实体和尾实体，r为s和o之间的关系。尽管知识图谱有数以百万的关系和实体，但有研究表示，Freebase中有75％的人物没有国籍信息，与此同时，正在构建的新冠开放知识图谱也存在缺失信息的问题，如图1中，实体“MERS病毒”缺失与实体“蝙蝠”之间的关系“寄生”。因此，为了使新冠开放知识图谱更具完备性和准确性，必须不断地对其进行扩充和完善。知识图谱补全的主要任务是进行链接预测，即通过知识图谱现有的信息来预测没有关系的实体之间是否存在隐藏的关系。

Mikolov等人于2013年提出了Word2vec的表示学习模型，发现词向量空间存在平移不变现象，即C(king)-C(queen)≈C(man)-C(woman)，可以学习到单词king和queen之间、man和woman之间的某种相同的隐含语义关系。受到该启发，Bords提出了TransE模型，其将知识图谱的实体和关系嵌入到连续的向量空间内，对于每个三元组(s,r,o)，把关系r的向量l_r作为头实体嵌入向量l_s和尾实体嵌入向量l_o之间的平移，提出了l_s+l_r≈l_o的函数关系。在TransE模型之后又有许多研究者陆续提出了TransH、TransR、TransD、TranSparse等模型，来弥补TransE模型在一对多、多对一、多对多关系上的不足。

随着神经网络的发展，2018年Dettmers提出了ConvE模型，使用了二维卷积核来学习实体和关系间的信息，随后通过全连接层和非线性操作得到预测结果。之后，Nguyen提出了ConvKB模型，其通过卷积神经网络学习整个三元组的信息来进行链接预测任务。在2019年Association for Computational Linguistics国际会议中，论文《LearningAttention-based Embeddings for Relation Prediction in Knowledge Graphs》提出了一种基于注意力机制的知识图谱嵌入方法，通过学习一个节点中不同邻居节点的注意力值来表示节点，通过神经网络进行训练，获得最终的知识图谱嵌入表示，从而进行知识图谱补全。

尽管与TransE、TransH、TransR、ConvKB、ConvE模型相比，《Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs》开始提取图的结构信息进行训练，获得具有图结构的知识图谱嵌入向量，但是其仅学习头实体和尾实体的单向关系，而忽略了尾实体到实体间的逆向关系，导致丢失实体间的逆向语义信息，从而导致补全的准确率下降。然而，聚合实体间的双向语义信息，对于提升实体的嵌入质量又是非常重要的，如在图2中，对于实体“COVID-19”聚合了所有邻居实体的语义信息。

发明内容

本发明所要解决的是现有知识图谱嵌入模型无法提取头实体和尾实体之间双向语义关系的问题，提供一种基于双向注意力机制的知识图谱补全方法，通过双向注意力机制来获取实体间的双向注意力值，学习到更加完整的嵌入表示，从而提高对于新冠开放知识图谱补全的准确度。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于双向注意力机制的知识图谱补全方法，包括如下步骤：

步骤1：根据已经存在的新冠开放知识图谱数据集，构造训练所需的双向关系语料库，该双向关系语料库包括实体集合、关系集合和三元组集合；其中实体集合包括头实体和尾实体，关系集合包括正关系和逆关系，三元组集合包括正向三元组和逆向三元组；

步骤2：提取双向关系语料库的实体集合和关系集合；将实体集合中的每一个实体初始化为一个实体嵌入向量，并将所有实体嵌入向量组成实体嵌入矩阵；将关系集合中的每一个关系初始化为一个关系嵌入向量，得到所有关系嵌入向量组成关系嵌入矩阵；

步骤3：先从双向关系语料库的三元组集合中抽取一定数量的三元组作为可用三元组，再对这些可用三元组的头实体或尾实体进行随机替换生成错误三元组，后将所有的可用三元组与所有的错误三元组构成训练数据集；

步骤4：对于当前实体嵌入矩阵和当前关系嵌入矩阵，通过双向图注意力机制学习不同实体间的双向注意力值，以更新当前实体嵌入矩阵和当前关系嵌入矩阵；

步骤5：基于当前实体嵌入矩阵和当前关系嵌入矩阵，通过损失函数计算训练数据集中所有三元组的损失值：若损失值小于预设的损失阈值，则将当前实体嵌入矩阵和当前关系嵌入矩阵作为最终实体嵌入矩阵和最终关系嵌入矩阵，并转至步骤6；否则，返回步骤4；

步骤6：根据最终实体嵌入矩阵和最终关系嵌入矩阵，对新冠开放知识图谱数据集进行补全操作，即：

利用给定的头实体和给定的关系，依次将双向关系语料库中的实体集合中实体视为尾实体，并通过三元组评分函数计算该三元组的评分，并将评分最高的尾实体作为所预测的尾实体；

利用给定的尾实体和给定的关系，依次将双向关系语料库中的实体集合中实体视为头实体，并通过三元组评分函数计算该三元组的评分，并将评分最高的头实体作为所预测的头实体。

上述步骤4的具体过程如下：

步骤4.1：对于训练数据集中的所有正向三元组t_(i,k,j)，从当前实体嵌入矩阵和当前关系嵌入矩阵找到其实体和关系的向量表示，得到三元组的嵌入表示(e_i,r_k,e_j)；同理，对于训练数据集中的所有逆向三元组

从当前实体嵌入矩阵和当前关系嵌入矩阵找到其实体和关系的向量表示，得到三元组的嵌入表示(e_j,r_k,e_i)；

步骤4.2：基于正向三元组t_(i,k,j)的嵌入表示(e_i,r_k,e_j)利用初始化的第一权重矩阵W₁学习正向三元组t_(i,k,j)的特征映射向量v_ikj；同理，基于逆向三元组

的嵌入表示(e_j,r_k,e_i)利用初始化的第一权重矩阵W₁学习逆向三元组

的特征映射向量

其中：

v_ikj＝W₁[e_i||r_k||e_j]，

步骤4.3：利用初始化的第二权重矩阵W₂对正向三元组t_(i,k,j)的特征映射向量v_ikj再次进行特征映射，并使用激活函数LeakyReLU计算正向三元组t_(i,k,j)的初始注意力值h_ikj；同理，利用初始化的第二权重矩阵W₂对逆向三元组

的特征映射向量

再次进行特征映射，并使用激活函数LeakyReLU计算逆向三元组

的初始注意力值

其中：

h_ikj＝LeakyReLU(W₂v_ikj)，

步骤4.4：分别对正向三元组t_(i,k,j)的初始注意力值h_ikj和逆向三元组

的初始注意力值

进行归一化，得到正向三元组t_(i,k,j)的归一化注意力值α_ikj和逆向三元组

的归一化注意力值

步骤4.5：对实体嵌入矩阵和关系嵌入矩阵进行更新；其中：

实体嵌入矩阵的第i个实体嵌入向量的更新公式为：

关系嵌入矩阵的第k个正关系嵌入向量的更新公式为：

关系嵌入矩阵的第k个逆关系嵌入向量的更新公式为：

式中，e_i ^*表示更新后的第i个实体嵌入向量；r_k ^*表示更新后的第k个正关系嵌入向量；

表示更新后的第k个逆关系嵌入向量；e_i表示更新前的第i个实体嵌入向量；e_j表示更新前的第j个实体嵌入向量；σ(·)表示ELU激活函数；α_ikj表示正向三元组t_(i,k,j)的归一化注意力值α_ikj，

表示逆向三元组

的归一化注意力值；v_ikj表示正向三元组t_(i,k,j)的特征映射向量，

表示逆向三元组

的特征映射向量；

表示以e_i为头实体的正向三元组t_(i,k,j)的尾实体集合，

表示以e_i为头实体的正向三元组t_(i,k,j)的关系集合，

表示以e_i为尾实体的逆向三元组

的头实体集合，

表示以e_i为尾实体的逆向三元组

的关系集合；

表示以r_k为关系的正向三元组t_(i,k,j)的集合，

表示以

为关系的逆向三元组

的集合。

上述步骤2中，每个实体嵌入向量的维度与每个关系嵌入向量的维度相同。

上述步骤3中，每个可用三元组对应生成20个错误三元组。

上述步骤5中，损失函数为最大间隔函数。

与现有技术相比，本发明具有如下特点：

1、通过注意力机制将图的结构信息嵌入到向量空间，并通过稀疏矩阵的方式存储和维护三元组邻接矩阵，减少了了训练过程中的内存开销；

2、通过双向注意力机制获取实体间的双向语义关系，学习更加准确的嵌入表示，提高对新冠开放知识图谱补全的准确率。

附图说明

图1是新冠开放知识图谱的子图结构图。

图2是实体“COVID-19”聚合邻居语义信息示意图。

图3是基于双向注意力机制的新冠开放知识图谱补全流程图。

图4是双向注意力机制结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。需要说明的是，实例中提到的方向用语，例如“上”、“下”、“中”、“左”“右”、“前”、“后”等，仅是参考附图的方向。因此，使用的方向仅是用来说明并非用来限制本发明的保护范围。

一种基于双向注意力机制的知识图谱补全方法，如图3所示，其具体包括如下步骤：

步骤1：根据已经存在的新冠开放知识图谱数据集，构造训练所需的双向关系语料库G，其中双向关系语料库G包括实体集合E、关系集合R和三元组集合T。

步骤1.1：对新冠开放知识图谱数据集中的每个正向三元组(s,r,o)，通过将头实体和尾实体互换，并将正关系r替换为逆关系r^-的方式，生成对应的逆向三元组(o,r^-,s)。

步骤1.2：基于给定的实体编号，对新冠开放知识图谱数据集中的所有实体(包括头实体s和尾实体o)进行编号，并将编号形式的实体存储在实体集合E中。实体集合E的大小为n，表示知识图谱中共有n个实体。

步骤1.3：基于给定的关系编号，对新冠开放知识图谱数据集中的所有关系(包括正关系r和逆关系r^-)进行编号，并将编号形式的关系存储在关系集合R中。关系集合R的大小为2m，表示知识图谱中共有2m个关系。

步骤1.4：基于给定的实体编号和关系编号，对新冠开放知识图谱数据集中的所有三元组(包括正向三元组(s,r,o)和逆向三元组(o,r^-,s))进行编号，并将编号形式的正向三元组存储在正向三元组集合T⁺中，编号形式的逆向三元组存储在逆向三元组集合T^-中，由此得到三元组集合T，其中Τ＝T⁺∪T^-。

步骤2：提取双向关系语料库G中的实体集合E和关系集合R；将实体集合E中的每一个实体初始化为一个d维的实体嵌入向量，并将所有实体嵌入向量组成实体嵌入矩阵e，e的嵌入维度为n×d；将关系集合R中的每一个关系初始化为一个d维的关系嵌入向量，得到所有关系嵌入向量组成关系嵌入矩阵r，r的嵌入维度为2m×d。其中d为设定值，一般将d值设为50。

步骤3：从双向关系语料库G的三元组集合T中抽取一定数量的三元组Δ_batch，并对所抽取的三元组Δ_batch的头实体或尾实体进行随机替换生成错误三元组，并将所抽取的三元组与对应的错误三元组构成训练数据集合。

步骤3.1：从正向三元组集合T⁺和逆向三元组集合T^-中分别采样固定数量的三元组Δ_batch。

步骤3.2：对正向三元组Δ_batch中的每一个三元组(s,r,o)随机替换头实体或者尾实体生成x个错误三元组(s′,r,o′)，对逆向三元组Δ_batch中的每一个三元组(o,r^-,s)随机替换头实体或者尾实体生成x个错误三元组(o′,r^-,s′)。其中s′,o′∈E，x一般取20。

步骤3.3：将所有的正向三元组(s,r,o)以及通过其生成的错误三元组(s′,r,o′)统称为正向三元组，同时将逆向三元组(o,r^-,s)以及通过其生成的错误三元组(o′,r^-,s′)统称为逆向三元组，最后用所有正向三元组和逆向三元组构成迭代所需要的训练数据集data_batch。

步骤4：对于当前实体嵌入矩阵和当前关系嵌入矩阵，通过双向图注意力机制(如图4)学习不同实体间的双向注意力值，以更新当前实体嵌入矩阵和当前关系嵌入矩阵。

第一次迭代时，更新前的当前实体嵌入矩阵和当前关系嵌入矩阵为步骤2所得的实体嵌入矩阵e和关系嵌入矩阵r。从第二次迭代开始，更新前的当前实体嵌入矩阵和当前关系嵌入矩阵为上一次迭代所得到的更新后的实体嵌入矩阵e^*和更新后的关系嵌入矩阵r^*。

步骤4.1：对于训练数据集data_batch中的所有正向三元组t_(i,k,j)，从当前实体嵌入矩阵和当前关系嵌入矩阵找到其实体和关系的向量表示，得到正向三元组t_(i,k,j)的嵌入表示(e_i,r_k,e_j)，其维度为3×d。同理，对于训练数据集data_batch中的所有逆向三元组

从当前实体嵌入矩阵和当前关系嵌入矩阵找到其实体和关系的向量表示，得到逆向三元组

的嵌入表示(e_j,r_k,e_i)，其维度为3×d。

步骤4.2：基于正向三元组t_(i,k,j)的嵌入表示(e_i,r_k,e_j)和逆向三元组

的嵌入表示(e_j,r_k,e_i)，利用初始化的第一权重矩阵W₁学习正向三元组t_(i,k,j)的特征映射向量v_ikj和逆向三元组

的特征映射向量

v_ikj＝W₁[e_i||r_k||e_j]，

式中，"||"表示全连接操作，W₁为权重矩阵。

步骤4.3：分别利用初始化的第二权重矩阵W₂对正向三元组t_(i,k,j)的特征映射向量v_ikj和逆向三元组

的特征映射向量

再次进行特征映射，并使用非线性激活函数计算正向三元组t_(i,k,j)的初始注意力值h_ikj和逆向三元组

的初始注意力值

h_ikj＝LeakyReLU(W₂v_ikj)，

式中，W₂为权重矩阵，LeakyReLU为激活函数。

步骤4.4：同时对正向三元组t_(i,k,j)的初始注意力值h_ikj和逆向三元组

的初始注意力值

进行归一化，保证同一实体来自其它实体的注意力值的和为1，得到正向三元组t_(i,k,j)的归一化注意力值α_ikj和逆向三元组

的归一化注意力值

步骤4.5：对当前实体嵌入矩阵和当前关系嵌入矩阵进行更新，其中：

实体嵌入矩阵的第i个实体嵌入向量的更新公式为：

其中，e_i ^*表示实体集合中第i个实体更新后的嵌入向量，σ(·)表示ELU激活函数，

表示以e_i为头实体的正向三元组t_(i,k,j)的尾实体集合，

表示以e_i为头实体的正向三元组t_(i,k,j)的关系集合，

表示以e_i为尾实体的逆向三元组

的头实体集合，

表示以e_i为尾实体的逆向三元组

的关系集合。

关系嵌入矩阵的第k个正关系嵌入向量的更新公式为：

其中，r_k ^*表示关系集合第k个正关系更新后的嵌入向量，

表示以r_k为关系的正向三元组t_(i,k,j)的集合，e_j表示正向三元组t_(i,k,j)的尾实体嵌入向量，e_i表示正向三元组t_(i,k,j)的头实体嵌入向量。

关系嵌入矩阵的第k个逆关系嵌入向量的更新公式为：

其中，

表示关系集合第k个逆关系更新后的嵌入向量，

表示以

为关系的逆向三元组

的集合，e_i表示逆向三元组

的尾实体嵌入向量，e_j表示逆向三元组

的头实体嵌入向量。

步骤5：基于当前实体嵌入矩阵和当前关系嵌入矩阵，通过损失函数计算训练数据集中所有三元组(包括可用三元组和错误三元组)的损失值：若损失值小于预设的损失阈值，则当前实体嵌入矩阵和当前关系嵌入矩阵为最终实体嵌入矩阵e和最终关系嵌入矩阵r，并转入步骤6；否则，返回步骤4。

本发明使用最大间隔函数作为损失函数，

式中，γ为超参数；

表示训练数据集中的可用三元组，T^*表示训练数据集中的可用三元组集合；t_{(i′,k′,j′)}表示训练数据集中的错误三元组，T′表示训练数据集中的错误三元组集合；||·||₁表示1-范数；e_i表示可用三元组

的头实体嵌入向量，e_j表示可用三元组

的尾实体嵌入向量，r_k表示可用三元组t_{(i′,k′,j′)}的关系嵌入向量；e_i′表示错误三元组t_{(i′,k′,j′)}的头实体嵌入向量，e_j′表示错误三元组t_{(i′,k′,j′)}的尾实体嵌入向量，r_k′表示错误三元组t_{(i′,k′,j′)}的关系嵌入向量。

经过反复测试，当损失函数的损失值达到收敛时为最佳选择，其对应的迭代次数epoch一般为3000次。

步骤6：根据步骤5所得到最终实体嵌入矩阵e和最终关系嵌入矩阵r，对新冠开放知识图谱数据集进行补全操作，即：

利用给定的头实体s和给定的关系r，依次将双向关系语料库中的实体集合中实体视为尾实体o，并通过评分函数计算当前三元组(s,r,o)的评分，并将评分最高的尾实体o作为所预测的尾实体；

利用给定的尾实体o和给定的关系r，依次将双向关系语料库中的实体集合中实体视为头实体s，并通过评分函数计算当前三元组(s,r,o)的评分，并将评分最高的头实体s作为所预测的头实体。

上述评分函数f为：

f＝||e_i+r_k-e_j||₁

式中，||·||₁表示1-范数；e_i表示三元组t_(i,k,j)的头实体即实体集合中第i个实体嵌入向量(当前值)，e_j表示三元组t_(i,k,j)的尾实体即实体集合中第j个实体嵌入向量(当前值)，r_k表示三元组t_(i,k,j)的关系即关系集合中第k个关系嵌入向量(当前值)。

综上所述，本发明在注意力机制的技术之上，引入了双向注意力机制来学习实体间的双向语义关系，并通过双向注意力值对初始化的实体嵌入矩阵和关系嵌入矩阵进行更新。在对新冠开放知识图谱补全中，能学习到实体间的双向语义关系，对实体所聚合的邻居实体的信息更加完善。经过多次训练，实现更加准确的实体嵌入和关系嵌入，能够提高新冠开放知识图谱补全的准确率。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于双向注意力机制的知识图谱补全方法，其特征是，包括如下步骤：

步骤1：根据已经存在的新冠开放知识图谱数据集，构造训练所需的双向关系语料库；其中新冠开放知识图谱数据集是带标签的有向图，图中的每个节点表示实体，而每条边则表示关系；双向关系语料库包括实体集合、关系集合和三元组集合；其中实体集合包括头实体和尾实体，关系集合包括正关系和逆关系，三元组集合包括正向三元组和逆向三元组；