CN109992670A

CN109992670A - 一种基于知识图谱邻域结构的图谱完备化方法

Info

Publication number: CN109992670A
Application number: CN201910271576.4A
Authority: CN
Inventors: 杜友田; 李雪莲; 曹富媛; 王雪
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-09
Anticipated expiration: 2039-04-04
Also published as: CN109992670B

Abstract

针对知识图谱存在的三元组缺失问题，本发明提出一种基于邻域结构的知识图谱完备化技术。该技术基于知识图谱的实体邻域、关系邻域、实体与关系之间的对应关系等信息，对知识图谱的关系要素和实体要素进行建模。主要步骤为：①基于图谱中实体的邻域结构，建立模型将实体要素映射到实体向量空间内；②基于图谱中关系要素的邻域结构，建立模型将关系映射到关系向量空间内；③采用关系映射矩阵将实体表示映射到对应的关系空间内，建立三元组关联模型。为了更有效地训练模型，本发明提出基于邻域结构的负样本采样算法，对实体和关系进行联合训练，基于训练结果对未知三元组进行预测。本发明的贡献在于提出一种基于邻域结构的知识图谱完备化的有效技术。

Description

一种基于知识图谱邻域结构的图谱完备化方法

技术领域

本发明属于知识图谱表示与推理技术领域，特别涉及一种基于知识图谱邻域结构的图谱完备化方法。

背景技术

随着互联网的快速普及，互联网上的内容出现多元化以及组织结构松散的问题，导致人们无法有效快速地获取信息和知识。2012年Google提出知识图谱，为互联网时代知识化打开了新的局面。如今知识图谱技术已经被作为关键技术之一，在智能问答和个性化推荐等领域被大量使用。

知识图谱完备化技术是针对现有知识图谱仍存在大量的三元组缺失的问题提出的。已有研究方法主要包括以下3类：1)基于图谱向量的方法，2)基于图结构的方法，3)基于深度学习的方法。基于图谱向量的代表模型为TransE/TransR/TransD系列模型。TransE模型首次提出将三元组中的关系作为对应的头实体到尾实体之间的翻译，从而将实体和关系映射至低维向量空间内进行表示；同一个实体面对不同关系的时候可能具有不同的方面语义，TransR模型通过特定的关系矩阵对将实体映射到对应的不同关系向量空间内，使其具有多类向量表示；TransD模型在TransR模型的基础上，考虑到关系也会具有不同的方面语义，因此采用头尾实体向量点积相乘的方式构造关系的动态映射矩阵，使得关系对应不同的实体也能构建出不同的映射矩阵。

基于图结构的图谱补齐模型包括GAKE模型和R-GCN模型等。前者是将知识图谱中的实体和关系都视为同等地位的图结点，定义了三类不同的邻域搜索办法寻找这些图结点的相邻结点，基于这些相邻结点集合建立概率模型；后者利用知识图谱里的邻域结点的信息改进传统的GCN网络，得到能够对知识三元组数据进行建模的新型网络模型。

基于深度学习的图谱补齐模型的典型代表为ConvE模型，该模型采用卷积神经网络模型对非线性特征进行学习，进而对图谱中的结点信息，如实体和关系等进行建模。ConvE模型采用权值共享技术减少了需要学习的权值个数，在知识图谱领域内得到了良好的结果。

在上述的几类模型中，基于图谱向量的模型主要针对知识图谱的三元组进行独立建模，忽略了三元组之间的相互联系以及知识图谱本身的整体结构；基于图结构的模型通常将实体和关系视为地位相同的图结点，忽略了实体和关系无论是语法地位还是自然属性都是截然不同的两类元素，并且无法有效地利用实体和关系各自不同的邻域信息；基于深度学习的模型具有模型计算复杂度高及可解释性差等不足。

发明内容

为了克服上述现有技术大规模图谱存在的大量三元组缺失等缺点，本发明的目的在于提供一种基于知识图谱邻域结构的图谱完备化方法，针对知识图谱中大规模的三元组关联数据，结合图谱中的实体邻域信息、关系邻域信息以及低维向量空间内的位置关系信息，基于大规模知识图谱邻域进行建模，来对知识图谱领域内已有的知识图谱进行三元组完备化。

为了实现上述目的，本发明采用的技术方案是：

一种基于知识图谱邻域结构的图谱完备化方法，包括：

1)知识图谱中的实体要素嵌入模型Entity2vec构建：依次将知识图谱中的每个实体v视为源实体，采用随机游走的方式对实体v周围的相邻实体进行选择，游走步数设定为固定值η，游走结束时原知识图谱即被转换为规模为|E|×η的实体序列矩阵，其中每一行表示实体v及其通过随机游走得到的相邻实体结点的序列，|E|为知识图谱中所有实体的数目，在该实体序列矩阵上选取实体v的邻域N_e(v)，然后基于实体v与其邻域N_e(v)建立概率模型将实体v映射到对应的实体向量空间内，使得在知识图谱中相邻的实体在其实体向量空间内也处于相邻的位置，将Entity2vec模型训练得到头实体h的向量表示h_ent和尾实体t的向量表示t_ent；

2)知识图谱中的关系要素嵌入模型Relation2vec构建：依次将知识图谱中的每个关系r视为源关系，采用随机游走的方式对关系r周围的相邻关系进行选择，游走步数设定为固定值β，游走结束时原知识图谱即被转换为规模为|R|×β的关系序列矩阵，其中每一行表示关系r及其通过随机游走得到的相邻关系结点的序列，|R|为知识图谱中所有关系的数目，在该关系序列矩阵上选取关系r的邻域N_e(r)，然后基于关系r与其邻域N_e(r)建立概率模型将关系r映射到对应的关系向量空间内，使得在知识图谱中相邻的关系在其关系向量空间内也处于相邻的位置，将Relation2vec模型训练得到关系r的向量表示r_rel；

3)关系与实体之间的线性映射：为每个关系r定义映射矩阵M_r，将实体表示向量映射到对应的关系向量空间内得到联合向量空间，在该联合向量空间建立评价函数对三元组联合模型进行训练；

4)在训练过程中，使用基于邻域的负样本采样算法，实现联合向量空间中相邻的三元组在训练过程中采集到的负实体结点同样处于相邻的位置；

5)基于知识图谱完备化的链式预测：根据已知三元组的头结点与关系对尾结点进行预测，或是根据已知三元组的尾结点与关系对头结点进行预测，最终得到知识图谱完备化结果。

所述步骤1)中，将所述实体序列矩阵视作是采用实体作为词汇的语料集合，指定窗口大小对实体v进行邻域截取得到实体v的邻域N_e(v)，基于该邻域信息，建立Entity2vec模型如下所示：

式中V表示知识图谱中的实体集合，a_i表示实体v的邻域里第i个相邻实体，Z_v为归一化项，u表示归一化项中遍历实体集合时的实体，a_i表示实体v的邻域里第i个相邻实体的向量表示，v表示实体v的向量表示，u表示u的向量表示；

通过最小化上述模型公式来进行训练，模型训练结束后，实体v的向量表示v为最终训练结果，当v作为头实体h时表示为h_ent，当v作为尾实体t时表示为t_ent。

所述步骤2)中，指定窗口大小对关系r进行邻域截取得到关系r的邻域N_e(r)，基于该邻域信息，建立Relation2vec模型如下所示：

式中E表示知识图谱里的关系集合，b_i表示关系r的邻域里的第i个相邻关系，Zr为归一化项，c表示归一化项中遍历关系集合时的关系，b_i表示关系r的邻域里的第i个相邻关系的向量表示，r表示关系r的向量表示，c表示c的向量表示；

通过最小化上述模型公式来进行训练，模型训练结束后，关系r的向量表示r为最终训练结果，表示为r_rel。

所述步骤3)中，通过Entity2vec模型和Relation2vec模型训练得到三元组(h,r,t)，建立评价函数如下所示：

完整的损失函数即三元组关联模型定义为：

式中，T表示知识图谱的正三元组集合，T'表示知识图谱的负三元组集合，V表示知识图谱的实体集合，γ为边缘参数，h'表示三元组的负头实体，t'表示三元组的负尾实体，||v||₂表示实体v的向量表示的L2范数，M_r表示关系r的映射矩阵，且被统一初始化为单位矩阵，[x]₊表示max(0,x)；

通过最大化该损失函数，使得知识图谱包含的正三元组(h,r,t)对应的评价函数值S_all(h,r,t)得到一个较小的值，而其不包含的负三元组(h',r,t)或(h,r,t')对应的评价函数值S_all(h',r,t)或S_all(h,r,t')得到较大的值。

进一步地，可在三元组关联模型里加入正则项，用以约束每个实体的向量表示的L2范数为1，即||v||₂＝1。

所述步骤4)中，基于邻域的负样本采样算法是对每个实体v都设定一个对应的尾实体负样本集合，并在初始时刻指定其为空集合，然后定义直接与实体v相连接的邻域实体集合n(v):

n(v)＝{v_j|(v,r,v_j)∈C(v)∪(v_j,r,v)∈C(v)}

C(v)表示以实体v为中心实体的邻域三元组集合，从实体v的邻域实体集合n(v)里随机选择一个实体v₁，判断该实体v₁对应的尾实体负样本集合里是否为空，如果该集合为空，则从原实体集合里面随机采样满足(v,r,t')∈T'的尾结点负样本t'作为负样本实体结点，并将t'添加进v对应的尾实体负样本集合来；反之，如果该集合不为空，则从该集合里面随机选择实体v₂，如果v₂满足(v,r,v₂)∈T'，就将v₂作为实体v所对应的尾实体负样本，如果v₂不满足(v,r,v₂)∈T'，则依然从原实体集合里面随机采样满足(v,r,t')∈T'条件的尾结点负样本t'，无论哪个选择，最后得到的负样本t'都将新添加进v对应的尾实体负样本集合中。

所述步骤5)中，在测试和应用环节，给定形式为(h,r,？)或(？,r,t)的未知三元组，根据三元组关联模型训练结果，遍历实体集合里的所有实体并依次计算评价函数的取值，然后进行排序，选择值最小的实体作为该未知三元组缺失的头实体或者尾实体，亦即发现知识图谱中没有存在的新的三元组，达到知识图谱完备化的目的。与现有技术相比，本发明的有益效果是：

1)将图谱的实体和关系视为完全不同的结点形式，分别进行邻域查找，从而实现知识图谱上的上下文信息形成一维序列，然后基于实体和关系各自的邻域信息建立概率模型并将其映射到两个不同的向量空间内。

2)利用关系映射矩阵建立三元组联合模型，并结合提出的新型负样本采样算法，对该模型进行训练对三元组的元素特征进行学习。该技术的优点是充分利用了图谱中实体和关系各自的邻域结构信息，以及向量空间与图谱相对位置的关系，该知识图谱完备化技术对于知识三元组的链式预测应用具有良好的效果，具有更高的模型收敛率以及预测准确性。

附图说明

图1是本发明总体流程框架图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于知识图谱邻域结构的图谱完备化方法，包括如下步骤：

步骤1，依次选择知识图谱中的每个实体v作为源实体，从源实体出发，进行固定步数为η的随机游走，得到一个规模为|E|×η的实体序列矩阵，其中|E|为图谱中的实体数目。该实体序列矩阵可以视作是采用实体作为词汇的语料集合。指定窗口大小对实体v进行邻域截取，将得到的实体v的邻域用N_e(v)表示。基于该邻域信息，建立Entity2vec模型如下所示：

其中有：

因此式(1)可以进一步表示为：

其中有式中：

V——知识图谱中的实体集合；

v——知识图谱中实体集合里的特定实体；

N_e(v)——实体v对应的实体邻域；

a_i——实体v的邻域里的第i个相邻实体；

Z_v——归一化项；

u——归一化项中遍历实体集合时的实体；

a_i——实体v的邻域里第i个相邻实体的向量表示；

v——实体v的向量表示；

u——归一化项中遍历实体集合时的实体向量表示。

通过最小化损失函数(2)来进行Entity2vec模型训练，实体v的向量表示v为最终训练结果，在训练过程中，a_i·v的值将会尽可能地增大。因此，Entity2vec模型能够使得知识图谱上相邻实体的向量表示在低维向量空间里也会处于相近的位置。此外，为了使得邻域实体的向量之间的欧式距离较小，本发明在最终的模型函数(6)里加入正则项，用以约束每个实体的向量表示的L2范数为1，即||v||₂＝1。

训练结果v在步骤3有两种表示形式：当实体v作为头实体h时表示为h_ent，当实体v作为尾实体t时表示为t_ent。

步骤2，遍历知识图谱中的所有关系要素，基于随机游走算法对每个关系要素周围的邻域关系进行搜索。关系要素遍历结束之后可以得到知识图谱序列化后的关系序列矩阵。指定窗口参数值截取每个关系r的邻域N_e(r)，并且基于该邻域信息建立如下所示的Relation2vec模型：

参照式(2)，式(3)可以进一步简化为：

其中式中：

E——知识图谱里的关系集合；

r——知识图谱关系集合里的特定关系；

N_e(r)——关系r的关系邻域；

b_i——关系r的邻域里的第i个相邻关系；

Z_r——归一化项；

c——归一化项中遍历关系集合时的关系；

r——关系r的向量表示；

c——归一化项中遍历关系集合时的关系向量表示；

b_i——关系r的邻域里的第i个相邻关系的向量表示。

类似地，该模型通过最小化式(4)来进行训练，采用随机梯度下降来进行优化，关系r的向量表示r为最终训练结果，在步骤3中表示为r_rel。根据上述讨论可知，在Relation2vec模型的训练达到收敛之后，知识图谱中处在邻域范围内的关系向量之间距离会比较小。亦即，这些关系对应的向量表示在向量空间中的位置会彼此相近。

步骤3，基于上述两个步骤中分别通过Entity2vec模型和Relation2vec模型训练得到的三元组(h,r,t)中头实体，尾实体和关系的向量表示h_ent,t_ent,r_rel，构建每个关系r对应的映射矩阵M_r，建立评价函数如下所示：

式中：

h_ent——Entity2vec模型训练得到的头实体h的向量表示；

t_ent——Entity2vec模型训练得到的尾实体t的向量表示；

r_rel——Relation2vec模型训练得到的关系r的向量表示；

M_r——关系r对应的映射矩阵，被统一初始化为单位矩阵。

完整的损失函数定义为：

式中：

T——知识图谱的正三元组集合；

T'——知识图谱的负三元组集合；

V——知识图谱的实体集合；

γ——边缘参数；

[x]₊——指max(0,x)；

h'——三元组的负头实体；

t'——三元组负尾实体；

||v||₂——实体v的向量表示的L2范数；

[x]₊——指max(0,x)。

通过最大化该损失函数，可以使得知识图谱包含的正三元组(h,r,t)对应的评价函数值S_all(h,r,t)得到一个较小的值，而其不包含的负三元组(h',r,t)或(h,r,t')对应的评价函数值S_all(h',r,t)或S_all(h,r,t')得到较大的值。因此，在预测新的知识三元组时，正确的三元组将会对应于一个较大的S_all(h,r,t)。

该步骤的优势在于，Entity2vec模型和Relation2vec模型分别保证了相近的实体和关系在各自的向量空间里面对应的向量表示也处于相近的位置；而相对地，在知识图谱中不相邻的实体和关系在对应的低维向量空间中也会处于比较远的位置。

根据柯西不等式，式(5)具有以下关系：

基于以上讨论，可以发现在同一个三元组关系r确定的情况下，两个模型的训练结果可以满足三元组正样本的||M_rh_ent-M_rt_ent||₂项取值较小，三元组负样本的||M_rh'_ent-M_rt_ent||₂项或者||M_rh_ent-M_rt'_ent||₂项取值较大的条件，为公式(6)的优化提供了良好的初始值。概括来讲，本发明充分利用了实体和关系的邻域信息来对Entity2vec模型和Relation2vec模型进行训练，并将它们的训练结果继承到三元组关联模型的优化中，为该关联模型的训练提供了很好的优化初值。

步骤4，三元组关联模型(6)的训练过程中需要负样本的参与。为了保证知识图谱中处于邻域中的三元组集合的实体和关系在该关联模型的训练优化过程中以一致的趋势稳步下降，本发明提出了新型的负样本采样算法。该算法使得在向量空间中相邻的三元组在训练过程中采集到的负的实体结点也处于相近的位置。

具体来说，对于正的三元组样本(v,r,t')，需要在实体集合里寻找负尾实体结点t'以生成负的三元组样本(v,r,t')∈T'。本发明提出的负样本采样算法对每个实体v都设定一个对应的尾实体负样本集合，并在初始时刻指定其为空集合，然后定义直接与实体v相连接的邻域实体集合n(v):

n(v)＝{v_j|(v,r,v_j)∈C(v)∪(v_j,r,v)∈C(v)} (8)

式中：

C(v)——以实体v为中心实体的邻域三元组集合。

从实体v的邻域实体集合n(v)里随机选择一个实体v₁，判断该实体v₁对应的尾实体负样本集合里是否为空，如果该集合为空，则从原实体集合里面随机采样满足(v,r,t')∈T'的尾结点负样本t'作为负样本实体结点，并将t'添加进v对应的尾实体负样本集合来；反之，如果该集合不为空，则从该集合里面随机选择实体v₂，如果v₂满足(v,r,v₂)∈T'，就将v₂作为实体v所对应的尾实体负样本，如果v₂不满足(v,r,v₂)∈T'，则依然从原实体集合里面随机采样满足(v,r,t')∈T'条件的尾结点负样本t'，无论哪个选择，最后得到的负样本t'都将新添加进v对应的尾实体负样本集合中。

根据上述说明的负样本采样算法，在每次对头结点或者尾结点的向量表示相邻的三元组进行负样本采样的时候，其采样结果也会在向量空间里处于相邻的位置。

步骤5，基于Entity2vec模型以及Relation2vec模型的训练结果以及提出的负样本采样算法，可以完成三元组关联模型(6)的训练。在测试和应用环节，给定形式为(h,r,？)或(？,r,t)的未知三元组，根据模型训练结果，遍历实体集合里的所有实体并依次计算评价函数(5)的取值，然后进行排序，选择值最小的实体作为该未知三元组缺失的头实体或者尾实体，亦即发现知识图谱中没有存在的新的三元组，达到知识图谱完备化的目的。

本发明的优势在于，充分利用了实体和关系各自的邻域信息，为关联模型的训练提供了良好的优化前提；另外，结合提出的基于邻域的负样本采样算法，本发明也实现了知识图谱中相邻的三元组集合中的实体和关系在模型训练过程中能以一致的趋势稳步下降的效果，提高了模型的收敛速度与训练效率，优化了最终的预测结果。

本发明可以实际应用在知识图谱Freebase的子集FB15K数据集上，对其测试集中59071个形式为(h,r,？)或(？,r,t)的未知三元组进行预测，并判定，若预测排名前十的实体集合中包含正确实体，则预测成功，反之预测失败。其中，对于未知三元组(‘Vladimirnabokov’，‘/people/ethnicity/people’，？)，本发明预测排名前十的实体集合为{‘russian’，‘male’，‘leo tolstoy’，‘female’，‘kafka’，‘african american’，‘athonyburgess’，‘indian people’，‘nicolas ii’，‘kyrgystan’}，判定排名第一的实体‘russian’为该未知三元组的正确缺失头实体，本发明对其进行成功预测。整体结果表明，本发明可以对FB15K数据集中88.1％的未知三元组进行成功预测，对知识图谱的完备化领域有很高的应用价值。

Claims

1.一种基于知识图谱邻域结构的图谱完备化方法，其特征在于，包括：

2.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，所述步骤1)中，将所述实体序列矩阵视作是采用实体作为词汇的语料集合，指定窗口大小对实体v进行邻域截取得到实体v的邻域N_e(v)，基于该邻域信息，建立Entity2vec模型如下所示：

式中V表示知识图谱中的实体集合，a_i表示实体v的邻域里第i个相邻实体，Z_v为归一化项，u表示归一化项中遍历实体集合时的实体，a_i为实体v的邻域里第i个相邻实体的向量表示，v为实体v的向量表示，u为u的向量表示；

3.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，所述步骤2)中，指定窗口大小对关系r进行邻域截取得到关系r的邻域N_e(r)，基于该邻域信息，建立Relation2vec模型如下所示：

式中E表示知识图谱里的关系集合，b_i表示关系r的邻域里的第i个相邻关系，Z_r为归一化项，c表示归一化项中遍历关系集合时的关系，b_i为关系r的邻域里的第i个相邻关系的向量表示，r为关系r的向量表示，c为c的向量表示；

4.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，所述步骤3)中，通过Entity2vec模型和Relation2vec模型训练得到三元组(h,r,t)，建立评价函数如下所示：

完整的损失函数即三元组关联模型定义为：

5.根据权利要求4所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，在三元组关联模型里加入正则项，用以约束每个实体的向量表示的L2范数为1，即||v||₂＝1。

6.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，所述步骤4)中，基于邻域的负样本采样算法是对每个实体v都设定一个对应的尾实体负样本集合，并在初始时刻指定其为空集合，然后定义直接与实体v相连接的邻域实体集合n(v):

n(v)＝{v_j|(v,r,v_j)∈C(v)∪(v_j,r,v)∈C(v)}

7.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法，其特征在于，所述步骤5)中，在测试和应用环节，给定形式为(h,r,？)或(？,r,t)的未知三元组，根据三元组关联模型训练结果，遍历实体集合里的所有实体并依次计算评价函数的取值，然后进行排序，选择值最小的实体作为该未知三元组缺失的头实体或者尾实体，亦即发现知识图谱中没有存在的新的三元组，达到知识图谱完备化的目的。