CN112148891A

CN112148891A - 一种基于图感知张量分解的知识图谱补全方法

Info

Publication number: CN112148891A
Application number: CN202011022269.1A
Authority: CN
Inventors: 刘书语; 杨柳; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-29

Abstract

本发明公开了一种基于图感知张量分解的知识图谱补全方法，包括如下步骤：从图神经网络中提取三元组数据(e_s,r,e_o)的表征信息，构建具有实体和关系的图形编码模型，即G＝(V,E)；对图形编码模型的二维表征信息通过Tucker分解方法构建三阶张量分解模型；即：

所述三阶张量分解模型根据预测(e_s,r,)的最大概率作为三元组为真的概率输出，实现知识图谱的补全，该方法解决了现有知识图谱库中数据之间的关系推测以及实体之间隐含的连接关系难挖掘的问题，实现对大规模知识图谱数据集的高精度补全。

Description

一种基于图感知张量分解的知识图谱补全方法

技术领域

本发明涉及知识图谱领域，尤其涉及一种基于图感知张量分解的知识图谱补全方法。

背景技术

2012年5月17日，Google公司率先提出知识图谱(Knowledge Graph)这一概念，用于指代提升搜索引擎性能、改善用户搜索体验的知识库。大数据时代到来带动了知识图谱数据库的丰富，常用的公开知识图谱有FreeBase,OpenKG,Yago,DBpedia等。

知识图谱是一种网状型的可视化数据，用于描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱采用三元组(head,relation,tail)的形式表示，head代表头实体，tail代表尾实体，在图中统称实体，用点的形式表示，relation代表两个实体之间的关系，在图中用线表示。虽然现有的知识图谱库中已经储存了大量的事实数据，但仍有许多实体之间的隐含关系没有体现，需要对其进行充分地挖掘。知识图谱补全主要研究此问题，基于已有的知识图谱数据，通过研究数据之间的关系，从而推测出实体之间隐含的连接关系，使知识图谱变得更加完备。

从知识图谱补全技术的发展来看，大致可以分为两大类。第一类以2013年Borders等人受词向量平移不变性启发，提出的TransE模型为首，后续提出了一系列改进的Trans系列模型。这类方法包括：TransH,TransR,CTransR,TransD,TransA,TransF,TransMS等。伴随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。第二类方法是以ConvE等人提出的ConvE模型。这类方法包括ConvKB,HypER等。

张量通常用来表示真实世界中的数据，关于张量的相关研究表明，高维数据中的数据点不会扩散至整个空间，而是存在于一个较低维的空间中，因此可以通过低秩张量分解从高维数据中提取其中的关键特征近似代替原数据，这样不但可以解决因维度过高而带来的问题，还可以获得稳定的学习结果。CP分解和Tucker分解是两种流行的低秩张量因子分解模型，同时还有许多变体的张量分解模型。

近年来有关于张量的学习研究受到越来越多的学者关注。而二元三阶张量可以被用来表述知识图谱库，知识图谱库中的每个元素对应一个三元组，1表示一个真实的事实，0表示未知或者错误的事实。知识图谱补全的任务是根据知识图中已经存在的已知事实，预测没有给出关系的两个实体是否相关，即推断张量中的0项，哪些确实是假的，其值为0，哪些缺失了，但实际上是真的，其值为1。如果可以将张量分解与图神经网络相融合，就可以对现有的知识图谱库进行补全,这也是本领域技术人员必须解决技术问题。

发明内容

针对现有技术存在的技术问题，本发明提供一种基于图感知张量分解的知识图谱补全方法，该方法可以通过张量分解将图神经网络与知识图谱补全相结合，从而解决现有知识图谱库中数据之间的关系推测以及实体之间隐含的连接关系挖掘难的问题，从而完备知识图谱，实现对大规模知识图谱数据的高精度补全。

为了解决现有技术的技术问题，本发明采用如下技术方案：

一种基于图感知张量分解的知识图谱补全方法，包括如下步骤：

从图神经网络中提取三元组数据(e_s,r,e_o)构建具有实体和关系的二维表示的图形编码模型，即G＝(V,E)；

对图形编码模型的二维数据通过Tucker分解方法构建三阶张量分解模型；即：

其中，e_s,e_o表示通过图模型获得的两个实体特征，h_r表示通过三元组通过图模型获得的关系特征，W是Tucker分解的核心张量；

所述三阶张量分解模型能够预测三元组集合(e_s,r,:)下的所有组合的得分，根据最高得分的三元组预测三元组的关系，实现知识图谱的补全。

进一步，所述图形编码模型通过如下公式对图神经网络中三元组数据(e_s,r,e_o)编码：

其中，H⁰＝X,H^l是第l个图卷积层的输出，d^l′是第l层图卷积层的输出维度，W^l是第l个图卷积层的参数，H^l+1是第l+1个图层之后的输出特征矩阵，当l＝0，是对第一层图结构信息进行编码；当l＝1，是对第二层的图结构信息进行编码。

进一步，所述张量分解模型通过如下公式对图神经网络进行整体优化：

其中，y是三元组(e_s,r,e_o)的真实关系值，ψ_r(e_s,e_o)是三元组(e_s,r,e_o)通过模型预测的值。

有益效果

1、本发明方法采用多层图神经网络，层数足够多的图神经网络能够使得网络有更好的学习能力，训练出更好的参数；同时通过图神经网络自动的学习具有强表达能力的特征表征。

2、本发明在网络训练过程中对知识图谱关系进行Tucker分解，能够加快训练速度，有效挖掘知识图谱关系。

3、本发明采用softmax作为损失函数，是一种监督学习，知识图谱补全效果显著。

4、本发明通过添加张量分解将图神经网络与知识图谱补全相结合，可以实现大规模数据集上高精度识别、快速度训练、性能稳定；本发明具有一定的市场价值和推广意义。

附图说明

图1是本发明一种基于图感知张量分解的知识图谱补全方法的步骤流程图。

图2是本发明一种基于图感知张量分解的知识图谱补全方法的模型示意图。

图3是本发明一种基于图感知张量分解的知识图谱补全方法中张量因子分解示意图。

具体实施方式：

下面结合附图对本发明作出详细说明：

如图1、图2所示，本发明提供一种基于图感知张量分解的知识图谱补全方法，是将张量分解与图神经网络相融合解决知识图谱不全的技术问题。本发明在解决技术方案采取整体设计：首先，对输入的三元组数据集利用图神经网络进行数据建模，获得其实体和关系的张量表示，然后通过Tucker分解解码该信息，通过这两部分操作可以更好地融合数据，实现知识图谱补全。具体步骤如下：

S1、从图神经网络中提取三元组数据(e_s,r,e_o)构建具有实体和关系的二维表示的图形编码模型，即G＝(V,E)；

图形编码模型是知识图包含图结构信息，而如何对图信息进行编码至关重要，受卷积神经网络在大多数视觉任务中的成功启发，开发了图形卷积神经网络来对图形结构数据建模。一般来说，图可以表示为G＝(V,E)，其中V表示节点集，E表示节点之间的边集。在我们的方法中，我们将V中的v_i表示为一个节点，将E中的e_ij表示为节点v_i和v_j之间的边。假设节点数为n，所有节点的邻接矩阵A为一个n×n的矩阵，如果e_ij属于E，则A_ij＝1，若e_ij未包含在E中，则A_ij＝0。

给定一个图G，我们的图卷积层的公式表示如下：

其中σ是非线性激活函数(例如Relu运算)，

是图的对角度矩阵，其中

是邻接矩阵，X属于R^n×d是节点信息矩阵，d是特征维度。W属于R^d×d′是可训练的卷积参数。H属于R^n×d′是激活矩阵的输出。

在公式1中，图形层首先训练权重参数W，通过XW将原始节点特征X映射到新特征空间X′，将每个节点视为单独的部分。然后，我们将邻接矩阵

与节点X′的新特征相乘，以考虑单个节点及其邻居节点的信息。由于每个节点具有不同的相邻节点，导致特征的比例不同，因此我们通过乘以

来标准化每个特征。最后，我们采用非线性函数并获得最终的图特征。

由于X是图G的原始特征矩阵，而H是应用一个图卷积层后的新特征矩阵，因此我们可以通过设置X＝H连续更新节点特征矩阵来构造多个图卷积层。

所述图形编码模型通过如下公式对图神经网络中三元组数据(e_s,r,e_o)编码：

其中，H⁰＝X,H^l是第l个图卷积层的输出，d^l′是第l层图卷积层的输出维，W^l是第l个图卷积层的参数，H^l+1是第l+1个图层之后的输出特征矩阵，当l＝0，即对第一层图结构信息进行编码；当l＝1，即对第二层图结构信息进行编码。

S2、对图形编码模型的二维数据通过Tucker分解方法构建三阶张量分解模型；即：

其中，e_s,e_o表示通过图模型获得的主题实体特征，h_r表示通过嵌入图层获得的关系特征，W是Tucker分解的核心张量；

张量分解模型是在知识图完成任务中，知识图的格式为三元组(e_s,r,e_o)，其中e_s是主题实体，e_o是对象实体，r是e_s和e_o之间的关系。在获得图结构中实体和关系的表示之后，我们可以构造一个三阶张量，并通过Tucker分解将图信息解码，这是张量分解方法之一。在K模式下，张量T的公式为:

T≈g×₁V⁽¹⁾×₂…×_KV^(K) (4)

其中g是核心张量，U^(K)是因子矩阵。KG可以表示为三阶张量，如图3所示，因此KG的Tucker分解可以将大张量T分解为三个因子矩阵V⁽¹⁾，V⁽²⁾，V⁽³⁾和核心张量g，公式可以简化为：

T≈g×₁V⁽¹⁾×₂V⁽²⁾×₃V⁽³⁾ (5)

根据等式4，我们解码部分的评分函数可以定义如下:

S3、所述三阶张量分解模型根据最大的预测(e_s,r,:)的概率作为实体参数输出，实现知识图谱的补全。

所述张量分解模型通过如下公式对图神经网络进行整体优化：

其中，y是三元组(e_s,r,e_o)的真实值。对于每个元组(e_s,r,e_o)，本发明使用公式5获得其分数。为了最大程度地减少预测分数和地面实况之间的差距，应用交叉熵代价函数来约束特征学习，即softmax作为损失函数，是一种监督学习，知识图谱补全效果显著。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。