CN112836065A

CN112836065A - 一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法

Info

Publication number: CN112836065A
Application number: CN202110219529.2A
Authority: CN
Inventors: 汪璟玢; 陆玉乾
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-25

Abstract

本发明提供了一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，包括以下步骤：对于每一个实体e，使用图卷积神经网络构成的编码器来学习实体e的邻居信息，得到实体的增强表示v_e，再使用自注意力卷积神经网络构成的解码器提取v_e和关系向量v_r的特征；然后将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分。本发明使用自注意力卷积能够获取到三元组结构本身的内部有效信息。

Description

一种基于组合自注意的图卷积知识表示学习模型CompSAGCN 的预测方法

技术领域

本发明涉及知识图谱技术领域，特别是一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法。

背景技术

近些年来出现了各种各样的知识库补全方法，其中基于知识表示学习的方法是目前知识库补全一个活跃的研究领域。表示学习的关键问题是学习实体和关系的低维分布式嵌入。

TransE是Bordes等人提出的第一个基于翻译的模型，是一种用于学习实体和关系的低维嵌入的模型。TransE模型的主要思想是将头实体通过关系向量进行平移变换可以得到尾实体的向量，即头实体的嵌入向量与关系嵌入向量相加得到的结果尽量与尾实体的嵌入向量相同。

基于张量/矩阵分解的表示学习的经典模型应该就是由Nickel等人提出的RESCAL模型，它的思路就是将实体和关系看成张量或者矩阵。我们分别以头实体、关系、尾实体的维度构建一个三维张量，那么张量中的一点可以表示成两个实体之间是否存在某种关系。接着将这个三维张量分解成一个张量和一个矩阵，关系就可以用分解后张量中的二维矩阵表示，而实体可以使用矩阵中的行向量表示。由张量代表的关系和矩阵代表的实体相乘的结果被看作对应三元组对应的得分，如果三元组的得分大于一个特定的值，则认为该三元组是真实的正确的，反之亦然。

最近图像处理方向的卷积神经网络在自然语言领域的处理受到了极大的关注。在图像领域卷积神经网络可以很好的去发现图像中的高阶的特征，因此有学者提出了使用卷积神经网络去提取实体和关系的语义特征。例如ConvE模型。该模型的主要思想是，将头实体向量h和关系向量r先进行重塑，再把上述重塑的向量拼接起来形成一个矩阵，然后使用卷积核对这个矩阵进行特征的提取。在提取到一系列的特征图之后，将其通过全连接层进行特征的压缩，随后通过和全部尾实体向量进行乘法运算，最后将运算的结果使用logistic-sigmoid函数将其转化为0到1之间的概率。

上述传统的知识图谱不全模型都忽略了三元组内部特征的交互。

发明内容

有鉴于此，本发明的目的是提出一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，使用自注意力卷积去获取到三元组结构本身的内部有效信息。

本发明采用以下方案实现：一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，具体包括以下步骤：

对于每一个实体e，使用图卷积神经网络构成的编码器来学习实体e的邻居信息，得到实体的增强表示v_e，再使用自注意力卷积神经网络构成的解码器提取v_e和关系向量v_r的特征；然后将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分。

进一步地，对于每一个实体e，使用图卷积神经网络构成的编码器来学习实体e的邻居信息，得到实体的增强表示v_e具体为：

其中，实体e包括头实体h以及尾实体t；

对于知识图谱G中每个边(h,r,t)表示有一个关系r从节点h到t存在的事实；对于每个边(h,r,t)∈G，构造反关系r^-1的三元组(h,r^-1,t)也作为G中的事实；在k层有向GCN层之后获得的实体特征表示为：

式中，

代表模型的特定于关系的参数矩阵，A是添加了自连接的归一化邻接矩阵，f代表的是ReLU激活函数，K表示图卷积神经网络的层数，L表示实体的特征表示；

对于头实体h，将式(1)改为如下形式：

v_h＝f(∑_N(h)W_rv_t)；

式中，N(h)是头实体h的直接邻居的集合；W_r表示关系的权重矩阵，v_t表示尾实体向量，v_t表示尾实体向量；

按照关系r执行邻节点t的合成操作(φ)，使模型在融合实体信息同时感知关系，得到头实体的增强表示如下：

v_h＝f(∑_N(h)W_λ(r)φ(x_t，z_r))；

式中，x_t，z_r分别表示节点t和关系r的初始特征向量，并且

是关系类型特定的参数；d1与d0分别表示关系的个数与关系向量的维度；

对于尾实体t，将式(1)改为如下形式：

v_t＝f(∑_N(t)W_rv_h)；

式中，N(t)是尾实体t的直接邻居的集合；W_r表示关系的权重矩阵，v_h表示头实体向量，v_t表示尾实体向量；

按照关系r执行邻节点t的合成操作(φ)，使模型在融合实体信息同时感知关系，得到尾实体的增强表示如下：

v_t＝f(∑_N(t)W_λ(r)φ(x_h，z_r))；

式中，x_h，z_r分别表示头实体h和关系r的初始特征向量，并且

将一组基向量进行不同的线性变换来表示不同的关系向量，定义{v1，v2,....,vn}为一系列学习的基向量，z_r写作：

式中，α_br表示的是一个可训练的权重矩阵。

进一步地，所述合成操作(φ)是实体-关系组合操作，公式如下：

φ(x_t，z_r)＝x_t＊z_r。

进一步地，使用自注意力卷积神经网络构成的解码器提取v_e和关系向量v_r的特征具体为：

先将头实体和关系进行特征重排，接着通过重塑函数将特征排列为特征图H；最后将来自先前重塑的特征图转换为两个特征空间Q、K以计算注意力，其公式分别如下：

式中，H是经过特征重排后重塑的特征图，g代表的是sigmoid激活函数；其中ω表示的卷积核，

是卷积操作，b是是一个偏置项；

计算Q和K后将Q、K相乘得到s_ij，然后使用softmax归一化s_ij算出特征之间的注意力权重β_j，i，计算公式如下：

式中，β_j，i表示模型在第j个区域和第i个区域之间的注意力权重，其中

代表的是点乘，N表示卷积后特征个数；

使用一层卷积操作V，将V与注意力权重β_j，i相乘，最终得到自注意力卷积的注意力权重O_j，其计算过程如下：

再通过一个卷积操作C进行特征的捕获：

最后将卷积操作C与自注意力权重相乘并将得到的特征用F表示：

其中，F即为提取的v_e和关系向量v_r的特征。

进一步地，所述将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分具体为：

使用不同的卷积核来生成不同的特征图，然后将生成的特征图拼接起来与权重矩阵相乘在和目标实体进行点积得出最终三元组(h，r，t)的得分；最终得分公式如下：

式中，f代表的是ReLU激活函数，v代表向量化，其中下标h表示头实体，下标r表示关系，下标t表示尾实体，W是学习的参数，

代表的是自注意力卷积的操作，concat代表的是连接的操作，Ω表示卷积核。

进一步地，使用Adam优化器最小化损失函数L来训练CompSAGCN模型，使用sigmoid函数δ(.)处理得分函数，因此P＝δ(S(h,r,t))，损失函数如下：

式中，t是标签向量，

是训练数据的个数，P_i表示预测值，t_i表示与P_i对应的标签值。

本发明还提供了一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：

1.现有的神经网络模型大多没有充分考虑三元组内部的交互信息。因此本发明中提出了将实体和关系特征重排从而可以获取到充分的交互信息。

2.现有的神经网络模型大多没有考虑发现三元组中内部特征中更加关键的特征，本发明提出了自注意力神经网络能够充分发掘三元组内部的更加重要和关系的特征信息。

附图说明

图1为本发明实施例的方法示意图。

图2为本发明实施例的解码器流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，首先通过图卷积神经网络来学习融合每个节点的邻居信息，接着为了充分提取三元组的内部交互信息，进行特征重排，即将实体和关系向量进行随机重新排列；最后使用自注意力卷积神经网络捕获特征重排后实体和关系的特征并作出预测。具体包括以下步骤：

本实施例首先给出如下定义：

定义1(三元组，T)：设T＝(h,r,t)表示三元组，其中h表示头实体，r表示关系，t表示尾实体。一个三元组也可以称为一个知识或事实。

定义2(实体集合，E)：设实体集E＝{e₁,e₂,...,e_n}，表示知识库中的所有实体的集合。

定义3(关系集合，R)：设关系集合R＝{r₁,r₂,...,r_n}，表示知识库中所有关系的集合。

在本实施例中，所述使用图卷积神经网络构成的编码器来学习实体e的邻居信息，得到实体的增强表示v_e具体为：

其中，实体e包括头实体h以及尾实体t；

式中，

对于头实体h，将式(1)改为如下形式：

v_h＝f(∑_N(h)W_rv_t)；

式中，N(h)是头实体h的直接邻居的集合；W_r表示关系的权重矩阵，v_h表示头实体向量，v_t表示尾实体向量；可以发现传统的图卷积神经网络只考虑了邻居节点的信息而忽略了节点之间的关系信息，然而在三元组中关系也蕴含了丰富的语义特征，同时关系也是两个实体之间的一种约束。也就是说两个相同的实体之间可能具有不同的关系，实体会在不同的关系下扮演不同的角色。

v_h＝f(∑_N(h)W_λ(r)φ(x_t，z_r))；

式中，x_t，z_r分别表示节点t和关系r的初始特征向量，并且

对于尾实体t，将式(1)改为如下形式：

v_t＝f(∑_N(t)W_rv_h)；

v_t＝f(∑_N(t)W_λ(r)φ(x_h，z_r))；

在代数中一个向量空间可以用一组线性无关的基向量来表示。那么为了缩减模型的参数，避免参数爆炸，本实施例的模型中没有为每一个关系学习一个独立的向量表示，而是使用一组基向量去表示整个关系的向量空间。具体的，将一组基向量进行不同的线性变换来表示不同的关系向量，定义{v1，v2,....,vn}为一系列学习的基向量，z_r写作：

式中，α_br表示的是一个可训练的权重矩阵。

在本实施例中，所述合成操作(φ)是实体-关系组合操作，公式如下：

φ(x_t，z_r)＝x_t＊z_r。

在本实施例中，所述使用自注意力卷积神经网络构成的解码器提取v_e和关系向量v_r的特征具体为：由于上述的编码器只是融合了实体的邻居信息，为了进一步的去发掘实体和关系不同内部信息之间的重要性，先通过将实体和关系的向量分别随机打乱，组成多个不同排列的特征向量；接着使用自注意力卷积去学习三元组自身丰富的特征信息，获取到输入序列中相对重要的信息，以达到更好的实体的预测效果。解码器整体的过程如图2所示，具体如下：

是卷积操作，b是是一个偏置项；

代表的是点乘，N表示卷积后特征个数；

再通过一个卷积操作C进行特征的捕获：

其中，F即为提取的v_e和关系向量v_r的特征。

在本实施例中，所述将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分具体为：

在本实施例中，损失函数将标准的二进制交叉熵损失与标签平滑处理结合使用，并使用Adam优化器最小化损失函数l来训练CompSAGCN模型，使用sigmoid函数δ(.)处理得分函数，因此P＝δ(S(h,r,t))，损失函数如下：

式中，t是标签向量，

是训练数据的个数，P_i表示预测值，t_i表示与P_i对应的标签值，。

本实施例还提供了一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

具体的，本实施例的方法在知识图谱补全时的具体步骤如下：

1、先将知识图谱中的三元组(h,r,t)输入到模型的解码器中。

2、对于每一个实体e(包括头实体h和尾实体t)，先使用图卷积神经网络构成的编码器来学习实体e的邻居信息，得到实体的增强表示V_e。

3、再使用自注意力卷积神经网络构成的解码器提取V_e和关系向量V_r的特征。

4、最后将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分。

本实施例使用的是对于FB15k-237数据集，FB15k是广泛使用的KG Freebase的子集(Bollacker等，2008)，其中包含很多的话题和类型的实例，包括关于人，媒体，地理等。FB15k-237它们消除了FB15k中的反向关系。对于FB15k-237数据集如下表所示：

本实施例的评价指标是Hits@N：测试三元组集合中，实体排名小于等于N的比例。原测试三元组的头实体排名或尾实体排名在前N个，命中次数就加1，否则加0。然后将所有命中次相加求均值，得到Hits@N的值。Hits@N越大表示性能越优。

在FB15k-237的数据集上，本实施例的算法在链路预测头尾实体的Hits@N上的效果大部分优于目前现有的嵌入模型，包对于hit@10这个指标，本实施例模型的结果都优于其他模型。其中比2020年的模型COMPGCN高出0.3％。并且hit@1比COMPGCN高出0.2％。证明了本文的模型的有效性。该数据表明本实施例的模型能够更好地关注实体、关系的内部信息，从而得到更准确的头尾链路预测。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，所述对于每一个实体e，使用图卷积神经网络构成的编码器来学习实体的邻居信息，得到实体的增强表示v_e具体为：

其中，实体e包括头实体h以及尾实体t；

对于知识图谱G中每个边(h，r，t)表示有一个关系r从节点h到t存在的事实；对于每个边(h，r，t)∈G，构造反关系r^-1的三元组(h，r^-1，t)也作为G中的事实；在k层有向GCN层之后获得的实体特征表示为：

式中，

对于头实体h，将式(1)改为如下形式：

v_h＝f(∑_N(h)W_rv_t)；

式中，N(h)是头实体h的直接邻居的集合；W_r表示关系的权重矩阵，v_h表示头实体向量，v_t表示尾实体向量；

v_h＝f(∑_N(h)W_λ(r)φ(x_t，z_r))；

式中，x_t，z_r分别表示节点t和关系r的初始特征向量，并且

对于尾实体t，将式(1)改为如下形式：

v_t＝f(∑_N(t)W_rv_h)；

v_t＝f(∑_N(t)W_λ(r)φ(x_h，z_r))；

将一组基向量进行不同的线性变换来表示不同的关系向量，定义{v1，v2，....，vn}为一系列学习的基向量，z_r写作：

式中，α_br表示的是一个可训练的权重矩阵。

3.根据权利要求2所述的一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，所述合成操作(φ)是实体-关系组合操作，公式如下：

φ(x_t，z_r)＝x_t★z_r。

4.根据权利要求1所述的一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，使用自注意力卷积神经网络构成的解码器提取v_e和关系向量v_r的特征具体为：

式中，H是经过特征重排后重塑的特征图，g代表的是sigmoid激活函数；其中山表示的卷积核，

是卷积操作，b是是一个偏置项；

代表的是点乘，N表示卷积后特征个数；

再通过一个卷积操作C进行特征的捕获：

其中，F即为提取的v_e和关系向量v_r的特征。

5.根据权利要求1所述的一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，所述将实体和关系的特征向量进行拼接，通过全连接层进行特征的压缩，将压缩后的特征表示与所有的实体向量相乘，最后使用sigmoid激活得到每个三元组的得分具体为：

6.根据权利要求1所述的一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法，其特征在于，

使用Adam优化器最小化损失函数L来训练CompSAGCN模型，使用sigmoid函数δ(.)处理得分函数，因此P＝δ(S(h，r，t))，损失函数如下：

式中，t是标签向量，

7.一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。