CN116383401A

CN116383401A - 一种融合文本描述与图卷积机制的知识图谱补全方法

Info

Publication number: CN116383401A
Application number: CN202310222708.0A
Authority: CN
Inventors: 陈思龙; 孔雨秋; 张立和; 马战川; 尹宝才
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-07-04

Abstract

本发明提供了一种融合文本描述与图卷积机制的知识图谱补全方法，属于知识图谱补全领域。依次包括以下步骤：首先将实体描述文本和关系词作为输入，利用多层加权图卷积网络，集成实体语义与关系词向量以及实体语义与相邻实体语义的注意力机制，从邻域中获取信息，得到高质量实体特征；其次，通过跨模态Transfomer和空洞卷积进一步提高实体与关系的交互，得到特征图；最后，将特征图拉平后映射到实体向量所在空间，与尾实体点乘后得到相似度得分。本发明可以获得更好实体嵌入表示，并且提高知识图谱补全任务性能。

Description

一种融合文本描述与图卷积机制的知识图谱补全方法

技术领域

本发明属于知识图谱补全领域，具体涉及一种融合文本描述与图卷积机制的知识图谱补全方法。

背景技术

知识图谱是一种包含了丰富知识的数据库，能够为人工智能相关的应用提供非常有价值的数据支持。一般情况下知识图谱以三元组为单位存储知识。尽管现有的大多数知识图谱所包含的知识数量已经很庞大了，但它们还远远不够完备。其次，大多数现有知识图谱存储在符号和逻辑形式中，而应用程序通常涉及连续空间中的数值计算。为了解决这两个问题，研究人员提出了知识图谱嵌入(Knowledge Graph Embedding，KGE)方法，旨在通过将知识图谱中实体和关系投影到连续的低维空间来学习知识图谱的嵌入表示。近年，基于深度神经网络(Deep Neural NetWorks，DNN)的KGE方法(ConvE、InteractE、ConvKB)将知识图谱补全的性能推向新的高度。与以前的方法相比，这种方法可以学习更有效的嵌入，这主要是由于DNN模型固有的强大学习能力。此外，为了整合邻居信息，关系数据图卷积神经网络R-GCN将图卷积引入知识图谱中，为不同关系分配不同的权重矩阵。HittER使用分层架构对结构化输入进行了显式运算，编码源实体的局部邻居的实体-关系对获取实体与关系的表征。

目前知识图谱补全的方法，大多存在着以下几个问题：(1)目前的知识图谱补全技术把各个实体当作单独的个体，忽略了相邻节点中呈现的丰富信息，导致三元组特征挖掘不够充分；(2)知识图谱的实体特征随机初始化效果不佳；(3)实体与实体间的交互没有考虑到多跳邻居之间的关系；(4)基于图卷积的方法为知识图谱中的关系路径上分配相同的权重，忽略了同一个关系在不同三元组中的重要性不同；(5)负样本和正样本的比例差距过大，模型很难从正样本中发掘信息。

发明内容

发明目的：本发明主要针对上述知识图谱补全方法的不足之处进行改善。一种融合文本描述与图卷积机制的知识图谱补全方法，将实体描述文本和关系词作为输入，利用多层加权图卷积网络，集成实体语义与关系词向量以及实体语义与相邻实体语义的注意力机制，在不同的关系路径中分配不同的权重，并从邻域中获取信息，得到高质量实体特征。通过跨模态Transfomer和空洞卷积进一步提高实体与关系的交互，同时使用一个高质量负样本池，缓解训练过程中随机负样本过于简单而带来的梯度消失问题，提高知识图谱补全网络的性能。

为了实现上述目的，本发明采用如下技术方案：

一种融合文本描述与图卷积机制的知识图谱补全方法，其步骤包括：

步骤S1：抽取实体的文本描述，通过Wikidata查询接口获取知识图谱中所有实体的描述信息；

步骤S2：根据知识图谱当中的三元组，标记所有实体的相邻节点，得到实体的邻接矩阵；

进一步，所述步骤S2具体为：

步骤S21：对实体从1到N编号，关系从1到M编号，N、M为实体与关系数；

步骤S22：对于每一种关系编号k_，初始化知识图谱的邻接矩阵

为0；

步骤S23：对于训练集当中每一个三元组，获取三元组中的头实体、尾实体和关系的编号i_、j_、k_，将对应邻接矩阵A_{k_}的i_行j_列的值置为1，表示第i_个实体和第j_个实体相邻。

步骤S3：构建多层注意力机制编码模块，每层包括实体语义与关系词向量的注意力部分以及实体语义与相邻实体语义的注意力部分；

进一步，所述步骤S3具体为：

步骤S31：构建实体、关系嵌入矩阵，即使用预训练好的BERT模型，得到三元组中实体和关系分别对应的词嵌入向量，具体而言：该模块中，实体词w_e以及关系词w_r都输入到加载了预训练权重的BERT模型中，分别得到实体词和关系词的嵌入向量e_w和e_r，作为初始向量；

步骤S32：将步骤S1所得文本描述{w₁，w₂...w_n}输入预训练好的BERT模型，将最后一层隐藏层L所得输出向量

进行求和取平均，最后的输出向量e_text作为实体的语义特征向量。具体过程如公式(1)-(2)所示：

步骤S33：对于一个实体e₁，我们将三元组(e₂，r，e₁)转换为(e₁，r^-1，e₂)，训练时每个实体总是充当邻域三元组的头部实体。r^-1的特征向量e_r-1由e_r经过系数矩阵W_r线性变换所得，具体过程如下：

e_r-1＝W_re_r 3)

步骤S34：对于实体h，对第l-1层的实体语义与关系词向量进行级联和线性变换后得到

与l层训练向量τ^l点乘，再使用激活函数ρ后得到l层实体语义与关系词向量的注意力分数/>

即实体与对应关系之间的绝对相似性得分，定义如公式(4)-(5)所示：

其中，[·||·]为拼接操作，

表示第l-1层头实体语义与关系r的特征向量，/>

表示l层关系与语义描述的融合向量，/>

为第l层的权重矩阵，ρ为LeakyReLU函数，N_h表示实体h的相邻关系集。

得到实体与对应关系的注意力分数后，将公式(4)所得融合向量与对应尾实体特征向量拼接并进行线性变换，所得向量即为三元组(h，r，t)的特征向量，按照公式(6)-(7)计算在关系r下，每个尾实体t对于头实体h的注意力分数，如下所示：

其中，

为l层参数矩阵，/>

表示尾实体的语义特征，/>

表示l层与h、r相关的邻居三元组(h，r，t)的特征向量，γ^l为l层特定向量，N_h,r为邻接矩阵A_{k_}中h对应行值为1的实体集合，即在关系r下与头实体h相邻的尾实体t的集合，/>

为关系r下与头实体h相关的尾实体级别的注意力分数，接着将实体-关系级别的注意力分数和实体-实体级别的注意力分数相乘得到三元组级别的注意力分数，公式如下：

步骤S4：基于步骤S2所得邻接矩阵和S3的编码模块，迭代更新实体的特征表示；

进一步，所述步骤S4具体为：

步骤S41：对于实体h的每一个相邻实体t，将信息从实体邻域加权聚合到中心实体，并获得实体h的基于邻域的表示，其计算如下：

其中σ为tanh函数，

为更新后的头实体语义信息，作为下一层的实体特征输入；

步骤S42：重复执行步骤S34和S41，对e_text迭代更新，最终得到

步骤S5：初始化高质量负样本缓存池，从中抽样高质量负样本加入训练；

进一步，所述步骤S5具体为：

步骤S51：对于知识图谱中的每个三元组(h，r，t)，随机构建1000个样本(h，r，t′)∈G′，G′为假三元组集合；

步骤S52：其中1000个样本加入负样本池子，在第一轮中负样本池全部的样本送入解码器，计算出每个负样本的重要性得分，此后每轮首先由负样本池中根据重要性采样500个高质量负样本，接着从G′随机抽取500个头为h关系为r的负样本，提取1000个负样本的尾实体组成N_neg。

步骤S6：构建特征融合网络和解码器，由特征融合网络融合实体特征向量和关系特征向量，与尾实体特征矩阵计算修正余弦相似度后由softmax输出三元组评分结果；

进一步，步骤S6所述特征融合网络，进一步加强实体关系的特征交互，解码器使用Acre模型，所述步骤S6具体为：

步骤S61：对步骤S42的最终输出

和e_w分别堆叠成x₁、/>

其中d为

和e_w数据维度；

步骤S62：构建跨模态Transformer，将x₁、x₂通过三个线性变换矩阵得到Q、K、V：

Q＝W₄x₂ 11)

K＝W₅x₁ 12)

V＝W₆x₁ 13)

步骤S63：计算Q的每一行与K的每一行之间的相似度结果最后通过softmax来进行归一化，接着用V进行加权求和，得到更新后的特征融合向量x′：

其中d_k为K中每个向量的维度，T是转置操作。经过Transformer的多头注意力机制和前馈网络后，得到最终输出x_z，将x_z拉平后，与e_w堆叠得到

步骤S64：对x′进行Z次空洞卷积得到Z个特征图，将特征拼接后与x′残差连接后拉平并通过全连接层映射到实体空间，与尾实体点乘后得到相似度得分，接着使用激活函数来获得所有候选实体的概率分布；

C_i＝W_iConv(x′,ω_i) 15)

C_cat＝[C₀||C₁||...||C_z] 16)

o＝Flatten(ReLU(C_cat+W_o(x′))) 17)

其中W_o、W_i、W₇是线性变换矩阵，ω_t表示卷积核，Conv(·,·)是卷积操作，ReLU是激活函数，Flatten(·)是拉平向量操作，b是偏置向量；

步骤S65：把正标签都归为目标类，负标签归为非目标类，得到适用于知识图谱的多标签损失函数，其定义如下：

其中N_neg为不正确的尾实体集合，N_pos为正确的尾实体集合。

步骤S7：取出步骤S6中所得负样本评分较高的负样本，更新步骤S5所述高质量负样本池。

进一步，所述步骤S7具体为：

步骤S71：删除步骤S52的高质量负样本池中用于本轮训练的500个负样本，根据步骤S65的损失函数，取出损失值前500的负样本，加入高质量负样本池进行更新负样本操作。

本发明与现有技术相比具有以下有益效果：

(1)使用加权多层注意力指导相邻实体信息融合，可以融合多跳邻居信息并且为不同三元组分配不同的权重；(2)在训练过程中，介绍了一种高质量负样本池的采样方法，缓解训练过程中随机负样本过于简单的带来的梯度消失问题，提高了模型学习效率；(3)多标签场景下，引入新的损失函数，缓解正负样本比例失衡问题；(4)使用了关系词和实体描述作为输入，引入文本信息增强知识表示；(5)利用跨模态Transformer和空洞卷积对实体-关系特征进行多层次交互，提升了模型的性能。

附图说明

图1是本发明设计的整体结构。

图2是本发明设计的语义提取模块。

图3是本发明设计的两部分注意力机制。

图4是本发明设计的多层注意力信息融合结构。

图5是本发明设计的跨模态Transformer结构。

具体实施方法

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合具体实施例和说明附图对本发明作进一步说明，应当理解，此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明所述的一种融合文本描述与图卷积机制的知识图谱补全方法，步骤如下：

进一步，所述步骤S2具体为：

为0；

进一步，所述步骤S3具体为：

e_r-1＝W_re_r 3)

其中，[·||·]为拼接操作，

表示第l-1层头实体语义与关系r的特征向量，/>

表示l层关系与语义描述的融合向量，/>

其中，

为l层参数矩阵，/>

表示尾实体的语义特征，/>

表示l层与h、r相关的邻居三元组(h，r，t)的特征向量，γ¹为l层特定向量，N_h,r为邻接矩阵A_{k_}中h对应行值为1的实体集合，即在关系r下与头实体h相邻的尾实体t的集合，/>

进一步，所述步骤S4具体为：

其中σ为tanh函数，

为更新后的头实体语义信息，作为下一层的实体特征输入；

步骤S42：重复执行步骤S34和S41，对e_text迭代更新，最终得到

进一步，所述步骤S5具体为：

步骤S61：对步骤S42的最终输出

和e_w分别堆叠成x₁、/>

其中d为

和e_w数据维度；

Q＝W₄x₂ (11)

K＝W₅x₁ (12)

V＝W₆x₁ (13)

C_i＝W_iConv(x′,ω_i) (15)

C_cat＝[C₀||C₁||...||C_Z] (16)

o＝Flatten(ReLU(C_cat+W_o(x′))) (17)

其中W_o、W_i、W₇是线性变换矩阵，ω_t表示卷积核，Conv(·,·0是卷积操作，ReLU是激活函数，Flatten(·)是拉平向量操作，b是偏置向量；

其中N_neg为不正确的尾实体集合，N_pos为正确的尾实体集合。

进一步，所述步骤S7具体为：

以上所述步骤S6与中解码器是以Acre为基线的拓展模型，仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，该方法依次包括以下步骤：

2.根据权利要求1所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，所述步骤S2具体为：

为0；

3.根据权利要求1或2所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，所述步骤S3具体为：

步骤S32：将步骤S1所得文本描述{w₁,w₂...w_n}输入预训练好的BERT模型，将最后一层隐藏层L所得输出向量

进行求和取平均，最后的输出向量e_text作为实体的语义特征向量；具体过程如公式(1)-(2)所示：

步骤S33：对于一个实体e₁，我们将三元组(e₂，r，e₁)转换为(e₁，r^-1，e₂)，训练时每个实体总是充当邻域三元组的头部实体；r^-1的特征向量e_r-1由e_r经过系数矩阵W_r线性变换所得，具体过程如下：

e_r-1＝W_re_r 3)

其中，[·||·]为拼接操作，

表示第l-1层头实体语义与关系r的特征向量，/>

表示l层关系与语义描述的融合向量，/>

为第l层的权重矩阵，ρ为LeakyReLU函数，N_h表示实体h的相邻关系集；

得到实体与对应关系的注意力分数后，将公式(4)所得融合向量与对应尾实体特征向量拼接并进行线性变换，所得向量即为三元组(h,r,t)的特征向量，按照公式(6)-(7)计算在关系r下，每个尾实体t对于头实体h的注意力分数，如下所示：

其中，

为l层参数矩阵，/>

表示尾实体的语义特征，/>

4.根据权利要求2或3所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，所述步骤S4具体为：

其中σ为tanh函数，

为更新后的头实体语义信息，作为下一层的实体特征输入；

步骤S42：重复执行步骤S34和S41，对e_text迭代更新，最终得到

5.根据权利要求1所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，所述步骤S5具体为：

6.根据权利要求1或4所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，步骤S6所述特征融合网络，进一步加强实体关系的特征交互，解码器使用Acre模型：

步骤S61：对步骤S42的最终输出

和e_w分别堆叠成x₁、/>

其中d为/>

和e_w数据维度；

Q＝W₄x₂11)

K＝W₅x₁12)

V＝W₆x₁13)

其中d_k为K中每个向量的维度，T是转置操作；经过Transformer的多头注意力机制和前馈网络后，得到最终输出x_z，将x_z拉平后，与e_w堆叠得到

C_i＝W_iConv(x′,ω_i)15)

C_cat＝[C₀||C₁||...||C_Z]16)

oFlatten(ReLU(C_catW_o(x′)))17)

其中N_neg为不正确的尾实体集合，N_pos为正确的尾实体集合。

7.根据权利要求1所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，所述步骤S7具体为：

8.根据权利要求6所述的一种融合文本描述与图卷积机制的知识图谱补全方法，其特征在于，特征融合网络由多头注意力层、残差层、LN层、Feed Foward层按顺序堆3次组成，Acre模型结构为BN层1、卷积层、全连接层1，BN层2、ReLU层、全连接层2、Sigmoid层。