CN115438189A

CN115438189A - 融合实体描述与路径信息的知识图谱表示学习模型的方法

Info

Publication number: CN115438189A
Application number: CN202211068938.8A
Authority: CN
Inventors: 李军怀; 武允文; 王怀军; 崔颖安; 张发存
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-06

Abstract

本发明公开了一种融合实体描述与路径信息的知识图谱表示学习模型的方法，首先从大型知识图谱Freebase中抽取两个子集作为训练集，结合Ruobing Xie人为训练集所做的实体描述，将二者输入微调过的强力优化的预训练语言表征模型RoBERT中，通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习，在最后一层输出融合实体描述的实体、关系表示学习向量；然后将知识图谱转化成融入有序关系路径信息的向量，输出所有训练集三元组的能量值E_P；然后采用梯度下降优化三元组的向量表示，训练得到知识图谱表示学习模型。本发明提升表示学习路径建模效率，增强知识图谱表示学习模型的多跳推理能力。

Description

融合实体描述与路径信息的知识图谱表示学习模型的方法

技术领域

本发明属于知识图谱技术领域，具体涉及一种融合实体描述与路径信息的知识图谱表示学习模型的方法。

背景技术

2012年，谷歌公司正式提出知识图谱(Knowledge Gragh)的概念。作为人工智能应用的关键技术，知识图谱具有清晰的三元组结构，在一个三元组中包含头实体、关系和尾实体，令G表示知识图谱，有G∈(E，R，S)，其中E＝(e₁，e₂，…，e_|E|)表示所有实体集合，R＝(r₁，r₂，…，r_|R|)表示所有关系集合，采用三元组的形式来存储大型知识库的知识信息，可以更方便地融合各个领域的知识。目前，已经出现了众多大规模的知识图谱，诸如Freebase，Wordnet，中文知识图谱OpenKG等。然而，与客观世界相比，这些构建的知识图谱往往是不够完整的，缺失了大量的事实。为缓解数据的稀疏性问题，研究人员提出了知识图谱表示学习，其目的就是将知识图谱中的实体和关系投影到连续低维的向量空间，提升知识图谱上的推理能力。

知识图谱表示学习可以分成三类：几何模型，矩阵分解模型和深度学习模型。几何模型中，最经典的知识图谱表示学习模型是TransE模型，LIN等人为了在Trans系列模型的基础之上融入路径信息，提出PTransE模型。矩阵分解模型中，DistMult模型将所有关系强制表示成对角矩阵，这减少了要学习的参数空间，从而使模型更容易训练；CompIEx模型是一种基于复数的知识图谱表示学习，把握了知识图谱中的对称和非对称关系。深度学习模型中，ConvE模型首次引入2D卷积操作来执行链接预测任务，且将该模型扩展用于复杂知识图谱中；ConvKB模型使用了卷积神经网络，将每个三元组表示为三列矩阵并输入进卷积层，最后通过点积将特征向量与权重向量相乘得到分数。

目前，上述大多数知识图谱表示学习及推理模型都仅考虑知识图谱中单一三元组信息，然而，针对复杂问题，一般需要包含多个三元组的长路径进行多跳推理。因此，开展多跳知识图谱问答研究具有重要意义。

发明内容

本发明的目的是提供一种融合实体描述与路径信息的知识图谱表示学习模型的方法，提升表示学习路径建模效率，增强知识图谱表示学习模型的多跳推理能力。

本发明所采用的技术方案是，融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，具体按照以下步骤实施：

步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集，结合Ruobing Xie人为训练集所做的实体描述，将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中，通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习，在最后一层输出融合实体描述的实体、关系表示学习向量；

步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量，输出所有训练集三元组的能量值E_P；

步骤3、结合步骤1、步骤2输出的训练向量，计算出基于实体描述和路径信息的能量值E_D，与基于路径信息的能量值E_P相加，每个三元组的总能量值定义为E_D+E_P，然后采用梯度下降优化三元组的向量表示，目标是通过最小化总能量值，训练得到知识图谱表示学习模型。

本发明的特点还在于，

步骤1具体按照以下步骤实施：

步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组，将三元组视为包含三个句子的文本序列，并使用实体描述替换掉实体；本发明使用[CLS]分类标签和[SEP]分割标签，将原始RoBERTa模型调整为接收规定形式的文本序列输入，规定形式为头实体-关系-尾实体，调整后的模型输入具体如下：

S1.1.1、假定存在三元组(SteveJobs，founded，AppleInc)，在每个输入序列的头部位置设置分类标签[CLS]；

S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs wasan American business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子，

token是自然语言输入进RoBERTa模型的最小单位，表示为单个英文词汇；

S1.1.3、将关系“founded”表示成一个包含b个token的句子，

S1.1.4、将尾实体“Apple Inc.”或者是对应的实体描述同样被表示成一个包含c个token的句子：

S1.1.5、在实体与关系之间加入特殊分割标签[SEP]；

步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后，作为RoBERTa模型的输入，最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确，通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模，使得每个词都能融合整个句子的信息，自注意力机制的定义如下：

从每个编码块的输入向量即每个单词的词向量中生成三个向量：查询向量Q_i，键向量K_i和值向量V_i，令在第i个头的自注意力机制向量为X_i，分别根据按照公式(1)、(2)和(3)计算出V_i、K_i与Q_i：

V_i＝W^VX_i (1)

K_i＝W^KX_i (2)

Q_i＝W^QX_i (3)

W^Q、W^K与W^V为权重值，

最后根据V_i、K_i与Q_i求表示学习向量X_i的对应归一化指数函数softmax：

d_k为Q_i维数，Attention为自注意力，

为K_i的转置，

在多头注意力机制下，每一个注意力头上都重复上述操作，通过不同的注意力头得到多个特征表示，将这些多头的输出特征向量进行拼接，与随机初始化的权重矩阵相乘，再连接一个全连接层进行降维；

得到多头注意机制后，在每个编码块中跟随一个LayerNormalize(层归一化)步骤，层归一化的操作如公式(5)和(6)所示：

Y＝LayerNormalize([Y₁；…；Y_h]W^Y+X) (5)

其中，Y为注意力头输出，Relu为激活函数，W和b为可调参数，[Y₁；…；Y_h]表示对多头输出进行拼接，O＝[o₁，o₂，…，o_n]为一个编码块的输出，这个输出同样作为下个编码块的输入，之后以此类推，直到最后一个编码块的输出结果作为整个Transformer的输出；

步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出，得到基于实体描述的向量。

步骤2具体按照以下步骤实施：

步骤2.1、对步骤1.1输入的三元组进行长路径建模：

公式(7)定义了能量函数E(h，p^s＝n，t)，

表示头实体，

表示尾实体，

表示关系，

表示知识图谱中全体实体集合，

表示全体关系集合，p^s＝i为从h到t的关系路径的其中一条，比如：

n为关系路径个数，如果从h到t的路径是合理的，则得到的能量值较低，

h_p＝f(p，h)，t_p＝g(p，t) (8)

h_p与t_p分别表示有序关系路径p中头实体h和尾实体t的表示学习向量，

为给定路径p中关于第i个关系的序列矩阵，r_i为第i个关系，直接相连的三元组(h，r，t)视为头实体h和尾实体t之间的存在单步路径r，因此，(h，r，t)的能量值可以通过将直接关系r当作p^s ^＝1代入公式(7)获得；

步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上，设W_r，1和W_r，2分别表示关系r的头实体和尾实体的投影矩阵，假设有一条从h到t的路径r₁，r₂，…，r_n，定义以下公式(10)：

其中，t⁽ⁱ⁾表示路径上的第i个节点，对于一条从h到t的关系路径的实体，在从等式(10)中消除传递节点之后获得它们的表示，等式(7)中变量的具体形式如下所示：

将路径中的尾实体投影到p^s＝n的空间中，其中

表示路径p^s＝n的投影矩阵，此外，假设存在路径

t′同时充当关系r₁的尾实体和和r₂的头实体，为了连接不同空间中的关系，公式(14)中定义T_k，其中，T₂用于将传递节点t′从r₂的头实体空间转移到r₁的尾实体空间。k由1取到i，I表示单位矩阵，而M(r_k，r_k-1)表示从r_k的头部实体空间到r_k-1的尾部实体空间的空间转换矩阵；

步骤2.3、通过两层池化策略融合来自不同路径的信息，构造出三元组的总能量函数，其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径；第二层将融合来自不同长度路径的信息，从不同长度的路径中提取非线性特征。

步骤2.3具体按照以下步骤实施：

第一层的池化策略：利用最小池化方法从i步路径中提取特征信息，并定义如下能量函数：

其中，定义能量函数

表示与从头实体h到尾实体t经过关系r的所有i步路径的集合，为了获得

引入条件概率Pr(r|p^s＝i)判断给定关系r的情况下路径p^s＝i的可行概率：

Pr(r，p^s＝i)表示r和p^s＝i的联合概率，Pr(p^s＝i)表示p^s＝i的边际概率，此外，N(r，p^s ^＝i)表示在知识图谱中r和p^s＝i连接同一实体对的情况数，N(p^s＝i)表示在知识图谱中p^s＝i的路径数，N(p)表示知识图谱中的路径总数，通过给定限制条件Pr(r|p^s＝i)＞0过滤p^s＝i，得到所有过滤后的p^s＝i的集合

第二层的池化策略：定义如下总能量函数E_final(h，r，t)：

E(h，r，t)表示直接关系r的能量值，E(h，r，t)通过将r代入公式(16)中的p^s＝i计算得到。

步骤3具体按照以下步骤实施：

联合学习步骤2.3和步骤1.3中的能量函数，将三元组信息与路径信息和实体描述中的丰富信息相结合，定义总体能量函数如公式(18)所示：

E＝E_P+E_D (18)

E_P是步骤2.3给出的基于路径信息表示的总能量函数；E_D是基于实体描述的能量函数，将E_P和E_D都嵌入到同一向量空间中，E_D定义为公式(19)的形式：

E_D＝E_DD+E_DP+E_PD (19)

E_DD＝||h_dM_r+r-t_dM_r|| (20)

E_DP＝||h_dM_r+r-t_r|| (21)

E_PD＝||h_r+r-t_dM_r|| (22)

其中，M_r是转置矩阵，E_DD中的h_d与t_d都是基于实体描述的头尾实体表示，r表示关系，E_DP中的h_d是基于实体描述的头实体表示，t_r是基于路径信息的尾实体表示，E_PD中的h_r是基于实体描述的头实体表示，t_d是基于路径信息的尾实体表示；

最后选用基于边际的损失函数进行模型的训练，其定义如公式(23)下：

其中γ是正负样本集的边界参数，E(h，r，t)是(18)中定义的总能量函数，T是由正确的三元组集合(h，r，t)构成的训练集，T′是由错误的三元组集合(h′，r′，t′)构成的负样本集，R表示全体关系集合，T′定义如公式(24)下：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪ (24){(h，r′，t)|r′∈R}，(h，r，t)∈T

知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程，以最小化总能量值E为目标，通过迭代训练不断优化三元组的向量表示。训练完成后，得到的向量将具有更强大的多跳推理能力。

本发明的有益效果是，融合实体描述与路径信息的知识图谱表示学习模型的方法，隐式地捕获各个节点周围所有观察到和未观察到的链接的知识。通过设计两个Encoder端分别用于融入实体描述和路径信息，第一个Encoder端通过预训练语言模型RoBERTa提升对实体描述文本的表征能力，第二个Encoder端选择OPTransE模型进一步对知识图谱中的长关系路径进行描述，最后将二者融合，更好地进行包含多个三元组的长路径建模和提升知识图谱表示学习的多跳推理能力。

附图说明

图1是本发明融合实体描述与路径信息的知识图谱表示学习模型的架构图。

图2是本发明融合实体描述与路径信息的知识图谱表示学习模型中，微调后的RoBERTa结构示意图。

图3是本发明融合实体描述与路径信息的知识图谱表示学习模型中，基于路径信息的知识图谱表示学习模型架构的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明融合实体描述与路径信息的知识图谱表示学习模型的方法，结合图1所示，具体按照以下步骤实施：

步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集，结合Ruobing Xie人为训练集所做的实体描述，将二者输入进微调过的强力优化的预训练语言表征模型RoBERT(A Robustly Optimized Bidirectional Encoder Representation fromTransformers)中，通过自注意力机制和一个包括4个全连接层、激活函数Relu(Linearrectification function，修正线性单元)的前馈神经网络进行训练学习，在最后一层输出融合实体描述的实体、关系表示学习向量；

步骤1具体按照以下步骤实施：

token是自然语言输入进RoBERTa模型的最小单位，表示为单个英文词汇；英文由于存在时态等表示，所以在输入模型前还需要将英文词汇切分为更细粒度的单位，例如：将founded单词就分割为found和##ed两个token。

S1.1.3、将关系“founded”表示成一个包含b个token的句子，

S1.1.5、在实体与关系之间加入特殊分割标签[SEP]；

步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后，作为RoBERTa模型的输入，最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确，其中，RoBERTa的核心结构是双向Transformer模型，Transformer中拥有多个编码块，每个编码块都会包含一个自注意力层。(注：上述对输入结构的调整，即是本发明中所述的对Roberta模型的微调)。图2是本发明微调后的RoBERTa结构示意图；通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模，使得每个词都能融合整个句子的信息，自注意力机制的定义如下：

V_i＝W^VX_i (1)

K_i＝W^KX_i (2)

Q_i＝W^QX_i (3)

W^Q、W^K与W^V为权重值，

d_k为Q_i维数，Attention为自注意力，

为K_i的转置，

Y＝LayerNormalize([Y₁；…；Y_h]W^Y+X) (5)

步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型(Representation learning with ordered relation paths for knowledge graphcompletion)将知识图谱转化成融入有序关系路径信息的向量，输出所有训练集三元组的能量值E_P；

步骤2具体按照以下步骤实施：

如图3所示，首先将每个三元组的头实体和尾实体投影到不同的向量空间中，保证了关系路径的有序性，然后通过两个池化层来构造三元组的总能量函数。

步骤2.1、对步骤1.1输入的三元组进行长路径建模：

公式(7)定义了能量函数E(h，p^s＝n，t)，

表示头实体，

表示尾实体，

表示关系，

表示知识图谱中全体实体集合，

h_p＝f(p，h)，t_p＝g(p，t) (8)

h_p与t_o分别表示有序关系路径p中头实体h和尾实体t的表示学习向量，

将路径中的尾实体投影到p^s＝n的空间中，其中

表示路径p^s＝n的投影矩阵，此外，假设存在路径

步骤2.3具体按照以下步骤实施：

其中，定义能量函数

第二层的池化策略：为了融合来自不同长度路径的信息，定义如下总能量函数E_final(h，r，t)：

步骤3、结合步骤1、步骤2输出的训练向量，计算出基于实体描述和路径信息的能量值ED，与基于路径信息的能量值EP相加，每个三元组的总能量值定义为E_D+E_P，然后采用梯度下降优化三元组的向量表示，目标是通过最小化总能量值，训练得到知识图谱表示学习模型。

步骤3具体按照以下步骤实施：

E＝E_P+E_D (18)

E_D＝E_DD+E_DP+E_PD (19)

E_DD＝||h_dM_r+r-t_dM_r|| (20)

E_DP＝||h_dM_r+r-t_r|| (21)

E_PD＝||h_r+r-t_dM_r|| (22)

实施例

一.实验数据

使用三个被广泛使用的基准知识图谱数据集上进行实验，分别是：FB15K、FB15k-237和WN18RR。WordNet是一个基于认知语言学的英文词典，同时也是一个数据库。WN18RR作为WordNet的一个子集，具有涵盖范围广、测试量大两个优异特性。FB15k-237与FB15K是Freebase两个子集，其数据包含了非常多的的知识，包括关于人类、媒体、地理位置等等。

实验中FB15K数据集包含1345种关系和14951种实体。WIN18RR数据集包含11种关系和4094种实体；FB15k-237数据集包含237种关系和14541种实体。同时三个数据集其他数据分别划分为：训练集、验证集和测试集，其中训练集用来模型训练，验证集用来调整参数，测试集用来衡量最终模型的好坏。

表1各数据集的统计数据信息

二.模型训练

这里针对模型的两个Encoder分别做了不同的参数配置。

(1)融合实体描述的Encoder1训练

使用具有12个layer、12个self attention头和表示学习维度768的RoBERTa预训练语言模型作为方法的基础。微调过程中设置的参数如下：batch size＝32，learningrate＝5e-5，dropout rate＝0.1，同时通过尝试这些超参数的其他组合，发现并没有太大的差异。

表2 Encoder1模型参数

(2)融合路径信息的Encoder2训练

参考了OPTransE中的最优参数配置，learning rate＝0.0001，余量γ＝50，γ1＝5.0，γ2＝5.5，平衡因子λ＝0.01。在进行链路预测训练过程中，对一个正样本(正确三元组)采样5个负样本(错误三元组)，尝试了1、3、5和10，发现1:5的实验结果是最好的。

表3 Encoder2模型参数

三、实验结果

在FB15K、FB15k-237和WN18RR三个数据集上对比分析本文模型与其他多个知识图谱表示学习基准模型的链路预测结果。具体的实验结果如表4、5和6所示。

表4 WN18RR单跳链路预测结果对比

表5 FB15k-237单跳链路预测结果对比

表6 FB15K单跳链路预测结果对比

为了评估模型的多跳推理能力，在FB15K知识图谱中遍历所有的头实体e₁，存储所有对应的关系和尾实体e₂，再以e₂为头实体开始遍历、存储，就能得到2-hop的数据，3-hop的关系路径同理。获取相应的多跳数据之后，接下来开始进行多跳链路预测实现。由于具备多跳推理能力的模型较少，因此这里只选择PTransE和OPTransE作为基准对比方法。

表7 FB15K-2hop多跳链路预测结果对比

表8 FB15K-3hop多跳链路预测结果对比

四、实验结论

本发明知识图谱表示学习模型融合了实体描述与路径信息两种方法，通过实验验证了该方法的有效性。具体结论如下：

(1)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型，在单跳链路预测实验中均取得了较好的结果。三个指标中Hits@10表现最好，Hits@10指的是正确的实体排名在前10的比例和，本模型分别达到了0.583、0.551、0.906，在三个数据集上均为最优。说明在知识图谱表示学习中，融入路径信息也是提升正确预测实体的准确率的可行方法。

(2)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型，在2-hop和3-hop实验上的指标得分均优于PtransE和OPTransE。这是因为本文模型同时使用了实体描述和路径信息两个外部信息对原图谱进行补充，扩展了知识来源。实体描述可以帮忙捕捉知识图谱中隐藏的细节，例如，单纯的从Apple Inc这个实体名称中是无法判断出“苹果”这家公司的性质的，但是通过实体描述中的信息，就可以得到它是一家高科技公司这样一个事实。

Claims

1.融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，所述步骤1具体按照以下步骤实施：

S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs was anAmerican business mag-nate，entrepreneur and investor”表示成一个包含a个token的句子，

S1.1.3、将关系“founded”表示成一个包含b个token的句子，

S1.1.5、在实体与关系之间加入特殊分割标签[SEP]；

V_i＝W^VX_i (1)

K_i＝W^KX_i (2)

Q_i＝W^QX_i (3)

W^Q、W^K与W^V为权重值，

d_k为Q_i维数，Attention为自注意力，

为K_i的转置，

Y＝LayerNormalize([Y₁；…；Y_h]W^Y+X) (5)

3.根据权利要求2所述的融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，所述步骤2具体按照以下步骤实施：

步骤2.1、对步骤1.1输入的三元组进行长路径建模：

公式(7)定义了能量函数E(h，p^s＝n，t)，

表示头实体，

表示尾实体，

表示关系，

表示知识图谱中全体实体集合，

h_p＝f(p，h)，t_p＝g(p，t) (8)

为给定路径p中关于第i个关系的序列矩阵，r_i为第i个关系，直接相连的三元组(h，r，t)视为头实体h和尾实体t之间的存在单步路径r，因此，(h，r，t)的能量值可以通过将直接关系r当作p^s＝1代入公式(7)获得；

将路径中的尾实体投影到p^s＝n的空间中，其中

表示路径p^s＝n的投影矩阵，此外，假设存在路径

同时充当关系r₁的尾实体和和r₂的头实体，为了连接不同空间中的关系，公式(14)中定义T_k，其中，T₂用于将传递节点t′从r₂的头实体空间转移到r₁的尾实体空间，k由1取到i，I表示单位矩阵，而M(r_k，r_k-1)表示从r_k的头部实体空间到r_k-1的尾部实体空间的空间转换矩阵；

4.根据权利要求3所述的融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，所述步骤2.3具体按照以下步骤实施：

其中，定义能量函数

Pr(r，p^s＝i)表示r和p^s＝i的联合概率，Pr(p^s＝i)表示p^s＝i的边际概率，此外，N(r，p^s＝i)表示在知识图谱中r和p^s＝i连接同一实体对的情况数，N(p^s＝i)表示在知识图谱中p^s＝i的路径数，N(p)表示知识图谱中的路径总数，通过给定限制条件Pr(r|p^s＝i)＞0过滤p^s＝i，得到所有过滤后的p^s＝i的集合

第二层的池化策略：定义如下总能量函数E_final(h，r，t)：

5.根据权利要求4所述的融合实体描述与路径信息的知识图谱表示学习模型的方法，其特征在于，所述步骤3具体按照以下步骤实施：

E＝E_P+E_D (18)

E_D＝E_DD+E_DP+E_PD (19)

E_DD＝||h_dM_r+r-t_dM_r|| (20)

E_DP||h_dM_r+r-t_r|| (21)

E_PD＝||h_r+r-t_dM_r|| (22)

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪ (24)

{(h，r′，t)|r′∈R}，(h，r，t)∈T

知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程，以最小化总能量值E为目标，通过迭代训练不断优化三元组的向量表示，训练完成后，得到的向量将具有更强大的多跳推理能力。