CN116049427A

CN116049427A - 一种基于广度优先搜索的少样本知识图谱协同编辑方法

Info

Publication number: CN116049427A
Application number: CN202211640171.1A
Authority: CN
Inventors: 郑文博; 周雷
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-02

Abstract

本发明提出了一种基于广度优先搜索的知识图谱协同编辑方法。在本方法中，有两个主要的技术贡献，首先，为了弥合语义上的差距，通过学习知识图谱的表征(由图神经网络编码)和基于预训练语言模型的实体表征之间的对应关系来加强表征的一致性。其次，为了将知识图谱输入到预训练语言模型，提出了一个基于关系的广度优先搜索策略，将知识图谱线性化为一个良好的实体序列。本发明可以以文本输入的形式编辑知识图谱，以及可用于其他有关知识图谱和文本之间的对应关系的相关任务。

Description

一种基于广度优先搜索的少样本知识图谱协同编辑方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于广度优先搜索的少样本知识图谱协同编辑方法。

背景技术

随着互联网、物联网、云计算等信息技术的不断发展，数据的快速增长已经成为许多行业共同面对的严峻挑战和宝贵机遇，整个社会已经迈入了大数据时代。为了更好地利用知识，谷歌于2012年，在语义研究热潮中提出知识图谱的概念。与普通的关系数据库相比，知识图谱是一种描述真实世界客观存在的实体、概念及它们之间的关联关系的语义网络，用于以符号形式描述物理世界中的实体、概念及其相互关系。这些结构化的知识促进了人和计算机对知识的理解和利用，是人工智能应用实现的知识基础。

近年来，在众包平台和信息提取系统的帮助下，大规模的标签化的知识图谱及其描述性文本对已经被创建。大型数据集的出现使得数据驱动的模型已经显示出令人印象深刻的能力，可以为给定的知识图谱产生信息丰富和流畅的文本。然而，由于注释过程的巨大开支，在实践中为各种领域生成大规模的标记数据集并不总是可行的。受此启发，有必要基于少样本的知识图谱编辑任务，目的是在仅有少数标记实例的情况下使得知识图谱产生令人满意的编辑效果。

为了完成这项任务，需要充分理解来自不同领域的实体之间复杂的语义关系，这在有限的标记数据下是具有挑战性的。受到了预训练语言模型在语言理解和生成任务上出色能力的启发：在大规模语料库上进行预训练后，预训练语言模型将大量的世界知识编码到它们的参数中，这对理解和描述任务中的知识图谱中的事实(facts)有潜在好处。

然而，将预训练语言模型应用于知识图谱的编辑任务仍然面临两个挑战。首先，预训练语言模型通常在自然语言文本上进行预训练，而任务中的知识图谱的输入是结构化的图。这种语义上的差距使得我们很难有效地将知识图谱的表征注入预训练语言模型，特别是在有限的标记实例中。其次，知识图谱的编辑任务需要基于对知识图谱中事实的理解的基础上进行生成。它需要在输入的知识图谱和输出的文本之间学习准确的语义对应关系，这在少样本学习的设置中会比较困难。

发明内容

为了解决上述问题，本发明提出了一种基于广度优先搜索的知识图谱协同编辑方法。在本方法中，有两个主要的技术贡献。首先，为了弥合语义上的差距，通过学习知识图谱的表征(由图神经网络编码)和基于预训练语言模型的实体表征之间的对应关系来加强表征的一致性。其次，为了将知识图谱输入到预训练语言模型，我们提出了一个基于关系的广度优先搜索策略，将知识图谱线性化为一个良好的实体序列。

为了达到上述目的，本发明提供的技术方案是：一种基于广度优先搜索的知识图谱协同编辑方法，包括如下步骤：

步骤一，获取输入文本和给定的知识图谱，并且对给定的知识图谱进行预处理，提取知识图谱上每个节点的所有三元组；

步骤二，对于输入文本，利用预训练语言模型进行文本表征处理；

步骤三，构造一个基于图神经网络的知识图谱编码器，通过利用知识图谱中的多关系信息来生成实体编码或向量；

步骤四，通过最小化基于图神经网络的实体向量和基于预训练语言模型的文本在之间在语义空间中的欧几里得距离来建立对齐损失；

步骤五，通过基于关系的广度优先搜索策略，将知识图谱遍历并线性化为实体序列α_e；

步骤六，将α_e输入到语言模型的解码器，得到文本序列，并将解码器中的文本序列的隐向量输入到知识图谱中，进行关系预测，得到重建损失；

步骤七，通过联合对齐损失和预测损失，采用Adam优化算法进行模型训练，更新语言模型和图神经网络的网络参数；

步骤八，重复T次步骤二至步骤七；

步骤九，在测试阶段，将任意文本输入，得到编辑后的知识图谱。

进一步的，步骤二中，文本表征处理的实现过程如下；

在这里，T为输入样本，ρ(·)为预训练语言模型的编码器，

为得到的文本表征。

进一步的，步骤三中生成实体编码的实现过程如下；

在这里，v_e表示知识图谱中的某个实体e的编码或向量，

由知识图谱预处理得到，即由步骤一中的提取知识图谱上每个节点的所有三元组得到；类似地，v_e′是知识图谱中除了实体e之外的某个实体e′的编码或向量，

由知识图谱预处理得到；σ(·)表示图神经网络；上标(l)和(l+1)分别表示该网络的第l层和l+1层；r为知识图谱中与e和e′相关的关系，整个知识图谱的关系构成的集合为R;

为在r的条件下，知识图谱

中的邻居集；

和

是第l层的可训练学习矩阵；最终，实体编码将

记作

其中L表示图神经网络的层数。

进一步的，对齐损失的计算公式如下；

在这里，

为文本表征，

为实体编码，||·||₂表示2-范数。

进一步的，步骤五中实体序列的计算公式如下；

在这里，α_e为线性化的实体序列。

进一步的，步骤六的具体实现方式如下；

T_e＝ρ^-1(α_e)⑸

p(r|e,e′)＝softmax(W_softT_E)⑹

在这里，T_e为生成的文本，ρ^-1(·)为预训练语言模型的解码器，其隐向量表示为T_E,W_soft是可学习的参数；

在此过程中，重建损失为：

进一步的，步骤七中联合对齐损失和预测损失的表达式为：

在这里，超参数λ₁和λ₂控制两个不同的目标项的权重。

进一步的，步骤二中采用BERT语言模型。

进一步的，步骤三中采用RGCN图神经网络。

与现有技术相比，本发明的优点和有益效果：基于广度优先搜索的知识图谱协同编辑方法弥合了知识图谱编码和预训练语言模型之间的语义差异，并建立基于关系的知识图谱线性化，从而可以利用输入文本来编辑知识图谱，该编辑方法可用于其他有关知识图谱和文本之间的对应关系的相关任务。

附图说明

图1为本发明实施例中的知识图谱协同编辑过程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

本申请提供一种基于广度优先搜索的知识图谱协同编辑方法，包括：

步骤一获取输入：获取输入文本和给定的知识图谱，并且对给定的知识图谱进行预处理，提取知识图谱上每个节点的所有三元组；

步骤二预训练语言模型的预训练，以及文本预处理：对于输入文本，我们进行文本表征处理：

在这里，T为输入样本，ρ(·)为预训练语言模型的编码器，

为得到的文本表征。

步骤三知识图谱编码：我们构造一个基于图神经网络的知识图谱编码器。我们通过利用知识图谱中的多关系信息来生成实体编码：

在这里，v_e表示知识图谱中的某个实体e的编码/向量(

由知识图谱预处理得到，即由步骤一中的提取知识图谱上每个节点的所有三元组得到)；类似地，v_e′是知识图谱中除了实体e之外的某个实体e′的编码/向量(

由知识图谱预处理得到，即由步骤一中的提取知识图谱上每个节点的所有三元组得到)；σ(·)表示图神经网络；上标(l)和(l+1)分别表示该网络的第l层和l+1层；r为知识图谱中与e和e′相关的关系，整个知识图谱的关系构成的集合为R；

为在r的条件下，知识图谱

中的邻居集(the set of neighbors of entity)；

和

是第l层的可训练学习矩阵(trainablematrices)。

我们构建了一个L层的网络，此时，我们实体编码将

记作

步骤四文本-图谱语义对齐：为了缩小模型语义差距，我们通过最小化基于图神经网络的实体向量和基于预训练语言模型的文本在之间在语义空间中的欧几里得距离来建立对齐损失

在这里，||·||₂表示2-范数。

步骤五知识图谱编码线性化：我们提出了一种基于关系的广度优先搜索策略，将知识图谱遍历并线性化为实体序列：

在这里，α_e为线性化的实体序列，其他变量可以参考公式(2)的说明。

步骤六知识图谱重建：我们将α_e输入到语言模型的解码器，得到文本序列；并将解码器中的文本序列的隐向量输入到知识图谱中，进行关系预测：

T_e＝ρ^-1(α_e) ⑸

p(r|e,e′)＝softmax(W_softT_E) ⑹

在这里，T_e为生成的文本，ρ^-1(·)为预训练语言模型的解码器，其隐向量表示为T_E，W_soft是可学习的参数，softmax表示softmax函数。

在此过程中，重建损失为：

步骤七网络优化参数调整：通过联合损失函数，采用Adam优化算法进行模型训练，更新语言模型和图神经网络的网络参数：

在这里，超参数λ₁和λ₂控制两个不同的目标项的权重。

步骤八重复T次步骤二至步骤七；

步骤九在测试阶段，将任意文本输入，得到编辑后的知识图谱。

本发明提供一种基于生成对抗网络的目标域导向的无监督图像转换方法，所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。

下面我们以中文BERT[1]为语言模型为例，以RGCN[2]为图神经网络为例，说明本发明过程，具体包括以下步骤：

1.获取输入：如图1所示，假定输入的文本是“周雷来自武汉理工大学”；给定的知识图谱是中文高中地理知识图谱(CKGG[3])。对于地理图谱进行预处理，提取知识图谱上每个节点的所有三元组。

2.预训练语言模型的预训练，以及文本预处理：

预训练：语言模型将原始的数据样本(文本以及图谱信息)进行分字(tokenize)处理；根据分字后的结果构造一个字典，其次，根据字典将分字后的文本序列转换为表征(token)序列，同时在表征序列的首尾分别加上和符号，并进行填充(padding)，最后，根据处理后的结果生成对应的文本向量。

文本预处理：利用语言模型的编码器，执行公式(1)，得到文本表征。

3.知识图谱编码：构建12层的图神经网络(L＝12)，每一层执行公式(2)，最后得到知识图谱编码。

4.文本-图谱语义对齐：利用公式(3)使得模型强制执行，缩小模型语义差距，以进一步规范知识图谱的协同编辑任务。

5.知识图谱编码线性化：运用12层图神经网络，执行公式(4)，得到线性化实体序列。

6.知识图谱重建：利用语言模型的解码器，执行公式(5)，并把其结果，执行公式(6)，进行重建；重建过程损失执行公式(7)。

7.网络优化参数调整：我们通过联合损失函数(即公式(8))，使用Adam优化器用于训练，设置批次大小为20，设置学习率为0.00001，设置动量为0.5和0.999。在所有的实验中，设置的超参数如下：λ₁＝0.5和λ₂＝0.5。

8.重复T次步骤2至步骤7；

9.在测试阶段，在测试阶段，将任意文本输入，得到编辑后的知识图谱。

本发明的有益效果：基于广度优先搜索的知识图谱协同编辑方法弥合了知识图谱编码和预训练语言模型之间的语义差异，并建立基于关系的知识图谱线性化，从而使得本发明可以以文本输入的形式编辑知识图谱，以及可用于其他有关知识图谱和文本之间的对应关系的相关任务。

Claims

1.一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于，包括如下步骤：

步骤八，重复T次步骤二至步骤七；

2.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤二中，文本表征处理的实现过程如下；

在这里，T为输入样本，ρ(·)为预训练语言模型的编码器，

为得到的文本表征。

3.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤三中生成实体编码或向量的实现过程如下；

在这里，v_e表示知识图谱中的某个实体e的编码或向量，

由知识图谱预处理得到，即由步骤一中的提取知识图谱上每个节点的所有三元组得到；类似地，v_e′是知识图谱中除了实体e之外的某个实体e^′的编码或向量，

由知识图谱预处理得到；σ(·)表示图神经网络；上标(l)和(l+1)分别表示该网络的第l层和l+1层；r为知识图谱中与e和e^′相关的关系，整个知识图谱的关系构成的集合为R；

为在r的条件下，知识图谱

中的邻居集；

和

是第l层的可训练学习矩阵；最终，实体编码将

记作

其中L表示图神经网络的层数。

4.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：对齐损失的计算公式如下；

在这里，

为文本表征，

为实体编码，||·||₂表示2-范数。

5.如权利要求3所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤五中实体序列的计算公式如下；

在这里，α_e为线性化的实体序列。

6.如权利要求3所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤六的具体实现方式如下；

T_e＝ρ^-1(α_e)⑸

p(r|e,e^′)＝softmax(W_softT_E)⑹

在此过程中，重建损失为：

7.如权利要求3所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤七中联合对齐损失和预测损失的表达式为：

在这里，超参数λ₁和λ₂控制两个不同的目标项的权重。

8.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤二中采用BERT语言模型。

9.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法，其特征在于：步骤三中采用RGCN图神经网络。