CN115438192A

CN115438192A - 一种基于元学习的小样本知识图谱补全方法

Info

Publication number: CN115438192A
Application number: CN202211125241.XA
Authority: CN
Inventors: 刘露; 汪雨竹; 彭涛; 包铁; 王上; 张雪松
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-06

Abstract

本发明公开了—种基于元学习的小样本知识图谱补全方法，该基于元学习的小样本知识图谱补全方法，包含邻域关系元编码器和匹配处理器两部分组件，邻域关系元编码器将语义相似度从实体级转移到关系级，用实体间的语义相似度和邻域内的信息交互描述邻域关系对长尾关系间的作用，将获取到的关系嵌入转移至查询集中，更新关系元后，计算查询集对应的新三元组的合理性得分，解决了小样本知识图谱的补全任务，对于知识图谱中一个缺失尾实体的不完全三元组，将其中的头实体称为目标头实体，关系称为任务关系，给定任务关系对应的K个头尾实体对构成的称为参考集的集合，可以实现对缺失尾实体的预测任务。

Description

一种基于元学习的小样本知识图谱补全方法

技术领域

本发明涉及知识图谱领域，具体是一种基于元学习的小样本知识图谱补全方法。

背景技术

大型知识图谱通常比较稀疏，需要挖掘缺失的信息或补充新实体使其更加完整，对存在长尾关系的三元组中的缺失部分进行预测的任务称为小样本知识图谱补全，分为静态知识图谱补全和动态知识图谱补全，静态知识图谱补全是推断知识图谱中的隐含关系，动态知识图谱补全是补充原知识图谱中未出现过的实体或关系。

现有的知识图谱补全算法通常需要大量三元组进行训练，不适用于对应实体对数量较少的长尾关系的情况，无法直接应用于小样本问题，而针对小样本问题的相关模型主要关注于实体嵌入而非关系嵌入，忽略了关系表示在最终预测中的重要性，无法充分表示长尾关系的特性。

发明内容

本发明的目的在于提供一种基于元学习的小样本知识图谱补全方法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于元学习的小样本知识图谱补全方法，包括以下步骤：

1)邻域关系元编码器：利用参考实体的邻域信息可以获取关系的有效表示，对实体和关系的信息交换进行建模；

2)匹配处理器：由参考集信息实现关系元的更新，对参考实体和关系元信息进行匹配，更新关系元。

在上述技术方案的基础上，本发明还提供以下可选技术方案：

在一种可选方案中：在步骤1)中，计算尾实体和头实体的一跳邻域实体之间的相似度度量：

φ(e，e_nbr)＝e^TW₁e_nbr+b (1)

其中e和e_nbr分别表示参考集中的头实体和尾实体邻域的原始嵌入，W₁和b是可训练参数，以参考集中头或尾实体和邻域实体之间的相似度作为邻域关系对任务关系的注意力，邻域内编号为i的邻域关系与任务关系之间的注意力系数α_i为：

其中

是参考头尾实体对应的邻域中邻域关系和邻域实体的集合。

在一种可选方案中：将注意力系数α_i作为邻域关系对任务关系的影响因子，得到参考集中序号m的一个参考实体对对应的关系元表示，称为邻域感知关系嵌入：

其中的

是随机选取的某些邻域关系嵌入，该任务关系的原始嵌入和它的邻域感知关系嵌入相加输入一个全连接层，得到第m个参考实体对对应的任务关系嵌入：

其中rel_ori是由翻译距离模型中的得分函数h+r＝t，转化为的r＝t-h计算得到的，σ是LeakyReLU激活函数，W₂是可学习参数，对K个参考实体对的嵌入结果求平均，获得关系元

在一种可选方案中：将参考实体嵌入和关系元嵌入拼接得到三元组嵌入，再通过ConvE模型中的得分函数计算三元组

的合理性得分：

其中，

代表邻域关系元编码器生成的关系元嵌入，

和

分别表示实体和关系嵌入的二维重构，之后将其输入滤波器为ω的二维卷积层，f(·)类似ReLU的激活函数，vec(·)是将张量重构为二维向量的函数。

在一种可选方案中：使用权重矩阵W₃将其映射到一个K维空间中，从而和尾实体t_i通过计算内积得到三元组得分，支持集的损失函数：

其中，[x]₊＝max{0，x}表示标准铰链损失函数，而

是由随机替换参考实体对的尾实体得到的负例参考集，γ是用于区分正例和负例之间的间隔。

在一种可选方案中：保留对支持集损失优化过程中关系元的梯度信息，将其同样作为元信息从参考集转移至查询集中，使用如下公式计算梯度元：

从而任务

或

对应的关系元就由相应的梯度元优化得到：

得到的更新后的关系元即可输入到第二个组件中。

在一种可选方案中：应用TransE模型中的得分函数计算三元组的匹配度得分

损失函数：

其中

是由随机替换查询集实体对中的尾实体得到的负例查询集，γ是用于区分正负查询集三元组的间隔。

相较于现有技术，本发明的有益效果如下：

基于元学习的小样本知识图谱补全方法包含邻域关系元编码器和匹配处理器两部分组件，解决了小样本知识图谱的补全任务，对于知识图谱中一个缺失尾实体的不完全三元组，将其中的头实体称为目标头实体，关系称为任务关系，给定任务关系对应的K个头尾实体对构成的称为参考集的集合，知识图谱中包含参考实体中的邻域信息，以及一个目标头实体对应的包含真实尾实体候选实体集，可以实现对缺失尾实体的预测任务。

附图说明

图1为基于元学习的小样本知识图谱补全方法的方法结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，为本发明一个实施例提供的一种基于元学习的小样本知识图谱补全方法，称为FNIF，包含邻域关系元编码器和匹配处理器两部分。

1)邻域关系元编码器

由于任务关系对应的头尾实体信息较少，为聚合实体的一跳邻域信息，获取相应的任务关系嵌入，用实体间的语义关联表示关系间的语义相似性。首先计算尾实体和头实体的一跳邻域实体之间的相似度度量：

φ(e，e_nbr)＝e^TW₁e_nbr+b (1)

其中e和e_nbr分别表示参考集中的头实体(尾实体)和尾实体邻域(头实体邻域)的原始嵌入，W₁和b是可训练参数，使用相同的方法计算尾实体和头实体邻域的相关性，但其中的权重矩阵不同。以参考集中头或尾实体和邻域实体之间的相似度作为邻域关系对任务关系的注意力，邻域内编号为i的邻域关系与任务关系之间的注意力系数α_i为：

其中

是参考头尾实体对应的邻域中邻域关系和邻域实体的集合。为将实体间的信息交互融合到关系交互中，将上个公式得到的注意力系数α_i作为邻域关系对任务关系的影响因子，从而聚合邻域关系嵌入，以聚合邻域信息，得到参考集中序号m的一个参考实体对对应的关系元表示，称为邻域感知关系嵌入：

其中的

是随机选取的某些邻域关系嵌入，之后把该任务关系的原始嵌入和它的邻域感知关系嵌入相加输入一个全连接层，得到第m个参考实体对对应的任务关系嵌入：

2)匹配处理器

匹配处理器包含两个部分，它的目的是由参考集信息实现关系元的更新，首先将参考实体嵌入和关系元嵌入拼接得到三元组嵌入，再通过ConvE模型中的得分函数计算三元组

的合理性得分：

其中，

代表邻域关系元编码器生成的关系元嵌入，

和

分别表示实体和关系嵌入的二维重构，之后将其输入滤波器为ω的二维卷积层，f(·)类似ReLU的激活函数，vec(·)是将张量重构为二维向量的函数，使用权重矩阵W₃将其映射到一个K维空间中，从而和尾实体t_i通过计算内积得到三元组得分。下面的式子为支持集的损失函数：

其中，[x]₊＝max{0，x}表示标准铰链损失函数，而

保留对支持集损失优化过程中关系元的梯度信息，将其同样作为元信息从参考集转移至查询集中，使用如下公式计算梯度元：

从而任务

或

对应的关系元就由相应的梯度元优化得到：

得到的更新后的关系元即可输入到第二个组件中。

匹配处理器的第二个部分中，本发明拼接查询头实体，优化后的关系元表示以及真实尾实体或随机替换到的尾实体，应用TransE模型中的得分函数计算三元组的匹配度得分s(h_j，t_j)：

整个方法的损失函数的计算为：

其中

本发明上述实施例中提供了一种基于元学习的小样本知识图谱补全方法，称为FNIF，它主要应用了基于嵌入的方法，以及小样本关系学习方法。利用基于嵌入的方法学习长尾关系特征表示，小样本学习是元学习在监督学习领域的应用，应用元学习将参考集的信息转移到查询集的预测任务中，基于嵌入的模型主要关注实体和关系在低维空间中的表示，基于元学习的方法包含基于度量学习的方法、模型表示增强方法以及基于模型优化的方法。而在学习关系嵌入的过程中，用到了图注意力网络，将注意力机制应用到知识图谱中的图结构中。

FNIF方法包含邻域关系元编码器和匹配处理器两部分组件，邻域关系元编码器将语义相似度从实体级转移到关系级，用实体间的语义相似度和邻域内的信息交互描述邻域关系对长尾关系间的作用，并结合注意力机制，获取关系的高效表示。将获取到的关系嵌入转移至查询集中，更新关系元后，计算查询集对应的新三元组的合理性得分。在NELL-One和Wiki-One两个数据集上均取得了较好的表现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。