CN116955650A

CN116955650A - 基于小样本知识图谱补全的信息检索优化方法及其系统

Info

Publication number: CN116955650A
Application number: CN202310940713.5A
Authority: CN
Inventors: 周仁杰; 马强; 马浩男; 杨畅; 万健; 蒋从锋; 张伟
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-27

Abstract

本发明公开基于小样本知识图谱补全的信息检索优化方法，构造小样本知识图谱补全模型GAKDN，利用门控和角色感知的邻居聚合器有效过滤邻居噪声信息，减少噪音信息在学习实体嵌入时的影响，通过角色识别网络学习实体和邻居关系的深层关联，识别实体在不同小样本关系下的角色；通过知识蒸馏提取小样本关系对应的实体对之间的结构信息，缓解样本表征不足的问题；利用自适应匹配处理器计算正负例查询集与支持集的得分，根据最高得分找到最适合的补全实体。本发明解决了噪声邻域、实体多角色和小样本场景下样本特征学习不足的问题，从而更准确地预测待补全的尾实体,提高小样本场景下知识图谱补全的准确率，以优化知识图谱的信息检索能力。

Description

基于小样本知识图谱补全的信息检索优化方法及其系统

技术领域

本发明属于信息检索技术领域，涉及一种基于小样本知识图谱补全的信息检索优化方法及其系统。

背景技术

在大数据环境和互联网的迅速发展下，人们对信息搜索的依赖变得越来越强。目前，基于关键词的全文搜索已经难以满足人们的搜索需求。在这种情况下，人们提出了一种基于知识图谱的信息检索方法。通过一种自监督的开放式中文关系抽取方法，从互联网上的大规模非结构化数据中提取知识图谱的知识，并基于相关领域的知识库构建知识图谱。基于知识图谱，通过计算语义相似性进行信息检索。使用这种技术进行信息检索，检索结果的效率和准确性将大大提高，它在信息检索和智能推荐领域具有很好的应用价值。

然而，在实际应用中，知识图谱往往面临着数据不完整的问题。针对这一问题，知识图谱补全是一种关键技术。而在小样本环境下，知识图谱补全显得尤为重要。通过使用少量的样本数据，利用先进的机器学习方法，例如元学习，可以学习到实体和关系的表示，从而进行知识图谱的补全。知识图谱补全与信息检索的结合，可以进一步增强信息检索的性能。首先，知识图谱补全可以提供更丰富和更准确的实体和关系信息，从而增强语义搜索的能力。其次，通过补全知识图谱中的信息，可以增加查询扩展的精度和丰富性，从而更好地满足用户的信息需求。此外，知识图谱补全可以增强信息检索系统中的实体解析和链接功能，从而提供更加丰富和准确的搜索结果。

因此，小样本知识图谱补全的研究对信息检索优化具有巨大潜力。但是传统的知识图谱补全方法大多需要大量的样本信息，在小样本或低资源的场景下表现效果并不好，并且知识图谱存在着长尾问题。对于现有的知识图谱补全模型，主要是研究将元学习的度量方法引入到知识图谱补全中，并且已经取得了一定先进的结果。然而，现有的补全方法没有很好地解决以下问题，如三元组的邻居噪声问题、头尾实体在不同的小样本关系中有不同的含义，在小样本场景中实体对表示没有很好的结合结构信息。

发明内容

本发明的一个目的是针对现有的知识图谱补全技术没有很好的解决实体噪声邻域、实体在不同关系中表示不同含义和实体对嵌入质量低的问题，提供一种结合注意力门控机制和知识蒸馏的知识图谱补全方法，由门控和角色感知的邻居聚合器、实体对信息编码器和自适应匹配处理器组成，称为GAKDN，其利用门控和角色感知的邻居聚合器有效过滤邻居噪声信息，并整合有效邻居信息，学习自适应的实体嵌入，然后在实体对信息编码器中利用知识蒸馏将小样本关系对应的实体对和邻居之间的隐含信息提取，以提升补全预测的准确率。

本发明所采用的技术方案如下：

步骤1：首先获取信息检索相关的数据集，数据集包含多个小样本关系r，这些小样本关系分为训练、测试、验证关系；

步骤2：针对每个小样本关系r，构建对应的支持集、候选集、正例查询集和负例查询集；

步骤3：构造小样本知识图谱补全模型GAKDN，并进行训练，模型参数收敛后得到最佳参数模型；

步骤4：利用训练好的小样本知识图谱补全模型GAKDN实现三元组尾实体的补全预测。

本发明的另一个目的是提供基于小样本知识图谱补全的信息检索优化系统，包括训练好的小样本知识图谱补全模型GAKDN。

本发明的又一个目的是提供一种计算机可读存储介质，其上存储一种基于小样本学习的知识图谱补全方法的计算机程序，当所述的基于小样本学习的知识图谱补全方法的程序被处理器执行时，令计算机执行上述的方法。

本发明的再一个目的是提供一种基于小样本学习的知识图谱补全的计算设备，包括存储器、处理器，所述存储器中有可在所述处理器上运行的一种基于小样本学习的知识图谱补全方法可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明提供的技术方案包含以下有益效果：

本发明提出一种新的深度神经网络模型(Gated Attention and KnowledgeDistillation Network，GAKDN)，该模型包括门控和角色感知的邻居聚合器、实体对信息编码器和自适应匹配处理器。该模型在经过元学习方法训练之后，实现对知识图谱三元组尾实体的补全。

本发明在邻居聚合器模块中，利用门控机制有效过滤邻居噪声信息，减少了噪音信息在学习实体嵌入时的影响，并在此基础上通过角色识别网络学习实体和邻居关系之间的深层关联，以此来识别实体在不同小样本关系下的角色。通过不同语义的角色，模型能有效地提取小样本关系与头尾实体之间的细粒度含义，从而获得更具表现力的实体表征，最终能够提升补全预测的准确率。

本发明针对小样本场景下的实体对表征不足的问题，在实体对信息编码器中使用知识蒸馏网络，提取小样本关系对应的实体对之间的结构信息，并习得每层编码器之间的相关性，在一定程度上缓解了样本表征不足的问题，进而提升了补全预测的准确率。

附图说明

图1为本发明方法流程图；

图2为本发明基于小样本学习的知识图谱补全模型结构图；

图3为知识蒸馏方法图；

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。

一种信息检索优化方法，具体流程描述如图1所示，具体包括以下步骤：

步骤1：首先获取信息检索相关的数据集，数据集包含多个小样本关系r，这些小样本关系分为训练、测试、验证关系；一个特定小样本关系r包括多个不同三元组，每个三元组由一个头实体、小样本关系r和一个尾实体构成；

步骤2：构造训练所需的支持集、候选集、正例查询集和负例查询集(输入表示层)。

针对每个小样本关系r，从训练集的三元组中随机选取头尾实体对，然后构建支持集和正例查询集/>其中h_i表示第i个头实体，t_i表示第i个尾实体，K表示支持集/>中三元组的个数，/>表示正例查询集中三元组的个数；

根据正例查询集的头实体h_j和小样本关系r的类型约束构建候选集采用与t_j不同的尾实体，/>表示候选集中三元组的个数，并且要满足

利用候选集的尾实体随机替换正例查询集/>中的尾实体构建得到负例查询集/>

对支持集、正负查询集做如下操作：获取支持集或正负查询集三元组中的头尾实体的邻域记为表示头实体h的邻居，/>表示尾实体t的邻居，为了便于描述，将头实体h和尾实体t均定义为实体e，实体e的邻居为/>其中/>和/>中的每个元素是一对/> 表示实体e的第i个邻居关系，/>表示实体e的第i个邻居实体；

步骤3：构造小样本知识图谱补全模型GAKDN，并进行训练。

小样本知识图谱补全模型GAKDN的整体结构如图2所示。

在训练阶段，所述小样本知识图谱补全模型GAKDN接收带有标签的支持集中的|K|个三元组，以及对应的正例查询集和负例查询集；模型的学习目标：对于正例查询集中的每一个头实体-关系对(h_j,r)和其对应的真实尾实体t_j，模型应该给出高的预测概率，使得t_j在候选实体集/>中的排名尽可能靠前；而对于负例查询集中的每一个头实体-关系对(h_j,r)和其对应的错误尾实体/>模型应该给出低的预测概率，使得/>在候选实体集/>中的排名尽可能靠后。

所述小样本知识图谱模型GAKDN包括门控和角色感知的邻居聚合器、实体对信息编码器和自适应匹配处理器三个部分。

(1)门控和角色感知的邻居聚合器(Gated and Role-Aware NeighborhoodAggregator):

邻居聚合器的主要目标是学习三元组中头尾实体的细粒度表示，主要包括三个模块：注意力门控模块、注意力网络模块和小样本关系角色识别模块，具体如下：

a)注意力门控模块，用于在表示小样本关系的过程中，对稀疏邻域进行编码的过程中引入的噪声进行过滤，是根据注意力权重过滤邻居的噪声信息，并自动捕获最有价值的邻居信息以学习实体表示。其包含以下步骤：

具体来说，首先给定一个小样本关系r对应的三元组实体对(h,t)，其邻域记为：实体e的第i个邻居关系和邻居实体/>表示如下：

其中W₁是一个线性变换矩阵；U₁是一个加权向量；c_i是的聚合表示；d_i是实体e的第i个邻居的重要性得分；LeakyReLU表示激活函数。

为了获得每个邻居对应的注意力权重α_i，应用softmax函数在d_i上，如下所示：

为了消除因邻域稀疏而产生的噪声邻居，需要使用门控值g决定实体e的邻域的激活程度；门控值g公式如下：

其中U₂表示权重向量，b_g表示标量偏差参数，sigmoid表示激活函数。

基于门控机制，通过将邻域聚合表示c_i与实体e相结合，获得小样本关系r的一半邻域的表示e′：

其中W₂表示权重矩阵，b是偏置的向量参数；e^′表示小样本关系r的一半邻域的表示，如果对应头实体则表示为h^′，对应尾实体则表示为t^′。

b)注意力网络模块。是利用小样本关系r的一半邻域的表示e^′构建支持集的输入表征将其送入Bi-LSTM，然后对每个时间步的邻域表示向量分别进行向前和向后的编码，并拼接得到上下文信息的全局特征，来学习小样本关系的通用表示，具体包括：

支持集的输入表征s的编码公式如下：

s＝[h^′；t^′] (6)

其中[；]表示聚合操作，h^′和t^′由公式(5)得到；支持集的输入表征s表示为一个序列s₁,s₂,...,s_K，个数为K个。

然后使用隐藏单元个数为m的双向长短期记忆网络Bi-LSTM对给定时间步i和i-1时的输入表征s进行前向和反向的编码，时间步i和i-1的正向和反向隐藏状态计算方式，其公式如下：

其中和/>是Bi-LSTM在时间步i和i-1时的前向编码的隐藏状态，/>和/>是Bi-LSTM在时间步i和i-1时的反向编码的隐藏状态；W_h1、W_s1、W_h2、W_s2表示Bi-LSTM的参数矩阵；/>表示第i个前向输入表征，/>表示第(K-i+1)个后向输入表征。

正向和反向的最终隐藏状态被串联成一个整体向量p_i，该向量可以进一步通过线性变换编码为p′_i，其中W₃是线性变换矩阵，其公式如下：

p′_i＝W₃p_i (10)

其中[；]表示聚合操作，W₃表示权重矩阵；

然后，通过注意力机制计算每个最终隐藏状态的权重β_i，其公式如下：

其中U₃表示权重向量；b_a表示标量偏置参数；

Bi-LSTM的最终隐藏状态通过权重β_i与p′_i的乘积并求和得到，其公式如下：

其中r′表示实体e的任务关系表示，它是通过在三元组支持集或查询集上集成所有邻域表示得到的。

c)小样本关系角色识别模块。用于识别关系反映实体的某个角色，主要是根据任务关系r′和相邻关系r^nbr之间的相关性来区分头实体或尾实体的角色。具体是：

首先定义一个度量函数来通过双线性点积计算它们的相关性得分，其公式如下：

其中r′由公式(13)得到，W₄表示权重向量，b表示标量偏置参数；

然后通过考虑头尾实体的不同角色，利用注意力机制得到角色感知的邻居嵌入c^nbr，其公式如下：

这意味着，当相邻关系r^nbr与任务关系r′的相关性越大时，越高，相应的相邻实体在相邻嵌入中的作用就越大。

为了增强头尾实体嵌入，通过将预训练的实体嵌入h和它的角色感知邻居嵌入c^nbr耦合起来，其公式如下：

f(e)＝σ(W₅e+W₆c^nbr)(17

其中σ(·)表示RELU激活函数；W₅,W₆是可学习的权重参数；增强的头实体记为f(h)，增强的尾实体记为f(t)。

以这种方式获得的实体表示具有以下特征：1)保留当前嵌入模型所建立的个体属性；2)具有适应不同任务的不同角色。

(2)实体对信息编码器(Transformer encoder for entity pairs):

实体对信息编码器用于学习实体对表示，包括两个模块：实体对学习模块和知识蒸馏模块。

a)实体对学习模块，是基于增强的实体f(e)，并结合实体序列的相对位置信息(即索引下标)输入到Transformer编码器，获得实体对的细粒度嵌入。具体是：

将增强的实体f(h)、f(t)分别视为通过掩码机制生成的中间向量视为最终构成序列/>

对于x中的每个元素表示形式构造为：

其中表示f(h)、f(t)和中间向量的相对位置嵌入，因此位置嵌入的长度固定为3；

在构造所有输入表示之后，将输入到L层的Transformer编码器中对x进行编码，其中l-1层至l层的公式如下：

其中表示l层后x_m的隐藏状态。

Transformer采用多头自注意力机制，每个区块允许每个元素关注序列中权重不同的所有元素；经过l层Transformer的最后的隐藏状态作为实体对的最终输出，即支持集的实体对表示s_r、正例查询集的实体对表示q_r和负例查询集的实体对表示/>

b)知识蒸馏模块根据头尾实体和小样本关系间的结构信息，进一步提取实体对的细粒度信息。具体是：

主要是通过基于关系的知识蒸馏方法，学习Transformer各层向量之间的相关性，其公式如下：

其中，f_l+1表示Transformer的l+1层的聚合输出，同理f_l表示Transformer的l层的/>聚合输出，而/>表示相似性计算函数。

图3为实体对的Transformer编码器的详细流程图。

(3)自适应匹配处理器(Adaptive Matching Processor):

自适应匹配处理器考虑任务关系的不同语义，将正例和负例查询集与支持集进行比较来进行预测。具体是：

正例查询集的实体对表示q_r与支持集第k个实体对的嵌入表示s_rk通过点积计算得到度量函数：

δ(q_r,s_rk)＝q_r·s_rk(21)

其中s_rk由公式(19)最终隐藏状态得到。

然后采用注意力机制给支持集三元组赋予不同的权重，捕捉它们的精细含义，使得与查询集具有相似含义的支持集实体对具有更强的参考性，最终能做到支持集的表示s_r对不同的查询三元组具有自适应表示的作用，其公式如下：

其中β_k表示支持集中第k个实体对的注意力得分；q_r表示正例查询集；表示获得了注意力权重的支持集聚合表示。

为了进行预测，定义一个正例得分用于衡量正例查询q_r和/>之间的语义相似度：

同理，负例查询集的实体对表示与支持集第k个实体对的嵌入表示s_rk通过点积计算得到度量函数：

为了进行预测，定义一个负例得分用于衡量负例查询/>和/>之间的语义相似度：

如果查询符合条件，则预期φ(·)的值会较大，反之如果值很小则表示不符合条件。在这里，φ(·,·)也可以用余弦相似度或欧几里得距离等替代度量来实现。

参数化学习过程基于自适应匹配处理器计算的得分设计损失函数，求解模型参数。其公式如下：

其中标准的铰链损失函数被定义为[x]₊＝max(0,x)，γ表示手动设置的超参数，表示负例查询集与支持集计算的得分，/>表示正例查询集与支持集计算的得分，L_CC由公式(20)得到；

通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。

步骤3：利用训练好的基于小样本学习的知识图谱补全模型GAKDN，实现小样本场景下的知识图谱的尾实体补全，以优化知识图谱的信息检索能力。

本发明性能评估分别在两个基准数据集上进行了评估：NELL-One和Wiki-One公开基准数据集。数据集选择那些没有太多三元组的关系作为小样本学习任务的关系。其余的关系称为背景关系，因为它们的三元组为匹配实体对提供了重要的背景知识。第一个数据集基于NELL，这是一个通过阅读网络持续收集结构化知识的系统。使用最新的数据转储，并删除了那些逆关系。实验选择具有50到500个三元组的关系作为一次学习任务。为了表明本模型能够在大规模知识图谱上运行，我们遵循类似的过程构建了另一个基于Wikidata的更大数据集。Wiki-One数据集在实体和三元组数量方面比任何其他基准数据集都大一个数量级。对于NELL-One，本方法使用51/5/11个任务关系进行训练/验证/测试。对于Wiki-One，划分比例为133:16:34。下表为该数据集的数据量情况：

数据集	实体数	关系数	三元组数	任务数
					NELL-One	68,545	358	181109	67
Wiki-One	4,838,244	822	5,859,240	183

实验采用平均倒数排名MRR、排名小于等于N的三元组中命中率Hits@n作为知识图谱补全的性能评价指标。

根据平均倒数排名MRR的定义：对给定数据集，平均倒数排名为各个三元组链接预测排名的倒数之和取平均可得知识图谱补全任务中平均倒数排名的计算方式：

其中S是三元组集合，|S|是三元组集合个数，rank_i是指第i个三元组的链接预测排名(距离得分)。MRR值越大表明排名符合事实情况，那么嵌入效果就越好。

根据命中率Hits@n的定义：对给定数据集，命中率为在链接预测中排名小于等于N的三元组的平均占比可得知识图谱补全任务中命中率的计算方式：

其中Ⅱ(·)是indicator函数(若条件真则函数值为1，否则为0)，一般地，取n为1、5或者10，HITS@n指标越大越好。

下表为本发明在上述两个数据集上的小样本知识图谱补全结果：

表1：NELL-One数据集上的实验结果对比

表2：WIKI数据集上的实验结果对比

为了评估方法的有效性，将本文的方法与以下两组基线进行比较：1.知识图谱嵌入方法。这种方法通过建模知识图谱中的关系结构来学习实体/关系嵌入。采用了五种广泛使用的方法作为基线：TransE、DistMult、ComplEx、SimplE和RotatE。所有知识图谱嵌入方法都需要每个关系有足够的训练三元组，并学习知识图谱的静态表示。2.小样本关系学习方法。这种方法在NELL-One和Wiki-One数据集上实现了最先进的小样本知识图谱补全性能。GMatching采用了邻域编码器和匹配网络，但假设所有邻居的贡献是相等的。FSRL使用固定的注意力机制对邻居进行编码，并应用循环自编码器来聚合引用。MetaR通过基于一种新颖的优化策略，将共享知识从引用传递到查询中来进行预测。FAAN采用了邻域编码器和匹配网络，。学习了实体或引用的动态表示，忽略了邻居噪声信息的干扰和表征不足的问题。

上述小样本知识图谱补全结果表中，GAKDN即为本发明中的提出的基于小样本学习的知识图谱补全方法。表1和表2显示了所有模型在NELL-One和Wiki-One上的性能。表中显示：(1)与传统的知识图谱嵌入方法相比，本模型在这两个数据集上都取得了更好的性能。实验结果表明，本模型采用的小样本学习方法更适合解决小样本问题。(2)与小样本关系学习方法的基线相比，本模型在两个数据集上的所有指标中都表现出色。与表现最佳的基线FAAN相比，GAKDN在NELL-One测试数据上的MRR/Hits@10分别提高了3.3％/3.2％，在Wiki-One测试数据上分别提高了1.5％/3.1％。这表明，利用门控、注意力网络和知识蒸馏确实可以提高小样本知识图谱补全的性能。

Claims

1.基于小样本知识图谱补全的信息检索优化方法，其特征在于包括以下步骤：

步骤(1)：首先获取信息检索相关的数据集，数据集包含多个小样本关系r；一个特定小样本关系r包括多个不同三元组，每个三元组由一个头实体、小样本关系r和一个尾实体构成；

步骤(2)：构造训练所需的支持集、候选集、正例查询集和负例查询集；

步骤(3)：构造小样本知识图谱补全模型GAKDN，并进行训练；

所述小样本知识图谱补全模型GAKDN包括门控和角色感知邻居聚合器、实体对信息编码器、白适应匹配处理器；

所述门控和角色感知邻居聚合器用于学习三元组中头尾实体的细粒度表示，包括注意力门控模块、注意力网络模块以及小样本关系角色识别模块；

所述注意力门控模块，用于在表示小样本关系的过程中，对稀疏邻域进行编码的过程中引入的噪声进行过滤，是根据注意力权重过滤邻居的噪声信息，并自动捕获最有价值的邻居信息以学习实体表示；

所述注意力网络模块，是利用小样本关系r的一半邻域的表示e′构建支持集的输入表征将其送入Bi-LSTM，然后对每个时间步的邻域表示向量分别进行向前和向后的编码，并拼接得到上下文信息的全局特征，来学习小样本关系的通用表示；

所述小样本关系角色识别模块，用于识别关系反映实体的某个角色，根据任务关系r′和邻居关系r^nbr之间的相关性来区分头实体或尾实体的角色；

所述实体对信息编码器用于学习实体对表示，包括实体对学习模块和知识蒸馏模块；

所述实体对学习模块是基于增强实体f(e)，并结合实体序列的相对位置信息输入到Transformer编码器，获得实体对的细粒度嵌入；

所述知识蒸馏模块根据头尾实体和小样本关系间的结构信息，进一步提取实体对的细粒度信息；

所述白适应匹配处理器将正例和负例查询集与支持集进行比较来进行预测；

步骤(4)：利用训练好的基于小样本学习的知识图谱补全模型GAKDN，实现小样本场景下的知识图谱的尾实体补全，以优化知识图谱的信息检索能力。

2.根据权利要求1所述方法，其特征在于所述注意力门控模块具体是：

首先给定一个小样本关系r对应的三元组实体对(h，t)，其邻域为：实体e的第i个邻居关系和邻居实体/>表示如下：

其中W₁是线性变换矩阵；U₁是加权向量；c_i是的聚合表示；d_i是实体e的第i个邻居的重要性得分；

为了获得每个邻居对应的注意力权重α_i，应用softmax函数在d_i上：

使用门控值g决定实体e的邻域的激活程度；门控值g公式如下：

其中U₂表示权重向量，b_g表示标量偏差参数；

其中W₂表示权重矩阵，b是偏置的向量参数。

3.根据权利要求2所述方法，其特征在于所述小样本关系角色识别模块具体是：

其中r′表示注意力网络模块输出的实体e的任务关系表示，W₄表示权重向量，b表示标量偏置参数；

利用注意力机制得到角色感知的邻居嵌入c^nbr，其公式如下：

其中α_nbr表示任务关系r′和邻居关系r^nbr相关性的注意力权重；

为了增强实体e，通过将实体e和角色感知邻居嵌入c^nbr耦合起来，其公式如下：

f(e)＝σ(W₅e+W₆c^nbr) (9)

其中σ(·)表示RELU激活函数；W₅，W₆是可学习的权重参数。

4.根据权利要求3所述方法，其特征在于所述知识蒸馏模块具体是：

通过基于关系的知识蒸馏方法，学习Transformer各层向量之间的相关性，其公式如下：

其中，f_l+1表示实体对学习模块的l+1层的聚合输出，f_l表示实体对学习模块的l层的/>聚合输出，/>表示相似性计算函数。

5.根据权利要求4所述方法，其特征在于所述小样本知识图谱补全模型GAKDN损失函数如下：

其中[x]₊＝max(0，x)，γ表示手动设置的超参数，表示负例查询集与支持集计算的得分，/>表示正例查询集与支持集计算的得分，L_CC由公式(20)得到。

6.基于小样本知识图谱补全的信息检索优化系统，其特征在于包括训练好的小样本知识图谱补全模型GAKDN。

7.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-5中任一项所述的方法。

8.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-5中任一项所述的方法。