CN116187446A

CN116187446A - 基于自适应注意力机制的知识图谱补全方法、装置和设备

Info

Publication number: CN116187446A
Application number: CN202310489132.4A
Authority: CN
Inventors: 任小丽; 任开军; 徐青; 李小勇; 邓科峰; 邵成成
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-05-30
Anticipated expiration: 2043-05-04
Also published as: CN116187446B

Abstract

本申请涉及一种基于自适应注意力机制的知识图谱补全方法、装置和设备，包括：首先，获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；接着，将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分；然后，根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素；最后由优化元素组成优化序列，根据优化序列预测得到补全值，完成智能问答系统的知识图谱补全任务。采用本方法能够兼顾智能问答结果的准确性和实时性。

Description

基于自适应注意力机制的知识图谱补全方法、装置和设备

技术领域

本申请涉及知识图谱补全技术领域，特别是涉及一种基于自适应注意力机制的知识图谱补全方法、装置和设备。

背景技术

随着人工智能和大数据技术的发展，知识图谱因为其良好的搜索性能和较高的存储质量，成为了数据的主流存储方式，知识图谱往往用三元组（头实体，关系，尾实体），即（h, r, t）来表示现实世界的事物，结构性好，直观性强。知识图谱作为结构化的显性知识，在语义表示、语义理解、语义推理、智能问答等语义计算任务中发挥着越来越重要的作用。虽然目前知识图谱中实体的数量可达到数十亿的水平，但大多知识图谱仍然相对稀疏，这影响了知识图谱的数据质量和整体结构性，导致知识图谱实际应用效果不佳。为了缓解该问题，知识图谱补全技术成为研究热点。

智能问答系统就是基于大量语料数据组成的知识图谱，通过相关编程语言实现的能够和人类进行对话、解决问题的软件系统。智能问答系统要求有较高的搜索精度，实现真正的所答即所问。

现有知识图谱补全模型存在欠缺关系和相似实体学习能力、难以处理冗余实体描述信息等问题，导致智能问答过程中搜索结果不够精准，可能会返回大量相似但并非准确的内容，还需要搜索者进一步筛选，不能很好的实现所答即所问。相较于三元组模型而言，融合有效邻域信息的模型能够进一步提升知识图谱补全效果，以输入样例(h, r, t)，t是真值为例，其邻域三元组构成的图为G′，G′是知识图谱 G 的子图。融合邻域信息的生成式模型可以生成预测实体向量表示的模型，形如

，可以看作在模型M作用下，利用邻域信息G′、中心信息h和r计算出t的值。然而，融合邻域信息的生成式模型在实际应用中仍面临许多问题。

1）引入冗余信息。融合邻域信息之后，虽然模型所能使用的信息量增大了，但是真正有用的信息潜藏在这大量的信息之中，绝大多数信息对于任务而言并没有正向作用，相反，这些冗余的信息反而会大大增加模型提取有效信息的难度，从而造成智能问答过程中搜索结果不够精准，搜索速度也大大减慢。

2）计算复杂度高。融合的邻域信息阶数越高，信息量也成指数增长。因此，融合邻域信息会导致模型的计算复杂度过高。在面对拥有上亿三元组的大型知识图谱时，融合邻域信息的模型难以发挥作用，从而造成智能问答过程中搜索速度大大减慢。

解决融合邻域信息之后带来的引入冗余信息和计算复杂度高两个问题，常用的思路就是减少冗余信息的引入。实现这一思路的途径之一是引入注意力机制(AttentionMechanism)。注意力机制可以看作是寻址过程，运用一个神经网络模块，计算编码器的输出中对解码器所需完成任务贡献更大的序列，通过对编码器的输出进行加权平均，得到更有针对性的解码器的输入。

从信息选择方式的角度出发，注意力机制可以分为软注意力 (Soft Attention)和硬注意力 (Hard attention)。软注意力所选择的信息是所有输入信息的加权平均，硬注意力所选择的信息仅仅是所有输入信息的一部分，其余部分将被直接舍弃。软注意力通过加权平均减少冗余信息的影响，但是由于冗余信息的权重逼近于零但不等于零，因此冗余信息依然对结果有一定的负面作用。硬注意力则直接将一部分信息舍弃，虽然可以有效减少冗余信息，但其难以进行反向传播，因此需要进行分阶段训练，训练难度较大。两种注意力机制均会在一定程度上影响智能问答结果的准确性和实时性。

发明内容

基于此，有必要针对上述技术问题，提供一种基于自适应注意力机制的知识图谱补全方法、装置和设备，以便兼顾智能问答结果的准确性性和实时性。

一种基于自适应注意力机制的知识图谱补全方法，包括：

获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；其中的实体和关系均有对应的文本描述信息；

将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分；

根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素；

由优化元素组成优化序列，根据优化序列预测得到所述待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

一种基于自适应注意力机制的知识图谱补全装置，包括：

邻居信息获取模块，用于获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；其中的实体和关系均有对应的文本描述信息；

注意力得分计算模块，用于将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分；

元素数量优化模块，用于根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素；

实体补全模块，用于由优化元素组成优化序列，根据优化序列预测得到待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

由优化元素组成优化序列，根据优化序列预测得到待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

上述基于自适应注意力机制的知识图谱补全方法、装置和设备，包括：首先，获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；接着，将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分；然后，根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素；最后由优化元素组成优化序列，根据优化序列预测得到待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

本发明将待补全实体对应的查询三元组的已知关系纳入注意力计算过程中，提高了注意力层对有效信息的提取；此外，本发明将注意力得分看作是利用候选序列进行推理的可信度。考虑到输入的候选序列中存在可信度高的推理结果时需要尽可能排除低可信度推理结果的影响，而输入序列中推理可信度均较为低下情况下应当尽量获取更多的信息参与推理，因此根据注意力得分的最大值自适应确定候选元素的保留数量，既可以减少推理无关三元组所带来的信息冗余，也可以提高训练速度和推理速度。综上，本发明能够兼顾知识图谱推理的速度和准确度，兼顾智能问答结果的精准性和实时性，即更快更好地实现智能问答。

附图说明

图1为一个实施例中基于自适应注意力机制的知识图谱补全方法的流程示意图；

图2为一个实施例中候选元素的注意力计算示意图；

图3为一个实施例中重构元素的计算示意图；

图4为一个实施例中优化权重值的计算示例图；

图5为一个实施例中ConvE的具体拓展方式示意图；

图6为一个实施例中待补全实体填充值计算示例图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于自适应注意力机制的知识图谱补全方法，包括以下步骤：

步骤102，获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系。

具体地，智能问答系统知识图谱是根据智能问答系统中大量语料数据构建的知识图谱。智能问答系统可以是但不限于旅游景点问答系统、线上医疗问答系统、知识问答系统等。

其中，不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成。已知实体和待补全实体为头实体或尾实体，已知实体和待补全实体的实体类型不同。例如在不完整三元组（h, r, ?）中，头实体h为已知实体，关系r为已知关系，尾实体?为待补全实体，其中的实体和关系均有对应的文本描述信息。例如，用户在知识问答系统中查询小明居住在哪里，由此得到待补全的不完整三元组，即查询三元组（小明, 居住在,?），其中“小明”和“居住在”分别为已知的头实体和关系，待补全的居住地为待补全的尾实体。知识图谱可看作一个网络图，其中包含若干节点（即实体），有关联的节点之间构成边，该边即表示节点之间的关联关系。因此，该不完整三元组的邻居三元组即为包含已知头实体“小明”的其他完整三元组，例如(小明, 性别, 男)等。文本描述信息可以是从互联网获取的网页文本数据，也可以是从专用文本库中提取的文本，文本是一种自然语言数据，在计算机对文本进行处理时，文本可以以结构化数据、非结构化数据等形式输入。

步骤104，将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分。

各类图神经网络可以被统一到消息传递模型下，简单来说，消息传递模型就是利用邻居节点的表示来更新中心节点的表示。如图2所示，图神经网络在整个模型中作为编码器，利用周围邻居的表示来更新中心节点的表示。在完成节点表示更新之后，利用传统的基于三元组的模型进行解码。在整个过程中，对于不完整三元组，编码器无法使用解码器中的已知关系 r 的信息，因此基于图注意力网络的模型在进行注意力计算时，难以将预测关系r 的信息考虑进来，这是不合理的。例如在对不完整三元组 (小明, 居住在, ?) 推理时，如果不考虑关系“居住在”，而是用邻居三元组 (小明, 国籍, 中国) 来计算注意力并聚合信息，很难区分邻居三元组对于本次推理的贡献。并且，结合逻辑规则中复合规则的形式，可以发现构成命题的元素都会对该规则的可信度产生影响。因此还需要将参与推理的实体纳入注意力得分的计算中。本方法参考图注意力网络实现注意力计算的方式，提出将关系r 纳入注意力计算，能够提高注意力层对有效文本信息的提取。

将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，也就是将其对应的文本描述信息映射为向量表示，再将各个向量进行拼接。每个候选元素可以理解为包含待补全的不完整三元组及其已知实体参与构成的邻居三元组的文本信息，为了加快智能问答过程，无需融合所有的候选元素，因此本方法采用自适应注意力机制对候选元素进行合理过滤。如图2所示，提供候选元素的注意力计算示意图，在图2中

是将实体和关系映射到指定计算空间得到的矩阵，其中，/>

为第/>

个候选元素中邻居实体的映射矩阵，/>

为第/>

个候选元素中邻居关系的映射矩阵，/>

为已知头实体的映射矩阵，/>

为已知关系的映射矩阵，将4个映射矩阵进行拼接后得到候选元素并输入至全连接网络中，通过Softmax激活层计算得到的对应的第/>

个候选元素（即第/>

个邻居）的注意力得分

。

步骤106，根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素。

在知识图谱中，实体的度分布并不均匀，差距较大，少则十几个多则上百个。而在对度较大的实体进行推理时，并不需要使用所有的邻居信息。例如在对查询三元组 (小明,居住在, ?) 进行推理时，推理过程并不需要诸如 (小明, 性别, 男)这样的邻居三元组的信息。因此可以采用注意力机制，对无关信息进行剔除。为了将无关信息的影响降到最小，最小化噪声对推理结果的影响，本方法采用自适应 topk 的方法，先计算所有邻居的注意力得分，然后根据得分的具体分布情况，计算出保留数量k的值，最后排序选取前k个，完成筛选过程，得到优化元素，即自适应剔除冗余三元组文本信息后的强关联邻居三元组文本信息。运用这种方式，既可以减少推理无关三元组所带来的信息冗余，合理使用计算资源，也可以提高训练速度和推理速度。

步骤108，由优化元素组成优化序列，根据优化序列预测得到待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

具体来说，是对优化序列进行特征提取来得到补全值，补全值即对应智能问答系统对于待补全实体的回答文本，例如，不完整三元组（小明, 居住在, ?）的补全值为“中国”以及更具体的地区。

上述基于自适应注意力机制的知识图谱补全方法中，将待补全实体对应的查询三元组的已知关系纳入注意力计算过程中，提高了注意力层对有效信息的提取；此外，本发明将注意力得分看作是利用候选序列进行推理的可信度。考虑到输入的候选序列中存在可信度高的推理结果时需要尽可能排除低可信度推理结果的影响，而输入序列中推理可信度均较为低下情况下应当尽量获取更多的信息参与推理，因此根据注意力得分的最大值自适应确定候选元素的保留数量，既可以减少推理无关三元组所带来的信息冗余，也可以提高训练速度和推理速度。综上，采用本方法对智能问答系统知识图谱进行补全，提高了智能问答过程中搜索结果的准确性，实现所答即所问，即本发明能够兼顾智能问答系统的回答速度和准确度。

在一个实施例中，根据注意力得分的最大值自适应确定候选元素的保留数量，包括：

根据注意力得分的最大值自适应确定候选元素的保留数量为：

；

其中，

为保留数量，/>

为基础系数，/>

为调整系数，用于调整/>

能取的最大值，/>

为注意力最大值，/>

为向上取整函数。按照该公式，当最大注意力得分/>

增大时，代表存在较高可信度的推理在其中，此时/>

将减小。反之，则代表推理可信度均不高，需要纳入更多信息辅助推理，此时/>

将增大。

在一个实施例中，根据优化序列预测得到补全值，包括：

根据优化序列中当前优化元素的Query值和各个优化元素的Key值分别计算得到各个优化元素的权重值，根据各个权重值和对应的Value值得到当前优化元素对应的重构元素；遍历优化序列，得到所有优化元素对应的重构元素，以此得到对应的重构序列；将重构序列输入预先构建的全连接网络，输出得到各个重构元素对应的优化权重值，根据优化权重值和优化序列对应的特征向量得到待补全实体对应的填充值。

具体是采用全连接层将每个重构元素映射成单个数值，最后通过

函数得到和为1的一系列优化权重值/>

。

其中，Query值、Key值和Value值是通过将优化序列输入预先构建的自注意力模块中计算得到的。

在一个实施例中，根据优化序列中当前优化元素的Query值和各个优化元素的Key值分别计算得到各个优化元素的权重值，根据各个权重值和对应的Value值得到当前优化元素对应的重构元素，包括：

以优化序列中当前优化元素的Query值为基准Query值，计算基准Query值和各个优化元素的Key值的乘积，分别得到各个优化元素的权重值，对各个优化元素的权重值和对应的Value值进行加权平均，得到当前优化元素对应的重构元素。

以输入的优化序列长度为 4 举例，第一个优化元素 Input₁对应的输出 Output₁的计算过程如图3所示。首先计算出所有输入的优化元素对应的Q、K 和V，其次计算出所有四个输入在加权求和前的权重值，例如

，该值描述了优化序列中第一个元素与其自身的关系，以此类推，/>

描述了序列中第一个元素与第二个元素之间的关系，通过多次计算，便可以得到所有权重值。最后利用这些权重值对相应的V加权平均得到Output₁。

为了能让模型可以学习到逻辑规则中的复合规则，应当考虑输入序列内部元素之间的影响。因此首先需要利用自注意力机制生成综合了序列全局信息的向量，而后通过全连接层将这些向量映射成一系列权重值。本实施例选择利用 Transformer encoder生成具有序列全局信息的向量。由于整个推理结果与序列的顺序无关，因此并不需要位置编码(Position Embedding) 的加入。对于输入序列，序列中每个元素都会通过参数共享的全连接层计算出各自的Q、K和V（其中Q、K和V别代表Query、Key和Value），而后通过Q和K之间的计算得到权重

，按照此权重加权求和得到最后的输出。如图4所示，提供优化权重值的计算示例图。

在一个实施例中，计算优化序列的特征向量的步骤包括：

将优化序列中的已知实体和邻居实体，以及已知关系和邻居关系分别嵌入到对应维数的实向量空间，得到对应的嵌入向量；将优化序列中的已知实体、已知关系、邻居实体和对应的邻居关系的嵌入向量进行拼接，得到输入向量；将输入向量输入全连接网络中，得到投影向量，对投影向量使用激活函数后再输入全连接网络，得到对应输出的特征向量。利用了全连接神经网络，其特征由整个输入生成，不受卷积核范围限制，因此可以充分提取交互。

在一个实施例中，根据优化权重值和优化序列对应的特征向量得到待补全实体对应的填充值，包括：

将优化权重值和优化序列对应的特征向量进行加权求和得到求和结果；

对求和结果使用随机丢弃函数dropout得到输出向量，即待补全实体对应的填充值。

考虑到ConvE、ConvKB、InteractE等基于卷积神经网络的得分函数难以获取实体和关系之间的长距离交互。并且将这些模型拓展为可以融合邻域信息的模型之后，它们对于邻域实体、邻域关系、实体和关系之间的交互提取能力也是不足的。

ConvE的具体拓展方式如图5所示，首先将输入序列的邻居实体向量

、邻居关系向量/>

、头实体向量/>

和关系向量/>

变形成矩阵，其次将四个矩阵组合成宽度为 4的三维矩阵，最后利用三维卷积核对其进行三维卷积得到特征矩阵。

R-GCN、SACN和CompGCN等基于图神经网络的模型则是先进行邻域信息的聚合并更新实体和关系的嵌入，而后利用 ConvE 等三元组模型进行解码。邻域信息在编码器-解码器结构中，需要经过至少两层神经网络才能和关系进行交互，因此编码器-解码器结构会导致邻域实体、邻域关系与中心实体以及关系不能进行直接交互计算。

如图6所示，提供待补全实体填充值计算示例图。首先，对于知识图谱中所有的实体和关系，本模型将他们分别嵌入到k维实向量空间和j维实向量空间，例如图6中的

。每个实体拥有n个邻居实体/>

和邻居关系/>

。ConvE对实体嵌入向量和关系嵌入向量进行变形和拼接，这使得卷积核难以捕获长距离交互。因此本模型不采用变形的方式，而是直接将邻居实体/>

，邻居关系/>

，头实体h和关系r的嵌入向量进行拼接，组成输入向量/>

，

，其中/>

表示/>

被单位化后的向量。

拼接完成后，将

传入全连接网络中，以将其投影到一个/>

维特征空间中并获得特征向量/>

，其中m是实体嵌入空间维度k与关系嵌入维度j的乘积，因此在图6中m=16。该模型对特征向量/>

使用激活函数，在此之后，将其输入到全连接网络中以将其映射到更低维度的空间，该空间维度与实体嵌入空间的维度一致。按照以上流程进行n次，其中n是优化序列的长度，计算得到n个输出向量。与此同时，自注意力模块也完成了计算，得到了优化权重值。此时利用优化权重值将n个输出向量进行加权求和，并在其结果上使用 dropout得到输出向量/>

。最后将输出向量/>

的单位化结果与单位化后的所有实体的嵌入向量做点积，由于两个向量模长都是1，因此点积的结果可以衡量两个向量之间的相似性。由于相似性并非概率值，因此本文使用 />

将相似性转化成概率值，该模型的得分函数为：

；

其中

和/>

是将输入向量投影到特征空间全连接层的参数，/>

和/>

是将特征向量投影到实体嵌入空间全连接层的参数，/>

是激活函数，这里选择/>

，/>

是优化权重值的第/>

个元素。

为了加快训练速度，该模型采用1-N的训练方式，损失函数如下：

；

其中

是标签向量的第/>

个元素，/>

是对应的概率，/>

是由/>

作用在得分函数公式后得到的结果。

在知识图谱补全任务上，本实施例采用开放世界假设，在该假设下，认为不存在于知识图谱中的三元组是未知的三元组，它正确与否未知。在构造负样本时，采用封闭世界假设，在该假设下，认为知识图谱中所有的三元组都是正确的，不存在错误，而不在知识图谱内的三元组都是错误的。因此，标签向量

的形式为：

；

其中

是负样本成立的概率，/>

是正样本成立的概率。整个标签向量/>

需要满足其元素和为1，并且有且仅有一个/>

。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

下面进行实验设置与性能评估：

1、参数设置

本实验中使用的测试设置为filter，实验参数设置如下：实体和关系嵌入维度都设置为 200，平滑率设置为 0.1，自适应注意力层基础系数

为 5，调整系数/>

为0.2，学习率为 0.05，每一批次大小固定为 256，每个训练集最多训练 200 轮。通过网格搜索来调整参数以验证数据集的性能，输入层删除率 (Input Dropout Rate) 搜索范围为 {0.0,0.05,0.1,0.15,0.2}，特征层删除率 (Feature Layer Dropout Rate) 搜索范围为 {0.0,0.05,0.1,0.15,0.2}，隐藏层删除率(Hidden Layer Dropout Rate) 搜索范围为 {0.1,0.2,0.3,0.4,0.50,0.55,0.60,0.65}。经过搜索，最佳的参数组合如表1所示。

表1 本模型在WN18RR和FB15k-237测试集上的最佳参数配置

2、模型评估结果及分析

利用典型数据集 FB15k-237 和 WN18RR 对 N-MlpE 模型的表现进行评估并与典型模型进行对比，以基于平移假设的模型 TransE，语义匹配模型

DistMult和ComplEx，卷积模型ConvE、KMAE、HypER、InteractE和JointE，基于图神经网络的模型 R-GCN、KBGAT、SCAN、A2N 和 CompGCN 共 13 个模型作为基准。表2展示了各个模型在两个数据集上的效果，最好的结果以粗体表示，排名第二的结果标有下划线。其中，MRR为平均倒数排名，MR为平均排名，Hits@n为排名小于n的三元组的平均占比，三者均为知识图谱常用指标。

表2模型在FB15k-237 和WN18RR上链路预测任务的测试结果

本模型N-MlpE 在这两个典型数据集上的表现相对于其他模型来说很有竞争力，如表2所示，N-MlpE 在两个数据集上的表现远远好于ConvE和HypER。与 JointE和InteractE相比，N-MlpE在大部分指标上都超越了两者，这不仅得益于 N-MlpE采用MlpE模型作为特征提取模块，可以捕获长距离交互，而且还有邻域信息带来的信息量优势。

相比于 MlpE 而言，N-MlpE在数据集WN18RR上，Hits@3、MRR 等重要指标取得了最好的表现，在FB15k-237上的表现略逊于MlpE。本文认为出现该情况的原因在于 N-MlpE 模型中，自适应注意力层中基础系数 L 的值决定了 k 的取值范围，本实验中并没有对 L 进行搜索，而是统一设定为 5，这使得自适应注意力层对不同数据集的针对性不强。FB15k-237 数据集的平均节点度更高，采用 L 为5的自适应注意力层，可能难以对邻居信息进行充分提取。

与同样使用了邻域信息的图神经网络模型相比，N-MlpE也表现良好。与五个基准模型相比，N-MlpE大幅超越了其中的四个模型，仅仅在 WN18RR 数据集上逊色于 CompGCN，并且 N-MlpE 在FB15k-237数据集上超越了全部五个图神经网络模型。综合两个数据集来看，N-MlpE模型并不逊色于图神经网络模型。大多数图神经网络模型堆叠两层或者三层图神经网络层以达到增大邻域信息范围的目的，这里的五个模型均使用了两层或者多层图神经网络层，因此其使用的信息更多。从这个角度上来看，N-MlpE模型对信息的使用效率更高，如果将 N-MlpE也拓展到二阶甚至三阶邻居，或许模型效果可以进一步提高。

总体而言，N-MlpE在两个典型数据集上的MR指标较MlpE有所提升，并且超越了之前的绝大多数模型，取得了较好的表现。本文认为N-MlpE能够超越众多模型的原因有两点，一是特征提取模块基于 MlpE 模型，MlpE 模型自身对于交互的抽取能力较强，为N-MlpE打下了基础。二是N-MlpE运用了自适应注意力机制，较好地去除了冗余信息带来的噪声，使用了自注意力机制建模规则推理过程。实验证明了N-MlpE是一种性能优越的分布式表示推理方法，对于知识图谱补全任务具有较好的应用前景。

3、消融实验

为了进一步说明自注意力机制和特征提取模块的作用，在数据集WN18RR 上进行了消融实验。将N-MlpE模型的权值计算模块用注意力机制进行替换并记为非自注意力机制，将特征提取模块用拓展后的ConvE模型进行替换，如表3所示。其中，拓展后的ConvE的主要超参数设置如下：变形大小[1,10,20]、卷积核大小[2,3,3]、输入层删除率搜索范围{0.0,0.05,0.1,0.15,0.2}、特征层删除率搜索范围{0.0,0.05,0.1,0.15,0.2}。

表3 N-MlpE 模型在WN18RR数据集上替换模块后的结果

结果表明，N-MlpE 模型在不使用自注意力机制的情况下平均倒数排名 MRR大约下降了 3%，将特征提取模块替换成ConvE之后MRR下降了 5.5%。因此自注意力机制的权值计算方式和基于MlpE模型的特征提取模块对模型效果有着较为显著的影响。

本发明提出的N-MlpE模型，利用自适应注意力机制，缩短了输入序列的长度，从而提高了计算速度；利用自注意力机制建模了相关规则推理过程，缓解了KGE模型可解释性不强的问题。两个典型数据集WN18RR和FB15k237上的实验结果表明，N-MlpE模型在知识图谱补全上的准确率超越了大部分图神经网络模型。

在一个实施例中，提供了一种基于自适应注意力机制的知识图谱补全装置，包括：邻居信息获取模块、注意力得分计算模块、元素数量优化模块和实体补全模块，其中：

邻居信息获取模块，用于获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成。其中的实体和关系均有对应的文本描述信息。

注意力得分计算模块，用于将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个候选元素的注意力得分。

元素数量优化模块，用于根据注意力得分的最大值自适应确定候选元素的保留数量，根据保留数量得到优化元素。

关于基于自适应注意力机制的知识图谱补全装置的具体限定可以参见上文中对于基于自适应注意力机制的知识图谱补全方法的限定，在此不再赘述。上述基于自适应注意力机制的知识图谱补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识图谱数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于自适应注意力机制的知识图谱补全方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自适应注意力机制的知识图谱补全方法，其特征在于，所述方法包括：

获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；所述不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；其中的实体和关系均有对应的文本描述信息；

将所述已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个所述候选元素的注意力得分；

根据所述注意力得分的最大值自适应确定候选元素的保留数量，根据所述保留数量得到优化元素；

由优化元素组成优化序列，根据所述优化序列预测得到所述待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

2.根据权利要求1所述的方法，其特征在于，根据所述注意力得分的最大值自适应确定候选元素的保留数量，包括：

根据所述注意力得分的最大值自适应确定候选元素的保留数量为：

；

其中，

为保留数量，/>

为基础系数，/>

为调整系数，/>

为注意力最大值，/>

为向上取整函数。

3.根据权利要求1所述的方法，其特征在于，根据所述优化序列预测得到补全值，包括：

根据所述优化序列中当前优化元素的Query值和各个优化元素的Key值分别计算得到各个优化元素的权重值，根据各个所述权重值和对应的Value值得到当前优化元素对应的重构元素；遍历所述优化序列，得到所有优化元素对应的重构元素，以此得到对应的重构序列；所述Query值、Key值和Value值是通过将所述优化序列输入预先构建的自注意力模块中计算得到的；

将所述重构序列输入预先构建的全连接网络，输出得到各个重构元素对应的优化权重值，根据所述优化权重值和优化序列对应的特征向量得到待补全实体对应的填充值。

4.根据权利要求3所述的方法，其特征在于，根据所述优化序列中当前优化元素的Query值和各个优化元素的Key值分别计算得到各个优化元素的权重值，根据各个所述权重值和对应的Value值得到当前优化元素对应的重构元素，包括：

以所述优化序列中当前优化元素的Query值为基准Query值；

计算所述基准Query值和各个优化元素的Key值的乘积，分别得到各个优化元素的权重值；

对各个优化元素的权重值和对应的Value值进行加权平均，得到当前优化元素对应的重构元素。

5.根据权利要求3所述的方法，其特征在于，计算优化序列的特征向量的步骤包括：

将所述优化序列中的已知实体和邻居实体，以及已知关系和邻居关系分别嵌入到对应维数的实向量空间，得到对应的嵌入向量；

将所述优化序列中的已知实体、已知关系、邻居实体和对应的邻居关系的嵌入向量进行拼接，得到输入向量；

将所述输入向量输入全连接网络中，得到投影向量，对所述投影向量使用激活函数后再输入全连接网络，得到对应输出的特征向量。

6.根据权利要求3所述的方法，其特征在于，根据所述优化权重值和优化序列对应的特征向量得到待补全实体对应的填充值，包括：

将所述优化权重值和优化序列对应的特征向量进行加权求和得到求和结果；

对所述求和结果使用随机丢弃函数得到输出向量，即待补全实体对应的填充值。

7.一种基于自适应注意力机制的知识图谱补全装置，其特征在于，所述装置包括：

邻居信息获取模块，用于获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系；所述不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成；其中的实体和关系均有对应的文本描述信息；

注意力得分计算模块，用于将所述已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接，得到候选元素，计算各个所述候选元素的注意力得分；

元素数量优化模块，用于根据所述注意力得分的最大值自适应确定候选元素的保留数量，根据所述保留数量得到优化元素；

实体补全模块，用于由优化元素组成优化序列，根据所述优化序列预测得到所述待补全实体的补全值，完成智能问答系统的知识图谱补全任务。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。