CN112732888A

CN112732888A - 一种基于图推理模型的答案预测方法及装置

Info

Publication number: CN112732888A
Application number: CN202110353541.2A
Authority: CN
Inventors: 赵翔; 霍立军; 刘逸冰; 葛斌; 谭真; 胡升泽; 张翀; 肖卫东
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-04-30

Abstract

本发明公开了一种基于图推理模型的答案预测方法及装置，所述方法包括以下步骤：接收问题和支持文档集；通过文本瘦身筛选掉不相关的文档，并对所有的文本进行语义编码；使用多种注意力机制进行多种文本的语义交互和图节点的初始化；基于构建的图，使用GNN信息传递算法进行多跳推理；基于更新后的图节点表示，为每个候选计算用于预测答案的分数；根据答案的分数分布结果，预测未知的右实体即答案。本发明方法提出了一种新图，它将多种类型的元素视为图节点，使推理更加全面。同时，由于采用了句子节点，推理变得更加准确具体，融合了多种注意力机制来进行多重语义表示，并创新地考虑了候选之间的相对正误对推理的影响，使得答案预测更加准确。

Description

一种基于图推理模型的答案预测方法及装置

技术领域

本发明属于人工智能中的自然语言处理技术领域，具体涉及一种基于图推理模型的答案预测方法及装置。

背景技术

机器阅读理解（MRC）主要被用来衡量机器对自然语言内容的理解程度，是实现人工智能重要的一步。通常情况下，MRC任务会给定一个文档和一个问题，机器需要选择、抽取和融合其中的关键语义信息，尝试回答这个文档相关的问题，这是一项复杂的自然语言处理任务。近年来，随着MRC研究者大军的兴起，很多高质量的数据集已经被提出来去评估MRC的发展水平，比如SQuAD、RACE等。很多神经模型已经被提出去追溯这些任务（BiDAF，Match-LSTM），并且，在一些优秀的预训练模型（BERT，ELMo）被提出之后，巨大的进步被获得。

在这些数据集中，大部分都是单跳的任务，即每个问题只对应一个被用来去寻找正确答案的文档。由于文档数量较少，关键信息比较集中，即使是缺乏推理能力的模型也可以很好的完成它。为了更好的评估和提升模型的推理能力，最近一些新的数据集被提出来（WikiHop，RACE）。这些数据集提供了大量的支持文档，为了完成预测答案的目标，模型需要通过推理在多个文档之间进行文本/信息的跳跃以聚集散落的关键信息。

多跳MRC是一项极具挑战性的任务，其主要体现在以下三个方面。首先，每个问题都对应着大量的支持文档，绝大部分模型难以直接处理如此大规模的支持文档。同时，支持文档中仅有一部分包含了与问题相关的信息，而其余的则是无关文档，这给模型带来了很大的干扰。其次，由于关键信息包含在多个文档之中，模型需要进行跳跃式的抽取，并把获得的信息有逻辑的连接在一起，这个过程是对推理能力的一种考验，然而，大多数模型都没有很好的实现推理。最后，多跳MRC要求模型进行多次递进式的信息提取和融合，而每一次信息抽取的误差会被不断传播，最终会导致误差的积累，给模型效果带来很大的不确定性。

鉴于这些困难，一些基于图神经网络（GNN）的多跳推理模型已经被提出。Song等人把实体作为GNN的节点进行推理，DE Cao等人使用候选在文档中的提及作为GNN的节点，而Tu等人则使用编码后的句子作为GNN的节点，经过多步推理后用更新的句子表示来获得结果。这些模型在不同颗粒度层次使用了基于GNN的多跳推理，在效果上获得了显著提升。然而，单单使用实体、句子或候选的一种作为GNN的节点来实现推理并捕捉关键信息，不足以支撑精准的推理。当然，那也有一些模型使用了两种类型的节点来构建图，但这还不够。同时，基于实体层级的图推理太过精细了而基于文档层级的却太粗糙了，推理效果都得到了压制。

发明内容

有鉴于此，为了解决现存的技术问题，本发明提出一种基于图推理模型的答案预测方法及装置，本发明把实体、候选和句子三种层级的信息当作节点，图的信息更加丰富，包含了回答问题所需的全部关键信息；收集并采用所有三种类型的信息，会大大提高给定的文本资源的利用率；把问题对象作为推理的初始节点，句子和实体用作中间节点，最终推理结束于候选，这样的一个推理过程更符合人类的逻辑；本发明中的图通过合理的规则在节点之间具有丰富的连接，从而确保了平滑的信息流动性，模型方法可以连续捕获节点之间的关联信息并进行传递。最终，使得本发明方法和装置对多跳机器阅读理解中的答案预测准确率更高。

一种基于图推理模型的答案预测方法，包括以下步骤：

步骤1，接收问题

和支持文档集

和候选集

，问题

的形式为

，其中，

是实体对象，

是实体对象和未知右实体

之间的关系，所述未知右实体就是需要从候选集中选择的答案；

步骤2，通过文本瘦身筛选掉支持文档集中不相关的文档，并对所有的文本进行语义编码；

步骤3，使用多种注意力机制进行多种文本的语义交互和图节点的初始化；

步骤4，基于构建的图，使用图神经网络信息传递算法进行多跳推理；

步骤5，基于更新后的图节点表示，为每个候选计算用于预测答案的分数；

步骤6，根据所述预测答案的分数分布结果，预测未知右实体。

进一步的，步骤2中所述的文本瘦身是指，在问题

的辅助下，使用两层的TF-IDF算法挑选出相关文档，包括以下步骤：

步骤201，在第一层TF-IDF算法中，计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档；

步骤202，在第二层TF-IDF算法中，计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度；

步骤203，根据所述余弦相似度的大小给所有文档排序，取出前N-1个文档，N为自定义阈值；

步骤204，从支持文档集

取出的全部文档组成新的支持文档集

，其中，

表示第i个文档。

进一步的，步骤2中所述的语义编码是指，使用预训练的语言模型用作编码器，将支持文档集、问题和候选中的每个词块转化为固定长度的向量，同时文本的语义也在这个过程被编码并存储在向量之中，包括以下步骤：

步骤205，给定一个编码器，文档集

和问题

通过如下公式被编码：

，

，其中，

返回编码器对输入变量编码后的结果，

，

分别是文档集和问题的序列表示，

表示返回文本序列的长度，

是编码器隐状态的维度，

表示维度；

步骤206，取出候选

在

中对应的编码，从而获得

的编码表示

，其中，

为候选集

中的任意一个候选，

为候选的个数；

步骤207，把文档划分为句子，并取出

中相应的向量用作句子的语义编码；

步骤208，获得基于句子的文档集语义编码

，其中

表示第i个句子的语义编码，

是文档集中包含的句子总数，

是句子的序列长度。

进一步的，步骤3包括以下步骤：

步骤301，通过实体抽取获得所需的实体；

步骤302，把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示；

步骤303，使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。

进一步的，步骤302中句子与问题进行如下步骤的语义交互：

步骤30201，给定一对输入：问题

和一个句子

，二者的关系矩阵B可通过如下公式获得：

，

其中

表示矩阵转置，矩阵

的每个元素

表示问题中的第

个词和句子中的第

个词的相关程度，被看作是一种注意力；

步骤30202，把步骤30201中所述的注意力分别融入问题和句子，公式如下：

，

，

其中，

表示融入了句子注意力的问题编码，

表示融入了问题注意力的句子编码，softmax表示归一化函数；

步骤30203，使用一层双向长短期记忆网络Bi-LSTM再次对句子的语义进行编码，得到

；

步骤30204，通过一个维度拼接来获得融入了互注意力信息的句子表示

：

所述的语义交互的方法也被应用到问题-实体和问题-候选对，获得的结果用

,

表示；

步骤303具体包括以下步骤：

步骤30301，使用一个带有tanh激活函数的多层感知机把对象实体的维度转化为2d；对于任意给定的句子序列

，其转化为一个集成向量

的过程可被如下描述：

;

,

,

其中，

,

,

和

是可训练的权重矩阵，

和

分别表示未归一化和归一化的权重向量；同样，对实体编码

和候选编码

应用一层自注意力机制，获得的向量分别用

，

来代表；

步骤30302，在和问题进行了信息交互后，候选的表示得到了初步更新，用

，然后，通过捕捉和集成候选之间的影响来做进一步的更新，具体包括两个过程：多头注意力层和带有门机制的前馈神经网络层；

所述的多头注意力层是注意力机制的一种实现，形式化的描述为：

,

;

,

其中，

表示把变量在最后一个维度等分为head份，

表示拼接操作，

,

和

是可训练的权重矩阵，

,

,

和

表示计算过程的中间变量，由原始变量生成，并被消耗；

所述的带有门机制的前馈神经网络层把

和

当作输入，使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息，然后使用门机制来加入候选本身，以保留候选的一部分原始信息，整个过程可以被描述为：

,

,

,

其中，

,

和

是可训练的权重矩阵，用

表示最终的候选编码集，也即是候选节点的初始表示。

进一步的，步骤4中图的构建包括：建造的图被定义为：

，其中

代表图节点的集合，而

代表连边的集合，在这个图中，把所有的句子、候选和实体作为节点，取编码

,

和

作为三种类型节点的初始表示，用

取代他们，也就是

，通过定义了如下这些类型的边：

在两个句子节点之间添加一个边，如果他们来源于同一个文档；

在两个句子节点之间添加一个边，如果他们来源于不同文档但是有相同的实体提及；

在两个实体节点之间添加一个边，如果他们来源于同一个文档；

在两个实体节点之间添加一个边，如果他们来源于不同文档，并且是同一个候选的提及；

在一个实体节点和一个候选节点之间添加一个边，如果这个实体是这个候选的提及；

在一个实体节点和一个句子节点之间添加一个边，如果这个实体出现在这个句子中；

在一个候选节点和一个句子节点之间添加一个边，如果这个候选出现在这个句子中。

进一步的，步骤4中所述的信息传递算法驱使信息在图上流动，通过多次的迭代运行，把所需的推理信息汇聚在最终用来预测答案的节点上，由于信息传递算法模拟的是，在问题导向下关联信息的传递，因此，其每运行一次，即可视为一次推理，而运行的次数则取决于预定义的推理次数，具体的，在第t步，节点表示的更新过程可由如下公式表述：

,

其中，

表示相邻节点的信息融合，

表示哈达玛积，而

是门控值，它们可通过如下获得：

,

.

表示所有边类型的集合，

表示节点i所有

类型的邻边，

是节点i在第t步的表示，此外，

，

和

均由多层感知机实现，在完成预定义的T次迭代后，将得到句子、实体和候选的最终表示。

进一步的，步骤5中所述的计算用于预测答案的分数，为第k个候选计算分数

的过程如下：

,

其中，

是与第k个候选相对应的所有实体节点的编码表示，

表示在与同一候选相对应的所有实体的评分中，取出最大分数，

和

都是具有tanh激活函数的多层感知机；

步骤6中从

中选择具有最大分数的候选作为模型预测的答案。

另外，一种基于图推理模型的答案预测装置，包括：

处理器；

以及，存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行前述指令来执行基于图推理模型的答案预测方法。

与现有技术相比，本发明有以下优点和有益效果：

首先，本发明方法提出的图把实体、候选和句子同时作为节点，相较于之前的模型，把三种层级的信息当作节点，图的信息更加丰富，包含了回答问题所需的全部关键信息，收集并采用所有三种类型的信息，则会大大提高给定的文本资源的利用率；其次，把问题对象作为推理的初始节点，句子和实体用作中间节点，最终推理结束于候选，这样的一个推理过程更符合人类的逻辑，更具可解释性；另外，句子将文档替换为中间节点，从而在不丢失关键信息的情况下减少了干扰信息，句子比文档更简洁。最后，本发明方法中的图通过合理的规则在节点之间具有丰富的连接，从而确保了平滑的信息流动性，激活基于GNN的推理算法以指导信息流。因此，本发明方法中可以连续捕获节点之间的关联信息并进行传递，所以答案预测更加精准。

附图说明

图1为本发明实施例的流程示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，一种基于图推理模型的答案预测方法，包括以下步骤：

步骤1，接受问题

和支持文档集

，问题

的形式为

，其中，

是实体对象，

是实体对象和未知右实体

之间的关系，未知右实体就是需要预测的答案；

步骤6，根据答案的分数分布结果，预测未知的右实体即答案。

任务定义

在WikiHop和MedHop数据集中，每条数据集都会给定一个支持文档集

以及一个相关的问题

。具体来说，这个问题的形式为

，其中，

是实体对象，

是实体和未知右实体之间的关系，而这个右实体就是需要模型去预测的答案。另外，数据集也提供了一个包含正确答案的候选集

。任务的目标是根据给定的问题

和支持文档集

，从候选集

中选择出正确的答案。

文本瘦身和语义编码

考虑答案预测所需的重要信息，只存在于文档集中与问题相关的文档，因此，在问题

的辅助下，使用一个两层的TF-IDF算法挑选出相关文档。具体的，在第一层，计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档。在第二层，计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度，然后根据相似度的大小给文档排序，取出前N-1个文档。最后，所有取出的文档组成新的支持集

，其中，

表示第i个文档。

使用预训练的语言模型用作模型的编码器，它会将文档集、问题和候选中的每个词块转化为固定长度的向量，同时文本的语义也在这个过程被编码并存储在向量之中。具体的，给定一个编码器，文档集P和问题q可以通过如下公式被编码：

,

其中，

返回编码器的最后一层输出，这些编码器可以是训练好的语言模型，例如BERT和XLNet。另外，使用Transformer作为上下文编码器也被证明具有非常强大的语言表达能力。

,

分别是文档集和问起的序列表示。

返回文本序列的长度，d是编码器隐状态的维度。另外，由于每个候选都可以在支持文档集中找到，因此本发明取出候选在

中相应的编码，从而获得

作为

的语义表示。

最后，把文档划分为句子，并取出

中相应的向量用作句子的语义编码。然后，本发明获得基于句子的文档集语义编码

，其中，I是文档集中包含的句子总数，L是句子的序列长度。

语义交互和节点初始化

在这一模块，首先通过实体抽取获得所需的实体，然后把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示，最后使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。

a.实体抽取层

左实体和候选分别扮演了一个重要的角色在桥接问题和文档，文档和答案上。因此，本实施例从文档集中抽取左实体和候选这两种实体。用简单的精准匹配策略去找到左实体和候选的提及的位置，也就是在文档中的开始和结束位置，最终获得的每个提及都被当成是一个实体。然后，从文档集的编码

中取出提及对应的向量作为实体的编码表示。用

代表一个实体的编码，其中，m为实体的序列长度。同时问题的对象也被当作实体加入到实体集中。

b.语义互编码层

本实施例获得的问题和句子、实体、候选的编码都是独立的，而实际上，推理往往需要考虑信息间的影响，以约束这些信息朝着正确的方向流动。因此，为了实现信息间的交互，为模型引入互注意力机制。在输入为问题和句子的情况下，这种机制能够同时学习到融入了问题的句子语义信息和融入了句子的问题语义信息。以问题-句子输入对作为示例，展示如何使用互注意力机制进行信息交互，相同的操作可以被应用其他输入对上。

给定一对输入：问题

和一个句子

，二者的关系矩阵B可通过如下公式获得：

,

其中

表示矩阵转置。矩阵

的每个元素

表示问题中的第i个词和句子中的第j个词的相关程度，被看作是一种注意力。

然后，本发明把这种注意力分别融入问题和句子，公式如下：

，

.

考虑到经过上述操作，句子的序列信息可能会被弱化。因此，使用一层双向长短期记忆网络（Bi-LSTM）再次对句子的语义进行编码：

.

最后，通过一个维度拼接来获得融入了互注意力信息的句子表示

：

.

相同的互注意力方法也被应用到问题-实体和问题-候选对，获得的结果用

,

表示。注意，本发明没有把问题对象的实体和问题做交互，因为该实体本身是问题的一部分。但为了保持维度一致，本发明使用一个带有tanh激活函数的多层感知机（MLP）把对象实体的维度转化为2d。

c.自注意力层

经过了信息间的全面交互，本发明更新了实体、问题和候选的编码表示，但它们都是以一个序列的形式存在的，而对于图而言，一个向量似乎是更简洁和方便的。因此，使用一层自注意力机制把这些序列转化为单列向量。具体来说，它首先会依据序列的表示为每个词块计算一个分数，而这个分数只于词块本身的语义编码有关。然后，所有词块的分数会被归一化为一个权重分布去加权求和序列。之后，会获得一个向量作为序列的总结。这个过程的数学化表示为：对于任意给定的句子序列

，其转化为一个向量

的过程可被如下描述：

;

,

,

其中，

,

,

和

是可训练的权重矩阵。相似的，本实施例也对实体编码

和候选编码

应用一层自注意力机制，获得的向量分别用

，

来代表。

d.候选交互层

在和问题进行了信息交互后，候选的表示得到了初步更新，用

。这里，通过捕捉和集成候选之间的影响来做进一步的更新。

具体来说，交互分为两个过程：多头注意力层和带有门机制的前馈神经网络层（FFL）。多头注意力层是注意力机制的一种实现，它可以形式化的描述为：

,

;

,

上述公式中，

表示把变量在最后一个维度等分为head份，

表示拼接操作。另外，

,

和

是可训练的权重矩阵。

FFL把

和N当作输入，使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息。然后本发明使用门机制来加入候选本身，以保留候选的一部分原始信息，整个过程可以被描述为：

,

,

,

其中，

,

和

是可训练的权重矩阵。本发明用

表示最终的候选编码集，也即是候选节点的初始表示。

基于图的推理

a.图的构建

建造的图可以被定义为：

，其中

代表图节点的集合，而

代表连边的集合。在这个图中，本发明把所有的句子、候选和实体作为节点，取编码

,

和

作为三种类型节点的初始表示。为了简化，本发明用

取代他们，也就是

。经过上一层的交互，这些节点的编码表示都被添加了来自于问题的相互信息，但句子、候选和实体三者之间却是相互独立的，而本实施例的推理需要这些要素间的相互联系，这些联系可以被认为是一种线索，用来保证信息的可流动性。通过控制信息在节点之间的流动方向，来构建一条符合人类认知逻辑的信息路径，从而完成多跳推理。因此，为了捕捉这些线索，建立起信息之间的联系，在符合规则的节点之间添加连边。这里描述加边规则。具体的，通过定义了如下这些类型的边：

1. 在两个句子节点之间添加一个边，如果他们来源于同一个文档。

2. 在两个句子节点之间添加一个边，如果他们来源于不同文档但是有相同的实体提及。

3. 在两个实体节点之间添加一个边，如果他们来源于同一个文档。

4. 在两个实体节点之间添加一个边，如果他们来源于不同文档并且是同一个候选的提及。

5. 在一个实体节点和一个候选节点之间添加一个边，如果这个实体是这个候选的提及。

6. 在一个实体节点和一个句子节点之间添加一个边，如果这个实体出现在这个句子中。

7. 在一个候选节点和一个句子节点之间添加一个边，如果这个候选出现在这个句子中。

之前的研究已经证明了类型3、4、5的边对图推理的有效性。其他类型的边主要用于在不同类型的节点之间传输信息，它们起着相互协助和验证的作用。通过上述方法，可以获得包含7种边的集合

。

b.信息传递算法

信息传递算法能够驱使信息在图上流动。它可以通过多次的迭代运行，把所需的推理信息汇聚在最终用来预测答案的节点上。由于算法模拟的是，在问题导向下关联信息的传递，因此，其每运行一次，即可视为一次推理，而运行的次数则取决于预定义的推理次数。简单来说，信息传递算法即是利用周围节点（包括自身）来更新当前节点的表示。具体的，在第t步，节点表示的更新过程可由如下公式表述：

,

其中，

表示相邻节点的信息融合，而

是门控值，它们可通过如下获得：

,

.

表示所有边类型的集合，

表示节点i所有

类型的邻边，

是节点i在第t步的表示。此外，

，

和

均由MLP实现。在完成预定义的T次迭代后，将得到句子、实体和候选的最终表示，它们都高度集成了相邻节点和问题的有效信息。

答案预测

在这一模块，基于上述获得的节点编码来为每个候选评分。考虑到每个实体都与一个候选显式相关，因此，在计算分数时，融入了实体的影响。当然，候选本身也是必要的。而句子与候选之间的不明显关系可能会给预测带来不确定性，因此，评分没有使用到句子。基于上述，为第k个候选计算分数

的过程如下：

,

其中，

是与第k个候选相对应的所有实体节点的编码表示，而

表示在与同一候选相对应的所有实体的评分中，取出最大分数。

和

都是具有tanh激活函数的MLP。最后，从C中选择具有最大分数的候选作为模型预测的答案。

一种基于图推理模型的答案预测装置，包括：

处理器；

以及，存储器，用于存储所述处理器的可执行指令；

本实施例中使用WikiHop和MedHop数据集来评估本发明模型的性能。具体的，使用了它们的非屏蔽版本。

WikiHop是一个庞大的多跳MRC数据集，提供约43.8k样本用于训练集，而5.1k样本用于开发集。平均每个样本包含13.7个支持文档，这些文档可以分为大约50个句子，并且文档是从Wikipedia收集的。每个样本的问题包含一个实体和一个关系，算上提供在候选集中的未知答案，它们构成了WikiData知识库的三元组，。

MedHop是较小的数据集，由用于训练集的1.6K样本和用于开发集的342个样本组成。它主要关注分子生物学领域，其每个样本包括一个问题，一个文档集和一个候选集，其结构与WikiHop的样本相同。区别在于每个文档集平均包含9.6个支持文档，并且可以分为大约40个句子。

在实验中，使用训练集中的所有样本来训练本实施例提出的模型方法，并使用开发集中的所有样本来调整模型的超参数。

本发明使用NLTK按照不同的颗粒度将支持文档集切分为词块和句子块，而候选集和问题则被全部分为词块。本发明使用1024维的标准BERT编码器将所有文本转化为向量。经过TF-IDF算法筛选后，本发明选择了支持文档集的前8个文档，每个文档平均包含30个句子。对于多头注意层，本发明将head的值设置为8。

本发明使用交叉熵损失函数来衡量模型训练的水平，并使用Adam优化算法来调整本发明模型的参数。对于每个可训练模块，本发明加入一层剔除概率为0.1的Dropout。本发明将初始学习率设置为0.001，并且每完成2轮数据集的训练，则把其消减为原来的0.8。本发明使用两个NVIDIA P100 GPUs训练了30轮。在每个GPU上，批处理大小被固定为16，总批处理大小为32。本发明选取准确率作为衡量多跳MRC任务的指标。

在表1给出了SECr在WikiHop验证集上的实验结果，并将其与其他原始论文中报告的结果进行比较。

表1：WikiHop验证集上的准确率

Model	准确率（%）
		CFC	66.4
BAG	66.5
		EEpath	67.1
EPAr	67.2
		HDEGraph	68.1
DynSAN	70.1
		本发明方法	71.6

可以发现本发明提出的模型取得了很有竞争力的结果，把表中最好的准确率从70.1%提升到了71.6%。和之前基于GNN推理的多跳机器阅读理解模型相比，本发明的模型取得了一个显著的提升。

可以发现，提出的模型取得了很有竞争力的结果，即71.6％。与最佳模型：Chen提出的但还没有出版的方法相比，仍存在0.6％的差距。此外，与先前基于GNN推理的多跳MRC模型相比，本实施例方法得到了显着改进。这表明本发明方法提出的图具有优越的性能，有助于模型实施更好的推理。

接下来，在表2中展示在MedHop上的结果。与最新结果相比，本发明方法在MedHop测试集上有了显著的提升。

表2：MedHop测试集上的准确率。

Model	准确率（%）
		FastQA	31.3
Document-cue	44.9
		BiDAF	47.8
Self-Attention	59.6
		EPAr	60.3
本发明方法	63.1

本发明方法提出了一种新图，它将多种类型的元素视为图节点，使推理更加全面，同时，由于采用了句子节点，推理变得更加准确具体；本发明融合了多种注意力机制来进行多重语义表示，并创新地考虑了候选之间的相对正误对推理的影响。相较于现有技术，本发明有以下改进和技术优势：（a）不同于传统的神经模型，本发明使用新兴的GNN作为模型的核心模块，通过图节点间的连边和集成，可以更好的模拟推理信息在文档间的跳跃。（b）相较于目前的GNN推理模型，本发明使用句子、实体和候选三种层次的节点来构建图，可以保证信息的充分融合和精准的推理。（c）应用多种注意力机制来体现问题和文本间的互相影响，使用互注意力机制来捕捉候选之间的相对正错信息，以模仿人类面临多个选项时的偏好。

上述实施例为本发明方法的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于图推理模型的答案预测方法，其特征在于，包括以下步骤：

步骤1，接收问题

和支持文档集

和候选集

，问题

的形式为

，其中，

是实体对象，

是实体对象和未知右实体

步骤6，根据所述预测答案的分数分布结果，预测未知右实体；

步骤3中所述的图节点的初始化包括以下步骤：

步骤301，通过实体抽取获得所需的实体；

2.根据权利要求1所述的一种基于图推理模型的答案预测方法，其特征在于，步骤2中所述的文本瘦身是指，在问题

步骤204，从支持文档集

取出的全部文档组成新的支持文档集

，其中，

表示第i个文档。

3.根据权利要求2所述的一种基于图推理模型的答案预测方法，其特征在于，步骤2中所述的语义编码是指，使用预训练的语言模型用作编码器，将支持文档集、问题和候选中的每个词块转化为固定长度的向量，同时文本的语义也在这个过程被编码并存储在向量之中，包括以下步骤：

步骤205，给定一个编码器，文档集

和问题

通过如下公式被编码：

，

，其中，

返回编码器对输入变量编码后的结果，

，

分别是文档集和问题的序列表示，

表示返回文本序列的长度，

是编码器隐状态的维度，

表示维度；

步骤206，取出候选

在

中对应的编码，从而获得

的编码表示

，其中，

为候选集

中的任意一个候选，

为候选的个数；

步骤207，把文档划分为句子，并取出

中相应的向量用作句子的语义编码；

步骤208，获得基于句子的文档集语义编码

，其中

表示第i个句子的语义编码，

是文档集中包含的句子总数，

是句子的序列长度。

4.根据权利要求3所述的一种基于图推理模型的答案预测方法，其特征在于，步骤302中句子与问题进行如下步骤的语义交互：

步骤30201，给定一对输入：问题

和一个句子

，二者的关系矩阵B可通过如下公式获得：

，

其中

表示矩阵转置，矩阵

的每个元素

表示问题中的第

个词和句子中的第

个词的相关程度，被看作是一种注意力；

，

，

其中，

表示融入了句子注意力的问题编码，

表示融入了问题注意力的句子编码，softmax表示归一化函数；

；

：

,

表示；

步骤303具体包括以下步骤：

，其转化为一个集成向量

的过程可被如下描述：

;

,

,

其中，

,

,

和

是可训练的权重矩阵，

和

分别表示未归一化和归一化的权重向量；同样，对实体编码

和候选编码

应用一层自注意力机制，获得的向量分别用

，

来代表；

,

;

,

其中，

表示把变量在最后一个维度等分为head份，

表示拼接操作，

,

和

是可训练的权重矩阵，

,

,

和

表示计算过程的中间变量，由原始变量生成，并被消耗；

所述的带有门机制的前馈神经网络层把

和

,

,

,

其中，

,

和

是可训练的权重矩阵，用

表示最终的候选编码集，也即是候选节点的初始表示。

5.根据权利要求4所述的一种基于图推理模型的答案预测方法，其特征在于，步骤4中图的构建包括：建造的图被定义为：

，其中

代表图节点的集合，而

,

和

作为三种类型节点的初始表示，用

取代他们，也就是

，通过定义了如下这些类型的边：

6.根据权利要求5所述的一种基于图推理模型的答案预测方法，其特征在于，步骤4中所述的信息传递算法驱使信息在图上流动，通过多次的迭代运行，把所需的推理信息汇聚在最终用来预测答案的节点上，由于信息传递算法模拟的是，在问题导向下关联信息的传递，因此，其每运行一次，即可视为一次推理，而运行的次数则取决于预定义的推理次数，具体的，在第t步，节点表示的更新过程可由如下公式表述：