CN111782961A

CN111782961A - 一种面向机器阅读理解的答案推荐方法

Info

Publication number: CN111782961A
Application number: CN202010775911.7A
Authority: CN
Inventors: 赵翔; 霍立军; 徐浩; 谭真; 葛斌; 肖卫东; 黄魁华; 李硕豪
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-10-16
Anticipated expiration: 2040-08-05
Also published as: CN111782961B

Abstract

本发明公开了一种面向机器阅读理解的答案推荐方法，包括以下步骤：接受问题q和支持文档集T′；进行句子分割和语义编码，包括文本预处理、词编码和句子编码；根据编码的语义进行推断以构建多跳推理链，包括选择节点和建立跳边；通过挖掘多跳推理链的信息以对候选集进行排序，包括推理链信息的集成和答案概率分布的计算；根据答案概率分布结果，从候选集

中预测答案。本发明方法创新性的为机器阅读理解使用了基于句子的推理，在这个过程中，构造了多个逻辑链来连接与问题相关的句子；引入了句子级联，以处理基于上下文的有效共指的潜在问题。最后在流行的多跳机器阅读数据集上获得了具有竞争力的准确性结果。

Description

一种面向机器阅读理解的答案推荐方法

技术领域

本发明属于人工智能中的自然语言处理技术领域，涉及机器自动阅读理解方法，具体涉及一种面向机器阅读理解的答案推荐方法。

背景技术

机器阅读理解(MRC)是自然语言处理(NLP)领域的一个重要任务,其旨在让机器根据给定的问题和文章，抽取相关的信息和知识，从而得到答案。相对于自然语言处理中的命名实体识别(NER)，关系抽取等基础任务，MRC是一个更复杂，更高层的任务，其对语义的理解要求更高，抽取的文本信息更多。

近年来，为了机器阅读理解的深入发展，很多数据集被开发出来用于去验证机器阅读理解模型的效果，例如斯坦福大学提出的squad数据集。大多现有的数据集都是针对单文档阅读理解任务，即每个问题对应于一篇文章，解决问题需要的信息集中于一篇文章，不存在文章与文章之间的信息线索跳动。然而，最近一些新的数据集聚焦于多跳阅读理解任务，即一个问题对应于多篇文章的情况，比如WikiHop和MedHop()。多文档阅读理解任务要求阅读理解模型依据问题线索信息在多篇文章之间进行合理跳跃，找到足够的有用知识，最终推理得出答案。

多文档阅读理解相较于单文档阅读理解任务更具有挑战性，主要表现在三个方面。首先，对于每个问题，多文档阅读理解任务都提供了大量的支持文档，但只有一部分文档包含解决问题的信息，其余为干扰文档。大部分现有的阅读理解模型难以处理如此规模的文档，并且不具备抗干扰能力。其次，解决问题的信息分布在多篇文档之中，需要模型的有效推理，形成一个可靠的信息链。然而，大部分模型的推理能力较差，甚至不具备推理能力。最后，推理形成的信息链可能存在多条，需要被二次排序筛选，这给模型的带来了很大的不确定性。

发明内容

有鉴于此，本发明的目的在于提出一种面向机器阅读理解的答案推荐方法，所述方法提出了基于句子推理的递进式阅读理解模型，首先，从问题出发，找到问题中的主要实体，并在支持文档中找到包含该实体的句子，完成推理链初始构建；然后，设计了一个句子选择器用于句子与句子之间的推断，完成推理链的构建；对于已有的推理链，设计一个答案预测器令其使用推理链来找到答案。一个问题可能会存在多个可能的推理链，因此本发明重复这两个模块，对每个问题构建多条推理链。

基于上述目的，一种面向机器阅读理解的答案推荐方法，包括以下步骤：

步骤1，接受问题q和支持文档集T′，问题q以元组(I_e，r，？)的形式提供，其中I_e是左实体，？表示未知右实体，r表示I_e与未知右实体也就是答案之间的关系；

步骤2，进行句子分割和语义编码，包括文本预处理、词编码和句子编码；

步骤3，根据编码的语义进行推断以构建多跳推理链，包括选择节点和建立跳边；

步骤4，通过挖掘多跳推理链的信息以对候选集进行排序，包括推理链信息的集成和答案概率分布的计算；

步骤5，根据答案概率分布结果，从候选集

中预测未知右实体即答案。

具体地，步骤2中所述的预处理包括：使用TF-IDF算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名，截取前N个支持文档以获得新的支持文档集

所述的词编码，将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入，并将它们输入到一层高速路神经网络(Highway Network)中以获得最终的词表示，使用L′，R′和X′分别表示I_e，r和T的词嵌入，对于语义编码，把L′，R′和X′经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出，使用

分别作为I_e，r和T的语义编码，其中Q_I，Q_r，J分别为I_e，r和T的词级长度；每个候选都可以在支持文档集T中找到，在X中取出与c′_η相对应的词编码，并在词级别对其求平均，然后获得c_η∈R^v作为c′_η的语义编码；

所述的句子编码，包括：首先将文档t切成多个句子，以获得单个句子集

其中I是包含在t中的单个句子的数量，K是构成一个句子的单词数量，

是在X中相应单词的编码；然后，将文档中所有两个相邻的单个句子级联起来，以获得级联句子集

可以定义为：

其中||用于表示级联；接下来，联合D^o和D^b以完成t的句子划分并获得句子集D，也就是：

D＝D^o∪D^b,

其中∪指取并集；对所有支持文档采用相同的操作，并获得T的词级句子编码S，即：

S＝D₁∪D₂∪...∪D_N＝{s₁，...，s_I′}，

其中I′是T的单个句子和级联句子的总数，然后应用自我注意机制来实现句子的向量表示，并获得T的句子级编码E，用来将句子s_i转换成向量

的公式如下，K为句子的长度：

a_ik＝tanh(W₂tanh(W₁s_ik+b₁)+b₂)

其中W₁和W₂为权重参数，b₁和b₂为偏移参数。

具体地，步骤3中，使用分层记忆网络模型来构建句子的推理链，在选择节点阶段，模型抽取一个与网络记忆状态m最相关的句子作为当前跳的起始节点，在建立跳边阶段，模型更新m以准备跳到下一个节点，将这一阶段看做生成一个连接相邻节点的边；

在选择节点的过程中，在每跳h，模型会计算E中每个句子编码e_i和当前网络记忆状态m的双线性相似度，并获得节点选择分布P_sent，然后，选择句子s_i∈S作为当前跳的起始节点，其中i满足：

P_sent(i)＝max(P_sent)

在建立跳边的过程中，选择了h跳的起始节点后，模型会计算m^h和sⁱ中每个单词s_ik的双线性相似度并将其归一化以获得权重μ，使用μ来计算s_i中所有单词的加权平均值

然后将其输入到一个GRU单元中以更新m^h，之后，将这两个阶段合并为一个循环单元U，U可以通过更新m来连续选择节点，循环UH次，获得一条有H个节点的推理链S_chain＝{s₁，s₂，...，s_H}，其中每个句子s_h都由U从S中迭代选择，为了减少推理链生成的偶然性，重复句子选择器M次以生成的M条可能的推理链。

具体地，步骤4中所述推理链的集成包括：计算s_H中每个单词和推理链的前H-1跳以及问题之间的注意力σ，σ被用来计算s_H的加权平均

公式可以表示为：

横向拼接链S_chain的前H-1个节点以获得s_fore，即：

s_fore＝s₁||s₂||...||s_H-1,

并结合s_H中的单词以计算σ，采用具有注意机制的LSTM网络来计算信息向量δ^k，它集成了s_H前k-1个词和s_fore的信息，是一个信息高度丰富的向量，计算左实体，关系和δ^k的α相似度ε^k，即：

ε^k＝α(δ^k，I)+α(δ^k，r)

其中I和r分别是L和R的最后隐状态，而α定义为：

其中

代表逐元素乘法，W_α1和W_α2为系数，b为偏移量，然后，将整合了S_chain信息和问题的信息ε可用于计算注意力σ：

σ＝softmax(ε)。

所述的答案概率分布的计算，是在获得了高度集成的推理链和问题信息的向量x之后，使用x来计算候选c_i作为答案的概率分布P_answer，为所有推理链计算P_answer，并获得答案概率分布集

汇总所有推理链的结果，可以得到候选c_η的分数为：

具体地，在选择节点阶段，使用左实体作为推理链的起始节点，模型的网络记忆状态m用L的最后隐状态进行初始化，并用一个门控循环单元(GRU)对进行更新。

与现有技术相比，本发明方法以下优点和有益效果：创新性的为机器阅读理解使用了基于句子的推理，在这个过程中，本发明方法构造了多个逻辑推理链来连接与问题相关的句子；引入了句子级联，以处理基于上下文的有效共指的潜在问题。由此预测的答案更接近真实的答案。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例的整体模型结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

当人类面对一个多文档阅读理解问题时，他首先会观察问题，找到其中的关键词。然后，他会在支持文档里面找到跟这个关键词相关的句子，并读懂该句子的含义。接下来，他根据当前句子的语义，在支持文档中找到下一个符合逻辑推理的句子，从而完成一跳，最终在支持文档中抽取出来的所有句子构成一个推理链。受到人类这一过程的启发，实施本发明实施例，并进行实验。

在多跳机器阅读理解MRC任务中，通常会给定一个问题q和一个支持文档集T′。特别地，问题q以元组(I_e，r，？)的形式提供，其中I_e是左实体，而r表示I_e与未知右实体也就是答案之间的关系。另外，还存在一个包含正确答案的候选集

任务的目标是从C′中预测未知的右实体。

在接下来的内容中，阐述了本发明提出的模型的细节，该模型首先执行句子分割和语义编码，然后根据编码的语义进行推断以构建多跳链，最后通过挖掘多跳推理链的信息以对候选进行排序从而找到答案。

如图1所示，一种面向机器阅读理解的答案推荐方法，包括以下步骤：

步骤4，通过挖掘多跳推理链的信息以对候选集进行排序从而找到答案，包括推理链信息的集成和答案概率分布的计算；

步骤5，根据答案概率分布结果，从候选集

中预测未知右实体即答案。

具体地，步骤2中所述的预处理包括：使用TF-IDF(term frequency–inversedocument frequency)算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名，截取前N个支持文档以获得新的支持文档集

词编码的目的是将问题和支持文档表征为可以输入到神经网络的向量。在本实施例中首先过滤文档，以减少干扰文档的数量和模型占用的计算资源。

所述的词编码，将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入，并将它们输入到一层高速路神经网络Highway Network中以获得最终的词表示，使用L′，R′和X′分别表示I_e，r和T的词嵌入，对于语义编码，把L′，R′和X′经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出，使用

句子编码主要是将每个文档分割为多个句子，然后将每个句子都转换为一个向量。

可以定义为：

D＝D^o∪D^b,

S＝D₁∪D₂∪...∪D_N＝{s₁，...，s_I′}，

的公式如下，K为句子的长度：

a_ik＝tanh(W₂tanh(W₁s_ik+b₁)+b₂)

其中W₁和W₂为权重，b₁和b₂为偏移。

在本实施例中，使用一个分层记忆网络来构建基于句子的推理链。

在选择节点的过程中，在每跳h，模型会计算E中每个句子编码e_i和当前网络记忆状态m的双线性相似度，并获得节点选择分布P_sent，这个过程可以被描述为：

p_i＝e_i ^TW_Pm^h

P_sent＝softmax(p)

其中W_p是可训练的参数矩阵。然后，选择句子s_i∈S作为当前跳的起始节点，其中i满足：

P_sent(i)＝max(P_sent)

在建立跳边的过程中，选择了h跳的起始节点后，模型会计算m^h和s_i中每个单词s_ik的双线性相似度并将其归一化以获得权重μ，即：

v_k＝s_ik ^TW_mm^h,

μ＝softmax(v).

其中W_m是可训练的参数矩阵。使用μ来计算s_i中所有单词的加权平均值

然后将其输入到一个GRU单元中以更新m^h，这可以描述为：

之后，将这两个阶段合并为一个循环单元U，即：

(s_h+1，m^h+1)＝U(mh).

U可以通过更新m来连续选择节点，循环UH次，获得一条有H个节点的推理链S_chain＝{s₁，s₂，...，s_H}，其中每个句子s_h都由U从S中迭代选择，为了减少推理链生成的偶然性，重复句子选择器M次以生成的M条可能的推理链。

模型主要根据句子选择器中获得的H跳推理链预测每个候选作为答案的概率。由于每条链都可能是一个实体到另一个实体的逻辑推理路径，因此模型还将引入问题作为辅助证据，以选择满足问题要求的答案。答案预测器由两部分组成：推理链信息的集成和答案概率分布的计算。

具体地，由于预测答案存在于推理链的最后一跳s_H中，步骤4中所述推理链的集成包括：计算s_H中每个单词和推理链的前H-1跳以及问题之间的注意力σ，σ被用来计算s_H的加权平均

公式可以表示为：

横向拼接链s_chain的前H-1个节点以获得s_fore，即：

s_fore＝s₁||s₂||...||s_H-1,

并结合s_H中的单词以计算σ，采用具有注意机制的LSTM网络来计算信息向量δ^k，它集成了s_H前k-1个词和s_fore的信息，是一个信息高度丰富的向量，公式可被描述为：

c^k＝softmax(a^k)

其中v^k是LSTM第k步的隐藏状态，W_a、W_b、b均是可训练的参数。考虑到问题对σ的影响，计算了左实体，关系和δ^k的α相似度ε^k，即：

ε^k＝α(δ^k，I)+α(δ^k，r)

其中I和r分别是L和R的最后隐状态，而α可以定义为：

其中

代表逐元素乘法，然后，将整合了s_chain信息和问题的信息ε可用于计算注意力σ：

σ＝softmax(ε)

所述的答案概率分布的计算，是在获得了高度集成的推理链和问题信息的向量x之后，使用x来计算候选c_i作为答案的概率分布P_answer，即：

P_answer＝softmax(θ).

其中W_θ1、W_θ2、b_θ1、b_θ2均是可训练的参数。为所有推理链计算P_answer，并获得答案概率分布集

汇总所有推理链的结果，可以得到候选c_η的分数为：

具体地，在选择节点阶段，使用左实体作为推理链的起始节点，因此模型的网络记忆状态m用L的最后隐状态进行初始化，并用一个门控循环单元(GRU)对进行更新。

本实施例的实验中使用WikiHop和MedHop数据集来评估本发明方法。WikiHop是一个庞大的多跳MRC数据集，提供约43.8k样本用于训练集，而5.1k样本用于开发集。每个样本平均包含13.7个支持文档，这些文档可以分为大约50个句子，并且文档是从Wikipedia收集的。每个样本的问题包含一个实体和一个关系。算上提供在候选集中的未知答案，它们构成了WikiData知识库的三元组。

MedHop是较小的数据集，由用于训练集的1.6K样本和用于开发集的342个样本组成。它主要关注分子生物学领域，其每个样本包括一个问题，一个文档集和一个候选集，其结构与WikiHop的样本相同。区别在于每个文档集平均包含9.6个支持文档，并且可以分为大约40个句子。

在实验中，使用NLTK按照不同的颗粒度将支持文档集分为词块和句子块，并将候选集和问题分为词块。

使用300维的Glove预训练词嵌入表示初始词块。所有LSTM-RNN的隐藏单元数为100。对于每个可训练层，我们使用dropout概率为0.25。在每个样本中使用TF-IDF算法过滤后，我们选择前10个文档，这些文档平均包含30个单句和20个级联语句。

使用交叉熵损失来衡量模型训练的水平，并使用Adam优化器来训练模型并将学习率设置为0.001。使用四个Nvidia 1080Ti GPU训练20k步。在每个GPU上，批处理大小固定为4，总批处理大小为20。将准确率用作衡量多跳MRC任务的指标。

表1给出了机器阅读理解在WikiHop的验证集和测试集上的结果，并将其与其他的原始论文中报告的结果进行了比较。

表1：WikiHop验证集和测试集的准确率

可以观察到，在表中所有模型的开发集上，本发明方法达到了68.3的最高准确性。与以前的最佳结果(准确度为67.2)相比，它在验证集上有1.1的准确率提升。值得一提的是，本发明方法没有使用诸如ELMO和Bert之类的预训练语言模型，但这些模型已经被证明可以为MRC模型带来可观的增益。因此，公平地讲，本发明方法的实验结果与使用了预训练语言模型的结果不具有可比性。

表2：MedHop测试集的准确率

模型方法	准确率(％)
		Max-mention<sup>*</sup>	9.5
Document-cue<sup>*</sup>	44.9
		BiDAF	47.8
Majority-candidate-per-query-type<sup>*</sup>	58.4
		EPAr	60.3
SMR(ours)	62.9

表2中还显示了MedHop的结果。在MedHop测试集上的效果有着显着改进。此外，本发明方法的模型更具解释性，因为它生成的句子级推理链符合人类推理的逻辑。

上述实施例为本发明方法的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向机器阅读理解的答案推荐方法，其特征在于，包括以下步骤：

步骤1，接受问题q和支持文档集T′，问题q以元组(l_e，r，？)的形式提供，其中I_e是左实体，？表示未知右实体，r表示I_e与未知右实体也就是答案之间的关系；

步骤5，根据答案概率分布结果，从候选集

中预测未知右实体即答案；

步骤2中所述的预处理包括：使用TF-IDF算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名，截取前N个支持文档以获得新的支持文档集

所述的词编码，将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入，并将它们输入到一层高速路神经网络中以获得最终的词表示，使用L′，R′和X′分别表示I_e，r和T的词嵌入，对于语义编码，把L′，R′和X′经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出，使用

分别作为I_e，r和T的语义编码，其中Q_l，Q_r，J分别为I_e，r和T的词级长度；每个候选都可以在支持文档集T中找到，在X中取出与c′_η相对应的词编码，并在词级别对其求平均，然后获得c_η∈R^v作为c′_η的语义编码；

其中，l是包含在t中的单个句子的数量，K是构成一个句子的单词数量，

是在×中相应单词的编码；然后，将文档中所有两个相邻的单个句子级联起来，以获得级联句子集

可以定义为：

其中II用于表示级联；接下来，联合D^o和D^b以完成t的句子划分并获得句子集D，也就是：

D＝D^o∪D^b，

s＝D₁∪D₂∪...∪D_N＝{s₁，...，s_l′}，

其中l′是T的单个句子和级联句子的总数，然后应用自我注意机制来实现句子的向量表示，并获得T的句子级编码E，用来将句子s_i转换成向量

的公式如下，K为句子的长度：

a_ik＝tanh(W₂tanh(w₁s_ik+b₁)+b₂)

其中W₁和W₂为权重参数，b₁和b₂为偏移参数。

2.根据权利要求1所述的答案推荐方法，其特征在于，在步骤3中，使用分层记忆网络模型来构建句子的推理链，在选择节点阶段，模型抽取一个与网络记忆状态m最相关的句子作为当前跳的起始节点，在建立跳边阶段，模型更新m以准备跳到下一个节点，将这一阶段看做生成一个连接相邻节点的边；

P_sent(i)＝max(P_sent)

在建立跳边的过程中，选择了h跳的起始节点后，模型会计算m^h和s_i中每个单词s_ik的双线性相似度并将其归一化以获得权重μ，使用μ来计算s_i中所有单词的加权平均值

3.根据权利要求2所述的答案推荐方法，其特征在于，步骤4中所述推理链的集成包括：计算s_H中每个单词和推理链的前H-1跳以及问题之间的注意力σ，σ被用来计算s_H的加权平均

公式可以表示为：

横向拼接链s_chain的前H-1个节点以获得s_fore，即：

s_fore＝s₁||s₂||...||s_H-1

ε^k＝α(δ^k，l)+α(δ^k，r)

其中l和r分别是L和R的最后隐状态，而α定义为：

其中

σ＝softmax(ε)

汇总所有推理链的结果，可以得到候选c_η的分数为：

4.根据权利要求2或3所述的答案推荐方法，其特征在于，在选择节点阶段，使用左实体作为推理链的起始节点，模型的网络记忆状态m用L的最后隐状态进行初始化，并用一个门控循环单元对进行更新。