CN113254575B

CN113254575B - 一种基于多步证据推理的机器阅读理解方法与系统

Info

Publication number: CN113254575B
Application number: CN202110441185.XA
Authority: CN
Inventors: 胡玥; 彭伟
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-07-22
Anticipated expiration: 2041-04-23
Also published as: CN113254575A

Abstract

本发明公开了一种基于多步证据推理的机器阅读理解方法与系统。本方法的步骤包括：1)将文章P和问题Q输入全局编码器，生成输入字符向量表示U；2)对U进行编码得到输入表示g并输入多步证据推理机；3)多步证据推理机根据g进行推理得到与问题Q相关的的开始证据向量和结束证据向量；4)根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量s^T+1、结束证据向量e^T+1和问题的表达向量q_cls计算问题Q的分值score，当分值score高于设定阈值θ，则判定该问题Q不可回答；否则判定该问题Q存在答案，并抽取从文章P中获取答案的开始位置start‑position和结束位置end‑position。

Description

一种基于多步证据推理的机器阅读理解方法与系统

技术领域

本发明属于自然语言处理领域，特别涉及一种多步证据推理的机器阅读理解方法和系统。

背景技术

近年来，机器阅读理解(MRC)在最近的自然语言处理领域研究中获得了蓬勃发展，其各种神经网络模型在某些基准上迅速接近了人类水平，其目的是鼓励机器能够理解给定段落的内容并回答问题。抽取式机器阅读理解是其中的一个分支，它主要是从文章当中抽取一个连续的片段，作为文本最终的答案，然而这种任务存在一个巨大的假设，即每一个问题都能够在文章中找到答案，这样的话，模型只需要去匹配与问题最相似的段落即可，并没有真正的理解问题是否被文本所蕴含。如何让模型自适应地准确地判定问题是可回答还是不可回答是一个巨大的挑战。

传统的抽取式机器阅读理解方法旨在关注问题和文章的语义，从文章当中去匹配一个相似的段落，将其结果作为最终的答案。具体来说通常会使用一个长短时记忆网络(LSTM,Long Short-Term Memory)对问题的语义进行建模，得到问题的表示。类似的本发明也会建模文章的语义信息。得到两者的语义表达后，注意力机制(Attention Mechanism)会被应用，目的是为了融合两者的交互信息，从而获得感知问题的文章表达。匹配LSTM网络(Match-LSTM)提出了一个端到端的神经架构，该架构是基于匹配网络的方法进行文本蕴含判断。同时提出了一个指针网络，它是一个序列到序列的模型，为了从输入的文本去构建输出词的概率分布从而判断答案的边界。该模型只考虑了从问题到文章方向的注意流，忽略了从文章指向问题方向的注意力流。为了解决上述问题，双向注意力流模型(Bi-Directional Attention Flow Network)提出了一个多阶段层级结构的过程，能够捕获和表达不同粒度的上下文信息，同时使用了一个双向的注意力流机制，增强了感知问题的文章语义信息。大量后续的抽取机器阅读理解的方法都是在这个模型的基础上去进行的改进和迭代，以获取更加准确的效果。比如注意力过度阅读器(Attention-over-attentionReader)以及基于门控机制的自注意力网络(Gated Self-Matching Networks)等等。

为了使机器在给定段落没有答案时，输出不可回答的预测，先前的工作设计了不同的方法来达到此目的,包括二分类器，关系网络和验证系统等等。一个简单而有效的多段落网络(Simple and Effective Multi-Paragraph Network)除了对每一个位置计算概率分布之外，还学习了额外的不可回答概率。随机应答网络(Stochastic Answer Networks)将重点放在一个全连接层上作为二分类器判断问题是否可回答。尽管上述方法易于实现，但它们并未考虑问题为何无法回答，而是直接做了一个二分类，不知其所以然；同时准确性相对较低。关系网络(Relational Network)传递语义对象，该语义对象为无法回答的问题生成关系得分，但是其未显式地建模问题和段落之间的交互关系。语法指导的神经网络(SG-Net)提出使用句法来指导段落和问题的文本建模，考虑将显式的句法约束融入注意机制中，以获得更好的语言动机词表示形式，但是它需要构造给定段落和问题的依存关系分析树，较为繁琐。阅读+验证网络(Read+Verify Network)提出了一种验证机制，先用抽取式机器阅读理解的方法选择一个候选片段，然后验证候选答案是否能被其周围的句子和以及问题所支撑。但是，阅读+验证的系统是一种流水线方法，会导致错误累积，当选出的片段是错误的，再进行验证就会有错误级联的现象；同时可能会发生根据错误答案进行验证的情况。如何设计有效和具有可解释性的系统是该专利的主要重点。

因此，随着机器阅读理解任务的发展，传统抽取式的机器阅读理解方法不再适用于解决不可回答任务。基于二分类器的方法虽然易于实现，但是可解释性差，同时对不可回答问题预测的准确率和召回率也较低。基于关系网络或者可验证的方法，他们虽然在准确率上有一定提高，但是并未显示建模问题和文章之间的关系，同时有可能造成错误级联等问题。

发明内容

针对现有技术中存在的技术问题，本发明目的在于提供一种针对不可回答问题的多步证据推理的机器阅读理解方法和系统，该系统通过全局编码器和多步推理模块显式提炼关键线索，提高模型的可解释性，同时通过答案探测器自适应地选择抽取一个答案片段或者输出一个不可回答问题的预测。

本发明的技术方案为：

一种基于多步证据推理的机器阅读理解方法，其步骤包括：

1)将文章P和问题Q输入全局编码器；全局编码器包含一个预训练语言模型和一个全局编码模块；所述预训练语言模型根据输入信息生成输入字符向量表示U；所述预训练语言模型对问题Q中的字符进行编码得到向量表示

2)所述全局编码模块使用自注意力机制对向量表示U进行编码，得到上下文感知的全局上的输入表示g并输入多步证据推理机；其中，g_i为第i个字符的上下文感知的全局上的输入表示；

3)多步证据推理机根据输入表示g进行推理得到与问题Q相关的的开始证据向量和结束证据向量；其中所述多步证据推理机包含顺序执行的多个推理块，每一推理块对应一推理步，前一推理块的输出作为当前推理块的输入，s⁰为初始化的起始证据向量，e⁰为初始化的结束证据向量；第j个推理块的推理过程为：31)将g_i和第j-1推理步所得的起始证据向量s^j进行拼接得到第j推理步下文章P中第i个字符的向量表示

32)根据q_cls和

计算起始注意力

然后根据公式

对

进行加权求和得到第j+1推理步的起始证据向量s^j+1并发送给第j+1推理块；33)将起始证据向量s^j+1、g_i和第j-1推理步所得的结束证据向量e^j进行拼接得到向量表示

34)根据q_cls和

计算结束注意力

然后根据公式

对

进行加权求和得到第j+1推理步的结束证据向量e^j+1并发送给第j+1推理块；

4)答案探测器根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量s^T+1、结束证据向量e^T+1和问题的表达向量q_cls计算问题Q的分值score，当分值score高于设定阈值θ，则判定该问题Q不可回答；否则判定该问题Q存在答案，并抽取从文章P中获取答案的开始位置start-position和结束位置end-position；其中，start-position＝argmax(α^T)，end-position＝argmax(β^T)，

T为多步证据推理机的总步数。

进一步的，设置一分类嵌入标识符[CLS]，并用设定标识符[SEP]分隔文章P中的字符X^P和问题Q中的字符X^Q；其中X^P用于表示文章P中所有的字符，X^Q表示问题Q中的所有字符；全局编码器的输入信息表示为[CLS,X^Q，SEP，X^P，SEP]。

进一步的，向量表示

U的总长度为l，n是文章的长度，m是问题的长度，u_cls表示标识符[CLS]的向量表示，

表示文章P中第i个字符的向量表示，

表示问题Q中第i个字符的向量表示，u_sep是标识符[SEP]的向量表示。

进一步的，

为问题Q中第m个字符的向量表示，q_cls为问题的表达向量，q_sep为标识符[SEP]对应的向量表示。

进一步的，分值score＝σ(W_c[q_cls；s^j；e^j])；其中σ表示sigmoid激活函数，W_c是推理块的可训练参数。

进一步的，

一种基于多步证据推理的机器阅读理解系统，其特征在于，包括全局编码器、多步证据推理机和答案探测器；其中

全局编码器，包含一个预训练语言模型和一个全局编码模块；所述预训练语言模型用于根据输入的文章P和问题Q生成输入字符向量表示U；所述预训练语言模型对问题Q中的字符进行编码得到向量表示

多步证据推理机，用于根据输入表示g进行推理得到与问题Q相关的的开始证据向量和结束证据向量；其中所述多步证据推理机包含顺序执行的多个推理块，每一推理块对应一推理步，前一推理块的输出作为当前推理块的输入，s⁰为初始化的起始证据向量，e⁰为初始化的结束证据向量；第j个推理块的推理过程为：31)将g_i和第j-1推理步所得的起始证据向量s^j进行拼接得到第j推理步下文章P中第i个字符的向量表示

32)根据q_cls和

计算起始注意力

然后根据公式

对

34)根据q_cls和

计算结束注意力

然后根据公式

对

答案探测器，用于根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量s^T+1、结束证据向量e^T+1和问题的表达向量q_cls计算问题Q的分值score，当分值score高于设定阈值θ，则判定该问题Q不可回答；否则判定该问题Q存在答案，并抽取从文章P中获取答案的开始位置start-position和结束位置end-position；其中，start-position＝argmax(α^T)，end-position＝argmax(β^T)，

T为多步证据推理机的总步数。

与现有技术相比，本发明的积极效果为：

原始基于二分类的机器阅读理解方法，虽然实现较为简单，但是没有很好地解释为什么问题不可回答，同时识别的准确率也较低。考虑关系网络或者验证的方法也不能很好地挖掘问题和文章之间的关键线索，从而导致精度不足。本发明提出的技术能够自适应地对问题进行判断，同时从文中挖掘相关线索，该线索可以用来进一步检索相关的外部知识来回答不可回答的问题，这将是对未来很有意义的一项研究。

本发明能够自适应地对问题进行判断，从而决定输出不可回答预测还是抽取的答案片段。本发明实现将全局编码器和多步证据推理模块相结合的方法，改进当前机器阅读理解模型的不足，并且提高了模型预测的准确率。

附图说明

图1是本发明系统结构图；

图2是全局编码器示意图；

图3是多步证据推理机示意图；

图4是系统预测流程示意图。

具体实施方式

下面结合附图对本发明的优选实例进行详细阐述。

本发明的总体框架如图1所示，包括全局解码器、多步证据推理机和答案探测器。

1.全局编码器

图2是全局编码器示意图。全局编码器包含一个预训练语言模型和一个全局编码模块，以更好地理解语义。

类似目前预训练语言模型的处理方式，本发明添加一分类嵌入标识符[CLS]，并用设定标记[SEP]分隔文章X^P和问题X^Q，其中X^P用于表示文章中所有的字符，同理X^Q表示的是问题中的所有字符。因此本发明的输入可以表示为[CLS,X^Q，SEP，X^P，SEP]。经过预训练语言模型BERT得到输入字符向量表示

总长度为l＝(n+m+3)，其中n和m分别是文章和问题的长度，“3”表示三个特殊的标识符，u_cls表示的是[CLS]标识符经过预训练语言模型BERT得到的向量表示，

表示的是文章P中第i个字符的表示，

表示的是问题Q中的第i个字符的表示，而u_sep则是[SEP]标识符对应的表示。为了重新阅读问题以找到与问题相关的线索，本发明对问题中的字符进行单独编码得到问题中的每个字符的向量表示

并获得单纯问题向量表示q_cls，即没有串联文章输入到预训练语言模型中，而是单独对问题中的字符进行编码，q_cls表示选择第一个字符[CLS]对应的表示作为问题的表达。q_sep则是[SEP]特殊标识符对应的向量表示，是一个分割符号，本发明不对其进行使用。公式如下：

U＝BERT(CLS，X^Q，SEP，X^P，SEP)

u_cls＝u₀，q_cls＝q₀

对于全局编码模块，本发明考虑使用自注意力机制(Self-attention)对U进行编码，得到最终上下文感知的全局上的输入表示g：

g_i＝Self-attention(u_i)

2.多步证据推理机

在现实世界中，当人类进行阅读理解时，往往会反复寻找文章和问题之间的交互关系。即人类通常从阅读问题出发，并寻找与问题相关的信息，获得大致范围的答案。然后，人们通过重读该问题并寻找更多的关键线索，来确定一个问题是否无法回答或以较高的信任度来缩小答案的范围。模仿人类，本发明的系统通过多个推理步骤，使线索从粗粒度的线索变为细粒度的线索。具体而言，多步证据推理机的示意图如图3所示，其包含一系列的推理块(图中只画出了三个推理步)，这三个推理步有时间上的先后关系，因此本发明用T＝1,2,3进行表示。其中，每一个推理步又包含两个子模块，分别是起始证据向量推理子模块和结束证据向量推理子模块，两个子模块分别建模线索的开始位置和结束位置，即一个推理块能够抽取出关键线索的片段。经过多步推理，能够从粗粒度的信息捕获到细粒度的线索信息。本发明具体以T＝1时刻进行介绍，①～⑥表示操作的流程，步骤如下，注意s⁰和e⁰我们通过随机初始化获得起始向量：

1)经过上一时刻的推理块，将其输出作为当前时刻推理块的输入。本发明把g_i和s¹向量进行拼接，目的是为了用起始证据向量s¹增强g_i的表示，其中RELU表示激活函数，W_s是当前推理块可训练的参数。

其中，

表示的是经过起始证据向量s¹增强之后的文章的字符表示，即在T＝1推理步下第i个字符的表示为

2)然后使用归一化指数函数Softmax计算起始注意力

目的是为了3)中对

进行加权求和得到下一时刻的起始证据向量s²。

其中

表示在T＝1推理步下第i个字符的起始注意力。

3)对2)中计算的起始注意力

和1)计算的

进行加权求和，目的是为了更新下一时刻的起始证据向量s²，获得细粒度的信息表示。

4)计算第二个子模块的结束证据向量。同样地，本发明把g_i和3)中计算得到的s²向量以及上一个推理步计算的e¹向量进行拼接，增强g_i的表示,其中RELU表示激活函数，W_e是该模块的可训练参数。

其中

表示的是经过起始证据向量s²和结束证据向量e¹增强之后的文章的字符表示，即T＝1推理步下第i个字符的向量表示。

5)然后计算结束注意力

目的是为了6)步中对

进行加权求和得到下一时刻的结束证据向量e²。

其中

表示在T＝1推理步下第i个字符的结束注意力。

6)对5)中计算的结束注意力

和4)计算的

进行加权求和，目的是为了更新下一时刻即T＝2的结束证据向量e²，获得细粒度的信息表示。

至此，本发明就计算完了一步的推理过程，然后以计算出来的结果作为下一个推理步的输入，循环反复迭代，直到得到最终的结束证据向量，该结束证据向量经过多步的推理，已经从粗粒度的信息捕获到细粒度的线索信息。本发明通过实验设置确定该推理步数的大小，最终设置为2效果最好。通过该线索信息，有据可依，增加模型的可解释性，同时实验效果也说明通过多步证据推理模块，本发明的模型取得了最好的结果。

3.答案探测器

该模块包含两部分的功能，第1部分需要去判断问题是否可回答，第2部分是当问题可回答时，本发明需要去抽取一个连续的片段，作为本发明最终的答案。

1)本发明将多步证据推理机计算得到的开始证据向量和结束证据向量作为判断不可回答问题的关键依据，同时将问题的表达向量q_cls融入计算。其中score表示不可回答问题的打分，当分值高于一定阈值θ，本发明认为该问题是不可回答；否则认为问题存在答案。σ表示sigmoid激活函数，W_c是该模块的可训练参数，j表示第j步的推理步。

score＝σ(W_c[q_cls；s^j；e^j])

本发明用训练集对模型进行训练，优化下列交叉熵损失。N表示训练集样例个数，

表示样本的真实标签，不可回答标签为1，反之为0。

2)接下来本发明根据在证据推理机中的步骤2)和5)，用最后一时刻的推理步中的概率分布α和β作为最终的概率分布，假设推理步设置为T＝2，即α²和β²。在预测过程中，本发明只需要对其求最大值，就可以当作抽取的连续片段的开始位置start-position和结束位置end-position。

start-position＝argmax(α²)

end-position＝argmax(β²)

其中

l表示输入的长度，2表示T＝2最后一时刻推理步。

同样的，本发明用训练集对模型进行训练，优化下列负对数似然损失。

最终本发明的系统预测流程，如图4所示。

实验结果

主要结果显示在表1中。提出的模型在数据集SQuAD 2.0上始终优于以前的方法和基线模型。在SQuAD 2.0中，基于ALBERT的模型在EM上获得2.20％的改善，而在F1上获得1.40％的改善，并且在ALBERT-xxlarge模型上得到了改善。该结果说明了以多步推理的方式捕获段落和问题之间关键证据有助于模型达到更好的效果，并且增强了模型的可解释性。

表1：SQuAD 2.0开发集中的完全匹配(EM)和F1分数(％)。

评测指标考虑使用EM(Exact Match)绝对匹配值和F1值，EM衡量了预测答案是否与标准答案完全一致，F1值衡量了预测答案与标准答案的相似度。

W_match＝W_pred∩W_ref

其中，预测答案和标准答案的文本字符串分别为S_pred和S_ref；两个字符串中包含单词的集合分别为W_pred和W_ref；|W|表示集合W当中的单词个数。

此外，为了验证本发明预测不可回答问题的有效性，本发明计算了分类结果的准确率，召回率和F1值。可以从表格中看到召回率有了很大的提升，说明本发明的模型能够找到更多的不可回答问题。即使准确率有略微的下降，但是总体的F1值得到了2.18％的提高。

表2不可回答问题判断的准确率，召回率和F1值

模型	P(％)	R(％)	F1(％)
				基线模型	88.44％	77.12％	82.39％
本发明	87.84％	81.55％	84.57％

以上所述仅是本发明的一种优选方案，应当指出，对于本技术领域的普通人员来说，在不脱离本发明的原理前提下，还可以做出若干修饰和润色，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于多步证据推理的机器阅读理解方法，其步骤包括：

3)多步证据推理机根据输入表示g进行推理得到与问题Q相关的开始证据向量和结束证据向量；其中所述多步证据推理机包含顺序执行的多个推理块，每一推理块对应一推理步，前一推理块的输出作为当前推理块的输入，s⁰为初始化的起始证据向量，e⁰为初始化的结束证据向量；第j个推理块的推理过程为：31)将g_i和第j-1推理步所得的起始证据向量s^j进行拼接得到第j推理步下文章P中第i个字符的向量表示

32)根据q_cls和

计算起始注意力

然后根据公式

对

34)根据q_cls和

计算结束注意力

然后根据公式

对

T为多步证据推理机的总步数。

2.如权利要求1所述的方法，其特征在于，设置一分类嵌入标识符[CLS]，并用设定标识符[SEP]分隔文章P中的字符X^P和问题Q中的字符X^Q；其中X^P用于表示文章P中所有的字符，X^Q表示问题Q中的所有字符；全局编码器的输入信息表示为[CLS，X^Q，SEP，X^P，SEP]。

3.如权利要求2所述的方法，其特征在于，向量表示

表示文章P中第i个字符的向量表示，

4.如权利要求2所述的方法，其特征在于，

5.如权利要求3所述的方法，其特征在于，分值score＝σ(W_c[q_cls；s^j；e^j])；其中σ表示sigmoid激活函数，W_c是推理块的可训练参数。

6.如权利要求3所述的方法，其特征在于，

7.一种基于多步证据推理的机器阅读理解系统，其特征在于，包括全局编码器、多步证据推理机和答案探测器；其中

多步证据推理机，用于根据输入表示g进行推理得到与问题Q相关的开始证据向量和结束证据向量；其中所述多步证据推理机包含顺序执行的多个推理块，每一推理块对应一推理步，前一推理块的输出作为当前推理块的输入，s⁰为初始化的起始证据向量，e⁰为初始化的结束证据向量；第j个推理块的推理过程为：31)将g_i和第j-1推理步所得的起始证据向量s^j进行拼接得到第j推理步下文章P中第i个字符的向量表示

32)根据q_cls和

计算起始注意力

然后根据公式

对

34)根据q_cls和

计算结束注意力

然后根据公式

对

答案探测器，用于根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量s^T ⁺¹、结束证据向量e^T+1和问题的表达向量q_cls计算问题Q的分值score，当分值score高于设定阈值θ，则判定该问题Q不可回答；否则判定该问题Q存在答案，并抽取从文章P中获取答案的开始位置start-position和结束位置end-position；其中，start-position＝argmax(α^T)，end-position＝argmax(β^T)，

T为多步证据推理机的总步数。

8.如权利要求7所述的系统，其特征在于，还包括一预处理模块，用于根据设置的分类嵌入标识符[CLS]、定标识符[SEP]对输入的文章P和问题Q进行分隔；将全局编码器的输入信息表示为[CLS，X^Q，SEP，X^P，SEP]；其中X^P用于表示文章P中所有的字符，X^Q表示问题Q中的所有字符。

9.如权利要求8所述的系统，其特征在于，向量表示

表示文章P中第i个字符的向量表示，

表示问题Q中第i个字符的向量表示，u_sep是标识符[SEP]的向量表示；

为问题Q中第m个字符的向量表示，q_sep为标识符[SEP]对应的向量表示。

10.如权利要求7所述的系统，其特征在于，

分值score＝σ(W_c[q_cls；s^j；e^j])；其中σ表示sigmoid激活函数，W_c是推理块的可训练参数。