CN112651225A

CN112651225A - 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法

Info

Publication number: CN112651225A
Application number: CN202011590554.3A
Authority: CN
Inventors: 颜洪; 黄青松; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13
Anticipated expiration: 2040-12-29
Also published as: CN112651225B

Abstract

本发明涉及一种基于多阶段最大化注意力的多项选择机器阅读理解方法，属于计算机自然语言处理技术领域。本发明包括步骤：首先通过预训练语言模型完成句子、问题与答案选项的初步编码，同时根据多阶段最大化注意力抓住词、句子之间的重要关系；再根据问题与答案选项利用双线性函数计算问题与句子、答案选项与句子之间的匹配分数，以确定证据句子；最后通过利用层级注意力机制融合证据句子、问题与答案选项得到最终答案。该方法有效的抓住了词层级与句子层级的重要关系，其准确度比传统的多选阅读理解方法提高了约4％。

Description

一种基于多阶段最大化注意力的多项选择机器阅读理解的方法

技术领域

本发明涉及一种基于多阶段最大化注意力的多项选择机器阅读理解的方法，属于计算机自然语言处理技术领域。

背景技术

机器阅读理解(MRC)的目的是教机器阅读和回答问题，这是自然语言理解(NLU)明确而长期的目标。对于MRC的任务，根据其回答风格，它可以大致分为两种类型：生成型MRC和选择性MRC。生成式阅读理解要求模型根据段落和问题生成答案，例如SQuAD和BoolQ数据集。与生成任务不同，选择性阅读理解为模型提供几个候选答案以选择最佳答案，例如RACE和Dream数据集。随着这些数据集的开发和应用，机器阅读理解任务取得了重大进展。机器阅读理解的研究引起了对各种基准数据集的发布的极大兴趣。至今已经为这些数据集提出了许多基于神经的MRC模型，其中最成功的模型倾向于利用协同注意或双向注意力机制来构建文档和问题的相互依赖表示。但是，它们在整个文档中的注意力机制非常嘈杂，冗余，并且包含许多无关紧要的编码依赖性。因此，最近的一些努力集中在选择句子来回答问题。由于缺乏用于监督的证据标签，我们面临着为提取机器阅读理解任务的证据句子而面临的重大挑战。最近，证据句子提取器主要通过以下三种方法解决：1)基于规则的方法：使用手工制定的规则和外部资源来生成或完善距离标签。2)基于强化学习的方法：采用强化学习(RL)来确定证据句子的标签。3)基于神经的方法：使用基于神经的模型来计算问题和句子之间的相似度。但是，大多数以前的工作仅集中于抓住问题和候选句子之间的语义关系，这直接为任务的目标服务。这种方法不仅忽略了词之间的关系，而且忽略了句子之间的关系，这在提取证据句子以推断答案时也很有用。此外，当文档中隐含地指出问题及其正确答案选项之间的关系时，甚至人类有时也很难找到证据句子。先前的工作仅对问题与每个句子之间的关系建模，但是忽略了参考文档中有关词与句子之间关系的大量信息，这对于提取证据句子以推断答案也很有用。

发明内容

本发明提供了一种基于多阶段最大化注意力的多项选择机器阅读理解的方法，相比传统的机器阅读理解方法，充分的考虑到了词语句子间的重要关系，能更加全面和准确的抽取证据句子，预测答案。

本发明的技术方案是：一种基于多阶段最大化注意力的多项选择机器阅读理解的方法，所述方法的具体步骤如下：

Step1、采集文章、问题与答案选项作为实验数据，其次对语料进行预处理，并利用预训练语言模型作为内容编码器生成内容词向量、问题词向量与答案选项词向量；

Step2、抓住词层级与句子层级的关系：经Step1预处理操作之后，分别通过利用词层级与句子层级的多阶段注意力抓住词与句子之间重要关系，得到内容依赖的句子内容特征表示；

Step3、抽取证据句子：以Step2获得的句子内容特征表示，结合问题向量与答案选项向量抽取证据句子组成新内容特征表示以分析问题的答案；

Step4、后处理：通过Step3得到的新内容特征表示结合Step1的问题向量与答案选项向量输出该问题的各个选项的得分，确定最终的答案。

作为本发明的进一步方案，所述步骤Step1的具体步骤如下：

Step1.1、首先在公开数据集网站的初中和高中的题集上采集文章、问题与答案选项；

Step1.2、对数据集中的文章、问题与答案选项进行分词、分段预处理；

Step1.3、利用预训练语言模型词向量训练方式对预处理后的数据进行训练编码获得内容词向量H^D、问题词向量H^Q与答案选项词向量H^A。

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.1、经过数据预处理与编码后，内容词向量通过双线性函数得到任意两个词之间的软注意力对齐矩阵M_D，矩阵中的每一个元素表示两个词之间的关系；

Step2.2、将得到的任意两个词之间的软注意力对齐矩阵M_D输入到深度模型的第一部分最大化注意力网络中；为了抓住任意两个词之间的重要关系，使用基于列的最大化池化得到的重要关系矩阵，同时输入到Softmax层，得到词之间的注意力向量矩阵G_D；

Step2.3、为了理解内容意识下相关权重的重要性，将词之间的注意力向量矩阵G_D应用于得到的内容词向量H^D，最终得到抓住了词层级关系的内容向量

Step2.4、重复Step2.1至Step2.3过程k次，得到抓住了更多重要的词层级关系的内容向量

Step2.5、在Step2.4中获得的词层级关系的内容向量

通过在句子中的单词的自注意力获得句子特征表示向量S^D，再经过双线性函数得到任意两个句子之间的软注意力对齐矩阵M_s；

Step2.6、利用Step2.2至Step2.4计算过程，采用基于列的最大化池化同时结合Softmax层得到句子之间的注意力向量矩阵G_s；

Step2.7、句子之间的注意力向量矩阵G_s与Step2.5得到的句子特征表示向量S^D相乘，得到抓住了句子内容特征表示

重复Step2.5至Step2.7过程k次，得到抓住了更多重要的句子内容特征表示

作为本发明的进一步方案，所述步骤Step3的具体步骤如下：

Step3.1、根据问题向量和答案选项向量找到证据句子；然后根据证据句子，结合问题向量和答案选择向量来推断答案；

Step3.2、以Step2得到的句子内容特征表示为中心出发，然后分别计算问题向量与句子内容特征表示、答案选项向量与句子内容特征表示之间的匹配分数，然后将两个匹配分数相加得到句子分数向量，最后输出分数最大的T个句子组合成新的内容特征表示

作为本发明的进一步方案，所述步骤Step4的具体步骤如下：

Step4.1、首先拼接问题词向量H^Q与答案选项词向量H^A得到H^QA,H^QA通过在句子中的单词的自注意力获得向量S^QA；

Step4.2、使用句子级别的层次注意SHA来确定以问题与答案选项为条件的句子的重要性，最后获取得到问题与答案选项意识下的内容向量H′；

Step4.3、将Step4.2得到问题与答案选项意识下的内容向量H′利用softmax函数进行多分类，在分类模型基础上采用交叉熵损失函数，最终得到选择结果，即正确答案。

进一步地，所述预训练语言模型是基于预训练BERT网络；对于双线性函数计算任意两个词之间的软注意力对齐矩阵M_D，如公式所示:M_D＝f(U^D)f(V^D)^T；其中U^D和V^D表示k维词向量；f是一个线性函数；列的最大化池化得到的重要关系矩阵为G＝softmax(max_colM_D)；通过注意力向量G应用于内容向量获得词层级关系的内容向量

如公式所示：

其中

表示基于元素的点乘，H^D为内容词向量；自注意力获得句子特征表示向量，如公式所示：

α_ij表示α_i的第j个元素，

表示第i个句子的内容词向量，

表示第i个句子的内容词向量的第j个元素，S_i表示句子特征表示向量S^D的第i个元素，f是一个线性函数；多阶段最大化注意力内容向量后，计算句子向量与问题向量之间的匹配分数，来选择保留重要的k句证据句子；问题与答案选项下的内容向量通过句子层级注意力计算，如公式所示：

其中γ表示每个词在内容中所占的权重大小。

所述Softmax层中，在此分类模型基础上，对损失函数权重进行设置，采用交叉熵损失函数，即

本发明的有益效果是：

1、本发明在证据句子选择的任务中，将词与之间的重要关系纳入考虑范围，能抓住代词和句子之间的重要关系。词层级多阶段最大化注意力强调词之间的重要关系，并通过应用bi-LSTM融合来自多阶段最大化注意力输出和初始输入的信息；句子级多阶段最大化注意力通过应用bi-LSTM来获取包含句子之间重要关系的句子特征表示，从而抓住更多句子之间的重要关系并融合来自多阶段最大化注意力输出和残差连接的信息。

2、作为人类如何解决复杂的多项选择阅读理解的自然实践，第一步是根据问题和答案选项找到相关句子并掌握总体思路。然后，人们将根据这些证据句子，结合问题和答案选择来推断答案。深度模型的结构是基于双线性函数计算句子与问题间的相似度分数。给每个句子计算出相似度分数后，得分最高的K个句子组合成新的内容选择来推断答案。

3、合并问题词向量与答案选项词向量通过句子中的单词的自注意力获得问题、答案选项融合特征表示，同时结合新内容特征表示使用句子级别的层次注意来确定以问题与答案选项为条件的句子的重要性，判断得到最终的选项输出结果，实验结果证明其能更好的推论出阅读理解问题的答案。

综上所述，这种基于多阶段最大化注意力的多项选择机器阅读理解的方法，首先利用多阶段最大化注意力抓住重要的词与句子之间的重要关系，并结合问题与答案选项抽取证据句子组合成新的内容，最后句子级别的层次注意来融合新内容、问题与答案，输入到Softmax分类器中，得到最终的选项。最终模型提高了多选阅读理解的精度。

附图说明

图1基于多阶段最大化注意力结合问题意识下的证据句子匹配机制提高多选阅读理解的结构图；

图2为本发明中基于多阶段最大化注意力模块的示意图。

具体实施方式

实施例1：如图1-2所示，一种基于多阶段最大化注意力的多项选择机器阅读理解的方法，所述方法的具体步骤如下：

作为本发明的进一步方案，所述步骤Step1的具体步骤如下：

Step1.3、利用预训练语言模型词向量训练方式对预处理后的数据进行训练编码获得内容词向量H^Q、问题词向量H^D与答案选项词向量H^A。

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.5、在Step2.4中获得的词层级关系的内容向量

作为本发明的进一步方案，所述步骤Step3的具体步骤如下：

作为本发明的进一步方案，所述步骤Step4的具体步骤如下：

Step4.1、首先拼接问题词向量H^Q与答案选项词向量H^A得到H^QA,H^DA通过在句子中的单词的自注意力获得向量S^QA；

如公式所示：

其中

α_ij表示α_i的第j个元素，

表示第i个句子的内容词向量，

其中γ表示每个词在内容中所占的权重大小。

进一步地，所述证据句子抽取中，会发现，如果仅提取与该问题相关的这两个句子，实际上有时对句子中某些代词和语义的理解不足以推断出答案。因此，为了基于证据句子提取答案，我们将提取更多句子，并用完整的表达和语义来推断答案。本文方法相较于传统方法都取得最优结果，初、高中阅读理解准确度值分别是70.2％、65.4％，尤其是针对初中阅读理解，准确度明显提高。

本发明和其他阅读理解的结果进行对比如表1所示，表1报告了在数据集RACE-M和数据集RACE-H上的实验结果，其中BERT+MLP表示预训练语言模型BERT结合多层感知机的方式处理得到的结果，BERT+HA表示预训练语言模型BERT结合层级注意力的方式处理得到的结果，从表1中可以看出本发明的预测准确率高，比传统识别率高的还高4％左右。

表1为本发明与其他阅读理解方法的效果比较

本发明中，基于多阶段最大化注意力结合问题意识下的证据句子匹配模型，整体结构如图1所示首先，确定利用多阶段最大化注意力抓住词与句子间的重要关系，方法如图2所示。对于输入的问题与答案选项，初步编码以后通过计算与句子之间的相似度分数来抽取证据句子。以上一步抽取的证据句子为中心，最后通过利用层级注意力机制融合证据句子、问题与答案选项得到最终答案。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多阶段最大化注意力的多项选择机器阅读理解的方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述基于多阶段最大化注意力的多项选择机器阅读理解的方法，其特征在于：所述步骤Step1的具体步骤如下：

3.根据权利要求1所述基于多阶段最大化注意力的多项选择机器阅读理解的方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.5、在Step2.4中获得的词层级关系的内容向量

4.根据权利要求1所述基于多阶段最大化注意力的多项选择机器阅读理解的方法，其特征在于：所述步骤Step3的具体步骤如下：

5.根据权利要求1所述基于多阶段最大化注意力的多项选择机器阅读理解的方法，其特征在于：所述步骤Step4的具体步骤如下：

Step4.1、首先拼接问题词向量H^Q与答案选项词向量H^A得到H^QA，H^QA通过在句子中的单词的自注意力获得向量S^QA；