CN109947912A

CN109947912A - 一种基于段落内部推理和联合问题答案匹配的模型方法

Info

Publication number: CN109947912A
Application number: CN201910073728.XA
Authority: CN
Inventors: 琚生根; 孙界平; 夏欣; 王霞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-28
Anticipated expiration: 2039-01-25
Also published as: CN109947912B

Abstract

本发明公开了一种基于段落内部推理和联合问题答案匹配的阅读理解模型方法，包括以下步骤：S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案；S2：实验，本发明提出的模型首先把段落在多个粒度下切分为块，编码器利用神经词袋表达将块内词嵌入向量求和，然后，通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理，本模型在正确率上相比基线神经网络模型，Stanford AR和GA Reader提高了9％‑10％，比最近的模型SurfaceLR至少提高了3％，超过TriAN的单模型1％左右，除此之外，在RACE数据集上的预训练也可以提高模型效果。

Description

一种基于段落内部推理和联合问题答案匹配的模型方法

技术领域

本发明属于阅读理解技术领域，具体涉及一种基于段落内部推理和联合问题答案匹配的模型方法。

背景技术

机器阅读问答(Machine Reading for Question Answering，MRQA)研究近年来受到广泛关注，如何让机器能够阅读并且理解自然语言，是认知智能领域研究的主要问题，阅读理解任务需要在整个文档中整合和推理关于事件，实体及其关系的信息，问答通常用于评估阅读理解能力。机器阅读理解任务的主要类型有完形填空型、选择型和问答型，深度学习近年来在自然语言处理中广泛使用，在机器阅读理解领域也是如此，相比于基于传统特征的方法，在神经网络中，各种语义单元被表达为连续的语义空间上的向量，可以非常有效地解决语义稀疏性问题。

目前的阅读理解方法通常基于成对序列匹配，段落与连接问题和候选答案的序列匹配，或段落与问题匹配，然而，这些方法可能不适合问题和答案通常同样重要的选择型阅读理解，仅仅根据问题匹配段落可能没有意义，并且可能导致段落中的信息丢失，例如“Which statement of the following is true？”这样的问题，另一方面，将问题和答案连接成单个序列进行匹配可能会丢失问题和答案之间的交互信息，例如，有时答案需要问题来进行指代消解等，此外，大多数模型通常采用循环神经网络作为编码器，其逐字逐句地顺序解析文本序列，虽然有助于捕获语言学的词法和语法结构，但段落往往较长，这限制了在段落内部进行多句推理。

针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会丢失问题与答案之间的交互，和传统的循环网络顺序解析文本从而忽略段落内部推理的问题，提出一种基于段落内部推理和联合问题答案匹配的模型方法。

发明内容

本发明的目的在于提供一种基于段落内部推理和联合问题答案匹配的模型方法，本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9％-10％，比最近的模型SurfaceLR至少提高了3％，超过TriAN的单模型1％左右，除此之外，在RACE数据集上的预训练也可以提高模型效果，以解决上述背景技术中提出的现有技术中的问题。

为实现上述目的，本发明采用了如下技术方案：一种基于段落内部推理和联合问题答案匹配的模型方法，包括以下步骤：

S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案，具体步骤如下：

A：输入层，段落、问题和候选答案对应表达为P＝{p₁，p₂，L，p_m}，Q＝{q₁，q₂，L，q_n}和A＝{a₁，a₂，L，a_l}，其中m，n和l是对应序列的长度，使用GloVe向量将每个词转换为对应的词嵌入，利用三个简单有效的词汇特征EM(P，Q)，EM(Q，A)和EM(P，A)表明一个中的词是否在另一个中；

B：编码层，步骤如下：

a：将词嵌入向量和完全匹配特征输入Highway Network，分别得到段落、问题和候选答案序列的表达其中其中其中

b：对段落进行k＝{r₁，r₂，L，r_k}次缩放操作，对每个r_i，首先将每隔r_i个词的词嵌入相加进行压缩，段落长度变为m/r_i，然后将得到的序列输入激活函数为ReLU的单层前向神经网络；

c：将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络；

C：交互层，利用注意力机制更新问题和候选答案的表达，使其关注与段落相关的部分，注意力向量计算；

D：层次聚合，为了捕捉段落的句子结构，在共同匹配表达上构建了一个层次LSTM，首先将段落分成句子P₁，P₂，L，P_N，其中N是段落中的句子数，对于每个{P_i，Q，A}，i∈[1，N]，通过输入、编码及交互层可以得到共同匹配表达C_i，然后在每个句子的共同匹配表达上两次BiLSTM层和最大池化层，以捕获共同匹配的句子级和篇章级表达；

E：输出层，对每个候选答案，它最终交互表达为

S2：实验，具体步骤如下：

A：采用SemEval-2018 Task 11任务的数据集MCScript，并且在RACE数据集进行预训练，MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事，旨在借用外部常识知识回答问题；

B：在PyTorch深度学习框架下实现模型，使用300维的Glove向量初始化词嵌入，且在训练期间不进行微调，k的取值为1，2，4，10，25，丢失率在0.1，0.2和0.3之间调整，优化器采用Adam，且初始学习率为0.002，批量大小为10，在MCScript数据集上进行30轮训练，在RACE数据集上10轮迭代；

C：对比算法及实验结果，本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比，步骤如下：

a：Sliding Window，采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题，在段落上采用不同大小的滑动窗口，计算窗口和答案的词嵌入平均向量的余弦相似度，具有最高分数的答案被预测为正确答案；

b：SurfaceLR，首先进行词干提取和去除停用词，但不包括‘yes’或‘no’，构建段落、问题和答案的长度特征和共现特征，这个简单模型取得了与神经网络可以竞争的结果；

c：Stanford Attentive Reader，采用一种端到端的神经网络方法，在CNN/DailMaily数据集上取得了很好的效果，首次提出问题相关段落表达，即问题相对段落注意力分数，双线性函数的加权平均表达，然后同样采用双线性函数计算问题与答案的相似度，最后应用softmax得到每个答案的预测概率；

d：Gated-Attention Reader，通过注意力机制捕获问题与段落之间的交互，并采用多层推理迭代地关注文本与问题最相关的部分；

e：TriAN，采用段落与答案、段落与问题、问题与答案三种注意力来建模交互，并且加入词性标注和命名实体识别，基于ConceptNet的关系特征，基于Wikipedia的词频特征及共现特征，本文与其单模型进行对比。

优选的，所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络：

其中，W_a，b_a是需要学习的参数，且对每个r_i参数不共享，然后，再通过矩阵操作扩展到原来的序列长度。

优选的，所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络：

其中，g_t可以解释为一个从多粒度学习的门控向量来平衡每个词的映射和原始表达，F₁(·)和F₂(·)是激活函数为ReLU的单层前向神经网络：

其中，W_b，b_b是需要学习的参数，H^p＝{y₁，y₂，L，y_m}为段落的最终表达σ是sigmoid函数，这里借鉴了Highway Network的思想，不同的是门控函数捕获了多粒度和长期依赖信息。

优选的，所述步骤S2中交互层注意力向量计算式：

其中，是需要学习的参数，是元素全为1的列向量，和是赋予问题和候选答案序列隐藏状态的注意力权重，是问题隐藏状态的加权和，它表示问题如何与段落的每个隐藏状态对齐，同理，最后，将段落表达与问题和候选答案表达共同匹配：

其中，是需要学习的参数，C由两个矩阵按列拼接得到，＄和是对两个矩阵按元素相减和相乘，其作用是获得更好的局部推理信息，为该段落表达与注意力加权的问题表达之间的匹配，同样，为段落表达与注意力加权的候选答案表达之间的匹配，最后，表示每个段落隐藏状态如何与问题和候选答案匹配。

优选的，所述步骤S2中层次聚合BiLSTM层和最大池化层公式为：

其中，MaxPooling(·)是按行操作，是共同匹配的句子级表达，最后，在此基础上再应用一个BiLSTM层和最大池化层：

h^t＝MaxPooling(BiLSTM(H^s)) (14)

其中，的句子级表达的按行拼接，h^t是融合了各种交互信息的最后输出表达。

优选的，所述步骤S2中输出层损失函数计算如下：

其中，是需要学习的参数。

优选的，所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。

本发明的技术效果和优点：本发明提出的一种基于段落内部推理和联合问题答案匹配的模型方法，与现有技术相比，具有以下优点：本发明提出的模型首先把段落在多个粒度下切分为块，编码器利用神经词袋表达将块内词嵌入向量求和，其次，将块序列通过前向全连接神经网络扩展到原始序列长度，然后，通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理，最后，通过注意力机制将段落表示与问题和答案的交互来选择答案，在SemEval-2018Task 11任务上的实验结果表明，本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9％-10％，比最近的模型SurfaceLR至少提高了3％，超过TriAN的单模型1％左右.除此之外，在RACE数据集上的预训练也可以提高模型效果。

附图说明

图1为本发明种基于段落内部推理和联合问题答案匹配的模型方法的模型整体框架图；

图2为本发明种基于段落内部推理和联合问题答案匹配的模型方法的段落编码图；

图3为本发明种基于段落内部推理和联合问题答案匹配的模型方法的模型训练过程正确率图；

图4为本发明种基于段落内部推理和联合问题答案匹配的模型方法的损失函数曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于段落内部推理和联合问题答案匹配的模型方法，包括以下步骤：

S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案，本文提出的模型整体框架如图1所示，具体步骤如下：

B：编码层，步骤如下：

b：对段落进行k＝{r₁，r₂，L，r_k}次缩放操作，如图2所示，对每个r_i，首先将每隔r_i个词的词嵌入相加进行压缩，段落长度变为m/r_i，然后将得到的序列输入激活函数为ReLU的单层前向神经网络；

D：层次聚合，为了捕捉段落的句子结构，在共同匹配表达上构建了一个层次LSTM，首先将段落分成句子P₁，P₂，L，P_N，其中N是段落中的句子数，对于每个{P_i，Q，A}，i∈[1，N]，通过输入、编码及交互层可以得到共同匹配表达C_i，然后在每个句子的共同匹配表达上应用两次一个BiLSTM层和最大池化层，以捕获共同匹配的句子级和文档级表达；

E：输出层，对每个候选答案，它最终交互表达为

S2：实验，具体步骤如下：

RACE数据集包含了中考和高考中的英文阅读理解问题.其根据问题的难易程度分为匹配题以及推理题两大类，匹配题指的是需要阅读者在段落中找到问题对应的支撑语句，然后找到问题答案，推理题则需要阅读者总结、分析段落中的线索，进而再选出正确答案，35％的题目是匹配题，65％是推理题。

B：在PyTorch深度学习框架下实现模型，使用300维的Glove向量初始化词嵌入，且在训练期间不进行微调，k的取值为1，2，4，10，25，丢失率在0.1，0.2和0.3之间调整，优化器采用Adam，且初始学习率为0.002，批量大小为10，在MCScript数据集上进行30轮训练，在RACE数据集上10轮迭代；见表1 RACE数据描述：

见表2 MCScript数据描述：

e：TriAN，采用段落与答案、段落与问题、问题与答案三种注意力来建模交互，并且加入词性标注和命名实体识别，基于ConceptNet的关系特征，基于Wikipedia的词频特征及共现特征，本文与其单模型进行对比，见表3对比算法及结果：

实验结果如表3所示，可以看出本文模型与基线神经网络模型相比提高了9％-10％左右，比SurfaceLR模型提高了至少3％，超过TriAN单模型1％左右。

此外，考虑因素：①预训练；②答案匹配；③段落内部推理进行消融实验，实验结果如表4所示，可以看到如果没有在预训练模型正确率降低1％左右的，只采用问题进行匹配模型效果降低4％左右，在将编码器换作LSTM的情况下，模型正确率降低了2％左右，见表4：

具体的，所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络：

具体的，所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络：

具体的，所述步骤S2中交互层注意力向量计算式：

具体的，所述步骤S2中层次聚合BiLSTM层和最大池化层公式为：

h^t＝MaxPooling(BiLSTM(H^s)) (14)

具体的，所述步骤S2中输出层损失函数计算如下：

其中，是需要学习的参数。

具体的，所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。

本发明提出的模型引入了段落内部推理机制，并且将候选答案和问题与段落同时匹配，首先，类似于自注意力机制，将段落在多个粒度下压缩成NBOW(神经词袋表达)，其次，通过仿射变换重新扩展到原始序列长度，将得到的多个粒度下的段落表达输入全连接层以形成门控向量应用到段落原始表达上，该门控建模不同粒度之间关系，捕获段落内部推理，也避免了每步构造一个门控，然后，对段落中的每个句子，计算与问题和候选答案的注意力权重向量来构造段落和问题、段落和候选答案的匹配表达，将两个匹配表达拼接形成共同匹配表达，最后，对段落的共同匹配表达序列应用层次LSTM，信息从词级别汇总到句子级别，然后从句子级别汇总到文档级别，这种方式使得模型可以更好地处理需要多句推理的问题。

综上所述：本发明提出的模型首先把段落在多个粒度下切分为块，编码器利用神经词袋表达将块内词嵌入向量求和，其次，将块序列通过前向全连接神经网络扩展到原始序列长度，然后，通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理，最后，通过注意力机制将段落表示与问题和答案的交互来选择答案，在SemEval-2018 Task 11任务上的实验结果表明，本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9％-10％，比最近的模型SurfaceLR至少提高了3％，超过TriAN的单模型1％左右，除此之外，在RACE数据集上的预训练也可以提高模型效果。

本文在现有的基础上，不同于之前工作只考虑段落与问题匹配，或与问题和候选答案看作一个序列匹配，本文考虑了段落与问题和答案的共同匹配，同时，针对段落序列往往较长传统循环神经网络编码无法进行多句推理的问题，利用缩放操作构成的门控机制，捕获多粒度信息，进行段落内部推理，在SemEval-2018 Task 11任务上进一步提高了预测准确率，在后续的工作中考虑问题类型，引入脚本知识，设计可解释性模型，以及对模型集成的研究。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：包括以下步骤：

B：编码层，步骤如下：

D：层次聚合，为了捕捉段落的句子结构，在共同匹配表达上构建了一个层次LSTM，首先将段落分成句子P₁，P₂，L，P_N，其中N是段落中的句子数，对于每个{P_i，Q，A}，i∈[1，N]，通过输入、编码及交互层可以得到共同匹配表达C_i，然后在每个句子的共同匹配表达上应用两次BiLSTM层和最大池化层，以捕获共同匹配的句子级和篇章级表达；

E：输出层，对每个候选答案，它最终交互表达为

S2：实验，具体步骤如下：

A：采用SemEval-2018Task 11任务的数据集MCScript，并且在RACE数据集进行预训练，MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事，旨在借用外部常识知识回答问题；

c：Stanford Attentive Reader，采用一种端到端的神经网络方法，在CNN/Dail Maily数据集上取得了很好的效果，首次提出问题相关段落表达，即问题相对段落注意力分数，双线性函数的加权平均表达，然后同样采用双线性函数计算问题与答案的相似度，最后应用softmax得到每个答案的预测概率；

2.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络：

3.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络：

其中，W_b，b_b是需要学习的参数，H^p＝{y₁，y₂，L，y_m}为段落的最终表达，σ是sigmoid函数，这里借鉴了Highway Network的思想，不同的是门控函数捕获了多粒度和长期依赖信息。

4.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S2中交互层注意力向量计算式：

5.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S2中层次聚合BiLSTM层和最大池化层公式为：

h^t＝MaxPooling(BiLSTM(H^s)) (14)

6.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S2中输出层损失函数计算如下：

其中，是需要学习的参数。

7.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。