CN109933792B

CN109933792B - 基于多层双向lstm和验证模型的观点型问题阅读理解方法

Info

Publication number: CN109933792B
Application number: CN201910180548.1A
Authority: CN
Inventors: 吴嘉琪; 于建港; 肖定和
Original assignee: Hainan Zhixin Information Technology Co Ltd
Current assignee: Hainan Zhixin Information Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-03-24
Anticipated expiration: 2039-03-11
Also published as: CN109933792A

Abstract

本发明公开了一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法，所述方法融合了抽取式模型和判别式模型的优点，在阅读理解、特征学习的基础上，加入推理建模，以得到问题和文章具有推理性的特征表示，并且在后续学习中将候选答案与正确答案的关系作为分类问题，设计了相应的Loss函数，针对部分问题在给定文章中得不到正确答案的情况，设计了验证模型，所述方法在处理观点型问题阅读理解数据集时相比现有的方法准确率更高。

Description

基于多层双向LSTM和验证模型的观点型问题阅读理解方法

技术领域

本发明涉及机器学习技术领域，尤其涉及基于多层双向LSTM和验证模型的观点型问题阅读理解方法。

背景技术

观点型问题阅读理解的特点是，给定一个问题以及一篇文章，利用文章中多个句子的信息得出正确答案，现有的技术通常是对整篇文章进行建模，利用神经网络模型从文章中提取出与给定问题相关的段落，并从中提取出候选答案，再从候选答案中得到正确答案，然而此类方法在学习过程中都存在一个重要的强假设，即在给定的文章中始终存在候选答案，这样会使得在处理主观性较强、针对没有明确答案的问题时无法得到正确答案，现有的方法使得机器在观点型问题阅读理解中回答无法推断出答案的问题时表现不好，并且会影响整个观点型问题阅读理解系统的表现，使其表现出较差的理解能力和推理能力。

发明内容

鉴以此，本发明的目的在于提供一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法，以至少解决以上问题。

基于多层双向LSTM和验证模型的观点型问题阅读理解方法，所述方法包括以下步骤：

S1、对文章及问题中的句子进行预处理，所述预处理包括分词、词性标注、命名实体识别，将单词映射成词表当中对应的词向量，并与词性及命名实体类型的特征向量拼接在一起，形成文章和问题的初始特征向量表示；

S2、将文章与问题的初始特征向量表示分别通过第一层BiLSTM进行处理，得到文章和问题的浅层特征表示；

S3、将文章与问题的浅层特征表示进行推理建模，得到文章和问题具有推理关系的浅层特征表示，将文章和问题具有推理关系的浅层特征表示通过第二层BiLSTM进行处理，得到文章和问题具有相关性的深层特征表示；

S4、对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量，通过向量与文章的向量表示做内积，抽取出文章中能够用于回答问题的信息片段，再次通过注意力机制，对信息片段进行加权组合，形成一个与文章长度无关的向量，作为解码器的初始隐状态输入；

S5、使用一个单向LSTM作为解码器，并以文章的最终特征向量表示作为其输入序列，按照序列到序列的方式逐个单词地生成对应的候选答案；

S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型，通过二分类模型对得到的候选答案的合理性进行验证；

S7、根据候选答案合理性对生成的答案文本进行处理，输出正确答案。

进一步的，步骤S3中，推理建模具体包括：假设得到的浅层特征表示对为<p_i,q_j>，计算特征表示对的点积作为注意力权重，对注意力权重进行归一化获得伴随向量，如公式(1)、(2)所示，

其中，p_i为文章的伴随向量，q_j为问题的伴随向量，l_p为文章的伴随向量长度，l_q为问题的伴随向量长度，a_ij为<p_i,q_j>的注意力权重，随后通过BiLSTM进行建模，得到具有推理性的文章特征表示

和具有推理性的问题特征表示

进一步的，步骤S4中，对观点型问题的答案分为是、否、无法判断三类，在做内积抽取信息片段时，将三分类问题与信息片段作为联合任务进行建模，所述建模包括：将问题和文章的最终特征表示进行串联，得到新特征表示s_joint；将s_joint输入到判别模型中，得到正确答案所属分类的概率，所述判别模型的DisQALoss函数如公式(3)和(4)所示，

p(y|s_jonit)＝softmax((w_ss_joint+b)w_y) (3)

其中，y为表示三个类别的向量，w_s为特征的权重，w_y为类别的权重，b为偏置量。

进一步的，步骤S6具体包括以下步骤：将问题和文章的最终特征表示串联，得到新特征表示s_joint；将s_joint输入到二分类验证模型中，得到正确答案所属分类的概率，所述判别模型的VerQALoss函数如公式(5)所示，

其中，m为训练样本个数，n为参数大小，θ为函数中的参数，

λ是正则项系数。

进一步的，将步骤S6中得到的二维向量表示通过logistic regression函数进行处理得到一个概率分布，对概率分布进行优化。

进一步的，将问题的注意力加权组合向量与文章的最终向量表示做内积，其结果通过softmax函数转化为概率分布，对概率分布进行优化。

进一步的，将问题和文章的最终向量表示与权重做内积得到一个三维向量表示，通过softmax函数转化为概率分布，对概率分布进行优化。

进一步的，步骤S7中，设定阈值tv，当不存在合理的候选答案的概率大于或等于tv时，输出答案为无法确定；当不存在合理的候选答案的概率小于tv时，输出答案为步骤S5中得出的候选答案。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法，采用先阅读后验证的方式来进行观点型问题阅读理解的建模先利用神经网络从给定文章中提取候选答案，再对候选答案进行验证其是否合理，即该问题是否能从给定文章中得到正确答案，本方法融合了抽取式模型和判别式模型的优点，采用多任务联合优化的方式进行训练，有利于更精准地选取候选答案，相较于现有方法在处理观点型问题阅读理解时准确率更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的整体模型设计示意图。

图2是本发明实施例的具体模型设计示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所列举实施例只用于解释本发明，并非用于限定本发明的范围。

本发明提供一种多层双向LSTM和验证模型的观点型问题阅读理解方法，所述方法具体包括以下步骤：

S1、对文章及问题中的句子进行预处理，所述预处理包括分词、词性标注、命名实体识别，将单词映射成词表当中对应的词向量，并与词性及命名实体类型的特征向量拼接在一起，形成文章和问题的初始特征向量表示。

S2、将文章与问题的初始特征向量表示分别通过第一层BiLSTM进行处理，得到文章和问题的浅层特征表示。

S3、将文章与问题的浅层特征表示进行推理建模，得到文章和问题具有推理关系的浅层特征表示，将文章和问题具有推理关系的浅层特征表示通过第二层BiLSTM进行处理，得到文章和问题具有相关性的深层特征表示。

该步骤中，通过对文章与问题的特征表示进行推理建模，捕捉问题和文章之间的相互作用，从而分别得到问题和文章具有推理关系的浅层特征表示。

所述推理建模的数学表示为：假设文章与问题的浅层特征表示对为<p_i,q_j>，计算浅层特征表示对的点积作为注意力权重，随后对注意力权重进行归一化获得伴随向量，如公式(1)、(2)所示，

和具有推理性的问题特征表示

S4、对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量

通过向量

与文章的向量表示做内积，抽取出文章中能够用于回答问题的信息片段，再次通过注意力机制，对信息片段进行加权组合，形成一个与文章长度无关的向量

作为解码器的初始隐状态输入。

在本发明的可选实施例中，步骤S4通过自匹配注意力机制，对问题中各个单词的表示进行加权组合。并且，对于观点型问题的答案可以将其抽象为三分类问题，即是、否、无法判断三类，在做内积抽取能够用于回答问题的信息片段时，将三分类问题与信息片段作为联合任务进行建模，对问题和文章的最终向量

和

进行一个三分类判断。

所述建模包括：将问题和文章的最终特征表示

和

串联，得到新特征表示s_joint，将s_joint输入到判别模型中，得到答案所属分类的概率，其中，所述判别模型的DisQALoss函数如公式(3)和(4)所示，

p(y|s_jonit)＝softmax((w_ss_joint+b)w_y) (3)

其中，y为表示三个类别的向量，w_s为特征的权重，w_y为类别的权重,b为偏置量。

S5、使用一个单向LSTM作为解码器，并以文章的最终特征向量表示作为其输入序列，按照序列到序列的方式逐个单词地生成对应的答案文本。

S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型，通过该模型对得到的候选答案的合理性进行验证。

步骤S6中，为了验证答案的合理性，将能否从文章中获取到合理的候选答案的问题建模成二分类模型。具体包括以下步骤：将问题和文章的最后特征表示串联，得到新特征表示s_joint；将s_joint输入到二分类验证模型中，通过将s_joint与权重做内积，得到s_joint的二维表示，进而得到所属类别的概率，所述二分类验证模型的VerQALoss函数如公式(5)所示。

其中，m为训练样本个数,n为参数大小，θ为函数中的参数，

λ是正则项系数，在本发明中，通过参数调优将λ设为0.03。

步骤S7中，根据是否存在合理候选答案的概率，结合步骤S5中得到的答案文本，输出正确的答案。

在本发明的可选实施例中，步骤S7中得到是否存在合理候选答案的概率后，设定一个阈值tv，当不存在合理的候选答案的概率大于或等于tv时，输出答案为无法确定；当不存在合理的候选答案的概率小于tv时，则输出步骤S5中得出的候选答案。

在上述实施例的基础上，为了更加精准的从文章中抽取候选答案，本发明还采用了多任务联合优化的方式进行训练。主要包括以下几个方面：

一是将步骤S4中问题的注意力加权组合向量与文章的最终向量表示做内积，其结果通过softmax函数转换为概率分布，对概率分布进行优化，使文章中用于回答问题的有效信息片段的概率相应增大。

二是将问题和文章的最终向量表示与权重做内积得到一个三维向量表示，通过softmax函数将该三维向量表示转换为概率分布，对该概率分布进行优化，使该问题与文章对应的答案的正确率增大。

三是将步骤S6中得到的二维向量表示，通过logistic regression函数进行处理得到概率分布，对该概率分布进行优化，得到文章中是否存在该问题的答案的正确概率相应增大，即在输出答案之前，验证文章中是否包含问题的答案。

在进行多任务联合优化时，采用神经网络的BP算法训练模型，可以采用SGD、Mini-batch SGD、Momentum、AdaGrad以及AdaDelta等算法进行优化。

参照图1、图2，本方法采用先阅读后验证的模型来进行观点型问题阅读理解的建模，先利用神经网络从文章中提取候选答案，再对候选答案进行验证其是否合理，即该问题是否能从对应的文章中得到正确答案，本方法在应用于观点型问题阅读理解数据集时准确率比传统方法提升了3.07。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，所述方法包括以下步骤：

S4、对问题中各单词的表示进行加权组合，形成问题的最终特征表示向量

通过向量

与文章的向量表示做内积，抽取出文章中能够用于回答问题的信息片段，再次通过注意力机制，对信息片段进行加权组合，形成文章的最终特征表示向量

作为解码器的初始隐状态输入，对观点型问题的答案分为是、否、无法判断三个类别，在做内积抽取信息片段时，将三分类问题与信息片段作为联合任务进行建模，所述建模包括：将问题的最终特征表示

和文章的最终特征表示

进行串联，得到新特征表示s_joint；将s_joint输入到判别模型中，得到正确答案所属分类的概率，所述判别模型的DisQA Loss函数如公式(3)和(4)所示，

p(y|s_jonit)＝softmax((w_ss_joint+b)w_y) (3)

其中，y为表示三个类别的向量，w_s为特征的权重，w_y为类别的权重，b为偏置量；

S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型，通过二分类模型对得到的候选答案的合理性进行验证，具体包括以下步骤：将问题的最终特征表示

和文章的最终特征表示

进行串联，得到新特征表示s_joint；将s_joint输入到二分类验证模型中，通过将s_joint与权重做内积，得到s_joint的二维向量表示，从而得到所属类别的概率，所述二分类验证模型的VerQA Loss函数如公式(5)所示，

其中，m为训练样本个数，n为参数大小，θ为函数中的参数，

λ是正则项系数；

2.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，步骤S3中，推理建模具体包括：假设得到的浅层特征表示对为<p_i,q_j>，计算特征表示对的点积作为注意力权重，对注意力权重进行归一化获得伴随向量，如公式(1)、(2)所示，

和具有推理性的问题特征表示

3.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，将步骤S6中得到的二维向量表示通过logistic regression函数进行处理得到一个概率分布，对概率分布进行优化。

4.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，将问题的注意力加权组合向量与文章的最终向量表示做内积，其结果通过softmax函数转化为概率分布，对概率分布进行优化。

5.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，将问题和文章的最终向量表示与权重做内积得到一个三维向量表示，通过softmax函数转化为概率分布，对概率分布进行优化。

6.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法，其特征在于，步骤S7中，设定阈值tv，当不存在合理的候选答案的概率大于或等于tv时，输出答案为无法确定；当不存在合理的候选答案的概率小于tv时，输出答案为步骤S5中得出的候选答案。