CN114611510A

CN114611510A - 基于生成模型辅助机器阅读理解的实现方法及装置

Info

Publication number: CN114611510A
Application number: CN202210285465.0A
Authority: CN
Inventors: 程龚; 吴傲; 黄子贤
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-10

Abstract

基于生成模型辅助机器阅读理解的实现方法及装置，对选择题构建阅读理解模型，包括两个工作流，1)生成流，将问题输入编码器获得问题编码表示，再输入解码器获得答案解码表示，训练时根据正确选项计算teacher‑forcing损失；2)阅读理解流，将问题编码表示单独由解码器使用贪心策略生成问题扩展的向量表示，同时将问题分别拼接各选项后输入编码器，将对应输出的问题选项表示与扩展的向量表示交互融合，由所得融合结果获得每个选项对应的logit，训练时将这些logit与正确选项之间计算交叉熵损失，以teacher‑forcing损失和交叉熵损失结合起来对阅读理解模型进行训练优化。本发明使用单数据集训练，提高了对选择题的阅读理解准确率。

Description

基于生成模型辅助机器阅读理解的实现方法及装置

技术领域

本发明属于计算机技术领域，涉及自然语言阅读理解，特别是基于常识的单项选择题，为一种基于生成模型辅助机器阅读理解的实现方法及装置。

背景技术

阅读理解能力是评价计算机能否理解人类语言并且对文本进行逻辑推理的重要工具，给定一个自然语言问题，计算机需要借助自己的常识知识以及对语言的理解能力得到正确的答案。当前的阅读理解数据集格式一般分为以下四种：抽取式阅读理解，代表是SQUAD，生成式阅读理解，代表是NarrativeQA，是否类型的问题，代表是BoolQ，以及选择题，代表是CommonsenseQA。其中选择题往往更为困难，因为一般需要结合人类常识以及需要进行复杂的多跳推理进行求解，因此更能反映出计算机理解人类语言的能力，从而成为一个重要的评测基准。

现有解决选择题自然语言阅读理解问题的方法一般分为以下两种：使用显式的额外的外部知识辅助答题的方法，以及使用生成模型同时微调多种格式数据集的方法。

第一种使用显式的额外的外部知识辅助答题的方法，通常是根据问题和选项抽取出里面出现的实体，然后使用外部资源的知识库如Conceptnet等抽取出连接两种实体之间的关系，然后进行线性化或者使用图神经网络的方式进行建模，特别的，一些方法还会使用词典信息如Wiktionary，将问题和选项中有定义的词及其词元，从词典中找到其描述信息，然后拼接上原来的问题和选项输入预训练语言模型，典型的模型包括ALBERT+HGN，ALBERT+DESC+KCR和ALBERT+PathGenerator等。

另外一类使用生成模型同时微调多种格式数据集的方法，主要思想是将多种格式的阅读理解数据集，如抽取、生成、单选以及是否型的问题，统一为一种text-to-text的框架下，然后通过使用大规模seq2seq预训练模型，如Google的T5和Facebook的Bart等，同时对大量多种格式的数据集进行微调，从而让多种格式的任务之间相互学习到共同的常识信息，从而辅助在单个数据集上的答题效果。这种方法的代表是UnifiedQA。

以上两类技术方法都在基于常识的单项选择题上取得了很好的效果，然而也有其明显的缺点。如第一种方法中，使用显式的额外的外部知识确实可以为计算机答题提供有效的信息，但是仍然可能存在显式知识缺失的问题，如知识库、词典信息不完备，实体关联失败等问题，这些问题将对该方法的有效性造成极大的影响。第二种方法将多种数据集格式建模为统一的text-to-text格式，存在的问题是训练资源消耗太多，实际上UnifiedQA最好的模型使用了T5-11B，拥有多达110亿的参数量，为资源不足的组织机构带来了训练和部署的极大困难。另外Unifi edQA方法在面对特定的数据集使用需求时，可能存在大量并不能提供有效知识迁移效果甚至带来效果降低的其他数据集，资源利用率低。

发明内容

本发明要解决的问题是：现有技术中，对于选择题的阅读理解方案存在显式知识缺失、或多格式数据集训练困难效率低下的问题，以及现有使用预训练生成模型处理选择题的方法中解码器得不到充分利用的问题。

本发明的技术方案为：基于生成模型辅助机器阅读理解的实现方法，对于选择题的自然语言阅读理解，基于序列到序列模型的编码器解码器构建阅读理解模型，使用问题集q，对应的选项集o和正确选项集a进行训练，阅读理解模型包括两个工作流，一个是生成流，问题输入编码器获得问题编码表示Q，将问题编码表示Q输入解码器获得答案解码表示Ag，训练时根据正确选项计算teacher-forcing损失；另一个是阅读理解流，将问题编码表示Q单独输入解码器，生成解码表示作为问题扩展的向量表示Au，同时将问题拼接所对应的各选项后输入编码器，得到问题选项表示QO，将QO与扩展的向量表示Au通过一个双向匹配层进行交互融合，得到融合表示

之后将融合表示

通过一个线性层获得每个选项对应的logit，训练时将这些logit与正确选项之间计算交叉熵损失，以teacher-forcing损失和交叉熵损失结合起来对阅读理解模型进行训练优化，得到生成式阅读理解模型。

本发明提供了一种生成式阅读理解的实现方法，在训练中使用正确选项作为辅助，让解码器生成一些有利于答题的扩充向量，与编码器的表示结合，共同训练优化，所得阅读理解模型用于根据选择题的问题预测正确选项，能够显著提高阅读理解的准确率。

进一步的，尽管大型语言模型能够在预训练期间捕获大量知识，但它们的效果通常建立在整合外部知识库的基础上，尤其是在常识推理任务上，例如对选择题的理解。本发明使用序列到序列模型(seq2seq模型)，可以仅使用指定数据集内部提供的正确选项作为监督，不需要额外的常识知识，如conceptnet、wiktionary等外部资源提供显式知识，也无需其他数据集来辅助学习常识信息，本发明将数据集中的问题输入Encoder，在Decoder端结合正确选项输出一些有利于答题的隐式向量表示，并将问题和选项进行交互，通过评估两个工作流的损失，最终判定正确选项，从而充分利用了预训练模型中存在的常识推理能力，而不用额外的知识库或者其他格式的数据集提供的显式知识，有效解决了现有技术中存在显式知识缺失、多格式数据集训练困难效率低下的问题，以及现有使用预训练生成模型处理选择题的方法中解码器得不到充分利用的问题。

本发明建立在编码器解码器结构基础上，提出了两个新的工作流，使得编码器解码器学习到问题-选项-正确选项之间的常识推理关系，现有技术的预训练语言模型的训练要么需要使用除训练数据集之外的外部资源提供常识知识补充，要么需要使用除本训练数据集以外的其他数据集进行联合训练，来提升对常识信息的学习效果，本发明在仅利用单个数据集的基础上的答题效果均优于现有模型，在仅仅使用数据集内部答案监督的条件下，本发明答题指标显著超越了现有的T5，UnifiedQA-T5-base等利用外部资源辅助的基线模型。以CommonsenseQA数据集官方验证集作为测试集，验证集使用训练集划分出来的10％，得到答题指标结果如下：基于T5 base模型的结果：T5:60.93，UnifiedQA：62.35，本发明模型达到了63.45。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

本发明提出一种基于借助生成式模型扩充向量辅助阅读理解的实现方法及装置，基于编码器-解码器模型构建阅读理解模型，网络结构包括编码器解码模块、双向匹配层模块、线性映射层模块以及teacher-forcing和交叉熵损失模块。本发明提出两个工作流，在预训练中一方面使用正确选项作为辅助，同时让解码器生成一些有利于答题的扩充向量，与编码器的问题选项表示结合，以提高机器阅读理解的能力。编码器用于将问题和选项进行编码，解码器一方面根据正确选项通过teacher-forcing loss进行自身的优化，一方面根据编码器输出的问题选项表示，不使用正确选项，直接根据贪心策略生成问题的扩充向量，并将其与编码器输出的问题选项表示结合，通过双向匹配层进行交互，将交互结果输入线性层得到选项对应的logits，之后通过交叉熵损失优化答题效果。

基于常识的选择题阅读理解包含的输入为问题及若干选项，理解任务为推理其中的正确选项，也就是答案。该问题需要理解模型结合常识对问题和选项进行自然语言推理，最终选出给定的正确选项。如CommonsenseQA中一个问题为Where would I not want afox？(我在哪里得不到一只狐狸？)，给定的选项为hen house(鸡舍),england(英格兰),mountains(山)，english hunt(英国狩猎场)，california(加利福尼亚)，该问题的正确选项为hen house(鸡舍)。在这里做出如下几个定义：

问题集：q＝[q₁，q₂，...，q_nq]

选项集：o＝[o₁，o₂，...，o_no]

正确选项集：a＝[a₁，a₂，...，a_na]

阅读理解模型的第一部分是对问题单独进行编码，得到问题的表示Q，如下公式所示：

Q＝Encoder(q)

得到问题的编码表示之后，将其输入解码器Decoder得到答案解码表示Ag，公式如下所示：

A_g＝Decoder(Q)

这里解码器使用的是transformer decoder，通常为teacher-forcing的训练方式，teacher-forcing是一种序列到序列模型的训练方式，假设每一步的之前的输出都是正确的，每个位置预测的是下一个词的分布，去拟合真实的该位置下一个的词的分布，这里的词指词元。为了实现训练的并行化，通常是将transformer decoder的mask矩阵设置为下三角矩阵，从而保证每个位置只能看到该位置之前的词而看不到之后的词。另外Decoder在根据正确选项a进行训练时，将会在其前面添加BOS标签，代表句子的开始标签，在后面添加EOS标签，代表句子的结束标签，从而在预测的时候可以知道生成的开始和结束。

解码器得到答案解码表示Ag后，将其通过线性层和softmax操作映射到词表上的分布，如下式所示：

代表的是第i个词元位置预测的对应词表中第t个词的概率。

生成损失，也就是teacher-forcing损失为：

na表示正确选项中词元的总个数，a_i表示第i个词元。例如正确选项是a dog，则na＝2，a₀＝a，a₁＝dog。

另外一方面，在阅读理解流中，本发明使用同样的Decoder，使用自回归的方式对问题编码表示Q进行解码，根据贪心策略选择下一个词，定义BOS作为decoder开始的第一个输入，EOS作为decoder的最后一个输出，首先将BOS输入模型，得到对应的表示后将其映射到词表的分布上，然后贪心地选择最大概率对应的词，并且拼接上之前已经生成的所有词再次输入Decoder，最终迭代上述过程直到选择到了EOS为止。从而我们可以得到用于辅助答题的表示，公式如下：

A_u，tOkenS＝DeCoder(Q)

这里tokens指的是使用贪心策略每一个解码步得到的所有token，Au为问题扩展的向量表示。

为了得到每个问题和选项交互的表示，将问题分别拼接上每个选项，同时输入编码器Encoder，得到融合问题信息的问题选项表示QO：

QO＝Encoder(q,o)

接下来，将问题选项表示QO与之前Decoder得到的向量表示Au进行Co-Match操作，从而让这两个表示进行交互，学习到融合了辅助答题信息的融合表示

公式如下：

这里的Co-Match操作通过一个双向匹配层实现交互融合，定义如下：设两个输入向量分别为：

m、n、h分别表示向量的维度，使用矩阵相乘的方法得到相似度矩阵S：

其中S的位于x行y列的元素，代表了A中第x个词与B中第y个词之间的相似度，定义为这两个词表示的内积。

得到相似度矩阵之后，使用softmax操作，得到对于A中每一个词对应的B中每一个词的注意力大小，定义如下：

同样的，我们可以得到对于B中每一个词对应的A中每一个词的注意力大小，定义如下：

根据S_b和A，可以得到使用A更新后的B的表示，定义如下：

根据使用A更新后的B的表示，结合B本身，我们拼接这两个表示，与Sa进行矩阵相乘得到融合B的信息的A的表示，定义如下：

同样的方法，得到使用B更新后的A的表示，定义如下：

将其拼接A本身，与S_b进行矩阵相乘得到融合A的信息的B的表示，定义如下：

最后结合A和融合B信息的A的表示，使用变换矩阵W^A得到最终输出的A的表示，定义如下：

同样的，结合B和融合A信息的B的表示，使用另外一个变换矩阵W^B得到最终的B的表示：

其中两个变换矩阵W^A和W^B为模型参数，在训练中学习得到，维度为：

根据得到的融合表示，通过一个线性层，将所有选项映射到对应的logit，定义如下：

使用softmax操作映射到每个选项被选中为答案的概率，使用交叉熵损失函数，得到阅读理解损失，定义如下：

其中logit_answer为正确选项对应的logit，本发明训练的目标希望模型预测让正确选项的logit尽可能地比其他错误选项的大，从而选中正确选项。

本发明对选择题的理解适用于单选或多选，对于单向选择题，直接对正确选项进行映射得到对应的logit；对于多项选择问题，由于出现选项组合，无法再单纯根据选项顺序进行处理，本发明将多选题的T个选项表示按序拼接，使用线性层将其映射为2^T-1维的向量，使得各种选项可能的组合映射为新的选项排序，将多选题转换为单选题的形式，多个正确选项所构成的组合排序即为1到2^T-1之间的一个数，正确选项组合的映射为：

I(f)表示第f个选项是否为正确选项，是为1，否为0。

举例来说，如ABCD四个选项，选项编号为字符升序，其序分别为0，1，2，3，将每一种可能的多选组合映射成新的选项排序，得到15维向量，表示选项的15种可能的组合，如果AB均为正确选项，则其映射后的正确选项组合标号为：answer＝1*1+2*1+4*0+8*0＝3。由此将四个选项的多选题转换为15个选项的单选题，计算loss_u。

最后，结合生成损失和阅读理解损失，得到如下的多任务优化损失：

L(θ)＝λ×loss_u+(1-λ)×loss_q

这里的θ为模型参数，λ定义为：

λ＝rouqe(tokens，a)

也就是贪心策略解码的结果与正确选项之间的rouge值，其意义是如果生成的所有token与正确选项相似度比较高，那么说明生成结果较好，从而相对降低生成损失的权重，并增加阅读理解损失的权重。反过来，如果生成的tokens与正确选项rouge值较小，说明生成效果较差，从而相应地增加生成损失的权重，让模型优先提高生成的效果，同时避免阅读Co-Match模块受到生成噪音的影响降低训练的效果。这里的相似度高低可以通过设定阈值来判断。

最后，使用梯度下降和误差反向传播算法对模型进行优化，图1中，SG是stopgradient的缩写，表示这里的梯度不会反向传播，优选采用Adam优化器，Adam优化器同时使用了一阶动量和二阶动量指导模型优化，可以有效提高收敛速度并缓解模型陷入局部最优解。

下面结合一个具体实施例来说明本发明的实施。问题为CommonsenseQA中的问题Where would I not want a fox？(我在哪里得不到一只狐狸？)，给定的选项为hen house(鸡舍)，england(英格兰)，mountains(山)，english hunt(英国狩猎场)，california(加利福尼亚)，其中第一个选项hen house(鸡舍)为正确选项。以此为实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

步骤101：首先需要加载实验需要使用到的预训练模型，本实施例使用的是基于pytorch的Huggingface机构的transformers库进行实现的，并且优选使用anaconda配置环境，确保环境中存在相匹配的pytorch和transformers库，采用T5模型的编码器解码器结构，从官方网站https：//huggingface.co/models中进行下载。首先对输入的问题进行分词，对于生成过程的训练，需要将输入的问题Where would I not want a fox？以及正确选项hen house分别进行分词，使用T5 tokenizer进行分词。T5分词器使用的是sentencepiece算法进行分词，所以可能会将一个词分为多个token。之后将问题的分词结果作为input_ids输入编码器，将正确选项hen house的分词结果作为labels，特别的，正确选项中填充的token位置需要设置为-100，从而在计算损失时忽略这些token。问题和正确选项输入模型后，模型将自动添加BOS和EOS符号，无需自行处理。此时模型的生成流输出将得到生成损失loss_g。之后使用同样的方式将问题分词结果作为input_ids输入编码器，让模型解码器根据贪心策略使用自回归生成一些tokens，同时获得用于阅读理解的扩展表示A_u，具体地是调用T5模型的generate方法。

步骤102：将问题和5个选项中的每一个分别拼接起来，使用T5 tokenizer进行分词得到分词结果，将其输入编码器中，得到融合问题信息的5个问题选项表示QO，分别将每一个选项表示和用于阅读理解的扩展表示A_u进行Co-Match操作，得到问题选项表示

将问题选项表示

通过一个线性层映射到对应于每个选项的分数，使用softmax操作映射到对应选择答案的分布，最终结合正确选项使用交叉熵损失函数得到最终的阅读理解损失loss_u。

步骤103：根据步骤101中生成的tokens，结合正确选项也就是hen house(鸡舍)，计算rouge值，即为损失中的权重λ，使用公式：

L(θ)＝λ×loss_u+(1-λ)×loss_g

得到最终的用于模型更新的损失。使用torch.optim.Adam优化器对阅读理解模型进行优化。

本实施例中，阅读理解模型使用的Encoder输入序列最长长度设定为32，超长部分将被去除，不足最长长度部分将使用<pad>进行填充操作。模型Decoder的最长长度为16，batchsize设置为1。学习率设置为0.00005，dropout设置为0.1，训练epoch数量为20，Adam优化器使用默认参数。使用的验证集指标为准确率，最终挑选验证集准确率最高的模型在测试集上进行测试，测试时取输出概率最大的选项作为模型预测选项。与其他几种同样基于T5编码器解码器的现有理解模型比较，本发明具有更加优异的答题指标，如表1所示。

表1

基于T5-base	csqa测试集	obqa测试集
			T5	60.93	57.53
UnifiedQA	62.35	58.47
			本发明	63.45	61.67

Claims

1.基于生成模型辅助机器阅读理解的实现方法，其特征是对于选择题的自然语言阅读理解，基于序列到序列模型的编码器解码器构建阅读理解模型，使用问题集q，对应的选项集o和正确选项集a进行训练，阅读理解模型包括两个工作流，一个是生成流，问题输入编码器获得问题编码表示Q，将问题编码表示Q输入解码器获得答案解码表示Ag，训练时根据正确选项计算teacher-forcing损失；另一个是阅读理解流，将问题编码表示Q单独输入解码器，生成解码表示作为问题扩展的向量表示Au，同时将问题拼接所对应的各选项后输入编码器，得到问题选项表示QO，将QO与扩展的向量表示Au通过一个双向匹配层进行交互融合，得到融合表示

之后将融合表示

2.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是问题集q，对应的选项集o和正确选项集a源于单个阅读理解数据集，不使用外部资源。

3.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是对生成流采用teacher-forcing训练方式：假设每一步的之前的输出都是正确的，每个位置预测的是下一个词元的分布，去拟合真实的该位置下一个的词元的分布，将解码器的mask矩阵设置为下三角矩阵，从而保证每个位置只能看到该位置之前的词元而看不到之后的词元；其中，解码器在根据正确选项训练时，在正确选项前后分别添加BOS标签及EOS标签，用于标记正确选项的开始和结束，将答案解码表示Ag通过线性层和softmax操作映射到词表上的分布，如下式所示：

表示第i个词元位置预测的对应词表中第t个词的概率；

生成损失即teacher-forcing损失为：

na表示正确选项中词元的总个数，a_i表示第i个词元。

4.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是阅读理解流中，问题编码表示Q单独输入解码器进行解码，使用自回归的方式，根据贪心策略得到用于阅读理解的辅助表示如下：

A_u，tokens＝Decoder(Q)

tokens指的是使用贪心策略每一个解码步得到的所有token，Au为问题扩展的向量表示。

5.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是阅读理解流中，将问题分别拼接上各个选项，同时输入编码器Encoder，得到问题选项表示QO：

QO＝Encoder(q,o)

将问题选项表示QO与问题扩展的向量表示Au进行Co-Match融合操作，进行交互融合：

所述Co-Match融合操作通过一个双向匹配层实现交互融合，设两个输入向量分别为：

其中相似度矩阵S的位于x行y列的元素，代表A中第x个词与B中第y个词之间的相似度，定义为这两个词表示的内积，

得到相似度矩阵之后，使用softmax操作，得到对于A中每一个词对应的B中每一个词的注意力大小：

同样的，得到对于B中每一个词对应的A中每一个词的注意力大小：

根据S_b和A，得到使用A更新后的B的表示：

拼接

和B，与S_a进行矩阵相乘，得到融合B的信息的A的表示：

同样的方法得到使用B更新后的A的表示：

将其拼接A本身，与S_b进行矩阵相乘，得到融合A的信息的B的表示：

最后结合A和

使用变换矩阵W^A得到最终输出的A的表示：

同样的，结合B和

使用变换矩阵W^B得到最终的B的表示：

6.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是融合表示

通过一个线性层，将所有选项映射到对应的logit，定义如下：

使用softmax操作映射到每个选项被选中为正确选项的概率，使用交叉熵损失函数，得到阅读理解损失：

其中分式中的logit_answer为正确选项通过线性层映射对应的logit，训练的目标希望模型预测让正确选项的logit尽可能地比其他非正确选项的大，从而选中正确选项。

7.根据权利要求6所述的基于生成模型辅助机器阅读理解的实现方法，其特征是对于单选题，直接对正确选项进行映射得到对应的logit；对于多选题，将多选题的T个选项表示按序拼接，使用线性层将其映射为2^T-1维的向量，使得各种选项的组合映射为新的选项排序，则多个正确选项所构成的组合排序为1到2^T-1之间的一个数，正确选项组合的映射为：

I(f)表示第f个选项是否为正确选项，是为1，否为0。

8.根据权利要求1所述的基于生成模型辅助机器阅读理解的实现方法，其特征是对理解模型训练时，结合生成流的损失函数和阅读理解流的损失函数，得到多任务优化损失：

L(θ)＝λ×loss_u+(1-λ)×loss_g

loss_g为生成流损失，loss_u为阅读理解流损失，θ为模型参数，λ定义为：

λ＝rouge(tokens，a)

λ是阅读理解流的解码输出与正确选项之间的rouge值，其意义是如果阅读理解流的解码输出生成的tokens与正确选项相似度高，则说明生成结果好，从而相对降低生成损失的权重，并增加阅读理解损失的权重，反之，如果生成的tokens与正确选项rouge值低，说明生成效果较差，从而相应地增加生成损失的权重，让模型优先提高生成的效果，同时避免双向匹配层进行交互融合时受到生成噪音的影响；

最后，使用梯度下降和误差反向传播算法对模型进行优化，采用Adam优化器。

9.基于生成模型辅助机器阅读理解的装置，其特征是具有计算机可读存储介质，计算机可读存储介质中配置有计算机程序，所述计算机程序被执行时实现权利要求1-8任一项所述的阅读理解模型。