CN111651576A

CN111651576A - 一种基于迁移学习的多轮阅读理解方法

Info

Publication number: CN111651576A
Application number: CN202010474290.9A
Authority: CN
Inventors: 张寅�; 黄信静
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-11
Anticipated expiration: 2040-05-29
Also published as: CN111651576B

Abstract

本发明公开了一种基于迁移学习的多轮阅读理解方法。通过多任务学习方法，可以较好地迁移来自单轮阅读理解领域中的知识，有效地提升模型在多轮阅读理解任务上的效果。本发明包括如下步骤：1)获取多个阅读理解任务的训练语料；2)在多任务学习的过程中，从预定义的任务分布中采样一个批次的训练数据，送入共享的编码器和任务特定输出层中；3)通过任务特定的注意力机制捕捉任务对不同层输出的依赖，从而建立更好的任务相关的表征。和现有技术相比，本发明利用了单轮阅读理解任务中蕴含的知识，并且利用任务特定输出层和任务特定的注意力机制较好地建模目标任务的特性，可以有效地提升模型在多轮阅读理解任务的效果。

Description

一种基于迁移学习的多轮阅读理解方法

技术领域

本发明涉及迁移学习和深度学习方法在多轮阅读理解领域上的应用，尤其涉及采用任务特定的输出层和注意力机制建模任务特定表征的技术方法。

背景技术

在阅读理解任务中建模对话历史已经成为了一个研究热点。在这个场景中存在两个角色，提问者和回答者。提问者会连续的根据回答者的回答进行提问，而回答者的任务是从仅对其可见的文章中抽取一个文本片段作为回复。这个任务又称为ConvQA(Conversational Question Answering)。与传统的单轮阅读理解任务相比，此任务更加侧重于多轮交互的建模。

多轮阅读理解属于机器阅读理解任务的一种，指在给定上下文相关的语境和相关文章的情况下，根据问题从文章中抽取一段文本作为答案。多轮阅读理解任务中的上下文语境的设置较好地模拟了现实中用户的提问习惯，即用户通常会以指代和省略等方式引用上下文语境中的信息。理解上下文属于非常重要的技术。多轮阅读理解场景广泛地出现在各种信息咨询场景例如医疗问答，客服咨询等等。

在此任务中主要存在两个挑战。1)不可回答的问题。在对话的过程中，因为某些问题在文章中是无法找到答案的，因此需要给出不可回答的答复。2)多轮交互的建模问题。因为在对话的过程中，当前问题可能指代和引用对话历史中的部分信息，因此对话历史成为了理解当前问题时非常重要的线索。在理解问题时经常需要进行指代消解和省略补全。例如为了回答“在他身上发生了什么事情”，回答者必须理解代词“他”指向的是历史对话中涉及的人物。目前的方法都忽略了在大多数的阅读理解任务中知识是可以迁移的。单轮阅读理解任务和多轮阅读理解任务均需要某些相同的能力，例如识别不可回答的问题，推理和抽取答案。来自源任务的知识可能可以提升模型在目标任务上的表现，特别是当源任务和目标任务较为相关时。

发明内容

本发明目的是解决现有技术中存在的问题，并提供一种基于迁移学习的多轮阅读理解方法。

本发明具体采用的技术方案如下：

一种基于迁移学习的多轮阅读理解方法，其步骤如下：

S1：获取多个阅读理解任务的训练语料，并将它们预处理为相同的输入格式；

S2：利用训练预料对模型进行迭代更新，得到模型参数；且在每次模型更新时，采用多任务学习的方式来达到迁移学习的目的，步骤如S21～S22：

S21：按预定义的任务分布从候选任务中选择一个任务，并在该任务中采样得到一组由问题和文章组成的数据；

S22：将S21中采样得到的数据送入共享编码器和任务输出层；

所述共享编码器为多轮阅读理解模型，负责对输入数据进行信息建模；

所述任务输出层，负责捕捉共享编码器中每个任务的输出偏好，每个任务均具有各自对应的任务输出层；对于任一任务t而言，共享编码器的输出为H^t，采用前馈神经网络预测每个任务t对应的答案起始位置和结束位置，公式如下，

其中：

表示任务t的答案起始位置，

表示任务t的答案结束位置；

均为权重,

均为偏置，四个参数均为可训练变量；上标T表示转置；

根据任务输出层的输出结果计算出损失值，并根据优化算法更新共享编码器和任务输出层的模型参数；

S3：完成S2中的模型参数更新后，固定所述共享编码器和任务输出层的模型参数，并在共享编码器中加入注意力模块，通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度；设置注意力模块为可训练，仅以目标任务为训练语料，对注意力模块进行训练和参数更新；

S4：基于S3中训练完毕的共享编码器和任务输出层，根据输入的问题预测文章中答案的起始和结束位置。

基于上述技术方案，各步骤可以采用如下具体方法实现。

作为优选，所述多轮阅读理解模型，是在BERT模型的三层嵌入层中加入一层历史答案嵌入层得到的，文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次；每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量，文章中第i个词对应的低维向量查找公式为：

E_i,type＝C_type*OneHot(I_i,type)

其中：type表示词的属性，E_i,type为第i个词对应type属性的向量，E_i,type∈R^H，H为向量的维度；OneHot(·)表示将索引值变成独热向量的操作；C_type为type属性对应的嵌入矩阵，I_i,type为第i个词对应属性type的索引值；

将每个词对应不同属性的相连求和，得到每个词的输出向量，其中第i个词的输出向量E_i计算公式为：

S21中采样得到的数据送入多轮阅读理解模型前，需将当前问题、文章以及最近k_q轮的历史问题进行拼接，得到输入序列。

进一步的，所述输入序列的形式为：

其中：P为文章词序列，Q_n为当前任务中的问题,Q_n-m为前m轮任务中的问题,m＝1,2…，k_q；每个序列起始由[CLS]分隔符进行标记，相邻问题和文章之间由[SEP]分隔符进行分隔。

进一步的，所述词的属性type∈{answer,token,segment,pos}，其中answer表示是否为历史答案，token表示词表中的编号，segment表示当前输入的词来源于问题还是来源于文章，pos表示词在当前输入序列中的位置编号。

作为优选，所述的S22中，损失函数采用负对数似然，形式为：

训练过程中，优化模型参数以最大化文章中第m个词w_m作为答案开始的概率和文章中第n个词w_n作为答案结束的概率，其中m,n分别是训练集中给定的答案起始位置和结束位置。

作为优选，所述的注意力模块中，通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度的具体方法为：

使用单词级别的注意力机制通过同个单词在每一层的输出来决定该层输出的重要程度，计算公式：

其中

其中：权重

和偏置

属于可训练参数；

表示任务t对应的第i个词在共享编码器的倒数第j层上的权重，

表示任务t对应的第t个词在共享编码器的倒数第j层上的输出；

对共享编码器的每层输出和对应的权值进行加权求和，得到模型对于第i个词的最后输出

根据任务t中所有词的最后输出，获得最终的模型输出S^t，将其代替模型原来的输出H^t，送入到任务输出层中预测答案的起始和结束位置。

作为优选，所述的S1中，所述的训练语料选择单轮阅读理解数据集SQuAD2.0和多轮阅读理解数据集CoQA和QuAC。

作为优选，所述的S21中预定义的任务分布采用均匀分布。

作为优选，所述S3中，注意力模块的训练方法为：

按预定义的任务分布从目标任务中选择一个任务，并在该任务中采样得到一组由问题和文章组成的数据；再将采样得到的数据送入共享编码器和注意力模块，根据预测结果计算损失值，并根据优化算法更新注意力模块的模型参数。

和现有技术相比，本发明利用了单轮阅读理解任务中蕴含的知识，并且利用任务特定输出层和任务特定的注意力机制较好的建模目标任务的特性，可以有效的提升模型在多轮阅读理解任务的效果。

附图说明

图1为本发明的方法流程图；

图2为本发明和其他方法的参数量对比。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

多轮阅读理解技术主要以单轮阅读理解模型为基础，其任务是给定当前问题

其中q_1,n表示第n轮问题的第1个词，

为第t轮问题q_t的序列长度，对话历史H_n＝{(Q₁,A₁),(Q₂,A₂),...,(Q_n-1,A_n-1)}和文章

L_p为文章的长度，要求在文章中找到一段文本作为问题的答案A_n。

如图1所示，本发明主要基于预训练语言模型BERT作为多任务的共享编码器，同时建模历史对话问题和答案信息。每次迭代时从输入的QuAC，CoQA和SQuAD 2.0任务中分布按照相同的概率采样出一个任务，然而从任务中读取一个批次的数据输入到共享的编码器和特定的任务输出层中，计算损失值，根据优化算法更新模型参数。下面具体描述本发明的实现过程：

S1：获取多个阅读理解任务的训练语料，在本发明中数据集具体的可以选择单轮阅读理解数据集SQuAD 2.0和多轮阅读理解数据集CoQA和QuAC，并将它们预处理为相同的输入格式。

S2：利用训练预料对模型进行迭代更新，得到模型参数；且在每次模型更新时，采用多任务学习的方式来达到迁移学习的目的。每次更新的步骤如S21～S22：

S21：按预定义的任务分布从候选任务中选择一个任务，并在该任务中采样得到一组由问题和文章组成的数据。

为了使我们的框架更加具有统一性，我们将任务的挑选过程视为一个任务分布的采样过程。因此我们可以统一以往迁移学习中混合训练和序列学习的过程。本发明中任务分布可预定义为均匀分布，即认为输入的所有任务的重要性是相同的。例如混合数据的训练过程，其对应的策略为每个任务根据相同的概率进行采样训练。在序列学习的训练过程，其对应的策略为采样概率的变化过程，即首先设置任务1的概率为1，其他任务的采样概率为0，其次是任务2的采样概率为1，其他任务的采样概率为0，...，直到目标任务。

S22：将S21中采样得到的数据送入共享编码器和任务输出层。共享编码器和任务输出层可以视为一个模型，此处记为Context-Aware BERT，简称CAT-BERT。该模型的具体结构详述如下：

其中共享编码器为多轮阅读理解模型，负责对输入数据进行信息建模。本发明的多轮阅读理解模型，是在BERT模型的三层嵌入层中加入一层历史答案嵌入层(HistoryAnswer Embedding)得到的，文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次；每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量，即对四个嵌入矩阵通过下面公式找到每个词对应的低维向量，文章中第i个词对应的低维向量查找公式为：

E_i,type＝C_type*OneHot(I_i,type)

其中：type表示词的属性，E_i,type为第i个词对应type属性的向量，E_i,type∈R^H，H为向量的维度；OneHot(·)表示将索引值变成独热向量的操作；C_type为type属性对应的嵌入矩阵，I_i,type为第i个词对应属性type的索引值。

词的属性type∈{answer,token,segment,pos}，其中answer表示是否为历史答案，token表示词表中的编号，segment表示当前输入的词来源于问题还是来源于文章，pos表示词在当前输入序列中的位置编号。

将每个词对应四种属性的相连求和，即可得到每个词的输出向量，其中第i个词的输出向量E_i计算公式为：

历史问题同样也提供了一些指代性质的信息，因此S21中采样得到的数据送入多轮阅读理解模型前，需将当前问题、文章以及最近k_q轮的历史问题进行拼接，得到输入序列。输入序列的形式为：

其中任务输出层，负责捕捉共享编码器中每个任务的输出偏好，每个任务均具有各自对应的任务输出层。对于任一任务t而言，共享编码器的输出为H^t，采用前馈神经网络预测每个任务t对应的答案起始位置和结束位置，公式如下，

其中：t∈{QuAC,CoQA,SQuAD2.0}，

表示任务t的答案起始位置，

表示任务t的答案结束位置；

均为权重,

均为偏置，四个参数均为可训练变量；上标T表示转置；

根据任务输出层的输出结果计算出损失值，并根据优化算法Adam更新共享编码器和任务输出层的模型参数。其损失函数可以采用负对数似然，形式为：

S3：完成S2中的模型参数更新后，固定上述训练好的共享编码器和任务输出层的模型参数，并在共享编码器中加入注意力模块，通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度。原来的共享编码器、注意力模块和任务输出层构成了一个新的模型，此处记为CAT-BERT-ATTN。

在该注意力模块中，通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度的具体方法为：

由于层级级别的注意力机制是以[CLS]对应的输出向量作为重要程度的来源，然而直接使用这种向量来决定当前层每个词级别的表示的重要程度太过粗粒度，难以细致的建模每层中每个词的抽象程度。因此，本发明使用单词级别的注意力机制通过同个单词在每一层的输出来决定该层输出的重要程度，计算公式：

其中

其中：权重

和偏置

属于可训练参数；

表示任务t对应的第i个词在共享编码器的倒数第j层上的输出；

共享编码器连接注意力模块后，形成的新模型CAT-BERT-ATTN，需要重新进行训练。训练时，设置注意力模块为可训练，仅以目标任务为训练语料，对注意力模块进行训练和参数更新。其具体做法与S2相似，下面简述如下：

按均匀分布从目标任务中选择一个任务，并在该任务中采样得到一组由问题和文章组成的数据；再将采样得到的数据送入共享编码器和注意力模块，根据预测结果计算损失值，并根据优化算法更新注意力模块的模型参数。

S4：经过上述步骤S1～S3，就可以得到一个能够实现多轮阅读理解的模型，即包含注意力模块的共享编码器和任务输出层组成的CAT-BERT-ATTN。基于S3中训练完毕的CAT-BERT-ATTN，即可在实际应用中，根据输入的问题预测文章中答案的起始和结束位置。

下面将上述方法应用至具体实施例中，具体实施步骤如前所述，实施例中主要展示其效果。

实施例

为了测试上述引入迁移学习的多轮阅读理解方法的实际效果，以下为实施例。本实施例中方法的具体步骤如前所述，不再赘述，下面主要展示将上述方法的测试效果。

1.下载迁移学习的源领域数据SQuAD 2.0和CoQA，以及目标领域数据集QuAC。

2.预处理。将每个任务的数据按照如下方式进行预处理。在每一轮问题时，针对当前轮次，对文章中每个词产生索引值，其中每个索引表示当前词在历史答案中出现的相对轮次，对于文章中没有出现在历史答案中的词，其索引值为0。将最近3轮的历史也拼接到当前问题之后。预处理按照BERT中的WordPiece的切词方式，并以空格隔开。

3.在CAT-BERT模型每次迭代时，按照均匀分布从候选任务中采样出一个任务，然后取对应任务的一个批次训练数据输入到共享的编码器和采样任务对应的输出层中，根据输出和标签计算损失值，并进行反向传播。完成固定次数的迭代。可以得到模型权重。

CAT-BERT的训练过程伪代码简述如下:

输入：任务集合T＝{T₁,T₂,..,T_m}对应的数据集，迭代次数N₁，任务采样分布ψ，学习速率α；

初始化：将任务集合T＝{T₁,T₂,..,T_m}都打包成经过答案标记的训练批次B＝{B¹,B²,..,B^m}，其中

其中m是任务数量，p是每个任务m可以打包的训练Batch数量；装载预训练的BERT权重；随机初始化任务特定输出层；

1)steps小于等于N₁时，做以下2)～6)循环:

2)从ψ中采样一个任务m；

3)从B^m中读取一个批次的训练数据

4)将

送入Context-Aware BERT模型中，进行前向过程，得到任务特定的损失函数值L_t；

5)计算梯度

6)更新模型参数

输出：CAT-BERT权重

4.在步骤3结束后，固定住模型参数。加入任务特定的注意力模块并设置其为可训练。并参照步骤3的过程进行CAT-BERT-ATTN的训练，此时的训练仅在目标任务上进行。

CAT-BERT-ATTN模型的训练过程伪代码简述如下：

输入：目标任务T_target数据集,迭代次数N₂，经过多任务学习的CAT-BERT，学习速率α；

初始化：将目标任务T_target都打包成经过答案标记的训练批次

装载CAT-BERT权重。设置模型中的变量为不可训练；加入注意力模块，设置该模块中的变量为可训练；

1)当steps小于N₂时，执行以下2)～5)循环:

2)从B^target中读取一个批次的训练数据

3)将

送入CAT-BERT-ATTN模型中，进行前向过程，得到任务特定的损失函数值L_t；

4)计算梯度

5)更新模型参数

输出：模型CAT-BERT-ATTN权重

本实施例中对比了步骤3中不同迁移测量的结果，具体如下表1所示：

表1多任务上不同学习策略下的对比

Seq-SQuAD->QuAC：其中Seq表示序列学习(Sequential)的方式，表示模型先在SQuAD任务上学习，学习完成后，再在QuAC任务上学习。

Mix-SQuAD-QuAC：其中(Mix:混合学习的方式)，表示每次从SQuAD-QuAC中均匀采样一个任务的数据进行学习。

Co-CoQA-QuAC：联合学习的方式。即模型在CoQA-QuAC上进行均匀采样数据，然后每个任务还会有对应任务输出层的。

其余的学习方式表达含义依次类推。

BERT有多种形式，基于BERT base模型上，本实施例还给出了不同的微调方法，Pals，Adapter方法和注意力模型在不同层数，作为本发明的方法的对比效果。首先，可以看到本发明的注意力方法取得的效果是所有基线方法中最好的。其次，随着模型考虑层数的增多，可以看到Pals和Adapter方法的最终效果也呈现上升的趋势，在Pals-12时F1和HEQQ指标最高，Adapter在第9层时最好。这也符合两者模型的设计：随着模型层数的加多，经过转换的变量参数更多，因此建模更加细致。而基于注意力机制的方法在考虑前三层时效果最好，这可能是因为最后三层的更加接近最终输出，已经建模了较好的向量表征。另外，可以注意到微调方法仅微调最后三层时效果是最好的，随着微调层数的变多，所有指标开始出现了下降，这说明在迁移学习之后，在目标任务上进一步微调模型参数反而会丢失原来学习到的知识。

表2 Position注意力机制,Pals与层数的关系(基于模型BERT BASE)

其中Attn-Position：即本发明的方法。

Finetune：在注意力模块微调的过程中，仅微调倒数v层的Transformer模型权重，同时固定共享编码器输出层。

Pals方法参见文献：BERT and PALs:Projected Attention Layers forEfficient Adaptation in Multi-Task Learning。

Adapter方法参见文献：Parameter-Efficient Transfer Learning for NLP。

W/O Attention：即训练后的CAT-BERT权重不进行任何微调，直接进行评测，作为加入任务适配器的基线结果。

表3展示了Position注意力机制在BERT wwm上的结果，可以看到模型依旧有效，并且继续提升了模型在QuAC任务上的指标。

表3 Position注意力机制在BERT wwm的表现

图2给出了本发明的Attention-Position方法，Pals和Adapter方法在同一个Transformer层中加入的额外参数量对比。可以看到注意力方法需要的参数量较少。因为注意力方法复用同个全连接网络来捕捉每层中每个词的重要性，全连接的输出维度为1，因此额外的参数量为一个权重矩阵和偏执项。而Adapter方法的参数量来自于四个全连接层，且输出维度为204。因此需要较多的参数量。

由此可见，本发明的多任务学习框架CAT-BERT底部的编码器学习到的是多个任务之间共享的表征。为了能够使得我们的模型针对每个任务提取较好的任务特定的特征表示，本发明额外增加了第二阶段的微调过程，并且加入任务特定的词级别注意力机制来捕捉不同任务对同一个编码器中不同层输出的依赖关系，最终的注意力权值的可视化和对比实验也证明了我们加入的注意力机制能够捕捉这种依赖关系，并且进一步的提升了模型的指标。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于迁移学习的多轮阅读理解方法，其特征在于，步骤如下：

S22：将S21中采样得到的数据送入共享编码器和任务输出层；

其中：

表示任务t的答案起始位置，

表示任务t的答案结束位置；

均为权重，

均为偏置，四个参数均为可训练变量；上标T表示转置；

2.如权利要求1所述的基于迁移学习的多轮阅读理解方法，其特征在于，所述多轮阅读理解模型，是在BERT模型的三层嵌入层中加入一层历史答案嵌入层得到的，文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次；每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量，文章中第i个词对应的低维向量查找公式为：

E_i，type＝C_type*OneHot(I_i，type)

其中：type表示词的属性，E_i，type为第i个词对应type属性的向量，E_i，type∈R^H，H为向量的维度；OneHot(·)表示将索引值变成独热向量的操作；C_type为type属性对应的嵌入矩阵，I_i，type为第i个词对应属性type的索引值；

3.如权利要求2所述的基于迁移学习的多轮阅读理解方法，其特征在于，所述输入序列的形式为：

其中：P为文章词序列，Q_n为当前任务中的问题，Q_n-m为前m轮任务中的问题，m＝1，2…，k_q；每个序列起始由[CLS]分隔符进行标记，相邻问题和文章之间由[SEP]分隔符进行分隔。

4.如权利要求2所述的基于迁移学习的多轮阅读理解方法，其特征在于，所述词的属性type∈{answer，token，segment，pos}，其中answer表示是否为历史答案，token表示词表中的编号，segment表示当前输入的词来源于问题还是来源于文章，pos表示词在当前输入序列中的位置编号。

5.如权利要求1所述的基于迁移学习的多轮阅读理解方法，其特征在于，所述的S22中，损失函数采用负对数似然，形式为：