CN110633730A

CN110633730A - 一种基于课程学习的深度学习机器阅读理解训练方法

Info

Publication number: CN110633730A
Application number: CN201910725530.5A
Authority: CN
Inventors: 印鉴; 梁艺阐; 周瑞莹
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-12-31
Anticipated expiration: 2039-08-07
Also published as: CN110633730B

Abstract

本发明提供一种基于课程学习的深度学习机器阅读理解训练方法，本方法使用BERT预训练语言模型将(文章，问题，选项)三元组构建成一个序列，不需要单独对每一个元组进行操作。构成一个问题的四个选项序列输入到网络中，进行跟BERT一样的微调过程，经过全连接层和softmax分类层，选择最大概率选项作为预测答案，通过最大化正确答案的对数概率来反向更新模型的参数，使模型学习到文本信息。三阶段训练框架先在简单数据集微调，再在普通数据集微调，能由浅入深按顺序地学到文本知识，最后在困难数据集训练后的测试效果比融合学习(在简单和普通数据集混杂起来的集合上微调再在困难数据集上训练)的准确率要高出2.5％。

Description

一种基于课程学习的深度学习机器阅读理解训练方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于课程学习的深度学习机器阅读理解训练方法。

背景技术

在当今的大数据时代，互联网每天产生海量的文本信息，如何从这些纷繁复杂的信息中高效而准确地提取需要的信息显得尤为重要。而以自然语言处理技术为核心的机器阅读理解(Machine Reading Comprehension，MRC)可以帮助人们完成这些任务——教会机器去阅读和理解、回答提出的问题。机器阅读理解被广泛用于商业应用，比如根据维基百科文档回答人们提出的通用性问题、根据公司的财务报告回答员工提出的一些查询或者根据用户手册为用户解决产品使用过程中遇到的麻烦等。

根据答案形式划分，机器阅读理解(MRC)可以分为完形填空式阅读理解、抽取式阅读理解和多选项阅读理解(Multiple-choice Reading Comprehension，MCRC)。在完形填空式阅读理解中，问题的答案通常来自于文档中的实体集合，在抽取式阅读理解中，问题的答案是文档中的一个连续片段，而在MCRC任务中，每一个问题都对应一个候选答案集合，其中，候选答案通常是由人工书写，问题的正确答案来自于该候选答案集合。因为答案不是直接从原文中抽取，MCRC需要更多的推理，更具挑战性。本发明也主要是针对MCRC数据集去应用提出的学习框架。

受益于大数据时代的到来和硬件算力的提升，基于神经网络的深度学习技术得到了较大的发展。在MRC任务中，基于神经网络的算法被广泛地应用，显著提高了机器在MRC任务上的表现水平。当前有关MCRC的研究中，研究人员采用基于深度学习的序列匹配框架，该框架首先编码文档、问题和候选答案，然后匹配三条序列得到匹配表达，最后选择出正确的答案。选择最近在自然语言领域取得突破性进展的预训练语言模型BERT作为的基本模型，并在MCRC数据集RACE上进行微调，最后在收集的目标数据集上进行训练，然后进行测试。

发明内容

本发明提供一种准确率较高的基于课程学习的深度学习机器阅读理解训练方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于课程学习的深度学习机器阅读理解训练方法，包括以下步骤：

S1：建立预训练语言模型在多选项阅读理解任务上的微调模型；

S2：将建立好的微调模型依次在简单数据集和普通数据集中训练；

S3：最后将微调好的模型用于困难数据集进行训练，然后进行测试。

进一步地，所述步骤S1的具体过程是：

S11：利用BERT作为预训练语言模型，因BERT模型的输入序列是一个句子或者一个句子对，而数据样例由文章，问题和选项三元组组成，将文章作为输入序列的Sentence A，将问题和选项的级联作为输入序列的Sentence B；因为每个问题有4个选项，一个样例包含了4条输入序列，一个序列对应一个选项，每个输入序列的形式为：

[[CLS]文章[SEP]问题+选项[SEP]]

其中[CLS]是标志符，其词嵌入用于进行分类任务；[SEP]是分隔符，用于分隔两个句子，序列长度最长为320，使用BERT模型的分词方法对序列进行分词，每个词为一个token，每个token的输入表示由词嵌入token embedding、分段嵌入segment embedding、位置嵌入position embedding联合组成；

S12：每个序列经过BERT的LayerNorm和dropout层，再经过多层双向Transformer编码器，包括BertAttention、BertIntermediate和BertOutput；

S13：进行微调过程，加一层全连接层和softmax层，取S12得到的最终隐藏层的第1个token即[CLS]的向量表示(C∈R^H)作为整个序列的聚合表示，则全连接层只增加了一个参数W∈R^K×H，其中K为分类的类别数，这里为4，分别是A，B，C，D四个选项；接着再使用softmax函数计算每个序列属于正确答案的概率，P＝softmax(CW^T)；在最大化正确答案的对数概率过程中，BERT的所有参数和W都会进行微调；

S14：将数据集中的训练数据按照上述流程进行训练，训练过程中采用交叉熵作为损失函数，使用ADAM优化器进行优化，使用混合精度运算来加快速度。最后将网络的参数保存下来。

进一步地，所述步骤S2的具体过程是：

S21：使用大型多选项阅读理解数据集RACE作为三阶段课程学习框架前两个阶段的学习内容；RACE数据集包含两个部分，一个是初中阅读理解RACE-M，一个是高中阅读理解RACE-H；先将步骤S1所述的基本模型用于简单数据集RACE-M，训练4个epoch，保存中间验证的模型以及最终模型，取表现最优的模型参数作为下一阶段训练的初始参数；

S22：将S21得到的最优模型的参数作为RACE-H训练的初始参数进行训练，同样保留中间验证阶段的模型，训练2个epoch后模型收敛，取表现最优的模型参数作为下一阶段的训练初始参数。

进一步地，所述步骤S3的具体过程是：

S31：将S22中得到的模型用于收集的高难度的数据集中进行训练，训练的时候依旧采用交叉熵作为损失函数，用ADAM作为优化器，使用混合精度运算，学习率设为1e-5，训练6个epochs之后模型收敛；

S32：将测试数据放入S31中训练好的网络中进行测试，测试指标采用准确率进行衡量。

进一步地，所述步骤S31中高难度的数据是从公开网站上爬取高中以上难度的多选项阅读理解题，并参照RACE的形式存成json格式的文件，以篇章为单位，一篇包含多个问题，一个问题包含4个选项，只有1个选项是正确的。

与现有技术相比，本发明技术方案的有益效果是：

本发明使用BERT预训练语言模型将(文章，问题，选项)三元组构建成一个序列，不需要单独对每一个元组进行操作。构成一个问题的四个选项序列输入到网络中，进行跟BERT一样的微调过程，经过全连接层和softmax分类层，选择最大概率选项作为预测答案，通过最大化正确答案的对数概率来反向更新模型的参数，使模型学习到文本信息。三阶段训练框架先在简单数据集微调，再在普通数据集微调，能由浅入深按顺序地学到文本知识，最后在困难数据集训练后的测试效果比融合学习(在简单和普通数据集混杂起来的集合上微调再在困难数据集上训练)的准确率要高出2.5％。

附图说明

图1为本发明的课程学习的框架示意图；

图2为本发明完整的基本模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-2所示，一种基于课程学习的深度学习机器阅读理解训练方法，包括以下步骤：

S3：最后将微调好的模型用于的困难数据集进行训练，然后进行测试。

其中，步骤S1的具体过程是：

S11：利用BERT作为预训练语言模型，因BERT模型的输入序列是一个句子或者一个句子对，而的数据样例由(文章，问题，选项)三元组组成，因此将文章作为输入序列的Sentence A，将问题和选项的级联作为输入序列的Sentence B。因为每个问题有4个选项，因此的一个样例包含了4条输入序列，一个序列对应一个选项。每个输入序列的形式为：

[[CLS]文章[SEP]问题+选项[SEP]]，

其中[CLS]是标志符(特殊的token)，这个token的词嵌入通常用于进行分类任务；[SEP]是分隔符(特殊的token)，用于分隔两个句子。序列长度最长为320。使用BERT模型的分词方法对序列进行分词，每个词为一个token。每个token的输入表示由词嵌入(tokenembedding)、分段嵌入(segment embedding)、位置嵌入(position embedding)联合组成。

S12：每个序列经过BERT的LayerNorm和dropout层，再经过多层双向Transformer编码器，包括BertAttention、BertIntermediate和BertOutput。

S13：进行微调过程，加一层全连接层和softmax层。取S12得到的最终隐藏层的第1个token(即[CLS])的向量表示(C∈R^H)作为整个序列的聚合表示，则全连接层只增加了一个参数W∈R^K×H，其中K为分类的类别数，这里为4，分别是A，B，C，D四个选项。接着再使用softmax函数计算每个序列(选项)属于正确答案的概率，P＝softmax(CW^T)。在最大化正确答案的对数概率过程中，BERT的所有参数和W都会进行微调(fine-tune)。

其中，步骤S2的具体过程是：

S21：使用大型多选项阅读理解数据集RACE作为三阶段课程学习框架前两个阶段的学习内容。RACE数据集包含两个部分，一个是初中阅读理解RACE-M，一个是高中阅读理解RACE-H。先将步骤S1所述的基本模型用于简单数据集RACE-M，训练4个epoch，保存中间验证的模型以及最终模型，取表现最优的模型参数作为下一阶段训练的初始参数。

其中，步骤S3的具体过程是：

S31：从公开网站上爬取高中以上难度的多选项阅读理解题，并参照RACE的形式存成json格式的文件，以篇章为单位，一篇包含多个问题，一个问题包含4个选项，只有1个选项是正确的。将S22中得到的模型用于收集的高难度的数据集中进行训练，训练的时候依旧采用交叉熵作为损失函数，用ADAM作为优化器，使用混合精度运算，学习率设为1e-5，训练6个epochs之后模型收敛。

本实施例中，采用的数据集RACE是2017年卡内基梅隆大学从公开网站收集的中国初中和高中英语阅读理解题，题目都是由英语教育者为评估12到18岁的中国初高中学生的英语阅读理解能力而精心设计的，主题覆盖范围广，问题难度大，答案不可直接从原文摘取，需要一定的推理能力才能选出正确答案，因此这个数据集为评估机器阅读理解模型的效果提供了一个很好的平台。同时，该数据集也是目前为止最大型的阅读理解数据集。为了验证提出的三阶段课程学习框架的有效性，参照RACE的格式构建了一个高中以上难度的数据集，从公开网站上收集大学、专升本、职称英语等方向的英语阅读理解题，难度更大，回答此类问题需要更强的推理能力，主题涵盖范围更广，与动植物、传记、历史、文化、环境、资源、交通、医药、经济和信息等等有关。本发明所使用的数据集基本情况如下表所示：

Dataset	Train	Dev	Test
				RACE-M	25421	1436	1436
RACE-H	62445	3451	3498
				OurData	12010	742	736

数据集的一个样例如下所示：

以上述样例为例，文章作为序列的句子A，问题拼接选项作为句子B，A、B两个句子拼接成一个320个词长的序列。因文章有可能会很长，因此需要对句子进行截断，每次截掉较长句子的尾部，直到整个序列的长度为320。若原序列长度不够320，则需要对序列进行补零操作。对于每一个token级别的词，它的词嵌入由三部分组成：token嵌入、位置嵌入、分段嵌入。token嵌入就是该token经过模型在语料库上预训练得到的一个关于该词在整个语料库上的向量表示；位置嵌入就是当前token在该序列中的位置索引；分段嵌入就是在这个序列中标注是句子A还是句子B，在这里，token属于句子A的分段嵌入为0，属于句子B的分段嵌入为1。将这三种嵌入拼接在一起就形成了每一个token的词嵌入，将整个序列的嵌入输入到多层的双向Transformer编码器中，取最后隐藏层的第1个token(即[CLS])对应的向量作为整个句子的聚合表示，即该向量代表了整个选项序列的向量表示，4个选项序列经过分类层即可得到预测答案。更具体地，分类层由全连接层和softmax函数组成，4个序列最后能得到4个概率，分别对应为选A、B、C、D的概率，取概率值最大的作为网络预测的答案，损失函数为交叉熵损失，通过最大化正确答案的对数概率来更新模型参数。

先按数据集难度用现有的训练集RACE-M和RACE-H依次对刚刚搭建的模型进行训练，训练过程中采用交叉熵作为损失函数，使用ADAM优化器进行优化，并采用混合精度运算加快运算速度。当训练好模型后将参数保存下来，接下来利用该模型对自己搜集的数据进行训练和预测。依旧采用交叉熵作为损失函数，用ADAM作为优化器，采用混合精度运算，学习率设为1e-5，训练了6个epochs之后模型开始收敛。随后将测试数据放入训练好的模型中进行测试。

为了表现本实验的良好效果，本实验和非三阶段课程学习框架(即融合第一第二阶段的学习为一个学习过程，对两个不同难度数据集混合在一起训练)进行了比较验证，评估指标为准确率(accuracy)，准确率定义为模型正确预测的样本数目占整个测试数据集样本总数的百分比。实验结果如下：

Method	Accuracy(Ourdata)
		BERT基线模型	33.8％
融合RACE-M和RACE-H进行微调	45.5％
		三阶段课程学习(的方法)	48.0％

从结果可以看出的发明相较于融合RACE-M和RACE-H进行微调的融合学习方法提升了2.5％，另外，收集的数据集使用BERT模型来训练，精度只有33.8％，跟RACE-M的69.0％和RACE-H的62.3％相比，足以证明数据集有更高的难度。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于课程学习的深度学习机器阅读理解训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于课程学习的深度学习机器阅读理解训练方法，其特征在于，所述步骤S1的具体过程是：

[[CLS]文章[SEP]问题+选项[SEP]]

3.根据权利要求2所述的基于课程学习的深度学习机器阅读理解训练方法，其特征在于，所述步骤S2的具体过程是：

4.根据权利要求3所述的基于课程学习的深度学习机器阅读理解训练方法，其特征在于，所述步骤S3的具体过程是：

5.根据权利要求3所述的基于课程学习的深度学习机器阅读理解训练方法，其特征在于，所述步骤S31中高难度的数据是从公开网站上爬取高中以上难度的多选项阅读理解题，并参照RACE的形式存成json格式的文件，以篇章为单位，一篇包含多个问题，一个问题包含4个选项，只有1个选项是正确的。