CN110309305B

CN110309305B - 基于多任务联合训练的机器阅读理解方法及计算机存储介质

Info

Publication number: CN110309305B
Application number: CN201910514438.4A
Authority: CN
Inventors: 徐建; 吴蔚; 王鑫鹏; 徐琳; 李晓冬; 王羽; 王冬冬
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2021-05-11
Anticipated expiration: 2039-06-14
Also published as: CN110309305A

Abstract

本发明公开了一种基于多任务联合训练的机器阅读理解方法和计算机存储介质，其中方法包括模型构建与训练阶段、测试阶段；所述模型构建与训练阶段包括：1、构建训练集；2、建立机器阅读理解模型，包括编码层、注意力匹配层、解码层；3、将训练集按样本数分为W个子样本集，分别用W个子样本集对机器阅读理解模型进行训练，得到W个机器阅读理解模型；所述测试阶段包括：将待测试的文章进行截断处理，处理后的文章与问题输入训练好的W个机器阅读理解模型中，得到W个预测的答案起始位置、终止位置和对应的分布概率，计算均值作为最终答案的起始位置、终止位置和对应的分布概率。该方法能够解决现有机器阅读理解方法对中文文本的准确率较低等问题。

Description

基于多任务联合训练的机器阅读理解方法及计算机存储介质

技术领域

本发明属于机器学习技术领域，具体涉及一种机器阅读理解方法及计算机存储介质。

背景技术

让机器完成阅读理解与问答是当前AI界前沿的一个火热主题，主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解无论是在工业界还是学术界都有着很高的研究价值，它能够让计算机帮助人类在大量文本中找到想要的答案，从而减轻人们对信息的获取的成本。也许，未来的搜索引擎将不仅仅是返回用户相关的链接和网页，而是通过对互联网上的海量资源进行阅读理解，直接得出答案返回给用户。

目前，基于抽取式的阅读理解任务相对比较成熟，针对英文的squad数据上的阅读理解模型已经超过人类的平均水平。中文的dureader也已经举办了第二期。目前主流的阅读理解模型都是编码层、匹配层和指针网络的3层架构，如论文《Reinforced MnemonicReader for Machine Reading Comprehension》中公开了一种3层架构的机器阅读理解模型，该模型通过学习给定文章、基于给定文章的问题以及对应的答案来训练机器阅读理解模型，训练所得的模型能够对文章和基于文章的问题指定答案的起始位置和终止位置，以及对应的分布概率。上述论文中公开的机器阅读理解模型对于英文文本可以得到较好的答案，但对于中文文本的处理结果准确率并不高。

发明内容

发明目的：本发明旨在提供一种适用于中文的机器阅读理解方法以及计算机存储介质，旨在解决现有机器阅读理解方法对中文文本的准确率较低等问题。

技术方案：本发明一方面公开了一种基于多任务联合训练的机器阅读理解方法，该方法包括模型构建与训练阶段、测试阶段；

所述模型构建与训练阶段包括如下步骤：

(1)构建训练集，包括如下步骤：

(1.1)采集训练语料，所述训练语料包括文章、基于文章的问题、问题的答案；

(1.2)对训练语料进行预处理，所述预处理包括：将繁体字转换为简体字，全角数字和全角字母转为半角数字和半角字母，去除答案首位的标点符号，去除训练语料中问题为空或文章为空的语料，去除问题和答案相同的语料；

(1.3)将文章标题与正文采用句号拼接起来，判断长度是否超过预设的长度阈值；如果没有超过，将拼接结果作为文章；如果超过预设的长度阈值，对文章进行截断处理，将截断后的内容作为文章；

所述截断处理的步骤包括：

对文章标题与正文拼接后的内容进行断句，得到多条短句；计算每个短句与问题之间的BLEU-4分数，计算每个短句的得分，第n个短句的得分为

其中s_bleu(n)为第n个短句与问题之间的BLEU-4分数，当n<0时s_bleu(n)＝0；α_i为加权系数，α_±3≤α_±2≤α_±1≤α₀；对短句依据得分降序排序，选取排序后的前N个短句，使得文章标题、开头句、结尾句和选取的M个短句长度之和最大且不超过预设的长度阈值；文章标题、开头句、结尾句和选取的M个短句拼接在一起作为截断后的内容；

(2)建立机器阅读理解模型；所述机器阅读理解模型包括编码层、注意力匹配层、解码层；

所述编码层将输入文本转化为语义特征；

所述注意力匹配层处理编码层输出的语义特征，得到整合了文章全局信息的文档表示，并预测问题的类型和答案；

所述解码层得到答案的起始位置、终止位置和对应的分布概率；

所述机器阅读理解模型的联合损失函数为：

L＝L_boundary+r*L_questiontype

其中L_boundary为答案边界的交叉熵，L_questiontype为问题类型的交叉熵，r为问题类型预测任务权重，

N为训练样本的数量，K为问题类型总数，y_i)为第i个样本属于第k类问题的标签，p_ik为第i个样本属于第k类问题的概率；

(3)将训练集按样本数分为W个子样本集，分别用W个子样本集对步骤(2)中建立的机器阅读理解模型进行训练，得到W个机器阅读理解模型；

所述测试阶段包括如下步骤：

将待测试的文章按照步骤1.3处理，处理后的文章与问题输入训练好的W个机器阅读理解模型中，得到W个预测的答案起始位置、终止位置和对应的分布概率，计算均值作为最终答案的起始位置、终止位置和对应的分布概率。

编码层将输入的文章和问题文本转化为语义特征，包括如下步骤：

(2.1)训练静态词向量：利用gensim库中的word2vec算法在输入的文本上训练词向量，得到输入文本的向量表示T_a；

(2.2)训练动态词向量：利用哈工大ELMoForManyLangs版本模型对输入文本，和/或搜狐军事新闻语料进行训练，得到elmo动态词向量T_d；

(2.3)采用jieba对输入文本做词性标注，得到词性标注信息；对词性编码，将词性标注信息转换为词性特征向量T_t；

(2.4)判断输入文本的问题中的每个词是否出现在输入文本的文章中，以及输入文章中的每个词是否出现在输入文本的问题中，构造二维特征标记向量T_s＝(a,b)；如果输入文本的问题中的每个词都出现在输入文本的文章中，a＝1，否则a＝0；如果输入文本的文章中的每个词都出现在输入文本的问题中，b＝1，否则b＝0；

将静态词向量T_a、动态词向量T_d、词性特征向量T_t和二维特征标记向量T_s拼接起来，得到输入文本的特征表示T＝[T_a T_d T_t T_s]；

将输入文本的特征表示T经过双向LSTM网络，所述双向LSTM网络的输出作为输入文本的语义特征表示。

所述注意力匹配层中预测问题的类型共有6类，包括：谁、时间、地点、如何才能、多少架、其他类别。

问题类型预测任务权重r＝0.2。

另一方面，本发明公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，所述程序代码包括用于执行上述方法的指令。

有益效果：与现有技术相比，本发明公开的机器阅读理解方法具有以下优点：1、根据问题和文章的特点，对文章进行有效合理的截断，加速了模型的训练；2、编码层引入更多的特征，能够更好地表达文章和问题的语义信息；3、将答案抽取和问题分类两个任务联合训练，提高模型的稳定性和准确度。

附图说明

图1为本发明公开的机器阅读理解方法的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，一种基于多任务联合训练的机器阅读理解方法，包括模型构建与训练阶段、测试阶段；

所述模型构建与训练阶段包括如下步骤：

步骤1、构建训练集，包括如下步骤：

(1.3)当文章较长时，现有的基于神经网络的编码器无法处理，本发明对文件进行截断处理。首先将文章标题与正文采用句号拼接起来，判断长度是否超过预设的长度阈值；如果没有超过，将拼接结果作为文章；如果超过预设的长度阈值，对文章进行截断处理，将截断后的内容作为文章；

所述截断处理的步骤包括：

截断处理是选择文章中与问题最相关的内容进行分析，在保证了准确率的同时减少了计算量，加速了模型的训练。

步骤2、建立机器阅读理解模型；所述机器阅读理解模型包括编码层、注意力匹配层、解码层；

本发明中机器阅读理解模型的结构采用论文《Reinforced Mnemonic Reader forMachine Reading Comprehension》中公开的3层结构，其中述编码层将输入文本转化为语义特征；注意力匹配层处理编码层输出的语义特征，得到整合了文章全局信息的文档表示，并预测问题的类型和答案；解码层得到答案的起始位置、终止位置和对应的分布概率。

为了适用于中文文本，且引入更多的特征，本发明中编码层将输入的文章和问题文本转化为语义特征，包括如下步骤：

注意力匹配层中中对每个训练样本计算问题和文章的bilinear attention，然后对于问题加权求和得到融合了问题信息的文章编码表示，后对于融入问题后的文章编码经过自注意力机制得到整合了文章全局信息的文档表示。

经过实验发现针对预测错误的例子，给出的答案往往与问题类型不能对应，比如问题是时间相关但是给出的答案跟时间没有任何关系，所以为了提高准确率，对问题类型进行预测，将预测问题类型作为一个辅助任务联合训练。预测问题的类型是一个多分类问题，本发明中将问题类型分为who(谁)，when(时间)，where(地点)，how(如何才能)，number(多少架)，其他类型等6个问题类型，通过关键字来区分问题类型。各类型的关键字如下：

who(谁)：谁，哪个发言人；

when(时间)：时间、何时、何日；

where(地点)：地点、何地、哪里；

how(如何才能)：如何、怎么样；

number：多少，几次；

其他类型。

联合了答案抽取和问题分类两个任务的机器阅读理解模型的联合损失函数为：

L＝L_boundary+r*L_questiontype

N为训练样本的数量，K为问题类型总数，y_ik为第i个样本属于第k类问题的标签，p_ik为第i个样本属于第k类问题的概率；本发明中问题类型预测任务权重r＝0.2

步骤3、将训练集按样本数分为W个子样本集，分别用W个子样本集对步骤2中建立的机器阅读理解模型进行训练，得到W个机器阅读理解模型；

所述测试阶段包括如下步骤：

结合本发明实施例公开内容所描述的方法可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器RAM、闪存、只读存储器ROM、可擦除可编程只读存储器EPROM、电可擦可编程只读存储器EEPROM、寄存器、硬盘、移动硬盘、只读光盘CD-ROM或者本领域熟知的任何其它形式的存储介质中。

Claims

1.基于多任务联合训练的机器阅读理解方法，其特征在于，包括模型构建与训练阶段、测试阶段；

所述模型构建与训练阶段包括如下步骤：

(1)构建训练集，包括如下步骤：

所述截断处理的步骤包括：

其中s_bleu(u)为第n个短句与问题之间的BLEU-4分数，当n＜0时s_bleu(n)＝0；α_i为加权系数，α_±3≤α_±2≤α_±1≤α₀；对短句依据得分降序排序，选取排序后的前N个短句，使得文章标题、开头句、结尾句和选取的M个短句长度之和最大且不超过预设的长度阈值；文章标题、开头句、结尾句和选取的M个短句拼接在一起作为截断后的内容；

所述编码层将输入文本转化为语义特征；

所述机器阅读理解模型的联合损失函数为：

L＝L_boundary+r*L_questiontype

N为训练样本的数量，K为问题类型总数，y_ik为第i个样本属于第k类问题的标签，p_ik为第i个样本属于第k类问题的概率；

所述测试阶段包括如下步骤：

将待测试的文章按照步骤1.3处理，处理后的文章与问题输入训练好的W个机器阅读理解模型中，得到W个预测的答案起始位置、终止位置和对应的分布概率，计算均值作为最终答案的起始位置、终止位置和对应的分布概率；

(2.2)训练动态词向量：利用哈尔滨工业大学ELMoForManyLangs版本模型对输入文本，和/或搜狐军事新闻语料进行训练，得到elmo动态词向量T_d；

(2.4)判断输入文本的问题中的每个词是否出现在输入文本的文章中，以及输入文章中的每个词是否出现在输入文本的问题中，构造二维特征标记向量T_s＝(a，b)；如果输入文本的问题中的每个词都出现在输入文本的文章中，a＝1，否则a＝0；如果输入文本的文章中的每个词都出现在输入文本的问题中，b＝1，否则b＝0；

2.根据权利要求1所述的基于多任务联合训练的机器阅读理解方法，其特征在于，所述注意力匹配层中预测问题的类型共有6类，包括：谁、时间、地点、如何才能、多少架、其他类别。

3.根据权利要求1所述的基于多任务联合训练的机器阅读理解方法，其特征在于，问题类型预测任务权重r＝0.2。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述方法。