CN110647629A

CN110647629A - 一种多粒度答案排序的多文档机器阅读理解方法

Info

Publication number: CN110647629A
Application number: CN201910893027.0A
Authority: CN
Inventors: 史树敏; 刘宏玉; 黄河燕
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-03
Anticipated expiration: 2039-09-20
Also published as: CN110647629B

Abstract

本发明公开了一种多粒度答案排序的多文档机器阅读理解方法，属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型，通过滑动窗口拆分文档为文本片段与问题拼接，通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序，充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力，同时解决了现有模型对于多文档场景的输入长度受限的缺点，同时从不同粒度建模问题和答案的相关性，提升多文档机器阅读理解的答案质量。

Description

一种多粒度答案排序的多文档机器阅读理解方法

技术领域

本发明涉及一种多粒度答案排序的多文档机器阅读理解方法，尤其涉及一种融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序的多文档机器阅读理解方法，属于机器阅读理解应用技术领域。

背景技术

近几年，机器阅读理解(Machine Reading Comprehension，MRC)在多个机器阅读理解任务上的性能均取得了显著的提升，基于注意力机制的机器阅读理解模型被认为是机器阅读理解中最经典的方法，它首先分别对问题和文档进行数学建模，然后基于注意力机制，将问题和文档信息进行融合，在文档区间形成一个答案概率模型，然后通过找到概率最大的答案开始位置和答案结束位置，形成最优答案。然而在实际的应用场景中，常常会面临单个问题对应多个搜索引擎检索获得的文档，即需要整合多个文档的信息来预测答案。

多文档机器阅读理解引起了大家的广泛关注，多文档机器阅读理解的问题类型更为多样化，答案内容也更为丰富，主要体现在答案长度更长。而且近年来的研究主要集中在单文档机器阅读理解，相比较于单文档机器阅读理解，多文档机器阅读理解需要更好地处理问题和多个文档间的相互关系。如何利用将现有单文档机器阅读理解模型迁移到多文档机器阅读理解场景，并进一步提升多文档的信息整合能力，是值得关注的一个问题。

传统的解决多文档机器阅读理解的方法是首先利用问题和文档间的统计信息和浅层语义信息快速高效地过滤与问题不相关的文档，然后将剩余若干个文档拼接成一个文档，进而按照单文档机器阅读理解的方法对问题和合成的文档进行建模，从合成的文档中抽取出答案片段。最近，基于预训练的深度学习模型在自然语言处理的多项任务中取得了明显的性能提升。然而预训练的深度学习模型对输入长度有更严格的限制，传统的拼接多个文档的方法并不可行。在传统单文档机器阅读理解模型中，基于注意力机制的模型被认为是传统模型中最先进的方法，但是由于传统模型的缺陷是只能利用到目标任务数据集的有限数据，而基于预训练的深度学习模型可以在大规模无监督语料上进行预训练，然后在目标任务数据集上进行微调，可以有效的提升模型的表示能力和泛化能力。

发明内容

本发明的目的是为解决现有模型输入长度有限或无法融合多粒度问题与答案相关性继而导致模型表示能力和泛化能力差的技术缺陷，提出了一种多粒度答案排序的多文档机器阅读理解方法。

本发明所述的多文档机器阅读理解方法中涉及的定义如下：

定义1：文档滑动窗口：是指为了满足基于预训练的深度学习模型的输入长度限制，将文档拆分成固定长度的文本片段所使用的拆分策略；

定义2：输入文本序列：是指将问题和文档拆分后的问题-文本片段序列通过预定义符号[CLS]和[SEP]进行拼接后的序列；

其中，拼接后的序列为“[CLS]问题序列[SEP]文本片段序列[SEP]”，[CLS]是输入文本序列语义符号，[SEP]是问题序列和文本片段序列的分割符号。

定义3：单词特征向量：是指将输入文本序列向量化所使用的预训练向量，包括语义向量、位置向量以及分段向量；

其中，语义向量是指当前单词的语义特征信息，位置向量是指当前单词在文本序列的位置特征信息，分段向量是指当前单词来自于问题或者文档的分段特征信息；

定义4：多头自注意力网络模型：是指获取问题和文档上下文语义信息的预训练网络模型；

定义5：文档答案标签：指的是在问题-多文档语料中，其中包含正确答案的文档中标注答案所在文档的区间，以标注答案开始单词和结尾单词位置的方式标注正确答案；

定义6：问题-多文档语料：是指多文档机器阅读理解的问题和多个文档；对于多文档机器阅读理解任务，每一个问题都有问题相关的多个候选文档与之对应；

定义7：ROUGEL值：指的是机器阅读理解领域通用的答案质量评价指标，ROUGEL值越大，代表预测答案质量越好；

所述多粒度答案排序的多文档机器阅读理解方法，包括文本编码和答案预测两部分，具体包括如下步骤：

步骤一、获取问题及该问题对应的多个文档；

步骤二、利用一个预先定义的文档滑动窗口，将步骤一中获取的每个文档拆分成固定长度的文本片段，并将每一个文本片段逐一与步骤一获取的问题进行拼接构成多个问题-文本片段序列；

其中，文档滑动窗口，见定义1；

步骤三、对步骤二构成的每一个问题-文本片段序列进行分词处理，得到拼接后的问题-文本片段序列，即输入文本序列；

其中，输入文本序列，见定义2，具体为：[CLS]问题序列[SEP]文本片段序列[SEP]；

其中，[CLS]是输入文本序列的语义符号，[SEP]是问题序列和文本片段序列的分割符号；

步骤四、对输入文本序列进行向量化表示，将输入文本序列中每个单词用预训练的单词特征向量表示，得到输入文本向量；

其中，单词特征向量见定义3，具体为：输入文本序列中每个单词的语义表示、位置表示、分段表示的加和；

步骤五、将步骤四得到的输入文本向量作为多头自注意力网络模型的输入，其中，多头自注意力网络模型，见定义4；

基于该多头自注意力网络模型获取输入文本向量中融合上下文信息的每个单词所对应的向量表示，输出文本语义向量，具体包括如下子步骤：

步骤5.1计算文本语义向量的过程是将输入文本向量通过线性项映射到不同语义空间的语义向量，用于捕捉不同维度的语义信息；

其中，输入文本向量的线性项映射，具体通过(1)实现：

其中，Q，K，V为后续self-attention操作所需要的查询，键和值向量，均为步骤四中输出的输入文本向量；

其中，

为映射到第i个语义空间的线性项，Q′_i，K′_i，V′_i为第i个语义空间的语义向量，i的取值范围为1到12；

步骤5.2在不同语义空间的语义向量上进行self-attention操作，输出不同语义空间的文本语义向量；

其中，不同语义空间的语义向量的self-attention操作，具体通过(2)实现：

其中，softmax为归一化函数，T为向量转置操作，d_k为键向量即步骤四中输出的输入文本向量的维度，head_i为第i个语义空间的输入文本序列的文本语义向量；

步骤5.3将不同语义空间的文本语义向量拼接，将拼接后的向量通过线性项映射回原语义空间，称为输出文本语义向量，记为C；

其中，不同语义空间的文本语义向量的拼接和线性项映射，具体通过(3)实现：

C＝Concat(head₁，…，head₁₂)W (3)

其中，Concat为向量拼接操作，W为不同语义空间映射回初始语义空间的线性项，C为步骤五中多头自注意力网络模型输出的文本语义向量；

至此，从步骤一到步骤五完成了文本编码，得到文本语义向量；

步骤六、基于文本语义向量和文档答案标签训练多文档机器阅读理解答案预测模型进行参数更新，参数更新后用(4)计算步骤三输出的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率，再将概率按照文本长度进行softmax归一化处理；

其中，文本语义向量为步骤五的输出；文档答案标签，见定义5；

其中，训练多文档机器阅读理解答案预测模型进行参数更新，具体通过(4)和(5)实现：

p^s＝softmax(W_sC)，p^e＝softmax(W_eC) (4)

其中，W_s，W_e为答案预测模型的参数，p^s，p^e为预测输入文本序列中每个单词为所述问题对应答案的开始位置和结尾位置的概率，L_ANS为答案预测模型的损失函数，

为文档答案标签的答案开始位置和结尾位置，N为样本数量，log为以e为底的对数函数；

步骤七、基于文本语义向量和文档答案标签训练多文档机器阅读理解答案补全模型进行参数更新，对答案结尾位置赋予答案补全权重实现答案补全，参数更新后用(6)计算步骤三输出的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率，再将概率按照文本长度进行softmax归一化处理；

其中，训练多文档机器阅读理解答案补全模型进行参数更新，具体通过(6)和(7)实现：

p′^s＝softmax(W_s′C)，p′^e＝softmax(W_e′C) (6)

其中，W_s′，W_e′为答案补全模型的参数，p′^s，p′^e为预测输入文本序列中每个单词为所属问题对应答案的开始位置和结尾位置的概率，L′_ANS为答案补全模型的损失函数，α为对答案结尾位置赋予的答案补全权重；

步骤八、利用步骤六和步骤七中计算的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率求和得到联合分布概率，再将联合分布概率最大开始位置和结尾位置构成的文本区间确定为所述问题的候选答案；

按照文档数量对联合分布概率进行softmax归一化，输出每个候选答案的答案得分，每个文档只保留答案得分最高的候选答案；

步骤九、利用统计信息或浅层语义信息对候选答案进行粗排序，步骤一中问题对应的多个文档是通过搜索引擎获取的，为搜索引擎返回顺序靠前的文档赋予更高的概率，即粗排序概率，粗排序概率通过问题-多文档语料获得；

粗排序概率按照文档数量进行softmax归一化处理，输出每个候选答案的粗排序得分；

其中，问题-多文档语料，见定义6；

步骤十、利用深度语义信息对候选答案进行细排序，基于步骤五输出的文本语义向量，获取步骤三输出的输入文本序列语义符号[CLS]对应的语义向量和文档答案标签训练多文档机器阅读理解答案细排序模型进行参数更新，参数更新后用(8)计算输入文本序列与问题的相关性概率，即细排序概率；

细排序概率按照文档数量进行softmax归一化处理，输出每个候选答案的细排序得分；

其中，训练多文档机器阅读理解答案细排序模型进行参数更新，具体通过(8)和(9)实现：

cp＝softmax(W_cC_[CLS]) (8)

其中，W_c为答案细排序模型的参数，C_[CLS]为步骤五中获得文本语义向量中[CLS]对应的语义向量，cp为细排序概率，L_DOC为答案细排序模型的损失函数，K为文档拆分后的文本片段数量；

步骤十一、利用步骤八、步骤九、步骤十输出候选答案的答案得分、粗排序得分和细排序得分相乘计算候选答案多粒度排序得分，候选答案中多粒度排序得分最大的候选答案确定为所述问题对应的答案；

至此，从步骤六到步骤十一完成了答案预测，得到步骤一获取问题所对应的答案。

有益效果

本发明一种多粒度答案排序的多文档机器阅读理解方法，对比现有技术，具有如下有益效果：

1.所述方法可以利用基于预训练的深度学习模型获得更好的表示能力和泛化能力，同时解决了多文档机器阅读理解应用在预训练模型的主要问题，即文本输入长度受限；

2.所述方法针对多文档机器阅读理解的主要特征设计多文档机器阅读理解多粒度答案排序过程，为每个候选答案计算答案得分、粗排序得分和细排序得分，能够从多粒度信息对候选答案进行排序；

3.所述方法提出了一种简单有效的将预训练的深度学习模型扩展到多文档机器阅读理解的处理流程，提升了多文档机器阅读理解的答案质量。

附图说明

图1为本发明一种多粒度答案排序的多文档机器阅读理解方法的具体实施流程示意图。

具体实施方式

下面结合附图及实施例对本发明提出的一种多粒度答案排序的多文档机器阅读理解方法进行详细阐述和说明。

实施例1

图1为本发明一种多粒度答案排序的多文档机器阅读理解方法及本实施例的流程图；

从图1中可以看出，本发明包括如下步骤：

步骤A：问题和文档联合特征表示；

具体为获得问题和多个文档并进行文档拆分、输入序列向量化以及文本语义表示；

具体到本实施例中，此步骤A对应发明内容中的步骤一到步骤五；

获得问题和多个文档并进行文档拆分，具体为：按照预定义的滑动窗口长度和滑动距离将文档拆分成模型可输入的序列长度，具体对应发明内容中的步骤一到步骤二；

输入序列向量化，即获得问题-文本片段序列的输入文本向量表示，具体对应发明内容中的步骤三到步骤四；

获得问题-文本序列融合上下文信息的文本语义向量表示，具体对应发明内容中的步骤五；

步骤B：计算候选答案答案得分；

具体对应发明内容中的步骤六到步骤八；

步骤C：计算候选答案粗排序得分；

具体到本实施例中，利用多个文档的搜索引擎返回顺序计算候选答案的粗排序得分，具体与步骤九相同；

步骤D：计算候选答案细排序得分；

具体到本实施例中，利用多个文档在步骤A中获得的文本语义向量表示，获得输入文本序列语义符号[CLS]的向量表示，计算候选答案的细排序得分，具体与步骤十相同；

步骤E：多粒度排序预测答案；

具体到本实施例与步骤十一相同；

至此，步骤A到步骤E完成了一种多粒度答案排序的多文档机器阅读理解方法。

实施例2

本实例将以问题“壁虎是益虫吗”，文档1“壁虎是益虫，吃蚊子苍蝇昆虫，模样难看实则益虫，不咬人。”，文档2“首先，它对人类是无害的，你不要看它在房子你就害怕，但是它不会咬人，而且它还专吃蚊子和虫子。壁虎没有什么伤人的特性，少数几种可能有毒”，文档3“壁虎是一种爬行动物，属于蜥蜴一类的，有很多的药用价值，益虫，昼伏夜出，晚上喜在有灯光的地方捕食苍蝇，它是不伤人的，国家二级保护动物。”为例为本发明所述的一种多粒度答案排序的多文档机器阅读理解方法的具体操作步骤进行详细说明。

一种多粒度答案排序的多文档机器阅读理解方法的处理流程如图1所示。从图1可以看出，一种多粒度答案排序的多文档机器阅读理解方法，包括以下步骤：

步骤A1：问题和文档联合特征表示；

利用预先定义的滑动窗口对文档进行拆分、将问题和文档拆分后的文本片段拼接，利用预训练的语义向量、位置向量以及分段向量得到输入文本向量，利用预训练的多头自注意力网络模型获得输入文本序列的文本语义向量。具体到实施例的过程如下：

利用预先定义的滑动窗口对文档进行拆分；

具体实施时，预先定义的滑动窗口具备如下特征：滑动窗口长度为40，滑动距离为30。

文档1被拆分成文本片段1“壁虎是益虫，吃蚊子苍蝇昆虫，不咬人。”。文档2被拆分成文本片段1“首先，它对人类是无害的，你不要看它在房子你就害怕，但是它不会咬人，而且它还专吃蚊”和文本片段2“咬人，而且它还专吃蚊子和虫子。壁虎没有什么伤人的特性，少数几种可能有毒”。文档3被拆分成文本片段1“壁虎是一种爬行动物，属于蜥蜴一类的，有很多的药用价值，益虫，昼伏夜出，晚上喜在有”和文本片段2“昼伏夜出，晚上喜在有灯光的地方捕食苍蝇，它是不伤人的，国家二级保护动物。”。

将问题和文本片段用[CLS]和[SEP]拼接，文档1的输入文本序列1为“[CLS]壁虎是益虫吗[SEP]壁虎是益虫，吃蚊子苍蝇昆虫，不咬人。[SEP]”。文档2的输入文本序列1为“[CLS]壁虎是益虫吗[SEP]首先，它对人类是无害的，你不要看它在房子你就害怕，但是它不会咬人，而且它还专吃蚊[SEP]”，输入文本序列2为“[CLS]壁虎是益虫吗[SEP]咬人，而且它还专吃蚊子和虫子。壁虎没有什么伤人的特性，少数几种可能有毒[SEP]”。文档3的输入文本序列1为“[CLS]壁虎是益虫吗[SEP]壁虎是一种爬行动物，属于蜥蜴一类的，有很多的药用价值，益虫，昼伏夜出，晚上喜在有[SEP]”，输入文本序列2为“[CLS]壁虎是益虫吗[SEP]昼伏夜出，晚上喜在有灯光的地方捕食苍蝇，它是不伤人的，国家二级保护动物。[SEP]”。

对所有文档的输入文本序列进行向量化表示，获得输入文本向量，利用预训练的多头自注意力网络模型计算融合上下文信息的文本语义向量表示。

步骤B1：计算候选答案答案得分，具体到实施例：

为每个文档的输入文本序列预测输入文本序列中答案开始位置和结尾位置的联合分布概率最大的文本区间确定为该文档对应所述问题的候选答案，文档1的输入文本序列1的候选答案为“壁虎是益虫”，答案得分为0.82。文档2的输入文本序列2的候选答案为“壁虎是一种爬行动物，属于蜥蜴一类的，有很多的药用价值，益虫”，答案得分为0.74，文档2的输入文本序列2的候选答案为“它是不伤人的”，答案得分为0.58。文档3的输入文本序列1的候选答案为“它对人类是无害的”，概率为0.52，文档3的输入文本序列2的候选答案为“壁虎没有什么伤人的特性”，答案得分为0.68。每个文档只保留所有输入文本序列中答案得分最高的候选答案作为当前文档的候选答案。

步骤C1：计算候选答案粗排序得分，具体到实施例：

由于本例的文档从搜索引擎获得，所以搜索引擎的排序结果为候选答案粗排序得分：

其中，文档1得分0.52，文档2得分0.33，文档3得分0.15。

步骤D1：计算候选答案细排序得分，具体到实施例：

利用步骤B1中保留的候选答案的输入文本序列语义符号[CLS]的文本语义向量计算候选答案排序细得分：

其中，文档1的得分为0.42，文档2的得分为0.18，文档3的得分为0.40。

步骤E1：多粒度排序预测答案，具体到实施例：

将每个文档候选答案的答案得分、粗排序得分和细排序得分相乘，得分最大的候选答案为模型预测的答案，本例中最后选择的候选答案为“壁虎是益虫”。

实施例3

为了进一步验证本发明一种多粒度答案排序的多文档机器阅读理解方法的有效性，本实施例采用实施例2中使用的27万问题-多文档语料，问题-多文档语料来自于百度公司2017年发布的大规模中文多文档机器阅读理解数据集DuReader，每个问题对应百度搜索引擎或者百度知道社区的5个文档，数据集对于每个问题设有文档答案标签，标注并且5个文档按照搜索引擎真实返回的顺序排序。

对融合多粒度答案排序和不融合多粒度答案排序的基于预训练的深度学习模型进行实验，同时，为了验证步骤七中设置的答案补全、步骤八中设置的候选答案粗排序和步骤九中设置的候选答案细排序的有效性。同样基于实施例2中使用的27万问题-多文档语料，将上述实验获得的结果进行对比分析，

对比结果如表1所示。

表1对比实验结果

表1的ROUGEL由定义9决定，实验1-不排序，是模型预测的多个候选答案中直接选择步骤六中答案开始概率和答案结尾概率加和最大的文本区间作为答案预测，不对多个候选答案进行排序。在不同排序方法的实验2，实验3，以及实验4中，实验4设置了本发明中多粒度答案排序，即答案粗排序、答案细排序和答案补全。实验3只设置了答案粗排序和答案细排序方式，实验2只设置了答案粗排序方式。从表1的结果可以看出，ROUGEL值最高的是实验4，基于本发明提出的多粒度答案排序，实验1不利用多粒度答案排序的实验结果ROUGEL最低，实验2以及实验3相比于实验4依次去掉了若干粒度的排序方式，实验2以及实验3的ROUGEL结果均比实验4获得的ROUGEL值低。

从表1可以看出，本发明一种多粒度答案排序的多文档机器阅读理解方法，在答案预测质量上有了提升，证明多粒度答案排序方法能有效从多个粒度捕捉问题和答案的相关性。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都在要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多粒度答案排序的多文档机器阅读理解方法，其特征在于：所述理解方法中涉及的定义如下：

其中，拼接后的序列为“[CLS]问题序列[SEP]文本片段序列[SEP]”，[CLS]是输入文本序列语义符号，[SEP]是问题序列和文本片段序列的分割符号；

步骤一、获取问题及该问题对应的多个文档；

其中，文档滑动窗口，见定义1；

步骤五、将步骤四得到的输入文本向量作为多头自注意力网络模型的输入，并基于该多头自注意力网络模型获取输入文本向量中融合上下文信息的每个单词所对应的向量表示，输出文本语义向量；

其中，多头自注意力网络模型，见定义4；

步骤五，具体包括如下子步骤：

其中，输入文本向量的线性项映射，具体通过(1)实现：

其中，

为映射到第i个语义空间的线性项，Q′_i，K′_i，V′_j为第i个语义空间的语义向量；

C＝Concat(head₁，···，head₁₂)W (3)

至此，从步骤一到步骤五完成了文本编码,得到文本语义向量；

p^s＝softmax(W_sC)，p^e＝softmax(W_eC) (4)

p′^s＝softmax(W_s′C)，p′^e＝softmax(W_e′C) (6)

步骤八、利用步骤六和步骤七中计算的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率求和得到联合分布概率，再将联合分布概率最大开始位置和结尾位置构成的文本区间确定为所述问题的候选答案；再按照文档数量对联合分布概率进行softmax归一化，输出每个候选答案的答案得分，每个文档只保留答案得分最高的候选答案；

其中，问题-多文档语料，见定义6；

cp＝softmax(W_cC_[CLS]) (8)

步骤十一、利用步骤八、步骤九、步骤十输出候选答案的答案得分、粗排序得分和细排序得分相乘计算候选答案多粒度排序得分，候选答案中多粒度排序得分最大的候选答案确定为所述问题对应的答案。

2.根据权利要求1所述的一种多粒度答案排序的多文档机器阅读理解方法，其特征在于：步骤5.1中i的取值范围为1到12。

3.根据权利要求1所述的一种多粒度答案排序的多文档机器阅读理解方法，其特征在于：步骤九中粗排序概率按照文档数量进行softmax归一化处理，输出每个候选答案的粗排序得分。

4.根据权利要求1所述的一种多粒度答案排序的多文档机器阅读理解方法，其特征在于：步骤十中细排序概率按照文档数量进行softmax归一化处理，输出每个候选答案的细排序得分。