CN111563378A

CN111563378A - 一种联合学习的多文档阅读理解实现方法

Info

Publication number: CN111563378A
Application number: CN202010370071.6A
Authority: CN
Inventors: 张琨; 朱锦雷; 张传锋
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-21

Abstract

本发明公开一种联合学习的多文档阅读理解实现方法，本方法首先通过文档检索、段落检索可以快速的查找到与问题相关度较高文档与段落，然后进行答案、文档、段落抽取，并联合学习三个子任务的损失函数L_AE、L_DE、L_PE的和，可以更好的学习共享层参数，提高答案抽取的精度。因此，本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。

Description

一种联合学习的多文档阅读理解实现方法

技术领域

本发明涉及一种联合学习的多文档阅读理解实现方法，属于自然语言处理领域。

背景技术

阅读理解指的是：给定一个问题，机器通过处理分析大量文档，最终直接得到答案。该项技术不仅可以解决搜索引擎最后一公里的问题，不再需要返回许多链接，让人们自己分析，而是直接返回正确链接或者答案，而且可以促使智能问答、人机对话等技术更加强大。

近年来，阅读理解技术迅速发展。得益于评测数据集的日益成熟，许多单段落阅读理解模型的性能已经超越人类水平。但实际场景需要从许多长文档中寻找答案，不仅需要较高精度，还需要兼顾速度与效率。

专利《阅读理解方法及装置》针对长答案文本和短答案文本分别训练模型并进行预测来提高抽取答案的精度。专利《一种基于注意力池化机制的阅读理解方法》在通用阅读理解框架的基础上提出了注意力池化机制，引入局部注意力来提高抽取答案的精度。专利《基于多任务联合训练的机器阅读理解方法及计算机存储介质》提出通过联合学习答案位置和问题类型两个任务、平均多个模型结果来提高抽取答案精度。以上专利都是旨在提高答案抽取模型的精度。专利《一种机器阅读理解的实现方法以及装置》和《一种针对复杂数据的机器阅读理解方法》都是通过构建流水线的方式，先筛选相关段落，后进行答案抽取，但是他们过于依赖前者，容易遗漏包含正确答案的文档或者段落。专利《一种多粒度答案排序的多文档机器阅读理解方法》提出了通过滑动窗口的方法从多个文档中抽取候选答案，然后利用不同粒度的语义信息排序选择答案。由于该方法需要答案抽取模型处理所有的文档，因此消耗的计算资源很大，不太实用。

发明内容

本发明要解决的技术问题是提供一种联合学习的多文档阅读理解实现方法，本方法由粗到精联合学习，在通过联合学习方法尽量满足模型精度前提下，充分考虑到速度与效率，以便于技术落地。

为了解决所述技术问题，本发明采用的技术方案是：一种联合学习的多文档阅读理解实现方法，包括以下步骤：S01)、文档检索，确定满足与问题相似度要求的前K个文档，即保留top-K文档；S02)、段落检索，确定每个文档满足与问题相似度要求的前N个段落，即针对每个文档保留top-N段落；S03)、文档、段落、答案抽取，文档、段落、答案抽取共用共享层，共享层通过编码、匹配、融合形成文档相对于问题的语义表示，该语义表示是一个矩阵，每一列表示文档中某个词的向量表示

答案抽取是利用文档的语义表示d^D和人工特征f计算出答案在所有top-K文档中每个位置作为开始和结尾的概率，结合真实答案位置得到答案预测损失L_AE；文档抽取先将文档语义表示d^D转换为向量表示r^D，然后利用相似度函数、文档向量表示r^D和问题向量表示r^Q计算文档与问题的相似度，结果归一化，最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失L_DE；段落抽取将文档语义表示d^D拆分为各个段落的语义表示d^P，再将各个段落的语义表示d^P依次转换为向量表示r^P，然后利用相似度函数、段落向量表示r^P和问题向量表示r^Q计算段落与问题的相似度，结果归一化，最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失L_PE；S04)、联合学习三个损失函数L_AE、L_DE、L_PE的和，学习共享层参数，从而提高答案抽取的准确性。

进一步的，共享层对经过文档检索和段落检索的输入进行编码、匹配和融合的过程为：

编码：

其中

和

分别表示问题和文档的词向量、字向量，

分别表示问题和文档的t位置隐状态，

分别表示问题和文档的t-1位置隐状态；

匹配和融合：

其中

表示融合了问题信息的文档向量表示，

分别表示问题、文档中某个词的隐状态，W_l表示权重矩阵l；

其中

表示融合了文档中其他部分信息的文档向量表示，

分别表示文档中两个不同位置的词的表示，W_s表示权重矩阵s。

进一步的，文档抽取的具体过程为：

文档向量表示：

其中w_d表示权重矩阵d，

表示文档自对齐后的向量表示；

问题向量表示：

w_q表示权重矩阵，r^Q表示问题自对齐后的向量表示；

文档与问题相关性计算：

表示文档与问题的相关性，

是

的标准化值，W_qd表示权重矩阵qd；文档抽取损失：

K表示文档总个数，

表示文档i与问题相关性真实标签。

进一步的，段落抽取的具体过程为：

段落向量表示：

其中w_p表示权重矩阵p，

表示段落自对齐后的向量表示，

表示段落；

段落与问题相关性计算：

表示段落与问题的相关性，

是

的标准化值；

段落抽取损失：

其中K表示文档总个数，N表示段落总个数，

表示段落ij与问题相关性真实标签。

进一步的，答案抽取的具体过程为：

表示位置t作为开始和结束位置的概率向量，

为上一位置的概率向量，f是人工特征向量；

答案抽取损失：

分别是向量α_t中的两个元素，M表示文档的长度；

w_a表示权重矩阵a，α_t是

的归一化值，

表示位置j作为开始和结束位置的概率向量，D_w表示整个文档；

联合学习与预测：

L＝L_AE+λ₁L_DE+λ₂L_PE (22)，

联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数：

由公式(21)计算得到。

进一步的，先对文档抽取和段落抽取部分进行训练，然后联合学习三个损失函数L_AE、L_DE、L_PE的和，学习共享层参数。

本发明的有益效果：本发明通过文档检索、段落检索两个模块，我们可以快速的查找到与问题相关度较高文档与段落，通过联合学习三个损失函数L_AE、L_DE、L_PE的和可以更好的学习共享层参数，提高答案抽取的精度。因此，本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。

附图说明

图1为本发明进行文档检索、段落检索的流程图；

图2为本发明进行文档、段落、答案抽取的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例公开一种联合学习的多文档阅读理解实现方法，如图1、2所示，包括以下步骤：

S01)、文档检索

首先使用传统信息检索技术，比如：BM25、TF-IDF等，在元数据上构造问题与文档的相关度特征。除此之外，问题中词语的召回率作为另一个特征，指示相关度。然后，为了学习不同特征的重要性，我们使用排序学习模型来学习不同特征的权重。最后利用该模型对所有的文档进行排序，确定满足与问题相似度要求的前K个文档，即保留top-K文档。

S02)、段落检索

首先利用词或者实体匹配过滤掉噪声段落，结合文档结构构建特征，比如：是否为首段或尾段、段落长度、前一段落或后一段落长度、问题类型等。然后利用机器学习方法，比如XGBoost，学习不同特征的权重，最后根据该模型确定每个文档满足与问题相似度要求的前N个段落，即针对每个文档保留top-N段落。

S03)、文档、段落、答案抽取

本步骤基于一个多任务联合学习的深度网络模型实现，如图2所示，该模型的输入是前面两个步骤处理后的top-K个文档，每个文档包含top-N个段落。本模型包括三个子任务：文档抽取、段落抽取、答案抽取。这三个子任务使用一个共享层，它代表了相对于问题的语义表示。答案抽取子任务用于直接抽取答案，文档抽取子任务、段落抽取子任务是为了更好的抽取答案，帮助学习共享层。

S31)、本实施例中，共享层通过编码、匹配与融合形成了文档相对于问题的语义表示，它是一个矩阵，每一列表示文档中某个词的向量表示

下面给出了共享层网络的一种表示方法：

编码层：

其中

和

分别表示问题和文档的词向量、字向量，

分别表示问题和文档的t位置隐状态，

分别表示问题和文档的t-1位置隐状态；

匹配和融合：

其中

表示融合了问题信息的文档向量表示，

分别表示问题、文档中某个词的隐状态，W_l表示权重矩阵l；

其中

表示融合了文档中其他部分信息的文档向量表示，

分别表示文档。

S32)、本实施例中，文档抽取子任务先将共享层输出的文档语义表示d^D由矩阵表示转换为向量表示r^D，然后利用相似度函数、文档向量表示r^D和问题向量表示r^Q计算文档与问题的相似度，结果归一化，最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失L_DE。下面给出了文档抽取子任务的一种计算方法：

文档向量表示：

其中w_d表示权重矩阵d，

表示文档自对齐后的向量表示；

问题向量表示：

w_q表示权重矩阵，r^Q表示问题自对齐后的向量表示；

文档与问题相关性计算：

表示文档与问题的相关性，

是

的标准化值，W_qd表示权重矩阵qd；

文档抽取损失：

K表示文档总个数，

表示文档i与问题相关性真实标签。

S33)、段落抽取子任务首先需要将共享层输出的文档语义表示d^D拆分为各个段落的语义表示d^P，依次转换为向量表示r^P，然后利用相似度函数、段落向量表示r^P和问题向量表示r^Q计算段落与问题的相似度，结果归一化，最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失L_PE。下面给出段落抽取子任务的一种表示方法。

段落向量表示：

其中w_p表示权重矩阵p，

表示段落自对齐后的向量表示，

表示段落；

段落与问题相关性计算：

表示段落与问题的相关性，

是

的标准化值；

段落抽取损失：

其中K表示文档总个数，N表示段落总个数，

表示段落ij与问题相关性真实标签。

S34)、答案抽取任务在解码层利用文档的语义表示d^D和人工特征f计算出答案在所有top-K文档中每个位置作为开始、结束位置的概率向量

结合真实答案位置可以得到答案预测损失L_AE。

下面给出答案抽取子任务的一种计算方法：

指针网络：

表示位置t作为开始和结束位置的概率向量，

为上一位置的概率向量，f是人工特征向量，比如：该词是否出现在问题中、该词是否是句子分隔符等。

答案抽取损失：

分别是向量α_t中的两个元素，M表示文档的长度；

w_a表示权重矩阵a，α_t是

的归一化值，

表示位置j作为开始和结束位置的概率向量，D_w表示；

S35)、联合学习与预测：

L＝L_AE+λ₁L_DE+λ₂L_PE (22)，

为了让训练过程平稳，本实施例先对文档抽取和段落抽取部分进行训练，然后联合学习三个损失函数L_AE、L_DE、L_PE的和，学习共享层参数。

阅读理解主要有两步：文档选择和抽取式阅读理解。目前存在的方法，要么采用流水线的方式串联两步，要么联合学习的方法优化这两步。前者一旦文档选择错误，抽取的答案将会出现错误；后者需要联合处理所有的文档，需要占用的计算资源太多。然而，本实施例提出的这种联合学习的阅读理解实现方法是速度与精度进行了折衷，通过配置参数K、N可以很好的兼顾二者。

本实施例通过文档检索、段落检索两个模块，我们可以快速的查找到与问题相关度较高文档与段落，通过联合学习三个损失函数L_AE、L_DE、L_PE的和可以更好的学习共享层参数，提高答案抽取的精度。因此，本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种联合学习的多文档阅读理解实现方法，其特征在于：包括以下步骤：S01)、文档检索，确定满足与问题相似度要求的前K个文档，保留top-K文档；S02)、段落检索，确定每个文档满足与问题相似度要求的前N个段落，针对每个文档保留top-N段落；S03)、文档、段落、答案抽取，文档、段落、答案抽取共用共享层，共享层通过编码、匹配、融合形成文档相对于问题的语义表示，该语义表示是一个矩阵，每一列表示文档中某个词的向量表示