CN111858857A

CN111858857A - 一种跨文档长文本的分层融合阅读理解方法及系统

Info

Publication number: CN111858857A
Application number: CN202010765021.8A
Authority: CN
Inventors: 庞文君; 杨猛; 许红波
Original assignee: Qianhai Qibao Technology Shenzhen Co ltd
Current assignee: Qianhai Qibao Technology Shenzhen Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30
Anticipated expiration: 2040-07-31
Also published as: CN111858857B

Abstract

本发明涉及本发明公开一种跨文档长文本的分层融合阅读理解方法及系统，该阅读理解系统包括：问题与多文档的编码、基于注意力的联合增广表示、多步推理与多文档抽取、多文档长文本答案抽取多步融合、以及问题分类等多任务学习模块。本发明通过深度预训练的联合增广表示，对问题与文档进行编码与信息融合，使用多步推理机制对文档抽取与融合，能够解决跨文档长文本的信息离散化问题，提升多文档阅读理解的推理能力。

Description

一种跨文档长文本的分层融合阅读理解方法及系统

技术领域

本发明涉及自然语言文本分类处理领域，尤其涉及一种跨文档长文本的分层融合阅读理解方法及系统。

背景技术

随着信息技术的发展，信息爆发式的增长，对信息的整合与归纳提出了更高的要求。在人机交互场景中，从检索到推理、从单文档到多文档、从单答案到多答案融合，面临场景更加复杂，机器的阅读理解能力是体现人机智能化的重要标准，也成为研究的热点。

机器阅读理解旨在计算机如同人类一样，具备阅读由自然语言组成的材料，并对提出的问题能够进行推理回答的能力。在信息化高度发达的今天，具有重要的科研价值和工业实用价值。

近几年，机器阅读理解有了突破性的进展，在部分数据集上，甚至超越了人类的性能，但大多数都是基于篇章的文档的片段式局部词句匹配，并非基于对文档的推理与语义理解。同时，文档上也多仅限于单文档，不能解决离散化的多文档，答案局限于单片段，多片段的答案预测还是面临居多难题，满足不了现实中的人机交互场景。

现有技术主要存在以下问题：

(1)机器阅读理解中，很多相关方法仅限于单篇章的片段式抽取，处理多文档时面临信息表示分散导致抽取困难，信息表示上没有结合问题和篇章材料的权重信息，模型表示学习能力差；

(2)在模型学习过程中，现行的方法中能回答的问题偏简单，答案过于显式，模型不具备多步推理能力；

(3)在基于材料回答问题时，主流的方案多限于单答案直接抽取，不能很好的解决多文档答案的融合，性能差。

因此，现有技术存在问题，需要进一步改进。

发明内容

本发明正是针对上述问题，提出一种跨文档长文本的分层融合阅读理解方法及系统。本发明提出了跨文档长文本的分层融合阅读技术，让模型具备跨文档长文本的学习表示的能力以及多步推理、多步答案融合的能力，解决机器阅读中现行方法中几大核心难点问题。

为实现上述目的，本发明的具体技术方案如下：

一种跨文档长文本的分层融合阅读理解方法，包括步骤：

S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码，得到对应问题表示、文档表示，其中所述文档表示包含问题关联信息；

S2、通过多步推理与多文档抽取模块，对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量，经多步推理得到问题关联的文档和段落分数的抽取表示；

S3、通过多文档长文本答案抽取多步融合模块，从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果。

优选地，步骤S1中所述问题类别经由问题分类模块如下表示：

输入的问题类别c，先将其表示成维度为n_c的One-hot向量，通过随机赋值的嵌入矩阵得到问题类别的嵌入表示：

c^Q＝W_cc，

其中W_c为可训练学习的嵌入矩阵。

优选地，步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量：

(1)将多文档D按照段落划分，例如有N个文档，每个文档包含M个段落P，多文档D_i＝[P_i1,P_i2,Λ,P_im]，每个段落长度为l_p，多文档表示成一个N×M×l_p的文本序列；问题为Q，长度l_Q；

(2)多文档和问题分别采用了最新的roberta预训练语言模型，能根据下游任务进行微调，表示如下：

u_Q＝roberta(w_Q)。

(3)计算文档和问题的关联表示：采用基于注意力的联合增广表示，该表示在计算注意力权重时，从文档中的词和问题中的词计算：

其中，W_l为线性变换矩阵，

表示多文档的中i文档的第j个词，

表示问题的第k个词，然后加权求和的方式的得到文档的问题关联表示：

(4)为了使两者结合，采用Fusion方法计算，并做了多种变换，体现两种表示之间的共性与差异性，计算方法如下：

经过编码模块分别得到了问题、文档以及问题的类别的表示：

优选地，步骤S2中，所述通过多步推理与多文档抽取模块，对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量，具体方法如下：

对步骤S1中文档表示、问题表示，做自注意力计算，得到自注意力整合向量表示，其中，文档整合向量为：

通过上面的方法利用问题表示u^Q得到问题自注意力表示

结合问题类别表示c^Q，两者拼接得到问题整合向量r^Q，即：

进一步地，步骤S2中，所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下：

(1)采用门控制单元单向的GRU网络，每一步推理都有文档整合向量r^D作为固定参照，问题的整合向量r^Q为推理的初始状态，推理步骤如下，以第t步推理为例：

上述将问题的r^Q作为GRU的网络的初始隐含状态量，即h₀＝r^Q，W^qd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵，得文档整合向量r^D作为输入；

(2)重复以上推理模块，隐含状态量h_t不断更新，每一步都结合上一层的隐含状态量对文档重新打分，经过T步推理后，得到最后文档的分数：

(3)按照步骤(1)(2)对每个文档的段落进行多步推理，N个文档进行N次推理，每次推理步数为T步，得到段落分数

表示第i个文档的第j个段落分数。

进一步地，在所述经多步推理得到问题关联的文档和段落分数的抽取表示中，多步推理涉及的模型定义如下损失，用以调整预测与实际文档及段落的差异：

其中，L_D表示文档抽取损失，L_P表示段落级别的损失，整体模型训练时将加入到联合损失中。

优选地，步骤S3的具体实现方法如下：

(1)向量的整合：将问题类别表示c^Q、问题自注意力表示

文档级别和段落级别的抽取表示向量r^D、r^P，采用拼接方式整合：

(2)将z^Q输入到指针网络的编码模块，指针网络的编码模块为单层的BiLSTM，对所有的抽取文档进行编码，如下所示：

(3)通过指针解码模块，采用非线性的缩放点击自注意力结构作为指针网络来解码，预测文档抽取模块中的答案起始位置概率，计算方式如下：

其中W^s1，W^s2，W^e1，W^e2为可学习的参数，d为输入表示的维度；

(4)在答案融合模块中，决定答案起始位置没有采用最后的步长输出作为最终起始计算，这里采用最后M步作为输出，采用g₀＝r_Q作为初始状态,[z^Q,r^Q]作为输入，逐级输出隐藏状态、逐层融合，这里每一组都有一对起始位置，最后对M组取平均值。

进一步地，所述步骤S3中，训练过程中为增加鲁棒性，通过dropout层随机输出起始位置对的个数，这里dropout对所有的开始和起始位置都成对的选择丢失，得到P^start，P^end。

进一步地，所述步骤S3中，计算答案的损失函数：

y_s和y_e为真实答案的实际开始和结束位置。

将L_D，L_P，L_S三个损失组合成联合损失函数L，进行联合训练学习，其中λ₁，λ₂，λ₃为可调节的超参数；

L＝λ₁L_D+λ₂L_P+λ₃L_S；

联合学习时，通过调整模型参数λ₁，λ₂，λ₃至L收敛。

本发明还提供一种跨文档长文本的分层融合阅读理解系统，包括：问题分类模块，问题、文档、问题类别编码模块，多步推理与多文档抽取模块，多文档长文本答案抽取多步融合模块；

通过问题分类模块，将问题类别进行嵌入表示；

通过编码模块分别对问题、文档、问题类别进行编码，得到对应问题向量、文档向量，其中所述文档向量包含问题关联信息；

通过多步推理与多文档抽取模块，对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量，经多步推理得到问题关联的文档和段落分数的抽取表示；

通过多文档长文本答案抽取多步融合模块，从文档和段落分数的抽取表示进一步融合出一个最优的答案作为最终结果。

本发明设计了分层次多步推理融合模型，实现基于注意力的联合增广表示，解决了多文档信息表示分散的问题，丰富了跨文档长文本的信息表示；实现了多步推理机制，让模型具备反复推理的能力；设计了多文档长文本的多步答案融合模型，解决信息分散的答案预测问题。该模型属于端到端的模型，在实际工业界应用场景中具备很强的适用性，尤其面临现今碎片化的信息内容，该技术能大大减少信息理解的成本。

本发明可以提高人机交互领域中的机器阅读理解能力，尤其需要具备推理、面临多文档长文本的场景，提升人机交互能力。

附图说明

图1为本发明跨文档长文本的分层融合阅读理解方法的流程图；

图2为本发明跨文档长文本的分层融合阅读理解系统的架构图；

图3为本发明中文档、问题、问题类别编码模块的原理图；

图4为本发明中多步推理与多文档抽取融合模块的原理图；

图5为本发明中多文档长文本答案抽取多步融合模块的原理图。

具体实施方式

为了便于本领域的普通技术人员能够理解并实施本发明，下面将结合附图对本发明实施例作进一步说明。

参考图1至图5，本发明提供一种跨文档长文本的分层融合阅读理解方法，包括步骤：

参考图3，步骤S1中，所述问题类别经由问题分类模块如下表示：

c^Q＝W_cc，

其中W_c为可训练学习的嵌入矩阵。

步骤S1中，所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量：

其中，W_l为线性变换矩阵，

表示多文档的中i文档的第j个词，

参考图4，步骤S2中，采用多步推理与多文档抽取模块，该主要结合前面的问题表示，从多文档的表示中，逐步推理出与答案最相关的文档和段落。如同人类思考推理问题的过程，采用多步推理的机制对文档打分。

对于文档和问题，分别对步骤S1得到的文档表示和问题表示，做如下自注意力计算，得到自注意力整合向量表示，以文档为例。

同理通过上面的方法利用问题表示u^Q得到问题自注意力表示

结合问题类别表示c^Q，两者拼接得到问题整合向量r^Q，即：

多步推理模块中采用门控制单元单向的GRU网络，每一步推理都有文档整合向量r^D作为固定参照，问题的整合向量r^Q为推理的初始状态，推理步骤如下，以第t步推理为例：

这里将问题的r^Q作为GRU的网络的初始隐含状态量，即h₀＝r^Q，W^qd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵，参考步骤S1得文档整合向量r^D作为输入。重复以上推理模块，隐含状态量h_t不断更新，每一步都结合上一层的隐含状态量对文档重新打分，经过T步推理后，得到最后文档的分数：

上面推理模块的完成文档级别的打分，为了更加细腻的打分，还对每个文档的段落推理进行了多步推理，N个文档进行N次推理，每次推理步数为T步。过程如文档多步推理，不在重复，得到段落分数

表示第i个文档的第j个段落分数。

为了更好的找到正确的文档以及段落，模型设置上，定义了该模块的如下损失，调整预测与实际文档及段落的差异。

L_D表示文档抽取损失，L_P表示段落级别的损失，整体模型训练时将加入到联合损失中。

参考图5，步骤S3中，采用多文档长文本答案抽取多步融合模块实现，基于步骤S2中的结果我们没有直接进行选用分数最高的文档和段落作为答案抽取备选，避免因为步骤S2中的错误导致答案整个推理错误，答案抽取模块也采用带多步推理的答案融合模块，类似于人从几个比较相似的答案中选择一个最优的答案作为最终结果。

对于每个文档，经过步骤S2可以得到每个文档抽取的表示，文档级别和段落级别。首先进行向量的整合，采用了拼接方式：

将z^Q输入到指针网络的编码模块，指针网络的编码模块为单层的BiLSTM，对所有的抽取文档进行编码，如下所示：

指针解码模块，采用非线性的缩放点击自注意力结构作为指针网络来解码，预测文档抽取模块中的答案起始位置概率，计算方式如下：

其中W^s1，W^s2，W^e1，W^e2为可学习的参数，d为输入表示的维度。

答案融合模块中，决定答案起始位置没有采用最后的步长输出作为最终起始计算，这里采用最后M步作为输出，和步骤S2类似，采用g₀＝r_Q作为初始状态,[z^Q,r^Q]作为输入，逐级输出隐藏状态、逐层融合，这里每一组都有一对起始位置，最后对M组取平均值。

训练过程中为增加鲁棒性，通过dropout层随机输出起始位置对的个数，这里dropout对所有的开始和起始位置都成对的选择丢失。得到P^start，P^end。计算答案的损失函数：

y_s和y_e为真实答案的实际开始和结束位置。

L＝λ₁L_D+λ₂L_P+λ₃L_S；

联合学习时，通过调整模型参数λ₁，λ₂，λ₃至L收敛。

通过问题分类模块，将问题类别进行嵌入表示；

通过多文档长文本答案抽取多步融合模块，从文档和段落分数的抽取表示中融合出一个最优的答案作为最终结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种跨文档长文本的分层融合阅读理解方法，其特征在于，包括步骤：

2.根据权利要求1所述的跨文档长文本的分层融合阅读理解方法，其特征在于，步骤S1中所述问题类别经由问题分类模块如下表示：

c^Q＝W_cc，

其中W_c为可训练学习的嵌入矩阵。

3.根据权利要求2跨文档长文本的分层融合阅读理解方法，其特征在于，步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量：

(1)将多文档D按照段落划分，设有N个文档，每个文档包含M个段落P，多文档D_i＝[P_i1,P_i2,Λ,P_im]，每个段落长度为l_p，多文档表示成一个N×M×l_p的文本序列；问题为Q，长度l_Q；

u_Q＝roberta(w_Q)；

其中，W_l为线性变换矩阵，

表示多文档的中i文档的第j个词，

4.根据权利要求3跨文档长文本的分层融合阅读理解方法，其特征在于，所述通过多步推理与多文档抽取模块，对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量，具体方法如下：

通过上面的方法利用问题表示u^Q得到问题自注意力表示

结合问题类别表示c^Q，两者拼接得到问题整合向量r^Q，即：

5.根据权利要求4跨文档长文本的分层融合阅读理解方法，其特征在于，步骤S2中，所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下：

表示第i个文档的第j个段落分数。

6.根据权利要求5跨文档长文本的分层融合阅读理解方法，其特征在于，在所述经多步推理得到问题关联的文档和段落分数的抽取表示中，多步推理涉及的模型定义如下损失，用以调整预测与实际文档及段落的差异：

7.根据权利要求6跨文档长文本的分层融合阅读理解方法，其特征在于，步骤S3的具体实现方法如下：

(1)向量的整合：将问题类别表示c^Q、问题自注意力表示

(4)在答案融合模块中，决定答案起始位置没有采用最后的步长输出作为最终起始计算，这里采用最后M步作为输出，采用g₀＝r_Q作为初始状态,[z^Q,r^Q]作为输入，逐级输出隐藏状态、逐层融合，这里每一组都有一对起始位置，最后对M组取平均值；

8.根据权利要求7跨文档长文本的分层融合阅读理解方法，其特征在于，所述步骤S3中，训练过程中为增加鲁棒性，通过dropout层随机输出起始位置对的个数，这里dropout对所有的开始和起始位置都成对的选择丢失，得到P^start，P^end。

9.根据权利要求2跨文档长文本的分层融合阅读理解方法，其特征在于，所述步骤S3中，计算答案的损失函数：

y_s和y_e为真实答案的实际开始和结束位置；

L＝λ₁L_D+λ₂L_P+λ₃L_S；

联合学习时，通过调整模型参数λ₁，λ₂，λ₃至L收敛。

10.一种跨文档长文本的分层融合阅读理解系统，其特征在于，包括：问题分类模块，问题、文档、问题类别编码模块，多步推理与多文档抽取模块，多文档长文本答案抽取多步融合模块；

通过问题分类模块，将问题类别进行嵌入表示；

通过多文档长文本答案抽取多步融合模块，从文档和段落分数的抽取表示中进一步融合出一个最优的答案作为最终结果。