CN112347756B

CN112347756B - 一种基于序列化证据抽取的推理阅读理解方法及系统

Info

Publication number: CN112347756B
Application number: CN202011051087.7A
Authority: CN
Inventors: 林政�; 付鹏; 刘欢; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2023-12-22
Anticipated expiration: 2040-09-29
Also published as: CN112347756A

Abstract

本发明涉及一种基于序列化证据抽取的推理阅读理解方法及系统。该方法训练基于序列化证据抽取的阅读理解模型，该模型包括编码层、推理交互层、证据预测层、答案预测层；利用训练完成的基于序列化证据抽取的阅读理解模型，输入上下文文本和问题文本，输出答案的类型、答案文本以及相关证据句子的集合。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果，将证据句子之间的相关关系考虑进去，逐步推理得到相关证据，同时覆盖问题中的重要信息。本发明从原来的独立预测每个证据句子变为序列化抽取证据句子，从而建模证据之间的相关性认证，从而提高了网络的安全可靠性。

Description

一种基于序列化证据抽取的推理阅读理解方法及系统

技术领域

本发明属于信息技术领域，具体涉及一种基于序列化证据抽取的推理阅读理解方法及系统。

背景技术

图神经网络的概念第一次在论文“Lecun Y,Bottou L.Gradient-based learningapplied to document recognition[J].Proceedings of the IEEE,1998,86(11):P.2278-2324”中提出，该论文将现存的神经网络模型扩展到处理图领域的数据。在一个图结构中，每一个节点由它自身的特征以及与其相连的节点特征来定义该节点。GNN的目标是学习得到一个状态的嵌入向量(embedding)，这个向量包含每个节点的邻居节点的信息。图注意力网络(Petar,Cucurull G,Casanova A,et al.Graph AttentionNetworks[J].2017)(GAT)是一种基于空间的图卷积网络，它的注意机制是在聚合特征信息时，将注意机制用于确定节点邻域的权重。

基于图神经网络模型的已有方法直接采用多层感知机独立预测证据句子，缺乏相关证据关联建模。多个证据句子的选择，希望可以共同覆盖必要的相关信息来回答问题，因此证据句子的选择之间并非一个独立的过程，具有一定的相关性从而共同得出问题的答案。由于推理过程本身的关联性与有序性，推理句子选择本身也是有序的。然而，Nishida等人(Nishida K,Nishida K,Nagata M,et al.Answering while Summarizing:Multi-taskLearning for Multi-hop QA with Evidence Extraction[J].Proceedings of the 57thConference of the Association for Computational Linguistics,ACL 2019，2335-2345)提出了QFE模型，将证据句子的抽取过程建模成一个迭代推理的过程，每一步都选择一个相关的证据句子，同时，迭代更新一个状态向量，用于下一步的推理，整个模型基于原来的答案预测模型采用了多任务学习的方式进行训练。在预测相关证据句子时，对所有句子单独进行分类，预测每个句子是相关证据的概率，并没有考虑到选择证据句子之间的相关性与时序性。

发明内容

本发明的目的在于提供一种基于序列化证据抽取的推理阅读理解方法及系统。从人类寻找证据的推理过程来看，首先推理句子本身之间具有一定的关联性，推理过程始终围绕问题和已经获得的相关信息进行，可以用序列化的过程来建模这个推理的链式结构。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果，这个过程不同于此前的独立预测证据句子的过程。通过这个序列化抽取证据句子的过程，将证据句子之间的相关关系考虑进去，逐步推理得到相关证据，同时覆盖问题中的重要信息。本发明在抽取句子的过程中引入迭代更新问题表示的方式来计算问题注意力。

本发明采用的技术方案如下：

一种基于序列化证据抽取的推理阅读理解方法，包括以下步骤：

训练基于序列化证据抽取的阅读理解模型，该模型包括编码层、推理交互层、证据预测层、答案预测层；其中：编码层使用BERT模型对输入的上下文序列C和问题Q进行编码，得到上下文编码C₀和问题编码Q₀；推理交互层采用双向注意力机制对上下文编码C₀和问题编码Q₀进行交互建模，得到交互后的上下文序列C₁和问题序列Q₁；证据预测层根据C₁和Q₁预测证据句子；答案预测层根据证据句子的预测结果以及C₁、Q₁，预测答案的类型和答案片段的开始和结束位置；

利用训练完成的所述基于序列化证据抽取的阅读理解模型，输入上下文文本和问题文本，输出答案的类型、答案文本以及相关证据句子的集合。

进一步地，所述的采用双向注意力机制对上下文编码C₀和问题编码Q₀进行交互建模，包括：

首先，计算上下文序列C₀和问题序列Q₀中每个词表示之间的相似度：S_kj＝α(C_0:k,Q_0:j)，其中S_kj表示上下文序列的第k个词和问题序列的第j个词的相似度，α＝W[C₀；Q₀；C₀⊙Q₀]，其中W是参数，⊙是按位点乘，[；]表示向量连接；

其次，计算上下文到问题的注意力权值：α_k＝softmax(S_k:)，即对相似矩阵S_kj的行向量S_k:进行归一化，得到权值α_k；对上下文序列C₀做加权和，得到：C₁＝∑_kα_kC₀

同理，计算问题到上下文的注意力权值：β_j＝softmax(max_col(S_kj))，其中col表示按列取最大值；再对问题序列Q₀做加权和，得到：Q₁＝∑_jβ_jQ₀。

进一步地，所述的根据C₁和Q₁预测证据句子，包括：

1)C₁和Q₁通过双向LSTM编码，对于C₁，把LSTM双向隐含层表示进行拼接得到文档上下文的一种表示X；对于问题表示Q₁，将双向LSTM的输出作为问题的一种表示Y；

2)对于X，将其通过一层全连接神经网络与最大池化层，得到推理状态的初始化表示X₀；在X中加入一个可训练参数xEOE，选中该xEOE表示证据句子抽取结束；

3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布；根据概率分布，训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子；当抽取到xEOE这个句子时，抽取过程结束，停止抽取句子并输出预测结果；测试阶段在每个时间推理步中，从当前未被抽取句子集合中选择一个句子，作为抽取结果；设抽取出的证据集合为E^t＝{e¹,…,e^t}；

4)证据抽取模型更新推理GRU的状态z^t，计算方法为：

z^t＝tanh(W₁x^t+W₂z^t-1)

其中，z^t是t时刻的推理状态，z^t-1是t-1时刻的推理状态，W₁和W₂是参数，x^t是t时刻的输入；

5)证据抽取模型根据更新的推理状态z^t和注意力机制计算得到当前推理步中加权问题的向量表示

T是最大时刻

α＝softmaxσ(z^t,Q₁)

其中，σ＝W[z^t；Q₁；z^t⊙Q₁]，W是参数，Z^t表示推理状态，使用最后时刻推理的结果；

6)选择证据语句的计算概率的过程为：

其中W是参数。

进一步地，所述的根据证据句子的预测结果以及C₁、Q₁，预测答案的类型和答案片段的开始和结束位置，包括：

将证据句子的预测结果与原始输入词表示进行拼接，得到上下文序列C′；

利用上下文序列C′，采用堆叠方式的双向LSTM建模，分别输出答案片段开始位置在整个上下文中的概率分布，答案片段结束位置在整个上下文中的概率分布和答案的类型。

进一步地，所述的基于序列化证据抽取的阅读理解模型，其损失函数包括交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。

一种采用上述方法的基于序列化证据抽取的推理阅读理解系统，其包括：

模型训练模块，用于训练基于序列化证据抽取的阅读理解模型，该模型包括编码层、推理交互层、证据预测层、答案预测层；其中：编码层使用BERT模型对输入的上下文序列C和问题Q进行编码，得到上下文编码C₀和问题编码Q₀；推理交互层采用双向注意力机制对上下文编码C₀和问题编码Q₀进行交互建模，得到交互后的上下文序列C₁和问题序列Q₁；证据预测层根据C₁和Q₁预测证据句子；答案预测层根据证据句子的预测结果以及C₁、Q₁，预测答案的类型和答案片段的开始和结束位置；

模型应用模块，用于利用训练完成的所述基于序列化证据抽取的阅读理解模型，输入上下文文本和问题文本，输出答案的类型、答案文本以及相关证据句子的集合。

本发明的技术关键点在于：

1、模型的编码层使用BERT得到上下文和问题编码。

2、证据预测层根据当前学习到的问题表示、推理状态以及每个句子的表示，选取概率最大的一个句子作为本轮时间步的抽取结果作为证据句子，并更新推理GRU的状态。

3、答案预测层根据证据预测结果和上下文、问题编码来预测答案的类型和答案片段的开始和结束位置。

4、模型在训练过程中，引入正确的证据句子来引导模型向正确的方向推理。通过注意力正则使得每个推理步尽量关注问题的不同部分，而不是不断地重复抽取一方面的相关信息。

5、对上轮问题表示引入迭代计算，基于问题计算表示，以及使用问题注意力的正则项。

6、测试过程中模型完全依据自身在之前推理步中做出的决定，来更新当前推理状态，并从剩下的句子中抽取新的句子。

利用本发明提供的方法进行机器阅读理解，具有以下优点：

1、从原来的独立预测每个证据句子变为序列化抽取证据句子，从而建模证据之间的相关性认证，从而提高了网络的安全可靠性；

2、采用循环神经网络的方式建模整个序列化抽取，每一时间步更新推理状态，通过逐步推理得到相关证据。

3、采用注意力机制从文档文本中抽取句子，使得这些句子的内容能够回答问题，也就是覆盖到问题相关的重要信息，用于给出问题的答案。

4、基于问题注意力的正则项，从而使得问题在不同抽取步的注意力分布尽可能分散，避免重叠，防止模型对问题的某一方面过多的关注。

附图说明

图1是本发明方法中证据抽取部分的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供基于序列化证据抽取的阅读理解模型，输入内容是上下文文本和问题文本，输出是答案的类型(是、否、文本片段)，答案文本以及相关证据句子的集合。如果答案是文本片段，则其是来自上下文文本中的一个连续短片段，不超过一句话。证据句子集合是回答问题的依据，答案就是根据证据句子得到的，证据集合中至少包含两个证据句子。

本发明的基于序列化证据抽取的阅读理解模型包括：编码层、推理交互层、证据预测层、答案预测层。整个模型的基本实现过程包括以下步骤：

1)编码层使用BERT(Bidirectional Encoder Representations fromTransformers)模型对输入的上下文序列C和问题Q进行编码，将问题Q与上下文序列C进行拼接，得到编码后的上下文序列和问题序列，即上下文编码C₀和问题编码Q₀。

2)推理交互层采用双向注意力机制对上下文编码C₀和问题编码Q₀进行交互建模，得到交互后的上下文序列C₁和问题序列Q₁。

3)证据预测层再根据C₁和Q₁预测证据句子。

4)答案预测层根据证据句子的预测结果和C₁与Q₁，预测答案的类型和答案片段的开始和结束位置。答案预测层将证据预测层学习到的句子表示与原始输入词表示进行拼接，得到上下文序列C′。利用上下文序列C′，答案预测层采用堆叠方式的双向LSTM建模，分别输出答案片段开始位置在整个上下文中的概率分布，答案片段结束位置在整个上下文中的概率分布和答案的类型。

5)整个基于序列化证据抽取的阅读理解模型的损失函数分为交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。

下面以机器阅读Hotpot QA并回答问题为例，说明本发明的基于序列化证据抽取的阅读理解模型。

1)编码层将问题与上下文序列进行拼接，作为BERT的输入进行编码，得到编码后的问题序列和上下文序列C₀和Q₀；问题的最大长度限制为50个单词，整个输入文本的最大长度限制为512个单词，大于最大长度的文本输入会被截掉。

2)推理交互层采用双向注意力机制对编码后的问题序列和文档序列Q₀和C₀进行交互建模，双向注意力机制赋予与问题相关的上下文更高的权重，最终得到交互后的上下文序列C₁和问题序列Q₁。

采用双向注意力机制进行交互建模的具体计算如下：

首先，计算文档序列即上下文序列C₀和问题序列Q₀中每个词表示之间的相似度：

其中S_kj表示上下文序列的第k个词和问题序列的第j个词的相似度，α＝W[C₀；Q₀；C₀⊙Q₀]，其中W是参数，⊙是按位点乘，[；]表示向量连接。

其次，计算文档(即上下文)到问题的注意力权值：

α_k＝softmax(S_k:)

也就是对相似矩阵S_kj的行向量S_k:进行归一化，得到权值α_k。然后再对文档向量(即上下文序列C₀)做加权和得到文档的表示C₁：

C₁＝∑_kα_kC₀

同理，计算问题到文档(即上下文)的注意力权值，这里取相似度矩阵列中最大值：

β_j＝softmax(max_col(S_kj))

其中，col表示按列取最大值，S_kj表示相似度矩阵。

再对问题向量(即问题序列Q₀)做加权和得到问题的表示Q₁：

Q₁＝∑_jβ_jQ₀

3)证据预测层根据C₁和Q₁预测证据句子。图1是证据抽取流程图。具体包括以下步骤：

3.1)C₁和Q₁通过双向LSTM编码。对于文档表示C₁，把LSTM双向隐含层表示进行拼接得到文档上下文的一种表示X。对于问题表示Q₁，将双向LSTM的输出作为问题的一种表示Y。

3.2)对于上下文表示X，本方法将其通过一层全连接神经网络与最大池化层，得到推理状态的初始化表示X₀。在X中加入了一个可训练参数xEOE，选中该xEOE表示证据句子抽取结束。

3.3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布。根据这些概率分布，训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子。当我们抽取到xEOE这个句子时，这个抽取过程结束，模型停止抽取句子，并输出预测结果。

测试阶段模型会在每个时间推理步中，从当前未被抽取句子集合中选择一个句子，作为抽取结果。此时，模型完全依据自身在之前推理步中做出的决定，来更新当前推理状态，并从剩下的句子中抽取新的句子，直到抽取到xEOE句子。这个抽取过程在每个推理步中都会选取前m个合法的最大概率的未结束状态的句子集合，同时从中挑出已经结束抽取过程的结束状态的句子集合。这里的合法指的是句子集合中无重复抽取的选择，然后计算这m个计算结果的所有扩展结果，依然从中选取出已经结束状态的句子集合，以及前m个合法的最大概率的未结束状态的句子集合。从而不断得到结束状态的句子集合，最终结束状态句子集合达到m个或者搜索深度大于句子个数，则结束搜索过程，从结束状态句子集合中选择概率最大的句子集合作为证据抽取的结果。句子抽取阶段的集束搜索深度和大小设置为5和2。设抽取出的证据集合为E^t＝{e¹,…,e^t}。

3.4)证据抽取模型更新推理GRU(门控循环神经网络)的状态z^t，计算方法为：

z^t＝tanh(W₁x^t+W₂z^t-1)

其中，z^t是t时刻的推理状态，z^t-1是t-1时刻的推理状态，W₁和W₂是参数，x^t是t时刻的输入。

3.5)证据抽取模型根据更新的推理状态z^t和注意力机制计算得到当前推理步中加权问题的向量表示

T是最大时刻

α＝softmaxσ(z^t,Q₁)

其中σ＝W[z^t；Q₁；z^t⊙Q₁]，W是参数，Z^t表示推理状态，使用最后时刻推理的结果；

3.6)选择证据语句的计算概率的过程为：

其中W是参数。

4)答案预测层根据证据句子的预测结果和C₁与Q₁，预测答案的类型和答案片段的开始和结束位置。采用堆叠方式的双向LSTM，将证据预测层学习到的句子表示与原始输入词表示进行拼接，得到上下文序列C′，第一层的输入为C′序列，每一层双向LSTM的输出结果都会通过全连接神经网络与sof tmax函数映射成概率分布，第一层概率分布表示答案片段开始位置在整个上下文中的概率分布，第二层概率分布表示答案片段结束位置在整个上下文中的概率分布，第三层概率分布表示答案的类型。

5)计算损失函数，整个模型的损失函数分为答案分布的损失函数La和证据预测的损失函数Le，答案分布的损失函数包括答案的开始结束位置、答案类型，都使用概率分布的交叉熵计算。证据预测的损失函数中，第一部分是抽取句子集合的负对数似然函数，第二部分是基于问题注意力的正则项。第一部分根据证据e^t以及每个时间推理步中计算输出的上下文句子的概率分布i，对二者计算负对数似然，得到抽取句子集合的损失函数；第二部分基于问题注意力的正则项所以有Le为：

i^t＝softmax(z^t)

其中，E表示证据集合，|E|表示所有证据，E\E^t-1表示不在证据集合的句子，Pr表示概率值，t表示t时刻。

模型优化器使用Adam优化器，初始学习率为2e-4，衰减因子为1。模型训练的批大小为32，累计梯度更新步数为1。

增加证据句子抽取后的模型在证据句子预测上的性能提升较为明显，EM值达到了0.529，F1值达到了0.833。同时，答案预测中，EM值达到了0.558，F1值到达了0.702。综合性能EM值为0.337，F1值为0.610。EM值很高的原因可能是由于抽取过程中动态决定抽取句子的个数，可以让证据抽取句子过程匹配更精确，从而导致EM值较高。证据预测性能上的提升证明了证据句子抽取模型是有效的。

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的基于序列化证据抽取的推理阅读理解系统，其包括：

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于序列化证据抽取的推理阅读理解方法，其特征在于，包括以下步骤：

利用训练完成的所述基于序列化证据抽取的阅读理解模型，输入上下文文本和问题文本，输出答案的类型、答案文本以及相关证据句子的集合；

所述的采用双向注意力机制对上下文编码C₀和问题编码Q₀进行交互建模，包括：

首先，计算上下文序列C₀和问题序列Q₀中每个词表示之间的相似度：其中S_kj表示上下文序列的第k个词和问题序列的第j个词的相似度，α＝W[C₀；Q₀；C₀⊙Q₀]，其中W是参数，⊙是按位点乘，[；]表示向量连接；

同理，计算问题到上下文的注意力权值：β_j＝softmax(max_col(S_kj))，其中col表示按列取最大值；再对问题序列Q₀做加权和，得到：Q₁＝∑_jβ_jQ₀；

所述的根据C₁和Q₁预测证据句子，包括：

2)对于X，将其通过一层全连接神经网络与最大池化层，得到推理状态的初始化表示X₀；

在X中加入一个可训练参数xEOE，选中该xEOE表示证据句子抽取结束；

3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布；根据概率分布，训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子；当抽取到xEOE这个句子时，抽取过程结束，停止抽取句子并输出预测结果；测试阶段在每个时间推理步中，从当前未被抽取句子集合中选择一个句子，作为抽取结果；设抽取出的证据集合为E^t＝{e¹,…,e^t}，e^t表示证据集合中的第t个证据；

4)证据抽取模型更新推理GRU的状态z^t，计算方法为：

z^t＝tanh(W₁x^t+W₂z^t-1)

T是最大时刻

α＝softmaxσ(z^t,Q₁)

6)选择证据语句的计算概率的过程为：

其中W是参数，/>和/>是t时刻的/>和/>

2.根据权利要求1所述的方法，其特征在于，步骤3)在证据抽取过程的每个推理步中都选取前m个合法的最大概率的未结束状态的句子集合，同时从中挑出已经结束抽取过程的结束状态的句子集合，其中合法指的是句子集合中无重复抽取的选择；然后计算m个计算结果的所有扩展结果，依然从中选取出已经结束状态的句子集合，以及前m个合法的最大概率的未结束状态的句子集合，从而不断得到结束状态的句子集合，最终结束状态句子集合达到m个或者搜索深度大于句子个数，则结束搜索过程，从结束状态句子集合中选择概率最大的句子集合作为证据抽取的结果。

3.根据权利要求1所述的方法，其特征在于，所述的根据证据句子的预测结果以及C₁、Q₁，预测答案的类型和答案片段的开始和结束位置，包括：

4.根据权利要求1所述的方法，其特征在于，所述的基于序列化证据抽取的阅读理解模型，其损失函数包括交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。

5.根据权利要求4所述的方法，其特征在于，所述答案分布损失函数La包括答案的开始结束位置、答案类型，都使用概率分布的交叉熵计算；所述证据预测的损失函数Le中，第一部分根据证据e^t以及每个时间推理步中计算输出的上下文句子的概率分布i，对二者计算负对数似然，得到抽取句子集合的损失函数；第二部分是基于问题注意力的正则项证据预测的损失函数Le的计算公式为：

i^t＝softmax(z^t)

6.一种采用权利要求1～5中任一权利要求所述方法的基于序列化证据抽取的推理阅读理解系统，其特征在于，包括：

7.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～5中任一权利要求所述方法的指令。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～5中任一权利要求所述的方法。