CN112380835B

CN112380835B - 融合实体和句子推理信息的问题答案提取方法及电子装置

Info

Publication number: CN112380835B
Application number: CN202011078614.3A
Authority: CN
Inventors: 林政�; 付鹏; 刘欢; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2024-02-20
Anticipated expiration: 2040-10-10
Also published as: CN112380835A

Abstract

本发明提供一种融合实体和句子推理信息的问题答案提取方法及电子装置，包括：将一问题与若干目标文档拼接，输入预训练语言模型，得到问题表示Q与文档上下文表示C；获取融合文档信息的问题表示Q⁰与融合问题信息的文档表示C⁰；依据问题表示Q^(t‑1)与文档表示C^t‑1，获取实体图节点集合E^(t‑1)与句子图节点集合并采用图注意力网络对实体图与句子图更新，获取问题表示Q^(t)与文档表示C^t；对实体图节点集合E^(t)与句子图节点集合融合并与文档表示C^t交互；依据推理更新后上下文表示C′^(t)，获取问题答案预测结果。本发明提出引入句子节点的图神经网络，通过门机制将实体表示与句子表示融合，利用句子级别推理信息弥补实体推理信息的缺失，提升推理阅读理解任务的性能。

Description

融合实体和句子推理信息的问题答案提取方法及电子装置

技术领域

本发明属于自然语言处理领域，尤其涉及一种融合实体和句子推理信息的问题答案提取方法及电子装置。

背景技术

推理阅读理解是给定用户一个问题的多个相关文档，从文档中找到问题的答案和相关的证据句子。推理阅读理解问题需要模型结合问题，对文本语义上的含义进行推理，找到问题的相关证据句子和最终答案。推理阅读模型整体上可以分为三大类方法。一类是记忆网络的方法，通过不断迭代更新推理状态来模拟推理过程；另一类是基于图神经网络的方法，通过图神经网络的更新来进行推理；还有一些其他的基于深度学习的方法。其中，基于图神经网络的推理阅读理解模型的框架整体可以分为三个部分：1)语义编码阶段；2)推理建模阶段；3)证据和答案预测阶段。语义编码阶段将问题、文档编码成具有上下文语义信息的文本向量；推理建模阶段使用图神经网络技术对推理过程进行建模，建立问题和文档之间的联系；答案预测阶段从得到文本表示中进行相关证据句子和答案片段的预测。针对一些候选段落较多的数据，还需要进行段落选择，段落选择阶段将从候选段落中选择相关段落，用作后续语义编码的输入。

基于记忆网络的方法比较典型的有Dynamic Co-attention Network(CaimingXiong,Victor Zhong,Richard Socher；Dynamic Coattention Networks For QuestionAnswering.ICLR,2017)，该方法将模型分为编码和解码两部分。一方面，编码阶段使用了Co-attention机制将问题和文档进行编码，得到问题相关的文档表示；另一方面，在解码阶段，利用答案预测的结果进行迭代，每轮都会根据当前状态值去预测答案，根据答案预测结果更新当轮状态值，不断迭代更新，最后一轮的结果作为最终答案。

基于图神经网络的方法比较典型的有DFGN模型(Lin Qiu,Yunxuan Xiao,YanruQu,Hao Zhou,Lei Li,Weinan Zhang,Yong Yu；Dynamically Fused Graph Network forMulti-hop Reasoning.ACL 2019:6140-6150)。DFGN模型首先使用BERT(BidirectionalEncoder Representation from Transformer)对文档独立分类，进行段落选择，语义编码阶段使用BERT得到文档和问题的上下文表示，推理建模阶段采用GAT(Graph AttentionNetworks)的图神经网络实现，使用BiLSTM建模图与上下文表示双向融合的过程，将图推理后得到的节点信息融合到上下文表示中，通过不断迭代这个图推理的过程来完成图信息与文本信息的双向融合，从而预测抽取式答案；此外，DFGN还建模了问题在图构建过程中的作用，采用Bi-Attention更新问题表示，根据问题表示与节点表示的匹配程度构建动态图，同时在迭代过程中不断更新问题表示。

基于图神经网络的方法还有一些其他的改进，比如SAE模型(Ming Tu,KevinHuang,Guangtao Wang,Jing Huang,Xiaodong He,Bowen Zhou:Select,Answer andExplain:Interpretable Multi-Hop Reading Comprehension over MultipleDocuments.AAAI 2020:9073-9080)，模型首先改进了文档选择模块，将分类问题转化为排序问题，设计新的损失函数来提升相关文档的准确率；SAE模型在推理阶段，直接使用句子嵌入表示作为节点来预测相关证据句子；在句子嵌入表示学习中，使用了答案预测的打分，采用混合注意力池化机制将答案预测结果与上下文表示融合，得到句子表示，这个过程实际上是将答案预测的结果用来做证据预测。

其他非图神经网络的方法中，Jianxing Yu、Zhengjun Zha、Jian Yin等人设计了一种推理神经元(Inferential Machine Comprehension:Answering Questions byRecursively Deducing the Evidence Chain from Text.ACL 2019:2241-2251)，通过循环链接这种推理神经元，模拟推理过程的链式结构。这种推理神经元包括记忆向量、读操作单元、写操作单元、控制器操作单元组成，控制器单元基于问题产生一系列基于注意力的操作，读操作单元根据控制器的操作指示读取相关内容，写单元根据控制器操作和读单元结果产生新的结果，并更新记忆向量，这个推理神经元是递归链接在一起的，前一步的输出是后一步的结果；此外，由于不同样本推理深度的不确定性，推理过程的终止动作是动态决定的，整个网络通过强化学习来训练。

但目前基于图神经网络的方法，因为推理信息不是只存在于实体信息当中，以实体构建图神经网络来建模推理过程会缺失非实体信息的推理信息。

发明内容

本发明的目的是提出一种融合实体和句子推理信息的问题答案提取方法及电子装置，利用句子中的信息来补充实体信息，将实体和句子的信息互相融合来提升推理阅读理解任务的性能。

为达到上述目的，本发明采用如下技术方案：

一种融合实体和句子推理信息的问题答案提取方法，其步骤包括：

1)将一问题与若干目标文档拼接到一起，输入到预训练语言模型中，得到问题的表示Q与文档的上下文表示C；

2)对表示Q与上下文表示C进行交互，得到融合文档信息的问题表示Q⁰与融合问题信息的文档表示C⁰；

3)依据问题表示Q^(t-1)与文档表示C^t-1，获取实体图节点集合E^(t-1)与句子图节点集合并采用图注意力网络对实体图与句子图进行节点更新，根据得到的实体图节点集合E^(t)与句子图节点集合/>获取问题表示Q^(t)与文档表示C^t，其中t为推理更新次数，t≥1；

4)对实体图节点集合E^(t)与句子图节点集合进行融合，将融合结果与文档表示C^t交互，得到推理更新后的上下文表示C^′(t)；并依据上下文表示C^′(t)，得到该问题的答案预测结果。

进一步地，通过以下步骤得到目标文档：

1)将若干原始文档输入一由由预训练语言模型与一层线性分类器组成的段落选择模型；

2)根据一阈值，在各原始文档中选取与所述问题相关的段落，得到若干目标文档。

进一步地，所述预训练语言模型包括：BERT模型。

进一步地，对表示Q与上下文表示C进行交互的方法包括：使用双向注意力机制。

进一步地，通过以下步骤获取实体图节点集合E^(t-1)：

1)通过MeanMaxPooling，得到问题表示q^(t-1)与实体表示其中1≤i≤J，J为实体数量；

2)计算问题表示q^(t-1)与各实体表示的相关度/>

3)对各相关度进行归一化处理，得到归一化结果/>

4)获取实体图节点集合

进一步地，通过以下步骤得到的实体图节点集合E^(t)：

1)计算实体图节点的中间计算表示其中/>U、b均为图注意力网络参数；

2)获取归一化后的注意力系数其中k为实体节点/>的相邻实体节点集合B_i中相邻实体节点个数,/>1≤j≤k,W为图注意力网络参数；

3)计算实体图节点得到实体图节点集合E^(t)。

进一步地，通过以下步骤得到句子图节点集合

1)通过双向LSTM网络，得到问题表示与句子表示/>其中1≤n≤K,K为句子数量；

2)计算问题表示与句子表示/>的相关度/>

3)对对所有相关度β_i进行归一化处理，得到，得到归一化结果

4)获取句子图节点集合

进一步地，采用双向注意力机制，获取问题表示Q^(t)＝Bi-Attention(Q^(t-1)，E^(t))。

进一步地，通过以下步骤得到推理更新后的上下文表示C^′(t)：

1)计算门机制参数其中σ为sigmoid函数，W_g、b_g为可训练参数；

2)计算推理更新后的上下文表示C^′(t)＝f((E^(t)·g^(t))；C^(t))，其中f为tanh函数。

进一步地，得到该问题答案预测结果的方法包括：将上下文表示C^′(t)输入若干层层堆叠且不共享参数的LSTM层。

进一步地，答案预测结果包括：相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下积极效果：

1)提出引入句子节点的图神经网络推理模型，来完善实体推理图的非实体类推理信息，提升推理阅读理解的效果。

2)通过门机制将实体表示与句子表示进行融合，对实体推理信息与句子推理信息交互建模，提升推理阅读理解的效果。

3)利用句子级别的推理信息来弥补实体推理信息的缺失，将句子推理信息与实体推理信息进行交互融合，提升推理阅读理解任务的性能。

附图说明

图1为本发明的模型框架示例图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实例，并配合所附图作详细说明如下。

请参考图1，本发明模型采用的框架整体分为四个部分：1)段落选择模块；2)语义编码模块；3)图神经网络推理模块；4)证据和答案预测模块。语义编码模块将问题、文档编码成具有上下文语义信息的文本向量，推理模块使用图神经网络对推理过程进行建模，得到上下文文档表示后进行相关证据句子和答案片段的预测。

过程一：段落选择模块。

段落选择模块，使用BERT模型(Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.NAACL-HLT 2019:4171-4186.)和一层线性分类器来微调训练一个文本分类的模型，单独判断问题与段落是否相关，设置阈值为0.3来选取较为相关的段落。这是在保证召回率下的选择，同时召回的相关文档总长度基本满足下一阶段的最大输入长度512。

过程二：语义编码模块。

语义编码层将问题和上下文文档编码成具有上下文语义信息的文档向量表示。问题和该问题所有的相关文档拼接在一起构成编码模块的输入，编码模块采用预训练的BERT模型。经过编码后，获得问题的表示以及文档上下文表示其中R代表实数集合，L和N分别是问题和上下文的长度，d₁是BERT隐藏层的维度大小。

然后，利用双向注意力机制(Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi:Bidirectional Attention Flow for MachineComprehension.ICLR 2017)对问题和上下文进行交互建模。模型使用双向注意力机制，对问题和上下文进行交互建模，学习融合文档信息的问题的表示以及融合问题信息的文档的表示/>其中d₂是输出的向量表示的维度大小。

过程三：图神经网络推理模块。

推理建模层的设计是模拟人类单步推理的行为，从问题和上下文开始，找到单步推理的中间实体和相关句子，然后迭代这个单步推理的过程完成最终推理。一个单步推理过程包括三个部分：实体图推理、句子图推理、实体-句子的融合与文档交互。

1)实体图推理部分。

实体图推理中，对融合文档信息的问题的表示Q₀计算MeanMaxPooling来得到问题在实体图中的表示，对融合问题信息的文档的表示C₀计算MeanMaxPooling来得到实体表示[e₁，...，e_J]，其中J是实体的个数。然后计算问题表示和实体表示之间的相关度，以相关度为软掩码得到图神经网络的实体节点表示。计算公式如：

q＝MeanMaxPooling(Q₀)

其中Q₀融合文档信息的问题的表示，q是问题在实体图中的表示，MeanMaxPooling是取向量的平均值和最大值。

进一步计算实体e在实体图中的表示：

e_i＝MeanMaxPooling(C₀)

其中C₀是融合问题信息的文档的表示，MeanMaxPooling是取向量的平均值和最大值。

然后，计算实体图中问题的表示q和实体表示e之间的相关度γ：

将所有的相关度γ进行归一化有：

最后得到实体图网络上各个实体节点的表示：

E＝[α₁e₁,α₂e₂,…,α_Je_J]

其中，i∈{1,2,…,J}J是实体的个数，V是模型要学习的参数。

进一步将实体图中的节点表示为

然后，采用图注意力网络进行节点更新，得到推理后的实体节点表示。计算公式如下：

进一步的，是相关度过滤后的图神经网络中实体的节点表示，t是迭代到第几轮，k代表与第i个实体节点相邻的实体节点的个数，B代表第i个节点的相邻的实体节点的集合，中间参数：h是实体的节点表示的中间计算表示，U、b、W都是模型要学习的参数。

是归一化后的注意力系数，h是编码后的实体节点表示，γ是中间计算结果，对实体表示/>做非线性变换。

然后，采用双向注意力机制来根据实体集合表示E更新问题表示Q。计算公式如下：

Q^(t)＝Bi-Attention(Q^(t-1),E^(t))

进一步地，t代表推理更新次数。Q(^t)用于下一次推理更新。

2)句子图推理部分。

句子推理图中，通过双向LSTM对融合了文档信息的问题表示Q₀和融合了问题信息的文档的表示C₀进行编码得到问题在图上的表示q_s和句子表示S。然后计算问题和文档表示之间的相关度，以相关度为软掩码得到图神经网络的句子节点表示。计算公式如下：

q_s＝LSTM(Q₀)

S＝LSTM(C₀)

计算问题和文档表示的相关度：

其中，U是参数，d₃是问题和文档的向量的维度大小。对上述进行归一化得：

即

是软掩码过滤后的句子表示，n∈{1,2,…,K}，K是文档句子的个数。

然后，采用图注意力网络进行节点更新，得到推理后的句子节点表示。计算公式如下：

句子推理图与实体推理图共用一个问题表示，问题表示更新见1)中的问题表示更新，得到文档表示C^(t)。

3)实体-句子的融合与文档交互。

根据1)和2)得到实体与句子的节点表示后，通过门机制将实体表示与句子表示进行融合，然后与文档表示进行交互。计算公式如下：

C^'(t)＝f((E^(t).g^(t))；C^(t))

进一步地，g是根据句子表示计算得到的门机制参数，其中σ是sigmoid函数，C^′(t)是将句子表示与实体表示进行融合，再与文档表示C^(t)进行非线性计算，得到推理更新后的文档表示C^′(t)，其中f是tanh函数C^(t-1)的初始值是C₀。

过程四：证据与答案预测模块。

最后是证据和答案预测模块，将过程三输出的推理更新后的文档表示C′作为预测层的输入，整个预测层的输出有四个维度，包括相关证据句子、答案的开始位置、答案的结束位置、答案的类型。预测层采用一种垂直结构设计来解决输出之间的依赖关系，四个不共享参数的LSTM层通过层层的堆叠在一起。最后一轮推理模块的上下文表示是第一层LSTM的输入，每层LSTM都会输出一个概率分布然后使用这些概率分布计算交叉熵。具体LSTM的堆叠方式如下：

O_sup＝F₀(C^′(t))

O_start＝＝F₁([C^′(t)，O_sup])

O_end＝F₂([C^′(t)，O_sup，O_start])

O_type＝＝F₃([C^′(t)，O_sup，O_start])

进一步地，C是过程三输出的推理更新后的文档词表示，F₀，F₁，F₂，F₃分别是四个多层感知机，O_sup是用来预测证据表示概率分布，O_start和O_end分别是用来预测答案开始和结束位置的概率分布，O_type是用来预测答案类型的概率分布。

最终联合优化这四个交叉熵损失函数。

L＝L_start+L_end+λ_sL_sup+λ_tL_type

进一步地，L_start，L_end，L_sup，L_type分别是O_sup，O_start，O_end，O_type与真实标签计算交叉熵损失函数得到的损失函数，λ_s和λ_t分别是计算证据预测损失和答案类型损失的超参数。

此外，模型在实体推理阶段还引入了一种弱监督的信息来规范实体推理中的掩码分布。这种弱监督信息的获取是以问题中的实体作为起始的掩码，在图上根据邻接矩阵进行宽度为1的宽度优先搜索而获取。对应的损失函数采用二分类的交叉熵损失函数。

在实验效果中，本部分在HotpotQA推理阅读理解数据集(Zhilin Yang，Peng Qi，Saizheng Zhang，Yoshua Bengio，William W.Cohen，Ruslan Salakhutdinov，ChristopherD.Manning：HotpotQA：A Dataset for Diverse，Explainable Multi-hop QuestionAnswering.EMNLP 2018：2369-2380)上进行了实验。训练数据有90247个样本，验证数据有7405个样本。

本发明的评价指标为EM值和F1值。EM值是比较预测的答案与真实答案完全一致的占比情况，F1值综合度量了预测结果和真实结果的准确率与召回率。

本发明与主流方法进行了比较，其中最后一行是本发明提出的模型，具体结果如表1所示。可以看到本发明提出的模型超过了当前大多数模型的效果，证明了本发明提出方法的有效性。

表1：主要模型的性能结果对比

以上通过形式表达和实施例对本发明方法进行了详细的说明，但本发明的具体实现形式并不局限于此。本领域的一般技术人员，可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

Claims

1.一种融合实体和句子推理信息的问题答案提取方法，其步骤包括：

2)使用双向注意力机制，对问题的表示Q与文档的上下文表示C进行交互，得到融合文档信息的问题表示Q⁰与融合问题信息的文档表示C⁰；

3)依据融合文档信息的问题表示Q^(t-1)与融合问题信息的文档表示C^(t-1)，获取实体图节点集合E^(t-1)与句子推理图节点集合t为推理更新次数，t≥1；其中，在推理更新次数t为1时，融合文档信息的问题表示Q^(t-1)与融合问题信息的文档表示C^(t-1)分为融合文档信息的问题表示Q⁰与融合问题信息的文档表示C⁰；

所述依据融合文档信息的问题表示Q^(t-1)与融合问题信息的文档表示C^(t-1)，获取实体图节点集合E^(t-1)，包括：

计算问题在实体图中的表示q^(t-1)＝MeanMaxPooling(Q^(t-1))和实体e在实体图中的表示J为实体数量；

计算问题在实体图中的表示q^(t-1)与各实体e在实体图中的表示的相关度r_i ^(t-1)；

对各相关度r_i ^(t-1)进行归一化处理，得到归一化结果

获取实体图节点集合

所述依据融合文档信息的问题表示Q^(t-1)与融合问题信息的文档表示C^(t-1)，获取句子推理图节点集合包括：

计算问题在句子推理图上的表示和句子表示/> K为句子数量；

计算问题在句子推理图上的表示与句子表示/>的相关度/>

对所述相关度进行归一化处理，得到归一化结果/>

获取句子推理图节点集合

4)采用图注意力网络对实体图与句子推理图进行节点更新，得到的实体图节点集合E^(t)与句子推理图节点集合其中，所述采用图注意力网络对实体图进行节点更新，得到的实体图节点集合E^(t)，包括：

计算实体图节点的中间计算表示其中/>U_t为图注意力网络第一参数，b_t为图注意力网络第二参数；

获取归一化后的注意力系数其中k为实体节点/>的相邻实体节点集合B_i中相邻实体节点个数,/>W_t为图注意力网络第三参数，T表示转置；

计算实体e在实体图中的表示得到实体图节点集合E^(t)；

5)将句子推理图与实体推理图共用一个问题表示，并通过问题表示更新后，得到融合问题信息的文档表示C^(t)；

6)对融合问题信息的文档表示C^(t)进行编码，得到融合后的句子表示s^(t)；

7)通过门机制将实体图节点集合E^(t)与句子表示S^(t)进行融合后，与融合问题信息的文档表示C^(t)进行交互，得到推理更新后的上下文表示C′^(t)；其中，所述通过门机制将实体图节点集合E^(t)与句子表示S^(t)进行融合后，与融合问题信息的文档表示C^(t)进行交互，得到推理更新后的上下文表示C′^(t)，包括：

根据句子表示S^(t)计算得到的门机制参数g^(t)；

计算推理更新后的上下文表示C′^(t)＝f((E^(t)·g^(t))；C^(t))，f表示tanh函数；

8)依据推理更新后的上下文表示C′^(t)，得到该问题的答案预测结果。

2.如权利要求1所述的方法，其特征在于，通过以下步骤得到目标文档：

1)将若干原始文档输入一由预训练语言模型与一层线性分类器组成的段落选择模型；

3.如权利要求1所述的方法，其特征在于，所述预训练语言模型包括：BERT模型。

4.如权利要求1所述的方法，其特征在于，得到该问题答案预测结果的方法包括：将推理更新后的上下文表示C′^(t)输入若干层层堆叠且不共享参数的LSTM层；答案预测结果包括：相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。

5.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-4中任一所述方法。

6.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-4中任一所述方法。