CN112380326B

CN112380326B - 一种基于多层感知的问题答案抽取方法及电子装置

Info

Publication number: CN112380326B
Application number: CN202011079727.5A
Authority: CN
Inventors: 林政�; 付鹏; 刘欢; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-07-08
Anticipated expiration: 2040-10-10
Also published as: CN112380326A

Abstract

本发明提供一种基于多层感知的问题答案抽取方法，其步骤包括：将一问题与若干目标文档拼接，输入到预训练语言模型中，得到问题的表示Q与目标文档的上下文表示P，将表示Q与上下文表示P交互，得到文档相关的问题表示u与融合问题信息的文档表示h；对问题表示u进行多层感知分类，获取问题的推理类型，并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题c_t，得到所述问题在目标文档中的答案注意力分布，其中t为生成子问题的次数；依据答案注意力分布，获取该问题的答案预测结果。本发明以子问题拆分的形式递进回答问题，引入推理类别分类器控制拆分，对问题的回答进行共享，提升推理阅读理解效果。

Description

一种基于多层感知的问题答案抽取方法及电子装置

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于多层感知的问题答案抽取方法及电子装置。

背景技术

推理阅读理解是给定用户一个问题的多个相关文档，从文档中找到问题的答案和相关的证据句子。推理阅读理解问题需要模型结合问题，对文本语义上的含义进行推理，找到问题的相关证据句子和最终答案。推理阅读模型整体上可以分为三大类方法。一类是记忆网络的方法，通过不断迭代更新推理状态来模拟推理过程；另一类是基于图神经网络的方式，通过图神经网络的更新来进行推理；还有一些其他的基于深度学习的方法。其中，基于图神经网络的推理阅读理解模型的框架整体可以分为三个部分：1)语义编码阶段；2)推理建模阶段；3)证据和答案预测阶段。语义编码阶段将问题、文档编码成具有上下文语义信息的词向量，推理建模阶段将使用图神经网络技术对推理过程进行建模，答案预测阶段得到词表示后进行相关证据句子和答案片段的预测。针对一些候选段落较多的数据，还需要进行段落选择，段落选择阶段将从候选段落中选择相关段落，用作后续语义编码的输入。

基于记忆网络的方法比较典型的有Dynamic Co-attention Network(CaimingXiong,Victor Zhong,Richard Socher:Dynamic Coattention Networks For QuestionAnswering.ICLR,2017)，该方法将模型分为编码和解码两部分，一方面，编码阶段使用了co-attention机制将问题和文档进行编码，得到问题相关的稳定表示；另一方面，在解码阶段，利用答案预测的结果进行迭代，每轮都会根据当前状态值去预测答案，根据答案预测结果更新当轮状态值，不断迭代更新，最后一轮的结果作为最终答案。

基于图神经网络的方法比较典型的有DFGN模型(Lin Qiu,Yunxuan Xiao,YanruQu,Hao Zhou,Lei Li,Weinan Zhang,Yong Yu:Dynamically Fused Graph Network forMulti-hop Reasoning.ACL 2019:6140-6150)。DFGN模型首先使用Bert对文档独立分类，进行段落选择，语义编码阶段使用Bert得到文档和问题的上下文词表示，推理建模阶段采用GAT的图神经网络实现，使用BiLSTM建模了图与词表示双向融合的过程，将图推理后得到的节点信息融合到词表示中，通过不断迭代这个图推理的过程来完成图信息与文本信息的双向融合，从而预测抽取式答案；此外，DFGN还建模了问题在图构建过程中的作用，采用BiAttention更新问题表示，根据问题表示与节点表示的匹配程度构建动态图，同时在迭代过程中不断更新问题表示。

其他非图神经网络的方法中，Jianxing Yu、Zhengjun Zha、Jian Yin等人设计了一种推理神经元(Inferential Machine Comprehension:Answering Questions byRecursively Deducing the Evidence Chain from Text.ACL 2019:2241-2251)，通过循环链接这种推理神经元，模拟推理过程的链式结构。这种推理神经元包括记忆向量、读操作单元、写操作单元、控制器操作单元组成，控制器单元基于问题产生一系列基于注意力的操作，读操作单元根据控制器的操作指示读取相关内容，写单元根据控制器操作和读单元结果产生新的结果，并更新记忆向量，这个推理神经元是递归链接在一起的，前一步的输出是后一步的结果；此外，由于不同样本推理深度的不确定性，推理过程的终止动作是动态决定的，整个网络通过强化学习来训练。

Sewon Min、Victor Zhong、Luke Zettlemoyer、Hannaneh Hajishirzi等人提出的模型将问题分解成多个简单的子问题(Multi-hop Reading Comprehension throughQuestion Decomposition and Rescoring.ACL 2019:6097-6109)，这些子问题可以较好的被现有的单跳阅读理解模型回答。为了较为容易的获取分解子问题的标注数据，他们将子问题形式化成原来问题的片段，子问题生成问题变成了片段预测问题，训练这个部分只用了400个人工标注的数据就可以与人类标注一样有效。此外，还提出了一种根据子问题和答案的重打分的方法来选择最好的答案。Yichen Jiang、Mohit Bansal等人提出的自集成的模型化网络(Self-Assembling Modular Networks for Interpretable Multi-HopReasoning.EMNLP/IJCNLP 2019:4473-4483)，采用神经网络的方式模拟栈来搭建一个自集成的模块化神经网络，可以将子问题拆解和组合完全自动集成在一起。

但目前的大多数模型没有针对不同类别的推理类型进行分别处理，模型为了建模通用的推理过程大都比较复杂。

本方法重点在于针对数据集中不同推理问题的特点，生成不同的子问题并拆分成不同的子任务，层级递进完成子任务来预测答案。

发明内容

为解决上述问题，本发明提出一种基于多层感知的问题答案抽取方法及电子装置，通过简单的问题分类机制，控制不同子模块进行层级结构组合，实现更加简单，便于以一种模块方式来与其他部分组合。

为达到上述目的，本发明采用如下技术方案：

一种基于多层感知的问题答案抽取方法，其步骤包括：

1)将一问题与若干目标文档拼接，输入到预训练语言模型中，得到问题的表示Q与目标文档的上下文表示P，将表示Q与上下文表示P交互，得到文档相关的问题表示u与融合问题信息的文档表示h；

2)对问题表示u进行多层感知分类，获取问题的推理类型，并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题c_t，得到所述问题在目标文档中的答案注意力分布，其中t为生成子问题的次数；

3)依据答案注意力分布，获取该问题的答案预测结果。

进一步地，通过以下步骤得到目标文档：

1)将若干原始文档输入一由BERT模型与一层线性分类器组成的段落选择模型；

2)根据一阈值，在各原始文档中选取与所述问题相关的段落，得到若干目标文档。

进一步地，所述预训练语言模型包括BERT模型。

进一步地，将表示Q与上下文表示P进行交互的方法包括：使用双向注意力机制；生成子问题的步骤包括：

1)将表示Q输入通过BiLSTM网络，得到问题向量qv；

2)通过问题向量qv、子问题c_t-1和问题表示u，得到子问题c_t。

进一步地，所述推理类型包括：桥接实体类或比较类问题。

进一步地，若推理类型为桥接实体类，通过以下步骤得到答案注意力分布：

1)根据问题表示u、文档表示h及子问题，调用Find函数，生成中间桥接实体att₁；

2)根据中间桥接实体att₁、问题表示u、文档表示h及子问题c_t，调用Transfer函数，得到答案注意力分布。

进一步地，若推理类型为比较类问题，通过以下步骤得到答案注意力分布：

1)根据问题表示u、文档表示h及子问题c_t，分别调用两次Find函数，生成中间桥接实体att₁与中间桥接实体att₂；

2)通过调用Compare函数比较中间桥接实体att₁与中间桥接实体att₂，得到答案注意力分布。

进一步地，得到该问题答案预测结果的方法包括：将上下文表示C′^(t)输入若干层层堆叠且不共享参数的LSTM层；答案预测结果包括：相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下积极效果：

1)提出以子问题拆分的简单形式来层级递进式回答问题，不需要对问题拆分进行监督，提升推理阅读理解的效果。

2)提出引入推理类别分类器来控制拆分，通过子任务模块共享回答问题，提升推理阅读理解的效果。

附图说明

图1为本发明的流程示意图。

图2为本发明的桥接实体类问题拆解框架示意图。

图3为本发明的比较类问题拆解框架示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明针对HotpotQA数据集中的推理类别进行分类。主要有两类，桥接实体类和比较类。如果问题是桥接实体类推理类型，模型会将答案预测过程处理成两个层级堆叠的子任务，第一层是通过寻找模块来寻找中间桥接实体，第二层是通过转换模块将第一层输出的桥接实体表示以及问题和上下文内容来锁定最终答案；如果问题是比较类推理类型，模型会将答案预测过程处理成两层层级堆叠的子任务，第一层是通过两个寻找模块来寻找到模型中相关的两个实体部分，第二层是通过一个比较模块来对第一层中输出的实体表示进行比较，预测最终答案。其中涉及到的子任务通过三个函数来实现，Find函数实现寻找子任务，Transfer函数实现通过桥接实体来锁定答案，Compare函数实现对两个实体表示进行比较从而得出答案。问题拆解框架如图例所示：

如图1所示，本发明采用的框架整体分为三个部分：1)段落选择模块；2)语义编码模块；3)层级答案预测模块。段落选择模块对多个文档进行筛选，过滤掉无关的文档，避免输入文档长度过大。语义编码模块将问题、文档编码成具有上下文语义信息的向量表示。层级答案预测模块将对不同推理类型的问题分别处理，预测最终证据句子和答案。其中，本发明的重点在于层级答案预测模块，可以分为一个分类控制器、一个子问题生成器和三个子任务执行器。

过程一：段落选择模块。

段落选择模块，使用BERT模型(acob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.NAACL-HLT 2019:4171-4186)和一层线性分类器来微调得到一个段落选择的模型，单独判断问题与段落是否相关，设置阈值为0.3来选取较为相关的段落。这是在保证召回率下的选择，同时召回的相关文档总长度基本满足下一阶段的最大输入长度512。

过程二：语义编码模块。

语义编码层将问题和上下文文档编码成具有上下文语义信息的向量表示。问题和该问题所有的相关文档拼接在一起构成编码模块的输入，编码模块采用预训练的BERT模型。经过编码后，获得表示

以及

其中R代表实数集合，L和N分别是问题和上下文的长度，d₁是BERT隐藏层的维度大小。

然后，利用双向注意力机制(Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi:Bidirectional Attention Flow for MachineComprehension.ICLR 2017)对问题和上下文进行交互建模。模型使用双向注意力机制，对问题和上下文进行交互建模，学习到文档相关的问题表示

以及问题相关的文档表示

其中d₂是输出的词表示维度大小。

过程三：层级答案预测模块。

问题推理类型判别器的输入是问题表示u，通过多层感知机对编码阶段得到的问题词表示进行二分类，得到问题的推理类型。

进一步地，如果推理类型是桥接实体类，如图2所示，模型会先调用Find函数生成中间桥接实体att₁，然后调用Transfer函数根据桥接实体得到相关答案的注意力分布。如果推理类型是比较类问题，如图3所示，模型会调动两次Find函数得到两个相关实体att₁和att₂，然后调用Compare函数通过比较这两个相关实体得到最终答案的注意力分布。

Find函数首先将子问题c_t注入到问题相关的文档表示h中，得到h′＝h⊙c_t，接下来通过双向注意力机制来得到问题相关的上下文表示

具体过程如下：

M_j，s＝W₁u_j+W₂h’_s+W₃(u_j⊙h′_s)

进一步地，M是双向注意力机制中的相似度矩阵，W是可训练的参数，c_q与q_c分别是双向注意力机制中计算得到的上下文相关的问题注意力与问题相关的上下文注意力，p是计算出来的注意力权重，s为上下文的个数，J是上下文序列中隐含表示的维数，m是取M最大一维值，u_j是问题表示中第j个词表示。

最后会通过线性变换压缩成问题输入的原始维度作为最终的输出，作为相关实体的注意力分布，记为att₁。

Transfer函数首先通过注意力机制计算得到桥接实体表示b，然后将桥接实体表示注入到上下文表示中得到h_b，再利用Transfer中的Find_trans函数寻找定位最终答案所在的位置，这个函数与Find函数设计完全相同，从而得到相关的原文上下文表示。同样这一部分的c_t也需要子问题生成器进行生成。具体过程如下：

h_b＝h⊙b

进一步地，att₁是桥接实体的注意力分布，h_s是上下文表示h中的第s个词。

Compare函数的输入为两个实体相关的注意力att₁和att₂，分别是Find函数根据两个子问题生成的相关实体注意力分布。因此这里需要得到两个实体相关的表示信息hs₁和hs₂，最终通过这两个表示信息与子问题进行拼接组合，得到比较所需要的信息o_in后，将这些信息输入到多层感知机中进行比较。整体思路就是将两个注意力分布进行聚合，根据子问题表示进行比较得出答案。通过以上部分我们会得到一个最终的注意力分布，这个注意力分布会用于预测答案片段的开始和结束位置。具体公式如下：

o_in＝[c_t；hs₁；hs₂；c_t·(hs₁-hs₂)]

h_c＝W₁·(ReLU(W₂·o_in))

进一步地，W是可训练的模型参数。

同时，模型每次调用Find、Transfer和Compare函数都会通过子问题生成器计算当前函数解决的子问题，这个子问题表示的计算过程如下：

q_t＝W_1，t·qv+b_1，t

cq_t＝W₂·[c_t-1；q_t]+b₂

e_t，j＝W₄·(cq_t·u_j)+b₄

cv_t＝Softmax(e_t)

其中，qv表示问题向量，由BiLSTM产生。由过程二知，

qv＝BiLSTM(Q)，将隐含变量头尾相接就是qv的值。c_t表示当前计算的子问题表示。其中的W和b都是可训练的参数。这个计算过程中，我们将问题表示与上一个子问题表示进行融合得到cq_t，从而通过注意力机制计算当前子问题的表示。

然后，将得到的表示计算证据和答案的概率分布，作为预测层的输入。当问题为桥接实体类时，预测层的输入是Transfer函数的输出；当问题为比较类问题是，预测层的输入是Compare函数的输出。预测层的输出有四个维度，包括相关证据句子、答案的开始位置、答案的结束位置、答案的类型。预测层采用一种垂直结构设计来解决输出之间的依赖关系，四个不共享参数的LSTM层通过层层的堆叠在一起。最后一轮推理模块的上下文表示是第一层LSTM的输入，每层LSTM都会输出一个概率分布

然后使用这些概率分布计算交叉熵。具体LSTM的堆叠方式如下：

O_sup＝F₀(C^(t))

O_start＝F₁([C^(t)，O_sup])

O_end＝F₂([C^(t)，O_sup，O_start])

O_type＝F₃([C^(t)，O_sup，O_start])

进一步地，F₀，F₁，F₂，F₃分别是四个多层感知机，O_sup是用来预测证据表示概率分布，O_start和O_end分别是用来预测答案开始和结束位置的概率分布，O_type是用来预测答案类型的概率分布。

最终联合优化这四个交叉熵损失函数。

L＝L_start+L_end+λ_sL_sup+λ_tL_type

进一步地，L_start，L_end，L_sup，L_type分别是O_sup，O_start，O_end，O_type与真实标签计算交叉熵损失函数得到的损失函数，λ_s和λ_t分别是计算证据预测损失和答案类型损失的超参数。

在实验效果中，本发明在HotpotQA推理阅读理解数据集(Zhilin Yang，Peng Qi，Saizheng Zhang，Yoshua Bengio，William W.Cohen，Ruslan Salakhutdinov，ChristopherD.Manning：HotpotQA：A Dataset for Diverse，Explainable Multi-hop QuestionAnswering.EMNLP 2018：2369-2380)上进行了实验。训练数据有90247个样本，验证数据有7405个样本。桥接类和比较类推理问题在数据集中的统计结果如表所示：

数据集	桥接类	比较类	全部
				训练集	17456	72991	90247
验证集	1487	5918	7405

表1：HotpotQA中的桥接类和比较类问题统计结果

本发明的评价指标为EM值和F1值。EM值是比较预测的答案与真实答案完全一致的占比情况，F1值综合度量了预测结果和真实结果的准确率与召回率。

本发明的问题分类器性能如下：

	正确样本	错误样本	准确率
				问题分类器	7375	30	99.59％

表2：问题分类器的性能评估

本发明与主流方法进行了比较，其中最后一行是本发明提出的模型，具体结果如表1所示。可以看到本发明提出的模型超过了许多主流模型的性能，证明了本发明提出方法的有效性。

以上通过形式表达和实施例对本发明方法进行了详细的说明，但本发明的具体实现形式并不局限于此。本领域的一般技术人员，可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。