CN111814982A

CN111814982A - 面向多跳问答的动态推理网络及方法

Info

Publication number: CN111814982A
Application number: CN202010683283.XA
Authority: CN
Inventors: 琚生根; 李晓辉; 陈润
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-23
Anticipated expiration: 2040-07-15
Also published as: CN111814982B

Abstract

本发明提供一种面向多跳问答的动态推理网络与方法，网络包括：段落选择器，接收段落与问题，并在段落中选择与问题的答案相关的子段落；编码模块，使用协同注意力加强问题与子段落的交互，计算得到子段落的最终向量表示、与问题的向量表示；实体图构造模块，用于构造一个实体图；动态推理模块，用于对实体图进行推理，反复阅读文本模仿人分析信息的过程，并构造问题重塑机制，以重复读取问题及其相关重要部分；答案预测模块，与编码模块相连，并与动态推理模块相连，用于接收子段落的最终向量表示，并输出得到四种类型的预测。该网络建立了一种问题重塑机制，该机制可以反复阅读问题以模仿人们的阅读习惯能提高多跳推理问答模型的理解和推理能力。

Description

面向多跳问答的动态推理网络及方法

技术领域

本发明属于机器阅读理解领域，具体涉及一种面向多跳问答的动态推理网络及方法。

背景技术

机器阅读理解是一项通过推理一组文本来获得给定问题的正确答案的任务，而多跳推理问答是机器阅读理解的子任务，该任务旨在跨多个段落查找给定问题的答案；现在大多数多跳推理问答模型通常仅通过访问一次问题来获得答案，因此模型可能无法获得足够的文本信息。

多跳推理问答模型主要有三个研究方向，第一个是基于记忆网络，该记忆网络使用存储单元将问题与在每一轮中获得的信息进行组合，并通过连续的迭代推理在几次推理后预测答案，这些模型基于端到端训练模型，并动态确定推理的轮数，但是，这些模型无法给出清晰的推理过程；第二个方向直接在所有给定段落中通过构建推理链或获取问题和上下文相关的其他信息来找到答案。这些方法由于没有进行段落选择需要处理大量的数据；第三个是基于问题和文档构建实体图，并通过对实体图进行多跳推理获得答案，从而给出清晰的推理过程。

目前为止，上述三种模型取得了一定的成功，但仍然存在一些局限性；首先，大多数现有模型直接在所有给定段落中进行推理，而没有进行段落选择以去除干扰段落，增加了要处理的数据量；其次，现有模型在将每个文本编码为表示向量之后，无论其是问题还是段落，每个文本总是很少被访问。而模型可能无法仅通过访问一次或两次文本来获得足够的信息，这导致文本信息无法充分被利用。

发明内容

有鉴于此，本发明的目的之一在于提供一种面向多跳问答的动态推理网络，能提高多跳推理问答模型的理解和推理能力。

为实现上述目的，本发明的技术方案为：一种面向多跳问答的动态推理网络，包括：

段落选择器，接收段落与问题，并在段落中选择与所述问题的答案相关的子段落，消除干扰信息；

编码模块，与段落选择器相连，使用协同注意力加强所述问题与所述子段落的交互，计算得到所述子段落的最终向量表示、与所述问题的向量表示；

实体图构造模块，与段落选择器相连，用于构造一个实体图，促进所述子段落之间的多跳推理；实体图包括三个级别：基于问题级别、基于上下文级别、基于段落级别，实体图中包括多个实体节点；

动态推理模块，与所述实体图构造模块相连，并与所述段落选择器相连，用于对所述实体图进行推理，反复阅读文本模仿人分析信息的过程，并构造问题重塑机制，以重复读取问题及其相关重要部分；

答案预测模块，与所述编码模块相连，并与所述动态推理模块相连，用于接收子段落的最终向量表示，并输出得到四种类型的预测；四种类型预测包括：支持语句，答案的开始标记，答案的结束标记，答案类型。

进一步地，所述段落选择器包括带有句子分类层的预训练BERT模型，所述预训练BERT模型用于预测所述问题与段落之间的相似性。

进一步地，所述动态推理模块包括所述问题重塑单元，动态图注意力单元、图神经网络单元；其中，

所述图神经网络单元与所述实体图构造模块相连，用于在实体图的实体节点之间传递实体节点的交互和变化信息；

所述动态图注意力单元与所述图神经网络单元相连，并与所述段落选择器相连，用于在整个实体图上动态传播信息，并计算得到两个实体节点之间的注意力，并更新节点；

所述问题重塑单元，与编码模块相连，并与所述动态图注意力单元相连，用于根据问题与实体图消息选择重要问题部分，并对该重要部分进行多次计算使其权重增大，并对重要问题部分进行编码，获得重塑重要问题表示。

进一步地，所述根据问题与实体图消息选择重要问题部分的选择方法为：

其中，W₁，W₂，W₃是可训练的参数，e_m∈R^m是1的行向量，m为重复次数；μ是重要问题部分的表示，Q_t是当前时刻问题的表示，q_t-1是上一时刻选出的重要问题部分的表示，μ_j是问题中的第j个词的表示，qⁱ表示问题第i个词的表示，k是求和下标，α是注意力，q_t′是t时刻选出的重要问题部分的表示。

进一步地，所述答案预测模块包括循环神经网络，用于输出四种类型的预测。

有鉴于此，本发明的目的之二在于提供一种面向多跳问答的动态推理方法，该方法能提高在动态推理过程中的理解和推理能力。

为实现上述目的，本发明的技术方案为：一种面向多跳问答的动态推理方法，包括以下步骤：

(1)接收段落与问题，在段落中选择与所述问题的答案相关的至少一个子段落；

(2)识别问题和各子段落中的命名实体，并基于不同级别建立子段落内部或子段落之间的关系构造实体图，级别包括：基于问题级别、基于上下文级别、基于段落级别；

(3)对实体图进行推理，反复阅读子段落与问题，模仿人分析信息过程；

(4)定义查询类型，输出包含四种类型的预测可能性，四种类型的预测包括：支持语句，答案的开始标记，答案的结束标记，答案类型。

进一步地，步骤(2)具体包括以下步骤：

识别问题和各子段落中的命名实体和名词短语，将命名实体抽象为对应节点；

基于问题级别构建实体图，当两个命名实体的句子表示都包含来自同一问题的命名实体或名词短语，则在两个命名实体对应的节点之间添加一条边；

基于上下文的级别构建实体图，在同一子段落的两个命名实体的节点之间添加一条边；

基于段落的级别构建实体图，当两个命名实体的句子表示至少包含一个相同的命名实体或名词短语，则在两个命名实体的节点之间添加一条边。

进一步地，所述步骤(3)具体包括以下步骤：

在所述实体图上传递信息，选择与问题相关单词，使信息由问题感知的节点传递：

计算实体图上两个节点之间的注意力：

其中，U_t、

是可学习的参数，b_t是偏置，

是第i个与第j个实体t时刻的隐藏层状态，

是第i个实体t时刻的隐藏层状态，

是t时刻第i个与第j个实体的注意力权重，

是第j个实体与其他所有实体t时刻的隐藏层状态；

汇聚一个节点接收到的来自邻居节点的所有信息，并更新问题：

Q_t＝Bi-attention(Q_t-1，E_t)；

其中，N_i为一节点的邻居节点的集合，

是t时刻第i个实体节点，

是t时刻第i个与第j个节点间的注意力权重，

是t时刻第j个节点的隐藏层状态，Bi-attention是双向注意力，Q_t-1是t-1时刻的问题表示，E_t是t时刻所有实体节点的表示；

根据问题与实体图消息选择重要问题部分，并对该重要部分进行多次计算使其权重增大，并对重要问题部分进行编码，获得重塑重要问题表示：

其中，W₁，W₂，W₃是可训练的参数，e_m∈R^m是1的行向量。外部乘积

表示重复W₃q_t-1m次，μ是重要问题部分的表示，Q_t是当前时刻问题的表示，q_t-1是上一时刻选出的重要问题部分的表示，μ_j是问题中的第j个词的表示，q是问题某个词的表示，α是注意力，q_t′是t时刻选出的重要问题部分的表示。

进一步地，所述选择与当前问题更相关的单词的方法为：

q_t-1＝MeanPooling(Q_t-1)；

m_t＝σ(γ₁，γ₂，...，γ_n)+1；

其中，

是第i个问题实体的线性投影矩阵，σ是sigmoid函数，

是第i个问题实体的关联程度，m_t是问题实体的关联程度，γ₁是问题实体的关联程度，

是第i个问题实体的关联程度的另一表示，

是t-1时刻第i个实体，e_i是过滤出的与第i个问题更相关的实体。

进一步地，使用二进制分类器来预测当前语句为支持语句的概率。

本发明提供面向多跳问答的动态推理网络和方法，可通过多段之间的多跳推理来获得正确答案，并建立了一种问题重塑机制，该机制可以反复阅读问题以模仿人们的阅读习惯，此外本发明的网络对具有图注意力和问题重塑机制的实体图进行动态推理，能提高该网络的理解和推理能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一种面向多跳问答的动态推理网络的结构示意图；

图2为本发明答案预测模块结构示意图；

图3为本发明一种面向多跳问答的动态推理方法的流程示意图；

图4为本发明一实施例中的实体图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

实施例1

参考图1，为本发明一种面向多跳问答的动态推理网络的结构示意图，具体地，一种面向多跳问答的动态推理网络包括：

段落选择器1，接收段落与问题，并在段落中选择与问题的答案相关的子段落，消除干扰信息；

本实施例中，段落选择器1包括带有句子分类层的预训练BERT模型，预训练BERT模型用于预测问题与段落之间的相似性，段落选择器1通过连接“[CLS]”+问题+“[SEP]”+文档+“[SEP]”作为问题和段落的输入，并输出0到1之间的匹配分数。段落选择遵循以下规则：如果段落包含答案，则标签为2；如果段落包含至少一个支持语句，则标签为1，否则为0；匹配分数大于阈值n(n值可以预先设定，如n＝0.1)的段落被选择为下游任务的段落。

编码模块2，与段落选择器1相连，使用协同注意力加强问题与子段落的交互，计算得到子段落的最终向量表示、与问题的向量表示；

本实施例中，使用协同注意力来加强问题Q和段落P之间的交互，并计算一注意矩阵A∈R^m×n，捕获段落和问题之间的相似性。

实体图构造模块3，与段落选择器1相连，用于构造一个实体图，促进子段落之间的多跳推理；实体图包括三个级别：基于问题级别、基于上下文级别、基于段落级别，实体图中包括多个实体节点；

具体地，本实施例中通过构造一个实体图以促进段落之间的多跳推理，先使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和段落中的命名实体和名词短语，实体图根据以下规则从三个级别构建：基于问题的级别，如果两个节点的句子表示都包含来自同一问题的命名实体或名词短语，则在两个节点之间添加一条边，从而掌握查询和段落之间的相互作用；基于上下文的级别，在同一段落的两个节点之间添加一条边，获得段落内部的联系；基于段落的级别，如果两个节点的句子表示至少包含一个相同的命名实体或名词短语，则在两个节点之间添加一条边，从而在不同段落之间建立关系。

动态推理模块4，与实体图构造模块3相连，并与段落选择器相连，用于对实体图进行推理，反复阅读文本模仿人分析信息的过程，并构造问题重塑机制，以重复读取问题及其相关重要部分；

本实施例中的动态推理模块4包括问题重塑单元43，动态图注意力单元42、图神经网络单元43；其中，

图神经网络单元41与实体图构造模块3相连，用于在实体图的实体节点之间传递实体节点的交互和变化信息；

动态图注意力单元42与图神经网络单元41相连，并与段落选择器1相连，用于在整个实体图上动态传播信息，并计算得到两个实体节点之间的注意力，并更新节点；

问题重塑单元43，与编码模块2相连，并与动态图注意力单元42相连，用于根据问题与实体图消息选择重要问题部分，并对该重要部分进行多次计算使其权重增大，并对重要问题部分进行编码，获得重塑重要问题表示。

进一步地，本实施例中的问题重塑单元43根据问题与实体图消息选择重要问题部分的选择方法为：

其中，W₁，W₂，W₃是可训练的参数，e_m∈R^m是1的行向量，m为重复次数，μ是重要问题部分的表示，Q_t是当前时刻问题的表示，q_t-1是上一时刻选出的重要问题部分的表示，μ_j是问题中的第j个词的表示，q是问题某个词的表示，k是第k次重复，α是注意力，qⁱ表示问题第i个词的表示，q_t′是t时刻选出的重要问题部分的表示。

答案预测模块5，与编码模块相连，并与动态推理模块相连，用于接收子段落的最终向量表示，并输出得到四种类型的预测；四种类型预测包括：支持语句，答案的开始标记，答案的结束标记，答案类型。

本实施例中的答案预测模块5可参考图2，其包括循环神经网络GRU，根据图2，输入从图中下方进入，经过GRU输出支持句子预测，接着支持句子预测与答案预测模块5的输入拼接形成新的数据进入另一GRU得到的数据再次与形成的新数据拼接经线性网络得到开始标记预测；以相同的方法得到结束标记预测；特别地，问题类型预测的得到仅经过一个GRU与线性网络，且在经过线性网络之前不与该GRU的输入拼接。

实施例2

参考图3为本发明一种面向多跳问答的动态推理方法的流程示意图，具体地，一种面向多跳问答的动态推理方法，包括以下步骤：

S600：接收段落与问题，在段落中选择与问题的答案相关的至少一个子段落；然后执行步骤S700；

在本实施例中，在接收需要进行推理的段落与问题过后，实施例1中的段落选择器1会选择段落中与问题的答案相关的段落设为子段落，以此来消除干扰信息，并将问题与得到的子段落进行编码，具体地，问题设为Q＝[q₁，q₂，...，q_m]∈R^m×h，子段落设为P＝[p₁，p₂，...，p_n]∈R^n×h，m和n分别是问题和段落的长度，h是隐藏状态的大小，然后我们使用协同注意力来加强问题Q和段落P之间的交互，使用编码模块2中的注意矩阵A∈R^m×n，捕获段落和问题之间的相似性：

A＝Qp^T；

然后，计算通过子段落感知的问题的表示形式Q_p∈R^m×h：

Q_p＝softmax(A)P；

载用同样的方法得到一个问题感知的子段落表示形式Q_p∈R^m×h，接着计算了另一种段落表示形式，用于捕获段落感知的问题和子段落之间的交互，它着重于问题中与子段落相关的词和子段落之间的联系。段落的最终表示为P_final＝[P，P′]∈R^n×2h，其中“，”表示将这两个向量连接起来：

P_q＝softmax(A^T)Q；

P′＝softmax(A^T)Q_p；

其中，P_q是问题感知的段落，A^T是注意力矩阵，P′是重要问题词感知的段落。

S700：识别问题和各子段落中的命名实体，并基于不同级别建立子段落内部或子段落之间的关系构造实体图，并根据实体图的不同级别建立子段落内部或子段落之间的关系；然后执行步骤S800；

本实施例中的级别包括：基于问题级别、基于上下文级别、基于段落级别；

具体地，使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和各子段落中的命名实体和名词短语，，将命名实体抽象为对应节点；

基于问题级别构建实体图，当两个节点的句子表示(句子的向量表示)都包含来自同一问题的命名实体或名词短语，则在两个节点之间添加一条边，代表查询和段落之间的相互作用；

基于上下文的级别构建实体图，在同一子段落的两个节点之间添加一条边，代表段落内部的联系；

基于段落的级别构建实体图，当两个节点的句子表示至少包含一个相同的命名实体或名词短语，则在两个节点之间添加一条边，表示在不同段落之间建立关系，本实施例中，抽象实体节点为小圆点，通过不同级别建立子段落内部或子段落之间的关系即在基于级别用线变连接节点，最终构成实体图，如图4，为本发明中一实施例的实体图。

S800：对实体图进行推理，反复阅读子段落与问题，模仿人分析信息过程；然后执行步骤S900；

本实施例中，先通过动态图注意力单元42在实体图上传递信息，该处的信息为文本信息，节点的交互和变化信息，构造实体过滤器以选择与当前问题更相关的单词，使信息由问题感知的节点传递，具体方法为：

q_t-1＝MeanPooling(Q_t-1)；

m_t＝σ(γ₁，γ₂，...，γ_n)+1；

其中，

是第i个问题实体的线性投影矩阵，σ是sigmoid函数，

是第i个问题实体的关联程度的另一表示，

在得到更相关问题后，问题重塑单元43会计算实体图上两个节点之间的注意力：

其中，U_t是可学习的参数，d表示将传递到实体图中每个邻居节点的信息的比例，b_t是偏置，

是第个i实体与第j个实体t时刻的隐藏层状态，

是可学习参数，

是第i个实体t时刻的隐藏层状态，

是t时刻第个i实体与第j个实体的注意力权重，

是第j个实体与其他所有实体t时刻的隐藏层状态；

Q_t＝Bi-attention(Q_t-1，E_t)；

其中，N_i为一节点的邻居节点的集合，ReLU是ReLU函数，

是t时刻第i个实体节点，

是t时刻第i个实体与第j个实体节点间的注意力权重，

接着，根据问题与实体图消息选择重要问题部分，并对该重要部分进行多次计算使其权重增大，并对重要问题部分进行编码，获得重塑重要问题表示(该重要问题表示即是输出到答案预测模块的数据)：

其中，W₁，W₂，W₃是可训练的参数，e_m∈R^m是1的行向量，外部乘积

表示重复W₃q_t-1m次，μ是重要问题部分的表示，Q_t是当前时刻问题的表示，q_t-1是上一时刻选出的重要问题部分的表示，μ_j是问题中的第j个词的表示，k是第k次重复，qⁱ表示问题第i个词的表示，α是注意力，q_t′是t时刻选出的重要问题部分的表示。

我们使用GRU通过结合其上下文对所选部分进行编码，并每次获得一个表示。重新访问该问题N次后，我们获得了经过重塑的问题表示形式，该表示形式将被发送到下一个推理步骤：

qt＝GRU(q_t-1，q_t′)；

Q′_t＝[q₁，q₂，...，q_N]；

其中，q′_t是t时刻选出的重要问题部分的表示，q_t是t时刻的问题词表示，Q′_t是t时刻的问题表示，q_N是问题重塑N次t时刻的问题表示，N是问题重塑的次数。

S900：定义查询类型，输出包含四种类型的预测可能性。

本实施例中的四种类型的预测包括：支持语句，答案的开始标记，答案的结束标记，答案类型；

本实施例中，使用二进制分类器来预测当前语句为支持语句的概率，在答案预测模块5中定义查询类型定义为“span”，“yes”和“no”，GRU用于输出以下四种类型的可能性：

P_sup＝GRU(C_t)；

P_start＝GRU([C_t，P_sup])；

P_end＝GRU([C_t，P_sup，P_start])；

P_type＝GRU([C_t，P_sup，P_start，P_end])；

其中，P_sup是支持语句的可能性，P_start是答案的开始标记的可能性，P_end是答案的结束标记的可能性，P_type是答案类型的可能性，C_t是段落中的每一个句子的嵌入式表示。

优选地，本实施例中的损失函数为：

L＝η₁BCE(P_sup，P′_sup)+CE(P_start，P′_start)+CE(P_end，P′_end)+η₂CE(P_type，P′_type)；

其中，η₁、η₁是权重，用于控制不同损失函数的影响，BCE表示二进制交叉熵损失函数，CE表示交叉熵损失函数，损失函数在多任务学习设置中共同优化。

实施例3

本实施例中，对实施例1的系统和实施例2的方法的有效性进行验证，具体地，本实施例在HotpotQA数据集(用于跨多个段落的多跳推理的最新基准数据集)TriviaQA数据集(基于信息检索(IR)构建的基准数据集)上评估本发明的推理网络，并用相同的参数数据对比其他模型的结果，

本实施例中，采用baseline(2018年Yang，Zhilin，et al.提出hotpot qa数据集时使用的模型)、GRN(2019年Hotpot qa数据集leaderboard上一个排名尚可但未发布论文的模型)、QFE(2019年Nishida，Kosuke，et al.提出的模型)、DFGN(2019年Xiao，Yunxuan，etal.提出的模型)4种模型与本发明系统做比较，并使用EM、F1作为衡量指标，EM是完全匹配值，F1是F1分数。

最终得到的结果参考下表1与表2：

表格1 HotpotQA数据集对比结果

表格2 TriviaQA数据集对比结果

模型	EM	F1
			Baseline	44.94	46.85
QFE	55.14	56.26
			DFGN	56.50	59.13
本发明网络	59.73	62.21

表1中，Sup fact是段落中支持问题回答的证据，根据表1与表2，与其他基准模型相比，本发明的网络在两种数据集中的F1均高于其他模型，除QFE模型的EM以外，本发明的网络获得的指标数也较其他模型好，即本发明网络中的动态推理模型反复利用注意力机制来模拟人们的阅读习惯，能尽可能地理解文本信息，提高抽取效果。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种面向多跳问答的动态推理网络，其特征在于，包括：

2.根据权利要求1所述的面向多跳问答的动态推理网络，其特征在于，所述段落选择器包括带有句子分类层的预训练BERT模型，所述预训练BERT模型用于预测所述问题与段落之间的相似性。

3.根据权利要求2所述的面向多跳问答的动态推理网络，其特征在于，所述动态推理模块包括所述问题重塑单元，动态图注意力单元、图神经网络单元；其中，

所述图神经网络单元与所述实体图构造模块相连，用于在实体图的实体节点之间传递所述实体节点的交互和变化信息；

4.根据权利要求3所述的面向多跳问答的动态推理网络，其特征在于，所述根据问题与实体图消息选择重要问题部分的选择方法为：

其中，W₁，W₂，W₃是可训练的参数，e_m∈R^m是1的行向量，m为重复次数，μ是重要问题部分的表示，Q_t是当前时刻问题的表示，q_t-1是上一时刻选出的重要问题部分的表示，μ_j是问题中的第j个词的表示，q^l表示问题第i个词的表示，k是第k次重复，α是注意力，q_t′是t时刻选出的重要问题部分的表示。

5.根据权利要求4所述的面向多跳问答的动态推理网络，其特征在于，所述答案预测模块包括循环神经网络，用于输出四种类型的预测。

6.一种面向多跳问答的动态推理方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的面向多跳问答的动态推理方法，其特征在于，步骤(2)具体包括以下步骤：

8.根据权利要求7所述的面向多跳问答的动态推理方法，其特征在于，所述步骤(3)具体包括以下步骤：

计算实体图上两个节点之间的注意力：