CN110334195A

CN110334195A - 一种基于局部注意力机制记忆网络的问答方法及系统

Info

Publication number: CN110334195A
Application number: CN201910559673.3A
Authority: CN
Inventors: 黄仔琪; 孙振起
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-15

Abstract

本发明提供一种基于局部注意力机制记忆网络的问答方法及系统，所述问答方法包括以下步骤：根据提问句子和上下文记忆模块信息生成位置信息；根据生成的位置信息，计算提问句子和上下文记忆模块信息之间的相关概率分布；根据计算出的相关概率分布得到预测答案。本发明选择只关注上下文记忆模块信息的一小部分，来计算其和提问句子之间的相关性信息，让系统更加关注有用的信息，提高处理效率。此外，本发明引入了线性门控单元，在多层模型信息传递的过程中，可以有效地降低梯度色散，同时还保留了非线性的能力，具有较好的适用性。

Description

一种基于局部注意力机制记忆网络的问答方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于局部注意力机制记忆网络的问答方法及系统。

背景技术

目前，端到端可训练记忆网络(MemN2N)在许多深层次学习领域里，特别是在基于模拟自然语言的推理问答(QA)任务中是非常有效的。然而，当它解决一些子任务，如基本归纳、路径查找和时间推理任务时，由于难以挖掘记忆模块和提问句子之间的有效信息，导致传统的记忆网络在这些任务上的效果并不理想。

图1是传统的单层结构的端到端可训练记忆网络(MemN2N)的示意图，在匹配得分操作部分使用的是全局注意力机制(global-attention)，来计算上下文记忆模块向量m_i和提问句子u之间的相关性信息，再经过Softmax层变换后，便可以得到上下文记忆模块向量m_i和提问句子u之间的相关性概率分布p。

然而，这种传统模式在计算内存和查询的相关性时，由于需要考虑到记忆网络全局所有句子的查询，导致过程复杂，费用昂贵。

发明内容

本发明要解决的技术问题是提供一种基于局部注意力机制记忆网络的问答方法及系统，能够快速有效地获取提问句子和记忆网络中语境之间的相关性信息，从而较大幅度的提升记忆网络的性能。

为解决上述技术问题，本发明的实施例提供一种基于局部注意力机制记忆网络的问答方法，包括以下步骤：

S1、根据提问句子和上下文记忆模块信息生成位置信息；

S2、根据生成的位置信息，计算提问句子和上下文记忆模块信息之间的相关概率分布；

S3、根据计算出的相关概率分布得到预测答案。

优选地，所述步骤S1包括：

根据以下公式生成位置信息p_u：

其中，S是上下文记忆模块的大小，p_u∈[0，S]；W_a、v_p是记忆网络模型训练过程中学习到的参数；q是提问句子中的单词信息，δ是sigmoid激活函数。

优选地，所述步骤S2包括：

根据以下公式计算相关概率分布p_i：

其中D是预设的上下文记忆模块的窗口尺寸。

优选地，所述问答方法还包括：

在多层结构的记忆网络模型的信息传递过程中，使用线性门控单元对每一层的传递信息进行降低梯度色散的处理。

优选地，所述线性门控单元根据以下公式对每一层的传递信息进行处理：

其中，W、V、b、c是记忆网络模型训练过程中学习到的参数，是矩阵点积，o^k是第k层的输出，u^k是第k层的提问句子。

本发明的实施例还提供一种基于局部注意力机制记忆网络的问答系统，所述问答系统包括：

位置信息生成单元，用于根据提问句子和上下文记忆模块信息生成位置信息；

相关概率分布计算单元，用于根据生成的位置信息，计算提问句子和上下文记忆模块信息之间的相关概率分布；

预测单元，用于根据计算出的相关概率分布得到预测答案。

优选地，所述问答系统还包括：

线性门控单元，用于在多层结构的记忆网络模型的信息传递过程中，对每一层的传递信息进行降低梯度色散的处理。

本发明的上述技术方案的有益效果如下：

本发明提出了一种基于局部注意力机制(local-attention)的端到端记忆网络(MemN2N-GL)，与全局注意力机制不同，本发明选择只关注上下文记忆模块信息的一小部分，来计算其和提问句子之间的相关性信息，让系统更加关注有用的信息，提高处理效率。此外，本发明在传统的多层结构的端到端可训练记忆网络(MemN2N)中引入了线性门控单元(GLU)，在多层模型信息传递的过程中，可以有效地降低梯度色散，同时还保留了非线性的能力，具有较好的适用性。

附图说明

图1是传统的单层结构的端到端可训练记忆网络(MemN2N)的问答流程示意图；

图2是本发明实施例提供的基于局部注意力机制记忆网络的问答方法的流程图；

图3是本发明实施例中的问答流程示意图；

图4是本发明实施例中线性门控单元的处理流程示意图；

图5是本发明实施例提供的基于局部注意力机制记忆网络的问答系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例首先提供了一种基于局部注意力机制记忆网络的问答方法，如图2所示，所述问答方法包括以下步骤：

S1、根据提问句子和上下文记忆模块信息生成位置信息；

S3、根据计算出的相关概率分布得到预测答案。

与全局注意力机制的记忆网络相比，本发明建立了基于局部注意力机制的记忆网络模型，滤除掉整个记忆内存中与提问句子无关的信息，而集中关注于上下文记忆模块中局部信息查询，得到的查询结果更加精确纯粹，并且包含更多的有用信息。

进一步地，步骤S1包括：

根据以下公式生成位置信息p_u：

进一步地，步骤S2包括：

根据以下公式计算相关概率分布p_i：

其中D是预设的上下文记忆模块的窗口尺寸。

图3显示了本发明实施例中的问答流程示意图，可以看出，本发明选择只关注上下文记忆模块信息的一小部分，来计算其和提问句子之间的相关性信息，让系统更加关注有用的信息，从而提高处理效率，节约成本。

进一步地，所述问答方法还包括：

在多层结构的记忆网络模型的信息传递过程中，使用线性门控单元(GLU)对每一层的传递信息进行降低梯度色散的处理。

作为本发明的一种优选实施方式，线性门控单元(GLU)根据以下公式对每一层的传递信息进行处理：

图4是本发明实施例中线性门控单元的处理流程示意图，线性门控单元不仅能够有效地降低梯度色散，而且能够保持非线性，这使得提问句子在层之间更新时具有较强的学习能力，同时也适当降低模型的复杂度，让模型更加关注有用的信息。

相应地，本发明的实施例还提供了一种基于局部注意力机制记忆网络的问答系统，如图5所示，该系统包括：

位置信息生成单元101，用于根据提问句子和上下文记忆模块信息生成位置信息；

相关概率分布计算单元102，用于根据生成的位置信息，计算提问句子和上下文记忆模块信息之间的相关概率分布；

预测单元103，用于根据计算出的相关概率分布得到预测答案。

进一步地，所述问答系统还包括：

实验结果表明，与使用全局注意力机制的端到端记忆网络(MemN2N)相比，基于局部注意力机制的端到端记忆网络(MemN2N-GL)能够实现更好的性能，问答系统的平均错误率可降低37.09％，任务的成功次数可增加一倍。其中，无论单独使用局部注意力机制或线性门控单元，均可提升记忆网络性能，两者效果均优于使用全局注意力机制的情况。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于局部注意力机制记忆网络的问答方法，其特征在于，包括以下步骤：

S1、根据提问句子和上下文记忆模块信息生成位置信息；

S3、根据计算出的相关概率分布得到预测答案。

2.根据权利要求1所述的问答方法，其特征在于，所述步骤S1包括：

根据以下公式生成位置信息p_u：

3.根据权利要求2所述的问答方法，其特征在于，所述步骤S2包括：

根据以下公式计算相关概率分布p_i：

其中D是预设的上下文记忆模块的窗口尺寸。

4.根据权利要求1-3中任一项所述的问答方法，其特征在于，所述问答方法还包括：

5.根据权利要求4所述的问答方法，其特征在于，所述线性门控单元根据以下公式对每一层的传递信息进行处理：

6.一种基于局部注意力机制记忆网络的问答系统，其特征在于，包括：

预测单元，用于根据计算出的相关概率分布得到预测答案。

7.根据权利要求6所述的问答系统，其特征在于，所述问答系统还包括：