CN112084782B

CN112084782B - 一种基于能量增强的注意力网络的答案识别方法及系统

Info

Publication number: CN112084782B
Application number: CN202010962935.3A
Authority: CN
Inventors: 刘世林; 曾途; 吴桐; 杨李伟; 尹康; 韩远
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2024-05-03
Anticipated expiration: 2040-09-14
Also published as: CN112084782A

Abstract

本发明公开一种基于能量增强的注意力网络的答案识别方法及系统,所述方法通过一处理设备接收待处理文本，所述处理设备内置一注意力网络处理所述的待处理文本，获得与答案相关的文本序列，所述方法包括：接收输入的待处理文本，获取上下文向量；确定所述上下文向量的基础注意力向量；基于所述基础注意力向量，获取所述上下文向量每一个向量的增强向量组合；基于所述增强向量组合，采用所述注意力网络获得目标答案。利用本发明公开的方法，通过增强注意力向量的能量强烈程度，提高了获取答案的准确率和效率，故具有明显的技术优势和有益效果。

Description

一种基于能量增强的注意力网络的答案识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于能量增强的注意力网络的答案识别方法及系统。

背景技术

阅读理解，机器翻译，文本摘要是自然语言处理（NLP）领域三大核心问题，传统的解决方案中，基于短语的翻译系统通过将源句分成多个块，然后逐个词地翻译它们来完成它们的任务，这导致了翻译输出的不流畅。而神经机器翻译（NMT）的翻译模型中经典的做法是由编码器 - 解码器架构制定(encoder-decoder)，用作encoder和decoder常用的是循环神经网络。这类模型大概过程是首先将源句子的待处理文本送入到编码器中，提取最后隐藏的表示并用于初始化解码器的隐藏状态，然后一个接一个地生成目标单词，这个过程广义上可以理解为不断地将前一个时刻 t-1 的输出作为后一个时刻 t 的输入，循环解码，直到输出停止符为止。通过这种方式，NMT解决了传统的基于短语的方法中的局部翻译问题：它可以捕获语言中的长距离依赖性，并提供更流畅的翻译。但是这样做也存在很多缺点，譬如，RNN是健忘的，这意味着前面的信息在经过多个时间步骤传播后会被逐渐消弱乃至消失。其次，在解码期间没有进行对齐操作，因此在解码每个元素的过程中，焦点分散在整个序列中。

近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中，Attention函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射，在计算attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积、拼接、感知机等；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中，key和value常常都是同一个，即key=value。随着注意力机制的广泛应用，对注意力机制下获得输出的准确率要求越来越高，如何提高答案识别的有效性和准确率是该技术领域的热点。

本申请发明人在实施本发明的过程中，发现现有的注意力网络在实际输出识别应用中至少存在如下技术问题：现有的注意力权重的获取方法存在不足，使得注意力权重的获取效果不佳，导致基于其答案识别的准确率不理想。

发明内容

本发明的目的在于克服现有技术中存在的上述缺陷，提供一种基于注意力网络的答案识别方法及系统，通过增强输出的能量强烈程度向量，解决或者至少部分解决现有方法中由于注意力权重的获取方法存在不足的技术问题，使得答案获取和识别的准确率明显提高。

为达到上述目的，本发明第一方面公开一种基于能量增强的注意力网络的答案识别方法，该方法通过一处理设备接收待处理文本，所述待处理文本包括段落文本和问题文本，所述段落文本为包含两个或以上句子的篇章级文本，所述处理设备内置一注意力网络处理所述的待处理文本，获得与答案相关的文本序列，所述方法包括以下步骤：步骤11：接收输入的待处理文本，获取上下文向量；步骤12：确定所述上下文向量的基础注意力向量，所述基础注意力向量表示所属向量的初始注意力权重；步骤13：基于所述基础注意力向量，获取所述上下文向量每一个向量的增强向量组合，所述增强向量组合包括多个补偿向量能量的向量；步骤14：基于所述增强向量组合，采用所述注意力网络获得目标答案。该实施例的优势是通过在传统的注意力网络中增加了基础注意力向量的确定方法，并且在传统的注意力向量上叠加增强向量组合，使得可明显提高注意力向量的能量强烈程度，从而提高注意力网络在识别目标答案时的准确率。

步骤11中所述获取上下文向量的步骤具体包括：对待处理文本中的词进行词性标注；获取待处理文本的全部实体，并对所述全部实体进行标注；通过一个神经网络获取所述全部实体的上下文特征；基于所述的上下文特征，获得上下文向量。该实施例的优势是通过对待处理文本的加入词性标签和命名实体识别的标签，可以提高后续处理的效率和准确率。

步骤12中，所述基础注意力向量有多个，所述上下文向量的每一个向量都有一个对应的基础注意力向量，所述基础注意力向量的值与其对应向量的位置、方向有关。该实施例的优势是基础注意力向量不是静态的值，也不是全局的，而是每个上下文向量可以有对应的基础注意力向量，并且其取值可以不同，使得该实施例更加有针对性。

所述确定基础注意力向量的方法如公式（1）和公式（2）所示：

（1）

（2）

其中，表示所述段落文本到所述问题文本方向的基础注意力向量，/>表示所述问题文本到所述段落文本方向的基础注意力向量，/>为所述问题文本的长度，/>为所述段落文本的长度，/>是所述问题文本，/>是所述段落文本，∑为逐元素相加。该实施例的优势是通过计算获得每个基础注意力向量的值，可以实现基础注意力向量的自动获取，可降低成本，提高效率。

在所述的步骤13中，所述的增强向量组合包括局部能量补偿向量、全局能量补偿向量、能量强烈程度向量。该实施例的优势是进一步细化了增强向量组合，从而降低方案的复杂度。

所述的步骤13中，所述增强向量组合的获取步骤包括：局部能量补偿向量的获取步骤、全局能量补偿向量的获取步骤、能量强烈程度向量的获取步骤。该实施例的优势是进一步细化了获取增强向量组合的步骤。

所述的局部能量补偿向量的获取步骤如公式（3）至公式（5）所示：

（3）

（4）

（5）

其中：是局部能量补偿向量，表示所述段落文本每个字分别与所述问题文本进行碰撞比较的能量强度，计算方法是基于/>函数对所述概率相似矩阵/>沿问题文本/>的方向获取最大值；

表示所述段落文本/>与所述问题文本/>之间的相似矩阵，/>与/>分别代表计算处于所述段落文本/>与问题文本/>的位置，所述相似矩阵采用线性变换函数/>和非线性激励函数/>运算后得到的两个序列进行点乘运算获得；

是基于概率的相似矩阵，其获得方法是利用/>模型对所述相似矩阵沿着问题文本/>的方向计算获得。

所述的全局能量补偿向量的获取步骤如公式（6）所示：

（6）

其中，所述全局能量补偿向量表示所述段落文本的每个字与所述问题文本的最近距离，并将该距离概率化，具体的计算过程为：利用/>函数计算相似矩阵/>沿着问题文本/>的最大值，然后沿着所述段落文本/>对所述最大值计算/>值。

所述的能量强烈程度向量的获取步骤如公式（7）至公式（8）所示：

（7）

（8）

其中，表示的是传统算法产生的注意力向量，通过所述计算注意力向量与所述段落文本/>的点乘，获得该位置的字/>用于回答问题/>的能量强烈程度向量。

基于同样的发明构思，本发明第二方面提供一种答案识别系统，应用于如本发明公开的第一方面的基于能量增强的注意力网络的答案识别方法，该能量增强的注意力网络包括：前置处理模块、编码模块、能量增强处理模块、注意力网络模块，其中：

前置处理模块：用于对待处理文本进行词性标注，获取待处理文本的全部实体，所述待处理文本包括段落文本和问题文本，所述段落文本为包含两个或以上句子的篇章级文本；

编码模块：用以通过一个神经网络获取所述全部实体的上下文特征，并通过编码压缩处理，获得上下文向量；

能量增强处理模块：包括确定基础注意力向量，获取增强向量组合；

注意力网络模块：根据增强向量组合，通过一注意力网络获取答案。

在一种实施方式中，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的基于能量增强的注意力网络的答案识别方法。

在一种实施方式中，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的基于能量增强的注意力网络的答案识别方法。

本申请实施例中的上述一个或多个技术方案，在输出获取应用中具有以下技术优势和效果：

（1）通过在现有的注意力模型中增加了表示No Attention的基础注意力向量，并且该向量是通过位置和方向动态计算获得，使得该注意力模型更加有针对性，学习的准确率更高；

（2）通过在现有的注意力模型中增加了能量补偿机制，包括叠加局部能量补偿向量、全局能量补偿向量和能量强烈程度向量等因素，利用该注意力模型在答案识别方面的准确率更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于注意力网络的答案识别方法实现流程示意图；

图2为本发明实施例的获取上下文向量的流程示意图；

图3为本发明实施例的计算增强向量组合的流程示意图；

图4为本发明实施例的答案识别系统的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示出了本发明实施例的基于能量增强的注意力网络的答案识别方法实现流程示意图，在该实施例中，通过一处理设备接收待处理文本，上述待处理文本包括段落文本和问题文本，其中，段落文本包括句子、段落或篇章，上述处理设备内置一注意力网络处理上述的待处理文本，获得与答案相关的文本序列，注意力网络包括编码单元、推理单元，该方法具体包括步骤11至步骤14：

步骤11：接收输入的待处理文本，获取上下文向量；

在本实施例中，处理设备接收段落文本和问题文本，对段落文本和问题文本进行初步处理，获取上下文向量。其中，获取上下文向量的步骤请参阅图2所示的流程。

步骤12：确定上下文向量的基础注意力向量。

通常，传统的注意力网络大都是让模型自己去学习No Attention，而本实施例中，设置一个基础注意力向量表示No Attention，使得注意力初始权重更有针对性，基础注意力向量表示对应上下文向量的初始注意力权重。

基础注意力向量并不是随机设定的，也不是全局共享的，而是按照其所在的位置和方向通过计算动态获取的，比如根据方向分别定义cq（memory：q）和qc（memory: c）双向注意力的时候，不同方向的守卫向量定义会有如下不同的公式：

（1）

（2）

其中，表示上述段落文本到上述问题文本方向的基础注意力向量，/>表示上述问题文本到上述段落文本方向的基础注意力向量，/>为上述问题文本的长度，/>为上述段落文本的长度，/>是上述问题文本，/>是上述段落文本，∑为逐元素相加。

步骤13：基于基础注意力向量，获取上下文向量每一个向量的增强向量组合。

要提高答案获取的准确率，最有效的方式是提高注意力向量的能量强度。在一个实施例中，在注意力网络中通过为每个向量获取增强向量组合，通过增强向量组合来提高注意力向量的能量强度。

在一个实施例中，增强向量组合包括局部能量补偿向量、全局能量补偿向量和能量强烈程度向量/>。

获取增强向量组合的步骤请参阅图3所示的流程。

步骤14：基于增强向量组合，采用注意力网络获得目标答案。

在一个实施例中，根据步骤13获得的增强向量组合获取增强向量组合，其获取步骤如下所示：

步骤（1-4-1）：获取全局能量表达；

根据上述步骤13获得的增强向量组合，包括：局部能量补偿向量、全局能量补偿向量/>和能量强烈程度向量/>，从段落文本方向获取一个全局的能量表达/>，上述/>的获取步骤计算公式为：

步骤（1-4-2）：计算双向的能量增强的注意力向量；

基于多头注意力机制，基于每个head计算双向的能量增强的注意力向量，其中，该注意力向量/>包括每个head的从段落文本到问题文本方向的增强的注意力向量，以及每个head的从问题文本到段落文本方向的增强的注意力向量/>，/>包括传统的注意力向量/>、能量最强向量/>、局部能量补偿向量/>、全局能量补偿向量/>、全局的能量表达/>，其表达式为：

类似以上cq方向增强的注意力向量的计算过程，可按照相同的逻辑获取qc方向的能量增强的注意力向量，/>包括了传统的注意力向量/>、能量最强向量、局部能量补偿向量/>、全局能量补偿向量/>、全局的能量表达/>，表达式为：

其中，段落文本采用的是带着问题答案的文本数据，表达式为：

基于上一步方法得到之后，可借用Attention over Attention的方法，针对的不同方向获取注意力向量/>和/>，再通过计算点乘，获得能量增强的注意力向量/>：

根据以上能量增强的注意力向量，可以获取能量最强的向量，这个能量最强的向量就是最接近答案的向量，输出该向量，获得目标答案。

请参阅图2所示的流程图，图2示出了本发明实施例的获取上下文向量的流程示意图，包括步骤（2-1）至步骤（2-4）：

步骤（2-1）：对待处理文本中的词进行词性标注；

在一个实施例中，处理设备在接收到待处理文本后，对待处理文本进行词性标注，使得后续的处理效率更高。

步骤（2-2）：获取待处理文本的全部实体，并对全部实体进行标注；

待处理文本包括段落文本和问题文本，所述段落文本为包含两个或以上句子的篇章级文本,句子是段落的基本组成部分，是由词、短语构成的，可以表达一个完整意思的文本。在一些实施例中，句子可以包括但不限于汉字、字符、符号、数字等一种或多种。实体是句子中的主要要素。例如，实体可以包括但不限于句子中的人物、时间、地点等中的一种或多种。在一些实施例中，实体可以包括数字、词、词组等一种或多种。在一些实施例中，处理设备可以通过序列标注方法获取待处理文本中的一个或多个实体。例如，处理设备可以将待处理文本的一个或多个文本作为输入数据，利用神经网络获取待处理文本中包含的实体。在一些实施例中，可用于获取实体的神经网络可以包括但不限于LSTM-CRF网络、BERT-CRF网络、BERT-Softmax网络等。

步骤（2-3）：通过一个神经网络获取全部实体的上下文特征；

待处理文本中获取的实体是不定长的序列，通过获取实体的上下文特征将不定长的序列变换成定长的序列，通常采用神经网络获取所述全部实体的上下文特征，这里的待处理文本包含的实体长度不确定，可以通过一个循环神经网络（RNN）或卷积神经网络（CNN）来获取固定大小的上下文特征。

步骤（2-4）：基于上述上下文特征，获得上下文向量。

将获得的上下文特征通过一个网络模型(CNN, RNN, DNN), 编码为一个向量，在一个实施例中，使用单层的双向LSTM（或GRU）进行字特征的编码，使用多层双向LSTM（或GRU）来进行段落和问题编码来提升多层次的特征学习能力，层与层之间使用Dropout减少过拟合来提升泛化能力。

请参阅图3所示的流程图，图3示出了本发明实施例的计算增强向量组合的流程示意图，增强向量组合包括：局部能量补偿向量、全局能量补偿向量/>、能量强烈程度向量/>，该方法具体包括步骤S1至步骤S3：

步骤S1：获得局部能量补偿向量，其获得步骤包括公式（3）至公式（5）：

（3）

（4）

（5）

其中：表示上述段落文本/>与问题文本/>之间的相似矩阵，/>与/>分别代表计算处于段落文本/>与问题文本/>的位置，上述相似矩阵采用线性变换函数/>和非线性激励函数/>运算后得到的两个序列进行点乘运算获得；

是基于概率的相似矩阵，其获得方法是利用/>模型对上述相似矩阵沿着问题文本/>计算获得；

是局部能量补偿向量，用于表达上述段落文本每个字分别与上述问题文本进行碰撞比较的能量强度，计算方法是基于/>函数对概率相似矩阵/>沿问题文本/>的方向获取最大值。

步骤S2：获得全局能量补偿向量，其获得步骤包括公式（6）；

（6）

其中，上述全局能量补偿向量表示上述段落文本的每个字与上述问题文本的最近距离，并将该距离概率化，具体的计算过程为：利用/>函数计算相似矩阵/>沿着问题文本/>的最大值，然后沿着上述段落文本/>对上述最大值计算/>值。

步骤S3：获得能量强烈程度向量，其获得步骤包括公式（7）和（8）；

（7）

（8）

其中，表示的是传统算法产生的注意力向量，通过该计算注意力向量/>与段落文本/>的点乘，获得该位置的字/>用于回答问题/>的能量强烈程度向量/>。

请参阅图4，图4示出了本发明实施例的答案识别系统的结构框图，该系统主要包括：前置处理模块101、编码模块102，编码模块103、注意力网络模块104，其中：

前置处理模块101：用于对待处理文本进行词性标注，获取待处理文本的全部实体，所述待处理文本包括段落文本和问题文本，所述段落文本为包含两个或以上句子的篇章级文本；

编码模块102：用以通过一个神经网络获取所述全部实体的上下文特征，并通过编码压缩处理，获得上下文向量；

能量增强处理模块103：包括确定基础注意力向量，获取增强向量组合；

注意力网络模块104：根据增强向量组合，通过所述注意力网络获取答案。

在本发明实施例中，能量增强的注意力网络基于微软的R-Net构建，R-Net包括了编码层，推理层，解码层，同时，本发明实施例中，利用斯坦福的SQuAD-V1.1构建注意力网络的基本训练数据集，SQuAD包括了536篇维基百科及其在百科上10w多个问题，并且内容还在不断增加，是比较合适的基本训练数据集。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上上述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应上述以权利要求的保护范围为准。

Claims

1.一种基于能量增强的注意力网络的答案识别方法，通过一处理设备接收待处理文本，所述待处理文本包括段落文本和问题文本，所述段落文本为包含两个或以上句子的篇章级文本，其特征在于，所述处理设备内置一注意力网络处理所述的待处理文本，获得与答案相关的文本序列，所述基于能量增强的注意力网络的答案识别方法包括：

步骤11：接收输入的待处理文本，获取上下文向量；

步骤12：确定所述上下文向量的基础注意力向量，所述基础注意力向量表示所属向量的初始注意力权重；

步骤13：基于所述基础注意力向量，获取所述上下文向量每一个向量的增强向量组合，所述增强向量组合用于提高注意力向量的能量强烈程度；

步骤14：基于所述增强向量组合，采用所述注意力网络获得目标答案；

步骤12中，所述基础注意力向量有多个，所述上下文向量的每一个向量都有一个对应的基础注意力向量，所述基础注意力向量的值与其对应向量的位置、方向有关；

确定基础注意力向量的方法如公式(1)和公式(2)所示：

其中，st_cq表示所述段落文本到所述问题文本方向的基础注意力向量，st_qc表示所述问题文本到所述段落文本方向的基础注意力向量，|Q|为所述问题文本的长度，|C|为所述段落文本的长度，q^t是所述问题文本，c^t是所述段落文本，∑为逐元素相加；

在所述的步骤13中，所述的增强向量组合包括局部能量补偿向量、全局能量补偿向量、能量强烈程度向量；

所述的步骤13中，所述增强向量组合的获取步骤包括：局部能量补偿向量的获取步骤、全局能量补偿向量的获取步骤、能量强烈程度向量的获取步骤；

所述的局部能量补偿向量的获取步骤如公式(3)至公式(5)所示：

其中：是局部能量补偿向量，表示所述段落文本每个字分别与所述问题文本进行碰撞比较的能量强度，计算方法是基于maxout函数对概率相似矩阵/>沿问题文本q^t的方向获取最大值；

表示所述段落文本c^t与所述问题文本q^t之间的相似矩阵，t与j分别代表计算处于所述段落文本c^t与问题文本q^t的位置，所述相似矩阵采用线性变换函数W和非线性激励函数relu运算后得到的两个序列进行点乘运算获得；

是基于概率的相似矩阵，其获得方法是利用softmax模型对所述相似矩阵/>沿着问题文本q^t的方向计算获得；

所述的全局能量补偿向量的获取步骤如公式(6)所示：

其中，所述全局能量补偿向量表示所述段落文本的每个字与所述问题文本的最近距离，并将该距离概率化，具体的计算过程为：利用maxout函数计算相似矩阵/>沿着问题文本q^t的最大值，然后沿着所述段落文本c^t对所述最大值计算softmax值；

所述的能量强烈程度向量的获取步骤如公式(7)至公式(8)所示：

其中，表示的是传统算法产生的注意力向量，通过计算注意力向量/>与所述段落文本c^t的点乘，获得该位置的字c用于回答问题q的能量强烈程度向量/>

2.根据权利要求1所述的基于能量增强的注意力网络的答案识别方法，其特征在于，步骤11中所述获取上下文向量的步骤具体包括：

对待处理文本中的词进行词性标注；

获取待处理文本的全部实体，并对所述全部实体进行标注；

通过一个神经网络获取所述全部实体的上下文特征；

基于所述的上下文特征，获得上下文向量。

3.一种答案识别系统，其特征在于，应用于如权利要求1-2中任意一项所述的基于能量增强的注意力网络的答案识别方法，所述的答案识别系统包括：前置处理模块、编码模块、能量增强处理模块、注意力网络模块，其中：

注意力网络模块：根据增强向量组合，通过所述注意力网络获取答案。