CN108829719A

CN108829719A - 一种非事实类问答答案选择方法及系统

Info

Publication number: CN108829719A
Application number: CN201810427636.2A
Authority: CN
Inventors: 马荣强; 张健; 李淼; 陈雷; 高会议
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-16
Anticipated expiration: 2038-05-07
Also published as: CN108829719B

Abstract

本发明公开了一种非事实类问答答案选择方法，属于智能检索技术领域，包括采用基于注意力机制的卷积神经网络分别对问句、待选择答案语句进行处理，得到第一语义向量、第二语义向量，其中，第一语义向量表示问句的语义向量，第二语义向量表示待选择的答案语句的语义向量；将第一语义向量与所述第二语义向量进行匹配，并将匹配度最高的第二语义向量所对应的待选择答案语句作为正确答案返回。本发明利用基于注意力机制的卷积神经网络生成句子的语义向量表示，在语义表示过程中的重要程度对输入赋予权重，减小与答案主题无关内容的影响，自动生成高质量的语义表示，提高了问句与答案语句的语义匹配度，进而提高了答案选择的正确率。

Description

一种非事实类问答答案选择方法及系统

技术领域

本发明涉及智能检索技术领域，特别涉及一种非事实类问答答案选择方法及系统。

背景技术

非事实类问答系统回答问题的流程为：问题分析、问句检索和答案选择。首先通过问题分析来确定问题类型和预期的答案类型，有时还需要对问题的关键词进行扩展；然后利用问题的类型及关键词信息从知识库中检索出与问题相关的候选答案集；最后利用语义特征匹配选择出正确答案。答案选择任务的做法就是通过语义分析找到问句与答案之间的语义关联性，从而选出正确答案。非事实类领域非事实类问答的特点是答案文本的长度一般比问句要长的多，并且其数据来源主要是网络社区问答，答案中会包含一些口语化表达和冗余信息。因此，如何有效建立问题与答案之间的语义关联是非事实类领域问答系统中的主要任务之一。

随着以深度学习为代表的表示学习技术在多个领域的成功应用，许多研究者开始着手研究基于深度学习学习的答案选择技术。深度学习的优点在于通过将语义映射为低维空间向量，自动学习并提取语义特征，增强了语义的可计算性，消除了语义鸿沟。其基本假设是把答案选择任务看做语义匹配过程，通过表示学习知识，将自然语言问句和答案转换为低维语义空间中的数值向量，再次基础上，利用数值计算直接匹配与用户问句语义最相似的答案。

基于深度学习技术的答案选择模型可以分为两种情况，一种是使用通用神经网络模型，例如卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Networks，RNN)等，生成文本的语义向量，然后利用语义匹配进行答案选择。例如利用卷积神经网络可以捕捉到单词的位置信息，可以在不用考虑单词的位置而提取n-gram模型特征，不用使用任何工具可以学习句子的语法结构特征捕捉句子的长距离依赖问题进而将将句子编码成定长向量。还可以将问题和候选答案看作一个整体，利用循环神经网络可以处理序列数据的特性，对每条问题-答案对进行编码，然后将编码后的句子向量输入到长短期记忆模型(long-short term memory，LSTM)中，每个时刻的输出作为答案最终的类别。这种操作方法可以捕捉到候选答案中的对话信息。

另一种利用深度学习技术来进行答案选择的情况是分析现有深度学习模型的缺点，结合模型的结构特性，从模型结构或中间的处理过程对模型进行改进。相关工作有：通过分析融合注意力(Attention)机制，利用三种对融合注意力机制的长短期记忆网络模型进行改进的措施，目的是改于单项LSTM网络越靠近后期的时间点保存的信息量越多，导致的注意力机制出现权重偏置的问题；为了更好地消除歧义，利用一种潜在的随机Attention机制，主要是在融合注意力机制的长短期记忆模型的权重相乘阶段，用一个潜在的向量表示得到的问题向量，然后利用这个潜在向量对答案文本中长短期记忆网络的没事时间点的输出计算一个权值。

基于深度学习的答案选择方法也有相应的弊端，比如：基于神经网络的语义表示模型往往对输入文本进行统一处理，并不能识别出答案文本中的噪声信息，并且单一的网络结构只能挖掘文本相同的语义特征，这都使得最后生成的语义向量不能高效表达语义信息。另外，神经网络训练过程计算量大，模型训练时间较长，最终要的是网络结构难以解释，只能通过模型最终的结果来验证不能网络结构及其组合形式的性能。

发明内容

本发明的目的在于提供一种非事实类问答答案选择方法及系统，以提高答案选择的准确率。

为实现以上目的，本发明采用一种非事实类问答答案选择方法，包括如下步骤：

采用基于注意力机制的卷积神经网络分别对问句、待选择答案语句进行处理，得到第一语义向量、第二语义向量，其中，第一语义向量表示问句的语义向量，第二语义向量表示待选择的答案语句的语义向量；

将所述第一语义向量与所述第二语义向量进行匹配，并将匹配度最高的第二语义向量所对应的待选择答案语句作为正确答案返回。

优选地，所述的基于注意力机制的卷积神经网络包括：卷积前的注意力机制、卷积后的注意力机制以及卷积前后注意力机制。

优选地，所述卷积前的注意力机制具体为：

在卷积神经网络模型输入端，根据问句在卷积层的原输入表示层、答案语句在卷积层的原输入表示层，得到第一注意力矩阵，其中，第一注意力矩阵中第i行第j个元素表示问句在卷积层的原输入表示层中的第i个向量与答案语句在卷积层的原输入表示层中第j个向量的相似度；

根据第一注意力矩阵以及设定的第一注意力参数矩阵，计算第一注意力表示层，以及根据第一注意力矩阵以及设定的第二注意力参数矩阵，计算第二注意力表示层；

将所述第一注意力表示层和所述第二注意力表示层作为卷积神经网络模型的输入，将卷积神经网络模型的输出结果作为问句或待选择答案语句的语义向量。

优选地，所述卷积后的注意力机制具体为：

在所述卷积神经网络模型的输出端，根据其输出结果，得到第二注意力矩阵；

对第二注意力矩阵的行求和，并将行求和结果作为问句的注意力向量；

对第二注意力矩阵的列求和，并将列求和结果作为答案语句的注意力向量；

使用问句的注意力向量、答案语句的注意力向量分别知道卷积神经网络模型的池化过程，将得到的绘画结果作为问句或待选择答案语句的语义向量。

优选地，所述卷积前后注意力机制具体为：

在所述卷积神经网络模型的每个池化层之后加入注意力机制，对所述卷积神经网络模型进行修改；

将修改后的卷积神经网络模型的输出结果作为问句或待选择答案语句的语义向量。

优选地，还包括：

将所述第二语义向量输入到BiLSTM网络中，得到优化后的第二语义向量；

将所述第一语义向量与所述优化后的第二语义向量进行匹配，并将匹配度最高的优化后的第二语义向量所对应的待选择答案语句作为正确答案返回。

另一方面，采用一种非事实类问答答案选择系统，包括处理模块和匹配模块，处理模块的输出端与匹配模块连接；

处理模块，用于采用基于注意力机制的卷积神经网络分别对问句、待选择答案语句进行处理，得到第一语义向量、第二语义向量，其中，第一语义向量表示问句的语义向量，第二语义向量表示待选择的答案语句的语义向量；

匹配模块，用于将所述第一语义向量与所述第二语义向量进行匹配，并将匹配度最高的第二语义向量所对应的待选择答案语句作为正确答案返回。

优选地，还包括与优化模块，优化模块的输入端与所述处理模块连接、输出端与所述匹配模块连接；

优化模块，用于将所述处理模块输出的所述第二语义向量输入到BiLSTM网络中，得到优化后的第二语义向量；

相应地，所述优化模块，用于将所述第一语义向量与所述优化后的第二语义向量进行匹配，并将匹配度最高的优化后的第二语义向量所对应的待选择答案语句作为正确答案返回。

与现有技术相比，本发明存在以下技术效果：本发明利用基于注意力机制的卷积神经网络生成句子的语义向量表示，卷积神经网络注重提取句子的局部特征，对关键词信息较为敏感，注意力机制能够根据在语义表示过程中的重要程度对输入赋予权重，减小与答案主题无关内容的影响，自动生成高质量的语义表示。提高了问句与答案语句的语义匹配度，进而提高了答案选择的正确率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种非事实类问答答案选择方法的流程示意图；

图2是引入注意力模型的编码-解码模型；

图3是卷积前注意力机制原理图；

图4是卷积后注意力机制原理图；

图5是卷积前后注意力机制原理图；

图6是基于Attention-CNN与BiLSTM结合的答案选择模型；

图7是基于注意力机制的LSTM语义表示模型；

图8是BiLSTM网络结构示意图；

图9是一种非事实类问答答案选择系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

本实施例通过提供一种非事实类问答答案选择方法，以解决传统的问答系统中答案选择准确率低的问题。解决这个问题的主要思想是在卷积神经网络模型中引入注意力机制，注意力机制能根据在语义表示过程中的重要程度对输入赋予权重，减小与答案主题无关内容的影响，生成高质量的问句语义向量、答案语句的语义向量，从而提高答案选择的准确率。下面对本实施例方案进行详细说明：

如图1所示，本实施例公开的一种非事实类问答答案选择方法，包括如下步骤S1至S2：

S1、采用基于注意力机制的卷积神经网络分别对问句、待选择答案语句进行处理，得到第一语义向量、第二语义向量，其中，第一语义向量表示问句的语义向量，第二语义向量表示待选择的答案语句的语义向量；

S2、将所述第一语义向量与所述第二语义向量进行匹配，并将匹配度最高的第二语义向量所对应的待选择答案语句作为正确答案返回。

在编码解码结构中，利用一个中间语义向量C来表示编码器的输出。加入注意力机制后，在解码器进行输出时，中间的语义向量C被替换成C_i。C_i是每个单词输入到编码器是，中间语义向量的值。图2表示的是加入了注意力机制后的编码解码模型。观察编码网络可以得知每一步所生成的隐转态在解码过程中都会加入进来，由一个注意力模块对每个隐转态的权值进行计算，根据计算得到的权值对解码过程产生影响，注意力模块的具体实现由一个浅层全连接网络构成，输入编码隐转态和当前解码隐状态进行运算，对各个权值进行归一化后再对每个编码隐状态进行加权。

传统的基于卷积神经网络的语义表示模型中，在卷积层和池化层两个文本之间缺少了交互，而最后得到的低维向量只包含文本的高层信息，在这一过程中很可能丢失了一些句子本身的相关信息。因此基于注意力机制本身所取得的效果以及卷积神经网络的特点，本课题决定将注意力机制应用到卷积神经网络中，加强文本内容进行卷积时在底层特征中的交互，并学习到句子中的关键特征。基于注意力机制的卷积神经网络有三种形式：包括卷积前注意力机制的神经网络、卷积后注意力机制的神经网络以及卷积前后注意力机制的神经网络。分别进行说明如下：

(1)卷积前注意力机制的神经网络：

所述卷积前注意力机制的神经网络指的是卷积神经网络在进行卷积操作前，首先根据两个输入表示层得到第一注意力矩阵A。如图3所示，根据问句在卷积层的原输入表示层和答案语句在卷积层的原输入表示层，得到第一注意力矩阵A。其中，在第一个卷积层，问句的词向量映射为S_q，答案的词向量映射为S_p，并且每列表示一个单词。在后续卷积层中，每列是由相邻单词组成的短语组成的。其中，第一注意力矩阵A中第i行第j个元素表示S_q中第i个向量和S_p中第j个向量的相似度。第一注意力矩阵A的计算公式为：

A_i，j＝match_scorre(S_q[i，：]，S_p[j，：])，

其中，||x-y||²表示两个向量间的欧式距离。

根据第一注意力矩阵A，两个输入的注意力表示层R_q和R_p计算方法如下：

R_q＝W_q·A^TW_q，

R_p＝W_p·A W_p，

其中，W_q和W_p为两个注意力参数矩阵，这两个注意力矩阵的参数初始化为1，然后通过训练过程不断优化，最后得到的最优参数。两个注意力矩阵在语义表示模型中进行共享，即问句和答案的语义表示模型为同一个，T表示转置。

需要说明的是，本实施例对输入序列中每个单词向量的作用进行标记，在模型训练时，可用于指导卷积神经网络来学习两个输入序列的语义对应关系。在利用卷积神经网络进行语义表示时，使用同一个网络结构参数来将语义映射到同一个向量空间，这就必须保持两者的输入矩阵大小相同。而加入注意力模型后，为了减少网络中的参数，两个注意力参数矩阵W_q和W_p在语义表示模型中进行共享。

然后将两个注意力表示层R_q和R_p作为卷积神经网络模型的输入，将卷积神经网络模型的输出结果作为问句或待选择答案语句的语义向量。

(2)卷积后注意力机制的神经网络：

卷积后注意力机制如图4所示，在对原始输入层进行卷积之后，可以得到所提取的特征，得到第二注意力矩阵B，其是语义特征的权值矩阵。句的注意力向量a_q是通过对第二注意力矩阵B的行求和得到的，答案文本的注意力向量a_p是通过对第二注意力矩阵B进行列求和得到的。其中，第二注意力矩阵B的计算方法与卷积前注意力机制中第一注意力矩阵A采用的方法一致。

分别用两个注意力向量指导池化操作，对语义匹配结果影响较大的特征赋予更高的权值，对提取的无关特征赋予小的权值，降低其对结果的影响。融合注意力向量进行池化的具体方法如下所示：

公式中，c是卷积层提取的特征集合，表示a是注意力矩阵，p表示池化结果，k表示特征集合中的任一特征，i表示行，j表示列w表示列的总数。最终的池化结果是由特征进行加权(注意力)得到的。与卷积前加入注意力机制不同的是，注意力矩阵的维度不再与输入表示层的维度相同，而是与卷积之后产生的特征维度相同。从结果上看，卷积后得到的注意力矩阵规模要比卷积前的注意力矩阵规模要小的多。减少了参数的数量。另外，卷积前注意力机制是对原始序列输入进行加权，卷积后注意力机制是对提取的特征进行加权，因此，后者处理的单元颗粒度更大，对结果的影响更为敏感。

(3)卷积前后注意力机制的神经网络：

卷积前后注意力机制的神经网络是在卷积前和卷积后分别加入了一个注意力矩阵，就是将前两种注意力机制结合起来，这种形式的注意力更为复杂，其结构如图5所示。

考虑到问句复述识别任务与机器翻译的过程本身具有一定的相似性，机器翻译的过程可以看做计算机将文本由一种语言翻译到另一种语言，而在语义匹配任务中，同样可以把两个文本的相似度视为一个文本到另一个文本的翻译概率。受到机器翻译上注意力机制的启发，本实施例在每个池化层之后加入了一个注意力机制来对模型结构进行修改，通过注意力操作，把两个句子间相关联的信息进行焦点处理，使得每一次卷积后的有用信息保留下来进入到下一层卷积层中进行运算。

通过在每次卷积操作后加入注意力机制进行聚焦处理，网络在底层计算时就已经发掘了两个文本间的语义联系，通过不断的加权突出了两个文本间的相关和区别信息后得到一个有效的文本语义表示，因此在实际的实验中也取得了比较好的效果。

作为进一步优选的方案，本实施例还包括：

基于长短期记忆神经网络的文本语义表示模型能够保存序列信息，但忽略了句子内部的项互作用，这些关键信息对理解整个文本的语义有更大的贡献。在基于长短期记忆神经网络的答案选择模型中加入注意力机制的思想为，根据与问题语义的相关度，给答案的每个单词进行加权处理。如图6所示，种结合Attention-CNN和BiLSTM网络的组合答案选择模型，该模型首先利用基于注意力机制的卷积神经网络生成句子的语义向量表示，然后将其输入到双向长短期记忆网络中进行生成语义挖掘，最后生成答案文本的语义表示向量。

如图8所示，BiLSTM由两个单向的LSTM组成，其中一个LSTM的输入是正向的，可以访问并存储上文信息，另一个LSTM的输入进行了逆序处理，可以访问并存储下文信息，这样将两个不同方向的LSTM结合起来，在处理每个时间点的信息时，就可以同时考虑上下文信息。

需要说明的是，也可以采用单向LSTM，如图7所示，但是其在对句子进行语义表示时只考虑了上文信息对下文信息的影响，这使最后的信息得到一定的削弱，而Bi LSTM则可以同时考虑上下文的信息。

本实施例提出了一种结合Attention-CNN和BiLSTM相结合的答案选择模型，首先利用基于注意力机制的卷积神经网络生成问句及答案句的语义向量表示，然后再将答案句的语义向量输入到BiLSTM网络中进行深层的语义挖掘，生成高效的文本语义表示获得了更高层次的语义表示向量，提高问句和正确答案的语义匹配度。

如图9所示，本实施例公开了一种非事实类问答答案选择系统，包括处理模块10和匹配模块20，处理模块10的输出端与匹配模块20连接；

处理模块10，用于采用基于注意力机制的卷积神经网络分别对问句、待选择答案语句进行处理，得到第一语义向量、第二语义向量，其中，第一语义向量表示问句的语义向量，第二语义向量表示待选择的答案语句的语义向量；

匹配模块20，用于将所述第一语义向量与所述第二语义向量进行匹配，并将匹配度最高的第二语义向量所对应的待选择答案语句作为正确答案返回。

作为进一步优选地，所述的基于注意力机制的卷积神经网络包括：卷积前的注意力机制、卷积后的注意力机制以及卷积前后注意力机制。

作为进一步优选地，还包括与优化模块，优化模块的输入端与所述处理模块10连接、输出端与所述匹配模块20连接；

优化模块，用于将所述处理模块10输出的所述第二语义向量输入到BiLSTM网络中，得到优化后的第二语义向量；

需要说明的是，本实施例公开的一种非事实类问答答案选择系统用于实现上述一种非事实类问答答案选择方法中的各个步骤，具有相同的技术特征和相同的效果，该处不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非事实类问答答案选择方法，其特征在于，包括：

2.如权利要求1所述的非事实类问答答案选择方法，其特征在于，所述的基于注意力机制的卷积神经网络包括：卷积前注意力机制的神经网络、卷积后注意力机制的神经网络以及卷积前后注意力机制的神经网络。

3.如权利要求2所述的非事实类问答答案选择方法，其特征在于，所述卷积前注意力机制的神经网络具体为：

4.如权利要求3所述的非事实类问答答案选择方法，其特征在于，所述卷积后的注意力机制具体为：

5.如权利要求4所述的非事实类问答答案选择方法，其特征在于，所述卷积前后注意力机制具体为：

6.如权利要求1-5任一项所述的非事实类问答答案选择方法，其特征在于，还包括：

7.一种非事实类问答答案选择系统，其特征在于，包括处理模块和匹配模块，处理模块的输出端与匹配模块连接；

8.如权利要求7所述的非事实类问答答案选择系统，其特征在于，所述的基于注意力机制的卷积神经网络包括：卷积前的注意力机制、卷积后的注意力机制以及卷积前后注意力机制。

9.如权利要求7所述的非事实类问答答案选择系统，其特征在于，还包括与优化模块，优化模块的输入端与所述处理模块连接、输出端与所述匹配模块连接；