CN109977213B

CN109977213B - 一种面向智能问答系统的最优答案选择方法

Info

Publication number: CN109977213B
Application number: CN201910248427.6A
Authority: CN
Inventors: 徐小龙; 路欣远
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-11-01
Anticipated expiration: 2039-03-29
Also published as: CN109977213A

Abstract

本发明公开了一种面向智能问答系统的最优答案选择方法，对于问题与每一条候选答案，该方法首先需要将问题与候选答案转换成词向量的形式，利用共享参数的滑动窗口运算提取句子的局部特征，再对得到的结果进行整体加权平均运算从而对整体特征进行整合，突出重要的部分并减弱对句子含义影响较小的部分。对于上一阶段的输出，问题部分直接通过平均池化转化成向量的形式，答案部分需要通过获取问题向量中的信息来进行加权平均，而那些与问题相关的部分会得到较大的权重。最后，将问题与答案的向量通过余弦计算出相似度得分，得分最高的候选答案将被选为最终的答案。本发明提供的一种面向智能问答系统的最优答案选择方法，具有较高的准确率与运行速度的优点。

Description

一种面向智能问答系统的最优答案选择方法

技术领域

本发明涉及一种面向智能问答系统的最优答案选择方法，涉及自然语言处理与人工智能的相关技术领域。

背景技术

自动问答系统一般包括问题分析、信息检索、答案选择等模块。其中答案选择是问答系统的关键步骤，答案选择任务的重点在于需要从问题以及答案中提取足够多的信息，并将其表示出来，该模块的性能直接决定系统提交给用户的答案的质量。

传统的答案选择方法需要通过人工提取特征的方法来表示句子。比如句法依存树、语法树等来计算二者的编辑距离。这些通过人工提取特征的方法虽然每个特征都具有很好的解释性，但是通过人工提取特征需要花费大量的人工成本，也会需要使用额外的资源。而且，这样的方法与使用深度学习模型的方法相比，在性能上差距较大。

随着深度学习在自然语言处理领域的发展，越来越多的使用深度学习的答案选择方法被提出。在这些方法中，需要现将问题与候选答案转换成词向量的形式，并通过深度学习模型进行一些运算，最后通过余弦相似度计算出候选答案的得分。其中，使用长短记忆网络表示句子并用注意力机制来使得答案获取问题中信息的方法被广泛应用于答案选择，多种基于卷积神经网络和长短记忆网络的混合模型也被提出。大部分的答案选择方法都是使用卷积神经网络或长短记忆网络来提取问题与答案的特征，但卷积神经网络的方法缺乏获取句子整体特征的能力，而长短记忆网络在提取局部特征上也有着缺陷。同时传统卷积神经网络与长短记忆网络参数量较大，如果同时使用将导致模型参数数量巨大，实际运行速度也将很慢，很难运用于对需要较强实时性的问答系统。

作为卷积神经网络的一种变种，深度可分离卷积神经网络最早被应用于计算机视觉中。后来,该神经网络被用于机器翻译，将其引入了自然语言处理领域。自注意力机制也是近年来自然语言处理任务中常用的一种方法，如果单独用来作为模型的编码器来提取句子的特征也可以取得优秀的结果。

总体来说，现有技术中采用卷积神经网络模型的答案选择方法存在准确率不够、效率不足的问题。

发明内容

本发明所要解决的技术问题是：克服现有技术的不足，提供了一种具备优秀的准确率、效率高与实时性的优点的面向智能问答系统的最优答案选择方法。

本发明为解决上述技术问题采用以下技术方案：

一种面向智能问答系统的最优答案选择方法，包括如下步骤：

S01，将问题与候选答案去除标点符号，之后将每一个词转换成预训练的词向量，这样每个句子都表示为一个矩阵X_input；

S02，将词向量与位置编码PE相加，pos代表位置，i表示输入句子的长度，d_model表示词向量的维度，经过这样的处理，每一输入的每一维都对应这一个正弦曲线，而正弦曲线中含有了位置信息；

其中，

和PE_(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码，在经过上述计算后，将得到一个矩阵X_p；

S03，将矩阵X_p经过规范化,再通过滑动窗口运算，并将其结果与矩阵X_p相加，得到运算结果矩阵X_c；

S04，将矩阵X_c规范化，并通过一次整体加权平均运算，得到矩阵X_at；

S05，对于矩阵X_at，将问题的部分对矩阵行向量求平均得到问题的向量表示o_q，通过o_q中的信息进行加权平均，得到候选答案的向量表示o_a；

S06，将问题的向量o_q与候选答案的向量o_a计算余弦距离，作为该答案的得分，最后从所有候选答案中选择得分最高的作为结果。

进一步地，S03和S04中所述的规范化，是对矩阵的每个列向量y进行运算，μ(y)为列向量的平均值，σ(y)为列向量的标准差，g和b为防止规范化后变为标准正态分布所设置的参数，规范化norm的具体计算公式为：

其中，h代表列向量y的维度，y_i代表列向量y中的每个元素；

进一步地，S03中所述的滑动窗口运算具体如下：当给定一个序列X＝[x₁,x₂,…,x_n]，其中x_i表示X中的第i维列向量，每一维列向量的维度为d，F表示一个宽度为m，高度与x_i维度一致的滑动窗口矩阵，F_k,j表示F中第k行第j列的值，在X中以x_i作为第一列的m个列向量的滑动窗口运算将会得到o_i，在得到o_i后，需要增加偏置向量e_i并通过增加激活函数σ得到结果z_i，对X中每一维列向量x_i执行上述运算，将得到一个n维向量z，用d个不同的滑动窗口，将每个滑动窗口得到的z作为行向量将得到矩阵X_c，其中o_i和z_i的计算方式如下：

z_i＝σ(o_i+e_i) (7)

进一步地，S04中整体加权平均运算具体为：当给定一个序列X＝[x₁,x₂,…,x_n]和一个向量表示q时，其中x_i表示X中的第i维列向量，首先需要得到x_i的权重，该权重与q相关，该权重通过函数f(x_i,q)求得，该结果用于表明二者之间的相关程度；接着使用归一化的指数函数得到p(y|X,q)，其意义在于在当前任务中哪一个x_i对于该q更加重要，最后，通过该权重获得加权平均后的

f(x_i,q)＝w^Tσ(W_xx_i+W_qq) (9)

其中，w是权重向量，W_x，W_q为权重转移矩阵，n代表序列X的列数，

进一步地，通过计算每一个x_i与X的整体的关系，从而使得序列中与任务相关的重要信息能够得到加强：

sa(X)＝[wa(X,x₁),wa(X,x₂),...,wa(X,x_i)] (11)

其中，wa(X,q)代表序列X加权平均后的结果；sa(X)代表序列X整体加权

平均后的结果；

进一步地，S05中候选答案通过问题向量进行加权平均的注意力机制为如下所述，候选答案部分在S05中的输出为H_sa,那么经过注意力机制的影响后的答案的向量表示o_a可以按如下表示，

o_a＝wa(H_sa,o_q) (12)。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明利用共享权重的滑动窗口运算来对问题与答案的词向量进行局部特征提取，使得最后得到的向量形式可以表现出句子中重要的局部信息。

2、本发明利用共享参数的整体加权平均来对问题与答案的词向量进行全局特征提取，使得在表现句子意思中较为重要的部分可以得到突出而对句意影响较小的部分进行抑制。

3、本发明采用使用跨句子的加权平均机制，使得答案的向量表示可以得到问题的信息，从而更加突出与问题更相关的那一部分。

4、本发明充分提取了问题和答案中得到重要信息，可以在答案选择的公开数据上都取得优异的效果，在对准确率、实时性要求较高的问答系统中具有良好的实用性。

附图说明

图1是本发明一种面向智能问答系统的最优答案选择方法采用的模型图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本发明提出的一种面向智能问答系统的最优答案选择方法，在对用户所输入的问题进行分析以及对答案池中的答案进行初步检索后将得到候选答案，对于候选答案需要从中挑选出最合适的一个，具体步骤如下：

步骤1，将问题与候选答案去除标点符号，之后将每一个词转换成预训练的100维词向量，这样每个句子都表示为一个矩阵X_input；

步骤2，将词向量与位置编码PE相加，pos代表位置，i表示输入句子的长度，d_model表示词向量的维度。sin代表正弦计算，cos代表余弦计算，经过这样的处理，每一输入的每一维都对应这一个正弦曲线，而正弦曲线中含有了位置信息；

其中，

和PE_(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码，在经过步骤2计算后，将得到一个矩阵X_p，具体如下；

步骤3，将步骤2的结果经过规范化,该规范化是指对矩阵的每个列向量y进行运算，μ(y)为列向量的平均值，σ(y)为列向量的标准差，g和b为防止规范化后变为标准正态分布所设置的参数，规范化norm的具体计算公式为：

其中，h代表列向量y的维度，y_i代表列向量y中的每个元素。最终得到矩阵X_norm：

滑动窗口运算具体如下：当给定一个序列X＝[x₁,x₂,…,x_n]，x_i表示X中的第i维列向量，每一维列向量的维度为d，F表示一个宽度为m，高度与x_i维度一致的滑动窗口矩阵，F_k,j表示F中第k行第j列的值，在X中以x_i作为第一列的m个列向量的滑动窗口运算将会得到o_i，在得到o_i后，需要增加偏置e_i并通过增加激活函数σ得到结果z_i，对X中每一维列向量x_i执行上述运算，将得到一个n维向量z，用d个不同的滑动窗口，将每个滑动窗口得到的z作为行向量将得到矩阵X_c。其中o_i和z_i的计算方式如下：

z_i＝σ(o_i+e_i) (7)。

将所有得到的z作为列向量将得到矩阵X_conv：

将矩阵X_conv与步骤3的输入矩阵X_p相加得到矩阵X_c

步骤4，将步骤3的结果规范化，规范化与步骤3的规范化过程一样，并通过一次整体加权平均运算，得到矩阵X_at。

加权平均运算过程如下所述，当给定一个序列X＝[x₁,x₂,…,x_n]和一个向量表示q时，其中x_i表示X中的第i维列向量，首先需要得到x_i的权重，该权重与q相关，该权重通过函数f(x_i,q)求得,该结果用于表明二者之间的相关程度；f(x_i,q)中w是权重向量，W_x、W_q为权重转移矩阵。接着使用归一化的指数函数得到p(y|X,q)，其意义在于在当前任务中哪一个x_i对于该q更加重要。最后，通过该权重获得加权平均后的

f(x_i,q)＝w^Tσ(W_xx_i+W_qq) (9)

其中n代表序列X的列数。

通过计算每一个x_i与X的整体的关系，从而使得序列中与任务相关的重要信息能够得到加强：

sa(X)＝[wa(X,x₁),wa(X,x₂),...,wa(X,x_i)] (11)

其中，wa(X,q)代表序列X加权平均后的结果；sa(X)代表序列X整体加权平均后的结果，在经过整体加权平均后得到矩阵X_s

步骤5，对于步骤4的结果，将问题的部分对矩阵行向量求平均得到问题的向量表示o_q，对于候选答案部分，需要通过o_q中的信息进行加权平均，得到答案的向量表示o_a；

o_a＝wa(H_sa,o_q) (12)

步骤6，将步骤5的结果中问题的向量o_q与候选答案的向量o_a计算余弦距离，作为该答案的得分，对于每一个候选答案进行步骤2至步骤4的运算后得到该得分，从中选择得分最高的答案作为问题的最佳答案。在如下的一组得分中，第7列所对应的答案将被选择为最优答案。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种面向智能问答系统的最优答案选择方法，其特征在于，包括如下步骤：

其中，PE_(pos,2i)和PE_(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码，将得到一个矩阵X_p；

S03，将矩阵X_p经过规范化,再通过滑动窗口运算，并将其结果与矩阵X_p相加，得到运算结果矩阵X_c，滑动窗口运算具体如下：当给定一个序列X＝[x₁,x₂,…,x_n]，其中x_i表示X中的第i维列向量，每一维列向量的维度为d，F表示一个宽度为m，高度与x_i维度一致的滑动窗口矩阵，F_k,j表示F中第k行第j列的值，在X中以x_i作为第一列的m个列向量的滑动窗口运算将会得到o_i，在得到o_i后，需要增加偏置向量e_i并通过增加激活函数σ得到结果z_i，对X中每一维列向量x_i执行上述运算，将得到一个n维向量z，用d个不同的滑动窗口，将每个滑动窗口得到的z作为行向量将得到矩阵X_c，其中o_i和z_i的计算方式如下：

z_i＝σ(o_i+e_i) (7)；

S04，将矩阵X_c规范化，并通过一次整体加权平均运算，得到矩阵X_at，整体加权平均运算具体为：当给定一个序列X＝[x₁,x₂,…,x_n]和一个向量表示q时，其中x_i表示X中的第i维列向量，首先需要得到x_i的权重，该权重与q相关，该权重通过函数f(x_i,q)求得，该结果用于表明二者之间的相关程度；接着使用归一化的指数函数得到p(y|X,q)，其意义在于在当前任务中哪一个x_i对于该q更加重要，最后，通过该权重获得加权平均后的

f(x_i,q)＝w^Tσ(W_xx_i+W_qq) (9)

sa(X)＝[wa(X,x₁),wa(X,x₂),...,wa(X,x_i)] (11)

其中，wa(X,q)代表序列X加权平均后的结果；sa(X)代表序列X整体加权平均后的结果；

S06，将问题的向量o_q与候选答案的向量o_a计算余弦距离，作为该答案的得分，最后从所有候选答案中选择得分最高的作为结果，候选答案通过问题向量进行加权平均的注意力机制为：候选答案部分在S05中的输出为H_sa,那么经过注意力机制的影响后的答案的向量表示o_a可以按如下表示，

o_a＝wa(H_sa,o_q) (12)。

2.根据权利要求1所述的一种面向智能问答系统的最优答案选择方法，其特征在于，S03和S04中所述的规范化，是对矩阵的每个列向量y进行运算，μ(y)为列向量的平均值，σ(y)为列向量的标准差，g和b为防止规范化后变为标准正态分布所设置的参数，规范化norm的具体计算公式为：

其中，h代表列向量y的维度，y_i代表列向量y中的每个元素。