CN110543566A

CN110543566A - 一种基于自注意力近邻关系编码的意图分类方法

Info

Publication number: CN110543566A
Application number: CN201910842195.7A
Authority: CN
Inventors: 林芯玥; 刘晋
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-06
Anticipated expiration: 2039-09-06
Also published as: CN110543566B

Abstract

本发明公开了一种基于自注意力近邻关系编码的意图分类方法，该方法包括以下步骤：步骤1：问答系统接收待分类语句，并将待分类语句输入词嵌入层，转换为词向量矩阵；步骤2：将词向量矩阵输入基于近邻关系的自注意力层进行加权计算，映射出目标序列；步骤3：将目标序列输入到传统的自注意力层进行特征学习，获取具有高维语句信息的输出序列；步骤4：将输出序列通过批量归一化层进行批量归一化计算，得到归一化分布序列；步骤5：将归一化分布序列输入全连接层得出分类结果。此方法改善了现有问答系统的准确率和性能提升的瓶颈问题，针对问答系统中的问句意图分类，提出基于新型自注意力机制的改进方法。

Description

一种基于自注意力近邻关系编码的意图分类方法

技术领域

本发明涉及问答系统领域，具体涉及一种基于自注意力近邻关系编码的意图分类方法。

背景技术

问答系统是当前学术界自然语言处理领域中的热门研究话题，也是在工业界内最为广泛使用的人工智能应用之一。它是一种能将互联网大数据时代积累下来的无序语料信息进行有序和科学整理的用于知识分类的系统模型，并使得用户可以利用自然语言的形式来查询他们所想得到的知识信息。

问句的意图识别和理解通常是问答系统处理信息过程中的第一步骤。对用户提出的问题进行意图分析的目的也是为了得到问题的意图类别，从而在后续的系统过程中可以根据不同类型的问题采用不同机制、选择适当的知识库来检索到正确的答案。问句意图分类是将用户提出的自然语言形式的问题根据分类模型来分配给对应意图类别的任务。虽然不同形式的问答系统背后具有不同的技术架构，但是它们大多遵循一个统一的抽象框架，在这其中，问句意图分类在问答系统中起着关键作用，一些相关研究表明问句意图分类的性能对整个问答系统整体性能具有显著的影响。

问句意图分类通常有基于规则和基于学习的方法。问句意图分类是将用户提出的自然语言形式的问题根据分类模型来分配给对应意图类别的任务。虽然不同形式的问答系统背后具有不同的技术架构，但是它们大多遵循一个统一的抽象框架，在这其中，问句意图分类在问答系统中起着关键作用，一些相关研究表明问句意图分类的性能对整个问答系统整体性能具有显著的影响。

基于规则的问句意图分类方法：这种方法往往试图将问题与一些人为预先制定编写的规则相匹配。显而易见的是，这类方法需要根据实际情况定义大量的规则且非常繁琐。而且这类方法在特定的数据集上表现良好，但是在未知的新数据集中的性能可能会相当差，因而难以对其进行扩展，导致其泛化性不足。

传统上基于学习的问句意图分类方法：通常利用的是统计机器学习中的监督学习方法。业内常用的分类器模型包括支持向量机(SVM)、最大熵模型以及SNoW(SparseNetwork of Winnows)模型。

支持向量机(Support Vector Machine SVM)是用于对数据进行分类的非概率模型，它的本质是试图找到一个超平面来进行分类任务的线性判别模型。为了能够线性地分离数据，通常的做法是将特征空间映射到更高维度空间，而这种映射便是通过内核函数来完成的。基本的内核函数有线性、多项式、径向基函数和sigmoid函数。

稀疏网络模型(Sparse Network of Winnows SNoW)是一种可用于问句分类的传统机器学习模型。它是一种多层次的学习体系结构，特别适用于高维空间学习任务。它为每个类学习单独的线性函数，而线性函数通过更新规则(如朴素贝叶斯，感知机或者winnow)进行学习。

注意力机制(Attention)：最早的Attention机制算法是由Bahdanau D等人于2014年提出来的。他们为了缓解中间语义向量难以压缩源序列所有信息的问题，尤其是那些较长的序列，提出了对Encoder-Decoder框架进行扩展的想法。具体操作是在生成目标序列的每个词时，对于使用到的中间语义向量的计算方式改为源序列通过编码器的隐藏层的加权求和，而不是传统方法的只用编码器的最后一个输出状态h_t来作为语义向量。

自注意力机制(Self-Attention)：自注意力结构来取代传统的RNN和CNN完成对句子的编码任务。它一方面可以关联单个序列的不同位置以便计算序列的交互表示，另一方面还可以以自适应方式学习复杂的上下文单词表示。

然而，采用现有的几种问句意图分类的问答系统，其准确率和性能的提升遭遇了瓶颈。

发明内容

本发明的目的是提供一种基于自注意力近邻关系编码的意图分类方法。此方法旨在改善现有问答系统的准确率和性能提升的瓶颈问题，针对问答系统中的问句意图分类，提出基于新型自注意力机制的改进方法。在原自注意力模型的基础上，增加了描述句子中相邻单词关系的偏置量，提出了一种基于自注意力近邻关系编码的意图分类方法SNR(Self-attention based on Neighbor Relation)。

为达到上述目的，本发明提供了一种基于自注意力近邻关系编码的意图分类方法，该方法包括以下步骤：步骤1：问答系统接收待分类语句，并将待分类语句输入词嵌入层，转换为词向量矩阵；步骤2：将词向量矩阵输入基于近邻关系的自注意力层进行加权计算，映射出目标序列；步骤3：将目标序列输入到传统的自注意力层进行特征学习，获取具有高维语句信息的输出序列；步骤4：将输出序列通过批量归一化层进行批量归一化计算，得到归一化分布序列；步骤5：将归一化分布序列输入全连接层得出分类结果。

最优选的，待分类语句通过词嵌入层中的One-Hot向量和glove词嵌入模型进行转换，转换为词向量矩阵；词向量矩阵为X＝{x₁，...，x_n}。

最优选的，词向量矩阵输入基于近邻关系的自注意力层中，是在自注意力模型的基础上，增加描述相邻单词关系的偏置向量进行加权计算。

最优选的，加权计算中添加偏置向量的同时还添加了高斯分布；所述加权计算满足以下公式：

其中，H＝{h₁，...，h_n}为目标序列，α_ij为输入序列的权重系数，e_ij为比较两个输入元素i和j的兼容性系数，W^V为模型中输入量为V时的相对位置序列，为输入量为V时描述相邻单词x_i与x_j相邻关系的偏置向量，GAU_ij为中心词与对齐词汇x_j的紧密程度。

最优选的，GAU_ij满足高斯分布：

其中，GAU_ij∈R^n×n；POS_i为中心位置词汇；σ_i为标准偏差。

最优选的，中心位置词汇POS_i满足：POS_i＝n*sigmoid(p_i)，其中，p_i为中心位置预测参数，n为sigmoid函数取值范围为(0，n)；中心位置预测参数p_i可以由自注意力模型映射得来，且满足：

其中，为线性投影量；W_p为模型中待训练的参数矩阵；Q_i为中心位置对应的查询向量；中心预测参数p_i满足：

其中，为线性投影量；W_p为模型中待训练的参数矩阵；x_i为第i个输入量。

最优选的，标准偏差σ_i满足：

其中，D_i为以POS_i为中心的窗口大小范围。

最优选的，窗口大小范围D_i满足：D_i＝n*sigmoid(d_i)，其中，d_i为窗口大小预测参数；所述窗口大小预测参数可以由自注意力模型映射得来，且满足：

其中，为线性投影量；W_p为模型中待训练的参数矩阵；Q_i为中心位置对应的查询向量；所述窗口大小预测参数d_i满足：

最优选的，输入序列的权重系数为α_ij满足：

其中，k为整数，当同一个序列中的两个元素距离超过k，那么这两个元素之间的位置信息关系便没有重要意义。e_ik为比较两个输入元素i和k的兼容性系数，GAU_ik为中心词POS_i与对齐词汇的紧密程度，score(x_i，x_j)为输入序列的权重系数采用的打分函数，为输入量为V时描述相邻单词x_i与x_j相邻关系的偏置向量，W^Q为输入量为Q时的相对位置序列，W^K为输入量为K时的相对位置序列，d为缩放因子。

最优选的，输入量为K时的相对位置序列W^K和输入量为V时的相对位置序列W^V分别满足：

运用此发明，改善了现有问答系统的准确率和性能提升的瓶颈问题，针对问答系统中的问句意图分类，提出了基于新型自注意力机制的改进方法。在原自注意力模型的基础上，增加了描述句子中相邻单词关系的偏置量，提出了一种基于自注意力近邻关系编码的意图分类方法SNR(Self-attention based on Neighbor Relation)。

相对于现有技术，本发明具有以下有益效果：

1、本发明方法改善了现有问答系统的准确率和性能提升的瓶颈问题，提出了基于新型自注意力机制的改进方法。

2、本发明方法在学习问答语句全局注意力的同时增强局部语义上下文的理解能力。

附图说明

图1为本发明提供的意图分类方法流程图；

图2为本发明提供的相邻关系修正分布示意图；

图3为本发明提供的自注意力层编码权重分布图(1)；

图4为本发明提供的自注意力层编码权重分布图(2)；

图5为本发明提供的自注意力层编码权重分布图(3)；

图6为本发明提供的批量归一化层的算法描述示意图；

图7为本发明提供的测试集样本分类效果示意图；

图8为本发明提供的实测场景样本测试效果示意图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述，这些实施例仅用于说明本发明，并不是对本发明保护范围的限制。

本发明是一种基于自注意力近邻关系编码的意图分类方法，如图1所示，该方法包括以下步骤：

步骤1：问答系统接收待分类语句，待分类语句为Q＝{q₁，q₂，...，q_m}，并将待分类语句输入词嵌入层，待分类语句通过词嵌入层中的One-Hot向量和glove词嵌入模型进行转换，转换为词向量矩阵；相比传统的词向量构建方法保留了更多的语义信息，词向量矩阵为X＝{x₁，...，x_n}。

步骤2：将所述词向量矩阵输入基于近邻关系的自注意力层，通过在自注意力模型的基础上，增加描述相邻单词关系的偏置向量进行加权计算，映射出目标序列，目标序列为H＝{h₁，...，h_n}；

加权计算对目标序列H中各元素进行加权计算时增加了描述x_i与x_j相邻关系的偏置向量为同时对e_ij进行softmax计算权重时还添加了高斯分布；所述加权计算满足以下公式：

其中，H＝{h₁，...，h_n}为目标序列，α_ij为输入序列的权重系数，e_ij为比较两个输入元素i和j的兼容性系数，W^V为模型中输入量为V时的相对位置序列，为描述相邻单词x_i与x_j相邻关系的偏置向量，GAU_ij为中心词POS_i与对齐词汇x_j的紧密程度。

在对e_ij进行softmax计算权重时，基于近邻关系的自注意力层添加了高斯分布来测量中心词与第i个对齐的词向量x_j的紧密程度，且满足：

其中，GAU_ij为中心词POS_i与对齐词汇x_j的紧密程度，GAU_ij∈R^n×n；POS_i为中心位置词汇；σ_i为标准偏差。

中心位置词汇POS_i满足：POS_i＝n*sigmoid(p_i)，其中，p_i为中心位置预测参数，n为sigmoid函数取值范围为(0，n)，由于sigmoid函数取值范围为(0，1)，因此在其基础上添加序列长度参数n，将其缩放到(0，n)的区间；中心位置预测参数p_i可以由自注意力模型的Query查询向量经过前馈网络映射得来，且满足：

其中为线性投影量；W_p为模型中待训练的参数矩阵；Q_i为中心位置对应的查询向量；中心预测参数p_i满足：

标准偏差σ_i满足：

其中，D_i为以POS_i为中心的窗口大小范围；窗口大小范围D_i满足：D_i＝n*sigmoid(d_i)，其中，d_i为窗口大小预测参数；窗口大小预测参数可以由自注意力模型的Query查询向量经过前馈网络映射得来，且满足：

其中，为线性投影量；W_p为模型中待训练的参数矩阵；Q_i为中心位置对应的查询向量；窗口大小预测参数d_i满足：

考虑了中心位置词汇一定范围内的词权重情况，输入序列的权重系数为α_ij满足：

其中，k为整数，假定当同一个序列中的两个元素距离超过某个k时，那么这两个元素之间的位置信息关系便没有重要意义了。e_ik为比较两个输入元素i和k的兼容性系数，GAU_ik为中心词POS_i与对齐词汇的紧密程度，score(x_i，x_j)为输入序列的权重系数采用的打分函数，为输入量为V时描述相邻单词x_i与x_j相邻关系的偏置向量，W^Q为输入量为Q时的相对位置序列，W^K为输入量为K时的相对位置序列，d为缩放因子；打分计算函数采取了自注意力机制模型中的缩放点积法(Scaled Dot-Product)，它在点积注意力的基础上增加了缩放因子。

基于近邻关系的自注意力层在对词向量x_j对齐的同时也增加了同样的输入量为K时描述相邻单词x_i与x_j相邻关系的偏置向量在实际计算中，假定当同一个序列中的两个元素距离超过某个整数k时，那么这两个元素之间的位置信息关系便没有重要意义了。因而，计算和的方法本质上可归于训练输入量为K时的相对位置序列W^K和输入量为V时的相对位置序列W^V，且分别满足：

基于近邻关系的自注意力层在保留自注意力层学习问句中各个单词间依赖关系的基础上，加入了各个单词之间的位置信息，可以捕获相邻单词的语义信息从而获取问句中不同单词的位置信息，修正单词之间注意力的分布，修正后的分布如图2所示。

步骤3：将所述目标序列输入到传统的自注意力层进行特征学习，以学习高层次特征，获取具有高维语句信息，更加高维的语义信息和句子特征的输出序列。自注意力层编码权重分布图如图3、图4、图5所示。

步骤4：将所述输出序列通过批量归一化层进行批量归一化计算，得到归一化分布序列；批量归一化计算的本质是在训练深度神经网络时保证每一层网络层的输入都保持相同的分布，即对每个隐藏层神经元的激活值做类似白化(Whiten)的操作。由于深度神经网络在做非线性变换前的激活输入值会随着网络的层数的叠加而发生分布上的偏移，其结果会导致训练难以收敛。因此批量归一化层将输出序列的值分布转换为标准正态分布，对每个隐藏层神经元，都会将激活函数映射后得到的值分布强制拉回均值为0，方差为1的标准正态分布。批量归一化计算降低了模型过拟合的风险，批量归一化计算的算法如图6所示。

步骤5：将归一化分布序列输入全连接层得出分类结果，测试集样本分类效果如图7所示，实测场景样本测试效果如图8所示。

本发明的工作原理：

问答系统接收待分类语句，并将待分类语句输入词嵌入层，转换为词向量矩阵；将词向量矩阵输入基于近邻关系的自注意力层进行加权计算，映射出目标序列；将目标序列输入到传统的自注意力层进行特征学习，获取具有高维语句信息的输出序列；将输出序列通过批量归一化层进行批量归一化计算，得到归一化分布序列；将归一化分布序列输入全连接层得出分类结果。

综上所述，本发明方法，改善了现有问答系统的准确率和性能提升的瓶颈问题，针对问答系统中的问句意图分类，提出了基于新型自注意力机制的改进方法。在原自注意力模型的基础上，增加了描述句子中相邻单词关系的偏置量，提出了一种基于自注意力近邻关系编码的意图分类方法SNR(Self-attention based on Neighbor Relation)。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于自注意力近邻关系编码的意图分类方法，其特征在于，包括以下步骤：

步骤1：问答系统接收待分类语句，并将待分类语句输入词嵌入层，转换为词向量矩阵；

步骤2：将所述词向量矩阵输入基于近邻关系的自注意力层进行加权计算，映射出目标序列；

步骤3：将所述目标序列输入到传统的自注意力层进行特征学习，获取具有高维语句信息的输出序列；

步骤4：将所述输出序列通过批量归一化层进行批量归一化计算，得到归一化分布序列；

步骤5：将所述归一化分布序列输入全连接层得出分类结果。

2.如权利要求1所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述待分类语句通过所述词嵌入层中的One-Hot向量和glove词嵌入模型进行转换，转换为词向量矩阵；所述词向量矩阵为X＝{x₁，...，x_n}。

3.如权利要求1所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述词向量矩阵输入所述基于近邻关系的自注意力层中，是在自注意力模型的基础上，增加描述相邻单词关系的偏置向量进行加权计算。

4.如权利要求3所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述加权计算中添加所述偏置向量的同时还添加了高斯分布；所述加权计算满足以下公式：

其中，H＝{h₁，...，h_n}为目标序列，α_ij为输入序列的权重系数，e_ij为比较两个输入元素i和j的兼容性系数，W^V为模型中输入量为V时的相对位置序列，为输入量为V时描述相邻单词x_i与x_j相邻关系的偏置向量，GAU_ij为中心词POS_i与对齐词汇x_j的紧密程度。

5.如权利要求4所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述高斯分布满足：

6.如权利要求5所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述中心位置词汇为POS_i，且满足：POS_i＝n*sigmoid(p_i)，其中，p_i为中心位置预测参数，n为sigmoid函数取值范围为(0，n)；所述中心位置预测参数p_i可以由自注意力模型映射得来，且满足：

其中，为线性投影量；W_p为模型中待训练的参数矩阵；Q_i为中心位置对应的查询向量；所述中心预测参数p_i满足：

7.如权利要求6所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述标准偏差σ_i满足：

其中，D_i为以POS_i为中心的窗口大小范围。

8.如权利要求7所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述窗口大小范围D_i满足：D_i＝n*sigmoid(d_i)，其中，d_i为窗口大小预测参数；所述窗口大小预测参数可以由自注意力模型映射得来，且满足：

其中，为线性投影量；W_p为是模型中待训练的参数矩阵；x_i为第i个输入量。

9.如权利要求8所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述输入序列的权重系数为α_ij满足：

10.如权利要求9所述的基于自注意力近邻关系编码的意图分类方法，其特征在于，所述模型中输入量为K时的相对位置序列W^K和模型中输入量为V时的相对位置序列W^V分别满足：