CN113723111A

CN113723111A - 一种小样本意图识别方法、装置、设备及存储介质

Info

Publication number: CN113723111A
Application number: CN202111034749.4A
Authority: CN
Inventors: 周喜; 杨奉毅; 马博; 王轶; 王磊; 赵凡
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-09-04
Filing date: 2021-09-04
Publication date: 2021-11-30
Anticipated expiration: 2041-09-04
Also published as: CN113723111B

Abstract

本发明公开了一种小样本意图识别方法、装置、设备以及存储介质，该方法获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集；提取句子的语义信息，将句子编码为高维特征向量；利用辅助类中样本之间的多样性特征，在高维空间中生成未知样本的多样性特征；将生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，进一步得到目标意图的原型向量表示；计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类。本发明增强了模型对未知意图样本的特征向量表示，可以有效适应小样本场景下的意图识别任务，提高了小样本意图识别的准确率。

Description

一种小样本意图识别方法、装置、设备及存储介质

技术领域

本发明涉及信息技术领域中的自然语言处理领域，尤其涉及意图识别、小样本学习等技术领域。具体地，本发明提供一种小样本意图识别方法、装置、设备以及存储介质。

背景技术

意图识别(Intent Detection)作为人机对话系统中的关键任务，其目的是根据用户与系统交互的语句判断出用户的真实意图。意图识别作为对话系统中的第一个模块，其识别准确率影响着后续模块的处理。近些年来，随着深度学习的快速发展，意图识别任务也取得了巨大的进步，研究人员提出了一系列有效的算法，这些算法通常需要大量数据作支撑。然而，在对话系统开发的初始阶段，获取大量用户的真实对话语料是很困难的，通常每个意图仅有少量的数据样例支撑，这就需要模型具有从少量样本中学习归纳的能力。

为了解决训练样本不足的问题，研究人员提出了小样本学习算法，希望利用领域外的知识和少量的标注数据去学习一个能够对未知类别具有良好判别能力的模型。小样本学习在图像领域研究比较多，最近，在自然语言处理领域开始兴起。通常，小样本学习算法可以分为三类：基于度量的方法、基于优化的方法和基于数据增强的方法。基于度量的方法利用样本之间的距离分布学习一个合适的分类器，可以更好地适应于未知类别样本；基于优化的方法通过学习一个通用的模型初始化参数，保证参数可以在少量的几步更新后达到比较优秀的程度；基于数据增强的方法通过在高维空间或实例空间对目标样本进行增强，加强模型在小样本情况下的能力。

在现有的小样本意图识别方法中存在以下问题：

1)在意图识别任务中，用户的语句通常是风格多变的，极端的样本数量不能反映真实的样本多样性，限制了现有的基于度量的方法的能力；

2)自然语言不同于图像，无法进行翻转倾斜等数据增强操作，使用数据增强的方法在意图识别领域效果不太理想；

为解决上述常规小样本意图识别方法中存在的问题，本发明提供了一种小样本意图识别方法、装置、设备以及存储介质。本发明结合了度量方法和数据增强方法两种方法，在原型网络的基础上，添加了多样性特征生成模块，利用辅助类中样本之间的多样性特征，在高维空间中生成未知样本的多样性特征，增强了模型对未知意图样本的特征向量表示，可以有效适应小样本场景下的意图识别任务。

发明内容

本发明目的在于，提供了一种小样本意图识别方法、装置、设备以及存储介质。该方法获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集；提取句子的语义信息，将句子编码为高维特征向量；利用辅助类中样本之间的多样性特征，在高维空间中生成未知样本的多样性特征；将生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，进一步得到目标意图的原型向量表示；计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类。本发明增强了模型对未知意图样本的特征向量表示，可以有效适应小样本场景下的意图识别任务，提高了小样本意图识别的准确率。

本发明所述的一种小样本意图识别方法，按下列步骤进行：

a、获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集，其中构建小样本意图识别数据集是将整个数据集划分为训练集、辅助训练集和测试集；

b、提取句子的语义信息，在每个数据集上利用掩码语言模型任务，继续预训练，得到用于编码的BERT模型；之后在句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示，将句子编码为高维特征向量；

c、利用辅助类中样本之间的多样性特征，选取一些辅助类中的样例对，同一组样例对属于同一个意图，样例对的内部差异性作为样本之间的多样性特征，在高维空间中生成样本的多样性特征；

d、将步骤c生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，对于每一个生成的多样性特征，与原句子向量进行残差连接，随后进行层次标准化，得到新特征向量，将目标句子对应的多个新特征向量取平均后，与原句子向量拼接，输入一个线性层，得到最终的句子增强特征向量，将属于同一意图的所有增强特征向量的平均值作为该意图的原型向量表示；

e、计算查询步骤d中的句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类。

步骤a中训练集、辅助训练集和测试集中的句子分别属于不同的意图；在训练和测试时会构建多组不同的元任务，每个元任务包含支持集、查询集和辅助集；辅助集由多组样例对组成，一组样例对由来自同一意图的两个样例组成。

一种小样本意图识别装置，该装置是由小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块组成，其中：

小样本数据集构建模块：获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集，具体包括数据集切分单元，用于将整个数据集划分为训练集、辅助训练集和测试集；元任务构建单元，用于在训练和测试时会构建多组不同的元任务；

语义编码器模块：提取句子的语义信息，将句子编码为高维特征向量，具体包括继续预训练单元，用于在训练集上利用掩码语言模型任务，继续预训练，得到用于编码的BERT模型；语义编码单元，用于在句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用继续训练后的BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示；

多样性特征生成模块：利用辅助类中样本之间的多样性特征，在高维空间中生成样本的多样性特征，具体包括多样性特征生成单元，用于利用辅助类中样本之间的多样性特征，生成目标句子的多样性特征；

特征融合模块：将生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，进一步得到目标意图的原型向量表示，具体包括特征融合单元，用于对每一个生成的多样性特征，与原句子向量进行残差连接，随后进行层次标准化，得到新特征向量，将目标句子对应的多个新特征向量取平均后，与原句子向量拼接，输入一个线性层，得到最终的句子增强特征向量；原型向量生成单元，用于将每个意图对应的所有句子增强特征向量进行平均，得到的平均向量作为该意图的原型向量表示；

相似性分类模块：计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类。

一种电子设备，该设备包括：至少一个处理器；至少一张GPU计算卡；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法。

本发明所述的一种小样本意图识别方法、装置、设备以及存储介质，通过本发明的技术能够完成小样本场景下的意图识别任务，提高小样本情况下意图识别的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的流程图；

图2为本发明构建小样本意图识别数据集的流程图；

图3为本发明元任务构建方法的流程图；

图4为本发明提取句子语义信息方法的流程图；

图5为本发明提取句子语义信息方法的结构图；

图6为本发明生成样本的多样性特征方法的流程图；

图7为本发明生成样本的多样性特征方法的结构图；

图8为本发明生成的多样性特征与原句子向量融合方法的流程图；

图9为本发明小样本意图识别装置的结构示意图；

图10为本发明小样本意图识别方法电子设备的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图对本发明做进一步的详细说明。其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例

一种小样本意图识别方法，按下列步骤进行：

a、获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集，其中构建小样本意图识别数据集是将整个数据集划分为训练集、辅助训练集和测试集，其中训练集、辅助训练集和测试集中的句子分别属于不同的意图；在训练和测试时会构建多组不同的元任务，每个元任务包含支持集、查询集和辅助集；辅助集由多组样例对组成，一组样例对由来自同一意图的两个样例组成；

e、计算查询步骤d中的句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类；

相似性分类模块：计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类；

一种电子设备，该设备包括：至少一个处理器；至少一张GPU计算卡；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法；

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法；

图1是一种小样本意图识别方法的流程图，可适用于小样本情况下，对话系统中意图识别的情况，该方法可以由一种小样本意图识别装置来执行，该装置由软件和/或硬件的方式实现；参见图1，小样本意图识别方法包括：

获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集；在一个实施例中，意图识别数据集是包含多个用户意图的对话数据集；

示例性地，意图识别数据集是基准意图识别数据集SNIPS，SNIPS数据集包含7种不同的意图，例如预订餐厅、查询天气、播放音乐等；

所述构建小样本意图识别数据集参见图2，具体包括：

将整个数据集划分为训练集、辅助训练集和测试集。其中训练集、辅助训练集和测试集中的句子分别属于不同的意图；

示例性地，SNIPS数据集中，预订餐厅等四种意图对应的所有样本属于训练集，查询天气对应的所有样本属于辅助训练集，播放音乐等两种意图对应的所有样本属于测试集；

利用训练集和辅助训练集构建多个元任务用以模型训练，元任务的目标是通过模拟小样本的场景，训练模型的泛化能力，元任务采用C-way K-shot的形式进行构建，包括支持集、查询集和辅助集；

利用测试集和辅助训练集构建多个元任务用以模型测试，在测试阶段，同样构建多个元任务，最终的意图识别准确率由多个元任务中的意图识别准确率的平均值计算得到；

所述构建元任务参见图3，具体包括：

从训练集或者测试集中构建支持集：以训练阶段的元任务构建为例，从整个训练集中随机选择C个意图，然后从这C个意图中的每一个意图中，都选取K个样本，这C·K个样本组成了支持集S，

其中

分别代表支持集中第c类中的第k个样本的句子和所属意图；

示例性地，上述SNIPS数据集中，测试集中包含两种意图，因此要构建一个二分类的元任务，即C＝2；如果最终的预期是要在每个意图只有5个样本的条件下，对新来的句子进行分类，则K＝5；首先，从训练集的四种意图中选取两种，例如预订餐厅和添加播放列表，从这两种意图中，分别选取5个句子，一共10个句子，这些句子就组成了支持集；

从训练集或者测试集中构建查询集：以训练阶段的元任务构建为例，从上述C个意图对应的剩余样本中抽取L个样本组成查询集Q，

其中

分别代表查询集中的第l个样本的句子和所属意图；

示例性地，上述SNIPS数据集中，从预订餐厅和添加播放列表这两种意图的剩余样本中，分别随机抽取20个句子，这40个句子作为查询集；

从辅助训练集中构建辅助集：从辅助训练集中抽取N组样例对组成辅助集A，

其中每一组样例对由来自同一意图的两个不同样本组成，

和

为第n组样例对中的不同样本；

示例性地，上述SNIPS数据集中，辅助训练集由查询天气的所有样本构成，随机抽取多组样例对，例如，“今天天气怎么样”和“今天的温度是多少”就可以构成一组样例对；

采用交叉熵损失来训练元任务或者得到该元任务上的意图识别准确率：在训练阶段，对于每一个元任务，目标是最小化查询集Q上分类的交叉熵损失；损失函数具体为

其中，

为预测为C类别的可能性；在测试阶段，直接获取元任务上的意图识别准确率；

提取句子的语义信息，将句子编码为高维特征向量；

所述提取句子语义信息参见图4，具体包括：

在训练数据集上利用掩码语言模型任务，对BERT模型继续预训练，得到用于编码的BERT模型；

对每一个句子，将其编码为token序列，在token序列的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]；

将token序列输入继续预训练后的BERT模型中，取[CLS]位置处的d维输出向量e作为整个句子的语义表示，e＝SE(x)，

示例性地，如图5，句子“今天天气如何”首先被编码为token序列，需要注意的是同一个单词可能会被编码为多个token，在添加特殊标记[CLS]和[SEP]后，token序列输入BERT模型，将[CLS]处最终的输出作为句子向量表示；

利用辅助类中样本之间的多样性特征，在高维空间中生成样本的多样性特征；

所述生成样本的多样性特征参见图6，具体包括：

将目标样本和一组辅助集样例对的句子向量映射到一个新的向量空间，具体为：将辅助集中的第n组样例对的嵌入表示

与目标样本的嵌入表示e^t一起输入一个线性层φ₁，n∈[1，2，…，N]，线性层φ₁将

和e^t映射到一个新的隐藏空间

得到

和

在新的向量空间中，将多样性特征加入到目标样本向量中，具体为：使用

代表

和

之间的差异，即同一类别内部的多样性特征；然后将这一特征加入到目标样本

上，得到目标样本在隐层空间上的目多样性特征向量，

将目标样本的多样性特征向量映射到原有的向量空间；具体为：多样性特征向量经过线性层φ₂，映射到原本维度的向量空间，得到最终的样本多样性特征e^tg，

示例性地，以支持集中的样本进行特征增强为例，参见图7，其中

为支持集中第c类第k个样例的嵌入表示，c∈[1，2，…，C]，k∈[1，2，…，K]；

为辅助集中的第n组样例对的嵌入表示，n∈[1，2，…，N]；φ₁和φ₂为两个线性层；首先将

和

通过φ₁映射到一个新的向量空间；在新的向量空间中，将多样性特征加入到目标样本向量中，获取目标样本在隐层空间上的多样性特征向量；将目标样本的多样性特征向量通过φ₂映射到原有的向量空间；

将生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，进一步得到目标意图的原型向量表示；

所述获取句子的增强特征向量参见图8，具体包括：

使用残差连接结构连接生成的多样性特征与原句子向量，进行层次标准化，得到新特征；

将目标样本对应的所有新特征取平均后，与原样本向量拼接；

将拼接的向量输入一个线性层，得到最终的目标句子的增强特征向量；

示例性地，以支持集中第c类第k个样本为例，对应的原特征向量为

将得到的n个多样性特征为

使用残差连接结构将其和原特征向量连接，之后进行层次标准化，得到的新特征为

将这N个新特征取平均后，与原样本向量拼接，得到

随后接上一个线性层，得到新样本向量，线性层权重为W，

偏置为b，

得到最终的目标句子的增强特征向量

由于支持集中的每个意图对应的样本数量有K个，因此可以直接取这K个样本对应的增强特征向量z_c,k得平均值，得到类别的原型向量表示，

计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类；

所述查询句子分类，具体包括：

经过上述获取句子增强特征向量的步骤后，得到类别的原型向量表示z_c，查询句子的增强特征向量

使用欧式距离用来度量二者的距离，将查询句子分类为与之距离最近的类别；

图9为本发明实施例提供的一种小样本意图识别装置的结构示意图，包括：小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块；其中：

小样本数据集构建模块，用于获取意图识别数据集，对数据集进行处理，构建小样本意图识别数据集；

语义编码器模块，用于提取句子的语义信息，将句子编码为高维特征向量；

多样性特征生成模块，通过利用辅助类中样本之间的多样性特征，在高维空间中生成样本的多样性特征；

特征融合模块，用于将生成的多样性特征与原句子向量进行融合，获取句子的增强特征向量，进一步得到目标意图的原型向量表示；

相似性分类模块，用于计算查询句子的增强特征向量与目标类别的原型向量之间的相似度，实现对查询句子的分类；

所述小样本数据集构建模块，包括：数据集切分单元，用于将整个数据集划分为训练集、辅助训练集和测试集；

所述数据集切分单元具体特征在于训练集、辅助训练集和测试集中的句子分别属于不同的意图；

元任务构建单元，用于在训练和测试时会构建多组不同的元任务，每个元任务包含支持集、查询集和辅助集；辅助集由多组样例对组成，一组样例对由来自同一意图的两个样例组成；

所述语义编码器模块，包括：继续预训练单元，用于在训练集上利用掩码语言模型任务，继续预训练，得到用于编码的BERT模型；

语义编码单元，用于在句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用继续训练后的BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示；

所述多样性特征生成模块，包括：多样性特征生成单元，用于利用辅助类中样本之间的多样性特征，生成目标句子的多样性特征；

所述特征融合模块，包括：特征融合单元，用于对每一个生成的多样性特征，与原句子向量进行残差连接，随后进行层次标准化，得到新特征向量，将目标句子对应的多个新特征向量取平均后，与原句子向量拼接，输入一个线性层，得到最终的句子增强特征向量；

原型向量生成单元，用于将每个意图对应的所有句子增强特征向量进行平均，得到的平均向量作为该意图的原型向量表示；

本发明还提供了一种电子设备和一种可读存储介质；如图10所示，是一种小样本意图识别方法的电子设备的框图；电子设备指各种各样的现代电子数字计算机，包括如：个人计算机、便携式计算机、各种服务器设备；本文所示的构件及其互联关系和功能仅作为示例；

如图10所示，所述电子设备包括：一个或多个多核处理器、一个或多个GPU计算卡、存储器，为使电子设备产生交互，还应包括：输入设备、输出设备。各种设备之间通过总线进行互联通信‘’

存储器即为本发明所提供的非瞬时计算机可读存储介质；其中，所述存储器存储有可由至少一个多核处理器或至少一个GPU计算卡执行的指令，以使本申请所提供的实体识别与链接方法被执行；本发明的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本发明所提供的实体识别与链接方法；

输入设备，提供并接受用户输入到电子设备中的控制信号，包括产生数字或字符信息的键盘以及用来控制设备产生其他关键信号的鼠标；输出设备提供用户电子设备的反馈信息，包括打印执行结果或过程的显示器。

本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种小样本意图识别方法，其特征在于按下列步骤进行：

2.根据权利要求1所述的小样本意图识别方法，其特征在于，步骤a中训练集、辅助训练集和测试集中的句子分别属于不同的意图；在训练和测试时会构建多组不同的元任务，每个元任务包含支持集、查询集和辅助集；辅助集由多组样例对组成，一组样例对由来自同一意图的两个样例组成。

3.一种小样本意图识别装置，其特征在于该装置是由小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块组成，其中：

4.一种电子设备，其特征在于，该设备包括：至少一个处理器；至少一张GPU计算卡；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法。

5.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法。