CN113723111A - 一种小样本意图识别方法、装置、设备及存储介质 - Google Patents
一种小样本意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113723111A CN113723111A CN202111034749.4A CN202111034749A CN113723111A CN 113723111 A CN113723111 A CN 113723111A CN 202111034749 A CN202111034749 A CN 202111034749A CN 113723111 A CN113723111 A CN 113723111A
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- intention
- data set
- diversity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 167
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 76
- 238000012360 testing method Methods 0.000 claims description 28
- 230000004927 fusion Effects 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 20
- 238000012935 Averaging Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种小样本意图识别方法、装置、设备以及存储介质,该方法获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集;提取句子的语义信息,将句子编码为高维特征向量;利用辅助类中样本之间的多样性特征,在高维空间中生成未知样本的多样性特征;将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示;计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。本发明增强了模型对未知意图样本的特征向量表示,可以有效适应小样本场景下的意图识别任务,提高了小样本意图识别的准确率。
Description
技术领域
本发明涉及信息技术领域中的自然语言处理领域,尤其涉及意图识别、小样本学习等技术领域。具体地,本发明提供一种小样本意图识别方法、装置、设备以及存储介质。
背景技术
意图识别(Intent Detection)作为人机对话系统中的关键任务,其目的是根据用户与系统交互的语句判断出用户的真实意图。意图识别作为对话系统中的第一个模块,其识别准确率影响着后续模块的处理。近些年来,随着深度学习的快速发展,意图识别任务也取得了巨大的进步,研究人员提出了一系列有效的算法,这些算法通常需要大量数据作支撑。然而,在对话系统开发的初始阶段,获取大量用户的真实对话语料是很困难的,通常每个意图仅有少量的数据样例支撑,这就需要模型具有从少量样本中学习归纳的能力。
为了解决训练样本不足的问题,研究人员提出了小样本学习算法,希望利用领域外的知识和少量的标注数据去学习一个能够对未知类别具有良好判别能力的模型。小样本学习在图像领域研究比较多,最近,在自然语言处理领域开始兴起。通常,小样本学习算法可以分为三类:基于度量的方法、基于优化的方法和基于数据增强的方法。基于度量的方法利用样本之间的距离分布学习一个合适的分类器,可以更好地适应于未知类别样本;基于优化的方法通过学习一个通用的模型初始化参数,保证参数可以在少量的几步更新后达到比较优秀的程度;基于数据增强的方法通过在高维空间或实例空间对目标样本进行增强,加强模型在小样本情况下的能力。
在现有的小样本意图识别方法中存在以下问题:
1)在意图识别任务中,用户的语句通常是风格多变的,极端的样本数量不能反映真实的样本多样性,限制了现有的基于度量的方法的能力;
2)自然语言不同于图像,无法进行翻转倾斜等数据增强操作,使用数据增强的方法在意图识别领域效果不太理想;
为解决上述常规小样本意图识别方法中存在的问题,本发明提供了一种小样本意图识别方法、装置、设备以及存储介质。本发明结合了度量方法和数据增强方法两种方法,在原型网络的基础上,添加了多样性特征生成模块,利用辅助类中样本之间的多样性特征,在高维空间中生成未知样本的多样性特征,增强了模型对未知意图样本的特征向量表示,可以有效适应小样本场景下的意图识别任务。
发明内容
本发明目的在于,提供了一种小样本意图识别方法、装置、设备以及存储介质。该方法获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集;提取句子的语义信息,将句子编码为高维特征向量;利用辅助类中样本之间的多样性特征,在高维空间中生成未知样本的多样性特征;将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示;计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。本发明增强了模型对未知意图样本的特征向量表示,可以有效适应小样本场景下的意图识别任务,提高了小样本意图识别的准确率。
本发明所述的一种小样本意图识别方法,按下列步骤进行:
a、获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,其中构建小样本意图识别数据集是将整个数据集划分为训练集、辅助训练集和测试集;
b、提取句子的语义信息,在每个数据集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;之后在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示,将句子编码为高维特征向量;
c、利用辅助类中样本之间的多样性特征,选取一些辅助类中的样例对,同一组样例对属于同一个意图,样例对的内部差异性作为样本之间的多样性特征,在高维空间中生成样本的多样性特征;
d、将步骤c生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,对于每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量,将属于同一意图的所有增强特征向量的平均值作为该意图的原型向量表示;
e、计算查询步骤d中的句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。
步骤a中训练集、辅助训练集和测试集中的句子分别属于不同的意图;在训练和测试时会构建多组不同的元任务,每个元任务包含支持集、查询集和辅助集;辅助集由多组样例对组成,一组样例对由来自同一意图的两个样例组成。
一种小样本意图识别装置,该装置是由小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块组成,其中:
小样本数据集构建模块:获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,具体包括数据集切分单元,用于将整个数据集划分为训练集、辅助训练集和测试集;元任务构建单元,用于在训练和测试时会构建多组不同的元任务;
语义编码器模块:提取句子的语义信息,将句子编码为高维特征向量,具体包括继续预训练单元,用于在训练集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;语义编码单元,用于在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用继续训练后的BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;
多样性特征生成模块:利用辅助类中样本之间的多样性特征,在高维空间中生成样本的多样性特征,具体包括多样性特征生成单元,用于利用辅助类中样本之间的多样性特征,生成目标句子的多样性特征;
特征融合模块:将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示,具体包括特征融合单元,用于对每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量;原型向量生成单元,用于将每个意图对应的所有句子增强特征向量进行平均,得到的平均向量作为该意图的原型向量表示;
相似性分类模块:计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。
一种电子设备,该设备包括:至少一个处理器;至少一张GPU计算卡;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法。
本发明所述的一种小样本意图识别方法、装置、设备以及存储介质,通过本发明的技术能够完成小样本场景下的意图识别任务,提高小样本情况下意图识别的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的流程图;
图2为本发明构建小样本意图识别数据集的流程图;
图3为本发明元任务构建方法的流程图;
图4为本发明提取句子语义信息方法的流程图;
图5为本发明提取句子语义信息方法的结构图;
图6为本发明生成样本的多样性特征方法的流程图;
图7为本发明生成样本的多样性特征方法的结构图;
图8为本发明生成的多样性特征与原句子向量融合方法的流程图;
图9为本发明小样本意图识别装置的结构示意图;
图10为本发明小样本意图识别方法电子设备的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明。其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例
一种小样本意图识别方法,按下列步骤进行:
a、获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,其中构建小样本意图识别数据集是将整个数据集划分为训练集、辅助训练集和测试集,其中训练集、辅助训练集和测试集中的句子分别属于不同的意图;在训练和测试时会构建多组不同的元任务,每个元任务包含支持集、查询集和辅助集;辅助集由多组样例对组成,一组样例对由来自同一意图的两个样例组成;
b、提取句子的语义信息,在每个数据集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;之后在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示,将句子编码为高维特征向量;
c、利用辅助类中样本之间的多样性特征,选取一些辅助类中的样例对,同一组样例对属于同一个意图,样例对的内部差异性作为样本之间的多样性特征,在高维空间中生成样本的多样性特征;
d、将步骤c生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,对于每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量,将属于同一意图的所有增强特征向量的平均值作为该意图的原型向量表示;
e、计算查询步骤d中的句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类;
一种小样本意图识别装置,该装置是由小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块组成,其中:
小样本数据集构建模块:获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,具体包括数据集切分单元,用于将整个数据集划分为训练集、辅助训练集和测试集;元任务构建单元,用于在训练和测试时会构建多组不同的元任务;
语义编码器模块:提取句子的语义信息,将句子编码为高维特征向量,具体包括继续预训练单元,用于在训练集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;语义编码单元,用于在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用继续训练后的BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;
多样性特征生成模块:利用辅助类中样本之间的多样性特征,在高维空间中生成样本的多样性特征,具体包括多样性特征生成单元,用于利用辅助类中样本之间的多样性特征,生成目标句子的多样性特征;
特征融合模块:将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示,具体包括特征融合单元,用于对每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量;原型向量生成单元,用于将每个意图对应的所有句子增强特征向量进行平均,得到的平均向量作为该意图的原型向量表示;
相似性分类模块:计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类;
一种电子设备,该设备包括:至少一个处理器;至少一张GPU计算卡;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法;
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法;
图1是一种小样本意图识别方法的流程图,可适用于小样本情况下,对话系统中意图识别的情况,该方法可以由一种小样本意图识别装置来执行,该装置由软件和/或硬件的方式实现;参见图1,小样本意图识别方法包括:
获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集;在一个实施例中,意图识别数据集是包含多个用户意图的对话数据集;
示例性地,意图识别数据集是基准意图识别数据集SNIPS,SNIPS数据集包含7种不同的意图,例如预订餐厅、查询天气、播放音乐等;
所述构建小样本意图识别数据集参见图2,具体包括:
将整个数据集划分为训练集、辅助训练集和测试集。其中训练集、辅助训练集和测试集中的句子分别属于不同的意图;
示例性地,SNIPS数据集中,预订餐厅等四种意图对应的所有样本属于训练集,查询天气对应的所有样本属于辅助训练集,播放音乐等两种意图对应的所有样本属于测试集;
利用训练集和辅助训练集构建多个元任务用以模型训练,元任务的目标是通过模拟小样本的场景,训练模型的泛化能力,元任务采用C-way K-shot的形式进行构建,包括支持集、查询集和辅助集;
利用测试集和辅助训练集构建多个元任务用以模型测试,在测试阶段,同样构建多个元任务,最终的意图识别准确率由多个元任务中的意图识别准确率的平均值计算得到;
所述构建元任务参见图3,具体包括:
从训练集或者测试集中构建支持集:以训练阶段的元任务构建为例,从整个训练集中随机选择C个意图,然后从这C个意图中的每一个意图中,都选取K个样本,这C·K个样本组成了支持集S,其中分别代表支持集中第c类中的第k个样本的句子和所属意图;
示例性地,上述SNIPS数据集中,测试集中包含两种意图,因此要构建一个二分类的元任务,即C=2;如果最终的预期是要在每个意图只有5个样本的条件下,对新来的句子进行分类,则K=5;首先,从训练集的四种意图中选取两种,例如预订餐厅和添加播放列表,从这两种意图中,分别选取5个句子,一共10个句子,这些句子就组成了支持集;
示例性地,上述SNIPS数据集中,从预订餐厅和添加播放列表这两种意图的剩余样本中,分别随机抽取20个句子,这40个句子作为查询集;
示例性地,上述SNIPS数据集中,辅助训练集由查询天气的所有样本构成,随机抽取多组样例对,例如,“今天天气怎么样”和“今天的温度是多少”就可以构成一组样例对;
采用交叉熵损失来训练元任务或者得到该元任务上的意图识别准确率:在训练阶段,对于每一个元任务,目标是最小化查询集Q上分类的交叉熵损失;损失函数具体为其中,为预测为C类别的可能性;在测试阶段,直接获取元任务上的意图识别准确率;
提取句子的语义信息,将句子编码为高维特征向量;
所述提取句子语义信息参见图4,具体包括:
在训练数据集上利用掩码语言模型任务,对BERT模型继续预训练,得到用于编码的BERT模型;
对每一个句子,将其编码为token序列,在token序列的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP];
示例性地,如图5,句子“今天天气如何”首先被编码为token序列,需要注意的是同一个单词可能会被编码为多个token,在添加特殊标记[CLS]和[SEP]后,token序列输入BERT模型,将[CLS]处最终的输出作为句子向量表示;
利用辅助类中样本之间的多样性特征,在高维空间中生成样本的多样性特征;
所述生成样本的多样性特征参见图6,具体包括:
将目标样本和一组辅助集样例对的句子向量映射到一个新的向量空间,具体为:将辅助集中的第n组样例对的嵌入表示与目标样本的嵌入表示et一起输入一个线性层φ1,n∈[1,2,…,N],线性层φ1将和et映射到一个新的隐藏空间得到 和
示例性地,以支持集中的样本进行特征增强为例,参见图7,其中为支持集中第c类第k个样例的嵌入表示,c∈[1,2,…,C],k∈[1,2,…,K];为辅助集中的第n组样例对的嵌入表示,n∈[1,2,…,N];φ1和φ2为两个线性层;首先将和通过φ1映射到一个新的向量空间;在新的向量空间中,将多样性特征加入到目标样本向量中,获取目标样本在隐层空间上的多样性特征向量;将目标样本的多样性特征向量通过φ2映射到原有的向量空间;
将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示;
所述获取句子的增强特征向量参见图8,具体包括:
使用残差连接结构连接生成的多样性特征与原句子向量,进行层次标准化,得到新特征;
将目标样本对应的所有新特征取平均后,与原样本向量拼接;
将拼接的向量输入一个线性层,得到最终的目标句子的增强特征向量;
示例性地,以支持集中第c类第k个样本为例,对应的原特征向量为将得到的n个多样性特征为使用残差连接结构将其和原特征向量连接,之后进行层次标准化,得到的新特征为将这N个新特征取平均后,与原样本向量拼接,得到 随后接上一个线性层,得到新样本向量,线性层权重为W,偏置为b,得到最终的目标句子的增强特征向量
计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类;
所述查询句子分类,具体包括:
图9为本发明实施例提供的一种小样本意图识别装置的结构示意图,包括:小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块;其中:
小样本数据集构建模块,用于获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集;
语义编码器模块,用于提取句子的语义信息,将句子编码为高维特征向量;
多样性特征生成模块,通过利用辅助类中样本之间的多样性特征,在高维空间中生成样本的多样性特征;
特征融合模块,用于将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示;
相似性分类模块,用于计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类;
所述小样本数据集构建模块,包括:数据集切分单元,用于将整个数据集划分为训练集、辅助训练集和测试集;
所述数据集切分单元具体特征在于训练集、辅助训练集和测试集中的句子分别属于不同的意图;
元任务构建单元,用于在训练和测试时会构建多组不同的元任务,每个元任务包含支持集、查询集和辅助集;辅助集由多组样例对组成,一组样例对由来自同一意图的两个样例组成;
所述语义编码器模块,包括:继续预训练单元,用于在训练集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;
语义编码单元,用于在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用继续训练后的BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;
所述多样性特征生成模块,包括:多样性特征生成单元,用于利用辅助类中样本之间的多样性特征,生成目标句子的多样性特征;
所述特征融合模块,包括:特征融合单元,用于对每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量;
原型向量生成单元,用于将每个意图对应的所有句子增强特征向量进行平均,得到的平均向量作为该意图的原型向量表示;
本发明还提供了一种电子设备和一种可读存储介质;如图10所示,是一种小样本意图识别方法的电子设备的框图;电子设备指各种各样的现代电子数字计算机,包括如:个人计算机、便携式计算机、各种服务器设备;本文所示的构件及其互联关系和功能仅作为示例;
如图10所示,所述电子设备包括:一个或多个多核处理器、一个或多个GPU计算卡、存储器,为使电子设备产生交互,还应包括:输入设备、输出设备。各种设备之间通过总线进行互联通信‘’
存储器即为本发明所提供的非瞬时计算机可读存储介质;其中,所述存储器存储有可由至少一个多核处理器或至少一个GPU计算卡执行的指令,以使本申请所提供的实体识别与链接方法被执行;本发明的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本发明所提供的实体识别与链接方法;
输入设备,提供并接受用户输入到电子设备中的控制信号,包括产生数字或字符信息的键盘以及用来控制设备产生其他关键信号的鼠标;输出设备提供用户电子设备的反馈信息,包括打印执行结果或过程的显示器。
本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (5)
1.一种小样本意图识别方法,其特征在于按下列步骤进行:
a、获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,其中构建小样本意图识别数据集是将整个数据集划分为训练集、辅助训练集和测试集;
b、提取句子的语义信息,在每个数据集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;之后在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示,将句子编码为高维特征向量;
c、利用辅助类中样本之间的多样性特征,选取一些辅助类中的样例对,同一组样例对属于同一个意图,样例对的内部差异性作为样本之间的多样性特征,在高维空间中生成样本的多样性特征;
d、将步骤c生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,对于每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量,将属于同一意图的所有增强特征向量的平均值作为该意图的原型向量表示;
e、计算查询步骤d中的句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。
2.根据权利要求1所述的小样本意图识别方法,其特征在于,步骤a中训练集、辅助训练集和测试集中的句子分别属于不同的意图;在训练和测试时会构建多组不同的元任务,每个元任务包含支持集、查询集和辅助集;辅助集由多组样例对组成,一组样例对由来自同一意图的两个样例组成。
3.一种小样本意图识别装置,其特征在于该装置是由小样本数据集构建模块、语义编码器模块、多样性特征生成模块、特征融合模块和相似性分类模块组成,其中:
小样本数据集构建模块:获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集,具体包括数据集切分单元,用于将整个数据集划分为训练集、辅助训练集和测试集;元任务构建单元,用于在训练和测试时会构建多组不同的元任务;
语义编码器模块:提取句子的语义信息,将句子编码为高维特征向量,具体包括继续预训练单元,用于在训练集上利用掩码语言模型任务,继续预训练,得到用于编码的BERT模型;语义编码单元,用于在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用继续训练后的BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;
多样性特征生成模块:利用辅助类中样本之间的多样性特征,在高维空间中生成样本的多样性特征,具体包括多样性特征生成单元,用于利用辅助类中样本之间的多样性特征,生成目标句子的多样性特征;
特征融合模块:将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示,具体包括特征融合单元,用于对每一个生成的多样性特征,与原句子向量进行残差连接,随后进行层次标准化,得到新特征向量,将目标句子对应的多个新特征向量取平均后,与原句子向量拼接,输入一个线性层,得到最终的句子增强特征向量;原型向量生成单元,用于将每个意图对应的所有句子增强特征向量进行平均,得到的平均向量作为该意图的原型向量表示;
相似性分类模块:计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。
4.一种电子设备,其特征在于,该设备包括:至少一个处理器;至少一张GPU计算卡;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个处理器能或所述至少一个GPU计算卡能够执行权利要求1-2中所述的方法。
5.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-2中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034749.4A CN113723111B (zh) | 2021-09-04 | 2021-09-04 | 一种小样本意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034749.4A CN113723111B (zh) | 2021-09-04 | 2021-09-04 | 一种小样本意图识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723111A true CN113723111A (zh) | 2021-11-30 |
CN113723111B CN113723111B (zh) | 2023-11-14 |
Family
ID=78681785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111034749.4A Active CN113723111B (zh) | 2021-09-04 | 2021-09-04 | 一种小样本意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723111B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186272A (zh) * | 2023-04-23 | 2023-05-30 | 之江实验室 | 一种联合训练方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
CN112560505A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
CN113326360A (zh) * | 2021-04-25 | 2021-08-31 | 哈尔滨工业大学 | 一种小样本场景下的自然语言理解方法 |
-
2021
- 2021-09-04 CN CN202111034749.4A patent/CN113723111B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
CN112560505A (zh) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
CN113326360A (zh) * | 2021-04-25 | 2021-08-31 | 哈尔滨工业大学 | 一种小样本场景下的自然语言理解方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186272A (zh) * | 2023-04-23 | 2023-05-30 | 之江实验室 | 一种联合训练方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113723111B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
Qu et al. | Joint hierarchical category structure learning and large-scale image classification | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN106973244A (zh) | 使用弱监督为图像配字幕 | |
Lin et al. | A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN109271539A (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
Kotani et al. | Generating handwriting via decoupled style descriptors | |
Salur et al. | A soft voting ensemble learning-based approach for multimodal sentiment analysis | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
Ming et al. | Few-shot nested named entity recognition | |
CN117034921B (zh) | 一种基于用户数据的提示学习训练方法、装置和介质 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN114818979A (zh) | 一种基于最大化间隔机制的含噪多标记分类方法 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114329064A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
US20240028952A1 (en) | Apparatus for attribute path generation | |
Liu et al. | Construction of a smart face recognition model for university libraries based on FaceNet-MMAR algorithm | |
Raboh et al. | Learning latent scene-graph representations for referring relationships |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |