CN113516209A - 一种用于少样本意图识别的对比任务适应学习方法 - Google Patents
一种用于少样本意图识别的对比任务适应学习方法 Download PDFInfo
- Publication number
- CN113516209A CN113516209A CN202111071808.5A CN202111071808A CN113516209A CN 113516209 A CN113516209 A CN 113516209A CN 202111071808 A CN202111071808 A CN 202111071808A CN 113516209 A CN113516209 A CN 113516209A
- Authority
- CN
- China
- Prior art keywords
- task
- prototype
- meta
- sample
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明属于少样本意图识别领域,公开了一种用于少样本意图识别的对比任务适应学习方法,首先用一个对比学习策略来生成有较好分离度的不同类别样本的表示。其次使用一个自注意力层来从输入的上下文即当前元任务中N‑way K‑shot的集合中获得全局信息。在样本嵌入中加入了标签名称的语义来拉近支撑集中同类别样本嵌入在嵌入空间中的距离,以此减弱其余类别信息对可分性的影响。最后使用了k‑最近邻思想来预测查询的标签。实现了较高的准确率和较好的泛化能力。
Description
技术领域
本发明属于少样本意图识别领域,特别涉及一种用于少样本意图识别的对比任务适应学习方法。
背景技术
当前预训练语言模型,例如BERT,XLNet和GPT-2有了长足发展,它们极大地提高了意图识别的准确率,被广泛应用于社会人工智能中。这些方法主要依赖于拥有大量标记数据的深度神经网络,以此来避免过拟合的问题,在只有少量标记数据的条件下,这些模型并不能很好地完成任务。因此在意图识别领域解决低资源的问题是当前进一步提高意图识别的准确率的瓶颈。
现存方法主要使用基于度量的元学习方法来解决少样本的意图识别问题。总体上讲,这些方法首先从一个基本类的集合中训练一个特征抽取器。之后,训练好的特征抽取器被应用在新类别的查询集上来识别少样本的新类别。这种与任务无关的元学习范式是建立在一个假设上:特征抽取器可以包含所有元任务上共有的知识。然而,这仅考虑共有知识忽略了每个元任务所具有的唯一性。在基本类上训练的特征抽取器不能很好地泛化到少样本的新类别上,导致了并不令人满意的意图识别结果。此外,当前元任务中类之间的交互,以捕获元任务的特征,以生成新的意图嵌入或分类原型。然而,我们认为新生成的意图嵌入和类别原型可能会影响每个类别的唯一性,因为当前类别的嵌入将会耦合其他类别的信息。每个类别唯一性的减弱可能在意图分类时引起混淆。
经过长期研究,我们提出了一个对比的任务适应学习模型(CTA),它不仅能够发掘出特定任务中包含的知识,也能兼顾类别嵌入的唯一性。整体方案为,利用了元任务自身的信息加入到初始的嵌入中来解决元任务的唯一性问题,自身信息是基于当前元任务所包含类别之间的关系来构建的。使用了一个自注意力模块来对一个元任务中包含的嵌入进行建模,将它们视为一个包来建立不同类别之间的交互关系,而不是对样本加权来强调其最具有可分性的特征。之后,引入了一个基于对比的损失函数来帮助特征抽取器输出具有在不同类别之间有大边界的嵌入,以解决类别唯一性的问题。把标签名称的语义加入到每个类别变换之后的嵌入中,作为一个锚点特征来产生新的意图嵌入。取得了良好的效果。
发明内容
本发明旨在提供一种用于少样本意图识别的对比任务适应学习方法,克服现有技术特征抽取器不能很好地泛化到少样本的新类别上、新生成的意图嵌入和类别原型可能会影响每个类别的唯一性等的问题。
为解决上述问题,提供一种用于少样本意图识别的对比任务适应学习方法,包含如下步骤:
S4:计算特征抽取器的对比损失;
优选地,步骤S1中的所述意图识别数据集记为:
将所述的数据集D划分为用于训练的基本类和用于测试的新类,基本类形成的训练集合与新类形成的测试类集合之间不存在交集;由此分别构建:
优选地,所述的步骤S3实现如下:
损失函数可构建为:
所述的步骤S5实现如下:
引入一个特定任务的函数T,抽取每一个元任务的独有信息:
优选地,所述的步骤S6实现如下:
标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别;对于标签,我们通过一个平衡系数来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型 :
所述的步骤S7实现如下:记
所述步骤S8实现如下:
为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:
所述的步骤S11实现如下:
优选地,步骤S5还包括:
为避免原型之间顺序的影响,使用了多头自注意力模型来对每个元任务独有的信息建模:
优选地,步骤S1所述的意图识别数据集为OOS数据集。
优选地,所述的意图识别数据集为OOS标记好类别的数据,不含有噪声标签“outof scope”的数据。
优选地,所述的意图识别数据集,使用数据集2/3的样本作为训练集,以获取公共的知识,其余1/3的样本被平均划分为验证集和测试集。
与现有技术相比,本发明提供的技术方案有益效果在于:本发明提出使用对比任务适应学习模型来利用一个元任务中的不同类别,以解决少样本意图识别问题,实现抽取特定任务的特征。引入了一个基于对比的损失,并且利用标签名称的语义来分离不同类别的嵌入。实现了较高的准确率。
具体实施方式
为进一步公开本发明内容,对本发明的具体实施方式作进一步详细描述:
对于少样本意图识别问题可定义如下:给定一个有个语句-标签对的意图识别数据集,即,其中表示一条语句,表示它的意图标签集合中的一个,即. 因此,意图识别任务可被公式化为一个满足的分类函数. 但是,有标记的数据量通常是不足以支持把模型优化到一个满意的结果。少样本学习模型能够较好地解决此类过拟合问题,即在低资源场景下,模型在训练集上的准确率很高而在测试集上的准确率很低。
根据少样本学习的定义,类别的一个集合可被划分为用于训练的基本类和用于测试的新类,并且在少样本意图识别的训练过程中,需要大量的元任务。一个元任务(或称为一个片段)通常由两部分组成:一个支撑集和一个查询集。表示为。支撑集是一个有个语句-标签对的集合,查询集是一个有个语句-标签对的集合,其中的标签是需要被预测的。通常一个“N-way K-shot”元任务表示支撑集含有个类别的意图标签,每个标签含有个意图样本,使得。
少样本意图识别模型通常在一个元任务组成的集合上训练,在集合上测试,依赖构建,依赖构建。训练集合与测试集合之间不存在交集。对少样本意图识别模型能力的评估主要是在新类别上的泛化能力和适应能力,即在新类别元任务上的性能。最终的目标是从叫做假设空间的参数空间中学习一个分类器,在训练集中的元任务上进行训练,最小化在训练集元任务中的查询集上的损失函数:
传统的少样本学习模型主要依赖于丰富的先验知识来获取一个特征抽取器,它能够提高少样本模型的适应能力和泛化能力。我们认为每个有新类别的元任务都有其独有的信息,这些信息是不能被从基本类别上的知识所包含的。因此,我们设计了一个任务适应模块来有效地运用当前元任务的独有信息。另外,因为这个任务适应模块会影响元任务中每个类别的可分性,所以我们设计了一个对比损失,来包含每个类别的特征,以将混淆的样本表示解耦合。具体设施方案如下:
然后,为对新类别元任务的唯一性进行强化,我们设计了一个基于对比学习的特征抽取器。对比学习策略对BERT进行预训练来获取支撑集中新类别样本的具有任务唯一性的嵌入。具体来说,给定一个有N-way K-shot样本的集合,我们将类别的中心按下式计算:
我们的目标是使同一类别中的样本嵌入相似度远大于不同类别中的样本嵌入相似度,表示为:
为计算方便,我们将类别本身视为正例,其余类别视为负例。优化目标变为最小化不同类别原型之间的相似度,即:
损失函数可被改写为:
任务适应模块:给定一系列N-way K-shot的元任务,我们引入一个特定任务的函数T,它能够抽取每一个元任务的独有信息。
为避免原型之间顺序的影响,我们使用了多头自注意力模型来对每个元任务独有的信息建模。具体来说,多头自注意力层的核心是形式为(查询,键,值)的一组三元组。为获取每个初始原型在线性映射之后原型中所具有的权重,我们将三元组输入到一个线性映射层中来获取对应的表示,可用下式表示:
为更好利用类别本身所具有的特征,我们指出标签名称可作为先验知识,因为它本身就包含着类别的特有信息。因此,我们直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别。对于标签,我们通过一个平衡系数来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型 :
在OOS 数据集上测试本技术方案及各基线的性能。此数据集包含22,500个查询,涵盖150个意图类别,被分成10个日常生活中的领域。在实验中,我们仅使用OOS标记好类别的数据而不是那些有噪声标签“out of scope”的数据。并且使用数据集2/3的样本作为训练集,以获取公共的知识,其余的1/3被平均划分为验证集和测试集。
OOS数据集的统计信息在表1 中展示。使用标签的准确度作为评估指标。
表格 1 OOS数据集的统计信息
通过与原型网络、GCN、匹配网络、FEAT四个较强的基线模型进行对比来验证本发明CTA模型的有效性,本发明技术方案在所有涉及到的模型中具有最佳的性能表现,CTA 优于基于类别唯一性的模型,即匹配网络,表明任务适应模块可以有效地结合任务特有的信息以提高少样本模型的性能。另外,CTA模型也优于基于任务唯一性的模型,即FEAT模型,说明只考虑任务独有的信息会破坏类别的唯一性,进而引起不同类别的混淆。本发明提出的标签增强的解耦合原型网络能够有效减弱这种影响。进一步,相较于其余的基线模型,在所有的元任务上CTA模型都有最小的置信区间,说明CTA在所有元任务上不仅有最高的识别准确性,也有最小的方差。
Claims (8)
3.根据权利要求2所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S3实现如下:
损失函数可构建为:
所述的步骤S5实现如下:
引入一个特定任务的函数T,抽取每一个元任务的独有信息:
4.根据权利要求3所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S6实现如下:
标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别;对于标签,我们通过一个平衡系数来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型 :
所述的步骤S7实现如下:记
所述步骤S8实现如下:
为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:
所述的步骤S11实现如下:
5.根据权利要求3所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,
步骤S5还包括:
为避免原型之间顺序的影响,使用了多头自注意力模型来对每个元任务独有的信息建模:
6.根据权利要求1所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,步骤S1所述的意图识别数据集为OOS数据集。
7.根据权利要求6所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的意图识别数据集为OOS标记好类别的数据,不含有噪声标签“out of scope”的数据。
8.根据权利要求6所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的意图识别数据集,使用数据集2/3的样本作为训练集,以获取公共的知识,其余1/3的样本被平均划分为验证集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071808.5A CN113516209B (zh) | 2021-09-14 | 2021-09-14 | 一种用于少样本意图识别的对比任务适应学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071808.5A CN113516209B (zh) | 2021-09-14 | 2021-09-14 | 一种用于少样本意图识别的对比任务适应学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113516209A true CN113516209A (zh) | 2021-10-19 |
CN113516209B CN113516209B (zh) | 2021-12-17 |
Family
ID=78063145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111071808.5A Active CN113516209B (zh) | 2021-09-14 | 2021-09-14 | 一种用于少样本意图识别的对比任务适应学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516209B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595329A (zh) * | 2022-03-07 | 2022-06-07 | 华泰证券股份有限公司 | 一种原型网络的少样本事件抽取系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078847A (zh) * | 2019-11-27 | 2020-04-28 | 中国南方电网有限责任公司 | 电力用户意图识别方法、装置、计算机设备和存储介质 |
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
CN112015902A (zh) * | 2020-09-14 | 2020-12-01 | 中国人民解放军国防科技大学 | 基于度量的元学习框架下的少次文本分类方法 |
CN113076758A (zh) * | 2021-03-19 | 2021-07-06 | 中山大学 | 一种面向任务型对话的多域请求式意图识别方法 |
-
2021
- 2021-09-14 CN CN202111071808.5A patent/CN113516209B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
CN111078847A (zh) * | 2019-11-27 | 2020-04-28 | 中国南方电网有限责任公司 | 电力用户意图识别方法、装置、计算机设备和存储介质 |
CN112015902A (zh) * | 2020-09-14 | 2020-12-01 | 中国人民解放军国防科技大学 | 基于度量的元学习框架下的少次文本分类方法 |
CN113076758A (zh) * | 2021-03-19 | 2021-07-06 | 中山大学 | 一种面向任务型对话的多域请求式意图识别方法 |
Non-Patent Citations (1)
Title |
---|
FLOOD SUNG 等: "Learning to Compare: Relation Network for Few-Shot Learning", 《ARXIV:1711.06025V2》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595329A (zh) * | 2022-03-07 | 2022-06-07 | 华泰证券股份有限公司 | 一种原型网络的少样本事件抽取系统及方法 |
CN114595329B (zh) * | 2022-03-07 | 2024-08-13 | 华泰证券股份有限公司 | 一种原型网络的少样本事件抽取系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113516209B (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111368058B (zh) | 一种基于迁移学习的问答匹配方法 | |
CN113672718B (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN113590779B (zh) | 一种空管领域知识图谱的智能问答系统构建方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN113516209B (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN112446405A (zh) | 一种家电客服的用户意图引导方法及智能家电 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN117763185A (zh) | 一种基于思考空间维度的哈希图像检索方法 | |
CN117371481A (zh) | 一种基于元学习的神经网络模型检索方法 | |
CN115758159A (zh) | 基于混合对比学习和生成式数据增强的零样本文本立场检测方法 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |