CN113516209A - 一种用于少样本意图识别的对比任务适应学习方法 - Google Patents

一种用于少样本意图识别的对比任务适应学习方法 Download PDF

Info

Publication number
CN113516209A
CN113516209A CN202111071808.5A CN202111071808A CN113516209A CN 113516209 A CN113516209 A CN 113516209A CN 202111071808 A CN202111071808 A CN 202111071808A CN 113516209 A CN113516209 A CN 113516209A
Authority
CN
China
Prior art keywords
task
prototype
meta
sample
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111071808.5A
Other languages
English (en)
Other versions
CN113516209B (zh
Inventor
蔡飞
张维明
张鑫
宋城宇
王祎童
王思远
刘登峰
陈洪辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111071808.5A priority Critical patent/CN113516209B/zh
Publication of CN113516209A publication Critical patent/CN113516209A/zh
Application granted granted Critical
Publication of CN113516209B publication Critical patent/CN113516209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于少样本意图识别领域,公开了一种用于少样本意图识别的对比任务适应学习方法,首先用一个对比学习策略来生成有较好分离度的不同类别样本的表示。其次使用一个自注意力层来从输入的上下文即当前元任务中N‑way K‑shot的集合中获得全局信息。在样本嵌入中加入了标签名称的语义来拉近支撑集中同类别样本嵌入在嵌入空间中的距离,以此减弱其余类别信息对可分性的影响。最后使用了k‑最近邻思想来预测查询的标签。实现了较高的准确率和较好的泛化能力。

Description

一种用于少样本意图识别的对比任务适应学习方法
技术领域
本发明属于少样本意图识别领域,特别涉及一种用于少样本意图识别的对比任务适应学习方法。
背景技术
当前预训练语言模型,例如BERT,XLNet和GPT-2有了长足发展,它们极大地提高了意图识别的准确率,被广泛应用于社会人工智能中。这些方法主要依赖于拥有大量标记数据的深度神经网络,以此来避免过拟合的问题,在只有少量标记数据的条件下,这些模型并不能很好地完成任务。因此在意图识别领域解决低资源的问题是当前进一步提高意图识别的准确率的瓶颈。
现存方法主要使用基于度量的元学习方法来解决少样本的意图识别问题。总体上讲,这些方法首先从一个基本类的集合中训练一个特征抽取器。之后,训练好的特征抽取器被应用在新类别的查询集上来识别少样本的新类别。这种与任务无关的元学习范式是建立在一个假设上:特征抽取器可以包含所有元任务上共有的知识。然而,这仅考虑共有知识忽略了每个元任务所具有的唯一性。在基本类上训练的特征抽取器不能很好地泛化到少样本的新类别上,导致了并不令人满意的意图识别结果。此外,当前元任务中类之间的交互,以捕获元任务的特征,以生成新的意图嵌入或分类原型。然而,我们认为新生成的意图嵌入和类别原型可能会影响每个类别的唯一性,因为当前类别的嵌入将会耦合其他类别的信息。每个类别唯一性的减弱可能在意图分类时引起混淆。
经过长期研究,我们提出了一个对比的任务适应学习模型(CTA),它不仅能够发掘出特定任务中包含的知识,也能兼顾类别嵌入的唯一性。整体方案为,利用了元任务自身的信息加入到初始的嵌入中来解决元任务的唯一性问题,自身信息是基于当前元任务所包含类别之间的关系来构建的。使用了一个自注意力模块来对一个元任务中包含的嵌入进行建模,将它们视为一个包来建立不同类别之间的交互关系,而不是对样本加权来强调其最具有可分性的特征。之后,引入了一个基于对比的损失函数来帮助特征抽取器输出具有在不同类别之间有大边界的嵌入,以解决类别唯一性的问题。把标签名称的语义加入到每个类别变换之后的嵌入中,作为一个锚点特征来产生新的意图嵌入。取得了良好的效果。
发明内容
本发明旨在提供一种用于少样本意图识别的对比任务适应学习方法,克服现有技术特征抽取器不能很好地泛化到少样本的新类别上、新生成的意图嵌入和类别原型可能会影响每个类别的唯一性等的问题。
为解决上述问题,提供一种用于少样本意图识别的对比任务适应学习方法,包含如下步骤:
S1:获取一个有
Figure 876037DEST_PATH_IMAGE001
个语句-标签对的意图识别数据集D;
S2:从意图识别数据集D抽取元任务集合
Figure 312834DEST_PATH_IMAGE002
S3:从集合
Figure 877808DEST_PATH_IMAGE002
中的第j个元任务
Figure 792674DEST_PATH_IMAGE003
中的
Figure 392283DEST_PATH_IMAGE004
句子获取低维向量
Figure 498517DEST_PATH_IMAGE005
S4:计算特征抽取器的对比损失;
S5:从支撑集
Figure 81945DEST_PATH_IMAGE006
中获取原型嵌入集合
Figure 800502DEST_PATH_IMAGE007
S6:根据所述的原型嵌入集合
Figure 254617DEST_PATH_IMAGE007
,计算标签
Figure 33218DEST_PATH_IMAGE008
的语义混合原型
Figure 103942DEST_PATH_IMAGE009
S7:计算标签预测结果
Figure 626190DEST_PATH_IMAGE010
S8:计算总损失
Figure 934812DEST_PATH_IMAGE011
S9:计算梯度
Figure 884313DEST_PATH_IMAGE012
S10:用梯度
Figure 645596DEST_PATH_IMAGE013
更新特征抽取器
Figure 502693DEST_PATH_IMAGE014
、特定任务的函数T;
转入S2,直至对集合D中的每一组
Figure 164356DEST_PATH_IMAGE015
进行了训练;
S11:训练完成,返回最优分类器
Figure 284759DEST_PATH_IMAGE016
; 最优特征抽取器
Figure 330076DEST_PATH_IMAGE014
优选地,步骤S1中的所述意图识别数据集记为:
Figure 194126DEST_PATH_IMAGE017
其中
Figure 211761DEST_PATH_IMAGE018
表示一条语句,
Figure 768644DEST_PATH_IMAGE019
表示它的意图标签集合中的一个,即
Figure 35677DEST_PATH_IMAGE020
;和/或
步骤S2所述的抽取元任务集合
Figure 437840DEST_PATH_IMAGE015
实现如下:
将所述的数据集D划分为用于训练的基本类和用于测试的新类,基本类形成的训练集合与新类形成的测试类集合之间不存在交集;由此分别构建:
Figure 575560DEST_PATH_IMAGE021
,用于训练;
Figure 303345DEST_PATH_IMAGE022
,用于测试;
其中,
Figure 759472DEST_PATH_IMAGE023
为一个元任务,由一个支撑集和一个查询集两部分组成,表示为
Figure 230904DEST_PATH_IMAGE024
其中,
Figure 754290DEST_PATH_IMAGE025
为支撑集,是一个有
Figure 387396DEST_PATH_IMAGE026
个语句-标签对的集合;
Figure 97863DEST_PATH_IMAGE027
为查询集,是一个有
Figure 107408DEST_PATH_IMAGE028
个语句-标签对的集合;标签
Figure 485299DEST_PATH_IMAGE029
是需要被预测的;
Figure 554886DEST_PATH_IMAGE030
含有
Figure 487070DEST_PATH_IMAGE031
个类别的意图标签,每个标签含有
Figure 300306DEST_PATH_IMAGE032
个意图样本,
Figure 765660DEST_PATH_IMAGE033
优选地,所述的步骤S3实现如下:
采用BERT模型用作一个特征抽取器,从
Figure 271727DEST_PATH_IMAGE034
中的
Figure 956787DEST_PATH_IMAGE035
句子进行编码为一个连续的低维向量
Figure 308134DEST_PATH_IMAGE036
Figure 660618DEST_PATH_IMAGE037
为集合
Figure 806428DEST_PATH_IMAGE038
中的第j个元任务;和/或
所述的步骤S4实现如下:记
Figure 713204DEST_PATH_IMAGE039
为类别
Figure 399400DEST_PATH_IMAGE040
的中心,则
Figure 75232DEST_PATH_IMAGE041
(3)
其中,
Figure 657524DEST_PATH_IMAGE042
表示类别
Figure 51596DEST_PATH_IMAGE040
中的语句
Figure 275904DEST_PATH_IMAGE043
,由此同类别中的样本能够有到中心的最短距离;
Figure 570357DEST_PATH_IMAGE044
是衡量两个样本之间相似度的评分函数,则
Figure 323549DEST_PATH_IMAGE045
(5)
其中
Figure 470496DEST_PATH_IMAGE046
表示和
Figure 967337DEST_PATH_IMAGE047
在同类别中的样本,
Figure 617761DEST_PATH_IMAGE048
表示和
Figure 73013DEST_PATH_IMAGE047
不同类别的样本;
损失函数可构建为:
Figure 441678DEST_PATH_IMAGE049
(8)
其中
Figure 476630DEST_PATH_IMAGE050
是常数;和/或
所述的步骤S5实现如下:
引入一个特定任务的函数T,抽取每一个元任务的独有信息:
Figure 512719DEST_PATH_IMAGE051
其中
Figure 607714DEST_PATH_IMAGE052
是一个由公式(3)确定的支撑集
Figure 198095DEST_PATH_IMAGE006
中的原型集合;原型集合
Figure 567897DEST_PATH_IMAGE053
中的交互能够反映这个元任务的本质;
优选地,所述的步骤S6实现如下:
将变换后的原型
Figure 691448DEST_PATH_IMAGE054
记作类别
Figure 957344DEST_PATH_IMAGE055
中样本嵌入的中心:
Figure 35022DEST_PATH_IMAGE056
(13)
标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别;对于标签
Figure 411777DEST_PATH_IMAGE057
,我们通过一个平衡系数
Figure 891299DEST_PATH_IMAGE058
来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型
Figure 328097DEST_PATH_IMAGE059
:
Figure 893071DEST_PATH_IMAGE060
(14)
其中
Figure 73516DEST_PATH_IMAGE014
是BERT模型的编码器,标签名称的嵌入
Figure 171660DEST_PATH_IMAGE061
是作为原型表示向量的一个修正量存在的和/或
所述的步骤S7实现如下:记
Figure 310517DEST_PATH_IMAGE062
(15)
其中:
Figure 97208DEST_PATH_IMAGE063
为查询集
Figure 81344DEST_PATH_IMAGE064
中的语句
Figure 535459DEST_PATH_IMAGE065
是基于混合语义原型来预测
Figure 845218DEST_PATH_IMAGE066
标签的分类器,
Figure 119204DEST_PATH_IMAGE067
是预测结果;和/或
所述步骤S8实现如下:
为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:
Figure 641453DEST_PATH_IMAGE068
(16)
其中
Figure 481233DEST_PATH_IMAGE069
是任务适应之后的
Figure 430734DEST_PATH_IMAGE070
的嵌入,
Figure 457596DEST_PATH_IMAGE071
是对应的真实标签的语义混合原型;
Figure 28210DEST_PATH_IMAGE072
是损失函数;
Figure 988075DEST_PATH_IMAGE073
(17)
其中
Figure 108478DEST_PATH_IMAGE074
是一个平衡系数;
转入S3,直至对集合
Figure 357057DEST_PATH_IMAGE015
每一个元任务
Figure 221108DEST_PATH_IMAGE075
进行了训练;和/或
所述的步骤S11实现如下:
Figure 35480DEST_PATH_IMAGE076
Figure 326784DEST_PATH_IMAGE077
(2)
其中,
Figure 62659DEST_PATH_IMAGE078
表示一个训练元任务中查询集所包含的一个语句-标签对;
Figure 261559DEST_PATH_IMAGE079
表示分类器
Figure 399279DEST_PATH_IMAGE080
利用从当前训练元任务支撑集
Figure 861485DEST_PATH_IMAGE081
中学到的知识来预测出的结果;
Figure 615814DEST_PATH_IMAGE082
是计算预测出的概率分布
Figure 585782DEST_PATH_IMAGE079
和真实分布
Figure 578009DEST_PATH_IMAGE083
之间差距的损失函数。
优选地,步骤S5还包括:
为避免原型之间顺序的影响,使用了多头自注意力模型来对每个元任务独有的信息建模:
多头自注意力层的核心是形式为(查询
Figure 742274DEST_PATH_IMAGE084
,键
Figure 452741DEST_PATH_IMAGE085
,值
Figure 462285DEST_PATH_IMAGE086
)的一组三元组,为获取每个初始原型在线性映射之后原型中所具有的权重,将三元组输入到一个线性映射层中来获取对应的表示
Figure 309018DEST_PATH_IMAGE087
,可用下式表示:
Figure 909764DEST_PATH_IMAGE088
(10)
其中
Figure 841948DEST_PATH_IMAGE089
Figure 655183DEST_PATH_IMAGE090
Figure 887581DEST_PATH_IMAGE091
是线性映射矩阵,[:]表示一个矩阵;
最后按自注意力算法来获取原型
Figure 128070DEST_PATH_IMAGE092
最终变换之后的原型嵌入:
Figure 46085DEST_PATH_IMAGE093
其中权重
Figure 928590DEST_PATH_IMAGE094
度量了键与值的接近程度,也反映了原型
Figure 749916DEST_PATH_IMAGE095
与其他原型之间的交互,按下式计算:
Figure 161306DEST_PATH_IMAGE096
(12)
其中
Figure 68082DEST_PATH_IMAGE097
表示
Figure 754278DEST_PATH_IMAGE098
的第
Figure 430110DEST_PATH_IMAGE099
列,
Figure 12401DEST_PATH_IMAGE100
表示嵌入的维度;根据自注意力初始化的惯例,设置
Figure 937632DEST_PATH_IMAGE101
,来自支撑集
Figure 630781DEST_PATH_IMAGE102
优选地,步骤S1所述的意图识别数据集为OOS数据集。
优选地,所述的意图识别数据集为OOS标记好类别的数据,不含有噪声标签“outof scope”的数据。
优选地,所述的意图识别数据集,使用数据集2/3的样本作为训练集,以获取公共的知识,其余1/3的样本被平均划分为验证集和测试集。
与现有技术相比,本发明提供的技术方案有益效果在于:本发明提出使用对比任务适应学习模型来利用一个元任务中的不同类别,以解决少样本意图识别问题,实现抽取特定任务的特征。引入了一个基于对比的损失,并且利用标签名称的语义来分离不同类别的嵌入。实现了较高的准确率。
具体实施方式
为进一步公开本发明内容,对本发明的具体实施方式作进一步详细描述:
对于少样本意图识别问题可定义如下:给定一个有
Figure 426699DEST_PATH_IMAGE103
个语句-标签对的意图识别数据集,即
Figure 445470DEST_PATH_IMAGE104
,其中
Figure 825374DEST_PATH_IMAGE105
表示一条语句,
Figure 322214DEST_PATH_IMAGE106
表示它的意图标签集合中的一个,即
Figure 503797DEST_PATH_IMAGE107
. 因此,意图识别任务可被公式化为一个满足
Figure 427891DEST_PATH_IMAGE108
的分类函数
Figure 530976DEST_PATH_IMAGE109
. 但是,有标记的数据量通常是不足以支持把模型优化到一个满意的结果。少样本学习模型能够较好地解决此类过拟合问题,即在低资源场景下,模型在训练集上的准确率很高而在测试集上的准确率很低。
根据少样本学习的定义,类别的一个集合
Figure 97086DEST_PATH_IMAGE110
可被划分为用于训练的基本类
Figure 867596DEST_PATH_IMAGE111
和用于测试的新类
Figure 962591DEST_PATH_IMAGE112
,并且
Figure 552973DEST_PATH_IMAGE113
在少样本意图识别的训练过程中,需要大量的元任务。一个元任务
Figure 922774DEST_PATH_IMAGE114
(或称为一个片段)通常由两部分组成:一个支撑集和一个查询集。表示为
Figure 547790DEST_PATH_IMAGE115
。支撑集
Figure 312222DEST_PATH_IMAGE116
是一个有
Figure 389899DEST_PATH_IMAGE117
个语句-标签对的集合,查询集
Figure 297812DEST_PATH_IMAGE118
是一个有
Figure 777335DEST_PATH_IMAGE119
个语句-标签对的集合,其中的标签
Figure 214133DEST_PATH_IMAGE120
是需要被预测的。通常一个“N-way K-shot”元任务表示支撑集
Figure 310265DEST_PATH_IMAGE102
含有
Figure 490710DEST_PATH_IMAGE121
个类别的意图标签,每个标签含有
Figure 824740DEST_PATH_IMAGE122
个意图样本,使得
Figure 963597DEST_PATH_IMAGE123
少样本意图识别模型通常在一个元任务组成的集合
Figure 15867DEST_PATH_IMAGE124
上训练,在集合
Figure 3DEST_PATH_IMAGE125
上测试,
Figure 687074DEST_PATH_IMAGE126
依赖
Figure 465675DEST_PATH_IMAGE111
构建,
Figure 536399DEST_PATH_IMAGE127
依赖
Figure 58647DEST_PATH_IMAGE128
构建。训练集合与测试集合之间不存在交集。对少样本意图识别模型能力的评估主要是在新类别上的泛化能力和适应能力,即在新类别元任务上的性能。最终的目标是从叫做假设空间
Figure 367269DEST_PATH_IMAGE129
的参数空间中学习一个分类器
Figure 316770DEST_PATH_IMAGE130
,在训练集中的元任务上进行训练,最小化在训练集元任务中的查询集上的损失函数
Figure 343632DEST_PATH_IMAGE131
Figure 935150DEST_PATH_IMAGE076
Figure 567120DEST_PATH_IMAGE077
(2)
其中
Figure 451637DEST_PATH_IMAGE132
表示一个训练元任务中查询集所包含的一个语句-标签对;
Figure 231374DEST_PATH_IMAGE133
表示分类器
Figure 95425DEST_PATH_IMAGE130
利用从当前训练元任务支撑集
Figure 378639DEST_PATH_IMAGE102
中学到的知识来预测出的结果;
Figure 201101DEST_PATH_IMAGE134
是计算预测出的概率分布
Figure 936976DEST_PATH_IMAGE133
和真实分布
Figure 604718DEST_PATH_IMAGE135
之间差距的损失函数。
传统的少样本学习模型主要依赖于丰富的先验知识来获取一个特征抽取器,它能够提高少样本模型的适应能力和泛化能力。我们认为每个有新类别的元任务都有其独有的信息,这些信息是不能被从基本类别上的知识所包含的。因此,我们设计了一个任务适应模块来有效地运用当前元任务的独有信息。另外,因为这个任务适应模块会影响元任务中每个类别的可分性,所以我们设计了一个对比损失,来包含每个类别的特征,以将混淆的样本表示解耦合。具体设施方案如下:
特征抽取器:给定一个从自然对话中抽取到的n个词的语句
Figure 742438DEST_PATH_IMAGE136
,BERT首先被用作一个特征抽取器来将原始的句子进行编码为一个连续的低维向量
Figure 735802DEST_PATH_IMAGE137
, 之后它将用于对比学习。
然后,为对新类别元任务的唯一性进行强化,我们设计了一个基于对比学习的特征抽取器。对比学习策略对BERT进行预训练来获取支撑集中新类别样本的具有任务唯一性的嵌入。具体来说,给定一个有N-way K-shot样本的集合,我们将类别
Figure 958973DEST_PATH_IMAGE138
的中心
Figure 164826DEST_PATH_IMAGE139
按下式计算:
Figure 688211DEST_PATH_IMAGE041
(3)
其中
Figure 85432DEST_PATH_IMAGE140
表示类别
Figure 795899DEST_PATH_IMAGE141
中的语句
Figure 539865DEST_PATH_IMAGE142
. 这样,同类别中的样本能够有到中心的最短距离。
我们的目标是使同一类别中的样本嵌入相似度远大于不同类别中的样本嵌入相似度,表示为:
Figure 652177DEST_PATH_IMAGE143
(4)
其中
Figure 987343DEST_PATH_IMAGE144
是衡量两个样本之间相似度的评分函数,
Figure 185107DEST_PATH_IMAGE046
表示和
Figure 732763DEST_PATH_IMAGE047
在同类别中的样本,
Figure 699582DEST_PATH_IMAGE048
表示和
Figure 471228DEST_PATH_IMAGE145
不同类别的样本。在本文中,评分函数为归一化的点乘,表示为:
Figure 890709DEST_PATH_IMAGE146
(5)
之后,可以构建一个分辨正例和负例的softmax分类器,其中损失函数可以使得评分函数
Figure 752309DEST_PATH_IMAGE144
来从正例上获取较大的值,从负例上获取较小的值。损失函数可构建为:
Figure 104793DEST_PATH_IMAGE147
分母含有一个正例和
Figure 516183DEST_PATH_IMAGE148
个负例。
为计算方便,我们将类别本身视为正例,其余类别视为负例。优化目标变为最小化不同类别原型之间的相似度,即:
Figure 422959DEST_PATH_IMAGE149
损失函数可被改写为:
Figure 843576DEST_PATH_IMAGE049
(8)
其中
Figure 784987DEST_PATH_IMAGE150
是常数。借助对比损失
Figure 367278DEST_PATH_IMAGE151
,我们希望在少样本情景下,当前的特征抽取器相较于没有对比损失的传统的特征抽取器可以收敛得更快。
任务适应模块:给定一系列N-way K-shot的元任务,我们引入一个特定任务的函数T,它能够抽取每一个元任务的独有信息。
Figure 761351DEST_PATH_IMAGE051
其中
Figure 985659DEST_PATH_IMAGE152
是一个由公式(3)确定的支撑集
Figure 515997DEST_PATH_IMAGE102
中的原型集合。原型集合
Figure 269189DEST_PATH_IMAGE153
中的交互能够反映这个元任务的本质,即诸如类别、类别包含的样本等任务独有的信息。
为避免原型之间顺序的影响,我们使用了多头自注意力模型来对每个元任务独有的信息建模。具体来说,多头自注意力层的核心是形式为(查询
Figure 681716DEST_PATH_IMAGE154
,键
Figure 677092DEST_PATH_IMAGE122
,值
Figure 327516DEST_PATH_IMAGE155
)的一组三元组。为获取每个初始原型在线性映射之后原型中所具有的权重,我们将三元组输入到一个线性映射层中来获取对应的表示
Figure 517189DEST_PATH_IMAGE156
,可用下式表示:
Figure 885853DEST_PATH_IMAGE088
(10)
其中
Figure 920805DEST_PATH_IMAGE157
Figure 691315DEST_PATH_IMAGE158
Figure 51890DEST_PATH_IMAGE159
是线性映射矩阵,[:]表示一个矩阵。例如,
Figure 907850DEST_PATH_IMAGE160
表示一个由原型
Figure 746493DEST_PATH_IMAGE161
组成的矩阵;
我们按自注意力算法来获取原型
Figure 637089DEST_PATH_IMAGE162
最终变换之后的原型嵌入
Figure 902985DEST_PATH_IMAGE163
,其中包含了任务独有的信息。即计算了
Figure 479198DEST_PATH_IMAGE164
中每一列的加权和来获得任务的独有信息,表示如下:
Figure 652690DEST_PATH_IMAGE093
其中权重
Figure 132213DEST_PATH_IMAGE165
度量了键与值的接近程度,也反映了原型
Figure 569010DEST_PATH_IMAGE166
与其他原型之间的交互,它可按下式计算:
Figure 665142DEST_PATH_IMAGE096
(12)
其中
Figure 845588DEST_PATH_IMAGE167
表示
Figure 179617DEST_PATH_IMAGE168
的第
Figure 318475DEST_PATH_IMAGE099
列,
Figure 370744DEST_PATH_IMAGE100
表示嵌入的维度。根据自注意力初始化的惯例,我们设置
Figure 89302DEST_PATH_IMAGE169
,来自支撑集
Figure 543417DEST_PATH_IMAGE102
.
用于解耦合的原型网络:在任务适应模块之后,我们将变换后的原型
Figure 853175DEST_PATH_IMAGE170
记作类别
Figure 891276DEST_PATH_IMAGE171
中样本嵌入的中心:
Figure 413524DEST_PATH_IMAGE056
(13)
其中
Figure 253304DEST_PATH_IMAGE172
可用公式(11)从支撑集
Figure 202806DEST_PATH_IMAGE102
中产生。
为更好利用类别本身所具有的特征,我们指出标签名称可作为先验知识,因为它本身就包含着类别的特有信息。因此,我们直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别。对于标签
Figure 964088DEST_PATH_IMAGE106
,我们通过一个平衡系数
Figure 821186DEST_PATH_IMAGE058
来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型
Figure 984314DEST_PATH_IMAGE173
Figure 370296DEST_PATH_IMAGE060
(14)
其中
Figure 415613DEST_PATH_IMAGE174
是诸如BERT之类的编码器,
Figure 14084DEST_PATH_IMAGE175
是用公式(13)获得的原型表示。标签名称的嵌入
Figure 31719DEST_PATH_IMAGE176
是作为原型表示向量的一个修正量存在的,这个修正量可以使元任务中的不同类别分离,以更清晰地表示意图的语义。
借助变换后的嵌入
Figure 87137DEST_PATH_IMAGE177
,查询集
Figure 823012DEST_PATH_IMAGE178
中的语句
Figure 756333DEST_PATH_IMAGE179
的标签可根据支撑集
Figure 159632DEST_PATH_IMAGE102
中的原型进行预测:
Figure 621838DEST_PATH_IMAGE062
(15)
其中
Figure 845009DEST_PATH_IMAGE180
是基于混合语义原型来预测
Figure 582021DEST_PATH_IMAGE181
标签的分类器,
Figure 839827DEST_PATH_IMAGE182
是预测结果。为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:
Figure 472933DEST_PATH_IMAGE068
(16)
其中
Figure 448979DEST_PATH_IMAGE183
是任务适应之后的
Figure 724103DEST_PATH_IMAGE179
的嵌入,
Figure 69371DEST_PATH_IMAGE184
是对应的真实标签的语义混合原型;
Figure 873379DEST_PATH_IMAGE134
是与公式(1)中相同的损失函数。
Figure 602301DEST_PATH_IMAGE073
(17)
其中
Figure 415536DEST_PATH_IMAGE185
Figure 116776DEST_PATH_IMAGE186
Figure 622844DEST_PATH_IMAGE187
分别基于公式(1),公式(8)和公式(16)生成。
Figure 573482DEST_PATH_IMAGE186
用于优化特征抽取器,
Figure 924829DEST_PATH_IMAGE187
用于优化任务适应模块。
Figure 277313DEST_PATH_IMAGE188
是一个平衡系数。CTA模型的具体过程参照算法1:
Figure 423123DEST_PATH_IMAGE189
在OOS 数据集上测试本技术方案及各基线的性能。此数据集包含22,500个查询,涵盖150个意图类别,被分成10个日常生活中的领域。在实验中,我们仅使用OOS标记好类别的数据而不是那些有噪声标签“out of scope”的数据。并且使用数据集2/3的样本作为训练集,以获取公共的知识,其余的1/3被平均划分为验证集和测试集。
OOS数据集的统计信息在表1 中展示。使用标签的准确度作为评估指标。
表格 1 OOS数据集的统计信息
Figure 595479DEST_PATH_IMAGE190
通过与原型网络、GCN、匹配网络、FEAT四个较强的基线模型进行对比来验证本发明CTA模型的有效性,本发明技术方案在所有涉及到的模型中具有最佳的性能表现,CTA 优于基于类别唯一性的模型,即匹配网络,表明任务适应模块可以有效地结合任务特有的信息以提高少样本模型的性能。另外,CTA模型也优于基于任务唯一性的模型,即FEAT模型,说明只考虑任务独有的信息会破坏类别的唯一性,进而引起不同类别的混淆。本发明提出的标签增强的解耦合原型网络能够有效减弱这种影响。进一步,相较于其余的基线模型,在所有的元任务上CTA模型都有最小的置信区间,说明CTA在所有元任务上不仅有最高的识别准确性,也有最小的方差。

Claims (8)

1.一种用于少样本意图识别的对比任务适应学习方法,其特征在于,包括如下步骤:
S1:获取一个有
Figure 752987DEST_PATH_IMAGE001
个语句-标签对的意图识别数据集D;
S2:从意图识别数据集D抽取元任务集合
Figure 138969DEST_PATH_IMAGE002
S3:从集合
Figure 387548DEST_PATH_IMAGE002
中的第j个元任务
Figure 251599DEST_PATH_IMAGE003
中的
Figure 65971DEST_PATH_IMAGE004
句子获取低维向量
Figure 357275DEST_PATH_IMAGE005
S4:计算特征抽取器的对比损失;
S5:从支撑集
Figure 591685DEST_PATH_IMAGE006
中获取原型嵌入集合
Figure 259427DEST_PATH_IMAGE007
S6:根据所述的原型嵌入集合
Figure 397147DEST_PATH_IMAGE007
,计算标签
Figure 390511DEST_PATH_IMAGE008
的语义混合原型
Figure 613682DEST_PATH_IMAGE009
S7:计算标签预测结果
Figure 819535DEST_PATH_IMAGE010
S8:计算总损失
Figure 811762DEST_PATH_IMAGE011
S9:计算梯度
Figure 710448DEST_PATH_IMAGE012
S10:用梯度
Figure 952073DEST_PATH_IMAGE013
更新特征抽取器
Figure 696038DEST_PATH_IMAGE014
、特定任务的函数T;
转入S2,直至对集合D中的每一组
Figure 306886DEST_PATH_IMAGE015
进行了训练;
S11:训练完成,返回最优分类器
Figure 110894DEST_PATH_IMAGE016
; 最优特征抽取器
Figure 308657DEST_PATH_IMAGE014
2.根据权利要求1所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,步骤S1中的所述意图识别数据集记为:
Figure 856313DEST_PATH_IMAGE017
其中
Figure 823132DEST_PATH_IMAGE018
表示一条语句,
Figure 594779DEST_PATH_IMAGE019
表示它的意图标签集合中的一个,即
Figure 14259DEST_PATH_IMAGE020
;和/或
步骤S2所述的抽取元任务集合
Figure 365606DEST_PATH_IMAGE015
实现如下:
将所述的数据集D划分为用于训练的基本类和用于测试的新类,基本类形成的训练集合与新类形成的测试类集合之间不存在交集;由此分别构建:
Figure 186931DEST_PATH_IMAGE021
,用于训练;
Figure 96856DEST_PATH_IMAGE022
,用于测试;
其中,
Figure 3632DEST_PATH_IMAGE023
为一个元任务,由一个支撑集和一个查询集两部分组成,表示为
Figure 424249DEST_PATH_IMAGE024
其中,
Figure 365661DEST_PATH_IMAGE025
为支撑集,是一个有
Figure 947952DEST_PATH_IMAGE026
个语句-标签对的集合;
Figure 342024DEST_PATH_IMAGE027
为查询集,是一个有
Figure 35173DEST_PATH_IMAGE028
个语句-标签对的集合;标签
Figure 96670DEST_PATH_IMAGE029
是需要被预测的;
Figure 849863DEST_PATH_IMAGE030
含有
Figure 731231DEST_PATH_IMAGE031
个类别的意图标签,每个标签含有
Figure 738325DEST_PATH_IMAGE032
个意图样本,
Figure 919908DEST_PATH_IMAGE033
3.根据权利要求2所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S3实现如下:
采用BERT模型用作一个特征抽取器,从
Figure 578422DEST_PATH_IMAGE034
中的
Figure 947087DEST_PATH_IMAGE035
句子进行编码为一个连续的低维向量
Figure 513197DEST_PATH_IMAGE036
Figure 283707DEST_PATH_IMAGE037
为集合
Figure 113123DEST_PATH_IMAGE038
中的第j个元任务;和/或
所述的步骤S4实现如下:记
Figure 500242DEST_PATH_IMAGE039
为类别
Figure 338885DEST_PATH_IMAGE040
的中心,则
Figure 698322DEST_PATH_IMAGE041
(3)
其中,
Figure 964218DEST_PATH_IMAGE042
表示类别
Figure 573054DEST_PATH_IMAGE040
中的语句
Figure 713923DEST_PATH_IMAGE043
,由此同类别中的样本能够有到中心的最短距离;
Figure 193446DEST_PATH_IMAGE044
是衡量两个样本之间相似度的评分函数,则
Figure 161402DEST_PATH_IMAGE045
(5)
其中
Figure 726376DEST_PATH_IMAGE046
表示和
Figure 906821DEST_PATH_IMAGE047
在同类别中的样本,
Figure 240851DEST_PATH_IMAGE048
表示和
Figure 379708DEST_PATH_IMAGE047
不同类别的样本;
损失函数可构建为:
Figure 431978DEST_PATH_IMAGE049
(8)
其中
Figure 150535DEST_PATH_IMAGE050
是常数;和/或
所述的步骤S5实现如下:
引入一个特定任务的函数T,抽取每一个元任务的独有信息:
Figure 604650DEST_PATH_IMAGE051
其中
Figure 914409DEST_PATH_IMAGE052
是一个由公式(3)确定的支撑集
Figure 952510DEST_PATH_IMAGE006
中的原型集合;原型集合
Figure 474758DEST_PATH_IMAGE053
中的交互能够反映这个元任务的本质。
4.根据权利要求3所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的步骤S6实现如下:
将变换后的原型
Figure 314538DEST_PATH_IMAGE054
记作类别
Figure 264039DEST_PATH_IMAGE055
中样本嵌入的中心:
Figure 25322DEST_PATH_IMAGE056
(13)
标签名称可作为先验知识,因为它本身就包含着类别的特有信息,因此直接将标签名称的嵌入作为每个类别的指引信息,通过标签名称和变换之后的样本嵌入来表示每个类别;对于标签
Figure 351261DEST_PATH_IMAGE057
,我们通过一个平衡系数
Figure 45548DEST_PATH_IMAGE058
来调节标签名称和变换后嵌入的重要程度,以计算它的语义混合原型
Figure 165950DEST_PATH_IMAGE059
:
Figure 680108DEST_PATH_IMAGE060
(14)
其中
Figure 544159DEST_PATH_IMAGE014
是BERT模型的编码器,标签名称的嵌入
Figure 92952DEST_PATH_IMAGE061
是作为原型表示向量的一个修正量存在的和/或
所述的步骤S7实现如下:记
Figure 148371DEST_PATH_IMAGE062
(15)
其中:
Figure 884245DEST_PATH_IMAGE063
为查询集
Figure 551987DEST_PATH_IMAGE064
中的语句
Figure 424128DEST_PATH_IMAGE065
是基于混合语义原型来预测
Figure 683071DEST_PATH_IMAGE066
标签的分类器,
Figure 906242DEST_PATH_IMAGE067
是预测结果;和/或
所述步骤S8实现如下:
为保证适应后的样本嵌入和同类别的相似而与不同类别的不相似,引入另一个损失函数:
Figure 112096DEST_PATH_IMAGE068
(16)
其中
Figure 635481DEST_PATH_IMAGE069
是任务适应之后的
Figure 534167DEST_PATH_IMAGE070
的嵌入,
Figure 979055DEST_PATH_IMAGE071
是对应的真实标签的语义混合原型;
Figure 487134DEST_PATH_IMAGE072
是损失函数;
Figure 130605DEST_PATH_IMAGE073
(17)
其中
Figure 934613DEST_PATH_IMAGE074
是一个平衡系数;
转入S3,直至对集合
Figure 132376DEST_PATH_IMAGE015
每一个元任务
Figure 680032DEST_PATH_IMAGE075
进行了训练;和/或
所述的步骤S11实现如下:
Figure 178009DEST_PATH_IMAGE076
Figure 152919DEST_PATH_IMAGE077
(2)
其中,
Figure 837978DEST_PATH_IMAGE078
表示一个训练元任务中查询集所包含的一个语句-标签对;
Figure 720483DEST_PATH_IMAGE079
表示分类器
Figure 541809DEST_PATH_IMAGE080
利用从当前训练元任务支撑集
Figure 953199DEST_PATH_IMAGE081
中学到的知识来预测出的结果;
Figure 358510DEST_PATH_IMAGE082
是计算预测出的概率分布
Figure 779127DEST_PATH_IMAGE079
和真实分布
Figure 720538DEST_PATH_IMAGE083
之间差距的损失函数。
5.根据权利要求3所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,
步骤S5还包括:
为避免原型之间顺序的影响,使用了多头自注意力模型来对每个元任务独有的信息建模:
多头自注意力层的核心是形式为(查询
Figure 37250DEST_PATH_IMAGE084
,键
Figure 962481DEST_PATH_IMAGE085
,值
Figure 655630DEST_PATH_IMAGE086
)的一组三元组,为获取每个初始原型在线性映射之后原型中所具有的权重,将三元组输入到一个线性映射层中来获取对应的表示
Figure 451548DEST_PATH_IMAGE087
,可用下式表示:
Figure 204740DEST_PATH_IMAGE088
(10)
其中
Figure 617267DEST_PATH_IMAGE089
Figure 848528DEST_PATH_IMAGE090
Figure 498952DEST_PATH_IMAGE091
是线性映射矩阵,[:]表示一个矩阵;
最后按自注意力算法来获取原型
Figure 954204DEST_PATH_IMAGE092
最终变换之后的原型嵌入:
Figure 821404DEST_PATH_IMAGE093
其中权重
Figure 856356DEST_PATH_IMAGE094
度量了键与值的接近程度,也反映了原型
Figure 361287DEST_PATH_IMAGE095
与其他原型之间的交互,按下式计算:
Figure 456282DEST_PATH_IMAGE096
(12)
其中
Figure 312242DEST_PATH_IMAGE097
表示
Figure 416465DEST_PATH_IMAGE098
的第
Figure 41481DEST_PATH_IMAGE099
列,
Figure 307377DEST_PATH_IMAGE100
表示嵌入的维度;根据自注意力初始化的惯例,设置
Figure 385055DEST_PATH_IMAGE101
,来自支撑集
Figure 558547DEST_PATH_IMAGE102
6.根据权利要求1所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,步骤S1所述的意图识别数据集为OOS数据集。
7.根据权利要求6所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的意图识别数据集为OOS标记好类别的数据,不含有噪声标签“out of scope”的数据。
8.根据权利要求6所述的用于少样本意图识别的对比任务适应学习方法,其特征在于,所述的意图识别数据集,使用数据集2/3的样本作为训练集,以获取公共的知识,其余1/3的样本被平均划分为验证集和测试集。
CN202111071808.5A 2021-09-14 2021-09-14 一种用于少样本意图识别的对比任务适应学习方法 Active CN113516209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071808.5A CN113516209B (zh) 2021-09-14 2021-09-14 一种用于少样本意图识别的对比任务适应学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071808.5A CN113516209B (zh) 2021-09-14 2021-09-14 一种用于少样本意图识别的对比任务适应学习方法

Publications (2)

Publication Number Publication Date
CN113516209A true CN113516209A (zh) 2021-10-19
CN113516209B CN113516209B (zh) 2021-12-17

Family

ID=78063145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071808.5A Active CN113516209B (zh) 2021-09-14 2021-09-14 一种用于少样本意图识别的对比任务适应学习方法

Country Status (1)

Country Link
CN (1) CN113516209B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595329A (zh) * 2022-03-07 2022-06-07 华泰证券股份有限公司 一种原型网络的少样本事件抽取系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078847A (zh) * 2019-11-27 2020-04-28 中国南方电网有限责任公司 电力用户意图识别方法、装置、计算机设备和存储介质
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN112015902A (zh) * 2020-09-14 2020-12-01 中国人民解放军国防科技大学 基于度量的元学习框架下的少次文本分类方法
CN113076758A (zh) * 2021-03-19 2021-07-06 中山大学 一种面向任务型对话的多域请求式意图识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN111078847A (zh) * 2019-11-27 2020-04-28 中国南方电网有限责任公司 电力用户意图识别方法、装置、计算机设备和存储介质
CN112015902A (zh) * 2020-09-14 2020-12-01 中国人民解放军国防科技大学 基于度量的元学习框架下的少次文本分类方法
CN113076758A (zh) * 2021-03-19 2021-07-06 中山大学 一种面向任务型对话的多域请求式意图识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FLOOD SUNG 等: "Learning to Compare: Relation Network for Few-Shot Learning", 《ARXIV:1711.06025V2》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595329A (zh) * 2022-03-07 2022-06-07 华泰证券股份有限公司 一种原型网络的少样本事件抽取系统及方法
CN114595329B (zh) * 2022-03-07 2024-08-13 华泰证券股份有限公司 一种原型网络的少样本事件抽取系统及方法

Also Published As

Publication number Publication date
CN113516209B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111368058B (zh) 一种基于迁移学习的问答匹配方法
CN113672718B (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN113590779B (zh) 一种空管领域知识图谱的智能问答系统构建方法
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN113516209B (zh) 一种用于少样本意图识别的对比任务适应学习方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN112446405A (zh) 一种家电客服的用户意图引导方法及智能家电
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN117763185A (zh) 一种基于思考空间维度的哈希图像检索方法
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN115758159A (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant