CN115455144A

CN115455144A - 用于小样本意图识别的完型填空式的数据增强方法

Info

Publication number: CN115455144A
Application number: CN202211071426.7A
Authority: CN
Inventors: 陈洪辉; 张鑫; 蔡飞; 江苗; 郑建明; 宋城宇; 邵太华; 郭昱普; 王梦如
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-09

Abstract

本申请中一个或多个实施例提供了一种用于小样本意图识别的完型填空式的数据增强方法，内容包括：基于预训练语言模型构建完型填空式的数据增强任务用于意图识别，先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似，然后再基于度量分类采用有监督的对比学习方法，使得同一类别的意图样本在嵌入空间中更接近彼此，不同类别的意图样本更远离彼此，对比学习方法包括原型层面的对比学习和实例层面的对比学习。在不破坏句法结构和增加噪音的情况下产生有意义的数据，充分利用了有限的数据并获得可分离的嵌入。在嵌入空间中获得更好的距离分布，从而改善基于度量的分类方法的性能。

Description

用于小样本意图识别的完型填空式的数据增强方法

技术领域

本发明属于意图识别技术领域，具体涉及一种用于小样本意图识别的完型填空式的数据增强方法。

背景技术

意图识别旨在从用户的话语中识别出用户的潜在意图，这是面向任务的对话系统中的关键组成部分。然而，一个实际的挑战是意图类别的数量增长速度快于人工注释数据的速度，导致许多新的意图类别只有少量数据可用。这种数据缺乏导致传统深度神经网络在少量训练数据上过拟合，严重影响了实际应用。因此，一些研究人员提出了小样本学习来解决数据稀缺问题。一种有效的方法是文本数据增强，但它总是生成噪声或无意义的数据。

在现实世界的应用中，新的意图类别迅速出现，并且只有有限的标注完备的数据，因此很难直接应用于优化现有的深度神经网络。这些网络一般都会包含一个预训练语言模型作为其主干，以将文本数据编码为连续的低维向量，例如BERT和RoBERTa。这样的模型总是具有多层的复杂架构，因此具有的参数量非常可观。如果在传统训练范式的基础上，直接利用少量训练数据更新深度神经网络模型的参数，模型将只能捕捉到局部特征，导致泛化能力不足和过拟合问题，即在训练集上表现良好，在测试集上表现不佳。为了处理这样的问题，Snell等人提出了少样本学习(FSL)策略来帮助模型仅在有限的数据中获得泛化能力。上述研究人员将小样本意图识别视为元学习问题。它通过一系列小的元任务来模拟小样本场景。这种方法广泛应用于关系分类、事件检测和意图检测等小样本文本分类任务领域。

一个主要的挑战是，基于元学习的小样本学习方法仍然很容易陷入因训练样本有限而导致的在偏差分布上过拟合的困境。一些研究人员试图通过数据增强方法来防止过拟合问题。其中一个关键思想是回译：将输入文本的其他语言表示翻译成初始语言。另一种常见的方法是利用外部知识库来获得与原始句子语义相似的表达。具体来说，Dopierre等人引入了多个知识库来生成原始输入的不同释义句子，而不是重新排序句子中的单词。然而，虽然回译可以生成相同语义的不同表达，但它在短文本中表现不佳。它生成的表达通常与原始输入句子相似甚至相同。而关于释义生成方法，我们认为它并不适合所有领域的文本增强，因为并不总是可以找到相对应的外部知识库。且，先前的数据增强相关方法，例如Liu等人提出的方法，训练效率低下，并且难以扩展到具有大量意图的任务。

发明内容

本发明要解决的技术问题是提供一种用于小样本意图识别的完型填空式的数据增强方法，以解决现有技术存在的上述至少一个问题。

基于上述目的，本申请中一个或多个实施例提供了一种用于小样本意图识别的完型填空式的数据增强方法，内容包括：基于预训练语言模型构建完型填空式的意图识别任务用于数据增强，先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似，然后再基于度量分类采用有监督的对比学习方法，使得同一类别的意图样本在嵌入空间中更接近彼此，不同类别的意图样本更远离彼此，对比学习方法包括原型层面的对比学习和实例层面的对比学习。

基于本发明的上述技术方案，还可以作出如下改进：

可选的，所述无监督学习方法包括：以预训练语言模型作为特征提取器，采用标记来掩盖设定比例的输入词，根据输入句子的上下文的语义来预测这些被掩盖的标记；特征提取器通过加入两个特殊标记后，将完型填空式的意图识别任务中的句子编码为隐藏层向量表示，两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束，该过程通过以下公式表示：

其中，F(·)为特征提取器，T为完型填空式模板，[MASK]为被掩盖的单词的标记，Pat(T，x)为数据增强模式，x是输入句子，

表示隐藏层向量，[CLS]和[SEP]分别表示开始和结束；

将隐藏层向量

视为被掩盖的单词[MASK]的表示，将

看作是根据模式Pat(T，x)生成的句子表示，其在语义上与输入句子x是相似的，所有输入样本上重复公式(1)得到相应的数据增强结果。

可选的，通过损失函数对预训练语言模型进行约束，用于削弱与输入句子的语义不匹配的向量，最终获得恰当的数据增强结果。

可选的，在不引入任何外部知识和标签的情况下，将输入句子x送入预训练语言模型中，获得其低维向量表示，将其表述为：

其中，隐藏层向量

表示为整个句子x，通过以下损失函数：

用于缩小

和

之间的距离。

可选的，完成无监督的完型填空式数据增强之后，采用基于度量的原型网络作为分类器来检验数据增强的效果。

可选的，首先计算出同一类别下的样本的平均表示，并以此作为该类别的原型：

其中，c_i表示类别i的原型表示，K_i表示在当前元任务T下的支持数据集

中类别i的样本数量，

为类别i中第k个句子的表示；通过这种原型表示，同一类别的样本到其中心的平均距离可以最短；同样地，基于

通过原型计算公式(4)，可以得到增强的原型c′_i。

可选的，为了使最终的原型更全面地覆盖其类别的共同特征，对输入样本的原型和数据增强的结果原型进行了加权，公式如下：

其中，α是一个加权系数，以控制来自原始输入数据和增强数据的相应贡献；

给定一个分数函数s(·，·)，原型网络通过计算查询嵌入向量和原型之间的相似度的softmax分布来预测查询实例的标签x^Q，公式如下所示：

其中，y是预测标签，x^Q是当前元任务

的查询集Q中的查询实例，j是真实标签，

表示基于j类别的初始和增强数据的最终原型，选择余弦相似度作为s(·，·)；学习通过最小化负对数概率：

来进行。

可选的，为原型层面的对比学习引入基于对比学习的损失，以便于尽可能的将不同类别的原型分开，并使得不同类别的平均表征相互远离，通过以下公式表述：

其中，s(·，·)是与公式中相同的相似性度量函数，因此，s(c_i，c_i)的值是一个常数1，将公式(4)简化为以下形式：

其中，e是一个常数，

为原型级的对比性损失。

可选的，在基于原型层面的对比学习引入实例层面的对比学习，以使得同一类别的实例相互接近，通过以下公式表述：

其中，

表示

和

的正例，包括原始语料的向量表示和增强的向量表示，它与它们属于同一类别，其中，同一类别的样本向量表示之间的相似度可以提高，而不同类别的样本向量的相似度则可以通过最小化损失

来降低。

本发明的有益效果是，本发明提供了一种用于小样本意图识别的完型填空式的数据增强方法，具体的说，提出了一种适用于短文本且无需任何基于知识的参与的数据增强方法。我们将预训练语言模型本身视为一个知识库，因为它已经在大型文本语料库上进行了训练，因此可以执行一些简单的任务。构建了一个与其预训练任务类似形式的完型填空任务用于数据增强，以充分利用预训练语言模型本身的知识。使用模型还原的“[MASK]”标记的隐状态向量作为输入句子的数据增强结果，而不是由一系列词组成的真实句子。此外，为了使数据增强的结果不是无意义的噪声，利用无监督学习方法使其在语义上与原始输入句子相似。之后，为了最大限度地利用元任务中的少量样本，采用有监督的对比学习策略，使同一类别的样本在嵌入空间中更接近彼此，不同类别的样本更远离彼此。在不破坏句法结构和增加噪音的情况下产生有意义的数据，充分利用了有限的数据并获得可分离的嵌入。在嵌入空间中获得更好的距离分布，从而改善基于度量的分类方法的性能。

附图说明

图1为本发明实施例的一种用于小样本意图识别的完型填空式的数据增强方法的模型总体框架图。

图2为本发明实施例的一种用于小样本意图识别的完型填空式的数据增强方法的不同模板在CLINC-150和BANKING-77数据集上的“5-way 1-shot”和“5-way 5-shot”元任务中的性能示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本申请中一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本申请中一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

参考图1和图2，本申请中一个或多个实施例的一种用于小样本意图识别的完型填空式的数据增强方法，包括基于预训练语言模型构建完型填空式的数据增强任务用于意图识别，先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似，然后再采用有监督的对比学习方法进行基于度量的分类，使得同一类别的意图样本在嵌入空间中更接近彼此，不同类别的意图样本更远离彼此，对比学习方法包括原型层面的对比学习和实例层面的对比学习。

作为一个可选的实施例，所述无监督学习方法包括：以预训练语言模型作为特征提取器，采用标记来掩盖设定比例的输入词，根据输入句子的上下文的语义来预测这些被掩盖的标记；特征提取器通过加入两个特殊标记后，将完型填空式的意图识别任务中的句子编码为隐藏层向量表示，两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束，该过程通过以下公式表示：

其中，F(·)为特征提取器，T为完型填空式模板，[MASK]为被掩盖的单词的标记，Pat(T,x)为数据增强模式，x是输入句子，

表示隐藏层向量，[CLS]和[SEP]分别表示开始和结束；

将隐藏层向量

视为被掩盖的单词[MASK]的表示，将

看作是根据模式Pat(T,x)生成的句子表示，其在语义上与输入句子x是相似的，所有输入样本上重复公式(1)得到相应的数据增强结果。

引入了一个辅助的完型填空式的模板T来构建数据增强的模式Pat，具体如下所示：

T＝The sentence：′__′means[MASK].#

Pat(T,x)＝The sentence:′x′means[MASK]:#

作为一个可选的实施例，预训练的语言模型并不总是能生成与输入句子的语义完全匹配的向量。因此，需要设计一种方法来约束模型，以削弱这种不匹配，最终获得恰当的数据增强结果。在不引入任何外部知识和标签的情况下，设计了一种无监督的学习方法，利用模型自身的语义理解能力，使它尽可能地产生合适的结果。通过损失函数对预训练语言模型进行约束，用于削弱与输入句子的语义不匹配的向量，最终获得恰当的数据增强结果。

在不引入任何外部知识和标签的情况下，将输入句子x送入预训练语言模型中，获得其低维向量表示，将其表述为：

其中，隐藏层向量

表示为整个句子x，通过以下损失函数：

用于缩小

和

之间的距离。

作为一个可选的实施例，在无监督的完型填空式数据增强之后，采用基于度量的原型网络作为分类器来检验数据增强的效果。原型网络首先计算出同一类别下的样本的平均表示，以此作为该类别的原型：

中类别i的样本数量，

通过原型计算公式(4)，得到增强的原型c′_i。

其中，y是预测标签，x^Q是当前元任务

的查询集Q中的查询实例，j是真实标签，

来进行。由于原型网络通过测量查询实例和原型之间的距离来预测标签，因此适当的距离分布对于提高意图识别性能至关重要。

作为一个可选的实施例，考虑到原型是用当前元任务中相应类别的所有样本计算出来的，原型可以代表这个类别中样本的共同特征。同时，考虑到原型网络是基于度量的，提高分类精度的一个直观想法是增加嵌入空间中不同类别的原型之间的距离。

因此，为原型级的学习引入了一个基于对比学习的损失，以便尽可能地将不同类别的原型分开。具体来说，目标是使不同类别的原型嵌入的相似度越小越好，这可以表述为：

其中，e是一个常数，

为原型级的对比性损失。我们期望不同类别的原型可以相互远离。然而，直接在原型层面进行对比学习，只能使不同类别的平均表征相互远离。这样的方法并不能保证同一类别的样本是接近的，意图识别的准确性也就没有得到足够的提高。

作为一个可选的实施例，为了进一步提高意图识别性能，引入了实例层面的对比学习。该策略不仅可以使不同类别的实例相互远离，而且可以使同一类别的实例相互接近，具体的公式如下：

其中，

表示

和

来降低。

为对实施例的技术效果进行验证，设计了以下实验：

实验设置

使用两个公开的意图识别数据集来评估我们的模型和参与讨论的基线模型的能力，包括CLINC-150和BANKING-77。CLINC-150由来自10个日常生活领域的150个意图类别组成，每个类别有150个样本。此外，数据集中还有一些意图语句被标记为“超出范围”，这些意图语句被认为是具有多个未知类别的噪声。为了准确测试所讨论模型的性能，我们删除了这些标记为“超出范围”的样本，并且仅利用标注完备的样本进行训练和测试。BANKING-77是一个用于意图识别的单领域数据集，包含银行领域77个类别的13,083个样本。表1提供了CLINC-150和BANKING-77的统计数据。

表1数据集CLINC-150和BANKING-77的统计数据

模型摘要

通过与以下基线模型进行比较来验证我们提出模型的有效性：

Prototypical Networks:一种基于度量的少样本分类模型，它利用嵌入空间中样本之间的距离来衡量它们的相似性。它将最接近查询样本的原型标签视为其类别的预测。

GCN:用于小样本分类的基于图卷积网络的方法，它将小样本学习视作一种有监督的信息传递任务，并可使用一种端到端的方式进行训练。

Matching Networks:一个小样本分类框架，它训练一个网络，将一个小的有标注的支持集和未标记的实例映射到它们的标签，并避免依赖微调来适应新的类别。

问题设定

RQ1：我们提出的方法是否能在意图识别任务上优于具有这些竞争力的基线模型？

RQ2：我们提出的CDA的哪个模块在提升识别准确率上的作用更大？

RQ3：不同的模板对于模型性能的影响是什么？

模型设定

按照小样本学习实验的常见做法，我们讨论了两种不同样本数量的元任务，包括“5-way1-shot”和“5-way 5-shot”。对于所有参与讨论的模型，我们应用相同的特征提取器(即，bert-base-uncased)来编码输入句子以保证性能比较的公平。

基于RQ1,在CLINC-150和BANKING-77上考察了两类元任务的意图识别模型能力。所有讨论的模型的整体意图识别性能如表2所示。

表2两种类型的元任务在测试集上的准确度(％)以及95％置信区间的总体表现。每一列中表现最好的人产生的结果加粗表示。最佳基线产生的结果用下划线表示。

首先，我们可以发现无论是哪一个数据集，所有的模型在单个种类样本数量较多的情况下都能更好地完成元任务。这是因为随着单个种类样本数量的增加，模型可用的总样本数量也在增加，从样本中获得的共同特征更接近于真实的共同特征。

而后，我们集中分析基线的性能。我们可以发现，MatchNet在两个数据集上的“5-way1-shot”元任务中获得了最高的准确性，而ProtoNet在两个数据集上的“5-way 5-shot”元任务中获得了最好的性能。MatchNet在“1-shot”元任务上的优势可以解释为，临时的相似性匹配计算可以很好地提升模型性能。对于ProtoNet来说，它在“5-shot”元任务中具有优势的原因是它可以融合同一类别中实例的特征以获得它们的共性。

接下来，我们重点讨论我们提出的模型的性能。对比基线模型和CDA模型，我们可以发现，在数据集CLINC-150上，CDA-PC和CDA-IC的表现几乎都超过了所有讨论的基线模型。然而，在BANKING-77数据集上，CDA-PC在“5-way 1-shot”和“5-way 5-shot”元任务上的表现分别弱于MatchNet和ProtoNet。这是因为CLINC-150数据集中同一类别的样本是短句，比BANKING-77中的样本更相似。因此，数据增强的结果与初始输入的句子很接近，这有助于模型获得它们的共同特征。再者，由于BANKING-77数据集比CLINC-150更专业，预训练语言模型掌握的相关知识比CLINC-150少。如果直接用增强的样本来计算类别原型，就相当于引入了噪声，会削弱类别本身的特征从而降低识别性能。

针对CDA-PC应用中存在的问题，CDA-IC利用实例级的对比学习策略，提高了小样本意图识别性能。CDA-IC的优势可以解释为：实例级对比学习策略将初始数据和同一类别中的相应增强数据都视为正例。这样的方法使每个样本与更多的数据进行交互，不仅可以缩短同一类别的初始输入数据在空间上的距离，还可以使增强后的数据在语义上接近同一类别的原始数据。

在CLINC-150数据集上，CDA-IC与最佳基线模型相比，在“5-way 1-shot”元任务中的准确率提高了4.36％，在“5-way 5-shot”元任务中提高了4.91％。在BANKING-77数据集上，“5-way 1-shot”元任务的精度提高了1.69％，“5-way 5-shot”元任务的精度提高了1.86％。

消融实验

为了回答RQ2问题，我们通过分别删除CDA-IC的两个基本组成部分，即实例级对比学习模块和无监督学习模块，分析不同模块在我们CDA-IC模型中的重要性。消融实验的结果如表3所示：

表3CDA-IC在CLINC-150数据集和BANKING-77数据集上进行的“5-way1-shot”、“5-way 5-shot”元任务的消融实验。每一列中降幅最大的独立模块后用

标记。

显然，去掉CDA-IC的任何部分都会导致性能下降，这表明无监督学习模块和实例级对比学习模块在提高小样本意图识别能力方面起到很重要的作用。特别是，在两种类型的元任务中，无论何种数据集，去除实例级对比学习模块都会导致最严重的性能下降。例如，在CLINC-150数据集上，没有实例级对比学习模块的CDA-IC模型在“5-way1-shot”元任务和“5-way 5-shot”元任务中的表现分别下降了3.63％和3.82％。对于BANKING-77数据集，没有实例级对比学习模块的CDA-IC模型在“5-way1-shot”元任务和“5-way 5-shot”元任务中分别获得了4.16％和4.44％的性能下降。

此外，值得注意的是，每个模块都有其独特的贡献。具体来说，在“5-way1-shot”元任务中，去掉无监督学习模块造成的性能下降要比“5-way 5-shot”元任务中的性能下降更多，这说明在特征不足的情况下，无监督学习模块的作用更明显，更有利于提高小样本意向识别性能。另外，在“5-way 5-shot”元任务中，实例级的对比学习模块比“5-way1-shot”元任务发挥了更重要的作用。这一现象可以解释为，在这种情况下，限制性能的瓶颈不再是特征的缺乏，而是对同一类别的共性和不同类别的独特性的挖掘。实例级对比学习模块不仅可以缩短嵌入空间中同一类别的样本之间的距离，还可以增加不同类别的向量表示之间的距离，即挖掘同一类别的共性和不同类别的独特性。

不同模板的影响

为了回答RQ3问题，我们设计了三种不同的模板，并将它们应用于数据增强的模式。所有讨论的模板类型见表4。

表4用于完型填空式数据增强的三种模板

由于我们提出的模型基于预训练语言模型，它需要利用模板来生成语义相似的数据。因为不同的模板使用不同的单词和标点符号，即令牌，所以从预训练语言模型得到的语义向量也是不同的，具体情况见图2。

图2体现了不同模板在CLINC-150和BANKING-77数据集上的“5-way 1-shot”和“5-way5-shot”元任务中的性能。

很明显，它表明不同的模板确实会导致模型性能的明显变化。具体来说，在CLINC-150数据集上执行的“5-way 1-shot”元任务中，不同模板的性能差异接近1％。此外，如图2所示，在BANKING-77数据集上执行的“5-way 5-shot”元任务上，不同模板之间的性能差异甚至可以达到1.3％。

从整体趋势来看，模板的长度与数据增量的效果没有直接关系。详细来说，尽管模板2是最短的，但它在CLINC-150数据集上的表现并不是最差的。它在“5-way 1-shot”元任务上的表现与模板3的表现非常接近，比模板1好。值得注意的是，与其他两个模板相比，模板3在CLINC-150和BANKING-77数据集的所有任务上表现最好。这一现象可以解释为，模板3对[MASK]标记的语义指导最为明确。当原始输入句子被填入模板时，模板3明确指出，[MASK]代表输入句子的意图。因此，生成的语义嵌入向量更具指向性。

综上所述，模板的设计对数据增强的性能有明显的影响。一个好的模板可以提供适当的语义指导，有效提高数据增强的性能。

我们提出了一个用于小样本意图识别的完型填空式数据增强(CDA)模型。受预训练语言模型任务的启发，我们设计了一个基于模板的无监督的数据增强策略，希望在不破坏句法结构和增加噪音的情况下产生有意义的数据。此外，为了充分利用有限的数据并获得可分离的嵌入，我们在原始数据和增强的数据之间进行对比学习。因此，每个样本可以与所有剩余类别的样本进行互动，从而在嵌入空间中区分不同类别的嵌入。在CLINC-150和BANKING-77数据集上进行的实验结果说明了对所有讨论的基线的有效性。此外，消融研究表明，对比性模块是整个模型中最重要的组成部分。

技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请中一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.用于小样本意图识别的完型填空式的数据增强方法，其特征是，包括：基于预训练语言模型构建完型填空式的数据增强任务用于意图识别，先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似，然后再基于度量分类采用有监督的对比学习方法，使得同一类别的意图样本在嵌入空间中更接近彼此，不同类别的意图样本更远离彼此，对比学习方法包括原型层面的对比学习和实例层面的对比学习。

2.如权利要求1所述的用于小样本意图识别的完型填空式的数据增强方法，其特征是，所述无监督学习方法包括：以预训练语言模型作为特征提取器，采用标记来掩盖设定比例的输入词，根据输入句子的上下文的语义来预测这些被掩盖的标记；特征提取器通过加入两个特殊标记后，将完型填空式的意图识别任务中的句子编码为隐藏层向量表示，两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束，该过程通过以下公式表示：