CN114547264A

CN114547264A - 一种基于马氏距离和对比学习的新意图数据识别方法

Info

Publication number: CN114547264A
Application number: CN202210151423.8A
Authority: CN
Inventors: 戴新宇; 陈昱; 欧阳亚文; 吴震; 王雷
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-27

Abstract

本发明提供了一种基于马氏距离和对比学习的新意图数据识别方法，本发明在分类模型的训练过程中引入对比学习来获取更完整的样本特征，并基于样本的特征向量使用马氏距离来作为打分函数，来防止特征经过分类层之后有所损失，有助于模型提升识别新意图样本的能力。

Description

一种基于马氏距离和对比学习的新意图数据识别方法

技术领域

本发明属于人工智能领域，尤其涉及一种基于马氏距离和对比学习的新意图数据识别方法。

背景技术

随着人工智能技术的发展，任务型对话式智能助手产品开始涌现，如手机语音助手，电商智能客服，智能音箱等产品，极大方便了人们的生活。其中，意图识别(IntentDetection)是任务型对话系统的(Task-Oriented Dialogue System)的重要模块之一，负责识别当前使用者的输入中包含的意图信息，并根据识别结果执行后续的动作。因此，意图识别的准确与否直接影响了后续步骤的执行情况和用户对系统的满意度。然而，在真实的应用场景中，用户的输入的表述可能会包含一些全新的意图，这些意图从未被系统所见过，超出了系统的识别能力，被称为新意图。正确识别新意图能够防止系统执行错误的操作并给出不相关回复，从而提高用户的使用体验。

目前主流的意图识别技术方案是将新意图识别任务转化为文本分类任务，首先利用已意图样本和对应的标签训练一个文本多分类模型，并将通过文本分类模型得到的置信度分数作为新意图识别任务的打分函数，如果样本置信度分数低于某个阈值，则会被视为新意图样本。

【专利一】CN111382270A基于文本分类器的意图识别方法、装置、设备及存储介质。

该发明使用文本分类模型进行意图分类，同时判断文本分类模型得到的置信度分数是否大于阈值来判断当前意图是否为新意图。

【论文二】Out-of-domain Detection for Natural Language Understanding inDialog Systems.

该论文通过生成负样本并引入文本分类模型的训练过程中，从而增强模型对新意图的识别能力。

【论文三】Modeling Discriminative Representations for Out-of-DomainDetection with Supervised Contrastive Learning.

该论文引入样本和其他类别样本的对比学习，增强文本分类模型的分类能力。

专利一通过文本分类模型获取置信度分数来作为新意图打分函数，并设定阈值来检测新意图。但是，基于神经网络的文本分类模型通常会面临过自信(over confident)的问题，即输入样本即使不属于已知意图，但某些特征与已知意图相似，导致新意图样本仍然以较高的置信度分类到错误的类别。这是由于神经网络训练集的有限性导致的，分类模型会利用分类所需的尽可能少的特征进行分类，而忽略其他一些重要的类别特征。由于分类模型从未见过新意图样本，因此很难捕获新意图的重要特征，容易把它分类到相似的意图类别里(如播放音乐和播放电影)。

针对这个问题，论文二在模型训练过程中引入负样本来增强模型对类别特征的捕获能力。模型通过GAN技术来生成伪造的负样本并引入训练过程中，要求模型对负样本预测的熵尽可能大，即模型得到的置信度分数尽可能小，从而缓解模型过自信的问题。然而使用GAN生成的负样本难以保证质量，即是否为真正的新意图样本。论文三在分类模型的训练过程中引入了对比学习来获取更有区分度的特征，它将统一类别的样本作为正样本，其他类别的样本作为负样本进行对比学习，从而捕获类别之间更有区分度特征。然而，这种特征的捕获仍局限于区分已知意图类别的样本之间的不同特征，而不能捕获到完整的样本特征来区分和已知意图比较接近的新意图样本。

发明内容

发明目的：本发明要解决的技术问题是如何学习到更完整的样本特征来区分已知意图和新意图，并在计算打分函数尽可能避免特征损失，从而使模型对新意图样本有更好的识别能力，尤其是与已知意图样本非常相似的新意图样本。

本发明具体提供了一种基于马氏距离和对比学习的新意图数据识别方法，包括以下步骤：、

步骤1，输入训练集中的所有样本和标注的标签；

步骤2，为训练集中的已知意图样本构建正样本和负样本，用于对比学习训练；

步骤3，结合对比学习训练意图分类模型，通过分类模型来获取样本表示；

步骤4，计算类别中心；

步骤5，计算样本到类别中心的最小马氏距离，并判定是否为新意图样本。

步骤2包括：

步骤2-1，识别所有输入样本的槽位，获取样本拥有的槽位类型；

步骤2-2，将训练集中拥有相同槽位类型的样本进行两两配对，即样本x₁＝T₁(s₁＝v₁，s₂＝v₂)，样本x₂＝T₂(s₁＝v₃，s₂＝v₄)，其中，s_i代表第i个槽位类型，v_i代表第i个槽位值，T_i代表第i个句子模版；

步骤2-3，为样本x₁构造正样本

为样本x₂构造正样本

为样本x₁构造负样本

为样本x₂构造负样本

步骤3包括：

步骤3-1，输入原始训练集D＝{(x，y)}和对比学习训练集D′＝(x，x⁺，x^-)；

步骤3-2，意图识别模型进行前向计算；

步骤3-3，计算样本的预测概率分布与真实标签之间的交叉熵CE；

步骤3-4，计算损失函数值对于每个模型参数的梯度，使用反向传播算法更新模型参数；

步骤3-5，使用验证集评估模型性能；

步骤3-6，判断模型性能是否提升，如果有提升则返回步骤3-2继续迭代训练，否则执行步骤3-7；

步骤3-7，结束训练模型。

步骤3-1包括：原始训练集D用于分类任务的训练，x＝{w₁，w₂，...，w_n}为原始样本，包含了n个单词w₁，w₂，...，w_n，y为对应的意图标签；

对比学习训练集D‘用于对比学习的训练，x⁺，x^-分别为原始样本x对应的正、负样本；其中，意图样本标签进行独热编码，记为集合

其中m为已知意图数目，y_i表示第i个意图标签，

中当前正样本对应意图标签的位置为1，其余位置值为0；输入的原始样本按照4∶1的比例划分为训练集和验证集，训练集输入模型用于训练；

步骤3-2包括：获取单词w_i的词嵌入e_i，即样本x′＝{e₁，e₂，...，e_n}；

使用门控循环单元GRU(Gate Recurrent Unit)网络编码输入原始样本x′，即将每个词嵌入输入一个门控单元中，得到每个词的输出，为每个词状态的隐层表示，即{h₁，h₂，..，h_n}＝GRU(e₁，e₂，...，e_n)，其中h_i表示第i个词e_i的输出，GRU()代表将一系列词嵌入输入门控循环单元网络中，即h_t＝z_t⊙h_t-1+(1-z_t)⊙g(e_t，h_t-1，θ)，z_t∈[0，1]为更新门，z_t＝σ(W_zx_t+U_zh_t-1+b_z)，W_z，U_z和b_z为可训练参数；函数g(e_t，h_t-1，θ)＝tanh(W_he_t+U_h(r_t·h_t-1)+b_h)，其中W_h，U_h和b_h为可训练参数；r_t∈[0，1]为重置门，r_t＝σ(W_re_t+U_rht_-1+b_r)，其中W_r，U_r和b_r为可训练参数；

取所有状态的隐层表示的均值作为样本的表示

将样本的特征空间做L2正则限制，限制样本模长为α，即

得到原始样本表示h_x和正负样本表示

将原始样本表示h_x输入线性层和SoftMax层，得到标签分布p＝{p₁，p₂，...，p_m}，其中p_m表示模型将样本预测为第m个意图标签y_m的概率，m为意图的数目；

步骤3-3包括：采用如下公式计算样本的预测概率分布与真实标签之间的交叉熵

计算样本x和正负样本x⁺、x^-之间的三元组损失TL(x，x⁺，x^-)＝max(d(x，x⁺)-d(x，x^-)+m，0)，其中样本x到样本y的距离

其中h_x＝(a₁，a₂，...，a_d)，h_y＝(b₁，b₁，...，b_d)，d为h的维度，m为超参数；最终模型的损失函数为L＝CE+λ·TL，其中λ为超参数；

步骤4包括：类别i的类别中心表示为

其中，N_c为训练集中类别i的样本数目，

为样本x_i的的句子表示。

步骤4包括：计算样本到类别中心的最小马氏距离：首先计算训练集的协方差

其中c代表类别标签；

计算样本x到类别中心的最小马氏距离

其中min_c代表使得马氏距离最小的类别c。如果M(x)大于选定阈值，则判断样本x为新意图样本。

本发明在分类模型的训练过程中引入对比学习来获取更完整的样本特征，并基于样本的特征向量使用马氏距离来作为打分函数，来防止特征经过分类层之后有所损失，有助于模型提升识别新意图样本的能力。

有益效果：

从技术层面来说，本发明的技术方案(1)将对比学习引入模型的训练，能够学习到更完整的特征。(2)使用马氏距离作为打分函数，避免学习到的特征经过分类层产生损失。

从应用层面来说，本发明技术方案(1)利用数据集自带的槽位类型信息自动构造出正负样本用于特征学习。(2)经过对比学习的模型能够学习到更完整的特征，对于与已知意图相似的新意图有更好的区分度，能够避免系统输出错误，优化用户体验。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明流程图。

图2是正负样本构建流程图。

图3是模型训练流程图。

具体实施方式

如图1所示，本发明提供了一种基于马氏距离和对比学习的新意图数据识别方法，包括：

步骤1，输入训练集中的所有样本和人工标注的标签。有训练新意图模型需要事先确定好意图标签体系，依据体系里的语料和标签作为已知意图，用于模型学习。本发明采用SNIPS数据集，是一个语音助手语料转化为文字后得到的数据集。共有7个类别，分别为“播放音乐”，“询问天气”，“添加到播放列表”，“书籍评分”，“预定餐厅”，“搜索创造力的作品”以及“搜索电影信息”。特别地，在这里将“搜索创造力的作品”以及“添加到播放列表”视作新意图样本，这是一组比较有挑战性的设定。该数据对于每条数据都标注了槽位类型，如歌手名字，歌曲名称。

步骤2，为训练集中的已知意图样本构建正样本和负样本用于对比学习训练。具体的正负样本构造流程如图2所示：

步骤2-1，识别所有输入样本的槽位，获取样本的拥有的槽位类型。对于样本“你能播放周杰伦的音乐菊花台吗”，它有两个槽位，即“你能播放【歌手名】的音乐【歌名】吗”，槽位【歌手名】的值为周杰伦，槽位【歌名】的值为菊花台。

步骤2-2，将训练集中拥有相同槽位类型的样本进行两两配对，即样本x₁＝T₁(s₁＝v₁，s₂＝v₂)，x₂＝T₂(s₁＝v₃，s₂＝v₄)。其中，s_i代表槽位类型，v_i代表槽位值，p_i代表句子模式(除去槽位值以外的部分)。例如，样本1(你能播放【周杰伦】的音乐【菊花台】吗)，样本2(播放【林俊杰】的音乐【江南】)为一组样本对，他们都拥有相同的槽位类型：歌手名，歌名。拥有相同的槽位类型的样本往往有着语义相近的句子模式，将他们的槽位值替换则会得到新的样本。

步骤2-3，为了让模型关注到完整的语义信息，把表述不同，但拥有相同语义信息的样本视为正样本。如果两个样本的槽位值相同，句子模式相近，则认为它们的语义相近。即为样本x₁构造正样本

为样本x₂构造正样本

如果两个样本槽位值不同，即使句子模式一致，也代表了不同的语义。即为样本x₁构造负样本

样本x₂构造负样本

例如，对于样本“你能播放【周杰伦】的音乐【菊花台】吗”而言，它的正样本为“播放【周杰伦】的音乐【菊花台】”，负样本为“你能播放【林俊杰】的音乐【江南】吗”。通过让模型区分原样本和负样本的区别，能够关注到更完整的语义信息。表1展示了一例用于对比学习的样本。

表1

步骤3，结合对比学习训练意图分类模型，通过分类模型来获取样本表示。具体训练流程如图3所示：

步骤3-1，输入原始样本x＝w₁，w₂，...，w_n和对应标签y用于分类模型的训练，输入原始样本x和对应的正负样本x⁺，x^-用于对比学习的训练。其中，意图样本标签进行独热编码，记为集合

其中m为已知意图数目，y_i表示第i个意图标签，y中当前正样本对应意图标签的位置为1，其余位置值为0。输入样本按4∶1划分为训练集和验证集，训练集输入模型用于训练，验证集待后续部分使用。

步骤3-2，意图识别模型进行前向计算：首先获取单词w_i的词嵌入e_i，即样本x′＝{e₁，e₂，...，e_n}；

使用门控循环单元GRU(Gate Recurrent Unit)网络编码输入原始样本x′，即将每个词嵌入e_i输入一个门控单元中，得到输出h_i，为每个词状态的隐层表示，即{h₁，h₂，..，h_n}＝GRU(e₁，e₂，...，e_n)，其中GRU()代表将一系列词嵌入输入门控循环单元网络中，即h_t＝z_t⊙h_t-1+(1-z_t)⊙g(e_t，h_t-1，θ)，z_t∈[0，1]为更新门，z_t＝σ(W_zx_t+U_zh_t-1+b_z)，W_z，U_z和b_z为可训练参数；函数g(e_t，h_t-1，θ)＝tanh(W_he_t+U_h(r_t·h_t-1)+b_h)，其中W_h，U_h和b_h为可训练参数；r_t∈[0，1]为重置门，r_t＝σ(W_re_t+U_rh_t-1+b_r)，其中W_r，U_r和b_r为可训练参数。取所有状态的隐层表示的均值作为样本的表示

将样本的特征空间做L2正则限制，限制样本模长为α，即

得到原始样本表示h_x和正负样本表示

步骤3-3，计算样本的预测概率分布与真实标签之间的交叉熵(Cross Entropy)，记为

计算样本和正负样本之间的三元组损失(TripletLoss)，记为TL(x，x⁺，x^-)＝max(d(x，x⁺)-d(x，x^-)+m，0)，其中d(x，y)＝||h_x-h_y||₂，为样本x到样本y的距离，m为超参数。最终模型的损失函数为L＝CE+λ·TL，其中λ为超参数。

步骤3-4，计算损失函数值对于每个模型参数的梯度，使用反向传播算法更新模型参数。

步骤3-5，使用验证集评估模型性能，这里评估模型的准确率。

步骤3-6，判断模型性能是否提升，若有提升则返回步骤3-2继续迭代训练，否则执行步骤3-7。

步骤3-7，结束训练模型。

步骤4，获取样本表示h_x，计算类别中心。类别i的类别中心表示为

其中，N_c为训练集中类别i的样本数目。

步骤5，计算样本到类别中心的最小马氏距离。首先计算训练集的协方差，

其中c代表类别标签。计算样本x到类别中心的最小马氏距离

如果M(x)大于选定阈值，则判断为新意图样本。

本实施例中，本发明在测试集上的实验结果如下表2所示：

表2

MODEL	AUROC(％)	AUPR(％)
			MAH	93.76	84.64
MAH+L2-norm	96.59	91.74
			MAH+L2-norm+Contrastive Loss	96.73	92.31

其中，MAH指使用马氏距离作为打分函数并基于分类模型得到的结果，MAH+L2-norm指对特征空间做了L2正则限制后的结果，MAH+L2-norm+Contrastive Loss指我们加上对比学习后的最终方案。其中，AUROC(Area Under Receiver Operating CharacteristicCurve)指接收者操作特征曲线下的面积，AUPR(Area Under Precision Recall Curve)指精确召回曲线下的面积。从实验结果可以看出，对特征空间做正则限制之后，马氏距离的效果有了较大的提升，在此之上对模型引入对比学习，效果有了进一步的提升。

本发明提供了一种基于马氏距离和对比学习的新意图数据识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于马氏距离和对比学习的新意图数据识别方法，其特征在于，包括以下步骤：、

步骤1，输入训练集中的所有样本和标注的标签；

步骤4，计算类别中心；

2.根据权利要求1所述的方法，其特征在于，步骤2包括：

步骤2-3，为样本x₁构造正样本

为样本x₂构造正样本

为样本x₁构造负样本

为样本x₂构造负样本

3.根据权利要求2所述的方法，其特征在于，步骤3包括：

步骤3-2，意图识别模型进行前向计算；

步骤3-5，使用验证集评估模型性能；

步骤3-7，结束训练模型。

4.根据权利要求3所述的方法，其特征在于，步骤3-1包括：原始训练集D用于分类任务的训练，x＝{w₁，w₂，...，w_n}为原始样本，包含了n个单词w₁，w₂，...，w_n，y为对应的意图标签；

其中m为已知意图数目，y_i表示第i个意图标签，

中当前正样本对应意图标签的位置为1，其余位置值为0；输入的原始样本按照4∶1的比例划分为训练集和验证集，训练集输入模型用于训练。

5.根据权利要求4所述的方法，其特征在于，步骤3-2包括：获取单词w_i的词嵌入e_i，即样本x′＝{e₁，e₂，...，e_n}；

使用门控循环单元GRU(Gate Recurrent Unit)网络编码输入原始样本x′，即将每个词嵌入输入一个门控单元中，得到每个词的输出，为每个词状态的隐层表示，即{h₁，h₂，..，h_n}＝GRU(e₁，e₂，...，e_n)，其中h_i表示第i个词e_i的输出，GRU()代表将一系列词嵌入输入门控循环单元网络中，即

h_t＝z_t⊙h_t-1+(1-z_t)⊙g(e_t，h_t-1，θ)，z_t∈[0，1]为更新门，z_t＝σ(W_zx_t+U_zh_t-1+b_z)，W_z，U_z和b_z为可训练参数；函数g(e_t，h_t-1，θ)＝tanh(W_he_t+U_h(r_t·h_t-1)+b_h)，其中W_h，U_h和b_h为可训练参数；r_t∈[0，1]为重置门，r_t＝σ(W_re_t+U_rh_t-1+b_r)，其中W_r，U_r和b_r为可训练参数；

取所有状态的隐层表示的均值作为样本的表示