CN115098681A

CN115098681A - 一种基于有监督对比学习的开放服务意图检测方法

Info

Publication number: CN115098681A
Application number: CN202210758042.6A
Authority: CN
Inventors: 曹斌; 陶晨伟; 范菁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-23

Abstract

本发明公开了一种基于有监督对比学习的开放服务意图检测方法，首先使用BERT进行语义编码得到初始词向量表示，然后利用标签信息通过线性分类层和有监督对比学习表示层同时学习，获得丰富且有区分度的句向量特征表示。表示学习完成后，该模型就变为下一步联合训练的特征提取器。为了获得更多的开放类事件文本帮助训练，使用数据增强方式Mix‑up生成新的开放类样本。最后将获取的样本和合成的样本同时输入到具有两个分支的联合训练模型中进行训练优化。判断意图事件文本属于哪个已知类，如果不属于任何已知意图事件类，就认为它是开放类意图事件。本发明构建的已知意图事件分类和开放类意图检测检测方法具有推理速度快、解释性强、准确率高的特点。

Description

一种基于有监督对比学习的开放服务意图检测方法

技术领域

本发明属于异常检测和自然语言处理交叉领域，尤其涉及一种基于BERT和有监督对比学习的开放服务意图检测方法。

背景技术

在开放意图文本检测领域，通常把意图标签分为两大类，一类是已知的意图标签，这通常有若干个，也被称为IND，而把不属于已知的意图统称为开放类，这也被称为OOD，开放意图文本检测任务包含两个相关联的任务，既要对属于已知类的意图文本进行分类又要检测出不属于已知类的开放类文本。

传统的意图分类识别遵循封闭世界的设置，其中训练和测试的数据属于相同的意图标签集合。然而，由于真实场景中的开放性和动态环境因素，通常很难提前收集所有的类的标签。因此，来自开放类的事件文本可能被错误地归类到某个已知意图标签中。以多轮对话系统为例，由于新的意图可能会随着业务的变化而出现，因此意图分类器会将开放类的意图文本预测为错误的已知类的意图，这会导致系统做出错误的判断，采取错误的行动导致不可估量的损失。

因此，开发一个能够正确分类已知类的意图标签，同时可靠地拒绝开放类的意图文本的模型，对于建立基于意图识别的应用具有重要意义。显然，在这个问题设置中涉及到两个部分，将其命名为：(1)域内(ID)分类，指的是用预定义的或已知的意图标签对输入的事件文本进行分类；(2)域外(OOD)检测，指的是判断输入的事件文本是否属于任何预定义的标签，即IND标签。现有的解决开放意图检测问题的方法可以归为两类，即不使用开放类样本的无监督方法和使用开放类样本的有监督方法。有监督的开放意图检测方法通常需要在训练集中同时使用IND和OOD样本。作为对比，无监督的方法不需要额外的OOD样本。在无监督的方法中，一个关键的挑战是如何学习一个有辨别性的特征表征，以达到能够充分分离每个类别的最佳效果。但是如果没有足够的已知类别的数据，学到的圆形或球形决策边界可能会变得比实际的要小，所以更多的IND样本会被归类到OOD。而有监督的方法则一般分为两步，首先判断一个事件文本是IND还是OOD，然后再进行分类，但是这样会造成错误的传递。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于有监督对比学习的开放服务意图检测方法。

本发明基于利用已知OOD样本的想法，提出了一种基于有监督对比学习的已知类意图分类和开放类意图检测的联合模型。使用联合学习的原因是IND意图分类和OOD意图检测这两个目标是高度相关的，联合训练可以利用从OOD检测中学到的知识来帮助提高IND分类的性能，反之亦然。具体来说，本发明为每个输入事件文本联合学习置信度估计和IND分类器。这里，置信度估计被用来区分IND和OOD事件文本。

本发明的目的是通过以下技术方案来实现的：一种基于有监督对比学习的开放服务意图检测方法，包括以下步骤：

S1：首先对原始数据集中的意图事件文本分类，将数据集分为域内In-distribution(IND)样本即已知类样本和域外Out-of-distribution(OOD)样本即开放类样本。

S2：对数据集进行数据预处理，删除文本中多余的空格和标点符号。

S3：将步骤S2预处理得到的IND样本进行BERT编码，得到整个文本的句向量表示；

S4：基于步骤S3得到的句向量表示，通过线性分类层，利用交叉熵损失函数Softmax-Loss来捕获同一类的特征，得到交叉熵损失

S5：基于步骤S3得到的句向量表示，使用有监督对比学习，扩大不同类的特征差异和缩小同一类的特征差异，得到监督对比学习损失

S6：基于步骤S4和步骤S5分别得到的交叉熵损失和监督对比学习损失，相加得到微调阶段的整体损失，进行训练优化，得到具有区分度的特征提取器模型。

S7：基于步骤S2得到的预处理后的IND样本，通过Mix-up操作构造出人工合成的OOD样本。

S8：嵌入表示，把已知IND样本、已知OOD样本和步骤S7中人工合成的OOD样本这三部分数据输入步骤S6得到的特征提取器，得到每个样本的句嵌入向量表示。

S9:多任务联合优化，包括两个部分，第一部分是多分类任务，从步骤S8输入的样本中筛选出IND样本，进行SoftMax交叉熵损失进行优化，得到任务损失，其中IND样本包含多个已知意图事件类型。第二部分是置信度学习任务，得到一个样本归属于开放类的置信度损失。将两部分损失相加训练得到开放意图检测模型。

进一步地，步骤S1所述的意图事件文本分类，具体是指：原有的意图事件文本都属于已知类意图，使用随机删除的方式，删除一定比例(25％、50％或75％)的已知类标签，并把原先属于这些类的事件文本重新标记为开放类。这样，同时得到还剩下的已知类意图事件文本和重新标记过的开放类意图事件文本。

进一步地，步骤S3所述的将步骤S2预处理得到的IND样本进行BERT编码，得到整个文本的句向量表示，具体是指：BERT模型能够对单词的语义信息进行建模，并整合成这句话的语义信息，之后可应用于各种下游任务。给定一个文本s，对于文本中的每一个单词T_i(i＝1，2，......，N)输入到BERT模型中：

x_j＝mean-pooling(BERT(CLS，T₁，T₂...，T_N))

其中CLS表示下游任务的分类标签，N表示文本的长度，mean-pooling表示对BERT得到的每个词的语义进行均值处理，最后得到x_j表示整个文本的句向量表示。

进一步地，步骤S4所述的利用交叉熵损失函数Softmax-Loss来捕获同一类的特征，具体是指使用交叉熵损失函数优化BERT的参数。为了学习每个事件类型的标签信息，使用已知的标签信息作为先验知识来微调模型，并使用一个损失为Softmax-loss的线性分类器，得到交叉熵损失

进一步地，步骤S5所述的使用有监督对比学习，利用对比损失来扩大不同类的特征差异和缩小同一类的特征差异，具体是指：有监督对比学习利用标签信息使得同属于一个意图事件类型的样本在高维特征上更相近的同时使不同事件类型的样本的特征表示更具有区分度。对于一个有C个类的多分类任务来说，一个批次内包含M个样本，表示为

其中d_i表示输入的事件文本，y_i表示该事件文本所属的事件类型，通过监督对比学习可以得到该任务的监督对比损失

其中A(i)＝{1，...，M}\{i}表示所有的锚点样本的集合，P(i)＝{p∈A(i)：y_i＝y_p}是事件标签为i的样本集合，τ是温度超参数，它允许模型去更好地学习困难样本，z_i表示BERT模块得到的特征表示，z_a表示不同锚点的特征表示，而z_p表示事件标签为i的样本的特征表示，e为自然常数。

进一步地，步骤S6所述的微调阶段的整体损失

通过交叉熵损失与监督对比学习损失相加得到：

进一步地，步骤S7所述的通过Mix-up操作构造出人工合成的OOD样本，具体是指：在模型中，除了IND样本，OOD样本也被用于帮助训练。考虑到在某些情况下OOD样本的数量较少，本发明通过使用Mix-up的类似想法来合成OOD样本，进行数据增强。最后，训练的OOD样本实际上有两个来源：第一部分是已知OOD样本，第二部分是由Mix-up生成的合成OOD样本。Mix-up是一种经典的数据增强方法，本发明再进一步，用它来合成新的OOD样本。具体来说，合成的OOD样本x^ood是通过计算产生的：

x^ood＝α*x_i+(1-α)*x_j

其中x_i和x_j是来自不同IND事件类型的两个事件文本的向量表示，α是一个从0到1的均匀分布。

进一步地，步骤S9所述的多任务联合优化，具体是指：本发明的任务是对IND标签进行正确分类，同时可靠地拒绝OOD事件文本。因为首先区分是否为IND样本，然后再对这些事件文本进行分类的方法会造成错误传递。因而本发明通过共享表征和相互补充，联合学习可以在没有错误传递的情况下提高整体性能。本发明在模型的末尾增加了两个并行的部分：一个是预测IND类标签的多分类任务部分，一个是估计网络预测结果可信度的置信度学习任务部分。这两个部分接收相同的输入，即来自BERT的输出，然后这两个部分经过不同的MLP(多层感知机)。置信度学习任务的最后一层使用一个sigmoid激活函数在0-1之间调整置信度c_i。

对于多分类任务，挑选出所有IND样本，然后使用交叉熵CE(...)来计算任务损失

其中L_i表示样本的真实标签，p_i表示概率向量，n为IND样本的数量。

对于置信度学习任务，低置信度表明，即使预测的类别概率很高，也不能保证多分类任务部分的预测性能。因此，本发明利用置信度进行OOD检测，设计了以下策略：

其中c_i是由sigmoid激活函数产生的置信度；对于OOD样本，用1减去c_i，得到目标置信度c′_i，否则保留c_i作为c′_i；然后使用c′_i的负似然对数

作为置信度损失训练完模型后，

将归于0；它使IND样本的c_i接近于1(c_i→1，L_i≠0)，OOD样本的c_i接近于0(c_i→0，L_i＝0)。在实际应用中，预先设定一个置信度阈值θ，如果样本的置信度c_i小于置信度阈值θ，则将其认为是OOD样本，反之则为IND样本。

本发明的有益效果是：

本发明提供了一种新的联合模型实现了开放意图文本检测，该模型首先学习文本的句向量表示，这些句向量表示使用深度学习模型BERT通过交叉熵损失和有监督对比学习损失优化，使得特征表示比原有的方式更适用于分类任务。同时本发明提出了新的简单且有效的数据增强方法：通过对两条已知类意图的文本进行Mix-up操作，从而人工合成新的开放类样本。在此基础上，该模型通过联合训练，两个不同的分支：已知类分类分支和开放类置信度检测分支同时优化，同时完成对两个任务的训练。本发明构建的已知意图事件分类和开放类意图检测检测方法具有推理速度快、解释性强、准确率高的特点。

附图说明

图1是本发明提出方法的流程图；

图2是本发明设计的基于有监督对比学习的开放服务意图检测模型的架构图。

具体实施方式

本发明针对开放世界的意图文本进行分类识别，对于属于已知类的意图文本，分辨出其属于具体的哪一个类别，而对于其他意图文本则标注其属于开放类，通过联合学习，进而形成开放意图文本分类模型。本发明可以看作一种面向自然语言描述文本的文本分类技术。基于本发明开放意图文本分类模型可以帮助用户发现、监控意图文本，优化现有服务流程，使其更好地反映企业现实业务。

本发明公开一种基于有监督对比学习的开放服务意图检测方法。基于BERT、Softmax Loss、Supervised Contrastive Learning、Mix-up以及multi-task learning方法，智能地从所有意图文本中分类出已知类的事件文本和属于开放类的事件文本，得到的分类结果可应用意图分类领域的多个下游任务。本发明能够有效地对事件文本进行分类，解决了意图文本分类中不能区分是否有开放类意图的痛点及难点。本发明首先使用BERT，通过交叉熵损失和有监督对比学习损失同时优化句向量表示，获取出得到已知类事件文本的具有区分度的表示，为接下来的任务提供帮助，同时通过Mix-up操作，随机选择两个不同已知类的事件文本合成新的开放类事件文本，为有监督学习提供更多的样本，从而提高性能。之后经过一个联合训练框架，其包括两个不同的任务分支，一个是已知类分类分支，它会预测出一个已知类意图标签，第二个是置信度估计分支，它会预测出一个是否属于开放类意图的置信度，如果置信度超过人工设定的阈值，那么就将其认为是一个开放类意图文本。最终，可以同时获得已知类的意图标签和是否属于已知类的置信度，从而达到实现开放意图文本分类任务的目标。在意图文本分类中，本发明能够在事件文本中实现具有区分度的句向量表示，最后通过两个不同的分支同时优化得到分类结果。

下面根据附图和优选实施例详细描述本发明，本发明的目标和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅以解释本发明，并不用于限定本发明。

实施例1

本发明公开一种基于有监督对比学习的开放服务意图检测方法，意图文本分类在现实世界中存在许多方法，但是都局限于都是已知类意图的情况，本发明基于BERT、Softmax Loss、Supervised Contrastive Learning、Mix-up以及multi-task learning方法，智能地从所有意图文本中分类出已知类的事件文本和属于开放类的事件文本，得到的分类结果可应用意图分类领域的多个下游任务。本发明使用BERT，通过交叉熵损失和有监督对比学习损失同时优化句向量表示，获取出得到已知类事件文本的具有区分度的表示，为接下来的任务提供帮助。如图1所示，本实施例包括以下步骤：

为了体现本发明对各种意图识别任务具有通用性，本实施例以电信客服服务机器人中的意图分类文本数据集作为本发明实施例的数据集。未做处理的原始数据集如表1所示，每条事件文本都对应一个已知类意图标签。

表1

内容	意图标签
		我想查询一下话费	话费查询
我想办理宽带	宽带办理
		推荐一下宽带套餐	宽带办理
我的信号很差请问是什么原因	信号查询
		我的套餐明明是58的，为什么扣了108块	话费查询

为了体现本发明对开放意图检测的有效性，对于此数据集，随机删除一部分的已知类意图标签，并把属于这些已知类意图的事件文本重新标记，打上“开放类”意图标签，如表2所示。

表2

内容	意图标签
		我想查询一下话费	开放类
我想办理宽带	宽带办理
		推荐一下宽带套餐	宽带办理
我的信号很差请问是什么原因	开放类
		我的套餐明明是58的，为什么扣了108块	开放类

其中，把“话费查询”、“信号查询”意图标签删除，并且给属于这些意图的样本重新打上“开放类”标签。这样一来，数据集中既有已知类意图样本也有重新打标的开放类样本。

如图1所示，本发明提出的模型包含三大模块：表示学习模块、样本预准备模块和联合训练模块。表示学习模块负责从不同角度完全挖掘丰富的具有区分度的句向量表示。然后在具有区分度的句向量表示的基础上，在样本预准备模块人工合成开放类样本，最终将三部分样本一起送入联合训练模块，最终得到意图分类结果。

构建句向量模型，首先将事件文本输入到bert-base模型中，把BERT产生的每个字符

的单词表示作为词嵌入向量。例如上表2的第一个事件文本，转换完成后的词嵌入为[“我”，“想”，“查”，“询”，“一”，“下”，“话”，“费”]。使用bert-base模型时，从最后一层隐藏层中得到字词嵌入表示，然后对于得到的整个句子的字词向量表示做平均池化得到池化向量x_j∈R^H作为这个事件文本d_i的高维空间向量表示：

x_j＝mean-pooling([CLS，T₁，...，T_N])

最后可以得到“我想查询一下话费”这句话的池化向量的结果为[0.21，-0.44，0.30，0.65，-0.81，0.32，0.56，0.12]。将“我想查询一下话费”这句话输入到模型中，得到交叉熵损失

为{0.62}，有监督对比损失

为{0.51}。

具体来说，使用交叉熵损失函数优化BERT的参数，为了学习每个事件类型的标签信息，使用已知的标签信息作为先验知识来微调模型，并使用一个损失为Softmax-loss的线性分类器，得到交叉熵损失

有监督对比学习利用标签信息使得同属于一个意图事件类型的样本在高维特征上更相近的同时使不同事件类型的样本的特征表示更具有区分度。对于一个有C个类的多分类任务来说，一个批次内包含M个样本，表示为

其中A(i)＝{1，...，M}\{i}表示所有的锚点样本的集合，P(i)＝{p∈A(i)：y_i＝y_p}是事件标签为i的样本集合，τ是温度超参数，它允许模型去更好地学习困难样本，z_i表示BERT模块得到的特征表示，z_a表示不同锚点的特征表示，而z_p表示事件标签为i的样本的特征表示。

将两部分的损失相加得到该样本的完整损失

为{1.13}，重复上述步骤，计算每一个样本的完整损失，最终优化微调模型。在后续步骤中利用此模型来获得样本的高维句向量表示。

本发明使用一种数据增强方法Mix-up来生成更多的OOD样本。具体来说，一个新的合成OOD样本x^ood可以这样被生成：

x^ood＝α*x_i+(1-α)*x_j

例如，对于两句话的句向量表示为[0.61，-0.23，0.93，0.43，0.32]，[-0.22，1.03，0.56.0.76，0.02]，并且α是0.2，那么人工合成的OOD样本的句向量表示为[-0.05，0.78，0.63，0.69，0.08]，这句话也被看作是一条开放类样本，将所有生成的开放类样本一起输入到模型中。最终输入到联合训练模型的样本包括三部分，第一部分是获得的已知类样本，第二部分是重新标记的开放类样本，第三类是上述人工合成的开放类样本。

为叙述方便，意图分类数据仍然使用表2，实际中，意图文本数据和构建模型数据不相同。对于“我想查询一下话费”这句话在表2中是属于开放类的样本，那么就用1减去置信度评估分支的输出0.76，得到输出概率为0.24。如果另外一条样本“推荐一下宽带套餐”的输出是0.87且其属于“宽带办理”业务，那么直接使用0.87作为最后的输出概率。循环遍历所有的样本进行优化，最后得到训练完成的模型用于测试。

首先预先设定置信度分支的阈值为θ＝0.85，输入一条新的事件文本[查询哪月话费]，分类分支的分类预测为[话费查询]，而置信度分支的预测结果为[0.93]，那么则认为[话费查询]这个预测是可靠的，本发明认定这条样本的标签就是[话费查询]。同样的，如果一个置信度评估分支的预测结果为[0.55]，0.55小于设定的阈值0.85，则认为这条事件文本不属于已知类，而是[开放类]意图。循环遍历所有的测试样本，就可以得到每一条样本的最终结果。

至此，开放意图检测模型已经训练完成，就可以实现输入一条事件文本，输出这条文本是否属于开放类，如果不属于开放类，则输出属于具体的哪个已知类。

实施例2

将本发明所述的方法和几种现有方法的处理结果进行对比，结果如表3所示，表3中，DOC、MSP、OpenMax、DeepUnk、ADB分别是不同的基线方法，JOSC是本发明提供的方法；25％、50％、75％分别对应于本发明步骤S1中，删除25％、50％、75％比例的域内样本标签；本发明同时适用于中英文场景，BANKING、StackOverflow、WOS分别代表三个不同的英文数据集。

表3

表3中，Accuarcy、F1为评价指标，分别表示准确率和F1值，可以看到，本发明方法的Accuarcy和F1两项指标均普遍高于现有方法。

对于本领域的技术人员来说，可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于有监督对比学习的开放服务意图检测方法，其特征在于，包括以下步骤：

S1：对原始数据集中的意图事件文本分类，将数据集分为域内样本IND和域外样本OOD；

S2：对数据集进行数据预处理，删除文本中多余的空格和标点符号；

S6：基于步骤S4和步骤S5分别得到的交叉熵损失和监督对比学习损失，相加得到微调阶段的整体损失，进行训练优化，得到具有区分度的特征提取器模型；

S7：基于步骤S2得到的预处理后的IND样本，通过Mix-up操作构造出人工合成的OOD样本；

S8：嵌入表示，把已知IND样本、已知OOD样本和步骤S7中人工合成的OOD样本这三部分数据输入步骤S6得到的特征提取器，得到每个样本的句嵌入向量表示；

S9:多任务联合优化，包括两个部分，第一部分是多分类任务，从步骤S8输入的样本中筛选出IND样本，利用SoftMax交叉熵损失进行优化，得到任务损失；第二部分是置信度学习任务，得到一个样本归属于新事件的置信度损失；将两部分损失相加训练得到开放意图检测模型。

2.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S1所述的意图事件文本分类，具体为：原始数据集中的意图事件文本都属于域内样本，使用随机删除的方式，删除一定比例的域内样本标签，并把对应的意图事件文本重新标记为域外样本；得到剩下的域内样本和重新标记过的域外样本。

3.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S3具体为：给定一个文本s，对于文本中的每一个单词T_i输入到BERT模型中：

x_j＝mean-pooling(BERT(CLS,T₁,T₂…,T_N))

4.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S4具体为：使用交叉熵损失函数优化BERT的参数，为了学习每个事件类型的标签信息，使用已知的标签信息作为先验知识来微调模型，并使用一个损失为Softmax-loss的线性分类器，得到交叉熵损失

5.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S5具体为：对于一个有C个类的多分类任务来说，一个批次内包含M个样本，表示为

其中d_i表示输入的事件文本，y_i表示该事件文本所属的事件类型，通过监督对比学习得到该任务的监督对比损失

其中A(i)＝{1,…,M}\{i}表示所有的锚点样本的集合，P(i)＝{p∈A(i):y_i＝y_p}是事件标签为i的样本集合，τ是温度超参数，z_i表示BERT模块得到的特征表示，z_a表示不同锚点的特征表示，z_p表示事件标签为i的样本的特征表示。

6.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S7中，通过Mix-up操作构造出人工合成的OOD样本的方法为：合成的OOD样本x^ood是通过对两个不同类别的已知类样本加权求和计算产生的：

x^ood＝α*x_i+(1-α)*x_j

其中x_i和x_j是来自不同IND事件类型的两个事件文本的句向量表示，α是一个从0到1的均匀分布。

7.根据权利要求1所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S9中所述的这两个部分接收相同的输入，即来自BERT的输出；然后两个部分经过不同的多层感知机MLP；置信度学习任务的最后一层使用一个sigmoid激活函数在0-1之间调整置信度c_i。

8.根据权利要求7所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S9中的多分类任务具体为：挑选出所有IND样本，然后使用交叉熵CE(…)来计算任务损失

9.根据权利要求7所述的基于有监督对比学习的开放服务意图检测方法，其特征在于，步骤S9中的置信度学习任务具体为：利用置信度进行OOD检测：

作为置信度损失训练完模型后，

将归于0，它使IND样本的c_i接近于1，OOD样本的c_i接近于0；在实际应用中，预先设定一个置信度阈值θ，如果样本的置信度c_i小于置信度阈值θ，则将其认为是OOD样本，反之则为IND样本。