CN115757714A

CN115757714A - 强化关联度计算的小样本用户多意图识别方法

Info

Publication number: CN115757714A
Application number: CN202211331155.4A
Authority: CN
Inventors: 罗森林; 赵智洋; 潘丽敏; 张睿智; 沈宇辉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-03-07

Abstract

本发明涉及一种强化关联度计算的小样本用户多意图识别方法，属于自然语言处理领域。本发明旨在为用户对话样本标定多个意图标签，首先，利用BERT提取用户对话样本及其对应标签的嵌入表示；其次，计算支持集中标签与样本的关联度以增强标签原型表示，利用标签原型和查询样本构建原型网络；然后，计算多个领域的通用阈值和小样本领域的特定阈值，并以其他领域样本与查询样本的关联度均值为系数计算原型网络阈值；最后，根据原型网络阈值筛选出查询样本对应的多个意图标签。本发明提出强化关联度计算方法，同时考虑嵌入表示的特征值差异和特征维度差异，进一步降低标签间的干扰，并改进原型网络阈值计算方法，有效提升多意图识别任务的准确率。

Description

强化关联度计算的小样本用户多意图识别方法

技术领域

本发明涉及强化关联度计算的小样本用户多意图识别方法，尤其涉及小样本多标签学习等技术领域，属于自然语言处理领域。

背景技术

意图识别(Intent Detection)作为人机交互应用的关键任务之一，旨在从用户对话中判断用户的真实意图；由于用户对话中蕴含着丰富的语义信息，很多时候用户表达的内容可能含有多种意图。但用户真实对话的收集和分类等工作的成本较高，导致标注样本数量较少，分类模型容易出现过拟合现象。同时，文本的语义结构较为复杂，一句对话中可能同时蕴含着多种意图。因此，将小样本多标签学习(Multi-label Few-shot Learning)的思想扩展到意图识别领域中，以少量的标注样本训练出用户多意图识别模型。并将意图类型表示为标签，利用多意图识别模型为用户对话标定多个相关标签，使人机交互模型能更好地理解用户意图。

小样本多标签学习的目的是模仿人类的认知学习能力，使分类模型能在只有少数被标记样本的情况下快速学习新的样本特征，为给定样本标记最相关的标签子集。按照是否依赖附加知识，可以将近几年小样本多标签学习的方法大致分为依赖附加知识的方法和基于原型网络的方法。

1.依赖附加知识的方法

依赖附加知识的方法借助预定义的信息如标签的层次结构或描述信息等对标签进行编码，辅助构建分类模型。但这类方法依赖于结构化的标签空间和标签描述信息，预定义信息时需要特定领域的专业知识，应用范围受限。

2.基于原型网络的方法

基于原型网络的方法将数据构造为元任务形式，通过支持集样本表示得到标签的原型表示，度量查询样本与各标签原型之间的距离或相似度为样本匹配相关的标签。但使用原型网络的小样本多标签分类方法存在两方面问题：(1)噪声干扰。样本的嵌入表示中含有对应多标签所引入的噪声信息，当仅利用支持集样本表示的均值作为标签原型表示时，将弱化标签原型表示之间的差异，导致多个标签原型混淆；当度量查询样本表示与标签原型表示之间的距离时，查询样本中含有的噪声信息将影响距离度量的准确性。(2)阈值存在偏差。现有的采用固定阈值的方法难以适应多样的用户对话领域，有可能造成阈值不适合小样本领域，而利用核回归计算阈值的方法没有充分利用先验知识，有可能造成阈值只满足少数样本的情况。

综上所述，针对现有依赖附加知识的方法应用范围受限和基于原型网络的方法存在噪声干扰且计算阈值存在偏差的问题，本发明提出一种改进原型网络的强化关联度计算的小样本用户多意图识别方法。

发明内容

本发明的目的是为了满足标注样本不充足时用户多意图识别的现实需求，改善依赖附加知识的方法应用范围受限的问题，克服利用原型网络训练小样本用户多意图识别模型时样本表示中含有由多个标签引入的噪声信息以及计算阈值时对先验知识利用不足的问题。

本发明的设计原理为：首先，利用预训练模型BERT提取用户对话样本集合及其对应标签的嵌入表示，将样本重构为小样本学习的元任务形式(N-wayK-shot)；其次，提出强化关联度计算方法计算小样本下的标签原型表示，引入特征级注意力计算标签原型半径，并构建原型网络；然后，利用强化关联度计算方法生成多领域下的通用阈值和小样本下的特定阈值，计算原型网络的阈值；最后，根据原型网络的阈值筛选出查询样本所对应的多个意图标签。

本发明的技术方案是通过如下步骤实现的：

步骤1，获取用户对话样本集合及其对应标签的嵌入表示，将用户对话样本集合重构为小样本学习下的用户多意图识别任务场景。

步骤2，计算小样本下标签的原型表示和原型半径，利用查询样本表示、标签原型表示和标签原型半径构建原型网络。

步骤3，以不同于小样本领域的其它领域下含有标注信息的用户对话样本作为先验知识计算通用阈值。

步骤4，以该小样本领域下的用户对话样本之间的关联度计算特定阈值，用特定阈值校准通用阈值以计算出原型网络的阈值。

步骤5，根据原型网络的阈值筛选出查询样本所对应的多个意图标签。

有益效果

相比于依赖附加知识的方法，本发明不依靠预先定义的信息作为附加知识，而是从特定领域下学习原型表示和度量查询样本与原型之间的距离，将多个领域和特定领域的样本结合求得针对特定领域下的阈值，扩大了应用范围，更符合对话样本领域多样的现实情况。

相比于基于原型网络的方法，本发明改进了原型生成和计算阈值的方法，提升了小样本下用户多意图识别的准确率。在原型生成方面，本发明提出强化关联度计算方法，减少样本表示中其它标签引入的噪声干扰，增大标签原型表示之间的差异性。在计算阈值方面充分利用强化关联度计算方法，加强对先验知识的利用程度，使通用阈值具有更强的自适应性，并根据小样本领域样本的特点生成特定阈值，用特定阈值校正通用阈值以计算出原型网络的阈值，提升阈值计算的准确率。

附图说明

图1为本发明强化关联度计算的小样本用户多意图识别方法的原理框架图。

图2为样本和标签的数据重构流程图。

图3为样本和标签的数据重构实例。

图4为利用特征级注意力计算权重系数示意图。

图5为原型网络示意图。

具体实施方式

为了更好地说明本发明的目的和优点，下面对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，获取用户对话样本集合及其对应标签的嵌入表示，将用户对话集合样本重构为小样本下用户多意图识别的元任务形式(N-way K-shot)，其中，每个元任务包含N个标签，每个标签对应K个样本，由N×K个对应样本构成支持集样本。

步骤1.1，使用预训练模型BERT提取各领域下用户对话样本的嵌入表示x及其对应标签的嵌入表示y。

步骤1.2，从某领域样本集合Θ对应的标签集合

中抽取N个标签构成标签子集L。

步骤1.3，从标签子集L中不放回抽取1个标签l。

步骤1.4，从样本集合Θ内筛选与标签l对应的样本子集Θ′，从标签集合

中抽取与样本子集Θ′中各样本对应的多个标签，分别按照样本子集Θ′和标签的对应关系构成多个样本-多标签对。

步骤1.5，从1.4中的样本-多标签对中不放回抽取1个添加至到候选集P中，计算P中非重复的标签数目n。

步骤1.6，若标签数目n小于K，则执行步骤1.5，否则执行步骤1.7。

步骤1.7，若标签子集L非空，则执行步骤1.3，否则执行步骤1.8。

步骤1.8，从候选集P中不放回抽取1个样本-多标签对，重新计算非重复标签数目n。

步骤1.9，若n小于K，则将该样本-多标签的样本放入支持集S中，将对应的多个标签放入支持集标签子集Y中，删除标签子集Y中的重复标签。

步骤1.10，执行步骤1.8，直至候选集P为空。其中，步骤1.2至步骤1.10的过程如图2所示，该过程的一个实例说明如图3所示。

步骤1.11，对支持集S中多个标签共享的样本进行复制，直至支持集S扩充为标准K-shot形式。

步骤1.12，从标签子集Y中随机抽取1个标签，从样本集合

中随机抽取1个与该标签相对应的样本作为查询样本，其中，集合

是支持集S的补集。

步骤2，计算支持集样本对应标签的原型表示和原型半径，利用查询样本表示、标签原型表示和标签原型半径构建原型网络。

步骤2.1，定义强化关联度计算函数f(u，v)求解嵌入表示u和v之间的关联度得分，以余弦距离作为欧氏距离的系数，同时考虑嵌入表示之间的特征值差异和特征维度差异，定义式见公式(1)。计算标签子集Y中的标签i对应的K个支持集样本的嵌入表示

和标签i的嵌入表示yi∈y(i∈[1，N])之间的关联度得分

计算公式见公式(2)。

步骤2.2，为支持集样本的嵌入表示

赋予相应的关联度权重

强化对与标签i相关性强的支持集样本的关注度，计算公式见公式(3)。

步骤2.3，对标签i对应的支持集样本的嵌入表示

进行加权求和，按比例混合标签i的嵌入表示y_i与支持集样本的嵌入表示

得到标签i的原型表示c_i，计算公式见公式(4)。

其中，以关联度得分的均值

表示支持集样本的嵌入表示的加权和在生成标签原型c_i时所占的权重，计算公式见公式(5)。

步骤2.4，引入特征级注意力机制计算标签i所对应的支持集样本之间的相似度，记为权重系数z_i。具体过程为：以标签i对应支持集样本的嵌入表示

作为输入，使用K×1的卷积核对支持集样本的嵌入表示进行3次卷积，步长分别为1×1、1×1和K×1，并在每次卷积计算后使用ReLu激活函数，得到权重系数z_i。具体计算过程如图4所示。

步骤2.5，以权重系数z_i突出标签i的原型表示c_i中更具有区分度的特征维度，计算查询样本的嵌入表示x₀与标签原型表示c_i之间的距离作为标签i的原型半径s_i，标签原型半径s_i的计算公式见公式(6)。

s_i＝-(z_i·(x₀-c_i)²)，i∈[1，N] (6)

步骤2.6，以查询样本表示x₀为原型网络的圆心，标签原型半径s_i作为查询样本表示x₀到标签原型表示c_i之间的距离，利用标签原型表示c_i确定标签原型的具体位置，构成原型网络。

步骤3.1，抽取R个不同于小样本领域的其它领域下的用户对话样本作为先验知识，计算样本r的嵌入表达

与样本r所属领域的各标签嵌入表达

之间的关联度得分

和关联度权重

以赋予不同领域的阈值自适应性，计算公式见公式(7)和公式(8)。

其中，

为当前样本r与标签l的关联度得分，M为该领域下的标签数目。

步骤3.2，计算样本r与各标签之间关联度权重的方差

以方差

衡量在样本r的领域下分辨样本r对应标签的难易程度，计算公式见公式(9)。

步骤3.3，由先验知识可以确定样本r对应的标签，将对应标签的关联度权重记为

根据对应标签中最小的关联度权重

和方差

计算通用阈值t_meta，计算公式见公式(10)。

步骤4，以小样本领域下用户对话样本之间的关联度计算特定阈值，用特定阈值校准通用阈值计算出原型网络的阈值。

步骤4.1，根据标签原型半径s_i的大小，由小及大为标签原型排序。

步骤4.2，按标签原型顺序依次筛选各标签i∈[1，N]在支持集S中对应的多个样本，以对应样本的嵌入表示

和查询样本的嵌入表示x₀作为强化关联度计算函数的输入，计算查询样本和该标签i对应的支持集样本之间的关联度得分

和关联度权重

强化对与查询样本相关性强的支持集样本的关注度以衡量在生成特定阈值t_est时标签原型半径s_i的权重，计算公式见公式(11)和公式(12)。

步骤4.3，根据标签原型半径s_i和关联度权重

计算特定阈值t_est，计算公式见公式(13)。

步骤4.4，计算查询样本与其它领域下的R个样本之间的关联度得分的均值作为评估通用阈值经验重要性的系数μ，计算公式见公式(14)。

步骤4.5，利用特定阈值t_est校正通用阈值t_meta，计算出原型网络的阈值t，计算公式见公式(15)。

t＝μ×t_meta+(1-μ)×t_est (15)

步骤5，根据原型网络的阈值t筛选出查询样本所对应的多个意图标签。

步骤5.1，根据原型网络的阈值t的大小将原型网络划分为内外两侧，其中，标签原型半径s_i小于阈值t的区域为内侧，标签原型半径s_i大于阈值t的区域为外侧。

步骤5.2，筛选出阈值t内侧的标签原型表示，得到查询样本对应的多个意图标签。原型网络的示意图如图5所示。

设计实验验证本发明的有效性。实验选用2个公开数据集，分别是TourSG和StanfordLU，实验数据集属性见表1。TourSG数据集中包含来自新加坡旅游信息的6个独立领域的25751条对话，分别是：行程(It)、住宿(Ac)、景点(At)、食物(Fo)、交通(Tr)和购物(Sh)。StanfordLU数据集是对斯坦福对话数据集的重新注释，包含来自3个领域的8038条对话，分别是：日程安排(Sc)、导航(Na)、天气(We)。

实验过程中，将TourSG数据集的每个训练领域构造为100个元任务，每个测试域构造为50个元任务，查询集大小为16。由于StanfordLU数据集中划分的领域较少，每个训练领域被构造为200个元任务，每个测试领域被构造为50个元任务，查询集大小为32。

表1.多标签用户意图识别实验数据属性

实验采用F1值评估实验结果。F1值是准确率(Precision)和召回率(Recall)的调和均值，计算方法如公式(16)、(17)、(18)所示。

其中，TP表示正样本被正确判定为正类的样本数量，FP表示负样本被错误判定为正类的样本数量，FN表示正样本被错误判定为负类的样本数量。

实验结果：强化关联度计算的小样本用户多意图识别方法，对TourSG和StanfordLU的样本进行了多标签用户对话意图识别，实验的具体结果见表2。

表2.本发明方法与对比方法在用户对话数据集下的F1值

实验结果表明，本发明的方法在两个领域上F1值均优于对比方法，相较于基于原型网络的方法提高了1.07％-8.62％的性能指标，说明强化关联度计算的方式能够有效提升原型网络的学习能力。由表1可知，We、Sc、Na中的多标签样本比例逐渐提高，分别为3.8％、21.3％和24.6％，在Sc、Na、We领域上进行测试，分类性能分别提高了3.91％、4.76％、8.62％，说明方法对于多标签的学习能力强，适合样本对应标签较多的场景。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。