CN115757714A - 强化关联度计算的小样本用户多意图识别方法 - Google Patents
强化关联度计算的小样本用户多意图识别方法 Download PDFInfo
- Publication number
- CN115757714A CN115757714A CN202211331155.4A CN202211331155A CN115757714A CN 115757714 A CN115757714 A CN 115757714A CN 202211331155 A CN202211331155 A CN 202211331155A CN 115757714 A CN115757714 A CN 115757714A
- Authority
- CN
- China
- Prior art keywords
- sample
- label
- prototype
- calculating
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 title claims abstract description 35
- 238000005728 strengthening Methods 0.000 title claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000013518 transcription Methods 0.000 claims 1
- 230000035897 transcription Effects 0.000 claims 1
- 230000014509 gene expression Effects 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种强化关联度计算的小样本用户多意图识别方法,属于自然语言处理领域。本发明旨在为用户对话样本标定多个意图标签,首先,利用BERT提取用户对话样本及其对应标签的嵌入表示;其次,计算支持集中标签与样本的关联度以增强标签原型表示,利用标签原型和查询样本构建原型网络;然后,计算多个领域的通用阈值和小样本领域的特定阈值,并以其他领域样本与查询样本的关联度均值为系数计算原型网络阈值;最后,根据原型网络阈值筛选出查询样本对应的多个意图标签。本发明提出强化关联度计算方法,同时考虑嵌入表示的特征值差异和特征维度差异,进一步降低标签间的干扰,并改进原型网络阈值计算方法,有效提升多意图识别任务的准确率。
Description
技术领域
本发明涉及强化关联度计算的小样本用户多意图识别方法,尤其涉及小样本多标签学习等技术领域,属于自然语言处理领域。
背景技术
意图识别(Intent Detection)作为人机交互应用的关键任务之一,旨在从用户对话中判断用户的真实意图;由于用户对话中蕴含着丰富的语义信息,很多时候用户表达的内容可能含有多种意图。但用户真实对话的收集和分类等工作的成本较高,导致标注样本数量较少,分类模型容易出现过拟合现象。同时,文本的语义结构较为复杂,一句对话中可能同时蕴含着多种意图。因此,将小样本多标签学习(Multi-label Few-shot Learning)的思想扩展到意图识别领域中,以少量的标注样本训练出用户多意图识别模型。并将意图类型表示为标签,利用多意图识别模型为用户对话标定多个相关标签,使人机交互模型能更好地理解用户意图。
小样本多标签学习的目的是模仿人类的认知学习能力,使分类模型能在只有少数被标记样本的情况下快速学习新的样本特征,为给定样本标记最相关的标签子集。按照是否依赖附加知识,可以将近几年小样本多标签学习的方法大致分为依赖附加知识的方法和基于原型网络的方法。
1.依赖附加知识的方法
依赖附加知识的方法借助预定义的信息如标签的层次结构或描述信息等对标签进行编码,辅助构建分类模型。但这类方法依赖于结构化的标签空间和标签描述信息,预定义信息时需要特定领域的专业知识,应用范围受限。
2.基于原型网络的方法
基于原型网络的方法将数据构造为元任务形式,通过支持集样本表示得到标签的原型表示,度量查询样本与各标签原型之间的距离或相似度为样本匹配相关的标签。但使用原型网络的小样本多标签分类方法存在两方面问题:(1)噪声干扰。样本的嵌入表示中含有对应多标签所引入的噪声信息,当仅利用支持集样本表示的均值作为标签原型表示时,将弱化标签原型表示之间的差异,导致多个标签原型混淆;当度量查询样本表示与标签原型表示之间的距离时,查询样本中含有的噪声信息将影响距离度量的准确性。(2)阈值存在偏差。现有的采用固定阈值的方法难以适应多样的用户对话领域,有可能造成阈值不适合小样本领域,而利用核回归计算阈值的方法没有充分利用先验知识,有可能造成阈值只满足少数样本的情况。
综上所述,针对现有依赖附加知识的方法应用范围受限和基于原型网络的方法存在噪声干扰且计算阈值存在偏差的问题,本发明提出一种改进原型网络的强化关联度计算的小样本用户多意图识别方法。
发明内容
本发明的目的是为了满足标注样本不充足时用户多意图识别的现实需求,改善依赖附加知识的方法应用范围受限的问题,克服利用原型网络训练小样本用户多意图识别模型时样本表示中含有由多个标签引入的噪声信息以及计算阈值时对先验知识利用不足的问题。
本发明的设计原理为:首先,利用预训练模型BERT提取用户对话样本集合及其对应标签的嵌入表示,将样本重构为小样本学习的元任务形式(N-wayK-shot);其次,提出强化关联度计算方法计算小样本下的标签原型表示,引入特征级注意力计算标签原型半径,并构建原型网络;然后,利用强化关联度计算方法生成多领域下的通用阈值和小样本下的特定阈值,计算原型网络的阈值;最后,根据原型网络的阈值筛选出查询样本所对应的多个意图标签。
本发明的技术方案是通过如下步骤实现的:
步骤1,获取用户对话样本集合及其对应标签的嵌入表示,将用户对话样本集合重构为小样本学习下的用户多意图识别任务场景。
步骤2,计算小样本下标签的原型表示和原型半径,利用查询样本表示、标签原型表示和标签原型半径构建原型网络。
步骤3,以不同于小样本领域的其它领域下含有标注信息的用户对话样本作为先验知识计算通用阈值。
步骤4,以该小样本领域下的用户对话样本之间的关联度计算特定阈值,用特定阈值校准通用阈值以计算出原型网络的阈值。
步骤5,根据原型网络的阈值筛选出查询样本所对应的多个意图标签。
有益效果
相比于依赖附加知识的方法,本发明不依靠预先定义的信息作为附加知识,而是从特定领域下学习原型表示和度量查询样本与原型之间的距离,将多个领域和特定领域的样本结合求得针对特定领域下的阈值,扩大了应用范围,更符合对话样本领域多样的现实情况。
相比于基于原型网络的方法,本发明改进了原型生成和计算阈值的方法,提升了小样本下用户多意图识别的准确率。在原型生成方面,本发明提出强化关联度计算方法,减少样本表示中其它标签引入的噪声干扰,增大标签原型表示之间的差异性。在计算阈值方面充分利用强化关联度计算方法,加强对先验知识的利用程度,使通用阈值具有更强的自适应性,并根据小样本领域样本的特点生成特定阈值,用特定阈值校正通用阈值以计算出原型网络的阈值,提升阈值计算的准确率。
附图说明
图1为本发明强化关联度计算的小样本用户多意图识别方法的原理框架图。
图2为样本和标签的数据重构流程图。
图3为样本和标签的数据重构实例。
图4为利用特征级注意力计算权重系数示意图。
图5为原型网络示意图。
具体实施方式
为了更好地说明本发明的目的和优点,下面对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,获取用户对话样本集合及其对应标签的嵌入表示,将用户对话集合样本重构为小样本下用户多意图识别的元任务形式(N-way K-shot),其中,每个元任务包含N个标签,每个标签对应K个样本,由N×K个对应样本构成支持集样本。
步骤1.1,使用预训练模型BERT提取各领域下用户对话样本的嵌入表示x及其对应标签的嵌入表示y。
步骤1.3,从标签子集L中不放回抽取1个标签l。
步骤1.5,从1.4中的样本-多标签对中不放回抽取1个添加至到候选集P中,计算P中非重复的标签数目n。
步骤1.6,若标签数目n小于K,则执行步骤1.5,否则执行步骤1.7。
步骤1.7,若标签子集L非空,则执行步骤1.3,否则执行步骤1.8。
步骤1.8,从候选集P中不放回抽取1个样本-多标签对,重新计算非重复标签数目n。
步骤1.9,若n小于K,则将该样本-多标签的样本放入支持集S中,将对应的多个标签放入支持集标签子集Y中,删除标签子集Y中的重复标签。
步骤1.10,执行步骤1.8,直至候选集P为空。其中,步骤1.2至步骤1.10的过程如图2所示,该过程的一个实例说明如图3所示。
步骤1.11,对支持集S中多个标签共享的样本进行复制,直至支持集S扩充为标准K-shot形式。
步骤2,计算支持集样本对应标签的原型表示和原型半径,利用查询样本表示、标签原型表示和标签原型半径构建原型网络。
步骤2.1,定义强化关联度计算函数f(u,v)求解嵌入表示u和v之间的关联度得分,以余弦距离作为欧氏距离的系数,同时考虑嵌入表示之间的特征值差异和特征维度差异,定义式见公式(1)。计算标签子集Y中的标签i对应的K个支持集样本的嵌入表示和标签i的嵌入表示yi∈y(i∈[1,N])之间的关联度得分计算公式见公式(2)。
步骤2.4,引入特征级注意力机制计算标签i所对应的支持集样本之间的相似度,记为权重系数zi。具体过程为:以标签i对应支持集样本的嵌入表示作为输入,使用K×1的卷积核对支持集样本的嵌入表示进行3次卷积,步长分别为1×1、1×1和K×1,并在每次卷积计算后使用ReLu激活函数,得到权重系数zi。具体计算过程如图4所示。
步骤2.5,以权重系数zi突出标签i的原型表示ci中更具有区分度的特征维度,计算查询样本的嵌入表示x0与标签原型表示ci之间的距离作为标签i的原型半径si,标签原型半径si的计算公式见公式(6)。
si=-(zi·(x0-ci)2),i∈[1,N] (6)
步骤2.6,以查询样本表示x0为原型网络的圆心,标签原型半径si作为查询样本表示x0到标签原型表示ci之间的距离,利用标签原型表示ci确定标签原型的具体位置,构成原型网络。
步骤3,以不同于小样本领域的其它领域下含有标注信息的用户对话样本作为先验知识计算通用阈值。
步骤3.1,抽取R个不同于小样本领域的其它领域下的用户对话样本作为先验知识,计算样本r的嵌入表达与样本r所属领域的各标签嵌入表达 之间的关联度得分和关联度权重以赋予不同领域的阈值自适应性,计算公式见公式(7)和公式(8)。
步骤4,以小样本领域下用户对话样本之间的关联度计算特定阈值,用特定阈值校准通用阈值计算出原型网络的阈值。
步骤4.1,根据标签原型半径si的大小,由小及大为标签原型排序。
步骤4.2,按标签原型顺序依次筛选各标签i∈[1,N]在支持集S中对应的多个样本,以对应样本的嵌入表示和查询样本的嵌入表示x0作为强化关联度计算函数的输入,计算查询样本和该标签i对应的支持集样本之间的关联度得分和关联度权重强化对与查询样本相关性强的支持集样本的关注度以衡量在生成特定阈值test时标签原型半径si的权重,计算公式见公式(11)和公式(12)。
步骤4.4,计算查询样本与其它领域下的R个样本之间的关联度得分的均值作为评估通用阈值经验重要性的系数μ,计算公式见公式(14)。
步骤4.5,利用特定阈值test校正通用阈值tmeta,计算出原型网络的阈值t,计算公式见公式(15)。
t=μ×tmeta+(1-μ)×test (15)
步骤5,根据原型网络的阈值t筛选出查询样本所对应的多个意图标签。
步骤5.1,根据原型网络的阈值t的大小将原型网络划分为内外两侧,其中,标签原型半径si小于阈值t的区域为内侧,标签原型半径si大于阈值t的区域为外侧。
步骤5.2,筛选出阈值t内侧的标签原型表示,得到查询样本对应的多个意图标签。原型网络的示意图如图5所示。
设计实验验证本发明的有效性。实验选用2个公开数据集,分别是TourSG和StanfordLU,实验数据集属性见表1。TourSG数据集中包含来自新加坡旅游信息的6个独立领域的25751条对话,分别是:行程(It)、住宿(Ac)、景点(At)、食物(Fo)、交通(Tr)和购物(Sh)。StanfordLU数据集是对斯坦福对话数据集的重新注释,包含来自3个领域的8038条对话,分别是:日程安排(Sc)、导航(Na)、天气(We)。
实验过程中,将TourSG数据集的每个训练领域构造为100个元任务,每个测试域构造为50个元任务,查询集大小为16。由于StanfordLU数据集中划分的领域较少,每个训练领域被构造为200个元任务,每个测试领域被构造为50个元任务,查询集大小为32。
表1.多标签用户意图识别实验数据属性
实验采用F1值评估实验结果。F1值是准确率(Precision)和召回率(Recall)的调和均值,计算方法如公式(16)、(17)、(18)所示。
其中,TP表示正样本被正确判定为正类的样本数量,FP表示负样本被错误判定为正类的样本数量,FN表示正样本被错误判定为负类的样本数量。
实验结果:强化关联度计算的小样本用户多意图识别方法,对TourSG和StanfordLU的样本进行了多标签用户对话意图识别,实验的具体结果见表2。
表2.本发明方法与对比方法在用户对话数据集下的F1值
实验结果表明,本发明的方法在两个领域上F1值均优于对比方法,相较于基于原型网络的方法提高了1.07%-8.62%的性能指标,说明强化关联度计算的方式能够有效提升原型网络的学习能力。由表1可知,We、Sc、Na中的多标签样本比例逐渐提高,分别为3.8%、21.3%和24.6%,在Sc、Na、We领域上进行测试,分类性能分别提高了3.91%、4.76%、8.62%,说明方法对于多标签的学习能力强,适合样本对应标签较多的场景。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种强化关联度计算的小样本用户多意图识别方法,其特征在于所述方法包括如下步骤:
步骤1,使用BERT提取各领域下用户对话样本及样本对应标签的嵌入表示,将用户对话样本集合重构为小样本学习下的用户多意图识别任务场景;
步骤2,计算支持集样本对应标签的原型表示和原型半径,构建原型网络,首先,使用强化关联度计算方法计算支持集中每个样本与当前标签的关联度,为样本嵌入表示赋予权重,其次,计算标签原型表示,然后,使用特征级注意力机制计算标签原型半径,最后,利用查询样本表示、标签原型表示和标签原型半径构建原型网络;
步骤3,以不同于小样本领域的其它领域下含有标注信息的用户对话样本作为先验知识计算通用阈值,首先,利用强化关联度计算方法计算样本与样本对应领域下的各标签之间的关联度,然后,根据关联度求解通用阈值;
步骤4,以小样本领域下的用户对话样本之间的关联度计算特定阈值,用特定阈值校准通用阈值以计算出原型网络阈值,首先,计算原型网络中的标签对应的支持集样本与查询样本之间的关联度,然后,根据关联度和原型半径计算特定阈值,最后,利用特定阈值校正通用阈值以计算原型网络阈值;
步骤5,根据原型网络阈值从原型网络中筛选出查询样本所对应的标签子集,首先,根据原型网络阈值划分原型网络,然后,筛选出原型网络阈值内侧的标签作为查询样本所对应的多个意图标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211331155.4A CN115757714A (zh) | 2022-10-28 | 2022-10-28 | 强化关联度计算的小样本用户多意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211331155.4A CN115757714A (zh) | 2022-10-28 | 2022-10-28 | 强化关联度计算的小样本用户多意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757714A true CN115757714A (zh) | 2023-03-07 |
Family
ID=85354384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211331155.4A Pending CN115757714A (zh) | 2022-10-28 | 2022-10-28 | 强化关联度计算的小样本用户多意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757714A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113851A (zh) * | 2024-03-27 | 2024-05-31 | 北京衔远有限公司 | 智能问答方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-10-28 CN CN202211331155.4A patent/CN115757714A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113851A (zh) * | 2024-03-27 | 2024-05-31 | 北京衔远有限公司 | 智能问答方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN112100348A (zh) | 一种多粒度注意力机制的知识库问答关系检测方法及系统 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN101609672B (zh) | 一种语音识别语义置信特征提取的方法和装置 | |
CN111369535B (zh) | 一种细胞检测方法 | |
CN112417132B (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN117390409A (zh) | 大规模语言模型生成答案可靠性检测方法 | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN115757714A (zh) | 强化关联度计算的小样本用户多意图识别方法 | |
CN117689963B (zh) | 一种基于多模态预训练模型的视觉实体链接方法 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
CN115438141B (zh) | 一种基于知识图谱模型的信息检索方法 | |
CN116579345A (zh) | 命名实体识别模型的训练方法、命名实体识别方法及装置 | |
CN111339258A (zh) | 基于知识图谱的大学计算机基础习题推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |