CN116432664A - 一种高质量数据扩增的对话意图分类方法及系统 - Google Patents

一种高质量数据扩增的对话意图分类方法及系统 Download PDF

Info

Publication number
CN116432664A
CN116432664A CN202310397265.9A CN202310397265A CN116432664A CN 116432664 A CN116432664 A CN 116432664A CN 202310397265 A CN202310397265 A CN 202310397265A CN 116432664 A CN116432664 A CN 116432664A
Authority
CN
China
Prior art keywords
data set
intention
sentence
sentences
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310397265.9A
Other languages
English (en)
Inventor
何召锋
高骏
项刘宇
赵瀚
程祥
杨文林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Kangsheng Health Consulting Co Ltd
Original Assignee
Hangzhou Kangsheng Health Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Kangsheng Health Consulting Co Ltd filed Critical Hangzhou Kangsheng Health Consulting Co Ltd
Priority to CN202310397265.9A priority Critical patent/CN116432664A/zh
Publication of CN116432664A publication Critical patent/CN116432664A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及智能对话技术领域,提出了一种高质量数据扩增的对话意图分类方法及系统,用于对话意图语句的意图分类,包括:获得原始数据集
Figure DDA0004178026580000011
对原始数据集
Figure DDA0004178026580000012
通过内部数据扩增的方法得到两倍数量的扩增数据集
Figure DDA0004178026580000013
原始数据集B和扩增数据集Ba构成训练数据集;基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;根据对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,分类器用于对话意图语句的意图分类。通过上述技术方案,解决了现有技术中对话意图语句分类效果差、成本高的问题。

Description

一种高质量数据扩增的对话意图分类方法及系统
技术领域
本发明涉及智能对话技术领域,具体的,涉及一种高质量数据扩增的对话意图分类方法及系统。
背景技术
智能对话系统作为人机交互的接口,在各个领域都具有广泛的应用场景,潜在的应用价值使其成为学术界的研究热点。与人工的对话相比,智能对话系统具有成本低、效率高等优点,其中任务型对话系统可以帮助人们完成各种目标,极大地降低了人机交互的隔阂。然而任务型对话系统在实际的应用场景中仍然面临着许多问题,预训练的语言模型在特定领域中应用可能会出现不可控的情况,生成的数据多样性差、噪声多等因素,导致表征能力有限。并且,对话系统在应用的过程中会面临功能的调整,由此会持续地产生新意图的语句,需要重新训练模型,成本高。
发明内容
本发明提出一种高质量数据扩增的对话意图分类方法及系统,解决了现有技术中对话意图语句分类效果差、成本高的问题。
本发明的技术方案是这样实现的:
第一方面,一种高质量数据扩增的对话意图分类方法,包括:获得原始数据集
Figure BDA0004178026540000011
对所述原始数据集/>
Figure BDA0004178026540000012
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA0004178026540000013
所述原始数据集B和所述扩增数据集Ba构成训练数据集;
基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
根据所述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,所述分类器用于对话意图语句的意图分类;
其中,所述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure BDA0004178026540000014
和负样本对语句/>
Figure BDA0004178026540000015
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure BDA0004178026540000021
Figure BDA0004178026540000022
其中,exp表示自然对数e的指数运算,
Figure BDA0004178026540000023
表示标号为i1的语句对应的向量,/>
Figure BDA0004178026540000024
表示标号为i2的语句对应的向量,/>
Figure BDA0004178026540000025
所述聚类损失的计算过程包括:
根据Student分布计算出任一语句xj被分配到第k个聚类簇的概率qjk
用聚类结果拟合辅助的分布pjk
Figure BDA0004178026540000026
其中,
Figure BDA0004178026540000027
表示聚类后的原始分布,K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure BDA0004178026540000028
最终整体的目标函数为
Figure BDA0004178026540000029
其中,α和β均为参数。
第二方面,一种高质量数据扩增的对话意图分类系统,包括:
数据扩增模块,用于获得原始数据集
Figure BDA00041780265400000210
对所述原始数据集/>
Figure BDA00041780265400000211
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA00041780265400000212
所述原始数据集B和所述扩增数据集Ba构成训练数据集;
特征生成模块,用于基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
分类器模块,用于根据所述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,所述分类器用于对话意图语句的意图分类;
其中,所述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure BDA0004178026540000031
和负样本对语句/>
Figure BDA0004178026540000032
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure BDA0004178026540000033
Figure BDA0004178026540000034
其中,exp表示自然对数e的指数运算,
Figure BDA0004178026540000035
表示标号为i1的语句对应的向量,/>
Figure BDA0004178026540000036
表示标号为i2的语句对应的向量,/>
Figure BDA0004178026540000037
所述聚类损失的计算过程包括:
根据Student分布计算出任一语句xj被分配到第k个聚类簇的概率qjk
用聚类结果拟合辅助的分布pjk
Figure BDA0004178026540000038
其中,
Figure BDA0004178026540000039
表示聚类后的原始分布,K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure BDA00041780265400000310
最终整体的目标函数为
Figure BDA00041780265400000311
其中,α和β均为参数。
本发明的工作原理及有益效果为:
本发明通过设计对比损失和聚类损失,对预训练模型进行微调,增强模型的表征能力,最终提高对话意图语句的聚类效果;并将聚类算法和分类算法结合,不仅能对已有的对话意图语句进行聚类,还能对新增的对话意图语句进行分类,这样在产生新的意图语句时,无需重新训练模型。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明高质量数据扩增的对话意图分类系方法流程图;
图2为本发明高质量数据扩增的对话意图分类系统结构示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都涉及本发明保护的范围。
实施例一
如图1所示,本实施例提出了一种高质量数据扩增的对话意图分类方法,用于对话意图语句的意图分类,包括:
获得原始数据集
Figure BDA0004178026540000041
对上述原始数据集/>
Figure BDA0004178026540000042
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA0004178026540000043
上述原始数据集B和上述扩增数据集Ba构成训练数据集;
基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
根据上述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,上述分类器用于对话意图语句的意图分类;
其中,上述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure BDA0004178026540000044
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;正样本对语句
Figure BDA0004178026540000045
之外的所有组合都是负样本对语句,记作负样本对语句/>
Figure BDA0004178026540000046
通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure BDA0004178026540000051
Figure BDA0004178026540000052
其中,exp表示自然对数e的指数运算,
Figure BDA0004178026540000053
表示标号为i1的语句对应的向量,/>
Figure BDA0004178026540000054
表示标号为i2的语句对应的向量,分别将标号为i1、i2的语句输入bert模型,得到/>
Figure BDA0004178026540000055
衡量两个语句的表征之间的距离可以使用/>
Figure BDA0004178026540000056
下一步是使用聚类损失,这部分主要作用是将更高层的语义信息编码到语句的表征中。假设总共有K个类别,每个类别的聚类中心可以表示为μk,k∈{1,...,K)如果用ψ(xj)表示语句xj的表征,可以根据Student分布计算出语句xj被分配到第k个聚类簇的概率qjk。之后需要用聚类结果去拟合辅助的分布
Figure BDA0004178026540000057
其中,
Figure BDA0004178026540000058
表示聚类后的原始分布,平方分布(辅助的分布)中置信度高的结果可以被强化,从而获得可信度更高的聚类分布。K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure BDA0004178026540000059
最终整体的目标函数为
Figure BDA00041780265400000510
其中,α和β均为参数。
本实施例通过设计对比损失和聚类损失,对预训练模型进行微调,增强模型的表征能力,最终提高对话意图语句的聚类效果;并将聚类算法和分类算法结合,不仅能对已有的对话意图语句进行聚类,还能对新增的对话意图语句进行分类,这样在产生新的意图语句时,无需重新训练模型。
进一步,上述原始数据集通过对内部数据集进行外部数据扩增得到,上述外部数据扩增的方法具体包括:
对内部数据集进行聚类,得到聚类语句集合H(xall)-
对聚类语句集合H(xall)-中的任一语句xi,使用simcse方法,从外部数据集中选择与该任一语句xi接近的语句yi,得到原始数据集
Figure BDA0004178026540000061
其中,语句xi和语句yi接近具体为:二者的归一化相似度大于设定阈值;本实施例设置为0.8。
对内部数据集进行聚类,得到聚类语句集合H(xall)-,具体包括:
使用HDBSCAN的聚类方法对内部数据集中所有的对话意图语句xall进行筛选,滤除不含意图的语句,留下置信度大于设定值的意图语句H(xall);
根据对内部数据集中对话意图语句上下文的two-gram短语进行统计,选出高频two-gram短语对
Figure BDA0004178026540000062
进行二次筛选得到H(xall)-。本实施例中,先按two-gram短语的出现次数排序,然后取前2个出现次数最多的two-gram短语作为高频two-gram短语。
内部数据集为针对特定应用场景采集的数据集,外部数据集为已有的数据集中与特定应用场景相似的数据集。现有的数据扩增的方法一般都是通过随机删除或替换意图语句中的某些词,生成的新语句和原有的语句句式过于相似,缺乏多样性,并且还存在着语义改变等问题,生成的数据多样性差、噪声多等因素,导致表征能力有限,使得聚类性能受到一定影响。
本实施例中,利用外部数据集进行内部数据集的扩增,利用simcse对相似句的距离衡量,从相似的外部数据集中筛选可以利用的高质量意图语句数据,不仅增加了意图语句的多样性,而且提高语句表征和聚类算法的鲁棒性。
进一步,上述对上述原始数据集
Figure BDA0004178026540000063
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA0004178026540000064
具体包括:
使用Contextual Augmenter方法,利用预训练transformer模型查找原始数据集
Figure BDA0004178026540000065
中的非关键词,然后再使用BERT模型来对非关键词进行扩增,得到两倍数量的扩增数据集/>
Figure BDA0004178026540000066
进一步,上述根据上述对话意图语句的表征,构建逻辑回归分类器模块,具体包括:
Figure BDA0004178026540000067
其中,x(i)为输入到分类器中任一对话意图语句的表征,该对话意图语句可以是已有的语句,也可以是新增的语句,p(o(i)=k|x(i);θ)表示x(i)被分配到第k个类别的概率,第k个类别对应第k个聚类簇;θ为参数,θ的取值通过训练得到。
实施例2
如图2所示,基于与上述实施例1相同的构思,本实施例还提出了一种高质量数据扩增的对话意图分类系统,包括:数据扩增模块,用于获得原始数据集
Figure BDA0004178026540000071
对上述原始数据集/>
Figure BDA0004178026540000072
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA0004178026540000073
上述原始数据集B和上述扩增数据集Ba构成训练数据集;
特征生成模块,用于基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
分类器模块,用于根据上述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,上述分类器用于对话意图语句的意图分类;
其中,上述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure BDA0004178026540000074
和负样本对语句/>
Figure BDA0004178026540000075
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure BDA0004178026540000076
Figure BDA0004178026540000077
其中,exp表示自然对数e的指数运算,
Figure BDA0004178026540000078
表示标号为i1的语句对应的向量,/>
Figure BDA0004178026540000079
表示标号为i2的语句对应的向量,/>
Figure BDA00041780265400000710
上述聚类损失的计算过程包括:
根据Student分布计算出任一语句xj被分配到第k个聚类簇的概率qjk
用聚类结果拟合辅助的分布pjk
Figure BDA0004178026540000081
其中,
Figure BDA0004178026540000082
表示聚类后的原始分布,K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure BDA0004178026540000083
最终整体的目标函数为
Figure BDA0004178026540000084
其中,α和β均为参数。
聚类结果的输出可以直接输出给用户,用于聚类效果的分析。
进一步,原始数据集通过对内部数据集进行外部数据扩增得到,上述外部数据扩增的方法具体包括:
对内部数据集进行聚类,得到聚类语句集合H(xall)-
对聚类语句集合H(xall)-中的任一语句xi,使用simcse方法,从外部数据集中选择与该任一语句xi接近的语句yi,得到原始数据集
Figure BDA0004178026540000085
语句xi和语句yi的归一化相似度大于设定阈值;
其中,对内部数据集进行聚类,得到聚类语句集合H(xall)-,具体包括:
使用HDBSCAN的聚类方法对内部数据集中所有的对话意图语句xall进行筛选,滤除不含意图的语句,留下置信度大于设定值的意图语句H(xall);
根据对内部数据集中对话意图语句上下文的two-gram短语进行统计,选出高频two-gram短语对
Figure BDA0004178026540000086
进行二次筛选得到H(xall)-
进一步,对上述原始数据集
Figure BDA0004178026540000087
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure BDA0004178026540000088
具体包括:
使用Contextual Augmenter方法,利用预训练transformer模型查找原始数据集
Figure BDA0004178026540000089
中的非关键词,然后再使用BERT模型来对非关键词进行扩增,得到两倍数量的扩增数据集/>
Figure BDA00041780265400000810
进一步,根据上述对话意图语句的表征,构建逻辑回归分类器模块,具体包括:
Figure BDA0004178026540000091
其中,x(i)为输入到分类器中任一对话意图语句的表征,p(o(i)=k|x(i);θ)表示x(i)被分配到第k个类别的概率,第k个类别对应第k个聚类簇;θ为参数,θ的取值通过训练得到。
前述实施例一中的一种高质量数据扩增的对话意图分类方法的各种变化方式和具体实例同样适用于本实施例的一种高质量数据扩增的对话意图分类方法系统,通过前述一种高质量数据扩增的对话意图分类方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种高质量数据扩增的对话意图分类方法系统的实施方法,所以为了说明书的简洁,在此不再详述。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种高质量数据扩增的对话意图分类方法,用于对话意图语句的意图分类,其特征在于,包括:
获得原始数据集对所述原始数据集/>
Figure FDA0004178026530000012
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure FDA0004178026530000013
所述原始数据集B和所述扩增数据集Ba构成训练数据集;
基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
根据所述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,所述分类器用于对话意图语句的意图分类;
其中,所述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure FDA0004178026530000014
和负样本对语句/>
Figure FDA0004178026530000015
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure FDA0004178026530000016
Figure FDA0004178026530000017
其中,exp表示自然对数e的指数运算,
Figure FDA0004178026530000018
表示标号为i1的语句对应的向量,/>
Figure FDA0004178026530000019
表示标号为i2的语句对应的向量,/>
Figure FDA00041780265300000110
所述聚类损失的计算过程包括:
根据Student分布计算出任一语句xj被分配到第k个聚类簇的概率qjk
用聚类结果拟合辅助的分布pjk
Figure FDA00041780265300000111
其中,
Figure FDA00041780265300000112
表示聚类后的原始分布,K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure FDA0004178026530000021
最终整体的目标函数为
Figure FDA0004178026530000022
其中,α和β均为参数。
2.根据权利要求1所述的一种高质量数据扩增的对话意图分类方法,其特征在于,
所述原始数据集通过对内部数据集进行外部数据扩增得到,所述外部数据扩增的方法具体包括:
对内部数据集进行聚类,得到聚类语句集合H(xall)-
对聚类语句集合H(xall)-中的任一语句xi,使用simcse方法,从外部数据集中选择与该任一语句xi接近的语句yi,得到原始数据集
Figure FDA0004178026530000023
语句xi和语句yi的归一化相似度大于设定阈值;
其中,对内部数据集进行聚类,得到聚类语句集合H(xall)-,具体包括:
使用HDBSCAN的聚类方法对内部数据集中所有的对话意图语句xall进行筛选,滤除不含意图的语句,留下置信度大于设定值的意图语句H(xall);
根据对内部数据集中对话意图语句上下文的two-gram短语进行统计,选出高频two-gram短语对
Figure FDA0004178026530000024
进行二次筛选得到H(xall)-
3.根据权利要求1所述的一种高质量数据扩增的对话意图分类方法,其特征在于,对所述原始数据集
Figure FDA0004178026530000025
通过内部数据扩增的方法得到两倍数量的扩增数据集
Figure FDA0004178026530000026
具体包括:
使用Contextual Augmenter方法,利用预训练transformer模型查找原始数据集
Figure FDA0004178026530000027
中的非关键词,然后再使用BERT模型来对非关键词进行扩增,得到两倍数量的扩增数据集/>
Figure FDA0004178026530000028
4.根据权利要求1所述的一种高质量数据扩增的对话意图分类方法,其特征在于,根据所述对话意图语句的表征,构建逻辑回归分类器模块,具体包括:
Figure FDA0004178026530000031
其中,x(i)为输入到分类器中任一对话意图语句的表征,p(o(i)=k|x(i);θ)表示x(i)被分配到第k个类别的概率,第k个类别对应第k个聚类簇;θ为参数,θ的取值通过训练得到。
5.一种高质量数据扩增的对话意图分类系统,其特征在于,包括:
数据扩增模块,用于获得原始数据集
Figure FDA0004178026530000032
对所述原始数据集/>
Figure FDA0004178026530000033
通过内部数据扩增的方法得到两倍数量的扩增数据集/>
Figure FDA0004178026530000034
所述原始数据集B和所述扩增数据集Ba构成训练数据集;
特征生成模块,用于基于SCCL模型,设计对比损失和聚类损失,获得训练数据集中对话意图语句的表征;
分类器模块,用于根据所述对话意图语句的表征和聚类结果,构建逻辑回归分类器模块,训练分类器,所述分类器用于对话意图语句的意图分类;
其中,所述对比损失的计算过程包括:
将原始数据集B中的对话意图语句与扩增数据集Ba中的对话意图语句两两组合,得到正样本对语句
Figure FDA0004178026530000035
和负样本对语句/>
Figure FDA0004178026530000036
表示扩增数据集中任一语句的标号,i2∈{1,...,M},表示原始数据集中与扩增数据集中标号i1对应的语句的标号;通过最小化Li,将正样本语句和负样本对语句分离,并计算最终对比损失LCont;
Figure FDA0004178026530000037
Figure FDA0004178026530000038
其中,exp表示自然对数e的指数运算,
Figure FDA0004178026530000039
表示标号为i1的语句对应的向量,/>
Figure FDA00041780265300000310
表示标号为i2的语句对应的向量,/>
Figure FDA00041780265300000311
所述聚类损失的计算过程包括:
根据Student分布计算出任一语句xj被分配到第k个聚类簇的概率qjk
用聚类结果拟合辅助的分布pjk
Figure FDA0004178026530000041
其中,
Figure FDA0004178026530000042
表示聚类后的原始分布,K为聚类分布得到的聚类簇个数;
通过KL散度来计算损失函数可得
lj=KL[pj||qj]
从而得到目标函数
Figure FDA0004178026530000043
最终整体的目标函数为
Figure FDA0004178026530000044
其中,α和β均为参数。
CN202310397265.9A 2023-04-04 2023-04-04 一种高质量数据扩增的对话意图分类方法及系统 Pending CN116432664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310397265.9A CN116432664A (zh) 2023-04-04 2023-04-04 一种高质量数据扩增的对话意图分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310397265.9A CN116432664A (zh) 2023-04-04 2023-04-04 一种高质量数据扩增的对话意图分类方法及系统

Publications (1)

Publication Number Publication Date
CN116432664A true CN116432664A (zh) 2023-07-14

Family

ID=87088640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310397265.9A Pending CN116432664A (zh) 2023-04-04 2023-04-04 一种高质量数据扩增的对话意图分类方法及系统

Country Status (1)

Country Link
CN (1) CN116432664A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593215A (zh) * 2024-01-19 2024-02-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种生成模型增强的大规模视觉预训练方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593215A (zh) * 2024-01-19 2024-02-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种生成模型增强的大规模视觉预训练方法及系统
CN117593215B (zh) * 2024-01-19 2024-03-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种生成模型增强的大规模视觉预训练方法及系统

Similar Documents

Publication Publication Date Title
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
WO2020216064A1 (zh) 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN115731595A (zh) 一种基于模糊规则的多层次决策融合的情感识别方法
CN116432664A (zh) 一种高质量数据扩增的对话意图分类方法及系统
Tu et al. Information maximized variational domain adversarial learning for speaker verification
Zhang et al. LD-CNN: A lightweight dilated convolutional neural network for environmental sound classification
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
Qin et al. Graph convolution-based deep clustering for speech separation
CN118051831A (zh) 基于CNN-Transformer合作网络模型的水声目标识别方法
WO2020151017A1 (zh) 一种可扩展的领域人机对话系统状态跟踪方法及设备
Li et al. Multi-scale temporal transformer for speech emotion recognition
CN112466284B (zh) 一种口罩语音鉴别方法
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Kaur et al. An efficient speaker recognition using quantum neural network
CN115688868B (zh) 一种模型训练方法及计算设备
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
CN113782051B (zh) 广播效果分类方法及系统、电子设备和存储介质
Kaur et al. Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
Das et al. Towards interpretable and transferable speech emotion recognition: Latent representation based analysis of features, methods and corpora
CN111554273B (zh) 一种语音关键词识别中扩增语料的选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination