CN116796290B - 一种对话意图识别方法、系统、计算机及存储介质 - Google Patents
一种对话意图识别方法、系统、计算机及存储介质 Download PDFInfo
- Publication number
- CN116796290B CN116796290B CN202311061980.1A CN202311061980A CN116796290B CN 116796290 B CN116796290 B CN 116796290B CN 202311061980 A CN202311061980 A CN 202311061980A CN 116796290 B CN116796290 B CN 116796290B
- Authority
- CN
- China
- Prior art keywords
- features
- representing
- feature
- sub
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 95
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种对话意图识别方法、系统、计算机及存储介质,方法包括:自文本集、视频集及音频集提取若干个文本子特征、若干个视频子特征及若干个音频子特征;基于不同的说话人,将若干个文本子特征、若干个视频子特征及若干个音频子特征区隔为由若干个多模态特征构成多模态特征组;构建意图识别模型,通过第一损失函数一次训练意图识别模型,以使意图识别模型具备样本区分能力通过第二损失函数二次训练意图识别模型,以使意图识别模型具备意图区分能力。通过考虑不同的说话人,检索了与说话人对应的全部内容,充分结合了上下文的信息,提高了意图识别的精确性。
Description
技术领域
本申请涉及图像数据处理技术领域,特别是涉及一种对话意图识别方法、系统、计算机及存储介质。
背景技术
人机交互是指让机器理解和运用自然语言实现人机通信的技术,通过人机对话交互,用户可以在与机器进行对话的过程中,控制机器执行对应的内容查询、内容推荐等操作。
意图识别用于分析用户的核心需求,输出与查询输入最相关的信息,在多模态场景中理解用户意图具有重要的研究意义和广泛的应用。尤其在人机交互的应用中,感知用户的语调、表情和肢体语言能够更好地捕捉用户需求,从而实现更个性化、高效和自然的交互,具有巨大的商业价值。
但现有的意图识别其仅能判断单轮对话的话语,而忽略了上下文信息,影响对用户意图识别的准确性。
发明内容
本申请实施例提供了一种对话意图识别方法、系统、计算机及存储介质,以解决现有技术中仅能判断单轮对话的话语,而忽略了上下文信息,影响对用户意图识别的准确性的技术问题。
第一方面,本申请实施例提供了一种对话意图识别方法,包括以下步骤:
分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力。
进一步地,所述分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征步骤包括:
将文本集拆分为若干个文本话语,对所述文本话语进行分词处理及编码处理,以获取若干个词段编码,基于所述文本话语拼接所述词段编码,以获取若干个文本子特征;
提取视频集中包含说话人的若干个帧图片,对所述帧图片进行特征提取,以获取特征图片,对所述特征图片进行平均池化,以获取若干个视频子特征;
提取音频集中的若干个音频段,对所述音频段进行特征提取,以获取若干个音频子特征。
进一步地,所述基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征的步骤包括:
提取某一说话人的身份信息,基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征,拼接若干个与所述说话人相关的文本子特征,以形成文本特征;
基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征,拼接若干个与所述说话人相关的视频子特征,以形成视频特征;
基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征,拼接若干个与所述说话人相关的音频子特征,以形成音频特征;
通过所述文本特征、所述视频特征及所述音频特征,获取与所述说话人对应的多模态特征;
基于不同的所述说话人的身份信息,获取若干个多模态特征,若干个所述多模态特征与不同的所述说话人一一对应。
进一步地,所述多模态特征的获取公式为:
,
其中,表示多模态特征,/>表示多模态融合网络,/>表示文本特征组,/>表示视频特征组,/>表示音频特征组。
进一步地,所述第一损失函数为:
,
其中,表示第一损失函数,/>表示多模态特征组,/>表示与第一样本对应的某一多模态特征,/>表示与第一样本对应的另一多模态特征,/>表示与第二样本对应的某一多模态特征,/>表示度量标准,/>表示温度系数,/>表示计算参数,/>表示对数函数,表示指数函数,/>表示指示函数。
进一步地,所述第二损失函数的获取步骤包括:
基于一次训练后的所述意图识别模型,将所述多模态特征组区分为已知特征组及未知特征组;
通过所述已知特征组构建已知意图分类损失函数;
通过所述未知特征组构建未知意图语义捕捉损失函数;
基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建所述第二损失函数。
进一步地,所述已知意图分类损失函数为:
,
其中,表示已知意图分类损失函数,/>表示已知特征组中多模态特征的数量,/>表示已知特征组中某一多模态特征,/>表示第一样本中已知意图类别的数量,/>表示第一样本中与/>对应的已知意图类别,/>表示第一样本中某一已知意图类别,/>表示对数函数,/>表示指数函数;
所述未知意图语义捕捉损失函数为:
,
其中,表示未知意图语义捕捉损失函数,/>表示未知特征组中多模态特征的数量,/>表示未知特征组中某一多模态特征,/>表示具有线性层的分类器;
所述第二损失函数为:
,
其中,表示第二损失函数,/>表示权重超参数。
第二方面,本申请实施例提供了一种对话意图识别系统,应用于上述技术方案中的对话意图识别方法,所述系统包括:
提取模块,用于分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
分隔模块,用于基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
第一构建模块,用于构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
第二构建模块,用于以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力。
第三方面,本申请实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的对话意图识别方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的对话意图识别方法。
相比于现有技术,本发明的有益效果在于:通过考虑不同的所述说话人,将所述文本子特征、所述视频子特征及所述音频子图特征以所述说话人为区隔,组成所述多模态特征,检索了与所述说话人对应的全部内容,充分结合了上下文的信息,提高了意图识别的精确性;通过训练所述意图识别模型,使所述意图识别模型在识别所述已知意图类别的同时,可检测出开放意图,即检测出所述未知意图类别,可有效挖掘用户的潜在需求。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
图1为本发明第一实施例中对话意图识别方法的流程图;
图2为本发明第二实施例中对话意图识别系统的结构框图;
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
请参阅图1,本发明第一实施例提供的对话意图识别方法,包括以下:
步骤S10:分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
所述文本集、所述视频集及所述音频集作为基础数据,其表征同一段对话内容。具体地,所述步骤S10包括:
S110:将文本集拆分为若干个文本话语,对所述文本话语进行分词处理及编码处理,以获取若干个词段编码,基于所述文本话语拼接所述词段编码,以获取若干个文本子特征。
在本实施例中,通过预训练的BERT语言模型对所述文本话语进行处理,对于每一个所述文本话语,将其分词后,形成连续的分词段:[CLS] , s1,···, sn, [SEP],其中,[CLS]表示初始词段,[SEP]表示终止词段,s1,···, sn均表示中间词段。
对连续的分词段进行编码后,形成若干个词段编码,可以理解地,所述文本子特征与所述文本话语对应。
S120:提取视频集中包含说话人的若干个帧图片,对所述帧图片进行特征提取,以获取特征图片,对所述特征图片进行平均池化,以获取若干个视频子特征;
对所述视频集进行场景检测、物体检测、面部检测、面部跟踪及音频-视觉活跃发言者检测,以生成包含说话人的若干个帧图片,在本实施例中,利用在ImageNet-1K数据集上预训练的SwinTransformer模型对所述帧图片进行特征提取,进而对所述特征图片进行平均池化,获取所述视频子特征。所述视频子特征与所述帧图片对应。
S130:提取音频集中的若干个音频段,对所述音频段进行特征提取,以获取若干个音频子特征;
在本实施例中,通过librosa工具包以16000Hz的采样率加载所述音频集的波形数据,进而获取所述音频段。使用WavLM模型对所述音频段进行特征提取,以获取所述音频子特征。
步骤S20:基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
具体地,所述步骤S20包括:
S210:提取某一说话人的身份信息,基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征,拼接若干个与所述说话人相关的文本子特征,以形成文本特征;
根据所述步骤S110所述,所述文本子特征包括若干个连续的词段编码,在拼接若干个与所述说话人相关的文本子特征时,先将若干个与所述说话人相关的文本子特征以发生时间进行排序,除最先的所述文本子特征外,将其他的所述文本子特征中的第一个所述词段编码删除后,依次拼接于前一所述文本子特征的末尾处,进而获取所述文本特征。
S220:基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征,拼接若干个与所述说话人相关的视频子特征,以形成视频特征;
在获取到若干个与所述说话人相关的视频子特征,将若干个与所述说话人相关的视频子特征以发生时间进行排序,于相邻的所述视频子特征之间插入一维零向量,进而获取所述视频特征。
S230:基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征,拼接若干个与所述说话人相关的音频子特征,以形成音频特征。
所述音频特征的获取方式与所述步骤S220中一致,此处不再进行赘述。
S240:通过所述文本特征、所述视频特征及所述音频特征,获取与所述说话人对应的多模态特征。
所述多模态特征的获取公式为:
,
其中,表示多模态特征,/>表示多模态融合网络,/>表示文本特征组,/>表示视频特征组,/>表示音频特征组。
所述多模态特征是对三种模态的信息进行跨模态交互融合,利用不同模态之间的互补信息,增强意图识别的能力。
S250:基于不同的所述说话人的身份信息,获取若干个多模态特征,若干个所述多模态特征与不同的所述说话人一一对应。
针对不同的所述说话人,重复执行步骤S210~步骤S240,以分别获取与不同的所述说话人一一对应的所述多模态特征。
步骤S30:构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
在本实施例中,所述第一样本为IS样本,第一部分的所述多模态特征可对应至所述第一样本中的所述已知意图类别;所述第二样本为OOS样本,第二部分的所述多模态特征于所述第一样本中无法对应所述已知意图类别,则将该部分的所述多模态特征对应为所述未知意图类别。
所述第一损失函数为:
,
其中,表示第一损失函数,/>表示多模态特征组,/>表示与第一样本对应的某一多模态特征,/>表示与第一样本对应的另一多模态特征,/>表示与第二样本对应的某一多模态特征,/>表示度量标准,/>表示温度系数,/>表示计算参数,/>表示对数函数,表示指数函数,/>表示指示函数。
对所述第一样本来说,与所述第一样本中已知意图类别对应的所述多模态特征之间互为正样本,而与所述第一样本中已知意图类别对应的所述多模态特征、与所述第二样本中未知意图类别对应的所述多模态特征之间互为负样本,通过所述第一损失函数进行所述一次训练,拉近正样本之间的距离、推开负样本之间的距离,即使所述意图识别模型可捕捉到所述已知意图类别之间的关联性,以及所述已知意图类别与所述未知意图类别之间的差异性。
步骤S40:以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力。
一次训练后的所述意图识别模型,已可实现在欧式空间上将所述第一样本内的所述已知意图类别相互拉近,并将所述第一样本内的所述已知意图类别与所述第二样本内的所述未知意图类别相互推开。通过二次训练所述意图识别模型,可进一步确定某一所述多模态特征对应的所述已知意图类别,完成对话意图识别工作。
所述第二损失函数的获取步骤包括:
基于一次训练后的所述意图识别模型,将所述多模态特征组区分为已知特征组及未知特征组;
通过所述已知特征组构建已知意图分类损失函数;
所述已知意图分类损失函数为:
,
其中,表示已知意图分类损失函数,/>表示已知特征组中多模态特征的数量,/>表示已知特征组中某一多模态特征,/>表示第一样本中已知意图类别的数量,/>表示第一样本中与/>对应的已知意图类别,/>表示第一样本中某一已知意图类别,/>表示对数函数,/>表示指数函数;
通过所述未知特征组构建未知意图语义捕捉损失函数;
所述未知意图语义捕捉损失函数为:
,
其中,表示未知意图语义捕捉损失函数,/>表示未知特征组中多模态特征的数量,/>表示未知特征组中某一多模态特征,/>表示具有线性层的分类器;
基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建所述第二损失函数。
所述第二损失函数为:
,
其中,表示第二损失函数,/>表示权重超参数。
通过考虑不同的所述说话人,将所述文本子特征、所述视频子特征及所述音频子图特征以所述说话人为区隔,组成所述多模态特征,检索了与所述说话人对应的全部内容,充分结合了上下文的信息,提高了意图识别的精确性;通过训练所述意图识别模型,使所述意图识别模型在识别所述已知意图类别的同时,可检测出开放意图,即检测出所述未知意图类别,可有效挖掘用户的潜在需求。
请参阅图2,本发明第二实施例提供了一种对话意图识别系统,该系统应用于上述实施例中的所述对话意图识别方法,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
所述系统包括:
提取模块10,用于分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
所述提取模块10包括:
第一单元,用于将文本集拆分为若干个文本话语,对所述文本话语进行分词处理及编码处理,以获取若干个词段编码,基于所述文本话语拼接所述词段编码,以获取若干个文本子特征;
第二单元,用于提取视频集中包含说话人的若干个帧图片,对所述帧图片进行特征提取,以获取特征图片,对所述特征图片进行平均池化,以获取若干个视频子特征;
第三单元,用于提取音频集中的若干个音频段,对所述音频段进行特征提取,以获取若干个音频子特征;
分隔模块20,用于基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
所述分隔模块20包括:
第四单元,用于提取某一说话人的身份信息,基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征,拼接若干个与所述说话人相关的文本子特征,以形成文本特征;
第五单元,用于基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征,拼接若干个与所述说话人相关的视频子特征,以形成视频特征;
第六单元,用于基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征,拼接若干个与所述说话人相关的音频子特征,以形成音频特征;
第七单元,用于通过所述文本特征、所述视频特征及所述音频特征,获取与所述说话人对应的多模态特征;
第八单元,用于基于不同的所述说话人的身份信息,获取若干个多模态特征,若干个所述多模态特征与不同的所述说话人一一对应,若干个所述多模态特征构成多模态特征组;
第一构建模块30,用于构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
第二构建模块40,用于以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力;
其中,所述第二损失函数的获取步骤包括:基于一次训练后的所述意图识别模型,将所述多模态特征组区分为已知特征组及未知特征组;
通过所述已知特征组构建已知意图分类损失函数;
通过所述未知特征组构建未知意图语义捕捉损失函数;
基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建所述第二损失函数。
本发明还提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述技术方案中所述的对话意图识别方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述技术方案中所述的对话意图识别方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种对话意图识别方法,其特征在于,包括以下步骤:
分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
所述基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征的步骤包括:
提取某一说话人的身份信息,基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征,拼接若干个与所述说话人相关的文本子特征,以形成文本特征;
基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征,拼接若干个与所述说话人相关的视频子特征,以形成视频特征;
基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征,拼接若干个与所述说话人相关的音频子特征,以形成音频特征;
通过所述文本特征、所述视频特征及所述音频特征,获取与所述说话人对应的多模态特征;
基于不同的所述说话人的身份信息,获取若干个多模态特征,若干个所述多模态特征与不同的所述说话人一一对应;
构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
所述第一损失函数为:
,
其中,表示第一损失函数,/>表示多模态特征组,/>表示与第一样本对应的某一多模态特征,/>表示与第一样本对应的另一多模态特征,/>表示与第二样本对应的某一多模态特征,/>表示度量标准,/>表示温度系数,/>表示计算参数,/>表示对数函数,/>表示指数函数,/>表示指示函数;
以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力;
所述第二损失函数的获取步骤包括:
基于一次训练后的所述意图识别模型,将所述多模态特征组区分为已知特征组及未知特征组;
通过所述已知特征组构建已知意图分类损失函数;
所述已知意图分类损失函数为:
,
其中,表示已知意图分类损失函数,/>表示已知特征组中多模态特征的数量,/>表示已知特征组中某一多模态特征,/>表示第一样本中已知意图类别的数量,/>表示第一样本中与/>对应的已知意图类别,/>表示第一样本中某一已知意图类别,/>表示对数函数,/>表示指数函数;
通过所述未知特征组构建未知意图语义捕捉损失函数;
所述未知意图语义捕捉损失函数为:
,
其中,表示未知意图语义捕捉损失函数,/>表示未知特征组中多模态特征的数量,表示未知特征组中某一多模态特征,/>表示具有线性层的分类器;
基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建第二损失函数;
所述第二损失函数为:
,
其中,表示第二损失函数,/>表示权重超参数。
2.根据权利要求1所述的对话意图识别方法,其特征在于,所述分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征步骤包括:
将文本集拆分为若干个文本话语,对所述文本话语进行分词处理及编码处理,以获取若干个词段编码,基于所述文本话语拼接所述词段编码,以获取若干个文本子特征;
提取视频集中包含说话人的若干个帧图片,对所述帧图片进行特征提取,以获取特征图片,对所述特征图片进行平均池化,以获取若干个视频子特征;
提取音频集中的若干个音频段,对所述音频段进行特征提取,以获取若干个音频子特征。
3.根据权利要求1所述的对话意图识别方法,其特征在于,所述多模态特征的获取公式为:
,
其中,表示多模态特征,/>表示多模态融合网络,/>表示文本特征组,/>表示视频特征组,/>表示音频特征组。
4.一种对话意图识别系统,应用于如权利要求1~3任一项所述的对话意图识别方法,其特征在于,所述系统包括:
提取模块,用于分别对文本集、视频集及音频集进行特征提取,以获取若干个文本子特征、若干个视频子特征及若干个音频子特征;
分隔模块,用于基于不同的说话人,将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征,若干个所述多模态特征构成多模态特征组;
所述分隔模块包括:
第四单元,用于提取某一说话人的身份信息,基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征,拼接若干个与所述说话人相关的文本子特征,以形成文本特征;
第五单元,用于基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征,拼接若干个与所述说话人相关的视频子特征,以形成视频特征;
第六单元,用于基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征,拼接若干个与所述说话人相关的音频子特征,以形成音频特征;
第七单元,用于通过所述文本特征、所述视频特征及所述音频特征,获取与所述说话人对应的多模态特征;
第八单元,用于基于不同的所述说话人的身份信息,获取若干个多模态特征,若干个所述多模态特征与不同的所述说话人一一对应,若干个所述多模态特征构成多模态特征组;
第一构建模块,用于构建意图识别模型,将若干个已知意图类别的组合定义为第一样本,将未知意图类别定义为第二样本,以所述多模态特征组为输入值,以所述第一样本及所述第二样本为输出值,通过第一损失函数一次训练所述意图识别模型,以使所述意图识别模型具备样本区分能力;
所述第一损失函数为:
,
其中,表示第一损失函数,/>表示多模态特征组,/>表示与第一样本对应的某一多模态特征,/>表示与第一样本对应的另一多模态特征,/>表示与第二样本对应的某一多模态特征,/>表示度量标准,/>表示温度系数,/>表示计算参数,/>表示对数函数,/>表示指数函数,/>表示指示函数;
第二构建模块,用于以所述多模态特征组为输入值,若干个所述已知意图类别及所述未知意图类别为输出值,通过第二损失函数二次训练所述意图识别模型,以使所述意图识别模型具备意图区分能力;
所述第二损失函数的获取步骤包括:
基于一次训练后的所述意图识别模型,将所述多模态特征组区分为已知特征组及未知特征组;
通过所述已知特征组构建已知意图分类损失函数;
所述已知意图分类损失函数为:
,
其中,表示已知意图分类损失函数,/>表示已知特征组中多模态特征的数量,/>表示已知特征组中某一多模态特征,/>表示第一样本中已知意图类别的数量,/>表示第一样本中与/>对应的已知意图类别,/>表示第一样本中某一已知意图类别,/>表示对数函数,/>表示指数函数;
通过所述未知特征组构建未知意图语义捕捉损失函数;
所述未知意图语义捕捉损失函数为:
,
其中,表示未知意图语义捕捉损失函数,/>表示未知特征组中多模态特征的数量,表示未知特征组中某一多模态特征,/>表示具有线性层的分类器;
基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建第二损失函数;
所述第二损失函数为:
,
其中,表示第二损失函数,/>表示权重超参数。
5.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的对话意图识别方法。
6.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3中任一项所述的对话意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061980.1A CN116796290B (zh) | 2023-08-23 | 2023-08-23 | 一种对话意图识别方法、系统、计算机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061980.1A CN116796290B (zh) | 2023-08-23 | 2023-08-23 | 一种对话意图识别方法、系统、计算机及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116796290A CN116796290A (zh) | 2023-09-22 |
CN116796290B true CN116796290B (zh) | 2024-03-29 |
Family
ID=88044058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061980.1A Active CN116796290B (zh) | 2023-08-23 | 2023-08-23 | 一种对话意图识别方法、系统、计算机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796290B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635079A (zh) * | 2018-10-25 | 2019-04-16 | 北京中关村科金技术有限公司 | 一种用户意图的确定方法、装置、计算机设备和存储介质 |
CN113886548A (zh) * | 2021-09-30 | 2022-01-04 | 平安普惠企业管理有限公司 | 意图识别模型训练方法、识别方法、装置、设备及介质 |
CN114398868A (zh) * | 2022-01-12 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于意图识别的人机对话方法、装置、设备及存储介质 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
WO2022142041A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、计算机设备和存储介质 |
CN114756678A (zh) * | 2022-03-25 | 2022-07-15 | 鼎富智能科技有限公司 | 一种未知意图文本的识别方法及装置 |
WO2022178942A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备和存储介质 |
CN115019802A (zh) * | 2022-06-27 | 2022-09-06 | 平安科技(深圳)有限公司 | 语音意图识别的方法、装置、计算机设备和存储介质 |
CN115269836A (zh) * | 2022-07-18 | 2022-11-01 | 北京飞象星球科技有限公司 | 意图识别方法及装置 |
CN115293348A (zh) * | 2022-08-15 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种多模态特征提取网络的预训练方法及装置 |
CN115329779A (zh) * | 2022-08-10 | 2022-11-11 | 天津大学 | 一种多人对话情感识别方法 |
CN115563255A (zh) * | 2022-09-21 | 2023-01-03 | 北京捷通华声科技股份有限公司 | 对话文本的处理方法、装置、电子设备及存储介质 |
CN115601582A (zh) * | 2022-08-25 | 2023-01-13 | 同盾科技有限公司(Cn) | 一种基于多模态数据的商品识别方法和系统 |
CN115861196A (zh) * | 2022-11-23 | 2023-03-28 | 复旦大学 | 针对多模态医学影像的主动学习方法 |
CN116152568A (zh) * | 2023-03-06 | 2023-05-23 | 中国人民解放军总医院第一医学中心 | 基于对比学习的胃癌分类模型的预训练及微调方法 |
CN116204626A (zh) * | 2023-05-05 | 2023-06-02 | 江西尚通科技发展有限公司 | 基于深度学习的对话新意图发现方法、系统及计算机 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921221B (zh) * | 2018-07-04 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 用户特征的生成方法、装置、设备及存储介质 |
-
2023
- 2023-08-23 CN CN202311061980.1A patent/CN116796290B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635079A (zh) * | 2018-10-25 | 2019-04-16 | 北京中关村科金技术有限公司 | 一种用户意图的确定方法、装置、计算机设备和存储介质 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
WO2022142041A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、计算机设备和存储介质 |
WO2022178942A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备和存储介质 |
CN113886548A (zh) * | 2021-09-30 | 2022-01-04 | 平安普惠企业管理有限公司 | 意图识别模型训练方法、识别方法、装置、设备及介质 |
CN114398868A (zh) * | 2022-01-12 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于意图识别的人机对话方法、装置、设备及存储介质 |
CN114756678A (zh) * | 2022-03-25 | 2022-07-15 | 鼎富智能科技有限公司 | 一种未知意图文本的识别方法及装置 |
CN115019802A (zh) * | 2022-06-27 | 2022-09-06 | 平安科技(深圳)有限公司 | 语音意图识别的方法、装置、计算机设备和存储介质 |
CN115269836A (zh) * | 2022-07-18 | 2022-11-01 | 北京飞象星球科技有限公司 | 意图识别方法及装置 |
CN115329779A (zh) * | 2022-08-10 | 2022-11-11 | 天津大学 | 一种多人对话情感识别方法 |
CN115293348A (zh) * | 2022-08-15 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种多模态特征提取网络的预训练方法及装置 |
CN115601582A (zh) * | 2022-08-25 | 2023-01-13 | 同盾科技有限公司(Cn) | 一种基于多模态数据的商品识别方法和系统 |
CN115563255A (zh) * | 2022-09-21 | 2023-01-03 | 北京捷通华声科技股份有限公司 | 对话文本的处理方法、装置、电子设备及存储介质 |
CN115861196A (zh) * | 2022-11-23 | 2023-03-28 | 复旦大学 | 针对多模态医学影像的主动学习方法 |
CN116152568A (zh) * | 2023-03-06 | 2023-05-23 | 中国人民解放军总医院第一医学中心 | 基于对比学习的胃癌分类模型的预训练及微调方法 |
CN116204626A (zh) * | 2023-05-05 | 2023-06-02 | 江西尚通科技发展有限公司 | 基于深度学习的对话新意图发现方法、系统及计算机 |
Non-Patent Citations (6)
Title |
---|
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos;Brian Chen 等;《2021 IEEE/CVF International Conference on Computer Vision (ICCV)》;全文 * |
Multimodal Intent Recognition Based on Contrastive Learning;Yuxuan Wu 等;《Communications in Computer and Information Science》;第1844卷;第3节 * |
New Intent Discovery with Pre-training and Contrastive Learning;Yuwei Zhang;《arXiv》;第2022年卷;第1-14页 * |
一种改进的多模态过程故障检测方法;杨青;马贵昌;;沈阳理工大学学报(第03期);全文 * |
刘宇 等.《Serverless架构下的AI应用开发 入门 实战与性能优化》.北京:机械工业出版社,2022,第2022年卷第107页. * |
基于多模态融合的开放域三维模型检索算法;毛福新 等;《浙江大学学报(工学版)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116796290A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN111402895B (zh) | 语音处理、语音评测方法、装置、计算机设备和存储介质 | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
CN112115706A (zh) | 文本处理方法、装置、电子设备及介质 | |
CN111767740B (zh) | 音效添加方法和装置、存储介质和电子设备 | |
CN112017643B (zh) | 语音识别模型训练方法、语音识别方法及相关装置 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN112735385A (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
CN112259101A (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN111046217B (zh) | 组合歌曲生成方法、装置、设备以及存储介质 | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN114694637A (zh) | 混合语音识别方法、装置、电子设备及存储介质 | |
CN116796290B (zh) | 一种对话意图识别方法、系统、计算机及存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN116092485A (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN115759048A (zh) | 一种剧本文本处理方法及装置 | |
CN113051425A (zh) | 音频表征提取模型的获取方法和音频推荐的方法 | |
CN113409792A (zh) | 一种语音识别方法及其相关设备 | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |