CN116796290B

CN116796290B - 一种对话意图识别方法、系统、计算机及存储介质

Info

Publication number: CN116796290B
Application number: CN202311061980.1A
Authority: CN
Inventors: 彭澎; 徐华; 王进勇
Original assignee: Jiangxi Shangtong Technology Development Co ltd
Current assignee: Jiangxi Shangtong Technology Development Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-03-29
Anticipated expiration: 2043-08-23
Also published as: CN116796290A

Abstract

本发明提供一种对话意图识别方法、系统、计算机及存储介质，方法包括：自文本集、视频集及音频集提取若干个文本子特征、若干个视频子特征及若干个音频子特征；基于不同的说话人，将若干个文本子特征、若干个视频子特征及若干个音频子特征区隔为由若干个多模态特征构成多模态特征组；构建意图识别模型，通过第一损失函数一次训练意图识别模型，以使意图识别模型具备样本区分能力通过第二损失函数二次训练意图识别模型，以使意图识别模型具备意图区分能力。通过考虑不同的说话人，检索了与说话人对应的全部内容，充分结合了上下文的信息，提高了意图识别的精确性。

Description

一种对话意图识别方法、系统、计算机及存储介质

技术领域

本申请涉及图像数据处理技术领域，特别是涉及一种对话意图识别方法、系统、计算机及存储介质。

背景技术

人机交互是指让机器理解和运用自然语言实现人机通信的技术，通过人机对话交互，用户可以在与机器进行对话的过程中，控制机器执行对应的内容查询、内容推荐等操作。

意图识别用于分析用户的核心需求,输出与查询输入最相关的信息，在多模态场景中理解用户意图具有重要的研究意义和广泛的应用。尤其在人机交互的应用中，感知用户的语调、表情和肢体语言能够更好地捕捉用户需求，从而实现更个性化、高效和自然的交互，具有巨大的商业价值。

但现有的意图识别其仅能判断单轮对话的话语，而忽略了上下文信息，影响对用户意图识别的准确性。

发明内容

本申请实施例提供了一种对话意图识别方法、系统、计算机及存储介质，以解决现有技术中仅能判断单轮对话的话语，而忽略了上下文信息，影响对用户意图识别的准确性的技术问题。

第一方面，本申请实施例提供了一种对话意图识别方法，包括以下步骤：

分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征；

基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征，若干个所述多模态特征构成多模态特征组；

构建意图识别模型，将若干个已知意图类别的组合定义为第一样本，将未知意图类别定义为第二样本，以所述多模态特征组为输入值，以所述第一样本及所述第二样本为输出值，通过第一损失函数一次训练所述意图识别模型，以使所述意图识别模型具备样本区分能力；

以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力。

进一步地，所述分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征步骤包括：

将文本集拆分为若干个文本话语，对所述文本话语进行分词处理及编码处理，以获取若干个词段编码，基于所述文本话语拼接所述词段编码，以获取若干个文本子特征；

提取视频集中包含说话人的若干个帧图片，对所述帧图片进行特征提取，以获取特征图片，对所述特征图片进行平均池化，以获取若干个视频子特征；

提取音频集中的若干个音频段，对所述音频段进行特征提取，以获取若干个音频子特征。

进一步地，所述基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征的步骤包括：

提取某一说话人的身份信息，基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征，拼接若干个与所述说话人相关的文本子特征，以形成文本特征；

基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征，拼接若干个与所述说话人相关的视频子特征，以形成视频特征；

基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征，拼接若干个与所述说话人相关的音频子特征，以形成音频特征；

通过所述文本特征、所述视频特征及所述音频特征，获取与所述说话人对应的多模态特征；

基于不同的所述说话人的身份信息，获取若干个多模态特征，若干个所述多模态特征与不同的所述说话人一一对应。

进一步地，所述多模态特征的获取公式为：

，

其中，表示多模态特征，/>表示多模态融合网络，/>表示文本特征组，/>表示视频特征组，/>表示音频特征组。

进一步地，所述第一损失函数为：

，

其中，表示第一损失函数，/>表示多模态特征组，/>表示与第一样本对应的某一多模态特征，/>表示与第一样本对应的另一多模态特征，/>表示与第二样本对应的某一多模态特征，/>表示度量标准，/>表示温度系数，/>表示计算参数，/>表示对数函数，表示指数函数，/>表示指示函数。

进一步地，所述第二损失函数的获取步骤包括：

基于一次训练后的所述意图识别模型，将所述多模态特征组区分为已知特征组及未知特征组；

通过所述已知特征组构建已知意图分类损失函数；

通过所述未知特征组构建未知意图语义捕捉损失函数；

基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建所述第二损失函数。

进一步地，所述已知意图分类损失函数为：

，

其中，表示已知意图分类损失函数，/>表示已知特征组中多模态特征的数量，/>表示已知特征组中某一多模态特征，/>表示第一样本中已知意图类别的数量，/>表示第一样本中与/>对应的已知意图类别，/>表示第一样本中某一已知意图类别，/>表示对数函数，/>表示指数函数；

所述未知意图语义捕捉损失函数为：

，

其中，表示未知意图语义捕捉损失函数，/>表示未知特征组中多模态特征的数量，/>表示未知特征组中某一多模态特征，/>表示具有线性层的分类器；

所述第二损失函数为：

，

其中，表示第二损失函数，/>表示权重超参数。

第二方面，本申请实施例提供了一种对话意图识别系统，应用于上述技术方案中的对话意图识别方法，所述系统包括：

提取模块，用于分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征；

分隔模块，用于基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征，若干个所述多模态特征构成多模态特征组；

第一构建模块，用于构建意图识别模型，将若干个已知意图类别的组合定义为第一样本，将未知意图类别定义为第二样本，以所述多模态特征组为输入值，以所述第一样本及所述第二样本为输出值，通过第一损失函数一次训练所述意图识别模型，以使所述意图识别模型具备样本区分能力；

第二构建模块，用于以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力。

第三方面，本申请实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的对话意图识别方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的对话意图识别方法。

相比于现有技术，本发明的有益效果在于：通过考虑不同的所述说话人，将所述文本子特征、所述视频子特征及所述音频子图特征以所述说话人为区隔，组成所述多模态特征，检索了与所述说话人对应的全部内容，充分结合了上下文的信息，提高了意图识别的精确性；通过训练所述意图识别模型，使所述意图识别模型在识别所述已知意图类别的同时，可检测出开放意图，即检测出所述未知意图类别，可有效挖掘用户的潜在需求。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

图1为本发明第一实施例中对话意图识别方法的流程图；

图2为本发明第二实施例中对话意图识别系统的结构框图；

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

请参阅图1，本发明第一实施例提供的对话意图识别方法，包括以下：

步骤S10：分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征；

所述文本集、所述视频集及所述音频集作为基础数据，其表征同一段对话内容。具体地，所述步骤S10包括：

S110：将文本集拆分为若干个文本话语，对所述文本话语进行分词处理及编码处理，以获取若干个词段编码，基于所述文本话语拼接所述词段编码，以获取若干个文本子特征。

在本实施例中，通过预训练的BERT语言模型对所述文本话语进行处理，对于每一个所述文本话语，将其分词后，形成连续的分词段：[CLS] , s1,···, sn, [SEP]，其中，[CLS]表示初始词段，[SEP]表示终止词段，s1,···, sn均表示中间词段。

对连续的分词段进行编码后，形成若干个词段编码，可以理解地，所述文本子特征与所述文本话语对应。

S120：提取视频集中包含说话人的若干个帧图片，对所述帧图片进行特征提取，以获取特征图片，对所述特征图片进行平均池化，以获取若干个视频子特征；

对所述视频集进行场景检测、物体检测、面部检测、面部跟踪及音频-视觉活跃发言者检测，以生成包含说话人的若干个帧图片，在本实施例中，利用在ImageNet-1K数据集上预训练的SwinTransformer模型对所述帧图片进行特征提取，进而对所述特征图片进行平均池化，获取所述视频子特征。所述视频子特征与所述帧图片对应。

S130：提取音频集中的若干个音频段，对所述音频段进行特征提取，以获取若干个音频子特征；

在本实施例中，通过librosa工具包以16000Hz的采样率加载所述音频集的波形数据，进而获取所述音频段。使用WavLM模型对所述音频段进行特征提取，以获取所述音频子特征。

步骤S20：基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征，若干个所述多模态特征构成多模态特征组；

具体地，所述步骤S20包括：

S210：提取某一说话人的身份信息，基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征，拼接若干个与所述说话人相关的文本子特征，以形成文本特征；

根据所述步骤S110所述，所述文本子特征包括若干个连续的词段编码，在拼接若干个与所述说话人相关的文本子特征时，先将若干个与所述说话人相关的文本子特征以发生时间进行排序，除最先的所述文本子特征外，将其他的所述文本子特征中的第一个所述词段编码删除后，依次拼接于前一所述文本子特征的末尾处，进而获取所述文本特征。

S220：基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征，拼接若干个与所述说话人相关的视频子特征，以形成视频特征；

在获取到若干个与所述说话人相关的视频子特征，将若干个与所述说话人相关的视频子特征以发生时间进行排序，于相邻的所述视频子特征之间插入一维零向量，进而获取所述视频特征。

S230：基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征，拼接若干个与所述说话人相关的音频子特征，以形成音频特征。

所述音频特征的获取方式与所述步骤S220中一致，此处不再进行赘述。

S240：通过所述文本特征、所述视频特征及所述音频特征，获取与所述说话人对应的多模态特征。

所述多模态特征的获取公式为：

，

所述多模态特征是对三种模态的信息进行跨模态交互融合，利用不同模态之间的互补信息，增强意图识别的能力。

S250：基于不同的所述说话人的身份信息，获取若干个多模态特征，若干个所述多模态特征与不同的所述说话人一一对应。

针对不同的所述说话人，重复执行步骤S210~步骤S240，以分别获取与不同的所述说话人一一对应的所述多模态特征。

步骤S30：构建意图识别模型，将若干个已知意图类别的组合定义为第一样本，将未知意图类别定义为第二样本，以所述多模态特征组为输入值，以所述第一样本及所述第二样本为输出值，通过第一损失函数一次训练所述意图识别模型，以使所述意图识别模型具备样本区分能力；

在本实施例中，所述第一样本为IS样本，第一部分的所述多模态特征可对应至所述第一样本中的所述已知意图类别；所述第二样本为OOS样本，第二部分的所述多模态特征于所述第一样本中无法对应所述已知意图类别，则将该部分的所述多模态特征对应为所述未知意图类别。

所述第一损失函数为：

，

对所述第一样本来说，与所述第一样本中已知意图类别对应的所述多模态特征之间互为正样本，而与所述第一样本中已知意图类别对应的所述多模态特征、与所述第二样本中未知意图类别对应的所述多模态特征之间互为负样本，通过所述第一损失函数进行所述一次训练，拉近正样本之间的距离、推开负样本之间的距离，即使所述意图识别模型可捕捉到所述已知意图类别之间的关联性，以及所述已知意图类别与所述未知意图类别之间的差异性。

步骤S40：以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力。

一次训练后的所述意图识别模型，已可实现在欧式空间上将所述第一样本内的所述已知意图类别相互拉近，并将所述第一样本内的所述已知意图类别与所述第二样本内的所述未知意图类别相互推开。通过二次训练所述意图识别模型，可进一步确定某一所述多模态特征对应的所述已知意图类别，完成对话意图识别工作。

所述第二损失函数的获取步骤包括：

通过所述已知特征组构建已知意图分类损失函数；

所述已知意图分类损失函数为：

，

通过所述未知特征组构建未知意图语义捕捉损失函数；

所述未知意图语义捕捉损失函数为：

，

所述第二损失函数为：

，

其中，表示第二损失函数，/>表示权重超参数。

通过考虑不同的所述说话人，将所述文本子特征、所述视频子特征及所述音频子图特征以所述说话人为区隔，组成所述多模态特征，检索了与所述说话人对应的全部内容，充分结合了上下文的信息，提高了意图识别的精确性；通过训练所述意图识别模型，使所述意图识别模型在识别所述已知意图类别的同时，可检测出开放意图，即检测出所述未知意图类别，可有效挖掘用户的潜在需求。

请参阅图2，本发明第二实施例提供了一种对话意图识别系统，该系统应用于上述实施例中的所述对话意图识别方法，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

所述系统包括：

提取模块10，用于分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征；

所述提取模块10包括：

第一单元，用于将文本集拆分为若干个文本话语，对所述文本话语进行分词处理及编码处理，以获取若干个词段编码，基于所述文本话语拼接所述词段编码，以获取若干个文本子特征；

第二单元，用于提取视频集中包含说话人的若干个帧图片，对所述帧图片进行特征提取，以获取特征图片，对所述特征图片进行平均池化，以获取若干个视频子特征；

第三单元，用于提取音频集中的若干个音频段，对所述音频段进行特征提取，以获取若干个音频子特征；

分隔模块20，用于基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征，若干个所述多模态特征构成多模态特征组；

所述分隔模块20包括：

第四单元，用于提取某一说话人的身份信息，基于所述身份信息自若干个所述文本子特征中提取若干个与所述说话人相关的文本子特征，拼接若干个与所述说话人相关的文本子特征，以形成文本特征；

第五单元，用于基于所述身份信息自若干个所述视频子特征中提取若干个与所述说话人相关的视频子特征，拼接若干个与所述说话人相关的视频子特征，以形成视频特征；

第六单元，用于基于所述身份信息自若干个所述音频子特征中提取若干个与所述说话人相关的音频子特征，拼接若干个与所述说话人相关的音频子特征，以形成音频特征；

第七单元，用于通过所述文本特征、所述视频特征及所述音频特征，获取与所述说话人对应的多模态特征；

第八单元，用于基于不同的所述说话人的身份信息，获取若干个多模态特征，若干个所述多模态特征与不同的所述说话人一一对应，若干个所述多模态特征构成多模态特征组；

第一构建模块30，用于构建意图识别模型，将若干个已知意图类别的组合定义为第一样本，将未知意图类别定义为第二样本，以所述多模态特征组为输入值，以所述第一样本及所述第二样本为输出值，通过第一损失函数一次训练所述意图识别模型，以使所述意图识别模型具备样本区分能力；

第二构建模块40，用于以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力；

其中，所述第二损失函数的获取步骤包括：基于一次训练后的所述意图识别模型，将所述多模态特征组区分为已知特征组及未知特征组；

通过所述已知特征组构建已知意图分类损失函数；

通过所述未知特征组构建未知意图语义捕捉损失函数；

本发明还提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案中所述的对话意图识别方法。

本发明还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述技术方案中所述的对话意图识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对话意图识别方法，其特征在于，包括以下步骤：

所述基于不同的说话人，将若干个所述文本子特征、若干个所述视频子特征及若干个所述音频子特征区隔为与不同的所述说话人一一对应的若干个多模态特征的步骤包括：

基于不同的所述说话人的身份信息，获取若干个多模态特征，若干个所述多模态特征与不同的所述说话人一一对应；

所述第一损失函数为：

，

其中，表示第一损失函数，/>表示多模态特征组，/>表示与第一样本对应的某一多模态特征，/>表示与第一样本对应的另一多模态特征，/>表示与第二样本对应的某一多模态特征，/>表示度量标准，/>表示温度系数，/>表示计算参数，/>表示对数函数，/>表示指数函数，/>表示指示函数；

以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力；

所述第二损失函数的获取步骤包括：

通过所述已知特征组构建已知意图分类损失函数；

所述已知意图分类损失函数为：

，

通过所述未知特征组构建未知意图语义捕捉损失函数；

所述未知意图语义捕捉损失函数为：

，

其中，表示未知意图语义捕捉损失函数，/>表示未知特征组中多模态特征的数量，表示未知特征组中某一多模态特征，/>表示具有线性层的分类器；

基于所述已知意图分类损失函数及所述未知意图语义捕捉损失函数构建第二损失函数；

所述第二损失函数为：

，

其中，表示第二损失函数，/>表示权重超参数。

2.根据权利要求1所述的对话意图识别方法，其特征在于，所述分别对文本集、视频集及音频集进行特征提取，以获取若干个文本子特征、若干个视频子特征及若干个音频子特征步骤包括：

3.根据权利要求1所述的对话意图识别方法，其特征在于，所述多模态特征的获取公式为：

，

4.一种对话意图识别系统，应用于如权利要求1~3任一项所述的对话意图识别方法，其特征在于，所述系统包括：

所述分隔模块包括：

所述第一损失函数为：

，

第二构建模块，用于以所述多模态特征组为输入值，若干个所述已知意图类别及所述未知意图类别为输出值，通过第二损失函数二次训练所述意图识别模型，以使所述意图识别模型具备意图区分能力；

所述第二损失函数的获取步骤包括：

通过所述已知特征组构建已知意图分类损失函数；

所述已知意图分类损失函数为：

，

通过所述未知特征组构建未知意图语义捕捉损失函数；

所述未知意图语义捕捉损失函数为：

，

所述第二损失函数为：

，

其中，表示第二损失函数，/>表示权重超参数。

5.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的对话意图识别方法。

6.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至3中任一项所述的对话意图识别方法。