CN116304984A

CN116304984A - 基于对比学习的多模态意图识别方法及系统

Info

Publication number: CN116304984A
Application number: CN202310256990.4A
Authority: CN
Inventors: 刘志中; 吴宇轩; 初佃辉; 孟令强; 孙宇航
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23

Abstract

本发明属于意图识别技术领域，提供了基于对比学习的多模态意图识别方法及系统，首先，与以往的工作相比，改进了跨模态Transformer模型，通过最大化多模态特征与标签之间的互信息以及最小化多模态特征与输入之间的互信息的方式过滤掉单模态表示中的噪声信息实现多模态特征的充分融合，改进后的模型减少了多模态融合过程中的冗余信息，增大了有效信息占比，更有利于多模态特征的充分融合。其次，针对用于训练的标记数量不足的问题，引入了对比学习的学习任务，通过数据增强获得增强样本，原始样本与增强样本之间拉近相似样本，推远不同样本，帮助模型在训练过程中学习到更多意图相关的特征，提高模型提取和融合多模态数据特征的能力。

Description

基于对比学习的多模态意图识别方法及系统

技术领域

本发明属于意图识别技术领域，尤其涉及一种基于对比学习的多模态意图识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

基于多模态数据的意图识别模型，可以利用多个模态的信息对单一模态信息进行补充或者加强，使得模型学习到的特征更加完备，更有助于识别用户的意图。

现有的多模态数据的意图识别模型存在以下缺陷：

(1)现有的多模态意图识别模型在可用的标注数据固定有限时，没有学习到足够的意图相关特征，不能学习到好的特征表示，意图识别的显著进步通常依赖于大量的标注数据进行模型训练,人工标记数据成本高昂。

(2)一些低资源情况下的方法被提出用于意图识别，虽然这些模型在低资源情况下表现良好，但还是需要大量的未标记数据。

(3)在多模态融合过程中，融合成的多模态表征可能是冗余的，一些用于判别的单模态信息可能会被忽略，这会影响模型的性能。理想状况下，多模态表示应该具有不同模态的互补信息，融合完的多模态表示应该包含判别正确意图的最大信息，包含与判别正确意图无关的最小信息。但是，现有的模型由于生成的多模态表示的维度和复杂性较高，不可避免地存在冗余，导致多模态表示含有大量噪声影响模型性能，不能实现多模态特征的充分融合。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于对比学习的多模态意图识别方法及系统，其通过对比学习，让原样本靠近正样本，远离负样本，让模型在多模态融合过程中学习到更多意图相关的特征，同时通过最大化多模态表示和输出之间的互信息，约束多模态表示和输入数据之间的互信息，减少了多模态融合过程中的冗余信息，增大了有效信息占比。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于对比学习的多模态意图识别方法，包括如下步骤：

获取待识别数据内容的多模态数据，其中，多模态数据为文本数据、视频数据和音频数据；

分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

采用多模态融合模型对多个原始特征和增强特征分别进行多模态融合得到融合后的原始特征和增强特征；

基于融合后的原始特征和增强特征计算对比损失，根据对比损失对多模态融合模型进行修正得到修正后的多模态融合模型，采用修正后的多模态融合模型对多个原始特征进行多模态融合得到修正的原始特征；

将修正的原始特征进行解码得到待识别数据内容的意图识别结果。

本发明的第二个方面提供基于对比学习的多模态意图识别系统，包括：

数据获取模块，其被配置为：获取待识别数据内容的多模态数据，其中，多模态数据为文本数据、视频数据和音频数据；

数据增强模块，其被配置为：分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

特征提取模块，其被配置为：基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

特征融合模块，其被配置为：采用多模态融合模型对多个原始特征和增强特征分别进行多模态融合得到融合后的原始特征和增强特征；

意图识别模块，其被配置为：将修正的原始特征进行解码得到待识别数据内容的意图识别结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于对比学习的多模态意图识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述的基于对比学习的多模态意图识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)针对现实中获取大批量高质量的标注数据成本高昂，模型没有学习到足够的意图相关特征，不能学习到一个好的特征表示的问题，本发明通过数据增强生成增强样本进行判别式自监督学习，提高模型在多模态融合过程中学习意图特征的能力，基于对比学习，让原样本靠近正样本，远离负样本。在原始多模态数据的基础上进行数据增强，原始样本和增强样本通过相同的多模态模型得到多模态表示，将这些表示用于计算对比学习损失，让模型在多模态融合过程中学习到更多意图相关的特征。

(2)为了去除多模态融合过程中所产生负面影响的噪声信息，本发明改进了多模态意图识别的融合方法，通过最大化多模态表示和输出之间的互信息，同时约束多模态表示和输入数据之间的互信息，减少了多模态融合过程中的冗余信息，增大了有效信息占比，可以利用多个模态的信息对单一模态信息进行补充或者加强，使得模型学习到的特征更加完备，更有助于识别用户的意图。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一基于对比学习的多模态意图识别总体架构图；

图2是本发明实施例一各模型在MinRec上的准确率和F1分数；

图3是本发明实施例一基于对比学习的多模态意图识别方法在MinRec上的混淆矩阵。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供基于对比学习的多模态意图识别方法，包括如下步骤：

步骤1：获取待识别数据内容的多模态数据；

步骤2：分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

步骤3：基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

步骤4：采用多模态融合模型对多个原始特征和增强特征分别进行多模态融合得到融合后的原始特征和增强特征；

其中，多模态融合模型的构建过程为：基于跨模态注意力机制将单模态融合成多模态特征，通过最大化多模态特征与标签之间的互信息，同时最小化多模态特征与输入之间的互信息的方式过滤掉单模态特征中的噪声信息以实现多模态特征的充分融合；

步骤5：基于融合后的原始特征和增强特征计算对比损失，根据对比损失对多模态融合模型进行修正得到修正后的多模态融合模型，采用修正后的多模态融合模型对多个原始特征进行多模态融合得到修正的原始特征；基于原始特征和增强特征计算对比损失，基于原始特征解码计算意图识别分类损失，将对比损失和意图识别分类损失加权相加组合在一起作为总损失对多模态融合模型进行训练；

步骤6：将融合后的原始特征进行解码得到待识别数据内容的意图识别结果。

基于多模态数据的意图识别模型，可以利用多个模态的信息对单一模态信息进行补充或者加强，使得模型学习到的特征更加完备，更有助于识别用户的意图。仅凭文本信息“Oh,thank God.”或者是音频信息可能无法确定样本的真实意图。基于单一模态数据的模型在学习过程中很容易将此样本的意图错误分类为Thank或者是Care，但是视频模态的内容显示此人离开，通过综合视频模态的信息才可以知道此人的意图是leave。

针对上述问题，提出了一种基于对比学习的意图识别模型。首先，原始的视频、音频和文字通过数据增强生成对比样本，原始样本和增强样本通过改进后的多模态融合模块后，然后将这些特征用于计算对比学习的损失函数，通过对比来学习来优化多模态融合模块，让模型在多模态融合过程中学习到更多意图相关的特征，最后将多模态表征用于意识识别。

为了更清楚地说明本发明的技术方案，接下来以具体的实施例说明：

本实施例中，步骤1中，所述待识别数据内容的多模态数据包括文本数据、视频数据和音频数据。

步骤2中，分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

其中，文本数据增强的过程为：对文本数据进行数据增强采用反向翻译法，将原有文本数据翻译为其他语言后再翻译回原始语言；

例如：待增强文本t即原始文本数据为英文，首先将待增强文本t翻译为中文t_c，然后再翻译回英文得到增强文本t_aug。

由于语言逻辑顺序等的不同，采用反向翻译法得到的新数据和原数据有较大的差别。

视频数据增强的过程为：采用颜色抖动(colorjitter)来进行数据增强；颜色抖动不仅能使模型学习到了色彩不变性，还学习到了部分轮廓特征和空间结构特征。

对于视频数据，首先将原始视频的每一帧图片抽取出来，转换成一组连续的图片；

接着对视频的每一帧图片的亮度(brightness)、对比度(contrast)、饱和度(saturation)和色调(hue)四种属性进行随机调整。

以上操作都不涉及图片的缩放变形，不会产生失真现象而影响结果。

音频数据增强的过程为：与视频的数据增强类似，音频数据增强也是对音频文件的部分数据根据一定的规律进行数据的移位和变换。

本实施例随机采取加噪(Noise Augmentation)、时移增强(Time ShiftAugmentation)、音高变换增强(Pitch Shift Augmentation)三种增强方式中的一种方法对不同音频样本进行数据增强。

噪声增强是在原信号之上增加一个阻尼系数为P的随机噪声段，时移增强是通过沿时间轴滚动信号来随机移位信号，音高变换增强通过改变原始样本音频的音高对音频数据的音高进行±10％范围内的随机滚动。

增强数据具有更高的鲁棒性并提高模型对数据中不变量特征的学习能力。

步骤3中，基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

文本数据的特征提取过程为：采用BERT作为文本编码器来提取文本的特征，Bert的基础建立在transformer之上，拥有强大的语言表征能力和特征提取能力。每一个原始文本语句T经过BERT词嵌入转化文本特征

其中，L_text表示原始文本语句T的长度，D_text表示特征的维度。

视频数据的特征提取过程为：将视频逐帧提取为多图片并抽取关键帧，利用预训练的Faster R-CNN与ResNet-50来提取所有关键帧的特征并表示h，最后采用目标检测的方法将h映射到带注释的边界框的区域以获得视频特征

具体如下:

V_video＝AvgPool(RoIAlign(h,B))

其中，RoIAlign用于将任意尺寸感兴趣区域的特征图，都转换为具有固定尺寸的小特征图，使得得到的小特征图可以更加的精确和信息完整，AvgPool是指二维平均池化操作，L_video表示视频片段的序列长度，D_text表示特征的维度。

音频数据的特征提取过程为：采用wav2vec模型将原始语音样本映射至更能代表数据特征的特征空间。

wav2vec是一种预训练的模型，通过无监督训练，该模型可使网络将原始语音样本映射到更能代表数据特征的特征空间。

所述wav2vec模型包含两个卷积神经网络，一个将原始输入音频信号映射到隐藏空间的编码器网络，另一个结合了编码网络的多个时间步输出的上下文网络。经过wav2vec提取获得音频特征

步骤4中，以对多个原始特征进行多模态融合为例说明特征融合的过程，具体为：

(1)进行时域卷积和位置嵌入，将文本特征V_text、视频特征V_video和音频特征V_audio输入至一维的时域卷积层，各个模态特征经过Cov1D进行降维，将三个模态的特征映射到同一维度:

其中，Conv1D表示一维卷积操作，n_{{text,video,audio}}为三种模态一维卷积的卷积核个数，D表示卷积后的特征维度。

通过时域卷积得到的序列被期望包含序列的局部信息，再进行完时域卷积后接着进行位置嵌入。

基于映射后的三个模态的特征，对位置信息进行编码，编码维度与映射后的特征保持一致，然后与映射后的特征进行融合:

其中，PE(.)为计算每个位置索引的(固定)嵌入，

就是不同模态包含低层位置信息的特征。

(2)通过跨模态Transformers直接关注其他模态中的低级特征来融合多模态信息捕获潜在空间中不同模态之间的适应知识。

每个跨模态Transformers包含n层跨模态注意力模块。以模特β传递信息给模特α为例，i＝1,2,...,n的跨模态Transformers如下:

其中，∫_θ是由θ参数化的位置前馈子层，CM是多头跨模态注意模块，LN是正则化。

两个模态经过多个模块之后获得模态Beta到Aplha的映射，而每个模块内则是，输入特征或者上一个模块的输出经过Layer Normalization之后进行多头跨模态注意模块。

多头跨模态注意模块具体如下：

Y_α＝CM_β→α(H_α，H_β)

其中，

是权重，本实施例中有三种模态，每种模态通过跨模态Transformer从其他俩种模态获得跨模态信息，总共需要6个跨模态Transformer，获得6个特征向量，然后将相同目标模态的特征向量拼接起来通过自注意力机制拼接获得最终的特征。

H＝concat(H_text,H_video,H_audio)

本实施例通过跨模态transformer将单模态表示融合为一个联合的多模态表示；

(3)为了学习最小充分多模态表示和过滤单模态表示中的噪声，接下来通过IB正则化多模态表示以过滤掉单模态表示中的噪声信息，减少冗余实现多模态特征的充分融合；

MI表示的是信息论中用以评价两个随机变量之间的依赖程度的一个度量。两个离散随机变量X和Y的互信息可以定义为：

其中，p(x,y)是X和Y的联合概率分布函数，而p(x)和p(y)分别是X和Y的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

其中，p(x,y)是X和Y的联合概率密度函数，而p(x)和p(y)分别是X和Y的边缘概率密度函数，

多模态融合模块编码器输入x为跨模态Transformer后的表征H，为原始多模态嵌入，编码后的多模态嵌入z表示为:

z＝μ_z+∑_z×ε

其中，ε是以0为均数、以1为标准差的正态分布，深度神经网络学习高斯分布的均值μ_z和∑_z方差。

MIB的目标就是最小化原始多模态嵌入x和编码后的多模态嵌入z之间的互信息，最大化编码后的多模态嵌入z和目标y之间的互信息:

maximize I(y；z)

miximize I(x；z)

第一个约束鼓励z最大限度地预测目标y，第二个约束迫使z尽可能少地包含来自x的信息。

换句话说，IB原理旨在学习x相对于标签y的最小充分表示，显式地强制z只保留x中对预测有区别的信息。MIB就可以定义为：

L＝I(y；z)-βI(H；z)

其中，β≥0是决定优化过程中最小信息约束权值的标量。

上述是以对多个原始特征进行多模态融合为例说明特征融合的过程，增强数据的特征和原始特征进行多模态融合的过程一致，不再重复赘述。

步骤5中，在每一个迭代过程中，随机获取大小为n的batchsize，并获取这个批次的增强样本，得到2n个数据。

每个样本除了对应的增强样本和自己，其余2N-2个样本都应该被视作负样本。

在获取完增强数据后，首先用多模态融合模块提取原始样本和增强样本的表示，最后计算对比损失L_c，本实施例使用NT-Xent loss(Normalized Temperature-scaledCross-entropy)作为对比损失，NT-Xent目标是拉近相似样本，推远不同样本。

NT-Xent对比损失定义为:

其中，τ为对比学习温度系数，sim是相似度函数，为余弦相似度，表示L2正则后的H和H_au之间的点积，定义为:

sim(H,H_au)＝H^TH_au/||H||||H_au||

其中，||·||表示L2范数。

在多模态融合模型进行训练时，将对比学习损失和意图识别分类损失加权相加组合在一起，合并成为总的损失一起进行训练。

模型训练的总损失如下定义：

L＝α*L_c+β*L_r

其中，α和β为权重系数用来平衡不同的训练损失，α为对比损失为权重系数，β为意图识别分类损失的权重系数。

为了验证本发明的有效性，进行了实验，具体的实验过程如下：

本发明实验采用公开的数据集MIntRec，该数据集来源于电视剧《SuperStore》，表1显示了MIntRec的统计数据。

表1MIntRec的统计数据

MIntRec由2224个高质量的样本组成，每条数据都包含文本、视频和音频，分为两种粗粒度意图类别和二十种细粒度意图类别。MIntRec数据集分为训练集、验证集和测试集，数量分别为1334、445和445，训练集、验证集和测试集的标签分布如表2所示，从表2中可知三个子集各个意图分类的比例基本保持了一致，保证了实验的有效性和公平性。

表2训练集、验证集和测试集意图标签分布

本发明模型所有参数使用Adam优化器进行更新。实验环境为windows10系统，模型采用python语言、pytorch框架，版本分别为3.8.3和1.11.0，使用一块GeForce RTX3090GPU进行训练。实验的训练轮数为50，训练的批处理大小为16，temperature为0.5，学习率为0.00003。

为了便于对比本发明所提出的方法和现有模型的效果，将本发明提出的基于对比学习的多模态意图识别模型记为MIRCL(An Approach for Multimodal IntentRecognition Based On Contrastive Learning)。

本发明使用F1分数作为调整超参数的评价标准，表3和图2展示了不同模型在MIntRec上的表现结果。本发明使用准确率、F1分数、精准率和召回率来评价模型的表现，各个指标分数越高代表效果越好。与只使用本发明的方法相比，基于多模态数据的模型性能都得到了大幅度提升，证明了基于多模态数据模型的有效性。MIRCL的准确率与最高的模型MAG-BERT相比提升了0.61，F1分数、精准率与最高的模型MISA相比分别提升了1.81和1.04，召回率与MAG-BERT相比提高了1.87。从表3和图2可看出MIRCL的各项指标均超越了对比试验的模型，这证明了MIRCL在多模态意图识别任务中较其他方法而言有更好的性能。

表3精度结果对比

方法	模式	准确率	F1	精准率	召回率
						BERT	文本	70.88	67.40	68.07	67.44
MAG-BERT	文本+视频+音频	72.65	68.64	69.08	69.28
						MulT	文本+视频+音频	72.52	69.25	70.25	69.24
MISA	文本+视频+音频	72.29	69.32	70.85	69.24
						MIRCL	文本+视频+音频	73.26	71.13	71.89	71.15

图3为MIRCL在MinRec上的混淆矩阵，展示了各个意图类别分类的结果，混淆矩阵的列向量表示模型预测的结果，纵向量为数据的实际意图类别，横纵一致对应的值反映模型可以正确识别当前意图类别的程度。模型对建议、投诉、表扬这3个意图类别识别出了较多的数量。从图3的混淆矩阵可知预测标签比较集中于对角线，没有出现散乱现象，这充分说明了该模型的优越性和鲁棒性。

为了更具有说服力，本发明研究了MIRCL模型在每个细粒度意图类别中的分类效果显示在了表4和表5当中。表4和表5当中的数值为每个意图类别的F1分数。

表4“表达情绪和态度”中每个细粒度意图类别的结果

表5“实现目标”中每个细粒度意图类别的结果

从表4和表5中可知，相较于其他模型，MIRCL在批评、嘲讽、开玩笑、通知、反对、离开意图类别有着较高的识别效果。这些意图类别的判定都需要视频和音频信息的帮助，仅凭借文本信息是不足以判别这些类别。多模态信息对这些意图的判别有巨大的帮助，证明了MIRCL在多模态意图识别任务中的优势，可以更加有效的利用多模态信息。MIRCL在感谢意图类别甚至实现了准确率百分百的预测。除了在同意意图类别，MIRCL模型在别的意图类别的F1分数都接近或者超越其他模型。综合上述实验结果，MIRCL模型在公开数据集MinRec上取得了最好的结果，分析其在同意意图上表现不佳的原因，可能在于MinRec中数据集训练样本占比较少。

表6为MIRCL的消融实验结果，其中实验1的Baseline为Mult，实验2+MI表示使用MI改进的MULT模型，实验3+CL表示引入对比学习的模型，实验4为完整的模型。实验1、2、3结果显示，模型的各个评价指标均下降，证明了各个模块的有效性。

表6 采用MIRCL进行的消融实验结果

	方法	准确率	F1	精准率	召回率
						1	Baseline	72.52	69.25	70.25	69.24
2	Baseline+MI	72.81	70.59	71.42	70.83
						3	Baseline+CL	72.58	70.71	72.17	70.20
4	Baseline+MI+CL	73.26	71.13	71.89	71.15

可以从表中看出相比于基线通过MI模块改进后的多模态意图识别模型对意图识别的分类性能有积极的效果，实验2的准确率、F1分数、精准率和召回率分别提升0.29、1.34、1.17和1.59。相较于Baseline，实验3准确率、F1分数、精准率和召回率提升0.06、1.46、1.92和0.96，说明对比学习在学习过程中有助于多模态模型的优化，让模型在多模态融合过程中学习到更多意图相关的特征。

综上所述，首先，与以往的工作相比，本发明改进了跨模态Transformer模型，通过最大化多模态特征与标签之间的互信息以及最小化多模态特征与输入之间的互信息的方式过滤掉单模态表示中的噪声信息实现多模态特征的充分融合，改进后的模型减少了多模态融合过程中的冗余信息，增大了有效信息占比，更有利于多模态特征的充分融合。其次，针对用于训练的标记数量不足的问题，本发明引入了对比学习的学习任务，通过数据增强获得增强样本，原始样本与增强样本之间拉近相似样本，推远不同样本，帮助模型在训练过程中学习到更多意图相关的特征，提高模型提取和融合多模态数据特征的能力。在公共数据集MinRec上的实验结果表明，本发明提出的模型与基线模型相比在准确率、F1分数、精准率和召回率都有所提升，证明了模型的有效性。在未来的工作中，将通过探索多模态融合方式来进一步提升模型的性能。

实施例二

本实施例提供了基于对比学习的多模态意图识别系统，包括：

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于对比学习的多模态意图识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于对比学习的多模态意图识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于对比学习的多模态意图识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述多模态融合模型的构建过程为：基于跨模态注意力机制将单模态融合成多模态特征，通过最大化多模态特征与输出之间的互信息，同时最小化多模态特征与输入之间的互信息的方式过滤掉单模态特征中的噪声信息。

3.如权利要求2所述的基于对比学习的多模态意图识别方法，其特征在于，采用IB正则化多模态表示过滤掉单模态表示中的噪声信息。

4.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据包括：

文本数据的增强过程为：对文本数据进行数据增强采用反向翻译法，将原有文本数据翻译为其他语言后再翻译回原始语言；

视频数据增强的过程为：将原始视频的每一帧图片抽取出来，转换成一组连续的图片，对每一帧图片的亮度、对比度、饱和度和色调四种属性进行随机调整；

音频数据增强的过程为：随机采取加噪、时移增强、音高变换增强三种增强方式中的一种方法对不同音频样本进行数据增强。

5.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，

文本数据的特征提取过程为：采用BERT作为文本编码器来提取文本的特征；

视频数据的特征提取过程为：将视频逐帧提取为多图片并抽取关键帧，利用预训练的Faster R-CNN与ResNet-50来提取所有关键帧的特征，采用目标检测的方法将所有关键帧的特征映射到带注释的边界框的区域以获得视频特征；

6.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，对多个原始特征进行多模态融合的过程包括：

将文本特征、视频特征和音频特征输入至一维的时域卷积层，将各个模态特征经过Cov1D进行降维，将三个模态的特征映射到同一维度；

基于映射后的三个模态的特征，对其位置信息进行编码，编码维度与映射后的特征保持一致，然后与映射后的特征进行融合；

通过跨模态Transformers直接关注其他模态中的低级特征来融合多模态信息捕获潜在空间中不同模态之间的适应知识，得到融合后的特征。

7.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述对比损失采用归一化温度尺度交叉熵计算，通过对比损失拉近相似样本，推远不同样本。

8.基于对比学习的多模态意图识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于对比学习的多模态意图识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于对比学习的多模态意图识别方法中的步骤。