CN115310560A

CN115310560A - 一种基于模态空间同化和对比学习的多模态情感分类方法

Info

Publication number: CN115310560A
Application number: CN202211139018.0A
Authority: CN
Inventors: 孔万增; 杨宇涛; 唐佳佳; 倪斌斌; 戴玮成; 朱莉
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-11-08
Also published as: US20240119716A1

Abstract

本发明公开一种基于模态空间同化和对比学习的多模态情感分类方法。本发明引入了同化的概念，利用由模态之间的互补信息组成的引导向量来指引每个模态同时接近解空间。该操作不仅进一步提高搜索解空间的效率，而且使得三种模态的异构空间同构。在空间同构的过程中，能够在一定程度上有效平衡多个模态对最终解空间的贡献。在指导每个模态的时候，该策略能使模型更加关注情感特征，这减少了模态内冗余，构建多模态表示的难度也因此降低了。其次，本发明还运用了监督对比学习来增强模型辨别不同情绪差异的能力，使得模型能够捕捉到更为全面的多模态情感上下文。

Description

一种基于模态空间同化和对比学习的多模态情感分类方法

技术领域

本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域，涉及一种基于模态空间同化和对比学习的多模态情感分类方法，具体是利用一个指导向量使得异构的多模态空间同化，并通过监督对比学习约束获得的多模态表示，从而判断被试情感状态的方法。

背景技术

情感分析领域通常包含文本、视频以及音频等数据。以往的研究已经证实了这些单模数据通常包含着与情绪状态相关的判别信息，同时发现只是单纯分析单个模态的数据往往不能得到准确的情绪分析。但是，利用多种模态的信息则能够保证模型能进行更加准确的情感分析。通过模态之间的互补性消除模态之间的奇异性和不确定性，有效增强模型的泛化能力和鲁棒性，以及提高情感分析任务的性能。

现有的基于注意力机制的融合模型，通过从每个模态中提取信息来构建一个紧凑的多模态表示，并根据该多模态表示进行情感分析。因此受到了越来越多的研究人员的关注。首先通过注意力机制得到另外两个模态信息(视频和音频)与文本模态信息之间的注意力系数，然后根据得到的注意力系数进行多模态融合。但是这忽略了多个模态信息的之间存在的交互关系。此外，模态之间存在着间隙以及每个模态内部存在着冗余，这两个都会增加学习联合嵌入空间的难度。然而，现有的多模态融合方法很少考虑到这两个细节，也没有保证进行交互的多模态的信息是细粒度的，这对最终的任务表现有着一定的影响。

现有的基于转换网络的多模态融合模型，在建模时间依赖性方面上有着很大的优势，并且所包含的自注意力机制能有效解决多模态数据之间的不对齐问题，因此引起了广泛关注。该多模态融合模型通过将源模态的分布转换为目标模态的分布来获得跨模态公共子空间，并以此作为多模态融合信息。此外，在将源模态转换为另一模态的过程中获得解空间，这使得解空间过度依赖于目标模态的贡献，并且当某一种模态数据缺失时，解空间将会缺少来自于这种模态数据的贡献，这导致无法有效平衡各个模态对最终解空间的贡献。另一方面，现有转换模型通常只考虑文本到音频以及文本到视频的转换，并没有考虑其他的模态转换的可能性，这对最终的任务表现有着一定的影响。

中国专利CN114722202A公开提出利用双向双层注意力LSTM网络实现多模态情感分类，利用双向注意力LSTM网络能够发掘更加全面的时间依赖性；中国专利CN113064968A提供了一种基于张量融合网络的情感分析方法，采用张量网络建模模态之间的交互。但是以上两个网络很难有效地从长序列中探索多模态情感上下文，这可能会限制学习模型的表达能力。中国专利CN114973062A公开了一种基于Transformer的多模态情感分析方法，该方法使用成对的交叉模态注意机制来捕获跨不同时间步长的多模态序列之间的交互，以此潜在地将序列从一种模态映射到另一种模态。但是忽略了辅助模态的冗余消息，这增加了对多模态消息进行有效推理的难度。更重要的是，基于注意力的框架主要关注多模态之间的静态或隐式交互，这会导致形成多模态情感上下文是相对粗粒度的。

发明内容

本发明的第一个目的是针对现有技术的不足，提出一种基于模态空间同化和对比学习的多模态情感分类方法，提出了TokenLearner模块来构建由模态之间互补信息组成的引导向量。首先，该模块以各个模态的多头注意力得分为基础，为每个模态分别计算了一个权重图。然后根据获得的权重图将每个模态映射为新的向量，并通过正交约束来保证这些新的向量包含的信息是互补的。最后计算向量的加权平均值，以获得引导向量。学习到的引导向量指导每个模态以并行方式接近解空间，这可以使三个模态的异构空间同构。这种策略不存在每个模态对最终解空间的贡献不平衡的问题，并且适用于有效探索更复杂的多模态情感背景。为了显著提高模型区分各种情绪的能力，利用监督对比学习作为对模型进行微调时的额外约束。通过标签信息的帮助，模型可以捕获更全面的多模态情感上下文。

本发明所采用的技术方案是：

一种基于模态空间同化和对比学习的融合方法，包括以下步骤：

步骤(1)、获取多模态数据：

对多模态特征信息进行预处理，抽取音频模态、视频模态和文本模态的初级表征H_t、H_a、H_v；

步骤(2)、构建TokenLearner模块获得引导向量：

每个模态m∈{t，a，v}均设有TokenLearner模块，t，a，v分别为文本、音频、视频模态；并且这些TokenLeaner模块在每一次引导中都会被重复使用；所述TokenLearner模块通过模态的多头注意力得分计算出一个权重图，然后根据该权重图来得到一个新的向量Z_m：

Z_m＝α_m(MultiHead(H_m，H_m))H_m 式(4)

其中α_m是一层一维卷积并在卷积之后添加softmax函数，

和

分别是Q，K的权重，d_k表示H_m的维度，n代表多头的数量；MultiHead(Q，K)表示多头注意力得分；head_i表示第i头注意力得分；Attention(Q，K)是计算注意力得分的函数；上标T表示将矩阵转置；Q、K是函数的两个输入，即为要计算多头注意力得分的模态的表征H_m、H_m。

为了确保在Z_m中的信息代表其对应模态的补充信息，添加正交性约束对每个模态的TokenLeamer模块进行训练，减少冗余的潜在表示，并鼓励TokenLeamer模块对多模态的不同方面进行编码；

所述正交性约束定义为：

其中

代表平方弗罗贝尼乌斯范数；

通过计算Z_m的加权平均值，以获得引导向量Z，其可公式如下：

其中w_m是权重；

步骤(3)、引导模态靠近解空间：

根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近；在每一次的引导过程中，引导向量Z会根据当前三个模态所处空间的状态进行实时更新；更具体地说，对于第l次引导，对每个模态的指导后矩阵表示如下：

其中θ_m表示Transformer模块的模型参数，

表示

和Z^l的拼接，并且引导向量Z对每个模态的引导由Transformer来完成；

将公式(7)拓展后具体所示：

其中MSA表示多头自注意模块，LN表示层归一化模块，MLP表示多层感知器；

提取经过L次引导得到的三个模态指导后矩阵中最后一行数据，并将它们拼接成一个多模态表示向量H_final；L表示最大引导次数；

步骤(4)、通过监督对比学习约束多模态表示向量H_final：

复制多模态表示向量H_final的隐藏状态，以形成增广表示

并去除它的梯度；基于上述机制，对于将N个样本进行扩展后，就有2N个样本；表示如下：

其中

表示监督对比学习的损失函数，

是多视图批次中任意样本的索引，τ∈R⁺表示用于控制类别分离的可调系数，P(i)是与z不同但具有相同类别的样本集，并且A(i)表示除去i之外的所有索引；SIM()是用于计算样本之间相似性的函数。

步骤(5)、获取分类结果：

多模态表示H_final通过全连接层获得最终预测

实现多模态情感分类。

训练过程中，使用均方误差损失来估计训练期间的预测质量：

其中y表示真实标签；

整体损失

由

和

的加权和构成，表示如下：

其中

和

分别表示情感分类任务的损失函数，正交约束损失函数以及监督对比学习的损失函数，α、β、γ分别是

和

的权重。

本发明的第二个目的是提供一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现所述的方法。

本发明的第三个目的是提供一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现所述的方法。

本发明的有益效果是：

本发明引入了同化的概念，通过一个引导向量指导每个模态所处的空间同时往解空间靠近，使得模态间的异构空间能够同化。这种策略不存在每种模态对最终解空间贡献不平衡的问题，适用于有效探索更复杂的多模态情感上下文。同时，指导单一模态的转向向量由多个模态之间的互补信息组成，这能使得模型更加关注情绪特征，从而可以自然地去除会增加获得多模态表示难度的模态内冗余。

结合对偶学习机制以及自注意力机制，在将一个模态转换为另一个模态的过程中，挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时，对偶学习技术能够增强模型的鲁棒性，因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着，在此基础上构建了一个分层融合框架，将所有具有同一个源模态的跨模态融合信息拼接在一块，进一步采用一维卷积层进行高层次的多模态融合，是对当前情感识别领域的多模态融合框架的有效补充。此外，引入了监督对比学习，以帮助模型辨别不同类别的差别，从而达到提高模型区分不同情绪的能力的目的。

附图说明

图1为本发明的流程图；

图2为本发明步骤3的整体示意图；

图3为本发明的融合框架示意图。

具体实施方式

下面结合附图，对本发明方法做详细描述。

本发明方法基于模态空间同化和对比学习的多模态情感分类方法，如图1所示，包括以下步骤：

步骤1、获取多模态信息数据

在被试执行特定情感任务下，记录被试的多模态数据；所述多模态包括文本模态、音频模态以及视频模态。

步骤2、多模态信息数据预处理

通过特定网络对每个模态进行初级特征的提取：

对文本模态采用BERT；

对音频模态以及视频模态采用Transformer；

H_t＝BERT(T)

H_a＝Transformer(A)

H_v＝Transformer(V) 式(1)

其中，

为第m个模态的初级表征，m∈{t，a，v}；t，a，v分别为文本、音频、视频模态；T，A，V分别为文本、音频、视频三个模态的原始数据；T_m为时域维度的尺寸，d_m为每一个时刻的特征向量的长度；

步骤3、构建引导向量指导模态空间。

在提出的多模态融合的框架中，TokenLearner模块是核心处理模块之一。在多模态融合过程中，为每个模态都设计了这个模块用于提取模态之间的互补信息，以此构建一个引导向量来同时引导每个模态空间向解空间靠近，这保证了每个模态对最终解空间的贡献是相同的。

首先根据多模态数据H_m(m∈{t，a，v})计算每个模态的多头注意力得分矩阵MultiHead(Q，K)，然后对该矩阵使用一维卷积并在卷积之后添加softmax函数，以此来得到权重矩阵，权重矩阵的行数远小于H_m(m∈{t，a，v})的行数。将权重矩阵与多模态数据H_m(m∈{t，a，v})相乘来进行信息Z_m(m∈{t，a，v})的提取：

Z_m＝A_mH_m＝α_m(MultiHead(H_m，H_m))H_m 式(5)

其中Attention(Q，K)是计算注意力得分的函数；上标T表示转置；d_k表示H_m的维度。

将包含模态间互补信息的Z_m(m∈{t，a，v})进行加权平均值来构建当前状况下的引导向量Z。

步骤3将会重复多次，每一次都会根据当前各个模态的状况生成一个新的引导向量Z来引导模态空间往最终的解空间靠近。同时为了保证TokenLearner模块提取的信息是模态间互补的，我们会在最后使用正交约束来训练三个TokenLearner模块：

步骤4、继续预训练：

基于步骤3，经过多次引导之后提取多模态数据H_m(m∈{t，a，v})的最后一个元素，并将它们集成一个紧凑的多模态表示H_final。为了使得模型能更加容易区分各种情绪，引入了监督对比学习来约束多模态表示H_final，该策略引入了标签信息，在充分利用标签信息的情况下，使相同情感的样本具有凝聚力，不同情感的样本相互排斥。最后，将最终的融合信息输入线性分类层，将输出信息与情绪类别标签进行对比，得到最终的分类结果。

使用本发明与一些效果优越的融合方法在两个公开的多模态情感数据库CMU-MOSI、CMU-MOSEI上进行对比，其中CMU-MOSI(Multimodal Opinion Sentiment Intensity)数据集由从Youtube下载的93个意见视频中收集的2199个视频片段组成。包含了89位不同的叙述者对某些话题的看法，视频的每个片段都被手动标记为从-3(强烈消极)到3(强烈积极)的情绪强度。

表1结果为平均绝对误差MAE、相关系数Corr、情感二分类任务对应的精确度Acc-2、F1分数F1-Score以及情感七分类任务对应的精度Acc-7。尽管Self-MM优于其他现有方法，但仍然可以从表1观察到，本发明的优势以及有效性。在CMU-MOSI数据集上，本发明在所有指标上都优于最先进的Self-MM。此外，在CMU-MOSEI数据集上，本发明优于Self-MM，在Acc2上获得了大约0.8％的提升，在F1-Score上获得0.9％的改进。因此，证明了本发明所提出方法的有效性。

表1.结果对比表