CN116244473B

CN116244473B - 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Info

Publication number: CN116244473B
Application number: CN202310096857.7A
Authority: CN
Inventors: 李勇; 崔振; 王元植
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-08-11
Anticipated expiration: 2043-02-10
Also published as: CN116244473A

Abstract

本发明公开了一种基于特征解耦和图知识蒸馏的多模态情感识别方法，包括以下步骤：S1、数据收集；S2、端到端的模型设计；S3、模型训练；S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I。测试阶段使用的模型为模型M中的浅层特征提取器E，共享编码器私有编码器多模态Transformer和情感分类器C，将测试集I输入步骤S3获得的模型M^*中以得到测试集I的情感识别结果。本发明采用上述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法，实现了端到端的多模态情感识别，显著提升了多模态情感识别的精度。

Description

一种基于特征解耦和图知识蒸馏的多模态情感识别方法

技术领域

本发明涉及多模态学习、自然语言处理和计算机视觉技术领域，尤其是涉及一种基于特征解耦和图知识蒸馏的多模态情感识别方法。

背景技术

多模态情感识别的目的是从视频片段中感知人类的情感态度。视频片段中涉及来自各种模态的时间序列数据，如语言数据、音频数据以及视觉数据。这种丰富的多模态数据有利于理解人类的行为和意图，在智能辅导系统和机器人技术等领域具有广泛的应用前景和价值。然而不同模态之间的内在异构性增加了多模态表示学习的难度，并导致了不同模态间显著的性能差异。因此如何缓和这些模态之间的差异成为亟需解决的问题。目前的识别方法可分为“传统多模态情感识别方法”和“基于深度学习的多模态情感识别方法”。具体有：

(1)传统多模态情感识别方法。相关专利：CN112101401B、CN113076847B、CN106250855B主要通过最小二乘法、支持向量机等传统机器学习方法处理和融合多模态数据，在此基础上利用相应的分类器进行多模态情感识别。但这些方法得到的多模态特征较为粗糙，特征的表示能力较弱，直接影响后续的识别精度，因此该类方法的实际应用价值有限。

(2)基于深度学习的多模态情感识别方法。相关专利：CN112489635B、CN113326703B、CN112784798B主要构建相应的深度网络进行多模态特征提取和多模态特征融合，在此基础上将深度网络输出的多模态融合特征送入相应的分类器进行多模态情感识别。但这些方法忽略了模态之间内在的异构性，此异构性导致了模态间显著的性能差异，进一步阻碍了多模态特征的融合，影响后续的识别精度。

发明内容

本发明的目的是提供一种基于特征解耦和图知识蒸馏的多模态情感识别方法，实现了端到端的多模态情感识别，显著提升了多模态情感识别的精度。

为实现上述目的，本发明提供了一种基于特征解耦和图知识蒸馏的多模态情感识别方法，包括以下步骤：

S1、搜集大量的用于情感识别的视频片段，使其转化为语言模态样本、视觉模态样本、音频模态样本，然后对所有样本进行情感的标注得到多模态情感识别数据集A；

S2、端到端的模型设计；

S3、将步骤S1获得的多模态情感识别数据集A分为训练集T和验证集V，将训练集T输入到步骤S2设计的模型M中进行模型训练，训练阶段同时使用验证集V验证模型训练效果，即当模型M在验证集V上获得较好的情感识别结果，并且该精度不能随着训练过程再提升时，停止训练，最终训练完成获得模型M^*；

S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I，测试阶段使用的模型为模型M中的浅层特征提取器E，共享编码器私有编码器/>多模态Transformer和情感分类器C，将测试集I输入步骤S3获得的模型M^*中以得到测试集I的情感识别结果。

优选的，步骤S2包括以下步骤：

S21、对多模态特征进行特征解耦；

S22、构建图知识蒸馏模块G来实现动态的跨模态知识迁移；

S23、计算分类任务的损失

S24、计算模型M的总体训练损失：

优选的，在步骤S21中，对多模态特征进行特征解耦：

(1)使用一个共享参数的编码器将每个模态的特征映射到同构空间中，并提取每个模态的同构特征；使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中，并提取每个模态的异构特征，至此每个模态的特征都被解耦为同构特征和异构特征/>

(2)为了维持同构特征和异构特征之间的差异，同构和异构特征之间使用最小化余弦距离进行正交约束并以自回归的方式重建耦合后的特征，解耦后的每个模态的同构和异构特征首先通过参数非共享的私有解码器产生耦合的模态特征，并使用均方误差损失函数/>约束耦合的模态特征和原始的模态特征近似，随后使用参数非共享的私有编码器对耦合的模态特征进行重新编码，再次产生异构特征，并使用误差损失函数/>约束当前的异构特征和先前的异构特征近似；

(3)与此同时，由于来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似，因此在次先验基础上构建一个边界损失来维持同构特征的类别判别能力。

优选的，在步骤S22中，构建图知识蒸馏模块G来实现动态的跨模态知识迁移：

(1)利用模态和模态之间的知识蒸馏方向构建图结构，其中，图结构的顶点代表模态，图结构的边表示知识蒸馏的方向和权重，其权重聚合了不同模态的logits和特征，并使用可学习参数自适应地学习有效的权重值；

(2)在基于解耦的多模态特征空间中，为每个特征空间都单独设计一个图知识蒸馏，其蒸馏损失被定义为不同模态logits之间的平均绝对误差；

(3)在同构空间中，由于特征之间的分布差距被充分缩小，图知识蒸馏可以直接应用于这些同构特征中进行跨模态知识迁移；

(4)在异构空间中，首先利用多模态Transformer来建立不同模态特征之间的语义对齐，然后再进行图知识蒸馏，多模态Transformer中的跨模态注意机制增强了多模态表示的性能，减少了不同模态间的语义差异。

优选的，在步骤S3中的模型训练具体包含以下步骤：

(1)视频片段中的三个模态数据：语言模态、视觉模态和音频模态，将其由三个独立的时序卷积层来聚合时间信息并获得浅层的多模态特征；

(2)随后，浅层的多模态特征由共享编码器和私有编码器进行特征解耦，分别提取出同构特征和异构特征；

(3)对于训练阶段，特征解耦包含四个损失函数，分别是同构特征和异构特征之间的正交损失每个模态私有解码器重建的耦合特征和对应浅层的多模态特征之间的误差损失/>私有编码器对耦合特征进行重新编码获得的异构特征和先前的异构特征之间的误差损失/>维持同构特征的类别判别能力的边界损失/>

(4)得到同构和异构特征后，构建图知识蒸馏进行模态之间的知识迁移，其中包含两部分：同构图知识蒸馏和异构图知识蒸馏，同构图知识蒸馏中，直接对同构特征应用图知识蒸馏来动态迁移知识；异构图知识蒸馏中，异构特征首先使用多模态Transformer提取语义对齐的异构特征，然后使用图知识蒸馏进行模态之间动态的知识迁移，图知识蒸馏的损失被定义为不同模态logits之间的平均绝对误差；

(5)最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别，其分类损失被定义为预测值和标签值之间的平均绝对误差，该网络在训练过程中，通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移，从而提升最终的情感识别性能。

因此，本发明采用上述一种基于特征解耦和图知识蒸馏的多模态情感识别方法，其技术效果如下：

(1)实现了端到端的多模态情感识别，显著提升了多模态情感识别的精度。

(2)使用共享编码器和私有编码器进行特征解耦，多模态特征被显式地解耦为同构特征和异构特征，以缓解不同模态之间特征分布的差异，解耦后的特征相比于原始特征更为精炼。

(3)利用图神经网络构建动态的跨模态知识蒸馏，并分别应用到同构和异构特征中。

(4)通过图神经网络自适应地学习有效的跨模态知识蒸馏方向和蒸馏权重，模态间显著的性能差异被有效地缓和，进一步提升了后续多模态融合的表达能力，从而提升了情感识别的性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法的流程图；

图2是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法训练阶段的网络示意图；

图3是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法测试阶段的网络示意图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的主旨或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其它实施方式。这些其它实施方式也涵盖在本发明的保护范围内。

还应当理解，以上所述的具体实施例仅用于解释本发明，本发明的保护范围并不限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明/发明的保护范围之内。

对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中，并且因此是本发明公开内容的一部分。

实施例一

如图所示，本发明提供了一种基于特征解耦和图知识蒸馏的多模态情感识别方法，主要分为以下四个阶段：

一、数据准备阶段

搜集大量的用于情感识别的视频片段，其中对每个视频片段中的文本数据使用预训练的BERT模型将文本中的每个字符转化为对应的词向量作为语言模态样本，使用OpenFace工具包提取每个视频帧的面部动作单元作为视觉模态样本，使用COVAREP提取视频片段中的声学特征作为音频模态样本。然后对所有样本进行情感的标注得到多模态情感识别数据集A，标注内容为人类的情感强度。

二、模型设计阶段，端到端的模型设计如下：

(1)对多模态特征进行特征解耦

首先使用一个共享参数的编码器将每个模态的特征映射到同构空间中，并提取每个模态的同构特征。然后使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中，并提取每个模态的异构特征，至此每个模态的特征都被解耦为同构特征和异构特征/>

整体模型记为M，M包含一个浅层特征提取器E、特征解耦模块D和图知识蒸馏模块G，以及由一层全连接层构成的情感分类器C。模型输入为多模态情感识别数据集A；原始特征提取器E包含三个独立的时序卷积层来接收三个模态的输入数据，分别为：语言数据L，视觉数据V和音频数据A，并输出原始特征m∈{L,V,A}表示一个模态，/>可以被表示为：

原始特征被特征解耦模块D映射为同构特征/>和异构特征/>

为了区分和/>之间的差异并减小特征的模糊性，本发明使用自回归的方式合成耦合特征。具体来说，将每种模态的/>和/>拼接起来，利用特征解耦模块D中的私有解码器/>来产生耦合特征，即/>随后，耦合特征/>通过私有编码器/>重新编码，再次提取异构特征。[·,·]表示特征拼接操作。耦合特征和原始特征之间的损失/>可以计算为：

与此同时，私有编码器对耦合特征进行重新编码，获得的异构特征和先前的异构特征之间的误差损失可以计算为：

为了维持同构特征的类别判别能力，提升特征解耦的性能，本发明增加一个先验知识：来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似。为此，我们将这个先验构建为一个边界损失可以计算为：

其中S＝i,j,kmi≠mj,mi＝mk,ci＝cj,c[i]≠c[k]}表示一个三元组，mi表示样本i的模态，ci表示样本i的情感类别，cos·,·表示两个特征之间的余弦相似度，α用于控制类内和类间相似度的差距。为了进一步维持同构和异构特征之间的差异，本发明在同构和异构特征之间增加正交约束，可以计算为：

上述的损失函数组合起来形成特征解耦损失函数表示为：

其中γ为边界损失和正交约束的权重。

上述的特征解耦过程显式地将多模态特征解耦到同构和异构空间，以缓解不同模态之间特征分布的差异，解耦后的特征相比于原始特征更为精炼。

(2)利用图神经网络构建图知识蒸馏模块G来实现动态的跨模态知识迁移

本发明首先构建一个有向图其中v_i表示一个节点(即一个模态)，w_i→j表示从模态v_i到v_j的蒸馏权重。从v_i到v_j的蒸馏损失被定义为它们相应的logits之间的平均绝对误差，用∈_i→j表示。E表示用于存放两两模态之间蒸馏损失的矩阵，其中E_ij＝∈_i→j。对于一个目标模态j，加权后的蒸馏损失可以计算为:

其中表示对目标模态j进行知识蒸馏的源模态的集合。为了动态和自适应地学习蒸馏权重，本发明将每个模态的logits和特征编码到图结构的边上，可以表示为：

w_i→j＝gfX_i,θ₁,X_i,fX_j,θ₁,X_j,θ₂,

其中，g表示一个包含可学习参数θ₂的全连接层，f表示一个包含可学习参数θ₁的全连接层用于回归logits，X_i表示模态i的特征。边的权重矩阵W可以通过重复应用此公式对所有模态进行构建和学习。随后我们使用softmax函数将W归一化。因此，对所有模态的图知识蒸馏损失可以写成：

其中⊙表示逐元素相乘操作。通过上述建模，图知识蒸馏为学习动态的模态间知识迁移提供了基础。同时，其蒸馏权重可以自动学习，从而实现多样化的知识迁移模式。

对于解耦后的同构和异构多模态特征，本发明在每个特征空间上设计了不同的图知识蒸馏，其蒸馏损失被定义为不同模态logits之间的平均绝对误差。其中包含两个部分：同构图知识蒸馏和异构图知识蒸馏。对于同构图知识蒸馏，由于同构特征间的分布差距被缓和，本发明将同构特征和相应的logits直接作为图知识蒸馏的输入，并计算出权重矩阵W和蒸馏损失矩阵E，然后得出同构图知识蒸馏损失/>

对于异构图知识蒸馏，由于异构特征侧重于表达每种模态的特性，因此其分布差距明显。为了缓解这个问题，本发明利用多模态Transformer来弥补特征分布的差距，建立模态间的语义对齐，然后再执行图知识蒸馏。多模态Transformer的核心是跨模态注意单元CA，它接收来自一对模态的特征并融合其跨模态信息。以语言模态为源，视觉模态为目标为例，分别用/>和/>表示。跨模态注意力可以定义为：

其中P_q，P_k，P_v是可学习的参数，表示从语言模态到视觉模态的强化特征。对于全部的三个模态，每个模态都会被其他两个模态所增强，所得到的特征将被拼接作为目标模态的增强特征/>然后将/>和相应的logits作为图知识蒸馏的输入得到异构图知识蒸馏损失/>

多模态Transformer中的跨模态注意机制增强了多模态表示的性能，减少了不同模态间的语义差异。通过上述的图知识蒸馏，模态间显著的性能差异被有效地缓和。

(3)将增强的异构特征和同构特征/>进行特征融合，得到用于多模态情感识别的融合特征F_fuse。随后，融合特征/>被情感分类器C中的全连接层映射为情感类别，并计算分类任务的损失/>

其中n表示样本数量，θ_t表示情感分类器C的可学习参数，y_i表示第i个样本的情感标签。

(4)计算模型M的总体训练损失：其中λ₁和λ₂是特征解耦损失/>和图知识蒸馏损失/>的权重。执行梯度下降法更新模型M的权重，并重复(1)、(2)、(3)、(4)步骤T次以获得足够精准的多模态特征解耦能力，足够有效的跨模态蒸馏权重，以及多模态情感识别结果。

梯度下降法的过程为：在计算得到的基础上，计算/>对参数θ的梯度并在该梯度方向上更新参数θ：

式中α表示学习率。

(5)以上步骤统一到一个整体的端到端的深度神经网络框架中，可以进行端到端的模型训练。

三、模型训练阶段

(1)将阶段一数据准备阶段获得的多模态情感识别数据集A分为训练集T和验证集V。

(2)将训练集T输入到阶段二模型设计阶段，设计的端到端的模型M中利用批次随机梯度下降方法进行模型训练，如图2所示，具体训练的过程：

视频片段中的三个模态数据：语言模态、视觉模态和音频模态首先由三个独立的时序卷积层来聚合时间信息并获得浅层的多模态特征。

随后，浅层的多模态特征由共享编码器和私有编码器进行特征解耦，分别提取出同构特征和异构特征。

对于训练阶段，特征解耦包含四个损失函数，分别是同构特征和异构特征之间的正交损失每个模态私有解码器重建的耦合特征和对应浅层的多模态特征之间的误差损失/>私有编码器对耦合特征进行重新编码获得的异构特征和先前的异构特征之间的误差损失/>维持同构特征的类别判别能力的边界损失/>

得到同构特征和异构特征后，构建图知识蒸馏进行模态之间的知识迁移，其中包含两部分：同构图知识蒸馏和异构图知识蒸馏。同构图知识蒸馏中，直接对同构特征应用图知识蒸馏来动态迁移知识。异构图知识蒸馏中，异构特征首先使用多模态Transformer提取语义对齐的异构特征，然后使用图知识蒸馏进行模态之间动态的知识迁移。图知识蒸馏的损失被定义为不同模态logits之间的平均绝对误差。

最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别，其分类损失被定义为预测值和标签值之间的平均绝对误差。

导数信号有3个，分别为情感分类损失特征解耦损失/>图知识蒸馏损失训练阶段同时使用验证集V验证模型训练效果，即当模型M在验证集V上获得较好的情感识别结果，并且该精度不能随着训练过程再提升时，停止训练。

该网络在训练过程中，通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移，从而提升最终的情感识别性能。

(3)最终训练完成获得模型M^*。

四、模型测试阶段

(1)输入数据为类似阶段一数据准备阶段处理得到的多模态情感识别测试集I。测试阶段使用的模型为模型M中的原始特征提取器E，共享编码器私有编码器/>多模态Transformer和情感分类器C。

(2)将测试集I输入阶段三模型训练阶段中获得的模型M^*中以得到测试集I的情感识别结果。

因此，本发明采用上述一种基于特征解耦和图知识蒸馏的多模态情感识别方法，实现了端到端的多模态情感识别，显著提升了多模态情感识别的精度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于特征解耦和图知识蒸馏的多模态情感识别方法，其特征在于：包括以下步骤：

S2、设计端到端的模型M；包括以下步骤：

S21、对多模态特征进行特征解耦；

(1)使用一个共享参数的编码器将每个模态的特征映射到同构空间中，并提取每个模态的同构特征；使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中，并提取每个模态的异构特征，至此每个模态的特征都被解耦为同构特征和异构特征

(3)由于来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似，因此在此先验基础上构建一个边界损失来维持同构特征的类别判别能力；

S22、构建图知识蒸馏模块G来实现动态的跨模态知识迁移；

(3)在同构空间中，由于特征之间的分布差距被充分缩小，图知识蒸馏直接应用于这些同构特征中进行跨模态知识迁移；

(4)在异构空间中，首先利用多模态Transformer来建立不同模态特征之间的语义对齐，然后再进行图知识蒸馏，多模态Transformer中的跨模态注意机制增强了多模态表示的性能，减少了不同模态间的语义差异；

S23、计算分类任务的损失

S24、计算模型M的总体训练损失：

其中，λ₁和λ₂是特征解耦损失和图知识蒸馏损失/>的权重；

S3、将步骤S1获得的多模态情感识别数据集A分为训练集T和验证集V，将训练集T输入到步骤S2设计的模型M中进行模型训练，训练阶段同时使用验证集V验证模型训练效果，即当模型M在验证集V上获得较好的情感识别结果，并且精度不能随着训练过程再提升时，停止训练，最终训练完成获得模型M^*；

模型训练具体包含以下步骤：

(5)最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别，其分类损失被定义为预测值和标签值之间的平均绝对误差，网络在训练过程中，通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移，从而提升最终的情感识别性能；