CN116244473A - 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 - Google Patents

一种基于特征解耦和图知识蒸馏的多模态情感识别方法 Download PDF

Info

Publication number
CN116244473A
CN116244473A CN202310096857.7A CN202310096857A CN116244473A CN 116244473 A CN116244473 A CN 116244473A CN 202310096857 A CN202310096857 A CN 202310096857A CN 116244473 A CN116244473 A CN 116244473A
Authority
CN
China
Prior art keywords
features
mode
feature
isomorphic
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310096857.7A
Other languages
English (en)
Other versions
CN116244473B (zh
Inventor
李勇
崔振
王元植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202310096857.7A priority Critical patent/CN116244473B/zh
Publication of CN116244473A publication Critical patent/CN116244473A/zh
Application granted granted Critical
Publication of CN116244473B publication Critical patent/CN116244473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于特征解耦和图知识蒸馏的多模态情感识别方法,包括以下步骤:S1、数据收集;S2、端到端的模型设计;S3、模型训练;S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I。测试阶段使用的模型为模型M中的浅层特征提取器E,共享编码器
Figure DDA0004071938420000011
私有编码器
Figure DDA0004071938420000012
多模态Transformer和情感分类器C,将测试集I输入步骤S3获得的模型M*中以得到测试集I的情感识别结果。本发明采用上述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,实现了端到端的多模态情感识别,显著提升了多模态情感识别的精度。

Description

一种基于特征解耦和图知识蒸馏的多模态情感识别方法
技术领域
本发明涉及多模态学习、自然语言处理和计算机视觉技术领域,尤其是涉及一种基于特征解耦和图知识蒸馏的多模态情感识别方法。
背景技术
多模态情感识别的目的是从视频片段中感知人类的情感态度。视频片段中涉及来自各种模态的时间序列数据,如语言数据、音频数据以及视觉数据。这种丰富的多模态数据有利于理解人类的行为和意图,在智能辅导系统和机器人技术等领域具有广泛的应用前景和价值。然而不同模态之间的内在异构性增加了多模态表示学习的难度,并导致了不同模态间显著的性能差异。因此如何缓和这些模态之间的差异成为亟需解决的问题。目前的识别方法可分为“传统多模态情感识别方法”和“基于深度学习的多模态情感识别方法”。具体有:
(1)传统多模态情感识别方法。相关专利:CN112101401B、CN113076847B、CN106250855B主要通过最小二乘法、支持向量机等传统机器学习方法处理和融合多模态数据,在此基础上利用相应的分类器进行多模态情感识别。但这些方法得到的多模态特征较为粗糙,特征的表示能力较弱,直接影响后续的识别精度,因此该类方法的实际应用价值有限。
(2)基于深度学习的多模态情感识别方法。相关专利:CN112489635B、CN113326703B、CN112784798B主要构建相应的深度网络进行多模态特征提取和多模态特征融合,在此基础上将深度网络输出的多模态融合特征送入相应的分类器进行多模态情感识别。但这些方法忽略了模态之间内在的异构性,此异构性导致了模态间显著的性能差异,进一步阻碍了多模态特征的融合,影响后续的识别精度。
发明内容
本发明的目的是提供一种基于特征解耦和图知识蒸馏的多模态情感识别方法,实现了端到端的多模态情感识别,显著提升了多模态情感识别的精度。
为实现上述目的,本发明提供了一种基于特征解耦和图知识蒸馏的多模态情感识别方法,包括以下步骤:
S1、搜集大量的用于情感识别的视频片段,使其转化为语言模态样本、视觉模态样本、音频模态样本,然后对所有样本进行情感的标注得到多模态情感识别数据集A;
S2、端到端的模型设计;
S3、将步骤S1获得的多模态情感识别数据集A分为训练集T和验证集V,将训练集T输入到步骤S2设计的模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,即当模型M在验证集V上获得较好的情感识别结果,并且该精度不能随着训练过程再提升时,停止训练,最终训练完成获得模型M*
S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I,测试阶段使用的模型为模型M中的浅层特征提取器E,共享编码器
Figure BDA0004071938400000021
私有编码器/>
Figure BDA0004071938400000022
多模态Transformer和情感分类器C,将测试集I输入步骤S3获得的模型M*中以得到测试集I的情感识别结果。
优选的,步骤S2包括以下步骤:
S21、对多模态特征进行特征解耦;
S22、构建图知识蒸馏模块G来实现动态的跨模态知识迁移;
S23、计算分类任务的损失
Figure BDA0004071938400000023
S24、计算模型M的总体训练损失:
Figure BDA0004071938400000024
优选的,在步骤S21中,对多模态特征进行特征解耦:
(1)使用一个共享参数的编码器将每个模态的特征映射到同构空间中,并提取每个模态的同构特征;使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中,并提取每个模态的异构特征,至此每个模态的特征都被解耦为同构特征
Figure BDA0004071938400000031
和异构特征/>
Figure BDA0004071938400000032
(2)为了维持同构特征和异构特征之间的差异,同构和异构特征之间使用最小化余弦距离进行正交约束
Figure BDA0004071938400000033
并以自回归的方式重建耦合后的特征,解耦后的每个模态的同构和异构特征首先通过参数非共享的私有解码器产生耦合的模态特征,并使用均方误差损失函数/>
Figure BDA0004071938400000034
约束耦合的模态特征和原始的模态特征近似,随后使用参数非共享的私有编码器对耦合的模态特征进行重新编码,再次产生异构特征,并使用误差损失函数/>
Figure BDA0004071938400000035
约束当前的异构特征和先前的异构特征近似;
(3)与此同时,由于来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似,因此在次先验基础上构建一个边界损失
Figure BDA0004071938400000036
来维持同构特征的类别判别能力。
优选的,在步骤S22中,构建图知识蒸馏模块G来实现动态的跨模态知识迁移:
(1)利用模态和模态之间的知识蒸馏方向构建图结构,其中,图结构的顶点代表模态,图结构的边表示知识蒸馏的方向和权重,其权重聚合了不同模态的logits和特征,并使用可学习参数自适应地学习有效的权重值;
(2)在基于解耦的多模态特征空间中,为每个特征空间都单独设计一个图知识蒸馏,其蒸馏损失被定义为不同模态logits之间的平均绝对误差;
(3)在同构空间中,由于特征之间的分布差距被充分缩小,图知识蒸馏可以直接应用于这些同构特征中进行跨模态知识迁移;
(4)在异构空间中,首先利用多模态Transformer来建立不同模态特征之间的语义对齐,然后再进行图知识蒸馏,多模态Transformer中的跨模态注意机制增强了多模态表示的性能,减少了不同模态间的语义差异。
优选的,在步骤S3中的模型训练具体包含以下步骤:
(1)视频片段中的三个模态数据:语言模态、视觉模态和音频模态,将其由三个独立的时序卷积层来聚合时间信息并获得浅层的多模态特征;
(2)随后,浅层的多模态特征由共享编码器和私有编码器进行特征解耦,分别提取出同构特征和异构特征;
(3)对于训练阶段,特征解耦包含四个损失函数,分别是同构特征和异构特征之间的正交损失
Figure BDA0004071938400000041
每个模态私有解码器重建的耦合特征和对应浅层的多模态特征之间的误差损失/>
Figure BDA0004071938400000042
私有编码器对耦合特征进行重新编码获得的异构特征和先前的异构特征之间的误差损失/>
Figure BDA0004071938400000043
维持同构特征的类别判别能力的边界损失/>
Figure BDA0004071938400000044
(4)得到同构和异构特征后,构建图知识蒸馏进行模态之间的知识迁移,其中包含两部分:同构图知识蒸馏和异构图知识蒸馏,同构图知识蒸馏中,直接对同构特征应用图知识蒸馏来动态迁移知识;异构图知识蒸馏中,异构特征首先使用多模态Transformer提取语义对齐的异构特征,然后使用图知识蒸馏进行模态之间动态的知识迁移,图知识蒸馏的损失被定义为不同模态logits之间的平均绝对误差;
(5)最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别,其分类损失被定义为预测值和标签值之间的平均绝对误差,该网络在训练过程中,通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移,从而提升最终的情感识别性能。
因此,本发明采用上述一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其技术效果如下:
(1)实现了端到端的多模态情感识别,显著提升了多模态情感识别的精度。
(2)使用共享编码器和私有编码器进行特征解耦,多模态特征被显式地解耦为同构特征和异构特征,以缓解不同模态之间特征分布的差异,解耦后的特征相比于原始特征更为精炼。
(3)利用图神经网络构建动态的跨模态知识蒸馏,并分别应用到同构和异构特征中。
(4)通过图神经网络自适应地学习有效的跨模态知识蒸馏方向和蒸馏权重,模态间显著的性能差异被有效地缓和,进一步提升了后续多模态融合的表达能力,从而提升了情感识别的性能。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法的流程图;
图2是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法训练阶段的网络示意图;
图3是本发明一种基于特征解耦和图知识蒸馏的多模态情感识别方法测试阶段的网络示意图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的主旨或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其它实施方式。这些其它实施方式也涵盖在本发明的保护范围内。
还应当理解,以上所述的具体实施例仅用于解释本发明,本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明/发明的保护范围之内。
对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中,并且因此是本发明公开内容的一部分。
实施例一
如图所示,本发明提供了一种基于特征解耦和图知识蒸馏的多模态情感识别方法,主要分为以下四个阶段:
一、数据准备阶段
搜集大量的用于情感识别的视频片段,其中对每个视频片段中的文本数据使用预训练的BERT模型将文本中的每个字符转化为对应的词向量作为语言模态样本,使用OpenFace工具包提取每个视频帧的面部动作单元作为视觉模态样本,使用COVAREP提取视频片段中的声学特征作为音频模态样本。然后对所有样本进行情感的标注得到多模态情感识别数据集A,标注内容为人类的情感强度。
二、模型设计阶段,端到端的模型设计如下:
(1)对多模态特征进行特征解耦
首先使用一个共享参数的编码器将每个模态的特征映射到同构空间中,并提取每个模态的同构特征。然后使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中,并提取每个模态的异构特征,至此每个模态的特征都被解耦为同构特征
Figure BDA0004071938400000071
和异构特征/>
Figure BDA0004071938400000072
整体模型记为M,M包含一个浅层特征提取器E、特征解耦模块D和图知识蒸馏模块G,以及由一层全连接层构成的情感分类器C。模型输入为多模态情感识别数据集A;原始特征提取器E包含三个独立的时序卷积层来接收三个模态的输入数据,分别为:语言数据L,视觉数据V和音频数据A,并输出原始特征
Figure BDA0004071938400000073
m∈{L,V,A}表示一个模态,/>
Figure BDA0004071938400000074
可以被表示为:/>
Figure BDA0004071938400000075
原始特征
Figure BDA0004071938400000076
被特征解耦模块D映射为同构特征/>
Figure BDA0004071938400000077
和异构特征/>
Figure BDA0004071938400000078
Figure BDA0004071938400000079
为了区分
Figure BDA00040719384000000710
和/>
Figure BDA00040719384000000711
之间的差异并减小特征的模糊性,本发明使用自回归的方式合成耦合特征。具体来说,将每种模态的/>
Figure BDA00040719384000000712
和/>
Figure BDA00040719384000000713
拼接起来,利用特征解耦模块D中的私有解码器/>
Figure BDA00040719384000000714
来产生耦合特征,即/>
Figure BDA00040719384000000715
随后,耦合特征/>
Figure BDA00040719384000000716
通过私有编码器/>
Figure BDA00040719384000000717
重新编码,再次提取异构特征。[·,·]表示特征拼接操作。耦合特征和原始特征之间的损失/>
Figure BDA00040719384000000718
可以计算为:
Figure BDA00040719384000000719
与此同时,私有编码器对耦合特征进行重新编码,获得的异构特征和先前的异构特征之间的误差损失
Figure BDA00040719384000000720
可以计算为:
Figure BDA00040719384000000721
为了维持同构特征的类别判别能力,提升特征解耦的性能,本发明增加一个先验知识:来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似。为此,我们将这个先验构建为一个边界损失
Figure BDA0004071938400000081
可以计算为:
Figure BDA0004071938400000082
其中S=i,j,kmi≠mj,mi=mk,ci=cj,c[i]≠c[k]}表示一个三元组,mi表示样本i的模态,ci表示样本i的情感类别,cos·,·表示两个特征之间的余弦相似度,α用于控制类内和类间相似度的差距。为了进一步维持同构和异构特征之间的差异,本发明在同构和异构特征之间增加正交约束,可以计算为:
Figure BDA0004071938400000083
上述的损失函数组合起来形成特征解耦损失函数
Figure BDA0004071938400000084
表示为:
Figure BDA0004071938400000085
其中γ为边界损失和正交约束的权重。
上述的特征解耦过程显式地将多模态特征解耦到同构和异构空间,以缓解不同模态之间特征分布的差异,解耦后的特征相比于原始特征更为精炼。
(2)利用图神经网络构建图知识蒸馏模块G来实现动态的跨模态知识迁移
本发明首先构建一个有向图
Figure BDA0004071938400000086
其中vi表示一个节点(即一个模态),wi→j表示从模态vi到vj的蒸馏权重。从vi到vj的蒸馏损失被定义为它们相应的logits之间的平均绝对误差,用∈i→j表示。E表示用于存放两两模态之间蒸馏损失的矩阵,其中Eij=∈i→j。对于一个目标模态j,加权后的蒸馏损失可以计算为:
Figure BDA0004071938400000091
其中
Figure BDA0004071938400000092
表示对目标模态j进行知识蒸馏的源模态的集合。为了动态和自适应地学习蒸馏权重,本发明将每个模态的logits和特征编码到图结构的边上,可以表示为:
wi→j=gfXi1,Xi,fXj1,Xj2,
其中,g表示一个包含可学习参数θ2的全连接层,f表示一个包含可学习参数θ1的全连接层用于回归logits,Xi表示模态i的特征。边的权重矩阵W可以通过重复应用此公式对所有模态进行构建和学习。随后我们使用softmax函数将W归一化。因此,对所有模态的图知识蒸馏损失可以写成:
Figure BDA0004071938400000093
其中⊙表示逐元素相乘操作。通过上述建模,图知识蒸馏为学习动态的模态间知识迁移提供了基础。同时,其蒸馏权重可以自动学习,从而实现多样化的知识迁移模式。
对于解耦后的同构和异构多模态特征,本发明在每个特征空间上设计了不同的图知识蒸馏,其蒸馏损失被定义为不同模态logits之间的平均绝对误差。其中包含两个部分:同构图知识蒸馏和异构图知识蒸馏。对于同构图知识蒸馏,由于同构特征间的分布差距被缓和,本发明将同构特征
Figure BDA0004071938400000094
和相应的logits直接作为图知识蒸馏的输入,并计算出权重矩阵W和蒸馏损失矩阵E,然后得出同构图知识蒸馏损失/>
Figure BDA0004071938400000095
对于异构图知识蒸馏,由于异构特征
Figure BDA0004071938400000096
侧重于表达每种模态的特性,因此其分布差距明显。为了缓解这个问题,本发明利用多模态Transformer来弥补特征分布的差距,建立模态间的语义对齐,然后再执行图知识蒸馏。多模态Transformer的核心是跨模态注意单元CA,它接收来自一对模态的特征并融合其跨模态信息。以语言模态为源,视觉模态为目标为例,分别用/>
Figure BDA0004071938400000097
和/>
Figure BDA0004071938400000098
表示。跨模态注意力可以定义为:
Figure BDA0004071938400000101
Figure BDA0004071938400000102
其中Pq,Pk,Pv是可学习的参数,
Figure BDA0004071938400000103
表示从语言模态到视觉模态的强化特征。对于全部的三个模态,每个模态都会被其他两个模态所增强,所得到的特征将被拼接作为目标模态的增强特征/>
Figure BDA0004071938400000104
然后将/>
Figure BDA0004071938400000105
和相应的logits作为图知识蒸馏的输入得到异构图知识蒸馏损失/>
Figure BDA0004071938400000106
多模态Transformer中的跨模态注意机制增强了多模态表示的性能,减少了不同模态间的语义差异。通过上述的图知识蒸馏,模态间显著的性能差异被有效地缓和。
(3)将增强的异构特征
Figure BDA0004071938400000107
和同构特征/>
Figure BDA0004071938400000108
进行特征融合,得到用于多模态情感识别的融合特征Ffuse。随后,融合特征/>
Figure BDA0004071938400000109
被情感分类器C中的全连接层映射为情感类别,并计算分类任务的损失/>
Figure BDA00040719384000001010
Figure BDA00040719384000001011
其中n表示样本数量,θt表示情感分类器C的可学习参数,yi表示第i个样本的情感标签。
(4)计算模型M的总体训练损失:
Figure BDA00040719384000001012
其中
Figure BDA00040719384000001013
λ1和λ2是特征解耦损失/>
Figure BDA00040719384000001014
和图知识蒸馏损失/>
Figure BDA00040719384000001015
的权重。执行梯度下降法更新模型M的权重,并重复(1)、(2)、(3)、(4)步骤T次以获得足够精准的多模态特征解耦能力,足够有效的跨模态蒸馏权重,以及多模态情感识别结果。
梯度下降法的过程为:在计算得到
Figure BDA00040719384000001016
的基础上,计算/>
Figure BDA00040719384000001017
对参数θ的梯度
Figure BDA00040719384000001018
并在该梯度方向上更新参数θ:
Figure BDA0004071938400000111
式中α表示学习率。
(5)以上步骤统一到一个整体的端到端的深度神经网络框架中,可以进行端到端的模型训练。
三、模型训练阶段
(1)将阶段一数据准备阶段获得的多模态情感识别数据集A分为训练集T和验证集V。
(2)将训练集T输入到阶段二模型设计阶段,设计的端到端的模型M中利用批次随机梯度下降方法进行模型训练,如图2所示,具体训练的过程:
视频片段中的三个模态数据:语言模态、视觉模态和音频模态首先由三个独立的时序卷积层来聚合时间信息并获得浅层的多模态特征。
随后,浅层的多模态特征由共享编码器和私有编码器进行特征解耦,分别提取出同构特征和异构特征。
对于训练阶段,特征解耦包含四个损失函数,分别是同构特征和异构特征之间的正交损失
Figure BDA0004071938400000112
每个模态私有解码器重建的耦合特征和对应浅层的多模态特征之间的误差损失/>
Figure BDA0004071938400000113
私有编码器对耦合特征进行重新编码获得的异构特征和先前的异构特征之间的误差损失/>
Figure BDA0004071938400000114
维持同构特征的类别判别能力的边界损失/>
Figure BDA0004071938400000115
得到同构特征和异构特征后,构建图知识蒸馏进行模态之间的知识迁移,其中包含两部分:同构图知识蒸馏和异构图知识蒸馏。同构图知识蒸馏中,直接对同构特征应用图知识蒸馏来动态迁移知识。异构图知识蒸馏中,异构特征首先使用多模态Transformer提取语义对齐的异构特征,然后使用图知识蒸馏进行模态之间动态的知识迁移。图知识蒸馏的损失被定义为不同模态logits之间的平均绝对误差。
最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别,其分类损失被定义为预测值和标签值之间的平均绝对误差。
导数信号有3个,分别为情感分类损失
Figure BDA0004071938400000121
特征解耦损失/>
Figure BDA0004071938400000122
图知识蒸馏损失
Figure BDA0004071938400000123
训练阶段同时使用验证集V验证模型训练效果,即当模型M在验证集V上获得较好的情感识别结果,并且该精度不能随着训练过程再提升时,停止训练。
该网络在训练过程中,通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移,从而提升最终的情感识别性能。
(3)最终训练完成获得模型M*
四、模型测试阶段
(1)输入数据为类似阶段一数据准备阶段处理得到的多模态情感识别测试集I。测试阶段使用的模型为模型M中的原始特征提取器E,共享编码器
Figure BDA0004071938400000124
私有编码器/>
Figure BDA0004071938400000125
多模态Transformer和情感分类器C。
(2)将测试集I输入阶段三模型训练阶段中获得的模型M*中以得到测试集I的情感识别结果。
因此,本发明采用上述一种基于特征解耦和图知识蒸馏的多模态情感识别方法,实现了端到端的多模态情感识别,显著提升了多模态情感识别的精度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (5)

1.一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:包括以下步骤:
S1、搜集大量的用于情感识别的视频片段,使其转化为语言模态样本、视觉模态样本、音频模态样本,然后对所有样本进行情感的标注得到多模态情感识别数据集A;
S2、设计端到端的模型M;
S3、将步骤S1获得的多模态情感识别数据集A分为训练集T和验证集V,将训练集T输入到步骤S2设计的模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,即当模型M在验证集V上获得较好的情感识别结果,并且该精度不能随着训练过程再提升时,停止训练,最终训练完成获得模型M*
S4、输入数据为类似步骤S1处理得到的多模态情感识别测试集I,测试阶段使用的模型为模型M中的浅层特征提取器E,共享编码器
Figure FDA0004071938390000011
私有编码器/>
Figure FDA0004071938390000012
多模态Transformer和情感分类器C,将测试集I输入步骤S3获得的模型M*中以得到测试集I的情感识别结果。
2.根据权利要求1所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:步骤S2包括以下步骤:
S21、对多模态特征进行特征解耦;
S22、构建图知识蒸馏模块G来实现动态的跨模态知识迁移;
S23、计算分类任务的损失
Figure FDA0004071938390000013
S24、计算模型M的总体训练损失:
Figure FDA0004071938390000014
3.根据权利要求2所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:在步骤S21中,对多模态特征进行特征解耦:
(1)使用一个共享参数的编码器将每个模态的特征映射到同构空间中,并提取每个模态的同构特征;使用参数非共享的私有编码器分别将每个模态特征映射到异构空间中,并提取每个模态的异构特征,至此每个模态的特征都被解耦为同构特征
Figure FDA0004071938390000021
和异构特征
Figure FDA0004071938390000022
(2)为了维持同构特征和异构特征之间的差异,同构和异构特征之间使用最小化余弦距离进行正交约束
Figure FDA0004071938390000023
并以自回归的方式重建耦合后的特征,解耦后的每个模态的同构和异构特征首先通过参数非共享的私有解码器产生耦合的模态特征,并使用均方误差损失函数/>
Figure FDA0004071938390000024
约束耦合的模态特征和原始的模态特征近似,随后使用参数非共享的私有编码器对耦合的模态特征进行重新编码,再次产生异构特征,并使用误差损失函数/>
Figure FDA0004071938390000025
约束当前的异构特征和先前的异构特征近似;
(3)由于来自相同情感但不同模态的同构特征应该比来自相同模态但不同情感的同构特征更加相似,因此在此先验基础上构建一个边界损失
Figure FDA0004071938390000026
来维持同构特征的类别判别能力。
4.根据权利要求2所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:在步骤S22中,构建图知识蒸馏模块G来实现动态的跨模态知识迁移:
(1)利用模态和模态之间的知识蒸馏方向构建图结构,其中,图结构的顶点代表模态,图结构的边表示知识蒸馏的方向和权重,其权重聚合了不同模态的logits和特征,并使用可学习参数自适应地学习有效的权重值;
(2)在基于解耦的多模态特征空间中,为每个特征空间都单独设计一个图知识蒸馏,其蒸馏损失被定义为不同模态logits之间的平均绝对误差;
(3)在同构空间中,由于特征之间的分布差距被充分缩小,图知识蒸馏可以直接应用于这些同构特征中进行跨模态知识迁移;
(4)在异构空间中,首先利用多模态Transformer来建立不同模态特征之间的语义对齐,然后再进行图知识蒸馏,多模态Transformer中的跨模态注意机制增强了多模态表示的性能,减少了不同模态间的语义差异。
5.根据权利要求1所述的一种基于特征解耦和图知识蒸馏的多模态情感识别方法,其特征在于:在步骤S3中的模型训练具体包含以下步骤:
(1)视频片段中的三个模态数据:语言模态、视觉模态和音频模态,将其由三个独立的时序卷积层来聚合时间信息并获得浅层的多模态特征;
(2)随后,浅层的多模态特征由共享编码器和私有编码器进行特征解耦,分别提取出同构特征和异构特征;
(3)对于训练阶段,特征解耦包含四个损失函数,分别是同构特征和异构特征之间的正交损失
Figure FDA0004071938390000031
每个模态私有解码器重建的耦合特征和对应浅层的多模态特征之间的误差损失/>
Figure FDA0004071938390000032
私有编码器对耦合特征进行重新编码获得的异构特征和先前的异构特征之间的误差损失/>
Figure FDA0004071938390000033
维持同构特征的类别判别能力的边界损失/>
Figure FDA0004071938390000034
(4)得到同构和异构特征后,构建图知识蒸馏进行模态之间的知识迁移,其中包含两部分:同构图知识蒸馏和异构图知识蒸馏,同构图知识蒸馏中,直接对同构特征应用图知识蒸馏来动态迁移知识;异构图知识蒸馏中,异构特征首先使用多模态Transformer提取语义对齐的异构特征,然后使用图知识蒸馏进行模态之间动态的知识迁移,图知识蒸馏的损失被定义为不同模态logits之间的平均绝对误差;
(5)最后将语义对齐的异构特征和同构特征进行特征融合输入到分类器中输出情感类别,其分类损失被定义为预测值和标签值之间的平均绝对误差,该网络在训练过程中,通过多个共同作用的损失确保了模型能够提取出同构和异构特征并进行有效的跨模态知识迁移,从而提升最终的情感识别性能。
CN202310096857.7A 2023-02-10 2023-02-10 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 Active CN116244473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310096857.7A CN116244473B (zh) 2023-02-10 2023-02-10 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310096857.7A CN116244473B (zh) 2023-02-10 2023-02-10 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Publications (2)

Publication Number Publication Date
CN116244473A true CN116244473A (zh) 2023-06-09
CN116244473B CN116244473B (zh) 2023-08-11

Family

ID=86623647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310096857.7A Active CN116244473B (zh) 2023-02-10 2023-02-10 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN116244473B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330551A (zh) * 2021-12-29 2022-04-12 食品安全与营养(贵州)信息科技有限公司 基于多任务学习和注意力层融合的多模态情感分析方法
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN115147641A (zh) * 2022-05-31 2022-10-04 东南大学 一种基于知识蒸馏和多模态融合的视频分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330551A (zh) * 2021-12-29 2022-04-12 食品安全与营养(贵州)信息科技有限公司 基于多任务学习和注意力层融合的多模态情感分析方法
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN115147641A (zh) * 2022-05-31 2022-10-04 东南大学 一种基于知识蒸馏和多模态融合的视频分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Also Published As

Publication number Publication date
CN116244473B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN111368993B (zh) 一种数据处理方法及相关设备
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN110597991A (zh) 文本分类方法、装置、计算机设备及存储介质
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN111400601B (zh) 一种视频推荐的方法及相关设备
CN112216307B (zh) 语音情感识别方法以及装置
CN114676234A (zh) 一种模型训练方法及相关设备
CN113762052A (zh) 视频封面提取方法、装置、设备及计算机可读存储介质
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN115221846A (zh) 一种数据处理方法及相关设备
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116244473B (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN116432019A (zh) 一种数据处理方法及相关设备
CN111291221B (zh) 对数据源生成语义描述的方法、设备和电子设备
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN116541492A (zh) 一种数据处理方法及相关设备
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant