CN115310560A - 一种基于模态空间同化和对比学习的多模态情感分类方法 - Google Patents

一种基于模态空间同化和对比学习的多模态情感分类方法 Download PDF

Info

Publication number
CN115310560A
CN115310560A CN202211139018.0A CN202211139018A CN115310560A CN 115310560 A CN115310560 A CN 115310560A CN 202211139018 A CN202211139018 A CN 202211139018A CN 115310560 A CN115310560 A CN 115310560A
Authority
CN
China
Prior art keywords
modal
mode
modality
vector
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211139018.0A
Other languages
English (en)
Inventor
孔万增
杨宇涛
唐佳佳
倪斌斌
戴玮成
朱莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211139018.0A priority Critical patent/CN115310560A/zh
Publication of CN115310560A publication Critical patent/CN115310560A/zh
Priority to US18/369,672 priority patent/US20240119716A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于模态空间同化和对比学习的多模态情感分类方法。本发明引入了同化的概念,利用由模态之间的互补信息组成的引导向量来指引每个模态同时接近解空间。该操作不仅进一步提高搜索解空间的效率,而且使得三种模态的异构空间同构。在空间同构的过程中,能够在一定程度上有效平衡多个模态对最终解空间的贡献。在指导每个模态的时候,该策略能使模型更加关注情感特征,这减少了模态内冗余,构建多模态表示的难度也因此降低了。其次,本发明还运用了监督对比学习来增强模型辨别不同情绪差异的能力,使得模型能够捕捉到更为全面的多模态情感上下文。

Description

一种基于模态空间同化和对比学习的多模态情感分类方法
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,涉及一种基于模态空间同化和对比学习的多模态情感分类方法,具体是利用一个指导向量使得异构的多模态空间同化,并通过监督对比学习约束获得的多模态表示,从而判断被试情感状态的方法。
背景技术
情感分析领域通常包含文本、视频以及音频等数据。以往的研究已经证实了这些单模数据通常包含着与情绪状态相关的判别信息,同时发现只是单纯分析单个模态的数据往往不能得到准确的情绪分析。但是,利用多种模态的信息则能够保证模型能进行更加准确的情感分析。通过模态之间的互补性消除模态之间的奇异性和不确定性,有效增强模型的泛化能力和鲁棒性,以及提高情感分析任务的性能。
现有的基于注意力机制的融合模型,通过从每个模态中提取信息来构建一个紧凑的多模态表示,并根据该多模态表示进行情感分析。因此受到了越来越多的研究人员的关注。首先通过注意力机制得到另外两个模态信息(视频和音频)与文本模态信息之间的注意力系数,然后根据得到的注意力系数进行多模态融合。但是这忽略了多个模态信息的之间存在的交互关系。此外,模态之间存在着间隙以及每个模态内部存在着冗余,这两个都会增加学习联合嵌入空间的难度。然而,现有的多模态融合方法很少考虑到这两个细节,也没有保证进行交互的多模态的信息是细粒度的,这对最终的任务表现有着一定的影响。
现有的基于转换网络的多模态融合模型,在建模时间依赖性方面上有着很大的优势,并且所包含的自注意力机制能有效解决多模态数据之间的不对齐问题,因此引起了广泛关注。该多模态融合模型通过将源模态的分布转换为目标模态的分布来获得跨模态公共子空间,并以此作为多模态融合信息。此外,在将源模态转换为另一模态的过程中获得解空间,这使得解空间过度依赖于目标模态的贡献,并且当某一种模态数据缺失时,解空间将会缺少来自于这种模态数据的贡献,这导致无法有效平衡各个模态对最终解空间的贡献。另一方面,现有转换模型通常只考虑文本到音频以及文本到视频的转换,并没有考虑其他的模态转换的可能性,这对最终的任务表现有着一定的影响。
中国专利CN114722202A公开提出利用双向双层注意力LSTM网络实现多模态情感分类,利用双向注意力LSTM网络能够发掘更加全面的时间依赖性;中国专利CN113064968A提供了一种基于张量融合网络的情感分析方法,采用张量网络建模模态之间的交互。但是以上两个网络很难有效地从长序列中探索多模态情感上下文,这可能会限制学习模型的表达能力。中国专利CN114973062A公开了一种基于Transformer的多模态情感分析方法,该方法使用成对的交叉模态注意机制来捕获跨不同时间步长的多模态序列之间的交互,以此潜在地将序列从一种模态映射到另一种模态。但是忽略了辅助模态的冗余消息,这增加了对多模态消息进行有效推理的难度。更重要的是,基于注意力的框架主要关注多模态之间的静态或隐式交互,这会导致形成多模态情感上下文是相对粗粒度的。
发明内容
本发明的第一个目的是针对现有技术的不足,提出一种基于模态空间同化和对比学习的多模态情感分类方法,提出了TokenLearner模块来构建由模态之间互补信息组成的引导向量。首先,该模块以各个模态的多头注意力得分为基础,为每个模态分别计算了一个权重图。然后根据获得的权重图将每个模态映射为新的向量,并通过正交约束来保证这些新的向量包含的信息是互补的。最后计算向量的加权平均值,以获得引导向量。学习到的引导向量指导每个模态以并行方式接近解空间,这可以使三个模态的异构空间同构。这种策略不存在每个模态对最终解空间的贡献不平衡的问题,并且适用于有效探索更复杂的多模态情感背景。为了显著提高模型区分各种情绪的能力,利用监督对比学习作为对模型进行微调时的额外约束。通过标签信息的帮助,模型可以捕获更全面的多模态情感上下文。
本发明所采用的技术方案是:
一种基于模态空间同化和对比学习的融合方法,包括以下步骤:
步骤(1)、获取多模态数据:
对多模态特征信息进行预处理,抽取音频模态、视频模态和文本模态的初级表征Ht、Ha、Hv
步骤(2)、构建TokenLearner模块获得引导向量:
每个模态m∈{t,a,v}均设有TokenLearner模块,t,a,v分别为文本、音频、视频模态;并且这些TokenLeaner模块在每一次引导中都会被重复使用;所述TokenLearner模块通过模态的多头注意力得分计算出一个权重图,然后根据该权重图来得到一个新的向量Zm
Figure BDA0003852660840000031
Figure BDA0003852660840000032
Figure BDA0003852660840000033
Zm=αm(MultiHead(Hm,Hm))Hm 式(4)
其中αm是一层一维卷积并在卷积之后添加softmax函数,
Figure BDA0003852660840000034
Figure BDA0003852660840000035
分别是Q,K的权重,dk表示Hm的维度,n代表多头的数量;MultiHead(Q,K)表示多头注意力得分;headi表示第i头注意力得分;Attention(Q,K)是计算注意力得分的函数;上标T表示将矩阵转置;Q、K是函数的两个输入,即为要计算多头注意力得分的模态的表征Hm、Hm
为了确保在Zm中的信息代表其对应模态的补充信息,添加正交性约束对每个模态的TokenLeamer模块进行训练,减少冗余的潜在表示,并鼓励TokenLeamer模块对多模态的不同方面进行编码;
所述正交性约束定义为:
Figure BDA0003852660840000036
其中
Figure BDA0003852660840000037
代表平方弗罗贝尼乌斯范数;
通过计算Zm的加权平均值,以获得引导向量Z,其可公式如下:
Figure BDA0003852660840000038
其中wm是权重;
步骤(3)、引导模态靠近解空间:
根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近;在每一次的引导过程中,引导向量Z会根据当前三个模态所处空间的状态进行实时更新;更具体地说,对于第l次引导,对每个模态的指导后矩阵表示如下:
Figure BDA0003852660840000039
其中θm表示Transformer模块的模型参数,
Figure BDA00038526608400000310
表示
Figure BDA00038526608400000311
和Zl的拼接,并且引导向量Z对每个模态的引导由Transformer来完成;
将公式(7)拓展后具体所示:
Figure BDA0003852660840000041
其中MSA表示多头自注意模块,LN表示层归一化模块,MLP表示多层感知器;
提取经过L次引导得到的三个模态指导后矩阵中最后一行数据,并将它们拼接成一个多模态表示向量Hfinal;L表示最大引导次数;
步骤(4)、通过监督对比学习约束多模态表示向量Hfinal
复制多模态表示向量Hfinal的隐藏状态,以形成增广表示
Figure BDA0003852660840000042
并去除它的梯度;基于上述机制,对于将N个样本进行扩展后,就有2N个样本;表示如下:
Figure BDA0003852660840000043
Figure BDA0003852660840000044
Figure BDA0003852660840000045
其中
Figure BDA0003852660840000046
表示监督对比学习的损失函数,
Figure BDA0003852660840000047
是多视图批次中任意样本的索引,τ∈R+表示用于控制类别分离的可调系数,P(i)是与z不同但具有相同类别的样本集,并且A(i)表示除去i之外的所有索引;SIM()是用于计算样本之间相似性的函数。
步骤(5)、获取分类结果:
多模态表示Hfinal通过全连接层获得最终预测
Figure BDA0003852660840000048
实现多模态情感分类。
训练过程中,使用均方误差损失来估计训练期间的预测质量:
Figure BDA0003852660840000049
其中y表示真实标签;
整体损失
Figure BDA00038526608400000410
Figure BDA00038526608400000411
Figure BDA00038526608400000412
的加权和构成,表示如下:
Figure BDA00038526608400000413
其中
Figure BDA00038526608400000414
Figure BDA00038526608400000415
分别表示情感分类任务的损失函数,正交约束损失函数以及监督对比学习的损失函数,α、β、γ分别是
Figure BDA00038526608400000416
Figure BDA00038526608400000417
的权重。
本发明的第二个目的是提供一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现所述的方法。
本发明的第三个目的是提供一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现所述的方法。
本发明的有益效果是:
本发明引入了同化的概念,通过一个引导向量指导每个模态所处的空间同时往解空间靠近,使得模态间的异构空间能够同化。这种策略不存在每种模态对最终解空间贡献不平衡的问题,适用于有效探索更复杂的多模态情感上下文。同时,指导单一模态的转向向量由多个模态之间的互补信息组成,这能使得模型更加关注情绪特征,从而可以自然地去除会增加获得多模态表示难度的模态内冗余。
结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态融合,是对当前情感识别领域的多模态融合框架的有效补充。此外,引入了监督对比学习,以帮助模型辨别不同类别的差别,从而达到提高模型区分不同情绪的能力的目的。
附图说明
图1为本发明的流程图;
图2为本发明步骤3的整体示意图;
图3为本发明的融合框架示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
本发明方法基于模态空间同化和对比学习的多模态情感分类方法,如图1所示,包括以下步骤:
步骤1、获取多模态信息数据
在被试执行特定情感任务下,记录被试的多模态数据;所述多模态包括文本模态、音频模态以及视频模态。
步骤2、多模态信息数据预处理
通过特定网络对每个模态进行初级特征的提取:
对文本模态采用BERT;
对音频模态以及视频模态采用Transformer;
Ht=BERT(T)
Ha=Transformer(A)
Hv=Transformer(V) 式(1)
其中,
Figure BDA0003852660840000061
为第m个模态的初级表征,m∈{t,a,v};t,a,v分别为文本、音频、视频模态;T,A,V分别为文本、音频、视频三个模态的原始数据;Tm为时域维度的尺寸,dm为每一个时刻的特征向量的长度;
步骤3、构建引导向量指导模态空间。
在提出的多模态融合的框架中,TokenLearner模块是核心处理模块之一。在多模态融合过程中,为每个模态都设计了这个模块用于提取模态之间的互补信息,以此构建一个引导向量来同时引导每个模态空间向解空间靠近,这保证了每个模态对最终解空间的贡献是相同的。
首先根据多模态数据Hm(m∈{t,a,v})计算每个模态的多头注意力得分矩阵MultiHead(Q,K),然后对该矩阵使用一维卷积并在卷积之后添加softmax函数,以此来得到权重矩阵,权重矩阵的行数远小于Hm(m∈{t,a,v})的行数。将权重矩阵与多模态数据Hm(m∈{t,a,v})相乘来进行信息Zm(m∈{t,a,v})的提取:
Figure BDA0003852660840000062
Figure BDA0003852660840000063
Figure BDA0003852660840000064
Zm=AmHm=αm(MultiHead(Hm,Hm))Hm 式(5)
其中Attention(Q,K)是计算注意力得分的函数;上标T表示转置;dk表示Hm的维度。
将包含模态间互补信息的Zm(m∈{t,a,v})进行加权平均值来构建当前状况下的引导向量Z。
Figure BDA0003852660840000065
Figure BDA0003852660840000066
步骤3将会重复多次,每一次都会根据当前各个模态的状况生成一个新的引导向量Z来引导模态空间往最终的解空间靠近。同时为了保证TokenLearner模块提取的信息是模态间互补的,我们会在最后使用正交约束来训练三个TokenLearner模块:
Figure BDA0003852660840000067
步骤4、继续预训练:
基于步骤3,经过多次引导之后提取多模态数据Hm(m∈{t,a,v})的最后一个元素,并将它们集成一个紧凑的多模态表示Hfinal。为了使得模型能更加容易区分各种情绪,引入了监督对比学习来约束多模态表示Hfinal,该策略引入了标签信息,在充分利用标签信息的情况下,使相同情感的样本具有凝聚力,不同情感的样本相互排斥。最后,将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
使用本发明与一些效果优越的融合方法在两个公开的多模态情感数据库CMU-MOSI、CMU-MOSEI上进行对比,其中CMU-MOSI(Multimodal Opinion Sentiment Intensity)数据集由从Youtube下载的93个意见视频中收集的2199个视频片段组成。包含了89位不同的叙述者对某些话题的看法,视频的每个片段都被手动标记为从-3(强烈消极)到3(强烈积极)的情绪强度。
表1结果为平均绝对误差MAE、相关系数Corr、情感二分类任务对应的精确度Acc-2、F1分数F1-Score以及情感七分类任务对应的精度Acc-7。尽管Self-MM优于其他现有方法,但仍然可以从表1观察到,本发明的优势以及有效性。在CMU-MOSI数据集上,本发明在所有指标上都优于最先进的Self-MM。此外,在CMU-MOSEI数据集上,本发明优于Self-MM,在Acc2上获得了大约0.8%的提升,在F1-Score上获得0.9%的改进。因此,证明了本发明所提出方法的有效性。
表1.结果对比表
Figure BDA0003852660840000071

Claims (6)

1.一种基于模态空间同化和对比学习的多模态情感分类方法,其特征在于包括以下步骤:
步骤(1)、获取多模态数据:
对多模态特征信息进行预处理,抽取音频模态、视频模态和文本模态的初级表征Ht、Ha、Hv
步骤(2)、构建TokenLearner模块获得引导向量:
每个模态m∈{t,a,v}均设有TokenLearner模块,t,a,v分别为文本、音频、视频模态;并且这些TokenLeaner模块在每一次引导中都会被重复使用;所述TokenLearner模块通过模态的多头注意力得分计算出一个权重图,然后根据该权重图来得到一个新的向量Zm
Figure FDA0003852660830000011
Figure FDA0003852660830000012
Figure FDA0003852660830000013
Zm=αm(MultiHead(Hm,Hm))Hm 式(4)
其中αm是一层一维卷积并在卷积之后添加softmax函数,
Figure FDA0003852660830000014
Figure FDA0003852660830000015
分别是Q,K的权重,dk表示Hm的维度,n代表多头的数量;MultiHead(Q,K)表示多头注意力得分;headi表示第i头注意力得分;Attention(Q,K)是计算注意力得分的函数;
为了确保在Zm中的信息代表其对应模态的补充信息,添加正交性约束对每个模态的TokenLearner模块进行训练,减少冗余的潜在表示,并鼓励TokenLearner模块对多模态的不同方面进行编码;
所述正交性约束定义为:
Figure FDA0003852660830000016
其中
Figure FDA0003852660830000017
代表平方弗罗贝尼乌斯范数;
通过计算Zm的加权平均值,以获得引导向量Z,其可公式如下:
Figure FDA0003852660830000018
其中wm是权重;
步骤(3)、引导模态靠近解空间:
根据步骤(2)得到的引导向量Z并行指导三个模态所处的空间往解空间靠近;在每一次的引导过程中,引导向量Z会根据当前三个模态所处空间的状态进行实时更新;更具体地说,对于第l次引导,对每个模态的指导后矩阵表示如下:
Figure FDA0003852660830000021
其中θm表示Transformer模块的模型参数,
Figure FDA0003852660830000022
表示
Figure FDA0003852660830000023
和Zl的拼接,并且引导向量Z对每个模态的引导由Transformer来完成;
将公式(7)拓展后具体所示:
Figure FDA0003852660830000024
其中MSA表示多头自注意模块,LN表示层归一化模块,MLP表示多层感知器;
提取经过L次引导得到的三个模态指导后矩阵中最后一行数据,并将它们拼接成一个多模态表示向量Hfinal;L表示最大引导次数;
步骤(4)、通过监督对比学习约束多模态表示向量Hfinal
复制多模态表示向量Hfinal的隐藏状态,以形成增广表示
Figure FDA0003852660830000025
并去除它的梯度;基于上述机制,对于将N个样本进行扩展后,就有2N个样本;表示如下:
Figure FDA0003852660830000026
Figure FDA0003852660830000027
Figure FDA0003852660830000028
其中
Figure FDA0003852660830000029
表示监督对比学习的损失函数,
Figure FDA00038526608300000210
是多视图批次中任意样本的索引,τ∈R+表示用于控制类别分离的可调系数,P(i)是与i不同但具有相同类别的样本集,并且A(i)表示除去i之外的所有索引;SIM()是用于计算样本之间相似性的函数;
步骤(5)、获取分类结果:
多模态表示Hfinal通过全连接层获得最终预测
Figure FDA00038526608300000211
实现多模态情感分类。
2.根据权利要求1所述方法,其特征在于训练过程中,使用均方误差损失来估计训练期间的预测质量:
Figure FDA00038526608300000212
其中y表示真实标签;
整体损失
Figure FDA0003852660830000031
Figure FDA0003852660830000032
Figure FDA0003852660830000033
的加权和构成,表示如下:
Figure FDA0003852660830000034
其中
Figure FDA0003852660830000035
Figure FDA0003852660830000036
分别表示情感分类任务的损失函数,正交约束损失函数以及监督对比学习的损失函数,α、β、γ分别是
Figure FDA0003852660830000037
Figure FDA0003852660830000038
的权重。
3.根据权利要求1所述方法,其特征在于步骤(1)中对文本模态预处理采用BERT模型。
4.根据权利要求1所述方法,其特征在于步骤(1)中对音频模态以及视频模态预处理采用Transformer模型。
5.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-4任一项所述的方法。
6.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-4任一项所述的方法。
CN202211139018.0A 2022-09-19 2022-09-19 一种基于模态空间同化和对比学习的多模态情感分类方法 Pending CN115310560A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211139018.0A CN115310560A (zh) 2022-09-19 2022-09-19 一种基于模态空间同化和对比学习的多模态情感分类方法
US18/369,672 US20240119716A1 (en) 2022-09-19 2023-09-18 Method for multimodal emotion classification based on modal space assimilation and contrastive learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139018.0A CN115310560A (zh) 2022-09-19 2022-09-19 一种基于模态空间同化和对比学习的多模态情感分类方法

Publications (1)

Publication Number Publication Date
CN115310560A true CN115310560A (zh) 2022-11-08

Family

ID=83866643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139018.0A Pending CN115310560A (zh) 2022-09-19 2022-09-19 一种基于模态空间同化和对比学习的多模态情感分类方法

Country Status (2)

Country Link
US (1) US20240119716A1 (zh)
CN (1) CN115310560A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN117252274B (zh) * 2023-11-17 2024-01-30 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质

Also Published As

Publication number Publication date
US20240119716A1 (en) 2024-04-11

Similar Documents

Publication Publication Date Title
KR102458463B1 (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
Cheng et al. UnitedQA: A hybrid approach for open domain question answering
CN113516968B (zh) 一种端到端长时语音识别方法
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN112015868A (zh) 基于知识图谱补全的问答方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
Chao et al. Audio visual emotion recognition with temporal alignment and perception attention
CN113901831B (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN113423004A (zh) 基于解耦译码的视频字幕生成方法和系统
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN116168324A (zh) 基于循环交互Transformer与维度交叉融合的视频情感识别方法
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN113392214B (zh) 基于k选择策略稀疏自注意力的文本分类方法及系统
CN114048314A (zh) 一种自然语言隐写分析方法
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN117150068A (zh) 基于自监督对比学习概念对齐的跨模态检索方法及系统
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN116302953A (zh) 一种基于增强嵌入向量语义表示的软件缺陷定位方法
CN116186236A (zh) 一种基于单模态和多模态联合训练的情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination