CN114694076A - 基于多任务学习与层叠跨模态融合的多模态情感分析方法 - Google Patents
基于多任务学习与层叠跨模态融合的多模态情感分析方法 Download PDFInfo
- Publication number
- CN114694076A CN114694076A CN202210364764.3A CN202210364764A CN114694076A CN 114694076 A CN114694076 A CN 114694076A CN 202210364764 A CN202210364764 A CN 202210364764A CN 114694076 A CN114694076 A CN 114694076A
- Authority
- CN
- China
- Prior art keywords
- modal
- mode
- features
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理领域。技术方案是:一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:步骤1:将原始视频拆剪为视频片段,提取可被模型识别的文本、音频与视觉特征;步骤2:将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;步骤3:将步骤2所得的多模态高层特征与单模态高层特征进行拼接,通过多层感知机,输出最终的情感分类结果。该方法能在保留模态异质性的前提下,连贯融合不同模态的特征,有效识别复杂场景下的多模态情感。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合,并利用多任务学习指导模型保存特征异质性,对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性。
背景技术
多模态情感分析是一项新兴的深度学习技术,不仅应用于视频的情感极性识别,也是用户行为分析、对话生成等下游任务的基础。作为文本情感分析的延伸,其数据源不仅有文本模态,还包含了音频与视觉模态,同一数据段中的不同模态往往相互补充,为语义和情感消歧提供额外的线索。如何模拟人类接受多模态信息的过程,对模态内特征进行有效建模,使得模态的异质性能够得到保留,并尽可能筛除噪声;在模态间建模时,能够有效地集成异构数据,提取并整合有意义的信息,是目前多模态情感分析的两大挑战。
近年来多模态情感分析方法主要分为:(1)基于时序融合的方法,如循环嵌入网络(REVEN),记忆融合网络(MFN),循环记忆融合网络(RMFN),MAG-BERT等;此类方法需要先将不同模态特征对齐,再按时序依次融合每一个时间步的特征,虽然可以检测每个时间步的精细情感,但是割裂了不同模态不同时序特征之间的联系。(2)非时序融合方法,如张量融合网络(TFN)、跨模态Transformer、低秩张量融合网络(LMF)与Bi-ATT等。此类方法往往不需要对数据进行对齐,从整体上对不同模态的数据进行融合。
上述方法存在两个明显问题:(1)采用了三元对称体系结构,轮流对三个模态中的一对模态进行建模,并平等的对待每个模态对最终情感的贡献。但事实上,在情感交流的过程中,文本、音频与视觉信息所携带的信息量是不同的,文本才是多模态情感的主要载体,而音频和视觉信息起到的是辅助功能。(2)缺乏对模态内特征的有效建模,在筛除噪声的同时,难以保留单模态特征的异质性。
因此,必须寻找一种既能保留单模态特征的异质性,又采用非对称体系结构来融合不同模态的方法,来保证多模态情感分析算法的性能。
发明内容
本发明的目的是克服上述背景技术的不足,提出一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,该方法应能够在保留模态异质性的前提下,连贯的融合不同模态的特征,从而有效识别复杂场景下的多模态情感。
本发明提供的技术方案是:
一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:
步骤1:将原始视频拆剪为视频片段,标记该视频片段所对应的情感标签(积极,中性,消极),并从视频中提取可被模型识别的文本、音频与视觉特征;
步骤2:采用单模态特征提取模块与层叠跨模态特征融合模块
将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,该模块内包含三个长短期记忆网络(LSTM),以进行模态内交互,得到具有上下文语义信息的单模态隐藏层特征,再将这些特单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;
步骤3:将步骤2所得的多模态高层特征与单模态高层特征进行拼接后,通过多层感知机(MLP),输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,迭代优化模型。
进一步的,步骤1包括如下分步骤:
步骤1a、根据原始视频中说话人的话语间隔,把视频切割为5-10秒的视频片段,每个视频片段包含一句完整的话语,并对该话语进行多模态(文本、音频、视觉、整体)情感标注。
步骤1b、将视频片段中的字幕转录为文本,并利用BERT词嵌入模型将文本转换为词向量XT∈Rlength×dim,并设置句子最大长度为39,词嵌入维度为762;
步骤1c、对于音频片段,使用LibROSA音频工具包提取33维帧级音频特征,包括一维对数基频(log F0),20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT),这些特征均与情绪和说话语气相关;
步骤1d、从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征,包括面部地标、面部动作单元;
进一步的,步骤2包括如下步骤:
步骤2a、为了使单模态特征能在跨模态融合之前能学习其上下文语境信息,采用长短期记忆网络来建模单模态内部交互;即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取,得到单模态隐藏层特征(文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征);
步骤2b,将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合;其中,层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络,门控跨模态transformer网络用于将输入的两个模态特征进行融合。
层叠跨模态特征融合模块的具体步骤是:先将文本模态隐藏层特征作为主模态,音频隐藏层特征作为辅助模态,并输入对应模态的单模态高层特征(文本高层特征、音频高层特征)进行引导,融合后得到新的语言特征(包含了文本与音频信息的融合特征);再将新得到的语言特征作为主模态,视觉特征作为辅助模态,输入对应模态高层特征(单模态高层特征)进行引导,得到文本、音频、视觉三个模态的融合特征,称该特征为多模态融合特征。
进一步的,步骤2a包括如下分步骤:
步骤2a-1、对于步骤1中获取的文本、音频与视觉特征Xm∈Rbatch×length×dimm,m∈[t,a,v],先将其输入至长短期记忆网络,得到隐藏层特征,Xm h=LSTMm(Xm),其中Xm h∈Rbatch ×length×dimh;不同模态的长短期记忆网络的输入维度是不同的,但隐藏层维度统一为dimh,以适应之后的门控跨模态transformer融合;
步骤2a-2、将Xm h作为门控跨模态transformer网络的输入,同时取Xm h的最后一个时间步Xm,l h,将其通过多层感知机获得单模态高层特征Fm finall:Fm final=MLP(Xm,l h),其中,多层感知机由多个前馈层组成。
步骤2a-3、在训练过程中,模型为了筛除原始特征中的噪声,往往会将单模态的异质性特征等重要信息一起筛除,只保留模态中的共性特征,然而特征的异质性对于模型融合十分重要。为了保留单模态特征的异质性,将Fm finall经过多层感知机与softmax得到单模态分类结果y′m,在训练真实标签时计算交叉熵损失,以指导长短期记忆网络提取单模态隐藏层特征:y′m=softmax(MLP(Fm finall)),该模态所对应子任务的损失为:
其中,softmax为逻辑回归函数,y′m为不同情感分类的概率,log为对数函数,N为批度,d为情感类别的数量,y′m,i,k为预测该批度中第i个样本属于类被k的概率,ym,i,k为该批度中第i个样本的真实标签。
进一步的,步骤2b包括如下分步骤:
步骤2b-1,对于从单模态特征提取模块中得到的单模态隐藏层特征Xt h、Xa h、Xv h与单模态高层特征Ft finall、Fa finall、Fv finall,先将Xt h、Xa h、Ft finall、Fa finall输入门控跨模态transformer网络,得到经过音频特征加强的文本特征Xl h,因为融合了音频特征,其模式更接近于语言,所以定义该特征为语言特征;接着,将Xl h的最后一个时间步特征输入至多层感知机,得到语言高层特征Fl finall;
步骤2b-2,将Xl h、Xv h、Fl finall、Fv finall输入门控跨模态transformer网络,得到多模态融合特征Xmulti h,取Xmulti h的最后一个时间步Xmulti,l h,将Xmulti,l h输入至多层感知机,得到多模态高层特征Fmulti finall。
进一步的,步骤2b中的门控跨模态transformer网络包括如下分步骤:
步骤2b-1-1,跨模态transformerα→β中包含D层跨模态注意力块;对于某一层跨模态注意力块,输入目标模态Xα [i-1],Xβ [0],定义Query为key为Values为其中 是映射矩阵;利用辅助模态β对目标模态α进行多头注意力引导,得到引导后的融合特征其公式如下:
步骤2b-1-2,transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特Xβ得到辅助模态的补充,为了防止在复杂场景下,目标模态与辅助模态的差异性过大而对融合造成干扰,在跨模态transformer的残差连接中加入了门控机制;通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比,得到相似度similarαβ作为残差连接的门控,指导跨模态transformer融合,得到新特征最后将输入前馈网络并进行按层规范化,得到本层跨模态融合特征作为下一层transformer layer的目标模态输入;公式如下:
进一步的,步骤3包括如下步骤:
步骤3a,为了进一步补充特征内容,防止关键信息丢失,将步骤2b所得的多模态高层特征Fmulti finall与单模态高层特征Ft finall,Fv finall进行拼接后,得到补充后的多模态高层特征Fmulti cat,输入至多层感知机以进行情感分类;
其中,cat表示拼接操作。
步骤3b,计算本批情感分析的多任务损失,其中,i∈{t,a,v,m},超参数ωi表示不同模态损失占总体损失的权重。设置初始时wt,wa,wv的权重为1,wm的权重为0,随着训练次数的增加,逐步降低单模态任务的损失权重至0.6,逐步提升多模态任务的损失权重至1。
本发明的有益效果为:现有的多模态情感分析方法往往只以多模态整体标签作为唯一任务损失训练模型,并且采用三元对称的融合模式,平等的融合不同模态的特征。然而不同模态所蕴含的情感信息并不是对等的,事实上,文本模态应该作为多模态情感的主体,音频和视觉模态作为辅助。另一方面,经过单模态特征提取网络建模后的上下文特征向量,在跨模态融合时,由于特征坍缩等原因,不同模态特征将趋于一致,单模态特征异质性难以得到保留,导致模型在复杂环境下情感分类准确率降低。针对上述问题,本发明通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合,解决了现有的多模态情感分析技术在在复杂场景下分类不准确的问题;本发明采用的多任务学习机制能够监督单模态特征的提取、防止因模态融合导致特征坍塌,采用的层叠跨模态融合网络能够有效捕捉模态之间的关联;结合单模态特征提取网络与跨模态特征融合网络所提出的多模态情感分析方法,能够在保留模态异质性的前提下,连贯地融合不同模态的特征,从而有效识别复杂场景下的多模态情感。对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性,得到了较高的准确率。
附图说明
图1为本发明所述方法的整体流程图。
图2为本发明中的单模态特征提取网络结构图。
图3为本发明中整体网络结构图。
图4为本发明中的门控跨模态transformer网络结构图。
具体实施方式
为便于理解本发明,下面结合实施例进一步说明。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文中所使用的所有的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。说明书中所使用的术语只是为了描述具体的实施目的,不是旨在于限制本发明。
如图1所示,本发明实施例提供的一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,共包含如下几个步骤:
首先,将原始视频分割为视频片段,标记该视频片段所对应的情感标签(情感标签分为积极、中性以及消极三类);接着从视频中提取可被模型识别的文本、音频与视觉数据(特征),输入至单模态特征提取模块,得到单模态隐藏层特征与单模态高层特征;然后将提取的单模态隐藏层特征与单模态高层特征输入至层叠跨模态特征融合模块,得到多模态高层特征;将多模态高层特征与单模态高层特征(文本、视觉)拼接后输入至多层感知机,并输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,迭代优化模型。
具体步骤如下:
步骤1:首先将完整的视频根据话语进行切片,使每个视频片段仅包含一段完整的话语与对应的情感标签;将每个视频片段中包含的文本、音频与视觉数据进行预处理,提取文本特征向量、音频特征向量和视频特征向量。
对于文本模态的数据预处理分为两个步骤:首先要统计数据集中每段文本的文字数,计算其平均长度L,并将2L作为文本的截取长度,以最大程度的覆盖样本集中的较长文本内容,最终确定的文本长度为39;然后,将截取长度后的文本输入至762维的BERT词嵌入模型,对于批度n,得到词嵌入向量XT∈n×39×762。
对于音频模态,使用LibROSA音频工具包提取与情绪和说话语气相关的33维帧级音频特征,包括一维对数基频(log F0),20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT),得到音频特征向量XA∈n×39×33。
对于视觉模态,从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取68个面部地标,17个面部动作单元,头部姿势,头部方向和眼睛凝视,共提取了709维帧级视觉特征,得到视觉特征向量XV∈n×39×762。
步骤2:将文本、音频和视觉特征分别输入单模态特征提取网络,再将所得特征输入跨模态特征融合网络,进行特征融合;这是本发明的创新点之一。
其过程如下:
对于文本特征Xt、音频特征Xa与视觉特征Xv,分别将其输入至LSTM网络,得到隐藏层特征Xt h、Xa h、Xv h,作为层叠跨模态特征融合模块的输入。
Xt h=LSTM(Xt,WT)
Xa h=LSTM(Xa,WA)
Xv h=LSTM(Xv,WV)
其中WT、WA、WV分别为长短周期记忆神经网络关于文本(t)、听觉(a)、视觉(v)模态的网络参数。
分别取隐藏层特征Xt h、Xa h、Xv h的末端状态隐藏表示Xt,l h、Xa,l h、Xv,l h。将Xt,l h、Xa,l h、Xv,l h分别输入多层感知机,获得文本、视觉、音频模态的高层特征Xt finall、Xa finall、Xv finall,这些特征一方面用于预测单模态情感极性,作为情感分析多任务损失的一部分,在训练阶段监督模型保留单模态特征异质性,另一方面作为层叠跨模态特征融合模块的输入,以指导跨模态特征融合。
Xt finall=MLP(Xt,l h,WM T)
Xa finall=MLP(Xa,l h,WM A)
Xv finall=MLP(Xv,l h,WM V)
y′m=softmax(MLP(Fm finall))
其中,WM T,WM A,WM V分别多层感知机关于文本(t)、听觉(a)、视觉(v)模态的网络参数,softmax为逻辑回归函数,MLP为多层感知机。
对于从单模态特征提取模块中得到的单模态隐藏层特征Xt h、Xa h、Xv h与单模态高层特征Xt finall、Xa finall、Xv finall,先将Xt h、Xa h、Xt finall、Xa finall输入至门控跨模态transformer网络,得到经过音频特征加强的文本特征Xl h,因为融合了音频特征,其模式更接近于语言,定义其为语言特征Xl h,再将Xl h按步骤2a-3的流程,通过长短期记忆网络与多层感知机后,得到语言高层特征Xl finall。接着将Xl h、Xv h、Xl finall、Xv finall输入至门控跨模态transformer网络,得到多模态情感特征Xmulti。
其中门控跨模态transformer网络包括多层门控跨模态transformer单元块,对其中任一层跨模态注意力块,包含如下步骤:
transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特Xβ得到辅助模态的补充,为了防止在复杂场景下,目标模态与辅助模态的差异性过大而对融合造成干扰,在跨模态transformer的残差连接中加入了门控机制。通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比,得到相似度similarαβ作为残差连接的门控,指导跨模态transformer融合得到最后将输入前馈网络并进行按层规范化,得到本层跨模态融合特征作为下一层transformer layer的目标模态输入。公式如下:
步骤3:将步骤2b所得的多模态高层特征Fmulti finall与单模态高层特征Ft finall,Fv finall进行拼接,得到补充后的多模态高层特征Fmulti cat,并输入至多层感知机以进行情感分类;
其中,cat表示拼接操作。
计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重,以利于迭代优化模型;这是本发明的又一创新点。
计算本批情感分析的多任务损失,其中,i∈{t,a,v,m},超参数ωi表示不同模态损失占总体损失的权重。设置初始时wt,wa,wv的权重为1,wm的权重为0,随着训练次数的增加,逐步降低单模态任务的损失权重至0.6,逐步提升多模态任务的损失权重至1。
实验分析:
数据集:
实验所选用的数据集为中文多模态情感分析数据集SIMS,相比MOSI(Zadeh etal.2016)与MOSEI(Zadeh et al.2018b)等传统单标签数据集,SIMS额外提供了文本、音频与视觉单模态标签。该数据集为从60个原始视频中提取的2281个视频片段,令标记者在仅接受单一模态输入的情况下给出该模态的情感得分,从-1(强烈消极)到+1(强烈积极的)。
评估指标:
本实验为分类任务,因此选择3分类精度(Acc-3),积极、消极情感(p/g)二分类精度(Acc-2)和F1值(F1-Score)。
为了证明本发明及所提创新点是有效的,本实验通过与基线模型进行性能对比以及消融实验来进行验证。
基线模型对比实验:
本发明将提出的模型分别与单任务模型(TFN、Graph-MFN、MISA、MULT)和多任务模型(MLF-DNN、M-LMF)进行比较,实验结果见表1。基于多任务学习与层叠跨模态融合的多模态情感分析方法(MSGC)在各项评价指标上都超越了目前最先进的方法。对比单任务最优基线模型MULT,MSGC在该数据集上的的二分类准确率与F1值分别提高了3.66%与3.97%,三分类准确率与F1值分别提升了4.16%与4.45%。与多任务最优模型M-LMF相比,MSGC的二分类准确率与F1值分别提高了2.42%与2.73%,三分类准确率与F1值分别提升了2.06%与0.97%。
此外,多任务基线方法的性能明显高于单任务方法,这是由于单模态标签为多模态情感分析提供了更多的信息来源,减少了单模态特征提取的误差,并保留了重要信息。为了更公平的与单任务模型比较,还设置了MSGC-single模型,该模型只取多模态情感分类的损失值,并未利用到多任务标签。MSGC-single相比最优单任务基线模型仍有明显提升。
消融实验:
为了检查整个体系结构的功能和本工作中引入的组件,对SIMS数据集进行如下消融研究。
MSGC-single:在完整模型的基础上仅使用单任务标签进行训练。
MSGC w/o late-fusion:在完整模型的基础上删除了后期融合。
MSGC w/o late-fusion&gate:将MSGC w/o late-fusion的基础上删除了跨模态相似度门控模块。
MSGC-concat:将MSGC w/o late-fusion&gate的层叠transformer结构更换为拼接结构(与mult的结构相似)。
表2给出了SIMS数据集上模块组合的消融实验结果。实验结果显示完整的MSGC模型的实验效果最好,缺少不同模块会对实验结果造成不同影响。对于MSGC w/o late-fusion与MSGC,其在多模态情感输出直接省去了后期融合部分,未将单模态的高层特征与多模态高层特征进行拼接,只取多模态高层特征作为分类器的输入,其性能的各方面指标均低于MSGC模型,这说明经过单模态标签指导的单模态高层特征,能为多模态情感提供互补性。w/o late-fusion&gate相比w/o late-fusion省去了跨模态相似度门控模块,其总体性能要略低于w/olate-fusion模型,由此可见,通过将两个模态高层特征的余弦相似度作为跨模态融合时残差连接的门控,可以更好的融合不同模态的特征。此外,w/olate-fusion&gate与MSGC-concat的区别在于,MSGC-concat并未采用层叠的transformer结构,而是将三个输入模态进行两两组合,进行跨模态transformer,并将得到的6组双模态融合特征进行拼接,因此其参数量与运算时间都远高于w/o late-fusion&gate。在SIMS数据集上,w/o late-fusion&gate的性能要明显高于于MSGC-concat,这进一步说明了层叠transformer结构的优越性。
名词参考表
单模态特征(文本模态特征Xt、音频模态特征Xa、视觉模态特征Xv)
单模态隐藏层特征(文本隐藏层模态特征Xt h、音频隐藏层模态特征Xa h、视觉隐藏层模态特征Xv h)
单模态高层特征(文本高层特征Ft finall、音频高层特征Fa finall、视觉高层特征Fv finall、语言高层特征)
多模态融合特征Xmulti h
多模态高层特征Fmulti final
补充后的多模态高层特征Fmulti cat
层叠跨模态特征融合模块(包含2个门控跨模态transformer网络)。
单模态特征提取模块(包含3个长短期记忆网络)
长短期记忆网络(LSTM)
前馈层(forward)
多层感知机(MLP)
逻辑回归函数(Softmax)。
Claims (7)
1.一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:
步骤1)将原始视频拆剪为视频片段,标记该视频片段所对应的情感标签,再从该视频片段中提取可被模型识别的文本、音频与视觉特征;所述情感标签分为积极、中性以及消极三类;
步骤2)将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,该模块内包含三个长短期记忆网络,以进行模态内交互,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;
步骤3)将步骤2所得的多模态高层特征与单模态高层特征进行拼接后,通过多层感知机,输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务的损失权重,迭代优化模型;所述不同任务包括文本情感预测、音频情感预测、视觉情感预测以及整体情感预测。
2.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤1包括如下步骤:
步骤1a、根据原始视频中说话人的话语间隔,把视频切割为5-10秒的视频片段,每个视频片段包含一句完整的话语,并对该话语进行多模态情感标注;所述多模态情感标注包括文本、音频、视觉以及整体情感;
步骤1b、将视频片段中的字幕转录为文本,并利用BERT词嵌入将文本转换为词向量XT∈Rlength×dim,并设置句子最大长度为39,词嵌入维度为762;
步骤1c、对于音频片段,使用LibROSA音频工具包提取33维帧级音频特征,包括一维对数基频,20维梅尔频率倒谱系数和12维常数q色谱,这些特征均与情绪和说话语气相关;
步骤1d、从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征,包括面部地标、面部动作单元。
3.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2包括如下分步骤:
步骤2a、为了使单模态特征在跨模态融合之前能学习其上下文语境信息,采用长短期记忆网络来建模单模态内部交互;即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取,得到单模态隐藏层特征,即文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征;
步骤2b、将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合;其中,层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络,门控跨模态transformer网络用于将输入的两个模态特征进行融合;
层叠跨模态特征融合模块的具体步骤是:先将文本模态隐藏层特征作为主模态,音频隐藏层特征作为辅助模态,并输入对应模态的单模态高层特征进行引导,融合后得到新的语言特征;所述单模态高层特征包括文本高层特征、音频高层特征,所述新的语言特征包含了文本与音频信息的融合特征;
再将新得到的语言特征作为主模态,视觉特征作为辅助模态,输入对应模态高层特征进行引导,得到文本、音频、视觉三个模态的融合特征,该融合特征称为多模态融合特征。
4.根据权利要求3所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2a包括如下步骤:
步骤2a-1、对于从步骤1中获取的文本、音频与视觉特征Xm∈Rbatch×length×dimm,m∈[t,a,v],先将其输入至长短期记忆网络,得到隐藏层特征,Xm h=LSTMm(Xm),其中Xm h∈Rbatch ×length×dimh;不同模态的长短期记忆网络的输入维度是不同的,但隐藏层维度统一为dimh,以适应之后的门控跨模态transformer融合;
步骤2a-2、将Xm h作为门控跨模态transformer网络的输入,同时取Xm h的最后一个时间步Xm,l h,将其通过多层感知机获得单模态高层特征Fm finall:Fm final=MLP(Xm,l h),其中,多层感知机由多个前馈层组成;
步骤2a-3、在训练过程中,将Fm finall经过多层感知机得到单模态分类结果,在训练真实标签时计算交叉熵损失,以指导长短期记忆网络提取单模态隐藏层特征y′m=softmax(MLP(Fm finall));该模态所对应子任务的损失为
其中:softmax为逻辑回归函数,y′m为不同情感分类的概率,log为对数函数,N为批度,d为情感类别的数量,y′m,i,k为预测该批度中第i个样本属于类被k的概率,ym,i,k为该批度中第i个样本的真实标签。
5.根据权利要求4所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2b包括如下步骤:
步骤2b-1、对于从单模态特征提取模块中得到的单模态隐藏层特征Xt h、Xa h、Xv h与单模态高层特征Ft finall、Fa finall、Fv finall,先将Xt h、Xa h、Ft finall、Fa finall输入门控跨模态transformer网络,得到经过音频特征加强的文本特征Xl h;因为融合了音频特征,其模式更接近于语言,所以定义该特征为语言特征;接着,将Xl h的最后一个时间步特征输入至多层感知机,得到语言高层特征Fl finall;
步骤2b-2、将Xl h、Xv h、Fl finall、Fv finall输入门控跨模态transformer网络,得到多模态融合特征Xmulti h,取Xmulti h的最后一个时间步Xmulti,l h,将Xmulti,l h输入至多层感知机,得到多模态高层特征Fmulti finall。
6.根据权利要求5所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2b-1所用的门控跨模态transformer网络包括如下步骤:
其中:
步骤2b-1-2、门控跨模态transformer网络在传统跨模态transformer网络的残差连接中加入了门控机制;通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比,得到相似度similarαβ作为残差连接的门控,指导跨模态transformer融合,得到新特征最后将输入前馈网络并进行按层规范化,得到本层跨模态融合特征作为下一层transformer layer的目标模态输入;
公式如下:
7.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤3包括如下步骤:
步骤3a、为了进一步补充特征内容,防止关键信息丢失,将步骤2b所得的多模态高层特征Fmulti finall与单模态高层特征Ft finall,Fv finall进行拼接,得到补充后的多模态高层特征Fmulti cat,并输入至多层感知机以进行情感分类;
其中,cat表示拼接操作;
设置初始时wt,wa,wv的权重为1,wm的权重为0;随着训练次数的增加,逐步降低单模态任务的损失权重至0.6,逐步提升多模态任务的损失权重至1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210364764.3A CN114694076A (zh) | 2022-04-08 | 2022-04-08 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210364764.3A CN114694076A (zh) | 2022-04-08 | 2022-04-08 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694076A true CN114694076A (zh) | 2022-07-01 |
Family
ID=82142101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210364764.3A Pending CN114694076A (zh) | 2022-04-08 | 2022-04-08 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694076A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186683A (zh) * | 2022-07-15 | 2022-10-14 | 哈尔滨工业大学 | 一种基于跨模态翻译的属性级多模态情感分类方法 |
CN115496077A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
CN115587160A (zh) * | 2022-09-14 | 2023-01-10 | 山东财经大学 | 一种基于自注意力机制的短语级文本图像生成方法及系统 |
CN115762484A (zh) * | 2023-01-09 | 2023-03-07 | 季华实验室 | 用于语音识别的多模态数据融合方法、装置、设备及介质 |
CN115809438A (zh) * | 2023-01-18 | 2023-03-17 | 中国科学技术大学 | 多模态情感分析方法、系统、设备及存储介质 |
CN115906002A (zh) * | 2022-11-30 | 2023-04-04 | 华中师范大学 | 一种基于多粒度数据融合的学习投入状态评估方法 |
CN116058803A (zh) * | 2023-03-10 | 2023-05-05 | 南开大学 | 一种面向多类型噪声伪迹的eeg信号去噪方法 |
CN116070169A (zh) * | 2023-01-28 | 2023-05-05 | 天翼云科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN116244473A (zh) * | 2023-02-10 | 2023-06-09 | 南京理工大学 | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 |
CN116340778A (zh) * | 2023-05-25 | 2023-06-27 | 智慧眼科技股份有限公司 | 基于多模态的医疗大模型构建方法及其相关设备 |
CN116453024A (zh) * | 2023-04-23 | 2023-07-18 | 中国传媒大学 | 视频情绪识别系统、方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116758462A (zh) * | 2023-08-22 | 2023-09-15 | 江西师范大学 | 一种情感极性分析方法、装置、电子设备及存储介质 |
CN117037046A (zh) * | 2023-10-08 | 2023-11-10 | 之江实验室 | 一种视听事件检测方法、装置、存储介质及电子设备 |
CN117235605A (zh) * | 2023-11-10 | 2023-12-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117315428A (zh) * | 2023-10-30 | 2023-12-29 | 燕山大学 | 一种跨模态特征对齐融合的人群计数系统及方法 |
CN117975342A (zh) * | 2024-03-28 | 2024-05-03 | 江西尚通科技发展有限公司 | 半监督多模态情感分析方法、系统、存储介质及计算机 |
-
2022
- 2022-04-08 CN CN202210364764.3A patent/CN114694076A/zh active Pending
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186683A (zh) * | 2022-07-15 | 2022-10-14 | 哈尔滨工业大学 | 一种基于跨模态翻译的属性级多模态情感分类方法 |
CN115587160A (zh) * | 2022-09-14 | 2023-01-10 | 山东财经大学 | 一种基于自注意力机制的短语级文本图像生成方法及系统 |
CN115496077A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
CN115906002A (zh) * | 2022-11-30 | 2023-04-04 | 华中师范大学 | 一种基于多粒度数据融合的学习投入状态评估方法 |
CN115906002B (zh) * | 2022-11-30 | 2024-01-16 | 华中师范大学 | 一种基于多粒度数据融合的学习投入状态评估方法 |
CN115762484A (zh) * | 2023-01-09 | 2023-03-07 | 季华实验室 | 用于语音识别的多模态数据融合方法、装置、设备及介质 |
CN115809438A (zh) * | 2023-01-18 | 2023-03-17 | 中国科学技术大学 | 多模态情感分析方法、系统、设备及存储介质 |
CN116070169A (zh) * | 2023-01-28 | 2023-05-05 | 天翼云科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN116244473B (zh) * | 2023-02-10 | 2023-08-11 | 南京理工大学 | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 |
CN116244473A (zh) * | 2023-02-10 | 2023-06-09 | 南京理工大学 | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 |
CN116058803A (zh) * | 2023-03-10 | 2023-05-05 | 南开大学 | 一种面向多类型噪声伪迹的eeg信号去噪方法 |
CN116058803B (zh) * | 2023-03-10 | 2024-04-19 | 南开大学 | 一种面向多类型噪声伪迹的eeg信号去噪方法 |
CN116453024A (zh) * | 2023-04-23 | 2023-07-18 | 中国传媒大学 | 视频情绪识别系统、方法 |
CN116453024B (zh) * | 2023-04-23 | 2023-09-22 | 中国传媒大学 | 视频情绪识别系统、方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
CN116340778B (zh) * | 2023-05-25 | 2023-10-03 | 智慧眼科技股份有限公司 | 基于多模态的医疗大模型构建方法及其相关设备 |
CN116340778A (zh) * | 2023-05-25 | 2023-06-27 | 智慧眼科技股份有限公司 | 基于多模态的医疗大模型构建方法及其相关设备 |
CN116758462A (zh) * | 2023-08-22 | 2023-09-15 | 江西师范大学 | 一种情感极性分析方法、装置、电子设备及存储介质 |
CN117037046A (zh) * | 2023-10-08 | 2023-11-10 | 之江实验室 | 一种视听事件检测方法、装置、存储介质及电子设备 |
CN117037046B (zh) * | 2023-10-08 | 2024-01-09 | 之江实验室 | 一种视听事件检测方法、装置、存储介质及电子设备 |
CN117315428A (zh) * | 2023-10-30 | 2023-12-29 | 燕山大学 | 一种跨模态特征对齐融合的人群计数系统及方法 |
CN117315428B (zh) * | 2023-10-30 | 2024-04-05 | 燕山大学 | 一种跨模态特征对齐融合的人群计数系统及方法 |
CN117235605A (zh) * | 2023-11-10 | 2023-12-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117235605B (zh) * | 2023-11-10 | 2024-02-02 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117975342A (zh) * | 2024-03-28 | 2024-05-03 | 江西尚通科技发展有限公司 | 半监督多模态情感分析方法、系统、存储介质及计算机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN110444195B (zh) | 语音关键词的识别方法和装置 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN108255805B (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
WO2019085779A1 (zh) | 机器处理及文本纠错方法和装置、计算设备以及存储介质 | |
CN107423398B (zh) | 交互方法、装置、存储介质和计算机设备 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
CN111738016B (zh) | 多意图识别方法及相关设备 | |
CN111275085A (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
WO2021037113A1 (zh) | 一种图像描述的方法及装置、计算设备和存储介质 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
WO2023050708A1 (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
CN111651572A (zh) | 一种多领域任务型对话系统、方法和终端 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
WO2023093295A1 (zh) | 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
CN116189039A (zh) | 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |