CN114973062A - 基于Transformer的多模态情感分析方法 - Google Patents
基于Transformer的多模态情感分析方法 Download PDFInfo
- Publication number
- CN114973062A CN114973062A CN202210442390.2A CN202210442390A CN114973062A CN 114973062 A CN114973062 A CN 114973062A CN 202210442390 A CN202210442390 A CN 202210442390A CN 114973062 A CN114973062 A CN 114973062A
- Authority
- CN
- China
- Prior art keywords
- modal
- mode
- emotion analysis
- label
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Transformer的多模态情感分析方法,其实现步骤为:获取训练样本集、验证样本集和测试样本集;构建多基于Transformer的多模态情感分析模型;对多模态情感分析模型进行迭代训练;获得多模态情感分析结果。本发明采用Bert和ViT预训练模型对文本和视觉模态的数据进行特征提取,基于t的多头注意力模块使视觉和音频数据更专注与文本相关的信息,跨模态Transformer模块和单模态标签预测模块使融合特征表示具有统一性和差异性信息,避免了现有技术中因为忽略不同模态对情感分析贡献度不同、单模态缺少长期依赖,导致情感分析准确度较低的技术问题,有效地提高了多模态情感分析的准确度。
Description
技术领域
本发明属于多模态学习技术领域,更进一步涉及情感分析技术领域的一种基于Transformer的多模态情感分析方法,可应用于对视频中说话者传达的情感进行分析和理解。
背景技术
随着近年来社交媒体和拥有高质量摄像头的手机的广泛普及,多模态数据越来越多地进入到人们的工作和生活中,例如商家通过分析消费者上传的测评视频,根据说话者的话语、语音语调以及面部表情来捕获消费者对商品传达出的情感。情感的强度范围设置在-3到3之间,小于0时判定为消极,大于0时判定为积极,等于0是表示中立。通常,在对多模态数据进行情感分析时,往往会忽略掉不同模态数据对情感分析贡献度不相同、信息异步性的特点,导致情感分析的精度降低。因此,寻找一个有效的多模态情感分析方法,以提高视频所传达情感的分析精度。
多模态情感分析根据特征融合的方式可分为三种:早期融合方法、晚期融合方法和多阶段融合方法。早期融合方法是将不同模态的输入在模型浅层进行简单的拼接,融合后的特征再输入到单个模型当中完成特征提取和预测。晚期融合放啊在早期融合方法的基础上,首先根据每种模态做出决策,通过对决策结果的加权平均来得到最终的预测结果。多阶段融合方法结合了早期融合与晚期融合两种方法的优点,通常先通过简单的网络结构将不同模态参数空间统一化,再完成初级模态信息融合。融合后的特征再继续经过后续深度特征提取网络进行进一步模态相关的深层特征提取,最终提取到的特征在分类层之前做最终的融合后进行分类预测。
多阶段融合方法依靠网络和梯度传播来完成特征空间的统一和特征深层相互作用的功能,既保留了用不同模型结构处理不同模态分支的能力,又自然地完成了不同模态信息融合的目的,对提取到强大特征更有优势。传统的多阶段融合方法未考虑不同模态对情感分析贡献度不同、信息表达异步性的特点,使得单模态特征缺少长期依赖,学习到的多模态融合表示缺少语义信息,分析精度较低。
为了避免忽略不同模态对情感分析贡献度不同、信息表达异步性的特征,导致传统的多阶段融合方法无法很好地处理非对齐数据,基于序列到序列的多模态情感分析方法应运而生,例如,申请公布号为CN114091466A,申请名称为“一种基于Transformer和多任务学习的多模态情感分析方法及系统”的专利申请,该发明在特征提取方面,采用Glove嵌入、Facet、COVAREP提取文本、视觉、音频特征,主任务采用映射Transformer编码器,从三种模态中学习三模态融合特征并预测情感极性,在辅助任务中采用自监督的方式分别确定三个映射特征的标签并进行情感预测,最后结合两种任务的情感得到情感分析结果。但是其存在的缺陷在于,该方法仅平等地看待每种模态的数据所包含的与情感表达相关的信息量,没有凸显贡献度高的模态的作用,获取的单模态特征缺少长期依赖,信息并不足够丰富,导致多模态情感分析的准确度仍有所欠佳。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种基于Transformer的多模态情感分析方法。用于解决现有技术中存在的忽略不同模态对情感分析贡献度不同、信息表达异步性,单模态特征缺少长期依赖,导致的多模态情感分析准确度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest;
(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),是实数域;
(1c)随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,表示第n1个训练多模态数据特征序列,Ytrain表示对应的情感标签集合, 表示对应的情感标签,Ivalid表示验证多模态数据特征序列集合, 表示第n2个验证多模态数据特征序列,Yvalid表示对应的情感标签集合, 表示对应的情感标签,Itest表示测试多模态数据特征序列集合, 表示第n3个测试多模态数据特征序列,Ytest表示对应的情感标签集合, 表示对应的情感标签,N≥2000,N2=N-N1-N3;
(2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
(3)对多模态情感分析模型H进行迭代训练:
(3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块为中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示和跨模态Transformer模块利用Ft、两两组合进行跨模态映射,得到每种模态的表示Ft *、拼接后得到多模态表示单模态标签预测模块对Ft、Fv、Fa进行分类得到单模态预测标签多模态标签预测模块对进行分类得到多模态预测标签
(3c)采用平均绝对误差MAE的公式,通过和ym计算模态标签预测模块的损失值Lm,通过和ys加权计算单模态标签预测模块的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,其中ym是多模态训练数据对应的情感标签;
(3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心和其次利用的输出和中的将L2范式作为距离计算方式计算Fi *到和的距离并利用和计算Fi *到和的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用更新Ft g、得到第k次训练的模型Hk′,其中i∈(m,t,v,a);
(3e)将验证样本集Xvalid作为Hk′的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥K是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
(4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
本发明与现有技术相比,具有以下优点:
本发明在进行特征提取时使用了语言预训练模型Bert和视觉预训练模型Vision-Transformer,使单模态特征序列具有长期依赖和更丰富的信息,基于t的多头注意力模块利用文本模态包含更多与情感表达相关的信息这一特点,加强了文本模态在情感分析中的作用,从而学习到与文本关系更密切的视觉与声学特征表示,然后跨模态Transformer模块和单模态标签预测模块学习到不同模态间的一致性和差异化信息,避免了现有技术中因为忽略不同模态对情感分析贡献度不同、信息表达异步性,单模态特征缺少长期依赖、特征信息不足,导致的多模态情感分析准确度较低的技术问题。
附图说明
图1是本发明的实现流程图。
图2是本发明的基于t的多头注意力模块的计算过程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest:
步骤1a),选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
步骤1b),利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),是实数域;
每个视频采样50帧图像,裁剪得到演讲者的人脸部分,删去所有闭眼帧,将采集到的睁眼的图像作为有效帧,当有效帧的数量大于50时,按照视频采样的时间顺序随机选取50张图像作为该视频的图像序列;当有效帧的数量小于50时,循环排列所有的有效帧直至满足序列长度为50,每个视频中的每个有效帧经过Vision-Transformer编码后输出为特征维度为768的特征向量,将每个视频的50个特征向量拼接后得到
步骤1c),随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,表示第n1个训练多模态数据特征序列,Ytrain表示对应的情感标签集合, 表示对应的情感标签,Ivalid表示验证多模态数据特征序列集合, 表示第n2个验证多模态数据特征序列,Yvalid表示对应的情感标签集合, 表示对应的情感标签,Itest表示测试多模态数据特征序列集合, 表示第n3个测试多模态数据特征序列,Ytest表示对应的情感标签集合, 表示对应的情感标签,N≥2000,N2=N-N1-N3;本实例中,N1=1284,N2=229,N3=686。
步骤2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4,本实例中,D=4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
Hcon中面向v和a的两个单向长短期记忆网络层数为1,输入维度分别设置为768和74,隐藏节点的维度分别为64、32,输出维度分别为32、16,面向t、v、a的时间卷积网络的输入信号的通道分别为:768、32、16,卷积产生的通道均设置为30,卷积核大小均设置为3;
Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;
HTRM所包含的跨模态Transformer层由两个子层组成,第一个子层的结构为多头注意力子层→层归一化以及残差连接,第二个子层的结构为前馈全连接子层→层归一化以及残差连接,共有4层跨模态Transformer层;
Hmul所包含的多模态标签分类器由三个全连接层组成;
Huni所包含的面向t、v、a的单模态标签分类器,分别由三个全连接层组成。
步骤3)对多模态情感分析模型H进行迭代训练:
步骤3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块为中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示和跨模态Transformer模块利用Ft、两两组合进行跨模态映射,得到每种模态的表示Ft *、拼接后得到多模态表示单模态标签预测模块对Ft、Fv、Fa进行分类得到单模态预测标签多模态标签预测模块对进行分类得到多模态预测标签
通过Ft对Fv和Fa做基于Ft的显著性评估得到注意力权重和并通过归一化层对和进行归一化,得到最终注意力权重和利用和对Fv和Fa进行加权得到跨模态注意力表示和其中,表示v中第c帧图像对t中第b个单词的注意力权重,表示v中第c帧图像对t中第b个单词的归一化后的注意力权重,表示a中第c帧伴随的音频对t中第b个单词的注意力权重,表示a中第c帧伴随的音频对t中第b个单词的归一化后的注意力权重,跨模态注意力和的表示计算方式为:
利用Ft构造Keys(K)、Values(V)矩阵,模态β的表示构造Querys(Q)矩阵,Q与K点乘并缩放后归一化计算softmax得分,与V相乘得到跨模态注意力,计算方式为:
于t的多头注意力模块利用文本模态的数据包含更多与情感表达相关的信息这一特性,加强了文本模态特征的在情感分析中的作用,使学习到的视觉、声学映射与文本模态的联系更加紧密,包含更多的语义信息,因此可以学习到包含更多与情感相关信息的融合特征表示,得到更高的情感分析准确度
步骤3c)采用平均绝对误差MAE的公式,通过和ym计算模态标签预测模块的损失值Lm,通过和ys加权计算单模态标签预测模块的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,计算公式为:
其中,ym是多模态训练数据对应的情感标签,表示第q个样本的多模态预测标签,表示第q个样本的多模态真实标签,表示第q个样本的单模态预测标签,表示第q个样本生成的单模态标签,dθk表示Hk的权值参数梯度,表示求偏导数操作,θ*表示更新后的权值参数,η表示学习率,η∈[0,1]。
步骤3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心和其次利用的输出和中的将L2范式作为距离计算方式计算Fi *到和的距离并利用和计算Fi *到和的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用更新Ft g、得到第k次训练的模型Hk′,其中i∈(m,t,v,a);
步骤3e)将验证样本集Xvalid作为Hk′的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥30是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
步骤4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
Claims (6)
1.一种基于Transformer的多模态情感分析方法,其特征在于,包括如下步骤:
(1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest;
(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),是实数域;
(1c)随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,表示第n1个训练多模态数据特征序列,Ytrain表示对应的情感标签集合, 表示对应的情感标签,Ivalid表示验证多模态数据特征序列集合, 表示第n2个验证多模态数据特征序列,Yvalid表示对应的情感标签集合, 表示对应的情感标签,Itest表示测试多模态数据特征序列集合, 表示第n3个测试多模态数据特征序列,Ytest表示对应的情感标签集合, 表示对应的情感标签,N≥2000,N2=N-N1-N3;
(2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
(3)对多模态情感分析模型H进行迭代训练:
(3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块为中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示和跨模态Transformer模块利用Ft、两两组合进行跨模态映射,得到每种模态的表示Ft *、拼接后得到多模态表示单模态标签预测模块对Ft、Fv、Fa进行分类得到单模态预测标签多模态标签预测模块对进行分类得到多模态预测标签
(3c)采用平均绝对误差MAE的公式,通过和ym计算模态标签预测模块的损失值Lm,通过和ys加权计算单模态标签预测模块的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,其中ym是多模态训练数据对应的情感标签;
(3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心和其次利用的输出和中的将L2范式作为距离计算方式计算Fi *到和的距离并利用和计算Fi *到和的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用更新Ft g、得到第k次训练的模型H′k,其中i∈(m,t,v,a);
(3e)将验证样本集Xvalid作为H′k的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥K是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
(4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
2.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(1b)中所述的利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列其中和的提取过程为:
3.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(2)中所述的基于Transformer的多模态情感分析模型H,其中:
Hcon中面向v和a的两个单向长短期记忆网络层数为1,输入维度分别设置为768和74,隐藏节点的维度分别为64、32,输出维度分别为32、16,面向t、v、a的时间卷积网络的输入信号的通道分别为:768、32、16,卷积产生的通道均设置为30,卷积核大小均设置为3;
Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;
HTRM所包含的跨模态Transformer层由两个子层组成,第一个子层的结构为多头注意力子层→层归一化以及残差连接,第二个子层的结构为前馈全连接子层→层归一化以及残差连接,共有4层跨模态Transformer层;
Hmul所包含的多模态标签分类器由三个全连接层组成;
Huni所包含的面向t、v、a的单模态标签分类器,分别由三个全连接层组成。
4.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(3b)中所述的基于t的多头注意力模块通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示和其中:
通过Ft对Fv和Fa做基于Ft的显著性评估得到注意力权重和并通过归一化层对和进行归一化,得到最终注意力权重和利用和对Fv和Fa进行加权得到跨模态注意力表示和其中,表示v中第c帧图像对t中第b个单词的注意力权重,表示v中第c帧图像对t中第b个单词的归一化后的注意力权重,表示a中第c帧伴随的音频对t中第b个单词的注意力权重,表示a中第c帧伴随的音频对t中第b个单词的归一化后的注意力权重,跨模态注意力和的表示计算方式为:
利用Ft构造Keys(K)、Values(V)矩阵,模态β的表示构造Querys(Q)矩阵,Q与K点乘并缩放后归一化计算softmax得分,与V相乘得到跨模态注意力,计算方式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442390.2A CN114973062A (zh) | 2022-04-25 | 2022-04-25 | 基于Transformer的多模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442390.2A CN114973062A (zh) | 2022-04-25 | 2022-04-25 | 基于Transformer的多模态情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114973062A true CN114973062A (zh) | 2022-08-30 |
Family
ID=82979817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210442390.2A Pending CN114973062A (zh) | 2022-04-25 | 2022-04-25 | 基于Transformer的多模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973062A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115408498A (zh) * | 2022-11-02 | 2022-11-29 | 中孚安全技术有限公司 | 一种基于自然语言的数据动态识别方法 |
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116994069A (zh) * | 2023-09-22 | 2023-11-03 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN117522643A (zh) * | 2023-12-04 | 2024-02-06 | 新励成教育科技股份有限公司 | 一种口才训练方法、装置、设备及存储介质 |
CN117540007A (zh) * | 2024-01-04 | 2024-02-09 | 烟台大学 | 基于相似模态补全的多模态情感分析方法、系统和设备 |
CN117556828A (zh) * | 2024-01-03 | 2024-02-13 | 华南师范大学 | 图文情感分析方法 |
CN117809229A (zh) * | 2024-02-29 | 2024-04-02 | 广东工业大学 | 基于个性和共性对比分阶段引导的多模态情感分析方法 |
CN117933269A (zh) * | 2024-03-22 | 2024-04-26 | 合肥工业大学 | 一种基于情感分布的多模态深度模型构建方法及系统 |
-
2022
- 2022-04-25 CN CN202210442390.2A patent/CN114973062A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115544279B (zh) * | 2022-10-11 | 2024-01-26 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115408498A (zh) * | 2022-11-02 | 2022-11-29 | 中孚安全技术有限公司 | 一种基于自然语言的数据动态识别方法 |
CN115983280A (zh) * | 2023-01-31 | 2023-04-18 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN115983280B (zh) * | 2023-01-31 | 2023-08-15 | 烟台大学 | 面向不确定模态缺失的多模态情感分析方法及系统 |
CN116994069A (zh) * | 2023-09-22 | 2023-11-03 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN116994069B (zh) * | 2023-09-22 | 2023-12-22 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN117522643A (zh) * | 2023-12-04 | 2024-02-06 | 新励成教育科技股份有限公司 | 一种口才训练方法、装置、设备及存储介质 |
CN117522643B (zh) * | 2023-12-04 | 2024-05-10 | 新励成教育科技股份有限公司 | 一种口才训练方法、装置、设备及存储介质 |
CN117556828B (zh) * | 2024-01-03 | 2024-04-30 | 华南师范大学 | 图文情感分析方法 |
CN117556828A (zh) * | 2024-01-03 | 2024-02-13 | 华南师范大学 | 图文情感分析方法 |
CN117540007A (zh) * | 2024-01-04 | 2024-02-09 | 烟台大学 | 基于相似模态补全的多模态情感分析方法、系统和设备 |
CN117540007B (zh) * | 2024-01-04 | 2024-03-15 | 烟台大学 | 基于相似模态补全的多模态情感分析方法、系统和设备 |
CN117809229A (zh) * | 2024-02-29 | 2024-04-02 | 广东工业大学 | 基于个性和共性对比分阶段引导的多模态情感分析方法 |
CN117809229B (zh) * | 2024-02-29 | 2024-05-07 | 广东工业大学 | 基于个性和共性对比分阶段引导的多模态情感分析方法 |
CN117933269A (zh) * | 2024-03-22 | 2024-04-26 | 合肥工业大学 | 一种基于情感分布的多模态深度模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
Vashisht et al. | Speech recognition using machine learning | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN110046248B (zh) | 用于文本分析的模型训练方法、文本分类方法和装置 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN115690553B (zh) | 一种基于多模态对话内容联合建模的情感分析方法及系统 | |
CN115510224A (zh) | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 | |
CN116912642A (zh) | 基于双模多粒度交互的多模态情感分析方法、设备及介质 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116310983A (zh) | 多模态情感识别方法及装置 | |
CN115588148A (zh) | 一种基于类脑反馈交互的多模态融合视频分类方法及系统 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Al-Fraihat et al. | Speech recognition utilizing deep learning: A systematic review of the latest developments | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN115952360A (zh) | 基于用户和物品共性建模的域自适应跨域推荐方法及系统 | |
CN115859989A (zh) | 基于远程监督的实体识别方法及系统 | |
CN115795010A (zh) | 一种外部知识辅助的多因素层次建模共情对话生成方法 | |
CN115858728A (zh) | 一种基于多模态数据的情感分析方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |