CN114973062A - 基于Transformer的多模态情感分析方法 - Google Patents

基于Transformer的多模态情感分析方法 Download PDF

Info

Publication number
CN114973062A
CN114973062A CN202210442390.2A CN202210442390A CN114973062A CN 114973062 A CN114973062 A CN 114973062A CN 202210442390 A CN202210442390 A CN 202210442390A CN 114973062 A CN114973062 A CN 114973062A
Authority
CN
China
Prior art keywords
modal
mode
emotion analysis
label
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210442390.2A
Other languages
English (en)
Inventor
王笛
田玉敏
万波
郭栩彤
王泉
王义峰
罗雪梅
潘蓉
赵辉
安玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210442390.2A priority Critical patent/CN114973062A/zh
Publication of CN114973062A publication Critical patent/CN114973062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Transformer的多模态情感分析方法,其实现步骤为:获取训练样本集、验证样本集和测试样本集;构建多基于Transformer的多模态情感分析模型;对多模态情感分析模型进行迭代训练;获得多模态情感分析结果。本发明采用Bert和ViT预训练模型对文本和视觉模态的数据进行特征提取,基于t的多头注意力模块使视觉和音频数据更专注与文本相关的信息,跨模态Transformer模块和单模态标签预测模块使融合特征表示具有统一性和差异性信息,避免了现有技术中因为忽略不同模态对情感分析贡献度不同、单模态缺少长期依赖,导致情感分析准确度较低的技术问题,有效地提高了多模态情感分析的准确度。

Description

基于Transformer的多模态情感分析方法
技术领域
本发明属于多模态学习技术领域,更进一步涉及情感分析技术领域的一种基于Transformer的多模态情感分析方法,可应用于对视频中说话者传达的情感进行分析和理解。
背景技术
随着近年来社交媒体和拥有高质量摄像头的手机的广泛普及,多模态数据越来越多地进入到人们的工作和生活中,例如商家通过分析消费者上传的测评视频,根据说话者的话语、语音语调以及面部表情来捕获消费者对商品传达出的情感。情感的强度范围设置在-3到3之间,小于0时判定为消极,大于0时判定为积极,等于0是表示中立。通常,在对多模态数据进行情感分析时,往往会忽略掉不同模态数据对情感分析贡献度不相同、信息异步性的特点,导致情感分析的精度降低。因此,寻找一个有效的多模态情感分析方法,以提高视频所传达情感的分析精度。
多模态情感分析根据特征融合的方式可分为三种:早期融合方法、晚期融合方法和多阶段融合方法。早期融合方法是将不同模态的输入在模型浅层进行简单的拼接,融合后的特征再输入到单个模型当中完成特征提取和预测。晚期融合放啊在早期融合方法的基础上,首先根据每种模态做出决策,通过对决策结果的加权平均来得到最终的预测结果。多阶段融合方法结合了早期融合与晚期融合两种方法的优点,通常先通过简单的网络结构将不同模态参数空间统一化,再完成初级模态信息融合。融合后的特征再继续经过后续深度特征提取网络进行进一步模态相关的深层特征提取,最终提取到的特征在分类层之前做最终的融合后进行分类预测。
多阶段融合方法依靠网络和梯度传播来完成特征空间的统一和特征深层相互作用的功能,既保留了用不同模型结构处理不同模态分支的能力,又自然地完成了不同模态信息融合的目的,对提取到强大特征更有优势。传统的多阶段融合方法未考虑不同模态对情感分析贡献度不同、信息表达异步性的特点,使得单模态特征缺少长期依赖,学习到的多模态融合表示缺少语义信息,分析精度较低。
为了避免忽略不同模态对情感分析贡献度不同、信息表达异步性的特征,导致传统的多阶段融合方法无法很好地处理非对齐数据,基于序列到序列的多模态情感分析方法应运而生,例如,申请公布号为CN114091466A,申请名称为“一种基于Transformer和多任务学习的多模态情感分析方法及系统”的专利申请,该发明在特征提取方面,采用Glove嵌入、Facet、COVAREP提取文本、视觉、音频特征,主任务采用映射Transformer编码器,从三种模态中学习三模态融合特征并预测情感极性,在辅助任务中采用自监督的方式分别确定三个映射特征的标签并进行情感预测,最后结合两种任务的情感得到情感分析结果。但是其存在的缺陷在于,该方法仅平等地看待每种模态的数据所包含的与情感表达相关的信息量,没有凸显贡献度高的模态的作用,获取的单模态特征缺少长期依赖,信息并不足够丰富,导致多模态情感分析的准确度仍有所欠佳。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种基于Transformer的多模态情感分析方法。用于解决现有技术中存在的忽略不同模态对情感分析贡献度不同、信息表达异步性,单模态特征缺少长期依赖,导致的多模态情感分析准确度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest
(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列
Figure BDA0003614502080000021
其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),
Figure BDA0003614502080000022
是实数域;
(1c)随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,
Figure BDA0003614502080000031
表示第n1个训练多模态数据特征序列,Ytrain表示
Figure BDA0003614502080000032
对应的情感标签集合,
Figure BDA0003614502080000033
Figure BDA0003614502080000034
表示
Figure BDA0003614502080000035
对应的情感标签,Ivalid表示验证多模态数据特征序列集合,
Figure BDA0003614502080000036
Figure BDA0003614502080000037
表示第n2个验证多模态数据特征序列,Yvalid表示
Figure BDA0003614502080000038
对应的情感标签集合,
Figure BDA0003614502080000039
Figure BDA00036145020800000310
表示
Figure BDA00036145020800000311
对应的情感标签,Itest表示测试多模态数据特征序列集合,
Figure BDA00036145020800000312
Figure BDA00036145020800000313
表示第n3个测试多模态数据特征序列,Ytest表示
Figure BDA00036145020800000314
对应的情感标签集合,
Figure BDA00036145020800000315
Figure BDA00036145020800000316
表示
Figure BDA00036145020800000317
对应的情感标签,N≥2000,
Figure BDA00036145020800000318
N2=N-N1-N3
(2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
(3)对多模态情感分析模型H进行迭代训练:
(3a)初始化迭代次数为k,最大迭代次数为K,K≥30,各模态的全局表示Ft g
Figure BDA00036145020800000319
均为0,第k次迭代的多模态情感分析模型为Hk,并令k=1,Hk=H;
(3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块
Figure BDA0003614502080000041
Figure BDA0003614502080000042
中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块
Figure BDA0003614502080000043
通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示
Figure BDA0003614502080000044
Figure BDA0003614502080000045
跨模态Transformer模块
Figure BDA0003614502080000046
利用Ft
Figure BDA0003614502080000047
两两组合进行跨模态映射,得到每种模态的表示Ft *
Figure BDA0003614502080000048
拼接后得到多模态表示
Figure BDA0003614502080000049
单模态标签预测模块
Figure BDA00036145020800000410
对Ft、Fv、Fa进行分类得到单模态预测标签
Figure BDA00036145020800000411
多模态标签预测模块
Figure BDA00036145020800000412
Figure BDA00036145020800000413
进行分类得到多模态预测标签
Figure BDA00036145020800000414
(3c)采用平均绝对误差MAE的公式,通过
Figure BDA00036145020800000415
和ym计算模态标签预测模块
Figure BDA00036145020800000416
的损失值Lm,通过
Figure BDA00036145020800000417
和ys加权计算单模态标签预测模块
Figure BDA00036145020800000418
的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,其中ym是多模态训练数据对应的情感标签;
(3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心
Figure BDA00036145020800000419
Figure BDA00036145020800000420
其次利用
Figure BDA00036145020800000421
的输出和
Figure BDA00036145020800000422
中的
Figure BDA00036145020800000423
将L2范式作为距离计算方式计算Fi *
Figure BDA00036145020800000424
Figure BDA00036145020800000425
的距离
Figure BDA00036145020800000426
并利用
Figure BDA00036145020800000427
Figure BDA00036145020800000428
计算Fi *
Figure BDA00036145020800000429
Figure BDA00036145020800000430
的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用
Figure BDA00036145020800000431
更新Ft g
Figure BDA00036145020800000432
得到第k次训练的模型Hk′,其中i∈(m,t,v,a);
(3e)将验证样本集Xvalid作为Hk′的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥K是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
(4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
本发明与现有技术相比,具有以下优点:
本发明在进行特征提取时使用了语言预训练模型Bert和视觉预训练模型Vision-Transformer,使单模态特征序列具有长期依赖和更丰富的信息,基于t的多头注意力模块利用文本模态包含更多与情感表达相关的信息这一特点,加强了文本模态在情感分析中的作用,从而学习到与文本关系更密切的视觉与声学特征表示,然后跨模态Transformer模块和单模态标签预测模块学习到不同模态间的一致性和差异化信息,避免了现有技术中因为忽略不同模态对情感分析贡献度不同、信息表达异步性,单模态特征缺少长期依赖、特征信息不足,导致的多模态情感分析准确度较低的技术问题。
附图说明
图1是本发明的实现流程图。
图2是本发明的基于t的多头注意力模块的计算过程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest
步骤1a),选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
步骤1b),利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列
Figure BDA0003614502080000051
其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),
Figure BDA0003614502080000052
是实数域;
在视频中演讲者所说的话转录而成的句子的首尾分别拼接特殊的符号[CLS]和[SEP],将拼接后的序列经过Bert编码后中得到具有上下文相关性的
Figure BDA0003614502080000053
每个视频采样50帧图像,裁剪得到演讲者的人脸部分,删去所有闭眼帧,将采集到的睁眼的图像作为有效帧,当有效帧的数量大于50时,按照视频采样的时间顺序随机选取50张图像作为该视频的图像序列;当有效帧的数量小于50时,循环排列所有的有效帧直至满足序列长度为50,每个视频中的每个有效帧经过Vision-Transformer编码后输出为特征维度为768的特征向量,将每个视频的50个特征向量拼接后得到
Figure BDA0003614502080000061
步骤1c),随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,
Figure BDA0003614502080000062
表示第n1个训练多模态数据特征序列,Ytrain表示
Figure BDA0003614502080000063
对应的情感标签集合,
Figure BDA0003614502080000064
Figure BDA0003614502080000065
表示
Figure BDA0003614502080000066
对应的情感标签,Ivalid表示验证多模态数据特征序列集合,
Figure BDA0003614502080000067
Figure BDA0003614502080000068
表示第n2个验证多模态数据特征序列,Yvalid表示
Figure BDA0003614502080000069
对应的情感标签集合,
Figure BDA00036145020800000610
Figure BDA00036145020800000611
表示
Figure BDA00036145020800000612
对应的情感标签,Itest表示测试多模态数据特征序列集合,
Figure BDA00036145020800000613
Figure BDA00036145020800000614
表示第n3个测试多模态数据特征序列,Ytest表示
Figure BDA00036145020800000615
对应的情感标签集合,
Figure BDA00036145020800000616
Figure BDA00036145020800000617
表示
Figure BDA00036145020800000618
对应的情感标签,N≥2000,
Figure BDA00036145020800000619
N2=N-N1-N3;本实例中,N1=1284,N2=229,N3=686。
步骤2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4,本实例中,D=4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
Hcon中面向v和a的两个单向长短期记忆网络层数为1,输入维度分别设置为768和74,隐藏节点的维度分别为64、32,输出维度分别为32、16,面向t、v、a的时间卷积网络的输入信号的通道分别为:768、32、16,卷积产生的通道均设置为30,卷积核大小均设置为3;
Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;
HTRM所包含的跨模态Transformer层由两个子层组成,第一个子层的结构为多头注意力子层→层归一化以及残差连接,第二个子层的结构为前馈全连接子层→层归一化以及残差连接,共有4层跨模态Transformer层;
Hmul所包含的多模态标签分类器由三个全连接层组成;
Huni所包含的面向t、v、a的单模态标签分类器,分别由三个全连接层组成。
步骤3)对多模态情感分析模型H进行迭代训练:
步骤3a)初始化迭代次数为k,最大迭代次数为K,K≥30,各模态的全局表示Ft g
Figure BDA0003614502080000071
均为0,第k次迭代的多模态情感分析模型为Hk,本实例中,K=30,并令k=1,Hk=H;
步骤3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块
Figure BDA0003614502080000072
Figure BDA0003614502080000073
中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块
Figure BDA0003614502080000074
通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示
Figure BDA0003614502080000075
Figure BDA0003614502080000076
跨模态Transformer模块
Figure BDA0003614502080000077
利用Ft
Figure BDA0003614502080000078
两两组合进行跨模态映射,得到每种模态的表示Ft *
Figure BDA0003614502080000079
拼接后得到多模态表示
Figure BDA00036145020800000710
单模态标签预测模块
Figure BDA00036145020800000711
对Ft、Fv、Fa进行分类得到单模态预测标签
Figure BDA00036145020800000712
多模态标签预测模块
Figure BDA00036145020800000713
Figure BDA00036145020800000714
进行分类得到多模态预测标签
Figure BDA00036145020800000715
结合图2,基于t的多头注意力模块
Figure BDA0003614502080000081
通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示
Figure BDA0003614502080000082
Figure BDA0003614502080000083
其中:
通过Ft对Fv和Fa做基于Ft的显著性评估得到注意力权重
Figure BDA0003614502080000084
Figure BDA0003614502080000085
并通过归一化层对
Figure BDA0003614502080000086
Figure BDA0003614502080000087
进行归一化,得到最终注意力权重
Figure BDA0003614502080000088
Figure BDA0003614502080000089
利用
Figure BDA00036145020800000810
Figure BDA00036145020800000811
对Fv和Fa进行加权得到跨模态注意力表示
Figure BDA00036145020800000812
Figure BDA00036145020800000813
其中,
Figure BDA00036145020800000814
表示v中第c帧图像对t中第b个单词的注意力权重,
Figure BDA00036145020800000815
表示v中第c帧图像对t中第b个单词的归一化后的注意力权重,
Figure BDA00036145020800000816
表示a中第c帧伴随的音频对t中第b个单词的注意力权重,
Figure BDA00036145020800000817
表示a中第c帧伴随的音频对t中第b个单词的归一化后的注意力权重,跨模态注意力
Figure BDA00036145020800000818
Figure BDA00036145020800000819
的表示计算方式为:
利用Ft构造Keys(K)、Values(V)矩阵,模态β的表示构造Querys(Q)矩阵,Q与K点乘并缩放后归一化计算softmax得分,与V相乘得到跨模态注意力,计算方式为:
Figure BDA00036145020800000820
Figure BDA00036145020800000821
Figure BDA00036145020800000822
Xβ表示模态β的特征表示,
Figure BDA00036145020800000823
为可训练参数,softmax(·)表示激活函数,dscale是缩放因子,β∈(v,a)。
于t的多头注意力模块
Figure BDA00036145020800000824
利用文本模态的数据包含更多与情感表达相关的信息这一特性,加强了文本模态特征的在情感分析中的作用,使学习到的视觉、声学映射与文本模态的联系更加紧密,包含更多的语义信息,因此可以学习到包含更多与情感相关信息的融合特征表示,得到更高的情感分析准确度
步骤3c)采用平均绝对误差MAE的公式,通过
Figure BDA00036145020800000825
和ym计算模态标签预测模块
Figure BDA0003614502080000091
的损失值Lm,通过
Figure BDA0003614502080000092
和ys加权计算单模态标签预测模块
Figure BDA0003614502080000093
的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,计算公式为:
Figure BDA0003614502080000094
Figure BDA0003614502080000095
Figure BDA0003614502080000096
其中,ym是多模态训练数据对应的情感标签,
Figure BDA0003614502080000097
表示第q个样本的多模态预测标签,
Figure BDA0003614502080000098
表示第q个样本的多模态真实标签,
Figure BDA0003614502080000099
表示第q个样本的单模态预测标签,
Figure BDA00036145020800000910
表示第q个样本生成的单模态标签,dθk表示Hk的权值参数梯度,
Figure BDA00036145020800000911
表示求偏导数操作,θ*表示更新后的权值参数,η表示学习率,η∈[0,1]。
步骤3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心
Figure BDA00036145020800000912
Figure BDA00036145020800000913
其次利用
Figure BDA00036145020800000914
的输出和
Figure BDA00036145020800000915
中的
Figure BDA00036145020800000916
将L2范式作为距离计算方式计算Fi *
Figure BDA00036145020800000917
Figure BDA00036145020800000918
的距离
Figure BDA00036145020800000919
并利用
Figure BDA00036145020800000920
Figure BDA00036145020800000921
计算Fi *
Figure BDA00036145020800000922
Figure BDA00036145020800000923
的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用
Figure BDA00036145020800000924
更新Ft g
Figure BDA00036145020800000925
得到第k次训练的模型Hk′,其中i∈(m,t,v,a);
所述的正负类中心
Figure BDA00036145020800000926
Figure BDA00036145020800000927
Fi *
Figure BDA00036145020800000928
Figure BDA00036145020800000929
的距离
Figure BDA00036145020800000930
Fi *
Figure BDA00036145020800000931
Figure BDA00036145020800000932
的相对距离αi,利用ym和αi生成单模态标签ys,计算公式为:
Figure BDA00036145020800000933
Figure BDA0003614502080000101
Figure BDA0003614502080000102
其中,Ind(·)表示指示函数,
Figure BDA0003614502080000103
表示模态i的第j个样本的全局表示,di表示Fi *的维度,
Figure BDA0003614502080000104
是L2范式,∈表示极小数。
步骤3e)将验证样本集Xvalid作为Hk′的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥30是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
步骤4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。

Claims (6)

1.一种基于Transformer的多模态情感分析方法,其特征在于,包括如下步骤:
(1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest
(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列
Figure FDA0003614502070000011
其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),
Figure FDA0003614502070000012
是实数域;
(1c)随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,
Figure FDA0003614502070000013
表示第n1个训练多模态数据特征序列,Ytrain表示
Figure FDA0003614502070000014
对应的情感标签集合,
Figure FDA0003614502070000015
Figure FDA0003614502070000016
表示
Figure FDA0003614502070000017
对应的情感标签,Ivalid表示验证多模态数据特征序列集合,
Figure FDA0003614502070000021
Figure FDA0003614502070000022
表示第n2个验证多模态数据特征序列,Yvalid表示
Figure FDA0003614502070000023
对应的情感标签集合,
Figure FDA0003614502070000024
Figure FDA0003614502070000025
表示
Figure FDA0003614502070000026
对应的情感标签,Itest表示测试多模态数据特征序列集合,
Figure FDA0003614502070000027
Figure FDA0003614502070000028
表示第n3个测试多模态数据特征序列,Ytest表示
Figure FDA0003614502070000029
对应的情感标签集合,
Figure FDA00036145020700000210
Figure FDA00036145020700000211
表示
Figure FDA00036145020700000212
对应的情感标签,N≥2000,
Figure FDA00036145020700000213
N2=N-N1-N3
(2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
(3)对多模态情感分析模型H进行迭代训练:
(3a)初始化迭代次数为k,最大迭代次数为K,K≥30,各模态的全局表示Ft g
Figure FDA0003614502070000031
均为0,第k次迭代的多模态情感分析模型为Hk,并令k=1,Hk=H;
(3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块
Figure FDA0003614502070000032
Figure FDA0003614502070000033
中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块
Figure FDA0003614502070000034
通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示
Figure FDA0003614502070000035
Figure FDA0003614502070000036
跨模态Transformer模块
Figure FDA0003614502070000037
利用Ft
Figure FDA0003614502070000038
两两组合进行跨模态映射,得到每种模态的表示Ft *
Figure FDA0003614502070000039
拼接后得到多模态表示
Figure FDA00036145020700000310
单模态标签预测模块
Figure FDA00036145020700000311
对Ft、Fv、Fa进行分类得到单模态预测标签
Figure FDA00036145020700000312
多模态标签预测模块
Figure FDA00036145020700000313
Figure FDA00036145020700000314
进行分类得到多模态预测标签
Figure FDA00036145020700000315
(3c)采用平均绝对误差MAE的公式,通过
Figure FDA00036145020700000316
和ym计算模态标签预测模块
Figure FDA00036145020700000317
的损失值Lm,通过
Figure FDA00036145020700000318
和ys加权计算单模态标签预测模块
Figure FDA00036145020700000319
的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,其中ym是多模态训练数据对应的情感标签;
(3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心
Figure FDA00036145020700000320
Figure FDA00036145020700000321
其次利用
Figure FDA00036145020700000322
的输出和
Figure FDA00036145020700000323
中的
Figure FDA00036145020700000324
将L2范式作为距离计算方式计算Fi *
Figure FDA00036145020700000325
Figure FDA00036145020700000326
的距离
Figure FDA00036145020700000327
并利用
Figure FDA00036145020700000328
Figure FDA00036145020700000329
计算Fi *
Figure FDA00036145020700000330
Figure FDA00036145020700000331
的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用
Figure FDA00036145020700000332
更新Ft g
Figure FDA00036145020700000333
得到第k次训练的模型H′k,其中i∈(m,t,v,a);
(3e)将验证样本集Xvalid作为H′k的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥K是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
(4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
2.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(1b)中所述的利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列
Figure FDA0003614502070000041
其中
Figure FDA0003614502070000042
Figure FDA0003614502070000043
的提取过程为:
在视频中演讲者所说的话转录而成的句子的首尾分别拼接特殊的符号[CLS]和[SEP],将拼接后的序列经过Bert编码后中得到具有上下文相关性的
Figure FDA0003614502070000044
每个视频采样50帧图像,裁剪得到演讲者的人脸部分,删去所有闭眼帧,将采集到的睁眼的图像作为有效帧,当有效帧的数量大于50时,按照视频采样的时间顺序随机选取50张图像作为该视频的图像序列;当有效帧的数量小于50时,循环排列所有的有效帧直至满足序列长度为50,每个视频中的每个有效帧经过Vision-Transformer编码后输出为特征维度为768的特征向量,将每个视频的50个特征向量拼接后得到
Figure FDA0003614502070000045
3.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(2)中所述的基于Transformer的多模态情感分析模型H,其中:
Hcon中面向v和a的两个单向长短期记忆网络层数为1,输入维度分别设置为768和74,隐藏节点的维度分别为64、32,输出维度分别为32、16,面向t、v、a的时间卷积网络的输入信号的通道分别为:768、32、16,卷积产生的通道均设置为30,卷积核大小均设置为3;
Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;
HTRM所包含的跨模态Transformer层由两个子层组成,第一个子层的结构为多头注意力子层→层归一化以及残差连接,第二个子层的结构为前馈全连接子层→层归一化以及残差连接,共有4层跨模态Transformer层;
Hmul所包含的多模态标签分类器由三个全连接层组成;
Huni所包含的面向t、v、a的单模态标签分类器,分别由三个全连接层组成。
4.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(3b)中所述的基于t的多头注意力模块
Figure FDA0003614502070000051
通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示
Figure FDA0003614502070000052
Figure FDA0003614502070000053
其中:
通过Ft对Fv和Fa做基于Ft的显著性评估得到注意力权重
Figure FDA0003614502070000054
Figure FDA0003614502070000055
并通过归一化层对
Figure FDA0003614502070000056
Figure FDA0003614502070000057
进行归一化,得到最终注意力权重
Figure FDA0003614502070000058
Figure FDA0003614502070000059
利用
Figure FDA00036145020700000510
Figure FDA00036145020700000511
对Fv和Fa进行加权得到跨模态注意力表示
Figure FDA00036145020700000512
Figure FDA0003614502070000061
其中,
Figure FDA0003614502070000062
表示v中第c帧图像对t中第b个单词的注意力权重,
Figure FDA0003614502070000063
表示v中第c帧图像对t中第b个单词的归一化后的注意力权重,
Figure FDA0003614502070000064
表示a中第c帧伴随的音频对t中第b个单词的注意力权重,
Figure FDA0003614502070000065
表示a中第c帧伴随的音频对t中第b个单词的归一化后的注意力权重,跨模态注意力
Figure FDA0003614502070000066
Figure FDA0003614502070000067
的表示计算方式为:
利用Ft构造Keys(K)、Values(V)矩阵,模态β的表示构造Querys(Q)矩阵,Q与K点乘并缩放后归一化计算softmax得分,与V相乘得到跨模态注意力,计算方式为:
Figure FDA0003614502070000068
Figure FDA0003614502070000069
Figure FDA00036145020700000610
Xβ表示模态β的特征表示,
Figure FDA00036145020700000611
为可训练参数,softmax(·)表示激活函数,dscale是缩放因子,β∈(v,a)。
5.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(3c)中所述的模态标签预测模块
Figure FDA00036145020700000612
的损失值Lm,单模态标签预测模块
Figure FDA00036145020700000613
的损失值Lu,总损失值Lk=Lm+Lu,通过损失值Lk计算Hk的权值参数梯度dθk、通过dθk对Hk的权值参数进行更新,计算公式为:
Figure FDA00036145020700000614
Figure FDA0003614502070000071
Figure FDA0003614502070000072
θ*=θk-ηdθk
其中,
Figure FDA0003614502070000073
表示第q个样本的多模态预测标签,
Figure FDA0003614502070000074
表示第q个样本的多模态真实标签,
Figure FDA0003614502070000075
表示第q个样本的单模态预测标签,
Figure FDA0003614502070000076
表示第q个样本生成的单模态标签,dθk表示Hk的权值参数梯度,
Figure FDA0003614502070000077
表示求偏导数操作,θ*表示更新后的权值参数,η表示学习率,η∈[0,1]。
6.根据权利要求1所述的基于Transformer的多模态情感分析方法,其特征在于,步骤(3d)所述的正负类中心
Figure FDA0003614502070000078
Figure FDA0003614502070000079
Fi *
Figure FDA00036145020700000710
Figure FDA00036145020700000711
的距离
Figure FDA00036145020700000712
Figure FDA00036145020700000713
Fi *
Figure FDA00036145020700000714
Figure FDA00036145020700000715
的相对距离αi,利用ym和αi生成单模态标签ys,计算公式为:
Figure FDA00036145020700000716
Figure FDA00036145020700000717
Figure FDA00036145020700000718
ys=ymsm
其中,Ind(·)表示指示函数,
Figure FDA00036145020700000719
表示模态i的第j个样本的全局表示,di表示Fi *的维度,
Figure FDA00036145020700000720
是L2范式,∈表示极小数。
CN202210442390.2A 2022-04-25 2022-04-25 基于Transformer的多模态情感分析方法 Pending CN114973062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210442390.2A CN114973062A (zh) 2022-04-25 2022-04-25 基于Transformer的多模态情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210442390.2A CN114973062A (zh) 2022-04-25 2022-04-25 基于Transformer的多模态情感分析方法

Publications (1)

Publication Number Publication Date
CN114973062A true CN114973062A (zh) 2022-08-30

Family

ID=82979817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210442390.2A Pending CN114973062A (zh) 2022-04-25 2022-04-25 基于Transformer的多模态情感分析方法

Country Status (1)

Country Link
CN (1) CN114973062A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408498A (zh) * 2022-11-02 2022-11-29 中孚安全技术有限公司 一种基于自然语言的数据动态识别方法
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117540007A (zh) * 2024-01-04 2024-02-09 烟台大学 基于相似模态补全的多模态情感分析方法、系统和设备
CN117556828A (zh) * 2024-01-03 2024-02-13 华南师范大学 图文情感分析方法
CN117809229A (zh) * 2024-02-29 2024-04-02 广东工业大学 基于个性和共性对比分阶段引导的多模态情感分析方法
CN117933269A (zh) * 2024-03-22 2024-04-26 合肥工业大学 一种基于情感分布的多模态深度模型构建方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115544279B (zh) * 2022-10-11 2024-01-26 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115408498A (zh) * 2022-11-02 2022-11-29 中孚安全技术有限公司 一种基于自然语言的数据动态识别方法
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117522643B (zh) * 2023-12-04 2024-05-10 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117556828B (zh) * 2024-01-03 2024-04-30 华南师范大学 图文情感分析方法
CN117556828A (zh) * 2024-01-03 2024-02-13 华南师范大学 图文情感分析方法
CN117540007A (zh) * 2024-01-04 2024-02-09 烟台大学 基于相似模态补全的多模态情感分析方法、系统和设备
CN117540007B (zh) * 2024-01-04 2024-03-15 烟台大学 基于相似模态补全的多模态情感分析方法、系统和设备
CN117809229A (zh) * 2024-02-29 2024-04-02 广东工业大学 基于个性和共性对比分阶段引导的多模态情感分析方法
CN117809229B (zh) * 2024-02-29 2024-05-07 广东工业大学 基于个性和共性对比分阶段引导的多模态情感分析方法
CN117933269A (zh) * 2024-03-22 2024-04-26 合肥工业大学 一种基于情感分布的多模态深度模型构建方法及系统

Similar Documents

Publication Publication Date Title
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
Vashisht et al. Speech recognition using machine learning
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN110046248B (zh) 用于文本分析的模型训练方法、文本分类方法和装置
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN115690553B (zh) 一种基于多模态对话内容联合建模的情感分析方法及系统
CN115510224A (zh) 一种基于视觉、音频与文本融合的跨模态bert情感分析方法
CN116912642A (zh) 基于双模多粒度交互的多模态情感分析方法、设备及介质
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN116310983A (zh) 多模态情感识别方法及装置
CN115588148A (zh) 一种基于类脑反馈交互的多模态融合视频分类方法及系统
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Al-Fraihat et al. Speech recognition utilizing deep learning: A systematic review of the latest developments
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN116775873A (zh) 一种多模态对话情感识别方法
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN115952360A (zh) 基于用户和物品共性建模的域自适应跨域推荐方法及系统
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN115795010A (zh) 一种外部知识辅助的多因素层次建模共情对话生成方法
CN115858728A (zh) 一种基于多模态数据的情感分析方法
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination