CN114973062A

CN114973062A - 基于Transformer的多模态情感分析方法

Info

Publication number: CN114973062A
Application number: CN202210442390.2A
Authority: CN
Inventors: 王笛; 田玉敏; 万波; 郭栩彤; 王泉; 王义峰; 罗雪梅; 潘蓉; 赵辉; 安玲玲
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-30

Abstract

本发明公开了一种基于Transformer的多模态情感分析方法，其实现步骤为：获取训练样本集、验证样本集和测试样本集；构建多基于Transformer的多模态情感分析模型；对多模态情感分析模型进行迭代训练；获得多模态情感分析结果。本发明采用Bert和ViT预训练模型对文本和视觉模态的数据进行特征提取，基于t的多头注意力模块使视觉和音频数据更专注与文本相关的信息，跨模态Transformer模块和单模态标签预测模块使融合特征表示具有统一性和差异性信息，避免了现有技术中因为忽略不同模态对情感分析贡献度不同、单模态缺少长期依赖，导致情感分析准确度较低的技术问题，有效地提高了多模态情感分析的准确度。

Description

基于Transformer的多模态情感分析方法

技术领域

本发明属于多模态学习技术领域，更进一步涉及情感分析技术领域的一种基于Transformer的多模态情感分析方法，可应用于对视频中说话者传达的情感进行分析和理解。

背景技术

随着近年来社交媒体和拥有高质量摄像头的手机的广泛普及，多模态数据越来越多地进入到人们的工作和生活中，例如商家通过分析消费者上传的测评视频，根据说话者的话语、语音语调以及面部表情来捕获消费者对商品传达出的情感。情感的强度范围设置在-3到3之间，小于0时判定为消极，大于0时判定为积极，等于0是表示中立。通常，在对多模态数据进行情感分析时，往往会忽略掉不同模态数据对情感分析贡献度不相同、信息异步性的特点，导致情感分析的精度降低。因此，寻找一个有效的多模态情感分析方法，以提高视频所传达情感的分析精度。

多模态情感分析根据特征融合的方式可分为三种：早期融合方法、晚期融合方法和多阶段融合方法。早期融合方法是将不同模态的输入在模型浅层进行简单的拼接，融合后的特征再输入到单个模型当中完成特征提取和预测。晚期融合放啊在早期融合方法的基础上，首先根据每种模态做出决策，通过对决策结果的加权平均来得到最终的预测结果。多阶段融合方法结合了早期融合与晚期融合两种方法的优点，通常先通过简单的网络结构将不同模态参数空间统一化，再完成初级模态信息融合。融合后的特征再继续经过后续深度特征提取网络进行进一步模态相关的深层特征提取，最终提取到的特征在分类层之前做最终的融合后进行分类预测。

多阶段融合方法依靠网络和梯度传播来完成特征空间的统一和特征深层相互作用的功能，既保留了用不同模型结构处理不同模态分支的能力，又自然地完成了不同模态信息融合的目的，对提取到强大特征更有优势。传统的多阶段融合方法未考虑不同模态对情感分析贡献度不同、信息表达异步性的特点，使得单模态特征缺少长期依赖，学习到的多模态融合表示缺少语义信息，分析精度较低。

为了避免忽略不同模态对情感分析贡献度不同、信息表达异步性的特征，导致传统的多阶段融合方法无法很好地处理非对齐数据，基于序列到序列的多模态情感分析方法应运而生，例如，申请公布号为CN114091466A，申请名称为“一种基于Transformer和多任务学习的多模态情感分析方法及系统”的专利申请，该发明在特征提取方面，采用Glove嵌入、Facet、COVAREP提取文本、视觉、音频特征，主任务采用映射Transformer编码器，从三种模态中学习三模态融合特征并预测情感极性，在辅助任务中采用自监督的方式分别确定三个映射特征的标签并进行情感预测，最后结合两种任务的情感得到情感分析结果。但是其存在的缺陷在于，该方法仅平等地看待每种模态的数据所包含的与情感表达相关的信息量，没有凸显贡献度高的模态的作用，获取的单模态特征缺少长期依赖，信息并不足够丰富，导致多模态情感分析的准确度仍有所欠佳。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种基于Transformer的多模态情感分析方法。用于解决现有技术中存在的忽略不同模态对情感分析贡献度不同、信息表达异步性，单模态特征缺少长期依赖，导致的多模态情感分析准确度较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集X_train、验证样本集X_valid和测试样本集X_test；

(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V＝{(t,v,a)ⁿ|1≤n≤N}，N≥2000，其中(t,v,a)ⁿ表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段；

(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列

其中T_s、d_s分别表示序列长度和特征维度，s∈(t,v,a)，

是实数域；

(1c)随机选取V中N₁个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集X_train＝(I_train；Y_train)，将N₃个评论性视频片同理得到测试样本集X_test＝(I_test；Y_test)，将剩余的N₂个评论性视频片段同理得到验证样本集X_valid＝(I_valid；Y_valid)，其中，I_train表示训练多模态数据特征序列集合，

表示第n₁个训练多模态数据特征序列，Y_train表示

对应的情感标签集合，

表示

对应的情感标签，I_valid表示验证多模态数据特征序列集合，

表示第n₂个验证多模态数据特征序列，Y_valid表示

对应的情感标签集合，

表示

对应的情感标签，I_test表示测试多模态数据特征序列集合，

表示第n₃个测试多模态数据特征序列，Y_test表示

对应的情感标签集合，

表示

对应的情感标签，N≥2000，

N₂＝N-N₁-N₃；

(2)构建基于Transformer的多模态情感分析模型H：

构建包括由主干网络和单模态标签预测模块H_uni模块构成的多模态情感分析模型H，主干网络包括顺次连接的上下文信息生成模块H_con、基于t的多头注意力模块H_t-MH、跨模态Transformer模块H_TRM、多模态标签预测模块H_mul，单模态标签预测模块H_uni加载在H_con和H_TRM的输出之间，其中H_con包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层，以及面向t的一路顺次连接一维时间卷积层、位置编码层；H_t-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层；H_TRM包括D个顺次连接的跨模态Transformer层，D≥4；H_mul包括一个多模态标签分类器；H_uni包括三个并行排布的面向t、v、a的单模态标签分类器；

(3)对多模态情感分析模型H进行迭代训练：

(3a)初始化迭代次数为k，最大迭代次数为K，K≥30，各模态的全局表示F_t ^g、

均为0，第k次迭代的多模态情感分析模型为H_k，并令k＝1，H_k＝H；

(3b)将X_train作为多模态情感分析模型H_k的输入，进行前向传播：

上下文信息生成模块

为

中每种模态的特征序列生成上下文相关信息和位置编码，得到具有上下文信息的文本、视觉、声学特征表示F_t、F_v、F_a；基于t的多头注意力模块

通过F_t对F_v和F_a进行基于F_t的多头注意力计算，得到跨模态注意力表示

和

跨模态Transformer模块

利用F_t、

两两组合进行跨模态映射，得到每种模态的表示F_t ^*、

拼接后得到多模态表示

单模态标签预测模块

对F_t、F_v、F_a进行分类得到单模态预测标签

多模态标签预测模块

对

进行分类得到多模态预测标签

(3c)采用平均绝对误差MAE的公式，通过

和y_m计算模态标签预测模块

的损失值L_m，通过

和y_s加权计算单模态标签预测模块

的损失值L_u，得到总损失值L_k＝L_m+L_u，并采用反向传播方法，通过损失值L_k计算H_k的权值参数梯度dθ_k，然后采用随机梯度下降法，通过dθ_k对H_k的权值参数进行更新，其中y_m是多模态训练数据对应的情感标签；

(3d)令单模态标签y_s＝y_m，利用各模态标签与全局表示计算正负类中心

和

其次利用

的输出和

中的

将L₂范式作为距离计算方式计算F_i ^*到

和

的距离

并利用

和

计算F_i ^*到

和

的相对距离α_i，接着利用y_m和α_i生成单模态标签y_s并更新y_s，利用

更新F_t ^g、

得到第k次训练的模型H_k′，其中i∈(m,t,v,a)；

(3e)将验证样本集X_valid作为H_k′的输入进行前向传播，得到每个验证集样本的情感预测标签；判断k≥K是否成立，若是，得到训练好的多模态情感分析模型H′，否则，令k＝k+1，并执行步骤(3b)；

(4)获取多模态情感分析结果；

将测试样本集X_test作为多模态情感分析模型H′的输入进行前向传播，得到每个测试集样本的情感预测标签。

本发明与现有技术相比，具有以下优点：

本发明在进行特征提取时使用了语言预训练模型Bert和视觉预训练模型Vision-Transformer，使单模态特征序列具有长期依赖和更丰富的信息，基于t的多头注意力模块利用文本模态包含更多与情感表达相关的信息这一特点，加强了文本模态在情感分析中的作用，从而学习到与文本关系更密切的视觉与声学特征表示，然后跨模态Transformer模块和单模态标签预测模块学习到不同模态间的一致性和差异化信息，避免了现有技术中因为忽略不同模态对情感分析贡献度不同、信息表达异步性，单模态特征缺少长期依赖、特征信息不足，导致的多模态情感分析准确度较低的技术问题。

附图说明

图1是本发明的实现流程图。

图2是本发明的基于t的多头注意力模块的计算过程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集X_train、验证样本集X_valid和测试样本集X_test：

步骤1a)，选取N个画面中只有一个演讲者进行独白的评论性视频片段V＝{(t,v,a)ⁿ|1≤n≤N}，N≥2000，其中(t,v,a)ⁿ表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段；

步骤1b)，利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列

其中T_s、d_s分别表示序列长度和特征维度，s∈(t,v,a)，

是实数域；

在视频中演讲者所说的话转录而成的句子的首尾分别拼接特殊的符号[CLS]和[SEP]，将拼接后的序列经过Bert编码后中得到具有上下文相关性的

每个视频采样50帧图像，裁剪得到演讲者的人脸部分，删去所有闭眼帧，将采集到的睁眼的图像作为有效帧，当有效帧的数量大于50时，按照视频采样的时间顺序随机选取50张图像作为该视频的图像序列；当有效帧的数量小于50时，循环排列所有的有效帧直至满足序列长度为50，每个视频中的每个有效帧经过Vision-Transformer编码后输出为特征维度为768的特征向量，将每个视频的50个特征向量拼接后得到

步骤1c)，随机选取V中N₁个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集X_train＝(I_train；Y_train)，将N₃个评论性视频片同理得到测试样本集X_test＝(I_test；Y_test)，将剩余的N₂个评论性视频片段同理得到验证样本集X_valid＝(I_valid；Y_valid)，其中，I_train表示训练多模态数据特征序列集合，

表示第n₁个训练多模态数据特征序列，Y_train表示

对应的情感标签集合，

表示

对应的情感标签，I_valid表示验证多模态数据特征序列集合，

表示第n₂个验证多模态数据特征序列，Y_valid表示

对应的情感标签集合，

表示

对应的情感标签，I_test表示测试多模态数据特征序列集合，

表示第n₃个测试多模态数据特征序列，Y_test表示

对应的情感标签集合，

表示

对应的情感标签，N≥2000，

N₂＝N-N₁-N₃；本实例中，N₁＝1284，N₂＝229，N₃＝686。

步骤2)构建基于Transformer的多模态情感分析模型H：

构建包括由主干网络和单模态标签预测模块H_uni模块构成的多模态情感分析模型H，主干网络包括顺次连接的上下文信息生成模块H_con、基于t的多头注意力模块H_t-MH、跨模态Transformer模块H_TRM、多模态标签预测模块H_mul，单模态标签预测模块H_uni加载在H_con和H_TRM的输出之间，其中H_con包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层，以及面向t的一路顺次连接一维时间卷积层、位置编码层；H_t-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层；H_TRM包括D个顺次连接的跨模态Transformer层，D≥4，本实例中，D＝4；H_mul包括一个多模态标签分类器；H_uni包括三个并行排布的面向t、v、a的单模态标签分类器；

H_con中面向v和a的两个单向长短期记忆网络层数为1，输入维度分别设置为768和74，隐藏节点的维度分别为64、32，输出维度分别为32、16，面向t、v、a的时间卷积网络的输入信号的通道分别为：768、32、16，卷积产生的通道均设置为30，卷积核大小均设置为3；

H_t-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层；

H_TRM所包含的跨模态Transformer层由两个子层组成，第一个子层的结构为多头注意力子层→层归一化以及残差连接，第二个子层的结构为前馈全连接子层→层归一化以及残差连接，共有4层跨模态Transformer层；

H_mul所包含的多模态标签分类器由三个全连接层组成；

H_uni所包含的面向t、v、a的单模态标签分类器，分别由三个全连接层组成。

步骤3)对多模态情感分析模型H进行迭代训练：

步骤3a)初始化迭代次数为k，最大迭代次数为K，K≥30，各模态的全局表示F_t ^g、

均为0，第k次迭代的多模态情感分析模型为H_k，本实例中，K＝30，并令k＝1，H_k＝H；

步骤3b)将X_train作为多模态情感分析模型H_k的输入，进行前向传播：

上下文信息生成模块

为

和

跨模态Transformer模块

利用F_t、

两两组合进行跨模态映射，得到每种模态的表示F_t ^*、

拼接后得到多模态表示

单模态标签预测模块

对F_t、F_v、F_a进行分类得到单模态预测标签

多模态标签预测模块

对

进行分类得到多模态预测标签

结合图2，基于t的多头注意力模块

和

其中：

通过F_t对F_v和F_a做基于F_t的显著性评估得到注意力权重

和

并通过归一化层对

和

进行归一化，得到最终注意力权重

和

利用

和

对F_v和F_a进行加权得到跨模态注意力表示

和

其中，

表示v中第c帧图像对t中第b个单词的注意力权重，

表示v中第c帧图像对t中第b个单词的归一化后的注意力权重，

表示a中第c帧伴随的音频对t中第b个单词的注意力权重，

表示a中第c帧伴随的音频对t中第b个单词的归一化后的注意力权重，跨模态注意力

和

的表示计算方式为：

利用F_t构造Keys(K)、Values(V)矩阵，模态β的表示构造Querys(Q)矩阵，Q与K点乘并缩放后归一化计算softmax得分，与V相乘得到跨模态注意力，计算方式为：

X_β表示模态β的特征表示，

为可训练参数，softmax(·)表示激活函数，d_scale是缩放因子，β∈(v,a)。

于t的多头注意力模块

利用文本模态的数据包含更多与情感表达相关的信息这一特性，加强了文本模态特征的在情感分析中的作用，使学习到的视觉、声学映射与文本模态的联系更加紧密，包含更多的语义信息，因此可以学习到包含更多与情感相关信息的融合特征表示，得到更高的情感分析准确度

步骤3c)采用平均绝对误差MAE的公式，通过

和y_m计算模态标签预测模块

的损失值L_m，通过

和y_s加权计算单模态标签预测模块

的损失值L_u，得到总损失值L_k＝L_m+L_u，并采用反向传播方法，通过损失值L_k计算H_k的权值参数梯度dθ_k，然后采用随机梯度下降法，通过dθ_k对H_k的权值参数进行更新，计算公式为：

其中，y_m是多模态训练数据对应的情感标签，

表示第q个样本的多模态预测标签，

表示第q个样本的多模态真实标签，

表示第q个样本的单模态预测标签，

表示第q个样本生成的单模态标签，dθ_k表示H_k的权值参数梯度，

表示求偏导数操作，θ^*表示更新后的权值参数，η表示学习率，η∈[0,1]。

步骤3d)令单模态标签y_s＝y_m，利用各模态标签与全局表示计算正负类中心

和

其次利用

的输出和

中的

将L₂范式作为距离计算方式计算F_i ^*到

和

的距离

并利用

和

计算F_i ^*到

和

更新F_t ^g、

得到第k次训练的模型H_k′，其中i∈(m,t,v,a)；

所述的正负类中心

和

F_i ^*到

和

的距离

F_i ^*到

和

的相对距离α_i，利用y_m和α_i生成单模态标签y_s，计算公式为：

其中，Ind(·)表示指示函数，

表示模态i的第j个样本的全局表示，d_i表示F_i ^*的维度，

是L2范式，∈表示极小数。

步骤3e)将验证样本集X_valid作为H_k′的输入进行前向传播，得到每个验证集样本的情感预测标签；判断k≥30是否成立，若是，得到训练好的多模态情感分析模型H′，否则，令k＝k+1，并执行步骤(3b)；

步骤4)获取多模态情感分析结果；

Claims

1.一种基于Transformer的多模态情感分析方法，其特征在于，包括如下步骤：

其中T_s、d_s分别表示序列长度和特征维度，s∈(t,v,a)，

是实数域；

表示第n₁个训练多模态数据特征序列，Y_train表示

对应的情感标签集合，

表示

对应的情感标签，I_valid表示验证多模态数据特征序列集合，

表示第n₂个验证多模态数据特征序列，Y_valid表示

对应的情感标签集合，

表示

对应的情感标签，I_test表示测试多模态数据特征序列集合，

表示第n₃个测试多模态数据特征序列，Y_test表示

对应的情感标签集合，

表示

对应的情感标签，N≥2000，

N₂＝N-N₁-N₃；

(2)构建基于Transformer的多模态情感分析模型H：

(3)对多模态情感分析模型H进行迭代训练：

上下文信息生成模块

为

和

跨模态Transformer模块

利用F_t、

两两组合进行跨模态映射，得到每种模态的表示F_t ^*、

拼接后得到多模态表示

单模态标签预测模块

对F_t、F_v、F_a进行分类得到单模态预测标签

多模态标签预测模块

对

进行分类得到多模态预测标签

(3c)采用平均绝对误差MAE的公式，通过

和y_m计算模态标签预测模块

的损失值L_m，通过

和y_s加权计算单模态标签预测模块

和

其次利用

的输出和

中的

将L₂范式作为距离计算方式计算F_i ^*到

和

的距离

并利用

和

计算F_i ^*到

和

更新F_t ^g、

得到第k次训练的模型H′_k，其中i∈(m,t,v,a)；

(3e)将验证样本集X_valid作为H′_k的输入进行前向传播，得到每个验证集样本的情感预测标签；判断k≥K是否成立，若是，得到训练好的多模态情感分析模型H′，否则，令k＝k+1，并执行步骤(3b)；

(4)获取多模态情感分析结果；

2.根据权利要求1所述的基于Transformer的多模态情感分析方法，其特征在于，步骤(1b)中所述的利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列

其中

和

的提取过程为：

3.根据权利要求1所述的基于Transformer的多模态情感分析方法，其特征在于，步骤(2)中所述的基于Transformer的多模态情感分析模型H，其中：

H_mul所包含的多模态标签分类器由三个全连接层组成；

4.根据权利要求1所述的基于Transformer的多模态情感分析方法，其特征在于，步骤(3b)中所述的基于t的多头注意力模块

和

其中：

通过F_t对F_v和F_a做基于F_t的显著性评估得到注意力权重

和

并通过归一化层对

和

进行归一化，得到最终注意力权重

和

利用

和

对F_v和F_a进行加权得到跨模态注意力表示

和

其中，

表示v中第c帧图像对t中第b个单词的注意力权重，

表示v中第c帧图像对t中第b个单词的归一化后的注意力权重，

表示a中第c帧伴随的音频对t中第b个单词的注意力权重，

和

的表示计算方式为：

X_β表示模态β的特征表示，

5.根据权利要求1所述的基于Transformer的多模态情感分析方法，其特征在于，步骤(3c)中所述的模态标签预测模块

的损失值L_m，单模态标签预测模块

的损失值L_u，总损失值L_k＝L_m+L_u，通过损失值L_k计算H_k的权值参数梯度dθ_k、通过dθ_k对H_k的权值参数进行更新，计算公式为：

θ^*＝θ_k-ηdθ_k

其中，

表示第q个样本的多模态预测标签，

表示第q个样本的多模态真实标签，

表示第q个样本的单模态预测标签，

6.根据权利要求1所述的基于Transformer的多模态情感分析方法，其特征在于，步骤(3d)所述的正负类中心

和

F_i ^*到

和

的距离

F_i ^*到

和

y_s＝y_m+α_s-α_m

其中，Ind(·)表示指示函数，

表示模态i的第j个样本的全局表示，d_i表示F_i ^*的维度，

是L2范式，∈表示极小数。