CN114386515A

CN114386515A - 基于Transformer算法的单模态标签生成和多模态情感判别方法

Info

Publication number: CN114386515A
Application number: CN202210037389.1A
Authority: CN
Inventors: 师飘; 胡敏; 时雪峰; 李泽中; 任福继
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22
Anticipated expiration: 2042-01-13
Also published as: CN114386515B

Abstract

本发明公开了一种基于Transformer算法的单模态标签生成和多模态情感判别方法，包括：1获取多模态非对齐数据集，并进行预处理得到对应模态的嵌入表达特征；2建立ITE网络模块，提取模态内特征；3单模态标签预测和多模态情感决策判别标签的融合生成；4建立模态间BTE网络模块和模态增强MTE网络模块，并经过全局自注意力STE网络模块获取模态间特征和模态增强特征；5获取多模态情感深层预测的标签。本发明对目前多模态数据集仅有一个多模态标签的情况，通过自监督的带权投票机制进行决策融合产生单模态标签，基于多种跨模态TE的使用，使得模态之间数据充分交互，从而能提升多模态情感判别的精度。

Description

基于Transformer算法的单模态标签生成和多模态情感判别方法

技术领域

本发明涉及时序一维卷积神经网络Conv1D，BiLSTM，Transformer自注意力机制以及多模态交互注意力机制，涉及到模态的不同融合策略，实现多模态(语音，文本，视频)情感的评估，并使用带权投票的自监督机制，实现了单模态标签的预测和最终的多模态情感判别，属于多模态多任务的情感计算领域。

背景技术

随着大数据时代的到来，数据内容纷繁冗杂，数据形式也异常丰富。人类对某一事务的认知是结合多个模态信息感知下做出的反应。仅仅使用单一模态很难对信息进行全面解读，人类情感的判断尤其如此。如，眉头紧锁的人说对陪护机器人说，“我喜欢这道菜”，从表情上理解是负面情绪，但是语言上却是正面情绪。为进一步促进机器对人类情感的解读，提升人机交互的质量，降低心理疾病的出现，多模态的情感判别具有十分重要的意义。

传统的情感判别多是基于单一模态的，文本或视频信息。单模态的情感不能全面反应人的情感表达，而视听信息是协同共存的，利用多模态信息将在一定程度上能够提升数据的表征能力，为机器学习更好地解决下游任务提供有利帮助。借助多模态信息进行综合全面的情感判断。文本、视觉和听觉所构成的多模态信息，和单模态情感分析相比，多模态融合可以提供更为全面的信息，捕捉更多情感特征，使得情感判别算法更加稳健。

基于多模态的情感判别算法也有了一定的研究基础。经典的特征提取网络是使用LSTM分别提取不同模态的时序特征，并使用特征的早期融合或后期融合机制进行不同特征的连接，且现有技术多将每一个模态的语义信息看成一个整体，模态间的交互能力比较弱，情感分类不准。传统的网络无法解决序列长期依赖问题，无法动态关注重要模态的信息。其中很重要的一个方面是，公开数据集的标签是多个模态共享一个标签，不同模态没有自己独立的标签。而单模态和多模态之间存在很强的关联，且人工标注单模态标签费时费力，因此如何使用自监督的方式从多模态的特征和共享标签中学到单模态特征表示，对于深入理解多模态情感的表达具有重要的意义。模态之间的融合机制，对于解决模态数据缺失的问题，充分提取模态内特征和模态间的差异，也是值得研究的关键问题。

发明内容

本发明为克服现有技术的不足之处，提出一种基于Transformer算法的单模态标签生成和多模态情感判别方法，以期能基于带权的投票机制来实现单模态标签的预测和多模态情感决策判别标签的融合生成，并进一步探索单模态标签和多模态共享标签之间的关联，以提高网络特征提取的准确性，从而显著提高情感判别的精度。

本发明为解决技术问题采用如下技术方案：

本发明一种基于Transformer算法的单模态标签生成和多模态情感判别方法的特点是按如下步骤进行：

步骤1、获取多模态非对齐数据集，并进行预处理得到对应模态的嵌入表达特征；

步骤1.1、获取一段多模态的原始录像，并将所述原始录像中的语音模态序列记为

所述原始录像中的文本模态序列记为

所述原始录像中人脸表情的视频模态序列记为

其中，T_a，T_t，T_v分别表示语音、文本、视频序列的长度，d_a，d_t，d_v分别表示语音、文本、视频序列的维度信息，令多模态的原始录像的标签为y；

步骤1.2、利用式(1)-式(3)分别对语音模态序列U_a，视频模态序列U_v和文本模态序列U_t进行规范化处理，得到对应模态的底层语义特征

式(1)和(2)中，BN(·)表示批量标准化，Conv1D(·)表示时序一维卷积操作，U_s,s∈{a,v,t}表示对应模态序列，k_s,s∈{a,v}表示对应模态卷积核的大小，T_s,s∈{a,v,t}表示对应模态序列的长度，式(3)中，BiLSTM(·)表示双向长短期记忆网络，LN(·)表示层归一化处理，d表示特征统一后的维度；

步骤1.3、结合对应模态的底层语义特征

使用式(4)生成对应模态的嵌入表达特征X_s,s∈{a,v,t}；

式(4)中，PE表示正弦位置编码；

步骤2、建立ITE网络模块，提取模态内特征；

步骤2.1、初始化单模态训练数据集合中的单模态标签y_s为人工标注的多模态标签，即y_s＝y,s∈{a,v,t}；

步骤2.2、将对应模态的嵌入表达特征X_s,s∈{a,v,t}输入至ITE网络模块，获取单模态的编码序列和模态内特征；

所述ITE网络模块是由两个子模块组成，包括：多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE；

将嵌入表达特征X_s输入所述多头注意力模块Multihead中，并利用式(5)得到多头注意力特征

式(5)中，x∈{a,v,t}代表任一模态，x→s表示将x模态的信息传递给s模态的交互方式，X_x表示对应模态的嵌入表达特征；

将多头注意力特征

输入所述前向传播模块MLP-SE，并利用式(6)获取所述ITE网络模块输出的编码序列X_x→s；

式(6)中GELU为激活函数，W₁ ^T和W₂ ^T分别表示第一个、第二个线性变换的权重矩阵的转置，b₁和b₂表示两个线形层的偏置向量，SE表示注意力机制，输出X′_x→s中间特征；

最终利用式(7)表征式(5)和式(6)，得到模态内特征

步骤2.3、将所述ITE网络模块堆叠N次后，输出最终的模态内特征I_s→s，简记为I_s；

步骤2.4、定义模态间BTE网络模块、模态增强MTE网络模块、全局自注意力STE网络模块的结构与所述ITE网络模块相同，并将四个网络模块中的任一网络模块记为WTE模块，则按照所述ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6)，将WTE模块内两个子模块的数据处理过程记为式(8)：

X_x→s＝WTE(X_s,X_x) (8)

步骤3、单模态标签预测和多模态情感决策判别标签的融合生成；

将所述模态内特征I_s输入一个MLP-SE模块，从而利用式(9)得到单模态的标签预测值

式(9)中，

和

分别表示s模态的第一、第二个线性变换的权重矩阵的转置，

和

分别表示s模态的两个线形层的偏置向量；

根据模态的非全显性，并结合单模态标签的预测值，利用式(10)得到多模态情感决策判别的标签y”：

式(10)中，α₁,α₂,α₃分别表示文本模态、语音模态、视频模态输出值的权重值；

步骤4、建立模态间BTE网络模块和模态增强MTE网络模块，并经过全局自注意力STE网络模块获取模态间特征和模态增强特征；

步骤4.1、所述模态间BTE网络模块利用式(8)对嵌入表达特征X_s进行处理，获得语音序列、文本序列和图像序列的两两交互的编码特征

s≠x，s,x∈{a,v,t}；

步骤4.2、使用张量拼接的方式将两两交互的编码特征

进行特征融合，然后利用式(11)，使用全局自注意力STE网络模块对融合后的特征进行提取，得到模态间特征B^* _s→s，简记为

式(11)中，符号

表示张量的拼接操作，s≠x₁≠x₂，s,x₁,x₂∈{a,v,t}；

步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取；

所述模态增强MTE网络模块对所述嵌入表达特征X_s,s∈{a,v,t}进行张量拼接，形成多模态m的早期融合向量X_m；

所述模态增强MTE网络模块利用式(8)对所述嵌入表达特征X_s和早期融合特征X_m进行处理，得到模态的增强特征

步骤4.4、将模态的增强特征

再次送入全局自注意力STE网络模块进行全局自注意力特征的提取，得到增强特征M^* _s→s,s∈{a,v,t}，简记为

步骤5、获取多模态情感深层预测标签；

将模态间BTE网络模块、模态增强MTE网络模块分别堆叠N次，得到最终的模态间特征B_s和最终的模态增强特征M_s，s∈{a,v,t}，并将最终的模态间特征B_s和最终的模态增强特征M_s进行张量拼接，得到融合后的多模态特征MB；

将所述多模态特征MB输入至MLP-SE模块，使用式(12)进行多模态情感深层预测，得到标签y′；

式(12)中，GELU为激活函数，

和

分别表示多模态m的第一个和第二个线性变换的权重矩阵的转置，

和

表示两个线形层的偏置向量；

步骤6、损失函数的设计与迭代训练；

步骤6.1、利用式(13)构建带有标签平滑的损失函数loss：

式(13)中，ξ₁和ξ₂表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值；

步骤6.2、设置最大迭代次数epoch，将对应模态的嵌入表达特征X_s,s∈{a,v,t}输入步骤2-步骤6.1中进行训练，并计算所述损失函数loss，当迭代次数达到epoch时，停止训练，从而得到最优预测模型，用于对所输入的多模态情感数据集进行单模态标签的预测，并输出多模态情感深层预测的标签和多模态情感决策判别的标签。

与已有技术相比，本发明的有益效果在于：

1、基于Transformer的情感序列上下文建模可以解决传统LSTM等方法的序列长期依赖问题，在对齐的数据和非对其数据上均具有一定的优势。

2、本发明实现了不同层次的融合机制，不仅仅包含前期的特征融合，还包含了经过深层特征提取之后的后期特征融合，以及单模态标签生成多模态标签的后期决策融合。将跨模态的融合信息在不同的特征层次上进行融合，充分挖掘多模态信息之间的互补信息，是当前多模态情感识别领域上多模态融合架构的有效补充。

3、本发明提出不同模态之间情感具有非全显性，某一模态处于主导，其他模态可能比较隐蔽，且成年人更容易隐藏自己的情感，但是有效的情感表达和情感交互，显性模态起主要作用，隐形模态也可以理解为是多模态整体情感的干扰信息。

4、本发明充分进行模态间的交互操作，基于多模态TransformerEncoder的模态内ITE，模态间BTE，以及单模态增强MTE等多种特征提取策略，可以解决直接进行特征融合而忽视的模态间交互问题，提高模型对情感语义的理解和泛化能力。

5、基于自监督的投票机制的单模态标签生成思想，深入分析多模态情感数据集，针对目前开源的英文多模态情绪数据集中仅仅存在一个统一标签的问题提供解决思路，此研究可以为单模态情感分析或为探讨单模态和多模态情感关联提供基础。

6、基于多模态短视频中人物情感标签具有一定的平滑过渡性，为了避免网络过分相信训练样本中异常点的标签，研究使用标签平滑损失可在一定程度上解决过拟合问题，并体现了情感变化的平滑性。

附图说明

图1为本发明整体结构图；

图2为本发明方法中TransformerEncoder结构图；

图3为本发明模态间BTE展开结构图。

具体实施方式

本实施例中，一种基于Transformer算法的单模态标签生成和多模态情感判别方法，整体算法流程如图1所示，其步骤包括：首先获取多模态非对齐数据集，并进行预处理得到对应模态的嵌入表达特征；然后建立ITE网络模块，提取模态内特征；结合单模态标签预测和多模态情感决策判别标签的融合生成，建立模态间BTE网络模块和模态增强MTE网络模块，并经过全局自注意力STE网络模块获取模态间特征和模态增强特征，获取多模态情感深层预测的标签；最后结合损失函数的设计进行迭代训练。具体说，其特征是按如下步骤进行：

本实例中，使用的是CMU-MOSI，CMU-MOSEI以及IEMOCAP数据集，研究所包含的CMU数据来自于真实环境的YouTube网站，而IEMOCAP采集自实验室环境，不同的数据来源也是为了更充分全面地验证本发明；

步骤1.1、获取一段多模态的原始录像，并将原始录像中的语音模态序列记为

原始录像中的文本模态序列记为

原始录像中人脸表情的视频模态序列记为

其中，T_a，T_t，T_v分别表示语音、文本、视频序列的长度，d_a，d_t，d_v分别表示语音、文本、视频序列的维度信息，令多模态的原始录像的标签为y，对于CMU数据，包含2分类标签(积极情绪和消极情绪)，以及7分类标签(情感的7类[-3,+3]得分值)，而对于IEMOCAP，则包含开心、伤心、生气、中性四种情感状态；

步骤1.2、序列维度统一化处理，并确保输入序列中的每一个元素都能感知相邻元素，利用式(1)-式(3)分别对语音模态序列U_a，视频模态序列U_v和文本模态序列U_t进行规范化处理，得到对应模态的底层语义特征

式(1)和(2)中，BN(·)表示批量标准化，Conv1D(·)表示时序一维卷积操作，U_s,s∈{a,v,t}表示对应模态序列，k_s,s∈{a,v}表示对应模态卷积核的大小，本实施例中，核大小为1，步长也为1，T_s,s∈{a,v,t}表示对应模态序列的长度；

式(3)中，BiLSTM(·)表示双向长短期记忆网络，LN(·)表示层归一化处理，d表示特征统一后的维度，本实施例中d为30；

步骤1.3、使用PE正弦位置编码生成不同时刻的信息，结合对应模态的底层语义特征

使用式(4)生成对应模态的嵌入表达特征X_s,s∈{a,v,t}；

式(4)中，PE表示正弦位置编码；

步骤2、建立ITE(Intra-modal TransformerEncoder)网络模块，提取深层特征，获取单模态的高层语义特征的编码序列，即模态内特征；

ITE网络模块是由两个子模块组成，如图2所示，TransformerEncoder结构图所示，本实施例中，多头注意力机制中的头数设置为8，包括：多头注意力模块Multihead和带有注意力的前向传播模块MLP-SE；

将嵌入表达特征X_s输入多头注意力模块Multihead中，并利用式(5)得到多头注意力特征

式(5)中，x∈{a,v,t}代表任一模态，x→s表示将x模态的信息传递给s模态的交互方式，让s模态特征指导模型匹配x模态特征相应的区域，并将与s模态特征紧密相关的x模态特征区域赋予高重要性权值，X_x表示对应模态的嵌入表达特征；

将多头注意力特征

输入前向传播模块MLP-SE，并利用式(6)获取ITE网络模块输出的编码序列X_x→s；

最终利用式(7)表征式(5)和式(6)，得到模态内特征

步骤2.3、将ITE网络模块堆叠N次后，本实施例中，设置为3次堆叠，如图1所示，输出最终的模态内特征I_s→s，简记为I_s；

步骤2.4、定义模态间BTE(Between-modal TransformerEncoder)网络模块、模态增强MTE(Multi-modal TransformerEncoder)网络模块、全局自注意力STE(Self-modalTransformer Encoder)网络模块的结构与ITE网络模块相同，并将四个网络模块中的任一网络模块记为WTE模块，则按照ITE网络模块内两个子模块的数据处理过程所表征的式(5)和式(6)，将WTE模块内两个子模块的数据处理过程记式(8)：

X_x→s＝WTE(X_s,X_x) (8)

将模态内特征I_s输入一个MLP-SE模块，从而利用式(9)得到单模态的标签预测值

式(9)中，

和

分别表示s模态的第一、第二个线性变换的权重矩阵的转置，

和

分别表示s模态的两个线形层的偏置向量；

根据模态的非全显性，即多模态数据中会有部分隐性模态的信息丢失(假隐)，设计权重控制每一个模态对多模态的贡献率，并结合单模态标签的预测值，共同决策，根据带有权重的单模态标签投票机制，利用式(10)得到多模态情感决策判别的标签y″：

式(10)中，α₁,α₂,α₃分别表示文本模态、语音模态、视频模态输出值的权重值，本施例中，权重值是一个基于统计的超参数，α₁,α₂,α₃分别为0.45、0.25、0.30，后期也可以通过训练学习进行调整；

步骤4.1、模态间BTE网络模块利用式(8)对嵌入表达特征X_s进行处理，获得语音序列、文本序列和图像序列的两两交互的编码特征

s≠x，s,x∈{a,v,t}，展开具体的图解结构如图3所示；

步骤4.2、使用张量拼接的方式，如图3所示，将两两交互的编码特征

式(11)中，符号

表示张量的拼接操作，s≠x₁≠x₂，s,x₁,x₂∈{a,v,t}；

步骤4.3、使用模态增强MTE网络模块进行模态增强特征提取；

模态增强MTE网络模块对嵌入表达特征X_s,s∈{a,v,t}进行张量拼接，形成多模态m的早期融合向量X_m；

模态增强MTE网络模块利用式(8)对嵌入表达特征X_s和早期融合特征X_m进行处理，得到模态的增强特征

步骤4.4、将增强模态的特征

步骤5、获取多模态情感深层预测标签；

将模态间BTE网络模块、模态增强MTE网络模块的单次输出

和

分别堆叠N次，能够进一步挖掘多模态信息之间的高层次互补信息，得到最终的模态间特征B_s和最终的模态增强特征M_s，s∈{a,v,t}，并将最终的模态间特征B_s和最终的模态增强特征M_s进行张量拼接，得到融合后的多模态特征MB，如图1所示，该特征包含了增强的单模态特征以及模态间特征，同时也包含多模态的后期融合特征；

将多模态特征MB输入至MLP-SE模块，使用式(12)进行多模态情感深层预测，得到标签y′；

式(12)中，GELU为激活函数，

和

和

表示两个线形层的偏置向量；

步骤6、损失函数的设计与迭代训练；

步骤6.1、Huber损失对于离群点非常的有效，它同时结合了L1损失与L2损失的优点，结合情感标签的平滑性，设计带有标签平滑的损失函数，通过加入噪声，减少真实样本标签在计算损失函数时的权重，抑制过拟合，利用式(13)构建带有标签平滑的损失函数loss：

式(13)中ξ₁和ξ₂表示多模态情感深层预测的标签y′与多模态情感决策判别的标签y″分别和多模态的原始录像的标签y之间的残差超参值；

步骤6.2、设置最大迭代次数epoch＝50，将对应模态的嵌入表达特征X_s,s∈{a,v,t}输入步骤2-步骤6.1中进行训练，并计算损失函数loss，当迭代次数达到epoch时，停止训练，从而得到最优预测模型，用于对所输入的多模态情感数据集进行单模态标签的预测，并输出多模态情感深层预测的标签和多模态情感决策判别的标签。

综上所述，本方法对目前开源的英文多模态情绪数据集仅有一个多模态标签的情况，结合不同模态之间情感具有非全显性，通过自监督的带权投票机制进行决策融合产生单模态标签和多模态情感决策判别的标签。基于多种交互策略进行的模态内、模态间、增强模态等特征的提取对于多模态数据集进行了深入的挖掘，使得模态之间数据充分交互，可以解决直接进行特征融合而忽视的模态间交互的问题，提高模型对情感语义的理解和泛化能力，最终结合情感标签的平滑过渡性，使用标签平滑损失，实现多模态情感的深层预测，从而显著提高了情感判别的精度。