CN114694076A

CN114694076A - 基于多任务学习与层叠跨模态融合的多模态情感分析方法

Info

Publication number: CN114694076A
Application number: CN202210364764.3A
Authority: CN
Inventors: 陈巧红; 孙佳锦; 漏杨波
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-01

Abstract

本发明属于自然语言处理领域。技术方案是：一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，其具体执行步骤如下：步骤1：将原始视频拆剪为视频片段，提取可被模型识别的文本、音频与视觉特征；步骤2：将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块，得到具有上下文语义信息的单模态隐藏层特征，再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块，进行特征融合与提取，得到多模态高层特征；步骤3：将步骤2所得的多模态高层特征与单模态高层特征进行拼接，通过多层感知机，输出最终的情感分类结果。该方法能在保留模态异质性的前提下，连贯融合不同模态的特征，有效识别复杂场景下的多模态情感。

Description

基于多任务学习与层叠跨模态融合的多模态情感分析方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合，并利用多任务学习指导模型保存特征异质性，对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性。

背景技术

多模态情感分析是一项新兴的深度学习技术，不仅应用于视频的情感极性识别，也是用户行为分析、对话生成等下游任务的基础。作为文本情感分析的延伸，其数据源不仅有文本模态，还包含了音频与视觉模态，同一数据段中的不同模态往往相互补充，为语义和情感消歧提供额外的线索。如何模拟人类接受多模态信息的过程，对模态内特征进行有效建模，使得模态的异质性能够得到保留，并尽可能筛除噪声；在模态间建模时，能够有效地集成异构数据，提取并整合有意义的信息，是目前多模态情感分析的两大挑战。

近年来多模态情感分析方法主要分为：(1)基于时序融合的方法，如循环嵌入网络(REVEN)，记忆融合网络(MFN)，循环记忆融合网络(RMFN)，MAG-BERT等；此类方法需要先将不同模态特征对齐，再按时序依次融合每一个时间步的特征，虽然可以检测每个时间步的精细情感，但是割裂了不同模态不同时序特征之间的联系。(2)非时序融合方法，如张量融合网络(TFN)、跨模态Transformer、低秩张量融合网络(LMF)与Bi-ATT等。此类方法往往不需要对数据进行对齐，从整体上对不同模态的数据进行融合。

上述方法存在两个明显问题：(1)采用了三元对称体系结构，轮流对三个模态中的一对模态进行建模，并平等的对待每个模态对最终情感的贡献。但事实上，在情感交流的过程中，文本、音频与视觉信息所携带的信息量是不同的，文本才是多模态情感的主要载体，而音频和视觉信息起到的是辅助功能。(2)缺乏对模态内特征的有效建模，在筛除噪声的同时，难以保留单模态特征的异质性。

因此，必须寻找一种既能保留单模态特征的异质性，又采用非对称体系结构来融合不同模态的方法，来保证多模态情感分析算法的性能。

发明内容

本发明的目的是克服上述背景技术的不足，提出一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，该方法应能够在保留模态异质性的前提下，连贯的融合不同模态的特征，从而有效识别复杂场景下的多模态情感。

本发明提供的技术方案是：

一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，其具体执行步骤如下：

步骤1：将原始视频拆剪为视频片段，标记该视频片段所对应的情感标签(积极，中性，消极)，并从视频中提取可被模型识别的文本、音频与视觉特征；

步骤2：采用单模态特征提取模块与层叠跨模态特征融合模块

将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块，该模块内包含三个长短期记忆网络(LSTM),以进行模态内交互，得到具有上下文语义信息的单模态隐藏层特征，再将这些特单模态隐藏层特征输入至层叠跨模态特征融合模块，进行特征融合与提取，得到多模态高层特征；

步骤3：将步骤2所得的多模态高层特征与单模态高层特征进行拼接后，通过多层感知机(MLP)，输出最终的情感分类结果，计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重，迭代优化模型。

进一步的，步骤1包括如下分步骤：

步骤1a、根据原始视频中说话人的话语间隔，把视频切割为5-10秒的视频片段，每个视频片段包含一句完整的话语，并对该话语进行多模态(文本、音频、视觉、整体)情感标注。

步骤1b、将视频片段中的字幕转录为文本，并利用BERT词嵌入模型将文本转换为词向量X_T∈R^length×dim，并设置句子最大长度为39，词嵌入维度为762；

步骤1c、对于音频片段，使用LibROSA音频工具包提取33维帧级音频特征，包括一维对数基频(log F0)，20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT)，这些特征均与情绪和说话语气相关；

步骤1d、从30Hz的视频片段中提取图像帧，并使用MTCNN人脸检测算法提取对齐的人脸，然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征，包括面部地标、面部动作单元；

进一步的，步骤2包括如下步骤：

步骤2a、为了使单模态特征能在跨模态融合之前能学习其上下文语境信息，采用长短期记忆网络来建模单模态内部交互；即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取，得到单模态隐藏层特征(文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征)；

步骤2b，将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合；其中，层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络，门控跨模态transformer网络用于将输入的两个模态特征进行融合。

层叠跨模态特征融合模块的具体步骤是：先将文本模态隐藏层特征作为主模态，音频隐藏层特征作为辅助模态，并输入对应模态的单模态高层特征(文本高层特征、音频高层特征)进行引导，融合后得到新的语言特征(包含了文本与音频信息的融合特征)；再将新得到的语言特征作为主模态，视觉特征作为辅助模态，输入对应模态高层特征(单模态高层特征)进行引导，得到文本、音频、视觉三个模态的融合特征，称该特征为多模态融合特征。

进一步的，步骤2a包括如下分步骤：

步骤2a-1、对于步骤1中获取的文本、音频与视觉特征X_m∈R^{batch×length×dimm}，m∈[t,a,v]，先将其输入至长短期记忆网络，得到隐藏层特征，X_m ^h＝LSTM_m(X_m)，其中X_m ^h∈R^batch ^{×length×dimh}；不同模态的长短期记忆网络的输入维度是不同的，但隐藏层维度统一为dim_h，以适应之后的门控跨模态transformer融合；

步骤2a-2、将X_m ^h作为门控跨模态transformer网络的输入，同时取X_m ^h的最后一个时间步X_m,l ^h，将其通过多层感知机获得单模态高层特征F_m ^finall：F_m ^final＝MLP(X_m,l ^h)，其中，多层感知机由多个前馈层组成。

步骤2a-3、在训练过程中，模型为了筛除原始特征中的噪声，往往会将单模态的异质性特征等重要信息一起筛除，只保留模态中的共性特征，然而特征的异质性对于模型融合十分重要。为了保留单模态特征的异质性，将F_m ^finall经过多层感知机与softmax得到单模态分类结果y′_m，在训练真实标签时计算交叉熵损失，以指导长短期记忆网络提取单模态隐藏层特征：y′_m＝softmax(MLP(F_m ^finall))，该模态所对应子任务的损失为：

其中，softmax为逻辑回归函数，y′_m为不同情感分类的概率，log为对数函数，N为批度，d为情感类别的数量，y′_m,i,k为预测该批度中第i个样本属于类被k的概率，y_m,i,k为该批度中第i个样本的真实标签。

进一步的，步骤2b包括如下分步骤：

步骤2b-1，对于从单模态特征提取模块中得到的单模态隐藏层特征X_t ^h、X_a ^h、X_v ^h与单模态高层特征F_t ^finall、F_a ^finall、F_v ^finall，先将X_t ^h、X_a ^h、F_t ^finall、F_a ^finall输入门控跨模态transformer网络，得到经过音频特征加强的文本特征X_l ^h，因为融合了音频特征，其模式更接近于语言，所以定义该特征为语言特征；接着，将X_l ^h的最后一个时间步特征输入至多层感知机，得到语言高层特征F_l ^finall；

步骤2b-2，将X_l ^h、X_v ^h、F_l ^finall、F_v ^finall输入门控跨模态transformer网络，得到多模态融合特征X_multi ^h，取X_multi ^h的最后一个时间步X_multi,l ^h，将X_multi,l ^h输入至多层感知机，得到多模态高层特征F_multi ^finall。

进一步的，步骤2b中的门控跨模态transformer网络包括如下分步骤：

步骤2b-1-1，跨模态transformerα→β中包含D层跨模态注意力块；对于某一层跨模态注意力块，输入目标模态X_α ^[i-1]，X_β ^[0]，定义Query为

key为

Values为

其中

是映射矩阵；利用辅助模态β对目标模态α进行多头注意力引导，得到引导后的融合特征

其公式如下：

步骤2b-1-2，transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特X_β得到辅助模态的补充，为了防止在复杂场景下，目标模态与辅助模态的差异性过大而对融合造成干扰，在跨模态transformer的残差连接中加入了门控机制；通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比，得到相似度similar_αβ作为残差连接的门控，指导跨模态transformer融合，得到新特征

最后将

输入前馈网络并进行按层规范化,得到本层跨模态融合特征

作为下一层transformer layer的目标模态输入；公式如下：

式中，

与

为映射矩阵，

与

为步骤2b-2中传入的高层特征，

与

为对应第i维的特征值，cos()函数用于求两个输入特征的余弦相似度，LayerNorm为归一化层，fowrwad为前馈层。

进一步的，步骤3包括如下步骤：

步骤3a，为了进一步补充特征内容，防止关键信息丢失，将步骤2b所得的多模态高层特征F_multi ^finall与单模态高层特征F_t ^finall，F_v ^finall进行拼接后，得到补充后的多模态高层特征F_multi ^cat，输入至多层感知机以进行情感分类；

其中，cat表示拼接操作。

步骤3b，计算本批情感分析的多任务损失，

其中，i∈{t,a,v,m},超参数ω_i表示不同模态损失占总体损失的权重。设置初始时w_t,w_a,w_v的权重为1，w_m的权重为0，随着训练次数的增加，逐步降低单模态任务的损失权重至0.6，逐步提升多模态任务的损失权重至1。

本发明的有益效果为：现有的多模态情感分析方法往往只以多模态整体标签作为唯一任务损失训练模型，并且采用三元对称的融合模式，平等的融合不同模态的特征。然而不同模态所蕴含的情感信息并不是对等的，事实上，文本模态应该作为多模态情感的主体，音频和视觉模态作为辅助。另一方面，经过单模态特征提取网络建模后的上下文特征向量，在跨模态融合时，由于特征坍缩等原因，不同模态特征将趋于一致，单模态特征异质性难以得到保留，导致模型在复杂环境下情感分类准确率降低。针对上述问题，本发明通过将不同模态的特征依次输入多个层叠的门控跨模态trasnformer网络进行融合，解决了现有的多模态情感分析技术在在复杂场景下分类不准确的问题；本发明采用的多任务学习机制能够监督单模态特征的提取、防止因模态融合导致特征坍塌，采用的层叠跨模态融合网络能够有效捕捉模态之间的关联；结合单模态特征提取网络与跨模态特征融合网络所提出的多模态情感分析方法，能够在保留模态异质性的前提下，连贯地融合不同模态的特征，从而有效识别复杂场景下的多模态情感。对于存在歧义、反讽等复杂情感表达的情况时具有较好的鲁棒性，得到了较高的准确率。

附图说明

图1为本发明所述方法的整体流程图。

图2为本发明中的单模态特征提取网络结构图。

图3为本发明中整体网络结构图。

图4为本发明中的门控跨模态transformer网络结构图。

具体实施方式

为便于理解本发明，下面结合实施例进一步说明。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文中所使用的所有的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。说明书中所使用的术语只是为了描述具体的实施目的，不是旨在于限制本发明。

如图1所示，本发明实施例提供的一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，共包含如下几个步骤：

首先，将原始视频分割为视频片段，标记该视频片段所对应的情感标签(情感标签分为积极、中性以及消极三类)；接着从视频中提取可被模型识别的文本、音频与视觉数据(特征)，输入至单模态特征提取模块，得到单模态隐藏层特征与单模态高层特征；然后将提取的单模态隐藏层特征与单模态高层特征输入至层叠跨模态特征融合模块，得到多模态高层特征；将多模态高层特征与单模态高层特征(文本、视觉)拼接后输入至多层感知机，并输出最终的情感分类结果，计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重，迭代优化模型。

具体步骤如下：

步骤1：首先将完整的视频根据话语进行切片，使每个视频片段仅包含一段完整的话语与对应的情感标签；将每个视频片段中包含的文本、音频与视觉数据进行预处理，提取文本特征向量、音频特征向量和视频特征向量。

对于文本模态的数据预处理分为两个步骤：首先要统计数据集中每段文本的文字数，计算其平均长度L，并将2L作为文本的截取长度，以最大程度的覆盖样本集中的较长文本内容，最终确定的文本长度为39；然后，将截取长度后的文本输入至762维的BERT词嵌入模型，对于批度n，得到词嵌入向量X^T∈n×39×762。

对于音频模态，使用LibROSA音频工具包提取与情绪和说话语气相关的33维帧级音频特征，包括一维对数基频(log F0)，20维梅尔频率倒谱系数(MFCCs)和12维常数q色谱(CQT)，得到音频特征向量X^A∈n×39×33。

对于视觉模态，从30Hz的视频片段中提取图像帧，并使用MTCNN人脸检测算法提取对齐的人脸，然后使用MultiComp OpenFace2.0工具包提取68个面部地标，17个面部动作单元，头部姿势，头部方向和眼睛凝视，共提取了709维帧级视觉特征，得到视觉特征向量X^V∈n×39×762。

步骤2：将文本、音频和视觉特征分别输入单模态特征提取网络，再将所得特征输入跨模态特征融合网络，进行特征融合；这是本发明的创新点之一。

其过程如下：

对于文本特征X_t、音频特征X_a与视觉特征X_v，分别将其输入至LSTM网络，得到隐藏层特征X_t ^h、X_a ^h、X_v ^h,作为层叠跨模态特征融合模块的输入。

X_t ^h＝LSTM(X_t,W^T)

X_a ^h＝LSTM(X_a,W^A)

X_v ^h＝LSTM(X_v,W^V)

其中W^T、W^A、W^V分别为长短周期记忆神经网络关于文本(t)、听觉(a)、视觉(v)模态的网络参数。

分别取隐藏层特征X_t ^h、X_a ^h、X_v ^h的末端状态隐藏表示X_t,l ^h、X_a,l ^h、X_v,l ^h。将X_t,l ^h、X_a,l ^h、X_v,l ^h分别输入多层感知机，获得文本、视觉、音频模态的高层特征X_t ^finall、X_a ^finall、X_v ^finall，这些特征一方面用于预测单模态情感极性，作为情感分析多任务损失的一部分，在训练阶段监督模型保留单模态特征异质性，另一方面作为层叠跨模态特征融合模块的输入，以指导跨模态特征融合。

X_t ^finall＝MLP(X_t,l ^h,W_M ^T)

X_a ^finall＝MLP(X_a,l ^h,W_M ^A)

X_v ^finall＝MLP(X_v,l ^h,W_M ^V)

y′_m＝softmax(MLP(F_m ^finall))

其中，W_M ^T,W_M ^A,W_M ^V分别多层感知机关于文本(t)、听觉(a)、视觉(v)模态的网络参数，softmax为逻辑回归函数，MLP为多层感知机。

对于从单模态特征提取模块中得到的单模态隐藏层特征X_t ^h、X_a ^h、X_v ^h与单模态高层特征X_t ^finall、X_a ^finall、X_v ^finall，先将X_t ^h、X_a ^h、X_t ^finall、X_a ^finall输入至门控跨模态transformer网络，得到经过音频特征加强的文本特征X_l ^h，因为融合了音频特征，其模式更接近于语言，定义其为语言特征X_l ^h，再将X_l ^h按步骤2a-3的流程，通过长短期记忆网络与多层感知机后，得到语言高层特征X_l ^finall。接着将X_l ^h、X_v ^h、X_l ^finall、X_v ^finall输入至门控跨模态transformer网络，得到多模态情感特征X_multi。

其中门控跨模态transformer网络包括多层门控跨模态transformer单元块，对其中任一层跨模态注意力块，包含如下步骤：

输入目标模态X_α ^[i-1]，X_β ^[0]，定义Query为

key为

Values为

其中

其公式如下：

transformer为了强化目标模态的特征信息,通过残差连接的方式使原目标模态特X_β得到辅助模态的补充，为了防止在复杂场景下，目标模态与辅助模态的差异性过大而对融合造成干扰，在跨模态transformer的残差连接中加入了门控机制。通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比，得到相似度similar_αβ作为残差连接的门控，指导跨模态transformer融合得到

最后将

输入前馈网络并进行按层规范化,得到本层跨模态融合特征

作为下一层transformer layer的目标模态输入。公式如下：

式中，

与

为映射矩阵，

与

为步骤2b-2中传入的高层特征，

与

步骤3：将步骤2b所得的多模态高层特征F_multi ^finall与单模态高层特征F_t ^finall，F_v ^finall进行拼接，得到补充后的多模态高层特征F_multi ^cat，并输入至多层感知机以进行情感分类；

其中，cat表示拼接操作。

计算多任务损失值后根据算法动态调整不同任务(文本情感预测、音频情感预测、视觉情感预测、整体情感预测)的损失权重，以利于迭代优化模型；这是本发明的又一创新点。

计算本批情感分析的多任务损失，

实验分析：

数据集：

实验所选用的数据集为中文多模态情感分析数据集SIMS，相比MOSI(Zadeh etal.2016)与MOSEI(Zadeh et al.2018b)等传统单标签数据集，SIMS额外提供了文本、音频与视觉单模态标签。该数据集为从60个原始视频中提取的2281个视频片段，令标记者在仅接受单一模态输入的情况下给出该模态的情感得分,从-1(强烈消极)到+1(强烈积极的)。

评估指标：

本实验为分类任务，因此选择3分类精度(Acc-3)，积极、消极情感(p/g)二分类精度(Acc-2)和F1值(F1-Score)。

为了证明本发明及所提创新点是有效的，本实验通过与基线模型进行性能对比以及消融实验来进行验证。

基线模型对比实验：

本发明将提出的模型分别与单任务模型(TFN、Graph-MFN、MISA、MULT)和多任务模型(MLF-DNN、M-LMF)进行比较，实验结果见表1。基于多任务学习与层叠跨模态融合的多模态情感分析方法(MSGC)在各项评价指标上都超越了目前最先进的方法。对比单任务最优基线模型MULT，MSGC在该数据集上的的二分类准确率与F1值分别提高了3.66％与3.97％，三分类准确率与F1值分别提升了4.16％与4.45％。与多任务最优模型M-LMF相比，MSGC的二分类准确率与F1值分别提高了2.42％与2.73％，三分类准确率与F1值分别提升了2.06％与0.97％。

此外，多任务基线方法的性能明显高于单任务方法，这是由于单模态标签为多模态情感分析提供了更多的信息来源，减少了单模态特征提取的误差，并保留了重要信息。为了更公平的与单任务模型比较，还设置了MSGC-single模型，该模型只取多模态情感分类的损失值，并未利用到多任务标签。MSGC-single相比最优单任务基线模型仍有明显提升。

消融实验：

为了检查整个体系结构的功能和本工作中引入的组件，对SIMS数据集进行如下消融研究。

MSGC-single:在完整模型的基础上仅使用单任务标签进行训练。

MSGC w/o late-fusion:在完整模型的基础上删除了后期融合。

MSGC w/o late-fusion&gate:将MSGC w/o late-fusion的基础上删除了跨模态相似度门控模块。

MSGC-concat:将MSGC w/o late-fusion&gate的层叠transformer结构更换为拼接结构(与mult的结构相似)。

表2给出了SIMS数据集上模块组合的消融实验结果。实验结果显示完整的MSGC模型的实验效果最好,缺少不同模块会对实验结果造成不同影响。对于MSGC w/o late-fusion与MSGC，其在多模态情感输出直接省去了后期融合部分，未将单模态的高层特征与多模态高层特征进行拼接，只取多模态高层特征作为分类器的输入，其性能的各方面指标均低于MSGC模型，这说明经过单模态标签指导的单模态高层特征，能为多模态情感提供互补性。w/o late-fusion&gate相比w/o late-fusion省去了跨模态相似度门控模块，其总体性能要略低于w/olate-fusion模型，由此可见，通过将两个模态高层特征的余弦相似度作为跨模态融合时残差连接的门控，可以更好的融合不同模态的特征。此外，w/olate-fusion&gate与MSGC-concat的区别在于，MSGC-concat并未采用层叠的transformer结构，而是将三个输入模态进行两两组合，进行跨模态transformer，并将得到的6组双模态融合特征进行拼接，因此其参数量与运算时间都远高于w/o late-fusion&gate。在SIMS数据集上，w/o late-fusion&gate的性能要明显高于于MSGC-concat，这进一步说明了层叠transformer结构的优越性。

名词参考表

单模态特征(文本模态特征X_t、音频模态特征X_a、视觉模态特征X_v)

单模态隐藏层特征(文本隐藏层模态特征X_t ^h、音频隐藏层模态特征X_a ^h、视觉隐藏层模态特征X_v ^h)

单模态高层特征(文本高层特征F_t ^finall、音频高层特征F_a ^finall、视觉高层特征F_v ^finall、语言高层特征)

多模态融合特征X_multi ^h

多模态高层特征F_multi ^final

补充后的多模态高层特征F_multi ^cat

层叠跨模态特征融合模块(包含2个门控跨模态transformer网络)。

单模态特征提取模块(包含3个长短期记忆网络)

长短期记忆网络(LSTM)

前馈层(forward)

多层感知机(MLP)

逻辑回归函数(Softmax)。

Claims

1.一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，其具体执行步骤如下：

步骤1)将原始视频拆剪为视频片段，标记该视频片段所对应的情感标签，再从该视频片段中提取可被模型识别的文本、音频与视觉特征；所述情感标签分为积极、中性以及消极三类；

步骤2)将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块，该模块内包含三个长短期记忆网络，以进行模态内交互，得到具有上下文语义信息的单模态隐藏层特征，再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块，进行特征融合与提取，得到多模态高层特征；

步骤3)将步骤2所得的多模态高层特征与单模态高层特征进行拼接后，通过多层感知机，输出最终的情感分类结果，计算多任务损失值后根据算法动态调整不同任务的损失权重，迭代优化模型；所述不同任务包括文本情感预测、音频情感预测、视觉情感预测以及整体情感预测。

2.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤1包括如下步骤：

步骤1a、根据原始视频中说话人的话语间隔，把视频切割为5-10秒的视频片段，每个视频片段包含一句完整的话语，并对该话语进行多模态情感标注；所述多模态情感标注包括文本、音频、视觉以及整体情感；

步骤1b、将视频片段中的字幕转录为文本，并利用BERT词嵌入将文本转换为词向量X_T∈R^length×dim，并设置句子最大长度为39，词嵌入维度为762；

步骤1c、对于音频片段，使用LibROSA音频工具包提取33维帧级音频特征，包括一维对数基频，20维梅尔频率倒谱系数和12维常数q色谱，这些特征均与情绪和说话语气相关；

步骤1d、从30Hz的视频片段中提取图像帧，并使用MTCNN人脸检测算法提取对齐的人脸，然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征，包括面部地标、面部动作单元。

3.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2包括如下分步骤：

步骤2a、为了使单模态特征在跨模态融合之前能学习其上下文语境信息，采用长短期记忆网络来建模单模态内部交互；即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取，得到单模态隐藏层特征，即文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征；

步骤2b、将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合；其中，层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络，门控跨模态transformer网络用于将输入的两个模态特征进行融合；

层叠跨模态特征融合模块的具体步骤是：先将文本模态隐藏层特征作为主模态，音频隐藏层特征作为辅助模态，并输入对应模态的单模态高层特征进行引导，融合后得到新的语言特征；所述单模态高层特征包括文本高层特征、音频高层特征，所述新的语言特征包含了文本与音频信息的融合特征；

再将新得到的语言特征作为主模态，视觉特征作为辅助模态，输入对应模态高层特征进行引导，得到文本、音频、视觉三个模态的融合特征，该融合特征称为多模态融合特征。

4.根据权利要求3所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2a包括如下步骤：

步骤2a-1、对于从步骤1中获取的文本、音频与视觉特征X_m∈R^{batch×length×dimm}，m∈[t,a,v]，先将其输入至长短期记忆网络，得到隐藏层特征，X_m ^h＝LSTM_m(X_m)，其中X_m ^h∈R^batch ^{×length×dimh}；不同模态的长短期记忆网络的输入维度是不同的，但隐藏层维度统一为dim_h，以适应之后的门控跨模态transformer融合；

步骤2a-2、将X_m ^h作为门控跨模态transformer网络的输入，同时取X_m ^h的最后一个时间步X_m,l ^h，将其通过多层感知机获得单模态高层特征F_m ^finall：F_m ^final＝MLP(X_m,l ^h)，其中，多层感知机由多个前馈层组成；

步骤2a-3、在训练过程中，将F_m ^finall经过多层感知机得到单模态分类结果，在训练真实标签时计算交叉熵损失，以指导长短期记忆网络提取单模态隐藏层特征y′_m＝softmax(MLP(F_m ^finall))；该模态所对应子任务的损失为

其中：softmax为逻辑回归函数，y′_m为不同情感分类的概率，log为对数函数，N为批度，d为情感类别的数量，y′_m,i,k为预测该批度中第i个样本属于类被k的概率，y_m,i,k为该批度中第i个样本的真实标签。

5.根据权利要求4所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2b包括如下步骤：

步骤2b-1、对于从单模态特征提取模块中得到的单模态隐藏层特征X_t ^h、X_a ^h、X_v ^h与单模态高层特征F_t ^finall、F_a ^finall、F_v ^finall，先将X_t ^h、X_a ^h、F_t ^finall、F_a ^finall输入门控跨模态transformer网络，得到经过音频特征加强的文本特征X_l ^h；因为融合了音频特征，其模式更接近于语言，所以定义该特征为语言特征；接着，将X_l ^h的最后一个时间步特征输入至多层感知机，得到语言高层特征F_l ^finall；

步骤2b-2、将X_l ^h、X_v ^h、F_l ^finall、F_v ^finall输入门控跨模态transformer网络，得到多模态融合特征X_multi ^h，取X_multi ^h的最后一个时间步X_multi,l ^h，将X_multi,l ^h输入至多层感知机，得到多模态高层特征F_multi ^finall。

6.根据权利要求5所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2b-1所用的门控跨模态transformer网络包括如下步骤：

步骤2b-1-1、门控跨模态transformerα→β中包含D层跨模态注意力块，对于某一层跨模态注意力块，输入目标模态X_α ^[i-1]，X_β ^[0]，定义Query为