CN115641543A

CN115641543A - 一种多模态抑郁情绪识别方法及装置

Info

Publication number: CN115641543A
Application number: CN202211671363.9A
Authority: CN
Inventors: 邹博超; 马惠敏
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-01-24
Anticipated expiration: 2042-12-26
Also published as: CN115641543B

Abstract

本发明公开了一种多模态抑郁情绪识别方法及装置，涉及情绪识别技术领域。包括：获取待识别的多模态原始数据，包括视频模态、语音模态以及文本模态的原始数据；根据多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。本发明提出一种基于无监督自编码器和动态权重组合损失的多模态抑郁情绪计算机辅助识别与评估方法，首先基于无监督自编码器结构得到帧信号的句子级向量，提升音视频模态的表征能力；然后通过跨模态交互、自注意时域融合、低秩后期融合来捕捉不同模态特征的互补性；最后通过动态权重组合损失在模型训练过程中通过动态调整不同任务的权值因子来更好的平衡多个损失函数，提升多模态融合后的抑郁情绪评估效果。

Description

一种多模态抑郁情绪识别方法及装置

技术领域

本发明涉及情绪识别技术领域，特别是指一种多模态抑郁情绪识别方法及装置。

背景技术

随着社会的快速发展以及人们工作、生活压力的日益增加，抑郁等情绪问题持续高发。抑郁情绪对个人生活以及家庭和社会均存在着较大的危害。当前情绪问题的识别主要基于量表的方法。以抑郁情绪问题的识别为例，常用的量表工具包括自评的健康问卷(PHQ-9)、抑郁情绪状快速评定量表(QIDS)，也包括通常使用的他评量表，如汉密尔顿抑郁量表（HAMD）、蒙哥马利抑郁评定量表(MADRS)等量表。

然而，传统的基于问卷的抑郁情绪识别面临着缺乏训练有素的人力成本高、效率低、可及性差等问题，因为基于访谈的识别是劳动密集型的，评估人力资源相对匮乏。此外，情绪问题的许多行为学指征被认为是可以观察到的，然而，在识别和评估情绪问题的量表中，这些指征往往没有得到充分考虑。综合利用信息技术、人工智能等多样化手段是目前在情绪问题量化评估领域的新趋势，其中包括基于视觉信号（如面部表情、眼动、手势、头部运动）的情绪检测方法，基于语音（如韵律、频谱图、波形）的情绪检测方法、以及基于文本（如稀疏词汇编码）的情绪检测方法。

已有技术针对语音模态和视频模态的信号表征，通常使用统计函数来编码帧级别的特征成为句子级别的特征向量，导致丢失帧间特征的时序关系。

基于单一模态的特征进行自动抑郁情绪评估任务虽然取得了不错的实验结果，但是不同模态的特征之间往往具有互补性，使用多模态的特征来构建多模态融合的自动抑郁情绪评估系统往往可以捕捉到不同模态特征的互补性，取得更好的评估结果。然而目前已有技术大多都是决策融合或者简单的特征融合（后期融合，前端融合）网络，这几种融合网络的实现方式相对简单，难以充分利用不同模态特征之间的互补性。

考虑到不同模态的特征对最终评估结果的贡献度不同，本发明在训练过程中引入了组合损失函数，但以往组合损失函数设计中，通常需要人工手动设置参数来调节不同任务所占的权重，可能存在无法搜到最优权重的问题，限制性能提升。

发明内容

本发明针对已有技术针对语音模态和视频模态的信号表征，通常使用统计函数来编码帧级别的特征成为句子级别的特征向量，导致丢失帧间特征的时序关系的问题、以及已有技术大多都是决策融合或者简单的特征融合（后期融合，前端融合）网络，这几种融合网络的实现方式相对简单，难以充分利用不同模态特征之间的互补性的问题、以及以往组合损失函数设计中，通常需要人工手动设置参数来调节不同任务所占的权重，可能存在无法搜到最优权重的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种多模态抑郁情绪识别方法，该方法由电子设备实现，该方法包括：

S1、获取待识别的多模态原始数据；其中，多模态原始数据包括视频模态、语音模态以及文本模态的原始数据。

S2、将多模态原始数据输入到构建好的多模态抑郁情绪识别模型。

S3、根据多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。

可选地，多模态抑郁情绪识别模型包括信号表征模块、模态交互模块、时域融合模块、后期融合模块以及动态权重模块。

S3中的根据多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果，包括：

S31、通过信号表征模块，对视频模态的原始数据进行表征，得到视频模态的句子级的特征向量，对语音模态的原始数据进行表征，得到语音模态的句子级的特征向量，对文本模态的原始数据进行表征，得到文本模态的句子级的特征向量。

S32、通过模态交互模块，对句子级的特征向量进行不同模态之间的交叉注意力关系捕捉，得到交互后的特征向量。

S33、通过时域融合模块，对交互后的特征向量进行时域融合，得到融合后的特征向量。

S34、通过后期融合模块，对融合后的特征向量进行低秩张量运算，得到抑郁情绪识别结果。

S35、通过动态权重模块，对抑郁情绪识别结果进行优化。

可选地，S31中的对视频模态的原始数据进行表征，得到视频模态的句子级的特征向量，包括：

对视频模态的原始数据进行特征提取，得到帧级别的面部运动单元AU特征向量。

将帧级别的面部运动单元AU特征向量输入到帧级-句级自编码器进行编码，得到视频模态的句子级的特征向量。

可选地，帧级-句级自编码器包括Transformer编码单元以及Transformer解码单元。

将帧级别的面部运动单元AU特征向量输入到帧级-句级自编码器进行编码，得到视频模态的句子级的特征向量，包括：

将帧级别的面部运动单元AU特征向量输入到Transformer编码单元进行位置编码计算，得到位置编码向量。

将帧级别的面部运动单元AU特征向量与位置编码向量进行叠加，得到叠加后的向量。

根据叠加后的向量生成查询向量、键向量和值向量，进而得到Transformer编码单元的输出。

将Transformer编码单元的输出经过自填充后输入到Transformer解码单元进行还原，得到Transformer解码单元的输出。

基于Transformer解码单元的输出以及帧级别的面部运动单元AU特征向量进行损失计算，进而对权重进行更新，得到训练好的帧级-句级自编码器，输出视频模态的句子级的特征向量。

可选地，S31中的对语音模态的原始数据进行表征，得到语音模态的句子级的特征向量，包括：

对语音模态的原始数据进行特征提取，得到帧级别的梅尔频率倒谱系数MFCC特征向量。

将帧级别的梅尔频率倒谱系数MFCC特征向量输入到帧级-句级自编码器进行编码，得到语音模态的句子级的特征向量。

可选地，S31中的对文本模态的原始数据进行表征，得到文本模态的句子级的特征向量，包括：

基于预训练的词嵌入语言模型ELMo对文本模态的原始数据进行特征提取，得到文本模态的句子级的特征向量。

可选地，模态交互模块包括六个交叉注意力结构。

S32中的对句子级的特征向量进行不同模态之间的交叉注意力关系捕捉，得到交互后的特征向量，包括：

通过六个交叉注意力结构，对视频模态的句子级的特征向量、语音模态的句子级的特征向量以及文本模态的句子级的特征向量进行特征融合，得到语音-视频特征向量、文本-视频特征向量、视频-语音特征向量、文本-语音特征向量、视频-文本特征向量以及语音-文本特征向量。

对语音-视频特征向量以及文本-视频特征向量进行拼接，得到交互后的视频模态特征向量。

对视频-语音特征向量以及文本-语音特征向量进行拼接，得到交互后的语音模态特征向量。

对视频-文本特征向量以及语音-文本特征向量进行拼接，得到交互后的文本模态特征向量。

可选地，S33中的对交互后的特征向量进行时域融合，得到融合后的特征向量，包括：

构建基于自注意力机制的双向长短时记忆的神经网络。

通过基于自注意力机制的双向长短时记忆的神经网络，对交互后的特征向量进行时域融合，得到融合后的特征向量。

可选地，S35中的对抑郁情绪识别结果进行优化，包括：

将融合后的特征向量输入到线性层，分别得到视频模态、语音模态以及文本模态的评估结果。

设计动态加权的组合损失函数。

根据评估结果以及动态加权的组合损失函数，对抑郁情绪识别结果进行优化。

另一方面，本发明提供了一种多模态抑郁情绪识别装置，该装置应用于实现多模态抑郁情绪识别方法，该装置包括：

获取模块，用于获取待识别的多模态原始数据；其中，多模态原始数据包括视频模态、语音模态以及文本模态的原始数据。

输入模块，用于将多模态原始数据输入到构建好的多模态抑郁情绪识别模型。

输出模块，用于根据多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。

输出模块，进一步用于：

S35、通过动态权重模块，对抑郁情绪识别结果进行优化。

可选地，输出模块，进一步用于：

输出模块，进一步用于：

可选地，模态交互模块包括六个交叉注意力结构。

输出模块，进一步用于：

构建基于自注意力机制的双向长短时记忆的神经网络。

输出模块，进一步用于：

设计动态加权的组合损失函数。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述多模态抑郁情绪识别方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述多模态抑郁情绪识别方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，提出了一种多模态信号的句级别表征方法。已有技术在将帧级别的语音或视频特征压缩成句子级别特征时主要采用的方式是提取统计特征，如均值、方差，但是此种方式忽略了帧特征帧与帧之间的时序关系。为此，本发明设计无监督自编码器用以捕捉帧级别特征帧间的时序关系，从而得到一个更具有表征能力的句级别的特征，应用于下游的抑郁情绪评估任务，可以得到性能提升。

本发明提出的深度特征融合抑郁情绪评估算法，能更好的捕捉到不同模态特征之间的互补性，相比决策融合和简单的特征融合，所提出的方法在公开数据集上得到了更优的结果，同时本发明提出的动态加权组合损失函数能进一步提升评估性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多模态抑郁情绪识别方法流程示意图；

图2是本发明实施例提供的多模态抑郁情绪识别技术方案流程图；

图3是本发明实施例提供的无监督自编码器结构图；

图4是本发明实施例提供的自注意力时域融合模块技术方案流程图；

图5是本发明实施例提供的多模态抑郁情绪识别装置框图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种多模态抑郁情绪识别方法，该方法可以由电子设备实现。如图1所示的多模态抑郁情绪识别方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待识别的多模态原始数据。

其中，多模态原始数据可以包括视频模态、语音模态以及文本模态的原始数据。

可选地，如图2所示，多模态抑郁情绪识别模型可以包括信号表征模块、模态交互模块、时域融合模块、后期融合模块以及动态权重模块。

可选地，上述步骤S3可以包括如下步骤S31-S35：

一种可行的实施方式中，信号表征模块，用于将输入的视频、语音、文本每个单模态的原始数据，变为能够表征每个模态信息的句子级向量。

其中，对文本模态的原始数据进行表征，得到文本模态的句子级的特征向量，包括：

基于预训练的Elmo（Embeddings from Language Models，词嵌入语言模型）对文本模态的原始数据进行特征提取，得到文本模态的句子级的特征向量。

对视频模态的原始数据进行表征，得到视频模态的句子级的特征向量，包括：

S311.1、对视频模态的原始数据进行特征提取，得到帧级别的面部运动单元AU特征向量。

S311.2、将帧级别的AU（Action Unit，面部运动单元）特征向量输入到帧级-句级自编码器进行编码，得到视频模态的句子级的特征向量。

可选地，上述步骤S311.2可以包括：

对语音模态的原始数据进行表征，得到语音模态的句子级的特征向量，包括：

S312.1、对语音模态的原始数据进行特征提取，得到帧级别的MFCC（MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数）特征向量。

S312.2、将帧级别的梅尔频率倒谱系数MFCC特征向量输入到帧级-句级自编码器进行编码，得到语音模态的句子级的特征向量。

一种可行的实施方式中，上述步骤S312.2与步骤S311.2相似，都是将帧级别的特征向量输入到帧级-句级自编码器进行编码，得到句子级的特征向量。

进一步地，经过特征提取后的视频特征和语音特征仍然是帧级别的，为此，帧级别的语音和视频特征会被送入到帧级-句级自编码器中进行编码，得到各自模态的句向量，自监督编解码结构如图3所示。

具体地，为了更好的捕捉帧级别的信号帧与帧之间的时序关系，采用对时序信号有强大建模能力的Transformer网络作为编解码器的主干，Transformer网络由于内部复杂的注意力结构，可以对输入的时序信号进行很好的建模。

进一步地，特征提取后得到的帧级别的向量被送入Transformer编码单元中进行运算，首先是要根据输入的向量来计算位置编码，然后将输入的帧级别的向量和位置编码得到的向量PE进行叠加形成一个新的向量I，再后Transformer编码网络会根据向量

来生成三个向量Q,K,V，分别表示的是查询向量，键向量和值向量，通过学习三个线性矩阵，注意力模块最终的输出A和的公式如下式（1）所示：

（1）

其中，d _k表示的是Q,K矩阵的列数，也就是向量的维度。

进一步地，每个单头的注意力模块的输出A _i会拼接在一起，形成一个多头的注意力的输出MultiHeadAttention，编码器的最终输出Z和MultiHeadAttention的关系如下式（2）（3）所示：

（2）

（3）

其中，LayerNorm表示的是层归一化操作，FeedForward表示的是前向神经网络，是一个两层的全连接层，如下式（4）所示：

（4）

其中，W ₁和W ₂分别表示的是两层神经元的偏置因子，b ₁和b ₂分别表示的是两层神经元的偏置因子。

最终得到的输出向量Ο是一个融合了帧间注意力机制的时序向量，这个时序向量的维度和输入的帧级别的向量的维度相同，将Transformer编码单元最后一个时间步的输出作为编码器的输出，得到一个1×F维度的向量，该向量经过自填充之后可以得到一个维度为S×F的向量，然后送入到无监督自编码器的解码器部分进行还原。

进一步地，本发明的解码器的设计和编码器的设计相同，均由3层Transformer编码单元构成，注意力头的数量和编码器也使用相同设置，经过解码器得到的输出和原始的输入的帧级别的信号的维度保持一致，均为S×F维。在训练无监督自编码器时，选择的损失函数是均方误差函数, 解码器的输出和编码器的输入计算损失后更新网络的权重。模型收敛后，编码器的输出会被存储下来作为每个帧级别信号的句级别表征向量。至此，得到的语音向量

，文本向量

视频向量

都是句子级别的，其中，S表示的是每段访谈提问的问题的数量，F _a，F _t，F _v分别是三个模态特征的特征维度。得到的三个模态的句子级别的向量X _a，X _t，X _v会经过卷积模块将特征维度进行进一步的压缩再送入特征融合模块进行特征融合，经过卷积模块会得到三个向量

，

，

，其中，S仍然表示的是问题的数量，

表示的是压缩后的特征的维度。

可选地，模态交互模块包括六个交叉注意力结构。

一种可行的实施方式中，本发明提出了一种深度特征融合网络进行模态融合，包括基于交叉注意力的模态交互模块，基于自注意力Bi-LSTM的时域融合模块和基于低秩张量运算的后期融合模块。

其中，基于交叉注意力的模态交互模块，进行特征融合的过程可以包括：

一种可行的实施方式中，为在特征层面上对多个模态的特征进行深度的融合，从而很好的利用不同模态特征之间的互补性，本发明采用交叉注意力结构在特征层面上对多个模态的特征进行融合，模态交互模块可以由六个交叉注意力结构组成，共得到六个输出，分别是

，然后将六个输出进行两两拼接得到三个向量，具体的表达式如下式（5）-（7）所示：

（5）

（6）

（7）

最终得到向量

，其中，S表示的是句子的数量。得到的向量

分别是文本、语音、视频模态的向量融合了其他两个模态特征的特征向量，这三个向量会被送入后续时域融合模块来捕捉各自模态时序上的关系。

可选地，上述步骤S33可以包括：

构建基于自注意力机制的双向长短时记忆的神经网络。

一种可行的实施方式中，使用Bi-LSTM（Bi-directional Long-Short TermMemory，双向长短时记忆的神经网络）来捕捉不同模态特征时序上的关系，考虑到不同时刻的向量对最终结果的贡献度不同，本发明将自注意力机制引入了Bi-LSTM中来，自注意力时域融合模块如图4所示。

进一步地，以模态交互模块输出的文本向量Z _T为例，Z _T首先输入进一个双向长短时记忆网络中，捕捉句子间的时序关系，得到的

是融合了句子间时序关系的向量，其中，S的值仍然是句子的长度；然后

会进入到双曲正切函数中，进行激活运算，得到

，双曲正切函数可以将每个输出映射到

之间；之后

和自定义的权重因子相乘后，送入softmax函数中进行激活运算，得到alpha，将alpha和Bi-LSTM模块的输出进行相乘运算，得到

；最后对

的所有时间步进行求和可以得到S _T的。自注意机制将BI-LSTM模块的每个时间步的输出都经过加权计算在内，最终经过三个自注意力模块之后，可以得到三个向量O _A，O _T，O _V，这三个向量可以表征每个模态的特征在时序上的信息，然后送入后期融合模块进行进一步的融合。

一种可行的实施方式中，后期融合模块是针对自注意力模块输出的三个融合了各自模态的时序注意力机制的向量O _A，O _T，O _V进行低秩融合运算，低秩融合可以对w矩阵进行分解，分解的方式如下式（8）所示：

（8）

其中，r表示能够使得分解成立的最小的秩的数量，M表示的是融合的向量的个数，

表示的是进行笛卡尔乘积运算。

进一步地，对

和

这两个向量进行张量融合运算，具体的公式如下式（9）所示：

（9）

其中，Z示的是两个向量

两个向量进行笛卡尔乘积的方法。

进一步地，对于O _T，O _V，O _A进行补一的向量z _l，z _v，z _a使用低秩融合的方式进行张量融合输出的向量H来说，具体的关系如下式（10）所示：

（10）

其中，Λ表示的是像素级点乘。

通过低秩融合分解之后大大降低了时间复杂度。将O _T，O _V，O _A这三个向量进行低秩融合之后输出得到一个一维的向量，这个向量就是最终三个模态特征进行深度融合之后预测的结果。

S35、通过动态权重模块，对抑郁情绪识别结果进行优化。

可选地，上述步骤S35可以包括：

设计动态加权的组合损失函数。

一种可行的实施方式中，考虑到不同模态的特征对最后的评估结果的贡献度可能是不一样的，本发明在网络进行训练的时候引入了组合损失函数，时域融合模块输出的三个向量O _A，O _T，O _V已经可以表征每个模态特征在时序上的关系，本发明在将这三个向量接入到后期融合模块进行再一次融合输出三个模态的评估结果的同时，也将这三个向量接入线性层得到每个单模态的评估结果，并将以上输出分别计算损失，并进行加权求和得到最终损失值。

其中，对于不同模态的权重，为了能够动态平衡各个任务的训练，本发明针对组合损失函数设计了动态权重调整方法，具体的公式如下式（11）-（14）所示：

（11）

（12）

（13）

（14）

其中，

表示的是每个任务的权值因子，

表示的是来到第epoch轮的每个任务对应的损失值，每个任务对应的损失函数都是均方误差函数，w _i表示的是每个任务对应的平衡因子。

本发明设计的动态权值因子的损失函数不需要进行手动调参的，从而避免了手动设置权值因子。从上面公式中可见，如果某个任务的损失值下降快，那么新一轮次训练时给该任务分配的权值

越小，如果某个任务的损失值下降慢，表明该任务难训练，新一轮次训练时给该任务分配的权值

越大。该损失函数的目的旨在网络训练时通过动态调整不同任务的权值因子的方式来更好的平衡不同模态的训练，从而促进多模态融合结果的提升。

本发明实施例中，提出了一种多模态信号的句级别表征方法。已有技术在将帧级别的语音或视频特征压缩成句子级别特征时主要采用的方式是提取统计特征，如均值、方差，但是此种方式忽略了帧特征帧与帧之间的时序关系。为此，本发明设计无监督自编码器用以捕捉帧级别特征帧间的时序关系，从而得到一个更具有表征能力的句级别的特征，应用于下游的抑郁情绪评估任务，可以得到性能提升。

如图5所示，本发明实施例提供了一种多模态抑郁情绪识别装置500，该装置500应用于实现多模态抑郁情绪识别方法，该装置500包括：

获取模块510，用于获取待识别的多模态原始数据；其中，多模态原始数据包括视频模态、语音模态以及文本模态的原始数据。

输入模块520，用于将多模态原始数据输入到构建好的多模态抑郁情绪识别模型。

输出模块530，用于根据多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。

输出模块530，进一步用于：

S35、通过动态权重模块，对抑郁情绪识别结果进行优化。

可选地，输出模块530，进一步用于：

输出模块530，进一步用于：

可选地，模态交互模块包括六个交叉注意力结构。

输出模块530，进一步用于：

构建基于自注意力机制的双向长短时记忆的神经网络。

输出模块530，进一步用于：

设计动态加权的组合损失函数。

图6是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，至少一条指令由处理器601加载并执行以实现下述多模态抑郁情绪识别方法：

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述多模态抑郁情绪识别方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态抑郁情绪识别方法，其特征在于，所述方法包括：

S1、获取待识别的多模态原始数据；其中，所述多模态原始数据包括视频模态、语音模态以及文本模态的原始数据；

S2、将所述多模态原始数据输入到构建好的多模态抑郁情绪识别模型；

S3、根据所述多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。

2.根据权利要求1所述的方法，其特征在于，所述多模态抑郁情绪识别模型包括信号表征模块、模态交互模块、时域融合模块、后期融合模块以及动态权重模块；

所述S3中的根据所述多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果，包括：

S31、通过所述信号表征模块，对所述视频模态的原始数据进行表征，得到视频模态的句子级的特征向量，对所述语音模态的原始数据进行表征，得到语音模态的句子级的特征向量，对所述文本模态的原始数据进行表征，得到文本模态的句子级的特征向量；

S32、通过所述模态交互模块，对句子级的特征向量进行不同模态之间的交叉注意力关系捕捉，得到交互后的特征向量；

S33、通过所述时域融合模块，对所述交互后的特征向量进行时域融合，得到融合后的特征向量；

S34、通过所述后期融合模块，对所述融合后的特征向量进行低秩张量运算，得到抑郁情绪识别结果；

S35、通过所述动态权重模块，对所述抑郁情绪识别结果进行优化。

3.根据权利要求2所述的方法，其特征在于，所述S31中的对所述视频模态的原始数据进行表征，得到视频模态的句子级的特征向量，包括：

对所述视频模态的原始数据进行特征提取，得到帧级别的面部运动单元AU特征向量；

将所述帧级别的面部运动单元AU特征向量输入到帧级-句级自编码器进行编码，得到视频模态的句子级的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述帧级-句级自编码器包括Transformer编码单元以及Transformer解码单元；

所述将所述帧级别的面部运动单元AU特征向量输入到帧级-句级自编码器进行编码，得到视频模态的句子级的特征向量，包括：

将所述帧级别的面部运动单元AU特征向量输入到所述Transformer编码单元进行位置编码计算，得到位置编码向量；

将所述帧级别的面部运动单元AU特征向量与所述位置编码向量进行叠加，得到叠加后的向量；

根据所述叠加后的向量生成查询向量、键向量和值向量，进而得到Transformer编码单元的输出；

将所述Transformer编码单元的输出经过自填充后输入到所述Transformer解码单元进行还原，得到Transformer解码单元的输出；

基于所述Transformer解码单元的输出以及所述帧级别的面部运动单元AU特征向量进行损失计算，进而对权重进行更新，得到训练好的帧级-句级自编码器，输出视频模态的句子级的特征向量。

5.根据权利要求2所述的方法，其特征在于，所述S31中的对所述语音模态的原始数据进行表征，得到语音模态的句子级的特征向量，包括：

对所述语音模态的原始数据进行特征提取，得到帧级别的梅尔频率倒谱系数MFCC特征向量；

将所述帧级别的梅尔频率倒谱系数MFCC特征向量输入到帧级-句级自编码器进行编码，得到语音模态的句子级的特征向量。

6.根据权利要求2所述的方法，其特征在于，所述S31中的对所述文本模态的原始数据进行表征，得到文本模态的句子级的特征向量，包括：

基于预训练的词嵌入语言模型ELMo对所述文本模态的原始数据进行特征提取，得到文本模态的句子级的特征向量。

7.根据权利要求2所述的方法，其特征在于，所述模态交互模块包括六个交叉注意力结构；

所述S32中的对句子级的特征向量进行不同模态之间的交叉注意力关系捕捉，得到交互后的特征向量，包括：

通过所述六个交叉注意力结构，对视频模态的句子级的特征向量、语音模态的句子级的特征向量以及文本模态的句子级的特征向量进行特征融合，得到语音-视频特征向量、文本-视频特征向量、视频-语音特征向量、文本-语音特征向量、视频-文本特征向量以及语音-文本特征向量；

对所述语音-视频特征向量以及文本-视频特征向量进行拼接，得到交互后的视频模态特征向量；

对所述视频-语音特征向量以及文本-语音特征向量进行拼接，得到交互后的语音模态特征向量；

对所述视频-文本特征向量以及语音-文本特征向量进行拼接，得到交互后的文本模态特征向量。

8.根据权利要求2所述的方法，其特征在于，所述S33中的对所述交互后的特征向量进行时域融合，得到融合后的特征向量，包括：

构建基于自注意力机制的双向长短时记忆的神经网络；

通过所述基于自注意力机制的双向长短时记忆的神经网络，对所述交互后的特征向量进行时域融合，得到融合后的特征向量。

9.根据权利要求2所述的方法，其特征在于，所述S35中的对所述抑郁情绪识别结果进行优化，包括：

将所述融合后的特征向量输入到线性层，分别得到视频模态、语音模态以及文本模态的评估结果；

设计动态加权的组合损失函数；

根据所述评估结果以及动态加权的组合损失函数，对所述抑郁情绪识别结果进行优化。

10.一种多模态抑郁情绪识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的多模态原始数据；其中，所述多模态原始数据包括视频模态、语音模态以及文本模态的原始数据；

输入模块，用于将所述多模态原始数据输入到构建好的多模态抑郁情绪识别模型；

输出模块，用于根据所述多模态原始数据以及多模态抑郁情绪识别模型，得到抑郁情绪识别结果。