CN113935435A

CN113935435A - 基于时空特征融合的多模态情感识别方法

Info

Publication number: CN113935435A
Application number: CN202111360121.3A
Authority: CN
Inventors: 闫静杰; 顾晓娜; 李娜; 李同霞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-01-14

Abstract

本发明提出了一种基于时空特征融合的多模态情感识别方法，包括以下步骤：建立一个包含语音、表情和姿态的多模态情感数据库；构建基于不对称非局部神经网络和空时LSTM的结合网络；将表情图像、语谱图和姿态图像输入到ResNet101模型中，获得深度特征图；将深度特征图构建深度特征序列作为空间LSTM的输入，学习特征序列的空间结构相关性；将空间LSTM的输出作为时间LSTM的输入，学习每一帧图像上时间相关性；将表情、语音和姿态特征进行融合，并将融合后的特征输入DBN网络进行进一步的融合训练，最后输入softmax层得到多分类结果。本发明基于时空LSTM和不对称非局部神经网络提取语音、表情和姿态情感特征并进行多模态特征融合分类。

Description

基于时空特征融合的多模态情感识别方法

技术领域

本发明涉及一种情感识别方法，具体的说是一种基于时空特征融合的语音、表情和姿态多模态情感识别方法，属于情感计算和模式识别技术领域。

背景技术

随着计算机技术与人工智能技术的快速发展，生活中形形色色智能机器的诞生为人们的生活提供了更加便利的服务。然而，现在的智能机器只能执行简单任务，并不能很完美的进行人机交互。在这个背景下，情感识别技术在人和计算机之间的智能感知和识别方面扮演了非常重要的作用。过去的利用单个模态信息来进行情感识别不能捕捉足够的信息来进行精确的情感识别。近年来，多模态的融合可以给情绪识别提供更加丰富多样且相关的情感信息，从而提高情感识别率，增加可靠性。然而目前许多研究都是在语音或者表情的单模态上进行的情感识别，或者是语音-文本、表情-姿态和语音 -表情等双模态上的情感识别研究，多模态的情感识别很少有人研究，例如表情语音及姿态三模态或者是加入脑电等其他生理信号的多模态情感识别。多种模态的融合，既保留了各模态特征的独立性，又包含了多模态的相关性，提供足够且相关的情感信息来进行更精确的情感识别。

经过检索发现，公开号为CN109614895A的中国专利提供了一种基于attention特征融合的多模态情感识别的方法，主要利用文本、语音和视频三个模态的数据进行最后的情感识别，首先对三个模态的数据分别进行特征提取，文本方面采用双向LSTM来进行文本特

征的提取，语音模态采用卷积神经网络进行特征提取，视频模态采用三维卷积神经网络模型进行视频特征的提取，然后将三个模态的特征采用基于attention特征层融合的方式进行特征融合，充分利用不同模态之间的互补信息，给不同的模态的特征赋予一定的权重。

近年来，随着深度学习技术的兴起，慢慢的取代了基于传统方法的情感识别。之前的情感识别研究大多都是以传统方法为主，而传统方法相较与深度神经网络，提取的参数较少不够丰富，并且有着很重的人工设计成分，会影响后续的情感识别。取而代之的深度神经网络能够使用不同的卷积核来提取大量有用的深层特征信息，从而获得更好的情感识别效果，得到更高的情感识别率。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足而提供一种基于时空特征融合的语音、表情和姿态多模态情感识别方法，对现有的深度神经网络进行部分改造和结合，满足计算机情感识别效果的需求，对比传统方法效果更加理想，充分利用多模态信息，提高了计算机识别人类情感的正确率。

本发明提供一种基于时空特征融合的多模态情感识别方法，包括以下步骤：

S1、建立一个包含语音、表情和姿态的多模态情感数据库，并使各模态的有效样本数保持一致；

S2、构建基于不对称非局部神经网络和空时LSTM的结合网络，该结合网络包括不对称非局部(Asymmetric Non-Local)模块、有效通道注意力(Efficient ChannelAttention)模块、空间LSTM 模块和时间LSTM模块，Asymmetric Non-Local模块与Efficient Channel Attention模块通过ResNet101网络连接；

S3、将步骤S1处理后的表情图像、语谱图和姿态图像输入到步骤S2结合网络的ResNet101模型中，获得深度特征图；将深度特征图构建深度特征序列作为空间LSTM的输入，从而学习特征序列的空间结构相关性；将空间LSTM的输出作为时间LSTM的输入，以此来学习每一帧图像上的时间相关性，获得表情特征、语音特征和姿态特征；

S4、将表情特征、语音特征和姿态特征通过Asymmetric Non-Local模块进行特征融合，并将融合后的特征输入DBN网络进行进一步的融合训练，最后输入了softmax层得到分类结果。

其中，LSTM(Long Short-Term Memory)，长短期记忆网络。深度置信网络(DeepBelief Network)，简称DBN网络。DBN由若干受限玻尔兹曼机(Restricted BoltzmannMachine,RBM)结构单元堆叠组成。模型通过贪婪逐层无监督预训练，来进行自下而上的自主学习，通过反向传播来微调模型参数，最终自动提取得到深度特征。softmax层主要用作归一化处理。若图片分类有一百种，那经过softmax层的输出就是一个一百维的向量，向量中的值为识别率。

本发明使用预训练ResNet101和LSTM网络作为基础网络，提出了基于不对称非局部神经网络结构和空时LSTM网络结构，包括以下步骤：1)首先构建网络，通过增加Asymmetric Non-Local模块到预训练ResNet101网络上来联系高低阶特征关系，加入Efficient Channel Attention模块捕捉相邻通道之间的依赖关系，以此获得改进的ResNet101网络。其次分别将处理好的表情图像、语谱图、姿态图像输入改进的ResNet101模型，以此获得深度特征图；接着对深度特征图构建深度特征序列作为空间LSTM的输入，从而学习特征序列的空间结构相关性；最后把空间LSTM的输出作为时间LSTM 的输入，以此来学习每一帧图像上的时间相关性。

2)最终提取的深度语音、表情以及姿态情感特征通过 Asymmetric Non-Local模块进行特征融合。

3)将融合后的特征输入DBN网络进行进一步的融合训练，最后输入softmax层得到结果。

本发明进一步优化的技术方案如下：

所述步骤S1中，将数据库中的视频关键部分(人脸、动作)截取出来至相同的长度并进行分帧，即将视频转换成图片序列，获得表情图像和姿态图像，每一帧的图片作为一个结构的输入；对数据库中的音频部分采用傅里叶变换，提取二维结构的语谱图作为一个结构的输入。

所述步骤S2中，跨接Asymmetric Non-Local模块和Efficient ChannelAttention模块的ResNet101网络包含5个卷积模块，即 ResNet101由5组卷积层组成，每组卷积层包括若干卷积层、池化层、 BN层以及ReLU层等；5个卷积模块采用CONV1、CONV2_x、CONV3_x、 CONV4_x、CONV5_x表示，其中，CONV1的参数分别如下所示：

conv1:f＝7×7,c＝64,s＝2,p＝3

maxpool:f＝3×3,s＝2

其卷积层的输出尺寸大小计算公式如下所示：

式中，output_size表示卷积层输出尺寸，input_size表示卷积层输入尺寸，f表示卷积核或池化的大小,c为输入信道数,s表示卷积核或池化的步长,p为填充值；

CONV2_x卷积模块的参数分别如下所示：

CONV3_x卷积模块参数分别如下所示：

在卷积模块CONV3_x和CONV4_x的结构上跨接一个Efficient Channel Attention模块，不降维的实现局部跨信道交互，从而实现性能提优。

CONV4_x、CONV5_x卷积模块中的卷积层参数如下所示：

在CONV4_x和CONV5_x的卷积模块上跨接一个Asymmetric Non-Local模块用于捕获长程依赖性，融合高低阶的特征。

这一步中，通过增加Asymmetric Non-Local模块到预训练 ResNet101网络上来联系高低阶特征关系，加入Efficient Channel Attention模块捕捉相邻通道之间的依赖关系，以此获得改进的 ResNet101网络。

所述步骤S2中，所述Efficient Channel Attention模块主要包括三个部分，第一个部分是将CONV3_x的输出通过全局平均池化产生1*1*C大小的特征图，即忽略其空间结构来进行压缩，关注其通道结构；第二个部分是计算得到自适应的卷积核大小；第三个部分是通过一维卷积1D-Conv来获得相邻通道之间的依赖关系，得到每个通道的权重，加权到CONV4_x的输出，完成局部跨信道交互；

一维卷积核大小的计算公式为：

式中，|Δ|表示离Δ最近的奇数，在考虑卷积核大小和参数多少的问题上设置γ＝2,b＝1，C表示通道数；

所述Asymmetric Non-Local模块主要包含两个部分，分别是 Asymmetric FusionNon-local Block(AFNB模块)和Asymmetric Pyramid Non-local Block(APNB模块)，将CONV4_x和CONV5_x的输出用AFNB模块进行融合，融合后的特征进入APNB模块再进行融合。

所述步骤S3中，通过CONV4_x得到的特征称之为低级特征，通过CONV5_x得到的特征称为高级特征，将这两个特征输入AFNB模块进行融合；AFNB模块将CONV5_x得到的高级特征作为Query，将 CONV4_x得到的低级特征作为Key和Value，首先对Query、Key和 Value分别使用1×1的卷积核进行降维，然后对Key和Value通过空间金字塔汇集模块进行PyramidPooling操作，进行进一步的特征抽取，从而得到较小的特征表示；然后进行Query和Key的相关性矩阵计算，最后将这个结果与Value特征进行转置相乘从而得到高低级融合特征，最后与原CONV5_x输出的高级特征进行拼接得到原始图像更新后的特征表示Y_F。

所述步骤S3中，更新后的特征表示Y_F进入APNB模块，同样使用1×1卷积操作，得到Non-Local模块中的Query、Key和Value；为了减少计算量，针对Key和Value，只通过一次空间金字塔汇集模块，进行一次Pyramid Pooling操作，从而得到了新的特征表示，其他的过程与AFNB的过程相同，根据Query和Key计算出相关性矩阵，然后将相关性矩阵与Value的特征转置相乘得到最终的特征，再将这个特征与更新后的特征表示Y_F拼接，得到最终的图像特征表示Y_P，最后再采用双线性插值的方法将特征分辨率还原。

所述步骤S3中，空间金字塔汇集模块，即采样模块。该模块通过采样S个代表点，而不是馈送所有的空间点，保证输出大小不变；该过程是对输入的特征图进行多个不同尺度的池化操作，分别得到 1*1、3*3、6*6和8*8的矩阵，保持1*1和3*3两个矩阵不变，将得到的6*6和8*8的矩阵分别加入Spatial Attention模块来捕捉这两个矩阵的空间依赖性，然后再将四个矩阵进行Flatten Concat操作将其变成一个向量，最后得到这110个采样点点数之后，再通过一个空间注意力(Spatial Attention)模块再次捕捉其空间依赖性，得到110个代表点。

所述步骤S3中，Spatial Attention模块进一步捕捉其空间依赖性，其主要过程为：给定大小为H×W×C的的特征图f，沿通道轴求和产生大小为H×W的二维矩阵A：

然后将softmax函数应用于展平的矩阵A，以便为每个空间位置分配一个值p(i,j)，p(i,j)指示该位置的重要程度；对于相应的空间位置，将上述产生的值乘以沿f通道轴的所有激活；因此，空间注意层的输出F可以写成:

F_k(i,j)＝f_k(i,j)p(i,j)，

式中，f_k(i,j)表示输入特征图，e^A(i,j)表示一个空间位置的重要性。

所述CONV5_X模块输出28×28×2048的特征图，作为空间LSTM 模块的输入，空间LSTM可以有效学习到表情图像、语谱图或者姿态图像不同区域之间的空间结构相关性；通过空间LSTM学习后，每张原始的表情图像、语谱图或者姿态图像可以获得融合区域相关性后的一个深度特征，再把这个深度特征作为下一步时间LSTM的输入；

时间LSTM模块进一步提取深度特征时间上的相关性，最终得到一个表情、语谱图或姿态图像的增强情感特征。

所述步骤S4中，三模态融合后的特征输入DBN网络进行进一步的特征融合，DBN通过一种自下而上的自主学习过程，不同层次的 RBM网络通过交替重构和复现，最终自动提取得到输入的非线性融合特征，最后将非线性融合特征经过softmax层得到多分类的分类结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明基于时空LSTM和不对称非局部神经网络提取语音、表情和姿态情感特征并进行多模态特征融合分类。

2)使用Asymmetric Non-Local模块获得高低阶特征依赖信息，增强全局显示。

3)使用Efficient Channel Attention模块不降维的实现局部跨信道交互，从而实现性能提优。

4)使用LSTM获得图片特征的空间相关性和时间相关性，提取到含有语音、表情和姿态关键信息的特征进行多模态融合分类，获得比基于传统特征学习的方法更好的情感识别效果。

附图说明

图1为本发明的基于时空LSTM和不对称非局部神经网络结构框架图。

图2是Asymmetric Non-Local模块结构框图。

图3是表情语音和姿态的融合分类结构框图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护权限不限于下述的实施例。

实施例1

本实施例提出了一种基于时空特征融合的多模态情感识别方法，包括以下步骤：

S1、预处理。建立一个包含语音、表情和姿态的多模态情感数据库。数据库中各模态的有效样本数一致，将数据库中的视频关键部分截取相同的长度并进行分帧，获得表情图像和姿态图像，每一帧的图片作为一个结构的输入；对数据库中的音频部分采用傅里叶变换，提取二维结构的语谱图作为一个结构的输入。具体操作为：使用Multimodal数据库进行实验。该数据库包括了生气、厌恶、害怕、高兴、平静、悲伤和惊讶七种情感类型，由8位男性和8位女性的情感数据构成。每个人的数据单独记录，所有的情感都会表现5次，因此每个情感有80组视频样本，总计有560个视频样本。对该数据库进行预处理，先将数据库中的视频的人脸部分截取出来，得到只包含人脸的视频，然后等间隔选8帧，得到表情图片序列。对数据库中的音频部分等间隔选8帧，即将音频转换为音频序列，然后采用傅里叶变换得到二维结构的语谱图，得到语音图片序列。将数据库视频中的动作部分截取出来，得到只包含动作的视频，然后等间隔选8帧，得到姿态图片序列。通过以上步骤得到处理好的数据库样本长宽均为224的三通道RBG图像。

S2、构建基于不对称非局部神经网络和空时LSTM的结合网络，该结合网络包括Asymmetric Non-Local模块、Efficient Channel Attention模块、空间LSTM模块和时间LSTM模块，Asymmetric Non-Local模块与Efficient Channel Attention模块通过ResNet101网络连接。如图1所示，各部分的功能如下：

S201、跨接Asymmetric Non-Local模块和Efficient Channel Attention模块的ResNet101的5个卷积模块。ResNet101由5组卷积层组成，每组卷积层包括若干卷积层、池化层、BN层以及ReLU层等。使用CONV1、CONV2_x、CONV3_x、CONV4_x、CONV5_x五个卷积模块来简单表示ResNet101网络。深层网络ResNet101主要是由Bottleneck瓶颈结构搭成。

其中，CONV1的参数分别如下所示：

conv1:f＝7×7,c＝64,s＝2,p＝3

maxpool:f＝3×3,s＝2

其卷积层的输出尺寸大小计算公式如下所示：

其中，output_size表示卷积层输出尺寸，input_size表示卷积层输入尺寸，f表示卷积核或池化的大小,c为输入信道数,s表示卷积核或池化的步长,p为填充值。

在CONV2_x卷积模块中，没有下采样过程，其参数分别如下所示：

在CONV3_x卷积模块中，conv1降低通道数，conv2负责降低尺寸；由于改变了尺寸，对输入进行下采样。CONV3_x卷积模块参数分别如下所示：

在CONV3_x和CONV4_x的卷积模块结构上跨接一个Efficient Channel Attention模块，不降维的实现局部跨信道交互，从而实现性能提优。该模块主要包括三个部分。第一个部分：将CONV3_x的输出通过全局平均池化产生1*1*512大小的特征图，即忽略其空间结构来进行压缩，关注其通道结构。第二个部分：计算得到自适应的卷积核大小。第三个部分：通过一维卷积1D-Conv来获得相邻通道之间的依赖关系，得到每个通道的权重，加权到CONV4_x的输出，完成局部跨信道交互。

其中一维卷积的卷积核大小通过一个函数来自适应，使得通道数较大的层可以更好地进行跨通道交互。由于跨通道信息交互作用的覆盖范围(即一维卷积的内核大小k)与通道维数C成正比，这里采用以2为底的指数函数来表示非线性映射关系。所以，给定通道维数C，那么卷积核大小的计算公式为：

其中|Δ|表示离Δ最近的奇数。在考虑卷积核大小和参数多少的问题上，设置γ＝2,b＝1，C为通道数，取值512。

CONV4_x和CONV5_x的卷积模块结构与CONV3_x的结构相同，不同的是增加了通道数，减小了输出尺寸。在CONV4_x和CONV5_x的卷积模块上跨接一个Asymmetric Non-Local模块用于捕获长程依赖性，融合高低阶的特征。因为跨接模块的输入输出需要保持尺寸一致，所以删除了CONV4_x和CONV5_x的卷积模块结构中的下采样层，并且使用扩张卷积来保持最后两个阶段得到的特征分辨率是原图像的

。最后两个卷积模块中的卷积层参数如下所示：

Asymmetric Non-Local模块的结构如图2所示。该模块主要包含两个部分，分别是Asymmetric Fusion Non-local Block(AFNB) 和Asymmetric Pyramid Non-local Block(APNB)。

将CONV4_x和CONV5_x的输出用AFNB模块进行融合，其中通过 CONV4_x得到的特征称之为低级特征，通过CONV5_x得到的特征称为高级特征，将这两个特征输入AFNB模块进行融合。AFNB模块将 CONV5_x得到的高级特征作为Query，将CONV4_x得到的低级特征作为Key和Value，首先对Query、Key和Value分别使用1×1的卷积核进行降维，然后对Key和Value通过空间金字塔汇集模块进行 Pyramid Pooling操作，进行进一步的特征抽取，从而得到较小的特征表示。然后进行Query和Key的相关性矩阵计算，最后将这个结果与Value特征进行转置相乘从而得到高低级融合特征，最后与原 CONV5_x输出的高级特征进行拼接得到原始图像更新后的特征表示 Y_F。

更新后的特征表示Y_F进入APNB模块，同样使用1×1卷积操作，得到Non-Local模块中的Query、Key和Value。为了减少计算量，针对Key和Value，只通过一次空间金字塔汇集模块，进行一次 Pyramid Pooling操作，从而得到了新的特征表示，其他的过程与 AFNB的过程相同，根据Query和Key计算出相关性矩阵，然后将相关性矩阵与Value的特征转置相乘得到最终的特征，再将这个特征与更新后的特征表示Y_F拼接，得到最终的图像特征表示Y_P，最后再采用双线性插值的方法将特征分辨率还原。

空间金字塔汇集模块，即采样模块。该模块通过采样S个代表点，而不是馈送所有的空间点，保证输出大小不变。该过程是对输入的特征图进行多个不同尺度的池化操作，分别得到1*1、3*3、6*6和8*8 的矩阵，保持1*1和3*3两个矩阵不变，将得到的6*6和8*8的矩阵分别加入Spatial Attention模块来捕捉这两个矩阵的空间依赖性，然后再将四个矩阵进行Flatten Concat操作将其变成一个向量，最后得到这110个采样点点数之后，再通过一个Spatial Attention 模块再次捕捉其空间依赖性，得到110个代表点。

Spatial Attention模块进一步捕捉其空间依赖性，其主要过程为：给定大小为H×W×C的的特征图f，沿通道轴求和产生大小为 H×W的二维矩阵A：

然后将softmax函数应用于展平的矩阵A，以便为每个空间位置分配一个值p(i,j)，p(i,j)指示该位置的重要程度。对于相应的空间位置，将上述产生的值乘以沿f通道轴的所有激活。因此，空间注意层的输出F可以写成:

F_k(i,j)＝f_k(i,j)p(i,j)，

S202、空间LSTM模块。通过上述的基于时空LSTM和不对称非局部神经网络可以获得跟表情、语音或者姿态相关的深度纹理特征，但无法学习表情图像、语谱图或者姿态图像各个区域之间的空间结构相关性，而这种相关性也能够提供重要的情感信息。因此我们在B1的模块之后加上空间LSTM模块。CONV5模块输出不经过池化，其卷积层参数如下所示：

得到28×28×2048的特征图，输出的特征图大小为28×28，有 2048个通道即有2048张特征图，本发明中将28×28共784个位置上沿着通道方向构成784个特征向量，每个向量为2048维，这784 个特征向量对应着输入的一帧图像的一个小区域，将每一个特征向量作为LSTM的输入，这样通过空间LSTM就可以有效学习到表情图像、语谱图或者姿态图像不同区域之间的空间结构相关性。通过空间LSTM学习后，每张原始的表情图像、语谱图或者姿态图像可以获得融合区域相关性后的一个深度特征，再把这个深度特征作为下一步时间LSTM的输入。

S203、时间LSTM模块。B2部分输出的一组含有一张图片的不同区域相关信息的特征向量作为输入，输入到LSTM中，进一步提取时间上的相关性。

S201-S203为一帧图像的处理过程，将一个视频分帧之后所有图像经过上述网络的处理，后一帧的图像在B3处综合本帧和上一帧的时间LSTM特征，最终得到一个表情、语谱图或姿态图像的增强情感特征。

S3、在Multimodal数据库上，经过预处理，得到的具有相同数量的表情、语音和姿态帧图像。采取与人无关策略，总共有16折的独立实验，每一折有35个用于验证的样本，以及525个用于训练的样本。将这些样本输入B1-B3构建出的网络中进行训练，更新网络参数，训练结束后保存下验证效果最佳的网络模型。使用验证效果最佳的网络模型提取得到的表情语音姿态三模态特征使用 Asymmetric Non-Local模块进行融合。使用时将测试视频经过预处理后输入网络，经过S1和S2的处理之后分别得到一组特征，最后将获得的表情特征、语音特征和姿态特征通过Asymmetric Non-Local模块融合，具体方式如图3所示。三模态融合后的特征输入DBN网络进行进一步的特征融合，DBN通过一种自下而上的自主学习过程，不同层次的RBM网络通过交替重构和复现，最终自动提取得到输入的非线性融合特征，最后将非线性融合特征经过softmax 层得到多分类的分类结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.基于时空特征融合的多模态情感识别方法，其特征在于，包括以下步骤：

S2、构建基于不对称非局部神经网络和空时LSTM的结合网络，该结合网络包括不对称非局部模块、有效通道注意力模块、空间LSTM模块和时间LSTM模块，不对称非局部模块与有效通道注意力模块通过ResNet101网络连接；

S4、将表情特征、语音特征和姿态特征通过不对称非局部模块进行特征融合，并将融合后的特征输入DBN网络进行进一步的融合训练，最后输入softmax层得到多分类结果。

2.根据权利要求1所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S1中，将数据库中的视频关键部分截取相同的长度并进行分帧，获得表情图像和姿态图像，每一帧的图片作为一个结构的输入；对数据库中的音频部分采用傅里叶变换，提取二维结构的语谱图作为一个结构的输入。

3.根据权利要求2所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S2中，跨接不对称非局部模块和有效通道注意力模块的ResNet101网络包含5个卷积模块，每个模块包括若干卷积层、池化层、BN层以及ReLU层；5个卷积模块采用CONV1、CONV2_x、CONV3_x、CONV4_x、CONV5_x表示，其中，CONV1的参数分别如下所示：

conv1:f＝7×7,c＝64,s＝2,p＝3

maxpool:f＝3×3,s＝2

其卷积层的输出尺寸大小计算公式如下所示：

CONV2_x卷积模块的参数分别如下所示：

CONV3_x卷积模块参数分别如下所示：

在卷积模块CONV3_x和CONV4_x的结构上跨接一个有效通道注意力模块；

CONV4_x、CONV5_x卷积模块中的卷积层参数如下所示：

在CONV4_x和CONV5_x的卷积模块上跨接一个不对称非局部模块用于捕获长程依赖性，融合高低阶的特征。

4.根据权利要求3所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S2中，所述有效通道注意力模块主要包括三个部分，第一个部分是将CONV3_x的输出通过全局平均池化产生1*1*C大小的特征图；第二个部分是计算得到自适应的卷积核大小；第三个部分是通过一维卷积1D-Conv来获得相邻通道之间的依赖关系，得到每个通道的权重，加权到CONV4_x的输出，完成局部跨信道交互；

一维卷积核大小的计算公式为：

所述不对称非局部模块主要包含AFNB模块和APNB模块，将CONV4_x和CONV5_x的输出用AFNB模块进行融合，融合后的特征进入APNB模块再进行融合。

5.根据权利要求4所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S3中，通过CONV4_x得到的特征称之为低级特征，通过CONV5_x得到的特征称为高级特征，将这两个特征输入AFNB模块进行融合；AFNB模块将CONV5_x得到的高级特征作为Query，将CONV4_x得到的低级特征作为Key和Value，首先对Query、Key和Value分别使用1×1的卷积核进行降维，然后对Key和Value通过空间金字塔汇集模块进行Pyramid Pooling操作，进行进一步的特征抽取，从而得到较小的特征表示；然后进行Query和Key的相关性矩阵计算，最后将这个结果与Value特征进行转置相乘从而得到高低级融合特征，最后与原CONV5_x输出的高级特征进行拼接得到原始图像更新后的特征表示Y_F。

6.根据权利要求5所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S3中，更新后的特征表示Y_F进入APNB模块，同样使用1×1卷积操作，得到Non-Local模块中的Query、Key和Value；为了减少计算量，针对Key和Value，只通过一次空间金字塔汇集模块，进行一次Pyramid Pooling操作，从而得到了新的特征表示，根据Query和Key计算出相关性矩阵，然后将相关性矩阵与Value的特征转置相乘得到最终的特征，再将这个特征与更新后的特征表示Y_F拼接，得到最终的图像特征表示Y_P，最后再采用双线性插值的方法将特征分辨率还原。

7.根据权利要求6所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S3中，空间金字塔汇集模块通过采样S个代表点，保证输出大小不变；该过程是对输入的特征图进行多个不同尺度的池化操作，分别得到1*1、3*3、6*6和8*8的矩阵，保持1*1和3*3两个矩阵不变，将得到的6*6和8*8的矩阵分别加入空间注意力模块来捕捉这两个矩阵的空间依赖性，然后再将四个矩阵进行Flatten Concat操作将其变成一个向量，最后得到这110个采样点点数之后，再通过一个Spatial Attention模块再次捕捉其空间依赖性，得到110个代表点。

8.根据权利要求7所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S3中，空间注意力模块进一步捕捉其空间依赖性，其主要过程为：给定大小为H×W×C的的特征图f，沿通道轴求和产生大小为H×W的二维矩阵A：

F_k(i,j)＝f_k(i,j)p(i,j)，

9.根据权利要求8所述基于时空特征融合的多模态情感识别方法，其特征在于，所述CONV5_X模块输出28×28×2048的特征图，作为空间LSTM模块的输入，空间LSTM可以有效学习到表情图像、语谱图或者姿态图像不同区域之间的空间结构相关性；通过空间LSTM学习后，每张原始的表情图像、语谱图或者姿态图像可以获得融合区域相关性后的一个深度特征，再把这个深度特征作为下一步时间LSTM的输入；

10.根据权利要求9所述基于时空特征融合的多模态情感识别方法，其特征在于，所述步骤S4中，三模态融合后的特征输入DBN网络进行进一步的特征融合，DBN通过一种自下而上的自主学习过程，不同层次的RBM网络通过交替重构和复现，最终自动提取得到输入的非线性融合特征，最后将非线性融合特征经过softmax层得到多分类的分类结果。