CN112418095B

CN112418095B - 一种结合注意力机制的面部表情识别方法及系统

Info

Publication number: CN112418095B
Application number: CN202011325980.4A
Authority: CN
Inventors: 刘三女牙; 杨宗凯; 叶世豪; 朱晓亮; 戴志诚; 赵亮
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2023-06-30
Anticipated expiration: 2040-11-24
Also published as: CN112418095A; WO2022111236A1; US11967175B2; US20230298382A1

Abstract

本发明提供一种结合注意力机制的面部表情识别方法及系统，包括：检测视频序列中每个视频帧内包括的人脸，并提取对应的人脸ROI，得到每个视频帧内的人脸图片；基于人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行对齐；将对齐后的人脸图片输入到残差神经网络中，提取人脸图片对应的人脸面部表情的空间特征；将人脸面部表情的空间特征输入到混合注意力模块，获取人脸面部表情的融合特征；将人脸面部表情的融合特征输入到门控制循环单元，提取人脸面部表情的时间特征；将人脸面部表情的时间特征输入到全连接层，对人脸面部表情进行分类识别。本发明将混合注意力模块嵌入卷积神经网络和循环神经网络中，提高了面部表情识别的准确率。

Description

一种结合注意力机制的面部表情识别方法及系统

技术领域

本发明属于表情识别技术领域，更具体地，涉及一种结合注意力机制的面部表情识别方法及系统。

背景技术

面部表情是人类传达情绪状态生理和心理的反应，面部表情识别在机器人、智能医疗、人机交互和在线教育等多个领域都有广泛的应用。目前的面部表情识别技术主要分为静态图片识别和动态视频序列识别。图片识别只考虑当前图像特征，但面部表情是一个动态变化的过程，静态图片识别忽略了表情在时间维度和空间维度上的变化，存在局限性。因此进一步的研究面部表情识别需要考虑表情的空时特征，在视频序列上对面部表情识别以提升算法的性能。

目前常用于视频序列面部表情识别的技术包括CNN+RNN级联网络、三维卷神经网络3DCNN、光流法等。CNN+RNN级联网络是将卷积神经网络CNN与循环神经网络RNN结合的级联网络对视频序列下的面部表情空时变化进行建模。为了达到较好的识别效果，会使用较深的卷积神经网络结构，同时选择LSTM网络作为时间特征提取器，利用连续特征向量间的相关性提取特征。但级联网络方法过深的网络也会导致梯度爆炸或梯度消失等问题。

三维卷积神经网络3DCNN在常规2D空间卷积基础上，增加一个时间维度，形成三维卷积，从而获取时序信息。C3D网络最早用于视频序列的表情识别，基于C3D的变体网络如I3D结合人脸特征点提取表情的几何特征，3DCNN-DAP将面部动作约束与3DCNN结合提升表情识别效果。由于三维卷积神经网络相较于2D网络增加一个时间维度，导致训练参数更多，计算量更大。

光流法是利用表情序列在时间维度上的变化和帧间关联，找到帧变化关系，从而计算出相邻帧之间面部表情的变化信息。光流法与卷积神经网络结合，形成双路集成网络模型，一路用于单帧图像特征提取，一路训练多帧数据的光流图，提取时序信息。最后融合两路空时特征输出结果。但光流法在训练前对视频序列提取光流图，进行大量预处理工作，导致过程耗时长，实时性较差。

综上，虽然现有的面部表情识别技术取得了较好的识别结果，但仍有不少缺点。大多方法都是对在实验环境下采集的表情数据集验证，对于在自然条件下，受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响的表情识别率大大降低，这使得自然条件下的面部表情识别仍然是一个具有挑战性的问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种结合注意力机制的面部表情识别方法及系统，旨在解决现有的面部表情识别技术对于在自然条件下，受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响，导致表情识别率大大降低的问题。

为实现上述目的，第一方面，本发明提供了一种结合注意力机制的面部表情识别方法，包括如下步骤：

检测视频序列中每个视频帧内包括的人脸，并提取对应的人脸感兴趣区域，得到每个视频帧内的人脸图片；

基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；

将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中，提取人脸图片对应的人脸面部表情的空间特征；

将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块，所述混合注意力模块通过注意力机制计算面部表情的特征权重，给面部表情变化的关注区域分配高于阈值的权重，面部表情变化无关的区域分配低于阈值的权重，以关联视频帧间人脸面部表情的特征信息，提取相邻视频帧间人脸面部表情的依赖关系，剔除无关的干扰特征，获取人脸面部表情的融合特征；

将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络，提取人脸面部表情的时间特征；

将从视频序列中提取的人脸面部表情的时间特征输入到全连接层，基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。

在一个可选的实施例中，所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；具体为：

检测每个视频帧内人脸图片中的多个面部表情特征点，所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域；

基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置，并基于所述人脸中间点的位置对所述人脸图片进行对齐；所述对齐为相对平面直角坐标系对齐，其中，对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。

在一个可选的实施例中，所述基于所述人脸中间点的位置对所述人脸图片进行对齐，具体为：使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。

在一个可选的实施例中，所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前，还包括如下步骤：

将对齐后的人脸图片的大小统一调整成预设大小的图片。

在一个可选的实施例中，所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练，训练好之后再进行面部表情识别；

在训练阶段，输入到所述残差神经网络的人脸图片，除需要进行人脸图片对齐、调整成统一大小图片外，还需对每张人脸图片打上对应的面部表情标签；所述面部表情标签即为每张人脸图片的面部表情的识别结果。

在一个可选的实施例中，所述混合注意力模块由自注意力模块和空间注意力模块组成；

所述自注意力模块通过卷积操作，对单帧的表情在空间维度上计算自注意力权重，将权重分配给空间特征，获取空间关注特征向量；

所述空间注意力模块，将多帧的空间关注特征进行全连接操作，提取帧维度上的注意权重，并对多帧特征进行特征融合，计算相邻帧间的表情变化特征，得到融合空时注意力权重的融合特征向量。

第二方面，本发明提供了一种结合注意力机制的面部表情识别系统，包括：

人脸图片检测单元，用于检测视频序列中每个视频帧内包括的人脸，并提取对应的人脸感兴趣区域，得到每个视频帧内的人脸图片；

人脸图片对齐单元，用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；

空间特征提取单元，用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中，提取人脸图片对应的人脸面部表情的空间特征；

融合特征提取单元，用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块，所述混合注意力模块通过注意力机制计算面部表情的特征权重，给面部表情变化的关注区域分配高于阈值的权重，面部表情变化无关的区域分配低于阈值的权重，以关联视频帧间人脸面部表情的特征信息，提取相邻视频帧间人脸面部表情的依赖关系，剔除无关的干扰特征，获取人脸面部表情的融合特征；

时间特征提取单元，用于将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络，提取人脸面部表情的时间特征；

面部表情识别单元，用于将从视频序列中提取的人脸面部表情的时间特征输入到全连接层，基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。

在一个可选的实施例中，所述人脸图片对齐单元检测每个视频帧内人脸图片中的多个面部表情特征点，所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域；以及基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置，并基于所述人脸中间点的位置对所述人脸图片进行对齐；所述对齐为相对平面直角坐标系对齐，其中，对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。

在一个可选的实施例中，该面部表情识别系统还包括：

图片大小调整单元，用于在将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前，将对齐后的人脸图片的大小统一调整成预设大小的图片。

在一个可选的实施例中，所述融合特征提取单元中用到的混合注意力模块由自注意力模块和空间注意力模块组成；所述自注意力模块通过卷积操作，对单帧的表情在空间维度上计算自注意力权重，将权重分配给空间特征，获取空间关注特征向量；所述空间注意力模块，将多帧的空间关注特征进行全连接操作，提取帧维度上的注意权重，并对多帧特征进行特征融合，计算相邻帧间的表情变化特征，得到融合空时注意力权重的融合特征向量。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供了一种结合注意力机制的面部表情识别方法及系统，通过残差卷积神经网络和循环神经网络提取视频序列在空间维度和时间维度上的特征，结合混合注意力机制关联帧间信息，提取相邻帧间的依赖关系，剔除无关的干扰特征，获取面部表情的关注特征。本发明将混合注意力模块嵌入卷积神经网络和循环神经网络模型中，有效提高在自然环境下受光照、遮挡、头部姿态变化的面部表情识别的准确率。

附图说明

图1是本发明实施例提供的结合注意力机制的面部表情识别方法流程图；

图2是本发明实施例提供的结合注意力机制的面部表情识别方法的技术流程图；

图3是本发明实施例提供的结合注意力机制的面部表情识别的整体模型结构图；

图4是本发明实施例提供的混合注意力模块内部结构图；

图5是本发明实施例提供的本发明方法在三个数据集上表情分类混淆矩阵结果图；

图6是本发明实施例提供的结合注意力机制的面部表情识别系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明实施例提供的结合注意力机制的面部表情识别方法流程图；如图1所示，包括如下步骤：

S101，检测视频序列中每个视频帧内包括的人脸，并提取对应的人脸感兴趣区域，得到每个视频帧内的人脸图片；

S102，基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；

S103，将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中，提取人脸图片对应的人脸面部表情的空间特征；

S104，将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块，所述混合注意力模块通过注意力机制计算面部表情的特征权重，给面部表情变化的关注区域分配高于阈值的权重，面部表情变化无关的区域分配低于阈值的权重，以关联视频帧间人脸面部表情的特征信息，提取相邻视频帧间人脸面部表情的依赖关系，剔除无关的干扰特征，获取人脸面部表情的融合特征；

S105，将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络，提取人脸面部表情的时间特征；

S106，将从视频序列中提取的人脸面部表情的时间特征输入到全连接层，基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。

具体地，本发明提供的基于混合注意力机制的面部表情识别方法，以下是详细的技术方案，图2是本发明实施例提供的结合注意力机制的面部表情识别方法的技术流程图；如图2所示，包括如下步骤：

S1.获取数据集中人脸数据。其中，数据集可以为视频序列，使用harr特征提取方法，通过图像的灰度变化，通过像素区域差值D_face，对视频序列中每个视频帧的进行人脸检测，提取人脸感兴趣区域(region of interest，ROI)区域。得到视频序列中的每个视频帧内包含的人脸图片数据：

其中(i，j)为当前划分区域的坐标区间，(x，y)为区域内单个像素点的坐标，f(x，y)对当前区域内像素坐标求和。

S2.人脸特征点提取。使用dlib库中的面部特征点检测方法对S1中的人脸图片数据提取面部的68个特征点，分别对应眼睛、眉毛、鼻子、嘴部和面部轮廓，得到人脸特征点序列P^(t)：

其中

为视频序列中第t个视频帧中人脸图片的第i个关键点的坐标位置，1≤i≤68。

S3.对人脸进行对齐。基于S2得到的每个视频帧下人脸图片的人脸特征点序列，对每个视频帧中的人脸进行对齐，根据提取到面部的68个特征点的点位信息中的眼部区域和眉毛区域的位置信息，计算出人脸中间点的信息，使用仿射变换矩阵得到每个视频帧中校正后的人脸图片。

其中，(x，y)为当前人脸中间点坐标，(u，v)为人脸图片变换后的坐标，c₁，c₂表示平移量，a₁、a₂、b₁、b₂表示当前人脸图片的旋转、缩放变化参数。

S4.生成输入数据集。将对齐后的人脸图片调整为224*224大小的图片；图3是本发明实施例提供的结合注意力机制的面部表情识别的整体模型结构图；如图3所示，整体模型包括：视频帧切割、残差卷积神经网络、混合注意力模块、循环神经网络以及全连接层分类。具体如下：

将每个视频表情对应标签L进行one-hot编码，得到输入L_h；以n帧为一组生成一个帧序列；由于每个视频帧数不相同，借鉴TSN网络处理流程，将视频帧分为K个部分，从每个部分里随机选取一帧作为最终的输入帧，得到一个K帧的序列与对应标签拼接构成一个dataset；将数据封装为一个迭代对象dataloader作为网络训练的输入：

L_h＝δ(L)

dataset＝((w，h，c，frame)，L_h)

dataloader＝f(batchsize，dataset)

其中，δ为one-hot编码规则；w，h，c分别表示当前帧的高、宽、通道数，frame表示视频帧数；batchsize表示单次训练所选取的样本数；函数f表示对数据集随机打乱、设置batchsize大小、设置进程数等操作。

S5.ResNet网络进行空间特征提取。将数据集对象dataloader输入到残差卷积神经网络ResNet50中，提取视频序列中人脸表情的空间特征，得到提取出的特征数据T：

T＝ResNet(dataloader)

使用残差网络ResNet50作为空间特征提取网络，残差网络能有效地解决随着网络层数加深导致梯度消失或梯度爆炸等问题，网络通过残差块的恒等映射，将当前输出传入下一层结构，并且通过shortcut连接不会产生额外的参数，不会增加计算复杂度。同时网络中使用的Batch Normalization、Dropout层等能有效防止模型过拟合、梯度消失等问题。

S6.提取的空间特征输入混合注意力模块。混合注意力模块的目的是通过注意力机制计算表情的特征权重，给表情变化的关注区域分配更高的权重，表情变化无关的区域分配较少的权重，从而让网络学习注意力区域特征，提取帧间关系依赖，剔除视频中的无关特征。混合注意力模块由自注意力模块和空间注意力模块组成，自注意力模块通过卷积操作，对单帧的表情在空间维度上计算自注意力权重，将权重分配给空间特征，获取空间关注特征向量。自注意力模块仅在单帧计算权重，忽略了帧间的信息关联，于是级联空间注意力模块，将多帧的空间关注特征进行全连接操作，提取帧维度上的注意权重，并对多帧特征进行特征融合，得到融合空时注意力权重的特征向量。

图4是本发明实施例提供的混合注意力模块内部结构图；如图4所示，空间特征先进入自注意力模块，计算单帧的特征关联得到自注意力权重θ，得到的自注意力权重对输入特征进行加权，输出新的自注意力特征向量Fⁱ _weight1；之后进行第一次特征融合，将融合后特征Fⁱ _att1输入空间注意力模块，计算相邻帧间的表情变化特征，得到空间注意力权重θ¹，进行加权计算得到空间注意力特征向量Fⁱ _weight2，进行第二次特征融合得到混合注意力模块最终输出特征Fⁱ _att2。

其中，Tⁱ表示ResNet网络提取的第i帧特征向量，δ表示sigmoid函数。

具体地，采用混合注意力模块进行两次特征融合，其中第一次特征融合将自注意力特征Fⁱ _weight1与输入特征Tⁱ计算得到Fⁱ _att1：

其中，n表示当前视频的总帧数。第二次特征融合在得到空间注意力特征向量Fⁱ _weight2后与Fⁱ _att1计算得到Fⁱ _att2：

S7.融合后的人脸特征输入循环神经网络进行时间特征提取。本发明选用门控制循环单元(GRU)做为循环神经网络提取时间特征，门控制循环单元相较于其他循环神经网络结构模型更简单，尤其在网络较深的模型中；GRU通过一个门控就可以同时进行遗忘和选择记忆，参数上明显缩减且效率更高。通过GRU得到时间特征为一个三维特征向量F：

其中，hidden为GRU单元隐藏层大小，模型中设置隐藏层单元为128。

S8.输出特征到全连接层，得到预测结果。通过GRU单元得到的特征向量调整维度后输入一个全连接层，得到最终的表情分类结果。

经过上述的步骤，实现视频序列下面部表情识别。在训练过程中使用交叉熵损失函数，通过随机梯度下降算法优化损失函数值，sigmoid作为激活函数，权值衰减设置为0.0001，动量设置为0.9，过程中对学习率进行动态调整，最终达到最优结果。

实验采用准确率、混淆矩阵、受试者工作特征曲线(receiver operatingcharacteristic curve，ROC)面积作为表情识别的评价指标。其中准确率值和受试者工作特征曲线ROC面积越大，识别的效果越好；混淆矩阵显示具体每种表情的预测准确率。

具体地，本发明方法与其他方法在CK+数据集上进行面部表情识别的准确率对比如表1所示：

表1：CK+数据集方法对比表

具体地，本发明方法与其他方法在Oulu-CASIA数据集上进行面部表情识别的准确率对比如表2所示：

表2：Oulu-CASIA数据集上方法对比表

具体地，本发明方法与其他方法在AFEW数据集上进行面部表情识别的准确率对比如表3所示：

表3：AFEW数据集上方法对比表

由表1，2，3可知，本发明构建的混合注意力机制面部表情识别方法在三个数据集上的准确率都有出色的表现。其中本发明方法在CK+数据集和AFEW数据集上进行面部识别的准确率都优于目前的主流方法。

图5是本发明方法在三个数据集上识别的混淆矩阵图，混淆矩阵是用来进行精度评价的一种标准格式，用于比较预测结果和实际分类值。由图5可以看出本发明方法在CK+和Oulu-CASIA数据集上都有较好的分类结果。由于AFEW数据集取自自然环境，在混淆矩阵上的表现相较于实验环境数据集有差距，但是依然有较优的表现。

表4是本发明在各个数据集上的ROC面积比较，ROC是衡量深度学习方法优劣的一种性能指标。ROC面积在0.5到1的区间范围内，数值越大的分类器，其分类效果越好。由表4可以看出本发明方法在三个数据集上的ROC面积均远大于0.5，说明本发明方法对面部表情识别分类效果较优。

表4：不同数据集上ROC面积比较表

图6是本发明实施例提供的结合注意力机制的面部表情识别系统架构图。如图6所示，包括：

人脸图片检测单元610，用于检测视频序列中每个视频帧内包括的人脸，并提取对应的人脸感兴趣区域，得到每个视频帧内的人脸图片；

人脸图片对齐单元620，用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；

空间特征提取单元630，用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中，提取人脸图片对应的人脸面部表情的空间特征；

融合特征提取单元640，用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块，所述混合注意力模块通过注意力机制计算面部表情的特征权重，给面部表情变化的关注区域分配高于阈值的权重，面部表情变化无关的区域分配低于阈值的权重，以关联视频帧间人脸面部表情的特征信息，提取相邻视频帧间人脸面部表情的依赖关系，剔除无关的干扰特征，获取人脸面部表情的融合特征；

时间特征提取单元650，用于将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络，提取人脸面部表情的时间特征；

面部表情识别单元660，用于将从视频序列中提取的人脸面部表情的时间特征输入到全连接层，基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。

图片大小调整单元670，用于在将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前，将对齐后的人脸图片的大小统一调整成预设大小的图片。

具体地，图6中各个单元的详细功能参见前述方法实施例中的介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合注意力机制的面部表情识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的结合注意力机制的面部表情识别方法，其特征在于，所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正，使得每个视频帧内的人脸图片相对平面直角坐标系对齐；具体为：

3.根据权利要求2所述的结合注意力机制的面部表情识别方法，其特征在于，所述基于所述人脸中间点的位置对所述人脸图片进行对齐，具体为：使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。

4.根据权利要求2所述的结合注意力机制的面部表情识别方法，其特征在于，所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前，还包括如下步骤：

将对齐后的人脸图片的大小统一调整成预设大小的图片。

5.根据权利要求4所述的结合注意力机制的面部表情识别方法，其特征在于，所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练，训练好之后再进行面部表情识别；

6.根据权利要求1至5任一项所述的结合注意力机制的面部表情识别方法，其特征在于，所述混合注意力模块由自注意力模块和空间注意力模块组成；

7.一种结合注意力机制的面部表情识别系统，其特征在于，包括：

8.根据权利要求7所述的结合注意力机制的面部表情识别系统，其特征在于，所述人脸图片对齐单元检测每个视频帧内人脸图片中的多个面部表情特征点，所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域；以及基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置，并基于所述人脸中间点的位置对所述人脸图片进行对齐；所述对齐为相对平面直角坐标系对齐，其中，对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。

9.根据权利要求8所述的结合注意力机制的面部表情识别系统，其特征在于，还包括：

10.根据权利要求7至9任一项所述的结合注意力机制的面部表情识别系统，其特征在于，所述融合特征提取单元中用到的混合注意力模块由自注意力模块和空间注意力模块组成；所述自注意力模块通过卷积操作，对单帧的表情在空间维度上计算自注意力权重，将权重分配给空间特征，获取空间关注特征向量；所述空间注意力模块，将多帧的空间关注特征进行全连接操作，提取帧维度上的注意权重，并对多帧特征进行特征融合，计算相邻帧间的表情变化特征，得到融合空时注意力权重的融合特征向量。