CN110427867B

CN110427867B - 基于残差注意力机制的面部表情识别方法及系统

Info

Publication number: CN110427867B
Application number: CN201910694449.5A
Authority: CN
Inventors: 凌贺飞; 王丹; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-11-19
Anticipated expiration: 2039-07-30
Also published as: CN110427867A

Abstract

本发明公开了一种基于残差注意力机制的面部表情识别方法及系统，属于计算机视觉领域，包括：提取包含人脸区域的目标框并进行特征归一化处理，之后利用面部表情识别模型进行面部表情识别；面部表情识别模型包括：一个降采样特征提取结构，用于通过小卷积块对目标框进行特征提取；多个级联的残差注意力结构，分别用于通过深度可分离卷积结构对输入的特征图进行特征提取，以得到精细特征图，并在通道域上对输入的特征图提取感兴趣特征，以得到关键特征图，并将得到的特征图点乘后与精细特征图叠加为残差特征图；以及一个融合损失层，用于获取最后一个残差特征图的损失值，从而预测面部表情类别。本发明能够提高面部表情识别的识别精度和识别速度。

Description

基于残差注意力机制的面部表情识别方法及系统

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于残差注意力机制的面部表情识别方法及系统。

背景技术

面部表情在人类交流中起着非常重要的作用，尤其是在非语言交流中，人类认知情绪通常是通过识别面部表情来进行的。如果计算机能够通过用户的面部表情来感知和理解用户的意图，那么系统就可以根据感知到的情况提供建议和意见来帮助用户，因此，面部表情识别在计算机视觉领域和人工智能领域获得了广泛的关注。

虽然人类几乎可以不费任何力气或延迟就能识别面部表情，但机器对表情的可靠识别仍然是一个挑战。为了使计算机像人类那样具有理解和表达情感的能力，从而让机器能更好地服务人类日常生活，如何高计算机对表情识别的准确度，是表情识别系统中需要解决的关键问题。

随着大数据时代的到来，在并行计算领域，与以前使用的CPU相比，GPU使得计算性得到了极大的提升。当前GPU的计算性能已经超CPU 50倍并且在未来极有可能更高。计算机的运算能力极大地增强，侧面反映了利用大规模图像数据训练复杂深度网络的需求在快速增长。在相对较小的面部表情数据集上直接训练深度网络很容易导致过拟合，为了缓解这个问题，许多面部表情识别方法会在大数据集上先预训练网络，或者在已经训练好的网络，如AlexNet，VGG，VGG-face或GoogleNet等网络上进行微调。预训练模型一般采用分类网络或人脸识别网络，然后固定某些层训练其它层直接进行微调训练或者不同层采用不同的数据集对网络进行微调。微调训练网络对表情类别特征的分辨度是不够的，一定程度上限制了最后的识别精度，而且这些微调训练网络在训练好之后，所包含的参数可能多达数百兆，对需要实时运行的任务会带来相当大的压力。此外，现有的面部表情识别网络大多专注于单一任务，只学习对表达敏感的特征，并不考虑其他潜在因素(如头部姿势、光照、面部形态等)之间的相互作用，导致了这些面部表情识别方法的泛化能力较弱。有些卷积网络(如MSCNN网络)引入了多任务学习机制，可以从其他任务中学习额外的信息，这样能够提高面部表情识别网络的泛化能力，但是由于采用多层卷积提取特征，增加了最后得到的表情识别检测器的内存消耗和计算用时，也无法满足实时性的要求。总的来说，现有的面部表情识别方法的识别精度和识别速度仍然需要进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于残差注意力机制的面部表情识别方法及系统，其目的在于，提高面部表情识别的识别精度和识别速度。

为实现上述目的，按照本发明的第一方面，提供了一种基于残差注意力机制的面部表情识别方法，包括：

(1)从待识别的目标图像中提取包含人脸区域的目标框，并对所提取的目标框进行特征归一化处理；

(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别，从而识别出目标图像中人脸的面部表情类别；

面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层；降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取，以得到粗糙特征图；残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取，以得到精细特征图，并在通道域上对输入的特征图提取感兴趣特征，以得到关键特征图，以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加，从而得到残差特征图；第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图，第2～m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图；融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值，以根据该损失值预测面部表情类别；

其中，小卷积块中各卷积层的卷积核不大于3×3，m≥2。

本发明所提供的基于残差注意力机制的面部表情识别方法，在面部表情识别模型的降采样特征提取结构中，利用小卷积块对包含人脸区域的目标框进行特征提取，能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的；在面部表情识别模型的残差注意力结构中，一方面利用深度可分离卷积结构做进一步的面部表情特征提取，能够对卷积神经网络(CNN)进行压缩，从而降低模型大小，提高面部表情识别的识别速度；另一方面通过残差注意力机制，获取到了能够进行分类的表情关键信息，从而提高了面部表情识别的识别精度。总的来说，本发明所提供的基于残差注意力机制的面部表情识别方法，能够提高面部表情识别的识别精度和识别速度。

进一步地，降采样特征提取结构包括：一个或多个依次连接的小卷积块，以及一个全局最大池化层；

小卷积块用于进行特征提取，全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度，以得到粗糙特征图。

进一步地，残差注意力结构包括：主干分支、掩膜分支以及特征融合层；

主干分支包括：一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层；深度可分离卷积结构用于对输入的特征图进行特征提取，最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度，从而得到精细特征图；

掩膜分支包括：一个小卷积块、一个SE结构以及两个相连的全连接层；小卷积块用于对输入的特征图进行降采样，SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征，全连接层用于调整感兴趣特征的通道数，从而得到关键特征图；

特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后，与精细特征图叠加，从而得到残差特征图。

进一步地，深度可分离卷积结构为Xception。

进一步地，融合损失层所获取的损失值融合了L2-SVM损失与Center损失，其计算方式为：

L＝L_L2-SVM+λL_Center；

其中，L表示第m个残差注意力结构输出的残差特征图的损失值，L_L2-SVM和L_Center分别表示L2-SVM损失和Center损失，λ为用于平衡L2-SVM损失与Center损失的平衡因子。

本发明所提供的基于残差注意力机制的面部表情识别方法，在面部表情识别模型的降采样特征提取结构中，通过融合L2-SVM损失和Center损失计算损失值，能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点，使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合，提高模型的泛化能力。

进一步地，本发明第一方面提供的基于残差注意力机制的面部表情识别方法，还包括：

对于待处理的视频，在实时获取到每一帧图像后，将其作为待识别的目标图像，并执行步骤(1)～(2)，以实时识别待处理的视频中各帧图像的面部表情类别。

由于本发明所使用的神经网络模型相对于其他面部表情识别网络得到了压缩，并且面部表情识别的识别速度得到了提高，因此，本发明能够对实时性要求较高的视频进行处理，实时识别出其中各帧图像的面部表情类别。

进一步地，面部表情识别模型的离线训练方法包括：

(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置；

(T2)根据双眼关键点的位置对所提取的人脸区域进行校正，以得到相应的正脸图像，由所有的正脸图像构成基础数据集；

(T3)对基础数据集进行数据集增强，以得到训练数据集；

(T4)建立面部表情识别模型，并利用训练数据集对面部表情识别模型进行训练，以得到训练好的面部表情识别模型；

其中，数据集增强包括旋转操作。

本发明所提供的基于残差注意力机制的面部表情识别方法，本发明在进行面部表情识别模型进行训练时，会先通过人脸区域校正以得到正脸图像，由此能够保证训练得到的模型具有较高的识别精度；在进行人脸区域校正后，通过旋转操作等进行数据集增强，保证了所得到的训练数据集中包含有不同头部姿势的人脸图像，从而能够提高训练得到的面部表情识别模型的泛化能力。

进一步地，步骤(T1)通过MTCNN算法在提取到人脸区域的同时，获取到双眼关键点的位置；使用MTCNN算法能够同时提取到人脸区域并获取到双眼关键点的位置，从而加快数据集的预处理过程。

按照本发明的第二方面，提供了一种基于残差注意力机制的面部表情识别系统，包括：目标框提取模块和面部表情识别模块；

目标框提取模块，用于从待识别的目标图像中提取包含人脸区域的目标框，并对所提取的目标框进行特征归一化处理；

面部表情识别模块，用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别，从而识别出目标图像中人脸的面部表情类别；

其中，小卷积块中各卷积层的卷积核不大于3×3，m≥2。

按照本发明的第三方面，还提供了一种系统，包括处理器和计算机可读存储介质；计算机可读存储介质存储有可执行程序代码；

处理器用于调用计算机可读存储介质中存储的可执行程序代码，执行本发明第一方面提供的基于残差注意力机制的面部表情识别方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的基于残差注意力机制的面部表情识别方法，在面部表情识别模型的降采样特征提取结构中，利用小卷积块对包含人脸区域的目标框进行特征提取，能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的；在面部表情识别模型的残差注意力结构中，一方面利用深度可分离卷积结构做进一步的面部表情特征提取，能够对卷积神经网络(CNN)进行压缩，从而降低模型大小，提高面部表情识别的识别速度；另一方面通过残差注意力机制，获取到了能够进行分类的表情关键信息，从而提高了面部表情识别的识别精度。总的来说，本发明所提供的基于残差注意力机制的面部表情识别方法，能够提高面部表情识别的识别精度和识别速度。

(2)本发明所提供的基于残差注意力机制的面部表情识别方法，在面部表情识别模型的降采样特征提取结构中，通过融合L2-SVM损失和Center损失计算损失值，能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点，使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合，提高模型的泛化能力。

(3)本发明所提供的基于残差注意力机制的面部表情识别方法，本发明在进行面部表情识别模型进行训练时，会先通过人脸区域校正以得到正脸图像，由此能够保证训练得到的模型具有较高的识别精度；在进行人脸区域校正后，通过旋转操作等进行数据集增强，保证了所得到的训练数据集中包含有不同头部姿势的人脸图像，从而能够提高训练得到的面部表情识别模型的泛化能力。

(4)本发明所提供的基于残差注意力机制的面部表情识别方法，面部表情识别的识别速度得到了极大的提高，能够满足实时性任务的要求，因此，本发明能够对实时性要求较高的视频进行处理，实时识别出其中各帧图像的面部表情类别。

附图说明

图1为本发明实施例提供的基于残差注意力机制的面部表情识别方法示意图；

图2为本发明实施例提供的面部表情识别模型结构示意图；

图3为本发明实施例提供的降采样特征提取结构示意图；

图4为本发明实施例提供的残差注意力结构示意图；

图5为本发明实施例提供的利用训练数据集训练面部表情识别模型的流程图；

图6为本发明实施例提供的不同面部表情识别方法的识别结果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于残差注意力机制的面部表情识别方法，如图1所示，包括：

在一个可选的实施方式中，可利用MTCNN算法从目标图像中提取包含人脸区域的目标框；

面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层，具体如图2所示；降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取，以得到粗糙特征图；残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取，以得到精细特征图，并在通道域上对输入的特征图提取感兴趣特征，以得到关键特征图，以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加，从而得到残差特征图；第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图，第2～m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图；融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值，以根据该损失值预测面部表情类别；

其中，小卷积块中各卷积层的卷积核不大于3×3，m≥2。

上述基于残差注意力机制的面部表情识别方法，在面部表情识别模型的降采样特征提取结构中，利用小卷积块对包含人脸区域的目标框进行特征提取，能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的；在面部表情识别模型的残差注意力结构中，一方面利用深度可分离卷积结构做进一步的面部表情特征提取，能够对卷积神经网络(CNN)进行压缩，从而降低模型大小，提高面部表情识别的识别速度；另一方面通过残差注意力机制，获取到了能够进行分类的表情关键信息，从而提高了面部表情识别的识别精度。总的来说，上述基于残差注意力机制的面部表情识别方法，能够提高面部表情识别的识别精度和识别速度。

在一个可选的实施方式中，如图1所示，降采样特征提取结构包括：一个或多个依次连接的小卷积块，以及一个全局最大池化层；

小卷积块用于进行特征提取，全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度，以得到粗糙特征图；

在本实施例中，降采样特征提取结构如图3所示，具体包括3个卷积块，第一个小卷积块由16个卷积层构成，各卷积层的卷积核大小均为3×3，步长为1；第二个小卷积块由32个卷积层构成，各卷积层的卷积核大小均为3×3，步长为1；第三个小卷积块由64个卷积层构成，各卷积层的卷积核大小均为3×3，步长为1；全局最大池化层(Max Pooling)具体为2×2最大池化层，步长为2；

应当理解的是，图3所示的具体结构仅为一种示例性的说明，不应理解为对本发明的唯一限定。

在一个可选的实施方式中，如图1所示，残差注意力结构包括：主干分支、掩膜分支以及特征融合层；

主干分支包括：一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层；深度可分离卷积结构用于对输入的特征图进行特征提取，最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度，从而得到精细特征图；作为优选地，可采用Xception作为主干分支中的深度可分离卷积结构；

掩膜分支包括：一个小卷积块、一个SE结构以及两个相连的全连接层(FC1和FC2)；小卷积块用于对输入的特征图进行降采样，SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征，全连接层用于调整感兴趣特征的通道数，从而得到关键特征图；

特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后，与精细特征图叠加，从而得到残差特征图；

在本实施例中，如图4所示，主干分支包括两个Xception和一个全局最大池化层；掩膜分支对输入的特征图X进行一次前向卷积降采样操作，将s×s窗口内的矩阵图像变为一个像素，使得维数很大的特征图矩阵通过一个隐层映射到一个维数较小的特征图X′，之后使用SE(squeeze and excitation)结构块在通道域上提取特征图的感兴趣信息，并利用全连接层用于调整感兴趣特征的通道数，从而得到关键特征图；

应当理解的是，图4所示的具体结构仅为一种示例性的说明，不应理解为对本发明的唯一限定。

在一个可选的实施方式中，融合损失层所获取的损失值融合了L2-SVM损失与Center损失，其计算方式为：

L＝L_L2-SVM+λL_Center；

其中，L表示第m个残差注意力结构输出的残差特征图的损失值，L_L2-SVM和L_Center分别表示L2-SVM损失和Center损失，λ为用于平衡L2-SVM损失与Center损失的平衡因子，λ越大则区分度越大；

其中，

i表示训练数据集中的训练样本序号，N表示训练样本总数，x_i表示人脸图像，y_i表示对应的面部表情的真实类别标签；(x_i,y_i)为给出的训练数据与真实标签对；C₀＞0用来调节错分样本的错误比重；y_i[wx_i+b]>1-ξ_i,ξ_i≥0，ξ_i为松弛因子，代表错分样本的错误程度；W₀表示超平面法向量的集合，w为最优超平面法向量；b为最优超平面阈值；cy_i表示第i个样本对应的类别y_i所属类中心。

由于模型得到了压缩，上述基于残差注意力机制的面部表情识别方法，为一种轻量级的方法，识别速度大为提高，可满足实时性任务的要求；在实时处理视频时，上述基于残差注意力机制的面部表情识别方法，还包括：

如图1所示，在一个可选的实施方式中，面部表情识别模型的离线训练方法包括：

在本实施例中，所选用的面部表情数据集为FER2013，该数据集图像来源网络爬虫爬取网上有语义的图片，具体由35886张人脸表情图片组成，图像格式均为JPG；在该数据集中，具体的表情类别标签包括：生气(angry)、厌恶(disgust)、害怕(fear)、高兴(happy)、伤心(sad)、惊讶(surprise)以及自然(neutral)；

作为优选地，步骤(T1)可通过MTCNN算法在提取到人脸区域的同时，获取到双眼关键点的位置，从而加快数据集的预处理过程；

在一个可选的实施方式中，步骤(2)具体包括：

对于任意一个样本

获得人脸左眼中心位置(x_{l_i},y_{l_i})和右眼中心位置(x_{r_i},y_{r_i})，使用反正切函数

计算图片的倾斜度θ；以双眼的位置中心为中心对图片进行仿射变换，从而完成面部区域校正，得到对应的正脸图像；仿射变换公式如下所示：

其中，

和

分别表示仿射变换前、后的样本，

表示偏移量，T表示与倾斜度θ有关的仿射矩阵；

通过人脸区域校正以得到正脸图像，由此能够保证训练得到的模型具有较高的识别精度；

(T3)对基础数据集进行数据集增强，以得到训练数据集；

其中，数据集增强包括旋转操作；

通过旋转操作等进行数据集增强，保证了所得到的训练数据集中包含有不同头部姿势的人脸图像，从而能够提高训练得到的面部表情识别模型的泛化能力；

在一个可选的实施方式中，如图5所示，利用训练数据集对面部表情识别模型进行训练，具体包括：

(T41)将训练数据集进一步划分为多组小样本集；

(T42)每次选择一组小样本集用来训练，设置基础学习率为1e-2并且训练过程中每25组小样本集损失函数不再提升则衰减为原来的0.1倍，训练的最大迭代次数为300；

(T43)将样本输入面部表情识别模型，前向传播计算面部表情识别模型各层的值，通过设计的融合损失函数得到网络的损失值；

(T44)若未达到预定的总迭代数300次，则继续步骤(T45)，否则训练结束；

(T45)反向逐层采用梯度下降算法更新面部表情识别模型各层，根据如下公式计算融合损失函数的导数：

其中，

当y_i＝j时，δ(y_i＝j)为1，否则为0。

本发明还提供了一种基于残差注意力机制的面部表情识别系统，包括：目标框提取模块和面部表情识别模块；

其中，小卷积块中各卷积层的卷积核不大于3×3，m≥2；

在本发明实施例中，各模块的具体实施方式可参考上述方法实施例中的描述，在此将不作复述。

处理器用于调用计算机可读存储介质中存储的可执行程序代码，执行上述基于残差注意力机制的面部表情识别方法。

分别采用三种现有的面部表情识别方法(Multi-task convnet方法、TDNN方法、DNNRL方法)以及上述基于残差注意力机制的面部表情识别方法的对比FER2013数据集进行对比实验，数据集划分为训练集和测试集，其中训练集样本32297张，测试集样本3589张。相关的实验平台为：CPU Intel(R)Core^TMi5-7500CPU@3.40GHz，内存32G DDR4 2400MHz，GPUGeForce GTX 1080Ti，显存12G；操作系统Ubuntu 16.04LTS 64位，实验平台Keras、Visualstudio Code。

对于测试的结果，使用两种评价方式：

(1)准确率：用来度量分类器正确分类的性能。准确率的计算方式为：

其中，N表示测试数据集样本总数；当

时，

为1，否则为0。

(2)混淆矩阵(confusion matrix)：每一列代表预测类别，每一列的总数表示为预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。

各方法的准确率如表1所示。其中，各表情均以相应英文名称的前两个字母代替；需要说明的是，由于在FER2013数据集中，厌恶类别所对应的样本数过少，因此，在利用本发明所提供的基于残差注意机制的面部表情识别方法进行识别时，将厌恶类别合并到了生气类别中。根据表1所示的测试结果，对比分析可知，本发明提出的表情识别方法既达到了本文所提出的轻量级的目的，又提高了一定得准确度。

表1各面部表情识别方法的识别准确度

各方法生成的混淆矩阵如图6所示，从图中可以看出，对于高兴、惊讶和自然这三种表情的识别准确率比较高，尤其是对高兴的表情识别准确度基本都有90％以上。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差注意力机制的面部表情识别方法，其特征在于，包括：

(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别，从而识别出所述目标图像中人脸的面部表情类别；

所述面部表情识别模型包括一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层；所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取，以得到粗糙特征图；所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取，以得到精细特征图，并在通道域上对输入的特征图提取感兴趣特征，以得到关键特征图，以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加，从而得到残差特征图；第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图，第2～m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图；所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值，以根据该损失值预测面部表情类别；

其中，所述小卷积块中各卷积层的卷积核不大于3×3，m≥2；所述融合损失层所获取的损失值为：L＝L_L2-SVM+λL_Center，L表示第m个残差注意力结构输出的残差特征图的损失值，L_L2-SVM和L_Center分别表示L2-SVM损失和Center损失，λ为用于平衡L2-SVM损失与Center损失的平衡因子。

2.如权利要求1所述的基于残差注意力机制的面部表情识别方法，其特征在于，所述降采样特征提取结构包括：一个或多个依次连接的小卷积块，以及一个全局最大池化层；

小卷积块用于进行特征提取，全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度，以得到所述粗糙特征图。

3.如权利要求1所述的基于残差注意力机制的面部表情识别方法，其特征在于，所述残差注意力结构包括：主干分支、掩膜分支以及特征融合层；

所述主干分支包括：一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层；深度可分离卷积结构用于对输入的特征图进行特征提取，最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度，从而得到精细特征图；

所述掩膜分支包括：一个小卷积块、一个SE结构以及两个相连的全连接层；小卷积块用于对输入的特征图进行降采样，SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征，全连接层用于调整感兴趣特征的通道数，从而得到关键特征图；

所述特征融合层用于将所述主干分支所提取的精细特征图与所述掩膜分支所提取的关键特征图点乘后，与精细特征图叠加，从而得到残差特征图。

4.如权利要求3所述的基于残差注意力机制的面部表情识别方法，其特征在于，所述深度可分离卷积结构为Xception。

5.如权利要求1所述的基于残差注意力机制的面部表情识别方法，其特征在于，还包括：

对于待处理的视频，在实时获取到每一帧图像后，将其作为待识别的目标图像，并执行步骤(1)～(2)，以实时识别所述待处理的视频中各帧图像的面部表情类别。

6.如权利要求1-5任一项所述的基于残差注意力机制的面部表情识别方法，其特征在于，所述面部表情识别模型的离线训练方法包括：

(T3)对所述基础数据集进行数据集增强，以得到训练数据集；

(T4)建立所述面部表情识别模型，并利用所述训练数据集对所述面部表情识别模型进行训练，以得到训练好的面部表情识别模型；

其中，所述数据集增强包括旋转操作。

7.如权利要求6所述的基于残差注意力机制的面部表情识别方法，其特征在于，所述步骤(T1)通过MTCNN算法在提取到人脸区域的同时，获取到双眼关键点的位置。

8.一种基于残差注意力机制的面部表情识别系统，其特征在于，包括：目标框提取模块和面部表情识别模块；

所述目标框提取模块，用于从待识别的目标图像中提取包含人脸区域的目标框，并对所提取的目标框进行特征归一化处理；

所述面部表情识别模块，用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别，从而识别出所述目标图像中人脸的面部表情类别；

所述面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层；所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取，以得到粗糙特征图；所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取，以得到精细特征图，并在通道域上对输入的特征图提取感兴趣特征，以得到关键特征图，以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加，从而得到残差特征图；第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图，第2～m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图；所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值，以根据该损失值预测面部表情类别；

9.一种系统，包括处理器和计算机可读存储介质；其特征在于，所述计算机可读存储介质存储有可执行程序代码；

所述处理器用于调用所述计算机可读存储介质中存储的所述可执行程序代码，执行权利要求1-7任一项所述的基于残差注意力机制的面部表情识别方法。