CN114155572A

CN114155572A - 一种面部表情识别方法和系统

Info

Publication number: CN114155572A
Application number: CN202111302276.1A
Authority: CN
Inventors: 刘三女牙; 杨宗凯; 何自力; 朱晓亮; 戴志诚; 赵亮
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-08

Abstract

本发明公开了一种面部表情识别方法及系统，属于表情识别技术领域，包括：视频数据处理得到人脸图像帧数据集；将各人脸图像帧输入到残差网络提取面部表情纹理特征和局部细腻度特征；将面部表情纹理特征输入特征金字塔模块获得多尺度立体空间特征，将其叠加局部细腻度特征，得到多尺度及空间上下文特征；将多尺度及空间上下文特征输入双重级联模块获得全局关键空间域上下文特征；将全局关键空间域上下文特征输入循环神经网络，提取包含时间特征的多重上下文特征；将多重上下文特征输入到全连接层，对面部表情进行分类识别。本发明能够有效提高面部表情识别的准确率。

Description

一种面部表情识别方法和系统

技术领域

本发明属于表情识别技术领域，更具体地，涉及一种面部表情识别方法及系统。

背景技术

面部表情是非语言交际的一种形式，它是表达人类之间的社会信息的主要手段，是一种生理及心理的反应，通常用于传递情感。面部表情识别技术主要的应用领域包括智能控制、安全、医疗、通信、教育等领域。

目前面部表情识别技术主要有两大分支，分别是静态的面部表情帧识别和动态的含有面部表情的视频识别。现有的人脸表情识别大多是使用静态的面部表情帧识别，即通过视频帧提取手段，采集面部表情帧后提取人脸表情相关特征(如：眼部区域的眼睛、眉毛的动作以及嘴部区域的动作或者是两侧脸颊的微小动作特征)，分类其面部表情。静态面部表情识别只考虑当前图像特征，但面部表情是一个动态变化的过程，静态图片识别忽略了表情在时间维度和空间维度上的变化，存在局限性。

目前基于静态图像面部识别的主流方法为卷积神经网络(CNN网络)，CNN网络是使用卷积操作对人脸图像进行特征的提取。通过CNN网络的卷积操作能够在浅层学习到颜色、边缘等低层次的特征，在网络的中间层学习的特征会稍微变得复杂，会学到一些纹理特征(如：网格纹理特征)，在网络的高层就会学习有区别性的关键特征。但是在CNN网络学习时，只能对于人脸图像的局部特征进行学习，不能对图像的整体空间域特征进行学习，缺乏图像的上下文信息。如果CNN网络的层数过高，会导致梯度消失或者梯度爆炸等问题，且CNN网络不能很好的抑制影响人脸表情识别的因素。

残差网络是卷积神经网络的一种，特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失和梯度爆炸的问题，在一定程度上解决了网络退化的问题。全连接层(fullyconnected layers，FC)在整个卷积神经网络中起到“分类器”的作用，全连接层则起到将学到的“特征表示”映射到样本标记空间的作用。

特征金字塔(Feature Pyramid)是用于检测不同尺度的对象的识别系统中的基本组件。在多尺度上识别目标是计算机视觉的一个挑战，通过提取多尺度的特征信息进行融合，进而提高模型精度。特征金字塔在目标检测、实例分割、姿态识别、面部识别等领域均有广泛的应用。

综上，虽然现有的技术能够获得较好的识别性能，但仍有不足。许多方法是对实验诱导出的表情数据来进行验证方法的效果，但在提高人脸表情识别的准确率上有极大的困难。在此背景下，克服上述因素的影响，增加方法的鲁棒性是实验条件下的面部表情识别的一个重大问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种面部表情识别方法及系统，旨在解决现有的面部表情识别准确率的问题。

为实现上述目的，第一方面本发明提供了一种面部表情识别方法，包括如下步骤：

(1)视频数据处理步骤：对视频数据进行帧提取操作，得到一组单个图像帧，并对各图像帧提取关键特征点，基于关键特征点位置坐标对各图像帧进行矫正和对齐，生成人脸图像帧数据集，以下步骤均针对人脸图像帧数据集中各人脸图像帧进行处理；

(2)面部表情特征提取步骤：将人脸图像帧输入到残差网络中，提取面部表情纹理特征和局部细腻度特征；

(3)多尺度及空间上下文特征提取步骤：对面部表情纹理特征进行特征金字塔提取操作，获取多尺度立体空间特征；将其与局部细腻度特征叠加融合，得到多尺度及空间上下文特征；

(4)全局关键空间域上下文特征提取步骤：将多尺度及空间上下文特征直接或压缩后输入到自注意力和空间注意力中依次进行处理，获得全局关键空间域上下文特征；

(5)时间特征提取步骤：将全局关键空间域上下文特征输入到循环神经网络，提取包括时间上下文的面部表情多重上下文特征；

(6)面部表情识别步骤：将提取的面部表情多重上下文特征输入到全连接层，在全连接层中使用概率分布计算方式对面部表情进行分类识别。

在一个可选的实施例中，所述视频数据处理步骤，包括如下子步骤：

(1.1)图像帧提取子步骤：将视频数据分离成一组单个图像帧，对其进行间隔提取后保存为关键图像帧；

(1.2)关键特征点提取子步骤：检测提取出来的关键图像帧，得到人脸检测矩形框四个端点和关键特征点的位置坐标，使用人脸检测矩形框对关键图像帧进行裁剪，得到人脸图像帧；所述关键特征点分别位于眼睛、鼻子、嘴角区域；

(1.3)人脸对齐子步骤：基于关键特征点对人脸进行矫正，使得两只眼睛坐标连线与水平坐标轴平行，以第一张人脸图像帧的关键特征点坐标为基准，将后续人脸图像帧的关键特征点对齐在同一水平线上。

(1.4)生成人脸图像帧数据集子步骤：将各人脸图像帧调整为统一的尺寸并进行归一化处理，得到人脸图像帧数据集。

在一个可选的实施例中，所述面部表情特征提取步骤，具体为：

将人脸图像帧输入到残差网络中，得到一组从初级别层次到高级别层次的面部表情特征，包括初级别层次的面部表情的颜色和边缘特征，中级别层次的面部表情纹理特征，以及高级别的局部细腻度特征。

在一个可选的实施例中，所述多尺度及空间上下文特征提取步骤，包括如下子步骤：

(3.1)获得不同尺度大小特征图子步骤：将面部表情纹理特征缩放成多个不同尺度大小的特征图；

(3.2)获得多尺度立体空间特征子步骤：将不同尺度大小的特征图输入到尺度不可知注意力中进行处理，获取不同尺度大小特征图的空间上下文特征，所述尺度不可知注意力是利用不同尺度上的特征相似性对不同尺度的空间上下文特征进行加权；每个大尺度特征图的空间上下文特征也会输入到相邻的小尺度特征图所连接的尺度不可知注意力中进行处理，得到多尺度立体空间特征；

(3.3)获得多尺度及空间上下文特征子步骤：将多尺度立体空间特征和局部细腻度特征叠加融合，得到多尺度及空间上下文特征。

在一个可选的实施例中，所述全局关键空间域上下文特征提取步骤，包括如下子步骤：

(4.1)自注意力处理子步骤。将多尺度及空间上下文特征输入到自注意力中进行线性层操作，得到自注意力权重，将权重分配给多尺度及空间上下文特征，得到新的多尺度及空间上下文特征；

(4.2)空间注意力处理子步骤。将新的多尺度及空间上下文特征输入到空间注意力中进行卷积和平均池化操作，提取帧维度上的空间注意力权重，并对多个图像帧的特征进行融合，计算相邻帧间的表情变化，得到全局关键空间域上下文特征。

在一个可选的实施例中，所述步骤(3)中，将多尺度及空间上下文特征压缩后输入到自注意力和空间注意力中依次进行处理，所述压缩具体为：

将步骤(3)输出的多尺度及空间上下文特征输入到全局平均池化层中进行特征压缩，得到压缩后的多尺度及空间上下文特征。

第二方面，本发明提供了一种面部表情识别系统，包括如下单元：

视频数据处理单元：对视频数据进行帧提取操作，得到一组单个图像帧，并对各图像帧提取关键特征点，基于关键特征点位置坐标对各图像帧进行矫正和对齐，生成人脸图像帧数据集，以下单元均针对人脸图像帧数据集中各人脸图像帧进行处理；

面部表情特征提取单元：将人脸图像帧输入到残差网络中，提取面部表情纹理特征和局部细腻度特征；

多尺度及空间上下文特征提取单元：对面部表情纹理特征进行特征金字塔提取操作，获取多尺度立体空间特征；将其与局部细腻度特征叠加融合，得到多尺度及空间上下文特征；

全局关键空间域上下文特征提取单元：将多尺度及空间上下文特征直接或压缩后输入到自注意力和空间注意力中依次进行处理，获得全局关键空间域上下文特征；

时间特征提取单元：将全局关键空间域上下文特征输入到循环神经网络，提取包括时间上下文的面部表情多重上下文特征；

面部表情识别单元：将提取的面部表情多重上下文特征输入到全连接层，在全连接层中使用概率分布计算方式对面部表情进行分类识别。

在一个可选的实施例中，所述视频数据处理单元，包括以下子单元：

图像帧提取子单元：将视频数据分离成一组单个图像帧，对其进行间隔提取后保存为关键图像帧；

关键特征点提取子单元：检测提取出来的关键图像帧，得到人脸检测矩形框四个端点和关键特征点的位置坐标，使用人脸检测矩形框对关键图像帧进行裁剪，得到人脸图像帧；所述关键特征点分别位于眼睛、鼻子、嘴角区域；

人脸对齐子单元：基于关键特征点对人脸进行矫正，使得两只眼睛坐标连线与水平坐标轴平行，以第一张人脸图像帧的关键特征点坐标为基准，将后续人脸图像帧的关键特征点对齐在同一水平线上。

生成人脸图像帧数据集子单元：将各人脸图像帧调整为统一的尺寸并进行归一化处理，得到人脸图像帧数据集。

在一个可选的实施例中，所述全局关键空间域上下文特征提取单元，包括如下子单元：

自注意力处理子单元：将多尺度及空间上下文特征输入到自注意力子单元，利用线性层操作得到自注意力权重，将权重分配给多尺度及空间上下文特征，得到新的多尺度及空间上下文特征；

空间注意力处理子单元：将新的多尺度及空间上下文特征输入到空间注意力子单元进行卷积和平均池化操作，提取帧维度上的空间注意力权重，并对多个图像帧的特征进行融合，计算相邻帧间的表情变化，得到全局关键空间域上下文特征。

在一个可选的实施例中，所述全局关键空间域上下文特征提取单元中，将多尺度及空间上下文特征压缩后输入到自注意力和空间注意力中依次进行处理，所述压缩具体为：

将多尺度及空间上下文特征提取单元输出的多尺度及空间上下文特征输入到全局平均池化层中进行特征压缩，得到压缩后的多尺度及空间上下文特征。

通过本发明构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供了一种面部表情识别方法及系统，通过残差网络提取面部表情纹理特征和局部细腻度特征，将面部纹理特征输入到特征金字塔提取模块得到多尺度立体空间特征，将其和局部细腻度特征融合，突出关键区域，消除无关的干扰特征，获取更丰富的面部表情特征。本发明将自注意力和空间注意力加入到卷积神经网络模型中，并融合特征金字塔模块提取的多尺度立体空间特征，有效提高了在受多重因素影响下的面部表情识别准确率。

附图说明

图1为本发明的面部表情识别方法的流程图；

图2为本发明实施例的流程图；

图3为本发明实施例提供的特征金字塔提取模块结构图；

图4为本发明实施例提供的自注意力和空间注意力结构图；

图5为本发明实施例提供的方法在CK+数据集上表情分类混淆矩阵结果图；

图6为本发明实施例提供的方法在JAFFE数据集上表情分类混淆矩阵结果图；

图7为本发明实施例提供的方法在Oulu-CASIA数据集上表情分类混淆矩阵结果图；

图8为本发明的面部表情识别系统的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明的面部表情识别方法流程图，如图1所示，包括如下步骤：

具体地，本发明提供的面部表情识别方法，以下是详细的技术方案，图2是本发明实施例的流程图；如图2所示，包括如下步骤：

(1)视频数据处理步骤：对视频数据进行帧提取操作，得到一组单个图像帧，并对各图像帧提取关键特征点，基于关键特征点位置坐标对各图像帧进行矫正和对齐，生成人脸图像帧数据集。

(1.1)图像帧提取子步骤：使用开源的多媒体工具库FFmpeg将视频数据分离成一组单个图像帧，对其间隔5帧提取并保存为关键图像帧。

(1.2)关键特征点提取子步骤：使用MTCNN方法将关键图像帧中图片不断进行Resize操作，得到大小不同的图片，将这些图片堆叠起来，形成一个图片金字塔并将其输入到PNet网络中得到人脸的候选例，随后通过分类得分和NMS方法对候选例进行筛选，得到大于设定阈值的候选例；将PNet中得到的候选例输入到RNet进行精调，运用分类得分和NMS方法和更高的阈值筛选候选例，RNet避免了人脸图像的形变并保留了更多细节；将RNet筛选后的候选例输入到ONet中，经过分类得分和NMS方法输出人脸检测矩形框四个端点坐标序列bounding_box^t和五个关键特征点(分别对应左侧眼睛、右侧眼睛、鼻子，左侧嘴角，右侧嘴角)坐标序列p^t：

其中，t为关键图像帧序号，bounding_box ^t[k]为第t帧中人脸矩形框端点坐标，0≤k≤3；

为第t帧中关键特征点位置坐标，1≤i≤5。

(1.3)人脸对齐子步骤：基于人脸检测矩形框的四个端点位置坐标对关键图像帧进行裁剪得到人脸图像帧；基于关键特征点对人脸进行矫正，使得两只眼睛坐标连线与水平坐标轴平行；以第一个人脸图像帧中关键特征点坐标为基准，将后续人脸图像帧中关键特征点对齐在同一水平线上。

(1.4)生成人脸图像帧数据集子步骤：将对齐后的人脸图像帧使用Pytorch框架中的transforms方法调整为256×256尺寸，再使用中心裁剪的方法将人脸图像帧调整为224×224尺寸，对人脸图像帧RGB三原色通道进行归一化整理到[-1，1]区间，得到归一化后的人脸图像帧x^t：

mean(x)＝[0.485，0.456，0.406]，std(x)＝[0.229，0.224，0.225]

其中，mean(x)为三个颜色通道均值，std(x)为各通道标准差。

使用Pytorch框架中的Dataloader方法将归一化的人脸图像帧封装成一个数据迭代器，得到人脸图像帧数据集dataloader：

dataloader＝Dataloader(dataset(x^t)，batchsize，transforms)

其中，Dataloader为设置为batchsize大小、数据处理及归一化操作，dataset(x^t)对齐后的人脸图像帧，batchsize为一次训练回合的数据量，transforms为人脸图像帧裁剪和归一化的方法。

(2)面部表情特征提取步骤：将人脸图像帧数据集dataloader输入到残差网络中，提取人脸图像帧中面部表情特征，得到提取的特征数据F(x^t)：

F(x^t)＝ResNet(dataloader)

其中，ResNet代表50层的残差网络，普通的残差网络都因为层次太深而导致的梯度消失和梯度爆炸问题所困扰，但是50层的残差网络使用了shortcut连接的残差块巧妙地解决了梯度消失和梯度爆炸的问题，在网络中还使用Batch Normalization层和L2正则化以防止网络过拟合等问题。

(3)多尺度及空间上下文特征提取步骤：对面部表情纹理特征进行特征金字塔提取操作，获取多尺度立体空间特征；将其与局部细腻度特征叠加融合，得到多尺度及空间上下文特征。

(3.1)获得不同尺度大小特征图子步骤：图3是本发明实施例提供的特征金字塔提取模块的结构图；如图3所示，将残差网络输出的局部纹理特征图放缩成五个不同尺度大小特征图{S¹；...；S⁵}。

(3.2)获得多尺度立体空间特征子步骤：将不同尺度大小的特征图分别输入到尺度不可知注意力中，获取不同尺度大小特征图的空间上下文特征，同时大尺度特征图的空间上下文特征也会输入到相邻的小尺度所连接的尺度不可知注意力中得到多尺度立体空间特征F_pa(F_C3-layer(x^t))：

其中，σ表示sigmoid函数，Sⁱ表示缩放的第i个特征图，F_C3-layer(x^t)代表面部表情纹理特征，m代表着放缩尺度的数量，φ代表不同尺度大小特征图空间上下文特征函数，z^j代表不同尺度大小特征图的区域特征，θ代表不同尺度大小特征图中不同区域上下文特征的相关性权重。

(3.3)获得多尺度及空间上下文特征子步骤：将输出的多尺度立体空间特征与局部细腻度特征F_C4-layer(x^t)进行叠加融合操作，得到多尺度及空间上下文特征F_pc(x^t)：

其中，

代表着特征的叠加操作。

(4)特征压缩步骤：将多尺度及空间上下文特征输入到全局平均池化层中进行特征压缩，得到压缩后的多尺度及空间上下文特征。

(5)全局关键空间域上下文特征提取步骤：将压缩后的多尺度及空间上下文特征输入到目注意力和空间注意力中依次进行处理，获得全局关键空间域上下文特征。

(5.1)自注意力处理子步骤：图4是本发明实施例提供的自注意力和空间注意力的结构图。如图4所示，将多尺度及空间上下文特征输入到自注意力中利用线性层操作，得到自注意力权重AC^t(F_pc(x^t))：

AC^t(F_pc(x^t))＝σ(Linear(F_pc(x^t)))

其中，Linear代表线性层操作。

将得到的自注意力权重对输入特征进行加权，得到新的多尺度及空间上下文特征FC^t(F_pc(x^t))：

其中，t代表人脸图像帧的序号，此处人脸图像帧序号和关键特征点提取子步骤种关键图像帧序号保持一致，n代表人脸图像帧数据集的总帧数。

(5.2)空间注意力处理子步骤：将其输入到空间注意力中进行卷积和平均池化操作，得到空间注意力权重AS^t(F_pc(x^t))，

AS^t(F_pc(x^t))＝σ(f¹(AvgPool(FC^t(F_pc(x^t)))))

其中，f¹代表卷积运算，Avgpool代表平均池化操作。

对空间注意力权重进行加权计算得到全局关键空间域上下文特征FS^t(F_pc(x^t))：

(6)时间特征提取步骤：本发明选用门控制循环单元(GRU)做为循环神经网络提取时间特征，门控制循环单元相较于其他循环神经网络结构模型更简单，尤其在网络较深的模型中；GRU通过一个门控就可以同时进行遗忘和选择记忆，参数上明显缩减且效率更高。将全局关键空间域上下文特征FS^t(F_pc(x^t))输入到GRU得到包括时间上下文的面部表情多重上下文特征Y^t：

Y^t＝GRU(FS^t(F_pc(x^t)))

(7)面部表情识别步骤：通过GRU单元得到的特征Y^t输入到全连接层，通过全连接层Sigmoid函数的计算，得到最终的面部表情分类结果。

经过上述的步骤，实现人脸图像帧的面部表情识别。在网络训练过程中使用了交叉熵损失作为损失函数，通过随机梯度下降优化器(SGD)对损失函数值进行优化，使用sigmoid作为激活函数，权值衰减超参数设置为1e-4，学习率初始值为0.001，在网络训练过程中对学习率进行了动态调整，最终达到了最优结果。

本发明方法采用准确率、混淆矩阵、受试者工作特征曲线(Receiver operatingcharacteristic curve，ROC)面积作为面部表情识别的具体评价指标。其中准确率值和受试者工作特征曲线ROC面积越大，说明识别性能越好；混淆矩阵是用来进行准确度评价的一种指标，用于比较预测结果和真实分类值，得到每种表情的预测准确率。

图5是本发明方法在CK+数据集上表情分类混淆矩阵结果图。图6是本发明方法在JAFFE数据集上表情分类混淆矩阵结果图，图7是本发明方法在Oulu-CASIA数据集上表情分类混淆矩阵结果图。其中，CK+数据集和JAFFE数据集均包括七种面部表情，Oulu-CASIA数据集包括六种面部表情。采用五折交叉验证得到平均结果作为本发明方法在各数据集上的准确率，所述五折交叉验证是把数据集平均分成5等份，每次实验拿一份做测试，其余用做训练，实验5次求平均值。

具体地，本发明方法在CK+数据集上通过五折交叉验证得到的平均结果和其他方法准确率对比如表1所示：

表1：CK+数据集上各方法准确率对比表

具体地，本发明方法在JAFFE数据集上通过五折交叉验证实验得到的平均结果和其他方法准确率对比如表2所示：

表2：JAFFE数据集上各方法准确率对比表

具体地，本发明方法在Oulu-CASIA数据集上通过五折交叉验证实验得到的平均结果和其他方法准确率对比如表3所示：

表3：Oulu-CASIA数据集上各方法准确率对比表

由表1，2，3可知，本发明构建的面部表情识别方法在三个数据集上的性能都能达到较优的水平。

表4是本发明在三个数据集上的ROC面积，ROC曲线是衡量深度学习方法优劣的性能指标之一。ROC面积在0.5和1之间，面积越大则说明方法效果越好。由表4可以看出本发明方法在三个数据集上的ROC面积均远大于0.5，说明本方法对面部表情识别的分类效果达到了较优水平。

表4：不同数据集上的ROC面积

图8是本发明实施例提供的面部表情识别系统的流程图。如图8所示，包括如下单元：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面部表情识别方法，其特征在于，依次包括如下步骤：

(1)视频数据处理步骤：对视频数据进行帧提取操作，得到一组单个图像帧，并对各图像帧提取关键特征点，基于关键特征点位置坐标对各图像帧进行矫正和对齐，生成人脸图像帧数据集；

(2)面部表情特征提取步骤：将人脸图像帧数据集中各人脸图像帧输入到残差网络中，提取面部表情纹理特征和局部细腻度特征；

(3)多尺度及空间上下文特征提取步骤：对面部表情纹理特征进行特征金字塔提取操作，获取多尺度立体空间特征，将其与局部细腻度特征叠加融合，得到多尺度及空间上下文特征；

2.根据权利要求1所述的一种面部表情识别方法，其特征在于，所述视频数据处理步骤，包括如下子步骤：

(1.2)关键特征点提取子步骤：对关键图像帧提取人脸检测矩形框四个端点和关键特征点的位置坐标，使用人脸检测矩形框对关键图像帧进行裁剪，得到人脸图像帧；所述关键特征点分别位于眼睛、鼻子、嘴角区域；

(1.3)人脸对齐子步骤：基于关键特征点对人脸进行矫正，使得两只眼睛坐标连线与水平坐标轴平行，以第一张人脸图像帧的关键特征点坐标为基准，将后续人脸图像帧的关键特征点对齐在同一水平线上；

3.根据权利要求1所述的一种面部表情识别方法，其特征在于，所述面部表情特征提取步骤，具体为：

将人脸图像帧输入到残差网络中，得到一组面部表情特征，包括初级别层次的面部表情颜色和边缘特征，中级别层次的面部表情纹理特征，以及高级别的局部细腻度特征。

4.根据权利要求1所述的一种面部表情识别方法，其特征在于，所述多尺度及空间上下文特征提取步骤，包括如下子步骤：

5.根据权利要求1所述的一种面部表情识别方法，其特征在于，所述全局关键空间域上下文特征提取步骤，包括如下子步骤：

(4.1)自注意力处理子步骤：将多尺度及空间上下文特征输入到自注意力中进行线性层操作，得到自注意力权重，将权重分配给多尺度及空间上下文特征，得到新的多尺度及空间上下文特征；

(4.2)空间注意力处理子步骤：将新的多尺度及空间上下文特征输入到空间注意力中进行卷积和平均池化操作，提取帧维度上的空间注意力权重，并对多个图像帧的特征进行融合，计算相邻帧间的表情变化，得到全局关键空间域上下文特征。

6.根据权利要求1所述的一种面部表情识别方法，其特征在于，所述步骤(3)中，将多尺度及空间上下文特征压缩后输入到自注意力和空间注意力中依次进行处理，所述压缩具体为：

7.一种面部表情识别系统，其特征在于，包括如下单元：

8.根据权利要求7所述的一种面部表情识别系统，其特征在于，所述视频数据处理单元之后，还包括如下子单元：

9.根据权利要求7所述的一种面部表情识别系统，其特征在于，所述全局关键空间域上下文特征提取单元，包括如下子单元：

自注意力处理子单元：将多尺度及空间上下文特征输入到自注意力中进行线性层操作，得到自注意力权重，将权重分配给多尺度及空间上下文特征，得到新的多尺度及空间上下文特征；

空间注意力处理子单元：将新的多尺度及空间上下文特征输入到空间注意力中进行卷积和平均池化操作，提取帧维度上的空间注意力权重，并对多个图像帧的特征进行融合，计算相邻帧间的表情变化，得到全局关键空间域上下文特征。

10.根据权利要求7所述的一种面部表情识别方法，其特征在于，所述全局关键空间域上下文特征提取单元中，将多尺度及空间上下文特征压缩后输入到自注意力和空间注意力中依次进行处理，所述压缩具体为：