CN112381061B

CN112381061B - 一种面部表情识别方法及系统

Info

Publication number: CN112381061B
Application number: CN202011409778.XA
Authority: CN
Inventors: 薛健; 王聪; 吕科
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-07-12
Anticipated expiration: 2040-12-04
Also published as: CN112381061A

Abstract

本发明涉及一种面部表情识别方法及系统，其包括：采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；在人脸区域内检测出预先设定数量的人脸特征点；基于人脸特征点的坐标位置，计算并裁剪面部区域图像；将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出。本发明能够识别人类面部7类基本表情和1个中立表情，可在少量注意力模块嵌入的基础上，能够提高非受控环境下面部表情的识别精度；能广泛在计算机视觉技术领域中应用。

Description

一种面部表情识别方法及系统

技术领域

本发明涉及一种计算机视觉技术领域，特别是关于一种基于轻量化空间注意力模块嵌入的面部表情识别方法及系统。

背景技术

情感作为人类在交流沟通过程中传递的一类重要信息，可以帮助我们获得除语言文字内容以外的辅助信息，从而进行更为充分有效的交流。面部表情识别作为近年来情感分析中应用广泛的技术之一，通常采用的步骤是采集面部图像或视频序列，依次进行人脸检测(或跟踪定位)、特征提取，最终完成表情的预测。当前对于实验室可控场景下采集的人脸表情图像可达到比较好的识别效果，例如在CK+数据集上目前多数模型都可达到95％以上的准确率。但是，在实际应用场景下，数据采集环境多种多样，难以像实验室环境下对光照、头部姿态的变化控制在较小范围之内，甚至面部的遮挡也是难以避免的。

发明内容

针对上述问题，本发明的目的是提供一种面部表情识别方法及系统，其能有效解决非受控场景下由于光照不同、姿态差异、遮挡多样化等导致的人脸表情识别准确率不高的问题。

为实现上述目的，本发明采取以下技术方案：一种面部表情识别方法，其包括：步骤S1、采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；步骤S2、在人脸区域内检测出预先设定数量的人脸特征点；步骤S3、基于人脸特征点的坐标位置，计算并裁剪面部区域图像；步骤S4、将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出。

进一步，所述步骤S2中，预先设定数量为68组人脸特征点。

进一步，所述步骤S1中，人脸检测器采用OpenCV提供的基于ResNet10的深度神经网络进行人脸的检测和定位，首先将提取的视频帧缩放为300*300的尺寸，然后输入到读取的人脸检测网络模型中，输出结果为检测到人脸区域的左上角和右下角坐标，以及相应的置信度，根据置信度确定是否有人脸区域。

进一步，当置信度大于0.4时，则认为该区域内包含人脸图像。

进一步，基于68组人脸特征点的位置坐标计算面部区域范围，包括：

S31、初始化面部的大致范围；

S32、根据左右眼的特征点坐标估算出双眼眼距L，采用该眼距L对面部范围初始值进行修正；

S33、计算修正后的上下范围高度H，并计算初始化大致范围的左右宽度W，将左右范围分别扩充(H-W)/2的距离，如果超出图像范围，则对上下范围进行收缩，确保最终W和H相等，最终裁剪的面部范围为正方形。

进一步，所述步骤S31中，所述大致范围由第1和第17个特征点的x坐标、第9个特征点的y坐标，以及20和25特征点的y坐标中值确定。

进一步，所述步骤S32中，修正方法为：将初始化范围向上扩充L*3/4的距离，向下扩充L*1/2的距离，同时确保不超出采集图像的范围。

进一步，所述步骤S4中，基于轻量化空间注意力模块嵌入的面部表情识别网络模型包含低层特征提取卷积层、四组残差模块、空间注意力模块和分类层；

所述低层特征提取卷积层由一个5*5的卷积层，两个3*3的卷积层和一个3*3的最大池化层组成，其中每个卷积层均由卷积、归一化和Relu激活函数的固定结构组成；

每组所述残差模块都包括2个基本残差结构，每个所述基本残差结构由两个3*3的卷积层、跳连接和一个步长为2的1*1小卷积组成；

所述空间注意力模块具有两种结构SA_a和SA_b，其中SA_a结构嵌入到第1～3组残差模块，SA_b结构嵌入到第4组残差模块；

所述分类层包括一个7*7的全局平均池化层和8维输出的全联接层；表情分类计算出的结果为浮点值，最终的类别通过SoftMax归一化方法对该结果进行处理获得每一类表情的概率值，其中概率最大的表情类别为识别结果。

进一步，所述两种结构SA_a和SA_b对应的注意力图M_{SA_a}和M_{SA_b}分别为：

其中，AvgPool为通道维度的平均池化；

为包括5*5的卷积层，步长为2的maxpooling层，以及一个3*3的卷积层；

包含一个7*7的卷积层；σ表示Sigmoid激活函数，Upsample表示上采样；x为上一个残差模块的输出特征图。

一种面部表情识别系统，其包括：采集模块、特征点检测模块、裁剪模块和识别及输出模块；所述采集模块用于采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；所述特征点检测模块在人脸区域内检测出预先设定数量的人脸特征点；所述裁剪模块基于人脸特征点的坐标位置，计算并裁剪面部区域图像；所述识别及输出模块将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出。

本发明由于采取以上技术方案，其具有以下优点：本发明通过在残差模块之间而不是在残差模块内部嵌入空间注意力模块，少量的注意力模块嵌入可达到比较好的表情识别效果。本发明针对高层级和低层级的特征提取构建了不同的空间注意力模块结构，由于低层级计算的特征图具有更大的尺寸，为增加更多非线性，在构建时加入了降维和升维的处理过程。最终通过嵌入的空间注意力模块可以帮助模型在实际应用场景下提升表情相关区域的特征权重，以达到提高面部表情识别的精度的目的。

附图说明

图1是本发明实施例中识别方法的流程示意图。

图2是本发明实施例中模型训练流程示意图。

图3是本发明实施例中采用的68组人脸特征点位置示意图。

图4是本发明实施例中构建的轻量化空间注意力模块嵌入的面部表情识别模型结构图。

图5是本发明实施例中构建的两种空间注意力模块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明能够识别人类面部7类基本表情和1个中立表情。首先视频中提取每一帧图像，对每帧图像进行人脸检测和定位。接下来将裁剪后的人脸图像输入基于空间注意力模块和残差神经网络构建的面部表情识别网络进行表情的分类。该模型从低到高的神经网络层包括：低层特征提取卷积层、四组残差模块和空间注意力模块、全连接分类层。其中空间注意力模块有两种结构，分别用于低层和高层特征图的注意力加权。该方法可在少量注意力模块嵌入的基础上，能够提高非受控环境下面部表情的识别精度。

在本发明的第一实施方式中，如图1所示，提供一种基于轻量化空间注意力模块嵌入的面部表情识别方法，其包括：

步骤S1、采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；

在本实施例中，可以采用普通RGB摄像进行人脸视频采集；

步骤S2、在人脸区域内检测出预先设定数量的人脸特征点；

在本实施例中，预先设定数量为68组人脸特征点；

步骤S3、基于人脸特征点的坐标位置，计算并裁剪面部区域图像；

步骤S4、将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出；

在本实施例中，需要将面部区域图像缩放至面部表情识别网络模型要求的尺寸。

上述步骤S1中，人脸检测器采用OpenCV提供的基于ResNet10的深度神经网络进行人脸的检测和定位，首先将提取的视频帧缩放为300*300的尺寸，然后输入到读取的人脸检测网络模型中，输出结果为检测到人脸区域的左上角和右下角坐标，以及相应的置信度(0-1的浮点数)，根据置信度确定是否有人脸区域。在本实施例中，设定当置信度大于0.4时，则认为该区域内包含人脸图像。

上述步骤S2中，采用Dlib提供的人脸特征点检测器进行68组面部特征点的坐标定位。由于一帧图像中可能拍摄到多个人脸，本实施例中仅对检测到的人脸面积最大的区域进行特征点检测和最后的表情识别。

上述步骤S3中，如图3所示，基于68组人脸特征点的位置坐标计算面部区域范围，具体方法包括：

S31、初始化面部的大致范围；

具体的，该大致范围由第1和第17个特征点的x坐标、第9个特征点的y坐标，以及20和25特征点的y坐标中值确定。

具体修正方法为：将初始化范围向上扩充L*3/4的距离，向下扩充L*1/2的距离，同时确保不超出采集图像的范围。

S33、计算修正后的上下范围高度H，并计算初始化大致范围的左右宽度W，将左右范围分别扩充(H-W)/2的距离，如果超出图像范围，则对上下范围进行收缩，确保最终W和H相等，即最终裁剪的面部范围为正方形。

通过上述步骤S31～S33的处理，可以获得较大范围的人脸区域图像信息，有效避免了裁剪人脸范围只包含较小的面部区域，而缺少头部、下巴等其他脸部边缘可能被遮挡的部位。

上述步骤S4中，基于轻量化空间注意力模块嵌入的面部表情识别网络模型包含低层特征提取卷积层、四组残差模块、空间注意力模块和分类层，如图4所示。其中：

低层特征提取卷积层由一个5*5的卷积层(步长为2)，两个3*3的卷积层(步长为1)和一个3*3的最大池化层(步长为2)组成，其中每个卷积层均由卷积、归一化和Relu激活函数的固定结构组成。

每组残差模块都包括2个基本残差结构，每个基本残差结构由两个3*3的卷积层、跳连接和一个步长为2的1*1小卷积组成。

空间注意力模块具有两种结构SA_a和SA_b(如图5所示)，其中SA_a结构嵌入到第1～3组残差模块，SA_b结构嵌入到第4组残差模块，分别用于提取不同层级的空间注意力大小，对计算后的特征图进行注意力加权，帮助模型提高对表情相关区域特征的关注度。

两种结构SA_a和SA_b对应的注意力图M_{SA_a}和M_{SA_b}分别为：

其中，AvgPool为通道维度的平均池化，即将输入特征图压缩为单通道的二维矩阵；

为一系列计算过程，包括5*5的卷积层，步长为2的max pooling层，以及一个3*3的卷积层；

仅包含一个7*7的卷积层。σ表示Sigmoid激活函数，Upsample表示上采样。

注意力图M_{SA_a}和M_{SA_b}的不同在于注意力图M_{SA_a}在卷积之后多了一个上采样过程(Upsample)，其目的是恢复输出注意力特征图的空间大小为输入特征图的空间大小。最终获得的注意力掩膜为二维矩阵，具体为：

其中，F_SA代表空间注意力模块的加权计算过程，M_SA代表计算获得的二维空间注意力图，用于对人脸的不同区域进行注意力加权，x为上一个残差模块的输出特征图。

分类层包括一个7*7的全局平均池化层和8维输出的全联接层。表情分类计算出的结果为浮点值，最终的类别通过SoftMax归一化方法对该结果进行处理获得每一类表情的概率值，其中概率最大的表情类别即为识别结果。

上述步骤S4中，如图2所示，基于轻量化空间注意力模块嵌入的面部表情识别网络模型训练采用交叉墒损失函数进行参数优化。用于模型训练的面部表情数据集来自目前规模最大的非实验室条件下采集的人脸表情数据集AffectNet。其中表情标签为7类基本表情和1个中立表情(Neutral)。7类基本表情包括高兴(Happy)、伤心(Sad)、惊讶(Surprise)、恐惧(Fear),恶心(Disgust)、生气(Anger)以及蔑视(Contempt)。最终用于模型训练的训练集包括287651张图片，验证集包括4000张图片。训练结束后可获得相应的模型参数，最后通过输入裁剪并缩放至224*224尺寸后的面部图像，可输出8个表情类别的计算结果。

在本发明的第二实施方式中，提供一种面部表情识别系统，其包括：采集模块、特征点检测模块、裁剪模块和识别及输出模块；

采集模块用于采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；

特征点检测模块在人脸区域内检测出预先设定数量的人脸特征点；

裁剪模块基于人脸特征点的坐标位置，计算并裁剪面部区域图像；

识别及输出模块将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种面部表情识别方法，其特征在于，包括：

步骤S2、在人脸区域内检测出预先设定数量的人脸特征点；

所述步骤S4中，基于轻量化空间注意力模块嵌入的面部表情识别网络模型包含低层特征提取卷积层、四组残差模块、空间注意力模块和分类层；

所述分类层包括一个7*7的全局平均池化层和8维输出的全联接层；表情分类计算出的结果为浮点值，最终的类别通过SoftMax归一化方法对该结果进行处理获得每一类表情的概率值，其中概率最大的表情类别为识别结果；

所述两种结构SA_a和SA_b对应的注意力图M_{SA_a}和M_{SA_b}分别为：

其中，AvgPool为通道维度的平均池化；

2.如权利要求1所述识别方法，其特征在于，所述步骤S2中，预先设定数量为68组人脸特征点。

3.如权利要求1所述识别方法，其特征在于，所述步骤S1中，人脸检测器采用OpenCV提供的基于ResNet10的深度神经网络进行人脸的检测和定位，首先将提取的视频帧缩放为300*300的尺寸，然后输入到读取的人脸检测网络模型中，输出结果为检测到人脸区域的左上角和右下角坐标，以及相应的置信度，根据置信度确定是否有人脸区域。

4.如权利要求3所述识别方法，其特征在于，当置信度大于0.4时，则认为该区域内包含人脸图像。

5.如权利要求2所述识别方法，其特征在于，基于68组人脸特征点的位置坐标计算面部区域范围，包括：

S31、初始化面部的大致范围；

6.如权利要求5所述识别方法，其特征在于，所述步骤S31中，所述大致范围由第1和第17个特征点的x坐标、第9个特征点的y坐标，以及20和25特征点的y坐标中值确定。

7.如权利要求5所述识别方法，其特征在于，所述步骤S32中，修正方法为：将初始化范围向上扩充L*3/4的距离，向下扩充L*1/2的距离，同时确保不超出采集图像的范围。

8.一种面部表情识别系统，其特征在于，包括：采集模块、特征点检测模块、裁剪模块和识别及输出模块；

所述采集模块用于采集人脸视频，针对每一帧视频检测是否有人脸区域，有则进入下一步，没有则跳过并进入下一帧图像的处理；

所述特征点检测模块在人脸区域内检测出预先设定数量的人脸特征点；

所述裁剪模块基于人脸特征点的坐标位置，计算并裁剪面部区域图像；

所述识别及输出模块将裁剪后的面部区域图像进行缩放，输入训练好的轻量化空间注意力模块嵌入的面部表情识别网络模型，获得每个情感类别的预测概率值，概率最大的类别作为表情识别结果并输出；

所述识别及输出模块中，基于轻量化空间注意力模块嵌入的面部表情识别网络模型包含低层特征提取卷积层、四组残差模块、空间注意力模块和分类层；

其中，AvgPool为通道维度的平均池化；