CN112541422B

CN112541422B - 光照和头部姿态鲁棒的表情识别方法、设备及存储介质

Info

Publication number: CN112541422B
Application number: CN202011424201.6A
Authority: CN
Inventors: 胡四泉; 桂雨蓉; 石志国
Original assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Current assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-03-12
Anticipated expiration: 2040-12-08
Also published as: CN112541422A

Abstract

本发明公开了一种光照和头部姿态鲁棒的表情识别方法、设备及存储介质，该方法包括：获取待识别的人脸图像并进行预处理；从预处理后的人脸图像中提取出面部区域图像和预设类型的关键点；获取预设区域的纹理和边缘特征向量；获取人物头部姿态偏转方向，根据人物头部姿态偏转方向的不同，采取不同的姿态微调方式进行头部姿态校正；通过双通道卷积神经网络，根据校正后的面部区域图像，对人物表情进行识别；其中，网络的第一维度输入数据为校正后的面部区域图像，第二维度输入数据为预设区域的纹理和边缘特征向量。本发明可解决光照分布不均和头部姿态改变导致的表情识别准确率下降的问题。

Description

光照和头部姿态鲁棒的表情识别方法、设备及存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种光照和头部姿态鲁棒的表情识别方法、设备及存储介质。

背景技术

现今，我国大中小学阶段的教师以及学生均面临着不同程度的教育压力，课堂上的教学效率也因此显得尤为重要。我国普遍的课堂形式为教师参考教学大纲按部就班地授课，有时采取提问、小组讨论等来增加师生和生生间的互动。但是，当教学内容进行到比较枯燥的部分时，大部分学生的听课效率会有所下降，教师若无法及时发现学生们的状态，并对教学进度进行调整，则会对整体的教学效率产生不利影响。

人工智能领域的蓬勃发展，尤其是深度学习技术广泛应用于图像识别、人脸表情识别，为传统课堂形式的改变带来契机。利用大规模的表情数据集训练出高效率、高准确率的表情识别模型，对课堂中学生们的表情进行识别，以便后续通过表情对学生们的心理情境做出分析。但是，由于教室内外光源变化以及学生听课过程中头部姿态的变化均会对识别结果产生影响，因此，如何改善这些外界因素对于表情识别的影响成为亟待解决的问题。

目前，现有技术方案主要存在以下缺点：

1)现有技术方案对面部表情图像采用的光照预处理方法大多适用于光照分布比较统一的图像。而对于教室环境下学生由于位置不同导致面部的光照分布也不同的情况，现有技术方案采用的光照预处理方法由于调整参数固定，不能有效地针对每张图片的光照分布情况自适应地进行调整，部分图像会出现调整后曝光过度或者调整效果不明显的情况。

2)现有技术方案对于面部表情图像采用的姿态校正和人脸对齐的方法大多基于仿射变换和非线性映射等算法，对于头部姿态偏转幅度在45°以内的面部图像，现有技术方案的校正表现良好，但是对于头部姿态偏转幅度超出45°或发生俯仰角、偏航角、翻滚角等三维角度的姿态偏转时，现有技术方案的校正表现大打折扣，并且校正后的图像用于表情识别不足以提升识别的准确率。

3)现有技术方案对于卷积神经网络的搭建和训练大多基于经典的卷积神经网络模型进行微调或修改网络参数和网络结构，一般经过训练后都可以达到较高的准确率。但对于在教室场景下，学生的面部表情往往不会发生明显的变化，并且学生头部姿态偏转较大会导致表情信息缺失较严重，现有技术方案的表情识别方法更多地倾向于依赖卷积神经网络的学习能力，用于真实的教室场景，表情识别率不佳。

发明内容

本发明提供了一种光照和头部姿态鲁棒的表情识别方法、设备及存储介质，以解决在教学场景下，由于受到光照和头部姿态影响，造成学生面部表情信息的缺失，从而导致表情识别准确率大大下降的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种光照和头部姿态鲁棒的表情识别方法，其包括：

获取待识别的人脸图像，并对获取的人脸图像进行预处理，以将所获取的人脸图像的光照分布自适应调整至符合预设均匀度要求的分布；

从预处理后的人脸图像中提取出面部区域图像和预设类型的关键点；

基于得到的预设类型的关键点，获取预设区域的纹理和边缘特征向量；基于得到的预设类型的关键点，获取人物头部姿态偏转方向，根据人物头部姿态偏转方向的不同，采取不同的姿态微调方式对面部区域图像进行头部姿态校正；

通过预设的双通道卷积神经网络，根据校正后的面部区域图像，对人物表情进行识别；其中，所述双通道卷积神经网络的第一维度输入数据为校正后的面部区域图像，第二维度输入数据为所述预设区域的纹理和边缘特征向量。

进一步地，所述对获取的人脸图像进行预处理，包括：

分别计算人脸图像灰度和亮度平均值，确定非线性校正指数γ值，公式如下：

其中，V_gray为人脸图像的灰度平均值，V_I为人脸图像的亮度平均值；

根据确定的γ值，采用非线性伽马校正方法，校正人脸图像光照分布。

进一步地，在对人脸图像光照分布校正后，所述对获取的人脸图像进行预处理，还包括：

将校正光照分布后的人脸图像转换为单通道灰度图。

进一步地，所述从预处理后的人脸图像中提取出面部区域图像和预设类型的关键点，包括：

采用多任务卷积神经网络从预处理后的人脸图像中提取出面部区域图像，并从所提取的面部区域图像中提取出多个预设类型的关键点。

进一步地，所述预设类型的关键点包括眉毛、眼睛和嘴巴的关键点；所述基于得到的预设类型的关键点，获取预设区域的纹理和边缘特征向量，包括：

利用凸包算法将面部区域图像中的眉毛、眼睛和嘴巴的区域分别裁剪出来作为感兴趣区域；

利用局部二值模式算子分别提取眉毛、眼睛和嘴巴对应的感兴趣区域的纹理特征，并将每一感兴趣区域的纹理特征统计成直方图特征向量；

将各感兴趣区域的直方图特征向量整合，得到所述纹理和边缘特征向量。

进一步地，所述二值模式算子为等价模式二值模式算子。

进一步地，所述预设类型的关键点包括左眼尾、右眼尾、鼻尖、左嘴角、右嘴角和下巴；

所述基于得到的预设类型的关键点，获取人物头部姿态偏转方向，包括：

将左眼尾、右眼尾、鼻尖、左嘴角、右嘴角和下巴这六个关键点投影到三维世界坐标系对应的六个点；其中，鼻尖、下巴、左眼尾、右眼尾、左嘴角和右嘴角在二维相机坐标系中的坐标分别为：(x₃₀,y₃₀)、(x₈,y₈)、(x₃₆,y₃₆)、(x₄₅,y₄₅)、(x₄₈,y₄₈)和(x₅₄,y₅₄)；鼻尖、下巴、左眼尾、右眼尾、左嘴角和右嘴角所对应的投影点在三维世界坐标系中的坐标分别为：(0，0，0)、(0，-330，-65)、(-255，170，-135)、(255，170，-135)、(-150，-150，-125)和(150，-150，-125)；

求解出二维相机坐标系到三维世界坐标系的旋转向量和平移向量；

根据求解出的旋转向量和平移向量，将三维世界坐标系中坐标为(0,0,1000)的点重投影到二维相机坐标系中的点P_2D(x_p,y_p)；

当y_p＜y₃₀时，确定头部姿态为向上方抬起；当y_p＞y₃₀时，确定头部姿态为向下方低下；

当x_p＞x₃₀时，确定头部姿态为向右侧偏移；当x_p＜x₃₀时，确定头部姿态为向左侧偏移；

通过下列公式计算鼻尖点和P_2D(x_p,y_p)连线后的向量的夹角θ：

当θ＞30且x_p＜x₃₀时，确定头部姿态为发生左侧旋转；当θ＜30且x_p＞x₃₀时，确定头部姿态为发生右侧旋转；

所述根据人物头部姿态偏转方向的不同，采取不同的姿态微调方式对面部区域图像进行头部姿态校正，包括：

当人物头部发生俯仰角方向的变化时，若面部区域能被检测，则不作处理；若面部区域不能被检测，则在间隔预设时间后再次抽取关键帧图像进行面部检测，若仍无法检测到面部区域，则判定该图像对应的表情为走神；

当人物头部发生偏航角方向的变化时，则不作处理；

当人物头部发生翻滚角方向的变化时，则通过仿射变换将头部校正。

进一步地，所述双通道卷积神经网络的结构采用5*5和3*3卷积层堆叠而成；对于原始图像使用大尺寸卷积核提取特征；每两个卷积层堆叠后分别加入最大池化层；全连接层将提取的图像高维特征进行连接后，使用Softmax多分类器输出分类结果。

另一方面，本发明还提供了一种电子设备，其包括处理器和存储器；存储器中存储有至少一条指令，当所述指令由处理器加载并执行时，实现上述方法。

再一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，当所述指令由处理器加载并执行时，实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

1)本发明通过自适应伽马校正方法，可以将一副无论是局部光照分布不均匀还是整体明暗度较高或较低的面部图像，调整到光照分布较为均衡的程度。

2)本发明通过头部姿态判断方法，可以对于头部姿态偏转角度较大或发生三维姿态偏转的情况，都能够利用二维面部图像较准确地进行姿态判断。

3)本发明通过双通道卷积神经网络联合头部姿态判断的表情识别方法，可以对于学生面部表情变化不明显或姿态偏转较大的面部图像，也保持较高的表情识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的光照和头部姿态鲁棒的表情识别方法的流程图；

图2是本发明实施例提供的LBP纹理特征提取过程示意图；

图3是本发明实施例提供的双通道卷积神经网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

针对教室环境中光照分布不均匀以及学生头部姿态改变导致的表情识别准确率下降的问题，本实施例提供了一种光照和头部姿态鲁棒的表情识别方法，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该光照和头部姿态鲁棒的表情识别方法的执行流程如图1所示，包括以下步骤：

S1，获取待识别的人脸图像，并对获取的人脸图像进行预处理，以将所获取的人脸图像的光照分布自适应调整至符合预设均匀度要求的分布。

需要说明的是，由于监控摄像头采集图像的质量和教室光照环境的变化，都会导致采集的图像产生不同程度的噪声以及光照程度分布不均匀的问题，有可能导致学生的面部表情信息损失。因此，为提高学生表情识别模型的预测能力和泛化能力，需要对监控摄像头采集到的学生表情图像数据进行预处理。

一般情况下，对于图像的预处理都会采取一些有针对性的方式。本实施例重点关注学生表情图像的光照分布是否均匀，对此，传统的非线性Gamma校正图像光照分布是根据下列公式进行校正：

g(u)＝u^γ

其中，u为待校正图像的某一像素值，γ为非线性校正指数。通常，会在[0，3]区间内选取合适的γ值来处理待校正图像的亮度，当γ＜1时，图像低灰度区域的变化幅度较小，高灰度区域变化幅度较大，校正后的图像整体对比度降低；当γ＞1时，图像低灰度区域的变化幅度较大，高灰度区域变化幅度较小，校正后的图像整体对比度增强。

使用传统的非线性Gamma校正方法，由于在教室内架设的监控摄像头位置和学生位置的不同，所提取的关键帧图像光照亮度分布情况也大有不同，每张图像所需要的Gamma校正参数也无法使用相同的值。因此，传统的非线性Gamma校正方法不具备自适应性。对此，本实施例提出一种可根据面部图像光照分布和明暗程度计算出调整参数的自适应伽马(Gamma)校正算法。无论一副图像是局部光照分布不均匀还是整体明暗度较高或较低，采用本发明的自适应Gamma校正算法均可根据图像原有的光照分布、明暗程度等情况，将图像的光照自适应调整成为比较均匀的分布，从而便于后续的表情识别。

具体地，本实施例的方法通过计算人脸图像灰度和亮度平均值，采用下列公式确定非线性校正指数γ值：

其中，V_gray为图像的灰度平均值，计算公式如下：

V_I为图像的亮度(Intensity，I)平均值，计算公式如下：

其中，R、G、B分别为128*128图像某一像素点的三通道RGB值。

由于图像的光照分布情况直接由图像的亮度分量体现，因此本实施例在Gamma自适应校正公式中引入亮度因素，将灰度平均值V_gray和亮度平均值V_I各赋予0.5的权重系数经过像素归一化后，联合确定校正一张图片光照分布的γ值。

进一步地，经过Gamma校正的图像亮度改善后，为加快该图像在DC-CNN模型中的处理速度，在本实施例中，还需要将三通道的RGB图像转换为单通道灰度图，与DC-CNN模型的输入数据格式相匹配。

S2，从预处理后的人脸图像中提取出面部区域图像和预设类型的关键点。

需要说明的是，课堂环境下，由监控设备采集的图像通常包含多个学生，且每位学生的头部姿态可能存在差异。而多任务卷积神经网络(Multi-task Convolutional NeuralNetwork，MTCNN)对于多姿态的二维人脸图像具有较好的鲁棒性，因此，本实施例将预处理后的人脸图像送入MTCNN模型中，裁剪出图像中包含的全部学生人脸区域，并检测出每张人脸区域的68个关键点。

其中，上述多任务卷积神经网络MTCNN由三个CNN网络P-net、R-net和O-net级联组成。P-net对输入的图像进行金字塔处理生成大量的人脸候选框，再采用非极大值抑制(Non-Maximum Suppression，NMS)过滤多余的候选框；R-net对P-net得到的人脸候选框进行高精度定位和人脸区域优化；O-net将R-net的人脸区域作为输入，对人脸区域进行更进一步的优化以及人脸关键点定位。由于MTCNN网络采用多个CNN模型级联，每个子模型内部递归执行，所以对于姿态的鲁棒性较好，并且对于人脸区域的框选也更加完整。

S3，基于得到的预设类型的关键点获取预设区域的纹理和边缘特征向量；基于得到的预设类型的关键点获取人物头部姿态偏转方向，根据人物头部姿态偏转方向的不同，采取不同的姿态微调方式对面部区域图像进行头部姿态校正。

需要说明的是，根据人脸动作解码系统(Facial Action Coding System，FACS)中衡量人脸动作的运动单元(Action Unit，AU)的个数，本实施例挑选出人脸区域中AU＞5的眉毛、眼睛和嘴巴三个关键点区域，获取对应的纹理和边缘特征向量。当学生面部发生表情变化时，眉毛、眼睛和嘴巴这三个器官的变化幅度相较于鼻子、前额、下巴等更为明显，包含的表情信息更为丰富。其中，左眉毛的关键点范围为[17，21]；右眉为[22，26]；左眼为[36，41]；右眼为[42，47]；嘴巴为[48，67]。

而且，为了更全面高效地对学生面部表情信息进行表征，本实施例选择提取学生面部图像的LBP特征作为DC-CNN表情识别模型的第二维度特征信息，提取过程如图2所示。LBP作为描述图像局部纹理的算子，不仅对光照具有较好的鲁棒性，且对于表情变化引起的五官形变和褶皱能够保留较完整的纹理信息。由于原始的LBP算子产生的二进制模式过多，高维度的纹理特征向量中会包含许多冗余信息，且耗费过多的计算和存储资源。因此，本实施例采用等价LBP算子，将二进制模式的数量减少到p*(p-1)+2个。通过等价模式降维后的LBP纹理特征不仅不会丢失任何信息，且包含了大量的图像边缘和斑点等信息。

具体地，本实施例基于得到的预设类型的关键点获取预设区域的纹理和边缘特征向量的实现过程，包括：

1)采用凸包算法将每位同学的三官区域分别裁剪出来作为ROI(Region OfInteres，感兴趣区域)区域；为了尽可能地不损失眉毛、鼻子和嘴巴区域的信息，本实施例采取凸包算法将上述三官的区域作为ROI区域进行提取。将某一区域内的m个关键点逐一进行两两连线，共有条直线。确定一条直线/>后，根据下列公式计算关键点P(x_P,y_P)是否都在/>的一侧：

当结果Z＞0时，关键点P(x_P,y_P)在的左侧；当Z＜0时，关键点P(x_P,y_P)在的右侧。如果(m-2)个关键点均在直线/>的一侧，则这条直线L就是该区域凸包的一条边，反之则不是。

2)利用LBP(Local Binary Patterns，局部二值模式)算子将凸包算法裁剪出的眉毛、眼睛、嘴巴ROI区域进行特征采样，分别提取眉毛、眼睛、嘴巴ROI区域的纹理特征；其中，本实施例使用等价模式LBP算子，在3*3邻域内使用8个采样点，并且只记录二进制模式中跳变次数小于2的等价模式。

3)将每个ROI区域得到的LBP值进行直方图统计和归一化处理后得到5个58维向量X_roi，表达式如下：

X_roi＝[x₁,x₂,x₃,...,x₅₈]^T

4)将5个58维向量拼接成290维的LBP纹理特征向量X_lbp，表达式如下：

X_lbp＝[x₁,x₂,x₃,...,x₂₉₀]^T

该向量包含了一位同学人脸区域中左眉、左眼、右眉、右眼和嘴巴所携带的表情信息，特别是表情变化所产生的纹理和边缘等特征信息。

而关于头部姿态的调整，需要说明的是，通常，头部姿态可发生俯仰角(Pitch)、偏航角(Yaw)、翻滚角(Roll)等三个方向的变化。本实施例通过提取的左眼尾、右眼尾、鼻尖、左嘴角、右嘴角和下巴等六个关键点，将学生人脸区域的二维图像映射到三维世界坐标系，计算出旋转向量(Rotation Vector)和平移向量(Translation Vector)后重投影到二维相机坐标系。鼻尖关键点和重投影后的关键点的向量方向就是学生头部姿态偏转方向。根据学生头部姿态偏转的方向不同，采取不同的姿态微调方式尽可能地校正头部姿态，最后送入DC-CNN模型对学生的表情进行识别。

具体地，关于头部姿态的自适应调整，其实现过程具体包括：

1)由上述S2提取的学生人脸关键点挑选出鼻尖(x₃₀,y₃₀)、下巴(x₈,y₈)、左眼尾(x₃₆,y₃₆)、右眼尾(x₄₅,y₄₅)、左嘴角(x₄₈,y₄₈)和右嘴角(x₅₄,y₅₄)等6个关键点。

2)通过Opencv提供的solvePnP()将上述步骤1选定的6个关键点投影到三维世界坐标对应的6个点，坐标分别是：鼻尖(0，0，0)、下巴(0，-330，-65)、左眼尾(-255，170，-135)、右眼尾(255，170，-135)、左嘴角(-150，-150，-125)和右嘴角(150，-150，-125)。求解出二维相机坐标到三维世界坐标的旋转向量和平移向量。

3)根据上述步骤2计算得出的旋转向量和平移向量，通过Opencv提供的projectPoints()函数将三维坐标点P_3D(0,0,1000)重投影到二维坐标点P_2D(x_p,y_p)。将鼻尖点P_n(x₃₀,y₃₀)和P_2D(x_p,y_p)连线后的向量所指方向就是该名学生的头部偏转方向。

4)通过比较y₃₀和y_p的大小可判断学生的头部姿态是否发生Pitch方向的变化，当y_p＜y₃₀时，头部向上方抬起；当y_p＞y₃₀时，头部向下方低下。通过比较x₃₀和x_p的大小可判断学生的头部姿态是否发生Yaw方向的变化，当x_p＞x₃₀时，头部向右侧偏移；当x_p＜x₃₀时，头部向左侧偏移。

通过下列公式计算向量的夹角θ

通过夹角θ可判断学生的头部姿态是否发生Roll方向的变化，当θ＞30且x_p＜x₃₀时，头部发生左侧旋转；当θ＜30且x_p＞x₃₀时，头部发生右侧旋转。

当已知头部姿态后，可采取不同方式对学生的头部姿态进行微调。具体地，本实施例中，调整方式为：当学生头部发生Pitch方向的变化时，若学生人脸区域能被检测，则送入表情识别模型；反之，间隔时间t后再次抽取关键帧图像进行人脸检测，仍出现无法检测的情况，则判定该名学生的表情状态为走神。当学生头部发生Yaw方向的变化时，由于表情识别模型已具备一定的姿态鲁棒性，可直接送入表情识别模型。当学生头部发生Roll方向的变化时，需要通过仿射变换将头部校正后送入表情识别模型。识别结果最终通过Softmax分类器输出。

S4，通过预设的双通道卷积神经网络，根据校正后的面部区域图像，对人物表情进行识别；其中，双通道卷积神经网络的第一维度输入数据为校正后的面部区域图像，第二维度输入数据为预设区域的纹理和边缘特征向量。

需要说明的是，由于深度学习神经网络模型的泛化能力和数据集大小呈正比关系，本发明参考VGG-16网络结构，针对小数据集容易产生过拟合从而导致模型没有良好的泛化能力的问题，通过调整卷积核尺寸、减少网络层数的方式，建立一个DC-CNN(Double-channel Convolutional Neural Networks,双通道卷积神经网络)模型。该模型的第一维度输入数据为DC-CNN网络模型提取的学生人脸图像的整体特征向量，第二维度输入数据为学生表情变化后五官的纹理和边缘特征(LBP纹理特征)向量。多维度的输入数据能够让DC-CNN模型发挥VGG-16网络的优秀性能，学习到学生面部表情不同的语义信息。

具体地，本实施例的双通道卷积神经网络的结构如图3所示，其采用5*5和3*3卷积层堆叠而成。对于原始图像使用大尺寸卷积核提取特征，不会增加过多的参数，也降低了连续使用小卷积核提取特征的计算复杂度。在每两个卷积层堆叠后均加入最大池化层(MaxPooling)，对卷积层提取的高维度特征向量降维，缓解小数据集带来的过拟合风险。全连接层(Fully Connected)将提取的图像高维特征进行连接后，使用Softmax多分类器输出分类结果。轻量型的CNN模型既有效改善了教室光照分布不均匀以及学生头部姿态改变导致的表情识别准确率下降的问题，又节约了大量的计算资源，保证了表情识别的实时性。

该双通道卷积神经网络的训练过程如下：

1)采集教学场景下学生的图片数据，挑选三种典型的表情，构建学生面部表情数据集；其中，数据集中包含不同光照角度和不同头部姿态的学生图像。

具体地，在本实施例中，上述数据集的构建过程包括以下步骤：

a)采集上课视频数据。深度神经网络模型训练使用的数据集正脸和侧脸数据量不均衡，会导致训练出的模型更擅长分辨正面人脸表情。因此，为了保证数据集数据中学生的表情和姿态数据尽可能地均衡，本实施例在教室讲台两侧分别安装监控摄像头，采集学生们上课的视频数据。其中，监控摄像头的采集区域能够覆盖整个教室区域。

b)按帧选取学生人脸图像。将采集到的视频中不同头部姿态的学生的表情按专注、困倦和走神等三个标签进行区分，并截取学生人脸区域。其中，学生的头部姿态尽可能地包含俯仰角(Pitch)、偏航角(Yaw)、翻滚角(Roll)等三个方向的变化。

c)数据集图像归一化。学生人脸图像按b)步骤归类后，采用双线性插值法将图像的尺寸统一处理为128*128。为节约DC-CNN模型训练的计算资源和训练时间，数据集中的三通道的RGB图像统一灰度化为单通道灰度图。最终数据集单张学生人脸图像的尺寸均为128*128*1。

2)通过上述步骤1构建的数据集进行模型训练，具体如下：

将自制的学生表情数据集按4:1的比例划分成训练集和测试集，按DC-CNN表情识别模型主要输入的图片数据维度，归一化尺寸为128*128*1。模型训练的激活函数均采用ReLu函数，使CNN网络提取更多的非线性特征。在全连接层整合图像特征前，输入第二维度LBP特征向量X_lbp与CNN网络提取的图像高维特征融合，使模型训练过程中能够学习更多由面部表情变化引起的五官纹理特征和边缘特征。模型在反向传播更新权重时采用Adam优化器，帮助模型加快收敛速度。最后，使用十折交叉验证法评估模型的表情识别准确率和泛化能力。

综上，本实施例针对现有技术方案在光照预处理方法存在的缺陷，提出一种可根据面部图像光照分布和明暗程度计算出调整参数的自适应伽马校正算法，无论一副图像是局部光照分布不均匀还是是整体明暗度较高或较低，采用本实施例的自适应伽马校正算法均可以将该副图像调整到光照分布较为均衡的程度，便于后续的表情识别。并且，本实施例提出了一种基于人脸关键点的头部姿态判断方法，利用包含多姿态学生图像的数据集训练出姿态鲁棒度较高的人脸关键点定位模型，再对多姿态的学生面部图像进行人脸关键点定位后，根据关键点的坐标位置结合发明的头部姿态判断方法判断出学生的头部姿态。对头部姿态偏转角度较大或三维姿态偏转都能较准确地进行姿态判断，并且将姿态判断结果用于辅助后续表情识别，能够较明显地提升识别准确率。此外，本实施例还提出了一种双通道卷积神经网络，利用学生面部感兴趣区域的纹理特征和学生面部的整体特征进行训练后，不仅可以达到较高的识别准确率，在表情识别的阶段结合姿态判断结果进行联合识别，降低对卷积神经网络的学习能力的依赖性的同时，对姿态偏转较大的面部图像的识别率也高于现有技术方案。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令可由处理器加载并执行。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种光照和头部姿态鲁棒的表情识别方法，其特征在于，包括：

基于得到的预设类型的关键点，获取预设区域的纹理特征向量；基于得到的预设类型的关键点，获取人物头部姿态偏转方向，根据人物头部姿态偏转方向的不同，采取不同的姿态微调方式对面部区域图像进行头部姿态校正；

通过预设的双通道卷积神经网络，根据校正后的面部区域图像，对人物表情进行识别；其中，所述双通道卷积神经网络的第一维度输入数据为校正后的面部区域图像，第二维度输入数据为所述预设区域的纹理特征向量；

所述预设类型的关键点包括左眼尾、右眼尾、鼻尖、左嘴角、右嘴角和下巴；

当人物头部发生偏航角方向的变化时，则不作处理；

2.如权利要求1所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，所述对获取的人脸图像进行预处理，包括：

3.如权利要求2所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，在对人脸图像光照分布校正后，所述对获取的人脸图像进行预处理，还包括：

将校正光照分布后的人脸图像转换为单通道灰度图。

4.如权利要求1所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，所述从预处理后的人脸图像中提取出面部区域图像和预设类型的关键点，包括：

5.如权利要求1所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，所述预设类型的关键点包括眉毛、眼睛和嘴巴的关键点；所述基于得到的预设类型的关键点，获取预设区域的纹理特征向量，包括：

将各感兴趣区域的直方图特征向量整合，得到所述纹理特征向量。

6.如权利要求5所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，所述局部二值模式算子为等价模式二值模式算子。

7.如权利要求1所述的光照和头部姿态鲁棒的表情识别方法，其特征在于，所述双通道卷积神经网络的结构采用5*5和3*3卷积层堆叠而成；对于原始图像使用大尺寸卷积核提取特征；每两个卷积层堆叠后分别加入最大池化层；全连接层将提取的图像高维特征进行连接后，使用Softmax多分类器输出分类结果。

8.一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器中存储有至少一条指令，其特征在于，当所述指令由所述处理器加载并执行时，实现如权利要求1-7任一项所述的方法。

9.一种存储介质，所述存储介质中存储有至少一条指令，其特征在于，当所述指令由处理器加载并执行时，实现如权利要求1-7任一项所述的方法。