CN113609935A

CN113609935A - 一种基于深度学习面部识别的轻量级走神判别方法

Info

Publication number: CN113609935A
Application number: CN202110827487.0A
Authority: CN
Inventors: 王静
Original assignee: Wuxi I Understand Education Technology Co ltd
Current assignee: Wuxi I Understand Education Technology Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-11-05

Abstract

发明公开了一种基于深度学习面部识别的轻量级走神判别方法，该方法处理视频流数据，包括以下步骤：首先对关键帧进行人脸检测，再将检测出来的人脸区进行走神识别，最终得到此帧的走神状态识别结果；该方法主要包括两个模块：基于ResNet10‑SSD的人脸检测算法、基于MobileNet+GRU的走神识别算法；人脸检测模块沿用SSD，走神识别模块采用MobileNet的深度可分离卷积搭建特征提取器，添加保留恒等映射的CBAM结构，本发明采用人脸关键点定位和头部姿态估计作为辅助数据进行额外监督；由于采用ResNet10等轻量级骨干网络，以及使用MobileNet加速，该轻量级面部走神识别方法兼顾了精度和速度，能够在各类移动设备上部署并且识别走神准确率达到90％，在实际应用场景中具有较高的实用价值。

Description

一种基于深度学习面部识别的轻量级走神判别方法

技术领域

本发明涉及深度学习图像识别分析领域，具体涉及一种基于深度学习面部识别的轻量级走神判别方法。

背景技术

信息技术的发展给人们的生活带来极大的便利，特别是对在线教育行业而言，视频直播的形式让学生得以在家完成课堂学习，这在疫情下的社会显得更为重要。为了提高学生的听课质量、让老师得到及时反馈，需要在直播过程中对学生听课是否走神进行智能识别，并将结果汇总，以供老师参考处理。对于捕获的学生听课设备摄像头的视频流，需要在关键帧检测到学生的人脸定位，再根据学生人脸区域进行走神识别，最后得到识别结果。

得益于硬件性能的提升，基于深度学习的人脸检测技术飞速发展，其速度和精度均远远超过基于传统方法的人脸检测模型，在工业界也得到了广泛应用。从DenseBox开始，人们从通用目标检测模型向人脸检测迁移，使用全卷积网络直接预测人脸目标矩形框和置信度，取得了不错的效果。之后Face RCNN和RetinaFace等网络的性能不断提升，但网络规模也逐渐增大，在大多数硬件性能受限的场合不适用于实时性应用。目前人脸检测技术的效果已经能基本满足业务需求，为了方便应用和迁移，同时兼顾网络复杂度和运行速度，采用OpenCV提供的基于ResNet10-SSD网络的人脸识别预训练模型，作为人脸检测模块。

人脸检测技术的成熟使得人脸识别技术高速发展，目前人脸识别精度已经超过人眼，已经广泛应用到实际产品中。人脸表情识别作为人脸识别技术中的一个组成部分，今年来也得到了广泛的研究和应用。DeepEmotion在FER2013和CK+等经典面部表情识别数据集中都取得了不错的性能，各种基于VGG、ResNet的网络变体也不断刷新各大数据集的性能指标。然而现有的数据集和模型都局限于处理反映愤怒、高性、悲伤、惊讶等基本情感的表情识别任务，印度学者提出的DAiSEE走神识别数据集由于人种差异和视频质量问题，也不适用于国内的业务场景，同时也并没有模型在DAiSEE数据集上表现出良好的性能。因此，在面部走神识别领域，不管是数据集还是网络模型都十分稀缺，带来了一定的困难和挑战。

发明内容

本发明要解决的技术问题是克服现有的缺陷，提供一种基于深度学习面部识别的轻量级走神判别方法，可以有效解决背景技术中的问题。

为实现上述目的，本发明提出：一种基于深度学习面部识别的轻量级走神判别方法，该方法主要包括两个模块：基于ResNet10-SSD的人脸检测算法、基于MobileNet+GRU的走神识别算法；该轻量级面部走神识别方法兼顾了精度和速度，在实际应用场景中具有较高的实用价值。

作为本发明的一种优选技术方案：

一种基于深度学习面部识别的轻量级走神判别方法，包括以下步骤：

S1：采用基于ResNet10-SSD的人脸检测算法对视频流中的关键帧进行人脸检测。人脸检测模块选择ResNet10作为骨架，提取输入图片的深度特征，再送入一系列连续堆叠的卷积模块；根据网络不同阶段提取到的不同尺度的特征，分别送入SSD[10]检测头，同时预测图片中人脸框的定位信息和置信度；

S2：对步骤S1中获得的人脸框信息，设置一个置信度阈值，将置信度大于阈值、距离图片画面中心最近的人脸框作为要识别的目标；将框内人脸区域裁下，送入后续模块进行走神识别；

S3：对于步骤S2中获得的人脸区域，采用基于MobileNet+GRU的走神识别算法进行面部走神识别；走神识别模块借鉴YOLO结构搭建网络骨架，并添加一个借用人脸关键点信息进行额外监督的注意力模块，通过全局池化后得到当前帧的人脸特征向量，一方面直接添加一个辅助分支，用头部姿态估计俯仰角Pitch、偏航角Yaw、滚动角Roll，作为辅助信息进行额外监督；另一方面通过GRU融合时序信息，在主分支进行走神识别分类，得到最后识别结果；

S4：对于步骤S3中的注意力模块，对网络骨架提取的特征图，依次施加通道注意力和空间注意力，并借助人脸关键点信息对空间注意力图进行额外监督，达到增强位置特征信息、抑制冗余噪声的作用；注意力模块计算过程如下公式所述：

Z_C＝F_e(U)⊙U

Z_CBAM＝F_p(Z_c)⊙Z_C

U表示注意力模块的输入特征图；

F_e表示获取通道注意力的函数；

⊙表示按元素相乘操作；

Z_C表示施加通道注意力之后的特征图；

F_p表示获取空间注意力的函数；

Z_CBAM表示施加空间注意力之后的特征图；

使用眼、口等51个面部关键点，使用高斯核生成热力图，对空间注意力进行额外监督，如下公式所述：

(x，y)表示热力图中的点的横、纵坐标；

(x₀，y₀)表示面部关键点的横、纵坐标；

σ表示高斯核标准差；

若关键点生成的类高斯分布之间存在重叠区域，则按元素取最大值作为热力图的对应值；

S5：对于步骤S3中的GRU模块，将当前帧人脸特征向量与历史帧的隐藏向量相融合，达到提取时序、空间特征的效果。GRU模块计算过程如下公式所述：

r＝σ(W_r*[h_t-1,x_t])

z＝σ(W_z*[h_t-1,x_t])

x_t表示模块输入的当前帧特征向量；

h_t-1表示历史帧记忆内容；

r表示重置门，控制记忆内容遗忘程度；

h′表示当前帧融合记忆内容后的混合状态；

z表示更新门，选择历史帧记忆内容和当前帧混合状态中的有效信息；

h_t表示当前帧输出的特征向量；

模块输出的时空向量h_t经过一个全连接层后，使用softmax函数即可得到走神状况的识别得分；

S6：对于步骤S3中的注意力模块、头部姿态估计辅助分支、走神识别主分支这三个任务，需要同时进行监督；

对注意力模块，损失函数取二元交叉熵：

其中y_i,p_i分别为对应位置的热力图真值与空间注意力图预测值；

对头部姿态估计辅助分支，采取均方误差函数作为损失函数。同时为了加快收敛，可对网络输出值进行缩放：

其中y_i,p_i分别为头部姿态角的真值与预测值，ε为缩放系数；

对走神识别主分支，对定义的几个走神状态进行多分类，采用交叉熵损失函数：

其中y_ij,p_ij分别为第i个样本的第j个走神状态的真值与预测值；

对三个子任务损失进行加权，即可得到网络总损失：

L＝λ_attL_att+λ_poseL_pose+λ_clsL_cls

其中λ_att,λ_pose,λ_cls为子任务损失的权重；

S7对于步骤S3中头部姿态估计分支的输出结果生成初始角，方便结合后续帧的头部姿态角对网络输出结果进行矫正；再加上对网络预测得分的平滑操作，即可得到走神识别算法的最终结果。

与现有技术相比，本发明的有益效果是：本发明提出了一种基于深度学习的轻量级的面部走神识别方法，兼顾了实时性和准确性，具有较强的实用效果。

附图说明

图1为人脸检测网络总体结构图；

图2为人脸检测网络核心模块结构图；

图3为走神识别网络总体结构图；

图4为走神识别网络BottleneckCSP模块结构图；

图5为走神识别网络人脸关键点生成辅助热力图；

图6为走神识别网络CBAM模块结构图；

图7为走神识别网络头部姿态角示意图；

图8为走神识别网络GRU网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-8，本发明提供以下技术方案：

S1：采用基于ResNet10-SSD的人脸检测算法对视频流中的关键帧进行人脸检测。人脸检测模块选择ResNet10作为骨架，提取输入图片的深度特征，再送入一系列连续堆叠的卷积模块；根据网络不同阶段提取到的不同尺度的特征，分别送入SSD检测头，同时预测图片中人脸框的定位信息和置信度。

网络结构如图1所示，图中括号内四个数字代表：输入通道、输出通道、卷积核大小、步长；两个数字代表：卷积核大小、步长；该网络以单幅图像作为输入，图像归一化后首先通过卷积核为7、步长为2的卷积层+BN层+ReLU层，即图中Conv模块，将图像映射为32维的张量，同时分辨率减半；通过池化核为3、步长为2的最大池化层后，张量分辨率再次减半；之后依次通过连续堆叠的残差模块，即图中ResBlock模块、卷积模块，即图中ConvBlock模块提取第4、6、7、8、9、10层特征，分别送入SSD检测头，即图中ConvSSD模块，再分别使用一个卷积层来预测人脸框的位置信息、置信度；网络的核心模块结构如图2所示。

S2：对步骤S1中获得的人脸框，每个SSD检测头需要预测(x_c,y_c,w,h,o,c)这6个值，其中(x_c,y_c)表示框的中心坐标，(w,h)表示框的宽高，o表示框中内容为背景的置信度，c表示框中内容为人脸的置信度；同时为了改善人脸框位置信息的预测性能，添加(x_c,y_c,w,h)缩放系数：

b^w＝d^w·exp(var^w·l^w)

b^h＝d^h·exp(var^h·l^h)

其中

分别为网络预测值、人脸框绝对值。(d^w,d^h)为先验框的宽、高，

为目标框中心点所在的单元格相对于左上角的坐标，offset＝0.5为中心坐标偏置，

为缩放系数。在不同特征层选取不同的先验框(d^w,d^h)。一般地，为每层分配一对尺寸(s_min,s_max)，首先得到两个正方形先验框，其边长分别为s_min、

其次分配若干个长宽比值r，每分配一个r，得到长宽分别为

的两个矩形先验框。具体地，以输入图片分辨率为300×300，人脸检测网络一共有m＝6个输出层，每个输出层分辨率分别为[(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)]，分配的先验尺寸(s_min,s_max)分别为[(30,60),(60,111),(111,162),(162,213),(213,264),(264,315)]，分配的先验长宽比r分别为[(2,),(2,3),(2,3),(2,3),(2,),(2,)]，因此每个层分配的先验框的个数分别为[4,6,6,6,4,4]；将每个输出层得到的人脸预测框整合到一起，需要应用NMS算法去重，得到最后的人脸检测结果。

S3：对于步骤S2中获得的人脸框信息，设置一个置信度阈值，将置信度大于阈值、距离图片画面中心最近的人脸框作为要识别的目标；将框内人脸区域裁下，使用基于MobileNet+GRU的走神识别算法进行走神识别；

神识别模块借鉴YOLO结构搭建网络骨架，并添加一个借用人脸关键点信息进行额外监督的CBAM注意力模块，通过全局池化后得到当前帧的人脸特征向量，一方面直接添加一个辅助分支，用头部姿态估计作为辅助信息进行额外监督；另一方面通过GRU融合时序信息，在主分支进行走神识别分类，得到最后识别结果；其网络结构如图3所示，图中括号内的四个数字代表：输入通道、输出通道、卷积核大小、步长；两个数字代表：输入通道、输出通道；一个数字代表：隐藏单元数；网络以当前关键帧图像、上一关键帧提取的特征向量作为输入，同时输出当前帧头部姿态估计、当前帧走神识别结果。

S4：对于步骤S3中的网络骨架部分，除了第一层用普通卷积模块，即图中Conv模块，提取原始输入图像的像素特征外，均采用深度可分离卷积替代传统卷积，降低网络参数量和计算量；网络采用连读堆叠的BottleneckCSP模块和步长为2的深度可分离卷积模块，即图中DWConv模块，提取图片深度特征，后者还起到下采样的作用；每个卷积模块由一个卷积层+BN层+ReLU层组成，深度可分离卷积模块即采用深度可分离卷积层代替卷积层，其余不变；

BottleneckCSP模块采用了跨阶段局部连接和残差思想，在降低计算量的同时保留残差网络的强大特征提取能力，其结构如图4所示；模块将输入张量分为两路，其中一路通过一个卷积模块降低通道数，再经过N个残差模块提取特征，再通过一个独立卷积层调整维度空间；另一路直接通过一个额外的卷积层，将两路张量在通道维度拼接，共同通过BN层+ReLU激活层，最后再用一个独立的卷积层调整输出维度。

S5：在步骤S3中的网络骨架尾部添加一个注意力模块并保留恒等映射，用人脸关键点生成热力图进行额外监督，如附图5所示；

一方面，针对走神识别任务，网络应该更关注眼睛、嘴巴等关键位置，对脸颊等不重要的位置应该进行适度忽略，因此需要添加CBAM注意力模块进行特征增强和噪声抑制；另一方面，经计算可知在网络骨架最终输出的特征图中，每个单元格的感受野已达117个像素，若取走神识别任务图像输入分辨率为112×112，则特征图上每个单元格的感受野已经覆盖整个图像区域，此时传统的CBAM模块可能会将某些特征向量压缩到0左右，使其无法对最后的分类输出作出贡献，这显然是不合理的，所以需要保留恒等映射；CBAM计算过程如下所示：

Z_C＝F_e(U)⊙U

Z_CBAM＝F_p(Z_C)⊙Z_C

其中U为注意力模块的输入特征图，F_e代表获取通道注意力的函数，⊙为点乘操作，Z_C为施加通道注意力之后的特征图；F_p代表获取空间注意力的函数，Z_CBAM为施加空间注意力之后的特征图；

注意力模块网络结构如图6所示；F_e通过最大池化和平均池化将输入特征图U分两路压缩到一维向量，后续的两层核为1、步长为1的卷积层时期上起到全连接层的作用，并且最大池化和平均池化两路的卷积层共享参数，最后通过sigmoid激活函数即得到了取值范围为[0～1]的通道注意力，再与U进行点乘操作，即得到Z_C；F_p则在通道维度对Z_C进行最大池化和平均池化，将得到的两张通道数为1的注意力图在通道维度进行拼接，通过一层卷积层后进行sigmoid激活，得到取值范围为[0～1]的空间注意力，再与Z_C进行点乘操作得到Z_CBAM，即注意力模块的最终输出；

将施加注意力机制后的特征图进行全局平均池化，得到该帧人脸特征向量；

S6：对于步骤S3中的头部姿态估计辅助分支，利用步骤S5中得到的该帧人脸特征向量，通过一层全连接层，直接拟合头部姿态，俯仰角Pitch、偏航角Yaw、滚动角Roll，如附图7所示。

S7：对于步骤S3中的面部走神识别主分支，利用步骤S5中得到的该帧人脸特征向量，历史帧的历史信息，通过GRU单元提取时序特征，得到融合特征向量，通过一层全连接层后，对本帧人脸走神状态进行分类预测，通过softmax激活函数即可得到走神状态的得分；GRU计算公式如下：

r＝σ(W_r*[h_t-1,x_t])

z＝σ(W_z*[h_t-1,x_t])

对当前帧输入的特征向量x_t、历史帧记忆内容h_t-1，首先计算得到重置门r，用来控制记忆内容h_t-1在当前帧的输出预测贡献占比，得到当前帧的混合状态h′；然后计算更新门z，对记忆内容h_t-1和当前状态h′，同时起到选择记忆有效信息、遗忘无效信息的作用，最终得到输出特征向量h_t；GRU模块网络结构如附图8所示，各种门的求取都由全连接层完成；

S8：对于步骤S3中的CBAM注意力模块、头部姿态估计辅助分支、走神识别主分支这三个任务同时进行监督；对CBAM注意力模块，使用眼、鼻、口共51个面部关键点，使用高斯核生成热力图：

其中(x,y)为热力图中的点的横、纵坐标，(x₀,y₀)为面部关键点的横、纵坐标，σ＝10为高斯核标准差；若关键点生成的类高斯分布之间存在重叠区域，则按元素取最大值作为热力图的对应值；损失函数取二元交叉熵：

其中y_i,p_i分别为对应位置的热力图真值与CBAM注意力图预测值；

对头部姿态估计辅助分支，由于三个姿态角取值均为连续值，故可采取均方误差函数作为损失函数；同时为了加快收敛，可对网络输出值进行缩放：

其中y_i,p_i分别为头部姿态角的真值与预测值，ε＝5为缩放系数；

对走神识别主分支，对定义的几个走神状态进行多分类，采用交叉熵损失函数即可：

对三个子任务损失进行加权，即可得到网络总损失：

L＝λ_attL_att+λ_poseL_pose+λ_clsL_cls

本发明取λ_att＝λ_pose＝λ_cls＝1.0；

S9：根据步骤S3中头部姿态估计分支的输出结果生成初始角，方便结合后续帧的头部姿态角对网络输出结果进行矫正；再加上对网络预测得分的平滑操作，即可得到走神识别算法的最终结果。

本发明将基于深度学习的人脸检测结合表情识别的范式应用到了面部走神识别领域，并且通过基于轻量级网络设计的算法有效提取空间特征和时序特征生成走神状态得分，兼顾速度与精度，具有良好的实用效果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习面部识别的轻量级走神判别方法，其特征在于：包括以下步骤：

S1)：对视频流的关键帧，采用基于ResNet10-SSD的人脸检测算法，选择ResNet10作为骨架，提取输入图片的深度特征，再送入一系列连续堆叠的卷积模块；根据网络不同阶段提取到的不同尺度的特征，分别送入SSD检测头，同时预测图片中人脸框的定位信息和置信度；

S2)：对步骤S1中获得的人脸框使用NMS进行去重，并设置一个置信度阈值，将置信度大于阈值、离画面中心最近的人脸框，作为当前帧的人脸目标；

S3)：对步骤S2中获得的人脸区域进行裁剪，采用基于MobileNet+GRU的走神识别算法，借鉴YOLO结构搭建网络骨架，进行人脸深度特征的提取；

S4)：对步骤S3中获得的脸深度特征图，添加一个借用人脸关键点信息进行额外监督的注意力模块，并保留恒等映射，通过全局池化后得到当前帧的人脸特征向量；

S5)：对步骤S4中获得的当前帧人脸特征向量，通过一个辅助分支，用头部姿态估计作为辅助信息进行额外监督；

S6)：对步骤S4中获得的当前帧人脸特征向量，通过GRU融合时序信息，在主分支进行走神识别分类，得到走神状态识别得分；

S7)：用步骤S5中头部姿态估计分支的输出结果生成初始角，结合后续帧的头部姿态角对网络输出结果进行矫正；再加上对步骤S6中预测得分的平滑操作，即可得到走神识别算法的最终结果。

2.根据权利要求1所述的一种基于深度学习面部识别的轻量级走神判别方法，其特征在于，在网络骨架部分，除了第一层用普通卷积模块提取原始输入图像的像素特征外，均采用深度可分离卷积替代传统卷积，降低网络参数量和计算量，网络骨架采用连续堆叠的BottleneckCSP模块和步长为2的深度可分离卷积模块提取图片深度特征，后者还起到下采样的作用。

3.根据权利要求1所述的一种基于深度学习面部识别的轻量级走神判别方法，其特征在于，在网络骨架尾部添加一个注意力模块并保留恒等映射，并使用眼、口等51个面部关键点，使用高斯核生成热力图，对空间注意力进行额外监督，若关键点生成的类高斯分布之间存在重叠区域，则按元素取最大值作为热力图的对应值。

4.根据权利要求1所述的一种基于深度学习面部识别的轻量级走神判别方法，其特征在于，在注意力模块之后添加一个头部姿态估计辅助分支，直接拟合头部姿态。

5.如权利要求1所述的基于MobileNet+GRU的走神识别算法，其特征在于，在注意力模块之后，通过一个GRU模块融合时序信息，添加面部走神识别主分支，通过softmax激活函数即可得到走神状态的得分。

6.如权利要求1所述的基于MobileNet+GRU的走神识别算法，其特征在于，需要对注意力模块、头部姿态估计辅助分支、走神识别主分支这三个任务同时进行监督；

对注意力模块，损失函数取二元交叉熵：

其中y_i,p_i分别为对应位置的热力图真值与注意力图预测值；

对头部姿态估计辅助分支，损失函数取均方误差函数，同时为了加快收敛，可对网络输出值进行缩放：

其中y_i,p_i分别为头部姿态角真值与预测值，ε为缩放系数；

对面部走神识别主分支，损失函数取交叉熵：

对三个子任务损失进行加权，即可得到网络总损失：

L＝λ_attL_att+λ_poseL_pose+λ_clsL_cls

其中λ_att,λ_pose,λ_cls为权重系数。