CN116092168A

CN116092168A - 一种课堂环境下的人脸识别检测方法

Info

Publication number: CN116092168A
Application number: CN202310300898.3A
Authority: CN
Inventors: 张锦; 陶佳宏; 孙程; 陶占亚
Original assignee: Hunan Le Ran Intelligent Technology Co ltd
Current assignee: Hunan Le Ran Intelligent Technology Co ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-05-09

Abstract

本发明具体公开了一种课堂环境下的人脸识别检测方法，所述方法包括：S1、对YOLOV5算法的网络框架进行改进，具体包括：在原YOLOV5算法的网络框架上增加一个小尺度人脸检测层；然后，基于特征融合方法建立不同通道自适应多尺度卷积骨干网络；最后将数据金字塔融合策略应用于自适应多尺度卷积骨干网络中；S2、基于预设的训练数据集对所述改进后的YOLOV5算法网络进行训练；S3、基于训练好的改进后的YOLOV5算法网络模型对课堂环境下人脸图像进行识别检测。本发明降低了课堂环境下人脸的漏检率，解决了小尺度人脸难以检测的问题，同时也解决了尺度不一以及模糊人脸检测效果不佳的问题。

Description

一种课堂环境下的人脸识别检测方法

技术领域

本发明涉及人脸识别技术领域，尤其涉及一种课堂环境下的人脸识别检测方法。

背景技术

近些年来，人脸检测已经得到了突飞猛进的发展，最先进的算法在各项大型公开数据集的精确度也已经达到了90%以上。由于真实环境下的数据集的缺少以及数据集质量参差不齐等因素，非约束环境下的人脸检测算法准确率较低。课堂环境作为非约束环境之一，光照条件、人脸姿态、运动以及人脸与相机的相对距离不一等都是课堂环境中人脸检测的难点。随着智慧教育的推广，课堂环境下的人脸检测有助于人脸识别、无感考勤、学生专注度检测等后续工作的研究。越来越多的学者开始研究课堂环境下的人脸检测。

Phakjira等人将通用实例分割与鲁棒人脸检测算法相结合的综合方法检测人脸并分割出学生这一对象；Karnalim等人提出了一个公开的课堂环境人脸检测数据集，并使用4种预训练模型对数据集进行量化，但是该数据集人脸清晰且分散，并不适用于10人以上课堂环境人脸检测；Hu提出了一个非公开的0-15人的课堂环境人脸检测数据集并通过MTCNN结合HOG算法检测学生人脸；Liu 等人根据教室内学生人数规模大小建立了完整课堂环境的人脸数据集，并通过优化Faster RCNN完成学生人脸检测；Gu通过简化MTCNN，并引入残差生成特征模块实现对真实课堂环境下学生人脸的检测。

发明内容

为解决上述技术问题，本发明提供一种课堂环境下的人脸识别检测方法，所述方法包括以下步骤：

S1、对YOLOV5算法的网络框架进行改进，获取改进后的YOLOV5算法网络框架，具体包括：首先在原YOLOV5算法的网络框架上增加一个小尺度人脸检测层；然后，基于特征融合方法建立不同通道自适应多尺度卷积骨干网络；最后将数据金字塔融合策略应用于自适应多尺度卷积骨干网络中；

S2、基于预设的训练数据集对所述改进后的YOLOV5算法网络进行训练，获得训练好的改进后的YOLOV5算法网络模型；

S3、基于训练好的改进后的YOLOV5算法网络模型对课堂环境下人脸图像进行识别检测。

优选地，所述步骤S1在原YOLOV5算法的网络框架上增加一个小尺度人脸检测层，具体为：基于原YOLOV5算法的PANet网络框架增加一个用于检测4×4以上绩效人脸的160×160特征输出层。

优选地，所述步骤S1基于特征融合方法建立一个不同通道自适应多尺度卷积骨干网络，至少包括以下步骤：

S11、将原特征图通过不同尺度卷积并进行拼接，生成新的多尺度特征图；

S12、利用SE注意力机制模块提取新的多尺度特征图中不同通道的注意力权重，并通过softmax函数对对应通道方向的注意力向量进行重新标定，得到自适应多尺度融合特征图；

S13、将原特征图与自适应多尺度融合特征图进行匹配拼接，进而得到拼接特征图，实现不同通道自适应多尺度卷积骨干网络的建立。

优选地，所述步骤S11具体为：首先，利用一个1×1卷积降低原特征图的参数量，然后将卷积后的原特征图通道分为四组，针对不同通道的原特征图使用多种尺度的卷积核分组卷积，用公式表示为：

（1）

式（1）中，表示输出通道数，表示输入通道数；

其中，原特征图对应的四组不同空间特征利用式（1）可以学习到不同尺度的空间信息，并基于Concatenation方式实现跨通道融合，得到新的多尺度特征图，用公式表示为：

（2）

式（2）中，表示新的多尺度特征图，分别表示不同尺度卷积后的特征图。

优选地，所述步骤S12具体为：首先，利用SE注意力机制模块提取新的多尺度特征图中每个尺度的注意力权重，用公式表示为：

（3）

式（3）中，表示SE注意力机制模块在新的多尺度特征图中提取的不同尺度的注意力权重，表示不同尺度卷积后的特征图，表示尺度卷积；

然后，将不同尺度的注意力权重融合，得到通道方向的注意力向量，用公式表示为：

（4）

式（4）中，表示通道方向的注意力向量；

最后，利用softmax函数对通道方向的注意力向量进行重新标定，用公式表示为：

（5）

式（5）中，表示重新标定后的通道方向的注意力向量。

优选地，所述步骤S13具体为：首先，将重新标定的通道方向的注意力向量与对应通道的多尺度特征图相乘，得到加权特征图，用公式表示为：

（6）

式（6）中，表示第个尺度对应的加权特征图；

然后，将原特征图与加权特征图在维度上进行拼接，得到拼接特征图，进而完成不同通道自适应多尺度卷积骨干网络的建立，用公式表示为：

（7）

式（7）中，表示拼接特征图。

优选地，所述步骤S13中的拼接特征图还可进一步拼接，具体为：通过1×1卷积降低参数，然后将原特征图与拼接特征图在维度上进一步拼接，用公式表示为：

（8）

式（8）中，表示进一步拼接后的拼接特征图，表示对输入图像进行卷积。

优选地，所述步骤S1将数据金字塔融合策略应用于自适应多尺度卷积骨干网络中的具体表现为：通过上采样和下采样将需要融合的特征图修改为统一尺寸，然后设定不同的权重值将需要融合的特征图进行融合。

优选地，所述步骤S2中，基于预设的训练数据集对所述改进后的YOLOV5算法网络进行训练的损失函数为边框回归损失函数和目标损失函数的联合函数，其用公式表示为：

（9）

式（9）中，表示边框回归损失函数，表示目标损失函数，其中：

，式中，表示predictionbox，表示ground-truth box，表示包含和的最小矩形框；

，式中，表示真实标签，表示模型预测框内是否为人脸，表示样本，表示样本总数。

与现有技术比较，本发明所提供的一种课堂环境下的人脸识别检测方法，所述检测方法通过增加一个小尺度人脸检测层，能够对课堂环境下的小人脸进行有效识别；同时，利用不同通道自适应多尺度卷积骨干网络保证原有特征图特征不损失的基础上得到新的特征，以实现对尺度不一以及模糊人脸的有效检测；而且，将数据金字塔融合策略应用到自适应多尺度卷积骨干网络中，实现了不用尺度检测层之间的自适应融合，进而能够有效降低课堂环境下人脸的漏检率。

附图说明

图1是本发明一种课堂环境下的人脸识别检测方法的流程图，

图2是本实施例中测试集中各子集对应部分数据示例图，

图3是训练过程中损失函数的变化过程图以及指标值变化曲线图，

图4是YOLOV5原骨干网络与本发明改进后的自适应多尺度骨干网络特征提取对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

如图1所示，一种课堂环境下的人脸识别检测方法，所述方法包括以下步骤：

在本步骤中，由于原YOLOV5算法检测器的输出部分使用PANet，在YOLOV5算法中，PANet有三层输出，每一层检测不同的尺度，分别对应80×80,40×40,20×20，分别用来检测8×8,16×16,32×32的物体。但是在公开数据集WIDERFACE以及通过网络爬取的真实课堂环境下的人脸图像中，有些人脸图像小于8×8，故现有的锚框无法有效检测出较小人脸，因此，基于原YOLOV5算法的PANet网络框架增加一个160×160特征输出层用于检测4×4以上绩效人脸的；

基于特征融合方法建立一个不同通道自适应多尺度卷积骨干网络，至少包括以下步骤：

本步骤具体包括：首先，采用分离通道的方式提取原特征图的空间信息，并通过不同尺度进行卷积，进而获得不同通道的张量信息以及可以并行化处理多尺度特征，即：首先利用一个1×1卷积降低骨干网络的参数量，然后将卷积后的原特征图通道分为四组，针对不同通道的原特征图使用多种尺度的卷积核分组卷积，用公式表示为：

（1）

式（1）中，表示输出通道数，表示输入通道数；

（2）

式（2）中，表示新的多尺度特征图，分别表示不同尺度卷积后的特征图；

本步骤具体包括：首先，利用SE注意力机制模块提取新的多尺度特征图中每个尺度的注意力权重，用公式表示为：

（3）

式（3）中，表示SE注意力机制模块在新的多尺度特征图中提取的第个尺度的注意力权重，表示不同尺度卷积后的特征图，表示尺度卷积；

（4）

式（4）中，表示通道方向的注意力向量；

（5）

式（5）中，表示重新标定后的通道方向的注意力向量；

S13、将原特征图与自适应多尺度融合特征图进行匹配拼接，进而得到拼接特征图，实现不同通道自适应多尺度卷积骨干网络的建立；

本步骤具体包括：首先，将重新标定的通道方向的注意力向量与对应通道的多尺度特征图相乘，得到加权特征图，用公式表示为：

（6）

式（6）中，表示第个尺度对应的加权特征图；

（7）

式（7）中，表示拼接特征图，

将拼接特征图与原特征图在维度上进一步拼接，保证原有特征信息不丢失的情况下以获取更加细化的特征，用公式表示为：

（8）

式（8）中，表示进一步拼接后的拼接特征图，表示对输入图像进行卷积；

本步骤中，将数据金字塔融合策略应用于自适应多尺度卷积骨干网络中具体表现为：通过上采样和下采样将需要融合的特征图修改为统一尺寸，然后设定不同的权重值将需要融合的特征图进行融合；

实施例中，由于PANet中输出的四层特征图具有不同的尺寸以及不同的通道数，首先通过上采样与下采样算法将四层特征图中需要融合的特征图相应修改为统一尺寸；比如：第1、3、4层的特征图需要与第2层特征图融合，则将1、3、4层特征图尺寸以及通道数做相应修改，与第2层的特征图的特点保持一致，用公式表示为：

&& （10）

然后，设定分别表示不同权重值将第1、3、4层的特征图与第2层特征图进行融合，用公式表示为：

（11）

式（11）中，表示第层特征，表示层到层加权融合的位置的特征向量，表示层调整到层特征图上位置的特征映射向量，分别表示通过softmax自适应学习的四个不同层级分别融合到层的权重值，

，其中是使每一个层的位置的特征经过1×1卷积计算得到的控制参数，满足条件，且。

本步骤中，所述预设的训练数据集来自于WIDERFACE dasets与Classroom-Facedataset的混合数据集，并基于半自动化标注方法对预设的训练数据集进行数据标注，具体来说，使用矩形框标记所有预设的训练数据集中图像的人脸边界，并参考PASCAL VOC数据集进行数据清洗以去除人类肉眼无法识别的人脸，同时保持其与PASCAL VOC数据集格式一致；然后使用开源项目MTCNN中训练好的模型对预设的训练数据集中的原始图像进行初步人脸识别并将结果保存为XML格式以便于使用Lablemage进行调整。

本实施例中，所述改进后的YOLOV5算法网络进行训练的损失函数为边框回归损失函数和目标损失函数的联合函数，其用公式表示为：

（9）

，式中，表示prediction box，表示ground-truth box，表示包含和的最小矩形框；

，式中，表示真实标签，表示模型预测框内是否为人脸，表示样本，表示样本总数；

在训练过程中，为了实现模型的最佳性能，本实施例将迭代次数设置为500，权重衰减系数设置为0.001，学习率动量设置为0.94，学习率为0.01，以防止训练过程中出现过拟合，Epoch设置为16，为了避免缩小图像尺寸导致的特征消失，减小训练难度，将图像大小设置为800×800。

如图3所示，图3示出了模型在WIDERFACE数据集中训练以及测试过程中各损失函数的变化过程以及Precision、recall以及mAP的变化曲线图，图3a示出了训练过程中整体损失，其中，train_loss是指训练过程中的整体损失，obj_loss是指训练中人脸分类损失，box_loss是指训练中人脸位置损失；图3b示出了指测试过程的整体损失，其中，val_loss是指测试过程中的整体损失，val_obj指测试中人脸分类损失，val_box测试中人脸位置损失；图3c示出了评价指标，其中，召回率指测试中的召回率，精确率指测试中的精确率，从图3中可以看出，400个epoch左右，损失趋于平缓，平均精度mAP达到最优，一个epoch表示：所有的数据送入网络中完成了一次前向计算和反向传播的过程。

综上所述，本发明所提供的人脸识别检测方法通过在原YOLOV5的网络框架上增加一个小尺度人脸检测层，能够对课堂环境的图像中8×8以下的小人脸进行有效识别；同时，基于特征融合方法建立不同通道自适应多尺度卷积骨干网络，能够保证原有特征图特征不损失的基础上得到新的特征，实现了对图像中尺度不一以及模糊人脸的有效检测；而且，将数据金字塔融合策略应用到自适应多尺度卷积骨干网络中，实现了不用尺度检测层之间的自适应融合，进而能够有效降低课堂环境下人脸的漏检率。

为了验证本发明提供的课堂环境下的人脸识别检测方法在课堂环境下人脸识别应用上的有效性以及鲁棒性，使用大型公开人脸数据集WIDERFACE进行广泛人脸测试实验，并通过自建数据集Classroom-Face Dataset进行课堂环境下的学生人脸检测。

如图2所示，测试集共包含1582张课堂环境中的图像，并将测试集分成简单\中等难度\困难三个子集，每个子集中均包含自然光线以及昏暗光线，其中，简单子集包含1-20人课堂环境；中等难度子集是指包含20-30人次的拥挤课堂环境；困难子集中学生人数为30-50人不等，座位较为拥挤且像素不佳。图2a表示简单子集中的自然光线图像，图2b表示简单子集中的昏暗光线图像，图2c表示中等难度子集中的自然光线图像，图2d表示中等难度子集中的昏暗光线图像，图2e表示困难子集中的自然光线图像，图2f表示困难子集中的昏暗光线图像。具体数值如表1所示。

表1 测试集构成表

处于公平的目的，很多人脸检测算法未在github上开源，无法单独比较，因此，本实施例在Widerface数据集上，将本发明提供的人脸检测方法与现阶段SOTA的人脸检测方法进行比较，Widerface数据集的人脸检测方法可以分为基于关键点训练以及矩形框训练算法。本实施例考虑到后续自建数据集的人力以及时间问题，在数据集中未标注人脸关键点，不使用关键点进行人脸检测，因此将本发明提出的人脸检测方法与WIDERFACE数据集上其他基于矩形框的经典人脸检测方法进行了比较，比较结果如表2所示。

表2 本发明与WIDERFACE数据集上其他基于矩形框的经典人脸检测方法比较结果表

从表2中可以看出，本发明所提供的人脸检测方法在简单、中等难度和困难子集上分别达到了95.6%、94.7%、89.1%，而且本发明所提供的的人脸检测方法在未使用关键点标注数据集训练的情况下在Widerface数据集简单、中等难度和困难子集上的检测结果均高于现阶段其他基于矩形框的经典人脸检测算法的检测结果，进而证明了本发明提供的人脸检测方法具有良好的性能。

进一步地，通过实验测试了原始YOLOV5与本发明提供的人脸检测方法AMFN-YOLOV5在Classroom-Face Dateset上的性能，如表3所示，无论是Recall、Precision以及mAP，本发明提供的人脸检测方法都表现出优异的性能。其中，简单数据集中的自然光线与较暗光线下，本发明提供的人脸检测方法的MAP提升了1.7%以及1.69%；中等难度数据集中，自然光线与较暗光线下，mAP分别提升了0.64%以及1.67%；困难数据集中mAP分别提升了1.08%和4.5%。这说明了本发明提供的人脸检测方法在教室昏暗光线下，检测小人脸效果更佳。

表3 原YOLOV5与本发明 AMFN-YOLOV5的性能测试表

如图4所示，图4示出了YOLOV5原骨干网络与本发明改进后的自适应多尺度骨干网络特征提取对比图，图4a示出了YOLOV5原骨干网络（CSP_feature）特征提取示意图，图4b示出了本发明改进后的自适应多尺度骨干网络（AMFN_feature）特征提取示意图，从图4中可以看出，AMFN_feature提取到的特征更加丰富且重要，极大地避免了背景的干扰，其为后续特征融合创造了更加干净的环境，使得人脸检测更具鲁棒性。

进一步对本发明AMFN-YOLOv5与原YOLOv5进行消融实验，消融实验结果如表4所示，从表4中可以明显看出，增加检测层可以有效提高距离相机较远的小人脸的检测精确度,课堂环境下的较难人脸在昏暗光线下的准确度提升了1.5%，自然光线下提升了0.75%，而通过构造AMFN骨干网络，课堂环境下困难子集中昏暗光线环境下的检测准确度在添加anchor的基础上提升了1.97%，自然光下的人脸检测mAP提升了0.96%，原因是通过不同尺度的卷积操作以及多通道自适应融合，使得骨干网络更有效的提取到较小的人脸特征信息，同时在加入自适应金字塔特征融合策略后，与添加anchor检测层以及优化骨干网络相比，各子集的mAP均有显著提高，这说明了融合位置信息以及深层特征信息之后的网络更能有效检测非约束性环境下的拥挤人脸。

表4 本发明AMFN-YOLOv5与原YOLOv5的消融实验结果表

将本发明所提供的人脸检测方法与Github上现有的基于边框的人脸检测开源算法Pymidbox以及Facebox进行对比，为了公平，其中IOU阈值为0.5，置信度设为0.6，对比结果如表5所示，从表5中可以看出，本发明提供的人脸检测方法在简单/中等难度/困难三个子集上均取得较好的性能。

表5本发明检测方法与Github上的Pymidbox以及Facebox进行对比的结果表

以上对本发明所提供的一种课堂环境下的人脸识别检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种课堂环境下的人脸识别检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S1在原YOLOV5算法的网络框架上增加一个小尺度人脸检测层，具体为：基于原YOLOV5算法的PANet网络框架增加一个用于检测4×4以上绩效人脸的160×160特征输出层。

3.如权利要求2所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S1基于特征融合方法建立一个不同通道自适应多尺度卷积骨干网络，至少包括以下步骤：

4.如权利要求3所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S11具体为：首先，利用一个1×1卷积降低原特征图的参数量，然后将卷积后的原特征图通道分为四组，针对不同通道的原特征图使用多种尺度的卷积核分组卷积，用公式表示为：

（1）

式（1）中，表示输出通道数，表示输入通道数；

（2）

5.如权利要求4所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S12具体为：首先，利用SE注意力机制模块提取新的多尺度特征图中每个尺度的注意力权重，用公式表示为：

（3）

（4）

式（4）中，表示通道方向的注意力向量；

（5）

式（5）中，表示重新标定后的通道方向的注意力向量。

6.如权利要求5所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S13具体为：首先，将重新标定的通道方向的注意力向量与对应通道的多尺度特征图相乘，得到加权特征图，用公式表示为：

（6）

式（6）中，表示第个尺度对应的加权特征图；

（7）

式（7）中，表示拼接特征图。

7.如权利要求6所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S13中的拼接特征图还可进一步拼接，具体为：通过1×1卷积降低参数，然后将原特征图与拼接特征图在维度上进一步拼接，用公式表示为：

（8）

8.如权利要求7所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S1将数据金字塔融合策略应用于自适应多尺度卷积骨干网络中的具体表现为：通过上采样和下采样将需要融合的特征图修改为统一尺寸，然后设定不同的权重值将需要融合的特征图进行融合。

9.如权利要求8所述的课堂环境下的人脸识别检测方法，其特征在于，所述步骤S2中，基于预设的训练数据集对所述改进后的YOLOV5算法网络进行训练的损失函数为边框回归损失函数和目标损失函数的联合函数，其用公式表示为：

（9）