CN111931623A

CN111931623A - 一种基于深度学习的人脸口罩佩戴检测方法

Info

Publication number: CN111931623A
Application number: CN202010764905.1A
Authority: CN
Inventors: 温秀兰; 姚波; 赵艺兵; 孙乔; 崔伟祥; 宋爱国
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-13

Abstract

本发明公开了一种基于深度学习的人脸口罩佩戴检测方法，包括如下步骤：S1、数据准备并制作训练集；S2、构建YOLOV4目标检测模型；S3、人脸口罩佩戴检测模型进行视频流实时检测；S4、通过YOLOV4的特征提取网络，提取三个特征层，三个特征层的预测结果分别对应三个边界框的位置；通过先验框对边界框的预测与回归，就可以获得多个边界框的信息，通过非极大值抑制算法，保留置信分最高的边界框作为目标的检测框，从而确定检测框的最终位置，检测识别未佩戴口罩人员。本发明实现了对佩戴口罩和未佩戴口罩人员的检测识别，通过采用YOLOV4目标检测算法，识别的精确度和速度大大提高。

Description

一种基于深度学习的人脸口罩佩戴检测方法

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于深度学习的人脸口罩佩戴检测方法。

背景技术

近期全球新型冠状病毒肆虐，戴口罩的人急剧增多，这就给我们提供了海量样本数据。收集训练样本，建立全球最大口罩人脸数据集，并向社会开放，这为当前及今后可能发生类似的公共卫生安全事件，能够采取智能管控，减少人民生命财产的损失。基于人脸口罩数据，设计相应口罩遮挡人脸检测和识别算法，能够帮助社区封闭的人员进出管控、车站、机场的人脸识别闸机以及人脸门禁考勤设备的升级，所以快速而精确的检测识别出人们佩戴口罩的问题急需解决，对于日后生活中的安全管理及智能化信息管理具有重要的意义。

一项检测率高的人脸口罩识别技术必须要有相应的目标检测算法相结合，而随着深度学习的兴起，一种新的基于卷积神经网络的目标检测算法应运而生，其中最具代表性的就是YOLO算法。目前最新的YOLOV4算法采用了 CSPDarknet53(Cross Stage PartialDarknet53，简称CSPDarknet53)作为其骨干网络，该骨干网络具有更大的感受野，对特征提取的能力更强，是一个能够从比较特殊的角度切入，在降低计算量的情况下依旧保持甚至提高卷积神经网络 (Convolutional Neural Network，简称CNN)能力的一种骨干网络，该网络能够通过梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时还能保证准确率，与其它主流目标检测骨干网络相比，在相同帧率(Frames Per Second，简称 FPS)的情况下，CSPDarknet53网络的准确率更有竞争力。

YOLOV4是2020年4月刚刚发布的一个新型目标检测算法，作为一个全新的神经网络结构，相比于之前的YOLOV3，它重新设计了特征提取的骨干网络的结构，并且采用了全新的Mish激活函数，整个网络中大量采用卷积层，取消了全连接层。在微软出资标注的COCO(Common Object in Contex，简称COCO) 数据集上，该数据集有超过33万张图片，80个类别，YOLOV3在COCO数据集上检测效果良好，但还是存在实时性不高，检测精度低的情况，而YOLOV4 与YOLOV3相比，其在COCO数据集上的平均精度(Average Precision，简称AP) 和FPS分别提高了10％和12％，实时性提高，现如今将YOLOV4应用于人脸口罩佩戴检测领域，能够快速而精确的检测识别出人们佩戴口罩的情况。

发明内容

本发明针对现有技术中的不足，提供一种基于深度学习的人脸口罩佩戴检测方法，通过大量的训练样本，能够实现对佩戴口罩和未佩戴口罩人员的检测识别，增强了识别口罩的鲁棒性，在不同场景和环境中能够实现实时检测且泛化能力较强，检测速度及准确率也大大提高。

为实现上述目的，本发明采用以下技术方案：一种基于深度学习的人脸口罩佩戴检测方法，包括如下步骤：

S1、数据准备并制作训练集；

S2、构建YOLOV4目标检测模型；

S3、人脸口罩佩戴检测模型进行视频流实时检测；

S4、通过YOLOV4的特征提取网络，提取三个特征层，三个特征层的预测结果分别对应三个边界框的位置；通过先验框对边界框的预测与回归，就可以获得多个边界框的信息，通过非极大值抑制算法，保留置信分最高的边界框为目标的检测框，从而确定检测框的最终位置，检测识别未佩戴口罩人员。

为优化上述技术方案，采取的具体措施还包括：

S11、获取训练样本数据，对样本数据进行整理、清洗和重新标注；

S12、将样本数据进行分类，将图片进行数据增强，生成更多的训练样本，形成训练集；

S13、对获得的训练集进行标注，标注类别分为两类，分别是戴口罩的mask (0)和未戴口罩的nomask(1)。

进一步地，获取训练样本数据包括从AIZOO与RMFD数据集中获取、网上收集手捂图片、视频帧抽取图片。

进一步地，步骤S12中，对图片进行数据增强的方法包括改变图片的旋转角度、调整图片的饱和度、曝光量和色调。

进一步地，对训练集进行标注，建立XOY像素坐标系，其中O为像素坐标系的原点，位于图像的左顶点处，在此坐标系下，通过labelImg软件对目标进行框选，得到一个矩形标记框，其中，x_o代表标记框中心点的像素横坐标，y_o代表标记框中心点的像素纵坐标，(x_min，y_min)代表标记框左上角的像素坐标， (x_max，y_max)代表标记框右下角的像素坐标，W和H分别代表了图像的总宽度和总高度。分别将标记框中心点的像素横纵坐标和标记框的宽度，高度进行归一化处理，得到YOLOV4格式所需要的x、y、w、h四个坐标信息，如下式所示：

x＝x_o/W

y＝y_o/H

w＝(x_max-x_min)/W

h＝(y_max-y_min)/H

进一步地，步骤S2中具体包括：

S21、通过YOLOV4原有的CSPDarknet53骨干网络来进行特征的提取，再将空间金字塔池化层、感知对抗网络、YOLOV3一同与其骨干网络相结合，形成更加完整的检测网络，进一步对提取的特征细化；

S22、将步骤S21得到的特征通过Keras/Tensorflow深度学习框架来构建 YOLOV4的目标检测模型。

进一步地，步骤S3包括：

S31、利用步骤S2构建的YOLOV4目标检测模型对步骤S1获得训练数据集进行训练，从而得到人脸口罩佩戴检测的模型；

S32、将获得的人脸口罩佩戴检测的模型对输入的视频进行实时检测识别，获得视频帧内的各个检测框位置、大小以及类别。

进一步地，步骤S4包括，

当前视频帧通过YOLOV4的特征提取网络来提取三个特征层，每个特征层的预测结果对应着三个边界框的位置；通过解码计算出每个边界框的中心点坐标；再通过和先验框的宽高结合，得到整个边界框的位置；最后通过非极大值抑制筛选，去除冗余的边界框，得到最终检测框的位置。

进一步地，步骤S4包括，

S41、使用迁移学习网络，即将已经训练好的模型参数迁移到新的模型来帮助训练，加快并且优化模型的学习效率；

S42、使用微软公司在COCO数据集上训练好的yolov4.conv.137作为网络的权重文件，通过不断训练，逐渐的加快并且优化目标检测模型，根据权重文件匹配到最合适的预测框，实现未佩戴口罩人员的检测识别。

本发明的有益效果是：本发明提供的一种基于深度学习的人脸口罩佩戴检测方法，引入了高效强大的CSPDarknet53骨干网络来代替之前的Darknet53网络来进行特征提取，利用CSPDarknet53骨干网络构建YOLOV4目标检测模型，并且在CSPDarknet53上添加了空间金字塔池化层，极大地增加感受野，分离出最显著的上下文特征，并且几乎没有降低网络处理的速度；提出了逻辑回归计算边界框，提高了边界框的检出率；将大量的训练样本通过深度网络学习框架进行训练，实现对佩戴口罩和未佩戴口罩人员的检测识别。本发明使得目标检测的速度达到40帧每秒，检测精度达到94％，极大地满足了实时性的要求，还能够实时掌握未佩戴口罩人员的情况。

附图说明

图1：本发明人脸口罩佩戴检测方法的总体流程图。

图2：本发明实施例中训练集制作过程示意图。

图3：本发明实施例中数据集边界框的坐标系建立示意图。

图4：本发明实施例中目标检测骨干网络流程图。

图5：本发明实施例中目标检测训练结果图。

图6：本发明实施例中训练结果数据图。

图7：本发明实施例中采用YOLOV3训练结果数据图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

如图1所示，本发明提出的一种基于深度学习的人脸口罩佩戴检测方法，包括以下步骤：

S1、数据准备并制作训练集；

S2、构建YOLOV4目标检测模型，在Keras\Tensorflow的深度学习框架下搭配环境；

S3、人脸口罩佩戴检测模型进行视频流实时检测，YOLOV4算法的构建和样本数据的训练；

S4、利用YOLOV4的特征提取网络，提取三个特征层，三个特征层的预测结果分别对应三个边界框的位置；通过先验框对边界框的预测与回归，就可以获得多个边界框的信息，通过非极大值抑制算法，保留置信分最高的边界框为目标的检测框，从而确定检测框的最终位置，最终实现对未佩戴口罩人员的检测识别。在YOLOV4算法中，检测网络会将输入的图像划分成S×S个大小相同的单元格，如果目标的中心点落入某一单元格内，则该网格负责预测该目标，一个单元格需要预测多个边界框，每个边界框包含置信度和预测的位置信息；通过先验框对边界框的预测与回归，就可以获得多个边界框的信息，通过非极大值抑制算法，去除置信分较低的边界框，保留置信分最高的边界框为目标的检测框，从而确定检测框的最终位置。

在一实施例中，具体的，步骤S1包括以下步骤：

S11、通过网络资源搜集各种人脸图片和带口罩的图片，将获得图片作为训练样本。训练样本数据从AIZOO(Artificial Intelligence ZOO，简称AIZOO)， RMFD(Real-wordMask Face Dataset，简称RMFD)数据集中获取，这些数据集中的一些图片并不是我们所需要的，所以有必要进行整理，并且一些图片已经进行过标注，但是有些标注的信息存在缺失的现象，比如图片的宽高信息丢失等，这时候就需要将这些图片原有的标注信息进行清洗，重新进行标注；

S12、将样本数据进行分类，其中AIZOO数据集选择8000张图片，RMFD 数据集选择3000张图片，网上收集手捂图片和视频帧抽取图片144张，总共9144 张图片作为训练集，然后将这些图片进行数据增强，比如改变图片的旋转角度、调整饱和度、曝光量和色调等，从而生成更多的训练样本，形成训练集；

S13、将获得的训练集，通过labelImg软件进行标注，标注类别分为两类，分别是戴口罩的(mask(0))和未戴口罩的(nomask(1))；

S14、利用IabelImg软件进行标注，其图片坐标信息会生成xml文件，需要转化成YOLOV4格式的txt标记文件，建立XOY像素坐标系，其中O为像素坐标系的原点，位于图像的左顶点处，在此坐标系下，通过labelImg软件对目标进行框选，得到一个矩形标记框，其中，x_o代表标记框中心点的像素横坐标，y_o代表标记框中心点的像素纵坐标，(x_max，y_max)代表标记框右下角的像素坐标， (x_min，y_min)代表标记框左上角的像素坐标，W和H分别代表了图像的总宽度和总高度。分别将标记框中心点的像素横纵坐标和标记框的宽度，高度进行归一化处理，得到YOLOV4格式所需要的x、y、w、h四个坐标信息。

x＝x_o/W

y＝y_o/H

w＝(x_max-x_min)/W

h＝(y_max-y_min)/H

步骤S2包括以下步骤：

S21、通过YOLOV4原有的高效强大的CSPDarknet53骨干网络代替之前的Darknet53网络来进行特征的提取，再将空间金字塔池化层(Spatital Pyramid Pooling，简称SPP)，感知对抗网络(Perceptual Adversarial Network，简称PAN)， YOLOV3和其骨干网络相结合，形成更加完整的检测网络，进一步对提取的特征细化。构建YOLOV4目标检测模型，利用逻辑回归计算边界框位置，能够提高边界框的检出率，使得YOLOV4目标检测模型更加准确高效。

S22、将获取的特征通过Keras/Tensorflow深度学习框架来构建YOLOV4的目标检测模型。具体地，在python中安装好Tensorflow1.4版本，从而在后续的程序中可以调用keras相关函数，利于程序的编译。

步骤S3包括以下步骤：

S32、将获得的人脸口罩佩戴检测的模型对输入的视频进行实时检测识别，获得视频帧内的各个检测框位置，大小以及类别。

步骤S4包括以下步骤：

当前视频帧通过YOLOV4的特征提取网络来提取三个特征层，每个特征层的预测结果对应着三个边界框的位置，但这个预测结果并不对应着最终的边界框在图片上的位置。对于确定一个边界框需要4个参数，还需要通过解码算出边界框的中心点坐标和宽、高，再通过和先验框的宽高结合，得到整个预测的边界框的位置，最后通过非极大值抑制筛选，去除冗余的边界框，将置信分较高的边界框作为最终目标的检测框。在YOLOV4算法中，为了选出合适的边界框，会使用K-means聚类算法对数据集的目标框进行聚类分析，当K＝3时，即有三个边界框，为最佳的边界框的个数，即可以加快损失函数的收敛速度，又可以降低边界框引起的误差；这三个边界框主要和先验框进行结合，通过非极大值抑制算法，去除置信分较低的边界框，保留置信分较高的边界框，也即是保留最佳的目标检测框。

YOLOV4中为实现实时检测，提高检测速度，没有全连接层，所以使用迁移学习网络，即将已经训练好的目标检测模型参数迁移到新的模型来帮助训练；本发明使用微软公司在COCO数据集上训练好的yolov4.conv.137作为网络的权重文件，通过不断地训练，逐渐地加快并且优化自己的目标检测模型，根据权重文件匹配到最合适的检测框，实现未佩戴口罩人员的检测识别。

如图2所示，本发明训练集制作过程可以大致分为以下几个步骤：首先样本数据由AIZOO数据集和RMFD数据集提供，但是这些数据集中很多图片是不能直接使用的，还需要对搜集到的数据进行清洗和整理，由于搜集的数据毕竟是有限的，YOLOV4中还可以通过数据增强的方式来扩增更多的样本数据，如调整旋转角度，调整曝光量，调整色调等。

如图3所示，本发明数据集标记框的坐标系建立可以分为以下步骤：首先确定XOY坐标系，其中O为像素坐标系的原点，在坐标系中可以通过labelImg软件对目标进行框选，得到一个矩形标记框，将目标区域标注出来，获得标记框中心点的像素坐标(x_o，y_o)，(x_min，y_min)代表标记框左上角的像素坐标，(x_max，y_max) 代表标记框右下角的像素坐标，W和H分别代表了图像的总宽度和总高度；再通过坐标转换，分别将标记框中心点的像素横坐标、纵坐标、标记框的宽度及高度进行归一化处理，得到YOLOV4格式所需要的x、y、w、h四个坐标信息，如下式所示：

x＝x_o/W

y＝y_o/H

w＝(x_max-x_min)/W

h＝(y_max-y_min)/H

如图4所示，本发明的目标检测网络部分分为两个阶段的检测，一个是一阶段的检测，还有一个是二阶段的检测。其中一阶段的检测是将SPP、PAN和 CSPDarknet53骨干网络相结合的方法，这样可以将不同尺度的特征进行叠加和融合，增强对特征的提取能力，根据此网络可以将检测器中获得的各个目标框进行类别分类，能够将佩戴口罩的和未佩戴口罩的人员检测出来。本发明实施例中骨干网络添加了SPP和PAN网络。

其中SPP网络就是将输入的图片经过多个卷积层，得到其特征图，这些特征图有大小不同的尺度，取相对应的尺度的特征，然后将它们拼接到一起，拼接完以后就会生成一个固定的长度的表达。这种网络模型能够显著的提高感受野，把重要的上下文特征给分离出来并且不会导致网络处理速度的下降。

特征金字塔网络在一张图片中会得到不同尺度的特征图，PAN网络可以将不同尺度的特征图进行结合，为防止小尺度信息的丢失，PAN网络会增加一个 Bottom-up层，这样大尺度和小尺度的特征就可以更好地结合在一起。

而二阶段的检测多了一个Spare Prediction层，该层常用的网络就是 Faster-RCNN(Faster Region Convolutional Neural Network，简称Faster-RCNN)，该层里面包含了很多候选框，而一阶段检测中的Dense Prediction层会生成许多先验框，二阶段最主要的作用就是将候选框选出来，将目标进行一个分类。

本发明实施例中采用的YOLOV4算法，为了使检测到的边界框更加准确，可以向每个[yolo]层添加以下参数，分别是ignore_thresh＝0.7，truth_thresh＝1， iou_loss＝ciou，ignore_thresh即忽略框的IOU阈值大小，当预测的检测框与ground truth的IOU大于ignore_thresh的时候，选择一个最大的，其余的框被忽略即不参与损失计算，其中ignore_thresh和truth_thresh都是损失函数的相关参数， truth_thresh为真实框的IOU阈值大小，一般设置为1，边界框的损失函数采用 ciou，ciou考虑的是边界框的几何特征，它能够很好的表达边界框的回归。

如图5、图6所示，本发明的训练结果最终的准确率(图6右上方实线表示) 可以达到94％，损失函数(图6下方点画线表示)在迭代到5000次时，开始逐步收敛，对于测试样本中多目标的检测也可以准确无误地识别出来，对于视频流的实时检测可以达到40FPS，无论是检测精度还是检测速度都可以很好地满足日常生活中对于人脸口罩佩戴的检测。而采用YOLOV3其训练结果如图7所示，其准确率(图7右上方实线表示)出现较大的跳动，不易于对检测目标进行稳定的识别，其损失函数(图7下方点画线表示)在迭代到3200次时，开始收敛，到 4000次时出现训练困难的情况，梯度开始消失，终止训练，因而其泛化能力变差，所以采用YOLOV4算法能够更好的检测识别人脸口罩佩戴的情况。

本发明不仅可以实现人脸口罩佩戴情况的检测，也可以对未佩戴口罩人员的检测识别，以便实时掌握未佩戴口罩人员的情况，根据分析，可以加强对未佩戴口罩人员的管理，对于日后生活中的安全管理及智能化信息管理具有重要的意义。以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度学习的人脸口罩佩戴检测方法，其特征在于，包括如下步骤：

S1、数据准备并制作训练集；

S2、构建YOLOV4目标检测模型；

S3、人脸口罩佩戴检测模型进行视频流时检测；

2.如权利要求1所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S1包括：

S11、获取训练样本数据，对样本数据进行整理、清晰和重新标注；

S13、对获得的训练集进行标注，标注类别分为两类，分别是戴口罩的mask(0)和未戴口罩的nomask(1)。

3.如权利要求2所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，获取训练样本数据包括从AIZOO与RMFD数据集中获取、网上收集手捂图片、视频帧抽取图片。

4.如权利要求2所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S12中，对图片进行数据增强的方法包括改变图片的旋转角度、调整图片的饱和度、曝光量和色调。

5.如权利要求2所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，对训练集进行标注具体为，建立XOY像素坐标系，其中O为像素坐标系的原点，通过labelImg软件对目标进行框选，得到一个矩形标记框，其中，x_o代表标记框中心点的像素横坐标，y_o代表标记框中心点的像素纵坐标，(x_min，y_min)代表标记框左上角的像素坐标，(x_max，y_max)代表标记框右下角的像素坐标，W和H分别代表了图像的总宽度和总高度；

分别将标记框中心点的像素横、纵坐标和标记框的宽度、高度进行归一化处理，得到YOLOV4格式所需要的x、y、w、h四个坐标信息，如下式所示：

x＝x_o/W

y＝y_o/H

w＝(x_max-x_min)/W

h＝(y_max-y_min)/H

6.如权利要求1所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S2中具体包括：

S22、将步骤S21得到的特征通过Keras/Tensorflow深度学习框架来构建YOLOV4的目标检测模型。

7.如权利要求1所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S3包括：

S32、将获得的人脸口罩佩戴检测的模型对输入的视频进行实时检测识别，获得视频帧内的各个目标框位置、大小以及类别。

8.如权利要求1所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S4包括：

当前视频帧通过YOLOV4的特征提取网络来提取三个特征层，特征层的预测结果对应三个边界框的位置；通过解码计算出每个边界框的中心点坐标；再通过和先验框的宽高结合，得到整个预测的边界框的位置；最后通过非极大值抑制筛选，去除冗余的边界框，将置信分较高的边界框作为最终目标的检测框。

9.如权利要求1所述的基于深度学习的人脸口罩佩戴检测方法，其特征在于，步骤S4包括：

S41、使用迁移学习网络，即将已经训练好的目标检测模型参数迁移到新的模型来帮助训练；

S42、使用微软公司在COCO数据集上训练好的yolov4.conv.137作为网络的权重文件，通过不断训练，加快并且优化目标检测模型，根据权重文件匹配到最合适的预测框，实现未佩戴口罩人员的检测识别。