CN113033328A

CN113033328A - 一种基于深度学习的人员口罩佩戴状态检测识别方法

Info

Publication number: CN113033328A
Application number: CN202110243176.XA
Authority: CN
Inventors: 吴宝昕
Original assignee: Hangzhou Zhuilie Technology Co ltd
Current assignee: Hangzhou Zhuilie Technology Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-25

Abstract

本发明公开了一种基于深度学习的人员口罩佩戴状态检测识别方法。主要步骤包括：获取数据集；设计人脸检测网络，并在网络中添加第一特征向量输出；将检测到的口罩人脸区域通过比例随机裁剪输入第二深度学习网络模型的第一网络部分，第二网络部分和第三网络部分以获得三个代表全局、局部和细粒度特征的特征图；将三个特征图进行特征融合得到第二特征向量；将第一特征向量和第二特征向量融合，最后使用机器学习模型识别人脸口罩佩戴状态。这样，基于优化设计的神经网络，提取不同层次的深度特征并融合，能大幅提高人脸口罩佩戴状态识别的准确率。

Description

一种基于深度学习的人员口罩佩戴状态检测识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度学习的人员口罩佩戴状态检测识别方法。

背景技术

在突发公共卫生事件期间，出入公共场所均需要佩戴口罩，减少接触、避免人员过密。佩戴口罩是疫情防控的有效手段。目前，对人员口罩佩戴的监督的通用做法是通过人工进行监督，检查人员是否佩戴口罩，不仅效率低，而且还需要人工成本，同时增加了工作人员被感染的机率。因此，若能采用一种方法自动的对人员口罩佩戴状态进行检测识别，只要通过视频监控手段采集现场视频图像，自动判断人脸口罩佩戴状态，当发现未佩戴口罩或不规范佩戴口罩人员时，配合语音播报，对未佩戴口罩或不规范佩戴口罩的人员进行语音提醒，便能更方便快捷地进行安全监管，规范人员的行为，保障人员的安全，减少人员之间的传染，最大程度的降低人工成本、提升检测效率。为此，本发明提出一种基于深度学习的人员口罩佩戴状态的检测识别方法，识别人员的口罩佩戴状态，包括是否佩戴口罩以及佩戴口罩方式是否规范，以减少人工监督的工作，帮助各部门提升工作效率。

所述口罩佩戴状态检测识别方法中所涉及到的深度学习技术通常是指深度卷积神经网络，它模仿了人脑的层次结构，由层次分明的神经元相互连接组成。基于深度学习的口罩佩戴状态检测识别方法是指通过深层卷积神经网络对图像进行浅层和深层的特征提取，并用原始的标注数据对网络参数进行校正，使佩戴口罩检测网络学会定位图像中人脸的位置，同时识别人脸的口罩佩戴状态，包括是否佩戴口罩，佩戴口罩方式是否规范。

现有的技术，如公开号为CN111488842A的中国专利，采用基于CenterNet的监控视频口罩检测方法，该方法以CenterNet网络为框架，对已标注的视频图像样本进行训练，检测视频中人物是否佩戴口罩，只能识别人脸带口罩和不带口罩两种类别，而对于带了口罩但未规范佩戴口罩则无能为力。

又如公开号为CN111401202A的中国专利，提供了一种基于深度学习的行人口罩佩戴实时检测方法，通过设计一个深度学习网络实现戴口罩人脸的检测，并对网络采用网络压缩的手段，加快网络推理速度。该方法的缺点主要有两个：只能判断人员是否佩戴口罩，无法对口罩佩戴的规范性做出判断；通过网络压缩后，检测精度下降，无法保证准确的检测结果。

又如公开号为CN111582068A的中国专利，提供了一种人员口罩佩戴状态检测方法，使用Haar级联分类器检测佩戴口罩的人脸区域是否露出鼻子，输出佩戴口罩是否规范的检测结果，该方法基于传统的Haar特征检测判断是否露出鼻子，耗时较长且使用传统Haar特征检测方法精度低，当人员口罩覆盖鼻子但露出嘴巴的不规范佩戴方式时无法识别。

现有其他的方法，如公开号为CN111507199A的中国专利、公开号为CN111444887A的中国专利等都只能对人员是否佩戴口罩两种状态进行判断，此外，在人脸口罩佩戴检测时，人脸目标会随着镜头距离远近的变化呈现多尺度变化的特点以及人脸目标离镜头较远时呈现小目标的特点，现有方法未对多尺度和小目标做针对性设计，无法保障检测结果的准确性。

到目前为止，检测识别人员口罩佩戴不规范的方法尚属空白。为此，本发明提出一种基于深度学习的人员口罩佩戴状态检测方法，所述方法不仅能检测人员是否佩戴口罩，同时也能识别人员口罩佩戴方式是否规范。同时，本法明提出一种口罩佩戴状态精细化分类网络重识别机制，大幅提高口罩佩戴状态识别准确率。

发明内容

针对现有技术的不足，本发明公开了一种基于深度学习的人员口罩佩戴状态检测识别方法，针对人员可能因为离镜头距离远近造成的人脸目标呈现多尺度和目标较小的特点进行网络优化设计，提高算法性能，实现人员佩戴口罩状态的自动检测识别，解决了现有方法只能识别是否佩戴口罩，无法识别口罩是否佩戴规范的问题。此外，本发明还对置信度低的口罩佩戴状态识别结果采用精细分类网络进行再识别，提高识别结果的准确度。

为实现上述目的，本发明所采取的技术方案为：

本发明公开了一种基于深度学习的人员口罩佩戴状态检测识别方法，所述方法包括以下步骤：

步骤1：数据集采集，采集不同场景下的人脸口罩佩戴数据，数据采集包括实际场景的图片以及采用对抗生成算法生成的不同口罩佩戴方式的图片数据；

步骤2：数据集标注；

数据集标注，对采集得到的数据集进行人工标注，标注出图像中人脸的位置，并根据不同的口罩佩戴状态标注为不同的类别标签；

步骤3：设计深度学习网络结构；

本发明构建的深度学习口罩佩戴状态检测识别网络以业内检测效果较好的YOLOv3为基础，对网络结果进行优化，包括：

去除特征融合部分的上采样操作，增强佩戴口罩人脸小目标检测的能力；

将网络最后的三尺度特征输出的设计修改为两尺度输出设计，只保留中等目标检测输出和小目标检测输出，在保持多尺度戴口罩人脸目标检测的能力的同时，排除大尺度目标的干扰；

网络添加N维的第一特征向量的输出，其中维度N不小于128；

步骤4：对所述步骤3中设计的深度学习网络进行训练得到第一深度学习网络模型，所述第一深度学习网络模型网络输出包括佩戴口罩人脸位置、大小、置信度及N维第一特征向量；

步骤5：根据不同口罩佩戴状态将佩戴口罩人脸图片细分为不同预设类别标签并以所述不同口罩佩戴状态将佩戴口罩人脸图片为输入训练得到第二深度学习网络模型，所述第二深度学习网络模型用于提取第二特征向量，所述第二特征向量用于表征人脸区域的语义信息；

步骤6：将待检测图片输入到所述训练得到的第一深度学习网络模型得到人脸位置、大小、置信度及N维第一特征向量；

具体地，在步骤4中的深度学习网络训练结束以后，加载训练好的第一深度学习网络模型，输入待检测图片，网络进行前向推理计算获得口罩检测图片人脸位置、大小、置信度及N维第一特征向量；

步骤7：根据步骤6中得到的人脸位置、大小、置信度，判断所述置信度是否大于预设阈值，若不大于，则将该置信度对应的人脸滤除；若大于，则根据所述人脸位置、大小从待检测图片中截取人脸区域，并以所述截取的人脸区域作为输入，通过所述第二深度学习网络模型提取第二特征向量；

步骤8：将所述第一特征向量以及所述第二特征向量进行特征融合得到第三特征向量，然后使用预设机器学习模型对所述第三特征向量进行识别得到人脸口罩佩戴状态的识别结果，从而确定当前人脸口罩佩戴状态。

优选的，所述步骤1中，采用实际场景收集数据和对抗生成算法自动生成的方式进行，所述对抗生成算法为预训练好的算法，所述生成的图片数据包括不同口罩佩戴状态的人脸。

优选的，所述步骤3中，网络添加N维的第一特征向量输出，其中，维度N不小于128；其中，若骨干网络的网络层数量大于M，则从第M-1层输出第一特征向量；若骨干网络的网络层数量不大于M，则从网络输出层输出第一特征向量。

优选的，所述步骤5中所述第二深度学习网络模型具有第一网络部分，第二网络部分和第三网络部分，其中，第一网络部分具有L网络层数，第二网络部分具有S网络层数，第三网络部分具有P网络层数；其中，L<S<P。

优选的，所述步骤5中第二深度学习网络模型将图片原图输入第一网络部分得到第一特征图，从原图随机裁剪1/R大小的图片输入第二网络部分得到第二特征图，从原图随机裁剪1/4R大小的图片输入第三网络部分得到第三特征图，所述第一特征图表征输入图片的全局特征，所述第二特征图和第三特征图分别表征输入图片的局部特征和细粒度局部特征。

优选的，上述裁剪比例参数R满足：4≤R≤8。

优选的，将所述步骤5中第二深度学习网络模型的第一特征图、第二特征图和第三特征图进行加权融合获得目标特征图，然后从所述目标特征图中采用全连接层得到所述第二特征向量：

F＝αF₁+βF₂+F₃

其中，F为目标特征图，F₁为所述第一特征图，F₂为所述第二特征图，F₃为所述第三特征图，“+”表示所述第一特征图、第二特征图和第三特征图相对应位置处的元素相加，α和β表示不同特征图的权重因子。

优选的，上述所述的权重因子满足：0.1＜α≤0.5，0.5≤β≤0.8。

优选的，所述步骤8中将所述第一特征向量以及所述第二特征向量进行特征融合得到第三特征向量，其中所述特征融合方法为将第一特征向量和第二特征向量进行拼接得到第三特征向量。

优选的，所述使用预设机器学习模型对所述第三特征向量进行识别得到人脸口罩佩戴状态的识别结果，所述识别结果方法不仅能识别人员是否佩戴口罩两种状态，同时也能识别人员口罩否覆盖鼻子，是否覆盖嘴巴等具体不规范佩戴方式的类别。

本发明公开的一种基于深度学习的人员口罩佩戴状态检测识别方法不仅能识别人员是否佩戴口罩两种状态，同时也能识别人员口罩佩戴的规范性，如是否覆盖鼻子，是否覆盖嘴巴等。

与现有技术相比，本发明公开的一种基于深度学习的人员口罩佩戴状态检测识别方法具有以下有益效果：

(1)本发明实现人员佩戴口罩状态的自动检测识别，能识别多种人员口罩佩戴状态，解决了现有方法只能识别是否佩戴口罩，无法识别口罩是否佩戴规范的问题。

(2)本发明在检测网络模型中添加了第一特征向量输出，有效提取了全局特征信息并将该特征向量用于后续的口罩状态识别特征融合，有利于提高识别的准确率。

(3)本发明针对人脸区域使用第二深度学习网络模型进行人脸全域信息、局部信息以及细粒度信息三个特征进行特征图提取并进行加权融合，充分考虑了不同层次的信息特征，最后得到第二特征向量并与第一特征向量融合，最后使用机器学习模型识别，具有速度快、精确率高的特点。

附图说明

图1为本发明的口罩佩戴状态检测流程图；

图2为本发明提供的一种口罩佩戴状态检测网络训练的流程图；

图3为本发明的深度学习网路训练收敛过程示意图；

图4为本发明的口罩佩戴状态检测网络测试PR曲线示意图；

图5为本发明实施例2中的口罩佩戴状态检测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

其中一个实施例中，公开了一种基于深度学习的人员口罩佩戴状态检测识别方法，可应用于安防监控以及其他场景下的人员口罩佩戴状态自动检测，提高企事业单位管理能力、降低人工监督成本，克服现有方法无法进行不规范口罩佩戴行为的识别以及人员口罩佩戴状态识别准确度低的难点。

实施例1

本实施例的基于深度学习的人员口罩佩戴状态检测识别方法，包括以下步骤：

数据来源主要为公开网络资源以及自建数据集。

公开数据集方面，主要为公开的网络图片和视频。对于视频数据，采用视频抽帧的方法得到视频帧图片。对于视频帧数据，为避免太多相似数据出现在数据集中、降低数据去重的时间成本，采用隔10帧抽取一帧的方式进行。

进一步地，自建数据集部分，通过主动行为的方式，拍摄不同口罩佩戴状态的图片，包括不带口罩、规范佩戴口罩、未遮挡鼻子的口罩佩戴、未遮挡嘴巴和鼻子的口罩佩戴以及未遮挡下巴的口罩佩戴等；

更进一步地，通过生成对抗算法生成不同口罩佩戴方式的人脸，平衡不同口罩佩戴状态数据数量，尽量满足各不同类别的数据量接近1:1；

更进一步地，对获取到的数据集进行数据增广，包括随机裁剪、镜像、添加随机噪声等手段，生成更多训练数据，丰富数据的多样性；

步骤2：数据集标注，对采集得到的数据集进行人工标注，标注出图像中人脸的位置，并根据不同的口罩佩戴状态标注为不同的标签；

对数据人工标注，标注内容包括人脸区域所在位置以及人脸口罩佩戴状态。在本实施例中，包括未佩戴口罩，规范佩戴口罩，口罩未覆盖鼻子，口罩未覆盖鼻子和嘴巴，口罩未覆盖下巴。

步骤3：设计深度学习网络结构，以训练集图片作为输入训练神经网络模型；

针对在人脸口罩佩戴检测场景下，人脸目标会随着镜头距离远近的变化呈现多尺度变化的特点以及人脸目标离镜头较远时呈现小目标的特点，本发明构建的深度学习口罩佩戴状态检测识别网络以业内检测效果较好的YOLOv3为基础，对网络结果进行优化。总体设计要点如下：

本发明以YOLOv3为网络结构设计原型，进行特征表达能力更强、小目标检测能力和多尺度目标检测能力更强的改进；

在本实施例中，深度学习网络添加N维的第一特征向量的输出，本实施例中N设置为512；

值得说明的是，戴口罩人脸目标往往会离摄像头有一定距离，在图像中只会呈现出中小目标的特征，将网络最后的三尺度特征输出的设计修改为两尺度输出设计有助于网络更好的收敛，提高检测准确率。

步骤4：对所述步骤3中设计的深度学习网络进行训练得到第一深度学习网络模型，所述第一深度学习网络模型网络输出包括佩戴口罩人脸位置、大小、置信度及512维第一特征向量；

本发明提供的一种目标检测网络训练的流程如图2所示，具体步骤如下：

步骤4.1：网络参数随机初始化。

步骤4.2：从训练数据集中选取一个批次的数据作为输入。

步骤4.3：根据构建的网络结构，将选取的训练数据进行一次网络前向传播计算，获得检测预测值。

步骤4.4：预测值与真值比较，计算损失函数。

步骤4.5：使用反向传播计算参数梯度大小，并随机梯度下降法更新网络参数。

步骤4.6：若达到训练目标，则停止训练；若未达到训练目标，则判断是否达到预设训练次数，若达到训练次数，则停止训练；否则重复步骤4.2到步骤4.6直到训练结束。

训练部分采用通用的超参数阶段调整策略，根据训练次数对应训练阶段的不同，调整学习率等参数的大小，使网络更好的收敛。同时，训练过程中可以采用实用效果最好的多尺度训练操作，在每个训练迭代过程中随机选择一个尺度进行训练，使模型对多尺度的鲁棒性更强。

在一优选的实施方式中，所述第二深度学习网络模型具有第一网络部分，第二网络部分和第三网络部分，其中，第一网络部分具有L网络层数，第二网络部分具有S网络层数，第三网络部分具有P网络层数；其中，L<S<P。例如，本实施例中，L设置为4，S设置为6，P设置为8。

在一优选的实施方式中，第二深度学习网络模型将图片原图输入第一网络部分得到第一特征图，从原图随机裁剪1/R大小的图片输入第二网络部分得到第二特征图，从原图随机裁剪1/4R大小的图片输入第三网络部分得到第三特征图，所述第一特征图表征输入图片的全局特征，所述第二特征图和第三特征图分别表征输入图片的局部特征和细粒度局部特征。本实施例中，R表示裁剪比例参数，可以取4到8之间的整数，如4,5,6,8等。

在一优选的实施方式中，获得上述第二深度学习网络模型的第一特征图、第二特征图和第三特征图后，再对不同特征图进行加权融合，融合公式如下：

F＝αF₁+βF₂+F₃

需要说明的是，权重因子α和β满足：0.1＜α≤0.5，0.5≤β≤0.8，本实施例中，α和β分别取值0.3和0.7。

可以理解，通过上述权重设置，分别代表全局信息，局部信息和细粒度信息的第一特征图、第二特征图和第三特征图权重依次降低，更加突出局部和细粒度特征，从而通过脸部局部和细粒度特征得到更准确的检测结果。

经过特征融合后，再从融合的特征图中提取第二特征向量，本实施例中采用全连接层的方式得到512维的第二特征向量。

可以知道，通过上述方式，便能得到包含全图特征信息的第一特征向量和表征脸部全局、局部和细粒度特征信息的第二特征向量。

在一优选实施方式中，将第一特征向量和第二特征向量进行拼接的方式进行融合得到第三特征向量，第三特征向量表征图片全局特征信息以及人脸区域特征信息。

在一优选实施方式中，上述机器学习模型为预训练好的模型，如SVM模型，贝叶斯模型等。

需要说明的是，以上仅为本发明提供的一种检测识别过程，不作为对本发明基于深度学习的人员口罩佩戴状态检测方法使用的限制，在其他实施例中还可以采用其他流程，添加口罩佩戴状态的类别，对每一次检测结果都进行口罩佩戴状态都采用精细化分类再识别，对输入的图片做姿态校正，选取其他分类网络作为口罩佩戴状态精细分类网络等。

实施例2

为验证本发明所述基于深度学习的人员口罩佩戴状态检测识别方法的性能，采用本发明的基于深度学习的人员口罩佩戴状态检测识别方法与原版YOLOv3检测算法进行训练和测试比对。训练数据集为网络公开收集和自建数据集，总共36853张图片。其中3685张图片作为测试集，剩余图片作为训练集。测试集涵盖了各种不同场景下的人员不同口罩佩戴方式的图片。测试的硬件环境为：NVIDIA Tesla V100 GPU，CPU为Intel(R)Xeon(R)Gold5118CPU@2.30GHz。训练数据批尺寸为32，初始学习率为0.0001，动量系数(momentum)为0.949，在迭代到6000步时学习率降为0.00001。网络训练损失函数下降如图3所示。检测网络的交并比(IOU，Intersection Over Union)设置为0.6，测试指标选取平均准确率(AP)、召回率(Recall)、准确率(Precision)，实测PR曲线如图4所示，测试比对结果记录于表1。

表1测试结果

由表1的数据可知，本发明的基于深度学习口罩佩戴状态目标检测网络检测准确率和检测速度分别为93.7％和45.0帧/秒，相较YOLOv3模型，在检测速度接近的情况下，检测准确率提高了5％左右，帧率提高了将近10帧/秒；图5为本发明提出的口罩状态佩戴结果的图片测试示例，除了能正确识别未佩戴口罩和正常佩戴口罩两类以外，如图5，还能识别不规范口罩佩戴的状态，如口罩未覆盖鼻子，如图5中左上图片所示；口罩未覆盖鼻子和嘴巴，如图5中左下图片所示。

本发明中，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列单元的系统、产品或设备不必限于清楚地列出的那些单元，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述的基于深度学习的人员口罩佩戴状态检测识别方法，包括：

步骤2：数据集标注；

步骤3：设计深度学习网络结构；

网络添加N维的第一特征向量的输出，其中维度N不小于128；

步骤5：根据不同口罩佩戴状态将佩戴口罩人脸图片细分为不同预设类别标签并以所述不同口罩佩戴状态将佩戴口罩人脸图片为输入训练得到第二深度学习网络模型，所述第二深度学习网络模型用于提取第二特征向量，所述第二特征向量用于表征融合不同图片区域范围和尺度的人脸区域的深层语义信息；

2.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述步骤1中，采用实际场景收集数据和对抗生成算法自动生成的方式进行，所述对抗生成算法为预训练好的算法，所述生成的图片数据包括不同口罩佩戴状态的人脸。

3.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述步骤3中，网络添加N维的第一特征向量输出，其中，维度N不小于128；其中，若骨干网络的网络层数量大于M，则从第M-1层输出第一特征向量；若骨干网络的网络层数量不大于M，则从网络输出层输出第一特征向量。

4.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述步骤5中所述第二深度学习网络模型具有第一网络部分，第二网络部分和第三网络部分，其中，第一网络部分具有L网络层数，第二网络部分具有S网络层数，第三网络部分具有P网络层数；其中，L<S<P。

5.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述步骤5中第二深度学习网络模型将图片原图输入第一网络部分得到第一特征图，从原图随机裁剪1/R大小的图片输入第二网络部分得到第二特征图，从原图随机裁剪1/4R大小的图片输入第三网络部分得到第三特征图，所述第一特征图表征输入图片的全局特征，所述第二特征图和第三特征图分别表征输入图片的局部特征和细粒度局部特征。

6.如权利要求5所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述裁剪比例参数R满足：4≤R≤8。

7.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，将所述步骤5中第二深度学习网络模型的第一特征图、第二特征图和第三特征图进行加权融合获得目标特征图，然后从所述目标特征图中采用全连接层得到所述第二特征向量：

F＝αF₁+βF₂+F₃

8.如权利要求7所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述的权重因子满足：0.1＜α≤0.5，0.5≤β≤0.8。

9.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述步骤8中将所述第一特征向量以及所述第二特征向量进行特征融合得到第三特征向量，其中所述特征融合方法为将第一特征向量和第二特征向量进行拼接得到第三特征向量。

10.如权利要求1所述的一种基于深度学习的人员口罩佩戴状态检测识别方法，其特征在于，所述使用预设机器学习模型对所述第三特征向量进行识别得到人脸口罩佩戴状态的识别结果，所述识别结果方法不仅能识别人员是否佩戴口罩两种状态，同时也能识别人员口罩否覆盖鼻子，是否覆盖嘴巴等具体不规范佩戴方式的类别。