CN111062429A

CN111062429A - 基于深度学习的厨师帽和口罩佩戴的检测方法

Info

Publication number: CN111062429A
Application number: CN201911273796.7A
Authority: CN
Inventors: 严安; 杨晓云; 周治尹
Original assignee: Shanghai Dianze Intelligent Technology Co Ltd
Current assignee: Shanghai Dianze Intelligent Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-24

Abstract

本发明提供了一种基于深度学习的厨师帽和口罩佩戴的检测方法，包括：采集包括厨房场景内的人头图像；对所述人头图像进行预处理，构建人头检测数据集；将所述训练集放入卷积特征器提取包括所述厨师帽和所述口罩相关的特征，通过K‑means聚类方法产生Anchor box个数来生成预测的人头边界框，并通过候选框与真实框的交并比为评价标准；将所述训练集数据输入YOLOv3网络进行重复训练，获得卷积层的权重值和偏置值，输出所述训练集数据的损失函数值；将所述训练好的模型进行模型压缩到满足实时检测条件时进行检测，根据所述训练好的模型检测所述人头图像，分别输出包括厨师帽和口罩的预测边界框和类别的结果。

Description

基于深度学习的厨师帽和口罩佩戴的检测方法

技术领域

本发明主要涉及图像处理领域，尤其涉及一种基于深度学习的厨师帽和口罩佩戴的检测方法。

背景技术

口罩是一种常用的生活用品，能够有效的防止粉尘，有害气体，唾液飞沫等进出口鼻。在医院等卫生场所，佩戴口罩既能够保证自身不受传染病流行的危害；在工地、工厂等作业环境具有较大粉尘的区域，应该佩戴口罩防止自身因吸入粉尘而对自身健康造成危害。另外，在一些重点监控场所，例如ATM取款机，可疑分子会为了避免被摄像头抓拍而会刻意用口罩遮挡住面部。而对于这些需要识别是否佩戴口罩的场所，目前并没有一种方法能够快速并大量的自动检测相关人员是否按照要求佩戴口罩。若通过人工的方式去检验既要耗费大量的人力资源，且当人流过多的情况下很难保证能够监测到每个人是否佩戴口罩。因此目前在应该佩戴口罩的场所，亟需一种能够自动快速且准确地检测人员是否佩戴口罩的方法。

一种人员佩戴口罩情况的检测方法以及装置(专利号： CN109101923A)和基于视频的工服工帽穿戴状态自动识别方法与报警系统(专利号：CN109117827A)利用阈值分割和帧差法检测目标区域，再使用目标区域的色彩空间分布判断工作人员是否佩戴指定帽子和口罩。基于人工设计特征的传统图像处理方法，应用场景单一、不稳定，一旦背景发生变化，准确率会严重下降。

基于图像识别的工作区域安全帽佩戴的检测方法(专利号： CN109697430A)采用SSD或YOLO目标检测框架检测图像中的人体头部目标和安全帽目标，并得到人体头部和安全帽的分类信息和相应目标的区域位置信息。再根据人头区域和安全帽区域的重叠大小判断工作人员是否佩戴安全帽。该方法需要检测两个目标(人头和帽子)增加了检测的难度，计算重叠区域使得流程变的复杂且不可控。

一种电力领域危险工作区域内安全帽佩戴状态检测方法(专利号：CN110070033A)采用Tiny-YOLO模型对人、佩戴安全帽的人和未佩戴安全帽的人进行检测并分类。该方法使用整体特征对目标部分进行预测，会出现很多冗余特征对最终预测进行干扰。 Tiny-YOLO虽然速度快、占用内存小，但相应损失的是准确率。

施工现场的安全帽佩戴检测方法、装置、设备及存储介质(专利号：CN110222672A)使用SSD模型对人头部分进行检测并直接预测是否佩戴安全帽。该方法实现了从定位到预测一步到位的方法，但不利于后期开发。由于SSD模型的分类损失函数使用的是 Softmax，这就导致了SSD在一个目标区域预测一个种类，不可再添加其他功能。另外SSD不能对边界框进行聚类，不能很好的拟合anchor框的形状，导致检测的区域不是很准。SSD的运行速度也一直是个问题，由于使用了VGG作为基础网络，它的检测只能达到8fps，离实时检测的距离还很远。

综上所述，目前对帽子和口罩存在的方法主要有以下缺点：第一，应用场景单一，不稳定；第二，目标简单，流程复杂；第三，不能够针对目标提取特征；第四，速度慢；第五，准确率低；第六，占用内存大；第七，可扩展性低。

发明内容

针对上述问题，本发明要解决的技术问题是提供适应不同场景下对多个目标进行检测的方法，通过模型处理和深度学习，有效提取并识别特征。

为解决上述技术问题，本发明提供了一种基于深度学习的厨师帽和口罩佩戴的检测方法，其特征在于，所述方法包括：

步骤一，采集包括厨房场景内的人头图像；

步骤二，对所述人头图像进行预处理，构建人头检测数据集，所述数据集包括厨师帽和口罩的训练集和测试集；

步骤三，将所述训练集放入卷积特征器提取包括所述厨师帽和所述口罩相关的特征，通过K-means聚类方法产生Anchor box 个数来生成预测的人头边界框，并通过候选框与真实框的交并比为评价标准，提升所述人头边界框和类别预测的准确性；

步骤四，将所述训练集数据输入YOLOv3网络进行重复训练，获得卷积层的权重值和偏置值，输出所述训练集数据的损失函数值；

步骤五，将所述训练好的模型进行模型压缩到满足实时检测条件时进行检测，根据所述训练好的模型检测所述人头图像，通过Resnet 18网络分别进行所述厨师帽和所述口罩的训练，分别输出包括厨师帽和口罩的预测边界框和类别的结果。

比较好的是，本发明进一步提供了一种基于深度学习的厨师帽和口罩佩戴的检测方法，其特征在于，

所述步骤一中进一步包括：

将所述人头图像padding成正方形，所述正方形的大小为N*N 之间进行训练，添加矩形标签为真实边界框形成所述检测数据集；

其中，N的取值范围包括736～1024。

所述步骤三中进一步包括：

所述Anchor box个数等于所述K-means聚类方法时的K值，所述交并比IOU为：

当所述IOU不低于0.5时的预测的候选目标边框作为初始候选目标边框。

所述步骤四中，

采用自适配归一公式应用在所述YOLOv3网络中卷积层的处理上，所述自适配归一公式为：

其中，n、c、I和j分别代表样本数目、通道数目、通道的高和通道的宽，每一个像素表示为h_ncij，归一化后的像素值为

γ和β分别代表缩放系数和偏移系数；

其中，所述自适配归一化的每个样本每个通道的均值和方差由批归一化、层归一化和实例归一化共同决定的，w_k为加权系数。

所述训练集和测试集包括戴帽、不戴帽、戴口罩、不戴口罩和不确定戴口罩若干种情况。

所述步骤一在训练时，

采用添加矩形标签作为真实边界框，所述真实边界框包括含人体头部和帽子区域。

与现有技术相比，本发明具有以下优点：

独立模块可任意组合提高通用化程度，采用独立模块进行特定任务分析，在任务无关联的情况下，可以根据特定的任务使用特征提取器提取特定的特征，有利于提高任务的准确率，并且在系统中模块与模块之间可以任意搭配，可任意添加额外任务。第二，在训练之前将图片调整为正方形，使得模型更加容易适应不同比例的图片；第三，增大训练的图片尺寸，再模型优化，既保持了准确率又保证了实时性。

附图说明

包括附图是为提供对本申请进一步的理解，它们被收录并构成本申请的一部分，附图示出了本申请的实施例，并与本说明书一起起到解释本发明原理的作用。附图中：

图1所示为本发明的一种厨师帽和口罩佩戴的检测方法的流程图；

图2是所示为修改的Darnket-53结构图；

图3示意了本发明较佳实施例中应用的Resnet 18结构图；

图4展示最终效果图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本申请的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制；方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本申请保护范围的限制。此外，尽管本申请中所使用的术语是从公知公用的术语中选择的，但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的，其详细含义在本文的描述的相关部分中说明。此外，要求不仅仅通过所使用的实际术语，而是还要通过每个术语所蕴含的意义来理解本申请。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

实施例一

请参见图1所示的本发明较佳实施例的流程图。

步骤1，采集厨房监控视频，这里的监控视频包括当前待检测人员的人脸图像，也包括现场环境的其他图像，在此过程中，所采集厨房工作人员在网络摄像头下拍摄所处厨房位置的图像，其中拍摄的工作人员离摄像头的距离和遮挡情况不同；

步骤2，对步骤1中采集的图像进行预处理，并构建人头检测数据集；

先对步骤1中获得的图像进行标注并使用列出的操作进行扩充数据：数据集图像用CVAT标注工具生成对应的标注、标签信息和属性信息，标注信息即样本中目标的位置信息，位置包括颈部以上区域(如果带帽子包含帽子)，标签信息即样本中目标所属类别，类别标注为head，属性信息即样本中目标类别所属属性，属性为标注为hat和mask，其中hat属性有with_hat和no_hat， mask属性有with_mask、uncertain_mask和no_mask。根据类别将数据集分为人头检测训练集和测试集。按照标注信息将人头区域截取出来，再根据属性类别将数据分为帽子和口罩的训练集和测试集。扩充数据操作如下，对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度；

在此构建人头检测数据集的过程中，由于各种摄像头输出的尺寸大小不一、厨房背景比较复杂，会使得模型(YOLOv3输入的尺寸为正方形)中的图片发生不同尺度的扭曲，不利于模型的拟合，因此在训练之前将图片尺寸padding成正方形。

原始的YOLOv3要求输入的图片大小为608*608，在复杂背景下，这样处理会使图片丢失很多细节，让模型难以拟合。

比如：将1920*1280填充成1920*1920后，再缩小到608*608，会使得模型将挂在墙面上的锅和背对着摄像机的人头混为一谈。因此在训练时将输入大小调整为1024*1024(736～1024)之间进行训练。手动添加矩形标签作为真实边界框(边界框范围包括人体头部和帽子区域)，每个边界框的名字为head，每个框除了名字外还有两个属性，分别是hat和mask。hat属性包括hat和noHat， mask属性包括mask、noMask和uncertainMask,最终形成数据集。

步骤3，将步骤2中处理后制作的训练集放入卷积特征器特征提取行人特征，通过K-means聚类方法产生Anchor box数来生成预测的行人边界框，并使用类似FPN网络进行多尺度融合预测来提升边界框和类别预测的准确性；

详细来说，步骤3具体按照如下进行：

步骤3.1，先将步骤2中获得的训练集图像尺寸调整为 1024×1024，并设置IOU阈值为0.5，置信度阈值为0.5，冲量 momentum设置为0.9，初始化学习率为0.001，权重衰减系数decay 为0.0005，最大迭代次数设置为75k，从65k次迭代开始学习率为0.0001，从70k次迭代开始学习率为0.00005，每隔1000次迭代后保存一次模型，最终选取精度最高的模型；

步骤3.2，将训练好的模型放入到进行模型压缩，利用自适配归一化的缩放因子γ作为重要性因子。对应的γ越小，即此特征图对应的通道越不重要，小于阈值时将其剪除。将模型压缩到20％时精度未出现下降，可达实时检测。

步骤3.3，再将输入的图像通过修改的Darknet-53网络结构提取特征，如图2所示为修改的Darnket-53结构图；

在此步骤中，YOLOv3算法使用的特征提取网络结构为 Darknet-53，它由53个卷积层残差结构组成，卷积核大小为3×3 和1×1两种,每个卷积层均通过批归一化(BatchNormalization) 和Leaky relu激活函数操作。使用自适配归一化(SwitchableNormalization)替换批归一化来改善归一化操作。

步骤3.4，接着通过类似FPN网络对人头进行多尺度融合预测，将第82层输出的32×32特征图、第94层输出的64×64特征图和第106层输出的128×128特征图分别划分为32×32个网格、 64×64个网格和128×128个网格；使用K-means聚类方法对训练集的边界框做聚类，得到合适的Anchor box，并在每个网格上产生2个Anchor box数来生成预测的目标边界框以及使用二元交叉熵损失函数来预测类别。得到的输出维度为32×32×12、 64×64×12和128×128×12，其中12为2×(4+1+1)，4指4个边界框坐标信息，1分别为1个目标预测和1个类别预测。

聚类使用的公式为：

d(box,centroid)＝1-IOU(box,centroid) (1)

其中，box为先验框，centroid为聚类中心，IOU(box,centroid)为两个区域的交并比，令度量阈值为10^-5，当d(box,centroid)小于等于度量阈值时，确定Anchor box的宽高大小。

预测边界框的公式为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，c_x和c_y为划分的单元格与图像左上角的横纵坐标的距离， p_w、p_h分别为预测前的边界框宽度和高度，t_x和t_y为预测中心相对参数，σ(t_x)和σ(t_y)分别是预测框中心偏离其所在单元格左上角的水平方向和垂直方向的距离，b_x和b_y分别为预测的边界框中心的横、纵坐标，b_w和b_h分别为预测的边界框的宽度和高度。

预测边界框的置信度公式为：

其中Pr(object)为0或1，为0表示图像中没有目标，为1表示有目标；表示预测的边界框和实际的边界框之间的交并比，置信度(confidence score)反映是否包含目标以及包含目标情况下预测位置的准确性，置信度阈值设为0.5，则当预测的边界框置信度小于0.5时，删除预测的边界框；预测的边界框置信度大于0.5 时，保留预测的边界框。

类别预测使用的二元交叉熵损失函数(binary cross-entropy loss)公式为：

其中，N是训练图片的总数量；y_i取值为0或1，y_i取值为1 表示第i张输入的图片包含人头，y_i取值为0则表示第i张输入的图片不包含人头；p_i值为对第i张输入的图片是否包含人头的预测的概率，p_i值在0至1之间；loss为对每个训练图片的对数损失的平均值，loss越小越好。理想情况下，y_i值为1时，p_i值为1；y_i值为0时，p_i值为0。

进一步的改进，使用自适配归一化替代YOLOv3算法中所有卷积层上已有的批归一化。

由于批归一化会受到批尺寸影响，批尺寸小时，批归一化算出均值和方差偏大，显著增加模型误差，降低神经网络性能；自适配归一则对批量大小足够鲁棒，通过动态调节各种归一化的权值，减小批归一化的影响；另外针对不同任务，自适配归一可以自适应不同的任务，通过学习选择与任务合适的权值，在不同层也可以使用不同的权值，拓展了单个结构使用同一种标准化的方式。

自适配归一公式如下：

其中n、c、I和j分别代表样本数目、通道数目、通道的高和通道的宽，每一个像素表示为h_ncij，归一化后的像素值为

γ和β分别代表缩放系数和偏移系数。不像层归一化和实例归一化只是在一层或者一个通道计算均值μ和方差σ²。

自适配归一化的每个样本每个通道的均值和方差由批归一化、层归一化和实例归一化共同决定的，w_k为加权系数。

步骤4，使用软化非极大值抑制Soft-NMS算法来改进非极大值抑制NMS算法，根据预测的边界框与实际边界框的交并比IOU进行Soft-NMS操作，对预测的边界框的置信度小于给定的阈值进行边界框抑制，输出最终的预测边界框和类别。

Soft-NMS函数如下：

其中M为当前得分最高的边界框，b_i为待处理框，当IOU小于阈值N_t(N_t＝0.6)时，检测得分分值为s_i；在IOU大于阈值0.6时，检测得分分值为s_i(1-iou(M,b_i))。b_i和M的IOU越大，b_i的得分s_i就下降的越厉害。NMS将检测框按得分排序，然后只保留得分最高的框,同时删除与该框重叠面积大于一定阈值的其它框，Soft-NMS 思路是不直接删除所有IOU大于阈值的检测框，而是降低其置信度。使用Soft-NMS来改进NMS,可以更好的去除生成框，解决两个或多个人头相互重叠时NMS出现漏检的情况,提高检测的召回率。

步骤5，将步骤4得到的结果分别放入帽子特征提取器和口罩特征提取器提取特征并使用softmax分类器得到最终结果：

先将步骤2中获得的人头图像调整为224×224并设置初始学习率为0.001，冲量momentum设置为0.9，权重衰减系数decay 为0.00005，每轮保存一次模型，如果该轮模型准确率高于上轮则复制该轮模型为最好模型，最终使用最后保存的最好模型。

最终，通过Resnet18网络分别进行所述厨师帽和所述口罩的训练，分别输出包括厨师帽和口罩的预测边界框和类别的结果，图3示意了本发明较佳实施例中应用的Resnet18结构图，Resnet 通过连接前后特征，使的梯度可以传到前面的卷积层，解决以往由于增加网络层数而带来的梯度爆炸和梯度消失问题。

通过采用本发明的检测方法，可任意组合提高通用化程度采用独立模块进行特定任务分析，在任务无关联的情况下，可以根据特定的任务使用特征提取器提取特定的特征，有利于提高任务的准确率，并且在系统中模块与模块之间可以任意搭配，可任意添加额外任务。此外，在训练之前将图片调整为正方形，使得模型更加容易适应不同比例的图片；而且，本检测方法还增大训练的图片尺寸，再模型优化，既保持了准确率又保证了实时性，最终效果图如图4所示。

本发明所应用的检测思想，可以应用到任何通过先检测再分类的需求中，比如：安全帽检测、烟雾检测、工地违规检测(爬围栏)。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件 (DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

虽然本申请已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本申请，在没有脱离本申请精神的情况下还可作出各种等效的变化或替换，因此，只要在本申请的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。