CN110059674A

CN110059674A - 基于深度学习的标准着装检测方法

Info

Publication number: CN110059674A
Application number: CN201910454355.0A
Authority: CN
Inventors: 王以忠; 许素霞; 郭肖勇; 王琦琦; 杨国威
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-07-26

Abstract

本发明涉及一种基于深度学习的标准着装检测方法，步骤如下：样本采集与标注、样本的数据增广；k‑means聚类生成anchor box，网络改进与训练、对测试集图片批量进行着装检测，通过输出标准着装检测准确率与目标框位置来实现检测效果。本发明通过深度学习进行工作人员标准着装的检测，提出了改进的网络结构使其能够更好地提取图片特征并进行特征融合，使得检测的精度得到提升。此外，网络结构简单，检测速度快，可直接应用在视频上进行实时的着装检测，能够对各行业工作人员的着装起到监督和警示作用。

Description

基于深度学习的标准着装检测方法

技术领域

本发明专利涉及一种基于深度学习的标准着装检测方法，涉及图像处理领域以及基于深度学习的目标检测领域。

背景技术

随着社会经济的飞速发展，人们的生活标准不断提高，各行各业都对工作人员提出了标准着装的约束，例如食品卫生工作人员、建筑工地工作人员、医护工作人员等，都需要进行严格的标准着装检查。食品卫生工作人员严格进行标准着装检查，能够减少自身带来的食品污染，给顾客营造一个整洁安心的用餐环境；建筑工人严格进行标准着装检查，能够保证自身安全，减少意外发生的风险，避免可能造成的伤害和死亡；医护工作人员进行标准着装检查，能够减轻患者的压力，获取患者的信任，同时也可以减少细菌污染，保障双方的安全环境。因此，对工作人员进行标准着装检查是一项迫切而重要的任务。

现有的标准着装检测工作一方面是依靠专门人员进行检查，这会耗费大量的人力物力，识别的实时性和准确性低。另一方面则是基于传统的计算机视觉方法和机器学习方法进行目标检测。传统目标检测方法通过使用不同大小的滑动窗口提取图像中的部分内容作为候选区域，提取该区域特征后使用分类器进行分类。但是传统目标检测算法存在两个的缺陷：滑动窗口进行区域选择时针对性不强，增加了时间复杂度和窗口冗余；提取的特征鲁棒性低，模型的复杂度较高，检测的速度和准度较低。

本发明采用深度学习方法对标准着装进行检测。深度学习中的卷积神经网络对图像具有强大的特征提取能力，可以自动抽取图像中的关键特征，在各类识别任务中，深度学习算法均优于传统算法的性能，因此，可以将深度学习应用于标准着装检测中。

发明内容

为了解决传统检测算法模型复杂，目标检测的准确率与速度有待提高的问题，本发明提出了一种基于深度学习的标准着装检测方法。

本发明所采用的技术方案包含以下步骤：

步骤1：采集不同工作环境下工作人员着装的图片并确定目标的着装标准，根据着装标准人工标注数据集。

步骤2：进行数据集增广，对数据集中的图片和人工标注形成的标注文件同时进行增广，通过增加数据量来提高模型的泛化能力。

步骤3：改进yolov3-tiny网络，把整理好的数据集输入到网络中进行学习。

其中，步骤3还包括以下步骤：

步骤31：通过k-means聚类算法生成适合标准着装数据集的anchor box；

步骤32：把xml格式的标注文件进行内容提取，转换成可供网络训练使用的txt文件；

步骤33：针对标准着装数据集进行网络的调整，增加网络结构，添加1×1、3×3大小的卷积核，提高模型的分类和回归准确度；

步骤34：修改网络训练的配置文件，设置批处理次数、迭代次数、学习率等参数，保存训练日志；

步骤4：进行模型测试，把测试集的图片进行批量测试后返回测试结果。

本发明的优点和有益效果：在少量数据标注的情况下进行数据增广，减少人工标注的工作量，节约时间，同时提高了模型的泛化能力。针对自身数据集的特点，利用k-mean聚类出样本的候选框尺寸，提高检测的准确度。此外，在原网络的基础上添加卷积层，加强特征提取能力，提高了标准着装检测的准确度与速度。因此，本专利对于减少安全隐患、促进整改具有重要意义。

附图说明

图1为本发明方法的流程图；

图2为数据集增广示例；

图3为改进后的yolov3-tiny网络结构；

图4为网络训练过程的损失曲线；

图5为网络训练过程的准确率曲线；

图6为多张图片标准着装检测的结果；

具体分类方法实现步骤

下面结合附图并通过具体实施方法对本发明作详细的讲述。

基于深度学习的标准着装检测方法，主要包括样本采集与标注、样本的数据增广、k-means聚类生成anchor box、网络改进与训练、批量图片标准着装检测等部分，实现基于深度学习的标准着装检测。本发明的样本标注部分通过标注工具LabelImg实现，网络训练与测试部分在Darknet开源框架下实现，算法基于python语言，考虑到深度学习网络中特征提取的准确性与运算时间以及数据集本身的特点，采用了yolov3-tiny为基础参考网络。

样本采集与标注：通过网络下载与人工拍摄等手段共获得200张图片作为样本进行人工标注，通过LabelImg标出矩形框并将标签设定为戴帽子-YES，不戴帽子-NO，戴口罩-K，不戴口罩-NOK共4类标签。

样本的数据增广：由于人工标注费时费力，而训练样本缺少会导致特征提取不明显，检测效果差，因此对原图和标注形成的xml格式的文件同时进行数据增广，包括改变图片大小、裁剪、水平翻转等操作，使数据集扩充到2000张，按照8∶2的比例划分为训练集与测试集，图2展示了原图与经过裁剪。水平翻转后的图片。

k-means聚类生成anchor box：yolov3-tiny是基于coco公开数据集进行训练的，因此原网络使用的anchor box是基于coco数据集生成的，在本发明中，标准着装(口罩、帽子)的长宽比例较小，使用默认尺寸会对最终模型的准确度产生影响，因此需要根据自己的样本来生成anchor box。通过k-means聚类算法最终生成的6组anchor box尺寸为：(27，28)、(44，41)、(61，54)、(78，74)、(112，92)、(192，151)。

网络修改与训练：通过改进网络结构，提高模型的特征提取能力、分类与回归能力，修改配置文件，把整理好的数据集输入到网络中进行学习。

具体的步骤如下：

步骤一：把训练集中的样本及标注文件放在同一文件夹下，使用python程序将xml格式的文件转换成训练使用的txt文件，保存的是待检测的标签与坐标信息。

步骤二：由于本发明中的标准着装类型较少且特征区分相对明显，因此选择网络设计简单的yolov3-tiny为基础参考网络，原网络由于层数较少，特征提取能力不够，因此在原网络基础上，在低层、中间层与高层特征提取层均添加3组1×1、3×3卷积核大小的卷积层组合，进行充分的特征融合，图3为改进后的yolov3-tiny网络结构。

步骤三：在Darknet开源框架下按照改进后的网络结构与k-means聚类生成的anchor box进行训练文件的配置，关闭多尺度训练，设置基础学习率设为0.001，最大迭代次数设为5万次，迭代2万次后学习率采取policy方式衰减，权重衰减为0.0005，动量为0.9，保存训练日志，利用GPU进行训练。

步骤四：训练完成后从训练日志log中解析出loss、IoU(交并比)的变化情况并保存在txt中，生成loss、IOU的曲线图，如图4、5所示，选取合适的权重作为最终的测试权重。

批量图片标准着装检测：对测试集的结果进行批量测试，设置0.25的阈值，返回检测概率与目标框坐标，对训练集和测试集分别计算mAP，在训练集上的mAP达到0.999，在测试集上的mAP达到0.989，对图片的检测效果示例见图6。

图4中的横坐标代表网络的迭代次数，纵坐标代表网络在训练时的损失值。由图可以看出，网络训练的初始阶段损失下降的快，迭代到2万次的时候，损失值大约为0.6，由于在2万次时进行了学习率的衰减，损失值继续下降，当迭代次数达到3万次的时候，网络开始收敛，其损失值也开始趋于稳定，且最终保持在0.4左右。图5中的横坐标代表网络的迭代次数，纵坐标代表网络在训练时的IoU值。由图可以看出，网络训练的初始阶段IoU值很大，迭代到1万次的时候，IoU达到1，此后有轻微变化但总体维持在1。

本发明基于较少的原始样本，经过有效的数据增广，提高了模型的鲁棒性。通过改进网络结构，添加1×1、3×3卷积核大小的卷积层组合，使得特征提取能力与分类回归能力得到提升。在训练集上的mAP达到0.999，在测试集上的mAP达到0.998，测试一张图片的平均时间为0.0072s，做到了速度快、准确度高。模型的泛化能力强，可以根据不同的工作环境，设置不同的着装标准。此外模型的检测速度快，可以应用于视频中进行实时的着装检查，便于及时进行反馈。基于以上事实，本发明设计的基于深度学习的标准着装检测方法是一种实时、准确的检测方法。

Claims

1.一种基于深度学习的标准着装检测方法，步骤如下：

(1)样本采集与标注；

(2)样本的数据增广；

(3)k-means聚类生成anchor box；

(4)网络改进与训练；

(5)对测试集图片进行批量标准着装检测，通过输出检测准确率与目标框位置来实现检测效果。

2.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(1)中的样本图片由人工拍摄与网络下载共同组成，按照制定的着装标准进行人工标注，通过LabelImg标出矩形框并将标签设定为：戴帽子-YES，不戴帽子-NO，戴口罩-K，不戴口罩-NOK，标注完成后转换成xml格式的标注文件。

3.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(2)中对样本原图和标注的xml文件同时进行数据增广，减轻人工标注压力的同时又能增加数据量，提升模型训练的效果。

4.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(3)充分分析了标准着装数据集目标框的特点，由于口罩、帽子目标框的长宽比例小，对应的anchor box尺寸变化少，因此用k-means聚类算法生成标准着装数据集的anchor box：(27，28)、(44，41)、(61，54)、(78，74)、(112，92)、(192，151)。

5.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(4)分析了yolov3-tiny网络的结构，提出了通过添加1×1、3×3卷积核的卷积层来提高模型检测精度的方法，并对修改后的网络进行了训练。

6.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(4)网络参数设置为：基础学习率设为0.001，最大迭代次数设为5万次，迭代2万次后学习率采取policy方式衰减，权重衰减为0.0005。

7.根据权利要求1所述的基于深度学习的标准着装检测方法，其特征在于：步骤(5)使用训练好的模型对测试集的图片进行批量测试，返回对标准着装的测试准确率和目标框坐标，模型在训练集上的平均精度均值mAP达到0.999，在测试集上的mAP达到0.989，在单GPU上平均一张图片的测试时间在0.0072s，具有较高的检测准确率和速度，可直接用于监控视频的标准着装检测中。