CN113221670A

CN113221670A - 一种用于口罩佩戴识别的技术

Info

Publication number: CN113221670A
Application number: CN202110429640.4A
Authority: CN
Inventors: 王洪博; 梅琪琪; 王丽
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-08-06

Abstract

本发明公开了一种用于口罩佩戴识别的技术，包括实验环境和算法研究两大部分。本发明的实验平台为Windows10操作系统，CPU为16G，GPU为4G。算法研究包括对数据集进行预处理、训练模型和评估结果。整个系统流程为：1、配置Anaconda版本为Anaconda3，python版本为3.8，CUDA版本为10.0，cudnn为7.1，以及其他程序所需要的安装包。2、将经过预处理的数据集送入YOLOV5m优化算法中进行训练。3、对输出的图片进行对比评估。该发明的主要目的在于提高检测是否佩戴口罩的效率，节约人力成本，高效控制呼吸道疾病传播。

Description

一种用于口罩佩戴识别的技术

技术领域

本发明属于人工智能领域的图像处理方面，涉及到一种目标检测技术。

背景技术

由于全球新冠肺炎疫情的影响，对全球公民的卫生防护又提高了要求。人们在公共场合，乘坐交通工具时被要求必须佩戴口罩。口罩是否佩戴的检测已成为现在疫情防控的重要手段。但公共场合人流量密集，流动性大，如果仅依靠人工来进行检测无疑是一种耗时耗力的工作，久而久之检查人员还会产生疲累的感觉，导致效率低下。因而，利用人工智能技术代替人力检查口罩是否正确佩戴成为一种更好的选择。近年来，深度学习技术在目标识别领域得到了广泛应用。李美玲等人采用卷积神经网络模型实现了高分辨率遥感影像道路信息提取。也有部分学者对口罩佩戴识别问题进行了研究，如张修宝等使用Fast-RCNN算法对全天候自然场景下人脸佩戴口罩识别展开了研究。基于以上研究，本文提出一种改进的YOLOV5算法对行人是否佩戴口罩进行研究。

YOLOV5算法术语目标检测算法，于2020年6月10日发布，YOLOV5相比于其他目标检测算法，主要的有点有以下几个方面：使用Pytorch框架，对用户非常友好，能够方便地训练自己的数据集，相对于YOLOV4采用的Darknet框架，Pytorch框架更容易投入生产。易于配置环境，模型训练也非常快速，并且批处理推理产生实时结果。能够直接对单个图像，批处理图像，视频甚至网络摄像头端口输入进行有效推理。能够轻松的将Pytorch权重文件转化为安卓使用的ONXX格式，然后可以转换为OPENCV使用格式，或者通过CoreML转化为 IOS格式，直接部署到手机应用端。

发明内容

基于深度学习的YOLO系列算法对目标检测技术的巨大优势，本发明提供一种基于YOLOV5m化算法的口罩佩戴识别系统，以解决现有算法中速度慢、模型大、训练困难、精确度低的问题。其具体方案如下：

第一方面，本申请实例提供了一种新的口罩佩戴识别方法，包括：

数据集采用与2017年发布的公开数据集MAFA,总共包含30811张图片，35806张被遮挡的人脸，包含各种方向和尺度的遮挡。

搭建环境，包括Anaconda、PyCharm编译环境和opencv-python、matplotlib、numpy、pillow 、PyYAML、scipy、tensorboard、torch、torchvision、tqdm、pycocotools、coremltools、onnx 等安装包。

搭建Darknet和CUDA并行计算框架，用来接收和处理数据。根据本专利所提供的YOLOV5 优化算法进行口罩佩戴检测。

训练模型，在训练模型之前，将系统所需环境配置好，检查版本无误后即可开始训练。主要过程是将数据集送入优化的YOLOV5m进行训练。

对输出结果进行评估。

第二方面，本申请实例提供了一种口罩佩戴识别系统，包括：

实验环境：操作系统选择Windows10，显卡为NVIDIA GeForce GTX 1650，显存4G。

算法研究：主要是对MAFA数据集中的图片通过经过优化的YOLOV5m法进行口罩佩戴识别。该算法对包括：1.对原有的YOLOV5m算法的anchor(候选区域框)的宽高采用K-Means聚类算法进行聚类分析，这里需要采用九个聚类中心的宽高维度作为配置文件anchor的参数值。 2.由于原YOLOV5m算法的GIOU_Loss无法结局预测框在目标框内部，且预测框大小一致的问题，因而对其激活函数进行调整，采用CIOU_Loss。

整个系统的运行流程为：1、配置Anaconda版本为Anaconda3，python版本为3.8，CUDA 版本为10.0，cudnn为7.1，以及其他程序所需要的安装包。2、将经过预处理的数据集送入 YOLOV5m优化算法中进行训练。3、对输出的图片进行对比评估。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实例提供的一种口罩佩戴识别系统的整体框架示意图，图2为软件系统整体设计图，图3为优化的YOLOV5m网络结构图，图4为Loss图，图5为PR曲线图，图6 为mAP图，图7为实验结果图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由图1可知，该申请是基于Windows10操作系统下完成的。

CPU：该CPU的内存为16G，CPU(中央处理器)，是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。在计算机体系结构中，CPU 是对计算机的所有硬件资源(如存储器、输入输出单元)进行控制调配、执行通用运算的核心硬件单元,也是计算机的运算和控制核心。计算机系统中所有软件层的操作，最终都将通过指令集映射为CPU的操作。

GPU:GTX 1650采用了屡获殊荣的NVIDIA Turing架构，拥有突破性的图形性能。散热性能好，采用了TU117核心，拥有1024个CUDA核心，56个纹理单元，32个光栅单元，128bit位宽，4GB显存。同样的，它也有标准版和Max-Q版，标准版核心频率1395MHz， Boost频率1560MHz，TDP为50W。

编程语言：Python由荷兰数学和计算机科学研究学会的Guido van Rossum于1990年代初设计，作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。Python在设计上坚持了清晰划一的风格，这使得Python成为一门易读、易维护，并且被大量用户所欢迎的、用途广泛的语言。

CUDA:CUDA(Compute Unified Device Architecture)，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。本专利使用的版本为CUDA10.1 with cudnn7.1。

软件系统整体设计方案如图2所示，其中主要包括了如下步骤：

步骤1：搭建环境，包括Anaconda、PyCharm编译环境和opencv-python、matplotlib、numpy、 pillow、PyYAML、scipy、tensorboard、torch、torchvision、tqdm、pycocotools、coremltools、 onnx等安装包。

步骤2:对数据集进行预处理，主要是对数据进行图像增强，包括旋转，随机裁剪，，平移，缩放，以此来扩充数据集。

步骤3：将经过预处理的图片送入优化的YOLOV5m算法中进行训练。输入输出图像大小统一为608×608像素。批处理batch_size为2，训练次数500轮，每5轮epoch保存一个checkpoints。此时将学习率的初始值设为0.0001，在epoch大于200次以后将其设置为逐渐减小。训练中的梯度下降采用Adam算法优化。图3为YOLOV5m优化算法网络结构图。

步骤4：测试模型文件的识别精度是否达到预期要求，根据实验结果调节算法所涉及的参数，进行验证和比对。评价指标采用mAP。

图4为Loss图，图5为mAP图，图6为PR曲线图,图7为实验结果图。

Claims

1.一种用于口罩佩戴识别的技术，其特征在于，实验平台包括CPU、GPU、编程语言、CUDA。

CPU：该CPU的内存为16G，CPU(中央处理器)，是电子计算机的主要设备之一，电脑中的核心配件。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。计算机系统中所有软件层的操作，最终都将通过指令集映射为CPU的操作。

GPU:GTX 1650采用了屡获殊荣的NVIDIA Turing架构，拥有突破性的图形性能。散热性能好，采用了TU117核心，拥有1024个CUDA核心，56个纹理单元，32个光栅单元，128bit位宽，4GB显存。同样的，它也有标准版和Max-Q版，标准版核心频率1395MHz，Boost频率1560MHz，TDP为50W。

2.根据权利要求1所述的系统，其特征在于可以有效检测行人是否佩戴口罩。为此所选用的算法的基础上主要作了以下两点修改：1、对原有的YOLOV5m算法的anchor(候选区域框)的宽高采用K-Means聚类算法进行聚类分析，这里需要采用九个聚类中心的宽高维度作为配置文件anchor的参数值。2、由于原YOLOV5m算法的GIOU_Loss无法结局预测框在目标框内部，且预测框大小一致的问题，因而对其进行调整，采用CIOU_Loss。网络可分为四个部分，分别为输入端、Backbone、PANet、Output。整个系统的运行流程为：1、配置Anaconda版本为Anaconda3，python版本为3.8，CUDA版本为10.0，cudnn为7.1，以及其他程序所需要的安装包。2、将经过预处理的数据集送入YOLOV5m优化算法中进行训练。3、对输出的图片进行对比评估。该过程中激活函数使用Hard-Swish函数，如公式1所示。损失函数L_CIOU为CompleteIOU loss，如公式2所示，其中，ρ²是指predict box和GT box中心点的距离的平方，c²是指刚好能包含predict box和GT box的最小box的对角线长度平方。优化器选择Adam算法优化器进行优化。评价指标采用mAP(mean average precision),mean为类的别平均，averageprecision为一个类别的平均精确度，P(Precision)精确率的公式如公式3所示，R(Recall)召回率的公式如公式4，其中TP为True Positive,被判定为正样本，事实上也是正样本；TN为True Negative,被判定为负样本，事实上也是负样本；FP为False Positive,被判定为正样本，但事实上是负样本；FN为False Negative,被判定为负样本，但事实上是正样本。

其中，