CN113052133A

CN113052133A - 一种基于YOLOv3的安全帽识别方法、装置、介质及设备

Info

Publication number: CN113052133A
Application number: CN202110426910.6A
Authority: CN
Inventors: 李妍妍
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-06-29

Abstract

本公开涉及图像识别技术领域，本公开提供了一种基于YOLOv3的安全帽识别方法、装置、介质及设备，所述方法包括：采集目标图像数据；利用图像标注工具对所述图像数据进行标注，得到标注后的图像数据；将所述标注后的图像数据集分为训练集和测试集两部分，并将所述训练集的图像数据按照分辨率不同划分为不同的组；在所述不同组的图像数据中选取不少于一组图像数据，并利用以Darknet‑53为基础网络模型的神经网络对所述训练集的图像数据进行模型训练，得到训练后的安全帽识别模型；利用所述测试集图像数据通过YOLOv3算法对所述安全帽识别模型的识别结果进行测试。本公开对数据集分类、多尺度多层次的训练，提高了检测安全帽的准确率和检测速度，满足了实时检测要求。

Description

一种基于YOLOv3的安全帽识别方法、装置、介质及设备

技术领域

本公开涉及图像识别技术领域，更为具体来说，本公开涉及一种基于YOLOv3的安全帽识别方法、装置、介质及设备。

背景技术

安全帽在生产和施工工地是保护工人避免遭受意外伤害的重要保护措施，由于安防措施的滞后，大多依赖于人工监督。随着深度学习技术的日趋发展，在图像识别、语音识别、自然语言处理各个领域都取得了不错的成绩，图像识别是计算机视觉领域一个很重要的研究方向。在复杂的施工环境中，有无佩戴安全帽的准确率还待提升。

近些年，基于目标检测的发展和生产安全越来越受人们的重视，已经有研究人员对工人安全帽佩戴自动化识别进行了初步尝试。比如通过提取安全帽的特征向量作为BP神经网络的输入层来识别、或者通过图像信息分别提取工人和安全帽的几何空间位置信息进行匹配，但这些方法都受到建筑施工现场复杂环境的影响，导致信息的提取和信息的匹配的准确度比较低，因此需要提出更准确的研究方法和算法解决施工环境的安全帽识别问题。

发明内容

为解决现有技术的识别算法不能满足安全帽识别在安全生产中的实际需求的技术问题，本公开提供了一种基于YOLOv3的安全帽识别方法，包括：

采集目标图像数据；

利用图像标注工具对所述图像数据进行标注，得到标注后的图像数据；

将所述标注后的图像数据集分为训练集和测试集两部分，并将所述训练集的图像数据按照分辨率不同划分为不同的组；

在所述不同组的图像数据中选取不少于一组图像数据，并利用以Darknet-53为基础网络模型的神经网络对所述训练集的图像数据进行模型训练，得到训练后的安全帽识别模型；

利用所述测试集图像数据通过YOLOv3算法对所述安全帽识别模型的识别结果进行测试。

进一步，所述图像标注工具为深度学习图像标注labelme工具。

进一步，所述将所述标注后的图像数据集分为训练集和测试集两部分之前，还包括：

对所述标注后的图像数据进行旋转和/或加入噪声的处理方法进行处理以扩大所述标注后的图像数据的样本数量。

进一步，所述利用以Darknet-53为基础网络模型的神经网络进行模型训练，得到训练后的安全帽识别模型具体包括：

通过Darknet-53的基础网络模型得到特征金字塔；

将conv53层依次进行连续的3×3和1×1卷积操作，得到第一待处理yolo层；

将所述第一待处理yolo层依次进行一组连续的3×3和1×1卷积操作，得到小尺度yolo层。

进一步，所述得到小尺度yolo层后，还包括：

将所述小尺度yolo层进行上采样，与Darknet-53中的conv45层进行卷积操作，依次使用连续3×3和1×1卷积操作，得到第二待处理yolo层；

将所述第二待处理yolo层依次进行一组连续的3×3和1×1卷积操作，得到中尺度yolo层。

进一步，所述得到中尺度yolo层之后还包括：

将所述中尺度yolo层进行上采样，与Darknet-53中的conv29层进行卷积操作，依次使用连续的3×3和1×1卷积操作，得到第三待处理yolo层；

将所述第三待处理yolo层依次进行一组连续的3×3和1×1卷积操作，得到大尺度yolo层。

为实现上述技术目的，本公开还能够提供一种基于YOLOv3的安全帽识别装置，包括：

图像采集模块，用于采集目标图像数据；

图像标注模块，用于利用图像标注工具对所述图像数据进行标注，得到标注后的图像数据；

图像分组模块，用于将所述标注后的图像数据集分为训练集和测试集两部分，并将所述训练集的图像数据按照分辨率不同划分为不同的组；

模型训练模块，用于在所述不同组的图像数据中选取不少于一组图像数据，并利用以Darknet-53为基础网络模型的神经网络对所述训练集的图像数据进行模型训练，得到训练后的安全帽识别模型；

模型测试模块，用于利用所述测试集图像数据通过YOLOv3算法对所述安全帽识别模型的识别结果进行测试。

进一步，还包括：

图像处理模块，用于对所述标注后的图像数据进行旋转和/或加入噪声的处理方法进行处理以扩大所述标注后的图像数据的样本数量。

为实现上述技术目的，本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的基于YOLOv3的安全帽识别方法的步骤。

为实现上述技术目的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的基于YOLOv3的安全帽识别方法的步骤。

本公开的有益效果为：

检测有无戴安全帽，安全帽的佩戴是否合规对生产安全及其重要，针对复杂施工现场特点和监控视频的特点，提出的基于YOLOv3的Darknet-53深度卷积网络模型的改进算法对安全帽检测的准确度有相对的提升。采集数据集多是大型施工现在的照片和视频监控图像，为研究检测安全帽小目标的准确率提供了条件；通过给数据集分类、多尺度多层次的训练，提高了检测安全帽的准确率和检测速度，满足了实时检测要求，提高了施工工人的安全保障。

附图说明

图1示出了本公开的实施例1的流程示意图；

图2示出了本公开的实施例1的优选实施例的流程示意图；

图3示出了本公开的实施例2的结构示意图；

图4示出了本公开的实施例4的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例一：

如图1所示：

本公开提供了一种基于YOLOv3的安全帽识别方法，包括：

S101：采集工地图像数据；

S102：利用图像标注工具对所述图像数据进行标注，得到标注后的图像数据；

S103：将所述标注后的图像数据集分为训练集和测试集两部分，并将所述训练集的图像数据按照分辨率不同划分为不同的组；

S104：利用以Darknet-53为基础网络模型的神经网络进行模型训练，得到训练后的安全帽识别模型；

S105：利用所述测试集图像数据通过YOLOv3算法对所述安全帽识别模型的识别准确率进行测试。

进一步，所述图像标注工具为深度学习图像标注labelme工具。

LabelMe是一个用于在线图像标注的Javascript标注工具。与传统图像标注工具相比，其优势在于我们可以在任意地方使用该工具。此外，它也可以帮助我们标注图像，不需要在电脑中安装或复制大型数据集。

进一步，所述S102和所述S103之间，还包括：

通过Darknet-53的基础网络模型得到特征金字塔；

将conv53层进行连续的1×1和3×3卷积操作，得到第一待处理yolo层；

将所述第一待处理yolo层进行一组1×1和3×3卷积操作，得到小尺度yolo层。

进一步，所述得到小尺度yolo层后，还包括：

将所述小尺度yolo层进行上采样，与Darknet-53中的conv45层进行卷积操作，使用连续1×1和3×3卷积操作，得到第二待处理yolo层；

将所述第二待处理yolo层进行一组1×1和3×3卷积操作，得到中尺度yolo层。

进一步，所述得到中尺度yolo层之后还包括：

将所述中尺度yolo层进行上采样，与Darknet-53中的conv29层进行卷积操作，使用连续1×1和3×3卷积操作，得到第三待处理yolo层；

将所述第三待处理yolo层进行一组1×1和3×3卷积操作，得到大尺度yolo层。

如图2所示，示出了本公开的实施例一的一个具体实施例的流程示意图：

首先，本申请的方法需要针对需要解决的实际问题提出问题：

对现象进行分析，对比分析现有的SSD算法、CNN算法、YOLOv3算法等，选择检测精度和检测时间都取得良好效果的算法，即如何优化安全帽识别算法对其进行改进以达到实现提高安全帽识别准确率的目的。

然后，针对之前提出的问题进行问题分析

问题分析的过程可以从两个大的方向进行分析：

即从目标检测算法的角度和安全帽识别方法的角度两个大的方向进行分析；

从目标检测算法的角度进行分析，本申请首先分析具体是采用单步检测法还是两步检测法。

像RCNN，fast RCNN,faster RCNN，这类检测方法都需要先通过一些方法得到候选区域，然后对这些候选区使用高质量的分类器进行分类，这种属于两部检测法。这类方法的检测准确率比较高但是计算开销非常大，不利于实时检测和嵌入式等设备。

另一类方法是单步检测法，这类方法将提取候选区和进行分类这两个任务融合到一个网络中。既不使用预定义的box也不使用候选区生成网络来进行寻找目标物体。而是通过一些的卷积核来对卷积网络得到的特征来计算类别分数和位置偏差。

同时，本申请还从如何选择合适的安全帽识别方法的角度考虑如何解决问题：

对现象进行分析，对比分析现有的SSD算法、CNN算法、YOLOv3算法等，选择检测精度和检测时间都取得良好效果的算法。

分析问题，对建筑工程环境中的安全帽识别方法进行分析。如基于CNN深度神经网络模型，需要从输入的图像通过输入层、卷积操作层、池化采样层、全连接层与输出层完成网络结构的构建、网络模型的参数训练、网络模型的测试等角度进行分析。

经过对问题的分析后，进行具体的模型设计来解决问题

具体地，

首先，使用labelme工具对图像进行标注，在标记处自定义的各种目标，生成配置文件。

将数据集分为训练集和测试集两部分，由于需要使用多尺度训练方法，将该部分数据集分为10组，即10种采用不同的分辨率。通过旋转、加入噪声等方法来扩大样本数，最终选取了21000张图片作为检测训练数据集样本，不同分辨率的样本数量均匀分配，这样能够保证在训练的时候适应不同尺度的图像数据。划分出1000张图片作为测试集，测试集样本随机归一化任意分辨率。在训练样本集中，正样本一类A类，负样本四类B,C,D,E。A类是佩戴安全帽的正常作业人员，B类是将安全帽拿在手上未戴的作业人员，C类是没有携带安全帽的作业人员，D类是夏天带着草帽的人，E类是冬天带着保暖帽子的人，加入噪声和旋转的数据。

然后，对施工现场图像及视频进行算法参数训练，训练成功后利用YOLOv3算法对监控系统的视频进行试试识别。训练过程中以Darknet-53作为基础网络模型。

采用darknet-53作为基础网络模型：深度残差网络+多尺度特征预测+FPN上采样，网络越深，检测到的特征越细，效果越好。

基于图像金字塔结构，对其进行改进，将conv53层进行连续卷积操作得到yolo层，然后再进行卷积操作得到小尺度yolo层，再卷积操作得到中尺度yolo层，同时将该层进行上采样，与conv53层进行卷积操作得到第三组yolo层。将不同层次的特征图进行融合连接，得到特征图，再在这些特征图上进行位置和类别预测。通过这种多尺度训练策略对安全帽数据进行训练识别，完成算法的优化与实现。

具体网络结构改进细节：首先通过Darknet-53得到特征金字塔，将conv53层进行连续的1×1和3×3卷积操作，得到一组待处理yolo层，然后将该层进行一组1×1和3×3卷积操作，得到小尺度yolo层；同时，将该层进行上采样，与Darknet-53中的conv45层进行卷积和操作，同样使用连续1×1和3×3卷积操作，得到第二组待处理yolo层，将该层进行一组1×1和3×3卷积操作，得到中尺度yolo层；同时，将该层进行上采样，与Darknet-53中的conv29层进行卷积和操作，同样使用连续1×1和3×3卷积操作，得到第三组待处理yolo层，将该层进行一组1×1和3×3卷积操作，得到大尺度yolo层。经过上述操作，得到3组不同尺度的yolo特征层，并使用这3组特征层进行位置和类别预测。

多尺度训练策略对自制的安全帽数据集进行训练:由于整个网络具有5个最大池化层，因此网络下采样倍率为32，在训练过程中，将安全帽佩戴数据集训练图片输入大小分为一系列32倍数的值，其尺寸计算公式为:S_(n+1)＝32+S_n,n≤9

其中S_n为第n组输入图像的尺寸。在网络初始化过程中，S₁为320×320。通过尺寸计算式可得出输入图片尺寸大小为:{320，352，...，608}，在训练过程中，每隔10轮随机选择一种输入图片大小，以达到模型可以适应不同尺寸图片的效果。

最后，使用YOLO v3官网上提供的权重参数作为网络训练的初始化参数，随机使用自制安全帽检测训练数据集中的图像进行网络模型的调参，追求网络模型检测效果越来越好。

在解决问题的模型设计好后需要进行具体的工程实证环节：

具体地，

通过搭建实验的环境，采集大量实验数据，对实验数据进行筛选预处理后作为数据池，使用labelme工具对数据集内的图像进行数据标注，分组多尺度进行训练，随机使用数据池中图像进行网络模型调参，精确网络模型检测。并与传统的算法进行对比，验证检测结果的精确度，最后验证改进后的算法识别安全帽的准确度平均至少提高3％，最终证实算法为现有技术改进的安全帽识别算法，获得了更好的安全帽识别效果。

本公开的有益效果为：

实施例二：

如图2所示，

本公开还能够提供一种基于YOLOv3的安全帽识别装置，包括：

图像采集模块201，用于采集目标图像数据；

图像标注模块202，用于利用图像标注工具对所述图像数据进行标注，得到标注后的图像数据；

图像分组模块203，用于将所述标注后的图像数据集分为训练集和测试集两部分，并将所述训练集的图像数据按照分辨率不同划分为不同的组；

模型训练模块204，用于在所述不同组的图像数据中选取不少于一组图像数据，并利用以Darknet-53为基础网络模型的神经网络对所述训练集的图像数据进行模型训练，得到训练后的安全帽识别模型；

模型测试模块205，用于利用所述测试集图像数据通过YOLOv3算法对所述安全帽识别模型的识别结果进行测试。

其中，所述的图像采集模块201依次与所述图像标注模块202、所述图像分组模块203、所述模型训练模块204以及模型测试模块205相连接。

进一步，还包括：

进一步，所述图像标注工具为深度学习图像标注labelme工具。

通过Darknet-53的基础网络模型得到特征金字塔；

进一步，所述得到小尺度yolo层后，还包括：

将所述小尺度yolo层进行上采样，与Darknet-53中的conv45层进行卷积操作，依次使用连续的3×3和1×1卷积操作，得到第二待处理yolo层；

进一步，所述得到中尺度yolo层之后还包括：

实施例三：

本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的基于YOLOv3的安全帽识别方法的步骤。

本公开的计算机存储介质可以采用半导体存储器或磁芯存储器实现。

半导体存储器，主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后，使Mos存储器在半导体存储器中开始占主要地位。NMos速度快，如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省，4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入，它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。

磁芯存储器，具有成本低，可靠性高的特点，且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上，存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS～8MB，存取周期为1.0～1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后，磁芯存储器仍然可以作为大容量扩充存储器而得到应用。

实施例四：

本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的基于YOLOv3的安全帽识别方法的步骤。

图4为一个实施例中电子设备的内部结构示意图。如图4所示，该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于YOLOv3的安全帽识别方法。该电设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于YOLOv3的安全帽识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。

所述处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等)，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

本公开基于YOLO v3网络结构，加入了图像金字塔的结构，调整整体目标识别网络，提高了小目标的检测准确率和检测速度：基于YOLO v3模型为主体，首先采用图像金字塔结构，将不同层次特征进行融合，获取不同尺度的特征图，用于位置和类别预测；然后对目标框维度进行聚类，增加先验框(anchor box)个数，使得模型能够获取更多的物体边缘信息；最后，在训练过程中，采用多尺寸多分辨率图片进行训练，使得模型能够适应不同场景不同分辨率的图片。对比文件中的未优化的YOLO模型处理方法，本公开的处理有更高准确性，

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种基于YOLOv3的安全帽识别方法，其特征在于，包括：

采集目标图像数据；

2.根据权利要求1所述的方法，其特征在于，所述图像标注工具为深度学习图像标注labelme工具。

3.根据权利要求1所述的方法，其特征在于，所述将所述标注后的图像数据集分为训练集和测试集两部分之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述利用以Darknet-53为基础网络模型的神经网络进行模型训练，得到训练后的安全帽识别模型具体包括：

通过Darknet-53的基础网络模型得到特征金字塔；

5.根据权利要求4所述的方法，其特征在于，所述得到小尺度yolo层后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述得到中尺度yolo层之后还包括：

7.一种基于YOLOv3的安全帽识别装置，其特征在于，包括：

图像采集模块，用于采集目标图像数据；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6任一项中所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1～6任一项中所述的基于YOLOv3的安全帽识别方法对应的步骤。