CN113297900A

CN113297900A - 基于yolo的视频流安全帽识别方法、装置、设备及存储介质

Info

Publication number: CN113297900A
Application number: CN202110360038.XA
Authority: CN
Inventors: 凌小宝; 张健强; 朱辰越; 刘哲伟; 肖子恺; 聂钇合
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-08-24
Anticipated expiration: 2041-04-02
Also published as: CN113297900B

Abstract

本发明涉及基于YOLO的视频流安全帽识别方法、装置、设备及存储介质，首先采用无人机在空中获取工地工人施工的图像信息，然后对图像进行预处理，将输入图像尺寸调整为416×416，将图像分割成S×S个网格，若物体中心落在某个网格上，则该网格负责检测该物体。此外，对YOLO算法的网络结构调整，在卷积层以及残差的跳层之间增加了小目标检测层。同时考虑到安全帽颜色为纯色，在设计损失函数时，考虑最多颜色像素数目与预测框内所有像素之比。再者安全帽多为近似圆形，bounding box长宽比近似为1，在设计损失函数时考虑加上对不均衡长宽比的乘法项。本发明提高了安全帽的识别的效率和精确度。

Description

基于YOLO的视频流安全帽识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能与计算机视觉识别技术领域，尤其涉及一种基于YOLO的视频流安全帽识别方法、装置、设备及存储介质。

背景技术

随着城市化建设的不断发展，建筑业已成为推动城市化建设不可或缺的行业之一。但建筑工地发生的意外事故造成人员伤亡的案例越来越多，事故不仅给工薪家庭的生活带来不便，同时也给国家和企业造成了重大损失。

近几年，深度学习的发展让很多计算机视觉任务落地成为可能，这些任务渗透到了各行各业，在航空航天、教育医疗、智能检测等方面已经有了实践运用。在工地检测方面，包含的任务有安全帽佩戴检测、高空坠物检测、异常事故检测等等。

目标检测的难点在于待检测区域的提取与识别，为了克服这些难点，对于目标检测的探索和研究从未停止。当前，主流的安全帽检测方法基本分为两种：1)基于传统目标检测的方法，包括HOG检测器、可变形部件模型(DPM)等方法；2)基于深度学习的方法，包括Faster R—CNN、YOLO算法、SSD(single shot multibox detector)等方法。传统的目标检测方法存在较多弊端，以HOG为例，很难处理遮挡问题，人体姿势动作幅度过大或物体方向改变也不易检测，也没有选取主方向，也没有旋转梯度方向直方图，因而本身不具有旋转不变性。HOG本身不具有尺度不变性，其尺度不变性是通过缩放检测窗口图像的大小来实现的；此外，由于梯度的性质，HOG对噪点相当敏感。为了弥补这些缺陷，需要在传统的目标检测方法上做进一步改善和优化。

深度学习方法中的卷积神经网络(convolution neural network,CNN)将人工神经网络和卷积运算相结合，它可以识别各种各样的目标模式并对一定程度的扭曲和变形有良好的鲁棒性，同时它采用稀疏连接和权值共享，极大减少了传统神经网络的参数个数。YOLO算法虽然在目标检测方面有着非常强的推理速度和准确度，但经过分析后发现在不同的应用场景，传统的YOLO算法并不能快速准确的进行目标检测，有待进一步改进。

发明内容

本发明的主要目的在于，解决传统目标检测方法检测速度及精度不高的技术问题，本发明采取的技术方案是，本发明提供了一种基于YOLO的视频流安全帽识别方法、装置、设备及存储介质，在目标检测方面具有更高的效率和检测精度。

为了实现上述目的，本发明提供了一种基于YOLO的视频流安全帽识别方法，包括以下步骤：

S1、基于改进YOLO算法对Darknet网络识别模型进行训练，获得训练好的Darknet网络识别模型；

S2、将预设尺寸的待识别视频图像逐帧输入所述训练好的Darknet网络识别模型，将所述预设尺寸的待识别视频图像分成S×S个网格，若某网格中存在被检测物体的中心，则该网格负责该被检测物体；

S3、预测每个所述网格负责的被检测物体属于C个类别中具体某一类的后验概率P_r(classi|object)；

S4、对每个所述网格均预测B个目标边框；

预测所述目标边框含有目标的可能性大小，记为P_r(object)；

当所述目标边框是背景时，即不包含目标，此时P_r(object)＝0；

当所述目标边框包含目标时，P_r(object)＝1；

预测所述目标边框的准确度，所述目标边框的准确度用预测框与实际框的交并比

表征；

S5、根据S4的预测结果对预测置信度进行评分，所述预测置信度的评分定义为

S6、根据S3、S4和S5的预测结果，计算目标边框类相关置信度，所述目标边框类相关置信度的计算公式为：

其中P_r(class_i)表示boundingbox内存在对象classi的概率，

表示目标边框类相关置信度；

S7、将所述目标边框类相关置信度与阈值进行比较，若高于阈值，则识别为正确佩戴安全帽，否则识别为未正确佩戴安全帽。

优选地，在步骤S1之前，还包括：

对所述Darknet网络识别模型进行调整：在卷积层和残差层的跳层之间增加小目标检测层。

优选地，在步骤S1之前，还包括：

对YOLO算法的损失函数进行改进，包括：

考虑到安全帽颜色为纯色，在设计损失函数时考虑最多颜色像素数目与预测框内所有像素之比，即：

若安全帽是红色的，则

代表红色的面积除以预测框的总面积。

考虑到安全帽多为近似圆形，bounding box长宽比近似为1，在设计损失函数时考虑加上对不均衡长宽比的乘法项，即：

其中，Loss为传统的YOLO算法的损失函数，

分别表示网格i的第j个boundingbox的宽度和高度，λ_coord代表矩形框中心点的调整系数，

表示该矩形框是否负责预测目标物体，B表示每个网格都预测的目标边框，S表示划分的网格数。

优选地，步骤S1具体包括：

获取视频图像，将所述视频图像逐帧分解为多个图像样本；

对所述图像样本中的安全帽进行标注，得到训练样本集；

以改进YOLO算法的损失函数最小为目标，通过所述训练样本集对Darknet网络识别模型进行训练，获得训练好的Darknet网络识别模型。

优选地，在对所述图像样本中的安全帽进行标注，得到训练样本集的步骤之前，还包括：

删除图像样本中的无效图像，所述无效图像包括无安全帽的图像样本。

优选地，在步骤S2之前，还包括：

对待识别视频图像进行预处理，得到预设尺寸的待识别视频图像。

此外，为了实现上述目的，本发明还提供了一种基于YOLO的视频流安全帽识别装置，所述视频流安全帽识别装置包括：

训练模块，用于基于改进YOLO算法对Darknet网络识别模型进行训练，获得训练好的Darknet网络识别模型；

输入模块，用于将待识别视频图像逐帧输入所述训练好的Darknet网络识别模型，将所述待识别视频图像分成S×S个网格，若某网格中存在被检测物体的中心，则该网格负责该被检测物体；

预测模块，用于预测每个所述网格负责的被检测物体属于C个类别中具体某一类的后验概率P_r(classi|object)；

所述预测模块，还用于对每个所述网格均预测B个目标边框；

预测所述目标边框含有目标的可能性大小，记为P_r(object)；

当所述目标边框包含目标时，P_r(object)＝1；

预测所述目标边框的准确度，所述目标边框的准确度用预测框与实际框的交并比IOU来表征；

评分模块，用于根据P_r(object)和

对预测置信度进行评分，所述预测置信度的评分定义为

计算模块，用于根据P_r(classi|object)、P_r(object)和

计算目标边框类相关置信度；

识别模块，用于将所述目标边框类相关置信度与阈值进行比较，若高于阈值，则识别为正确佩戴安全帽，否则识别为未正确佩戴安全帽。

此外，本发明还提供了一种视频流安全帽识别设备，所述视频流安全帽识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频流安全帽识别程序，所述视频流安全帽识别程序被所述处理器执行时实现所述的视频流安全帽识别方法的步骤。

此外，本发明还提供了一种存储介质，所述存储介质上存储有视频流安全帽识别程序，所述视频流安全帽识别程序被处理器执行时实现所述的视频流安全帽识别方法的步骤。

本发明提供的技术方案带来的有益效果是：对YOLO算法的网络结构调整，在卷积层以及残差的跳层之间增加了小目标检测层。同时考虑到安全帽颜色为纯色，在设计损失函数时，考虑最多颜色像素数目与预测框内所有像素之比。再者安全帽多为近似圆形，bounding box长宽比近似为1，在设计损失函数时考虑加上对不均衡长宽比的乘法项。本发明提高了安全帽的识别的效率和精确度。

附图说明

图1是本发明提供的基于改进YOLO的视频流安全帽识别方法执行流程图；

图2是本发明提供的改进YOLO算法流程图；

图3是本发明基于改进YOLO的视频流安全帽识别装置结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1是本发明提供的基于改进YOLO的视频流安全帽识别方法执行流程图；本实施例提供的一种基于YOLO的视频流安全帽识别方法，包括以下步骤：

S1、基于改进YOLO算法对Darknet网络识别模型进行训练，获得训练好的Darknet网络识别模型。

基于YOLO算法的Darknet网络识别模型是一个比较经典的one-stage结构，分为输入端、backbone、neck和prediction四个部分；

步骤S1具体包括：

对YOLO算法的Darknet网络识别模型和相关参数进行了调整，得到基于改进YOLO算法的Darknet网络识别模型；

通过无人机获取视频图像，将所述视频图像逐帧分解为多个图像样本；

对所述图像样本中的安全帽进行标注，得到训练样本集；

S2、将预设尺寸的待识别视频图像逐帧输入所述训练好的Darknet网络识别模型，将所述预设尺寸的待识别视频图像分成S×S个网格，若某网格中存在被检测物体的中心，则该网格负责该被检测物体。

步骤S2具体包括：

对待识别视频图像进行预处理，将待识别视频图像逐帧进行截图，然后对图片进行归一化，即将输入图像的尺寸调整为416×416；

将尺寸为416×416的待识别视频图像逐帧输入所述训练好的Darknet网络识别模型，将所述待识别视频图像分成S×S个网格，若某网格中存在被检测物体的中心，则该网格负责该被检测物体。

S4、对每个所述网格均预测B个目标边框，在本实施例中，设置B值为2；

预测所述目标边框含有目标的可能性大小，记为P_r(object)；

当所述目标边框包含目标时，P_r(object)＝1；

表征；

其中P_r(class_i)表示boundingbox内存在对象classi的概率，

表示目标边框类相关置信度；

请参考图2，图2是本发明提供的改进YOLO算法流程图；

在本实施例中，对YOLO算法的Darknet网络结构和相关参数进行了调整，得到基于改进YOLO算法的Darknet网络识别模型；具体包括：

对所述Darknet网络识别模型进行调整：在卷积层和残差层的跳层之间增加小目标检测层，以提高小目标检测精度。

对YOLO算法的损失函数进行改进，包括：

考虑到安全帽颜色为纯色，在设计损失函数时考虑最多颜色像素数目与预测框内所有像素数目之比，即：

若安全帽是红色的，则

代表红色的面积除以预测框的总面积。

其中，Loss为传统的YOLO算法的损失函数，

在本实施例中，改进YOLO算法中S值为10，C为2。

在本实施例中，在安全帽检测识别的后处理过程中，针对多个目标框的筛选，采用CIOU_Loss+DIOU_nms的方式。

请参考图3，图3是本发明基于改进YOLO的视频流安全帽识别装置结构图；

为了本实施例一种基于YOLO的视频流安全帽识别方法的实施，本实施例提供了一种基于YOLO的视频流安全帽识别装置，包括：

训练模块1，用于基于改进YOLO算法对Darknet网络识别模型进行训练，获得训练好的Darknet网络识别模型；

输入模块2，用于将待识别视频图像逐帧输入所述训练好的Darknet网络识别模型，将所述待识别视频图像分成S×S个网格，若某网格中存在被检测物体的中心，则该网格负责该被检测物体；

预测模块3，用于预测每个所述网格负责的被检测物体属于C个类别中具体某一类的后验概率P_r(classi|object)；

所述预测模块3，还用于对每个所述网格均预测B个目标边框；

预测所述目标边框含有目标的可能性大小，记为P_r(object)；

当所述目标边框包含目标时，P_r(object)＝1；

评分模块4，用于根据P_r(object)和

对预测置信度进行评分，所述预测置信度的评分定义为

计算模块5，用于根据P_r(classi|object)、P_r(object)和

计算目标边框类相关置信度；

识别模块6，用于将所述目标边框类相关置信度与阈值进行比较，若高于阈值，则识别为正确佩戴安全帽，否则识别为未正确佩戴安全帽。

此外，本实施例还提供了一种视频流安全帽识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频流安全帽识别程序，所述视频流安全帽识别程序被所述处理器执行时实现所述的视频流安全帽识别方法的步骤。

此外，本实施例还提供了一种存储介质，存储有视频流安全帽识别程序，所述视频流安全帽识别程序被处理器执行时实现所述的视频流安全帽识别方法的步骤。

为了验证本发明基于改进YOLO的视频流安全帽识别方法的识别效果，在具体实施例中，将24000余张照片分为训练集和测试集，训练集17000张，测试集7000张。在测试集上进行实验，结果如下表：

表1多种算法实验结果对比

算法	mAP	帧率
			FasterR-CNN	82.9％	43
传统的YOLO(YOLOv3)	87.8％	57
			改进的YOLO	89.1％	58

从表1可以看出，本发明改进的YOLO v3平均精准度mAP高于传统的YOLO v3，且对于纯色、近似圆形的安全帽与人头部的检测较好。

本发明基于YOLO的视频流安全帽识别方法，对传统YOLO算法的网络结构进行调整，在卷积层以及残差的跳层之间增加了小目标检测层。同时考虑到安全帽颜色为纯色，在设计损失函数时，考虑最多颜色像素数目与预测框内所有像素之比。再者安全帽多为近似圆形，bounding box长宽比近似为1，在设计损失函数时考虑加上对不均衡长宽比的乘法项。本发明提高了安全帽的识别效率和精确度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。