CN112307984A

CN112307984A - 基于神经网络的安全帽检测方法和装置

Info

Publication number: CN112307984A
Application number: CN202011204292.2A
Authority: CN
Inventors: 张学锋; 王子琦; 汤亚玲; 储岳中
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-02
Anticipated expiration: 2040-11-02
Also published as: CN112307984B

Abstract

本发明提供基于神经网络的安全帽检测方法，建立第一神经网络，所述第一神经网络的基础网络为YOLOv3网络，利用第一神经网络对目标图片中的安全帽进行检测；YOLOv3网络中的骨干网络模块中增加了可变卷积处理和双注意力机制处理，并且利用上采样拼接的方式对部分特征图的尺寸进一步变小。通过本发明的方法，能够更加准确地检测出安全帽。

Description

基于神经网络的安全帽检测方法和装置

技术领域

本发明涉及安全帽的检测，特别是一种神经网络检测安全帽的方法。

背景技术

随着人们对建筑安全应用的关注，安全帽检测也被提出。国内的安全帽检测研究已经成为热点，方明等人在YOLOv2上引入密集连接网络和轻量化网络结构，减少了参数和计算量，但是当背景颜色与安全帽颜色相近时，会出现漏检情况。徐守坤等在Faster R-CNN上运用多尺度训练和增加锚点数量的方式来实现对安全帽小目标检测的优化，但该方法所需时间长，难以部署在实际。王兵等人使用GIOU计算方法，与YOLOv3的目标函数相结合，解决了评价指标与目标函数不一致的问题，提升了安全帽佩戴检测的准确率，但其网络结构不够精简。

发明内容

本发明目的在于提供一种基于神经网络的安全帽检测方法，用于解决安全帽检测准确率低的技术问题。

为达成上述目的，本发明提出如下技术方案：

基于神经网络的安全帽检测方法，建立第一神经网络，所述第一神经网络的基础网络为YOLOv3网络，利用第一神经网络对目标图片中的安全帽进行检测；

包括如下过程：

所述目标图片顺序经过第一残差处理、第二残差处理、第三残差处理、第四残差处理和第五残差处理获得第一图像，并经过第一后处理获得一级后处理特征图，再经过第二后处理获得第一特征图；

所述目标图片顺序经过第一残差处理、第二残差处理、第三残差处理、第四残差处理获得第二图像，并与上采样的上述一级后处理特征图拼接，并经过第一后处理获得二级后处理特征图，再经过第二后处理获得第二特征图；

所述目标图片顺序经过第一残差处理、第二残差处理、第三残差处理获得第三图像，并与上采样的二级后处理特征图进行拼接，再经过第一后处理获得三级后处理特征图；

所述目标图片顺序经过第一残差处理、第二残差处理获得第四图像，并与上采样的上述三级后处理特征图拼接，并经过第一后处理获得四级后处理特征图，再经过第二后处理获得第三特征图；

其中，所述第一残差处理、第二残差处理、第三残差处理均包括可变卷积处理、空间注意力处理和残差处理，所述第四残差处理和第五残差处理均包括通道注意力处理和残差处理。

进一步的，在本发明中，所述第一后处理为顺序执行的5次DBL处理，每次DBL处理包括卷积、批标准化和激活。

进一步的，在本发明中，所述第二后处理为顺出执行的1次DBL处理和卷积。

有益效果：

由以上技术方案可知，本发明的技术方案提供了一种安全帽的检测方法，基于YOLOv3算法作为基础网络，并对YOLOv3结构进行改进。首先加入了空间注意力模块和通道注意力模块形成双注意力机制来获取空间和通道上更多的特征，再加入可变卷积以适应目标物体的形变，最后对部分特征图的尺寸进行了改变以更准确的检测出小物体。

本发明的模型与常见的YOLOv3，SSD300，以及Fast R-CNN等模型在同一环境下进行对比，实验结果表明本发明的方法对安全帽和人的检测精度有明显提升。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明中传统的YOLOv3网络的基本组成单元DBL的结构示意图；

图2为本发明中传统的YOLOv3网络的骨干网络DarkNet-53网络的结构示意图；

图3为本发明中传统的YOLOv3网络的结构示意图；

图4为本发明中新的YOLOv3网络的骨干网络DarkNet-53网络的结构示意图；

图5为本发明中新的YOLOv3网络的多尺度特征变动图；

图6为本发明在实验比对时各模型测试mAP结果；

图7为采用SSD300的预测图；

图8为采用FastR-CNN的预测图；

图9为采用YOLOv3的预测图；

图10为采用本发明的方法的预测图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

申请概述

如背景所述的现有的安全帽检测准确性较低，本发明分析了导致上述问题存在的原因有以下几点：

1、图片中通常为工地环境，背景噪声大；

2、图片中因拍摄角度导致部分安全帽存在变形；

3、安全帽尺寸较小，容易被遮挡；

针对上述技术问题，本申请提供的技术方案总体思路如下：

通过获取更多的安全帽的特征来增加安全帽检出的可能，通过变形适应机制以克服变形带来的问题，通过提高特征图的尺寸以适应安全帽尺寸较小的情况。

因此，基于上述考虑，本发明提出了一种基于神经网络的安全帽检测方法，建立第一神经网络，所述第一神经网络的基础网络为YOLOv3网络，利用第一神经网络对目标图片中的安全帽进行检测；如图5所示，输入的目标图片的尺寸为416*416*3。

具体处理包括如下过程：

进一步的，在上述过程中，所述第一后处理为顺序执行的5次DBL处理，每次DBL处理包括卷积、批标准化和激活。

进一步的，在上述过程中，所述第二后处理为顺出执行的1次DBL处理和卷积。

经过处理后获得的第一特征图、第二特征图、第三特征图的尺度分别为13*13，26*26，104*104。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一、

本发明的基础网络为YOLOv3网络，但对YOLOv3网络进行了一定改进。下面首先简单介绍现有的YOLOv3网络情况。

YOLOv3网络是在YOLO和YOLOv2的基础上进行完善的模型，准确性高而且运算速度能到达到实时性，适合工厂工地进行的实时安全帽检测。

如图1所示为YOLOv3的网络的基本组成单元DBL，包括卷积层、批标准化层和激活层，2个DBL加上残差操作形成残差单元，残差单元能够增大网络的深度，有利于解决深层次的网络梯度消失问题。

如图2所示的YOLOv3网络中，骨干网络DarkNet-53网络是由残差单元和降采样操作形成，采用步长为2的卷积来代替池化可以提取更高级特征。

如图3所示的传统的YOLOv3网络共进行了5次降采样，并在最后3次降采样进行目标预测，输出三个尺寸的特征图，分别是13×13，26×26，52×52。尺寸越小则对应的感受野越大，52×52的特征图，感受野最小，可以获得更多的细节，适用于检测小目标；26×26的特征图，则是用于检测中等大小的目标；13×13的特征图尺寸最小，感受野最大，将图中的全局信息聚合在一起，适用于检测大目标。

如图4和图5所示，本发明的改进之处包括改变骨干网络的结构以及改变特征图的大小。其中，在骨干网络中增加了可变卷积处理和双注意力机制，在特征图输出时将原先尺寸最小的特征图进一步变小。

关于可变卷积处理

对于安全帽检测来说，目标主要是人和人的头部，在大部分的图片里，人都是正常站立，比较容易检测到，但是进行作业的工人所呈现的身体状态是多种形式的，例如弯腰，蹲，坐等形态，并且由于摄像头的拍摄角度问题，人的身体在姿态、大小和角度上变化多样，这使得网络难以辨认出目标物。

具体的，可变卷积模块来减少目标因形状变化导致的误识别率，在较少的数据集上就有很好的效果，一定程度上减少工作量。

可变卷积网络在神经网络中引入了学习目标空间几何形变的能力，相比于标准卷积的卷积核受限于固定的形状造成的采样能力有限，对于解决具有空间变化的目标识别任务更加有效，普通卷积是直接学习权重，而可变卷积是学习了根据不同特征，提取该特征所需要的相应偏移的能力，这样使得对物体的形状更加敏感。

综上，可变卷积有更好的适应目标形变的能力，相对标准卷积，会多一部分计算开销，以便自适应的进行卷积。对于安全帽检测，需要精准的目标位置信息，所以本申请将可变卷积放在基础网络的浅层。

关于双注意力机制

注意力机制模拟人类视觉注意力，重点强调与周围变化大，令人关注的部分，在图像处理中就是将全局像素之间的相互依赖作为特征的加权，对主要特征进行重点关注，并抑制不必要的特征。而在安全帽检测之前的工作中，对图像细节部分在深层的网络中不能很好的保留。因此，为了更好的提取特征以及保留背景的纹理细节，分别将空间注意力和通道注意力引入到网络的不同层中，以自适应细化特征。

具体的，空间注意力模块需要清楚图片的哪些位置应该有更高的反馈，通过聚合平均池化和最大池化的特征图，送入到7x7的卷积核中卷积，按通道维度产生2维的空间特征图。而在通道注意力模块中，输入的特征图首先经过平均池化和最大池化的操作计算出特征，相比只进行单一池化，丢失的信息会减少。然后将特征送入共享的多层感知机模型(含有一个隐藏层)产生通道注意力图。通道和空间注意力都在平均池化和最大池化两个方面对特征进行提取聚合，进一步提高网络的表征能力。

关于输出特征图

如图3所示，传统的YOLOv3使用了3个尺度的特征图融合，但是在安全帽检测中，人头在图像中的占比往往很小，属于小目标，而YOLOv3对网络浅层信息利用的不够充分，会导致人头检测效果欠佳。而添加新的尺度会增加模型的复杂度，造成训练和检测时间加长，因此综合考虑，本发明的具体实施例将输出的52×52尺度的特征图再进行上采样与DarkNet里产生的104×104的特征图进行拼接。如此，可以找到早期特征映射中的细粒度特征，并获得更有意义的语义信息，其余操作与其他尺度的操作相同，从而形成104×104尺度的检测，以提高小目标的识别率。

实施例二、

基于神经网络的安全帽检测装置，

第一神经网络建立模块，所述第一神经网络的基础网络为YOLOv3网络，用于利用第一神经网络对目标图片中的安全帽进行检测；

第一神经网络包括如下模块：

骨干网络模块，包括第一残差处理模块、第二残差处理模块、第三残差处理模块、第四残差处理模块、第五残差处理模块和上采样拼接模块；所述骨干网络模块

用于将所述目标图片顺序经过第一残差处理模块、第二残差处理模块、第三残差处理模块、第四残差处理模块和第五残差处理模块获得第一图像，并经过第一后处理获得一级后处理特征图，再经过第二后处理获得第一特征图；

还用于将所述目标图片顺序经过第一残差处理模块、第二残差处理模块、第三残差处理模块、第四残差处理模块获得第二图像，并与上采样的上述一级后处理特征图拼接，并经过第一后处理获得二级后处理特征图，再经过第二后处理获得第二特征图；

还用于将所述目标图片顺序经过第一残差处理模块、第二残差处理模块、第三残差处理模块获得第三图像，并与上采样的二级后处理特征图进行拼接，再经过第一后处理获得三级后处理特征图；

还用于将所述目标图片顺序经过第一残差处理模块、第二残差处理模块获得第四图像，并与上采样的上述三级后处理特征图拼接，并经过第一后处理获得四级后处理特征图，再经过第二后处理获得第三特征图；

其中，所述第一残差处理模块、第二残差处理模块和第三残差处理模块均包括可变卷积处理模块、空间注意力处理模块和残差处理模块，所述第四残差处理和第五残差处理均包括通道注意力处理模块和残差处理。

实施例三、

基于与前述实施例中一种基于神经网络的安全帽检测方法同样的发明构思，本发明还提供一种示例性电子设备，基于神经网络的安全帽检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现基于神经网络的安全帽检测方法的步骤。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：解决了安全帽检测精度低的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

实验对比

实验在自行标注的数据集HELMET上进行。选取双阶段检测算法Faster R-CNN和单阶段目标检测算法YOLOv3和SSD300进行对比实验。

选取网络中搜集到的安全帽以及工人的图片共3174张图片作为实验数据，数据集包含各种颜色以及不同场景下的安全帽和人，且有个体差异，光照差异，视角变化以及不同程度的遮挡，数据信息丰富，其中测试集和验证集都是随机从数据集中抽取一定比例进行划分.测试集比例为0.3，验证集比例为训练集的0.3倍，包含1556张训练集图片，666张验证集图片，952张图片用于测试.

使用相同的训练数据文件，训练过程中每经过100个批次将学习率乘以0.2，加速模型收敛，且聚类文件相同，聚类后的先验框如表1，并将相关设置修改一致进行训练。使用相同的测试集进行测试，最后对实验结果进行对比分析，如表2。

表1

模型经过训练后，选择在验证集上损失最小的认为是最优模型，作为模型的代表进行测试，loss的计算和YOLOv3的loss计算相同，主要包括坐标误差，置信度误差和分类误差。

测试使用各类别的平均精度(mAP50)作为评价指标。模块测试参数设置如表2。

表2

不同模块加入后进行测试的mAP如表3。表3中可以看到融合所有模块方法的本发明的神经网络算法简称YOLO-CDF算法相比单个模块的加入的平均精度更高。

表3

将本发明的YOLO-CDF与YOLOv3，SSD300以及Fast R-CNN等经典算法做比较，为显示方法的有效性，经典算法YOLOv3，SSD300，Fast R-CNN测试参数采用官方推荐的数值，对同样的训练数据进行训练，得到训练模型后，对同一测试数据集进行测试mAP，其结果如图6。可以看到，本发明中的YOLO-CDF算法在测试集上的表现相比其他算法也要更亮眼，mAP相比较表现较好的YOLOv3算法还提高了4.18％,这样的精度提升对于检测工地安全帽和工人的安全具有重要的意义.

进一步的，对YOLOv3和YOLO-CDF的检测速度进行测试对比，如表4结果表明，虽然本发明的YOLO-CDF算法相比其基础网络YOLOv3的检测速度有些许降低，但是牺牲部分速度可以有更好的精准度，且这个检测速度依然可以满足实时检测的应用需要，对于安全帽实时检测的实用性完全可以得到保障。

表4

图7～图10示出了采用不同方法对同一张工地中的图片进行识别的效果。可以看出YOLO-CDF算法相比较于其他算法对于图中跨越栏杆的人及其头部识别的更加精准，更加贴近目标轮廓，得分也较高。而其他算法有漏识别以及检测框贴近目标不到位的情况存在。这证明本发明提出的算法可以更加高效的检测到目标的特征信息，改善目前安全帽检测算法性能。

通过对模型检测效果和检测速度的分析可知，发明提出的YOLO-CDF算法相较其他目标检测能获得更高的平均精度均值，也具有实时的检测速度，具有很好的实用价值。

本发明选取YOLOv3作为基础网络，并针对安全帽检测进行了注意力机制和可变卷积的增加以及多尺度特征图的检测改进，使对安全帽的检测更加精准，并自行标注了安全帽数据集进行了对比实验.实验结果表明，进行改进后的算法YOLO-CDF在准确度上有更加良好的表现，在测试数据集上达到73.18％的mAP，高于其他目标检测网络算法，且检测速度也能够完成对安全帽进行实时检测的要求，能够在安全帽检测领域发挥出可靠性和实用价值。在之后的工作中，将进一步研究目标检测模型的精度与速度之间的关系，对YOLOv3网络的loss函数以及非极大值抑制部分进行改进，在增大准确度的基础上提升速度.增加样本数据多样性，并进一步优化缩小剪枝网络模型，减少训练时间。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.基于神经网络的安全帽检测方法，其特征在于：建立第一神经网络，所述第一神经网络的基础网络为YOLOv3网络，利用第一神经网络对目标图片中的安全帽进行检测；

包括如下过程：

2.根据权利要求1所述的基于神经网络的安全帽检测方法，其特征在于：所述第一后处理为顺序执行的5次DBL处理，每次DBL处理包括卷积、批标准化和激活。

3.根据权利要求2所述的基于神经网络的安全帽检测方法，其特征在于：所述第二后处理为顺出执行的1次DBL处理和卷积。

4.基于神经网络的安全帽检测装置，其特征在于：

第一神经网络包括如下模块：

5.基于神经网络的安全帽检测装置，其特征在于：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-4任一项所述方法的步骤。