CN114782986A

CN114782986A - 基于深度学习的安全帽佩戴检测方法、装置、设备及介质

Info

Publication number: CN114782986A
Application number: CN202210314263.4A
Authority: CN
Inventors: 秦思豪; 顾雄飞; 马培龙; 戴恋争; 梁福虎
Original assignee: Jiayuan Technology Co Ltd
Current assignee: Jiayuan Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-22
Anticipated expiration: 2042-03-28
Also published as: CN114782986B

Abstract

本发明公开基于深度学习的安全帽佩戴检测方法、装置、设备及介质，该方法包括如下步骤：获取待检测的人员图像；将所述待检测的人员图像输入已训练的多尺度感知网络模型中；所述多尺度感知网络模型包括三个并行的CNN子网络，三个所述CNN子网络的结构仅卷积核的尺寸不同，每个CNN子网均包括用于提取全局特征的通道注意力模块和用于提取局部特征的空间注意力模块；输出所述待检测的人员图像分类结果，所述分类结果包括未佩戴安全帽和佩戴安全帽。本发明在变电站的复杂场景有很高的检出率和很低的误检率，且使用深度学习的方法可以减少之前人工监控的操作，降低人工成本，并确保安全帽检测的实时性。

Description

基于深度学习的安全帽佩戴检测方法、装置、设备及介质

技术领域

本发明涉及深度学习技术领域，尤其涉及基于深度学习的安全帽佩戴检测方法、装置、设备及介质。

背景技术

随着电力系统的不断扩展，变电站的数量和规模在不断增加。虽然智能电网在不断发展，但是变电站的运行仍然需要定期检查和维护，为了确保变电站安全稳定运行，需要操作人员定期检查维护变电站。在实际检修过程中，一些操作人员缺乏安全意识，不佩戴安全帽，这种行为存在很大的安全隐患。所以，安全帽检测在变电站运行中有很大的使用价值。

安全帽检测是一个涉及多方面的问题，目前安全帽检测的算法主要分为两类，一种是基于图像处理的传统方法，另一种是基于深度学习的目标检测算法。传统方法的核心是通过图像处理技术获取肤色、头部、面部等信息，使用这些信息判断工人是否佩戴安全帽，传统方法只是简单的特征提取，误检率较高。深度学习方法会使用大量的有标签数据进行学习，通过监督学习得到目标特征，从而检测出安全帽的佩戴情况，由于深度学习是基于大量的有标签数据，所以深度学习方法的鲁棒性较好。

发明内容

为了解决上述技术问题，本发明提出基于深度学习的安全帽佩戴检测方法、装置、设备及介质，可以广泛应用于变电站在线智能巡视系统，具有较强的兼容性和扩展性。该方法通过深度学习的方法，鲁棒性强、且不需要预先设置参考框，在变电站的复杂场景有很高的检出率和很低的误检率。另一方面，使用深度学习的方法可以减少之前人工监控的操作，降低人工成本，并确保安全帽检测的实时性。

为了达到上述目的，本发明的技术方案如下：

基于深度学习的安全帽佩戴检测方法，包括如下步骤：

获取待检测的人员图像；

将所述待检测的人员图像输入已训练的多尺度感知网络模型中；所述多尺度感知网络模型包括三个并行的CNN子网络，三个所述CNN子网络的结构仅卷积核的尺寸不同，每个CNN子网均包括用于提取全局特征的通道注意力模块和用于提取局部特征的空间注意力模块；

输出所述待检测的人员图像分类结果，所述分类结果包括未佩戴安全帽和佩戴安全帽。

优选地，所述多尺度感知网络模型的构建，包括如下步骤：

获取作业现场人员的图像数据，形成原始数据集；

将原始数据集随机按照7:2:1的比例因子分为训练样本集、验证样本集和测试样本集，对训练样本集和验证样本集中每个图像进行人工判别和分类，并依据分类的结果设置所述训练样本集和验证样本集中每个图像的类别标签，所述类别标签包括未佩戴安全帽和佩戴安全帽；

将训练样本集和验证样本集输入待训练的初步模型中，获得检测模型，所述检测模型输出具有重叠检测框的图像，并采用中心导向NMS除去图像中重叠检测框；

将测试样本集输入检测模型中进行测试，直至分类结果的误差满足预设阈值，则将当前模型作为多尺度感知网络模型输出。

优选地，还包括如下步骤：

使用数据增强方式对样本数据集中未佩戴安全帽的图像数据进行扩充，所述数据增强方式包括几何变换和像素变换，所述几何变换包括翻转、平移、裁剪、旋转和缩放，所述像素变换包括高斯模糊、高斯噪声、图像亮度和图像对比度。

优选地，所述通道注意力模块，具体处理步骤：

使用卷积核得到特征图X_g；

使用全局池化来消除X_g在图像宽高维度的影响，全局池化F_gp定义如公式(1)：

其中，H_g和W_g表示特征图X_g的宽和高，x_c是X_g的一个通道特征图，z_c是x_c平均池化后的结果，每一个通道特征图的结果z_c连接在得到一个向量Z_c，使用平均池化的操作可以降低空间信息的影响，

针对Z_c使用两个全连接来进一步提取特征和权重，具体如公式(2)：

其中，W₁和W₂是两个全连接层的权重，b₁和b₂是对应的偏置，δ₁是激活函数ReLU，δ₂是Sigmoid激活函数，

完成特征图的校准，具体如公式：

其中，

是通道注意力模块最终输出的特征图。

优选地，所述空间注意力模块，具体处理步骤：

使用卷积核获得特征图X_g；

使用全局卷积Z_s(i,j)降低X_g的信道信息影响，全局卷积的公式如下：我

其中，H_g和W_g表示特征图X_g的宽和高，i∈H_g，j∈W_g，F_gc(X_g)是全局卷积函数，K是全局卷积的卷积核，K的尺寸是m×n×C_g，b是偏置，

使用空洞卷积U_s来细化单通道空间特征图，公式如下：

U_s＝δ₂(K₂*δ₁(K₁*Z_s+b₁)+b₂) (5)

使用两组不同的空洞卷积来扩大空间感受野，空洞卷积核的权重分别是K₁和K₂，偏移分别是b₁和b₂，δ₁是ReLU激活函数，δ₂是Sigmoid激活函数，*是空洞卷积操作，

计算损失函数PCE(U_s,U_gt)，公式如下：

式中，U_gt是使用GT获得激活图，

增强特征图的空间特性，公式如下(7)：

式中，

是空间注意力模块最终输出的特征图，exp是指数运算。

优选地，所述多尺度感知网络模型中使用softmax损失函数，公式如下：

式中，N是训练图片个数，α_c、α_l分别是分类层和定位层的权重，L_Softmax-cls是分类层的损失函数，

L_Softmax-loc是定位层的损失函数，

P_K是预测为第K类的概率，t^u是预测值，v是真实值。

优选地，所述采用中心导向NMS除去图像中重叠检测框，具体包括如下步骤：

将图像中的检测框按照置信度得分进行排序，选中最高分的检测框；

依次计算其余的检测框与当前最高分的检测框的重叠面积，将所述重叠面积大于预设面积阈值的检测框进行删除；

依次计算其余的检测框中心点与当前最高分的检测框的距离，将所述距离小于预设距离阈值的检测框进行删除，所述距离为欧氏距离。

基于深度学习的安全帽佩戴检测装置，包括：获取模块、识别模块和输出模块，其中，

所述获取模块，用于获取待检测的人员图像；

所述识别模块，用于将所述待检测的人员图像输入已训练的多尺度感知网络模型中；所述多尺度感知网络模型包括三个并行的CNN子网络，三个所述CNN子网络的结构仅卷积核的尺寸不同，每个CNN子网均包括用于提取全局特征的通道注意力模块和用于提取局部特征的空间注意力模块；

所述输出模块，用于输出所述待检测的人员图像分类结果，所述分类结果包括未佩戴安全帽和佩戴安全帽。

一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述任一所述的基于深度学习的安全帽佩戴检测方法。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述的基于深度学习的安全帽佩戴检测方法。

基于上述技术方案，本发明的有益效果是：

1)本发明针对佩戴安全帽图像和未佩戴安全帽图像数据不均衡的问题，使用几何变换和像素变换的数据增强方式对小样本数据进行扩充，达到数据均衡的目的；

2)本发明针对变电站现场图像目标检测尺度不统一的问题，提出使用MSA-Net进行训练，可以解决不同尺度目标的检测问题；

3)本发明针对实际检测出来的多个检测框重叠的问题，提出中心导向NMS，可以很好地去除重复的检测框。

附图说明

图1是一个实施例中基于深度学习的安全帽佩戴检测方法的流程图；

图2是一个实施例中多尺度感知网络模型的结构图；

图3是一个实施例中多尺度感知网络模型的构建方式示意图；

图4是一个实施例中基于深度学习的安全帽佩戴检测装置的结构示意图；

图5是一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参考图1，示出了本实施提供的基于深度学习的安全帽佩戴检测方法的流程图，在本实施例中，该方法包括如下步骤：

步骤S101，获取待检测的人员图像；

步骤S102，将所述待检测的人员图像输入已训练的多尺度感知网络模型中；所述多尺度感知网络模型包括三个并行的CNN子网络，三个所述CNN子网络的结构仅卷积核的尺寸不同，每个CNN子网均包括用于提取全局特征的通道注意力模块和用于提取局部特征的空间注意力模块；

步骤S103，输出所述待检测的人员图像分类结果，所述分类结果包括未佩戴安全帽和佩戴安全帽。

本实施例中，由于安全帽佩戴的人员图像存在图像尺度不同、背景复杂的问题，增加了安全帽佩戴检测的难度。所以，为了提高安全帽佩戴检测的准确度，本发明采用多尺度感知网络(multi-scale attention networks,MSA-Net)用于安全帽佩戴检测。图像的特征包括全局特征和局部特征，全局特征表示物体的整体特征，可以使用通道注意力模块(channel attention module)提取全局特征，局部特征包含大量的语义信息，可以使用空间注意力模块(spatial attention module)提取局部特征。多尺度感知网络模型由三个不同的注意力子网组成，每个子网都是由通道注意力模块和空间注意力组成。最后，多尺度网络的特征图通过全连接输出。多尺度感知网络模型的结构框架，说明如下：

1、通道注意力模块

一般的卷积神经网络，可以通过使用不同的卷积核卷积得到不同的特征图，其中输出通道个数和卷积核的个数相关。为了获得全局特征图的激活向量，使用通道注意力模块来获得。通道注意力模块需要尽可能地避免空间信息的影响，并且更高效地提取激活向量。

通道注意力模块的具体步骤可以分为以下四步：

步骤110：使用卷积核得到特征图X_g。

步骤111：使用全局池化来消除X_g在图像宽高维度的影响，全局池化F_gp定义如公式(1)：

其中，H_g和W_g表示特征图X_g的宽和高，x_c是X_g的一个通道特征图，z_c是x_c平均池化后的结果，每一个通道特征图的结果z_c连接在得到一个向量Z_c，使用平均池化的操作可以降低空间信息的影响。

步骤112：针对Z_c使用两个全连接来进一步提取特征和权重，具体如公式(2)：

其中，W₁和W₂是两个全连接层的权重，b₁和b₂是对应的偏置，δ₁是激活函数ReLU，δ₂是Sigmoid激活函数。

步骤113：完成特征图的校准，具体如公式(3)：

其中，

是通道注意力模块最终输出的特征图。

2、空间注意力模块

和通道注意力模块相反，空间注意力模块需要降低通道信息对学习的影响。空间注意力模块通过使用安全帽是否佩戴的标签进行监督学习，在标准卷积神经网络，较小的卷积感受野会限制小目标的检测。因此，使用一种基于mask的监督学习方式来学习空间激活矩阵。具体过程如下：

步骤120：使用卷积核获得特征图X_g

步骤121：使用全局卷积Z_s(i,j)降低X_g的信道信息影响，全局卷积的公式(4)：

其中，H_g和W_g表示特征图X_g的宽和高，i∈H_g，j∈W_g。F_gc(X_g)是全局卷积函数，K是全局卷积的卷积核，K的尺寸是m×n×C_g，b是偏置。

步骤122：使用空洞卷积U_s来细化单通道空间特征图，具体使用公式(5)：

U_s＝δ₂(K₂*δ₁(K₁*Z_s+b₁)+b₂) (5)

使用两组不同的空洞卷积来扩大空间感受野，空洞卷积核的权重分别是K₁和K₂，偏移分别是b₁和b₂，δ₁是ReLU激活函数，δ₂是Sigmoid激活函数，*是空洞卷积操作。

步骤123：计算损失函数PCE(U_s,U_gt)，具体使用公式(6)：

式中，U_gt是使用GT获得激活图。

步骤124：增强特征图的空间特性，具体使用公式(7)：

式中，

是空间注意力模块最终输出的特征图，exp是指数运算。

为了保证全局特征图的原始信息，本专利在每个通道使用指数计算来突出被检测物体的信息。

最终的特征图

是通道注意力模块和空间注意力模块的求和，使用注意力模块可以获得全局特征图和局部特征图，最终的公式如公式(8)：

3、MSA-Net

为了检测不同尺寸图像的工人是否佩戴安全帽，引入MSA-Net，在MSA-Net中使用不同尺寸的卷积核提取特征图。经过实验得知，较大的卷积核检测大尺寸目标更有效，较小的卷积核检测小尺寸目标更有效。如图2所示，使用的多尺度网络包含三个并行的CNN网络，这三个CNN网络的结构相似，只有卷积核的尺寸不同。本专利使用最大池化和ReLU激活函数来防止CNN网络过拟合，为了降低CNN的计算复杂度，本专利使用较少的滤波器，并且使用softmax损失函数，具体如公式(9)：

其中，N是训练图片个数，α_c、α_l分别是分类层和定位层的权重，L_Softmax-cls是分类层的损失函数，L_Softmax-loc是定位层的损失函数，L_Softmax-cls、L_Softmax-loc的计算如公式(10)、公式(11)：

式中，P_K是预测为第K类的概率，t^u是预测值，v是真实值。

参考图3，示出了本实施例提供的多尺度感知网络模型的构建过程，过程包括如下步骤：

步骤S201，获取作业现场人员的图像数据，形成原始数据集；

本实施例中，通过变电站巡视主机或机器人主机采集得到作业现场人员的图像数据，形成原始数据集。在这个数据集中，总共有8000张图片，包含两个类别：未佩戴安全帽和佩戴安全帽。

步骤S202，将原始数据集随机按照7:2:1的比例因子分为训练样本集、验证样本集和测试样本集，对训练样本集和验证样本集中每个图像进行人工判别和分类，并依据分类的结果设置所述训练样本集和验证样本集中每个图像的类别标签，所述类别标签包括未佩戴安全帽和佩戴安全帽；

本实施例中，使用开源的labelImage工具进行标注，标注的规范是未佩戴安全帽的标出人头区域，佩戴安全帽的标出安全帽和人头区域。考虑到实际采集到的佩戴安全帽和未佩戴安全帽的图像数据不均衡，实际佩戴安全帽的图像远大于未戴安全帽的图像，数据不均衡会导致过拟合和局部最优解的问题。使用数据增强方式对原始数据集中未佩戴安全帽的图像数据进行扩充，所述数据增强方式包括几何变换和像素变换，所述几何变换包括翻转、平移、裁剪、旋转和缩放，所述像素变换包括高斯模糊、高斯噪声、图像亮度和图像对比度。

步骤S203，将训练样本集和验证样本集输入待训练的初步模型中，获得检测模型，所述检测模型输出具有重叠检测框的图像，并采用中心导向NMS除去图像中重叠检测框；

本实施例中，考虑到模型测试中常见的错误现象，如相同类别的标签会出现很多重叠的检测框，而且他们都有很高的置信度。

为了解决重叠检测框的问题，采用一种中心导向NMS(Non MaximumSuppression)，中心导向NMS是基于传统NMS，是在传统NMS上增加了中心点到检测框距离的约束信息，此处的距离是中心点到检测框的距离是欧氏距离。中心导向NMS的步骤：先选择置信度最高的检测框b_m，然后再计算其他检测框和b_m的IoU，去除超过IoU阈值的检测框，另外，还需要移除距离b_m过近的检测框。中心导向NMS的具体伪代码如下：

输入：B＝{b₁,…,b_n}，S＝{s₁,…,s_n}，

C＝{c₁,…,c_n}，A＝{a₁,…,a_n}，Ω_NMS，Ω_center

B是所有检测到的检测框

S是所有分类的得分

C是所有检测框的中心坐标

A是所有检测框的面积

Ω_NMS是NMS的阈值

Ω_center是中心距离阈值

输出：D是最终输出的检测框以及它的分类得分。

步骤S204，将测试样本集输入检测模型中进行测试，直至分类结果的误差满足预设阈值，则将当前模型作为多尺度感知网络模型输出。

本申请实施例还提供了基于深度学习的安全帽佩戴检测装置300，其具体实现方式与上述基于深度学习的安全帽佩戴检测方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

如图4所示，示出了本实施例提供的基于深度学习的安全帽佩戴检测装置300的结构图，包括：获取模块310、识别模块320和输出模块330，其中，

所述获取模块310，用于获取待检测的人员图像；

所述识别模块320，用于将所述待检测的人员图像输入已训练的多尺度感知网络模型中；所述多尺度感知网络模型包括三个并行的CNN子网络，三个所述CNN子网络的结构仅卷积核的尺寸不同，每个CNN子网均包括用于提取全局特征的通道注意力模块和用于提取局部特征的空间注意力模块；

所述输出模块330，用于输出所述待检测的人员图像分类结果，所述分类结果包括未佩戴安全帽和佩戴安全帽。

上述实施例阐明的装置和模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

如图5所示，本申请实施例还提供一种计算机设备200，该设备包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230，其中，

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中基于深度学习的安全帽佩戴检测方法的步骤，其具体实现方式与上述基于深度学习的安全帽佩戴检测方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时时实现以下步骤：

获取待检测的人员图像；

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请实施例的优选实施例而已，并不用于限制本申请实施例，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。