CN113361425A

CN113361425A - 一种基于深度学习的检测工人是否佩戴安全帽的方法

Info

Publication number: CN113361425A
Application number: CN202110653367.3A
Authority: CN
Inventors: 曹振华; 陈伟烽; 梁伟鑫; 黄中; 周友元; 钟振鸿
Original assignee: Zhuhai Luxun Technology Co ltd
Current assignee: Zhuhai Luxun Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-07
Also published as: CN114627425A; CN114627425B

Abstract

本发明属于深度学习的计算机视觉领域，是一种基于深度学习的工人安全帽佩戴检测方法，该方法包括以下步骤：S1、获取足够数量的含有佩戴安全帽人物样本和未佩戴安全帽人物样本的安全帽检测数据集，并随即按一定比例划分为训练集和测试集；S2、使用Pytorch深度学习框架，搭建CSP‑R‑FCN双阶段目标检测模型；S3、搭建模型训练和测试系统，对CSP‑R‑FCN双阶段目标检测模型进行训练和测试，直到其获得检测安全帽佩戴的能力；S4、提取实际应用场景：工地监控的视频，逐帧进行检测并输出检测结果，完成对安全帽佩戴的检测。本发明对视频流数据进行逐帧检测，标记出图像内所有人物的头部以及他们的安全帽佩戴情况。该方法不需要预设候选框、且具有较强的鲁棒性，在各种应用场景下都有高的检测精度。

Description

一种基于深度学习的检测工人是否佩戴安全帽的方法

技术领域

本发明涉及基于深度学习的计算机视觉技术领域，具体为一种基于深度学习的检测工人是否佩戴安全帽的方法。

背景技术

佩戴安全帽是工地生产作业中最有效的个人防护措施，为了最大程度地降低工地中各种危险事故对工人们人身安全的危害，监督工人的安全帽佩戴情况十分重要。随着人工智能领域的飞快发展，有越来越多基于深度学习的目标检测算法被应用在安全帽佩戴检测任务上。目前主流的目标检测模型，如单阶段的SSD、YOLOv3和双阶段的Faster-RCNN、都是对预设的或滑窗生成的锚框进行分类和回归。预设锚框受所预设的尺寸和宽高比的影响，不能很好的匹配各种各样的实际目标；而滑窗生成锚框的思路需要耗费大量的运算资源，严重影响检测速度。

为解决上述问题，本方案研发的方法运用CSP无锚框的行人检测算法和R-FCN双阶段的物体检测器，对视频流数据进行逐帧检测，标记出图像内所有人物的头部以及他们的安全帽佩戴情况。该方法不需要预设候选框、且具有较强的鲁棒性，在各种应用场景下都有高的检测精度。

发明内容

本发明的目的在于提供一种基于深度学习的检测工人是否佩戴安全帽的方法，以解决上述背景技术中提出的问题；本发明提供的方法对视频流数据进行逐帧检测，标记出图像内所有人物的头部以及他们的安全帽佩戴情况。该方法不需要预设候选框、且具有较强的鲁棒性，在各种应用场景下都有高的检测精度。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的检测工人是否佩戴安全帽的方法，包括以下步骤：

S1、获取足够数量的含有佩戴安全帽人物样本和未佩戴安全帽人物样本的安全帽检测数据集，并随即按一定比例划分为训练集和测试集；

S2、使用Pytorch深度学习框架，搭建CSP-R-FCN双阶段目标检测模型，所述CSP-R-FCN双阶段目标检测模型包括骨干网络、csp目标区域推荐模块、R-FCN特征提取模块和R-FCN分类预测模块；

S3、搭建模型训练和测试系统，对CSP-R-FCN双阶段目标检测模型进行训练和测试，直到其获得检测安全帽佩戴的能力；

S4、提取实际应用场景：工地监控的视频，逐帧进行检测并输出检测结果，完成对安全帽佩戴的检测。

进一步地，所述步骤S1中，所述获取安全帽检测数据集的方法，包括：

1)对现有的安全帽数据集进行数据清洗，并将标签数据转换为VOC数据集的标注格式；

2)提取现有的行人检测数据集，使用labelimg标注工具对所述行人检测数据进行重新标注，得到可用的安全帽检测数据集；所标注的标签数据为VOC数据集的标注格式；

3)逐帧提取工地监控视频中的图片，对所提取的图片进行筛选并使用labelimg标注工具标注，得到可用的安全帽检测数据集；所标注的标签数据为VOC数据集的标注格式；

所述获取的安全帽检测数据集的标签数据，所标注的位置为图像内人物的头部；所标注的类别分为五类，分别是：佩戴黄色安全帽(yellow)、佩戴红色安全帽(red)、佩戴蓝色安全帽(blue)、佩戴白色安全帽(white)和未佩戴安全帽(none)。

进一步地，所述步骤S2中，

所述骨干网络为在ImageNet数据集上预训练好的VGG16的前四个卷积块，共13层：其中第一层、第二层、第四层、第五层、第七层、第八层、第九层、第十一层、第十二层和第十三层均为卷积层，且卷积核大小均为3*3；第三层、第六层和第十层均为步长为2的最大池化下采样层。

所述csp目标区域推荐模块接在骨干网络之后，可分为三个阶段，依次分别是：残差特征提取阶段、多层特征融合阶段和目标预测阶段。

优选的，所述残差特征提取阶段共由9个瓶颈层(BottleNeck Layer)连接而成，并在第一个瓶颈层中做了下采样操作；所述瓶颈层的表达方式为：

优选的，所述多层特征融合阶段将三个不同深度的卷积层所提取的特征上采样并做正规化操作后进行拼接，输入分别为上采样2倍的骨干网络最后一层、上采样4倍的残差特征提取阶段第六层和上采样4倍的残差特征提取阶段第九层；

优选的，所述目标预测阶段接在多层特征融合阶段之后，经过一个卷积核大小为3*3的卷积层后，输出三个预测分支，分别为中心点(center)、尺寸(scale)和偏置(offset)，实现对目标检测区域的推荐。所述的推荐区域为人体的头部。

所述R-FCN特征提取模块的输入为骨干网络的最后一层，经过一个卷积核大小为3*3的卷积层后，分为置信度预测分支和位置预测分支。置信度预测分支和位置预测分支分别经过均值池化层，输出尺寸均为7*7的置信度预测特征图与位置预测特征图。

优选的，所述的置信度预测特征图共有49*6＝296个，对应6个检测类别(背景、佩戴黄色安全帽、佩戴红色安全帽、佩戴蓝色安全帽、佩戴白色安全帽、未佩戴安全帽)，特征图尺寸为7*7；对应检测框的4个位置参数的偏移量(中心点坐标、宽、高)，特征图尺寸为7*7。

所述R-FCN分类预测模块，包括：将输入的置信度预测特征图和位置预测特征图通过位置敏感ROI池化(Position-sensitive ROI Pooling)操作，分别得到位置敏感的类别得分图和回归得分图；

进一步地，所述步骤S3中，所述模型训练和测试系统，包括：数据预处理模块、损失函数模块、训练模块、训练日志存储模块和测试模块。

进一步地，所述步骤S3中，

所述的数据预处理模块，包括：

1)将图像尺寸按比例地缩放为16的倍数；

2)对图像做高斯滤波处理；

3)将所读取的图像数据转化为Pytorch中的张量(Tensor)格式；

所述损失函数模块，包含了csp目标区域推荐模块与R-FCN分类预测模块两部分的损失函数；

所述csp目标区域推荐模块的损失函数分为中心点损失(L_center)、尺度损失(L_scale)和偏置损失(L_offset)。

中心点损失(L_center)为：

其中，

其中γ和β为预设的超参数，本实施例中设γ＝2，β＝4；p_ij∈[0,1]为csp目标区域推荐模块输出的center概率,M_ij为在center特征图上每个正样本位置应用的高斯掩膜编码：

尺度损失(Lscale)和偏置损失(Loffset)均使用SmoothL1函数：

所述SmoothL1函数为：

csp目标区域推荐模块损失函数的完整表达式为：

L＝λ_cL_center+λ_sL_scale+λoLo_ffset

其中λ_c、λ_s和λ_o为预设的超参数，本实施例中，设λ_c＝0.01，λ_s＝1，λ_o＝0.1。

对应每一个所预测的目标区域(ROI)，R-FCN分类预测模块的损失函数为：

L(s，t_{x，y，w，h})＝L_cls(s_c*)+λ[c^*＞0]L_reg(t，t^*)

其中，c^*为该ROI的真实数据(Ground Truth)的标签；

t^*表示真实数据框；L_reg＝SmoothL1(t,t^*)；[c^*>0]为一个指示器，当c^*>0即该ROI对应的为正样本时计算回归损失L_reg。其中，S_c为R-FCN分类预测模块所预测的置信度：

所述训练模块，包括端到端训练方式与分阶段训练方式。所述的端到端训练即csp目标区域推荐模块与R-FCN分类预测模块同步训练；分阶段训练即先训练R-FCN分类预测模块，再训练csp目标区域推荐模块；

所述测试模块，包括：测试csp目标区域推荐模块对图像中人体头部的推荐能力；测试R-FCN分类预测模块对目标的识别能力；计算各模型的对每一种检测类别的精度和召回率；从而判断模型是否已具有检测安全帽佩戴的能力。

进一步地，所述步骤S4中，包括：

1)提取实际工地监控视频图像并输入到已训练好的CSP-R-FCN目标检测模型中，先得到由csp目标区域推荐模块推荐的头部预测区域，并根据推荐区域之间的交并比，采用非极大值抑制方法，剔除部分重合度高的推荐区域；

2)根据所述推荐区域对R-FCN特征提取模块中所提取的特征图进行按区域池化，并输入到R-FCN分类预测模块中，得到类别得分图与回归得分图；

3)根据所述类别得分图与回归得分图，得到所述推荐区域中目标的类别与改进的检测框位置，并同时打印的图像上，从而实现检测目的。

与现有技术相比，本发明的有益效果是：

本发明通过运用CSP行人检测模型的无锚框检测思路推荐人体头部区域以供检测，大幅地提高了模型对各种各样应用场景的鲁棒性；无锚框检测节省了大量的用于负样本锚框的计算资源，加快了模型收敛速度，且不需要固定输入图像的分辨率；只推荐人体头部的做法有效地降低了实际应用场景中拍摄角度、人物姿态和人物肢体重叠对检测性能的影响。

运用R-FCN双阶段的物体检测器，通过位置敏感ROI池化的思路解决了图像分类网络的位置不敏感性与目标检测网络的位置敏感性之间的矛盾。相比于以往的双阶段物体检测器在速度与精度上都有较大提升。

附图说明

图1为本发明实施步骤示意图；

图2为本发明网络结构示意图；

图3为本发明位置敏感ROI池化示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供如下技术方案及实施例：

如图1所示，一种基于深度学习的检测工人是否佩戴安全帽的方法，包括以下步骤：

步骤S1中，选用GDWT-HUD安全帽检测数据集作为训练集和测试集。对数据集进行清洗后得到共3160张图片，其中600张作为测试集。

步骤S2中，所搭建CSP-R-FCN双阶段目标检测模型的具体模型如图2所示。

骨干网络截取自Pytorch内预设的VGG16模型的前四个卷积块，该VGG16模型已在ImageNet的图像分类数据集上经过充分的预训练，已具有特征提取能力。VGG16模型的前四个卷积块共13层，其中第一层、第二层、第四层、第五层、第七层、第八层、第九层、第十一层、第十二层和第十三层均为卷积层，且卷积核大小均为3*3；第三层、第六层和第十层均为步长为2的最大池化下采样层。每个卷积层的输出均经过ReLU激活函数和批标准化层(BatchNorm)处理。

步骤S2中，所述的csp目标区域推荐模块接在骨干网络之后，可分为三个阶段，依次分别是：残差特征提取阶段、多层特征融合阶段和目标预测阶段。

如图2所示，所述残差特征提取阶段共由9个瓶颈层(BottleNeck Layer)连接而成，并在第一个瓶颈层中做了下采样操作；所述瓶颈层的表达方式为：

一个瓶颈层中包括三个卷积层，其中第二个卷积层的卷积核大小为3*3，其余的卷积层卷积核大小为1*1。残差特征提取阶段中，第一个瓶颈层中做了步长为2的下采样操作，且其中第七个、第八个、第九个瓶颈层做了空洞率为2的空洞卷积操作。

具体地，如图2所示，多层特征融合阶段将三个不同深度的卷积层所提取的特征上采样并做正规化操作后进行拼接，输入分别为上采样2倍的骨干网络最后一层、上采样4倍的残差特征提取阶段第六层和上采样4倍的残差特征提取阶段第九层。上采样通过转置卷积实现、所述的正规化操作为L1正规化。

如图2所示，所述的目标预测阶段接在多层特征融合阶段之后，经过经过一个卷积核大小为3*3的卷积层后，输出三个预测分支，分别为中心点(center)、尺寸(scale)和偏置(offset)，实现对目标检测区域的推荐。所述的推荐区域为人体的头部。

所述步骤S2中，所述的R-FCN特征提取模块的输入为骨干网络的最后一层，经过一个卷积核大小为3*3的卷积层后，分为置信度预测分支和位置预测分支。置信度预测分支和位置预测分支分别经过均值池化层，输出尺寸均为7*7的置信度预测特征图与位置预测特征图。

所述的置信度预测特征图共有49*6＝296个，对应6个检测类别(背景、佩戴黄色安全帽、佩戴红色安全帽、佩戴蓝色安全帽、佩戴白色安全帽、未佩戴安全帽)。特征图尺寸为7*7。

所述的位置预测特征图共有49*4＝196个，对应检测框的4个位置参数的偏移量(中心点坐标、宽、高)。特征图尺寸为7*7。

所述步骤S2中，所述的R-FCN分类预测模块，包括：将输入的置信度预测特征图和位置预测特征图通过位置敏感ROI池化(Position-sensitive ROI Pooling)操作，分别得到位置敏感的类别得分图和回归得分图。

位置敏感ROI池化操作如图3所示。

步骤S3中，所述的模型训练和测试系统，包括：数据预处理模块、损失函数模块、训练模块、训练日志存储模块和测试模块。

所述的数据预处理模块，包括：

1)将图像尺寸按比例地缩放为16的倍数；

2)对图像做高斯滤波处理；

3)将所读取的图像数据转化为Pytorch中的张量(Tensor)格式。

所述损失函数模块，包含了csp目标区域推荐模块与R-FCN分类预测模块两部分的损失函数。

中心点损失(L_center)为：

其中，

尺度损失(Lscale)和偏置损失(Loffset)均使用SmoothL1函数：

所述SmoothL1函数为：

csp目标区域推荐模块损失函数的完整表达式为：

L＝λ_cL_center+λ_sL_scale+λ_oL_offset

L(s，t_{x，y，w，h})＝L_cls(s_c*)+λ[c^*＞0]L_reg(t，t^*)

其中，c^*为该ROI的真实数据(Ground Truth)的标签；

所述的训练模块，包括端到端训练方式与分阶段训练方式：

所述的端到端训练即csp目标区域推荐模块与R-FCN分类预测模块同步训练。将csp目标区域推荐模块的损失函数与R-FCN分类预测模块的损失函数同时反向传播并更新网络中的参数。本实施例中，为了平衡端到端训练时两个预测模块损失函数之间的数量级差异，在反向传播前使R-FCN分类预测模块的损失函数乘以一个平衡系数，平衡系数为100。

所述的分阶段训练即先将csp目标区域推荐模块的学习率调为0，禁止该模块损失函数的反向传播，单独训练R-FCN分类预测模块。再将R-FCN分类预测模块的学习率调为0，单独训练csp目标区域推荐模块。

在本实施例中，采用小批次训练方式；训练优化器为Adam优化器。骨干网络部分采用微调(Fine Tune)的学习策略，学习率设为，其余部分在学习率不为0时均设为。

所述的测试模块，包括：

1)测试csp目标区域推荐模块对图像中人体头部的推荐能力；

2)测试R-FCN分类预测模块对目标的识别能力；

3)计算各模型的对每一种检测类别的精度和召回率。

在测试过程中，根据预测框之间的交并比，采用非极大值抑制方法，剔除冗余的检测框。

所述步骤S4中，包括：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S1中，所述获取安全帽检测数据集的方法，包括：

3.根据权利要求1所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S2中，

所述骨干网络为在ImageNet数据集上预训练好的VGG16的前四个卷积块，共13层：其中第一层、第二层、第四层、第五层、第七层、第八层、第九层、第十一层、第十二层和第十三层均为卷积层，且卷积核大小均为3*3；第三层、第六层和第十层均为步长为2的最大池化下采样层；

所述csp目标区域推荐模块接在骨干网络之后，可分为三个阶段，依次分别是：残差特征提取阶段、多层特征融合阶段和目标预测阶段；

所述R-FCN特征提取模块的输入为骨干网络的最后一层，经过一个卷积核大小为3*3的卷积层后，分为置信度预测分支和位置预测分支；置信度预测分支和位置预测分支分别经过均值池化层，输出尺寸均为7*7的置信度预测特征图与位置预测特征图；

所述R-FCN分类预测模块，包括：将输入的置信度预测特征图和位置预测特征图通过位置敏感ROI池化(Position-sensitive ROI Pooling)操作，分别得到位置敏感的类别得分图和回归得分图。

4.根据权利要求3所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S2中，

所述残差特征提取阶段共由9个瓶颈层(BottleNeck Layer)连接而成，并在第一个瓶颈层中做了下采样操作；所述瓶颈层的表达方式为：

所述多层特征融合阶段将三个不同深度的卷积层所提取的特征上采样并做正规化操作后进行拼接，输入分别为上采样2倍的骨干网络最后一层、上采样4倍的残差特征提取阶段第六层和上采样4倍的残差特征提取阶段第九层；

所述目标预测阶段接在多层特征融合阶段之后，经过一个卷积核大小为3*3的卷积层后，输出三个预测分支，分别为中心点(center)、尺寸(scale)和偏置(offset)，实现对目标检测区域的推荐；所述的推荐区域为人体的头部。

5.根据权利要求3所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S2中，所述的置信度预测特征图共有49*6＝296个，对应6个检测类别(背景、佩戴黄色安全帽、佩戴红色安全帽、佩戴蓝色安全帽、佩戴白色安全帽、未佩戴安全帽)，特征图尺寸为7*7；对应检测框的4个位置参数的偏移量(中心点坐标、宽、高)，特征图尺寸为7*7。

6.根据权利要求1所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S3中，所述模型训练和测试系统，包括：数据预处理模块、损失函数模块、训练模块、训练日志存储模块和测试模块。

7.根据权利要求6所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S3中，

所述的数据预处理模块，包括：

1)将图像尺寸按比例地缩放为16的倍数；

2)对图像做高斯滤波处理；

3)将所读取的图像数据转化为Pytorch中的张量(Tensor)格式；

所述训练模块，包括端到端训练方式与分阶段训练方式；所述的端到端训练即csp目标区域推荐模块与R-FCN分类预测模块同步训练；分阶段训练即先训练R-FCN分类预测模块，再训练csp目标区域推荐模块；

8.根据权利要求7所述的一种基于深度学习的检测工人是否佩戴安全帽的方法，其特征在于：所述步骤S3中，所述损失函数模块包含了csp目标区域推荐模块与R-FCN分类预测模块两部分的损失函数；

其中，所述csp目标区域推荐模块的损失函数分为中心点损失(L_center)、尺度损失(L_scale)和偏置损失(L_offset)；

中心点损失(L_center)为：