CN112861646A

CN112861646A - 复杂环境小目标识别场景下的卸油工安全帽级联检测方法

Info

Publication number: CN112861646A
Application number: CN202110061575.4A
Authority: CN
Inventors: 赵春晖; 王鹏; 周君良
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-28
Anticipated expiration: 2041-01-18
Also published as: CN112861646B

Abstract

本发明公开了一种复杂环境小目标识别场景下的卸油工安全帽级联检测方法，基于YOLOv3算法搭建级联检测模块，采用DIoU损失函数和迁移学习方法进行训练，级联检测模块包括工人检测子模块，安全帽检测子模块和后处理子模块。工人检测子模块在监控图像中检测工人，输出全局坐标，并截取为工人子图像；安全帽检测子模块在工人子图像中检测安全帽佩戴情况，输出佩戴类别与局部坐标；后处理子模块结合全局坐标，局部坐标和佩戴类别，经过坐标转换及NMS输出监控图像中的检测结果。本发明能够有效解决复杂环境小目标识别场景下的安全帽检测问题，适应于实际工业部署时训练样本较少的场景，可以达到理想的检测精度，检测模型对于监控区域的适应性和鲁棒性强。

Description

复杂环境小目标识别场景下的卸油工安全帽级联检测方法

技术领域

本发明属于工业生产环境的智能监控图像识别领域，特别是针对复杂环境小目标识别场景下的卸油工安全帽级联检测方法。

背景技术

在加油站卸油区的工作现场，往往需要卸油工人进行卸油等一系列具有危险性的操作，为了降低事故发生对于卸油工人的危害，因此明确要求卸油工人在卸油区域进行作业时佩戴安全帽。然而，部分卸油工人或者工作人员缺乏安全意识，经常没有佩戴安全帽在卸油区域进行作业。据我国电网公司统计，未佩戴安全帽进行作业已成为工人实际操作中最常见也是急需管控的现实问题。

近年来有学者尝试使用机器视觉方法进行安全帽检测，总体来说，主要包括基于手工特征传统机器学习方法以及基于数据驱动的深度学习方法，对于简单场景下的安全帽检测取得了一定的进展。然而，实际作业现场往往是复杂环境，存在背景复杂，天气光照，拥挤遮挡等问题，同时作业现场获取的监控数据，往往具有监控场景大而待检测目标小的特点，比如需检测的卸油工的头部区域长宽占比约为监控图像的1/20，远小于小目标检测的1/10的界定，因此，前人的相关研究方法难以直接适用于复杂环境小目标识别的场景。目前针对小目标检测的场景，往往采取数据增强，增大感受野，提取上下文信息等方法，安全帽检测作为检测人体头部区域，可以建立在行人检测的基础上，充分利用上下文信息。

同时，由于加油站卸油区的作业特殊性和监控视频的硬件存储限制，监控中仅可提取少量具有可区分性的图像数据进行模型训练，因此难以支撑深度学习方法比如目标检测训练一个具有高鲁棒性和强适应性的模型。值得注意的是，行人检测与人头检测均拥有开源数据集，拥有大量的正样本，若利用开源数据集作为模型的先验知识进行迁移学习，可以弥补场景中样本不足的缺陷。如何有效利用迁移学习和深度学习方法，应对复杂环境小目标识别场景下的卸油工安全帽检测问题，获取一个具有高鲁棒性，高精度的检测模型，是一个巨大的挑战。

发明内容

本发明针对加油站卸油区卸油工人安全帽佩戴检测这一典型的复杂场景、超小目标、训练样本较少的工业生产监控环节，提出了复杂环境小目标识别场景下的卸油工安全帽级联检测方法。该方法考虑到场景复杂，超小目标、训练样本较少等现实因素，构建了基于迁移学习的级联检测模型。所述级联检测模块包括工人检测子模块，安全帽检测子模块和后处理子模块。其中，所述工人检测子模块基于COCO数据集预训练进行迁移学习，在监控图像中对工人进行检测，输出全局坐标，并截取为多个工人子图像；所述安全帽检测子模块基于SHWD和CAS-PEAL数据集预训练进行迁移学习，在所述工人子图像中对工人安全帽佩戴情况进行检测，输出佩戴类别与局部坐标；所述后处理子模块结合所述全局坐标，所述局部坐标以及所述佩戴类别，经过坐标转换及NMS处理输出检测结果，对监控图像中卸油工人安全帽佩戴情况进行检测与精准定位。

本发明的目的通过以下技术方案实现：

一种复杂环境小目标识别场景下的卸油工安全帽级联检测方法，该方法采用级联检测模型对获取的监控图像中卸油工人安全帽佩戴情况进行精准检测，所述级联检测模型包括工人检测子模块，安全帽检测子模块和后处理子模块。其中：

工人检测子模块用于定位监控图像中的工人区域，输出全局坐标，并截取获得多个工人子图像；

安全帽检测子模块用于在工人子图像中对工人安全帽佩戴情况进行检测，输出佩戴类别与局部坐标；

后处理子模块用于结合全局坐标、局部坐标以及佩戴类别，经过坐标转换和NMS输出监控图像中的检测结果。

级联检测模型利用DIoU构建利于小目标检测的损失函数，并采用基于迁移学习的方法进行训练。

进一步地，所述级联检测模型的训练过程如下：

(1)基于实际加油站卸油区监控图像数据构建工人检测数据集I-A和安全帽检测数据集I-B，基于COCO开源图像数据集构建迁移学习工人检测数据集T-A，基于SHWD和CAS-PEAL开源图像数据集构建迁移学习安全帽检测数据集T-B。其中，工人检测数据集I-A的标注数据为xml_gr文件，采用VOC格式标注工人区域，类别为person。在工人检测数据集I-A的对应图像数据中按照xml_gr标注数据截取出工人子图像数据img_aqm，安全帽检测数据集I-B的标注数据为xml_aqm文件，采用VOC格式对工人子图像数据img_aqm标注头部区域，若佩戴安全帽，类别为normal，若未佩戴安全帽，类别为abnormal。

(2)将迁移学习工人检测数据集T-A作为工人检测子模块预训练数据集、迁移学习安全帽检测数据集T-B作为安全帽检测子模块预训练数据集，分别对工人检测子模块、安全帽检测子模块进行预训练，采用Adam优化器更新子模块的网络权值，模型训练到达设定迭代次数后，保存训练好的权值。将工人检测数据集I-A作为工人检测子模块的训练数据、安全帽检测数据集I-B作为安全帽检测子模块的训练数据，冻结网络部分权值，进行微调训练一定轮次，之后将网络冻结部分的权值解冻，对工人检测子模块、安全帽检测子模块进行训练，采用Adam优化器更新子模块的网络权值，模型训练到达设定迭代次数后，保存子模块中训练好的权值。

进一步地，在构建工人检测数据集I-A时，使用随机镜像，随机剪切，随机加噪等方法对监控图像数据进行数据增强。

进一步地，数据集I-A，I-B，T-A和T-B中的图像数据的尺寸变换为416×416×3。

进一步地，在预训练和训练过程中，采用加权损失

作为损失函数：

其中

为真实值，x，y，w，h，C，p(c)为子模块输出的预测结果，分别对应于输入的图片数据中在每个单元的每个Anchor基础上预测的中心坐标、宽、长、置信度和类别概率，S×S为输入图片数据按长宽均分的单元数，K为利用Kmeans算法对标注数据中矩形框长宽进行聚类得到的Anchor数。λ_coord和λ_noobj为权重系数，若i单元的j Anchor负责预测，则

若i单元的j Anchor不负责预测，则

加权损失

第一项为边框回归损失，结合标签信息和DIoU构建小目标检测的惩罚项，增强小目标检测的能力，第二三项为置信度的交叉熵损失，第四项为类别概率的交叉熵损失。

IoU的计算公式为

其中area(*)代表矩形框面积，A为真实矩形框，B为预测矩形框。

DIoU的计算公式为

其中ρ(*)代表欧式距离，a为真实矩形框A的中心，b为预测矩形框B的中心，n为A，B矩形框的最小外接矩形框的对角线长度。

进一步地，工人检测子模块、安全帽检测子模块均基于YOLOv3网络搭建获得，搭建过程如下：

搭建Darknet-53作为Backbone，Darknet-53由DBL模块和5个res-n模块组成，DBL模块由卷积层，BN层和leaky ReLU激活函数组合得到，res-n模块由多个DBL模块和res_unit残差单元组成。

搭建特征融合网络作为Neck，将Darknet-53第5次下采样提取特征经过5层DBL模块进行上采样后与第4次下采样提取特征进行拼接用于获取融合特征1，将Darknet-53第4次下采样提取特征经过5层DBL模块进行上采样后与第3次下采样提取特征进行拼接用于获取融合特征2。

搭建模型预测网络作为Head，同时将Darknet-53第5次下采样提取特征及融合特征1-2输入至DBL模块和卷积层，分别用于输出尺寸为13*13*3*(5+m)；26*26*3*(5+m)，52*52*3*(5+m)三个尺度的预测值,m为类别概率个数，三个尺度分别对应S＝13，26，52，每个尺度的Anchor数量K＝3。

利用NMS作为后处理，对于三个尺度的预测结果进行NMS后处理，设置置信度阈值con_threshold和交互比阈值iou_threshold，滤除置信度较低和交互比较大的预测结果。

本发明的有益效果在于：针对加油站卸油区域卸油工人安全帽佩戴检测这一典型的复杂背景、超小目标、训练样本少的工业生产监控环节提出了复杂环境小目标识别场景下的卸油工安全帽级联检测方法。该方法构建了基于迁移学习的级联检测模型，包括工人检测子模块，安全帽检测子模块和后处理子模块。其中，所述工人检测子模块基于COCO数据集预训练进行迁移学习，在监控图像中对工人进行检测，输出全局坐标，并截取为多个工人子图像；所述安全帽检测子模块基于SHWD和CAS-PEAL数据集预训练进行迁移学习，在所述工人子图像中对工人安全帽佩戴情况进行检测，输出佩戴类别与局部坐标；所述后处理子模块结合所述全局坐标，所述局部坐标以及所述佩戴类别，经过坐标转换及NMS处理输出检测结果，对监控图像中卸油工人安全帽佩戴情况进行精准检测。本发明能够有效解决复杂环境小目标识别场景下的安全帽检测问题，适应于实际工业部署时训练样本较少的场景，可以达到理想的检测精度，检测模型对于监控区域的的适应性和鲁棒性强。

附图说明：

图1是本发明复杂环境小目标识别场景下的卸油工安全帽级联检测方法所使用的级联检测模型示意图；

图2是本发明复杂环境小目标识别场景下的卸油工安全帽级联检测方法的数据集构建示意图；

图3是本发明复杂环境小目标识别场景下的卸油工安全帽级联检测方法所使用的级联检测模型中工人检测子模块和安全帽子模块网络结构示意图；

图4是本发明复杂环境小目标识别场景下的卸油工安全帽级联检测方法所使用的基于迁移学习方法训练级联检测模型的流程图；

图5是本发明复杂环境小目标识别场景下的卸油工安全帽级联检测方法实验结果示意图，第一行为原始监控图像，第二行为检测与定位结果，使用矩形框框出卸油工人头部并标注是否佩戴安全帽，normal代表佩戴，abnormal代表未佩戴。

具体实施方式

下面结合附图及具体实例，对本发明作进一步详细说明。

本发明以某加油站卸油区的卸油监控视频中抽取的图像数据为例，该安全帽佩戴检测与定位任务要求模型检测精度mAP保持在85％以上，准确率和召回率均应大于90％。

如图1所示，本发明是复杂环境小目标识别场景下的卸油工安全帽级联检测方法，该方法通过构建级联检测模型，并通过迁移学习训练级联检测模型，以实现复杂环境小目标识别场景下的安全帽佩戴的精准检测。如图1所示，所述级联检测模块包括工人检测子模块、安全帽检测子模块和后处理子模块，其中，工人检测子模块、安全帽检测子模块均采用基于YOLOv3算法搭建网络结构(图3)。下面结合具体实施例进行说明：

一、构建训练数据集：

如图2所示，具体包括如下子步骤：

(1)采集实际加油站卸油区域监控中原始图像数据。

(2)构建工人检测数据集I-A和安全帽检测数据集I-B，该步骤通过以下子步骤实现：

(2.1)使用随机镜像，随机剪切，随机加噪等方法对原始图像数据进行数据增强。

(2.2)对数据增强后的数据集进行尺寸变换，获得416×416×3的图像数据。

(2.3)对尺寸变换后的数据按照4：1的比例随机划分为训练集img_train和测试集img_test。

(2.4)对img_train中的图像数据以VOC格式标注工人区域，类别为person，生成xml_gr文件，img_train图像数据和xml_gr标注数据形成工人检测数据集I-A。

(2.5)在img_train图像数据中按照xml_gr标注数据截取出工人子图像数据img_aqm。对img_aqm工人子图像数据以VOC格式标注头部区域，若佩戴安全帽，类别为normal，若未佩戴安全帽，类别为abnormal，生成xml_aqm文件，img_aqm图像数据和xml_aqm标注数据形成安全帽检测数据集I-B。

(3)构建迁移学习工人检测数据集T-A和迁移学习安全帽检测数据集T-B，该步骤通过以下子步骤实现：

(3.1)下载COCO开源图像数据集img_t_gr及标注数据xml_t_gr，尺寸变换为416×416×3，形成迁移学习工人检测数据集T-A。

(3.2)下载SHWD和CAS-PEAL开源图像数据集，尺寸变换为416×416×3，从中各随机抽取1000张图像数据img_t_aqm及对应的标注数据xml_t_aqm，形成迁移学习安全帽检测数据集T-B。

二、构建级联检测模型：

如图1和图3所示，基于YOLOv3搭建级联检测模型过程如下：

(1)搭建YOLOv3多尺度预测网络，该步骤通过以下子步骤实现：

(1.1)搭建Darknet-53作为Backbone，Darknet-53由DBL模块和5个res-n模块组成，DBL模块由卷积层，BN层和leaky ReLU激活函数组合得到，res-n模块由多个DBL模块和res_unit残差单元组成。

(1.2)搭建特征融合网络作为Neck，将Darknet-53第5次下采样提取特征经过5层DBL模块进行上采样后与第4次下采样提取特征进行拼接用于获取融合特征1，将Darknet-53第4次下采样提取特征经过5层DBL模块进行上采样后与第3次下采样提取特征进行拼接用于获取融合特征2。

(1.3)搭建模型预测网络作为Head，同时将Darknet-53第5次下采样提取特征及融合特征1-2输入至DBL模块和卷积层，分别用于输出尺寸为13*13*3*(5+m)；26*26*3*(5+m)，52*52*3*(5+m)三个尺度的预测值，m为类别概率个数，三个尺度分别对应S＝13，26，52，每个尺度的Anchor数量K＝3。

(1.4)对于三个尺度的预测结果进行NMS后处理，设置置信度阈值con_threshold＝0.5和交互比阈值iou_threshold＝0.4，滤除置信度较低和交互比较大的预测结果。

(2)将搭建的YOLOv3多尺度预测网络作为工人检测子模块和安全帽检测子模块，工人检测子模块的输入是预处理后的图像，输出为全局坐标(x^G，y^G，w^G，h^G)，安全帽检测子模块的输入是按照工人检测子模块的预测框裁剪输入图像后的图像，输出局部坐标(x^L，y^L，w^L，h^L，)和佩戴类别c。最后将工人检测子模块和安全帽检测子模块的输出连接至后处理模块即可获得级联检测模型，在后处理模块进行NMS后处理可输出检测结果。

三、训练级联检测模型：

工人检测子模块和安全帽检测子模块的检测识别原理是：

利用Kmeans算法对xml数据中矩形框长宽进行聚类，得到K个长宽不同的Anchor，将输入图片按长宽均分为S*S个单元，每个单元预测K个(5+m)个变量，包括置信度C，中心坐标x，y，长宽w，h以及m个类别概率c_k，k＝1，2...m。

若xml数据中某个矩形框中心在i单元内且为k类别，同时矩形框和第j个Anchor的IOU最大，就由i单元的j Anchor负责预测，C_ij＝1，p(c_k)＝1。

如图4所示，根据检测原理采用基于迁移学习方法训练级联检测模型，过程如下：

(1)基于迁移学习方法训练工人检测子模块，该步骤通过以下子步骤实现：

(1.1)随机初始化工人检测子模块的网络权值，并设定迭代次数、训练批次、学习率和动量等超参数。对预训练数据集T-A进行随机采样，获得每轮训练的一批图像样本X。

(1.2)将所述图像样本X输入工人检测子模块中，得到预测结果x，y，w，h，C，p(c)，计算加权损失

计算公式为

其中

为真实值，λ_coord和λ_noobj为权重系数，若i单元的j Anchor负责预测，则

相反亦然，若i单元的j Anchor不负责预测，则

加权损失

IoU的计算公式为

DIoU的计算公式为

(1.3)根据步骤(1.2)得到的工人检测子模块的加权损失，采用自适应矩估计(Adam)优化器更新工人检测子模块的网络权值，模型训练到达设定迭代次数后，保存工人检测子模块中训练好的权值。

(1.4)加载工人检测子模块中预训练好的权值，将工人检测数据集I-A作为工人检测子模块的训练数据，冻结Backbone，Neck，Head网络的前249层的权值，保留最后三个卷积层微调训练20轮，之后将网络冻结部分的权值解冻，对工人检测子模块进行训练，采用(1.1)-(1.3)相同方法。

(1.5)保存迁移学习后工人检测子模块中训练好的权值。

(2)基于迁移学习方法训练安全帽检测子模块，该步骤通过以下子步骤实现：

(2.1)将T-B作为安全帽检测子模块的预训练数据集，采用(1.1)-(1.3)相同方法进行预训练。

(2.2)将安全帽检测数据集I-B作为安全帽检测子模块的训练数据，利用(1.4)方法训练，保存迁移学习后的安全帽检测子模块中训练好的权值。

四、级联检测模型验证：

利用上述训练好的级联检测模型对测试集进行检测与定位，如图5所示，该过程如下：

(1)加载训练好的级联检测模型，包括工人检测子模块，安全帽检测子模块和后处理子模块。

(2)对测试集图像img_test按照VOC格式进行标注，得到xml_test文件，img_test图像数据和xml_test标注数据形成测试集数据T。

(3)将测试集T中的测试图像Y输入工人检测子模块，输出全局坐标

并截取为多个工人子图像；

(4)将截取的工人子图像输入安全帽检测子模块，输出局部坐标

与佩戴类别c。

(5)将全局坐标，局部坐标以及佩戴类别输入后处理模块，进行坐标变换映射到原图像坐标为(x^G+x^L，y^G+y^L，w^L，h^L)，根据变换后的坐标和佩戴类别，进行NMS后处理，输出并保存最终检测结果。

本发明中选择的实际案例是某加油站的卸油区域的监控中抽取的图像数据。图5列出了监控图像的检测与定位结果，第一为原始监控图像，第二为检测与定位结果，使用矩形框框出卸油工人头部并标注是否佩戴安全帽，normal代表佩戴，abnormal代表未佩戴。

卸油监控图像数据集共1500张，随机选取1200张监控图像训练检测模型，剩余的300张作为测试集。表1列出了级联检测模型以及相关消融模型在测试集上的检测结果。消融模型中t代表使用迁移学习方法，d代表使用改进后的DIoU损失函数，c代表使用级联检测模型，检测结果使用mAP，准确率和召回率进行衡量。

表1级联检测模型的安全帽检测性能

算法	mAP	准确率	召回率
				YOLOv3	81.2％	84.8％	80.7％
YOLOv3_c	90.7％	92.1％	90.4％
				YOLOv3_c_d	92.9％	95.3％	92.1％
YOLOv3_c_d_t	95.2％	98.3％	94.8％

根据表1的检测结果可见，使用级联检测模型，改进损失函数以及采用迁移学习方式均提升了复杂环境小目标识别场景下的安全帽检测结果。

本发明方法的检测与定位的优越性体现在使用级联检测模型，解决了复杂场景下的小目标的检测与定位问题，同时采用迁移学习训练级联检测模型，适应于实际工业部署时训练样本较少的场景，可以达到理想的检测性能，检测模型对于监控区域的的适应性和鲁棒性强。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，该方法采用级联检测模型对获取的监控图像中卸油工人安全帽佩戴情况进行精准检测，所述级联检测模型包括工人检测子模块，安全帽检测子模块和后处理子模块。其中：

2.根据权利要求1所述的复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，所述级联检测模型的训练过程如下：

3.根据权利要求2所述的复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，在构建工人检测数据集I-A时，使用随机镜像，随机剪切，随机加噪等方法对监控图像数据进行数据增强。

4.根据权利要求2所述的复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，数据集I-A，I-B，T-A和T-B中的图像数据的尺寸变换为416×416×3。

5.根据权利要求2所述的复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，在预训练和训练过程中，采用加权损失

作为损失函数：

其中

为真实值，x,y,w,h,C,p(c)为子模块输出的预测结果，分别对应于输入的图片数据中在每个单元的每个Anchor基础上预测的中心坐标、宽、长、置信度和类别概率，S×S为输入图片数据按长宽均分的单元数，K为利用Kmeans算法对标注数据中矩形框长宽进行聚类得到的Anchor数。λ_coord和λ_noobj为权重系数，若i单元的j Anchor负责预测，则

若i单元的j Anchor不负责预测，则

加权损失

IoU的计算公式为

DIoU的计算公式为

其中ρ(*)代表欧式距离，a为真实矩形框A的中心，b为预测矩形框B的中心，n为A,B矩形框的最小外接矩形框的对角线长度。

6.根据权利要求1所述的复杂环境小目标识别场景下的卸油工安全帽级联检测方法，其特征在于，工人检测子模块、安全帽检测子模块均基于YOLOv3网络搭建获得，搭建过程如下：