CN113496260A

CN113496260A - 基于改进YOLOv3算法的粮库人员不规范作业检测法

Info

Publication number: CN113496260A
Application number: CN202110760404.0A
Authority: CN
Inventors: 金心宇; 吴浪; 刘义富; 谢慕寒; 金昀程
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-12
Anticipated expiration: 2041-07-06
Also published as: CN113496260B

Abstract

本发明公开了一种基于改进YOLOv3算法的粮库人员不规范作业检测方法，用以对粮库人员不规范作业行为进行图像的采集，然后将采集的图像输入上位机中的粮库不规范作业行为检测网络，输出带有人员不规范作业行为的准确标记的结果图片，并在上位机中显示、存储结果，粮库不规范作业行为检测网络包括基于YOLOv3网络构建的主干层和特征融合输出层，并在特征融合输出层的Y2层和Y3层分别中嵌入尺度上下文选择注意力模块SCA。本发明克服现有技术中存在的缺陷，提供一种更加适合粮库场景检测且网络表征能力更强的基于改进YOLOv3算法的粮库人员不规范作业的检测方法。

Description

基于改进YOLOv3算法的粮库人员不规范作业检测法

技术领域

本发明涉及计算机视觉领域和图像识别领域，具体是一种基于改进YOLOv3算法的粮库人员不规范作业检测方法。

背景技术

目标检测作为计算机视觉中的一个重要领域，在现实中的应用很广泛，它的目标是在给定图像中检测出需要识别的物体目标，并且确定物体的类别以及在图像中的位置。在深度学习于计算机视觉领域大规模应用前，目标检测精度的进步比较缓慢，诸如采用HOG特征、Haar特征等传统手工构造特征算法加上SVM算法、Adaboost算法等分类算法的方式来提高精度已是比较困难的事。而在ImageNet图像分类大赛出现的卷积神经网络——AlexNet展现了强大性能，吸引着学者们将卷积神经网络迁移到了其他的任务，包括目标检测。近年来，出现了很多目标检测的方法，其中比较有代表性的算法就有以SSD系列、YOLO系列为代表的单次(one-stage)算法。

YOLO(You Only Look Once)算法的检测流程比较简洁。调整输入图像为固定尺寸后馈送到主干卷积网络中提取特征，而后直接在输出层完成目标分类、边界框回归等操作。通过YOLO，每张图像只需要看一眼就能得出图像中都有哪些物体和这些物体的位置，其中YOLOv3是在YOLO与YOLOv2的基础上改进的算法，相比之下可以达到更快的运行速度，更高的检测准确率，是当前工业界较为流行的单次目标检测算法。但YOLOv3算法中的先验框数量是预先选定，并且其尺寸大小是针对ImageNet数据集上的检测物体进行聚类获得，并不适用于粮库作业场景，另外在粮库作业场景下对不同尺度、不同位置的目标预测方面YOLOv3也存在网络表征能力不足，检测效果不佳的情况，并且YOLOv3在网络的特征融合阶段直接将全局性的小尺度特征与细粒度特征采用级联(concatenation)的方式融合，在检测小目标时无法较好地考虑到全局场景性。

因此需要一种能够改进上述问题的方法。

发明内容

本发明要解决的技术问题是提供基于改进YOLOv3算法的粮库人员不规范作业检测方法，克服现有技术中存在的缺陷，提供一种更加适合粮库场景检测且网络表征能力更强的基于改进YOLOv3算法的粮库人员不规范作业检测方法。

为了解决上述技术问题，本发明提供基于改进YOLOv3算法的粮库人员不规范作业检测方法，包括步骤如下：

对粮库人员不规范作业行为进行图像的采集，然后将采集的图像输入上位机中的具有在线生产能力的粮库不规范作业行为检测网络，输出有人员不规范作业行为的准确标记的结果图片，并在上位机中显示、存储结果；

所述粮库不规范作业行为检测网络包括基于YOLOv3网络构建的主干层和特征融合输出层，并在特征融合输出层的Y2层和Y3层分别中嵌入尺度上下文选择注意力模块SCA。

作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的改进：

所述主干层包括输入的图片经过两倍下采样的卷积层，然后依次经过四个阶段Stage1、Stage2、Stage3和Stage4，每个阶段均由下采样卷积层以及残差结构组成，其中stage1包含3个残差结构，stage2包含5个残差结构，stage3包含10个残差结构，stage4包含4个残差结构；

所述特征融合输出层包含三个尺度检测输出，Y1层为经过32倍下采样的stage4层输出特征进行卷积后输出小尺度特征的检测结果；在Y2层，将来自Y1层的特征进行2倍上采样与stage3输出的特征通过一个尺度上下文选择注意力模块SCA进行融合，输出中尺度特征的检测结果；在Y3层，将来自Y2层的特征进行2倍上采样，然后与stage2、stage3输出的特征通过另一个尺度上下文选择注意力模块SCA进行融合输出大尺度特征的检测结果。

作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的进一步改进：

所述SCA模块的输入端包含多个尺度的特征集X^L＝{x^l,l＝1,...,L}，首先每部分尺度特征x^l分别通过1x1卷积层实现维度变换，表示为：

x^l＝F(X；W_l) (1)

其中，

表示卷积层参数，x^l为第l尺度的尺度上下文特征；

然后将所有的尺度上下文特征x^l,l＝1,...,L通过双线性插值将采样为相同的大小，然后以级联的方式被联合为特征

作为注意力门的输入，生成注意力关注图α，包含α^l，l∈{1,...,L}，生成过程可以表述为：

其中，注意力门由一组参数Θ_att表示，它的输入包含L个尺度，W_x,b_x为密集卷积的运算参数，

为线性变换参数，σ(x)为ReLU激活函数；

然后对注意力关注图α应用softmax来计算第l尺度上的权重q^l：

同时将尺度上下文特征x^l,l＝1,...,L通过特征变换得到尺度特征f^l，并与尺度l上对应的权重q^l相乘后执行逐元素求和，获得特征图e：

其中ψ_l表示用于匹配特征的特征变换的函数，W_i是l变换层的参数，其中变换包含卷积层，仿射变换和插值运算。

所述具有在线生产能力的粮库不规范作业行为检测网络的建立过程为：

1.1)、建立训练测试数据集

通过网络资源，或者通过粮库单位获取内部各种作业环境下的监控视频，搜集粮库人员不规范作业的图片构建数据集，然后对数据集进行标注和数据增强操作，获得训练集和测试集；

1.2)、基于k-means聚类算法，对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析，通过统计聚类规律得到目标建议框个数和尺寸；

1.3)、将训练集输入所述粮库不规范作业行为检测网络，然后使用测试集进行测试，从而获得所述具有在线生产能力的粮库不规范作业行为检测网络。

所述聚类算法流程如下：

2.1)、设置样本数据为所述训练集数据中有标注目标真实边框的数据，标注数据生成一个包含标注框位置和类别的文件，其中每个标注框样本数据为(x_j,y_j,w_j,h_j),j∈{1,2,...,N}，ground truth boxes相对于原图的坐标，(x_j,y_j)是框的中心点，(w_j,h_j)是框的宽和高，N是所有标注框的个数；

2.2)、给定k个聚类中心点(W_i,H_i),i∈{1,2,...,k}，这里的W_i,H_i是anchor boxes的宽和高尺寸，由于anchor boxes位置不固定，所以没有(x,y)的坐标，只有宽和高；

2.3)、计算每个标注框和每个聚类中心点的距离d＝1-IOU(box,centroid)，计算时每个标注框的中心点都与聚类中心重合：

d＝1-IOU[(x_j,y_j,w_j,h_j),(x_j,y_j,W_i,H_i)],j∈{1,2,...,N},i∈{1,2,...,k} (7)

将标注框分配给“距离”最近的聚类中心；

2.4)、所有标注框分配完毕以后，对每个簇重新计算聚类中心点，计算方式为：

N_i是第i个簇的标注框个数，就是求该簇中所有标注框的宽和高的平均值；

2.5)、重复步骤2.3)、步骤2.4)，直到聚类中心改变量小于阈值得到更加适合的粮库场景的目标建议框个数和尺寸，然后按照尺度越大选取的框面积越小的原则，将建议框分为三组，分别对应到3个不同的检测尺度上。

本发明的有益效果主要体现在：

1、本发明对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析，通过统计聚类规律得到更加适合的目标建议框个数和尺寸，优化了原YOLOv3检测网络的结构与方法，使其更加适应在本场景下的检测任务，在保证了精度的同时又简化了网络。

2、本发明针对场景优化问题提出了尺度选择注意力模块，并在在特征融合处嵌入了注意力模块，利用不同尺度特征的适应性融合进一步提升了网络的表征能力。

附图说明

图1为本发明的粮库不规范作业行为检测网络的结构示意图；

图2为YOLOv3主体网络结构图；

图3为本发明的实施例1中YOLO-base基础检测网络结构示意图；

图4为本发明的尺度上下文选择注意力模块的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1、基于改进YOLOv3算法的粮库人员不规范作业检测方法，如图1-4所示，该方法包括以下步骤：

S1、构建粮库不规范作业行为检测网络，基于YOLOv3网络改进并构建粮库不规范作业行为检测网络应用于粮库作业场景，粮库不规范作业行为检测网络构建过程包括YOLO-base基础检测网络的构建、将尺度上下文选择注意力模块(scale contextselection attention，简称SCA模块)嵌入到YOLO-base基础检测网络中；

S101、所述YOLO-base基础检测网络对YOLOv3的Darknet-53网络结构进行了调整，整体采用了全卷积网络，主要由主干层(Backbone)和特征融合输出层(Multi-scaleoutput)组成。其中主干层网络主要通过多阶段(Stage)卷积与下采样操作获得深度特征，输出层对不同阶段的特征进行融合，并最终以三个不同尺度的特征层进行回归预测；

YOLO-base基础检测网络具体结构顺序为：

主干层中的卷积层(conv)均由卷积操作(Convolution)、归一化操作(BatchNormalization，BN)和激活函数Leaky ReLU构成。输入经过两倍下采样的卷积层，然后是四个阶段(Stage)，每个阶段均由下采样卷积层以及若干个残差结构(Residual block)组成，残差结构可以增强梯度传播以及网络的泛化能力；其中stage1包含3个残差结构，stage2包含5个残差结构，stage3包含10个残差结构，stage4包含4个残差结构。

特征融合输出层包含三个尺度检测输出，Y1层为经过32倍下采样的stage4层输出特征进行卷积后输出，用于小尺度特征的检测；Y2层将来自Y1层的特征进行2倍上采样与stage3输出的特征进行融合而输出，用于中尺度特征的检测；Y3层将来自Y2层的特征进行2倍上采样的输出与stage2输出的特征进行融合输出，用于大尺度特征的检测，如图3所示；

S102、将SCA模块，嵌入到YOLO-base基础检测网络中，优化网络中不同层次不同尺度特征的融合，以产生更具全面且有效的特征；

所述SCA模块输入端包含多个尺度的特征。这些特征可以用特征集X^L表示，其中每个元素表示为x^l,l＝1,...,L。首先每部分尺度特征x^l分别通过1x1卷积层实现维度变换，每个尺度l上的变换运算可以表示为函数

而第l尺度的输出特征x^l计算公式为：

x^l＝F(X；W_l) (1)

其中

表示卷积层参数；所有的尺度上下文特征，即，第(1,...,L)尺度的输出特征x^l,l＝1,...,L通过双线性插值将其采样为相同的大小，然后以级联的方式(concatenation)被联合为特征

作为注意力门(Attention gate)的输入，生成注意力关注图(attention map)α，包含α^l，l∈{1,...,L}，生成过程可以表述为：

其中注意力门由一组参数Θ_att表示，它的输入包含L个尺度，W_x,b_x为密集卷积(Dense convolution)运算参数，

为线性变换参数，σ(x)为ReLU激活函数。

接下来，为了归一化每个维度的注意力特征图，对注意力关注图α应用softmax来计算第l尺度上的权重q^l，过程表示为：

同时将尺度上下文特征x^l,l＝1,...,L通过特征变换(Feature transformation)得到尺度特征f^l，并与尺度l上对应的权重q^l相乘后执行逐元素求和，获得特征图e，整个过程表述为：

其中ψ_l表示用于匹配特征的特征变换的函数，W_i是l变换层的参数，其中变换包含卷积层，仿射变换和插值运算，SCA模块结构如图4所示；

将SCA模块嵌入步骤S101中构建的YOLO-base基础检测网络两特征融合处，在YOLO-base基础检测网络的head2分支处的SCA1模块，融合了head1分支的特征和stage3阶段的输出特征用于中尺度特征的检测；在head3分支处的SCA2模块，融合了head1分支的特征，stage3阶段的输出特征和stage2阶段的输出特征用于大尺度特征的检测，添加SCA模块后的网络结构如图1；

S2、训练粮库不规范作业行为检测网络；

S201、对所研究的粮库人员不规范作业行为进行数据集的采集与构建；

针对所研究人员数量以及安全帽佩戴情况的检测进行数据集的采集与构建，数据的采集主要通过两个途径：一是通过谷歌、百度、搜狗等网络资源进行搜集相关图片；二是通过和浙江省内相关粮库单位合作获取，这些数据来自粮库内部各种作业环境下的监控视频；为使得相关的图片更加接近真实的粮库环境，加入了噪声、模糊等数据增强方式。构建的数据集利用LabelImg标注工具对目标对象进行标注，主要包含三个待检测类别：人体(person)，佩戴安全帽正例(helmet)，未佩戴安全帽负例(head)。具体的数据集信息如下表1所示：

表1

数据集	人员及安全帽佩戴
		类别数目	3
类别明细	Person、helmet、head
		图片数量	5400
人体数目	12483
		安全帽佩戴	7523
未佩戴头部	5134

S202、数据集预处理，所构建数据集共5400张图片，其中训练集4320张，测试集1080张。为了提高模型的鲁棒性以及泛化能力，对训练数据采用了常规数据增强操作，包括随机镜像操作、随机旋转(-10,10)度，随机裁剪及添加噪声等方式；

然后基于k-means聚类算法，在粮库安全作业检测场景下，对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析，通过统计聚类规律得到更加适合的粮库场景的目标建议框个数和尺寸，可以实现对预测对象范围进行约束，增加数据中尺度先验信息，有助于快速收敛并提升模型效果。聚类算法流程如下：

1)、设置样本数据为原始训练集数据中有标注目标真实边框的数据，标注数据生成一个包含标注框位置和类别的文件，其中每个标注框样本数据为(x_j,y_j,w_j,h_j),j∈{1,2,...,N}，即ground truth boxes相对于原图的坐标，(x_j,y_j)是框的中心点，(w_j,h_j)是框的宽和高，N是所有标注框的个数；

2)、首先给定k个聚类中心点(W_i,H_i),i∈{1,2,...,k}，这里的W_i,H_i是anchorboxes的宽和高尺寸，由于anchor boxes位置不固定，所以没有(x,y)的坐标，只有宽和高；

3)、计算每个标注框和每个聚类中心点的距离d＝1-IOU(box,centroid)，计算时每个标注框的中心点都与聚类中心重合，这样才能计算IOU值，即：

d＝1-IOU[(x_j,y_j,w_j,h_j),(x_j,y_j,W_i,H_i)],j∈{1,2,...,N},i∈{1,2,...,k}； (7)

将标注框分配给“距离”最近的聚类中心；

4)、所有标注框分配完毕以后，对每个簇重新计算聚类中心点，计算方式为：

N_i是第i个簇的标注框个数，就是求该簇中所有标注框的宽和高的平均值。

5)、重复步骤3)、步骤4)，直到聚类中心改变量小于某个阈值。得到更加适合的粮库场景的目标建议框个数和尺寸，然后按照尺度越大选取的框面积越小的原则，将建议框分为三组，分别对应到3个不同的检测尺度上；

S203、训练环境配置，此检测网络的训练在Centos操作系统服务器进行，利用Tesla P4GPU加速实验，开发环境基于Pytorch深度学习框架。具体的软硬件配置如下表2：

表2

名称	环境配置
		操作系统	CentOS7.3.1611
处理器	12*E5-2609v3@1.9GHz,15M Cache
		显卡	Tesla P4 8GB(384.81)
内存	125GB
		开发环境	Python3.7 PyTorch1.4.0

将训练集输入步骤S1建立的粮库不规范作业行为检测网络，采用Adam优化器对网络进行优化，可以动态调整学习率，适用于包含噪声及稀疏优化问题，采用动量(momentum)系数为0.9，权重衰减(weight decay)为0.0001。优化器的初始学习率(learning rate，lr)设置为0.01，并按照余弦衰减的形式对学习率进行衰减。受制于显存问题一个批次的输入图片大小为32，共训练100次迭代，然后使用测试集对训练完成后粮库不规范作业行为检测网络进行测试，平均正确率均值(Mean Average Precision，mAP)达到93.9％，从而获得得到可在线使用的粮库不规范作业行为检测网络。

S3、粮库不规范作业行为检测网络模型实际使用过程具体为：

按步骤S1对粮库人员不规范作业行为进行图像的采集，然后在上位机中，将采集的图像输入步骤S2获得的具有在线生产能力的粮库不规范作业行为检测网络，输出准确标记人员不规范作业行为的结果图片，并在上位机中显示、存储结果；

实验1：

为了进一步验证所提出的方法对人员以及安全帽情况的检测能力，本实验将最终改进后的YOLO-SCA网络模型与另外2篇相关文献的算法模型在本发明上述所构建的数据集上进行了对比实验。文献1(参见吴迪.基于计算机视觉的施工人员安全状态监测技术研究[D].哈尔滨工业大学,2019.)中同样以YOLOv3网络为主干设计了模型，并增加了一个尺度检测分支，通过跨尺度检测的方式进行检测。文献2(参见Wu,Fan&Jin,Guoqing&Gao,Mingyu&HE,Zhiwei&Yang,Yuxiang.(2019).Helmet Detection Based On Improved YOLOV3 Deep Model.363-368.10.1109/ICNSC.2019.8743246.基于改进的YOLO V3深度模型的头盔检测)以YOLOv3算法为基础，增加了focal loss损失来优化前后景不平衡问题。

实验评价指标如下：

1)交并比(Intersection Over Union，IOU)

IOU是对于衡量预测样本坐标与真实样本坐标重叠程度的函数，并且是评价检测算法重要性能指标平均正确率均值(Mean Average Precision，mAP)的基础。IOU用来计算“预测的目标边框”和“真实的目标边框”的交集与并集比值，即两个区域重叠部分面积占二者总面积的比例。其定义如下：

在检测任务中，模型输出的矩形框与人工标注的矩形框的IOU值大于某个阈值时(一般为0.5)即认为模型预测为正样本。

2)精确率(Precision)和召回率(Recall)

在检测问题的分类预测中，将模型的预测结果与样本的真实标签使用混淆矩阵来表示四种组合，其中分别是真阳性(True Positive，TP)、假阳性(False Positive，FP)、真阴性(True Negative，TN)、假阴性(False Negative，FN)这四种情况，混淆矩阵具体如下表3所示：

表3

精确度也可以称为查准率，是针对预测结果中表示预测为正的样本有多少为真正的正样本，其定义如下：

召回率又被称为查全率，用来说明分类器预测结果中判定为真的正样本占总正样本的比例，其定义如下：

3)平均正确率(Average Precision，AP)和平均正确率均值(Mean AveragePrecision，mAP)

平均正确率(Average Precision，AP)，既考虑获取较高的精确率也考虑获取较高的召回率。某一类别AP值的计算需要对检测结果设定置信度阈值和IOU阈值，首先对于算法最终的预测结果按照置信度分数进行降序排列，并按照设定的置信度阈值划分正负样本，将置信度大于阈值的检测框定义为正样本，对正样本计算该置信度阈值下的精确度和召回率坐标，即精确率-召回率(Precision-Recall，PR)曲线上的一点。然后固定IOU阈值，继续改变置信度阈值计算PR曲线上的其他点，从而得到变化曲线，曲线与坐标轴围成的面积即为当前IOU下的AP值。

而平均正确率均值(Mean Average Precision，mAP)就是对多个类别检测好坏的结果，将所有类别的AP值取平均，计算得到的就是mAP的值，mAP的大小一定在[0，1]区间，数值越大反应模型检测效果越好。

本实验中设置阈值IOU＝0.5来计算AP。由于精确度和召回率受到设置IOU阈值的影响较大，在目标检测任务中不仅要衡量检测出正确目标的数量，还应该评价模型是否能以较高的精确度检测出目标，所以将mAP作为评价模型性能重要的指标。对模型运行速度评估上，采用每秒传输帧数(Frames Per Second，FPS)作为定量指标，该指标与硬件性能相关，因此本实验中不同模型在统一的硬件环境下进行测试。

对比实验结果如下表4所示：

表4

模型	Recall(％)	mAP(％)	FPS
				本发明	95.2	93.9	40
文献1	93.8	91.5	34
				文献2	92.6	89.7	38

结果可以看出，相比于另外两篇参考文献中的模型，本发明的模型调整了网络结构以及先验框尺寸，同时引入了SCA模块，进一步优化了多尺度特征融合，有效地实现了对上下文信息和浅层细节特征的结合，因此模型在召回率和mAP指标上表现更好，在检测速度方面，本文提出的算法能够达到40FPS，是对比实验中表现效果最好的。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。