CN113496260A - 基于改进YOLOv3算法的粮库人员不规范作业检测法 - Google Patents
基于改进YOLOv3算法的粮库人员不规范作业检测法 Download PDFInfo
- Publication number
- CN113496260A CN113496260A CN202110760404.0A CN202110760404A CN113496260A CN 113496260 A CN113496260 A CN 113496260A CN 202110760404 A CN202110760404 A CN 202110760404A CN 113496260 A CN113496260 A CN 113496260A
- Authority
- CN
- China
- Prior art keywords
- grain depot
- scale
- feature
- layer
- standard operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 40
- 230000006399 behavior Effects 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000001788 irregular Effects 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102000007372 Ataxin-1 Human genes 0.000 description 1
- 108010032963 Ataxin-1 Proteins 0.000 description 1
- 208000009415 Spinocerebellar Ataxias Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000003624 spinocerebellar ataxia type 1 Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于改进YOLOv3算法的粮库人员不规范作业检测方法,用以对粮库人员不规范作业行为进行图像的采集,然后将采集的图像输入上位机中的粮库不规范作业行为检测网络,输出带有人员不规范作业行为的准确标记的结果图片,并在上位机中显示、存储结果,粮库不规范作业行为检测网络包括基于YOLOv3网络构建的主干层和特征融合输出层,并在特征融合输出层的Y2层和Y3层分别中嵌入尺度上下文选择注意力模块SCA。本发明克服现有技术中存在的缺陷,提供一种更加适合粮库场景检测且网络表征能力更强的基于改进YOLOv3算法的粮库人员不规范作业的检测方法。
Description
技术领域
本发明涉及计算机视觉领域和图像识别领域,具体是一种基于改进YOLOv3算法的粮库人员不规范作业检测方法。
背景技术
目标检测作为计算机视觉中的一个重要领域,在现实中的应用很广泛,它的目标是在给定图像中检测出需要识别的物体目标,并且确定物体的类别以及在图像中的位置。在深度学习于计算机视觉领域大规模应用前,目标检测精度的进步比较缓慢,诸如采用HOG特征、Haar特征等传统手工构造特征算法加上SVM算法、Adaboost算法等分类算法的方式来提高精度已是比较困难的事。而在ImageNet图像分类大赛出现的卷积神经网络——AlexNet展现了强大性能,吸引着学者们将卷积神经网络迁移到了其他的任务,包括目标检测。近年来,出现了很多目标检测的方法,其中比较有代表性的算法就有以SSD系列、YOLO系列为代表的单次(one-stage)算法。
YOLO(You Only Look Once)算法的检测流程比较简洁。调整输入图像为固定尺寸后馈送到主干卷积网络中提取特征,而后直接在输出层完成目标分类、边界框回归等操作。通过YOLO,每张图像只需要看一眼就能得出图像中都有哪些物体和这些物体的位置,其中YOLOv3是在YOLO与YOLOv2的基础上改进的算法,相比之下可以达到更快的运行速度,更高的检测准确率,是当前工业界较为流行的单次目标检测算法。但YOLOv3算法中的先验框数量是预先选定,并且其尺寸大小是针对ImageNet数据集上的检测物体进行聚类获得,并不适用于粮库作业场景,另外在粮库作业场景下对不同尺度、不同位置的目标预测方面YOLOv3也存在网络表征能力不足,检测效果不佳的情况,并且YOLOv3在网络的特征融合阶段直接将全局性的小尺度特征与细粒度特征采用级联(concatenation)的方式融合,在检测小目标时无法较好地考虑到全局场景性。
因此需要一种能够改进上述问题的方法。
发明内容
本发明要解决的技术问题是提供基于改进YOLOv3算法的粮库人员不规范作业检测方法,克服现有技术中存在的缺陷,提供一种更加适合粮库场景检测且网络表征能力更强的基于改进YOLOv3算法的粮库人员不规范作业检测方法。
为了解决上述技术问题,本发明提供基于改进YOLOv3算法的粮库人员不规范作业检测方法,包括步骤如下:
对粮库人员不规范作业行为进行图像的采集,然后将采集的图像输入上位机中的具有在线生产能力的粮库不规范作业行为检测网络,输出有人员不规范作业行为的准确标记的结果图片,并在上位机中显示、存储结果;
所述粮库不规范作业行为检测网络包括基于YOLOv3网络构建的主干层和特征融合输出层,并在特征融合输出层的Y2层和Y3层分别中嵌入尺度上下文选择注意力模块SCA。
作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的改进:
所述主干层包括输入的图片经过两倍下采样的卷积层,然后依次经过四个阶段Stage1、Stage2、Stage3和Stage4,每个阶段均由下采样卷积层以及残差结构组成,其中stage1包含3个残差结构,stage2包含5个残差结构,stage3包含10个残差结构,stage4包含4个残差结构;
所述特征融合输出层包含三个尺度检测输出,Y1层为经过32倍下采样的stage4层输出特征进行卷积后输出小尺度特征的检测结果;在Y2层,将来自Y1层的特征进行2倍上采样与stage3输出的特征通过一个尺度上下文选择注意力模块SCA进行融合,输出中尺度特征的检测结果;在Y3层,将来自Y2层的特征进行2倍上采样,然后与stage2、stage3输出的特征通过另一个尺度上下文选择注意力模块SCA进行融合输出大尺度特征的检测结果。
作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的进一步改进:
所述SCA模块的输入端包含多个尺度的特征集XL={xl,l=1,...,L},首先每部分尺度特征xl分别通过1x1卷积层实现维度变换,表示为:
xl=F(X;Wl) (1)
然后将所有的尺度上下文特征xl,l=1,...,L通过双线性插值将采样为相同的大小,然后以级联的方式被联合为特征作为注意力门的输入,生成注意力关注图α,包含αl,l∈{1,...,L},生成过程可以表述为:
然后对注意力关注图α应用softmax来计算第l尺度上的权重ql:
同时将尺度上下文特征xl,l=1,...,L通过特征变换得到尺度特征fl,并与尺度l上对应的权重ql相乘后执行逐元素求和,获得特征图e:
其中ψl表示用于匹配特征的特征变换的函数,Wi是l变换层的参数,其中变换包含卷积层,仿射变换和插值运算。
作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的进一步改进:
所述具有在线生产能力的粮库不规范作业行为检测网络的建立过程为:
1.1)、建立训练测试数据集
通过网络资源,或者通过粮库单位获取内部各种作业环境下的监控视频,搜集粮库人员不规范作业的图片构建数据集,然后对数据集进行标注和数据增强操作,获得训练集和测试集;
1.2)、基于k-means聚类算法,对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析,通过统计聚类规律得到目标建议框个数和尺寸;
1.3)、将训练集输入所述粮库不规范作业行为检测网络,然后使用测试集进行测试,从而获得所述具有在线生产能力的粮库不规范作业行为检测网络。
作为本发明的基于改进YOLOv3算法的粮库人员不规范作业检测方法的进一步改进:
所述聚类算法流程如下:
2.1)、设置样本数据为所述训练集数据中有标注目标真实边框的数据,标注数据生成一个包含标注框位置和类别的文件,其中每个标注框样本数据为(xj,yj,wj,hj),j∈{1,2,...,N},ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高,N是所有标注框的个数;
2.2)、给定k个聚类中心点(Wi,Hi),i∈{1,2,...,k},这里的Wi,Hi是anchor boxes的宽和高尺寸,由于anchor boxes位置不固定,所以没有(x,y)的坐标,只有宽和高;
2.3)、计算每个标注框和每个聚类中心点的距离d=1-IOU(box,centroid),计算时每个标注框的中心点都与聚类中心重合:
d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,...,N},i∈{1,2,...,k} (7)
将标注框分配给“距离”最近的聚类中心;
2.4)、所有标注框分配完毕以后,对每个簇重新计算聚类中心点,计算方式为:
Ni是第i个簇的标注框个数,就是求该簇中所有标注框的宽和高的平均值;
2.5)、重复步骤2.3)、步骤2.4),直到聚类中心改变量小于阈值得到更加适合的粮库场景的目标建议框个数和尺寸,然后按照尺度越大选取的框面积越小的原则,将建议框分为三组,分别对应到3个不同的检测尺度上。
本发明的有益效果主要体现在:
1、本发明对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析,通过统计聚类规律得到更加适合的目标建议框个数和尺寸,优化了原YOLOv3检测网络的结构与方法,使其更加适应在本场景下的检测任务,在保证了精度的同时又简化了网络。
2、本发明针对场景优化问题提出了尺度选择注意力模块,并在在特征融合处嵌入了注意力模块,利用不同尺度特征的适应性融合进一步提升了网络的表征能力。
附图说明
图1为本发明的粮库不规范作业行为检测网络的结构示意图;
图2为YOLOv3主体网络结构图;
图3为本发明的实施例1中YOLO-base基础检测网络结构示意图;
图4为本发明的尺度上下文选择注意力模块的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例1、基于改进YOLOv3算法的粮库人员不规范作业检测方法,如图1-4所示,该方法包括以下步骤:
S1、构建粮库不规范作业行为检测网络,基于YOLOv3网络改进并构建粮库不规范作业行为检测网络应用于粮库作业场景,粮库不规范作业行为检测网络构建过程包括YOLO-base基础检测网络的构建、将尺度上下文选择注意力模块(scale contextselection attention,简称SCA模块)嵌入到YOLO-base基础检测网络中;
S101、所述YOLO-base基础检测网络对YOLOv3的Darknet-53网络结构进行了调整,整体采用了全卷积网络,主要由主干层(Backbone)和特征融合输出层(Multi-scaleoutput)组成。其中主干层网络主要通过多阶段(Stage)卷积与下采样操作获得深度特征,输出层对不同阶段的特征进行融合,并最终以三个不同尺度的特征层进行回归预测;
YOLO-base基础检测网络具体结构顺序为:
主干层中的卷积层(conv)均由卷积操作(Convolution)、归一化操作(BatchNormalization,BN)和激活函数Leaky ReLU构成。输入经过两倍下采样的卷积层,然后是四个阶段(Stage),每个阶段均由下采样卷积层以及若干个残差结构(Residual block)组成,残差结构可以增强梯度传播以及网络的泛化能力;其中stage1包含3个残差结构,stage2包含5个残差结构,stage3包含10个残差结构,stage4包含4个残差结构。
特征融合输出层包含三个尺度检测输出,Y1层为经过32倍下采样的stage4层输出特征进行卷积后输出,用于小尺度特征的检测;Y2层将来自Y1层的特征进行2倍上采样与stage3输出的特征进行融合而输出,用于中尺度特征的检测;Y3层将来自Y2层的特征进行2倍上采样的输出与stage2输出的特征进行融合输出,用于大尺度特征的检测,如图3所示;
S102、将SCA模块,嵌入到YOLO-base基础检测网络中,优化网络中不同层次不同尺度特征的融合,以产生更具全面且有效的特征;
所述SCA模块输入端包含多个尺度的特征。这些特征可以用特征集XL表示,其中每个元素表示为xl,l=1,...,L。首先每部分尺度特征xl分别通过1x1卷积层实现维度变换,每个尺度l上的变换运算可以表示为函数而第l尺度的输出特征xl计算公式为:
xl=F(X;Wl) (1)
其中表示卷积层参数;所有的尺度上下文特征,即,第(1,...,L)尺度的输出特征xl,l=1,...,L通过双线性插值将其采样为相同的大小,然后以级联的方式(concatenation)被联合为特征作为注意力门(Attention gate)的输入,生成注意力关注图(attention map)α,包含αl,l∈{1,...,L},生成过程可以表述为:
接下来,为了归一化每个维度的注意力特征图,对注意力关注图α应用softmax来计算第l尺度上的权重ql,过程表示为:
同时将尺度上下文特征xl,l=1,...,L通过特征变换(Feature transformation)得到尺度特征fl,并与尺度l上对应的权重ql相乘后执行逐元素求和,获得特征图e,整个过程表述为:
其中ψl表示用于匹配特征的特征变换的函数,Wi是l变换层的参数,其中变换包含卷积层,仿射变换和插值运算,SCA模块结构如图4所示;
将SCA模块嵌入步骤S101中构建的YOLO-base基础检测网络两特征融合处,在YOLO-base基础检测网络的head2分支处的SCA1模块,融合了head1分支的特征和stage3阶段的输出特征用于中尺度特征的检测;在head3分支处的SCA2模块,融合了head1分支的特征,stage3阶段的输出特征和stage2阶段的输出特征用于大尺度特征的检测,添加SCA模块后的网络结构如图1;
S2、训练粮库不规范作业行为检测网络;
S201、对所研究的粮库人员不规范作业行为进行数据集的采集与构建;
针对所研究人员数量以及安全帽佩戴情况的检测进行数据集的采集与构建,数据的采集主要通过两个途径:一是通过谷歌、百度、搜狗等网络资源进行搜集相关图片;二是通过和浙江省内相关粮库单位合作获取,这些数据来自粮库内部各种作业环境下的监控视频;为使得相关的图片更加接近真实的粮库环境,加入了噪声、模糊等数据增强方式。构建的数据集利用LabelImg标注工具对目标对象进行标注,主要包含三个待检测类别:人体(person),佩戴安全帽正例(helmet),未佩戴安全帽负例(head)。具体的数据集信息如下表1所示:
表1
数据集 | 人员及安全帽佩戴 |
类别数目 | 3 |
类别明细 | Person、helmet、head |
图片数量 | 5400 |
人体数目 | 12483 |
安全帽佩戴 | 7523 |
未佩戴头部 | 5134 |
S202、数据集预处理,所构建数据集共5400张图片,其中训练集4320张,测试集1080张。为了提高模型的鲁棒性以及泛化能力,对训练数据采用了常规数据增强操作,包括随机镜像操作、随机旋转(-10,10)度,随机裁剪及添加噪声等方式;
然后基于k-means聚类算法,在粮库安全作业检测场景下,对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析,通过统计聚类规律得到更加适合的粮库场景的目标建议框个数和尺寸,可以实现对预测对象范围进行约束,增加数据中尺度先验信息,有助于快速收敛并提升模型效果。聚类算法流程如下:
1)、设置样本数据为原始训练集数据中有标注目标真实边框的数据,标注数据生成一个包含标注框位置和类别的文件,其中每个标注框样本数据为(xj,yj,wj,hj),j∈{1,2,...,N},即ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高,N是所有标注框的个数;
2)、首先给定k个聚类中心点(Wi,Hi),i∈{1,2,...,k},这里的Wi,Hi是anchorboxes的宽和高尺寸,由于anchor boxes位置不固定,所以没有(x,y)的坐标,只有宽和高;
3)、计算每个标注框和每个聚类中心点的距离d=1-IOU(box,centroid),计算时每个标注框的中心点都与聚类中心重合,这样才能计算IOU值,即:
d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,...,N},i∈{1,2,...,k}; (7)
将标注框分配给“距离”最近的聚类中心;
4)、所有标注框分配完毕以后,对每个簇重新计算聚类中心点,计算方式为:
Ni是第i个簇的标注框个数,就是求该簇中所有标注框的宽和高的平均值。
5)、重复步骤3)、步骤4),直到聚类中心改变量小于某个阈值。得到更加适合的粮库场景的目标建议框个数和尺寸,然后按照尺度越大选取的框面积越小的原则,将建议框分为三组,分别对应到3个不同的检测尺度上;
S203、训练环境配置,此检测网络的训练在Centos操作系统服务器进行,利用Tesla P4GPU加速实验,开发环境基于Pytorch深度学习框架。具体的软硬件配置如下表2:
表2
名称 | 环境配置 |
操作系统 | CentOS7.3.1611 |
处理器 | 12*E5-2609v3@1.9GHz,15M Cache |
显卡 | Tesla P4 8GB(384.81) |
内存 | 125GB |
开发环境 | Python3.7 PyTorch1.4.0 |
将训练集输入步骤S1建立的粮库不规范作业行为检测网络,采用Adam优化器对网络进行优化,可以动态调整学习率,适用于包含噪声及稀疏优化问题,采用动量(momentum)系数为0.9,权重衰减(weight decay)为0.0001。优化器的初始学习率(learning rate,lr)设置为0.01,并按照余弦衰减的形式对学习率进行衰减。受制于显存问题一个批次的输入图片大小为32,共训练100次迭代,然后使用测试集对训练完成后粮库不规范作业行为检测网络进行测试,平均正确率均值(Mean Average Precision,mAP)达到93.9%,从而获得得到可在线使用的粮库不规范作业行为检测网络。
S3、粮库不规范作业行为检测网络模型实际使用过程具体为:
按步骤S1对粮库人员不规范作业行为进行图像的采集,然后在上位机中,将采集的图像输入步骤S2获得的具有在线生产能力的粮库不规范作业行为检测网络,输出准确标记人员不规范作业行为的结果图片,并在上位机中显示、存储结果;
实验1:
为了进一步验证所提出的方法对人员以及安全帽情况的检测能力,本实验将最终改进后的YOLO-SCA网络模型与另外2篇相关文献的算法模型在本发明上述所构建的数据集上进行了对比实验。文献1(参见吴迪.基于计算机视觉的施工人员安全状态监测技术研究[D].哈尔滨工业大学,2019.)中同样以YOLOv3网络为主干设计了模型,并增加了一个尺度检测分支,通过跨尺度检测的方式进行检测。文献2(参见Wu,Fan&Jin,Guoqing&Gao,Mingyu&HE,Zhiwei&Yang,Yuxiang.(2019).Helmet Detection Based On Improved YOLOV3 Deep Model.363-368.10.1109/ICNSC.2019.8743246.基于改进的YOLO V3深度模型的头盔检测)以YOLOv3算法为基础,增加了focal loss损失来优化前后景不平衡问题。
实验评价指标如下:
1)交并比(Intersection Over Union,IOU)
IOU是对于衡量预测样本坐标与真实样本坐标重叠程度的函数,并且是评价检测算法重要性能指标平均正确率均值(Mean Average Precision,mAP)的基础。IOU用来计算“预测的目标边框”和“真实的目标边框”的交集与并集比值,即两个区域重叠部分面积占二者总面积的比例。其定义如下:
在检测任务中,模型输出的矩形框与人工标注的矩形框的IOU值大于某个阈值时(一般为0.5)即认为模型预测为正样本。
2)精确率(Precision)和召回率(Recall)
在检测问题的分类预测中,将模型的预测结果与样本的真实标签使用混淆矩阵来表示四种组合,其中分别是真阳性(True Positive,TP)、假阳性(False Positive,FP)、真阴性(True Negative,TN)、假阴性(False Negative,FN)这四种情况,混淆矩阵具体如下表3所示:
表3
精确度也可以称为查准率,是针对预测结果中表示预测为正的样本有多少为真正的正样本,其定义如下:
召回率又被称为查全率,用来说明分类器预测结果中判定为真的正样本占总正样本的比例,其定义如下:
3)平均正确率(Average Precision,AP)和平均正确率均值(Mean AveragePrecision,mAP)
平均正确率(Average Precision,AP),既考虑获取较高的精确率也考虑获取较高的召回率。某一类别AP值的计算需要对检测结果设定置信度阈值和IOU阈值,首先对于算法最终的预测结果按照置信度分数进行降序排列,并按照设定的置信度阈值划分正负样本,将置信度大于阈值的检测框定义为正样本,对正样本计算该置信度阈值下的精确度和召回率坐标,即精确率-召回率(Precision-Recall,PR)曲线上的一点。然后固定IOU阈值,继续改变置信度阈值计算PR曲线上的其他点,从而得到变化曲线,曲线与坐标轴围成的面积即为当前IOU下的AP值。
而平均正确率均值(Mean Average Precision,mAP)就是对多个类别检测好坏的结果,将所有类别的AP值取平均,计算得到的就是mAP的值,mAP的大小一定在[0,1]区间,数值越大反应模型检测效果越好。
本实验中设置阈值IOU=0.5来计算AP。由于精确度和召回率受到设置IOU阈值的影响较大,在目标检测任务中不仅要衡量检测出正确目标的数量,还应该评价模型是否能以较高的精确度检测出目标,所以将mAP作为评价模型性能重要的指标。对模型运行速度评估上,采用每秒传输帧数(Frames Per Second,FPS)作为定量指标,该指标与硬件性能相关,因此本实验中不同模型在统一的硬件环境下进行测试。
对比实验结果如下表4所示:
表4
模型 | Recall(%) | mAP(%) | FPS |
本发明 | 95.2 | 93.9 | 40 |
文献1 | 93.8 | 91.5 | 34 |
文献2 | 92.6 | 89.7 | 38 |
结果可以看出,相比于另外两篇参考文献中的模型,本发明的模型调整了网络结构以及先验框尺寸,同时引入了SCA模块,进一步优化了多尺度特征融合,有效地实现了对上下文信息和浅层细节特征的结合,因此模型在召回率和mAP指标上表现更好,在检测速度方面,本文提出的算法能够达到40FPS,是对比实验中表现效果最好的。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (5)
1.基于改进YOLOv3算法的粮库人员不规范作业检测方法,其特征在于,包括步骤如下:
对粮库人员不规范作业行为进行图像的采集,然后将采集的图像输入上位机中的具有在线生产能力的粮库不规范作业行为检测网络,输出有人员不规范作业行为的准确标记的结果图片,并在上位机中显示、存储结果;
所述粮库不规范作业行为检测网络包括基于YOLOv3网络构建的主干层和特征融合输出层,并在特征融合输出层的Y2层和Y3层分别中嵌入尺度上下文选择注意力模块SCA。
2.根据权利要求1所述的基于改进YOLOv3算法的粮库人员不规范作业检测方法,其特征在于,所述主干层包括:
输入的图片经过两倍下采样的卷积层,然后依次经过四个阶段Stage1、Stage2、Stage3和Stage4,每个阶段均由下采样卷积层以及残差结构组成,其中stage1包含3个残差结构,stage2包含5个残差结构,stage3包含10个残差结构,stage4包含4个残差结构;
所述特征融合输出层包含三个尺度检测输出,Y1层为经过32倍下采样的stage4层输出特征进行卷积后输出小尺度特征的检测结果;在Y2层,将来自Y1层的特征进行2倍上采样与stage3输出的特征通过一个尺度上下文选择注意力模块SCA进行融合,输出中尺度特征的检测结果;在Y3层,将来自Y2层的特征进行2倍上采样,然后与stage2、stage3输出的特征通过另一个尺度上下文选择注意力模块SCA进行融合输出大尺度特征的检测结果。
3.根据权利要求2所述的基于改进YOLOv3算法的粮库人员不规范作业检测方法,其特征在于,所述SCA模块为:
输入端包含多个尺度的特征集XL={xl,l=1,…,L},首先每部分尺度特征xl分别通过1x1卷积层实现维度变换,表示为:
xl=F(X;Wl) (1)
然后将所有的尺度上下文特征xl,l=1,...,L通过双线性插值将采样为相同的大小,然后以级联的方式被联合为特征作为注意力门的输入,生成注意力关注图α,包含αl,l∈{1,...,L},生成过程可以表述为:
然后对注意力关注图α应用softmax来计算第l尺度上的权重ql:
同时将尺度上下文特征xl,l=1,...,L通过特征变换得到尺度特征fl,并与尺度l上对应的权重ql相乘后执行逐元素求和,获得特征图e:
其中ψl表示用于匹配特征的特征变换的函数,Wi是l变换层的参数,其中变换包含卷积层,仿射变换和插值运算。
4.根据权利要求3所述的基于改进YOLOv3算法的粮库人员不规范作业检测方法,其特征在于,所述具有在线生产能力的粮库不规范作业行为检测网络的建立过程为:
1.1)、建立训练测试数据集
通过网络资源,或者通过粮库单位获取内部各种作业环境下的监控视频,搜集粮库人员不规范作业的图片构建数据集,然后对数据集进行标注和数据增强操作,获得训练集和测试集;
1.2)、基于k-means聚类算法,对所构建的数据集中目标对象的真实边框尺寸分布进行聚类分析,通过统计聚类规律得到目标建议框个数和尺寸;
1.3)、将训练集输入所述粮库不规范作业行为检测网络,然后使用测试集进行测试,从而获得所述具有在线生产能力的粮库不规范作业行为检测网络。
5.根据权利要求4所述的基于改进YOLOv3算法的粮库人员不规范作业检测方法,其特征在于,所述聚类算法流程如下:
2.1)、设置样本数据为所述训练集数据中有标注目标真实边框的数据,标注数据生成一个包含标注框位置和类别的文件,其中每个标注框样本数据为(xj,yj,wj,hj),j∈{1,2,...,N},ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高,N是所有标注框的个数;
2.2)、给定k个聚类中心点(Wi,Hi),i∈{1,2,...,k},这里的Wi,Hi是anchor boxes的宽和高尺寸,由于anchor boxes位置不固定,所以没有(x,y)的坐标,只有宽和高;
2.3)、计算每个标注框和每个聚类中心点的距离d=1-IOU(box,centroid),计算时每个标注框的中心点都与聚类中心重合:
d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,...,N},i∈{1,2,...,k} (7)
将标注框分配给“距离”最近的聚类中心;
2.4)、所有标注框分配完毕以后,对每个簇重新计算聚类中心点,计算方式为:
Ni是第i个簇的标注框个数,就是求该簇中所有标注框的宽和高的平均值;
2.5)、重复步骤2.3)、步骤2.4),直到聚类中心改变量小于阈值得到更加适合的粮库场景的目标建议框个数和尺寸,然后按照尺度越大选取的框面积越小的原则,将建议框分为三组,分别对应到3个不同的检测尺度上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110760404.0A CN113496260B (zh) | 2021-07-06 | 2021-07-06 | 基于改进YOLOv3算法的粮库人员不规范作业检测法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110760404.0A CN113496260B (zh) | 2021-07-06 | 2021-07-06 | 基于改进YOLOv3算法的粮库人员不规范作业检测法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496260A true CN113496260A (zh) | 2021-10-12 |
CN113496260B CN113496260B (zh) | 2024-01-30 |
Family
ID=77998120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110760404.0A Active CN113496260B (zh) | 2021-07-06 | 2021-07-06 | 基于改进YOLOv3算法的粮库人员不规范作业检测法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496260B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114120366A (zh) * | 2021-11-29 | 2022-03-01 | 上海应用技术大学 | 一种基于生成对抗网络和yolov5的非机动车头盔检测方法 |
CN115775381A (zh) * | 2022-12-15 | 2023-03-10 | 华洋通信科技股份有限公司 | 一种光照不均匀下的矿井电机车路况识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310622A (zh) * | 2020-02-05 | 2020-06-19 | 西北工业大学 | 一种面向水下机器人智能作业的鱼群目标识别方法 |
CN111401419A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 基于改进RetinaNet的员工着装规范检测方法 |
CN111401418A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 一种基于改进Faster r-cnn的员工着装规范检测方法 |
CN112270347A (zh) * | 2020-10-20 | 2021-01-26 | 西安工程大学 | 一种基于改进ssd的医疗废弃物分类检测方法 |
CN112733749A (zh) * | 2021-01-14 | 2021-04-30 | 青岛科技大学 | 融合注意力机制的实时行人检测方法 |
-
2021
- 2021-07-06 CN CN202110760404.0A patent/CN113496260B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310622A (zh) * | 2020-02-05 | 2020-06-19 | 西北工业大学 | 一种面向水下机器人智能作业的鱼群目标识别方法 |
CN111401419A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 基于改进RetinaNet的员工着装规范检测方法 |
CN111401418A (zh) * | 2020-03-05 | 2020-07-10 | 浙江理工大学桐乡研究院有限公司 | 一种基于改进Faster r-cnn的员工着装规范检测方法 |
CN112270347A (zh) * | 2020-10-20 | 2021-01-26 | 西安工程大学 | 一种基于改进ssd的医疗废弃物分类检测方法 |
CN112733749A (zh) * | 2021-01-14 | 2021-04-30 | 青岛科技大学 | 融合注意力机制的实时行人检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114120366A (zh) * | 2021-11-29 | 2022-03-01 | 上海应用技术大学 | 一种基于生成对抗网络和yolov5的非机动车头盔检测方法 |
CN114120366B (zh) * | 2021-11-29 | 2023-08-25 | 上海应用技术大学 | 一种基于生成对抗网络和yolov5的非机动车头盔检测方法 |
CN115775381A (zh) * | 2022-12-15 | 2023-03-10 | 华洋通信科技股份有限公司 | 一种光照不均匀下的矿井电机车路况识别方法 |
CN115775381B (zh) * | 2022-12-15 | 2023-10-20 | 华洋通信科技股份有限公司 | 一种光照不均匀下的矿井电机车路况识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113496260B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN111723786B (zh) | 一种基于单模型预测的安全帽佩戴检测方法及装置 | |
Zhang et al. | Pedestrian detection method based on Faster R-CNN | |
CN110263774A (zh) | 一种人脸检测方法 | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN109871875B (zh) | 一种基于深度学习的建筑物变化检测方法 | |
Gao et al. | A novel deep convolutional neural network based on ResNet-18 and transfer learning for detection of wood knot defects | |
CN111325237B (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN113496260B (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN112668482B (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
Cao et al. | Detection of microalgae objects based on the Improved YOLOv3 model | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
Wani et al. | Segmentation of satellite images of solar panels using fast deep learning model | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN113723558A (zh) | 基于注意力机制的遥感图像小样本舰船检测方法 | |
Shuai et al. | Regression convolutional network for vanishing point detection | |
CN106980878B (zh) | 三维模型几何风格的确定方法及装置 | |
CN110334704B (zh) | 基于分层学习的三维模型兴趣点提取方法及系统 | |
CN117011274A (zh) | 自动化玻璃瓶检测系统及其方法 | |
CN116824337A (zh) | 基于特征迁移学习的生成粗糙度预测模型的方法及系统 | |
Zhang et al. | A YOLOv3-Based Industrial Instrument Classification and Reading Recognition Method | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |