CN112766188A - 一种基于改进yolo算法的小目标行人检测方法 - Google Patents
一种基于改进yolo算法的小目标行人检测方法 Download PDFInfo
- Publication number
- CN112766188A CN112766188A CN202110096039.8A CN202110096039A CN112766188A CN 112766188 A CN112766188 A CN 112766188A CN 202110096039 A CN202110096039 A CN 202110096039A CN 112766188 A CN112766188 A CN 112766188A
- Authority
- CN
- China
- Prior art keywords
- box
- iou
- target
- block
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000004913 activation Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 7
- 102100035275 E3 ubiquitin-protein ligase CBL-C Human genes 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 101150039392 CBL3 gene Proteins 0.000 claims description 3
- 101150058299 Cblc gene Proteins 0.000 claims description 3
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 15
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 101000737269 Homo sapiens E3 ubiquitin-protein ligase CBL-C Proteins 0.000 description 2
- MCEWYIDBDVPMES-UHFFFAOYSA-N [60]pcbm Chemical compound C123C(C4=C5C6=C7C8=C9C%10=C%11C%12=C%13C%14=C%15C%16=C%17C%18=C(C=%19C=%20C%18=C%18C%16=C%13C%13=C%11C9=C9C7=C(C=%20C9=C%13%18)C(C7=%19)=C96)C6=C%11C%17=C%15C%13=C%15C%14=C%12C%12=C%10C%10=C85)=C9C7=C6C2=C%11C%13=C2C%15=C%12C%10=C4C23C1(CCCC(=O)OC)C1=CC=CC=C1 MCEWYIDBDVPMES-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101150060512 SPATA6 gene Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术和智能交通技术领域,公开一种基于改进YOLO算法的小目标行人检测方法,首先,利用KITTI、INRIA数据集制作小目标行人数据集;其次,基于本文数据集,采用k‑means算法重新聚类预选框;再次,基于YOLO‑V3模型,使用Mish激活函数代替ReLU,简化了特征提取网络,使用PANet结构进行特征融合;最后优化损失函数,使用CIoU计算坐标误差。本发明改进的算法比YOLO‑V3模型提升了3.2AP和20.8%的网络推理速度,在小目标行人检测任务中有一定的实用性。
Description
技术领域
本发明涉及计算机视觉技术和智能交通技术领域,具体为一种基于改进YOLO算法的小目标行人检测方法。
背景技术
目前,在智能交通和智慧城市的发展中,智能驾驶技术是行业的研究热点,在驾驶过程中,智能系统需要对车辆周围环境的目标如车辆、交通标志、行人等进行检测.其中小目标行人由于像素占比低,易被遮挡等因素,在实际检测任务中,识别精度通常不高.故提高小目标行人的检测准确度并降低检测时延,是业界不断追求的目标.
CNN(convolutional neural network,卷积神经网络)作为重要的深度模型之一,其在图像处理方面,能高效地处理具有像素网格特征的图像数据.利用卷积网络进行目标检测算法有two-stage模式的Faster R-CNN[1]和one-stage模式的YOLO、SSD[2-5]等.其中,前者的识别过程分为提出候选区域和检测对象两部分,该策略检测精度高,但是速度慢;YOLO算法的分类定位一体化网络能轻松做到端到端检测,检测速度也比同类型网络出色,故常运用在在视频任务中.然而在较快的检测速度下,YOLO无法维持较高的检测精度.
在基于YOLO-V3算法的小目标识别任务中,易等[6]采用压缩的特征网络和CenterNet结构提高了小目标野兔的检测精度和速度;鞠等[7]在特征提取网络添加残差块,并在特征融合中拼接低层特征图,提高了模型对小目标识别的召回率和准确率。但是其检测精度和实时性还是不能满足实际需求,在实际的交通检测任务中,行人占据图像比例小,在阴暗环境、遮挡等情形下的识别率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于改进YOLO算法的小目标行人检测方法,采用改进的网络结构和损失函数,实现了小目标行人的检测,与原算法相比,提高了检测精度和实时性。
(二)技术方案
为实现上述目的,本发明提供了如下技术方案:
一种基于改进YOLO算法的小目标行人检测方法,包括以下步骤:
1)利用KITTI、INRIA数据集制作小目标行人数据集;
2)基于步骤1)获得的数据集,采用k-means算法重新聚类预选框,将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下为d(box,cent)=1-IoU(box,cent),其中box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比;
3)改进YOLO-V3模型,在Backbone特征提取网络部分使用Mish激活函数代替ReLU简化特征提取网络,在Neck多尺度融合部分,采用PANet结构进行特征融合;
4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数,使用CIoU计算坐标误差。
进一步的,所述步骤1)中制作小目标行人数据集包括以下步骤:
11)挑选出KITTI数据集中存在行人目标的照片共若干张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片;
12)将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片。
进一步的,所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤:
31)将网络输入进行一次CBM(x=3)块卷积;
32)采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;
33)将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024]。
进一步的,所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤:
形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors。
进一步的,所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss=Ecoord+Econ,
Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:
Econ表示IoU误差,采用交叉熵计算,公式如下:
其中,ci表示预测目标置信度;对应真实值;λnoobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算;表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0;取相反值。
本发明的与现有技术的相比,改进的算法比YOLO-V3模型提升了3.2AP和20.8%的网络推理速度,在小目标行人检测任务中有一定的实用性。
附图说明
图1为现有的YOLO-V3网络结构图。
图2为现有的预测框机制示意图。
图3为k-means聚类效果图。
图4为预选框示意图。
图5a为改进的YOLO网络的网络结构图。
图5b为改进的YOLO网络各模块组成图
图6为激活函数比较图。
图7为DIoU示意图。
图8a为KITTI数据集中处理后的数据集示例。
8b为INRIA数据集的图片处理后的数据集示例。
图9为模型训练loss曲线图。
图10a为采用ReLu激活函数的效果图。
图10b为采用Mish激活函数的效果图。
图11a为采用FPN结构的Neck效果图。
图11b为采用PAN结构的Neck效果图。
图12a为使用MSE的Loss效果图。
图12b为使用CIoU计算坐标误差的Loss效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例模型进行深度学习训练的平台配置如下:
表1训练平台配置
本实施例深度学习数据集在开源数据集:KITTI数据集和INRIA数据集的基础上进行制作.KITTI数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,训练集包含7481张以车辆、行人等目标的车载摄像头照片.INRIA数据集中包含902张行人照片.
本发明的步骤为:
1、数据处理
本实施例需对各训练集图片进行筛选、填充、整合,具体操作为:挑选出KITTI数据集中存在行人目标的照片共1223张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片,效果如图8(a)所示;将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片,效果如图8(b)所示.处理后的数据集中,单一行人占整幅图片面积较小,可视为小目标,满足本实施例模型的训练需求,且调整后的方形照片可避免模型输入的扭曲和失真,保证模型精度.最终数据集包含507张图片,包含4474个行人目标,本实施例将其中80%作为训练集,20%作为测试集。
2、基于数据集的先验框聚类
YOLO-v3基于COCO数据集,应用K-means算法聚类得到9个预选框,而此数据集对象种类众多,大部分预选框不适用于智能驾驶任务中行人的检测.因此为获得良好的检测效果,本实施例需要基于数据集重新聚类.K-means算法依靠距离公式聚类,本实施例将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下:
d(box,cent)=1-IoU(box,cent)
其中,box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比.
本实施例以Avg IoU(样本平均交并比)判断聚类效果.计算公式如下:
其中,k表示簇个数,nk表示某个簇中心周围的样本个数,n表示总样本数.
实验取k为1到10,依次对样本框聚类.以k为横轴,Avg IoU为纵轴,可得聚类效果如图3所示,可以看出Avg IoU随k值的增大而增大,而模型的复杂程度和计算成本与k值呈正相关,理想的模型需在具有良好的Avg IoU下保持较高的检测效率.当k=2时,曲线出现转折,并且随k值的增大,Avg IoU值的增大趋势明显变缓,综合考虑考虑网络的检测效率与精度要求,本实施例取k=4,对应的预选框为[10,29]、[15,40]、[21,55]、[30,75],此时AvgIoU达到77.93%.各预选框与本实施例图片的比例如图4所示,其中黑色框表示模型的输入图片、蓝色框表示网格,虚线框表示各预选框.
3、改进的网络结构
现有的YOLO-v3网络结构如可拆分为Backbone、Neck、Pred三部分,其网络以像素值归一化的图片作为输入,输出三个尺度的预测信息,如图1所示.其中,在Backbone部分采用Darknet53网络提取特征,输出形为[52×52×256]、[26×26×512]、[13×13×1024]的三种尺度特征图.随后在Neck部分采用FPN[8](Feature pyramid networks)进行多尺度融合,模型最终卷积输出[52×52×N]、[26×26×N]、[13×13×N]三种尺度特征图。
YOLO输出形为[S×S×N]的预测信息,表示其将图片分成S×S的网格,每个网格预测目标中心位于该网格内的情况.N=B×C,B代表该尺度下的预选框数量,C为目标的Box信息(tx,ty,tw,th,confidence,classes),其中位置预测信息与最终结果如图2所示,tx、ty表示模型输出预测框中心点的横纵坐标信息;dx、dy表示预测框中心在图片中的横纵坐标;tw、th表示模型输出预测框的宽、高信息,取指数便于梯度传导和模型收敛;dw、dh表示预测框与图片中的宽、高;σ表示sigmoid变换,将坐标压缩至0~1,可确保中心点位于该网格内;gx、gy表示该网格左上角的坐标;cw、ch表示预选框尺寸。
YOLO以目标类别置信度作为预测概率输出,公式如下:
改进的网络如5(a)所示,其中包含Backbone+Neck+Pred的结构.网络中各功能模块如图11(b)所示,其中CBM/L块由2D卷积层(padding=same)、批归一化层[9](BN)、激活函数(Mish/ReLu)组成,若激活函数取Mish[10],则为CBM,若取ReLu,则为CML,x为卷积核尺寸,该模块为整个YOLO网络的基本骨架结构,在卷积层后添加BN层,可将输入参数的均值置0,方差置1,可加速模型收敛,有效防止过拟合;CBM/L2块由2个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1和3×3;CBM/L3块由3个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1、3×3和1×1;PCBM/L块由一个补零层(ZeroPadding2D)和一个CBM/L块组成,CBM/L中卷积核尺寸为3×3,padding形式为valid,该模块实现特征图下采样;CBLU块由一个CBL块和一个上采样层(Upsameling2D)组成,CBL中卷积核尺寸为1×1,该模块实现特征图上采样;CBLC块由一个CBL块和一层卷积层(padding=same)组成,CBL中卷积核尺寸为3×3,卷积层中卷积核尺寸为1×1;CBMR块为残差结构[11],其输入经CBM2块后自加,使用残差结构能加深网络深度,有效缓解梯度爆炸和消失,保证模型正常收敛,提升模型检测效果;D_BLOCK块由一个PCBM块和y个CBMR块组成。
1)Backbone
在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数.如图6所示,Mish相对于ReLU整体上更加平滑,这便于神经网络信息的传递,并且Mish允许微小的负值作为输入,模型优化时可以获得更友好的梯度;
首先,将网络输入进行一次CBM(x=3)块卷积;其次采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;最后,将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024].
2)Neck、Pred
在Neck多尺度融合部分,采用PANet[12](Path aggregation network)结构,具体操作如下.形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors.
在Pred输出部分,两种特征图经CBLC块卷积,形状变更为[52×52×N],[26×26×N],由于本实施例是单目标识别,故本实施例任务中N=2×(5+1)=12.
4、优化的损失函数
本实施例采用真实Box与预测Box相关数据的CIoU[13]误差和交叉熵作为损失函数,计算公式如下:
Loss=Ecoord+Econ
(1)Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:
如图7所示,黑色框、蓝色框、灰色框分别表示标准框、预测框、边界框.在标准框和预测框重合时,可以保持LossCIoU=LossDIoU=LossIoU=0,在这基础上,边界框范围c可使Loss具有尺度不变性,提高模型精度,并且在优化过程中计算两框中心点距离d,使模型具有更快的收敛速度,弥补了传统IoU方法的不足.相比于MSE方法,CIoU能更好地处理检测目标被遮挡的情况.
(2)Econ表示IoU误差,采用交叉熵计算,公式如下:
其中,ci表示预测目标置信度;对应真实值;λnoobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算;表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0;取相反值.
5、模型训练
基于本实施例提出的模型优化策略,本实施例将在实验中逐个训练含有对应优化模块的网络模型,并测试对比其检测效果.
本实施例实验训练初始化模型权重,优化器为keras框架下Adam,其超参数设置如下:beta_1=0.9,beta_2=0.999,批次大小为4,训练分三阶段进行:一阶段以0.0005为初始学习率,迭代100epochs;二阶段以0.0001为初始学习率,迭代100epochs;三阶段以0.00001为初始学习率,迭代300epochs,训练过程中,若5epoches测试loss不降低,则学习率下调1%,每迭代5epochs保存一次最优模型.如图9所示,迭代100epoches后,Loss下降至0.25;迭代200epoches后,Loss下降至0.1;本实施例取迭代500batches后的模型进行实验测试.
本实施例以检测准确率P(Precision)、召回率R(Recall)及AP值作为模型评价指标,各公式如下:
AP=∫Pd(R)
其中,TP表示正检数,FP表示误检数,FN表示漏检数.
设置预测框置信度阈值起点为0.1,NSM-IoU阈值为0.5,计算对应的召回率R和准确率P,其中目标预测框与标准框的DIoU小于0.7则视为FP.模型检测AP对比如表2所示.
表2模型检测AP对比
根据上表可知,在基于YOLO-v3模型使用Mish激活函数后,模型的AP70、AP75、AP80分别提升了2.5、0.7、1.2;在这基础上更改PAN网络结构和输出特征图,并使用新聚类的预选框,AP70、AP75、AP80分别提升了2.8、3.7、2.5;在基于YOLO-v3模型使用CIoU计算坐标误差后,AP70、AP75、AP80分别提升了0.3、1.7、2.4.故本实施例所采取的各项改进措施在本实施例检测任务中均取得了一定的优化成果,具体效果如图10-12所示.
根据图10可知,使用Mish激活函数代替ReLu激活函数之后,预测框的准确率及检出率有所提高,间接提高了检测准确率和召回率;根据图11可知,使用PAN结构代替FPN后,融合的语义信息使预测框的定位精确程度有所提高;根据图12可知,使用CIoU计算坐标误差后,模型对邻近目标有了更好的泛化能力.
为提升模型的检测速度,本实施例简化了darknet53网络,删减特征融合中的卷积层,模型网络层数为198层,可训练参数量为427,776,824,约为YOLO-v3模型的69%.两模型测试数据对比如表3所示.AP取AP 65至AP 80的平均值.
表3本实施例模型与YOLO-v3模型对比
结果表明,相较于YOLO-v3模型,本实施例模型提升了3.2AP和20.8%的网络推理速度,在识别准确度和速度上均表现出更高的检测性能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于改进YOLO算法的小目标行人检测方法,其特征在于,包括以下步骤:
1)利用KITTI、INRIA数据集制作小目标行人数据集;
2)基于步骤1)获得的数据集,采用k-means算法重新聚类预选框,将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下为d(box,cent)=1-IoU(box,cent),其中box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比;
3)改进YOLO-V3模型,在Backbone特征提取网络部分使用Mish激活函数代替ReLU简化特征提取网络,在Neck多尺度融合部分,采用PANet结构进行特征融合;
4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数,使用CIoU计算坐标误差。
2.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤1)中制作小目标行人数据集包括以下步骤:
11)挑选出KITTI数据集中存在行人目标的照片共若干张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片;
12)将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片。
3.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤:
31)将网络输入进行一次CBM(x=3)块卷积;
32)采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;
33)将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024]。
4.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤:
形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors。
5.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss=Ecoord+Econ,
Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:其中,b和bgt分别表示预测框和标准框的中心点;ρ(,)表示中心点欧氏距离;c表示边界框的对角线长度;表示权重函数;表示长宽比的相似性,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110096039.8A CN112766188B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的小目标行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110096039.8A CN112766188B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的小目标行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766188A true CN112766188A (zh) | 2021-05-07 |
CN112766188B CN112766188B (zh) | 2024-05-10 |
Family
ID=75707062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110096039.8A Active CN112766188B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的小目标行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766188B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269156A (zh) * | 2021-07-02 | 2021-08-17 | 昆明理工大学 | 一种基于多尺度特征融合的信号灯检测识别方法及系统 |
CN113610050A (zh) * | 2021-08-26 | 2021-11-05 | 齐鲁工业大学 | 一种基于YOLOv5的口罩佩戴实时检测方法 |
CN113673326A (zh) * | 2021-07-14 | 2021-11-19 | 南京邮电大学 | 一种基于图像深度学习的无人机平台人群计数方法及系统 |
CN113763356A (zh) * | 2021-09-08 | 2021-12-07 | 国网江西省电力有限公司电力科学研究院 | 一种基于可见光与红外图像融合的目标检测方法 |
CN113888513A (zh) * | 2021-09-30 | 2022-01-04 | 电子科技大学 | 一种基于深度神经网络模型的钢筋检测计数方法 |
CN114240885A (zh) * | 2021-12-17 | 2022-03-25 | 成都信息工程大学 | 一种基于改进的Yolov4网络的布匹瑕疵检测方法 |
CN114596273A (zh) * | 2022-03-02 | 2022-06-07 | 江南大学 | 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法 |
CN114998932A (zh) * | 2022-06-10 | 2022-09-02 | 哈工大机器人集团股份有限公司 | 一种基于YOLOv4的行人检测方法及系统 |
CN115393892A (zh) * | 2022-07-20 | 2022-11-25 | 东北电力大学 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
CN111626128A (zh) * | 2020-04-27 | 2020-09-04 | 江苏大学 | 一种基于改进YOLOv3的果园环境下行人检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
CN111832513A (zh) * | 2020-07-21 | 2020-10-27 | 西安电子科技大学 | 基于神经网络的实时足球目标检测方法 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112257793A (zh) * | 2020-10-26 | 2021-01-22 | 大连理工大学 | 一种基于改进YOLO v3算法的远距离交通标志检测方法 |
-
2021
- 2021-01-25 CN CN202110096039.8A patent/CN112766188B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
CN111626128A (zh) * | 2020-04-27 | 2020-09-04 | 江苏大学 | 一种基于改进YOLOv3的果园环境下行人检测方法 |
CN111832513A (zh) * | 2020-07-21 | 2020-10-27 | 西安电子科技大学 | 基于神经网络的实时足球目标检测方法 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112257793A (zh) * | 2020-10-26 | 2021-01-22 | 大连理工大学 | 一种基于改进YOLO v3算法的远距离交通标志检测方法 |
Non-Patent Citations (5)
Title |
---|
PPRP: "我们是如何改进YOLOv3进行红外小目标检测的?", 《HTTPS://WWW.CNBLOGS.COM/PPRP/P/13644068.HTML》, 10 September 2020 (2020-09-10) * |
TAO LIU 等: "Study on Visual Detection Algorithm of Sea Surface Targets Based on Improved YOLOv3", 《SENSORS》, 18 December 2020 (2020-12-18) * |
YUN ZHAO 等: "A Novel Vehicle Tracking ID Switches Algorithm for Driving Recording Sensors", 《SENSORS》, 29 June 2020 (2020-06-29) * |
李慕锴 等: "基于YOLOv3的红外行人小目标检测技术研究", 《红外技术》, vol. 42, no. 2, 29 February 2020 (2020-02-29) * |
赵芸 等: "改进的基于跨尺度代价聚合的立体匹配算法", 《计算机集成制造系统》, vol. 26, no. 4, 30 April 2020 (2020-04-30) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269156A (zh) * | 2021-07-02 | 2021-08-17 | 昆明理工大学 | 一种基于多尺度特征融合的信号灯检测识别方法及系统 |
CN113673326A (zh) * | 2021-07-14 | 2021-11-19 | 南京邮电大学 | 一种基于图像深度学习的无人机平台人群计数方法及系统 |
CN113673326B (zh) * | 2021-07-14 | 2023-08-15 | 南京邮电大学 | 一种基于图像深度学习的无人机平台人群计数方法及系统 |
CN113610050A (zh) * | 2021-08-26 | 2021-11-05 | 齐鲁工业大学 | 一种基于YOLOv5的口罩佩戴实时检测方法 |
CN113763356A (zh) * | 2021-09-08 | 2021-12-07 | 国网江西省电力有限公司电力科学研究院 | 一种基于可见光与红外图像融合的目标检测方法 |
CN113888513A (zh) * | 2021-09-30 | 2022-01-04 | 电子科技大学 | 一种基于深度神经网络模型的钢筋检测计数方法 |
CN114240885A (zh) * | 2021-12-17 | 2022-03-25 | 成都信息工程大学 | 一种基于改进的Yolov4网络的布匹瑕疵检测方法 |
CN114240885B (zh) * | 2021-12-17 | 2022-08-16 | 成都信息工程大学 | 一种基于改进的Yolov4网络的布匹瑕疵检测方法 |
CN114596273A (zh) * | 2022-03-02 | 2022-06-07 | 江南大学 | 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法 |
CN114998932A (zh) * | 2022-06-10 | 2022-09-02 | 哈工大机器人集团股份有限公司 | 一种基于YOLOv4的行人检测方法及系统 |
CN115393892A (zh) * | 2022-07-20 | 2022-11-25 | 东北电力大学 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
CN115393892B (zh) * | 2022-07-20 | 2023-08-04 | 东北电力大学 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112766188B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766188B (zh) | 一种基于改进yolo算法的小目标行人检测方法 | |
CN109447034B (zh) | 基于YOLOv3网络的自动驾驶中交通标识检测方法 | |
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
KR102030628B1 (ko) | Cnn 기반 차량 번호판 인식 방법 및 시스템 | |
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN112101221B (zh) | 一种用于交通信号灯实时检测与识别的方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN111428556B (zh) | 一种基于胶囊神经网络的交通标志识别方法 | |
CN113313706B (zh) | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 | |
CN114037674B (zh) | 一种基于语义上下文的工业缺陷图像分割检测方法及装置 | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN113920468B (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN111368775A (zh) | 一种基于局部上下文感知的复杂场景密集目标检测方法 | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
CN112613392A (zh) | 基于语义分割的车道线检测方法、装置、系统及存储介质 | |
CN115937736A (zh) | 基于注意力和上下文感知的小目标检测方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN114550023A (zh) | 一种交通目标静态信息提取装置 | |
CN112365451A (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |