CN112766188A - 一种基于改进yolo算法的小目标行人检测方法 - Google Patents

一种基于改进yolo算法的小目标行人检测方法 Download PDF

Info

Publication number
CN112766188A
CN112766188A CN202110096039.8A CN202110096039A CN112766188A CN 112766188 A CN112766188 A CN 112766188A CN 202110096039 A CN202110096039 A CN 202110096039A CN 112766188 A CN112766188 A CN 112766188A
Authority
CN
China
Prior art keywords
box
iou
target
block
small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110096039.8A
Other languages
English (en)
Other versions
CN112766188B (zh
Inventor
徐兴
王凯耀
赵芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110096039.8A priority Critical patent/CN112766188B/zh
Publication of CN112766188A publication Critical patent/CN112766188A/zh
Application granted granted Critical
Publication of CN112766188B publication Critical patent/CN112766188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术和智能交通技术领域,公开一种基于改进YOLO算法的小目标行人检测方法,首先,利用KITTI、INRIA数据集制作小目标行人数据集;其次,基于本文数据集,采用k‑means算法重新聚类预选框;再次,基于YOLO‑V3模型,使用Mish激活函数代替ReLU,简化了特征提取网络,使用PANet结构进行特征融合;最后优化损失函数,使用CIoU计算坐标误差。本发明改进的算法比YOLO‑V3模型提升了3.2AP和20.8%的网络推理速度,在小目标行人检测任务中有一定的实用性。

Description

一种基于改进YOLO算法的小目标行人检测方法
技术领域
本发明涉及计算机视觉技术和智能交通技术领域,具体为一种基于改进YOLO算法的小目标行人检测方法。
背景技术
目前,在智能交通和智慧城市的发展中,智能驾驶技术是行业的研究热点,在驾驶过程中,智能系统需要对车辆周围环境的目标如车辆、交通标志、行人等进行检测.其中小目标行人由于像素占比低,易被遮挡等因素,在实际检测任务中,识别精度通常不高.故提高小目标行人的检测准确度并降低检测时延,是业界不断追求的目标.
CNN(convolutional neural network,卷积神经网络)作为重要的深度模型之一,其在图像处理方面,能高效地处理具有像素网格特征的图像数据.利用卷积网络进行目标检测算法有two-stage模式的Faster R-CNN[1]和one-stage模式的YOLO、SSD[2-5]等.其中,前者的识别过程分为提出候选区域和检测对象两部分,该策略检测精度高,但是速度慢;YOLO算法的分类定位一体化网络能轻松做到端到端检测,检测速度也比同类型网络出色,故常运用在在视频任务中.然而在较快的检测速度下,YOLO无法维持较高的检测精度.
在基于YOLO-V3算法的小目标识别任务中,易等[6]采用压缩的特征网络和CenterNet结构提高了小目标野兔的检测精度和速度;鞠等[7]在特征提取网络添加残差块,并在特征融合中拼接低层特征图,提高了模型对小目标识别的召回率和准确率。但是其检测精度和实时性还是不能满足实际需求,在实际的交通检测任务中,行人占据图像比例小,在阴暗环境、遮挡等情形下的识别率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于改进YOLO算法的小目标行人检测方法,采用改进的网络结构和损失函数,实现了小目标行人的检测,与原算法相比,提高了检测精度和实时性。
(二)技术方案
为实现上述目的,本发明提供了如下技术方案:
一种基于改进YOLO算法的小目标行人检测方法,包括以下步骤:
1)利用KITTI、INRIA数据集制作小目标行人数据集;
2)基于步骤1)获得的数据集,采用k-means算法重新聚类预选框,将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下为d(box,cent)=1-IoU(box,cent),其中box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比;
3)改进YOLO-V3模型,在Backbone特征提取网络部分使用Mish激活函数代替ReLU简化特征提取网络,在Neck多尺度融合部分,采用PANet结构进行特征融合;
4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数,使用CIoU计算坐标误差。
进一步的,所述步骤1)中制作小目标行人数据集包括以下步骤:
11)挑选出KITTI数据集中存在行人目标的照片共若干张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片;
12)将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片。
进一步的,所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤:
31)将网络输入进行一次CBM(x=3)块卷积;
32)采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;
33)将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024]。
进一步的,所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤:
形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors。
进一步的,所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss=Ecoord+Econ
Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:
Figure BDA0002914028520000031
其中,b和bgt分别表示预测框和标准框的中心点;ρ(,)表示中心点欧氏距离;c表示边界框的对角线长度;
Figure BDA0002914028520000041
表示权重函数;
Figure BDA0002914028520000042
表示长宽比的相似性,
Econ表示IoU误差,采用交叉熵计算,公式如下:
Figure BDA0002914028520000043
其中,ci表示预测目标置信度;
Figure BDA0002914028520000044
对应真实值;λnoobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算;
Figure BDA0002914028520000045
表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0;
Figure BDA0002914028520000046
取相反值。
本发明的与现有技术的相比,改进的算法比YOLO-V3模型提升了3.2AP和20.8%的网络推理速度,在小目标行人检测任务中有一定的实用性。
附图说明
图1为现有的YOLO-V3网络结构图。
图2为现有的预测框机制示意图。
图3为k-means聚类效果图。
图4为预选框示意图。
图5a为改进的YOLO网络的网络结构图。
图5b为改进的YOLO网络各模块组成图
图6为激活函数比较图。
图7为DIoU示意图。
图8a为KITTI数据集中处理后的数据集示例。
8b为INRIA数据集的图片处理后的数据集示例。
图9为模型训练loss曲线图。
图10a为采用ReLu激活函数的效果图。
图10b为采用Mish激活函数的效果图。
图11a为采用FPN结构的Neck效果图。
图11b为采用PAN结构的Neck效果图。
图12a为使用MSE的Loss效果图。
图12b为使用CIoU计算坐标误差的Loss效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例模型进行深度学习训练的平台配置如下:
Figure BDA0002914028520000051
表1训练平台配置
本实施例深度学习数据集在开源数据集:KITTI数据集和INRIA数据集的基础上进行制作.KITTI数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,训练集包含7481张以车辆、行人等目标的车载摄像头照片.INRIA数据集中包含902张行人照片.
本发明的步骤为:
1、数据处理
本实施例需对各训练集图片进行筛选、填充、整合,具体操作为:挑选出KITTI数据集中存在行人目标的照片共1223张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片,效果如图8(a)所示;将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片,效果如图8(b)所示.处理后的数据集中,单一行人占整幅图片面积较小,可视为小目标,满足本实施例模型的训练需求,且调整后的方形照片可避免模型输入的扭曲和失真,保证模型精度.最终数据集包含507张图片,包含4474个行人目标,本实施例将其中80%作为训练集,20%作为测试集。
2、基于数据集的先验框聚类
YOLO-v3基于COCO数据集,应用K-means算法聚类得到9个预选框,而此数据集对象种类众多,大部分预选框不适用于智能驾驶任务中行人的检测.因此为获得良好的检测效果,本实施例需要基于数据集重新聚类.K-means算法依靠距离公式聚类,本实施例将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下:
d(box,cent)=1-IoU(box,cent)
其中,box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比.
本实施例以Avg IoU(样本平均交并比)判断聚类效果.计算公式如下:
Figure BDA0002914028520000061
其中,k表示簇个数,nk表示某个簇中心周围的样本个数,n表示总样本数.
实验取k为1到10,依次对样本框聚类.以k为横轴,Avg IoU为纵轴,可得聚类效果如图3所示,可以看出Avg IoU随k值的增大而增大,而模型的复杂程度和计算成本与k值呈正相关,理想的模型需在具有良好的Avg IoU下保持较高的检测效率.当k=2时,曲线出现转折,并且随k值的增大,Avg IoU值的增大趋势明显变缓,综合考虑考虑网络的检测效率与精度要求,本实施例取k=4,对应的预选框为[10,29]、[15,40]、[21,55]、[30,75],此时AvgIoU达到77.93%.各预选框与本实施例图片的比例如图4所示,其中黑色框表示模型的输入图片、蓝色框表示网格,虚线框表示各预选框.
3、改进的网络结构
现有的YOLO-v3网络结构如可拆分为Backbone、Neck、Pred三部分,其网络以像素值归一化的图片作为输入,输出三个尺度的预测信息,如图1所示.其中,在Backbone部分采用Darknet53网络提取特征,输出形为[52×52×256]、[26×26×512]、[13×13×1024]的三种尺度特征图.随后在Neck部分采用FPN[8](Feature pyramid networks)进行多尺度融合,模型最终卷积输出[52×52×N]、[26×26×N]、[13×13×N]三种尺度特征图。
YOLO输出形为[S×S×N]的预测信息,表示其将图片分成S×S的网格,每个网格预测目标中心位于该网格内的情况.N=B×C,B代表该尺度下的预选框数量,C为目标的Box信息(tx,ty,tw,th,confidence,classes),其中位置预测信息与最终结果如图2所示,tx、ty表示模型输出预测框中心点的横纵坐标信息;dx、dy表示预测框中心在图片中的横纵坐标;tw、th表示模型输出预测框的宽、高信息,取指数便于梯度传导和模型收敛;dw、dh表示预测框与图片中的宽、高;σ表示sigmoid变换,将坐标压缩至0~1,可确保中心点位于该网格内;gx、gy表示该网格左上角的坐标;cw、ch表示预选框尺寸。
YOLO以目标类别置信度作为预测概率输出,公式如下:
Figure BDA0002914028520000081
其中,Pr(Class|Object)表示类别条件概率;confidence表示置信度,即Box的第五项,包括目标存在概率Pr(Object)和预测框与真实框的交并比
Figure BDA0002914028520000082
两重含义,
Figure BDA0002914028520000083
公式如下:
Figure BDA0002914028520000084
改进的网络如5(a)所示,其中包含Backbone+Neck+Pred的结构.网络中各功能模块如图11(b)所示,其中CBM/L块由2D卷积层(padding=same)、批归一化层[9](BN)、激活函数(Mish/ReLu)组成,若激活函数取Mish[10],则为CBM,若取ReLu,则为CML,x为卷积核尺寸,该模块为整个YOLO网络的基本骨架结构,在卷积层后添加BN层,可将输入参数的均值置0,方差置1,可加速模型收敛,有效防止过拟合;CBM/L2块由2个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1和3×3;CBM/L3块由3个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1、3×3和1×1;PCBM/L块由一个补零层(ZeroPadding2D)和一个CBM/L块组成,CBM/L中卷积核尺寸为3×3,padding形式为valid,该模块实现特征图下采样;CBLU块由一个CBL块和一个上采样层(Upsameling2D)组成,CBL中卷积核尺寸为1×1,该模块实现特征图上采样;CBLC块由一个CBL块和一层卷积层(padding=same)组成,CBL中卷积核尺寸为3×3,卷积层中卷积核尺寸为1×1;CBMR块为残差结构[11],其输入经CBM2块后自加,使用残差结构能加深网络深度,有效缓解梯度爆炸和消失,保证模型正常收敛,提升模型检测效果;D_BLOCK块由一个PCBM块和y个CBMR块组成。
1)Backbone
在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数.如图6所示,Mish相对于ReLU整体上更加平滑,这便于神经网络信息的传递,并且Mish允许微小的负值作为输入,模型优化时可以获得更友好的梯度;
首先,将网络输入进行一次CBM(x=3)块卷积;其次采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;最后,将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024].
2)Neck、Pred
在Neck多尺度融合部分,采用PANet[12](Path aggregation network)结构,具体操作如下.形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors.
在Pred输出部分,两种特征图经CBLC块卷积,形状变更为[52×52×N],[26×26×N],由于本实施例是单目标识别,故本实施例任务中N=2×(5+1)=12.
4、优化的损失函数
本实施例采用真实Box与预测Box相关数据的CIoU[13]误差和交叉熵作为损失函数,计算公式如下:
Loss=Ecoord+Econ
(1)Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:
Figure BDA0002914028520000101
其中,b和bgt分别表示预测框和标准框的中心点;ρ(,)表示中心点欧氏距离;c表示边界框的对角线长度;
Figure BDA0002914028520000102
表示权重函数;
Figure BDA0002914028520000103
表示长宽比的相似性.
如图7所示,黑色框、蓝色框、灰色框分别表示标准框、预测框、边界框.在标准框和预测框重合时,可以保持LossCIoU=LossDIoU=LossIoU=0,在这基础上,边界框范围c可使Loss具有尺度不变性,提高模型精度,并且在优化过程中计算两框中心点距离d,使模型具有更快的收敛速度,弥补了传统IoU方法的不足.相比于MSE方法,CIoU能更好地处理检测目标被遮挡的情况.
(2)Econ表示IoU误差,采用交叉熵计算,公式如下:
Figure BDA0002914028520000104
其中,ci表示预测目标置信度;
Figure BDA0002914028520000115
对应真实值;λnoobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算;
Figure BDA0002914028520000111
表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0;
Figure BDA0002914028520000112
取相反值.
5、模型训练
基于本实施例提出的模型优化策略,本实施例将在实验中逐个训练含有对应优化模块的网络模型,并测试对比其检测效果.
本实施例实验训练初始化模型权重,优化器为keras框架下Adam,其超参数设置如下:beta_1=0.9,beta_2=0.999,批次大小为4,训练分三阶段进行:一阶段以0.0005为初始学习率,迭代100epochs;二阶段以0.0001为初始学习率,迭代100epochs;三阶段以0.00001为初始学习率,迭代300epochs,训练过程中,若5epoches测试loss不降低,则学习率下调1%,每迭代5epochs保存一次最优模型.如图9所示,迭代100epoches后,Loss下降至0.25;迭代200epoches后,Loss下降至0.1;本实施例取迭代500batches后的模型进行实验测试.
本实施例以检测准确率P(Precision)、召回率R(Recall)及AP值作为模型评价指标,各公式如下:
Figure BDA0002914028520000113
Figure BDA0002914028520000114
AP=∫Pd(R)
其中,TP表示正检数,FP表示误检数,FN表示漏检数.
设置预测框置信度阈值起点为0.1,NSM-IoU阈值为0.5,计算对应的召回率R和准确率P,其中目标预测框与标准框的DIoU小于0.7则视为FP.模型检测AP对比如表2所示.
Figure BDA0002914028520000121
表2模型检测AP对比
根据上表可知,在基于YOLO-v3模型使用Mish激活函数后,模型的AP70、AP75、AP80分别提升了2.5、0.7、1.2;在这基础上更改PAN网络结构和输出特征图,并使用新聚类的预选框,AP70、AP75、AP80分别提升了2.8、3.7、2.5;在基于YOLO-v3模型使用CIoU计算坐标误差后,AP70、AP75、AP80分别提升了0.3、1.7、2.4.故本实施例所采取的各项改进措施在本实施例检测任务中均取得了一定的优化成果,具体效果如图10-12所示.
根据图10可知,使用Mish激活函数代替ReLu激活函数之后,预测框的准确率及检出率有所提高,间接提高了检测准确率和召回率;根据图11可知,使用PAN结构代替FPN后,融合的语义信息使预测框的定位精确程度有所提高;根据图12可知,使用CIoU计算坐标误差后,模型对邻近目标有了更好的泛化能力.
为提升模型的检测速度,本实施例简化了darknet53网络,删减特征融合中的卷积层,模型网络层数为198层,可训练参数量为427,776,824,约为YOLO-v3模型的69%.两模型测试数据对比如表3所示.AP取AP 65至AP 80的平均值.
Figure BDA0002914028520000131
表3本实施例模型与YOLO-v3模型对比
结果表明,相较于YOLO-v3模型,本实施例模型提升了3.2AP和20.8%的网络推理速度,在识别准确度和速度上均表现出更高的检测性能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于改进YOLO算法的小目标行人检测方法,其特征在于,包括以下步骤:
1)利用KITTI、INRIA数据集制作小目标行人数据集;
2)基于步骤1)获得的数据集,采用k-means算法重新聚类预选框,将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下为d(box,cent)=1-IoU(box,cent),其中box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比;
3)改进YOLO-V3模型,在Backbone特征提取网络部分使用Mish激活函数代替ReLU简化特征提取网络,在Neck多尺度融合部分,采用PANet结构进行特征融合;
4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数,使用CIoU计算坐标误差。
2.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤1)中制作小目标行人数据集包括以下步骤:
11)挑选出KITTI数据集中存在行人目标的照片共若干张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片;
12)将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片。
3.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤:
31)将网络输入进行一次CBM(x=3)块卷积;
32)采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y=1,2,4,4,2;
33)将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024]。
4.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤:
形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k=4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors。
5.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法,其特征在于,所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss=Ecoord+Econ
Ecoord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:
Figure FDA0002914028510000021
其中,b和bgt分别表示预测框和标准框的中心点;ρ(,)表示中心点欧氏距离;c表示边界框的对角线长度;
Figure FDA0002914028510000031
表示权重函数;
Figure FDA0002914028510000032
表示长宽比的相似性,
Econ表示IoU误差,采用交叉熵计算,公式如下:
Figure FDA0002914028510000033
其中,ci表示预测目标置信度;
Figure FDA0002914028510000034
对应真实值;λnoobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算;
Figure FDA0002914028510000035
表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0;
Figure FDA0002914028510000036
取相反值。
CN202110096039.8A 2021-01-25 2021-01-25 一种基于改进yolo算法的小目标行人检测方法 Active CN112766188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110096039.8A CN112766188B (zh) 2021-01-25 2021-01-25 一种基于改进yolo算法的小目标行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110096039.8A CN112766188B (zh) 2021-01-25 2021-01-25 一种基于改进yolo算法的小目标行人检测方法

Publications (2)

Publication Number Publication Date
CN112766188A true CN112766188A (zh) 2021-05-07
CN112766188B CN112766188B (zh) 2024-05-10

Family

ID=75707062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110096039.8A Active CN112766188B (zh) 2021-01-25 2021-01-25 一种基于改进yolo算法的小目标行人检测方法

Country Status (1)

Country Link
CN (1) CN112766188B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269156A (zh) * 2021-07-02 2021-08-17 昆明理工大学 一种基于多尺度特征融合的信号灯检测识别方法及系统
CN113610050A (zh) * 2021-08-26 2021-11-05 齐鲁工业大学 一种基于YOLOv5的口罩佩戴实时检测方法
CN113673326A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种基于图像深度学习的无人机平台人群计数方法及系统
CN113763356A (zh) * 2021-09-08 2021-12-07 国网江西省电力有限公司电力科学研究院 一种基于可见光与红外图像融合的目标检测方法
CN113888513A (zh) * 2021-09-30 2022-01-04 电子科技大学 一种基于深度神经网络模型的钢筋检测计数方法
CN114240885A (zh) * 2021-12-17 2022-03-25 成都信息工程大学 一种基于改进的Yolov4网络的布匹瑕疵检测方法
CN114596273A (zh) * 2022-03-02 2022-06-07 江南大学 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法
CN114998932A (zh) * 2022-06-10 2022-09-02 哈工大机器人集团股份有限公司 一种基于YOLOv4的行人检测方法及系统
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN109934121A (zh) * 2019-02-21 2019-06-25 江苏大学 一种基于YOLOv3算法的果园行人检测方法
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111832513A (zh) * 2020-07-21 2020-10-27 西安电子科技大学 基于神经网络的实时足球目标检测方法
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法
CN112257793A (zh) * 2020-10-26 2021-01-22 大连理工大学 一种基于改进YOLO v3算法的远距离交通标志检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN109934121A (zh) * 2019-02-21 2019-06-25 江苏大学 一种基于YOLOv3算法的果园行人检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
CN111832513A (zh) * 2020-07-21 2020-10-27 西安电子科技大学 基于神经网络的实时足球目标检测方法
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法
CN112257793A (zh) * 2020-10-26 2021-01-22 大连理工大学 一种基于改进YOLO v3算法的远距离交通标志检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PPRP: "我们是如何改进YOLOv3进行红外小目标检测的?", 《HTTPS://WWW.CNBLOGS.COM/PPRP/P/13644068.HTML》, 10 September 2020 (2020-09-10) *
TAO LIU 等: "Study on Visual Detection Algorithm of Sea Surface Targets Based on Improved YOLOv3", 《SENSORS》, 18 December 2020 (2020-12-18) *
YUN ZHAO 等: "A Novel Vehicle Tracking ID Switches Algorithm for Driving Recording Sensors", 《SENSORS》, 29 June 2020 (2020-06-29) *
李慕锴 等: "基于YOLOv3的红外行人小目标检测技术研究", 《红外技术》, vol. 42, no. 2, 29 February 2020 (2020-02-29) *
赵芸 等: "改进的基于跨尺度代价聚合的立体匹配算法", 《计算机集成制造系统》, vol. 26, no. 4, 30 April 2020 (2020-04-30) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269156A (zh) * 2021-07-02 2021-08-17 昆明理工大学 一种基于多尺度特征融合的信号灯检测识别方法及系统
CN113673326A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种基于图像深度学习的无人机平台人群计数方法及系统
CN113673326B (zh) * 2021-07-14 2023-08-15 南京邮电大学 一种基于图像深度学习的无人机平台人群计数方法及系统
CN113610050A (zh) * 2021-08-26 2021-11-05 齐鲁工业大学 一种基于YOLOv5的口罩佩戴实时检测方法
CN113763356A (zh) * 2021-09-08 2021-12-07 国网江西省电力有限公司电力科学研究院 一种基于可见光与红外图像融合的目标检测方法
CN113888513A (zh) * 2021-09-30 2022-01-04 电子科技大学 一种基于深度神经网络模型的钢筋检测计数方法
CN114240885A (zh) * 2021-12-17 2022-03-25 成都信息工程大学 一种基于改进的Yolov4网络的布匹瑕疵检测方法
CN114240885B (zh) * 2021-12-17 2022-08-16 成都信息工程大学 一种基于改进的Yolov4网络的布匹瑕疵检测方法
CN114596273A (zh) * 2022-03-02 2022-06-07 江南大学 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法
CN114998932A (zh) * 2022-06-10 2022-09-02 哈工大机器人集团股份有限公司 一种基于YOLOv4的行人检测方法及系统
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
CN115393892B (zh) * 2022-07-20 2023-08-04 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法

Also Published As

Publication number Publication date
CN112766188B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112766188B (zh) 一种基于改进yolo算法的小目标行人检测方法
CN109447034B (zh) 基于YOLOv3网络的自动驾驶中交通标识检测方法
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
KR102030628B1 (ko) Cnn 기반 차량 번호판 인식 방법 및 시스템
CN112329658B (zh) 一种对于yolov3网络的检测算法改进方法
CN112101221B (zh) 一种用于交通信号灯实时检测与识别的方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111428556B (zh) 一种基于胶囊神经网络的交通标志识别方法
CN113313706B (zh) 基于检测参考点偏移分析的电力设备缺陷图像检测方法
CN114037674B (zh) 一种基于语义上下文的工业缺陷图像分割检测方法及装置
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN114049572A (zh) 识别小目标的检测方法
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN112613392A (zh) 基于语义分割的车道线检测方法、装置、系统及存储介质
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN116342536A (zh) 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备
CN114550023A (zh) 一种交通目标静态信息提取装置
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant