CN112766188A

CN112766188A - 一种基于改进yolo算法的小目标行人检测方法

Info

Publication number: CN112766188A
Application number: CN202110096039.8A
Authority: CN
Inventors: 徐兴; 王凯耀; 赵芸
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-07
Anticipated expiration: 2041-01-25
Also published as: CN112766188B

Abstract

本发明涉及计算机视觉技术和智能交通技术领域，公开一种基于改进YOLO算法的小目标行人检测方法，首先，利用KITTI、INRIA数据集制作小目标行人数据集；其次,基于本文数据集,采用k‑means算法重新聚类预选框；再次,基于YOLO‑V3模型,使用Mish激活函数代替ReLU,简化了特征提取网络,使用PANet结构进行特征融合；最后优化损失函数,使用CIoU计算坐标误差。本发明改进的算法比YOLO‑V3模型提升了3.2AP和20.8％的网络推理速度,在小目标行人检测任务中有一定的实用性。

Description

一种基于改进YOLO算法的小目标行人检测方法

技术领域

本发明涉及计算机视觉技术和智能交通技术领域，具体为一种基于改进YOLO算法的小目标行人检测方法。

背景技术

目前,在智能交通和智慧城市的发展中,智能驾驶技术是行业的研究热点,在驾驶过程中,智能系统需要对车辆周围环境的目标如车辆、交通标志、行人等进行检测.其中小目标行人由于像素占比低,易被遮挡等因素,在实际检测任务中,识别精度通常不高.故提高小目标行人的检测准确度并降低检测时延,是业界不断追求的目标.

CNN(convolutional neural network,卷积神经网络)作为重要的深度模型之一,其在图像处理方面,能高效地处理具有像素网格特征的图像数据.利用卷积网络进行目标检测算法有two-stage模式的Faster R-CNN[1]和one-stage模式的YOLO、SSD[2-5]等.其中,前者的识别过程分为提出候选区域和检测对象两部分,该策略检测精度高,但是速度慢；YOLO算法的分类定位一体化网络能轻松做到端到端检测,检测速度也比同类型网络出色,故常运用在在视频任务中.然而在较快的检测速度下,YOLO无法维持较高的检测精度.

在基于YOLO-V3算法的小目标识别任务中,易等[6]采用压缩的特征网络和CenterNet结构提高了小目标野兔的检测精度和速度；鞠等[7]在特征提取网络添加残差块,并在特征融合中拼接低层特征图,提高了模型对小目标识别的召回率和准确率。但是其检测精度和实时性还是不能满足实际需求，在实际的交通检测任务中,行人占据图像比例小,在阴暗环境、遮挡等情形下的识别率低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于改进YOLO算法的小目标行人检测方法，采用改进的网络结构和损失函数,实现了小目标行人的检测,与原算法相比,提高了检测精度和实时性。

(二)技术方案

为实现上述目的，本发明提供了如下技术方案：

一种基于改进YOLO算法的小目标行人检测方法，包括以下步骤：

1)利用KITTI、INRIA数据集制作小目标行人数据集；

2)基于步骤1)获得的数据集,采用k-means算法重新聚类预选框，将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下为d(box,cent)＝1-IoU(box,cent)，其中box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比；

3)改进YOLO-V3模型,在Backbone特征提取网络部分使用Mish激活函数代替ReLU简化特征提取网络,在Neck多尺度融合部分,采用PANet结构进行特征融合；

4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数,使用CIoU计算坐标误差。

进一步的，所述步骤1)中制作小目标行人数据集包括以下步骤：

11)挑选出KITTI数据集中存在行人目标的照片共若干张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片；

12)将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片。

进一步的，所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤：

31)将网络输入进行一次CBM(x＝3)块卷积；

32)采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y＝1,2,4,4,2；

33)将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024]。

进一步的，所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤：

形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k＝4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors。

进一步的，所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss＝E_coord+E_con，

E_coord表示坐标误差,中心点误差采用CIoU计算.DIoU[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:

其中,b和b^gt分别表示预测框和标准框的中心点；ρ(,)表示中心点欧氏距离；c表示边界框的对角线长度；

表示权重函数；

表示长宽比的相似性，

E_con表示IoU误差,采用交叉熵计算,公式如下:

其中,c_i表示预测目标置信度；

对应真实值；λ_noobj表示无目标预测框IOU误差的权重系数,当无目标Box的预测框与真实框IOU小于阈值时计算；

表示第i个网格的第j个预测框中的目标信息,存在目标置1,否则置0；

取相反值。

本发明的与现有技术的相比，改进的算法比YOLO-V3模型提升了3.2AP和20.8％的网络推理速度,在小目标行人检测任务中有一定的实用性。

附图说明

图1为现有的YOLO-V3网络结构图。

图2为现有的预测框机制示意图。

图3为k-means聚类效果图。

图4为预选框示意图。

图5a为改进的YOLO网络的网络结构图。

图5b为改进的YOLO网络各模块组成图

图6为激活函数比较图。

图7为DIoU示意图。

图8a为KITTI数据集中处理后的数据集示例。

8b为INRIA数据集的图片处理后的数据集示例。

图9为模型训练loss曲线图。

图10a为采用ReLu激活函数的效果图。

图10b为采用Mish激活函数的效果图。

图11a为采用FPN结构的Neck效果图。

图11b为采用PAN结构的Neck效果图。

图12a为使用MSE的Loss效果图。

图12b为使用CIoU计算坐标误差的Loss效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例模型进行深度学习训练的平台配置如下:

表1训练平台配置

本实施例深度学习数据集在开源数据集:KITTI数据集和INRIA数据集的基础上进行制作.KITTI数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,训练集包含7481张以车辆、行人等目标的车载摄像头照片.INRIA数据集中包含902张行人照片.

本发明的步骤为：

1、数据处理

本实施例需对各训练集图片进行筛选、填充、整合,具体操作为:挑选出KITTI数据集中存在行人目标的照片共1223张,并将单张图片填充灰色像素至1248×416尺寸,随后拼接三张照片,效果如图8(a)所示；将INRIA数据集的图片填充灰色像素至正方形,并缩放至416×416尺寸,随后拼接九张照片,效果如图8(b)所示.处理后的数据集中,单一行人占整幅图片面积较小,可视为小目标,满足本实施例模型的训练需求,且调整后的方形照片可避免模型输入的扭曲和失真,保证模型精度.最终数据集包含507张图片,包含4474个行人目标,本实施例将其中80％作为训练集,20％作为测试集。

2、基于数据集的先验框聚类

YOLO-v3基于COCO数据集,应用K-means算法聚类得到9个预选框,而此数据集对象种类众多,大部分预选框不适用于智能驾驶任务中行人的检测.因此为获得良好的检测效果,本实施例需要基于数据集重新聚类.K-means算法依靠距离公式聚类,本实施例将两框间的大IoU值定义为短距,即把与聚类框交并比大的样本框归为一类,公式如下:

d(box,cent)＝1-IoU(box,cent)

其中,box表示样本,cent表示簇中心,IoU(box,cent)表示样本框与聚类框的交并比.

本实施例以Avg IoU(样本平均交并比)判断聚类效果.计算公式如下:

其中,k表示簇个数,n_k表示某个簇中心周围的样本个数,n表示总样本数.

实验取k为1到10,依次对样本框聚类.以k为横轴,Avg IoU为纵轴,可得聚类效果如图3所示，可以看出Avg IoU随k值的增大而增大,而模型的复杂程度和计算成本与k值呈正相关,理想的模型需在具有良好的Avg IoU下保持较高的检测效率.当k＝2时,曲线出现转折,并且随k值的增大,Avg IoU值的增大趋势明显变缓,综合考虑考虑网络的检测效率与精度要求,本实施例取k＝4,对应的预选框为[10,29]、[15,40]、[21,55]、[30,75],此时AvgIoU达到77.93％.各预选框与本实施例图片的比例如图4所示,其中黑色框表示模型的输入图片、蓝色框表示网格,虚线框表示各预选框.

3、改进的网络结构

现有的YOLO-v3网络结构如可拆分为Backbone、Neck、Pred三部分,其网络以像素值归一化的图片作为输入,输出三个尺度的预测信息,如图1所示.其中,在Backbone部分采用Darknet53网络提取特征,输出形为[52×52×256]、[26×26×512]、[13×13×1024]的三种尺度特征图.随后在Neck部分采用FPN^[8](Feature pyramid networks)进行多尺度融合,模型最终卷积输出[52×52×N]、[26×26×N]、[13×13×N]三种尺度特征图。

YOLO输出形为[S×S×N]的预测信息,表示其将图片分成S×S的网格,每个网格预测目标中心位于该网格内的情况.N＝B×C,B代表该尺度下的预选框数量,C为目标的Box信息(t_x,t_y,t_w,t_h,confidence,classes),其中位置预测信息与最终结果如图2所示，t_x、t_y表示模型输出预测框中心点的横纵坐标信息；d_x、d_y表示预测框中心在图片中的横纵坐标；t_w、t_h表示模型输出预测框的宽、高信息,取指数便于梯度传导和模型收敛；d_w、d_h表示预测框与图片中的宽、高；σ表示sigmoid变换,将坐标压缩至0～1,可确保中心点位于该网格内；g_x、g_y表示该网格左上角的坐标；c_w、c_h表示预选框尺寸。

YOLO以目标类别置信度作为预测概率输出,公式如下:

其中,Pr(Class|Object)表示类别条件概率；confidence表示置信度,即Box的第五项,包括目标存在概率Pr(Object)和预测框与真实框的交并比

两重含义,

公式如下:

改进的网络如5(a)所示,其中包含Backbone+Neck+Pred的结构.网络中各功能模块如图11(b)所示,其中CBM/L块由2D卷积层(padding＝same)、批归一化层^[9](BN)、激活函数(Mish/ReLu)组成,若激活函数取Mish^[10],则为CBM,若取ReLu,则为CML,x为卷积核尺寸,该模块为整个YOLO网络的基本骨架结构,在卷积层后添加BN层,可将输入参数的均值置0,方差置1,可加速模型收敛,有效防止过拟合；CBM/L2块由2个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1和3×3；CBM/L3块由3个CBM/L块组成,其中卷积层的卷积核尺寸分别为1×1、3×3和1×1；PCBM/L块由一个补零层(ZeroPadding2D)和一个CBM/L块组成,CBM/L中卷积核尺寸为3×3,padding形式为valid,该模块实现特征图下采样；CBLU块由一个CBL块和一个上采样层(Upsameling2D)组成,CBL中卷积核尺寸为1×1,该模块实现特征图上采样；CBLC块由一个CBL块和一层卷积层(padding＝same)组成,CBL中卷积核尺寸为3×3,卷积层中卷积核尺寸为1×1；CBMR块为残差结构^[11],其输入经CBM2块后自加,使用残差结构能加深网络深度,有效缓解梯度爆炸和消失,保证模型正常收敛,提升模型检测效果；D_BLOCK块由一个PCBM块和y个CBMR块组成。

1)Backbone

在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数.如图6所示,Mish相对于ReLU整体上更加平滑,这便于神经网络信息的传递,并且Mish允许微小的负值作为输入,模型优化时可以获得更友好的梯度；

首先,将网络输入进行一次CBM(x＝3)块卷积；其次采用5次D_BLOCK块对输入特征进行32倍降采样,其中,D_BLOCK块中CBMR块的遍历次数y＝1,2,4,4,2；最后,将后三个D_BLOCK块的输出作为Backbone的输出特征图.若Input形状为416×416,则输出的三个特征图尺寸依次为[52×52×256]、[26×26×512]、[13×13×1024].

2)Neck、Pred

在Neck多尺度融合部分,采用PANet^[12](Path aggregation network)结构,具体操作如下.形为[13×13×1024]的特征图经CBL3块卷积,CBLU块上采样,与形为[26×26×512]的特征图拼接.拼接后的特征图进行相同操作后,经PCBL块下采样,与之前的特征图再拼接.多次特征融合可加深语义信息.为适应不同尺度的检测目标,结合聚类结果(k＝4),Neck部分输出形为[52×52×64],[26×26×128]的两种特征图,每个特征图对应两种anchors.

在Pred输出部分,两种特征图经CBLC块卷积,形状变更为[52×52×N],[26×26×N],由于本实施例是单目标识别,故本实施例任务中N＝2×(5+1)＝12.

4、优化的损失函数

本实施例采用真实Box与预测Box相关数据的CIoU^[13]误差和交叉熵作为损失函数,计算公式如下:

Loss＝E_coord+E_con

(1)E_coord表示坐标误差,中心点误差采用CIoU计算.DIoU^[13](Distance-IoU)基于IoU增加了关于预测框和标准框的惩罚项,CIoU基于DIoU增加了影响因子αν,公式如下:

表示权重函数；

表示长宽比的相似性.

如图7所示,黑色框、蓝色框、灰色框分别表示标准框、预测框、边界框.在标准框和预测框重合时,可以保持Loss_CIoU＝Loss_DIoU＝Loss_IoU＝0,在这基础上,边界框范围c可使Loss具有尺度不变性,提高模型精度,并且在优化过程中计算两框中心点距离d,使模型具有更快的收敛速度,弥补了传统IoU方法的不足.相比于MSE方法,CIoU能更好地处理检测目标被遮挡的情况.

(2)E_con表示IoU误差,采用交叉熵计算,公式如下:

其中,c_i表示预测目标置信度；

取相反值.

5、模型训练

基于本实施例提出的模型优化策略,本实施例将在实验中逐个训练含有对应优化模块的网络模型,并测试对比其检测效果.

本实施例实验训练初始化模型权重,优化器为keras框架下Adam,其超参数设置如下:beta_1＝0.9,beta_2＝0.999,批次大小为4,训练分三阶段进行:一阶段以0.0005为初始学习率,迭代100epochs；二阶段以0.0001为初始学习率,迭代100epochs；三阶段以0.00001为初始学习率,迭代300epochs,训练过程中,若5epoches测试loss不降低,则学习率下调1％,每迭代5epochs保存一次最优模型.如图9所示,迭代100epoches后,Loss下降至0.25；迭代200epoches后,Loss下降至0.1；本实施例取迭代500batches后的模型进行实验测试.

本实施例以检测准确率P(Precision)、召回率R(Recall)及AP值作为模型评价指标,各公式如下:

AP＝∫Pd(R)

其中,T_P表示正检数,F_P表示误检数,F_N表示漏检数.

设置预测框置信度阈值起点为0.1,NSM-IoU阈值为0.5,计算对应的召回率R和准确率P,其中目标预测框与标准框的DIoU小于0.7则视为F_P.模型检测AP对比如表2所示.

表2模型检测AP对比

根据上表可知,在基于YOLO-v3模型使用Mish激活函数后,模型的AP70、AP75、AP80分别提升了2.5、0.7、1.2；在这基础上更改PAN网络结构和输出特征图,并使用新聚类的预选框,AP70、AP75、AP80分别提升了2.8、3.7、2.5；在基于YOLO-v3模型使用CIoU计算坐标误差后,AP70、AP75、AP80分别提升了0.3、1.7、2.4.故本实施例所采取的各项改进措施在本实施例检测任务中均取得了一定的优化成果,具体效果如图10-12所示.

根据图10可知,使用Mish激活函数代替ReLu激活函数之后,预测框的准确率及检出率有所提高,间接提高了检测准确率和召回率；根据图11可知,使用PAN结构代替FPN后,融合的语义信息使预测框的定位精确程度有所提高；根据图12可知,使用CIoU计算坐标误差后,模型对邻近目标有了更好的泛化能力.

为提升模型的检测速度,本实施例简化了darknet53网络,删减特征融合中的卷积层,模型网络层数为198层,可训练参数量为427,776,824,约为YOLO-v3模型的69％.两模型测试数据对比如表3所示.AP取AP 65至AP 80的平均值.

表3本实施例模型与YOLO-v3模型对比

结果表明,相较于YOLO-v3模型,本实施例模型提升了3.2AP和20.8％的网络推理速度,在识别准确度和速度上均表现出更高的检测性能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于改进YOLO算法的小目标行人检测方法，其特征在于，包括以下步骤：

1)利用KITTI、INRIA数据集制作小目标行人数据集；

2.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法，其特征在于，所述步骤1)中制作小目标行人数据集包括以下步骤：

3.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法，其特征在于，所述步骤3)中在Backbone特征提取网络部分,采用Mish激活函数代替YOLO-V3中的ReLU激活函数包括如下步骤：

31)将网络输入进行一次CBM(x＝3)块卷积；

4.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法，其特征在于，所述步骤3)中在Neck多尺度融合部分,采用PANet结构进行特征融合包括如下步骤：

5.根据权利要求1所述的基于改进YOLO算法的小目标行人检测方法，其特征在于，所述步骤4)采用真实Box与预测Box相关数据的CIoU误差和交叉熵作为损失函数的公式为Loss＝E_coord+E_con，

表示权重函数；

表示长宽比的相似性，

E_con表示IoU误差,采用交叉熵计算,公式如下:

其中,c_i表示预测目标置信度；

取相反值。