CN111709381A

CN111709381A - 基于YOLOv3-SPP的道路环境目标检测方法

Info

Publication number: CN111709381A
Application number: CN202010564359.7A
Authority: CN
Inventors: 陈名松; 吴冉冉; 周奕捷; 李孜涵
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-09-25

Abstract

本发明公开了一种基于YOLOv3‑SPP的道路环境目标检测方法，包括如下步骤：1）构建模型；2）预处理；3）重新聚类并分配；4）训练与评估；5）检测。这种方法提高了检测效果，降低了漏检区域。

Description

基于YOLOv3-SPP的道路环境目标检测方法

技术领域

本发明涉及智能交通领域，具体是一种基于YOLOv3-SPP的道路环境目标检测方法。

背景技术

近年来，随着经济技术、汽车工业和公路技术的飞速发展，越来越多家庭开始拥有私家车，汽车在给我们带来便利交通的同时，也产生了频繁的交通事故，造成了大量的财产流失及人员死伤，为了获得一种更加安全、快速、便捷的交通方式，近年来工业界和学术界在智能车辆领域进行了广泛的探索。智能汽车通过设置在车上的多个传感器(摄像机、雷达)获得行驶环境中车辆、障碍物、交通标志等信息，由后端的决策系统根据这些感知信息进一步处理，进行决策，规划行驶路线，自动地引导汽车驾驶。

道路环境感知技术是智能车辆系统的关键技术之一，是智能车辆安全性和智能性保障。目前应用比较广泛的传感器技术包括：计算机视觉、激光雷达以及毫米波雷达，其中基于计算机视觉的环境传感器具有采集信息量大、成本低的优点，是整个环境感知系统至关重要的组成部分。在实际行车环境，存在阴天、雨雪或者树木等其他物体遮挡等多方面环境因素影响，并且由于汽车行驶过程中，速度较快，相机拍摄图像与车辆在静止时拍摄质量有很大差异，鉴于此，传统的视觉感知技术在实际应用中存在非常大的挑战。本文利用深度学习技术与图像处理技术，相比于传统算法更能应对多变、背景信息复杂的行车环境下检测问题，具有更好的抗噪性能和识别精度，为智能驾驶系统精准感知行车提供了可能，对于促进汽车产业升级换代，形成一个“安全、高效、舒适”交通系统具有非常明显的应用价值和社会意义。

发明内容

本发明的目的是针对现有技术中存在的不足，而提供一种基于YOLOv3-SPP的道路环境目标检测方法。这种方法提高了检测效果，降低了漏检区域。

实现本发明目的的技术方案是：

基于YOLOv3-SPP的道路环境目标检测方法，包括如下步骤：

1)构建模型：在YOLOv3网络中引入空间金字塔池化(Spatial Pyramid Pooling，简称SPP)模块，构建基于YOLOv3-SPP目标检测模型；

2)预处理：对BDD100K数据集预处理，即从BDD100K数据集标注文件中提取车辆、行人和交通标志这三类道路目标的标注信息，并将这三类标注信息转换为Darknet框架下支持的格式；

3)重新聚类并分配：依据BDD100K数据集中训练集图像分辨率1280x720，利用k-means++算法对步骤2)中转换为Darknet框架下支持的格式的标注信息框重新聚类，得到新的初始Anchor Box，并按照Alexey Bochkovskiy设定的Anchor Box分配规则，为YOLOv3-SPP目标检测模型中的每个检测尺度分配相应个数的Anchor Box；

4)训练与评估：将BDD100K数据集中的训练集和验证集分别输入到YOLOv3-SPP目标检测模型中进行检测模型的训练与评估；

5)检测：利用步骤4)训练后的YOLOv3-SPP目标检测模型对GTSDB数据集中的道路环境进行目标检测。

步骤1)中所述的构建基于YOLOv3-SPP目标检测模型，包括如下过程：

SPP模块由Kernel Size分别为1×1，5×5，9×9，13×13的四个并行池化层组成，将SPP模块集成在YOLOv3网络中第一个检测尺度的第5和第6个卷积之间，即完成了构建基于YOLOv3-SPP目标检测模型，用于实现不同尺度特征的融合，丰富最终特征图的表达能力，提高道路环境中目标尺度差异较大时的检测效果。

步骤2)中所述的对BDD100K数据集预处理，过程为：

从BDD100K标注文件中提取车辆、行人、交通标志这三类道路目标的标注信息，并将这三类标注信息写入以图片命名的XML文件中，在BDD100K数据集的JSON文件中目标位置是以框左上角坐标(box_xmin，box_ymin)和右下角坐标(box_xmax，box_ymax)确定的，设计代码按照以下公式将标注信息转换成Darknet框架下的格式：

x_center＝(box_xmin+box_xmax)/(2×picture_width)

y_center＝(box_ymin+box_ymax)/(2×picture_height)

width＝(box_xmax-box_xmin)/picture_width

height＝(box_ymax-box_ymin)/picture_height，

其中，(x_center,y_center)表示标注框中心点坐标，width表示标注框的宽，height表示标注框的高，转换后每个图片的TXT标注框格式变为：

将BDD100K数据集文件目录结构转化为形如PASCAL VOC数据集文件目录结构，将带有标注信息的TXT文件放入Labels文件夹，将生成XML文件放入Annotation文件夹中，BDD100K中的图片放入JPEGImages文件夹中，用于模型训练和验证图片的名字分别写入ImageSets目录下Main文件夹中train.txt和val.txt中。

步骤3)中所述的得到新的初始Anchor Box的具体过程如下：

4.1观察BDD100K数据集中训练集标注框坐标信息分布，随机选取选择k个簇中心(w_i,h_i),i∈{1,2,……,k}，其中，w_i和h_i为框的宽和高；

4.2分别计算每个标注框和每个簇中心的距离d，计算公式如下：

其中，IOU表示交并比，anchor表示锚框，truth表示标注框，计算公式如下：

其中，分子表示锚框和标注框相交的面积大小，分母表示锚框和标注框相并的面积大小，当IOU值最大时，即标注框和锚框匹配得最好，此时d最小，将标注框分别分到与之最近即d最小的簇中；

4.3重新计算k个簇中心所属的标注框宽和高的平均值，作为新的簇中心；

4.4重复步骤4.2和4.3，当聚类中心不再改变时，输出聚类结果；

4.5最后输出聚类结果：(7,11)，(14,18)，(10,33)，(25,32)，(19,77)，(45,54)，(68,99)，(113,146)，(162,237)；

4.6分别为YOLOv3-SPP目标检测模型中三个检测尺度分配2个、1个和6个AnchorBoxes，即调整YOLOv3-SPP网络结构中所有YOLO层Filter数量为N×(5+3)＝24，N为分配Anchor Box个数并将配置文件中对应MASK改为7，8；6；0，1，2，3，5，6。

步骤4)中所述的训练与评估过程如下：

5.1采用ImageNet数据集上预先训练好的模型参数darknet53.conv.74作为初始化权重以减少训练时间；

5.2设置训练超参数：网络分辨率、动量、权值衰减、Base_lr、批次、最大迭代次数、学习率调整策略，将BDD100K训练集中的图片作为训练输入，利用Darknet-53深度学习框架进行网络训练，当训练平均损失达到稳定值并且不再降低时得到基于YOLOV3-SPP的车辆、行人以及交通标志的目标检测模型；

5.3将BDD100K验证集中行车道路图片输入到基于YOLOV3-SPP的车辆、行人以及交通标志的目标检测模型中，经过网络逐层计算，将网络预测结果记录在TXT文件，通过代码，得到基于YOLOV3-SPP网络的车辆、行人以及交通标志的目标检测模型的精确率、召回率、F1值、检测速率(FPS)和P-R曲线评估指标。

步骤5)中所述的检测过程如下：

6.1调整GTSDB数据集图片分辨率为1280x720，然后输入到步骤4)训练后的YOLOv3-SPP目标检测模型中，经过32倍下采样特征提取，最终网络输出三个尺度的特征图；

6.2为每个尺度的每个网格分配2、1、6个不同Anchor Box进行检测，每个AnchorBox预测包括4个边界框偏移量、1个置信度t₀和C个检测目标类别，4个边界偏移量包括t_x，t_y，t_w，t_h，置信度定义如下：

pr(object)表示该Anchor Box中存在目标的概率，如果不包含目标，其值为0，

表示预测边界框与真实边界框(Ground Truth Box)的交并比：

每一个网格都会预测C个类别概率，pr(class_i|object)表示网格在包含目标条件下属于某个类别的概率，则预测Bounding Box属于类别i的概率表示为：

根据预测的Anchor Box相对于标注框的偏移值，得到所预测的边界框的位置信息，计算公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

σ(t_o)＝pr(object)*IOU(b,object)，

其中，σ(t_o)为预测定位框对应的置信度，σ(t_x)，σ(t_y)是t_x，t_y经过Sigmoid函数归一化值表示网格中心相对于网格左上角的横纵坐标，b_x，b_y，b_w，b_h是最终输出的边界框；

6.3针对重叠的检测框，通过NMS算法抑制置信度较低和重叠率高于设定阈值的检测边框，得到最优检测框；

6.4在道路环境图片中用矩形框框出目标位置并标注所属类别。

本技术方案的方法在YOLOv3网络中引入了SPP模块，根据训练集图像大小相应调整了网络分辨率，重新聚类初始Anchor Box，同时调整网络检测类别个数，将多类别检测分类问题转化为在行车道路场景下针对车辆、行人和交通标志三类别检测分类问题，并通过融合不同尺度特征，实现了对高密度下以及细粒度下车辆、行人和交通标志特征具有较好的检测效果，漏检区域较少。

这种方法提高了检测效果，降低了漏检区域。

附图说明

图1为实施例的流程图；

图2为实施例中YOLOv3网络的结构图；

图3为实施例中SPP模块示意图；

图4为实施例与现有模型训练时损失值-迭代次数曲线对比图；

图5为实施例与现有模型精确度-召回率即PR曲线对比图；

图6为实施例的检测结果示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

本实施例基于TensorFlow深度学习框架下完成的，硬件配置如下：Intel(R)Core(TM)i7-7800X CPU@3.50GHz 8核CPU，16G内存，显存，NVIDIA GeForce RTX 2080Ti，10GB。软件配置：Linux系统，Python 3.5。

参照图1，基于YOLOv3-SPP的道路环境目标检测方法，包括如下步骤：

1)构建模型：在YOLOv3网络中引入SPP模块，构建基于YOLOv3-SPP目标检测模型；

如图3所示，SPP模块由Kernel Size分别为1×1，5×5，9×9，13×13的四个并行池化层组成，如图2所示，将SPP模块集成在YOLOv3网络中第一个检测尺度的第5和第6个卷积之间，即完成了构建基于YOLOv3-SPP目标检测模型。

本例YOLOv3在训练深层网络难度减小条件下，通过更多连续3×3、1×1卷积层组成残差块进一步加深网络并将网络层数提高到53层，精度提升比较明显，且YOLOv3采用多个尺度融合的方式进行预测，YOLOv3将YOLOv2中跨层拼接的思想进一步加强，将神经网络浅层的特征与神经网络深层的特征进行拼接，最终采用3个尺度特征图进行检测，特征图大小分别是13×13、26×26和52×52。

本例在SPP模块前，YOLOv3网络输出大小为23×13×512的特征图，SPP模块将这个特征图分别送入不同尺度大小池化层进行下采样，得到4种尺度且大小为23×13×512的特征图，最后SPP模块将提取的多尺度的深度特征拼接得到不同尺度融合大小23×13×2048特征图。

步骤2)中所述的对BDD100K数据集预处理，过程为：

x_center＝(box_xmin+box_xmax)/(2×picture_width)

y_center＝(box_ymin+box_ymax)/(2×picture_height)

width＝(box_xmax-box_xmin)/picture_width

height＝(box_ymax-box_ymin)/picture_height，

步骤3)中所述的得到新的初始Anchor Box的具体过程如下：

步骤4)中所述的训练与评估过程如下：

5.1采用ImageNet数据集上预先训练好的模型参数darknet53.conv.74作为初始化权重；

5.2设置训练超参数：网络分辨率、动量、权值衰减、Base_lr、批次、最大迭代次数、学习率调整策略，选取BDD100K训练集中的69832张图片作为训练输入，利用Darknet-53深度学习框架进行网络训练，当训练平均损失达到稳定值并且不再降低时得到基于YOLOV3-SPP的车辆、行人以及交通标志的目标检测模型，训练超参数设置如下表1所示：

表1网络训练超参数设置表

学习率调整策略policy设置为Steps，当迭代次数为5600，6300时，学习率lr缩减10倍，设置score_thresh＝0.25，iou_thresh＝0.7，配置好训练参数后利用NVIDIAGeForce RTX 2080Ti，10GB训练网络，YOLOv3-SPP、YOLOv3和YOLOv3-tiny三组网络结构训练过程中函数损失值-迭代次数曲线对比图如图4所示；

当迭代到5000次时，YOLOv3-SPP网络的Loss值收敛到3.5左右，YOLOv3网络收敛到6左右，Tiny YOLOv3网络训练Loss值上下波动幅度较大，网络不稳定，因此，在相同学习率下，YOLOv3-SPP网络相对于YOLOv3、Tiny YOLOv3可以更快地收敛，具有更好的特征学习能力且具有更低的Loss值；

5.3将BDD100K验证集中1000张行车道路图片输入到基于YOLOV3-SPP的车辆、行人以及交通标志的目标检测模型中，经过网络逐层计算，将网络预测结果记录在TXT文件，通过代码，得到基于YOLOV3-SPP网络的车辆、行人以及交通标志的目标检测模型的精确率、召回率、F1值、检测速率(FPS)和P-R曲线评估指标；

本例为了更全面分析模型检测性能，将训练完成的YOLOv3-SPP、YOLOv3和YOLOv3-Tiny这三种模型基于BDD100K验证集1000张验证图片上进行性能评估，GPU采用RTX2080Ti，具体指标如表2所示：

表2不同模型评估指标对比

YOLOv3-SPP网络模型检测效果最好，精确度、召回率和F1值高达74.45％、71.19％和0.73，且各指标与YOLOv3网络相比分别提高了14.35％、3.87和0.14，YOLOv3-Tiny网络层次浅，结构简单各项评估指标都比较低，难以满足行车环境中背景复杂、目标尺度差异大检测需求，YOLOv3-SPP网络由于存在大量卷积运算，使得检测速率相对较慢，检测速率为26fps，目前一般摄像头录制视频的帧率为25帧～30帧，YOLOv3-SPP模型基本满足实时性需求；

接着，为了综合衡量模型检测性能，如图5所示为精确度—召回率即PR曲线图，该曲线下的面积就是平均精确率AP，AP越高，模型检测性能越好；

虚线表示YOLOv3-SPP网络PR曲线，实线表示YOLOv3网络PR曲线，由图5可知，YOLOv3-SPP平均精确率达到了70.95％，明显优于YOLOv3网络，由于BDD100K训练集中“Person”样本个数最少，在YOLOv3-SPP和YOLOv3检测模型中，“Person”检测效果都不理想，AP都比较低。

步骤5)中所述的检测过程如下：

6.1调整德国交通标志检测GTSDB数据集图片分辨率为1280x720，然后输入到步骤4)训练后的YOLOv3-SPP目标检测模型中，经过32倍下采样特征提取，最终网络输出三个尺度的特征图；

表示预测边界框与真实边界框(Ground Truth Box)的交并比：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

σ(t_o)＝pr(object)*IOU(b,object)，

检测结果如图6所示，通过观察检测结果，可以得出本例方法通过融合不同尺度特征，实现了对高密度下以及细粒度下车辆、行人和交通标志特征具有较好的检测效果，漏检区域较少。