CN111428558A

CN111428558A - 一种基于改进YOLOv3方法的车辆检测方法

Info

Publication number: CN111428558A
Application number: CN202010100452.2A
Authority: CN
Inventors: 孙浩; 葛华勇; 冯婷婷
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-07-17

Abstract

本发明涉及一种基于改进YOLOv3方法的车辆检测方法，其特征在于，包括以下步骤：采集包含各种车辆的图像数据，然后依据VOC数据集格式制作训练集、验证集和测试集；步骤2、构建改进的YOLOv3网络模型；利用训练集、验证集和测试集对改进的YOLOv3网络模型进行训练；利用训练好的改进的YOLOv3网络模型进行检测和模型评估。本发明操作简单，易于实现。并且可以同时检测到更多的目标，降低了漏检率。

Description

一种基于改进YOLOv3方法的车辆检测方法

技术领域

本发明涉及计算机视觉技术，尤其涉及一种改进YOLOv3的车辆检测追踪方法。

背景技术

随着我国城市化进程不断加快，运输需求不断增长，智能交通系统应运而生。利用计算机视觉技术，建立智能交通管理系统，通过计算机系统对摄像机记录来进行判断，实现对车辆的检测和跟踪。通过分析，判断车辆的行为，对此作出说明解释，完成日常管理，为城市道路交通提供更先进，更完善的检测方案。

近些年来，随着图像处理，卷积神经网络，机器学习等相关领域的不断发展。目标检测领域尤其是车辆检测方向，无论在学术研究还是工程应用上，都取得了巨大的进步。车辆检测方向主要有两种类型的方法：一种是一阶段的方法，代表方法是YOLO、SSD一系列算法；还有一种是二阶段的方法，代表方法是FasterR-CNN。一阶段的方法主要优势就是速度快，但是精度普遍没有二阶段的高。二阶段的方法主要优势就是精度高，但是速度没有一阶段的快。

如何在精度和速度之间取得一个平衡，如何在不过多消耗计算资源的情况下，最大限度的实现精度和速度的平衡，是一个亟待解决的问题。

发明内容

本发明的目的是：提高车辆检测模型的精度性和鲁棒性，在不较大影响最后检测速度的前提下，基本可以实现了实时的功能。

为了达到上述目的，本发明的技术方案是提供了一种基于改进YOLOv3方法的车辆检测方法，其特征在于，包括以下步骤：

步骤1、采集包含各种车辆的图像数据，然后依据VOC数据集格式制作训练集、验证集和测试集；

步骤2、构建改进的YOLOv3网络模型，对原始YOLOv3网络模型输出的8倍降采样特征图进行2倍上采样，将2倍上采样特征图与Darknet-53网络中的第二个残差块输出的4倍降采样特征图进行拼接，建立输出为4倍降采样的特征融合目标检测层，以检测小目标，同时，在YOLOv3网络模型的第二个残差块中增加2个残差单元；

步骤3、利用步骤1获得的训练集、验证集和测试集对步骤2构建的改进的YOLOv3网络模型进行训练；

步骤4、利用训练好的改进的YOLOv3网络模型进行检测和模型评估。

优选地，步骤1中，将采集到的图像数据按照3:1:1的比例划分成训练集、验证集和测试集，然后使用labelImage工具进行图像标注。

优选地，步骤3中，采用VOC20类和COCO80类数据集对Darknet-53网络进行预训练，使用低分辨率的数据集微调Darknet-53网络，然后在高分辨率下数据集上进行迭代，在训练过程中随机改变输入图像的尺寸，用多尺度输入的方式训练模型，通过损失函数对数据和真实值之间的差距进行一定规则的计算，然后经过反向传播求取梯度，进行权重更新，最终得到改进的YOLOv3网络模型。

优选地，步骤3中，所述损失函数loss设计为以下函数：

式(1)中，λ₁表示坐标预测的惩罚系数，设定取值为5，KxK表示一张输入图片划分的网格数量，

表示第i个网格的第j个目标边框是否负责检测该物体，如果负责则为1，否则为0，x_i表示真实运动目标框的中心点横坐标，x′_i表示预测运动目标框的中心点横坐标，y_i表示真实运动目标框的中心点纵坐标，y′_i表示预测运动目标框的中心点纵坐标，w_i表示真实运动目标框的宽，w′_i表示预测运动目标框的宽，h_i表示真实运动目标框的高，h′_i表示预测运动目标框的高，C′_i表示运动目标真实的置信度，C_i表示运动目标预测的置信度，λ₂表示不包含运动目标的时候置信度惩罚系数，设置为0.5，

表示第i个网格的第j个目标边框不负责该目标，如果不负责为1，否则为0，p′_i(c)表示第i个网格中运动目标属于某一类别真实的概率值，c表示某一类别，classes表示类别总体，p_i(c)表示第i个网格中运动目标属于某一类别预测的概率值，M表示每一个网格所预测的目标边框数量。

本发明操作简单，易于实现。并且可以同时检测到更多的目标，降低了漏检率。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种基于YOLOv3的车辆检测方法，具体包括如下步骤：

(1)采集包含各种车辆图像数据，然后依据VOC数据集格式制作自己的车辆数据集，包括以下步骤：

将采集到的图像按照3:1:1的比例划分成训练集，验证集和测试集。然后使用labelImage工具进行图像标注。按照VOC格式进行制作。VOC格式的数据集主要包括：Annotations文件夹，存放图片标记后生成的.xml文件；JPEGImages文件夹，存放原始图片，图片需要以000000.jpg、000001.jpg、000002.jpg这样的格式依次命名；ImageSets文件夹，里面建立一个Main文件，包含test.txt文件、train.txt文件、trainval.txt文件、val.txt文件，然后把文件名写入对应txt文件中去。

(2)构建YOLOv3网络模型并对其进行改进，包括以下步骤：

YOLOv3网络利用8倍降采样输出特征图对小目标进行检测，为了使网络获得更多小目标的特征信息，对YOLOv3输出的8倍降采样特征图进行2倍上采样，将2倍上采样特征图与Darknet53中的第二个残差块输出的4倍降采样特征图进行拼接，建立输出为4倍降采样的特征融合目标检测层，以检测小目标。同时，在原网络的第二个残差块中增加2个残差单元。

(3)用搭建好的网络结构和数据集训练模型，包括以下步骤：

先对网络进行分类预训练：主要是采用VOC20类和COCO80类数据集对Darknet-53网络进行预训练。使用低分辨率(320x320)的数据集微调Darknet-53，然后在高分辨率下(512x512)数据集上进行迭代。

在训练过程中随机改变输入图像的尺寸，用多尺度输入的方式训练模型。最小为320x320像素，最大为608x608像素。部分实验参数设置如下表所示：

参数名	参数值
		学习率(learning rate)	0.02
迭代(epoch)	80
		批量大小(batch size)	32
动量(momentum)	0.9
		权重衰减(weight_decay)	0.0005
学习率衰减步长(Ir_step)	40
		学习率衰减因子(Ir_factory)	0.1
非极大值抑制(nms)	0.5

通过损失函数对数据和真实值之间的差距进行一定规则的计算，然后经过反向传播求取梯度，进行权重更新，最终得到改进YOLOv3的检测模型。损失函数设计为以下函数：

表示第i个网格的第j个目标边框是否负责检测该物体，如果负责则为1，否则为0，x_i表示真实运动目标框的中心点横坐标，x′_i表示预测运动目标框的中心点横坐标，y_i表示真实运动目标框的中心点纵坐标，y′_i表示预测运动目标框的中心点纵坐标，w_i表示真实运动目标框的宽，w′_i表示预测运动目标框的宽，h_i表示真实运动目标框的高，h′_i表示预测运动目标框的高，C′_i表示运动目标真实的置信度，C_i表示运动目标预测的置信度，λ₂表示不包含运动目标的时候置信度惩罚系数，设置为0.5，I′_ij表示第i个网格的第j个目标边框不负责该目标，如果不负责为1，否则为0，p′_i(c)表示第i个网格中运动目标属于某一类别真实的概率值，c表示某一类别，classes表示类别总体，p_i(c)表示第i个网格中运动目标属于某一类别预测的概率值，M表示每一个网格所预测的目标边框数量。

(4)利用训练好的网络模型进行检测和模型评估。评价标准是FPS，是指由程序统计检测每张图片所需时间而得。FPS表示图片检测的速率。

Claims

1.一种基于改进YOLOv3方法的车辆检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于改进YOLOv3方法的车辆检测方法，其特征在于，步骤1中，将采集到的图像数据按照3:1:1的比例划分成训练集、验证集和测试集，然后使用labelImage工具进行图像标注。

3.如权利要求1所述的一种基于改进YOLOv3方法的车辆检测方法，其特征在于，步骤3中，采用VOC20类和COCO80类数据集对Darknet-53网络进行预训练，使用低分辨率的数据集微调Darknet-53网络，然后在高分辨率下数据集上进行迭代，在训练过程中随机改变输入图像的尺寸，用多尺度输入的方式训练模型，通过损失函数对数据和真实值之间的差距进行一定规则的计算，然后经过反向传播求取梯度，进行权重更新，最终得到改进的YOLOv3网络模型。

4.如权利要求3所述的一种基于改进YOLOv3方法的车辆检测方法，其特征在于，步骤3中，所述损失函数loss设计为以下函数：

表示第i个网格的第j个目标边框是否负责检测该物体，如果负责则为1，否则为0，x_i表示真实运动目标框的中心点横坐标，x′_i表示预测运动目标框的中心点横坐标，y_i表示真实运动目标框的中心点纵坐标，y＇_i表示预测运动目标框的中心点纵坐标，w_i表示真实运动目标框的宽，w′_i表示预测运动目标框的宽，h_i表示真实运动目标框的高，h′_i表示预测运动目标框的高，C′_i表示运动目标真实的置信度，C_i表示运动目标预测的置信度，λ₂表示不包含运动目标的时候置信度惩罚系数，设置为0.5，I′_ij表示第i个网格的第j个目标边框不负责该目标，如果不负责则为1，否则为0，p＇_i(c)表示第i个网格中运动目标属于某一类别真实的概率值，c表示某一类别，classes表示类别总体，p_i(c)表示第i个网格中运动目标属于某一类别预测的概率值。M表示每一个网格所预测的目标边框数量。