CN110443208A

CN110443208A - 一种基于YOLOv2的车辆目标检测方法、系统及设备

Info

Publication number: CN110443208A
Application number: CN201910727746.5A
Authority: CN
Inventors: 刘帅; 易辉; 史家鹏; 张�杰
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-12

Abstract

本发明提供了一种用于基于YOLOv2的车辆目标检测方法，步骤包括：采集图样数据并经处理获得样本数据集；构建改进的YOLOv2模型，对YOLOv2基础模型的网络结构进行改进；采用对比归一化的思想，设计损失函数；模型训练，整个网络的训练过程分为分类网络训练和检测网络训练；模型验证，使用验证数据集对训练得到的模型进行验证，测试其识别能力。并将本算法与最近比较流行的算法进行实验对比，验证算法的有效性。本发明建立的改进型YOLOv2模型能够提高对小尺度车辆目标的识别率。在各种复杂状况下，能够检测出大部分的目标车辆，识别速度和精度方面都要高于其他常规算法。

Description

一种基于YOLOv2的车辆目标检测方法、系统及设备

技术领域

本发明涉及一种车辆目标检测方法、系统及设备，尤其针对复杂交通场景下的车辆进行识别、检测的方法。

背景技术

近年来，随着市场需求的增长以及人工智能的不断发展，自动驾驶逐步成为了各大学者研究的热点问题之一。车辆目标检测作为自动驾驶中的一个重要步骤，也是大家研究的主要问题之一。在智能交通监控视频中，目标检测技术也得到了广泛的应用，如车辆和行人的检测与定位以及收费站的自动收费系统等。目前已有应用的无人驾驶中，也是充分地利用了目标检测技术，该系统以视频和图像为研究对象，通过目标检测技术来检测、判断道路上是否有其他汽车，行人及障碍物等，同时对交通标志与信号灯进行检测判别，以此来控制车子的运行。在现实生活的交通场景中，车辆目标检测受到多种因素的干扰，如：光照、遮挡、角度等。如何快速地、准确地对复杂交通场景下的车辆进行检测、识别就成为了一个值得深入研究的课题了。

目前基于深度学习的车辆检测算法大多分为3个阶段:一是提取目标特征、二是生成候选区域、三是结果分类及边框回归。传统的基于CNN的方法进行车辆检测以及用FasterR-CNN模型进一步完成车辆检测等方法，在检测精度和检测速度方面依然不能达到实时检测车辆的要求。基于YOLO的检测算法，是一种基于回归思想的端到端的检测算法，在检测过程中可以直接从输入图像到检测输出，其省略了生成候选框这一步骤，极大的缩短了检测时间，标准YOLO模型的检测速度可以达到45f/s，但是其检测精度略低于FasterR-CNN。本发明使用YOLOv2模型，该算法是基于回归思想的端到端的检测算法，在检测过程中可以直接从输入图像到检测输出，省略了生成候选框这一步骤，极大的缩短了检测时间。在保持原有速度的同时，还可以保证较强的识别精度。但是YOLOv2模型对小目标的检测效果比较差，主要是因为图像经过卷积层、池化层的操作之后，图像变得比较小，小图像的特征就比较难提取，而这些特征对目标检测的精度影响也比较大，目标检测精度低。

发明内容

本发明的目的在于：提供一种改进的YOLOv2的算法进行车辆目标检测，可以在不同光照条件、不同行驶条件下，以及不同路况下，更加快速准确的对车辆进行识别、检测，实现对小尺度车辆目标的识别率。

为达到上述目的，本发明采用如下技术方案：

一种基于YOLOv2网络的车辆目标检测方法，包括如下步骤：

步骤1，采集图样数据并经处理获得样本数据集，将样本数据集分为训练数据集和测试数据集；

步骤2，基于YOLOv2模型搭建改进后的YOLOv2模型的网络结构，实现多尺度输入，改变网络结构图层的输出尺寸；

步骤3，基于对比归一化方法，建立YOLOv2模型的网络结构的损失函数；

步骤4，基于损失函数和驯良数据集，对YOLOv2模型进行训练，获得训练后YOLOv2网络结构模型；YOLOv2网络结构模型训练包括分类网络训练和检测网络训练；

步骤5，基于测试数据集对训练后YOLOv2网络结构模型进行验证，测试识别能力。

步骤2，基于YOLO V2模型搭建改进后的YOLOv2模型的网络结构具体包括以下步骤：

S201，将Darknet-19网络作为YOLOv2改进模型的特征提取前端网络；

S202，改进后的YOLOv2模型的网络结构包括卷积层、最大池化层、金字塔池化层和特征输出层；改进后的YOLOv2模型的网络结构包括19个卷积层和5个最大池化层；

S203，利用固定框(anchor boxes)来预测目标框(bounding boxes)；

基于RPN网络(区域候选网络)的先验框(anchor boxes)策略对卷积神经网络(CNN)特征提取器得到的特征图(feature map)，进行卷积来预测每个位置的边界框以及置信度(是否含有物体)；利用k-means聚类算法对样本数据集中的真实目标边框进行聚类分析，选择anchor(格子或者锚点)的大小和数量。

S204，通过直通层重组高层低分辨率特征图与低层高分辨率的特征图。

基于改进后的YOLOv2模型实现多尺度输入，改变网络结构图层的输出尺寸具体包括以下步骤：

输入样本数据集待识别的图片，经过卷积层进行特征提取，卷积层使用3*3的卷积核，得到特征图；特征图经过2*2的最大池化层处理之后，特征图维度降低2倍同时将特征图的深度增加两倍；在3*3卷积层之间，Darknet-19网络使用1*1卷积来压缩特征图以降低模型计算量；将最后一层卷积层的输出作为金字塔池化层的输入，基于金字塔池化层保证网络输出的网格数是固定的，实现多尺度输入。

步骤3具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

其中，coordError、iouError和classError分别表示坐标定位误差、IOU误差和分类误差；

i表示第i个格子(锚点)，s表示特征层的宽度；

将类概率和边框的误差加权为尺度因子λ，损失函数中采用对比归一化，损失函数如公式(2)所示：

c为confidence(置信度)，(x_i,y_i)表示第i格子的边界框的相应的x轴和y轴坐标，(w_i,h_i)是指第i格子的边界框的宽度和高度，p_i为第i格子中与groundtruth重合度最大框；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

B表示每个网格中边界框的数量；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框；

其中λcoord为定位误差权重，设置λcoord＝5，λnoobj为分类误差权重，λnoobj＝0.5；I_i ^obj为目标落入格子i中，I_ij ^obj为目标落入格子i的第j个边界框中；I_ij ^noobj为目标未落入格子i的第j个边界框内。

步骤4具体包括：

分类网络训练具体包括以下步骤：

在分类的训练过程中，采用小批量梯度下降法MSGD(Mini-batch GradientDescent Scheme)来更新YOLOv2模型网络模型，直到损失函数收敛；

检测网络训练基于多尺度输入的方法，每训练n个批次(batch)之后，改变YOLOv2模型的输入尺寸继续训练，以此来增强YOLOv2模型对不同分辨率图像的有效性。

一种基于YOLOv2网络的车辆目标检测系统，包括数据采集单元、模型搭建单元、损失函数建立单元、模型训练单元和验证单元；

数据采集单元采集图样数据并经处理获得样本数据集，将样本数据集分为训练数据集和测试数据集；

模型搭建单元基于YOLOv2模型搭建改进后的YOLOv2模型的网络结构，实现多尺度输入，改变网络结构图层的输出尺寸；

损失函数建立单元基于对比归一化方法，建立YOLOv2模型的网络结构的损失函数；

模型训练单元基于损失函数和驯良数据集，对YOLOv2模型进行训练，获得训练后YOLOv2网络结构模型；YOLOv2网络结构模型训练包括分类网络训练和检测网络训练；

验证单元基于测试数据集对训练后YOLOv2网络结构模型进行验证，测试识别能力。

模型搭建单元基于YOLO V2模型搭建改进后的YOLOv2模型的网络结构具体包括以下步骤：

S203，利用固定框(anchor boxes)来预测目标框(bounding boxes)；

基于RPN网络(区域候选网络)的先验框(anchor boxes)策略对CNN特征提取器得到的特征图(feature map)，进行卷积来预测每个位置的边界框以及置信度(是否含有物体)；利用k-means聚类算法对样本数据集中的真实目标边框进行聚类分析，选择anchor(格子)的大小和数量。

S204，通过直通层重组高层低分辨率特征图与低层高分辨率的特征图；

基于改进后的YOLOv2模型实现多尺度输入，改变网络结构图层的输出尺寸具体包括以下步骤：输入样本数据集待识别的图片，经过卷积层进行特征提取，卷积层使用3*3的卷积核，得到特征图；特征图经过2*2的最大池化层处理之后，特征图维度降低2倍同时将特征图的深度增加两倍；在3*3卷积层之间，Darknet-19网络使用1*1卷积来压缩特征图以降低模型计算量；将最后一层卷积层的输出作为金字塔池化层的输入，基于金字塔池化层保证网络输出的网格数是固定的，实现多尺度输入。

未改进之前的网络最后十层的尺寸都是13×13的大小，根据图4改进之后，其中有5层图像的尺寸变成了26×26的大小，大尺寸的图像中具有很多的像素点，也就可以更好的表达图像的特征，小目标图像的特征也就更容易获取了。

损失函数建立单元工作过程具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

i表示第i个格子，s表示特征层的宽度；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

B表示每个网格中边界框的数量；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框

其中λcoord为定位误差权重，设置λcoord＝5，λnoobj为分类误差权重，λnoobj＝0.5；I_i ^obj为目标落入格子i中，I_ij ^obj为目标落入格子i的第j个边界框中；I_ij ^noobj为目标未落入格子i的第j个边界框内；

模型训练单元对YOLOv2模型进行训练具体包分类网络训练和检测网络训练；

分类网络训练具体包括以下步骤：

一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行一种用于基于YOLOv2的车辆目标检测方法的指令。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行一种用于基于YOLOv2的车辆目标检测方法。

本发明公开一种用于基于YOLOv2的车辆目标检测方法，首先在网络结构上改变不同图层的输出尺寸，可以从多像素图像上提取更多目标特征；

本发明对YOLOv2基础模型网络结构的改进包括:(1)将最后一层池改为金字塔池化层(SPP)；(2)改变网络中多个图层的输出尺寸。(3)增加一个单层的金字塔池化层，使目标图像可以保存原始信息；最后是优化损失函数等操作可以提高小目标检测精度和速度。因此本发明相较于基本YOLOv2模型可以提高对小尺度车辆目标的识别率，在各种复杂状况下，能够检测出的目标车辆，识别速度和精度方面都要高于其他现有算法。

本发明能够在不同光照条件、不同行驶条件下还有不同路况下，快速准确的检测出大部分的目标车辆，尤其是小尺寸的车辆也能较为准确的检测出来。另外，相比FasterR-CNN算法而言，本发明改进的算法虽在精度上与之相差不多，但在速度上却比之快很多。

附图说明

图1为本发明的一种用于基于YOLOv2的车辆目标检测方法流程图；

图2为增加了直通层的YOLOv2模型网络结构图；

图3为改进后的YOLOv2模型网络结构图；

图4为添加金字塔池化层的模型网络结构图；

图5为改变网络中多个图层的输出尺寸的模型网络结构图；

图6为车辆检测实验结果图。

具体实施方式

下面参照附图，对本方法的应用进行详细描述。

本发明解决现有的技术问题通过以下技术方案进行实现：

如图1所示，本发明公开一种基于YOLOv2网络的车辆目标检测方法，包括如下步骤：

步骤1，采集图样数据并经处理获得样本数据集；本实验数据集是从汽车行车记录仪拍摄视频中提取的，包含了大量的车辆目标；将样本数据集分为训练数据集和测试数据集，共8000张训练集图片，包含车辆目标35000多个；测试集图片2000张，包含9900多个车辆目标；

步骤5，模型验证，使用测试数据集对训练得到的模型进行验证，测试识别能力。

步骤1具体包括以下步骤：采集不同光照条件下、不同路况下的车辆图像；为了验证本发明方法的有效性，选择在LVSH(Large Scale Variance Highway)数据集上进行实验，该数据集内含大量小尺寸目标车辆图像，正适合验证本发明改进的算法模型。

LVSH是建立好的一个车辆图片数据集。从这个数据集中选择图片，再用模型去检测图片中是否有车辆。

YOLOv2基础模型利用固定框(anchor boxes)来预测目标框(bounding boxes)，其次利用k-means聚类算法对数据集中的真实目标边框进行聚类分析，自动地选择适合该方法的anchor的大小和数量。

如图2所示，YOLOv2模型还增加了一个直通层(passthrough layer)来重组高层低分辨率特征图与低层高分辨率的特征图。

如图3和4所示对YOLOv2基础模型网络结构的改进包括以下两个方面:(1)将最后一层池改为金字塔池化层(SPP)。(2)改变网络中多个图层的输出尺寸。本实施例使用Darknet-19中初始化的权重，因此网络的改进从20层开始的，使用第17层的输出作为第20的输入，图像大小为26×26，也就是改进后图像大小为之前的13×13输出的2倍。

YOLO(You only look once)是基于深度学习的端到端的目标检测算法。与大部分目标检测与识别方法将目标识别任务分类目标区域预测和类别预测等多个流程不同，YOLO将目标区域预测和目标类别预测整合于单个神经网络模型中，实现在准确率较高的情况下实时快速目标检测与识别。

YOLOv2模型引入BN(batchnormalization)(批量标准化)提升模型收敛速度，而且可以起到一定正则化效果，降低模型的过拟合。

YOLOv2模型基于Faster R-CNN中RPN网络(区域候选网络)的先验框(anchorboxes)策略。RPN对CNN特征提取器得到的特征图(feature map)进行卷积来预测每个位置的边界框以及置信度(是否含有物体)，并且各个位置设置不同尺度和比例的先验框，所以RPN预测的是边界框相对于先验框的offsets值。所以YOLOv2移除了YOLOv1中的全连接层而采用了卷积和anchor boxes来预测边界框。在检测模型中，与其它网络略不同的是Yolo v2特意选了416x416的图形尺寸作为输入，这样经过前端的数个特征提取卷积层与pool层(池化层)后(步长为32)，最终的特征图大小为13x13，恰是个奇数。这样它就可以有效地预测最中心位置的目标。

Darknet-19作为改进后的YOLOV2模型的特征提取前端网络；darknet-19包括19个Conv层与5个maxpooling层；用于稳定训练，加快收敛，同时防止模型过拟合。

改进后的YOLOv2模型网络结构如图2所示，改进后的YOLOV2模型实现多尺度输入，之前Yolo v1的固定图片输入大小为448x448，而Yolo v2因为Anchor box的引入从而将输入变为了416x416。进一步为了使得模型能够对各种尺度的图片进行有效检测，作者在训练Yolo v2时不再固定image size。

YOLO V2模型引入BN(batchnormalization)(批量标准化)提升模型收敛速度；

如图2所示，YOLOv2基础模型中添加金字塔池化层(SPP)，建改进后的YOLOv2模型的网络结构包括Conv layer(卷积层13层)、Maxpool layer(最大池化层4层)、Conv layer(卷积层7层)、金字塔池化层(SPP)、Conv layer(卷积层2层)和特征输出层。

本实施例基于改进后的YOLOv2模型实现多尺度输入，改变网络结构图层的输出尺寸具体包括以下步骤：输入样本数据集待识别的图片，经过卷积层进行特征提取，卷积层使用3*3的卷积核，得到特征图；特征图经过2*2的最大池化层处理之后，特征图维度降低2倍同时将特征图的深度增加两倍；在3*3卷积层之间，Darknet-19网络使用1*1卷积来压缩特征图以降低模型计算量；将最后一层卷积层的输出作为金字塔池化层的输入，利用金字塔池化层保证网络输出的网格数是固定的，实现真正意义上的多尺度输入。

YOLOv2模型的网络结构包括卷积层、最大池化层和金字塔池化层：(1)增加金字塔池化层(SPP)：SPP层的输入为a×a，输出大小为n×n，则将窗口大小为ceil(a/n)，阶跃的大小为floor(a/n)；不仅实现对原始图像进行随机下采样，而且可以保证网络输出的网格数是固定的，实现真正意义上的多尺度输入。(2)改变网络中多个图层的输出尺寸。因为YOLOv2模型对小目标的检测效果比较差，所以扩大了网络中图像的输出尺寸可以提高目标检测的尺寸；本申请使用Darknet-19中初始化参数，因此网络的改进从20层开始的，使用第17层的输出作为第20的输入，图像大小为26×26，也就是改进后图像大小为之前的13×13输出的2倍。

S203，利用固定框(anchor boxes)来预测目标框(bounding boxes)；

S204，通过直通层(附图2中toute)重组高层低分辨率特征图与低层高分辨率的特征图。

.直通层并不是一个专用的层结构，它是在卷积层中优化的部分，将第13层卷积和第20层卷积的特征图连接起来作为第二十一层的输入。改进后的结构后面有附图。

步骤3具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

coordError、iouError和classError分别表示坐标定位误差、IOU误差和分类误差；

i表示第i个格子，s表示特征层的宽度；

将类概率和边框的误差加权为尺度因子λ，同时为了使大边框的补偿更小，采用边界框宽和高各子的平方根。但是该方法不适合用于训练数据中未包含扩展对象或长宽比不平衡的扩展对象。因为每幅图像中目标物体的都有大小不等的情况，在训练中这些尺寸的边框丢失情况对整个网络的影响也不同。因此，损失函数中采用对比归一化的思想，就是考虑到图像中目标物体大小不一的情况；损失函数如公式(2)所示：

c为confidence(置信度)，(x_i,y_i)表示第i格子的边界框的相应的x轴和y轴坐标，(w_i,h_i)是指第i格子的边界框的宽度和高度，

p_i为第i格子中与groundtruth重合度最大框；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

B表示每个网格中边界框的数量；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框

B表示每个网格中bouding box的数量；将一幅图像分成S×S个网络(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object(5×B+C)。(B表示每个网格中bouding box的数量，C表示object的种类)每个bounding box(边界框)要预测(x,y,w,h)和confidence(置信度)共5个值。e.g.图像输入为448x448，取S＝7，B＝2，一共有20个类别(C＝20)。则输出就是7x7x30。

c(i)表示第i个格子的置信度，

步骤4具体包括：

分类网络训练具体包括以下步骤：

在分类的训练过程中，采用小批量梯度下降法MSGD(Mini-batch GradientDescent Scheme)来更新YOLOv2模型网络模型，直到损失函数收敛，并结合冲量(动量)使训练收敛速度更快且收敛性较好。冲量，也叫动量，加入这个成分可以在梯度下降过程中达到加快收敛速度、抑制震荡发生的作用；

检测网络训练基于多尺度输入的方法，每训练10个批次(batch)之后，改变YOLOv2模型的输入尺寸继续训练，以此来增强YOLOv2模型对不同分辨率图像的有效性。

首先将一个输入图像划分为13×13的网格，总共输出13×13(2×5+1)＝1859个目标窗口进行目标预测其边框信息。预测目标物是车辆的条件概率为Pr(car|object)，则预测物为车辆的置信度为Conf(car)＝Pr(car|object)×Pr(object)×IOU，当Conf(car)大于阈值0.24时，则输出车辆边界框；再经过NMS去除冗余窗口，定位车辆位置。检测示意图如图5所示。

步骤6中，本实施例能够在不同光照条件、不同行驶条件下以及不同路况下，快速准确的检测出大部分的目标车辆。小尺寸的车辆也能较为准确的检测出来。另外，相比于Faster R-CNN算法而言，本发明改进的算法虽在精度上与之差不多，但在速度上却比之快很多。

步骤5使用测试数据集验证模型的过程；取测试数据集中的图片，使用模型，可以检测出图片中的车辆。

S203，利用固定框(anchor boxes)来预测目标框(bounding boxes)；

S204，通过直通层(附图2中toute)重组高层低分辨率特征图与低层高分辨率的特征图；

模型搭建单元基于改进后的YOLOv2模型实现多尺度输入，改变网络结构图层的输出尺寸具体包括以下步骤：

损失函数建立单元工作过程具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

i表示第i个格子，s表示特征层的宽度；

p_i为第i格子中与groundtruth重合度最大框；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框B表示每个网格中bouding box(边界框)的数量；

分类网络训练具体包括以下步骤：

在分类的训练过程中，采用小批量梯度下降法MSGD(Mini-batch GradientDescentScheme)来更新YOLOv2模型网络模型，直到损失函数收敛；

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于YOLOv2网络的车辆目标检测方法，其特征包括如下步骤：

步骤2，基于YOLOv2模型搭建改进后的YOLOv2模型的网络结构，实现多尺度输入，改变网络结构中图层的输出尺寸；

步骤4，基于损失函数，对YOLOv2模型进行训练，获得训练后YOLOv2网络结构模型；YOLOv2网络结构模型训练包括分类网络训练和检测网络训练；

2.根据权利要求1所述的基于YOLOv2的车辆目标检测方法，其特征在于，

S203，利用固定框预测目标框；

基于区域候选网络的先验框策略对卷积神经网络特征提取器得到的特征图，进行卷积预测每个位置的边界框以及置信度；利用k-means聚类算法对样本数据集中的真实目标边框进行聚类分析，选择格子的大小和数量；

3.根据权利要求1所述的基于YOLOv2的车辆目标检测方法，其特征在于，

4.根据权利要求1所述的基于YOLOv2的车辆目标检测方法，其特征在于，

步骤3具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

i表示第i个格子，s表示特征层的宽度；

c为置信度，(x_i,y_i)表示第i格子的边界框的相应的x轴和y轴坐标，(w_i,h_i)是指第i格子的边界框的宽度和高度，p_i为第i格子中与groundtruth重合度最大框；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

B表示每个网格中边界框的数量；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框其中λcoord为定位误差权重，设置λcoord＝5，λnoobj为分类误差权重，λnoobj＝0.5；I_i ^obj为目标落入格子i中，I_ij ^obj为目标落入格子i的第j个边界框中；I_ij ^noobj为目标未落入格子i的第j个边界框内。

5.根据权利要求1所述的基于YOLOv2的车辆目标检测方法，其特征在于，

步骤4具体包括：

分类网络训练具体包括以下步骤：

在分类的训练过程中，采用小批量梯度下降法更新YOLOv2模型网络模型，直到损失函数收敛；

检测网络训练基于多尺度输入的方法，每训练n个批次后，改变YOLOv2模型的输入尺寸继续训练。

6.一种基于YOLOv2网络的车辆目标检测系统，其特征包括数据采集单元、模型搭建单元、损失函数建立单元、模型训练单元和验证单元；

模型搭建单元基于YOLOv2模型搭建改进后的YOLOv2模型的网络结构，实现多尺度输入，改变网络结构中图层的输出尺寸；

7.根据权利要求6所述的基于YOLOv2的车辆目标检测方法，其特征在于，

S203，利用固定框来预测目标框；

基于区域候选网络的先验框策略对卷积神经网络特征提取器得到的特征图，进行卷积来预测每个位置的边界框以及置信度；利用k-means聚类算法对样本数据集中的真实目标边框进行聚类分析，选择格子的大小和数量；

模型搭建单元基于改进后的YOLOv2模型实现多尺度输入，改变网络结构图层的输出尺寸具体包括以下步骤：输入样本数据集待识别的图片，经过卷积层进行特征提取，卷积层使用3*3的卷积核，得到特征图；特征图经过2*2的最大池化层处理之后，特征图维度降低2倍同时将特征图的深度增加两倍；在3*3卷积层之间，Darknet-19网络使用1*1卷积来压缩特征图以降低模型计算量；将最后一层卷积层的输出作为金字塔池化层的输入，基于金字塔池化层保证网络输出的网格数是固定的，实现多尺度输入。

8.根据权利要求6所述的基于YOLOv2的车辆目标检测系统，其特征在于，

损失函数建立单元工作过程具体包括以下步骤：

改进后的YOLOv2模型的损失函数为；

i表示第i个格子，s表示特征层的宽度；

x_i,y_i,w_i,h_i,c,p_i为对应参数的网络预测值；

为对应参数的标准值；

B表示每个网格中边界框的数量；

c(i)表示第i个格子的置信度，

p_i(c)表示置信度c时，第i格子中与groundtruth重合度最大框；

分类网络训练具体包括以下步骤：

9.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至5所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至5所述的方法中的任一方法。