CN109816024A

CN109816024A - 一种基于多尺度特征融合与dcnn的实时车标检测方法

Info

Publication number: CN109816024A
Application number: CN201910086546.6A
Authority: CN
Inventors: 李耶; 殷光强; 候少麒; 石方炎; 李馨宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-05-28
Anticipated expiration: 2039-01-29
Also published as: CN109816024B

Abstract

本发明公开了一种基于多尺度特征融合与DCNN的实时车标检测方法，该方法包括：图片收集与筛选；数据集制作，根据深度学习标准VOC数据集格式制作车标数据集；网络设计，以YOLO框架为基础，以改进的Darknet‑20网络作为基础网络，并将不同深度的特征图进行通道融合，搭建网络模型；模型训练，利用网络模型训练车标数据集，且在模型训练时，进行参数设置、数据增强以及多尺度训练；模型测试与评估五个步骤。本发明用一种端到端的一阶段非级联结构，将车标检测作为回归问题来处理，使得改进的网络结构可以更好地适应各场景下大小车标、相似车标的检测，尤其对车标小目标的检测具有很好的鲁棒性，极大提升了车标检测的速度、查全率以及精确率。

Description

一种基于多尺度特征融合与DCNN的实时车标检测方法

技术领域

本发明涉及计算机视觉方向的目标检测技术领域，具体是指一种基于多尺度特征融合与DCNN的实时车标检测方法。

背景技术

随着世界各国经济的不断发展，私家车的种类和数量也越来越多。汽车作为一种常见的客载和运输工具，在给人们提供便利的同时，其在公路、小区、停车场等场景的有效监管亦成为一个亟待解决的问题。伴随着世界全球化、信息化发展的趋势，人工监管逐渐被智能交通系统所替代。通过先进的图像采集、处理与智能分析技术，车辆的检测(即车辆定位与识别)及其属性识别变得越来越高效、准确，使得人、车身份信息的识别和匹配呈现出新的方式。传统的车辆属性识别主要以车牌检测为主，但是车牌磨损、遮挡、易变动和受光照环境等影响成为其有效检测的绊脚石，故仅仅依靠车牌单一属性的检测已不足以精确识别车辆的真实身份，在此情况下，车标检技术的应用显得异常重要，它可以弥补车牌识别的不足，从而进一步提高智能交通系统的可靠性。目前，国内已有一些车标识别的方法，其中：

申请号CN201310251595.3，车标定位与识别方法，利用Sobel算子进行粗定位，并采用HOG算法针对车标图像提取特征值并将特征向量输入BP神经网络进行识别，然而该方法对车标定位算法要求较高，而且HOG作为人工设计的算子起表达能力有限，导致其在多分类问题中识别率不高。

申请号CN201410320906.1，基于进气格栅定位的汽车车标样本训练及识别方法，使用识别车辆进气栅的方法识别车标，使用方向梯度直方图(HOG)算法对车头进气栅部分进行特征提取并用SVM训练与分类，由于不同品牌的车可能具有相似的进气栅纹理，而同一品牌车的进气栅也有可能不同，故该方法的识别率较低。

申请号CN201510902942.3，基于主成分分析卷积神经网络的车标自动识别方法。通过主成分分析(PCA)提取特征，通过膨胀腐蚀等形态学运算对车标进行定位并通过卷积神经网络对车标进行训练与识别，但此方法只能适应少部分车标的定位，大多数车标无法准确定位。

申请号CN201710752742.3，一种基于卷积神经网络的车标定位与识别方法，利用车牌检测对车标进行粗定位，并将进气栅的车标送入卷积神经网络进行训练识别，由于此方法依赖车牌检测且不同品牌的车可能具有相似的进气栅纹理，故该方法的识别率较低。

申请号CN201710752741.9，一种融合滑动窗口与FasterR-CNN卷积神经网络的车标识别方法，通过识别车灯对车标进行粗定位，并通过Faster R-CNN对车标图像进行训练识别，此方法过程复杂且粗定位忽略了后面Faster R-CNN网络具有的自主学习能力，会导致算法的泛化能力较差，且Faster R-CNN为两阶段算法，RPN的使用导致计算量增大，难以达到实时的检测目的。

综上所述，现有车标检测存在如下缺陷：

(1)车标多为小目标，在特征提取方面具有较大难度。

(2)车标检测易受车标图片分辨率、旋转角度、饱和度、曝光度、色调等因素的影响。

(3)不同照片中车标占图片面积的大小比例不同，而卷积神经网络对比例差异较大目标检测的泛化能力较差。

(4)以往车标检测算法都对车标图片进行了预处理，忽略了神经网络对原始车标图片的自主学习能力。

(5)以上四方面原因导致车标检测的复杂性高、准确率低、查全率低、实时性差。

发明内容

本发明的目的在于提供一种基于多尺度特征融合与DCNN的实时车标检测方法，用一种端到端的一阶段非级联结构，将车标检测作为回归问题来处理，使得改进的网络结构可以更好地适应各场景下大小车标、相似车标的检测，尤其对车标小目标的检测具有很好的鲁棒性，以提升车标检测的速度、查全率以及精确率。

本发明通过下述技术方案实现：

一种基于多尺度特征融合与DCNN的实时车标检测方法，该方法包括：

步骤一：图片收集与筛选；

步骤二：数据集制作，根据深度学习标准VOC数据集格式制作车标数据集；

步骤三：网络设计，以YOLO框架为基础，以改进的Darknet-20网络作为基础网络，并将不同深度的特征图进行通道融合，搭建网络模型；

步骤四：模型训练，利用网络模型训练车标数据集，且在模型训练时，进行参数设置、数据增强以及多尺度训练；

步骤五：模型测试与评估，利用训练好的网络模型进行车标检测测试及模型评估。

进一步的为了更好的实现本发明，所述步骤一综合利用道路监控摄像和网站资源，获取实际场景下的车辆照片。网站资源包括百度图片或汽车之家网站资源或其他网络途径搜集而来的车辆照片。作为优选方案，利用Python网络爬虫技术获取网站上的车辆照片，获取效率高。

进一步的为了更好的实现本发明，对获取的车辆照片进行初级筛选，剔除非实际场景、车辆背景大、车标模糊不清的照片，并按照道路监控获取的照片与网站资源获取的照片1:1的比例对车辆照片进行收集。其中，车辆照片初级筛选的方法为人工筛选。作为优选方案，获取到的车辆照片包括轿车、卡车、客车等多种车型的22种常见种类的车辆照片。

进一步的为了更好的实现本发明，所述步骤二的具体实现过程如下：

利用LabelImg工具，根据深度学习标准VOC数据集格式制作车标数据集，并将车标数据集按5:1的比例分为训练集和测试集。

进一步的为了更好的实现本发明，所述车标数据集的具体制作方法如下：

首先新建Annotation、ImageSets以及JPEGImages三个文件夹，ImageSets文件夹中包括Main文件夹，设定车标图片目录与.xml标签文件目录(目录均为英文名)，设定车标标签名(共22个)并存入文件LabelImg-master\data\predefined_classes.txt中，将步骤一收集并筛选后的车辆照片均存入JPEGImages文件夹中。打开LabelImg工具作出标签图片样例，并将生成的.xml文件中的样本图片名称一部分存入trainval.txt中，另一部分存入test.txt文件中，将trainval.txt与test.txt文件存入Main文件夹。其中，存入trainval.txt文件中的图片名称数量与存入test.txt文件中的图片名称数量的比例为5:1。.xml文件存入Annotation文件夹中。

进一步的为了更好的实现本发明，所述步骤三的具体实现过程如下：

以YOLO框架为基础，采用端到端的设计思想，以改进的Darknet-20网络作为基础网络(即主干网络)，作为优选方案，设计的主干网路包括20个卷积层和5个最大值池化层且所有卷积核均使用3*3和1*1尺寸；在主干网络除最后一个卷积层外的其它所有卷积层后添加Batch Normalization层和leaky激活层，在主干网络最后一个卷积层后仅添加linear激活层，作为优选方案，初始图片输入尺寸固定为416*416*3，最终特征图维度是由13*13*1024(如图2中序号第24)、13*13*256(如图2中序号第26)、13*13*256(如图2中序号第28)三个支路融合组成的13*13*1536(如图2中序号第29)的特征层，特征层13*13*1536经过最后一次的卷积层变换输出相应的检测维度(含分类、定位的结果数据)13*13*N(N与样本类别数等有关)，采用多尺度特征融合的方法，将不同深度的三个支路特征图进行通道融合，既可以检测不同尺寸大小的车标图片，又可以使用细粒度特征更好地分类相似车标；本发明同时采用一阶段非级联结构设计模式，即移除全连接层，利用预测框(anchorbox)同时预测类别(分类函数为softmax)和坐标，将最终特征图划分为S*S的格子(grid cell)，每个格子预测B个边界框(bounding box)和C类判别属性，最终输出S*S*[B*(5+C)]维向量(此处S*S*[B*(5+C)]与上述网络输出13*13*N相互对应，5表示每个框的4个坐标和1个置信度，置信度为格子在包含目标情况下的IOU)，每个边界框通过对应格子的类别概率和该box置信度相乘得到该类别的置信分数，先滤掉置信分数低的boxes，再对保留的boxes进行NMS(非极大值抑制)处理，得到最终的检测结果，采用端到端的、一阶段非级联结构设计模式，可以有效降低模型的复杂度、减少计算量并提高检测精度。设真实框(ground truth)为A，预测框(anchorbox)为B，则IOU＝A∩B/A∪B。

进一步的为了更好的实现本发明，所述步骤四的具体实现过程如下：

(1)参数设置：

分别设定batch、subdivisions、momentum、decay以及初始学习率的值，batch表示批次，subdivisions表示子批次，momentum表示权重更新系数、decay表示权重衰减参数，实际训练中每次送入的样本数量为batch/subdivisions，即每个batch样本更新一次参数，将batch分割为subdivisions个子batch，能够有效减轻GPU计算压力，防止内存溢出；作为优选方案，设定batch＝32，subdivisions＝8，即实际训练中每次送入的样本数量为batch/subdivisions＝4，设定权重更新系数momentum＝0.9、权重衰减参数decay＝0.0005，调节模型复杂度对损失函数的影响，防止模型过拟合，将初始学习率设置为0.001，当网络迭代分别迭代100和50个epoch(将所有的训练样本迭代一次的样本量为一个epoch)时，将学习率相应变化为原来的0.1倍和0.01倍，以便加快网络收敛到全局最优。

(2)设定参数后，对模型进行数据增强：

(a)颜色与光照，模型进行迭代训练时，调整样本图片的饱和度、曝光度和色调，并根据设定值产生新的训练样本，使得在增加训练集的同时，可以明显提高模型对不同饱和度、曝光度和色调的车标图片的检测效果，增强模型的鲁棒性；

(b)角度旋转，模型进行迭代训练时，设定样本图片的水平或垂直方向的旋转角度，并根据设定值产生新的训练样本，使得模型可以适应多角度样本目标的检测，能更好地模拟实际场景下车辆照片的真实状态；

(c)噪声干扰，模型进行迭代训练时，给样本图片加入随机抖动噪声，并根据设定值产生新的训练样本，使得模型可以更好地应对外界环境的干扰，防止过拟合的同时又增强了模型的泛化能力。

(3)对模型进行多尺度训练：

设定每经过n批训练即n*batches，就随机选择新的图片尺寸，调整网络至相应维度后继续进行训练，作为优选方案，本发明的n设为10。

(4)利用损失函数判断模型训练情况，损失函数包含分类误差和定位误差两大模块，损失函数采用：

其中W，H分别代表特征图的宽与高，A代表先验框数目，λ代表权重系数；第一项loss是计算background的置信度误差，需要先计算各个预测框(anchorbox)和所有真实框(ground truth)的IOU值，并且取最大值Max_IOU，如果该值小于一定的阈值，作为优选方案，本发明设定阈值为0.5，即：若Max_IOU的值小于0.5，那么这个预测框(anchorbox)就标记为background，需要计算noobj的置信度误差；第二项是计算先验框与预测框的坐标误差，但是只在前12800个iterations间计算，目的是在训练前期使预测框(anchorbox)快速学习到先验框的形状；第三大项计算与某个真实框(ground truth)匹配的预测框(anchorbox)各部分loss值，包括坐标误差、置信度误差以及分类误差，以通过损失函数判断模型的准确性。设真实框(ground truth)为A，预测框(anchorbox)为B，则IOU＝A∩B/A∪B。

(5)训练结果：模型在服务器上通过反向传播降低loss值的原理进行训练，训练策略为SGD，当损失函数中loss值下降到小数点后百分位，且基本不再变化时，停止训练。

进一步的为了更好的实现本发明，所述步骤五的具体实现过程如下：

(1)模型测试

对测试集中的车辆照片进行多尺度测试，作为优选方案，以32为间隔在320*320～608*608尺寸范围内，将测试集内的所有车辆照片的尺寸随机resize初始化，并以初始化后测试集内的所有车辆照片为一组，每经过一组测试，就随机选择新的图片尺寸，以此进行多次测试，选取测试结果最好的一组尺寸值，即选取查全率(Recall)与平均精确率均值(meanAverage Precision)最大的一组，并记录测试尺寸、指标和结果。

(2)模型评估

根据测试结果，检验查全率(Recall)、平均精确率(Average Precision)、平均精确率均值(meanAverage Precision)，评估模型的预测效果。

本发明与现有技术相比，具有的有益效果为：

(1)本发明采用端到端结构，将车标检测作为回归问题来处理，不需要对数据进行任何预处理，降低模型复杂度，充分利用网络模型的自主学习能力，使特征提取更加全面有效。

(2)本发明采用一阶段非级联结构，无需滑动窗口生成候选区域，有效地减少了计算量，降低了模型复杂度。即将最终特征图(13*13)的每个cell中心预测5种不同大小和比例anchorboxes，并用anchorbox同时预测类别(分类函数为softmax)和坐标，最后运用NMS手段保留唯一的检测结果。

(3)本发明采用多尺度特征融合的方法，将不同深度的三个支路特征图进行通道融合，既可以检测不同尺寸大小的车标图片，又可以使用细粒度特征更好地分类相似车标，有效地提升查全率和精确率，使模型具有更强的泛化能力。

(4)本发明在卷积层后添加BN层，避免每层数据的输入分布不平衡，降低训练难度并增加收敛速度；全部使用卷积层，以获得更多空间信息：一方面可以对检测图片进行任意调整，另一方面，卷积层代替全连接层，在输出结果相同时可以大幅提高计算效率。

(5)本发明采用anchorbox同时预测类别和坐标，移除全连接层，以获得更多空间信息，并对特征图(13*13)的每个cell中心预测5种不同大小和比例anchorboxes，并由anchorboxes同时预测类别和坐标，最后运用NMS的手段保留唯一的检测结果。

(6)本发明在网络训练的过程中，可以自动随机调整训练样本的水平或垂直旋转角度、饱和度、曝光度、色调和噪声干扰，生成的新样本既可以增加训练集又能充分模拟真实场景，进而增强模型的鲁棒性和稳定性。

(7)本发明将batch分割为subdivisions个子batch，能够有效减轻GPU计算压力，防止内存溢出。

(8)本发明通过设置权重更新系数momentum和权重衰减参数decay，以调节模型复杂度对损失函数的影响，防止模型过拟合。

(9)本发明通过设置步进学习率策略，迭代不同次数的epochs时，调整相应的学习率，加快网络收敛。

(10)因本发明的网络只用到了卷积层和池化层(基于尺寸改变)，故可以对检测图片进行任意调整，每经过n*batches训练就会随机选择新的图片尺寸，调整网络到相应维度然后继续进行训练，这种机制使得网络可以进一步更好地预测不同尺寸的车标图片，降低漏检率和误检率；在做模型测试时，同样运用此种思想，以便达到更好的检测效果，防止漏检和误检。

(11)本发明的模型采用的语言是C语言和CUDA，在相同硬件平台和检测任务下，执行速度更快、更稳定。

附图说明

图1为本发明的流程图。

图2为本发明网络设计的结构图。

图3为本发明测试的结果图。

图4为本发明小车标检测的效果图。

图5为本发明大车标检测的效果图。

图6为本发明旋转车标检测的效果图。

图7为本发明多目标车标检测的效果图。

图8为本发明模糊车标检测的效果图。

图9为本发明在光照不足下车标检测的效果图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

如图1-9所示，本发明为了克服现有技术的缺陷，用一种端到端的一阶段非级联结构，将车标检测作为回归问题来处理，使得改进的网络结构可以更好地适应各场景下大小车标、相似车标的检测，尤其对车标小目标的检测具有很好的鲁棒性，以提升车标检测的速度、查全率以及精确率。

步骤一：图片收集与筛选；

进一步的为了更好的实现本发明，对获取的车辆照片进行初级筛选，剔除非实际场景、车辆背景大、车标模糊不清的照片，并按照道路监控与网站资源获取并筛选后的照片1:1的比例对车辆照片进行收集。其中，车辆照片初级筛选的方法为人工筛选。作为优选方案，经过初筛之后获取到的车辆照片包括轿车、卡车、客车等多种车型的22种常见种类的车辆照片共计4400张，每种种类的车辆照片为200张。

利用LabelImg工具，根据深度学习标准VOC数据集格式制作车标数据集，并将4400张车标数据集按5:1的比例分为训练集和测试集，即得到的训练集中包含3665个车标数据，测试集中包含735个车标数据。

首先新建Annotation、ImageSets以及JPEGImages三个文件夹，ImageSets文件夹中包括Main文件夹，设定车标图片目录与.xml标签文件目录(目录均为英文名)，设定车标标签名(标签名共有22个且均为英文名)并存入文件LabelImg-master\data\predefined_classes.txt中，将步骤一收集并筛选后的车辆照片均存入JPEGImages文件夹中。打开LabelImg工具作出标签图片样例，并将生成的.xml文件中的样本图片名称一部分存入trainval.txt中用于训练，另一部分存入test.txt文件中用于测试，将trainval.txt与test.txt文件存入Main文件夹。其中，存入trainval.txt文件中的图片名称数量与存入test.txt文件中的图片名称数量的比例为5:1，即trainval.txt文件中共有3665个图片名称，test.txt文件中共有735个图片名称。.xml文件存入Annotation文件夹中。

以YOLO框架为基础，采用端到端的设计思想，以改进的Darknet-20网络作为基础网络设计主干网络，作为优选方案，设计的主干网路包括20个卷积层和5个最大值池化层且所有卷积核使用3*3和1*1尺寸，在主干网络除最后一个卷积层外的其它所有卷积层后添加Batch Normalization层和leaky激活层，在主干网络最后一个卷积层后仅添加linear激活层，作为优选方案，初始图片输入尺寸固定为416*416*3，最终特征图维度是由13*13*1024(如图2中序号第24)、13*13*256(如图2中序号第26)、13*13*256(如图2中序号第28)三个支路融合组成的13*13*1536(如图2中序号第29)，特征层13*13*1536经过最后一次的卷积层变换输出相应的检测维度(含softmax分类、定位的结果数据)13*13*N(N与样本类别数等有关)，采用多尺度特征融合的方法，将不同深度的三个支路特征图进行通道融合，既可以检测不同尺寸大小的车标图片，又可以使用细粒度特征更好地分类相似车标；本发明同时采用一阶段非级联结构设计模式，即移除全连接层，利用预测框(anchorbox)同时预测类别和坐标，将最终特征图划分为S*S的格子(grid cell)，每个格子预测B个边界框(boundingbox)和C类判别属性，最终输出S*S*[B*(5+C)]维向量(此处S*S*[B*(5+C)]与上述网络输出13*13*N相互对应，5表示每个框的4个坐标和1个置信度，置信度为格子在包含目标情况下的IOU)，每个边界框通过对应格子的类别概率和该box置信度相乘得到该类别的置信分数，先滤掉置信分数低的boxes，再对保留的boxes进行NMS(非极大值抑制)处理，得到最终的检测结果，采用端到端的、一阶段非级联结构设计模式，可以有效降低模型的复杂度、减少计算量并提高检测精度。主干网络的结构如图2所示，其中，reorg代表张量维度变换操作，route代表张量合并操作即通道合并，设真实框(ground truth)为A，预测框(anchorbox)为B，则IOU＝A∩B/A∪B。

(1)参数设置：

(2)设定参数后，对模型进行数据增强：

(a)颜色与光照，模型进行迭代训练时，调整样本图片的饱和度(saturation)、曝光度(exposure)和色调(hue)，并根据设定值产生新的训练样本，使得在增加训练集的同时，可以明显提高模型对不同饱和度(saturation)、曝光度(exposure)和色调(hue)的车标图片的检测效果，增强模型的鲁棒性；

(c)噪声干扰，模型进行迭代训练时，给样本图片加入随机抖动噪声，并根据设定值产生新的训练样本，使得模型可以更好地应对外界环境的干扰，防止过拟合的同时又增强了模型的泛化能力；

(3)对模型进行多尺度训练：

本网络只用到了卷积层和池化层(基于尺寸改变)，就可以进行动态调整(检测范围内任意大小图片)。为了让网络模型对不同尺寸样本图片的具有鲁棒性，不同于固定网络输入图片尺寸的方法，设定每经过10批训练即10batches就会随机选择新的图片尺寸，因为网络使用的采样参数为32，于是图片尺寸使用32的倍数，最小的尺寸为320*320，最大的尺寸为608*608。调整网络到相应维度然后继续进行训练。这种机制使得网络可以更好地预测不同尺寸的图片，同一个网络可以进行不同分辨率的检测任务。

其中W，H分别代表特征图的宽与高，A代表先验框数目，λ代表权重系数；第一项loss是计算background的置信度误差，需要先计算各个预测框和所有ground truth的IOU值，并且取最大值Max_IOU，如果该值小于一定的阈值，作为优选方案，本发明设定的阈值为0.5，即：若Max_IOU的值小于0.5，那么这个预测框就标记为background，需要计算noobj的置信度误差；第二项是计算先验框与预测框的坐标误差，但是只在前12800个iterations间计算，目的是在训练前期使预测框快速学习到先验框的形状；第三大项计算与某个真实框匹配的预测框各部分loss值，包括坐标误差、置信度误差以及分类误差，以通过损失函数判断模型的准确性。设真实框(ground truth)为A，预测框(anchor box)为B，则IOU＝A∩B/A∪B。

(5)训练结果：模型在服务器上通过反向传播降低loss值的原理进行训练，训练策略为SGD，当迭代175个epoch(迭代约20000次)时，损失函数中loss下降到小数点后百分位，且基本不再变化，此时停止训练，表示此时已获得最优的模型。

(1)模型测试

(2)模型评估

根据模型测试结果，最好的测试照片尺寸为608*608，对应的查全率(Recall)和平均精确率均值(mAP)最大。测试集共735张车辆照片(车辆照片的各种类别均匀，照片编号从0开始)，其中速度大约为30FPS，查全率Recall＝99.73％，平均精确率均值mAP＝99.0％，具体测试结果参照图3。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：该方法包括：

步骤一：图片收集与筛选；

步骤四：模型训练，利用网络模型训练车标数据集，并在模型训练时，进行参数设置、数据增强以及多尺度训练；

2.根据权利要求1所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述步骤一综合利用道路监控摄像和网站资源，获取实际场景下的车辆照片。

3.根据权利要求1或2所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：对获取的车辆照片进行初级筛选，剔除非实际场景、车辆背景大、车标模糊不清的照片，并按照道路监控获取的照片与网站资源获取的照片1:1的比例对车辆照片进行收集。

4.根据权利要求1所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述步骤二的具体实现过程如下：

5.根据权利要求4所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述车标数据集的具体制作方法如下：

新建Annotation、ImageSets以及JPEGImages三个文件夹，ImageSets文件夹中包括Main文件夹，设定车标图片目录与.xml标签文件目录，设定车标标签名，将步骤一收集并筛选后的车辆照片均存入JPEGImages文件夹中，打开LabelImg工具作出标签图片样例，并将生成的.xml文件中的样本图片名称按5:1的比例分别存入trainval.txt与test.txt文件中，然后将trainval.txt与test.txt文件存入Main文件夹。

6.根据权利要求1所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述步骤三的具体实现过程如下：

以YOLO框架为基础，采用端到端的设计思想，以改进的Darknet-20网络作为基础网络设计主干网络，并在主干网络中除最后一个卷积层外的其他所有卷积层后添加BatchNormalization层和leaky激活层，在主干网络最后一个卷积层后添加linear激活层，同时采用一阶段非级联结构设计模式，即利用anchorbox同时预测类别和坐标，搭建出最终的网络模型，其中anchorbox表示预测框。

7.根据权利要求1所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述步骤四的具体实现过程如下：

(1)参数设置：

分别设定batch、subdivisions、momentum、decay以及初始学习率的值，batch表示批次，subdivisions表示子批次，momentum表示权重更新系数，decay表示权重衰减参数，实际训练中每次送入的样本数量为batch/subdivisions；

(2)设定参数后，对模型进行数据增强：

(a)颜色与光照，模型进行迭代训练时，调整样本图片的饱和度、曝光度和色调，并根据设定值产生新的训练样本；

(b)角度旋转，模型进行迭代训练时，设定样本图片的水平或垂直方向的旋转角度，并根据设定值产生新的训练样本；

(c)噪声干扰，模型进行迭代训练时，给样本图片加入随机抖动噪声，并根据设定值产生新的训练样本；

(3)对模型进行多尺度训练：

设定每经过n批训练即n*batches，就随机选择新的图片尺寸，调整网络至相应维度后继续进行训练；

(4)利用损失函数判断模型训练情况，损失函数包括分类误差和定位误差两大模块，损失函数采用：

其中W，H分别代表特征图的宽与高，A代表先验框数目，λ代表权重系数；

8.根据权利要求1所述的一种基于多尺度特征融合与DCNN的实时车标检测方法，其特征在于：所述步骤五的具体实现过程如下：

(1)模型测试

对测试集中的车辆照片进行多尺度测试，将测试集内的所有车辆照片的尺寸随机resize初始化，并以初始化后测试集内的所有车辆照片为一组，进行多次测试，选取测试结果最好的一组尺寸值，并记录测试指标和结果；

(2)模型评估

根据测试结果，检验查全率、平均精确率、平均精确率均值，评估模型的检测效果。