CN107871126A

CN107871126A - 基于深层神经网络的车型识别方法和系统

Info

Publication number: CN107871126A
Application number: CN201711175692.3A
Authority: CN
Inventors: 王龙; 赵青
Original assignee: XI'AN XIANGXUN TECHNOLOGY Co Ltd
Current assignee: XI'AN XIANGXUN TECHNOLOGY Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-03

Abstract

为了提高车辆定位的效率以满足车型识别的实时性要求，本发明提供一种基于深层神经网络的车型识别方法和系统。将候选目标提取和目标识别集成入一个网络，采用端到端的检测/识别方法，将特征提取、目标定位和目标检测集成到一个网络。目标的提取不再从原始图像中提取，而是采用基准点加多尺寸覆盖的方式从尺寸极小的高维特征图中提取，同时在特征提取层采用共享深层卷积网络参数的方式实现，避免了特征的重复计算，大幅提高了识别效率，在实际中达到了20fps，单台服务器处理效率达到200万张/天的效果，满足对车型进行实时识别的需求。

Description

基于深层神经网络的车型识别方法和系统

技术领域

本发明属于智能交通领域，涉及一种基于深层神经网络的车型识别方法和系统。

背景技术

一直以来，视频分析技术尤其是车牌识别技术有力地推动着智慧交通，平安城市等各个领域的快速发展，为城市管理者进行车辆快速检索，轨迹追踪，预警拦截和综合判断提供了有力的技术支撑。然而车牌识别技术存在以下缺点：

1、车辆检索的效率和完整性不能满足要求。尤其是在案件侦破中，由于受到目标过小，光线多变，场景制约等客观因素，以及套牌、假牌以及车牌的污损/遮挡/缺失等人为因素的干扰，使得基于车牌信息的检索方式往往并不能在第一时间快速锁定目标车辆，致使办案人员失去最佳的破案时机，对案件侦破带来很大难度。

2、缺乏对车辆型号进行实时识别的有效方案。超大信息量的交通数据对系统的性能提出很高的要求，现有的算法缺乏有效的端到端的识别方案，为达到识别精度要求，往往需要更高配置的硬件，增加了系统的部署成本。

基于视频分析的车型识别技术能够很好地弥补车牌识别技术的不足，由于场景内目标尺寸较大，特征明显，容易形成有效证据，再结合车牌进行条件组合，可大大缩短通行车辆信息的提取时间，为查找/拦截/布控涉案车辆节省宝贵时间。

在实际场景中，车型识别技术主要分为两部分：车辆定位技术和车辆识别技术。其中车辆定位技术是目前车型识别技术所面临的主要性能瓶颈，主要体现在以下几个方面：

1、背景建模和运动目标检测：运算量大，光照鲁棒性差，夜间由于光线太暗，很难建立有效的背景。

2、滑动窗口遍历法：需要原始图像的金字塔式缩放，且在相邻的滑动窗口之间存在大量图像区域特征的重复计算，耗时非常严重，难以做到实时性。

3、图像分割：用图像分割算法对目标区域进行分割后再将分割出的区域送入分类器进行识别，分割后目标数量太大，重复区域多，仍不能很好地满足实时性。

发明内容

为了提高车辆定位的效率以满足车型识别的实时性要求，本发明提供一种基于深层神经网络的的车型识别方法和系统。

本发明的技术解决方案是：

基于深层神经网络的车型识别方法，包括以下步骤：

1】构建车辆样本集

卡口抓拍不同品牌、不同类型、不同款式的车辆图像，构建车辆样本集，样本数应满足深层神经网络训练对样本的数量要求；

2】样本预处理

2.1)样本扩充

2.1.1)通过缩放处理，将样本图像整体缩放为不小于512*384大小，缩放后图像应包含缩放前图像中的完整车辆信息；

2.1.2)将缩放后图像均绕y轴进行反转，另存作为新样本加入步骤1)所构建的车辆样本集中，得到扩充后样本集；

2.2)样本标注

标记每张样本图像中车辆在样本图像中的左上角坐标(x,y)、高度h和宽度w，以及车辆所属车型的编号i，生成样本标注文件；所述h和w均为像素点数；

2.3)样本集交叉验证：

2.3.1)将所述扩充后样本集随机分为N个子样本集，每个子样本集中有M个样本；所述N≥10；M＝扩充后样本集中总样本数/N；

2.3.2)轮流抽取S个子样本集作为训练集，其余N-S个子样本集作为测试集，通过样本训练进行分类效果判断；所述1≤S≤9；所述分类效果是通过对测试集的检测率、误判率综合判断确定；

2.3.3)将分类效果最好的一组测试集作为最终模型；所述最终模型用于在样本训练完成后对实际场景中的车辆进行识别；

3】建立预训练模型

采用深层卷积神经网络对所述扩充后样本集中的样本原始图像和样本标注文件进行处理，生成预训练模型；

4】将步骤3】生成的预训练模型分为两部分，分别送入共享所述深层卷积神经网络中卷积层CONV的候选目标区域生成网络和目标快速识别网络；

5】采用交替训练的方式，通过候选目标区域生成网络获取经深层卷积神经网络处理后的样本图像中所有可能存在车辆目标的位置，即候选目标区域；通过所述目标快速识别网络对所述候选目标区域进行识别和归类；若总的损失值大于等于规定值，则继续交替训练；若总的损失值小于规定值，则交替训练结束，输出候选目标区域得分和坐标；

6】将获取的候选目标区域按得分高低排序，将得分前300个候选目标区域的坐标送入目标快速识别网络；

7】目标快速识别网络根据所述候选目标区域的坐标值，按照坐标映射方式，在步骤3】所生成的预训练模型中寻找对应的区域特征，并将找到的区域特征送入目标快速识别网络中的目标快速识别全连接层，经运算后输入目标识别，同时将所寻找到的区域特征映射回所述样本原始图像并输出，完成车型实时识别。

进一步地，上述步骤1】中所述车辆图像为彩色图像，分辨率至少为2048*1536，像素至少为300万。

进一步地，上述步骤2.3)中N＝10，S＝9，M≥200000，i取值范围为1-2234。

进一步地，上述步骤3】是采用13层卷积神经网络对所述扩充后样本集中的样本原始图像和样本标注文件进行处理的，具体为：

3.1】定义扩充后样本集中的样本图像为样本原始图像，将样本原始图像输入卷积1层进行处理，卷积1层将原始图像的R、G、B 3通道变成64通道，每个通道为224*224的特征图，最终输出512*384*64维特征；所述卷积1层包括64个卷积核，每个卷积核的深度为3，每个卷积核尺寸为3*3，核参数进行高斯随机初始化，分布于0～1之间；

3.2】将卷积1层的输出输入卷积2层，卷积2层输出512*384*64维特征；所述卷积2层包括64个卷积核，每个卷积核的深度为64；

3.3】将卷积2层的输出输入激励1层，激励1层输出512*384*64维特征；所述激励1层采用RELU激励函数；

3.4】将激励1层的输出输入池化1层，池化1层将激励1层输出的特征图切成2*2的小块，将每个小块内的最大特征值作为该小块的输出特征，最终输出256*192*64维特征；

3.5】将池化1层的输出输入卷积3层，卷积3层输出256*192*128维特征；所述卷积3层包括128个卷积核，每个卷积核的深度为64；

3.6】将卷积3层的输出输入卷积4层，卷积4层输出256*192*128维特征；所述卷积4层包括128个卷积核，每个卷积核的深度为128；

3.7】将卷积4层的输出输入激励2层，激励2层输出256*192*128维特征；所述激励2层的处理过程与所述激励1层相同；

3.8】将激励2层的输出输入池化2层，池化2层输出128*96*128维特征；所述池化2层的处理过程与所述池化1层相同；

3.9】将池化2层的输出输入卷积5层，卷积5层输出128*96*256维特征；所述卷积5层包括256个卷积核，每个卷积核的深度为128；

3.10】将卷积5层的输出输入卷积6层，卷积6层输出128*96*256维特征；所述卷积6层包括256个卷积核，每个卷积核的深度为256；

3.11】将卷积6层的输出输入卷积7层，卷积7层输出128*96*256维特征；所述卷积7层包括256个卷积核，每个卷积核的深度为256；

3.12】将卷积7层的输出输入激励3层，激励3层输出128*96*256维特征；所述激励3层的处理过程与所述激励1层相同；

3.13】将激励3层的输出输入池化3层，池化3层输出64*48*256维特征；所述池化3层的处理过程与所述池化1层相同；

3.14】将池化3层的输出输入卷积8层，卷积8层输出64*48*512维特征；所述卷积8层包括512个卷积核，每个卷积核的深度为256；

3.15】将卷积8层的输出输入卷积9层，卷积9层输出64*48*512维特征；所述卷积9层包括512个卷积核，每个卷积核的深度为512；

3.16】将卷积9层的输出输入卷积10层，卷积10层输出64*48*512维特征；所述卷积10层包括512个卷积核，每个卷积核的深度为512；

3.17】将卷积10层的输出输入激励4层，激励4层输出64*48*512维特征；所述激励4层的处理过程与所述激励1层相同；

3.18】激励4层的输出输入池化4层，池化4层输出32*24*512维特征；所述池化4层的处理过程与所述池化1层相同；

3.19】将池化4层的输出输入卷积11层，卷积11层输出32*24*512维特征；所述卷积11层，包括512个卷积核，每个卷积核的深度为512；

3.20】将卷积11层的输出输入卷积12层，卷积12层输出32*24*512维特征；所述卷积12层包括512个卷积核，每个卷积核的深度为512；

3.21】将卷积12层的输出输入卷积13层，卷积13层生成预训练模型并输出，所述预训练模型为具有32*24*512维特征的全局特征图；所述卷积13层包括512个卷积核，每个卷积核的深度为512。

进一步地，上述步骤5】具体为：

5.1】从全局特征图中获取不同尺寸和位置的目标：

5.1.1】采用最大池化法将步骤3.21】输出的32*24*512维全局特征图缩减为3*3*512尺寸；

5.1.2】采用3*3*512*512的卷积核对步骤5.1.1】的输出进行卷积，得到512维向量；

5.2】采用基准点定位、多尺寸覆盖的方式进行不同位置和尺寸目标的检测：

5.2.1】将步骤3.21】输出的32*24*512维全局特征图用3*3的滑动窗进行遍历，定义滑动窗的中心点为基准点；以基准点为中心，以9种不同比例的尺寸覆盖所述全局特征图，在一张全局特征图上可以生成32*24*9种候选框；在32*24的全局特征图上滑动时，每移动到一个新的基准点，分别以4*4，8*8，16*16，4*8，8*4，8*16，16*8，4*16，16*4的尺寸覆盖，4*4，8*8，16*16，4*8，8*4，8*16，16*8，4*16，16*4对应的原图分别为64*64，128*128，256*256，64*128，128*64，128*256，256*128，64*256，256*64维特征图；

5.2.2】对所述候选框进行再标记：

若当前候选框和实际目标区域重合度大于0.7，则将当前候选框标记为正样本；若重合度小于0.3，则将当前候选框标记为负样本；若重合度介于0.7和0.3之间，则将当前候选框丢弃不用；

5.2.3】将步骤5.2.1】后生成的64*64，128*128，256*256，64*128，128*64，128*256，256*128，64*256，256*64维特征统一划分为16*16网格，在该网格内按照最大池化法保留最大元素，生成256维特征向量；

5.2.4】将步骤5.2.3】生成的256维特征向量同时送入两个并行的全连接层，分别为分类全连接层和坐标回归全连接层；分类全连接层输出2*9＝18维，代表每个基准点对应的9个候选框是正样本还是负样本；坐标回归全连接层输出36维，对应9个候选框的左上角坐标(x,y)点以及高度h和宽度w共4个维度信息；

5.3】交替训练模型

5.3.1】用ImageNet数据集预训练的参数初始化共享的13层卷积层参数W0；用高斯分布随机初始化候选目标区域生成网络中候选目标区域生成全连接层FC、分类全连接层、坐标回归全连接层的参数，用车辆样本对候选目标区域生成网络中候选目标区域生成全连接层FC、分类全连接层、坐标回归全连接层的参数进行微调，生成候选目标ROI1；

5.3.2】用ImageNet数据集预训练的参数初始化共享的13层卷积层参数W0；用高斯分布随机初始化目标快速识别网络的目标快速识别全连接层FC参数，用步骤5.3.1】中生成的候选目标ROI1训练目标快速识别网络中候选目标区域生成全连接层FC的参数，此过程中候选目标区域生成网络和目标快速识别网络之间是独立的；

5.3.3】使用步骤5.3.2】中目标快速识别网络生成的参数再次初始化候选目标区域生成网络中候选目标区域生成全连接层FC的参数，固定共享的13层卷积层的参数，微调目标区域生成网络中候选目标区域生成全连接层FC的参数，生成候选目标ROI2；

5.3.4】固定共享的13层卷积层的参数，用步骤5.3.3】中生成的候选目标ROI2对目标快速识别网络中候选目标区域生成全连接层FC的参数进行微调；

5.3.5】重复执行步骤5.3.2】～5.3.4】，每训练一个批次样本，计算一次损失函数，再用标准的随机梯度下降方式对各层参数进行调节，直到总损失函数小于规定值，训练结束，输出候选目标区域得分和坐标；

总损失函数的计算方法为：

采用步骤5.2.4】中加入的分类全连接层和坐标回归全连接层进行训练，训练每迭代一次，统计一次总损失函数L({p_i},{t_i})，具体的统计方式为：

其中：

上式中，(x,y,w,h),(x^*,y^*,w^*,h^*),(x_a,y_a,w_a,h_a)：分别表示预测窗口坐标、真实标注目标坐标和基准点窗口坐标；所述预测窗口即前述的候选框；

i：预测窗口下标；

p_i:预测窗口判定为目标的概率；

预测窗口实际为正样本时取1，为负样本时取0；

L_cls：分类损失；

L_reg：回归损失；

λ:用来权衡分类损失L_cls和回归损失L_reg，λ取值范围为1～200；

N_cls:每次样本训练的批处理数目，其中正负样本数目应尽量平衡；

N_reg:基准点定位的数目；

x_a：基准点窗口的x坐标；

y_a：基准点窗口的y坐标；

w_a：基准点窗口宽度；

h_a：基准点窗口高度；

w^*:实际标注目标宽度；

x^*:实际标注目标x坐标；

h^*:实际标注目标高度；

y^*:实际标注目标y坐标；

或或或取决于i，i∈{x,y,w,h}；

t_x：预测目标x坐标对于基准点窗口x坐标的平移因子；

t_y：预测目标y坐标对于基准点窗口y坐标的平移因子；

t_w：预测目标w坐标对于基准点窗口w坐标的缩放因子；

t_h：预测目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标w坐标对于基准点窗口w坐标的缩放因子；

真实目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标x坐标对于基准点窗口x坐标的平移因子；

真实目标y坐标对于基准点窗口y坐标的平移因子。

本发明同时提供了一种基于深层神经网络的车型识别系统，其特殊之处在于：包括深层卷积神经网络、候选目标区域生成网络和目标快速识别网络；

所述深层卷积神经网络主要包括穿插组合的多个卷积层CONV、激励层和池化层POOL；所述卷积层CONV用于增强样本原始图像的图像特征；所述卷积层CONV的输出结果通过所述激励层映射至所述池化层；所述池化层用于压缩卷积层输出结果中的参数数目；

所述候选目标区域生成网络和目标快速识别网络共享所述卷积层CONV；候选目标区域生成网络用于从所述深层卷积神经网络的输出结果中获取样本图像中所有可能存在车辆目标的位置，即候选目标区域；目标快速识别网络用于对所述候选目标区域进行识别归类，并将所述候选目标区域映射至样本原始图像并输出相应的样本原始图像。

进一步地，上述深层卷积神经网络为13层卷积神经网络，包括依次连接的：

卷积1层，包括64个卷积核，每个卷积核的深度为3，每个卷积核尺寸为3*3，核参数进行高斯随机初始化，分布于0～1之间；

卷积2层，包括64个卷积核，每个卷积核的深度为64；

激励1层，采用RELU激励函数；

池化1层，用于将激励1层输出的特征图切成2*2的小块，将每个小块内的最大特征值作为该小块的输出特征；

卷积3层，包括128个卷积核，每个卷积核的深度为64；

卷积4层，包括128个卷积核，每个卷积核的深度为128；

激励2层，与所述激励1层相同；

池化2层，用于将激励2层输出的特征图切成2*2的小块，将每个小块内的最大特征值作为该小块的输出特征；

卷积5层，包括256个卷积核，每个卷积核的深度为128；

卷积6层，包括256个卷积核，每个卷积核的深度为256；

卷积7层，包括256个卷积核，每个卷积核的深度为256；

激励3层，与所述激励1层相同；

池化3层，用于将激励3层输出的特征图切成2*2的小块，将每个小块内的最大特征值作为该小块的输出特征；

卷积8层，包括512个卷积核，每个卷积核的深度为256；

卷积9层，包括512个卷积核，每个卷积核的深度为512；

卷积10层，包括512个卷积核，每个卷积核的深度为512；

激励4层，与所述激励1层相同；

池化4层，用于将激励4层输出的特征图切成2*2的小块，将每个小块内的最大特征值作为该小块的输出特征；

卷积11层，包括512个卷积核，每个卷积核的深度为512；

卷积12层，包括512个卷积核，每个卷积核的深度为512；

卷积13层，包括512个卷积核，每个卷积核的深度为512。

进一步地，上述候选目标区域生成网络包括目标区域快速生成层、候选目标区域生成全连接层FC、分类全连接层和坐标回归全连接层；目标区域快速生成层的输入端与所述深层卷积神经网络最末端的卷积层CONV的输出端相连，目标区域快速生成层的输出端与候选目标区域生成全连接层FC的输入端相连，候选目标区域生成全连接层FC的输出端同时与分类全连接层和坐标回归全连接层的输入端相连；

所述目标快速识别网络包括目标快速检测层、目标快速识别全连接层FC和车型识别输出层；目标快速检测层的输入端也与所述深层卷积神经网络最末端的卷积层CONV的输出端相连，目标快速检测层的输出端与目标快速识别全连接层FC的输入端相连，目标快速识别全连接层FC的输出端与车型识别输出层的输入端相连。

本发明的有益效果：

1、本发明将候选目标提取和目标识别集成入一个网络，采用端到端的检测/识别方法，将特征提取、目标定位和目标检测集成到一个网络。目标的提取不再从原始图像中提取，而是采用基准点加多尺寸覆盖的方式从尺寸极小的高维特征图中提取，同时在特征提取层采用共享深层卷积网络参数的方式实现，避免了特征的重复计算，大幅提高了识别效率，在实际中达到了20fps，单台服务器处理效率达到200万张/天的效果，满足对车型进行实时识别的需求。

2、本发明采用深层卷积网络极大地简化了特征提取的流程，试验表明该方式在图像特征提取中具有通用性，避免了传统识别任务中人工设计特征的难点和枯燥过程，提高了特征提取的效率；同时共享卷积参数的特征提取方式大幅降低了系统的硬件开销和部署成本。

3、本发明采用深层卷积神经网络的方式能够提取出目标更本质的特征，提取出的特征较传统网络能够实现更好的分类效果，算法在白天对车型的平均识别率可达95％，晚间90％。

附图说明

图1是本发明所采用的深层神经网络的逻辑结构图；图中，CONV为卷积层，MaxPooling为池化层；

图2是本发明所采用的多通道卷积神经网络特征的提取示意图；

图3是本发明所采用的最大池化法原理示意图；

图4是本发明基准点多尺寸特征覆盖示意图；

图5是本发明基于深层神经网络的车型识别方法流程图。

具体实施方式

以下结合附图和具体实施例对本发明作详细说明。

实施例：

本实施例的车型识别方法分为两大步：第一步是对各类型号车辆进行模型训练；第二步是针对车辆图像(或车辆视频)的进行实时识别，车辆定位和车辆识别在同一网络同步进行。

第一步：模型训练阶段

1】构建车辆样本集

收集到的车辆品牌共2234种，车辆款式类型共约2000多种，每种类型车辆的样本约1000～2000张，共约500万张。所有样本均通过卡口抓拍获得，每个样本均包含一部车辆的清晰、完整的彩色照片，考虑到过低的分辨率会造成车型识别的错误率升高，每张车辆照片的分辨率至少为2048*1536，大小至少为300万像素。

2】样本预处理

2.1】样本扩充

2.1.1】将所有样本图像大小都缩放为512*384像素(对车辆照片采用缩放处理，不进行裁减处理)，缩放后的样本图像应包含其缩放前图像中的完整车辆信息；

2.1.2】通过样本反转扩充步骤1】所构建的样本集，具体为：将原样本集中的每一个样本图像均围绕y轴进行反转，将反转后的图像另存作为新样本加入原样本集，得到扩充后样本集；这里反转的目的是为了增加样本的数量，如果收集到的样本足够多，也可以不反转，实际上样本应是越多越好；

2.2】样本标注

标记每张样本图像中车辆在样本图像中的左上角坐标(x,y)、高度h和宽度w，以及车辆所属车型编号i，生成样本标注文件；所述h和w均为像素点数；本实施例中，能够识别的车型共有2234种，因此i的取值范围为0～2234；所述样本标注文件的内容包括样本所在的文件路径、样本编号和车辆图像在样本集中的坐标；所述样本编号是根据样本数量确定的，本实施例中为0-5000000，车辆图像在样本集中的坐标是通过人工标注生成的；

2.3】样本集交叉验证：

2.3.1】将扩充后样本集随机分为10个子样本集，每个子样本集中约20万个样本；

2.3.2】轮流抽取9个子样本集作为训练集，剩余1个子样本集作为测试集，通过样本训练进行分类效果判断；所述分类效果是通过对测试集的检测率、误判率综合判断确定；

2.3.3】将分类效果最好的一组测试集作为最终模型；该最终模型用于在样本训练完成后对实际场景中的车辆进行识别；

3】建立预训练模型

在完成样本预处理后，样本图像文件和样本标注文件数据流入预训练模型。建立预训练模型的目的是提高训练速度，尤其是在大样本数据集进行训练时，随机初始化卷积参数将使每一次迭代消耗大量时间，却不一定能很好地收敛。因此可以将训练过程中效果比较好的参数保留下来，在对新的目标分类时直接作为训练模型的初始值使用。

本实施例中的预训练网络采用深层卷积神经网络，主要包含四种结构：卷积层CONV layer、激励层RELU layer、池化层POOL layer和全连接层FC layer，如图2所示。预训练模型的产生需经过以下流程：

3.1】定义扩充后样本集中的样本图像为样本原始图像，将样本原始图像输入卷积1层进行处理，卷积1层的卷积核采用3*3尺寸，核参数进行高斯随机初始化，分布于0～1之间；

由于样本原始图像有R、G、B三个通道，所以卷积1层使用64个卷积核，每个卷积核的深度为3；选择卷积核的数目时可以通过改变卷积核的数目并观察检测效果自主选择，无固定要求；

考虑到卷积核移动在图像边缘时可能会造成图像边界部分信息丢失，本实施例在卷积前对样本图像进行了扩充，每一个样本图像向四周扩充一个像素(输入图像中外围的0像素点即为扩充像素)。在对一个样本的单通道进行处理时，移动步伐为1，卷积完成后，其输出尺寸仍为512*384像素，每个像素点的输出值为在R，G，B三个通道上该位置点卷积值之和，卷积1层的总输出为512*384*64维特征；

3.2】卷积2层的输入是卷积1层的输出，在步骤3.1】中卷积1层将3通道的样本原始图像变成64通道的图像，每个通道为224*224的特征图，因此卷积2层深度为64，卷积核的数量与卷积1层相同，也选择为64；图像经过卷积2层后，其输出为512*384*64维特征，与卷积1层输出一致；

3.3】激励1层的输入是卷积2层的输出，激励1层采用RELU激励函数(RELU具有收敛快、求梯度简单的优点)对卷积2层的输出结果作非线性映射；

3.4】池化1层的输入是激励1层的输出，其目的是进一步压缩参数数目(即降维)，提高网络的泛化能力。处理过程为：将激励1层输出的特征图切成2*2的小块，将小块内的(共4个特征值)最大特征值作为该小块内的输出特征。经过池化处理后，整个特征图中总特征数值减少到原来的1/4，为256*192*64维，池化原理如图3所示；

3.5】卷积3层的输入是池化1层的输出,卷积3层共有128个卷积核，每个卷积核的深度为64，卷积3层的输出与池化1层输出特征图数目一致，经过卷积3层后其特征图尺寸为256*192，共128张；

3.6】卷积4层的输入是卷积3层的输出，卷积4层共有卷积核128个，每个卷积核的深度为128，卷积4层输出的特征图为256*192*128维；

3.7】激励2层的输入是卷积4层的输出，激励2层对卷积4层输出结果的处理过程/方式与激励1层相同，激励2层输出的特征图为256*192*128维；

3.8】池化2层的输入是激励2层的输出，池化2层的处理过程与池化1层相同，池化2层输出的特征图为128*96*128维；

3.9】卷积5层的输入是池化2层的输出，卷积5层共有卷积核256个，每个卷积核的深度为128，卷积5层输出的特征图为128*96*256维；

3.10】卷积6层的输入是卷积5层的输出，卷积6层共有卷积核256个，每个卷积核深度为256，卷积6层输出的特征图为128*96*256维；

3.11】卷积7层的输入是卷积6层的输出，卷积7层共有卷积核256个，每个卷积核深度为256，卷积7层输出的特征图为128*96*256维；

3.12】激励3层的输入是卷积7层的输出，激励3层对卷积7层输出结果的处理过程/与激励1层、激励2层相同，激励3层输出的特征图为128*96*256维；

3.13】池化3层的输入是激励3层的输出，池化3层的处理过程与池化1层、池化2层相同，池化3层输出的特征图为64*48*256维；

3.14】卷积8层的输入是池化3层的输出，卷积8层共有卷积核512个，每个卷积核深度为256，卷积8层输出的特征图为64*48*512维；

3.15】卷积9层的输入是卷积8层的输出，卷积9层共有卷积核512个，每个卷积核深度为512，卷积9层输出的特征图为64*48*512维；

3.16】卷积10层的输入是卷积9层的输出，卷积10层共有卷积核512个，每个卷积核深度为512，卷积10层输出的特征图为64*48*512维；

3.17】激励4层的输入是卷积10层的输出，激励4层对卷积10层输出结果的处理过程/与激励1层、激励2层、激励3层相同，激励4层输出的特征图为64*48*512维；

3.18】池化4层的输入是激励4层的输出，池化4层的处理过程与池化1层、池化2层、池化3层相同，池化4层输出的特征图为32*24*512维；

3.19】卷积11层的输入是池化4层的输出，卷积11层共有卷积核512个，每个卷积核深度为512，卷积11层输出的特征图为32*24*512维；

3.20】卷积12层的输入是卷积11层的输出，卷积12层共有卷积核512个，每个卷积核深度为512，卷积12层输出的特征图为32*24*512维；

3.21】卷积13层的输入是卷积12层的输出，卷积13层共有卷积核512个，每个卷积核深度为512，卷积13层生成预训练模型并输出，该预训练模型为具有32*24*512维特征的全局特征图(即全局特征层)；

4】将卷积13层输出的预训练模型分为两部分，分别送入候选目标区域生成网络和目标快速识别网络；候选目标区域生成网络和目标快速识别网络共享卷积层，如图1所示。样本图像中所有最有可能存在目标的区域均由候选目标区域生成网络中目标区域快速生成层获取，避免了从原始图像中获取候选目标特征时所产生的重复计算。

5】采用交替训练的方式，通过候选目标区域生成网络获取候选目标，通过目标快速识别网络对所述候选目标进行识别和归类；若总的损失值大于等于规定值，则继续交替训练；若总的损失值小于规定值，则交替训练结束，输出候选目标区域得分和坐标；具体方法为：

5.1】全局特征生成层

全局特征层生成后，所有不同尺寸和位置的目标均从该层获取，全局特征生成层直接生成512维的特征图。处理过程为：

5.1.1】采用最大池化法将步骤3.21】输出的32*24*512维的全局特征图缩减为3*3*512尺寸；

5.1.2】采用3*3*512*512的卷积核对步骤5.1.1】的输出进行卷积，可得512维向量。

5.2】目标获取层

实际中不同类型车辆在场景中出现的尺寸和位置都可能发生变化，单一尺寸的检测窗口会造成目标丢失，后续的识别更是无法完成。因此，本发明采用基准点定位，多尺寸覆盖的方式完成不同位置和尺寸目标的检测，过程如下：

5.2.1】将前述步骤3.21】中卷积13层输出的32*24*512维全局特征图用3*3(单位为像素)的滑动窗进行遍历，定义滑动窗的中心点称为基准点，如图4所示。以基准点为中心，以9种不同比例的尺寸覆盖全局特征图，在一张全局特征图上可以生成32*24*9种候选框。在32*24的全局特征图上滑动时，每移动到一个新的基准点，分别以4*4，8*8，16*16，4*8，8*4，8*16，16*8，4*16，16*4的尺寸覆盖；由于之前进行了4次pooling(池化)，每次pooling后特征图的总特征数值减小到原来的1/4，所以4*4，8*8，16*16，4*8，8*4，8*16，16*8，4*16，16*4对应的原特征图分别为64*64，128*128，256*256，64*128，128*64，128*256，256*128，64*256，256*64维特征图。

5.2.2】对候选框进行再标记

除了在原始样本中标记目标的左上角坐标(x,y)和高度h，宽度w外，可以通过对样本四周扩充标记来增加样本。再标记规则为：如果当前候选框和实际的目标区域重合度大于0.7，则将当前候选框标记为正样本；如果重合度小于0.3，则将当前候选框标记为负样本；若重合度介于0.7和0.3之间，则将当前候选框丢弃不用；这样扩充样本的目的是增加样本数目的同时降低人工裁减样本的工作量。

5.2.3】将步骤5.2.1】后生成的64*64，128*128，256*256，64*128，128*64，128*256，256*128，64*256，256*64维特征统一划分为16*16网格，在网格内按照最大池化法保留最大元素，生成256维特征向量。

5.2.4】在步骤5.2.3】生成的256维特征向量的全连接层后再加入两个并行的全连接层，分别为分类全连接层和坐标回归全连接层，分类全连接层的输出为2*9＝18维，代表每个基准点对应的9个候选框是前景(正样本)还是背景(负样本)；坐标回归全连接层的输出为36维，对应9个候选框的左上角坐标(x,y)点以及高度h和宽度w4个维度信息。

5.3】交替训练模型

通过训练网络的结构图(图1)可知，候选目标区域的生成和目标分类的任务是在同一框架内完成，不再需要单独处理步骤，二者共享了候选目标提取之前所有卷积层的参数，这也是本发明较之传统算法更为先进的地方，可以大大提高训练、检测/识别的时间。另外，虽然二者之间共享了13层的卷积参数，但是因彼此训练的目标不同(候选目标区域生成网络是生成候选目标，目标快速识别是对候选目标进行正确识别归类)，所以在训练时采用交替训练方式：

5.3.1】用ImageNet数据集预训练的参数初始化共享的13层卷积层参数W0；用高斯分布随机初始化候选目标区域生成网络中的候选目标区域生成全连接层FC、分类全连接层、坐标回归全连接层的参数，用车辆样本对候选目标区域生成网络中的候选目标区域生成全连接层FC、分类全连接层、坐标回归全连接层的参数进行微调，生成候选目标ROI1；

5.3.2】用ImageNet数据集预训练的参数初始化共享的13层卷积层的参数W0；用高斯分布随机初始化目标快速识别网络的FC层参数，用步骤5.3.1】中生成的候选目标ROI1训练目标快速识别网络中候选目标区域生成全连接层FC的参数(此过程中候选目标区域生成网络和目标快速识别网络之间是独立的)；

5.3.3】使用步骤5.3.2】中目标快速识别网络生成的FC的参数再次初始化候选目标区域生成网络参数，固定共享的13层卷积层的参数，微调目标区域生成网络的FC参数，生成候选目标ROI2；

5.3.4】固定共享的13层卷积层的参数，用步骤5.3.3】中生成的候选目标ROI2对目标快速识别网络中的FC参数进行微调；

5.3.5】重复执行步骤5.3.2】～5.3.4】，每训练一个批次样本，计算一次损失函数，再用标准的随机梯度下降方式对各层参数进行调节，直到总损失函数小于规定值；

总损失函数的计算方法为：

在完成训练网络的结构和最终对样本的分类标记以及坐标标记后，采用5.2.4】所加入的分类全连接层和坐标回归全连接层进行训练；训练每迭代一次，统计一次总损失函数L({p_i},{t_i})，具体的统计方式为：

其中：

上式中，(x,y,w,h),(x^*,y^*,w^*,h^*),(x_a,y_a,w_a,h_a)分别表示预测窗口坐标，真实标注目标坐标和基准点窗口坐标；所述预测窗口即前述的候选框；

i:预测窗口下标；

p_i:预测窗口判定为目标的概率；

预测窗口实际为正样本时取1，为负样本时取0；

L_cls：分类损失；

L_reg：回归损失；

λ:用来权衡分类损失L_cls和回归损失L_reg，从实验来看，λ取从1到200时对平均精度影响不超过1％；

N_cls:每次样本训练的批处理数目，其中正负样本数目应尽量平衡；本实施例中N_cls等于256，其中正负样本各128个；

N_reg:基准点定位的数目；本实施例中N_reg取2400；

x_a：基准点窗口的x坐标；

y_a：基准点窗口的y坐标；

w_a：基准点窗口宽度；

h_a：基准点窗口高度；

w^*:实际标注目标宽度；

x^*:实际标注目标x坐标；

h^*:实际标注目标高度；

y^*:实际标注目标y坐标；

或或或取决于i，i∈{x,y,w,h}；

t_x：预测目标x坐标对于基准点窗口x坐标的平移因子；

t_y：预测目标y坐标对于基准点窗口y坐标的平移因子；

t_w：预测目标w坐标对于基准点窗口w坐标的缩放因子；

t_h：预测目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标w坐标对于基准点窗口w坐标的缩放因子；

真实目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标x坐标对于基准点窗口x坐标的平移因子；

真实目标y坐标对于基准点窗口y坐标的平移因子；

第二步：车型实时识别阶段

1】车型实时识别阶段的流程与模型训练阶段的流程基本一致，在对车辆原始图像进行卷积之前需将其缩放至样本图像大小，即512*384像素；

2】图像中目标区域的生成

在图像经过共享卷积层后，特征数据流入候选目标区域生成网络，将目标区域生成层产生的候选区域按得分高低排序，将前300个候选目标的区域坐标送入目标快速识别网络；这里“300”是本发明经大量试验后获得的经验数据，能够保证将所有候选目标区域全部覆盖的同时，节约处理时间；

3】目标快速识别网络根据输入的候选目标的区域坐标值，按照坐标映射方式在共享卷积层完成后的特征图中寻找对应区域特征，并将该特征送入目标快速识别网络中的全连接层，经运算后输入目标识别(编号1～2234)，同时将步骤2】中生成的候选目标的区域坐标映射回原始图像并输出，即完成车型实时识别。

本发明同时提供了一种基于深层神经网络的车型识别系统，包括深层卷积神经网络、候选目标区域生成网络和目标快速识别网络；

深层卷积神经网络主要包括穿插组合的多个卷积层CONV、激励层和池化层POOL；所述卷积层CONV用于增强样本原始图像的图像特征；所述卷积层CONV的输出结果通过所述激励层映射至所述池化层；所述池化层用于压缩卷积层输出结果中的参数数目；

候选目标区域生成网络和目标快速识别网络共享所述卷积层CONV；候选目标区域生成网络用于从所述深层卷积神经网络的输出结果中获取样本图像中所有可能存在车辆目标的位置，即候选目标区域；目标快速识别网络用于对所述候选目标区域进行识别归类，并将所述候选目标区域映射至样本原始图像并输出相应的样本原始图像。

本实施例中深层卷积神经网络为13层卷积神经网络，包括依次连接的

卷积1层，包括64个卷积核，每个卷积核的深度为3，每个卷积核尺寸为3*3(单位是像素)，核参数进行高斯随机初始化，分布于0～1之间；

卷积2层，包括64个卷积核，每个卷积核的深度为64；

激励1层，采用RELU激励函数；

卷积3层，包括128个卷积核，每个卷积核的深度为64；

卷积4层，包括128个卷积核，每个卷积核的深度为128；

激励2层，与所述激励1层相同；

卷积5层，包括256个卷积核，每个卷积核的深度为128；

卷积6层，包括256个卷积核，每个卷积核的深度为256；

卷积7层，包括256个卷积核，每个卷积核的深度为256；

激励3层，与所述激励1层相同；

卷积8层，包括512个卷积核，每个卷积核的深度为256；

卷积9层，包括512个卷积核，每个卷积核的深度为512；

卷积10层，包括512个卷积核，每个卷积核的深度为512；

激励4层，与所述激励1层相同；

卷积11层，包括512个卷积核，每个卷积核的深度为512；

卷积12层，包括512个卷积核，每个卷积核的深度为512；

卷积13层，包括512个卷积核，每个卷积核的深度为512。

候选目标区域生成网络包括目标区域快速生成层、候选目标区域生成全连接层FC、分类全连接层和坐标回归全连接层；目标区域快速生成层的输入端与所述深层卷积神经网络最末端的卷积层CONV的输出端相连，目标区域快速生成层的输出端与候选目标区域生成全连接层FC的输入端相连，候选目标区域生成全连接层FC的输出端同时与分类全连接层和坐标回归全连接层的输入端相连；候选区域生成网络的目的是将样本图像中所有可能存在车辆目标的位置选择出来，在没选出这些位置之前，是无法识别车辆类型的。选择出这些候选区域可以大大缩短针对每幅图像的识别时间而不用再去全图定位。

目标快速识别网络包括目标快速检测层、目标快速识别全连接层FC和车型识别输出层；目标快速检测层的输入端也与所述深层卷积神经网络最末端的卷积层CONV的输出端相连，目标快速检测层的输出端与目标快速识别全连接层FC的输入端相连，目标快速识别全连接层FC的输出端与车型识别输出层的输入端相连。

Claims

1.基于深层神经网络的车型识别方法，其特征在于，包括以下步骤：

1】构建车辆样本集

2】样本预处理

2.1)样本扩充

2.2)样本标注

标记每张样本图像中车辆在样本图像中的左上角坐标(x，y)、高度h和宽度w，以及车辆所属车型的编号i，生成样本标注文件；所述h和w均为像素点数；

2.3)样本集交叉验证：

3】建立预训练模型

2.根据权利要求1所述的基于深层神经网络的车型识别方法，其特征在于，所述步骤1】中所述车辆图像为彩色图像，分辨率至少为2048*1536，像素至少为300万。

3.根据权利要求2所述的基于深层神经网络的车型识别方法，其特征在于，所述步骤2.3)中N＝10，S＝9，M≥200000，i取值范围为1-2234。

4.根据权利要求3所述的基于深层神经网络的车型识别方法，其特征在于，所述步骤3】是采用13层卷积神经网络对所述扩充后样本集中的样本原始图像和样本标注文件进行处理的，具体为：

3.1】定义扩充后样本集中的样本图像为样本原始图像，将样本原始图像输入卷积1层进行处理，卷积1层将原始图像的R、G、B3通道变成64通道，每个通道为224*224的特征图，最终输出512*384*64维特征；所述卷积1层包括64个卷积核，每个卷积核的深度为3，每个卷积核尺寸为3*3，核参数进行高斯随机初始化，分布于0～1之间；

5.根据权利要求4所述的基于深层神经网络的车型识别方法，其特征在于，所述步骤5】具体为：

5.1】从全局特征图中获取不同尺寸和位置的目标：

5.2.2】对所述候选框进行再标记：

5.2.4】将步骤5.2.3】生成的256维特征向量同时送入两个并行的全连接层，分别为分类全连接层和坐标回归全连接层；分类全连接层输出2*9＝18维，代表每个基准点对应的9个候选框是正样本还是负样本；坐标回归全连接层输出36维，对应9个候选框的左上角坐标(x，y)点以及高度h和宽度w共4个维度信息；

5.3】交替训练模型

总损失函数的计算方法为：

采用步骤5.2.4】中加入的分类全连接层和坐标回归全连接层进行训练，训练每迭代一次，统计一次总损失函数L({p_i}，{t_i})，具体的统计方式为：

其中：

上式中，(x，y，w，h)，(x^*，y^*，w^*，h^*)，(x_a，y_a，w_a，h_a)：分别表示预测窗口坐标、真实标注目标坐标和基准点窗口坐标；所述预测窗口即前述的候选框；

i：预测窗口下标；

p_i：预测窗口判定为目标的概率；

预测窗口实际为正样本时取1，为负样本时取0；

L_cls：分类损失；

L_reg：回归损失；

λ：用来权衡分类损失L_cls和回归损失L_reg，λ取值范围为1～200；

N_cls：每次样本训练的批处理数目，其中正负样本数目应尽量平衡；

N_reg：基准点定位的数目；

x_a：基准点窗口的x坐标；

y_a：基准点窗口的y坐标；

w_a：基准点窗口宽度；

h_a：基准点窗口高度；

w^*：实际标注目标宽度；

x^*：实际标注目标x坐标；

h^*：实际标注目标高度；

y^*：实际标注目标y坐标；

或或或取决于i，i∈{x，y，w，h}；

t_x：预测目标x坐标对于基准点窗口x坐标的平移因子；

t_y：预测目标y坐标对于基准点窗口y坐标的平移因子；

t_w：预测目标w坐标对于基准点窗口w坐标的缩放因子；

t_h：预测目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标w坐标对于基准点窗口w坐标的缩放因子；

真实目标h坐标对于基准点窗口h坐标的缩放因子；

真实目标x坐标对于基准点窗口x坐标的平移因子；

真实目标y坐标对于基准点窗口y坐标的平移因子。

6.基于深层神经网络的车型识别系统，其特征在于：包括深层卷积神经网络、候选目标区域生成网络和目标快速识别网络；

7.根据权利要求6所述的车型识别系统，其特征在于：所述深层卷积神经网络为13层卷积神经网络，包括依次连接的

卷积2层，包括64个卷积核，每个卷积核的深度为64；

激励1层，采用RELU激励函数；

卷积3层，包括128个卷积核，每个卷积核的深度为64；

卷积4层，包括128个卷积核，每个卷积核的深度为128；

激励2层，与所述激励1层相同；

卷积5层，包括256个卷积核，每个卷积核的深度为128；

卷积6层，包括256个卷积核，每个卷积核的深度为256；

卷积7层，包括256个卷积核，每个卷积核的深度为256；

激励3层，与所述激励1层相同；

卷积8层，包括512个卷积核，每个卷积核的深度为256；

卷积9层，包括512个卷积核，每个卷积核的深度为512；

卷积10层，包括512个卷积核，每个卷积核的深度为512；

激励4层，与所述激励1层相同；

卷积11层，包括512个卷积核，每个卷积核的深度为512；

卷积12层，包括512个卷积核，每个卷积核的深度为512；

卷积13层，包括512个卷积核，每个卷积核的深度为512。

8.根据权利要求6或7所述的车型识别系统，其特征在于：所述候选目标区域生成网络包括目标区域快速生成层、候选目标区域生成全连接层FC、分类全连接层和坐标回归全连接层；目标区域快速生成层的输入端与所述深层卷积神经网络最末端的卷积层CONV的输出端相连，目标区域快速生成层的输出端与候选目标区域生成全连接层FC的输入端相连，候选目标区域生成全连接层FC的输出端同时与分类全连接层和坐标回归全连接层的输入端相连；