CN108171112B

CN108171112B - 基于卷积神经网络的车辆识别与跟踪方法

Info

Publication number: CN108171112B
Application number: CN201711250146.1A
Authority: CN
Inventors: 宋彬; 康煦; 孙峰瑶; 秦浩
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2021-06-01
Anticipated expiration: 2037-12-01
Also published as: CN108171112A

Abstract

本发明公开了一种基于卷积神经网络车辆识别与跟踪方法。解决了现有技术难以在高精度情况下保证即时性的问题，克服了分类结果不准确、跟踪识别时间长等不足。实现步骤为：构建并训练快速区域卷积神经网络；对监控视频初始帧进行处理与识别；离线训练跟踪卷积神经网络；提取与选择最佳候选框；生成样本队列；在线迭代训练；获取目标图像，实现即时车辆识别与跟踪。本发明将Faster‑rcnn与跟踪卷积神经网络相结合，使用卷积神经网络提取了车辆健壮性极好、代表性强的高层特征；通过网络融合以及在线‑离线训练交替进行的方式，在保证高精确度的基础上，缩短了跟踪识别所需时间。识别结果准确，跟踪时间更短。可用于配合普通摄像头完成车辆的即时识别与跟踪。

Description

基于卷积神经网络的车辆识别与跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及计算机图像处理技术，具体是一种基于卷积神经网络的车辆识别与跟踪方法，可用于对任意尺寸监控视频与图像内物体的识别与跟踪。

背景技术

目前，基于道路交通的监控视频图像的车辆识别与跟踪已经成为智能识别监控系技术领域里的一个很重要的应用和不断推进的研究主题。根据图像中目标遍历和筛选的方式的不同，传统的物体检测方法主要分为两类：一是基于模版匹配的方法；二是基于外观特征的二分类方法。基于简化过的车辆模版进行匹配筛选的方法通常非常快速，但是简化的车辆模版不能完全涵盖所有车辆，往往对类内的细节特征不能准确分辨。基于外观特征的二分类方法一般采用机器学习或者模式识别的方法，需要选取合适的特征，并通过大量的训练图片训练出分类器模型，检测的结果往往比较准确，但需要充分的前期准备。传统方法往往需要鲁棒性较高的特征工程，而基于卷积神经网络的车辆识别跟踪算法，不需要复杂的特征工程，通过深度神经网络可以自动学习出适合道路上车辆、行人等的深度特征，具有非常高的普适性和鲁棒性。传统物体追踪方法主要有粒子滤波与相关滤波方法，粒子滤波方法需要大量的粒子采样才能拟合分布的后验概率，但随着粒子数的增多，需要的样本数量也大大增加，减少粒子数又会出现样本贫化现象。而通过卷积神经网络，可以利用离线学习与在线学习更新交替进行的方式，随时学习出物体的最佳特征，对物体的遮挡和形变具有较高的鲁棒性。另外，车辆识别与跟踪的结果质量的好坏需要有衡量的尺度和标准。通常使用识别的准确率(precision)和召回率(recall)去衡量算法的精度。

2016年Gang Yan，Yu Ming等人在International Journal for Light andElectron Optics(IJLEO)上发表了一篇《Real-time vehicle detection usinghistograms of oriented gradients and AdaBoost classification》，通过阴影与轮廓提取潜在的车辆区域，然后将降低维度的HOG(方向梯度直方图)特征作为级联提升分类器(Adaboost)的输入，提高了车辆识别检测的速度。然而，阴影与轮廓难以准确提取到目标车辆位置，HOG特征很难处理遮挡的问题，并且在实际的环境中HOG特征对噪点比较敏感。

2015年Sebastiano Battiato,Giovanni Maria Farinella,Antonino Furnari等人在International Conference on Computer Vision Theory and Applications上发表了一篇《Vehicle Tracking based on Customized Template Matching》，通过提前构造好的车辆模版，通过模版建模和背景剔除在每一帧经过匹配和在线学习，筛选出与模版最接近的目标区域作为目标车辆。但是，这种方法适用场景非常单一，对于复杂的场景和刁钻的角度难以适用。

现有跟踪识别技术中，采用模板匹配方法，虽然较为快速，但对于不在模板中的物体，有极大概率出现识别错误的情况；而采用二分类方法，由于采用机器学习方式，识别精度极高，但需要较长时间来进行前期准备与训练，且在跟踪过程难以满足时间特性要求。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提出一种在精确度及时间特性上更为优异的基于卷积神经网络的任意尺寸视频图像的车辆检测追踪方法。

本发明是一种基于卷积神经网络的车辆识别和跟踪方法，其特征在于，包括有以下步骤：

(1)构建并训练快速区域卷积神经网络(Faster-rcnn)：

(1a)预训练图片处理：对上千张预训练图片中的小汽车、卡车、公交车、自行车与行人打标签，记录每幅图片中每个物体的位置与类别，存于xml文件中；

(1b)构建快速区域卷积神经网络：将准备好的预训练图片与标签文件送入快速区域卷积神经网络进行训练，经过4万次迭代，得到训练好的快速区域卷积神经网络，该网络按模块包括5个卷积-池化特征提取层、3个RPN卷积层、1个感兴趣池化层、3个全连接层、1个分类层和1个坐标层；

(2)初始帧处理与识别：将监控视频的第一帧图像输入到训练好的快速区域卷积神经网络中，识别出第一帧场景中存在的小汽车、公交车、大卡车、自行车以及行人；

(3)离线训练跟踪卷积神经网络模型，该网络包括5个卷积-池化特征提取层、1个感兴趣池化层、2个全连接层、1个分类层：

(3a)将第一帧图像经过跟踪卷积神经网络后的第5层特征提取出来；

(3b)利用当前帧所得坐标，在每个目标区域周围进行高斯采样，得到感兴趣的候选框，计算候选框与目标框的交叠率，如果生成的候选框与某个目标框的交叠率高于0.7且比与其他目标框交叠率都高，此候选框被对应为这一目标框；如果候选框与所有目标框的交叠率都低于0.5，则该候选框被标为背景；

(3c)将候选框坐标在神经网络中的感受域进行映射，得到其在第5层特征图上的位置，映射公式为下式：

其中，coor_img为每个目标候选框四个顶点在原图中的坐标，coor_f为每个目标候选框的四个顶点在第5层特征图中的坐标，stride为感受域的宽度，定义为图像从神经网络输入到第5层特征图尺寸缩小的整倍数；

(3d)利用候选框中的映射坐标提取特征图上的感兴趣区域，将其下采样到7×7大小的尺寸，并与(3b)中相对应的每个标签共同组成预训练集，输入跟踪卷积神经网络的后3层(fc6,fc7,cls_prob)进行训练；

(3e)迭代执行步骤(3d)30次，得到预训练好的跟踪模型；

(4)提取与选择最佳候选框：

将后续每一帧图像经过跟踪卷积神经网络的前5层得到特征图，在上一帧得到的目标位置提取候选区域，送入预训练好的跟踪卷积神经网络的后三层；取输出分数最大的5个候选框，对其四个顶点取平均值得到这一帧的目标位置；

(5)生成样本队列：

执行步骤(3b)(3c)，按照候选框坐标提取特征图上的感兴趣区域(像素尺寸为512×7×7大小)，标签为1的感兴趣区域存入正样本集的队列中，标签为0的感兴趣区域存入负样本集的队列中；

(6)在线迭代训练：

每迭代10帧，随机选取样本队列中的正样本与负样本，输入跟踪卷积神经网络的后3层(fc6,fc7,cls_prob)进行在线训练；不断重复步骤(4)(5)(6)直至监控视频结束。

本发明与现有的技术相比具有以下优点：

第一，由于本发明采用多层卷积神经网络，通过卷积神经网络中多层的网络自学习特征，学习到更多目标的高层特征，克服了现有技术中对于车辆、行人等部分高层特征表达不足，在后续帧中对于目标周边感兴趣候选区域提取不充分等不足。

第二，由于卷积神经网络有很强的非线性拟合能力，可映射任意复杂的非线性关系，而且学习规则简单，便于计算机实现。具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力。卷积神经网络用于分类的特征不是人为设计，而是通过离线学习与在线学习不断更新和提炼出来的。利用神经网络对目标周边感兴趣候选区域进行二分类，总可以提取到利于分类器分类的最佳特征，因此用神经网络判断每个候选区域是否为前一帧中所对应的物体，可以达到比svm和adaboost更准确的分类结果。

第三，由于本发明采用Faster-rcnn和跟踪神经网络的多技术融合、在车辆的识别和跟踪过程中在线-离线学习交替进行，并将识别网络和跟踪网络各自的卷积-池化特征提取层的参数进行共享，使得本发明在前期准备及训练过程中极大地节省了计算开销以及训练时间，在识别与跟踪过程中时延较小，基本满足了时间特性要求的同时，还保证了跟踪识别的准确度。

附图说明

图1是本发明的流程图；

图2是本发明快速区域卷积神经网络Faster-rcnn的网络结构示意图；

图3是本发明跟踪网络的网络结构示意图；

图4是本发明在仿真实验中对第一帧提取候选框的示意图。

图5是本发明在仿真实验中使用的第1帧截取图像及Faster-rcnn生成的物体框；

图6是本发明在仿真实验中使用的第2帧截取图像及生成的追踪物体框；

图7是本发明在仿真实验中使用的第20帧截取图像及生成的追踪物体框；

图8是本发明在仿真实验中使用的第40帧截取图像及生成的追踪物体框；

图9是本发明在仿真实验中使用的第60帧截取图像及生成的追踪物体框。

具体实施方式

下面结合附图和实施例对本发明详细说明

实施例1

现有跟踪识别技术中，采用模板匹配的方法，对于数据的处理速度极快，但往往对类内的细节特征不能准确分辨，且容易出现分类错误的情况；而二分类方法，需要选取合适的特征，并通过大量的训练图片训练出分类器模型，检测的结果往往比较准确，但需要充分的前期准备，且在跟踪过程难以满足时间特性要求。

目前，针对监控视频图像中物体的识别与跟踪，对于交通缓堵、车辆测速、紧急交通事件处理等，都具有十分重大的意义。处理以上交通问题需要采用较为快速、精确的跟踪与识别技术。但现有技术在时间特性和精确性上，总会有某一方面难以达到要求。

为此，本发明展开了研究与探讨，提出一种基于卷积神经网络的车辆识别和跟踪方法，参见图1，包括有以下步骤：

(1)构建并训练快速区域卷积神经网络(Faster-rcnn)：

(1a)预训练图片处理：使用软件LabelImage对上千张预训练图片中的小汽车、卡车、公交车、自行车与行人打标签，记录每幅图片中每个物体的位置与类别，位置信息为目标框的四个顶点坐标，类别信息为一个1*6的向量，表明目标框的所属类别(1代表属于该类，0代表不属于该类)，位置与类别信息均存于xml文件中。

(1b)构建快速区域卷积神经网络：将准备好的预训练图片与标签文件结合起来，把图像及xml文件送入快速区域卷积神经网络进行训练，利用梯度下降法不断优化总损失函数，调整各层的权重与参数，经过4万次迭代，得到训练好的快速区域卷积神经网络，该网络包括5个卷积-池化特征提取层、3个RPN卷积层、1个感兴趣池化层、3个全连接层、1个分类层和1个坐标层，参见图2。

(2)初始帧处理与识别：将监控视频的第一帧图像输入到训练好的快速区域卷积神经网络中，自动识别出第一帧场景中存在的小汽车、公交车、大卡车、自行车、行人以及背景，作为跟踪网络的初始输入，参见图5。

(3)离线训练跟踪卷积神经网络模型，该跟踪卷积神经网络包括5个卷积-池化特征提取层、1个感兴趣池化层、2个全连接层、1个分类层，参见图3，本网络的卷积-池化特征提取层的参数与快速区域卷积神经网络共享的，因此在已有Faster-rcnn网络的情况下，本网络的训练时间极短：

(3a)将监控视频第一帧图像经过跟踪卷积神经网络后的第5层特征提取出来；

(3b)利用当前帧所得坐标，在每个目标区域周围进行高斯采样，得到随机的感兴趣的候选框，参见图4，图4是针对图像内卡车目标框进行的高斯采样。计算候选框与目标框的交叠率，如果生成的候选框与某个目标框的交叠率高于0.7且比与其他目标框交叠率都高，此候选框被对应为这一目标框；如果候选框与所有目标框的交叠率都低于0.5，则该候选框被标为背景，其中，交叠率的计算公式为：

其中IOU为图像中候选框与目标框的交叠率，定义为两个区域交叠部分面积与总面积的比值，region1代表目标框、region2代表候选框。

该步完成了使用高斯采样获得目标周围候选框的工作，由于输入样本为视频中连续性较强的各帧图像，采用在目标框周边进行高斯采样的方式既能使得候选框有足够多样性，又能避免过多冗余候选框的出现，节省样本清洗的时间与计算开销。

(3c)将当前帧跟踪过程中得到的候选框坐标在神经网络中的感受域进行映射，对于第一帧来说为通过Faster-rcnn识别得到的候选框坐标在神经网络中的感受域进行映射，映射后得到其在第5层特征图上的位置，映射公式为下式：

其中，coor_img为每个目标候选框四个顶点在原图中的坐标，coor_f为每个目标候选框的四个顶点在第5层特征图中的坐标，stride为感受域的宽度，定义为图像从神经网络输入到第5层特征图尺寸缩小的整倍数。该步为将候选框映射到特征图上得到感兴趣区域。

(3d)利用(3c)中候选框中的映射坐标提取特征图上的感兴趣区域，将其下采样到7×7大小的尺寸，并与(3b)中相对应的每个标签共同组成预训练集，输入跟踪卷积神经网络的后3层(fc6,fc7,cls_prob)进行训练。

(3e)迭代执行步骤(3d)30次，得到预训练好的跟踪模型。

(4)提取与选择最佳候选框：

将后续每一帧图像经过跟踪卷积神经网络的前5层得到特征图，在上一帧得到的目标位置周围利用高斯采样提取候选区域，送入预训练好的跟踪卷积神经网络的后三层，得到各类分数，取正样本分数最高的一类并在其中选择输出分数最大的5个候选框，分别对其四个顶点取平均值得到这一帧最佳的候选目标位置。由于只使用后三层，不使用计算量极大的前部卷积层，使得跟踪识别时间开销大大降低。到此已完成对当前帧的跟踪识别，参见图6、7、8、9，这些图分别显示了在不同跟踪时刻的实时状况。

(5)生成样本队列：

执行步骤(3b)(3c)，选择候选框并确定感兴趣区域，按照候选框坐标提取下采样后特征图上的感兴趣区域(像素尺寸为512×7×7)，标签为1的感兴趣区域存入正样本集的队列中，标签为0的感兴趣区域存入负样本集的队列中，样本队列用于之后的在线学习。

(6)在线迭代训练：

每迭代10帧，在样本队列中随机选取32个正样本与96个负样本，输入跟踪卷积神经网络的后3层(fc6,fc7,cls_prob)进行在线训练；不断重复步骤(4)(5)(6)直至监控视频结束，完成实时车辆识别与跟踪。

本发明将多种识别、跟踪技术结合，采用在线-离线交替进行的方式，由于在线训练有助于提高准确率、离线训练有助于节约时间，两者的结合使得本发明成功地在时间特性与精确性上都获得了较为令人满意的表现。

本发明首先(1)构建并训练快速区域卷积神经网络；(2)在第一帧中提取所要跟踪的目标；(3)离线训练跟踪卷积神经网络；(4)在每一帧中计算每个物体的当前位置；(5)在当前目标位置周围提取正负样本存入队列；(6)每迭代10步对跟踪网络进行在线更新。本发明将卷积神经网络引入到车辆跟踪领域来，克服了现有技术中提取候选区域不准确，特征提取不充足，分类器分类不准确等不足，使得跟踪的结果更加准确。

虽然目前道路监控设备日益改进，出现了可以测出车辆速度等信息的探针摄像头等新型设备，但仍有众多区域的道路采用普通监控摄像头，且不可能在较短时间内将全部普通摄像头换为更昂贵的高级设备。本发明实现了在普通监控摄像头存在的路段，对前进或静止状态下的车辆进行实时识别与跟踪，这一发明可以应用于及时处理特殊交通状况、计算车辆前进速度、交警追踪特定车辆等方面，在不更换设备的情况下，基本实现了探针摄像头的功能，具有极大的经济效益与实际工程意义。

实施例2

基于卷积神经网络的车辆识别和跟踪方法同实施例1，本发明步骤(1b)中所述的构建快速区域卷积神经网络，参见图2，快速区域卷积神经网络的结构依次是，卷积层conv1，池化层pool1，卷积层conv2，池化层pool2，卷积层conv3，池化层pool3，卷积层conv4，池化层pool4，卷积层conv5，卷积层rpn_conv，卷积层rpn_cls_score，卷积层rpn_bbox_pred，感兴趣区域池化层roi_pool，全连接层fc6，全连接层fc7，全连接层fc8，分类层cls_prob，坐标层bbox_pred。

实施例3

基于卷积神经网络的车辆识别和跟踪方法同实施例1-2，步骤(1b)中所述构建的快速区域卷积神经网络的步骤如下：

(1b.1)，将任意尺寸大小的监控图像输入卷积层conv1，用64个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到64通道特征图；

(1b.2)，将卷积层conv1输出的64通道特征图输入到池化层pool1,得到64通道特征图；

(1b.3)，将池化层pool1输出的64通道特征图输入到卷积层conv2，用128个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到128通道特征图；

(1b.4)，将卷积层conv2输出的128通道特征图输入到池化层pool2,得到128通道特征图；

(1b.5)，将池化层pool2输出的128通道特征图输入到卷积层conv3，用256个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到256通道的特征图；

(1b.6)，将卷积层conv3输出的256通道特征图输入到池化层pool3,得到256通道特征图；

(1b.7)，将池化层pool3输出的256通道特征图输入到卷积层conv4，用512个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到512通道的特征图；

(1b.8)，将卷积层conv4输出的512通道特征图输入到池化层pool4,得到512通道特征图；

(1b.9)，将池化层pool4输出的512通道特征图输入到卷积层conv5，用512个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到512通道的特征图；

(1b.10)，将卷积层conv5输出的512通道特征图输入卷积层rpn_conv，用512个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到512通道的特征图；

(1b.11)，将卷积层conv5输出的512通道特征图输入卷积层rpn_cls_score，用18个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到18通道的特征图；

(1b.12)，将卷积层rpn_conv输出的512通道特征图输入卷积层rpn_bbox_pred，用36个卷积核，对其进行块大小为3×3像素和步长为1像素的卷积操作，得到36通道的特征图；

(1b.13)，将卷积层rpn_cls_score输出的18通道特征图的输出结果按照大小进行排序，找到分数最高的前300个位置，在卷积层rpn_bbox_pred输出的对应位置找到对应值计算出300个候选区域的位置坐标；

(1b.14)，将卷积层conv5输出的512通道特征图和上一步计算出的300个候选区域坐标输入感兴趣区域池化层roi_pool，在conv5输出的512通道特征图上选取300个候选区域；

(1b.15)，将感兴趣区域池化层roi_pool输出的300个512通道候选特征图输入全连接层fc6，输出300个维度为4096的特征向量；

(1b.16)，将全连接层fc6输出的300个维度为4096的特征向量输入全连接层fc7，输出为300个维度为4096的特征向量；

(1b.17)，将全连接层fc7输出的300个维度为4096的特征向量输入全连接层fc8，输出为300个维度为6的特征向量；

(1b.18)，将全连接层fc8输出的300个维度为6的特征向量输入分类层cls_prob，分类层输出公式为：

其中x_i为输出的6维向量中每一维度的输出值，x_max为这6维向量输出的最大值，得到的f(x_i)值即为每一类的分类概率；

(1b.19)，将全连接层输出的300个维度为6的特征向量输入坐标层bbox_pred，输出为300个维度为24(框的4个顶点坐标*6类)的特征向量，为每一类的对应的位置坐标；

(1b.20)，根据cls_prob层输出的分类概率和bbox_pred层输出的位置坐标得到快速区域卷积神经网络的总损失函数L({p_i},{t_i})：

其中，i为特征图上每个位置的序号，N_cls为候选区域的数目，N_reg为所有预测出的位置坐标数目，λ为正则化参数，p_i为预测出第i个位置是否为物体的可能性，

为实际第i个位置是否为物体的标签，

为1表示第i个位置是物体，

为0表示第i个位置不是物体，

为二分类交叉熵，定义为：

t_i为预测出的物体位置，

为物体的实际位置，

为物体位置的损失函数，定义为：

其中，smooth_L1(x)为一次误差平滑函数，定义为：

利用梯度下降法不断优化总损失函数，一共重复迭代4万次。

本发明采用该快速卷积神经网络提取车辆、行人等物体的特征，不需要使用复杂的特征工程，可以自动学习出适合道路车辆、行人等的深度特征，具有非常高的普适性和鲁棒性。

实施例4

基于卷积神经网络的车辆识别和跟踪方法同实施例1-3,步骤(3)中所述的离线训练跟踪卷积神经网络模型，参见图3，跟踪卷积神经网络的结构依次是，卷积层conv1，池化层pool1，卷积层conv2，池化层pool2，卷积层conv3，池化层pool3，卷积层conv4，池化层pool4，卷积层conv5，感兴趣区域池化层roi_pool，全连接层fc6，全连接层fc7，分类层cls_prob。其中，卷积层conv1，池化层pool1，卷积层conv2，池化层pool2，卷积层conv3，池化层pool3，卷积层conv4，池化层pool4，卷积层conv5中的参数是与快速区域卷积神经网络共享的。

实施例5

基于卷积神经网络的车辆识别和跟踪方法同实施例1-4，步骤(3d)中所述离线训练跟踪卷积神经网络的步骤如下：

(3d.1)，将候选框的映射坐标(128×4维)和通过计算交叠率得到的候选框标签(128×1维)合并为128×5维训练样本，其中有32个正样本，96个负样本；

(3d.2)，将

维训练样本与跟踪神经网络第5层的输出特征图输入roi_pool感兴趣区域池化层，将特征图上对应的感兴趣区域下采样到7×7像素大小，输出为128个512通道的特征图；

(3d.3)，将感兴趣区域池化层roi_pool输出的128个512通道的特征图输入全连接层fc6，得到128个4096维的特征向量；

(3d.4)，将全连接层fc6输出的128个4096维的特征向量输入全连接层fc7，得到128个6维的特征向量；

(3d.5)，将全连接层fc7输出的128个2维的特征向量输入分类层cls_prob，分类层的输出公式为：

(3d.6)，将分类层cls_prob输出的128个2维的特征向量与第1步中得到的128×1

维候选框标签带入以下公式，计算分类的损失函数：

p_i为预测出第i个候选区域是否为原物体的可能性，

为实际第i个位置是否为物体的标签，

为1表示第i个候选区域是原物体，

为0表示第i个位置不是原物体；

(3d.7)，利用梯度下降法优化(3d.6)中的损失函数，重复执行步骤(3d.1)-(3d.6)30次,完成离线训练。

本发明跟踪网络的主要计算困难集中于卷积层参数的计算，全连接层及分类层的计算量远小于卷积层，本发明中共享卷积层参数可以使得训练跟踪网络的计算开销及训练时间大大降低，提升了时间特性。

实施例6

基于卷积神经网络的车辆识别和跟踪方法同实施例1-5，步骤(6)中所述在线训练跟踪卷积神经网络的步骤如下：

(6a)，在正样本队列中随机选取32个正样本感兴趣区域(像素尺寸为512×7×7大小)，在负样本队列中随机选取96个负样本感兴趣区域(像素尺寸为512×7×7大小)，合并为128个感兴趣区域样本；

(6b)，将正样本对应的标签(32×1维)和负样本对应的标签(96×1维)合并为128×1维训练标签，其中有32个标签为1，96个标签为0；

(6c)，将第1步中128个感兴趣区域样本输入全连接层fc6，得到128个4096维的特征向量；

(6d)，将全连接层fc6输出的128个4096维的特征向量输入全连接层fc7，得到128个2维的特征向量；

(6e)，将全连接层fc7输出的128个2维的特征向量输入分类层cls_prob，分类层的输出公式为：

(6f)，将分类层cls_prob输出的128个2维的特征向量与第1步中得到的128×1维候选框标签带入以下公式，计算分类的损失函数：

p_i为预测出第i个候选区域是否为原物体的可能性，

为实际第i个位置是否为物体的标签，

为1表示第i个候选区域是原物体，

为0表示第i个位置不是原物体；

(6g)，利用梯度下降法优化损失函数，重复执行步骤(6a)-(6f)20次，完成在线训练。

进行在线学习是为了避免某一帧离线学习出现的错误对后续所有的识别跟踪结果产生毁灭性的影响。此外，本发明采用的在线学习还能增加训练样本，在使用过程中使网络进行自我提升，大大提高网络的泛化性、健壮性。

本发明的效果可以通过以下仿真实验作进一步说明。

实施例7

基于卷积神经网络的车辆识别和跟踪方法同实施例1-6

仿真实验条件：

本发明的实验仿真环境为：

软件：ubuntu 14.04，Ipython2.7

处理器：Intel Xeon(R)CPU E5-2609v2@2.5GHZ×8

内存：125.9GB

本发明的仿真实验所用到的图像如附图5、6、7、8、9所示。图像来源于监控视

频截图。

仿真实验内容：

以图5作为输入，利用本发明对其中三个物体进行追踪，结果如图6、7、8、9所示。

仿真实验结果分析：

对比图5、6、7中目标框，分别是对应于本发明在跟踪过程中的第1、第2、第20帧，这3帧间隔在一秒之内，可以发现车辆在较短时间内高速行驶的情况下，目标框未出现错误，表明本发明完全可以满足短时间内跟踪识别的准确性。

对比图5、9中目标框，分别是对应于本发明在跟踪过程中第1、第60帧，本例中2帧间隔较长，车辆在空间位置上发生了较大的改变，但从结果可以看出，目标框的跟踪识别状态十分优秀，未出现错误，表明本发明不仅能满足短时间间隔、小位移跟踪，还可以满足长时间间隔、大位移情况下的跟踪与识别。

对比图5、6、7、8、9中的目标框，从结果可以看出，本发明生成的物体追踪框位置合理明确，未出现明显错误，与已存在技术相比耗费时间由秒级缩短至百毫秒级，跨越了一个数量级，基本满足时间特性要求，说明本发明能成功进行多物体识别追踪，且准确度、实时性等性能较好，可以满足在基础设施不十分良好的路段的实际应用。

综上所述，本发明公开的一种基于卷积神经网络车辆识别与跟踪方法。解决了现有技术难以在高精度情况下保证即时性的问题，克服了提取候选区域不准确、特征提取不充足、分类器分类不准确，跟踪识别所用时间过长等不足。实现步骤为：构建并训练快速区域卷积神经网络；对监控视频初始帧进行处理与识别；离线训练跟踪卷积神经网络；提取与选择最佳候选框；生成样本队列；在线迭代训练自我学习；获取目标图像，实现即时车辆识别与跟踪。本发明将Faster-rcnn与跟踪卷积神经网络相结合，使用卷积神经网络提取了车辆健壮性极好、代表性强的高层特征；通过网络融合以及在线-离线训练交替进行的方式，在保证高精确度的基础上，缩短了跟踪识别所需时间。使得识别的结果更加准确、跟踪时间更短。配合普通摄像头的完成车辆的即时识别与跟踪。