CN113205026B

CN113205026B - 一种基于Faster RCNN深度学习网络改进的车型识别方法

Info

Publication number: CN113205026B
Application number: CN202110451591.4A
Authority: CN
Inventors: 付仲良; 胡捷; 李刚
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-08-16
Anticipated expiration: 2041-04-26
Also published as: CN113205026A

Abstract

本发明提出了一种基于Faster RCNN深度学习网络改进的车型识别方法。本发明引入原始图像数据，处理并构建车型识别图像数据集与训练集；构建特征提取网络，将训练集样本图像输入至特征提取网络，得到样本的融合特征图；构建RPN目标识别网络，将融合特征图作为输入数据输入目标识别网络，得到目标识别候选区域；构建车型分类模块，将融合特征图与候选框区信息输入至综合多分类器，判别候选区域内车型，并通过位置回归确定目标定位框坐标；构建网络整体损失函数模型；训练整体网络；本发明基于Faster RCNN深度学习网络，在VGG16网络基础上借鉴HED网络改进特征提取层与全连接分类层设计，显著提升对实时交通影像中的车辆车型信息识别速度与准确度。

Description

一种基于Faster RCNN深度学习网络改进的车型识别方法

技术领域

本发明涉及计算机图像识别领域，尤其涉及一种基于Faster RCNN深度学习网络改进的车型识别方法。

背景技术

为了实现对行驶中车辆进行实时车型识别的任务，目前普遍采用基于图像处理的方法，需要借助计算机视觉领域的特定算法对实时获取的一系列视频帧进行特征提取、车辆目标定位以及车辆车型识别。常用的算法包括基于特征提取的图像处理方法和基于神经网络的深度学习方法。

基于特征提取的图像处理识别方法需要人为地设计特征提取算子来提取车辆特征，如HOG，SIFT等，从而实现对车型的识别。这些传统的特征提取方法不仅需要在识别过程中做大量的运算，而且在进行识别处理之前，还需要对输入的车辆图像进行预处理，进一步增加了识别的工作量，使得全流程工作量巨大、耗时过长，同时识别的准确率也不够高，处理速度与准确率均无法满足实时交通管理的需求。

基于卷积神经网络的深度学习方法是在特征提取的基础上提出的改进方案，提高了识别的速度和针对图像变形的鲁棒性，更好地适应了实时应用的需求。但依旧存在因不同车型相似度较高导致识别准确率不高、同一类型的车辆因差距过大导致分类错误、在复杂背景中或者复杂天气环境下识别准确率下降等问题。

发明内容

本发明通过采用受整体嵌套边缘检测网络(Holistically-Nested EdgeDetection，HED网络)启发改进的特征提取模块(backbone)提取车辆目标识别所需特征信息，并采用区域生成网络(Region Proposal Network，RPN网络)生成目标候选框参与目标位置确定的修正训练，最后采用将SoftMax损失函数与中心损失函数融合的改进多分类器，提出了一种基于Faster RCNN深度学习网络改进的车型识别算法。

本发明的技术方案为一种基于Faster RCNN深度学习网络改进的车型识别算法，包括以下内容：

步骤1：引入原始车辆图像数据集，将原始车辆图像数据集中每幅原始车辆图像进行格式判别与解码，并对图像进行图像的宽高调整使规格统一化，得到预处理后车辆图像数据集，将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像，通过多个样本图像构建车型识别图像数据集，在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型(即车型)，直到各目标类型样本数量均大于训练所需阈值，以此构建车辆图像车型识别网络训练集；

步骤2：构建特征提取网络，将步骤1中所述车辆图像车型识别网络训练集每个样本图像依次输入至特征提取网络，得到每个样本图像对应的融合特征；

步骤3：构建RPN目标识别网络，将步骤2中所述每个样本图像对应的融合特征作为输入数据依次输入目标识别网络，得到每个样本图像的目标识别候选区域；

步骤4，构建车辆车型分类模块，将步骤3中的融合特征neoFeatureMap_s与候选框区域信息集合anchors′_i，s(a，b，w，h)输入至包含改进的Softmax综合多分类器，对候选区域内的目标车型进行类别判断，并通过位置回归确定目标定位框最终坐标；

步骤5，构建网络整体损失函数模型；

步骤6，训练整体网络，将前述步骤2～5构建的网络按照以下流程进行训练；

作为优选，步骤1所述车型识别图像数据集为：

{VehicleType_s(m，n)，s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]}

其中，VehicleType_s(m，n)表示车型识别图像数据集中第s幅车辆图像第m行第n列的像素信息，S表示车型识别图像数据集中所有图像样本的数量，M₀为车型识别图像数据集中每幅含车辆图像的行数，N₀为车型识别图像数据集中每幅车辆图像的列数；

步骤1所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框坐标为：

其中，l表示车辆图像上的左，t表示车辆图像上的上，r表示车辆图像上的右，b表示车辆图像上的下；S表示车型识别图像数据集中所有车辆图像的数量，K_s表示车型识别图像数据集中第s幅车辆图像中目标识别标记框的总数；box_s，k表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框的坐标，

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的坐标，

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的横坐标，

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的纵坐标；

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的坐标，

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的横坐标，

表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的纵坐标；

步骤1所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息为：

label_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]

其中，C为车型识别图像数据集中车辆类型的总数，包括公交车，小型客车，小型货车，轿车，SUV和卡车这六个车辆类型；label_s，k，c表示车型识别图像数据集中第s幅车辆图像的第k个目标识别标记框属于第c种车辆类型；

步骤1所述车辆图像车型识别网络训练集为：

{VehicleType_s(m，n)，(box_s，k，label_s，k，c)}

s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]，k∈[1，K_s]，c∈[1，C]

其中，VehicleType_s(m，n)表示车型识别网络训练集中第s幅道路车辆图像第m行第n列的像素信息，box_s，k表示车型识别网络训练集中第s幅车辆图像中第k个目标识别标记框的坐标，label_s，k，c表示车型识别网络训练集中第s幅车辆图像第k个目标识别标记框属于第c种车辆类型；S表示车型识别网络训练集中所有图像样本的数量，M₀为车型识别网络训练集中每幅车辆图像的行数，N₀为车型识别网络训练集中每幅车辆图像的列数，K_s表示车型识别网络训练集中第s幅车辆图像中目标识别标记框的总数，C为车型识别网络训练集中的车辆类型总数；

作为优选，步骤2所述特征提取网络包括：第一卷积层、第二卷积层、...、第L_A卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第L_B改进的最大池化层、特征融合层，2*L_B＜L_A且原则上每两个改进的最大池化层之间串联的卷积层数量≥2；

所述的第一卷积层、第二卷积层、...、第L_A卷积层依次级联；

所述的第一卷积层、第二卷积层、...、第L_A卷积层中选择L_B组相邻的卷积层，每组组相邻的卷积层分别通过第t改进的最大池化层级联连接，t∈[1,L_B]；

所述第L_A卷积层与所述特征融合层连接；

所述第t改进的最大池化层与所述特征融合层连接，t∈[1,L_B]；

步骤1中所述的图像训练集中每个样本图像输入至所述第一卷积层；

所述第t改进的最大池化层包含侧输出通道、池化处理单元的处理通道；

所述第t改进的最大池化层的侧输出通道将相邻的上一层串联的卷积层，即第q卷积层的输出特征不经处理直接作为侧输出特征输出至特征融合层，其中q∈[2t-1,2L_B-1]；

所述第t改进的最大池化层的处理通道通过使用核为2×2、步长为2的最大值池化矩阵处理上一层串联的卷积层即第q卷积层的输出特征，其中q∈[2t-1,2L_B-1]，通过步长为2的最大值池化操作遍历特征矩阵，得到第t最大池化特征，输出至相邻的下一层串联卷积层，即第q+1卷积层；

所述第L_A卷积层输出卷积特征；

所述特征融合层由尺寸调整模块与融合模块串联级联构成；

所述尺寸调整模块为并联结构，由L_B个尺寸调整单元并联组成，第1最大池化层侧输出特征、第2最大池化层侧输出特征、...、第L_B最大池化层侧输出特征分别输入尺寸调整模块对应的尺寸调整单元；

对应卷积特征尺寸为N×N×M，则每个尺寸调整单元将对输入的最大池化特征进行卷积处理，通过M个尺寸为1×1的卷积核将特征矩阵的通道数调整为M，随后进行池化处理，通过1个尺寸为N×N、步长为N的卷积核将特征矩阵的尺寸最终调整为N×N×M，得到尺寸调整后最大池化特征；

尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第L_B最大池化层侧输出特征与卷积特征尺寸一致，该模块将L_B+1个特征一并输出至融合模块中；

所述融合模块对尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第L_B最大池化层侧输出特征、卷积特征进行求和融合处理，融合模块最终输出图像训练集中每个样本图像对应的融合特征FeatureMap_s，其中s∈[1，S]，S表示车型识别网络训练集中所有图像样本的数量，为M维N×N规格的特征矩阵集合；

作为优选，步骤3所述目标识别网络包括：候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层；

所述候选框生成层依次串联前景背景分类层和候选区域定位层；

所述前景背景分类层与所述候选区域定位层并联连接，进一步接入候选区域选定层；

所述候选区域选定层与所述感兴趣区域池化层连接；

步骤2中所述每个样本图像的融合特征即FeatureMap_s输入所述候选框生成层，其中s∈[1，S]；

所述候选框生成层由一个大小为3×3卷积核对输入的融合特征FeatureMap_s进行卷积处理，在不改变特征维度的情况下使特征图上每个特征点f_i，i∈[1，N×N]融合周围大小为3x3范围内的空间信息，产生特征点F_i，i∈[1，N×N]，形成neoFeatureMap_s，其中s∈[1，S]，随后针对neoFeatureMap_s上的每一个特征点F_i，以该点为中心，产生k个的大小及形状各不相同的框，这些框以该特征点为中心，将这k个框称为锚，将锚定义为anchor_i，j，s，每个anchor_i，j，s包含特征点位置信息a，b以及框的宽高w，h，即：

{anchor_i，j，s(a，b，w，h)，i∈[1，N×N]，j∈[1，k]，s∈[1，S]，a∈[1，N]，b∈[1，N]，w∈[1，3]，h∈[1，3]}

其中，i表示该锚对应的特征点F_i的序号，j表示该锚为特征点F_i上的第j个锚，s表示该锚位于第s张样本图像对应的neoFeatureMap_s上，a表示该锚对应中心即特征点F_i的横坐标，b表示该锚对应中心即特征点F_i的纵坐标，w表示该锚的对应框宽度，h表示该锚的对应框高度，anchor_i，j，s表示第s幅样本图像对应特征图的第i个特征点的第j个锚；

对于每个尺寸为N×N的FeatureMap_s，会分别输出包含k×N×N个锚的特征图信息至前景背景分类层与候选区域定位层；

所述前景背景分类层包含一个Softmax分类器，将输入的融合特征FeatureMap_s中每一个锚进行二分类Softmax卷积分类判定，对应的k×N×N个锚均会产生用于判别该锚为背景background或前景foreground的分数值score_i，s，b\f，其中i∈[1，N×N×k]，s∈[1，S]，s∈[1，S]}，根据Softmax二分类结果决定下标，即每个锚对应代表前景与背景的分数值，当分数值下标为b时该锚对应背景区域，当分数值下标为f时该锚对应前景区域，每个融合特征将产生(k×N×N)个分数值score_i，s，b\f，并输出至候选区域选定层，对应的二分类损失函数为L_{cls_rpn}；

所述候选区域定位层使用边界回归算法对每个锚求得位置偏移量与尺度偏移量集合Δ，设置偏移量阈值q，即{Δ_i，s＝(t_a，t_b，t_w，t_h)，i∈[1，N×N×k]，s∈[1，S]，t_a∈(0，q)，t_b∈(0，q)，t_w∈(0，q)，t_h∈(0，q)}，将(k×N×N)个偏移量集合Δ输出至候选区域选定层，对应的边界回归损失函数为L_{reg_rpn}；

所述候选区域选定层输入(N×N×k)个锚和偏移量集合Δ，首先根据偏移量阈值q对偏移量集合进行筛选，剔除位置偏移量或尺度偏移量大于q的对应锚，之后再利用位置偏移信息对所有的锚做位置修正：每个Δ_i，s对应一个anchor_i，j，s(a，b，w，h)通过对应值补偿进行位置修正处理，然后按照前述前景背景分类层中Softmax分类器判定前景所打的k个Score_i，s，f由大到小进行排列，取排名前P个锚，接着剔除超出图像边界或尺寸过小的锚，最后对剩下的锚做NMS(非极大值抑制)处理，包括以下步骤：

将所有框的得分排序，选中最高分及其对应的框；

遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，将该框删除；

从未处理的框中继续选一个得分最高的，重复上述过程，直到每一特征点最多保留一个锚；

将候选区域信息anchors′_i，s(a，b，w，h)，i∈[1，N×N]，s∈[1，S]，输出至ROI池化层；

所述感兴趣区域池化层接收由上述候选区域选定层输出的候选框区域anchors′_i，s以及步骤2输出的融合特征FeatureMap_s，将每个候选区域对应的FeatureMap区域等分为pool_w×pool_h的网格，对网格的每一份进行大小为2×2步长为2的max pooling最大池化操作，将大小尺寸不一样的候选区域框统一为标准尺寸，并输出经池化处理的anchors′_i，s(a，b，w，h)至车辆车型分类模块；

作为优选，步骤4所述车辆车型分类模块包括：全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层；

所述的全连接预处理层分别与所述的改进的Softmax综合多分类器串联连接、位置回归层依次连接；

所述位置回归层与所述输出层连接；

所述改进的Softmax综合多分类器与所述输出层连接；

所述全连接预处理层由第一全连接模块、第二全连接模块串联组成；

每个全连接模块由全连接层、Relu函数激活层串联组成；

步骤3中所述包含特征与候选框区域的集合anchors′_i，s(a，b，w，h)，i∈[1，N×N]，s∈[1，S]与neoFeatureMaps，s∈[1，S]输入所述全连接预处理层；

经所述的第一全连接模块、第二全连接模块全连接处理后将得到处理后的融合特征neoFeatureMap′_s，输入至所述的改进的Softmax综合多分类器，将得到的处理后目标锚anchors″_i，s输入至位置回归层；

所述改进的Softmax综合多分类器接收全连接处理层输入的特征信息，输出第s幅样本图像对应特征图的第k个候选区域属于第c类的概率数值label_score_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]至输出层，其中S为所有样本图像总数，K_s为第s幅车辆图像中目标识别标记框的总数，C为车型识别图像数据集中车辆类型的总数，相应的改进的Softmax多分类损失函数为L_{cls_fast}，该损失函数由中心损失函数L_s和Softmax损失函数L_s+L_c融合组成，即：L_{cls_fast}＝L_s+L_c；

所述位置回归层接收全连接处理层输入的anchors位置信息anchors″_i，s(a，b，w，h)，使用边界回归算法处理，设置偏移量阈值q′，输出位置偏移量集合Δ′_i，s，即{Δ′_i，s＝(t′_a，t′_b，t′_w，t′_h)，i∈[1，N×N]，s∈[1，S]，t′_a∈(0，q′)，t′_b∈(0，q′)，t′_w∈(0，q′)，t′_h∈(0，q′)}，其中i表示该偏移量对应锚所对应特征点F_i的序号，S表示所有样本图像总数，相应的位置回归损失函数为L_{reg_fc}；

所述输出层接收综合多分类器的分类数值结果label_score_s，k，c，以及位置回归层的位置偏移量集合Δ′_i，s，每个Δ′_i，s对应一个anchor″_i，s(a，b，w，h)通过对应值补偿进行位置修正处理，最终输出结果包括：输出车型识别网络训练集中所有图像样本对应的最终定位框位置集合box_out_s，k，s∈[1，S]，k∈[1，K_s]和最终车型分类结果集合label_out_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]；

其中：

所述定位框集合表达式box_out_s，k的角标含义与所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框表达式box_s，k对应，所述车型分类结果集合表达式label_out_s，k，c的角标含义与所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息表达式label_s，k，c对应，区别在于box_s，k和label_s，k，c为给定真值，而box_out_s，k和label_out_s，k，c中相应的值为训练输出结果；

作为优选，步骤5所述网络整体损失函数模型为：

L_total＝L_{cls_rpn}+L_{cls_fast}+L_{reg_rpn}+L_{reg_fast}

其中，L_{cls_rpn}表示RPN网络中二分类损失函数，L_{reg_rpn}表示RPN网络中位置回归损失函数，L_{cls_fast}表示车辆车型分类模块中多分类损失函数，L_{reg_fast}表示车辆车型分类模块中位置精修处理的位置回归损失函数；

所述RPN网络中二分类损失函数的公式如下：

其中，p_i为anchor被预测为目标的概率，

表示样本的标签值，当其为目标时，

取值为1，当其为背景时，

取值为0，N×N×k为锚的总数量；如公式所示，L_{cls_rpn}是一个二分类交叉熵对数损失函数，计算每一个anchor的对数损失，然后对所有anchors的损失求和，再除以anchors总数；

所述RPN网络中位置回归损失函数的公式如下：

其中，N×N×k为正负样本的总数，Δ_i，s＝(t_a，t_b，t_w，t_h)，表示预测anchor的位置偏移量，

是与Δ_i，s相同维度的向量，表示anchor与真实位置的实际偏移量。

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0。R是smoothL1函数，公式如下所示：

其中，σ一般取值为3；

所述车辆车型分类模块中多分类损失函数的公式如下：

L_{cls_fast}＝L_s+L_c，

其中，x_i为第i深度特征，W_j为最后一个全连接层中权重的第j列，b为偏置项，m、n分别为处理的样本数量与类别数。C_yi为第i类的特征中心坐标，anchors″_j，s(a，b)为输入特征坐标。β为权重参数，β在0到1之间进行取值，是一个可以调节两个损失函数贡献比例的超参数。当增大β时，在整个目标函数中，类内差异所占的比重也相应增大，生成的特征就会有明显的内聚性；当减小β时，在整个目标函数中，类内差异所占的比重也相应减小；

所述车辆车型分类模块中位置精修处理的位置回归损失函数的公式如下：

其中，N_reg为正负样本的总数，Δ′_i，s＝(t′_a，t′_b，t′_w，t′_h)，表示预测anchor的位置偏移量，

是与Δ′_i，s相同维度的向量，表示对应锚与真实位置的实际偏移量。

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0，。R是smoothL1函数，与前述结构相同；

作为优选，所述步骤6具体如下：

单独训练RPN网络，用ImageNet预训练的模型初始化训练的模型，通过end to end的方法对参数进行微调，经过该步骤特征提取模块和RPN网络的参数得到了更新；

单独训练特征提取网络与车辆车型分类模块(此处将两者合称Fast rcnn网络)，训练时用到的proposal由第一步中的RPN生成，同样使用ImageNet预训练的模型初始化Fast rcnn网络，此时的RPN和Fast rcnn网络暂无共享网络，经过该步骤特征提取网络与Fast rcnn网络的参数得到更新；

用Fast rcnn网络初始化RPN网络训练，固定共享的卷积层(即所述步骤3中候选框生成层处理的第一步3×3卷积处理单元)，只调整RPN的网络层，从而实现卷积层的共享。经过该步骤只有RPN的参数得到更新；

继续固定共享的卷积层，以上一步更新后的RPN生成的proposal为输入，对Fastrcnn网络的参数进行微调，此时，RPN和Fast rcnn共享相同的卷积层，形成统一的网络，Fast rcnn网络的参数得到更新。

本发明的优势在于：提出了一种基于深度学习识别车型信息的算法，不需要进行额外的数据预处理以及人工设计特征提取算子，减少了车型识别算法的复杂度并加快了识别效率。在Faster RCNN神经网络的基础上，改进了特征提取网络，将浅层特征与深层特征结合使用，同时引入中心损失层与SoftMax损失函数共同监督网络分类，使得类间分散性和类内紧密性得到提升，显著提升粗粒度车型识别的速率和准确度。

附图说明

图1是本发明实施例算法流程示意图；

图2是本发明的深度学习算法构成示意图；

图3是本发明的目标特征提取网络改进结构示意图；

图4是本发明的目标多分类器设计示意图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明第一实施例为一种基于Faster RCNN深度学习网络改进的车型识别算法，包括以下步骤：

步骤1：引入原始车辆图像数据集，将原始车辆图像数据集中每幅原始车辆图像进行格式判别与解码，并对图像进行

图像的宽高调整使规格统一化，得到预处理后车辆图像数据集，将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像，通过多个样本图像构建车型识别图像数据集，在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型(即车型)，直到各目标类型样本数量均大于训练所需阈值，以此构建车辆图像车型识别网络训练集；

步骤1所述车型识别图像数据集为：

{VehicleType_s(m，n)，s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]}

其中，VehicleType_s(m，n)表示车型识别图像数据集中第s幅车辆图像第m行第n列的像素信息，S＝9850表示车型识别图像数据集中所有图像样本的数量，M₀＝1080为车型识别图像数据集中每幅含车辆图像的行数，N₀＝1920为车型识别图像数据集中每幅车辆图像的列数；

label_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]

其中，C＝6为车型识别图像数据集中车辆类型的总数，包括公交车，小型客车，小型货车，轿车，SUV和卡车这六个车辆类型；label_s，k，c表示车型识别图像数据集中第s幅车辆图像的第k个目标识别标记框属于第c种车辆类型；

步骤1所述车辆图像车型识别网络训练集为：

{VehicleType_s(m，n)，(box_s，k，label_s，k，c)}

s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]，k∈[1，K_s]，c∈[1，C]

所述特征提取网络包括：第一卷积层、第二卷积层、...、第L_A卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第L_B改进的最大池化层、特征融合层，2*L_B＜L_A且原则上每两个改进的最大池化层之间串联的卷积层数量≥2；

所述第L_A卷积层与所述特征融合层连接；

所述第L_A卷积层输出卷积特征；

所述特征融合层由尺寸调整模块与融合模块串联级联构成；

所述目标识别网络包括：候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层；

所述候选区域选定层与所述感兴趣区域池化层连接；

将所有框的得分排序，选中最高分及其对应的框；

所述感兴趣区域池化层接收由上述候选区域选定层输出的候选框区域anchors′_i，s以及步骤2输出的融合特征FeatureMap_s，将每个候选区域对应的FeatureMap区域等分为pool_w×pool_h的网格，对网格的每一份进行大小为2×2、步长为2的maxpooling最大池化操作，将大小尺寸不一样的候选区域框统一为标准尺寸，并输出经池化处理的anchors′_i，s(a，b，w，h)至车辆车型分类模块；

所述车辆车型分类模块包括：全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层；

所述位置回归层与所述输出层连接；

所述改进的Softmax综合多分类器与所述输出层连接；

每个全连接模块由全连接层、Relu函数激活层串联组成；

所述位置回归层接收全连接处理层输入的anchors位置信息anchors″_i，s(a，b，w，h)，使用边界回归算法处理，设置偏移量阈值q′，输出位置偏移量集合Δ′_i，s，即{Δ′_i，s＝(t′_a，t′_b，t′_w，t′_h)，i∈[1，N×N]，s∈[1，S]，t′_a∈(0，q′)，t′_b∈(0，q′)，t′_w∈(0，q′)，t′_h∈(0，q′)}，其中i表示该偏移量对应锚所对应特征点Fi的序号，S表示所有样本图像总数，相应的位置回归损失函数为L_{reg_fc}；

其中：

步骤5，构建网络整体损失函数模型；

步骤5所述网络整体损失函数模型为：

L_total＝L_{cls_rpn}+L_{cls_fast}+L_{reg_rpn}+L_{reg_fast}

其中，L_{cls_rpn}表示RPN网络中二分类损失函数，L_{reg_rpn}表示RPN网络中位置回归损失函数，L_{cls_gast}表示车辆车型分类模块中多分类损失函数，L_{reg_fast}表示车辆车型分类模块中位置精修处理的位置回归损失函数；

所述RPN网络中二分类损失函数的公式如下：

其中，p_i为anchor被预测为目标的概率，

表示样本的标签值，当其为目标时，

取值为1，当其为背景时，

所述RPN网络中位置回归损失函数的公式如下：

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0。R是smoothL1函数，公式如下所示：

其中，σ一般取值为3；

所述车辆车型分类模块中多分类损失函数的公式如下：

L_{cls_fast}＝L_s+L_c，

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0，。R是smoothL1函数，与前述结构相同；

步骤6，训练整体网络，将前述步骤2～5构建的网络按照以下流程进行训练：

本发明的关键在于基于Faster RCNN深度学习网络完成对特征提取层与最终全连接分类层设计上的改进，有效提升对车辆车型识别的速度与准确度。

在道路交通领域，使用特定的深度学习网络可以从摄像头拍摄的实时交通图像中获取车辆的车型信息，Faster RCNN是其中一种可用的算法，本发明在此基础上进行改进工作。

车型识别的准确率取决于关键特征的提取，网络学习到高区分度的特征可以有效提高车型识别准确率，为此本发明借鉴HED网络改进了卷积神经网络的特征提取网络结构，融合浅层特征和深层特征，增强网络提取特征的能力以得到更具有区分度的特征信息，在VGG16网络的结构基础上添加侧输出层，在原有的特征提取模块加入了侧输出层，具体改进为分别在Conv1_2、Conv2_2、Conv3_3、Conv4_3卷积层后增加了侧输出层side_output_1、side_output_2、side_output_3、side_output_4。为了表述方便，将特征提取模块划分为Conv1_x、Conv2_x、Conv3_x、Conv4_x、Conv5_x、五个小模块，最后对所有的侧输出层和Conv5_x模块输出的特征进行融合处理，见图3，具体过程如下：

以输入图像A为例，假设A的尺寸为800x800，输入图像矩阵后，进行多尺度多层次特征提取。图像矩阵首先经过Conv1_1、Conv1_2两个卷积层处理，得到特征side_output_1,保存side_output_1(尺寸大小为800x800x64)，从Conv1_2卷积层输出的再通过池化层进行Max Pool 1池化处理，然后进行Conv2_1、Conv2_2卷积层处理，此处得到的特征记为side_output_2(尺寸大小为400x400x128)，保存side_output_2，Conv2_2卷积层得到的特征继续进行Max Pool 2池化层，3,4,5以此类推。因为side_output_1、side_output_2、side_output_3和side_output_4的尺寸不同(依次为800x800x64，400x400x128，200x200x256和100x100x512)，分别对side_output_1、side_output_2、side_output_3、side_output_4进行3x3卷积和池化操作，使得各个side_output的尺寸规格都变为50x50x512，与side_output_5一致，由此将5层输出融合，得到当前图像特征Feature Map。

接收混合特征图数据，经过RPN网络处理，识别目标与背景，并确定目标的大致坐标位置，确立候选区域并通过迭代回归的方式修正目标框位置，模块流程见图2左下角RPN部分，具体过程如下：

使用尺寸为3x3的卷积核对Feature Map做卷积操作，使得Feature Map上每个点的特征融合周围大小为3x3的空间信息。针对Feature Map上的每一个特征点，以该点为中心，产生k个的大小及形状各不相同的框，这些框以该特征点为中心，将这k个框称为anchors。在cls_layer中通过SoftMax分类器提取出前景区域，针对每一个anchor进行判定，判断该anchor是背景或者是前景，并将判断结果记为分数形式(score)，即一个anchor对应着两个分数，一是为前景的分数，二是为背景的分数，一个特征点对应k个anchors，则相应产生2k个打分，将其记为2k scores。其中判别前景与背景的二分类损失函数为：

其中，p_i为anchor被预测为目标的概率，

表示样本的标签值，当其为目标时，

取值为1，当其为背景时，

取值为0，N_cls表示anchors的总数量，如公式所示，L_{cls_rpn}是一个二分类交叉熵对数损失函数，计算每一个anchor的对数损失并求和，再除以anchors总数。

anchor框的位置和尺寸大小与实际目标框大小和位置有偏移，需要计算出中心点位置偏移量和尺寸偏移量。reg layer用于计算anchors的位置偏移量。在reg layer中，对每一个anchor的位置进行回归修正，由于anchor是由中心点和长宽确定的，所以计算中心点位置偏移量和长宽偏移量，即每个anchor有四个偏移量，一个特征点对应k个anchors，为4k个偏移量，记为4k coordinates。位置回归的损失函数为：

其中N_reg表示正负样本的总数，t_i＝(t_x，t_y，t_w，t_h)表示预测anchor的位置偏移量，

是与t_i相同维度的向量，表示anchor与真实位置的实际偏移量。

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0。R是smoothL1函数，公式如下：

其中，σ一般取值为3。

Proposal层接收cls layer的分类结果和reg layer计算得到的位置偏移量等信息。首先利用reg layer计算得到的位置偏移信息对所有的anchors做位置修正，再按照clslayer中SoftMax分类器判定前景的k scores由大到小排列，取排名前P个anchors，最后剔除超出图像边界或者尺寸过小的anchors。

经过上述三个步骤，剔除了一部分anchors，对剩下的anchors做NMS处理，再输出候选区域，进入ROI Pooling层。该层将候选区域对应的Feature Map区域等分为pool_w*pool_h的网格，对网格的每一份进行max pooling操作，将大小尺寸不一样的候选区域框统一为标准尺寸，方便分类工作的进行。

通过全连接层和经过设计的综合多分类器判断候选区域的具体类别，输出候选区域属于每种类别的概率数值，同时，再次利用边界回归方法获得每个候选区域的位置偏移量，用于回归更加精确的目标检测框，作为最终结果的一部分，输出准确的目标框+目标车型类别，综合多分类器设计见图4，具体如下：

将ROI Pooling的结果输入，即图4中的fc项，在faster RCNN原有的单个SoftMax多分类器基础上引入融合SoftMax损失函数和中心损失函数的新函数，紧缩类内距离以提高分类准确度，该函数公式如下：

其中，x_i为第i深度特征，W_j为最后一个全连接层中权重的第j列，b为偏置项，m、n分别为处理的样本数量与类别数。C_yi为第i类的特征中心，x_i为输入特征。β为权重参数，β在0到1之间进行取值。当增大β时，在整个目标函数中，类内差异所占的比重也相应增大，生成的特征就会有明显的内聚性；当减小β时，在整个目标函数中，类内差异所占的比重也相应减小。

实施例包括步骤如下：

步骤1，接收车辆图像数据，对图像数据进行预处理，针对神经网络训练要求，将图像数据以矩阵形式保存像素信息导入并重新调整为卷积层需要的输入规格；

步骤2，提取图像特征信息，获取关于车辆的特征图，接收经过修改的图像矩阵信息，输入基于VGG16卷积网络并参考整体嵌套边缘检测网络(Holistically-Nested EdgeDetection，HED网络)改进添加侧输出层的特征提取模块中，生成混合特征图(Mix featuremap)；

步骤3，根据特征图执行目标检测工作，接收混合特征图数据，经过RPN网络处理，识别目标与背景，并确定目标的大致坐标位置，生成区域建议框并通过迭代回归的方式修正目标框位置；

步骤4，通过全连接层和融合了中心损失函数与SoftMax的分类损失函数设计的综合多分类器计算并输出候选区域属于每种类别的概率数值，分类损失函数公式如式(6)

其中，x_i为第i深度特征，W_j为最后一个全连接层中权重的第j列，b为偏置项，m、n分别为处理的样本数量与类别数。C_yi为第i类的特征中心，x_i为输入特征。β为权重参数，在0到1之间进行取值；

步骤5，输出候选区域属于每种类别的概率数值，通过式一并利用边界位置回归方法获得每个候选区域的位置偏移量，用于回归更加精确的目标检测框，作为最终结果的一部分，输出准确的目标框+目标车型类别，位置回归损失函数公式如式(7)和(8)

其中，N_reg表示正负样本的总数，t_i＝(t_x，t_y，t_w，t_h)，表示预测anchor的位置偏移量，

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0。R是smoothL1函数，公式如式(9)

其中，σ一般取值为3。

具体实施时，首先从道路交通摄像头采集图像数据，将原始图像进行尺寸处理并规定大小，输入特征提取网络中进行训练，提取特征图，使用式(1)进行误差判断。将特征图引入RPN网络进行位置回归计算，使用式(2)和(3)参与偏移量修正计算，修正目标框位置。确定目标位置后在全连接层使用改进的多分类器，基于式(5)的进行分类计算，得出最终的车型识别结果和目标定位框位置信息。

虽然本发明描述的车辆车型识别方法是通过静态图像实现的，但在连续的视频流中通过逐帧处理也一样适用。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于Faster RCNN深度学习网络改进的车型识别方法，包括以下内容：

图像的宽高调整使规格统一化，得到预处理后车辆图像数据集，将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像，通过多个样本图像构建车型识别图像数据集，在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型即车型，直到各目标类型样本数量均大于训练所需阈值，以此构建车辆图像车型识别网络训练集；

步骤5，构建网络整体损失函数模型；

步骤1所述车型识别图像数据集为：

{VehicleType_s(m，n)，s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]}

其中，l表示车辆图像上的左，t表示车辆图像上的上，r表示车辆图像上的右，b表示车辆图像上的下；S表示车型识别图像数据集中所有车辆图像的数量，

K_s表示车型识别图像数据集中第s幅车辆图像中目标识别标记框的总数；box_s，k表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框的坐标，

label_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]

步骤1所述车辆图像车型识别网络训练集为：

{VehicleType_s(m，n)，(box_s，k，label_s，k，c)}

s∈[1，S]，m∈[1，M₀]，n∈[1，N₀]，k∈[1，K_s]，c∈[1，C]

步骤2所述特征提取网络包括：第一卷积层、第二卷积层、...、第L_A卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第L_B改进的最大池化层、特征融合层，2*L_B＜L_A且原则上每两个改进的最大池化层之间串联的卷积层数量≥2；

所述的第一卷积层、第二卷积层、...、第L_A卷积层中选择L_B组相邻的卷积层，每组组相邻的卷积层分别通过第t改进的最大池化层级联连接，t∈[1，L_B]；

所述第L_A卷积层与所述特征融合层连接；

所述第t改进的最大池化层与所述特征融合层连接，t∈[1，L_B]；

所述第t改进的最大池化层的侧输出通道将相邻的上一层串联的卷积层，即第q卷积层的输出特征不经处理直接作为侧输出特征输出至特征融合层，其中q∈[2t-1，2L_B-1]；

所述第t改进的最大池化层的处理通道通过使用核为2×2、步长为2的最大值池化矩阵处理上一层串联的卷积层即第q卷积层的输出特征，其中q∈[2t-1，2L_B-1]，通过步长为2的最大值池化操作遍历特征矩阵，得到第t最大池化特征，输出至相邻的下一层串联卷积层，即第q+1卷积层；

所述第LA卷积层输出卷积特征；

所述特征融合层由尺寸调整模块与融合模块串联级联构成；

步骤3所述目标识别网络包括：候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层；

所述候选区域选定层与所述感兴趣区域池化层连接；

所述候选框生成层由一个大小为3×3卷积核对输入的融合特征FeatureMap_s进行卷积处理，在不改变特征维度的情况下使特征图上每个特征点f_i，i∈[1，N×N]融合周围大小为3x3范围内的空间信息，产生特征点F_i，i∈[1，N×N]，形成neoFeatureMap_s，其中

s∈[1，S]，随后针对neoFeatureMap_s上的每一个特征点F_i，以该点为中心，产生k个的大小及形状各不相同的框，这些框以该特征点为中心，将这k个框称为锚，将锚定义为anchor_i，j，s，每个anchor_i，j，s包含特征点位置信息a，b以及框的宽高w，h，即：

所述前景背景分类层包含一个Softmax分类器，将输入的融合特征FeatureMap_s中每一个锚进行二分类Softmax卷积分类判定，对应的k×N×N个锚均会产生用于判别该锚为背景background或前景foreground的分数值score_i，s，b\f，其中i∈[1，N×N]，s∈[1，S]，根据Softmax二分类结果决定下标，即每个锚对应代表前景与背景的分数值，当分数值下标为b时该锚对应背景区域，当分数值下标为f时该锚对应前景区域，每个融合特征将产生(k×N×N)个分数值score_i，s，b\f，并输出至候选区域选定层，对应的二分类损失函数为L_{cls_rpn}；

所述候选区域定位层使用边界回归算法对每个锚求得位置偏移量与尺度偏移量集合Δ，设置偏移量阈值q，即

{Δ_i，s＝(t_a，t_b，t_w，t_h)，i∈[1，N×N×k]，s∈[1，S]，t_a∈(0，q)，t_b∈(0，q)，t_w∈(0，q)，t_h∈(0，q)}，将(k×N×N)个偏移量集合Δ输出至候选区域选定层，对应的边界回归损失函数为L_{reg_rpn}；

所述候选区域选定层输入(N×N×k)个锚和偏移量集合Δ，首先根据偏移量阈值q对偏移量集合进行筛选，剔除位置偏移量或尺度偏移量大于q的对应锚，之后再利用位置偏移信息对所有的锚做位置修正：每个Δ_i，s对应一个anchor_i，j，s(a，b，w，h)通过对应值补偿进行位置修正处理，然后按照前述前景背景分类层中Softmax分类器判定前景所打的k个

score_i，s，f由大到小进行排列，取排名前P个锚，接着剔除超出图像边界或尺寸过小的锚，最后对剩下的锚做NMS非极大值抑制处理，包括以下步骤：

将所有框的得分排序，选中最高分及其对应的框；

步骤4所述车辆车型分类模块包括：全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层；

所述位置回归层与所述输出层连接；

所述改进的Softmax综合多分类器与所述输出层连接；

每个全连接模块由全连接层、Relu函数激活层串联组成；

包含特征与候选框区域的集合anchors′_i，s(a，b，w，h)，i∈[1，N×N]，s∈[1，S]与neoFeatureMaps，s∈[1，S]输入所述全连接预处理层；

所述改进的Softmax综合多分类器接收全连接处理层输入的特征信息，输出第s幅样本图像对应特征图的第k个候选区域属于第c类的概率数值label_score_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]至输出层，其中S为所有样本图像总数，

K_s为第s幅车辆图像中目标识别标记框的总数，C为车型识别图像数据集中车辆类型的总数，相应的改进的Softmax多分类损失函数为L_{cls_fast}，该损失函数由中心损失函数L_s和Softmax损失函数L_c融合组成，即：L_{cls_fast}＝L_s+L_c；

所述位置回归层接收全连接处理层输入的anchors位置信息anchors″_i，s(a，b，w，h)，使用边界回归算法处理，设置偏移量阈值q′，输出位置偏移量集合Δ′_i，s，即{Δ′_i，s＝(t′_a，t′_b，t′_w，t′_h)，i∈[1，N×N]，s∈[1，S]，t′_a∈(0，q′)，t′_b∈(0，q′)，t′_w∈(0，q′)，t′_h∈(0，q′)}，其中i表示该偏移量对应锚所对应特征点F_i的序号，S表示所有样本图像总数；

所述输出层接收综合多分类器的分类数值结果label_score_s，k，c，以及位置回归层的位置偏移量集合Δ′_i，s，每个Δ′_i，s对应一个anchors″_i，s(a，b，w，h)通过对应值补偿进行位置修正处理，最终输出结果包括：输出车型识别网络训练集中所有图像样本对应的最终定位框位置集合box_out_s，k，s∈[1，S]，k∈[1，K_s]和最终车型分类结果集合

label_out_s，k，c，s∈[1，S]，k∈[1，K_s]，c∈[1，C]；

其中：

步骤5所述网络整体损失函数模型为：

L_total＝L_{cls_rpn}+L_{cls_fast}+L_{reg_rpn}+L_{reg_fast}

所述RPN网络中二分类损失函数的公式如下：

其中，p_i为anchor被预测为目标的概率，

表示样本的标签值，当其为目标时，

取值为1，当其为背景时，

所述RPN网络中位置回归损失函数的公式如下：

是与Δ_i，s相同维度的向量，表示anchor与真实位置的实际偏移量；

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0；R是smoothL1函数，公式如下所示：

其中，σ一般取值为3；

所述车辆车型分类模块中多分类损失函数的公式如下：

L_{cls_fast}＝L_s+L_c，

其中，x_i为第i深度特征，W_j为最后一个全连接层中权重的第j列，m、n分别为处理的样本数量与类别数；C_yi为第i类的特征中心坐标，anchors″_j，s(a，b)为输入特征坐标。β为权重参数，β在0到1之间进行取值，是一个可以调节两个损失函数贡献比例的超参数。当增大β时，在整个目标函数中，类内差异所占的比重也相应增大，生成的特征就会有明显的内聚性；当减小β时，在整个目标函数中，类内差异所占的比重也相应减小；

是与Δ′_i，s相同维度的向量，表示对应锚与真实位置的实际偏移量；

表示样本的标签，当其为目标时，

取值为1，当其为背景时，

取值为0，；R是smoothL1函数，与前述结构相同；

所述步骤6具体如下：

单独训练特征提取网络与车辆车型分类模块，此处将两者合称Fast rcnn网络，训练时用到的proposal由第一步中的RPN生成，同样使用ImageNet预训练的模型初始化Fast rcnn网络，此时的RPN和Fast rcnn网络暂无共享网络，经过该步骤特征提取网络与Fast rcnn网络的参数得到更新；

用Fast rcnn网络初始化RPN网络训练，固定共享的卷积层，即候选框生成层处理的第一步3×3卷积处理单元，只调整RPN的网络层，从而实现卷积层的共享；经过该步骤只有RPN的参数得到更新；

继续固定共享的卷积层，以上一步更新后的RPN生成的proposal为输入，对Fast rcnn网络的参数进行微调，此时，RPN和Fast rcnn共享相同的卷积层，形成统一的网络，Fastrcnn网络的参数得到更新。