CN107798335A

CN107798335A - 一种融合滑动窗口与Faster R‑CNN卷积神经网络的车标识别方法

Info

Publication number: CN107798335A
Application number: CN201710752741.9A
Authority: CN
Inventors: 高飞; 汪韬; 刘浩然; 卢书芳; 毛家发; 肖刚
Original assignee: Zhejiang Haoteng Electron Technology Co ltd; Zhejiang University of Technology ZJUT
Current assignee: Zhejiang Haoteng Electron Technology Co ltd; Zhejiang University of Technology ZJUT
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-03-13
Anticipated expiration: 2037-08-28
Also published as: CN107798335B

Abstract

本发明公开了一种融合滑动窗口与Faster R‑CNN卷积神经网络的车标定位与识别方法，本发明使用计算机视觉技术，通过识别车灯对车标进行粗定位，以应对车牌遮挡与无牌车的情况，并通过基于卷积神经网络解决了车标识别问题，通过RPN动态地生成正负样本，使每一次传入的样本都不一样，减少网络的过拟合程度，提高网络的鲁棒性，改善了以车牌辨车的传统工作模式，为打击汽车套牌、一车多牌、假牌照等违法犯罪行为提供了可靠帮助，进一步提高了智能交通的可靠性，节省了大量的人力成本。

Description

一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法

技术领域

本发明属于计算机视觉技术和图像处理技术领域，具体涉及一种车标定位与识别方法，具体为融合滑动窗口与Faster R-CNN卷积神经网络的车标定位与识别方法。

背景技术

二十世纪以来，世界各国的经济不断发展，汽车的种类与数量也越来越多。汽车作为一种便捷的代步和运输工具，与现代人类的生活息息相关。车辆在提供人们便利生活的同时，其停放和监管也成为一个急待解决的问题，因此，以人眼识别为主的传统道路监控方式便无法满足要求，现代化智能交通控制系统已成为未来全球道路交通的发展趋势和现代化城市的先进标志。近年来，遮挡车牌、汽车套牌等妨碍交通秩序的违法行为层出不穷，仅依靠车牌识别已不能适应当前的交通现状了，因此，车标识别技术变得更为重要，它可以弥补车牌识别的不足，从而进一步提高智能交通系统的可靠性。

目前，国内已有一些车标识别的方法，其中与本发明较为相近的技术方案包括：专利(陆辉；蒋恋华；张仁辉。车标定位与识别方法。 CN103310231A[P]。2013。)使用车牌来对车牌进行粗定位，犯罪车辆通常没有车牌或车牌被遮挡，此时无法正确识别车牌，在这种情况下，该方法无法正确识别车标；专利(叶茂。基于进气格栅定位的汽车车标样本训练及识别方法。CN104156692A[P]。2014。)使用识别车辆进气栅的方法识别车标,使用方向梯度直方图(HOG)算法对车头进气栅部分进行特征提取并用SVM训练与分类，由于不同品牌的车可能具有相似的进气栅纹理，而同一品牌车的进气栅也有可能不同，故该方法的识别率较低；发明专利(狄明珠，韩晶，方亚隽。基于主成分分析卷积神经网络的车标自动识别方法。CN105512684A [P]。2016)通过主成分分析(PCA)提取特征，通过膨胀腐蚀等形态学运算对车标进行定位并通过卷积神经网络对车标进行训练与识别，但次方法只能适应少部分车标的定位，大多数车标无法准确定位。

综上所述，在对车标进行识别时，当前方法存在如下不足：(1) 在无车牌时无法对车标进行粗定位；(2)识别速度较慢；(3)有时无法提取到正确的车标区域。本发明针对这些问题提出了一种基于 Faster R-CNN卷积神经网络的车标定位与识别方法。

发明内容

为解决上述问题，本发明的目的在于提供一种车标定位与识别方法，具体为融合滑动窗口与Faster R-CNN卷积神经网络的车标定位与识别方法。

所述的一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于具体步骤如下：

步骤1：定义车标种类集合为C＝{C_i|i＝1,…,t}，其中t为车标的总数，并建立相应的含ground truth的数据集；

步骤2：构建含有10层的卷积神经网络，10层依次是卷积层 Conv1，池化层Pool2，卷积层Conv3，池化层Pool4，卷积层Conv5，卷积层Conv6，卷积层Conv7，全连接层Fc8，全连接层Fc9，分类层Softmax及回归层bbox_prediction；为了生成区域建议窗口，在该网络卷积神经网络卷积层Conv7输出的特征图上滑动一个小网络，这个网络全连接到全连接层Fc8，对RPN区域建议网络进行初始化，设定建议窗口的滑动步长，滑动窗口尺寸等初始化信息，其中全连接层Fc8的输入特征大小为N*N*M，M为卷积层Conv7的输出特征图的维度，N为归一化后的特征图边长，单位为像素，分类层Softmax 的输出向量大小为t+1，回归层bbox_prediction的输出向量大小为4* (t+1)；

步骤3：使用步骤1中的车标数据集对卷积神经网络进行训练，得到训练好的卷积神经网络：

步骤4：利用训练好的卷积神经网络对输入的车辆图像I进行识别，具体为：

步骤4.1：识别车灯并根据车灯的位置对车标进行粗定位，得到车标粗定位区域R_c；

步骤4.2：将图像I输入训练好的卷积神经网络，得到Z个目标区域包围框集合bbox＝(bbox_i|i＝1,2,...,Z)与该区域的预测概率向量 bbox_i＝(x_i1,y_i1,x_i2,y_i2)，i＝1,2,...,Z,根据式(19)得到 bbox_i的识别结果及其概率

其中，为bbox_i区域为车标C_k的概率，k＝1,2,...,t，(x_i1,y_i1)为bbox_i左上角的坐标，(x_i2,y_i2)为bbox_i右下角的坐标，单位为像素；

步骤4.3：根据式(20)从上一步所得的集合bbox中筛选新的集合BBOX：

其中，N_b为集合BBOX中包围框的数量，ρ₁,ρ₂为比例系数；

步骤4.4：根据式(21)，得到车标定位的包围框bbox_maxk与其识别结果C_max，完成车标定位与识别：

其中，为bbox_maxk的得分。

所述的融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于步骤3中的对卷积神经网络进行训练的具体过程为：

步骤3.1：将一批数量为N_batch的训练集传入卷积神经网络并进行前7层的卷积与池化操作，得到N_batch张M维特征图；

步骤3.2：将上一步得到的特征图传入RPN区域建议网络，建议窗口对特征图进行目标提取并传入全连接层Fc8，具体为：

步骤3.2.1：采用2种不同尺寸和3种不同比例合成的6种规格的滑动窗口在特征图上自上而下、自左而右提取目标窗口其中i＝1,2,...,N_batch，j＝1,2,...,n_j，n_j为第j张特征图提取到的目标窗口的总数，窗口的滑动步长为1；

步骤3.2.2：将ground truth区域映射到M维特征图上，记为GT_i，其中i＝1,2,...,N_batch；

步骤3.2.3：根据式(1)，(2)划分前景样本集合PS与背景样本集合BS并从中剔除不属于PS与BS的样本：

其中，为与GT_i的交集占并集的比例，μ₁，μ₂为分类系数， 0＜μ₂＜μ₁＜1；

步骤3.2.4：将分割平均为N*N个小矩阵如式(3)所示：

其中，x＝1,2,...,N，y＝1,2,...,N；

步骤3.2.5：根据式(4)，(5)将窗口归一化为并输入Fc8：

其中，为窗口第x行第y列的像素值，x＝1,2,...,N， y＝1,2,...,N；

步骤3.3：全连接层Fc8输出的特征向量输入全连接层Fc9，构成一般神经网络；

步骤3.4：将全连接层Fc9输出的特征向量输出至分类层Softmax 与回归层bbox_prediction，Softmax用于判断特征的类型， bbox_prediction用于确定特征的目标位置，根据式(6)，(7)，(8)， (9)，(10)计算损失函数L({p_ij},{t_ij})，并根据链式法则逐步计算反向误差，更新各层的权重参数值，完成训练：

其中，为GT_i标签，设第i张特征图的标签为k＝1,2,...,t，则p_ij为是车标C_k的预测概率，t_ij为一个4维向量，表示预测包围框的4个参数坐标，为GT_i的包围框坐标向量，N_cls为分类层Softmax 的归一化系数，N_reg为回归层bbox_prediction的归一化系数，λ为平衡权重，L_cls为分类层Softmax的损失函数，L_reg为回归层 bbox_prediction的损失函数。

所述的融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于步骤4.1中的识别车灯并根据车灯的位置对车标进行粗定位的具体过程为：

步骤4.1.1：根据公式(11)对车灯进行粗定位，得到左车灯区域I_l与右车灯区域I_r：

其中，图像I的高度为height，宽度为width，为比例系数， k＝1,2,3，(x_l,y_l)为I_l左上角的坐标，h_l与w_l分别为I_l的高和宽，(x_r,y_r)为I_r左上角的坐标，h_r与w_r分别为I_r的高和宽，单位为像素；

步骤4.1.2：根据I_l与I_r从I中提取并得到图像ROI_l与ROI_r；

步骤4.1.3：根据式(13)得到差值图像Dif_l与Dif_r，并选取合适的阈值进行二值化，得到B_l与B_r：

其中，Dif_p为灰度图，Dif_p为Dif_l或Dif_r，ROI_p为Dif_l或Dif_r， Dif_p(i,j)为图像Dif_p上第i行第j列的像素值，ROI_p(i,j,k)为图像ROI_p上第k个通道的第i行第j列的像素值，temp₁与temp₂为中间值，abs为取绝对值；

步骤4.1.4：统计B_l与B_r中每一行白色像素点的个数T_l,i与T_r,i，i＝1,2,...,w_l，并根据式(14)(15)更新T_l,k，并将B_k中T_k,i＝0的行置为黑色：

T_k,max＝max(T_k,i) (14)

其中，T_k,i为T_l,i或T_r,i，B_k为B_l或B_r，T_k,max为T_k,i中的最大值， threshold为系数；

步骤4.1.5：根据式(16)对B_k进行处理：

其中，e₁,e₂为结构元，为膨胀运算，Θ为腐蚀运算；

步骤4.1.6：扫描整幅二值图像B_k，计算各白色区域的像素面积，得到连通区域的候选集合l_k,i＝{l_i|i＝1,2,…,m}，m为过滤后连通区域的总数,并计算各个连通域面积a_k,i＝{a_i|i＝1,2,…,m}；

步骤4.1.7：通过比较筛选出面积最大的区域a_k,max，使其满足公式(7)，得到a_k,max的外接矩形R_k(x'_k,y'_k,w'_k,h'_k)，并根据I_k在I中的位置，更新R_k的坐标，完成车灯识别：

a_k,max＝max{a_k,1,a_k,2,......,a_k,n} (17)

其中，R_k(x'_k,y'_k,w'_k,h'_k)为R_l(x'_l,y'_l,w'_l,h'_l)或R_r(x'_r,y'_r,w'_r,h'_r)，R_l为左车灯外接矩形，R_r为右车灯外接矩形，(x'_k,y'_k)为R_k左上角的坐标，h'_k与w'_k分别为R_k的高和宽；

步骤4.1.8：根据式(18)得到车标粗定位区域R_c：

其中，为扩展系数，y'_min为y'_l与y'_r中的较小值，y'_max为R_l与R_r下边界竖直方向的较大值，(x_1c,y_1c)为R_c左上角的坐标，(x_2c,y_2c)为R_c右下角的坐标。

本发明的有益效果为：与现有的车标识别方法相比，本发明使用计算机视觉技术，通过识别车灯对车标进行粗定位，以应对车牌遮挡与无牌车的情况，并通过基于卷积神经网络解决了车标识别问题，通过RPN动态地生成正负样本，使每一次传入的样本都不一样，减少网络的过拟合程度，提高网络的鲁棒性，改善了以车牌辨车的传统工作模式，为打击汽车套牌、一车多牌、假牌照等违法犯罪行为提供了可靠帮助，进一步提高了智能交通的可靠性，节省了大量的人力成本。

附图说明

图1为本发明的流程图；

图2为卷积神经网络模型示意图；

图3为滑动窗口示意图；

图4为样本分类示意图；

图5为具体实施例示例用图；

图6为车灯粗定位图；

图7为车灯区域二值化图；

图8为剔除较少白色像素行的结果图；

图9为图8经过膨胀与腐蚀后的结果图；

图10为车灯定位示意图；

图11为车标粗定位图；

图12为示例图通过卷积神机网络得到的初步识别图；

图13为剔除不在车标粗定位框内的识别结果示意图

图14为最终车标定位与识别示意图。

具体实施方式

下面结合实施例来详细阐述一种基于Faster R-CNN卷积神经网络的车标定位与识别方法。应当理解，此处所描述的具体实例仅用于解释本发明，并不用于限定本发明。

本发明的一种基于Faster R-CNN卷积神经网络的车标定位与识别方法的具体过程如图1所示，具体步骤如下：

步骤1：定义车标种类集合为C＝{C_i|i＝1,…,t}，其中t为车标的总数，并建立相应的含ground truth的数据集，在本实施例中，t取 10，C＝{C_i|_i＝1,2,...,t}＝

{audi,bmw,benz,cadillac,chevloret,jord,volks,hyundai,mitsubishi,volvo}；

步骤2：构建含有10层的卷积神经网络，10层依次是卷积层 Conv1,池化层Pool2，卷积层Conv3，池化层Pool4，卷积层Conv5，卷积层Conv6，卷积层Conv7，全连接层Fc8，全连接层Fc9，分类层Softmax以及回归层bbox_prediction，

为了生成区域建议窗口，在该网络卷积神经网络卷积层Conv7 输出的特征图上滑动一个小网络，这个网络全连接到Fc8，对RPN 区域建议网络进行初始化，设定建议窗口的滑动步长，滑动窗口尺寸等初始化信息，其中Fc8的输入特征大小为N*N*M，M为卷积层Conv7的输出特征图的维度，N为归一化后的特征图边长，单位为像素，Softmax的输出向量大小为t+1，bbox_prediction的输出向量大小为4*(t+1)，在本实施例中，M取256，N取3，卷积神经网络结构如图2所示；

步骤3：使用步骤1中的车标数据集对卷积神经网络进行训练，具体为：

步骤3.1：将一批数量为N_batch的训练集传入卷积神经网络并进行前7层的卷积与池化操作，得到N_batch张M维特征图，在本实施例中， N_batch取100；

步骤3.2：将上一步得到的特征图传入RPN区域建议网络，建议窗口对特征图进行目标提取并传入Fc8，具体为：

步骤3.2.1：采用2种不同尺寸和3种不同比例合成的6种规格的滑动窗口在特征图上自上而下、自左而右提取目标窗口其中 i＝1,2,...,N_batch，j＝1,2,...,n_j，n_j为第j张特征图提取到的目标窗口的总数，窗口的滑动步长为1，在本实施例中，6种滑动窗口的规格分别为1*1,1*2,2*2,2*4,3*3,3*6，单位为像素*像素，滑动窗口如图3所示；

其中，为与GT_i的交集占并集的比例，μ₁，μ₂为分类系数， 0＜μ₂＜μ₁＜1，在本实施例中，μ₁取0.7，μ₂取0.3，样本分类示意图如图4所示；

步骤3.2.4：将分割平均为N*N个小矩阵如式(3)所示：

其中，x＝1,2,...,N，y＝1,2,...,N；

步骤3.2.5：根据式(4)，(5)将窗口归一化为并输入 Fc8：

步骤3.3：全连接层Fc8输出的特征向量输入Fc9，构成一般神经网络；

步骤3.4：将全连接层Fc9输出的特征向量输出至分类层Softmax 与回归层bbox_prediction，Softmax用于判断特征的类型， bbox_prediction用于确定特征的目标位置，根据式(6),(7),(8), (9),(10)计算损失函数L({p_ij},{t_ij})，并根据链式法则逐步计算反向误差，更新各层的权重参数值，完成训练：

其中，为GT_i标签，设第i张特征图的标签为k＝1,2,...,t，则p_ij为是车标C_k的预测概率，t_ij为一个4维向量，表示预测包围框的4个参数坐标，为GT_i的包围框坐标向量，N_cls为分类层Softmax 的归一化系数，N_reg为回归层bbox_prediction的归一化系数，λ为平衡权重，L_cls为分类层Softmax的损失函数，L_reg为回归层 bbox_prediction的损失函数，在本实施例中，所述的卷积神经网络训练方法在申请号为CN201610906708.2的文件中已公开，在此不再详述；

步骤4：利用训练好的卷积神经网络对输入的车辆图像I进行识别，图5为具体实施例示例用图，具体为：

步骤4.1：识别车灯并根据车灯的位置对车标进行粗定位，具体为：

其中，图像I的高度为height，宽度为width，为比例系数， k＝1,2,3，(x_l,y_l)为I_l左上角的坐标，h_l与w_l分别为I_l的高和宽，(x_r,y_r)为I_r左上角的坐标，h_r与w_r分别为I_r的高和宽，单位为像素，在本实施例中，取取取

步骤4.1.2：根据I_l与I_r从I中提取并得到图像ROI_l与ROI_r，处理结果如图6所示；

步骤4.1.3：根据式(13)得到差值图像Dif_l与Dif_r，并用OTSU 进行二值化处理，得到B_l与B_r：

其中，Dif_p为灰度图，Dif_p为Dif_l或Dif_r，ROI_p为Dif_l或Dif_r， Dif_p(i,j)为图像Dif_p上第i行第j列的像素值，ROI_p(i,j,k)为图像ROI_p上第k个通道的第i行第j列的像素值，temp₁与temp₂为中间值，abs为取绝对值，处理结果如图7所示；

步骤4.1.4：统计B_l与B_r中每一行白色像素点的个数T_l,i与T_r,i， i＝1,2,...,w_l，并根据式(14)(15)更新T_l,k，并将B_k中T_k,i＝0的行置为黑色：

T_k,max＝max(T_k,i) (14)

其中，T_k,i为T_l,i或T_r,i，B_k为B_l或B_r，T_k,max为T_k,i中的最大值， threshold为系数，在本实施例中，threshold取40，处理结果如图8 所示；

步骤4.1.5：根据式(16)对B_k进行处理：

其中，e₁,e₂为结构元，为膨胀运算，Θ为腐蚀运算，在本实施例中，e₁,e₂为核为7*7的结构元，处理结果如图9所示；

a_k,max＝max{a_k,1,a_k,2,......,a_k,n} (17)

其中，R_k(x'_k,y'_k,w'_k,h'_k)为R_l(x'_l,y'_l,w'_l,h'_l)或R_r(x'_r,y'_r,w'_r,h'_r)，R_l为左车灯外接矩形，R_r为右车灯外接矩形，(x'_k,y'_k)为R_k左上角的坐标，h'_k与w'_k分别为R_k的高和宽，处理结果如图参照图10；

步骤4.1.8：根据式(18)得到车标粗定位区域R_c：

其中，为扩展系数，y'_min为y'_l与y'_r中的较小值，y'_max为R_l与R_r下边界竖直方向的较大值，(x_1c,y_1c)为R_c左上角的坐标，(x_2c,y_2c)为R_c右下角的坐标，在本实施例中，取2，处理结果参照图11；

其中，为bbox_i区域为车标C_k的概率，k＝1,2,...,t，(x_i1,y_i1)为bbox_i左上角的坐标，(x_i2,y_i2)为bbox_i右下角的坐标，单位为像素，处理结果参照图12；

其中，N_b为集合BBOX中包围框的数量，ρ₁,ρ₂为比例系数,在本实施例中，ρ₁取0.1，ρ₂取0.5，处理结果参照图13；

其中，为bbox_maxk的得分，处理结果参照图14。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于具体步骤如下：

步骤2：构建含有10层的卷积神经网络，10层依次是卷积层Conv1，池化层Pool2，卷积层Conv3，池化层Pool4，卷积层Conv5，卷积层Conv6，卷积层Conv7，全连接层Fc8，全连接层Fc9，分类层Softmax及回归层bbox_prediction；为了生成区域建议窗口，在该网络卷积神经网络卷积层Conv7输出的特征图上滑动一个小网络，这个网络全连接到全连接层Fc8，对RPN区域建议网络进行初始化，设定建议窗口的滑动步长，滑动窗口尺寸等初始化信息，其中全连接层Fc8的输入特征大小为N*N*M，M为卷积层Conv7的输出特征图的维度，N为归一化后的特征图边长，单位为像素，分类层Softmax的输出向量大小为t+1，回归层bbox_prediction的输出向量大小为4*(t+1)；

步骤4.2：将图像I输入训练好的卷积神经网络，得到Z个目标区域包围框集合bbox＝(bbox_i|i＝1,2,...,Z)与该区域的预测概率向量bbox_i＝(x_i1,y_i1,x_i2,y_i2)，i＝1,2,...,Z,根据式(19)得到bbox_i的识别结果及其概率

其中，N_b为集合BBOX中包围框的数量，ρ₁,ρ₂为比例系数；

其中，为bbox_maxk的得分。

2.根据权利要求1所述的融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于步骤3中的对卷积神经网络进行训练的具体过程为：

其中，为与GT_i的交集占并集的比例，μ₁，μ₂为分类系数，0＜μ₂＜μ₁＜1；

步骤3.2.4：将分割平均为N*N个小矩阵如式(3)所示：

其中，x＝1,2,...,N，y＝1,2,...,N；

步骤3.2.5：根据式(4)，(5)将窗口归一化为并输入Fc8：

其中，为窗口第x行第y列的像素值，x＝1,2,...,N，y＝1,2,...,N；

步骤3.4：将全连接层Fc9输出的特征向量输出至分类层Softmax与回归层bbox_prediction，Softmax用于判断特征的类型，bbox_prediction用于确定特征的目标位置，根据式(6)，(7)，(8)，(9)，(10)计算损失函数L({p_ij},{t_ij})，并根据链式法则逐步计算反向误差，更新各层的权重参数值，完成训练：

其中，为GT_i标签，设第i张特征图的标签为k＝1,2,...,t，则p_ij为是车标C_k的预测概率，t_ij为一个4维向量，表示预测包围框的4个参数坐标，为GT_i的包围框坐标向量，N_cls为分类层Softmax的归一化系数，N_reg为回归层bbox_prediction的归一化系数，λ为平衡权重，L_cls为分类层Softmax的损失函数，L_reg为回归层bbox_prediction的损失函数。

3.根据权利要求1所述的融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法，其特征在于步骤4.1中的识别车灯并根据车灯的位置对车标进行粗定位的具体过程为：

其中，图像I的高度为height，宽度为width，为比例系数，k＝1,2,3，(x_l,y_l)为I_l左上角的坐标，h_l与w_l分别为I_l的高和宽，(x_r,y_r)为I_r左上角的坐标，h_r与w_r分别为I_r的高和宽，单位为像素；

步骤4.1.2：根据I_l与I_r从I中提取并得到图像ROI_l与ROI_r；

其中，Dif_p为灰度图，Dif_p为Dif_l或Dif_r，ROI_p为Dif_l或Dif_r，Dif_p(i,j)为图像Dif_p上第i行第j列的像素值，ROI_p(i,j,k)为图像ROI_p上第k个通道的第i行第j列的像素值，temp₁与temp₂为中间值，abs为取绝对值；

T_k,max＝max(T_k,i)(14)

其中，T_k,i为T_l,i或T_r,i，B_k为B_l或B_r，T_k,max为T_k,i中的最大值，threshold为系数；

步骤4.1.5：根据式(16)对B_k进行处理：

其中，e₁,e₂为结构元，为膨胀运算，Θ为腐蚀运算；

a_k,max＝max{a_k,1,a_k,2,......,a_k,n} (17)

步骤4.1.8：根据式(18)得到车标粗定位区域R_c：