CN107798335B - 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法 - Google Patents

一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法 Download PDF

Info

Publication number
CN107798335B
CN107798335B CN201710752741.9A CN201710752741A CN107798335B CN 107798335 B CN107798335 B CN 107798335B CN 201710752741 A CN201710752741 A CN 201710752741A CN 107798335 B CN107798335 B CN 107798335B
Authority
CN
China
Prior art keywords
bbox
layer
neural network
convolutional neural
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710752741.9A
Other languages
English (en)
Other versions
CN107798335A (zh
Inventor
高飞
汪韬
刘浩然
卢书芳
毛家发
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Haoteng Electronics Polytron Technologies Inc
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang Haoteng Electronics Polytron Technologies Inc
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Haoteng Electronics Polytron Technologies Inc, Zhejiang University of Technology ZJUT filed Critical Zhejiang Haoteng Electronics Polytron Technologies Inc
Priority to CN201710752741.9A priority Critical patent/CN107798335B/zh
Publication of CN107798335A publication Critical patent/CN107798335A/zh
Application granted granted Critical
Publication of CN107798335B publication Critical patent/CN107798335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合滑动窗口与Faster R‑CNN卷积神经网络的车标定位与识别方法,本发明使用计算机视觉技术,通过识别车灯对车标进行粗定位,以应对车牌遮挡与无牌车的情况,并通过基于卷积神经网络解决了车标识别问题,通过RPN动态地生成正负样本,使每一次传入的样本都不一样,减少网络的过拟合程度,提高网络的鲁棒性,改善了以车牌辨车的传统工作模式,为打击汽车套牌、一车多牌、假牌照等违法犯罪行为提供了可靠帮助,进一步提高了智能交通的可靠性,节省了大量的人力成本。

Description

一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别 方法
技术领域
本发明属于计算机视觉技术和图像处理技术领域,具体涉及一种车标定位与识别方法,具体为融合滑动窗口与Faster R-CNN卷积神经网络的车标定位与识别方法。
背景技术
二十世纪以来,世界各国的经济不断发展,汽车的种类与数量也越来越多。汽车作为一种便捷的代步和运输工具,与现代人类的生活息息相关。车辆在提供人们便利生活的同时,其停放和监管也成为一个急待解决的问题,因此,以人眼识别为主的传统道路监控方式便无法满足要求,现代化智能交通控制系统已成为未来全球道路交通的发展趋势和现代化城市的先进标志。近年来,遮挡车牌、汽车套牌等妨碍交通秩序的违法行为层出不穷,仅依靠车牌识别已不能适应当前的交通现状了,因此,车标识别技术变得更为重要,它可以弥补车牌识别的不足,从而进一步提高智能交通系统的可靠性。
目前,国内已有一些车标识别的方法,其中与本发明较为相近的技术方案包括:专利(陆辉;蒋恋华;张仁辉。车标定位与识别方法。CN103310231A[P]。2013。)使用车牌来对车牌进行粗定位,犯罪车辆通常没有车牌或车牌被遮挡,此时无法正确识别车牌,在这种情况下,该方法无法正确识别车标;专利(叶茂。基于进气格栅定位的汽车车标样本训练及识别方法。CN104156692A[P]。2014。)使用识别车辆进气栅的方法识别车标,使用方向梯度直方图(HOG)算法对车头进气栅部分进行特征提取并用SVM训练与分类,由于不同品牌的车可能具有相似的进气栅纹理,而同一品牌车的进气栅也有可能不同,故该方法的识别率较低;发明专利(狄明珠,韩晶,方亚隽。基于主成分分析卷积神经网络的车标自动识别方法。CN105512684A[P]。2016)通过主成分分析(PCA)提取特征,通过膨胀腐蚀等形态学运算对车标进行定位并通过卷积神经网络对车标进行训练与识别,但次方法只能适应少部分车标的定位,大多数车标无法准确定位。
综上所述,在对车标进行识别时,当前方法存在如下不足:(1)在无车牌时无法对车标进行粗定位;(2)识别速度较慢;(3)有时无法提取到正确的车标区域。本发明针对这些问题提出了一种基于FasterR-CNN卷积神经网络的车标定位与识别方法。
发明内容
为解决上述问题,本发明的目的在于提供一种车标定位与识别方法,具体为融合滑动窗口与Faster R-CNN卷积神经网络的车标定位与识别方法。
所述的一种融合滑动窗口与FasterR-CNN卷积神经网络的车标识别方法,其特征在于具体步骤如下:
步骤1:定义车标种类集合为C={Ci|i=1,…,t},其中t为车标的总数,并建立相应的含ground truth的数据集;
步骤2:构建含有10层的卷积神经网络,10层依次是卷积层Conv1,池化层Pool2,卷积层Conv3,池化层Pool4,卷积层Conv5,卷积层Conv6,卷积层Conv7,全连接层Fc8,全连接层Fc9,分类层Softmax及回归层bbox_prediction;为了生成区域建议窗口,在该网络卷积神经网络卷积层Conv7输出的特征图上滑动一个小网络,这个网络全连接到全连接层Fc8,对RPN区域建议网络进行初始化,设定建议窗口的滑动步长,滑动窗口尺寸等初始化信息,其中全连接层Fc8的输入特征大小为N*N*M,M为卷积层Conv7的输出特征图的维度,N为归一化后的特征图边长,单位为像素,分类层Softmax的输出向量大小为t+1,回归层bbox_prediction的输出向量大小为4*(t+1);
步骤3:使用步骤1中的车标数据集对卷积神经网络进行训练,得到训练好的卷积神经网络:
步骤4:利用训练好的卷积神经网络对输入的车辆图像I进行识别,具体为:
步骤4.1:识别车灯并根据车灯的位置对车标进行粗定位,得到车标粗定位区域Rc
步骤4.2:将图像I输入训练好的卷积神经网络,得到Z个目标区域包围框集合bbox=(bboxi|i=1,2,...,Z)与该区域的预测概率向量
Figure GDA0001561945240000031
bboxi=(xi1,yi1,xi2,yi2),i=1,2,...,Z,根据式(19)得到bboxi的识别结果
Figure GDA0001561945240000032
及其概率
Figure GDA0001561945240000033
Figure GDA0001561945240000034
其中,为bboxi区域为车标Ck的概率,k=1,2,...,t,(xi1,yi1)为bboxi左上角的坐标,(xi2,yi2)为bboxi右下角的坐标,单位为像素;
步骤4.3:根据式(20)从上一步所得的集合bbox中筛选新的集合BBOX:
Figure GDA0001561945240000042
其中,Nb为集合BBOX中包围框的数量,ρ12为比例系数;
步骤4.4:根据式(21),得到车标定位的包围框bboxmaxk与其识别结果Cmax,完成车标定位与识别:
Figure GDA0001561945240000043
其中,
Figure GDA0001561945240000044
为bboxmaxk的得分。
所述的融合滑动窗口与FasterR-CNN卷积神经网络的车标识别方法,其特征在于步骤3中的对卷积神经网络进行训练的具体过程为:
步骤3.1:将一批数量为Nbatch的训练集传入卷积神经网络并进行前7层的卷积与池化操作,得到Nbatch张M维特征图;
步骤3.2:将上一步得到的特征图传入RPN区域建议网络,建议窗口对特征图进行目标提取并传入全连接层Fc8,具体为:
步骤3.2.1:采用2种不同尺寸和3种不同比例合成的6种规格的滑动窗口在特征图上自上而下、自左而右提取目标窗口
Figure GDA0001561945240000045
其中i=1,2,...,Nbatch,j=1,2,...,nj,nj为第j张特征图提取到的目标窗口的总数,窗口的滑动步长为1;
步骤3.2.2:将groundtruth区域映射到M维特征图上,记为GTi,其中i=1,2,...,Nbatch
步骤3.2.3:根据式(1),(2)划分前景样本集合PS与背景样本集合BS并从
Figure GDA0001561945240000051
中剔除不属于PS与BS的样本:
Figure GDA0001561945240000052
其中,
Figure GDA0001561945240000054
Figure GDA0001561945240000055
与GTi的交集占并集的比例,μ1,μ2为分类系数,0<μ2<μ1<1;
步骤3.2.4:将分割平均为N*N个小矩阵
Figure GDA0001561945240000057
如式(3)所示:
Figure GDA0001561945240000058
其中,x=1,2,...,N,y=1,2,...,N;
步骤3.2.5:根据式(4),(5)将窗口归一化为
Figure GDA00015619452400000510
并输入Fc8:
Figure GDA00015619452400000511
Figure GDA00015619452400000512
其中,
Figure GDA00015619452400000513
为窗口第x行第y列的像素值,x=1,2,...,N,y=1,2,...,N;
步骤3.3:全连接层Fc8输出的特征向量输入全连接层Fc9,构成一般神经网络;
步骤3.4:将全连接层Fc9输出的特征向量输出至分类层Softmax与回归层bbox_prediction,Softmax用于判断特征的类型,bbox_prediction用于确定特征的目标位置,根据式(6),(7),(8),(9),(10)计算损失函数L({pij},{tij}),并根据链式法则逐步计算反向误差,更新各层的权重参数值,完成训练:
Figure GDA0001561945240000061
Figure GDA0001561945240000062
Figure GDA0001561945240000063
Figure GDA0001561945240000064
Figure GDA0001561945240000065
其中,为GTi标签,设第i张特征图的标签为
Figure GDA0001561945240000067
k=1,2,...,t,则pij是车标Ck的预测概率,tij为一个4维向量,表示预测包围框的4个参数坐标,
Figure GDA0001561945240000069
为GTi的包围框坐标向量,Ncls为分类层Softmax的归一化系数,Nreg为回归层bbox_prediction的归一化系数,λ为平衡权重,Lcls为分类层Softmax的损失函数,Lreg为回归层bbox_prediction的损失函数。
所述的融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法,其特征在于步骤4.1中的识别车灯并根据车灯的位置对车标进行粗定位的具体过程为:
步骤4.1.1:根据公式(11)对车灯进行粗定位,得到左车灯区域Il与右车灯区域Ir
Figure GDA0001561945240000071
其中,图像I的高度为height,宽度为width,
Figure GDA0001561945240000073
为比例系数,k=1,2,3,
Figure GDA0001561945240000074
(xl,yl)为Il左上角的坐标,hl与wl分别为Il的高和宽,(xr,yr)为Ir左上角的坐标,hr与wr分别为Ir的高和宽,单位为像素;
步骤4.1.2:根据Il与Ir从I中提取并得到图像ROIl与ROIr
步骤4.1.3:根据式(13)得到差值图像Difl与Difr,并选取合适的阈值进行二值化,得到Bl与Br
Figure GDA0001561945240000075
其中,Difp为灰度图,Difp为Difl或Difr,ROIp为Difl或Difr,Difp(i,j)为图像Difp上第i行第j列的像素值,ROIp(i,j,k)为图像ROIp上第k个通道的第i行第j列的像素值,temp1与temp2为中间值,abs为取绝对值;
步骤4.1.4:统计Bl与Br中每一行白色像素点的个数Tl,i与Tr,i,i=1,2,...,wl,并根据式(14)(15)更新Tl,k,并将Bk中Tk,i=0的行置为黑色:
Tk,max=max(Tk,i) (14)
Figure GDA0001561945240000081
其中,Tk,i为Tl,i或Tr,i,Bk为Bl或Br,Tk,max为Tk,i中的最大值,threshold为系数;
步骤4.1.5:根据式(16)对Bk进行处理:
Figure GDA0001561945240000082
其中,e1,e2为结构元,
Figure GDA0001561945240000083
为膨胀运算,Θ为腐蚀运算;
步骤4.1.6:扫描整幅二值图像Bk,计算各白色区域的像素面积,得到连通区域的候选集合lk,i={li|i=1,2,…,m},m为过滤后连通区域的总数,并计算各个连通域面积ak,i={ai|i=1,2,…,m};
步骤4.1.7:通过比较筛选出面积最大的区域ak,max,使其满足公式(7),得到ak,max的外接矩形Rk(x'k,y'k,w'k,h'k),并根据Ik在I中的位置,更新Rk的坐标,完成车灯识别:
ak,max=max{ak,1,ak,2,......,ak,n} (17)
其中,Rk(x'k,y'k,w'k,h'k)为Rl(x'l,y'l,w'l,h'l)或Rr(x'r,y'r,w'r,h'r),Rl为左车灯外接矩形,Rr为右车灯外接矩形,(x'k,y'k)为Rk左上角的坐标,h'k与w'k分别为Rk的高和宽;
步骤4.1.8:根据式(18)得到车标粗定位区域Rc
Figure GDA0001561945240000091
其中,
Figure GDA0001561945240000092
为扩展系数,y'min为y'l与y'r中的较小值,y'max为Rl与Rr下边界竖直方向的较大值,(x1c,y1c)为Rc左上角的坐标,(x2c,y2c)为Rc右下角的坐标。
本发明的有益效果为:与现有的车标识别方法相比,本发明使用计算机视觉技术,通过识别车灯对车标进行粗定位,以应对车牌遮挡与无牌车的情况,并通过基于卷积神经网络解决了车标识别问题,通过RPN动态地生成正负样本,使每一次传入的样本都不一样,减少网络的过拟合程度,提高网络的鲁棒性,改善了以车牌辨车的传统工作模式,为打击汽车套牌、一车多牌、假牌照等违法犯罪行为提供了可靠帮助,进一步提高了智能交通的可靠性,节省了大量的人力成本。
附图说明
图1为本发明的流程图;
图2为卷积神经网络模型示意图;
图3为滑动窗口示意图;
图4为样本分类示意图;
图5为具体实施例示例用图;
图6为车灯粗定位图;
图7为车灯区域二值化图;
图8为剔除较少白色像素行的结果图;
图9为图8经过膨胀与腐蚀后的结果图;
图10为车灯定位示意图;
图11为车标粗定位图;
图12为示例图通过卷积神机网络得到的初步识别图;
图13为剔除不在车标粗定位框内的识别结果示意图
图14为最终车标定位与识别示意图。
具体实施方式
下面结合实施例来详细阐述一种基于Faster R-CNN卷积神经网络的车标定位与识别方法。应当理解,此处所描述的具体实例仅用于解释本发明,并不用于限定本发明。
本发明的一种基于Faster R-CNN卷积神经网络的车标定位与识别方法的具体过程如图1所示,具体步骤如下:
步骤1:定义车标种类集合为C={Ci|i=1,…,t},其中t为车标的总数,并建立相应的含ground truth的数据集,在本实施例中,t取10,C={Ci|i=1,2,...,t}=
{audi,bmw,benz,cadillac,chevloret,jord,volks,hyundai,mitsubishi,volvo};
步骤2:构建含有10层的卷积神经网络,10层依次是卷积层Conv1,池化层Pool2,卷积层Conv3,池化层Pool4,卷积层Conv5,卷积层Conv6,卷积层Conv7,全连接层Fc8,全连接层Fc9,分类层Softmax以及回归层bbox_prediction,
为了生成区域建议窗口,在该网络卷积神经网络卷积层Conv7输出的特征图上滑动一个小网络,这个网络全连接到Fc8,对RPN区域建议网络进行初始化,设定建议窗口的滑动步长,滑动窗口尺寸等初始化信息,其中Fc8的输入特征大小为N*N*M,M为卷积层Conv7的输出特征图的维度,N为归一化后的特征图边长,单位为像素,Softmax的输出向量大小为t+1,bbox_prediction的输出向量大小为4*(t+1),在本实施例中,M取256,N取3,卷积神经网络结构如图2所示;
步骤3:使用步骤1中的车标数据集对卷积神经网络进行训练,具体为:
步骤3.1:将一批数量为Nbatch的训练集传入卷积神经网络并进行前7层的卷积与池化操作,得到Nbatch张M维特征图,在本实施例中,Nbatch取100;
步骤3.2:将上一步得到的特征图传入RPN区域建议网络,建议窗口对特征图进行目标提取并传入Fc8,具体为:
步骤3.2.1:采用2种不同尺寸和3种不同比例合成的6种规格的滑动窗口在特征图上自上而下、自左而右提取目标窗口其中i=1,2,...,Nbatch,j=1,2,...,nj,nj为第j张特征图提取到的目标窗口的总数,窗口的滑动步长为1,在本实施例中,6种滑动窗口的规格分别为1*1,1*2,2*2,2*4,3*3,3*6,单位为像素*像素,滑动窗口如图3所示;
步骤3.2.2:将groundtruth区域映射到M维特征图上,记为GTi,其中i=1,2,...,Nbatch
步骤3.2.3:根据式(1),(2)划分前景样本集合PS与背景样本集合BS并从
Figure GDA0001561945240000121
中剔除不属于PS与BS的样本:
Figure GDA0001561945240000122
其中,
Figure GDA0001561945240000124
Figure GDA0001561945240000125
与GTi的交集占并集的比例,μ1,μ2为分类系数,0<μ2<μ1<1,在本实施例中,μ1取0.7,μ2取0.3,样本分类示意图如图4所示;
步骤3.2.4:将
Figure GDA0001561945240000126
分割平均为N*N个小矩阵
Figure GDA0001561945240000127
如式(3)所示:
其中,x=1,2,...,N,y=1,2,...,N;
步骤3.2.5:根据式(4),(5)将窗口
Figure GDA0001561945240000129
归一化为
Figure GDA00015619452400001210
并输入Fc8:
Figure GDA00015619452400001211
Figure GDA00015619452400001212
其中,
Figure GDA00015619452400001213
为窗口
Figure GDA00015619452400001214
第x行第y列的像素值,x=1,2,...,N,y=1,2,...,N;
步骤3.3:全连接层Fc8输出的特征向量输入Fc9,构成一般神经网络;
步骤3.4:将全连接层Fc9输出的特征向量输出至分类层Softmax与回归层bbox_prediction,Softmax用于判断特征的类型,bbox_prediction用于确定特征的目标位置,根据式(6),(7),(8),(9),(10)计算损失函数L({pij},{tij}),并根据链式法则逐步计算反向误差,更新各层的权重参数值,完成训练:
Figure GDA0001561945240000131
Figure GDA0001561945240000132
Figure GDA0001561945240000133
Figure GDA0001561945240000134
其中,
Figure GDA0001561945240000136
为GTi标签,设第i张特征图的标签为
Figure GDA0001561945240000137
k=1,2,...,t,则pij
Figure GDA0001561945240000138
是车标Ck的预测概率,tij为一个4维向量,表示预测包围框的4个参数坐标,
Figure GDA0001561945240000139
为GTi的包围框坐标向量,Ncls为分类层Softmax的归一化系数,Nreg为回归层bbox_prediction的归一化系数,λ为平衡权重,Lcls为分类层Softmax的损失函数,Lreg为回归层bbox_prediction的损失函数,在本实施例中,所述的卷积神经网络训练方法在申请号为CN201610906708.2的文件中已公开,在此不再详述;
步骤4:利用训练好的卷积神经网络对输入的车辆图像I进行识别,图5为具体实施例示例用图,具体为:
步骤4.1:识别车灯并根据车灯的位置对车标进行粗定位,具体为:
步骤4.1.1:根据公式(11)对车灯进行粗定位,得到左车灯区域Il与右车灯区域Ir
Figure GDA0001561945240000141
Figure GDA0001561945240000142
其中,图像I的高度为height,宽度为width,
Figure GDA0001561945240000143
为比例系数,k=1,2,3,
Figure GDA0001561945240000144
(xl,yl)为Il左上角的坐标,hl与wl分别为Il的高和宽,(xr,yr)为Ir左上角的坐标,hr与wr分别为Ir的高和宽,单位为像素,在本实施例中,
Figure GDA0001561945240000145
Figure GDA0001561945240000146
Figure GDA0001561945240000148
步骤4.1.2:根据Il与Ir从I中提取并得到图像ROIl与ROIr,处理结果如图6所示;
步骤4.1.3:根据式(13)得到差值图像Difl与Difr,并用OTSU进行二值化处理,得到Bl与Br
Figure GDA00015619452400001411
其中,Difp为灰度图,Difp为Difl或Difr,ROIp为Difl或Difr,Difp(i,j)为图像Difp上第i行第j列的像素值,ROIp(i,j,k)为图像ROIp上第k个通道的第i行第j列的像素值,temp1与temp2为中间值,abs为取绝对值,处理结果如图7所示;
步骤4.1.4:统计Bl与Br中每一行白色像素点的个数Tl,i与Tr,i,i=1,2,...,wl,并根据式(14)(15)更新Tl,k,并将Bk中Tk,i=0的行置为黑色:
Tk,max=max(Tk,i) (14)
Figure GDA0001561945240000151
其中,Tk,i为Tl,i或Tr,i,Bk为Bl或Br,Tk,max为Tk,i中的最大值,threshold为系数,在本实施例中,threshold取40,处理结果如图8所示;
步骤4.1.5:根据式(16)对Bk进行处理:
Figure GDA0001561945240000152
其中,e1,e2为结构元,
Figure GDA0001561945240000153
为膨胀运算,Θ为腐蚀运算,在本实施例中,e1,e2为核为7*7的结构元,处理结果如图9所示;
步骤4.1.6:扫描整幅二值图像Bk,计算各白色区域的像素面积,得到连通区域的候选集合lk,i={li|i=1,2,…,m},m为过滤后连通区域的总数,并计算各个连通域面积ak,i={ai|i=1,2,…,m};
步骤4.1.7:通过比较筛选出面积最大的区域ak,max,使其满足公式(7),得到ak,max的外接矩形Rk(x'k,y'k,w'k,h'k),并根据Ik在I中的位置,更新Rk的坐标,完成车灯识别:
ak,max=max{ak,1,ak,2,......,ak,n} (17)
其中,Rk(x'k,y'k,w'k,h'k)为Rl(x'l,y'l,w'l,h'l)或Rr(x'r,y'r,w'r,h'r),Rl为左车灯外接矩形,Rr为右车灯外接矩形,(x'k,y'k)为Rk左上角的坐标,h'k与w'k分别为Rk的高和宽,处理结果如图参照图10;
步骤4.1.8:根据式(18)得到车标粗定位区域Rc
Figure GDA0001561945240000161
其中,
Figure GDA0001561945240000162
为扩展系数,y'min为y'l与y'r中的较小值,y'max为Rl与Rr下边界竖直方向的较大值,(x1c,y1c)为Rc左上角的坐标,(x2c,y2c)为Rc右下角的坐标,在本实施例中,
Figure GDA0001561945240000163
取2,处理结果参照图11;
步骤4.2:将图像I输入训练好的卷积神经网络,得到Z个目标区域包围框集合bbox=(bboxi|i=1,2,...,Z)与该区域的预测概率向量
Figure GDA0001561945240000164
bboxi=(xi1,yi1,xi2,yi2),i=1,2,...,Z,根据式(19)得到bboxi的识别结果
Figure GDA0001561945240000165
及其概率
Figure GDA0001561945240000166
Figure GDA0001561945240000167
其中,
Figure GDA0001561945240000168
为bboxi区域为车标Ck的概率,k=1,2,...,t,(xi1,yi1)为bboxi左上角的坐标,(xi2,yi2)为bboxi右下角的坐标,单位为像素,处理结果参照图12;
步骤4.3:根据式(20)从上一步所得的集合bbox中筛选新的集合BBOX:
Figure GDA0001561945240000171
其中,Nb为集合BBOX中包围框的数量,ρ12为比例系数,在本实施例中,ρ1取0.1,ρ2取0.5,处理结果参照图13;
步骤4.4:根据式(21),得到车标定位的包围框bboxmaxk与其识别结果Cmax,完成车标定位与识别:
其中,
Figure GDA0001561945240000173
为bboxmaxk的得分,处理结果参照图14。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法,其特征在于具体步骤如下:
步骤1:定义车标种类集合为C={Ci|i=1,…,t},其中t为车标的总数,并建立相应的含groundtruth的数据集;
步骤2:构建含有10层的卷积神经网络,10层依次是卷积层Conv1,池化层Pool2,卷积层Conv3,池化层Pool4,卷积层Conv5,卷积层Conv6,卷积层Conv7,全连接层Fc8,全连接层Fc9,分类层Softmax及回归层bbox_prediction;为了生成区域建议窗口,在该网络卷积神经网络卷积层Conv7输出的特征图上滑动一个小网络,这个网络全连接到全连接层Fc8,对RPN区域建议网络进行初始化,设定建议窗口的滑动步长,滑动窗口尺寸初始化信息,其中全连接层Fc8的输入特征大小为N*N*M,M为卷积层Conv7的输出特征图的维度,N为归一化后的特征图边长,单位为像素,分类层Softmax的输出向量大小为t+1,回归层bbox_prediction的输出向量大小为4*(t+1);
步骤3:使用步骤1中的车标数据集对卷积神经网络进行训练,得到训练好的卷积神经网络:
步骤4:利用训练好的卷积神经网络对输入的车辆图像I进行识别,具体为:
步骤4.1:识别车灯并根据车灯的位置对车标进行粗定位,得到车标粗定位区域Rc
步骤4.2:将图像I输入训练好的卷积神经网络,得到Z个目标区域包围框集合bbox=(bboxi|i=1,2,...,Z)与该区域的预测概率向量bboxi=(xi1,yi1,xi2,yi2),i=1,2,...,Z,根据式(19)得到bboxi的识别结果
Figure FDA0002312942880000022
及其概率
Figure FDA0002312942880000023
其中,
Figure FDA0002312942880000025
为bboxi区域为车标Ck的概率,k=1,2,...,t,(xi1,yi1)为bboxi左上角的坐标,(xi2,yi2)为bboxi右下角的坐标,单位为像素;
步骤4.3:根据式(20)从上一步所得的集合bbox中筛选新的集合BBOX:
Figure FDA0002312942880000026
其中,Nb为集合BBOX中包围框的数量,ρ12为比例系数;
步骤4.4:根据式(21),得到车标定位的包围框bboxmaxk与其识别结果Cmax,完成车标定位与识别:
Figure FDA0002312942880000027
其中,为bboxmaxk的得分;
步骤3中的对卷积神经网络进行训练的具体过程为:
步骤3.1:将一批数量为Nbatch的训练集传入卷积神经网络并进行前7层的卷积与池化操作,得到Nbatch张M维特征图;
步骤3.2:将上一步得到的特征图传入RPN区域建议网络,建议窗口对特征图进行目标提取并传入全连接层Fc8,具体为:
步骤3.2.1:采用2种不同尺寸和3种不同比例合成的6种规格的滑动窗口在特征图上自上而下、自左而右提取目标窗口其中i=1,2,...,Nbatch,j=1,2,...,nj,nj为第j张特征图提取到的目标窗口的总数,窗口的滑动步长为1;
步骤3.2.2:将groundtruth区域映射到M维特征图上,记为GTi,其中i=1,2,...,Nbatch
步骤3.2.3:根据式(1),(2)划分前景样本集合PS与背景样本集合BS并从
Figure FDA0002312942880000032
中剔除不属于PS与BS的样本:
Figure FDA0002312942880000033
Figure FDA0002312942880000034
其中,
Figure FDA0002312942880000035
Figure FDA0002312942880000036
与GTi的交集占并集的比例,μ1,μ2为分类系数,0<μ2<μ1<1;
步骤3.2.4:将
Figure FDA00023129428800000311
分割平均为N*N个小矩阵如式(3)所示:
Figure FDA0002312942880000038
其中,x=1,2,...,N,y=1,2,...,N;
步骤3.2.5:根据式(4),(5)将窗口
Figure FDA0002312942880000039
归一化为
Figure FDA00023129428800000310
并输入Fc8:
Figure FDA0002312942880000041
Figure FDA0002312942880000042
其中,
Figure FDA0002312942880000043
为窗口
Figure FDA0002312942880000044
第x行第y列的像素值,x=1,2,...,N,y=1,2,...,N;
步骤3.3:全连接层Fc8输出的特征向量输入全连接层Fc9,构成一般神经网络;
步骤3.4:将全连接层Fc9输出的特征向量输出至分类层Softmax与回归层bbox_prediction,Softmax用于判断特征的类型,bbox_prediction用于确定特征的目标位置,根据式(6),(7),(8),(9),(10)计算损失函数L({pij},{tij}),并根据链式法则逐步计算反向误差,更新各层的权重参数值,完成训练:
Figure FDA0002312942880000045
Figure FDA0002312942880000047
Figure FDA0002312942880000048
Figure FDA0002312942880000049
其中,
Figure FDA00023129428800000410
为GTi标签,设第i张特征图的标签为
Figure FDA00023129428800000411
则pij
Figure FDA00023129428800000412
是车标Ck的预测概率,tij为一个4维向量,表示预测包围框的4个参数坐标,
Figure FDA00023129428800000413
为GTi的包围框坐标向量,Ncls为分类层Softmax的归一化系数,Nreg为回归层bbox_prediction的归一化系数,λ为平衡权重,Lcls为分类层Softmax的损失函数,Lreg为回归层bbox_prediction的损失函数;
步骤4.1中的识别车灯并根据车灯的位置对车标进行粗定位的具体过程为:
步骤4.1.1:根据公式(11)对车灯进行粗定位,得到左车灯区域Il与右车灯区域Ir
Figure FDA0002312942880000051
Figure FDA0002312942880000052
其中,图像I的高度为height,宽度为width,
Figure FDA0002312942880000053
为比例系数,k=1,2,3,(xl,yl)为Il左上角的坐标,hl与wl分别为Il的高和宽,(xr,yr)为Ir左上角的坐标,hr与wr分别为Ir的高和宽,单位为像素;
步骤4.1.2:根据Il与Ir从I中提取并得到图像ROIl与ROIr
步骤4.1.3:根据式(13)得到差值图像Difl与Difr,并选取合适的阈值进行二值化,得到Bl与Br
其中,Difp为灰度图,Difp为Difl或Difr,ROIp为ROIl或ROIr,Difp(i,j)为图像Difp上第i行第j列的像素值,ROIp(i,j,k)为图像ROIp上第k个通道的第i行第j列的像素值,temp1与temp2为中间值,abs为取绝对值;
步骤4.1.4:统计Bl与Br中每一行白色像素点的个数Tl,i与Tr,i,i=1,2,...,wl,并根据式(14)(15)更新Tl,k,并将Bk中Tk,i=0的行置为黑色:
Tk,max=max(Tk,i) (14)
Figure FDA0002312942880000061
其中,Tk,i为Tl,i或Tr,i,Bk为Bl或Br,Tk,max为Tk,i中的最大值,threshold为系数;
步骤4.1.5:根据式(16)对Bk进行处理:
Figure FDA0002312942880000062
其中,e1,e2为结构元,
Figure FDA0002312942880000063
为膨胀运算,Θ为腐蚀运算;
步骤4.1.6:扫描整幅二值图像Bk,计算各白色区域的像素面积,得到连通区域的候选集合lk,i={li|i=1,2,…,m},m为过滤后连通区域的总数,并计算各个连通域面积ak,i={ai|i=1,2,…,m};
步骤4.1.7:通过比较筛选出面积最大的区域ak,max,使其满足公式(7),得到ak,max的外接矩形Rk(x'k,y'k,w'k,h'k),并根据Ik在I中的位置,更新Rk的坐标,完成车灯识别:
ak,max=max{ak,1,ak,2,......,ak,n} (17)
其中,Rk(x'k,y'k,w'k,h'k)为Rl(x'l,y'l,w'l,h'l)或Rr(x'r,y'r,w'r,h'r),Rl为左车灯外接矩形,Rr为右车灯外接矩形,(x'k,y'k)为Rk左上角的坐标,h'k与w'k分别为Rk的高和宽;
步骤4.1.8:根据式(18)得到车标粗定位区域Rc
Figure FDA0002312942880000071
其中,
Figure FDA0002312942880000072
为扩展系数,y'min为y'l与y'r中的较小值,y'max为Rl与Rr下边界竖直方向的较大值,(x1c,y1c)为Rc左上角的坐标,(x2c,y2c)为Rc右下角的坐标。
CN201710752741.9A 2017-08-28 2017-08-28 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法 Active CN107798335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710752741.9A CN107798335B (zh) 2017-08-28 2017-08-28 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710752741.9A CN107798335B (zh) 2017-08-28 2017-08-28 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法

Publications (2)

Publication Number Publication Date
CN107798335A CN107798335A (zh) 2018-03-13
CN107798335B true CN107798335B (zh) 2020-02-18

Family

ID=61531654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710752741.9A Active CN107798335B (zh) 2017-08-28 2017-08-28 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法

Country Status (1)

Country Link
CN (1) CN107798335B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416287B (zh) * 2018-03-04 2022-04-01 南京理工大学 一种基于遗漏负样本挖掘的行人检测方法
CN108416394B (zh) * 2018-03-22 2019-09-03 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108615049A (zh) * 2018-04-09 2018-10-02 华中科技大学 一种车辆部件检测模型压缩方法及系统
CN108537286B (zh) * 2018-04-18 2020-11-24 北京航空航天大学 一种基于关键区域检测的复杂目标精准识别方法
CN108956153A (zh) * 2018-04-27 2018-12-07 东华大学 一种基于rbf径向基神经网络的汽车防抱死检测方法
CN110414299B (zh) * 2018-04-28 2024-02-06 中山大学 一种基于计算机视觉的猴脸亲缘关系分析方法
CN109166107A (zh) * 2018-04-28 2019-01-08 北京市商汤科技开发有限公司 一种医学图像分割方法及装置、电子设备和存储介质
CN108647682A (zh) * 2018-05-17 2018-10-12 电子科技大学 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法
CN108985145A (zh) * 2018-05-29 2018-12-11 同济大学 小尺寸交通标志检测识别的反向连接深度神经网络模型方法
CN109033652B (zh) * 2018-08-02 2019-09-20 江苏艾佳家居用品有限公司 一种基于滑动窗特征与回归预测的室内自动布局方法
CN108866934B (zh) * 2018-08-13 2021-04-23 济南大学 一种基于人工智能的洗衣模式控制系统及方法
CN109344802B (zh) * 2018-10-29 2021-09-10 重庆邮电大学 一种基于改进的级联卷积神经网的人体疲劳检测方法
CN109410598B (zh) * 2018-11-09 2021-01-15 浙江浩腾电子科技股份有限公司 一种基于计算机视觉的交通路口拥堵检测方法
CN109740478B (zh) * 2018-12-26 2023-04-28 杨先明 车辆检测及识别方法、装置、计算机设备及可读存储介质
CN109816024B (zh) * 2019-01-29 2021-08-31 电子科技大学 一种基于多尺度特征融合与dcnn的实时车标检测方法
CN110400370B (zh) * 2019-07-17 2021-04-16 北京航空航天大学 一种构建三维cad模型的语义级部件模板的方法
CN111062384B (zh) * 2019-11-08 2023-09-08 博云视觉(北京)科技有限公司 一种基于深度学习的车窗精确定位方法
CN111652214B (zh) * 2020-05-26 2024-05-28 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的垃圾瓶分选方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512684B (zh) * 2015-12-09 2018-08-28 江苏航天大为科技股份有限公司 基于主成分分析卷积神经网络的车标自动识别方法
CN105868774A (zh) * 2016-03-24 2016-08-17 西安电子科技大学 基于选择性搜索和卷积神经网络的车标识别方法
CN106250812B (zh) * 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Fast Coarse-to-Fine Vehicle Logo Detection and Recognition Method;WANG Yunqiong;《IEEE》;20081231;1-6 *

Also Published As

Publication number Publication date
CN107798335A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN107798335B (zh) 一种融合滑动窗口与Faster R-CNN卷积神经网络的车标识别方法
CN110533684B (zh) 一种染色体核型图像切割方法
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN109657632B (zh) 一种车道线检测识别方法
Satzoda et al. Multipart vehicle detection using symmetry-derived analysis and active learning
CN110969160B (zh) 一种基于深度学习的车牌图像校正、识别方法及系统
US7724962B2 (en) Context adaptive approach in vehicle detection under various visibility conditions
CN106650731B (zh) 一种鲁棒的车牌、车标识别方法
Huang et al. Vehicle detection and inter-vehicle distance estimation using single-lens video camera on urban/suburb roads
CN111563412B (zh) 一种基于参数空间投票和贝塞尔拟合的快速车道线检测方法
CN110263635B (zh) 基于结构森林和PCANet的标志物检测与识别方法
CN105930791A (zh) 基于ds证据理论的多摄像头融合的路面交通标志识别方法
CN106686280A (zh) 影像修补系统及其方法
CN111553214B (zh) 一种驾驶员吸烟行为检测方法及系统
CN107194393B (zh) 一种检测临时车牌的方法及装置
CN112488046B (zh) 一种基于无人机高分辨率影像的车道线提取方法
TW201913594A (zh) 以影像為基礎之車輛計數與分類系統
CN111723625A (zh) 交通灯图像识别处理方法、装置、辅助通行系统及存储介质
CN103927548A (zh) 一种新的避免车辆碰撞的刹车行为检测方法
CN113111722A (zh) 基于改进Mask R-CNN的自动驾驶目标识别方法
CN106407951A (zh) 一种基于单目视觉的夜间前方车辆检测方法
CN110991264A (zh) 前方车辆检测方法和装置
CN112766273A (zh) 一种车牌识别方法
CN112115800A (zh) 一种基于深度学习目标检测的车辆组合识别系统及方法
CN116229423A (zh) 基于改进的Canny边缘检测算法和SVM的无人驾驶中的小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant