CN113205026B - 一种基于Faster RCNN深度学习网络改进的车型识别方法 - Google Patents

一种基于Faster RCNN深度学习网络改进的车型识别方法 Download PDF

Info

Publication number
CN113205026B
CN113205026B CN202110451591.4A CN202110451591A CN113205026B CN 113205026 B CN113205026 B CN 113205026B CN 202110451591 A CN202110451591 A CN 202110451591A CN 113205026 B CN113205026 B CN 113205026B
Authority
CN
China
Prior art keywords
layer
vehicle
vehicle type
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110451591.4A
Other languages
English (en)
Other versions
CN113205026A (zh
Inventor
付仲良
胡捷
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110451591.4A priority Critical patent/CN113205026B/zh
Publication of CN113205026A publication Critical patent/CN113205026A/zh
Application granted granted Critical
Publication of CN113205026B publication Critical patent/CN113205026B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于Faster RCNN深度学习网络改进的车型识别方法。本发明引入原始图像数据,处理并构建车型识别图像数据集与训练集;构建特征提取网络,将训练集样本图像输入至特征提取网络,得到样本的融合特征图;构建RPN目标识别网络,将融合特征图作为输入数据输入目标识别网络,得到目标识别候选区域;构建车型分类模块,将融合特征图与候选框区信息输入至综合多分类器,判别候选区域内车型,并通过位置回归确定目标定位框坐标;构建网络整体损失函数模型;训练整体网络;本发明基于Faster RCNN深度学习网络,在VGG16网络基础上借鉴HED网络改进特征提取层与全连接分类层设计,显著提升对实时交通影像中的车辆车型信息识别速度与准确度。

Description

一种基于Faster RCNN深度学习网络改进的车型识别方法
技术领域
本发明涉及计算机图像识别领域,尤其涉及一种基于Faster RCNN深度学习网络改进的车型识别方法。
背景技术
为了实现对行驶中车辆进行实时车型识别的任务,目前普遍采用基于图像处理的方法,需要借助计算机视觉领域的特定算法对实时获取的一系列视频帧进行特征提取、车辆目标定位以及车辆车型识别。常用的算法包括基于特征提取的图像处理方法和基于神经网络的深度学习方法。
基于特征提取的图像处理识别方法需要人为地设计特征提取算子来提取车辆特征,如HOG,SIFT等,从而实现对车型的识别。这些传统的特征提取方法不仅需要在识别过程中做大量的运算,而且在进行识别处理之前,还需要对输入的车辆图像进行预处理,进一步增加了识别的工作量,使得全流程工作量巨大、耗时过长,同时识别的准确率也不够高,处理速度与准确率均无法满足实时交通管理的需求。
基于卷积神经网络的深度学习方法是在特征提取的基础上提出的改进方案,提高了识别的速度和针对图像变形的鲁棒性,更好地适应了实时应用的需求。但依旧存在因不同车型相似度较高导致识别准确率不高、同一类型的车辆因差距过大导致分类错误、在复杂背景中或者复杂天气环境下识别准确率下降等问题。
发明内容
本发明通过采用受整体嵌套边缘检测网络(Holistically-Nested EdgeDetection,HED网络)启发改进的特征提取模块(backbone)提取车辆目标识别所需特征信息,并采用区域生成网络(Region Proposal Network,RPN网络)生成目标候选框参与目标位置确定的修正训练,最后采用将SoftMax损失函数与中心损失函数融合的改进多分类器,提出了一种基于Faster RCNN深度学习网络改进的车型识别算法。
本发明的技术方案为一种基于Faster RCNN深度学习网络改进的车型识别算法,包括以下内容:
步骤1:引入原始车辆图像数据集,将原始车辆图像数据集中每幅原始车辆图像进行格式判别与解码,并对图像进行图像的宽高调整使规格统一化,得到预处理后车辆图像数据集,将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像,通过多个样本图像构建车型识别图像数据集,在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型(即车型),直到各目标类型样本数量均大于训练所需阈值,以此构建车辆图像车型识别网络训练集;
步骤2:构建特征提取网络,将步骤1中所述车辆图像车型识别网络训练集每个样本图像依次输入至特征提取网络,得到每个样本图像对应的融合特征;
步骤3:构建RPN目标识别网络,将步骤2中所述每个样本图像对应的融合特征作为输入数据依次输入目标识别网络,得到每个样本图像的目标识别候选区域;
步骤4,构建车辆车型分类模块,将步骤3中的融合特征neoFeatureMaps与候选框区域信息集合anchors′i,s(a,b,w,h)输入至包含改进的Softmax综合多分类器,对候选区域内的目标车型进行类别判断,并通过位置回归确定目标定位框最终坐标;
步骤5,构建网络整体损失函数模型;
步骤6,训练整体网络,将前述步骤2~5构建的网络按照以下流程进行训练;
作为优选,步骤1所述车型识别图像数据集为:
{VehicleTypes(m,n),s∈[1,S],m∈[1,M0],n∈[1,N0]}
其中,VehicleTypes(m,n)表示车型识别图像数据集中第s幅车辆图像第m行第n列的像素信息,S表示车型识别图像数据集中所有图像样本的数量,M0为车型识别图像数据集中每幅含车辆图像的行数,N0为车型识别图像数据集中每幅车辆图像的列数;
步骤1所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框坐标为:
Figure GDA0003091404770000021
Figure GDA0003091404770000022
Figure GDA0003091404770000023
其中,l表示车辆图像上的左,t表示车辆图像上的上,r表示车辆图像上的右,b表示车辆图像上的下;S表示车型识别图像数据集中所有车辆图像的数量,Ks表示车型识别图像数据集中第s幅车辆图像中目标识别标记框的总数;boxs,k表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框的坐标,
Figure GDA0003091404770000031
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的坐标,
Figure GDA0003091404770000032
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的横坐标,
Figure GDA0003091404770000033
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的纵坐标;
Figure GDA0003091404770000034
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的坐标,
Figure GDA0003091404770000035
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的横坐标,
Figure GDA0003091404770000036
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的纵坐标;
步骤1所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]
其中,C为车型识别图像数据集中车辆类型的总数,包括公交车,小型客车,小型货车,轿车,SUV和卡车这六个车辆类型;labels,k,c表示车型识别图像数据集中第s幅车辆图像的第k个目标识别标记框属于第c种车辆类型;
步骤1所述车辆图像车型识别网络训练集为:
{VehicleTypes(m,n),(boxs,k,labels,k,c)}
s∈[1,S],m∈[1,M0],n∈[1,N0],k∈[1,Ks],c∈[1,C]
其中,VehicleTypes(m,n)表示车型识别网络训练集中第s幅道路车辆图像第m行第n列的像素信息,boxs,k表示车型识别网络训练集中第s幅车辆图像中第k个目标识别标记框的坐标,labels,k,c表示车型识别网络训练集中第s幅车辆图像第k个目标识别标记框属于第c种车辆类型;S表示车型识别网络训练集中所有图像样本的数量,M0为车型识别网络训练集中每幅车辆图像的行数,N0为车型识别网络训练集中每幅车辆图像的列数,Ks表示车型识别网络训练集中第s幅车辆图像中目标识别标记框的总数,C为车型识别网络训练集中的车辆类型总数;
作为优选,步骤2所述特征提取网络包括:第一卷积层、第二卷积层、...、第LA卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第LB改进的最大池化层、特征融合层,2*LB<LA且原则上每两个改进的最大池化层之间串联的卷积层数量≥2;
所述的第一卷积层、第二卷积层、...、第LA卷积层依次级联;
所述的第一卷积层、第二卷积层、...、第LA卷积层中选择LB组相邻的卷积层,每组组相邻的卷积层分别通过第t改进的最大池化层级联连接,t∈[1,LB];
所述第LA卷积层与所述特征融合层连接;
所述第t改进的最大池化层与所述特征融合层连接,t∈[1,LB];
步骤1中所述的图像训练集中每个样本图像输入至所述第一卷积层;
所述第t改进的最大池化层包含侧输出通道、池化处理单元的处理通道;
所述第t改进的最大池化层的侧输出通道将相邻的上一层串联的卷积层,即第q卷积层的输出特征不经处理直接作为侧输出特征输出至特征融合层,其中q∈[2t-1,2LB-1];
所述第t改进的最大池化层的处理通道通过使用核为2×2、步长为2的最大值池化矩阵处理上一层串联的卷积层即第q卷积层的输出特征,其中q∈[2t-1,2LB-1],通过步长为2的最大值池化操作遍历特征矩阵,得到第t最大池化特征,输出至相邻的下一层串联卷积层,即第q+1卷积层;
所述第LA卷积层输出卷积特征;
所述特征融合层由尺寸调整模块与融合模块串联级联构成;
所述尺寸调整模块为并联结构,由LB个尺寸调整单元并联组成,第1最大池化层侧输出特征、第2最大池化层侧输出特征、...、第LB最大池化层侧输出特征分别输入尺寸调整模块对应的尺寸调整单元;
对应卷积特征尺寸为N×N×M,则每个尺寸调整单元将对输入的最大池化特征进行卷积处理,通过M个尺寸为1×1的卷积核将特征矩阵的通道数调整为M,随后进行池化处理,通过1个尺寸为N×N、步长为N的卷积核将特征矩阵的尺寸最终调整为N×N×M,得到尺寸调整后最大池化特征;
尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征与卷积特征尺寸一致,该模块将LB+1个特征一并输出至融合模块中;
所述融合模块对尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征、卷积特征进行求和融合处理,融合模块最终输出图像训练集中每个样本图像对应的融合特征FeatureMaps,其中s∈[1,S],S表示车型识别网络训练集中所有图像样本的数量,为M维N×N规格的特征矩阵集合;
作为优选,步骤3所述目标识别网络包括:候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层;
所述候选框生成层依次串联前景背景分类层和候选区域定位层;
所述前景背景分类层与所述候选区域定位层并联连接,进一步接入候选区域选定层;
所述候选区域选定层与所述感兴趣区域池化层连接;
步骤2中所述每个样本图像的融合特征即FeatureMaps输入所述候选框生成层,其中s∈[1,S];
所述候选框生成层由一个大小为3×3卷积核对输入的融合特征FeatureMaps进行卷积处理,在不改变特征维度的情况下使特征图上每个特征点fi,i∈[1,N×N]融合周围大小为3x3范围内的空间信息,产生特征点Fi,i∈[1,N×N],形成neoFeatureMaps,其中s∈[1,S],随后针对neoFeatureMaps上的每一个特征点Fi,以该点为中心,产生k个的大小及形状各不相同的框,这些框以该特征点为中心,将这k个框称为锚,将锚定义为anchori,j,s,每个anchori,j,s包含特征点位置信息a,b以及框的宽高w,h,即:
{anchori,j,s(a,b,w,h),i∈[1,N×N],j∈[1,k],s∈[1,S],a∈[1,N],b∈[1,N],w∈[1,3],h∈[1,3]}
其中,i表示该锚对应的特征点Fi的序号,j表示该锚为特征点Fi上的第j个锚,s表示该锚位于第s张样本图像对应的neoFeatureMaps上,a表示该锚对应中心即特征点Fi的横坐标,b表示该锚对应中心即特征点Fi的纵坐标,w表示该锚的对应框宽度,h表示该锚的对应框高度,anchori,j,s表示第s幅样本图像对应特征图的第i个特征点的第j个锚;
对于每个尺寸为N×N的FeatureMaps,会分别输出包含k×N×N个锚的特征图信息至前景背景分类层与候选区域定位层;
所述前景背景分类层包含一个Softmax分类器,将输入的融合特征FeatureMaps中每一个锚进行二分类Softmax卷积分类判定,对应的k×N×N个锚均会产生用于判别该锚为背景background或前景foreground的分数值scorei,s,b\f,其中i∈[1,N×N×k],s∈[1,S],s∈[1,S]},根据Softmax二分类结果决定下标,即每个锚对应代表前景与背景的分数值,当分数值下标为b时该锚对应背景区域,当分数值下标为f时该锚对应前景区域,每个融合特征将产生(k×N×N)个分数值scorei,s,b\f,并输出至候选区域选定层,对应的二分类损失函数为Lcls_rpn
所述候选区域定位层使用边界回归算法对每个锚求得位置偏移量与尺度偏移量集合Δ,设置偏移量阈值q,即{Δi,s=(ta,tb,tw,th),i∈[1,N×N×k],s∈[1,S],ta∈(0,q),tb∈(0,q),tw∈(0,q),th∈(0,q)},将(k×N×N)个偏移量集合Δ输出至候选区域选定层,对应的边界回归损失函数为Lreg_rpn
所述候选区域选定层输入(N×N×k)个锚和偏移量集合Δ,首先根据偏移量阈值q对偏移量集合进行筛选,剔除位置偏移量或尺度偏移量大于q的对应锚,之后再利用位置偏移信息对所有的锚做位置修正:每个Δi,s对应一个anchori,j,s(a,b,w,h)通过对应值补偿进行位置修正处理,然后按照前述前景背景分类层中Softmax分类器判定前景所打的k个Scorei,s,f由大到小进行排列,取排名前P个锚,接着剔除超出图像边界或尺寸过小的锚,最后对剩下的锚做NMS(非极大值抑制)处理,包括以下步骤:
将所有框的得分排序,选中最高分及其对应的框;
遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,将该框删除;
从未处理的框中继续选一个得分最高的,重复上述过程,直到每一特征点最多保留一个锚;
将候选区域信息anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S],输出至ROI池化层;
所述感兴趣区域池化层接收由上述候选区域选定层输出的候选框区域anchors′i,s以及步骤2输出的融合特征FeatureMaps,将每个候选区域对应的FeatureMap区域等分为pool_w×pool_h的网格,对网格的每一份进行大小为2×2步长为2的max pooling最大池化操作,将大小尺寸不一样的候选区域框统一为标准尺寸,并输出经池化处理的anchors′i,s(a,b,w,h)至车辆车型分类模块;
作为优选,步骤4所述车辆车型分类模块包括:全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层;
所述的全连接预处理层分别与所述的改进的Softmax综合多分类器串联连接、位置回归层依次连接;
所述位置回归层与所述输出层连接;
所述改进的Softmax综合多分类器与所述输出层连接;
所述全连接预处理层由第一全连接模块、第二全连接模块串联组成;
每个全连接模块由全连接层、Relu函数激活层串联组成;
步骤3中所述包含特征与候选框区域的集合anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S]与neoFeatureMaps,s∈[1,S]输入所述全连接预处理层;
经所述的第一全连接模块、第二全连接模块全连接处理后将得到处理后的融合特征neoFeatureMap′s,输入至所述的改进的Softmax综合多分类器,将得到的处理后目标锚anchors″i,s输入至位置回归层;
所述改进的Softmax综合多分类器接收全连接处理层输入的特征信息,输出第s幅样本图像对应特征图的第k个候选区域属于第c类的概率数值label_scores,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]至输出层,其中S为所有样本图像总数,Ks为第s幅车辆图像中目标识别标记框的总数,C为车型识别图像数据集中车辆类型的总数,相应的改进的Softmax多分类损失函数为Lcls_fast,该损失函数由中心损失函数Ls和Softmax损失函数Ls+Lc融合组成,即:Lcls_fast=Ls+Lc
所述位置回归层接收全连接处理层输入的anchors位置信息anchors″i,s(a,b,w,h),使用边界回归算法处理,设置偏移量阈值q′,输出位置偏移量集合Δ′i,s,即{Δ′i,s=(t′a,t′b,t′w,t′h),i∈[1,N×N],s∈[1,S],t′a∈(0,q′),t′b∈(0,q′),t′w∈(0,q′),t′h∈(0,q′)},其中i表示该偏移量对应锚所对应特征点Fi的序号,S表示所有样本图像总数,相应的位置回归损失函数为Lreg_fc
所述输出层接收综合多分类器的分类数值结果label_scores,k,c,以及位置回归层的位置偏移量集合Δ′i,s,每个Δ′i,s对应一个anchor″i,s(a,b,w,h)通过对应值补偿进行位置修正处理,最终输出结果包括:输出车型识别网络训练集中所有图像样本对应的最终定位框位置集合box_outs,k,s∈[1,S],k∈[1,Ks]和最终车型分类结果集合label_outs,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C];
其中:
Figure GDA0003091404770000081
Figure GDA0003091404770000082
Figure GDA0003091404770000083
所述定位框集合表达式box_outs,k的角标含义与所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框表达式boxs,k对应,所述车型分类结果集合表达式label_outs,k,c的角标含义与所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息表达式labels,k,c对应,区别在于boxs,k和labels,k,c为给定真值,而box_outs,k和label_outs,k,c中相应的值为训练输出结果;
作为优选,步骤5所述网络整体损失函数模型为:
Ltotal=Lcls_rpn+Lcls_fast+Lreg_rpn+Lreg_fast
其中,Lcls_rpn表示RPN网络中二分类损失函数,Lreg_rpn表示RPN网络中位置回归损失函数,Lcls_fast表示车辆车型分类模块中多分类损失函数,Lreg_fast表示车辆车型分类模块中位置精修处理的位置回归损失函数;
所述RPN网络中二分类损失函数的公式如下:
Figure GDA0003091404770000084
Figure GDA0003091404770000085
其中,pi为anchor被预测为目标的概率,
Figure GDA0003091404770000086
表示样本的标签值,当其为目标时,
Figure GDA0003091404770000087
取值为1,当其为背景时,
Figure GDA0003091404770000088
取值为0,N×N×k为锚的总数量;如公式所示,Lcls_rpn是一个二分类交叉熵对数损失函数,计算每一个anchor的对数损失,然后对所有anchors的损失求和,再除以anchors总数;
所述RPN网络中位置回归损失函数的公式如下:
Figure GDA0003091404770000091
Figure GDA0003091404770000092
其中,N×N×k为正负样本的总数,Δi,s=(ta,tb,tw,th),表示预测anchor的位置偏移量,
Figure GDA0003091404770000093
是与Δi,s相同维度的向量,表示anchor与真实位置的实际偏移量。
Figure GDA0003091404770000094
表示样本的标签,当其为目标时,
Figure GDA0003091404770000095
取值为1,当其为背景时,
Figure GDA0003091404770000096
取值为0。R是smoothL1函数,公式如下所示:
Figure GDA0003091404770000097
其中,σ一般取值为3;
所述车辆车型分类模块中多分类损失函数的公式如下:
Lcls_fast=Ls+Lc
Figure GDA0003091404770000098
其中,xi为第i深度特征,Wj为最后一个全连接层中权重的第j列,b为偏置项,m、n分别为处理的样本数量与类别数。Cyi为第i类的特征中心坐标,anchors″j,s(a,b)为输入特征坐标。β为权重参数,β在0到1之间进行取值,是一个可以调节两个损失函数贡献比例的超参数。当增大β时,在整个目标函数中,类内差异所占的比重也相应增大,生成的特征就会有明显的内聚性;当减小β时,在整个目标函数中,类内差异所占的比重也相应减小;
所述车辆车型分类模块中位置精修处理的位置回归损失函数的公式如下:
Figure GDA0003091404770000099
Figure GDA0003091404770000101
其中,Nreg为正负样本的总数,Δ′i,s=(t′a,t′b,t′w,t′h),表示预测anchor的位置偏移量,
Figure GDA0003091404770000102
是与Δ′i,s相同维度的向量,表示对应锚与真实位置的实际偏移量。
Figure GDA0003091404770000103
表示样本的标签,当其为目标时,
Figure GDA0003091404770000104
取值为1,当其为背景时,
Figure GDA0003091404770000105
取值为0,。R是smoothL1函数,与前述结构相同;
作为优选,所述步骤6具体如下:
单独训练RPN网络,用ImageNet预训练的模型初始化训练的模型,通过end to end的方法对参数进行微调,经过该步骤特征提取模块和RPN网络的参数得到了更新;
单独训练特征提取网络与车辆车型分类模块(此处将两者合称Fast rcnn网络),训练时用到的proposal由第一步中的RPN生成,同样使用ImageNet预训练的模型初始化Fast rcnn网络,此时的RPN和Fast rcnn网络暂无共享网络,经过该步骤特征提取网络与Fast rcnn网络的参数得到更新;
用Fast rcnn网络初始化RPN网络训练,固定共享的卷积层(即所述步骤3中候选框生成层处理的第一步3×3卷积处理单元),只调整RPN的网络层,从而实现卷积层的共享。经过该步骤只有RPN的参数得到更新;
继续固定共享的卷积层,以上一步更新后的RPN生成的proposal为输入,对Fastrcnn网络的参数进行微调,此时,RPN和Fast rcnn共享相同的卷积层,形成统一的网络,Fast rcnn网络的参数得到更新。
本发明的优势在于:提出了一种基于深度学习识别车型信息的算法,不需要进行额外的数据预处理以及人工设计特征提取算子,减少了车型识别算法的复杂度并加快了识别效率。在Faster RCNN神经网络的基础上,改进了特征提取网络,将浅层特征与深层特征结合使用,同时引入中心损失层与SoftMax损失函数共同监督网络分类,使得类间分散性和类内紧密性得到提升,显著提升粗粒度车型识别的速率和准确度。
附图说明
图1是本发明实施例算法流程示意图;
图2是本发明的深度学习算法构成示意图;
图3是本发明的目标特征提取网络改进结构示意图;
图4是本发明的目标多分类器设计示意图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明第一实施例为一种基于Faster RCNN深度学习网络改进的车型识别算法,包括以下步骤:
步骤1:引入原始车辆图像数据集,将原始车辆图像数据集中每幅原始车辆图像进行格式判别与解码,并对图像进行
Figure GDA0003091404770000115
图像的宽高调整使规格统一化,得到预处理后车辆图像数据集,将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像,通过多个样本图像构建车型识别图像数据集,在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型(即车型),直到各目标类型样本数量均大于训练所需阈值,以此构建车辆图像车型识别网络训练集;
步骤1所述车型识别图像数据集为:
{VehicleTypes(m,n),s∈[1,S],m∈[1,M0],n∈[1,N0]}
其中,VehicleTypes(m,n)表示车型识别图像数据集中第s幅车辆图像第m行第n列的像素信息,S=9850表示车型识别图像数据集中所有图像样本的数量,M0=1080为车型识别图像数据集中每幅含车辆图像的行数,N0=1920为车型识别图像数据集中每幅车辆图像的列数;
步骤1所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框坐标为:
Figure GDA0003091404770000111
Figure GDA0003091404770000112
Figure GDA0003091404770000113
其中,l表示车辆图像上的左,t表示车辆图像上的上,r表示车辆图像上的右,b表示车辆图像上的下;S表示车型识别图像数据集中所有车辆图像的数量,Ks表示车型识别图像数据集中第s幅车辆图像中目标识别标记框的总数;boxs,k表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框的坐标,
Figure GDA0003091404770000114
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的坐标,
Figure GDA0003091404770000121
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的横坐标,
Figure GDA0003091404770000122
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的纵坐标;
Figure GDA0003091404770000123
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的坐标,
Figure GDA0003091404770000124
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的横坐标,
Figure GDA0003091404770000125
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的纵坐标;
步骤1所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]
其中,C=6为车型识别图像数据集中车辆类型的总数,包括公交车,小型客车,小型货车,轿车,SUV和卡车这六个车辆类型;labels,k,c表示车型识别图像数据集中第s幅车辆图像的第k个目标识别标记框属于第c种车辆类型;
步骤1所述车辆图像车型识别网络训练集为:
{VehicleTypes(m,n),(boxs,k,labels,k,c)}
s∈[1,S],m∈[1,M0],n∈[1,N0],k∈[1,Ks],c∈[1,C]
其中,VehicleTypes(m,n)表示车型识别网络训练集中第s幅道路车辆图像第m行第n列的像素信息,boxs,k表示车型识别网络训练集中第s幅车辆图像中第k个目标识别标记框的坐标,labels,k,c表示车型识别网络训练集中第s幅车辆图像第k个目标识别标记框属于第c种车辆类型;S表示车型识别网络训练集中所有图像样本的数量,M0为车型识别网络训练集中每幅车辆图像的行数,N0为车型识别网络训练集中每幅车辆图像的列数,Ks表示车型识别网络训练集中第s幅车辆图像中目标识别标记框的总数,C为车型识别网络训练集中的车辆类型总数;
步骤2:构建特征提取网络,将步骤1中所述车辆图像车型识别网络训练集每个样本图像依次输入至特征提取网络,得到每个样本图像对应的融合特征;
所述特征提取网络包括:第一卷积层、第二卷积层、...、第LA卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第LB改进的最大池化层、特征融合层,2*LB<LA且原则上每两个改进的最大池化层之间串联的卷积层数量≥2;
所述的第一卷积层、第二卷积层、...、第LA卷积层依次级联;
所述的第一卷积层、第二卷积层、...、第LA卷积层中选择LB组相邻的卷积层,每组组相邻的卷积层分别通过第t改进的最大池化层级联连接,t∈[1,LB];
所述第LA卷积层与所述特征融合层连接;
所述第t改进的最大池化层与所述特征融合层连接,t∈[1,LB];
步骤1中所述的图像训练集中每个样本图像输入至所述第一卷积层;
所述第t改进的最大池化层包含侧输出通道、池化处理单元的处理通道;
所述第t改进的最大池化层的侧输出通道将相邻的上一层串联的卷积层,即第q卷积层的输出特征不经处理直接作为侧输出特征输出至特征融合层,其中q∈[2t-1,2LB-1];
所述第t改进的最大池化层的处理通道通过使用核为2×2、步长为2的最大值池化矩阵处理上一层串联的卷积层即第q卷积层的输出特征,其中q∈[2t-1,2LB-1],通过步长为2的最大值池化操作遍历特征矩阵,得到第t最大池化特征,输出至相邻的下一层串联卷积层,即第q+1卷积层;
所述第LA卷积层输出卷积特征;
所述特征融合层由尺寸调整模块与融合模块串联级联构成;
所述尺寸调整模块为并联结构,由LB个尺寸调整单元并联组成,第1最大池化层侧输出特征、第2最大池化层侧输出特征、...、第LB最大池化层侧输出特征分别输入尺寸调整模块对应的尺寸调整单元;
对应卷积特征尺寸为N×N×M,则每个尺寸调整单元将对输入的最大池化特征进行卷积处理,通过M个尺寸为1×1的卷积核将特征矩阵的通道数调整为M,随后进行池化处理,通过1个尺寸为N×N、步长为N的卷积核将特征矩阵的尺寸最终调整为N×N×M,得到尺寸调整后最大池化特征;
尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征与卷积特征尺寸一致,该模块将LB+1个特征一并输出至融合模块中;
所述融合模块对尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征、卷积特征进行求和融合处理,融合模块最终输出图像训练集中每个样本图像对应的融合特征FeatureMaps,其中s∈[1,S],S表示车型识别网络训练集中所有图像样本的数量,为M维N×N规格的特征矩阵集合;
步骤3:构建RPN目标识别网络,将步骤2中所述每个样本图像对应的融合特征作为输入数据依次输入目标识别网络,得到每个样本图像的目标识别候选区域;
所述目标识别网络包括:候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层;
所述候选框生成层依次串联前景背景分类层和候选区域定位层;
所述前景背景分类层与所述候选区域定位层并联连接,进一步接入候选区域选定层;
所述候选区域选定层与所述感兴趣区域池化层连接;
步骤2中所述每个样本图像的融合特征即FeatureMaps输入所述候选框生成层,其中s∈[1,S];
所述候选框生成层由一个大小为3×3卷积核对输入的融合特征FeatureMaps进行卷积处理,在不改变特征维度的情况下使特征图上每个特征点fi,i∈[1,N×N]融合周围大小为3x3范围内的空间信息,产生特征点Fi,i∈[1,N×N],形成neoFeatureMaps,其中s∈[1,S],随后针对neoFeatureMaps上的每一个特征点Fi,以该点为中心,产生k个的大小及形状各不相同的框,这些框以该特征点为中心,将这k个框称为锚,将锚定义为anchori,j,s,每个anchori,j,s包含特征点位置信息a,b以及框的宽高w,h,即:
{anchori,j,s(a,b,w,h),i∈[1,N×N],j∈[1,k],s∈[1,S],a∈[1,N],b∈[1,N],w∈[1,3],h∈[1,3]}
其中,i表示该锚对应的特征点Fi的序号,j表示该锚为特征点Fi上的第j个锚,s表示该锚位于第s张样本图像对应的neoFeatureMaps上,a表示该锚对应中心即特征点Fi的横坐标,b表示该锚对应中心即特征点Fi的纵坐标,w表示该锚的对应框宽度,h表示该锚的对应框高度,anchori,j,s表示第s幅样本图像对应特征图的第i个特征点的第j个锚;
对于每个尺寸为N×N的FeatureMaps,会分别输出包含k×N×N个锚的特征图信息至前景背景分类层与候选区域定位层;
所述前景背景分类层包含一个Softmax分类器,将输入的融合特征FeatureMaps中每一个锚进行二分类Softmax卷积分类判定,对应的k×N×N个锚均会产生用于判别该锚为背景background或前景foreground的分数值scorei,s,b\f,其中i∈[1,N×N×k],s∈[1,S],s∈[1,S]},根据Softmax二分类结果决定下标,即每个锚对应代表前景与背景的分数值,当分数值下标为b时该锚对应背景区域,当分数值下标为f时该锚对应前景区域,每个融合特征将产生(k×N×N)个分数值scorei,s,b\f,并输出至候选区域选定层,对应的二分类损失函数为Lcls_rpn
所述候选区域定位层使用边界回归算法对每个锚求得位置偏移量与尺度偏移量集合Δ,设置偏移量阈值q,即{Δi,s=(ta,tb,tw,th),i∈[1,N×N×k],s∈[1,S],ta∈(0,q),tb∈(0,q),tw∈(0,q),th∈(0,q)},将(k×N×N)个偏移量集合Δ输出至候选区域选定层,对应的边界回归损失函数为Lreg_rpn
所述候选区域选定层输入(N×N×k)个锚和偏移量集合Δ,首先根据偏移量阈值q对偏移量集合进行筛选,剔除位置偏移量或尺度偏移量大于q的对应锚,之后再利用位置偏移信息对所有的锚做位置修正:每个Δi,s对应一个anchori,j,s(a,b,w,h)通过对应值补偿进行位置修正处理,然后按照前述前景背景分类层中Softmax分类器判定前景所打的k个scorei,s,f由大到小进行排列,取排名前P个锚,接着剔除超出图像边界或尺寸过小的锚,最后对剩下的锚做NMS(非极大值抑制)处理,包括以下步骤:
将所有框的得分排序,选中最高分及其对应的框;
遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,将该框删除;
从未处理的框中继续选一个得分最高的,重复上述过程,直到每一特征点最多保留一个锚;
将候选区域信息anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S],输出至ROI池化层;
所述感兴趣区域池化层接收由上述候选区域选定层输出的候选框区域anchors′i,s以及步骤2输出的融合特征FeatureMaps,将每个候选区域对应的FeatureMap区域等分为pool_w×pool_h的网格,对网格的每一份进行大小为2×2、步长为2的maxpooling最大池化操作,将大小尺寸不一样的候选区域框统一为标准尺寸,并输出经池化处理的anchors′i,s(a,b,w,h)至车辆车型分类模块;
步骤4,构建车辆车型分类模块,将步骤3中的融合特征neoFeatureMaps与候选框区域信息集合anchors′i,s(a,b,w,h)输入至包含改进的Softmax综合多分类器,对候选区域内的目标车型进行类别判断,并通过位置回归确定目标定位框最终坐标;
所述车辆车型分类模块包括:全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层;
所述的全连接预处理层分别与所述的改进的Softmax综合多分类器串联连接、位置回归层依次连接;
所述位置回归层与所述输出层连接;
所述改进的Softmax综合多分类器与所述输出层连接;
所述全连接预处理层由第一全连接模块、第二全连接模块串联组成;
每个全连接模块由全连接层、Relu函数激活层串联组成;
步骤3中所述包含特征与候选框区域的集合anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S]与neoFeatureMaps,s∈[1,S]输入所述全连接预处理层;
经所述的第一全连接模块、第二全连接模块全连接处理后将得到处理后的融合特征neoFeatureMap′s,输入至所述的改进的Softmax综合多分类器,将得到的处理后目标锚anchors″i,s输入至位置回归层;
所述改进的Softmax综合多分类器接收全连接处理层输入的特征信息,输出第s幅样本图像对应特征图的第k个候选区域属于第c类的概率数值label_scores,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]至输出层,其中S为所有样本图像总数,Ks为第s幅车辆图像中目标识别标记框的总数,C为车型识别图像数据集中车辆类型的总数,相应的改进的Softmax多分类损失函数为Lcls_fast,该损失函数由中心损失函数Ls和Softmax损失函数Ls+Lc融合组成,即:Lcls_fast=Ls+Lc
所述位置回归层接收全连接处理层输入的anchors位置信息anchors″i,s(a,b,w,h),使用边界回归算法处理,设置偏移量阈值q′,输出位置偏移量集合Δ′i,s,即{Δ′i,s=(t′a,t′b,t′w,t′h),i∈[1,N×N],s∈[1,S],t′a∈(0,q′),t′b∈(0,q′),t′w∈(0,q′),t′h∈(0,q′)},其中i表示该偏移量对应锚所对应特征点Fi的序号,S表示所有样本图像总数,相应的位置回归损失函数为Lreg_fc
所述输出层接收综合多分类器的分类数值结果label_scores,k,c,以及位置回归层的位置偏移量集合Δ′i,s,每个Δ′i,s对应一个anchor″i,s(a,b,w,h)通过对应值补偿进行位置修正处理,最终输出结果包括:输出车型识别网络训练集中所有图像样本对应的最终定位框位置集合box_outs,k,s∈[1,S],k∈[1,Ks]和最终车型分类结果集合label_outs,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C];
其中:
Figure GDA0003091404770000171
Figure GDA0003091404770000172
Figure GDA0003091404770000173
所述定位框集合表达式box_outs,k的角标含义与所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框表达式boxs,k对应,所述车型分类结果集合表达式label_outs,k,c的角标含义与所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息表达式labels,k,c对应,区别在于boxs,k和labels,k,c为给定真值,而box_outs,k和label_outs,k,c中相应的值为训练输出结果;
步骤5,构建网络整体损失函数模型;
步骤5所述网络整体损失函数模型为:
Ltotal=Lcls_rpn+Lcls_fast+Lreg_rpn+Lreg_fast
其中,Lcls_rpn表示RPN网络中二分类损失函数,Lreg_rpn表示RPN网络中位置回归损失函数,Lcls_gast表示车辆车型分类模块中多分类损失函数,Lreg_fast表示车辆车型分类模块中位置精修处理的位置回归损失函数;
所述RPN网络中二分类损失函数的公式如下:
Figure GDA0003091404770000181
Figure GDA0003091404770000182
其中,pi为anchor被预测为目标的概率,
Figure GDA0003091404770000183
表示样本的标签值,当其为目标时,
Figure GDA0003091404770000184
取值为1,当其为背景时,
Figure GDA0003091404770000185
取值为0,N×N×k为锚的总数量;如公式所示,Lcls_rpn是一个二分类交叉熵对数损失函数,计算每一个anchor的对数损失,然后对所有anchors的损失求和,再除以anchors总数;
所述RPN网络中位置回归损失函数的公式如下:
Figure GDA0003091404770000186
Figure GDA0003091404770000187
其中,N×N×k为正负样本的总数,Δi,s=(ta,tb,tw,th),表示预测anchor的位置偏移量,
Figure GDA0003091404770000188
是与Δi,s相同维度的向量,表示anchor与真实位置的实际偏移量。
Figure GDA0003091404770000189
表示样本的标签,当其为目标时,
Figure GDA00030914047700001810
取值为1,当其为背景时,
Figure GDA00030914047700001811
取值为0。R是smoothL1函数,公式如下所示:
Figure GDA00030914047700001812
其中,σ一般取值为3;
所述车辆车型分类模块中多分类损失函数的公式如下:
Lcls_fast=Ls+Lc
Figure GDA00030914047700001813
其中,xi为第i深度特征,Wj为最后一个全连接层中权重的第j列,b为偏置项,m、n分别为处理的样本数量与类别数。Cyi为第i类的特征中心坐标,anchors″j,s(a,b)为输入特征坐标。β为权重参数,β在0到1之间进行取值,是一个可以调节两个损失函数贡献比例的超参数。当增大β时,在整个目标函数中,类内差异所占的比重也相应增大,生成的特征就会有明显的内聚性;当减小β时,在整个目标函数中,类内差异所占的比重也相应减小;
所述车辆车型分类模块中位置精修处理的位置回归损失函数的公式如下:
Figure GDA0003091404770000191
Figure GDA0003091404770000192
其中,Nreg为正负样本的总数,Δ′i,s=(t′a,t′b,t′w,t′h),表示预测anchor的位置偏移量,
Figure GDA0003091404770000193
是与Δ′i,s相同维度的向量,表示对应锚与真实位置的实际偏移量。
Figure GDA0003091404770000194
表示样本的标签,当其为目标时,
Figure GDA0003091404770000195
取值为1,当其为背景时,
Figure GDA0003091404770000196
取值为0,。R是smoothL1函数,与前述结构相同;
步骤6,训练整体网络,将前述步骤2~5构建的网络按照以下流程进行训练:
单独训练RPN网络,用ImageNet预训练的模型初始化训练的模型,通过end to end的方法对参数进行微调,经过该步骤特征提取模块和RPN网络的参数得到了更新;
单独训练特征提取网络与车辆车型分类模块(此处将两者合称Fast rcnn网络),训练时用到的proposal由第一步中的RPN生成,同样使用ImageNet预训练的模型初始化Fast rcnn网络,此时的RPN和Fast rcnn网络暂无共享网络,经过该步骤特征提取网络与Fast rcnn网络的参数得到更新;
用Fast rcnn网络初始化RPN网络训练,固定共享的卷积层(即所述步骤3中候选框生成层处理的第一步3×3卷积处理单元),只调整RPN的网络层,从而实现卷积层的共享。经过该步骤只有RPN的参数得到更新;
继续固定共享的卷积层,以上一步更新后的RPN生成的proposal为输入,对Fastrcnn网络的参数进行微调,此时,RPN和Fast rcnn共享相同的卷积层,形成统一的网络,Fast rcnn网络的参数得到更新。
本发明的关键在于基于Faster RCNN深度学习网络完成对特征提取层与最终全连接分类层设计上的改进,有效提升对车辆车型识别的速度与准确度。
在道路交通领域,使用特定的深度学习网络可以从摄像头拍摄的实时交通图像中获取车辆的车型信息,Faster RCNN是其中一种可用的算法,本发明在此基础上进行改进工作。
车型识别的准确率取决于关键特征的提取,网络学习到高区分度的特征可以有效提高车型识别准确率,为此本发明借鉴HED网络改进了卷积神经网络的特征提取网络结构,融合浅层特征和深层特征,增强网络提取特征的能力以得到更具有区分度的特征信息,在VGG16网络的结构基础上添加侧输出层,在原有的特征提取模块加入了侧输出层,具体改进为分别在Conv1_2、Conv2_2、Conv3_3、Conv4_3卷积层后增加了侧输出层side_output_1、side_output_2、side_output_3、side_output_4。为了表述方便,将特征提取模块划分为Conv1_x、Conv2_x、Conv3_x、Conv4_x、Conv5_x、五个小模块,最后对所有的侧输出层和Conv5_x模块输出的特征进行融合处理,见图3,具体过程如下:
以输入图像A为例,假设A的尺寸为800x800,输入图像矩阵后,进行多尺度多层次特征提取。图像矩阵首先经过Conv1_1、Conv1_2两个卷积层处理,得到特征side_output_1,保存side_output_1(尺寸大小为800x800x64),从Conv1_2卷积层输出的再通过池化层进行Max Pool 1池化处理,然后进行Conv2_1、Conv2_2卷积层处理,此处得到的特征记为side_output_2(尺寸大小为400x400x128),保存side_output_2,Conv2_2卷积层得到的特征继续进行Max Pool 2池化层,3,4,5以此类推。因为side_output_1、side_output_2、side_output_3和side_output_4的尺寸不同(依次为800x800x64,400x400x128,200x200x256和100x100x512),分别对side_output_1、side_output_2、side_output_3、side_output_4进行3x3卷积和池化操作,使得各个side_output的尺寸规格都变为50x50x512,与side_output_5一致,由此将5层输出融合,得到当前图像特征Feature Map。
接收混合特征图数据,经过RPN网络处理,识别目标与背景,并确定目标的大致坐标位置,确立候选区域并通过迭代回归的方式修正目标框位置,模块流程见图2左下角RPN部分,具体过程如下:
使用尺寸为3x3的卷积核对Feature Map做卷积操作,使得Feature Map上每个点的特征融合周围大小为3x3的空间信息。针对Feature Map上的每一个特征点,以该点为中心,产生k个的大小及形状各不相同的框,这些框以该特征点为中心,将这k个框称为anchors。在cls_layer中通过SoftMax分类器提取出前景区域,针对每一个anchor进行判定,判断该anchor是背景或者是前景,并将判断结果记为分数形式(score),即一个anchor对应着两个分数,一是为前景的分数,二是为背景的分数,一个特征点对应k个anchors,则相应产生2k个打分,将其记为2k scores。其中判别前景与背景的二分类损失函数为:
Figure GDA0003091404770000211
其中,pi为anchor被预测为目标的概率,
Figure GDA0003091404770000212
表示样本的标签值,当其为目标时,
Figure GDA0003091404770000213
取值为1,当其为背景时,
Figure GDA0003091404770000214
取值为0,Ncls表示anchors的总数量,如公式所示,Lcls_rpn是一个二分类交叉熵对数损失函数,计算每一个anchor的对数损失并求和,再除以anchors总数。
anchor框的位置和尺寸大小与实际目标框大小和位置有偏移,需要计算出中心点位置偏移量和尺寸偏移量。reg layer用于计算anchors的位置偏移量。在reg layer中,对每一个anchor的位置进行回归修正,由于anchor是由中心点和长宽确定的,所以计算中心点位置偏移量和长宽偏移量,即每个anchor有四个偏移量,一个特征点对应k个anchors,为4k个偏移量,记为4k coordinates。位置回归的损失函数为:
Figure GDA0003091404770000215
Figure GDA0003091404770000216
其中Nreg表示正负样本的总数,ti=(tx,ty,tw,th)表示预测anchor的位置偏移量,
Figure GDA0003091404770000217
是与ti相同维度的向量,表示anchor与真实位置的实际偏移量。
Figure GDA0003091404770000218
表示样本的标签,当其为目标时,
Figure GDA0003091404770000219
取值为1,当其为背景时,
Figure GDA00030914047700002110
取值为0。R是smoothL1函数,公式如下:
Figure GDA00030914047700002111
其中,σ一般取值为3。
Proposal层接收cls layer的分类结果和reg layer计算得到的位置偏移量等信息。首先利用reg layer计算得到的位置偏移信息对所有的anchors做位置修正,再按照clslayer中SoftMax分类器判定前景的k scores由大到小排列,取排名前P个anchors,最后剔除超出图像边界或者尺寸过小的anchors。
经过上述三个步骤,剔除了一部分anchors,对剩下的anchors做NMS处理,再输出候选区域,进入ROI Pooling层。该层将候选区域对应的Feature Map区域等分为pool_w*pool_h的网格,对网格的每一份进行max pooling操作,将大小尺寸不一样的候选区域框统一为标准尺寸,方便分类工作的进行。
通过全连接层和经过设计的综合多分类器判断候选区域的具体类别,输出候选区域属于每种类别的概率数值,同时,再次利用边界回归方法获得每个候选区域的位置偏移量,用于回归更加精确的目标检测框,作为最终结果的一部分,输出准确的目标框+目标车型类别,综合多分类器设计见图4,具体如下:
将ROI Pooling的结果输入,即图4中的fc项,在faster RCNN原有的单个SoftMax多分类器基础上引入融合SoftMax损失函数和中心损失函数的新函数,紧缩类内距离以提高分类准确度,该函数公式如下:
Figure GDA0003091404770000221
其中,xi为第i深度特征,Wj为最后一个全连接层中权重的第j列,b为偏置项,m、n分别为处理的样本数量与类别数。Cyi为第i类的特征中心,xi为输入特征。β为权重参数,β在0到1之间进行取值。当增大β时,在整个目标函数中,类内差异所占的比重也相应增大,生成的特征就会有明显的内聚性;当减小β时,在整个目标函数中,类内差异所占的比重也相应减小。
实施例包括步骤如下:
步骤1,接收车辆图像数据,对图像数据进行预处理,针对神经网络训练要求,将图像数据以矩阵形式保存像素信息导入并重新调整为卷积层需要的输入规格;
步骤2,提取图像特征信息,获取关于车辆的特征图,接收经过修改的图像矩阵信息,输入基于VGG16卷积网络并参考整体嵌套边缘检测网络(Holistically-Nested EdgeDetection,HED网络)改进添加侧输出层的特征提取模块中,生成混合特征图(Mix featuremap);
步骤3,根据特征图执行目标检测工作,接收混合特征图数据,经过RPN网络处理,识别目标与背景,并确定目标的大致坐标位置,生成区域建议框并通过迭代回归的方式修正目标框位置;
步骤4,通过全连接层和融合了中心损失函数与SoftMax的分类损失函数设计的综合多分类器计算并输出候选区域属于每种类别的概率数值,分类损失函数公式如式(6)
Figure GDA0003091404770000231
其中,xi为第i深度特征,Wj为最后一个全连接层中权重的第j列,b为偏置项,m、n分别为处理的样本数量与类别数。Cyi为第i类的特征中心,xi为输入特征。β为权重参数,在0到1之间进行取值;
步骤5,输出候选区域属于每种类别的概率数值,通过式一并利用边界位置回归方法获得每个候选区域的位置偏移量,用于回归更加精确的目标检测框,作为最终结果的一部分,输出准确的目标框+目标车型类别,位置回归损失函数公式如式(7)和(8)
Figure GDA0003091404770000232
Figure GDA0003091404770000233
其中,Nreg表示正负样本的总数,ti=(tx,ty,tw,th),表示预测anchor的位置偏移量,
Figure GDA0003091404770000234
是与ti相同维度的向量,表示anchor与真实位置的实际偏移量。
Figure GDA0003091404770000235
表示样本的标签,当其为目标时,
Figure GDA0003091404770000236
取值为1,当其为背景时,
Figure GDA0003091404770000237
取值为0。R是smoothL1函数,公式如式(9)
Figure GDA0003091404770000238
其中,σ一般取值为3。
具体实施时,首先从道路交通摄像头采集图像数据,将原始图像进行尺寸处理并规定大小,输入特征提取网络中进行训练,提取特征图,使用式(1)进行误差判断。将特征图引入RPN网络进行位置回归计算,使用式(2)和(3)参与偏移量修正计算,修正目标框位置。确定目标位置后在全连接层使用改进的多分类器,基于式(5)的进行分类计算,得出最终的车型识别结果和目标定位框位置信息。
虽然本发明描述的车辆车型识别方法是通过静态图像实现的,但在连续的视频流中通过逐帧处理也一样适用。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于Faster RCNN深度学习网络改进的车型识别方法,包括以下内容:
步骤1:引入原始车辆图像数据集,将原始车辆图像数据集中每幅原始车辆图像进行格式判别与解码,并对图像进行
Figure FDA0003736035220000014
图像的宽高调整使规格统一化,得到预处理后车辆图像数据集,将预处理后车辆图像数据集中每幅预处理后车辆图像依次通过直方图均衡化处理、HSV亮度变换增强处理、高斯滤波处理得到样本图像,通过多个样本图像构建车型识别图像数据集,在每个样本图像中通过人工标注方式得到多个目标的标记框、多个目标的目标类型即车型,直到各目标类型样本数量均大于训练所需阈值,以此构建车辆图像车型识别网络训练集;
步骤2:构建特征提取网络,将步骤1中所述车辆图像车型识别网络训练集每个样本图像依次输入至特征提取网络,得到每个样本图像对应的融合特征;
步骤3:构建RPN目标识别网络,将步骤2中所述每个样本图像对应的融合特征作为输入数据依次输入目标识别网络,得到每个样本图像的目标识别候选区域;
步骤4,构建车辆车型分类模块,将步骤3中的融合特征neoFeatureMaps与候选框区域信息集合anchors′i,s(a,b,w,h)输入至包含改进的Softmax综合多分类器,对候选区域内的目标车型进行类别判断,并通过位置回归确定目标定位框最终坐标;
步骤5,构建网络整体损失函数模型;
步骤6,训练整体网络,将前述步骤2~5构建的网络按照以下流程进行训练;
步骤1所述车型识别图像数据集为:
{VehicleTypes(m,n),s∈[1,S],m∈[1,M0],n∈[1,N0]}
其中,VehicleTypes(m,n)表示车型识别图像数据集中第s幅车辆图像第m行第n列的像素信息,S表示车型识别图像数据集中所有图像样本的数量,M0为车型识别图像数据集中每幅含车辆图像的行数,N0为车型识别图像数据集中每幅车辆图像的列数;
步骤1所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框坐标为:
Figure FDA0003736035220000011
Figure FDA0003736035220000012
Figure FDA0003736035220000013
其中,l表示车辆图像上的左,t表示车辆图像上的上,r表示车辆图像上的右,b表示车辆图像上的下;S表示车型识别图像数据集中所有车辆图像的数量,
Ks表示车型识别图像数据集中第s幅车辆图像中目标识别标记框的总数;boxs,k表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框的坐标,
Figure FDA0003736035220000021
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的坐标,
Figure FDA0003736035220000022
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的横坐标,
Figure FDA0003736035220000023
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框左上角的纵坐标;
Figure FDA0003736035220000024
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的坐标,
Figure FDA0003736035220000025
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的横坐标,
Figure FDA0003736035220000026
表示车型识别图像数据集中第s幅车辆图像中第k个目标识别标记框右下角的纵坐标;
步骤1所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息为:
labels,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]
其中,C为车型识别图像数据集中车辆类型的总数,包括公交车,小型客车,小型货车,轿车,SUV和卡车这六个车辆类型;labels,k,c表示车型识别图像数据集中第s幅车辆图像的第k个目标识别标记框属于第c种车辆类型;
步骤1所述车辆图像车型识别网络训练集为:
{VehicleTypes(m,n),(boxs,k,labels,k,c)}
s∈[1,S],m∈[1,M0],n∈[1,N0],k∈[1,Ks],c∈[1,C]
其中,VehicleTypes(m,n)表示车型识别网络训练集中第s幅道路车辆图像第m行第n列的像素信息,boxs,k表示车型识别网络训练集中第s幅车辆图像中第k个目标识别标记框的坐标,labels,k,c表示车型识别网络训练集中第s幅车辆图像第k个目标识别标记框属于第c种车辆类型;S表示车型识别网络训练集中所有图像样本的数量,M0为车型识别网络训练集中每幅车辆图像的行数,N0为车型识别网络训练集中每幅车辆图像的列数,Ks表示车型识别网络训练集中第s幅车辆图像中目标识别标记框的总数,C为车型识别网络训练集中的车辆类型总数;
步骤2所述特征提取网络包括:第一卷积层、第二卷积层、...、第LA卷积层、第一改进的最大池化层、第二改进的最大池化层、...、第LB改进的最大池化层、特征融合层,2*LB<LA且原则上每两个改进的最大池化层之间串联的卷积层数量≥2;
所述的第一卷积层、第二卷积层、...、第LA卷积层依次级联;
所述的第一卷积层、第二卷积层、...、第LA卷积层中选择LB组相邻的卷积层,每组组相邻的卷积层分别通过第t改进的最大池化层级联连接,t∈[1,LB];
所述第LA卷积层与所述特征融合层连接;
所述第t改进的最大池化层与所述特征融合层连接,t∈[1,LB];
步骤1中所述的图像训练集中每个样本图像输入至所述第一卷积层;
所述第t改进的最大池化层包含侧输出通道、池化处理单元的处理通道;
所述第t改进的最大池化层的侧输出通道将相邻的上一层串联的卷积层,即第q卷积层的输出特征不经处理直接作为侧输出特征输出至特征融合层,其中q∈[2t-1,2LB-1];
所述第t改进的最大池化层的处理通道通过使用核为2×2、步长为2的最大值池化矩阵处理上一层串联的卷积层即第q卷积层的输出特征,其中q∈[2t-1,2LB-1],通过步长为2的最大值池化操作遍历特征矩阵,得到第t最大池化特征,输出至相邻的下一层串联卷积层,即第q+1卷积层;
所述第LA卷积层输出卷积特征;
所述特征融合层由尺寸调整模块与融合模块串联级联构成;
所述尺寸调整模块为并联结构,由LB个尺寸调整单元并联组成,第1最大池化层侧输出特征、第2最大池化层侧输出特征、...、第LB最大池化层侧输出特征分别输入尺寸调整模块对应的尺寸调整单元;
对应卷积特征尺寸为N×N×M,则每个尺寸调整单元将对输入的最大池化特征进行卷积处理,通过M个尺寸为1×1的卷积核将特征矩阵的通道数调整为M,随后进行池化处理,通过1个尺寸为N×N、步长为N的卷积核将特征矩阵的尺寸最终调整为N×N×M,得到尺寸调整后最大池化特征;
尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征与卷积特征尺寸一致,该模块将LB+1个特征一并输出至融合模块中;
所述融合模块对尺寸调整后第1最大池化层侧输出特征、...、尺寸调整后第LB最大池化层侧输出特征、卷积特征进行求和融合处理,融合模块最终输出图像训练集中每个样本图像对应的融合特征FeatureMaps,其中s∈[1,S],S表示车型识别网络训练集中所有图像样本的数量,为M维N×N规格的特征矩阵集合;
步骤3所述目标识别网络包括:候选框生成层、前景背景分类层、候选区域定位层、候选区域选定层、感兴趣区域池化层;
所述候选框生成层依次串联前景背景分类层和候选区域定位层;
所述前景背景分类层与所述候选区域定位层并联连接,进一步接入候选区域选定层;
所述候选区域选定层与所述感兴趣区域池化层连接;
步骤2中所述每个样本图像的融合特征即FeatureMaps输入所述候选框生成层,其中s∈[1,S];
所述候选框生成层由一个大小为3×3卷积核对输入的融合特征FeatureMaps进行卷积处理,在不改变特征维度的情况下使特征图上每个特征点fi,i∈[1,N×N]融合周围大小为3x3范围内的空间信息,产生特征点Fi,i∈[1,N×N],形成neoFeatureMaps,其中
s∈[1,S],随后针对neoFeatureMaps上的每一个特征点Fi,以该点为中心,产生k个的大小及形状各不相同的框,这些框以该特征点为中心,将这k个框称为锚,将锚定义为anchori,j,s,每个anchori,j,s包含特征点位置信息a,b以及框的宽高w,h,即:
{anchori,j,s(a,b,w,h),i∈[1,N×N],j∈[1,k],s∈[1,S],a∈[1,N],b∈[1,N],w∈[1,3],h∈[1,3]}
其中,i表示该锚对应的特征点Fi的序号,j表示该锚为特征点Fi上的第j个锚,s表示该锚位于第s张样本图像对应的neoFeatureMaps上,a表示该锚对应中心即特征点Fi的横坐标,b表示该锚对应中心即特征点Fi的纵坐标,w表示该锚的对应框宽度,h表示该锚的对应框高度,anchori,j,s表示第s幅样本图像对应特征图的第i个特征点的第j个锚;
对于每个尺寸为N×N的FeatureMaps,会分别输出包含k×N×N个锚的特征图信息至前景背景分类层与候选区域定位层;
所述前景背景分类层包含一个Softmax分类器,将输入的融合特征FeatureMaps中每一个锚进行二分类Softmax卷积分类判定,对应的k×N×N个锚均会产生用于判别该锚为背景background或前景foreground的分数值scorei,s,b\f,其中i∈[1,N×N],s∈[1,S],根据Softmax二分类结果决定下标,即每个锚对应代表前景与背景的分数值,当分数值下标为b时该锚对应背景区域,当分数值下标为f时该锚对应前景区域,每个融合特征将产生(k×N×N)个分数值scorei,s,b\f,并输出至候选区域选定层,对应的二分类损失函数为Lcls_rpn
所述候选区域定位层使用边界回归算法对每个锚求得位置偏移量与尺度偏移量集合Δ,设置偏移量阈值q,即
i,s=(ta,tb,tw,th),i∈[1,N×N×k],s∈[1,S],ta∈(0,q),tb∈(0,q),tw∈(0,q),th∈(0,q)},将(k×N×N)个偏移量集合Δ输出至候选区域选定层,对应的边界回归损失函数为Lreg_rpn
所述候选区域选定层输入(N×N×k)个锚和偏移量集合Δ,首先根据偏移量阈值q对偏移量集合进行筛选,剔除位置偏移量或尺度偏移量大于q的对应锚,之后再利用位置偏移信息对所有的锚做位置修正:每个Δi,s对应一个anchori,j,s(a,b,w,h)通过对应值补偿进行位置修正处理,然后按照前述前景背景分类层中Softmax分类器判定前景所打的k个
scorei,s,f由大到小进行排列,取排名前P个锚,接着剔除超出图像边界或尺寸过小的锚,最后对剩下的锚做NMS非极大值抑制处理,包括以下步骤:
将所有框的得分排序,选中最高分及其对应的框;
遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,将该框删除;
从未处理的框中继续选一个得分最高的,重复上述过程,直到每一特征点最多保留一个锚;
将候选区域信息anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S],输出至ROI池化层;
所述感兴趣区域池化层接收由上述候选区域选定层输出的候选框区域anchors′i,s以及步骤2输出的融合特征FeatureMaps,将每个候选区域对应的FeatureMap区域等分为pool_w×pool_h的网格,对网格的每一份进行大小为2×2步长为2的max pooling最大池化操作,将大小尺寸不一样的候选区域框统一为标准尺寸,并输出经池化处理的anchors′i,s(a,b,w,h)至车辆车型分类模块;
步骤4所述车辆车型分类模块包括:全连接预处理层、改进的Softmax综合多分类器、位置回归层、输出层;
所述的全连接预处理层分别与所述的改进的Softmax综合多分类器串联连接、位置回归层依次连接;
所述位置回归层与所述输出层连接;
所述改进的Softmax综合多分类器与所述输出层连接;
所述全连接预处理层由第一全连接模块、第二全连接模块串联组成;
每个全连接模块由全连接层、Relu函数激活层串联组成;
包含特征与候选框区域的集合anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S]与neoFeatureMaps,s∈[1,S]输入所述全连接预处理层;
经所述的第一全连接模块、第二全连接模块全连接处理后将得到处理后的融合特征neoFeatureMap′s,输入至所述的改进的Softmax综合多分类器,将得到的处理后目标锚anchors″i,s输入至位置回归层;
所述改进的Softmax综合多分类器接收全连接处理层输入的特征信息,输出第s幅样本图像对应特征图的第k个候选区域属于第c类的概率数值label_scores,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]至输出层,其中S为所有样本图像总数,
Ks为第s幅车辆图像中目标识别标记框的总数,C为车型识别图像数据集中车辆类型的总数,相应的改进的Softmax多分类损失函数为Lcls_fast,该损失函数由中心损失函数Ls和Softmax损失函数Lc融合组成,即:Lcls_fast=Ls+Lc
所述位置回归层接收全连接处理层输入的anchors位置信息anchors″i,s(a,b,w,h),使用边界回归算法处理,设置偏移量阈值q′,输出位置偏移量集合Δ′i,s,即{Δ′i,s=(t′a,t′b,t′w,t′h),i∈[1,N×N],s∈[1,S],t′a∈(0,q′),t′b∈(0,q′),t′w∈(0,q′),t′h∈(0,q′)},其中i表示该偏移量对应锚所对应特征点Fi的序号,S表示所有样本图像总数;
所述输出层接收综合多分类器的分类数值结果label_scores,k,c,以及位置回归层的位置偏移量集合Δ′i,s,每个Δ′i,s对应一个anchors″i,s(a,b,w,h)通过对应值补偿进行位置修正处理,最终输出结果包括:输出车型识别网络训练集中所有图像样本对应的最终定位框位置集合box_outs,k,s∈[1,S],k∈[1,Ks]和最终车型分类结果集合
label_outs,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C];
其中:
Figure FDA0003736035220000061
Figure FDA0003736035220000062
Figure FDA0003736035220000063
所述定位框集合表达式box_outs,k的角标含义与所述车型识别图像数据集中每幅车辆图像的车辆目标识别标记框表达式boxs,k对应,所述车型分类结果集合表达式label_outs,k,c的角标含义与所述车型识别图像数据集中每幅车辆图像的目标识别标记框类别信息表达式labels,k,c对应,区别在于boxs,k和labels,k,c为给定真值,而box_outs,k和label_outs,k,c中相应的值为训练输出结果;
步骤5所述网络整体损失函数模型为:
Ltotal=Lcls_rpn+Lcls_fast+Lreg_rpn+Lreg_fast
其中,Lcls_rpn表示RPN网络中二分类损失函数,Lreg_rpn表示RPN网络中位置回归损失函数,Lcls_fast表示车辆车型分类模块中多分类损失函数,Lreg_fast表示车辆车型分类模块中位置精修处理的位置回归损失函数;
所述RPN网络中二分类损失函数的公式如下:
Figure FDA0003736035220000071
Figure FDA0003736035220000072
其中,pi为anchor被预测为目标的概率,
Figure FDA0003736035220000073
表示样本的标签值,当其为目标时,
Figure FDA0003736035220000074
取值为1,当其为背景时,
Figure FDA0003736035220000075
取值为0,N×N×k为锚的总数量;如公式所示,Lcls_rpn是一个二分类交叉熵对数损失函数,计算每一个anchor的对数损失,然后对所有anchors的损失求和,再除以anchors总数;
所述RPN网络中位置回归损失函数的公式如下:
Figure FDA0003736035220000076
Figure FDA0003736035220000077
其中,N×N×k为正负样本的总数,Δi,s=(ta,tb,tw,th),表示预测anchor的位置偏移量,
Figure FDA0003736035220000078
是与Δi,s相同维度的向量,表示anchor与真实位置的实际偏移量;
Figure FDA0003736035220000079
表示样本的标签,当其为目标时,
Figure FDA00037360352200000710
取值为1,当其为背景时,
Figure FDA00037360352200000711
取值为0;R是smoothL1函数,公式如下所示:
Figure FDA00037360352200000712
其中,σ一般取值为3;
所述车辆车型分类模块中多分类损失函数的公式如下:
Lcls_fast=Ls+Lc
Figure FDA00037360352200000713
其中,xi为第i深度特征,Wj为最后一个全连接层中权重的第j列,m、n分别为处理的样本数量与类别数;Cyi为第i类的特征中心坐标,anchors″j,s(a,b)为输入特征坐标。β为权重参数,β在0到1之间进行取值,是一个可以调节两个损失函数贡献比例的超参数。当增大β时,在整个目标函数中,类内差异所占的比重也相应增大,生成的特征就会有明显的内聚性;当减小β时,在整个目标函数中,类内差异所占的比重也相应减小;
所述车辆车型分类模块中位置精修处理的位置回归损失函数的公式如下:
Figure FDA0003736035220000081
Figure FDA0003736035220000082
其中,Nreg为正负样本的总数,Δ′i,s=(t′a,t′b,t′w,t′h),表示预测anchor的位置偏移量,
Figure FDA0003736035220000083
是与Δ′i,s相同维度的向量,表示对应锚与真实位置的实际偏移量;
Figure FDA0003736035220000084
表示样本的标签,当其为目标时,
Figure FDA0003736035220000085
取值为1,当其为背景时,
Figure FDA0003736035220000086
取值为0,;R是smoothL1函数,与前述结构相同;
所述步骤6具体如下:
单独训练RPN网络,用ImageNet预训练的模型初始化训练的模型,通过end to end的方法对参数进行微调,经过该步骤特征提取模块和RPN网络的参数得到了更新;
单独训练特征提取网络与车辆车型分类模块,此处将两者合称Fast rcnn网络,训练时用到的proposal由第一步中的RPN生成,同样使用ImageNet预训练的模型初始化Fast rcnn网络,此时的RPN和Fast rcnn网络暂无共享网络,经过该步骤特征提取网络与Fast rcnn网络的参数得到更新;
用Fast rcnn网络初始化RPN网络训练,固定共享的卷积层,即候选框生成层处理的第一步3×3卷积处理单元,只调整RPN的网络层,从而实现卷积层的共享;经过该步骤只有RPN的参数得到更新;
继续固定共享的卷积层,以上一步更新后的RPN生成的proposal为输入,对Fast rcnn网络的参数进行微调,此时,RPN和Fast rcnn共享相同的卷积层,形成统一的网络,Fastrcnn网络的参数得到更新。
CN202110451591.4A 2021-04-26 2021-04-26 一种基于Faster RCNN深度学习网络改进的车型识别方法 Expired - Fee Related CN113205026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451591.4A CN113205026B (zh) 2021-04-26 2021-04-26 一种基于Faster RCNN深度学习网络改进的车型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451591.4A CN113205026B (zh) 2021-04-26 2021-04-26 一种基于Faster RCNN深度学习网络改进的车型识别方法

Publications (2)

Publication Number Publication Date
CN113205026A CN113205026A (zh) 2021-08-03
CN113205026B true CN113205026B (zh) 2022-08-16

Family

ID=77028860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451591.4A Expired - Fee Related CN113205026B (zh) 2021-04-26 2021-04-26 一种基于Faster RCNN深度学习网络改进的车型识别方法

Country Status (1)

Country Link
CN (1) CN113205026B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888754B (zh) * 2021-08-20 2024-04-26 北京工业大学 一种基于雷达视觉融合的车辆多属性识别方法
CN113723408B (zh) * 2021-11-02 2022-02-25 上海仙工智能科技有限公司 一种车牌识别方法及其系统、可读存储介质
CN114219757B (zh) * 2021-11-08 2024-05-10 华南理工大学 一种基于改进Mask R-CNN的车辆智能定损方法
CN115294537A (zh) * 2022-08-10 2022-11-04 青岛文达通科技股份有限公司 一种基于特征关联的车辆属性识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818326B (zh) * 2017-12-11 2018-07-20 珠海大横琴科技发展有限公司 一种基于场景多维特征的船只检测方法及系统
CN109886312B (zh) * 2019-01-28 2023-06-06 同济大学 一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法
CN109977812B (zh) * 2019-03-12 2023-02-24 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110335270B (zh) * 2019-07-09 2022-09-13 华北电力大学(保定) 基于层级区域特征融合学习的输电线路缺陷检测方法
CN110705544B (zh) * 2019-09-05 2023-04-07 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法
CN111899172A (zh) * 2020-07-16 2020-11-06 武汉大学 一种面向遥感应用场景的车辆目标检测方法
CN112329737A (zh) * 2020-12-01 2021-02-05 哈尔滨理工大学 一种基于改进Faster RCNN的车辆检测方法

Also Published As

Publication number Publication date
CN113205026A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113205026B (zh) 一种基于Faster RCNN深度学习网络改进的车型识别方法
CN107301383B (zh) 一种基于Fast R-CNN的路面交通标志识别方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN110796168A (zh) 一种基于改进YOLOv3的车辆检测方法
CN111667512B (zh) 基于改进卡尔曼滤波的多目标车辆轨迹预测方法
CN110399884B (zh) 一种特征融合自适应锚框模型车辆检测方法
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN112036231B (zh) 一种基于车载视频的车道线和路面指示标志检测与识别方法
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN114898327B (zh) 一种基于轻量化深度学习网络的车辆检测方法
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
Wu et al. Typical target detection in satellite images based on convolutional neural networks
CN112149643B (zh) 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
US20070223785A1 (en) Image processor and method
Asgarian Dehkordi et al. Vehicle type recognition based on dimension estimation and bag of word classification
CN116824543A (zh) 一种基于od-yolo的自动驾驶目标检测方法
CN111860679A (zh) 一种基于YOLO v3改进算法的车辆检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN114550134A (zh) 基于深度学习的交通标志检测与识别方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN114387454A (zh) 一种基于区域筛选模块和多层次对比的自监督预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220816

CF01 Termination of patent right due to non-payment of annual fee