CN108932471B - 一种车辆检测方法 - Google Patents

一种车辆检测方法 Download PDF

Info

Publication number
CN108932471B
CN108932471B CN201810498277.XA CN201810498277A CN108932471B CN 108932471 B CN108932471 B CN 108932471B CN 201810498277 A CN201810498277 A CN 201810498277A CN 108932471 B CN108932471 B CN 108932471B
Authority
CN
China
Prior art keywords
image
vehicle
original image
neural network
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810498277.XA
Other languages
English (en)
Other versions
CN108932471A (zh
Inventor
周武杰
潘婷
顾鹏笠
张爽爽
蔡星宇
邱薇薇
何成
陈芳妮
葛丁飞
金国英
孙丽慧
郑卫红
李鑫
吴洁雯
王昕峰
施祥
翟治年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Muye Microelectronics Technology Co ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201810498277.XA priority Critical patent/CN108932471B/zh
Publication of CN108932471A publication Critical patent/CN108932471A/zh
Application granted granted Critical
Publication of CN108932471B publication Critical patent/CN108932471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种车辆检测方法,其包括训练阶段和测试阶段两个过程,在训练阶段,先用矩形框框出包含车辆的原始图像中的每辆车辆;然后利用神经网络,得到原始图像的特征图、特征图对应的建议窗口、感兴趣区域图像,进而得到原始图像上形成的包含特征信息的图像;接着利用神经网络,得到原始图像上形成的包含特征信息的图像的分类得分,进而判定包含特征信息的图像是否包含车辆;再计算原始图像及其上形成的包含特征信息的图像的损失函数值;最终根据最小损失函数值得到最优的权值矢量和偏置项;在测试阶段,利用最优的权值矢量和偏置项对测试图像进行检测,得到检测结果;优点是检测速度快,且检测精度高。

Description

一种车辆检测方法
技术领域
本发明涉及一种目标检测方法,尤其是涉及一种车辆检测方法。
背景技术
随着我国经济的持续快速增长,车辆的持有率大幅度上升,汽车已成为不可缺少的代步工具,人们对于汽车的舒适度和安全度也提出了更高的要求。随着2016年世纪围棋大战的落幕,2017年迎来了人工智能年,无人驾驶作为人工智能的热门应用迎来了巨大的发展。在无人驾驶领域,车辆检测是车辆感知外界环境的基础环节,也是计算机视觉和图像处理方向的重要分支。
车辆检测方法主要分为传统的手工特征设计并通过机器学习的方法和深度学习的方法。传统的手工特征设计并通过机器学习的方法对于特征设计要求较高,需要具体问题具体分析;深度学习的方法主要依赖于大量的训练数据集,但对于常见的诸如光照、遮挡等问题具有一定的抗干扰性。近年来,深度学习的方法在目标检测领域已发展起来了,主要分为不基于区域建议和基于区域建议两种方式。
不基于区域建议的算法主要采用回归的思想,通过计算图像中可能出现感兴趣区域的概率得分并加以比较,具有速度快的优点,基本可以实现实时监测,但这类算法的检测效果略逊于基于区域建议的算法。基于区域建议的算法主要分为两步,第一步:通过卷积神经网络提取特征,从而找到感兴趣区域;第二步:通过卷积神经网络对感兴趣区域进行检测得到目标,并标定矩形框确定目标的具体位置,这类算法由于分为两步走,检测速度略慢,但是检测精度较高。
发明内容
本发明所要解决的技术问题是提供一种车辆检测方法,其检测速度快,且检测精度高。
本发明解决上述技术问题所采用的技术方案为:一种车辆检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤①_1:选取包含车辆的原始图像和不包含车辆的原始图像共Q幅原始图像,并构成图像集,将图像集中的第q幅原始图像记为{Iq(i,j)};然后将图像集中的每幅包含车辆的原始图像中的每辆车辆用矩形框框出,假设{Iq(i,j)}为包含车辆的原始图像,则将{Iq(i,j)}中框出的任意一个包含一辆车辆的矩形框记为t(xq,yq,hq,wq);其中,Q≥5,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,xq表示t(xq,yq,hq,wq)的中心像素点的横坐标,yq表示t(xq,yq,hq,wq)的中心像素点的纵坐标,hq表示t(xq,yq,hq,wq)的高,wq表示t(xq,yq,hq,wq)的宽;
步骤①_2:将图像集中的每幅原始图像输入到神经网络中的Squeezenet网络框架中,输出图像集中的每幅原始图像的多幅特征图,将{Iq(i,j)}的第k幅特征图记为
Figure GDA0002455252300000021
然后将图像集中的每幅原始图像的每幅特征图输入到神经网络中的基于区域推荐网络的网络层中,输出图像集中的每幅原始图像的每幅特征图对应的前N个可能性最大的包含车辆的建议窗口,将
Figure GDA0002455252300000031
对应的第n个可能性最大的包含车辆的建议窗口记为
Figure GDA0002455252300000032
其中,k为正整数,1≤k≤K,K表示图像集中的每幅原始图像的特征图的总幅数,K>1,
Figure GDA0002455252300000033
符号
Figure GDA0002455252300000034
为向上取整运算符号,
Figure GDA0002455252300000035
的宽度为
Figure GDA0002455252300000036
的高度为
Figure GDA0002455252300000037
表示
Figure GDA0002455252300000038
中坐标位置为(i',j')的像素点的像素值,N>1,n为正整数,1≤n≤N,
Figure GDA0002455252300000039
的宽度为
Figure GDA00024552523000000310
的高度为
Figure GDA00024552523000000311
表示
Figure GDA00024552523000000312
中坐标位置为(i',j')的像素点的像素值;
步骤①_3:将图像集中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到神经网络中的感兴趣区域池化层中,输出图像集中的每幅原始图像对应的M幅感兴趣区域图像,将{Iq(i,j)}对应的第m幅感兴趣区域图像记为
Figure GDA00024552523000000313
其中,M>1,m为正整数,1≤m≤M,
Figure GDA00024552523000000314
的宽度为
Figure GDA00024552523000000315
的高度为
Figure GDA00024552523000000316
Figure GDA00024552523000000317
表示
Figure GDA00024552523000000318
中坐标位置为(i',j')的像素点的像素值;
步骤①_4:将图像集中的每幅原始图像对应的每幅感兴趣区域图像输入到神经网络中的全连接层中,输出图像集中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像,将{Iq(i,j)}对应的所有感兴趣区域图像通过神经网络中的全连接层映射到{Iq(i,j)}上形成的包含特征信息的图像记为
Figure GDA00024552523000000319
然后将图像集中的每幅原始图像上形成的包含特征信息的图像输入到神经网络中的多分类层中,输出图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,分类得分的范围为0~1;接着根据图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定图像集中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,若
Figure GDA0002455252300000041
的分类得分大于或等于0.8,则判定
Figure GDA0002455252300000042
包含车辆,若
Figure GDA0002455252300000043
的分类得分小于0.8,则判定
Figure GDA0002455252300000044
不包含车辆;之后采用线性回归方式在图像集范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框,假设
Figure GDA0002455252300000045
包含车辆,则将
Figure GDA0002455252300000046
中框出的任意一个包含一辆车辆的矩形框记为
Figure GDA0002455252300000047
再计算图像集中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值,将{Iq(i,j)}与
Figure GDA0002455252300000048
的损失函数值记为L(p*,k*,t,t*),L(p*,k*,t,t*)=Lcls(p*,k*)+λ×Loc(t,t*),
Figure GDA0002455252300000049
Figure GDA00024552523000000410
其中,
Figure GDA00024552523000000411
的宽度为W,
Figure GDA00024552523000000412
的高度为H,
Figure GDA00024552523000000413
表示
Figure GDA00024552523000000414
中坐标位置为(i,j)的像素点的像素值,
Figure GDA00024552523000000415
表示
Figure GDA00024552523000000416
的中心像素点的横坐标,
Figure GDA00024552523000000417
表示
Figure GDA00024552523000000418
的中心像素点的纵坐标,
Figure GDA00024552523000000419
表示
Figure GDA00024552523000000420
的高,
Figure GDA00024552523000000421
表示
Figure GDA00024552523000000422
的宽,p*表示
Figure GDA00024552523000000423
是否包含车辆的标记,
Figure GDA00024552523000000424
包含车辆时p*=1,
Figure GDA00024552523000000425
不包含车辆时p*=0,k*表示分类的个数,k*=2,t代表t(xq,yq,hq,wq),t*代表
Figure GDA00024552523000000426
λ表示常数,e表示自然基数,
Figure GDA00024552523000000427
Figure GDA00024552523000000428
Figure GDA0002455252300000051
Figure GDA0002455252300000052
符号“| |”为取绝对值符号;
步骤①_5:按大小对步骤①_4得到的Q个损失函数值进行排序;然后将值最大的L个损失函数值对应的原始图像构成疑难样本集合;接着将疑难样本集合中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到神经网络中的感兴趣区域池化层中,输出疑难样本集合中的每幅原始图像对应的M幅感兴趣区域图像;之后将疑难样本集合中的每幅原始图像对应的每幅感兴趣区域图像输入到神经网络中的全连接层中,输出疑难样本集合中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像;将疑难样本集合中的每幅原始图像上形成的包含特征信息的图像输入到神经网络中的多分类层中,输出疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分;根据疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定疑难样本集合中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,分类得分大于或等于0.8时判定包含车辆,分类得分小于0.8时判定不包含车辆;再采用线性回归方式在疑难样本集合范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框;最后计算疑难样本集合中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值;至此得到疑难样本集合中的所有原始图像对应的损失函数值与图像集中排除疑难样本集合外的所有原始图像对应的损失函数值共Q个损失函数值,并构成损失函数值子集;其中,1<L<Q;
步骤①_6:重复执行步骤①_1至步骤①_5共V次,训练得到神经网络模型,并将V个损失函数值子集中共Q×V个损失函数值中的最小损失函数值对应的权值矢量和偏置项对应作为神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤②_1:令
Figure GDA0002455252300000061
表示待检测图像;其中,1≤i”≤W”,1≤j”≤H”,W”表示
Figure GDA0002455252300000062
的宽度,H”表示
Figure GDA0002455252300000063
的高度,
Figure GDA0002455252300000064
表示
Figure GDA0002455252300000065
中坐标位置为(i”,j”)的像素点的像素值;
步骤②_2:将
Figure GDA0002455252300000066
输入到训练阶段过程得到的神经网络模型中,并利用Wbest和bbest进行测试,若神经网络模型无输出,则认为
Figure GDA0002455252300000067
不包含车辆;若神经网络模型输出测试结果:
Figure GDA0002455252300000068
上形成的包含特征信息的图像的分类得分及
Figure GDA0002455252300000069
上形成的包含特征信息的图像中框出的每辆车辆的多个矩形框,则认为
Figure GDA00024552523000000610
包含车辆,然后利用Soft-nms算法对
Figure GDA00024552523000000611
上形成的包含特征信息的图像包含的每辆车辆的多个矩形框进行筛选,使
Figure GDA00024552523000000612
上形成的包含特征信息的图像包含的每辆车辆仅由一个矩形框框出,得到的每个矩形框的具体位置即为
Figure GDA00024552523000000613
中检测出的每辆车辆的具体位置。
与现有技术相比,本发明的优点在于:
1)本发明方法利用神经网络中的Squeezenet网络框架用于提取图像的多幅特征图,能在保证特征图提取精度的前提下通过多尺度的卷积核(如3×3和1×1两种尺寸的卷积核),有效地减少训练过程中的神经网络的拟合参数个数,从而提高了本发明方法的运算性能。
2)本发明方法通过对神经网络中的感兴趣区域池化层输出的感兴趣区域图像对应的损失函数值进行排序,对于疑难样本集合进行再学习,保证了训练过程中样本学习的充分率,利于提高检测精度。
3)本发明方法最后输出车辆的具体位置时,考虑到可能会出现重叠的矩形框的存在性,通过soft-nms算法有效减少了重叠的矩形框的存在。
4)本发明方法利用了神经网络自主学习的特性,对于车辆检测中常见的尺度变化、姿态变化等问题具有一定的抗干扰性。
附图说明
图1为本发明方法的总体实现框图;
图2a为测试集中的其中一幅待检测图像(有重叠车辆)的测试结果;
图2b为测试集中的另一幅待检测图像(车辆小尺度)的测试结果。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种车辆检测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤如下:
步骤①_1:选取包含车辆的原始图像和不包含车辆的原始图像共Q幅原始图像,并构成图像集,将图像集中的第q幅原始图像记为{Iq(i,j)};然后将图像集中的每幅包含车辆的原始图像中的每辆车辆用矩形框人工框出,假设{Iq(i,j)}为包含车辆的原始图像,则将{Iq(i,j)}中框出的任意一个包含一辆车辆的矩形框记为t(xq,yq,hq,wq);其中,Q≥5,如取Q=100,包含车辆的原始图像与不包含车辆的原始图像的比率为4:1~6:1,即若共选择Q=6幅原始图像,则选取包含车辆的原始图像5幅,选取不包含车辆的原始图像1幅,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,xq表示t(xq,yq,hq,wq)的中心像素点的横坐标,yq表示t(xq,yq,hq,wq)的中心像素点的纵坐标,hq表示t(xq,yq,hq,wq)的高,wq表示t(xq,yq,hq,wq)的宽。
步骤①_2:由于神经网络中的Squeezenet网络框架在不牺牲精度的前提条件下可以减少必需的参数个数,能有效提高计算效率,因此本发明将图像集中的每幅原始图像输入到现有的神经网络中的Squeezenet网络框架中,输出图像集中的每幅原始图像的多幅特征图,将{Iq(i,j)}的第k幅特征图记为
Figure GDA0002455252300000081
然后将图像集中的每幅原始图像的每幅特征图输入到现有的神经网络中的基于区域推荐网络(Region Proposal Networks,RPN)的网络层中,输出图像集中的每幅原始图像的每幅特征图对应的前N个可能性最大的包含车辆的建议窗口,每幅特征图对应有超过N个的包含车辆的建议窗口,选择可能性最大的前N个包含车辆的建议窗口,将
Figure GDA0002455252300000082
对应的第n个可能性最大的包含车辆的建议窗口记为
Figure GDA0002455252300000083
其中,k为正整数,1≤k≤K,K表示图像集中的每幅原始图像的特征图的总幅数,K>1,在本实施例中取K=64,
Figure GDA0002455252300000084
Figure GDA0002455252300000085
符号
Figure GDA0002455252300000086
为向上取整运算符号,
Figure GDA0002455252300000087
的宽度为
Figure GDA0002455252300000088
的高度为
Figure GDA0002455252300000089
表示
Figure GDA00024552523000000810
中坐标位置为(i',j')的像素点的像素值,N>1,在本实施例中取N=300,n为正整数,1≤n≤N,
Figure GDA00024552523000000811
的宽度为
Figure GDA00024552523000000812
Figure GDA0002455252300000091
的高度为
Figure GDA0002455252300000092
表示
Figure GDA0002455252300000093
中坐标位置为(i',j')的像素点的像素值。
步骤①_3:将图像集中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到现有的神经网络中的感兴趣区域(ROI)池化层中,输出图像集中的每幅原始图像对应的M幅感兴趣区域图像,将{Iq(i,j)}对应的第m幅感兴趣区域图像记为
Figure GDA0002455252300000094
其中,M>1,m为正整数,1≤m≤M,
Figure GDA0002455252300000095
的宽度为
Figure GDA0002455252300000096
Figure GDA0002455252300000097
的高度为
Figure GDA0002455252300000098
表示
Figure GDA0002455252300000099
中坐标位置为(i',j')的像素点的像素值。
步骤①_4:将图像集中的每幅原始图像对应的每幅感兴趣区域图像输入到现有的神经网络中的全连接层中,输出图像集中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像,将{Iq(i,j)}对应的所有感兴趣区域图像通过神经网络中的全连接层映射到{Iq(i,j)}上形成的包含特征信息的图像记为
Figure GDA00024552523000000910
然后将图像集中的每幅原始图像上形成的包含特征信息的图像输入到现有的神经网络中的多分类层中,输出图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,分类得分的范围为0~1;接着根据图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定图像集中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,若
Figure GDA00024552523000000911
的分类得分大于或等于0.8,则判定
Figure GDA00024552523000000912
包含车辆,若
Figure GDA00024552523000000913
的分类得分小于0.8,则判定
Figure GDA00024552523000000914
不包含车辆;之后采用现有的线性回归方式在图像集范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框,假设
Figure GDA00024552523000000915
包含车辆,则将
Figure GDA00024552523000000916
中框出的任意一个包含一辆车辆的矩形框记为
Figure GDA0002455252300000101
再计算图像集中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值,将{Iq(i,j)}与
Figure GDA0002455252300000102
的损失函数值记为L(p*,k*,t,t*),L(p*,k*,t,t*)=Lcls(p*,k*)+λ×Loc(t,t*),
Figure GDA0002455252300000103
Figure GDA0002455252300000104
其中,
Figure GDA0002455252300000105
的宽度为W,
Figure GDA0002455252300000106
的高度为H,
Figure GDA0002455252300000107
表示
Figure GDA0002455252300000108
中坐标位置为(i,j)的像素点的像素值,
Figure GDA0002455252300000109
表示
Figure GDA00024552523000001010
的中心像素点的横坐标,
Figure GDA00024552523000001011
表示
Figure GDA00024552523000001012
的中心像素点的纵坐标,
Figure GDA00024552523000001013
表示
Figure GDA00024552523000001014
的高,
Figure GDA00024552523000001015
表示
Figure GDA00024552523000001016
的宽,p*表示
Figure GDA00024552523000001017
是否包含车辆的标记,
Figure GDA00024552523000001018
包含车辆时p*=1,
Figure GDA00024552523000001019
不包含车辆时p*=0,k*表示分类的个数,k*=2,t代表t(xq,yq,hq,wq),t*代表
Figure GDA00024552523000001020
λ表示常数,在本实施例中取λ=1,e表示自然基数,
Figure GDA00024552523000001021
Figure GDA00024552523000001022
Figure GDA00024552523000001023
Figure GDA00024552523000001024
符号“| |”为取绝对值符号。
步骤①_5:通过步骤①_4中的损失函数值的计算,发现有疑难样本的存在,这些疑难样本具有损失函数值较高的特点,因此按大小对步骤①_4得到的Q个损失函数值进行排序;然后将值最大的L个损失函数值对应的原始图像构成疑难样本集合;接着将疑难样本集合中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到现有的神经网络中的感兴趣区域(ROI)池化层中,输出疑难样本集合中的每幅原始图像对应的M幅感兴趣区域图像;之后将疑难样本集合中的每幅原始图像对应的每幅感兴趣区域图像输入到现有的神经网络中的全连接层中,输出疑难样本集合中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像;将疑难样本集合中的每幅原始图像上形成的包含特征信息的图像输入到现有的神经网络中的多分类层中,输出疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分;根据疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定疑难样本集合中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,分类得分大于或等于0.8时判定包含车辆,分类得分小于0.8时判定不包含车辆;再采用现有的线性回归方式在疑难样本集合范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框;最后计算疑难样本集合中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值;至此得到疑难样本集合中的所有原始图像对应的损失函数值与图像集中排除疑难样本集合外的所有原始图像对应的损失函数值共Q个损失函数值,并构成损失函数值子集;其中,1<L<Q,在本实施例中取L=600,损失函数值的计算方式与步骤①_4中的损失函数值的计算方式相同。
步骤①_6:重复执行步骤①_1至步骤①_5共V次,训练得到神经网络模型,并将V个损失函数值子集中共Q×V个损失函数值中的最小损失函数值对应的权值矢量和偏置项对应作为神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=2000。
所述的测试阶段过程的具体步骤如下:
步骤②_1:令
Figure GDA0002455252300000121
表示待检测图像;其中,1≤i”≤W”,1≤j”≤H”,W”表示
Figure GDA0002455252300000122
的宽度,H”表示
Figure GDA0002455252300000123
的高度,
Figure GDA0002455252300000124
表示
Figure GDA0002455252300000125
中坐标位置为(i”,j”)的像素点的像素值。
步骤②_2:将
Figure GDA0002455252300000126
输入到训练阶段过程得到的神经网络模型中,并利用Wbest和bbest进行测试,若神经网络模型无输出,则认为
Figure GDA0002455252300000127
不包含车辆;若神经网络模型输出测试结果:
Figure GDA0002455252300000128
上形成的包含特征信息的图像的分类得分及
Figure GDA0002455252300000129
上形成的包含特征信息的图像中框出的每辆车辆的多个矩形框,则认为
Figure GDA00024552523000001210
包含车辆,然后利用现有的Soft-nms算法对
Figure GDA00024552523000001211
上形成的包含特征信息的图像包含的每辆车辆的多个矩形框进行筛选,使
Figure GDA00024552523000001212
上形成的包含特征信息的图像包含的每辆车辆仅由一个矩形框框出,得到的每个矩形框的具体位置即为
Figure GDA00024552523000001213
中检测出的每辆车辆的具体位置。
由于现有的线性回归方式对于同一位置的同一辆车辆会输出多个重叠的矩形框,通常利用现有的非极大值抑制(Non Maximum Suppression,NMS)算法对检测获得的多个矩形框进行筛选,只保留覆盖面积最广的一个矩形框,然而一幅待检测图像中可能存在两辆甚至多辆车辆相互位置重叠的情况,此时若只通过现有的非极大值抑制算法会出现漏检的情况,考虑到此种情况,因此本发明利用现有的Soft-nms算法进行矩形框筛选,这样有效地提高了检测精度。
为了验证本发明方法的可行性与有效性,进行如下实验。
选用KITTI官网提供的数据集作为测试集,通过对测试集中的每幅待检测图像进行一定的格式处理之后,将测试集中的每幅待检测图像输入到卷积神经网络模型中,并利用Wbest和bbest进行测试,得到测试结果。图2a给出了测试集中的其中一幅待检测图像(有重叠车辆)的测试结果,图2b给出了测试集中的另一幅待检测图像(车辆小尺度)的测试结果。图2a和图2b中的“car detections with p(car|box)>=0.8”表示分类得分值大于或等于0.8。从图2a和图2b中可以看出,当待检测图像存在不同问题时,如车辆重叠、车辆尺寸较小等,利用本发明方法都能够很好地检测到车辆信息,针对视角不同的车辆也能精确地检测出来,对于复杂情况具有一定的抗干扰性。

Claims (1)

1.一种车辆检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤①_1:选取包含车辆的原始图像和不包含车辆的原始图像共Q幅原始图像,并构成图像集,将图像集中的第q幅原始图像记为{Iq(i,j)};然后将图像集中的每幅包含车辆的原始图像中的每辆车辆用矩形框框出,假设{Iq(i,j)}为包含车辆的原始图像,则将{Iq(i,j)}中框出的任意一个包含一辆车辆的矩形框记为t(xq,yq,hq,wq);其中,Q≥5,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,xq表示t(xq,yq,hq,wq)的中心像素点的横坐标,yq表示t(xq,yq,hq,wq)的中心像素点的纵坐标,hq表示t(xq,yq,hq,wq)的高,wq表示t(xq,yq,hq,wq)的宽;
步骤①_2:将图像集中的每幅原始图像输入到神经网络中的Squeezenet网络框架中,输出图像集中的每幅原始图像的多幅特征图,将{Iq(i,j)}的第k幅特征图记为
Figure FDA0002455252290000011
然后将图像集中的每幅原始图像的每幅特征图输入到神经网络中的基于区域推荐网络的网络层中,输出图像集中的每幅原始图像的每幅特征图对应的前N个可能性最大的包含车辆的建议窗口,将
Figure FDA0002455252290000012
对应的第n个可能性最大的包含车辆的建议窗口记为
Figure FDA0002455252290000013
其中,k为正整数,1≤k≤K,K表示图像集中的每幅原始图像的特征图的总幅数,K>1,
Figure FDA0002455252290000014
符号
Figure FDA0002455252290000015
为向上取整运算符号,
Figure FDA0002455252290000016
的宽度为
Figure FDA0002455252290000017
Figure FDA0002455252290000018
的高度为
Figure FDA0002455252290000019
Figure FDA00024552522900000110
表示
Figure FDA00024552522900000111
中坐标位置为(i',j')的像素点的像素值,N>1,n为正整数,1≤n≤N,
Figure FDA0002455252290000021
的宽度为
Figure FDA0002455252290000022
Figure FDA0002455252290000023
的高度为
Figure FDA0002455252290000024
Figure FDA0002455252290000025
表示
Figure FDA0002455252290000026
中坐标位置为(i',j')的像素点的像素值;
步骤①_3:将图像集中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到神经网络中的感兴趣区域池化层中,输出图像集中的每幅原始图像对应的M幅感兴趣区域图像,将{Iq(i,j)}对应的第m幅感兴趣区域图像记为
Figure FDA0002455252290000027
其中,M>1,m为正整数,1≤m≤M,
Figure FDA0002455252290000028
的宽度为
Figure FDA0002455252290000029
Figure FDA00024552522900000210
的高度为
Figure FDA00024552522900000211
Figure FDA00024552522900000212
表示
Figure FDA00024552522900000213
中坐标位置为(i',j')的像素点的像素值;
步骤①_4:将图像集中的每幅原始图像对应的每幅感兴趣区域图像输入到神经网络中的全连接层中,输出图像集中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像,将{Iq(i,j)}对应的所有感兴趣区域图像通过神经网络中的全连接层映射到{Iq(i,j)}上形成的包含特征信息的图像记为
Figure FDA00024552522900000221
然后将图像集中的每幅原始图像上形成的包含特征信息的图像输入到神经网络中的多分类层中,输出图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,分类得分的范围为0~1;接着根据图像集中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定图像集中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,若
Figure FDA00024552522900000217
的分类得分大于或等于0.8,则判定
Figure FDA00024552522900000220
包含车辆,若
Figure FDA00024552522900000216
的分类得分小于0.8,则判定
Figure FDA00024552522900000218
不包含车辆;之后采用线性回归方式在图像集范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框,假设
Figure FDA00024552522900000215
包含车辆,则将
Figure FDA00024552522900000219
中框出的任意一个包含一辆车辆的矩形框记为
Figure FDA00024552522900000214
再计算图像集中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值,将
Figure FDA0002455252290000036
Figure FDA0002455252290000037
的损失函数值记为L(p*,k*,t,t*),L(p*,k*,t,t*)=Lcls(p*,k*)+λ×Loc(t,t*),
Figure FDA0002455252290000031
Figure FDA0002455252290000038
其中,
Figure FDA00024552522900000312
的宽度为W,
Figure FDA00024552522900000311
的高度为H,
Figure FDA0002455252290000039
表示
Figure FDA00024552522900000310
中坐标位置为(i,j)的像素点的像素值,
Figure FDA00024552522900000313
表示
Figure FDA00024552522900000314
的中心像素点的横坐标,
Figure FDA00024552522900000315
表示
Figure FDA00024552522900000319
的中心像素点的纵坐标,
Figure FDA00024552522900000318
表示
Figure FDA00024552522900000317
的高,
Figure FDA00024552522900000316
表示
Figure FDA00024552522900000320
的宽,p*表示
Figure FDA00024552522900000321
是否包含车辆的标记,
Figure FDA00024552522900000322
包含车辆时
Figure FDA00024552522900000323
不包含车辆时p*=0,k*表示分类的个数,k*=2,t代表t(xq,yq,hq,wq),t*代表
Figure FDA00024552522900000324
λ表示常数,e表示自然基数,
Figure FDA0002455252290000032
Figure FDA0002455252290000033
Figure FDA0002455252290000034
Figure FDA0002455252290000035
符号“||”为取绝对值符号;
步骤①_5:按大小对步骤①_4得到的Q个损失函数值进行排序;然后将值最大的L个损失函数值对应的原始图像构成疑难样本集合;接着将疑难样本集合中的每幅原始图像的所有特征图及其对应的所有建议窗口输入到神经网络中的感兴趣区域池化层中,输出疑难样本集合中的每幅原始图像对应的M幅感兴趣区域图像;之后将疑难样本集合中的每幅原始图像对应的每幅感兴趣区域图像输入到神经网络中的全连接层中,输出疑难样本集合中的每幅原始图像对应的所有感兴趣区域图像通过神经网络中的全连接层映射到该原始图像上形成的包含特征信息的图像;将疑难样本集合中的每幅原始图像上形成的包含特征信息的图像输入到神经网络中的多分类层中,输出疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分;根据疑难样本集合中的每幅原始图像上形成的包含特征信息的图像的分类得分,判定疑难样本集合中的每幅原始图像上形成的包含特征信息的图像是否包含车辆,分类得分大于或等于0.8时判定包含车辆,分类得分小于0.8时判定不包含车辆;再采用线性回归方式在疑难样本集合范围内判定为包含车辆的包含特征信息的图像中框出包含每辆车辆的矩形框;最后计算疑难样本集合中的每幅原始图像与其上形成的包含特征信息的图像的损失函数值;至此得到疑难样本集合中的所有原始图像对应的损失函数值与图像集中排除疑难样本集合外的所有原始图像对应的损失函数值共Q个损失函数值,并构成损失函数值子集;其中,1<L<Q;
步骤①_6:重复执行步骤①_1至步骤①_5共V次,训练得到神经网络模型,并将V个损失函数值子集中共Q×V个损失函数值中的最小损失函数值对应的权值矢量和偏置项对应作为神经网络模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤②_1:令
Figure FDA0002455252290000041
表示待检测图像;其中,1≤i”≤W”,1≤j”≤H”,W”表示
Figure FDA0002455252290000042
的宽度,H”表示
Figure FDA0002455252290000043
的高度,
Figure FDA0002455252290000044
表示
Figure FDA0002455252290000045
中坐标位置为(i”,j”)的像素点的像素值;
步骤②_2:将
Figure FDA0002455252290000046
输入到训练阶段过程得到的神经网络模型中,并利用Wbest和bbest进行测试,若神经网络模型无输出,则认为
Figure FDA0002455252290000051
不包含车辆;若神经网络模型输出测试结果:
Figure FDA0002455252290000052
上形成的包含特征信息的图像的分类得分及
Figure FDA0002455252290000053
上形成的包含特征信息的图像中框出的每辆车辆的多个矩形框,则认为
Figure FDA0002455252290000054
包含车辆,然后利用Soft-nms算法对
Figure FDA0002455252290000055
上形成的包含特征信息的图像包含的每辆车辆的多个矩形框进行筛选,使
Figure FDA0002455252290000056
上形成的包含特征信息的图像包含的每辆车辆仅由一个矩形框框出,得到的每个矩形框的具体位置即为
Figure FDA0002455252290000057
中检测出的每辆车辆的具体位置。
CN201810498277.XA 2018-05-23 2018-05-23 一种车辆检测方法 Active CN108932471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810498277.XA CN108932471B (zh) 2018-05-23 2018-05-23 一种车辆检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810498277.XA CN108932471B (zh) 2018-05-23 2018-05-23 一种车辆检测方法

Publications (2)

Publication Number Publication Date
CN108932471A CN108932471A (zh) 2018-12-04
CN108932471B true CN108932471B (zh) 2020-06-26

Family

ID=64449646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810498277.XA Active CN108932471B (zh) 2018-05-23 2018-05-23 一种车辆检测方法

Country Status (1)

Country Link
CN (1) CN108932471B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711325B (zh) * 2018-12-25 2023-05-23 华南农业大学 一种芒果采摘点识别方法
CN109615925A (zh) * 2019-01-03 2019-04-12 上海钧正网络科技有限公司 基于视频监控的车辆停车控制方法、装置、系统及服务器
CN110348297B (zh) * 2019-05-31 2023-12-26 纵目科技(上海)股份有限公司 一种用于识别立体停车库的检测方法、系统、终端和存储介质
CN112712012B (zh) * 2020-12-29 2024-09-13 中通服公众信息产业股份有限公司 一种道路卡口车辆位置检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN107730904A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的多任务车辆逆向行驶视觉检测系统
CN107972662A (zh) * 2017-10-16 2018-05-01 华南理工大学 一种基于深度学习的车辆前向碰撞预警方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514391B2 (en) * 2015-04-20 2016-12-06 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
US10068171B2 (en) * 2015-11-12 2018-09-04 Conduent Business Services, Llc Multi-layer fusion in a convolutional neural network for image classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN107730904A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的多任务车辆逆向行驶视觉检测系统
CN107972662A (zh) * 2017-10-16 2018-05-01 华南理工大学 一种基于深度学习的车辆前向碰撞预警方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Convolutional neural network for vehicle detection in low resolution traffic videos;BAUTISTA C M等;《IEEE region 10 symposium》;20161231;全文 *
一种基于Faster_R_CNN的车辆检测算法;韩凯等;《西南科技大学学报》;20171231;第32卷(第4期);全文 *

Also Published As

Publication number Publication date
CN108932471A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108830188B (zh) 基于深度学习的车辆检测方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN110363182B (zh) 基于深度学习的车道线检测方法
CN108932471B (zh) 一种车辆检测方法
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
CN109165623B (zh) 基于深度学习的水稻病斑检测方法及系统
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN106408030B (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN107122776A (zh) 一种基于卷积神经网络的交通标志检测与识别方法
CN107038416B (zh) 一种基于二值图像改进型hog特征的行人检测方法
CN111640125A (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN105809121A (zh) 多特征协同的交通标志检测与识别方法
CN104182985B (zh) 遥感图像变化检测方法
CN110599463B (zh) 一种基于轻量级联神经网络的舌像检测及定位算法
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN111738114B (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN111507227B (zh) 基于深度学习的多学生个体分割及状态自主识别方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN112668441B (zh) 一种结合先验知识的卫星遥感影像飞机目标识别方法
CN102087790A (zh) 一种低空对地车辆检测与运动分析的方法和系统
CN113096085A (zh) 基于两阶段卷积神经网络的集装箱表面损伤检测方法
CN106845458A (zh) 一种基于核超限学习机的快速交通标识检测方法
CN115147418A (zh) 缺陷检测模型的压缩训练方法和装置
CN105354547A (zh) 一种结合纹理和彩色特征的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: Unit a2203e, innovation Plaza, No. 2007, Pingshan Avenue, Liulian community, Pingshan street, Pingshan District, Shenzhen, Guangdong 518118

Patentee after: Shenzhen Muye Microelectronics Technology Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right