CN108009526A - 一种基于卷积神经网络的车辆识别与检测方法 - Google Patents
一种基于卷积神经网络的车辆识别与检测方法 Download PDFInfo
- Publication number
- CN108009526A CN108009526A CN201711422519.9A CN201711422519A CN108009526A CN 108009526 A CN108009526 A CN 108009526A CN 201711422519 A CN201711422519 A CN 201711422519A CN 108009526 A CN108009526 A CN 108009526A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- vehicle
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 4
- 206010037180 Psychiatric symptoms Diseases 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 18
- 238000013135 deep learning Methods 0.000 abstract description 9
- 238000000034 method Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于卷积神经网络的车辆识别与检测方法,涉及图像处理领域,采用四层卷积神经网络实现车辆分类以及图片的特征提取,同时在每一个选取的特征层上定义默认框,并定义车辆检测网络的损失函数,完成车辆检测网络的训练与测试,得到最终的车辆检测模型。本发明采用一种端到端的车辆分类与检测方法,相比于传统的车辆检测方法有着更强的鲁棒性,能够一次性识别出一张图片中的所有车辆对象,同时拥有更高的准确率;相比于现有的基于深度学习的目标检测算法,本发明在第一步中采用了小型卷积神经网络,大大减少了训练所用的时间,在保证检测效果的前提下,提升了网络对车辆的检测速度。
Description
技术领域
本发明涉及图像处理领域,尤其是一种车辆识别与检测的方法。
背景技术
随着汽车工业的高速发展,智能车逐渐出现在人们视野中。智能车能够自主的分析行车环境,并且给出一系列相关的行车指令。车辆检测与识别是智能车的核心技术,是控制智能车辆进行跟车、变道、超车、避障等行为的前提与基础。车辆检测与识别的准确率与复杂度,直接影响智能车的整体效率和性能。
目前用于车辆检测的方法主要是传统的车辆检测方法,由于车辆对象在图像中具有明显的几何特征,传统的方法可以依赖车辆的外形、颜色、车窗、车牌等特征识别和检测车辆。在传统的车辆检测方法中,HOG可以用来确定车辆的种类,但是HOG特征的计算速度较慢,进行车辆检测与识别的实时性不够好。Harr-like特征被应用在车辆检测任务中,Harr-like特征非常适用于检测水平或者垂直对称的结构,相比于HOG特征,它还可以通过使用积分图加快特征提取的速度,但是检测的准确率不够高。
随后出现了基于机器学习的车辆检测方法,它主要指使用机器学习的方法提取车辆的特征图,再对这些特征图进行训练,将训练好的模型用于车辆识别与检测任务。常见的有提取Haar和Adaboost特征、最小马氏距离分类等方法,这些方法虽然能够取得很好的车辆检测效果,但是需要大量的先验知识,前期工作量巨大。卷积神经网络属于深度学习的一种,近两年发展迅速。AlphaGo,谷歌智能车的出现,意味着以深度学习为基础的人工智能又站上了一个新高度,将深度学习用在车辆检测中也逐渐成为一种主流。
基于区域提名的深度学习目标检测算法最出名的就是R-CNN网络,在相同的数据集上,它的准确度相比于传统目标检测方法能够提升30%左右,它的主要思想是预先设定好一系列默认框,对默认框中的对象进行类别判别,判别得分大于某一个阈值就视为判断正确。但是R-CNN也有自己的缺点,它的训练步骤繁琐,训练耗时长,占用磁盘空间大,处理图片速度慢。YOLO是一种基于回归方法的深度学习目标检测算法,它将目标检测任务转换成为了一个回归问题,大大的加快了检测速度,但是由于缺少了区域提名机制,只使用单纯的回归网格使得目标定位非常的不够精准,所以检测精度不够高。SSD网络则是在多个特征图上设置默认框,能够在图片的每个位置上的多尺度区域进行回归,它既保留了YOLO处理速度快的特性还保留了Fast R-CNN目标定位准确的特点。
从现有的技术中可以看出,用于车辆检测的传统方法有一定的缺陷。传统的车辆检测方法需要巨大的计算量和大量的前期工作量,同时它的检测准确率和检测速度都无法满足实际应用的需求。
发明内容
为了克服现有技术的不足,本发明基于深度学习的车辆检测方法相比于传统的车辆检测方法拥有更高的检测准确率和检测速度,同时不需要大量的人工预处理,所以本发明采用深度学习中的卷积神经网络实现车辆端到端的检测与识别,期望采用更少的人力,获得更快更好的机器识别车辆的效果,满足实时性的需求。为了进一步提升车辆的识别准确率与检测速度,本发明采用小型的四层卷积神经网络实现车辆分类以及图片的特征提取,提升网络的检测与训练速度;同时在每一个选取的特征层上定义合适大小的默认框,使之适应行车过程中被检测车辆占据图像的大小。网络结构主要分为两个部分,第一部分为用于进行特征提取和分类的基本网络,第二部分为用于检测车辆的检测网络。
本发明解决其技术问题所采用的技术方案包括以下步骤:
第一步,搭建车辆检测的基本网络
本发明采用了四层卷积神经网络作为车辆检测的基本网络,用于车辆分类以及车辆图像的特征提取;
所述的四层卷积神经网络由数据层,卷积层1,激活函数层1,池化层1,卷积层2,激活函数层2,池化层2,卷积层3,激活函数层3,池化层3,卷积层4,激活函数层4,池化层4,全连接层5,激活函数层5,全连接层6依次连接,全连接层6后接并列的损失层和准确率层,在caffe框架上,训练网络得到一个分类模型,该模型用于后续的车辆检测网络的搭建;
网络的损失层用于计算分类误差;
网络的准确率层用于计算网络的准确率,统计预测结果,将正确预测出车辆的数量与总车辆数量的比值作为网络的准确率,计算公式如下:
其中,Ac表示分类准确率,M表示分类为车辆的标签数量,N表示总的标签数量;
第二步,定义默认框
对于每一张输入到第一步所述网络结构图片,每经过一个网络层都会成为一张特征图,选取m个网络层输出的特征图,所述的网络层为卷积层或池化层;
在每个特征图上的每个像素点位置定义正方形默认框,同一个特征图上的正方形默认框边长一致,该特征图的正方形默认框的数量和该特征图的像素点的总数量相同,记选取的m特征图中,其中边长最大的特征图上的正方形默认框的边长为s1,其余每个特征图上正方形默认框的大小计算公式如下式:
sk=sk-1+15×(k-1),k∈[2,m] (2)
其中,m表示选取的特征图数量,sk表示第k个特征图上默认框的边长;
再对每一个正方形默认框基础上进行缩放扩张,获得n个宽高比不同的矩形默认框,宽高比记为αr∈{α1,α2,......,αn},缩放后默认框的宽和高计算公式如下式:
其中,表示第k个特征图上宽高比为αr的默认框宽的宽度;表示第k个特征图上宽高比为αr的默认框高的高度;
最终对于选取的m个特征图上的每个像素点,得到包括一个正方形默认框和缩放扩张后的n个矩形默认框,总计n+1个大小不同的默认框用于预测;
第三步,定义车辆检测网络的损失函数
对于m个特征图上每一个像素点上的n+1个默认框,计算每一个默认框相对于车辆目标真实位置的回归损失,同时计算默认框中对象是车辆的置信度损失,经过加权计算得到车辆检测网络的总损失;
损失由两部分组成,目标属于车辆的置信度损失以及目标预测位置相对于真实位置的回归损失,xij表示第x个像素点上第i个默认框与第j个真实位置框是否匹配,若默认框与真实位置框的重叠系数大于一个阈值to,则默认框与真实位置框为匹配,xij值为1;若默认框与真实位置框重叠系数小于阈值to,则默认框与真实位置不匹配,xij值为0;重叠系数计算为下式:
其中,li表示第i个默认框的位置,gj表示车辆的第j个真实位置;
回归损失Lloc表示预测框l与真实位置框g的损失,由smooth L1函数计算而来,定义为下式:
其中,x表示像素点;i的取值范围为[1,n+1];j的取值范围为[1,t],t为真实框数量;
置信度损失Lconf表示目标在不同类别上的softmax损失,定义为下式:
其中,c表示置信度,ci表示对象为车辆的置信度,表示对象为背景的置信度;
检测网络的总损失为回归损失与置信度损失的权重和,定义为下式:
其中,N表示被判断为车辆的默认框总数,α表示回归损失在网络的总损失中的权重大小;
第四步,对车辆检测网络进行训练与测试:对于每一张车辆图片,给定每一个图片中车辆对象的数量以及每一个车辆对象的坐标,将所有的图片按5:1的比例分成训练集与测试集两个部分,训练集用于训练车辆检测网络,测试集用于测试车辆检测网络的检测效果,在caffe平台上,按照第一步到第四步搭建车辆检测网络,利用车辆图片训练集与车辆图片测试集对网络进行训练,得到最终的车辆检测模型。
所述第一步中网络的损失层用于计算分类误差,本发明使用如下公式计算分类误差:
其中,m表示当前数据集标签数量,y表示当前标签,zy表示预测结果为第y个标签的概率。
本发明的有益效果在于由于采用一种端到端的车辆分类与检测方法,相比于传统的车辆检测方法有着更强的鲁棒性,能够一次性识别出一张图片中的所有车辆对象,同时拥有更高的准确率;相比于现有的基于深度学习的目标检测算法,采用了小型卷积神经网络,大大减少了训练所用的时间,在保证检测效果的前提下,提升了网络对车辆的检测速度。
附图说明
图1为本发明的车辆分类网络基本网络结构。
图2为本发明的车辆检测模型检测流程图。
图3为本发明的车辆检测网络检测不同图像的效果图,图3(a)与3(b)为对不同图像所做的检测效果图。
图4为本发明的车辆检测网络训练示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
在公共车辆数据集上测试本发明设计的基于四层卷积神网络的车辆分类模型与检测模型,并与用于目标检测的经典SSD网络对比,比较本发明的性能。图2为本发明的车辆检测模型检测流程图,本发明首先搭建车辆分类网络模型,作为后续车辆检测模型的基本网络,再在网络上定义一系列默认框,计算这些默认框的置信度损失以及回归损失,结合这两类损失,预测车辆的位置。图4为本发明的车辆检测网络训练示意图,步骤如下:
第一步,搭建车辆检测的基本网络
本发明采用了四层卷积神经网络作为车辆检测的基本网络,用于车辆分类以及车辆图像的特征提取;
所述的四层卷积神经网络由数据层(输入层),卷积层1,激活函数层1,池化层1,卷积层2,激活函数层2,池化层2,卷积层3,激活函数层3,池化层3,卷积层4,激活函数层4,池化层4,全连接层5,激活函数层5,全连接层6依次连接,全连接层6后接并列的损失层和准确率层,在caffe框架上,训练网络得到一个分类模型,该模型用于后续的车辆检测网络的搭建;
网络的损失层用于计算分类误差;
网络的准确率层用于计算网络的准确率,统计预测结果,将正确预测出车辆的数量与总车辆数量的比值作为网络的准确率,计算公式如下:
其中,Ac表示分类准确率,M表示分类为车辆的标签数量,N表示总的标签数量;
图1为本发明的车辆分类网络基本网络结构。利用本发明搭建的车辆分类网络对数据集进行训练测试。数据集共有两类,一类包含车辆的朝向,有正向、反向、以及背景,其中正向、反向和背景各选取3200张图片用于训练,800张图片用于测试。另一类包含车辆的种类,有轿车、面包车、卡车、公交车以及背景,其中四种车辆均有1600张图片用于训练,400张图片用于测试,背景图片有3200张用于训练,800张用于测试。针对两个数据集分别对网络进行了测试。
在caffe平台上实现网络的搭建,训练与测试。卷积层的参数设置为F=3,S=1,P=1,池化层滤波器大小均选为2×2,池化方式采用最大池化。全连接6的输出参数根据标签数量确定针对车辆朝向数据集设置为3,针对车辆类型数据集设置为5,激活函数层使用的激活函数为relu函数。
训练网络时,需要设置网络训练参数,网络训练参数设置如表1所示。
表1网络训练参数
参数名称 | 参数设置 |
Test_iter | 200 |
Test_interval | 400 |
Base_lr | 0.0001 |
Lr_policy | “inv” |
Max_iter | 40000 |
针对车辆朝向数据集,测试最终损失为0.081,测试准确率为97.75%。针对车辆种类数据集,测试最终损失为0.082,测试准确率为98.04%。
第二步,定义默认框
对于每一张输入到第一步所述网络结构图片,每经过一个网络层都会成为一张特征图,选取m个网络层输出的特征图,所述的网络层为卷积层或池化层;
在每个特征图上的每个像素点位置定义正方形默认框,同一个特征图上的正方形默认框边长一致,该特征图的正方形默认框的数量和该特征图的像素点的总数量相同,记选取的m特征图中,其中边长最大的特征图上的正方形默认框的边长为s1,其余每个特征图上正方形默认框的大小计算公式如下式:
sk=sk-1+15×(k-1),k∈[2,m] (2)
其中,m表示选取的特征图数量,sk表示第k个特征图上默认框的边长;
再对每一个正方形默认框基础上进行缩放扩张,获得n个宽高比不同的矩形默认框,宽高比记为αr∈{α1,α2,......,αn},缩放后默认框的宽和高计算公式如下式:
其中,表示第k个特征图上宽高比为αr的默认框宽的宽度;表示第k个特征图上宽高比为αr的默认框高的高度;
最终对于选取的m个特征图上的每个像素点,得到包括一个正方形默认框和缩放扩张后的n个矩形默认框,总计n+1个大小不同的默认框用于预测;
在conv3层、conv4层、pool4层、ip_conv5层和ip_conv6层这5个网络层上定义默认框,s1大小设置为15,默认框尺寸设置如表2所示。
表2车辆检测网络默认框参数设置
第三步,定义车辆检测网络的损失函数
对于m个特征图上每一个像素点上的n+1个默认框,计算每一个默认框相对于车辆目标真实位置的回归损失,同时计算默认框中对象是车辆的置信度损失,经过加权计算得到车辆检测网络的总损失;
损失由两部分组成,目标属于车辆的置信度损失以及目标预测位置相对于真实位置的回归损失,xij表示第x个像素点上第i个默认框与第j个真实位置框是否匹配,若默认框与真实位置框的重叠系数大于一个阈值to,则默认框与真实位置框为匹配,xij值为1;若默认框与真实位置框重叠系数小于阈值to,则默认框与真实位置不匹配,xij值为0;重叠系数计算为下式:
其中,li表示第i个默认框的位置,gj表示车辆的第j个真实位置;
回归损失Lloc表示预测框l与真实位置框g的损失,由smooth L1函数计算而来,定义为下式:
其中,x表示像素点;i的取值范围为[1,n+1];j的取值范围为[1,t],t为真实框数量;
置信度损失Lconf表示目标在不同类别上的softmax损失,定义为下式:
其中,c表示置信度,ci表示对象为车辆的置信度,表示对象为背景的置信度;
检测网络的总损失为回归损失与置信度损失的权重和,定义为下式:
其中,N表示被判断为车辆的默认框总数,α表示回归损失在网络的总损失中的权重大小;本发明选择α=1,回归损失和置信度损失在最终的损失计算中占相同比重。
第四步,对车辆检测网络进行训练与测试:对于每一张车辆图片,给定每一个图片中车辆对象的数量以及每一个车辆对象的坐标,将所有的图片按51的比例分成训练集与测试集两个部分,训练集用于训练车辆检测网络,测试集用于测试车辆检测网络的检测效果,在caffe平台上,按照第一步到第四步搭建车辆检测网络,利用车辆图片训练集与车辆图片测试集对网络进行训练,得到最终的车辆检测模型。
所述第一步中网络的损失层用于计算分类误差,本发明使用如下公式计算分类误差:
其中,m表示当前数据集标签数量,y表示当前标签,zy表示预测结果为第y个标签的概率。
网络的测试效果主要由两个指标反映,正确检测出来的车辆数量与图片中待检测车辆总数量的比值(mAP),以及每秒钟车辆检测网络模型能够处理的图片数量(FPS)。图3为本发明的车辆检测网络检测效果,网络的测试效果如表3所示。
表3车辆检测网络检测效果
参数 | SSD | 本发明 |
mAP | 76.24% | 77.39% |
检测速度 | 9FPS | 12FPS |
车辆检测网络测试最终的mAP值为77.39%,在进行图片测试时,网络的检测速度能够到达12FPS,在相同的硬件条件下下SSD的mAP为76%,检测速度只能够达到9FPS,处理速度超过了SSD网络,同时mAP也提升了1%左右。从测试结果中可以看出,本发明能够使用卷积神经网络实现车辆识别与检测,并且满足实际应用的需求。
Claims (2)
1.一种基于卷积神经网络的车辆识别与检测方法,其特征在于包括下述步骤:
第一步,搭建车辆检测的基本网络
采用了四层卷积神经网络作为车辆检测的基本网络,用于车辆分类以及车辆图像的特征提取;
所述的四层卷积神经网络由数据层,卷积层1,激活函数层1,池化层1,卷积层2,激活函数层2,池化层2,卷积层3,激活函数层3,池化层3,卷积层4,激活函数层4,池化层4,全连接层5,激活函数层5,全连接层6依次连接,全连接层6后接并列的损失层和准确率层,在caffe框架上,训练网络得到一个分类模型,该模型用于后续的车辆检测网络的搭建;
网络的损失层用于计算分类误差;
网络的准确率层用于计算网络的准确率,统计预测结果,将正确预测出车辆的数量与总车辆数量的比值作为网络的准确率,计算公式如下:
<mrow>
<mi>A</mi>
<mi>c</mi>
<mo>=</mo>
<mfrac>
<mi>M</mi>
<mi>N</mi>
</mfrac>
<mo>&times;</mo>
<mn>100</mn>
<mi>%</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Ac表示分类准确率,M表示分类为车辆的标签数量,N表示总的标签数量;
第二步,定义默认框
对于每一张输入到第一步所述网络结构图片,每经过一个网络层都会成为一张特征图,选取m个网络层输出的特征图,所述的网络层为卷积层或池化层;
在每个特征图上的每个像素点位置定义正方形默认框,同一个特征图上的正方形默认框边长一致,该特征图的正方形默认框的数量和该特征图的像素点的总数量相同,记选取的m特征图中,其中边长最大的特征图上的正方形默认框的边长为s1,其余每个特征图上正方形默认框的大小计算公式如下式:
sk=sk-1+15×(k-1),k∈[2,m] (2)
其中,m表示选取的特征图数量,sk表示第k个特征图上默认框的边长;
再对每一个正方形默认框基础上进行缩放扩张,获得n个宽高比不同的矩形默认框,宽高比记为αr∈{α1,α2,......,αn},缩放后默认框的宽和高计算公式如下式:
<mrow>
<msubsup>
<mi>w</mi>
<mi>k</mi>
<msub>
<mi>&alpha;</mi>
<mi>r</mi>
</msub>
</msubsup>
<mo>=</mo>
<msub>
<mi>s</mi>
<mi>k</mi>
</msub>
<msqrt>
<msub>
<mi>&alpha;</mi>
<mi>r</mi>
</msub>
</msqrt>
<mo>,</mo>
<msubsup>
<mi>h</mi>
<mi>k</mi>
<msub>
<mi>&alpha;</mi>
<mi>r</mi>
</msub>
</msubsup>
<mo>=</mo>
<mfrac>
<msub>
<mi>s</mi>
<mi>k</mi>
</msub>
<msqrt>
<msub>
<mi>&alpha;</mi>
<mi>r</mi>
</msub>
</msqrt>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,表示第k个特征图上宽高比为αr的默认框宽的宽度;表示第k个特征图上宽高比为αr的默认框高的高度;
最终对于选取的m个特征图上的每个像素点,得到包括一个正方形默认框和缩放扩张后的n个矩形默认框,总计n+1个大小不同的默认框用于预测;
第三步,定义车辆检测网络的损失函数
对于m个特征图上每一个像素点上的n+1个默认框,计算每一个默认框相对于车辆目标真实位置的回归损失,同时计算默认框中对象是车辆的置信度损失,经过加权计算得到车辆检测网络的总损失;
损失由两部分组成,目标属于车辆的置信度损失以及目标预测位置相对于真实位置的回归损失,xij表示第x个像素点上第i个默认框与第j个真实位置框是否匹配,若默认框与真实位置框的重叠系数大于一个阈值to,则默认框与真实位置框为匹配,xij值为1;若默认框与真实位置框重叠系数小于阈值to,则默认框与真实位置不匹配,xij值为0;重叠系数计算为下式:
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>l</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>l</mi>
<mi>i</mi>
</msub>
<mo>&cap;</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>l</mi>
<mi>i</mi>
</msub>
<mo>&cup;</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,li表示第i个默认框的位置,gj表示车辆的第j个真实位置;
回归损失Lloc表示预测框l与真实位置框g的损失,由smooth L1函数计算而来,定义为下式:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>l</mi>
<mo>,</mo>
<mi>g</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mi>i</mi>
</munder>
<munder>
<mi>&Sigma;</mi>
<mi>j</mi>
</munder>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>smooth</mi>
<mrow>
<mi>L</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>l</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>smooth</mi>
<mrow>
<mi>L</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>0.5</mn>
<msup>
<mi>t</mi>
<mn>2</mn>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>|</mo>
<mi>t</mi>
<mo>|</mo>
<mo><</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>|</mo>
<mi>t</mi>
<mo>|</mo>
<mo>-</mo>
<mn>0.5</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,x表示像素点;i的取值范围为[1,n+1];j的取值范围为[1,t],t为真实框数量;
置信度损失Lconf表示目标在不同类别上的softmax损失,定义为下式:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>P</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>N</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</munder>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>c</mi>
<mi>i</mi>
<mn>0</mn>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,c表示置信度,ci表示对象为车辆的置信度,表示对象为背景的置信度;
检测网络的总损失为回归损失与置信度损失的权重和,定义为下式:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>c</mi>
<mo>,</mo>
<mi>l</mi>
<mo>,</mo>
<mi>g</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>N</mi>
</mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>c</mi>
</mrow>
<mo>)</mo>
<mo>+</mo>
<msub>
<mi>&alpha;L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
</mrow>
</msub>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>l</mi>
<mo>,</mo>
<mi>g</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,N表示被判断为车辆的默认框总数,α表示回归损失在网络的总损失中的权重大小;
第四步,对车辆检测网络进行训练与测试:对于每一张车辆图片,给定每一个图片中车辆对象的数量以及每一个车辆对象的坐标,将所有的图片按5:1的比例分成训练集与测试集两个部分,训练集用于训练车辆检测网络,测试集用于测试车辆检测网络的检测效果,在caffe平台上,按照第一步到第四步搭建车辆检测网络,利用车辆图片训练集与车辆图片测试集对网络进行训练,得到最终的车辆检测模型。
2.根据权利要求1所述的一种基于卷积神经网络的车辆识别与检测方法,其特征在于:
第一步中所述网络的损失层用于计算分类误差,使用如下公式计算分类误差:
<mrow>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<msup>
<mi>e</mi>
<msub>
<mi>z</mi>
<mi>y</mi>
</msub>
</msup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<mi>e</mi>
<msub>
<mi>z</mi>
<mi>j</mi>
</msub>
</msup>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msup>
<mi>e</mi>
<msub>
<mi>z</mi>
<mi>j</mi>
</msub>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>z</mi>
<mi>y</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,m表示当前数据集标签数量,y表示当前标签,zy表示预测结果为第y个标签的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422519.9A CN108009526A (zh) | 2017-12-25 | 2017-12-25 | 一种基于卷积神经网络的车辆识别与检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422519.9A CN108009526A (zh) | 2017-12-25 | 2017-12-25 | 一种基于卷积神经网络的车辆识别与检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108009526A true CN108009526A (zh) | 2018-05-08 |
Family
ID=62061096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711422519.9A Pending CN108009526A (zh) | 2017-12-25 | 2017-12-25 | 一种基于卷积神经网络的车辆识别与检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108009526A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN109034033A (zh) * | 2018-07-16 | 2018-12-18 | 江南大学 | 一种基于改进vgg16卷积网络的排烟视频检测方法 |
CN109344717A (zh) * | 2018-09-01 | 2019-02-15 | 哈尔滨工程大学 | 一种多阈值动态统计的深海目标在线检测识别方法 |
CN109447069A (zh) * | 2018-10-31 | 2019-03-08 | 沈阳工业大学 | 面向智能终端的车辆信息采集识别方法及系统 |
CN109506628A (zh) * | 2018-11-29 | 2019-03-22 | 东北大学 | 一种基于深度学习的卡车环境下目标物测距方法 |
CN109522831A (zh) * | 2018-11-06 | 2019-03-26 | 中科院—南京宽带无线移动通信研发中心 | 一种基于微卷积神经网络的车辆实时检测方法 |
CN109829469A (zh) * | 2018-11-08 | 2019-05-31 | 电子科技大学 | 一种基于深度学习的车辆检测方法 |
CN109919069A (zh) * | 2019-02-27 | 2019-06-21 | 浙江浩腾电子科技股份有限公司 | 基于深度学习的大型车辆分析系统 |
CN109948612A (zh) * | 2019-03-19 | 2019-06-28 | 苏州怡林城信息科技有限公司 | 基于卷积网络的车牌检测方法、存储介质和检测设备 |
CN110443279A (zh) * | 2019-07-04 | 2019-11-12 | 南京邮电大学 | 一种基于轻量级神经网络的无人机图像车辆检测方法 |
CN110490156A (zh) * | 2019-08-23 | 2019-11-22 | 哈尔滨理工大学 | 一种基于卷积神经网络的快速车辆检测方法 |
CN110826379A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院长春光学精密机械与物理研究所 | 一种基于特征复用与YOLOv3的目标检测方法 |
CN110852358A (zh) * | 2019-10-29 | 2020-02-28 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的车辆类型判别方法 |
CN110991421A (zh) * | 2019-12-24 | 2020-04-10 | 高新兴科技集团股份有限公司 | 卡口抓拍图像车辆检测方法、计算机存储介质及电子设备 |
CN111062405A (zh) * | 2018-10-17 | 2020-04-24 | 三星电子株式会社 | 训练图像识别模型的方法和装置以及图像识别方法和装置 |
CN111144167A (zh) * | 2018-11-02 | 2020-05-12 | 银河水滴科技(北京)有限公司 | 一种步态信息识别优化方法、系统及存储介质 |
CN111178451A (zh) * | 2020-01-02 | 2020-05-19 | 中国民航大学 | 一种基于YOLOv3网络的车牌检测方法 |
CN111209858A (zh) * | 2020-01-06 | 2020-05-29 | 电子科技大学 | 一种基于深度卷积神经网络的实时车牌检测方法 |
CN112101488A (zh) * | 2020-11-18 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、训练装置及存储介质 |
CN112861631A (zh) * | 2020-12-31 | 2021-05-28 | 南京理工大学 | 一种基于Mask Rcnn以及SSD的地磅人体入侵检测方法 |
CN112863187A (zh) * | 2021-01-18 | 2021-05-28 | 北京百度网讯科技有限公司 | 感知模型的检测方法、电子设备、路侧设备和云控平台 |
CN113112866A (zh) * | 2021-04-14 | 2021-07-13 | 深圳市旗扬特种装备技术工程有限公司 | 一种智能交通预警方法及智能交通预警系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096531A (zh) * | 2016-05-31 | 2016-11-09 | 安徽省云力信息技术有限公司 | 一种基于深度学习的交通图像多类型车辆检测方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106469299A (zh) * | 2016-08-31 | 2017-03-01 | 北京邮电大学 | 一种车辆搜索方法及装置 |
US20170140253A1 (en) * | 2015-11-12 | 2017-05-18 | Xerox Corporation | Multi-layer fusion in a convolutional neural network for image classification |
-
2017
- 2017-12-25 CN CN201711422519.9A patent/CN108009526A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140253A1 (en) * | 2015-11-12 | 2017-05-18 | Xerox Corporation | Multi-layer fusion in a convolutional neural network for image classification |
CN106096531A (zh) * | 2016-05-31 | 2016-11-09 | 安徽省云力信息技术有限公司 | 一种基于深度学习的交通图像多类型车辆检测方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106469299A (zh) * | 2016-08-31 | 2017-03-01 | 北京邮电大学 | 一种车辆搜索方法及装置 |
Non-Patent Citations (3)
Title |
---|
ROSS GIRSHICK: "Fast R-CNN", 《ARXIV》 * |
WEI LIU 等: "SSD: Single Shot MultiBox Detector", 《ARXIV》 * |
YANGQING JIA 等: "Caffe: Convolutional Architecture for Fast Feature Embedding", 《ARXIV》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034033A (zh) * | 2018-07-16 | 2018-12-18 | 江南大学 | 一种基于改进vgg16卷积网络的排烟视频检测方法 |
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN110826379A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院长春光学精密机械与物理研究所 | 一种基于特征复用与YOLOv3的目标检测方法 |
CN110826379B (zh) * | 2018-08-13 | 2022-03-22 | 中国科学院长春光学精密机械与物理研究所 | 一种基于特征复用与YOLOv3的目标检测方法 |
CN109344717A (zh) * | 2018-09-01 | 2019-02-15 | 哈尔滨工程大学 | 一种多阈值动态统计的深海目标在线检测识别方法 |
CN109344717B (zh) * | 2018-09-01 | 2021-10-19 | 哈尔滨工程大学 | 一种多阈值动态统计的深海目标在线检测识别方法 |
CN111062405A (zh) * | 2018-10-17 | 2020-04-24 | 三星电子株式会社 | 训练图像识别模型的方法和装置以及图像识别方法和装置 |
CN109447069A (zh) * | 2018-10-31 | 2019-03-08 | 沈阳工业大学 | 面向智能终端的车辆信息采集识别方法及系统 |
CN111144167A (zh) * | 2018-11-02 | 2020-05-12 | 银河水滴科技(北京)有限公司 | 一种步态信息识别优化方法、系统及存储介质 |
CN109522831A (zh) * | 2018-11-06 | 2019-03-26 | 中科院—南京宽带无线移动通信研发中心 | 一种基于微卷积神经网络的车辆实时检测方法 |
CN109829469A (zh) * | 2018-11-08 | 2019-05-31 | 电子科技大学 | 一种基于深度学习的车辆检测方法 |
CN109506628A (zh) * | 2018-11-29 | 2019-03-22 | 东北大学 | 一种基于深度学习的卡车环境下目标物测距方法 |
CN109919069A (zh) * | 2019-02-27 | 2019-06-21 | 浙江浩腾电子科技股份有限公司 | 基于深度学习的大型车辆分析系统 |
CN109948612A (zh) * | 2019-03-19 | 2019-06-28 | 苏州怡林城信息科技有限公司 | 基于卷积网络的车牌检测方法、存储介质和检测设备 |
CN110443279B (zh) * | 2019-07-04 | 2022-08-12 | 南京邮电大学 | 一种基于轻量级神经网络的无人机图像车辆检测方法 |
CN110443279A (zh) * | 2019-07-04 | 2019-11-12 | 南京邮电大学 | 一种基于轻量级神经网络的无人机图像车辆检测方法 |
CN110490156A (zh) * | 2019-08-23 | 2019-11-22 | 哈尔滨理工大学 | 一种基于卷积神经网络的快速车辆检测方法 |
CN110852358A (zh) * | 2019-10-29 | 2020-02-28 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的车辆类型判别方法 |
CN110991421A (zh) * | 2019-12-24 | 2020-04-10 | 高新兴科技集团股份有限公司 | 卡口抓拍图像车辆检测方法、计算机存储介质及电子设备 |
CN110991421B (zh) * | 2019-12-24 | 2023-08-25 | 高新兴科技集团股份有限公司 | 卡口抓拍图像车辆检测方法、计算机存储介质及电子设备 |
CN111178451A (zh) * | 2020-01-02 | 2020-05-19 | 中国民航大学 | 一种基于YOLOv3网络的车牌检测方法 |
CN111209858A (zh) * | 2020-01-06 | 2020-05-29 | 电子科技大学 | 一种基于深度卷积神经网络的实时车牌检测方法 |
CN112101488A (zh) * | 2020-11-18 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、训练装置及存储介质 |
CN112101488B (zh) * | 2020-11-18 | 2021-06-25 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、训练装置及存储介质 |
CN112861631A (zh) * | 2020-12-31 | 2021-05-28 | 南京理工大学 | 一种基于Mask Rcnn以及SSD的地磅人体入侵检测方法 |
CN112863187A (zh) * | 2021-01-18 | 2021-05-28 | 北京百度网讯科技有限公司 | 感知模型的检测方法、电子设备、路侧设备和云控平台 |
CN113112866A (zh) * | 2021-04-14 | 2021-07-13 | 深圳市旗扬特种装备技术工程有限公司 | 一种智能交通预警方法及智能交通预警系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009526A (zh) | 一种基于卷积神经网络的车辆识别与检测方法 | |
CN110363182B (zh) | 基于深度学习的车道线检测方法 | |
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN108830188B (zh) | 基于深度学习的车辆检测方法 | |
CN110348376B (zh) | 一种基于神经网络的行人实时检测方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN108921083B (zh) | 基于深度学习目标检测的非法流动摊贩识别方法 | |
CN110909666B (zh) | 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法 | |
CN111553201B (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN106228125B (zh) | 基于集成学习级联分类器的车道线检测方法 | |
CN112270252A (zh) | 一种改进YOLOv2模型的多车辆目标识别方法 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN103530600B (zh) | 复杂光照下的车牌识别方法及系统 | |
CN105787482A (zh) | 一种基于深度卷积神经网络的特定目标轮廓图像分割方法 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN111582339B (zh) | 一种基于深度学习的车辆检测与识别的方法 | |
CN107944354B (zh) | 一种基于深度学习的车辆检测方法 | |
CN101719220A (zh) | 基于有向截尾均值距离的轨迹聚类方法 | |
CN111738114B (zh) | 基于无锚点精确采样遥感图像车辆目标检测方法 | |
CN111540203B (zh) | 基于Faster-RCNN调节绿灯通行时间的方法 | |
US20230245466A1 (en) | Vehicle Lidar System and Object Classification Method Therewith | |
CN106557740A (zh) | 一种遥感图像中油库目标的识别方法 | |
CN113468994A (zh) | 基于加权采样和多分辨率特征提取的三维目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180508 |