CN107578091B - 一种基于轻量级深度网络的行人车辆实时检测方法 - Google Patents
一种基于轻量级深度网络的行人车辆实时检测方法 Download PDFInfo
- Publication number
- CN107578091B CN107578091B CN201710765209.0A CN201710765209A CN107578091B CN 107578091 B CN107578091 B CN 107578091B CN 201710765209 A CN201710765209 A CN 201710765209A CN 107578091 B CN107578091 B CN 107578091B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- meta
- feature
- module
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于轻量级深度网络的行人车辆实时检测方法,轻量级深度网络通过5个模块+3种卷积操作,其中元模块只包含2种卷积操作,来实现特征提取功能。本发明在不同模块之间的跳跃连接方式和更鲁棒的特征谱融合技术使得该网络在模型参量较小的情况下实现了对行人车辆较好的检测效果,能够实时有效地检测出图像或视频中的行人车辆。本发明提出的新的深度网络具有模型参数量小、计算复杂度小并且检测精确度高的优势,可以实现在嵌入式平台上对行人车辆进行实时的检测,具有很好的实用性和实时性。
Description
技术领域
本发明涉及图像处理中的深度学习技术。
背景技术
随着城市经济水平和人口数量的不断增长,交通道路上的车辆和行人数目也在相应增加。
随之而来的道路交通拥挤、交通事故频发等一列交通问题,对城市交通建设提出了更高的要求。因此,更高效快速的行人车辆实时检测方法有着广阔的应用前景和急切的市场需求。
国内外对行人车辆检测方法的研究已经开展了数十年,这期间也有很多优秀的学者提出了很多有成效的检测方法。但是,就计算机视觉技术所要抵达的终极目标--等同于人类的识别能力而言,这些检测方法在对行人和车辆的检测精度与效率上均还存在一定的差距,投入到实际应用中,存在的问题就更加明显。目前,对行人和车辆的检测算法所面临的难点主要包括以下几个方面:
(1)行人姿态各异,车辆造型各异;
(2)行人着装和车辆的颜色多样化;
(3)行人和车辆所在现实背景复杂化;
(4)行人和车辆所在场景光照强度不一;
(5)拍摄行人和车辆的角度多样化;
(6)行人和车辆被遮挡情况既复杂又多样;
近十年间,为了能够更好地解决上述难点,大多数学者都致力于研究出更好的特征提取方法和训练出更有效的分类器来提升对行人车辆的检测性能,也发现了比较好的特征提取方法和分类器。
深度学习的概念开始引起人们的注意大约是在2006年前后,当时GeoffreyHinton和Ruslan Salakhutdinov[22]的实验表明,多层的前向神经网络能够逐层做高效的前期训练(pre-training),采用无监督的限制性玻尔兹曼机对每一层进行训练,最后在利用有监督的后向传播做微调(fine-tuning)。其实早在1992年,Jurgen Schmidhuber在更一般情况下,实现过一个类似的无监督层次结构递归神经网络并且从实验上证明了模型可以有效地提高有监督学习的速度。但是对于实际应用来说还是很慢,因此一直以来用支撑向量机(SVM)等方法进行目标识别更受人们的欢迎。直到2010年,Ciresan et al[25]使用非线性深度后向传播网络,在MNIST[26]手写字数据集上进行实验,实验结果超越了所有不使用无监督学习的前人方法,人们才逐渐转向将深度学习用来做目标检测和识别的研究。此外,随着硬件的发展,深度学习已经能够通过各种途径得到速度上的提升,从而逐渐被运用到解决实际问题当中。
Single Shot MultiBox Detector(SSD)目标检测网络是目前检测精度最高的深度网络。它采用VGG-16作为特征提取网络,并在VGG-16之后扩展了3个卷积层来增加多尺度,网络的检测部分采用6个特征谱的融合进一步提高了检测精度。但是,该网络由于模型参数过多(96.6MB),当移植到嵌入式平台时会出现严重卡顿,甚至跑不起来。
综上可知,对于行人车辆检测技术的研究主要有两大类:一是基于特征和分类器模式的传统方法,二是采用深度学习实现端到端的检测。然而这两种方法在实际应用中都存在着一定的局限性,前者在实际应用中准确率不高,后者在特征提取部分通过大量卷积+激活+下采样的结构来提高深度网络对目标特征的提取能力,从而提升深度网络的检测精度,但与此同时,网络的模型参数和计算复杂度也大大增加,这无疑对硬件平台的内存和计算能力提出了一定要求,参数量过大和计算复杂度过大,尤其在一些内存大小和计算能力受限的嵌入式平台上,难以实现实时的效果。
VGG-16是现有效果较好的分类网络,常被用来做目标检测网络的特征提取部分,其弊端是参数量太大,导致最终得到的整个目标检测网络模型过大而无法移植到嵌入式平台。
发明内容
本发明所要解决的技术问题是,提供一种能够在嵌入式平台上实现对行人车辆进行实时检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于轻量级深度网络的行人车辆实时检测方法,包括以下步骤:
1)对检测图像进行预处理;
2)采用卷积神经网络CNN结构来构建深度网络对检测图像进行特征提取,网络结构如下:
网络共8层,其中5个元模块、3个卷积层,第1卷积层输出特征谱至第1元模块,第1元模块输出特征谱至第2元模块,第1卷积层输出特征谱与第2元模块输出特征谱进行融合后输出至第3元模块,第3元模块输出特征谱至第4元模块,第1元模块输出特征谱与第4模块输出特征谱进行融合后输出至第5元模块、第3元模块输出特征谱与第5元模块输出特征谱进行融合后输出至第2卷积层,第2卷积层输出特征谱至第3卷积层;
特征谱融合方式为:
其中,f(z)表示两特征谱融合后的特征谱,f(x)表示两特征谱中较浅层的特征谱,f(y)表示两特征谱中较深层特征谱,dist(x,y)表征要融合特征谱之间的距离dist(x,y)=|f(x)-f(y)|,e为自然常数;
元模块用于,先用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积得到1x1滤波后的特征谱,并将1x1滤波后的特征谱输出至3x3的滤波器,3x3的滤波器对输入特征谱进行滑窗卷积并输出3x3滤波后的特征谱,最后对1x1滤波后的特征谱与3x3滤波后的特征谱进行拼接以生成元模块的输出特征谱;
3)基于深度网络提取的特征完成对检测图像的目标检测。
本发明提出一种用于行人车辆实时检测的轻量级深度网络,通过5个模块+3种卷积操作,其中元模块只包含2种卷积操作,来实现特征提取功能。本发明在不同模块之间的跳跃连接方式和更鲁棒的特征谱融合技术使得该网络在模型参量较小的情况下实现了对行人车辆较好的检测效果,能够实时有效地检测出图像或视频中的行人车辆。
本发明的有益效果是,提出的新的深度网络具有模型参数量小、计算复杂度小并且检测精确度高的优势,可以实现在嵌入式平台上对行人车辆进行实时的检测,具有很好的实用性和实时性。
附图说明
图1:深度网络结构图
图2:元模块结构图
具体实施方式
本发明提出一种新的卷积神经网络CNN结构来完成行人车辆的特征提取部分。具体网络结构如图1所示:
网络总共包括8层(5个元模块+3个卷积)。与VGG-16的直线型结构不同,本网络在层与层之间采用跳跃连接方式,将网络的较浅层特征与较深特征进行融合:第1卷积层输出特征谱至第1元模块,卷积层通过一系列滤波器对图像进行特征提取,通过正则化和激活操作调整参数使得网络更好地收敛的效果,第1元模块输出特征谱至第2元模块,第1卷积层输出特征谱与第2元模块输出特征谱进行融合后输出至第3元模块,第3元模块输出特征谱至第4元模块,第1元模块输出特征谱与第4模块输出特征谱进行融合后输出至第5元模块、第3元模块输出特征谱与第5元模块输出特征谱进行融合后输出至第2卷积层,第2卷积层输出特征谱至第3卷积层。
传统的特征谱融合方式只是将特征谱在通道上进行简单拼接或是将特征谱进行直接相加减、比大小的操作,考虑到深度网络学习到的特征由浅及深,就是说前几层学到是图像的边缘、点线等浅层特性,随着深度网络层数加深,可以学习到一些局部元件的中层特征,由此可以分析出,不同层次的特征谱对网络准确度的影响因子应该不同,并且中层特征的学习受到浅层特征学习的制约,因此浅层特征应该予以较大的影响因子。本文基于所提出的网络结构的基础上设计出一种新的特征谱融合方式:
其中,f(z)表示两特征谱融合后的特征谱,f(x)表示两特征谱中较浅层的特征谱,f(y)表示两特征谱中较深层特征谱,dist(x,y)表征要融合特征谱之间的距离dist(x,y)=|f(x)-f(y)|,e为自然常数。
可以看出,按照本发明的特征融合方式进行不同层次特征谱融合时,浅层特征获得了更大的权重,且权重随着交深层特征谱与其背离程度的增大而增大。
元模块的结构如图2所示:
元模块只包含两项操作。第一项操作是用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积,采用1x1的滤波器是为了保证特征谱尺寸不变的同时降低输入特征谱的通道数,从而减少滤波器参数;第二项操作是用尺寸为3x3的滤波器对输入特征谱进行滑窗卷积。元模块先用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积得到1x1滤波后的特征谱,并将1x1滤波后的特征谱输出至3x3的滤波器,3x3的滤波器对输入特征谱进行滑窗卷积并输出3x3滤波后的特征谱,最后对1x1滤波后的特征谱与3x3滤波后的特征谱进行拼接以生成元模块的输出特征谱基于上述深度网络的行人车辆检测方法如下:
步骤1、首先是构建日常场景下行人车辆数据库。现有数据库中的行人和车辆大多是位于图像中心且背景过于单一,这将导致深度网络所学习到的特征不够鲁棒,难以适应更多的复杂场景。因此构建多元背景下各种角度和姿态(包括各种可能的遮挡和光照)的行人车辆数据库是必要的。其次是对数据库图像的预处理。实施例对数据库的预处理过程除了常见的去均值、归一化操作外,还增加了随机裁剪与上下左右翻转操作,这不仅增加了数据库样本的多样性,还能使得深度网络提取到的特征具有平移旋转不变性。
步骤2、对数据库样本进行标签标注。
步骤3、利用样本对深度网络进行训练,得到是滤波器参数。
步骤4、检测步骤:
4-1)对检测图像进行预处理;
4-2)采用深度网络对检测图像进行特征提取,在固定特征谱上生成固定尺寸候选框的方案来减少参数量,考虑到行人车辆通常是非方形比例(前者为纵向,后者为横向),因此对于行人、自行车、汽车、摩托车4类目标选取4种宽高比的目标框:1:2、2:1、1:3、3:1;
通过计算深度网络损失来判断对候选框的内容进行目标检测。实施例采用类别损失和定位损失来计算深度网络损失L。虑到类别损失和定位损失在实际工作中的重要性不一样,设置权重参数a,实施例暂时设置为1。
其中,x为分类类别,c为标签,N为匹配上的候选框的个数;a为权重参数;g代表真实框ground truth;l代表候选框;Lloc为候选框与ground truth之间的损失;Lconf为分类类别与标签之间的损失。
类别损失和定位损失都是采用将多分辨率特征谱进行融合的思想,先选取四张分辨率不同的特征谱,然后将其归一化,接着通过滤波器卷积得到每个候选框对不同类检测对象(背景、行人、自行车、汽车、摩托车)的五个打分值以及每个位置候选框的四个偏移值tx,ty,tw,th(分别是对中心点坐标的横、纵坐标以及框的宽、高的偏移值)。
分类损失是通过将预测的类别与事先标注的类别进行损失计算得到。
定位损失是通过对候选框与事先标注的真实框进行损失计算得到的。候选框的中心点坐标及长宽通过对候选框进行如下处理得到:
bx=tx*prior_w+prior_x;
by=ty*prior_h+prior_x;
bw=exp(tw)*prior_w;
bh=exp(th)*prior_h;
其中,bx、by为候选框中心点的横、纵坐标,bw、bh为候选框的宽和高;prior_x、prior_x为候选框中心点的横、纵坐标,prior_w、prior_h为候选框的宽和高,tx,ty,tw,th为候选框的四个偏移值。
Claims (1)
1.一种基于轻量级深度网络的行人车辆实时检测方法,其特征在于,包括以下步骤:
1)对检测图像进行预处理;
2)采用卷积神经网络CNN结构来构建深度网络对检测图像进行特征提取,网络结构如下:
网络共8层,其中5个元模块、3个卷积层,第1卷积层输出特征谱至第1元模块,第1元模块输出特征谱至第2元模块,第1卷积层输出特征谱与第2元模块输出特征谱进行融合后输出至第3元模块,第3元模块输出特征谱至第4元模块,第1元模块输出特征谱与第4模块输出特征谱进行融合后输出至第5元模块、第3元模块输出特征谱与第5元模块输出特征谱进行融合后输出至第2卷积层,第2卷积层输出特征谱至第3卷积层;
特征谱融合方式为:
其中,f(z)表示两特征谱融合后的特征谱,f(x)表示两特征谱中较浅层的特征谱,f(y)表示两特征谱中较深层特征谱,dist(x,y)表征要融合特征谱之间的距离dist(x,y)=|f(x)-f(y)|,e为自然常数;
元模块用于,先用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积得到1x1滤波后的特征谱,并将1x1滤波后的特征谱输出至3x3的滤波器,3x3的滤波器对输入特征谱进行滑窗卷积并输出3x3滤波后的特征谱,最后对1x1滤波后的特征谱与3x3滤波后的特征谱进行拼接以生成元模块的输出特征谱;
3)基于深度网络提取的特征完成对检测图像的目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710765209.0A CN107578091B (zh) | 2017-08-30 | 2017-08-30 | 一种基于轻量级深度网络的行人车辆实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710765209.0A CN107578091B (zh) | 2017-08-30 | 2017-08-30 | 一种基于轻量级深度网络的行人车辆实时检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107578091A CN107578091A (zh) | 2018-01-12 |
CN107578091B true CN107578091B (zh) | 2021-02-05 |
Family
ID=61029977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710765209.0A Active CN107578091B (zh) | 2017-08-30 | 2017-08-30 | 一种基于轻量级深度网络的行人车辆实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107578091B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304787A (zh) * | 2018-01-17 | 2018-07-20 | 河南工业大学 | 基于卷积神经网络的道路目标检测方法 |
CN108154194B (zh) * | 2018-01-18 | 2021-04-30 | 北京工业大学 | 一种用基于张量的卷积网络提取高维特征的方法 |
CN108288075B (zh) * | 2018-02-02 | 2019-06-14 | 沈阳工业大学 | 一种改进ssd的轻量化小目标检测方法 |
CN108509978B (zh) * | 2018-02-28 | 2022-06-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
CN108389172B (zh) * | 2018-03-21 | 2020-12-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108596053B (zh) * | 2018-04-09 | 2020-06-02 | 华中科技大学 | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 |
CN109035338B (zh) * | 2018-07-16 | 2020-11-10 | 深圳辰视智能科技有限公司 | 一种基于单尺度特征的点云与图片融合方法、装置及其设备 |
CN109359605A (zh) * | 2018-10-24 | 2019-02-19 | 艾凯克斯(嘉兴)信息科技有限公司 | 一种基于三维网格与神经网络的零件相似性处理方法 |
CN109446971A (zh) * | 2018-10-24 | 2019-03-08 | 艾凯克斯(嘉兴)信息科技有限公司 | 基于三维网格及神经网络解决三维物体旋转不变性的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022237A (zh) * | 2016-05-13 | 2016-10-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN106611156A (zh) * | 2016-11-03 | 2017-05-03 | 桂林电子科技大学 | 一种自适应深度空间特征的行人识别方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068171B2 (en) * | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
-
2017
- 2017-08-30 CN CN201710765209.0A patent/CN107578091B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022237A (zh) * | 2016-05-13 | 2016-10-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN106611156A (zh) * | 2016-11-03 | 2017-05-03 | 桂林电子科技大学 | 一种自适应深度空间特征的行人识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于联合层特征的卷积神经网络在车标识别中的应用;张力 等;《计算机应用》;20160210;第36卷(第2期);444-448 * |
Also Published As
Publication number | Publication date |
---|---|
CN107578091A (zh) | 2018-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578091B (zh) | 一种基于轻量级深度网络的行人车辆实时检测方法 | |
CN108875608B (zh) | 一种基于深度学习的机动车交通信号识别方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
Heo et al. | Pedestrian detection at night using deep neural networks and saliency maps | |
CN108230254B (zh) | 一种自适应场景切换的高速交通全车道线自动检测方法 | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN110135296A (zh) | 基于卷积神经网络的机场跑道fod检测方法 | |
CN111695514B (zh) | 一种基于深度学习的雾天下车辆检测方法 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
CN111582092B (zh) | 一种基于人体骨架的行人异常行为检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN109815802A (zh) | 一种基于卷积神经网络的监控视频车辆检测与识别方法 | |
Yao et al. | Coupled multivehicle detection and classification with prior objectness measure | |
Zhu et al. | Fast detection of moving object based on improved frame-difference method | |
Hu et al. | A video streaming vehicle detection algorithm based on YOLOv4 | |
CN115280373A (zh) | 使用结构化丢弃来管理孪生网络跟踪中的遮挡 | |
Tarchoun et al. | Hand-Crafted Features vs Deep Learning for Pedestrian Detection in Moving Camera. | |
Chen et al. | Research on fast recognition method of complex sorting images based on deep learning | |
Yun et al. | Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment | |
Yin | Object Detection Based on Deep Learning: A Brief Review | |
Arthi et al. | Object detection of autonomous vehicles under adverse weather conditions | |
Nie et al. | Monocular vision based perception system for nighttime driving | |
Feng et al. | A benchmark dataset and multi-scale attention network for semantic traffic light detection | |
CN108288041B (zh) | 一种行人目标错检去除的预处理方法 | |
Yang et al. | Improved Object Detection Algorithm Based on Multi-scale and Variability Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |