CN107578091B

CN107578091B - 一种基于轻量级深度网络的行人车辆实时检测方法

Info

Publication number: CN107578091B
Application number: CN201710765209.0A
Authority: CN
Inventors: 李宏亮; 孙玲; 张文海; 翁爽; 董蒙
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2021-02-05
Anticipated expiration: 2037-08-30
Also published as: CN107578091A

Abstract

本发明提供一种基于轻量级深度网络的行人车辆实时检测方法，轻量级深度网络通过5个模块+3种卷积操作，其中元模块只包含2种卷积操作，来实现特征提取功能。本发明在不同模块之间的跳跃连接方式和更鲁棒的特征谱融合技术使得该网络在模型参量较小的情况下实现了对行人车辆较好的检测效果，能够实时有效地检测出图像或视频中的行人车辆。本发明提出的新的深度网络具有模型参数量小、计算复杂度小并且检测精确度高的优势，可以实现在嵌入式平台上对行人车辆进行实时的检测，具有很好的实用性和实时性。

Description

一种基于轻量级深度网络的行人车辆实时检测方法

技术领域

本发明涉及图像处理中的深度学习技术。

背景技术

随着城市经济水平和人口数量的不断增长，交通道路上的车辆和行人数目也在相应增加。

随之而来的道路交通拥挤、交通事故频发等一列交通问题，对城市交通建设提出了更高的要求。因此，更高效快速的行人车辆实时检测方法有着广阔的应用前景和急切的市场需求。

国内外对行人车辆检测方法的研究已经开展了数十年，这期间也有很多优秀的学者提出了很多有成效的检测方法。但是，就计算机视觉技术所要抵达的终极目标--等同于人类的识别能力而言，这些检测方法在对行人和车辆的检测精度与效率上均还存在一定的差距，投入到实际应用中，存在的问题就更加明显。目前，对行人和车辆的检测算法所面临的难点主要包括以下几个方面：

(1)行人姿态各异，车辆造型各异；

(2)行人着装和车辆的颜色多样化；

(3)行人和车辆所在现实背景复杂化；

(4)行人和车辆所在场景光照强度不一；

(5)拍摄行人和车辆的角度多样化；

(6)行人和车辆被遮挡情况既复杂又多样；

近十年间，为了能够更好地解决上述难点，大多数学者都致力于研究出更好的特征提取方法和训练出更有效的分类器来提升对行人车辆的检测性能，也发现了比较好的特征提取方法和分类器。

深度学习的概念开始引起人们的注意大约是在2006年前后，当时GeoffreyHinton和Ruslan Salakhutdinov[22]的实验表明，多层的前向神经网络能够逐层做高效的前期训练(pre-training)，采用无监督的限制性玻尔兹曼机对每一层进行训练，最后在利用有监督的后向传播做微调(fine-tuning)。其实早在1992年，Jurgen Schmidhuber在更一般情况下，实现过一个类似的无监督层次结构递归神经网络并且从实验上证明了模型可以有效地提高有监督学习的速度。但是对于实际应用来说还是很慢，因此一直以来用支撑向量机(SVM)等方法进行目标识别更受人们的欢迎。直到2010年，Ciresan et al[25]使用非线性深度后向传播网络，在MNIST[26]手写字数据集上进行实验，实验结果超越了所有不使用无监督学习的前人方法，人们才逐渐转向将深度学习用来做目标检测和识别的研究。此外，随着硬件的发展，深度学习已经能够通过各种途径得到速度上的提升，从而逐渐被运用到解决实际问题当中。

Single Shot MultiBox Detector(SSD)目标检测网络是目前检测精度最高的深度网络。它采用VGG-16作为特征提取网络，并在VGG-16之后扩展了3个卷积层来增加多尺度，网络的检测部分采用6个特征谱的融合进一步提高了检测精度。但是，该网络由于模型参数过多(96.6MB)，当移植到嵌入式平台时会出现严重卡顿，甚至跑不起来。

综上可知，对于行人车辆检测技术的研究主要有两大类：一是基于特征和分类器模式的传统方法，二是采用深度学习实现端到端的检测。然而这两种方法在实际应用中都存在着一定的局限性，前者在实际应用中准确率不高，后者在特征提取部分通过大量卷积+激活+下采样的结构来提高深度网络对目标特征的提取能力，从而提升深度网络的检测精度，但与此同时，网络的模型参数和计算复杂度也大大增加，这无疑对硬件平台的内存和计算能力提出了一定要求，参数量过大和计算复杂度过大，尤其在一些内存大小和计算能力受限的嵌入式平台上，难以实现实时的效果。

VGG-16是现有效果较好的分类网络，常被用来做目标检测网络的特征提取部分，其弊端是参数量太大，导致最终得到的整个目标检测网络模型过大而无法移植到嵌入式平台。

发明内容

本发明所要解决的技术问题是，提供一种能够在嵌入式平台上实现对行人车辆进行实时检测方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于轻量级深度网络的行人车辆实时检测方法，包括以下步骤：

1)对检测图像进行预处理；

2)采用卷积神经网络CNN结构来构建深度网络对检测图像进行特征提取，网络结构如下：

网络共8层，其中5个元模块、3个卷积层，第1卷积层输出特征谱至第1元模块，第1元模块输出特征谱至第2元模块，第1卷积层输出特征谱与第2元模块输出特征谱进行融合后输出至第3元模块，第3元模块输出特征谱至第4元模块，第1元模块输出特征谱与第4模块输出特征谱进行融合后输出至第5元模块、第3元模块输出特征谱与第5元模块输出特征谱进行融合后输出至第2卷积层，第2卷积层输出特征谱至第3卷积层；

特征谱融合方式为：

其中，f(z)表示两特征谱融合后的特征谱，f(x)表示两特征谱中较浅层的特征谱，f(y)表示两特征谱中较深层特征谱，dist(x,y)表征要融合特征谱之间的距离dist(x,y)＝|f(x)-f(y)|，e为自然常数；

元模块用于，先用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积得到1x1滤波后的特征谱，并将1x1滤波后的特征谱输出至3x3的滤波器，3x3的滤波器对输入特征谱进行滑窗卷积并输出3x3滤波后的特征谱，最后对1x1滤波后的特征谱与3x3滤波后的特征谱进行拼接以生成元模块的输出特征谱；

3)基于深度网络提取的特征完成对检测图像的目标检测。

本发明提出一种用于行人车辆实时检测的轻量级深度网络，通过5个模块+3种卷积操作，其中元模块只包含2种卷积操作，来实现特征提取功能。本发明在不同模块之间的跳跃连接方式和更鲁棒的特征谱融合技术使得该网络在模型参量较小的情况下实现了对行人车辆较好的检测效果，能够实时有效地检测出图像或视频中的行人车辆。

本发明的有益效果是，提出的新的深度网络具有模型参数量小、计算复杂度小并且检测精确度高的优势，可以实现在嵌入式平台上对行人车辆进行实时的检测，具有很好的实用性和实时性。

附图说明

图1：深度网络结构图

图2：元模块结构图

具体实施方式

本发明提出一种新的卷积神经网络CNN结构来完成行人车辆的特征提取部分。具体网络结构如图1所示：

网络总共包括8层(5个元模块+3个卷积)。与VGG-16的直线型结构不同,本网络在层与层之间采用跳跃连接方式，将网络的较浅层特征与较深特征进行融合：第1卷积层输出特征谱至第1元模块，卷积层通过一系列滤波器对图像进行特征提取，通过正则化和激活操作调整参数使得网络更好地收敛的效果，第1元模块输出特征谱至第2元模块，第1卷积层输出特征谱与第2元模块输出特征谱进行融合后输出至第3元模块，第3元模块输出特征谱至第4元模块，第1元模块输出特征谱与第4模块输出特征谱进行融合后输出至第5元模块、第3元模块输出特征谱与第5元模块输出特征谱进行融合后输出至第2卷积层，第2卷积层输出特征谱至第3卷积层。

传统的特征谱融合方式只是将特征谱在通道上进行简单拼接或是将特征谱进行直接相加减、比大小的操作，考虑到深度网络学习到的特征由浅及深，就是说前几层学到是图像的边缘、点线等浅层特性，随着深度网络层数加深，可以学习到一些局部元件的中层特征，由此可以分析出，不同层次的特征谱对网络准确度的影响因子应该不同，并且中层特征的学习受到浅层特征学习的制约，因此浅层特征应该予以较大的影响因子。本文基于所提出的网络结构的基础上设计出一种新的特征谱融合方式：

其中，f(z)表示两特征谱融合后的特征谱，f(x)表示两特征谱中较浅层的特征谱，f(y)表示两特征谱中较深层特征谱，dist(x,y)表征要融合特征谱之间的距离dist(x,y)＝|f(x)-f(y)|，e为自然常数。

可以看出，按照本发明的特征融合方式进行不同层次特征谱融合时，浅层特征获得了更大的权重，且权重随着交深层特征谱与其背离程度的增大而增大。

元模块的结构如图2所示：

元模块只包含两项操作。第一项操作是用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积，采用1x1的滤波器是为了保证特征谱尺寸不变的同时降低输入特征谱的通道数，从而减少滤波器参数；第二项操作是用尺寸为3x3的滤波器对输入特征谱进行滑窗卷积。元模块先用尺寸为1x1的滤波器对输入特征谱进行滑窗卷积得到1x1滤波后的特征谱，并将1x1滤波后的特征谱输出至3x3的滤波器，3x3的滤波器对输入特征谱进行滑窗卷积并输出3x3滤波后的特征谱，最后对1x1滤波后的特征谱与3x3滤波后的特征谱进行拼接以生成元模块的输出特征谱基于上述深度网络的行人车辆检测方法如下：

步骤1、首先是构建日常场景下行人车辆数据库。现有数据库中的行人和车辆大多是位于图像中心且背景过于单一，这将导致深度网络所学习到的特征不够鲁棒，难以适应更多的复杂场景。因此构建多元背景下各种角度和姿态(包括各种可能的遮挡和光照)的行人车辆数据库是必要的。其次是对数据库图像的预处理。实施例对数据库的预处理过程除了常见的去均值、归一化操作外，还增加了随机裁剪与上下左右翻转操作，这不仅增加了数据库样本的多样性，还能使得深度网络提取到的特征具有平移旋转不变性。

步骤2、对数据库样本进行标签标注。

步骤3、利用样本对深度网络进行训练，得到是滤波器参数。

步骤4、检测步骤：

4-1)对检测图像进行预处理；

4-2)采用深度网络对检测图像进行特征提取，在固定特征谱上生成固定尺寸候选框的方案来减少参数量，考虑到行人车辆通常是非方形比例(前者为纵向，后者为横向)，因此对于行人、自行车、汽车、摩托车4类目标选取4种宽高比的目标框：1:2、2:1、1:3、3:1；

通过计算深度网络损失来判断对候选框的内容进行目标检测。实施例采用类别损失和定位损失来计算深度网络损失L。虑到类别损失和定位损失在实际工作中的重要性不一样，设置权重参数a，实施例暂时设置为1。

其中，x为分类类别，c为标签，N为匹配上的候选框的个数；a为权重参数；g代表真实框ground truth；l代表候选框；L_loc为候选框与ground truth之间的损失；L_conf为分类类别与标签之间的损失。

类别损失和定位损失都是采用将多分辨率特征谱进行融合的思想，先选取四张分辨率不同的特征谱，然后将其归一化，接着通过滤波器卷积得到每个候选框对不同类检测对象(背景、行人、自行车、汽车、摩托车)的五个打分值以及每个位置候选框的四个偏移值t_x,t_y,t_w,t_h(分别是对中心点坐标的横、纵坐标以及框的宽、高的偏移值)。

分类损失是通过将预测的类别与事先标注的类别进行损失计算得到。

定位损失是通过对候选框与事先标注的真实框进行损失计算得到的。候选框的中心点坐标及长宽通过对候选框进行如下处理得到：

b_x＝t_x*prior_w+prior_x；

b_y＝t_y*prior_h+prior_x；

b_w＝exp(t_w)*prior_w；

b_h＝exp(t_h)*prior_h；

其中，b_x、b_y为候选框中心点的横、纵坐标，b_w、b_h为候选框的宽和高；prior_x、prior_x为候选框中心点的横、纵坐标，prior_w、prior_h为候选框的宽和高，t_x,t_y,t_w,t_h为候选框的四个偏移值。

Claims

1.一种基于轻量级深度网络的行人车辆实时检测方法，其特征在于，包括以下步骤：

1)对检测图像进行预处理；

特征谱融合方式为：

3)基于深度网络提取的特征完成对检测图像的目标检测。