CN106570564A

CN106570564A - 基于深度网络的多尺度行人检测方法

Info

Publication number: CN106570564A
Application number: CN201610954990.1A
Authority: CN
Inventors: 庞彦伟; 尚楚博
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-04-19
Anticipated expiration: 2036-11-03
Also published as: CN106570564B

Abstract

本发明涉及一种基于深度网络的多尺度行人检测方法，包括下列步骤：搭建Caffe深度学习框架，使用ImageNet数据库训练好的VGG模型；构造大，中，小尺度的三列卷积神经网络，三列并联网络最后的特征通道大小相同，数目不同，尺度越大，数目越多，以使得各列卷积网络所学习到的特征能适应于不同尺度的行人；利用Caltech行人数据库对三列卷积神经网络进行微调；调整不同尺度并联网络的深度，尺度越大所对应的网络深度越深；利用Caltech行人数据库对深浅网络进行微调。本发明能充分挖掘图像中不同尺度行人的特征，增强大尺度行人和低尺度行人的特征区分力，从而显著的提高行人检测性能。

Description

基于深度网络的多尺度行人检测方法

技术领域

本发明涉及人工智能、模式识别、计算机视觉等领域中的行人检测方法，具体而言，特别是采用深度学习模型进行行人检测的方法。

背景技术

行人检测是计算机视觉研究领域的一个重要部分，在视频监控、智能交通以及人机交互等领域具有十分重要的应用价值。近年来，基于计算机硬件设备的快速发展，工业界对行人检测的性能提出了更加苛刻的要求。

由于行人具有刚性物体和非刚性物体的特性，如行人拍摄角度的多变性，光照以及遮挡等因素的存在，行人的漏检以及误检一直是影响行人检测性能的关键问题。因此，近年来，科研人员在行人特征设计方面开展了大量工作，以增大行人样本和非行人样本之间的特征差异，从而提高行人检测率，降低误检率。在当前行人检测方法中，主要可以分为两类方法：1.决策森林(ChnFtrs[1],InformedHarr[2],NNNF[3]等)。2.基于深度网络的方法(ConvNet[4],DeepParts[5],CompACT-Deep[6]等)。

基于决策树的行人检测方法主要采用手工设计的特征。2009年，Dollar提出积分通道[4]的方法，该方法通过线性变换和非线性变换计算输入图像的多个通道(HOG[7]，GradientMagnitude，LUV)，然后利用积分图像计算其局部特征。这种方法的优点是能够自然的整合异构信息源且参数较少，检测过程中空间定位精确度高。在此基础上，国内外学者利用行人的众多先验特征，设计了丰富的行人特征，从而很大程度提高了行人检测的性能。然而，手工设计的特征在表达能力上仍存在很强的局限性。

如今，大量训练数据的出现和计算机运算能力的提升，促进了深度网络结构在不同计算机视觉任务的成功，如大尺度分类和检测，其中典型方法有卷积神经网络。其中，在物体检测领域中使用最为广泛的模型如R-CNN[8]系列，它主要的方法是：1)候选框提取。采用selective-search方法从图像中提取候选区域；2)特征提取。通过卷积神经网络提取候选区域的特征；3)利用分类器进行判定。在三个步骤中，特征提取起到最为关键的作用，它利用卷积网络模拟出高维的函数来计算特征，这是手工设计的特征无法实现的。因此，卷积神经网络所学习的特征对图像本质的表达能力有了显著的提高。在R-CNN[8]后，Fast-RCNN[9],Faster-R-CNN[10]在原始基础上，检测性能和计算速度都有了显著的提高。因此，利用卷积神经网络进行物体检测得到了广泛的关注。这同时也促进了深度网络结构在行人检测上的应用。DeepPart[5]利用深度网络训练出行人多个部分的模型，增强了行人检测的鲁棒性。CompACT-Deep[6]结合传统手工设计特征和深度网络，使行人检测的性能得到了显著提高。

尽管如此，行人检测依然存在很多未被解决的问题。如在检测图像中，由于图像拍摄角度和透视关系的问题，会存在很多行人角度多变，行人尺度差异性明显的问题。其中，图像中“大人”和“小人”特征差异化过大，“小人”分辨率过低，特征区分力弱，从而导致“小人”漏检的问题，这是当前检测性能提高的瓶颈。即使当前采用深度学习的方法，低分辨率行人漏检的问题依然显著。所以，有效的解决低分辨行人检测的问题，是充分提高行人检测性能的关键。

当前，采用深度网络进行行人检测的方法主要采用单一网络，固定网络深度，虽然该类方法在检测性能上有了显著提高，但是该类方法并没有很好的区分不同尺度行人的检测问题，因此该类方法对于多分辨率行人检测的效果并不显著。主要存在以下问题：

1)网络单一，没有区分对待不同尺度的行人，致使学习出的特征的更倾向于大分辨率行人，从而致使低分辨率的“小人”漏检。

2)网络深度固定。由于不同尺度的行人的特征表达能力不同，深度网络能有效的学习高分辨行人的特征，但会存在很大概率使表达低分辨率行人的特征出现过拟合情况，失去局部表达能力。

参考文献：

[1]P.Dollar,Z.Tu,P.Perona,and S.Belongie,“Integral channel features,”in Proc.Brit.Mach.

Vis.Conf.,2009.

[2]S.Zhang,C.Bauckhage,and A.B.Cremers,“Informed Haar-likefeaturesimprove pedestrian detection,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2014.

[3]Jiale Cao,Yanwei Pang,and Xuelong Li,“Pedestrian detectioninspiredby appearance constancy and shape symmetry,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2016.

[4]Sermanet,P.,Kavukcuoglu,K.,Chintala,S.,LeCun,Y.“Pedestriandetection withunsupervised multi-stage feature learning.”in Proc.IEEEIntl.Conf.Comput.Vis.,2013.

[5]Y.Tian,P.Luo,X.Wang,and X.Tang,“Deep learning strong partsforpedestrian detection,”in Proc.IEEE Intl.Conf.Comput.Vis.,2015.

[6]Z.Cai,M.Saberian,and N.Vasconcelos,“Learning complexity-awarecascades for deep pedestrian detection,”arXiv preprint arXiv:1507.05348,2015.

[7]Dalal,N.,Triggs,B.“Histograms of oriented gradients for humandetection.”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2005.

[8]R.Girshick,J.Donahue,T.Darrell,and J.Malik.Rich featurehierarchiesfor accurate object detection and semanticsegmentation.In CVPR,2014.

[9]Girshick R.Fast R-CNN[C].ICCV,2015.

[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks.NIPS,2015

发明内容

本发明的目的是提供一种能够提高行人检测性能的多尺度检测方法。本发明可以本发明针对不同尺度行人，提高深度网络所学特征的区分性和有效性，从而进一步提高行人检测的性能。技术方案如下：

一种基于深度网络的多尺度行人检测方法，包括下列步骤：

步骤1：搭建Caffe深度学习框架，使用ImageNet数据库训练好的VGG模型；

步骤2：构造大，中，小尺度的三列卷积神经网络，三列并联网络最后的特征通道大小相同，数目不同，尺度越大，数目越多，三列卷积神经网络分别对应不同尺寸感受野的滤波器，以使得各列卷积网络所学习到的特征能适应于不同尺度的行人；

步骤3：利用Caltech行人数据库对三列卷积神经网络进行微调；

步骤4：调整不同尺度并联网络的深度，尺度越大所对应的网络深度越深，尺度越小对应的网络深度越浅；

步骤5：利用Caltech行人数据库对深浅网络进行微调，训练好用于行人检测的三列卷积神经网络。

采用本发明所述方法，能充分挖掘图像中不同尺度行人的特征，增强大尺度行人和低尺度行人的特征区分力，从而显著的提高行人检测性能。

附图说明

图1是多列卷积神经网络模型示意图。

图2是合并深、浅网络的模型示意图。

具体实施方式

1.多列卷积神经网络

由于透视现象，图像中会含有不同大小的行人，因此，具有相同大小感受野的滤波器不可能捕捉到不同尺度行人的特性。因此，采用不同大小的局部感受野可以更好的捕捉到不同尺度行人的特征。因此，本专利提出了一种多列的卷积神经网络去学习不同尺度行人的特征。在本专利提出的多列卷积神经网络中，对于每一列网络，都采用不同大小尺寸的滤波模板去生成滤波通道。其中，具有较大感受野的滤波器对于获取大尺度行人更加有效，较小感受野的滤波器对于获取小尺度行人更加有帮助。

本专利采用三列卷积神经网络，三列卷积神经网络分别对应不同尺寸感受野的滤波器(大，中，小)，以至于每列卷积网络所学习到的特征能适应于不同尺度的行人。虽然，三列不同的卷积神经网络具有不同尺度的感受野，但是三层网络最后的特征通道的长宽比是相同的，只是每一列最后的特征图的数量是不同的。此外，本专利采用1×1的滤波器取代了全连接层。因此，为了避免形变，本专利的模型可以输入任意大小的图像。

2.合并深，浅网络

卷积神经网络的深度是影响性能的关键因素。一般而言，较深的网络能较好的表达高维函数，能充分挖掘图像的特点，增强特征的区分力。然而，并非网络的深度越深越好，卷积神经网络深度过深不仅会提高模型的复杂度，降低检测效率，而且会带来过拟合的情况。对于行人检测而言，由于透视现象的存在，图像会存在不同尺度的行人，对于大尺度行人，较深的网络能充分挖掘大尺度行人的信息，增强特征区分力。但是对于小尺度行人而言，“小人”存在分辨率低，特征区分力小的问题，如果采用很深的网络去学习特征，特征会倾向于“大人”，容易产生过拟合表达的问题。

因此，针对以上问题，本专利提出了一种有效的解决措施，即并行的结合深、浅网络共同学习。这样的结合不仅能有效的区分学习“大人”和“小人”的特征，而且能更好的捕捉到高阶的显著性信息，同时也不会忽略低阶的局部性特征。深度固定的深度网络往往忽略了低阶的局部性特征，而这部分特征是对图像表达起到非常重要的作用。

具体步骤如下：

步骤3：利用Caltech行人数据库对三列卷积神经网络进行fine-tune(微调)；

步骤5：利用Caltech行人数据库对深浅网络进行fine-tune(微调)。

Claims

1.一种基于深度网络的多尺度行人检测方法，包括下列步骤：

步骤1：搭建Caffe深度学习框架，使用ImageNet数据库训练好的VGG模型。