CN106203506A

CN106203506A - 一种基于深度学习技术的行人检测方法

Info

Publication number: CN106203506A
Application number: CN201610541223.8A
Authority: CN
Inventors: 张祝平; 张�成; 徐平平; 戴磊
Original assignee: Airlink Technologies Ltd
Current assignee: Airlink Technologies Ltd
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2016-12-07
Anticipated expiration: 2036-07-11
Also published as: CN106203506B

Abstract

本发明公开了一种基于深度学习技术的行人检测方法，首先基于迁移学习采用“逐步迁移”的策略训练一个二分类模型来初始化最终模型参数；然后采用当前非常流行高效的Faster RCNN框架并加以改进来完成行人检测工作，其基于CNN特征，不仅可以处理任意尺度的图像，而且检测速度快。相比已公开发明专利，本发明所公开的方法并不需要对网络进行特殊的设计，充分利用了已有的可用数据，采用通用的网络结构依旧可以达到不错的实验效果，充分发挥了深度卷积网络的优势，具有设计简单，鲁棒性较佳，检测准确率高，漏检率低的优点。

Description

一种基于深度学习技术的行人检测方法

技术领域

本发明涉及一种基于深度学习技术的行人检测方法，属于图像处理与计算机视觉技术领域。

背景技术

随着科技的进步与发展，我们的生活方式也在慢慢的改变，很多以前需要耗费大量人力才能完成的任务，现在可以交给计算机去完成。近年来，由于互联网技术、通信技术、物联网技术的高速发展，产生了大量了视频图像信息，这些海量的信息里面蕴含着巨大的信息量和商业价值。

人类感知世界的一个重要来源就是通过视觉信息，研究表明，人类获取外界信息中大约有80％～90％的信息来自于人类眼睛获取的视觉信息。人类对外界图像信息感知能力很高，可以快速地分析所感知到的信息，准确定位目标和分析目标。目标检测是计算机视觉领域一个里面非常重要的研究热点与方向，涉及了图像处理、机器学习、模式识别等多个学科，它的最终标是模拟人的视觉能力，使得计算机可以像人类一样能够快速并且准确地分析视觉信息。一旦计算机具备类似人类强大的目标检测盒感知能力，就可以更好的在各行业替代人力工作，大大节约生产成本。因此，对计算机视觉中的目标检测技术进行深入研究，不断提高检测的准确率和鲁棒性，具有重要的现实意义。

而行人检测作为目标检测领域内的一个具体应用，它可以定义为：给定输入图像或者视频帧，判断输入中是否包含行人，如果有，则给出具体的位置。他是行人跟踪，车辆辅助驾驶，智能视频监控以及人体行为分析应用中的第一步，因此具有重要的意义。可见，行人检测在智能视频监控，智能机器人，以及车辆辅助驾驶等领域具有广阔的应用前景和研究意义。

目前常用的行人检测方法包括：背景差法、帧差法、光流法、模板匹配法和基于机器学习的方法等。前述四种方法都是基于图像处理技术的人体检测方法，然而这些方法在面对人体衣着、体形、人体姿势、人体遮挡、光照问题以及复杂背景等方面问题的问题时，所体现出来的准确率和鲁棒性很差。基于机器学习的方法从训练样本学习人体的规律，得到模型，然后在测试集上进行测试。如果能够合理地选择数据和特征，加以合理的算法来进行训练，可以较好地克服诸如人体多样性、光照、背景多样性等问题，已成为现今行人检测的一种主流算法。

基于机器学习的方法一般包括特征提取，分类器训练和检测三个部分。在行人检测领域最常用的特征为梯度方向直方图(Histogram of oriented gradient,HOG)。HOG描述器最重要的思想是：在一副图像中，局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。HOG描述子是在一个网格密集的大小统一的细胞单元上计算，而且为了提高性能，还采用了重叠的局部对比度归一化技术。HOG特征结合支持向量机(SupportVector Machine,SVM)在行人检测的应用上确实取得了不错的效果。然而，HOG这一手工特征，对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。而且这种类似HOG的手工特征设计需要设计者具有优秀的视觉研究能力和丰富的研究经验。回顾近十年目标检测的研究进程，可以发现，所提出的模型和算法都是基于特征的人工设计，而且进展非常缓慢。

CN104715238A公开了一种基于多特征融合的行人检测方法，该方法包括如下步骤:(1)对获取的深度图像进行降噪处理；(2)利用深度阈值实现感兴趣区域检测；(3)在获取HOG一LBP联合特征的基础上；(4)利用分类器实现目标检测。该方法主要用了特征融合的策略，然而，这种视觉底层特征易受光照、行人姿势、尺度、拍摄角度等各种因素的影响，并不稳健。

近些年来，随着科学技术的发展，深度学习已然成为计算机视觉领域最热门的研究方向之一。2006年，机器学习领域的泰斗，加拿大多伦多大学教授Geoffrey Hinton在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。2012年，Hinton的学生Krizhevsky利用卷积神经网络(Convolutional Neural Networks,CNN)在2012年国际大规模视觉识别大赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中将分类任务的top-5错误率降到了15.35％，而采用传统方法的只有26.2％，这足以说明深度学习提取的特征远远超过传统方法提取的特征。对于图像识别任务以及诸如检测、分割等其他任务，各研究团队在后续的研究中也取得了非常不错的成绩。所以，就目前的形势来看，将深度学习和行人检测结合在一起已成为一种趋势，并且具有非常广阔的研究意义和应用前景。

CN104166861A公开了一种行人检测算法，包括：(1)准备正负样本集；(2)对样本集预处理并归一化为统一尺寸；(3)设计深度卷积神经网络，进行训练；(4)对视频进行自适应背景建模，获取每一帧中运动目标的信息，产生候选区域；(5)将每个候选区域输入到卷积网络中，判断是否有行人存在。该方法的也有明显的不足：(1)需要将图像预先归一化到特定的大小，如此，就忽略了输入图像的长高比(aspect ratio)和尺度(scale)，而当将此方法所获得的模型用于任意大小尺寸的图像时，往往需要将原始图像进行裁剪或者做一些几何变换，这样会因为大量有用信息的丢失或者几何畸变的引入，从而影响到模型的准确率和鲁棒性；(2)该方法所采用的神经网络结构非常简单，并不能很好地挖掘数据中所包含的信息。

CN105335716A公开了一种基于改进UDN提取联合特征的行人检测方法，其能够有效降低行人检测的平均漏检率。该方法包括步骤：(1)图像预处理：对原始输入图像中的人体的整体特征和头部特征进行不同的预处理；(2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征；(3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征；(4)对步骤(2)和(3)输出的类别概率进行加权平均得到最终概率值，根据最终概率值判断原始输入图像是否包含行人。该方法主要用了模型融合的策略，模型融合可以避免单一模型在预测结果上的误差，综合多个模型来进行判定。然而，该方法也存在着一些不足：(1)需要对原始图像进行预先裁剪，不仅耗费劳动力，而且一些有用的信息也无法利用；(2)需要对原始图像进行特殊的预处理，过程也比较复杂；(3)在数据方面也比较有限单一，也仅仅利用了一个数据库(比如Caltech,ETH)，没有综合利用可用的数据；(4)网络虽然经过特殊设计(比如部件、遮挡设计)，但总体上不够深，难以挖掘数据的深层信息，也没有发挥CNN特征鲁棒性强、适用性广等特点。

缩略语和关键术语定义

BP Backward Propagation 后向传播算法

CNN Convolutional Neural Networks 卷积神经网络

FRCN Fast Region-Based Convolutional Neural Networks 快速区域卷积神经网络

HOG Histogram of oriented gradient 梯度方向直方图

ILSVRC ImageNet Large Scale Visual Recognition Challenge 国际大规模视觉识别大赛

RPN Region Proposal Networks 候选窗口网络

SVM upport Vector Machine 支持向量机

发明内容

发明目的：本发明针对现有行人检测方法的不足加以改进，提供了一种基于深度学习技术的行人检测方法，以提高行人检测方法的准确率和鲁棒性。

技术方案：一种基于深度学习技术的行人检测方法，提供了训练阶段和测试阶段。其中最重要的是训练阶段，也是本发明的重点。至于测试阶段，只需要将待测图像输入训练所得的模型，即可得到结果，这是一个端到端的过程，所以这里就不再赘述。

所述的训练阶段主要包括以下两个步骤：

S1、模型初始化步骤；

S2、模型训练步骤；

S1所述的模型初始化步骤是基于迁移学习采用“逐步迁移”的策略微调(fine-tuning)实现。所谓“微调”就是利用已经训练好的模型来初始化目标网络的参数，在此基础上继续训练，其目的是为了得到一个不错的神经网络初始值。“逐步迁移”的策略，其包含如下子步骤：

S11、准备数据，针对INRIA和ETH数据库，进行诸如翻转、旋转等数据增强操作来扩充数据集；

S12、利用已有的ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调，得到新的分类模型；

S13、利用在步骤S12中所获得分类模型，在Caltech数据库上进行微调，得到一个新的分类模型。

S2所述的模型训练步骤是基于改进的Faster RCNN框架实现，其包含如下子步骤：

S21、准备数据集，考虑到Catlech行人数据是全标注的视频同时正负样本的分布不均衡性质，本发明主要利用过采样来扩充数据集；

S22、修改网络结构，整个网络包括候选窗口网络(Region Proposal Networks,RPN)和快速区域卷积神经网络(Fast Region-Based Convolutional Neural Networks,FRCN)，并利用“交叉优化”策略来训练完成；

S22中所述的“交叉优化”策略训练方式包括以下子步骤：

S221、利用步骤S13中得到的分类模型初始化RPN网络进行微调(微调RPN的所有网络层)，来完成候选窗口提取的任务，从而得到初始的RPN模型；

S222、利用步骤S13中得到的分类模型初始化区域卷积网络FRCN进行微调(微调FRCN的所有网络层)，同时利用步骤S221中所得到的RPN模型所生成的候选窗口来完成检测的任务，从而得到初始的FRCN模型；

S223、利用步骤S222得到的FRCN模型来初始化RPN网络进行微调(固定前面的卷积层，仅微调RPN所特有的网络层)，得到一个新的RPN模型；

S224、继续微调FRCN模型，但是需要固定前面的卷积层，仅微调FRCN模型所特有的网络层，得到一个新的FRCN模型。

至此，本发明所提供的一种基于深度学习技术的行人检测方法的训练阶段完成。

有益效果：本发明提供的基于深度学习技术的行人检测方法首先基于迁移学习采用“逐步迁移”的策略训练一个二分类模型来初始化最终模型参数；然后采用当前非常流行高效的Faster RCNN框架并加以改进来完成行人检测工作，其基于CNN特征，不仅可以处理任意尺度的图像，而且检测速度快。相比已公开发明专利，本发明所公开的方法并不需要对网络进行特殊的设计，充分利用了已有的可用数据，采用通用的网络结构依旧可以达到不错的实验效果，充分发挥了深度卷积网络的优势，具有设计简单，鲁棒性较佳，检测准确率高，漏检率低的优点。

附图说明

图1为本发明所公开的一种基于深度学习技术的行人检测方法整体流程图；

图2为本发明步骤S1所述的逐步迁移策略示意图；

图3为本发明步骤S2所述的改进的Faster RCNN训练框架示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明基于深度学习的开源工具Caffe实现。

如图1所示，本发明所公开的一种基于深度学习技术的行人检测算法包含训练和测试两个阶段，前两步为训练阶段，最后一步为测试阶段。其中最重要的是训练阶段，也是本发明的重点。至于测试阶段，只需要将待测图像输入给训练所得的模型，即可得到结果，这是一个端到端的过程，所以这里就不再赘述。下面着重对训练阶段进行说明。

如图1所示，步骤S1所述的模型初始化是基于迁移学习实现。所述的基于迁移学习的模型初始化方法主要是为了得到一个良好的网络初始化值，网络参数的初始化非常重要，一个好的初始化不仅可以避免网络在后续的训练中陷入不好的局部最小值，同时能够加速网络的收敛。当我们在用一个深度模型来进行学习特征时，底层的特征是具有通用性的，如果将底层特征可视化出来，会发现底层特征多是一些边、角之类的基础几何形状。当前，微调已成为深度学习中常用的技巧，但是很多都是直接从ImageNet直接微调到特定的目标数据集，比如行人数据集。一方面，通过调研已公开专利发现，之前的绝大多数的基于深度学习的行人检测方法都没有考虑到有监督预训练；另一方面，如上所述，目前很多关于迁移学习的实践都是从ImageNet直接迁移到目标数据集，考虑到目标数据集和原数据集数据分布的差异比较大，所以本发明采用“逐步迁移”的策略来进行微调。由于基于深度学习的开源工具Caffe实现，在利用已经训练好的模型来初始化目标网络时，只需保持目标网络的希望被初始化的网络层的名字与已训练的网络的网络层名字相同即可。所以，所述的基于迁移学习的模型初始化方法包含以下步骤：

S11、准备数据，针对INRIA和ETH数据库，INRIA数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件，ETH基于双目视觉的行人数据库，用于多人的行人检测与跟踪研究。这两个数据库的图像数据的场景相而言比较丰富，可以在“逐步迁移”策略中当作过渡数据集来使用。一方面，考虑到这两个数据库中图像的场景多样性，所以可以将两者混合得到一个新的数据集；另一方面，考虑到这两个数据库数据的有限性，为了避免网络过拟合，需要对图像进行诸如翻转、旋转等数据增强(Data Augmentation)操作来扩充数据集。同时，需要对增强过的数据进行标注，对于包含行人的图像，将其视为正样本，标注为1，反之为负样本，标注为0。

S12、利用已有的ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调，得到新的分类模型。如图2所示，从ImageNet的自然图像过渡到INRIA和ETH的行人图像。本发明采用的ImageNet模型为ZF-Net作为原网络，只需修改最后的全连接层的名字为“fc-ped”并将输出个数修改为2，网络的优化超参数(比如base_lr等)基本保持与ZF-Net相同，只做了一些小的修改，例如初始学习率base_lr设为0.0005。如此，Caffe会根据网络层的名字来初始目标网络，如果目标网络网络层的名字与原网络(ZF-Net)的网络层不同，则Caffe会对该网络层的参数进行随机初始化。同时需要减小具有相同名字的网络层的lr_mul至0.5，增大名字不相同的网络层的lr_mul增大至1.5，以加速新层的学习速度，其中lr_mul是一个学习率乘子，lr_mul*base_lr为该网络层参数的实际学习率。

S13、利用在步骤S12中所获得分类模型，在Caltech数据库上进行微调，得到一个新的分类模型。Caltech数据库目前规模最大的行人数据库，采用车载摄像头拍摄，但其场景比较单一，所以在本发明中将其作为“迁移策略”中的目标数据集。如图2所示，这里，从INRIA和ETH的具有丰富场景行人图像过渡到Caltech的交通街道行人图像。因为步骤S12中所获得分类模型已经是一个二分类模型，所以，这里不需要对优化的参数做修改，直接微调即可。

如图1所示，步骤S2所示的模型训练是基于改进的Faster RCNN框架来实现。Faster RCNN是当前目标检测领域最热门的方法之一。Faster RCNN具有以下优点：(1)采用多任务的损失函数，使得训练是一个端到端的过程；(2)训练过程中，利用后向传播算法(Backward Propagation,BP)可以更新所有网络层的参数；(3)可以处理任意尺度的图像；(4)精心设计的RPN网络能够实现候选窗口提取过程与检测过程之间的特征共享，大大减少了候选窗口提取所需的时间，克服了候选窗口提取与检测之间时间成本相差巨大的不足，从而在整体上缩短了检测所需的时间。步骤S2中所述的基于改进的Faster RCNN模型训练方法包含以下子步骤：

S21、准备数据集，考虑到Catlech行人数据是全标注的视频同时正负样本的分布不均衡性质，本发明主要利用过采样来扩充数据集；本发明通过每5帧抽取一帧的速率来对Catlech行人数据进行过采样，同时对其中的正样本进行复制来增加正样本的数量，以改善数据分布不均衡的情况。

S22、修改网络结构，整个网络包括候选窗口网络(Region Proposal Networks,RPN)和快速区域卷积神经网络(Fast Region-Based Convolutional Neural Networks,FRCN)，并利用“交叉优化”策略来训练完成，网络的修改主要包括：(1)修改RPN中锚点(Anchors)的个数以及对应的长宽比(Aspect Ratio)度(Scale)，考虑到行人的候选窗口一般为矩形，所以本发明中仅使用一个长宽比(1:2)，尺度方面不做改变，所以，对应地，卷积层rpn_conv1在每一个位置都会产生3个anchors。(2)即使本发明对数据做了扩充，但仍然容易过拟合，为了进一步避免过拟合，考虑到将全连接层(Full Connected Layer)包含大量的参数，是过拟合的原因之一，所以，将全连接层修改为卷积层(Convolution Layer)，同时将全连接层修改为卷积层可以提高识别的精度。如图3所示，图3的下半部分中，本发明将原有的全连接层修改为卷积层，第一个卷积层pool_conv6的卷积核大小为1×1，卷积核的个数为4096；第二个卷积层cls_score的卷积核的大小为1×1，卷积核的个数为2；第三个卷积层bbox_pred的卷积核大小为1×1，卷积核的个数为8。需要注意的是，图3中所述的所有的损失(cls_loss,bbox_loss,Total Loss)均为标量，图中所示只是为了美观。

S22中所述的“交叉优化”策略训练方式包括以下子步骤：

S222、利用步骤S13中得到的分类模型初始化区域卷积网络FRCN进行微调(微调FRCN的所有网络层)，同时利用步骤S221中所得到的RPN模型所生成的候选窗口来完成检测的任务，从而得到初始的FRCN模型。至此为止，RPN和FRCN都是独立训练，两者之间并没有进行特征共享；需要注意的是，图3中，省略了RPN和FRCN所共享网络层，这些网络层与ZF-Net完全一致，所以没有绘出。

S223、利用步骤S222得到的FRCN模型来初始化RPN网络进行微调(固定前面的卷积层，仅微调RPN所特有的网络层)，得到一个新的RPN模型。如此，RPN和FRCN之间共享卷积特征；

本发明公开的方法在Caltech行人数据库上进行测试，并与CN105335716A中提及的方法进行对比，为表述方便，将CN105335716A所公开的方法命名为UDN+，对比结果如表1所示。

表1本发明与其他基于深度学习的方法的对比

ConvNet

DBN-ISOL

DBN-Mut

SDN

UDN

UDN+

Ours

77.20％

53.29％

48.22％

37.87％

39.32％

38.51％

33.42％

评价指标为log-average-miss-rate。表中，ConvNet网络包含3个卷积层，并将第二层卷积下采样后获得的特征与第三次卷积得到特征进行融合，最后通过全连接实现行人检测。在训练方法上使用无监督卷积稀疏自编码方法预训练网络参数结合端到端的有监督方法进行微调；DBN-ISOL是首先提出Part Detection的网络结构，对人体各个部分设置不同大小的卷积模板，对存在遮挡情况的行人检测有很好的检测效果；DBN-Mut是在DBN-ISOL的基础上提出的基于相互可见性的深度学习网络，用来解决行人检测时一个行人被另一个行人部分遮挡的情况，利用两个行人的共同可见的部分和每个行人的各个部分之间的关系，提高存在遮挡的行人的遮挡部分的可视化得分；SDN在传统CNN之上引入一个可切换的RBM层，对行人图像分别提取三类局部特征，融合三类局部特征与整体特征给出最终识别结果；UDN是利用CNN、Part Detection、Deformation model和Visibility reasoning构建的网络结构，联合CNN和DBN共同进行行人检测；UDN+主要是在UDN的基础之上，再定义一个网络并用人体的头部躯干信息数据(也就是行人上1/3的区域)来训练网络。训练从表中可以看出本发明公布的方法在漏检率方面有较大幅度的降低。

综上所述，本发明公开了一种基于深度学习技术的行人检测方法，主要阐述了训练的方法。首先基于迁移学习采用“逐步迁移”的策略，通过微调来获得模型参数的一个不错的初始值，避免陷入不良的局部最小值，同时加速网络的收敛。然后，基于改进的FasterRCNN框架来训练，其基于CNN特征，不仅可以处理任意尺度的图像，而且检测速度快，所做的改进主要考虑了应用场景、数据分布情况、防止过拟合等。同时，本发明所公开的方法并不需要对网络进行特殊的设计，充分利用了已有的可用数据，采用通用的网络结构依旧可以达到不错的实验效果，充分发挥了深度卷积网络的优势，具有设计简单，鲁棒性较佳，检测准确率高，漏检率低的优点。

Claims

1.一种基于深度学习技术的行人检测方法，其特征在于，包括训练阶段和测试阶段；测试阶段，只需要将待测图像输入训练所得的模型，即可得到结果；

所述的训练阶段主要包括以下两个步骤：

S1、模型初始化步骤；

S2、模型训练步骤；

S1所述的模型初始化步骤是基于迁移学习采用“逐步迁移”的策略微调(fine-tuning)实现；

S2所述的模型训练步骤是基于改进的Faster RCNN框架实现。

2.如权利要求1所述的基于深度学习技术的行人检测方法，其特征在于，“逐步迁移”的策略，其包含如下子步骤：

S11、准备数据，针对INRIA和ETH数据库，进行数据增强操作来扩充数据集；

S12、利用ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调，得到新的分类模型；

3.如权利要求1所述的基于深度学习技术的行人检测方法，其特征在于，基于改进的Faster RCNN框架包含如下子步骤：

S22中所述的“交叉优化”策略训练方式包括以下子步骤：