CN106203506A - 一种基于深度学习技术的行人检测方法 - Google Patents

一种基于深度学习技术的行人检测方法 Download PDF

Info

Publication number
CN106203506A
CN106203506A CN201610541223.8A CN201610541223A CN106203506A CN 106203506 A CN106203506 A CN 106203506A CN 201610541223 A CN201610541223 A CN 201610541223A CN 106203506 A CN106203506 A CN 106203506A
Authority
CN
China
Prior art keywords
model
network
rpn
frcn
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610541223.8A
Other languages
English (en)
Other versions
CN106203506B (zh
Inventor
张祝平
张�成
徐平平
戴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airlink Technologies Ltd
Original Assignee
Airlink Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Airlink Technologies Ltd filed Critical Airlink Technologies Ltd
Priority to CN201610541223.8A priority Critical patent/CN106203506B/zh
Publication of CN106203506A publication Critical patent/CN106203506A/zh
Application granted granted Critical
Publication of CN106203506B publication Critical patent/CN106203506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习技术的行人检测方法,首先基于迁移学习采用“逐步迁移”的策略训练一个二分类模型来初始化最终模型参数;然后采用当前非常流行高效的Faster RCNN框架并加以改进来完成行人检测工作,其基于CNN特征,不仅可以处理任意尺度的图像,而且检测速度快。相比已公开发明专利,本发明所公开的方法并不需要对网络进行特殊的设计,充分利用了已有的可用数据,采用通用的网络结构依旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。

Description

一种基于深度学习技术的行人检测方法
技术领域
本发明涉及一种基于深度学习技术的行人检测方法,属于图像处理与计算机视觉技术领域。
背景技术
随着科技的进步与发展,我们的生活方式也在慢慢的改变,很多以前需要耗费大量人力才能完成的任务,现在可以交给计算机去完成。近年来,由于互联网技术、通信技术、物联网技术的高速发展,产生了大量了视频图像信息,这些海量的信息里面蕴含着巨大的信息量和商业价值。
人类感知世界的一个重要来源就是通过视觉信息,研究表明,人类获取外界信息中大约有80%~90%的信息来自于人类眼睛获取的视觉信息。人类对外界图像信息感知能力很高,可以快速地分析所感知到的信息,准确定位目标和分析目标。目标检测是计算机视觉领域一个里面非常重要的研究热点与方向,涉及了图像处理、机器学习、模式识别等多个学科,它的最终标是模拟人的视觉能力,使得计算机可以像人类一样能够快速并且准确地分析视觉信息。一旦计算机具备类似人类强大的目标检测盒感知能力,就可以更好的在各行业替代人力工作,大大节约生产成本。因此,对计算机视觉中的目标检测技术进行深入研究,不断提高检测的准确率和鲁棒性,具有重要的现实意义。
而行人检测作为目标检测领域内的一个具体应用,它可以定义为:给定输入图像或者视频帧,判断输入中是否包含行人,如果有,则给出具体的位置。他是行人跟踪,车辆辅助驾驶,智能视频监控以及人体行为分析应用中的第一步,因此具有重要的意义。可见,行人检测在智能视频监控,智能机器人,以及车辆辅助驾驶等领域具有广阔的应用前景和研究意义。
目前常用的行人检测方法包括:背景差法、帧差法、光流法、模板匹配法和基于机器学习的方法等。前述四种方法都是基于图像处理技术的人体检测方法,然而这些方法在面对人体衣着、体形、人体姿势、人体遮挡、光照问题以及复杂背景等方面问题的问题时,所体现出来的准确率和鲁棒性很差。基于机器学习的方法从训练样本学习人体的规律,得到模型,然后在测试集上进行测试。如果能够合理地选择数据和特征,加以合理的算法来进行训练,可以较好地克服诸如人体多样性、光照、背景多样性等问题,已成为现今行人检测的一种主流算法。
基于机器学习的方法一般包括特征提取,分类器训练和检测三个部分。在行人检测领域最常用的特征为梯度方向直方图(Histogram of oriented gradient,HOG)。HOG描述器最重要的思想是:在一副图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。HOG描述子是在一个网格密集的大小统一的细胞单元上计算,而且为了提高性能,还采用了重叠的局部对比度归一化技术。HOG特征结合支持向量机(SupportVector Machine,SVM)在行人检测的应用上确实取得了不错的效果。然而,HOG这一手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。而且这种类似HOG的手工特征设计需要设计者具有优秀的视觉研究能力和丰富的研究经验。回顾近十年目标检测的研究进程,可以发现,所提出的模型和算法都是基于特征的人工设计,而且进展非常缓慢。
CN104715238A公开了一种基于多特征融合的行人检测方法,该方法包括如下步骤:(1)对获取的深度图像进行降噪处理;(2)利用深度阈值实现感兴趣区域检测;(3)在获取HOG一LBP联合特征的基础上;(4)利用分类器实现目标检测。该方法主要用了特征融合的策略,然而,这种视觉底层特征易受光照、行人姿势、尺度、拍摄角度等各种因素的影响,并不稳健。
近些年来,随着科学技术的发展,深度学习已然成为计算机视觉领域最热门的研究方向之一。2006年,机器学习领域的泰斗,加拿大多伦多大学教授Geoffrey Hinton在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。2012年,Hinton的学生Krizhevsky利用卷积神经网络(Convolutional Neural Networks,CNN)在2012年国际大规模视觉识别大赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中将分类任务的top-5错误率降到了15.35%,而采用传统方法的只有26.2%,这足以说明深度学习提取的特征远远超过传统方法提取的特征。对于图像识别任务以及诸如检测、分割等其他任务,各研究团队在后续的研究中也取得了非常不错的成绩。所以,就目前的形势来看,将深度学习和行人检测结合在一起已成为一种趋势,并且具有非常广阔的研究意义和应用前景。
CN104166861A公开了一种行人检测算法,包括:(1)准备正负样本集;(2)对样本集预处理并归一化为统一尺寸;(3)设计深度卷积神经网络,进行训练;(4)对视频进行自适应背景建模,获取每一帧中运动目标的信息,产生候选区域;(5)将每个候选区域输入到卷积网络中,判断是否有行人存在。该方法的也有明显的不足:(1)需要将图像预先归一化到特定的大小,如此,就忽略了输入图像的长高比(aspect ratio)和尺度(scale),而当将此方法所获得的模型用于任意大小尺寸的图像时,往往需要将原始图像进行裁剪或者做一些几何变换,这样会因为大量有用信息的丢失或者几何畸变的引入,从而影响到模型的准确率和鲁棒性;(2)该方法所采用的神经网络结构非常简单,并不能很好地挖掘数据中所包含的信息。
CN105335716A公开了一种基于改进UDN提取联合特征的行人检测方法,其能够有效降低行人检测的平均漏检率。该方法包括步骤:(1)图像预处理:对原始输入图像中的人体的整体特征和头部特征进行不同的预处理;(2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征;(3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征;(4)对步骤(2)和(3)输出的类别概率进行加权平均得到最终概率值,根据最终概率值判断原始输入图像是否包含行人。该方法主要用了模型融合的策略,模型融合可以避免单一模型在预测结果上的误差,综合多个模型来进行判定。然而,该方法也存在着一些不足:(1)需要对原始图像进行预先裁剪,不仅耗费劳动力,而且一些有用的信息也无法利用;(2)需要对原始图像进行特殊的预处理,过程也比较复杂;(3)在数据方面也比较有限单一,也仅仅利用了一个数据库(比如Caltech,ETH),没有综合利用可用的数据;(4)网络虽然经过特殊设计(比如部件、遮挡设计),但总体上不够深,难以挖掘数据的深层信息,也没有发挥CNN特征鲁棒性强、适用性广等特点。
缩略语和关键术语定义
BP Backward Propagation 后向传播算法
CNN Convolutional Neural Networks 卷积神经网络
FRCN Fast Region-Based Convolutional Neural Networks 快速区域卷积神经网络
HOG Histogram of oriented gradient 梯度方向直方图
ILSVRC ImageNet Large Scale Visual Recognition Challenge 国际大规模视觉识别大赛
RPN Region Proposal Networks 候选窗口网络
SVM upport Vector Machine 支持向量机
发明内容
发明目的:本发明针对现有行人检测方法的不足加以改进,提供了一种基于深度学习技术的行人检测方法,以提高行人检测方法的准确率和鲁棒性。
技术方案:一种基于深度学习技术的行人检测方法,提供了训练阶段和测试阶段。其中最重要的是训练阶段,也是本发明的重点。至于测试阶段,只需要将待测图像输入训练所得的模型,即可得到结果,这是一个端到端的过程,所以这里就不再赘述。
所述的训练阶段主要包括以下两个步骤:
S1、模型初始化步骤;
S2、模型训练步骤;
S1所述的模型初始化步骤是基于迁移学习采用“逐步迁移”的策略微调(fine-tuning)实现。所谓“微调”就是利用已经训练好的模型来初始化目标网络的参数,在此基础上继续训练,其目的是为了得到一个不错的神经网络初始值。“逐步迁移”的策略,其包含如下子步骤:
S11、准备数据,针对INRIA和ETH数据库,进行诸如翻转、旋转等数据增强操作来扩充数据集;
S12、利用已有的ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调,得到新的分类模型;
S13、利用在步骤S12中所获得分类模型,在Caltech数据库上进行微调,得到一个新的分类模型。
S2所述的模型训练步骤是基于改进的Faster RCNN框架实现,其包含如下子步骤:
S21、准备数据集,考虑到Catlech行人数据是全标注的视频同时正负样本的分布不均衡性质,本发明主要利用过采样来扩充数据集;
S22、修改网络结构,整个网络包括候选窗口网络(Region Proposal Networks,RPN)和快速区域卷积神经网络(Fast Region-Based Convolutional Neural Networks,FRCN),并利用“交叉优化”策略来训练完成;
S22中所述的“交叉优化”策略训练方式包括以下子步骤:
S221、利用步骤S13中得到的分类模型初始化RPN网络进行微调(微调RPN的所有网络层),来完成候选窗口提取的任务,从而得到初始的RPN模型;
S222、利用步骤S13中得到的分类模型初始化区域卷积网络FRCN进行微调(微调FRCN的所有网络层),同时利用步骤S221中所得到的RPN模型所生成的候选窗口来完成检测的任务,从而得到初始的FRCN模型;
S223、利用步骤S222得到的FRCN模型来初始化RPN网络进行微调(固定前面的卷积层,仅微调RPN所特有的网络层),得到一个新的RPN模型;
S224、继续微调FRCN模型,但是需要固定前面的卷积层,仅微调FRCN模型所特有的网络层,得到一个新的FRCN模型。
至此,本发明所提供的一种基于深度学习技术的行人检测方法的训练阶段完成。
有益效果:本发明提供的基于深度学习技术的行人检测方法首先基于迁移学习采用“逐步迁移”的策略训练一个二分类模型来初始化最终模型参数;然后采用当前非常流行高效的Faster RCNN框架并加以改进来完成行人检测工作,其基于CNN特征,不仅可以处理任意尺度的图像,而且检测速度快。相比已公开发明专利,本发明所公开的方法并不需要对网络进行特殊的设计,充分利用了已有的可用数据,采用通用的网络结构依旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。
附图说明
图1为本发明所公开的一种基于深度学习技术的行人检测方法整体流程图;
图2为本发明步骤S1所述的逐步迁移策略示意图;
图3为本发明步骤S2所述的改进的Faster RCNN训练框架示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明基于深度学习的开源工具Caffe实现。
如图1所示,本发明所公开的一种基于深度学习技术的行人检测算法包含训练和测试两个阶段,前两步为训练阶段,最后一步为测试阶段。其中最重要的是训练阶段,也是本发明的重点。至于测试阶段,只需要将待测图像输入给训练所得的模型,即可得到结果,这是一个端到端的过程,所以这里就不再赘述。下面着重对训练阶段进行说明。
如图1所示,步骤S1所述的模型初始化是基于迁移学习实现。所述的基于迁移学习的模型初始化方法主要是为了得到一个良好的网络初始化值,网络参数的初始化非常重要,一个好的初始化不仅可以避免网络在后续的训练中陷入不好的局部最小值,同时能够加速网络的收敛。当我们在用一个深度模型来进行学习特征时,底层的特征是具有通用性的,如果将底层特征可视化出来,会发现底层特征多是一些边、角之类的基础几何形状。当前,微调已成为深度学习中常用的技巧,但是很多都是直接从ImageNet直接微调到特定的目标数据集,比如行人数据集。一方面,通过调研已公开专利发现,之前的绝大多数的基于深度学习的行人检测方法都没有考虑到有监督预训练;另一方面,如上所述,目前很多关于迁移学习的实践都是从ImageNet直接迁移到目标数据集,考虑到目标数据集和原数据集数据分布的差异比较大,所以本发明采用“逐步迁移”的策略来进行微调。由于基于深度学习的开源工具Caffe实现,在利用已经训练好的模型来初始化目标网络时,只需保持目标网络的希望被初始化的网络层的名字与已训练的网络的网络层名字相同即可。所以,所述的基于迁移学习的模型初始化方法包含以下步骤:
S11、准备数据,针对INRIA和ETH数据库,INRIA数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件,ETH基于双目视觉的行人数据库,用于多人的行人检测与跟踪研究。这两个数据库的图像数据的场景相而言比较丰富,可以在“逐步迁移”策略中当作过渡数据集来使用。一方面,考虑到这两个数据库中图像的场景多样性,所以可以将两者混合得到一个新的数据集;另一方面,考虑到这两个数据库数据的有限性,为了避免网络过拟合,需要对图像进行诸如翻转、旋转等数据增强(Data Augmentation)操作来扩充数据集。同时,需要对增强过的数据进行标注,对于包含行人的图像,将其视为正样本,标注为1,反之为负样本,标注为0。
S12、利用已有的ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调,得到新的分类模型。如图2所示,从ImageNet的自然图像过渡到INRIA和ETH的行人图像。本发明采用的ImageNet模型为ZF-Net作为原网络,只需修改最后的全连接层的名字为“fc-ped”并将输出个数修改为2,网络的优化超参数(比如base_lr等)基本保持与ZF-Net相同,只做了一些小的修改,例如初始学习率base_lr设为0.0005。如此,Caffe会根据网络层的名字来初始目标网络,如果目标网络网络层的名字与原网络(ZF-Net)的网络层不同,则Caffe会对该网络层的参数进行随机初始化。同时需要减小具有相同名字的网络层的lr_mul至0.5,增大名字不相同的网络层的lr_mul增大至1.5,以加速新层的学习速度,其中lr_mul是一个学习率乘子,lr_mul*base_lr为该网络层参数的实际学习率。
S13、利用在步骤S12中所获得分类模型,在Caltech数据库上进行微调,得到一个新的分类模型。Caltech数据库目前规模最大的行人数据库,采用车载摄像头拍摄,但其场景比较单一,所以在本发明中将其作为“迁移策略”中的目标数据集。如图2所示,这里,从INRIA和ETH的具有丰富场景行人图像过渡到Caltech的交通街道行人图像。因为步骤S12中所获得分类模型已经是一个二分类模型,所以,这里不需要对优化的参数做修改,直接微调即可。
如图1所示,步骤S2所示的模型训练是基于改进的Faster RCNN框架来实现。Faster RCNN是当前目标检测领域最热门的方法之一。Faster RCNN具有以下优点:(1)采用多任务的损失函数,使得训练是一个端到端的过程;(2)训练过程中,利用后向传播算法(Backward Propagation,BP)可以更新所有网络层的参数;(3)可以处理任意尺度的图像;(4)精心设计的RPN网络能够实现候选窗口提取过程与检测过程之间的特征共享,大大减少了候选窗口提取所需的时间,克服了候选窗口提取与检测之间时间成本相差巨大的不足,从而在整体上缩短了检测所需的时间。步骤S2中所述的基于改进的Faster RCNN模型训练方法包含以下子步骤:
S21、准备数据集,考虑到Catlech行人数据是全标注的视频同时正负样本的分布不均衡性质,本发明主要利用过采样来扩充数据集;本发明通过每5帧抽取一帧的速率来对Catlech行人数据进行过采样,同时对其中的正样本进行复制来增加正样本的数量,以改善数据分布不均衡的情况。
S22、修改网络结构,整个网络包括候选窗口网络(Region Proposal Networks,RPN)和快速区域卷积神经网络(Fast Region-Based Convolutional Neural Networks,FRCN),并利用“交叉优化”策略来训练完成,网络的修改主要包括:(1)修改RPN中锚点(Anchors)的个数以及对应的长宽比(Aspect Ratio)度(Scale),考虑到行人的候选窗口一般为矩形,所以本发明中仅使用一个长宽比(1:2),尺度方面不做改变,所以,对应地,卷积层rpn_conv1在每一个位置都会产生3个anchors。(2)即使本发明对数据做了扩充,但仍然容易过拟合,为了进一步避免过拟合,考虑到将全连接层(Full Connected Layer)包含大量的参数,是过拟合的原因之一,所以,将全连接层修改为卷积层(Convolution Layer),同时将全连接层修改为卷积层可以提高识别的精度。如图3所示,图3的下半部分中,本发明将原有的全连接层修改为卷积层,第一个卷积层pool_conv6的卷积核大小为1×1,卷积核的个数为4096;第二个卷积层cls_score的卷积核的大小为1×1,卷积核的个数为2;第三个卷积层bbox_pred的卷积核大小为1×1,卷积核的个数为8。需要注意的是,图3中所述的所有的损失(cls_loss,bbox_loss,Total Loss)均为标量,图中所示只是为了美观。
S22中所述的“交叉优化”策略训练方式包括以下子步骤:
S221、利用步骤S13中得到的分类模型初始化RPN网络进行微调(微调RPN的所有网络层),来完成候选窗口提取的任务,从而得到初始的RPN模型;
S222、利用步骤S13中得到的分类模型初始化区域卷积网络FRCN进行微调(微调FRCN的所有网络层),同时利用步骤S221中所得到的RPN模型所生成的候选窗口来完成检测的任务,从而得到初始的FRCN模型。至此为止,RPN和FRCN都是独立训练,两者之间并没有进行特征共享;需要注意的是,图3中,省略了RPN和FRCN所共享网络层,这些网络层与ZF-Net完全一致,所以没有绘出。
S223、利用步骤S222得到的FRCN模型来初始化RPN网络进行微调(固定前面的卷积层,仅微调RPN所特有的网络层),得到一个新的RPN模型。如此,RPN和FRCN之间共享卷积特征;
S224、继续微调FRCN模型,但是需要固定前面的卷积层,仅微调FRCN模型所特有的网络层,得到一个新的FRCN模型。
至此,本发明所提供的一种基于深度学习技术的行人检测方法的训练阶段完成。
本发明公开的方法在Caltech行人数据库上进行测试,并与CN105335716A中提及的方法进行对比,为表述方便,将CN105335716A所公开的方法命名为UDN+,对比结果如表1所示。
表1本发明与其他基于深度学习的方法的对比
ConvNet DBN-ISOL DBN-Mut SDN UDN UDN+ Ours
77.20% 53.29% 48.22% 37.87% 39.32% 38.51% 33.42%
评价指标为log-average-miss-rate。表中,ConvNet网络包含3个卷积层,并将第二层卷积下采样后获得的特征与第三次卷积得到特征进行融合,最后通过全连接实现行人检测。在训练方法上使用无监督卷积稀疏自编码方法预训练网络参数结合端到端的有监督方法进行微调;DBN-ISOL是首先提出Part Detection的网络结构,对人体各个部分设置不同大小的卷积模板,对存在遮挡情况的行人检测有很好的检测效果;DBN-Mut是在DBN-ISOL的基础上提出的基于相互可见性的深度学习网络,用来解决行人检测时一个行人被另一个行人部分遮挡的情况,利用两个行人的共同可见的部分和每个行人的各个部分之间的关系,提高存在遮挡的行人的遮挡部分的可视化得分;SDN在传统CNN之上引入一个可切换的RBM层,对行人图像分别提取三类局部特征,融合三类局部特征与整体特征给出最终识别结果;UDN是利用CNN、Part Detection、Deformation model和Visibility reasoning构建的网络结构,联合CNN和DBN共同进行行人检测;UDN+主要是在UDN的基础之上,再定义一个网络并用人体的头部躯干信息数据(也就是行人上1/3的区域)来训练网络。训练从表中可以看出本发明公布的方法在漏检率方面有较大幅度的降低。
综上所述,本发明公开了一种基于深度学习技术的行人检测方法,主要阐述了训练的方法。首先基于迁移学习采用“逐步迁移”的策略,通过微调来获得模型参数的一个不错的初始值,避免陷入不良的局部最小值,同时加速网络的收敛。然后,基于改进的FasterRCNN框架来训练,其基于CNN特征,不仅可以处理任意尺度的图像,而且检测速度快,所做的改进主要考虑了应用场景、数据分布情况、防止过拟合等。同时,本发明所公开的方法并不需要对网络进行特殊的设计,充分利用了已有的可用数据,采用通用的网络结构依旧可以达到不错的实验效果,充分发挥了深度卷积网络的优势,具有设计简单,鲁棒性较佳,检测准确率高,漏检率低的优点。

Claims (3)

1.一种基于深度学习技术的行人检测方法,其特征在于,包括训练阶段和测试阶段;测试阶段,只需要将待测图像输入训练所得的模型,即可得到结果;
所述的训练阶段主要包括以下两个步骤:
S1、模型初始化步骤;
S2、模型训练步骤;
S1所述的模型初始化步骤是基于迁移学习采用“逐步迁移”的策略微调(fine-tuning)实现;
S2所述的模型训练步骤是基于改进的Faster RCNN框架实现。
2.如权利要求1所述的基于深度学习技术的行人检测方法,其特征在于,“逐步迁移”的策略,其包含如下子步骤:
S11、准备数据,针对INRIA和ETH数据库,进行数据增强操作来扩充数据集;
S12、利用ImageNet模型在INRIA和ETH这两个数据库所组成的混合数据集上进行微调,得到新的分类模型;
S13、利用在步骤S12中所获得分类模型,在Caltech数据库上进行微调,得到一个新的分类模型。
3.如权利要求1所述的基于深度学习技术的行人检测方法,其特征在于,基于改进的Faster RCNN框架包含如下子步骤:
S21、准备数据集,考虑到Catlech行人数据是全标注的视频同时正负样本的分布不均衡性质,本发明主要利用过采样来扩充数据集;
S22、修改网络结构,整个网络包括候选窗口网络(Region Proposal Networks,RPN)和快速区域卷积神经网络(Fast Region-Based Convolutional Neural Networks,FRCN),并利用“交叉优化”策略来训练完成;
S22中所述的“交叉优化”策略训练方式包括以下子步骤:
S221、利用步骤S13中得到的分类模型初始化RPN网络进行微调(微调RPN的所有网络层),来完成候选窗口提取的任务,从而得到初始的RPN模型;
S222、利用步骤S13中得到的分类模型初始化区域卷积网络FRCN进行微调(微调FRCN的所有网络层),同时利用步骤S221中所得到的RPN模型所生成的候选窗口来完成检测的任务,从而得到初始的FRCN模型;
S223、利用步骤S222得到的FRCN模型来初始化RPN网络进行微调(固定前面的卷积层,仅微调RPN所特有的网络层),得到一个新的RPN模型;
S224、继续微调FRCN模型,但是需要固定前面的卷积层,仅微调FRCN模型所特有的网络层,得到一个新的FRCN模型。
CN201610541223.8A 2016-07-11 2016-07-11 一种基于深度学习技术的行人检测方法 Active CN106203506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610541223.8A CN106203506B (zh) 2016-07-11 2016-07-11 一种基于深度学习技术的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610541223.8A CN106203506B (zh) 2016-07-11 2016-07-11 一种基于深度学习技术的行人检测方法

Publications (2)

Publication Number Publication Date
CN106203506A true CN106203506A (zh) 2016-12-07
CN106203506B CN106203506B (zh) 2019-06-21

Family

ID=57474078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610541223.8A Active CN106203506B (zh) 2016-07-11 2016-07-11 一种基于深度学习技术的行人检测方法

Country Status (1)

Country Link
CN (1) CN106203506B (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228124A (zh) * 2016-07-17 2016-12-14 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN106647758A (zh) * 2016-12-27 2017-05-10 深圳市盛世智能装备有限公司 一种目标物体检测方法、装置及自动引导车的跟随方法
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106709441A (zh) * 2016-12-16 2017-05-24 北京工业大学 一种基于卷积定理的人脸验证加速方法
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置
CN106897673A (zh) * 2017-01-20 2017-06-27 南京邮电大学 一种基于retinex算法和卷积神经网络的行人再识别方法
CN106910188A (zh) * 2017-02-16 2017-06-30 苏州中科天启遥感科技有限公司 基于深度学习的遥感影像中机场跑道的检测方法
CN106997459A (zh) * 2017-04-28 2017-08-01 成都艾联科创科技有限公司 一种基于神经网络和图像叠合分割的人数统计方法及系统
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN107368671A (zh) * 2017-06-07 2017-11-21 万香波 基于大数据深度学习的良性胃炎病理诊断支持系统和方法
CN107451607A (zh) * 2017-07-13 2017-12-08 山东中磁视讯股份有限公司 一种基于深度学习的典型人物的身份识别方法
CN107527029A (zh) * 2017-08-18 2017-12-29 卫晨 一种改进的Faster R‑CNN人脸检测方法
CN107704811A (zh) * 2017-09-14 2018-02-16 云南大学 一种基于模糊鲁棒特征的行人再识别方法及模块装置
CN107798349A (zh) * 2017-11-03 2018-03-13 合肥工业大学 一种基于深度稀疏自编码机的迁移学习方法
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及系统
CN107818299A (zh) * 2017-10-17 2018-03-20 内蒙古科技大学 基于融合hog特征和深度信念网络的人脸识别算法
CN107833193A (zh) * 2017-11-20 2018-03-23 长沙全度影像科技有限公司 一种基于refinement‑network深度学习模型的单透镜全局图像复原方法
CN108052940A (zh) * 2017-12-17 2018-05-18 南京理工大学 基于深度学习的sar遥感图像水面目标检测方法
CN108090520A (zh) * 2018-01-08 2018-05-29 北京中关村科金技术有限公司 意图识别模型的训练方法、系统、装置及可读存储介质
CN108229649A (zh) * 2016-12-22 2018-06-29 三星电子株式会社 用于深度学习训练的方法和设备
CN108229390A (zh) * 2018-01-02 2018-06-29 济南中维世纪科技有限公司 基于深度学习的快速行人检测方法
CN108334840A (zh) * 2018-02-01 2018-07-27 福州大学 交通环境下基于深度神经网络的行人检测方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108596044A (zh) * 2018-04-02 2018-09-28 中国人民解放军陆军工程大学 基于深度卷积神经网络的行人检测方法
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法
CN108900358A (zh) * 2018-08-01 2018-11-27 重庆邮电大学 基于深度信念网络资源需求预测的虚拟网络功能动态迁移方法
CN108898188A (zh) * 2018-07-06 2018-11-27 四川奇迹云科技有限公司 一种图像数据集辅助标记系统及方法
CN108921056A (zh) * 2018-06-18 2018-11-30 上海大学 基于神经网络面向汽车辅助驾驶的行人检测方法
CN109101859A (zh) * 2017-06-21 2018-12-28 北京大学深圳研究生院 使用高斯惩罚检测图像中行人的方法
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN109543632A (zh) * 2018-11-28 2019-03-29 太原理工大学 一种基于浅层特征融合引导的深层网络行人检测方法
CN109635717A (zh) * 2018-12-10 2019-04-16 天津工业大学 一种基于深度学习的矿用行人检测方法
CN109685110A (zh) * 2018-11-28 2019-04-26 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
CN109712140A (zh) * 2019-01-02 2019-05-03 中楹青创科技有限公司 训练用于跑冒滴漏检测的全连接分类网络的方法及装置
CN109726755A (zh) * 2018-12-26 2019-05-07 北京云测信息技术有限公司 一种图片标注方法、装置及电子设备
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN109760054A (zh) * 2019-01-30 2019-05-17 重庆两江微链智能科技有限公司 机器人自主学习系统和机器人控制方法
CN109785333A (zh) * 2018-12-11 2019-05-21 华北水利水电大学 用于并联机器人视觉系统的目标检测方法及装置
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110516514A (zh) * 2018-05-22 2019-11-29 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110799996A (zh) * 2017-06-30 2020-02-14 康蒂-特米克微电子有限公司 在不同的深度学习架构之间的知识转移
CN110866425A (zh) * 2018-08-28 2020-03-06 天津理工大学 基于光场相机和深度迁移学习的行人识别方法
CN110866426A (zh) * 2018-08-28 2020-03-06 天津理工大学 基于光场相机和深度学习的行人识别方法
CN111104921A (zh) * 2019-12-30 2020-05-05 西安交通大学 一种基于Faster rcnn的多模态行人检测模型及方法
CN111191531A (zh) * 2019-12-17 2020-05-22 中南大学 一种快速行人检测方法及系统
CN111461120A (zh) * 2020-04-01 2020-07-28 济南浪潮高新科技投资发展有限公司 一种基于区域的卷积神经网络物体表面缺陷检测方法
CN114170518A (zh) * 2021-12-17 2022-03-11 青岛农业大学 一种基于计算机视觉的茶树冻害评估方法及系统
US11367272B2 (en) 2018-01-30 2022-06-21 Huawei Technologies Co., Ltd. Target detection method, apparatus, and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2225727A1 (en) * 2007-11-29 2010-09-08 NEC Laboratories America, Inc. Efficient multi-hypothesis multi-human 3d tracking in crowded scenes
CN104166861A (zh) * 2014-08-11 2014-11-26 叶茂 一种行人检测方法
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105426875A (zh) * 2015-12-18 2016-03-23 武汉科技大学 一种基于深度卷积神经网络的人脸识别方法和考勤系统
CN105512640A (zh) * 2015-12-30 2016-04-20 重庆邮电大学 一种基于视频序列的人流量统计方法
CN105631413A (zh) * 2015-12-23 2016-06-01 中通服公众信息产业股份有限公司 一种基于深度学习的跨场景行人搜索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2225727A1 (en) * 2007-11-29 2010-09-08 NEC Laboratories America, Inc. Efficient multi-hypothesis multi-human 3d tracking in crowded scenes
CN104166861A (zh) * 2014-08-11 2014-11-26 叶茂 一种行人检测方法
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105426875A (zh) * 2015-12-18 2016-03-23 武汉科技大学 一种基于深度卷积神经网络的人脸识别方法和考勤系统
CN105631413A (zh) * 2015-12-23 2016-06-01 中通服公众信息产业股份有限公司 一种基于深度学习的跨场景行人搜索方法
CN105512640A (zh) * 2015-12-30 2016-04-20 重庆邮电大学 一种基于视频序列的人流量统计方法

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228124A (zh) * 2016-07-17 2016-12-14 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN106228124B (zh) * 2016-07-17 2019-03-08 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN106709441B (zh) * 2016-12-16 2019-01-29 北京工业大学 一种基于卷积定理的人脸验证加速方法
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106709441A (zh) * 2016-12-16 2017-05-24 北京工业大学 一种基于卷积定理的人脸验证加速方法
CN106709568B (zh) * 2016-12-16 2019-03-22 北京工业大学 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法
CN108229649A (zh) * 2016-12-22 2018-06-29 三星电子株式会社 用于深度学习训练的方法和设备
CN108229649B (zh) * 2016-12-22 2023-12-05 三星电子株式会社 用于深度学习训练的方法和设备
CN106647758A (zh) * 2016-12-27 2017-05-10 深圳市盛世智能装备有限公司 一种目标物体检测方法、装置及自动引导车的跟随方法
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置
CN106845374B (zh) * 2017-01-06 2020-03-27 清华大学 基于深度学习的行人检测方法及检测装置
CN106897673A (zh) * 2017-01-20 2017-06-27 南京邮电大学 一种基于retinex算法和卷积神经网络的行人再识别方法
CN106910188A (zh) * 2017-02-16 2017-06-30 苏州中科天启遥感科技有限公司 基于深度学习的遥感影像中机场跑道的检测方法
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN106997459A (zh) * 2017-04-28 2017-08-01 成都艾联科创科技有限公司 一种基于神经网络和图像叠合分割的人数统计方法及系统
CN106997459B (zh) * 2017-04-28 2020-06-26 成都艾联科创科技有限公司 一种基于神经网络和图像叠合分割的人数统计方法及系统
CN107368671A (zh) * 2017-06-07 2017-11-21 万香波 基于大数据深度学习的良性胃炎病理诊断支持系统和方法
CN109101859A (zh) * 2017-06-21 2018-12-28 北京大学深圳研究生院 使用高斯惩罚检测图像中行人的方法
CN110799996A (zh) * 2017-06-30 2020-02-14 康蒂-特米克微电子有限公司 在不同的深度学习架构之间的知识转移
CN107451607A (zh) * 2017-07-13 2017-12-08 山东中磁视讯股份有限公司 一种基于深度学习的典型人物的身份识别方法
CN107527029A (zh) * 2017-08-18 2017-12-29 卫晨 一种改进的Faster R‑CNN人脸检测方法
CN107704811A (zh) * 2017-09-14 2018-02-16 云南大学 一种基于模糊鲁棒特征的行人再识别方法及模块装置
CN107818299A (zh) * 2017-10-17 2018-03-20 内蒙古科技大学 基于融合hog特征和深度信念网络的人脸识别算法
CN107808139B (zh) * 2017-11-01 2021-08-06 电子科技大学 一种基于深度学习的实时监控威胁分析方法及系统
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及系统
CN107798349B (zh) * 2017-11-03 2020-07-14 合肥工业大学 一种基于深度稀疏自编码机的迁移学习方法
CN107798349A (zh) * 2017-11-03 2018-03-13 合肥工业大学 一种基于深度稀疏自编码机的迁移学习方法
CN107833193A (zh) * 2017-11-20 2018-03-23 长沙全度影像科技有限公司 一种基于refinement‑network深度学习模型的单透镜全局图像复原方法
CN108052940A (zh) * 2017-12-17 2018-05-18 南京理工大学 基于深度学习的sar遥感图像水面目标检测方法
CN108229390A (zh) * 2018-01-02 2018-06-29 济南中维世纪科技有限公司 基于深度学习的快速行人检测方法
CN108090520A (zh) * 2018-01-08 2018-05-29 北京中关村科金技术有限公司 意图识别模型的训练方法、系统、装置及可读存储介质
US11367272B2 (en) 2018-01-30 2022-06-21 Huawei Technologies Co., Ltd. Target detection method, apparatus, and system
CN108334840A (zh) * 2018-02-01 2018-07-27 福州大学 交通环境下基于深度神经网络的行人检测方法
CN108509978B (zh) * 2018-02-28 2022-06-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108416394B (zh) * 2018-03-22 2019-09-03 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN108596044B (zh) * 2018-04-02 2021-05-07 中国人民解放军陆军工程大学 基于深度卷积神经网络的行人检测方法
CN108596044A (zh) * 2018-04-02 2018-09-28 中国人民解放军陆军工程大学 基于深度卷积神经网络的行人检测方法
CN110516514B (zh) * 2018-05-22 2022-09-30 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN110516514A (zh) * 2018-05-22 2019-11-29 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN108921056A (zh) * 2018-06-18 2018-11-30 上海大学 基于神经网络面向汽车辅助驾驶的行人检测方法
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法
CN108898188A (zh) * 2018-07-06 2018-11-27 四川奇迹云科技有限公司 一种图像数据集辅助标记系统及方法
CN108900358B (zh) * 2018-08-01 2021-05-04 重庆邮电大学 基于深度信念网络资源需求预测的虚拟网络功能动态迁移方法
CN108900358A (zh) * 2018-08-01 2018-11-27 重庆邮电大学 基于深度信念网络资源需求预测的虚拟网络功能动态迁移方法
CN110866425A (zh) * 2018-08-28 2020-03-06 天津理工大学 基于光场相机和深度迁移学习的行人识别方法
CN110866426A (zh) * 2018-08-28 2020-03-06 天津理工大学 基于光场相机和深度学习的行人识别方法
CN109492763B (zh) * 2018-09-17 2021-09-03 同济大学 一种基于强化学习网络训练的自动泊车方法
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110046632B (zh) * 2018-11-09 2023-06-02 创新先进技术有限公司 模型训练方法和装置
CN109543632A (zh) * 2018-11-28 2019-03-29 太原理工大学 一种基于浅层特征融合引导的深层网络行人检测方法
CN109685110A (zh) * 2018-11-28 2019-04-26 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
CN109635717A (zh) * 2018-12-10 2019-04-16 天津工业大学 一种基于深度学习的矿用行人检测方法
CN109785333A (zh) * 2018-12-11 2019-05-21 华北水利水电大学 用于并联机器人视觉系统的目标检测方法及装置
CN109726755A (zh) * 2018-12-26 2019-05-07 北京云测信息技术有限公司 一种图片标注方法、装置及电子设备
CN109712140A (zh) * 2019-01-02 2019-05-03 中楹青创科技有限公司 训练用于跑冒滴漏检测的全连接分类网络的方法及装置
CN109760054A (zh) * 2019-01-30 2019-05-17 重庆两江微链智能科技有限公司 机器人自主学习系统和机器人控制方法
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110728310B (zh) * 2019-09-27 2023-09-01 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN111191531A (zh) * 2019-12-17 2020-05-22 中南大学 一种快速行人检测方法及系统
CN111104921A (zh) * 2019-12-30 2020-05-05 西安交通大学 一种基于Faster rcnn的多模态行人检测模型及方法
CN111461120A (zh) * 2020-04-01 2020-07-28 济南浪潮高新科技投资发展有限公司 一种基于区域的卷积神经网络物体表面缺陷检测方法
CN114170518A (zh) * 2021-12-17 2022-03-11 青岛农业大学 一种基于计算机视觉的茶树冻害评估方法及系统

Also Published As

Publication number Publication date
CN106203506B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN106203506A (zh) 一种基于深度学习技术的行人检测方法
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
US10803352B2 (en) Image processing apparatus, image processing method, and image processing program
CN107103113B (zh) 面向神经网络处理器的自动化设计方法、装置及优化方法
CN104732208B (zh) 基于稀疏子空间聚类的视频人体行为识别方法
CN107368787A (zh) 一种面向深度智驾应用的交通标志识别算法
CN106203283A (zh) 基于三维卷积深度神经网络和深度视频的动作识别方法
CN110096933A (zh) 目标检测的方法、装置及系统
CN106778835A (zh) 融合场景信息和深度特征的遥感图像机场目标识别方法
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN112418330A (zh) 一种基于改进型ssd的小目标物体高精度检测方法
CN105046197A (zh) 基于聚类的多模板行人检测方法
CN106127121A (zh) 一种基于夜间灯光数据的建成区智能化提取方法
CN103996018A (zh) 基于4dlbp的人脸识别方法
CN106778796A (zh) 基于混合式协同训练的人体动作识别方法及系统
CN109711283A (zh) 一种联合双字典和误差矩阵的遮挡表情识别算法
CN108154104A (zh) 一种基于深度图像超像素联合特征的人体姿态估计方法
CN110532946A (zh) 一种基于卷积神经网络识别绿通车车辆轴型的方法
CN110197154A (zh) 融合部位纹理三维映射的行人重识别方法、系统、介质及终端
CN108416397A (zh) 一种基于ResNet-GCN网络的图像情感分类方法
CN104036550A (zh) 基于形状语义的建筑立面激光雷达点云解译与重建的方法
CN109670401A (zh) 一种基于骨骼运动图的动作识别方法
CN109712171A (zh) 一种基于相关滤波器的目标跟踪系统及目标跟踪方法
CN112329830B (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统
CN110222755A (zh) 基于特征融合的深度学习场景识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant