CN108664838A - 基于改进rpn深度网络的端到端的监控场景行人检测方法 - Google Patents

基于改进rpn深度网络的端到端的监控场景行人检测方法 Download PDF

Info

Publication number
CN108664838A
CN108664838A CN201710187003.4A CN201710187003A CN108664838A CN 108664838 A CN108664838 A CN 108664838A CN 201710187003 A CN201710187003 A CN 201710187003A CN 108664838 A CN108664838 A CN 108664838A
Authority
CN
China
Prior art keywords
rpn
shoulder
pedestrian
head
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710187003.4A
Other languages
English (en)
Inventor
葛水英
陆钧
马琳靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Vision Culture Technology Co Ltd
Original Assignee
Beijing Zhongke Vision Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Vision Culture Technology Co Ltd filed Critical Beijing Zhongke Vision Culture Technology Co Ltd
Priority to CN201710187003.4A priority Critical patent/CN108664838A/zh
Publication of CN108664838A publication Critical patent/CN108664838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进RPN深度网络的端到端的监控场景行人检测方法,其中,该方法包括步骤1:利用简化VGG16深度卷积网络进行行人监控场景图像的特征图计算;步骤2:利用RPN(Region Proposal Network)网络来提取特征图中的行人区域候选框;步骤3:依据RPN网络获取到的候选窗,利用ROI pooling操作计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景区域;步骤4:基于上述三个步骤得到的改进的RPN深度网络,采用递进式的头肩模型训练,完成整个端到端的行人检测网络的参数计算。通过本发明的方法,可以使得监控场景行人检测的实时性和准确率得到大幅提升。

Description

基于改进RPN深度网络的端到端的监控场景行人检测方法
技术领域
本发明实施涉及计算机图像处理技术领域,尤其是涉及图像中行人检测方法。
背景技术
行人检测作为目标识别领域的一个重要分支,成为近几年的一大研究热点。行人检测技术是行人跟踪、行为分析、步态分析、行人身份识别等研究的基础和保障,在诸如辅助驾驶、智能监控、高级人机接口等领域中拥有广泛的应用前景。
行人兼具刚柔特性,尺度、姿态、视角、光照、部分遮挡等都是检测结果的影响因素。尽管目前已有诸多行人检测的研究成果,但很多问题仍有待进一步研究解决,尤其是检测的实时性与对部分遮挡环境的鲁棒性。监控场景中进行行人检测是该领域内的主要应用之一,而监控场景中,行人流量较大,部分遮挡程度高,且对检测具有实时性要求,这使得构建面向监控系统的行人检测器依旧存在很大挑战。
本发明旨在针对监控场景,提升行人检测的性能和实时性。本发明通过引入并改进RPN深度网络,以及采用头肩模型,实现了该场景下实时的、高性能的端到端行人检测。本发明主要贡献是针对监控场景行人检测问题:引入和改进了 RPN深度网络,并结合自己的卷积网络提高了行人检测的质量与实时性,实现了端到端的检测;引入“头肩”模型处理该场景中部分遮挡严重的问题,提升了检测性能,同时进一步提高了检测速度。
发明内容
本发明实施的主要目的是提供一种基于改进RPN深度网络的端到端的监控场景行人检测方法。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于改进RPN深度网络的端到端的监控场景行人检测方法,该方法至少包括:
步骤1:利用简化VGG16深度卷积网络进行行人监控场景图像的特征图计算;
步骤2:利用RPN(Region Proposal Network)网络来提取特征图中的行人区域候选框;
步骤3:依据RPN网络获取到的候选窗,利用ROI pooling操作计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景区域;
步骤4:基于上述三个步骤得到的改进的RPN深度网络,采用递进式的头肩模型训练,完成整个端到端的行人检测网络的参数计算。
进一步地,所述步骤1具体包括:
传统的VGG16主要用于大型多类别的图像识别项目,本发明中行人检测问题与之比较,具有检测类别统一,任务规模趋于轻量级等特点。因此,本发明简化了VGG16 深度卷积网络中计算性能较低冗余层,进而设计形成了高性能的卷积特征提取网络。
简化后的VGG16深度卷积网络具体包括:5个卷积组合以及4次Max pooling操作。其中所有卷积操作的卷积核均为3*3,步长为1,每次卷积操作后使用Relu函数进行激活。利用简化后的VGG16深度卷积网络最终计算得到输入行人监控场景图像的512个特征图。
进一步地,所述步骤2具体包括:
将简化的VGG16深度卷积网络输出的特征图作为输入,直接在特征图上提取窗口,再对应到原图。首先,使用3*3的卷积核与第一部分输出的512个特征图进行卷积,其中,由3*3卷积核中心对应产生候选窗锚点,并映射到输入图像。
本发明创新地结合行人检测问题,设计和使用了性能更好的候选窗锚点。针对行人检测问题,由于人体(以及头肩区域)多呈现为近似竖直矩形形状,故本发明提出由卷积核的中心对应输入图像,预测3种“类竖直矩形”长宽比的行人候选窗锚点(1∶1,1∶1.5,1∶2)。预测尺度也为三种(128,256,512),因此共生成Kanchor=3*3个候选窗。那么总的生成候选窗个数为:
Nanchor=WConv5*HConv5*Kanchor
其中WConv5和HConv5分别为简化的VGG16深度卷积网络输出的特征图的宽度和长度。
进一步的,本发明利用两个全连接卷积层rpn_cls_score层和rpn_bbox_pred层,分别判别目标或背景的概率得分,以及确定目标位置,具体包括:
对于每个候选窗,rpn_cls_score层输出其判别为目标和背景的概率得分 Pi(0or1),对于每次产生的Kanchor个anchor,共输出2Kanchor个分数值。其中,与任意ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7时,取IoU最大值样本)视为正样本,与所有ground-truth样本的IoU 小于0.3的为负样本,其余样本丢弃。
rpn_bbox_pred层用于窗口回归确定目标位置,包含目标位置的4个坐标元素 ti(txi,tyi,twi,thi)。对于每次产生的Kanchor个anchor,共输出4Kanchor个位置信息。该部分最终根据候选窗的得分高低,选取前300个候选窗作为后续步骤的输入。本部分的损失函数包含分类误差和目标样本的窗口位置偏差,其定义如下:
其中,i表示第i个候选窗,当anchor是正样本时负样本则为0。表示ground-true box相对于anchor box的偏移,学习目标即是让前者接近后者的值。根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:
RoI pooling操作和分类器。RoI pooling用于计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景。分类器中包含了两个全连接层和随机失活操作,最终返回检测结果。
进一步地,所述步骤4具体包括:
本发明在训练头肩模型时,对头肩样本进行了人工标注,之后使用深度方法扩大了样本量,并对样本进行了数据增强操作:
首先,从INRIA Person dataset数据集中挑选200张图片进行手工的行人头肩框标注,共获得457个头肩框正样本。
其次,将该批头肩样本投入网络进行训练,得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测,进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本,共获得1826 个头肩样本;
最后,为进一步扩大样本量,对所有头肩正样本进行数据增强操作,通过横向翻转、小角度随机旋转、随机伸缩等操作增加样本量,之后送入网络进行训练。
渐进式的头肩模型训练结束后获得头肩深度模型的最终网络参数,用于行人检测场景头肩区域的检测。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的端到端的监控场景行人检测流程。
图2为根据一示例性实施例示出的本发明深度网络结构图。
图3为根据一示例性实施例示出的本发明针对行人检测问题设计的三种长宽比、三种尺度的候选窗。
图4为根据一示例性实施例示出的本发明的RPN网络中两个卷积网络的示意。
图5为根据一示例性实施例示出的本发明中头肩模型示意。
图6为根据一示例性实施例示出的模型在检测时部分层的特征输出。
图7为根据一示例性实施例示出的“全身”模型与“头肩”模型在实景检测中的结果对比。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题,所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
如图1所示,基于改进RPN深度网络的端到端的监控场景行人检测方法包含四个步骤。详细介绍如下:
VGG16又称为OxfordNet,是牛津大学Andrew Zisserman教授等开发的卷积神经网络,在2014年的ILSVRC localization and classification两个问题上分别取得了第一名和第二名。VGG16主要用于大型多类别的图像识别项目,本发明行人检测问题与之比较,具有检测类别统一,任务规模轻量级等特点。因此,本发明简化了VGG16的一些冗余层,进而设计形成了自己的卷积网络,进一步提升了网络的速度。另外本发明针对行人检测问题改进了RPN网络,通过设计针对行人检测的候选窗锚点来提升网络性能。改进后的网络结构可分为Deep ConvNet, RPN,Classifier三部分,其中,Deep ConvNet被RPN与R-CNN网络共享使用。
(1)第一部分为卷积部分,包含了5个卷积组合以及4次Max pooling操作。其中所有卷积操作的卷积核均为3*3,步长为1,每次卷积操作后使用Relu函数进行激活。该部分最终输出输入对象的512个特征图谱。
(2)第二部分是用于输出候选窗的RPN网络,该网络实现了使用卷积神经网络直接产生候选窗口,即以第一部分输出的特征图作为输入,直接在特征图上提取窗口,再对应到原图。首先,使用3*3的卷积核与第一部分输出的512个特征图进行卷积,其中,由3*3卷积核中心对应产生候选窗锚点,并映射到输入图像。
本发明创新地结合行人检测问题,设计和使用了性能更好的候选窗锚点。针对行人检测问题,由于人体(以及头肩区域)多呈现为近似竖直矩形形状,故本文提出由卷积核的中心对应输入图像,预测3种“类竖直矩形”长宽比的行人候选窗锚点(1∶1,1∶1.5,1∶2),如图2。预测尺度也为三种(128,256,512),因此共生成Kanchor=3*3个候选窗。那么总的生成候选窗个数为:
Nanchor=WConv5*HConv5*Kanchor
其中WConv5和HConv5分别为第一部分输出的特征图的宽度和长度。
进一步地,本发明利用两个卷基层rpn_cls_score层和rpn_bbox_pred层,对于每个候选窗,rpn_cls_score层输出其判别为目标和背景的概率得分Pi(0or 1),对于每次产生的Kanchor个anchor,共输出2Kanchor个分数值。其中,与任意 ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7 时,取IoU最大值样本)视为正样本,与所有ground-truth样本的IoU小于0.3 的为负样本,其余样本丢弃。rpn_bbox_pred层用于窗口回归确定目标位置,包含目标位置的4个坐标元素ti(txi,tyi,twi,thi)。对于每次产生的Kanchor个anchor,共输出4Kanchor个位置信息,如图3。该部分最终根据候选窗的得分高低,选取前300个候选窗作为第三部分的输入。
该部分的损失函数包含分类误差和目标样本的窗口位置偏差,其定义如下:
其中,i表示第i个候选窗,当anchor是正样本时负样本则为0。表示ground-true box相对于anchor box的偏移,学习目标即是让前者接近后者的值。
(3)第三部分为RoI pooling操作和分类器。RoI pooling用于计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景。分类器中包含了两个全连接层和随机失活操作,最终返回检测结果。
该网络可实现端到端检测,在训练和检测时,无需对原始输入图像做任何预处理,而是将resize工作放在卷积特征提取后,这样避免了crop/wrap等预处理使原始图像失真,丢失图像信息的问题。
现实监控场景中的行人流量较大,致使行人存在大量的部分遮挡,因此只有对部分遮挡具有高鲁棒性的检测器才能满足该场景的检测需要。如图4中部分行人的躯干部位、腿部由于外部环境、自身姿态和衣物等因素被遮挡,而头肩部位的可见性则是极高的。根据对行人数据集SED-PD的统计分析,在监控场景中,行人腿部的可见率是27%,躯干部位的可见率是63%,而头肩部位的可见率可以达到98%。同时,头肩部位的歧视性强,相比全身部位,能极大地减少衣物、行李箱包、身体形变等带来的检测误差。
因此将行人检测的全身检测转化成头肩部位的检测,对于解决该场景中的严重遮挡问题是十分适用的,图4给出本发明的头肩部位正样本。
本发明在训练头肩模型时,对头肩样本进行了人工标注,之后使用深度方法扩大了样本量,并对样本进行了数据增强操作。
(1)首先,从INRIA Person dataset数据集中挑选200张图片进行手工的行人头肩框标注,共获得457个头肩框正样本。
(2)将该批头肩样本投入网络进行训练,得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测,进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本,共获得1826个头肩样本。
(3)训练前,为进一步扩大样本量,对所有头肩正样本进行数据增强操作,通过横向翻转、小角度随机旋转、随机伸缩等操作增加样本量,之后送入网络进行训练。
训练结束后获得头肩深度模型,用于头肩模型检测实验。待检测图片在检测前无需进行任何预处理,直接送入网络进行检测。图5展示了模型在检测时部分层的特征输出。
由于头肩部位的检测相比全身检测,计算量进一步减少,因此网络的检测速度得到进一步提高,平均检测速度为0.093s/per_image,即约10.75帧/秒。同条件下与全身检测相比,头肩模型有效排除了躯干、腿部等等由于环境、姿态、遮挡等造成的噪声干扰,最终有效降低了漏检率,能够检测到绝大部分行人,实景案例如图6,在处理监控场景中的行人部分遮挡问题中展现出更优异的性能。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM 和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。
尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述,但是将会理解,在不脱离本发明意图的情况下,本领域技术人员可以对系统的形式和细节进行各种省略、替换和改变。

Claims (6)

1.一种基于改进RPN深度网络的端到端的监控场景行人检测方法,其特征在于,该方法至少包括:
步骤1:利用简化VGG16深度卷积网络进行行人监控场景图像的特征图计算;
步骤2:利用RPN(Region Proposal Network)网络来提取特征图中的行人区域候选框;
步骤3:依据RPN网络获取到的候选窗,利用ROI pooling操作计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景区域;
步骤4:基于上述三个步骤得到的改进的RPN深度网络,采用递进式的头肩模型训练,完成整个端到端的行人检测网络的参数计算。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
传统的VGG16主要用于大型多类别的图像识别项目,本发明中行人检测问题与之比较,具有检测类别统一,任务规模趋于轻量级等特点。因此,本发明简化了VGG16深度卷积网络中计算性能较低冗余层,进而设计形成了高性能的卷积特征提取网络。
简化后的VGG16深度卷积网络具体包括:5个卷积组合以及4次Max pooling操作。其中所有卷积操作的卷积核均为3*3,步长为1,每次卷积操作后使用Relu函数进行激活。利用简化后的VGG16深度卷积网络最终计算得到输入行人监控场景图像的512个特征图。
3.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
将简化的VGG16深度卷积网络输出的特征图作为输入,直接在特征图上提取窗口,再对应到原图。首先,使用3*3的卷积核与第一部分输出的512个特征图进行卷积,其中,由3*3卷积核中心对应产生候选窗锚点,并映射到输入图像。
本发明创新地结合行人检测问题,设计和使用了性能更好的候选窗锚点。针对行人检测问题,由于人体(以及头肩区域)多呈现为近似竖直矩形形状,故本发明提出由卷积核的中心对应输入图像,预测3种“类竖直矩形”长宽比的行人候选窗锚点(1∶1,1∶1.5,1∶2)。预测尺度也为三种(128,256,512),因此共生成Kanchor=3*3个候选窗。那么总的生成候选窗个数为:
Nanchor=WConv5*HConv5*Kanchor
其中WConv5和HConv5分别为简化的VGG16深度卷积网络输出的特征图的宽度和长度。
进一步的,本发明利用两个全连接卷积层rpn_cls_score层和rpn_bbox_pred层,分别判别目标或背景的概率得分,以及确定目标位置。
4.根据权利要求3所述的方法,其特征在于,所述利用两个全连接卷积层,分别判别目标或背景的概率得分,以及确定目标位置,具体包括:
对于每个候选窗,rpn_cls_score层输出其判别为目标和背景的概率得分Pi(0 or 1),对于每次产生的Kanchor个anchor,共输出2Kanchor个分数值。其中,与任意ground-truth样本的IoU(Intersection-over-union)值大于0.7的(均不大于0.7时,取IoU最大值样本)视为正样本,与所有ground-truth样本的IoU小于0.3的为负样本,其余样本丢弃。
rpn_bbox_pred层用于窗口回归确定目标位置,包含目标位置的4个坐标元素ti(txi,tyi,twi,thi)。对于每次产生的Kanchor个anchor,共输出4Kanchor个位置信息。该部分最终根据候选窗的得分高低,选取前300个候选窗作为后续步骤的输入。
本部分的损失函数包含分类误差和目标样本的窗口位置偏差,其定义如下:
其中,i表示第i个候选窗,当anchor是正样本时负样本则为0。表示ground-true box相对于anchor box的偏移,学习目标即是让前者接近后者的值。
5.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:
RoI pooling操作和分类器。RoI pooling用于计算目标窗口得分,通过设定阈值,最终将ROIs(region of interest)分成目标或背景。分类器中包含了两个全连接层和随机失活操作,最终返回检测结果。
6.根据权利要求4所述的方法,其特征在于,所述步骤4具体包括:
本发明在训练头肩模型时,对头肩样本进行了人工标注,之后使用深度方法扩大了样本量,并对样本进行了数据增强操作:
首先,从INRIA Person dataset数据集中挑选200张图片进行手工的行人头肩框标注,共获得457个头肩框正样本。
其次,将该批头肩样本投入网络进行训练,得到原始的头肩深度模型。使用该原始模型在INRIA Person dataset数据集中每个行人的全身框范围内进行检测,进而得到了在INRIA Person dataset数据集中所有行人的头肩框样本,共获得1826个头肩样本;
最后,为进一步扩大样本量,对所有头肩正样本进行数据增强操作,通过横向翻转、小角度随机旋转、随机伸缩等操作增加样本量,之后送入网络进行训练。
渐进式的投建模型训练结束后获得头肩深度模型的最终网络参数,用于行人检测场景头肩区域的检测。
CN201710187003.4A 2017-03-27 2017-03-27 基于改进rpn深度网络的端到端的监控场景行人检测方法 Pending CN108664838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710187003.4A CN108664838A (zh) 2017-03-27 2017-03-27 基于改进rpn深度网络的端到端的监控场景行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710187003.4A CN108664838A (zh) 2017-03-27 2017-03-27 基于改进rpn深度网络的端到端的监控场景行人检测方法

Publications (1)

Publication Number Publication Date
CN108664838A true CN108664838A (zh) 2018-10-16

Family

ID=63785408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710187003.4A Pending CN108664838A (zh) 2017-03-27 2017-03-27 基于改进rpn深度网络的端到端的监控场景行人检测方法

Country Status (1)

Country Link
CN (1) CN108664838A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法
CN109766868A (zh) * 2019-01-23 2019-05-17 哈尔滨工业大学 一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法
CN109871792A (zh) * 2019-01-31 2019-06-11 清华大学 行人检测方法和装置
CN109961009A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN110059667A (zh) * 2019-04-28 2019-07-26 上海应用技术大学 行人计数方法
CN110348311A (zh) * 2019-06-13 2019-10-18 中国人民解放军战略支援部队信息工程大学 一种基于深度学习的道路交叉口识别系统及方法
CN110503088A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 基于深度学习的目标检测方法及电子装置
CN111368634A (zh) * 2020-02-05 2020-07-03 中国人民解放军国防科技大学 基于神经网络的人头检测方法、系统及存储介质
CN112101139A (zh) * 2020-08-27 2020-12-18 普联国际有限公司 人形检测方法、装置、设备及存储介质
CN112163477A (zh) * 2020-09-16 2021-01-01 厦门市特种设备检验检测院 一种基于FasterR-CNN的扶梯行人位姿目标检测方法及系统
WO2021018106A1 (zh) * 2019-07-30 2021-02-04 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法
CN109766796B (zh) * 2018-12-20 2023-04-18 西华大学 一种面向密集人群的深度行人检测方法
CN109766868B (zh) * 2019-01-23 2020-12-11 哈尔滨工业大学 一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法
CN109766868A (zh) * 2019-01-23 2019-05-17 哈尔滨工业大学 一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法
CN109871792A (zh) * 2019-01-31 2019-06-11 清华大学 行人检测方法和装置
CN109961009A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN109961009B (zh) * 2019-02-15 2023-10-31 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN110059667A (zh) * 2019-04-28 2019-07-26 上海应用技术大学 行人计数方法
CN110348311B (zh) * 2019-06-13 2021-03-19 中国人民解放军战略支援部队信息工程大学 一种基于深度学习的道路交叉口识别系统及方法
CN110348311A (zh) * 2019-06-13 2019-10-18 中国人民解放军战略支援部队信息工程大学 一种基于深度学习的道路交叉口识别系统及方法
CN110503088A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 基于深度学习的目标检测方法及电子装置
CN110503088B (zh) * 2019-07-03 2024-05-07 平安科技(深圳)有限公司 基于深度学习的目标检测方法及电子装置
WO2021018106A1 (zh) * 2019-07-30 2021-02-04 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN111368634A (zh) * 2020-02-05 2020-07-03 中国人民解放军国防科技大学 基于神经网络的人头检测方法、系统及存储介质
CN112101139A (zh) * 2020-08-27 2020-12-18 普联国际有限公司 人形检测方法、装置、设备及存储介质
CN112101139B (zh) * 2020-08-27 2024-05-03 普联国际有限公司 人形检测方法、装置、设备及存储介质
CN112163477A (zh) * 2020-09-16 2021-01-01 厦门市特种设备检验检测院 一种基于FasterR-CNN的扶梯行人位姿目标检测方法及系统
CN112163477B (zh) * 2020-09-16 2023-09-22 厦门市特种设备检验检测院 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及系统

Similar Documents

Publication Publication Date Title
CN108664838A (zh) 基于改进rpn深度网络的端到端的监控场景行人检测方法
Fu et al. Fast and accurate detection of kiwifruit in orchard using improved YOLOv3-tiny model
Tang et al. Fruit detection and positioning technology for a Camellia oleifera C. Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision
CN105427314B (zh) 基于贝叶斯显著性的sar图像目标检测方法
Li et al. An improved YOLOv5-based vegetable disease detection method
Zhuang et al. Computer vision-based localisation of picking points for automatic litchi harvesting applications towards natural scenarios
CN108830188A (zh) 基于深度学习的车辆检测方法
CN109241913A (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN107871106A (zh) 人脸检测方法和装置
CN106204651B (zh) 一种基于改进的判决与生成联合模型的目标跟踪方法
CN109598234A (zh) 关键点检测方法和装置
Liu et al. The recognition of apple fruits in plastic bags based on block classification
Chen et al. An improved Yolov3 based on dual path network for cherry tomatoes detection
CN110263712A (zh) 一种基于区域候选的粗精行人检测方法
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
CN108898065A (zh) 候选区快速筛选与尺度自适应的深度网络舰船目标检测方法
Sun et al. Detection of tomato organs based on convolutional neural network under the overlap and occlusion backgrounds
CN109685045A (zh) 一种运动目标视频跟踪方法及系统
CN109740631A (zh) 基于对象的obia-svm-cnn遥感影像分类方法
CN110084284A (zh) 基于区域卷积神经网络的目标检测与二级分类算法及装置
CN109363697A (zh) 一种乳腺影像病灶识别的方法及装置
Liu et al. Small unopened cotton boll counting by detection with MRF-YOLO in the wild
CN106874825A (zh) 人脸检测的训练方法、检测方法和装置
CN110334656A (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181016

WD01 Invention patent application deemed withdrawn after publication