CN108596013B - 基于多粒度深度特征学习的行人检测方法及装置 - Google Patents

基于多粒度深度特征学习的行人检测方法及装置 Download PDF

Info

Publication number
CN108596013B
CN108596013B CN201810083595.XA CN201810083595A CN108596013B CN 108596013 B CN108596013 B CN 108596013B CN 201810083595 A CN201810083595 A CN 201810083595A CN 108596013 B CN108596013 B CN 108596013B
Authority
CN
China
Prior art keywords
detection
pedestrian
features
fine
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810083595.XA
Other languages
English (en)
Other versions
CN108596013A (zh
Inventor
鲁继文
周杰
林纯泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810083595.XA priority Critical patent/CN108596013B/zh
Publication of CN108596013A publication Critical patent/CN108596013A/zh
Application granted granted Critical
Publication of CN108596013B publication Critical patent/CN108596013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多粒度深度特征学习的行人检测方法及装置,其中,方法包括:将输入图像传输至细粒度深度特征生成网络和检测网络;通过细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过检测网络得到检测特征;对细粒度深度特征和检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;根据多粒度深度特征得到行人检测结果。该方法通过使用不同分辨率的特征和引入细粒度特征,有效提高检测的精度和性能。

Description

基于多粒度深度特征学习的行人检测方法及装置
技术领域
本发明涉及计算机图像处理中的行人检测技术领域,特别涉及一种基于多粒度深度特征学习的行人检测方法及装置。
背景技术
行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人,给予行人坐标位置和置信度。行人检测是计算机视觉中一个重要的研究热点,通常是行为分析,姿态估计,属性分析,智能监控,自动驾驶等实际应用中的核心技术之一。因此,行人检测技术具有极高的科研价值和商业价值,并有大量学者从事行人检测的研究,以及众多有效的行人检测的算法被提出来。
尽管近几年计算机视觉研究者致力于行人检测的研究中,但是行人检测问题依旧挑战性很大。这主要是因为有三个原因:其一,由于目标和监控器的距离,行人的尺度有很大的变动,所以单一尺度的检测器难以应对不同尺度的行人;其次,在自然场景下其他物体(例如:车辆,指示牌等)可能对行人造成不同程度的遮挡,检测系统容易被遮挡物误导,从而导致漏检;另外,在实际应用中大部分行人是以小尺度出现,小目标的特征不明显且分辨率低,导致大量的漏检和误检。给定一张图像,为了得到图片中所有行人的位置,检测器通常有以下三步:第一,对整张图片进行特征提取;其次,使用不同尺度和大小的预选框遍历整张图片;最后,基于预选框中的特征,判断其中是否存在行人,并调整预选框的坐标和大小,从而得到最后的行人检测框。其中,特征提取步骤是行人检测系统最重要的一步,所以,相关技术中的研究方法可以被分为两类:基于手工特征的方法和基于深度特征学习的方法。其中,基于手工特征的方法主要考虑了行人的先验信息,对输入图像进行一系列简单的变化,得到行人特征。相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征,从而显著性的提升检测精准度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于多粒度深度特征学习的行人检测方法,该方法可以有效提高检测的精度和性,同时保证了行人检测的实时性。
本发明的另一个目的在于提出一种基于多粒度深度特征学习的行人检测装置。
为达到上述目的,本发明一方面实施例提出了一种基于多粒度深度特征学习的行人检测方法,包括以下步骤:将输入图像传输至细粒度深度特征生成网络和检测网络;通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;根据所述多粒度深度特征得到行人检测结果。
本发明实施例的基于多粒度深度特征学习的行人检测方法,可以根据多粒度深度特征得到行人检测结果,通过使用不同分辨率的特征和引入细粒度特征的方法提高检测技术在复杂场景下对小尺度行人和被遮挡的行人检测精度和性能,同时本技术去除了现有行人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性。
另外,根据本发明上述实施例的基于多粒度深度特征学习的行人检测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,进一步包括:将所述输入图像的每一个像素分为背景和行人;根据所述背景和行人生成行人解析图;将所述行人解析图转化为所述细粒度深度特征。
进一步地,在本发明的一个实施例中,所述通过所述检测网络得到检测特征,进一步包括:将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
进一步地,在本发明的一个实施例中,所述多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
进一步地,在本发明的一个实施例中,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
为达到上述目的,本发明另一方面实施例提出了一种基于多粒度深度特征学习的行人检测装置,包括:生成模块,用于将输入图像传输至细粒度深度特征生成网络和检测网络;第一获取模块,用于通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;第二获取模块,用于对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;检测模块,用于根据所述多粒度深度特征得到行人检测结果。
本发明实施例的基于多粒度深度特征学习的行人检测装置,可以根据多粒度深度特征得到行人检测结果,通过使用不同分辨率的特征和引入细粒度特征的方法提高检测技术在复杂场景下对小尺度行人和被遮挡的行人检测精度和性能,同时本技术去除了现有行人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性。
另外,根据本发明上述实施例的基于多粒度深度特征学习的行人检测装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述第一获取模块,进一步包括:划分单元,用于将所述输入图像的每一个像素分为背景和行人;生成单元,用于根据所述背景和行人生成行人解析图;转化单元,用于将所述行人解析图转化为所述细粒度深度特征。
进一步地,在本发明的一个实施例中,所述第一获取模块,进一步包括:解决单元,用于将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;获取单元,用于将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
进一步地,在本发明的一个实施例中,所述多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
进一步地,在本发明的一个实施例中,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于多粒度深度特征学习的行人检测方法的流程图;
图2为根据本发明一个实施例的基于多粒度深度特征学习的行人检测方法的流程图;
图3为根据本发明一个实施例的原始输入图像与细粒度深度特征图示意图;
图4为根据本发明一个实施例的弱监督学习示意图;
图5为根据本发明一个实施例的检测网络的主体结构示意图;
图6为根据本发明一个实施例的检测模块的结构示意图;
图7为根据本发明一个实施例的检测特征图与多粒度特征可视化示意图;
图8为根据本发明实施例的基于多粒度深度特征学习的行人检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍本发明实施例的基于多粒度深度特征学习的行人检测方法及装置之前,先简单介绍下相关技术中的行人检测方法。
相关技术提出HOG(Histogram of Oriented Gradient,方向梯度直方图算法),挖掘行人的外形信息和运动信息。相关技术中的方法对图像进行不同的变化(LUV,Gabor,edges),并提出利用积分通道特征将其融合,从而形成丰富的特征集。相关技术DPM(Deformable Part Model,可形变部件模型的检测算法);针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。虽然上述传统检测方法在简单场景中能够达到应用需求,但在复杂的自然场景下,基于手工特征的行人检测方法的鲁棒性低。相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征,从而显著性的提升检测精准度。相关技术中提出使用RPN(Region Proposal Network,预选框生成网络)生成预选框和感兴趣区域池化(RoIPooling)固定不同大小感兴趣区域的特征维度,并通过一系列的全链接层提取深度特征,然后用其训练级联森林。级联森林可以有针对性的学习困难样本,从而提高了行人检测器在小尺度行人的检测性能。MS-CNN(Multi-Scale CNN)提出使用不同感受野的卷积层生成不同尺度的预选框,感受野小的卷积层用于小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成,然后对所有预选框微调和再分类得到最后检测结果。另一方面,相关技术中提出深度部件算法(DeepParts)来提高行人被遮挡情况下的检测性能。该方法训练大量基于深度特征的行人部件检测器,结合这些检测器的置信度判定预设框中是否存在目标。相关技术中将人体部件之间的空间关联信息引入到深度部件检测器中,从而提升了遮挡情况下的行人检测性能。
本发明正是基于上述问题,而提出的一种基于多粒度深度特征学习的行人检测方法及装置。
下面参照附图描述根据本发明实施例提出的基于多粒度深度特征学习的行人检测方法及装置,首先将参照附图描述根据本发明实施例提出的基于多粒度深度特征学习的行人检测方法。
图1是本发明实施例的基于多粒度深度特征学习的行人检测方法的流程图。
如图1所示,该基于多粒度深度特征学习的行人检测方法包括以下步骤:
在步骤S101中,将输入图像传输至细粒度深度特征生成网络和检测网络。
在步骤S102中,通过细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过检测网络得到检测特征。
进一步地,在本发明的一个实施例中,细粒度深度特征生成网络为像素级别的二分类网络,其中,通过细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,进一步包括:将输入图像的每一个像素分为背景和行人;根据背景和行人生成行人解析图;将行人解析图转化为细粒度深度特征。
进一步地,在本发明的一个实施例中,通过检测网络得到检测特征,进一步包括:将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;将每个检测特征输入检测模块,以得到检测结果图,其中,在检测模块引入目标的环境信息。
可以理解的是,结合图1和图2所示,本发明实施例与传统的深度卷积神经网络不同,行人解析网络在经过一系列的池化下采样后,卷积层被上采样到原图大小,从而保留小目标的信息,然后对每一个像素进行二分类。本发明实施例的细粒度深度特征生成网络中将VGG16作为基础网络并将不同分辨率和深度的卷积层上采样至原图大小,挖掘多层次的特征信息来得到行人解析图。
另外,如图3所示,为了得到细粒度深度特征并协助检测网络,本发明实施例将行人解析图下采样至检测特征大小,并使其通道数和检测特征一样。
如图4所示,方框区域为训练前景,其余视为背景,行人检测数据集通常只提供行人位置框,不提供像素级别的标注,所以如何训练细粒度深度特征生成网络是一个问题。在本发明实施例中,通过弱监督的学习方法来训练深度卷积网络。训练数据提供的位置框将整个行人包裹,但是包括了大量的背景,所以本发明实施例使用位置框中百分之八十的像素为行人区域,其他像素视为背景,从而有效的去除背景像素,同时保证人体关键部位被视为训练前景。
检测网络是基于VGG16,本发明实施例通过增加了一系列的卷积层,以使得这些新卷积层感受野逐渐变大,从而能更有效的检测大尺度行人。如图5所示,显示了检测网络的主要结构,具体地,本发明实施例选择了5个不同分辨率和感受野的卷积层作为检测层,其中每一个检测层负责一定尺度的目标,从而解决行人检测任务中多尺度的问题。
Figure BDA0001561745000000061
其中,hk为行人的相对高度,hmin=0.05,hmax=0.90。
本发明实施例将每一个检测特征输入到其检测模块,得到最后的检测结果图。在检测模块中通过引入目标附近的环境信息,通过参考环境信息增强特征的推断能力。例如:行人更有可能出现在地面上而不是在天空中。具体地,本发明实施例通过使用一大一小的卷积核对检测层进行卷积变化,得到两张不同感受野的特征图,然后将其合并,从而融入周围环境信息。图6显示了检测模块的结构。另外,相关技术中基于深度学习的行人检测技术大多数是先用一个预选框生成网络生成预选框,然后再对这些预选框进行微调和分类得到最终的检测结果。考虑到行人检测实时性的需求,本发明实施例去除了预选框生成网络,并在检测层的每一个位置手工设定不同大小的预设框,检测器对这些预设框进行微调和分类即可得到最终的检测结果。实验表明运算速度得到了有效的提升并保证了检测精准性。
在步骤S103中,对细粒度深度特征和检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征。
其中,在本发明的一个实施例中,多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
可以理解的是,由于一系列的池化和压缩,检测层的特征容易丢失关于小目标的信息或则将其他物体误判为小尺度的行人或被遮挡的行人的人体部位,从而导致漏检和误检。为了增强检测层特征对于小目标和人体部位的鲁棒性,我们利用细粒度深度特征辅助粗粒度的检测层特征
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。本发明实施例通过将检测特征点乘上细粒度深度特征,得到多粒度深度特征,其特性是过滤了大部分背景,以及显著化了人体部位的区域。如图6所示,图6显示了上述特征融合的网络结构。如图7所示,图7显示了检测特征和多粒度特征的可视化图。从特征可视化图中可以看到,引入了行人解析信息后,存在行人的区域得到更多的重视,背景则被忽略。
在步骤S104中,根据多粒度深度特征得到行人检测结果。
进一步地,在本发明的一个实施例中,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
可以理解的是,本行人检测系统主要有三个输出,其中第一个输出是行人位置框坐标,其次是检测置信度,以及一个中间层输出是行人解析图。所以我们采用以下多任务目标函数来训练深度卷积网络:
L=LboxcLconfsLseg
其中:
Figure BDA0001561745000000071
Figure BDA0001561745000000072
Figure BDA0001561745000000073
其中,xij={1,0}为第i个检测框是否与第j个真实行人框位置相符,N为检测框数目,{x,y,w,h}为检测框的中心坐标、宽度和高度,d为检测结果,g为标注信息,W和H为输入图片的宽和高,
Figure BDA0001561745000000074
和ps分别是第s个像素的分类结果和标签,
Figure BDA0001561745000000075
Figure BDA0001561745000000081
实验证明,λc=λs=1的情况下,能够取得较好的训练。
根据本发明实施例提出的基于多粒度深度特征学习的行人检测方法,通过使用不同分辨率的特征和引入细粒度特征的方法提高检测的精度和性能,并去除了行人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性;结合分而治之的思想和深度卷积网络的特征金字塔结构,使用分辨率高的特征图检测小尺度目标,使用分辨率低但语义能力强的特征图检测大尺度目标,有效的解决行人尺度变化的问题;通过合并不同大小卷积核得到的特征引入目标周围环境信息,参考目标周围物体从而加强特征的语义能力;引入行人解析图,考虑基于像素级别的细粒度的分类,加强检测器对小目标和被遮挡的行人检测的鲁棒性,行人解析图可以有效的将小目标和没有被遮挡的人体部位标出来,从而协助行人检测器,克服在小目标和遮挡情况下检测的缺陷。
其次参照附图描述根据本发明实施例提出的基于多粒度深度特征学习的行人检测装置。
图8是本发明实施例的基于多粒度深度特征学习的行人检测装置的结构示意图。
如图8所示,该基于多粒度深度特征学习的行人检测装置10包括:生成模块100、第一获取模块200、第二获取模块300和检测模块400。
其中,生成模块100用于将输入图像传输至细粒度深度特征生成网络和检测网络。第一获取模块200用于通过细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过检测网络得到检测特征。第二获取模块300用于对细粒度深度特征和检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征。检测模块400用于根据多粒度深度特征得到行人检测结果。本发明实施例的装置10可以通过使用不同分辨率的特征和引入细粒度特征,有效提高检测的精度和性能。
进一步地,在本发明的一个实施例中,细粒度深度特征生成网络为像素级别的二分类网络,其中,第一获取模块200,进一步包括:划分单元、生成单元和转化单元。其种,划分单元用于将输入图像的每一个像素分为背景和行人。生成单元用于根据背景和行人生成行人解析图。转化单元用于将行人解析图转化为细粒度深度特征。
进一步地,在本发明的一个实施例中,第一获取模块200进一步包括:解决单元和获取单元。其中,解决单元用于将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题。获取单元用于将每个检测特征输入检测模块,以得到检测结果图,其中,在检测模块引入目标的环境信息。
进一步地,在本发明的一个实施例中,多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
进一步地,在本发明的一个实施例中,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
需要说明的是,前述对基于多粒度深度特征学习的行人检测方法实施例的解释说明也适用于该实施例的基于多粒度深度特征学习的行人检测装置,此处不再赘述。
根据本发明实施例提出的基于多粒度深度特征学习的行人检测装置,通过使用不同分辨率的特征和引入细粒度特征的方法提高检测的精度和性能,并去除了行人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性;结合分而治之的思想和深度卷积网络的特征金字塔结构,使用分辨率高的特征图检测小尺度目标,使用分辨率低但语义能力强的特征图检测大尺度目标,有效的解决行人尺度变化的问题;通过合并不同大小卷积核得到的特征引入目标周围环境信息,参考目标周围物体从而加强特征的语义能力;引入行人解析图,考虑基于像素级别的细粒度的分类,加强检测器对小目标和被遮挡的行人检测的鲁棒性,行人解析图可以有效的将小目标和没有被遮挡的人体部位标出来,从而协助行人检测器,克服在小目标和遮挡情况下检测的缺陷。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于多粒度深度特征学习的行人检测方法,其特征在于,包括以下步骤:
将输入图像传输至细粒度深度特征生成网络和检测网络;
通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;
对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;以及
根据所述多粒度深度特征得到行人检测结果。
2.根据权利要求1所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,进一步包括:
将所述输入图像的每一个像素分为背景和行人;
根据所述背景和行人生成行人解析图;
将所述行人解析图转化为所述细粒度深度特征。
3.根据权利要求2所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述通过所述检测网络得到检测特征,进一步包括:
将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;
将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
4.根据权利要求1所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
5.根据权利要求1-4任一项所述的基于多粒度深度特征学习的行人检测方法,其特征在于,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
6.一种基于多粒度深度特征学习的行人检测装置,其特征在于,包括:
生成模块,用于将输入图像传输至细粒度深度特征生成网络和检测网络;
第一获取模块,用于通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;
第二获取模块,用于对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;
检测模块,用于根据所述多粒度深度特征得到行人检测结果。
7.根据权利要求6所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述第一获取模块,进一步包括:
划分单元,用于将所述输入图像的每一个像素分为背景和行人;
生成单元,用于根据所述背景和行人生成行人解析图;
转化单元,用于将所述行人解析图转化为所述细粒度深度特征。
8.根据权利要求7所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述第一获取模块,进一步包括:
解决单元,用于将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;
获取单元,用于将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
9.根据权利要求6所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述多粒度深度特征为:
As,c=Ds,c(M)⊙FS,C
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
10.根据权利要求6-9任一项所述的基于多粒度深度特征学习的行人检测装置,其特征在于,通过以下多任务目标函数训练深度卷积网络:
L=LboxcLconfsLseg
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
CN201810083595.XA 2018-01-29 2018-01-29 基于多粒度深度特征学习的行人检测方法及装置 Active CN108596013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810083595.XA CN108596013B (zh) 2018-01-29 2018-01-29 基于多粒度深度特征学习的行人检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810083595.XA CN108596013B (zh) 2018-01-29 2018-01-29 基于多粒度深度特征学习的行人检测方法及装置

Publications (2)

Publication Number Publication Date
CN108596013A CN108596013A (zh) 2018-09-28
CN108596013B true CN108596013B (zh) 2020-08-28

Family

ID=63608348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810083595.XA Active CN108596013B (zh) 2018-01-29 2018-01-29 基于多粒度深度特征学习的行人检测方法及装置

Country Status (1)

Country Link
CN (1) CN108596013B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666851B (zh) * 2020-05-28 2022-02-15 大连理工大学 一种基于多粒度标签的交叉域自适应行人重识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654104A (zh) * 2014-11-28 2016-06-08 无锡慧眼电子科技有限公司 一种基于多粒度特征的行人检测方法
WO2017015887A1 (en) * 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network
CN106529442A (zh) * 2016-10-26 2017-03-22 清华大学 一种行人识别方法和装置
CN106570564A (zh) * 2016-11-03 2017-04-19 天津大学 基于深度网络的多尺度行人检测方法
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654104A (zh) * 2014-11-28 2016-06-08 无锡慧眼电子科技有限公司 一种基于多粒度特征的行人检测方法
WO2017015887A1 (en) * 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network
CN106529442A (zh) * 2016-10-26 2017-03-22 清华大学 一种行人识别方法和装置
CN106570564A (zh) * 2016-11-03 2017-04-19 天津大学 基于深度网络的多尺度行人检测方法
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs;Liang-Chieh Chen 等;《arXiv》;20161231;全文 *
基于深度卷积神经网络的行人检测;芮挺 等;《计算机工程与应用》;20150819;第52卷(第13期);全文 *

Also Published As

Publication number Publication date
CN108596013A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN109284670B (zh) 一种基于多尺度注意力机制的行人检测方法及装置
CN110321923B (zh) 不同尺度感受野特征层融合的目标检测方法、系统及介质
Amato et al. Deep learning for decentralized parking lot occupancy detection
Li et al. Domain adaptation from daytime to nighttime: A situation-sensitive vehicle detection and traffic flow parameter estimation framework
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN107358258B (zh) 基于nsct双cnn通道和选择性注意机制的sar图像目标分类
Zhang et al. Deep learning in lane marking detection: A survey
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
Ohn-Bar et al. Multi-scale volumes for deep object detection and localization
Yan et al. Driving posture recognition by joint application of motion history image and pyramid histogram of oriented gradients
CN109117838B (zh) 应用于无人船感知系统的目标检测方法及装置
Mahaur et al. Road object detection: a comparative study of deep learning-based algorithms
CN116052026B (zh) 一种无人机航拍图像目标检测方法、系统及存储介质
CN112487844A (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
Ahmed et al. A real-time efficient object segmentation system based on U-Net using aerial drone images
CN114049572A (zh) 识别小目标的检测方法
Hu et al. A video streaming vehicle detection algorithm based on YOLOv4
Nayan et al. Real time detection of small objects
Ali et al. Vehicle detection and tracking in UAV imagery via YOLOv3 and Kalman filter
Zhang et al. PSNet: Perspective-sensitive convolutional network for object detection
CN115496971A (zh) 一种红外目标检测方法、装置、电子设备及存储介质
Yang et al. Event-based driver distraction detection and action recognition
CN108596013B (zh) 基于多粒度深度特征学习的行人检测方法及装置
Singh et al. An enhanced YOLOv5 based on color harmony algorithm for object detection in unmanned aerial vehicle captured images
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant