CN109284670B - 一种基于多尺度注意力机制的行人检测方法及装置 - Google Patents

一种基于多尺度注意力机制的行人检测方法及装置 Download PDF

Info

Publication number
CN109284670B
CN109284670B CN201810862725.XA CN201810862725A CN109284670B CN 109284670 B CN109284670 B CN 109284670B CN 201810862725 A CN201810862725 A CN 201810862725A CN 109284670 B CN109284670 B CN 109284670B
Authority
CN
China
Prior art keywords
pedestrian
scale
small
attention mechanism
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810862725.XA
Other languages
English (en)
Other versions
CN109284670A (zh
Inventor
鲁继文
周杰
林纯泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810862725.XA priority Critical patent/CN109284670B/zh
Publication of CN109284670A publication Critical patent/CN109284670A/zh
Application granted granted Critical
Publication of CN109284670B publication Critical patent/CN109284670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Abstract

本发明公开了一种基于多尺度注意力机制的行人检测方法及装置,其中,方法包括:将输入图像送到深度卷积网络中;通过深度卷积网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图;将小尺度行人解析图和达到预设辨率的特征图进行元积,并将大尺度行人解析图和达到预设语义能力的特征层进行元积;合并相邻且拥有不同感受野大小的特征图;通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。该方法通过引入多尺度注意力机制,使得检测器能够选择最合适的特征去检测相应大小的目标,从而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。

Description

一种基于多尺度注意力机制的行人检测方法及装置
技术领域
本发明涉及计算机图像处理中的行人检测技术领域,特别涉及一种基于多尺度注意力机制的行人检测方法及装置。
背景技术
行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人坐标位置并给予此检测结果的置信度。行人检测是计算机视觉中一个重要的研究热点,是众多实际应用中核心技术之一,例如,人类行为分析,行人姿态估计,行人属性分析,智能监控,自动驾驶等。因此行人检测技术具有极高的科研价值和商业价值,并有大量的学者从事行人检测算法的研究,众多有效的行人检测的算法被提出来。
尽管近几年计算机视觉研究者致力于行人检测的研究中,但是行人检测问题依旧挑战性很大。这主要是因为有两个原因:其一,由于行人与摄像机的距离是不固定的,行人的尺度有很大的变动,距离摄像机近的行人为大尺度行人,反之则称为小尺度行人;其次,在实际环境中,大部分的行人距离摄像机较远,这些小目标的特征不明显,容易被误认为是背景,从而导致大量的漏检和误检。
为了获取给定图片中所有行人的坐标,检测器通常有以下三步:第一,对整张图片进行一系列的操作(梯度计算,卷积等),获取对应的特征;其次,使用不同尺度和形状的预选框遍历整张图片;最后,基于预选框中的特征,判断其中是否存在行人目标,如存在目标则调整预选框的坐标和大小,从而得到最后的行人检测框。其中,提取特征这一步骤是行人检测技术中最重要的一步,所以,现如今主要的研究方法可以被分为两类:基于手工特征的方法和基于深度特征学习的方法。
基于手工特征的方法主要考虑了行人的先验信息,对输入图像进行一系列的计算和投影,然后得到行人特征。例如,HOG(Histogram of Oriented Gradient,方向梯度直方图算法),挖掘行人的形状信息。对图像进行不同的变化,颜色空间转化,梯度计算,边缘检测等(LUV,Gabor,edges),并提出利用积分通道特征将其融合,从而获得更丰富的特征集。DPM(Deformable Part Model,可形变部件模型的检测算法)针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。上述传统检测方法的优点是计算速度快且不需要昂贵的计算资源如GPU和大量内存。但是,虽然这些行人检测算法能够在简单的环境中达到应用需求,在实际复杂的环境中,存在大量的误检和漏检。
相比之下,基于深度特征学习的行人检测系统通过大量的数据自主学习得到具有强大语义表述能力的特征,从而显著性的降低误检和漏检率,使得行人技术能够应用于真实场景。使用RPN(Region Proposal Network,预选框生成网络)生成预选框和感兴趣区域池化(RoIPooling)固定不同大小感兴趣区域的特征维度,并提取感兴趣区域的深度特征,然后用其训练级联森林。级联森林可以有针对性的学习,加大困难样本的权重,降低简单样本的关注度,从而提高了行人检测器在小尺度行人的检测性能。多尺度卷积神经网络(Multi-ScaleCNN)提出使用不同感受野的卷积层生成不同尺度的预选框,感受野小的卷积层用于小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成,然后对所有预选框进行微调和再分类得到最后检测结果。大尺度行人和小尺度行人的特征有很大的区别,需要使用不同的子模型去检测相对应尺度的行人。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于多尺度注意力机制的行人检测方法,该方法有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
本发明的另一个目的在于提出一种基于多尺度注意力机制的行人检测装置。
为达到上述目的,本发明一方面实施例提出了一种基于多尺度注意力机制的行人检测方法,包括以下步骤:获取输入图像,并将所述输入图像送到深度卷积网络中;通过所述深度卷积网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,所述小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标;将所述小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将所述大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征;合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性;通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。
本发明实施例的基于多尺度注意力机制的行人检测方法,通过引入多尺度注意力机制使得检测器能够选取最合适的特征去识别并定位不同尺度的行人,并结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得小目标检测更加鲁棒,进而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
另外,根据本发明上述实施例的基于多尺度注意力机制的行人检测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述小尺度目标为高度小于120像素的行人。
进一步地,在本发明的一个实施例中,还包括:去除所有全连接层以及分类层,并在卷积神经网络后面增加卷积层,其中,神经网络由所述卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
进一步地,在本发明的一个实施例中,还包括:在所述卷积层增加所述行人注意力模块,所述行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
进一步地,在本发明的一个实施例中,还包括:采用以下多任务目标函数来训练所述深度卷积神经网络:
L=LconflLlocmLmask
其中
Figure BDA0001750108980000031
Figure BDA0001750108980000032
Figure BDA0001750108980000033
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure BDA0001750108980000034
为行人置信度的预测,
Figure BDA0001750108980000035
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure BDA0001750108980000036
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure BDA0001750108980000037
为第i个像素的分类结果。
为达到上述目的,本发明另一方面实施例提出了一种基于多尺度注意力机制的行人检测装置,包括:获取模块,用于获取输入图像,并将所述输入图像送到深度卷积网络中;生成模块,用于通过所述深度卷积网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,所述小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标;元积模块,用于将所述小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将所述大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征;合并模块,用于合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性;检测模块,用于通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。
本发明实施例的基于多尺度注意力机制的行人检测装置,通过引入多尺度注意力机制使得检测器能够选取最合适的特征去识别并定位不同尺度的行人,并结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得小目标检测更加鲁棒,进而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
另外,根据本发明上述实施例的基于多尺度注意力机制的行人检测装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述小尺度目标为高度小于120像素的行人。
进一步地,在本发明的一个实施例中,还包括:去除模块,用于去除所有全连接层以及分类层,并在卷积神经网络后面增加卷积层,其中,神经网络由所述卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
进一步地,在本发明的一个实施例中,还包括:行人注意力模块,所述行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
进一步地,在本发明的一个实施例中,还包括:训练模块,用于采用以下多任务目标函数来训练所述深度卷积神经网络:
L=LconflLlocmLmask
其中
Figure BDA0001750108980000041
Figure BDA0001750108980000042
Figure BDA0001750108980000043
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure BDA0001750108980000044
为行人置信度的预测,
Figure BDA0001750108980000045
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure BDA0001750108980000046
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure BDA0001750108980000047
为第i个像素的分类结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于多尺度注意力机制的行人检测方法的流程图;
图2为根据本发明一个实施例的整体流程图和网络结构图;
图3为根据本发明一个实施例的原始输入图像与不同尺度的行人解析图;
图4为根据本发明一个实施例的原始特征图与使用行人注意力机制后的特征对比示意图;
图5为根据本发明一个实施例的放大缩小操作的效果大意以及放大缩小模块的结构示意图;
图6为根据本发明一个实施例的基于多尺度注意力机制的行人检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于多尺度注意力机制的行人检测方法及装置,首先将参照附图描述根据本发明实施例提出的基于多尺度注意力机制的行人检测方法。
图1是本发明一个实施例的基于多尺度注意力机制的行人检测方法的流程图。
如图1所示,该基于多尺度注意力机制的行人检测方法包括以下步骤:
在步骤S101中,获取输入图像,并将输入图像送到深度卷积网络中。
可以理解的是,如图2所示,本发明实施例首先将获取的输入图像送到深度卷积网络中。
在步骤S102中,通过深度卷积网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标。
在本发明的一个实施例中,小尺度目标可以为高度小于120像素的行人。
可以理解的是,如图2所示,深度卷积网络的一个分支,名为行人注意力模块,其任务是生成两张行人解析图。其中一张只凸显小尺度目标(高度小于120像素的行人),另一张则是凸显大尺度目标。
进一步地,在本发明的一个实施例中,本发明实施例的方法还包括:去除所有全连接层以及分类层,并在卷积神经网络后面增加卷积层,其中,神经网络由卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
可以理解的是,本发明实施例利用深度卷积神经网络的特征金字塔结构,解决行人尺度变化的问题。具体地,使用分辨率高的特征图检测小尺度目标,使用分辨率低但语义能力强的特征图检测大尺度目标。其中,深度卷积神经网络的特征金字塔结构即为深度特征金字塔,下面将对深度特征金字塔进行进一步阐述。
具体而言,本发明实施例的行人检测器主要架构是基于深度卷积神经网络,将适用于分类的深度卷积神经网络VGG16进行调整使其能够用于检测任务。具体地,本发明实施例去除了所有全连接层以及分类层,并在卷积神经网络后面增加了一系列的卷积层。这些新卷积层拥有更广阔的感受野,从而能更有效的检测大尺度行人。VGG16神经网络是由一系列的卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降。
本发明实施例巧妙地运用不同感受野与分辨率的特征层去检测不同尺度的行人,其中,高分辨率且感受野小的浅层特征图用于检测小目标,而低分辨率但感受野大的深层特征图用于检测大目标。不同于传统方法中的多尺度图片或者多模型去解决行人多尺度的问题,本发明实施例的方法只需要对输入图片进行一次神经网络前传,并可得到针对不同尺度的深度特征金字塔,从而大大降低了计算成本。附图2中显示了卷积神经网络主干,其中可以看到四个不同的特征图被用于行人检测。另外,不同于现有大部分的行人检测方法,本发明实施例不需要任何后续的微调并可得到高精度的检测结果,从而保证了算法运算时间。
在步骤S103中,将小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征。
可以理解的是,本发明实施例将小尺度行人解析图和高分辨率的特征图进行元积,从而显著化小尺度行人的特征以及降低大尺度行人和背景的干扰。将大尺度行人解析图和语义能力强的特征层进行元积,从而显著化大尺度行人的特征以及平滑背景区域的特征。
进一步地,在本发明的一个实施例中,本发明实施例的方法还包括:在卷积层增加行人注意力模块,行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
可以理解的是,本发明实施例引入多尺度注意力机制,使得高分辨率的特征图更专注于小目标而,语义能力强的特征图更专注于大尺度目标。注意力机制可以有效的消除不同尺度目标之间的相互干扰以及复杂背景的影响。下面将对多尺度注意力机制进行进一步阐述。
具体而言,通过深度特征金字塔,本发明实施例希望检测使用最合适的特征图去检测不同尺度的行人。但是由于行人类内的相似性,特征图将会凸显所有的行人,特别地,具有高分辨率的浅层特征图不仅描述了小尺度行人,同时也会激活大尺度行人的区域。但由于这类特征层的感受野较小,通常只激活大尺度行人的上半身,从而误导了检测器并导致了误检。为了避免这种不同尺度行人的相互干扰,本发明实施例引入了多尺度注意力机制。
本发明实施例在VGG16网络的conv3和conv4卷积层增加了一个行人注意力模块。此模块具体由一个池化层和三个稠密卷积层组成,并且使用了反卷积操作获得同输入图片同样大小的两张行人解析图。其中,一张只显著化小目标而另一张只关注大尺度行人,附图2右侧显示了行人注意力模块的网络结构。然后,本发明实施例将行人解析图下采样至用于检测的特征图大小,并使其通道数和检测特征图一样,然后将行人解析图与检测特征图进行元积,得到注意力机制的效果。小尺度行人解析图与浅层特征图进行元积,使其更专注于小目标的特征描述;大尺度行人解析图与深层特征图进行元积,使其更专注于大目标的特征描述。附图3显示了输入图像以及不同尺度解析图的效果图,附图4则对比了不使用和使用多尺度注意力机制后的特征图,可以看到不同的特征图更加关注于相应尺度的行人。
综上,本发明实施例引入的注意力机制能够提升检测器对小目标和模糊目标的鲁棒性,同时过滤大量的背景干扰。现有行人检测方法大部分是基于整体行人去检测,由于感受野往往远大于目标,这类检测器容易被小尺度行人周围的背景误导,所以对小目标和模糊目标有较高的丢失率。而本发明实施例中的行人解析图是基于像素级别的分类得到的,从而能够更有效的检测到小目标和模糊目标,避免漏检的问题。
在步骤S104中,合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性。
可以理解的是,本发明实施例合并相邻且拥有不同感受野大小的特征图,从而获得小目标更丰富的局部和背景信息,进一步加强检测器对小目标的鲁棒性。
也就是说,本发明实施例通过合并拥有不同感受野的特征层,获取目标更多的局部细微信息以及其周围背景信息。放大缩小模模拟了人类在搜寻一个小目标的时候的放大缩小操作,使得检测器对小目标更加鲁棒。下面将对放大缩小模进行进一步阐述。
具体而言,距离摄像机比较远的目标在图片占据非常少的像素点,并且摄像机的轻微抖动容易带来模糊。检测这类小尺度且模糊的行人,不仅仅对于计算机是一个难题,对于人而言也很难将其找出来。如果需要从一张图片上寻找一些小且模糊的目标,通常会对图片进行不断地放大和缩小来确定某一个区域是否存在目标。放大的时候,能够看到更多的细节信息,缩小的时候,则能够通过物体的轮廓以及其周围的背景信息确认是否是要寻找的目标。基于这个操作,本发明实施例提出了放大缩小模块,使用卷积层来模拟人类的放大缩小的查找行为,使得检测器对小目标和模糊目标更加的鲁棒。
具体地,对于检测小目标的特征层,本发明实施例引入比其感受野较大和较小的两个邻近特征层,通过注意力机制后,使这些特征图专注于小尺度行人,然后将这三个特征图结合,并获得最终用于检测小目标的特征图。这个特征图拥有原始的特征并且融入了更丰富的局部细节信息以及周围背景信息。感受野小的特征图带来了目标的细节信息,而感受野大的特征图则带来了目标周围的背景信息。附图5显示了放大缩小的效果图以及其结构图。
在步骤S105中,通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。
可以理解的是,本发明实施例使用经过注意力机制以及特征合并模块得到的最终特征图进行行人检测。
进一步地,在本发明的一个实施例中,本发明实施例的方法还包括:采用以下多任务目标函数来训练深度卷积神经网络:
L=LconflLlocmLmask
其中
Figure BDA0001750108980000081
Figure BDA0001750108980000082
Figure BDA0001750108980000083
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure BDA0001750108980000084
为行人置信度的预测,
Figure BDA0001750108980000085
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure BDA0001750108980000091
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure BDA0001750108980000092
为第i个像素的分类结果。
具体而言,本发明实施例主要有两个输出,其中第一个输出是行人位置框坐标,其次是检测置信度。本发明实施例方法中的行人解析图可以看作为一个中间输出,用于辅助最终的行人检测输出。所以采用以下多任务目标函数来训练深度卷积神经网络:
L=LconflLlocmLmask
其中
Figure BDA0001750108980000093
Figure BDA0001750108980000094
Figure BDA0001750108980000095
xij={1,0}表示第i个检测框是否与第j个真实行人框位置相符,N为检测框的数目,{x,y,w,h}代表框的中心坐标,宽度和高度,d为检测结果,g是标注信息,W和H则代表输入图片的宽和高,ps
Figure BDA0001750108980000096
分别是第s个像素的分类结果和标签,
Figure BDA0001750108980000097
Figure BDA0001750108980000098
其中,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,本发明实施例分小尺度和大尺度行人。
Figure BDA0001750108980000099
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度。yi为真实像素标签,ls为尺度类别,ls=0时表示背景类别。I{.}为指示函数。另外,在λl=2与λm=1情况下,往往能够取得较好的训练结果。
综上,本发明实施例提出引入多尺度注意力机制,使得检测器能够选择最合适的特征去检测相应大小的目标。同时通过引入目标更丰富的局部和背景信息,提高检测器对小目标检测的精准度。
根据本发明实施例提出的基于多尺度注意力机制的行人检测方法,通过引入多尺度注意力机制使得检测器能够选取最合适的特征去识别并定位不同尺度的行人,并结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得小目标检测更加鲁棒,进而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
其次参照附图描述根据本发明实施例提出的基于多尺度注意力机制的行人检测装置。
图6是本发明一个实施例的基于多尺度注意力机制的行人检测装置的结构示意图。
如图6所示,该基于多尺度注意力机制的行人检测装置10包括:获取模块100、生成模块200、元积模块300、合并模块400和检测模块500。
其中,获取模块100用于获取输入图像,并将输入图像送到深度卷积网络中。生成模块200用于通过深度卷积网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标。元积模块300用于将小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征。合并模块400用于合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性。检测模块500用于通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。本发明实施例的装置10可以获得更多局部信息和背景信息,使得小目标检测更加鲁棒,进而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
进一步地,在本发明的一个实施例中,小尺度目标为高度小于120像素的行人。
进一步地,在本发明的一个实施例中,本发明实施例的装置10还包括:去除模块。其中,去除模块用于去除所有全连接层以及分类层,并在卷积神经网络后面增加卷积层,其中,神经网络由卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
进一步地,在本发明的一个实施例中,还包括:行人注意力模块,行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
进一步地,在本发明的一个实施例中,本发明实施例的装置10还包括:训练模块。其中,训练模块用于采用以下多任务目标函数来训练深度卷积神经网络:
L=LconflLlocmLmask
其中
Figure BDA0001750108980000101
Figure BDA0001750108980000102
Figure BDA0001750108980000111
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure BDA0001750108980000112
为行人置信度的预测,
Figure BDA0001750108980000113
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure BDA0001750108980000114
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure BDA0001750108980000115
为第i个像素的分类结果。
需要说明的是,前述对基于多尺度注意力机制的行人检测方法实施例的解释说明也适用于该实施例的基于多尺度注意力机制的行人检测装置,此处不再赘述。
根据本发明实施例提出的基于多尺度注意力机制的行人检测装置,通过引入多尺度注意力机制使得检测器能够选取最合适的特征去识别并定位不同尺度的行人,并结合拥有不同感受野的特征层,从而获得更多局部信息和背景信息,使得小目标检测更加鲁棒,进而有效提升行人检测技术在复杂场景下对行人检测的精度和鲁棒性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于多尺度注意力机制的行人检测方法,其特征在于,包括以下步骤:
获取输入图像,并将所述输入图像送到深度卷积神经网络中;
通过所述深度卷积神经网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,所述小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标;
将所述小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将所述大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征;
合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性;以及
通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。
2.根据权利要求1所述的基于多尺度注意力机制的行人检测方法,其特征在于,所述小尺度目标为高度小于120像素的行人。
3.根据权利要求1所述的基于多尺度注意力机制的行人检测方法,其特征在于,还包括:
去除所有全连接层以及分类层,并在深度卷积神经网络后面增加卷积层,其中,深度卷积神经网络由所述卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
4.根据权利要求3所述的基于多尺度注意力机制的行人检测方法,其特征在于,还包括:
在所述卷积层增加所述行人注意力模块,所述行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
5.根据权利要求1-4任一项所述的基于多尺度注意力机制的行人检测方法,其特征在于,还包括:
采用以下多任务目标函数来训练所述深度卷积神经网络:
L=LconfλlLlocmLmask
其中
Figure FDA0002455449250000011
Figure FDA0002455449250000021
Figure FDA0002455449250000022
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure FDA0002455449250000023
为行人置信度的预测,
Figure FDA0002455449250000024
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure FDA0002455449250000025
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure FDA0002455449250000026
为第i个像素的分类结果。
6.一种基于多尺度注意力机制的行人检测装置,其特征在于,包括:
获取模块,用于获取输入图像,并将所述输入图像送到深度卷积神经网络中;
生成模块,用于通过所述深度卷积神经网络的行人注意力模块生成小尺度行人解析图和大尺度行人解析图,其中,所述小尺度行人解析图用于凸显小尺度目标,大尺度行人解析图用于凸显大尺度目标;
元积模块,用于将所述小尺度行人解析图和达到预设辨率的特征图进行元积,以显著化小尺度行人的特征且降低大尺度行人和背景的干扰,并将所述大尺度行人解析图和达到预设语义能力的特征层进行元积,以显著化大尺度行人的特征且平滑背景区域的特征;
合并模块,用于合并相邻且拥有不同感受野大小的特征图,以获得小目标更丰富的局部和背景信息,且加强检测器对小目标的鲁棒性;以及
检测模块,用于通过经过注意力机制以及特征合并模块得到的最终特征图进行行人检测,并获取行人检测结果。
7.根据权利要求6所述的基于多尺度注意力机制的行人检测装置,其特征在于,所述小尺度目标为高度小于120像素的行人。
8.根据权利要求6所述的基于多尺度注意力机制的行人检测装置,其特征在于,还包括:
去除模块,用于去除所有全连接层以及分类层,并在深度卷积神经网络后面增加卷积层,其中,深度卷积神经网络由所述卷积层和池化层组成,使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降,以运用不同感受野与分辨率的特征层去检测不同尺度的行人。
9.根据权利要求8所述的基于多尺度注意力机制的行人检测装置,其特征在于,还包括:
行人注意力模块,所述行人注意力模块由一个池化层和三个稠密卷积层组成,并且使用反卷积操作以获得同输入图片同样大小的两张行人解析图。
10.根据权利要求6-9任一项所述的基于多尺度注意力机制的行人检测装置,其特征在于,还包括:
训练模块,用于采用以下多任务目标函数来训练所述深度卷积神经网络:
L=LconfλlLlocmLmask
其中
Figure FDA0002455449250000031
Figure FDA0002455449250000032
Figure FDA0002455449250000033
其中,N为检测框的数目,xij表示第i个检测框是否与第j个真实行人框位置相符,{x,y,w,h}代表框的中心坐标、宽度和高度,d为检测结果,g是标注信息,
Figure FDA0002455449250000034
为行人置信度的预测,
Figure FDA0002455449250000035
为背景置信度的预测,Ns为行人解析图种的像素数量,Sc=2为尺度的数量,yj为真实像素标签,ls为尺度类别,
Figure FDA0002455449250000036
为每一个像素的训练权重,其中hi是由第ith像素表示的行人的高度,I{.}为指示函数,
Figure FDA0002455449250000037
为第i个像素的分类结果。
CN201810862725.XA 2018-08-01 2018-08-01 一种基于多尺度注意力机制的行人检测方法及装置 Active CN109284670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810862725.XA CN109284670B (zh) 2018-08-01 2018-08-01 一种基于多尺度注意力机制的行人检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810862725.XA CN109284670B (zh) 2018-08-01 2018-08-01 一种基于多尺度注意力机制的行人检测方法及装置

Publications (2)

Publication Number Publication Date
CN109284670A CN109284670A (zh) 2019-01-29
CN109284670B true CN109284670B (zh) 2020-09-25

Family

ID=65183351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810862725.XA Active CN109284670B (zh) 2018-08-01 2018-08-01 一种基于多尺度注意力机制的行人检测方法及装置

Country Status (1)

Country Link
CN (1) CN109284670B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059718A (zh) * 2019-03-18 2019-07-26 国网浙江省电力有限公司信息通信分公司 基于多类多注意力机制的细粒度检测方法
CN110059582B (zh) * 2019-03-28 2023-04-07 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110210485A (zh) * 2019-05-13 2019-09-06 常熟理工学院 基于注意力机制指导特征融合的图像语义分割方法
CN110533022B (zh) * 2019-06-11 2023-12-19 广州海昇教育科技有限责任公司 一种目标检测方法、系统、装置及存储介质
CN110263731B (zh) * 2019-06-24 2021-03-16 电子科技大学 一种单步人脸检测系统
CN110647794B (zh) * 2019-07-12 2023-01-03 五邑大学 基于注意力机制的多尺度sar图像识别方法及装置
CN110378288B (zh) * 2019-07-19 2021-03-26 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110533068B (zh) * 2019-07-22 2020-07-17 杭州电子科技大学 一种基于分类卷积神经网络的图像对象识别方法
CN110458234B (zh) * 2019-08-14 2021-12-03 广州广电银通金融电子科技有限公司 一种基于深度学习的以图搜车方法
CN110704652A (zh) * 2019-08-22 2020-01-17 长沙千视通智能科技有限公司 基于多重注意力机制的车辆图像细粒度检索方法及装置
CN110674845B (zh) * 2019-08-28 2022-05-31 电子科技大学 一种结合多感受野注意与特征再校准的菜品识别方法
CN111008555B (zh) * 2019-10-21 2021-08-17 武汉大学 一种无人机图像弱小目标增强提取方法
CN111368625B (zh) * 2019-11-08 2024-02-27 深圳北航新兴产业技术研究院 一种基于级联优化的行人目标检测方法
CN111126379B (zh) * 2019-11-22 2022-05-17 苏州浪潮智能科技有限公司 一种目标检测方法与装置
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111061890B (zh) * 2019-12-09 2023-04-07 腾讯云计算(北京)有限责任公司 一种标注信息验证的方法、类别确定的方法及装置
CN111275694B (zh) * 2020-02-06 2020-10-23 电子科技大学 一种注意力机制引导的递进式划分人体解析系统及方法
CN112036467B (zh) * 2020-08-27 2024-01-12 北京鹰瞳科技发展股份有限公司 基于多尺度注意力神经网络的异常心音识别方法及装置
CN112380960A (zh) * 2020-11-11 2021-02-19 广东电力信息科技有限公司 一种人群计数方法、装置、设备和存储介质
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113269038B (zh) * 2021-04-19 2022-07-15 南京邮电大学 一种基于多尺度的行人检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120328161A1 (en) * 2011-06-22 2012-12-27 Palenychka Roman Method and multi-scale attention system for spatiotemporal change determination and object detection
US10140522B2 (en) * 2015-12-16 2018-11-27 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN108038409B (zh) * 2017-10-27 2021-12-28 江西高创保安服务技术有限公司 一种行人检测方法
CN108154147A (zh) * 2018-01-15 2018-06-12 中国人民解放军陆军装甲兵学院 基于视觉注意模型的感兴趣区域检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MULTI-GRAINED DEEP FEATURE LEARNING FOR PEDESTRIAN DETECTION;Chunze Lin 等;《IEEE》;20180727;全文 *

Also Published As

Publication number Publication date
CN109284670A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109284670B (zh) 一种基于多尺度注意力机制的行人检测方法及装置
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN110400332B (zh) 一种目标检测跟踪方法、装置及计算机设备
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN111008600B (zh) 一种车道线检测方法
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
Chen et al. A lightweight CNN model for refining moving vehicle detection from satellite videos
CN116863342B (zh) 一种基于大尺度遥感影像的松材线虫病死木提取方法
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN115019201A (zh) 一种基于特征精细化深度网络的弱小目标检测方法
Dai et al. GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar
JP2020017136A (ja) 物体検出認識装置、方法、及びプログラム
Mu et al. Finding autofocus region in low contrast surveillance images using CNN-based saliency algorithm
CN116912763A (zh) 一种融合步态人脸模态的多行人重识别方法
Meng et al. Fast-armored target detection based on multi-scale representation and guided anchor
Nayan et al. Real time multi-class object detection and recognition using vision augmentation algorithm
CN114067359A (zh) 融合人体关键点与可见部位注意力特征的行人检测方法
Guo et al. Overlapped pedestrian detection based on yolov5 in crowded scenes
CN115083016A (zh) 一种基于单目摄像机的面向小目标手部隔空交互方法与装置
CN114332754A (zh) 基于多度量检测器的Cascade R-CNN行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant