CN110135243A

CN110135243A - 一种基于两级注意力机制的行人检测方法及系统

Info

Publication number: CN110135243A
Application number: CN201910260572.6A
Authority: CN
Inventors: 张重阳; 罗艳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-16
Anticipated expiration: 2039-04-02
Also published as: CN110135243B

Abstract

本发明公开了一种基于两级注意力机制的行人检测方法，将原始图像送入RPN模块得到目标候选框；将每一个候选框自上而下分为三个子区域；将子区域经过pool模块的特征分别送入一个第一级注意力模块，得到每一个子区域内相对精准的部位特征；将每一个候选框的部位特征与全局特征堆叠，送入一个第二级注意力模块，进行全局特征与部位特征的自适应加权；将两级注意力模块串联，得到端到端的检测网络模型。本发明有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人，有效提高视频图像中行人目标的检测能力。

Description

一种基于两级注意力机制的行人检测方法及系统

技术领域

本发明涉及的是一种图像中目标检测领域的方法，具体是一种基于两级注意力机制的行人检测方法及系统。

背景技术

大数据时代的到来，推动着计算机技术的不断更新和发展，行人检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。现有的行人检测算法，因为尚存如下困难和挑战，检测结果还有待提升：由于拍摄距离原因，图片较大但目标行人尺寸较小，通过深度学习卷积神经网络降缩之后目标区域的特征很少，难以进行有效的检测识别；由于拍摄角度的固定性，行人的身体会出现部分遮挡问题，在检测过程中有用的信息相对减少，从而导致漏检的发生。

目前，较为成熟的行人检测算法基本可以分为两类：(1)基于背景建模。该方法主要用于视频中检测运动目标：即将输入的静态图像进行场景分割，利用混合高斯模型(GMM)或运动检测等方法，分割出其前景与背景，再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模，不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于行人目标的图像收集起来形成训练集，基于一个人工设计的算法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM，Adaboost及神经网络等模型。

综合而言近年来基于统计学习的目标检测算法表现较优，基于统计学习的目标检测算法可以分为传统人工特征目标检测算法以及深度特征机器学习目标检测算法。

传统人工特征目标检测算法主要是指其利用人工设计的特征，来进行目标检测的建模。近年来表现优秀的人工设计的特征算法主要包括：2010年Pedro F.Felzenszwalb等提出的DPM(Deformable Part Model)算法(Object detection with discriminativelytrained part-based models)。Piotr Dollár等2009年提出的ICF(Integral ChannelFeatures)、2014年提出的ACF算法(Fast Feature Pyramids for Object Detection)。2014年Shanshan Zhang等提出的Informed Harr方法(Informed Haar-like FeaturesImprove Pedestrian Detection)，致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果，但因为人工特征表征能力不足，仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力，在行人检测方面得到越来越广泛和成功的应用。基础的行人检测算子是R-CNN(Region-Convolutional Neural Network)模型。2014年，Girshick等人提出RCNN用于通用目标的检测，之后又是提出了Fast RCNN和Faster RCNN，提高了基于深度学习目标检测算法的精度和速度.2016年提出的Yolo和SSD等算法，则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测，大都是使用从整个候选框提取的特征进行分类回归，仍然存在深度特征提取不充分的问题，尤其是针对行人中的遮挡目标以及小尺寸目标，一方面由于遮挡目标身体部分部位的不可见性，视觉特征有限；另一方面是因为深度卷积神经网络层层的尺寸降缩，特征尺寸更小；这两方面的因素导致行人目标的检测精度不高、漏检率需要进一步降低。

2018年，Shanshan Zhang等提出的part attention方法(Occluded PedestrianDetection Through GuidedAttention in CNNs)，致力于提取更加具有表征信息的身体部位特征来进行训练。但是仍然存在一些问题，一方面是这种方法依然使用的是整个目标候选框的特征，没有充分提取身体部位特征，此外，过于注重身体部位特征或过于注重整个候选框的特征，导致网络在全局与局部之间的失衡，所以检测器没有很好的泛化性能；另一方面，利用一个部位检测器来提取身体部位特征，会引入额外标注的身体部位信息，造成成本的增加。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中基于深度模型的行人检测方法存在的上述不足，本发明的目的是提出一种基于两级注意力机制的行人检测方法及系统。

根据本发明的一个方面，提供了一种基于两级注意力机制的行人检测方法，包括：

S1，基于Faster RCNN以及FPN(Feature Pyramid Network)网络构造一个端到端行人检测网络，所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块，其中第一级注意力模块的输入特征是基于RPN(Region Proposal Network)模块产生的目标候选框；

S2，利用第一级注意力模块得到精准的部位特征：

原始输入图像Image送入RPN模块提取目标候选框；将每一个目标候选框自上而下分为三个子区域P₁，P₂，P₃，分别对应直立行人头部，上身以及下身；将每个子区域经过pool(RoI Pooling)模块的特征，各自送入一个对应的第一级注意力模块A₁；通过该第一级注意力模块的仿射变换功能，可以提取出该子区域中相对精准的部位特征和

S3，利用第二级注意力模块平衡整体与部位特征：

将每个目标候选框B通过第一级注意力模块得到的每一个子区域内的部位特征与目标候选框B整体特征堆叠，作为第二级注意力模块的输入特征；利用第二级注意力模块的自适应加权功能，依据输入特征自适应挑选不同成分的特征，得到各成分对应的加权值o′_g，o′_h，o′_u，o′_l(分别对应整体，头部，上身，下身)；将加权后的特征o′_g·B，分别送入分类回归模块进行分类与回归，实现检测定位，得到检测结果B₀，即为图像中需要检出的行人目标。

优选地，所述S2中，对每一个目标候选框子区域的划分方法包括：

首先确定每一个目标候选框的左上角与右下角的坐标(x₁，y₁)，(x₂，y₂)以及每一个目标候选框的尺寸H×W，其中H，W分别为该候选框的高和宽，再从每一个目标候选框中划分出三个子区域，即：

对于行人头部对应的子区域，用坐标可以表示为：

H＝|y₂-y₁|

W＝|x₂-x₁|

P₁＝[(x₁，y₁)，(x₂，y₂+α·H)]

对于行人上身对应的子区域，用坐标可以表示为：

对于行人下身对应的子区域，用坐标可以表示为：

P₃＝[(x₁，y₁-α·H)，(x₂，y₂)]；

其中，α表示用于控制每一个子区域高度的参数。

更为优选地，参数α用来控制每一个子区域的高度；在整体检测流程中，参数α被设定为0.4，表示每一个子区域的高度占整个目标候选框高度的40％。

优选地，所述S2中，提取精准的部位特征的方法为：

将子区域经过pool(RoI Pooling)模块的特征P₁，P₂，P₃分别送入第一级注意力模块的仿射变换模块，得到该子区域对应的仿射变换矩阵通过该仿射变换矩阵，将子区域上每个像素点对应的坐标(x，y)映射到仿射散点图S^*上的对应坐标(x^*，y^*)，即：

其中，τ(.)表示空间仿射变换函数，M表示仿射变换矩阵，表示仿射变换矩阵的参数，通过不同数值的组合，可以实现不同的仿射变换功能，如：平移、旋转、反射等；

将该仿射散点图S^*送入单位圆核函数，输出注意力权重图A；将注意力图与相应子区域的特征逐通道相乘，即可得该子区域相对精准的部位特征，具体为：

κ(p，q)＝f_relu(1-||p-q||₂)

其中，A(i，j)表示注意力权重图A上坐标为(i，j)的点对应的注意力权重值，p，q分别表示坐标点，f_relu(·)表示线性整流函数，κ(·)表示单位圆核函数，P_i表示输入的子区域特征，表示第一级注意力模块输出精准的部位特征。

更为优选地，所述仿射变换模块主要由三层全连接层组成，对于不同语义信息的子区域(如：头部、上身、下身)，其仿射变换模块的三层全连接层权重共享。

优选地，所述S3中，进行自适应加权的方法为：

对于整体与部分堆叠的特征其中利用全局平均池化(Global Average Pooling)将其变换为其中，C表示特征图通道数；将池化特征送入全连接层得到自适应加权参数o′_g，o′_h，o′_u，o′_l；通过注意力正则化方法将加权参数的和限制为o′_g+o′_h+o′_u+o′_l≈1；将正则化加权参数与对应成分分别相乘，得到最后用于分类与回归模块的加权特征；其中，对应成分是指：o′_g对应的全局特征B，o′_h对应的头部特征o′_u对应的上身特征o′_l对应的下身特征

更为优选地，所述全局平均池化函数(Global Average Pooling)f_g(·)为：

其中，X为给定的特征，H、W分别为给定特征X的高度与宽度，X(x，y)为特征X在给定坐标点(x，y)处的像素值。

更为优选地，注意力正则化的方法为：利用注意力正则化损失函数f_ar(·)，对自适应加权参数进行限制，其中L_2nd表示为第二级注意力模块的损失函数，N为RPN模块提取出的目标候选框的个数，o为第二级注意力模块的自适应加权参数，g、h、u、l分别对应整体、头部、上身、下身。

优选地，所述方法还包括S4，利用各个模块(第一级注意力模块、第二级注意力模块和分类回归模块)的损失之和构造一个能够端到端训练的检测网络模型，并利用该损失之和对整个检测网络模型进行训练。

更为优选地，所述S4中，各个模块的损失之和包括：RPN模块的损失、第二级注意力模块的注意力正则化损失以及最终的分类回归模块的损失进行加权求和，作为整个检测网络的总损失，得到一个端到端的检测网络模型。

根据本发明的第二个方面，提供了一种基于两级注意力机制的行人检测系统，基于Faster RCNN以及FPN网络构造，包括：基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块；其中：

所述RPN模块，用于对原始输入图像提取目标候选框；

所述pool模块，用于提取目标候选框中每一个子区域的特征，并送入第一级注意力模块；

所述第一级注意力模块通过仿射变换方法提取每一个子区域精准的部位特征，并送入第二级注意力模块；

所述第二级注意力模块用于平衡目标候选框的整体特征与部位特征，得到加权后的特征并送入分类回归模块；

所述分类回归模块，用于对加权后的特征进行分类与回归，得到的检测结果即为图像中需要检出的行人目标。

优选地，所述检测系统还包括检测网络模型模块，所述检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型，并利用检测网络模型得到的目标进行训练。

与现有技术相比，本发明具有如下有益效果：

本发明提供的基于两级注意力机制的行人检测方法及系统，既可实现行人身体部位特征的成分挖掘利用，有效降低现有检测方法因特征不足、细节特征丢失带来的遮挡目标、小目标漏检等问题，也可以有效避免由于单一特征导致的整体与局部特征失衡问题，从而提高检测器在复杂场景下的鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中整体行人检测框架流程图；

图2为本发明一实施例中两级注意力机制流程图；

图3为本发明一实施例中第一级注意力模块仿射变换流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明针对行人检测任务等应用，在以下实施例中，设计了一种基于两级注意力机制的行人检测方法，可以参照以下步骤进行：

第一步，构造一个基础检测网络。

本步骤中，基于Faster RCNN以及FPN网络构造一个端到端行人检测网络；将RPN模块产生的每个目标候选框分为三个子区域，送入第一级注意力模块，得到精准的部位特征；将整体特征(B)与部位特征(P₁，P₂，P₃)堆叠，作为第二级注意力模块的输入特征，进行不同组成成分的自适应加权；将第二级注意力模块的加权特征送入分类与回归模块，得到最终的行人目标检测结果。参照图1所示。

第二步，利用第一级注意力模块得到精准的部位特征。

RPN模块得到的目标候选框经过子区域划分后，送入第一级注意力模块，通过仿射变换(包括旋转、错切、反射、平移、缩放等)提取每一个子区域中相对精准的部位区域。参照图3所示。

第三步，利用第二级注意力模块平衡整体与部位特征。

本步骤中，将第一级注意力模块得到的每一个子区域内的部位特征与整体特征B堆叠，作为第二级注意力模块的输入特征；利用第二级注意力模块的自适应加权功能，网络依据输入样本自适应挑选不同成分的特征，得到各成分对应的加权值o′_g，o′_h，o′_u，o′_l(分别对应整体，头部，上身，下身)；将加权后的特征o′_g·B，送入检测器的分类与回归模块，进行目标检测定位，得到检测结果，即为图像中需要检出的行人目标。

在上述三个步骤基础上，还可以包括第四步，即：利用各个模块损失之和构造端到端检测网络。

本步骤中，将RPN模块损失、第一级注意力模块的注意力正则化损失以及最终的分类回归模块损失进行加权求和，作为整个检测网络的总损失；并利用该损失之和对整个检测网络模型进行训练，得到完整的行人检测网络模型。

具体的，在一实施例中：

S1，基于Faster RCNN以及FPN网络构造一个端到端行人检测网络；的端到端行人检测网络包括基础网络Faster RCNN中的RPN模块、pool模块、分类回归模块，还包括新增的第一级注意力模块和第二级注意力模块。

S2，利用第一级注意力模块检测相对精准的部位特征：原始图像送入端到端检测器的卷积神经网络(Convolutional Neural Network，CNN)模块的深卷积层对输入图像进行多层卷积等运算，提取得到图片的深度特征；基于深度特征，利用Faster RCNN网络中的RPN(Region Proposal Network)模块得到目标候选框；将每一个目标候选框划分为三个子区域，记为P₁，P₂，P₃，分别对应直立行人头部，上身，下身；将子区域的特征送入网络第一级注意力模块，通过该模块的仿射变换功能(包括旋转、错切、反射、平移、缩放等)自适应聚焦每一个子区域的部位特征，从而过滤冗余背景信息，得到身体部位区域的精准定位，记为

S3，利用第二级注意力模块平衡整体与部位特征：将Faster RCNN网络中第一级注意力模块输出的部位特征，与RPN得到的目标候选框的池化特征堆叠起来，得到一个多成分融合特征；将此特征作为输入送入第二级注意力模块，利用全局平均池化(Global AveragePooling)与全连接层，得到每个组成成分的自适应加权参数。这里的每个组成成分，是指整个目标候选框以及三个子区域对应的部位特征；将加权后的特征作为目标候选框的完整特征送入检测器进行分类与回归，实现目标检测定位，得到检测结果B₀，即为图像中需要检出的行人目标。

在S2中：输入图像进行多层卷积等运算得到图片的特征图。首先将图片通过一个卷积神经网络模块的深卷积层(Deep CNN，DCNN)，比如VGG16或者ResNet，对输入图像进行多层卷积等运算得到图片的特征图。

利用Faster RCNN网络中的RPN模块来产生第一级注意力模块的目标候选框，并用分类、位置回归计算相应的分类和目标框位置，检测得到第一级注意力模块输入目标的位置框，即为检出框B。参照图2以及图3所示，将检出框B划分为三个子区域P₁，P₂，P₃，送入仿射变换模块，得到该子区域对应的仿射变换矩阵通过该仿射变换矩阵，将子区域上每个像素点对应的坐标(x，y)映射到仿射散点图S^*上的对应坐标(x^*，y^*)，即：

将仿射散点图S^*通过单位圆核函数，得到每一个子区域对应的注意力加权图A；将注意力加权图与每一个子区域的池化特征逐通道相乘，即得到每一个子区域精准的部位特征即：

κ(p，q)＝f_relu(1-||p-q||₂)

参照图2所示，在S3中：将第一级注意力模块输出的子区域部位特征与RPN模块提取出的目标候选框的整体池化特征堆叠，形成其中作为第二级注意力模块的输入特征；利用全局平均池化(Global Average Pooling)将其变换为即：

其中X为给定的特征，H，W分别为给定特征X的高度与宽度，X(x，y)为特征X在给定坐标点(x，y)处的像素值。

将全局平均池化后的特征送入全连接层得到自适应加权参数o_g，o_h，o_u，o_l，将此加权参数通过sigmoid函数，即：

可得自适应加权参数o′_g，o′_h，o′_u，o′_l；通过注意力正则化机制将加权参数的和限制为o′_g+o′_h+o′_u+o′_l≈1；将正则化加权参数与对应成分分别相乘，得到最后用于分类与回归的加权特征；这里的对应成分分别相乘指的是形如o′_g·B，的相乘方法。将此加权特征进行堆叠，送入检测器的分类与回归模块，进行行人目标检测定位，得到检测结果，即为图像中需要检出的行人目标。

在本发明部分实例中，采用的是各个模块损失之和，包括：RPN模块，注意力正则化损失，检测器分类与回归模块损失，作为整体网络框架的损失，用于行人检测器的端到端训练，得到一个端到端的检测网络模型。

现有的行人检测方法对于某些尺寸较大或者遮挡不是很严重的行人目标可以很好地识别，但是由于现实应用场景比较复杂，尺寸较大的目标，以及毫无遮挡或较少遮挡的只占很小的一部分，对于距离较远的小尺寸目标，物体遮挡\自遮挡目标，检测结果并不是很好。复杂场景下的行人检测有以下特点：

特点一、小尺寸行人占比大。由于拍摄距离较远，或者行人本身的尺寸变化较大(如：成人与儿童)，这类目标往往占比较大。用目前的深度学习等方法直接对这类小目标检测，由于目标外观、轮廓、梯度等视觉特征模糊不清，很容易与背景、尤其是具有垂直结构的相似性假正例目标的混淆，难以对其进行准确区分，造成误检漏检率的增高。

特点二、遮挡行人占比大。在应用场景中，图像中的行人目标被局部遮挡的情景是难以避免的。由于行人的全局特征遭到破环，导致多数现有算法失灵。此外，由于遮挡模式的多样性，导致过于依赖部位检测器的遮挡算法性能不佳。

基于现实中存在的行人检测困难，本发明上述实施例的图像中对于行人进行基于两级注意力机制的检测方法，提出了先利用CNN网络中的深层特征提取提取目标候选框，将目标候选框划分为三个子区域，利用仿射变换模块提取三个子区域的部位特征。在第一级注意力模块输出的精准部位特征的基础上，堆叠RPN模块产生的整体特征，进行第二级整体-部位特征的自适应加权，使得网络自适应关注全局/局部特征，在保证小尺度样本，遮挡样本具有优越性能的同时，该行人检测器在常规行人样本上也具有卓越性能。本发明上述实施例提出的两级注意力机制的行人检测方法，从上述问题出发，通过两级注意力模块串联，三个子区域并联检测且特征共享等设计，能较好地解决目标在小尺度、遮挡场景时的精准、高效检测。

本发明上述实施例中提出的方法包括构建利用待检测图片送入CNN网络产生不同层次的特征，利用深层特征和RPN模块初步提取目标候选框；再通过子区域划分模块，将每一个目标候选框划分为表征行人头部，上身，下身的子区域，送入第一级注意力模块，提取每一个子区域中的行人身体部位特征，将提取出的精准部位特征与RPN模块产生的整体特征进行堆叠，送入第二级注意力模块，通过第二级注意力模块中的全局平均池化(以及全连接层自适应加权整体/部位特征，得到鲁棒性更强的行人特征，送入最终的分类与模块进行行人目标检测与精细定位；整个网络通过将各个模块的损失进行加权求和，作为整个网络的损失函数，实现端到端的网络训练。整个检测过程包括四个环节：

一、待检测图片送入CNN网络进行多层卷积运算产生不同层次的特征。将图片送入ResNet与FPN网络，对输入图像进行多层卷积等运算得到图片的特征图。

二、利用深层特征和Faster RCNN网络中的RPN模块产生的目标候选框划分部位子区域，通过Pool(RoI Pooling)模块得到第一级注意力模块的输入特征。利用第一级模块的仿射变换功能(包括旋转、错切、反射、平移、缩放等)自适应聚焦每一个子区域的部位特征。具体操作如图3所示。在训练时，本实例将经过缩放的图片(原图：640×480，缩放后：1280×960)送入CNN网络，提取图片的深度特征；利用Faster RCNN网络中的RPN(Region ProposalNetwork)模块得到目标候选框；将每一个目标候选框划分为三个子区域，记为P₁，P₂，P₃，分别对应直立行人头部，上身，下身，其中每一个子区域的高度与对应目标候选框高度的比值为0.4，即每一个子区域的高度占整个目标候选框高度的五分之二。对于相邻子区域存在重叠区域，对于每一个目标候选框的三个子区域，头部与上身存在重叠区域，上身与下身存在重叠区域，并且两个重叠区域的高度与对应目标候选框高度的比值为0.1，即每一个重叠区域的高度占整个目标候选框高度的十分之一。这种子区域的划分方法对于第一级注意力模块提取精准的部位特征非常重要。

三、将第一级注意力模块输出的三个子区域的部位特征与RPN提取出的目标候选框的池化特征B堆叠起来，形成其中作为第二级注意力模块的输入特征；利用全局平均池化(Global Average Pooling)将其变换为将池化特征送入全连接层得到自适应加权参数o′_g，o′_h，o′_u，o′_l；通过注意力正则化机制将加权参数的和限制为o′_g+o′_h+o′_u+o′_l≈1；将正则化加权参数与对应成分分别相乘，得到最后用于分类与回归模块的加权特征；这里的对应成分分别相乘指的是形如o′_g·B，的相乘方法。将此加权特征进行堆叠，送入检测器的分类与回归模块，进行行人目标检测定位，得到检测结果，即为图像中需要检出的行人目标。图2为具体的第一级注意力模块与第二级注意力模块的流程图。

将各个模块的损失进行加权求和进行反向传播，是一种端到端的训练方式。其中，各个模块的损失包括：RPN模块，注意力正则化损失，检测器分类与回归模块损失。

loss＝L_{rpn_cls}+L_{rpn_reg}+L_cls+L_reg+λ_L2nd

其中，loss指总的损失，L_{rpn_cls}指RPN模块的分类损失，L_{rpn_reg}指RPN模块的回归损失，L_cls指检测器分类损失，L_reg指检测器回归损失，L_2nd指注意力正则化损失，其中参数λ用于平衡注意力正则化损失与其余损失，在上述实施例中λ＝1。

在本发明实施例中，大目标是指行人目标的像素高度大于50pixel；小目标是指行人目标的像素高度小于等于50 pixel。部分遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.65，1)之间，严重遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.20,0.65)之间。

本发明另一实施例中，通过构造一个端到端的两级注意力检测系统，先精准定位目标候选框的身体部位特征，充分提取小目标/遮挡行人有用特征，有效去除复杂的背景干扰，再自适应加权整体/局部特征，从而有效保证整体行人检测器无论在小目标/遮挡目标，还是在常规行人检测上都取得优越性能，提升图像中行人检测的精度。参照图1所示，一种基于两级注意力机制的行人检测系统的实施例，该系统基于Faster RCNN以及FPN网络构造，包括：RPN模块、第一级注意力模块、第二级注意力模块、pool模块以及分类回归模块；其中：RPN模块对原始输入图像提取目标候选框；pool模块提取目标候选框中每一个子区域的特征，并送入第一级注意力模块；第一级注意力模块通过仿射变换方法提取每一个子区域精准的部位特征，并送入第二级注意力模块；第二级注意力模块平衡目标候选框的整体特征与部位特征，得到加权后的特征并送入分类回归模块；分类回归模块对加权后的特征进行分类与回归，得到的检测结果即为图像中需要检出的行人目标。

在另一较优实施例中，检测系统还可以包括检测网络模型模块，检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型，并利用检测网络模型得到的目标进行训练。

本发明上述实施例设计的基于两级注意力机制的行人检测方法和系统，将原始图像Image送入检测器的RPN(Region Proposal Network)模块得到目标候选框B；将每一个候选框自上而下分为三个子区域P₁，P₂，P₃，分别对应直立行人头部，上身以及下身；将子区域经过检测器的pool(RoI Pooling)模块的特征分别送入一个第一级注意力模块A₁，得到每一个子区域内相对精准的部位特征将每一个候选框的部位特征与全局特征堆叠，送入一个第二级注意力模块A₂，进行全局特征与部位特征的自适应加权；将两级注意力模块串联，得到端到端的检测网络模型。通过构造一个两级注意力机制，先提取部位特征，再对整体行人特征与部位特征进行自适应加权，有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，尤其对于可用信息相对较少的被遮挡行人与冗余噪声干扰严重的小尺度行人，本发明可以有效提高视频图像中行人目标的检测能力。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于两级注意力机制的行人检测方法，其特征在于，包括：

S1，基于Faster RCNN以及FPN网络构造一个端到端行人检测网络，所述检测网络包括基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块，其中第一级注意力模块的输入特征是基于RPN模块产生的目标候选框；

S2，利用第一级注意力模块得到精准的部位特征：

原始输入图像Image送入RPN模块提取目标候选框B；将每一个目标候选框B自上而下分为三个子区域P₁、P₂和P₃，分别对应直立行人头部、上身以及下身；将每个子区域经过pool模块的特征，各自送入一个对应的第一级注意力模块A₁；通过第一级注意力模块的仿射变换功能，提取出三个子区域中精准的部位特征和

S3，利用第二级注意力模块平衡整体与部位特征：

将每个目标候选框B通过第一级注意力模块得到的每一个子区域部位特征和分别与目标候选框B整体特征堆叠，作为第二级注意力模块A₂的输入特征；利用第二级注意力模块的自适应加权功能，依据输入特征的不同，自适应地计算得到不同大小的权重o′_g、o′_h、o′_u和o′_l，其中o′_g、o′_h、o′_u和o′_l分别对应整体、头部、上身以及下身；将加权后的特征o′_g·B、和分别送入分类回归模块分类与回归，得到检测结果B₀，即为图像中需要检出的行人目标。

2.根据权利要求1中所述的基于两级注意力机制的行人检测方法，其特征在于，所述S2中，每一个目标候选框子区域的划分方法包括：

确定每一个目标候选框的尺寸为H×W，其中H、W分别为目标候选框的高和宽；每一个目标候选框的左上角点与右下角点的坐标分别为(x₁，y₁)、(x₂，y₂)；根据以上表示，得到三个子区域，即：

W＝|x₂-x₁|

H＝|y₂-y₁|

P₁＝[(x₁，y₁)，(x₂，y₁+α·H)]

P₃＝[(x₁，y₂-α·H)，(x₂，y₂)]

其中，α表示用于控制目标候选框每一个子区域高度的参数。

3.根据权利要求2所述的基于两级注意力机制的行人检测方法，其特征在于，在整体检测过程中，参数α被设定为0.4，表示每一个子区域的高度占整个目标候选框高度的40％。

4.根据权利要求1中所述的基于两级注意力机制的行人检测方法，其特征在于，所述S2中，提取子区域精准的部位特征的方法为：

将子区域经过pool(RoI Pooling)模块的特征P₁、P₂、P₃分别送入第一级注意力模块的仿射变换模块，得到子区域对应的仿射变换矩阵通过仿射变换矩阵，将子区域上每个像素点对应的坐标(x，y)映射到仿射散点图S^*上的对应坐标(x^*，y^*)，即：

其中，τ(·)表示空间仿射变换函数，M表示仿射变换矩阵，表示仿射变换矩阵的参数，通过不同数值的组合，实现不同的仿射变换功能；

将仿射散点图S^*送入单位圆核函数，输出注意力权重图A；将注意力权重图A与相应子区域的特征逐通道相乘，即得该子区域精准的部位特征，具体为：

κ(p，q)＝f_relu(1-||p-q||₂)

5.根据权利要求4所述的基于两级注意力机制的行人检测方法，其特征在于，所述仿射变换模块主要由三层全连接层组成，对于不同语义信息的子区域，其仿射变换模块的三层全连接层权重共享。

6.根据权利要求1中所述的基于两级注意力机制的行人检测方法，其特征在于，所述S3中，进行自适应加权的方法为：

对于整体与部分堆叠的特征其中利用全局平均池化函数(Global Average Pooling)f_g(·)将其变换为其中，C表示特征图通道数；将池化特征送入第二级注意力模块的全连接层得到自适应加权参数o′_g、o′_h、o′_u和o′_l；通过注意力正则化方法将加权参数的和限制为o′_g+o′_h+o′_u+o′_l≈1；将正则化加权参数与对应成分分别相乘，得到最后用于分类与回归模块的加权特征；其中，对应成分是指：o′_g对应的全局特征B，o′_h对应的头部特征o′_u对应的上身特征o′_l对应的下身特征其中，全局平均池化函数(Global Average Pooling)f_g(·)是指：

其中，X为给定的特征，H、W分别为给定特征X的高度与宽度，X(x，y)为特征X在给定坐标点(x，y)处的像素值；

和/或

所述注意力正则化的方法为：利用注意力正则化损失函数f_ar(·)，对自适应加权参数进行限制，其中L_2nd表示为第二级注意力模块的损失函数，N为RPN模块提取出的目标候选框的个数，o为第二级注意力模块的自适应加权参数，g、h、u、l分别对应整体、头部、上身、下身：

7.根据权利要求1至6中任一项所述的基于两级注意力机制的行人检测方法，其特征在于，还包括S4，利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型，并利用该损失之和对整个检测网络模型进行训练；

其中：

各个模块的损失之和包括：RPN模块的损失、第二级注意力模块的注意力正则化损失以及最终的分类回归模块的损失进行加权求和，作为整个检测网络的总损失，得到一个端到端的检测网络模型。

8.一种基于两级注意力机制的行人检测系统，其特征在于，基于Faster RCNN以及FPN网络构造，包括：基础网络Faster RCNN中的RPN模块、pool模块和分类回归模块，还包括第一级注意力模块和第二级注意力模块；其中：

所述RPN模块，用于对原始输入图像提取目标候选框；

9.根据权利要求8所述的基于两级注意力机制的行人检测系统，其特征在于，还包括检测网络模型模块，所述检测网络模型模块利用第一级注意力模块、第二级注意力模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络模型，并利用该损失之和对整个检测网络模型进行训练。