CN112446308A

CN112446308A - 基于语义增强的多尺度特征金字塔融合的行人检测方法

Info

Publication number: CN112446308A
Application number: CN202011281029.3A
Authority: CN
Inventors: 王君; 朱超; 殷绪成
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-05
Anticipated expiration: 2040-11-16
Also published as: CN112446308B

Abstract

本发明提供了一种基于语义增强的多尺度特征金字塔融合的行人检测方法，涉及计算机视觉技术领域，能够有效地提取和整合多尺度特征图以进行多尺度行人检测，明显提升多尺度行人检测的性能；该方法先采用梯形路径增强模型提取图片的多尺度特征，再通过多尺度特征融合模型进行特征融合；所述梯形路径增强模型为在现有特征金字塔的基础上加入更高层次的特征层来提取更高层次的语义特征信息；所述多尺度特征融合模型具体为通过相邻特征层的特征数据相加再级联的方式进行特征融合，以增强不同尺度下的特征信息，同时减少通道数。本发明提供的技术方案适用于行人检测的过程中。

Description

基于语义增强的多尺度特征金字塔融合的行人检测方法

【技术领域】

本发明涉及计算机视觉技术领域，尤其涉及一种基于语义增强的多尺度特征金字塔融合的行人检测方法。

【背景技术】

行人检测是计算机视觉中最重要的任务之一。其目的是在图像或视频序列中准确定位行人。由于其在实际应用中的巨大价值，因此已经有很多研究工作对其进行了深入的研究。当前，行人检测已广泛应用于智能视觉系统中，例如自动驾驶，智能监控和道路场景理解。而基于深度学习的方法的应用大大提高了行人检测的性能。然而，由于行人尺度的巨大差异，多尺度行人检测仍是一个极具挑战性的研究课题。

目前有一些研究工作在多尺度行人方面进行了研究。例如，TLL(T.Song,L.Sun,D.Xie,H.Sun,and S.Pu.Small-scale pedestrian detection based on topologicalline localization and temporal feature aggregation.In The European Conferenceon Computer Vision(ECCV),September 2018.)通过定位每个行人的somatictopological line解决尺度变化问题，从而减少了背景噪声的影响。在(J.Li,X.Liang,S.Shen,T.Xu,J.Feng,S.Yan.Scale-aware Fast R-CNN for Pedestrian Detection[J].In Multimedia,2015.)中设计了两个子网分别检测大目标和小目标。然而，大多数现有的行人检测器仅在其骨干网中采用单尺度特征图进行检测，无法充分利用多尺度特征信息的优势，导致多尺度检测性能不尽人意。最近，CSP(W.Liu,S.Liao,W.Ren,W.Hu,Y.Yu.High-Level Semantic Feature Detection:A New Perspective for PedestrianDetection.CVPR 2019:5187–5196)实现了行人检测的最新结果。它采用无锚的检测方法，但是其仅从主干中提取一层特征图来进行检测，不利于多尺度目标的检测。

为了更好地检测不同尺度的物体，一些通用的目标检测器使用特征金字塔来利用多尺度信息。特征金字塔通过卷积层生成多尺度特征图以进行多尺度目标检测。最经典的特征金字塔网络(FPN)(T.Lin，P.Doll′ar，R.B.Girshick,K.He,B.Hariharan,andS.J.Belongie.Feature pyramid networks for object detection.In CVPR,2017.)由自上而下和自下而上的路径与水平连接构成。特征金字塔的每一层都将具有不同分辨率和不同语义信息的特征组合在一起，从而获得更强大的表示。但是，传统的自上而下的FPN受到固有的单向信息流的限制。PANet(S.Liu，L.Qi，H.Qin，J.Shi，J.Jia，“Path aggregationnetwork for instance segmentation”，IEEE Conference on Computer Vision andPattern Recognition,pp.8759-8768,2018.)用额外的自下而上的路径补充了FPN，以增强定位能力，但仍然存在不足。

另外，当前大多数特征金字塔都使用多重检测头对不同比例的特征图执行并行检测。该策略的主要问题在于其计算冗余，因为不同规模的多个检测头可能会重复检测中间尺度的目标，因此，不太适于广泛推广。

因此，有必要研究一种基于语义增强的多尺度特征金字塔融合的行人检测方法来应对现有技术的不足，以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此，本发明提供了一种基于语义增强的多尺度特征金字塔融合的行人检测方法，能够有效地提取和整合多尺度特征图以进行多尺度行人检测，明显提升多尺度行人检测的性能。

一方面，本发明提供一种基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述行人检测方法先采用梯形路径增强模型提取图片的多尺度特征，再通过多尺度特征融合模型进行特征融合；多尺度特征包含深层的富有语义信息的特征层数据和底层的富有细节信息的特征层数据；

所述梯形路径增强模型为在现有特征金字塔的基础上加入更高层次的特征层来提取更高层次的语义特征信息；

所述多尺度特征融合模型具体为通过相邻特征层的特征数据相加再级联的方式进行特征融合，以增强不同尺度下的特征信息，同时减少通道数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述梯形路径增强模型包括自上而下的路径和自下而上的路径，两个路径之间通过水平连接增强每个尺度的特征；自上而下的路径中的特征层表示为{P3，P4，P5，P6}，自下而上的路径中的特征层表示为{N3，N4，N5，N6，N7}。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，P6层特征数据是由P5层特征数据经过步长为2的3×3卷积操作获得。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，N6层特征数据是由N5层特征数据经过步长为2的3×3卷积操作获得。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，N7层特征数据是通过步长为2的最大池化操作获得。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述多尺度特征融合模型的工作过程包括：

S1、相邻的待相加的两个特征层中，上层特征层上采样得到下层特征层的大小，再将两个特征层相加得到对应的特征图；特征层为单数时，最下层特征层不进行相加操作；

S2、采用最近邻插值增加所有特征图的尺度；采用反卷积增加未进行相加操作的特征层的尺度；

S3、对经过尺度增加的特征图和/或特征层进行归一化操作，并使之沿着通道维度级联在一起，输出到检测头进行分类回归。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，步骤S2中尺度增加的标准为使级联获得的特征图的大小为H/r×W/r；其中，r是下采样因子，H和W为原始输入图像的高和宽。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，下采样因子r取值为4。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述梯形路径增强模型以ResNet-50为骨干，提取stage3到stage5的特征图，再分别将stage3到stage5的特征图下采样到尺度8、16和32；之后经过1×1卷积将通道数统一为256；然后再构建自上而下的路径和自下而上的路径。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述行人检测方法的实际操作工程包括：将ResNet-50作为骨干，并在ImageNet上进行预训练，同时使用Adam优化方法进行优化；

在Caltech数据集上使用2个GTX 1080Ti GPU进行训练，在CityPersons数据集上使用4个GTX 1080Ti GPU进行训练；

对于Caltech数据集，学习率设置为0.0001，batchsize设置为10，在15K次迭代后停止训练；

对于CityPersons数据集，学习率设置为0.0002，batchsize设置为2，在37.5K次迭代后停止训练。

与现有技术相比，本发明可以获得包括以下技术效果：本申请提出一种新的多尺度行人检测方法，该方法由梯形路径增强模块和多尺度特征融合模块组成；梯形路径增强模块旨在通过附加的更高层次的特征层提取更高层次的语义特征，其中所生成的特征通过补充的更高层次的语义信息得到增强，以便它们可以更准确地聚焦在行人区域，从而提高检测性能；多尺度特征融合模块旨在通过两次上采样并将相邻层相加的操作，以更有效的方式融合多尺度特征；本申请的方法在两个具有挑战性的行人检测数据集(即CityPersons和Caltech)上实现了检测性能的提升。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明与PANet特征图检测结果的可视化对比；图1(a)为PANet中特征图N5的热力图，图1(b)为本申请梯形路径增强模型中N6和N7逐像素相加后的热力图；

图2是本发明一个实施例提供的基于语义增强的多尺度特征金字塔融合网络的结构示意图；

图3是本发明一个实施例提供的多尺度特征融合模型的结构示意图；

图4是本发明一个实施例提供的在Caltech数据集上的检测结果示例，上面一行是本发明的结果，下面一行是原始CSP框架的结果；其中，图4(a)显示了对小尺度行人实例的检测结果的比较；图4(b)显示了对大尺度行人实例的检测结果的比较。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

在特征金字塔进行特征融合时，较低层的特征通过横向连接与自顶向下路径中的较高层的特征相加，从而可以将更高层级的语义信息补充到低层特征中。然而，自顶向下路径中最高层的特征图仅向下传递信息，并没有更高特征层的信息的补充。针对该不足，本申请在传统特征金字塔的基础上，通过加入更高层级的特征层提取更高层次的语义特征信息，对传统特征金字塔补充了更高级的语义特征，从而使检测器更准确地聚焦在行人区域，提高检测性能。即本发明提出一种语义增强的多尺度特征金字塔融合方法，该方法可以有效地提取和整合多尺度特征图以进行多尺度行人检测。

在传统的特征金字塔的特征融合中，底层特征与自上而下的路径中的高层特征合并，从而可以将高层语义信息补充到底层特征中。然而，最高级的特征层只向下传送信息，并没有更高的特征层的信息的补充。该特征层进一步的通过水平连接传递到N5。本申请对PANet中N5特征层的检测图进行了可视化分析，如图1(a)所示。可以发现，其对行人的注意力不够集中和准确。因此，本申请提出了梯形路径增强模块，该模块在P5层的顶部添加了P6层，以在反向传播期间补充高级特征信息。然后由P6生成N6和N7，它们提取了更高级别的语义信息，从而使行人区域的特征响应更加集中和准确。如图1(b)所示，本申请将梯形路径增强模块中N6和N7层按像素相加后的特征图进行可视化，可以发现其特征响应更准确地集中在行人区域。这一结果有效说明了通过加入更高级别的语义特征层可以提高检测性能，且无需花费昂贵的计算成本加深骨干网络。本申请的模型以ResNet50为骨干网络进行说明，在P6时的尺度已经比较小(6×7×256)，此时N7尺度为3×4×256，因此未讨论加入更高层级的情况，但是这并不代表以其他模型网络为骨干且尺度合适的情况下不能够通过增加更高更多的层级来实现高级特征信息的补充以及检测性能的提升。事实上，在很多情况下，本申请通过增加若干更高层级的方式来补充高级特征信息进而提高检测性能的方式都是可行的。

为了解决多重检测头对不同比例的特征图执行并行检测方案的计算冗余问题，本申请还提出了一种新颖的多尺度特征融合方法，以融合来自梯形路径增强模型的不同尺度的特征层，增强不同尺度下的特征信息，通过相邻层相加再级联的方式融合特征，来提高检测性能，同时降低计算成本。该模型先将相邻尺度特征层相加再级联到一起(即先相邻尺度特征图相加，之后级联在一起)，减少了用于检测的特征图的通道数，在提升网络运行速度的同时改善了检测精度，同时解决了多重检测头的计算冗余的问题，降低计算成本。

为了评估该方法的有效性，通过将本申请提出的梯形路径增强模型和多尺度特征融合模型集成到一个基于中心和尺度预测(CSP)的代表性行人检测框架中，设计一款功能强大的单阶段行人检测器。在流行的Caltech(S.Zhang,R.Benenson,M.Omran,J.Hosang,and B.Schiele.How farare we from solving pedestrian detection？In CVPR.IEEE,2016.)和CityPersons(S.Zhang,R.Benenson,B.Schiele:CityPersons:A DiverseDataset forPedestrian Detection.CVPR 2017:4457-4465.)数据集上的实验结果表明，本申请的方法不仅优于基准框架，而且还优于最新的一些行人检测方法，在Caltech数据集上，相比2018年提出的单阶段行人检测器ALFNet(W.Liu,S.Liao,W.Hu,X.Liang,andX.Chen.Learning efficient single-stage pedestrian detectors by asymptoticlocalization fitting.In The European Conference on Computer Vision(ECCV),September 2018.)提升2.6％，相比2019年提出的行人检测器CSP提升1％；在CityPersons数据集上，相比ALFNet提升1.3％，相比CSP提升0.3％。具体参见表1和表2。

表1Caltech数据集结果

表2

Citypersons数据集结果

本申请的主网络结构设计如图2所示。以ResNet-50为骨干，提取stage3到stage5的特征图，分别将特征图下采样到尺度8、16和32。之后经过1×1卷积将通道数统一为256。然后构建自上而下和自下而上的路径，通过水平连接来增强每个尺度的特征。本申请将自上而下的路径中的特征层分别表示为{P3，P4，P5，P6}，自底向上的路径中的特征层分别表示为{N3，N4，N5，N6，N7}。此外，为了获得更高层的特征信息，从P5层通过步长为2的3×3卷积操作获得了P6，从N5层通过步长为2的3×3卷积操作获得了N6。不同的是，N7是通过步长为2的最大池化操作获得的，经实验验证其性能比用卷积更好。在多尺度特征融合模型中，特征图N7首先上采样到N6的大小，之后N7与N6相加以获得特征图A1(如图3所示)。类似地，N5经过相同的操作与N4相加获得特征图A2。由于N3包含更多的几何信息，因此没有与其他尺度的特征图相加，从而为小尺度目标的检测保留更多的特征信息。假设输入图像的大小为H×W，则将最终级联获得的特征图的大小设置为H/r×W/r，其中r是下采样因子，本申请中r设置为4。本申请使用反卷积来增加N3的尺度，利用最近邻插值增加A1、A2的尺度。由于这些特征图的原始比例不同，因此对N3、A1、A2使用L2归一化。最后，这些特征图沿着通道维度级联在一起，输出到检测头进行分类回归。C3到C5是骨干网络ResNet中的特征层conv3到conv5,P3到P6是特征金字塔的自顶向下的路径中的特征层，是通过上采样和横向连接得到的，N3到N7是自底向上的路径中的特征层，是通过卷积和横向连接得到的。为了与baseline网络结构一致，我们采用从C3开始的网络结构，该结构经验证相比从C2开始更优。一般常见的特征金字塔的构建方式是从C2、C3开始的。C4开始会丢失掉一些细节的信息，C1尚未提炼出可用于检测的特征信息。具体构建方式和特征图尺度参见表3。

表3梯形路径增强模型层级具体参数

(1)本发明使用的数据集

本发明的实验首先在Caltech行人数据集上进行。Caltech行人数据集包含2.5小时的视频数据，这些数据是在洛杉矶的街道上捕获的。该数据集包含11个视频。Caltech行人数据集将图片中的行人用边界框进行注释，其中超过70％的行人实例高度小于100像素，包括小于50像素的特别小的行人实例。我们按照标准协议，使用截取的42782帧图片用于训练，4024帧用于测试。并且为了与原框架保持一致，便于与最新的行人检测结果进行比较，我们利用已经发布的新标注数据集(S.Zhang,R.Benenson,M.Omran,J.Hosang,andB.Schiele.How farare we from solving pedestrian detection？In CVPR.IEEE,2016)进行实验。

本发明还在CityPersons数据集进行实验。CityPersons是新发布的大规模行人检测数据集。我们在带有2975张图像的官方训练集上训练模型，并在包含500张图像的验证集上对其进行测试，遵循标准的评估指标(FPPI)。测试仅使用原始图像尺寸，考虑到对训练速度的影响没有扩大图片尺度训练。

(2)实验描述

在本发明的实验中，我们利用Keras深度学习框架实现。我们将ResNet-50作为骨干，并在ImageNet上进行预训练。同时，使用Adam优化方法。该网络在Caltech数据集上使用2个GTX 1080Ti GPU进行训练，在CityPersons数据集上使用4个GTX 1080Ti GPU进行训练。对于Caltech数据集，学习率设置为0.0001，batchsize设置为10，在15K次迭代后停止训练。对于CityPersons数据集，学习率设置为0.0002，batchsize设置为2，在37.5K次迭代后停止训练。

(3)实验结果

消融实验：在Caltech数据集上，首先我们将梯形路径增强模型加入CSP行人检测框架中，错检率(MS-2)由4.5％降低到4.0％，性能提升了0.5％，证明了添加具有更高语义信息的高层特征层可以进一步提高检测性能。之后我们将多尺度特征融合模型加入之后，错检率进一步降低到3.5％。相比原检测框架，精度提升了1％。同时，测试时间与原检测框架相似。

总体性能：在CityPersons数据集上，我们进一步比较了多尺度子集Small,Medium和Large上的检测结果，检测精度都有提升。实验结果表明本发明提升了多尺度的行人检测的检测精度。在总体的Reasonable集上，结果提升了0.3％，且测试时间并没有增加，为0.34s/img；在Caltech数据集上，在总体的Reasonable集上，结果提升了1％，且测试时间并没有增加，为66ms/img。

图4显示了来自Caltech数据集的检测结果。如图4(a)所示，与原始CSP框架相比，我们提出的方法对于小规模的行人具有更好的召回率。此外，通过将本发明与原始CSP框架在大尺度实例的检测结果的比较，如图4(b)所示，可以看出，我们的方法可以更准确地检测到大尺度行人的全身框。

可以看出，本发明提升了多尺度行人检测的性能。

本发明提出了用于多尺度行人检测的基于语义增强的多尺度特征金字塔融合方法。该网络基于多尺度特征金字塔，提出了梯形路径增强模型(TPAM)，同时设计了多尺度特征融合模型(MFFM)。梯形路径增强模型通过加入更高层的特征层来提取高级语义信息，从而使行人检测器更关注于行人区域。多尺度特征融合模型用于融合从梯形路径增强模型输出的多尺度特征图，从而进一步利用多尺度特征信息，并且减少了由多重检测头结构带来的计算冗余问题，同时通过减少通道数节省了网络计算开销。实验表明，本发明提高了Caltech和CityPersons行人数据集上的行人检测任务的准确率。

以上对本申请实施例所提供的一种基于语义增强的多尺度特征金字塔融合的行人检测方法，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。

Claims

1.一种基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述行人检测方法先采用梯形路径增强模型提取图片的多尺度特征，再通过多尺度特征融合模型进行特征融合；

所述梯形路径增强模型为在现有特征金字塔的基础上加入更高层次的特征层来提取更高层次的特征信息；

2.根据权利要求1所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述梯形路径增强模型以ResNet-50为骨干网络，构建自上而下的路径和自下而上的路径，两个路径之间通过水平连接增强每个尺度的特征；自上而下的路径中的特征层表示为{P3，P4，P5，P6}，自下而上的路径中的特征层表示为{N3，N4，N5，N6，N7}。

3.根据权利要求2所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，P6层特征数据是由P5层特征数据经过步长为2的3×3卷积操作获得。

4.根据权利要求2所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，N6层特征数据是由N5层特征数据经过步长为2的3×3卷积操作获得。

5.根据权利要求2所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，N7层特征数据是通过步长为2的最大池化操作获得。

6.根据权利要求1所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述多尺度特征融合模型的工作过程包括：

7.根据权利要求6所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，步骤S2中尺度增加的标准为使级联获得的特征图的大小为H/r×W/r；其中，r是下采样因子，H和W为原始输入图像的高和宽。

8.根据权利要求7所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，下采样因子r取值为4。

9.根据权利要求2所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述梯形路径增强模型以ResNet-50为骨干网络提取stage3到stage5的特征图，再分别将stage3到stage5的特征图下采样到尺度8、16和32；之后经过1×1卷积将通道数统一为256；然后再构建自上而下的路径和自下而上的路径。

10.根据权利要求1所述的基于语义增强的多尺度特征金字塔融合的行人检测方法，其特征在于，所述行人检测方法的实际操作工程包括：将ResNet-50作为骨干，并在ImageNet上进行预训练，同时使用Adam优化方法进行优化；

所述行人检测方法适用于Caltech数据集和CityPersons数据集，使用若干GTX 1080TiGPU进行训练；训练前先设置学习率、batchsize以及迭代次数。