CN113505640A

CN113505640A - 一种基于多尺度特征融合的小尺度行人检测方法

Info

Publication number: CN113505640A
Application number: CN202110596757.1A
Authority: CN
Inventors: 达飞鹏; 邹梓吟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-15

Abstract

本发明公开了一种基于多尺度特征融合的小尺度行人检测方法。首先将输入图像通过主干网络进行下采样，然后针对小尺度目标使用多尺度特征融合增强模块(MFFE)提取行人特征，最后送入检测器获得分类结果。其中多尺度特征融合增强模块包含两个部分，感受野增强模块和自适应空间特征融合模块。本发明的核心多尺度特征融合增强模块关注不同层级行人特征的提取与融合，加强对不同尺度特征图的利用，可以嵌入应用于不同行人检测网络，具有可迁移性和可扩展性，提高了网络对小尺度行人的检测能力，对提升行人检测效果具有明显帮助。

Description

一种基于多尺度特征融合的小尺度行人检测方法

技术领域

本发明属于行人检测技术领域，具体涉及一种基于多尺度特征融合的小尺度行人检测方法。

背景技术

在当前城市道路监控、车载摄像头、无人机航拍等道路检测场景中，行人目标构建了图像中的大部分场景。在相机捕获的图像中，行人往往会出现于画面中多个位置，同时因为距离摄像头的远近在图像中呈现出不同的尺寸。对于固定分辨率的摄像头而言，行人大小反映为所占区域像素面积的差异，离摄像头距离远的目标占有的像素面积小，分辨率低，尺寸小，距离摄像头近的目标占有的像素面积高，分辨率高，尺寸大。不同分辨率的行人目标所含有的细节信息存在很大差异，例如大尺度行人往往可以通过躯干或关键点辅助行人定位，而小尺度行人往往由于过低的分辨率不再含有此类明显特征。故检测器在大尺度行人身上学习到的特征往往难以直接应用于小尺度行人身上，反之亦然。然而现有数据集中的小尺度行人数量相比大尺度行人数量要少很多，这就给检测器对小尺度行人的分类、识别造成了很大影响。

距离摄像头较远的行人捕获的像素点少，图像无法对其有很好的呈现效果，导致网络无法有效提取行人特征。并且小尺度的行人目标易受复杂背景的干扰，光照、类人物体、环境颜色都会对小尺度行人的识别造成困难。现有的双节段检测框架虽然能获得较好的检测精度，但是无法满足检测速度与精度的平衡。如今以YOLO为代表的单阶段行人检测框架在吸收其他先进检测框架优点的基础上通过对多尺度特征图进行预测的方式提升模型对小目标检测的实际效果，检测精度优于传统手工特征及机器学习的方法，检测速度快于双阶段行人检测方法，更好的达到了检测速度和精度的平衡。

发明内容

技术问题：为提升网络对小尺度行人的检测能力，本发明提供了一种基于多尺度特征融合的小尺度行人检测方法。其核心技术在于提供了一个MFFE模块 (即多尺度特征融合增强模块，英文名称为Multi-Feature Fusion Enhancement Block，简称MFFE模块)，学习多尺度特征并对特征权值重分配。该模块就有独立性和可迁移性，具有较好的特征提取能力，聚焦于小尺度行人形状和深浅层特征信息的有效利用，一定程度上提升了对小尺度行人特征的表达。

一种提升小尺度行人目标特征表示的模块，增强检测器对小尺度行人目标的检测精度。

技术方案：为了实现上述目的，本发明采用的技术方案为：

一种基于多尺度特征融合的小尺度行人检测方法，包括以下步骤：

步骤1：对行人训练数据集进行预处理；

步骤2：构建MFFE模块，形成多尺度特征融合层；

步骤3：对浅层特征图进行处理，构建感受野增强模块；

步骤4：对多尺度特征图进行处理，构建自适应空间特征融合模块；

步骤5：将融合后的特征抽象层输入检测器，得到检测结果。

进一步的，步骤1中所述行人数据预处理过程包括：首先将视频序列格式转成jpg格式的图片，然后将vbb格式的标注文件转化为xml格式的文件，并按照要求对图片和xml文件重命名，然生成训练集和测试集，最后将数据集中的标签替换为“person”类。

进一步的，步骤2中所述多尺度特征融合层融合不同分辨率的特征图以增强小尺度行人特征的表现能力。

进一步的，步骤3中所述对浅层特征图进行处理包括：首先针对输入特征图使用两个第二层的残差块加深网络层数，为了获得更大范围的行人特征，受 Inception模块的启发，对特征图使用不同的卷积核和池化操作，丰富特征图感受野。

进一步的，所述卷积核和池化操作具体步骤包括：

(4)首先使用3×3卷积对输入的特征图进行下采样操作，在特征图的尺寸减半的同时通道数翻倍，使得层间流动的信息量与降采样前持平。

(5)使用卷积核大小为3×1的卷积层产生矩形感受野，并通过3×3卷积将感受野扩大为5×3，同时为适量减少显存损耗，首先使用1×1卷积进行通道压缩，并行添加的1×1卷积包含非线性激励，在降低通道维度的同时提升了网络的表达能力。

最后将四个分支进行拼接，并传入后续的自适应空间特征融合模块。

进一步的，步骤4中针对不同通道数的输入多尺度特征图，首先使用1×1卷积操作进行通道数变换，得到三个通道数相同的特征图l¹、l²和l³，接着使用一组自学习权重的空间矩阵将所有特征图进行融合，在此分别定义α、β和γ为特征图l¹、l²和l³的权重参数，通过权重与每层特征相乘来决定对该层特征点的激活情况，其中α、β和γ都通过网络训练得到。最后得到的融合特征结果y为各乘积之和，其公式表示为：

y_ij＝α_ijx¹ _ij+β_ijx² _ij+γ_ijx³ _ij (1)

其中，x¹ _ij、x² _ij、x³ _ij分别为经过1×1卷积得到的特征图上位于(i,j)的特征点，α_ij、β_ij、γ_ij表示(i,j)位置特征点的权重参数，并定义α_ij+β_ij+γ_ij＝1且α_ij、β_ij、γ_ij都大于0，故可通过softmax函数计算得出结果。

有益效果：本发明提供一种基于多尺度特征融合的小尺度行人检测方法，核心为MFFE模块，该模块是一个可迁移的特征提取融合结构，引入多感受野特征提取和特征图自适应融合结构，通过学习重新分配特征图权值。与YOLOv3 采用的多尺度特征融合方式相比，本发明提出的多尺度特征融合增强模块充分利用了浅层、中层和深层特征图的信息来增强小尺度目标特征的提取，丰富了特征图的感受野，同时自适应的构建融合特征图的权重，有利于提升模型对小尺度行人目标的检测。

附图说明

图1是基于多尺度特征融合的小尺度行人检测方法结构图；

图2是本发明提供的多尺度特征融合增强模块示意图；

图3是本发明提供的MFFE模块中的ERF子模块的示意图；

图4是本发明提供的MFFE模块中的ASFF子模块的示意图；

具体实施方式

下面结合附图和具体实施案例，对本发明作进一步阐明。

在Windows操作系统下，选用Pytorch为平台，搭建基于多尺度特征融合的小尺度行人检测网络，在Caltech行人数据集的小尺度行人子集和VOC2007 Person子集上进行了有效性测试。结果显示加入MFFE模块后，在基本不增加时间损耗的基础上，明显增强了网络对行人检测的精度，同时在不同尺寸的行人数据集上都有提升，证明了本发明的鲁棒性。

一种基于多尺度特征融合的小尺度行人检测方法，网络框架如图1所示。其中多尺度特征融合增强模块如图2所示。图3是本发明提供的MFFE模块中的ERF子模块的示意图。图4是本发明提供的MFFE模块中的ASFF子模块的示意图。MFFE模块包含两个子模块：1)ERF子模块，关注浅层特征图特征提取；2)ASFF子模块，自适应分配特征图融合权重。MFFE模块可以嵌入式应用于不同目标检测网络中，具有可迁移性和可拓展性，提高了小尺度行人特征的表达能力，加强了模型对小尺度行人的检测能力。

MFFE模块为增强小尺度行人的细节信息，首先使用残差模块对浅层特征图进一步提取特征，并使用感受野增强模块获取更多的上下文信息，在丰富行人特征的同时更能匹配行人的感受野尺度。使用自适应空间特征融合模块替换传统的特征图拼接操作，通过学习自适应调整各尺度特征的空间权重，增强对多尺度特征图的利用率，最终提升模型对小尺度行人的检测效果。

具体包括以下步骤：

步骤1：首先将视频序列格式转成jpg格式的图片，然后将vbb格式的标注文件转化为xml格式的文件，并按照要求对图片和xml文件重命名，然生成训练集和测试集。最后将数据集中的标签替换为“person”类。

步骤2：为了进一步丰富感受野，提升小尺度行人的预测能力，提出了多尺度特征融合增强模块，融合不同分辨率的特征图以增强小尺度行人特征的表现能力。在特征提取骨架网络中，由于深层特征图拥有更大的感受野，具有更强的抽象能力，所以相比浅层特征图有更强的语义信息。但是由于深层特征图经历了连续的下采样操作，浅层图中含有的大量空间细节信息被丢弃，使得依赖细节信息的小尺度行人无法得到很好的检测。浅层特征图虽然具有丰富的空间位置信息，但是由于采样层数不足，无法对抽象信息有较好的表达能力，难以很好的对行人这一具体目标进行表征，且易受复杂背景等噪声的干扰。本章据此对特征提取及融合方式进行修改以进一步提升网络对小尺度行人特征的表示能力，主要分为两个部分：感受野增强模块(Enhancement ofReceptive Field， ERF)和自适应空间特征融合模块(Adaptively Spatial Feature Fusion，ASFF)。浅层特征图通过感受野增强模块后增强对小尺度行人特征的表现力，与经双线性插值上采样法得到的深层特征图一起传入自适应空间特征融合模块，充分利用浅层特征图的空间、细节信息和深层特征图的高层语义信息。

步骤3：首先针对输入特征图使用2个第二层的残差块加深网络层数。由于低分辨率行人占据的区域比例通常不同，使用固定的同一种尺寸卷积核进行卷积无法有效提取小尺度行人目标特征，为了获得更大范围的行人特征，受 Inception模块的启发，对特征图使用不同的卷积核和池化操作，丰富特征图感受野。具体来说，首先使用3×3卷积对输入的特征图进行下采样操作，在特征图的尺寸减半的同时通道数翻倍，使得层间流动的信息量与降采样前持平。考虑到实际情况中行人目标具有一定的长宽比，添加符合行人轮廓的感受野，使用卷积核大小为3×1的卷积层产生矩形感受野，并通过3×3卷积将感受野扩大为 5×3，同时为适量减少显存损耗，首先使用1×1卷积进行通道压缩。该模块的特性就是在同一层中，分别通过使用上述不同尺寸的滤波器与池化操作收集到上一层输入的不同特征，在增加网络宽度的同时，实现了不同尺寸的滤波器提取上一层不同特征的功能。同时并行添加的1×1卷积包含非线性激励，在降低通道维度的同时提升了网络的表达能力。最后将四个分支进行拼接，并传入后续的自适应空间特征融合模块。这种类Inception结构将丰富特征图的感受野，以更好地匹配行人的尺度和宽高比。

步骤4：在经感受野增强模块得到特征图后，需要将三个层的输出特征图融合成最终的特征图y，以供检测器判别。采用拼接加降维操作无法充分利用浅层特征图富含的行人空间细节信息和深层特征图包含的语义信息，为此本发明采用自适应空间特征融合模块(Adaptively Spatial Feature Fusion)充分利用不同尺度的特征信息。针对不同通道数的输入特征图，首先使用1×1卷积操作进行通道数变换，得到三个通道数相同的特征图l¹、l²和l³。接着使用一组自学习权重的空间矩阵将所有特征图进行融合。在此分别定义α、β和γ为特征图l¹、l²和l³的权重参数，通过权重与每层特征相乘来决定对该层特征点的激活情况，其中α 、β和γ都通过网络训练得到。最后得到的融合特征结果y为各乘积之和，其公式表示为：

y_ij＝α_ijx¹ _ij+β_ijx² _ij+γ_ijx³ _ij (1)

与YOLOv3采用的多尺度特征融合方式相比，本发明提出的多尺度特征融合增强模块充分利用了浅层、中层和深层特征图的信息来增强小尺度目标特征的提取，丰富了特征图的感受野，同时自适应的构建融合特征图的权重，有利于提升模型对小尺度行人目标的检测。

步骤5：将处理好的特征图传入yolo层，通过先验框直接进行行人目标回归和分类，得出最终的检测结果。

实验结果具体如下：

实验1：小尺度行人检测结果分析。

MFFE-YOLOv3与其他方法的运行效果对比

选取了六种基于Caltech行人数据集的方法进行对比，其中VJ、HOG和ACF 分别为使用Haar特征、HOG特征和聚合通道特征的传统行人检测方法，MS-CNN、FasterRCNN、FasterRCNN+ATT、YOLOv3和本发明提出的MFFE-YOLOv3都是使用先验框和卷积神经网络分类器的深度学习行人检测方法。MS-CNN将双阶段 Faster RCNN检测网络多尺度化，通过对卷积层的多个中间层进行预测，在降低感受野的同时防止深层特征图中小目标的特征消失，提升检测器对小目标的判断能力，将小尺度行人的MR^-2提升至97.23％。FasterRCNN+ATT在双阶段检测器中添加注意力机制，增强网络对行人部位的关注，指导检测器更加关注行人的可视部位，MR^-2达到了90.94％。YOLOv3单阶段检测器通过多尺度特征图的单元格预测行人目标，使MR^-2达到了91.66％。改进后的MFFE-YOLOv3对YOLOv3 的主干网络进行升级，通过使用感受野增强模块提升浅层特征的感受野，并使用自适应空间特征融合模块对不同层特征图进行自适应融合，提高了特征的利用效率，在只使用单一检测器的情况下，MR^-2降低为89.41％，相比原方法提升了2.25％，证明了本方法对小尺度行人检测效果有明显的提升。

实验2：检测速度分析。

MFFE-YOLOv3与其他方法的运行时间对比

Faster R-CNN检测算法、YOLOv3检测算法和MFFE-YOLOv3检测算法的检测速度指标对比如表所示。在只使用CPU的情况下，FasterR-CNN、YOLOv3 和MFFE-YOLOv3三种深度学习方法中，Faster RCNN的检测速度远低于单阶段的检测算法，YOLOv3方法的行人检测速度最快，平均每张图像耗时1.223秒，而MFFE-YOLOv3虽然采用更多的参数和更宽的网络的主干网络，但由于只采用单阶段的回归方式，检测速度只是略低于YOLOv3检测算法。在使用GPU的情况下，三者的检测速度明显加快，其中Faster RCNN的计算速度提升了200 多倍，而YOLOv3和MFFE-YOLOv3分别提升了30多倍。

实验3：泛化性分析

为验证本发明方法适用于多个尺度的行人目标，在VOC2007 Person子集上进行了实验，MFFE-YOLOv3算法相比YOLOv3算法在召回率上提升了0.8％，平均精确度提升了0.4％，取得了初步效果。由于VOC数据集上的小尺寸行人目标数量不足，所以在Person子集上的提升效果不明显，但相比原方法精度依旧有轻微提升，说明本发明改进的小尺度行人检测算法具有一定的泛化性。

应当指出，以上所述的实施案例仅仅是为了清楚地说明本发明所作的举例，并非对实施方式的限定，这里也无法对所有实施方式予以穷举。本实施案例中未明确的各部分均可采用现有技术加以实现。对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多尺度特征融合的小尺度行人检测方法，其特征在于，该方法包括如下步骤：

步骤1：对行人训练数据集进行预处理；

步骤2：构建MFFE模块，形成多尺度特征融合层；

步骤3：对浅层特征图进行处理，构建感受野增强模块；

步骤5：将融合后的特征抽象层输入检测器，得到检测结果。

2.根据权利要求1所述的基于多尺度特征融合的小尺度行人检测方法，其特征在于：步骤1中所述行人数据预处理过程包括：首先将视频序列格式转成jpg格式的图片，然后将vbb格式的标注文件转化为xml格式的文件，并按照要求对图片和xml文件重命名，然生成训练集和测试集，最后将数据集中的标签替换为“person”类。

3.根据权利要求1所述的基于多尺度特征融合的小尺度行人检测方法，其特征在于：步骤2中所述多尺度特征融合层融合不同分辨率的特征图以增强小尺度行人特征的表现能力。

4.根据权利要求1所述的基于多尺度特征融合的小尺度行人检测方法，其特征在于：步骤3中所述对浅层特征图进行处理包括：首先针对输入特征图使用两个第二层的残差块加深网络层数，为了获得更大范围的行人特征，受Inception模块的启发，对特征图使用不同的卷积核和池化操作，丰富特征图感受野。

5.根据权利要求4所述的基于多尺度特征融合的小尺度行人检测方法，其特征在于：所述卷积核和池化操作具体步骤包括：

(1)首先使用3×3卷积对输入的特征图进行下采样操作，在特征图的尺寸减半的同时通道数翻倍，使得层间流动的信息量与降采样前持平。

(2)使用卷积核大小为3×1的卷积层产生矩形感受野，并通过3×3卷积将感受野扩大为5×3，同时为适量减少显存损耗，首先使用1×1卷积进行通道压缩，并行添加的1×1卷积包含非线性激励，在降低通道维度的同时提升了网络的表达能力。

(3)最后将四个分支进行拼接，并传入后续的自适应空间特征融合模块。

6.根据权利要求1所述的基于多尺度特征融合的小尺度行人检测方法，其特征在于：步骤4中y针对不同通道数的输入多尺度特征图，首先使用1×1卷积操作进行通道数变换，得到三个通道数相同的特征图l¹、l²和l³，接着使用一组自学习权重的空间矩阵将所有特征图进行融合，在此分别定义α、β和γ为特征图l¹、l²和l³的权重参数，通过权重与每层特征相乘来决定对该层特征点的激活情况，其中α、β和γ都通过网络训练得到。最后得到的融合特征结果y为各乘积之和，其公式表示为：

y_ij＝α_ijx¹ _ij+β_ijx² _ij+γ_ijx³ _ij (1)