CN111950612B

CN111950612B - 基于fpn的融合因子的弱小目标检测方法

Info

Publication number: CN111950612B
Application number: CN202010752490.6A
Authority: CN
Inventors: 韩振军; 宫宇琦; 余学辉; 吴狄; 蒋楠; 韩许盟; 彭潇珂; 王岿然; 陈鹏飞; 黄智勋; 焦建彬; 叶齐祥; 万方
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2021-06-01
Anticipated expiration: 2040-07-30
Also published as: CN111950612A

Abstract

本发明公开了一种基于FPN的融合因子的弱小目标检测方法、计算机可读存储介质和计算机设备。所述方法包括在图像特征提取聚合相邻特征层时，对来自不同图层的特征比例进行调整的步骤。本发明公开的基于FPN的融合因子的弱小目标检测方法，通过在FPN中设置适当的融合因子，可以在小目标检测的基线上获得显著的性能提升；采用基于统计的方法获得融合因子，提升了学习效率和检测性能；融合因子能够随数据集进行变化，扩大了应用范围。

Description

基于FPN的融合因子的弱小目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及弱小目标的检测方法，尤其涉及基于FPN的融合因子的弱小目标检测方法。

背景技术

弱小目标检测是计算机视觉领域的一个重要课题，具有广泛的应用，例如监视、驾驶辅助和快速海上救援等。目前，对弱小目标检测的研究较为广泛，如：Xuehui Yu等(Xuehui Yu,Yuqi Gong,Nan Jiang,Qixiang Ye,and Zhenjun Han.Scale match fortiny person detection.In WACV,pages 1246–1254,2020.1,2,7,8)提出了尺度匹配，将预训练数据集的目标尺度对齐到目标数据集，以实现弱小目标的可靠特征表示；EFPN构造了一个具有更多几何细节的特征层(Chunfang Deng,Mengmeng Wang,Liang Liu,and YongLiu.Extended feature pyramid network for small object detection.CVPR,2020.2)；Junhyug Noh等(Junhyug Noh,Wonho Bae,Wonhee Lee,Jinhwan Seo,and GunheeKim.Better to follow,follow to be better:Towards precise supervision offeature super-resolution for small object detection.ICCV,pages 9725–9734,2019.2)提出了一种利用高分辨率目标特征作为监控信号，匹配输入和目标特征相关接收场的特征级超分辨率方法等等。

在深层网络中，FPN(Feature Pyramid Network，特征金字塔网络)是传统CNN网络对图片信息进行表达输出的一种增强。它的目的是为了改进CNN网络的特征提取方式，从而可以使最终输出的特征更好地表示出输入图片各个维度的信息。它的基本过程有三个分别为：自下至上的通路即自下至上的不同维度特征生成；自上至下的通路即自上至下的特征补充增强；CNN网络层特征与最终输出的各维度特征之间的关联表达。基于FPN的检测器通过自顶向下和横向连接融合多尺度特征，在常用的目标检测数据集上取得了巨大的成果，如MS COCO、PASCAL VOC和CityPersons等数据集。但是，基于FPN的检测器在弱小目标检测上效果不佳，例如在TinyPerson和Tiny CityPersons数据集上。

因此，有必要提供一种能够显著提高弱小目标检测效果的、基于FPN的适应性检测方法。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种新的基于FPN的融合因子的弱小目标检测方法，其采用基于统计的方法估计特定数据集的融合因子有效值，并用合适的融合因子配置FPN，在特征层融合时考虑到来自不同图层的特征的比例，使得网络能够在弱小目标检测数据集的基线上获得显著的性能增益，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供一种基于FPN的融合因子的弱小目标检测方法，所述方法包括在图像特征提取聚合相邻特征层时，对来自不同图层的特征比例进行调整的步骤。

第二方面，提供一种计算机可读存储介质，存储有基于FPN的融合因子的弱小目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。

第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有基于FPN的融合因子的弱小目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于FPN的融合因子的弱小目标检测方法，通过在FPN中设置适当的融合因子，可以在小目标检测的基线上获得显著的性能提升；

(2)本发明提供的基于FPN的融合因子的弱小目标检测方法，采用基于统计的方法获得融合因子，提升了学习效率和检测性能；

(3)本发明提供的基于FPN的融合因子的弱小目标检测方法，使得融合因子能够随数据集进行变化，扩大了应用范围。

附图说明

图1示出了基于不同融合因子的TinyPerson和Tiny CityPersons的性能；

图2示出了本发明所述的基于FPN的检测框架和原始FPN的检测框架，其中，左侧的虚线框显示N_p的计算，其中1和0分别为正例和负例，该图像来自TinyPerson；红色框和红点表示框和框点。为了简化，一个框点仅显示一个框，黄色框和蓝色框分别位于P₃和P₄层上；右边的虚线框是原始FPN的框架；

图3示出了基于不同融合因子的

在不同数据集上的性能检测结果图，其中，y轴表示了给定融合因子时的性能改善；

图4示出了在不同数据集下，根据

AP在不同融合因子下的性能检测结果图，其中，Tiny CityPersons1*，2*分别对CityPersons进行了4倍、2倍下采样得到；

图5示出了基于注意力的方法的网络结构图；

图6示出了基于MS COCO不同输入大小的

下不同融合因子的性能检测结果图；

图7示出了FPN的结构图；

图8示出了COCO100中时钟，行人和所有类的性能，其中，共有6587个时钟实例，268030个人员实例和886284个实例。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

影响FPN的弱小目标检测性能的因素一般有两个，包括下采样因子和相邻特征层之间的融合比例。之前的研究对“下采样因子”影响因素的判断结论为：下采样因子越低，性能越好。但是对于“相邻特征层之间的融合比例”这一因素，现有技术均忽略。

基于上述研究，本发明人对FPN的弱小目标检测进行了分析，结果发现：如图1所示(y轴显示了在给定融合因子时

的性能提升)，随着深层传送到浅层的信息量增加，检测性能先增后降。通过分析FPN的工作原理，发明人发现：由于相邻层的融合操作，FPN进行的是多任务学习。具体而言，如果省略FPN中自上而下的连接，则每一层只需专注于检测与尺度高度相关的目标，即浅层学习小目标，深层学习大目标。然而，在FPN中，由于受到来自其他层的间接损失的监督，每一层需要学习几乎所有大小的目标，甚至深层也需学习小目标。因此，FPN中的每一层不仅需要关注其对应的缩放目标，还需要从其他层获得更多的训练样本，且在融合相邻两层特征时，对较深层的加权系数均取值为1，即默认将深层和浅层按照1:1融合，导致传统的FPN不适合于弱小目标的检测。

为此，本发明提供了一种基于FPN的融合因子的弱小目标检测方法，所述方法包括在聚合相邻特征层时调整来自不同图层的特征比例的步骤。

根据本发明一种优选的实施方式，所述基于FPN的弱小目标检测方法包括以下步骤：

步骤1，构建骨干网络，并对其进行预训练；

步骤2，在目标数据集进行训练，获得训练后的检测模型；

步骤3，对待测图像进行检测。

以下进一步描述本发明所述方法：

步骤1，构建骨干网络，并对其进行预训练。

在本发明中，所述骨干网络可以选择现有的多种结构的基于深度学习的神经网络，例如可以是ResNet(残差网络)或ResNeXt(多支路的残差网络)等。

将骨干网络在ImageNet的分类数据集上进行预训练。

优选地，采用ResNet-50作为骨干网络。

步骤2，在目标数据集进行训练，获得训练后的检测模型。

其中，步骤2包括以下子步骤：

步骤2-1，提取预训练权重用作目标数据集训练的网络初始化权值；

步骤2-2，训练获得收敛的检测模型。

步骤3，对待测图像进行检测。

采用上述获得的检测模型对待测图像进行检测，获得弱小目标检测结果。

在步骤2和步骤3中，包括对图像进行特征提取的过程，优选包括以下步骤：

步骤I，采用骨干网络对图像进行多尺度特征提取，获得多个尺度的特征图。

步骤II，确定相邻特征图之间的融合比例。

为解决常规FPN不适合弱小目标检测的问题，本发明中优选增加了调整来自不同图层的特征比例的步骤。

根据本发明一种优选的实施方式，将FPN中相邻特征层的融合比例设定为融合因子α，通过设置不同的融合因子调整来自不同图层的特征比例。

其中，所述融合因子α用于描述相邻特征层的耦合度。

如图2中的右侧框所示，常规的基于FPN的检测器将α设置为1，忽略相邻特征层之间的融合比例。实际上，如果FPN融合了P₂，P₃，P₄，P₅，P₆级(P₂～P₆表示不同的特征层)的特征，则存在三个不同的α，即

和

分别代表特征层P₂和P₃之间的融合因子、特征层P₃和P₄之间的融合因子、特征层P₄和P₅之间的融合因子，由于P₆是通过直接对P₅进行下采样而生成的，因此P₅和P₆之间没有融合因子。

在融合时，通过分别设置

和

来调整来自不同图层的特征的比例，有利于提高图像特征提取的准确性。

在进一步优选的实施方式中，所述融合因子按照包括以下步骤的方法确定

步骤i，获得图像中每个目标的最适分配层。

具体地，将数据集图像中每个目标的真实边框与FPN的每个特征层的预选边框的交集和并集作比，获得交并比IOU，

优选选择与groud-truth最大的IOU预测框，本发明中将该预选框所在的特征层作为目标的最适分配层(最佳学习特征层)。

步骤ii，获得每层的目标数。

由步骤i获得的数据集中每个图像的每个目标的最适分配层(最佳学习特征层)，则可获得每个特征层的目标数。

为了探索影响融合因子有效性的因素，发明人进行了如下研究：假设数据集的四个属性会影响融合因子，即目标的绝对大小、目标的相对大小、数据集的数据量和FPN中每层的目标分布。

首先，进行实验以评估融合因子对不同数据集的影响，结果如图3所示：在不同的融合因子下，不同的数据集表现出不同的趋势，例如曲线峰值。跨尺度数据集CityPersons，VOC和COCO对α的变化不敏感，除非当α＝0时(这意味着没有特征融合)。但是，在TinyPerson和Tiny CityPersons数据集上，性能随α的增加先升后降，这意味着融合因子是影响性能的关键因素，并且存在一个最佳值范围。其中，由于难以在TinyPerson，Tiny CityPersons和CityPersons上进行收敛，因此未进行融合因子大于1.1的实验。

TinyPerson和Tiny CityPersons数据集的共同特征是实例的平均绝对大小小于20个像素，这给网络的学习带来了巨大挑战。因此，发明人调整了CityPersons和COCO数据集中的图像大小，以获得不同的数据集(CityPersons中的图像分别缩小2倍和4倍，COCO中的图像分别缩小4倍和8倍)。结果如图4所示：当减小目标的绝对尺寸时，随着α的变化，性能的趋势变得与TinyPerson相似。对于Tiny CityPersons和CityPersons，数据量和目标的相对大小完全相同；但是，当融合因子增加时，性能会有所不同。

FPN每层中目标的分布将决定训练样本是否足够，这直接影响每层中的特征表示。CityPersons与TinyPerson和TinyCityPersons具有类似的FPN分层。尽管通过CityPersons的4次下采样获得了Tiny CityPersons，但由于Tiny CityPersons的预选框也减少了4倍，因此FPN中CityPersons的分层仍然与TinyCityPersons相似。具体而言，大量的弱小目标集中在P₂中，而导致FPN深层中的那些目标的P₃不足。但是，融合因子在CityPersons上的性能趋势不同于TinyPerson和Tiny CityPersons。

因此，本发明人得出结论：目标的绝对大小影响融合因子的有效性。α通过在梯度反向传播中重新加权损失来确定FPN中的深层参与浅层的学习程度。数据集中的目标很小，给FPN中每层的学习带来很多困难。因此，每层的学习能力都是不够的，深层没有额外的能力来帮助浅层。换句话说，当每层的学习难度增加并且必须降低α时，FPN中深层和浅层之间的供求关系发生了变化，这表明每层都应该更加专注于本层的学习。

步骤iii，确定融合因子。

在本发明中，为进一步探索如何获得有效的融合因子，发明人设计了四种α，并在TinyPerson上进行了实验，四种方法分别为：(1)暴力解法，根据图1枚举α；(2)可学习的方法，设置α为可学习参数，并通过损失函数进行优化；(3)基于注意力的方法，其中α是由自我注意模块(self-attention)生成的，其网络结构如图5所示；(4)基于统计的方法，利用数据集的统计信息来计算α。

基于融合因子的四种不同计算策略，在TinyPerson上的性能检测结果如表1所示：

表1

其中，基线中的α默认设置为1；1-α和3-α分别使用一个和三个可学习的参数表示；atten-α是通过注意力机制获得的。α-bf表示通过暴力解的最优值；S-α是基于统计的方法，其性能是通过RetinaNet与S-α一起获得的。较低的MR(丢失率)意味着更好的性能。

由表1可以看出，暴力解法找到了最佳α，但是，它包含冗余计算，这限制了该方法的大规模应用；所有非固定的α设置都优于基线，其中α设置为1，基于注意力的方法增加了不可忽略的计算量；只有基于统计的方法才能获得与暴力搜索可比的性能。

因此，本发明中优选选择基于统计的方法获得有效的融合因子。

根据本发明一种优选的实施方式，如图2中左侧框所示，所述融合因子通过下式获得：

其中，

表示FPN中第i+1层上的目标数，

表示FPN中第i层上的目标数，

表示FPN中第i+1层和第i层的融合因子。

其中，由于预选框是预先定义的，并且数据集提供了真实性，因此融合因子的计算过程不涉及网络的正向传播。

在本发明中，融合因子通过在梯度反向传播中重新加权损失来确定FPN中的深层参与浅层的学习程度。

对于小目标检测，每一层都难以捕获具有代表性的检测任务特征，从而加剧了层之间的竞争。具体而言，不同网络头部中的所有层都希望它们共享参数，以学习用于其相应检测任务的合适特征。但是，某些层可能比其他层具有更少的训练样本，从而导致在更新共享参数时，这些层的梯度与其他层相比处于不利地位。因此，当

小或和

大时，该方法设置一个小的α以减小由P_i层中的检测任务产生的梯度，反之亦然，这促使网络每一层中的检测任务都能平等学习。因此，小目标学习效率得以提升。

进一步地，发明人以

和C₄为例，分析了FPN中的融合因子影响骨干网络参数优化的过程。C₄层的梯度如下式所示：

其中，loss_Pi表示与第i层相对应的分类和回归损失。

上式表示需要C₄学习两种任务：深层的目标检测(P₄，P₅)和浅层的目标检测(P₃，P₃)。在应用更大的

时，C₄将了解更多用于浅层检测任务的信息，而丢失了更多用于深层检测任务的信息，反之亦然。另外，深浅是相对的。P₄对P₃是深层，对P₅是浅层。

为了在较大的目标数据集中(例如COCO800)进行检测，目标的信息非常丰富，甚至检测网络头部也能学到很多高度相关的信息。如果放弃用于深层检测的部分信息(应用较小的

)，最终性能几乎不会降低，如果保留它们(应用较大的

)，则性能也不会得到很大改善。结果，在这样的数据集上

的设置不太敏感。数据集目标越大，alpha设置的灵敏度越低。换句话说，在较大范围内设置

的性能几乎相同。

对于小目标数据集中的检测而言信息量较少，这决定了在每一层可以学习的信息量较少。因此，放弃任何信息都是危险的。所以，深层和浅层的检测任务都希望C₄可以保留更多有益于他们的信息，也就是说，他们希望获得更大的C₄梯度比。P₂和P₃中的检测任务希望

较大，P₄，P₅希望

较小。最后，最佳性能取决于折衷值，与该值的偏差越大，性能就越差，因为它过多地偏爱深层任务或浅层任务，而其他的更容易丢失重要信息，如图6所示(该图是基于MS COCO不同输入大小的

下不同融合因子的性能，显示了目标绝对大小的影响，自适应RetinaNet使用P₂，P₃，P₄，P₅，P₆构建FPN)。

步骤III，将各尺度的特征图进行融合。

其中，步骤III包括将相邻特征层进行融合的步骤，根据本发明一种优选的实施方式，按照下式所述方法聚合相邻特征层：

其中，f_inner表示用于通道匹配的1×1卷积运算，f_upsample表示用于分辨率匹配的2x上采样运算，f_layer表示用于特征处理的卷积运算，

表示FPN的第i+1层和第i层的融合因子，C_i表示骨干网络提取的第i个阶段的特征，P_i表示由FPN提取出来的第i层的特征，表示由P′_i+1表示由骨干网络第i阶段提取的特征C_i+1经过卷积f_inner计算后和更高层的P′_i+2经过两倍上采样对应特征点相加形成的。其中，是由C₅经过f_inner计算直接形成。

本发明上述的基于FPN的融合因子的弱小目标检测方法，显式地学习了FPN中的有效融合因子，通过在FPN中设置适当的融合因子，可以在小目标检测的基线上获得显著的性能提升。

为进一步分析融合因子是否可以隐式学习，首先，发明人分析了FPN的结构，并找到了融合因子的等效实现。在传统的FPN(α＝1)中，将

的参数乘以σ^i-2并将

的参数除以σ^i-2等效于保持

固定并设置α＝σ。因此，传统的FPN具有隐式学习有效α的潜在能力。

然后，使用不同的

和

初始值通过将它们的对应系数相乘进行试验，如图7所示，表示σ(α＝1)²。TinyPerson上的σ幂次方初始化的检测结果如表2所示，该设置无法提升基准性能。因此进一步实验，将α设置为σ，并保持

和

的上述初始配置，其性能类似于未定义

和

的初始化的性能，表2表明此策略失败。

表2

其次，存在这样的事实，即神经网络的学习是数据驱动的，并且Tiny CityPersons和TinyPerson对不同的α敏感，它们具有相似的数据量，但还不够大。在拮抗机制的激励下，发明人分析了大型数据集是否可以推动FPN隐式学习融合因子。具体而言就是设置不同的融合因子，并探索何时可以抵消融合因子的影响。

发明人对COCO100进行了验证性实验。在图6中，由α引起的峰值现象是明显的。但是，COCO是一个长尾数据集(不同类别的样本不平衡)。例如，行人数超过了COCO的四分之一，而其他类别相对较少。因此，进一步探讨了α对具有不同数据量的不同类别的影响。如图8所示，当类别是行人时，由α引起的峰值现象被大大减弱。发明人认为，当训练数据集足够大时，网络具有潜在地学习融合因子的能力。即使在COCO中，大多数类别都不满足要求，导致最终性能对融合因子敏感。

本发明还提供了一种计算机可读存储介质，存储有基于FPN的融合因子的弱小目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。

本发明中所述的基于FPN的融合因子的弱小目标检测方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于FPN的融合因子的弱小目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

本实施例所述方法在TinyPerson和Tiny CityPersons数据集进行。

TinyPerson是一个从高质量视频和网络图片中收集的微小的对象检测数据集。在总共1,610幅图像中，TinyPerson包含72,651个低分辨率标注的人类物体。将数据集的60％和40％的图像被随机选择为训练和测试集。在TinyPerson中，大多数注释对象的大小小于20x20像素。在训练和推理预测过程中，使用从原点图像中切割的子图作为输入。最后，使用NMS策略对同一图像的结果进行合并。

Tiny CityPersons是cityperson数据集经过4倍下采样后得到的。

2、实施过程

选择ImageNet上经过预先训练的ResNet-50作为骨干网络，并选择RetinaNet作为检测器。总共有12个时期，初始学习率设置为0.01，然后在第6、第10阶段分别设置成0.001和0.0001。在单个NVIDIA GTX 2080Ti或1080Ti GPU上对模型进行训练和评估。预选框的大小设置为(8、16、32、64、128)，宽高比设置为(0.5、1.0、2)。由于TinyPerson中某些图像中存在密集的目标(超过200个)，因此选择包含少于200个目标的图像进行训练和测试。在数据扩充方面，仅采用水平翻转。与将所有图像调整为相同大小的其他基于FPN的检测器不同，使用原始图像/子图像大小。

3、评价标准：

根据Tinybenmark(Xuehui Yu,Yuqi Gong,Nan Jiang,Qixiang Ye,and ZhenjunHan.Scale match for tiny person detection.In WACV,pages 1246–1254,2020.1,2,7,8)，主要使用平均精度(AP)和丢失率(MR)进行评价。AP是在各种目标检测任务中广泛使用的度量标准，它反映了检测结果的精度和查全率。由于TinyPerson是行人数据集，因此MR也用作评估标准。

IOU的阈值设置为0.25、0.5和0.75。Tinybenmark进一步将tiny[2，20]分为3个子间隔：tiny1[2，8]，tiny2[8，12]，tiny3[12，20]。在本实施例中，我们更多地关注是否可以找到目标，而不是位置精度。因此，选择IOU＝0.5作为评价的主要阈值。

实验例

实验例1

在TinyPerson数据集上进行目标检测实验：

TinyPerson中行人的平均绝对尺寸为18像素，而且TinyPerson中行人的长宽比差异很大。此外，由于TinyPerson中行人的姿势和视点不同，导致了行人的多样性更加复杂，从而使检测更加困难。TinyPerson分别包含794和816个用于训练和推测的图像。TinyPerson中的大多数图像很大，导致了GPU内存不足。因此，在训练和推测期间，原始图像被切成了重叠的子图像。

使用TinyPerson上最先进的现有方法与本发明所述方法的检测器性能进行比较，MRs和ARs结果分别如表3和4所示。

表3

表4

其中，Fcos所述方法如文献“Zhi Tian,Chunhua Shen,Hao Chen,and TongHe.Fcos:Fully convolutional one-stage object detection.In ICCV,2019.7”所述；

RetinaNet所述方法如文献“Tsung-Yi Lin,Priya Goyal,Ross Girshick,Kaiming He,and Piotr Dollar.Focal loss for dense object detection.In′ICCV,pages 2980–2988,2017.7”所述；

所述方法如文献“Xiaosong Zhang,Fang Wan,Chang Liu,Rongrong Ji,and Qixiang Ye.Freeanchor:Learning to match anchors for visualobject detection.NeurIPS,2019.7”所述；

Libra RCNN所述方法如文献“Jiangmiao Pang,Kai Chen,Jianping Shi,HuajunFeng,Wanli Ouyang,and Dahua Lin.Libra r-cnn:Towards balanced learning forobject detection.CVPR,2019.2,7”所述；

Grid RCNN所述方法如文献“Xin Lu,Buyu Li,Yuxin Yue,Quanquan Li,andJunjie Yan.Grid r-cnn.In CVPR,2019.7”所述；

Faster RCNN-FPN所述方法如文献“Tsung-Yi Lin,Piotr Dollar,RossGirshick,Kaiming He,Bharath Hariharan,and Serge Belongie.Feature pyramidnetworks for object detection.In CVPR,July 2017.2,7”所述；

RetinaNet-SM、RetinaNet-MSM、Faster RCNN-FPN-SM及Faster RCNN-FPN-MSM所述方法如文献“Xiaosong Zhang,Fang Wan,Chang Liu,Rongrong Ji,and QixiangYe.Freeanchor:Learning to match anchors for visual object detection.NeurIPS,2019.7”所述。

其中，

和

是提升版本，FreeAnchor和RetinaNet的主要版本使用P₃，P₄，P₅，P₆，P₇构建FPN；但是，使用P₂，P₃，P₄，P₅，P₆构造FPN并将预选框的大小调整为[8、16、32、64、128]可获得显着改善。如果没有特别说明，则后续实验中使用的RetinaNet是RetinaNet的提升版本。

由于极小(微)的尺寸，SOTA检测器的性能大大降低。在TinyPerson上，正例和负例的失衡很严重；两级检测器的性能优于一级检测器。本发明中所述的带有S-α的FasterRCNN分别将

和

的性能提高了1.04％和0.28％，而无需添加更多网络参数。

结果表明，基于FPN的提升对两级检测器是有益的，本发明所述带有S-α的RetinaNet的性能优于除SM之外的其他检测器。SM需要通过COCO和TinyPerson之间的比例匹配对COCO进行预训练，然后在TinyPerson上进行微调；而带有S-α的RetinaNet仅基于ImageNet上的预训练模型。本发明带有S-α的RetinaNet无需添加新的网络参数即可达到可比的性能。

进一步地，将上述不同的骨干网络的目标检测结果进行比较，结果如表5所示。

表5

由表5可知，RetinaNet S-α的性能分别在

ResNet-50和

ResNet-101上提升了1.78％和1％。与ResNet-50相比，ResNet-101在弱小人物检测方面没有更好的性能，这可能是由弱小的绝对尺寸引起的。在图像大小固定的情况下，弱小的目标主要分布在FPN的P2和P3中，并且在较深的层中训练样本较少。与ResNet-50相比，ResNet-101额外的51个块位于ResNet的stage4中，该块太深，无法帮助识别弱小的目标，但增加了计算负担。

实验例2

在Tiny CityPersons和COCO100数据集上进行目标检测实验，带有S-α的RetinaNet还通过使用Resnet-50(作为Tiny CityPersons和COCO100的骨干)进行了改进，结果分别如表6和7所示。

表6

表7

其中，bf表示通过暴力方法得到的最优解。

由上述结果可知，本发明所述的带有S-α的RetinaNet在其他小数据集上仍然有效，与暴力算法的最佳结果一样好。

本发明通过上述实验例，证明了本发明所述“调整FPN相邻层的融合因子可以自适应地推动浅层专注于学习小目标，从而导致小目标检测的提升”方法的有效性。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。