CN111950612B - 基于fpn的融合因子的弱小目标检测方法 - Google Patents
基于fpn的融合因子的弱小目标检测方法 Download PDFInfo
- Publication number
- CN111950612B CN111950612B CN202010752490.6A CN202010752490A CN111950612B CN 111950612 B CN111950612 B CN 111950612B CN 202010752490 A CN202010752490 A CN 202010752490A CN 111950612 B CN111950612 B CN 111950612B
- Authority
- CN
- China
- Prior art keywords
- fpn
- fusion
- layer
- weak
- fusion factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于FPN的融合因子的弱小目标检测方法、计算机可读存储介质和计算机设备。所述方法包括在图像特征提取聚合相邻特征层时,对来自不同图层的特征比例进行调整的步骤。本发明公开的基于FPN的融合因子的弱小目标检测方法,通过在FPN中设置适当的融合因子,可以在小目标检测的基线上获得显著的性能提升;采用基于统计的方法获得融合因子,提升了学习效率和检测性能;融合因子能够随数据集进行变化,扩大了应用范围。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及弱小目标的检测方法,尤其涉及基于FPN的融合因子的弱小目标检测方法。
背景技术
弱小目标检测是计算机视觉领域的一个重要课题,具有广泛的应用,例如监视、驾驶辅助和快速海上救援等。目前,对弱小目标检测的研究较为广泛,如:Xuehui Yu等(Xuehui Yu,Yuqi Gong,Nan Jiang,Qixiang Ye,and Zhenjun Han.Scale match fortiny person detection.In WACV,pages 1246–1254,2020.1,2,7,8)提出了尺度匹配,将预训练数据集的目标尺度对齐到目标数据集,以实现弱小目标的可靠特征表示;EFPN构造了一个具有更多几何细节的特征层(Chunfang Deng,Mengmeng Wang,Liang Liu,and YongLiu.Extended feature pyramid network for small object detection.CVPR,2020.2);Junhyug Noh等(Junhyug Noh,Wonho Bae,Wonhee Lee,Jinhwan Seo,and GunheeKim.Better to follow,follow to be better:Towards precise supervision offeature super-resolution for small object detection.ICCV,pages 9725–9734,2019.2)提出了一种利用高分辨率目标特征作为监控信号,匹配输入和目标特征相关接收场的特征级超分辨率方法等等。
在深层网络中,FPN(Feature Pyramid Network,特征金字塔网络)是传统CNN网络对图片信息进行表达输出的一种增强。它的目的是为了改进CNN网络的特征提取方式,从而可以使最终输出的特征更好地表示出输入图片各个维度的信息。它的基本过程有三个分别为:自下至上的通路即自下至上的不同维度特征生成;自上至下的通路即自上至下的特征补充增强;CNN网络层特征与最终输出的各维度特征之间的关联表达。基于FPN的检测器通过自顶向下和横向连接融合多尺度特征,在常用的目标检测数据集上取得了巨大的成果,如MS COCO、PASCAL VOC和CityPersons等数据集。但是,基于FPN的检测器在弱小目标检测上效果不佳,例如在TinyPerson和Tiny CityPersons数据集上。
因此,有必要提供一种能够显著提高弱小目标检测效果的、基于FPN的适应性检测方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种新的基于FPN的融合因子的弱小目标检测方法,其采用基于统计的方法估计特定数据集的融合因子有效值,并用合适的融合因子配置FPN,在特征层融合时考虑到来自不同图层的特征的比例,使得网络能够在弱小目标检测数据集的基线上获得显著的性能增益,从而完成了本发明。
具体来说,本发明的目的在于提供以下方面:
第一方面,提供一种基于FPN的融合因子的弱小目标检测方法,所述方法包括在图像特征提取聚合相邻特征层时,对来自不同图层的特征比例进行调整的步骤。
第二方面,提供一种计算机可读存储介质,存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。
第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。
本发明所具有的有益效果包括:
(1)本发明提供的基于FPN的融合因子的弱小目标检测方法,通过在FPN中设置适当的融合因子,可以在小目标检测的基线上获得显著的性能提升;
(2)本发明提供的基于FPN的融合因子的弱小目标检测方法,采用基于统计的方法获得融合因子,提升了学习效率和检测性能;
(3)本发明提供的基于FPN的融合因子的弱小目标检测方法,使得融合因子能够随数据集进行变化,扩大了应用范围。
附图说明
图1示出了基于不同融合因子的TinyPerson和Tiny CityPersons的性能;
图2示出了本发明所述的基于FPN的检测框架和原始FPN的检测框架,其中,左侧的虚线框显示Np的计算,其中1和0分别为正例和负例,该图像来自TinyPerson;红色框和红点表示框和框点。为了简化,一个框点仅显示一个框,黄色框和蓝色框分别位于P3和P4层上;右边的虚线框是原始FPN的框架;
图5示出了基于注意力的方法的网络结构图;
图7示出了FPN的结构图;
图8示出了COCO100中时钟,行人和所有类的性能,其中,共有6587个时钟实例,268030个人员实例和886284个实例。
具体实施方式
下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
影响FPN的弱小目标检测性能的因素一般有两个,包括下采样因子和相邻特征层之间的融合比例。之前的研究对“下采样因子”影响因素的判断结论为:下采样因子越低,性能越好。但是对于“相邻特征层之间的融合比例”这一因素,现有技术均忽略。
基于上述研究,本发明人对FPN的弱小目标检测进行了分析,结果发现:如图1所示(y轴显示了在给定融合因子时的性能提升),随着深层传送到浅层的信息量增加,检测性能先增后降。通过分析FPN的工作原理,发明人发现:由于相邻层的融合操作,FPN进行的是多任务学习。具体而言,如果省略FPN中自上而下的连接,则每一层只需专注于检测与尺度高度相关的目标,即浅层学习小目标,深层学习大目标。然而,在FPN中,由于受到来自其他层的间接损失的监督,每一层需要学习几乎所有大小的目标,甚至深层也需学习小目标。因此,FPN中的每一层不仅需要关注其对应的缩放目标,还需要从其他层获得更多的训练样本,且在融合相邻两层特征时,对较深层的加权系数均取值为1,即默认将深层和浅层按照1:1融合,导致传统的FPN不适合于弱小目标的检测。
为此,本发明提供了一种基于FPN的融合因子的弱小目标检测方法,所述方法包括在聚合相邻特征层时调整来自不同图层的特征比例的步骤。
根据本发明一种优选的实施方式,所述基于FPN的弱小目标检测方法包括以下步骤:
步骤1,构建骨干网络,并对其进行预训练;
步骤2,在目标数据集进行训练,获得训练后的检测模型;
步骤3,对待测图像进行检测。
以下进一步描述本发明所述方法:
步骤1,构建骨干网络,并对其进行预训练。
在本发明中,所述骨干网络可以选择现有的多种结构的基于深度学习的神经网络,例如可以是ResNet(残差网络)或ResNeXt(多支路的残差网络)等。
将骨干网络在ImageNet的分类数据集上进行预训练。
优选地,采用ResNet-50作为骨干网络。
步骤2,在目标数据集进行训练,获得训练后的检测模型。
其中,步骤2包括以下子步骤:
步骤2-1,提取预训练权重用作目标数据集训练的网络初始化权值;
步骤2-2,训练获得收敛的检测模型。
步骤3,对待测图像进行检测。
采用上述获得的检测模型对待测图像进行检测,获得弱小目标检测结果。
在步骤2和步骤3中,包括对图像进行特征提取的过程,优选包括以下步骤:
步骤I,采用骨干网络对图像进行多尺度特征提取,获得多个尺度的特征图。
步骤II,确定相邻特征图之间的融合比例。
为解决常规FPN不适合弱小目标检测的问题,本发明中优选增加了调整来自不同图层的特征比例的步骤。
根据本发明一种优选的实施方式,将FPN中相邻特征层的融合比例设定为融合因子α,通过设置不同的融合因子调整来自不同图层的特征比例。
其中,所述融合因子α用于描述相邻特征层的耦合度。
如图2中的右侧框所示,常规的基于FPN的检测器将α设置为1,忽略相邻特征层之间的融合比例。实际上,如果FPN融合了P2,P3,P4,P5,P6级(P2~P6表示不同的特征层)的特征,则存在三个不同的α,即和分别代表特征层P2和P3之间的融合因子、特征层P3和P4之间的融合因子、特征层P4和P5之间的融合因子,由于P6是通过直接对P5进行下采样而生成的,因此P5和P6之间没有融合因子。
在进一步优选的实施方式中,所述融合因子按照包括以下步骤的方法确定
步骤i,获得图像中每个目标的最适分配层。
具体地,将数据集图像中每个目标的真实边框与FPN的每个特征层的预选边框的交集和并集作比,获得交并比IOU,
优选选择与groud-truth最大的IOU预测框,本发明中将该预选框所在的特征层作为目标的最适分配层(最佳学习特征层)。
步骤ii,获得每层的目标数。
由步骤i获得的数据集中每个图像的每个目标的最适分配层(最佳学习特征层),则可获得每个特征层的目标数。
为了探索影响融合因子有效性的因素,发明人进行了如下研究:假设数据集的四个属性会影响融合因子,即目标的绝对大小、目标的相对大小、数据集的数据量和FPN中每层的目标分布。
首先,进行实验以评估融合因子对不同数据集的影响,结果如图3所示:在不同的融合因子下,不同的数据集表现出不同的趋势,例如曲线峰值。跨尺度数据集CityPersons,VOC和COCO对α的变化不敏感,除非当α=0时(这意味着没有特征融合)。但是,在TinyPerson和Tiny CityPersons数据集上,性能随α的增加先升后降,这意味着融合因子是影响性能的关键因素,并且存在一个最佳值范围。其中,由于难以在TinyPerson,Tiny CityPersons和CityPersons上进行收敛,因此未进行融合因子大于1.1的实验。
TinyPerson和Tiny CityPersons数据集的共同特征是实例的平均绝对大小小于20个像素,这给网络的学习带来了巨大挑战。因此,发明人调整了CityPersons和COCO数据集中的图像大小,以获得不同的数据集(CityPersons中的图像分别缩小2倍和4倍,COCO中的图像分别缩小4倍和8倍)。结果如图4所示:当减小目标的绝对尺寸时,随着α的变化,性能的趋势变得与TinyPerson相似。对于Tiny CityPersons和CityPersons,数据量和目标的相对大小完全相同;但是,当融合因子增加时,性能会有所不同。
FPN每层中目标的分布将决定训练样本是否足够,这直接影响每层中的特征表示。CityPersons与TinyPerson和TinyCityPersons具有类似的FPN分层。尽管通过CityPersons的4次下采样获得了Tiny CityPersons,但由于Tiny CityPersons的预选框也减少了4倍,因此FPN中CityPersons的分层仍然与TinyCityPersons相似。具体而言,大量的弱小目标集中在P2中,而导致FPN深层中的那些目标的P3不足。但是,融合因子在CityPersons上的性能趋势不同于TinyPerson和Tiny CityPersons。
因此,本发明人得出结论:目标的绝对大小影响融合因子的有效性。α通过在梯度反向传播中重新加权损失来确定FPN中的深层参与浅层的学习程度。数据集中的目标很小,给FPN中每层的学习带来很多困难。因此,每层的学习能力都是不够的,深层没有额外的能力来帮助浅层。换句话说,当每层的学习难度增加并且必须降低α时,FPN中深层和浅层之间的供求关系发生了变化,这表明每层都应该更加专注于本层的学习。
步骤iii,确定融合因子。
在本发明中,为进一步探索如何获得有效的融合因子,发明人设计了四种α,并在TinyPerson上进行了实验,四种方法分别为:(1)暴力解法,根据图1枚举α;(2)可学习的方法,设置α为可学习参数,并通过损失函数进行优化;(3)基于注意力的方法,其中α是由自我注意模块(self-attention)生成的,其网络结构如图5所示;(4)基于统计的方法,利用数据集的统计信息来计算α。
基于融合因子的四种不同计算策略,在TinyPerson上的性能检测结果如表1所示:
表1
其中,基线中的α默认设置为1;1-α和3-α分别使用一个和三个可学习的参数表示;atten-α是通过注意力机制获得的。α-bf表示通过暴力解的最优值;S-α是基于统计的方法,其性能是通过RetinaNet与S-α一起获得的。较低的MR(丢失率)意味着更好的性能。
由表1可以看出,暴力解法找到了最佳α,但是,它包含冗余计算,这限制了该方法的大规模应用;所有非固定的α设置都优于基线,其中α设置为1,基于注意力的方法增加了不可忽略的计算量;只有基于统计的方法才能获得与暴力搜索可比的性能。
因此,本发明中优选选择基于统计的方法获得有效的融合因子。
根据本发明一种优选的实施方式,如图2中左侧框所示,所述融合因子通过下式获得:
其中,由于预选框是预先定义的,并且数据集提供了真实性,因此融合因子的计算过程不涉及网络的正向传播。
在本发明中,融合因子通过在梯度反向传播中重新加权损失来确定FPN中的深层参与浅层的学习程度。
对于小目标检测,每一层都难以捕获具有代表性的检测任务特征,从而加剧了层之间的竞争。具体而言,不同网络头部中的所有层都希望它们共享参数,以学习用于其相应检测任务的合适特征。但是,某些层可能比其他层具有更少的训练样本,从而导致在更新共享参数时,这些层的梯度与其他层相比处于不利地位。因此,当小或和大时,该方法设置一个小的α以减小由Pi层中的检测任务产生的梯度,反之亦然,这促使网络每一层中的检测任务都能平等学习。因此,小目标学习效率得以提升。
其中,lossPi表示与第i层相对应的分类和回归损失。
上式表示需要C4学习两种任务:深层的目标检测(P4,P5)和浅层的目标检测(P3,P3)。在应用更大的时,C4将了解更多用于浅层检测任务的信息,而丢失了更多用于深层检测任务的信息,反之亦然。另外,深浅是相对的。P4对P3是深层,对P5是浅层。
为了在较大的目标数据集中(例如COCO800)进行检测,目标的信息非常丰富,甚至检测网络头部也能学到很多高度相关的信息。如果放弃用于深层检测的部分信息(应用较小的),最终性能几乎不会降低,如果保留它们(应用较大的),则性能也不会得到很大改善。结果,在这样的数据集上的设置不太敏感。数据集目标越大,alpha设置的灵敏度越低。换句话说,在较大范围内设置的性能几乎相同。
对于小目标数据集中的检测而言信息量较少,这决定了在每一层可以学习的信息量较少。因此,放弃任何信息都是危险的。所以,深层和浅层的检测任务都希望C4可以保留更多有益于他们的信息,也就是说,他们希望获得更大的C4梯度比。P2和P3中的检测任务希望较大,P4,P5希望较小。最后,最佳性能取决于折衷值,与该值的偏差越大,性能就越差,因为它过多地偏爱深层任务或浅层任务,而其他的更容易丢失重要信息,如图6所示(该图是基于MS COCO不同输入大小的下不同融合因子的性能,显示了目标绝对大小的影响,自适应RetinaNet使用P2,P3,P4,P5,P6构建FPN)。
步骤III,将各尺度的特征图进行融合。
其中,步骤III包括将相邻特征层进行融合的步骤,根据本发明一种优选的实施方式,按照下式所述方法聚合相邻特征层:
其中,finner表示用于通道匹配的1×1卷积运算,fupsample表示用于分辨率匹配的2x上采样运算,flayer表示用于特征处理的卷积运算,表示FPN的第i+1层和第i层的融合因子,Ci表示骨干网络提取的第i个阶段的特征,Pi表示由FPN提取出来的第i层的特征,表示由P′i+1表示由骨干网络第i阶段提取的特征Ci+1经过卷积finner计算后和更高层的P′i+2经过两倍上采样对应特征点相加形成的。其中,是由C5经过finner计算直接形成。
本发明上述的基于FPN的融合因子的弱小目标检测方法,显式地学习了FPN中的有效融合因子,通过在FPN中设置适当的融合因子,可以在小目标检测的基线上获得显著的性能提升。
为进一步分析融合因子是否可以隐式学习,首先,发明人分析了FPN的结构,并找到了融合因子的等效实现。在传统的FPN(α=1)中,将的参数乘以σi-2并将的参数除以σi-2等效于保持固定并设置α=σ。因此,传统的FPN具有隐式学习有效α的潜在能力。
然后,使用不同的和初始值通过将它们的对应系数相乘进行试验,如图7所示,表示σ(α=1)2。TinyPerson上的σ幂次方初始化的检测结果如表2所示,该设置无法提升基准性能。因此进一步实验,将α设置为σ,并保持和的上述初始配置,其性能类似于未定义和的初始化的性能,表2表明此策略失败。
表2
其次,存在这样的事实,即神经网络的学习是数据驱动的,并且Tiny CityPersons和TinyPerson对不同的α敏感,它们具有相似的数据量,但还不够大。在拮抗机制的激励下,发明人分析了大型数据集是否可以推动FPN隐式学习融合因子。具体而言就是设置不同的融合因子,并探索何时可以抵消融合因子的影响。
发明人对COCO100进行了验证性实验。在图6中,由α引起的峰值现象是明显的。但是,COCO是一个长尾数据集(不同类别的样本不平衡)。例如,行人数超过了COCO的四分之一,而其他类别相对较少。因此,进一步探讨了α对具有不同数据量的不同类别的影响。如图8所示,当类别是行人时,由α引起的峰值现象被大大减弱。发明人认为,当训练数据集足够大时,网络具有潜在地学习融合因子的能力。即使在COCO中,大多数类别都不满足要求,导致最终性能对融合因子敏感。
本发明还提供了一种计算机可读存储介质,存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。
本发明中所述的基于FPN的融合因子的弱小目标检测方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行所述基于FPN的融合因子的弱小目标检测方法的步骤。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
1、数据集
本实施例所述方法在TinyPerson和Tiny CityPersons数据集进行。
TinyPerson是一个从高质量视频和网络图片中收集的微小的对象检测数据集。在总共1,610幅图像中,TinyPerson包含72,651个低分辨率标注的人类物体。将数据集的60%和40%的图像被随机选择为训练和测试集。在TinyPerson中,大多数注释对象的大小小于20x20像素。在训练和推理预测过程中,使用从原点图像中切割的子图作为输入。最后,使用NMS策略对同一图像的结果进行合并。
Tiny CityPersons是cityperson数据集经过4倍下采样后得到的。
2、实施过程
选择ImageNet上经过预先训练的ResNet-50作为骨干网络,并选择RetinaNet作为检测器。总共有12个时期,初始学习率设置为0.01,然后在第6、第10阶段分别设置成0.001和0.0001。在单个NVIDIA GTX 2080Ti或1080Ti GPU上对模型进行训练和评估。预选框的大小设置为(8、16、32、64、128),宽高比设置为(0.5、1.0、2)。由于TinyPerson中某些图像中存在密集的目标(超过200个),因此选择包含少于200个目标的图像进行训练和测试。在数据扩充方面,仅采用水平翻转。与将所有图像调整为相同大小的其他基于FPN的检测器不同,使用原始图像/子图像大小。
3、评价标准:
根据Tinybenmark(Xuehui Yu,Yuqi Gong,Nan Jiang,Qixiang Ye,and ZhenjunHan.Scale match for tiny person detection.In WACV,pages 1246–1254,2020.1,2,7,8),主要使用平均精度(AP)和丢失率(MR)进行评价。AP是在各种目标检测任务中广泛使用的度量标准,它反映了检测结果的精度和查全率。由于TinyPerson是行人数据集,因此MR也用作评估标准。
IOU的阈值设置为0.25、0.5和0.75。Tinybenmark进一步将tiny[2,20]分为3个子间隔:tiny1[2,8],tiny2[8,12],tiny3[12,20]。在本实施例中,我们更多地关注是否可以找到目标,而不是位置精度。因此,选择IOU=0.5作为评价的主要阈值。
实验例
实验例1
在TinyPerson数据集上进行目标检测实验:
TinyPerson中行人的平均绝对尺寸为18像素,而且TinyPerson中行人的长宽比差异很大。此外,由于TinyPerson中行人的姿势和视点不同,导致了行人的多样性更加复杂,从而使检测更加困难。TinyPerson分别包含794和816个用于训练和推测的图像。TinyPerson中的大多数图像很大,导致了GPU内存不足。因此,在训练和推测期间,原始图像被切成了重叠的子图像。
使用TinyPerson上最先进的现有方法与本发明所述方法的检测器性能进行比较,MRs和ARs结果分别如表3和4所示。
表3
表4
其中,Fcos所述方法如文献“Zhi Tian,Chunhua Shen,Hao Chen,and TongHe.Fcos:Fully convolutional one-stage object detection.In ICCV,2019.7”所述;
RetinaNet所述方法如文献“Tsung-Yi Lin,Priya Goyal,Ross Girshick,Kaiming He,and Piotr Dollar.Focal loss for dense object detection.In′ICCV,pages 2980–2988,2017.7”所述;
所述方法如文献“Xiaosong Zhang,Fang Wan,Chang Liu,Rongrong Ji,and Qixiang Ye.Freeanchor:Learning to match anchors for visualobject detection.NeurIPS,2019.7”所述;
Libra RCNN所述方法如文献“Jiangmiao Pang,Kai Chen,Jianping Shi,HuajunFeng,Wanli Ouyang,and Dahua Lin.Libra r-cnn:Towards balanced learning forobject detection.CVPR,2019.2,7”所述;
Grid RCNN所述方法如文献“Xin Lu,Buyu Li,Yuxin Yue,Quanquan Li,andJunjie Yan.Grid r-cnn.In CVPR,2019.7”所述;
Faster RCNN-FPN所述方法如文献“Tsung-Yi Lin,Piotr Dollar,RossGirshick,Kaiming He,Bharath Hariharan,and Serge Belongie.Feature pyramidnetworks for object detection.In CVPR,July 2017.2,7”所述;
RetinaNet-SM、RetinaNet-MSM、Faster RCNN-FPN-SM及Faster RCNN-FPN-MSM所述方法如文献“Xiaosong Zhang,Fang Wan,Chang Liu,Rongrong Ji,and QixiangYe.Freeanchor:Learning to match anchors for visual object detection.NeurIPS,2019.7”所述。
其中,和是提升版本,FreeAnchor和RetinaNet的主要版本使用P3,P4,P5,P6,P7构建FPN;但是,使用P2,P3,P4,P5,P6构造FPN并将预选框的大小调整为[8、16、32、64、128]可获得显着改善。如果没有特别说明,则后续实验中使用的RetinaNet是RetinaNet的提升版本。
由于极小(微)的尺寸,SOTA检测器的性能大大降低。在TinyPerson上,正例和负例的失衡很严重;两级检测器的性能优于一级检测器。本发明中所述的带有S-α的FasterRCNN分别将和的性能提高了1.04%和0.28%,而无需添加更多网络参数。
结果表明,基于FPN的提升对两级检测器是有益的,本发明所述带有S-α的RetinaNet的性能优于除SM之外的其他检测器。SM需要通过COCO和TinyPerson之间的比例匹配对COCO进行预训练,然后在TinyPerson上进行微调;而带有S-α的RetinaNet仅基于ImageNet上的预训练模型。本发明带有S-α的RetinaNet无需添加新的网络参数即可达到可比的性能。
进一步地,将上述不同的骨干网络的目标检测结果进行比较,结果如表5所示。
表5
由表5可知,RetinaNet S-α的性能分别在ResNet-50和ResNet-101上提升了1.78%和1%。与ResNet-50相比,ResNet-101在弱小人物检测方面没有更好的性能,这可能是由弱小的绝对尺寸引起的。在图像大小固定的情况下,弱小的目标主要分布在FPN的P2和P3中,并且在较深的层中训练样本较少。与ResNet-50相比,ResNet-101额外的51个块位于ResNet的stage4中,该块太深,无法帮助识别弱小的目标,但增加了计算负担。
实验例2
在Tiny CityPersons和COCO100数据集上进行目标检测实验,带有S-α的RetinaNet还通过使用Resnet-50(作为Tiny CityPersons和COCO100的骨干)进行了改进,结果分别如表6和7所示。
表6
表7
其中,bf表示通过暴力方法得到的最优解。
由上述结果可知,本发明所述的带有S-α的RetinaNet在其他小数据集上仍然有效,与暴力算法的最佳结果一样好。
本发明通过上述实验例,证明了本发明所述“调整FPN相邻层的融合因子可以自适应地推动浅层专注于学习小目标,从而导致小目标检测的提升”方法的有效性。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。
Claims (6)
1.一种基于FPN的融合因子的弱小目标检测方法,其特征在于,所述方法包括以下步骤:
步骤1,构建骨干网络,并对其进行预训练;
步骤2,在目标数据集进行训练,获得训练后的检测模型;
步骤3,对待测图像进行检测;
在步骤2和步骤3中,包括对图像进行特征提取的过程,包括以下步骤:
步骤I,采用骨干网络对图像进行多尺度特征提取,获得多个尺度的特征图;
步骤II,确定相邻特征图之间的融合比例;
将FPN中相邻特征层的融合比例设定为融合因子α,通过设置不同的融合因子调整来自不同图层的特征比例,
所述融合因子按照包括以下步骤的方法确定:
步骤i,获得图像中每个目标的最适分配层;
步骤ii,获得每层的目标数;
步骤iii,确定融合因子;
步骤III,将各尺度的特征图进行融合。
2.根据权利要求1所述的基于FPN的融合因子的弱小目标检测方法,其特征在于,步骤2包括以下子步骤:
步骤2-1,提取预训练权重用作目标数据集训练的网络初始化权值;
步骤2-2,训练获得收敛的检测模型。
5.一种计算机可读存储介质,其特征在于,存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行权利要求1至4之一所述基于FPN的融合因子的弱小目标检测方法的步骤。
6.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有基于FPN的融合因子的弱小目标检测程序,所述程序被处理器执行时,使得处理器执行权利要求1至4之一所述基于FPN的融合因子的弱小目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752490.6A CN111950612B (zh) | 2020-07-30 | 2020-07-30 | 基于fpn的融合因子的弱小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752490.6A CN111950612B (zh) | 2020-07-30 | 2020-07-30 | 基于fpn的融合因子的弱小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950612A CN111950612A (zh) | 2020-11-17 |
CN111950612B true CN111950612B (zh) | 2021-06-01 |
Family
ID=73338696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010752490.6A Active CN111950612B (zh) | 2020-07-30 | 2020-07-30 | 基于fpn的融合因子的弱小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950612B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011415A (zh) * | 2020-11-25 | 2021-06-22 | 齐鲁工业大学 | 基于Grid R-CNN模型改进的目标检测方法及系统 |
CN113159063B (zh) * | 2021-03-30 | 2022-11-18 | 电子科技大学 | 一种基于改进的RetinaNet小目标检测方法 |
CN113343751A (zh) * | 2021-04-15 | 2021-09-03 | 山东师范大学 | 一种小目标果实的检测方法及系统 |
CN114170421B (zh) * | 2022-02-10 | 2022-06-17 | 卡奥斯工业智能研究院(青岛)有限公司 | 图像检测方法、装置、设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778616A (zh) * | 2012-10-22 | 2014-05-07 | 中国科学院研究生院 | 基于区域的对比度金字塔图像融合方法 |
GB2588017B (en) * | 2018-05-15 | 2023-04-26 | Teledyne Flir Commercial Systems Inc | Panoramic image construction based on images captured by rotating imager |
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
US20210357640A1 (en) * | 2018-10-12 | 2021-11-18 | Nokia Technologies Oy | Method, apparatus and computer readable media for object detection |
WO2020073310A1 (en) * | 2018-10-12 | 2020-04-16 | Nokia Technologies Oy | Method and apparatus for context-embedding and region-based object detection |
CN109583425B (zh) * | 2018-12-21 | 2023-05-02 | 西安电子科技大学 | 一种基于深度学习的遥感图像船只集成识别方法 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN109993096B (zh) * | 2019-03-26 | 2022-12-20 | 东北大学 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
CN110705366A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(广州)科技有限公司 | 基于楼梯场景的实时人头检测方法 |
-
2020
- 2020-07-30 CN CN202010752490.6A patent/CN111950612B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111950612A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950612B (zh) | 基于fpn的融合因子的弱小目标检测方法 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN110458165B (zh) | 一种引入注意力机制的自然场景文本检测方法 | |
CN110032926A (zh) | 一种基于深度学习的视频分类方法以及设备 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
Jiang et al. | Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network | |
US20230237771A1 (en) | Self-supervised learning method and apparatus for image features, device, and storage medium | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
US20210104015A1 (en) | Magnifying feature map | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN112131959A (zh) | 一种基于多尺度特征强化的2d人体姿态估计方法 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN111860124A (zh) | 基于空谱胶囊生成对抗网络的遥感图像分类方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
Chen et al. | Salbinet360: Saliency prediction on 360 images with local-global bifurcated deep network | |
CN114005094A (zh) | 航拍车辆目标检测方法、系统及存储介质 | |
Zhang et al. | Crowd counting based on attention-guided multi-scale fusion networks | |
Ye et al. | Adjacent-level feature cross-fusion with 3D CNN for remote sensing image change detection | |
CN111967399A (zh) | 一种基于改进的Faster RCNN行为识别方法 | |
CN114663678A (zh) | 一种基于eco-gan的图像增强系统及方法 | |
US20220301106A1 (en) | Training method and apparatus for image processing model, and image processing method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |