CN112529098B - 密集多尺度目标检测系统及方法 - Google Patents

密集多尺度目标检测系统及方法 Download PDF

Info

Publication number
CN112529098B
CN112529098B CN202011545672.2A CN202011545672A CN112529098B CN 112529098 B CN112529098 B CN 112529098B CN 202011545672 A CN202011545672 A CN 202011545672A CN 112529098 B CN112529098 B CN 112529098B
Authority
CN
China
Prior art keywords
target
receptive
feature
parallel
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011545672.2A
Other languages
English (en)
Other versions
CN112529098A (zh
Inventor
陈曦
李志强
韩震
蒋捷
王超杰
王斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huahao Yuanyi Biotechnology Co ltd
Original Assignee
Shanghai Huahao Yuanyi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huahao Yuanyi Biotechnology Co ltd filed Critical Shanghai Huahao Yuanyi Biotechnology Co ltd
Priority to CN202011545672.2A priority Critical patent/CN112529098B/zh
Publication of CN112529098A publication Critical patent/CN112529098A/zh
Application granted granted Critical
Publication of CN112529098B publication Critical patent/CN112529098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

密集多尺度目标检测系统及方法,包括目标特征提取子网络,其对处理后的图像进行多层级卷积处理并合并成特征图输出;目标特征多感受野重复融合子网络,其对输入的特征图通过不同感受野的空洞卷积并行同步卷积后再合并输出,以扩充特征图中提取目标特征的感受野数量及尺度,通过反复多次的上述操作重复融合叠加感受野,使不同尺度的目标都能被尺度相匹配的感受野提取目标特征,最后输出多感受野重复融合特征。本系统及方法在相对较小的计算成本下,能够根据不同目标的尺度大小及尺度跨度灵活提供合适密度分布、合适尺度的感受野来完全覆盖并适配不同大小的目标,捕获类别之间上下文关系的语义信息,检测精度更高,并且解决了网格化伪影的问题。

Description

密集多尺度目标检测系统及方法
技术领域
本发明涉及多尺度目标检测领域,尤其一种基于空洞卷积的密集多尺度目标检测系统及方法。
背景技术
目标检测是计算机视觉中一项具有挑战性的任务,它要求算法为图像中每个实例预测一个带有类别标签的边框。在过去几年中,此类任务已成为最热门的领域之一。现有方法中,尤其是那些基于卷积神经网络的方法,如Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks(Faster R-CNN),Single Shot MultiBoxDetector(SSD)和YOLOv3:An Incremental Improvement(YOLOv3)等在目标检测的任务上取得了巨大的成功。
然而,在处理多尺度且尺度跨度大的多目标检测上仍然是一个挑战。大目标可能会超出卷积神经网络的感受野,从而导致无法完整的检测目标边界;小目标可能会在较大的感受野中被忽略,从而导致无法检测出目标的存在。
近年来,已经提出了许多方法来捕获多尺度特征。一种直接的方法是并行采用具有各种大小的多个卷积核。例如,Pyramid Scene Parsing Network(PSPNet)利用并行的4个不同感受野的空间池化层聚合多尺度上下文信息。但是,由于计算复杂度的限制,PSPNet不能增加更多的感受野,通过有限的4个感受野尺度用于提取高级特征的效果仍然非常有限,可能无法同时满足为多尺度且尺度跨度大的多个目标准确地分配感受野。SSD为了解决目标多尺度问题,直接融合了不同尺度特征,以此来解决多尺度问题。随后,FeaturePyramid Networks for Object Detection(FPN)结构被提出来,它实现了一种自顶向下、带有侧向连接的层次结构来构建各个尺度的高层语义特征。但在复杂场景下,FPN可能还不足以完全覆盖所有目标检测对象的尺度。
另一种方法是利用空洞卷积方法,该方法使用膨胀率对输入进行采样并控制插入卷积核中零的数目以扩感受野。空洞卷积可以任意更改感受野的大小,并捕获更多高级语义信息,而不会增加参数和计算成本。因此,Atrous Spatial Pyramid Pooling(ASPP)采用并行或级联的4种具有不同速率的空洞卷积来产生多个感受野大小,以捕获多尺度语义信息。随后,Receptive Field Block Net for Accurate and Fast Object Detection(RFBNet)提出在Inception的基础上加入了空洞卷积,从而有效的增大了感受野。然而,这种方式对于多尺度目标密集的场景还是无法满足需求。因此,DenseASPP for SemanticSegmentation in Street Scenes(DenseASPP)被提出来,以通过5种膨胀率的空洞卷积堆叠产生更加密集尺度的感受野来缓解这些问题。然而,DenseASPP在某些密集多尺度的复杂场景下还是无法满足需求。
综上,在场景较为复杂,尺度多且尺度之间跨度大的多目标检测上,目前的目标检测系统尚不能较好满足检测精度的要求。
发明内容
本发明所要解决的技术问题在于提供一种密集多尺度目标检测系统及方法,能够根据不同检测场景、不同目标的尺度大小及尺度跨度灵活提供合适的感受野尺寸匹配多个不同尺度的目标对象,有效提高目标检测精度。
本发明是通过以下技术方案实现的:
密集多尺度目标检测系统,其特征在于,包括:
目标特征提取子网络,其对处理后的图像进行多层级卷积处理并合并成特征图输出;
目标特征多感受野重复融合子网络,其对输入的特征图通过不同感受野的空洞卷积并行同步卷积后再合并输出,以扩充特征图中提取目标特征的感受野数量及尺度,通过反复多次的上述操作重复融合叠加感受野,使不同尺度的目标都能被尺度相匹配的感受野提取目标特征,最后输出多感受野重复融合特征;
目标特征多感受野重复融合子网络包括n个串联的并行网络模块,第1并行网络模块的输入端与目标特征提取子网络的输出端连接,其它并行网络模块的输入端与下一并行网络模块的输出端连接;第n并行网络模块的输出端为目标特征多感受野重复融合子网络的输出端,与检测系统其它相关子网络的输入端相连;
n个并行网络模块内,分别包括mi(i=1,2,3,…,n)个并行独立、感受野尺度不同的空洞卷积;每个并行网络模块中,所有空洞卷积的输入端分别与该并行网络模块的输入端连接,所有空洞卷积的输出端连接在同一个合并输出通道上,合并输出通道后连接1*1降维卷积;
每个并行网络模块先通过多个空洞卷积同步对输入该并行网络模块的同一特征图分别卷积、进行多感受野目标特征提取,输入的特征图中所包含的xi-1(i=1,2,3,…,n)个感受野分别被mi个不同尺度的感受野融合,再通过合并输出通道将融合了感受野的特征图叠加,叠加后特征图中提取了目标特征的感受野数量变为xi-1*mi个,最后将特征图降维成融合-叠加多感受野特征图输出给下一并行网络模块,如此反复,直至经过所有并行网络模块对感受野的重复融合叠加后,不同尺度的目标都通过尺度匹配的感受野提取了目标特征,输出多感受野重复融合特征图。
目标特征多感受野重复融合子网络通过空洞卷积的串并行结构,以更好的捕获复杂场景中不同尺度的目标。该子网络由若干个并行网络模块组成,每个并行网络模块都通过多个空洞卷积来扩展感受野数量及尺度。子网络中串联的并行网络模块的数量、每个并行网络模块中并联的空洞卷积数量,乃至每个空洞卷积的感受野尺度都是可设参数值,可以根据实际检测场景需要手动设置,因此本子网络相较于传统的特征金字塔结构,通过多个并行网络模块中的多个空洞卷积重复融合叠加后,感受野尺度及数量能够呈指数级的增加,匹配多个不同尺度且尺度跨度较大的目标对象,从而满足不同的检测场景的需求。
进一步的,所述密集多尺度目标检测系统为基于one stage目标检测网络的检测系统或者基于two stage目标检测网络的检测系统。目标特征多感受野重复融合子网络结构可以嵌入现有的目标检测网络系统中,并提升整个目标检测系统的性能。
进一步的,所述每个并行网络模块中的空洞卷积并行结构相同,包括:每个并行网络模块中的空洞卷积并行层级数量相同,均包括m个空洞卷积,mi(i=1,2,3,…,n)=m;每个并行网络模块中,位于同一并行层级的空洞卷积的感受野尺度R相同;所有并行网络模块重复融合-叠加后的感受野数量N=mn。例如,将2个并行网络模块串联连接时,如果最初输入的特征图感受野数量x0=1个,2个并行网络模块中的空洞卷积数量m1=m2=m=5个,经过第1并行网络模块后,输出的特征图感受野数量为x1=x0*m1=1*5=5个,经过第2并行网络模块后,输出的特征图感受野数量为x2=x1*m2=5*5=25个,即串接后感受野的数量将从5增加到52而不是5+5=10,感受野尺度及数量均呈指数级的增加。
进一步的,所述每个并行网络模块中分别并行2~6个空洞卷积,m≤6,空洞卷积的膨胀率r按如下排布规律取值:r1=1,r2=3,r3=6,r4=12,r5=18,r6=24;空洞卷积的卷积核大小K按如下排布规律取值:K1=1*1,K2~K6=3*3。膨胀率过大的空洞卷积会生成网格伪影,因为输出中的相邻单位是根据输入中完全独立的单位计算得出的。在级联中使用空洞卷积时,网格化伪影会更显着地影响检测性能。优选的,在每个并行的模块中包含r1=1的空洞卷积和其他不同膨胀率的空洞卷积。然后将空洞卷积并行结构的所有输出通道合并起来,用1*1卷积对合并连接结果进行卷积。卷积输出中的相邻单位来自输入中未分离的单位集。因此,相邻单元具有一直的局部信息,并且消除了网格伪影。
进一步的,所述n个并行网络模块的输出分别为:
Figure BDA0002855706600000041
Figure BDA0002855706600000042
Figure BDA0002855706600000043
Figure BDA0002855706600000044
其中:
X表示目标特征多感受野重复融合子网络的输入特征图;
y1~yn-1分别表示第1~第n-1并行网络模块各自输出的融合-叠加多感受野特征图,即为第2~第n并行网络模块的输入特征图;
yn表示第n并行网络模块输出的融合-叠加多感受野特征图,亦即目标特征多感受野重复融合子网络输出的多感受野重复融合特征图;
C1 1×1(·)~Cn 1×1(·)分别表示第1~第n并行网络模块中的1*1降维卷积;
A1 1,r1(·)~An 3,rm(·)分别表示第1~第n并行网络模块中的m个空洞卷积,每个并行网络模块中,第1~第m空洞卷积的膨胀率分别为r1~rm,第1空洞卷积的卷积核大小为1*1,记作1,第2~第m空洞卷积的卷积核大小为3*3,记作3。
S1,对处理后的图像进行多层级卷积处理并合并成特征图输出;
S2,对S1输出的特征图通过不同感受野的空洞卷积并行同步卷积mi次,利用多个感受野对同一特征图中多个不同尺度的目标进行特征提取,特征图中所包含的xi-1(i=1,2,3,…,n)个感受野分别被mi个不同尺度的感受野融合;
S3,将S2中融合了感受野的特征图叠加,叠加后特征图中提取了目标特征的感受野数量变为xi-1*mi个,将叠加后的特征图降维成融合-叠加多感受野特征图输出;
S4,将S3的输出返回输入S2,如此循环n次,以扩充特征图中提取了目标特征的感受野数量及尺度,使不同尺度的多个目标都通过尺度相匹配的感受野提取了目标特征,输出多感受野重复融合特征图。
进一步的,本检测方法可以嵌入现有的神经网络检测方法中,以Faster R-CNN为例,还包括如下步骤:
S5,从S4输出的多感受野重复融合特征图中查找目标的所有可能位置,输出目标可能位置的边框候选区域;
S6,对S5输出的目标可能位置的边框候选区域,采用与其对应的S4输出的多感受野重复融合特征图的一部分并将其缩放到预定大小,提取边框候选区域特征图;
S7,利用S6输出的边框候选区域特征图计算候选类别,同时再次边框回归,获得目标检测边框的最终精确位置。
进一步的,所述循环次数n,每次循环中的空洞卷积次数mi,每次空洞卷积的膨胀率r和卷积核大小K均为可调值。通过设置上述参数值,多个并行网络模块中的多个空洞卷积重复融合叠加后,感受野尺度及数量能够呈指数级的增加,从而匹配多个不同尺度且尺度跨度较大的目标对象。
进一步的,所述S4中循环融合时,每次循环中S2的并行空洞卷积次数mi相同,mi=m,且处于同一并行位置的空洞卷积感受野相同,n次循环融合的感受野数量N=mn
再进一步,所述m≤6,m=2~6时,空洞卷积的膨胀率r按如下规律取值:r1=1,r2=3,r3=6,r4=12,r5=18,r6=24;空洞卷积的卷积核大小K按如下规律取值:K1=1*1,K2~K6=3*3。
本发明的有益效果在于:
1、能够根据不同目标的尺度大小及尺度跨度灵活提供合适密度分布、合适尺度的感受野来完全覆盖并适配不同大小的目标,捕获类别之间上下文关系的语义信息。
2、在确保最高级别的特征图中捕获超密集尺度的语义信息的前提下,可以在相对较小的计算成本下,以指数方式增加具有不同大小的感受野的数量,捕获更多的不同尺度目标的信息。
3、空洞卷积的多个并行结构串联堆叠设计,可以通过使用更多膨胀率的空洞卷积以实现感受野密集尺度的扩展。
4、每个并行网络模块的空洞卷积并行结构相同,通过使用r1=1的空洞卷积和其他不同膨胀率的空洞卷积来生成超密集尺度分布和更大跨度的感受野,解决了网格化伪影的问题。
附图说明
图1为基于Faster R-CNN的密集多尺度目标检测系统结构示意图
图2为目标特征多感受野重复融合子网络的串并行结构示意图
图3为相邻并行网络模块间空洞卷积重复融合关系示意图
图4为2*5(并行网络模块*空洞卷积)的目标特征多感受野重复融合子网络的参数样例表
图5为多种目标检测系统的COCO验证集实验结果表
图6为多种目标检测系统的PASCAL VOC测试集实验结果表
图7、图8分别为在相同参数下,基于Faster R-CNN的现有目标检测系统和本目标检测系统对同一检测图像1的不同检测结果
图9、图10分别为在相同参数下,基于Faster R-CNN的现有目标检测系统和本目标检测系统对同一检测图像2的不同检测结果
具体实施方式
下面结合附图对本发明作进一步说明。
如图2所示的目标特征多感受野重复融合子网络,包括n个串联的并行网络模块,第1并行网络模块的输入端与目标特征提取子网络的输出端连接,其它并行网络模块的输入端与下一并行网络模块的输出端连接;第n并行网络模块的输出端为目标特征多感受野重复融合子网络的输出端,与检测系统其它相关子网络的输入端相连。
本实施例中,n个并行网络模块内,分别包括m个并行独立、感受野尺度不同的空洞卷积;每个并行网络模块中,所有空洞卷积的输入端分别与该并行网络模块的输入端连接,所有空洞卷积的输出端连接在同一个合并输出通道上,合并输出通道后连接1*1降维卷积;
每个并行网络模块先通过多个空洞卷积同步对输入该并行网络模块的同一特征图分别卷积、进行多感受野目标特征提取,输入的特征图中所包含的xi-1(i=1,2,3,…,n)个感受野分别被m个不同尺度的感受野融合,以扩充特征图中提取目标特征的感受野数量及尺度,再通过合并输出通道将融合了感受野的特征图叠加,叠加后特征图中提取了目标特征的感受野数量变为xi-1*m个,最后将特征图降维成融合-叠加多感受野特征图输出给下一并行网络模块,如此反复,直至经过所有并行网络模块对感受野的重复融合叠加后,不同尺度的目标都通过尺度匹配的感受野提取了目标特征,输出多感受野重复融合特征图。
由于空洞卷积并行串行结构的设计,目标特征多感受野重复融合子网络是一个非常灵活的结构。空洞卷积的感受野大小由卷积核大小和膨胀率控制,因此可以根据实际检测需要,通过设置不同层级空洞卷积的膨胀率r1,r2,…,rm,卷积核大小K1,K2,…,Km,空洞卷积数量m和并行网络模块数量n来生成超高密度分布、尺寸跨度大的感受野。
具体来说,对于膨胀率为r、卷积核大小为K的空洞卷积,感受野R大小为:
R=(r-1)×(K-1)+K
例如,对于膨胀率r=3、卷积核大小K=3的空洞卷积,感受野大小R为7。
将两个空洞卷积堆叠融合在一起,可以生成更大的感受野。假设堆叠融合两个感受野大小分别为R1和R2的空洞卷积,则新的感受野大小为:
R=R1+R2-1
图2~3所示的实施例中,每个并行网络模块中的空洞卷积并行结构相同,即每个并行网络模块中的空洞卷积并行层级数量相同,均包括m个空洞卷积,mi(i=1,2,3,…,n)=m;每个并行网络模块中,位于同一并行层级的空洞卷积的感受野尺度R相同;所有并行网络模块重复融合-叠加后,不同尺度的数量N为:
N=mn
如图4所示,为了进一步展示目标特征多感受野重复融合子网络串并行结构的感受野尺度多样性,构建了如下的目标特征多感受野重复融合子网络尺度样例:其中m=5,n=2,r1=1,r2=3,r3=6,r4=12,r5=18,K1=1*1,K2~K6=3*3。图表中rp为r1~r5中顺取任意一个,如表中第一格“rp,r1(R)”表示r1,r1(R)、r2,r1(R)、r3,r1(R)r4,r1(R)和r5,r1(R)这5种感受野组合融合后的新感受野尺度,表中第一列显示了上述每种组合融合前后的感受野大小。如果考虑排列顺序的差异,那么目标特征多感受野重复融合子网络的串并行结构可以生成N=52=25个尺度,并且重复融合后,最大感受野大小为73。
最大感受野大小Rmax计算公式如下:
Figure BDA0002855706600000081
其中i表示第i个并行网络模块。可以看出,通过适当的设置,目标特征多感受野重复融合子网络可以产生比现有特征金字塔结构更多尺度、更大跨度、更大密集度的感受野。并且随着m和n的增加,目标特征多感受野重复融合子网络能够通过超密集尺度的感受野提取不同尺度目标的特征。
n个并行网络模块的输出分别为:
Figure BDA0002855706600000091
Figure BDA0002855706600000092
Figure BDA0002855706600000093
Figure BDA0002855706600000094
其中:
X表示目标特征多感受野重复融合子网络的输入特征图;
y1~yn-1分别表示第1~第n-1并行网络模块各自输出的融合-叠加多感受野特征图;
yn表示第n并行网络模块输出的融合-叠加多感受野特征图,亦即目标特征多感受野重复融合子网络输出的多感受野重复融合特征图;
C1 1×1(·)~Cn 1×1(·)分别表示第1~第n并行网络模块中的1*1降维卷积;
A1 1,r1(·)~An 3,rm(·)分别表示第1~第n并行网络模块中的m个空洞卷积,每个并行网络模块中,第1~第m空洞卷积的膨胀率分别为r1~rm,第1空洞卷积的卷积核大小为1*1,记作1,第2~第m空洞卷积的卷积核大小为3*3,记作3。
每个并行网络模块中的第一个1*1卷积,旨在并行地从输入特征图中的不同尺度的感受野中提取有用的目标特征。
该目标特征多感受野重复融合子网络可以嵌入现有的目标检测网络系统中,如基于one stage目标检测网络的检测系统或者基于two stage目标检测网络的检测系统,用于提升密集多尺度目标检测的性能。如图1所示实施例中,将本子网络嵌入Faster R-CNN的密集多尺度目标检测网络系统中,传统的Faster R-CNN网络结构包括目标特征提取子网络(采用ResNet-50作为主干网),候选区域生成子网络(RPN网络)和分类回归子网络(ROI池化、分类器和回归器)。嵌入本子网络后,整个检测系统包括以下几个部分:
目标特征提取子网络,对处理后的图像进行多层级卷积处理并合并成特征图输出;
目标特征多感受野重复融合子网络,对输入的特征图通过不同感受野的空洞卷积并行同步卷积后再合并输出,以扩充特征图中提取目标特征的感受野数量及尺度,通过反复多次的上述操作重复融合叠加感受野,使不同尺度的目标都能被尺度相匹配的感受野提取目标特征,最后输出多感受野重复融合特征;
候选区域生成子网络,从目标特征多感受野重复融合子网络输出的多感受野重复融合特征图中查找目标的所有可能位置,输出目标可能位置的边框候选区域;
分类回归子网络,对候选区域生成子网络输出的目标可能位置的边框候选区域,采用与其对应的目标特征多感受野重复融合子网络输出的多感受野重复融合特征图的一部分并将其缩放到预定大小,提取边框候选区域特征图;利用边框候选区域特征图计算候选类别,同时再次边框回归,获得目标检测边框的最终精确位置。
为了评估目标特征多感受野重复融合子网络在目标检测中多尺度感受野目标特征提取的真实效果,在MS COCO数据集和PASCAL VOC数据集上进行了广泛的实验。
MS COCO包含用于训练的118K张图像,用于验证的5000张图像。PASCAL VOC数据集包含8281张训练集和8333验证集和16492张测试集,实验中把训练集和验证集一起用于训练,测试集用作测试。
所有测试均在4个GTX1080TI上使用PyTorch框架进行训练。使用SGD优化器,并设置初始的学习率为0.02,同时使用了线性慢启动的优化方法,动量因子为0.9,权重衰减因子0.0001。数据增强时,设置0.5比率的随机翻转,并使用随机裁剪的方法将图像处理至1333*800和1000*600分别在MS COCO和PASCAL VOC数据集上。此外,测试时还采用了多尺度的推理方法。
实验结果表明,本检测系统在上述两个数据集上的实验结果相比于现有检测系统具有明显的提升。
图5展示了在MS COCO数据集的实验结果。以Faster-RCNN检测网络作为基准检测网络系统,采用ResNet-50作为主干网,然后在训练集训练50轮,验证集测试结果为37.4%AP。在同样的实验参数设置前提下,将目标特征多感受野重复融合子网络嵌入Faster-RCNN基准网络后,在验证集上的结果有了显著的提升,达到了38.3%,其中AP50比Faster-RCNN提升了3.3%。充分展示了目标特征多感受野重复融合子网络的有效性。
图6展示了Faster-RCNN检测网络嵌入目标特征多感受野重复融合子网络前后在PASCAL VOC数据集的实验结果。表中第一列为检测对象,第二列展示了传统Faster-RCNN检测网络的实验结果,第三列展示了嵌入目标特征多感受野重复融合子网络后的Faster-RCNN检测网络实验结果。同样使用Faster-RCNN检测网络作为基准检测网络系统,在训练集上进行20轮的训练,传统Faster-RCNN检测网络在验证集上的mAP达到了76.8%。在同样的实验参数设置前提下,添加了目标特征多感受野重复融合子网络后,验证集的mAP增加了1.1%,达到77.9%。并且在20个类别中,有13个类别的精度都有显著的提高,其中“人”这一类别提高达到了5.7%。通过测试结果图对比可以明显的看出,嵌入目标特征多感受野重复融合子网络后能够有效的适应不同尺度的目标,从而提高了检测的精度。
图7和图8展示了检测目标为“猫”、“鼠标”的同一原始图像,Faster-RCNN检测网络嵌入目标特征多感受野重复融合子网络前后的不同检测结果,图7中,传统Faster-RCNN检测网络最终输出了三个目标检测边框,分别是对应猫的全身,猫的前半身及鼠标,存在一个猫的前半身不准确检测边框,而图8中,嵌入目标特征多感受野重复融合子网络后,最终输出了两个目标检测边框,分别对应猫的全身及鼠标,检测精度更高。
图9和图10展示了检测目标为“车”、“人”和“消防栓”的同一原始图像,Faster-RCNN检测网络嵌入目标特征多感受野重复融合子网络前后的不同检测结果,图9中,传统Faster-RCNN检测网络最终输出了三个目标检测边框,分别是对应近处的人,近处的车及远处的消防栓,而图8中,嵌入目标特征多感受野重复融合子网络后,最终输出了5个目标检测边框,多出的两个目标检测边框分别对应的是远处两辆的被积雪覆盖的车(图中加粗边框部分),检测精度更高。

Claims (9)

1.密集多尺度目标检测系统,其特征在于,包括:
目标特征提取子网络,其对处理后的图像进行多层级卷积处理并合并成特征图输出;
目标特征多感受野重复融合子网络,其对输入的特征图通过不同感受野的空洞卷积并行同步卷积后再合并输出,以扩充特征图中提取目标特征的感受野数量及尺度,通过反复多次的上述操作重复融合叠加感受野,使不同尺度的目标都能被尺度相匹配的感受野提取目标特征,最后输出多感受野重复融合特征;
目标特征多感受野重复融合子网络包括n个串联的并行网络模块,第1并行网络模块的输入端与目标特征提取子网络的输出端连接,其它并行网络模块的输入端与下一并行网络模块的输出端连接;第n并行网络模块的输出端为目标特征多感受野重复融合子网络的输出端,与检测系统其它相关子网络的输入端相连;
n个并行网络模块内,分别包括mi(i=1,2,3,…,n)个并行独立、感受野尺度不同的空洞卷积;每个并行网络模块中,所有空洞卷积的输入端分别与该并行网络模块的输入端连接,所有空洞卷积的输出端连接在同一个合并输出通道上,合并输出通道后连接1*1降维卷积;
每个并行网络模块先通过多个空洞卷积同步对输入该并行网络模块的同一特征图分别卷积、进行多感受野目标特征提取,输入的特征图中所包含的xi-1(i=1,2,3,…,n)个感受野分别被mi个不同尺度的感受野融合,再通过合并输出通道将融合了感受野的特征图叠加,叠加后特征图中提取了目标特征的感受野数量变为xi-1*mi个,最后将特征图降维成融合-叠加多感受野特征图输出给下一并行网络模块,如此反复,直至经过所有并行网络模块对感受野的重复融合叠加后,不同尺度的目标都通过尺度匹配的感受野提取了目标特征,输出多感受野重复融合特征图;
所述每个并行网络模块中的空洞卷积并行结构相同,所述n个并行网络模块的输出分别为:
Figure FDA0004140015940000011
Figure FDA0004140015940000021
Figure FDA0004140015940000022
Figure FDA0004140015940000023
其中:
X表示目标特征多感受野重复融合子网络的输入特征图;
y1~yn-1分别表示第1~第n-1并行网络模块各自输出的融合-叠加多感受野特征图;
yn表示第n并行网络模块输出的融合-叠加多感受野特征图,亦即目标特征多感受野重复融合子网络输出的多感受野重复融合特征图;
C1 1×1(·)~Cn 1×1(·)分别表示第1~第n并行网络模块中的1*1降维卷积;
A1 1,r1(·)~An 3,rm(·)分别表示第1~第n并行网络模块中的m个空洞卷积,每个并行网络模块中,第1~第m空洞卷积的膨胀率分别为r1~rm,第1空洞卷积的卷积核大小为1*1,记作1,第2~第m空洞卷积的卷积核大小为3*3,记作3;
候选区域生成子网络,从目标特征多感受野重复融合子网络输出的多感受野重复融合特征图中查找目标的所有可能位置,输出目标可能位置的边框候选区域;
分类回归子网络,对候选区域生成子网络输出的目标可能位置的边框候选区域,采用与其对应的目标特征多感受野重复融合子网络输出的多感受野重复融合特征图的一部分并将其缩放到预定大小,提取边框候选区域特征图;利用边框候选区域特征图计算候选类别,同时再次边框回归,获得目标检测边框的最终精确位置。
2.根据权利要求1所述的密集多尺度目标检测系统,其特征在于,所述密集多尺度目标检测系统为基于one stage目标检测网络的检测系统或者基于two stage目标检测网络的检测系统。
3.根据权利要求1所述的密集多尺度目标检测系统,其特征在于,所述每个并行网络模块中的空洞卷积并行结构相同,包括:
每个并行网络模块中的空洞卷积并行层级数量相同,均包括m个空洞卷积,mi(i=1,2,3,…,n)=m;
每个并行网络模块中,位于同一并行层级的空洞卷积的感受野尺度R相同;
所有并行网络模块重复融合-叠加后的感受野数量N=mn
4.根据权利要求3所述的密集多尺度目标检测系统,其特征在于,所述每个并行网络模块中分别并行2~6个空洞卷积,m≤6,空洞卷积的膨胀率r按如下排布规律取值:r1=1,r2=3,r3=6,r4=12,r5=18,r6=24;空洞卷积的卷积核大小K按如下排布规律取值:K1=1*1,K2~K6=3*3。
5.一种实现如权利要求1所述的密集多尺度目标检测系统的密集多尺度目标检测方法,包括如下步骤:
S1,对处理后的图像进行多层级卷积处理并合并成特征图输出;
S2,对S1输出的特征图通过不同感受野的空洞卷积并行同步卷积mi次,利用多个感受野对同一特征图中多个不同尺度的目标进行特征提取,特征图中所包含的xi-1(i=1,2,3,…,n)个感受野分别被mi个不同尺度的感受野融合;
S3,将S2中融合了感受野的特征图叠加,叠加后特征图中提取了目标特征的感受野数量变为xi-1*mi个,将叠加后的特征图降维成融合-叠加多感受野特征图输出;
S4,将S3的输出返回输入S2,如此循环n次,以扩充特征图中提取了目标特征的感受野数量及尺度,使不同尺度的多个目标都通过尺度相匹配的感受野提取了目标特征,输出多感受野重复融合特征图。
6.根据权利要求5所述的密集多尺度目标检测方法,其特征在于,还包括如下步骤:
S5,从S4输出的多感受野重复融合特征图中查找目标的所有可能位置,输出目标可能位置的边框候选区域;
S6,对S5输出的目标可能位置的边框候选区域,采用与其对应的S4输出的多感受野重复融合特征图的一部分并将其缩放到预定大小,提取边框候选区域特征图;
S7,利用S6输出的边框候选区域特征图计算候选类别,同时再次边框回归,获得目标检测边框的最终精确位置。
7.根据权利要求5所述的密集多尺度目标检测方法,其特征在于,所述循环次数n,每次循环中的空洞卷积次数mi,每次空洞卷积的膨胀率r和卷积核大小K均为可调值。
8.根据权利要求5所述的密集多尺度目标检测方法,其特征在于,所述S4中循环融合时,每次循环中S2的并行空洞卷积次数mi相同,mi=m,且处于同一并行位置的空洞卷积感受野相同,n次循环融合的感受野数量N=mn
9.根据权利要求8所述的密集多尺度目标检测方法,其特征在于,所述m≤6,m=2~6时,空洞卷积的膨胀率r按如下规律取值:r1=1,r2=3,r3=6,r4=12,r5=18,r6=24;空洞卷积的卷积核大小K按如下规律取值:K1=1*1,K2~K6=3*3。
CN202011545672.2A 2020-12-24 2020-12-24 密集多尺度目标检测系统及方法 Active CN112529098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545672.2A CN112529098B (zh) 2020-12-24 2020-12-24 密集多尺度目标检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545672.2A CN112529098B (zh) 2020-12-24 2020-12-24 密集多尺度目标检测系统及方法

Publications (2)

Publication Number Publication Date
CN112529098A CN112529098A (zh) 2021-03-19
CN112529098B true CN112529098B (zh) 2023-06-27

Family

ID=74976429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545672.2A Active CN112529098B (zh) 2020-12-24 2020-12-24 密集多尺度目标检测系统及方法

Country Status (1)

Country Link
CN (1) CN112529098B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850259A (zh) * 2021-09-27 2021-12-28 中国科学院光电技术研究所 一种基于多感受野特征的自主空中加油锥套识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN109919206A (zh) * 2019-02-25 2019-06-21 武汉大学 一种基于全空洞卷积神经网络的遥感影像地表覆盖分类方法
CN110428428A (zh) * 2019-07-26 2019-11-08 长沙理工大学 一种图像语义分割方法、电子设备和可读存储介质
CN111523546A (zh) * 2020-04-16 2020-08-11 湖南大学 图像语义分割方法、系统及计算机存储介质
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418458B2 (en) * 2015-01-05 2016-08-16 Superfish Ltd. Graph image representation from convolutional neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN109919206A (zh) * 2019-02-25 2019-06-21 武汉大学 一种基于全空洞卷积神经网络的遥感影像地表覆盖分类方法
CN110428428A (zh) * 2019-07-26 2019-11-08 长沙理工大学 一种图像语义分割方法、电子设备和可读存储介质
CN111523546A (zh) * 2020-04-16 2020-08-11 湖南大学 图像语义分割方法、系统及计算机存储介质
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Atrous convolutions spatial pyramid network for crowd counting and density estim;Junjie MA;《elsevier》;20190419;论文全文 *

Also Published As

Publication number Publication date
CN112529098A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN105160678A (zh) 基于卷积神经网络的无参考立体图像质量评估方法
CN107679465A (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN106022273A (zh) 基于动态样本选择策略的bp神经网络手写体识别系统
CN104517274B (zh) 基于贪婪搜索的人脸画像合成方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN111160163B (zh) 一种基于区域关系建模和信息融合建模的表情识别方法
CN110084181B (zh) 一种基于稀疏MobileNetV2网络的遥感图像舰船目标检测方法
CN111161158B (zh) 一种基于生成网络结构的图像修复方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN112529098B (zh) 密集多尺度目标检测系统及方法
CN111626357A (zh) 一种基于神经网络模型的图像识别方法
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
CN105550712A (zh) 基于优化卷积自动编码网络的极光图像分类方法
CN109740672B (zh) 多流特征距离融合系统与融合方法
Brahimi et al. Improved very deep recurrent convolutional neural network for object recognition
CN110490053B (zh) 一种基于三目摄像头深度估计的人脸属性识别方法
CN116030537B (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN116778346A (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN109558819B (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN115984949A (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230530

Address after: 2nd Floor, Building 54, No. 100 Jungong Road, Yangpu District, Shanghai, 200090

Applicant after: SHANGHAI HUAHAO YUANYI BIOTECHNOLOGY Co.,Ltd.

Address before: Room 201, building 98, 100 Jungong Road, Yangpu District, Shanghai 200090

Applicant before: Shanghai jiuzilihuo Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant