CN112699953A - 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 - Google Patents

基于多信息路径聚合的特征金字塔神经网络架构搜索方法 Download PDF

Info

Publication number
CN112699953A
CN112699953A CN202110018395.8A CN202110018395A CN112699953A CN 112699953 A CN112699953 A CN 112699953A CN 202110018395 A CN202110018395 A CN 202110018395A CN 112699953 A CN112699953 A CN 112699953A
Authority
CN
China
Prior art keywords
network
features
level
pyramid
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110018395.8A
Other languages
English (en)
Other versions
CN112699953B (zh
Inventor
王勇涛
梁婷婷
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110018395.8A priority Critical patent/CN112699953B/zh
Publication of CN112699953A publication Critical patent/CN112699953A/zh
Application granted granted Critical
Publication of CN112699953B publication Critical patent/CN112699953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公布了一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,构建多种基本信息路径,建立全连接的有向无环图超网,搜索得到由多种基本信息路径聚合而成的多路径聚合特征金字塔网络;将多路径聚合特征金字塔网络嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达;实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测;本发明能够实现高效、有效的搜索,将搜索到特征金字塔网络嵌入检测器的骨干网络与检测器头之间,检测器其他部分的网络结构不需要改变,方法简单方便,且物体检测精度高,同时还降低检测器的参数量和计算复杂度。

Description

基于多信息路径聚合的特征金字塔神经网络架构搜索方法
技术领域
本发明属于计算机视觉技术领域,涉及利用计算机视觉及深度学习技术进行多尺度特征抽取,尤其涉及一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,可用于通用物体检测。
背景技术
近年来,机器学习研究和应用得到了蓬勃发展。其中,深度学习方法已在许多应用领域(例如计算机视觉,语音处理和机器翻译)中取得了关键性的进步,这当中一个重要原因是新型神经网络架构的出现。深度学习在感知任务中的成功很大程度上归功于其对特征工程流的自动化:从数据中以端到端的方式提取层次化特征。然而,不同任务对特征表达的需求不同,在实际应用中,研究者手动设计了越来越多复杂的神经网络架构,这是一个耗时且容易出错的过程。研究者需要针对不同的任务手动设计合适的神经网络架构、训练配置、正则化方法和超参数,来使得手动设计的网络能够在目标任务中达到理想表现。同时,网络的性能表现对设计细节非常敏感,因此,对于每个不同任务,都必须重复这样的手动设计过程。即使是有丰富经验的研究员,也需要反复试验,直到为特定任务确定一套适配参数。
自动化机器学习(Automated Machine Learning,AutoML)旨在以数据驱动,用自动化的方式来确定这套适配参数(神经网络架构、训练配置、正则化方法和超参数等)。工程师只需提供数据,AutoML系统会自动搜索对该特定任务最优的网络模型。因此,AutoML能帮助有兴趣应用机器学习算法、但没有资源详细了解其背后技术的其他领域研究者使用最新的机器学习方法。最近,学术界提出神经网络架构搜索(Neural Architecture Search,NAS),表示自动化架构设计的过程,是自动化机器学习的进一步发展。目前,在某些计算机视觉任务上,例如图像分类,物体检测和语义分割,NAS方法搜得的网络架构已经优于手动设计的网络架构。
在实际应用中,现有神经网络架构搜索方法,通常以单一操作(如卷积,池化等)作为搜索单元,用强化学习、单步搜索、梯度计算等方法找到若干个搜索单元的最优组合架构,这些方法也能实现对特征金字塔网络进行架构搜索。但是,这些方法通常在搜索上占用大量硬件资源,且耗时冗长。同时,这些方法搜索到的架构通常需要特殊的训练技巧(比如更大的资源消耗),才能在实际应用中表现出更好的效果。
因此,现有的神经网络架构搜索方法对于特征金字塔神经网络架构搜索任务,技术上还存在一定瓶颈,搜索效率不高,硬件资源消耗大。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,提出多种基本信息路径,并以其作为搜索单元,建立一个全连接的有向无环图超网,来搜索不同基本信息路径之间的最优聚合方式,得到的多路径聚合特征金字塔网络,能够增强通用物体特征的多尺度特征表达能力,从而提高计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测等)的性能。
本发明的技术方案是:
一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,用于搜索多种基本信息路径之间的最优组合方式,该最优组合能有效增强特征表达。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式。搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果。多路径聚合特征金字塔网络通过增强骨干网络特征来增强通用物体特征提取,进而提高物体检测的精度。对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度。对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果。具体地,从搜索到应用,包括如下步骤:
1)构建多种基本信息路径,分别以不同的方式融合高、低级别特征,生成特征金字塔。
具体实施时,待检测/分割图像输入骨干网络,得到多级金字塔特征。为了有效融合来自骨干网络的多级特征(第二级骨干网络P2,第三级骨干网络P3,第四级骨干网络P4,第五级骨干网络P5),提出六种信息路径,它们分别以不同的方式融合高级别(第四级骨干网络P4,第五级骨干网络P5)和低级别特征(第二级骨干网络P2,第三级骨干网络P3),输出融合后的多级别特征(第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5)。注意,信息路径可以随着新方法的提出继续扩充种类。本发明用来自骨干网络的多级特征表示信息路径的输入特征金字塔,在实际应用时,输入特征金字塔包括但不限于骨干网络,为了描述方便,以下用骨干网络表示输入特征金字塔。目前提出六种信息路径如下:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔(第二级输出特征
Figure BDA0002887502940000031
第三级输出特征
Figure BDA0002887502940000032
第四级输出特征
Figure BDA0002887502940000033
第五级输出特征
Figure BDA0002887502940000034
其中,t表示自顶向下top-down,特指自顶向下信息路径输出的特征金字塔),即优先生成第五级输出特征
Figure BDA0002887502940000035
具体来说,每级输出特征
Figure BDA0002887502940000036
通过融合相同级别的输入特征Pi,和更高级别的输出特征
Figure BDA0002887502940000037
来得到,用公式表示为:
Figure BDA0002887502940000038
其中U(·)表示系数为2的上采样操作。对于最低级别特征,
Figure BDA0002887502940000039
表示卷积核大小为3的普通卷积,对于其他级别特征(i=3,4,5),
Figure BDA00028875029400000310
表示卷积核大小为3的可变卷积,。
b)自底向上信息路径:该路径按自底向上的顺序输出特征金字塔(第二级输出特征
Figure BDA00028875029400000311
第三级输出特征
Figure BDA00028875029400000312
第四级输出特征
Figure BDA00028875029400000313
第五级输出特征
Figure BDA00028875029400000314
其中,b表示自底向上bottom-up,特指自底向上信息路径输出的特征金字塔),最低级别特征
Figure BDA00028875029400000315
最先被生成。每级输出特征
Figure BDA00028875029400000316
通过融合相同级别的输入特征Pi,和更低级别的输出特征
Figure BDA00028875029400000317
得到,用公式表示为:
Figure BDA00028875029400000318
其中D(·)表示系数为2的下采样操作。
Figure BDA00028875029400000319
Figure BDA00028875029400000320
采用相同配置。
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔(第二级输出特征
Figure BDA00028875029400000321
第三级输出特征
Figure BDA00028875029400000322
第四级输出特征
Figure BDA00028875029400000323
第五级输出特征
Figure BDA00028875029400000324
其中,s表示尺度平衡scale-equalizing,特指尺度平衡信息路径输出的特征金字塔),用公式表示为:
Figure BDA00028875029400000325
其中
Figure BDA00028875029400000326
是核大小为3、步长为1的可变卷积,
Figure BDA00028875029400000327
是核大小为3、步长为1的可变卷积,
Figure BDA00028875029400000328
是核大小为3、步长为2的可变卷积。
d)融合拆分信息路径:该路径首先组合了较高级别和较低级别的输入特征然后将组合的特征拆分为多尺度输出特征金字塔。具体地讲,是将高级别的两个输入特征(第四级骨干网络P4,第五级骨干网络P5)合并到小融合特征∝s中,将低级别层的两个输入特征(第二级骨干网络P2,第三级骨干网络P3)合并到大融合特征∝l中:
s=P4+U(P5),∝l=D(P2)+P3
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l
Figure BDA0002887502940000041
其中Ws f,Wl f都表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作。在这些融合操作后,得到增强的小融合特征βs、增强的大融合特征βl,它们分别融合了低级别和高级别的所有特征。最后我们把增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔(第二级输出特征
Figure BDA0002887502940000042
第三级输出特征
Figure BDA0002887502940000043
第四级输出特征
Figure BDA0002887502940000044
第五级输出特征
Figure BDA0002887502940000045
其中,f表示融合拆分fusing-splitting,特指融合拆分信息路径输出的特征金字塔):
Figure BDA0002887502940000046
e)残差连接信息路径:该路径起恒等变换的作用,将输入特征金字塔直接映射到输出。
f)空信息路径:该路径起消除冗余信息的作用,将输入金字塔映射到输出节点0。
2)基于步骤1)提出的基本信息路径构造超网,设置最优子网络为搜索目标,通过单步搜索算法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
基于上述6种基本信息路径,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点(包括输入节点P和输出节点O),N表示中间节点数量。节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是在搜索空间中找到最优子网络,最优子网络即本发明中在实际检测中应用的多路径聚合特征金字塔网络,能够嵌在各种骨干网络之后,增强特征表达。搜索空间中包含
Figure BDA0002887502940000047
个子网络,不同的子网络代表基本信息路径的不同聚合方式,其中表现最优的子网络就是本发明提出的多路径聚合特征金字塔网络。子网络是一个有向无环图,每两个节点(节点i和节点j)之间有1条边IP(i,j),表示某一种信息路径。在本发明具体实施中,N设置为5,注意N可以灵活变化。
单步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索。注意,超网训练和搜索时,视不同任务而定,将超网嵌入实际应用的网络中。对于物体检测和实例分割,超网嵌入骨干网络和检测器头之间,对于语义分割,超网嵌入骨干网络和解码器之间。对于关键点检测,超网嵌入骨干网络和检测子网络之间。
a)超网训练中,每次数据迭代采样K个子网络,这K个子网络之间信息路径分布方式没有重复,以起到有参数的信息路径公平训练的作用。本发明具体实施中K设置为4(表示自顶向下、自底向上、尺度平衡、融合拆分信息路径)。同时,在训练时给每条边加一个权重γi,j,以表示节点xi和节点xj之间边的重要性。在子网络中,每一个中间节点xi(i=1,2,…,N)融合来自所有前向节点的输出:
Figure BDA0002887502940000051
该权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
Figure BDA0002887502940000052
Figure BDA0002887502940000053
分别表示检测任务中分类和回归任务的损失函数。
b)最优子网络搜索中,通过从训练得到的超网中继承权重,得到子网络,对子网络做精度测试作为质量评估,通过遗传算法迭代多次得到精度最高的子网络,即本发明提出的多路径聚合特征金字塔网络。
3)搜索结束,在具体应用中,输入待检测/分割的通用物体图像到骨干网络,如ResNet(残差网络),ResNeXt(多支路的残差网络),首先由骨干网络提取多级特征。
4)将提取到的骨干网络多级特征输入由步骤(2)搜索到的最优子网络(多路径聚合特征金字塔网络),多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征。
5)对于物体检测和实例分割,将增强后的特征输入到检测器的后续模块(检测器头),视具体检测器而定。对于语义分割,将增强后的特征输入到解码器。对于关键点分割,将增强后的特征输入到检测子网络。
6)对于物体检测和实例分割,将检测器的后续模块输出框的类别和位置信息作为检测结果。对于语义分割,将解码器输出的逐像素类别信息作为分割结果。对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果。
上述搜索算法可广泛应用于自动驾驶、智能视频监控、物体遥感识别等实际应用的计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测)中,提高任务的性能表现(如检测、分割精度)。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,目标是搜索多种基本信息路径之间的最优组合方式,该最优组合能有效提高物体检测精度。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式。搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果。多路径聚合特征金字塔网络通过增强骨干网络特征来增强通用物体特征提取,进而提高物体检测的精度。对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度。对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果。本发明方法打破了常规神经网络架构搜索采用单一操作作为搜索单元的思路,建立基于多种基本信息路径作为搜索单元的搜索方法,实现高效、有效的搜索。搜索到的最优架构,可以作为特征金字塔网络,应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),嵌在骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。在物体检测任务中,还可以通过降低特征金字塔网络和检测器头的特征通道数,降低检测器的参数量和计算复杂度。在物体检测任务,MSCOCO上的实施结果表明,在训练和测试的输入图像大小均为800*1333的情况下,将检测器的特征金字塔网络修改为搜索到的最优架构之后(如将Faster R-CNN ResNet50-FPN的特征金字塔网络替换为搜索到的架构),基于FPN的Faster R-CNN检测器在验证集val上mAP值可以从36.4%提高到39.6%,计算复杂度从207G降到197G,参数量从41.5M降到35.5M;基于FPN的RetinaNet检测器mAP从35.7%提升到38.0%,计算复杂度从239G降到207G,参数量从37.7M降到36.5M;基于Cascade R-CNN的检测器mAP从40.3%提升到42.8%,计算复杂度从235G降到225G,参数量从69.2M降到50.6M。(注:MSCOCO是一个大规模的数据集,包含物体检测、分割等任务,见http://cocodataset.org/#home box的mAP值是衡量检测性能的一个指标,见http:// cocodataset.org/#detection-eval)。
附图说明
图1是现有的特征金字塔网络架构示意图
图2是本发明提供的6种基本信息路径结构示意图
图3是本发明提出的搜索方法流程图。
图4是本发明提供的特征金字塔网络应用到通用物体检测时的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提出了用于多路径聚合特征金字塔网络搜索方法,应用到通用物体检测的流程如图4所示。现有的计算机视觉常用的多尺度特征提取方法中,通常采用单一拓扑结构的信息路径作为特征金字塔网络,如图1所示,目前最常用的特征金字塔网络是FPN,以此为基础还发展出其他变种如PANet,Libra R-CNN,SEPC-Neck,Bi-FPN。
为了解决计算机视觉任务中尺度变换问题,本发明提出利用多种信息路径聚合作为特征金字塔网络,通过搜索多种信息路径之间丰富的连接组合方式,优化多尺度特征的提取。如图2所示,本发明提出6种基本信息路径,分别为自顶向下、自底向上、尺度平衡、融合拆分、残差连接、空信息路径,分别用不同的方式融合来自骨干网络的多级特征信息。
本发明提出的一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,目标是搜索多种基本信息路径之间的最优组合方式,该最优组合能有效增强多尺度特征表达,提高计算机视觉任务性能。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式,搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够作为特征金字塔网络嵌入各种骨干网络之后通过多种基本信息路径叠加组合,增强由骨干网络提取到的多尺度特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。如图3所示,本发明基于这6种基本信息路径,提出单步搜索方法,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点,节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是找到最优子网络,子网络是一个有向无环图,每两个节点之间有1条边,表示某一种信息路径。搜索到的最优子网络即本发明提出的多路径聚合特征金字塔网络。包括如下步骤:
1)构建多种基本信息路径,分别以不同的方式融合高、低级别特征,生成特征金字塔。
具体实施时,待检测/分割图像输入骨干网络,得到多级金字塔特征。为了有效融合来自骨干网络的多级特征(第二级骨干网络P2,第三级骨干网络P3,第四级骨干网络P4,第五级骨干网络P5),提出六种信息路径,它们分别以不同的方式融合高级别(第四级骨干网络P4,第五级骨干网络P5)和低级别特征(第二级骨干网络P2,第三级骨干网络P3),输出融合后的多级别特征(第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5)。注意,信息路径可以随着新方法的提出继续扩充种类。本发明用来自骨干网络的多级特征表示信息路径的输入特征金字塔,在实际应用时,输入特征金字塔包括但不限于骨干网络,为了描述方便,以下用骨干网络表示输入特征金字塔。目前提出六种信息路径如下:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔(第二级输出特征
Figure BDA0002887502940000081
第三级输出特征
Figure BDA0002887502940000082
第四级输出特征
Figure BDA0002887502940000083
第五级输出特征
Figure BDA0002887502940000084
其中,t表示自顶向下top-down,特指自顶向下信息路径输出的特征金字塔),即优先生成第五级输出特征
Figure BDA0002887502940000085
具体来说,每级输出特征
Figure BDA0002887502940000086
通过融合相同级别的输入特征Pi,和更高级别的输出特征
Figure BDA0002887502940000087
来得到,用公式表示为:
Figure BDA0002887502940000088
其中U(·)表示系数为2的上采样操作。对于最低级别特征,
Figure BDA0002887502940000089
表示卷积核大小为3的普通卷积,对于其他级别特征(i=3,4,5),
Figure BDA00028875029400000810
表示卷积核大小为3的可变卷积,。
b)自底向上信息路径:该路径按自底向上的顺序输出特征金字塔(第二级输出特征
Figure BDA00028875029400000811
第三级输出特征
Figure BDA00028875029400000812
第四级输出特征
Figure BDA00028875029400000813
第五级输出特征
Figure BDA00028875029400000814
其中,b表示自底向上bottom-up,特指自底向上信息路径输出的特征金字塔),最低级别特征
Figure BDA00028875029400000815
最先被生成。每级输出特征
Figure BDA00028875029400000816
通过融合相同级别的输入特征Pi,和更低级别的输出特征
Figure BDA00028875029400000817
得到,用公式表示为:
Figure BDA00028875029400000818
其中D(·)表示系数为2的下采样操作。
Figure BDA00028875029400000819
Figure BDA00028875029400000820
采用相同配置。
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔(第二级输出特征
Figure BDA00028875029400000821
第三级输出特征
Figure BDA00028875029400000822
第四级输出特征
Figure BDA00028875029400000823
第五级输出特征
Figure BDA00028875029400000824
其中,s表示尺度平衡scale-equalizing,特指尺度平衡信息路径输出的特征金字塔),用公式表示为:
Figure BDA00028875029400000825
其中
Figure BDA00028875029400000826
是核大小为3、步长为1的可变卷积,
Figure BDA00028875029400000827
是核大小为3、步长为1的可变卷积,
Figure BDA00028875029400000828
是核大小为3、步长为2的可变卷积。
d)融合拆分信息路径:该路径首先组合了较高级别和较低级别的输入特征,然后将组合的特征拆分为多尺度输出特征金字塔。具体地讲,是将高级别的两个输入特征(第四级骨干网络P4,第五级骨干网络P5)合并到小融合特征∝s中,将低级别层的两个输入特征(第二级骨干网络P2,第三级骨干网络P3)合并到大融合特征∝l中:
s=P4+U(P5),∝l=D(P2)+P3
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l
Figure BDA0002887502940000091
其中Ws f,Wl f都表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作。在这些融合操作后,得到增强的小融合特征βs、增强的大融合特征βl,它们分别融合了低级别和高级别的所有特征。最后我们把增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔(第二级输出特征
Figure BDA0002887502940000092
第三级输出特征
Figure BDA0002887502940000093
第四级输出特征
Figure BDA0002887502940000094
第五级输出特征
Figure BDA0002887502940000095
其中,f表示融合拆分fusing-splitting,特指融合拆分信息路径输出的特征金字塔):
Figure BDA0002887502940000096
e)残差连接信息路径:该路径起恒等变换的作用,将输入特征金字塔直接映射到输出。
f)空信息路径:该路径起消除冗余信息的作用,将输入金字塔映射到输出节点0。
2)基于步骤(1)提出的基本信息路径构造超网,设置最优子网络为搜索目标,通过单步搜索算法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
基于上述6种基本信息路径,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点(包括输入节点P和输出节点O),N表示中间节点数量。节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是在搜索空间中找到最优子网络,最优子网络即本发明中可以作为特征金字塔网络,应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),嵌在骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。搜索空间中包含
Figure BDA0002887502940000097
个子网络,不同的子网络代表基本信息路径的不同聚合方式,其中表现最优的子网络就是本发明提出的多路径聚合特征金字塔网络。子网络是一个有向无环图,每两个节点(节点i和节点j)之间有1条边IP(i,j),表示某一种信息路径。在本发明具体实施中,N设置为5,注意N可以灵活变化。
单步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索。注意,超网训练和搜索时,视不同任务而定,将超网嵌入实际应用的网络中。对于物体检测和实例分割,超网嵌入骨干网络和检测器头之间,对于语义分割,超网嵌入骨干网络和解码器之间。对于关键点检测,超网嵌入骨干网络和检测子网络之间。
a)超网训练中,每次数据迭代采样K个子网络,这K个子网络之间信息路径分布方式没有重复,以起到有参数的信息路径公平训练的作用。本发明具体实施中K设置为4(表示自顶向下、自底向上、尺度平衡、融合拆分信息路径)。同时,在训练时给每条边加一个权重γi,j,以表示节点xi和节点xj之间边的重要性。在子网络中,每一个中间节点xi(i=1,2,…,N)融合来自所有前向节点的输出:
Figure BDA0002887502940000101
该权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
Figure BDA0002887502940000102
Figure BDA0002887502940000103
分别表示检测任务中分类和回归任务的损失函数。
b)最优子网络搜索中,通过从训练得到的超网中继承权重,得到子网络,对子网络做精度测试作为质量评估,通过遗传算法迭代多次得到精度最高的子网络,即本发明提出的多路径聚合特征金字塔网络。
3)搜索结束,在具体应用中,输入待检测/分割的通用物体图像到检测器,骨干网络,如ResNet(残差网络),ResNeXt(多支路的残差网络),首先由骨干网络提取多级特征。
4)将提取到的骨干网络多级特征输入由步骤(2)搜索到的最优子网络(多路径聚合特征金字塔网络),多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征。
5)对于物体检测,将增强后的物体特征输入到检测器的后续模块(检测器头),视具体检测器而定。对于语义分割,将增强后的特征输入到解码器。对于关键点分割,将增强后的特征输入到检测子网络。
6)对于物体检测和实例分割,将检测器的后续模块输出的类别和位置信息作为检测结果。对于语义分割,将解码器输出的逐像素类别信息作为分割结果。对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果。
上述搜索方法可广泛应用于自动驾驶、智能视频监控、物体遥感识别等实际应用的计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测)中,提高任务的性能表现(如检测、分割精度)。
本发明搜索到的多路径聚合特征金字塔网络,能应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),作为特征金字塔网络嵌入骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。在物体检测任务中,还可以通过降低特征金字塔网络和检测器头的特征通道数,降低检测器的参数量和计算复杂度。在物体检测任务,对目标检测数据集MSCOCO具体实施了本发明方法。在MSCOCO上的实施结果表明,在训练和测试的输入图像大小均为800*1333的情况下,将检测器的特征金字塔网络修改为搜索到的最优架构之后(如将Faster R-CNN ResNet50-FPN的特征金字塔网络替换为搜索到的架构),基于FPN的Faster R-CNN检测器在验证集val上mAP值可以从36.4%提高到39.6%,计算复杂度从207G降到197G,参数量从41.5M降到35.5M;基于FPN的RetinaNet检测器mAP从35.7%提升到38.0%,计算复杂度从239G降到207G,参数量从37.7M降到36.5M;基于Cascade R-CNN的检测器mAP从40.3%提升到42.8%,计算复杂度从235G降到225G,参数量从69.2M降到50.6M。搜索到的架构配合以Resc2Net101作为骨干网络的Cascade R-CNN,能够在V100 GPU上达到7.6FPS,精度52.2%,在已发表论文中达到速度-精度最优。(注:MSCOCO是一个大规模的数据集,包含物体检测、分割等任务,见http:// cocodataset.org/#home box的mAP值是衡量检测性能的一个指标,见http:// cocodataset.org/#detection-eval)。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,构建多种基本信息路径,以基本信息路径作为搜索单元,建立全连接的有向无环图超网,搜索多种基本信息路径之间的最优聚合方式,得到由多种基本信息路径聚合而成的多路径聚合特征金字塔颈网络;将多路径聚合特征金字塔网络嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达;应用包括物体检测,实例分割,语义分割,关键点检测;对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果;对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度;对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果;包括如下步骤:
1)构建多种基本信息路径,分别以不同方式融合高级别特征和低级别特征,生成特征金字塔;
将待检测或待分割图像输入到输入特征金字塔,得到多级金字塔特征;低级别特征包括:第二级骨干网络P2特征、第三级骨干网络P3特征;高级别特征包括第四级骨干网络P4特征和第五级骨干网络P5特征;
构建的多种基本信息路径,融合高级别特征和低级别特征,输出融合后的多级别特征,即输出特征金字塔,包括:第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5
多种基本信息路径包括:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔,即优先生成第五级输出特征;每级输出特征通过融合相同级别的输入特征和更高级别的输出特征来得到;
b)自底向上信息路径:该路径按自底向上的顺序生成输出特征金字塔,最低级别特征最先生成;每级输出特征通过融合相同级别的输入特征和更低级别的输出特征得到;
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔;
d)融合拆分信息路径:该路径首先组合较高级别和较低级别的输入特征,然后将组合的特征拆分为多尺度输出特征金字塔;即将高级别的两个输入特征合并到小融合特征∝s中,将低级别层的两个输入特征合并到大融合特征∝l中;
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l;融合操作后,得到增强的小融合特征βs、增强的大融合特征βl;再将增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔;
e)残差连接信息路径:将输入特征金字塔直接映射到输出;
f)空信息路径:将输入金字塔映射到输出节点O;
2)基于所述基本信息路径构建超网,设置最优子网络为搜索目标,通过一步搜索方法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
超网是一个全连接的有向无环多图,有N+2个节点,包括输入节点P和输出节点O,N表示中间节点数量;节点代表一个特征金字塔,两个节点之间的边分别代表基本信息路径;搜索目标是在搜索空间中找到最优子网络,即多路径聚合特征金字塔网络;搜索空间中包含多个子网络,不同的子网络代表基本信息路径的不同聚合方式;子网络是一个有向无环图,每两个节点i和节点j之间有1条边IP(i,j),表示基本信息路径;
一步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索;
a)超网训练:
每次数据迭代采样K个子网络;K个子网络之间信息路径分布方式没有重复;在训练时给每条边加一个权重γi,j,表示节点xi和节点xj之间边的重要性;在子网络中,每一个中间节点xi(i=1,2,…,N)融合来自所有前向节点的输出:
Figure FDA0002887502930000021
权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
Figure FDA0002887502930000022
Figure FDA0002887502930000023
分别表示检测任务中分类和回归任务的损失函数;
b)最优子网络搜索:
通过从训练得到的超网中继承权重,得到子网络;通过遗传算法迭代多次得到精度最高的子网络,即多路径聚合特征金字塔网络;
将多路径聚合特征金字塔网络嵌入各种检测器的骨干网络和检测器的后续模块之间,增强由骨干网络提取到的特征表达;
3)输入待检测的图像到检测器,经过骨干网络提取多级特征;
4)将提取到的骨干网络多级特征输入多路径聚合特征金字塔网络,多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征;
5)对于物体检测和实例分割,将增强后的特征输入到检测器的后续模块即检测器头;对于语义分割,将增强后的特征输入到解码器;对于关键点分割,将增强后的特征输入到检测子网络;
6)对于物体检测和实例分割,将检测器的后续模块输出框的类别和位置信息作为检测结果;对于语义分割,将解码器输出的逐像素类别信息作为分割结果;对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果;
通过上述步骤,即实现基于多信息路径聚合的特征金字塔神经网络架构搜索及应用。
2.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,将所述方法应用于自动驾驶、智能视频监控、物体遥感识别计算机视觉任务,进行物体检测、实例分割、语义分割或关键点检测。
3.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,所述多种基本信息路径具体为六种。
4.如权利要求3所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,自顶向下信息路径具体表示为:
Figure FDA0002887502930000031
其中,U(·)表示系数为2的上采样操作;对于最低级别特征,
Figure FDA0002887502930000032
表示卷积核大小为3的普通卷积,对于其他级别特征(i=3,4,5),Wi t表示卷积核大小为3的可变卷积;
自底向上信息路径表示为:
Figure FDA0002887502930000033
其中,D(·)表示系数为2的下采样操作;Wi b与Wi t采用相同配置;
尺度平衡信息路径表示为:
Figure FDA0002887502930000034
其中,
Figure FDA0002887502930000035
是核大小为3、步长为1的可变卷积,
Figure FDA0002887502930000036
是核大小为3、步长为1的可变卷积,
Figure FDA0002887502930000037
是核大小为3、步长为2的可变卷积;
融合拆分信息路径将高级别的两个输入特征图合并到小融合特征∝s中,将低级别层的两个输入特征图合并到大融合特征∝l中,表示为:
s=P4+U(P5),∝l=D(P2)+P3
用拼接方法合并小融合特征∝s和大融合特征∝l,表示为:
Figure FDA0002887502930000038
其中,Ws f,Wl f表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作;在融合操作后,得到增强的小融合特征βs、增强的大融合特征βl
将增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔,分别表示为:
Figure FDA0002887502930000041
5.如权利要求3所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,步骤3)的搜索空间中具体包含
Figure FDA0002887502930000042
个子网络。
6.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,搜索方法包括单步搜索。
7.如权利要求6所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,单步搜索包括超网训练和最优子网络搜索,其中超网训练包括给超网的每条边添加可学习权重;最优子网络搜索包括使用遗传算法。
CN202110018395.8A 2021-01-07 2021-01-07 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 Active CN112699953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110018395.8A CN112699953B (zh) 2021-01-07 2021-01-07 基于多信息路径聚合的特征金字塔神经网络架构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110018395.8A CN112699953B (zh) 2021-01-07 2021-01-07 基于多信息路径聚合的特征金字塔神经网络架构搜索方法

Publications (2)

Publication Number Publication Date
CN112699953A true CN112699953A (zh) 2021-04-23
CN112699953B CN112699953B (zh) 2024-03-19

Family

ID=75515020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110018395.8A Active CN112699953B (zh) 2021-01-07 2021-01-07 基于多信息路径聚合的特征金字塔神经网络架构搜索方法

Country Status (1)

Country Link
CN (1) CN112699953B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361375A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种基于改进BiFPN的车辆目标识别方法
CN113408524A (zh) * 2021-06-11 2021-09-17 南开大学 一种基于mask rcnn的农作物图像分割提取算法
CN113468993A (zh) * 2021-06-21 2021-10-01 天津大学 一种基于深度学习的遥感图像目标检测方法
CN113468770A (zh) * 2021-09-02 2021-10-01 成都新西旺自动化科技有限公司 一种机器视觉配方的生成方法及系统
CN113887542A (zh) * 2021-12-06 2022-01-04 深圳小木科技有限公司 目标检测方法、电子设备及存储介质
CN117853485A (zh) * 2024-03-07 2024-04-09 天津市天津医院 骨髓水肿图像检测模型训练方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN110084124A (zh) * 2019-03-28 2019-08-02 北京大学 基于特征金字塔网络的特征增强目标检测方法
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN111914937A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种轻量化改进目标检测方法及检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
CN110084124A (zh) * 2019-03-28 2019-08-02 北京大学 基于特征金字塔网络的特征增强目标检测方法
CN111914937A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种轻量化改进目标检测方法及检测系统
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李涛;: "神经网络搜索综述", 电脑知识与技术, no. 17, 15 June 2020 (2020-06-15), pages 177 - 178 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361375A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种基于改进BiFPN的车辆目标识别方法
CN113361375B (zh) * 2021-06-02 2022-06-07 武汉理工大学 一种基于改进BiFPN的车辆目标识别方法
CN113408524A (zh) * 2021-06-11 2021-09-17 南开大学 一种基于mask rcnn的农作物图像分割提取算法
CN113468993A (zh) * 2021-06-21 2021-10-01 天津大学 一种基于深度学习的遥感图像目标检测方法
CN113468770A (zh) * 2021-09-02 2021-10-01 成都新西旺自动化科技有限公司 一种机器视觉配方的生成方法及系统
CN113887542A (zh) * 2021-12-06 2022-01-04 深圳小木科技有限公司 目标检测方法、电子设备及存储介质
CN113887542B (zh) * 2021-12-06 2022-04-05 孙晖 目标检测方法、电子设备及存储介质
CN117853485A (zh) * 2024-03-07 2024-04-09 天津市天津医院 骨髓水肿图像检测模型训练方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN112699953B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN112699953B (zh) 基于多信息路径聚合的特征金字塔神经网络架构搜索方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN111797779A (zh) 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN109598279B (zh) 基于自编码对抗生成网络的零样本学习方法
CN111930518B (zh) 面向知识图谱表示学习的分布式框架构建方法
CN109492678B (zh) 一种集成浅层和深度学习的App分类方法
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN112861752B (zh) 一种基于dcgan与rdn的作物病害识别方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111008337A (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN114299000A (zh) 一种基于可微分神经网络架构搜索的缺陷检测方法及系统
Li et al. A review of deep learning methods for pixel-level crack detection
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN116206158A (zh) 基于双超图神经网络的场景图像分类方法及系统
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN112685374A (zh) 日志分类方法、装置及电子设备
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN112700450A (zh) 一种基于集成学习的图像分割方法及其系统
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant