CN112699953B - 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 - Google Patents
基于多信息路径聚合的特征金字塔神经网络架构搜索方法 Download PDFInfo
- Publication number
- CN112699953B CN112699953B CN202110018395.8A CN202110018395A CN112699953B CN 112699953 B CN112699953 B CN 112699953B CN 202110018395 A CN202110018395 A CN 202110018395A CN 112699953 B CN112699953 B CN 112699953B
- Authority
- CN
- China
- Prior art keywords
- network
- features
- feature
- level
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 63
- 238000004220 aggregation Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 86
- 230000011218 segmentation Effects 0.000 claims abstract description 62
- 230000002708 enhancing effect Effects 0.000 claims abstract description 12
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 8
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 125000002015 acyclic group Chemical group 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000408529 Libra Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公布了一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,构建多种基本信息路径,建立全连接的有向无环图超网,搜索得到由多种基本信息路径聚合而成的多路径聚合特征金字塔网络;将多路径聚合特征金字塔网络嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达;实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测;本发明能够实现高效、有效的搜索,将搜索到特征金字塔网络嵌入检测器的骨干网络与检测器头之间,检测器其他部分的网络结构不需要改变,方法简单方便,且物体检测精度高,同时还降低检测器的参数量和计算复杂度。
Description
技术领域
本发明属于计算机视觉技术领域,涉及利用计算机视觉及深度学习技术进行多尺度特征抽取,尤其涉及一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,可用于通用物体检测。
背景技术
近年来,机器学习研究和应用得到了蓬勃发展。其中,深度学习方法已在许多应用领域(例如计算机视觉,语音处理和机器翻译)中取得了关键性的进步,这当中一个重要原因是新型神经网络架构的出现。深度学习在感知任务中的成功很大程度上归功于其对特征工程流的自动化:从数据中以端到端的方式提取层次化特征。然而,不同任务对特征表达的需求不同,在实际应用中,研究者手动设计了越来越多复杂的神经网络架构,这是一个耗时且容易出错的过程。研究者需要针对不同的任务手动设计合适的神经网络架构、训练配置、正则化方法和超参数,来使得手动设计的网络能够在目标任务中达到理想表现。同时,网络的性能表现对设计细节非常敏感,因此,对于每个不同任务,都必须重复这样的手动设计过程。即使是有丰富经验的研究员,也需要反复试验,直到为特定任务确定一套适配参数。
自动化机器学习(Automated Machine Learning,AutoML)旨在以数据驱动,用自动化的方式来确定这套适配参数(神经网络架构、训练配置、正则化方法和超参数等)。工程师只需提供数据,AutoML系统会自动搜索对该特定任务最优的网络模型。因此,AutoML能帮助有兴趣应用机器学习算法、但没有资源详细了解其背后技术的其他领域研究者使用最新的机器学习方法。最近,学术界提出神经网络架构搜索(Neural Architecture Search,NAS),表示自动化架构设计的过程,是自动化机器学习的进一步发展。目前,在某些计算机视觉任务上,例如图像分类,物体检测和语义分割,NAS方法搜得的网络架构已经优于手动设计的网络架构。
在实际应用中,现有神经网络架构搜索方法,通常以单一操作(如卷积,池化等)作为搜索单元,用强化学习、单步搜索、梯度计算等方法找到若干个搜索单元的最优组合架构,这些方法也能实现对特征金字塔网络进行架构搜索。但是,这些方法通常在搜索上占用大量硬件资源,且耗时冗长。同时,这些方法搜索到的架构通常需要特殊的训练技巧(比如更大的资源消耗),才能在实际应用中表现出更好的效果。
因此,现有的神经网络架构搜索方法对于特征金字塔神经网络架构搜索任务,技术上还存在一定瓶颈,搜索效率不高,硬件资源消耗大。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,提出多种基本信息路径,并以其作为搜索单元,建立一个全连接的有向无环图超网,来搜索不同基本信息路径之间的最优聚合方式,得到的多路径聚合特征金字塔网络,能够增强通用物体特征的多尺度特征表达能力,从而提高计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测等)的性能。
本发明的技术方案是:
一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,用于搜索多种基本信息路径之间的最优组合方式,该最优组合能有效增强特征表达。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式。搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果。多路径聚合特征金字塔网络通过增强骨干网络特征来增强通用物体特征提取,进而提高物体检测的精度。对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度。对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果。具体地,从搜索到应用,包括如下步骤:
1)构建多种基本信息路径,分别以不同的方式融合高、低级别特征,生成特征金字塔。
具体实施时,待检测/分割图像输入骨干网络,得到多级金字塔特征。为了有效融合来自骨干网络的多级特征(第二级骨干网络P2,第三级骨干网络P3,第四级骨干网络P4,第五级骨干网络P5),提出六种信息路径,它们分别以不同的方式融合高级别(第四级骨干网络P4,第五级骨干网络P5)和低级别特征(第二级骨干网络P2,第三级骨干网络P3),输出融合后的多级别特征(第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5)。注意,信息路径可以随着新方法的提出继续扩充种类。本发明用来自骨干网络的多级特征表示信息路径的输入特征金字塔,在实际应用时,输入特征金字塔包括但不限于骨干网络,为了描述方便,以下用骨干网络表示输入特征金字塔。目前提出六种信息路径如下:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,t表示自顶向下top-down,特指自顶向下信息路径输出的特征金字塔),即优先生成第五级输出特征/>具体来说,每级输出特征/>通过融合相同级别的输入特征Pi,和更高级别的输出特征/>来得到,用公式表示为:
其中U(·)表示系数为2的上采样操作。对于最低级别特征,表示卷积核大小为3的普通卷积,对于其他级别特征(i=3,4,5),/>表示卷积核大小为3的可变卷积,。
b)自底向上信息路径:该路径按自底向上的顺序输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,b表示自底向上bottom-up,特指自底向上信息路径输出的特征金字塔),最低级别特征/>最先被生成。每级输出特征/>通过融合相同级别的输入特征Pi,和更低级别的输出特征/>得到,用公式表示为:
其中D(·)表示系数为2的下采样操作。与/>采用相同配置。
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,s表示尺度平衡scale-equalizing,特指尺度平衡信息路径输出的特征金字塔),用公式表示为:
其中是核大小为3、步长为1的可变卷积,/>是核大小为3、步长为1的可变卷积,/>是核大小为3、步长为2的可变卷积。
d)融合拆分信息路径:该路径首先组合了较高级别和较低级别的输入特征然后将组合的特征拆分为多尺度输出特征金字塔。具体地讲,是将高级别的两个输入特征(第四级骨干网络P4,第五级骨干网络P5)合并到小融合特征∝s中,将低级别层的两个输入特征(第二级骨干网络P2,第三级骨干网络P3)合并到大融合特征∝l中:
∝s=P4+U(P5),∝l=D(P2)+P3
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l,
其中Ws f,Wl f都表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作。在这些融合操作后,得到增强的小融合特征βs、增强的大融合特征βl,它们分别融合了低级别和高级别的所有特征。最后我们把增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征第五级输出特征/>其中,f表示融合拆分fusing-splitting,特指融合拆分信息路径输出的特征金字塔):
e)残差连接信息路径:该路径起恒等变换的作用,将输入特征金字塔直接映射到输出。
f)空信息路径:该路径起消除冗余信息的作用,将输入金字塔映射到输出节点0。
2)基于步骤1)提出的基本信息路径构造超网,设置最优子网络为搜索目标,通过单步搜索算法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
基于上述6种基本信息路径,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点(包括输入节点P和输出节点O),N表示中间节点数量。节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是在搜索空间中找到最优子网络,最优子网络即本发明中在实际检测中应用的多路径聚合特征金字塔网络,能够嵌在各种骨干网络之后,增强特征表达。搜索空间中包含个子网络,不同的子网络代表基本信息路径的不同聚合方式,其中表现最优的子网络就是本发明提出的多路径聚合特征金字塔网络。子网络是一个有向无环图,每两个节点(节点i和节点j)之间有1条边IP(i,j),表示某一种信息路径。在本发明具体实施中,N设置为5,注意N可以灵活变化。
单步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索。注意,超网训练和搜索时,视不同任务而定,将超网嵌入实际应用的网络中。对于物体检测和实例分割,超网嵌入骨干网络和检测器头之间,对于语义分割,超网嵌入骨干网络和解码器之间。对于关键点检测,超网嵌入骨干网络和检测子网络之间。
a)超网训练中,每次数据迭代采样K个子网络,这K个子网络之间信息路径分布方式没有重复,以起到有参数的信息路径公平训练的作用。本发明具体实施中K设置为4(表示自顶向下、自底向上、尺度平衡、融合拆分信息路径)。同时,在训练时给每条边加一个权重γi,j,以表示节点xi和节点xj之间边的重要性。在子网络中,每一个中间节点xi(i=1,2,…,N)融合来自所有前向节点的输出:
该权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
分别表示检测任务中分类和回归任务的损失函数。
b)最优子网络搜索中,通过从训练得到的超网中继承权重,得到子网络,对子网络做精度测试作为质量评估,通过遗传算法迭代多次得到精度最高的子网络,即本发明提出的多路径聚合特征金字塔网络。
3)搜索结束,在具体应用中,输入待检测/分割的通用物体图像到骨干网络,如ResNet(残差网络),ResNeXt(多支路的残差网络),首先由骨干网络提取多级特征。
4)将提取到的骨干网络多级特征输入由步骤(2)搜索到的最优子网络(多路径聚合特征金字塔网络),多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征。
5)对于物体检测和实例分割,将增强后的特征输入到检测器的后续模块(检测器头),视具体检测器而定。对于语义分割,将增强后的特征输入到解码器。对于关键点分割,将增强后的特征输入到检测子网络。
6)对于物体检测和实例分割,将检测器的后续模块输出框的类别和位置信息作为检测结果。对于语义分割,将解码器输出的逐像素类别信息作为分割结果。对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果。
上述搜索算法可广泛应用于自动驾驶、智能视频监控、物体遥感识别等实际应用的计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测)中,提高任务的性能表现(如检测、分割精度)。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,目标是搜索多种基本信息路径之间的最优组合方式,该最优组合能有效提高物体检测精度。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式。搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果。多路径聚合特征金字塔网络通过增强骨干网络特征来增强通用物体特征提取,进而提高物体检测的精度。对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度。对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果。本发明方法打破了常规神经网络架构搜索采用单一操作作为搜索单元的思路,建立基于多种基本信息路径作为搜索单元的搜索方法,实现高效、有效的搜索。搜索到的最优架构,可以作为特征金字塔网络,应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),嵌在骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。在物体检测任务中,还可以通过降低特征金字塔网络和检测器头的特征通道数,降低检测器的参数量和计算复杂度。在物体检测任务,MSCOCO上的实施结果表明,在训练和测试的输入图像大小均为800*1333的情况下,将检测器的特征金字塔网络修改为搜索到的最优架构之后(如将Faster R-CNN ResNet50-FPN的特征金字塔网络替换为搜索到的架构),基于FPN的Faster R-CNN检测器在验证集val上mAP值可以从36.4%提高到39.6%,计算复杂度从207G降到197G,参数量从41.5M降到35.5M;基于FPN的RetinaNet检测器mAP从35.7%提升到38.0%,计算复杂度从239G降到207G,参数量从37.7M降到36.5M;基于Cascade R-CNN的检测器mAP从40.3%提升到42.8%,计算复杂度从235G降到225G,参数量从69.2M降到50.6M。(注:MSCOCO是一个大规模的数据集,包含物体检测、分割等任务,见http://cocodataset.org/#home box的mAP值是衡量检测性能的一个指标,见http:// cocodataset.org/#detection-eval)。
附图说明
图1是现有的特征金字塔网络架构示意图
图2是本发明提供的6种基本信息路径结构示意图
图3是本发明提出的搜索方法流程图。
图4是本发明提供的特征金字塔网络应用到通用物体检测时的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提出了用于多路径聚合特征金字塔网络搜索方法,应用到通用物体检测的流程如图4所示。现有的计算机视觉常用的多尺度特征提取方法中,通常采用单一拓扑结构的信息路径作为特征金字塔网络,如图1所示,目前最常用的特征金字塔网络是FPN,以此为基础还发展出其他变种如PANet,Libra R-CNN,SEPC-Neck,Bi-FPN。
为了解决计算机视觉任务中尺度变换问题,本发明提出利用多种信息路径聚合作为特征金字塔网络,通过搜索多种信息路径之间丰富的连接组合方式,优化多尺度特征的提取。如图2所示,本发明提出6种基本信息路径,分别为自顶向下、自底向上、尺度平衡、融合拆分、残差连接、空信息路径,分别用不同的方式融合来自骨干网络的多级特征信息。
本发明提出的一种基于多信息路径聚合的神经网络架构搜索方法,构建多种基本信息路径,目标是搜索多种基本信息路径之间的最优组合方式,该最优组合能有效增强多尺度特征表达,提高计算机视觉任务性能。以基本信息路径作为搜索单元,建立一个全连接的有向无环图超网,用遗传算法来搜索多种基本信息路径之间的最优聚合方式,搜索得到的多路径聚合特征金字塔网络,由多种基本信息路径聚合而成,能够作为特征金字塔网络嵌入各种骨干网络之后通过多种基本信息路径叠加组合,增强由骨干网络提取到的多尺度特征表达。实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测。如图3所示,本发明基于这6种基本信息路径,提出单步搜索方法,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点,节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是找到最优子网络,子网络是一个有向无环图,每两个节点之间有1条边,表示某一种信息路径。搜索到的最优子网络即本发明提出的多路径聚合特征金字塔网络。包括如下步骤:
1)构建多种基本信息路径,分别以不同的方式融合高、低级别特征,生成特征金字塔。
具体实施时,待检测/分割图像输入骨干网络,得到多级金字塔特征。为了有效融合来自骨干网络的多级特征(第二级骨干网络P2,第三级骨干网络P3,第四级骨干网络P4,第五级骨干网络P5),提出六种信息路径,它们分别以不同的方式融合高级别(第四级骨干网络P4,第五级骨干网络P5)和低级别特征(第二级骨干网络P2,第三级骨干网络P3),输出融合后的多级别特征(第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5)。注意,信息路径可以随着新方法的提出继续扩充种类。本发明用来自骨干网络的多级特征表示信息路径的输入特征金字塔,在实际应用时,输入特征金字塔包括但不限于骨干网络,为了描述方便,以下用骨干网络表示输入特征金字塔。目前提出六种信息路径如下:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,t表示自顶向下top-down,特指自顶向下信息路径输出的特征金字塔),即优先生成第五级输出特征/>具体来说,每级输出特征/>通过融合相同级别的输入特征Pi,和更高级别的输出特征/>来得到,用公式表示为:
其中U(·)表示系数为2的上采样操作。对于最低级别特征,表示卷积核大小为3的普通卷积,对于其他级别特征(i=3,4,5),/>表示卷积核大小为3的可变卷积,。
b)自底向上信息路径:该路径按自底向上的顺序输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,b表示自底向上bottom-up,特指自底向上信息路径输出的特征金字塔),最低级别特征/>最先被生成。每级输出特征/>通过融合相同级别的输入特征Pi,和更低级别的输出特征/>得到,用公式表示为:
其中D(·)表示系数为2的下采样操作。与/>采用相同配置。
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征/>第五级输出特征/>其中,s表示尺度平衡scale-equalizing,特指尺度平衡信息路径输出的特征金字塔),用公式表示为:
其中是核大小为3、步长为1的可变卷积,/>是核大小为3、步长为1的可变卷积,/>是核大小为3、步长为2的可变卷积。
d)融合拆分信息路径:该路径首先组合了较高级别和较低级别的输入特征,然后将组合的特征拆分为多尺度输出特征金字塔。具体地讲,是将高级别的两个输入特征(第四级骨干网络P4,第五级骨干网络P5)合并到小融合特征∝s中,将低级别层的两个输入特征(第二级骨干网络P2,第三级骨干网络P3)合并到大融合特征∝l中:
∝s=P4+U(P5),∝l=D(P2)+P3
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l,
其中Ws f,Wl f都表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作。在这些融合操作后,得到增强的小融合特征βs、增强的大融合特征βl,它们分别融合了低级别和高级别的所有特征。最后我们把增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔(第二级输出特征第三级输出特征/>第四级输出特征第五级输出特征/>其中,f表示融合拆分fusing-splitting,特指融合拆分信息路径输出的特征金字塔):
e)残差连接信息路径:该路径起恒等变换的作用,将输入特征金字塔直接映射到输出。
f)空信息路径:该路径起消除冗余信息的作用,将输入金字塔映射到输出节点0。
2)基于步骤(1)提出的基本信息路径构造超网,设置最优子网络为搜索目标,通过单步搜索算法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
基于上述6种基本信息路径,构造超网,该超网是一个全连接的有向无环多图,有N+2个节点(包括输入节点P和输出节点O),N表示中间节点数量。节点代表一个特征金字塔,两个节点之间有6条边,分别代表6种基本信息路径。搜索目标是在搜索空间中找到最优子网络,最优子网络即本发明中可以作为特征金字塔网络,应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),嵌在骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。搜索空间中包含个子网络,不同的子网络代表基本信息路径的不同聚合方式,其中表现最优的子网络就是本发明提出的多路径聚合特征金字塔网络。子网络是一个有向无环图,每两个节点(节点i和节点j)之间有1条边IP(i,j),表示某一种信息路径。在本发明具体实施中,N设置为5,注意N可以灵活变化。
单步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索。注意,超网训练和搜索时,视不同任务而定,将超网嵌入实际应用的网络中。对于物体检测和实例分割,超网嵌入骨干网络和检测器头之间,对于语义分割,超网嵌入骨干网络和解码器之间。对于关键点检测,超网嵌入骨干网络和检测子网络之间。
a)超网训练中,每次数据迭代采样K个子网络,这K个子网络之间信息路径分布方式没有重复,以起到有参数的信息路径公平训练的作用。本发明具体实施中K设置为4(表示自顶向下、自底向上、尺度平衡、融合拆分信息路径)。同时,在训练时给每条边加一个权重γi,j,以表示节点xi和节点xj之间边的重要性。在子网络中,每一个中间节点xi(i=1,2,…,N)融合来自所有前向节点的输出:
该权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
分别表示检测任务中分类和回归任务的损失函数。
b)最优子网络搜索中,通过从训练得到的超网中继承权重,得到子网络,对子网络做精度测试作为质量评估,通过遗传算法迭代多次得到精度最高的子网络,即本发明提出的多路径聚合特征金字塔网络。
3)搜索结束,在具体应用中,输入待检测/分割的通用物体图像到检测器,骨干网络,如ResNet(残差网络),ResNeXt(多支路的残差网络),首先由骨干网络提取多级特征。
4)将提取到的骨干网络多级特征输入由步骤(2)搜索到的最优子网络(多路径聚合特征金字塔网络),多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征。
5)对于物体检测,将增强后的物体特征输入到检测器的后续模块(检测器头),视具体检测器而定。对于语义分割,将增强后的特征输入到解码器。对于关键点分割,将增强后的特征输入到检测子网络。
6)对于物体检测和实例分割,将检测器的后续模块输出的类别和位置信息作为检测结果。对于语义分割,将解码器输出的逐像素类别信息作为分割结果。对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果。
上述搜索方法可广泛应用于自动驾驶、智能视频监控、物体遥感识别等实际应用的计算机视觉任务(如物体检测、实例分割、语义分割、关键点检测)中,提高任务的性能表现(如检测、分割精度)。
本发明搜索到的多路径聚合特征金字塔网络,能应用到多种计算机视觉任务(物体检测、实例分割、语义分割、关键点检测等),作为特征金字塔网络嵌入骨干网络之后,其他部分的网络结构不需要改变,方法简单方便,有效提高精度。在物体检测任务中,还可以通过降低特征金字塔网络和检测器头的特征通道数,降低检测器的参数量和计算复杂度。在物体检测任务,对目标检测数据集MSCOCO具体实施了本发明方法。在MSCOCO上的实施结果表明,在训练和测试的输入图像大小均为800*1333的情况下,将检测器的特征金字塔网络修改为搜索到的最优架构之后(如将Faster R-CNN ResNet50-FPN的特征金字塔网络替换为搜索到的架构),基于FPN的Faster R-CNN检测器在验证集val上mAP值可以从36.4%提高到39.6%,计算复杂度从207G降到197G,参数量从41.5M降到35.5M;基于FPN的RetinaNet检测器mAP从35.7%提升到38.0%,计算复杂度从239G降到207G,参数量从37.7M降到36.5M;基于Cascade R-CNN的检测器mAP从40.3%提升到42.8%,计算复杂度从235G降到225G,参数量从69.2M降到50.6M。搜索到的架构配合以Resc2Net101作为骨干网络的Cascade R-CNN,能够在V100 GPU上达到7.6FPS,精度52.2%,在已发表论文中达到速度-精度最优。(注:MSCOCO是一个大规模的数据集,包含物体检测、分割等任务,见http:// cocodataset.org/#home box的mAP值是衡量检测性能的一个指标,见http:// cocodataset.org/#detection-eval)。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,构建多种基本信息路径,以基本信息路径作为搜索单元,建立全连接的有向无环图超网,搜索多种基本信息路径之间的最优聚合方式,得到由多种基本信息路径聚合而成的多路径聚合特征金字塔颈网络;将多路径聚合特征金字塔网络嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达;应用包括物体检测,实例分割,语义分割,关键点检测;对于物体检测和实例分割,输入待检测的图片到检测器,经骨干网络提取特征,经多路径聚合特征金字塔网络增强特征,最后由检测器头输出检测结果;对于语义分割,输入待分割图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强编码特征,最后由解码器输出分割结果,进而提高语义分割的精度;对于关键点检测,输入待检测图片到骨干网络提取特征,经多路径聚合特征金字塔网络增强,将增强后的特征输入关键点子网络中,输出检测结果;包括如下步骤:
1)构建多种基本信息路径,分别以不同方式融合高级别特征和低级别特征,生成特征金字塔;
将待检测或待分割图像输入到输入特征金字塔,得到多级金字塔特征;低级别特征包括:第二级骨干网络P2特征、第三级骨干网络P3特征;高级别特征包括第四级骨干网络P4特征和第五级骨干网络P5特征;
构建的多种基本信息路径,融合高级别特征和低级别特征,输出融合后的多级别特征,即输出特征金字塔,包括:第二级输出特征F2,第三级输出特征F3,第四级输出特征F4,第五级输出特征F5;
多种基本信息路径包括:
a)自顶向下信息路径:该路径按自上而下的顺序生成输出特征金字塔,即优先生成第五级输出特征;每级输出特征通过融合相同级别的输入特征和更高级别的输出特征来得到;
b)自底向上信息路径:该路径按自底向上的顺序生成输出特征金字塔,最低级别特征最先生成;每级输出特征通过融合相同级别的输入特征和更低级别的输出特征得到;
c)尺度平衡信息路径:该路径按相邻特征共享卷积的方式生成输出特征金字塔;
d)融合拆分信息路径:该路径首先组合较高级别和较低级别的输入特征,然后将组合的特征拆分为多尺度输出特征金字塔;即将高级别的两个输入特征合并到小融合特征∝s中,将低级别层的两个输入特征合并到大融合特征∝l中;
用逐点加法分别合并高级别和低级别特征后,进一步用拼接方法合并小融合特征∝s和大融合特征∝l;融合操作后,得到增强的小融合特征βs、增强的大融合特征βl;再将增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔;
e)残差连接信息路径:将输入特征金字塔直接映射到输出;
f)空信息路径:将输入金字塔映射到输出节点O;
2)基于所述基本信息路径构建超网,设置最优子网络为搜索目标,通过单步搜索方法进行搜索,找到最优子网络,即多路径聚合特征金字塔网络;
超网是一个全连接的有向无环多图,有N+2个节点,包括输入节点P和输出节点O,N表示中间节点数量;节点代表一个特征金字塔,两个节点之间的边分别代表基本信息路径;搜索目标是在搜索空间中找到最优子网络,即多路径聚合特征金字塔网络;搜索空间中包含多个子网络,不同的子网络代表基本信息路径的不同聚合方式;子网络是一个有向无环图,每两个节点i和节点j之间有1条边IP(i,j),表示基本信息路径;
单步搜索方法包括两个步骤:a)超网训练,b)最优子网络搜索;
a)超网训练:
每次数据迭代采样K个子网络;K个子网络之间信息路径分布方式没有重复;在训练时给每条边加一个权重γi,j,表示节点xi和节点xj之间边的重要性;在子网络中,每一个中间节点xi,i=1,2,…,N,融合来自所有前向节点的输出:
权重γi,j通过一阶正则化和超网一起优化,训练超网的损失函数表示为:
分别表示检测任务中分类和回归任务的损失函数;
b)最优子网络搜索:
通过从训练得到的超网中继承权重,得到子网络;通过遗传算法迭代多次得到精度最高的子网络,即多路径聚合特征金字塔网络;
将多路径聚合特征金字塔网络嵌入各种检测器的骨干网络和检测器的后续模块之间,增强由骨干网络提取到的特征表达;
3)输入待检测的图像到检测器,经过骨干网络提取多级特征;
4)将提取到的骨干网络多级特征输入多路径聚合特征金字塔网络,多路径聚合特征金字塔网络输出的多级金字塔特征即为增强后的特征;
5)对于物体检测和实例分割,将增强后的特征输入到检测器的后续模块即检测器头;对于语义分割,将增强后的特征输入到解码器;对于关键点分割,将增强后的特征输入到检测子网络;
6)对于物体检测和实例分割,将检测器的后续模块输出框的类别和位置信息作为检测结果;对于语义分割,将解码器输出的逐像素类别信息作为分割结果;对于关键点检测,将检测子网络输出的位置信息作为关键点检测结果;
通过上述步骤,即实现基于多信息路径聚合的特征金字塔神经网络架构搜索及应用。
2.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,将所述方法应用于自动驾驶、智能视频监控、物体遥感识别计算机视觉任务,进行物体检测、实例分割、语义分割或关键点检测。
3.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,所述多种基本信息路径具体为六种。
4.如权利要求3所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,自顶向下信息路径具体表示为:
其中,U(·)表示系数为2的上采样操作;对于最低级别特征,表示卷积核大小为3的普通卷积,对于其他级别特征,i=3,4,5,Wi t表示卷积核大小为3的可变卷积;
自底向上信息路径表示为:
其中,D(·)表示系数为2的下采样操作;Wi b与Wi t采用相同配置;
尺度平衡信息路径表示为:
其中,是核大小为3、步长为1的可变卷积,/>是核大小为3、步长为1的可变卷积,是核大小为3、步长为2的可变卷积;
融合拆分信息路径将高级别的两个输入特征图合并到小融合特征∝s中,将低级别层的两个输入特征图合并到大融合特征∝l中,表示为:
∝s=P4+U(P5),∝l=D(P2)+P3
用拼接方法合并小融合特征∝s和大融合特征∝l,表示为:
其中,Ws f,Wl f表示卷积核大小为3的可变卷积,concate(·)表示通道维度的拼接操作;在融合操作后,得到增强的小融合特征βs、增强的大融合特征βl;
将增强的小融合特征βs、增强的大融合特征βl缩放至不同尺寸,得到输出特征金字塔,分别表示为:
5.如权利要求3所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,步骤3)的搜索空间中具体包含个子网络。
6.如权利要求1所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,搜索方法包括单步搜索。
7.如权利要求6所述基于多信息路径聚合的特征金字塔神经网络架构搜索方法,其特征是,单步搜索包括超网训练和最优子网络搜索,其中超网训练包括给超网的每条边添加可学习权重;最优子网络搜索包括使用遗传算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018395.8A CN112699953B (zh) | 2021-01-07 | 2021-01-07 | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018395.8A CN112699953B (zh) | 2021-01-07 | 2021-01-07 | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699953A CN112699953A (zh) | 2021-04-23 |
CN112699953B true CN112699953B (zh) | 2024-03-19 |
Family
ID=75515020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110018395.8A Active CN112699953B (zh) | 2021-01-07 | 2021-01-07 | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699953B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361375B (zh) * | 2021-06-02 | 2022-06-07 | 武汉理工大学 | 一种基于改进BiFPN的车辆目标识别方法 |
CN113408524A (zh) * | 2021-06-11 | 2021-09-17 | 南开大学 | 一种基于mask rcnn的农作物图像分割提取算法 |
CN113468993B (zh) * | 2021-06-21 | 2022-08-26 | 天津大学 | 一种基于深度学习的遥感图像目标检测方法 |
CN113468770B (zh) * | 2021-09-02 | 2021-11-12 | 成都新西旺自动化科技有限公司 | 一种机器视觉配方的生成方法及系统 |
CN113887542B (zh) * | 2021-12-06 | 2022-04-05 | 孙晖 | 目标检测方法、电子设备及存储介质 |
CN117853485A (zh) * | 2024-03-07 | 2024-04-09 | 天津市天津医院 | 骨髓水肿图像检测模型训练方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN110084124A (zh) * | 2019-03-28 | 2019-08-02 | 北京大学 | 基于特征金字塔网络的特征增强目标检测方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN111914937A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种轻量化改进目标检测方法及检测系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889487A (zh) * | 2018-09-10 | 2020-03-17 | 富士通株式会社 | 神经网络架构搜索装置和方法及计算机可读记录介质 |
-
2021
- 2021-01-07 CN CN202110018395.8A patent/CN112699953B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN110084124A (zh) * | 2019-03-28 | 2019-08-02 | 北京大学 | 基于特征金字塔网络的特征增强目标检测方法 |
CN111914937A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种轻量化改进目标检测方法及检测系统 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
神经网络搜索综述;李涛;;电脑知识与技术;20200615(第17期);177-178 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699953A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699953B (zh) | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 | |
CN111797779A (zh) | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
CN111160407B (zh) | 一种深度学习目标检测方法及系统 | |
CN109492678B (zh) | 一种集成浅层和深度学习的App分类方法 | |
CN111930518B (zh) | 面向知识图谱表示学习的分布式框架构建方法 | |
CN110210431B (zh) | 一种基于点云语义标注和优化的点云分类方法 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN111143567B (zh) | 一种基于改进神经网络的评论情感分析方法 | |
CN112861752B (zh) | 一种基于dcgan与rdn的作物病害识别方法及系统 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN112559764A (zh) | 一种基于领域知识图谱的内容推荐方法 | |
CN113673482B (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN115410059B (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN113095158A (zh) | 一种基于对抗生成网络的笔迹生成方法及装置 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN112685374A (zh) | 日志分类方法、装置及电子设备 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN112700450A (zh) | 一种基于集成学习的图像分割方法及其系统 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |