CN115984661B - 目标检测中的多尺度特征图融合方法、装置、设备及介质 - Google Patents
目标检测中的多尺度特征图融合方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115984661B CN115984661B CN202310266930.0A CN202310266930A CN115984661B CN 115984661 B CN115984661 B CN 115984661B CN 202310266930 A CN202310266930 A CN 202310266930A CN 115984661 B CN115984661 B CN 115984661B
- Authority
- CN
- China
- Prior art keywords
- feature map
- scale feature
- scale
- spatial
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000010606 normalization Methods 0.000 claims abstract description 40
- 230000004913 activation Effects 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
本申请提供一种目标检测中的多尺度特征图融合方法、装置、设备及介质。该方法包括:将第一多尺度特征图进行融合得到第二多尺度特征图;对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第三多尺度特征图;将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,将第一维度权重特征图进行拆分,得到空间权重特征图;依据第二多尺度特征图以及空间权重特征图,确定空间融合后的多尺度特征图。本申请提高多目标检测任务的检测精确率和召回率,提升模型检测精度,保证检测器得到更好的优化。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标检测中的多尺度特征图融合方法、装置、设备及介质。
背景技术
在深度学习的很多工作中(比如目标检测、图像分割等),融合不同尺度的特征是提高性能的一个重要手段。基于深度学习的目标检测器中通常包含主干网络(backbone)和特征金字塔。
现有的多目标检测技术中,一般会使用特征金字塔(Feature Pyramid Network,FPN),FPN在对多尺度特征图做融合时,只是简单的相加,这种简单的相加,是没有明确意义的,也是网络不可学习的。多尺度特征简单相加,在网络训练时梯度会产生冲突,不容易优化;简单的融合技术也会增加检测多尺度目标的难度,造成检测精度的下滑。
发明内容
有鉴于此,本申请实施例提供了一种目标检测中的多尺度特征图融合方法、装置、设备及介质,以解决现有技术存在的多尺度特征图融合时的梯度冲突,不容易优化,检测精度降低的问题。
本申请实施例的第一方面,提供了一种目标检测中的多尺度特征图融合方法,包括:获取目标检测器中特征金字塔输出的第一多尺度特征图;将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
本申请实施例的第二方面,提供了一种目标检测中的多尺度特征图融合装置,包括:获取模块,被配置为获取目标检测器中特征金字塔输出的第一多尺度特征图;融合模块,被配置为将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;处理模块,被配置为对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;堆叠模块,被配置为将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;拆分模块,被配置为将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;确定模块,被配置为依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过获取目标检测器中特征金字塔输出的第一多尺度特征图;将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。本申请提高多目标检测任务的检测精确率和召回率,提升目标尺度不一致时的模型检测精度,保证检测器得到更好的优化。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的目标检测中的多尺度特征图融合方法的流程示意图;
图2是本申请实施例提供的检测器多尺度特征图的按信息融合方法的流程示意图;
图3是本申请实施例提供的目标检测中的多尺度特征图融合装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
如背景技术所述内容,在深度学习的很多工作中(比如目标检测、图像分割等),融合不同尺度的特征是提高性能的一个重要手段。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善目标检测模型的关键。
现有的多目标检测技术中,一般会使用特征金字塔(Feature Pyramid Network,FPN),FPN在对多尺度特征图做融合时,只是简单的相加,这种简单的相加,是没有明确意义的,也是网络不可学习的。多尺度特征简单相加,在网络训练时梯度会产生冲突,不容易优化;简单的融合技术也会增加检测多尺度目标的难度,造成检测精度的下滑。
有鉴于此,本申请实施例为解决上述问题,提供了一种目标检测中的多尺度特征图融合方法,本申请实施例提供了两种新的多尺度特征融合技术,第一种是多尺度特征图的按空间融合技术,第二种是多尺度特征图的按信息融合技术;上述两种新的多尺度特征融合技术可以采用串行设计,不仅增加了多尺度特征图融合时的自学习能力和可解释性,也解决了多尺度特征图融合时的梯度冲突问题,使多尺度特征图融合时可以根据具体时空信息得到相应的权重值,使信息的提取更加充分,提升检测精度。
下面结合附图以及具体实施例对本申请技术方案的内容进行详细描述。
图1是本申请实施例提供的目标检测中的多尺度特征图融合方法的流程示意图。图1的目标检测中的多尺度特征图融合方法可以由服务器执行。如图1所示,该目标检测中的多尺度特征图融合方法具体可以包括:
S101,获取目标检测器中特征金字塔输出的第一多尺度特征图;
S102,将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;
S103,对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;
S104,将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;
S105,将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;
S106,依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
具体地,本申请的检测器既可以采用主流的目标检测网络,也可以是基于主流的目标检测网络进行改进后的的检测器,基于深度学习的检测器通常包含主干网络(backbone)和特征金字塔(FPN),其中,主干网络包括分类和回归,主干网络的输出将作为特征金字塔的输入,特征金字塔对主干网络输出的特征图进行多尺度特征融合,并输出相应的多尺度特征图。
在一些实施例中,将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图,包括:将每个第一多尺度特征图依次沿每个第一多尺度特征图对应的尺度进行卷积、线性插值和激活处理,得到第二多尺度特征图,其中,每个第一多尺度特征图在每个尺度上均对应一个第二多尺度特征图。
具体地,假设特征金字塔输出的是三个多尺度特征图,将这三个多尺度特征图分别设为p1’,p2’,p3’(即对应三个第一多尺度特征图),这三个多尺度特征图表示三个空间上的多尺度特征图;在对上述第一多尺度特征图按空间融合时,依次将每个第一多尺度特征图作为融合的尺度对象,依次在每个第一多尺度特征图对应的尺度上进行融合,下面结合具体实施例对第一多尺度特征图融合的过程进行详细说明,具体可以包括以下内容:
例如要将p1’、p2’、p3’分别在p1’的尺度上进行融合,首先,将p1’经过3x3卷积,relu激活,得到特征图p1;再将p2’经过3x3卷积,2倍上采样的线性插值,relu激活,得到特征图p2;最后将p3’经过3x3卷积,4倍上采样的线性插值,relu激活,得到特征图p3。其中,特征图p1、p2和p3表示p1’、p2’、p3’分别在p1’特征图的尺度上进行融合后得到的第二多尺度特征图。同理,依次可以计算出p1’、p2’、p3’分别在p2’和p3’特征图的尺度上进行融合后得到的第二多尺度特征图。
在一些实施例中,其特征在于,对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图,包括:将每个第二多尺度特征图依次经过1x1、通道数16的卷积,并经过批量归一化和relu激活,得到每个第二多尺度特征图分别对应的第三多尺度特征图。
具体地,在得到融合后的第二多尺度特征图之后,对每个第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到每个第二多尺度特征图对应的第三多尺度特征图。继续基于前述实施例的内容,特征图p1经过1x1、通道数16的卷积,经过批量归一化和relu激活,得到特征图f1;特征图p2经过1x1、通道数16的卷积,经过批量归一化和relu激活,得到特征图f2;特征图p3经过1x1、通道数16的卷积,经过批量归一化和relu激活,得到特征图f3;其中,特征图f1、f2和f3分别对应一个第三多尺度特征图。
进一步地,将特征图f1、f2、f3进行concat处理(即堆叠处理),实现特征图f1、f2、f3的空间融合(即对多个第三多尺度特征图进行空间融合),再将堆叠后的特征图经过1x1、通道数为3的卷积计算,最后经过批量归一化和relu激活,得到第四多尺度特征图f4。
进一步地,将第四多尺度特征图f4沿着轴0(即第四多尺度特征图f4对应的第一个维度)进行softmax计算(归一化计算),得到第一维度权重特征图w;换言之,将多个第四多尺度特征图f4在第一维度上做归一化计算,得到第一维度权重特征图w。之后将第一维度权重特征图w沿着轴0拆为w1,w2,w3,即将第一维度权重特征图按照通道进行拆分,得到每个通道分别对应的空间权重特征图w1、w2和w3。
在一些实施例中,确定每个第一多尺度特征图进行空间融合后的多尺度特征图,包括采用以下公式计算空间融合后的多尺度特征图:
其中,表示空间融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的空间权重特征图,/>、/>和/>表示第二多尺度特征图。
具体地,将第二多尺度特征图、/>和/>分别与空间权重特征图w1、w2和w3相乘并且相加后得到最后输出的空间融合后的多尺度特征图/>,也就是说,/>是p1’、p2’、p3’在p1’特征图的尺度上进行融合后得到的特征图。
同理,将p1’,p2’,p3’在特征图p2’的尺度上进行融合时,首先,将p1’经过3x3、下采样为2的卷积,relu激活,得到特征图p1;再将p2’经过3x3的卷积,relu激活,得到特征图p2;最后将p3’经过3x3的卷积,2倍上采样的线性插值,relu激活,得到特征图p3;将处理后的p1,p2,p3输入到上述“按空间融合技术”中计算,可以得到融合后的特征图t2。
同理,将p1’,p2’,p3’在特征图p3’的尺度上进行融合,首先,将p1’经过3x3、下采样为4的卷积,relu激活,得到特征图p1;再将p2’经过3x3、下采样为2的卷积,relu激活,得到特征图p2;最后将p3’经过3x3的卷积,relu激活,得到特征图p3;将处理后的p1,p2,p3输入到上述“按空间融合技术”中计算,可以得到融合后的特征图t3。
前述实施例对检测器多尺度特征图的按空间融合技术的实现原理及过程进行了详细介绍,下面结合附图以及具体实施例,对本申请实施例提供的检测器多尺度特征图的按信息融合技术的实现原理及过程进行说明。
图2是本申请实施例提供的检测器多尺度特征图的按信息融合方法的流程示意图,如图2所示,该检测器多尺度特征图的按信息融合方法具体可以包括:
在确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图之后,方法还包括:
S201,将第一空间融合后的多尺度特征图依次基于每个第一空间融合后的多尺度特征图进行融合,得到多个第二空间融合后的多尺度特征图;
S202,将第二空间融合后的多尺度特征图进行堆叠,得到第三空间融合后的多尺度特征图;
S203,对第三空间融合后的多尺度特征图执行平均池化操作,得到第四空间融合后的多尺度特征图;
S204,将第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图;
S205,对第五空间融合后的多尺度特征图按照通道进行分组,并将分组后的第五空间融合后的多尺度特征图进行归一化计算,得到信息权重特征图;
S206,将信息权重特征图按照通道进行拆分,得到每个通道对应的信息权重特征图;
S207,依据第二空间融合后的多尺度特征图以及每个通道对应的信息权重特征图,确定每个第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图。
具体地,将第一空间融合后的多尺度特征图t1、t2和t3分别沿每个第一空间融合后的多尺度特征图对应的尺度进行融合,例如,首先将t1经过3x3卷积,relu激活,得到特征图t1;再将t2经过3x3卷积,2倍上采样的线性插值,relu激活,得到特征图t2;最后将t3经过3x3卷积,4倍上采样的线性插值,relu激活,得到特征图t3;在实际应用中,所有特征图的通道数都可以是256。
进一步地,将多个第二空间融合后的多尺度特征图进行堆叠(concat),得到第三空间融合后的多尺度特征图e1;将多尺度特征图e1做平均池化操作(pool),得到多尺度特征图e2(即第四空间融合后的多尺度特征图)。
在一些实施例中,将第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图,包括:将第四空间融合后的多尺度特征图输入到第一全连接层进行第一次矩阵运算,并将第一次矩阵运算后的结果输入到第二全连接层进行第二次矩阵运算,将第二次矩阵运算的结果作为第五空间融合后的多尺度特征图。
具体地,将第四空间融合后的多尺度特征图e2输入到第一全连接层fc1进行第一次矩阵运算,第一全连接层fc1的维度是(768,192),并将第一次矩阵运算结果输入到第二全连接层fc2进行第二次矩阵运算,第二全连接层fc2的维度是(192,768)),进行2次矩阵运算后,得到第五空间融合后的多尺度特征图e3。
进一步地,第五空间融合后的多尺度特征图e3将通道先分作3组,每组再分作16组,即第五空间融合后的多尺度特征图e3原本的维度是(768,1,1),分组后变为(3,16,16);分组后的e3,先沿着轴1做softmax(按照轴1的维度进行归一化计算),再沿着轴0做softmax(按照轴0的维度进行归一化计算),得到信息权重特征图v,最后将信息权重特征图v变换维度为(3,256),并将信息权重特征图v沿着轴0拆分为3个通道的信息权重特征图v1,v2,v3,即将信息权重特征图v按照通道进行拆分,得到每个通道对应的信息权重特征图。
在一些实施例中,确定每个第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图,包括采用以下公式计算信息融合后的多尺度特征图:
其中,表示信息融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的信息权重特征图,/>、/>和/>表示第二空间融合后的多尺度特征图。
具体地,将第二空间融合后的多尺度特征图、/>和/>分别与信息权重特征图/>、/>和/>相乘并且相加后得到最后输出的信息融合后的多尺度特征图/>,也就是说,/>是第一空间融合后的多尺度特征图在相应尺度上进行融合后得到的特征图。
同理,依据上述检测器多尺度特征图的按信息融合方法的实现方式,将特征图t1,t2,t3分别在特征图t2的尺度上进行融合,得到信息融合后的多尺度特征图r2,并且将特征图t1,t2,t3在特征图t3的尺度上进行融合,得到信息融合后的多尺度特征图r3。
总体而言,本申请实施例通过对检测器的特征金字塔的输出p1’, p2’, p3’做如下操作:先经过多尺度特征图的按空间融合技术(MSF),再经过多尺度特征图的按信息融合技术(MIF),最后得到了两次融合计算后的r1,r2,r3。在得到新的三个多尺度特征图后,检测器后续可以接任意检测头,来进行检测任务。
上述实施例提供的多尺度特征图的按空间融合技术MSF和多尺度特征图的按信息融合技术MIF可以视作检测器中的一种组件或者一种模块,能够实现即插即用,使多尺度特征图能更好地相互融合。同时,利用上述两种多尺度特征融合技术的串行设计,可以解决神经网络多尺度特征图在训练时的梯度冲突问题,保证检测器能得到更好的优化。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的目标检测中的多尺度特征图融合装置的结构示意图。如图3所示,该目标检测中的多尺度特征图融合装置包括:
获取模块301,被配置为获取目标检测器中特征金字塔输出的第一多尺度特征图;
融合模块302,被配置为将第一多尺度特征图依次基于每个第一多尺度特征图进行融合,得到多个第二多尺度特征图;
处理模块303,被配置为对第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到第二多尺度特征图对应的第三多尺度特征图;
堆叠模块304,被配置为将第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;
拆分模块305,被配置为将第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;
确定模块306,被配置为依据第二多尺度特征图以及每个通道对应的空间权重特征图,确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图。
在一些实施例中,图3的融合模块302将每个第一多尺度特征图依次沿每个第一多尺度特征图对应的尺度进行卷积、线性插值和激活处理,得到第二多尺度特征图,其中,每个第一多尺度特征图在每个尺度上均对应一个第二多尺度特征图。
在一些实施例中,图3的处理模块303将每个第二多尺度特征图依次经过1x1、通道数16的卷积,并经过批量归一化和relu激活,得到每个第二多尺度特征图分别对应的第三多尺度特征图。
在一些实施例中,图3的确定模块306采用以下公式计算空间融合后的多尺度特征图:
其中,表示空间融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的空间权重特征图,/>、/>和/>表示第二多尺度特征图。
在一些实施例中,图3的信息融合模块307在确定每个第一多尺度特征图进行第一空间融合后的多尺度特征图之后,将第一空间融合后的多尺度特征图依次基于每个第一空间融合后的多尺度特征图进行融合,得到多个第二空间融合后的多尺度特征图;将第二空间融合后的多尺度特征图进行堆叠,得到第三空间融合后的多尺度特征图;对第三空间融合后的多尺度特征图执行平均池化操作,得到第四空间融合后的多尺度特征图;将第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图;对第五空间融合后的多尺度特征图按照通道进行分组,并将分组后的第五空间融合后的多尺度特征图进行归一化计算,得到信息权重特征图;将信息权重特征图按照通道进行拆分,得到每个通道对应的信息权重特征图;依据第二空间融合后的多尺度特征图以及每个通道对应的信息权重特征图,确定每个第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图。
在一些实施例中,图3的信息融合模块307将第四空间融合后的多尺度特征图输入到第一全连接层进行第一次矩阵运算,并将第一次矩阵运算后的结果输入到第二全连接层进行第二次矩阵运算,将第二次矩阵运算的结果作为第五空间融合后的多尺度特征图。
在一些实施例中,图3的信息融合模块307采用以下公式计算信息融合后的多尺度特征图:
其中,表示信息融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的信息权重特征图,/>、/>和/>表示第二空间融合后的多尺度特征图。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例提供的电子设备4的结构示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序403可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在电子设备4中的执行过程。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种目标检测中的多尺度特征图融合方法,其特征在于,包括:
获取目标检测器中特征金字塔输出的第一多尺度特征图;
将所述第一多尺度特征图依次基于每个所述第一多尺度特征图的尺度进行融合,得到多个第二多尺度特征图;
对所述第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到所述第二多尺度特征图对应的第三多尺度特征图;
将所述第三多尺度特征图进行堆叠,以便对多个所述第三多尺度特征图进行空间融合,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;
将所述第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将所述第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;
依据所述第二多尺度特征图以及所述每个通道对应的空间权重特征图,确定每个所述第一多尺度特征图进行第一空间融合后的多尺度特征图;
在所述确定每个所述第一多尺度特征图进行第一空间融合后的多尺度特征图之后,所述方法还包括:
将所述第一空间融合后的多尺度特征图依次基于每个所述第一空间融合后的多尺度特征图进行融合,得到多个第二空间融合后的多尺度特征图;
将所述第二空间融合后的多尺度特征图进行堆叠,得到第三空间融合后的多尺度特征图;
对所述第三空间融合后的多尺度特征图执行平均池化操作,得到第四空间融合后的多尺度特征图;
将所述第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图;
对所述第五空间融合后的多尺度特征图按照通道进行分组,并将分组后的第五空间融合后的多尺度特征图进行归一化计算,得到信息权重特征图;
将所述信息权重特征图按照通道进行拆分,得到每个通道对应的信息权重特征图;
依据所述第二空间融合后的多尺度特征图以及所述每个通道对应的信息权重特征图,确定每个所述第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图;
所述将所述第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图,包括:
将所述第四空间融合后的多尺度特征图输入到第一全连接层进行第一次矩阵运算,并将第一次矩阵运算后的结果输入到第二全连接层进行第二次矩阵运算,将第二次矩阵运算的结果作为所述第五空间融合后的多尺度特征图。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一多尺度特征图依次基于每个所述第一多尺度特征图进行融合,得到多个第二多尺度特征图,包括:
将每个所述第一多尺度特征图依次沿每个所述第一多尺度特征图对应的尺度进行卷积、线性插值和激活处理,得到所述第二多尺度特征图,其中,每个所述第一多尺度特征图在每个尺度上均对应一个所述第二多尺度特征图。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到所述第二多尺度特征图对应的第三多尺度特征图,包括:
将每个所述第二多尺度特征图依次经过1x1、通道数16的卷积,并经过批量归一化和relu激活,得到每个所述第二多尺度特征图分别对应的第三多尺度特征图。
4.根据权利要求1所述的方法,其特征在于,所述确定每个所述第一多尺度特征图进行空间融合后的多尺度特征图,包括采用以下公式计算空间融合后的多尺度特征图:
其中,表示空间融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的空间权重特征图,/>、/>和/>表示第二多尺度特征图。
5.根据权利要求1所述的方法,其特征在于,所述确定每个所述第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图,包括采用以下公式计算信息融合后的多尺度特征图:
其中,表示信息融合后的多尺度特征图,/>、/>和/>分别表示每个通道对应的信息权重特征图,/>、/>和/>表示第二空间融合后的多尺度特征图。
6.一种目标检测中的多尺度特征图融合装置,其特征在于,包括:
获取模块,被配置为获取目标检测器中特征金字塔输出的第一多尺度特征图;
融合模块,被配置为将所述第一多尺度特征图依次基于每个所述第一多尺度特征图的尺度进行融合,得到多个第二多尺度特征图;
处理模块,被配置为对所述第二多尺度特征图依次进行卷积、批量归一化和激活处理,得到所述第二多尺度特征图对应的第三多尺度特征图;
堆叠模块,被配置为将所述第三多尺度特征图进行堆叠,并对堆叠后的多尺度特征图进行卷积、批量归一化和激活处理,得到第四多尺度特征图;
拆分模块,被配置为将所述第四多尺度特征图按照第一维度进行归一化计算,得到第一维度权重特征图,并将所述第一维度权重特征图按照通道进行拆分,得到每个通道对应的空间权重特征图;
确定模块,被配置为依据所述第二多尺度特征图以及所述每个通道对应的空间权重特征图,确定每个所述第一多尺度特征图进行第一空间融合后的多尺度特征图;
其中,还包括信息融合模块,被配置为在所述确定每个所述第一多尺度特征图进行第一空间融合后的多尺度特征图之后,将所述第一空间融合后的多尺度特征图依次基于每个所述第一空间融合后的多尺度特征图进行融合,得到多个第二空间融合后的多尺度特征图;将所述第二空间融合后的多尺度特征图进行堆叠,得到第三空间融合后的多尺度特征图;对所述第三空间融合后的多尺度特征图执行平均池化操作,得到第四空间融合后的多尺度特征图;将所述第四空间融合后的多尺度特征图输入到全连接层进行矩阵运算,得到第五空间融合后的多尺度特征图;对所述第五空间融合后的多尺度特征图按照通道进行分组,并将分组后的第五空间融合后的多尺度特征图进行归一化计算,得到信息权重特征图;将所述信息权重特征图按照通道进行拆分,得到每个通道对应的信息权重特征图;依据所述第二空间融合后的多尺度特征图以及所述每个通道对应的信息权重特征图,确定每个所述第一空间融合后的多尺度特征图进行信息融合后的多尺度特征图;
所述信息融合模块,还用于将所述第四空间融合后的多尺度特征图输入到第一全连接层进行第一次矩阵运算,并将第一次矩阵运算后的结果输入到第二全连接层进行第二次矩阵运算,将第二次矩阵运算的结果作为所述第五空间融合后的多尺度特征图。
7.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310266930.0A CN115984661B (zh) | 2023-03-20 | 2023-03-20 | 目标检测中的多尺度特征图融合方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310266930.0A CN115984661B (zh) | 2023-03-20 | 2023-03-20 | 目标检测中的多尺度特征图融合方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115984661A CN115984661A (zh) | 2023-04-18 |
CN115984661B true CN115984661B (zh) | 2023-08-29 |
Family
ID=85965157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310266930.0A Active CN115984661B (zh) | 2023-03-20 | 2023-03-20 | 目标检测中的多尺度特征图融合方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984661B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
KR20210097931A (ko) * | 2020-01-31 | 2021-08-10 | 중앙대학교 산학협력단 | 다중 객체 검출 방법 및 그 장치 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN114926734A (zh) * | 2022-05-16 | 2022-08-19 | 河南大学 | 基于特征聚合和注意融合的固体废弃物检测装置及方法 |
CN115131561A (zh) * | 2022-07-04 | 2022-09-30 | 中南大学 | 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348537B (zh) * | 2019-07-18 | 2022-11-29 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2023
- 2023-03-20 CN CN202310266930.0A patent/CN115984661B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210097931A (ko) * | 2020-01-31 | 2021-08-10 | 중앙대학교 산학협력단 | 다중 객체 검출 방법 및 그 장치 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN114926734A (zh) * | 2022-05-16 | 2022-08-19 | 河南大学 | 基于特征聚合和注意融合的固体废弃物检测装置及方法 |
CN115131561A (zh) * | 2022-07-04 | 2022-09-30 | 中南大学 | 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115984661A (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108701250B (zh) | 数据定点化方法和装置 | |
CN109389078B (zh) | 图像分割方法、相应的装置及电子设备 | |
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
US11636306B2 (en) | Implementing traditional computer vision algorithms as neural networks | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
JP2022547460A (ja) | コンピュートインメモリアレイの列しきい値を調整することによってxnor等価演算を実施すること | |
CN112967272B (zh) | 基于改进U-net的焊接缺陷检测方法、装置及终端设备 | |
WO2019088072A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN112488297B (zh) | 一种神经网络剪枝方法、模型生成方法及装置 | |
CN110046622A (zh) | 一种有目标的攻击样本生成方法、装置、设备及存储介质 | |
CN111680755A (zh) | 医学图像识别模型构建及医学图像识别方法、装置、介质及终端 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN115223042A (zh) | 基于YOLOv5网络模型的目标识别方法及装置 | |
KR20210090249A (ko) | 이미지 처리 방법, 장치, 차량 탑재 연산 플랫폼, 전자 디바이스 및 시스템 | |
CN112825199A (zh) | 碰撞检测方法、装置、设备及存储介质 | |
CN110738204A (zh) | 一种证件区域定位的方法及装置 | |
CN115984661B (zh) | 目标检测中的多尺度特征图融合方法、装置、设备及介质 | |
CN113139617B (zh) | 一种输电线路自主定位方法、装置及终端设备 | |
CN114418114A (zh) | 一种算子融合方法、装置、终端设备及存储介质 | |
CN112686147A (zh) | 车辆与车轮从属关系预测方法、系统、存储介质及终端 | |
CN115393868B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
EP4361892A1 (en) | Methods and systems for performing a per channel affine transformation using a neural network accelerator | |
US20240135139A1 (en) | Implementing Traditional Computer Vision Algorithms as Neural Networks | |
WO2023165290A1 (zh) | 数据处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |