CN116051984B

CN116051984B - 一种基于Transformer的弱小目标检测方法

Info

Publication number: CN116051984B
Application number: CN202211642232.8A
Authority: CN
Inventors: 王佩瑾; 朱子聪; 卢宛萱; 李俊希; 路晓男; 杨竹君; 杨金泽
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-07-04
Anticipated expiration: 2042-12-20
Also published as: CN116051984A

Abstract

本发明涉及遥感图像目标检测领域，特别提供了一种基于Transformer的弱小目标检测方法，包括获取初始遥感图像，将初始遥感图像输入transformer编码器，生成多层初始特征。依次对每一层初始特征进行特征融合处理，生成对应的融合特征。对融合特征进行解码处理，生成检测信息。由于在transformer结构中，会计算每个切片内全部特征之间的自注意力，因此使得本发明获得的每一层初始特征均具有更加广泛的感受野，进而使得获取的每一层初始特征具有更多的高级语义特征。本发明中的融合特征具有更加丰富的低层级的纹理信息与高层级的语义信息。所以会提高对遥感场景下弱小目标的检测能力，提高识别精度。

Description

一种基于Transformer的弱小目标检测方法

技术领域

本发明涉及遥感图像目标检测领域，特别是涉及一种基于Transformer的弱小目标检测方法。

背景技术

传统的卷积神经网络中随着模型层数的加深，每一特征提取层对应的感受野也随之扩大。而现有的遥感弱小目标检测模型通常基于现有的卷积神经网络构建。对应的，在现有模型的编码器利用网络的不同特征提取层级输出的初始特征，来检测输入图像中不同尺寸大小的目标。由于输入图像中弱小目标对应的图像区域也相对较小，所以弱小目标对应的图像特征通常存在于低层级的初始特征中。但是，低层级的特征提取层的感受野范围较小，所以模型只能提取到输入图像中的部分浅层特征信息，如边缘纹理信息，而缺乏高层级的语义信息。对于遥感图像而言，其内部会具有很多的弱小目标对应的图像，所以现有的目标检测方法对遥感场景下弱小目标的检测能力较低，识别精度较差。

发明内容

针对上述技术问题，本发明采用的技术方案为：

根据本发明的一个方面，提供了一种基于Transformer的弱小目标检测方法，方法包括如下步骤：

获取初始遥感图像，初始遥感图像中包括至少一个弱小目标的图像。弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标。

将初始遥感图像输入transformer编码器，生成多层初始特征A₁，A₂，…，A_i，…，A_z。其中，A_i为transformer编码器的第i层的特征提取层生成的初始特征。z为初始特征的总数量。i＝1，2，…，z。

使用同一融合模块按照从最高层到最底层的顺序，依次对每一层初始特征进行特征融合处理，生成每一初始特征对应的融合特征。

对融合特征进行解码处理，生成检测信息。

特征融合处理包括：

确定待融合特征B_i。待融合特征为多层初始特征中的任意一层对应的初始特征。B_i＝A_i。

将与待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征，分别确定为上融合特征B_i+1及下融合特征B_i-1。

对B_i+1进行第一卷积处理，生成第一上融合特征C_i+1。C_i+1包括每一采样点对应的权重信息。

对B_i-1进行第二卷积处理，生成第一下融合特征C_i-1。C_i-1包括每一采样点对应的位置偏移信息。

使用C_i+1及C_i-1分别对B_i-1、B_i及B_i+1进行可变形卷积处理，分别对应生成第一加权特征F_i、第二加权特征G_i及第三加权特征H_i。可变形卷积处理用于根据C_i+1及C_i-1的指导分别对B_i-1、B_i及B_i+1进行特征提取。

S306:对F_i、G_i及H_i分别进行归一化处理，生成对应的第一初始融合特征F_i’、第二初始融合特征H_i’及第三初始融合特征G_i’。其中，F_i’、G_i’及H_i’中的特征值属于[0,1]。

使用自适应平均池化算子分别生成F_i’、G_i’及H_i’对应的第一融合权重D₁、第二融合权重D₂及第三融合权重D₃。

根据F_i’、G_i’、H_i’、D₁、D₂及D₃，生成融合特征E_i，E_i满足如下条件：

E_i＝F_i’*D₁+G_i’*D₂+H_i’*D₃。

根据本发明的第二个方面，提供了一种非瞬时性计算机可读存储介质，非瞬时性计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的一种基于Transformer的弱小目标检测方法。

根据本发明的第三个方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的一种基于Transformer的弱小目标检测方法。

本发明至少具有以下有益效果：

本发明通过通过基于transformer结构的预训练骨干网络替代现有的卷积神经网络结构。由于在transformer结构中，会计算每个切片内全部特征之间的自注意力，因此使得本发明获得的每一层初始特征均具有更加广泛的感受野，进而使得获取的每一层初始特征具有更多的高级语义特征。

同时，本发明中还使用同一融合模块按照从最高层到最底层的顺序，依次对每一层初始特征进行特征融合处理。通过特征融合处理，可以将本层及与器相邻的上下两层的初始特征进行加权融合。实现对不同的弱小目标特征进行注意力加权目的。由此通过相邻层级初始特征图的引导，使得最终得到的融合特征一方面可以从与其自身级别相邻的高级特征图中获取语义信息的重要性。另一方面，还可以从与其自身级别相邻的较低级别特征图中获取边缘纹理信息的相对位置。由于，本发明中的融合特征具有更加丰富的低层级与高层级的语义信息。所以会提高对遥感场景下弱小目标的检测能力，提高识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于Transformer的弱小目标检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的一个方面，如图1所示，提供了一种基于Transformer的弱小目标检测方法，方法包括如下步骤：

S100:获取初始遥感图像，初始遥感图像中包括至少一个弱小目标的图像。弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标。

在获取到初始遥感图像后，还会使用现有的分割方法对初始图像进行切分以生成不同的切片，然后将多个切片输入至transformer编码器中进行编码。

S200:将初始遥感图像输入transformer编码器，生成多层初始特征A₁，A₂，…，A_i，…，A_z。其中，A_i为transformer编码器的第i层的特征提取层生成的初始特征。z为初始特征的总数量。i＝1，2，…，z。

本实施例中的transformer编码器可以为现有的基于transformer结构的预训练模型中的编码器。该基于transformer结构的预训练模型需要满足如下要求。1、预训练模型为ViT(VisionTransformer)系列的预训练模型。2、该预训练模型为基于遥感场景下进行预训练得到的模型。

由于transformer编码器在对每一个切片进行特征编码重构时，会进行切片内的全局自注意力的计算，由此使得生成的每一层初始特征均具有更加广泛的感受野，进而使得获取的每一层初始特征具有更多的高级语义特征。以提高对遥感图像中弱小目标的检测精度。

S300:使用同一融合模块按照从最高层到最底层的顺序，依次对每一层初始特征进行特征融合处理，生成每一初始特征对应的融合特征。

S400:对融合特征进行解码处理，生成检测信息。

特征融合处理包括：

S301:确定待融合特征B_i。待融合特征为多层初始特征中的任意一层对应的初始特征。B_i＝A_i。

S302:将与待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征，分别确定为上融合特征B_i+1及下融合特征B_i-1。

S303:对B_i+1进行第一卷积处理，生成第一上融合特征C_i+1。C_i+1包括每一采样点对应的权重信息。

S304:对B_i-1进行第二卷积处理，生成第一下融合特征C_i-1。C_i-1包括每一采样点对应的位置偏移信息。

利用3*3*N的卷积算子对B_i+1进行第一卷积处理。利用3*3*2N的卷积算子B_i-1进行第二卷积处理。N为后续的可变形卷积处理中对应要求的输入特征的通道数。

由于B_i+1相对于B_i具有更高的特征提取层级，所以B_i+1中具有更加高级的语义信息，所以通过第一卷积处理可以将B_i+1中具有的更加高级的语义信息提取出来。由于语义信息的大小可以更加准确的表示出每一个采样点能够反映出对应目标属于某一类别的概率大小，所以可以将C_i+1作为采样点对应的采纳权重。

对应的，由于B_i-1相对于B_i具有更低的特征提取层级，所以B_i-1中具有更加丰富的边缘纹理特征信息。通过第二卷积处理可以将B_i-1中边缘纹理信息提取出来。由于边缘纹理信息可以用来更加准确的表示对应目标的位置信息，所以可以将C_i-1作为采样点对应的位置偏移信息。

然后通过上采样及下采样对对应的特征进行处理，以对应C_i-1、C_i+1、B_i-1、B_i及B_i+1之间的数据维度进行调整，以满足后续对应的可变形卷积处理要求的输入的数据形式。

S305:使用C_i+1及C_i-1分别对B_i-1、B_i及B_i+1进行可变形卷积处理，分别对应生成第一加权特征F_i、第二加权特征G_i及第三加权特征H_i。可变形卷积处理用于根据C_i+1及C_i-1的指导分别对B_i-1、B_i及B_i+1进行特征提取。

具体的，使用C_i+1及C_i-1对B_i-1进行可变形卷积处理，生成第一加权特征F_i。

使用C_i+1及C_i-1对B_i进行可变形卷积处理，生成第二加权特征G_i。

使用C_i+1及C_i-1对B_i+1进行可变形卷积处理，生成第三加权特征H_i。

通过上述处理之后可以得到后续进行可变形卷积处理时，需要用到的采样点的位置偏移信息以及权重信息。有这两个参数可以指导可变形卷积在进行特征提取处理过程中，对应的卷积核的形状以及卷积核中每一采样点的采样权重。由此，可以使得可变形卷积中的卷积核对应的感受野可以更好的覆盖到目标对象所在的区域，同时减少噪声数据。另外，还可以通过采样权重对对应的特征进行自适应比例的采集。综上可以使得最终获得的特征具有目标对象更加丰富且准确的特征信息。

本步骤中设置的可变形卷积处理，可以通过现有的可变形卷积算子实现，例如第一卷积算子、第二卷积算子及第三卷积算子均为3*3*256的可变形卷积算子，且其内部参数经过训练后获得，会存在差异。

归一化处理，可以通过自适应池化操作来完成，由此，可以将输入的三层特征图F_i、G_i及H_i中的特征数值统一到同一个数值范围内，如[0,1]。归一化处理还可以为：BatchNorm、GroupNorm等。

自适应平均池化算子为现有技术，其可以根据输入值来输出预设尺寸的权值矩阵。

S307:根据F_i’、G_i’、H_i’、D₁、D₂及D₃，生成融合特征E_i，E_i满足如下条件：

E_i＝F_i’*D₁+G_i’*D₂+H_i’*D₃。

将上述经过处理后的两个相邻层的特征融合至目标层的待融合特征中形成最终的成融合特征E_i。由此，融合特征中会包括更加丰富的便于识别分类任务的语义信息以及更加丰富的便于定位任务的纹理位置信息。由此，提高了特征的表征能力，所以会提高对遥感场景下弱小目标的检测能力，提高识别精度。

对融合特征进行1*1卷积处理，生成目标融合特征。

本步骤用于消除不同层级特征间存在的混叠效应。

现有的遥感弱小目标检测模型通常基于卷积神经网络构建。但现有的检测模型由于低层级感受野范围小和不同层级特征缺乏交互两个问题，导致对弱小目标的检测效果不佳。与现有的遥感场景弱小目标检测模型相比，本发明提出了基于transformer结构的预训练模型来构建检测模型，以实现对弱小目标的检测。本发明中的检测模型消除了现有的基于卷积神经网络在检测弱小目标时，产生的感受野逐层增加的限制，可以有效提高模型对不同层级特征的利用程度。通过引入的特征融合处理，够合理关注针对弱小目标定位与分类所需的低层级边缘纹理信息和高层级语义信息。从而提高对小目标检测任务的定位和分类能力。

作为本发明一种可能的实施例，特征融合处理设置为多个，多个特征融合处理串行连接，每一特征融合处理对应的使用的融合模块的参数存在差异。

具体为，每一串行连接的特征融合处理使用的融合模块之间彼此不共享参数。

通过设置多个串行连接的多个特征融合处理，可以对输出的特征进行多次融合。以进一步使得融合特征具有更加丰富的低层级与高层级的语义信息。

作为本发明一种可能的实施例，特征融合处理还包括：

S308:当B_i＝A₁时，将对应的B_i-1配置为空集。

进一步的，特征融合处理还包括：

S309:当B_i＝A_z时，将对应的B_i+1配置为空集。

在最顶层和最底层的初始特征均只有一个对应的相邻的特征提取层，所以当对最低层级或最高层级的初始特征进行特征融合处理时，将简单地省略缺失的特征提取层的计算。也即将缺失的特征提取层对应的上融合特征或下融合特征配置为空集。

作为本发明一种可能的实施例，在S200:将初始遥感图像输入transformer编码器之前，方法还包括：

S110:按照固定预设规格将初始遥感图像划分为多个窗口图像。每一窗口图像的大小为32dpi*32dpi。

S120:将多个窗口图像输入transformer编码器，生成多层初始特征。

由于在遥感图像的成像原理限制，所以使得获取到的遥感图像中会存在较多的弱小目标对应的图像区域，也即目标图像的大小小于或等于32dpi*32dpi的图像区域。本实施例中，对现有的切片划分规则进行改变，具体为，按照固定大小的分辨率来划分窗口图像，以使划分得到的多个窗口图像大小一致，均为32dpi*32dpi的图像。固定大小的窗口图像会帮助模型学习具有相似特征的区域，这种区域的范围不随图像分辨率(图像尺寸)的改变而扩大或缩小，从而更加方便对弱小目标的检测进行适配。以适应对弱小目标的检测。其次，相对于现有的不固定尺寸的切片而言，本实施例中窗口图像可以固定特征尺寸，而固定特征尺寸的注意力学习过程较不固定特征尺寸的注意力学习过程，具有更高的模型收敛速度，及更加稳定的模型训练效果，模型的鲁棒性更强。

作为本发明一种可能的实施例，transformer编码器为ViT编码器。ViT编码器包括多个特征提取阶段。每一特征提取阶段包括n个串行连接的自注意力特征提取单元。

ViT编码器现有的ViT中的Transformer编码器。

每个特征提取阶段用于生成对应的初始特征。自注意力特征提取单元用于根据输入的特征数据的全局注意力来，对输入的特征数据进行基于全局注意力的重构编码。

S120:将多个窗口图像输入Transformer编码器，生成多层初始特征包括：

S130:每一特征提取阶段对输入的数据进行特征提取处理，生成对应的初始特征。

其中，特征提取处理包括：

S131:对第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的编码数据进行序列融合处理，生成一个融合特征序列。融合特征序列中包括由每一窗口图像对应的编码数据转化成的特征向量。

本步骤中具体为，通过线性变化将第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的全部编码数据，转化为一个具有多个维度的一维向量，也即特征向量。然后将所有窗口图像拼接成一个融合特征序列。该操作方式为现有方式，其原理与将窗口图像中的所有像素转化为一个对应的特征序列相同，区别仅在于，将整个窗口图像对应的编码数据看做为现有的窗口图像中的一个像素，进行相应的转化处理。

S132:将融合特征序列输入第n个自注意力特征提取单元，生成对应的初始特征。

具体的，本实施例中的每个特征提取阶段操作具体细节如下：

先将预先训练的骨干网络按块均匀地分成n个子集，并在每个子集的最后一个块中应用全局传播策略。即在每个子集的最后一个块中执行全局自注意力。

现有的ViT中的Transformer编码器，均为将每一个窗口图像对应的输入特征作为一个单独的输入特征序列，在对输入特征进行基于自注意力的编码重构时，是基于每一个窗口图像中的全部像素之间的自注意力来重构编码，也即使用的是窗口图像内部的全局注意力。而缺少对窗口图像之间的全局注意力的考虑。本实施例中，在每个特征提取阶段中的最后一个自注意力特征提取单元中，进行基于窗口图像间的全局注意力来重构编码，由此，通过跨窗口图像的注意力机制，可以实现特征信息在窗口图像之间的传播。

同时，本实施例中仅在每个特征提取阶段的最后一个自注意力特征提取单元中应用全局传播策略。即在每个特征提取阶段的最后一个自注意力特征提取单元中执行全局自注意力。由于，整个编码器中执行全局自注意力的自注意力特征提取单元数量很小，因此内存和计算成本是可行的。同时，考虑到不同阶段特征图输入分辨率需要按照原有模型配置，具体为不同阶段特征图的输入分辨率逐级下降。由此在每个特征提取阶段结束前，还需要应用下采样算子对输出的特征图进行下采样，以满足下个阶段模块的输入需求。本实施例中提出的骨干网络适应策略更加简单，且可以使检测微调与全局自注意预训练兼容。如上，无需重新设计预训练架构。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于Transformer的弱小目标检测方法，其特征在于，所述方法包括如下步骤：

获取初始遥感图像，所述初始遥感图像中包括至少一个弱小目标的图像；所述弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标；

将所述初始遥感图像输入transformer编码器，生成多层初始特征A₁，A₂，…，A_i，…，A_z；其中，A_i为transformer编码器的第i层的特征提取层生成的初始特征；z为初始特征的总数量；i＝1，2，…，z；

使用同一融合模块按照从最高层到最底层的顺序，依次对每一层所述初始特征进行特征融合处理，生成每一初始特征对应的融合特征；

对所述融合特征进行解码处理，生成检测信息；

所述特征融合处理包括：

确定待融合特征B_i；所述待融合特征为多层初始特征中的任意一层对应的初始特征；

将与所述待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征，分别确定为上融合特征B_i+1及下融合特征B_i-1；

对B_i+1进行第一卷积处理，生成第一上融合特征C_i+1；C_i+1包括每一采样点对应的权重信息；

对B_i-1进行第二卷积处理，生成第一下融合特征C_i-1；C_i-1包括每一采样点对应的位置偏移信息；

使用C_i+1及C_i-1分别对B_i-1、B_i及B_i+1进行可变形卷积处理，分别对应生成第一加权特征F_i、第二加权特征G_i及第三加权特征H_i；所述可变形卷积处理用于根据C_i+1及C_i-1的指导分别对B_i-1、B_i及B_i+1进行特征提取；

对F_i、G_i及H_i分别进行归一化处理，生成对应的第一初始融合特征F_i ^，、第二初始融合特征H_i ^，及第三初始融合特征G_i ^，；其中，F_i ^，、G_i ^，及H_i ^，中的特征值属于[0,1]；

使用自适应平均池化算子分别生成F_i ^，、G_i ^，及H_i ^，对应的第一融合权重D₁、第二融合权重D₂及第三融合权重D₃；

根据F_i ^，、G_i ^，、H_i ^，、D₁、D₂及D₃，生成所述融合特征E_i，E_i满足如下条件：

E_i＝F_i ^，*D₁+G_i ^，*D₂+H_i ^，*D₃；

窗口图像由所述初始遥感图像按照固定预设规格划分得到；所述transformer编码器包括多个特征提取阶段；每一所述特征提取阶段包括n个串行连接的自注意力特征提取单元；

将多个所述窗口图像输入Transformer编码器，生成多层初始特征；包括：

每一所述特征提取阶段对输入的数据进行特征提取处理，生成对应的初始特征；

其中，特征提取处理包括：

对第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的编码数据进行序列融合处理，生成一个融合特征序列；融合特征序列中包括由每一窗口图像对应的编码数据转化成的特征向量；

将融合特征序列输入第n个自注意力特征提取单元，生成对应的初始特征。

2.根据权利要求1所述的方法，其特征在于，所述特征融合处理设置为多个，多个所述特征融合处理串行连接，每一所述特征融合处理对应的使用的融合模块的参数存在差异。

3.根据权利要求1所述的方法，其特征在于，所述特征融合处理还包括：

当B_i＝A₁时，将对应的B_i-1配置为空集。

4.根据权利要求1所述的方法，其特征在于，所述特征融合处理还包括：

当B_i＝A_z时，将对应的B_i+1配置为空集。

5.根据权利要求1所述的方法，其特征在于，每一所述窗口图像的大小为32dpi*32dpi。

6.根据权利要求5所述的方法，其特征在于，所述transformer编码器为ViT编码器。

7.根据权利要求1所述的方法，其特征在于，在对F_i、G_i及H_i进行归一化处理，生成对应的所述融合特征之后，所述特征融合处理还包括：

对所述融合特征进行1*1卷积处理，生成目标融合特征。

8.根据权利要求1所述的方法，其特征在于，在生成第一加权特征F_i、第二加权特征G_i及第三加权特征H_i之后，所述特征融合处理还包括：

对F_i进行上采样，生成第一目标加权特征F¹ _i；

对H_i进行上采样，生成第三目标加权特征H¹ _i；F¹ _i、H¹ _i及G_i具有相同的数据维度。

9.一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种基于Transformer的弱小目标检测方法。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的一种基于Transformer的弱小目标检测方法。