CN116051984B - 一种基于Transformer的弱小目标检测方法 - Google Patents

一种基于Transformer的弱小目标检测方法 Download PDF

Info

Publication number
CN116051984B
CN116051984B CN202211642232.8A CN202211642232A CN116051984B CN 116051984 B CN116051984 B CN 116051984B CN 202211642232 A CN202211642232 A CN 202211642232A CN 116051984 B CN116051984 B CN 116051984B
Authority
CN
China
Prior art keywords
fusion
feature
initial
features
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211642232.8A
Other languages
English (en)
Other versions
CN116051984A (zh
Inventor
王佩瑾
朱子聪
卢宛萱
李俊希
路晓男
杨竹君
杨金泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202211642232.8A priority Critical patent/CN116051984B/zh
Publication of CN116051984A publication Critical patent/CN116051984A/zh
Application granted granted Critical
Publication of CN116051984B publication Critical patent/CN116051984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及遥感图像目标检测领域,特别提供了一种基于Transformer的弱小目标检测方法,包括获取初始遥感图像,将初始遥感图像输入transformer编码器,生成多层初始特征。依次对每一层初始特征进行特征融合处理,生成对应的融合特征。对融合特征进行解码处理,生成检测信息。由于在transformer结构中,会计算每个切片内全部特征之间的自注意力,因此使得本发明获得的每一层初始特征均具有更加广泛的感受野,进而使得获取的每一层初始特征具有更多的高级语义特征。本发明中的融合特征具有更加丰富的低层级的纹理信息与高层级的语义信息。所以会提高对遥感场景下弱小目标的检测能力,提高识别精度。

Description

一种基于Transformer的弱小目标检测方法
技术领域
本发明涉及遥感图像目标检测领域,特别是涉及一种基于Transformer的弱小目标检测方法。
背景技术
传统的卷积神经网络中随着模型层数的加深,每一特征提取层对应的感受野也随之扩大。而现有的遥感弱小目标检测模型通常基于现有的卷积神经网络构建。对应的,在现有模型的编码器利用网络的不同特征提取层级输出的初始特征,来检测输入图像中不同尺寸大小的目标。由于输入图像中弱小目标对应的图像区域也相对较小,所以弱小目标对应的图像特征通常存在于低层级的初始特征中。但是,低层级的特征提取层的感受野范围较小,所以模型只能提取到输入图像中的部分浅层特征信息,如边缘纹理信息,而缺乏高层级的语义信息。对于遥感图像而言,其内部会具有很多的弱小目标对应的图像,所以现有的目标检测方法对遥感场景下弱小目标的检测能力较低,识别精度较差。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本发明的一个方面,提供了一种基于Transformer的弱小目标检测方法,方法包括如下步骤:
获取初始遥感图像,初始遥感图像中包括至少一个弱小目标的图像。弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标。
将初始遥感图像输入transformer编码器,生成多层初始特征A1,A2,…,Ai,…,Az。其中,Ai为transformer编码器的第i层的特征提取层生成的初始特征。z为初始特征的总数量。i=1,2,…,z。
使用同一融合模块按照从最高层到最底层的顺序,依次对每一层初始特征进行特征融合处理,生成每一初始特征对应的融合特征。
对融合特征进行解码处理,生成检测信息。
特征融合处理包括:
确定待融合特征Bi。待融合特征为多层初始特征中的任意一层对应的初始特征。Bi=Ai
将与待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征,分别确定为上融合特征Bi+1及下融合特征Bi-1
对Bi+1进行第一卷积处理,生成第一上融合特征Ci+1。Ci+1包括每一采样点对应的权重信息。
对Bi-1进行第二卷积处理,生成第一下融合特征Ci-1。Ci-1包括每一采样点对应的位置偏移信息。
使用Ci+1及Ci-1分别对Bi-1、Bi及Bi+1进行可变形卷积处理,分别对应生成第一加权特征Fi、第二加权特征Gi及第三加权特征Hi。可变形卷积处理用于根据Ci+1及Ci-1的指导分别对Bi-1、Bi及Bi+1进行特征提取。
S306:对Fi、Gi及Hi分别进行归一化处理,生成对应的第一初始融合特征Fi’、第二初始融合特征Hi’及第三初始融合特征Gi’。其中,Fi’、Gi’及Hi’中的特征值属于[0,1]。
使用自适应平均池化算子分别生成Fi’、Gi’及Hi’对应的第一融合权重D1、第二融合权重D2及第三融合权重D3
根据Fi’、Gi’、Hi’、D1、D2及D3,生成融合特征Ei,Ei满足如下条件:
Ei=Fi’*D1+Gi’*D2+Hi’*D3
根据本发明的第二个方面,提供了一种非瞬时性计算机可读存储介质,非瞬时性计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于Transformer的弱小目标检测方法。
根据本发明的第三个方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种基于Transformer的弱小目标检测方法。
本发明至少具有以下有益效果:
本发明通过通过基于transformer结构的预训练骨干网络替代现有的卷积神经网络结构。由于在transformer结构中,会计算每个切片内全部特征之间的自注意力,因此使得本发明获得的每一层初始特征均具有更加广泛的感受野,进而使得获取的每一层初始特征具有更多的高级语义特征。
同时,本发明中还使用同一融合模块按照从最高层到最底层的顺序,依次对每一层初始特征进行特征融合处理。通过特征融合处理,可以将本层及与器相邻的上下两层的初始特征进行加权融合。实现对不同的弱小目标特征进行注意力加权目的。由此通过相邻层级初始特征图的引导,使得最终得到的融合特征一方面可以从与其自身级别相邻的高级特征图中获取语义信息的重要性。另一方面,还可以从与其自身级别相邻的较低级别特征图中获取边缘纹理信息的相对位置。由于,本发明中的融合特征具有更加丰富的低层级与高层级的语义信息。所以会提高对遥感场景下弱小目标的检测能力,提高识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于Transformer的弱小目标检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的一个方面,如图1所示,提供了一种基于Transformer的弱小目标检测方法,方法包括如下步骤:
S100:获取初始遥感图像,初始遥感图像中包括至少一个弱小目标的图像。弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标。
在获取到初始遥感图像后,还会使用现有的分割方法对初始图像进行切分以生成不同的切片,然后将多个切片输入至transformer编码器中进行编码。
S200:将初始遥感图像输入transformer编码器,生成多层初始特征A1,A2,…,Ai,…,Az。其中,Ai为transformer编码器的第i层的特征提取层生成的初始特征。z为初始特征的总数量。i=1,2,…,z。
本实施例中的transformer编码器可以为现有的基于transformer结构的预训练模型中的编码器。该基于transformer结构的预训练模型需要满足如下要求。1、预训练模型为ViT(VisionTransformer)系列的预训练模型。2、该预训练模型为基于遥感场景下进行预训练得到的模型。
由于transformer编码器在对每一个切片进行特征编码重构时,会进行切片内的全局自注意力的计算,由此使得生成的每一层初始特征均具有更加广泛的感受野,进而使得获取的每一层初始特征具有更多的高级语义特征。以提高对遥感图像中弱小目标的检测精度。
S300:使用同一融合模块按照从最高层到最底层的顺序,依次对每一层初始特征进行特征融合处理,生成每一初始特征对应的融合特征。
S400:对融合特征进行解码处理,生成检测信息。
特征融合处理包括:
S301:确定待融合特征Bi。待融合特征为多层初始特征中的任意一层对应的初始特征。Bi=Ai
S302:将与待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征,分别确定为上融合特征Bi+1及下融合特征Bi-1
S303:对Bi+1进行第一卷积处理,生成第一上融合特征Ci+1。Ci+1包括每一采样点对应的权重信息。
S304:对Bi-1进行第二卷积处理,生成第一下融合特征Ci-1。Ci-1包括每一采样点对应的位置偏移信息。
利用3*3*N的卷积算子对Bi+1进行第一卷积处理。利用3*3*2N的卷积算子Bi-1进行第二卷积处理。N为后续的可变形卷积处理中对应要求的输入特征的通道数。
由于Bi+1相对于Bi具有更高的特征提取层级,所以Bi+1中具有更加高级的语义信息,所以通过第一卷积处理可以将Bi+1中具有的更加高级的语义信息提取出来。由于语义信息的大小可以更加准确的表示出每一个采样点能够反映出对应目标属于某一类别的概率大小,所以可以将Ci+1作为采样点对应的采纳权重。
对应的,由于Bi-1相对于Bi具有更低的特征提取层级,所以Bi-1中具有更加丰富的边缘纹理特征信息。通过第二卷积处理可以将Bi-1中边缘纹理信息提取出来。由于边缘纹理信息可以用来更加准确的表示对应目标的位置信息,所以可以将Ci-1作为采样点对应的位置偏移信息。
然后通过上采样及下采样对对应的特征进行处理,以对应Ci-1、Ci+1、Bi-1、Bi及Bi+1之间的数据维度进行调整,以满足后续对应的可变形卷积处理要求的输入的数据形式。
S305:使用Ci+1及Ci-1分别对Bi-1、Bi及Bi+1进行可变形卷积处理,分别对应生成第一加权特征Fi、第二加权特征Gi及第三加权特征Hi。可变形卷积处理用于根据Ci+1及Ci-1的指导分别对Bi-1、Bi及Bi+1进行特征提取。
具体的,使用Ci+1及Ci-1对Bi-1进行可变形卷积处理,生成第一加权特征Fi
使用Ci+1及Ci-1对Bi进行可变形卷积处理,生成第二加权特征Gi
使用Ci+1及Ci-1对Bi+1进行可变形卷积处理,生成第三加权特征Hi
通过上述处理之后可以得到后续进行可变形卷积处理时,需要用到的采样点的位置偏移信息以及权重信息。有这两个参数可以指导可变形卷积在进行特征提取处理过程中,对应的卷积核的形状以及卷积核中每一采样点的采样权重。由此,可以使得可变形卷积中的卷积核对应的感受野可以更好的覆盖到目标对象所在的区域,同时减少噪声数据。另外,还可以通过采样权重对对应的特征进行自适应比例的采集。综上可以使得最终获得的特征具有目标对象更加丰富且准确的特征信息。
本步骤中设置的可变形卷积处理,可以通过现有的可变形卷积算子实现,例如第一卷积算子、第二卷积算子及第三卷积算子均为3*3*256的可变形卷积算子,且其内部参数经过训练后获得,会存在差异。
S306:对Fi、Gi及Hi分别进行归一化处理,生成对应的第一初始融合特征Fi’、第二初始融合特征Hi’及第三初始融合特征Gi’。其中,Fi’、Gi’及Hi’中的特征值属于[0,1]。
归一化处理,可以通过自适应池化操作来完成,由此,可以将输入的三层特征图Fi、Gi及Hi中的特征数值统一到同一个数值范围内,如[0,1]。归一化处理还可以为:BatchNorm、GroupNorm等。
使用自适应平均池化算子分别生成Fi’、Gi’及Hi’对应的第一融合权重D1、第二融合权重D2及第三融合权重D3
自适应平均池化算子为现有技术,其可以根据输入值来输出预设尺寸的权值矩阵。
S307:根据Fi’、Gi’、Hi’、D1、D2及D3,生成融合特征Ei,Ei满足如下条件:
Ei=Fi’*D1+Gi’*D2+Hi’*D3
将上述经过处理后的两个相邻层的特征融合至目标层的待融合特征中形成最终的成融合特征Ei。由此,融合特征中会包括更加丰富的便于识别分类任务的语义信息以及更加丰富的便于定位任务的纹理位置信息。由此,提高了特征的表征能力,所以会提高对遥感场景下弱小目标的检测能力,提高识别精度。
对融合特征进行1*1卷积处理,生成目标融合特征。
本步骤用于消除不同层级特征间存在的混叠效应。
现有的遥感弱小目标检测模型通常基于卷积神经网络构建。但现有的检测模型由于低层级感受野范围小和不同层级特征缺乏交互两个问题,导致对弱小目标的检测效果不佳。与现有的遥感场景弱小目标检测模型相比,本发明提出了基于transformer结构的预训练模型来构建检测模型,以实现对弱小目标的检测。本发明中的检测模型消除了现有的基于卷积神经网络在检测弱小目标时,产生的感受野逐层增加的限制,可以有效提高模型对不同层级特征的利用程度。通过引入的特征融合处理,够合理关注针对弱小目标定位与分类所需的低层级边缘纹理信息和高层级语义信息。从而提高对小目标检测任务的定位和分类能力。
本发明通过通过基于transformer结构的预训练骨干网络替代现有的卷积神经网络结构。由于在transformer结构中,会计算每个切片内全部特征之间的自注意力,因此使得本发明获得的每一层初始特征均具有更加广泛的感受野,进而使得获取的每一层初始特征具有更多的高级语义特征。
同时,本发明中还使用同一融合模块按照从最高层到最底层的顺序,依次对每一层初始特征进行特征融合处理。通过特征融合处理,可以将本层及与器相邻的上下两层的初始特征进行加权融合。实现对不同的弱小目标特征进行注意力加权目的。由此通过相邻层级初始特征图的引导,使得最终得到的融合特征一方面可以从与其自身级别相邻的高级特征图中获取语义信息的重要性。另一方面,还可以从与其自身级别相邻的较低级别特征图中获取边缘纹理信息的相对位置。由于,本发明中的融合特征具有更加丰富的低层级与高层级的语义信息。所以会提高对遥感场景下弱小目标的检测能力,提高识别精度。
作为本发明一种可能的实施例,特征融合处理设置为多个,多个特征融合处理串行连接,每一特征融合处理对应的使用的融合模块的参数存在差异。
具体为,每一串行连接的特征融合处理使用的融合模块之间彼此不共享参数。
通过设置多个串行连接的多个特征融合处理,可以对输出的特征进行多次融合。以进一步使得融合特征具有更加丰富的低层级与高层级的语义信息。
作为本发明一种可能的实施例,特征融合处理还包括:
S308:当Bi=A1时,将对应的Bi-1配置为空集。
进一步的,特征融合处理还包括:
S309:当Bi=Az时,将对应的Bi+1配置为空集。
在最顶层和最底层的初始特征均只有一个对应的相邻的特征提取层,所以当对最低层级或最高层级的初始特征进行特征融合处理时,将简单地省略缺失的特征提取层的计算。也即将缺失的特征提取层对应的上融合特征或下融合特征配置为空集。
作为本发明一种可能的实施例,在S200:将初始遥感图像输入transformer编码器之前,方法还包括:
S110:按照固定预设规格将初始遥感图像划分为多个窗口图像。每一窗口图像的大小为32dpi*32dpi。
S120:将多个窗口图像输入transformer编码器,生成多层初始特征。
由于在遥感图像的成像原理限制,所以使得获取到的遥感图像中会存在较多的弱小目标对应的图像区域,也即目标图像的大小小于或等于32dpi*32dpi的图像区域。本实施例中,对现有的切片划分规则进行改变,具体为,按照固定大小的分辨率来划分窗口图像,以使划分得到的多个窗口图像大小一致,均为32dpi*32dpi的图像。固定大小的窗口图像会帮助模型学习具有相似特征的区域,这种区域的范围不随图像分辨率(图像尺寸)的改变而扩大或缩小,从而更加方便对弱小目标的检测进行适配。以适应对弱小目标的检测。其次,相对于现有的不固定尺寸的切片而言,本实施例中窗口图像可以固定特征尺寸,而固定特征尺寸的注意力学习过程较不固定特征尺寸的注意力学习过程,具有更高的模型收敛速度,及更加稳定的模型训练效果,模型的鲁棒性更强。
作为本发明一种可能的实施例,transformer编码器为ViT编码器。ViT编码器包括多个特征提取阶段。每一特征提取阶段包括n个串行连接的自注意力特征提取单元。
ViT编码器现有的ViT中的Transformer编码器。
每个特征提取阶段用于生成对应的初始特征。自注意力特征提取单元用于根据输入的特征数据的全局注意力来,对输入的特征数据进行基于全局注意力的重构编码。
S120:将多个窗口图像输入Transformer编码器,生成多层初始特征包括:
S130:每一特征提取阶段对输入的数据进行特征提取处理,生成对应的初始特征。
其中,特征提取处理包括:
S131:对第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的编码数据进行序列融合处理,生成一个融合特征序列。融合特征序列中包括由每一窗口图像对应的编码数据转化成的特征向量。
本步骤中具体为,通过线性变化将第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的全部编码数据,转化为一个具有多个维度的一维向量,也即特征向量。然后将所有窗口图像拼接成一个融合特征序列。该操作方式为现有方式,其原理与将窗口图像中的所有像素转化为一个对应的特征序列相同,区别仅在于,将整个窗口图像对应的编码数据看做为现有的窗口图像中的一个像素,进行相应的转化处理。
S132:将融合特征序列输入第n个自注意力特征提取单元,生成对应的初始特征。
具体的,本实施例中的每个特征提取阶段操作具体细节如下:
先将预先训练的骨干网络按块均匀地分成n个子集,并在每个子集的最后一个块中应用全局传播策略。即在每个子集的最后一个块中执行全局自注意力。
现有的ViT中的Transformer编码器,均为将每一个窗口图像对应的输入特征作为一个单独的输入特征序列,在对输入特征进行基于自注意力的编码重构时,是基于每一个窗口图像中的全部像素之间的自注意力来重构编码,也即使用的是窗口图像内部的全局注意力。而缺少对窗口图像之间的全局注意力的考虑。本实施例中,在每个特征提取阶段中的最后一个自注意力特征提取单元中,进行基于窗口图像间的全局注意力来重构编码,由此,通过跨窗口图像的注意力机制,可以实现特征信息在窗口图像之间的传播。
同时,本实施例中仅在每个特征提取阶段的最后一个自注意力特征提取单元中应用全局传播策略。即在每个特征提取阶段的最后一个自注意力特征提取单元中执行全局自注意力。由于,整个编码器中执行全局自注意力的自注意力特征提取单元数量很小,因此内存和计算成本是可行的。同时,考虑到不同阶段特征图输入分辨率需要按照原有模型配置,具体为不同阶段特征图的输入分辨率逐级下降。由此在每个特征提取阶段结束前,还需要应用下采样算子对输出的特征图进行下采样,以满足下个阶段模块的输入需求。本实施例中提出的骨干网络适应策略更加简单,且可以使检测微调与全局自注意预训练兼容。如上,无需重新设计预训练架构。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (10)

1.一种基于Transformer的弱小目标检测方法,其特征在于,所述方法包括如下步骤:
获取初始遥感图像,所述初始遥感图像中包括至少一个弱小目标的图像;所述弱小目标为图像的尺寸小于或等于32dpi*32dpi的目标;
将所述初始遥感图像输入transformer编码器,生成多层初始特征A1,A2,…,Ai,…,Az;其中,Ai为transformer编码器的第i层的特征提取层生成的初始特征;z为初始特征的总数量;i=1,2,…,z;
使用同一融合模块按照从最高层到最底层的顺序,依次对每一层所述初始特征进行特征融合处理,生成每一初始特征对应的融合特征;
对所述融合特征进行解码处理,生成检测信息;
所述特征融合处理包括:
确定待融合特征Bi;所述待融合特征为多层初始特征中的任意一层对应的初始特征;
将与所述待融合特征所在特征提取层上下分别相邻的特征提取层对应的初始特征,分别确定为上融合特征Bi+1及下融合特征Bi-1
对Bi+1进行第一卷积处理,生成第一上融合特征Ci+1;Ci+1包括每一采样点对应的权重信息;
对Bi-1进行第二卷积处理,生成第一下融合特征Ci-1;Ci-1包括每一采样点对应的位置偏移信息;
使用Ci+1及Ci-1分别对Bi-1、Bi及Bi+1进行可变形卷积处理,分别对应生成第一加权特征Fi、第二加权特征Gi及第三加权特征Hi;所述可变形卷积处理用于根据Ci+1及Ci-1的指导分别对Bi-1、Bi及Bi+1进行特征提取;
对Fi、Gi及Hi分别进行归一化处理,生成对应的第一初始融合特征Fi 、第二初始融合特征Hi 及第三初始融合特征Gi ;其中,Fi 、Gi 及Hi 中的特征值属于[0,1];
使用自适应平均池化算子分别生成Fi 、Gi 及Hi 对应的第一融合权重D1、第二融合权重D2及第三融合权重D3
根据Fi 、Gi 、Hi 、D1、D2及D3,生成所述融合特征Ei,Ei满足如下条件:
Ei=Fi *D1+Gi *D2+Hi *D3
窗口图像由所述初始遥感图像按照固定预设规格划分得到;所述transformer编码器包括多个特征提取阶段;每一所述特征提取阶段包括n个串行连接的自注意力特征提取单元;
将多个所述窗口图像输入Transformer编码器,生成多层初始特征;包括:
每一所述特征提取阶段对输入的数据进行特征提取处理,生成对应的初始特征;
其中,特征提取处理包括:
对第n-1个串行连接的自注意力特征提取单元输出的每一窗口图像对应的编码数据进行序列融合处理,生成一个融合特征序列;融合特征序列中包括由每一窗口图像对应的编码数据转化成的特征向量;
将融合特征序列输入第n个自注意力特征提取单元,生成对应的初始特征。
2.根据权利要求1所述的方法,其特征在于,所述特征融合处理设置为多个,多个所述特征融合处理串行连接,每一所述特征融合处理对应的使用的融合模块的参数存在差异。
3.根据权利要求1所述的方法,其特征在于,所述特征融合处理还包括:
当Bi=A1时,将对应的Bi-1配置为空集。
4.根据权利要求1所述的方法,其特征在于,所述特征融合处理还包括:
当Bi=Az时,将对应的Bi+1配置为空集。
5.根据权利要求1所述的方法,其特征在于,每一所述窗口图像的大小为32dpi*32dpi。
6.根据权利要求5所述的方法,其特征在于,所述transformer编码器为ViT编码器。
7.根据权利要求1所述的方法,其特征在于,在对Fi、Gi及Hi进行归一化处理,生成对应的所述融合特征之后,所述特征融合处理还包括:
对所述融合特征进行1*1卷积处理,生成目标融合特征。
8.根据权利要求1所述的方法,其特征在于,在生成第一加权特征Fi、第二加权特征Gi及第三加权特征Hi之后,所述特征融合处理还包括:
对Fi进行上采样,生成第一目标加权特征F1 i
对Hi进行上采样,生成第三目标加权特征H1 i;F1 i、H1 i及Gi具有相同的数据维度。
9.一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种基于Transformer的弱小目标检测方法。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的一种基于Transformer的弱小目标检测方法。
CN202211642232.8A 2022-12-20 2022-12-20 一种基于Transformer的弱小目标检测方法 Active CN116051984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642232.8A CN116051984B (zh) 2022-12-20 2022-12-20 一种基于Transformer的弱小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642232.8A CN116051984B (zh) 2022-12-20 2022-12-20 一种基于Transformer的弱小目标检测方法

Publications (2)

Publication Number Publication Date
CN116051984A CN116051984A (zh) 2023-05-02
CN116051984B true CN116051984B (zh) 2023-07-04

Family

ID=86132257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642232.8A Active CN116051984B (zh) 2022-12-20 2022-12-20 一种基于Transformer的弱小目标检测方法

Country Status (1)

Country Link
CN (1) CN116051984B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708511A (zh) * 2022-06-01 2022-07-05 成都信息工程大学 基于多尺度特征融合和特征增强的遥感图像目标检测方法
CN114821326A (zh) * 2022-04-28 2022-07-29 中国电子科技集团公司第五十四研究所 一种宽幅遥感影像中密集弱小目标检测识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734211B (zh) * 2018-05-17 2019-12-24 腾讯科技(深圳)有限公司 图像处理的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821326A (zh) * 2022-04-28 2022-07-29 中国电子科技集团公司第五十四研究所 一种宽幅遥感影像中密集弱小目标检测识别方法
CN114708511A (zh) * 2022-06-01 2022-07-05 成都信息工程大学 基于多尺度特征融合和特征增强的遥感图像目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多级特征和混合注意力机制的室内人群检测网络;沈文祥;秦品乐;曾建潮;;计算机应用(12);第88-94页 *

Also Published As

Publication number Publication date
CN116051984A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN107766894B (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113705769A (zh) 一种神经网络训练方法以及装置
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN110245683B (zh) 一种少样本目标识别的残差关系网络构建方法及应用
CN116958163B (zh) 一种多器官和/或病灶的医学图像分割方法及装置
Fan et al. A novel sonar target detection and classification algorithm
CN115147632A (zh) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN112270366A (zh) 基于自适应多特征融合的微小目标检测方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN117036832B (zh) 一种基于随机多尺度分块的图像分类方法、装置及介质
CN112633123B (zh) 一种基于深度学习的异源遥感影像变化检测方法及装置
CN115994558A (zh) 医学影像编码网络的预训练方法、装置、设备及存储介质
CN111814693A (zh) 一种基于深度学习的海上船舶识别方法
CN116051984B (zh) 一种基于Transformer的弱小目标检测方法
CN116778470A (zh) 对象识别及对象识别模型训练方法、装置、设备及介质
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
CN114419249A (zh) 物体三维形状重建方法、装置、设备及存储介质
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法
CN111915623A (zh) 一种使用门控和自适应注意力的图像分割方法和装置
CN117893413B (zh) 基于图像增强的车载终端人机交互方法
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant