CN115019182B

CN115019182B - 遥感图像目标细粒度识别方法、系统、设备及存储介质

Info

Publication number: CN115019182B
Application number: CN202210900356.5A
Authority: CN
Inventors: 金世超; 王进; 贺广均; 冯鹏铭; 符晗; 常江; 刘世烁; 梁银川; 邹同元; 张鹏; 车程安
Original assignee: Beijing Institute of Satellite Information Engineering
Current assignee: Beijing Institute of Satellite Information Engineering
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-03-24
Anticipated expiration: 2042-07-28
Also published as: CN115019182A

Abstract

本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质，获取至少一幅图像；利用卷积神经网络提取所述图像的多尺度特征；利用Transformer对所述多尺度特征图进行编码；利用特征融合金字塔网络对所述的编码后的多尺度特征图进行特征融合；利用融合后的特征图，采用旋转框检测头提取目标；利用旋转变换对提取的目标的特征进行对齐；利用Transformer对旋转变换后的目标特征图进行细粒度分类，得到目标细粒度识别结果。本发明提升了检测方法对目标局部特征和全局特征的整体提取能力，提高了目标细粒度识别精度，可应用于高分辨率遥感图像中的船只、飞机等目标细粒度识别。

Description

遥感图像目标细粒度识别方法、系统、设备及存储介质

技术领域

本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质。

背景技术

随着卫星成像技术和商业航天的快速发展，对地观测呈现出“三高”（高空间分辨率、高光谱分辨率和高时间分辨率）和“三多”（多平台、多传感器和多角度）的发展趋势。其中，高分辨率卫星遥感数据所蕴藏的巨大国防价值和经济效益，已经成为国防安全、经济建设和社会公众信息服务等方面重要的空间信息源，具有广阔的应用前景。

目标检测识别一直是高分辨率遥感应用领域热点问题，现有识别通常基于卷积神经网络（CNN）的深度学习算法，但CNN算法存在如下困难：（1）目标检测模型泛化应用能力不足；（2）尺寸较小且密集分布目标漏检较多；（3）背景复杂、角度任意、目标长宽比差异大等造成的误检较多。

发明内容

鉴于上述技术问题，本发明将CNN与Transformer结合，提出一种基于Transformer和CNN混合结构的遥感图像目标识别模型，用于解决高分辨率遥感图像中密集目标检测和目标的细粒度识别问题，实现典型感兴趣遥感目标的精细识别。

实现本发明目的的技术解决方案为：一种遥感图像目标细粒度识别方法，包括以下步骤：

步骤S1、获取至少一幅高分辨率遥感图像，并将图像进行预处理；

步骤S2、提取图像中目标的多个尺度特征，引入基于Transformer结构的自注意力机制，输出特征图；

步骤S3、利用特征融合金字塔，完成特征图融合处理；

步骤S4、采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，得到目标细粒度识别结果。

根据本发明的一个方面，在所述步骤S1中，将图像进行预处理，至少包括：将图像裁切成大小为608×608的切片，并对切片进行归一化处理。

根据本发明的一个方面，在步骤S2中，具体包括：

步骤S21、以Resnet101作为主干网络，提取图像中目标的4个尺度特征，降采样4、8、16、32倍的特征P1，P2，P3，P4；

步骤S22、分别对特征P1-P4进行分区，基于Transformer结构的自注意力机制，对每个分区进行编码，输出特征图T1，T2，T3，T4。

根据本发明的一个方面，在步骤S22中，对特征P1-P4进行分区和编码，具体包括：

步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区，每一个分区内部的再划分成N×N的网格，其中，N的取值与最小目标的相对尺寸有关，目标越小，N越大；

步骤S222、对每一个网格内的特征进行位置投影和序列化处理，作为Transformer编码结构中多头注意力机制的输入，其公式为：

，

其中，

表示可学习的位置信息，E表示对切片原图做线性投影矩阵；

步骤S223、将特征

输入到多头注意力机制中，由Transformer编码成核心内容，包括特征的查询Q、键值K、特征值V矩阵，其公式为：

，

其中，h表示第h个注意头，

表示矩阵的维度；

由Q，K，V计算各个特征之间的自注意力权重矩阵A，其公式为：

，

其中，d表示特征的维度；

步骤S224、由自注意力权重A加权计算输出特征

，将特征矩阵拼接经过全连接层会得到输出/>

，其公式为：

，

其中，z表示输入特征，

表示矩阵的维度；

步骤S225、将多头注意力模块输出的特征经过多层感知机模块后，就得到Transformer编码后的特征

，其公式为：

，

其中，MLP表达多层感知机。

根据本发明的一个方面，在步骤S3中，利用特征融合金字塔，完成特征图融合处理，具体包括：

步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块，得到特征图O1、O2、O3、O4，其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU；

步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理，其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加；

步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理；

步骤S34、融合后的各层特征层通过One_CBS模块输出。

根据本发明的一个方面，在完成特征图融合处理后，对融合后的特征图进行目标检测处理，具体包括：

步骤S35、采用旋转框检测头，提取目标位置边框和方位方向，利用非极大值抑制算法，剔除重复检测目标；

步骤S36、基于目标方向角度，采用旋转变换，对目标进行方位一致性校正和特征对齐，消除目标特征差异，其公式为：

，

其中，

表示变换后的左边，/>

表示变换前的坐标，变换前后坐标轴原点的相对位置偏移量/>

。/>

表示目标的方位方向角度，范围为（0，360）。

根据本发明的一个方面，在步骤S4中，采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，具体包括：

步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性，其公式为：

，

其中，

为模型中各Transformer层的自注意力权重，/>

和k分别表示第/>

层和第k个头部注意力权重，/>

为权重指数，N表示图像切片数量；

步骤S42、将所有的权重指数

沿着/>

和k两个维度相加，得到最终所有切片的评价指数：

；

步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征，其索引为P1，P2，P3，P4；将图像的分成4块，并降采样到P1尺寸，构成输出P5，P6，P7，P8；最后将整张图像同样降采样到P1尺寸，构成P9；

步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层，进行目标的分类。

根据本发明的一个方面，提供了一种遥感图像目标细粒度识别系统，包括：

图片获取单元，用于获取至少一幅高分辨率遥感图像，并将图像进行预处理；

特征提取单元，用于提取图像中目标的多个尺度特征，引入基于Transformer结构的自注意力机制，输出特征图；

数据处理单元，用于利用特征融合金字塔，完成特征图融合处理；

目标识别单元，用于对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，得到目标细粒度识别结果。

根据本发明的一个方面，提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行如上述技术方案中任一项所述的一种遥感图像目标细粒度识别方法。

根据本发明的一个方面，提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，实现如上述技术方案中任一项所述一种遥感图像目标细粒度识别方法。

根据本发明的构思，提出一种遥感图像目标细粒度识别方法，首先利用CNN的平移不变性提取目标特征图，增强模型的多尺度特征提取能力；然后对特征进行区块化表达，并嵌入位置信息，构建聚焦地物方向的目标检测网络，实现目标的高精度检测；最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征，结合基于Transformer结构的自注意力机制，获取的整体特征及切片之间联系，实现复杂背景下的目标精细识别，有效地提升了检测方法对目标局部特征和全局特征的整体提取能力，提高了目标细粒度识别精度，可应用于高分辨率遥感图像中的船只、飞机等目标识别。

同时，为Transformer结构在遥感目标检测识别领域应用提供了新方法，为遥感目标的精细识别、方位方向评估提供了新的技术途径，具有较大的实际应用价值。

附图说明

图1示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别方法的流程图；

图2示意性表示根据本发明一种实施方式的目标检测网格结构示意图；

图3示意性表示根据本发明一种实施方式的特征融合金字塔网络（Bi-FCN）示意图；

图4示意性表示根据本发明一种实施方式的基于自注意力机制池化的精细识别网络示意图；

图5示意性表示根据本发明另一种实施方式的遥感图像目标细粒度识别方法的流程图；

图6示意性表示根据本发明一种实施方式的步骤S2的流程图；

图7示意性表示根据本发明一种实施方式的步骤S3的部分流程图；

图8示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别系统框架示意图。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅为本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

如图1至图8所示，本发明的一种遥感图像目标细粒度识别方法，包括以下步骤：

步骤S3、利用特征融合金字塔，完成特征图融合处理；

在该实施例中，首先利用CNN的平移不变性提取目标特征图，增强模型的多尺度特征提取能力；然后对特征进行区块化表达，并嵌入位置信息，构建聚焦地物方向的目标检测网络，实现目标的高精度检测；最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征，结合基于Transformer结构的自注意力机制，获取的整体特征及切片之间联系，实现复杂背景下的目标精细识别，有效地提升了检测方法对目标局部特征和全局特征的整体提取能力，提高了目标细粒度识别精度，可应用于高分辨率遥感图像中的船只、飞机等目标识别。

如图1所示，遥感图像目标细粒度识别方法具体步骤如下：步骤S101、由获取单元获取高分辨率遥感图像；步骤S102、读入高分辨率遥感图像、并进行预处理；步骤S103、卷积神经网络多尺度特征提取；步骤S104、采采用Transformer特征编码，输出特征图；步骤S105、利用双向特征融合金字塔网络完成特征融合；步骤S106、采用旋转框检测头进行旋转包围框目标检测，并剔除重复检测目标；步骤S107、旋转变换目标特征对齐，消除目标因成像角度差异带来的特征差异；步骤S108、利用Transformer进行目标细粒度分类；步骤S109、获得目标细粒度识别结果。

在本发明的一个实施例中，优选地，在所述步骤S1中，将图像进行预处理，至少包括：将图像裁切成大小为608×608的切片，并对切片进行归一化处理。

在该实施例中，由于不同设备的采集、成像因素等原因造成相同的目标在图像灰度信息上的不一致，图像归一化能够在保留具有识别价值的灰度差异的同时，减小甚至消除图像中灰度不一致，图像的归一化更有利于计算机自动分析处理，从而提升舰船目标的细粒度识别准确率，将图像切片处理，有利于减少后续算法的复杂度和提高效率。

如图2和图6所示，在本发明的一个实施例中，优选地，在步骤S2中，具体包括：

如图3所示，在本发明的一个实施例中，优选地，在步骤S22中，对特征P1-P4进行分区和编码，具体包括：

，

其中，

表示可学习的位置信息，E表示对切片原图做线性投影矩阵；

步骤S223、将特征

，

其中，h表示第h个注意头，

表示矩阵的维度；

，

其中，d表示特征的维度；

步骤S224、由自注意力权重A加权计算输出特征

，将特征矩阵拼接经过全连接层会得到输出/>

，其公式为：

，

其中，z表示输入特征，

表示矩阵的维度；

，其公式为：

，

其中，MLP表达多层感知机。

在本发明的一个实施例中，优选地，在步骤S3中，利用特征融合金字塔，完成特征图融合处理，具体包括：

步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块，得到特征图O1、O2、O3、O4，其公式为：

O_i= SiLU（Batch_Norm（Conv（Ci））），

其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU；

步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理，其公式为：

Ui=One_CBS（Upsample（Oi））+ Oi-1，

其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加；

步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理，其公式为：

Ai+1=One_CBS（Avgpooling（Ui））+ Ui-1；

步骤S34、融合后的各层特征层通过One_CBS模块输出。

如图7所示，在本发明的一个实施例中，优选地，在完成特征图融合处理后，对融合后的特征图进行目标检测处理，具体包括：

，

其中，

表示变换后的左边，/>

。/>

表示目标的方位方向角度，范围为（0，360）。

在该实施例中，利用NMS（非极大值抑制）算法，剔除重复检测目标，有利于减少后续算法的复杂度和提高效率，同时能够提升识别的准确率，在进行识别前，还需要对目标进行方位一致性校正和特征对齐，消除目标因成像角度差异带来的特征差异，实现目标的精细识别，进一步地提升识别的准确率。

如图7所示，在本发明的一个实施例中，优选地，在步骤S4中，采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，具体包括：

，

其中，

为模型中各Transformer层的自注意力权重，/>

和k分别表示第/>

层和第k个头部注意力权重,/>

为权重指数，N表示图像切片数量；

步骤S42、将所有的权重指数

沿着/>

和k两个维度相加，得到最终所有切片的评价指数：

；

如图8所示，根据本发明的一个方面，提供了一种遥感图像目标细粒度识别系统，包括：

综上所述，本发明提出了一种遥感图像目标细粒度识别方法、系统、设备及存储介质，首先利用CNN的平移不变性提取目标特征图，增强模型的多尺度特征提取能力；然后对特征进行区块化表达，并嵌入位置信息，构建聚焦地物方向的目标检测网络，实现目标的高精度检测；最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征，结合基于Transformer结构的自注意力机制，获取的整体特征及切片之间联系，实现复杂背景下的目标精细识别，有效地提升了检测方法对目标局部特征和全局特征的整体提取能力，提高了目标细粒度识别精度，可应用于高分辨率遥感图像中的舰船、飞机等目标识别。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种遥感图像目标细粒度识别方法，包括以下步骤：

步骤S3、利用特征融合金字塔，完成特征图融合处理；

步骤S4、采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，得到目标细粒度识别结果；

在步骤S4中，采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，具体包括：

其中，

为模型中各Transformer层的自注意力权重，l和k分别表示第l层和第k个头部注意力权重,P_l,k,i为权重指数，N表示图像切片数量；

步骤S42、将所有的权重指数P_l,k,i沿着l和k两个维度相加，得到最终所有切片的评价指数：

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1中，将图像进行预处理，至少包括：将图像裁切成大小为608×608的切片，并对切片进行归一化处理。

3.根据权利要求1所述的方法，其特征在于，在步骤S2中，具体包括：

4.根据权利要求3所述的方法，其特征在于，在步骤S22中，对特征P1-P4进行分区和编码，具体包括：

其中，E_pos表示可学习的位置信息，E表示对切片原图做线性投影矩阵，x_class为分区的全局表示，

为第N个网格；

步骤S223、将特征z₀输入到多头注意力机制中，由Transformer编码成核心内容，包括特征的查询Q、键值K、特征值V矩阵，其公式为：

其中，h表示第h个注意头，

表示矩阵的维度；

其中，d表示特征的维度；

步骤S224、由自注意力权重A加权计算输出特征S^(h)，将特征矩阵拼接经过全连接层会得到输出z′，其公式为：

S^(h)＝A^(h)V

其中，z表示输入特征，

表示矩阵的维度；

步骤S225、将多头注意力模块输出的特征经过多层感知机模块后，就得到Transformer编码后的特征z₁，其公式为：

其中，MLP表达多层感知机。

5.根据权利要求1所述的方法，其特征在于，在步骤S3中，利用特征融合金字塔，完成特征图融合处理，具体包括：

步骤S34、融合后的各层特征层通过One_CBS模块输出。

6.根据权利要求5所述的方法，其特征在于，在完成特征图融合处理后，对融合后的特征图进行目标检测处理，具体包括：

其中，(x′,y′)表示变换后的左边，(x,y)表示变换前的坐标，变换前后坐标轴原点的相对位置偏移量(x₀,y₀)，θ表示目标的方位方向角度，范围为(0，360)。

7.一种遥感图像目标细粒度识别系统，包括：

目标识别单元，用于对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，在步骤S4中，采用Transformer编码层，对目标融合后的特征图进行编码，利用构建的注意力池化、特征重组模块和新的Transformer编码层，对目标进行分类，具体包括：

其中，

8.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行如权利要求1-6任一项所述一种遥感图像目标细粒度识别方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-6任一项所述一种遥感图像目标细粒度识别方法。