CN117853739B

CN117853739B - 基于特征变换的遥感图像特征提取模型预训练方法及装置

Info

Publication number: CN117853739B
Application number: CN202410157863.3A
Authority: CN
Inventors: 李冠群
Original assignee: Genyu Muxing Beijing Space Technology Co ltd
Current assignee: Genyu Muxing Beijing Space Technology Co ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-06-25
Anticipated expiration: 2044-02-04
Also published as: CN117853739A

Abstract

本发明公开了一种基于特征变换的遥感图像特征提取模型预训练方法及装置，属于遥感图像处理领域。本发明利用自适应卷积计算的机制优化遥感图像在频域特征和纹理特征表达中的潜在目标区域的特征信息，帮助模型更好地捕捉到关于潜在目标区域的上下文特征信息，进而帮助模型更准确地理解图像内容。本发明至少包括对遥感图像进行特征变换，利用特征变换结果对遥感图像特征提取模型进行预训练；其中特征变换包括：将遥感图像映射至频域，并分解为相位向量和振幅向量，所述振幅向量经过卷积和通道注意力后与所述相位向量共同还原至时域，得到特征变换结果。

Description

基于特征变换的遥感图像特征提取模型预训练方法及装置

技术领域

本发明涉及遥感图像处理技术领域，更具体的说是涉及基于特征变换的遥感图像特征提取模型预训练方法及装置。

背景技术

遥感图像在国防安全、环境监测、城市规划等领域具有广泛的应用前景。遥感图像解译一直以来都是遥感领域的研究重点之一，遥感图像目标检测，遥感图像实例分割等更是炙手可热的研究重点。

当前主流的遥感图像目标检测及实例分割方法，主要基于有监督的训练范式设计模型进行训练，这类模型基于卷积神经网络构建，经过特征提取，特征融合，特征解耦后输出潜在目标区域的掩码信息以及预测框和类型信息。然而，有监督的模型训练范式需要大量的标注信息，及目标的类别，位置，边界信息往往需要大量的人力和物力的帮助。这造成的巨大的人工成本消耗，同时也使得模型难以拓展到相似解译任务。

基于无监督的模型预训练方法成为了一种解决策略，这类方法无需任何标注信息即可学习图像内部的特征语义关系，利用基于无监督的模型预训练方法在目标检测及实例分割等下游任务上进行微调，即可实现不错的检测精度。这一方法极大的减少的标注成本的需求，使得遥感图像解译模型的拓展性和泛化性得到的显著的提升。

然而，由于遥感图像本身具有复杂背景和目标尺度变换等特性，这使得常规的基于视觉的预训练方法表现不佳，常常受限于遥感图像噪声的干扰，这导致模型难以有效捕捉到典型遥感目标的精细化特征，进而在下游任务上精度表现不佳。

因此，有必要改进遥感图像模型预训练方法，设计高效的遥感图像模型预训练策略以应对这种问题。

发明内容

有鉴于此，本发明提供了一种基于特征变换的遥感图像特征提取模型预训练方法及装置，旨在利用自适应卷积计算的机制优化遥感图像在频域特征和纹理特征表达中的潜在目标区域的特征信息，帮助模型更好地捕捉到关于潜在目标区域的上下文特征信息，进而帮助模型更准确地理解图像内容。

为了实现上述目的，本发明采用如下技术方案：

一种基于特征变换的遥感图像特征提取模型预训练方法，包括：

对遥感图像进行特征变换，利用特征变换结果对遥感图像特征提取模型进行预训练；所述特征变换包括：

将遥感图像映射至频域，并分解为相位向量和振幅向量，提取所述振幅向量的卷积特征，捕获通道信息后与所述相位向量共同还原至时域，得到特征变换结果。

噪声通常在频域上具有特定的特征，通过转换到频域，可以更容易地识别和分离噪声成分；同时，振幅向量中的不同分量对应于不同尺度或方向上的纹理信息，通过去除频域振幅向量中的噪声，可以提高图像的清晰度和质量。

优选地，还原至时域时还叠加所述振幅向量本身。

优选地，利用快速傅里叶变换映射至频域，以及利用逆傅里叶变换还原至时域。

优选地，对所述遥感图像进行拉普拉斯变换，并依次学习特征的空间结构，捕获长距离纹理特征，得到拉普拉斯优化图像，以及利用所述拉普拉斯优化图像约束特征变换结果的优化方向。

优选地，所述拉普拉斯优化图像和所述特征变换结果基于像素均方误差进行约束。

优选地，利用特征变换结果对遥感图像特征提取模型进行预训练时，采用的损失函数为所述拉普拉斯优化图像和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和。

优选地，所述感图像特征提取模型按如下损失对目标检测任务进行训练；

以及按如下损失进行实例分割任务训练；

式中，y表示目标真值标签,表示模型预测结果，FocalLoss表示焦点损失，RotatedIoULoss表示旋转框IoU损失，CrossEntropy表示交叉熵损失。

一种基于特征变换的遥感图像特征提取模型预训练装置，包括遥感图像特征提取模型、特征变换模块，和预训练模块；

所述特征变换模块，用于对遥感图像进行特征变换，包括：

频域转换单元，用于将遥感图像映射至频域，并分解为相位向量和振幅向量，

振幅向量去噪单元，包括卷积层和多层感知机层，用于对振幅向量进行去噪优化；

时域转换单元，用于将优化后的振幅向量与相位向量还原至时域，得到特征变换结果；

所述预训练模块，用于利用特征变换结果对所述遥感图像特征提取模型进行预训练。

优选地，还包括特征变换结果约束单元，用于对所述遥感图像进行拉普拉斯变换，并通过多层感知机学习特征的空间结构、通过自注意力捕获长距离纹理特征，得到拉普拉斯优化图像，以及利用所述拉普拉斯优化图像约束特征变换结果的优化方向。

优选地，所述预训练模块对所述遥感图像特征提取模型进行预训练时，采用的损失函数为所述拉普拉斯优化图像和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于特征变换的遥感图像特征提取模型预训练方法及装置，主要针对遥感图像预训练任务中模型易受噪声干扰，从而导致精细化特征理解能力不足的问题，提出一种高效的创新的解决方案，即具体设计了一种高效的基于特征变换的遥感图像特征提取模型预训练方法及装置。

本发明根据遥感图像在频域特征和纹理特征空间表示上的差异性质，利用自适应卷积优化遥感图像中潜在目标区域的特征信息，帮助模型更好地捕捉到关于潜在目标区域的上下文特征信息，进而帮助模型更准确地理解图像内容。

本发明可为遥感图像目标检测领域提供更为可靠和高效的解决方案，以及为未来的遥感应用领域提供了强大的支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明特征变换流程示意图。

图2为基于特征变换的遥感图像特征提取模型预训练示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种高效的基于特征变换的遥感图像特征提取模型预训练方法及装置，旨在通过设计一种高效的基于特征变换的遥感图像特征提取模型预训练模型，利用自适应卷积计算的机制优化遥感图像在频域特征和纹理特征表达上中的潜在目标区域的特征信息，帮助模型更好地捕捉到关于潜在目标区域的上下文特征信息，进而帮助模型更准确地理解图像内容。

本实施例公开的预训练方法，包括：

其中，变换流程如图1所示，本发明利用快速傅里叶变换映射至频域，并利用逆傅里叶变换还原至时域。具体为通过快速傅里叶变换将输入的时域遥感图像映射到频域空间，而后分解为相位向量和振幅向量的频域特征表示，振幅向量经过卷积模块和通道注意力模块的特征优化后，与相位向量结合经过逆傅里叶变换还原为时域遥感图像后输出。

本发明中通道注意力模块采用多层感知机，以可学习的方式动态高效的提取特征信息。

具体计算过程包括：

定义输入遥感图像为，其中C表示通道信息，H*W表示特征图的形状，输入遥感图像Img经过快速傅里叶变换获得相位向量和振幅向量，该计算过程可形式化地表示为：

FFT表示快速傅里叶变换过程，P,A分别表示经过快速傅里叶变换获得的相位向量和振幅向量。而后，振幅向量A将经过卷积算子进行特征提取后以获得多个特征图，其中H_i×W_i表示特征图的尺寸，C_i表示特征图的通道数，i表示经过了i层的卷积提取。进一步的，通过多层感知机优化特征，该计算过程可形式化地表示为：

其中，MLP为多层感知机，本发明利用多层感知机MLP强大的非线性建模能力学习振幅向量的特征和结构，进而使得特征图中得显著频域特征信息有效得表达。且MLP的隐藏层可以学习到局部特征，有助于在振幅向量中捕捉特征图的局部性质。它通过赋予每个通道动态的权重信息交互运输，以在学习过程中获取捕获高价值的通道信息。F_i-mlp为经过多层感知机后输出的特征图，即优化后的振幅向量，F_i-mlp与原始振幅向量A具有相同的形状。

进一步的，优化后的振幅向量F_i-mlp将与相位向量P进行组合，经过逆傅里叶变换还原为时域遥感图像，该计算过程可形式化地表示为：

其中,iFFT表示逆傅里叶变换过程。F_i-ifft为经逆傅里叶变换获得的时域遥感图像，即经过频域变换分支获得的优化图像，即特征变换结果。至此，频域变换分支计算完成。

作为一种示例性的实施方式，优化后的振幅向量F_i-mlp将与相位向量P进行组合时，考虑振幅向量自身特征，即优化去噪后的振幅向量F_i-mlp与优化前的振幅向量进行相加后与相位向量P进行组合。

目的在于：

1.丰富的信息表示：叠加振幅向量可以增强模型对图像中各种细节和结构的表示能力。

2.上下文信息：叠加振幅向量可以帮助模型捕捉到图像中不同区域之间的关联，有助于提供更全面的上下文信息。

作为一种示例性的实施方式，本发明的核心还在于核心在于设计两种变换分支帮助模型更好得理解图像内容，进而获得更好得精度。包括对所述遥感图像进行拉普拉斯变换，并通过多层感知机和自注意力进行优化，以及利用优化结果约束特征变换结果的优化方向。其中，拉普拉斯变换用于锐化输入图像，捕捉图像中的纹理和细节信息，并将其表示为不同的频率成分，以及帮助输入遥感图像中的纹理及边缘特征显著表达，利用拉普拉斯变换的低频部分进行图像的重构，有助于保留图像的主要结构，同时去除一些高频噪声；

而后经过多层感知机，进行非线性学习，以便于更好的学习纹理特征的空间结构，MLP可以学习到更复杂的图像特征，有助于捕捉更高级别的纹理信息。通过MLP网络，可以将低层次的拉普拉斯变换输出与更高层次的抽象特征相结合，形成更为丰富和复杂的图像表示。

自注意力机制用于捕获长距离纹理特征，以及在整个图像上建立全局关联。自注意力可以帮助模型更好地理解图像中各个区域之间的关系。结合自注意力机制，以便模型能够同时关注图像中的全局结构和局部纹理，从而更好地优化纹理效果。

本申请中，图像的纹理特征将被显著性的表达以便对特征变换结果约束学习，进而更准确的理解图像内容。在预训练任务中，从而使模型能够有效的学习和感知基础纹理特征（边缘，纹理，对比度，细节变换等），这对于目标检测及实例分割等下游任务及其重要。

具体地，输入遥感图像Img经过拉普拉斯变换，其计算过程可形式化地表示为：

其中，LPLS表示拉普拉斯变换算子，LImg表示经过拉普拉斯变换后得到的纹理特征图像。经过拉普拉斯变换，图像中的纹理及边缘特征初步的表达，但仍然包含一些噪声信息，无法作为有效的特征学习样本。进一步的，多层感知机被引入作为特征变换的核心算子，LImg经过多层感知机模块以便于更好的学习纹理特征的空间结构，其计算过程可形式化地表示为：

其中，MLP表示多层感知机。F_LImg-mlp表示经过多层感知机后得到的特征图。进一步的，自注意力机制用于捕获长距离纹理特征，其计算过程可形式化地表示为：

其中，SA表示自注意力机制，Q表示查询矩阵，K表示键值，V表示价值矩阵，三者由输入特征经过线性映射获得，通过建立长距离以来以获得全局特征。F_LImg-SA表示经过自注意力机制提取后的特征图，即经过纹理变换分支获得的优化图像。

进一步，在训练过程中，为了引导模型更好的学习纹理特征以及频域特征，构建额外的损失约束纹理变换分支和频域变换分支的优化方向，其该计算过程可形式化地表示为：

其中，F_LImg-SA,F_i-ifft分别表示纹理变换优化图像和频域变换优化图像，MSE表示均方误差损失函数，用于计算两张图像在像素空间的差异，Loss1表示约束损失函数。

作为一种示例性的实施方式，定义遥感图像特征提取模型输出的遥感图像为imgs_Re；在对模型进行遥感图像自监督任务的预训练任务时，采用的损失函数为所述优化结果和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和；即

示例性的，根据遥感图像数据规模训练800-1200个轮次后停止。

作为一种示例性的实施方式，在预训练完基于特征变换的遥感图像特征提取模型后，将其作为特征提网络在遥感图像目标检测任务以及实例分割任务上进行微调，以适应下游任务。本发明采用焦点损失（Focal Loss），旋转框交并比损失（Rotated IoU）以及交叉熵损失（CrossEntropyLoss）对网络进行遥感图像目标检测任务以及实例分割任务的训练，形式化地表示为：

其中，y表示目标真值标签，表示模型预测结果。Loss_obj和Loss_ins分别表示目标检测任务和实例分割任务训练所采用的总损失，FocaILoss表示焦点损失，用于遥感图像目标检测任务的分类预测分支；RotatedIoULoss表示旋转框IoU损失函数，用于计算预测框与输入的遥感图像对应的目标真值标签的距离；CrossEntropy表示交叉熵损失。

待网络训练至损失不再下降，则表示网络训练达到稳定，训练过程结束，得到训练完毕的基于特征变换的遥感图像目标检测模型。

进一步的，使用训练完毕的目标检测模型和实例分割模型，对待测试的遥感图像进行测试，形式化地表示为：

其中，Dobj-Detector表示训练完毕的基于特征变换的遥感图像特征提取模型作为特征提取网络的目标检测模型，Dins-Detector表示训练完毕的基于特征变换的遥感图像特征提取模型作为特征提取网络的实例分割模型，x_Test和分别表示待测试的遥感图像与其对应的预测结果。

另一种实施例中，本申请提供了一种基于特征变换的遥感图像特征提取模型预训练装置，包括遥感图像特征提取模型、特征变换模块，和预训练模块；

作为一种示例性的实施方式，如图2所示；遥感图像特征提取模型由掩码模块，Transformer编码器，Transformer解码器，特征变换模块以及重建模块构成，该模型基于掩码自编码器MAE构建，以实现自监督特征提取任务。

首先，输入遥感图像通过数据加载器输入到模型中，数据加载器的计算过程表示为：

其中，表示尺寸为H*W,通道数为3的输入遥感图像；f_dataloder为数据加载器函数，用于加载数据和数据增强；

然后由掩码模块负责对输入图像data进行随机掩码以获得data_Mask，然后将掩码后的遥感图像图像建模为可输入Transformer编码器的词向量，其中C_i表示通道信息，N_i为第i个形状为1*1的词向量。相对位置编码将会被计算其中，以确定每个词向量的相对位置，便于Transformer后续解码器的计算。

进一步的，Transformer编码器采用自注意机制对词向量进行计算以捕获潜在目标区域的上下文特征关系，该计算过程可形式化地表示为：

其中，F_trans表示Transformer编码器得到的特征图，Transforfer_encoder表示Transformer编码器模块，其内部包括位置编码，特征嵌入，以及自注意力机制。进一步的，被掩码的像素部分数据被建模为相同形状的词向量，然后与F_trans相加以获得完整的特征图，该计算过程可形式化地表示为：

进一步的，F_All被输入Transformer解码器以获得对的预测。

其中，Transforfer_encoder代表Transformer解码器，该模型通过自注意力机制将输入向量映射为给定输出的词向量概率，以获得对每个序列内容的预测。F_out为经过Transformer解码器后得到的输出序列，该序列将按照相对位置编码重建为遥感图像imgs_Re。

作为一种示例性的实施方式，特征变换模块，用于对遥感图像进行特征变换，包括：

频域转换单元，用于将遥感图像映射至频域，并分解为相位向量和振幅向量，示例性的，本发明将其配置为快速傅里叶变换模块；

振幅向量去噪单元，包括卷积层和多层感知机层，用于对振幅向量进行去噪优化；示例性的包括卷积模块以及多层感知机模块；且多层感知机模块由C_i个输入神经元，C_i*10个隐含层神经元，3个输出神经元构成；

时域转换单元，用于将优化后的振幅向量与相位向量还原至时域，得到特征变换结果；示例性的，将其配置为逆傅里叶变换；

进一步，特征变换模块还包括特征变换结果约束单元，用于对所述遥感图像进行拉普拉斯变换，通过多层感知机和自注意力进行优化，以及利用优化结果约束特征变换结果的优化方向。

作为优选，本申请中预训练模块对所述遥感图像特征提取模型进行预训练时，采用的损失函数为所述优化结果和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和。

本发明利用本发明提出的基于特征变换的遥感图像特征提取模型预训练方法，能够有效的提升特征提取过程中遥感图像特征图的质量，帮助模型在预训练阶段更多的关注到显著目标信息，进而获取到更高质量的预训练权重，在下游任务上有更好的表现。

同时，本申请提出的基于基于特征变换的遥感图像特征提取模型预训练模型，根据特征图在频域特征和纹理特征表示上的差异性质，利用自适应卷积计算的机制优化遥感图像中潜在目标区域的特征信息，能够更好地捕捉到关于潜在目标区域的上下文特征信息，进而帮助模型更准确地理解图像内容。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于特征变换的遥感图像特征提取模型预训练方法，其特征在于，

对遥感图像进行特征变换，所述特征变换包括：

将遥感图像映射至频域，并分解为相位向量和振幅向量，提取所述振幅向量的卷积特征，捕获通道信息后与所述相位向量共同还原至时域，得到特征变换结果；

利用特征变换结果对遥感图像特征提取模型进行预训练；训练过程包括：

对所述遥感图像进行拉普拉斯变换，得到纹理特征图像，并通过多层感知机学习纹理特征的空间结构、通过自注意力捕获长距离纹理特征，得到拉普拉斯优化图像，以及使所述拉普拉斯优化图像和所述特征变换结果基于像素均方误差进行约束；

利用特征变换结果对遥感图像特征提取模型进行预训练时，采用的损失函数为所述拉普拉斯优化图像和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和。

2.根据权利要求1所述的预训练方法，其特征在于，还原至时域时叠加所述振幅向量本身。

3.根据权利要求1所述的预训练方法，其特征在于，利用快速傅里叶变换映射至频域，以及利用逆傅里叶变换还原至时域。

4.根据权利要求1所述的预训练方法，其特征在于，所述遥感图像特征提取模型按如下损失对目标检测任务进行训练；

以及按如下损失进行实例分割任务训练；

5.一种基于特征变换的遥感图像特征提取模型预训练装置，其特征在于，包括遥感图像特征提取模型、特征变换模块，和预训练模块；

所述特征变换模块，用于对遥感图像进行特征变换，包括：

特征变换结果约束单元，用于对所述遥感图像进行拉普拉斯变换，得到纹理特征图像，并通过多层感知机学习纹理特征的空间结构、通过自注意力捕获长距离纹理特征，得到拉普拉斯优化图像，以及使所述拉普拉斯优化图像和所述特征变换结果基于像素均方误差进行约束；

所述预训练模块，用于利用特征变换结果对所述遥感图像特征提取模型进行预训练；所述预训练模块对所述遥感图像特征提取模型进行预训练时，采用的损失函数为所述拉普拉斯优化图像和所述特征变换结果的像素均方误差与所述特征变换结果和遥感图像特征提取模型输出结果的像素均方误差之和。