CN117496360A

CN117496360A - 频域知识继承的遥感基础模型轻量化方法

Info

Publication number: CN117496360A
Application number: CN202410002033.3A
Authority: CN
Inventors: 付琨; 孙显; 王智睿; 赵良瑾; 成培瑞; 陈凯强
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-02-02

Abstract

本发明提供一种频域知识继承的遥感基础模型轻量化方法，涉及遥感图像处理领域，包括：构建轻量化遥感基础模型，模型包括图像块分割模块、编码器和多个解码器，编码器包括高低频特征融合模块，高低频特征融合模块包括高频特征提取分支、低频特征提取分支、第一残差块，多个解码器处理不同任务；将遥感图像输入轻量化遥感基础模型执行以下操作：通过图像块分割模块将遥感图像分割为不重叠的多个第一图像块并变换到频域，得到多个第二图像块；通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征；通过第一残差块将高频特征和低频特征进行融合，得到遥感图像的通用表征；将通用表征输入不同解码器进行不同任务预测。

Description

频域知识继承的遥感基础模型轻量化方法

技术领域

本发明涉及遥感图像处理技术领域，具体涉及遥感图像解译的不同任务，尤其涉及一种频域知识继承的遥感基础模型轻量化方法

背景技术

遥感基础模型在各种遥感图像解译的下游任务中均取得优异的性能，但遥感基础模型对计算资源的高需求限制了其在边缘设备上的应用。因此，需要设计轻量级的基础模型以支持在轨遥感图像解译，这意味着在轻量化设计的同时尽可能保持基础模型的高性能优势。

遥感图像通常尺度较大，同时包含小目标和大范围地物要素，不同的解译任务侧重于关注图像中不同的目标尺度，例如，场景分类任务涉及广泛的空间尺度，更关注全局泛化信息，而目标检测任务更关注飞机、舰船等小目标的局部细节信息，不同的目标尺度在频域呈现出差异，这种差异一定程度上影响了不同下游任务的解译精度，为了在多种下游任务上泛化，轻量化遥感基础模型需要兼顾不同任务对频域信息提取的差异。

发明内容

有鉴于此，本发明提供一种频域知识继承的遥感基础模型轻量化方法，包括：构建轻量化遥感基础模型，轻量化遥感基础模型包括图像块分割模块、编码器和多个解码器，编码器包括高低频特征融合模块，高低频特征融合模块包括高频特征提取分支、低频特征提取分支、第一残差块，多个解码器处理的任务类型不同；获取遥感图像，将遥感图像输入轻量化遥感基础模型执行以下操作：通过图像块分割模块将遥感图像分割为不重叠的多个第一图像块，将多个第一图像块变换到频域，得到多个第二图像块；通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征；通过第一残差块将高频特征和低频特征进行融合，得到遥感图像的通用表征；将通用表征输入不同的解码器，进行不同任务的预测。

根据本发明的实施例，编码器的主干网络采用Swin Transformer的结构，包括多个依次连接的特征提取模块，各个特征提取模块包括数量不等的高低频特征融合模块；通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征，将高频特征和低频特征进行融合，包括：通过每个特征提取模块中的前一个高低频特征融合模块提取第二图像块的高频特征和低频特征并融合，将得到的融合特征输入后一个高低频特征融合模块进行高频特征和低频特征的提取及融合；通过前一个特征提取模块提取高频特征和低频特征并融合，将得到的融合特征输入后一个特征提取模块进行高频特征和低频特征的提取及融合。

根据本发明的实施例，编码器还包括：图像块融合层，设置于相邻的特征提取模块之间；通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征，将高频特征和低频特征进行融合，还包括：通过图像块融合层对前一个特征提取模块得到的融合特征进行下采样，将下采样后的融合特征输入后一个特征提取模块进行高频特征和低频特征的提取及融合。

根据本发明的实施例，通过低频特征提取分支提取多个第二图像块的低频特征，包括：基于多头自注意力机制捕获多个第二图像块的低频信息，弱化高频信息，得到低频特征。

根据本发明的实施例，低频特征提取分支包括：第一归一化层、第一自注意力模块、第二自注意力模块、第二残差块、第二归一化层和多层感知机；通过低频特征提取分支提取多个第二图像块的低频特征，还包括：通过第一归一化层对多个第二图像块进行归一化；通过第一自注意力模块和第二自注意力模块对归一化后的多个第二图像块交替进行基于窗的自注意力运算和基于滑动窗口的自注意力运算，得到第一特征；通过第二残差块将输入的多个第二图像块和第一特征进行残差运算，得到第二特征；通过第二归一化层和多层感知机依次对第二特征进行归一化和多层感知，得到低频特征。

根据本发明的实施例，高频特征提取分支包括第一特征提取通道、第二特征提取通道和拼接模块；通过高频特征提取分支提取多个第二图像块的高频特征，包括：通过第一特征提取通道从多个第二图像块中提取高频信息；通过第二特征提取通道压缩多个第二图像块的感受野，得到第三特征；通过拼接模块对高频信息和第三特征进行拼接，得到高频特征。

根据本发明的实施例，第一特征提取通道包括依次连接的多个卷积层，第二特征提取通道包括依次连接的最大池化层和卷积层。

根据本发明的实施例，轻量化遥感基础模型还包括线性嵌入层，设置于图像块分割模块与编码器之间，方法还包括：通过线性嵌入层对多个第二图像块进行降维。

根据本发明的实施例，多个解码器包括分类器、检测头、分割头、变化检测头中的至少之一；将通用表征输入不同的解码器，进行不同任务的预测，包括：将通用表征输入分类器，对遥感图像进行图像分类；和/或，将通用表征输入检测头，对遥感图像进行图像目标检测；和/或，将通用表征输入分割头，对遥感图像进行图像语义分割；和/或，将通用表征输入变化检测头，对遥感图像进行图像变化检测。

根据本发明实施例提供的频域知识继承的遥感基础模型轻量化方法，至少能够实现以下技术效果：

首先将分割遥感图像得到的图像块变换到频域，然后采用双分支CNN-Transformer混合结构提取及融合遥感图像的高频特征和低频特征，得到遥感图像的通用表征，使得下游编码器能够根据通用表征实现不同的任务预测，从而兼顾了不同任务对频域信息提取的差异，提高遥感多任务解译的精度。

基于多头自注意力机制捕获多个第二图像块的低频信息，能够在非重叠的图像块之间进行信息交换，从而能够有效获取遥感图像的低频特征，进而提高遥感多任务解译的精度。

采用多通道提取高频特征，卷积层通过感受野内的局部卷积操作来覆盖更多的局部信息，最大池化层通过压缩感受野获取特征，再将两个通道获取的特征融合，从而能够有效获取遥感图像的高频特征，进而提高遥感多任务解译的精度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本发明实施例的频域知识继承的遥感基础模型轻量化方法流程图。

图2示意性示出了根据本发明实施例的轻量化遥感基础模型的结构图。

图3示意性示出了根据本发明实施例的低频特征提取分支的结构图。

图4示意性示出了根据本发明实施例的高频特征提取分支的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或可以互相通讯；可以是直接连接，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要理解的是，术语“纵向”、“长度”、“周向”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的子系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

贯穿附图，相同的元素由相同或相近的附图标记来表示。可能导致本发明的理解造成混淆时，将省略常规结构或构造。并且图中各部件的形状、尺寸、位置关系不反映真实大小、比例和实际位置关系。另外，在本发明中，不应将位于括号之间的任何参考符号构造成对本发明的限制。

类似地，为了精简本发明并帮助理解各个公开方面中的一个或多个，在上面对本发明示例性实施例的描述中，本发明的各个特征有时被一起分到单个实施例、图或者对其描述中。参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或者多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。

如图1所示，频域知识继承的遥感基础模型轻量化方法例如可以包括操作S101~操作S105。

在操作S101，构建轻量化遥感基础模型，轻量化遥感基础模型包括图像块分割模块、编码器和多个解码器，编码器包括高低频特征融合模块，高低频特征融合模块包括高频特征提取分支、低频特征提取分支、第一残差块，多个解码器处理的任务类型不同。

接下来，将获取的遥感图像输入轻量化遥感基础模型执行操作S102~操作S105。

在操作S102，通过图像块分割模块将遥感图像分割为不重叠的多个第一图像块，将多个第一图像块变换到频域，得到多个第二图像块。

在操作S103，通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征。

在操作S104，通过第一残差块将高频特征和低频特征进行融合，得到遥感图像的通用表征。

在操作S105，将通用表征输入不同的解码器，进行不同任务的预测。

下面结合图2-图4，对图1所示的频域知识继承的遥感基础模型轻量化方法进行详细描述。

如图2所示，编码器的主干网络采用Swin Transformer的结构，包括多个依次连接的特征提取模块，各个特征提取模块包括数量不等的高低频特征融合模块，高低频信息融合模块中的高频特征提取分支和低频特征提取分支分别提取遥感图像的高频特征和低频特征。输入的遥感图像经过编码器的特征提取，输出图像的通用表征。

通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征，将高频特征和低频特征进行融合，包括：

通过每个特征提取模块中的前一个高低频特征融合模块提取第二图像块的高频特征和低频特征并融合，将得到的融合特征输入后一个高低频特征融合模块进行高频特征和低频特征的提取及融合。

通过前一个特征提取模块提取高频特征和低频特征并融合，将得到的融合特征输入后一个特征提取模块进行高频特征和低频特征的提取及融合。

例如，编码器包括4个依次连接的特征提取模块，从输入端指向输出端，第一个特征提取模块可以包括1个高低频特征融合模块，第二个特征提取模块可以包括3个高低频特征融合模块，第三个特征提取模块可以包括6个高低频特征融合模块，第四个特征提取模块可以包括2个高低频特征融合模块。

在第一个特征提取模块中，通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征并融合，将得到的融合特征输入第二个特征提取模块中的第一个高低频特征融合模块进行高频特征和低频特征的提取及融合，将得到的融合特征输入第二个特征提取模块中的第二个高低频特征融合模块进行高频特征和低频特征的提取及融合，依此类推。

继续参阅图2，轻量化遥感基础模型还包括线性嵌入层，设置于图像块分割模块与编码器之间，方法还包括：通过线性嵌入层对多个第二图像块进行降维。

例如，遥感图像首先通过图像块分割模块（Patch Partition）将输入图像分割成不重叠的图像块，每个图像块例如可以为4x4大小，这些不重叠的图像块被叠加到一起作为线性嵌入层的输入，经过线性嵌入层降维输入编码器进行特征提取及融合。线性嵌入层降维的同时保留了图像块的局部线性特征，在降低遥感图像处理的计算量的同时保证了图像处理的精度。

继续参阅图2，编码器还包括：图像块融合层，设置于相邻的特征提取模块之间。

通过高频特征提取分支和低频特征提取分支分别提取多个第二图像块的高频特征和低频特征，将高频特征和所述低频特征进行融合，还包括：

通过图像块融合层对前一个特征提取模块得到的融合特征进行下采样，将下采样后的融合特征输入后一个特征提取模块进行高频特征和低频特征的提取及融合。

随着网络的加深，在不同阶段之间加入图像块融合层（Patch Merging）进行下采样。为了充分利用CNN和Transformer的特征以分别捕获低频信息和高频信息，融合后的特征可以送入下一个高低频信息融合模块或者图像块融合层。

进一步的，通过低频特征提取分支提取多个第二图像块的低频特征，包括：基于多头自注意力机制捕获多个第二图像块的低频信息，弱化高频信息，得到低频特征。

如图3所示，低频特征提取分支包括：第一归一化层、第一自注意力模块、第二自注意力模块、第二残差块、第二归一化层和多层感知机。

通过低频特征提取分支提取多个第二图像块的低频特征，还包括：通过第一归一化层对所述多个第二图像块进行归一化。

通过第一自注意力模块和第二自注意力模块对归一化后的多个第二图像块交替进行基于窗的自注意力运算和基于滑动窗口的自注意力运算，得到第一特征。

通过第二残差块将输入的多个第二图像块和第一特征进行残差运算，得到第二特征。

通过第二归一化层和多层感知机依次对第二特征进行归一化和多层感知，得到低频特征。

具体的，低频特征提取分支遵循Swin Transformer的主体结构，以获取全局特征。Transformer结构基于多头自注意力机制（MSA）在非重叠的图像块之间进行信息交换。多头自注意力机制作为一种低通滤波器，在建模全局依赖性方面表现出色，擅长捕获低频信息，但其针对特征图的空间平滑操作会弱化高频信号，生成以低频信息为主导的表征。因此，低频特征提取分支选用这种结构实现。

为了提取长距离依赖，输入特征首先经过第一归一化层（LN1），再输入到自注意力模块，该模块交替地使用基于窗的第一自注意力模块（W-MSA）和基于滑动窗口的第二自注意力模块（SW-MSA），并在其之后应用一个残差连接得到L ₁。L ₁再经过第二归一化层（LN2）和两层多层感知机（MLP），并通过残差连接获得低频分支的输出L：

其中，F表示输入的多个第二图像块。

进一步的，高频特征提取分支包括：第一特征提取通道、第二特征提取通道和拼接模块。

通过高频特征提取分支提取多个第二图像块的高频特征，包括：

通过第一特征提取通道从多个第二图像块中提取高频信息。

通过第二特征提取通道压缩多个第二图像块的感受野，得到第三特征。

通过拼接模块对高频信息和第三特征进行拼接，得到高频特征。

具体的，高频特征提取分支将输入特征进一步按通道划分为两部分，采用CNN用于提取细节特征。CNN通过感受野内的局部卷积操作来覆盖更多的局部信息，与MSA相反，卷积操作作为一种高频滤波器，能够有效提取图像的高频表示。

如图4所示，高频特征提取分支将输入特征进一步划分为两部分和，分别利用最大滤波器的尖锐敏感性和卷积操作的细节感知性，采用并行结构提取高频信息。F ₁相继通过1x1卷积层和3x3卷积层（第一特征提取通道）以提取高频信息，获得特征F ₁₁。F ₂通过最大池化层和1x1卷积层（第二特征提取通道）适当压缩感受野，获得特征F ₂₁。最后将F ₁₁和F ₂₁进行concat运算，得到为富含高频信息的完整高频特征H。

继续参阅图2，进一步的，多个解码器包括分类器（Classifier）、检测头（Detection Head）、分割头（Segmentation Head）、变化检测头（Change Detection Head）中的至少之一。

将通用表征输入不同的解码器，进行不同任务的预测，包括：

将通用表征输入所述分类器，对遥感图像进行图像分类。和/或，将通用表征输入检测头，对遥感图像进行图像目标检测。和/或，将通用表征输入分割头，对遥感图像进行图像语义分割。和/或，将通用表征输入变化检测头，对遥感图像进行图像变化检测。

也即，经过编码器得到的图像通用表征将会根据不同的任务输入到不同的解码器中，以输出对应的预测结果。

此外，对上述轻量化遥感基础模型的预训练过程可以采用基于掩码图像建模（MIM）的自监督方法，并融入了图像的高低频信息。具体可以如下：

获取训练集，训练集包括多个历史遥感图像。从训练集中的每幅遥感图像中随机选取50%的图像块，采用傅里叶变换将这些图像块变换到频域。

将选取的图像块进行分类，划分为高频块和低频块，并分别进行高通和低通滤波。

从图像块中随机选择像素并应用掩模操作。

采用自监督的方法执行预训练。

训练好的轻量化遥感基础模型能够部署在边缘设备，待处理的遥感图像可以从边缘设备输入进行图像处理。

综上所述，本发明实施例提供的频域知识继承的遥感基础模型轻量化方法。通过设计双分支CNN-Transformer混合结构，融合遥感图像的高频信息和低频信息，提高遥感多任务解译的精度。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本发明的各个实施例中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

Claims

1.一种频域知识继承的遥感基础模型轻量化方法，其特征在于，包括：

构建轻量化遥感基础模型，所述轻量化遥感基础模型包括图像块分割模块、编码器和多个解码器，所述编码器包括高低频特征融合模块，所述高低频特征融合模块包括高频特征提取分支、低频特征提取分支、第一残差块，多个解码器处理的任务类型不同；

获取遥感图像，将所述遥感图像输入所述轻量化遥感基础模型执行以下操作：

通过所述图像块分割模块将所述遥感图像分割为不重叠的多个第一图像块，将所述多个第一图像块变换到频域，得到多个第二图像块；

通过所述高频特征提取分支和所述低频特征提取分支分别提取所述多个第二图像块的高频特征和低频特征；

通过所述第一残差块将所述高频特征和所述低频特征进行融合，得到遥感图像的通用表征；

将所述通用表征输入不同的解码器，进行不同任务的预测。

2. 根据权利要求1所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述编码器的主干网络采用Swin Transformer的结构，包括多个依次连接的特征提取模块，各个特征提取模块包括数量不等的高低频特征融合模块；

所述通过所述高频特征提取分支和所述低频特征提取分支分别提取所述多个第二图像块的高频特征和低频特征，将所述高频特征和所述低频特征进行融合，包括：

通过每个特征提取模块中的前一个高低频特征融合模块提取所述第二图像块的高频特征和低频特征并融合，将得到的融合特征输入后一个高低频特征融合模块进行高频特征和低频特征的提取及融合；

3.根据权利要求2所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述编码器还包括：图像块融合层，设置于相邻的所述特征提取模块之间；

所述通过所述高频特征提取分支和所述低频特征提取分支分别提取所述多个第二图像块的高频特征和低频特征，将所述高频特征和所述低频特征进行融合，还包括：

4.根据权利要求1-3中任一项所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，通过所述低频特征提取分支提取所述多个第二图像块的低频特征，包括：

基于多头自注意力机制捕获所述多个第二图像块的低频信息，弱化高频信息，得到所述低频特征。

5.根据权利要求4所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述低频特征提取分支包括：第一归一化层、第一自注意力模块、第二自注意力模块、第二残差块、第二归一化层和多层感知机；

通过所述低频特征提取分支提取所述多个第二图像块的低频特征，还包括：

通过所述第一归一化层对所述多个第二图像块进行归一化；

通过所述第一自注意力模块和所述第二自注意力模块对归一化后的多个第二图像块交替进行基于窗的自注意力运算和基于滑动窗口的自注意力运算，得到第一特征；

通过所述第二残差块将输入的所述多个第二图像块和所述第一特征进行残差运算，得到第二特征；

通过所述第二归一化层和所述多层感知机依次对所述第二特征进行归一化和多层感知，得到所述低频特征。

6.根据权利要求1-3中任一项所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述高频特征提取分支包括第一特征提取通道、第二特征提取通道和拼接模块；

通过所述高频特征提取分支提取所述多个第二图像块的高频特征，包括：

通过所述第一特征提取通道从所述多个第二图像块中提取高频信息；

通过所述第二特征提取通道压缩所述多个第二图像块的感受野，得到第三特征；

通过所述拼接模块对所述高频信息和所述第三特征进行拼接，得到所述高频特征。

7.根据权利要求6所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述第一特征提取通道包括依次连接的多个卷积层，所述第二特征提取通道包括依次连接的最大池化层和卷积层。

8.根据权利要求1-3中任一项所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述轻量化遥感基础模型还包括线性嵌入层，设置于所述图像块分割模块与所述编码器之间，所述方法还包括：

通过所述线性嵌入层对所述多个第二图像块进行降维。

9.根据权利要求1-3中任一项所述的频域知识继承的遥感基础模型轻量化方法，其特征在于，所述多个解码器包括分类器、检测头、分割头、变化检测头中的至少之一；

所述将所述通用表征输入不同的解码器，进行不同任务的预测，包括：

将所述通用表征输入所述分类器，对所述遥感图像进行图像分类；

和/或，将所述通用表征输入所述检测头，对所述遥感图像进行图像目标检测；

和/或，将所述通用表征输入所述分割头，对所述遥感图像进行图像语义分割；

和/或，将所述通用表征输入所述变化检测头，对所述遥感图像进行图像变化检测。