CN117350923A

CN117350923A - 基于GAN和Transformer的全色与多光谱遥感图像融合方法

Info

Publication number: CN117350923A
Application number: CN202311331238.8A
Authority: CN
Inventors: 康家银; 姬云翔; 马寒雁; 张文娟; 秦秋玉; 孔石泉
Original assignee: Jiangsu Ocean University
Current assignee: Jiangsu Ocean University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-05

Abstract

本发明提出了基于GAN和Transformer的全色与多光谱遥感图像融合方法，解决纹理等细节信息丢失和光谱失真的问题。本方法采用特定的生成对抗网络结构，设计了并行的基础层和细节层支路，有效地提取图像的纹理和光谱特征。通过引导滤波器进行源图像分解。通过使用卷积神经网络和Transformer网络，该方法能够分别有效地提取图像的局部纹理和全局光谱特征。判别器部分则包含两个专门设计的子网络，分别对基础层和细节层进行判别。本方法满足遥感图像融合的高质量需求，以确保在融合过程中既保留了空间分辨率高的全色图像的纹理信息，又尽可能多地传递了光谱分辨率高的多光谱图像的光谱信息，为遥感图像分析提供了强大的工具。

Description

基于GAN和Transformer的全色与多光谱遥感图像融合方法

技术领域：

本发明属于遥感图像融合，特别是涉及基于GAN和Transformer的全色与多光谱遥感图像融合方法。

背景技术：

随着遥感技术的发展，卫星等远距离传感器采集到的大量遥感图像因其具有高效、覆盖范围广等优势，故而在地质勘探、环境检测、城市规划、农业管理、灾害评估等领域具有重要的应用价值。然而，由于采集设备的限制，同一传感器往往难以采集到针对不同波段具有相同分辨率的遥感图像。例如在获得具有更高光谱分辨率的遥感图像时，传感器需要采集较窄宽度的波段信息，但这会导致其接收的辐射量减少，对采集图像的空间分辨率造成限制。因此在实际应用中，同一传感器需要在采集图像的光谱分辨率与空间分辨率之间做出权衡，并针对不同任务的需求采集具有不同信息的图像，如具有丰富光谱信息的多光谱(Multi-Spectral)图像和具有清晰空间纹理信息的全色(Panchromatic)图像。而遥感图像融合可以从输入的关于同一场景的具有互补信息的图像中提取需要的信息，并尽可能地保留在生成的融合图像中。如将多光谱图像与全色图像进行融合，可以最终得到同时具有丰富光谱信息与清晰空间纹理信息的融合图像。

与本发明最接近的中国专利是CN201910681109.9。该方案公开了一种基于残差学习的多光谱遥感图像融合方法及装置，首先计算多光谱图像的插值图像、全色图像的梯度图像和差分图像，然后使用一个卷积神经网络模型进行训练。然而，该方法主要依赖残差学习来实现融合，它没有考虑到更高级的特征提取技术、多尺度融合或基于Transformer的全局信息提取技术。

中国专利是CN202110431506.8，它提出了一种基于自适应多尺度残差卷积的遥感图像融合方法。这个方法通过自适应匹配多光谱图像和全色图像，并利用一个多尺度的深层残差卷积神经网络进行图像融合。然而，尽管该方法可以更充分地提取图像的空间特征，但它并没有考虑到如基于引导滤波器的图像分解策略、双支路特征提取或高级的判别器结构。

现有的多光谱和全色图像融合技术，尽管已经在某些方面取得了良好的效果，但仍存在一些明显的局限性和问题。首先，传统的融合方法如IHS变换和PCA变换可能导致颜色失真或空间细节丢失。其次，尽管深度学习方法提供了更精确的融合效果，但它们往往需要大量的训练数据，且模型复杂度高，导致计算效率低下。此外，现有的技术还未能充分考虑到多光谱图像的光谱分辨率与全色图像的空间分辨率之间的差异，这可能会影响融合图像的质量。

鉴于上述问题，本申请的技术方案旨在解决以下主要技术问题：如何有效地提取多光谱图像的光谱信息与全色图像的空间信息；如何设计一个既能捕捉局部纹理细节又能保留光谱特征的融合网络；如何确保融合图像在光谱和空间上的质量都达到优化，同时保持计算效率。为此，本发明提出了一种新颖的融合方法，该方法结合了引导滤波器、卷积神经网络和Transformer网络，旨在满足上述技术需求，为遥感图像融合提供一个高效且高质量的解决方案。

发明内容：

本发明的目的是针对现有技术的缺陷，提供基于GAN和Transformer的全色与多光谱遥感图像融合方法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：基于GAN和Transformer的全色与多光谱遥感图像融合方法，本发明提出的算法不仅能充分地保留多光谱图像中的丰富光谱信息，还能有效地重现全色图像中的空间纹理等细节信息；其具体步骤为：

S1：使用引导滤波器将源图像进行分解，得到多光谱基础层、多光谱细节层、全色基础层和全色细节层，并针对全色图像与多光谱图像各自的特性分别采用不同的分解策略；

S2：将多光谱基础层与全色基础层在通道维度堆叠，得到输入基础层图像；将多光谱细节层与全色细节层在通道维度堆叠，得到输入细节层图像；

S3：对包含主要纹理信息的细节层图像，使用卷积神经网络实现纹理信息的特征提取；

S4：对含有部分纹理细节信息和较多光谱信息的基础层图像，使用Transformer网络进行特征提取，并将S3中提取的特征与此步提取的特征进行融合，然后基于融合的特征进行图像重建，从而得到融合后的具有丰富纹理信息与光谱信息的融合图像，以作为生成器的输出结果；

S5：将生成器输出的融合图进行引导滤波分解，得到融合图像的基础层图像与细节层图像，并将其基础层图像与经过平均值计算的源图像基础层、其细节层图像与经过最大值计算的源图像细节层分别输入到基础层判别器、细节层判别器中，从基础层信息、细节层信息两个层面对输入的融合图像与源图像进行判别；

S6：通过生成器与基础层判别器和细节层判别器不断地对抗与优化训练，直至基础层判别器与细节层判别器均无法辨别出生成器生成的融合图像，得到最终的融合结果。

作为本发明的一种技术优选方案，所述S1中采用不同的分解策略为：全色图像的空间分辨率较高，将其自身作为引导滤波器的引导图像；而多光谱图像由于其光谱分辨率高和光谱信息丰富但纹理特征模糊，对多光谱图像进行主成分分析，并将其主成分图像作为引导图像。

作为本发明的一种技术优选方案，所述S4中生成器的网络结构由以下部分组成：

S4-1：基础层支路：用于从基础层图像中提取光谱信息特征；

S4-2：细节层支路：用于从细节层图像中提取纹理等细节特征。

作为本发明的一种技术优选方案，所述S6中生成器的训练使用了一个损失函数，该损失函数由对抗损失、内容损失和光谱损失组成；

S6-1-1：对抗损失定义为生成器与基础层判别器及细节层判别器之间的对抗关系；

S6-1-2：内容损失包括强度损失、梯度损失和结构相似性损失，其中强度损失涉及融合图像的强度与源图像的强度之间的比较，梯度损失涉及融合图像的梯度与源图像梯度之间的比较，结构相似性损失涉及融合图像与源图像之间的结构相似性；

S6-1-3：光谱损失涉及多光谱图像与融合图像之间的光谱相似性；

S6-1-4：损失函数的计算公式为：L_G＝L_adv+λ₁L_content+λ₂L_spectrum

其中，L_G表示生成器G的总损失，L_adv表示生成器G与基础层判别器D_base、细节层判别器D_detail之间的对抗损失，L_content表示融合图像的内容损失，L_spectrum表示光谱损失，λ₁，λ₂分别为调节内容损失和光谱损失所占比重的权系数。

作为本发明的一种技术优选方案，所述S6中判别器的训练使用了一个损失函数，该损失函数由基础层判别器损失和细节层判别器损失两部分组成，其计算公式为：

S6-2-1：基础层判别器的损失为：

其中，D_base表示基础层判别器，D_base(·)表示基础层判别器对输入图像真假的判断值；I_base-mean表示多光谱图像基础层与全色图像基础层的进行平均值处理得到的图像，为融合图像的基础层；E(·)代表求数学期望值；

S6-2-2：细节层判别器损失为：

其中，D_detail表示细节层判别器，D_detail(·)表示细节层判别器对输入图像真假的判断值；I_detail-max表示多光谱图像细节层与全色图像细节层的进行最大值处理得到的图像，为融合图像的细节层；E(·)代表求数学期望值。

作为本发明的一种技术优选方案，所述S4-1中的基础层支路由两个Conv Block和三个Transformer Block组成；

S4-1-1：第一个Conv Block用于初步提取浅层信息，其输入为包括4个多光谱通道与1个全色通道的基础层图像，卷积核大小设置为3×3，步长为1，卷积核个数为96；

S4-1-2：得到的特征图被输入到三个结构相同的Transformer Block中，且在多个Transformer Block之间采用残差连接；

S4-1-3：每个Transformer Block由两个相同的Swin Transformer Layer组成，其中Swin Transformer Layer包含两个多层感知机MLP、一个基于窗口的多头自注意力机制W-MSA与一个基于移动窗口的多头自注意力机制SW-MSA，并在每个多头自注意力机制与每个多层感知机前添加一个层归一化LN，在每个模块后采用残差连接。

作为本发明的一种技术优选方案，所述S4-2中的细节层支路采用卷积神经网络进行细节层图像中的清晰纹理信息的特征提取，每个卷积层之间采用跳跃连接，每个卷积块都包含批处理归一化并采用ReLU函数作为激活函数；细节层支路与基础层支路的输出特征图大小相同，两个支路的输出特征图进行相加并送入卷积核大小为3×3、步长为1、卷积核个数为4的图像重建层，采用Tanh激活函数，得到生成器的最终输出融合图像。

作为本发明的一种技术优选方案，所述S4-1-2中Transformer Block的网络结构包括以下特征：

S4-1-2-1：每个Transformer Block的输入为形状固定的128×128×96的特征图，特征图首先被8×8的局部窗口分割成256个8×8×96的特征图，然后对每个窗口特征图F_window分别做多头自注意力计算；通过自注意力机制计算得到局部窗口的注意力矩阵；接着将多头自注意力输出的注意力矩阵送入层归一化中，然后送入到多层感知机中进行位置编码与特征映射的非线性变换，最终得到具有全局特征的特征图；

S4-1-2-2：多头自注意力计算的计算过程中的查询特征矩阵Q、键特征矩阵K和值特征矩阵V分别表示为：

Q＝F_window·M_Q

K＝F_window·M_K

V＝F_window·M_V

其中M_Q、M_K、M_V为投影矩阵；

S4-1-2-3：通过自注意力机制计算得到局部窗口的注意力矩阵，其计算过程表示为：

其中S(·)表示归一化指数函数；d表示维度；p表示可学习的相对位置编码。

作为本发明的一种技术优选方案，所述S5的基础层判别器和细节层判别器组成判别器，判别器由以下部分组成：

S5-1：基础层判别器和细节层判别器两者的网络结构相同，每个判别器包含五个卷积层；

S5-2：五个卷积层中每个卷积层的核大小为3×3，输入通道数依次为4、16、32、64、128，步长均为2，五个卷积层之后连接一个全连接层并采用Tanh激活函数；

S5-3：基础层判别器的输入是源多光谱图像基础层与源全色图像基础层经平均值化处理后的基础层图像和融合图像的基础层；

S5-4：细节层判别器的输入是源多光谱图像细节层与源全色图像细节层经最大值化处理后的细节层图像和融合图像的细节层。

作为本发明的一种技术优选方案，所述S6-1-4中对抗损失L_adv的具体计算公式为：

其中，表示基础层判别器，D_detail表示细节层判别器；/>表示生成器生成的融合图像I_F的基础层图像，/>表示I_F的细节层图像；a为平衡D_base与D_detail的权重系数；

所述S6-1-4中内容损失L_content的具体计算公式为：

L_content＝αL_int+βL_grad+γL_SSIM

其中，L_int为强度损失，L_grad为梯度损失，L_SSIM为结构相似性损失，α、β、γ为平衡三者的权重系数，L_int的定义如下：

其中，H、W表示输入图像的高和宽，ω为权重系数，L_int-base表示融合图像基础层与全色图像基础层/>多光谱图像基础层/>之间的基础层强度损失，L_int-detail表示融合图像细节层/>与全色图像细节层/>多光谱图像细节层/>之间的细节层强度损失，具体定义为：

其中，b均为平衡两项的权重系数，||·||_F为F范数，内容损失L_content的第二项梯度损失L_grad的具体定义为：

其中，L_grad-base表示融合图像基础层与全色图像基础层/>多光谱图像基础层/>之间的基础层梯度损失，L_grad-detail表示融合图像细节层/>与全色图像细节层多光谱图像细节层/>之间的细节层梯度损失，具体定义为：

其中，内容损失L_content的第三项结构相似性损失L_SSIM的具体定义为：

L_SSIM＝ωL_SSIM-base+(1-ω)L_SSIM-detail

其中，L_SSIM-base表示融合图像基础层与全色图像基础层/>多光谱图像基础层/>之间的基础层结构相似性损失，L_SSIM-detail表示融合图像细节层/>与全色图像细节层/>多光谱图像细节层/>之间的细节层结构相似性损失，具体定义为：

其中，L_SSIM(·)表示两项的结构相似性；

所述S6-1-4中光谱损失L_spectrum的具体计算公式为：

L_spectrum＝L_{spectrum-base}+L_{spectrum-detail}

其中L_{spectrum-base}表示多光谱图像基础层与融合图像基础层之间的基础层光谱损失，L_{spectrum-detail}表示多光谱图像细节层与融合图像细节层之间的细节层光谱损失，具体定义为：

其中，I均为全1矩阵；<·>为两项内积；||·||₂为2范数。

与相关的现有技术相比，本申请提案有以下主要技术优点：

1)高效的图像分解与重构：通过采用引导滤波器，本发明能够有效地将源图像进行分解，获得多光谱基础层、多光谱细节层以及全色基础层和全色细节层。这种分解策略能够充分考虑到全色图像的高空间分辨率和多光谱图像的光谱特性，从而为后续的特征提取和融合提供了更为合理的数据表示。

2)深度特征提取与融合：本发明采用了卷积神经网络与Transformer网络，确保了在细节层的纹理特征提取和基础层的全局信息提取都达到优化。双支路的特征提取策略能够更好地捕捉图像的空间与光谱信息，从而获得更为丰富的融合图。

3)增强的判别能力：通过设计基础层判别器和细节层判别器，本发明能够从不同层面对融合图像与源图像进行判别，从而确保生成的融合图像在光谱与空间上都具有较高的保真性。

4)细致的损失函数设计：本发明综合考虑对抗损失、内容损失和光谱损失，确保在训练过程中能够充分优化融合图像的质量，同时满足光谱和空间上的细节保持。

5)高质量的融合结果：与现有的技术相比，本发明能够生成具有更高光谱和空间质量的融合图像，满足遥感图像融合的高质量需求。

本发明提出了基于GAN和Transformer的全色与多光谱遥感图像融合方法。所提方法是一种由一个生成器与两个判别器组成的“端对端”的网络模型。利用公开的全色和多光谱遥感图像数据集进行实验，实验结果表明，相较于现有方法，本发明算法得到的融合结果的纹理信息更丰富，主观视觉效果更好；此外，客观评价的结果表明本发明算法在信息熵、光谱角、光谱失真指数以及峰值信噪比四个指标上分别优于对比方法的平均值约为6.82％、1.51％、27.76％和26.07％，进而说明了本发明所提方法在有效地保留多光谱图像光谱信息的同时，能够更好地融合全色图像的空间纹理信息，从而提升了现有多光谱与全色遥感图像融合算法的性能。

附图说明：

图1是本发明的方法流程图；

图2是本发明所提方法的整体融合框架；

图3是本发明提供的生成器网络结构图；

(a)生成器基础层网络结构；(b)生成器细节层网络结构；

图4是本发明提供的判别器网络结构。

具体实施方式：

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易被本领域人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

针对目前基于Transformer网络的全色与多光谱遥感图像融合问题，考虑到具有清晰的空间纹理信息的全色图像和具有丰富光谱信息的多光谱图像的不同特性，如何在网络中将Transformer较好的全局信息提取能力与CNN较好的局部信息提取能力进行有效结合以实现更好的融合效果仍是一个有待解决的问题。基于以上分析，为了进一步地提高全色和多光谱遥感图像融合的效果，本发明提出了一种新的无监督式的基于双支路生成对抗网络和Transformer的全色和多光谱遥感图像融合方法。所提出的网络模型采用单生成器-双判别器的结构，从源图像的基础层与细节层两个层面进行特征提取与整合。首先，生成器采用双支路结构，不同支路提取不同层面的特征，再由融合层根据融合特征重构出融合图像。其次，本发明采用对源图像进行引导滤波分解处理，以突出源图像基础层与细节层各自的独特信息。最后，为了进一步约束生成器与两个判别器针对不同图像的不同特性，从内容损失、对抗损失以及光谱损失三个角度设计了损失函数。

实施例1：基于GAN和Transformer的全色与多光谱遥感图像融合方法，该方法包括以下步骤：

采用不同的分解策略为：全色图像的空间分辨率较高，将其自身作为引导滤波器的引导图像；而多光谱图像由于其光谱分辨率高和光谱信息丰富但纹理特征模糊，对多光谱图像进行主成分分析，并将其主成分图像作为引导图像。

生成器的网络结构由以下部分组成：

S4-1：基础层支路：用于从基础层图像中提取光谱信息特征；

基础层支路由两个Conv Block和三个Transformer Block组成；

Transformer Block的网络结构包括以下特征：

Q＝F_window·M_Q

K＝F_window·M_K

V＝F_window·M_V

其中M_Q、M_K、M_V为投影矩阵；

细节层支路采用卷积神经网络进行细节层图像中的清晰纹理信息的特征提取，每个卷积层之间采用跳跃连接，每个卷积块都包含批处理归一化并采用ReLU函数作为激活函数；细节层支路与基础层支路的输出特征图大小相同，两个支路的输出特征图进行相加并送入卷积核大小为3×3、步长为1、卷积核个数为4的图像重建层，采用Tanh激活函数，得到生成器的最终输出融合图像。

基础层判别器和细节层判别器组成判别器，判别器由以下部分组成：

S6：通过生成器与基础层判别器和细节层判别器不断地对抗与优化训练，直至基础层判别器与细节层判别器均无法辨别出生成器生成的融合图像，得到最终的融合结果；

生成器的训练使用了一个损失函数，该损失函数由对抗损失、内容损失和光谱损失组成；

其中，L_G表示生成器G的总损失，L_adv表示生成器G与基础层判别器D_base、细节层判别器D_detail之间的对抗损失，L_content表示融合图像的内容损失，L_spectrum表示光谱损失，λ₁，λ₂分别为调节内容损失和光谱损失所占比重的权系数；

对抗损失L_adv的具体计算公式为：

其中，D_base表示基础层判别器，D_detail表示细节层判别器；表示生成器生成的融合图像I_F的基础层图像，/>表示I_F的细节层图像；a为平衡D_base与D_detail的权重系数；

内容损失L_content的具体计算公式为：

L_content＝αL_int+βL_grad+γL_SSIM

L_SSIM＝ωL_SSIM-base+(1-ω)L_SSIM-detail

其中，L_SSIM(·)表示两项的结构相似性；

光谱损失L_spectrum的具体计算公式为：

L_spectrum＝L_{spectrum-base}+L_{spectrum-detail}

其中L_{spectrum-base}表示多光谱图像基础层与融合图像基础层之间的基础层光谱损失，L_spectrum-_detail表示多光谱图像细节层与融合图像细节层之间的细节层光谱损失，具体定义为：

其中，I均为全1矩阵；<·>为两项内积；||·||₂为2范数。

判别器的训练使用了一个损失函数，该损失函数由基础层判别器损失和细节层判别器损失两部分组成，其计算公式为：

S6-2-1：基础层判别器的损失为：

S6-2-2：细节层判别器损失为：

其中，D_detail表示细节层判别器，D_detail(·)表示细节层判别器对输入图像真假的判断值；I_detail-max表示多光谱图像细节层与全色图像细节层的进行最大值处理得到的图像，为融合图像的细节层；E(·)代表求数学期望值；

实施例2：按照图1所示，本发明的工作流程包括：

1)数据预处理：获取一组遥感图像数据，其中包括高光谱分辨率的多光谱图像(包含红、绿、蓝和近红外四个通道)和高空间分辨率的全色图像。将这两组图像根据其地理坐标进行配准，确保它们在空间上对齐。

2)图像分解：使用引导滤波器对源图像进行分解。得到多光谱基础层、多光谱细节层和全色基础层、全色细节层。在通道维度上堆叠多光谱基础层和全色基础层，得到输入基础层图像。同时，堆叠多光谱细节层和全色细节层，得到输入细节层图像。

3)特征提取：使用卷积神经网络对细节层图像进行特征提取，这一步是为了捕获清晰的纹理信息。使用具有强大全局信息提取能力的Transformer网络对基础层图像进行特征提取。将通过卷积神经网络和Transformer网络提取的特征融合，得到一个融合后的特征图。

4)图像合成：使用生成器网络，将融合后的特征图转换为融合图像。

5)判别器训练：利用源图像的基础层和细节层与生成器输出的融合图像的基础层和细节层，训练基础层判别器和细节层判别器。

6)生成器与判别器的对抗训练：利用生成器和判别器进行对抗训练，直到基础层判别器和细节层判别器都无法区分生成器生成的融合图像和真实的源图像。

7)结果评估：使用一组标准度量(例如，峰值信噪比、结构相似性指数等)评估生成的融合图像与源图像之间的质量。

实施例3：按照图2所示，在本实施例中，将根据给定的网络结构和参数，详细描述如何训练模型并最终使用它来进行全色与多光谱遥感图像的融合。参数与数据设置：

1)训练参数：学习率＝0.0001,批次大小＝32,优化器＝RMSprop。

2)数据集：假设本发明有一个包含全色图像和其对应的多光谱图像的数据集。这些图像应当已经经过地理校准，以确保它们在空间上对齐。

3)预处理：所有图像都被归一化到[0,1]范围。使用数据增强技术，如随机裁剪、旋转和翻转，增加数据的多样性。

4)模型初始化：初始化生成器网络和判别器网络的权重。可以使用预训练的模型或随机初始化。

5)对抗训练：对于每一批数据：使用生成器产生融合图像。使用判别器评估生成的融合图像与真实源图像之间的相似性。根据生成器和判别器的输出计算损失，包括对抗损失、内容损失和光谱损失。使用反向传播更新生成器和判别器的权重。重复上述步骤，直到模型收敛或达到预设的训练迭代次数。

6)模型评估与保存：使用验证数据集评估模型的性能。根据需要，保存模型的权重、结构和训练参数。

7)模型使用：加载已训练的模型。将全色图像和多光谱图像输入到模型中，得到融合图像。根据需要进行后处理，如色彩校正。

通过上述实施例，本发明提出的基于引导滤波、卷积神经网络和Transformer网络的遥感图像融合方法被充分展示和验证。这种方法充分利用了全色图像的高空间分辨率特性和多光谱图像的丰富光谱信息，实现了对这两种图像的有效融合。与现有技术相比，本发明的方法在保持高光谱质量的同时，显著提高了融合图像的空间清晰度。此外，通过采用双判别器结构，本方法进一步加强了对生成图像的基础层和细节层信息的判别能力，从而实现了更为准确和鲁棒的融合结果。整体而言，本发明为遥感图像融合提供了一个高效、可靠的解决方案，对于实际的遥感图像处理应用具有广泛的应用价值。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S1中采用不同的分解策略为：全色图像的空间分辨率较高，将其自身作为引导滤波器的引导图像；而多光谱图像由于其光谱分辨率高和光谱信息丰富但纹理特征模糊，对多光谱图像进行主成分分析，并将其主成分图像作为引导图像。

3.根据权利要求1所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S4中生成器的网络结构由以下部分组成：

S4-1：基础层支路：用于从基础层图像中提取光谱信息特征；

4.根据权利要求1所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S6中生成器的训练使用了一个损失函数，该损失函数由对抗损失、内容损失和光谱损失组成；

5.根据权利要求1所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S6中判别器的训练使用了一个损失函数，该损失函数由基础层判别器损失和细节层判别器损失两部分组成，其计算公式为：

S6-2-1：基础层判别器的损失为：/>

S6-2-2：细节层判别器损失为：/>

6.根据权利要求3所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S4-1中的基础层支路由两个Conv Block和三个Transformer Block组成；

7.根据权利要求3所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S4-2中的细节层支路采用卷积神经网络进行细节层图像中的清晰纹理信息的特征提取，每个卷积层之间采用跳跃连接，每个卷积块都包含批处理归一化并采用ReLU函数作为激活函数；细节层支路与基础层支路的输出特征图大小相同，两个支路的输出特征图进行相加并送入卷积核大小为3×3、步长为1、卷积核个数为4的图像重建层，采用Tanh激活函数，得到生成器的最终输出融合图像。

8.根据权利要求6所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S4-1-2中Transformer Block的网络结构包括以下特征：

Q＝F_window·M_Q

K＝F_window·M_K

V＝F_window·M_V

其中M_Q、M_K、M_V为投影矩阵；

9.根据权利要求1所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S5的基础层判别器和细节层判别器组成判别器，判别器由以下部分组成：

10.根据权利要求4所述的基于GAN和Transformer的全色与多光谱遥感图像融合方法，其特征在于，所述S6-1-4中对抗损失L_adv的具体计算公式为：

所述S6-1-4中内容损失L_content的具体计算公式为：

L_content＝αL_int+βL_grad+γL_SSIM

其中，L_grad-base表示融合图像基础层与全色图像基础层/>多光谱图像基础层之间的基础层梯度损失，L_grad-detail表示融合图像细节层/>与全色图像细节层/>多光谱图像细节层/>之间的细节层梯度损失，具体定义为：

L_SSIM＝ωL_SSIM-base+(1-ω)L_SSIM-detail

其中，L_SSIM-base表示融合图像基础层与全色图像基础层/>多光谱图像基础层之间的基础层结构相似性损失，L_SSIM-detail表示融合图像细节层/>与全色图像细节层多光谱图像细节层/>之间的细节层结构相似性损失，具体定义为：

其中，L_SSIM(·)表示两项的结构相似性；

所述S6-1-4中光谱损失L_spectrum的具体计算公式为：

L_spectrum＝L_{spectrum-base}+L_{spectrum-detail}

其中，I均为全1矩阵；<·>为两项内积；||·||₂为2范数。