CN113762277B

CN113762277B - 一种基于Cascade-GAN的多波段红外图像融合方法

Info

Publication number: CN113762277B
Application number: CN202111055699.8A
Authority: CN
Inventors: 彭玉怀; 王文茜; 郭钰; 王晨路; 吴菁晶
Original assignee: 东北大学
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2024-05-24
Anticipated expiration: 2041-09-09
Also published as: CN113762277A

Abstract

本发明涉及一种基于Cascade‑GAN的多波段红外图像融合方法，首先，通过将采集到的包括短波、中波、长波在内的针对同一场景的多波段红外图像沿通道进行连接，得到的三通道图像作为级联生成对抗网络模型Cascade‑GAN的训练数据集，利用训练好的去噪生成对抗网络模型DnGAN生成去噪图像，提高图像信噪比；然后将去噪后的图像输入融合生成对抗网络FuGAN，通过该融合网络的生成器G_Fu与其判别器D_Fu之间的对抗博弈进行高质量图像融合；级联网络通过建立总损失函数，利用FuGAN输出结果指导DnGAN的训练，通过提高FuGAN的输出质量来改善DnGAN的融合效果，从而获得高质量融合图像。本发明与传统融合方法相比，基于深度学习的融合方法具有更高的鲁棒性，并且具有较佳的融合效果，能够充分改善融合精度。

Description

一种基于Cascade-GAN的多波段红外图像融合方法

技术领域

本发明涉及图像融合技术领域，尤其涉及一种基于Cascade-GAN的多波段红外图像融合方法。

背景技术

红外传感器通过收集外界的红外辐射，利用辐射差产生红外图像可将目标与背景区分开，且具有能够日夜工作的特性，使红外传感器在目标识别、检测、视觉感知等领域应用广泛。然而，红外传感器虽具备大量适用于探测的优点，但也有其局限性，随着应用任务的复杂化和应用环境的扩展，以及红外隐身和干扰技术的进步，红外热成像系统在很多应用场景下存在对目标的探测识别能力较差、自动预警系统虚警率高以及动态范围不足等缺陷，因此如何通过改善红外图像质量以提高系统性能就显得格外重要。

图像融合方法能够利用目标在不同红外波段图像里固有的、较强的差异性和互补性，获取目标更多的有效信息，将其融合从而获得更为健壮和信息丰富的融合图像，以此有效的提高系统的效能。目前深度学习是解决高级视觉任务的重要手段，但针对图像融合的深度学习技术大多数都是围绕着可见光图像和红外图像的融合展开，而针对多波段红外图像的融合仍旧采用传统技术，例如多尺度变换、稀疏表示等方法。多尺度变换将源图像分解成不同尺度进行特征提取，并采用适当的融合策略对各个尺度特征进行融合，然后利用逆算子重建融合后的图像。基于稀疏低秩表示学习方法需要从大量高质量的自然图像中学习过完备字典，并对每个图像片段进行稀疏编码，根据给定的融合规则融合稀疏表示系数，最后利用学习到的过完备字典融合系数重建融合图像。以上两种传统方法均需要手动选择变换方法和制定融合规则，且过程非常复杂。

现有的传统融合方法针对不同源图像的融合采用相同的变换或表示，但是这对红外多波段的图像融合并不适用，因为不同波段的红外图像存在波长长短的区别，因此对同一场景可能存在不同的表现形式。此外，现有方法中融合规则大多采用人工设计的方式，且越来越复杂，实现难度和计算代价也在不断提高。

发明内容

针对上述问题，本发明的目的在于提供一种基于Cascade-GAN的多波段红外图像融合方法，利用目标在不同红外波段图像里固有的、较强的差异性和互补性，获取目标更多的有效信息。实现一个以生成对抗网络GAN作为基础网络的统一深度学习框架，进行红外多波段图像去噪与图像融合的联合处理，建立总损失函数，利用图像融合过程中的语义信息来指导图像去噪，并通过图像去噪提高输出的融合图像的质量，使最终得到的图像同时具备高信噪比和高信息熵两种特性，以保证后续利用图像进行的目标识别与目标检测等高级视觉任务的顺利进行。

本发明采用的技术方案如下：

本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法，包括以下步骤：

S1、数据集准备：通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像，并对图像进行加噪处理，其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下；将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接，作为训练数据集输入Cascade-GAN进行无监督学习；

S2、DnGAN网络设计：将原始图像与加噪后的图像输入DnGAN，DnGAN包括生成器G_Dn和判别器D_Dn两部分，二者存在对抗博弈的关系，生成器G_Dn不断生成更接近原始图像的去噪图像，而判别器D_Dn确定原始图像和生成的去噪图像之间的差异，最终的目标是建立一个去噪生成网络，使其能够生成与原始无噪图像无法区分的去噪图像；

S3、FuGAN网络设计：将去噪图像输入融合生成对抗网络FuGAN，同样是以生成对抗网络作为基础网络，通过生成器G_Fu与判别器D_Fu的对抗博弈实现高质量融合图像的输出；生成器G_Fu通过编码器提取图像特征，通过解码器重建输出单通道融合图像；判别器D_Fu对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别，输出对应的判别概率向量，作为反馈来驱动生成器G_Fu学习输入图像的数据分布进而进行融合，直到判别器D_Fu无法对生成器G_Fu输出的图像判别真伪；

S4、训练策略：首先，利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN，然后以端到端的方式训练两个网络的级联，同时在这过程确定FuGAN的权值；去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新。

进一步的，所述步骤S2中，生成器G_Dn主要由编码器和解码器两大部分组成，并引入上下采样对操作；通过编码器提取图像的特征，并对特征进行下采样操作，获得不同尺度的特征图，然后再在该尺度上进行一次特征提取操作，最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建；通过下采样和上采样操作对，实现特征图的缩放，实现卷积核感受野的变化，从而利用更多的上下文信息，以此提高去噪效果。

进一步的，所示编码器由4个CNN组成，4个CNN从上到下分别有3×3、1×1、3×3和1×1大小的128、32、32、128个核；为了缓解梯度的消失，弥补特征的损失，重用之前计算的特征，引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接；所示解码器同样为4层CNN，与编码器的结构相似，只是四个卷积层的内核数分别为256、64、64和256；所有卷积层的步数设为1；为了避免爆炸/消失的梯度和加速训练，应用批归一化；采用ReLU激活函数加快收敛速度，避免梯度稀疏；下采样采用max pooling，步长为2；上采样操作通过4×4核的反卷积来实现，目的是将feature map扩展到与之前尺度相同的空间大小。

进一步的，所述判别器D_Dn本质上是一个二分类器，在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数，从输入图像中提取特征映射，然后对其进行分类；所有卷积层的步幅设为2；设置最后一层利用tanh激活函数生成一个标量，该标量表示输入数据来源于原始图像而非G_Dn生成的假图像的概率。

进一步的，所述步骤S3中，生成器G_Fu主要由编码器和解码器两大部分组成；编码器由5个卷积层组成，并在第一层和第四层卷积层后引入注意力机制，聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，从而提高整个网络的效率；引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接，以此缓解梯度的消失，弥补特征的损失，重用之前计算的特征；判别器由4个卷积层和一个线性层组成；这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数，以及批处理归一化；在所有的卷积层中，将stride设置为2；最后一个线性层根据前四个卷积层提取的特征对输入进行判别，输出概率向量。

进一步的，所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分，两部分按顺序连接，中间特征映射首先输入CAM，然后将通道精细化特征映射作为SAM的输入；其中，为了在每个通道中聚集丰富的信息，CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息；其中overlapping-pooling的应用可以提升预测精度，减缓过拟合；经过压缩操作，可以得到三个通道向量；然后，这三个通道向量送入共享全连接层与一个隐藏层，再经由元素级求和操作和sigmoid函数激活三个通道向量，由此便可以获得通道关注向量；将其与输入特征映射相乘，便使得网络对刚兴趣通道区域有更多的关注。

进一步的，所述步骤S4具体包括：

分别设定损失函数用于指导两个网络的生成器和判别器的优化：

无噪声的环境下，指导FuGAN的生成器训练的损失函数由G_Fu与D_Fu之间的对抗损失和控制高频特征损失的感知损失/>以及控制低频特征损失的SSIM损失/>组成：

其中λ₁、λ₂是在训练中逐步修改的比率；

对抗损失的定义如下：

其中e为判定融合图像的概率标签；由于判别器D_Fu是一个多分类器，输出1×3概率向量，因此，D_Fu(·)[0]表示向量的第一项，即融合图像为短波红外图像的概率，同样，D_Fu(·)[1]、D_Fu(·)[2]表示向量的第二项和第三项，即融合图像为中波红外图像、长波红外图像的概率；由于生成器G_Fu期望判别器D_Fu不能区分融合图像和真实数据，所以e设为1；

感知损失：需要将源图像的高级特征与训练网络生成的融合图像的同级特征进行比较；选择目前现成的VGG-16网络模型的2，4，6，8层作为特征提取子网络；将三种波段的红外图像沿通道连接得到三通道图像F，作为参考图像输入，将相同的三幅单通道融合图像连接后作为融合结果输入I：

其中j表示VGG-16网络的第j层；C_jH_jW_j表示第j层通道的特征映射，大小为H_jW_j；φ_j(F)和φ_j(I))分别表示由VGG-16网络的第j层得到的输出特征映射，最终损耗用L2范数计算；通过感知损失项的约束，可以促使生成器G_Fu得到视觉效果良好的融合图像；

SSIM损失:约束融合图像的相关性损失、亮度失真和对比度失真，SSIM损失定义如下：

其中ω表示权重，ω₁+ω₂+ω₃＝1；

采用最小二乘生成对抗网络，该网络采用最小二乘损失函数作为判别器的损失函数，FuGAN的判别器D_Fu的损耗函数L_Df由三种红外源图像和融合图像的决策损耗四部分组成；用来表示这四种损耗：

考虑鉴别器输出的1×3个向量，我们有P_SWIR＝D_Fu(x)[0]、P_MWIR＝D_Fu(x)[1]、P_LWIR＝D_Fu(x)[2]；当输入是一个短波红外图像时，期望P_SWIR接近于1，P_MWIR和P_LWIR接近于0；相应的损失定义为:

其中N为图像中像素数量，a₁、a₂和a₃为概率标签，a₁设为1，a₂和a₃设为0，即输入短波红外图像时，判别器D_Fu判断其为短波红外图像的概率较大，而判为中波和长波红外图像的概率较小；

类似的，中波红外、长波红外图像的损失项定义为：

其中b₂设为1，b₁和b₃设为0；c₃设为1，c₁和c₂设为0；

最后，当输入图像为融合图像时，损失函数定义为：

其中d是判别器D_Fu判定融合图像的概率标签，设为0；同样，使三个概率标签d达到平衡，也就是说，从判别器D_Fu的角度来看，融合后的图像是相同程度的伪短波红外图像、伪中波红外图像和伪长波红外图像；

在级联网络的训练过程中，DnGAN的生成器G_Dn和FuGAN生成器G_Fu的损失函数由重构损失感知损失/>和指导无噪声环境下FuGAN生成器G_Fu的各损失项L_Gf共同构成：

重构损失为去噪网络输出与无噪图像之间的均方误差，定义如下：

其中x为输入的噪声图像，为无噪图像，G_Dn(x)为由DnGAN生成的去噪图像，i,j分别代表像素所在的行和列，H×W为图像大小；

感知损失的结构参考FuGAN相应的损失项；

FuGAN生成器的各损失项即G_Fu的损失函数L_Gf；

DnGAN的判别器D_Dn损失函数同样采用最小二乘损失函数：

其中N为图像中像素数量，a₁、a₂为概率标签，a₁设为1，a₂设为0，即输入去噪图像时，判别器D_Dn判断其为去噪图像的概率较大，而判为无噪的概率较小；

类似的，无噪图像的损失项定义为：

本发明与现有技术相比具有以下有益效果：

本发明图像去噪网络模块中尝试应用Gan网络的方法进行图像去噪；在特征提取过程中引入上下采样操作对，能够实现通过改变卷积核的感受野，获得不同尺度的信息，从而提高特征提取精度，进而获得更高质量的去噪图像；总损失函数的设计，将传统方法中图像间的均方误差与特征域的感知损失和融合网络的损失函数相结合，共同指导去噪网络的训练，能够利用更多的语义信息，全方面提高图像去噪效果；总的来说，深度学习在图像去噪中的应用能够避免传统方法在去噪过程中造成的平滑伪影的出现以及图像细节的丢失，从而获得更高质量的去噪图像；

图像融合模块中引入通道注意和空间注意模块，聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，过滤无关信息，从而提高整个网络的效率；引入密集块，能够缓解网络训练过程中梯度消失问题，加强特征传播，鼓励特征复用，极大的减少了参数量；利用VGG-16构建感知损失，减少高频特征损失；利用SSIM保证融合图像的亮度、对比度和结构等低级特征，并能够提高图像之间的空间结构相关性；图像融合模块的关键设计能够促使整个级联网络输出信息更为丰富，表现更为优越的融合图像；

本发明中整个级联网络模型的设计是一种端到端的模型，可以根据输入的源图像自动生成融合图像，而无需手工设计融合规则，与传统融合方法相比，基于深度学习的融合方法具有更高的鲁棒性，并且具有不错的融合效果，能够充分改善融合精度。

附图说明

图1为本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法的主模型示意图；

图2为生成器G_Dn编码器结构示意图；

图3为生成器G_Dn解码器结构示意图；

图4为判别器D_Dn结构示意图；

图5为生成器G_Fu结构示意图；

图6为注意力模块示意图；

图7为通道注意力模型示意图；

图8为空间注意力模型示意图；

图9为判别器D_Fu结构示意图；

图10为融合网络损失示意图；

图11为总损失示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

如图1所示，本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法，具体包括以下步骤：

S1、数据集准备：通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像，并对图像进行加噪处理，其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下。将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接，作为训练数据集输入Cascade-GAN进行无监督学习。

S2、DnGAN网络设计：将原始图像与加噪后的图像输入DnGAN，DnGAN包括生成器G_Dn和判别器D_Dn两部分，二者存在对抗博弈的关系，生成网络G_Dn不断生成更接近原始图像的去噪图像，而判别网络D_Dn试图确定原始图像和生成的去噪图像之间的差异，最终的目标是建立一个去噪生成网络，使其能够生成与原始无噪图像无法区分的去噪图像。

生成器G_Dn结构如图1所示，其主要由编码器和解码器两大部分组成，并引入上下采样对操作；通过编码器提取图像的特征，并对特征进行下采样操作，获得不同尺度的特征图，然后再在该尺度上进行一次特征提取操作，最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建。通过下采样和上采样操作对，实现特征图的缩放，实现卷积核感受野的变化，从而利用更多的上下文信息，以此提高去噪效果。

如图2所示，编码器由4个CNN组成，4个CNN从上到下分别有3×3，1×1，3×3，1×1大小的128、32、32、128个核；为了缓解梯度的消失，弥补特征的损失，重用之前计算的特征，引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接。解码器同样为4层CNN，并与编码器的结构相似，只是四个卷积层的内核数分别为256、64、64和256。每层设置如图3所示；所有卷积层的步数设为1；为了避免爆炸/消失的梯度和加速训练，应用批归一化；采用ReLU激活函数加快收敛速度，避免梯度稀疏。下采样采用max pooling，步长为2；上采样操作通过4×4核的反卷积来实现，目的是将feature map扩展到与之前尺度相同的空间大小；

判别器D_Dn与生成器G_Dn体系结构相比，设置为更简单，如图4所示；判别器D_Dn本质上是一个二分类器，在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数，从输入图像中提取特征映射，然后对其进行分类；所有卷积层的步幅设为2；设置最后一层利用tanh激活函数生成一个标量，该标量表示输入数据来源于原始图像而非G_Dn生成的假图像的概率。

S3、FuGAN网络设计：去噪图像输入融合生成对抗网络FuGAN，同样是以生成对抗网络作为基础网络，通过生成器G_Fu与判别器D_Fu的对抗博弈实现高质量融合图像的输出；生成器通过编码器提取图像特征，解码器重建输出单通道融合图像；判别器对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别，输出对应的判别概率向量，作为反馈来驱动生成器学习输入图像的数据分布进而进行融合，直到判别器无法对生成器输出的图像判别真伪；

生成器G_Fu由编码器和解码器两大部分组成，如图5所示，编码器由5个卷积层组成，并在第一层和第四层卷积层后引入注意力机制，聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，从而提高整个网络的效率；引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接，以此缓解梯度的消失，弥补特征的损失，重用之前计算的特征。

引入的注意力机制包括通道注意力模块CAM(Channel Attention Module)和空间注意力模块SAM(Spatial Attention Module)两部分；其结构如图6所示，两部分按顺序连接，中间特征映射首先输入CAM，然后将通道精细化特征映射作为SAM的输入；其中，为了在每个通道中聚集丰富的信息，CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息；如图7所示，其中overlapping-pooling的应用可以提升预测精度，减缓过拟合；经过压缩操作，可以得到三个通道向量；然后，这三个通道向量送入共享全连接层与一个隐藏层，再经由元素级求和操作和sigmoid函数激活三个通道向量，由此便可以获得通道关注向量；将其与输入特征映射相乘，便使得网络对刚兴趣通道区域有更多的关注；SAM的目的是为了获得更好的空间关注效果，其结构如图8所示，本模型仍使用max-pooling、overlapping-pooling和avg-pooling这三种池化操作来挤压输入特征映射的通道信息。然后，我们将这三个二维映射连接起来，输入到卷积层后，通过sigmoid函数激活，最终得到空间注意力二维图；同样，该二维图可以显示特征映射哪里需要突出哪里需要抑制。

判别器D_Fu结构如图9所示，FuGAN的判别器D_Fu本质上是一个多分类器，它可以估计将融合图像分别鉴定为三种波段红外源图像的概率；它的输出是一个1×3的概率向量；该判别器D_Fu由四个卷积层和一个线性层组成；这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数，以及批处理归一化；在所有的卷积层中，我们将stride设置为2；最后一个线性层根据前四个卷积层提取的特征对输入进行判别，输出概率向量。

S4、训练策略：首先，我们利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN，然后以端到端的方式训练两个网络的级联，同时在这过程确定FuGAN的权值；去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新；

如图10所示，无噪声的环境下，指导FuGAN的生成器训练的损失函数由G_Fu与D_Fu之间的对抗损失和控制高频特征损失的感知损失/>以及控制低频特征损失的SSIM损失/>组成：

其中λ₁、λ₂是在训练中逐步修改的比率；

对抗损失的定义如下：

其中ω表示权重，ω₁+ω₂+ω₃＝1；

在无监督图像融合任务中，SSIM损耗是最常用的损耗，因为在计算时可以综合考虑图像的亮度、对比度和结构特征，并考虑图像之间的空间结构相关性；这与人类视觉系统获取视觉区域结构信息的方式一致，可以感知图像的扭曲状态；

FuGAN的判别器是一种多分类器；常规的GAN的判别器采用sigmoid交叉熵损失函数，这种方法可能会导致在学习过程中出现梯度消失问题；为了克服该问题我们采用最小二乘生成对抗网络(LSGANs)，该网络采用最小二乘损失函数作为判别器的损失函数，FuGAN的判别器的损耗函数L_Df由三种红外源图像和融合图像的决策损耗四部分组成。我们用来表示这四种损耗：

类似的，中波红外、长波红外图像的损失项定义为：

其中b₂设为1，b₁和b₃设为0；c₃设为1，c₁和c₂设为0；

最后，当输入图像为融合图像时，损失函数定义为：

其中d是判别器D_Fu判定融合图像的概率标签，设为0；同样，我们也要使三个概率标签d达到平衡，也就是说，从判别器D_Fu的角度来看，融合后的图像是相同程度的伪短波红外图像、伪中波红外图像和伪长波红外图像；

如图11所示，在级联网络的训练过程中，DnGAN的生成器G_Dn和FuGAN生成器G_Fu的损失函数由重构损失感知损失/>和指导无噪声环境下FuGAN生成器G_Fu的各损失项L_Gf共同构成：

重构损失为去噪网络输出与无噪图像之间的均方误差(MSE)，定义如下：

其中x为输入的噪声图像，x～为无噪图像，G_Dn(x)为由DnGAN生成的去噪图像，i,j分别代表像素所在的行和列，H×W为图像大小；

感知损失的结构参考FuGAN相应的损失项；

FuGAN生成器的各损失项即G_Fu的损失函数L_Gf；

DnGAN的判别器D_Dn损失函数同样采用最小二乘损失函数：

类似的，无噪图像的损失项定义为：

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于Cascade-GAN的多波段红外图像融合方法，其特征在于，所述方法包括以下步骤：

S4、训练策略：首先，利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN，然后以端到端的方式训练两个网络的级联，同时在这过程确定FuGAN的权值；去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新；

所述步骤S2中，生成器G_Dn主要由编码器和解码器两大部分组成，并引入上下采样操作；通过编码器提取图像的特征，并对特征进行下采样操作，获得不同尺度的特征图，然后再在该尺度上进行一次特征提取操作，最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建；

所示编码器由4个CNN组成，4个CNN从上到下分别有3×3、1×1、3×3和1×1大小的128、32、32、128个核；为了缓解梯度的消失，弥补特征的损失，重用之前计算的特征，引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接；所示解码器同样为4层CNN，与编码器的结构相似，只是四个卷积层的内核数分别为256、64、64和256；所有卷积层的步数设为1；为了避免爆炸/消失的梯度和加速训练，应用批归一化；采用ReLU激活函数加快收敛速度，避免梯度稀疏；下采样采用max pooling，步长为2；上采样操作通过4×4核的反卷积来实现，目的是将特征图扩展到与之前尺度相同的空间大小；

所述判别器D_Dn本质上是一个二分类器，在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数，从输入图像中提取特征映射，然后对其进行分类；所有卷积层的步幅设为2；设置最后一层利用tanh激活函数生成一个标量，该标量表示输入数据来源于原始图像而非G_Dn生成的假图像的概率；

所述步骤S3中，生成器G_Fu主要由编码器和解码器两大部分组成；编码器由5个卷积层组成，并在第一层和第四层卷积层后引入注意力机制；引入DenseNet，并以前馈的方式在每一层和所有层之间建立短的直接连接，以此缓解梯度的消失，弥补特征的损失，重用之前计算的特征；判别器由4个卷积层和一个线性层组成；这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数，以及批处理归一化；在所有的卷积层中，将步长设置为2；最后一个线性层根据前四个卷积层提取的特征对输入进行判别，输出概率向量；

所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分，两部分按顺序连接，中间特征映射首先输入CAM，然后将通道精细化特征映射作为SAM的输入；其中，为了在每个通道中聚集丰富的信息，CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息；经过压缩操作，可以得到三个通道向量；然后，这三个通道向量送入共享全连接层与一个隐藏层，再经由元素级求和操作和sigmoid函数激活三个通道向量，由此便可以获得通道关注向量；将其与输入特征映射相乘，便使得网络对感兴趣通道区域有更多的关注；

所述步骤S4具体包括：

其中λ₁、λ₂是在训练中逐步修改的比率；

对抗损失的定义如下：

其中j表示VGG-16网络的第j层；C_jH_jW_j表示第j层通道的特征映射，大小为H_jW_j；φ_j(F)和φ_j(I))分别表示由VGG-16网络的第j层得到的输出特征映射，最终损耗用L2范数计算；

其中ω表示权重，ω₁+ω₂+ω₃＝1；

类似的，中波红外、长波红外图像的损失项定义为：

其中b₂设为1，b₁和b₃设为0；c₃设为1，c₁和c₂设为0；

最后，当输入图像为融合图像时，损失函数定义为：

感知损失的结构参考FuGAN相应的损失项；

FuGAN生成器的各损失项即G_Fu的损失函数L_Gf；

DnGAN的判别器D_Dn损失函数同样采用最小二乘损失函数：

类似的，无噪图像的损失项定义为：