CN118097360A

CN118097360A - 基于显著特征提取和残差连接的图像融合方法

Info

Publication number: CN118097360A
Application number: CN202410508284.9A
Authority: CN
Inventors: 翟翌; 宋宝平; 张越; 夏振阳
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-05-28
Anticipated expiration: 2044-04-26
Also published as: CN118097360B

Abstract

本发明公开了一种基于显著特征提取和残差连接的图像融合方法，涉及新一代信息技术领域。本发明包括以下步骤：S1、构建图像融合神经网络，包括融合图像生成网络和融合图像判别网络；S2、构建图像融合神经网络的损失，融合图像生成网络的损失包括像素损失、梯度损失、结构损失；融合图像判别网络的损失包括Discriminator_VIS鉴别器和Discriminator_IR鉴别器的损失；S3、在上述损失的引导下，训练融合图像生成网络；S4、将红外图像和可见光图像输入至S3得到的融合图像生成网络模型中，前向传播一次，输出融合结果。本申请所述融合方法能够有效提取显著特征，融合效果佳。

Description

基于显著特征提取和残差连接的图像融合方法

技术领域

本发明属于新一代信息技术领域，具体涉及一种基于显著特征提取和残差连接的图像融合方法。

背景技术

红外图像和可见光图像融合技术，已经成为图像融合领域研究和应用的热点。目前，红外图像和可见光图像的融合技术已在军事监控、目标识别、夜间车辆导航等多个领域得到广泛应用。

根据融合技术的原理，现有的图像融合方法主要分为两大类：一类是传统的图像融合方法，另一类则是基于深度学习的图像融合方法。目前，像基于自动编码器的图像融合方法、基于卷积神经网络的图像融合方法以及基于生成对抗网络的图像融合方法等这些现有的基于深度学习的图像融合方法也可取得较佳的融合效果。不过，这些基于深度学习的图像融合方法仍面临着一些挑战，比如这些现有的深度学习的图像融合方法不能很好地提取特征图中的显著特征，融合效果不理想。为此，本申请提供了一种基于显著特征提取和残差连接的图像融合方法。

发明内容

本发明为了弥补现有技术的不足，提供了一种基于显著特征提取和残差连接的图像融合方法。

本发明是通过如下技术方案实现的：

一种基于显著特征提取和残差连接的图像融合方法，包括如下步骤：

步骤S1、构建图像融合神经网络；所述图像融合神经网络包括融合图像生成网络以及与融合图像生成网络连接的融合图像判别网络；其中，融合图像生成网络用于获取初步融合图像，所述融合图像判别网络用于判别初步融合图像与原始可见光图像和原始红外图像之间的差异；

步骤S2、构建图像融合神经网络的损失；其中，图像融合神经网络的损失包括融合图像生成网络的损失以及融合图像判别网络的损失；所述融合图像生成网络的损失包括像素损失L_P、梯度损失L_G、结构损失L_{Score_SSIM}；所述融合图像判别网络的损失包括Discriminator _VIS鉴别器的损失和Discriminator_IR鉴别器的损失；

步骤S3、在融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导下，利用现有的KAIST数据集训练融合图像生成网络，得到融合图像生成网络模型；

步骤S4、将红外图像和可见光图像输入至步骤S3中得到的融合图像生成网络模型中，前向传播一次，融合图像生成网络模型输出的结果即为图像融合结果。

优选地，融合图像生成网络包括依次连接的通道拼接层、前期处理模块、第一个重点特征提取模块、第一个深层特征提取模块、第二个深层特征提取模块、第二个重点特征提取模块以及卷积块；其中，通道拼接层的通道维度为一维，通道拼接层用于在通道维度中将输入至融合图像生成网络的原始可见光图像和原始红外图像进行拼接，得到信息更加全面的双通道图像；前期处理模块用于对通道拼接层输出的双通道图像中的浅层特征进行提取，得到具有浅层特征的特征图；第一个重点特征提取模块用于对前期处理模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息；第一个深层特征提取模块用于对第一个重点特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个深层特征提取模块用于对第一个深层特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个重点特征提取模块用于对第二个深层特征提取模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息；卷积块用于对第二个重点特征提取模块输出的特征图降低维度，输出具有全局信息和重点信息的特征图。

优选地，本申请中卷积块包括一个卷积核大小为1×1的卷积层以及与其连接的Tanh激活层。

优选地，前期处理模块包括依次连接的卷积核大小为5×5的卷积层、批量归一化层以及ReLU激活层；该卷积核大小为5×5的卷积层用于对前期处理模块输出的特征图进行卷积操作，输出具有浅层特征的特征图，批量归一化层用于对输入其中的特征图进行批量归一化操作，输出具有浅层特征的特征图，批量归一化操作能够有效减少过拟合，提高前期处理模块的泛化能力，ReLU激活层用于ReLU激活操作，提高具有浅层特征的特征图的鲁棒性和稳定性；

优选地，本申请中第一个重点特征提取模块和第二个重点特征提取模块的结构相同、功能也相同；所述重点特征提取模块包括残差块、通道注意力块、空间注意力块、矩阵逐元素相乘操作单元、Concat层以及ReLU激活层；其中，残差块分别连接通道注意力块和空间注意力块，通道注意力块和空间注意力块分别连接矩阵逐元素相乘操作单元，残差块还分别连接两个矩阵逐元素相乘操作单元，两个矩阵逐元素相乘操作单元的输出端以及残差块的输入端均与Concat层的输入端连接，Concat层与ReLU激活层连接。本申请中残差块分别连接通道注意力块和空间注意力块、通道注意力块和空间注意力块分别连接矩阵逐元素相乘操作单元、残差块分别连接两个矩阵逐元素相乘操作单元、两个矩阵逐元素相乘操作单元的输出端以及残差块的输入端均与Concat层的输入端连接，该上述设置实现了残差连接，而残差连接在残差块、通道注意力块和空间注意力块对特征图进行处理的过程中能够传递一部分特征图中的原始信息，从而避免在在特征提取过程中丢失关键信息，同时，上述残差连接的设置还可以有效缓解融合图像生成网络在训练过程中的梯度消失问题。

优选地，本申请重点特征提取模块中残差块包括依次连接的卷积层、批量归一化层、ReLU激活层、卷积层和批量归一化层，其中，残差块中的两个卷积层的卷积核大小均为3×3；本申请中残差块用于对输入重点特征提取模块的特征图提取基础特征，得到具有基础特征的特征图。

优选地，重点特征提取模块中通道注意力块包括依次连接的全局最大池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层；通道注意力块用于对残差块输出的特征图调整不同通道的特征响应，使得重点特征提取模块能够更加关注通道层面显著特征；具体来说，全局最大池化层用于对输入其中的特征图进行全局最大池化操作来获取每个通道的全局信息，全连接层用于对输入其中的特征图进行非线性变换，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，另一个全连接层用于对输入其中的特征图进行非线性变换，Sigmoid激活层用于对输入其中的特征图生成通道注意力权重参数，并将这些通道注意力权重参数输入至特征图的通道中用于加权，以突出重要的通道特征并抑制不重要的通道特征，其中，所述重要的通道特征即为通道层面显著特征。

优选地，重点特征提取模块中空间注意力块包括依次连接的卷积层、ReLU激活层、卷积层和Sigmoid激活层，其中，空间注意力块中的两个卷积层的卷积核大小均为3×3；空间注意力块用于对残差块输出的特征图的重要空间区域进行关注，使得重点特征提取模块能够更加关注空间层面的显著特征；具体来说，所述空间注意力块中两个的卷积层均用于提取特征图中的空间信息，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，Sigmoid激活层用于对输入其中的特征图进行生成空间注意力权重参数，并将这些空间注意力权重参数输入特征图的空间位置用于加权，以强调特征图中包含有空间层面显著特征的重要区域。

优选地，本申请中第一个深层特征提取模块和第二个深层特征提取模块的结构相同、功能也相同，其中，深层特征提取模块采用的是现有的STM模块，现有的STM模块采用的是CN116258658A公开的STM模块，本申请中深层特征提取模块的功能也与上述现有的STM模块相同。

优选地，本申请中融合图像判别网络包括Discriminator_ VIS鉴别器和Discriminator_IR鉴别器。

优选地，步骤S3具体包括如下步骤：将KAIST数据集中配对的红外图像和可见光图像输入至图像融合神经网络中，并在计算得到的融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导的引导下进行反向传播，更新融合图像生成网络的权重参数，直到融合图像生成网络的损失、Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失均收敛，图像融合过程结束，得到训练好的图像融合神经网络模型。

与现有技术相比，本申请的有益技术效果为：

本申请所述的图像融合方法能够获得像素级特征信息和边缘信息更为丰富的融合图像，而且获得的融合图像与原始图像之间存在更高的结构相似性。本申请中设计的通道拼接层能够在通道维度中将输入至融合图像生成网络的原始可见光图像和原始红外图像进行拼接，得到信息更加全面的双通道图像，前期处理模块能够对通道拼接层输出的双通道图像中的浅层特征进行提取，得到具有浅层特征的特征图，第一个重点特征提取模块能够对前期处理模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息，而显著特征是指纹理细节、人物轮廓以及特定物体轮廓等特征，第一个深层特征提取模块能够对第一个重点特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息，第二个深层特征提取模块能够对第一个深层特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息，第二个重点特征提取模块能够对第二个深层特征提取模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息，卷积块能够对第二个重点特征提取模块输出的特征图降低维度，最终输出具有全局信息和重点信息的特征图。

附图说明

图1是本发明一种基于显著特征提取和残差连接的图像融合方法的总体流程图；

图2是本发明中图像融合神经网络的结构示意图；

图3是图2中重点特征提取模块的结构示意图；图3中，表示矩阵逐元素相乘操作单元；

图4是本发明一种基于显著特征提取和残差连接的图像融合方法在TNO数据集上选取的其中一种场景的定性比较结果，其中，图4中(a)图是未融合前的原始红外图像、图4中(b)图是未融合前的原始可见光图像、图4中(c)图是基于PIAFusion融合方法得到的融合图像、图4中(d)图是基于TGFuse融合方法得到的融合图像、图4中(e)图是基于IFCNN融合方法得到的融合图像、图4中(f)图是基于本发明所述的图像融合方法得到的融合图像。

具体实施方式

一种基于显著特征提取和残差连接的图像融合方法，其流程图如图1所示，包括以下步骤：

步骤S1、构建图像融合神经网络，所述图像融合神经网络的结构，如图2所示，包括融合图像生成网络以及与融合图像生成网络连接的融合图像判别网络；融合图像生成网络用于获取初步融合图像，融合图像判别网络用于判别初步融合图像与原始可见光图像和原始红外图像之间的差异；

其中，融合图像生成网络包括依次连接的通道拼接层、前期处理模块、第一个重点特征提取模块、第一个深层特征提取模块、第二个深层特征提取模块、第二个重点特征提取模块以及卷积块；其中，通道拼接层用于在通道维度中将输入至融合图像生成网络的原始可见光图像和原始红外图像进行拼接，由于本申请输入的原始可见光图像和原始红外图像都是灰色的，因此本申请中通道拼接层的通道维度为一维，本申请中通道拼接层的设置旨在将原始可见光图像和原始红外图像进行通道拼接，从而得到信息更加全面的双通道图像；前期处理模块用于对通道拼接层输出的双通道图像中的浅层特征进行提取，得到具有浅层特征的特征图；第一个重点特征提取模块用于对前期处理模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息，本申请中显著特征是指纹理细节、人物轮廓以及特定物体轮廓等特征；第一个深层特征提取模块用于对第一个重点特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个深层特征提取模块用于对第一个深层特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个重点特征提取模块用于对第二个深层特征提取模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息；卷积块用于对第二个重点特征提取模块输出的特征图降低维度，输出具有全局信息和重点信息的特征图。本申请中卷积块包括一个卷积核大小为1×1的卷积层以及与其连接的Tanh激活层。

其中，前期处理模块包括依次连接的卷积核大小为5×5的卷积层、批量归一化层以及ReLU激活层；该卷积核大小为5×5的卷积层用于对前期处理模块输出的特征图进行卷积操作，输出具有浅层特征的特征图，批量归一化层用于对输入其中的特征图进行批量归一化操作，输出具有浅层特征的特征图，批量归一化操作能够有效减少过拟合，提高前期处理模块的泛化能力，ReLU激活层用于ReLU激活操作，提高具有浅层特征的特征图的鲁棒性和稳定性。

本申请中前期处理模块中设置的卷积层能够对输入至其中的双通道图像的局部特征进行有效提取，这些局部特征中包含有如边缘、角点和纹理等基本元素，从而使得有前期处理模块输出的特征图有利于后续的重点特征提取模块以及深层特征提取模块提取相应的特征信息。

本申请中第一个重点特征提取模块和第二个重点特征提取模块的结构相同、功能也相同；其中，重点特征提取模块的结构，如图3所示，包括残差块、通道注意力块、空间注意力块、矩阵逐元素相乘操作单元、Concat层以及ReLU激活层；其中，残差块分别连接通道注意力块和空间注意力块，通道注意力块和空间注意力块分别连接矩阵逐元素相乘操作单元，残差块还分别连接两个矩阵逐元素相乘操作单元，两个矩阵逐元素相乘操作单元的输出端以及残差块的输入端均与Concat层的输入端连接，Concat层与ReLU激活层连接；本申请中残差块分别连接通道注意力块和空间注意力块、通道注意力块和空间注意力块分别连接矩阵逐元素相乘操作单元、残差块分别连接两个矩阵逐元素相乘操作单元、两个矩阵逐元素相乘操作单元的输出端以及残差块的输入端均与Concat层的输入端连接，该上述设置实现了残差连接，而残差连接在残差块、通道注意力块和空间注意力块对特征图进行处理的过程中能够传递一部分特征图中的原始信息，从而避免在在特征提取过程中丢失关键信息，同时，上述残差连接的设置还可以有效缓解融合图像生成网络在训练过程中的梯度消失问题。

本申请重点特征提取模块中残差块包括依次连接的卷积层、批量归一化层、ReLU激活层、卷积层和批量归一化层，其中，残差块中的两个卷积层的卷积核大小均为3×3；本申请中残差块用于对输入重点特征提取模块的特征图提取基础特征，得到具有基础特征的特征图；

重点特征提取模块中通道注意力块包括依次连接的全局最大池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层；通道注意力块用于对残差块输出的特征图调整不同通道的特征响应，使得重点特征提取模块能够更加关注通道层面显著特征；具体来说，全局最大池化层用于对输入其中的特征图进行全局最大池化操作来获取每个通道的全局信息，全连接层用于对输入其中的特征图进行非线性变换，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，另一个全连接层用于对输入其中的特征图进行非线性变换，Sigmoid激活层用于对输入其中的特征图生成通道注意力权重参数，并将这些通道注意力权重参数输入至特征图的通道中用于加权，以突出重要的通道特征并抑制不重要的通道特征，其中，所述重要的通道特征即为通道层面显著特征；

重点特征提取模块中空间注意力块包括依次连接的卷积层、ReLU激活层、卷积层和Sigmoid激活层，其中，空间注意力块中的两个卷积层的卷积核大小均为3×3；空间注意力块用于对残差块输出的特征图的重要空间区域进行关注，使得重点特征提取模块能够更加关注空间层面的显著特征；具体来说，所述空间注意力块中两个的卷积层均用于提取特征图中的空间信息，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，Sigmoid激活层用于对输入其中的特征图进行生成空间注意力权重参数，并将这些空间注意力权重参数输入特征图的空间位置用于加权，以强调特征图中包含有空间层面显著特征的重要区域；

其中一个矩阵逐元素相乘操作单元用于对残差块输出的特征图和通道注意力块输出的特征图进行逐像素相乘操作，输出具有通道层面显著特征和基础特征的特征图；另一个矩阵逐元素相乘操作单元用于对残差块输出的特征图和空间注意力块输出的特征图进行逐像素相乘操作，输出具有空间层面显著特征和基础特征的特征图；Concat层用于将输入残差块的特征图、两个矩阵逐元素相乘操作单元输出的特征图进行拼接，输出具有突出显著特征的特征图，ReLU激活层用于将Concat层输出的特征图进行ReLU激活操作，提高突出显著特征的特征图的鲁棒性和稳定性；

本申请中第一个深层特征提取模块和第二个深层特征提取模块的结构相同、功能也相同，其中，深层特征提取模块采用的是CN116258658A公开的STM模块，本申请中深层特征提取模块的功能也与上述现有的STM模块相同；

本申请中融合图像判别网络包括Discriminator_ VIS鉴别器和Discriminator_IR鉴别器；本申请中Discriminator_VIS鉴别器和Discriminator_IR鉴别器分别于CN116258658A公开的Discriminator_VIS鉴别器和Discriminator_IR鉴别器相同，而且本申请Discriminator_VIS鉴别器和Discriminator_IR鉴别器的功能也分别于CN116258658A公开的Discriminator_VIS鉴别器和Discriminator_IR鉴别器的功能相同。

步骤S2、构建图像融合神经网络的损失，其中，图像融合神经网络的损失包括融合图像生成网络的损失以及融合图像判别网络的损失：

为了反映融合图像生成网络的损失情况，本申请采用像素损失L_P、梯度损失L_G、结构损失L_{Score_SSIM}共同组成融合图像生成网络的损失L，用于模拟融合图像生成网络对图像融合过程中的信息丢失和失真，而融合图像生成网络的损失L与像素损失L_P、梯度损失L_G、结构损失L_{Score_SSIM}的关系如式（1）所示：

L=L_P+aL_G+bL_{Score_SSIM} （1）

式（1）中，a、b是用于平衡像素损失L_P、梯度损失L_G、结构损失L_{Score_SSIM}的权重参数，本申请中a为100，b为10。

为了获得具有更多互补信息（互补信息是指来自可见光图像的纹理信息以及来自红外图像的热辐射信息）的融合图像，本申请设计了像素损失以迫使融合图像包含与原始图像相似的像素强度分布，像素损失L_P的计算公式，如式（2）所示：

（2）

式（2）中，α为用于平衡图像融合神经网络训练过程中输入的原始红外图像和原始可见光图像的权重参数，本申请中α设置为1，表示矩阵Frobenius范数计算，H和W分别表示原始图像的高度和宽度，原始红外图像和原始可见光图像的高度相同，原始红外图像和原始可见光图像的宽度相同；I _IR和I _VIS分别表示原始红外图像和原始可见光图像，I _F表示融合图像生成网络生成的初始融合图像。

本申请中红外图像和可见光图像进行融合的目标之一就是充分利用原始红外图像和原始可见光图像的空间细节，而这些空间细节可以通过梯度来表征。因此，本申请设计的梯度损失通过计算融合图像与源图像之间的梯度差异，鼓励融合图像生成网络保持重要的空间特征，如此可有效提高融合图像在边缘区域的清晰度和准确性。在图像融合过程中，如果只关注像素级别的相似性，可能会导致融合图像过度平滑，从而丢失重要的细节信息，本申请设计的梯度损失可以限制那些导致边缘和纹理模糊的模型输出，从而有助于避免融合图像过度平滑而丢失重要的细节信息的情况。本申请中梯度损失L_G的计算公式，如式（3）所示；

（3）

式（3）中，表示矩阵L2范数计算，∇表示梯度操作，max{ }表示最大选择，I _IR和I _VIS分别为原始红外图像和原始可见光图像，I _F表示融合图像生成网络生成的初始融合图像；

本申请结构损失L_{Score_SSIM}的获取方式为：首先，使用方差来计算融合图像生成网络生成融合图像与原始红外图像之间的对比度以及融合图像生成网络生成融合图像与原始可见光图像之间的对比度，方差的计算如式（4）所示；然后，利用Score_SSIM计算原始红外图像或者原始可见光图像与融合图像生成网络生成融合图像之间的结构相似度，如公式（5）所示；而后再利用公式（6）计算融合图像生成网络生成融合图像过程中的结构损失；本申请中利用公式（5）计算结构相似度以及利用公式（6）计算结构损失的过程中均分别对融合图像生成网络生成的初始融合图像、原始红外图像以及原始可见光图像进行图像分割，然后对不同的图像块分别计算SSIM，且分割图像时，是按照图像大小为11×11，且从左上角逐渐向右下角移动对图像进行分割的；

（4）

式（4）中，M和N分别为图像在水平方向和垂直方向上的尺寸，其中，上述图像是指融合图像生成网络生成的初始融合图像以及原始红外图像和原始可见光图像，µ表示融合图像生成网络生成的初始融合图像的平均值，σ²是原始红外图像或者原始可见光图像与初始融合图像之间的方差，X(i,j)为原始红外图像或者原始可见光图像上某点的对比度；

（5）

式（5）中，σ²为原始红外图像或者原始可见光图像与融合图像生成网络生成的初始融合图像之间的方差，I _X和I _Y分别为原始红外图像和原始可见光图像，I _F表示融合图像生成网络生成的初始融合图像，W为融合图像按照图像大小为11×11分割后的图像块个数；

（6）

式（6）中，I _X和I _Y分别为原始红外图像和原始可见光图像，I _F表示融合图像，W为融合图像按照图像大小为11×11分割后的图像块个数。

本申请中融合图像判别网络的损失包括融合图像判别网络中Discriminator _VIS鉴别器和Discriminator_IR鉴别器的损失，本申请中Discriminator _VIS鉴别器和Discriminator_IR鉴别器的损失计算方式与CN116258658A公开的Discriminator _VIS鉴别器和Discriminator_IR鉴别器分别相同，本申请融合图像判别网络中的Discriminator_VIS鉴别器和Discriminator_IR鉴别器判别初步融合图像与原始可见光图像和原始红外图像之间差异的方式与CN116258658A公开的Discriminator _VIS鉴别器和Discriminator_IR鉴别器也分别相同；具体来说，本申请中也是采用平均绝对误差MAE计算Discriminator_VIS鉴别器和Discriminator _IR鉴别器的损失。这是因为MAE对于任何输入值都具有稳健的梯度，并且不会导致梯度爆炸。此外，平均绝对误差对异常值具有更好的稳健性。平均绝对误差MAE的计算公式，如式（7）所示：

（7）

式（7）中，y_i表示Discriminator_VIS鉴别器中改进后的VGG16网络提取的可见光图像的特征或者是Discriminator_IR鉴别器中改进后的VGG16网络模型提取的红外图像的特征；f(x_i)表示Discriminator_VIS鉴别器或者Discriminator_IR鉴别器中改进后的VGG16网络模型提取的初始融合图像的特征。本申请中改进后的VGG16网络模型是指以现有技术中的VGG16网络为基础，将VGG16网络模型的后三个卷积层依据KAIST数据集重新训练获得模型参数优化后的VGG16网络模型，该模型参数优化后的VGG16网络模型即为改进后的VGG16网络模型。

步骤S3、在融合图像生成网络的损失以及融合图像判别网络中Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导下，利用现有的KAIST数据集训练融合图像生成网络，得到融合图像生成网络模型；具体包括以下步骤：

将KAIST数据集中配对的红外图像和可见光图像输入至图像融合神经网络中，并在计算得到的融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失（即计算得到的平均绝对误差MAE1）和Discriminator_IR鉴别器的损失的引导（即计算得到的平均绝对误差MAE2）的引导下进行反向传播，更新融合图像生成网络的权重参数，直到融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失均收敛，图像融合过程结束，得到训练好的融合图像生成网络模型。本申请在对该上述图像融合神经网络进行训练前，首先将KAIST数据集中25000对原始红外图像和原始可见光图像的大小均设置为256×256像素，在对该上述图像融合神经网络进行训练时，将学习率固定在0.0001，本申请融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失均收敛时，迭代训练次数Epoch为25。

为了对比本申请所述的图像融合方法与现有图像融合方法在融合效果方面从优异性，本申请特地利用现有的Roadscene数据集对本申请所述的图像融合方法以及RP融合方法（出自于Image fusion by a ratio of low-pass pyramid）、Wavelet融合方法（出自于Wavelets and image fusion ）、DTCWT融合方法（出自于Pixel-and region-basedimagefusion withcomplex wavelets）、CVT融合方法（出自于Remote sensing imagefusionusing the curvelettransform）、MSVD融合方法（出自于Image fusion techniqueusingmulti-resolution singularvalue decomposition）、GTF融合方法（出自于Infraredand visible imagefusion viagradient transfer and total variationminimization）、DenseFuse融合方法（出自于Densefuse:A fusion approach to infraredand visibleimages）、FusionGAN融合方法（出自于Agenerative adversarial networkfor infrared and visible image fusion）、TGFuse融合方法（出自于TGFuse: AnInfrared and Visible ImageFusion ApproachBased on Transformerand GenerativeAdversarial Network）、IFCNN融合方法(出自于Ifcnn:Ageneral image fusionframework based on convolutionalneural network)、PMGI融合方法（出自于Rethinkingthe imagefusion: A fast unified image fusion networkbased on proportionalmaintenanceof gradient and intensity）、U2Fusion融合方法（出自于U2fusion:Aunified unsupervised imagefusion network）、RFN-Nest融合方法（出自于Rfn-nest:Anend-to-end residual fusion networkfor infrared and visible images ）、SDNet融合方法（出自于SDNet:A VersatileSqueeze-and-Decomposition Network for Real-TimeImage Fusion）以及PIAFusion融合方法（出自于Piafusion: Aprogressive infrared andvisible imagefusion network based on illumination aware）等十五种现有图像融合方法的融合效果采用相同的测试策略进行测试，测试结果如表1所示。本申请中采用的测试策略为：利用现有的KAIST数据集训练将本申请所述图像融合方法以及上述十五种现有的图像融合方法中的图像融合神经网络分别训练25个epoch，然后，再将Roadscene数据集输入到该上述训练后的十六个图像融合神经网络中进行测试。

表1 本申请所述图像融合方法以及十五种现有图像融合方法的融合效果的测试结果

方法	PSNR	EN	Q^AB/F	SSIM	FMI_p
						RP融合方法	50.6698	6.5397	0.4341	0.6705	0.8929
Wavelet融合方法	52.7265	6.2454	0.3214	0.6851	0.9096
						DTCWT融合方法	53.6758	6.4791	0.5258	0.7057	0.9186
CVT融合方法	53.8126	6.4989	0.4936	0.7025	0.9156
						MSVD融合方法	55.5462	6.2807	0.3328	0.7360	0.9036
GTF融合方法	61.6964	6.5781	0.4400	0.6798	0.9056
						DenseFuse融合方法	62.5774	6.8192	0.4457	0.8638	0.9024
FusionGAN融合方法	60.9793	6.5580	0.2340	0.8102	0.8833
						TGFuse融合方法	61.9688	6.9406	0.5422	0.9301	0.9106
IFCNN融合方法	63.4661	6.8539	0.4805	0.9411	0.8919
						PMGI融合方法	61.9962	7.0180	0.4117	0.9278	0.8960
U2Fusion融合方法	62.8082	6.9366	0.4262	0.9314	0.8874
						RFN-Nest融合方法	61.9962	6.6948	0.3341	0.8749	0.8988
SDNet融合方法	62.1501	6.6948	0.4294	0.9341	0.8945
						PIAFusion融合方法	61.7758	6.8142	0.5280	0.9177	0.9067
Ours	63.9618	7.3204	0.5784	0.9536	0.9328

表1中，Ours表示本申请所述的图像融合方法；PSNR表示指峰值信噪比，PSNR用于表征融合图像中峰值功率与噪声功率的比值，它能够从像素层面反映融合过程中的失真情况；EN表示信息熵，EN表示基于信息论计算融合图像中所包含的信息量；Q^AB/F表示基于边缘信息的指标，Q^AB/F用于测量从原始图像转移到融合图像的边缘信息；SSIM表示结构相似性度量，SSIM用于对融合过程中的信息损失和失真进行建模，并以此反映融合图像与原始图像之间的结构相似性；FMI_p是指像素特征互信息。

从表1中能够看出，本申请所述的图像融合方法在上述五个测试指标（即PSNR、EN、Q^AB/F、SSIM和FMI_p）上表现均较好，具体来说，

1.本申请所述的图像融合方法的PSNR值达到了63.9618，相较于现有技术中PSNR值较高的IFCNN融合方法提高了（63.9618-63.4661）/63.9618×100％=0.7754%，这说明着本申请所述的图像融合方法在融合过程中具有最少的信息失真；

2.本申请所述的图像融合方法的Q^AB/F值达到了0.5784，相较于现有技术中Q^AB/F值较高的TGFuse融合方法提高了（0.5784-0.5422）/0.5784×100%=6.26%，这表明本申请所述的图像融合方法从原始图像中提取了更多的边缘信息，并将其转移到融合图像中；

3.本申请所述的图像融合方法的SSIM值为0.9536，相较于现有技术中SSIM值较高的IFCNN融合方法提高了（0.9536-0.9411）/0.9536×100%=1.31%，这表明本申请所述的图像融合方法可以获得融合图像和原始图像之间更高的结构相似性；

4.本申请所述的图像融合方法的EN值达到了7.3204，相较于现有技术中EN值较高的PMGI融合方法提高了(7.3204-7.0180)/7.3204×100%=4.12%，这表明本申请所述的图像融合方法获得的融合图像中包含更为丰富的信息量；

5.本申请所述的图像融合方法的FMIp值为0.9328，相较于现有技术中FMIp值较高的DTCWT融合方法提高了（0.9328-0.9186）/0.9328×100%=1.517%，这表明本申请所述的图像融合方法得到的融合图像中包含更为丰富的像素级特征信息。

综上，本申请所述的基于重点特征提取的图像融合方法相较于上述其他现有技术中的图像融合方法能够获得像素级特征信息和边缘信息更为丰富的融合图像，而且获得的融合图像与原始图像之间存在更高的结构相似性。

此外，本申请还为了对比本申请所述的图像融合方法与现有图像融合方法得到的融合图像在直观效果方面的优异性，本申请特地利用现有的TNO数据集对本申请所述的图像融合方法以及TGFuse融合方法和IFCNN融合方法进行测试，测试结果，如图4中(a)图至(f)图所示。从图4中(a)图至(f)图可以看出，PIAFusion融合方法得到的融合图像中没有很好地突出显著信息，比如，基本无法看到人体轮廓，而且边缘细节也模糊不清；TGFuse融合方法得到的融合图像中缺乏丰富的纹理细节，比如，人体轮廓不清晰、人体头部所带的帽子不清晰；IFCNN融合方法得到的融合图像中纹理细节也不丰富，比如，人体和烟雾之间的过渡太过平滑，无法很好地突显出人体轮廓。本申请所述的融合方法得到的融合图像在纹理细节和对比度均展现出显著的优势，比如，本申请所述的融合方法得到的融合图像既明细显示了人体轮廓、人体部所带的帽子的轮廓和形状，而且烟雾和人体之间存在明显的过渡，这本申请所述的融合方法得到的融合图像在视觉上更加自然和真实。

Claims

1.一种基于显著特征提取和残差连接的图像融合方法，其特征在于：包括如下步骤：

步骤S3、在融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导下，训练融合图像生成网络，得到融合图像生成网络模型；

步骤S4、将红外图像和可见光图像输入至步骤S3中得到的融合图像生成网络模型中，前向传播一次，输出图像融合结果。

2.根据权利要求1所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述融合图像生成网络包括依次连接的通道拼接层、前期处理模块、第一个重点特征提取模块、第一个深层特征提取模块、第二个深层特征提取模块、第二个重点特征提取模块以及卷积块；其中，通道拼接层的通道维度为一维，通道拼接层用于在通道维度中将输入至融合图像生成网络的原始可见光图像和原始红外图像进行拼接，得到信息更加全面的双通道图像；前期处理模块用于对通道拼接层输出的双通道图像中的浅层特征进行提取，得到具有浅层特征的特征图；第一个重点特征提取模块用于对前期处理模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息；第一个深层特征提取模块用于对第一个重点特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个深层特征提取模块用于对第一个深层特征提取模块输出的特征图中的深层特征进行提取，得到具有深层特征的特征图，该深层特征的特征图中包含了丰富的全局信息；第二个重点特征提取模块用于对第二个深层特征提取模块输出的特征图中的显著特征进行提取并突出，得到具有突出显著特征的特征图，该突出显著特征的特征图具有丰富的重点信息；卷积块用于对第二个重点特征提取模块输出的特征图降低维度，输出具有全局信息和重点信息的特征图。

3.根据权利要求2所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述卷积块包括一个卷积核大小为1×1的卷积层以及与其连接的Tanh激活层。

4.根据权利要求2所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述前期处理模块包括依次连接的卷积核大小为5×5的卷积层、批量归一化层以及ReLU激活层；该卷积核大小为5×5的卷积层用于对前期处理模块输出的特征图进行卷积操作，输出具有浅层特征的特征图，批量归一化层用于对输入其中的特征图进行批量归一化操作，输出具有浅层特征的特征图，而ReLU激活层用于对批量归一化层输出的具有浅层特征的特征图进行ReLU激活操作。

5.根据权利要求2所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述重点特征提取模块包括残差块、通道注意力块、空间注意力块、矩阵逐元素相乘操作单元、Concat层以及ReLU激活层；其中，残差块分别连接通道注意力块和空间注意力块，通道注意力块和空间注意力块分别连接矩阵逐元素相乘操作单元，残差块还分别连接两个矩阵逐元素相乘操作单元，两个矩阵逐元素相乘操作单元的输出端以及残差块的输入端均与Concat层的输入端连接，Concat层与ReLU激活层连接。

6.根据权利要求5所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述残差块包括依次连接的卷积层、批量归一化层、ReLU激活层、卷积层和批量归一化层，其中，残差块中的两个卷积层的卷积核大小均为3×3；所述残差块用于对输入重点特征提取模块的特征图提取基础特征，得到具有基础特征的特征图。

7.根据权利要求5所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述通道注意力块包括依次连接的全局最大池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层；全局最大池化层用于对输入其中的特征图进行全局最大池化操作来获取每个通道的全局信息，全连接层用于对输入其中的特征图进行非线性变换，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，另一个全连接层用于对输入其中的特征图进行非线性变换，Sigmoid激活层用于对输入其中的特征图生成通道注意力权重参数，并将这些通道注意力权重参数输入至特征图的通道中用于加权，以突出重要的通道特征并抑制不重要的通道特征，其中，所述重要的通道特征即为通道层面显著特征。

8.根据权利要求5所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述空间注意力块包括依次连接的卷积层、ReLU激活层、卷积层和Sigmoid激活层，其中，空间注意力块中的两个卷积层的卷积核大小均为3×3；所述空间注意力块中两个的卷积层均用于提取特征图中的空间信息，ReLU激活层用于对输入其中的特征图进行ReLU激活操作，Sigmoid激活层用于对输入其中的特征图进行生成空间注意力权重参数，并将这些空间注意力权重参数输入特征图的空间位置用于加权，以强调特征图中包含有空间层面显著特征的重要区域。

9.根据权利要求2所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：所述深层特征提取模块采用的是现有的STM模块，所述深层特征提取模块的功能也与上述现有的STM模块相同。

10.根据权利要求1所述的基于显著特征提取和残差连接的图像融合方法，其特征在于：步骤S3具体包括如下步骤：将KAIST数据集中配对的红外图像和可见光图像输入至图像融合神经网络中，并在计算得到的融合图像生成网络的损失以及Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导下进行反向传播，更新融合图像生成网络的权重参数，直到融合图像生成网络的损失、Discriminator_VIS鉴别器的损失和Discriminator_IR鉴别器的损失的引导均收敛，图像融合过程结束，得到训练好的图像融合神经网络模型。