CN117036893A

CN117036893A - 一种基于局部跨阶段和快速下采样的图像融合方法

Info

Publication number: CN117036893A
Application number: CN202311286733.1A
Authority: CN
Inventors: 王吉哲; 李勃; 徐诚
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-11-10
Anticipated expiration: 2043-10-08
Also published as: CN117036893B

Abstract

本发明公开了一种基于局部跨阶段和快速下采样的图像融合方法。该算法是一种基于深度学习的图像融合算法，融合算法由编码器、特征融合器和解码器组成；编码器采用局部跨阶段和快速下采样方法对输入的可见光图像和SAR图像进行特征提取，并输出提取的特征图；特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征，对特征图进行增强及融合，输出融合后的特征图；解码器用以对融合后的特征图进行解码和重构，获得最终的融合图像。本发明相较于其他的融合网络，可以生成包含更多信息的优质融合图像，提高对目标的识别和分析能力，增强了语义信息的集成效果。

Description

一种基于局部跨阶段和快速下采样的图像融合方法

技术领域

本发明涉及图像融合技术领域，具体涉及一种基于局部跨阶段和快速下采样的图像融合方法。

背景技术

随着现代遥感技术不断发展，合成孔径雷达（Synthetic Aperture Radar，SAR）图像和可见光图像融合已经成为一个热门研究领域。SAR图像有良好的穿透性和不受天气限制的优点，但分辨率较低，难以识别细小目标；可见光图像有高空间分辨率和色彩信息，但易受天气和光照的限制。因此，将SAR图像和可见光图像融合，可以综合两种图像的优势，既突出显著目标，又展现丰富的细节信息，提高目标识别和定位能力。

目前主流图像融合方法和技术，包括像素级融合、特征级融合和决策级融合等传统方法。此外，还有些基于深度学习的融合方法，如基于自编码器（AE）框架、卷积神经网络（CNN）框架和生成对抗网络（GAN）框架等，这些框架能自动学习SAR和可见光图像间的关系，得到更准确的融合结果。

传统图像融合算法包括拉普拉斯金字塔、离散小波、剪切波、非抽样轮廓波和潜在低秩表示等，也会用稀疏表示和子空间等方法。但传统方法采用复杂变换和手工规则限制算法实时性和语义信息的集成，限制了在高级视觉任务的应用。

自编码器是种常用的融合模型。传统自编码器融合法需要手动设计融合规则，限制融合性能。基于分类显著性自编码器融合框架，提高了融合精度和鲁棒性，但存在分类器过拟合和训练数据不足的问题。

基于卷积神经网络（CNN）的融合框架成为图像融合领域的研究热点。这方法通过设计损失函数，实现隐式特征提取、聚合和图像重建。但这些方法存在真值缺失问题，限制性能发挥。且需要手动设计规则或使用显著性掩模，限制了融合性能。

生成对抗网络（GAN）是种无监督学习方法，用于图像转换和图像融合等。在图像融合领域，引入双鉴别器生成对抗网络和多尺度注意机制，提高鲁棒性。但当前的融合算法忽视高层次视觉任务需求，要增强融合图像的语义信息并整合源图像互补信息。一些深度学习算法尝试使用感知损失或显著目标掩模来增强语义信息，但效果有限。

尽管最近基于深度学习图像融合算法可以生成令人满意的融合图像，但SAR和可见光图像融合仍面临着一些挑战。一方面，由于SAR图像和可见光图像特点不同，因此需要选择合适的融合方法综合两种图像信息。另一方面，融合结果评价难度大，难用简单定量指标评价，需要考虑多种因素，如目标识别能力、信息保留程度、色彩还原等。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种基于局部跨阶段和快速下采样的图像融合方法。

为实现上述目的，本发明提供了一种基于局部跨阶段和快速下采样的图像融合方法，基于训练合格的网络模型实现，所述网络模型包括编码器、特征融合器和解码器；

所述编码器用以对输入的可见光图像和SAR图像进行特征提取，并输出提取的特征图；

所述特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征，对特征图增强并融合，其中，采用空间注意力机制得到的增强的特征图为：

其中，、/>分别为可见光图像和SAR图像调整后的特征图，（i，j）表示每个像素的坐标索引，

k={1，2}，为调整前的特征图，/>、/>分别为特征图的横向和纵向注意力权重，

采用通道注意力机制得到增强的特征图像为：

其中，、/>分别为从可见光特征图和SAR特征图，n为深度特征的通道索引，/>、/>分别为可见光图像和SAR图像的最终的深度特征权重；

并采用加法融合规则进行特征融合，得到最终的融合特征图为：

其中，+为矩阵加法操作；

所述解码器用以对融合特征图进行解码和重构，最后采用Swish激活函数获得最终融合图像。

进一步的，所述编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取，以获得通道数为32的特征图，然后将特征图分别输入细节分支和语义分支中；

所述细节分支部分由7部分组成，第1、3、5、7层为卷积-池化-激活模块，第2、4、6层为局部跨阶段残差块，在局部跨阶段残差块中，特征图一部分进入1×1的卷积块，另一部分依次进入3×3的卷积块、三个相连的残差块，每个残差块由一个1×1的卷积块和一个3×3的卷积块以及相加操作组成，之后将两部分拼接，通过1×1的卷积-池化-激活模块统一通道数；

所述语义分支采用快速下采样网络结构，经过三个级联的卷积层对输入的特征图进行快速下采样操作，依次获得通道数为64、128、64的特征图，然后利用双线性插值法对经过快速下采样获得的特征图进行上采样，以使得上采样后的特征图与网络最初输入的特征图保持相同的大小；

最后将细节分支的输出特征图和语义分支的输出特征图进行通道维度上的连接，获得通道数为128的特征图。

进一步的，所述网络模型通过以下方式训练至合格：

获取配准好的可见光图像和SAR图像的数据集；

对所述数据集中的图片尺寸进行预处理，并进行分割，从分割后的图像中选取部分作为训练集，其余作为测试集；

将训练集中的图像输入至编码器中进行提取和拼接，以获得通道数为128的特征图；

然后将通道数为128的特征图输入至特征融合器中进行特征融合，得到通道数为512的融合特征图；

将融合特征图输入至解码器中，以获得最后的融合图像；

调试以上步骤的网络结构超参数，并设置网络模型参数，其中，网络训练次数epochs设置为300轮，初始学习率设置为0.001，一次训练所选取的样本数bath size设置为32，经过300轮的训练后得到最终的训练模型；

将所述测试集输入至训练模型中，以获得可见光图像和SAR图像融合的测试结果，若所述测试结果符合要求，则将当前训练模型作为训练合格的网络模型，否则重新进行训练。

进一步的，分割后的图像为2310对128×128大小的图像，并从中随机选取1980对图像数据作为训练集，其余的330对图像数据作为测试集。

进一步的，在每轮训练得到训练模型后，计算训练模型的总体损失为：

其中，为结构相似性损失，/>为强度损失，/>为梯度损失，/>、/>、/>均为权重系数，/>、/>分别为输入的可见光图像和SAR图像，/>为获得的融合图像，/>为对矩阵•计算1范数，/>为元素的最大选择，SSIM为图像结构相似性算法，/>为测量图像纹理信息的梯度算子；

若本轮训练后的训练模型的总体损失小于前一轮训练后的训练模型的总体损失，则保留本轮训练的网络模型迭代结果，否则放弃，在经过300轮训练后，判断最终的训练模型的总体损失/>是否收敛，若总体损失/>收敛，再利用测试集进行测试，否则重新训练。

进一步的，所述、/>分别采用注意力机制及soft-max操作获得，具体如下：

为sigmoid函数，/>为使用1×1卷积进行变换，/>、/>分别为在横向和纵向上对空间信息进行编码的中间特征图，

r为降维比，用以缩减通道数，R为实数，C为通道数，H为特征图的长度，W为特征图的宽度，为在空间维度上进行拼接，/>为非线性激活函数，/>、/>为横向和纵向的特征，

为提取的特征图。

进一步的，所述、/>分别采用平均池化机制及soft-max操作获得，具体如下：

为初始的特征权重，/>、/>分别为可见光图像和SAR图像的初始的特征权重，

P(•)表示全局平均池化。

有益效果：1、通过局部跨阶段和快速下采样算法，有效地提取可见光图像和SAR图像中的特征信息，并通过采用无监督卷积网络进行融合，获得具有更丰富信息的融合图像，提高对目标的识别和分析能力；

2、设计了局部跨阶段残差块（CSR），保留了残差网络的特征重用的优点，又通过分割梯度抑制过多的重复信息，通过增加梯度路径，减少了计算量，增强了CNN网络的学习能力；

3、采用快速下采样方法降低网络的计算量，提升模型稳定性，防止过拟合，增强特征的不变性；

4、采用两种注意力机制相结合的图像融合方法，提取源图像特征在不同通道与不同空间位置上不同的重要性特征并进行融合，获得更加优秀的融合特征；

5、融合图像在一些关键指标上有明显的提升；

6、采用无监督卷积网络进行融合，实现过程简单，提高了实时性，并避免了复杂变换和手工规则，增强了语义信息的集成效果。

附图说明

图1是本发明实施例的网络模型的结构示意图；

图2是本发明实施例的编码器的原理图；

图3是本发明实施例的编码器的CBS模块的原理图；

图4是本发明实施例的编码器的CSR模块的原理图；

图5是本发明实施例的特征融合器的原理图；

图6是本发明实施例的解码器的原理图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，本实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1至图6所示，本发明实施例提供了一种基于局部跨阶段和快速下采样的图像融合方法，基于训练合格的网络模型实现，该网络模型包括编码器（Encoder_Layer）、特征融合器（Fusion_Layer）和解码器（Decoder_Layer）。

编码器包括Encoder_Layer1和Encoder_Layer2两个，分别用以对输入的可见光图像和SAR图像进行特征提取，并输出提取的特征图。其中，由可见光图像进行特征提取后的特征图为，由SAR图像进行特征提取后的特征图为/>。

特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征，对特征图进行增强并融合，其中，采用空间注意力机制得到的增强的特征图为：

其中，、/>分别为可见光图像和SAR图像调整后的特征；

k={1，2}，（i，j）表示每个像素的坐标索引，为调整前的特征图，/>、/>分别为特征图的横向和纵向注意力权重。上述/>、/>分别采用注意力机制及soft-max操作获得，具体如下：

为sigmoid函数，/>为使用1×1卷积进行变换，/>、/>分别为在横向和纵向上对空间信息进行编码的中间特征图；

r为降维比，用以缩减通道数，R为实数，C为通道数，H为特征图的长度，W为特征图的宽度，为在空间维度上进行拼接，/>为非线性激活函数，/>、/>为横向和纵向的特征；

为提取的特征。

采用通道注意力机制得到增强的特征图像为：

其中，、/>分别为从可见光特征图和SAR特征图，n为深度特征的通道索引，/>、/>分别为可见光图像和SAR图像的最终的深度特征权重。上述/>、/>分别采用平均池化机制及soft-max操作获得，具体如下：

为初始的特征权重，/>、/>分别为可见光图像和SAR图像的初始的特征权重；

P(•)表示全局平均池化。

其中，+为矩阵加法操作。

参见图6，解码器用以对融合特征图进行解码和重构，获得最后的融合图像。上述解码器Conv_a2，Conv_a3，Conv_a4，Conv_a5四个大小为3×3，步长为1的卷积层和Swish激活函数进行特征重构。生成的融合图像具有与输入图像相同的分辨率，即保持了原始图像的高清晰度和细节信息。

参见图2至图4，编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取，以获得通道数为32的特征图，然后将特征图分别输入细节分支和语义分支中。细节分支部分由7部分组成，第1、3、5、7层为卷积（Conv）-池化（BN）-激活（Swish）模块（CBS模块），第2、4、6层为局部跨阶段残差块（CSR），在局部跨阶段残差块中，特征图一部分进入1×1的卷积块（CBS_1），另一部分依次进入3×3的卷积块（CBS_3）、三个相连的残差块，每个残差块由一个1×1的卷积块和一个3×3的卷积块以及相加操作组成，之后将两部分拼接，通过1×1的卷积-池化-激活模块统一通道数。语义分支采用快速下采样网络结构，包括Conv_b1，Conv_b2，Conv_b3三个大小为3×3，步长为1的卷积层，经过三个级联的卷积层对输入的特征图进行快速下采样操作，依次获得通道数为64、128、64的特征图，然后利用双线性插值法对经过快速下采样获得的特征图进行上采样，以使得上采样后的特征图与网络最初输入的特征图保持相同的大小。最后将细节分支的输出特征图和语义分支的输出特征图进行通道维度上的连接，获得通道数为128的特征图。

上述网络模型通过以下方式训练至合格：

获取配准好的可见光图像和SAR图像的数据集。可以通过下载目前已公开的配准好的可见光图像和SAR图像作为数据集。

对所述数据集中的图片尺寸进行预处理，并进行分割，从分割后的图像中选取部分作为训练集，其余作为测试集。例如，分割后的图像为2310对128×128大小的图像，并从中随机选取1980对图像数据作为训练集，其余的330对图像数据作为测试集。

将训练集中的图像输入至编码器中进行提取，以获得通道数为128的特征图。

然后将通道数为128的特征图输入至特征融合器中进行特征融合，得到通道数为512的融合特征图。

将融合特征图输入至解码器中，以获得最后的融合图像。

调试以上步骤的网络结构超参数，并设置网络模型参数，其中，网络训练次数epochs可设置为300轮，初始学习率可设置为0.001，一次训练所选取的样本数bath size可设置为32，经过300轮训练后得到最终的训练模型。

还可在每轮训练得到训练模型后，计算训练模型的总体损失为：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，其它未具体描述的部分，属于现有技术或公知常识。在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，基于训练合格的网络模型实现，所述网络模型包括编码器、特征融合器和解码器；

所述特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征，然后对特征图进行增强并融合，其中，采用空间注意力机制得到的增强特征图为：

；

其中，、/>分别为可见光特征图和SAR特征图增强后的特征图，（i，j）表示每个像素的坐标索引，

；

k={1，2}，为调整前的特征图，/>、/>分别为特征图在横向和纵向上的注意力权重，

采用通道注意力机制得到的增强特征图为：

；

其中，、/>分别为可见光特征图和SAR特征图，n为深度特征的通道索引，/>、分别为可见光图像和SAR图像的深度特征权重；

；

其中，+为矩阵加法操作；

所述解码器用以对融合特征图进行解码和重构，以获得最终的融合图像。

2.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，所述编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取，以获得通道数为32的特征图，然后将特征图分别输入细节分支和语义分支中；

3.根据权利要求2所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，所述网络模型通过以下方式训练至合格：

获取配准好的可见光图像和SAR图像的数据集；

将训练集中的图像输入至编码器中进行提取，以获得通道数为128的特征图；

将融合特征图输入至解码器中，以获得最后的融合图像；

调试以上步骤的网络结构超参数，并设置网络模型参数，其中，网络训练次数epochs设置为300轮，初始学习率设置为0.001，一次训练所选取的样本数bath size设置为32，经过300轮训练后得到最终的训练模型；

4.根据权利要求3所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，分割后的图像为2310对128×128大小的图像，并从中随机选取1980对图像数据作为训练集，其余的330对图像数据作为测试集。

5.根据权利要求3所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，在每轮训练得到训练模型后，计算训练模型的总体损失为：

；

6.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，所述、/>分别采用注意力机制及soft-max操作获得，具体如下：

；

为提取的特征图。

7.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法，其特征在于，所述、/>分别采用平均池化机制及soft-max操作获得，具体如下：

；

P(•)表示全局平均池化。