CN116309221A

CN116309221A - 一种多光谱图像融合模型的构建方法

Info

Publication number: CN116309221A
Application number: CN202310255682.XA
Authority: CN
Inventors: 刘子俊; 李艳; 田杰; 杜进桥; 怡勇
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-23

Abstract

本发明公开一种多光谱图像融合模型的构建方法，包括：构建基于多层次深度串联与嵌套连接的自编码器网络；构建基于深度可分离卷积和Leaky‑ReLU激活函数的卷积结构块，用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化；构建简单卷积结构块，用于所述自编码器网络中的解码器网络进行特征压缩和特征降维，重建复原输入图像；构建基于像素损失和结构相似性损失的损失函数；训练所述自编码器网络；构建基于平均池化算子实现注意力机制的融合策略；将所述融合策略引入已经训练好的所述自编码器网络中，用于对输入的红外光和可见光图像进行融合。本发明解决了卷积神经网络提取图像特征时会造成信息丢失等问题，实现了模型的轻量化。

Description

一种多光谱图像融合模型的构建方法

技术领域

本发明属于电力设备图像融合技术领域，具体涉及一种多光谱图像融合模型的构建方法。

背景技术

图像融合是指将不同的光谱图像进行结合，生成一幅相比源图像信息更加丰富的图像，以便于后续的观测、处理、决策，属于信息融合领域。在某些复杂场景下需要进行成像分析时，需要尽可能多得保留场景信息，以便于对该场景的展开深入研究。单光谱仅能感知目标的单一场景信息，无法对目标进行多模态感知。因此，融合技术在现代化应用和计算机视觉中发挥着越来越重要的作用。由于物理传感器的局限性，红外、紫外与可见光图像所捕获的场景信息有很大不同。多光谱图像融合技术是指将同一场景下的红外、紫外、可见光图像结合起来，利用这几种图像的互补性，生成鲁棒性强、信息量大的融合图像。多光谱图像融合技术在目标检测、图像增强、视频监控和遥感等领域都有着广泛的应用。

目前，多光谱融合技术已经广泛被应用于电力装备状态监测与检测中，每年至少形成的检测图像不低于356万张，已经呈现大数据特征。但目前光谱成像检测仍然以人工分析为主，且智能化程度较低。

通过电力设备的红外图像可以判断其是否发生故障，但是红外紫外图像往往轮廓不够清晰，而可见光图像信息丰富，细节也更全面，将红外紫外和可见光图像进行融合后，就可以得到既符合人们的视觉特性，又不受光照强度的影响，还包含了两幅源图像细节信息的融合图像。基于可见光、红外、紫外等3种光谱的复合设备带电检测技术，将可见光、红外、紫外3种检测手段有机地结合起来，优势互补，易对电路进行带电检测，能够及时发现设备缺陷，便于开展大面积的巡检。

多光谱图像融合方法主要分为传统方法和深度学习方法。传统的图像融合方法主要使用多尺度变换(MST)、稀疏表示(SR)、基于显著性、混合模型、基于优化的方法和其他方法。这些方法已经取得了良好的融合性能，但融合方法需要手工制作、并且忽视了红外紫外可见光各自的图像特点、难以提取图像特征，算法模型计算复杂度高等问题仍然存在。随着计算机性能的逐步提升，基于深度学习的融合方法已经慢慢超越了传统融合方法，现有的基于深度学习的图像融合方法主要分为三大类：基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法以及基于自编码器网络(AE)的方法。在基于深度学习的方法中，FusionGAN、DDcGAN和Nestfuse等模型改进传统方法的缺点，但也有一定的局限性。首先，随着网络的加深，深度神经网络的训练愈加困难，在反向更新参数时容易出现梯度爆炸或梯度弥散的情况，导致训练收敛速度缓慢甚至无法收敛。梯度弥散是指在反向传播梯度时，随着传播深度的加深，梯度的幅度急剧减小，导致浅层神经元的权重更新缓慢，不能有效学习，梯度爆炸是指在深层网络中。误差梯度在更新中累积，变成非常大的梯度，使得学习变得不稳定，导致融合结果质量低下。其次，边缘端设备在存储能力、计算单元和电池电量等资源上显得十分匮乏。因此，在低成本环境中使用有效的深度学习模型方法成了真正的挑战。当前的关键问题是如何在不显著降低网络性能的情况下为移动端或嵌入式设备配置有效的神经网络模型、如何在计算资源有限的嵌入式设备上实现既有高精度和低延迟的多光谱融合功能。

发明内容

本发明所要解决的技术问题在于，提供一种多光谱图像融合模型的构建方法，以提高图像融合效果，实现模型轻量化。

为解决上述技术问题，本发明提供一种多光谱图像融合模型的构建方法，包括：

步骤S1，构建基于多层次深度串联与嵌套连接的自编码器网络；

步骤S2，构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块，用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化；

步骤S3，构建简单卷积结构块，用于所述自编码器网络中的解码器网络进行特征压缩和特征降维，重建复原输入图像；

步骤S4，构建基于像素损失和结构相似性损失的损失函数；

步骤S5，训练所述自编码器网络；

步骤S6，构建基于平均池化算子实现注意力机制的融合策略；

步骤S7，将所述融合策略引入已经训练好的所述自编码器网络中，用于对输入的红外光和可见光图像进行融合。

进一步地，所述步骤S1构建的自编码器网络包括编码器网络和解码器网络，所述编码器网络为串联连接结构，所述解码器网络为嵌套连接结构。

进一步地，所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成，第一层为3×3深度逐通道卷积，将单个卷积核应用到每一个输入通道，其中一个输入通道只被一个卷积核进行卷积；第2、3层分别为批量化层和Leaky-ReLU激活函数层，批量化层对神经网络中各个卷积层的参数的量级进行统一，Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度；第4层为1×1逐点卷积层，使用单位卷积核进行标准卷积生成特征图；第5、6层为批量化层和Leaky-ReLU激活函数层；第7层为最大值池化层，对特征图所选取领域内取最大值取代该领域内的值，从而达到下采样的目的。

进一步地，所述步骤S3构建的简单卷积结构块由4层组成，第1层为3×3卷积层，第2、4层为ReLU层，第3层为1×1卷积层。

进一步地，所述步骤S4构建的基于像素损失和结构相似性损失的损失函数，如以下公式所示：

L_total＝L_pixel+λL_ssim

其中，L_pixel和L_ssim表示输入图像和输出图像之间的像素损失和结构相似性损失，λ表示L_pixel和L_ssim之间的权衡值；

像素损失的计算公式如下所示：

其中，O和I分别表示输出和输入图像；‖·‖_F是Frobenius范数；L_pixel用于计算O和I之间的距离；

结构相似性损失的计算公式如下所示：

L_ssim＝1-SSIM(O,I)

其中，SSIM表示结构相似性度量。

进一步地，SSIM度量由三个对比模块组成：亮度、对比度、结构，如下公式所示：

其中，μ_x,μ_y分别表示两幅图像的平均灰度，作为亮度测量的估计；C₁,C₂是接近0的常数，用来防止上述公式分母为0导致度量不稳定的情况；σ_x,σ_y分别表示两幅图像的标准差，作为对比度测量的估计；σ_xy表示两幅图像的协方差。

进一步地，所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型，空间注意力机制模型用于融合多层次深度特征，通道注意力机制模型用于融合多通道信息特征；最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。

进一步地，空间注意力机制模型中，由L1范数和softmax根据多尺度深层特征

和/>

计算得到的加权图/>

和/>

具体由以下公式计算：

其中，‖·‖表示L1范数，K＝{1,2}，(x,y)表示多尺度深层特征和加权图中的相应位置，m＝{1,2,3}表示编码器提取的特征层数。

进一步地，

和/>

分别表示由/>

和/>

获得的增强深度特征，由以下公式计算得到：

最终经过空间注意力机制模型得到的融合特征由增强深度特征相加得到，如下公式所示：

进一步地，通道注意力机制模型中，

和/>

分别表示两幅源图像的多尺度深层特征，/>

和/>

表示通过最大池化算子和softmax计算得到的通道向量；

最大池化算子计算公式为：

经过softmax运算公式：

和/>

表示通过通道向量加权得到的增强深度特征，/>

是最终经过通道注意力机制模型得到的融合特征，由以下公式得到：

最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值，如下公式所示：

实施本发明具有如下有益效果：通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失，梯度弥散、爆炸的问题；通过对融合模型引入深度可分离卷积实现了模型的轻量化，解决现有融合模型参数量、模型规模过大，难以适配边缘端设备的问题；将本发明应用于电力设备图像融合领域并进行了融合效果的验证，为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测，并且将融合模型轻量化后移植到边缘端设备中进行实时融合，既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率；在投入较低成本同时获得更高的回报，也更适应智能电网的发展需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种多光谱图像融合模型的构建方法的流程示意图。

图2是本发明实施例中自编码器网络的结构示意图。

图3是本发明实施例中构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块的结构示意图。

图4是本发明实施例中构建的简单卷积结构块的结构示意图。

图5是本发明实施例中注意力机制结构示意图。

图6是本发明实施例中空间注意力机制结构示意图。

图7是本发明实施例中通道注意力机制结构示意图。

图8是本发明实施例构建的多光谱图像融合模型的结构示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例提供一种多光谱图像融合模型的构建方法，包括：

步骤S4，构建基于像素损失和结构相似性损失的损失函数；

步骤S5，训练所述自编码器网络；

具体地，如图2所示，步骤S1构建的自编码器网络包括编码器网络和解码器网络，其中编码器网络实现对输入的多光谱图像的特征提取、特征升维，解码器网络将提取好的特征在通道维度进行特征压缩、特征降维，最后重建复原出输入的多光谱图像。

编码器网络为串联连接结构，解码器为嵌套连接结构。首先，将输入图像经3×3卷积层后送入编码器网络，得到多层次深度特征。将得到的多层次深度特征分别送入解码器网络里，第一层特征直接送入解码器1里，第二层特征同时经过上采样层后送入解码器1和直接送入解码器2中，第三层特征直接经上采样层送入解码器2中。然后，解码器网络分别对多层次深度特征进行解码，解码器1将解码降维过的特征送入解码器3中，解码器2将解码降维过的特征经上采样层后送入解码器3中，最后由解码器3解码降维所有特征并经3×3卷积层后得到输出，具体各个层级通道转换数如表1所示。

表1

步骤S2是构建一种基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块，用于对自编码器网络中的编码器网络实现网络降维、模型压缩、模型轻量化。如图3所示，整个卷积结构块由7层组成，第一层为3×3深度逐通道卷积，将单个卷积核应用到每一个输入通道，其中一个输入通道只被一个卷积核进行卷积；第2、3层分别为批量化层和Leaky-ReLU激活函数层，批量化层对神经网络中各个卷积层的参数的量级进行统一，使卷积层产生的中间值更加稳定，Leaky-ReLU激活函数通过把中间值非常小的线性分量给予负输入来调整负值的零梯度问题，有效防止反向传播中产生梯度消失；第4层为1×1逐点卷积层，使用单位卷积核进行标准卷积生成特征图；第5、6层同样为批量化层和Leaky-ReLU激活函数层；第7层为最大值池化层，对特征图所选取领域内取最大值取代该领域内的值，从而达到下采样的目的，有利于过滤特征图中不必要的冗余信息。

步骤S3构造一种简单的卷积结构块，用于自编码器网络中的解码器网络实现特征压缩、特征降维，重建复原输入图像。如图4所示，整个卷积结构块由4层组成，第1层为常规3×3卷积层，第2、4层为ReLU层，第3层为1×1常规卷积层。

步骤S4构建的基于像素损失和结构相似性损失的损失函数，如以下公式所示：

L_total＝L_pixel+λL_ssim

其中，L_pixel和L_ssim表示输入图像和输出图像之间的像素损失和结构相似性损失，λ表示L_pixel和L_ssim之间的权衡值。

像素损失的计算公式如下所示：

其中，O和I分别表示输出和输入图像；‖·‖_F是Frobenius范数；L_pixel用于计算O和I之间的距离。此损失函数将确保重建图像在像素级别上更接近输入图像。

结构相似性损失的计算公式如下所示：

L_ssim＝1-SSIM(O,I)

其中，SSIM表示结构相似性度量，当SSIM(·)的值越大，输出图像O和输入图像I的结构越相似。

SSIM度量由三个对比模块组成：亮度、对比度、结构，如下公式所示：

步骤S5训练上述自编码器网络，训练数据集采用公开数据集MS-COCO2017，基于pytorch深度学习框架，运行设备为NvidiaGeForceRTX3090，训练图像数据40000张，设置batch_size为32，进行10轮训练，总共进行12500次迭代，将训练图像读取为单通道的灰度图像，经3×3卷积层后输入到编码器网络中得到特征图，再将得到的特征图送入解码器网络经3×3卷积层后输出图像。

步骤S6的融合策略包含两个注意力机制模型，分别是空间注意力机制模型和通道注意力机制模型。空间注意力机制模型用于融合多层次深度特征，通道注意力机制模型用于融合多通道信息特征。最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。空间注意力机制模型如图6所示，m＝{1,2,3}表示编码器提取的特征层数，

和/>

表示由L1范数和softmax根据多尺度深层特征/>

和/>

计算得到的加权图，具体由以下公式计算：

其中，||·‖表示L1范数，K＝{1,2}，(x,y)表示多尺度深层特征和加权图中的相应位置。

和/>

分别表示由/>

和/>

获得的增强深度特征，由以下公式计算得到：

最终经过空间注意力机制得到的融合特征由增强深度特征相加得到，如下公式所示：

通道注意力机制模型如图7所示，如上所述，

和/>

分别表示两幅源图像的多尺度深层特征，/>

和/>

表示通过最大池化算子和softmax计算得到的通道向量。

首先，最大池化算子计算公式为：

然后，经过softmax运算公式：

和/>

表示通过通道向量加权得到的增强深度特征。/>

步骤S7将上述融合策略引入已经训练好的自编码器网络中，接在编码器之后，将红外光和可见光图像分别经3×3卷积层输入到编码器网络中，融合策略再对编码器网络提取的多层次深度特征图进行融合后再送入解码器网络中，最后生成融合图像。完整的多光谱图像融合模型如图8所示。

为验证本发明的融合效果，通过融合实验选取49张电力设备图像数据进行测试，测试结果表明本发明的融合效果较好，融合图片既保留了可见光图像所包含的现实细节，又保留了红外光图像所包含的温度纹理特征。以下是对不同融合模型采用49张电力设备红外光-可见光图像数据进行融合测试得出的融合图像评价指标。

表2

如表2所示，加粗字体表示最优效果。可以看出，本发明在交互信息、空间频率、视觉保真度上都取得最优值，而在信息熵上仅次于Nestfuse方法。以上结果表面本发明方法将更多的信息从源图像传输到了融合图像，包含最多的源图像信息量，融合结果具有最优的梯度信息与融合质量，融合效果表现得更加清晰，同时也有更好的视觉效果。

表3

模型/指标	参数量	模型大小
			Nestfuse	2732761	10.931MB
FusionGAN	1326404	5.306MB
			U2Fusion	659217	2.637MB
本发明	536698	2.147MB

表3是不同融合模型的参数量及参数大小对比，用来评估模型体积和轻量化程度，表中加粗字体表示最优值。可以看出，本发明在对卷积神经网络进行轻量化设计、引入深度可分离卷积后，表现出最小的参数量和模型大小，说明本发明极大程度地实现了相对于现有融合模型的轻量化设计，提升了在边缘端设备运行的可行性。

通过上述说明可知，与现有技术相比，本发明的有益效果在于：通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失，梯度弥散、爆炸的问题；通过对融合模型引入深度可分离卷积实现了模型的轻量化，解决现有融合模型参数量、模型规模过大，难以适配边缘端设备的问题；将本发明应用于电力设备图像融合领域并进行了融合效果的验证，为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测，并且将融合模型轻量化后移植到边缘端设备中进行实时融合，既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率；在投入较低成本同时获得更高的回报，也更适应智能电网的发展需求。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明的权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多光谱图像融合模型的构建方法，其特征在于，包括：

步骤S4，构建基于像素损失和结构相似性损失的损失函数；

步骤S5，训练所述自编码器网络；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1构建的自编码器网络包括编码器网络和解码器网络，所述编码器网络为串联连接结构，所述解码器网络为嵌套连接结构。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成，第一层为3×3深度逐通道卷积，将单个卷积核应用到每一个输入通道，其中一个输入通道只被一个卷积核进行卷积；第2、3层分别为批量化层和Leaky-ReLU激活函数层，批量化层对神经网络中各个卷积层的参数的量级进行统一，Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度；第4层为1×1逐点卷积层，使用单位卷积核进行标准卷积生成特征图；第5、6层为批量化层和Leaky-ReLU激活函数层；第7层为最大值池化层，对特征图所选取领域内取最大值取代该领域内的值，从而达到下采样的目的。

4.根据权利要求1所述的方法，其特征在于，所述步骤S3构建的简单卷积结构块由4层组成，第1层为3×3卷积层，第2、4层为ReLU层，第3层为1×1卷积层。

5.根据权利要求1所述的方法，其特征在于，所述步骤S4构建的基于像素损失和结构相似性损失的损失函数，如以下公式所示：

L_total＝L_pixel+λL_ssim

像素损失的计算公式如下所示：

结构相似性损失的计算公式如下所示：

L_ssim＝1-SSIM(O，I)

其中，SSIM表示结构相似性度量。

6.根据权利要求5所述的方法，其特征在于，SSIM度量由三个对比模块组成：亮度、对比度、结构，如下公式所示：

7.根据权利要求1所述的方法，其特征在于，所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型，空间注意力机制模型用于融合多层次深度特征，通道注意力机制模型用于融合多通道信息特征；最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。

8.根据权利要求7所述的方法，其特征在于，空间注意力机制模型中，由L1范数和softmax根据多尺度深层特征