CN116309221A - 一种多光谱图像融合模型的构建方法 - Google Patents

一种多光谱图像融合模型的构建方法 Download PDF

Info

Publication number
CN116309221A
CN116309221A CN202310255682.XA CN202310255682A CN116309221A CN 116309221 A CN116309221 A CN 116309221A CN 202310255682 A CN202310255682 A CN 202310255682A CN 116309221 A CN116309221 A CN 116309221A
Authority
CN
China
Prior art keywords
fusion
layer
convolution
constructing
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310255682.XA
Other languages
English (en)
Inventor
刘子俊
李艳
田杰
杜进桥
怡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202310255682.XA priority Critical patent/CN116309221A/zh
Publication of CN116309221A publication Critical patent/CN116309221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种多光谱图像融合模型的构建方法,包括:构建基于多层次深度串联与嵌套连接的自编码器网络;构建基于深度可分离卷积和Leaky‑ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;构建基于像素损失和结构相似性损失的损失函数;训练所述自编码器网络;构建基于平均池化算子实现注意力机制的融合策略;将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。本发明解决了卷积神经网络提取图像特征时会造成信息丢失等问题,实现了模型的轻量化。

Description

一种多光谱图像融合模型的构建方法
技术领域
本发明属于电力设备图像融合技术领域,具体涉及一种多光谱图像融合模型的构建方法。
背景技术
图像融合是指将不同的光谱图像进行结合,生成一幅相比源图像信息更加丰富的图像,以便于后续的观测、处理、决策,属于信息融合领域。在某些复杂场景下需要进行成像分析时,需要尽可能多得保留场景信息,以便于对该场景的展开深入研究。单光谱仅能感知目标的单一场景信息,无法对目标进行多模态感知。因此,融合技术在现代化应用和计算机视觉中发挥着越来越重要的作用。由于物理传感器的局限性,红外、紫外与可见光图像所捕获的场景信息有很大不同。多光谱图像融合技术是指将同一场景下的红外、紫外、可见光图像结合起来,利用这几种图像的互补性,生成鲁棒性强、信息量大的融合图像。多光谱图像融合技术在目标检测、图像增强、视频监控和遥感等领域都有着广泛的应用。
目前,多光谱融合技术已经广泛被应用于电力装备状态监测与检测中,每年至少形成的检测图像不低于356万张,已经呈现大数据特征。但目前光谱成像检测仍然以人工分析为主,且智能化程度较低。
通过电力设备的红外图像可以判断其是否发生故障,但是红外紫外图像往往轮廓不够清晰,而可见光图像信息丰富,细节也更全面,将红外紫外和可见光图像进行融合后,就可以得到既符合人们的视觉特性,又不受光照强度的影响,还包含了两幅源图像细节信息的融合图像。基于可见光、红外、紫外等3种光谱的复合设备带电检测技术,将可见光、红外、紫外3种检测手段有机地结合起来,优势互补,易对电路进行带电检测,能够及时发现设备缺陷,便于开展大面积的巡检。
多光谱图像融合方法主要分为传统方法和深度学习方法。传统的图像融合方法主要使用多尺度变换(MST)、稀疏表示(SR)、基于显著性、混合模型、基于优化的方法和其他方法。这些方法已经取得了良好的融合性能,但融合方法需要手工制作、并且忽视了红外紫外可见光各自的图像特点、难以提取图像特征,算法模型计算复杂度高等问题仍然存在。随着计算机性能的逐步提升,基于深度学习的融合方法已经慢慢超越了传统融合方法,现有的基于深度学习的图像融合方法主要分为三大类:基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法以及基于自编码器网络(AE)的方法。在基于深度学习的方法中,FusionGAN、DDcGAN和Nestfuse等模型改进传统方法的缺点,但也有一定的局限性。首先,随着网络的加深,深度神经网络的训练愈加困难,在反向更新参数时容易出现梯度爆炸或梯度弥散的情况,导致训练收敛速度缓慢甚至无法收敛。梯度弥散是指在反向传播梯度时,随着传播深度的加深,梯度的幅度急剧减小,导致浅层神经元的权重更新缓慢,不能有效学习,梯度爆炸是指在深层网络中。误差梯度在更新中累积,变成非常大的梯度,使得学习变得不稳定,导致融合结果质量低下。其次,边缘端设备在存储能力、计算单元和电池电量等资源上显得十分匮乏。因此,在低成本环境中使用有效的深度学习模型方法成了真正的挑战。当前的关键问题是如何在不显著降低网络性能的情况下为移动端或嵌入式设备配置有效的神经网络模型、如何在计算资源有限的嵌入式设备上实现既有高精度和低延迟的多光谱融合功能。
发明内容
本发明所要解决的技术问题在于,提供一种多光谱图像融合模型的构建方法,以提高图像融合效果,实现模型轻量化。
为解决上述技术问题,本发明提供一种多光谱图像融合模型的构建方法,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
进一步地,所述步骤S1构建的自编码器网络包括编码器网络和解码器网络,所述编码器网络为串联连接结构,所述解码器网络为嵌套连接结构。
进一步地,所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的。
进一步地,所述步骤S3构建的简单卷积结构块由4层组成,第1层为3×3卷积层,第2、4层为ReLU层,第3层为1×1卷积层。
进一步地,所述步骤S4构建的基于像素损失和结构相似性损失的损失函数,如以下公式所示:
Ltotal=Lpixel+λLssim
其中,Lpixel和Lssim表示输入图像和输出图像之间的像素损失和结构相似性损失,λ表示Lpixel和Lssim之间的权衡值;
像素损失的计算公式如下所示:
Figure BDA0004129553930000031
其中,O和I分别表示输出和输入图像;‖·‖F是Frobenius范数;Lpixel用于计算O和I之间的距离;
结构相似性损失的计算公式如下所示:
Lssim=1-SSIM(O,I)
其中,SSIM表示结构相似性度量。
进一步地,SSIM度量由三个对比模块组成:亮度、对比度、结构,如下公式所示:
Figure BDA0004129553930000041
其中,μxy分别表示两幅图像的平均灰度,作为亮度测量的估计;C1,C2是接近0的常数,用来防止上述公式分母为0导致度量不稳定的情况;σxy分别表示两幅图像的标准差,作为对比度测量的估计;σxy表示两幅图像的协方差。
进一步地,所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型,空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征;最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。
进一步地,空间注意力机制模型中,由L1范数和softmax根据多尺度深层特征
Figure BDA0004129553930000042
和/>
Figure BDA0004129553930000043
计算得到的加权图/>
Figure BDA0004129553930000044
和/>
Figure BDA0004129553930000045
具体由以下公式计算:
Figure BDA0004129553930000046
其中,‖·‖表示L1范数,K={1,2},(x,y)表示多尺度深层特征和加权图中的相应位置,m={1,2,3}表示编码器提取的特征层数。
进一步地,
Figure BDA0004129553930000047
和/>
Figure BDA0004129553930000048
分别表示由/>
Figure BDA0004129553930000049
和/>
Figure BDA00041295539300000410
获得的增强深度特征,由以下公式计算得到:
Figure BDA00041295539300000411
最终经过空间注意力机制模型得到的融合特征由增强深度特征相加得到,如下公式所示:
Figure BDA00041295539300000412
进一步地,通道注意力机制模型中,
Figure BDA00041295539300000413
和/>
Figure BDA00041295539300000414
分别表示两幅源图像的多尺度深层特征,/>
Figure BDA00041295539300000415
和/>
Figure BDA00041295539300000416
表示通过最大池化算子和softmax计算得到的通道向量;
最大池化算子计算公式为:
Figure BDA00041295539300000417
经过softmax运算公式:
Figure BDA00041295539300000418
Figure BDA00041295539300000419
和/>
Figure BDA00041295539300000420
表示通过通道向量加权得到的增强深度特征,/>
Figure BDA00041295539300000421
是最终经过通道注意力机制模型得到的融合特征,由以下公式得到:
Figure BDA0004129553930000051
最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值,如下公式所示:
Figure BDA0004129553930000052
实施本发明具有如下有益效果:通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失,梯度弥散、爆炸的问题;通过对融合模型引入深度可分离卷积实现了模型的轻量化,解决现有融合模型参数量、模型规模过大,难以适配边缘端设备的问题;将本发明应用于电力设备图像融合领域并进行了融合效果的验证,为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测,并且将融合模型轻量化后移植到边缘端设备中进行实时融合,既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率;在投入较低成本同时获得更高的回报,也更适应智能电网的发展需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种多光谱图像融合模型的构建方法的流程示意图。
图2是本发明实施例中自编码器网络的结构示意图。
图3是本发明实施例中构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块的结构示意图。
图4是本发明实施例中构建的简单卷积结构块的结构示意图。
图5是本发明实施例中注意力机制结构示意图。
图6是本发明实施例中空间注意力机制结构示意图。
图7是本发明实施例中通道注意力机制结构示意图。
图8是本发明实施例构建的多光谱图像融合模型的结构示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
请参照图1所示,本发明实施例提供一种多光谱图像融合模型的构建方法,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
具体地,如图2所示,步骤S1构建的自编码器网络包括编码器网络和解码器网络,其中编码器网络实现对输入的多光谱图像的特征提取、特征升维,解码器网络将提取好的特征在通道维度进行特征压缩、特征降维,最后重建复原出输入的多光谱图像。
编码器网络为串联连接结构,解码器为嵌套连接结构。首先,将输入图像经3×3卷积层后送入编码器网络,得到多层次深度特征。将得到的多层次深度特征分别送入解码器网络里,第一层特征直接送入解码器1里,第二层特征同时经过上采样层后送入解码器1和直接送入解码器2中,第三层特征直接经上采样层送入解码器2中。然后,解码器网络分别对多层次深度特征进行解码,解码器1将解码降维过的特征送入解码器3中,解码器2将解码降维过的特征经上采样层后送入解码器3中,最后由解码器3解码降维所有特征并经3×3卷积层后得到输出,具体各个层级通道转换数如表1所示。
表1
Figure BDA0004129553930000061
Figure BDA0004129553930000071
步骤S2是构建一种基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对自编码器网络中的编码器网络实现网络降维、模型压缩、模型轻量化。如图3所示,整个卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,使卷积层产生的中间值更加稳定,Leaky-ReLU激活函数通过把中间值非常小的线性分量给予负输入来调整负值的零梯度问题,有效防止反向传播中产生梯度消失;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层同样为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的,有利于过滤特征图中不必要的冗余信息。
步骤S3构造一种简单的卷积结构块,用于自编码器网络中的解码器网络实现特征压缩、特征降维,重建复原输入图像。如图4所示,整个卷积结构块由4层组成,第1层为常规3×3卷积层,第2、4层为ReLU层,第3层为1×1常规卷积层。
步骤S4构建的基于像素损失和结构相似性损失的损失函数,如以下公式所示:
Ltotal=Lpixel+λLssim
其中,Lpixel和Lssim表示输入图像和输出图像之间的像素损失和结构相似性损失,λ表示Lpixel和Lssim之间的权衡值。
像素损失的计算公式如下所示:
Figure BDA0004129553930000072
其中,O和I分别表示输出和输入图像;‖·‖F是Frobenius范数;Lpixel用于计算O和I之间的距离。此损失函数将确保重建图像在像素级别上更接近输入图像。
结构相似性损失的计算公式如下所示:
Lssim=1-SSIM(O,I)
其中,SSIM表示结构相似性度量,当SSIM(·)的值越大,输出图像O和输入图像I的结构越相似。
SSIM度量由三个对比模块组成:亮度、对比度、结构,如下公式所示:
Figure BDA0004129553930000081
其中,μxy分别表示两幅图像的平均灰度,作为亮度测量的估计;C1,C2是接近0的常数,用来防止上述公式分母为0导致度量不稳定的情况;σxy分别表示两幅图像的标准差,作为对比度测量的估计;σxy表示两幅图像的协方差。
步骤S5训练上述自编码器网络,训练数据集采用公开数据集MS-COCO2017,基于pytorch深度学习框架,运行设备为NvidiaGeForceRTX3090,训练图像数据40000张,设置batch_size为32,进行10轮训练,总共进行12500次迭代,将训练图像读取为单通道的灰度图像,经3×3卷积层后输入到编码器网络中得到特征图,再将得到的特征图送入解码器网络经3×3卷积层后输出图像。
步骤S6的融合策略包含两个注意力机制模型,分别是空间注意力机制模型和通道注意力机制模型。空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征。最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。空间注意力机制模型如图6所示,m={1,2,3}表示编码器提取的特征层数,
Figure BDA0004129553930000082
和/>
Figure BDA0004129553930000083
表示由L1范数和softmax根据多尺度深层特征/>
Figure BDA0004129553930000084
和/>
Figure BDA0004129553930000085
计算得到的加权图,具体由以下公式计算:
Figure BDA0004129553930000086
其中,||·‖表示L1范数,K={1,2},(x,y)表示多尺度深层特征和加权图中的相应位置。
Figure BDA0004129553930000087
和/>
Figure BDA0004129553930000088
分别表示由/>
Figure BDA0004129553930000089
和/>
Figure BDA00041295539300000810
获得的增强深度特征,由以下公式计算得到:
Figure BDA00041295539300000811
最终经过空间注意力机制得到的融合特征由增强深度特征相加得到,如下公式所示:
Figure BDA0004129553930000091
通道注意力机制模型如图7所示,如上所述,
Figure BDA0004129553930000092
和/>
Figure BDA0004129553930000093
分别表示两幅源图像的多尺度深层特征,/>
Figure BDA0004129553930000094
和/>
Figure BDA0004129553930000095
表示通过最大池化算子和softmax计算得到的通道向量。
首先,最大池化算子计算公式为:
Figure BDA0004129553930000096
然后,经过softmax运算公式:
Figure BDA0004129553930000097
Figure BDA0004129553930000098
和/>
Figure BDA0004129553930000099
表示通过通道向量加权得到的增强深度特征。/>
Figure BDA00041295539300000910
是最终经过通道注意力机制模型得到的融合特征,由以下公式得到:
Figure BDA00041295539300000911
最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值,如下公式所示:
Figure BDA00041295539300000912
步骤S7将上述融合策略引入已经训练好的自编码器网络中,接在编码器之后,将红外光和可见光图像分别经3×3卷积层输入到编码器网络中,融合策略再对编码器网络提取的多层次深度特征图进行融合后再送入解码器网络中,最后生成融合图像。完整的多光谱图像融合模型如图8所示。
为验证本发明的融合效果,通过融合实验选取49张电力设备图像数据进行测试,测试结果表明本发明的融合效果较好,融合图片既保留了可见光图像所包含的现实细节,又保留了红外光图像所包含的温度纹理特征。以下是对不同融合模型采用49张电力设备红外光-可见光图像数据进行融合测试得出的融合图像评价指标。
表2
Figure BDA00041295539300000913
如表2所示,加粗字体表示最优效果。可以看出,本发明在交互信息、空间频率、视觉保真度上都取得最优值,而在信息熵上仅次于Nestfuse方法。以上结果表面本发明方法将更多的信息从源图像传输到了融合图像,包含最多的源图像信息量,融合结果具有最优的梯度信息与融合质量,融合效果表现得更加清晰,同时也有更好的视觉效果。
表3
模型/指标 参数量 模型大小
Nestfuse 2732761 10.931MB
FusionGAN 1326404 5.306MB
U2Fusion 659217 2.637MB
本发明 536698 2.147MB
表3是不同融合模型的参数量及参数大小对比,用来评估模型体积和轻量化程度,表中加粗字体表示最优值。可以看出,本发明在对卷积神经网络进行轻量化设计、引入深度可分离卷积后,表现出最小的参数量和模型大小,说明本发明极大程度地实现了相对于现有融合模型的轻量化设计,提升了在边缘端设备运行的可行性。
通过上述说明可知,与现有技术相比,本发明的有益效果在于:通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失,梯度弥散、爆炸的问题;通过对融合模型引入深度可分离卷积实现了模型的轻量化,解决现有融合模型参数量、模型规模过大,难以适配边缘端设备的问题;将本发明应用于电力设备图像融合领域并进行了融合效果的验证,为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测,并且将融合模型轻量化后移植到边缘端设备中进行实时融合,既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率;在投入较低成本同时获得更高的回报,也更适应智能电网的发展需求。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明的权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种多光谱图像融合模型的构建方法,其特征在于,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1构建的自编码器网络包括编码器网络和解码器网络,所述编码器网络为串联连接结构,所述解码器网络为嵌套连接结构。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3构建的简单卷积结构块由4层组成,第1层为3×3卷积层,第2、4层为ReLU层,第3层为1×1卷积层。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4构建的基于像素损失和结构相似性损失的损失函数,如以下公式所示:
Ltotal=Lpixel+λLssim
其中,Lpixel和Lssim表示输入图像和输出图像之间的像素损失和结构相似性损失,λ表示Lpixel和Lssim之间的权衡值;
像素损失的计算公式如下所示:
Figure FDA0004129553900000021
其中,O和I分别表示输出和输入图像;‖·‖F是Frobenius范数;Lpixel用于计算O和I之间的距离;
结构相似性损失的计算公式如下所示:
Lssim=1-SSIM(O,I)
其中,SSIM表示结构相似性度量。
6.根据权利要求5所述的方法,其特征在于,SSIM度量由三个对比模块组成:亮度、对比度、结构,如下公式所示:
Figure FDA0004129553900000022
其中,μxy分别表示两幅图像的平均灰度,作为亮度测量的估计;C1,C2是接近0的常数,用来防止上述公式分母为0导致度量不稳定的情况;σxy分别表示两幅图像的标准差,作为对比度测量的估计;σxy表示两幅图像的协方差。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型,空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征;最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。
8.根据权利要求7所述的方法,其特征在于,空间注意力机制模型中,由L1范数和softmax根据多尺度深层特征
Figure FDA0004129553900000023
和/>
Figure FDA0004129553900000024
计算得到的加权图/>
Figure FDA0004129553900000025
和/>
Figure FDA0004129553900000026
具体由以下公式计算:
Figure FDA0004129553900000027
其中,||·‖表示L1范数,K={1,2},(x,y)表示多尺度深层特征和加权图中的相应位置,m={1,2,3}表示编码器提取的特征层数。
9.根据权利要求8所述的方法,其特征在于,
Figure FDA0004129553900000028
和/>
Figure FDA0004129553900000029
分别表示由/>
Figure FDA00041295539000000210
和/>
Figure FDA00041295539000000211
获得的增强深度特征,由以下公式计算得到:
Figure FDA0004129553900000031
最终经过空间注意力机制模型得到的融合特征由增强深度特征相加得到,如下公式所示:
Figure FDA0004129553900000032
10.根据权利要求9所述的方法,其特征在于,通道注意力机制模型中,
Figure FDA0004129553900000033
和/>
Figure FDA0004129553900000034
分别表示两幅源图像的多尺度深层特征,/>
Figure FDA0004129553900000035
和/>
Figure FDA0004129553900000036
表示通过最大池化算子和softmax计算得到的通道向量;
最大池化算子计算公式为:
Figure FDA0004129553900000037
经过softmax运算公式:
Figure FDA0004129553900000038
Figure FDA0004129553900000039
和/>
Figure FDA00041295539000000310
表示通过通道向量加权得到的增强深度特征,/>
Figure FDA00041295539000000311
是最终经过通道注意力机制模型得到的融合特征,由以下公式得到:
Figure FDA00041295539000000312
最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值,如下公式所示:
Figure FDA00041295539000000313
CN202310255682.XA 2023-03-10 2023-03-10 一种多光谱图像融合模型的构建方法 Pending CN116309221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310255682.XA CN116309221A (zh) 2023-03-10 2023-03-10 一种多光谱图像融合模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310255682.XA CN116309221A (zh) 2023-03-10 2023-03-10 一种多光谱图像融合模型的构建方法

Publications (1)

Publication Number Publication Date
CN116309221A true CN116309221A (zh) 2023-06-23

Family

ID=86793807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310255682.XA Pending CN116309221A (zh) 2023-03-10 2023-03-10 一种多光谱图像融合模型的构建方法

Country Status (1)

Country Link
CN (1) CN116309221A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法
CN117408893B (zh) * 2023-12-15 2024-04-05 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Similar Documents

Publication Publication Date Title
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
CN110097528B (zh) 一种基于联合卷积自编码网络的图像融合方法
CN106529447B (zh) 一种小样本人脸识别方法
CN110378849B (zh) 基于深度残差网络的图像去雾去雨方法
CN111080567A (zh) 基于多尺度动态卷积神经网络的遥感图像融合方法及系统
CN104657951A (zh) 图像乘性噪声移除方法
CN116363036B (zh) 基于视觉增强的红外与可见光图像融合方法
CN105550712A (zh) 基于优化卷积自动编码网络的极光图像分类方法
CN111160392A (zh) 一种基于小波宽度学习系统的高光谱分类方法
CN116503703A (zh) 一种基于分流注意力Transformer的红外光和可见光图像融合系统
CN116309221A (zh) 一种多光谱图像融合模型的构建方法
CN115578280A (zh) 一种双分支遥感图像去雾网络的构建方法
CN113112583A (zh) 基于红外热成像的3d人体重构方法
CN113822825B (zh) 基于3d-r2n2的光学建筑目标三维重建方法
CN113034371B (zh) 一种基于特征嵌入的红外与可见光图像融合方法
Zhou et al. MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution
CN114581789A (zh) 一种高光谱图像分类方法及系统
Li et al. An end-to-end system for unmanned aerial vehicle high-resolution remote sensing image haze removal algorithm using convolution neural network
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
CN117392065A (zh) 一种云边协同太阳能板覆灰状况自主评估方法
CN116993639A (zh) 基于结构重参数化的可见光与红外图像融合方法
CN117115675A (zh) 一种跨时相轻量化空谱特征融合高光谱变化检测方法、系统、设备及介质
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法
CN108596831B (zh) 一种基于AdaBoost实例回归的超分辨率重建方法
CN115619677A (zh) 一种基于改进的CycleGAN的图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination