CN116309221A - 一种多光谱图像融合模型的构建方法 - Google Patents
一种多光谱图像融合模型的构建方法 Download PDFInfo
- Publication number
- CN116309221A CN116309221A CN202310255682.XA CN202310255682A CN116309221A CN 116309221 A CN116309221 A CN 116309221A CN 202310255682 A CN202310255682 A CN 202310255682A CN 116309221 A CN116309221 A CN 116309221A
- Authority
- CN
- China
- Prior art keywords
- fusion
- layer
- convolution
- constructing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 42
- 230000004913 activation Effects 0.000 claims abstract description 17
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000006835 compression Effects 0.000 claims abstract description 11
- 238000007906 compression Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000013585 weight reducing agent Substances 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000007500 overflow downdraw method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000004880 explosion Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10036—Multispectral image; Hyperspectral image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Water Supply & Treatment (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种多光谱图像融合模型的构建方法,包括:构建基于多层次深度串联与嵌套连接的自编码器网络;构建基于深度可分离卷积和Leaky‑ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;构建基于像素损失和结构相似性损失的损失函数;训练所述自编码器网络;构建基于平均池化算子实现注意力机制的融合策略;将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。本发明解决了卷积神经网络提取图像特征时会造成信息丢失等问题,实现了模型的轻量化。
Description
技术领域
本发明属于电力设备图像融合技术领域,具体涉及一种多光谱图像融合模型的构建方法。
背景技术
图像融合是指将不同的光谱图像进行结合,生成一幅相比源图像信息更加丰富的图像,以便于后续的观测、处理、决策,属于信息融合领域。在某些复杂场景下需要进行成像分析时,需要尽可能多得保留场景信息,以便于对该场景的展开深入研究。单光谱仅能感知目标的单一场景信息,无法对目标进行多模态感知。因此,融合技术在现代化应用和计算机视觉中发挥着越来越重要的作用。由于物理传感器的局限性,红外、紫外与可见光图像所捕获的场景信息有很大不同。多光谱图像融合技术是指将同一场景下的红外、紫外、可见光图像结合起来,利用这几种图像的互补性,生成鲁棒性强、信息量大的融合图像。多光谱图像融合技术在目标检测、图像增强、视频监控和遥感等领域都有着广泛的应用。
目前,多光谱融合技术已经广泛被应用于电力装备状态监测与检测中,每年至少形成的检测图像不低于356万张,已经呈现大数据特征。但目前光谱成像检测仍然以人工分析为主,且智能化程度较低。
通过电力设备的红外图像可以判断其是否发生故障,但是红外紫外图像往往轮廓不够清晰,而可见光图像信息丰富,细节也更全面,将红外紫外和可见光图像进行融合后,就可以得到既符合人们的视觉特性,又不受光照强度的影响,还包含了两幅源图像细节信息的融合图像。基于可见光、红外、紫外等3种光谱的复合设备带电检测技术,将可见光、红外、紫外3种检测手段有机地结合起来,优势互补,易对电路进行带电检测,能够及时发现设备缺陷,便于开展大面积的巡检。
多光谱图像融合方法主要分为传统方法和深度学习方法。传统的图像融合方法主要使用多尺度变换(MST)、稀疏表示(SR)、基于显著性、混合模型、基于优化的方法和其他方法。这些方法已经取得了良好的融合性能,但融合方法需要手工制作、并且忽视了红外紫外可见光各自的图像特点、难以提取图像特征,算法模型计算复杂度高等问题仍然存在。随着计算机性能的逐步提升,基于深度学习的融合方法已经慢慢超越了传统融合方法,现有的基于深度学习的图像融合方法主要分为三大类:基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法以及基于自编码器网络(AE)的方法。在基于深度学习的方法中,FusionGAN、DDcGAN和Nestfuse等模型改进传统方法的缺点,但也有一定的局限性。首先,随着网络的加深,深度神经网络的训练愈加困难,在反向更新参数时容易出现梯度爆炸或梯度弥散的情况,导致训练收敛速度缓慢甚至无法收敛。梯度弥散是指在反向传播梯度时,随着传播深度的加深,梯度的幅度急剧减小,导致浅层神经元的权重更新缓慢,不能有效学习,梯度爆炸是指在深层网络中。误差梯度在更新中累积,变成非常大的梯度,使得学习变得不稳定,导致融合结果质量低下。其次,边缘端设备在存储能力、计算单元和电池电量等资源上显得十分匮乏。因此,在低成本环境中使用有效的深度学习模型方法成了真正的挑战。当前的关键问题是如何在不显著降低网络性能的情况下为移动端或嵌入式设备配置有效的神经网络模型、如何在计算资源有限的嵌入式设备上实现既有高精度和低延迟的多光谱融合功能。
发明内容
本发明所要解决的技术问题在于,提供一种多光谱图像融合模型的构建方法,以提高图像融合效果,实现模型轻量化。
为解决上述技术问题,本发明提供一种多光谱图像融合模型的构建方法,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
进一步地,所述步骤S1构建的自编码器网络包括编码器网络和解码器网络,所述编码器网络为串联连接结构,所述解码器网络为嵌套连接结构。
进一步地,所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的。
进一步地,所述步骤S3构建的简单卷积结构块由4层组成,第1层为3×3卷积层,第2、4层为ReLU层,第3层为1×1卷积层。
进一步地,所述步骤S4构建的基于像素损失和结构相似性损失的损失函数,如以下公式所示:
Ltotal=Lpixel+λLssim
其中,Lpixel和Lssim表示输入图像和输出图像之间的像素损失和结构相似性损失,λ表示Lpixel和Lssim之间的权衡值;
像素损失的计算公式如下所示:
其中,O和I分别表示输出和输入图像;‖·‖F是Frobenius范数;Lpixel用于计算O和I之间的距离;
结构相似性损失的计算公式如下所示:
Lssim=1-SSIM(O,I)
其中,SSIM表示结构相似性度量。
进一步地,SSIM度量由三个对比模块组成:亮度、对比度、结构,如下公式所示:
其中,μx,μy分别表示两幅图像的平均灰度,作为亮度测量的估计;C1,C2是接近0的常数,用来防止上述公式分母为0导致度量不稳定的情况;σx,σy分别表示两幅图像的标准差,作为对比度测量的估计;σxy表示两幅图像的协方差。
进一步地,所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型,空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征;最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。
其中,‖·‖表示L1范数,K={1,2},(x,y)表示多尺度深层特征和加权图中的相应位置,m={1,2,3}表示编码器提取的特征层数。
最终经过空间注意力机制模型得到的融合特征由增强深度特征相加得到,如下公式所示:
最大池化算子计算公式为:
经过softmax运算公式:
最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值,如下公式所示:
实施本发明具有如下有益效果:通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失,梯度弥散、爆炸的问题;通过对融合模型引入深度可分离卷积实现了模型的轻量化,解决现有融合模型参数量、模型规模过大,难以适配边缘端设备的问题;将本发明应用于电力设备图像融合领域并进行了融合效果的验证,为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测,并且将融合模型轻量化后移植到边缘端设备中进行实时融合,既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率;在投入较低成本同时获得更高的回报,也更适应智能电网的发展需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种多光谱图像融合模型的构建方法的流程示意图。
图2是本发明实施例中自编码器网络的结构示意图。
图3是本发明实施例中构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块的结构示意图。
图4是本发明实施例中构建的简单卷积结构块的结构示意图。
图5是本发明实施例中注意力机制结构示意图。
图6是本发明实施例中空间注意力机制结构示意图。
图7是本发明实施例中通道注意力机制结构示意图。
图8是本发明实施例构建的多光谱图像融合模型的结构示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
请参照图1所示,本发明实施例提供一种多光谱图像融合模型的构建方法,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
具体地,如图2所示,步骤S1构建的自编码器网络包括编码器网络和解码器网络,其中编码器网络实现对输入的多光谱图像的特征提取、特征升维,解码器网络将提取好的特征在通道维度进行特征压缩、特征降维,最后重建复原出输入的多光谱图像。
编码器网络为串联连接结构,解码器为嵌套连接结构。首先,将输入图像经3×3卷积层后送入编码器网络,得到多层次深度特征。将得到的多层次深度特征分别送入解码器网络里,第一层特征直接送入解码器1里,第二层特征同时经过上采样层后送入解码器1和直接送入解码器2中,第三层特征直接经上采样层送入解码器2中。然后,解码器网络分别对多层次深度特征进行解码,解码器1将解码降维过的特征送入解码器3中,解码器2将解码降维过的特征经上采样层后送入解码器3中,最后由解码器3解码降维所有特征并经3×3卷积层后得到输出,具体各个层级通道转换数如表1所示。
表1
步骤S2是构建一种基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对自编码器网络中的编码器网络实现网络降维、模型压缩、模型轻量化。如图3所示,整个卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,使卷积层产生的中间值更加稳定,Leaky-ReLU激活函数通过把中间值非常小的线性分量给予负输入来调整负值的零梯度问题,有效防止反向传播中产生梯度消失;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层同样为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的,有利于过滤特征图中不必要的冗余信息。
步骤S3构造一种简单的卷积结构块,用于自编码器网络中的解码器网络实现特征压缩、特征降维,重建复原输入图像。如图4所示,整个卷积结构块由4层组成,第1层为常规3×3卷积层,第2、4层为ReLU层,第3层为1×1常规卷积层。
步骤S4构建的基于像素损失和结构相似性损失的损失函数,如以下公式所示:
Ltotal=Lpixel+λLssim
其中,Lpixel和Lssim表示输入图像和输出图像之间的像素损失和结构相似性损失,λ表示Lpixel和Lssim之间的权衡值。
像素损失的计算公式如下所示:
其中,O和I分别表示输出和输入图像;‖·‖F是Frobenius范数;Lpixel用于计算O和I之间的距离。此损失函数将确保重建图像在像素级别上更接近输入图像。
结构相似性损失的计算公式如下所示:
Lssim=1-SSIM(O,I)
其中,SSIM表示结构相似性度量,当SSIM(·)的值越大,输出图像O和输入图像I的结构越相似。
SSIM度量由三个对比模块组成:亮度、对比度、结构,如下公式所示:
其中,μx,μy分别表示两幅图像的平均灰度,作为亮度测量的估计;C1,C2是接近0的常数,用来防止上述公式分母为0导致度量不稳定的情况;σx,σy分别表示两幅图像的标准差,作为对比度测量的估计;σxy表示两幅图像的协方差。
步骤S5训练上述自编码器网络,训练数据集采用公开数据集MS-COCO2017,基于pytorch深度学习框架,运行设备为NvidiaGeForceRTX3090,训练图像数据40000张,设置batch_size为32,进行10轮训练,总共进行12500次迭代,将训练图像读取为单通道的灰度图像,经3×3卷积层后输入到编码器网络中得到特征图,再将得到的特征图送入解码器网络经3×3卷积层后输出图像。
步骤S6的融合策略包含两个注意力机制模型,分别是空间注意力机制模型和通道注意力机制模型。空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征。最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。空间注意力机制模型如图6所示,m={1,2,3}表示编码器提取的特征层数,和/>表示由L1范数和softmax根据多尺度深层特征/>和/>计算得到的加权图,具体由以下公式计算:
其中,||·‖表示L1范数,K={1,2},(x,y)表示多尺度深层特征和加权图中的相应位置。
最终经过空间注意力机制得到的融合特征由增强深度特征相加得到,如下公式所示:
首先,最大池化算子计算公式为:
然后,经过softmax运算公式:
最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值,如下公式所示:
步骤S7将上述融合策略引入已经训练好的自编码器网络中,接在编码器之后,将红外光和可见光图像分别经3×3卷积层输入到编码器网络中,融合策略再对编码器网络提取的多层次深度特征图进行融合后再送入解码器网络中,最后生成融合图像。完整的多光谱图像融合模型如图8所示。
为验证本发明的融合效果,通过融合实验选取49张电力设备图像数据进行测试,测试结果表明本发明的融合效果较好,融合图片既保留了可见光图像所包含的现实细节,又保留了红外光图像所包含的温度纹理特征。以下是对不同融合模型采用49张电力设备红外光-可见光图像数据进行融合测试得出的融合图像评价指标。
表2
如表2所示,加粗字体表示最优效果。可以看出,本发明在交互信息、空间频率、视觉保真度上都取得最优值,而在信息熵上仅次于Nestfuse方法。以上结果表面本发明方法将更多的信息从源图像传输到了融合图像,包含最多的源图像信息量,融合结果具有最优的梯度信息与融合质量,融合效果表现得更加清晰,同时也有更好的视觉效果。
表3
模型/指标 | 参数量 | 模型大小 |
Nestfuse | 2732761 | 10.931MB |
FusionGAN | 1326404 | 5.306MB |
U2Fusion | 659217 | 2.637MB |
本发明 | 536698 | 2.147MB |
表3是不同融合模型的参数量及参数大小对比,用来评估模型体积和轻量化程度,表中加粗字体表示最优值。可以看出,本发明在对卷积神经网络进行轻量化设计、引入深度可分离卷积后,表现出最小的参数量和模型大小,说明本发明极大程度地实现了相对于现有融合模型的轻量化设计,提升了在边缘端设备运行的可行性。
通过上述说明可知,与现有技术相比,本发明的有益效果在于:通过能够提取多层次深度特征的编码器网络解决了卷积神经网络提取图像特征时会造成信息丢失,梯度弥散、爆炸的问题;通过对融合模型引入深度可分离卷积实现了模型的轻量化,解决现有融合模型参数量、模型规模过大,难以适配边缘端设备的问题;将本发明应用于电力设备图像融合领域并进行了融合效果的验证,为电力设备图像融合领域提供了一个解决方案。本发明可以代替传统的对单一图像的人工观测,并且将融合模型轻量化后移植到边缘端设备中进行实时融合,既可以增加变电设备状态观测的信息又可以提高观测设备的工作效率;在投入较低成本同时获得更高的回报,也更适应智能电网的发展需求。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明的权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种多光谱图像融合模型的构建方法,其特征在于,包括:
步骤S1,构建基于多层次深度串联与嵌套连接的自编码器网络;
步骤S2,构建基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块,用于对所述自编码器网络中的编码器网络进行降维、模型压缩和模型轻量化;
步骤S3,构建简单卷积结构块,用于所述自编码器网络中的解码器网络进行特征压缩和特征降维,重建复原输入图像;
步骤S4,构建基于像素损失和结构相似性损失的损失函数;
步骤S5,训练所述自编码器网络;
步骤S6,构建基于平均池化算子实现注意力机制的融合策略;
步骤S7,将所述融合策略引入已经训练好的所述自编码器网络中,用于对输入的红外光和可见光图像进行融合。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1构建的自编码器网络包括编码器网络和解码器网络,所述编码器网络为串联连接结构,所述解码器网络为嵌套连接结构。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2构建的基于深度可分离卷积和Leaky-ReLU激活函数的卷积结构块由7层组成,第一层为3×3深度逐通道卷积,将单个卷积核应用到每一个输入通道,其中一个输入通道只被一个卷积核进行卷积;第2、3层分别为批量化层和Leaky-ReLU激活函数层,批量化层对神经网络中各个卷积层的参数的量级进行统一,Leaky-ReLU激活函数把线性分量给予负输入来调整负值的零梯度;第4层为1×1逐点卷积层,使用单位卷积核进行标准卷积生成特征图;第5、6层为批量化层和Leaky-ReLU激活函数层;第7层为最大值池化层,对特征图所选取领域内取最大值取代该领域内的值,从而达到下采样的目的。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3构建的简单卷积结构块由4层组成,第1层为3×3卷积层,第2、4层为ReLU层,第3层为1×1卷积层。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6的融合策略包含空间注意力机制模型和通道注意力机制模型,空间注意力机制模型用于融合多层次深度特征,通道注意力机制模型用于融合多通道信息特征;最终生成的融合特征为通过空间注意力机制模型获得的融合特征与通过通道注意力机制模型获得的融合特征的算数平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310255682.XA CN116309221A (zh) | 2023-03-10 | 2023-03-10 | 一种多光谱图像融合模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310255682.XA CN116309221A (zh) | 2023-03-10 | 2023-03-10 | 一种多光谱图像融合模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116309221A true CN116309221A (zh) | 2023-06-23 |
Family
ID=86793807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310255682.XA Pending CN116309221A (zh) | 2023-03-10 | 2023-03-10 | 一种多光谱图像融合模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309221A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408893A (zh) * | 2023-12-15 | 2024-01-16 | 青岛科技大学 | 一种基于浅层神经网络的水下图像增强方法 |
-
2023
- 2023-03-10 CN CN202310255682.XA patent/CN116309221A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408893A (zh) * | 2023-12-15 | 2024-01-16 | 青岛科技大学 | 一种基于浅层神经网络的水下图像增强方法 |
CN117408893B (zh) * | 2023-12-15 | 2024-04-05 | 青岛科技大学 | 一种基于浅层神经网络的水下图像增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709902B (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
CN110097528B (zh) | 一种基于联合卷积自编码网络的图像融合方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN110378849B (zh) | 基于深度残差网络的图像去雾去雨方法 | |
CN111080567A (zh) | 基于多尺度动态卷积神经网络的遥感图像融合方法及系统 | |
CN104657951A (zh) | 图像乘性噪声移除方法 | |
CN116363036B (zh) | 基于视觉增强的红外与可见光图像融合方法 | |
CN105550712A (zh) | 基于优化卷积自动编码网络的极光图像分类方法 | |
CN111160392A (zh) | 一种基于小波宽度学习系统的高光谱分类方法 | |
CN116503703A (zh) | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 | |
CN116309221A (zh) | 一种多光谱图像融合模型的构建方法 | |
CN115578280A (zh) | 一种双分支遥感图像去雾网络的构建方法 | |
CN113112583A (zh) | 基于红外热成像的3d人体重构方法 | |
CN113822825B (zh) | 基于3d-r2n2的光学建筑目标三维重建方法 | |
CN113034371B (zh) | 一种基于特征嵌入的红外与可见光图像融合方法 | |
Zhou et al. | MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
Li et al. | An end-to-end system for unmanned aerial vehicle high-resolution remote sensing image haze removal algorithm using convolution neural network | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN117392065A (zh) | 一种云边协同太阳能板覆灰状况自主评估方法 | |
CN116993639A (zh) | 基于结构重参数化的可见光与红外图像融合方法 | |
CN117115675A (zh) | 一种跨时相轻量化空谱特征融合高光谱变化检测方法、系统、设备及介质 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN108596831B (zh) | 一种基于AdaBoost实例回归的超分辨率重建方法 | |
CN115619677A (zh) | 一种基于改进的CycleGAN的图像去雾方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |