CN115018748A - 结合模型结构重构和注意力机制的空天遥感图像融合方法 - Google Patents
结合模型结构重构和注意力机制的空天遥感图像融合方法 Download PDFInfo
- Publication number
- CN115018748A CN115018748A CN202210635583.XA CN202210635583A CN115018748A CN 115018748 A CN115018748 A CN 115018748A CN 202210635583 A CN202210635583 A CN 202210635583A CN 115018748 A CN115018748 A CN 115018748A
- Authority
- CN
- China
- Prior art keywords
- image
- model structure
- convolution
- model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 2
- 230000007306 turnover Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000005286 illumination Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种结合模型结构重构和注意力机制的空天遥感图像融合方法。分别对红外图像和可见光图像进行特征提取,使用注意力机制进行权重分配,将两个通道的数据进行拼接,最后再结合图像特征提取阶段的浅层数据特征进行图像重建,最后得到融合结果。本发明在图像重构时同时使用浅层特征层和深度特征层,有效避免了深层神经网络结构容易出现的特征丢失问题;引入了注意力机制模块,有效减弱了源图像中复杂背景的干扰,有效凸显重要目标信息;引入了模型结构重构模块,在保证图像融合效果的前提下有效提升了图像的融合速度。
Description
技术领域
本发明涉及数据融合、图像处理领域,尤其是一种图像融合方法。
背景技术
现有空天平台被广泛应用于监视与侦察等军事任务,以及国土勘测,自然灾害预测等民用领域。其拍摄环境较为复杂,需要在不同天气条件和光照条件下工作,并且需要昼夜连续运行,因此空天平台一般需要搭载多种图像传感器以适应不同的任务场景,目前空天平台一般搭载红外传感器和可见光传感器。红外图像的成像主要依靠物体自身的热辐射进行,因此不受光照条件、天气的影响,但其对比度一般较低;可见光图像虽然细节纹理信息较为丰富,但其容易受到光照条件的影响,将红外与可见光图像进行融合可以得到对环境信息和重要目标信息全面描述的图像。而目前基于空间域和变换域的图像融合方法鲁棒性不强,难以满足环境复杂多变的无人机监视侦察任务要求;一些深度学习方法则在运行效率方面表现不佳,不能满足实时性需求。综上所述,当前需要一种既能实现高质量融合,又能高效完成融合任务的图像融合算法。
发明内容
为了克服现有技术的不足,本发明提供一种结合模型结构重构和注意力机制的空天遥感图像融合方法。本发明提出一种基于多层级联式神经网络结构的端到端图像融合模型,增加了注意力机制通过对特征图赋予权重信息,有效去除融合结果中的冗余信息,突出重要目标的特征;采用模型结构重构的方法在模型训练阶段和模型测试阶段采用不同的网络结,提升融合算法的运行效率,使得图像融合达到准实时的效果,大幅度提升模型的运算速度。
为有效提升检测模型对于源图像中重要目标的提取能力,提升模型的运算速度。本发明提出了一种基于多层级联式神经网络结构的端到端图像融合模型,引入注意力模块结构和模型结构重构模块,提升模型的融合效果和融合速度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤一:使用集成了红外摄像机和可见光摄像机的空天平台获得行人、汽车以及建筑的包含多个目标的红外、可见光视频数据,并将视频数据按照间隔5帧的方式分解为图像,作为数据集;
步骤二:对于获得的数据集进行数据增强,数据增强包括随机改变图像对比度和亮度,及进行旋转、翻转和平移的操作,以增强原数据集的数据多样性,扩展数据分布范围,并将数据集随机分为训练集、测试集、验证集;
步骤三:将红外数据与可见光数据输入至图2所示的多层级联式图像融合模型结构中,使用梯度下降的方法不断最小化损失函数,利用反向传播不断更新网络参数,最终得到用于推理的权重文件;
多层级联式图像融合模型结构中,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在70期训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件;所述多层级联式图像融合模型结构中,在图像特征提取阶段,解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果;
步骤四:利用本发明设计的如图3所示的模型结构重构方法将多分支的图像特征提取网络结构等效转化为单路模型结构,重构多层级联式图像融合模型,以提升模型的运算速度;
步骤五:将红外与可见光图像的测试集在模型结构重构后的网络模型上进行推理,保留其在推理阶段的测试数据;
步骤六:利用图像融合方法与检测结果进行对比分析。
所述多层级联式图像融合模型结构的训练部分,特征提取阶段采用的多分支模型结构,使用1×1和3×3两种卷积核,令代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积,卷积核步长为2,扩充为1,该操作用式(5)表示:
将所得结果输入至批归一化(Batch normalizations)层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加,使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
在训练阶段完成之后,对模型中的特征提取部分采用模型结构重构,具体重构的步骤如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构;大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核;
利用以上结果得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
经过以上结构重构,完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
所述注意力模块利用池化、卷积以及激活等操作得到权重图,注意力模块中,将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,最大池化可以有效增加图像特征的不变性,增强图像在偏移、旋转等方面的鲁棒性;而平均池化则具有更好的保留局部信息的作用,因此在注意力模块中同时使用这两种池化层,以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重,平均池化层和最大值池化层分别如式(1),式(2)所示:
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图;进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数,得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接,该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘得到注意力模块输出结果,如式(4)所示:
所述损失函数采用:
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性,C是稳定系数,公式(10)中高斯函数的标准差被设定为1.5,SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果,W表示滑动窗口,该窗口从左上角不断移动至右下角,其中C=9×10-4并且w=11×11;
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)所示:
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
式(12)中Pi为像素点的灰度值,取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将ε1和ε2的取值互换,SSIM部分的损失函数LSSIM如式(13)所示:
其中N表示在单个图像中滑动窗口的总数,LSSIM为实现自适应图像融合的损失函数;
在图像重构时,添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数,当公式(13)和公式(15)的两种类型的损失函数差异巨大达到102甚至103时,LSSIM在损失函数中的占比相当低,会导致融合图像的对比度和质量下降;相反地,当损失函数中LSSIM较大时,融合结果中可见光图像细节信息将会大幅度减少;为了平衡这种差异,在不同的数据集都能取得比较好的融合效果,设置超参数λ,调整λ数值以平衡LTV和LSSIM的差异带来的影响,最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
其中,超参数λ的取值为100-300。
本发明的有益效果在于:
(1)使用了多层级联式网络结构进行图像融合,在图像重构时同时使用浅层特征层和深度特征层,有效避免了深层神经网络结构容易出现的特征丢失问题;
(2)引入了注意力机制模块,有效减弱了源图像中复杂背景的干扰,有效凸显重要目标信息;
(3)引入了模型结构重构模块,在保证图像融合效果的前提下有效提升了图像的融合速度。
附图说明
图1是本发明结合特征聚合和注意力机制的红外视频目标检测模型结构示意图。
图2是本发明多层级联式图像融合模型全局结构。
图3是本发明模型结构重构模块示意图,图3(a)为模型结构重构模块训练阶段示意图,图3(b)模型结构重构模块推理阶段示意图。
图4是本发明注意力模块示意图。
图5是本发明实验测试结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
红外图像和可见光图像的成像原理相差较大,红外图像不受光照条件变化的影响,但其图像分辨率一般较低;而可见光虽然分辨率较高,但是在夜晚的成像会受到很大程度的限制。因此在空天平台中要将这两种图像进行融合,以有效利用红外图像与可见光图像各自的成像优点。
综上所述,围绕红外与可见光图像融合,需要解决的问题如下:
(1)针对一些基于变换域和空间域的融合方法中难以保留重要的目标特征,如何在融合时将有效信息保留,而去除冗余的信息;
(2)针对卷积神经网络由于其庞大的参数量和复杂的模型结构,容易出现运算速度慢的问题,如何在保持融合效果的情况下,显著提高模型的运算速度。
采取的方案如下:
(1)提出一种基于多层级联式神经网络的结构,并引入注意力模块,增强对图像中重要目标的聚焦能力,并且去除无效的冗余信息;
(2)提出一种实现模型结构重构的模块,在网络模型训练中使用复杂的网络结构,以保证图像融合的效果,训练结束后将结构重构为单路模型,提升模型运算速度。
本发明设计的红外图像与可见光图像融合流程主要分为4个阶段,流程如图1所示,包括分别对红外图像和可见光图像进行特征提取,使用注意力机制进行权重分配,将两个通道的数据进行拼接,最后再结合图像特征提取阶段的浅层数据特征进行图像重建,最后得到融合结果。
由于红外图像与可见光图像的数据集数量有限,为了使数据特征分布的更加全面,因此使用随机对比度、随机亮度、随机翻转、随机旋转的操作对数据集进行增强,以提升模型在多种情况下的鲁棒性,在对数据集进行增强后将其随机分为训练集、验证集和测试集。
图2为本发明设计的多层级联式图像融合模型结构,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在70期训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件。对于该网络结构,进行诸多增强性能的优化,在图像特征提取阶段,本发明为提高红外与可见光图像融合速度,引入了一种实现模型结构重构的图像特征提取模块,该模块解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,从而同时利用多分支模型训练时的优势(性能好)和单路模型推理时的优势(速度高,省内存),该模块的具体说明如图3所示。特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,为了实现融合图像的有效表示,其分解与重构过程取消了池化操作以减少信息的丢失。
将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,使得在特征提取和图像重构阶段可以更好地关注于目标信息。该模块只对特征图进行加权,不改变特征图尺寸,注意力模块的具体实现如图4所示,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图。为了保留更多的源图像中的信息,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果。
图3为模型结构重构模块,该部分,图3(a)表示了在模型训练部分中,特征提取阶段采用的多分支模型结构,在模型结构重构模块中本发明使用了1×1和3×3两种卷积核,其中1×1卷积核可以灵活的实现特征图的升维,并且可以有效完成不同的通道在模型中混合使用3×3卷积核和1×1卷积核的方式要明显强于使用两个3×3卷积核;并且这样做还可以有效的减少模型的参数量,提高模型的非线性。
令代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数。如图3(a)所示,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积。其卷积核步长为2,扩充为1,该操作用式(5)表示:
将所得结果输入至批归一化(Batch normalizations)层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加。使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
图3(b)表示了在训练阶段完成之后,为提高模型运算速度,对模型中的特征提取部分采用了模型结构重构方法,方法具体如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构。大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核。
利用以上结果容易得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
经过以上模型结构重构过程,就完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
注意力机制可以有效的提升模型的融合效果,本发明将其添加在特征提取阶段之后,如图4所示;在红外与可见光图像融合任务中,低照度条件下重要目标在红外图像中一般有亮度较高的特征,根据这种特点,使用注意力机制可以在此任务中取得更好的融合效果。本发明提出的注意力模块是利用池化、卷积以及激活等操作得到权重图,用该权重图对不同的特征向量进行适当增强或者抑制,从而突出源图像中的典型目标。注意力模块作为一个轻量级的模块,直接将其添加在特征提取模块之后,具体的网络结构如图2所示。将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,最大池化可以有效增加图像特征的不变性,增强图像在偏移、旋转等方面的鲁棒性;而平均池化则具有更好的保留局部信息的作用,因此在注意力模块中同时使用这两种池化层。以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重。平均池化层和最大值池化层分别如式(1),式(2)所示:
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图。为了得到权重信息,还需要进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数。以上得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接。该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘就可以得到注意力模块输出结果,如式(4)所示:
深度学习模型的损失函数直接影响了红外与可见光图像的融合效果,本发明设计了一种健壮的损失函数。其基于SSIM和TV进行设计,该部分的目标是实现无监督学习和确定合适的参数来训练出预期的模型结构。
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性。C是稳定系数。该公式中高斯函数的标准差被设定为1.5。SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果。W表示滑动窗口,该窗口从左上角不断移动至右下角。其中C=9×10-4并且w=11×11。
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
式(12)中Pi为像素点的灰度值。一般来说,在低照度情况下,图像中感兴趣区域能量信息与图像的局部灰度值呈现正相关的特性。当红外图像的平均灰度值E(Iir|W)大于可见光图像的平均灰度值E(Iv|W)时,这意味着当前窗口中红外图像包含的信息是多于可见光图像的,此时损失函数应该指导网络保留更多的红外图像特征,因此取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将,的取值互换。基于这种策略,SSIM部分的损失函数LSSIM如式13所示:
其中N表示在单个图像中滑动窗口的总数,LSSIM为可以实现自适应图像融合的损失函数。
在图像重构过程中,图像上偶然产生的噪声可能会对复原结果产生非常大的影响,因此本发明添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数。当两种类型的损失函数差异巨大达到102甚至103时,LSSIM在损失函数中的占比相当低,会导致融合图像的对比度和质量下降;相反地,当损失函数中LSSIM较大时,融合结果中可见光图像细节信息将会大幅度减少。为了平衡这种差异,在不同的数据集都能取得比较好的融合效果,本发明设置了超参数λ,调整λ数值可以平衡LTV和LSSIM的差异带来的影响。最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
图5使用本发明提出的方法在无人机拍摄的数据集上进行了验证,结果表明提出的模型结构重构方法和注意力机制在运算效率和融合效果方面的提升是显著的。另外实验表明该方法可以很好的应用在空天平台上,对于完成监视与侦察任务有很大的提升。
Claims (5)
1.一种结合模型结构重构和注意力机制的空天遥感图像融合方法其特征在于包括下述步骤:
步骤一:使用集成了红外摄像机和可见光摄像机的空天平台获得行人、汽车以及建筑的包含多个目标的红外、可见光视频数据,并将视频数据按照间隔5帧的方式分解为图像,作为数据集;
步骤二:对于获得的数据集进行数据增强,数据增强包括随机改变图像对比度和亮度,及进行旋转、翻转和平移的操作,以增强原数据集的数据多样性,扩展数据分布范围,并将数据集随机分为训练集、测试集、验证集;
步骤三:将红外数据与可见光数据输入至多层级联式图像融合模型结构中,使用梯度下降的方法不断最小化损失函数,利用反向传播不断更新网络参数,最终得到用于推理的权重文件;
多层级联式图像融合模型结构中,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件;所述多层级联式图像融合模型结构中,在图像特征提取阶段,解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果;
步骤四:利用模型结构重构将多分支的图像特征提取网络结构等效转化为单路模型结构,重构多层级联式图像融合模型,以提升模型的运算速度;
步骤五:将红外与可见光图像的测试集在模型结构重构后的网络模型上进行推理,保留其在推理阶段的测试数据;
步骤六:利用图像融合方法与检测结果进行对比分析。
2.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述多层级联式图像融合模型结构的训练部分,特征提取阶段采用的多分支模型结构,使用1×1和3×3两种卷积核,令代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积,卷积核步长为2,扩充为1,该操作用式(5)表示:
将所得结果输入至批归一化层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加,使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
3.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
在训练阶段完成之后,对模型中的特征提取部分采用模型结构重构,具体重构的步骤如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构;大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核;
利用以上结果得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
经过以上结构重构,完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
4.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述注意力模块利用池化、卷积以及激活等操作得到权重图,注意力模块中,将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重,平均池化层和最大值池化层分别如式(1),式(2)所示:
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图;进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数,得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接,该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘得到注意力模块输出结果,如式(4)所示:
5.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述损失函数采用:
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性,C是稳定系数,公式(10)中高斯函数的标准差被设定为1.5,SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果,W表示滑动窗口,该窗口从左上角不断移动至右下角,其中C=9×10-4并且w=11×11;
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)所示:
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
式(12)中Pi为像素点的灰度值,取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将ε1和ε2的取值互换,SSIM部分的损失函数LSSIM如式(13)所示:
其中N表示在单个图像中滑动窗口的总数,LSSIM为实现自适应图像融合的损失函数;
在图像重构时,添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数,设置超参数λ,调整λ数值以平衡LTV和LSSIM的差异带来的影响,最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
其中,超参数λ的取值为100-300。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210635583.XA CN115018748A (zh) | 2022-06-06 | 2022-06-06 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210635583.XA CN115018748A (zh) | 2022-06-06 | 2022-06-06 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115018748A true CN115018748A (zh) | 2022-09-06 |
Family
ID=83073023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210635583.XA Pending CN115018748A (zh) | 2022-06-06 | 2022-06-06 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018748A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN112819737A (zh) * | 2021-01-13 | 2021-05-18 | 西北大学 | 基于3d卷积的多尺度注意力深度卷积网络的遥感图像融合方法 |
-
2022
- 2022-06-06 CN CN202210635583.XA patent/CN115018748A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN112819737A (zh) * | 2021-01-13 | 2021-05-18 | 西北大学 | 基于3d卷积的多尺度注意力深度卷积网络的遥感图像融合方法 |
Non-Patent Citations (1)
Title |
---|
俞利新 等: "结合结构重参数化方法与空间注意力机制的图像融合模型", 《计算机应用研究》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN116664462B (zh) * | 2023-05-19 | 2024-01-19 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
CN117115065B (zh) * | 2023-10-25 | 2024-01-23 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111882002B (zh) | 一种基于msf-am的低照度目标检测方法 | |
CN115018748A (zh) | 结合模型结构重构和注意力机制的空天遥感图像融合方法 | |
CN111145290B (zh) | 一种图像彩色化方法、系统和计算机可读存储介质 | |
Guan et al. | DnRCNN: Deep recurrent convolutional neural network for HSI destriping | |
CN114972748B (zh) | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 | |
CN114998141B (zh) | 基于多分支网络的空间环境高动态范围成像方法 | |
Ding et al. | A robust infrared and visible image fusion framework via multi-receptive-field attention and color visual perception | |
Wang et al. | Deep near infrared colorization with semantic segmentation and transfer learning | |
Yu et al. | Two-stage image decomposition and color regulator for low-light image enhancement | |
CN114972780A (zh) | 一种基于改进YOLOv5的轻量化目标检测网络 | |
CN114511484A (zh) | 基于多级LatLRR的红外和彩色可见光图像快速融合方法 | |
Yin et al. | Adaptive enhanced infrared and visible image fusion using hybrid decomposition and coupled dictionary | |
Di et al. | FDNet: An end-to-end fusion decomposition network for infrared and visible images | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
CN114972869B (zh) | 一种基于反事实因果学习的红外微弱目标检测方法 | |
Cao et al. | A deep thermal-guided approach for effective low-light visible image enhancement | |
CN115661451A (zh) | 一种深度学习单帧红外弱小目标高分辨率分割方法 | |
Yang et al. | Semantic segmentation of low earth orbit satellites using convolutional neural networks | |
Ma et al. | Infrared Image Generation By Pix2pix Based on Multi-receptive Field Feature Fusion | |
Chen et al. | GADO-Net: an improved AOD-Net single image dehazing algorithm | |
Hua et al. | An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration | |
Zhou et al. | Supervised-unsupervised combined transformer for spectral compressive imaging reconstruction | |
Dávila-Meza et al. | Quaternion and split quaternion neural networks for low-light color image enhancement | |
Chen et al. | DDGAN: Dense Residual Module and Dual-stream Attention-Guided Generative Adversarial Network for colorizing near-infrared images | |
CN116152117B (zh) | 一种基于Transformer的井下低光照图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220906 |
|
RJ01 | Rejection of invention patent application after publication |