CN115018748A - 结合模型结构重构和注意力机制的空天遥感图像融合方法 - Google Patents

结合模型结构重构和注意力机制的空天遥感图像融合方法 Download PDF

Info

Publication number
CN115018748A
CN115018748A CN202210635583.XA CN202210635583A CN115018748A CN 115018748 A CN115018748 A CN 115018748A CN 202210635583 A CN202210635583 A CN 202210635583A CN 115018748 A CN115018748 A CN 115018748A
Authority
CN
China
Prior art keywords
image
model structure
convolution
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210635583.XA
Other languages
English (en)
Inventor
吕军锋
崔祺
许悦雷
张兆祥
周清
回天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210635583.XA priority Critical patent/CN115018748A/zh
Publication of CN115018748A publication Critical patent/CN115018748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种结合模型结构重构和注意力机制的空天遥感图像融合方法。分别对红外图像和可见光图像进行特征提取,使用注意力机制进行权重分配,将两个通道的数据进行拼接,最后再结合图像特征提取阶段的浅层数据特征进行图像重建,最后得到融合结果。本发明在图像重构时同时使用浅层特征层和深度特征层,有效避免了深层神经网络结构容易出现的特征丢失问题;引入了注意力机制模块,有效减弱了源图像中复杂背景的干扰,有效凸显重要目标信息;引入了模型结构重构模块,在保证图像融合效果的前提下有效提升了图像的融合速度。

Description

结合模型结构重构和注意力机制的空天遥感图像融合方法
技术领域
本发明涉及数据融合、图像处理领域,尤其是一种图像融合方法。
背景技术
现有空天平台被广泛应用于监视与侦察等军事任务,以及国土勘测,自然灾害预测等民用领域。其拍摄环境较为复杂,需要在不同天气条件和光照条件下工作,并且需要昼夜连续运行,因此空天平台一般需要搭载多种图像传感器以适应不同的任务场景,目前空天平台一般搭载红外传感器和可见光传感器。红外图像的成像主要依靠物体自身的热辐射进行,因此不受光照条件、天气的影响,但其对比度一般较低;可见光图像虽然细节纹理信息较为丰富,但其容易受到光照条件的影响,将红外与可见光图像进行融合可以得到对环境信息和重要目标信息全面描述的图像。而目前基于空间域和变换域的图像融合方法鲁棒性不强,难以满足环境复杂多变的无人机监视侦察任务要求;一些深度学习方法则在运行效率方面表现不佳,不能满足实时性需求。综上所述,当前需要一种既能实现高质量融合,又能高效完成融合任务的图像融合算法。
发明内容
为了克服现有技术的不足,本发明提供一种结合模型结构重构和注意力机制的空天遥感图像融合方法。本发明提出一种基于多层级联式神经网络结构的端到端图像融合模型,增加了注意力机制通过对特征图赋予权重信息,有效去除融合结果中的冗余信息,突出重要目标的特征;采用模型结构重构的方法在模型训练阶段和模型测试阶段采用不同的网络结,提升融合算法的运行效率,使得图像融合达到准实时的效果,大幅度提升模型的运算速度。
为有效提升检测模型对于源图像中重要目标的提取能力,提升模型的运算速度。本发明提出了一种基于多层级联式神经网络结构的端到端图像融合模型,引入注意力模块结构和模型结构重构模块,提升模型的融合效果和融合速度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤一:使用集成了红外摄像机和可见光摄像机的空天平台获得行人、汽车以及建筑的包含多个目标的红外、可见光视频数据,并将视频数据按照间隔5帧的方式分解为图像,作为数据集;
步骤二:对于获得的数据集进行数据增强,数据增强包括随机改变图像对比度和亮度,及进行旋转、翻转和平移的操作,以增强原数据集的数据多样性,扩展数据分布范围,并将数据集随机分为训练集、测试集、验证集;
步骤三:将红外数据与可见光数据输入至图2所示的多层级联式图像融合模型结构中,使用梯度下降的方法不断最小化损失函数,利用反向传播不断更新网络参数,最终得到用于推理的权重文件;
多层级联式图像融合模型结构中,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在70期训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件;所述多层级联式图像融合模型结构中,在图像特征提取阶段,解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果;
步骤四:利用本发明设计的如图3所示的模型结构重构方法将多分支的图像特征提取网络结构等效转化为单路模型结构,重构多层级联式图像融合模型,以提升模型的运算速度;
步骤五:将红外与可见光图像的测试集在模型结构重构后的网络模型上进行推理,保留其在推理阶段的测试数据;
步骤六:利用图像融合方法与检测结果进行对比分析。
所述多层级联式图像融合模型结构的训练部分,特征提取阶段采用的多分支模型结构,使用1×1和3×3两种卷积核,令
Figure BDA0003680175290000021
代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积,卷积核步长为2,扩充为1,该操作用式(5)表示:
Figure BDA0003680175290000022
其中j表示该层的第j个卷积核,
Figure BDA0003680175290000031
表示经过卷积处理的输出,*表示二维卷积操作,β为偏置;
将所得结果输入至批归一化(Batch normalizations)层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
Figure BDA0003680175290000032
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加,使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
在训练阶段完成之后,对模型中的特征提取部分采用模型结构重构,具体重构的步骤如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构;大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核;
Figure BDA0003680175290000033
表示3×3的卷积核,
Figure BDA0003680175290000034
表示1×1卷积核,利用式(6)中给出整理后的结果,得出融合后的卷积核f′(j)和偏置bj,如式(7)、(8)所示。
Figure BDA0003680175290000035
Figure BDA0003680175290000036
利用以上结果得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
Figure BDA0003680175290000037
经过以上结构重构,完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
所述注意力模块利用池化、卷积以及激活等操作得到权重图,注意力模块中,将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,最大池化可以有效增加图像特征的不变性,增强图像在偏移、旋转等方面的鲁棒性;而平均池化则具有更好的保留局部信息的作用,因此在注意力模块中同时使用这两种池化层,以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重,平均池化层和最大值池化层分别如式(1),式(2)所示:
Figure BDA0003680175290000041
Figure BDA0003680175290000042
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图;进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数,得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接,该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘得到注意力模块输出结果,如式(4)所示:
Figure BDA0003680175290000043
式中
Figure BDA0003680175290000044
表示矩阵中对应元素相乘,Fk’则表示经过注意力权重分配后得到的结果。
所述损失函数采用:
Figure BDA0003680175290000045
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性,C是稳定系数,公式(10)中高斯函数的标准差被设定为1.5,SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果,W表示滑动窗口,该窗口从左上角不断移动至右下角,其中C=9×10-4并且w=11×11;
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)所示:
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
Figure BDA0003680175290000046
式(12)中Pi为像素点的灰度值,取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将ε1和ε2的取值互换,SSIM部分的损失函数LSSIM如式(13)所示:
Figure BDA0003680175290000051
其中N表示在单个图像中滑动窗口的总数,LSSIM为实现自适应图像融合的损失函数;
在图像重构时,添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
Figure BDA0003680175290000052
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数,当公式(13)和公式(15)的两种类型的损失函数差异巨大达到102甚至103时,LSSIM在损失函数中的占比相当低,会导致融合图像的对比度和质量下降;相反地,当损失函数中LSSIM较大时,融合结果中可见光图像细节信息将会大幅度减少;为了平衡这种差异,在不同的数据集都能取得比较好的融合效果,设置超参数λ,调整λ数值以平衡LTV和LSSIM的差异带来的影响,最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
其中,超参数λ的取值为100-300。
本发明的有益效果在于:
(1)使用了多层级联式网络结构进行图像融合,在图像重构时同时使用浅层特征层和深度特征层,有效避免了深层神经网络结构容易出现的特征丢失问题;
(2)引入了注意力机制模块,有效减弱了源图像中复杂背景的干扰,有效凸显重要目标信息;
(3)引入了模型结构重构模块,在保证图像融合效果的前提下有效提升了图像的融合速度。
附图说明
图1是本发明结合特征聚合和注意力机制的红外视频目标检测模型结构示意图。
图2是本发明多层级联式图像融合模型全局结构。
图3是本发明模型结构重构模块示意图,图3(a)为模型结构重构模块训练阶段示意图,图3(b)模型结构重构模块推理阶段示意图。
图4是本发明注意力模块示意图。
图5是本发明实验测试结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
红外图像和可见光图像的成像原理相差较大,红外图像不受光照条件变化的影响,但其图像分辨率一般较低;而可见光虽然分辨率较高,但是在夜晚的成像会受到很大程度的限制。因此在空天平台中要将这两种图像进行融合,以有效利用红外图像与可见光图像各自的成像优点。
综上所述,围绕红外与可见光图像融合,需要解决的问题如下:
(1)针对一些基于变换域和空间域的融合方法中难以保留重要的目标特征,如何在融合时将有效信息保留,而去除冗余的信息;
(2)针对卷积神经网络由于其庞大的参数量和复杂的模型结构,容易出现运算速度慢的问题,如何在保持融合效果的情况下,显著提高模型的运算速度。
采取的方案如下:
(1)提出一种基于多层级联式神经网络的结构,并引入注意力模块,增强对图像中重要目标的聚焦能力,并且去除无效的冗余信息;
(2)提出一种实现模型结构重构的模块,在网络模型训练中使用复杂的网络结构,以保证图像融合的效果,训练结束后将结构重构为单路模型,提升模型运算速度。
本发明设计的红外图像与可见光图像融合流程主要分为4个阶段,流程如图1所示,包括分别对红外图像和可见光图像进行特征提取,使用注意力机制进行权重分配,将两个通道的数据进行拼接,最后再结合图像特征提取阶段的浅层数据特征进行图像重建,最后得到融合结果。
由于红外图像与可见光图像的数据集数量有限,为了使数据特征分布的更加全面,因此使用随机对比度、随机亮度、随机翻转、随机旋转的操作对数据集进行增强,以提升模型在多种情况下的鲁棒性,在对数据集进行增强后将其随机分为训练集、验证集和测试集。
图2为本发明设计的多层级联式图像融合模型结构,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在70期训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件。对于该网络结构,进行诸多增强性能的优化,在图像特征提取阶段,本发明为提高红外与可见光图像融合速度,引入了一种实现模型结构重构的图像特征提取模块,该模块解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,从而同时利用多分支模型训练时的优势(性能好)和单路模型推理时的优势(速度高,省内存),该模块的具体说明如图3所示。特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,为了实现融合图像的有效表示,其分解与重构过程取消了池化操作以减少信息的丢失。
将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,使得在特征提取和图像重构阶段可以更好地关注于目标信息。该模块只对特征图进行加权,不改变特征图尺寸,注意力模块的具体实现如图4所示,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图。为了保留更多的源图像中的信息,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果。
图3为模型结构重构模块,该部分,图3(a)表示了在模型训练部分中,特征提取阶段采用的多分支模型结构,在模型结构重构模块中本发明使用了1×1和3×3两种卷积核,其中1×1卷积核可以灵活的实现特征图的升维,并且可以有效完成不同的通道在模型中混合使用3×3卷积核和1×1卷积核的方式要明显强于使用两个3×3卷积核;并且这样做还可以有效的减少模型的参数量,提高模型的非线性。
Figure BDA0003680175290000071
代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数。如图3(a)所示,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积。其卷积核步长为2,扩充为1,该操作用式(5)表示:
Figure BDA0003680175290000072
其中j表示该层的第j个卷积核,
Figure BDA0003680175290000073
表示经过卷积处理的输出,*表示二维卷积操作,β为偏置。
将所得结果输入至批归一化(Batch normalizations)层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
Figure BDA0003680175290000081
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加。使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
图3(b)表示了在训练阶段完成之后,为提高模型运算速度,对模型中的特征提取部分采用了模型结构重构方法,方法具体如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构。大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核。
Figure BDA0003680175290000082
表示3×3的卷积核,
Figure BDA0003680175290000083
表示1×1卷积核,利用式(6)中给出整理后的结果,得出融合后的卷积核f′(j)和偏置bj,如式(7)、(8)所示。
Figure BDA0003680175290000084
Figure BDA0003680175290000085
利用以上结果容易得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
Figure BDA0003680175290000086
经过以上模型结构重构过程,就完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
注意力机制可以有效的提升模型的融合效果,本发明将其添加在特征提取阶段之后,如图4所示;在红外与可见光图像融合任务中,低照度条件下重要目标在红外图像中一般有亮度较高的特征,根据这种特点,使用注意力机制可以在此任务中取得更好的融合效果。本发明提出的注意力模块是利用池化、卷积以及激活等操作得到权重图,用该权重图对不同的特征向量进行适当增强或者抑制,从而突出源图像中的典型目标。注意力模块作为一个轻量级的模块,直接将其添加在特征提取模块之后,具体的网络结构如图2所示。将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,最大池化可以有效增加图像特征的不变性,增强图像在偏移、旋转等方面的鲁棒性;而平均池化则具有更好的保留局部信息的作用,因此在注意力模块中同时使用这两种池化层。以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重。平均池化层和最大值池化层分别如式(1),式(2)所示:
Figure BDA0003680175290000091
Figure BDA0003680175290000092
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图。为了得到权重信息,还需要进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数。以上得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接。该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘就可以得到注意力模块输出结果,如式(4)所示:
Figure BDA0003680175290000093
式中
Figure BDA0003680175290000094
表示矩阵中对应元素相乘,Fk’则表示经过注意力权重分配后得到的结果。
深度学习模型的损失函数直接影响了红外与可见光图像的融合效果,本发明设计了一种健壮的损失函数。其基于SSIM和TV进行设计,该部分的目标是实现无监督学习和确定合适的参数来训练出预期的模型结构。
Figure BDA0003680175290000095
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性。C是稳定系数。该公式中高斯函数的标准差被设定为1.5。SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果。W表示滑动窗口,该窗口从左上角不断移动至右下角。其中C=9×10-4并且w=11×11。
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
Figure BDA0003680175290000101
式(12)中Pi为像素点的灰度值。一般来说,在低照度情况下,图像中感兴趣区域能量信息与图像的局部灰度值呈现正相关的特性。当红外图像的平均灰度值E(Iir|W)大于可见光图像的平均灰度值E(Iv|W)时,这意味着当前窗口中红外图像包含的信息是多于可见光图像的,此时损失函数应该指导网络保留更多的红外图像特征,因此取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将,的取值互换。基于这种策略,SSIM部分的损失函数LSSIM如式13所示:
Figure BDA0003680175290000102
其中N表示在单个图像中滑动窗口的总数,LSSIM为可以实现自适应图像融合的损失函数。
在图像重构过程中,图像上偶然产生的噪声可能会对复原结果产生非常大的影响,因此本发明添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
Figure BDA0003680175290000103
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数。当两种类型的损失函数差异巨大达到102甚至103时,LSSIM在损失函数中的占比相当低,会导致融合图像的对比度和质量下降;相反地,当损失函数中LSSIM较大时,融合结果中可见光图像细节信息将会大幅度减少。为了平衡这种差异,在不同的数据集都能取得比较好的融合效果,本发明设置了超参数λ,调整λ数值可以平衡LTV和LSSIM的差异带来的影响。最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
图5使用本发明提出的方法在无人机拍摄的数据集上进行了验证,结果表明提出的模型结构重构方法和注意力机制在运算效率和融合效果方面的提升是显著的。另外实验表明该方法可以很好的应用在空天平台上,对于完成监视与侦察任务有很大的提升。

Claims (5)

1.一种结合模型结构重构和注意力机制的空天遥感图像融合方法其特征在于包括下述步骤:
步骤一:使用集成了红外摄像机和可见光摄像机的空天平台获得行人、汽车以及建筑的包含多个目标的红外、可见光视频数据,并将视频数据按照间隔5帧的方式分解为图像,作为数据集;
步骤二:对于获得的数据集进行数据增强,数据增强包括随机改变图像对比度和亮度,及进行旋转、翻转和平移的操作,以增强原数据集的数据多样性,扩展数据分布范围,并将数据集随机分为训练集、测试集、验证集;
步骤三:将红外数据与可见光数据输入至多层级联式图像融合模型结构中,使用梯度下降的方法不断最小化损失函数,利用反向传播不断更新网络参数,最终得到用于推理的权重文件;
多层级联式图像融合模型结构中,使用Pytorch框架将其实现,并将数据集中的训练集输入至模型中进行训练,在训练过程中,利用梯度下降的方法不断最小化损失函数,并使用反向传播更新深度学习网络参数,最终的得到用于推理的权重文件;所述多层级联式图像融合模型结构中,在图像特征提取阶段,解耦了训练时的架构和推理时的架构,使用多分支网络架构进行训练,而使用单路模型进行推理,特征提取阶段共使用5个模型结构重构模块进行特征提取,将特征图尺寸变为7×7×128,将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息,将经过注意力模块的红外图像特征图和可见光特征图进行拼接,得到尺寸为7×7×256的特征图,采用级联的方式,将浅层特征与深层特征相拼接,然后利用反卷积层,逐层将特征图重构为尺寸为224×224×1的融合结果;
步骤四:利用模型结构重构将多分支的图像特征提取网络结构等效转化为单路模型结构,重构多层级联式图像融合模型,以提升模型的运算速度;
步骤五:将红外与可见光图像的测试集在模型结构重构后的网络模型上进行推理,保留其在推理阶段的测试数据;
步骤六:利用图像融合方法与检测结果进行对比分析。
2.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述多层级联式图像融合模型结构的训练部分,特征提取阶段采用的多分支模型结构,使用1×1和3×3两种卷积核,令
Figure FDA0003680175280000021
代表特征图,其中H×W代表特征图的高度和宽度,C代表特征图通道数,将其输入到模型结构重构模块后,分别经过3×3卷积核和1×1卷积核进行卷积,卷积核步长为2,扩充为1,该操作用式(5)表示:
Figure FDA0003680175280000022
其中j表示该层的第j个卷积核,
Figure FDA0003680175280000023
表示经过卷积处理的输出,*表示二维卷积操作,β为偏置;
将所得结果输入至批归一化层中,用以减少过拟合和加快训练进程,输出O写为式(6)形式:
Figure FDA0003680175280000024
其中γ为比例因子,β为偏置,μ为当前通道的均值,σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后,将得到的两组权重矩阵进行对应元素相加,使用斜率为0.1的LeakyReLu激活函数增加模型非线性,防止出现梯度消失的情况。
3.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
在训练阶段完成之后,对模型中的特征提取部分采用模型结构重构,具体重构的步骤如下:
将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型,从而提高推理时的运行速度,该过程称为模型结构重构;大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出,将这些核的对应权重相加,得到产生相同输出的等效卷积核;
Figure FDA0003680175280000025
表示3×3的卷积核,
Figure FDA0003680175280000026
表示1×1卷积核,利用式(6)中给出整理后的结果,得出融合后的卷积核f′(j)和偏置bj,如式(7)、(8)所示。
Figure FDA0003680175280000027
Figure FDA0003680175280000028
利用以上结果得到,使用最终融合后的卷积核进行卷积操作表示为式(9)的形式:
Figure FDA0003680175280000031
经过以上结构重构,完成了将多分支结构转化为单路模型的过程,转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。
4.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述注意力模块利用池化、卷积以及激活等操作得到权重图,注意力模块中,将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中,首先分别进行平均池化和最大值池化,以X=[x1,x2,x3,...,xn]表示特征图,xn(i,j)表示第n层卷积在(i,j)对应位置上的权重,平均池化层和最大值池化层分别如式(1),式(2)所示:
Figure FDA0003680175280000032
Figure FDA0003680175280000033
将经过两种池化的特征图沿通道维度进行拼接,得到新的尺寸为7×7×256的特征图;进一步对其进行3×3卷积,其输入通道为256,输出通道为128;为了增加模型的非线性,卷积结束后设置了Sigmoid激活函数,得到第k层的权重Wk的过程如式(3)所示:
Wk=σ[f3×3*Concat(AvgPool(Fk),MaxPool(Fk))] (3)
其中σ表示sigmoid激活函数,f3×3表示卷积核大小为3×3的卷积层,Concat代表沿通道将两种特征图进行拼接,该权重Wk对输入特征图的通道进行加权,并且还能对每一层的特征图中重要的部分进行加权,因此使用第k层权重Wk和第k层特征图Fk进行对应元素相乘得到注意力模块输出结果,如式(4)所示:
Figure FDA0003680175280000034
式中
Figure FDA0003680175280000035
表示矩阵中对应元素相乘,Fk’则表示经过注意力权重分配后得到的结果。
5.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法,其特征在于:
所述损失函数采用:
Figure FDA0003680175280000041
其中σ分别表示图像的标准差,σXY表示了X和Y之间的相关性,C是稳定系数,公式(10)中高斯函数的标准差被设定为1.5,SSIM(Iv,IF|W)和SSIM(Iir,IF|W)都是通过式(10)计算,其中Iv,Iir,IF分别表示可见光图像、红外图像以及融合结果,W表示滑动窗口,该窗口从左上角不断移动至右下角,其中C=9×10-4并且w=11×11;
损失函数LSSIM’使用式(11)计算,E(I|W)表示平均灰度值,计算方法如式(12)所示:
LSSIM′(Iv,Iir,IF|W)=ε1·SSIMM(Iv,IF|W)+ε2·SSIMM(Iir,IF|W) (11)
Figure FDA0003680175280000042
式(12)中Pi为像素点的灰度值,取ε1=0.3,ε2=0.7并代入式(11)中;当可见光平均灰度值较高时则将ε1和ε2的取值互换,SSIM部分的损失函数LSSIM如式(13)所示:
Figure FDA0003680175280000043
其中N表示在单个图像中滑动窗口的总数,LSSIM为实现自适应图像融合的损失函数;
在图像重构时,添加了TV模型消除噪声,该部分损失函数如式(14)、(15)所示:
R(i,j)=IA(i,j)-IF(i,j) (14)
Figure FDA0003680175280000044
其中R表示了红外图像和可见光图像之间的差异,||||2是l2距离,LTV表示全变分损失函数,设置超参数λ,调整λ数值以平衡LTV和LSSIM的差异带来的影响,最终损失函数如式(16)所示:
Loss=λLSSIM+LTV (16)
其中,超参数λ的取值为100-300。
CN202210635583.XA 2022-06-06 2022-06-06 结合模型结构重构和注意力机制的空天遥感图像融合方法 Pending CN115018748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210635583.XA CN115018748A (zh) 2022-06-06 2022-06-06 结合模型结构重构和注意力机制的空天遥感图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210635583.XA CN115018748A (zh) 2022-06-06 2022-06-06 结合模型结构重构和注意力机制的空天遥感图像融合方法

Publications (1)

Publication Number Publication Date
CN115018748A true CN115018748A (zh) 2022-09-06

Family

ID=83073023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210635583.XA Pending CN115018748A (zh) 2022-06-06 2022-06-06 结合模型结构重构和注意力机制的空天遥感图像融合方法

Country Status (1)

Country Link
CN (1) CN115018748A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN117115065A (zh) * 2023-10-25 2023-11-24 宁波纬诚科技股份有限公司 基于聚焦损失函数约束的可见光和红外图像的融合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN112819737A (zh) * 2021-01-13 2021-05-18 西北大学 基于3d卷积的多尺度注意力深度卷积网络的遥感图像融合方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN112819737A (zh) * 2021-01-13 2021-05-18 西北大学 基于3d卷积的多尺度注意力深度卷积网络的遥感图像融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞利新 等: "结合结构重参数化方法与空间注意力机制的图像融合模型", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116664462B (zh) * 2023-05-19 2024-01-19 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN117115065A (zh) * 2023-10-25 2023-11-24 宁波纬诚科技股份有限公司 基于聚焦损失函数约束的可见光和红外图像的融合方法
CN117115065B (zh) * 2023-10-25 2024-01-23 宁波纬诚科技股份有限公司 基于聚焦损失函数约束的可见光和红外图像的融合方法

Similar Documents

Publication Publication Date Title
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN115018748A (zh) 结合模型结构重构和注意力机制的空天遥感图像融合方法
CN111145290B (zh) 一种图像彩色化方法、系统和计算机可读存储介质
Guan et al. DnRCNN: Deep recurrent convolutional neural network for HSI destriping
CN114972748B (zh) 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN114998141B (zh) 基于多分支网络的空间环境高动态范围成像方法
Ding et al. A robust infrared and visible image fusion framework via multi-receptive-field attention and color visual perception
Wang et al. Deep near infrared colorization with semantic segmentation and transfer learning
Yu et al. Two-stage image decomposition and color regulator for low-light image enhancement
CN114972780A (zh) 一种基于改进YOLOv5的轻量化目标检测网络
CN114511484A (zh) 基于多级LatLRR的红外和彩色可见光图像快速融合方法
Yin et al. Adaptive enhanced infrared and visible image fusion using hybrid decomposition and coupled dictionary
Di et al. FDNet: An end-to-end fusion decomposition network for infrared and visible images
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
CN114972869B (zh) 一种基于反事实因果学习的红外微弱目标检测方法
Cao et al. A deep thermal-guided approach for effective low-light visible image enhancement
CN115661451A (zh) 一种深度学习单帧红外弱小目标高分辨率分割方法
Yang et al. Semantic segmentation of low earth orbit satellites using convolutional neural networks
Ma et al. Infrared Image Generation By Pix2pix Based on Multi-receptive Field Feature Fusion
Chen et al. GADO-Net: an improved AOD-Net single image dehazing algorithm
Hua et al. An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration
Zhou et al. Supervised-unsupervised combined transformer for spectral compressive imaging reconstruction
Dávila-Meza et al. Quaternion and split quaternion neural networks for low-light color image enhancement
Chen et al. DDGAN: Dense Residual Module and Dual-stream Attention-Guided Generative Adversarial Network for colorizing near-infrared images
CN116152117B (zh) 一种基于Transformer的井下低光照图像增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220906

RJ01 Rejection of invention patent application after publication