CN116664462A - 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 - Google Patents

一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 Download PDF

Info

Publication number
CN116664462A
CN116664462A CN202310568133.8A CN202310568133A CN116664462A CN 116664462 A CN116664462 A CN 116664462A CN 202310568133 A CN202310568133 A CN 202310568133A CN 116664462 A CN116664462 A CN 116664462A
Authority
CN
China
Prior art keywords
image
fusion
convolution
infrared
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310568133.8A
Other languages
English (en)
Other versions
CN116664462B (zh
Inventor
邸敬
任莉
廉敬
杨燕
郭文庆
梁婵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou Jiaotong University
Original Assignee
Lanzhou Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou Jiaotong University filed Critical Lanzhou Jiaotong University
Priority to CN202310568133.8A priority Critical patent/CN116664462B/zh
Publication of CN116664462A publication Critical patent/CN116664462A/zh
Application granted granted Critical
Publication of CN116664462B publication Critical patent/CN116664462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于MS‑DSC和I_CBAM的红外和可见光图像融合方法,属于图像融合技术领域,该方法采用MS‑DSC对已配准的源图像进行特征提取,既克服单一尺度特征提取不足,又分别考虑了图像区域中的通道信息和空间信息,在减少参数的同时增强了网络表达能力,能更准确的提取目标对象的特征信息,将提取的特征信息采用I_CBAM从通道和空间两方面对图像的显著信息聚焦,抑制无用通道信息确保在融合时所有的显著特征都可以被利用,提升融合质量。本发明采用的I_CBAM算法是对原有算法的进一步改进,不仅展现了注意力机制在图像处理中的独特优势,而且在保留显著特征信息的同时降低了模型复杂度,通过与其他算法相结合,实现了纹理细节和场景信息清晰化,提升了融合质量。

Description

一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法
技术领域
本发明涉及图像融合技术领域,特别涉及一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。
背景技术
红外和可见光图像融合可以较好地挖掘被融合图像中的互补信息,得到更符合人眼或机器视觉特性的融合效果,对全天候检测、遥感、农业等其他应用具有重要的意义。红外图像能够捕捉热辐射信息并具有显著的对比度,可在背景中突出目标,但通常具有低分辨率和较差的纹理。相比之下,可见光图像包含丰富的细节信息并具有较高的分辨率,更符合人类视觉感知,但易受天气、照明等因素的影响。因此,在实际应用中,通常采用图像融合技术将红外和可见光图像融合,以对两者优势进行互补,从而得到特征明显、目标突出、细节丰富、高对比度清晰的图像。这种融合效果不仅可以更好地适应人眼的观察,也可以应用于军事侦察等领域,红外和可见光图像融合的目的是将不同成像原理所提供的信息优势提取并聚合,以获得具有完整场景表达能力的高质量融合图像,为全天候检测和其他任务提供更有效和全面的信息。
现有基于深度学习的图像融合面临的最大难题是缺乏用于监督学习的真值融合图像。为了解决这一难题,一些方法可以通过手动构造真值来解决,但通常不准确,导致特征提取不足,融合后的图像细节信息丢失、目标模糊、算法不稳定。为了提高融合质量,可采用无监督端到端图像融合算法,解决缺乏真值融合图像问题,红外和可见光图像融合技术升级的核心在于优化算法,提高算力以及提升融合质量。目前常用的红外和可见光图像融合算法大致分为两类:传统融合算法和基于深度学习的融合算法。传统融合算法通常在空间域或变换域设计活动水平测量和融合规则,利用相关的数学变换来实现融合。基于深度学习的融合算法通常通过构造目标函数来约束融合图像,以使其具有期望的分布特性。由于神经网络具有较强的非线性拟合能力,在图像融合方面具有较好的融合结果。红外和可见光图像融合的最终目的是利用经过训练的网络模型进行特征提取,无需手动制定人工水平和测量规则。通过选择适当的融合策略,将两幅或多幅图像的信息完整、清晰、全面地整合在一幅图像中。
本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型,与目前流行的图像融合算法相比,该算法的性能有了明显进步,通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足,原始特征无法保留等问题,而且减少了模型参数,提高了融合质量。I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势,能够捕获全局依赖关系,解决普通卷积只能感知局部信息,无法获得全局关联信息而使图像中的显著信息丢失。整体融合模型计算复杂度降低,速度快,融合效果好,实现了已有方法的优化和已有技术的升级。
发明内容
本发明目的就在于为了解决上述的问题,而提供一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。
为实现上述目的,本发明采取的技术方案为:一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,包含以下步骤:
S1:将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;其对应公式如下:
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图。
S2:对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。
在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-Layer Perception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc,在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图MS。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;其对应公式如下:
其中,F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值;f 3×3dilat表示卷积核大小为3的扩张卷积;实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化;σ表示Sigmoid激活函数;W0∈RC/r×C,W1∈RC×C/r,W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0
S4:将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
S5:将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
进一步地,设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
进一步地,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项,设置β=0.5,Lgrad表示梯度信息,Lint为梯度信息。
进一步地,梯度损失中引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数。S(·)是由权重块基于源图像的梯度水平生成的权重图。
进一步地,强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息。公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
进一步地,分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像。μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
与现有技术相比,本发明具有如下有益效果:
本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型,与目前流行的图像融合算法相比,该算法的性能有了明显进步,通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足,原始特征无法保留等问题,而且减少了模型参数,提高了融合质量。
I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势,能够捕获全局依赖关系,解决普通卷积只能感知局部信息,无法获得全局关联信息而是图像中的显著信息丢失,整体融合模型计算复杂度降低,速度快,融合效果好,实现了已有方法的优化和已有技术的升级。
附图说明
图1为本发明的红外和可见光图像融合方法流程图;
图2为本发明的场景一融合结果;
图3为本发明的场景二融合结果;
图4为本发明的场景三融合结果;
图5为本发明的场景四融合结果;
图6为本发明的场景五融合结果;
图7为本发明的场景六融合结果。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
图1为本发明实施例的红外和可见光图像融合方法流程图,如图1所示,根据本发明的红外和可见光图像融合方法,具体包括:
1)将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图。
2)对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
3)对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-LayerPerception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图,即Mc。在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图,即MS。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;
其中F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值。f 3×3dilat表示卷积核大小为3的扩张卷积。实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化。σ表示Sigmoid激活函数,W0∈RC/r×C,W1∈RC×C/r。W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0
4)将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
5)将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
在上述整体步骤中设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
红外图像和可见光图像最基本的组成元素是像素,像素的强度可以表示整体亮度分布,像素之间的差异则可以表示图像中的纹理细节。因此,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项。由于融合图像的主要强度信息来源于红外图像,为了使融合后的图像能够保持显著的对比度,设置β=0.5。Lgrad表示梯度信息,Lint为梯度信息。
梯度损失引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,尽可能的减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数,S(·)是由权重块基于源图像的梯度水平生成的权重图。
强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息。公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像。μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
通过上述方法得出本实验的对比图为图1-7,本实验红外和可见光图像来自经典数据集——TNO,其中包含261对昼夜多光谱图像,挑选了六种不同场景的图像作为本实验的源图像,源图像中最大像素为620×450,最小像素为280×280。
为增强本文算法的可比性和有效性,本实验的对比算法为本发明图像融合算法一种基于MS-DSC和I_CBAM的红外和可见光图像融合算法、一种基于耦合字典学习(coupleddictionary learning,CDL)的新型多模态图像融合算法、一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法、一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法、一种基于贝叶斯网络BF重建的红外和可见光图像融合算法、一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法、一种基于残差网络和零相位分量分析的红外和可见光图像融合算法、一种基于深度学习框架的红外和可见光图像融合算法。本实验的评价指标采用平均梯度(AG)、信息熵(EN)、标准差(STD)、改进空间频率(SF)、相关系数(CC)、基于视觉信息保真度(VIFF)、信噪比(SNR)、互信息(MI)、方差(Var)、互信息(MI)。AG通过计算灰度变化快慢的平均值反映图像的细节表征和纹理表征;EN通过计算融合结果的平均信息量衡量图像的丰富程度;SD通过计算灰度值和灰度均值之差反映图像中灰度值的分离情况,有助于计算对比度;SF通过计算空间域中图像灰度级活跃状况反映融合图像清晰度;MI是基于信息论的知识去计算融合后图像包含源图像多少信息量来衡量两幅图像之间的相似性;VIFF是表示与人眼主观特性一致的重要指标;SNR表示相对于有用信息具有较少的噪声;CC则是反映融合图像与源图像之间的相关程度。评价指标结果如表1到表8。我们根据性能指标的结果对8种算法进行了从低到高的排序。
表1EN评价指标结果
表2AG评价指标结果
表3SD评价指标结果
表4SF评价指标结果
表5MI评价指标结果
表6VIFF评价指标结果
表7SNR评价指标结果
表8CC评价指标结果
从表1到表8的客观评价指标可以看出,本发明的基于MS-DSC和I_CBAM的红外和可见光图像融合算法EN值高,说明融合结果信息量丰富;SF值高,说明融合结果清晰度高;AG值高,说明融合结果纹理和细节信息表征明显;SD值高,说明图像灰度值离散度高,图像携带的细节信息越丰富;VIFF值高,说明图像与人眼视觉特性一致;SNR值高说明融合结果中的有用信息得以保留,很少受到噪声的影响;CC值高说明源图像传递了很多重要特征,导致融合结果与其之间的相关性高。本算法MI评价指标略低于CDL、CCFL和BF方法,是由于本文使用concat和卷积融合策略在保存红外图像中的亮度信息的同时,并没有忽视可见光图像中的纹理信息。对于MI指标其侧重于均值法,也就是图像中的亮度信息,如果融合图像最终含有大量噪声,也会导致亮度信息增大,CDL、CCFL、BF方法其重点融合了红外信息而忽略可见光信息,使得在MI评价指标上达到最佳。其余七种评价指标都高于对比方法,这表明本发明方法图像融合后的图像效果好。
图2至图7为不同场景不同方法融合对比图,其中子图(a)和(b)为原始红外图像和可见光图像;子图(c)为一种基于耦合字典学习(coupled dictionary learning,CDL)的新型多模态图像融合算法;(d)为一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法;(e)为一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法;(f)为一种基于贝叶斯网络BF重建的红外和可见光图像融合算法;(g)为一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法;(h)为一种基于残差网络和零相位分量分析的红外和可见光图像融合算法;(i)为一种基于深度学习框架的红外和可见光图像融合算法;(j)为本发明红外和可见光图像融合算法的结果图。综上所述,本发明方法得到的融合图像从主观感受和客观评价方面均明显好于其他融合算法,这表明本发明方法的实验效果更好。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,包含以下步骤:
S1:将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;其对应公式如下:
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图;
S2:对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块;
在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-Layer Perception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc,在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图MS;最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;其对应公式如下:
其中,F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值;f 3×3dilat表示卷积核大小为3的扩张卷积;实验使用的扩张卷积的扩张率为2;/>和/>分别表示平均池化和最大池化;σ表示Sigmoid激活函数;W0∈RC/r×C,W1∈RC×C/r,W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0
S4:将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
S5:将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
2.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
3.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项,设置β=0.5,Lgrad表示梯度信息,Lint为梯度信息。
4.根据权利要求3所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,梯度损失中引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数;S(·)是由权重块基于源图像的梯度水平生成的权重图。
5.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息,公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
6.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性,公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像,μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
CN202310568133.8A 2023-05-19 2023-05-19 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 Active CN116664462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310568133.8A CN116664462B (zh) 2023-05-19 2023-05-19 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310568133.8A CN116664462B (zh) 2023-05-19 2023-05-19 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法

Publications (2)

Publication Number Publication Date
CN116664462A true CN116664462A (zh) 2023-08-29
CN116664462B CN116664462B (zh) 2024-01-19

Family

ID=87716405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310568133.8A Active CN116664462B (zh) 2023-05-19 2023-05-19 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法

Country Status (1)

Country Link
CN (1) CN116664462B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080431A1 (en) * 2017-09-14 2019-03-14 The Regents Of The University Of Colorado, A Body Corporate Thermal-Depth Fusion Imaging
CN111161201A (zh) * 2019-12-06 2020-05-15 北京理工大学 基于细节增强通道注意力的红外与可见光图像融合方法
KR20200102907A (ko) * 2019-11-12 2020-09-01 써모아이 주식회사 가시광 및 적외선 융합 영상 기반 객체 검출 방법 및 장치
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
US20210150347A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Guided training of machine learning models with convolution layer feature data fusion
CN113781377A (zh) * 2021-11-03 2021-12-10 南京理工大学 基于对抗性语义引导与感知的红外和可见光图像融合方法
CN114004775A (zh) * 2021-11-30 2022-02-01 四川大学 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法
US20220044374A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Infrared and visible light fusion method
CN114241003A (zh) * 2021-12-14 2022-03-25 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN115018748A (zh) * 2022-06-06 2022-09-06 西北工业大学 结合模型结构重构和注意力机制的空天遥感图像融合方法
CN115035003A (zh) * 2022-04-11 2022-09-09 太原科技大学 交互补偿注意力的红外与可见光图像对抗融合方法
CN115170915A (zh) * 2022-08-10 2022-10-11 上海理工大学 一种基于端到端注意力网络的红外与可见光图像融合方法
CN115424104A (zh) * 2022-08-19 2022-12-02 西安电子科技大学 一种基于特征融合与注意力机制的目标检测方法
CN115423734A (zh) * 2022-11-02 2022-12-02 国网浙江省电力有限公司金华供电公司 一种基于多尺度注意机制的红外与可见光图像融合方法
CN115565035A (zh) * 2022-11-08 2023-01-03 长春理工大学 一种用于夜间目标增强的红外与可见光图像融合方法
CN115601282A (zh) * 2022-11-10 2023-01-13 江苏海洋大学(Cn) 基于多判别器生成对抗网络的红外与可见光图像融合方法
CN115620207A (zh) * 2022-11-08 2023-01-17 长春理工大学 一种基于注意力机制的红外行人检测方法
CN115937518A (zh) * 2022-11-29 2023-04-07 长安大学 一种基于多源图像融合的路面病害识别方法及系统
CN115984543A (zh) * 2022-09-26 2023-04-18 广东泰坦智能动力有限公司 一种基于红外与可见光图像的目标检测算法
CN116071281A (zh) * 2023-02-24 2023-05-05 广东工业大学 一种基于特征信息交互的多模态图像融合方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080431A1 (en) * 2017-09-14 2019-03-14 The Regents Of The University Of Colorado, A Body Corporate Thermal-Depth Fusion Imaging
KR20200102907A (ko) * 2019-11-12 2020-09-01 써모아이 주식회사 가시광 및 적외선 융합 영상 기반 객체 검출 방법 및 장치
US20210150347A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Guided training of machine learning models with convolution layer feature data fusion
CN111161201A (zh) * 2019-12-06 2020-05-15 北京理工大学 基于细节增强通道注意力的红外与可见光图像融合方法
US20220044374A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Infrared and visible light fusion method
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN113781377A (zh) * 2021-11-03 2021-12-10 南京理工大学 基于对抗性语义引导与感知的红外和可见光图像融合方法
CN114004775A (zh) * 2021-11-30 2022-02-01 四川大学 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法
CN114241003A (zh) * 2021-12-14 2022-03-25 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN115035003A (zh) * 2022-04-11 2022-09-09 太原科技大学 交互补偿注意力的红外与可见光图像对抗融合方法
CN115018748A (zh) * 2022-06-06 2022-09-06 西北工业大学 结合模型结构重构和注意力机制的空天遥感图像融合方法
CN115170915A (zh) * 2022-08-10 2022-10-11 上海理工大学 一种基于端到端注意力网络的红外与可见光图像融合方法
CN115424104A (zh) * 2022-08-19 2022-12-02 西安电子科技大学 一种基于特征融合与注意力机制的目标检测方法
CN115984543A (zh) * 2022-09-26 2023-04-18 广东泰坦智能动力有限公司 一种基于红外与可见光图像的目标检测算法
CN115423734A (zh) * 2022-11-02 2022-12-02 国网浙江省电力有限公司金华供电公司 一种基于多尺度注意机制的红外与可见光图像融合方法
CN115565035A (zh) * 2022-11-08 2023-01-03 长春理工大学 一种用于夜间目标增强的红外与可见光图像融合方法
CN115620207A (zh) * 2022-11-08 2023-01-17 长春理工大学 一种基于注意力机制的红外行人检测方法
CN115601282A (zh) * 2022-11-10 2023-01-13 江苏海洋大学(Cn) 基于多判别器生成对抗网络的红外与可见光图像融合方法
CN115937518A (zh) * 2022-11-29 2023-04-07 长安大学 一种基于多源图像融合的路面病害识别方法及系统
CN116071281A (zh) * 2023-02-24 2023-05-05 广东工业大学 一种基于特征信息交互的多模态图像融合方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUI LI ET AL: "Infrared and visible image fusion using a novel deep decomposition method", ARXIV *
ZHISHE WANG ET AL: "Infrared and Visible Image Fusion via Interactive Compensatory Attention Adversarial Learning", ARXIV *
赵斌;王春平;付强;: "显著性背景感知的多尺度红外行人检测方法", 电子与信息学报, no. 10 *
邵毅明;屈治华;邓天民;宋晓华;: "基于加权密集连接卷积网络的快速交通标志检测", 交通运输系统工程与信息, no. 02 *
陈潮起;孟祥超;邵枫;符冉迪;: "一种基于多尺度低秩分解的红外与可见光图像融合方法", 光学学报, no. 11 *

Also Published As

Publication number Publication date
CN116664462B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Zhuang et al. Underwater image enhancement with hyper-laplacian reflectance priors
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
Li et al. Infrared and visible image fusion using a deep learning framework
Yue et al. Contrast enhancement based on intrinsic image decomposition
Zhu et al. A novel multi-modality image fusion method based on image decomposition and sparse representation
Miao et al. Local segmentation of images using an improved fuzzy C-means clustering algorithm based on self-adaptive dictionary learning
Yue et al. Blind stereoscopic 3D image quality assessment via analysis of naturalness, structure, and binocular asymmetry
Chen et al. Blind quality index for tone-mapped images based on luminance partition
Ren et al. An infrared and visible image fusion method based on improved DenseNet and mRMR-ZCA
Niu et al. Siamese-network-based learning to rank for no-reference 2D and 3D image quality assessment
Wang et al. Multimodal medical image fusion based on multichannel coupled neural P systems and max-cloud models in spectral total variation domain
Chen et al. The enhancement of catenary image with low visibility based on multi-feature fusion network in railway industry
Zhang et al. Exploring a unified low rank representation for multi-focus image fusion
CN113810683B (zh) 一种客观评估水下视频质量的无参考评价方法
Li et al. Adaptive weighted multiscale retinex for underwater image enhancement
Qu et al. AIM-MEF: Multi-exposure image fusion based on adaptive information mining in both spatial and frequency domains
Shen et al. RETRACTED: A novel Gauss-Laplace operator based on multi-scale convolution for dance motion image enhancement [EAI Endorsed Scal Inf Syst (2022), Online First]
Huang et al. RDCa-Net: Residual dense channel attention symmetric network for infrared and visible image fusion
Wang et al. Infrared and visible image fusion based on Laplacian pyramid and generative adversarial network.
Zhao et al. Color channel fusion network for low-light image enhancement
CN110969590B (zh) 一种基于ca-spcnn的图像增强算法
Yang et al. Detail-aware near infrared and visible fusion with multi-order hyper-Laplacian priors
CN108460756A (zh) 基于统计特征的无参考红外图像质量评价方法
Yuan et al. Explore double-opponency and skin color for saliency detection
Yu et al. A multi-band image synchronous fusion method based on saliency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant