CN116664462A - 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 - Google Patents
一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 Download PDFInfo
- Publication number
- CN116664462A CN116664462A CN202310568133.8A CN202310568133A CN116664462A CN 116664462 A CN116664462 A CN 116664462A CN 202310568133 A CN202310568133 A CN 202310568133A CN 116664462 A CN116664462 A CN 116664462A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- convolution
- infrared
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 40
- 238000000354 decomposition reaction Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000002474 experimental method Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 108091028732 Concatemer Proteins 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000010339 dilation Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000610 breath-figure templating Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于MS‑DSC和I_CBAM的红外和可见光图像融合方法,属于图像融合技术领域,该方法采用MS‑DSC对已配准的源图像进行特征提取,既克服单一尺度特征提取不足,又分别考虑了图像区域中的通道信息和空间信息,在减少参数的同时增强了网络表达能力,能更准确的提取目标对象的特征信息,将提取的特征信息采用I_CBAM从通道和空间两方面对图像的显著信息聚焦,抑制无用通道信息确保在融合时所有的显著特征都可以被利用,提升融合质量。本发明采用的I_CBAM算法是对原有算法的进一步改进,不仅展现了注意力机制在图像处理中的独特优势,而且在保留显著特征信息的同时降低了模型复杂度,通过与其他算法相结合,实现了纹理细节和场景信息清晰化,提升了融合质量。
Description
技术领域
本发明涉及图像融合技术领域,特别涉及一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。
背景技术
红外和可见光图像融合可以较好地挖掘被融合图像中的互补信息,得到更符合人眼或机器视觉特性的融合效果,对全天候检测、遥感、农业等其他应用具有重要的意义。红外图像能够捕捉热辐射信息并具有显著的对比度,可在背景中突出目标,但通常具有低分辨率和较差的纹理。相比之下,可见光图像包含丰富的细节信息并具有较高的分辨率,更符合人类视觉感知,但易受天气、照明等因素的影响。因此,在实际应用中,通常采用图像融合技术将红外和可见光图像融合,以对两者优势进行互补,从而得到特征明显、目标突出、细节丰富、高对比度清晰的图像。这种融合效果不仅可以更好地适应人眼的观察,也可以应用于军事侦察等领域,红外和可见光图像融合的目的是将不同成像原理所提供的信息优势提取并聚合,以获得具有完整场景表达能力的高质量融合图像,为全天候检测和其他任务提供更有效和全面的信息。
现有基于深度学习的图像融合面临的最大难题是缺乏用于监督学习的真值融合图像。为了解决这一难题,一些方法可以通过手动构造真值来解决,但通常不准确,导致特征提取不足,融合后的图像细节信息丢失、目标模糊、算法不稳定。为了提高融合质量,可采用无监督端到端图像融合算法,解决缺乏真值融合图像问题,红外和可见光图像融合技术升级的核心在于优化算法,提高算力以及提升融合质量。目前常用的红外和可见光图像融合算法大致分为两类:传统融合算法和基于深度学习的融合算法。传统融合算法通常在空间域或变换域设计活动水平测量和融合规则,利用相关的数学变换来实现融合。基于深度学习的融合算法通常通过构造目标函数来约束融合图像,以使其具有期望的分布特性。由于神经网络具有较强的非线性拟合能力,在图像融合方面具有较好的融合结果。红外和可见光图像融合的最终目的是利用经过训练的网络模型进行特征提取,无需手动制定人工水平和测量规则。通过选择适当的融合策略,将两幅或多幅图像的信息完整、清晰、全面地整合在一幅图像中。
本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型,与目前流行的图像融合算法相比,该算法的性能有了明显进步,通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足,原始特征无法保留等问题,而且减少了模型参数,提高了融合质量。I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势,能够捕获全局依赖关系,解决普通卷积只能感知局部信息,无法获得全局关联信息而使图像中的显著信息丢失。整体融合模型计算复杂度降低,速度快,融合效果好,实现了已有方法的优化和已有技术的升级。
发明内容
本发明目的就在于为了解决上述的问题,而提供一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。
为实现上述目的,本发明采取的技术方案为:一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,包含以下步骤:
S1:将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;其对应公式如下:
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图。
S2:对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。
在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-Layer Perception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc,在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图MS。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;其对应公式如下:
其中,F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值;f 3×3dilat表示卷积核大小为3的扩张卷积;实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化;σ表示Sigmoid激活函数;W0∈RC/r×C,W1∈RC×C/r,W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0。
S4:将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
S5:将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
进一步地,设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
进一步地,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项,设置β=0.5,Lgrad表示梯度信息,Lint为梯度信息。
进一步地,梯度损失中引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数。S(·)是由权重块基于源图像的梯度水平生成的权重图。
进一步地,强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息。公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
进一步地,分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像。μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
与现有技术相比,本发明具有如下有益效果:
本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型,与目前流行的图像融合算法相比,该算法的性能有了明显进步,通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足,原始特征无法保留等问题,而且减少了模型参数,提高了融合质量。
I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势,能够捕获全局依赖关系,解决普通卷积只能感知局部信息,无法获得全局关联信息而是图像中的显著信息丢失,整体融合模型计算复杂度降低,速度快,融合效果好,实现了已有方法的优化和已有技术的升级。
附图说明
图1为本发明的红外和可见光图像融合方法流程图;
图2为本发明的场景一融合结果;
图3为本发明的场景二融合结果;
图4为本发明的场景三融合结果;
图5为本发明的场景四融合结果;
图6为本发明的场景五融合结果;
图7为本发明的场景六融合结果。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
图1为本发明实施例的红外和可见光图像融合方法流程图,如图1所示,根据本发明的红外和可见光图像融合方法,具体包括:
1)将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图。
2)对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
3)对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-LayerPerception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图,即Mc。在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图,即MS。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;
其中F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值。f 3×3dilat表示卷积核大小为3的扩张卷积。实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化。σ表示Sigmoid激活函数,W0∈RC/r×C,W1∈RC×C/r。W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0。
4)将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
5)将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
在上述整体步骤中设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
红外图像和可见光图像最基本的组成元素是像素,像素的强度可以表示整体亮度分布,像素之间的差异则可以表示图像中的纹理细节。因此,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项。由于融合图像的主要强度信息来源于红外图像,为了使融合后的图像能够保持显著的对比度,设置β=0.5。Lgrad表示梯度信息,Lint为梯度信息。
梯度损失引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,尽可能的减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数,S(·)是由权重块基于源图像的梯度水平生成的权重图。
强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息。公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像。μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
通过上述方法得出本实验的对比图为图1-7,本实验红外和可见光图像来自经典数据集——TNO,其中包含261对昼夜多光谱图像,挑选了六种不同场景的图像作为本实验的源图像,源图像中最大像素为620×450,最小像素为280×280。
为增强本文算法的可比性和有效性,本实验的对比算法为本发明图像融合算法一种基于MS-DSC和I_CBAM的红外和可见光图像融合算法、一种基于耦合字典学习(coupleddictionary learning,CDL)的新型多模态图像融合算法、一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法、一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法、一种基于贝叶斯网络BF重建的红外和可见光图像融合算法、一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法、一种基于残差网络和零相位分量分析的红外和可见光图像融合算法、一种基于深度学习框架的红外和可见光图像融合算法。本实验的评价指标采用平均梯度(AG)、信息熵(EN)、标准差(STD)、改进空间频率(SF)、相关系数(CC)、基于视觉信息保真度(VIFF)、信噪比(SNR)、互信息(MI)、方差(Var)、互信息(MI)。AG通过计算灰度变化快慢的平均值反映图像的细节表征和纹理表征;EN通过计算融合结果的平均信息量衡量图像的丰富程度;SD通过计算灰度值和灰度均值之差反映图像中灰度值的分离情况,有助于计算对比度;SF通过计算空间域中图像灰度级活跃状况反映融合图像清晰度;MI是基于信息论的知识去计算融合后图像包含源图像多少信息量来衡量两幅图像之间的相似性;VIFF是表示与人眼主观特性一致的重要指标;SNR表示相对于有用信息具有较少的噪声;CC则是反映融合图像与源图像之间的相关程度。评价指标结果如表1到表8。我们根据性能指标的结果对8种算法进行了从低到高的排序。
表1EN评价指标结果
表2AG评价指标结果
表3SD评价指标结果
表4SF评价指标结果
表5MI评价指标结果
表6VIFF评价指标结果
表7SNR评价指标结果
表8CC评价指标结果
从表1到表8的客观评价指标可以看出,本发明的基于MS-DSC和I_CBAM的红外和可见光图像融合算法EN值高,说明融合结果信息量丰富;SF值高,说明融合结果清晰度高;AG值高,说明融合结果纹理和细节信息表征明显;SD值高,说明图像灰度值离散度高,图像携带的细节信息越丰富;VIFF值高,说明图像与人眼视觉特性一致;SNR值高说明融合结果中的有用信息得以保留,很少受到噪声的影响;CC值高说明源图像传递了很多重要特征,导致融合结果与其之间的相关性高。本算法MI评价指标略低于CDL、CCFL和BF方法,是由于本文使用concat和卷积融合策略在保存红外图像中的亮度信息的同时,并没有忽视可见光图像中的纹理信息。对于MI指标其侧重于均值法,也就是图像中的亮度信息,如果融合图像最终含有大量噪声,也会导致亮度信息增大,CDL、CCFL、BF方法其重点融合了红外信息而忽略可见光信息,使得在MI评价指标上达到最佳。其余七种评价指标都高于对比方法,这表明本发明方法图像融合后的图像效果好。
图2至图7为不同场景不同方法融合对比图,其中子图(a)和(b)为原始红外图像和可见光图像;子图(c)为一种基于耦合字典学习(coupled dictionary learning,CDL)的新型多模态图像融合算法;(d)为一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法;(e)为一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法;(f)为一种基于贝叶斯网络BF重建的红外和可见光图像融合算法;(g)为一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法;(h)为一种基于残差网络和零相位分量分析的红外和可见光图像融合算法;(i)为一种基于深度学习框架的红外和可见光图像融合算法;(j)为本发明红外和可见光图像融合算法的结果图。综上所述,本发明方法得到的融合图像从主观感受和客观评价方面均明显好于其他融合算法,这表明本发明方法的实验效果更好。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,包含以下步骤:
S1:将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征,通过多尺度卷积层不会改变最初图像的大小,丰富图像特征,提升浅层特征信息提取范围,增加图像多尺度卷积结构;其对应公式如下:
Fj=Fin*fj (1)
Fout=fConcat(F1,F3,F5,F7) (2)
其中:Fin为输入特征图;*代表卷积操作;卷积核大小为fj,j=1,3,5,7;Fj代表不同卷积核操作的特征图;Fout为输出的特征图;
S2:对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取,先采用3×3卷积核进行每个通道独立空间卷积减少参数,再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度,最后选择LeakyRelu作为激活函数;
S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块;
在通道注意力模块中将输入的特征图F(H×W×C),H为特征图的高,W为特征图的宽,C为特征图的通道数,进行全局最大池化和平均池化,得到两个1×1×C的特征图,然后将其分别送入一个两层的神经网络(Multi-Layer Perception,MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc,在空间注意力模块中,将输入特征图F也经过最大池化和平均池化,得到两个H×W×1特征映射,然后对其进行基于通道的concat操作,并使用卷积核大小为3的空洞卷积降维,接着通过Sigmoid激活函数,得到最终的空间特征图MS;最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图;其对应公式如下:
其中,F表示输入特征图,表示对应元素相乘,MC(F)表示F经过通道注意力的输出权值,MS(F)表示F经过空间注意力的输出权值;f 3×3dilat表示卷积核大小为3的扩张卷积;实验使用的扩张卷积的扩张率为2;/>和/>分别表示平均池化和最大池化;σ表示Sigmoid激活函数;W0∈RC/r×C,W1∈RC×C/r,W0和W1是MLP的权重,其共享两个输入,ReLU激活函数后跟W0;
S4:将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合,得到融合图像;
S5:将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征,然后从一个3×3卷积组成的双通道中生成分解结果。
2.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,设定整个融合过程的损失函数,根据网络架构分为融合损失Lsf和分解损失Lds,其对应的公式如下:
L=Lsf+Ldc (6)
其中,L代表总损失函数,Lsf融合损失,Lds分解损失。
3.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,融合损失由梯度损失函数和强度损失函数构成,其公式如下:
Lsf=βLgrad+Lint (7)
其中,β用于平衡强度项和梯度项,设置β=0.5,Lgrad表示梯度信息,Lint为梯度信息。
4.根据权利要求3所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,梯度损失中引入了自适应权重块,自适应权重块先利用一种线性平滑滤波——高斯低通滤波,减少噪声对权重块的影响,后通过基于梯度丰富度来评估源图像对应像素的优化目标,以便使融合图像中的纹理自适应的向源图像中的纹理靠近,其公式如下:
S2i,j=1-S1i,j (10)
其中,i和j表示像素在第i行和第j列权重图,H和W代表图像的高度和宽度,I1和I2源图像,Ifused融合图像,|·|表示绝对值函数,为拉普拉斯算子,L(·)表示高斯低通滤波器函数,min(·)表示最小函数,符号(·)为符号函数;S(·)是由权重块基于源图像的梯度水平生成的权重图。
5.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,强度损失通过改进Frobenius范数,它是矩阵中每一个位置的元素的平方和取平均数再开方,其作用是衡量一个矩阵的大小,即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离,有效调整融合图像和两个源图像之间的权重,迫使网络训练过程中选择更有效的信息,公式如下:
其中,H和W代表图像的高度和宽度,Ifused融合图像,I1和I2源图像。
6.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法,其特征在于,分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数,从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性,公式如下:
其中,I1_de和I2_de为分解结果,I1和I2为源图像,μ、σ分别为均值和标准差,C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310568133.8A CN116664462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310568133.8A CN116664462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116664462A true CN116664462A (zh) | 2023-08-29 |
CN116664462B CN116664462B (zh) | 2024-01-19 |
Family
ID=87716405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310568133.8A Active CN116664462B (zh) | 2023-05-19 | 2023-05-19 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664462B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474782A (zh) * | 2023-11-10 | 2024-01-30 | 安徽大学 | 红外图像与可见光图像的融合方法及系统 |
CN117935012A (zh) * | 2024-01-31 | 2024-04-26 | 广东海洋大学 | 一种基于分布式结构的红外与可见光图像融合网络 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080431A1 (en) * | 2017-09-14 | 2019-03-14 | The Regents Of The University Of Colorado, A Body Corporate | Thermal-Depth Fusion Imaging |
CN111161201A (zh) * | 2019-12-06 | 2020-05-15 | 北京理工大学 | 基于细节增强通道注意力的红外与可见光图像融合方法 |
KR20200102907A (ko) * | 2019-11-12 | 2020-09-01 | 써모아이 주식회사 | 가시광 및 적외선 융합 영상 기반 객체 검출 방법 및 장치 |
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
US20210150347A1 (en) * | 2019-11-14 | 2021-05-20 | Qualcomm Incorporated | Guided training of machine learning models with convolution layer feature data fusion |
CN113781377A (zh) * | 2021-11-03 | 2021-12-10 | 南京理工大学 | 基于对抗性语义引导与感知的红外和可见光图像融合方法 |
CN114004775A (zh) * | 2021-11-30 | 2022-02-01 | 四川大学 | 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法 |
US20220044374A1 (en) * | 2019-12-17 | 2022-02-10 | Dalian University Of Technology | Infrared and visible light fusion method |
CN114241003A (zh) * | 2021-12-14 | 2022-03-25 | 成都阿普奇科技股份有限公司 | 一种全天候轻量化高实时性海面船只检测与跟踪方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
CN115035003A (zh) * | 2022-04-11 | 2022-09-09 | 太原科技大学 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115424104A (zh) * | 2022-08-19 | 2022-12-02 | 西安电子科技大学 | 一种基于特征融合与注意力机制的目标检测方法 |
CN115565035A (zh) * | 2022-11-08 | 2023-01-03 | 长春理工大学 | 一种用于夜间目标增强的红外与可见光图像融合方法 |
CN115601282A (zh) * | 2022-11-10 | 2023-01-13 | 江苏海洋大学(Cn) | 基于多判别器生成对抗网络的红外与可见光图像融合方法 |
CN115620207A (zh) * | 2022-11-08 | 2023-01-17 | 长春理工大学 | 一种基于注意力机制的红外行人检测方法 |
CN115937518A (zh) * | 2022-11-29 | 2023-04-07 | 长安大学 | 一种基于多源图像融合的路面病害识别方法及系统 |
CN115984543A (zh) * | 2022-09-26 | 2023-04-18 | 广东泰坦智能动力有限公司 | 一种基于红外与可见光图像的目标检测算法 |
CN116071281A (zh) * | 2023-02-24 | 2023-05-05 | 广东工业大学 | 一种基于特征信息交互的多模态图像融合方法 |
-
2023
- 2023-05-19 CN CN202310568133.8A patent/CN116664462B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080431A1 (en) * | 2017-09-14 | 2019-03-14 | The Regents Of The University Of Colorado, A Body Corporate | Thermal-Depth Fusion Imaging |
KR20200102907A (ko) * | 2019-11-12 | 2020-09-01 | 써모아이 주식회사 | 가시광 및 적외선 융합 영상 기반 객체 검출 방법 및 장치 |
US20210150347A1 (en) * | 2019-11-14 | 2021-05-20 | Qualcomm Incorporated | Guided training of machine learning models with convolution layer feature data fusion |
CN111161201A (zh) * | 2019-12-06 | 2020-05-15 | 北京理工大学 | 基于细节增强通道注意力的红外与可见光图像融合方法 |
US20220044374A1 (en) * | 2019-12-17 | 2022-02-10 | Dalian University Of Technology | Infrared and visible light fusion method |
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN113781377A (zh) * | 2021-11-03 | 2021-12-10 | 南京理工大学 | 基于对抗性语义引导与感知的红外和可见光图像融合方法 |
CN114004775A (zh) * | 2021-11-30 | 2022-02-01 | 四川大学 | 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法 |
CN114241003A (zh) * | 2021-12-14 | 2022-03-25 | 成都阿普奇科技股份有限公司 | 一种全天候轻量化高实时性海面船只检测与跟踪方法 |
CN115035003A (zh) * | 2022-04-11 | 2022-09-09 | 太原科技大学 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115424104A (zh) * | 2022-08-19 | 2022-12-02 | 西安电子科技大学 | 一种基于特征融合与注意力机制的目标检测方法 |
CN115984543A (zh) * | 2022-09-26 | 2023-04-18 | 广东泰坦智能动力有限公司 | 一种基于红外与可见光图像的目标检测算法 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115565035A (zh) * | 2022-11-08 | 2023-01-03 | 长春理工大学 | 一种用于夜间目标增强的红外与可见光图像融合方法 |
CN115620207A (zh) * | 2022-11-08 | 2023-01-17 | 长春理工大学 | 一种基于注意力机制的红外行人检测方法 |
CN115601282A (zh) * | 2022-11-10 | 2023-01-13 | 江苏海洋大学(Cn) | 基于多判别器生成对抗网络的红外与可见光图像融合方法 |
CN115937518A (zh) * | 2022-11-29 | 2023-04-07 | 长安大学 | 一种基于多源图像融合的路面病害识别方法及系统 |
CN116071281A (zh) * | 2023-02-24 | 2023-05-05 | 广东工业大学 | 一种基于特征信息交互的多模态图像融合方法 |
Non-Patent Citations (5)
Title |
---|
HUI LI ET AL: "Infrared and visible image fusion using a novel deep decomposition method", ARXIV * |
ZHISHE WANG ET AL: "Infrared and Visible Image Fusion via Interactive Compensatory Attention Adversarial Learning", ARXIV * |
赵斌;王春平;付强;: "显著性背景感知的多尺度红外行人检测方法", 电子与信息学报, no. 10 * |
邵毅明;屈治华;邓天民;宋晓华;: "基于加权密集连接卷积网络的快速交通标志检测", 交通运输系统工程与信息, no. 02 * |
陈潮起;孟祥超;邵枫;符冉迪;: "一种基于多尺度低秩分解的红外与可见光图像融合方法", 光学学报, no. 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474782A (zh) * | 2023-11-10 | 2024-01-30 | 安徽大学 | 红外图像与可见光图像的融合方法及系统 |
CN117935012A (zh) * | 2024-01-31 | 2024-04-26 | 广东海洋大学 | 一种基于分布式结构的红外与可见光图像融合网络 |
Also Published As
Publication number | Publication date |
---|---|
CN116664462B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | Underwater image enhancement with hyper-laplacian reflectance priors | |
CN111709902B (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
Li et al. | Infrared and visible image fusion using a deep learning framework | |
Yue et al. | Contrast enhancement based on intrinsic image decomposition | |
Zhu et al. | A novel multi-modality image fusion method based on image decomposition and sparse representation | |
Miao et al. | Local segmentation of images using an improved fuzzy C-means clustering algorithm based on self-adaptive dictionary learning | |
CN116664462B (zh) | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 | |
Mo et al. | Attribute filter based infrared and visible image fusion | |
Yue et al. | Blind stereoscopic 3D image quality assessment via analysis of naturalness, structure, and binocular asymmetry | |
CN106960182B (zh) | 一种基于多特征集成的行人再识别方法 | |
Chen et al. | Blind quality index for tone-mapped images based on luminance partition | |
Ren et al. | An infrared and visible image fusion method based on improved DenseNet and mRMR-ZCA | |
Gao et al. | Improving the performance of infrared and visible image fusion based on latent low-rank representation nested with rolling guided image filtering | |
Niu et al. | Siamese-network-based learning to rank for no-reference 2D and 3D image quality assessment | |
Chen et al. | The enhancement of catenary image with low visibility based on multi-feature fusion network in railway industry | |
Zhang et al. | Exploring a unified low rank representation for multi-focus image fusion | |
Li et al. | Adaptive weighted multiscale retinex for underwater image enhancement | |
Qu et al. | AIM-MEF: Multi-exposure image fusion based on adaptive information mining in both spatial and frequency domains | |
CN113810683B (zh) | 一种客观评估水下视频质量的无参考评价方法 | |
Shen et al. | RETRACTED: A novel Gauss-Laplace operator based on multi-scale convolution for dance motion image enhancement [EAI Endorsed Scal Inf Syst (2022), Online First] | |
Yang et al. | Detail-aware near infrared and visible fusion with multi-order hyper-Laplacian priors | |
Zhao et al. | Color channel fusion network for low-light image enhancement | |
Li et al. | Infrared and visible image fusion method based on principal component analysis network and multi-scale morphological gradient | |
Yuan et al. | Explore double-opponency and skin color for saliency detection | |
Yang et al. | Adaptive zero-learning medical image fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |