CN116258936A - 一种基于多尺度特征的红外与可见光图像融合方法 - Google Patents

一种基于多尺度特征的红外与可见光图像融合方法 Download PDF

Info

Publication number
CN116258936A
CN116258936A CN202310382069.4A CN202310382069A CN116258936A CN 116258936 A CN116258936 A CN 116258936A CN 202310382069 A CN202310382069 A CN 202310382069A CN 116258936 A CN116258936 A CN 116258936A
Authority
CN
China
Prior art keywords
features
layer
fusion
module
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310382069.4A
Other languages
English (en)
Inventor
秦玉文
陈展鹏
谢俊
邸江磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310382069.4A priority Critical patent/CN116258936A/zh
Publication of CN116258936A publication Critical patent/CN116258936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像融合技术领域,提供了一种基于多尺度特征的红外与可见光图像融合方法。该方法包括以下步骤:(1)构建特征提取网络:使用多尺度分组卷积模块,从两种模态图像中提取多尺度多层次特征;(2)设计特征融合策略:利用空间和通道注意力,自适应融合两种模态图像的多层次特征;(3)构建图像重建网络:在所有层次的融合特征中建立跳跃连接,将多层次融合特征重建为融合图像;(4)设计损失函数:利用像素、梯度和结构相似度,计算两种模态图像和融合图像之间的损失。本发明克服了现有深度学习方法存在的不能有效提取多尺度特征和没有充分利用多层次特征的问题,可应用于智能驾驶、安全监控、遥感探测、医疗诊断等领域。

Description

一种基于多尺度特征的红外与可见光图像融合方法
技术领域:
本发明属于图像融合技术领域,具体涉及一种基于多尺度特征的红外与可见光图像融合方法。
背景技术:
图像融合技术的目的是将来自不同传感器的图像进行合成,从而产生信息更加丰富、更符合视觉感知的融合图像,以便进一步的信息分析和理解工作。红外传感器可以获取突出的目标区域信息,能够全天时全天候工作,但获得的图像通常缺乏细节信息。相反,可见光传感器可以获取丰富的纹理细节,但无法捕捉热辐射目标,容易受到光照条件和天气状况的影响。由于红外和可见光图像的成像原理不同,它们所提供的信息互补性较强,所以融合后的图像将具有更丰富的场景信息和更好的视觉效果。因此,图像融合技术可以提升红外和可见光传感器的探测能力,已被广泛应用于智能驾驶、安全监控、遥感探测、医疗诊断等领域。
目前,图像融合技术可以分为传统方法和深度学习方法。传统方法主要包括多尺度变换方法和稀疏表示方法。这些方法通常忽略不同模态图像的特征差异性,对它们采取相同方式进行特征提取,难免会影响图像的融合效果。同时,受限于人工设计的融合规则、高昂的计算复杂度等因素,传统方法难以在实际中应用。近年来,由于深度学习在图像处理领域上的出色表现,深度学习方法已成为图像融合任务中主流的研究方向。尽管深度学习方法取得了不错的效果,但还存在一些不足之处。其一,这些方法不能有效提取多尺度特征,而不同尺度的特征可以更好地表示不同目标的空间信息,缺乏多尺度特征容易导致融合图像细节缺失,影响图像的融合效果。其二,这些方法往往依赖于浅层特征,而忽略了不同层次特征的相关性,没有充分利用多层次特征,就会限制网络的表征能力,从而降低模型的泛化能力。
综上所述,需要提出一种能够有效提取多尺度特征和充分利用多层次特征的深度学习方法,来提高红外与可见光图像的融合效果。
发明内容:
本发明为了解决现有深度学习方法存在的不能有效提取多尺度特征和没有充分利用多层次特征的问题,提供了一种基于多尺度特征的红外与可见光图像融合方法。
本发明解决上述技术问题的技术方案如下:
一种基于多尺度特征的红外与可见光图像融合方法,包括以下步骤:
(S1)、构建特征提取网络:使用多尺度分组卷积模块,从两种模态图像中提取多尺度多层次特征。
(S2)、设计特征融合策略:利用空间和通道注意力,自适应融合两种模态图像的多层次特征。
(S3)、构建图像重建网络:在所有层次的融合特征中建立跳跃连接,将多层次融合特征重建为融合图像。
(S4)、设计损失函数:利用像素、梯度和结构相似度,计算两种模态图像和融合图像之间的损失。
优选地,上述的两种模态图像分别为红外和可见光图像。
优选地,在步骤(S1)中,上述的特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4。上述的编码模块各包含1个过渡层和1个MSConvFormer模块。上述的过渡层包含1个1×1卷积层和1个3×3卷积层。上述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块。上述的MSConv模块包含2个1×1卷积层和3个3×3卷积层。上述的MLP模块包含2个1×1卷积层。
优选地,在步骤(S2)中,上述的特征融合策略包括空间注意力融合和通道注意力融合。
优选地,在步骤(S3)中,上述的图像重建网络包含1个1×1卷积层Conv2,3个解码模块DB1、DB2、DB3,3个侧向层,6个上采样层和3个下采样层。上述的解码模块各包含1个3×3卷积层和1个1×1卷积层。上述的侧向层包含1个1×1卷积层。上述的上采样层包含1个双线性插值操作和1个1×1卷积层。上述的下采样层包含1个最大池化操作和1个1×1卷积层。
优选地,在步骤(S4)中,上述的损失函数包括像素损失、梯度损失和结构相似度损失,表达式为:
Ltotal=α·Lpixel+β·Lgrad+γ·Lssim
其中,α、β和γ表示加权系数,用来调节三个损失的比例。
优选地,上述的像素损失、梯度损失和结构相似度损失的表达式分别为:
Figure BSA0000296825880000021
Figure BSA0000296825880000022
Lssim=1-(λ·SSIM(If,Iir)+(1-λ)·SSIM(If,Ivi))
其中,If表示融合图像,Iir表示红外图像,Ivi表示可见光图像,H和W分别表示图像的高和宽。max()表示取最大值,||·||1表示L1范数,
Figure BSA0000296825880000023
表示梯度算子,|·|表示取绝对值,SSIM()表示计算结构相似度。λ表示加权系数,用来调节两个SSIM损失的比例。
优选地,上述的特征提取网络的构建方式如下:
(1)将两种模态图像分别输入到上述的卷积层Conv1,将卷积层Conv1输出的特征输入到上述的编码模块EB1,将编码模块EB1输出的特征输入到编码模块EB2,将编码模块EB2输出的特征输入到编码模块EB3,将编码模块EB3输出的特征输入到编码模块EB4。
(2)将编码模块EB1、EB2、EB3、EB4输出的特征作为两种模态图像的多层次特征。
优选地,上述的MSConvFormer模块的构建方式如下:
首先将特征输入到第1个上述的LN层进行层归一化处理,再输入到上述的MSConv模块分组进行多尺度特征提取,并采用残差连接加上第1个LN层的输入;然后将相加的特征输入到第2个LN层进行层归一化处理,再输入到上述的MLP模块进行跨通道信息交互,并采用残差连接加上第2个LN层的输入。
优选地,上述的MSConv模块的构建方式如下:
首先将特征输入到第1个上述的1×1卷积层,然后将其输出的特征按通道拆分为4组,第1组特征不作处理,第2组特征输入到第1个上述的3×3卷积层,第2组输出的特征加上第3组特征后输入到第2个3×3卷积层,第3组输出的特征加上第4组特征后输入到第3个3×3卷积层,最后将第1、2、3、4组输出的特征按通道拼接后输入到第2个1×1卷积层。
优选地,上述的图像重建网络的构建方式如下:
(1)将上述的编码模块EB1、EB2输出的融合特征分别输入到第1、2个上述的下采样层,将编码模块EB3输出的融合特征输入到第1个上述的侧向层,将编码模块EB4输出的融合特征输入到第1个上述的上采样层,再将它们输出的特征按通道拼接后输入到上述的解码模块DB3。
(2)将编码模块EB1输出的融合特征输入到第2个下采样层,将编码模块EB2输出的融合特征输入到第2个侧向层,将解码模块DB3输出的特征和编码模块EB4输出的融合特征分别输入到第2、3个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB2。
(3)将编码模块EB1输出的融合特征输入到第3个侧向层,将解码模块DB2、DB3输出的特征和编码模块EB4输出的融合特征分别输入到第4、5、6个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB1。
(4)将解码模块DB1输出的特征输入到上述的卷积层Conv2,并将其输出的图像作为两种模态图像的融合图像。
本发明与现有技术相比,具有以下有益效果:
(1)本发明设计了一种多尺度分组卷积MSConvFormer模块。由于不同尺度的特征可以更好地表示不同目标的空间信息,如果缺乏多尺度特征,容易导致融合图像细节缺失。因此,该模块结合一种多尺度分组卷积MSConv模块和MetaFormer结构,从不同分组特征中获取不同感受野信息,不仅使特征提取网络能够有效提取多尺度特征,还能够减少模型的参数数量,从而提高图像的融合效果。
(2)本发明构建了一种多层次跳跃连接方式。由于浅层特征拥有丰富的细节信息,而深层特征蕴含抽象的语义信息,如果只依赖于浅层特征,而忽略了不同层次特征的相关性,就会限制网络的表征能力。因此,该方式通过在所有层次的融合特征中建立跳跃连接,不仅让图像重建网络可以充分利用多层次特征,还可以缩小各个层次特征的语义差距,从而提升模型的泛化能力。
附图说明:
图1为本发明所述方法的整体网络架构示意图;
图2为本发明所述方法的编码模块示意图;
图3为本发明所述方法的过渡层示意图;
图4为本发明所述方法的MSConvFormer模块示意图;
图5为本发明所述方法的MSConv模块示意图;
图6为本发明所述方法的MLP模块示意图;
图7为本发明所述方法的特征融合层示意图;
图8为本发明所述方法的解码模块示意图;
图9为本发明所述方法的侧向层示意图;
图10为本发明所述方法的上采样层示意图;
图11为本发明所述方法的下采样层示意图。
具体实施方式:
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例提供了一种基于多尺度特征的红外与可见光图像融合方法,包括以下步骤:
(S1)、构建特征提取网络:使用多尺度分组卷积模块,从两种模态图像中提取多尺度多层次特征。
参见图1左侧区域,特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4。
具体地,上述的特征提取网络的构建方式如下:
(1)将两种模态图像分别输入到上述的卷积层Conv1,将卷积层Conv1输出的特征输入到上述的编码模块EB1,将编码模块EB1输出的特征输入到编码模块EB2,将编码模块EB2输出的特征输入到编码模块EB3,将编码模块EB3输出的特征输入到编码模块EB4。
(2)将编码模块EB1、EB2、EB3、EB4输出的特征作为两种模态图像的多层次特征。
上述的卷积层Conv1的输入通道数和输出通道数分别为1和8,步长为1,激活函数为ReLU。
参见图2,上述的编码模块各包含1个过渡层和1个MSConvFormer模块。编码模块EB1、EB2、EB3、EB4的输入通道数分别为8、16、32、64,输出通道数分别为16、32、64、128。
参见图3,上述的过渡层包含1个1×1卷积层和1个3×3卷积层。该1×1卷积层的输出通道数为其输入通道数的2倍,步长为1;该3×3卷积层的输出通道数与其输入通道数相同,位于编码模块EB1、EB2、EB3、EB4过渡层内的3×3卷积层的步长分别为1、2、2、2。该层内所有卷积层的激活函数为ReLU。
参见图4,上述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块。该模块的输出通道数与其输入通道数相同。
具体地,上述的MSConvFormer模块的构建方式如下:
首先将特征输入到第1个上述的LN层进行层归一化处理,再输入到上述的MSConv模块分组进行多尺度特征提取,并采用残差连接加上第1个LN层的输入;然后将相加的特征输入到第2个LN层进行层归一化处理,再输入到上述的MLP模块进行跨通道信息交互,并采用残差连接加上第2个LN层的输入。
参见图5,上述的MSConv模块包含2个1×1卷积层和3个3×3卷积层。该模块的输出通道数与其输入通道数相同,其中第1个1×1卷积层的输出通道数和第2个1×1卷积层的输入通道数设置为相同的4的倍数。该模块内所有卷积层的步长为1,激活函数为ReLU。
具体地,上述的MSConv模块的构建方式如下:
首先将特征输入到第1个上述的1×1卷积层,然后将其输出的特征按通道拆分为4组,第1组特征不作处理,第2组特征输入到第1个上述的3×3卷积层,第2组输出的特征加上第3组特征后输入到第2个3×3卷积层,第3组输出的特征加上第4组特征后输入到第3个3×3卷积层,最后将第1、2、3、4组输出的特征按通道拼接后输入到第2个1×1卷积层。
参见图6,上述的MLP模块包含2个1×1卷积层。该模块的输出通道数与其输入通道数相同,其中第1个1×1卷积层的输出通道数为其输入通道数的4倍。该模块内所有卷积层的步长为1,激活函数为ReLU。
(S2)、设计特征融合策略:利用空间和通道注意力,自适应融合两种模态图像的多层次特征。
参见图7,特征融合策略包括空间注意力融合和通道注意力融合。
具体地,上述特征融合策略的处理过程如下:
(1)将两种模态图像各个层次的特征
Figure BSA0000296825880000051
和/>
Figure BSA0000296825880000052
分别进行空间注意力融合,得到相应层次的空间注意力融合特征/>
Figure BSA0000296825880000053
首先,计算特征图内每个像素上所有通道的L1范数,得到相应的空间全局特征图
Figure BSA0000296825880000054
和/>
Figure BSA0000296825880000055
表达式分别为:
Figure BSA0000296825880000056
Figure BSA0000296825880000057
然后,计算相应的空间加权图
Figure BSA0000296825880000058
和/>
Figure BSA0000296825880000059
表达式分别为:
Figure BSA00002968258800000510
Figure BSA00002968258800000511
最后,计算空间注意力融合特征
Figure BSA00002968258800000512
表达式为:
Figure BSA00002968258800000513
其中,m表示特征的层次,(i,j)表示像素的位置,||·||1表示L1范数。
(2)将两种模态图像各个层次的特征
Figure BSA0000296825880000061
和/>
Figure BSA0000296825880000062
分别进行通道注意力融合,得到相应层次的通道注意力融合特征/>
Figure BSA0000296825880000063
首先,计算特征图内每个通道上所有像素的平均值,得到相应的通道全局特征向量
Figure BSA0000296825880000064
和/>
Figure BSA0000296825880000065
表达式分别为:
Figure BSA0000296825880000066
Figure BSA0000296825880000067
然后,计算相应的通道加权向量
Figure BSA0000296825880000068
和/>
Figure BSA0000296825880000069
表达式分别为:
Figure BSA00002968258800000610
Figure BSA00002968258800000611
最后,计算通道注意力融合特征
Figure BSA00002968258800000612
表达式为:
Figure BSA00002968258800000613
/>
其中,m表示特征的层次,c表示通道的索引,avg()表示取平均值。
(3)将各个层次的空间和通道注意力融合特征
Figure BSA00002968258800000614
和/>
Figure BSA00002968258800000615
分别进行加权融合,得到最终相应层次的融合特征/>
Figure BSA00002968258800000616
表达式为:
Figure BSA00002968258800000617
(S3)、构建图像重建网络:在所有层次的融合特征中建立跳跃连接,将多层次融合特征重建为融合图像。
参见图1右侧区域,图像重建网络包含1个1×1卷积层Conv2,3个解码模块DB1、DB2、DB3,3个侧向层,6个上采样层和3个下采样层。
具体地,上述的图像重建网络的构建方式如下:
(1)将上述的编码模块EB1、EB2输出的融合特征分别输入到第1、2个上述的下采样层,将编码模块EB3输出的融合特征输入到第1个上述的侧向层,将编码模块EB4输出的融合特征输入到第1个上述的上采样层,再将它们输出的特征按通道拼接后输入到上述的解码模块DB3。
(2)将编码模块EB1输出的融合特征输入到第2个下采样层,将编码模块EB2输出的融合特征输入到第2个侧向层,将解码模块DB3输出的特征和编码模块EB4输出的融合特征分别输入到第2、3个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB2。
(3)将编码模块EB1输出的融合特征输入到第3个侧向层,将解码模块DB2、DB3输出的特征和编码模块EB4输出的融合特征分别输入到第4、5、6个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB1。
(4)将解码模块DB1输出的特征输入到上述的卷积层Conv2,并将其输出的图像作为两种模态图像的融合图像。
上述的卷积层Conv2的输入通道数和输出通道数分别为16和1,步长为1,激活函数为ReLU。
参见图8,上述的解码模块各包含1个3×3卷积层和1个1×1卷积层。解码模块DB1、DB2、DB3的输入通道数均为128,输出通道数分别为16、32、64,其中3×3卷积层的输出通道数为其输入通道数的一半。解码模块内所有卷积层的步长为1,激活函数为ReLU。
参见图9,上述的侧向层包含1个1×1卷积层。参见图10,上述的上采样层包含1个双线性插值操作和1个1×1卷积层。参见图11,上述的下采样层包含1个最大池化操作和1个1×1卷积层。所有1×1卷积层的输出通道数为32,步长为1,激活函数为ReLU。
(S4)、设计损失函数:利用像素、梯度和结构相似度,计算两种模态图像和融合图像之间的损失。
损失函数包括像素损失、梯度损失和结构相似度损失。
具体地,上述的损失函数的计算方式如下:
(1)计算两种模态图像和融合图像之间的像素损失Lpixel,表达式为:
Figure BSA0000296825880000071
(2)计算两种模态图像和融合图像之间的梯度损失Lgrad,表达式为:
Figure BSA0000296825880000072
/>
(3)计算两种模态图像和融合图像之间的结构相似度损失Lssim,表达式为:
Lssim=1-(λ·SSIM(If,Iir)+(1-λ)·SSIM(If,Ivi))
(4)将像素损失、梯度损失和结构相似度损失进行加权求和,得到总损失Ltotal,表达式为:
Ltotal=α·Lpixel+β·Lgrad+γ·Lssim
其中,If表示融合图像,Iir表示红外图像,Ivi表示可见光图像,H和W分别表示图像的高和宽。max()表示取最大值,||·||1表示L1范数,
Figure BSA0000296825880000073
表示梯度算子,|·|表示取绝对值,SSIM()表示计算结构相似度。λ表示加权系数,用来调节两个SSIM损失的比例,默认值为0.5;α、β和γ表示加权系数,用来调节三个损失的比例,默认值分别为0.01、0.1和1。
(S5)、训练网络模型:采用RoadScene数据集,对网络模型进行训练。
具体地,模型训练的实施细节如下:
(1)图像预处理:对RoadScene数据集进行划分,随机选择200对图像作为训练集,另外21对图像作为验证集。训练时,先图像灰度范围转换为[0,1],再将图像随机水平翻转,并裁剪或缩放为256×256。
(2)训练参数设置:初始学习率为1e-4,批次大小为4,迭代轮次为50,优化器为Adam,学习率调整策略为MultiStepLR。
(3)模型迭代训练:利用损失函数,计算两种模态图像和融合图像之间的损失,再反向传播损失梯度,迭代更新模型参数。
(4)模型参数保存:选择验证损失最小的迭代轮次,保存模型参数。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于多尺度特征的红外与可见光图像融合方法,其特征在于,包括以下步骤:
(S1)、构建特征提取网络:使用多尺度分组卷积模块,从两种模态图像中提取多尺度多层次特征;
(S2)、设计特征融合策略:利用空间和通道注意力,自适应融合两种模态图像的多层次特征;
(S3)、构建图像重建网络:在所有层次的融合特征中建立跳跃连接,将多层次融合特征重建为融合图像;
(S4)、设计损失函数:利用像素、梯度和结构相似度,计算两种模态图像和融合图像之间的损失。
2.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:所述的两种模态图像分别为红外和可见光图像。
3.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:在步骤(S1)中,所述的特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4;所述的编码模块各包含1个过渡层和1个MSConvFormer模块;所述的过渡层包含1个1×1卷积层和1个3×3卷积层;所述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块;所述的MSConv模块包含2个1×1卷积层和3个3×3卷积层;所述的MLP模块包含2个1×1卷积层。
4.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:在步骤(S2)中,所述的特征融合策略包括空间注意力融合和通道注意力融合。
5.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:在步骤(S3)中,所述的图像重建网络包含1个1×1卷积层Conv2,3个解码模块DB1、DB2、DB3,3个侧向层,6个上采样层和3个下采样层;所述的解码模块各包含1个3×3卷积层和1个1×1卷积层;所述的侧向层包含1个1×1卷积层;所述的上采样层包含1个双线性插值操作和1个1×1卷积层;所述的下采样层包含1个最大池化操作和1个1×1卷积层。
6.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:在步骤(S4)中,所述的损失函数包括像素损失、梯度损失和结构相似度损失,表达式为:
Ltotal=α·Lpixel+β·Lgrad+γ·Lssim
其中,α、β和γ表示加权系数,用来调节三个损失的比例;
所述的像素损失、梯度损失和结构相似度损失的表达式分别为:
Figure FSA0000296825870000011
Figure FSA0000296825870000012
Lssim=1-(λ·SSIM(If,Iir)+(1-λ)·SSIM(If,Ivi))
其中,If表示融合图像,Iir表示红外图像,Ivi表示可见光图像,H和W分别表示图像的高和宽;max()表示取最大值,||·||1表示L1范数,
Figure FSA0000296825870000021
表示梯度算子,|·|表示取绝对值,SSIM()表算结构相似度;λ表示加权系数,用来调节两个SSIM损失的比例。
7.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:所述的特征提取网络的构建方式如下:
(1)将两种模态图像分别输入到所述的卷积层Conv1,将卷积层Conv1输出的特征输入到所述的编码模块EB1,将编码模块EB1输出的特征输入到编码模块EB2,将编码模块EB2输出的特征输入到编码模块EB3,将编码模块EB3输出的特征输入到编码模块EB4;
(2)将编码模块EB1、EB2、EB3、EB4输出的特征作为两种模态图像的多层次特征。
8.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:所述的MSConvFormer模块的构建方式如下:
首先将特征输入到第1个所述的LN层进行层归一化处理,再输入到所述的MSConv模块分组进行多尺度特征提取,并采用残差连接加上第1个LN层的输入;然后将相加的特征输入到第2个LN层进行层归一化处理,再输入到所述的MLP模块进行跨通道信息交互,并采用残差连接加上第2个LN层的输入。
9.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:所述的MSConv模块的构建方式如下:
首先将特征输入到第1个所述的1×1卷积层,然后将其输出的特征按通道拆分为4组,第1组特征不作处理,第2组特征输入到第1个所述的3×3卷积层,第2组输出的特征加上第3组特征后输入到第2个3×3卷积层,第3组输出的特征加上第4组特征后输入到第3个3×3卷积层,最后将第1、2、3、4组输出的特征按通道拼接后输入到第2个1×1卷积层。
10.根据权利要求5所述的一种基于多尺度特征的红外与可见光图像融合方法,其特征在于:所述的图像重建网络的构建方式如下:
(1)将所述的编码模块EB1、EB2输出的融合特征分别输入到第1、2个所述的下采样层,将编码模块EB3输出的融合特征输入到第1个所述的侧向层,将编码模块EB4输出的融合特征输入到第1个所述的上采样层,再将它们输出的特征按通道拼接后输入到所述的解码模块DB3;
(2)将编码模块EB1输出的融合特征输入到第2个下采样层,将编码模块EB2输出的融合特征输入到第2个侧向层,将解码模块DB3输出的特征和编码模块EB4输出的融合特征分别输入到第2、3个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB2;
(3)将编码模块EB1输出的融合特征输入到第3个侧向层,将解码模块DB2、DB3输出的特征和编码模块EB4输出的融合特征分别输入到第4、5、6个上采样层,再将它们输出的特征按通道拼接后输入到解码模块DB1;
(4)将解码模块DB1输出的特征输入到所述的卷积层Conv2,并将其输出的图像作为两种模态图像的融合图像。
CN202310382069.4A 2023-04-10 2023-04-10 一种基于多尺度特征的红外与可见光图像融合方法 Pending CN116258936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310382069.4A CN116258936A (zh) 2023-04-10 2023-04-10 一种基于多尺度特征的红外与可见光图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310382069.4A CN116258936A (zh) 2023-04-10 2023-04-10 一种基于多尺度特征的红外与可见光图像融合方法

Publications (1)

Publication Number Publication Date
CN116258936A true CN116258936A (zh) 2023-06-13

Family

ID=86680973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310382069.4A Pending CN116258936A (zh) 2023-04-10 2023-04-10 一种基于多尺度特征的红外与可见光图像融合方法

Country Status (1)

Country Link
CN (1) CN116258936A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541944A (zh) * 2023-11-07 2024-02-09 南京航空航天大学 一种多模态红外小目标检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541944A (zh) * 2023-11-07 2024-02-09 南京航空航天大学 一种多模态红外小目标检测方法

Similar Documents

Publication Publication Date Title
CN110097528B (zh) 一种基于联合卷积自编码网络的图像融合方法
CN112861690B (zh) 多方法融合的遥感影像变化检测方法及系统
CN111915619A (zh) 一种双特征提取与融合的全卷积网络语义分割方法
CN113012172A (zh) 一种基于AS-UNet的医学图像分割方法及系统
CN113379661B (zh) 红外与可见光图像融合的双分支卷积神经网络装置
CN113033630A (zh) 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN112446828B (zh) 一种融合可见光图像梯度信息的热成像超分辨率重建方法
CN110675462A (zh) 一种基于卷积神经网络的灰度图像彩色化方法
CN115511767B (zh) 一种自监督学习的多模态图像融合方法及其应用
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN111860351A (zh) 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN104408697B (zh) 基于遗传算法和正则先验模型的图像超分辨重建方法
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
CN116258936A (zh) 一种基于多尺度特征的红外与可见光图像融合方法
CN108154493A (zh) 一种基于fpga的双波段红外图像伪彩融合算法
CN113139585A (zh) 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN114565539B (zh) 一种基于线上知识蒸馏的图像去雾方法
CN106508048B (zh) 一种基于多尺度基本形式的相似尺度图像融合方法
Pan et al. DenseNetFuse: A study of deep unsupervised DenseNet to infrared and visual image fusion
CN115457359A (zh) 基于自适应对抗生成网络的pet-mri图像融合方法
CN116309232A (zh) 一种结合物理先验与深度学习的水下图像增强方法
Yang et al. Image super-resolution reconstruction based on improved Dirac residual network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination