CN116912649A - 基于相关注意力引导的红外与可见光图像融合方法及系统 - Google Patents

基于相关注意力引导的红外与可见光图像融合方法及系统 Download PDF

Info

Publication number
CN116912649A
CN116912649A CN202311186403.5A CN202311186403A CN116912649A CN 116912649 A CN116912649 A CN 116912649A CN 202311186403 A CN202311186403 A CN 202311186403A CN 116912649 A CN116912649 A CN 116912649A
Authority
CN
China
Prior art keywords
fusion
image
infrared
visible light
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311186403.5A
Other languages
English (en)
Other versions
CN116912649B (zh
Inventor
蔡朝
马泳
樊凡
黄珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202311186403.5A priority Critical patent/CN116912649B/zh
Publication of CN116912649A publication Critical patent/CN116912649A/zh
Application granted granted Critical
Publication of CN116912649B publication Critical patent/CN116912649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明针对现有技术的不足,提出了一种基于相关注意力引导的红外与可见光图像融合方法及系统。本发明提出了实时处理的端到端红外和可见光图像融合框架,该框架自适应地保留来自两种模态的互补信息。融合结果在保留突出的红外物体和丰富的可见纹理细节之间实现了更好的视觉效果。本发明设计了跨模态特征融合模块,它可以从全局角度保留显着特征和补充信息。本发明方法采用相关引导的注意机制作为融合规则,可以建立对多模态图像局部特征的远程依赖,进一步细化特征图,关注源图像的典型目标和细节。

Description

基于相关注意力引导的红外与可见光图像融合方法及系统
技术领域
本发明属于图像融合领域,特别是涉及相关性引导的注意力机制和神经网络的红外和可见光图像融合方法及系统。
背景技术
图像融合是计算机视觉中的一项重要的图像处理技术。旨在通过使用适当的特征提取方法和融合规则重建出包含源图像的显著特征和互补信息的单个图像。近年来,红外和可见光图像融合技术已广泛应用于目标检测、语义分割、识别、和跟踪等领域。由于红外和可见光图像传感器的硬件特点,在采集图像时,不同的成像方式代表了不同的模态特征。红外图像捕获物体热辐射信息,可以有效的突出图像中的热目标。但红外图像普遍存在噪声、低对比度和细节模糊。相反,可见光图像捕获物体反射信息,可以提供具有高分辨率和清晰度的纹理细节。因此,融合这两种类型的图像可以获得重要的热目标信息和丰富的纹理细节。
红外和可见光图像融合领域提出了许多方法。它们大致可以分为两类:传统方法和基于深度学习的方法。传统的方法主要包括多尺度变换的方法,基于稀疏表示的方法,混合方法和其他方法。这些方法通过复杂的变换或表示来实现图像融合,通常难以满足实时性的要求,而且需要手动设计融合规则,很难保持模态互补信息,融合性能有限。近年来,图像融合领域引入了许多基于深度学习的方法。他们使用深度网络提取特征和重建图像,利用精心设计的损失函数来约束网络,实现自适应的特征融合。这些方法受限于卷积层的感受野,忽视了远程上下文信息的提取,只能利用局部信息进行图像融合,无法利用域内或域间的远程依赖来进一步改善融合结果。
发明内容
本发明针对现有技术的不足,提出了一种基于相关引导注意力机制的新型端到端融合网络,用于红外和可见光图像融合。该网络通过计算每个特征的相关性获得模态内远程上下文信息,本发明整合每个模态的跨模态相关性以捕获显着特征并融合互补信息。它可以从全局角度保留显着特征和补充信息。本发明的方法采用相关引导的注意机制作为融合规则,可以建立对多模态图像局部特征的远程依赖,进一步细化特征图,关注源图像的典型目标和细节。 融合模块通过可学习的融合规则,充分融合跨模态的显着特征和互补信息,生成视觉效果良好的融合图像。
为了达到上述目的,本发明提供的技术方案是:基于相关注意力引导的红外与可见光图像融合方法,包括如下步骤:
步骤1,构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分;具体实现过程如下:
首先,将已配准好的红外和可见光图像分别送入若干层卷积组成的特征提取模块,提取两个模态的互补特征;其次,通过相关融合模块计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使融合网络在特征融合阶段能集成更多的互补信息;最后,将信息交互后的红外和可见光图像特征连接起来,通过图像重建模块来生成融合图像;
步骤2,通过损失函数训练步骤1中构建的融合网络,得到训练好的融合网络,所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得;
步骤3,利用步骤2中训练好的融合网络对待融合的红外与可见光图像进行融合。
进一步的,还包括步骤4,选取评估指标定量评价融合效果。
进一步的,所述特征提取模块由5个共享权重的卷积层组成,前4个卷积层采用DenseNet结构,最后一个卷积层采用1×1卷积层和非线性Tanh激活函数。
进一步的,相关融合模块的具体处理过程如下;
步骤1.1,将红外和可见光图像中提取的特征图表示为;特征提取模块提取的特征/>对特征/>的相关性计算为:
其中,H和W表示特征图的高和宽,C表示特征图的通道数;
步骤1.2,为获得每个特征的远距离上下文信息,将特征提取模块提取的红外和可见光图像的特征图生成为模板图:
这里为模板特征图,/>为自适应平均池化操作;
步骤1.3,为了获得两种模态的互补信息,在计算出每种模态的特征相关性后,利用如下相关融合规则来获得跨模态互补特征:
其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图,/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图,/>为Sigmod操作,通过Sigmod和自适应平均池化操作/>,将/>和/>两个模板系数分布图压缩到与特征图的尺度一致,获得的权重系数分别为/>和/>;/>为按通道相乘,/>和/>分别代表特征提取模块提取到的红外图像特征和可见光图像特征,/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。
进一步的,所述图像重建模块由5层卷积层组成,以实现特征的充分整合和图像重建,图像重建模块均采用3×3卷积核和ReLU激活函数。
进一步的,所述图像重建模块的具体处理过程如下;
首先将信息交互后的红外和可见光图像特征连接起来:
这里为融合后的特征,/>为通道维度的拼接;
最后,通过图像重建模块,从融合特征中生成融合图像/>,定义图像重建过程为/>,公式如下:
进一步的,损失函数由强度损失和梯度损失构成,其中强度损失通过衡量融合图像和源图像在像素级别的差异,约束融合图像保持与源图像相似的强度分布,定义如下:
其中H和W为图像的高和宽,为L1范数,/>和/>分别表示红外和可见光图像,对融合网络生成的融合图像/>和每一种源图像分别求损失,并对其求和作为整体的强度损失:
梯度损失通过融合图像与源图像的梯度差异来迫使融合网络学习并保留源图像中更多的纹理细节,定义如下:
这里的是求图像纹理的梯度算子;
最后,为了促使融合网络整合更多的互补信息并提高图像质量,把强度损失和梯度损失进行加权组合得到最终的损失函数,其中/>为超参,用于平衡梯度和强度参数:
进一步的,评估指标包括标准差、空间频率、视觉信息保真度、边缘信息量,平均梯度和信息熵。
另一方面,本发明还提供一种基于相关注意力引导的红外与可见光图像融合系统,包括如下单元:
融合网络构建单元,用于构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分;
其中特征提取模块包括若干层卷积,用于提取红外与可见光图像这两个模态的互补特征;
相关融合模块用于计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使融合网络在特征融合阶段集成更多的互补信息;
图像重建模块用于将信息交互后的红外和可见光图像特征连接起来,并生成融合图像;
融合网络训练单元,用于通过损失函数训练构建的融合网络,得到训练好的融合网络,所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得;
融合单元,用于利用训练好的融合网络对待融合的红外与可见光图像进行融合。
与现有技术相比,本发明的优点和有益效果:⑴本发明提出了实时处理的端到端红外和可见光图像融合框架,该框架自适应地保留来自两种模态的互补信息。融合结果在保留突出的红外物体和丰富的可见纹理细节之间实现了更好的视觉效果。⑵本发明设计了跨模态特征融合模块,它可以从全局角度保留显着特征和补充信息。本发明方法采用相关引导的注意机制作为融合规则,可以建立对多模态图像局部特征的远程依赖,进一步细化特征图,关注源图像的典型目标和细节。
附图说明
图1为本发明整体框架图。
图2为本发明相关注意力融合模块示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明提出的基于相关注意力引导的红外与可见光图像融合方法,主要包含以下步骤:
步骤1,构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分组成,具体结构见图1所示。
所述特征提取模块用于充分提取红外与可见光图像的互补特征;
所述相关融合模块利用相关注意力机制,提取远程上下文信息,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使网络在特征融合阶段能集成更多的互补信息;
所述图像重建模块用于实现特征的充分整合和图像重建;
首先,已配准好的红外和可见光图像分别送入5层卷积组成的特征提取器提取特征两个模态的互补和共同特征。其次,通过相关融合模块中计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使网络在特征融合阶段能集成更多的互补信息;最后,提取的红外和可见光图像深度特征被连接起来,通过图像重建网络来生成融合图像。
步骤2,通过loss函数训练网络,使融合网络进一步关注图像全局信息,也关注图像的局部特征;
步骤3,利用训练好的融合网络对红外与可见光图像进行融合;
步骤4,综合评价,通过定性和定量的实验来论证本发明提出的方法与其他融合方法的优越性。
进一步的,所述步骤1中的融合网络,采用端到端的基于CNN的网络作为主干,特征提取模块由5个共享权重的卷积层组成(本实施例通过实验得出取5个卷积层时,特征提取的效果最好),聚焦于充分提取两个模态的互补和共同特征,提取得到红外图像特征和可见光图像特征/>,其中/>和/>分别表示红外和可见光图像。最后一层采用1×1卷积层和非线性Tanh激活函数,旨在提升网络非线性拟合能力,降低输出特征维度,减少网络参数量。值得注意的是,由于在卷积过程中存在padding,导致部分信息丢失,因此特征提取模块中的卷积层采用DenseNet结构,通过密集连接来减少信息的丢失和最大限度的利用信息,以充分利用各层卷积提取的特征,使网络能集成更多细粒度细节特征。特征提取模块的第5层输出后是相关融合模块,在相关融合模块中计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使网络在特征融合阶段能集成更多的互补信息。
给出一对已配准的红外图像和可见光图像/>,特征提取网络提取的红外图像特征和可见光特征分别定义为:
和/>分别代表网络从红外图像特征和可见光图像中学习到的特征,/>表示特征提取模块,N表示特征图数量。
进一步的,步骤1中的相关融合模块如图2所示,本发明为获得红外图像中的显著的热目标和丰富的可见光图像细节,提取远程上下文信息显得尤为重要。由于CNN提取特征的感受野受限,对于复杂的场景定位显著特征不太有效。为了扩大感受野,需要探索红外图像特征和可见光图像特征/>的远程上下文关系,其中/>和/>分别表示红外和可见光图像。主要包含以下步骤:
步骤1.1,将红外和可见光图像中提取的特征图表示为,其中C,H和W分别为特征通道数,高和宽。特征/>对特征/>的相关性分布图计算为:
步骤1.2,为获得每个特征的远距离上下文信息,一种直接的方法是对网络提取的每个特征计算与特征图中所有其他特征的相关性。特征图的尺寸为H×W,该运算对于一张图像而言,计算复杂度为,其中/>,随着H和W的增大,它将变得难以实现。为提高计算效率,将特征提取模块提取的红外和可见光图像的特征图生成为较小的模板图,可以极大减少计算量:
这里为模板特征图,/>为自适应平均池化操作。
步骤1.3,为了获得两种模态的互补信息,在计算出每种模态的特征相关系数分布后,本发明提出了一种相关融合规则来获得跨模态互补特征。通过步骤1.1计算特征-模板的相关性分布图后,对特征进行如下处理:
其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图,/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图,/>为Sigmod操作,通过Sigmod和池化操作,将/>和/>两个模板系数分布图压缩到与特征图的尺度一致,获得的权重系数分别为/>和/>。/>为按通道相乘,/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。
步骤1.4,将得到红外图像和可见光图像的互补和共同特征通过级联策略进行集成,并送入图像重建模块,重建模块由5层卷积组成(本实施例重建模块中卷积层的个数与特征提取模块中卷积层的个数相同),以实现特征的充分整合和图像重建,重建模块均采用3×3卷积核和ReLU激活函数。为避免图像融合过程中灾难性的信息丢失问题,整个网络不采用任何下采样操作,并且填充的方式所有层完全一样。其中级联策略如下:
这里为融合后的特征,/>为通道维度的拼接。最后,通过图像重建模块,从融合特征/>中生成融合图像/>,定义图像重建过程为/>,公式如下:
进一步的,步骤2中,网络损失函数由强度损失(对比度损失)和梯度损失(纹理损失)构成。
强度损失(对比度损失):通过衡量融合图像和源图像在像素级别的差异,约束融合图像保持与源图像相似的强度分布,定义如下:
其中H和W为图像的高和宽,为L1范数。对网络生成的融合图像和每一种源图像分别求损失,并对其求和作为整体的强度loss:
梯度损失(纹理损失):由于图像中显著结构通常以较大的梯度呈现,梯度损失通过融合图像与源图像的梯度差异来迫使网络学习并保留源图像中更多的纹理细节。计算纹理损失最好的效果是计算两种源图像的纹理最大值与融合图像的纹理损失,定义如下:
这里的是求图像纹理的梯度算子,本发明使用Sobel算子求取梯度。
最后,为了促使网络整合更多的互补信息并提高图像质量,把强度损失和梯度损失进行加权组合,其中为超参,用于平衡梯度和强度参数:
其中为强度损失,通过衡量融合图像和源图像在像素级别的差异,约束融合图像保持与源图像相似的强度分布。/>为梯度损失,通过融合图像与源图像的梯度差异来迫使网络学习并保留源图像中更多的纹理细节。
进一步,步骤4中将本发明方法(ours)与九种最先进的方法进行了比较,包括基于AE的方法:DenseFuse,RFN-Nest,CSF,基于GAN的:FusionGAN,TarDAL,和基于CNN的:IFCNN,PMGI,U2Fusion和Res2Fusion。选择了六个评估指标来量化评估,包括标准差(SD)、空间频率(SF)、视觉信息保真度(VIF)、边缘信息量(QAB/F),平均梯度(AG)和信息熵(EN)。SD指标度量从统计角度反映了融合图像的分布和对比度。SF指标通过测量融合图像的梯度分布来揭示融合图像的细节和纹理信息。VIF度量从人类视觉系统的角度评估融合图像的信息保真度。QAB/F这个指标测量从源图像传送到融合图像的边缘信息的量。AG指标测量融合图像的梯度信息,并以此来表征融合图像的纹理细节。EN指标基于信息论计算融合图像中所包含的信息量。
定性测试结果:实验表明FusionGAN和RFN-Nest不能保护红外目标的锐利的边缘信息。RFN-Nest、DenseFuse、CSF和U2Fusion等算法对目标的对比度有削弱,均受到了红外光谱污染。仅有Res2Fusion、IFCNN、FusionGAN、TarDAL和本发明方法保留了显著目标的强度。本发明方法保留了可见光图像中的纹理细节,又保留了红外显著目标的对比度,完全的融合红外和可见光图像的互补信息,而且本发明的融合结果不会出现光谱污染和细节模糊。
定量测试结果:如表1、表2和表3所示,在TNO、RoadScene和M3FD数据集上对5个评价指标进行定量测试。数据显示,在TNO数据集上,VIF和QAB/F取得了最好的成绩,SF仅小幅落后于TarDAL和IFCNN。在RoadScene数据集上,有4个指标AG、SD、SF和QAB/F取得了最好的成绩。在M3FD数据集上,所有的五个指标AG、VIF、SD、SF和QAB/F都取得了最好的成绩。表明本发明的方法能将更多的图像纹理、对比度、边缘信息和图像细节传送到融合图像;同时也说明本发明融合的图像更符合人类视觉的信息保真度和更令人满意的视觉效果。
表1 在TNO数据集上AG、SD、QAB/F、SF和VIF 五个指标的定量比较结果
表2 在 RoadScene 数据集上的AG、SD、QAB/F、SF和VIF 五个指标的定量比较结果
表3 在 M3FD 数据集上的AG、SD、QAB/F、SF和VIF 五个指标的定量比较结果
本发明另一实例还提供基于相关注意力引导的红外与可见光图像融合系统,包括如下单元:
融合网络构建单元,用于构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分;
其中特征提取模块包括若干层卷积,用于提取红外与可见光图像这两个模态的互补特征;
相关融合模块用于计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使融合网络在特征融合阶段集成更多的互补信息;
图像重建模块用于将信息交互后的红外和可见光图像特征连接起来,并生成融合图像;
融合网络训练单元,用于通过损失函数训练构建的融合网络,得到训练好的融合网络,所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得;
融合单元,用于利用训练好的融合网络对待融合的红外与可见光图像进行融合。
各单元的具体实现方式与各步骤相同,本发明不予撰述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.基于相关注意力引导的红外与可见光图像融合方法,其特征在于,包括如下步骤:
步骤1,构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分;具体实现过程如下:
首先,将已配准好的红外和可见光图像分别送入若干层卷积组成的特征提取模块,提取两个模态的互补特征;其次,通过相关融合模块计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使融合网络在特征融合阶段能集成更多的互补信息;最后,将信息交互后的红外和可见光图像特征连接起来,通过图像重建模块来生成融合图像;
步骤2,通过损失函数训练步骤1中构建的融合网络,得到训练好的融合网络,所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得;
步骤3,利用步骤2中训练好的融合网络对待融合的红外与可见光图像进行融合。
2.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:还包括步骤4,选取评估指标定量评价融合效果。
3.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:步骤1中特征提取模块由5个共享权重的卷积层组成,前4个卷积层采用DenseNet结构,最后一个卷积层采用1×1卷积层和非线性Tanh激活函数。
4.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:步骤1中相关融合模块的具体处理过程如下;
步骤1.1,将红外和可见光图像中提取的特征图表示为;特征提取模块提取的特征/>对特征/>的相关性计算为:
其中,H和W表示特征图的高和宽,C表示特征图的通道数;
步骤1.2,为获得每个特征的远距离上下文信息,将特征提取模块提取的红外和可见光图像的特征图生成为模板图:
这里为模板特征图,/>为自适应平均池化操作;
步骤1.3,为了获得两种模态的互补信息,在计算出每种模态的特征相关性后,利用如下相关融合规则来获得跨模态互补特征:
其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图,/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图, /> 为Sigmod操作,通过Sigmod和自适应平均池化操作/>,将和/>两个模板系数分布图压缩到与特征图的尺度一致,获得的权重系数分别为/>和/>;/>为按通道相乘,/>和/>分别代表特征提取模块提取到的红外图像特征和可见光图像特征,/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。
5.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:步骤1中图像重建模块由5层卷积层组成,以实现特征的充分整合和图像重建,图像重建模块均采用3×3卷积核和ReLU激活函数。
6.如权利要求4所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:步骤1中图像重建模块的具体处理过程如下;
首先将信息交互后的红外和可见光图像特征连接起来:
这里为融合后的特征,/>为通道维度的拼接;
最后,通过图像重建模块,从融合特征中生成融合图像/>,定义图像重建过程为,公式如下:
7.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:损失函数由强度损失和梯度损失构成,其中强度损失通过衡量融合图像和源图像在像素级别的差异,约束融合图像保持与源图像相似的强度分布,定义如下:
其中H和W为图像的高和宽, 为L1范数,/>和/>分别表示红外和可见光图像,对融合网络生成的融合图像/>和每一种源图像分别求损失,并对其求和作为整体的强度损失:
梯度损失通过融合图像与源图像的梯度差异来迫使融合网络学习并保留源图像中更多的纹理细节,定义如下:
这里的是求图像纹理的梯度算子;
最后,为了促使融合网络整合更多的互补信息并提高图像质量,把强度损失和梯度损失进行加权组合得到最终的损失函数,其中/>为超参,用于平衡梯度和强度参数:
8.如权利要求2所述的基于相关注意力引导的红外与可见光图像融合方法,其特征在于:评估指标包括标准差、空间频率、视觉信息保真度、边缘信息量,平均梯度和信息熵。
9.基于相关注意力引导的红外与可见光图像融合系统,其特征在于,包括如下单元:
融合网络构建单元,用于构建基于相关注意力引导的融合网络,包括特征提取模块,相关融合模块和图像重建模块3部分; 其中特征提取模块包括若干层卷积,用于提取红外与可见光图像这两个模态的互补特征;
相关融合模块用于计算特征相关性,以获得模态内和模态间的远程全局交互,对红外和可见光图像特征进行跨模态互补融合,使融合网络在特征融合阶段集成更多的互补信息;
图像重建模块用于将信息交互后的红外和可见光图像特征连接起来,并生成融合图像;
融合网络训练单元,用于通过损失函数训练构建的融合网络,得到训练好的融合网络,所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得;
融合单元,用于利用训练好的融合网络对待融合的红外与可见光图像进行融合。
CN202311186403.5A 2023-09-14 2023-09-14 基于相关注意力引导的红外与可见光图像融合方法及系统 Active CN116912649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311186403.5A CN116912649B (zh) 2023-09-14 2023-09-14 基于相关注意力引导的红外与可见光图像融合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311186403.5A CN116912649B (zh) 2023-09-14 2023-09-14 基于相关注意力引导的红外与可见光图像融合方法及系统

Publications (2)

Publication Number Publication Date
CN116912649A true CN116912649A (zh) 2023-10-20
CN116912649B CN116912649B (zh) 2023-11-28

Family

ID=88351577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311186403.5A Active CN116912649B (zh) 2023-09-14 2023-09-14 基于相关注意力引导的红外与可见光图像融合方法及系统

Country Status (1)

Country Link
CN (1) CN116912649B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080431A1 (en) * 2017-09-14 2019-03-14 The Regents Of The University Of Colorado, A Body Corporate Thermal-Depth Fusion Imaging
US20210012165A1 (en) * 2018-03-29 2021-01-14 Shanghai Zttvision Technologies Co.Ltd Data processing method and device based on multi-sensor fusion, and multi-sensor fusion method
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN113706406A (zh) * 2021-08-11 2021-11-26 武汉大学 基于特征空间多分类对抗机制的红外可见光图像融合方法
CN113706407A (zh) * 2021-08-11 2021-11-26 武汉大学 基于分离表征的红外可见光图像融合方法
CN115376024A (zh) * 2022-08-02 2022-11-22 国网江苏省电力有限公司盐城供电分公司 一种输电线路电力配件语义分割方法
US20230080178A1 (en) * 2021-09-02 2023-03-16 Northeastern University Automated assessment of cracks using lidar and camera data
CN115984323A (zh) * 2022-12-15 2023-04-18 南京理工大学 基于空频域均衡的双级融合rgbt跟踪算法
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116258934A (zh) * 2023-03-20 2023-06-13 湖南大学 基于特征增强的红外-可见光融合方法、系统及可读存储介质
CN116343329A (zh) * 2023-03-07 2023-06-27 云南电网有限责任公司玉溪供电局 一种红外-可见光多源图像融合一体管控系统和设备
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116563343A (zh) * 2023-05-22 2023-08-08 广东工业大学 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法
CN116630608A (zh) * 2023-05-29 2023-08-22 广东工业大学 一种用于复杂场景下的多模态目标检测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080431A1 (en) * 2017-09-14 2019-03-14 The Regents Of The University Of Colorado, A Body Corporate Thermal-Depth Fusion Imaging
US20210012165A1 (en) * 2018-03-29 2021-01-14 Shanghai Zttvision Technologies Co.Ltd Data processing method and device based on multi-sensor fusion, and multi-sensor fusion method
CN113706406A (zh) * 2021-08-11 2021-11-26 武汉大学 基于特征空间多分类对抗机制的红外可见光图像融合方法
CN113706407A (zh) * 2021-08-11 2021-11-26 武汉大学 基于分离表征的红外可见光图像融合方法
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
US20230080178A1 (en) * 2021-09-02 2023-03-16 Northeastern University Automated assessment of cracks using lidar and camera data
CN115376024A (zh) * 2022-08-02 2022-11-22 国网江苏省电力有限公司盐城供电分公司 一种输电线路电力配件语义分割方法
CN115984323A (zh) * 2022-12-15 2023-04-18 南京理工大学 基于空频域均衡的双级融合rgbt跟踪算法
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116343329A (zh) * 2023-03-07 2023-06-27 云南电网有限责任公司玉溪供电局 一种红外-可见光多源图像融合一体管控系统和设备
CN116258934A (zh) * 2023-03-20 2023-06-13 湖南大学 基于特征增强的红外-可见光融合方法、系统及可读存储介质
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116563343A (zh) * 2023-05-22 2023-08-08 广东工业大学 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法
CN116630608A (zh) * 2023-05-29 2023-08-22 广东工业大学 一种用于复杂场景下的多模态目标检测方法

Also Published As

Publication number Publication date
CN116912649B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
CN112733950A (zh) 一种基于图像融合与目标检测结合的电力设备故障诊断方法
CN111325750B (zh) 一种基于多尺度融合u型链神经网络的医学图像分割方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
Liu et al. A super resolution algorithm based on attention mechanism and srgan network
Hu et al. A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
Liu et al. Infrared and visible image fusion and denoising via ℓ2− ℓp norm minimization
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
CN117274759A (zh) 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN115861094A (zh) 一种融合注意力机制的轻量级gan水下图像增强模型
CN116309178A (zh) 一种基于自适应注意力机制网络的可见光图像去噪方法
CN117274760A (zh) 一种基于多尺度混合变换器的红外与可见光图像融合方法
Zhou et al. MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution
CN113763300A (zh) 一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法
Zhang et al. Deep joint neural model for single image haze removal and color correction
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
Li et al. Real-time image enhancement with efficient dynamic programming
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN113538402A (zh) 一种基于密度估计的人群计数方法及系统
CN113034371A (zh) 一种基于特征嵌入的红外与可见光图像融合方法
CN116883303A (zh) 基于特征差分补偿与融合的红外与可见光图像融合方法
CN116912649B (zh) 基于相关注意力引导的红外与可见光图像融合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant