CN116468644A - 一种基于自监督特征解耦的红外可见图像融合方法 - Google Patents
一种基于自监督特征解耦的红外可见图像融合方法 Download PDFInfo
- Publication number
- CN116468644A CN116468644A CN202310331491.7A CN202310331491A CN116468644A CN 116468644 A CN116468644 A CN 116468644A CN 202310331491 A CN202310331491 A CN 202310331491A CN 116468644 A CN116468644 A CN 116468644A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- features
- infrared
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000005286 illumination Methods 0.000 claims abstract description 17
- 230000001502 supplementing effect Effects 0.000 claims abstract description 14
- 230000008447 perception Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 15
- YLGXILFCIXHCMC-JHGZEJCSSA-N methyl cellulose Chemical compound COC1C(OC)C(OC)C(COC)O[C@H]1O[C@H]1C(OC)C(OC)C(OC)OC1COC YLGXILFCIXHCMC-JHGZEJCSSA-N 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000002679 ablation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体地说,涉及一种基于自监督特征解耦的红外可见图像融合方法。包括如下步骤:构建基于照明感知的红外可见图像编解码融合网络;设计基于对比学习的特征解耦孪生网络预训练方法;设计交叉注意力特征补充模块;设计基于通道注意力的特征融合方法。本发明设计通过对比学习的方法可以增强双源的差异性特征;加入基于交叉注意力的特征补充模块来增强各自通道的特征信息、实现不同源特征间的信息交流;加强融合后图像的红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征,使得融合后的图像更清晰,且融合作业效率高,有效解决现有技术中数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。
Description
技术领域
本发明涉及计算机视觉技术领域,具体地说,涉及一种基于自监督特征解耦的红外可见图像融合方法。
背景技术
图像融合技术的出现,使用为多模态传感器或不同拍摄条件下拍摄的信息具有互补性。在多模态图像融合任务中,图像信息充分互补的红外和可见图像融合,已广泛应用于军事行动、目标检测、跟踪、行人再识别和语义分割。基于强大的热辐射捕捉功能,红外图像可以有效地突出热目标(如行人),但忽略了不发热目标;相反,可见图像捕捉目标反射光信息,边缘细节更加清楚,但隐藏在黑暗或烟雾中的突出目标被忽略,因此融合图像比单模态图像包含更多互补信息。
在过去的几十年里,许多图像融合技术已经发展起来,包括传统的方法和数据驱动的方法。传统的方法利用傅里叶变换等方式将源图像变换到频域,并在频域内进行频率测量和设计融合规则来实现图像融合。传统的图像融合技术包括基于多尺度分解的方法、基于优化的方法和混合方法等,可以满足特定场景下的专项任务需求,难以适应复杂场景,且计算开销惊人。近年来,深度学习的飞速发展促进了数据驱动的图像融合方法常用算法可分为三个方向:基于自动编码器(AE)的方法、基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法。基于AE的方法由编码器和解码器构成,编码器用于提取多模态图像特征,解码器则负责对特征融合并重建图像,其融合方法包括串联、元素加法、元素权值求和等矩阵操作。但是,手工制作的融合方法很难让AE提取到同一空间维度的特征;基于cnn的方法则依赖于优越的网络结构和复杂的损失函数来提升融合效果。由于图像融合任务缺乏真实标签,有人采用GAN结构来合并融合图像和原始图像之间的概率分布,使输出图像拥有更多的纹理特征。此外,常用的融合时机分为两个阶段,即输入融合、中间融合。输入融合是指将多模态图像按照像素或通道级联作为模型输入,使模型很难合并语音信息;中途融合则采用人工设计的融合规则来融合深度特征,其融合效果受限于具体的融合规则。这些方法均需要大量的人工标注和训练时间,且融合过多依赖神经网络的黑箱模型,未考虑不同源之间特征的相似性与互补性。
综上,现有技术存在数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。鉴于此,我们提出了一种基于自监督特征解耦的红外可见图像融合方法。
发明内容
本发明的目的在于提供一种基于自监督特征解耦的红外可见图像融合方法,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了一种基于自监督特征解耦的红外可见图像融合方法,包括如下步骤:
S1、构建基于照明感知的红外可见图像编解码融合网络:采用对比学习的方法,对基于孪生网络的编码器进行预训练,待其具备特征解耦能力之后,将双源图像同时输入编码器进行特征提取与解耦,将得到的可见光图像颜色与纹理特征、红外图像纹理特征按通道注意力权重进行拼接,随后输入解码器将融合特征恢复回原始图像;
S2、设计基于对比学习的特征解耦孪生网络预训练方法:采用对比学习的方式,最大化网络输出的颜色特征间距离,同时最小化纹理特征距离,从而训练出具有特征解耦功能的编码器;
S3、设计交叉注意力特征补充模块:在图像编码器中,加入基于交叉注意力的特征补充模块来实现不同源特征间的信息交流;
S4、设计基于通道注意力的特征融合方法:对特征编码器求得的红外纹理特征与可见光纹理、颜色特征,在通道自注意力机制的基础上进行通道拼接融合。
作为本技术方案的进一步改进,所述S中,基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器(Encoder)、基于通道注意力的融合模块、特征解码器(Decoder)四部分组成;
其中,特征解码器包含交叉注意力特征补充模块,通过将可见光、红外图像互为查询键来计算交叉注意力,增强双源的差异性特征;
预训练阶段无需配准图像,微调阶段仅需少量的配准图像用于训练;
经过监督方法预训练的照明打分网络,用于对可见光图像进行照明预测,输出其属于白天或夜晚的概率,作为损失函数中可见光图像权重来指导网络训练。
作为本技术方案的进一步改进,所述S2中,基于对比学习的特征解耦孪生网络预训练方法中采用融合框架作为编解码网络结构;
其中,编码器采取参数共享的孪生网络,用于提取输入图像特征并解耦为纹理和颜色特征;
预训练阶段,将可见光及其灰度化图像同时输入孪生网络编码,得到四组不同特征。
作为本技术方案的进一步改进,所述S2中,基于对比学习的特征解耦孪生网络预训练方法的实际操作中,可使用L1损失或KL散度计算特征间距离,作为监督信号促进编码器收敛;
融合阶段,将红外图像中以红色为主的干扰性颜色特征抛弃,只保留其余三种特征并按通道注意力分数进行拼接,输入解码器进行图像重建;
消融实验中,将输出的三种特征:可见-纹理、可见-颜色、红外-纹理特征,分别广播三次之后,依次输入解码器进行图像重建,得到的融合图像以验证编码器的特征解耦能力。
作为本技术方案的进一步改进,所述S3中,交叉注意力特征补充模块采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息,具体操作如下:
输入为经过神经网络提取的可见光特征Fvis与红外图像特征Finf;
将特征图按宽高方向展开成一维向量V(HW,C),并添加位置编码B以保留二维位置信息;其中,HW为特征图宽高成绩,C为特征图维度;
展开的一维向量V,按其长度HW,给每个位置添加位置编码PE:
PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos代表编码位置,i为编码长度;
重建后的可见光特征计算如下:
其中,WQ、WK、WV分别为空间转换矩阵,d为输入向量维度;
通过带监督的训练方式,交叉注意力模块会自行计算查询向量Q与键值K之间的注意力权重,在全局范围内提升两种输入向量之间的语义特征交互,达到重要信息提取与交流的目的。
作为本技术方案的进一步改进,所述S4中,基于通道注意力的特征融合方法对特征编码器求得的红外纹理特征与可见光纹理、颜色特征,在通道自注意力机制的基础上进行通道拼接融合,计算方法为:
对输入维度为(H,W,C)维度的特征图在空间维度分别进行最大池化与平均池化,得到两个(1,1,C)维度特征;
随后输入两层MLP结构学习语义特征并经softmax函数做归一化映射成为通道注意力。
作为本技术方案的进一步改进,所述S4中,基于通道注意力的特征融合方法分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵Sinf_tex,Svis_tex,Svis_col,将其拼接后输入权重学习单元进行权重分配,随后将其广播为特征图大小,按照逐元素乘法,对按通道拼接的融合特征进行特征加权:
F=mlp(concat(Sinf_tex,Svis_tex,Svis_col))⊙concat(Finf_tex,Fvis_tex,Fvis_col)
其中,Finf_tex、Fvis_tex、Fvis_col分别为红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征,⊙代表逐元素乘法。
本发明的目的之二在于,提供了一种图像融合方法的计算运行平台装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。
本发明的目的之三在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。
与现有技术相比,本发明的有益效果:
1.该基于自监督特征解耦的红外可见图像融合方法中,通过对比学习的方法对基于孪生网络的编码器进行预训练,预训练阶段无需配准图像或仅需少量的配准图像,可以增强双源的差异性特征,更好反应图像中的颜色、纹理信息;
2.该基于自监督特征解耦的红外可见图像融合方法中,加入基于交叉注意力的特征补充模块来增强各自通道的特征信息、实现不同源特征间的信息交流,在全局范围内提升语义特征交互,达到重要信息提取与交流的目的;
3.该基于自监督特征解耦的红外可见图像融合方法中,采用基于通道注意力的特征融合方法,对按通道拼接的融合特征进行特征加权,从而加强融合后图像的红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征,使得融合后的图像更清晰,且融合作业效率高,有效解决现有技术中数据标注依赖性过高、融合效果不佳、特殊场景考虑欠佳的技术问题。
附图说明
图1为本发明中示例性的整体方法流程图;
图2为本发明中示例性的整体融合方法的工作原理图;
图3为本发明中示例性的预训练过程原理图;
图4为本发明中示例性的消融实验中图像重建后得到的融合图像图;
图5为本发明中示例性的在通道自注意力机制的基础上进行通道拼接融合的原理图;
图6为本发明中示例性的基于通道注意力的特征融合方法原理图;
图7为本发明中示例性的方法实际应用效果对比图之一;
图8为本发明中示例性的方法实际应用效果对比图之二;
图9为本发明中示例性的方法实际应用效果对比图之三;
图10为本发明中示例性的电子计算机平台装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图10所示,本实施例提供了一种基于自监督特征解耦的红外可见图像融合方法,包括如下步骤。
S1、构建基于照明感知的红外可见图像编解码融合网络:
基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器(Encoder)、基于通道注意力的融合模块、特征解码器(Decoder)四部分组成;
采用对比学习的方法,对基于孪生网络的编码器进行预训练,待其具备特征解耦能力之后,将双源图像同时输入编码器进行特征提取与解耦,将得到的可见光图像颜色与纹理特征、红外图像纹理特征按通道注意力权重进行拼接,随后输入解码器将融合特征恢复回原始图像;
特征解码器包含交叉注意力特征补充模块,通过将可见光、红外图像互为查询键来计算交叉注意力,增强双源的差异性特征;
预训练阶段无需配准图像,微调阶段仅需少量的配准图像用于训练;
经过监督方法预训练的照明打分网络,用于对可见光图像进行照明预测,输出其属于白天或夜晚的概率,作为损失函数中可见光图像权重来指导网络训练。
S2、设计基于对比学习的特征解耦孪生网络预训练方法:
采用融合框架作为编解码网络结构,融合框架为典型的编解码网络结构;其中,编码器采取参数共享的孪生网络,用于提取输入图像特征并解耦为纹理和颜色特征;
预训练阶段,将可见光及其灰度化图像同时输入孪生网络编码,得到四组不同特征,如图3所示;
由于灰度图像丢失了颜色信息而保留了纹理细节,因此本发明采用对比学习的方式,最大化网络输出的颜色特征间距离,同时最小化纹理特征距离,从而训练出具有特征解耦功能的编码器;
实际操作中,可使用L1损失或KL散度计算特征间距离,作为监督信号促进编码器收敛;
融合阶段,将红外图像中以红色为主的干扰性颜色特征抛弃,只保留其余三种特征并按通道注意力分数进行拼接,输入解码器进行图像重建;
消融实验中,为验证编码器的特征解耦能力,将输出的三种特征:可见-纹理、可见-颜色、红外-纹理特征,分别广播三次之后,依次输入解码器进行图像重建,得到的融合图像如图4所示。
图3中第一行重建图像反映了可见光图像中的颜色信息,第二行则只含有以高频为主的纹理信息;第三行反映了红外图像中以红色为主的干扰性颜色信息,而第四行则代表了红外图像的纹理信息。
S3、设计交叉注意力特征补充模块:
在图像编码器中,加入基于交叉注意力的特征补充模块来实现不同源特征间的信息交流;
以往的融合模型中,为了保留共同特征并补充差异性特征,常常采用特征矩阵加减法与全局池化操作,将差异性特征作为残差添加到原始特征中去来增加目标信息,如以下公式所示:
其中,Fvis为可见光特征,Finf为红外图像特征,代表异或运算,GlobalPool表示全局池化,⊙代表逐元素乘法;
但由于不同源图像提取的特征,并未进行像素级配准,采用特征矩阵的像素级加减法很容易丢失特征,因此本发明采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息,具体操作如下:
输入为经过神经网络提取的可见光特征Fvis与红外图像特征Finf;
将特征图按宽高方向展开成一维向量V(HW,C),并添加位置编码B以保留二维位置信息;其中,HW为特征图宽高成绩,C为特征图维度;
展开的一维向量V,按其长度HW,给每个位置添加位置编码PE:
PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos代表编码位置,i为编码长度;
重建后的可见光特征计算如下:
其中,WQ、WK、WV分别为空间转换矩阵,d为输入向量维度;
通过带监督的训练方式,交叉注意力模块会自行计算查询向量Q与键值K之间的注意力权重,在全局范围内提升两种输入向量之间的语义特征交互,达到重要信息提取与交流的目的。
S4、设计基于通道注意力的特征融合方法:对特征编码器求得的红外纹理特征与可见光纹理、颜色特征,在通道自注意力机制的基础上进行通道拼接融合,计算方法如图5所示:
对输入维度为(H,W,C)维度的特征图在空间维度分别进行最大池化与平均池化,得到两个(1,1,C)维度特征;
随后输入两层MLP结构学习语义特征并经softmax函数做归一化映射成为通道注意力;
本发明采用基于通道注意力的特征融合方法,如图6所示,分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵Sinf_tex,Svis_tex,Svis_col,将其拼接后输入权重学习单元进行权重分配,随后将其广播为特征图大小,按照逐元素乘法,对按通道拼接的融合特征进行特征加权:
F=mlp(concat(sinf_tex,Svis_tex,Svis_col))⊙concat(Finf_tex,Fvis_tex,Fvis_col)
其中,Finf_tex、Fvis_tex、Fvis_col分别为红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征,⊙代表逐元素乘法。
如图7-图9所示,为采用本方法进行红外可见图像融合的实际应用的对比图像。图7-图9中,第一行为可见光输入的图像,第二行为红外光输入的图像,第三行为采用PIAFusion(一种基于光照感知的渐进式红外与可见光图像融合网络)方法处理后的图像,第四行为采用本方案方法处理后的图像,由各图像可以看出,本发明的技术方案具有实际可行性,且融合后的图像效果清晰、作业效率高。
如图10所示,本实施例还提供了一种图像融合方法的计算运行平台装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于自监督特征解耦的红外可见图像融合方法的步骤。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于自监督特征解耦的红外可见图像融合方法的步骤。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤的过程可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于自监督特征解耦的红外可见图像融合方法,其特征在于,包括如下步骤:
S1、构建基于照明感知的红外可见图像编解码融合网络:采用对比学习的方法,对基于孪生网络的编码器进行预训练,待其具备特征解耦能力之后,将双源图像同时输入编码器进行特征提取与解耦,将得到的可见光图像颜色与纹理特征、红外图像纹理特征按通道注意力权重进行拼接,随后输入解码器将融合特征恢复回原始图像;
S2、设计基于对比学习的特征解耦孪生网络预训练方法:采用对比学习的方式,最大化网络输出的颜色特征间距离,同时最小化纹理特征距离,从而训练出具有特征解耦功能的编码器;
S3、设计交叉注意力特征补充模块:在图像编码器中,加入基于交叉注意力的特征补充模块来实现不同源特征间的信息交流;
S4、设计基于通道注意力的特征融合方法:对特征编码器求得的红外纹理特征与可见光纹理、颜色特征,在通道自注意力机制的基础上进行通道拼接融合。
2.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S中,基于照明感知的红外可见图像编解码融合网络由可见光图像光照估计网络、基于孪生网络的特征编码器、基于通道注意力的融合模块、特征解码器四部分组成;
其中,特征解码器包含交叉注意力特征补充模块,通过将可见光、红外图像互为查询键来计算交叉注意力,增强双源的差异性特征;
预训练阶段无需配准图像,微调阶段仅需少量的配准图像用于训练;
经过监督方法预训练的照明打分网络,用于对可见光图像进行照明预测,输出其属于白天或夜晚的概率,作为损失函数中可见光图像权重来指导网络训练。
3.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S2中,基于对比学习的特征解耦孪生网络预训练方法中采用融合框架作为编解码网络结构;
其中,编码器采取参数共享的孪生网络,用于提取输入图像特征并解耦为纹理和颜色特征;
预训练阶段,将可见光及其灰度化图像同时输入孪生网络编码,得到四组不同特征。
4.根据权利要求3所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S2中,基于对比学习的特征解耦孪生网络预训练方法的实际操作中,可使用L1损失或KL散度计算特征间距离,作为监督信号促进编码器收敛;
融合阶段,将红外图像中以红色为主的干扰性颜色特征抛弃,只保留其余三种特征并按通道注意力分数进行拼接,输入解码器进行图像重建;
消融实验中,将输出的三种特征:可见-纹理、可见-颜色、红外-纹理特征,分别广播三次之后,依次输入解码器进行图像重建,得到的融合图像以验证编码器的特征解耦能力。
5.根据权利要求1所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S3中,交叉注意力特征补充模块采用基于Transfomer的交叉注意力模块来增强各自通道的特征信息,具体操作如下:
输入为经过神经网络提取的可见光特征Fvis与红外图像特征Finf;
将特征图按宽高方向展开成一维向量V(HW,C),并添加位置编码B以保留二维位置信息;其中,HW为特征图宽高成绩,C为特征图维度;
展开的一维向量V,按其长度HW,给每个位置添加位置编码PE:
PE(pos,2i)=sin(pos/100002i/d),PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos代表编码位置,i为编码长度;
重建后的可见光特征计算如下:
其中,WQ、WK、WV分别为空间转换矩阵,d为输入向量维度;
通过带监督的训练方式,交叉注意力模块会自行计算查询向量Q与键值K之间的注意力权重,在全局范围内提升两种输入向量之间的语义特征交互,达到重要信息提取与交流的目的。
6.根据权利要求5所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S4中,基于通道注意力的特征融合方法对特征编码器求得的红外纹理特征与可见光纹理、颜色特征,在通道自注意力机制的基础上进行通道拼接融合,计算方法为:
对输入维度为(H,W,C)维度的特征图在空间维度分别进行最大池化与平均池化,得到两个(1,1,C)维度特征;
随后输入两层MLP结构学习语义特征并经softmax函数做归一化映射成为通道注意力。
7.根据权利要求6所述的基于自监督特征解耦的红外可见图像融合方法,其特征在于,所述S4中,基于通道注意力的特征融合方法分别求红外纹理特征与可见光纹理、颜色特征对应的通道注意力矩阵Sinf_tex,Svis_tex,Svis_col,将其拼接后输入权重学习单元进行权重分配,随后将其广播为特征图大小,按照逐元素乘法,对按通道拼接的融合特征进行特征加权:
F=mlp(concat(Sinf_tex,Svis_tex,Svis_col))⊙concat(Finf_tex,Fvis_tex,Fvis_col)
其中,Finf_tex、Fvis_tex、Fvis_col分别为红外图像纹理特征、可见光图像纹理特征、可见光图像颜色特征,⊙代表逐元素乘法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331491.7A CN116468644A (zh) | 2023-03-31 | 2023-03-31 | 一种基于自监督特征解耦的红外可见图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331491.7A CN116468644A (zh) | 2023-03-31 | 2023-03-31 | 一种基于自监督特征解耦的红外可见图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468644A true CN116468644A (zh) | 2023-07-21 |
Family
ID=87172719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310331491.7A Pending CN116468644A (zh) | 2023-03-31 | 2023-03-31 | 一种基于自监督特征解耦的红外可见图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468644A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
-
2023
- 2023-03-31 CN CN202310331491.7A patent/CN116468644A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
CN117115065B (zh) * | 2023-10-25 | 2024-01-23 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Spencer et al. | Defeat-net: General monocular depth via simultaneous unsupervised representation learning | |
Hamid et al. | Stereo matching algorithm based on deep learning: A survey | |
Olmschenk et al. | Generalizing semi-supervised generative adversarial networks to regression using feature contrasting | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
US20230021661A1 (en) | Forgery detection of face image | |
CN110543841A (zh) | 行人重识别方法、系统、电子设备及介质 | |
CN111898635A (zh) | 神经网络的训练方法、数据获取方法和装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
Joseph et al. | C4synth: Cross-caption cycle-consistent text-to-image synthesis | |
CN112347995B (zh) | 基于像素和特征转移相融合的无监督行人再识别方法 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN114937083B (zh) | 一种应用于动态环境的激光slam系统及方法 | |
CN113705290A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Zhan et al. | FA-ResNet: Feature affine residual network for large-scale point cloud segmentation | |
CN111210382A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN112801068A (zh) | 一种视频多目标跟踪与分割系统和方法 | |
Zhao et al. | Probabilistic spatial distribution prior based attentional keypoints matching network | |
Tsai et al. | Deep co-saliency detection via stacked autoencoder-enabled fusion and self-trained cnns | |
CN116468644A (zh) | 一种基于自监督特征解耦的红外可见图像融合方法 | |
CN116910307A (zh) | 一种跨模态视频文本检索方法、系统、设备及介质 | |
KR20230071052A (ko) | 이미지 처리 방법 및 장치 | |
Hirner et al. | FC-DCNN: A densely connected neural network for stereo estimation | |
Pan et al. | Novel belief propagation algorithm for stereo matching with a robust cost computation | |
Yang et al. | Ai-generated images as data source: The dawn of synthetic era |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |