CN114693577A - 一种基于Transformer的红外偏振图像融合方法 - Google Patents
一种基于Transformer的红外偏振图像融合方法 Download PDFInfo
- Publication number
- CN114693577A CN114693577A CN202210417736.3A CN202210417736A CN114693577A CN 114693577 A CN114693577 A CN 114693577A CN 202210417736 A CN202210417736 A CN 202210417736A CN 114693577 A CN114693577 A CN 114693577A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- feature
- output
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010287 polarization Effects 0.000 title claims abstract description 157
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 131
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 200
- 238000010606 normalization Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000011541 reaction mixture Substances 0.000 claims description 4
- 229910000673 Indium arsenide Inorganic materials 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 3
- RPQDHPTXJYYUPQ-UHFFFAOYSA-N indium arsenide Chemical compound [In]#[As] RPQDHPTXJYYUPQ-UHFFFAOYSA-N 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 7
- 238000002679 ablation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于Transformer的红外偏振图像融合方法,其步骤包括:1、对红外偏振图像进行预处理,降低偏振度图像中的噪声干扰;2、构建基于Transformer红外偏振图像融合网络;3、建立红外偏振图像与融合图像之间的损失函数;4、用红外强度与偏振度图像对融合网络进行训练,并用训练后的模型对待处理的红外偏振图像进行融合。本发明通过Transformer自注意力机制对偏振度图像的全局显著性特征进行提取,并能利用偏振度图像总变分约束损失,进一步提升网络性能,从而能有效提高红外偏振图像的融合效果。
Description
技术领域
本发明属于计算机视觉、图像预处理和分析领域,具体的说是一种基于Transformer的红外偏振图像融合方法。
背景技术
红外成像技术依靠目标的温度差和热辐射率成像,成像结果会有明显的边缘、轮廓模糊,目标与背景的对比度偏低,视觉效果一般。而偏振图像由于其只保留某些特定方向入射光的特殊成像机制,从而可以获取目标与背景粗糙度、物质理化以及纹理特征等多维信息,目标的边缘轮廓特征更为显著,但由于偏振成像只保留了部分方向的光线,这导致偏振图像整体亮度偏低,原有红外图像背景细节信息丢失。这两种图像呈现出较强的信息互补性,因此可以采取有效的融合算法对红外强度与偏振度图像进行融合,融合后图像的信息量将会得到显著提升,从而增强红外成像系统的探测与识别能力。
当前红外偏振图像融合方法通常是利用现有的可见光与红外图像融合算法对红外强度与偏振度图像进行处理。传统的红外图像的融合算法主要可分为基于多尺度变换的方法和基于表示学习的方法。基于多尺度变换的图像融合算法主要是将源图像在空间域或频域上分解成不同尺度的子图像,然后选择恰当的融合规则在分解得到的相应尺度的子图像进行融合。而基于稀疏表示融合算法则先是通过一个过完备字典对输入数据进行稀疏编码来获得稀疏系数,利用过完备字典重构融合稀疏系数,得到融合后的图像。
深度学习是目前研究的热点内容,也逐渐应用到图像融合领域。当前基于深度学习的红外图像融合网络通常是利用现有的预训练网络模型进行特征提取,之后针对不同数据源特征设计不同的融合规则,再通过编解码网络恢复出融合后的图像。相比传统方法,基于深度学习的融合网络通过样本数据自身学习构建融合图像,使得网络中的参数与融合任务高度相关,模型具有更强的自适应性。此外,端到端的网络模型也使得融合效率进一步提高。
虽然在计算机视觉领域中,已经出现了一些性能出色的红外图像融合方法,但这些方法依然存在着不足之处:
1、传统基于多尺度变换的方法关键在于选取合适的变换域算法及融合规则,主要缺点在计算复杂度高,融合结果高度依赖于选取的多尺度变换方法。
2、基于稀疏表示的融合算法主要不足在于需要通过大量高质量的图像构建过完备字典,并且在数据量较多和源图像较复杂的情况下,该类算法融合效率较低。
3、基于深度学习的融合网络是以大量数据样本为基础的,有关红外图像和偏振图像融合任务的数据集难以被直接利用。偏振图像虽然包含目标场景的显著性信息,但亮度偏低,细节信息较少,当前现有的偏振图像融合网络缺少自注意力机制引导,不能有效地提取全局目标的显著性特征,导致红外偏振图像融合效果较差。同时,为了提高训练效率,现有的融合网络通常直接加载非偏数据集下的预训练权重,从而导致网络不能适应红外偏振图像的结构特性,无法提取有效的偏振信息。此外,基于深度学习的融合方法在对网络进行训练时,对输入图像施加相同的损失约束,这使得偏振图像中显著性信息缺失,网络的融合性能降低。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于Transformer的红外偏振图像融合方法,以期能通过Transformer的全局自注意力机制对偏振度图像全局目标的显著性特征进行处理,并能通过偏振度总变分约束提升网络性能,从而能有效提高红外偏振图像融合效果。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于Transformer的红外偏振图像融合方法的特点是按如下步骤进行:
步骤1、对红外偏振图像进行预处理;
步骤1.1、分别获取N组0°,60°,120°方向的红外偏振图像,并计算对应的N组偏振Stokes矢量{{I1,Q1,U1}...,{In,Qn,Un},...,{IN,QN,UN}},从而得到红外强度图像集合{I1,...,In,...,IN}和偏振度图像集合{P1,...,Pn,...,PN},其中,In表示第n张红外强度图像也即第n组偏振Stokes矢量的第一分量,Qn,Un分别表示第n组偏振Stokes矢量的第二和第三分量,Pn表示第n张偏振度图像,且
步骤1.2、将第n张红外强度图像In作为引导图,并对第n张偏振度图像Pn进行导向滤波,从而得到第n张引导滤波后的图像Gn,进而得到引导滤波后的图像集合{G1,...,Gn,...,GN};
步骤1.3、对偏振度图像集合{P1,...,Pn,...,PN}进行超像素分割,提取显著性目标区域:
利用k-means聚类方法对第n张偏振度图像Pn进行聚类,得到分割后的每个像素区域;
对任意一个像素区域的聚类中心与其相邻的像素区域进行距离度量,并将像素区域距离度量值作为相应相邻的像素区域的灰度值,从而获得第n张超像素分割后的图像Sgn;
通过式(1)计算第n张超像素分割后的图像Sgn中第j个像素点Sgn(j)所对应的显著性像素值San(j)并归一化处理后,得到第j个像素点的灰度值Sa′n(j),从而得到归一化后的显著性图像Sa′n:
式(1)中,θ表示常量系数,Sgn(t)表示图像Sgn中第t个像素点的灰度值,xj,yj、xt,yt分别表示第j个像素点、第t个像素点对应的像素坐标,j,t∈[1,T],T为像素点总数;
步骤1.4、令显著性阈值δ=|max(Sa′n)-min(Sa′n)|/τ,则第j个像素点的显著性目标权重其中,max(Sa′n)与min(Sa′n)分别表示显著性图像Sa′n中最大与最小灰度值,τ为常数;
通过式(2)对第n张引导滤波后的图像Gn的第j个像素点Gn(j)与第n张偏振度图像Pn的第j个像素点Pn(j)进行加权求和,从而获得第n张增强后的偏振度图像Rn的第j个像素点Rn(j),进而得到增强后的偏振度图像集合{R1,...,Rn,...,RN}:
步骤2、构建红外偏振图像融合网络,包括:基于Transformer的Encoder编码模块、残差融合模块RFB、Decoder解码模块、输出模块;并将红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN}一起输入融合网络中;
步骤2.1、基于Transformer的Encoder编码模块由M个多头自注意力块组成,并分别为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M;所述第m级多头自注意力块依次由第m级合并采样层PatchMergem、第m级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成;
所述第m级合并采样层PatchMergem由第m级滑窗层Unfoldm和第m级全连接层MLPm组成;
所述第m级窗口多头自注意力层WMSLm由第m级前归一化层LayerNorm1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm组成;
所述第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LayerNorm3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LayerNorm4m和第m级移位窗口全连接层SMLPm组成;
当m=1时,所述第n张红外强度图像In和增强后的偏振度图像Rn分别输入第m个多头自注意力块中;经过第m级自注意力块SwinTBm的第m级合并采样层PatchMergem的第m级滑窗层Unfoldm的处理后相应输出尺寸为的特征张量UfresultIm与UfresultRm,在分别经过第m级全连接层MLPm的处理后相应输出尺寸为的特征张量MlpresultIm与MlpresultRm;
所述特征张量MlpresultIm与MlpresultRm分别依次经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LayerNorm1m和第m级窗口多头计算单元WMSAm;由第m级窗口多头计算单元WMSAm对归一化后的特征张量进行线性变换以及维度转置,得到特征维度为的两个特征张量,再分别计算两个特征张量全局自注意力特征,相应得到维度为的特征张量WSAresultIm与WSAresultRm,并对特征张量WSAresultIm与WSAresultRm分别进行线性变换调整通道数,输出维度为的两个特征张量,再与第m级合并采样层PatchMergem的第m级全连接层MLPm的输出进行残差连接,从而分别输出特征张量WSSresultIm与WSSresultRm;
所述特征张量WSSresultIm与WSSresultRm分别依次输入第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm中进行处理后,分别输出特征张量WMLresultIm与WMLresultRm;
特征张量WMLresultRm与第m级后归一化层LayerNorm2m输入的特征张量WSSresultRm进行残差,并输出尺寸为的特征张量WMSLresultRm;其中,W,H为第m张红外强度图像Im和增强后的偏振度图像Rm的宽和高,Dm为第m级多头自注意力块的输出通道数,Sm为第m级滑窗层Unfoldm的步长,hm为第m级多头自注意力块中头的个数,dm为第m级多头自注意力块隐藏层节点数,ωm为第m级多头自注意力块中窗口的大小;
将第m级窗口多头自注意力层WMSLm输出的特征张量WMSLresultIm与WMSLresultRm分别输入第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LayerNorm3m进行归一化处理后再分别经过第m级移位窗口多头计算单元SWMSAm;
由第m级移位窗口多头计算单元SWMSAm分别对输入的两个特征张量循环上移和左移个像素点后再进行线性变换以及维度转置处理,得到的两个特征向量用于计算两个全局自注意力特征,相应得到两个特征张量并分别进行线性变换调整通道数,输出最终的两个特征张量;
第m级移位窗口多头计算单元SWMSAm输出的最终两个特征张量分别与所述第m级窗口多头自注意力层WMSLm的输出进行残差连接,输出特征张量SWSSresultIm与SWSSresultRm;再分别依次经过第m级后归一化层LayerNorm4m与第m级移位窗口全连接层SMLPm的处理后,得到输出特征张量SWMLresultIm与SWMLresultRm;
特征张量SWMLresultIm与特征张量SWSSresultIm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的SwinTBresultIm并作为所述基于Transformer的Encoder编码模块的一个输出;
特征张量SWMLresultRm与特征张量SWSSresultRm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm并作为所述基于Transformer的Encoder编码模块的一个输出;
当m=2,3,...,M时,将特征张量SwinTBresultIm-1与SwinTBresultRm-1作为第m级多头自注意力块SwinTBm的输入,并得到相应输出的特征张量SwinTBresultIm与SwinTBresultRm;从而由第M级多头自注意力块SwinTBM得到特征张量SwinTBresultIM与SwinTBresultRM;并与前M-1级多头自注意力块的输出共同作为所述基于Transformer的Encoder编码模块输出的两个特征张量集合,相应记为{SwinTBresultI1,...,SwinTBresultIm,...,SwinTBresultIM}、{SwinTBresultR1,...,SwinTBresultRm,...,SwinTBresultRM};
步骤2.2、所述残差融合模块RFB由M个融合块组成,并分别为RFB1,...,RFBm,...,RFBM;其中,RFBm表示第m级融合块,m=1,2,...,M;所述第m级融合块由第m级左支路特征层ConvLm、第m级右支路特征层ConvRm、第m级特征融合层ConvBm和第m级残差特征层RESFm构成;
所述第m级融合块RFBm的第m级左支路特征层ConvLm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;
所述第m级融合块RFBm的第m级右支路特征层ConvRm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;
所述第m级融合块RFBm的第m级特征融合层ConvBm包括:E个二维卷积层Conv与E个ReLU激活函数层,其中,第e个二维卷积层的卷积核大小为ke×ke;e=1,2,…,E;
所述第m级融合块RFBm的第m级残差特征层RESFm包括:Z个二维卷积层Conv与Z个ReLU激活函数层,其中,第z个二维卷积层的卷积核大小为kz×kz;z=1,2,…,Z;
将基于Transformer的Encoder编码模块的第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultIm输入到所述第m级融合块RFBm的第m级左支路特征层ConvLm中进行处理,同时,第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm输入到所述第m级融合块RFBm的第m级右支路特征层ConvRm中进行处理,并将输出的两个特征张量在通道维上进行串接后,送入第m级特征融合层ConvBm中进行特征提取,输出特征张量BFresultm;
将输入的特征张量SwinTBresultIm与SwinTBresultRm在通道维进行串接后,通过所述第m级融合块RFBm的第m级残差特征层RESFm进行特征提取,得到的结果再与所述特征张量BFresultm进行残差连接后,获得所述第m级融合块RFBm输出的特征张量RFBresultm,从而由M个融合块RFB1,...,RFBm,...,RFBM输出的特征张量集合{RFBresult1,...,RFBresultm,...,RFBresultM}并作为残差融合模块RFB的输出;
步骤2.3、所述Decoder解码模块由多层二维卷积块{DBm′,i|m′=1,2,...,M-1;i=1,2,...,M-m′}组成,其中,DBm′,i表示第m′行第i列的多层二维卷积块,并包括:B个二维卷积层和B个ReLU激活函数层,其中,m′=1,2,...,M-1,i=1,2,...,M-m′,第b个二维卷积层的卷积核大小为kb×kb,b=1,2,…,B;
当m′=1,2,...,M-1,且i=1时,所述残差融合模块RFB的第m′+1级融合块RFBm′+1输出的特征张量RFBresultm′+1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,并与第m′级融合块RFBm′输出的特征张量RFBresultm′进行串接后共同作为所述Decoder解码模块中第m′行第i列的多层二维卷积块DBm′,i的输入,并由第m′行第i列的多层二维卷积块DBm′,i输出特征张量DBresultm′,i;
当m′=1,2,...,M-2,且i=2,...,M-m′时,所述Decoder解码模块中第m′+1行第i-1列的多层二维卷积块DBm′+1,i-1输出的特征张量DBresultm′+1,i-1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,从而得到特征张量DBupresultm′+1,i-1;
之后将特征张量DBupresultm′+1,i-1、所述残差融合模块RFB的第m′级融合块RFBm′输出的特征张量RFBresultm′以及所述Decoder解码模块的多层二维卷积块DBm′,1,...,DBm′,i-1输出的特征张量DBresultm′,1,...,DBresultm′,i-1进行串接,并共同作为所述Decoder解码模块的第m′行第i列的多层二维卷积块DBm′,i的输入;从而由第m′行第i列的多层二维卷积块DBm′,i输出DBresultm′,i;从而由第1行第M-1列的多层二维卷积块DB1,M-1输出特征张量DBresult1,M-1并作为所述Decoder解码模块最终的输出;
步骤2.4:所述输出模块由单层卷积层组成,包括:一个卷积核大小为kst×kst的二维卷积和一个ReLU激活函数层;
所述特征张量DBresult1,M-1经过所述输出模块的处理后输出第n张融合后的红外偏振图像Fn,从而得到融合后的红外偏振图像集合{F1,...,Fn,...,FN};
式(3)中,xn表示第n张红外强度图像In或增强后的偏振度图像Rn;表示滑窗尺寸为w时图像xn中像素点的均值,表示滑窗尺寸为w时图像Fn中像素点的均值,表示滑窗尺寸为w时图像xn中像素点的方差,表示滑窗尺寸为w时图像Fn中像素点的方差,表示滑窗尺寸为w时图像xn和Fn中像素点的协方差,C1,C2均为常数;
式(6)中,Tn(αn,βn)表示第n张增强后的偏振度图像Rn在坐标(αn,βn)处的像素点Rn(αn,βn)与融合后的红外偏振图像Fn在坐标(αn,βn)处的像素点Fn(αn,βn)的差值,并由式(7)得到;
Tn(αn,βn)=Rn(αn,βn)-Fn(αn,βn) (7)
利用式(8)构建第n张红外强度图像In、增强后的偏振度图像Rn与融合后的红外偏振图像Fn之间的总损失函数Lossn:
式(8)中,λ为加权系数;
步骤4、基于红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN},利用梯度下降算法对融合网络进行训练,并计算总损失函数Lossn以更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外偏振图像融合模型,用于实现对红外强度与偏振度图像的融合。
与现有技术相比,本发明的有益效果在于:
1、本发明设计了一种基于Transformer的红外偏振图像融合网络,能有效提取偏振度图像的全局显著性特征,同时,利用偏振度图像的总变分去进一步约束损失函数,提升了网络的训练性能。因此,本发明比以往红外偏振图像融合方法的精度更高,是一种有效的偏振图像融合方法。
2、本发明针对红外偏振图像的结构特征,利用Transformer的全局自注意力机制,设计了一种图像编码模块,对偏振度图像的全局显著性特征进行提取,同时这种全局自注意力机制只在有限的窗口内进行计算,减轻了计算量,且特征张量的移位操作也使不同窗口之间可以进行信息交互,进一步提升了红外偏振图像的融合效果。
3、本发明在传统U-Net网络基础上,加入了多层二维卷积块改进图像解码模块,并在卷积块之间增加密集连接,深层结构可以向浅层结构传递监督信息。同时,本发明未使用预训练权重,而采用端到端训练,使得编解码网络更好地适应红外偏振图像特征。
3、为了使融合后的红外偏振图像保留原始偏振度图像边缘轮廓的梯度信息,本发明综合红外图像的多尺度结构相似性与偏振度图像的总变分约束作为损失函数训练网络,有效改善了网络性能,从而提高了图像融合效果。
附图说明
图1为本发明中红外偏振图像融合方法流程图;
图2为本发明中红外偏振图像预处理结果;
图3为本发明中红外偏振图像融合网络总结构图;
图4为本发明中基于Transformer的Encoder编码模块中多头自注意力块的结构图;
图5为本发明中残差融合模块RFB中融合块的结构图;
图6为本发明中Decoder解码模块的结构图;
图7为本发明方法消融实验对比结果图;
图8为本发明方法和其他图像融合方法的对比结果图。
具体实施方式
本实施例中,一种基于Transformer的红外偏振图像融合方法,如图1所示,是按如下步骤进行:
步骤1、对红外偏振图像进行预处理;
步骤1.1、分别获取N组0°,60°,120°方向的红外偏振图像,并计算对应的N组偏振Stokes矢量{{I1,Q1,U1}...,{In,Qn,Un},...,{IN,QN,UN}},从而得到红外强度图像集合{I1,...,In,...,IN}和偏振度图像集合{P1,...,Pn,...,PN},其中,In表示第n张红外强度图像也即第n组偏振Stokes矢量的第一分量,Qn,Un分别表示第n组偏振Stokes矢量的第二和第三分量,Pn表示第n张偏振度图像,且
步骤1.2、将第n张红外强度图像In作为引导图,并对第n张偏振度图像Pn进行导向滤波,从而得到第n张引导滤波后的图像Gn,进而得到引导滤波后的图像集合{G1,...,Gn,...,GN};
步骤1.3、对偏振度图像集合{P1,...,Pn,...,PN}进行超像素分割,提取显著性目标区域:
利用k-means聚类方法对第n张偏振度图像Pn进行聚类,得到分割后的每个像素区域;
对任意一个像素区域的聚类中心与其相邻的像素区域进行距离度量,并将像素区域距离度量值作为相应相邻的像素区域的灰度值,从而获得第n张超像素分割后的图像Sgn;
通过式(1)计算第n张超像素分割后的图像Sgn中第j个像素点Sgn(j)所对应的显著性像素值San(j)并归一化处理后,得到第j个像素点的灰度值Sa′n(j),从而得到归一化后的显著性图像Sa′n:
式(1)中,θ表示常量系数,Sgn(t)表示图像Sgn中第t个像素点的灰度值,xj,yj、xt,yt分别表示第j个像素点、第t个像素点对应的像素坐标,j,t∈[1,T],T为像素点总数;本发明中红外强度与偏振度图像尺寸均为(448,448),因此像素点总数T=448×448,常量系数θ为0.001;
步骤1.4、令显著性阈值δ=|max(Sa′n)-min(Sa′n)|/τ,则第j个像素点的显著性目标权重其中,max(Sa′n)与min(Sa′n)分别表示显著性图像Sa′n中最大与最小灰度值,τ为常数;本发明中将τ设置为1.3对显著性图像进行阈值分割。
通过式(2)对第n张引导滤波后的图像Gn的第j个像素点Gn(j)与第n张偏振度图像Pn的第j个像素点Pn(j)进行加权求和,从而获得第n张增强后的偏振度图像Rn的第j个像素点Rn(j),进而得到增强后的偏振度图像集合{R1,...,Rn,...,RN}:红外偏振图像预处理结果如图2所示,IR和DOLP分别为红外强度与偏振度图像,GF为以红外强度图像作为引导图,对偏振度图像进行引导滤波后的结果,由于受红外强度图像梯度的影响,引导滤波后偏振图像的显著性信息缺失。因此,通过对原始偏振度图像进行超像素分割,如图SP,并将超像素间的距离作为像素灰度值,阈值分割后获取显著性图SM,之后对显著性图像、原始偏振度图以及引导滤波后的偏振度图加权求和,从而得到增强后的偏振度图像。
步骤2、构建红外偏振图像融合网络,,网络结构如图3所示,包括:基于Transformer的Encoder编码模块、残差融合模块RFB、Decoder解码模块、输出模块;并将红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN}一起输入融合网络中;
步骤2.1、基于Transformer的Encoder编码模块由M个多头自注意力块组成,并分别为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M;第m级多头自注意力块依次由第m级合并采样层PatchMergem、第m级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成,本实施例中,M=4,第m级多头自注意力块SwinTBm的结构如图4所示;
第m级合并采样层PatchMergem由第m级滑窗层Unfoldm和第m级全连接层MLPm组成;
第m级窗口多头自注意力层WMSLm由第m级前归一化层LayerNorm1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm组成;
第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LayerNorm3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LayerNorm4m和第m级移位窗口全连接层SMLPm组成;
当m=1时,第n张红外强度图像In和增强后的偏振度图像Rn分别输入第m个多头自注意力块中;经过第m级自注意力块SwinTBm的第m级合并采样层PatchMergem的第m级滑窗层Unfoldm的处理后相应输出尺寸为的特征张量UfresultIm与UfresultRm,在分别经过第m级全连接层MLPm的处理后相应输出尺寸为的特征张量MlpresultIm与MlpresultRm;
特征张量MlpresultIm与MlpresultRm分别依次经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LayerNorm1m和第m级窗口多头计算单元WMSAm;由第m级窗口多头计算单元WMSAm对归一化后的特征张量进行线性变换以及维度转置,得到特征维度为的两个特征张量,再分别计算两个特征张量全局自注意力特征,相应得到维度为的特征张量WSAresultIm与WSAresultRm,并对特征张量WSAresultIm与WSAresultRm分别进行线性变换调整通道数,输出维度为的两个特征张量,再与第m级合并采样层PatchMergem的第m级全连接层MLPm的输出进行残差连接,从而分别输出特征张量WSSresultIm与WSSresultRm;
特征张量WSSresultIm与WSSresultRm分别依次输入第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm中进行处理后,分别输出特征张量WMLresultIm与WMLresultRm;
特征张量WMLresultRm与第m级后归一化层LayerNorm2m输入的特征张量WSSresultRm进行残差,并输出尺寸为的特征张量WMSLresultRm;其中,W,H为第m张红外强度图像Im和增强后的偏振度图像Rm的宽和高,Dm为第m级多头自注意力块的输出通道数,Sm为第m级滑窗层Unfoldm的步长,hm为第m级多头自注意力块中头的个数,dm为第m级多头自注意力块隐藏层节点数,ωm为第m级多头自注意力块中窗口的大小;本实施例中,红外强度图像和增强后的偏振度图像的宽W=448,高H=448,第1级滑窗层Unfoldm的步长S1=1,第1级多头自注意力块的输出通道数D1=32,第1级多头自注意力块中头的个数h1=3,第1级多头自注意力块隐藏层节点数d1=32,第1级多头自注意力块中窗口的大小ω1=7;
将第m级窗口多头自注意力层WMSLm输出的特征张量WMSLresultIm与WMSLresultRm分别输入第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LayerNorm3m进行归一化处理后再分别经过第m级移位窗口多头计算单元SWMSAm;
由第m级移位窗口多头计算单元SWMSAm分别对输入的两个特征张量循环上移和左移个像素点后再进行线性变换以及维度转置处理,得到的两个特征向量用于计算两个全局自注意力特征,相应得到两个特征张量并分别进行线性变换调整通道数,输出最终的两个特征张量;
第m级移位窗口多头计算单元SWMSAm输出的最终两个特征张量分别与第m级窗口多头自注意力层WMSLm的输出进行残差连接,输出特征张量SWSSresultIm与SWSSresultRm;再分别依次经过第m级后归一化层LayerNorm4m与第m级移位窗口全连接层SMLPm的处理后,得到输出特征张量SWMLresultIm与SWMLresultRm;
特征张量SWMLresultIm与特征张量SWSSresultIm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的SwinTBresultIm并作为基于Transformer的Encoder编码模块的一个输出;
特征张量SWMLresultRm与特征张量SWSSresultRm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm并作为基于Transformer的Encoder编码模块的一个输出;
当m=2,3,...,M时,将特征张量SwinTBresultIm-1与SwinTBresultRm-1作为第m级多头自注意力块SwinTBm的输入,并得到相应输出的特征张量SwinTBresultIm与SwinTBresultRm;从而由第M级多头自注意力块SwinTBM得到特征张量SwinTBresultIM与SwinTBresultRM;并与前M-1级多头自注意力块的输出共同作为基于Transformer的Encoder编码模块输出的两个特征张量集合,相应记为{SwinTBresultI1,...,SwinTBresultIm,...,SwinTBresultIM}、{SwinTBresultR1,...,SwinTBresultRm,...,SwinTBresultRM};本实施例中,每级多头自注意力块中头的个数hm均为3,每级多头自注意力块隐藏层节点数dm均为32,每级多头自注意力块中窗口的大小ωm均为7,每级滑窗层Unfoldm的步长Sm均为2,第2级多头自注意力块的输出通道数D2为64,第3级多头自注意力块的输出通道数D3为128,第4级多头自注意力块的输出通道数D4为128;
步骤2.2、残差融合模块RFB由M个融合块组成,并分别为RFB1,...,RFBm,...,RFBM;其中,RFBm表示第m级融合块,m=1,2,...,M;如图5所示,第m级融合块由第m级左支路特征层ConvLm、第m级右支路特征层ConvRm、第m级特征融合层ConvBm和第m级残差特征层RESFm构成;
第m级融合块RFBm的第m级左支路特征层ConvLm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;
第m级融合块RFBm的第m级右支路特征层ConvRm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;本实施例中,L=1,kl=3,步长和填充均为1;
第m级融合块RFBm的第m级特征融合层ConvBm包括:E个二维卷积层Conv与E个ReLU激活函数层,其中,第e个二维卷积层的卷积核大小为ke×ke;e=1,2,…,E;本实施例中,E=3,当e=1时,第1个二维卷积层的卷积核大小为1×1,步长为1,填充为0;当e=2,3时,ke=3,步长和填充均为1;
第m级融合块RFBm的第m级残差特征层RESFm包括:Z个二维卷积层Conv与Z个ReLU激活函数层,其中,第z个二维卷积层的卷积核大小为kz×kz;z=1,2,…,Z;本实施例中,Z=1,二维卷积层的卷积核大小为kz=3,步长和填充均为1;
将基于Transformer的Encoder编码模块的第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultIm输入到第m级融合块RFBm的第m级左支路特征层ConvLm中进行处理,同时,第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm输入到第m级融合块RFBm的第m级右支路特征层ConvRm中进行处理,并将输出的两个特征张量在通道维上进行串接后,送入第m级特征融合层ConvBm中进行特征提取,输出特征张量BFresultm;
将输入的特征张量SwinTBresultIm与SwinTBresultRm在通道维进行串接后,通过第m级融合块RFBm的第m级残差特征层RESFm进行特征提取,得到的结果再与特征张量BFresultm进行残差连接后,获得第m级融合块RFBm输出的特征张量RFBresultm,从而由M个融合块RFB1,...,RFBm,...,RFBM输出的特征张量集合{RFBresult1,...,RFBresultm,...,RFBresultM}并作为残差融合模块RFB的输出;
步骤2.3、Decoder解码模块由多层二维卷积块{DBm′,i|m′=1,2,...,M-1;i=1,2,...,M-m′}组成,其中,DBm′,i表示第m′行第i列的多层二维卷积块,并包括:B个二维卷积层和B个ReLU激活函数层,其中,m′=1,2,...,M-1,i=1,2,...,M-m′,第b个二维卷积层的卷积核大小为kb×kb,b=1,2,…,B;本实施例中,Decoder解码模块结构如图6所示,B=2,第1个二维卷积层的卷积核大小1×1,步长为1,填充为0;第2个二维卷积层的卷积核大小3×3,步长和填充均为1;
当m′=1,2,...,M-1,且i=1时,残差融合模块RFB的第m′+1级融合块RFBm′+1输出的特征张量RFBresultm′+1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,并与第m′级融合块RFBm′输出的特征张量RFBresultm′进行串接后共同作为Decoder解码模块中第m′行第i列的多层二维卷积块DBm′,i的输入,并由第m′行第i列的多层二维卷积块DBm′,i输出特征张量DBresultm′,i;
当m′=1,2,...,M-2,且i=2,...,M-m′时,Decoder解码模块中第m′+1行第i-1列的多层二维卷积块DBm′+1,i-1输出的特征张量DBresultm′+1,i-1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,从而得到特征张量DBupresultm′+1,i-1;
之后将特征张量DBupresultm′+1,i-1、残差融合模块RFB的第m′级融合块RFBm′输出的特征张量RFBresultm′以及Decoder解码模块的多层二维卷积块DBm′,1,...,DBm′,i-1输出的特征张量DBresultm′,1,...,DBresultm′,i-1进行串接,并共同作为Decoder解码模块的第m′行第i列的多层二维卷积块DBm′,i的输入;从而由第m′行第i列的多层二维卷积块DBm′,i输出DBresultm′,i;从而由第1行第M-1列的多层二维卷积块DB1,M-1输出特征张量DBresult1,M-1并作为Decoder解码模块最终的输出;
步骤2.4:输出模块由单层卷积层组成,包括:一个卷积核大小为kst×kst的二维卷积和一个ReLU激活函数层;本实施例中,kst=1,步长为1,填充为0;
特征张量DBresult1,M-1经过输出模块的处理后输出第n张融合后的红外偏振图像Fn,从而得到融合后的红外偏振图像集合{F1,...,Fn,...,FN};
式(3)中,xn表示第n张红外强度图像In或增强后的偏振度图像Rn;表示滑窗尺寸为w时图像xn中像素点的均值,表示滑窗尺寸为w时图像Fn中像素点的均值,表示滑窗尺寸为w时图像xn中像素点的方差,表示滑窗尺寸为w时图像Fn中像素点的方差,表示滑窗尺寸为w时图像xn和Fn中像素点的协方差,C1,C2均为常数;
式(6)中,Tn(αn,βn)表示第n张增强后的偏振度图像Rn在坐标(αn,βn)处的像素点Rn(αn,βn)与融合后的红外偏振图像Fn在坐标(αn,βn)处的像素点Fn(αn,βn)的差值,并由式(7)得到;
Tn(αn,βn)=Rn(αn,βn)-Fn(αn,βn) (7)
利用式(8)构建第n张红外强度图像In、增强后的偏振度图像Rn与融合后的红外偏振图像Fn之间的总损失函数Lossn:
式(8)中,λ为加权系数;在本实施例中,多尺度窗口的尺寸w∈{3,5,7,9,11},C1,C2分别为0.0001和0.0009,总变分加权系数λ为0.1,η为0.0001。
步骤4、基于红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN},利用梯度下降算法对融合网络进行训练,并计算总损失函数Lossn,用于更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外偏振图像融合模型,用于实现对红外强度与偏振度图像的融合。本实施例中,采用RMSProp优化器,随机提取LDDRS红外偏振道路场景数据集中1690组数据用于训练,211组用于验证,212组用于测试,迭代200次后停止训练;
表1消融实验结果对比
Methods | Nabf | Qab/f | SF | SSIM | Peilla | Qy | FMI |
Dense-Encoder | 0.17894 | 0.43101 | 4.7581 | 0.63196 | 0.68465 | 0.56042 | 0.93078 |
Swin-T | 0.12864 | 0.45111 | 5.2802 | 0.68618 | 0.74249 | 0.57511 | 0.93979 |
Swin-T+TVLoss | 0.07775 | 0.50275 | 5.0287 | 0.73532 | 0.78719 | 0.59692 | 0.94435 |
表2不同融合方法实验结果对比
Methods | Nabf | Qab/f | SF | Qy | Peilla | FMI |
NSST | 0.15678 | 0.35599 | 2.3777 | 0.55814 | 0.68874 | 0.92542 |
MDLatLRR | 0.13508 | 0.39082 | 2.4294 | 0.54608 | 0.73893 | 0.92848 |
DIDFusion | 0.21415 | 0.38092 | 4.4826 | 0.53506 | 0.62018 | 0.91372 |
RFN-Nest | <u>0.1187</u> | 0.38547 | 3.0409 | 0.49573 | 0.70271 | 0.93202 |
PFNet | 0.12686 | 0.47681 | 4.6451 | <u>0.58003</u> | <u>0.75699</u> | 0.93257 |
SeAFusion | 0.28027 | <u>0.48193</u> | 6.2655 | 0.58286 | 0.73071 | <u>0.9345</u> |
Ours | 0.07775 | 0.50275 | <u>5.0287</u> | 0.59692 | 0.78719 | 0.94435 |
本发明中红外偏振图像融合网络结构如图3所示,该网络利用Transformer的自注意力机制对偏振度图像的全局显著性特征进行提取,同时这种窗口多头自注意力机制只在窗口内进行,减轻了计算量,并且不同窗口之间的信息也能进行交互,从而显著提升红外偏振图像的融合效果。表1为本发明中针对网络结构与损失函数的消融实验结果对比。该实验先以经典的Dense-Net作为编码网络,仅通过多尺度结构相似性作为损失训练网络,并将其作为基准模型与本文方法进行对比。其中,Swin-T表示采用本发明中基于transformer的Encoder编码模块的实验结果,Swin-T+TVLoss表示加入偏振度总变分损失后的实验结果,Nabf表示融合结果的噪声水平,Qab/f表示基于梯度的融合指标,SF表示空间频率,SSIM表示结构相似性,Peilla表示显著性特征信息指标,Qy是自适应结构相似性指标,FMI为像素级的特征互信息。上述指标中Nabf越小则表示融合结果噪声干扰越小,融合效果越好,其余指标与融合性能呈正相关。图7为消融实验定性融合结果对比。消融实验结果表明,本发明利用transformer的全局自注意力机制与偏振度总变分损失可以有效提升网络的融合性能。
表2与图8为本发明与当前其他图像融合方法的估计结果对比。其中,Ours表示本发明的基于Transformer的图像融合方法;NSST为基于非下采样剪切波变换的方法;MDLatLRR为自适应多尺度分解融合方法;DIDFusion为基于图像背景与细节特征分解的编解码网络;RFN-Nest为基于残差融合的编解码网络,且对编解码网络进行预训练;PFNet是基于偏振图像的密集连接融合网络;SeAFusion是图像融合与分割联动的网络结构,即利用高级视觉任务来驱动图像融合。表2与图8实验结果表明,本发明在当前指标下,整体性能优于上述图像融合方法。
Claims (1)
1.一种基于Transformer的红外偏振图像融合方法,其特征是按如下步骤进行:
步骤1、对红外偏振图像进行预处理;
步骤1.1、分别获取N组0°,60°,120°方向的红外偏振图像,并计算对应的N组偏振Stokes矢量{{I1,Q1,U1}...,{In,Qn,Un},...,{IN,QN,UN}},从而得到红外强度图像集合{I1,...,In,...,IN}和偏振度图像集合{P1,...,Pn,...,PN},其中,In表示第n张红外强度图像也即第n组偏振Stokes矢量的第一分量,Qn,Un分别表示第n组偏振Stokes矢量的第二和第三分量,Pn表示第n张偏振度图像,且
步骤1.2、将第n张红外强度图像In作为引导图,并对第n张偏振度图像Pn进行导向滤波,从而得到第n张引导滤波后的图像Gn,进而得到引导滤波后的图像集合{G1,...,Gn,...,GN};
步骤1.3、对偏振度图像集合{P1,...,Pn,...,PN}进行超像素分割,提取显著性目标区域:
利用k-means聚类方法对第n张偏振度图像Pn进行聚类,得到分割后的每个像素区域;
对任意一个像素区域的聚类中心与其相邻的像素区域进行距离度量,并将像素区域距离度量值作为相应相邻的像素区域的灰度值,从而获得第n张超像素分割后的图像Sgn;
通过式(1)计算第n张超像素分割后的图像Sgn中第j个像素点Sgn(j)所对应的显著性像素值San(j)并归一化处理后,得到第j个像素点的灰度值Sa′n(j),从而得到归一化后的显著性图像Sa′n:
式(1)中,θ表示常量系数,Sgn(t)表示图像Sgn中第t个像素点的灰度值,xj,yj、xt,yt分别表示第j个像素点、第t个像素点对应的像素坐标,j,t∈[1,T],T为像素点总数;
步骤1.4、令显著性阈值δ=|max(Sa′n)-min(Sa′n)|/τ,则第j个像素点的显著性目标权重其中,max(Sa′n)与min(Sa′n)分别表示显著性图像Sa′n中最大与最小灰度值,τ为常数;
通过式(2)对第n张引导滤波后的图像Gn的第j个像素点Gn(j)与第n张偏振度图像Pn的第j个像素点Pn(j)进行加权求和,从而获得第n张增强后的偏振度图像Rn的第j个像素点Rn(j),进而得到增强后的偏振度图像集合{R1,...,Rn,...,RN}:
步骤2、构建红外偏振图像融合网络,包括:基于Transformer的Encoder编码模块、残差融合模块RFB、Decoder解码模块、输出模块;并将红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN}一起输入融合网络中;
步骤2.1、基于Transformer的Encoder编码模块由M个多头自注意力块组成,并分别为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M;所述第m级多头自注意力块依次由第m级合并采样层PatchMergem、第m级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成;
所述第m级合并采样层PatchMergem由第m级滑窗层Unfoldm和第m级全连接层MLPm组成;
所述第m级窗口多头自注意力层WMSLm由第m级前归一化层LayerNorm1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm组成;
所述第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LayerNorm3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LayerNorm4m和第m级移位窗口全连接层SMLPm组成;
当m=1时,所述第n张红外强度图像In和增强后的偏振度图像Rn分别输入第m个多头自注意力块中;经过第m级自注意力块SwinTBm的第m级合并采样层PatchMergem的第m级滑窗层Unfoldm的处理后相应输出尺寸为的特征张量UfresultIm与UfresultRm,在分别经过第m级全连接层MLPm的处理后相应输出尺寸为的特征张量MlpresultIm与MlpresultRm;
所述特征张量MlpresultIm与MlpresultRm分别依次经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LayerNorm1m和第m级窗口多头计算单元WMSAm;由第m级窗口多头计算单元WMSAm对归一化后的特征张量进行线性变换以及维度转置,得到特征维度为的两个特征张量,再分别计算两个特征张量全局自注意力特征,相应得到维度为的特征张量WSAresultIm与WSAresultRm,并对特征张量WSAresultIm与WSAresultRm分别进行线性变换调整通道数,输出维度为的两个特征张量,再与第m级合并采样层PatchMergem的第m级全连接层MLPm的输出进行残差连接,从而分别输出特征张量WSSresultIm与WSSresultRm;
所述特征张量WSSresultIm与WSSresultRm分别依次输入第m级后归一化层LayerNorm2m和第m级窗口全连接层WMLPm中进行处理后,分别输出特征张量WMLresultIm与WMLresultRm;
特征张量WMLresultRm与第m级后归一化层LayerNorm2m输入的特征张量WSSresultRm进行残差,并输出尺寸为的特征张量WMSLresultRm;其中,W,H为第m张红外强度图像Im和增强后的偏振度图像Rm的宽和高,Dm为第m级多头自注意力块的输出通道数,Sm为第m级滑窗层Unfoldm的步长,hm为第m级多头自注意力块中头的个数,dm为第m级多头自注意力块隐藏层节点数,ωm为第m级多头自注意力块中窗口的大小;
将第m级窗口多头自注意力层WMSLm输出的特征张量WMSLresultIm与WMSLresultRm分别输入第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LayerNorm3m进行归一化处理后再分别经过第m级移位窗口多头计算单元SWMSAm;
由第m级移位窗口多头计算单元SWMSAm分别对输入的两个特征张量循环上移和左移个像素点后再进行线性变换以及维度转置处理,得到的两个特征向量用于计算两个全局自注意力特征,相应得到两个特征张量并分别进行线性变换调整通道数,输出最终的两个特征张量;
第m级移位窗口多头计算单元SWMSAm输出的最终两个特征张量分别与所述第m级窗口多头自注意力层WMSLm的输出进行残差连接,输出特征张量SWSSresultIm与SWSSresultRm;再分别依次经过第m级后归一化层LayerNorm4m与第m级移位窗口全连接层SMLPm的处理后,得到输出特征张量SWMLresultIm与SWMLresultRm;
特征张量SWMLresultIm与特征张量SWSSresultIm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的SwinTBresultIm并作为所述基于Transformer的Encoder编码模块的一个输出;
特征张量SWMLresultRm与特征张量SWSSresultRm进行残差连接,从而得到第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm并作为所述基于Transformer的Encoder编码模块的一个输出;
当m=2,3,...,M时,将特征张量SwinTBresultIm-1与SwinTBresultRm-1作为第m级多头自注意力块SwinTBm的输入,并得到相应输出的特征张量SwinTBresultIm与SwinTBresultRm;从而由第M级多头自注意力块SwinTBM得到特征张量SwinTBresultIM与SwinTBresultRM;并与前M-1级多头自注意力块的输出共同作为所述基于Transformer的Encoder编码模块输出的两个特征张量集合,相应记为{SwinTBresultI1,...,SwinTBresultIm,...,SwinTBresultIM}、{SwinTBresultR1,...,SwinTBresultRm,...,SwinTBresultRM};
步骤2.2、所述残差融合模块RFB由M个融合块组成,并分别为RFB1,...,RFBm,...,RFBM;其中,RFBm表示第m级融合块,m=1,2,...,M;所述第m级融合块由第m级左支路特征层ConvLm、第m级右支路特征层ConvRm、第m级特征融合层ConvBm和第m级残差特征层RESFm构成;
所述第m级融合块RFBm的第m级左支路特征层ConvLm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;
所述第m级融合块RFBm的第m级右支路特征层ConvRm包括:L个二维卷积层Conv与L个ReLU激活函数层,其中,第l个二维卷积层的卷积核大小为kl×kl;l=1,2,…,L;
所述第m级融合块RFBm的第m级特征融合层ConvBm包括:E个二维卷积层Conv与E个ReLU激活函数层,其中,第e个二维卷积层的卷积核大小为ke×ke;e=1,2,…,E;
所述第m级融合块RFBm的第m级残差特征层RESFm包括:Z个二维卷积层Conv与Z个ReLU激活函数层,其中,第z个二维卷积层的卷积核大小为kz×kz;z=1,2,…,Z;
将基于Transformer的Encoder编码模块的第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultIm输入到所述第m级融合块RFBm的第m级左支路特征层ConvLm中进行处理,同时,第m级多头自注意力块SwinTBm输出的特征张量SwinTBresultRm输入到所述第m级融合块RFBm的第m级右支路特征层ConvRm中进行处理,并将输出的两个特征张量在通道维上进行串接后,送入第m级特征融合层ConvBm中进行特征提取,输出特征张量BFresultm;
将输入的特征张量SwinTBresultIm与SwinTBresultRm在通道维进行串接后,通过所述第m级融合块RFBm的第m级残差特征层RESFm进行特征提取,得到的结果再与所述特征张量BFresultm进行残差连接后,获得所述第m级融合块RFBm输出的特征张量RFBresultm,从而由M个融合块RFB1,...,RFBm,...,RFBM输出的特征张量集合{RFBresult1,...,RFBresultm,...,RFBresultM}并作为残差融合模块RFB的输出;
步骤2.3、所述Decoder解码模块由多层二维卷积块{DBm′,i|m′=1,2,...,M-1;i=1,2,...,M-m′}组成,其中,DBm′,i表示第m′行第i列的多层二维卷积块,并包括:B个二维卷积层和B个ReLU激活函数层,其中,m′=1,2,...,M-1,i=1,2,...,M-m′,第b个二维卷积层的卷积核大小为kb×kb,b=1,2,…,B;
当m′=1,2,...,M-1,且i=1时,所述残差融合模块RFB的第m′+1级融合块RFBm′+1输出的特征张量RFBresultm′+1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,并与第m′级融合块RFBm′输出的特征张量RFBresultm′进行串接后共同作为所述Decoder解码模块中第m′行第i列的多层二维卷积块DBm′,i的输入,并由第m′行第i列的多层二维卷积块DBm′,i输出特征张量DBresultm′,i;
当m′=1,2,...,M-2,且i=2,...,M-m′时,所述Decoder解码模块中第m′+1行第i-1列的多层二维卷积块DBm′+1,i-1输出的特征张量DBresultm′+1,i-1经上采样操作,使得特征张量的尺寸变为输入的Sm′+1倍,从而得到特征张量DBupresultm′+1,i-1;
之后将特征张量DBupresultm′+1,i-1、所述残差融合模块RFB的第m′级融合块RFBm′输出的特征张量RFBresultm′以及所述Decoder解码模块的多层二维卷积块DBm′,1,...,DBm′,i-1输出的特征张量DBresultm′,1,...,DBresultm′,i-1进行串接,并共同作为所述Decoder解码模块的第m′行第i列的多层二维卷积块DBm′,i的输入;从而由第m′行第i列的多层二维卷积块DBm′,i输出DBresultm′,i;从而由第1行第M-1列的多层二维卷积块DB1,M-1输出特征张量DBresult1,M-1并作为所述Decoder解码模块最终的输出;
步骤2.4:所述输出模块由单层卷积层组成,包括:一个卷积核大小为kst×kst的二维卷积和一个ReLU激活函数层;
所述特征张量DBresult1,M-1经过所述输出模块的处理后输出第n张融合后的红外偏振图像Fn,从而得到融合后的红外偏振图像集合{F1,...,Fn,...,FN};
式(3)中,xn表示第n张红外强度图像In或增强后的偏振度图像Rn;表示滑窗尺寸为w时图像xn中像素点的均值,表示滑窗尺寸为w时图像Fn中像素点的均值,表示滑窗尺寸为w时图像xn中像素点的方差,表示滑窗尺寸为w时图像Fn中像素点的方差,表示滑窗尺寸为w时图像xn和Fn中像素点的协方差,C1,C2均为常数;
式(6)中,Tn(αn,βn)表示第n张增强后的偏振度图像Rn在坐标(αn,βn)处的像素点Rn(αn,βn)与融合后的红外偏振图像Fn在坐标(αn,βn)处的像素点Fn(αn,βn)的差值,并由式(7)得到;
Tn(αn,βn)=Rn(αn,βn)-Fn(αn,βn) (7)
利用式(8)构建第n张红外强度图像In、增强后的偏振度图像Rn与融合后的红外偏振图像Fn之间的总损失函数Lossn:
式(8)中,λ为加权系数;
步骤4、基于红外强度图像集合{I1,...,In,...,IN}与增强后的偏振度图像集合{R1,...,Rn,...,RN},利用梯度下降算法对融合网络进行训练,并计算总损失函数Lossn以更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外偏振图像融合模型,用于实现对红外强度与偏振度图像的融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417736.3A CN114693577B (zh) | 2022-04-20 | 2022-04-20 | 一种基于Transformer的红外偏振图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417736.3A CN114693577B (zh) | 2022-04-20 | 2022-04-20 | 一种基于Transformer的红外偏振图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114693577A true CN114693577A (zh) | 2022-07-01 |
CN114693577B CN114693577B (zh) | 2023-08-11 |
Family
ID=82142094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210417736.3A Active CN114693577B (zh) | 2022-04-20 | 2022-04-20 | 一种基于Transformer的红外偏振图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693577B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433532A (zh) * | 2023-05-06 | 2023-07-14 | 合肥工业大学 | 一种基于注意力引导滤波的红外偏振图像融合去噪方法 |
CN116503704A (zh) * | 2023-06-27 | 2023-07-28 | 长春理工大学 | 一种强背景下目标偏振探测系统及其探测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978724A (zh) * | 2015-04-02 | 2015-10-14 | 中国人民解放军63655部队 | 基于多尺度变换与脉冲耦合神经网络的红外偏振融合方法 |
CN106033599A (zh) * | 2015-03-20 | 2016-10-19 | 南京理工大学 | 基于偏振成像的可见光增强方法 |
CN106407927A (zh) * | 2016-09-12 | 2017-02-15 | 河海大学常州校区 | 基于偏振成像的适用于水下目标检测的显著性视觉方法 |
CN109754384A (zh) * | 2018-12-18 | 2019-05-14 | 电子科技大学 | 一种非制冷红外分焦平面阵列的红外偏振图像融合方法 |
CN111489319A (zh) * | 2020-04-17 | 2020-08-04 | 电子科技大学 | 基于多尺度双边滤波和视觉显著性的红外图像增强方法 |
CN113421206A (zh) * | 2021-07-16 | 2021-09-21 | 合肥工业大学 | 一种基于红外偏振成像的图像增强方法 |
CN113781445A (zh) * | 2021-09-13 | 2021-12-10 | 中国空气动力研究与发展中心超高速空气动力研究所 | 一种多区域复杂损伤缺陷特征提取融合方法 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
CN114022742A (zh) * | 2021-10-22 | 2022-02-08 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光图像融合方法、装置及计算机存储介质 |
CN114119439A (zh) * | 2021-11-12 | 2022-03-01 | 武汉大学 | 红外与可见光图像融合方法、装置、设备及存储介质 |
-
2022
- 2022-04-20 CN CN202210417736.3A patent/CN114693577B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033599A (zh) * | 2015-03-20 | 2016-10-19 | 南京理工大学 | 基于偏振成像的可见光增强方法 |
CN104978724A (zh) * | 2015-04-02 | 2015-10-14 | 中国人民解放军63655部队 | 基于多尺度变换与脉冲耦合神经网络的红外偏振融合方法 |
CN106407927A (zh) * | 2016-09-12 | 2017-02-15 | 河海大学常州校区 | 基于偏振成像的适用于水下目标检测的显著性视觉方法 |
CN109754384A (zh) * | 2018-12-18 | 2019-05-14 | 电子科技大学 | 一种非制冷红外分焦平面阵列的红外偏振图像融合方法 |
CN111489319A (zh) * | 2020-04-17 | 2020-08-04 | 电子科技大学 | 基于多尺度双边滤波和视觉显著性的红外图像增强方法 |
CN113421206A (zh) * | 2021-07-16 | 2021-09-21 | 合肥工业大学 | 一种基于红外偏振成像的图像增强方法 |
CN113781445A (zh) * | 2021-09-13 | 2021-12-10 | 中国空气动力研究与发展中心超高速空气动力研究所 | 一种多区域复杂损伤缺陷特征提取融合方法 |
CN114022742A (zh) * | 2021-10-22 | 2022-02-08 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光图像融合方法、装置及计算机存储介质 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
CN114119439A (zh) * | 2021-11-12 | 2022-03-01 | 武汉大学 | 红外与可见光图像融合方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
CUI ZHANG ET AL.: "SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, vol. 60, pages 1 - 13, XP011905691, DOI: 10.1109/TGRS.2022.3160007 * |
HUI LI ET AL.: "RFN-Nest: An end-to-end residual fusion network for infrared and visible images", 《INFORMATION FUSION》, vol. 73, no. 2021 * |
JIAMING ZHANG ET AL.: "Trans4Trans: Efficient Transformer for Transparent Object Segmentation To Help Visually Impaired People Navigate in the Real World", 《PROCEEDINGS OF THE IEEE/CVF INTENATIONAL CONFERENCE ON COMPUTER VISION(ICCV) WORKSHOPS》, pages 1760 - 1770 * |
LEI ZHANG ET AL.: "Multi-Scale Fusion Algorithm Based on Structure Similarity Index Constraint for Infrared Polarization and Intensity Images", 《IEEE ACCESS》, vol. 5 * |
周文舟 等: "多尺度奇异值分解的偏振图像融合去雾算法与实验", 《中国光学》, vol. 14, no. 02, pages 298 - 306 * |
赵美琪: "基于多特征联合优化和保持边缘细节的夜间图像去雾", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433532A (zh) * | 2023-05-06 | 2023-07-14 | 合肥工业大学 | 一种基于注意力引导滤波的红外偏振图像融合去噪方法 |
CN116433532B (zh) * | 2023-05-06 | 2023-09-26 | 合肥工业大学 | 一种基于注意力引导滤波的红外偏振图像融合去噪方法 |
CN116503704A (zh) * | 2023-06-27 | 2023-07-28 | 长春理工大学 | 一种强背景下目标偏振探测系统及其探测方法 |
CN116503704B (zh) * | 2023-06-27 | 2023-09-05 | 长春理工大学 | 一种强背景下目标偏振探测系统及其探测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114693577B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741256B (zh) | 基于稀疏表示和深度学习的图像超分辨率重建方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN114693577A (zh) | 一种基于Transformer的红外偏振图像融合方法 | |
CN112200090B (zh) | 基于交叉分组空谱特征增强网络的高光谱图像分类方法 | |
CN112926396A (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN110751612A (zh) | 多通道多尺度卷积神经网络的单幅图像去雨方法 | |
CN113408398B (zh) | 基于通道注意力及概率上采样的遥感图像云检测方法 | |
CN113239820A (zh) | 基于属性定位与关联的行人属性识别方法及系统 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN106157254A (zh) | 基于非局部自相似性的稀疏表示遥感图像去噪方法 | |
CN105550712A (zh) | 基于优化卷积自动编码网络的极光图像分类方法 | |
CN113962281A (zh) | 基于Siamese-RFB的无人机目标跟踪方法 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
Sheng et al. | A joint framework for underwater sequence images stitching based on deep neural network convolutional neural network | |
CN117058558A (zh) | 基于证据融合多层深度卷积网络的遥感图像场景分类方法 | |
CN117291850A (zh) | 一种基于可学习低秩表示的红外偏振图像融合增强方法 | |
CN115171029B (zh) | 基于无人驾驶的城市场景下的实例分割方法及系统 | |
CN116630964A (zh) | 一种基于离散小波注意力网络的食品图像分割方法 | |
CN116258934A (zh) | 基于特征增强的红外-可见光融合方法、系统及可读存储介质 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
CN115731280A (zh) | 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 | |
CN114627370A (zh) | 一种基于transformer特征融合的高光谱影像分类方法 | |
CN113537032A (zh) | 一种基于图片分块丢弃的分集多支路行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |