CN113762277B - 一种基于Cascade-GAN的多波段红外图像融合方法 - Google Patents
一种基于Cascade-GAN的多波段红外图像融合方法 Download PDFInfo
- Publication number
- CN113762277B CN113762277B CN202111055699.8A CN202111055699A CN113762277B CN 113762277 B CN113762277 B CN 113762277B CN 202111055699 A CN202111055699 A CN 202111055699A CN 113762277 B CN113762277 B CN 113762277B
- Authority
- CN
- China
- Prior art keywords
- image
- loss
- fusion
- network
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 69
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000008034 disappearance Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于Cascade‑GAN的多波段红外图像融合方法,首先,通过将采集到的包括短波、中波、长波在内的针对同一场景的多波段红外图像沿通道进行连接,得到的三通道图像作为级联生成对抗网络模型Cascade‑GAN的训练数据集,利用训练好的去噪生成对抗网络模型DnGAN生成去噪图像,提高图像信噪比;然后将去噪后的图像输入融合生成对抗网络FuGAN,通过该融合网络的生成器GFu与其判别器DFu之间的对抗博弈进行高质量图像融合;级联网络通过建立总损失函数,利用FuGAN输出结果指导DnGAN的训练,通过提高FuGAN的输出质量来改善DnGAN的融合效果,从而获得高质量融合图像。本发明与传统融合方法相比,基于深度学习的融合方法具有更高的鲁棒性,并且具有较佳的融合效果,能够充分改善融合精度。
Description
技术领域
本发明涉及图像融合技术领域,尤其涉及一种基于Cascade-GAN的多波段红外图像融合方法。
背景技术
红外传感器通过收集外界的红外辐射,利用辐射差产生红外图像可将目标与背景区分开,且具有能够日夜工作的特性,使红外传感器在目标识别、检测、视觉感知等领域应用广泛。然而,红外传感器虽具备大量适用于探测的优点,但也有其局限性,随着应用任务的复杂化和应用环境的扩展,以及红外隐身和干扰技术的进步,红外热成像系统在很多应用场景下存在对目标的探测识别能力较差、自动预警系统虚警率高以及动态范围不足等缺陷,因此如何通过改善红外图像质量以提高系统性能就显得格外重要。
图像融合方法能够利用目标在不同红外波段图像里固有的、较强的差异性和互补性,获取目标更多的有效信息,将其融合从而获得更为健壮和信息丰富的融合图像,以此有效的提高系统的效能。目前深度学习是解决高级视觉任务的重要手段,但针对图像融合的深度学习技术大多数都是围绕着可见光图像和红外图像的融合展开,而针对多波段红外图像的融合仍旧采用传统技术,例如多尺度变换、稀疏表示等方法。多尺度变换将源图像分解成不同尺度进行特征提取,并采用适当的融合策略对各个尺度特征进行融合,然后利用逆算子重建融合后的图像。基于稀疏低秩表示学习方法需要从大量高质量的自然图像中学习过完备字典,并对每个图像片段进行稀疏编码,根据给定的融合规则融合稀疏表示系数,最后利用学习到的过完备字典融合系数重建融合图像。以上两种传统方法均需要手动选择变换方法和制定融合规则,且过程非常复杂。
现有的传统融合方法针对不同源图像的融合采用相同的变换或表示,但是这对红外多波段的图像融合并不适用,因为不同波段的红外图像存在波长长短的区别,因此对同一场景可能存在不同的表现形式。此外,现有方法中融合规则大多采用人工设计的方式,且越来越复杂,实现难度和计算代价也在不断提高。
发明内容
针对上述问题,本发明的目的在于提供一种基于Cascade-GAN的多波段红外图像融合方法,利用目标在不同红外波段图像里固有的、较强的差异性和互补性,获取目标更多的有效信息。实现一个以生成对抗网络GAN作为基础网络的统一深度学习框架,进行红外多波段图像去噪与图像融合的联合处理,建立总损失函数,利用图像融合过程中的语义信息来指导图像去噪,并通过图像去噪提高输出的融合图像的质量,使最终得到的图像同时具备高信噪比和高信息熵两种特性,以保证后续利用图像进行的目标识别与目标检测等高级视觉任务的顺利进行。
本发明采用的技术方案如下:
本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法,包括以下步骤:
S1、数据集准备:通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像,并对图像进行加噪处理,其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下;将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接,作为训练数据集输入Cascade-GAN进行无监督学习;
S2、DnGAN网络设计:将原始图像与加噪后的图像输入DnGAN,DnGAN包括生成器GDn和判别器DDn两部分,二者存在对抗博弈的关系,生成器GDn不断生成更接近原始图像的去噪图像,而判别器DDn确定原始图像和生成的去噪图像之间的差异,最终的目标是建立一个去噪生成网络,使其能够生成与原始无噪图像无法区分的去噪图像;
S3、FuGAN网络设计:将去噪图像输入融合生成对抗网络FuGAN,同样是以生成对抗网络作为基础网络,通过生成器GFu与判别器DFu的对抗博弈实现高质量融合图像的输出;生成器GFu通过编码器提取图像特征,通过解码器重建输出单通道融合图像;判别器DFu对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别,输出对应的判别概率向量,作为反馈来驱动生成器GFu学习输入图像的数据分布进而进行融合,直到判别器DFu无法对生成器GFu输出的图像判别真伪;
S4、训练策略:首先,利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN,然后以端到端的方式训练两个网络的级联,同时在这过程确定FuGAN的权值;去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新。
进一步的,所述步骤S2中,生成器GDn主要由编码器和解码器两大部分组成,并引入上下采样对操作;通过编码器提取图像的特征,并对特征进行下采样操作,获得不同尺度的特征图,然后再在该尺度上进行一次特征提取操作,最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建;通过下采样和上采样操作对,实现特征图的缩放,实现卷积核感受野的变化,从而利用更多的上下文信息,以此提高去噪效果。
进一步的,所示编码器由4个CNN组成,4个CNN从上到下分别有3×3、1×1、3×3和1×1大小的128、32、32、128个核;为了缓解梯度的消失,弥补特征的损失,重用之前计算的特征,引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接;所示解码器同样为4层CNN,与编码器的结构相似,只是四个卷积层的内核数分别为256、64、64和256;所有卷积层的步数设为1;为了避免爆炸/消失的梯度和加速训练,应用批归一化;采用ReLU激活函数加快收敛速度,避免梯度稀疏;下采样采用max pooling,步长为2;上采样操作通过4×4核的反卷积来实现,目的是将feature map扩展到与之前尺度相同的空间大小。
进一步的,所述判别器DDn本质上是一个二分类器,在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数,从输入图像中提取特征映射,然后对其进行分类;所有卷积层的步幅设为2;设置最后一层利用tanh激活函数生成一个标量,该标量表示输入数据来源于原始图像而非GDn生成的假图像的概率。
进一步的,所述步骤S3中,生成器GFu主要由编码器和解码器两大部分组成;编码器由5个卷积层组成,并在第一层和第四层卷积层后引入注意力机制,聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,从而提高整个网络的效率;引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接,以此缓解梯度的消失,弥补特征的损失,重用之前计算的特征;判别器由4个卷积层和一个线性层组成;这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数,以及批处理归一化;在所有的卷积层中,将stride设置为2;最后一个线性层根据前四个卷积层提取的特征对输入进行判别,输出概率向量。
进一步的,所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分,两部分按顺序连接,中间特征映射首先输入CAM,然后将通道精细化特征映射作为SAM的输入;其中,为了在每个通道中聚集丰富的信息,CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息;其中overlapping-pooling的应用可以提升预测精度,减缓过拟合;经过压缩操作,可以得到三个通道向量;然后,这三个通道向量送入共享全连接层与一个隐藏层,再经由元素级求和操作和sigmoid函数激活三个通道向量,由此便可以获得通道关注向量;将其与输入特征映射相乘,便使得网络对刚兴趣通道区域有更多的关注。
进一步的,所述步骤S4具体包括:
分别设定损失函数用于指导两个网络的生成器和判别器的优化:
无噪声的环境下,指导FuGAN的生成器训练的损失函数由GFu与DFu之间的对抗损失和控制高频特征损失的感知损失/>以及控制低频特征损失的SSIM损失/>组成:
其中λ1、λ2是在训练中逐步修改的比率;
对抗损失的定义如下:
其中e为判定融合图像的概率标签;由于判别器DFu是一个多分类器,输出1×3概率向量,因此,DFu(·)[0]表示向量的第一项,即融合图像为短波红外图像的概率,同样,DFu(·)[1]、DFu(·)[2]表示向量的第二项和第三项,即融合图像为中波红外图像、长波红外图像的概率;由于生成器GFu期望判别器DFu不能区分融合图像和真实数据,所以e设为1;
感知损失:需要将源图像的高级特征与训练网络生成的融合图像的同级特征进行比较;选择目前现成的VGG-16网络模型的2,4,6,8层作为特征提取子网络;将三种波段的红外图像沿通道连接得到三通道图像F,作为参考图像输入,将相同的三幅单通道融合图像连接后作为融合结果输入I:
其中j表示VGG-16网络的第j层;CjHjWj表示第j层通道的特征映射,大小为HjWj;φj(F)和φj(I))分别表示由VGG-16网络的第j层得到的输出特征映射,最终损耗用L2范数计算;通过感知损失项的约束,可以促使生成器GFu得到视觉效果良好的融合图像;
SSIM损失:约束融合图像的相关性损失、亮度失真和对比度失真,SSIM损失定义如下:
其中ω表示权重,ω1+ω2+ω3=1;
采用最小二乘生成对抗网络,该网络采用最小二乘损失函数作为判别器的损失函数,FuGAN的判别器DFu的损耗函数LDf由三种红外源图像和融合图像的决策损耗四部分组成;用来表示这四种损耗:
考虑鉴别器输出的1×3个向量,我们有PSWIR=DFu(x)[0]、PMWIR=DFu(x)[1]、PLWIR=DFu(x)[2];当输入是一个短波红外图像时,期望PSWIR接近于1,PMWIR和PLWIR接近于0;相应的损失定义为:
其中N为图像中像素数量,a1、a2和a3为概率标签,a1设为1,a2和a3设为0,即输入短波红外图像时,判别器DFu判断其为短波红外图像的概率较大,而判为中波和长波红外图像的概率较小;
类似的,中波红外、长波红外图像的损失项定义为:
其中b2设为1,b1和b3设为0;c3设为1,c1和c2设为0;
最后,当输入图像为融合图像时,损失函数定义为:
其中d是判别器DFu判定融合图像的概率标签,设为0;同样,使三个概率标签d达到平衡,也就是说,从判别器DFu的角度来看,融合后的图像是相同程度的伪短波红外图像、伪中波红外图像和伪长波红外图像;
在级联网络的训练过程中,DnGAN的生成器GDn和FuGAN生成器GFu的损失函数由重构损失感知损失/>和指导无噪声环境下FuGAN生成器GFu的各损失项LGf共同构成:
重构损失为去噪网络输出与无噪图像之间的均方误差,定义如下:
其中x为输入的噪声图像,为无噪图像,GDn(x)为由DnGAN生成的去噪图像,i,j分别代表像素所在的行和列,H×W为图像大小;
感知损失的结构参考FuGAN相应的损失项;
FuGAN生成器的各损失项即GFu的损失函数LGf;
DnGAN的判别器DDn损失函数同样采用最小二乘损失函数:
其中N为图像中像素数量,a1、a2为概率标签,a1设为1,a2设为0,即输入去噪图像时,判别器DDn判断其为去噪图像的概率较大,而判为无噪的概率较小;
类似的,无噪图像的损失项定义为:
本发明与现有技术相比具有以下有益效果:
本发明图像去噪网络模块中尝试应用Gan网络的方法进行图像去噪;在特征提取过程中引入上下采样操作对,能够实现通过改变卷积核的感受野,获得不同尺度的信息,从而提高特征提取精度,进而获得更高质量的去噪图像;总损失函数的设计,将传统方法中图像间的均方误差与特征域的感知损失和融合网络的损失函数相结合,共同指导去噪网络的训练,能够利用更多的语义信息,全方面提高图像去噪效果;总的来说,深度学习在图像去噪中的应用能够避免传统方法在去噪过程中造成的平滑伪影的出现以及图像细节的丢失,从而获得更高质量的去噪图像;
图像融合模块中引入通道注意和空间注意模块,聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,过滤无关信息,从而提高整个网络的效率;引入密集块,能够缓解网络训练过程中梯度消失问题,加强特征传播,鼓励特征复用,极大的减少了参数量;利用VGG-16构建感知损失,减少高频特征损失;利用SSIM保证融合图像的亮度、对比度和结构等低级特征,并能够提高图像之间的空间结构相关性;图像融合模块的关键设计能够促使整个级联网络输出信息更为丰富,表现更为优越的融合图像;
本发明中整个级联网络模型的设计是一种端到端的模型,可以根据输入的源图像自动生成融合图像,而无需手工设计融合规则,与传统融合方法相比,基于深度学习的融合方法具有更高的鲁棒性,并且具有不错的融合效果,能够充分改善融合精度。
附图说明
图1为本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法的主模型示意图;
图2为生成器GDn编码器结构示意图;
图3为生成器GDn解码器结构示意图;
图4为判别器DDn结构示意图;
图5为生成器GFu结构示意图;
图6为注意力模块示意图;
图7为通道注意力模型示意图;
图8为空间注意力模型示意图;
图9为判别器DFu结构示意图;
图10为融合网络损失示意图;
图11为总损失示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
如图1所示,本发明所提出的一种基于Cascade-GAN的多波段红外图像融合方法,具体包括以下步骤:
S1、数据集准备:通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像,并对图像进行加噪处理,其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下。将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接,作为训练数据集输入Cascade-GAN进行无监督学习。
S2、DnGAN网络设计:将原始图像与加噪后的图像输入DnGAN,DnGAN包括生成器GDn和判别器DDn两部分,二者存在对抗博弈的关系,生成网络GDn不断生成更接近原始图像的去噪图像,而判别网络DDn试图确定原始图像和生成的去噪图像之间的差异,最终的目标是建立一个去噪生成网络,使其能够生成与原始无噪图像无法区分的去噪图像。
生成器GDn结构如图1所示,其主要由编码器和解码器两大部分组成,并引入上下采样对操作;通过编码器提取图像的特征,并对特征进行下采样操作,获得不同尺度的特征图,然后再在该尺度上进行一次特征提取操作,最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建。通过下采样和上采样操作对,实现特征图的缩放,实现卷积核感受野的变化,从而利用更多的上下文信息,以此提高去噪效果。
如图2所示,编码器由4个CNN组成,4个CNN从上到下分别有3×3,1×1,3×3,1×1大小的128、32、32、128个核;为了缓解梯度的消失,弥补特征的损失,重用之前计算的特征,引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接。解码器同样为4层CNN,并与编码器的结构相似,只是四个卷积层的内核数分别为256、64、64和256。每层设置如图3所示;所有卷积层的步数设为1;为了避免爆炸/消失的梯度和加速训练,应用批归一化;采用ReLU激活函数加快收敛速度,避免梯度稀疏。下采样采用max pooling,步长为2;上采样操作通过4×4核的反卷积来实现,目的是将feature map扩展到与之前尺度相同的空间大小;
判别器DDn与生成器GDn体系结构相比,设置为更简单,如图4所示;判别器DDn本质上是一个二分类器,在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数,从输入图像中提取特征映射,然后对其进行分类;所有卷积层的步幅设为2;设置最后一层利用tanh激活函数生成一个标量,该标量表示输入数据来源于原始图像而非GDn生成的假图像的概率。
S3、FuGAN网络设计:去噪图像输入融合生成对抗网络FuGAN,同样是以生成对抗网络作为基础网络,通过生成器GFu与判别器DFu的对抗博弈实现高质量融合图像的输出;生成器通过编码器提取图像特征,解码器重建输出单通道融合图像;判别器对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别,输出对应的判别概率向量,作为反馈来驱动生成器学习输入图像的数据分布进而进行融合,直到判别器无法对生成器输出的图像判别真伪;
生成器GFu由编码器和解码器两大部分组成,如图5所示,编码器由5个卷积层组成,并在第一层和第四层卷积层后引入注意力机制,聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,从而提高整个网络的效率;引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接,以此缓解梯度的消失,弥补特征的损失,重用之前计算的特征。
引入的注意力机制包括通道注意力模块CAM(Channel Attention Module)和空间注意力模块SAM(Spatial Attention Module)两部分;其结构如图6所示,两部分按顺序连接,中间特征映射首先输入CAM,然后将通道精细化特征映射作为SAM的输入;其中,为了在每个通道中聚集丰富的信息,CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息;如图7所示,其中overlapping-pooling的应用可以提升预测精度,减缓过拟合;经过压缩操作,可以得到三个通道向量;然后,这三个通道向量送入共享全连接层与一个隐藏层,再经由元素级求和操作和sigmoid函数激活三个通道向量,由此便可以获得通道关注向量;将其与输入特征映射相乘,便使得网络对刚兴趣通道区域有更多的关注;SAM的目的是为了获得更好的空间关注效果,其结构如图8所示,本模型仍使用max-pooling、overlapping-pooling和avg-pooling这三种池化操作来挤压输入特征映射的通道信息。然后,我们将这三个二维映射连接起来,输入到卷积层后,通过sigmoid函数激活,最终得到空间注意力二维图;同样,该二维图可以显示特征映射哪里需要突出哪里需要抑制。
判别器DFu结构如图9所示,FuGAN的判别器DFu本质上是一个多分类器,它可以估计将融合图像分别鉴定为三种波段红外源图像的概率;它的输出是一个1×3的概率向量;该判别器DFu由四个卷积层和一个线性层组成;这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数,以及批处理归一化;在所有的卷积层中,我们将stride设置为2;最后一个线性层根据前四个卷积层提取的特征对输入进行判别,输出概率向量。
S4、训练策略:首先,我们利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN,然后以端到端的方式训练两个网络的级联,同时在这过程确定FuGAN的权值;去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新;
分别设定损失函数用于指导两个网络的生成器和判别器的优化:
如图10所示,无噪声的环境下,指导FuGAN的生成器训练的损失函数由GFu与DFu之间的对抗损失和控制高频特征损失的感知损失/>以及控制低频特征损失的SSIM损失/>组成:
其中λ1、λ2是在训练中逐步修改的比率;
对抗损失的定义如下:
其中e为判定融合图像的概率标签;由于判别器DFu是一个多分类器,输出1×3概率向量,因此,DFu(·)[0]表示向量的第一项,即融合图像为短波红外图像的概率,同样,DFu(·)[1]、DFu(·)[2]表示向量的第二项和第三项,即融合图像为中波红外图像、长波红外图像的概率;由于生成器GFu期望判别器DFu不能区分融合图像和真实数据,所以e设为1;
感知损失:需要将源图像的高级特征与训练网络生成的融合图像的同级特征进行比较;选择目前现成的VGG-16网络模型的2,4,6,8层作为特征提取子网络;将三种波段的红外图像沿通道连接得到三通道图像F,作为参考图像输入,将相同的三幅单通道融合图像连接后作为融合结果输入I:
其中j表示VGG-16网络的第j层;CjHjWj表示第j层通道的特征映射,大小为HjWj;φj(F)和φj(I))分别表示由VGG-16网络的第j层得到的输出特征映射,最终损耗用L2范数计算;通过感知损失项的约束,可以促使生成器GFu得到视觉效果良好的融合图像;
SSIM损失:约束融合图像的相关性损失、亮度失真和对比度失真,SSIM损失定义如下:
其中ω表示权重,ω1+ω2+ω3=1;
在无监督图像融合任务中,SSIM损耗是最常用的损耗,因为在计算时可以综合考虑图像的亮度、对比度和结构特征,并考虑图像之间的空间结构相关性;这与人类视觉系统获取视觉区域结构信息的方式一致,可以感知图像的扭曲状态;
FuGAN的判别器是一种多分类器;常规的GAN的判别器采用sigmoid交叉熵损失函数,这种方法可能会导致在学习过程中出现梯度消失问题;为了克服该问题我们采用最小二乘生成对抗网络(LSGANs),该网络采用最小二乘损失函数作为判别器的损失函数,FuGAN的判别器的损耗函数LDf由三种红外源图像和融合图像的决策损耗四部分组成。我们用 来表示这四种损耗:
考虑鉴别器输出的1×3个向量,我们有PSWIR=DFu(x)[0]、PMWIR=DFu(x)[1]、PLWIR=DFu(x)[2];当输入是一个短波红外图像时,期望PSWIR接近于1,PMWIR和PLWIR接近于0;相应的损失定义为:
其中N为图像中像素数量,a1、a2和a3为概率标签,a1设为1,a2和a3设为0,即输入短波红外图像时,判别器DFu判断其为短波红外图像的概率较大,而判为中波和长波红外图像的概率较小;
类似的,中波红外、长波红外图像的损失项定义为:
其中b2设为1,b1和b3设为0;c3设为1,c1和c2设为0;
最后,当输入图像为融合图像时,损失函数定义为:
其中d是判别器DFu判定融合图像的概率标签,设为0;同样,我们也要使三个概率标签d达到平衡,也就是说,从判别器DFu的角度来看,融合后的图像是相同程度的伪短波红外图像、伪中波红外图像和伪长波红外图像;
如图11所示,在级联网络的训练过程中,DnGAN的生成器GDn和FuGAN生成器GFu的损失函数由重构损失感知损失/>和指导无噪声环境下FuGAN生成器GFu的各损失项LGf共同构成:
重构损失为去噪网络输出与无噪图像之间的均方误差(MSE),定义如下:
其中x为输入的噪声图像,x~为无噪图像,GDn(x)为由DnGAN生成的去噪图像,i,j分别代表像素所在的行和列,H×W为图像大小;
感知损失的结构参考FuGAN相应的损失项;
FuGAN生成器的各损失项即GFu的损失函数LGf;
DnGAN的判别器DDn损失函数同样采用最小二乘损失函数:
其中N为图像中像素数量,a1、a2为概率标签,a1设为1,a2设为0,即输入去噪图像时,判别器DDn判断其为去噪图像的概率较大,而判为无噪的概率较小;
类似的,无噪图像的损失项定义为:
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (1)
1.一种基于Cascade-GAN的多波段红外图像融合方法,其特征在于,所述方法包括以下步骤:
S1、数据集准备:通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像,并对图像进行加噪处理,其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下;将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接,作为训练数据集输入Cascade-GAN进行无监督学习;
S2、DnGAN网络设计:将原始图像与加噪后的图像输入DnGAN,DnGAN包括生成器GDn和判别器DDn两部分,二者存在对抗博弈的关系,生成器GDn不断生成更接近原始图像的去噪图像,而判别器DDn确定原始图像和生成的去噪图像之间的差异,最终的目标是建立一个去噪生成网络,使其能够生成与原始无噪图像无法区分的去噪图像;
S3、FuGAN网络设计:将去噪图像输入融合生成对抗网络FuGAN,同样是以生成对抗网络作为基础网络,通过生成器GFu与判别器DFu的对抗博弈实现高质量融合图像的输出;生成器GFu通过编码器提取图像特征,通过解码器重建输出单通道融合图像;判别器DFu对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别,输出对应的判别概率向量,作为反馈来驱动生成器GFu学习输入图像的数据分布进而进行融合,直到判别器DFu无法对生成器GFu输出的图像判别真伪;
S4、训练策略:首先,利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN,然后以端到端的方式训练两个网络的级联,同时在这过程确定FuGAN的权值;去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新;
所述步骤S2中,生成器GDn主要由编码器和解码器两大部分组成,并引入上下采样操作;通过编码器提取图像的特征,并对特征进行下采样操作,获得不同尺度的特征图,然后再在该尺度上进行一次特征提取操作,最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建;
所示编码器由4个CNN组成,4个CNN从上到下分别有3×3、1×1、3×3和1×1大小的128、32、32、128个核;为了缓解梯度的消失,弥补特征的损失,重用之前计算的特征,引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接;所示解码器同样为4层CNN,与编码器的结构相似,只是四个卷积层的内核数分别为256、64、64和256;所有卷积层的步数设为1;为了避免爆炸/消失的梯度和加速训练,应用批归一化;采用ReLU激活函数加快收敛速度,避免梯度稀疏;下采样采用max pooling,步长为2;上采样操作通过4×4核的反卷积来实现,目的是将特征图扩展到与之前尺度相同的空间大小;
所述判别器DDn本质上是一个二分类器,在第一层到第三层的卷积层中使用3×3卷积内核和ReLU激活函数,从输入图像中提取特征映射,然后对其进行分类;所有卷积层的步幅设为2;设置最后一层利用tanh激活函数生成一个标量,该标量表示输入数据来源于原始图像而非GDn生成的假图像的概率;
所述步骤S3中,生成器GFu主要由编码器和解码器两大部分组成;编码器由5个卷积层组成,并在第一层和第四层卷积层后引入注意力机制;引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接,以此缓解梯度的消失,弥补特征的损失,重用之前计算的特征;判别器由4个卷积层和一个线性层组成;这四个卷积层使用3×3卷积内核和泄漏的ReLU激活函数,以及批处理归一化;在所有的卷积层中,将步长设置为2;最后一个线性层根据前四个卷积层提取的特征对输入进行判别,输出概率向量;
所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分,两部分按顺序连接,中间特征映射首先输入CAM,然后将通道精细化特征映射作为SAM的输入;其中,为了在每个通道中聚集丰富的信息,CAM分别使用max-pooling、overlapping-pooling和avg-pooling来挤压输入特征图的空间信息;经过压缩操作,可以得到三个通道向量;然后,这三个通道向量送入共享全连接层与一个隐藏层,再经由元素级求和操作和sigmoid函数激活三个通道向量,由此便可以获得通道关注向量;将其与输入特征映射相乘,便使得网络对感兴趣通道区域有更多的关注;
所述步骤S4具体包括:
分别设定损失函数用于指导两个网络的生成器和判别器的优化:
无噪声的环境下,指导FuGAN的生成器训练的损失函数由GFu与DFu之间的对抗损失和控制高频特征损失的感知损失/>以及控制低频特征损失的SSIM损失/>组成:
其中λ1、λ2是在训练中逐步修改的比率;
对抗损失的定义如下:
其中e为判定融合图像的概率标签;由于判别器DFu是一个多分类器,输出1×3概率向量,因此,DFu(·)[0]表示向量的第一项,即融合图像为短波红外图像的概率,同样,DFu(·)[1]、DFu(·)[2]表示向量的第二项和第三项,即融合图像为中波红外图像、长波红外图像的概率;由于生成器GFu期望判别器DFu不能区分融合图像和真实数据,所以e设为1;
感知损失:需要将源图像的高级特征与训练网络生成的融合图像的同级特征进行比较;选择目前现成的VGG-16网络模型的2,4,6,8层作为特征提取子网络;将三种波段的红外图像沿通道连接得到三通道图像F,作为参考图像输入,将相同的三幅单通道融合图像连接后作为融合结果输入I:
其中j表示VGG-16网络的第j层;CjHjWj表示第j层通道的特征映射,大小为HjWj;φj(F)和φj(I))分别表示由VGG-16网络的第j层得到的输出特征映射,最终损耗用L2范数计算;
SSIM损失:约束融合图像的相关性损失、亮度失真和对比度失真,SSIM损失定义如下:
其中ω表示权重,ω1+ω2+ω3=1;
采用最小二乘生成对抗网络,该网络采用最小二乘损失函数作为判别器的损失函数,FuGAN的判别器DFu的损耗函数LDf由三种红外源图像和融合图像的决策损耗四部分组成;用来表示这四种损耗:
考虑鉴别器输出的1×3个向量,我们有PSWIR=DFu(x)[0]、PMWIR=DFu(x)[1]、PLWIR=DFu(x)[2];当输入是一个短波红外图像时,期望PSWIR接近于1,PMWIR和PLWIR接近于0;相应的损失定义为:
其中N为图像中像素数量,a1、a2和a3为概率标签,a1设为1,a2和a3设为0,即输入短波红外图像时,判别器DFu判断其为短波红外图像的概率较大,而判为中波和长波红外图像的概率较小;
类似的,中波红外、长波红外图像的损失项定义为:
其中b2设为1,b1和b3设为0;c3设为1,c1和c2设为0;
最后,当输入图像为融合图像时,损失函数定义为:
其中d是判别器DFu判定融合图像的概率标签,设为0;同样,使三个概率标签d达到平衡,也就是说,从判别器DFu的角度来看,融合后的图像是相同程度的伪短波红外图像、伪中波红外图像和伪长波红外图像;
在级联网络的训练过程中,DnGAN的生成器GDn和FuGAN生成器GFu的损失函数由重构损失感知损失/>和指导无噪声环境下FuGAN生成器GFu的各损失项LGf共同构成:
重构损失为去噪网络输出与无噪图像之间的均方误差,定义如下:
其中x为输入的噪声图像,为无噪图像,GDn(x)为由DnGAN生成的去噪图像,i,j分别代表像素所在的行和列,H×W为图像大小;
感知损失的结构参考FuGAN相应的损失项;
FuGAN生成器的各损失项即GFu的损失函数LGf;
DnGAN的判别器DDn损失函数同样采用最小二乘损失函数:
其中N为图像中像素数量,a1、a2为概率标签,a1设为1,a2设为0,即输入去噪图像时,判别器DDn判断其为去噪图像的概率较大,而判为无噪的概率较小;
类似的,无噪图像的损失项定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055699.8A CN113762277B (zh) | 2021-09-09 | 2021-09-09 | 一种基于Cascade-GAN的多波段红外图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055699.8A CN113762277B (zh) | 2021-09-09 | 2021-09-09 | 一种基于Cascade-GAN的多波段红外图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762277A CN113762277A (zh) | 2021-12-07 |
CN113762277B true CN113762277B (zh) | 2024-05-24 |
Family
ID=78794308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111055699.8A Active CN113762277B (zh) | 2021-09-09 | 2021-09-09 | 一种基于Cascade-GAN的多波段红外图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762277B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511475B (zh) * | 2022-04-21 | 2022-08-02 | 天津大学 | 一种基于改进Cycle GAN的图像生成方法 |
CN117611473B (zh) * | 2024-01-24 | 2024-04-23 | 佛山科学技术学院 | 一种同步去噪的图像融合方法及其相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052976A (zh) * | 2017-12-13 | 2018-05-18 | 中国兵器装备集团自动化研究所 | 一种多波段图像融合识别方法 |
GB201911577D0 (en) * | 2019-08-13 | 2019-09-25 | Univ Of Hertfordshire Higher Education Corporation | Method and apparatus |
CN110555458A (zh) * | 2019-07-24 | 2019-12-10 | 中北大学 | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112001868A (zh) * | 2020-07-30 | 2020-11-27 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
CN112037131A (zh) * | 2020-08-31 | 2020-12-04 | 上海电力大学 | 一种基于生成对抗网络的单图像超分辨率重建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9184202B2 (en) * | 2013-03-15 | 2015-11-10 | Banpil Photonics, Inc. | Broadband image sensor and manufacturing thereof |
US11024009B2 (en) * | 2016-09-15 | 2021-06-01 | Twitter, Inc. | Super resolution using a generative adversarial network |
US11125844B2 (en) * | 2018-07-06 | 2021-09-21 | The Board Of Trustees Of The Leland Stanford Junior University | Deep learning based methods to accelerate multi-spectral imaging |
-
2021
- 2021-09-09 CN CN202111055699.8A patent/CN113762277B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052976A (zh) * | 2017-12-13 | 2018-05-18 | 中国兵器装备集团自动化研究所 | 一种多波段图像融合识别方法 |
CN110555458A (zh) * | 2019-07-24 | 2019-12-10 | 中北大学 | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 |
GB201911577D0 (en) * | 2019-08-13 | 2019-09-25 | Univ Of Hertfordshire Higher Education Corporation | Method and apparatus |
CN112001868A (zh) * | 2020-07-30 | 2020-11-27 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112037131A (zh) * | 2020-08-31 | 2020-12-04 | 上海电力大学 | 一种基于生成对抗网络的单图像超分辨率重建方法 |
Non-Patent Citations (3)
Title |
---|
Multi-modal Medical Image Fusion Based on GAN and the Shift-Invariant Shearlet Transform;Wang Lei等;2020 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE;2538-2543 * |
基于改进生成式对抗网络的图像超分辨率重建;米恒;贾振堂;;计算机应用与软件(第09期);139-145 * |
红外与可见光图像融合的U-GAN模型;陈卓;方明;柴旭;付飞蚺;苑丽红;;西北工业大学学报(第04期);904-912 * |
Also Published As
Publication number | Publication date |
---|---|
CN113762277A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | MLFcGAN: Multilevel feature fusion-based conditional GAN for underwater image color correction | |
Tian et al. | Deep learning on image denoising: An overview | |
CN111209952B (zh) | 基于改进ssd和迁移学习的水下目标检测方法 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN110555458B (zh) | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 | |
CN112233026A (zh) | 一种基于多尺度残差注意力网络的sar图像去噪方法 | |
CN112329800A (zh) | 一种基于全局信息引导残差注意力的显著性目标检测方法 | |
CN111275637A (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
CN112819910B (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
CN110728192A (zh) | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 | |
CN111696136B (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN113610732B (zh) | 基于交互对抗学习的全聚焦图像生成方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN113706406A (zh) | 基于特征空间多分类对抗机制的红外可见光图像融合方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
CN115457359A (zh) | 基于自适应对抗生成网络的pet-mri图像融合方法 | |
Kan et al. | A GAN-based input-size flexibility model for single image dehazing | |
CN114693577A (zh) | 一种基于Transformer的红外偏振图像融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |