CN111709903A

CN111709903A - 一种红外与可见光图像融合方法

Info

Publication number: CN111709903A
Application number: CN202010457106.XA
Authority: CN
Inventors: 徐东东; 张宁; 张欣; 王永成; 肖辉; 贲广利; 胡雪岩; 钱进; 罗佺佺
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-25
Anticipated expiration: 2040-05-26
Also published as: CN111709903B

Abstract

本发明涉及一种红外与可见光图像融合方法，将多对红外、可见光源图像对裁剪处理得到多组对应图像对；将生成器输出的初步融合图像及裁剪后的可见光图像分别输入至判别器中，输出对应的单一可能性判别值；将融合图像与输入源图像间生成器损失及融合图像与可见光图像间的判别器损失相结合优化生成器，并通过反向传播调整生成器网络权重值及偏置值；利用融合图像及可见光图像间判别器损失优化判别器，将可见光图像的其他细节信息添加到融合图像中；经多次迭代训练得到性能稳定的网络模型；将多对未裁剪的源图像对分别输入至训练后的生成器网络可得到对应融合图像。本发明能有效提升融合图像质量及视觉信息保真度。

Description

一种红外与可见光图像融合方法

技术领域

本发明属于图像融合技术领域，具体涉及一种红外与可见光图像融合的方法，其基于生成对抗网络(GAN)及残差网络(ResNet)实现。

背景技术

红外图像的灰度由目标与背景的温差决定，可以穿透烟雾、尘埃及大气，在环境条件较差时，仍具有较强的探测能力，但图像的对比度及空间分辨率较低。可见光图像空间分辨率较高，目标纹理细节清晰，但光照条件较差时无法保证成像质量。若将红外与可见光图像融合可综合利用红外图像的目标指示特性及可见光图像的场景细节信息，有利于探测隐藏目标、增加对图像的理解力、实现全天候监测。因此，许多学者致力于红外与可见光图像融合方面的研究。

传统的红外与可见光图像融合方法包括空间域方法、多尺度变换方法、稀疏表示方法以及显著性方法等。上述传统方法虽较为成熟，应用广泛，但实现时需要人为手动设计活动水平测量及融合规则，同时大部分方法涉及复杂的分解变换，以上问题极大地制约了传统红外与可见光图像融合方法的发展。

近几年，深度学习的研究逐步深入，并在计算机视觉、模式识别及图像处理等领域取得重要突破。目前，生成对抗网络及残差网络已成功应用于图像分类、检测及重构中，均取得较好成果。但是，迄今为止未见将生成对抗网络及残差网络相结合实现红外与可见光图像融合的相关研究。

发明内容

本发明的目的在于提供一种红外与可见光图像融合方法，其基于深度学习中的生成对抗网络及残差网络实现，能有效提升融合图像质量及视觉信息保真度，克服了传统需要手动设计复杂的活动水平测量及融合规则，且涉及复杂的变换及分解操作等缺点。

本发明的目的是通过以下技术方案实现的：

一种红外与可见光图像融合方法，包括以下步骤：

S1、将多对红外、可见光源图像对分别进行裁剪处理，裁剪后得到的多组对应图像作为生成器的输入，生成器输出为单通道、同尺寸的融合图像；

S2、将步骤S1得到的融合图像及裁剪后的可见光图像输入判别器中，输出单一可能性判别值；

S3、使用步骤S1中融合图像与源图像间的生成器损失结合步骤S2 中得到的融合图像与可见光图像间的判别器损失优化生成器，并通过反向传播调整生成器网络权重值及偏置值，使用步骤S2中得到的融合图像判别值及可见光图像判别值优化判别器，将可见光图像的其他细节信息添加到融合图像中，经过多次迭代，生成器和判别器网络不断更新，直至得到性能稳定的网络模型；

S4、将多对未裁剪的源图像对分别输入步骤S3中优化好的生成器网络，得到最终的融合图像。

作为本发明更优的技术方案，所述的步骤S1中红外、可见光源图像对分别进行裁剪处理具体为：从TNO数据集中选择多对红外、可见光源图像，每对源图像均对应同一场景，将多对源图像逐个裁剪成小图像对，得到多组对应图像。

作为本发明更优的技术方案，所述的步骤S1中裁剪后得到的多组对应图像作为生成器的输入，生成器输出为单通道、同尺寸的融合图像具体为：首先采用卷积层提取多组对应图像，并将其作为后续第一个残差块和跳跃连接的输入；然后采用残差块提取与保留特征并跟随一个卷积块将特征进一步提取；接着将第一个卷积块提取的初步特征进行叠加，作为第二个残差块及跳跃连接的输入；重复一次上述残差及卷积提取操作，并将结果输出至下一卷积块；最后采用卷积层，输出单通道、同尺寸的融合图像。

作为本发明更优的技术方案，所述的步骤2具体为：首先采用卷积层对输入的融合图像或者可见光图像提取初步特征，接着连续采用多个卷积层不断缩小特征图尺寸同时增加特征图通道数；然后将输出特征图的所有点变换成单一矢量；最后通过线性相乘，输出单一可能性判别值。

作为本发明更优的技术方案，所述的步骤S3中的优化生成器是通过优化生成器损失函数完成的，所述生成器损失函数(L_G)如下所示：

L_G＝L_Adv+δL_Con

其中，L_Adv为对抗损失，L_Con为内容损失，D(F)为判别器对融合图像的判别输出，δ为权重参数，a为趋近1的数值，H和W分别为图像的高度和宽度，||～||_F为F范数，

为梯度计算，γ₁,γ₂,γ₃,和γ₄为各项系数。

作为本发明更优的技术方案，所述的步骤S3中的优化判别器损失是通过优化判别器损失函数完成的，所述判别器损失(L_D)函数如下所示：

其中，D(V)为判别器对可见光图像的判别输出，D(F)为判别器对融合图像的判别输出，b趋近于1，c趋近于0。

与现有技术相比，本发明有益效果在于：

1、在高性能GPU服务器上进行训练与测试，大幅提高运算效率；

2、生成器中加入残差网络及跳跃连接，可获取并保留更多源图像信息，生成的融合图像与源图像相似度更高；

3、在损失函数设计时，将生成器损失细化为对抗损失及内容损失，内容损失的引入保证红外图像强度、梯度信息及可见光图像的强度、梯度信息更好地被添加到融合图像中；

4、在测试时，输入源图像对可以为任意大小，网络泛化能力较强。

本发明基于深度学习的方法，无需人工手动设计复杂的活动水平测量方法及融合规则，通过训练多层网络自动提取图像特征并融合，融合过程更为简洁与智能化，能有效提升融合图像质量及视觉信息保真度。

附图说明

图1是本发明的具体实施步骤的流程图；

图2是本发明实施例1中生成器网络结构模型图；

图3是本发明实施例1中判别器网络结构模型图；

图4是本发明实施例1中残差块的结构介绍示意图；

图5是本发明实施例1中训练及测试过程示意图；

图6a-图6k是本发明实施例1中对数据集中“Marne_04”图像对的融合结果与其他方法的结果比较图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示，本发明通过设计合适的网络结构及损失函数，将生成对抗网络及残差网络相结合实现红外与可见光图像融合，包括以下步骤：

在一些实施例中，所述的步骤S1中红外、可见光源图像对分别进行裁剪处理具体为：从TNO数据集中选择多对红外、可见光源图像，每对源图像均对应同一场景，将多对源图像逐个裁剪成小图像对，得到多组对应图像。

在一些实施例中，所述的步骤S1中裁剪后得到的多组对应图像作为生成器的输入，生成器输出为单通道、同尺寸的融合图像具体为：首先采用卷积层提取多组对应图像，并将其作为后续第一个残差块和跳跃连接的输入；然后采用残差块提取与保留特征并跟随一个卷积块将特征进一步提取；接着将第一个卷积块提取的初步特征进行叠加，作为第二个残差块及跳跃连接的输入；重复一次上述残差及卷积提取操作，并将结果输出至下一卷积块；最后采用卷积层，输出单通道、同尺寸的融合图像。

在一些实施例中，所述的步骤2具体为：首先采用卷积层对输入的融合图像或者可见光图像提取初步特征，接着连续采用多个卷积层不断缩小特征图尺寸同时增加特征图通道数；然后将输出特征图的所有点变换成单一矢量；最后通过线性相乘，输出单一可能性判别值。

在一些实施例中，所述的步骤S3中的优化生成器是通过优化生成器损失函数完成的，所述生成器损失函数(L_G)如下所示：

L_G＝L_Adv+δL_Con

为梯度计算，γ₁,γ₂,γ₃,和γ₄为各项系数。

在一些实施例中，所述的步骤S3中的优化判别器损失是通过优化判别器损失函数完成的，所述判别器损失(L_D)函数如下所示：

实施例1

本发明提供的一种红外与可见光图像融合方法，在GPU上搭建基于 TensorFlow的开发环境，硬件计算平台采用Intel E5-2690 V3处理器， TITAN V GPU，64G内存；软件平台基于Ubantu系统，版本为16.04，采用CUDA 9.0、CUDNN 7以及TensorFlow1.12.0搭建软件环境，具体步骤如下：

S1、将多对红外、可见光源图像对分别进行裁剪处理，再将裁剪后得到的多组对应图像作为生成器的输入，生成器输出为单通道、同尺寸的融合图像，具体如下：

S1.1、红外与可见光图像数据集的收集、裁剪与格式化保存

从TNO数据集中搜集到41对红外(I)与可见光(V)图像，每对图像均对应同一场景，其中红外图像包含更多的强度信息，可见光图像包含较多的细节信息。为提高网络模型的鲁棒性及泛化能力，通过裁剪的方式将数据集扩增。考虑到GPU内存大小及实际的训练效果，裁剪尺寸设置为128*128像素点，移动步长设置为13，最后得到37696对小图像用于训练。裁剪后的图像对被格式化为h5py格式，方便保存与读取。中，可见光图像将作为标签图像用于损失函数的计算。

S1.2、生成器网络(G)模型的构建

所述的生成器网络中包含多个卷积层、批归一化层、激活层，另外还有两个残差网络模块及跳跃连接。生成器以红外与可见光图像组成的两通道灰度图作为输入，单通道、同尺寸的融合图像(F)作为输出。卷积层用于提取图像特征，得到各层特征图；批归一化层用于克服模型训练过程中的梯度消失问题；激活层将非线性特性引入到网络中，使得网络可以学习、理解较为复杂、非线性数据关系；残差网络的加入可以学习并保留更多源图像的细节信息，这将有效提高融合图像的视觉信息保真度及其与源图像之间的相关性；跳跃连接可将网络前端浅层特征叠加到后面的特征图中，进一步保证融合图像包含更多的源图像信息。通过上述方式搭建的生成器网络，经过不断训练与优化，能够生成较好的融合图像。

S2、将步骤S1得到的融合图像及裁剪后的可见光图像输入判别器中，输出单一可能性判别值；本发明中判别器分别以生成器输出的融合图像及裁剪后的可见光标签图像作为输入，输出其判定后的结果值。该值表明判别器认为输入的图像为真正标签的可能性(0-1)。判别器希望输入为融合图像时，该值较小；输入为可见光标签图像时，该值较大。这样才能保证其具有较强的判别能力。判别器网络结构较生成器模型简单，包括多个卷积层、批归一化层、激活层及最后的线性层。判别器网络工作类似于一个分类器，对单次的输入图像进行可能性判别。

S3、使用步骤S1中融合图像与源图像间的生成器损失结合步骤S2 中得到的融合图像与可见光图像间的判别器损失优化生成器，并通过反向传播调整生成器网络权重值及偏置值，使用步骤S2中得到的融合图像判别值及可见光图像判别值优化判别器，将可见光图像的其他细节信息添加到融合图像中，经过多次迭代，生成器和判别器网络不断更新，直至得到性能稳定的网络模型。

损失函数设计的好坏将影响融合图像中所包含源图像信息的种类与多少。本发明中分别设计了生成器损失及判别器损失用于网络模型参数的调整。通过优化损失函数并通过反向传播调整生成器网络和判别器网络权重值及偏置值，使得生成器能够产生包含红外强度及可见光梯度信息的融合图像，判别器将可见光图像的其他细节信息补充到融合图像中。

生成器损失(L_G)函数如下所示：

L_G＝L_Adv+δL_Con (1)

为梯度计算，γ₁,γ₂,γ₃,和γ₄为各项系数；

可见光图像除梯度信息外，还包含其他细节内容，通过优化判别器损失可将其他信息逐步添加到融合图像中，判别器损失(L_D)函数如下所示。

本发明使用基于mini-batch的批量处理方式进行训练，生成器每次输入为32对裁剪后的小批量源图像，输出为32个融合后的单通道图像；判别器分别以生成器输出的多个图像、裁剪好的可见光图像标签作为输入，输出每一个小批量融合图像及可见光标签的判别值矢量，用于生成器和判别器损失函数值的计算。采用Adam优化算法根据损失函数变化进行梯度下降操作对网络参数进行更新。生成器和判别器网络参数交替更新、迭代，达到设定训练次数即止。

S4、将41对未裁剪的源图像对分别输入训练好的生成器网络，得到最终的融合图像。因为生成器在卷积时均采用了填充的方式，为避免生成的融合图像边缘出现灰度块，在测试时首先将两个源图像边缘填充，生成的图像尺寸与填充后的源图像一致。最后，将生成后的图像进行裁剪，去掉灰度块的同时，保证其尺寸与数据集中源图像尺寸一致。

结果分析：

采用多种图像融合评价指标综合对实施例1得到的融合图像及其他对比方法输出的融合图像进行对比评估。利用空间频率(SF)和标准差 (SD)评价融合图像本身细节及对比度特性；采用平均相似度(MSSIM)、相关系数(CC)及差异相关性(SCD)评价融合图像与两个源图像间的相关性；利用视觉信息保真度(VIFF)评价融合图像人眼视觉效果。各种方法名称如表1所示，具体比较结果列与表2中。由表1和表2中数据可以看出，本发明综合结果最好，在SF、CC、SCD及VIFF四项指标中表现较为突出，融合图像与源图像相关性较高，同时视觉效果十分突出。

表1

表2

Methods	CVT	DTCWT	LP	NSCT	TSIFVS	GTF	GFF	CNN	Proposed	Ranking
											SF	11.639	11.5691	11.8508	11.6472	11	9.7324	11.1043	11.8958	12.2079	1
SD	29.6285	29.2046	32.7525	29.6933	32.23	38.0893	40.147	<u>48.1136</u>	42.7397	2
											MSSIM	0.5494	0.5579	0.5665	<u>0.5761</u>	0.5749	0.5356	0.5653	0.5673	0.5708	3
CC	0.5225	0.5265	0.5214	0.5312	0.5286	0.3711	0.42	0.4956	0.5693	1
											SCD	1.5916	1.5957	1.612	1.614	1.6278	1.0479	1.3317	1.622	1.7701	1
VIFF	0.3693	0.3589	0.4518	0.4084	0.4718	0.2367	0.2913	0.5067	0.6086	1

如图2所示，生成器网络总体上包含5个常规卷积层块、2个残差块、2个外部跳跃连接。卷积块中包含有批归一化层及激活函数层。生成器的输入为128×128×2的两通道灰度图，首先采用3×3的卷积层提取图像初步特征图数量为64个，并将其作为后续第一个残差块和跳跃连接的输入；然后采用残差块提取与保留特征并跟随一个卷积块将特征进一步提取；接着将第一个卷积块提取的初步特征进行叠加，作为第二个残差块及跳跃连接的输入；重复一次上述残差及卷积提取操作，并将结果输出至下一卷积块，输出特征图通道数为32；最后采用1×1卷积，将32通道输入转换成单通道融合图像输出。

如图3所示，判别器网络包含四个卷积块及一个线性层。卷积块中包含有批归一化层及激活函数层。判别器相当于一个分类器，所有卷积均带有步长且无填充，设计中步长为2。首先采用5×5的卷积层对输入的融合图像或者可见光图像提取初步特征，特征图数量为64；接着连续采用三个卷积块不断缩小特征图尺寸同时增加特征图通道数，第四个卷积块输出的图像特征图尺寸为7×7，通道数为512；然后将输出特征图的所有点变换成单一矢量；最后，通过线性相乘，输出单一可能性判别值。

如图4所示，本发明采用的是两层结构的残差块，通过使用2个3 ×3卷积核及一个跳跃连接实现特征图的提取与叠加。残差块的引入不仅能够提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。

如图5所示，训练过程中，生成器和判别器全部参与其中，测试过程中只需要生成器产生融合图像。训练时，通过优化损失函数，调整网络参数，使得生成器网络产生具有红外强度和可见梯度信息的初步融合图像，判别器不断将可见光图像的其他细节信息添加到融合图像中。经过多次迭代，生成器和判别器网络不断更新，最后得到性能稳定的网络模型。

如图6所示，图6a是红外图像，图6b是可见光图像，图6c是CVT，图6d是DTCWT，图6e是LP，图6f是NSCT，图6g是TSIFVS,图6h 是GTF，图6i是GFF，图6j是CNN，图6k是本发明方法。从图中可以看出，融合后的图像与源图像的相关程度较高，同时视觉效果明显好于其他方法。

由以上可知，将深度学习方法应用于红外与可见光图像融合时，可避免手动设计复杂的测量及融合规则，通过多层网络实现图像特征的自动提取，且无需进行复杂的变换操作。

本发明通过设计适合的生成器和判别器网络结构及损失函数实现红外与可见光图像融合，以避免传统方法需要手动设计复杂的活动水平测量及融合规则，且涉及复杂的变换及分解操作等问题，并且在网络结构设计时加入残差网络及跳跃连接，同时损失函数设计时在原有基础上增加内容损失项，尽可能多的获取与保留源图像中红外图像的强度信息及可见光图像的纹理细节信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种红外与可见光图像融合方法，其特征在于，包括以下步骤：

S3、使用步骤S1中融合图像与源图像间的生成器损失结合步骤S2中得到的融合图像与可见光图像间的判别器损失优化生成器，并通过反向传播调整生成器网络权重值及偏置值，使用步骤S2中得到的融合图像判别值及可见光图像判别值优化判别器，将可见光图像的其他细节信息添加到融合图像中，经过多次迭代，生成器和判别器网络不断更新，直至得到性能稳定的网络模型；

2.如权利要求1所述的一种红外与可见光图像融合方法，其特征在于，所述的步骤S1中红外、可见光源图像对分别进行裁剪处理具体为：从TNO数据集中选择多对红外、可见光源图像，每对源图像均对应同一场景，将多对源图像逐个裁剪成小图像对，得到多组对应图像，实现数据扩增。

3.如权利要求1所述的一种红外与可见光图像融合方法，其特征在于，所述的步骤S1中裁剪后得到的多组对应图像作为生成器的输入，生成器输出为单通道、同尺寸的融合图像具体为：首先采用卷积层提取多组对应图像，并将其作为后续第一个残差块和跳跃连接的输入；然后采用残差块提取与保留特征并跟随一个卷积块将特征进一步提取；接着将第一个卷积块提取的初步特征进行叠加，作为第二个残差块及跳跃连接的输入；重复一次上述残差及卷积提取操作，并将结果输出至下一卷积块；最后采用卷积层，输出单通道、同尺寸的融合图像。

4.如权利要求1所述的一种红外与可见光图像融合方法，其特征在于，所述的步骤2具体为：首先采用卷积层对输入的融合图像或者可见光图像提取初步特征，接着连续采用多个卷积层不断缩小特征图尺寸同时增加特征图通道数；然后将输出特征图的所有点变换成单一矢量；最后通过线性相乘，输出单一可能性判别值。

5.如权利要求1所述的一种红外与可见光图像融合方法，其特征在于，所述的步骤S3中的优化生成器是通过优化生成器损失函数完成的，所述生成器损失函数(L_G)如下所示：

L_G＝L_Adv+δL_Con

为梯度计算，γ₁,γ₂,γ₃,和γ₄为各项系数。

6.如权利要求1所述的一种红外与可见光图像融合方法，其特征在于，所述的步骤S3中的优化判别器损失是通过优化判别器损失函数完成的，所述判别器损失(L_D)函数如下所示：