CN114004775A

CN114004775A - 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法

Info

Publication number: CN114004775A
Application number: CN202111445419.4A
Authority: CN
Inventors: 朱敏; 杨勇; 明章强; 高承睿; 程俊龙; 李长林
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-02-01
Anticipated expiration: 2041-11-30
Also published as: CN114004775B

Abstract

本发明涉及计算机信息技术领域，公开了一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，本发明对可见光图像和红外图像进行预处理，通过潜在低秩表示将图像分解为显著部分和低秩部分，使用两个全卷积模型分别对显著部分和低秩部分进行融合，最后将融合后的显著部分和融合后的低秩部分相加得到最终的融合图像。通过本发明融合得到的融合结果细节信息丰富，相比于原来的低照度图像，场景目标更加清晰，图像的对比度提升。

Description

结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法

技术领域

本发明涉及计算机，图像融合和智能监控领域，具体涉及一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法。

背景技术

图像融合在于从不同传感器获取的图像中提取出最有意义的部分，然后将它们组合成一幅图像，融合图像中包含了更多的场景描述信息，更方便后续的应用。红外和可见光图像融合具有独特的优势。红外传感器将物体的热辐射捕捉到图像上，因此红外图像不易受复杂环境的影响，可以更好地将物体与背景区分开来，但这也导致细节信息不足，对比度低。可见光传感器捕捉环境的反射光，成像容易受环境影响，但可见光图像涵盖了丰富的细节信息，符合人眼的感知。这两张图像的融合可以同时获得场景几乎所有的固有属性，包括细节信息和目标信息，因此红外和可见光图像的融合比其他融合可以应用到更多的领域。

现有的红外与可见光图像融合方法根据融合理论可大致分为七种，即基于多尺度变换、稀疏表示、神经网络、子空间、显著性的方法、混合模型以及其它方法。基于多尺度变换的方法将源图像分解成不同部分，根据相应的融合规则融合这些部分，然后使用融合后的部分重构融合图像。基于多尺度变换的方法大多采用人工制定的融合策略，而且高度依赖于多尺度变换方法，导致提出新方法越来越困难。基于稀疏表示的方法旨在从大量高质量自然图像中学习一个过完备字典对源图像进行稀疏表示，融合规则作用于稀疏系数，最后根据融合后的稀疏系数使用学到的过完备字典恢复融合图像。对于基于稀疏表示的方法而言，系数的编码技术对融合性能起着至关重要的作用，而且构造具有目标数据的良好表示的合适的过完备字典仍然很困难。基于神经网络的方法利用神经网络强大的学习能力来融合图像，但是设计一个适合的神经网络是十分具有挑战性的。基于子空间的方法通过去除图像中的冗余信息将图像投影到低维空间或者子空间，因为低维空间有助于捕捉原始图像的固有结构，存在的问题则是找到一个具有强大表示能力的子空间很困难。基于显著性的方法根据人眼视觉系统的机制保留显著目标区域并且可以提高融合图像的质量，然而怎样充分利用显著区域则一直都没有一个准确答案。混合模型则是结合上述方法的优点来提高融合图像的质量。除了以上几种方法外，还有一些使用其它理论的融合方法如基于模糊理论的方法、基于马尔科夫随机场的方法等。

为了获得更好的融合性能，基于多尺度变换的方法会趋于设计越来越复杂的融合策略，导致方法实施有困难而且设计出的规则也不能确保充分利用了分解后的图片的特征，而基于神经网络的方法则会设计更加复杂的网络结构和损失函数，会使得设计一个适用于融合的模型非常困难。

发明内容

为了克服上述问题，本发明提出了一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，在避免了设计复杂的融合规则和构造复杂的网络结构的同时可以获得更好的融合效果。本发明的技术方案为：

一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，包括以下步骤：

步骤1：获取红外和可见光图像融合数据集，扩充数据集作为神经网络的训练集；

步骤2：将训练集中的所有图像均通过潜在低秩表示计算，得到相应的投影矩阵；

步骤3：将训练集图像和投影矩阵做矩阵乘法，得到图像的显著部分，用源图像减去显著部分得到图像的低秩部分；

步骤4：通过所述低秩部分训练背景模型，通过所述显著部分训练显著模型，所述背景模型和显著模型结构均为由五层全卷积神经网络构成的主干网络；

步骤5：背景模型采用梯度损失函数和结构相似性损失函数，显著模型采用像素强度损失函数和结构相似性损失函数；

步骤6：待融合图像经过潜在低秩分解分为低秩部分和显著部分，低秩部分通过背景模型进行融合，显著部分通过显著模型进行融合，将融合后的背景部分和融合后的显著部分做逐像素加法即得最终的融合结果。

进一步的，所述步骤1中，红外和可见光融合数据集使用TNO；从中选取若干对红外和可见光图像作为原始图像，以14为步长将图片裁剪为120x120大小，最终获得30014对图像，以扩充数据集，其全部作为训练集，将未裁剪的图片即原始图片作为测试集。

更进一步的，所述步骤3中潜在低秩表示的过程如下：

s.t.X＝XZ+LX+E

其中，X为源图像、Z为低秩矩阵、L为投影矩阵、E为噪声、λ为平衡系数；||·||_*和||·||₁分别表示核范数和一范数；XZ为图像的低秩表示，LX为图像的显著成分；投影矩阵L通过不精确的增强拉格朗日乘子法求解。

更进一步的，所述步骤4中的五层的全卷积神经网络中，第一层卷积采用5x5的卷积核，第二、三、四层采用3x3的卷积核，最后一层则采用1x1的卷积进行降维；除了最后一层的激活函数使用Tanh，其它层均使用PReLU。

更进一步的，所述步骤4的具体过程如下：

步骤4.1：将红外图像和可见光图像的低秩部分在通道维度上拼接起来，可见光图像的低秩部分在第一通道，红外图像的低秩部分在第二通道；将红外图像和可见光图像的显著部分也在通道维度上拼接起来，可见光图像的显著部分在第一通道，红外图像的显著部分在第二通道；

步骤4.2：将拼接起来的红外图像和可见光图像的低秩部分送入背景模型，背景模型输出

融合后的低秩部分；将拼接起来的红外图像和可见光图像的显著部分送入显著模型，显著模型输出融合后的显著部分；

步骤4.3：背景模型和显著模型分别根据自己的损失函数计算损失并进行反向传播。

更进一步的，所述步骤5中的损失函数如下：

背景模型的损失函数为：

其中，

表示梯度损失，

表示低秩部分的结构相似性损失；H和W分别表示图像的宽高，ξ和ω是平衡系数，

表示矩阵Frobenius范数，

是梯度算子，

和

分别表示融合图像的低秩部分和可见光图像的低秩部分；

表示融合图像低秩部分和可见光图像低秩部分的结构相似性；SSIM_X,F表示图像X和F的结构相似性，μ_x和μ_f为图像X和F的均值，σ_x和σ_f表示图像X和F的方差，σ_xf表示X和F的协方差；C₁、C₂、C₃为避免分母趋于0时的不稳定性调节常数，本发明中C₁＝6.5025、C₂＝58.5225、C₃＝29.26125；

显著模型的损失函数为：

其中，

表示像素强度损失，

表示显著部分的结构相似性损失；β、γ和ω为平衡系数；

和

分别表示融合图像的显著部分和可见光图像的显著部分；

表示融合图像的显著部分和可见光图像的显著部分之间的结构相似性。

更进一步的，所述步骤6的具体过程如下：

步骤6.1：将待融合的红外图像和可见光图像经过步骤2、3处理得到低秩部分和显著部分；

步骤6.2：将两个低秩部分在通道维度进行拼接，可见光图像的低秩部分在第一通道，红外图像的低秩部分在第二通道，然后将图像送入训练好的背景模型最后得到融合后的低秩部分；显著部分也进行同样的拼接处理后送入显著模型得到融合后的显著部分；

步骤6.3：将融合后的低秩部分和融合后的显著部分逐像素做加法，得到最终的融合图像。

采用上述技术方案带来的有益效果：

1)本发明提出结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，在避免了设计复杂的融合规则和构造复杂的网络结构的同时可以获得背景清晰且目标突出的融合效果。

2)本发明采用两个卷积神经网络分别融合分解后的部分，在一定程度上充分利用了分解后各部分的信息，同时保证了整个流程的合理性和可逆性。

3)通过本发明融合得到的融合图像细节信息丰富，图像对比度高，相比于原来的低照度图像，图像背景清晰同时目标突出，在公共数据集上平均EN(交叉熵)指标达到了7.5954、平均MI(互信息)指标达到了2.8973、平均SD(标准差)指标达到了57.7775、平均VIF(视觉保真度)指标达到了0.507。

附图说明

图1为本发明的红外和可见光图像融合方法的流程图。

图2为所用卷积神经网络的详细结构。

图3为潜在低秩表示的公式和示意图。

图4为本发明方法和其它六种方法的定性对比。

图5为本发明方法和其它六种方法的定量对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。本发明提供了一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，包括以下步骤：

步骤1)挑选红外和可见光融合数据集，扩充数据集作为神经网络的训练集。

红外和可见光融合数据集使用TNO，其链接为https://figshare.com/articles/TNO_Image_Fusion_Dataset/1008029。根据图像质量和在论文中出现的频率，从其中选取了28对红外和可见光图像作为原始图像。由于本发明的模型中有神经网络结构，故需要大量的数据进行训练，因此考虑做数据扩充。扩充数据集的方式具体为以14为步长将图片裁剪为120x120大小，最终边缘部分不足120的部分予以舍弃，最终获得30014对图像，将其全部作为训练集，将未裁剪的图片即原始图片作为测试集。因为本发明的网络是一个全卷积网络，网络的所有参数都不依赖于输入图像的尺寸，所以可以用这种方式来扩充数据集和划分测试集。

步骤2)使用五层的全卷积神经网络作为主干网络。

全卷积网络结构如图2，第一层卷积采用5x5的卷积核，为了以较大的感受野扩充维度。第二、三、四层采用3x3的卷积核，最后一层则采用1x1的卷积进行降维。除了最后一层的激活函数使用Tanh，其它层全使用PReLU，因为最后一层为输出层，并不对输出层做其它处理，因此需要保证每个像素点的值在允许范围内。除了最后一层，在每个卷积层后都加了一个批量归一化层，目的是加速网络收敛同时防止梯度消失和爆炸。

步骤3)将训练集的所有图片都通过潜在低秩表示计算，得到相应的投影矩阵。

潜在低秩表示的示意图如图3所示。图像被分解为了三个部分：显著部分、低秩部分、噪声，在红外与可见光图像融合领域，原始图像的所有信息都是应该被保留的，因此本发明只讲图像分解为了显著部分和低秩部分，通过原始图像减去显著部分得到低秩部分。投影矩阵L通过不精确的增强拉格朗日乘子法求解得到。

s.t.X＝XZ+LX+E

步骤4)训练集图片和投影矩阵做矩阵乘法，得到图片的低秩部分和显著部分。

对原始图像做潜在低秩表示计算，得到相应的投影矩阵。然后将投影矩阵与原始图像进行矩阵乘法，得到图片的显著部分，用源图像减去显著部分得到图片的低秩部分。所有用到的图片都进行上述处理。

源图像的低秩部分和显著部分通过下式得到；

X_s＝LX,X_lrr＝X-X_s

其中，X_s表示源图像的显著部分X_lrr表示图像的低秩部分，我们采用源图像直接减去显著部分得到低秩部分的做法是为了避免在分解过程中丢失源图像中的信息。

步骤5)低秩部分用于训练背景模型，显著部分用于训练显著模型，背景模型和显著模型结构均为步骤2所述。

步骤5-1)将红外图像和可见光图像的低秩部分在通道维度上拼接起来，可见光图像的低秩部分在第一个通道，红外图像的低秩部分在第二个通道。将红外图像和可见光图像的显著部分也在通道维度上拼接起来，可见光图像的显著部分在第一通道，红外图像的显著部分在第二通道。

步骤5-2)将拼接起来的图像送入模型，模型输出融合后的低秩部分和融合后的显著部分。

步骤5-3)两个模型根据自己的损失函数计算损失并进行反向传播。

步骤6)背景模型采用梯度损失和结构相似性损失，显著模型采用像素强度损失和结构相似性损失。

背景模型的损失函数为：

其中，

表示梯度损失，

表示矩阵Frobenius范数，

是梯度算子，

和

分别表示融合图像的低秩部分和可见光图像的低秩部分；

表示融合图像低秩部分和可见光图像低秩部分的结构相似性；SSIM_X,F表示图像X和F的结构相似性，μ_x和μ_f为图像X和F的均值，σ_x和σ_f表示图像X和F的方差，σ_xf表示X和F的协方差；C₁、C₂、C₃为避免分母趋于0时的不稳定性调节常数，本方法中C₁＝6.5025、C₂＝58.5225、C₃＝29.26125。

显著模型的损失函数为：

其中，

表示像素强度损失，

表示显著部分的结构相似性损失；β、γ和ω为平衡系数；

和

分别表示融合图像的显著部分和可见光图像的显著部分；

步骤7)最终，待融合图像经过潜在低秩分解分为低秩部分和显著部分，低秩部分通过背景模型进行融合，显著部分通过显著模型进行融合，将融合后的背景部分和融合后的显著部分做逐像素加法即得最终的融合结果。

对图像融合质量进行评价分析，和其它六种先进的算法进行了定性和定量对比，分别是GTF、LatLRR、IVIFDLF、FusionGAN、IVIFTMTD、MDLatLRR。定量指标选取以下几个：(a)融合图像的信息熵(EN)，表示包含信息量的多少；(b)融合图像的标准差(SD)，表示融合图像对比度的大小；(c)融合图像与源图像的相关度(MI)；(d)视觉信息保真度(VIF)。比较结果如图4的定性对比和图5的定量对比。

整体上看，所有的方法都可以在一定程度上融合可见光和红外图片的信息，难以据此评估不同的方法的优劣。然而，若考虑融合图像中的细节信息，显然GTF、LatLRR、IVIFDLF和FusionGAN没有很好的保留住可见光图像中的细节信息，整体图像除了目标区域外都较为模糊，而IVIFTMTD、MDLatLRR和本发明方法的结果都有着丰富的纹理信息。虽然IVIFTMTD方法可以较好的保留细节信息，但是相较MDLatLRR和本发明的方法而言，它对于目标信息的保留则是做得不到位，在第一个场景的融合结果中根本看不出来烟的后面有目标存在，而MDLatLRR和本发明方法的结果都可以清晰的看到目标。本发明方法在目标显著程度上略弱于MDLatLRR，但是本发明的结果在细节信息的保留能力上是要更强的，比如，在sandpath中，本发明的结果中木桩更为清晰且而且边界分明，但是在MDLatLRR中几乎难以分辨出木桩的边界，类似的现象也可以从其它四个场景中观察到。总体而言，本发明方法的结果中目标不失显著性同时对细节信息有较好的保留。本发明的方法在同时保留目标信息和纹理信息上性能优于最先进的方法。

本发明的方法在四个指标上都表现出最高值而且平均值也是最大的。在EN和SD上本发明的方法有着毋庸置疑的最大值，在MI和VIF上则是略微高于其它方法。最大的EN值表明本发明的结果含有最多的信息量。最大的MI值说明本发明的结果和原始图像是最相关的，也就是说有着最少的伪影。最大的SD显示本发明的结果有着最高的对比度，这和定性比较的结果是吻合的。最大的VIF则证明本发明的结果失真程度最小，最符合人眼的感知。综合来看，本算法可以改善融合图像的对比度，突出红外目标，同时较好地保留了可见光信息，是一种有益算法。

Claims

1.一种结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，其特征在于，所述步骤1中，红外和可见光融合数据集使用TNO；从中选取若干对红外和可见光图像作为原始图像，以14为步长将图片裁剪为120x120大小，最终获得30014对图像，以扩充数据集，其全部作为训练集，将未裁剪的图片即原始图片作为测试集。

3.根据权利要求1所述的结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法，其特征在于，所述步骤3中潜在低秩表示的过程如下：