CN112950519A

CN112950519A - 一种新型的红外和可见光图像融合算法

Info

Publication number: CN112950519A
Application number: CN202110294376.8A
Authority: CN
Inventors: 齐东浩; 余毅; 高策; 张艳超; 唐伯浩; 徐嘉兴; 宋聪聪; 刘晏瑞; 张馨元
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-11
Anticipated expiration: 2041-03-19
Also published as: CN112950519B

Abstract

本发明涉及一种新型的红外和可见光图像融合算法，包括步骤：利用非下采样轮廓变换对预配准的红外图像和可见光图像分别进行多尺度变换，得到红外图像和可见光图像分别对应的带通分量和低通分量；利用深层神经网络引导图像深度特征的方法对低通分量进行融合，得到低通分量融合图像；利用取模最大值的方法对带通分量进行比较，选择最大值作为带通分量融合的权值，并根据权值对带通分量进行融合，得到带通分量融合图像；将低通分量融合图像和带通分量融合图像通过非下采样轮廓变换的逆变换进行重建，得到最终的融合图像。本发明可以最大程度的在结果图像中保留源图像的主要信息，并且不会在融合后的图像中出现噪声和伪影。

Description

一种新型的红外和可见光图像融合算法

技术领域

本发明涉及图像融合技术领域，特别是涉及一种新型的红外和可见光图像融合算法。

背景技术

在军事、导航、隐形武器检测和医学成像等领域中通常需要借助多种不同的成像波段来监视目标场景，以便获得更为全面的视觉理解。利用不同波段的相机来获取图像，可以提供丰富详实的场景信息。然而在特定的观测场景下，为了展示更多的细节信息，可以结合多个图像波段的成像优势。

图像融合技术在过去的几十年中得到了广泛的研究。基于拉普拉斯和对比金字塔的多尺度变换的方法最早被提出用于图像的分解，基于可操纵金字塔和期望最大化的图像融合方法，这种方法优于传统的可操纵金字塔的融合方法。同样被应用于图像分解的小波变换，具有与金字塔变换不同的系数不相关性，在图像融合领域得到了广泛应用。传统的小波变换是通过一组滤波器将原图像分解为一系列高、低通子图像，其存在震荡、移位方差和方向性不足等缺点，因此在融合图像中会出现伪影。

轮廓变换是多方向多分辨率的图像变换方法。然而轮廓变换存在由于金字塔滤波器组的上采样和下采样所引起的位移方差的问题。为了解决这一问题，提出了一种完全位移不变的非下采样轮廓变换(Nonsubsampled contourlet transform，NSCT)。

NSCT是由Do and Vetterli提出的一种多尺度分解方法(“The contourlettransform:an efficient directional multiresolution image representation”,IEEETrans.Image Process.14(12)(2005)2091-2106.)，旨在克服轮廓变换所导致的位移不变和伪吉布斯现象(shift-invariant and pseudo-Gibbs phenomena)。轮廓变换之所以不具有平移不变性，其原因就在于拉普拉斯金字塔和方向滤波器组中存在的上采样和下采样操作。为了保留变换的方向和多尺度属性，在非采样轮廓变换中拉普拉斯金字塔被替换为非下采样金字塔(Nonsubsampled pyramid structure，NSP)以保留多尺度属性，方向滤波器组替换为非下采样方向滤波器组(nonsubsampled directional filter banks，NSDFB)用于保留方向性。分解后的每个子带图像与原始图像具有相同的大小。

如图1所示，NSCT是一个具有多尺度、多方向和位移不变性的图像分解策略。首先是采用NSP来对图像进行多尺度分解，每一次NSP分解可以产生一个低通分量和带通分量，迭代分解低通分量来获取图像中的主要信息。如果NSCT分解级别为x，则原图像可以被分解为1个低通分量和x个带通分量。然后利用NSDFB将每个尺度上的带通分量在不同方向上分解，从而产生与源图像大小相同的方向子带，有利于图像的融合。在图像融合应用中，NSCT方法可以有效的保留原始图像的特征，表现出了非常好的分解性能(“The nonsubsampledcontourlet transform:theory,design,and applications”[J],IEEE Trans.ImageProcess.15(10)(2006)3089.)。NSCT因其图像分解优势被用在图像融合的研究中，但是在结果中出现了较多的人工噪声。

神经网络以其较强的适应性、容错性和抗噪声能力被应用于红外图像和可见图像融合的领域。脉冲耦合神经网络(PCNN)在红外和可见光图像融合中有着广泛的研究。多尺度变换和PCNN相结合的方法进行图像融合，但是其图像融合效率较低。目前对深层神经网络应用于图像融合领域的相应探索较少。

图像融合方案的关键在于转换和融合规则的选择，结合不同方法的优点，建立增强图像融合模型，提高红外和可见光图像的融合效果，降低融合后图像的人工噪声以及伪影等现象，是红外和可见光图像融合中的一个关键问题。

发明内容

为了克服现有技术中存在的问题，提高红外和可见光图像的融合效果，降低融合后图像的人工噪声以及伪影等现象，本发明提供一种新型的红外和可见光图像融合算法，该算法提出了一种新型的非下采样轮廓变换方法和深层残差网络相结合的融合框架，可以充分发挥图像多尺度变换的分解优势，与此同时，也可以发挥出深度残差神经网络的特征提取能力。

为解决上述问题，本发明采取如下的技术方案：

一种新型的红外和可见光图像融合算法，包括以下步骤：

步骤一：利用非下采样轮廓变换对预配准的红外图像I₁和可见光图像I₂分别进行多尺度变换，得到所述红外图像I₁对应的带通分量

和低通分量

以及所述可见光图像I₂对应的带通分量

和低通分量

步骤二：利用深层神经网络引导图像深度特征的方法对所述低通分量

和所述低通分量

进行融合，得到低通分量融合图像F_d(x,y)；

步骤三：利用取模最大值的方法对所述带通分量

和所述带通分量

进行比较，选择最大值作为带通分量融合的权值，并根据所述权值对所述带通分量

和所述带通分量

进行融合，得到带通分量融合图像F_b(x,y)；

步骤四：将所述低通分量融合图像F_d(x,y)和所述带通分量融合图像F_b(x,y)通过非下采样轮廓变换的逆变换进行重建，得到最终的融合图像。

本发明结合NSCT图像分解的优势和深层神经网络的特征提取能力，提出了一种可以保留更多源图像信息的融合算法，同时可以减少在融合过程中所产生的噪声。与现有技术相比，本发明具有以下有益效果：

(1)本发明采用了非下采样轮廓变化的方法对红外图像和可见光图像进行多尺度变换，分解出一组包含图像主要信息的低通分量和包含轮廓信息的带通分量，消除了传统方法在轮廓变换中所产生的震荡、位移方差和方向性不足等缺点；

(2)在深层神经网络在图像融合领域应用研究相对较少的情况下，本发明利用深层神经网络引导图像深度特征的方法来实现低通分量的融合过程，使得在融合后的图像中继承源图像中的关键信息；

(3)传统的融合算法忽视了边缘信息的处理，而本发明通过取模最大值的方法计算红外图像和可见图像中的带通分量的最大值，以最大值作为带通分量融合的权值，对带通分量进行加权融合，可以保留源图像中最突出的轮廓信息；

(4)传统的融合方法在融合结果中包含人工噪声、边缘模糊以及伪影等现象，而由本发明获得的融合图像具有清晰的视觉表达，丰富的纹理细节，并且包含较少的人工噪声和伪影。

附图说明

图1为非下采样轮廓变换的图像分解过程示意图；

图2为本发明实施例提供的一种新型的红外和可见光图像融合算法的框架图；

图3为利用深度残差神经网络ResNet152融合低通分量的过程示意图；

图4为残差网络卷积块的示意图。

具体实施方式

下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。

在其中一个实施例中，如图2所示，本发明提供一种新型的红外和可见光图像融合算法，该算法具体包括以下步骤：

步骤一：图像多尺度分解

利用非下采样轮廓变换对预配准的红外图像I₁和可见光图像I₂分别进行多尺度变换，分别分解为多尺度多方向的带通分量

和低通分量

以及带通分量

和低通分量

得到低通分量组

和带通分量组

步骤二：低通分量的融合

对于低通分量

和

本实施例利用深层神经网络引导图像深度特征的方法进行融合，融合后得到低通分量融合图像F_d(x,y)。

神经网络的层数越深，获取的图像信息越多，而且特征也越丰富。但是有实验证明，随着神经网络的加深，优化效果反而越差，测试数据以及其准确率反而降低。这是由于网络的加深会导致梯度会以指数的形式增加或减小的问题。在2016年的IEEE国际计算机视觉与模式识别会议上(IEEE Conference on Computer Vision and PatternRecognition，CVPR)，He等人提出了一种新型的神经网络结构ResNet(“Multi-styleGenerative Network for Real-time Transfer,”arXiv Prepr.arXiv1703.06953,2017.)，用来解决梯度下降的问题。这个网络结构利用了快捷连接和残余表示，可以比以往的网络更容易优化，同时可以增加深度来提高精度。

进一步地，在步骤二中，利用新型的神经网络结构ResNet引导图像深度特征，实现低通分量的融合，即利用深度残差神经网络ResNet152对源图像分解成的低通分量组

进行特征提取，分别提取低通分量的特征映射，然后通过特征映射来计算出用于融合的引导映射即权重映射，最后利用权重映射和低通分量重建细节内容，实现红外图像和可见光图像的低通分量的融合，得到低通分量融合图像F_d(x,y)。

具体地，如图3所示，步骤二包括以下步骤：

步骤二一：利用深度残差神经网络ResNet152分别对低通分量

和低通分量

进行特征提取，得到低通分量

对应的特征映射

和低通分量

对应的特征映射

深度残差神经网络ResNet152是一个预训练网络，由5个卷积块(分别为Conv1，Conv2，Conv3，Conv4，Conv5)组成，总共包含152个权重层。残差神经网络是由多个子网络连接组成，如图4所示，X表示子网络的输入，Ψ(X)表示对两个权重层的网络操作，“relu”表示对线性单元的激活校正操作，最终的映射结果可由Ψ(X)+X来计算。因此，第i∈{1,2,…,N}个卷积块所输出的深层特征可表示为：

式中ψ(·)代表残差网络的一个卷积块，m表示每个特征层所具有的通道数量，k∈{1,2}。可选地，最深特征层N的取值为N＝5。

步骤二二：对特征映射

和特征映射

分别依次进行L1正则化和上采样操作，得到对应的权重映射

和权重映射

将获得到的深层特征

首先经过L1正则化获得初始权重映射，其公式如下所示：

深度残差神经网络ResNet152对低通分量

和低通分量

进行特征提取得到的深层特征

首先经过L1正则化，获得初始权重映射

其公式如下所示：

其中，

i∈{1,2,…,N}，k∈{1,2}，N表示深度残差神经网络ResNet152的最深特征层，x、y分别代表着特征映射在二维数组中的行和列，t代表步长，η为权值参数。可选地，权值参数的取值为η＝2。

当通过两个低通分量

和

得到两个初始权重映射

和

后，利用双三次插值运算分别对初始权重映射

和

进行上采样操作，将初始权重映射调整到源图像大小，其中初始权重映射

是低通分量

特征提取后，由最深特征层N所输出的深层特征经过L1正则化后得到的初始权重映射，初始权重映射

是低通分量

特征提取后，由最深特征层N所输出的深层特征经过L1正则化后得到的初始权重映射。最终的权重映射由下式计算得到：

其中，

为特征映射

对应的权重映射，

为特征映射

对应的权重映射。

步骤二三：根据权重映射

和权重映射

对低通分量

和低通分量

进行加权融合，得到低通分量融合图像F_d(x,y)，低通分量融合图像F_d(x,y)可由下式计算得到：

步骤三：带通分量的融合

从源图像(即步骤一中预配准的红外图像I₁和可见光图像I₂)中分离出来的带通分量部分包含了公共特征和冗余信息。在本实施例中，选择使用取模最大值的方法来对带通分量组

进行融合，可以尽可能的保留图像中的冗余信息。首先，选择利用取模最大值的方法对带通分量

和带通分量

进行比较，并选择最大值作为带通分量融合的权值。通过公式(5)比较计算带通分量组

中取模最大的值：

式中W_max是对带通分量进行取模后取其最大值的结果。

计算得到取模最大的值W_max之后，将取模最大的值W_max作为带通分量组融合的权值代入公式(6)中：

其中，(x,y)表示

和F_b(x,y)的像素位置。

步骤四：最后将获得的低通分量融合图像F_d(x,y)和带通分量融合图像F_b(x,y)通过非下采样轮廓变换的逆变换进行重建，得到最终的融合图像。在本步骤中，利用非下采样轮廓变换的逆变换，将红外图像和可见光图像所融合的分量图像进行重建，生成最终的融合图像。

本发明结合NSCT图像分解的优势和深层神经网络的特征提取能力，提出了一种可以保留更多源图像信息的融合算法，同时可以减少在融合过程中所产生的噪声。本发明不仅在主观上提高了图像效果，降低了噪声和伪影，在客观上同样提高了图像的评价质量函数值。首先，对深层残差网络应用在图像融合的领域进行了探索。其次，利用深度残差神经网络的特征提取能力，提取低通分量中丰富的特征信息，在计算特征映射来引导低通分量融合，实验结果表明这种方法起到非常显著的作用。最后，带通分量采用取模最大值的融合方法可以保留源图像中主要的冗余信息。

与现有技术相比，本发明在红外和可见光图像低通分量的融合上进行了创新，可以最大程度的在结果图像中保留源图像的主要信息，并且不会在融合后的图像中出现噪声和伪影。本发明具有以下有益效果：

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。