CN114862730B

CN114862730B - 一种基于多尺度分析与vgg-19的红外与可见光图像融合方法

Info

Publication number: CN114862730B
Application number: CN202110155081.2A
Authority: CN
Inventors: 严华; 高承睿; 刘飞强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-05-23
Anticipated expiration: 2041-02-04
Also published as: CN114862730A

Abstract

本发明公开了一种基于多尺度分析与VGG‑19的红外与可见光图像融合算法，它属于图像处理领域，主要解决目前融合方法中细节丢失、低对比度和边缘模糊的问题。包括如下步骤：步骤1：对源图像分别进行拉普拉斯金字塔分解，得到子带；步骤2：对于第N层子带，采用基于神经网络(VGG‑19)的方法提取图像特征，并采用“最大选择”的方式进行特征融合；步骤3：对于第1层子带，采用基于卷积稀疏表达(CSR)的方法进行融合；对于第2～N层子带，采用“最大选择”策略进行融合；步骤4：将融合后的子带，进行拉普拉斯逆变换，得到融合图像。本发明提出了新的融合框架，所得融合图像相比于其他经典融合算法在主观与客观评价上具有优越性。

Description

一种基于多尺度分析与VGG-19的红外与可见光图像融合方法

技术领域

本发明涉及数字图像处理领域，具体为一种基于多尺度分析与神经网络(VGG-19)的红外与可见光图像融合方法。

背景技术

红外与可见光图像融合作为一种图像增强技术，旨在融合来自不同传感器的图像，生成具有互补信息的融合图像并极大减小图像的冗余信息。根据传感器原理，可见光传感器捕获反射光，红外传感器捕获热辐射。因此，在光照充足的情况下，可见光图像包含丰富的细节信息；极端环境下(例如：有雾、夜晚等)，红外图像包含丰富的结构信息，可捕获到更多有用的图像信息。融合后的图片将包含更多的互补信息、细节信息及结构特征信息。由此，红外与可见光图像融合在各个领域均有非常广泛的应用，例如：军事检测、监控、目标监测等场景。因此，红外与可见光融合技术是不可或缺的图像处理技术。

当前，红外与可见光融合方法可大致分为三类：基于空间域的方法、基于变换域的方法、基于神经网络的方法。对于空间域的方法，是简单高效的，但很少可以考虑到红外与可见光图像之间的差别，导致丢失一些图片细节信息；对于变换域方法，可以解决图像细节保留的问题，但是由于融合策略目前较多的仅仅采用“最大选择”或“平均”的方法，导致融合图片的对比度有所降低；对于神经网络的方法，该类方法可以提取出深层图片结构信息和细节信息，但是涉及到训练过程复杂，运行速度较慢的问题。

针对上述存在的问题，提出一种基于多尺度变换与神经网络的红外与可见光融合方法。本技术利用拉普拉斯金字塔(LP)分解源图像，并对分解得到的高频部分与低频部分分别进行融合处理。利用VGG-19神经网络处理高频部分信息，利用卷积稀疏表达(CSR)的方式处理低频部分信息，提高了图片融合的质量，保留更多的图像细节信息，并在一定程度上提高了运行效率。

发明内容

本发明目的在于克服现有技术中存在的问题，提出了一种基于多尺度分析与VGG-19神经网络的红外与可见光图像融合方法，该方法能够有效融合源图像中的互补信息、细节信息及结构信息，同时在一定程度上提高融合效率。

本发明是通过以下技术方案实现的：

一种基于多尺度分析与VGG-19的红外与可见光图像融合方法，所述红外与可见光图像融合方法具体包括如下步骤：

步骤1：利用拉普拉斯金字塔分解源红外图像A和源可见光图像B，获取得到所述源图像A和源图像B的分解层数为N的拉普拉斯金字塔结构，第1～(N-1)层为高频部分，第N层为低频部分；

步骤2：将所述源图像A所得到的拉普拉斯金字塔结构第N层S_1-N与源图像B的拉普拉斯金字塔结构第N层S_2-N，采用CSR的图像融合方法进行融合，得到融合后的第N层S_f-N；

步骤3：将所述源图像A所得到的拉普拉斯金字塔结构第1层S_1-1与源图像B所得到的拉普拉斯金字塔结构第1层S_2-1，采用神经网络(VGG-19)的图像融合方法进行融合，得到融合后的第1层S_f-1；

步骤4：将所述源图像A所得到的拉普拉斯金字塔结构2～(N-1)层S_1-n(其中，n∈(2,N-1))和源图像B所得到的拉普拉斯金字塔结构2～(N-1)层S_2-n，采用“最大选择”策略进行融合，得到融合后的第2～(N-1)层S_f-n；

步骤5：将所述融合后的拉普拉斯金字塔相应层进行LP逆变换，最终得到融合图像。

进一步地，在所述步骤2中，基于CSR的图像融合方法包含以下步骤：

步骤2.1：所述S_1-N与S_2-N经过卷积稀疏表达编码模型的处理，获得卷积稀疏系数图C_1，m与C_2，m。

步骤2.2：所述稀疏系数图C_1，m与C_2，m经过l₁-norm处理得到初始活动层级A(x，y)；

步骤2.3：对活动层级做基于窗口的平均，得到最终的活动层级

步骤2.4：通过对最终的活动层级

进行“最大选择”策略来确定融合后的卷积稀疏系数图C_f,m；

步骤2.5：最终经过字典滤波器d_m与融合后的卷积稀疏系数图C_f,m经过卷积操作得到融合后的金字塔第N层S_f-N。

进一步地讲，在所述步骤2.1中，卷积稀疏系数图C_1,m与C_2,m具体计算方法如下：

其中：d_m指学习字典，C_k,m指卷积稀疏系数图，为M维的列向量，S_k-N指源图像A和源图像B的拉普拉斯金字塔结构第N层；

进一步地讲，在所述步骤2.2中，初始活动层级A(x,y)的计算过程如下：

A(x,y)＝||C_k,1:M(x，y)||₁

进一步地讲，在所述步骤2.3中，最终活动层级

的计算过程如下：

其中：r指窗口尺寸，r越大，该方法对于未配准的图片鲁棒性越好，但细节信息保留越少；

进一步地讲，在所述步骤2.4中，融合后的卷积稀疏系数图C_f，m的计算过程如下：

其中：C_k，1:M(x，y)指稀疏系数图，

指图像最终活动层级；

进一步地讲，在所述步骤2.5中，融合后的金字塔第N层S_f-N的计算过程如下：

进一步地，在所述步骤3中，基于神经网络(VGG-19)的图像融合方法包含以下步骤：

步骤3.1：所述S_1-1与S_2-1的特征图

与

由VGG-19网络中卷积层的输出得到；

步骤3.2：对所述特征图

与

采用l₁-norm操作，得到初始活动层级

与

步骤3.3：对所述初始活动层级

与

采用基于“块平均”的操作，得到最终活动层级

与

步骤3.4：对所述最终活动层级

与

采用“最大选择”的策略，得到初始权重图

与

步骤3.5：对所述初始权重图

与

进行上采样操作，还原权重图的尺寸使之与输入的子带尺寸大小一致，得到最终权重图

与

步骤3.6：最终权重图

与金字塔结构第1层S_1-1、S_2-1，进行乘积相加的操作得到初步融合后的金字塔结构第1层S_f-1；

进一步地讲，在所述步骤3.1中，S_1-1与S_2-1的特征图

与

具体计算方法如下：

其中：Φ_i(·)指在VGG-19网络中的某层；S_k-1为源图像拉普拉斯金字塔结构子带第1层；

指子带特征图，i指VGG-19网络的层数，i∈{1,2，3，4}，m为第i层网络的通道数，m∈{1，2，…，M}，M＝64×2^i-1；

进一步地讲，在所述步骤3.2中，特征图

与

经l₁-norm操作得到初始活动层级

与

具体计算方法如下：

其中：

指

在特征图中(x，y)位置的值；

进一步地讲，在所述步骤3.3中，最终活动层级

与

具体计算方法如下：

其中：r代表“块平均”窗口的尺寸；

进一步地讲，在所述步骤3.4中，源图像分解后第1层子带的初始权重图

与

具体计算方法如下：

其中：由于涉及两张源图像，K＝2；

进一步地讲，在所述步骤3.5中，经过上采样操作，得到最终权重图

与

具体计算方法如下：

其中：存在四组权重图

进一步地讲，在所述步骤3.6中，初步融合后的金字塔结构第1层S_f-1经权重分配可得，具体计算方法如下：

进一步地，在所述步骤4中，基于采用“最大选择”策略的图像融合方法包含以下步骤：

步骤4.1：所述融合后拉普拉斯金字塔第2～(N-1)层子带，经过“最大选择”策略处理后输出得到；

进一步地讲，在所述步骤4.1中，融合后拉普拉斯金字塔第2～(N-1)层子带S_f-n具体计算方法如下：

S_f-n(x，y)＝max[S_i-n(x，y)|i∈{1，2，…，N-2}]

其中：(x,y)表示在S_f-n中图像灰度的对应位置，此处选择最大值作为融合图像灰度。

与现有技术相比，本发明具有以下有益效果：

(1)本发明的红外与可见光融合方法将源图像经过拉普拉斯金字塔分解为高频与低频部分，分别对其采用不同的融合策略。对于分解后的第N层子带，采用VGG-19神经网络进行特征提取，可以很好地保留细节信息；对于分解后的第2～N-1层子带采用“最大选择”策略；对于分解后的第1层子采用卷积稀疏表达的方式，可以很好地保留结构信息。对于处理后的子带，进行拉普拉斯金字塔重建，得到融合图像。由于本发明采用的多尺度分解方式，使得融合图像与人类视觉系统相协调。

(2)本发明融合得到的图像可以更好的保留高频部分细节信息，同时，低频部分结构信息也可以很好的保留。经过大量实验验证，本发明所得融合图像，在客观指标上具有一定的优越性，保留更多的图像细节信息与互补信息，同时，经过主观效果比较，融合图像边缘信息保留更清晰，对比度更高。综合上述，本发明所得融合图像具有更高的图像质量。

附图说明

附图1是本发明一种基于多尺度分析与VGG-19的红外与可见光图像融合示意框图。

附图2是本发明中拉普拉斯金字塔第1层子带图像融合方法示意图。

附图3为场景1源红外与可见光图像。

附图4为场景1各方法融合结果示意图。

附图5为场景2源红外与可见光图像。

附图6为场景2各方法融合结果示意图。

具体实施方式

为使本领域的技术人员能更进一步了解本发明，下面将结合附图及实施例详细地说明本发明的具体实施方式及功效。其中，所描述的实施例是本发明的一部分实施例，而不是全部实施例，因此，以下对附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而仅仅表示本发明选定的实施例，详细说明如下。

参见图1，本发明一种基于多尺度分析与VGG-19的红外与可见光图像融合方法，包含如下步骤：

步骤1：利用拉普拉斯金字塔分解源图像A和源图像B，获取得到所述源图像A和源图像B的分解层数为N(实施例中，N＝4)的拉普拉斯金字塔结构，第1～(N-1)层为高频部分，第N层为低频部分；

步骤3：将所述源图像A所得到的拉普拉斯金字塔结构第1层S_1-1与源图像B所得到的拉普拉斯金字塔结构第1层S_2-1，采用神经网络(VGG-19)的图像融合方法进行融合，得到融合后的第1层S_f-1，该融合过程示意图见附图2；

步骤4：将所述源图像A分解所得到的拉普拉斯金字塔结构2～(N-1)层S_1-n(其中，n∈(2,N-1))和源图像B所得到的拉普拉斯金字塔结构2～(N-1)层S_2-n，采用“最大选择”策略进行融合，得到融合后的第2～(N-1)层S_f-n；

步骤2.4：通过对最终的活动层级

进行“最大选择”策略来确定融合后的卷积稀疏系数图C_f，m；

步骤2.5：最终经过字典滤波器d_m与融合后的卷积稀疏系数图C_f，m经过卷积操作得到融合后的金字塔第N层S_f-N。

进一步地讲，在所述步骤2.1中，卷积稀疏系数图C_1，m与C_2,m具体计算方法如下：

其中：d_m指学习字典，学习字典采用K-SVD算法得到，C_k,m指卷积稀疏系数图，为M维的列向量，S_k-N指源图像A和源图像B的拉普拉斯金字塔结构第N层；

A(x,y)＝||C_k,1:M(x，y)||₁

进一步地讲，在所述步骤2.3中，最终活动层级

的计算过程如下：

其中：r指窗口尺寸，r越大，该方法对于未配准的图片鲁棒性越好，但细节信息保留越少，实施例中r＝3；

其中：C_k，1:M(x，y)指稀疏系数图，

指图像最终活动层级；

步骤3.1：所述S_1-1与S_2-1的特征图

与

由VGG-19网络中卷积层的输出得到；

步骤3.2：对所述特征图

与

做l₁-norm操作，得到初始活动层级

与

步骤3.3：对所述初始活动层级

与

采用基于“块平均”的操作，得到最终活动层级

与

步骤3.4：对所述最终活动层级

与

采用“最大选择”的策略，得到初始权重图

与

步骤3.5：对所述初始权重图

与

与

步骤3.6：最终权重图

与

进一步地讲，在所述步骤3.1中，S_1-1与S_2-1的特征图

与

具体计算方法如下：

其中：Φ_i(·)指在VGG-19网络中的某层，本实施例采用的网络第一层卷积输出；S_k-1为源图像拉普拉斯金字塔结构子带第1层；

指子带特征图，i指VGG-19网络的层数，i∈{1，2，3,4}，本实施例中，i＝1，m为第i层网络的通道数，m∈{1,2,…,M}，M＝64×2^i-1；

进一步地讲，在所述步骤3.2中，特征图

与

经l₁-norm操作得到初始活动层级

与

具体计算方法如下：

其中：

指

在特征图中(x，y)位置的值；

进一步地讲，在所述步骤3.3中，最终活动层级

与

具体计算方法如下：

其中：r代表“块平均”窗口的尺寸，实施例中r＝1，当r越大鲁棒性越好，同时会丢失更多的细节；

与

具体计算方法如下：

其中：由于涉及两张源图像，K＝2；

与

具体计算方法如下：

其中：存在四组权重图

S_f-n(x，y)＝max[S_i-n(x，y)|i∈{1，2}]

其中：(x，y)表示在S_f-n、S_1-n和S_2-n中图像灰度的对应位置，此处选择最大值作为融合图像灰度。

第1实施例与第2实施例的实验数据如下：

附图3为场景1的源红外图像与源可见光图像，附图4为场景1的源图像经各个方法处理得到的融合图像。附图5为场景2的源红外图像与源可见光图像，附图6为场景2的源图像经各个方法处理得到的融合图像。

表1和表2分别为第1实施例和第2实施例所得各方法的客观指标评价，该指标包含图像的评价指标：信息熵(EN)、互信息(MI)、视觉保真度(VIF)、标准差(SD)和算法的运行时间，融合图像评价指标值越大越好，运行时间越短越好。对比算法分别为：CVT、LP、GFF、ASR、CSR、VggML、ResNet-ZCA。

客观指标评价：从表1、表2中可以看出本发明融合所得图像在图像客观评价指标上优于其他算法，同时运行效率在所有算法中较高，相对于其他基于神经网络的方法有大大提升。

表1第1实施例融合图像的客观指标评价

表2第2实施例融合图像的客观指标评价

上述进行了客观评价，另需对融合图像进行主观视觉效果的评价。附图4、图5为第1实施例、第2实施例所得各算法融合图像，附图4、图5中小白框内容被放大两倍置于融合图片的左下角便于观察对比。

主观视觉效果分析：红外与可见光图像经各个算法融合之后，对于第1实施例，被框选地建筑的顶端亮度保存比较好，同时建筑边缘比较清晰。算法(b)LP和算法(e)CSR处理的结果就比较模糊。对于整幅图而言，山中人物被完好的保留，亮度较高。对于第2实施例，各个图片都较好的保留了“塔”的形态，同时塔的顶端亮度也保留的较好。但是在水和山的分界处，其他算法和本发明所得融合图像对比起来更加模糊，丢失了边缘的细节信息。对于本发明，在山和水的分界处边缘细节处理的更加清晰，保留了更多的细节信息，具有更高的对比度。本发明的实施例所得融合图片效果是所有对比方法中最好的。

本发明的红外与可见光图像融合方法在客观评价与主观评价上均有突出表现，采用本发明的技术方案得到的融合图像边缘更清晰，可以很好地保留红外图像的结构信息，又可以有效地获取可见光图像地细节信息。

以上所述仅为本发明的优选实施例，但本发明不限于此实施例。所属领域的技术人员应当明白，在不脱离由权利要求书限定的本发明的原理与精神实质的情况下对其形式和细节做出的各种变化，皆应属本发明的范围内。