CN110097528B

CN110097528B - 一种基于联合卷积自编码网络的图像融合方法

Info

Publication number: CN110097528B
Application number: CN201910288058.3A
Authority: CN
Inventors: 罗晓清; 张战成; 熊梦渔; 张宝成
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2023-04-18
Anticipated expiration: 2039-04-11
Also published as: CN110097528A

Abstract

一种基于联合卷积自编码网络的图像融合方法，属于图像融合领域。主要解决图像融合时数据集和标签不足，图像经过联合卷积自编码网络得到端到端的融合结果等问题。本发明首先，在训练过程中用联合卷积自编码网络模型同时训练待融合图像集，设计适用于图像融合的多任务损失函数进行训练。测试过程中，两幅待融合图像输入到网络模型中，经过网络编码层得到公共特征和私有特征，根据其特征的冗余和互补的特性设计融合规则，实现特征层的融合，融合后的特征映射经解码重构后得到融合图像。本发明能充分利用自编码神经网络的特点整合待融合图像的互补与冗余信息制定融合策略，有效保护图像细节，相比传统的融合方法极大地提高了融合图像的质量。

Description

一种基于联合卷积自编码网络的图像融合方法

技术领域

本发明属于图像融合领域，涉及一种基于联合卷积自编码网络的图像融合方法，在场景监视、战场侦察等领域有广泛地应用。

背景技术

图像融合是一种图像增强技术，也是信息融合领域的一个研究分支和研究重点。通过融合由不同传感器获取的图像生成融合后的图像，融合图像具有鲁棒性强，包含源图像丰富信息等特点，利于后续的图像处理，因此图像融合领域涉及的研究范围比较广泛，融合过程复杂且具有多样性，因此目前很难有成熟的能够通用的图像融合算法适用于图像融合领域，通常，我们研究的对象包括：多聚焦图像融合，红外与可见光图像融合，以及医学图像融合等。以红外与可见光图像为例，由于红外传感器与可见光传感器成像原理的不同，对于红外成像传感器来说，其对热目标的探测性能好而对场景的成像清晰度低。反之，可见光图像的场景成像清晰度高，但是目标的探测性能低。红外图像与可见光图像融合的目的是得到同时具有红外目标与清晰背景的图像。过去几十年以来，学者提出了许多图像融合的方法，多传感器图像融合在计算机视觉、遥感等多个应用领域有广泛的研究前景和发展空间。目前来看，图像融合技术的研究已具备一定规模，国内外在图像融合领域研发出了多种融合方法，但这并不代表图像融合技术已趋于完善，近年来，随着卷积神经网络(Covolution Neural network,CNN)在计算机视觉领域的发展，利用深度学习技术学习图像特征并处理图像引起了世界范围内的广泛兴趣和研究热潮。

一般来说，图像融合方法分为基于空间域的融合方法和基于转换域的融合方法。基于空间域的图像融合方法一般将原图像分块，每对待融合的图像块经过设计的活动度度量进行融合。由于分块的大小是人为设定的，因此分块的大小对于融合结果的质量影响很大。该方法适用于不同原图像有相同的模态的图像，如多聚焦图像融合。与多聚焦图像融合不同的是，红外与可见光图像是同一场景下红外传感器和可见光传感器成像原理不同形成的图像，大多数的红外与可见光图像在相同场景的同一位置差别很大，其独特的互补与冗余特征导致我们一般不将基于空间域的融合方法用于红外与可见光图像融合。基于转换域的融合方法一般是进行多尺度分解，得到不同频带的系数。根据系数的特点制定不同的融合规则。再经过逆变换最终得到融合后的图像。在整个融合过程中，多尺度分解工具的选择和融合规则的设计是影响融合质量的两个重要因素，其中，分解工具有拉普拉斯转换、金字塔分解、小波变换、剪切波变换、轮廓波变换等方法，常用的融合规则是取大策略和加权平均策略。取大策略选取活动度度量较大的系数作为融合的系数。加权平均融合规则的融合系数根据系数的活跃度度量的权重得到。

近年来，卷积神经网络(Convolutional Neural Network，CNN)在许多计算机视觉任务中取得了目前最好的效果，如图像超分辨率、目标跟踪、语义分割、识别等。图像融合领域也随之提出了一些基于深度学习的图像融合方法。CNN能够从大量的训练数据中学习到最有效的特征。此外，可以通过学习卷积神经网络联合实施活动度度量和融合规则。

刘羽等人提出了基于卷积神经网络的融合方法用来解决多聚焦图像融合的问题，该方法将多聚焦图像融合问题看作二分类问题，将输入的原图像分块，采用了有监督的学习方法，根据分块的图像的模糊程度给定聚焦信息标签进行网络的训练，从而得到决定聚焦信息的映射，再根据得到的聚焦映射在空间域上处理原图像得到最终的融合好的图像。这一方法用于多聚焦图像融合取得了目前最好的融合效果。但是，对红外与可见光图像融合问题来说，红外可见光图像融合不能像多聚焦图像那些获得标签信息并构造标签信息，在红外可见光图像融合里，这样的一种聚焦或不聚焦标签是很难给出的，所以该方法并不适合直接用于红外可见光图像融合。面对无类别标签的数据，利用卷积自编码网络进行图像的特征提取是一种有效的方法。卷积自编码是深度学习领域的一个重要研究方向，利用传统自编码器的无监督学习方式，结合卷积神经网络的卷积和池化，上采样操作，经过编码层实现图像的特征提取，再经过解码层，实现图像的重构，整体是一个深层的神经网络，采用无监督学习的一个重要的目的是可以在不需要标记的情况下学习样本的特征。

Prabhakar等人提出了一个基于卷积神经网络的方法用于处理多曝光图像融合问题。该方法采用自编码网络训练样本从而解决了训练样本标签的问题，利用数据驱动的学习方法来融合多曝光的图片对。其网络结构为：编码层有两层卷积层，解码层有三层卷积层，编码层是Siamese网络结构并且权重共享，两个输入同时编码，编码层最后一层输出的特征经过加的融合策略之后经过解码层得到融合好的图像，此方法在处理多曝光图像融合问题中获得较好的融合效果。但是，为了得到更好的多曝光图像融合结果，保留更多场景的细节信息，该方法在特征处理时考虑的融合策略更适合多曝光图像，对于其他类型的图像融合特别是我们关注的多聚焦图像融合与红外和可见光图像融合等图像融合问题，该网络结构并没有考虑两幅图像之间先验的冗余和互补关系，这一关系是设计图像融合的一个重要度量。如何将这种先验知识体现在基于深度学习的图像特征提取中，是一个值得研究的问题。

经过对图像融合问题的理解和分析，我们认为，对图像融合问题来说，区分出待融合的两幅图像的冗余和互补关系十分必要，体现在网络结构上即区分出公共特征分支和私有特征分支进行联合学习。因此，我们提出了一种用于图像融合的联合卷积自编码网络。本发明在联合卷积自编码网络的训练基础上，根据特征映射的互补和冗余特性对自编码隐含层特征融合处理得到更多有用的信息从而直接输出融合结果。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于联合卷积自编码网络的图像融合方法，以解决已有的基于神经网络的多传感器图像融合方法所得融合图像训练数据不足或训练标签信息无法获取的问题，并充分结合提出的联合卷积自编码网络重构图像的能力，将图像融合评价指标引入训练网络的损失函数，不仅能够重构输入原图像，而且能够有效保护图像细节，增强图像对比度和边缘轮廓，改善其视觉效果，提高融合图像的质量。

本发明解决其技术问题所采用的技术方案如下：

一种基于联合卷积自编码网络的图像融合方法，首先，训练过程中，用联合卷积自编码网络模型同时训练待融合图像集，设计适用于图像融合的多任务损失函数进行训练。测试过程中，两幅待融合图像输入到网络模型中，经过网络编码层得到公共特征和私有特征，根据其特征的冗余和互补的特性设计融合规则，实现特征层的融合，融合后的特征映射经解码重构后得到融合图像，具体步骤如下：

步骤一、训练联合卷积自编码网络

待融合图像作为训练数据集，并输入网络进行训练，达到输入图像经过联合卷积自编码网络重构源图像的目的；在训练过程中利用多任务损失函数的方法，将融合评价指标MSE、SSIM、熵和梯度引入联合卷积自编码的损失函数；

步骤二、测试联合卷积自编码网络

测试过程中，两幅待融合图像输入联合卷积自编码网络中，分别得到两输入的隐含层的公共特征和私有特征；

步骤三、观察输入图像经过联合卷积自编码网络的隐含层得到的特征，嵌入待融合图像先验的冗余和互补关系，采用不同的融合规则分别确定融合图像的特征层融合方法；所述的融合规则包括：

3.1)对表征图像细节信息的私有特征，采用特征取大的融合规则进行融合；

3.2)对公共特征，根据特征映射的形态不同设定阈值区分特征形态，采取以下两种融合规则进行融合：

(a)对表征图像互补信息的公共特征，采用特征取大的融合规则进行融合；

(b)对表征图像冗余信息的公共特征，采用加权融合规则进行融合；

步骤四、对步骤三所得融合后的公共特征和私有特征，分别输入联合卷积自编码网络的解码层；

步骤五、对解码后的公共特征和私有特征进行融合，得到最终的融合图像。

进一步的，所述步骤一中，多任务损失函数的表达式为：

loss＝L_mse+λ₁·L_ssim+λ₂L_entro_py+λ₃L_gradient(1)；其中：

L_ssim＝1-SSIM(O,I) (3)

L_entropy＝|EN_O-EN_I| (5)

式中：L_mse表示指标MSE；L_ssim表示指标SSIM；L_entropy表示熵；L_gradient表示梯度；λ₁表示SSIM的loss权重参数100；λ₂表示熵的loss权重参数10；λ₃表示梯度的loss权重参数100；H表示源图像的长；W表示源图像的宽；x表示图像像素点的横坐标值；y表示图像像素点的纵坐标值；I(x,y)表示融合图像在(x,y)位置的像素值；O(x,y)表示源图像在(x,y)位置的像素值；SSIM(O,I)表示源图像与融合图像的结构相似性；EN表示源图像与融合结果的熵差；g表示灰度值为g的像素；p(g)表示灰度值为g的像素个数所占图像所有像素的比值；ENO表示融合图像的熵；ENI表示源图像的熵；ΔI_x表示水平方向上的差分、ΔI_y表示垂直方向上的差分。

进一步的，所述步骤一中，联合卷积自编码网络的训练结构为：自编码网络分为编码层和解码层。编码层有一个公共分支和两个私有分支分支，公共分支权重共享，私有分支权重不共享。公共分支和私有分支结构相同，都由两层卷积层、一层池化层和一层卷积层组成。解码层由对应的卷积层、上采样层和卷积层组成。解码层中，权重共享以合并先前学习的私有特征和公共特性，达到重构输入图像的目的。激活函数采用“Relu”。

表1联合卷积自编码网络的训练结构

进一步的，所述步骤二中，所得两输入的隐含层的公共特征为和私有特征为其中i表示联合卷积自编码网络隐含层的维度数目，A、B分别代表待融合的两幅图像；

进一步的，所述步骤3.1)中，所述特征取大的融合规则具体如下：

逐元素比较经过隐含层输出的私有特征映射值的大小，确定特征映射位置(p,q)处的值为融合后特征映射对应位置(p,q)处的值；

其中，和为输入的源图像经过编码层得到的隐含层某一维度的特征映射，F_S为融合后的特征映射。(p,q)为特征映射对应的位置；m表示所有特征映射中的某一张特征映射；

进一步的，所述步骤a)具体如下：

首先根据源图像的像素的比例，设定了一个阈值T，T＝length*width*3/5，其中length为映射的长，width为映射的宽。用表示层相关的特征活动度度量，记为当一张特征映射的值低于阈值T时，则该特征映射是不活跃的，将此特征映射看作互补特征，采用特征取大融合规则；其中，F表示特征映射；#{}统计每张特征映射像素点不为0的个数；

进一步的，其特征在于，所述步骤b)具体如下：

当一张特征映射的值大于阈值T时，则该特征映射是活跃的，将此特征映射看作冗余特征，用加权融合规则；加权融合规则如下：

对编码层最后一层输出的特征映射记为作为位置相关的活动度度量，权重为w₁＝C_A(p,q)/C_A(p,q)+C_B(p,q)和w₂＝C_B(p,q)/C_A(p,q)+C_B(p,q)。其中k代表图像A的特征或图像B的特征。M代表特征映射的总数。

由此可以得出不同特征形态下公共特征的融合方法如下：

从而得到融合后的公共特征映射。

本发明的有益效果：

1.本发明采用联合卷积自编码网络，嵌入待融合图像先验的冗余和互补关系，得到多源图像的联合特征表达。基于联合卷积自编码网络的图像融合方法，相比有监督的学习方法(如CNN)将图像融合问题看作分类问题，依据图像的模糊程度给定标签从而得到映射，联合卷积自编码网络面对无类别标签的数据，利用自编码网络无监督学习提取特征的能力，能充分学习待融合图像的轮廓、纹理等细节特征，得到多源图像的联合特征表达，因而更适于处理图像的奇异性，得到信息量更丰富、清晰度更高、质量更好的融合图像。

2.基于联合卷积自编码网络的图像融合方法，相比DeepFuse方法为了保留更多场景的细节信息，在特征处理时考虑的融合策略更适合多曝光图像，联合卷积自编码网络更好的考虑两幅图像之间先验的冗余和互补关系并将这种先验知识体现在图像特征提取中，联合卷积自编码网络能够同时学习两幅输入图像的公共特征和私有特征，适用范围广泛。此外，根据待融合图像特征的冗余和互补关系，提出基于联合自编码网络的特征层融合方法，更好的用于图像融合。

3.本发明的图像融合方法采用联合卷积自编码网络的方法能够直接通过训练好的网络得到融合好的图像，相比CNN方法采用先通过网络得到选择区域再从原图上获取，具有结构灵活、效率高的优点，因此，更能满足场景监视应用实时性的需求。

4.本发明的图像融合方法利用待融合图像先验的冗余和互补关系，观察经过网络得到的特征形态，对私有特征采用特征取大的融合规则，能有效避免细节丢失，最大程度保护图像中的边缘轮廓和纹理信息，增加图像的可信度。对公共特征根据形态差异，利用特征映射的大小设定阈值区分特征形态，对于特征值数量低于阈值的特征映射，采用特征取大的融合规则，对于特征值数量高于阈值的特征映射，采用加权融合的方式得到融合后的特征映射。从而可以最大程度保留特征，不仅保护细节特征，而且能够最大可能保护图像的概貌，纹理等特征，增加融合图像的可信度和清晰度。

附图说明

图1是本发明基于联合卷积自编码网络的图像融合方法的流程图。

图2是本发明输入图像经过联合卷积自编码网络编码层输出的特征图。其中，(a)表示红外图像；(b)表示可见光图像；(c)表示私有特征1；(d)表示私有特征2；(e)表示融合私有特征；(f)表示公共特征1；(g)表示公共特征2；(h)表示融合公共特征。

图3是待融合红外图像、待融合可见光图像和各个方法得到的融合图像。其中，(a)为实施例的待融合红外图像；(b)为实施例的待融合可见光图像；(c)为基于LP的融合图像；(d)为基于PCNN的融合图像；(e)为基于StrDWT的融合图像；(f)为基于GP的融合图像；(g)为基于GTF的融合图像；(h)为基于CSR的融合图像；(i)为基于CNN的融合图像；(j)为基于DeepFuse的融合图像；(k)为本发明方法的融合图像。

具体实施方式

下面对本发明的一个实施例(“街道”红外与可见光图像)结合附图作详细说明，本实施例在以本发明技术方案为前提下进行，如图1所示，详细的实施方式和具体的操作步骤如下：

步骤1，训练过程中，待融合图像经过编码层的私有特征分支和公共特征分支，分别得到私有特征和公共特征。为了提高联合卷积自编码网络面向图像融合的能力，我们将图像融合评价指标MSE，SSIM，熵和梯度引入了损失函数，设计了多任务损失函数进行网络的训练，提升了卷积联合自编码网络的特征提取能力。

步骤2，测试过程中，一对待融合的红外与可见光图像输入到联合卷积自编码网络中，分别得到两输入的隐含层的公共特征和私有特征其中i表示联合卷积自编码网络隐含层的维度数目，A、B分别代表红外图像和可见光图像。

步骤3，如图2所示，根据自编码隐含层的特征形态分别进行私有特征融合和公共特征融合：

1)对表征图像互补信息的公共特征，采用特征取大的融合规则进行融合：

a)逐元素比较经过隐含层输出的特征映射值的大小，确定值大的位置(p,q)的值为融合后特征映射对应位置(p,q)处的值；

其中，和为输入的源图像经过编码层得到的某一层的特征映射，F_S为融合后的特征映射。(i,j)为特征映射及其对应的融合后的特征映射的对应的位置；

2)对表征图像冗余信息的公共特征，采用加权融合规则进行融合；

首先根据图像的像素的比例，设定了一个阈值T，T＝length*width*3/5，用表示层相关的特征活动度度量，记为若一张特征映射的值低于阈值T时，认为该特征映射是不活跃的，我们将此特征映射看作互补特征，采用特征取大融合规则，

其次，若一张特征映射的值大于阈值T时，认为该特征映射是活跃的，我们将此特征映射看作冗余特征，用加权融合规则。加权融合策略规则如下：

由此可以得出不同特征形态下公共特征的融合方法如下：

从而得到融合后的公共特征映射。

步骤4，待融合红外与可见光图像经过联合卷积自编码神经网络编码过程分别得到隐含层的公共特征和私有特征，经过隐含层的特征融合过程得到融合后的公共映射和私有映射，分别经过联合卷积自编码网络的解码层，最后融合直接输出融合好的图像。

现在给出一个本发明的详细实施例。

1、联合卷积自编码网络模型

1.1卷积自编码网络

如图1所示输入数据为一维单通道图像，因为一般的红外与可见光图像都是灰度但多聚焦图像一般为彩色三通道图像，为适配大多数3通道RGB图像，对联合卷积自编码网络的输入层作级联操作以适配，如输入数据为单通道图像，则级联后数据为RGB图像。联合卷积自编码网络模型结构如表1所示：

表1训练过程的网络结构

如表1所示，输入的一对待融合的红外与可见光图像直接输入到网络中并通过级联层操作将输入数据转化为3通道图像。编码层中，每对待融合的图像同时经过联合卷积自编码网络的公共特征分支和私有特征分支，得到公共特征和私有特征，其中公共特征分支共享权重而私有特征分支不共享权重。经过两层卷积层和一层池化层，然后一层卷积层操作。卷积核大小为3*3，滑动窗口步长为1。池化操作窗口大小为2*2，滑动窗口步长为2。

解码层中，经过编码层得到的特征经过解码层的一层卷积层和一层上采样层，然后经过两层卷积层操作。卷积核大小为3*3，滑动窗口步长为1。上采样操作窗口大小为2*2。

输入层中，经过解码层得到的公共特征和私有特征融合，经过一层卷积层得到输出的重构图像。卷积核大小为3*3，滑动窗口步长为1。

1.2模型训练

训练过程中，为了提高联合卷积自编码网络面向图像融合的能力，我们将图像融合评价指标MSE，SSIM，熵，梯度引入了损失函数，设计了多任务损失函数进行网络的训练。选取10对待融合图像作为网络训练的数据集进行训练。

1.3模型测试和仿真实验

网络训练得到的权重参数模型保存以验证本发明的可行性和有效性，以红外与可见光图像为例，采用两幅待融合的红外与可见光图像，大小为632×496，如图3中(a)和(b)所示，根据本发明方法进行融合实验。测试过程中，联合卷积自编码网络的隐含层输出的公共特征和私有特征分别经过特征融合层融合，融合后的公共特征和私有特征分别经过解码层，直接得到融合后的图像。

综上所述，通过图3的融合结果比较可以看出：本发明方法所得融合图像最大程度地忠于原始信息，不仅保留了原图像重要的边缘轮廓、纹理等特征和细节信息，而且对比度较好，视觉效果更自然，有效避免了细节丢失，因而图像的对比度和清晰度更高，细节更突出，主观视觉效果最好，即融合结果更理想。

本实施例采用的数据集为(见参考文献Infrared and visible image fusionbased on visual saliency map and weighted least square optimization)，网络采用基于TensorFlow的Keras框架实现。

表2给出了采用各种融合方法所得融合结果的客观评价指标。其中，数据加粗表明对应的红外与可见光图像融合方法所得评价指标取值最优。表2最后一列为所提方法的融合效果排名。

表2基于各种融合方法的融合性能比较

表2中通过标准差(MSE)、熵(Entropy)、清晰度(Clarity)、边缘强度(EdgyIntensity)、梯度(Gradient)、互信息、非线性相关信息(NCIE)，结构相似性度量(SSIM)、结构相似性度量与边缘信息评价因子(Qabf)和Borda count来衡量融合图像的质量，进而验证本发明融合方法的可行性和有效性。上表中融合方法一为基于LP的融合方法，融合方法二为基于PCNN的融合方法，融合方法三为基于StrDwt融合方法，融合方法四为基于GP的融合方法，融合方法五为基于GTF的融合方法，融合方法六为基于CSR的融合方法，融合方法七为基于CNN的融合方法，融合方法八为基于DeepFuse的融合方法，融合方法九为本文所提的方法。其中，LP方法的最大分解尺度为2，Deepfuse方法中核大小为3*3。

从表2的图像融合客观评价指标来看，本文提出的融合方法在熵，梯度，边缘强度，清晰度，非线性相关信息，结构相似性度量(SSIM-wang)，结构相似性度量(SSIM-Yang)，结构相似性度量(SSIM-Cvejic)，及结构相似性度量与边缘信息评价因子等多个指标上均取得了最佳效果。在互信息(mutual information)指标上取得了仅次于基于CNN的融合效果，基于CNN融合方法在互信息这个指标上表现最好，但是融合结果的对比度不好，因为CNN只取了红外图像中的对应于可见光部分较亮的部分，没有考虑到红外与可见光图像的融合过程，不适合直接用于红外与可见光图像融合。在均方差指标上取得了仅次于基于GTF方法的融合效果，但是GTF主观效果是失败的，因为GTF保留了原图像的大部分信息，与原图像的差异小，而均方差指标主要计算融合图像与原图像之间的误差并度量了原图像和融合图像之间的不相似性，因而导致基于GTF方法得到的融合结果均方差指标表现好，但是整体视觉效果来看，基于GTF方法的融合结果对比度不好，亮度较高。综合以上分析，本文所提出的方法得到的融合图像不仅保留了原图像重要的细节信息，结构相似度信息，而且对比度较好，视觉效果更自然，加之网络设计过程中在训练时将图像融合质量评价指标融入损失函数，使得本文所提方法从主观表现和客观指标来看都最好。

Claims

1.一种基于联合卷积自编码网络的图像融合方法，其特征在于，步骤如下：

步骤一、训练联合卷积自编码网络

所述的联合卷积自编码网络的训练结构为：

自编码网络分为编码层和解码层；编码层有一个公共分支和两个私有分支，公共分支权重共享，私有分支权重不共享；公共分支和私有分支结构相同，都由两层卷积层、一层池化层和一层卷积层组成；解码层由对应的卷积层、上采样层和卷积层组成；解码层中，权重共享以合并先前学习的私有特征和公共特性，达到重构输入图像的目的；激活函数采用“Relu”；

所述的多任务损失函数的表达式为：

loss＝L_mse+λ₁·L_ssim+λ₂L_entropy+λ₃L_gradient (1)；其中：

L_ssim＝1-SSIM(O,I) (3)

L_entropy＝|EN_O-EN_I| (5)

式中：L_mse表示指标MSE；L_ssim表示指标SSIM；L_entropy表示熵；L_gradient表示梯度；λ₁表示SSIM的loss权重参数100；λ₂表示熵的loss权重参数10；λ₃表示梯度的loss权重参数100；H表示源图像的长；W表示源图像的宽；x表示图像像素点的横坐标值；y表示图像像素点的纵坐标值；I(x,y)表示融合图像在(x,y)位置的像素值；O(x,y)表示源图像在(x,y)位置的像素值；SSIM(O,I)表示源图像与融合图像的结构相似性；EN表示源图像与融合结果的熵差；g表示灰度值为g的像素；p(g)表示灰度值为g的像素个数所占图像所有像素的比值；EN_O表示融合图像的熵；EN_I表示源图像的熵；ΔI_x表示水平方向上的差分、ΔI_y表示垂直方向上的差分；

步骤二、测试联合卷积自编码网络

2.根据权利要求1所述的一种基于联合卷积自编码网络的图像融合方法，其特征在于，所述步骤二中，所得两输入的隐含层的公共特征为