CN110533623B

CN110533623B - 一种基于监督学习的全卷积神经网络多聚焦图像融合方法

Info

Publication number: CN110533623B
Application number: CN201910842218.4A
Authority: CN
Inventors: 张黎明; 李恒; 陈金萍
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2022-09-30
Anticipated expiration: 2039-09-06
Also published as: CN110533623A

Abstract

本发明公开一种基于监督学习的全卷积神经网络多聚焦图像融合方法：该方法旨在运用神经网络学习源图像不同聚焦区域的互补关系，即选择源图像中不同的聚焦位置合成一张全局清晰图像。该方法构造聚焦图像作为训练数据，网络采用稠密连接和1×1卷积以提高网络的理解能力和效率。结果显示，该发明在主观视觉评估和客观评价两方面均优于其他对比方法，图像的融合质量得到进一步提升。

Description

一种基于监督学习的全卷积神经网络多聚焦图像融合方法

技术领域

本发明属于多聚焦图像融合领域，涉及一种基于监督学习的全卷积神经网络多聚焦图像融合方法。

背景技术

由于光学原件景深限制，很难捕获到图像中所有的清晰目标，只有距离相机特定位置的目标才能被聚焦，在聚焦平面之前或之后的目标将失去聚焦变得模糊。为解决这一问题提出了多聚焦图像融合方法，其目的是将不同景深图像融合成一张全聚焦图像。目前，多聚焦图像融合技术在目标识别、机器视觉、数字摄影和显微成像等领域均应用广泛。

近年来有多种多聚焦图像融合方法被提出，根据其融合策略不同，这些融合方法可以分成两类：基于变换域的融合方法和基于空间域的融合方法。基于变换域的方法有拉普拉斯金字塔、离散小波分解、非上采样剪切波变换(NSCT)等，此类方法都是将源图像分解成多尺度域，之后融合分解后的多尺度域，最后使用融合后的多尺度域重建图像。基于空间域的融合方法主要使用像素级的梯度信息或图像块来融合图像，然而这一过程会引入伪影块，近年来基于导向滤波(GF)、基于图像提取(IM)、基于密集尺度不变变换(DSIFT)和基于同质相似等像素级融合方法在提取和表现图像细节方面均有较好表现。但这些方法的活动测度和融合规则人工设计困难，并且有很多因素不能完全考虑在内。

由于深度学习有很强的特征提取和数据表示能力，其在图像处理和计算机视觉任务中表现优异。基于深度学习的多聚焦图像融合领域由于缺少标记数据，大多使用的神经网络模型都是基于非监督学习或将神经网络作为图像融合方法的一部分。Mustafa等提出基于非监督学习的多尺度卷积神经网络多聚焦图像融合方法，该方法使用3种不同尺度的卷积核来提取源图像的低频和高频信息，取得较好的融合效果，但该方法并未充分利用网络中间层信息。Liu等提出了一种基于卷积神经网络的图像融合方法，将神经网络融合多聚焦图像的方法视为分类问题，使用分块后图像及其模糊处理来训练网络，使网络具有分类能力，网络输出为分类得分表，得分表经过平均重叠块、二值化和两个一致性检验策略得到决定映射，最后将决定映射作为源图权重来重建图像，但这并未做到端到端的映射。

综上所述，本发明提出一种基于监督学习的全卷积神经网络多聚焦图像融合方法。该方法将多聚焦图像融合视为像素点预测问题，通过监督学习来训练全卷积网络，使网络学习到源图像中不同聚焦区域的互补关系，从而合成一张全局清晰的图像。

发明内容

有鉴于此，本发明提供了一种基于监督学习的全卷积神经网络多聚焦图像融合方法，有效提高多聚焦融合图像的融合细节，大大降低融合图像中的伪影和噪声，使得融合图像看起来更加清晰自然。

为了实现上述目的，本发明采用如下技术方案：

一种基于监督学习的全卷积神经网络多聚焦图像融合方法，包括：网络机构搭建、数据集训练、网络训练三部分：

网络结构搭建步骤如下：

S1：构建神经网络；

S2：优化网络；

数据集训练步骤如下：

S3：基于公共数据集VOC2007构造了带有标签的多聚焦图像数据集；

S4：对标签图像做不同区域的高斯模糊处理；

网络训练步骤如下：

S5：构建损失函数和优化函数；

S6：训练经高斯模糊处理后的数据集，得出结果；

S7：结束。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的示意图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的框架图；

图2为本发明网络结构图；

图3为本发明提供构造数据图；

图4为本发明训练第1、25、50、75、100轮的实验结果；

图5为本发明训练100轮神经网络损失函数L的变化曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，本发明实施例公开了一种基于监督学习的全卷积神经网络多聚焦图像融合方法，包括：网络机构搭建、数据集训练、网络训练三部分：

1、网络机构搭建

Step1：构建神经网络。神经网络采用3×3和1×1两种卷积核，步长均为1，未使用全连接层，因此神经网络输入端图像可以为任意大小。

Step2：优化网络。为尽量保留源图像的信息，整个网络均未使用池化层，除最后一层外，其它每个卷积层之后均使用ReLU作为激活函数，最后一层使用Tanh函数激活。该网络由三部分组成：特征提取、特征融合、图像重建。特征提取部分由两个网络分支组成，每个网络分支包含3个卷积层，每个卷积层提取源图像的不同特征。特征融合部分将特征提取部分中的两个网络分支的输出在通道方向上进行连接得到融合特征，之后融合特征作为图像重建部分网络的输入。图像重建部分包括8个卷积层，使用稠密连接分别将特征提取部分的第1、3层在通道方向上连接到图像重建部分的第3、5输出层上，这样可以充分利用不同特征层的信息，从而得到更好的融合效果。

2、数据集训练

Step3：基于公共数据集VOC2007构造了带有标签的多聚焦图像数据集。训练基于监督学习的神经网络需要大量带标签的数据，然而多聚焦图像数据集中带标签数据集缺乏，标记一个巨大的多聚焦图像数据集成本高且难度大。本发明基于公共数据集VOC2007构造了一个带有标签的多聚焦图像数据集，VOC2007中有5011张训练图像，选取其中2000张，尺寸裁剪为256×256作为标签图像。

Step4：对标签图像做不同区域的高斯模糊处理。本发明对每张标签图像做不同区域的高斯模糊处理，高斯模糊半径取3。图3所示为两组不同的模糊方式，分别为平行模糊和交叉模糊，P、

为互补的平行模糊组，C、

为互补的交叉模糊组，分别在两组上进行模糊密度为2、4、8和16的模糊处理。试验结果如表1所示，平行模糊和交叉模糊均在模糊密度为8的时候达到最优结果，此时交叉模糊在PSNR、CC、UQI三种指标均优于平行模糊，总体取得较优结果，故本发明选取交叉模糊，模糊密度为8来构造训练数据集。

3、网络训练

Step5：构建损失函数和优化函数。为使重建图像更加准确，本发明最小化(1)式中的损失函数L来训练网络，该损失函数联合了网络输出与标签图像的结构相似性(SSIM)和其像素点的均方误差，λ为L_SSIM和L_MSE的的权重，本发明λ取10，L_SSIM由(2)式得到，其中O为神经网络的输出，T为标签图像。L_MSE由(3)式得到，其中O_i(x,y)为神经网络输出的第i位置的像素值，T_i(x,y)为标签图像第i位置的像素值，N为像素点的总数。

L＝L_SSIM+λL_MSE (1)

L_SSIM＝1-SSIM(O,T) (2)

Step6：训练经高斯模糊处理后的数据集，得出结果。在网络的训练过程中，本发明使用Adam作为优化函数，学习率为0.0005，批处理大小为2，训练100轮。图4为使用交叉模糊，模糊密度为8，分别在第1、25、50、75、100轮的训练实验结果，T为标签图像，O为神经网络的输出结果。图5为训练100轮损失函数L的变化曲线图，横坐标为神经网络训练的轮次，纵坐标为损失函数L的值。从图4中可以看出训练第1轮神经网络输出O较模糊，说明神经网络权重还未收敛，损失函数值较大，而第25轮神经网络输出O与其标记图像基本一致，肉眼很难区分，说明神经网络权重基本收敛，损失函数值较小，这和图5所示结果相吻合。

对所公开的实例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于监督学习的全卷积神经网络多聚焦图像融合方法，包括：网络结构搭建、数据集训练、网络训练三部分：

网络结构搭建步骤如下：

S1：构建神经网络；

S2：优化网络；为尽量保留源图像的信息，整个网络均未使用池化层，除最后一层外，其它每个卷积层之后均使用ReLU作为激活函数，最后一层使用Tanh函数激活；该网络由三部分组成：特征提取、特征融合、图像重建；特征提取部分由两个网络分支组成，每个网络分支包含3个卷积层，每个卷积层提取源图像的不同特征；特征融合部分将特征提取部分中的两个网络分支的输出在通道方向上进行连接得到融合特征，之后融合特征作为图像重建部分网络的输入；图像重建部分包括8个卷积层，使用稠密连接分别将特征提取部分的第1、3层在通道方向上连接到图像重建部分的第3、5输出层上，这样可以充分利用不同特征层的信息，从而得到更好的融合效果；

数据集训练步骤如下：

S3：基于公共数据集VOC2007构造带有标签的多聚焦图像数据集；

S4：对标签图像做不同区域的高斯模糊处理；

网络训练步骤如下：

S5：构建损失函数和优化函数；

S6：训练经高斯模糊处理后的数据集，得出结果；

S7：结束。

2.根据权利要求1所述的一种基于监督学习的全卷积神经网络多聚焦图像融合方法，其特征在于，在S6中，运用S1到S4步骤生成的网络结构和网络训练所需的数据集。

3.根据权利要求1或权利要求2所述的一种基于监督学习的全卷积神经网络多聚焦图像融合方法，应用场景包括：目标识别、机器视觉、数字摄影和显微成像。