CN109410158B

CN109410158B - 一种基于卷积神经网络的多焦点图像融合方法

Info

Publication number: CN109410158B
Application number: CN201810952964.4A
Authority: CN
Inventors: 赖睿; 李永薛; 李跃进; 官俊涛; 徐昆然; 李奕诗; 王东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2020-10-02
Anticipated expiration: 2038-08-21
Also published as: CN109410158A

Abstract

本发明涉及一种基于卷积神经网络的多焦点图像融合方法，包括：构建原始焦点探测卷积神经网络；对原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络；根据训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像；将所述焦点分布图和所述预处理图像进行融合，获得融合图像。本发明提供的一种基于卷积神经网络的多焦点图像融合方法采用了端到端卷积神经网络直接生成焦点分布图，大大提升了生成焦点分布图的速度，实时性能更强，直接使用焦点分布图对源图像进行加权平均求和处理，没有引入额外的人为干预措施，避免了融合结果图出现人为缺陷。

Description

一种基于卷积神经网络的多焦点图像融合方法

技术领域

本发明属于数字图像处理领域，具体涉及一种基于卷积神经网络的多焦点图像融合方法。

背景技术

人们在摄影或摄像时，很难使用成像设备在单张照片中获得不同焦点距离的摄影物体。一般情况下，只有在光学镜头焦点位置附近的物体可以在照片中清晰地显示，而其他物体可能会模糊不清。为了使照片中的物体全部清晰显示，通常会通过融合同一场景在不同焦距设置下拍摄的照片，从而获得全焦点图像，这种方法被称为多焦点图像融合。

目前，传统的多焦点图像融合算法包含空间域方法和变换域方法。不管空间域方法还是变换域方法，活跃度测量和融合规则都是多焦点图像融合的两大重要因素。在传统的多焦点图像融合算法中，活跃度测量和融合规则都是通过人为精心设计的。虽然融合效果在不断改善，但是可以预见的是人为设计很难考虑到所有影响因素。而且，随着融合方法的不断改进，人为设计的活跃度测量方法和融合规则变得越来越复杂，不利于实际应用。2016年，Yu Liu等人首次将卷积神经网络引入到多焦点图像融合中，一定程度上解决了上述人为设计遇到的困境，并取得了较好的融合效果。

但是，Yu Liu等人提出的方法计算复杂度较高，即使使用GPU加速，获得了较快的处理速度，但还有进一步改进的空间。此外，该方法在后处理过程中可能会引入人为缺陷，影响最终融合效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于卷积神经网络的多焦点图像融合方法。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供了一种基于卷积神经网络的多焦点图像融合方法，包括：

构建原始焦点探测卷积神经网络；

对所述原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络；

根据所述训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像；

将所述焦点分布图和所述预处理图像进行融合，获得融合图像。

在本发明的一个实施例中，所述原始焦点探测卷积神经网络，包括：第一卷积层、第一激活层、第二卷积层、第二激活层、第三卷积层、第三激活层、第四卷积层和第四激活层；其中，

所述第一卷积层、所述第一激活层、所述第二卷积层、所述第二激活层、所述第三卷积层、所述第三激活层、所述第四卷积层和所述第四激活层依次连接。

在本发明的一个实施例中，对所述原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络，包括：

创建预设训练集；

通过优化器和所述预设训练集对所述原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络。

在本发明的一个实施例中，创建预设训练集，包括：

对训练集进行处理，获取原始素材图像集；其中，所述原始素材图像集包括多张原始素材图像；

根据所述原始素材图像集生成预设训练集；其中，所述预设训练集包括多个训练样本。

在本发明的一个实施例中，所述训练集为ImageNet数据集。

在本发明的一个实施例中，根据所述原始素材图像集生成预设训练集，包括，

通过所述原始素材图像获取第一图像和第二图像；

获取参考焦点分布图像；

对所述第一图像进行归一化处理，并通过计算获取第三图像；

对所述第二图像进行归一化处理，并通过计算获取第四图像；

通过所述第三图像、所述第四图像和所述参考焦点分布图像，获取训练样本；

根据所述训练样本，获取到所述预设训练集。

在本发明的一个实施例中，通过所述原始素材图像获取第一图像和第二图像，包括：

对所述原始素材图像的预设区域进行复制，获取区域图像；

通过高斯卷积核对所述区域图像进行卷积，获取区域卷积图像；

通过所述高斯卷积核对所述原始素材图像进行卷积，获取原始素材卷积图像；

利用所述区域卷积图像替换所述原始素材图像的所述预设区域，获取所述第一图像；

利用所述区域图像替换所述原始素材卷积图像的所述预设区域，获取所述第二图像。

在本发明的一个实施例中，所述高斯卷积核的计算公式为：

其中，x为所述高斯卷积核中的二维坐标，x_c为所述高斯卷积核的中心二维坐标，K(x)为所述高斯卷积核在二维坐标x处的值，σ为所述高斯卷积核函数宽度参数。

在本发明的一个实施例中，根据所述训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像，包括：

获取所述预处理图像；其中，所述预处理图像包括第一源图像和第二源图像；

分别对所述第一源图像和所述第二源图像进行预处理，获取对应的第五图像和第六图像；

将所述第五图像和所述第六图像输入所述训练后的焦点探测卷积神经网络，得到所述焦点分布图像。

在本发明的一个实施例中，将所述焦点分布图和所述预处理图像进行融合具体为：

F＝A·M+B·(1-M)

其中，F为所述融合图像，A为所述第一源图像，B为所述第二源图像，M为所述焦点分布图像。

与现有技术相比，本发明的有益效果：

(1)本发明提供的一种基于卷积神经网络的多焦点图像融合方法采用了端到端卷积神经网络直接生成焦点分布图，大大提升了生成焦点分布图的速度，实时性能更强；

(2)本发明提供的一种基于卷积神经网络的多焦点图像融合方法直接使用焦点分布图对源图像进行加权平均求和处理，没有引入额外的人为干预措施，避免了融合结果图出现人为缺陷。

附图说明

图1为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的流程示意图；

图2为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的卷积结构示意图；

图3为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的第一源图像；

图4为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的第二源图像；

图5为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的融合图像。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1至图5，图1为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的流程示意图；图2为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的卷积结构示意图；图3为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的第一源图像；图4为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的第二源图像；图5为本发明提供的一种基于卷积神经网络的多焦点图像融合方法的的融合图像。

如图1所示，一种基于卷积神经网络的多焦点图像融合方法，包括：

构建原始焦点探测卷积神经网络；

对原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络；

根据训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像；

根据焦点分布图和预处理图像获得融合图像。

进一步地，如图2所示，原始焦点探测卷积神经网络，包括：

第一卷积层、第一激活层、第二卷积层、第二激活层、第三卷积层、第三激活层、第四卷积层和第四激活层；其中，

第一卷积层、第一激活层、第二卷积层、第二激活层、第三卷积层、第三激活层、第四卷积层和第四激活层依次连接。

具体地，第一卷积层的卷积核大小为3×3，输出通道数为32。设第一卷积层的输出为T₁，则T₁的数学表达式如下：

T₁＝max(0,X*K₁+B₁)

其中，K₁表示第一卷积层的卷积核，且K₁是一个2×3×3×32的四维卷积核；B₁是偏置，是一个32×1的列向量；*表示卷积操作；max表示取最大值函数；第一层的输出T₁是一个m×n×32的三维矩阵；

具体地，第一激活层为修正线性单元激活层，即ReLU(Rectified Linear Unit，简称ReLU)激活层，即利用ReLU函数执行操作。第一激活层用于增加第一卷积层输出结果的稀疏性，这个特性可以去除第一卷积层输出结果的冗余数据，最大可能保留输出结果的特征，从而加速收敛过程。

具体地，第二卷积层的卷积核大小为5×5，输出通道数为16。设第二卷积层的输出为T₂，则T₂的数学表达式如下：

T₂＝max(0,T₁*K₂+B₂)

其中，K₂表示第二卷积层的卷积核，该卷积核是一个32×5×5×16的四维卷积核；B₂是偏置，是一个16×1的列向量；第二卷积层的输出T₂是一个m×n×16的三维矩阵。

具体地，第二激活层为ReLU激活层，第二激活层用于增加第二卷积层输出结果的稀疏性，去除第三卷积层输出结果的冗余数据，加速收敛过程。

具体地，第三卷积层的卷积核大小为7×7，输出通道数为8。设第三卷积层的输出为T₃，则T₃的数学表达式如下：

T₃＝max(0,T₂*K₃+B₃)

其中，K₃表示第三卷积层的卷积核，该卷积核是一个16×7×7×8的四维卷积核；B₃是偏置，是一个8×1的列向量；第三卷积层的输出T₃是一个m×n×8的三维矩阵。

具体地，第三激活层为ReLU激活层，第三激活层用于增加第三卷积层输出结果的稀疏性，去除第三卷积层输出结果的冗余数据，加速收敛过程。

具体地，第四层卷积层的卷积核大小为9×9，输出通道数为1。设第四卷积层的输出为T₄，则T₄的数学表达式如下：

其中，K₄表示第四层卷积层的卷积核，该卷积核是一个8×9×9的三维卷积核；B₄是偏置，是一个1×1的列向量；第四层的输出T₄是一个m×n的二维矩阵。

具体的，第四激活层为S型激活层，即Sigmoid激活层，其利用sigmoid函数执行操作。

进一步地，对原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络，包括：

创建预设训练集；

进一步地，创建预设训练集，包括：

优选地，训练集为ImageNet数据集，

优选地，从ImageNet数据集中随机选取50000张图片，并将每张图片裁剪成64×64大小的图片，并且转化为灰度图，得到原始素材图像，将所有抽取的50000张图片处理后得到原始素材图像集，将原始素材图像集记为P₀。

进一步地，根据原始素材图像集生成预设训练集，包括，

创建高斯卷积核；

对原始素材图像的预设区域进行复制，获取区域图像；

通过高斯卷积核对原始素材图像进行卷积，获取原始素材卷积图像；

通过高斯卷积核对区域图像进行卷积，获取区域卷积图像；

利用区域卷积图像替换原始素材图像的预设区域，获取第一图像；

利用区域图像替换原始素材卷积图像的预设区域，获取第二图像；

获取参考焦点分布图像；

对第一图像进行归一化处理，并通过计算获取第三图像；

对第二图像进行归一化处理，并通过计算获取第四图像；

通过第三图像、第四图像和参考焦点分布图像，获取训练样本；

根据训练样本，得到预设训练集。

具体地，创建高斯卷积核，记为g，高斯卷积核计算公式为：

其中，x表示坐标，x_c为核中心坐标，σ为核函数宽度参数，优选地，本实施例中g的大小为15×15，σ为10。

设p是P₀中的一张图像，则p的尺寸为64×64，在p中随机选取一个30×30的区域进行复制得到区域图像，记为q，并记录区域图像的位置d。

使用g对p进行卷积，获得原始素材卷积图像，记为px；使用g对q进行卷积，获得区域卷积图像，记为qx。

使用qx替换p中的d区域，获得第一图像，记为x₁；使用q替换px中的d区域，获得第二图像，记为x₂。

生成与p大小相同的全1矩阵，再将d区域的值设为0，得到参考焦点分布图像，记为x₃。

对x₁进行归一化处理，并减去自身均值，得到第三图像，记为x′₁；

对x₂进行归一化处理，并减去自身均值，得到第四图像，记为x′₂；

将x₁'、x′₂和参考焦点分布图像构成一组，作为一个训练样本。

同理，根据上述方法，获取P₀中的其他图像的训练样本，得到预设训练集，记录为P₁。

通过优化器和预设训练集对原始焦点探测卷积神经网络进行训练。

具体地，使用随机梯度下降(stochastic gradient descent，简称：SGD)优化器和预设训练集对原始焦点探测卷积神经网络进行训练，其中，批尺寸(batch size)设置为32，动量设置为0.9，学习率设为0.1，训练50个回合。训练后得到训练好的焦点探测卷积神经网络。优选地，使用均方差函数作为该卷积神经网络训练的损失函数。

进一步地，根据训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像，包括：

具体地，第一源图像和第二源图像为两张同场景不同焦点的图像，第一源图像记为A，第二源图像记为B。

具体地，首先，将A和B分别由RGB彩色图转换为灰度图，具体如下：

A_gray＝A_red·0.299+A_green·0.587+A_blue·0.114

B_gray＝B_red·0.299+B_green·0.587+B_blue·0.114

其中，A_gray表示A的灰度图，A_red表示A的红色分量，A_green表示A的绿色分量，A_blue表示A的蓝色分量，B_gray表示B的灰度图，B_red表示B的红色分量，B_green表示B的绿色分量，B_blue表示B的蓝色分量。

然后，对A_gray和B_gray进行归一化处理，具体计算如下：

A_nomalized＝A_gray/255

B_nomalized＝B_gray/255

其中，A_nomalized表示A_gray的归一化图像；B_nomalized表示B_gray的归一化图像。

最后，对A_nomalized和B_nomalized进行去均值处理：得到A对应的第五图像，和B对应的第六图像，具体如下：

A_input＝A_nomalized-mean(A_nomalized)

B_input＝B_nomalized-mean(B_nomalized)

其中，A_input是对图像A_nomalized进行取均值处理后的图像，为第五图像；B_input是对图像B_nomalized进行取均值处理后的图像，为第六图像；mean(·)表示求均值函数。

将所述第五图像和所述第六图像输入训练后的焦点探测卷积神经网络，得到所述焦点分布图像。

具体地，将A_input和B_input作为输入X，输入训练后的焦点探测卷积神经网络，通过训练后的焦点探测卷积神经网络计算，输出焦点分布图，记为M。

根据所述焦点分布图和所述预处理图像获得融合图像，包括：根据焦点分布图M，对A和B进行加权平均求和，获得最终的融合图像F，F的计算公式如下：

F＝A·M+B·(1-M)，

本发明提供的一种基于卷积神经网络的多焦点图像融合方法采用了端到端卷积神经网络直接生成焦点分布图，大大提升了生成焦点分布图的速度，实时性能更强，直接使用焦点分布图对源图像进行加权平均求和处理，没有引入额外的人为干预措施，避免了融合结果图出现人为缺陷。

本发明实施例的效果可通过以下实验进一步说明：

1.定性实验

本实验选取了公开数据集LytroDataset第一组图片进行测试，如图3和图4所示。使用本发明方法对图3和图4进行融合，融合结果如图5所示。可以观察到，附图5能够准确地保留附图3和附图4中清晰部分的图像内容。由于各种融合方法获得的融合图像只在部分细节处有差异，人眼对这些差异的辨识度不高，所以与其他方法的横向对比将在接下来的定量实验中进行。

2.定量实验

本实验使用公开的多焦点图像融合质量评价ToolBox进行测试。该工具箱包含了12个图像融合评价指标，从各种角度进行质量评价，对于所有指标，其值越大表示该指标表现越好。对比实验包含NSCT，SR，NSCT_SR，GF，MWG，DSIFT等六种传统融合方法，以及Yu Liu首次提出的基于CNN的新方法，共七种融合方法。本发明方法与前述七种方法的定量实验结果如表1和表2所示，测试图像为公开数据集LytroDataset中的20组图像，表中的值为20组图像的平均值，M1～M12是图像融合质量评价中包含的常用的12个评价指标，此处按ToolBox中出现的顺序标记为M1～M12，其中，M1～M12依次为互信息、基于Tsallis熵的互信息、非线性相关信息熵、基于梯度的融合指标、多尺度融合度量、基于空间频率的融合度量、基于相位一致性的图像融合度量、基于Wang-Bovik方法的图像融合度量、基于空间相似性的图像融合度量、基于结构相似度的图像融合度量、基于区域信息的人类感知启发融合度量、基于人类视觉系统模型的图像融合度量。

表1定量评价结果

	M1	M2	M3	M4	M5	M6
							NSCT	0.9440	0.3831	0.8304	0.6804	1.5631	-0.0291
SR	1.0642	0.3932	0.8374	0.6931	2.0105	-0.0296
							NSCT_SR	0.9705	0.3852	0.8317	0.6841	1.6304	-0.0282
GF	0.6569	0.3719	0.8178	0.6193	0.6749	0.0214
							MWG	1.0918	0.3931	0.8396	0.6974	2.0557	-0.0333
DSIFT	1.1292	0.3976	0.8415	0.7099	2.1858	-0.0207
							CNN_YuLiu	1.1095	0.3963	0.8402	0.7081	2.0407	-0.0308
本发明	1.1333	0.3992	0.8416	0.7181	2.3333	-0.0343

表2定量评价结果

	M7	M8	M9	M10	M11	M12
							NSCT	0.8178	0.9466	0.8100	0.9562	21.5932	0.7461
SR	0.8168	0.9462	0.8133	0.9653	15.6082	0.7756
							NSCT_SR	0.8192	0.9468	0.8124	0.9589	21.3842	0.7548
GF	0.7722	0.8941	0.7491	0.8864	81.6948	0.5982
							MWG	0.8240	0.9380	0.8138	0.9786	19.1046	0.7893
DSIFT	0.8320	0.9438	0.8162	0.9789	15.9294	0.8014
							CNN_YuLiu	0.8326	0.9452	0.8170	0.9781	16.3356	0.7995
本发明	0.8381	0.9470	0.8244	0.9801	17.7444	0.7939

由表1和表2可知，本发明的方法在12个图像融合评价指标中有9个指标的表现都优于现有的七种融合方法(加粗字体表明了每项指标对应的最大测试值)，说明本发明的方法在焦点探测和信息保留等方面都有较好的表现。此外，本发明的方法与YuLiu提出的基于卷积神经网络的图像融合方法相比，不仅图像融合性能更好(有9项指标领先)，而且速度更快。YuLiu的方法使用NIVIDA GeForce GTX TITAN Black GPU处理一组520×520的图像，需要0.33秒。本发明的方法使用NIVIDA GeForce GTX 1080TI GPU处理一组520×520的图像，仅需要0.08秒。

综上，本发明所提出的一种基于卷积神经网络的多焦点图像融合方法，不仅能够获得较好的图像融合性能，还能拥有更快的处理速度。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于卷积神经网络的多焦点图像融合方法，其特征在于，包括：

构建原始焦点探测卷积神经网络；

将所述焦点分布图和所述预处理图像进行融合，获得融合图像；

所述对所述原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络，包括：创建预设训练集；通过优化器和所述预设训练集对所述原始焦点探测卷积神经网络进行训练，得到训练后的焦点探测卷积神经网络；

所述创建预设训练集，包括：对训练集进行处理，获取原始素材图像集；其中，所述原始素材图像集包括多张原始素材图像；根据所述原始素材图像集生成预设训练集；其中，所述预设训练集包括多个训练样本；

所述根据所述原始素材图像集生成预设训练集，包括，通过所述原始素材图像获取第一图像和第二图像；获取参考焦点分布图像；对所述第一图像进行归一化处理，并通过计算获取第三图像；对所述第二图像进行归一化处理，并通过计算获取第四图像；通过所述第三图像、所述第四图像和所述参考焦点分布图像，获取训练样本；根据所述训练样本，获取到所述预设训练集；

所述通过所述原始素材图像获取第一图像和第二图像，包括：对所述原始素材图像的预设区域进行复制，获取区域图像；通过高斯卷积核对所述区域图像进行卷积，获取区域卷积图像；通过所述高斯卷积核对所述原始素材图像进行卷积，获取原始素材卷积图像；利用所述区域卷积图像替换所述原始素材图像的所述预设区域，获取所述第一图像；利用所述区域图像替换所述原始素材卷积图像的所述预设区域，获取所述第二图像。

2.根据权利要求1所述的多焦点图像融合方法，其特征在于，所述原始焦点探测卷积神经网络，包括：第一卷积层、第一激活层、第二卷积层、第二激活层、第三卷积层、第三激活层、第四卷积层和第四激活层；其中，

3.根据权利要求1所述的多焦点图像融合方法，其特征在于，所述训练集为ImageNet数据集。

4.根据权利要求1所述的多焦点图像融合方法，其特征在于，所述高斯卷积核的计算公式为：

5.根据权利要求1所述的多焦点图像融合方法，其特征在于，根据所述训练后的焦点探测卷积神经网络和预处理图像，获取焦点分布图像，包括：

6.根据权利要求5所述的多焦点图像融合方法，其特征在于，将所述焦点分布图和所述预处理图像进行融合具体为：

F＝A·M+B·(1-M)