CN108986058A

CN108986058A - 明度一致性学习的图像融合方法

Info

Publication number: CN108986058A
Application number: CN201810650466.4A
Authority: CN
Inventors: 全红艳; 沈卓荟
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-12-11
Anticipated expiration: 2038-06-22
Also published as: CN108986058B

Abstract

本发明公开了一种明度一致性学习的图像融合方法，该方法采用无监督式的深度学习方法，使用基于生成器‑对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测，维持了前景部分的固有语义，同时通过加入背景覆盖层，确保背景外观保持不变，得到了具有真实感与明暗一致性的图像融合结果，并解决了传统图像融合技术中固有语义丢失的问题。

Description

明度一致性学习的图像融合方法

技术领域

本发明涉及图像合成技术领域，尤其是一种明度一致性学习的图像融合方法，使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测，保证了融合区域的明暗一致性,获得具有真实感与明暗一致性的融合效果。

背景技术

图像融合问题是将前景图像与背景图像进行融合，目前，图像融合问题的关键技术中，主要的难点是在维持前景目标的固有特征的前提下，使融合后的图像具有光照、纹理等方面的一致性。现有的图像融合技术可分为基于梯度场的图像融合方法和基于多分辨率的图像融合方法等。

基于梯度场的图像融合方法的主要思想是：在前景图像与背景图像的梯度场中对图像融合问题进行求解，该方法将前景图像的梯度场作为融合区域的引导场，目的是保持原图像的梯度场，从而维持前景图像的原始梯度特征。随着技术的发展，人们通过将融合区域与背景图像在边界处的颜色一致作为限制条件，保证了融合区域边界处的平滑性，并将问题转化为对泊松方程的求解。该方法虽然能够实现无缝的图像融合效果，但当边界处的颜色变化较大时，会产生渗色问题。随着图像融合技术的发展，在泊松融合方法基础上，出现了GrabCut分割方法，在给定的区域边界与前景目标的边界之间求解最优的融合边界，从而改善了图像融合的效果。目前，泊松融合方法存在的问题是，仅保留了前景图像的梯度场，即相对变化特征，而忽视了前景图像的色调、明暗等其他原始特征。这导致在前景与背景图像颜色差别较大时，融合后的前景图像的色调与原始图像会有较大的差别，破坏了前景图像的部分语义信息。

基于多分辨率的图像融合方法利用图像在不同尺度下的信息,将图像表示为多分辨率金字塔的形式，在金字塔各层上进行前景与背景的融合，并结合各层的融合信息得到最终的融合结果。基于多分辨率的图像融合方法，较好地保证了原图像与目标图像在纹理和对比度等外观特征上的一致性。同时，在各层处理时可以采用一系列优化方法，避免融合图像出现明显的合成痕迹。基于多分辨率的图像融合方法在不同尺度下对图像进行融合，能够获得具有纹理与对比度一致性的融合结果，但在复杂的自然图像中，其不能取得较满意的结果。基于现有的融合技术研究中存在的问题，亟待一种外观一致性的融合方法，以满足实际应用的需要。

发明内容

本发明的目的是针对现有技术的不足,并针对图像融合现有技术中存在的实际问题，提出一种有效的明度一致性深度学习策略，可以实现外观一致性图像融合,设计了基于Lab颜色空间的图像融合策略，实现前景色调的保留，并使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测，保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。

实现本发明目的的具体技术方案是：

一种明度一致性学习的图像融合方法，特点是：该方法输入图像分辨率为N_t×N_t；N_t为224、448或者896,其图像融合包括以下具体步骤：

步骤1：构建合成场景数据库DatabaseF及真实样本数据库DatabaseR

图像融合问题采用GAN模型的网络结构对融合区域明度的学习和预测，需要建立DatabaseF及DatabaseR.具体地利用前景目标与背景图像合成策略构建DatabaseF,进一步在GAN生成模型中，利用DatabaseF的数据，对空洞区域明度的规律进行学习，同时，在GAN判别模型中，利用DatabaseR中真实样本作指导，以确保明度规律的预测能够符合真实场景的光照规律；

(a)DatabaseF构建

从pngimg.com网站中收集N_F张前景图像,3810≤N_F≤8000，其收集的前景图像为自然图像，并保持类别数种,且必须包含物体；所述前景图像为包含透明度信息的4通道图像，利用第4通道的透明信息，获取前景目标的掩模,利用选出的N_F张前景图像构建S_F集合：

式中是其中的前景图像；

从SUN2012数据集筛选N_B张背景图像,2182≤N_B≤5000，构建背景图像集合

是其中的背景图像,要求其不包含前景物体，并且要确保选取的背景图像类别要涵盖SUN2012的各个种类；

场景合成：(1)在[0,N_B-1]之间生成随机的背景图像序号R_B，从背景图像集合_SB中按照R_B取出随机的背景图像再在[0,N_F-1]之间生成1个随机的前景图像序号R_F，从前景图像集合_SF中按照R_F取出随机前景图像(2)叠加图像，对于的裁剪或缩放处理：如果的水平或垂直尺度小于N_t，通过图像缩放功能将图像在该维度分辨率放大到N_t；否则，如果水平或垂直尺度大于N_t，那么在空域范围内，随机裁剪出分辨率为N_t×N_t的背景块，记为

产生前景图像缩放因子s∈[0.5,1.0]，将缩放到新的分辨率s*N_t×s*N_t，结果记为再将覆盖到上，两幅图像中心对齐，覆盖合成后得到前景与背景的叠加图像I_S；进一步生成I_S的掩模图像：利用的第4通道信息进行生成，第4通道如果为透明状态时，标记为0，表示背景区域像素；当第4通道为非透明状态时，标记为1，表示前景区域像素，这样就得到前景掩模图像I_M；利用I_S和I_M创建一个4通道的图像作为网络的输入数据；

进一步按照上述方法生成N_S组数据，构建成DatabaseF，其中4364≤N_S≤10000；

(b)真实样本DatabaseR构建

在SUN2012数据集中现有的16873张自然场景中，除去步骤(a)使用过的背景图像，从剩余的自然场景的图像中取出12000张，作为真实样本DatabaseR的数据；

步骤2：构建图像融合神经网络F-Net

F-Net结构与流程：F-Net采用生成式对抗网络(GAN)结构，将F-Net设计为三层架构：明度生成器子网络L-net、背景覆盖层、通道合并，在F-Net中采用Lab颜色空间对图像进行融合；

F-Net的设计按照以下流程进行：(1)从DatabaseF中选取图像I_in输入F-Net，先对I_in转换为Lab颜色空间,然后进行通道分离，获取的ab通道为信息I_a和I_b，同时分离出来的明度通道信息为L_in；(2)将I_in输入到F-Net，先进入L-net,明度预测，得到明度图像L；(3)在背景覆盖层中对L的背景区的明度用L_in进行覆盖，其输出新的明度图像L′；(4)在通道合并处理中，L′图像的通道与I_a、I_b图像的通道进行合并，进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像，作为F-Net网络的输出；

F-Net设计；输入是图像I_in，其张量形状为N_t×N_t×4，输出是3通道的彩色图像，输出为融合后的结果图像，张量形状为N_t×N_t×3；

对于L-net、背景覆盖层、通道合并三部分结构：(1)L-net输入是I_in，输出L，张量形状为N_t×N_t×1；(2)背景覆盖层，输入是L及前景目标的掩模，输出是背景覆盖更新的张量L′，张量形状为N_t×N_t×1；(3)通道合并，输入L′和I_a、I_b，输出三个通道Lab空间的彩色图像；

(a)L-net结构

采用U-net架构，编码器及解码器均采用L_t层卷积神经网络的架构，如果N_t为224，L_t为5；如果N_t为448，L_t为6；如果N_t为896，L_t为7；

(1)编码器共有L_t层子结构，每个子结构为1层卷积：采用4×4的卷积核，卷积步长为2，并在输入图像边界外邻域补零处理，每个卷积层的输出进行批归一化，使用LeakyRelu激活函数；第1层卷积核个数为T_k(当N_t为224，T_k,取64；当N_t为448，T_k,取32；当N_t为896，T_k,取16)，依次后面各层卷积核个数增加一倍；

(2)解码器设计为L_t层子结构，每层子结构由转置卷积层和连接层组成。转置卷积层的卷积核，设计为4×4，卷积步长为2，每个转置卷积层都进行批归一化，激活函数使用Relu；第1个层卷积的卷积核个数为512，后面各层卷积核个数减半；在L_t层之后使用一个额外的转置卷积层；然后是背景区域覆盖层,最后再生成最终的网络输出，在解码器之后，连接一个Tanh激活层，将网路的输出转换为-1至1之间的浮点数；

(3)编码器与解码器之间进行跨层连接，即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接，并作为下一层转置卷积层的输入：即编码器第1层与解码器第L_t-1层输入特征图连接，作为解码器第L_t个转置卷积层的输入；同样地，编码器第2层与解码器第L_t-2层连接，作为解码器第L_t-1层的输入，按照这样方式，进行跨层连接；

(b)背景覆盖层

将L-net输出的明度图像L在背景覆盖层进行以下处理，并输出图像L′：

L′＝I_M⊙L+(1-I_M)⊙L_in (2)

其中⊙表示逐元素的乘法,I_M表示从I_in的第4通道获取的掩模信息；

步骤3：神经网络的训练与预测

将DatabaseF按照18:1:1的比例划分为训练数据集TrainF、评估数据集EvaluateF与测试数据集TestF；将DatabaseR中数据也按照18:1:1的比例划分为训练数据集TrainR、评估数据集EvaluateR与测试数据集TestR三个部分；将TrainF和TrainR用于网络的训练过程，EvaluateF和EvaluateR用于训练过程中实时评估网络输出性能，TestF和TestR用于对训练完毕的网络进行性能测试；

对F-Net进行100轮次对抗式训练，采用了基于深度学习的无监督学习策略；F-Net网络的损失函数由梯度损失_Lgrad与生成器的对抗损失项构成，_Lgrad在RGB空间进行定义，利用输入图像与网络输出图像之间的梯度差异的L1范数的平方根形式定义：

其中f(I_in)是网络生成器产生的RGB图像，_Gx(Iin)利用前向差分计算Iin的水平梯度，G_y(I_in)利用前向差分计算I_in的垂直梯度；N_I是原合成图像中像素的总个数：N_t×N_t，N_R表示融合区域中像素个数，G_x(f(I_in))是图像f(I_in)的水平梯度，G_y(f(I_in))是图像f(I_in)的垂直梯度；

对于生成器的对抗损失项，使用NS GAN方法计算抗损失项

其中Y表示真实样本数据集，即背景图像数据集，表示生成的融合图像；D函数表示样本来自于真实样本数据集Y的概率,E表示能量损失函数；

F-Net网络的损失函数_LG定义为：

其中_l为梯度损失的权重参数；

F-Net网络的判别器对抗损失项定义为：

其中f(X)表示网络输出的融合结果的图像集；x表示单个真实样本，即真实自然场景图像，_D(x)函数表示样本x在f(X)中出现的概率。表示生成的融合场景图像，Y表示真实样本数据集，表示在Y中出现的概率；

步骤4：图像融合处理

利用步骤2构建的神经网络，并利用步骤3训练得到融合网络的参数，对图像进行外观一致性的融合处理：将I_in输入到F-Net中，得到学习的融合结果图像。

本发明具有简单、实用的特点，设计了基于Lab颜色空间的图像融合策略，实现了前景色调的保留，并使用生成器-对抗器结构的深度学习模型,对图像的明度通道进行预测，保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。

附图说明

图1为明度一致性图像融合结果及对比图；

图2为本发明网络训练过程中各损失项变化的趋势图；

具体实施方式

实施例

下面结合附图对本发明进一步说明。

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置是CPU i5-6500，内存16G，GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8，其采用Tensorflow1.3.0作为后端。编程采用Python语言。

实现本发明目的的具体技术方案是：基于明度一致性学习的图像融合方法.特点是提出一种无监督式的深度学习方法，可以实现外观一致性图像融合,设计了基于Lab颜色空间的图像融合策略，实现前景色调的保留，并使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测，保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。具体过程包括以下步骤：

步骤1：合成场景数据库DatabaseF及真实样本数据库DatabaseR构建

图像融合问题采用GAN模型的网络结构对融合区域明度的学习和预测，需要建立DatabaseF及DatabaseR.具体地利用前景目标与背景图像合成策略构建DatabaseF,进一步在GAN生成模型中，利用DatabaseF的数据，对空洞区域明度的规律进行学习，同时，在GAN判别模型中，利用DatabaseR中真实样本作指导，以确保明度规律的预测能够符合真实场景的光照规律。

(a)DatabaseF构建

为了构建DatabaseF，从pngimg.com网站中收集3810张前景图像，要求收集的图像不是人工制作的图像，并且保持各类图像类别比例均衡，其中包含各类常见前景物体，这些图像是包含透明度信息的4通道图像，利用第4通道的透明信息，生成前景目标的掩模，即对应任意空洞形状的标注。利用选出的3810张前景图像构建S_F集合：

其中是其中的前景图像。

从SUN2012数据集筛选2182张背景素材作为合成图像的背景，由这些图像构建背景素材集合选取的图像场景不包含前景物体，并且要保持选取图像的类别涵盖SUN2012中各种不同类别。

场景合成：(1)在[0,2181]之间生成随机的背景图像序号R_B，从背景图像集合S_B中按照R_B取出随机的背景图像再在[0,3809]之间生成1个随机的前景图像序号R_F，从前景图像集合S_F中按照R_F取出随机前景图像(2)叠加图像，对于的裁剪或缩放处理：如果的水平或垂直尺度小于N_t，本实施例中N_t为224，通过图像缩放功能将图像在该维度分辨率放大到N_t；否则，如果水平或垂直尺度大于N_t，那么在空域范围内，随机裁剪出分辨率为N_t×N_t的背景块，记为

进一步按照上述方法生4364组数据，构建成DatabaseF；

(b)真实样本DatabaseR构建

本方法采用无监督学习策略，在GAN结构训练时，判别网络需要真实样本作为明度预测质量判别的依据。在SUN2012数据集中的自然场景图像中包含有16873张自然场景的图像，进一步去掉上步(a)的合成中使用的部分，从剩余的自然场景的图像中取出12000张作为真实样本DatabaseR的数据。

步骤2：构建图像融合神经网络F-Net

对于L-net、背景覆盖层、通道合并三部分结构：(1)L-net输入是I_in，输出L，张量形状为N_t×N_t×1；(2)背景覆盖层，输入是L及前景目标的掩模，输出是背景更新的张量L′，张量形状为N_t×N_t×1；(3)通道合并，输入L′和I_a、I_b，输出三个通道Lab空间的彩色图像；

(a)L-net结构

采用U-net架构，编码器及解码器均采用L_t层卷积神经网络的架构，L_t为5；

(1)编码器共有L_t层子结构，每个子结构为1层卷积：采用4×4的卷积核，卷积步长为2，并在输入图像边界外邻域补零处理，每个卷积层的输出进行批归一化，使用LeakyRelu激活函数；第1层卷积核个数为T_k，当N_t为224，T_k,取64；当N_t为448，T_k,取32；当N_t为896，T_k,取16，依次后面各层卷积核个数增加一倍；

(b)背景区域覆盖层

L′＝I_M⊙L+(1-I_M)⊙L_in (2)

步骤3：神经网络的训练与预测

对F-Net进行100轮次对抗式训练，采用了基于深度学习的无监督学习策略；F-Net网络的损失函数由梯度损失L_grad与生成器的对抗损失项构成，L_grad在RGB空间进行定义，利用输入图像与网络输出图像之间的梯度差异的L1范数的平方根形式定义：

其中f(I_in)是网络生成器产生的RGB图像，G_x(I_in)利用前向差分计算I_in的水平梯度，G_y(I_in)利用前向差分计算I_in的垂直梯度；N_I是原合成图像中像素的总个数：N_t×N_t，N_R表示融合区域中像素个数，G_x(f(I_in))是图像f(I_in)的水平梯度，G_y(f(I_in))是图像f(I_in)的垂直梯度；

对于生成器的对抗损失项，使用NS GAN方法计算抗损失项

F-Net网络的损失函数L_G定义为：

其中l为梯度损失的权重参数；

F-Net网络的判别器对抗损失项定义为：

其中f(X)表示网络输出的融合结果的图像集；x表示单个真实样本，即真实自然场景图像，D(x)函数表示样本x在f(X)中出现的概率；表示生成的融合场景图像，Y表示真实样本数据集，表示在Y中出现的概率；

训练过程中的超参数选择为：Dropout层中Dropout率取0.5；优化器采用Adam优化器，并且各超参数取默认值；每批次的样本数取8；F-Net的生成器学习率取2×10^-4，F-Net的判别器的学习率取2×10^-4，梯度损失项权重参数,梯度损失项权重参数_l取200.

步骤4：图像融合处理

图1为明度一致性图像融合结果及对比图，左起第1列及第2列分别是要融合的背景及前景目标的图像，第3列是与泊松方法融合的对比，第4列是本发明的融合结果，从这些实例结果可以看出，本发明的方法较为有效，利用该方法进行融合可以得到和背景一致性外观的真实感结果，从而说明本方法的可行性。

为了对本发明的性能进行测试，本实施例中对深度融合网络的生成器与判别器进行了100轮对抗式训练，每轮训练用时约为800秒。并记录了每轮训练中各批次损失项的均值，图2展示了本发明的融合网络训练过程中生成器对抗损失项、判别器对抗损失项与梯度损失项的变化趋势。从图中可以看出，迭代100次可以得到就比较满意的性能。

Claims

1.一种明度一致性学习的图像融合方法，其特征在于,该方法输入图像分辨率为N_t×N_t；N_t为224、448或者896,其图像融合包括以下具体步骤：

步骤1：构建合成场景数据库DatabaseF及真实样本数据库DatabaseR

(a)DatabaseF构建

从pngimg.com网站中收集N_F张前景图像,3810≤N_F≤8000，其收集的前景图像为自然图像并保持类别数种,且必须包含物体；所述前景图像为包含透明度信息的4通道图像，利用第4通道的透明信息，获取前景目标的掩模,利用选出的N_F张前景图像构建S_F集合：

式中是其中的前景图像；

从SUN2012数据集筛选N_B张背景图像,2182≤N_B≤5000，构建背景图像集合是其中的背景图像,要求其不包含前景物体，并且要确保选取的背景图像类别要涵盖SUN2012的各个种类；

场景合成：(1)在[0,N_B-1]之间生成随机的背景图像序号R_B，从背景图像集合S_B中按照R_B取出随机的背景图像再在[0,N_F-1]之间生成1个随机的前景图像序号R_F，从前景图像集合S_F中按照R_F取出随机前景图像(2)叠加图像，对于的裁剪或缩放处理：如果的水平或垂直尺度小于N_t，通过图像缩放功能将图像在该维度分辨率放大到N_t；否则，如果水平或垂直尺度大于N_t，那么在空域范围内，随机裁剪出分辨率为N_t×N_t的背景块，记为

(b)真实样本DatabaseR构建

步骤2：构建图像融合神经网络F-Net

(a)L-net结构

(1)编码器共有L_t层子结构，每个子结构为1层卷积：采用4×4的卷积核，卷积步长为2，并在输入图像边界外邻域补零处理，每个卷积层的输出进行批归一化，使用Leaky Relu激活函数；第1层卷积核个数为T_k，当N_t为224，T_k,取64；当N_t为448，T_k,取32；当N_t为896，T_k,取16，依次后面各层卷积核个数增加一倍；

(b)背景覆盖层

其中表示逐元素的乘法,I_M表示从I_in的第4通道获取的掩模信息；

步骤3：神经网络的训练与预测

对于生成器的对抗损失项，使用NS GAN方法计算抗损失项

F-Net网络的损失函数L_G定义为：

其中l为梯度损失的权重参数；

F-Net网络的判别器对抗损失项定义为：

步骤4：图像融合处理