CN108986058A - 明度一致性学习的图像融合方法 - Google Patents
明度一致性学习的图像融合方法 Download PDFInfo
- Publication number
- CN108986058A CN108986058A CN201810650466.4A CN201810650466A CN108986058A CN 108986058 A CN108986058 A CN 108986058A CN 201810650466 A CN201810650466 A CN 201810650466A CN 108986058 A CN108986058 A CN 108986058A
- Authority
- CN
- China
- Prior art keywords
- image
- net
- network
- channel
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011248 coating agent Substances 0.000 claims abstract description 24
- 238000000576 coating method Methods 0.000 claims abstract description 24
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 22
- 230000017105 transposition Effects 0.000 claims description 21
- UTTZHZDGHMJDPM-NXCSSKFKSA-N 7-[2-[[(1r,2s)-1-hydroxy-1-phenylpropan-2-yl]amino]ethyl]-1,3-dimethylpurine-2,6-dione;hydrochloride Chemical compound Cl.C1([C@@H](O)[C@@H](NCCN2C=3C(=O)N(C)C(=O)N(C)C=3N=C2)C)=CC=CC=C1 UTTZHZDGHMJDPM-NXCSSKFKSA-N 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000005267 amalgamation Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 239000011435 rock Substances 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 230000010354 integration Effects 0.000 abstract description 13
- 238000013136 deep learning model Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 6
- 238000005286 illumination Methods 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种明度一致性学习的图像融合方法,该方法采用无监督式的深度学习方法,使用基于生成器‑对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,维持了前景部分的固有语义,同时通过加入背景覆盖层,确保背景外观保持不变,得到了具有真实感与明暗一致性的图像融合结果,并解决了传统图像融合技术中固有语义丢失的问题。
Description
技术领域
本发明涉及图像合成技术领域,尤其是一种明度一致性学习的图像融合方法,使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得具有真实感与明暗一致性的融合效果。
背景技术
图像融合问题是将前景图像与背景图像进行融合,目前,图像融合问题的关键技术中,主要的难点是在维持前景目标的固有特征的前提下,使融合后的图像具有光照、纹理等方面的一致性。现有的图像融合技术可分为基于梯度场的图像融合方法和基于多分辨率的图像融合方法等。
基于梯度场的图像融合方法的主要思想是:在前景图像与背景图像的梯度场中对图像融合问题进行求解,该方法将前景图像的梯度场作为融合区域的引导场,目的是保持原图像的梯度场,从而维持前景图像的原始梯度特征。随着技术的发展,人们通过将融合区域与背景图像在边界处的颜色一致作为限制条件,保证了融合区域边界处的平滑性,并将问题转化为对泊松方程的求解。该方法虽然能够实现无缝的图像融合效果,但当边界处的颜色变化较大时,会产生渗色问题。随着图像融合技术的发展,在泊松融合方法基础上,出现了GrabCut分割方法,在给定的区域边界与前景目标的边界之间求解最优的融合边界,从而改善了图像融合的效果。目前,泊松融合方法存在的问题是,仅保留了前景图像的梯度场,即相对变化特征,而忽视了前景图像的色调、明暗等其他原始特征。这导致在前景与背景图像颜色差别较大时,融合后的前景图像的色调与原始图像会有较大的差别,破坏了前景图像的部分语义信息。
基于多分辨率的图像融合方法利用图像在不同尺度下的信息,将图像表示为多分辨率金字塔的形式,在金字塔各层上进行前景与背景的融合,并结合各层的融合信息得到最终的融合结果。基于多分辨率的图像融合方法,较好地保证了原图像与目标图像在纹理和对比度等外观特征上的一致性。同时,在各层处理时可以采用一系列优化方法,避免融合图像出现明显的合成痕迹。基于多分辨率的图像融合方法在不同尺度下对图像进行融合,能够获得具有纹理与对比度一致性的融合结果,但在复杂的自然图像中,其不能取得较满意的结果。基于现有的融合技术研究中存在的问题,亟待一种外观一致性的融合方法,以满足实际应用的需要。
发明内容
本发明的目的是针对现有技术的不足,并针对图像融合现有技术中存在的实际问题,提出一种有效的明度一致性深度学习策略,可以实现外观一致性图像融合,设计了基于Lab颜色空间的图像融合策略,实现前景色调的保留,并使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。
实现本发明目的的具体技术方案是:
一种明度一致性学习的图像融合方法,特点是:该方法输入图像分辨率为Nt×Nt;Nt为224、448或者896,其图像融合包括以下具体步骤:
步骤1:构建合成场景数据库DatabaseF及真实样本数据库DatabaseR
图像融合问题采用GAN模型的网络结构对融合区域明度的学习和预测,需要建立DatabaseF及DatabaseR.具体地利用前景目标与背景图像合成策略构建DatabaseF,进一步在GAN生成模型中,利用DatabaseF的数据,对空洞区域明度的规律进行学习,同时,在GAN判别模型中,利用DatabaseR中真实样本作指导,以确保明度规律的预测能够符合真实场景的光照规律;
(a)DatabaseF构建
从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像,并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:
式中是其中的前景图像;
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合
是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,NF-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.5,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像作为网络的输入数据;
进一步按照上述方法生成NS组数据,构建成DatabaseF,其中4364≤NS≤10000;
(b)真实样本DatabaseR构建
在SUN2012数据集中现有的16873张自然场景中,除去步骤(a)使用过的背景图像,从剩余的自然场景的图像中取出12000张,作为真实样本DatabaseR的数据;
步骤2:构建图像融合神经网络F-Net
F-Net结构与流程:F-Net采用生成式对抗网络(GAN)结构,将F-Net设计为三层架构:明度生成器子网络L-net、背景覆盖层、通道合并,在F-Net中采用Lab颜色空间对图像进行融合;
F-Net的设计按照以下流程进行:(1)从DatabaseF中选取图像Iin输入F-Net,先对Iin转换为Lab颜色空间,然后进行通道分离,获取的ab通道为信息Ia和Ib,同时分离出来的明度通道信息为Lin;(2)将Iin输入到F-Net,先进入L-net,明度预测,得到明度图像L;(3)在背景覆盖层中对L的背景区的明度用Lin进行覆盖,其输出新的明度图像L′;(4)在通道合并处理中,L′图像的通道与Ia、Ib图像的通道进行合并,进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像,作为F-Net网络的输出;
F-Net设计;输入是图像Iin,其张量形状为Nt×Nt×4,输出是3通道的彩色图像,输出为融合后的结果图像,张量形状为Nt×Nt×3;
对于L-net、背景覆盖层、通道合并三部分结构:(1)L-net输入是Iin,输出L,张量形状为Nt×Nt×1;(2)背景覆盖层,输入是L及前景目标的掩模,输出是背景覆盖更新的张量L′,张量形状为Nt×Nt×1;(3)通道合并,输入L′和Ia、Ib,输出三个通道Lab空间的彩色图像;
(a)L-net结构
采用U-net架构,编码器及解码器均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
(1)编码器共有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用LeakyRelu激活函数;第1层卷积核个数为Tk(当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk,取16),依次后面各层卷积核个数增加一倍;
(2)解码器设计为Lt层子结构,每层子结构由转置卷积层和连接层组成。转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层;然后是背景区域覆盖层,最后再生成最终的网络输出,在解码器之后,连接一个Tanh激活层,将网路的输出转换为-1至1之间的浮点数;
(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;
(b)背景覆盖层
将L-net输出的明度图像L在背景覆盖层进行以下处理,并输出图像L′:
L′=IM⊙L+(1-IM)⊙Lin (2)
其中⊙表示逐元素的乘法,IM表示从Iin的第4通道获取的掩模信息;
步骤3:神经网络的训练与预测
将DatabaseF按照18:1:1的比例划分为训练数据集TrainF、评估数据集EvaluateF与测试数据集TestF;将DatabaseR中数据也按照18:1:1的比例划分为训练数据集TrainR、评估数据集EvaluateR与测试数据集TestR三个部分;将TrainF和TrainR用于网络的训练过程,EvaluateF和EvaluateR用于训练过程中实时评估网络输出性能,TestF和TestR用于对训练完毕的网络进行性能测试;
对F-Net进行100轮次对抗式训练,采用了基于深度学习的无监督学习策略;F-Net网络的损失函数由梯度损失Lgrad与生成器的对抗损失项构成,Lgrad在RGB空间进行定义,利用输入图像与网络输出图像之间的梯度差异的L1范数的平方根形式定义:
其中f(Iin)是网络生成器产生的RGB图像,Gx(Iin)利用前向差分计算Iin的水平梯度,Gy(Iin)利用前向差分计算Iin的垂直梯度;NI是原合成图像中像素的总个数:Nt×Nt,NR表示融合区域中像素个数,Gx(f(Iin))是图像f(Iin)的水平梯度,Gy(f(Iin))是图像f(Iin)的垂直梯度;
对于生成器的对抗损失项,使用NS GAN方法计算抗损失项
其中Y表示真实样本数据集,即背景图像数据集,表示生成的融合图像;D函数表示样本来自于真实样本数据集Y的概率,E表示能量损失函数;
F-Net网络的损失函数LG定义为:
其中l为梯度损失的权重参数;
F-Net网络的判别器对抗损失项定义为:
其中f(X)表示网络输出的融合结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率。表示生成的融合场景图像,Y表示真实样本数据集,表示在Y中出现的概率;
步骤4:图像融合处理
利用步骤2构建的神经网络,并利用步骤3训练得到融合网络的参数,对图像进行外观一致性的融合处理:将Iin输入到F-Net中,得到学习的融合结果图像。
本发明具有简单、实用的特点,设计了基于Lab颜色空间的图像融合策略,实现了前景色调的保留,并使用生成器-对抗器结构的深度学习模型,对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。
附图说明
图1为明度一致性图像融合结果及对比图;
图2为本发明网络训练过程中各损失项变化的趋势图;
具体实施方式
实施例
下面结合附图对本发明进一步说明。
本实施例在PC机上Windows10 64位操作系统下进行实施,其硬件配置是CPU i5-6500,内存16G,GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8,其采用Tensorflow1.3.0作为后端。编程采用Python语言。
实现本发明目的的具体技术方案是:基于明度一致性学习的图像融合方法.特点是提出一种无监督式的深度学习方法,可以实现外观一致性图像融合,设计了基于Lab颜色空间的图像融合策略,实现前景色调的保留,并使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。具体过程包括以下步骤:
步骤1:合成场景数据库DatabaseF及真实样本数据库DatabaseR构建
图像融合问题采用GAN模型的网络结构对融合区域明度的学习和预测,需要建立DatabaseF及DatabaseR.具体地利用前景目标与背景图像合成策略构建DatabaseF,进一步在GAN生成模型中,利用DatabaseF的数据,对空洞区域明度的规律进行学习,同时,在GAN判别模型中,利用DatabaseR中真实样本作指导,以确保明度规律的预测能够符合真实场景的光照规律。
(a)DatabaseF构建
为了构建DatabaseF,从pngimg.com网站中收集3810张前景图像,要求收集的图像不是人工制作的图像,并且保持各类图像类别比例均衡,其中包含各类常见前景物体,这些图像是包含透明度信息的4通道图像,利用第4通道的透明信息,生成前景目标的掩模,即对应任意空洞形状的标注。利用选出的3810张前景图像构建SF集合:
其中是其中的前景图像。
从SUN2012数据集筛选2182张背景素材作为合成图像的背景,由这些图像构建背景素材集合选取的图像场景不包含前景物体,并且要保持选取图像的类别涵盖SUN2012中各种不同类别。
场景合成:(1)在[0,2181]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,3809]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,本实施例中Nt为224,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.5,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像作为网络的输入数据;
进一步按照上述方法生4364组数据,构建成DatabaseF;
(b)真实样本DatabaseR构建
本方法采用无监督学习策略,在GAN结构训练时,判别网络需要真实样本作为明度预测质量判别的依据。在SUN2012数据集中的自然场景图像中包含有16873张自然场景的图像,进一步去掉上步(a)的合成中使用的部分,从剩余的自然场景的图像中取出12000张作为真实样本DatabaseR的数据。
步骤2:构建图像融合神经网络F-Net
F-Net结构与流程:F-Net采用生成式对抗网络(GAN)结构,将F-Net设计为三层架构:明度生成器子网络L-net、背景覆盖层、通道合并,在F-Net中采用Lab颜色空间对图像进行融合;
F-Net的设计按照以下流程进行:(1)从DatabaseF中选取图像Iin输入F-Net,先对Iin转换为Lab颜色空间,然后进行通道分离,获取的ab通道为信息Ia和Ib,同时分离出来的明度通道信息为Lin;(2)将Iin输入到F-Net,先进入L-net,明度预测,得到明度图像L;(3)在背景覆盖层中对L的背景区的明度用Lin进行覆盖,其输出新的明度图像L′;(4)在通道合并处理中,L′图像的通道与Ia、Ib图像的通道进行合并,进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像,作为F-Net网络的输出;
F-Net设计;输入是图像Iin,其张量形状为Nt×Nt×4,输出是3通道的彩色图像,输出为融合后的结果图像,张量形状为Nt×Nt×3;
对于L-net、背景覆盖层、通道合并三部分结构:(1)L-net输入是Iin,输出L,张量形状为Nt×Nt×1;(2)背景覆盖层,输入是L及前景目标的掩模,输出是背景更新的张量L′,张量形状为Nt×Nt×1;(3)通道合并,输入L′和Ia、Ib,输出三个通道Lab空间的彩色图像;
(a)L-net结构
采用U-net架构,编码器及解码器均采用Lt层卷积神经网络的架构,Lt为5;
(1)编码器共有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用LeakyRelu激活函数;第1层卷积核个数为Tk,当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk,取16,依次后面各层卷积核个数增加一倍;
(2)解码器设计为Lt层子结构,每层子结构由转置卷积层和连接层组成。转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层;然后是背景区域覆盖层,最后再生成最终的网络输出,在解码器之后,连接一个Tanh激活层,将网路的输出转换为-1至1之间的浮点数;
(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;
(b)背景区域覆盖层
将L-net输出的明度图像L在背景覆盖层进行以下处理,并输出图像L′:
L′=IM⊙L+(1-IM)⊙Lin (2)
其中⊙表示逐元素的乘法,IM表示从Iin的第4通道获取的掩模信息;
步骤3:神经网络的训练与预测
将DatabaseF按照18:1:1的比例划分为训练数据集TrainF、评估数据集EvaluateF与测试数据集TestF;将DatabaseR中数据也按照18:1:1的比例划分为训练数据集TrainR、评估数据集EvaluateR与测试数据集TestR三个部分;将TrainF和TrainR用于网络的训练过程,EvaluateF和EvaluateR用于训练过程中实时评估网络输出性能,TestF和TestR用于对训练完毕的网络进行性能测试;
对F-Net进行100轮次对抗式训练,采用了基于深度学习的无监督学习策略;F-Net网络的损失函数由梯度损失Lgrad与生成器的对抗损失项构成,Lgrad在RGB空间进行定义,利用输入图像与网络输出图像之间的梯度差异的L1范数的平方根形式定义:
其中f(Iin)是网络生成器产生的RGB图像,Gx(Iin)利用前向差分计算Iin的水平梯度,Gy(Iin)利用前向差分计算Iin的垂直梯度;NI是原合成图像中像素的总个数:Nt×Nt,NR表示融合区域中像素个数,Gx(f(Iin))是图像f(Iin)的水平梯度,Gy(f(Iin))是图像f(Iin)的垂直梯度;
对于生成器的对抗损失项,使用NS GAN方法计算抗损失项
其中Y表示真实样本数据集,即背景图像数据集,表示生成的融合图像;D函数表示样本来自于真实样本数据集Y的概率,E表示能量损失函数;
F-Net网络的损失函数LG定义为:
其中l为梯度损失的权重参数;
F-Net网络的判别器对抗损失项定义为:
其中f(X)表示网络输出的融合结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率;表示生成的融合场景图像,Y表示真实样本数据集,表示在Y中出现的概率;
训练过程中的超参数选择为:Dropout层中Dropout率取0.5;优化器采用Adam优化器,并且各超参数取默认值;每批次的样本数取8;F-Net的生成器学习率取2×10-4,F-Net的判别器的学习率取2×10-4,梯度损失项权重参数,梯度损失项权重参数l取200.
步骤4:图像融合处理
利用步骤2构建的神经网络,并利用步骤3训练得到融合网络的参数,对图像进行外观一致性的融合处理:将Iin输入到F-Net中,得到学习的融合结果图像。
图1为明度一致性图像融合结果及对比图,左起第1列及第2列分别是要融合的背景及前景目标的图像,第3列是与泊松方法融合的对比,第4列是本发明的融合结果,从这些实例结果可以看出,本发明的方法较为有效,利用该方法进行融合可以得到和背景一致性外观的真实感结果,从而说明本方法的可行性。
为了对本发明的性能进行测试,本实施例中对深度融合网络的生成器与判别器进行了100轮对抗式训练,每轮训练用时约为800秒。并记录了每轮训练中各批次损失项的均值,图2展示了本发明的融合网络训练过程中生成器对抗损失项、判别器对抗损失项与梯度损失项的变化趋势。从图中可以看出,迭代100次可以得到就比较满意的性能。
Claims (1)
1.一种明度一致性学习的图像融合方法,其特征在于,该方法输入图像分辨率为Nt×Nt;Nt为224、448或者896,其图像融合包括以下具体步骤:
步骤1:构建合成场景数据库DatabaseF及真实样本数据库DatabaseR
(a)DatabaseF构建
从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:
式中是其中的前景图像;
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合 是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,NF-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
产生前景图像缩放因子s∈[0.5,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像作为网络的输入数据;
进一步按照上述方法生成NS组数据,构建成DatabaseF,其中4364≤NS≤10000;
(b)真实样本DatabaseR构建
在SUN2012数据集中现有的16873张自然场景中,除去步骤(a)使用过的背景图像,从剩余的自然场景的图像中取出12000张,作为真实样本DatabaseR的数据;
步骤2:构建图像融合神经网络F-Net
F-Net结构与流程:F-Net采用生成式对抗网络(GAN)结构,将F-Net设计为三层架构:明度生成器子网络L-net、背景覆盖层、通道合并,在F-Net中采用Lab颜色空间对图像进行融合;
F-Net的设计按照以下流程进行:(1)从DatabaseF中选取图像Iin输入F-Net,先对Iin转换为Lab颜色空间,然后进行通道分离,获取的ab通道为信息Ia和Ib,同时分离出来的明度通道信息为Lin;(2)将Iin输入到F-Net,先进入L-net,明度预测,得到明度图像L;(3)在背景覆盖层中对L的背景区的明度用Lin进行覆盖,其输出新的明度图像L′;(4)在通道合并处理中,L′图像的通道与Ia、Ib图像的通道进行合并,进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像,作为F-Net网络的输出;
F-Net设计;输入是图像Iin,其张量形状为Nt×Nt×4,输出是3通道的彩色图像,输出为融合后的结果图像,张量形状为Nt×Nt×3;
对于L-net、背景覆盖层、通道合并三部分结构:(1)L-net输入是Iin,输出L,张量形状为Nt×Nt×1;(2)背景覆盖层,输入是L及前景目标的掩模,输出是背景更新的张量L′,张量形状为Nt×Nt×1;(3)通道合并,输入L′和Ia、Ib,输出三个通道Lab空间的彩色图像;
(a)L-net结构
采用U-net架构,编码器及解码器均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
(1)编码器共有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用Leaky Relu激活函数;第1层卷积核个数为Tk,当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk,取16,依次后面各层卷积核个数增加一倍;
(2)解码器设计为Lt层子结构,每层子结构由转置卷积层和连接层组成。转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层;然后是背景区域覆盖层,最后再生成最终的网络输出,在解码器之后,连接一个Tanh激活层,将网路的输出转换为-1至1之间的浮点数;
(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;
(b)背景覆盖层
将L-net输出的明度图像L在背景覆盖层进行以下处理,并输出图像L′:
其中表示逐元素的乘法,IM表示从Iin的第4通道获取的掩模信息;
步骤3:神经网络的训练与预测
将DatabaseF按照18:1:1的比例划分为训练数据集TrainF、评估数据集EvaluateF与测试数据集TestF;将DatabaseR中数据也按照18:1:1的比例划分为训练数据集TrainR、评估数据集EvaluateR与测试数据集TestR三个部分;将TrainF和TrainR用于网络的训练过程,EvaluateF和EvaluateR用于训练过程中实时评估网络输出性能,TestF和TestR用于对训练完毕的网络进行性能测试;
对F-Net进行100轮次对抗式训练,采用了基于深度学习的无监督学习策略;F-Net网络的损失函数由梯度损失Lgrad与生成器的对抗损失项构成,Lgrad在RGB空间进行定义,利用输入图像与网络输出图像之间的梯度差异的L1范数的平方根形式定义:
其中f(Iin)是网络生成器产生的RGB图像,Gx(Iin)利用前向差分计算Iin的水平梯度,Gy(Iin)利用前向差分计算Iin的垂直梯度;NI是原合成图像中像素的总个数:Nt×Nt,NR表示融合区域中像素个数,Gx(f(Iin))是图像f(Iin)的水平梯度,Gy(f(Iin))是图像f(Iin)的垂直梯度;
对于生成器的对抗损失项,使用NS GAN方法计算抗损失项
其中Y表示真实样本数据集,即背景图像数据集,表示生成的融合图像;D函数表示样本来自于真实样本数据集Y的概率,E表示能量损失函数;
F-Net网络的损失函数LG定义为:
其中l为梯度损失的权重参数;
F-Net网络的判别器对抗损失项定义为:
其中f(X)表示网络输出的融合结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率;表示生成的融合场景图像,Y表示真实样本数据集,表示在Y中出现的概率;
步骤4:图像融合处理
利用步骤2构建的神经网络,并利用步骤3训练得到融合网络的参数,对图像进行外观一致性的融合处理:将Iin输入到F-Net中,得到学习的融合结果图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810650466.4A CN108986058B (zh) | 2018-06-22 | 2018-06-22 | 明度一致性学习的图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810650466.4A CN108986058B (zh) | 2018-06-22 | 2018-06-22 | 明度一致性学习的图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986058A true CN108986058A (zh) | 2018-12-11 |
CN108986058B CN108986058B (zh) | 2021-11-19 |
Family
ID=64538131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810650466.4A Active CN108986058B (zh) | 2018-06-22 | 2018-06-22 | 明度一致性学习的图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986058B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829932A (zh) * | 2019-01-18 | 2019-05-31 | 创新奇智(宁波)科技有限公司 | 一种自动前景提取的数据采集方法及装置 |
CN110008360A (zh) * | 2019-04-09 | 2019-07-12 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
CN110795858A (zh) * | 2019-11-06 | 2020-02-14 | 广东博智林机器人有限公司 | 家装设计图纸的生成方法和装置 |
CN111062861A (zh) * | 2019-12-13 | 2020-04-24 | 广州市玄武无线科技股份有限公司 | 一种陈列图像样本的生成方法及装置 |
CN111402181A (zh) * | 2020-03-13 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 图像融合方法、装置及计算机可读存储介质 |
CN111462162A (zh) * | 2019-01-18 | 2020-07-28 | 上海大学 | 一种特定类别图片的前景分割算法 |
CN111724392A (zh) * | 2020-05-25 | 2020-09-29 | 浙江工业大学 | 一种针对深度学习特征注意力转移的数据处理方法 |
CN112102261A (zh) * | 2020-08-28 | 2020-12-18 | 国网甘肃省电力公司电力科学研究院 | 一种基于多尺度生成对抗网络的篡改图像检测方法 |
CN112651459A (zh) * | 2020-12-31 | 2021-04-13 | 厦门易仕特仪器有限公司 | 深度学习图像对抗样本防御方法、装置、设备及存储介质 |
CN113096037A (zh) * | 2021-03-31 | 2021-07-09 | 北京交通大学 | 一种基于深度学习的轮对光条图像的修复方法 |
CN113436259A (zh) * | 2021-06-23 | 2021-09-24 | 国网智能科技股份有限公司 | 基于深度学习的变电站设备实时定位方法及系统 |
CN114173021A (zh) * | 2022-02-14 | 2022-03-11 | 中国传媒大学 | 基于高清多屏的虚拟演播方法、系统 |
CN114627389A (zh) * | 2022-03-23 | 2022-06-14 | 中国科学院空天信息创新研究院 | 一种基于多时相光学遥感影像的筏式养殖区提取方法 |
CN117522717A (zh) * | 2024-01-03 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 一种图像的合成方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715451A (zh) * | 2015-03-11 | 2015-06-17 | 西安交通大学 | 一种基于颜色及透明度一致优化的图像无缝融合方法 |
CN104899881A (zh) * | 2015-05-28 | 2015-09-09 | 湖南大学 | 一种视频图像中运动车辆阴影检测方法 |
CN107578455A (zh) * | 2017-09-02 | 2018-01-12 | 西安电子科技大学 | 基于卷积神经网络的任意尺寸样本纹理合成方法 |
CN107665101A (zh) * | 2016-07-29 | 2018-02-06 | 佳能株式会社 | 信息处理装置、信息处理方法、存储介质及图像形成装置 |
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
US20180144447A1 (en) * | 2016-11-24 | 2018-05-24 | Canon Kabushiki Kaisha | Image processing apparatus and method for generating high quality image |
CN108090521A (zh) * | 2018-01-12 | 2018-05-29 | 广州视声智能科技有限公司 | 一种生成式对抗网络模型的图像融合方法和判别器 |
-
2018
- 2018-06-22 CN CN201810650466.4A patent/CN108986058B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715451A (zh) * | 2015-03-11 | 2015-06-17 | 西安交通大学 | 一种基于颜色及透明度一致优化的图像无缝融合方法 |
CN104899881A (zh) * | 2015-05-28 | 2015-09-09 | 湖南大学 | 一种视频图像中运动车辆阴影检测方法 |
CN107665101A (zh) * | 2016-07-29 | 2018-02-06 | 佳能株式会社 | 信息处理装置、信息处理方法、存储介质及图像形成装置 |
US20180144447A1 (en) * | 2016-11-24 | 2018-05-24 | Canon Kabushiki Kaisha | Image processing apparatus and method for generating high quality image |
CN107578455A (zh) * | 2017-09-02 | 2018-01-12 | 西安电子科技大学 | 基于卷积神经网络的任意尺寸样本纹理合成方法 |
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN108090521A (zh) * | 2018-01-12 | 2018-05-29 | 广州视声智能科技有限公司 | 一种生成式对抗网络模型的图像融合方法和判别器 |
Non-Patent Citations (3)
Title |
---|
OLAF RONNEBERGER等: "《U-Net: Convolutional Networks for Biomedical Image Segmentation》", 《MEDICAL IMAGE COMPUTING AND COMPUTER-ASSISTED INTERVENTION (MICCAI)》 * |
孟恬 等: "《基于快速行进算法的深度图像增强算法》", 《计算机应用与软件》 * |
柯小玲: "《一种HPF的图像融合方法》", 《闽江学院学报》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462162A (zh) * | 2019-01-18 | 2020-07-28 | 上海大学 | 一种特定类别图片的前景分割算法 |
CN111462162B (zh) * | 2019-01-18 | 2023-07-21 | 上海大学 | 一种特定类别图片的前景分割算法 |
CN109829932A (zh) * | 2019-01-18 | 2019-05-31 | 创新奇智(宁波)科技有限公司 | 一种自动前景提取的数据采集方法及装置 |
CN110008360A (zh) * | 2019-04-09 | 2019-07-12 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
CN110008360B (zh) * | 2019-04-09 | 2020-11-03 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
CN110795858B (zh) * | 2019-11-06 | 2023-04-07 | 广东博智林机器人有限公司 | 家装设计图纸的生成方法和装置 |
CN110795858A (zh) * | 2019-11-06 | 2020-02-14 | 广东博智林机器人有限公司 | 家装设计图纸的生成方法和装置 |
CN111062861A (zh) * | 2019-12-13 | 2020-04-24 | 广州市玄武无线科技股份有限公司 | 一种陈列图像样本的生成方法及装置 |
CN111402181A (zh) * | 2020-03-13 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 图像融合方法、装置及计算机可读存储介质 |
CN111724392A (zh) * | 2020-05-25 | 2020-09-29 | 浙江工业大学 | 一种针对深度学习特征注意力转移的数据处理方法 |
CN112102261A (zh) * | 2020-08-28 | 2020-12-18 | 国网甘肃省电力公司电力科学研究院 | 一种基于多尺度生成对抗网络的篡改图像检测方法 |
CN112651459A (zh) * | 2020-12-31 | 2021-04-13 | 厦门易仕特仪器有限公司 | 深度学习图像对抗样本防御方法、装置、设备及存储介质 |
CN113096037A (zh) * | 2021-03-31 | 2021-07-09 | 北京交通大学 | 一种基于深度学习的轮对光条图像的修复方法 |
CN113096037B (zh) * | 2021-03-31 | 2023-08-22 | 北京交通大学 | 一种基于深度学习的轮对光条图像的修复方法 |
CN113436259A (zh) * | 2021-06-23 | 2021-09-24 | 国网智能科技股份有限公司 | 基于深度学习的变电站设备实时定位方法及系统 |
CN114173021A (zh) * | 2022-02-14 | 2022-03-11 | 中国传媒大学 | 基于高清多屏的虚拟演播方法、系统 |
CN114173021B (zh) * | 2022-02-14 | 2022-06-24 | 中国传媒大学 | 基于高清多屏的虚拟演播方法、系统 |
CN114627389A (zh) * | 2022-03-23 | 2022-06-14 | 中国科学院空天信息创新研究院 | 一种基于多时相光学遥感影像的筏式养殖区提取方法 |
CN117522717A (zh) * | 2024-01-03 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 一种图像的合成方法、装置及设备 |
CN117522717B (zh) * | 2024-01-03 | 2024-04-19 | 支付宝(杭州)信息技术有限公司 | 一种图像的合成方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108986058B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986058A (zh) | 明度一致性学习的图像融合方法 | |
CN111161277B (zh) | 一种基于深度学习的自然图像抠图方法 | |
CN110378985B (zh) | 一种基于gan的动漫绘画辅助创作方法 | |
CN105574827B (zh) | 一种图像去雾的方法、装置 | |
CN105139395B (zh) | 基于小波池化卷积神经网络的sar图像分割方法 | |
CN111784602A (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN109934154B (zh) | 一种遥感影像变化检测方法及检测装置 | |
CN109087375B (zh) | 基于深度学习的图像空洞填充方法 | |
CN107122796A (zh) | 一种基于多分支网络融合模型的光学遥感图像分类方法 | |
CN108734719A (zh) | 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法 | |
CN110516539A (zh) | 基于对抗网络的遥感影像建筑物提取方法、系统、存储介质及设备 | |
CN106096605A (zh) | 一种基于深度学习的图像模糊区域检测方法及装置 | |
CN111783658B (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN106201535A (zh) | 工具栏背景颜色随着图片的主颜色而变换的方法和装置 | |
CN108846334A (zh) | 一种云类别自动识别方法及系统 | |
CN103778443B (zh) | 基于主题模型方法和领域规则库实现场景分析描述的方法 | |
CN110349087A (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN110443759A (zh) | 一种基于深度学习的图像去雾方法 | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及系统 | |
CN111986075A (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN108416397A (zh) | 一种基于ResNet-GCN网络的图像情感分类方法 | |
CN110276753A (zh) | 基于特征空间统计信息映射的目标自适应隐藏方法 | |
CN109978074A (zh) | 基于深度多任务学习的图像美感和情感联合分类方法及系统 | |
CN112906813A (zh) | 一种基于密度聚类和胶囊神经网络的浮选工况识别方法 | |
CN106951912A (zh) | 一种果蔬外观变化识别模型的建立方法和识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |