CN109087375A - 基于深度学习的图像空洞填充方法 - Google Patents

基于深度学习的图像空洞填充方法 Download PDF

Info

Publication number
CN109087375A
CN109087375A CN201810649384.8A CN201810649384A CN109087375A CN 109087375 A CN109087375 A CN 109087375A CN 201810649384 A CN201810649384 A CN 201810649384A CN 109087375 A CN109087375 A CN 109087375A
Authority
CN
China
Prior art keywords
image
net
network
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810649384.8A
Other languages
English (en)
Other versions
CN109087375B (zh
Inventor
全红艳
沈卓荟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810649384.8A priority Critical patent/CN109087375B/zh
Publication of CN109087375A publication Critical patent/CN109087375A/zh
Application granted granted Critical
Publication of CN109087375B publication Critical patent/CN109087375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图像空洞填充方法,该方法同时考虑补全语义和真实感语义的情况下能够实现图像空洞填充功能;设计了包含语义补全网络与真实感增强网络的两阶段深度学习架构。在语义补全网络中,定义了改进的内容损失函数,保证了样本贡献的一致性。在真实感增强网络中,使用语义补全网络的结果作为输入,将内容损失与对抗损失结合,定义了复合损失函数,实现了对任意大小、任意形状缺失区域的补全功能,能够得到符合语义、具有真实感细节的补全结果。

Description

基于深度学习的图像空洞填充方法
技术领域
本发明涉及图像合成技术领域,具体涉及一种基于深度学习的图像空洞填充方法,采用GAN深度学习机制,构建卷积神经网络进行学习,利用自然图像与合成图像混合数据集的建立,解决数据集匮乏的问题。具体考虑补全语义和真实感语义特征,能够实现真实感的图像空洞填充。
背景技术
图像空洞填充技术,是根据图像的已知部分对缺失的未知部分进行填补。在图像补全问题中,待补全的图像一般有较大的缺失空白区域。由于对大块空白区域的补全不仅涉及到图像的结构信息,还涉及到纹理信息的补全,因此图像补全技术一般采取基于结构信息与基于纹理信息相结合的方法。
传统的图像补全技术主要基于图像的结构信息与纹理信息对图像缺失部分进行补全。然而,近年来的大量研究表明,在实际复杂自然图像的补全问题中,仅仅通过图像已知部分的结构、纹理等底层特征,几乎无法得到符合语义环境、具有真实感的图像补全结果。基于深度学习的图像补全技术借助神经网络提取高层特征的能力,引入对于图像语义信息的提取与使用,能够克服传统图像补全技术的缺陷,生成符合语义环境的图像补全结果。
在现有的基于深度学习的图像补全方法中,首先出现了编码器-解码器结构的网络监督学习,使用AlexNet的前五层结构,解码器部分使用五个扩张卷积层实现空洞填充的功能。在此基础上出现了生成器-判别器网络结构,使用对抗损失与待补全部分的内容损失结合定义损失函数,取得了良好的补全结果。除此而外,通过内容生成网络和纹理网络两个卷积神经网络结合得到补全结果,同时,也出现了基于无监督学习框架的图像补全方法。
但是现有方法存在以下问题:基础网络结构较为简单,可能导致网络的学习能力不足,并且对于任意形状的待补全区域,现有方法在训练过程中对生成器与判别器的平衡存在问题,从而可能导致补全结果质量下降。如何建立有效的深度学习的网络模型,有效解决自然图像空洞填充,这都是亟待解决的实际问题。
发明内容
本发明的目的是针对现有技术的不足,并针对图像空洞填充问题中网络性能及真实感填充效果的实际需求,提供一种有效的空洞填充方法,利用深度学习策略,构建卷积神经网络,同时考虑补全语义和真实感语义的情况下有效实现图像空洞填充功能。
实现本发明目的的具体技术方案是:
一种基于深度学习的图像空洞填充方法,其特征在于,同时考虑补全语义和真实感语义的情况下,输入图像分辨率为Nt×Nt,其Nt为224、448或者896,按照以下步骤可以实现图像空洞填充功能:
步骤1:数据集构建
(a)构建自然场景数据集DatabaseSun
从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:
式中是其中的前景图像;
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合 是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再随机选取x幅前景图像,其中x为整数,且1≤x≤5,在[0,NF-1]之间生成x个随机的前景图像序号i为整数,且i=0,1,…,x-1,从SF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
随机生成[0.5,1.0]之间的随机数s,作为前景图像缩放因子,将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
上述生成的IS和IM及完整的背景图像作为一组,进一步生成NS组,其中8742≤NS≤10000;
(b)构建物体场景数据集DatabaseCar
从汽车数据集BMW-10和car-197中选取汽车图像作为背景;前景及掩模图像利用步骤(a)中方法得到;并利用步骤(a)中方法得到NC组数据,14539≤NC≤20000;
步骤2:构建神经网络
采用生成式对抗网络(GAN)进行构建,由语义填充网络Hole-Net和真实感细节增强网络Detail-Net两部分组成,Hole-Net与Detail-Net顺次连接;并且,Hole-Net和Detail-Net输出端都进行区域覆盖处理;
对于Hole-Net,输入图像Iin,其张量形状为Nt×Nt×4;经过Hole-Net语义补全后得到图像IH,张量形状为Nt×Nt×3,然后对IH进行区域覆盖处理如下:
Io=IM⊙IH+(1-IM)⊙Iin (2)
其中⊙表示IH RGB三通道分别与掩模逐元素相乘运算,IM表示Iin的第四通道的空洞掩模信息,Io为区域覆盖的语义补全结果,Io形状为Nt×Nt×3;
进一步将IM和Io输入Detail-Net进行真实感细节增强,Detail-Net的输出结果ID的形状为Nt×Nt×3,再将ID也进行如下区域覆盖处理,然后得到空洞填充的最后结果IE
IE=IM⊙ID+(1-IM)⊙Iin (3)
其中⊙表示ID的RGB三通道分别与掩模逐元素相乘运算;
Hole-Net与Detail-Net结构相似,都是由以下网络构成:
采用U-net架构,编码器及解码均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
(1)编码器有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用Leaky Relu激活函数;第1层卷积核个数为Tk,;当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk取16;依次后面各层卷积核个数增加一倍,编码器输出特征图尺寸为7×7;(2)解码器为Lt层子结构,每层子结构由转置卷积层和连接层组成;转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层,然后是背景区域覆盖层,解码器最后一层连接一个Tanh激活层,需要网路输出为-1至1之间的浮点数;(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;步骤3:神经网络的训练
将DatabaseSun和DatabaseCar中数据分别按照18:1:1的比例划分为训练数据集、评估数据集与测试数据集;利用训练数据集训练网络模型;利用评估数据集,实时评估网络输出并计算评价指标,利用测试数据集对训练完毕的网络进行性能测试;
训练时输入图像IS和IM;首先单独对Hole-Net训练100轮次,训练完毕后,再固定Hole-Net模型训练的结果,对Detail-Net进行训练100轮次;
在Hole-Net训练时,对误差图像取L1范数,内容损失函数定义为:
其中NI为Nt×Nt,NR表示融合区域中像素个数;
Detail-Net训练的损失函数由内容损失项与对抗损失项组成,训练时采用NS GAN方法计算Detail-Net中的对抗损失项,Detail-Net的判别器对抗损失定义为:
其中f(X)表示网络输出的填充结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率;表示生成的空洞填充的场景图像,Y表示真实样本数据集,表示在Y中出现的概率,E表示能量损失函数;
生成器G的对抗损失定义为:
生成器G的总体损失函数LG定义为:
其中λ为内容损失的权重参数,取10≤λ≤15.
步骤4:对输入图像进行空洞填充
使用训练得到的网络模型,可以在自然场景数据集DatabaseSun或者物体场景数据集DatabaseCar取空洞图像及掩模信息输入到所构建的网络中;经过Hole-Net与Detail-Net的处理,最终得到空洞填充的结果。
本发明具有简单、实用的特点,设计了两阶段的图像补全策略,包括语义补全阶段及真实感增强阶段。在语义补全网络中,设计了有效的内容损失函数,保证了样本贡献的一致性;而在真实感增强网络中,使用初步补全结果作为输入,减少了输入中无用信息的影响,结合内容损失与对抗损失定义了合理的损失函数,确保最终补全结果具有真实感。实现了对任意大小、任意形状缺失区域的补全功能,能够得到符合语义、具有真实感细节的补全结果。
附图说明
图1Hole-Net网络空洞补全的结果图;
图2Hole-Net网络与Detail-Net网络结合的填充结果图;
图3语义补全网络训练过程中内容损失变化图;
图4真实感增强网络训练过程中对抗损失项变化图。
具体实施方式
实施例
下面结合附图对本发明进一步说明。
本实施例在PC机上Windows10 64位操作系统下进行实施,其硬件配置是CPU i5-6500,内存16G,GPU NVIDIA GeForce GTX 1060 6G。深度学习库Keras 2.0.8,其采用Tensorflow1.3.0作为后端。编程采用Python语言。
实现本发明目的的具体技术方案是:一种基于深度学习的图像空洞填充方法,特点是构建卷积神经网络,同时考虑补全语义和真实感语义的情况下,输入图像分辨率为Nt×Nt,Nt为224,按照以下步骤可以实现图像空洞填充功能:
步骤1:数据集构建
空洞填充数据集包括两个数据集:自然场景空洞填充数据集DatabaseSun和物体场景空洞填充数据集DatabaseCar,对于DatabaseSun和DatabaseCar按照如下方法构建:
(a)构建DatabaseSun
从pngimg.com网站中选出3810张前景图像,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出3810张前景图像构建SF集合:
式中是其中的前景图像;
从SUN2012数据集筛选2182张背景图像,构建背景图像集合 是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
场景合成:(1)在[0,2181]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再随机选取5幅前景图像,在[0,3809]之间生成5个随机的前景图像序号i为整数,且i=0,1,…,4,从SF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
随机生成[0.5,1.0]之间的随机数s,作为前景图像缩放因子,将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
上述生成的IS和IM及完整的背景图像作为一组,进一步生成8742组;
(b)构建DatabaseCar
从汽车数据集BMW-10和car-197中选取汽车图像作为背景;前景及掩模图像利用步骤(a)中方法得到;并利用步骤(a)中方法得到14539组数据;
步骤2:构建神经网络
采用生成式对抗网络(GAN)进行构建,由语义填充网络Hole-Net和真实感细节增强网络Detail-Net两部分组成,Hole-Net与Detail-Net顺次连接;并且,Hole-Net和Detail-Net输出端都进行区域覆盖处理;
对于Hole-Net,输入图像Iin,其张量形状为Nt×Nt×4;经过Hole-Net语义补全后得到图像IH,张量形状为Nt×Nt×3,然后对IH进行区域覆盖处理如下:
Io=IM⊙IH+(1-IM)⊙Iin (2)
其中⊙表示IH RGB三通道分别与掩模逐元素相乘运算,IM表示Iin的第四通道的空洞掩模信息,Io为区域覆盖的语义补全结果,Io形状为Nt×Nt×3;
进一步将IM和Io输入Detail-Net进行真实感细节增强,Detail-Net的输出结果ID的形状为Nt×Nt×3,再将ID也进行如下区域覆盖处理,然后得到空洞填充的最后结果IE
IE=IM⊙ID+(1-IM)⊙Iin (3)
其中⊙表示ID的RGB三通道分别与掩模逐元素相乘运算;
Hole-Net与Detail-Net结构相似,都是由以下网络构成:
采用U-net架构,编码器及解码均采用Lt层卷积神经网络的架构,Lt为5;
(1)编码器有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用Leaky Relu激活函数;第1层卷积核个数为Tk,,Tk,取64;依次后面各层卷积核个数增加一倍,编码器输出特征图尺寸为7×7;(2)解码器为Lt层子结构,每层子结构由转置卷积层和连接层组成;转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层,然后是背景区域覆盖层,解码器最后一层连接一个Tanh激活层,需要网路输出为-1至1之间的浮点数;(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;
步骤3:神经网络的训练
将DatabaseSun和DatabaseCar中数据分别按照18:1:1的比例划分为训练数据集、评估数据集与测试数据集;利用训练数据集训练网络模型;利用评估数据集,实时评估网络输出并计算评价指标,利用测试数据集对训练完毕的网络进行性能测试;
训练时输入图像IS和IM;首先单独对Hole-Net训练100轮次,训练完毕后,再固定Hole-Net模型训练的结果,对Detail-Net进行训练100轮次;
在Hole-Net训练时,对误差图像取L1范数,内容损失函数定义为:
其中NI为Nt×Nt,即224×224=50176,NR表示融合区域中像素个数;
Detail-Net训练的损失函数由内容损失项与对抗损失项组成,训练时采用NS GAN方法计算Detail-Net中的对抗损失项,Detail-Net的判别器对抗损失定义为:
其中f(X)表示网络输出的填充结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率;表示生成的空洞填充的场景图像,Y表示真实样本数据集,表示在Y中出现的概率,E表示能量损失函数;
生成器G的对抗损失定义为:
生成器G的总体损失函数LG定义为:
其中λ为内容损失的权重参数;
步骤4:对输入图像进行空洞填充
使用训练得到的网络模型,可以在自然场景数据集DatabaseSun或者物体场景数据集DatabaseCar取空洞图像及掩模信息输入到所构建的网络中;经过Hole-Net与Detail-Net的处理,最终得到空洞填充的结果。
训练过程中的超参数选择为:Dropout层中Dropout率取0.8;优化器采用Adam优化器,并且各超参数取默认值;每批次的样本数取8;学习率生成网络的学习率取10-4,判别网络的学习率取10-4,内容损失项权重参数λ取10。
图1为Hole-Net网络空洞补全的结果图,第1行结果来自于DatabaseSun数据集,而第2行结果来自于DatabaseCar数据集。左侧第1列为输入的带空洞的图像,第2列至第6列分别为迭代20轮次、40轮次、60轮次、80轮次及100轮次的输出结果,从图中可以看出,迭代100次可以得到就比较满意的空洞填充结果。
图2是Hole-Net网络与Detail-Net网络结合的填充结果,第1行结果来自于DatabaseSun数据集,而第2行结果来自于DatabaseCar数据集。左侧第1列为输入的带空洞的图像,第2列至第6列分别为迭代20轮次、40轮次、60轮次、80轮次及100轮次的输出结果,从图中可以看出,迭代100次可以得到就比较满意的真实感空洞填充结果。从图1和图2可以明显看出Detail-Net网络填充后真实感增强了。
图3是语义补全网络训练过程中内容损失变化,在语义补全网络的训练中,每轮训练的用时约为500秒。图3记录了训练数据与评估数据的内容损失均值,左图是来自于DatabaseSun数据集的结果,右图是来自于DatabaseCar数据集的结果。从义补全网络训练过程中内容损失变化可以看出,在评估中,基于内容的语义空洞填充有一定损失误差。
图4是真实感增强网络训练过程中对抗损失项变化,真实感增强网络的训练中,每轮训练的用时约为1500秒,图中记录了生成网络与判别网络的对抗损失项均值,左图是来自于DatabaseSun数据集的结果,右图是来自于DatabaseCar数据集的结果。从真实感增强网络训练过程中对抗损失项变化可以看出生成网络与判别网络对抗损失项的变化趋势,在整个训练过程中,生成网络的对抗损失项和判别网络的对抗损失项呈现出竞争关系,并始终保持在接近的水平,未出现某一方极小或极大的情况,这表明生成器-判别器结构在训练过程达到了较好的平衡性,整体训练情况良好。还可以看出,评估数据上的对抗损失项与训练数据同样保持了接近的水平,这表明网络的训练结果具有泛用性,未出现过拟合的情况。

Claims (1)

1.一种基于深度学习的图像空洞填充方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:
步骤1:数据集构建
(a)构建自然场景数据集DatabaseSun
从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:
式中是其中的前景图像;
从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合 是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;
场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再随机选取x幅前景图像,其中x为整数,且1≤x≤5,在[0,NF-1]之间生成x个随机的前景图像序号i为整数,且i=0,1,…,x-1,从SF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为
随机生成[0.5,1.0]之间的随机数s,作为前景图像缩放因子,将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;
上述生成的IS和IM及完整的背景图像作为一组,进一步生成NS组,其中8742≤NS≤10000;
(b)构建物体场景数据集DatabaseCar
从汽车数据集BMW-10和car-197中选取汽车图像作为背景;前景及掩模图像利用步骤(a)中方法得到;并利用步骤(a)中方法得到NC组数据,14539≤NC≤20000;
步骤2:构建神经网络
采用生成式对抗网络(GAN)进行构建,由语义填充网络Hole-Net和真实感细节增强网络Detail-Net两部分组成,Hole-Net与Detail-Net顺次连接;并且,Hole-Net和Detail-Net输出端都进行区域覆盖处理;
对于Hole-Net,输入图像Iin,其张量形状为Nt×Nt×4;经过Hole-Net语义补全后得到图像IH,张量形状为Nt×Nt×3,然后对IH进行区域覆盖处理如下:
其中表示IH RGB三通道分别与掩模逐元素相乘运算,IM表示Iin的第四通道的空洞掩模信息,Io为区域覆盖的语义补全结果,Io形状为Nt×Nt×3;
进一步将IM和Io输入Detail-Net进行真实感细节增强,Detail-Net的输出结果ID的形状为Nt×Nt×3,再将ID也进行如下区域覆盖处理,然后得到空洞填充的最后结果IE
其中表示ID的RGB三通道分别与掩模逐元素相乘运算;
Hole-Net与Detail-Net结构相似,都是由以下网络构成:
采用U-net架构,编码器及解码均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;
(1)编码器有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用Leaky Relu激活函数;第1层卷积核个数为Tk,;当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk取16;依次后面各层卷积核个数增加一倍,编码器输出特征图尺寸为7×7;(2)解码器为Lt层子结构,每层子结构由转置卷积层和连接层组成;转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层,然后是背景区域覆盖层,解码器最后一层连接一个Tanh激活层,需要网路输出为-1至1之间的浮点数;(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;步骤3:神经网络的训练
将DatabaseSun和DatabaseCar中数据分别按照18:1:1的比例划分为训练数据集、评估数据集与测试数据集;利用训练数据集训练网络模型;利用评估数据集,实时评估网络输出并计算评价指标,利用测试数据集对训练完毕的网络进行性能测试;
训练时输入图像Iin,首先单独对Hole-Net训练100轮次,训练完毕后,再固定Hole-Net模型训练的结果,对Detail-Net进行训练100轮次;
在Hole-Net训练时,对误差图像取L1范数,内容损失函数定义为:
其中NI为Nt×Nt,NR表示融合区域中像素个数;
Detail-Net训练的损失函数由内容损失项与对抗损失项组成,训练时采用NS GAN方法计算Detail-Net中的对抗损失项,Detail-Net的判别器对抗损失定义为:
其中f(X)表示网络输出的填充结果的图像集;x表示单个真实样本,即真实自然场景图像,D(x)函数表示样本x在f(X)中出现的概率;表示生成的空洞填充的场景图像,Y表示真实样本数据集,表示在Y中出现的概率,E表示能量损失函数;
生成器G的对抗损失定义为:
生成器G的总体损失函数LG定义为:
其中λ为内容损失的权重参数,10≤λ≤15;
步骤4:对输入图像进行空洞填充
使用训练得到的网络模型,在自然场景数据集DatabaseSun或者物体场景数据集DatabaseCar取空洞图像及掩模信息输入到所构建的网络中;经过Hole-Net与Detail-Net的处理,最终得到空洞填充的结果。
CN201810649384.8A 2018-06-22 2018-06-22 基于深度学习的图像空洞填充方法 Active CN109087375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810649384.8A CN109087375B (zh) 2018-06-22 2018-06-22 基于深度学习的图像空洞填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810649384.8A CN109087375B (zh) 2018-06-22 2018-06-22 基于深度学习的图像空洞填充方法

Publications (2)

Publication Number Publication Date
CN109087375A true CN109087375A (zh) 2018-12-25
CN109087375B CN109087375B (zh) 2023-06-23

Family

ID=64840143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810649384.8A Active CN109087375B (zh) 2018-06-22 2018-06-22 基于深度学习的图像空洞填充方法

Country Status (1)

Country Link
CN (1) CN109087375B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978069A (zh) * 2019-04-02 2019-07-05 南京大学 降低ResNeXt模型在图片分类中过拟合现象的方法
CN110349087A (zh) * 2019-07-08 2019-10-18 华南理工大学 基于适应性卷积的rgb-d图像高质量网格生成方法
CN110378845A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于卷积神经网络的极端条件下的图像修复方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN110910327A (zh) * 2019-11-26 2020-03-24 福州大学 一种基于掩模增强网络模型的无监督深度补全方法
CN111614974A (zh) * 2020-04-07 2020-09-01 上海推乐信息技术服务有限公司 一种视频图像修复方法和系统
WO2022028313A1 (en) * 2020-08-04 2022-02-10 Ping An Technology (Shenzhen) Co., Ltd. Method and device for image generation and colorization
CN115294263A (zh) * 2022-10-08 2022-11-04 武汉大学 一种光照估计模型、网络、方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
CN108171663A (zh) * 2017-12-22 2018-06-15 哈尔滨工业大学 基于特征图最近邻替换的卷积神经网络的图像填充系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN108171663A (zh) * 2017-12-22 2018-06-15 哈尔滨工业大学 基于特征图最近邻替换的卷积神经网络的图像填充系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAO,HF,ET AL: "Three-dimensional object reconstruction using patch significance correspondence", JOURNAL OF ELECTRONIC IMAGING, vol. 26, no. 2, pages 023017 - 1 *
肖旭: "基于深度学习的图像语义分割研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2018, pages 138 - 1011 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978069A (zh) * 2019-04-02 2019-07-05 南京大学 降低ResNeXt模型在图片分类中过拟合现象的方法
CN110378845A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于卷积神经网络的极端条件下的图像修复方法
CN110378845B (zh) * 2019-06-17 2021-05-25 杭州电子科技大学 一种基于卷积神经网络的极端条件下的图像修复方法
CN110349087B (zh) * 2019-07-08 2021-02-12 华南理工大学 基于适应性卷积的rgb-d图像高质量网格生成方法
CN110349087A (zh) * 2019-07-08 2019-10-18 华南理工大学 基于适应性卷积的rgb-d图像高质量网格生成方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN110633748B (zh) * 2019-09-16 2022-06-14 电子科技大学 一种鲁棒的自动人脸融合方法
CN110910327A (zh) * 2019-11-26 2020-03-24 福州大学 一种基于掩模增强网络模型的无监督深度补全方法
CN110910327B (zh) * 2019-11-26 2023-04-07 福州大学 一种基于掩模增强网络模型的无监督深度补全方法
CN111614974A (zh) * 2020-04-07 2020-09-01 上海推乐信息技术服务有限公司 一种视频图像修复方法和系统
CN111614974B (zh) * 2020-04-07 2021-11-30 上海推乐信息技术服务有限公司 一种视频图像修复方法和系统
WO2022028313A1 (en) * 2020-08-04 2022-02-10 Ping An Technology (Shenzhen) Co., Ltd. Method and device for image generation and colorization
CN115294263A (zh) * 2022-10-08 2022-11-04 武汉大学 一种光照估计模型、网络、方法及系统

Also Published As

Publication number Publication date
CN109087375B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN109087375A (zh) 基于深度学习的图像空洞填充方法
CN113011499B (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
CN113159051B (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN107609587B (zh) 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN105069825B (zh) 基于深度置信网络的图像超分辨率重建方法
CN108460746B (zh) 一种基于结构和纹理分层预测的图像修复方法
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
CN111985405B (zh) 一种人脸年龄合成方法及系统
CN106250931A (zh) 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN111583135B (zh) 一种核预测神经网络蒙特卡罗渲染图像去噪方法
CN111695467A (zh) 基于超像素样本扩充的空谱全卷积高光谱图像分类方法
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN108986058A (zh) 明度一致性学习的图像融合方法
CN111986075B (zh) 一种目标边缘清晰化的风格迁移方法
CN111738268A (zh) 一种基于随机块的高分遥感图像的语义分割方法及系统
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN113392711B (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN106250856A (zh) 一种基于非监督特征学习的高分辨率图像场景分类方法
CN112699838B (zh) 基于光谱诊断特征加权的高光谱混合像元非线性盲分解方法
CN112561799A (zh) 一种红外图像超分辨率重建方法
CN111914617B (zh) 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN116935043A (zh) 一种基于多任务生成对抗网络的典型地物遥感图像生成方法
CN115330620A (zh) 一种基于循环生成对抗网络的图像去雾方法
Kan et al. A GAN-based input-size flexibility model for single image dehazing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant