CN110895795A - 改进的语义图像修补模型方法 - Google Patents

改进的语义图像修补模型方法 Download PDF

Info

Publication number
CN110895795A
CN110895795A CN201910027711.0A CN201910027711A CN110895795A CN 110895795 A CN110895795 A CN 110895795A CN 201910027711 A CN201910027711 A CN 201910027711A CN 110895795 A CN110895795 A CN 110895795A
Authority
CN
China
Prior art keywords
image
content
style
model
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910027711.0A
Other languages
English (en)
Inventor
刘瑞军
师于茜
杨睿
李善玺
孙悦红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Publication of CN110895795A publication Critical patent/CN110895795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种改进的语义图像修补模型方法,主要包括内容生成、风格生成、画作鉴别在内的模块化模型。通过先进的深度生成模式产生修复图像内容,通过风格生成模型使生成图像能够更好地适应风格转移对艺术风格,纹理,结构的影响。采用本发明技术方案,能够对大面积缺失的绘画图像进行画作修补,使其更具创作性和真实感,同时为艺术品的修复和识别提供了一定的参考价值。

Description

改进的语义图像修补模型方法
技术领域
本发明涉及数字图像处理领域的图像内容识别填充、绘画图像领域的大面积图像补全,尤其涉及一种改进的语义图像修补模型方法。
背景技术
内容识别填充是数字图像处理研究的重要内容,其目的是根据图像现有的未破损的信息,同时按照一定的修复规则对图像的缺失或损坏部分进行填补,使修复后的图像接近或达到原图像的视觉效果。如今许多围绕图像相关应用的成果,例如图像编辑和修复损坏绘画等工作都受益于不断发展的内容识别填充技术。有很多方法可以实现内容识别填充,图像修复和图像补全是其中两种密切相关的技术。
图像修复主要是针对图中的噪音或者是一些其他的痕迹对图像造成的损坏进行图像的修复,主要的工作体现在纠正虚假或损坏数据或者移除不需要的对象。传统的修补方法通常基于本地或非本地信息来恢复图像。大多数现有的方法都是为单幅图像修复而设计的。它们基于输入图像中可用的信息,并利用图像先验来解决处理不当的问题。例如,Total variation(TV)主要考虑一张自然图像的平滑特性,这种特性能用于填补图像中的小部分缺失区域或者是去除图像中的杂乱和分散的噪声。PatchMatch(PM)基于本地的图像,在图像未破损部分搜索与缺失区域有可能相似的内容或纹理,并且具有较高的质量和效率。然而,这类修复方法具有一定的局限性,单图像修复方法只能处理一些小的甚至可以说无关紧要的破损或者缺失,同时需要将合适的信息包含在输入图像中,例如相似的像素,结构或补丁。如果缺失或破损的区域较大并且与本地图像中的其他信息关系不大,这些方法对图像的恢复效果就会变得差强人意。为了解决大面积缺失区域的修复问题,非局部方法尝试使用感知信息预测缺失像素有可能的情况。Hays和Efros提出从一个外部的数据库中剪切和粘贴语义相似的补丁。但这种方法的局限在于数据库的大小可能无限大,同时需要存储的注释内容可能会使检索过程变得无限缓慢。几年来,随着计算机视觉技术和机器学习方法的不断发展,基于学习的图像修补方法已经有个很大的进展。特别是图像特征字典和神经网络的应用,使得图像修复的自动化过程有了可能。但是目前这个方法还是在针对一些小区域或者去除图像中的噪音在做一些努力。
图像补全主要是针对图像的缺失内容进行补全。近年来迅速发展的语义修复技术是指基于图像的语义信息来分析和以此修复图像中的大块缺失区域。针对图像修复工作中出现的大面积的缺失或者修复内容,Pathak等人提出的上下文编码器Context Encoder(CE)使用神经网络来对图像的语境区域进行编码,以此预测缺失或者需要修复的内容。但是CE仅仅是在训练阶段利用了孔洞的结构,所以导致其生成的图像较为模糊或者不真实。针对这一情况,Raymond和Chen等人提出了一种新的语义图像修补方法,可以针对任意形状的孔洞进行修复,同时能保证图像的美观和真实性,但是这种端到端的训练过于依赖训练数据,同时,在纹理和结构上的处理不够完善,导致生成的图像不够美观。
综上所述,针对图像大面积的缺失,特别是在图像整个场景相对复杂的情况下,如绘画作品的大面积缺失,以上的方法不能得到比较好的修补效果。
发明内容
为了克服上述现有技术的不足,本发明的主要目的在于提供一种改进的语义图像修补模型方法。本发明的方法针对绘画图像,解决了利用目前深度生成模型的最近研究成果,对数字绘画图像进行方法改进和模型构建的问题,其中,包括利用内容生成、风格生成、画作鉴别在内的模块化模型等。并且,还能有效的应用于各类数据集。进而,通过本发明的在艺术绘画中人脸画像的修复模式,不仅保证修补画像的内容准确,同时也保证风格自然(不同画家之间存在风格差异)和结构统一,并对今后在该领域开展的工作具有一定的借鉴作用。
本发明一方面提供一种改进的语义图像修补模型方法,通过图像内容生成模型与图像风格转换模型修补图像缺失部分并对其进行艺术性的还原,使绘画图像的语境信息与感知信息进行较好融合。本发明的方法,通过图像内容生成的处理,对绘画图像进行缺失部分的修补;通过画作鉴别的处理,对所述修补图像的效果进行判别;通过风格生成的处理,对所述修补图像的风格、纹理、颜色方面进行调整;以实现对图像的修补。
其中,模型的建立过程具体包括如下步骤:
其中,图像内容生成包括:
1)选取补全内容的生成模型:基于当前修补图像的需求,根据当前补全内容生成模型的两类方法生成式对抗网络Generative Adversarial Networks(GANs)和变分自编码器Variational Autoencoders(VAEs)的特点,选择其中一个模型建立图像内容生成模型,如:从中选择一个模型建立生成模型。
其中,VAEs的生成图像更为平滑,对于一般展示内容的绘画图像更合适。
其中,GANs是目前最热门的生成模型之一,通过训练生成参数模型,GANs能够生成高质量的图像,对于需要展示细节内容的绘画图像更合适。
2)训练内容生成模型:
当选择GANs模型生成图像内容时,生成网络Gx采用深度卷积对抗生成网络DCGAN,鉴别网络Dx采用传统的卷积神经网络,通过训练好的生成模型Gx获得修复后的图像编码
Figure BDA0001943104370000031
定义标准内容损失捕获未损坏图像区域的可用信息特征,生成器Gx找到最优化的编码
Figure BDA0001943104370000032
时,再通过鉴别器Dx
Figure BDA0001943104370000033
进行鉴别。
以GANs模型生成图像内容为例训练内容生成模型。当用GANs模型生成图像内容时将整个图像理解为一个具有特定概率分布的样本,通过学习和训练有可能的分布情况,得到最有可能的解。其中,生成网络Gx采用深度卷积对抗生成网络DCGAN,鉴别网络Dx采用传统的卷积神经网络。生成器Gx能够从Pz中获取一个标准分布点z并以此生成一个图像的模拟样本Pdata,其中Pdata∈[-1,1]。目标是使用训练好的生成模型Gx获得修复后的图像编码
Figure BDA0001943104370000041
Pz表示一个从[-1,1]的均匀分布,其中,生成模型Gx寻找最优的编码
Figure BDA0001943104370000042
的过程被定义为表示为式1:
Figure BDA0001943104370000043
Lc是损失函数,z为生成器Gx从Pz中获取的一个标准分布点,Pz表示一个从[-1,1]的均匀分布,y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分。
其中,可以定义标准内容损失捕获未损坏图像区域的可用信息特征。内容损失的定义为,未损坏像素的重要性与其周围受损像素的数量成正比,而相对的,距离缺失越远的像素在修复过程中扮演的角色就越小。内容损失捕获未损坏图像区域可用信息特征的过程,可以使用加权Wi来表示这个过程:
Figure BDA0001943104370000044
式中,i代表图像中像素的位置索引,其中i∈D,D为图像的像素点集合,D∈N*,N*代表正整数。wi代表在位置i处的权重值,N(i)是在本地区域位置i处的邻居集合,|N(i)|是N(i)的基数,本地区域的大小为8;M是与图像大小相等的二进制掩码。j是属于N(i)内的像素点,j∈N*,Mj代表j处的二进制掩码,Mi代表i处的二进制掩码。
内容损失被定义为修复图像和未损坏部分图像之间的加权l1-norm difference,定义如下:
Lc(z|y,M)=||w⊙(G(z)-u)||1 (式3)
其中,z为生成器Gx从Pz中获取的一个标准分布点(Pz表示一个从[-1,1]的均匀分布),y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分,w代表权重,G(z)代表以y为输入,以z为输出的生成器Gx生成的修补图像信息。
当生成器Gx找到最优化的编码
Figure BDA0001943104370000051
时,再通过鉴别器Dx
Figure BDA0001943104370000052
进行鉴别。直到真样本与假样本无法区分,使用自适应矩估计优化Adam算法进行此阶段的优化,通过使用随机水平翻转训练图像来实现数据增强。
其中,通过图像风格转换模型对本阶段生成图像进行处理,使之达到更好的表现效果。图像风格生成包括:
使用卷积神经网络CNN(Convolutional Neural Networks)对上阶段生成图像进行处理,减少与缺损图像在风格、纹理、颜色方面的差距。
其中,风格生成模型使用可视几何组VGG网络。如:使用19层的VGG网络,建立风格生成模型,使用平均池化层代替最大池化层;将修补图像的内容与自然风格分离后再合并,通过卷积神经网络提取原始图像的内容信息与风格图像的纹理信息,并将其融合在生成图像中,通过BP(Back Propagation,后向传播)算法降低损失函数,求得最终生成图像。更优的算法如:将图像的内容与自然风格分离后再合并,通过卷积神经网络提取原始图像的内容信息与风格图像的纹理信息,并将其融合在生成图像中,通过BP(Back Propagation,后向传播)算法降低损失函数,求得最终生成图像。
其中,更具体地,令
Figure BDA0001943104370000053
分别代表风格图像、已修复图像、最终生成图像,其中
Figure BDA0001943104370000056
最初为随机化的白噪声图像。令Al、Pl、Fl分别代表风格图像、已修复图像、最终生成图像在第l层的特征表示,其中Al用于
Figure BDA0001943104370000054
的图像风格生成,Pl用于
Figure BDA0001943104370000055
的图像内容生成。
其中,在图像内容部分中,将
Figure BDA0001943104370000061
作为输入,在VGG网络中生成Pl。定义内容部分的损失函数为:
Figure BDA0001943104370000062
其中
Figure BDA0001943104370000063
表示将
Figure BDA0001943104370000064
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,l代表第l层。
Figure BDA0001943104370000065
表示将
Figure BDA0001943104370000066
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,其中l是属于[1,19]间的整数,i是属于[1,512]间的整数,j代表图像中像素的位置索引且j∈D,D为图像的像素点集合,D∈N*,N*代表正整数。
其中,在图像风格生成部分中,采用格拉姆Gram矩阵表达图像的风格特征。定义风格部分的损失函数为:
Figure BDA0001943104370000067
Figure BDA0001943104370000068
表示对l层的第i个特征图和第j个特征图的內积操作,计算公式为
Figure BDA0001943104370000069
Nl表示第l层网络中特征图的个数,Ml表示每个特征图的大小,
Figure BDA00019431043700000610
表示将
Figure BDA00019431043700000611
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值。
其中,定义风格生成部分的总体损失函数为:
Figure BDA00019431043700000612
其中,
Figure BDA00019431043700000613
分别代表已修复图像、风格图像,α和β分别是内容和风格的权重因子,设置α/β的值为1×10-3,再求得
Figure BDA00019431043700000614
通过
Figure BDA00019431043700000615
不断循环得到更新的
Figure BDA0001943104370000071
直到得到最好的风格转换效果。本发明通过优化算法不断更新
Figure BDA0001943104370000072
直到得到更好的修补效果。
根据本发明的方法,其在训练数据表示方面具有较强的专业性,能够对损伤图像的风格特征进行预测。根据本发明的方法在绘画图像领域中的应用,可以对缺失图像进行更多的艺术修复,同时也具有很强的艺术性。
与现有技术相比,本发明的有益效果是:
目前内容识别填充技术主要通过图像修复技术和图像补全技术来实现。图像修复方法通常基于本地或非本地信息来恢复图像,大多数现有的方法都是为单幅图像修复而设计的,例如利用图像的平滑特性填补图像中的小部分缺失区域。但是单图像修复方法只能处理一些小的破损或者缺失,如果缺失或破损的区域较大并且与本地图像中的其他信息关系不大,这些方法对图像的恢复效果就会变得差强人意。使用感知信息预测缺失像素可以用来解决大面积缺失区域的修复问题,需要从一个外部的数据库中剪切和粘贴语义相似的补丁。但这种方法的局限于数据库的大小。图像补全技术中,使用神经网络来对图像的语境区域进行编码可以预测缺失或者需要修复的内容,但是此方法会导致生成的图像较为模糊或者不真实。目前一种端到端的语义图像修补方法,可以针对任意形状的孔洞进行修复,同时能保证图像的美观和真实性,但是这种方法过于依赖训练数据,同时在纹理和结构上的处理不够完善,生成的图像不够美观。
在本发明中,首先采用使用神经网络来对图像的语境区域进行编码,预测图像缺失或者需要修复的内容,在此基础上,再通过卷积神经网络对已修复图像进行风格转移,通过风格生成模型对修补图像的风格、纹理、颜色方面进行调整,不仅保证了修复图像的内容专区定,同时也保证了修复图像的风格自然和结构同一。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明提供的一种改进的语义图像修复模型方法的流程框图。
图2为本发明与CE方法在CelebA数据集上对于中央缺失图像西修补效果的对比图。
图3为本发明与CE方法在CelebA数据集上对于随机缺失图像西修补效果的对比图。
图4为本发明与CE方法在FiP数据集上对于中央缺失图像西修补效果的对比图。
图5为本发明与CE方法在FiP数据集上对于随机缺失图像修补效果的对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据发明的实施例的一种改进的语义图像修复模型方法。其借助于目前最新的深度学习研究成果,通过内容生成模型对绘画图像进行缺失部分的修补,通过画作鉴别模型对修补图像效果进行判别,通过风格生成模型对修补图像的风格、纹理、颜色方面进行调整。
在一个实施方式中,该方法在两个数据集上进行评估:名人面孔属性数据集CelebFaces Attributes Dataset(CelebA)数据集和绘画面孔数据集The Face in PaintingDataset(FiP)数据集。CelebA包含202,599张脸部图像,其中选择1/10作为测试数据,剩余图像作为训练数据。进行实验的过程中,使用开源人脸识别Openface提取这些图像中的人脸并将其裁剪为64×64的大小以适应实验所需的模型结构。The Face in PaintingDataset是包含13135幅油画的人脸图像的训练数据集。图像的处理方式与CelebA数据集相同。其中,图像的缺失方式分为两类:1)图像中央缺失;2)图像随机25%缺失。
下面将结合图1所示的流程,通过一个优选的具体实施例,说明本发明的实现方式。
步骤1、图像内容生成:
1)选取补全内容的生成模型:
目前对于补全内容生成模型存在两类不同的方法,Generative AdversarialNetworks(GANs)和Variational Autoencoders(VAEs)。相比于GANs,VAEs生成的图像更为平滑,对于可能需要展示细节内容的绘画图像可能不太合适。GANs是目前最热门的生成模型之一,一般包括两个网络,一个生成器G,一个判别器D。在训练过程中,会把生成器生成的图像样本和真实图像样本随机地传送一张给判别器D。判别器D的目标是尽可能正确地识别出真实样本(程序输出为“true”或者“1”),和尽可能正确地找出人为生成的样本,也就是假样本(程序输出为“false”或者“0”)。而生成器的目标则和判别器相反,就是尽可能最小化判别模型找出它的概率。这样G和D就组成了一个最小最大博弈,在训练过程中双方都不断优化自己,直到达到平衡——双方都无法变得更好,也就是假样本与真样本完全不可区分。通过训练生成参数模型,GANs能够生成高质量的图像。因此其中,采用GANs模型生成图像内容。
2)训练内容生成模型:
为了给图像中缺失的区域生成合适的内容,将整个图像理解为一个具有特定概率分布的样本,通过学习和训练有可能的分布情况,得到最有可能的解。
在一个实施方式中,输入是一个标准采样向量z~Pz,Pz表示一个从[-1,1]的均匀分布;输出为一张64×64×3的RGB图像。其中,生成网络Gx采用深度卷积对抗生成网络(DCGAN),使用从[-1,1]的均匀分布中随机采样的100维矢量并生成64×64×3RGB图像。
其中,鉴别网络Dx采用传统的卷积神经网络,输入图层为RGB图像,最后一个输出图层为两类SoftMax。通过训练,生成器Gx能够从Pz中获取一个标准分布点z并从中生成一个图像的模拟样本Pdata,其中Pdata∈[-1,1]。
其中,优选地,目标是恢复“最可能”的接近损坏图像的编码
Figure BDA0001943104370000101
在获得
Figure BDA0001943104370000102
之后,可以使用训练好的生成模型Gx来生成图像的缺失内容。更具体的说,寻找
Figure BDA0001943104370000103
的过程是一个优化问题。假设y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分。
因此,生成模型Gx寻找最优的编码
Figure BDA0001943104370000104
的过程被定义为:
Figure BDA0001943104370000105
其中,Lc是损失函数,将在下文被详细描述。z为生成器Gx从Pz中获取的一个标准分布点(Pz表示一个从[-1,1]的均匀分布),y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分。
为了填补较大的缺失区域,需要充分利用未损坏的可用数据。为此需要定义标准内容损失来捕获这些可用信息的特征。对于内容损失来说,一个常用的方法就是计算生成的样本和输入图像y的未损坏部分之间的l2-norm。然而,这样的损失计算方式对图像y中的每个像素都均等对待,这显然是不明智的。图像中的很多其他信息对修复内容并没有帮助,甚至还会影响修复内容的效果。因此,为了找到最优化的编码
Figure BDA0001943104370000106
在一个实施方式中,主要考虑靠近孔洞的周围区域。为了实现这个目标,使用了Raymond和Chen等人提出内容损失定义,即未损坏像素的重要性与其周围受损像素的数量成正比。而相对的,距离缺失越远的像素在修复过程中扮演的角色就越小。
使用一个加权wi来表示这个过程:
Figure BDA0001943104370000111
其中,i代表图像中像素的位置索引,其中i∈D,D为图像的像素点集合,D∈N*,N*代表正整数。wi代表在位置i处的权重值,N(i)是在本地区域位置i处的邻居集合,|N(i)|是N(i)的基数。M是与图像大小相等的二进制掩码,用来指定缺失的部分。本地区域的大小为8。j是属于N(i)内的像素点,j∈N*,Mj代表j处的二进制掩码,Mi代表i处的二进制掩码。
内容损失被定义为修复图像和未损坏部分图像之间的加权l1-norm difference,定义如下:
Lc(z|y,M)=||w⊙(G(z)-y)||1 (式3)
z为生成器Gx从Pz中获取的一个标准分布点(Pz表示一个从[-1,1]的均匀分布),y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分,w代表权重,G(z)代表以y为输入,以z为输出的生成器Gx生成的修补图像信息。
当生成器Gx找到最优化的编码
Figure BDA0001943104370000112
时,再通过鉴别器Dx
Figure BDA0001943104370000113
进行鉴别,直到真样本与假样本无法区分。本实施方式使用自适应矩估计优化Adam进行此阶段的优化,通过使用随机水平翻转训练图像来实现数据增强。在本实施方式进行实验的完成阶段使用1,500次迭代的反向传播在潜在空间找到
Figure BDA0001943104370000114
所有测试数据集都使用相同的设置。
由于损坏的数据y既不是从真实图像分布中绘制的,也不是从生成的图像分布中绘制的,因此导致生成图像的效果较差。本实施方式在下一步通过图像风格转换模型对本阶段生成图像进行处理,使之达到更好的表现效果。
步骤2、图像风格生成:
此阶段使用CNN(Convolutional Neural Networks)对上阶段生成图像进行处理,减少与缺损图像在风格、纹理、颜色方面的差距。风格生成模型具体使用16个卷积层和5个池化层的规范化版本的19层VGG网络。本实施方式对VGG网络进行改进以使利用本实施方式的实验效果达到最佳,具体来讲,本阶段不使用全连接层,并使用平均池化层代替最大池化层。算法的核心思想是将图像的内容与自然风格分离后再合并,通过卷积神经网络提取原始图像的内容信息与风格图像的纹理信息,并将其融合在生成图像中,通过BP算法降低损失函数,求得最终生成图像。由于原始图像有很大的缺失区域,直接提取原始图像会对纹理风格产生影响。因此,本实施方式选择并切割了原始图像中未损坏部分的随机16×16的四幅小图像。然后将它们分别输入到卷积网络中,并对得到的参数进行平均,将均值作为最后结果。
在具体过程中,令
Figure BDA0001943104370000121
分别代表风格图像、已修复图像、最终生成图像,其中
Figure BDA0001943104370000122
最初为随机化的白噪声图像。令Al、Pl、Fl分别代表风格图像、已修复图像、最终生成图像在第l层的特征表示,其中Al用于
Figure BDA0001943104370000123
的图像风格生成,Pl用于
Figure BDA0001943104370000124
的图像内容生成。
在图像内容部分中,将
Figure BDA0001943104370000125
作为输入,在VGG网络中生成Pl。定义内容部分的损失函数为:
Figure BDA0001943104370000126
其中
Figure BDA0001943104370000127
分别代表已修复图像、最终生成图像,其中
Figure BDA0001943104370000128
最初为随机化的白噪声图像;Pl、Fl分别代表已修复图像、最终生成图像在第l层的特征表示,
Figure BDA0001943104370000129
表示将
Figure BDA00019431043700001210
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值。l代表第l层。
Figure BDA0001943104370000131
表示将
Figure BDA0001943104370000132
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,其中l是属于[1,19]间的整数,i是属于[1,512]间的整数,j代表图像中像素的位置索引且j∈D,D为图像的像素点集合,D∈N*,N*代表正整数。
在图像风格生成部分中,将代表风格图像的
Figure BDA0001943104370000133
作为输入,保存VGG网络每一层的图像特征,由于图像的纹理信息与位置并无关联,因此采用Gram矩阵表达图像的风格特征。
Gram矩阵的计算公式定义为:
Figure BDA0001943104370000134
Figure BDA0001943104370000135
表示对l层的第i个特征图和第j个特征图的內积操作。k属于N*
定义风格部分的损失函数为:
Figure BDA0001943104370000136
Figure BDA0001943104370000137
表示风格图像,Al代表风格图像在第l层的特征表示,用于
Figure BDA0001943104370000138
的图像风格生成,
Figure BDA0001943104370000139
表示将
Figure BDA00019431043700001310
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值。Nl表示第l层网络中特征图的个数,Ml表示每个特征图的大小。
定义风格生成部分的总体损失函数为:
Figure BDA00019431043700001311
其中
Figure BDA00019431043700001312
分别代表已修复图像、风格图像,α和β分别是内容和风格的权重因子,在本实施方式中设置α/β的值为1×10-3,通过公式
Figure BDA0001943104370000141
求得Ltotal
Figure BDA0001943104370000142
的偏导数,再通过公式
Figure BDA0001943104370000143
(λ为权重因子)不断循环得到更新的
Figure BDA0001943104370000144
直到得到最好的风格转换效果。该模型可以使修复图像的填充部分更接图像其他部分的风格特征,从而使修复效果更好。
最后比较本发明方法和CE方法在两个数据集中的不同效果。图2与图3显示了CelebA数据集上不同类型的缺失的修补结果。可以看出,本发明比CE的方法具有更好的视觉效果。在中央缺失图像中,本发明考虑了图像中非缺陷部分的纹理,保留了口腔和面部表情的曲率。随机缺失中主要考虑噪声消除效果和完成的细节,可以看到的是本发明修补图像比CE更平滑,噪声更少,这意味着本发明在结构和纹理的统一性方面有更多的优势。图4和图5显示了fip数据集上不同类型掩码的补充结果。可以看出,本发明对油画修补效果更好,特别是细节方面,在风格,纹理和颜色上效果更为平衡。在随机缺失图像中的修补效果噪声较小,图像的细节更加复杂。利用本发明的实验结果表明,该发明能较好地修复人脸图像中的大面积缺陷。本发明提出了一种改进的图像补全方法及其在绘画图像领域中的应用。该发明在训练数据表示方面具有较强的专业性,能够对损伤图像的风格特征进行预测。本发明可以对缺失图像进行更多的艺术修复,同时也具有很强的艺术性。
本发明的主要内容已通过上述优选实例作了详细介绍。需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围内。

Claims (10)

1.一种改进的语义图像修补模型方法,其特征在于,包括:
通过图像内容生成的处理,对绘画图像进行缺失部分的修补;
通过画作鉴别的处理,对所述修补图像的效果进行判别;
通过风格生成的处理,对所述修补图像的风格、纹理、颜色方面进行调整;以实现对图像的修补。
2.如权利要求1所述的方法,其中,图像内容生成,包括如下步骤:
1)选取补全内容的生成模型:
基于当前修补图像的需求,根据当前补全内容生成模型的两类方法生成式对抗网络GANs和变分自编码器VAEs的特点,选择其中一个模型建立图像内容生成模型。
3.如权利要求2所述的方法,其中,图像内容生成,包括如下步骤:
2)训练内容生成模型:
当选择GANs模型生成图像内容时,生成网络Gx采用深度卷积对抗生成网络DCGAN,鉴别网络Dx采用传统的卷积神经网络,通过训练好的生成模型Gx获得修复后的图像编码
Figure FDA0001943104360000011
定义标准内容损失捕获未损坏图像区域的可用信息特征,生成器Gx找到最优化的编码
Figure FDA0001943104360000012
时,再通过鉴别器Dx
Figure FDA0001943104360000013
进行鉴别。
4.如权利要求3所述的方法,其中,图像风格生成,包括:
使用19层的可视几何组VGG卷积神经网络,建立风格生成模型,使用平均池化层代替最大池化层;
将修补图像的内容与自然风格分离后再合并,通过卷积神经网络提取原始图像的内容信息与风格图像的纹理信息,并将其融合在生成图像中,通过后向传播BP算法降低损失函数,求得最终生成图像。
5.如权利要求3或4所述的方法,其中,步骤2)包括:
生成模型Gx寻找最优的编码
Figure FDA0001943104360000021
的过程被定义为表示为式1:
Figure FDA0001943104360000022
Lc是损失函数,z为生成器Gx从Pz中获取的一个标准分布点,Pz表示一个从[-1,1]的均匀分布,y是损坏的图像,M是与图像大小相等的二进制掩码,用来指定缺失的部分。
6.如权利要求3或4所述的方法,其中,步骤2)包括:
内容损失捕获未损坏图像区域可用信息特征的过程使用式2表示:
Figure FDA0001943104360000023
其中,i代表图像中像素的位置索引,其中i∈D,D为图像的像素点集合,D∈N*,N*代表正整数,wi代表在位置i处的权重值,N(i)是在本地区域位置i处的邻居集合,|N(i)|是N(i)的基数,本地区域的大小为8,j是属于N(i)内的像素点,j∈N*,Mj代表j处的二进制掩码,Mi代表i处的二进制掩码。
7.如权利要求3或4所述的方法,其特征在于,步骤2)包括:
内容损失被定义为修复图像和未损坏部分图像之间的加权
Figure FDA0001943104360000026
-norm difference,定义为式3:
Lc(z|y,M)=||w⊙(G(z)-y||1 (式3)
当生成器Gx找到最优化的编码
Figure FDA0001943104360000024
时,再通过鉴别器Dx
Figure FDA0001943104360000025
进行鉴别,直到真样本与假样本无法区分,使用自适应矩估计优化Adam算法进行此阶段的优化,通过使用随机水平翻转训练图像来实现数据增强,w代表权重,G(z)代表以y为输入,以z为输出的生成器Gx生成的修补图像信息。
8.如权利要求4所述的方法,其特征在于,风格生成模型包括:
将内容部分的损失函数定义为式4:
Figure FDA0001943104360000031
Figure FDA0001943104360000032
分别代表已修复图像、最终生成图像,其中
Figure FDA0001943104360000033
最初为随机化的白噪声图像;Pl、Fl分别代表已修复图像、最终生成图像在第l层的特征表示,l是属于[1,19]间的整数,其中
Figure FDA0001943104360000034
表示将
Figure FDA0001943104360000035
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,
Figure FDA0001943104360000036
表示将
Figure FDA0001943104360000037
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,其中i是属于[1,512]间的整数,j代表图像中像素的位置索引且j∈D,D为图像的像素点集合,D∈N*,N*代表正整数。
9.如权利要求4所述的方法,其特征在于,风格生成模型包括:
风格部分的损失函数定义为式5:
Figure FDA0001943104360000038
Figure FDA0001943104360000039
表示风格图像,Al代表风格图像在第l层的特征表示,用于
Figure FDA00019431043600000310
的图像风格生成,
Figure FDA00019431043600000311
表示将
Figure FDA00019431043600000312
作为输入的VGG网络的第l层的位置j上的第i个滤波器的激活值,Nl表示第l层网络中特征图的个数,Ml表示每个特征图的大小,
Figure FDA00019431043600000313
表示对l层的第i个特征图和第j个特征图的內积操作,计算公式为
Figure FDA00019431043600000314
k属于N*
10.如权利要求4所述的方法,其特征在于,风格生成模型包括:
总体损失函数定义为式6:
Figure FDA0001943104360000041
其中,
Figure FDA0001943104360000042
分别代表已修复图像、风格图像,α和β分别是内容和风格的权重因子,设置α/β的值为1×10-3,再求得
Figure FDA0001943104360000043
通过
Figure FDA0001943104360000044
不断循环得到更新的
Figure FDA0001943104360000045
直到得到最好的风格转换效果。
CN201910027711.0A 2018-09-13 2019-01-11 改进的语义图像修补模型方法 Pending CN110895795A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018110685018 2018-09-13
CN201811068501 2018-09-13

Publications (1)

Publication Number Publication Date
CN110895795A true CN110895795A (zh) 2020-03-20

Family

ID=69785528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910027711.0A Pending CN110895795A (zh) 2018-09-13 2019-01-11 改进的语义图像修补模型方法

Country Status (1)

Country Link
CN (1) CN110895795A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612798A (zh) * 2020-05-15 2020-09-01 中南大学 面向人脸数据对完整的人脸网纹修复方法、系统及介质
CN111710011A (zh) * 2020-06-10 2020-09-25 广州梦映动漫网络科技有限公司 一种漫画生成方法、系统、电子设备及介质
CN111738911A (zh) * 2020-06-17 2020-10-02 杭州云汽配配科技有限公司 图像风格转移方法及系统
CN112561785A (zh) * 2020-12-21 2021-03-26 东华大学 基于风格迁移的丝绸文物图像数据扩充方法
CN112651453A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 损失函数的自适应方法、装置、设备和存储介质
CN113424220A (zh) * 2021-03-30 2021-09-21 商汤国际私人有限公司 生成点云补全网络及点云数据的处理

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578367A (zh) * 2017-04-25 2018-01-12 北京陌上花科技有限公司 一种风格化图像的生成方法及装置
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108470320A (zh) * 2018-02-24 2018-08-31 中山大学 一种基于cnn的图像风格化方法及系统
CN108520503A (zh) * 2018-04-13 2018-09-11 湘潭大学 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578367A (zh) * 2017-04-25 2018-01-12 北京陌上花科技有限公司 一种风格化图像的生成方法及装置
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108470320A (zh) * 2018-02-24 2018-08-31 中山大学 一种基于cnn的图像风格化方法及系统
CN108520503A (zh) * 2018-04-13 2018-09-11 湘潭大学 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEON A. GATYS等: "Image Style Transfer Using Convolutional Neural Networks", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
RAYMOND A. YEH等: "Semantic Image Inpainting with Deep Generative Models", 《ARXIV:1607.07539V3》 *
田野: "基于样本块的数字图像修复技术研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612798A (zh) * 2020-05-15 2020-09-01 中南大学 面向人脸数据对完整的人脸网纹修复方法、系统及介质
CN111612798B (zh) * 2020-05-15 2023-04-18 中南大学 面向人脸数据对完整的人脸网纹修复方法、系统及介质
CN111710011A (zh) * 2020-06-10 2020-09-25 广州梦映动漫网络科技有限公司 一种漫画生成方法、系统、电子设备及介质
CN111710011B (zh) * 2020-06-10 2021-06-25 广州梦映动漫网络科技有限公司 一种漫画生成方法、系统、电子设备及介质
CN111738911A (zh) * 2020-06-17 2020-10-02 杭州云汽配配科技有限公司 图像风格转移方法及系统
CN111738911B (zh) * 2020-06-17 2024-02-27 杭州云汽配配科技有限公司 图像风格转移方法及系统
CN112561785A (zh) * 2020-12-21 2021-03-26 东华大学 基于风格迁移的丝绸文物图像数据扩充方法
CN112561785B (zh) * 2020-12-21 2021-11-16 东华大学 基于风格迁移的丝绸文物图像数据扩充方法
CN112651453A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 损失函数的自适应方法、装置、设备和存储介质
CN112651453B (zh) * 2020-12-30 2023-10-13 北京百度网讯科技有限公司 损失函数的自适应方法、装置、设备和存储介质
CN113424220A (zh) * 2021-03-30 2021-09-21 商汤国际私人有限公司 生成点云补全网络及点云数据的处理
CN113424220B (zh) * 2021-03-30 2024-03-01 商汤国际私人有限公司 生成点云补全网络及点云数据的处理

Similar Documents

Publication Publication Date Title
CN110895795A (zh) 改进的语义图像修补模型方法
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
Liu et al. Meshdiffusion: Score-based generative 3d mesh modeling
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
Chen et al. An improved method for semantic image inpainting with GANs: Progressive inpainting
JP2022548712A (ja) フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法
CN109903236B (zh) 基于vae-gan与相似块搜索的人脸图像修复方法及装置
CN108520503A (zh) 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法
WO2020165557A1 (en) 3d face reconstruction system and method
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN112884669B (zh) 基于多尺度内容注意力机制的图像修复方法、存储介质和终端
KR20230097157A (ko) 개인화된 3d 헤드 모델 변형을 위한 방법 및 시스템
US20240169661A1 (en) Uv mapping on 3d objects with the use of artificial intelligence
CN109920021A (zh) 一种基于正则化宽度学习网络的人脸素描合成方法
Liu et al. Painting completion with generative translation models
CN113269680A (zh) 一种基于排序学习和孪生神经网络的图像修复质量评价方法
CN112488935A (zh) 基于纹理约束和泊松融合的生成对抗指静脉图像修复方法
CN115291864A (zh) 一种基于图神经网络的零碎图层检测方法及装置
Li et al. Line drawing guided progressive inpainting of mural damages
CN113034388B (zh) 一种古代绘画虚拟修复方法及修复模型的构建方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
Wei et al. Facial image inpainting with deep generative model and patch search using region weight
CN116051407A (zh) 一种图像修复方法
CN115496843A (zh) 一种基于gan的局部写实感漫画风格迁移系统及方法
Wu et al. Semantic image inpainting based on generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200320