CN111724299B - 一种基于深度学习的超现实主义绘画图像风格迁移方法 - Google Patents
一种基于深度学习的超现实主义绘画图像风格迁移方法 Download PDFInfo
- Publication number
- CN111724299B CN111724299B CN202010438237.3A CN202010438237A CN111724299B CN 111724299 B CN111724299 B CN 111724299B CN 202010438237 A CN202010438237 A CN 202010438237A CN 111724299 B CN111724299 B CN 111724299B
- Authority
- CN
- China
- Prior art keywords
- image
- style
- content
- generator
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000013508 migration Methods 0.000 title claims abstract description 34
- 230000005012 migration Effects 0.000 title claims abstract description 34
- 238000010422 painting Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 19
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 18
- 230000008485 antagonism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- XUFQPHANEAPEMJ-UHFFFAOYSA-N famotidine Chemical compound NC(N)=NC1=NC(CSCCC(N)=NS(N)(=O)=O)=CS1 XUFQPHANEAPEMJ-UHFFFAOYSA-N 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4084—Transform-based scaling, e.g. FFT domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明涉及一种基于深度学习的超现实主义绘画图像风格迁移方法,包括以下步骤:获取风格图像训练集和内容图像训练集;基于所述风格图像训练集和内容图像训练集训练获得一个卷积神经网络模型,该卷积神经网络模型包括生成器和判别器,所述生成器对输入图片进行下采样,并在编码器后设置噪声层,所述判别器为马尔科夫判别器;获取一张真实图片,调用训练后的生成器,对所述真实图片进行超现实主义风格转换。与现有技术相比,本发明具有迁移质量高、效果好等优点。
Description
技术领域
本发明涉及一种图像风格迁移方法,尤其是涉及一种基于深度学习的超现实主义绘画图像风格迁移方法。
背景技术
风格迁移作为机器视觉中的一个稳固的领域,近年来受到了工业界与学界广泛的关注。给定任意的内容图与特定的风格图,风格迁移的任务是生成一种具有风格图的风格、内容图的视觉内容的图像。马赛克图元构图风格是一种超现实主义的艺术形式。如何使用具体若干图像元素,例如花、水果等的风格图集,重组成输入的内容图,生成超现实主义(马赛克)风格图像,仍是一个开放的问题。
当前,风格迁移的方法主要包括三大类:基于格拉姆矩阵的方法、基于马尔可夫随机场的方法和基于生成对抗网络的方法。
基于格拉姆矩阵的方法最早源自于Gatys等的研究,该研究表明格拉姆矩阵可以表示图像的风格。这类方法将通过经预训练的网络(例如VGG网络)处理输入图像,获取多个特征层,这些特征层代表了图像包含的内容。同时,在不同的特征层上分别计算格拉姆矩阵,以表征输入图像的风格特征。该方法的目的是生成一张图片,通过经预训练的对其处理后,产生的特征层与对内容图进行处理得到的相似,特征层上的格拉姆矩阵与对风格图进行处理后得到的相似。但这类方法提取特征的全局统计信息作为风格特征而抛去空间分布,使其难以保持风格图中的图元,对于超现实主义(马赛克)风格图像的处理效果不佳。
Li等人最早提出了基于马尔可夫随机场的风格迁移算法。与基于格拉姆矩阵的方法一致,该方法也通过经预训练的网络处理得到输入图像的多个特征层。区别是,这类方法从图像的局部相关性出发,在特征层上进行区块的匹配。这类方法在语义结构相近的图像对的转换效果出众。但是这些方法开销巨大导致执行速度缓慢,并且对于那些视角与结构显著不同的图像的转换效果较差,对于超现实主义(马赛克)风格图像的处理效果不佳。
另一方面,上述的两类方法均基于一个经预训练的网络(通常基于ImageNet,因为该图像集有多达1000类的图像),使得对于分布与ImageNet相差较大风格图像的处理效果不佳。
Goodfellow等最早提出了生成对抗网络。生成对抗网络包括生成器和判别器,该网络的训练可以被视为生成器与判别器的对抗比赛。在训练中,生成器生成符合真实数据分布的样本以骗过判别器,而判别器则学习真实数据的分布以不被生成器欺骗,最终二者达到纳什均衡。其具有生成极富真实感图像的能力。基于生成对抗网络的方法在风格迁移方面拥有先天优势,判别器在对于风格图的学习中直接学习到风格图的风格特征,无需使用预训练网络。然而,生成对抗网络对于生成图像的内容并没有约束,因此无法直接用于风格迁移。
一种做法是对于生成器施加额外的约束,使生成图与输入的内容图达到一定程度的一致。Jetchev等人便是采取这种方法,提出了GANosaic与FAMOS,该方法通过生成器生成能够匹配内容图的纹理,对于内容图的匹配则通过最小化生成图和输入图的L2距离实现,并可通过调整L2损失的权重控制与输入图的相似度。该方法能够实现超现实主义(马赛克)风格的图像生成,但这些方法适用的图元受限较大,且生成的效果不佳。
另一种做法则是使用条件生成对抗网络。该方法使用条件与随机噪声结合作为生成器的输入,并将条件与生成图联合在一起送入判别器。判别器则需要判断条件与生成图结合的真假,只有满足条件且符合真实数据分布的生成图会被判定为真。通过这种方式,生成器可以学到真实数据的条件分布,实现对生成图的内容的控制。Isola等在Pix2Pix中验证了,使用条件对抗网络生成的图像质量高于直接对生成器施加额外约束的方法。但条件生成对抗网络不再能够控制条件对于生成约束强度,针对超现实主义(马赛克)风格图像的生成,条件的存在会极大的影响图元本身的质量。
综上所述,针对超现实主义(马赛克)绘画图像的风格迁移,现有的方法存在一些问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种迁移质量高、效果好的基于深度学习的超现实主义绘画图像风格迁移方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的超现实主义绘画图像风格迁移方法,包括以下步骤:
获取风格图像训练集和内容图像训练集;
基于所述风格图像训练集和内容图像训练集训练获得一个卷积神经网络模型,该卷积神经网络模型包括生成器和判别器,所述生成器对输入图片进行下采样,并在编码器后设置噪声层,所述判别器为马尔科夫判别器;
获取一张真实图片,调用训练后的生成器,对所述真实图片进行超现实主义风格转换。
进一步地,所述获取风格图像训练集的方式为:
获取需要的至少一种图元和一张背景图像,对所述背景图像进行九宫格划分,在九宫格中叠加随机数量的图元,按设定大小截取叠加后的图像形成风格图像训练样本,在所述九宫格的每一方格中仅放置一个图元,且相邻的图元的重叠部分小于等于100个像素。
进一步地,所述获取风格图像训练集的方式为:
获取包含图像元素的图片,从该图片中有重叠地截取多个随机大小的图像切片,将各图像切片缩放至设定大小,形成风格图像训练样本。
进一步地,所述生成器整体基于“编码器-解码器”结构,在此基础上级联双线性插值下采样层,图像通过下采样层后再进行编码解码处理,从而实现编码器层数的减少,简化了计算量。
进一步地,所述判别器在不同尺度的特征层上进行判别,产生一个矩阵元素的值在[0,1]之间的矩阵集合,基于该矩阵集合对图像真假进行判别。
进一步地,所述卷积神经网络模型的训练过程具体为:
对用于训练的图像数据进行归一化处理,获得训练样本,所述训练样本包括真实内容图和超现实主义风格图;
通过高斯分布随机数初始化卷积神经网络模型中生成器和判别器的权重;
将训练样本输入卷积神经网络模型中,对训练样本进行前向传播,其中,生成器的输入为待转换的真实内容图和超现实主义风格图,输出为带有超现实主义风格的内容图像,所述判别器的输入为条件与内容图像的组合,输出为判别矩阵,所述条件为内容图映射;
以最小化损失函数为目标训练所述生成器,以最大化损失函数为目标训练所述判别器,采用Adam方法,通过反向传播更新卷积神经网络模型的权重。
进一步地,所述条件包括待转换的真实内容图的映射和带有超现实主义风格的内容图像的映射。
进一步地,所述映射具体包括标准化、平均池化和灰度化处理。
进一步地,所述损失函数表示为:
L=αLcGAN_x(G,D,T,x,y)+βLcGAN_G(x)(G,D,T,x)
LcGAN_x(G,D,T,x,y)=ET,y[logD(y|T(y))]+ET,x[log(1-D(G(x)|T(x)))]
LcGAN_G(x)(G,D,T,x)=ET,y[logD(y|T(y))]+ET,x[log(1-D(G(x)|T(G(x))))]
其中,L为损失函数,α和β为控制参数,G表示生成器,D表示判断器,T表示条件映射,x表示待转换的真实内容图,即内容图,y表示超现实主义风格图;G(x)表示生成器生成的具有内容图x内容、具有风格图y风格的风格化图像;T(x)、T(y)、T(G(x))分别表示内容图x、风格图y、生成图G(x)的映射;D(y|T(y))表示判别器D对于风格图y,其映射T(y)是风格图及其映射的联合分布的采样的置信度,取值为[0,1];D(G(x)|T(x))表示D对于生成图像G(x),内容图x的映射T(x)是风格图及其映射的联合分布的采样的置信度,取值为[0,1];ET,x、ET,y分别表示在输入集合{x,T(x)}、{y,T(y)}的数学期望。
进一步地,所述归一化处理具体为将原始图片的像素除以255后减1,即归一化像素至[-1,1]。
与现有技术相比,本发明具有如下有益效果:
第一,本发明首次提出对于条件生成对抗网络使用二元条件,与传统的生成对抗网络+L1损失的方法相比,本发明具有条件生成对抗网络的优点——结果不会出现灰度化,但与传统的条件生成对抗网络相比,本发明又能够控制条件对于生成的约束强度,避免由于约束强度过大导致图像生成失败,能够产生更好的图像质量。
第二,本发明使用全卷积网络结构,不包含任何全连接层,从而能够对不同分辨率的图像进行风格转换。训练最终得到一个端到端的模型,给定一个输入图,模型会给出一个输出。在GPU环境下,可以在很短的时间内完成风格迁移,对于使用者而言,本方法可以视为一个黑箱,不需要复杂的操作。
第三,传统的基于格拉姆矩阵以及马尔可夫随机场的方法,在转换过程中必须依赖预训练网络以获得风格表征,一次只能针对一张风格图进行处理。而本发明提出的方法通过一个风格图集合直接学习风格特征,一方面避开了使用预训练网络时可能造成的由于风格图与预训练时的数据的分布差异较大产生的不良影响,另一方面,使用风格图集合能够学习到图元的本征特征,从而创造一些原始风格图中没有出现过的图元,实现多元化的风格迁移图像生成。
附图说明
图1为本发明的流程示意图;
图2为本发明模型训练过程示意图;
图3为本发明可采用的一些图元示意图;
图4为本发明获得训练集采用的背景示意图;
图5为形成带有图元的风格图示意图;
图6为卫星图;
图7为以卫星图为图元的示意图;
图8为本发明生成器的结构示意图;
图9为本发明判别器的结构示意图;
图10为本发明训练过程的算法框架示意图;
图11为风格迁移后形成的输出结果示意图;
图12为本发明方法与现有技术的结构比较示意图;
图13为基于某一图元获得最终生成图像示意图;
图14为本发明实施例1中采用的第一类风格图数据样本示意图;
图15为本发明实施例1中采用的第二类风格图数据样本示意图;
图16为本发明实施例1中第二类风格图下本发明方法与现有方法的比较示意图,其中,(a)~(d)分别是内容图、本发明效果、FAMOS(有参)效果和传统条件生成对抗网络效果;
图17为本发明实施例1中和传统条件生成对抗网络的生成图细节的比较示意图;
图18为本发明实施例2中采用的两种风格图像;
图19为本发明实施例2中获得的效果图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本发明提供一种基于深度学习的超现实主义绘画图像风格迁移方法,该方法运行在GPU中,用于实现对一内容图进行超现实主义(如马赛克)风格转换,包括以下步骤:
步骤一,获取风格图像训练集和内容图像训练集。内容图像训练集可采用Microsoft COCO数据集。对于风格图数据集,本发明采用两种获取方法:
1.直接指定用来生成超现实主义图像需要的图元,具体包括以下步骤:
i.准备好需要使用的图元,如图3所示;
ii.准备生成图中需要的背景,如图4所示的一个(300,300)的图像;
iii.在背景图上画九宫格,在九宫格中填放随机数量的图元,要求每个九宫格中只能放置一个图元,相邻的图元的重叠不超过100个像素,从叠加后的图上截取(256,256)大小的图像作为训练使用的带有图元的风格图,如图5所示;
重复i~iii,形成需要的风格图数据集。
2.使用包含图像元素的图片(如卫星图中的房子),具体包括以下步骤:
i.例如需要使用卫星图上的房屋作为图像元素生成超现实主义风格图像,可以通过Google Map获得若干张需要的卫星图,如图6所示;
ii.从得到的原图上有重叠的截取一个随机大小的图像切片,并将切片缩放至(256,256),如图7所示;重复步骤ii,获得风格数据集。
步骤二,基于风格图像训练集和内容图像训练集训练获得一个卷积神经网络模型。
该卷积神经网络模型基于条件生成对抗网络架构,包含生成器和判别器。如图2所示,本发明卷积神经网络模型的训练过程包括:
a)构建卷积神经网络结构,设定卷积神经网络的结构和训练次数上限N(默认为200k),初始化生成器判别器的权重,如可初始化为均值为0,方差为0.02的高斯分布随机数。
生成器的结构如图8所示,其中每层信息如表1所示。
表1
表1中,conv(n,k,s,p)和dconv(n,k,s,p)分别表示卷积层与反卷积层。其中,n、k、s、p分别表示卷积核数量,卷积核尺寸,卷积步长以及padding的尺寸。特别的,对于反卷积层,本发明区别于传统的反卷积操作,使用“双线性插值放大图片+卷积”的方式以避免棋盘效应。IN表示实例标准化(instance normalization)。bias表示该层添加了偏置。最后一层解码器使用tanh()函数将输出图像的结果限制在(-1,1),ReLU表示使用的激活函数。
从图8和表1可知,本发明采用的生成器大体基于“编码器-解码器”模式,但与传统的“编码器-解码器”相比有两点不同:
i.在经编码器处理后得到的特征中加入了高斯噪声(即noise层),以此获得更好的生成图像的多样性;
ii.编码器和解码器并不是对称的,首先通过下采样层(Down Sampling)对输入图片进行下采样,再将图片输入编码器。由于最终生成的结果中,细节部分应当由图元决定,因此内容图的细节可以舍去,通过这种方式可以减少计算量。
本发明的判别器结构如图9所示,其中每层信息如表2所示。
表2中各大参数含义与生成器大致相同,不同的是,判别器使用参数为0.2的LeakyReLU作为每一层的激活函数。
与传统的生成对抗网络的判别器最终产生一个[0,1]的值不同,本发明方法采用马尔科夫判别器,并在不同尺度的特征层上进行判别,最终产生一个矩阵元素的值在[0,1]之间的矩阵集合。由于在不同尺度的特征层上进行卷积时,其感受野不同,可以视作金字塔结构,判别器在不同的尺度上对图像的真假进行判别。
表2
Layer | Layer Information |
conv | conv(128,4,2,1),IN,LeakyReLU |
output1 | conv(1,5,1,2),bias |
conv | conv(128,4,2,1),IN,LeakyReLU |
output2 | conv(1,5,1,2),bias |
conv | conv(256,4,2,1),IN,LeakyReLU |
output3 | conv(1,5,1,2),bias |
conv | conv(512,4,2,1),IN,LeakyReLU |
output4 | conv(1,5,1,2),bias |
conv | dconv(512,4,2,1),IN,LeakyReLU |
output5 | conv(1,3,1,1),bias |
b)从图像训练集中获取图像数据。对于内容图数据集(MS-COCO),与风格图的处理方法相同,使用原图的(256,256)大小的切片。原始数据为RGB图片,像素取值范围是[0,255],在将图片数据用于训练之前,先对两类图片进行相同的预处理操作。具体的,将原始图片的像素除以255后减1,即归一化像素至[-1,1]:
y_new=y_origin/255-1 (1)
c)本方法基于条件生成对抗网络架构,其中条件决定了生成图像的内容。由于希望最终生成的图像能够体现输入的内容图,因此条件应当是内容图的某种映射,假设内容图为x,这种映射为T(·),则条件可以表示为:
condition=T(x) (2)
一方面,不希望内容图的像素分布影响的条件的表达,另一方面,人眼在较远处观察图像时,会对这幅图的像素进行区域平均,而当靠近观察时,则更加关注局部细节信息。基于这两个方面的考虑,本发明使用经过标准化、平均池化的灰度化内容图作为条件,其数学表示为:
AvgPool表示均值池化。对于xi,j,AvgPool计算以xi,j为中心,N*N大小的区域内元素的均值,这个均值作为xi,j位置的输出,N取输入图像尺寸的十分之一。均值池化的数学表示为:
d)对训练样本进行前向传播,使用生成器获得转换后的图片,使用判别器判断输入的图片是否是超现实主义风格的图片。具体的,生成器的输入为待转换的真实内容图和超现实主义风格图,输出为带有超现实主义风格的内容图像,判别器的输入为条件与内容图像的组合,输出为判别矩阵,条件为内容图映射。判别矩阵为多个不同大小的矩阵,每个矩阵代表一个尺度,矩阵的每个元素代表一个区域,矩阵的元素值通过sigmoid函数限制在(0,1),表示判别器对于某一尺度下某个特定区域的置信度,接近1表示判别器认为该尺度下该区域为真,反之为假。整体框架如图10所示。
e)如图10所示,区别于传统条件生成对抗网络,本发明方法基于T(x)与T(G(x))两个条件,令x表示内容图,y表示带有图元的风格图,G和D分别表示生成器与判别器。本发明方法的优化目标可以表示如公式(5),训练中,训练生成器,使其最小化L,训练判别器,使其最大化L:
L=ET,y[logD(y|T(y))]+ET,x[log(1-D(G(x)|(T(x),T(G(x)))))] (5)
对于生成器的输出G(x),T(x)限制了其与x的相关性,要求G(x)的内容与x接近。T(G(x))限制了其与G(x)的相关性,要求G(x)的内容与G(x)接近,该条件恒成立,因此第二个条件事实上并不限制G(x)的内容。通过改变T(x)与T(G(x))的比例关系,便可以实现控制条件的约束强度。为了实现这一目的,本发明进一步改写公式(5)为以下形式:
当α=0,相当于只有单独的条件T(G(x)),而该条件不约束G(x)的内容,此时我们的方法退化为无条件的生成对抗网络;当β=0,相当于只有单独的条件T(x),此时本发明方法退化为传统的条件生成对抗网络。从而,可以通过控制α与β实现对于条件约束强度的控制。
f)训练采用Adam方法,通过反向传播更新网络权重。与一般的神经网络不同,这里包含两个过程:
i.最大化公式(6)中的L更新判别器的参数;
ii.最小化公式(6)中的L更新生成器的参数。
g)判断模型训练是否完成,若是,则保存生成器、判别器的模型参数后执行步骤三,若否,则返回步骤b),判断方式是看迭代次数是否达到设定值。
步骤三,利用训练后的生成器模型对真实图片进行风格转换。
此时只需要调用生成器的模型,其输入为待转换的内容图,输出即为图元构图风格的生成图。在本发明方法中,生成器为全卷积网络结构,因此可以完成高分辨率(大于训练中使用的256*256)的风格迁移任务。经生成器生成的图像,其像素取值为[-1,1],为了转换为标准的RGB图片,本发明使用下面的公式对每个像素进行处理:
y_new=(y_origin+1)*127.5 (6)
图11为生成的(1024,1024)大小的图像示例。
步骤三有以下特点:
i.只调用训练阶段保存的生成器模型;
ii.读入待转换的内容图,按照公式(1)进行预处理,为了使最终生成图像的多样性更加丰富,我们在内容图上添加适当信噪比的椒盐噪声,将加入噪声的图像送入生成器;
iii.端到端模型,生成器的输出图即为图元构图风格的图像。
上述方法基于条件生成对抗网络实现,且采用了二元条件,能够获得较佳的风格迁移效果。如图12所示,从左到右,依次是条件生成对抗网络、生成对抗网络加额外约束以及我们的方法对于同样的风格图训练20k次后对同一张风格图的处理效果。可以很明显的看出,基于条件生成对抗网络的方法使得图元畸变严重,基于生成对抗网络+L1损失的方法产生了灰度化的图像,而本发明方法能够产生更好的图像质量。
本发明方法通过一个风格图集合直接学习风格特征,一方面避开了使用预训练网络时可能造成的由于风格图与预训练时的数据的分布差异较大产生的不良影响,另一方面,使用风格图集合能够学习到图元的本征特征,从而创造一些原始风格图中没有出现过的图元。如图13所示,训练使用的花朵的图元均是纯色,但最终生成的图像中生成了混合色的样本。在训练使用的人物、青花瓷等图元具有不同的尺度时,最终生成图像中图元的尺度能依照内容图产生变化。
实施例1
为了验证本发明的性能,本实施例以MS-COCO14作为内容图训练集,按照步骤一生成风格图数据集,在RTX2080Ti环境下迭代200k次。为了说明本发明的优势,本实施例在同样的条件下,使用同样的数据集,比较了传统条件生成网络、已有的超现实主义(马赛克)风格迁移方法FAMOS(有参)和本发明方法的效果,从对比图中可以看出,本发明方法在对于超现实主义风格迁移方面具有更好的表现。具体步骤如下:
i.按照步骤一生成风格数据集,本实施例中生成了两类风格图数据的样本,如图14和图15所示;
ii.公式(6)中取α=0.4,β=0.6,按照步骤二的b)~g)以0.0002的学习率进行训练;
iii.按照步骤三得到最终的生成结果,效果图实例如图16所示。从中可以看出,相比于FAMOS,本发明方法效果更具有艺术感,相比于条件生成对抗网络,本发明方法保存了图像元素,而条件生成对抗网络则由于条件限制使得生成中结果几乎看不出图像元素。图17给出了本发明方法和传统条件生成对抗网络的生成图细节。
以上使用的图元仅为本发明的一种实施实例,本发明并不限制使用图元的种类。
实施例2
本发明方法也可以用于常规的风格迁移任务,具体实施步骤如下:
i.准备若干张同类风格的图像,实验中对两种风格进行了测试,如图18所示:
a.一张中国山水画;
b.一张青绿山水画风山水画;
ii.使用原图的(256,256)大小的切片,切片构成了风格图数据集;
iii.公式(6)中取α=0.4,β=0.6,按照步骤二的b)~g)以0.0002的学习率进行训练;
iv.按照步骤三得到最终风格转换的结果,效果图实例,如图19所示。
以上实施实例,在RTX 2080Ti上,生成一张(1024,1024)大小的图像需要约1s。
实施例3
本实施例提供一种基于深度学习的超现实主义绘画图像风格迁移计算机实现系统,该系统包括处理器和存储器,所述存储器存储有计算机程序,所述处理器为GPU,调用所述计算机程序执行如实施例1所述的基于深度学习的超现实主义绘画图像风格迁移方法的步骤一到步骤三。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。
Claims (7)
1.一种基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,包括以下步骤:
获取风格图像训练集和内容图像训练集;
基于所述风格图像训练集和内容图像训练集训练获得一个卷积神经网络模型,该卷积神经网络模型包括生成器和判别器,所述生成器对输入图片进行下采样,并在编码器后设置噪声层,所述判别器为马尔科夫判别器;
获取一张真实图片,调用训练后的生成器,对所述真实图片进行超现实主义风格转换;
所述判别器在不同尺度的特征层上进行判别,产生一个矩阵元素的值在[0,1]之间的矩阵集合,基于该矩阵集合对图像真假进行判别;
所述卷积神经网络模型的训练过程具体为:
对用于训练的图像数据进行归一化处理,获得训练样本,所述训练样本包括真实内容图和超现实主义风格图;
通过高斯分布随机数初始化卷积神经网络模型中生成器和判别器的权重;
将训练样本输入卷积神经网络模型中,对训练样本进行前向传播,其中,生成器的输入为待转换的真实内容图和超现实主义风格图,输出为带有超现实主义风格的内容图像,所述判别器的输入为条件与内容图像的组合,输出为判别矩阵,所述条件为内容图映射;
以最小化损失函数为目标训练所述生成器,以最大化损失函数为目标训练所述判别器,采用Adam方法,通过反向传播更新卷积神经网络模型的权重;
所述损失函数表示为:
L=αLcGAN_x(G,D,T,x,y)+βLcGAN_G(x)(G,D,T,x)
LcGAN_x(G,D,T,x,y)=ET,y[log D(y|T(y))]+ET,x[log(1-D(G(x)|T(x)))]
LcGAN_G(x)(G,D,T,x)=ET,y[log D(y|T(y))]+ET,x[log(1-D(G(x)|T(G(x))))]
其中,L为损失函数,α和β为控制参数,G表示生成器,D表示判断器,T表示条件映射,x表示待转换的真实内容图,即内容图,y表示超现实主义风格图;G(x)表示生成器生成的具有内容图x内容、具有风格图y风格的风格化图像;T(x)、T(y)、T(G(x))分别表示内容图x、风格图y、生成图G(x)的映射;D(y|T(y))表示判别器D对于风格图y,其映射T(y)是风格图及其映射的联合分布的采样的置信度,取值为[0,1];D(G(x)|T(x))表示D对于生成图像G(x),内容图x的映射T(x)是风格图及其映射的联合分布的采样的置信度,取值为[0,1];ET,x、ET,y分别表示在输入集合{x,T(x)}、{y,T(y)}的数学期望;当α=0,相当于只有单独的条件T(G(x)),当β=0,相当于只有单独的条件T(x),通过控制α与β实现对于条件约束强度的控制。
2.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述获取风格图像训练集的方式为:
获取需要的至少一种图元和一张背景图像,对所述背景图像进行九宫格划分,在九宫格中叠加随机数量的图元,按设定大小截取叠加后的图像形成风格图像训练样本,在所述九宫格的每一方格中仅放置一个图元,且相邻的图元的重叠部分小于等于100个像素。
3.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述获取风格图像训练集的方式为:
获取包含图像元素的图片,从该图片中有重叠地截取多个随机大小的图像切片,将各图像切片缩放至设定大小,形成风格图像训练样本。
4.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述生成器整体基于“编码器-解码器”结构,并级联双线性插值下采样层,图像通过下采样层后再进行编码解码处理。
5.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述条件包括待转换的真实内容图的映射和带有超现实主义风格的内容图像的映射。
6.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述映射具体包括标准化、平均池化和灰度化处理。
7.根据权利要求1所述的基于深度学习的超现实主义绘画图像风格迁移方法,其特征在于,所述归一化处理具体为将原始图片的像素除以255后减1,即归一化像素至[-1,1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010438237.3A CN111724299B (zh) | 2020-05-21 | 2020-05-21 | 一种基于深度学习的超现实主义绘画图像风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010438237.3A CN111724299B (zh) | 2020-05-21 | 2020-05-21 | 一种基于深度学习的超现实主义绘画图像风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111724299A CN111724299A (zh) | 2020-09-29 |
CN111724299B true CN111724299B (zh) | 2023-08-08 |
Family
ID=72564762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010438237.3A Active CN111724299B (zh) | 2020-05-21 | 2020-05-21 | 一种基于深度学习的超现实主义绘画图像风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724299B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541856B (zh) * | 2020-12-07 | 2022-05-03 | 重庆邮电大学 | 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法 |
CN113222814B (zh) * | 2021-04-22 | 2023-08-04 | 深圳赛安特技术服务有限公司 | 图像的分辨率处理方法、装置、设备及存储介质 |
CN113140018B (zh) * | 2021-04-30 | 2023-06-20 | 北京百度网讯科技有限公司 | 训练对抗网络模型的方法、建立字库的方法、装置和设备 |
CN113344772B (zh) * | 2021-05-21 | 2023-04-07 | 武汉大学 | 一种用于地图艺术化的迁移模型的训练方法和计算机设备 |
CN113706646A (zh) * | 2021-06-30 | 2021-11-26 | 酷栈(宁波)创意科技有限公司 | 用于生成山水画的数据处理方法 |
CN116580121B (zh) * | 2023-05-18 | 2024-04-09 | 北京元跃科技有限公司 | 一种基于深度学习的单张绘画生成2d模型的方法及系统 |
CN116844019A (zh) * | 2023-06-28 | 2023-10-03 | 北京金阳普泰石油技术股份有限公司 | 一种基于生成对抗网络的智能沉积相成图方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN109635511A (zh) * | 2019-01-16 | 2019-04-16 | 哈尔滨工业大学 | 一种基于条件生成对抗网络的高层居住区强排方案生成设计方法 |
CN109829537A (zh) * | 2019-01-30 | 2019-05-31 | 华侨大学 | 基于深度学习gan网络童装服装的风格转移方法及设备 |
CN110136052A (zh) * | 2019-05-08 | 2019-08-16 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置和电子设备 |
CN110222837A (zh) * | 2019-04-28 | 2019-09-10 | 天津大学 | 一种基于CycleGAN的图片训练的网络结构ArcGAN及方法 |
CN110310344A (zh) * | 2019-05-21 | 2019-10-08 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于虚拟条件生成对抗网络的图像生成方法及系统 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
CN110490791A (zh) * | 2019-07-10 | 2019-11-22 | 西安理工大学 | 基于深度学习风格迁移的服饰图像艺术化生成方法 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
-
2020
- 2020-05-21 CN CN202010438237.3A patent/CN111724299B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN109635511A (zh) * | 2019-01-16 | 2019-04-16 | 哈尔滨工业大学 | 一种基于条件生成对抗网络的高层居住区强排方案生成设计方法 |
CN109829537A (zh) * | 2019-01-30 | 2019-05-31 | 华侨大学 | 基于深度学习gan网络童装服装的风格转移方法及设备 |
CN110222837A (zh) * | 2019-04-28 | 2019-09-10 | 天津大学 | 一种基于CycleGAN的图片训练的网络结构ArcGAN及方法 |
CN110136052A (zh) * | 2019-05-08 | 2019-08-16 | 北京市商汤科技开发有限公司 | 一种图像处理方法、装置和电子设备 |
CN110310344A (zh) * | 2019-05-21 | 2019-10-08 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于虚拟条件生成对抗网络的图像生成方法及系统 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110490791A (zh) * | 2019-07-10 | 2019-11-22 | 西安理工大学 | 基于深度学习风格迁移的服饰图像艺术化生成方法 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111724299A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111724299B (zh) | 一种基于深度学习的超现实主义绘画图像风格迁移方法 | |
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
Simo-Serra et al. | Mastering sketching: adversarial augmentation for structured prediction | |
US9922432B1 (en) | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures | |
US10922860B2 (en) | Line drawing generation | |
CN108830913B (zh) | 基于用户颜色引导的语义级别线稿上色方法 | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN109146989B (zh) | 一种通过搭建神经网络生成花鸟艺术字图像的方法 | |
US11727628B2 (en) | Neural opacity point cloud | |
CN113724354B (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
Montulet et al. | Deep learning for robust end-to-end tone mapping | |
KR20200132682A (ko) | 이미지 최적화 방법, 장치, 디바이스 및 저장 매체 | |
CN111986075A (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
Wang et al. | LLDiffusion: Learning degradation representations in diffusion models for low-light image enhancement | |
Zhou et al. | Photomat: A material generator learned from single flash photos | |
CN111986102A (zh) | 一种数字病理图像去模糊方法 | |
CN109829857B (zh) | 一种基于生成对抗网络的倾斜图像的矫正方法及装置 | |
CN111260585A (zh) | 基于类凸集投影算法的图像恢复方法 | |
CN113129409B (zh) | 一种基于深度学习的漫画线稿上色方法 | |
CN116012501A (zh) | 基于风格内容自适应归一化姿态引导的图像生成方法 | |
CN114299573A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
Tal et al. | Nldnet++: A physics based single image dehazing network | |
Ma | A comparison of art style transfer in Cycle-GAN based on different generators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |