CN111862294B - 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 - Google Patents
基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 Download PDFInfo
- Publication number
- CN111862294B CN111862294B CN202010763194.6A CN202010763194A CN111862294B CN 111862294 B CN111862294 B CN 111862294B CN 202010763194 A CN202010763194 A CN 202010763194A CN 111862294 B CN111862294 B CN 111862294B
- Authority
- CN
- China
- Prior art keywords
- picture
- discriminator
- network
- generator
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 116
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 35
- 238000005315 distribution function Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 19
- 230000009977 dual effect Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 7
- 238000013508 migration Methods 0.000 description 7
- 230000005012 migration Effects 0.000 description 7
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 6
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法,网络装置包括ArcGAN网络,ArcGAN网络由第一生成器和第一双鉴别器组成,第一双鉴别器包括第一全局鉴别器和第一局部鉴别器;网络装置还包括Attention模块和LSTM模块;Attention模块由第二生成器和第二鉴别器组成;第二生成器根据输入图片生成第二鉴别器认为是真实的图片,第二生成器由第二编码器、第二转换器和第二解码器三部分组成;第二鉴别器用于判别输入的图片是来自第二生成器的合成图片还是来自训练集的真实图片,由连续的下采样卷积层组成;LSTM模块由第三生成器和第三双鉴别器两部分构成;第三生成器采用encoder‑LSTM‑decoder结构,分为第三编码器、循环神经网络模块、第三解码器三个部分。
Description
技术领域
本发明主要涉及深度学习领域,尤其涉及一种基于ArcGAN网络的手绘3D建筑自动上色网络装置(AL-GAN)及方法。
背景技术
自从20世纪90年代以来,深度学习领域开始出现风格迁移方面的研究。所谓图像风格迁移,是指利用算法学习著名画作的风格,然后再把这种风格应用到另外一张图片上的技术。大量研究人员开始研究如何将一幅图像上的风格与另一张图像上的内容结合,从而生成一幅从未出现过的新的画作。Gatys[2]等人于2015年提出了神经风格迁移算法(NST),该算法使用了卷积神经网络(CNN)来分离并且再结合任意图片的内容和风格,从而生成具有高感知品质的艺术图片,该工作引起了学术界的广泛关注。近几年来,在学术界关于NST的大量后续研究被提出,各种改进或扩展原始NST算法的方法应运而生。
深度神经网络是最近使用最多、效果最好、效率最高的方法。最近对生成对抗网络(GAN)[3,4]的研究在广泛的图像合成应用中取得了巨大的成功,包括盲运动去模糊[5,6],高分辨率图像合成[7,8],光现实超分辨率[9]和图像绘制[10]。
最近,在自然语言处理研究中,注意力机制的提出吸引了众多研究者的注意。Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models ofVisual Attention》,使Attention机制流行起来。2017年,Vaswani等人[11]提出完全抛弃RNN和CNN等网络结构,而仅仅采用Attention机制来进行机器翻译任务,并且取得了很好的效果。自此,注意力机制也成为了大家近期的研究热点。Zhang等人于2018年提出[12]在GAN生成中加入了attention的机制,同时将SNgan的思想引入到生成器当中。该算法不仅解决了卷积结构带来的感受野大小的限制,也使得网络在生成图片的过程中能够自己学习应该关注的不同区域。Park等人于2019年提出[13]一种新颖的样式注意网络(SANet),该网络能够有效,灵活地根据内容图像的语义空间分布,对局部风格模式进行装饰。
视频预测的研究逐渐成为一项热点问题,如何让预测出来的后边的视频帧图像更加连续则是一大难解决的问题。循环神经网络(RNN)在目前视频预测的研究中应用广泛。由于RNN容易受到梯度消失或者梯度爆炸的影响,Schmidhuber等在1997年提出了长短期记忆(long short term memory,LSTM)神经网络[14],该模型增加了“遗忘门”和“更新门”。实验表明,LSTM模型能有效避免梯度消失或者梯度爆炸的问题,很好地解决了长期依赖问题。
由于目前上述深度网络框架并不具有普遍性,构造一种适合于线条建筑图转化为不同风格的手绘3D建筑动画图的网络结构是本次发明的重点。
发明内容
本发明的目的是为了克服现有技术中的不足,旨在解决3D线条建筑图到不同风格彩色建筑图的风格迁移以及上色连续问题。在风格迁移领域,对于建筑线条图使用GAN网络完成手绘上色后,可能会产生一些不尽人意的效果,比如图像上色不均匀,图像上会出现小块空白,图像上色的连续性较差。为了解决上述问题,本发明提供一种基于ArcGAN网络的手绘3D建筑自动上色网络装置(AL-GAN)及方法,通过搭建并训练适合数据集的深度神经网络结构给线条建筑自动着色来实现风格迁移,解决了图像上色不均匀、连续性差的问题,效果较好并且便于使用。
本发明的目的是通过以下技术方案实现的:
一种基于ArcGAN网络的手绘3D建筑自动上色网络装置AL-GAN,包括ArcGAN网络,ArcGAN网络由第一生成器和第一双鉴别器组成,第一双鉴别器包括第一全局鉴别器和第一局部鉴别器;自动上色网络装置AL-GAN还包括Attention模块和LSTM模块;
所述Attention模块由第二生成器和第二鉴别器组成;第二生成器根据输入图片生成第二鉴别器认为是真实的图片,第二生成器由第二编码器、第二转换器和第二解码器三部分组成;第二编码器包括一个输入层和三个下采样卷积层,每个下采样卷积层后接一个和输入层结构一样的平卷积层;第二转换器包括两个没有池化层的密集卷积块,每个密集卷积块包含五个带有瓶颈层的密集卷积层,密集卷积块之间设有压缩层;第二解码器包括三个上采样反卷积层和一个输出层,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第二编码器中的每层下采样卷积层和与之对应的解码器中的上采样反卷积层进行复制式连接;
第二鉴别器用于判别输入的图片是来自第二生成器的合成图片还是来自训练集的真实图片,由连续的下采样卷积层组成;
所述LSTM模块由第三生成器和第三双鉴别器两部分构成;
第三生成器采用encoder-LSTM-decoder结构,分为第三编码器、循环神经网络模块、第三解码器三个部分;第三编码器由一个输入层、四个下采样卷积层和四个空洞卷积层组成,每个下采样卷积层后接一个平卷积层;循环神经网络模块采用LSTM网络结构;第三解码器由四个上采样反卷积层和一个输出层组成,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第三编码器中的每层下采样卷积层和与之对应的解码器中的上采样反卷积层进行复制式连接;
第三双鉴别器用于判别输入的图片是来自第三生成器的合成图片还是来自训练集的真实图片,由连续的下采样卷积层组成;第三双鉴别器包括第三全局鉴别器和第三局部鉴别器;第三全局鉴别器由四层下采样层和一个输出层构成,第三局部鉴别器由五层下采样层和一个输出层构成,将第三双鉴别器计算的损失结合起来,与第三生成器共同完成对抗一致性训练。
本发明还提供另一种技术方案如下:
一种基于ArcGAN网络的手绘3D建筑自动上色方法,包括以下步骤:
(1)建立网络训练集P和训练集C并存储成TFRecords文件;
(2)将训练集P和训练集C输入ArcGAN网络,对ArcGAN网络进行训练;
(3)将上述训练好的ArcGAN网络模型导出成.pb格式的文件;
(4)将训练集P和训练集C输入Attention模块,对Attention模块进行训练;
(5)将上述训练好的Attention模块网络模型导出成.pb格式的文件;
(6)将训练集P和训练集C输入LSTM模块,对LSTM模块进行训练;
(7)将上述训练好的LSTM模块网络模型导出成.pb格式的文件;
(8)制作测试集;
(9)读入测试集,调用训练好的ArcGAN网络,生成ArcGAN网络上色结果图;
(10)将上述经由ArcGAN网络生成得到的上色结果图与测试集建筑线条图作为新一轮测试集,调用训练好的Attention模块,生成Attention上色结果图;
(11)将上述经由Attention模块生成得到的Attention上色结果图复制四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与测试集建筑线条图作为新一轮测试集,调用训练好的LSTM模块,生成得到最后上色结果图。
进一步的,步骤(2)具体如下:
(201)训练第一双鉴别器:训练集C中的一张真实图片ci分别输入两个设有默认参数的第一全局鉴别器和第一局部鉴别器中,第一全局鉴别器和第一局部鉴别器通过卷积提取图片特征,最终分别输出与真实标签0.9之间的差距,再求差距的平均值作为第一双鉴别器的损失值D(ci),目标是使损失值降低,根据损失值D(ci)经反向传播后更新第一双鉴别器参数;
(202)训练第一生成器:训练集P中的一张图片输入第一生成器中,第一生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出生成图片;
(203)将(202)得到的生成图片作为第一双鉴别器的输入,第一双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次差距值求平均值后传递给第一生成器即为第一生成器的损失D(G(pi)),第一生成器根据损失D(G(pi))反向传播更新参数;
(204)重复(201)-(203),直到第一双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;迭代4万-6万轮,训练集中全部数据被输入一遍为一轮;
(205)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~S data(c)[log D(c)]+Εp~S data(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值;G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
进一步的,步骤(4)具体包括以下步骤:
(401)训练第二鉴别器:此过程与ArcGAN网络中对第一双鉴别器的训练过程一致;
(402)训练第二生成器:训练集P与训练集C中的图片一起输入第二生成器中,首先将训练集C中的图片进行挖洞操作,使图片上随机产生小块正方形空白区域,该空白区域会保留建筑线条,让网络感知建筑中的面的结构;第二生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片以及对挖洞的空白区域上色补全的mask掩码图;
(403)将(402)得到的生成图片与mask掩码图一同作为第二鉴别器的输入,第二鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给生成器即为第二生成器的损失D(G(pi)),第二生成器根据损失D(G(pi))反向传播更新参数;
(404)重复步骤(401)-(403),直到第二鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;
(405)损失函数定义如下:
其中L(G)为第二生成器损失函数,L(D)为第二鉴别器损失函数,E(*)表示分布函数的期望值,c表示经由ArcGAN网络后得到的上色图片,Sdata(c)表示着色后的风格化图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,G(c)表示通过第二生成器后得到的着色图片,ReLu表示线性整流函数激活函数。
进一步的,步骤(6)具体包括以下步骤:
(601)训练第三双鉴别器:此过程与ArcGAN网络中对第一双鉴别器的训练过程一致;
(602)训练第三生成器:将训练集C复制为四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与训练集P一同作为网络的输入;第三生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片;
(603)将(602)得到的生成图片作为双鉴别器的输入,第三双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给第三生成器即为生成器的损失D(G(pi)),第三生成器根据损失D(G(pi))反向传播更新参数;
(604)重复步骤(601)-(603),直到第三双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;
(605)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~S data(c)[log D(c)]+Εp~S data(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值;G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明在给上色图片的完整性方面取得了良好的效果。本发明在ArcGAN网络的基础上引入了注意力机制的思想,让网络更加关注经过ArcGAN网络后生成的图片中生成效果不佳的部分,比如生成图片中上色不完整、上色不均匀等情况,本发明中的Attention模块就很好的解决了上述上色不完整、上色不均匀的情况,让生成图片效果更为真实可信,上色更完整清晰。
2.本发明在给上色图片的上色连续性方面取得了良好的效果。本发明在ArcGAN网络的基础上引入了循环神经网络的思想,让网络可以通过输入三张连续旋转的图片,生成旋转后的第四张图片,并且保持上色的连续性。本发明中的LSTM模块即为循环神经网络的衍生版本,该模块可以解决ArcGAN网络生成图片的上色不连续、上色有严重跳变的情况,让生成图片效果更为连贯流畅,视觉效果佳。
附图说明
图1为本发明网络整体架构图;
图2为Attention模块的生成器网络结构图;
图3为Attention模块的双鉴别器网络结构图;
图4为LSTM模块的生成器网络结构图;
图5为LSTM模块的双鉴别器网络结构图;
图6为LSTM模块中循环神经网络的详细图;
图7为实验效果对比图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于ArcGAN网络的手绘3D建筑自动上色网络装置AL-GAN,包括ArcGAN网络,还包括Attention模块和LSTM模块;
ArcGAN网络架构由第一生成器G和第一双鉴别器D组成,第一双鉴别器D包括第一全局鉴别器GD和第一局部鉴别器LD。对于第一生成器G,它被训练以产生欺骗鉴别器的输出。对于双鉴别器,它对图像来自真实目标还是合成图像进行分类。为了增进建筑模型的上色效果以及连续图片上色的连续性,本实施例的网络结构AL-GAN在ArcGAN网络的基础上增加了两个部分,第一部分为Attention模块,由第二生成器和第二鉴别器组成,主要作用为更加关注于图片上色效果不佳部分,使得由ArcGAN网络生成的着色图片经过Attention模块处理后上色效果更为出众;第二部分为LSTM模块,由第三生成器和第三双鉴别器组成,第三生成器部分采用encoder-LSTM-decoder结构,该模块主要作用为增强相邻图片生成效果的连续性。详情请参见图1。
1、Attention模块
Attention模块主要由第二生成器和第二鉴别器两部分构成。
第二生成器主要负责根据输入图片生成第二鉴别器以为是真实的图片,由第二编码器、第二转换器和第二解码器三部分组成。该部分参照ArcGAN网络,为了缓解消失梯度问题,加强特征传播,鼓励特征重用,第二生成器的编码器是一个输入层和三个下采样卷积层,每个下采样卷积层后接一个和输入层结构一样的平卷积层。为了大大减少参数提高特征利用率,第二转换器是两个没有池化层的密集卷积块,每块包含五个带有瓶颈层的密集卷积层,块与块之间有压缩层。第二解码器是三个上采样反卷积层和一个输出层,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第二编码器中的每层下采样卷积层和与之对应的解码器中的上采样反卷积层进行复制式连接。详情请参见图2。
第二鉴别器主要负责判别输入的图片是来自第二生成器的合成图片还是来自训练集的真实图片,由一些连续的下采样卷积层组成。为了更好的保留建筑线条和建筑外观的高层信息,在第二鉴别器网络中,将生成后的完整上色图片与mask一同输入到第二鉴别器中,由此不仅可以鉴别完整图片生成效果(类比全局鉴别器),同时也可以判别补全部分生成效果(类比局部鉴别器)。第二鉴别器由五层下采样层和一个输出层构成,与第二生成器共同完成对抗一致性训练。详情请参见图3。
2、LSTM模块
LSTM模块主要由第三生成器和第三双鉴别器两部分构成。
第三生成器部分主要采用encoder-LSTM-decoder结构,分为第三编码器,循环神经网络模块,第三解码器三个部分。第三编码器由一个输入层、四个下采样卷积层和四个空洞卷积层组成,每个下采样卷积层后接一个平卷积层。循环神经网络模块采用LSTM网络结构。第三解码器是四个上采样反卷积层和一个输出层,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第三编码器中的每层下采样卷积层和与之对应的第三解码器中的上采样反卷积层进行复制式连接。详情请参见图4。
第三双鉴别器主要负责判别输入的图片是来自第三生成器的合成图片还是来自训练集的真实图片,由一些连续的下采样卷积层组成。为了更好的保留建筑线条和建筑外观的高层信息,在第三双鉴别器网络中,采用双鉴别器模式,两个鉴别器分别为第三全局鉴别器GD和第三局部鉴别器LD。第三全局鉴别器GD由四层下采样层和一个输出层构成,第三局部鉴别器LD由五层下采样层和一个输出层构成,将两个鉴别器计算的损失很好的结合起来,与第三生成器共同完成对抗一致性训练。详情请参见图5。
本实施例还提供了一种基于深度神经网络的手绘建筑风格迁移方法,网络模型采用TensorFlow深度学习框架。将线条建筑模型转化为彩色建筑模型的过程作为一个将线条流形P映射到彩色流形C的映射函数。映射函数是通过训练数据和来学习的,其中n和m分别是训练集中的线条图像数和彩色图像数。与其他GAN框架不同的是,在LSTM模块中,使用第三双鉴别器D通过区分彩色流形中的图像和其他图像被训练,为第三生成器G提供对抗性损失以推动G达到它的目标。设L为损失函数,G*和D*为网络的权值。目标是解决最小-最大问题:/>
首先是Attention模块结构。
在Attention模块结构中,第二生成器网络G从两个平卷积层开始,每个平卷积采用7×7的卷积核,步长为1,后跟一个实例归一化函数(IN),一个校正线性单元(Relu),输出特征图大小保持不变。然后是三个下采样卷积块,每次下卷积后又跟一层平卷积,对图像进行空间压缩和编码,在此阶段提取有用的局部特征用于之后的转换,下采样卷积采用3×3的卷积核,步长为2。将此处的每个过程称为一个编码块。
然后,两个密集网络块(DenseNet-BC)用于构造内容和流形特征。块与块之间有一个1×1卷积(Conv)的压缩层,压缩因子为0.5。其中每个密集网络块又包含五层,一个实例归一化函数,一个校正线性单元和一个3×3卷积组成一层,每层增长率为k=32。在这之前,一个实例归一化函数,一个校正线性单元和一个1×1卷积组成密集网络的瓶颈层,以减少输入特征映射的数量,从而提高计算效率。
最后,用三块上采样卷积块重建并输出彩色风格图像,每次上卷积后跟一层平卷积,上卷积是卷积核为3×3,步长为2的反卷积层,平卷积同编码块中的平卷积,最后为卷积核3×3的最终卷积层。将此处的每个过程称为一个解码块。为了更好的特征重用,本实施例将每个编码块的输出特征和对应解码块的输出特征进行复制式连接,作为下一个解码块的输入。详情请参见图2。
第二鉴别器中主要是下采样卷积层,用于提取特征并进行二分类,第二鉴别器由五层下采样和一个最终层构成,其中每层下采样卷积层卷积核为4×4,步长为2,最终层使用flatten函数,输出一个一维向量,以便与真实标签做差。详情请参见图3。
其次是LSTM模块结构。
在LSTM模块结构中,第三生成器网络G从两个平卷积层开始,每个平卷积采用7×7的卷积核,步长为1,后跟一个实例归一化函数(IN),一个校正线性单元(Relu),输出特征图大小保持不变。然后是四个下采样卷积块,每次下卷积后又跟一层平卷积,对图像进行空间压缩和编码,在此阶段提取有用的局部特征用于之后的转换。为了采取到更加精确丰富的信息,从第二次下卷积开始,后接的平卷积层采用3×3的卷积核,步长为1,后跟一个实例归一化函数(IN),一个校正线性单元(Relu)。下采样卷积采用3×3的卷积核,步长为2。将此处的每个过程称为一个编码块。
然后,为了扩大感受野,使用四个空洞卷积层,随后接入循环神经网络模块,循环神经网络模块使用的是TensorFlow内置函数BasicLSTMCell()。
最后,用四块上采样卷积块重建并输出连续彩色风格图像,每次上卷积后跟一层平卷积,上卷积是卷积核为3×3,步长为2的反卷积层,平卷积前两层使用的是卷积核为3×3,步长为1的平卷积层,之后使用的都是卷积核为7×7,步长为1的平卷积层。最后一层输出层为两个卷积核为7×7,步长为1的平卷积层。将此处的每个过程称为一个解码块。为了更好的特征重用,本实施例将每个编码块的输出特征和对应解码块的输出特征进行复制式连接,作为下一个解码块的输入。详情请参见图4。
第三双鉴别器中主要是下采样卷积层,用于提取特征并进行二分类,其中,第三全局鉴别器由四层下采样卷积层和一个最终层构成,其中每层下采样卷积层卷积核为4×4,步长为2,最终层卷积核为4×4,步长为1,输出一个16×16的矩阵,以便与真实标签做差。第三局部鉴别器由五层下采样卷积层和一个最终层构成,其中下采样卷积层和最终层与第三全局鉴别器的一致,输出一个2×2的矩阵,以便提取更高层次的特征信息,调整图像整体布局。详情请参见图5。
由于本发明网络结构较为复杂,为防止模式崩溃,本发明仅在LSTM模块沿用CycleGAN的循环一致性特点,相当于训练两套相互映射的模型G和F,以得到循环一致性损失Lcyc(G,F),保证网络训练的稳定性。循环一致性损失定义如下:
其中,E(*)表示分布函数的期望值,Sdata(p)表示未上色的线条图的分布,Sdata(c)表示着色后的风格化图的分布,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值。循环一致性要求线条图集P中的每个线条图p经过生成器模型G转换后得风格化图G(p),G(p)再经过生成器模型F转换后所得线条图F(G(p))能和开始输入的p保持一致性,从而形成一个循环模式。同理,风格化c经过F再经G转化后所得G(F(c))仍能保持与原c一致。
具体的,本实施例的具体实施步骤如下:
1、用3DMax制作简单立体模型分别渲染出256×256像素的黑白线条图和着色图作为网络训练集P和训练集C。
2、分别将训练集P和训练集C存储成TFRecords文件,此为TensorFlow的标准数据存取格式,节省资源。
3、将训练集P和训练集C输入ArcGAN网络,对网络进行训练,具体为:
301)训练第一双鉴别器:训练集C中的一张真实图片ci分别输入两个设有默认参数的第一全局鉴别器和第一局部鉴别器中,第一全局鉴别器和第一局部鉴别器通过卷积提取图片特征,最终分别输出与真实标签0.9之间的差距,再求差距的平均值作为第一双鉴别器的损失值D(ci),目标是使损失值降低,根据损失值D(ci)经反向传播后更新第一双鉴别器参数。
302)训练第一生成器:训练集P中的一张图片输入第一生成器中,第一生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出生成图片。
303)将302)得到的生成图片作为第一双鉴别器的输入,第一双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次差距值求平均值后传递给第一生成器即为第一生成器的损失D(G(pi)),第一生成器根据损失D(G(pi))反向传播更新参数。
304)重复301)-303),直到第一双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练。此过程一般要迭代4万-6万轮,训练集中全部数据被输入一遍为一轮。
305)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~S data(c)[log D(c)]+Εp~S data(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值。G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
4、将上述训练好的ArcGAN网络模型导出成.pb格式的文件。
5、将训练集P和训练集C输入Attention模块,对Attention模块进行训练,具体为:
501)训练第二鉴别器:此过程与ArcGAN网络中第一双鉴别器训练一致。
502)训练第二生成器:训练集P与训练集C中的图片一起输入第二生成器中,首先将训练集C中的图片进行挖洞操作,使图片上随机产生小块正方形空白区域,该空白区域会保留建筑线条,让网络感知建筑中的面的结构;第二生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片以及对挖洞的空白区域上色补全的mask掩码图。
503)将502)得到的生成图片与mask掩码图一同作为第二鉴别器的输入,第二鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给生成器即为第二生成器的损失D(G(pi)),第二生成器根据损失D(G(pi))反向传播更新参数。
504)重复501)-503),直到第二鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练。
505)损失函数定义如下:
其中L(G)为第二生成器损失函数,L(D)为第二鉴别器损失函数,E(*)表示分布函数的期望值,c表示经由ArcGAN网络后得到的上色图片,Sdata(c)表示着色后的风格化图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,G(c)表示通过第二生成器后得到的着色图片,ReLu表示线性整流函数激活函数。
将上述训练好的Attention模块网络模型导出成.pb格式的文件。
6、将训练集P和训练集C输入LSTM模块,对LSTM模块进行训练,具体为:
701)训练第三双鉴别器:此过程与ArcGAN网络中第一双鉴别器训练一致。
702)训练第三生成器:将训练集C复制为四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与训练集P一同作为网络的输入;第三生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片。
703)将702)得到的生成图片作为双鉴别器的输入,第三双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给第三生成器即为生成器的损失D(G(pi)),第三生成器根据损失D(G(pi))反向传播更新参数。
704)重复701)-703),直到第三双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练。
705)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~S data(c)[log D(c)]+Εp~S data(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值。G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
7、将上述训练好的LSTM模块网络模型导出成.pb格式的文件。
8、制作测试集:用一种用于快速建筑建模的多点触摸交互式工具[1],给出一个三维结构建筑模型作为输入,渲染出一个256×256的线条绘制的建筑图像作为测试集。
9、读入测试集,调用训练好的ArcGAN网络,生成ArcGAN网络上色结果图。
10、将上述经由ArcGAN网络生成得到的上色图与测试集建筑线条图作为新一轮测试集,调用训练好的Attention模块,生成Attention上色结果图。
11、将上述经由Attention模块生成得到的Attention上色结果图复制四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与测试集建筑线条图作为新一轮测试集,调用训练好的LSTM模块,生成得到最后上色结果图。详情请参见图7。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]SUN,Q.,LIN,J.,FU,C.-W.,KAIJIMA,S.,AND HE,Y.2013.A multi-touchinterface for fast architectural sketching and massing.In Proceedings of theSIGCHI Conference on Human Factors in Computing Systems,ACM,247–256.
[2]L.A.Gatys,A.S.Ecker,and M.Bethge,“A neural algorithm of artisticstyle,”ArXiv e-prints,Aug.2015.
[3]Ian Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.2014.Generativeadversarial nets.In Advances in neural information processing systems.2672–2680.
[4]Alec Radford,Luke Metz,and Soumith Chintala.2015.Unsupervisedrepresentation learning with deep convolutional generative adversarialnetworks.arXiv preprint arXiv:1511.06434(2015).[5]Orest Kupyn,VolodymyrBudzan,Mykola Mykhailych,Dmytro Mishkin,and Jiri Matas.2017.DeblurGAN:BlindMotion Deblurring Using Conditional Adversarial Networks.arXiv preprintarXiv:1711.07064(2017).
[6]Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.2017.Deep multi-scaleconvolutional neural network for dynamic scene deblurring.In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Vol.2.
[7]Tero Karras,Timo Aila,Samuli Laine,and JaakkoLehtinen.2017.Progressive growing of gans for improved quality,stability,andvariation.arXiv preprint arXiv:1710.10196(2017).
[8]Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,Andrew Tao,Jan Kautz,andBryan Catanzaro.2017.High-Resolution Image Synthesis and SemanticManipulation with Conditional GANs.arXiv preprint arXiv:1711.11585(2017).
[9]Christian Ledig,Lucas Leis,Ferenc Huszar,Jose Caballero,AndrewCunning-′ham,Alejandro Acosta,Andrew Aitken,Alykhan Tejani,Johannes Totz,Zehan Wang,et al.2016.Photo-realistic single image super-resolution using agenerative adversarial network.arXiv preprint(2016).
[10]Deepak Pathak,Philipp Krahenbuhl,Jeo Donahue,Trevor Darrell,andAlexei A Efros.2016.Context encoders:Feature learning by inpainting.InProceedings of the IEEE Conference on Computer Vision and PaernRecognition.2536–2544
[11]Vaswani A,Shazeer N,Parmar N,et al.2017.Attention Is All YouNeed.In Advances in Neural Information Processing Systems.
[12]Han Zhang,Ian Goodfellow,Dimitris Metaxas,AugustusOdena.2018.Self-attention generative adversarial networks.arXiv preprintarXiv:1805.08318(2018).
[13]Dae Young Park,Kwang Hee Lee.2018.Arbitrary Style Transfer withStyle-Attentional Networks.In Proceedings of the IEEE Conference on ComputerVision and Paern Recognition.5880-5888
[14]Hochreiter,S,Schmidhuber,J.Long Short-Term Memory[J].Neuralcomputation,1997,9(8):1735-1780.
Claims (5)
1.一种基于ArcGAN网络的手绘3D建筑自动上色网络装置,包括ArcGAN网络,ArcGAN网络由第一生成器和第一双鉴别器组成,第一双鉴别器包括第一全局鉴别器和第一局部鉴别器;其特征在于,自动上色网络装置AL-GAN还包括Attention模块和LSTM模块;
所述Attention模块由第二生成器和第二鉴别器组成;第二生成器根据输入图片生成第二鉴别器认为是真实的图片,第二生成器由第二编码器、第二转换器和第二解码器三部分组成;第二编码器包括一个输入层和三个下采样卷积层,每个下采样卷积层后接一个和输入层结构一样的平卷积层;第二转换器包括两个没有池化层的密集卷积块,每个密集卷积块包含五个带有瓶颈层的密集卷积层,密集卷积块之间设有压缩层;第二解码器包括三个上采样反卷积层和一个输出层,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第二编码器中的每层下采样卷积层和与之对应的解码器中的上采样反卷积层进行复制式连接;
第二鉴别器用于判别输入的图片是来自第二生成器的合成图片还是来自训练集的真实图片,由连续的下采样卷积层组成;
所述LSTM模块由第三生成器和第三双鉴别器两部分构成;
第三生成器采用encoder-LSTM-decoder结构,分为第三编码器、循环神经网络模块、第三解码器三个部分;第三编码器由一个输入层、四个下采样卷积层和四个空洞卷积层组成,每个下采样卷积层后接一个平卷积层;循环神经网络模块采用LSTM网络结构;第三解码器由四个上采样反卷积层和一个输出层组成,每个上采样反卷积层后接一个和输入层结构一样的平卷积层;第三编码器中的每层下采样卷积层和与之对应的解码器中的上采样反卷积层进行复制式连接;
第三双鉴别器用于判别输入的图片是来自第三生成器的合成图片还是来自训练集的真实图片,由连续的下采样卷积层组成;第三双鉴别器包括第三全局鉴别器和第三局部鉴别器;第三全局鉴别器由四层下采样层和一个输出层构成,第三局部鉴别器由五层下采样层和一个输出层构成,将第三双鉴别器计算的损失结合起来,与第三生成器共同完成对抗一致性训练。
2.一种基于ArcGAN网络的手绘3D建筑自动上色方法,基于权利要求1所述自动上色网络装置,其特征在于,包括以下步骤:
(1)建立网络训练集P和训练集C并存储成TFRecords文件;
(2)将训练集P和训练集C输入ArcGAN网络,对ArcGAN网络进行训练;
(3)将训练好的ArcGAN网络模型导出成.pb格式的文件;
(4)将训练集P和训练集C输入Attention模块,对Attention模块进行训练;
(5)将训练好的Attention模块网络模型导出成.pb格式的文件;
(6)将训练集P和训练集C输入LSTM模块,对LSTM模块进行训练;
(7)将训练好的LSTM模块网络模型导出成.pb格式的文件;
(8)制作测试集;
(9)读入测试集,调用训练好的ArcGAN网络,生成ArcGAN网络上色结果图;
(10)将经由ArcGAN网络生成得到的上色结果图与测试集建筑线条图作为新一轮测试集,调用训练好的Attention模块,生成Attention上色结果图;
(11)将经由Attention模块生成得到的Attention上色结果图复制四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与测试集建筑线条图作为新一轮测试集,调用训练好的LSTM模块,生成得到最后上色结果图。
3.根据权利要求2所述一种基于ArcGAN网络的手绘3D建筑自动上色方法,其特征在于,步骤(2)具体如下:
(201)训练第一双鉴别器:训练集C中的一张真实图片ci分别输入两个设有默认参数的第一全局鉴别器和第一局部鉴别器中,第一全局鉴别器和第一局部鉴别器通过卷积提取图片特征,最终分别输出与真实标签0.9之间的差距,再求差距的平均值作为第一双鉴别器的损失值D(ci),目标是使损失值降低,根据损失值D(ci)经反向传播后更新第一双鉴别器参数;
(202)训练第一生成器:训练集P中的一张图片输入第一生成器中,第一生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出生成图片;
(203)将(202)得到的生成图片作为第一双鉴别器的输入,第一双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次差距值求平均值后传递给第一生成器即为第一生成器的损失D(G(pi)),第一生成器根据损失D(G(pi))反向传播更新参数;
(204)重复(201)-(203),直到第一双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;迭代4万-6万轮,训练集中全部数据被输入一遍为一轮;
(205)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~Sdata(c)[logD(c)]+Εp~Sdata(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值;G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
4.根据权利要求2所述一种基于ArcGAN网络的手绘3D建筑自动上色方法,其特征在于,步骤(4)具体包括以下步骤:
(401)训练第二鉴别器:此过程与ArcGAN网络中对第一双鉴别器的训练过程一致;
(402)训练第二生成器:训练集P与训练集C中的图片一起输入第二生成器中,首先将训练集C中的图片进行挖洞操作,使图片上随机产生小块正方形空白区域,该空白区域会保留建筑线条,让网络感知建筑中的面的结构;第二生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片以及对挖洞的空白区域上色补全的mask掩码图;
(403)将(402)得到的生成图片与mask掩码图一同作为第二鉴别器的输入,第二鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给生成器即为第二生成器的损失D(G(pi)),第二生成器根据损失D(G(pi))反向传播更新参数;
(404)重复步骤(401)-(403),直到第二鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;
(405)损失函数定义如下:
其中L(G)为第二生成器损失函数,L(D)为第二鉴别器损失函数,E(*)表示分布函数的期望值,c表示经由ArcGAN网络后得到的上色图片,Sdata(c)表示着色后的风格化图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,G(c)表示通过第二生成器后得到的着色图片,ReLu表示线性整流函数激活函数。
5.根据权利要求2所述一种基于ArcGAN网络的手绘3D建筑自动上色方法,其特征在于,步骤(6)具体包括以下步骤:
(601)训练第三双鉴别器:此过程与ArcGAN网络中对第一双鉴别器的训练过程一致;
(602)训练第三生成器:将训练集C复制为四组,第一组去除最后三张图片,第二组去除最后两张图片和第一张图片,第三组去除最后一张图片和前两张图片,第四组去除前三张图片,由此让四组图片保持连续顺序,将这四组上的图片与训练集P一同作为网络的输入;第三生成器通过编码过程卷积提取图片特征,通过转换过程对图片特征进行相应转换,再通过反卷积将特征图片重构,最终输出上色完整的生成图片;
(603)将(602)得到的生成图片作为双鉴别器的输入,第三双鉴别器在被训练了一次的基础上对本次输入进行卷积,提取图片特征,最终分别输出前后两次与真实标签0.9之间的差距,目标是使此差距变大,将前后两次的差距值求平均值后传递给第三生成器即为生成器的损失D(G(pi)),第三生成器根据损失D(G(pi))反向传播更新参数;
(604)重复步骤(601)-(603),直到第三双鉴别器鉴别不出输入图片的真假,损失函数趋于收敛即达到纳什平衡,停止训练;
(605)对抗一致性损失定义为:L(G,D)=Ladv(G,D)+Lcyc(G,F)
Ladv(G,D)=Εc~Sdata(c)[logD(c)]+Εp~Sdata(p)[log(1-D(G(p)))]
其中Ladv(G,D)表示对抗损失函数,Lcyc(G,F)表示循环一致性损失,E(*)表示分布函数的期望值,Sdata(c)表示着色后的风格化图的分布,Sdata(p)表示未上色的线条图的分布,Ec~Sdata(c)表示着色后的风格化图的分布函数的期望值,Ep~Sdata(p)表示未上色的线条图的分布函数的期望值;G试图生成看起来和c很像的G(p),而D的目的是区分生成的G(p)和真实的风格化图c,即D(G(p))和D(c)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763194.6A CN111862294B (zh) | 2020-07-31 | 2020-07-31 | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763194.6A CN111862294B (zh) | 2020-07-31 | 2020-07-31 | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111862294A CN111862294A (zh) | 2020-10-30 |
CN111862294B true CN111862294B (zh) | 2024-03-01 |
Family
ID=72952516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010763194.6A Active CN111862294B (zh) | 2020-07-31 | 2020-07-31 | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862294B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446382B (zh) * | 2020-11-12 | 2022-03-25 | 云南师范大学 | 一种基于细粒度语义级的民族服饰灰度图像着色方法 |
CN112487903B (zh) * | 2020-11-23 | 2023-07-04 | 中国信息通信科技集团有限公司 | 基于对抗网络的步态数据生成方法及设备 |
CN112801902B (zh) * | 2021-01-29 | 2022-06-21 | 福州大学 | 一种基于改进生成对抗网络的交通图像去雾方法 |
CN113538452B (zh) * | 2021-05-27 | 2022-11-01 | 华中科技大学 | 家具布局及三维可视化方法、装置和设备 |
CN113491523B (zh) * | 2021-07-30 | 2024-09-27 | 济南汇医融工科技有限公司 | 一种心电信号特征点检测方法及系统 |
CN114298997B (zh) * | 2021-12-23 | 2023-06-02 | 北京瑞莱智慧科技有限公司 | 一种伪造图片检测方法、装置及存储介质 |
CN114092337B (zh) * | 2022-01-19 | 2022-04-22 | 苏州浪潮智能科技有限公司 | 一种图像任意尺度的超分辨率放大的方法和装置 |
CN117557589A (zh) * | 2023-11-08 | 2024-02-13 | 深圳市闪剪智能科技有限公司 | 基于神经网络的线条图上色方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110598221A (zh) * | 2019-08-29 | 2019-12-20 | 内蒙古工业大学 | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468262B2 (en) * | 2017-10-30 | 2022-10-11 | Nec Corporation | Deep network embedding with adversarial regularization |
US10825219B2 (en) * | 2018-03-22 | 2020-11-03 | Northeastern University | Segmentation guided image generation with adversarial networks |
-
2020
- 2020-07-31 CN CN202010763194.6A patent/CN111862294B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110598221A (zh) * | 2019-08-29 | 2019-12-20 | 内蒙古工业大学 | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 |
Non-Patent Citations (2)
Title |
---|
放射治疗千伏级图像引导系统的辐射剂量研究;付娟;孟慧鹏;王克强;张若辉;段敬豪;张艳龙;丁红军;孙倩;李西川;;医疗卫生装备(第02期);全文 * |
生成对抗网络GAN的发展与最新应用;陈亮;吴攀;刘韵婷;刘晓阳;杨佳明;姜余;;电子测量与仪器学报(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111862294A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111862294B (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 | |
Wang et al. | Nerf-art: Text-driven neural radiance fields stylization | |
CN111489287B (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
CN110070483B (zh) | 一种基于生成式对抗网络的人像卡通化方法 | |
Fan et al. | Unified implicit neural stylization | |
CN112396703B (zh) | 一种单图像三维点云模型重建方法 | |
Li et al. | Face sketch synthesis using regularized broad learning system | |
CN113255813B (zh) | 一种基于特征融合的多风格图像生成方法 | |
US20220318946A1 (en) | Method for image shape transformation based on generative adversarial network | |
CN112837210B (zh) | 一种基于特征图分块的多形变风格人脸漫画自动生成方法 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN112381716A (zh) | 一种基于生成式对抗网络的图像增强方法 | |
CN115170388A (zh) | 人物线稿生成方法、装置、设备及介质 | |
CN112837212B (zh) | 一种基于流形对齐的图像任意风格迁移方法 | |
CN114119869A (zh) | 三维重建方法、系统、机器设备和计算机可读存储介质 | |
CN113569780A (zh) | 一种基于梯度对抗攻击和生成对抗模型的人脸图片年龄转换方法 | |
Jin | [Retracted] Art Style Transfer of Oil Painting Based on Parallel Convolutional Neural Network | |
CN116958451B (zh) | 模型处理、图像生成方法、装置、计算机设备和存储介质 | |
Ye et al. | HAO‐CNN: Filament‐aware hair reconstruction based on volumetric vector fields | |
CN118397192B (zh) | 一种基于双几何学习和自适应稀疏注意力的点云分析方法 | |
Shi | Artificial Intelligence for Art Creation with Image Style | |
CN118154830B (zh) | 一种基于单视角视频的2d数字人重光照方法和系统 | |
Guo et al. | Image Denoising and Colorization Based on Plug and Play Framework | |
CN118397182A (zh) | 一种多模态的端到端草图三维人脸重建方法 | |
Guo et al. | ACoSkeNet: A unique automatic coloring of sketches model based on U-Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |