CN110223359A - 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 - Google Patents

一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 Download PDF

Info

Publication number
CN110223359A
CN110223359A CN201910447456.5A CN201910447456A CN110223359A CN 110223359 A CN110223359 A CN 110223359A CN 201910447456 A CN201910447456 A CN 201910447456A CN 110223359 A CN110223359 A CN 110223359A
Authority
CN
China
Prior art keywords
color
original text
picture
rough draft
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910447456.5A
Other languages
English (en)
Other versions
CN110223359B (zh
Inventor
王曰海
张展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910447456.5A priority Critical patent/CN110223359B/zh
Publication of CN110223359A publication Critical patent/CN110223359A/zh
Application granted granted Critical
Publication of CN110223359B publication Critical patent/CN110223359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于生成对抗网络的线稿上色模型的构建方法,包括:(1)构建线稿上色网络,线稿上色网络包含编码器、草稿生成器、第一判别器、高级生成器和第二判别器;(2)构建损失函数;(3)以损失函数收敛为目标,对线稿上色网络进行训练,网络参数确定后,提取参数确定的草稿生成器和高级生成器作为线稿上色模型。还公开了一种线稿上色模型。还公开了一种利用该线稿上色模型进行线稿上色的应用。

Description

一种基于生成对抗网络的双阶段多配色线稿上色模型及其构 建方法和应用
技术领域
本发明属于图像合成领域,具体涉及一种基于生成对抗网络的双阶段多配色线稿上色模型、该线稿上色模型的构建方法,以及利用该线稿上色模型进行线稿上色的应用。
背景技术
目前绘画师普遍的作画方式是为想画的内容打好线稿,并基于该线稿上色完成作品,然而,这样的上色过程需要耗费大量的时间和精力,想要创作出一幅质量较高的插画需要对色彩有很好的学习,同时需要大量绘图的经验,如果能将这项繁重与专业的任务交给计算机自动完成,则无疑能极大的提升绘画师的作画效率。
目前,已有成功的方法对黑白图像进行上色,然而,基于线稿的图片上色在计算机领域中是一项具有挑战性的任务,因为线稿缺少黑白图片的灰度和语义信息。同时,因为缺乏成对的线稿及与之对应的上完色的图片,想要训练这样的模型也变得较为困难。
目前,随着人工智能技术的发展,以生成对抗网络(GAN)为代表的生成模型得到了快速的发展。生成对抗网络的基本思想为对抗博弈,由生成器和判别器组成。生成器的目的是生成能够欺骗判别器的上色图片,而判别器的目的则是判断出哪些图片是生成的,哪些是真实的,二者相互促进提高,最终能够自动生成出较高水平的上色图片,从而让上色过程变得更加高效和智能。
目前,现有利用线稿和彩色图片进行训练的生成对抗网络模型,输入线稿就可以得到对应的彩色图片,然而这样的方法生成的彩色图片生成结果由线稿和网络模型完全确定,导致生成的结果非常单一,对于使用者来说并不实用。
另外还存在着基于参考图像的线稿上色模型,通过输入线稿并选择参考图像来使生成结果更加丰富,然而这种方法首先需要寻找到合适的参考图像,这一点较难实现且在实用性上并不方便,使用者需要多次更换参考图像才能找到较好的生成效果,而且在参考图像和线稿结构不一致时上色效果较差。
随着大量高清显示设备的涌现,人们对分辨率的要求也在随之提升,然而,由于生成对抗网络对抗的特性,训练过程会变得很不稳定,难以收敛,想要训练能够这样的能够产生较高分辨率的上色模型也变得较为困难,且生成效果较为一般。
可见,如果能解决上述提出的生成结果单一、使用不方便、训练不稳定等问题,提出一个能够基于原线稿直接生成多种配色方案供用户选择的且训练更稳定的上色模型,将能更好的提升绘画师的作画效率。
发明内容
为了提升绘画师的作画效率、改进现有基于生成对抗网络方法的训练稳定性,本发明提供了一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用。
本发明提供了一种基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,包括以下步骤:
(1)构建双阶段多配色线稿上色网络,双阶段多配色线稿上色网络包含草稿阶段的编码器、草稿生成器、第一判别器,分辨率提升阶段的高级生成器和第二判别器,其中,编码器用于将真实彩色图片和/或草稿生成器生成的草稿彩色图片编码成特征向量;草稿生成器用于将输入的线稿图片和特征向量生成草稿彩色图片,第一判别器用于判别输入的图像是草稿彩色图片还是真实彩色图片;高级生成器用于将输入的线稿图片和草稿彩色图片生成高分辨率生成图片,第二判别器用于判别输入的图像是高分辨率生成图片还是真实彩色图片,由于两个阶段任务耦合性较低,减轻了任务的复杂度,训练的稳定性得到了提升;
(2)构建损失函数,第一判别器的损失函数为与真实彩色图片匹配的真实标签、草稿彩色图片匹配的虚假标签对应的第一交叉熵,草稿生成器需要减少草稿彩色图片与真实彩色图片的均方误差,生成的图片要让第一判别器判断为真实标签,同时为了引入噪声编码以生成多种配色,还需减少特征向量之间的平均绝对误差;编码器通过KL散度损失让编码输出的特征接近于高斯分布;第二判别器的损失函数为与真实彩色图片匹配的真实标签、生成的高分辨率彩色图片匹配的虚假标签对应的第二交叉熵,高级生成器需要减少高分辨率生成图片与真实彩色图片的均方误差,同时生成的图片要让第二判别器判断为真实标签;
(3)以真实彩色图片、根据彩色图片生成的线稿图片作为训练样本,以损失函数收敛为目标,对线稿上色网络进行分阶段训练,待草稿阶段模型训练完成后,再进行分辨率提升阶段的训练,网络参数确定后,提取参数确定的草稿生成器和高级生成器作为线稿上色模型。
本发明通过增加编码器引入了噪声信息,使得草稿生成器能够实现一对多的映射,以随机性地生成多张草稿彩色图片供用户选择,满足用户的需求,此外,通过草稿生成器和高级生成器以及两个判别器的分阶段训练,使网络的任务解耦,减轻了训练的负担,增加了训练的稳定性,并能够生成满足需求的高质量的高分辨率生成图片。
本发明还提供了一种上述基于生成对抗网络的线稿上色模型的构建方法获得的线稿上色模型。利用该线稿上色模型能够实现对线稿的自动上色,提升绘画师的作画效率。
本发明还提供了一种利用上述线稿上色模型进行线稿上色的应用,应用时,将线稿图片、颜色提取对应的向量以及噪声向量输入至训练好的草稿生成器中,经计算输出多张低分辨率的草稿彩色图像;
人为从多张低分辨率的草稿彩色图像中选择满意的一张草稿彩色图像输入至训练好的高级生成器中,经计算输出高分辨率生成图片,实现对线稿图片的上色。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明提供的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法的流程框图;
图2是本发明提供的编码器的结构示意图;
图3是本发明提供的草稿生成器和高级生成器的结构示意图;
图4是本发明提供的第一判别器和第二判别器的结构示意图;
图5是本发明提供的残差特征提取模块的结构示意图;
图6是本发明提供的通用卷积模块的结构示意图;
图7是本发明提供的残差卷积模块、残差转置卷积模块的结构示意图;
图8是本发明提供的利用双阶段多配色线稿上色模型进行线稿上色的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了提升绘画师的作画效率。本实施例提供了一种基于生成对抗网络的双阶段多配色线稿上色模型,该线稿上色模型在使用阶段由可以生成多种配色的草稿生成器、以及用于提升草稿彩色图片质量,生成高分辨生成图片的高级生成器组成。
本实施例提供的线稿上色模型通过如图1所示的构建方法构建获得。具体地,该线稿上色模型的构建方法训练样本构建、线稿上色网络构建、损失函数构建以及线稿上色网络训练阶段等四个阶段,具体过程如下:
训练样本构建
本实施例构建的训练样本主要来自于插画交流网站上爬取的图片。为了获得最好的训练效果,选择这些图片中背景较为简单的图片作为样本图片,以便线稿上色网络更为容易的分辨出色彩的边缘。
样本图片均为真实彩色图片,在获得样本图片后,对每一幅样本图片采用XDoG或HED滤波进行线稿提取预处理,获得线稿图片,其中,XDoG、HED滤波均是针对灰度图片的边缘提取算法,可以较为快捷地得到彩色图片的边缘从而构成线稿,并以真实彩色图片和根据彩色图片生成的线稿图片组成训练样本。
线稿上色网络构建
如图1所示,本实施例构建的双阶段多配色线稿上色网络包含编码器、草稿生成器、第一判别器、高级生成器和第二判别器;其中,在草稿阶段,编码器用于将真实彩色图片和/或草稿生成器生成的草稿彩色图片编码成特征向量;草稿生成器用于将输入的线稿图片和特征向量生成草稿彩色图片,第一判别器用于判别输入的图像是草稿彩色图片还是真实彩色图片;在分辨率提升阶段,高级生成器用于将输入的线稿图片和草稿彩色图片生成高分辨率生成图片,第二判别器用于判别输入的图像是高分辨率生成图片还是真实彩色图片。由于两个阶段任务耦合性较低,减轻了任务的复杂度,训练的稳定性得到了提升。
用户根据一张线稿图片和引入的噪声信息,在草稿生成器的作用下生成多张草稿彩色图片。为了能够使该草稿生成器能产生更丰富的配色方案,而不是单一的、决定性的输出结果,需要添加噪声输入来改变输出的配色。然而单纯的噪声不具有信息量,对草稿生成器并没有用处,网络在训练的过程中会选择直接忽略该噪声信息,因此,为了防止网络直接丢弃该噪声信息,本发明中引入编码器,将编码器输出的特征向量作为噪声信息,输入至草稿生成器中,训练时形成一对多映射关系,以使得草稿生成器能够输出多张草稿彩色图片。训练时输入的特征向量分别来自于噪声和彩色图片的编码,因此在特征向量来源于噪声时,编码器负责对生成的草稿彩色图片进行编码,通过损失函数保证特征向量噪声和编码一致;在特征向量来自于彩色图片时,编码器负责对真实彩色图片进行编码生成所需的特征向量。
编码器包括依次连接的卷积层、BatchNorm层(批标准化层)、ReLU激活函数层、最大池化层MaxPool、至少两个相连的残差特征提取模块、平均池化层以及全连接层。本实施例中,如图2所示,编码器包含卷积层Conv2D、BatchNorm层、最大池化层MaxPool、9个依次连接的残差特征提取模块ResBlock、平均池化层AvgPool、两个全连接层Dense。
如图5所示,其中,残差特征提取模块包含依次连接的带仿射变化的InstanceNormalization层(实例标准化层)、ReLU激活函数层以及卷积层,并包含一条残差通路。
以128*128的图像为例,经过多级残差编码之后输出特征为8*8分辨率,256通道的图像,再经过池化大小为8的池化层输出256位的特征向量,经过全连接层后变为8位的语义信息。
本发明中,草稿生成器与高级生成器结构相同,具体包括编码单元,和连接编码单元输出的解码单元;
其中,编码单元包含至少两个依次连接的残差卷积模块,如图7所示,残差卷积模块包含卷积层、残差特征提取模块,残差特征提取模块包含依次连接的带仿射变化的Instance Normalization层、ReLU激活函数层以及卷积层;
解码单元包含至少两个依次交替连接的残差卷积模块和转置卷积模块,其中,如图7所示,残差转置卷积模块包含TransposeConv层(转置卷积层)、残差特征提取模块;
编码单元的层数与解码单元的模块数相同,且编码单元的部分残差卷积模块的输出与对应位置的残差转置卷积模块的输入相连。
如图3所示,本实施例提供的草稿生成器和高级生成器包含9层残差卷积模块(GenConvBlock)的编码单元和9层残差卷积模块和残差转置卷积模块(UpConvBlock)交替而成的解码单元。具体地,编码单元包含第0层E0(GenConvBlock3-32),输出通道数为32,卷积核大小为3,步长为1,填充大小为1;第1层E1(GenConvBlock4-64),输出通道数为64,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为64*64(以输入图像分辨率为128*128为例);第2层E2(GenConvBlock3-64),输出通道数为64,卷积核大小为3,步长为1,填充大小为1;第3层E3(GenConvBlock4-128),输出通道数为128,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为32*32;第4层E4(GenConvBlock3-128),输出通道数为128,卷积核大小为3,步长为1,填充大小为1;第5层E5(GenConvBlock4-256),输出通道数为256,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为16*16;第6层E6(GenConvBlock3-256),输出通道数为256,卷积核大小为3,步长为1,填充大小为1;第7层E7(GenConvBlock4-512),输出通道数为512,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为8*8;第8层E8(GenConvBlock3-512),输出通道数为512,卷积核大小为3,步长为1,填充大小为1。
解码单元包含第0层残差转置卷积模块D8(UpConvBlock4-512),融合E7层和E8层,输出通道数为512,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为16*16;第1层残差卷积模块D7(GenConvBlock3-256),输出通道数为256,卷积核大小为3,步长为1,填充大小为1;第2层残差转置卷积模块D6(UpConvBlock4-256),融合E6和D7层,输出通道数为256,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为32*32;第3层残差卷积模块D5(GenConvBlock3-128),输出通道数为128,卷积核大小为3,步长为1,填充大小为1;第4层残差转置卷积模块D4(UpConvBlock4-128),融合E4和D5层,输出通道数为128,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为64*64;第5层残差卷积模块D3(GenConvBlock3-64),输出通道数为64,卷积核大小为3,步长为1,填充大小为1;第6层残差转置卷积模块D2(UpConvBlock4-64),融合E2和D3层,输出通道数为64,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为128*128;第7层残差卷积模块D1(GenConvBlock3-32),输出通道数为32,卷积核大小为3,步长为1,填充大小为1;最终输出由D1经过输出通道数为3,卷积核大小为3,步长为1,填充大小为1的卷积、Tanh激活函数而得到。
判别器的作用是判断生成的彩色图片是否能匹配该线稿。在与生成器对抗的过程中,判别器逐渐增强了自己的判别能力,因此能够发现判别器中具有瑕疵的生成结果;而生成器为了能通过判别器的判断,则会调整这些瑕疵,从而生成更好的结果。本发明中,判别器采用带步长的卷积网络来逐渐减小图片的分辨率并提取语义信息,最终输出结果为图片是否能够匹配线稿的输入。
本发明中,第一判别器包含至少两个依次连接的通用卷积模块(DisConvBlock)、全连接层、Dropout层、Sigmoid激活函数层,其中,通用卷积模块如图6所示,每个通用卷积模块包含依次连接的卷积层、InstanceNorm层、LeakyReLU激活函数层;
第二判别器包含至少三个依次连接的通用卷积模块、Dropout层、Sigmoid激活函数层。
具体地,本实施例中,如图4所示,第一判别器包含第0层E0(DisConvBlock4-32),输出通道数为32,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为64*64;第1层E1(DisConvBlock3-32),输出通道数为32,卷积核大小为3,步长为1,填充大小为1;第2层E2(DisConvBlock4-64),输出通道数为64,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为32*32;第3层E3(DisConvBlock3-64),输出通道数为64,卷积核大小为3,步长为1,填充大小为1;第4层E4(DisConvBlock4-128),输出通道数为128,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为16*16;第5层E5(DisConvBlock3-128),输出通道数为128,卷积核大小为3,步长为1,填充大小为1;第6层E6(DisConvBlock4-256),输出通道数为256,卷积核大小为4,步长为2,填充大小为1,此时图片分辨率为8*8。
在草稿阶段(即针对第一判别器),该8*8的特征再经过全连接层、Dropout层、Sigmoid激活函数层,最终输出1位的特征用于判断整张图片是否为真;分辨率提升阶段(即针对第二判别器)则采用小块图片判别的方式,输入像素为512*512,在经过7层通用编码层之后输出分辨率为32*32,经过卷积核大小为3,步长为1,填充大小为1,通道数为1的卷积层、Dropout层、Sigmoid激活函数层,最终输出32*32位的特征用于判断每小块图片是否为真。
损失函数构建
第一判别器的损失函数为与真实彩色图片匹配的真实标签、草稿彩色图片匹配的虚假标签对应的第一交叉熵,草稿生成器需要减少草稿彩色图片与真实彩色图片的均方误差,生成的图片要让第一判别器判断为真实标签,同时为了引入噪声编码以生成多种配色,还需减少特征向量之间的平均绝对误差;编码器通过KL散度损失让编码输出的特征接近于高斯分布;第二判别器的损失函数为与真实彩色图片匹配的真实标签、生成的高分辨率彩色图片匹配的虚假标签对应的第二交叉熵,高级生成器需要减少高分辨率生成图片与真实彩色图片的均方误差,同时生成的图片要让第二判别器判断为真实标签;
具体地,构建的损失函数为:
草稿阶段,分为两种情况,一种是噪声向量z从图片编码的特征向量中采样,另一种是噪声向量z从高斯噪声p(z)~N(0,1)中采样;
噪声向量z从图片编码的特征向量中采样的情况下,首先要保证生成的草稿彩色图片相似于真实彩色图片,采用均方差损失
A表示线稿图片,B表示真实彩色图片,(A,B)组成了训练集,该训练集的特征满足p(A,B)的分布,A,B~p(A,B)表示训练过程中采样的A,B来源于这样的训练集分布。同样的,B编码之后的特征也满足分布E(B),z~E(B)就表示z为编码器Encoder对真实彩色图片B的编码向量E(B)中的采样点,满足这样的分布,G1(A,z)表示在输入为(A,z)的条件下,草稿生成器G1生成的草稿彩色图片,表示满足上述采样条件下的期望函数,这里的||B-G1(A,z)||2为L2范数,其原型公式为(把B-G1(A,z)用x替代)
其次是第一判别器D1、草稿生成器G1之间的对抗损失,采用交叉熵损失:
D1(A,B)表示输入为(A,B)的条件下,即输入真实图片的情况下,第一判别器D1的输出的标签;D1(A,G1(A,z))表示输入为(A,G1(A,z))的条件下,即输入生成的虚假图片的情况下,第一判别器D1的输出的标签;
最后一部分是要求编码器编码出来的特征需要接近于高斯分布N(0,1)的KL损失:
这里的DKL(E(B)||N(0,1))是KL散度,其原型公式为
该公式用于衡量p分布和q分布之间的距离,这里p对应E(B),q对应N(0,1),通过减少二者距离之间的期望来达到上述编码器编码出来的特征需要接近于高斯分布N(0,1)的目的;
z从高斯噪声p(z)~N(0,1)中采样的情况下:
首先要保证生成的草稿彩色图片相似于真实彩色图片,采用均方差损失
和Lmse1(G1)唯一不同的地方就是这里z的分布为高斯分布N(0,1),z~p(z)就表示z是从这样的高斯分布中采样得到的;
第一判别器D1、草稿生成器G1之间的对抗损失,采用交叉熵损失
为了保证生成的草稿彩色图片的编码与z一致,采用平均绝对误差
E(G1(A,z))表示编码器E对草稿生成器G1输出的G1(A,z)的编码向量,这里的||z-E(G1(A,z))||1为L1范数,其原型公式为:
把z-E(G1(A,z))用x替代;
综上,草稿阶段的损失函数为:
这里的超参数λKLmse1latentmse2为各部分损失函数的权重;
分辨率提升阶段,首先要保证生成的高分辨率彩色图片相似于真实彩色图片,采用均方差损失:
这里的Bdraft是草稿阶段生成的草稿彩色图片,即
Bdraft=G1(A,z)
G2(A,Bdraft)则是在输入为(A,Bdraft)的条件下,高级生成器G2生成的高分辨率彩色图片;
第二判别器G2、高级生成器D2之间的对抗损失,采用交叉熵损失
D2(A,B)表示输入为(A,B)的条件下,即输入真实图片的情况下,第二判别器D2的输出的标签;D2(A,Bdraft)表示输入为(A,Bdraft)的条件下,即输入生成的虚假图片的情况下,第二判别器D2的输出的标签;
综上,最终阶段的损失函数为
Lfinal=LGAN2mseLmse
这里的超参数λmse为均方差损失函数的权重。
线稿上色网络训练
在构建好训练样本、线稿上色网络以及损失函数后,以线稿图片、与线稿图片对应的真实彩色图片作为训练样本,以损失函数收敛为目标,对线稿上色网络进行分阶段训练,待草稿阶段模型训练完成后,再进行分辨率提升阶段的训练。网络参数确定后,提取参数确定的草稿生成器和高级生成器作为线稿上色模型。由于两个阶段任务耦合性较低,减轻了任务的复杂度,训练的稳定性得到了提升。
在另外一个实施例中,为了增加对颜色的控制,在上述线稿上色网络中增加了颜色控制功能,具体地,所述线稿上色网络还包括:
颜色提示单元,通过该颜色提示单元添加人为设定的颜色信息,该颜色信息以向量形式输入至草稿生成器中,在草稿生成器生成草稿彩色图片时,该颜色信息作为条件融合到生成草稿彩色图片中。
当添加有颜色提示单元时,在网络训练阶段,损失函数中的A表示叠加有色彩提示的线稿图片,在训练时,该线稿上色网络直接学习了颜色信息的特征,这样在应用时,直接可以通过颜色提示单元指定上色颜色,即可以生成指定颜色的高分辨率生成图片。
实施例还提供了一种利用上述线稿上色模型进行线稿上色的应用。如图8所示,应用时,将线稿图片、颜色提取对应的向量以及噪声向量输入至训练好的草稿生成器中,经计算输出多张低分辨率的草稿彩色图像;
人为从多张低分辨率的草稿彩色图像中选择满意的一张草稿彩色图像输入至训练好的高级生成器中,经计算输出高分辨率生成图片,实现对线稿图片的上色。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,包括以下步骤:
(1)构建双阶段多配色线稿上色网络,双阶段多配色线稿上色网络包含草稿阶段的编码器、草稿生成器、第一判别器,分辨率提升阶段的高级生成器和第二判别器,其中,编码器用于将真实彩色图片和/或草稿生成器生成的草稿彩色图片编码成特征向量;草稿生成器用于将输入的线稿图片和特征向量生成草稿彩色图片,第一判别器用于判别输入的图像是草稿彩色图片还是真实彩色图片;高级生成器用于将输入的线稿图片和草稿彩色图片生成高分辨率生成图片,第二判别器用于判别输入的图像是高分辨率生成图片还是真实彩色图片,由于两个阶段任务耦合性较低,减轻了任务的复杂度,训练的稳定性得到了提升;
(2)构建损失函数,第一判别器的损失函数为与真实彩色图片匹配的真实标签、草稿彩色图片匹配的虚假标签对应的第一交叉熵,草稿生成器需要减少草稿彩色图片与真实彩色图片的均方误差,生成的图片要让第一判别器判断为真实标签,同时为了引入噪声编码以生成多种配色,还需减少特征向量之间的平均绝对误差;编码器通过KL散度损失让编码输出的特征接近于高斯分布;第二判别器的损失函数为与真实彩色图片匹配的真实标签、生成的高分辨率彩色图片匹配的虚假标签对应的第二交叉熵,高级生成器需要减少高分辨率生成图片与真实彩色图片的均方误差,同时生成的图片要让第二判别器判断为真实标签;
(3)以真实彩色图片、根据彩色图片生成的线稿图片作为训练样本,以损失函数收敛为目标,对线稿上色网络进行分阶段训练,待草稿阶段模型训练完成后,再进行分辨率提升阶段的训练,网络参数确定后,提取参数确定的草稿生成器和高级生成器作为线稿上色模型。
2.如权利要求1所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,其特征在于,编码器包括依次连接的卷积层、BatchNorm层、ReLU激活函数层、最大池化层、至少两个相连的残差特征提取模块、平均池化层以及全连接层;
其中,残差特征提取模块包含依次连接的带仿射变化的Instance Normalization层、ReLU激活函数层以及卷积层,并包含一条残差通路。
3.如权利要求1所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,其特征在于,草稿生成器与高级生成器结构相同,具体包括编码单元,和连接编码单元输出的解码单元;
其中,编码单元包含至少两个依次连接的残差卷积模块,其中,残差卷积模块包含卷积层、残差特征提取模块,残差特征提取模块包含依次连接的带仿射变化的InstanceNormalization层、ReLU激活函数层以及卷积层;
解码单元包含至少两个依次交替连接的残差卷积模块和残差转置卷积模块,其中,残差转置卷积模块包含TransposeConv层、残差特征提取模块;
编码单元的层数与解码单元的模块数相同,且编码单元的部分残差卷积模块的输出与对应位置的残差转置卷积模块的输入相连。
4.如权利要求1所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,其特征在于,第一判别器包含至少两个依次连接的通用卷积模块、全连接层、Dropout层、Sigmoid激活函数层;
第二判别器包含依至少三个依次连接的通用卷积模块、Dropout层、Sigmoid激活函数层。
5.如权利要求1所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,其特征在于,所述线稿上色网络还包括:
颜色提示单元,通过该颜色提示单元添加人为设定的颜色信息,该颜色信息以向量形式输入至草稿生成器中,在草稿生成器生成草稿彩色图片时,该颜色信息赋值到生成草稿彩色图片中。
6.如权利要求1所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法,其特征在于,构建的损失函数为:
草稿阶段,分为两种情况,一种是噪声向量z从图片编码的特征向量中采样,另一种是噪声向量z从高斯噪声p(z)~N(0,1)中采样;
噪声向量z从图片编码的特征向量中采样的情况下,首先要保证生成的草稿彩色图片相似于真实彩色图片,采用均方差损失
A表示线稿图片,B表示真实彩色图片,(A,B)组成了训练集,该训练集的特征满足p(A,B)的分布,A,B~p(A,B)表示训练过程中采样的A,B来源于这样的训练集分布。同样的,B编码之后的特征也满足分布E(B),z~E(B)就表示z为编码器Encoder对真实彩色图片B的编码向量E(B)中的采样点,满足这样的分布。G1(A,z)表示在输入为(A,z)的条件下,草稿生成器G1生成的草稿彩色图片,表示满足上述采样条件下的期望函数,这里的||B-G1(A,z)||2为L2范数,其原型公式为(把B-G1(A,z)用x替代)
其次是第一判别器D1、草稿生成器G1之间的对抗损失,采用交叉熵损失:
D1(A,B)表示输入为(A,B)的条件下,即输入真实图片的情况下,第一判别器D1的输出的标签;D1(A,G1(A,z))表示输入为(A,G1(A,z))的条件下,即输入生成的虚假图片的情况下,第一判别器D1的输出的标签;
最后一部分是要求编码器编码出来的特征需要接近于高斯分布N(0,1)的KL损失:
这里的DKL(E(B)||N(0,1))是KL散度,其原型公式为
该公式用于衡量p分布和q分布之间的距离,这里p对应E(B),q对应N(0,1),通过减少二者距离之间的期望来达到上述编码器编码出来的特征需要接近于高斯分布N(0,1)的目的;
z从高斯噪声p(z)~N(0,1)中采样的情况下:
首先要保证生成的草稿彩色图片相似于真实彩色图片,采用均方差损失
和Lmse1(G1)唯一不同的地方就是这里z的分布为高斯分布N(0,1),z~p(z)就表示z是从这样的高斯分布中采样得到的;
第一判别器D1、草稿生成器G1之间的对抗损失,采用交叉熵损失
为了保证生成的草稿彩色图片的编码与z一致,采用平均绝对误差
E(G1(A,z))表示编码器E对草稿生成器G1输出的G1(A,z)的编码向量,这里的||z-E(G1(A,z))||1为L1范数,其原型公式为:
(即把z-E(G1(A,z))用x替代);
综上,草稿阶段的损失函数为:
这里的超参数λKL,λmse1,λlatent,λmse2为各部分损失函数的权重;
分辨率提升阶段,首先要保证生成的高分辨率彩色图片相似于真实彩色图片,采用均方差损失:
这里的Bdraft是草稿阶段生成的草稿彩色图片,即
Bdraft=G1(A,z)
G2(A,Bdraft)则是在输入为(A,Bdraft)的条件下,高级生成器G2生成的高分辨率彩色图片;
第二判别器G2、高级生成器D2之间的对抗损失,采用交叉熵损失
D2(A,B)表示输入为(A,B)的条件下,即输入真实图片的情况下,第二判别器D2的输出的标签;D2(A,Bdraft)表示输入为(A,Bdraft)的条件下,即输入生成的虚假图片的情况下,第二判别器D2的输出的标签;
综上,最终阶段的损失函数为
Lfinal=LGAN2mseLmse
这里的超参数λmse为均方差损失函数的权重。
7.一种如权利要求1~6任一项所述的基于生成对抗网络的双阶段多配色线稿上色模型的构建方法获得的线稿上色模型。
8.一种利用权利要求7所述的双阶段多配色线稿上色模型进行线稿上色的应用,其特征在于,应用时,将线稿图片、颜色提取对应的向量以及噪声向量输入至训练好的草稿生成器中,经计算输出多张低分辨率的草稿彩色图像,人为从多张低分辨率的草稿彩色图像中选择满意的一张草稿彩色图像输入至训练好的高级生成器中,经计算输出高分辨率生成图片,实现对线稿图片的上色。
CN201910447456.5A 2019-05-27 2019-05-27 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 Active CN110223359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910447456.5A CN110223359B (zh) 2019-05-27 2019-05-27 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910447456.5A CN110223359B (zh) 2019-05-27 2019-05-27 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN110223359A true CN110223359A (zh) 2019-09-10
CN110223359B CN110223359B (zh) 2020-11-17

Family

ID=67818441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910447456.5A Active CN110223359B (zh) 2019-05-27 2019-05-27 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN110223359B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222519A (zh) * 2020-01-16 2020-06-02 西北大学 一种层次化彩绘文物线稿提取模型构建、方法及装置
CN111462263A (zh) * 2020-03-16 2020-07-28 云知声智能科技股份有限公司 一种图像生成方法及装置
CN111476863A (zh) * 2020-04-02 2020-07-31 北京奇艺世纪科技有限公司 一种黑白漫画上色的方法、装置、电子设备及存储介质
CN111862270A (zh) * 2020-07-16 2020-10-30 大连理工大学 一种基于双色彩空间引导的动漫线稿自动上色方法
CN111862253A (zh) * 2020-07-14 2020-10-30 华中师范大学 一种基于深度卷积生成对抗网络的草图着色方法及系统
CN112508814A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 一种基于无人机低空视角下的图像色调修复型去雾增强方法
CN113129409A (zh) * 2021-04-30 2021-07-16 华南农业大学 一种基于深度学习的漫画线稿上色方法
CN113554733A (zh) * 2021-07-28 2021-10-26 北京大学 基于语言的解耦合条件注入灰度图像彩色化方法
CN113724354A (zh) * 2021-09-06 2021-11-30 浙江大学 基于参考图颜色风格的灰度图像着色方法
CN113870371A (zh) * 2021-12-03 2021-12-31 浙江霖研精密科技有限公司 基于生成对抗网络的图片颜色变换装置、方法和存储介质
CN114299184A (zh) * 2021-12-30 2022-04-08 青海师范大学 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置
CN114494499A (zh) * 2022-01-26 2022-05-13 电子科技大学 一种基于注意力机制的草图上色方法
CN116416342A (zh) * 2023-06-12 2023-07-11 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615252A (zh) * 2018-05-03 2018-10-02 苏州大学 基于参考图像的线稿上色模型的训练方法以及装置
CN108830913A (zh) * 2018-05-25 2018-11-16 大连理工大学 基于用户颜色引导的语义级别线稿上色方法
CN109147003A (zh) * 2018-08-01 2019-01-04 北京东方畅享科技有限公司 对线稿图像进行上色的方法、设备以及存储介质
CN109544662A (zh) * 2018-11-29 2019-03-29 文创智慧科技(武汉)有限公司 一种基于SRUnet的动漫风格线稿上色方法及系统
CN109712203A (zh) * 2018-12-29 2019-05-03 福建帝视信息科技有限公司 一种基于自注意力生成对抗网络的图像着色方法
CN109801346A (zh) * 2018-12-20 2019-05-24 武汉西山艺创文化有限公司 一种基于神经网络的原画辅助上色方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615252A (zh) * 2018-05-03 2018-10-02 苏州大学 基于参考图像的线稿上色模型的训练方法以及装置
CN108830913A (zh) * 2018-05-25 2018-11-16 大连理工大学 基于用户颜色引导的语义级别线稿上色方法
CN109147003A (zh) * 2018-08-01 2019-01-04 北京东方畅享科技有限公司 对线稿图像进行上色的方法、设备以及存储介质
CN109544662A (zh) * 2018-11-29 2019-03-29 文创智慧科技(武汉)有限公司 一种基于SRUnet的动漫风格线稿上色方法及系统
CN109801346A (zh) * 2018-12-20 2019-05-24 武汉西山艺创文化有限公司 一种基于神经网络的原画辅助上色方法和装置
CN109712203A (zh) * 2018-12-29 2019-05-03 福建帝视信息科技有限公司 一种基于自注意力生成对抗网络的图像着色方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUI REN 等: "Automatic Sketch Colorization with Tandem Conditional Adversarial Networks", 《2018 11TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID)》 *
HWAN HEO 等: "Automatic Sketch Colorization using DCGAN", 《2018 18TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS)》 *
LVMIN ZHANG 等: "Two-stage Sketch Colorization", 《ACM TRANSACTIONS ON GRAPHICS》 *
VINNIA KEMALA PUTRI 等: "Sketch plus colorization deep convolutional neural networks for photos generation from sketches", 《2017 4TH INTERNATIONAL CONFERENCE ON ELECTRICAL ENGINEERING, COMPUTER SCIENCE AND INFORMATICS (EECSI)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222519A (zh) * 2020-01-16 2020-06-02 西北大学 一种层次化彩绘文物线稿提取模型构建、方法及装置
CN111222519B (zh) * 2020-01-16 2023-03-24 西北大学 一种层次化彩绘文物线稿提取模型构建、方法及装置
CN111462263A (zh) * 2020-03-16 2020-07-28 云知声智能科技股份有限公司 一种图像生成方法及装置
CN111462263B (zh) * 2020-03-16 2023-08-11 云知声智能科技股份有限公司 一种图像生成方法及装置
CN111476863A (zh) * 2020-04-02 2020-07-31 北京奇艺世纪科技有限公司 一种黑白漫画上色的方法、装置、电子设备及存储介质
CN111476863B (zh) * 2020-04-02 2024-03-12 北京奇艺世纪科技有限公司 一种黑白漫画上色的方法、装置、电子设备及存储介质
CN111862253A (zh) * 2020-07-14 2020-10-30 华中师范大学 一种基于深度卷积生成对抗网络的草图着色方法及系统
CN111862253B (zh) * 2020-07-14 2023-09-15 华中师范大学 一种基于深度卷积生成对抗网络的草图着色方法及系统
CN111862270A (zh) * 2020-07-16 2020-10-30 大连理工大学 一种基于双色彩空间引导的动漫线稿自动上色方法
CN112508814B (zh) * 2020-12-07 2022-05-20 重庆邮电大学 一种基于无人机低空视角下的图像色调修复型去雾增强方法
CN112508814A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 一种基于无人机低空视角下的图像色调修复型去雾增强方法
CN113129409B (zh) * 2021-04-30 2023-07-25 华南农业大学 一种基于深度学习的漫画线稿上色方法
CN113129409A (zh) * 2021-04-30 2021-07-16 华南农业大学 一种基于深度学习的漫画线稿上色方法
CN113554733A (zh) * 2021-07-28 2021-10-26 北京大学 基于语言的解耦合条件注入灰度图像彩色化方法
CN113724354A (zh) * 2021-09-06 2021-11-30 浙江大学 基于参考图颜色风格的灰度图像着色方法
CN113724354B (zh) * 2021-09-06 2023-10-13 浙江大学 基于参考图颜色风格的灰度图像着色方法
CN113870371A (zh) * 2021-12-03 2021-12-31 浙江霖研精密科技有限公司 基于生成对抗网络的图片颜色变换装置、方法和存储介质
CN114299184A (zh) * 2021-12-30 2022-04-08 青海师范大学 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置
CN114494499A (zh) * 2022-01-26 2022-05-13 电子科技大学 一种基于注意力机制的草图上色方法
CN116416342A (zh) * 2023-06-12 2023-07-11 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
CN116416342B (zh) * 2023-06-12 2023-09-19 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN110223359B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN110223359A (zh) 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN110378985A (zh) 一种基于gan的动漫绘画辅助创作方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN110503598A (zh) 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN108830912A (zh) 一种深度特征对抗式学习的交互式灰度图像着色方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN107833183A (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN109948714A (zh) 基于残差卷积和递归神经网络的中文场景文本行识别方法
CN110222722A (zh) 交互式图像风格化处理方法、系统、计算设备及存储介质
CN110209789A (zh) 一种用户注意力引导的多模态对话系统及方法
CN108491514A (zh) 对话系统中提问的方法及装置、电子设备、计算机可读介质
CN109885671A (zh) 基于多任务学习的问答方法
CN109920012A (zh) 基于卷积神经网络的图像着色系统及方法
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN102184250B (zh) 基于彩色图像匹配的服装面料样品检索方法
CN109255374A (zh) 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN109948692A (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN110033054A (zh) 基于协同笔画优化的个性化手写体迁移方法和系统
Nitzan et al. The significance of independent decisions in uncertain dichotomous choice situations
CN110059625A (zh) 一种基于mixup的人脸训练与识别方法
CN113888399B (zh) 一种基于风格融合与域选结构的人脸年龄合成方法
CN110570484B (zh) 一种图像解耦表征下的文本指导图像上色方法
CN109840506A (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant