CN108830913B

CN108830913B - 基于用户颜色引导的语义级别线稿上色方法

Info

Publication number: CN108830913B
Application number: CN201810533325.4A
Authority: CN
Inventors: 次元政; 李豪杰; 王智慧; 罗钟铉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2022-05-17
Anticipated expiration: 2038-05-25
Also published as: CN108830913A

Abstract

本发明属于计算机视觉技术领域，提供了一种基于用户颜色引导的语义级别线稿上色方法。该方法首先进行合成线稿的生成与颜色线条处理，使用条件生成对抗网络框架训练生成模型。该方法设计的生成对抗网络体系结构由四个子网络组成：生成器网络、判别器网络，局部特征网络以及特征提取网络，这四个网络协同作用，表现出了良好的引导上色效果。

Description

基于用户颜色引导的语义级别线稿上色方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于用户颜色引导的语义级别线稿上色方法。

背景技术

目前，基于用户引导的语义级别图像处理仍然是一个开放且具有挑战性的问题。电子线稿上色是原画创作、动漫制作的核心步骤之一，简化上色步骤是提高创作效率及减少中间帧上色外包工作量的关键。与黑白照片不同，线稿不具有灰度信息以及易于获取的“线稿-原画”成对数据。此外，如图3左所示，线稿的数据在数值上呈现为二值化的稀疏数据，这给语义级别上色带来了很大的挑战。

在人的上色交互过程中，基于颜色线条的引导信息同时包含颜色、密度与空间信息，是最为直观的交互方式。因此许多引导上色算法是基于颜色线条信息的。Yingge等人("Manga colorization."ACM Transactions on Graphics(TOG).Vol.25.No.3.ACM,2006.)提出了一种基于边缘与不同材质的漫画上色算法，该算法基于模式连续、密度连续以及对不同材质的区分进行上色，但是这类方法只能依据原图材质密度产生阴影，对于仅有边缘信息的电子线稿只能产生单调的上色效果。此外，该方法完全依赖于用户输入，无法依据原图内涵的语义信息(肢体，物体，服饰等)对颜色进行推断。因此，在做语义级别的线稿上色任务时，应该采用基于学习的方法。

随着深学习技术的飞速发展，全卷积网络(“"Gradient-based learning appliedto document recognition."Proceedings of the IEEE 86.11(1998):2278-2324.)推动了基于学习的图像处理的发展。许多优秀的研究基于全卷积网络，并通过大量数据的学习，从输入图像中提取丰富的语义信息。Zhang等人("Real-time user-guided imagecolorization with learned deep priors."arXiv preprint arXiv:1705.02999(2017).)通过利用在Image-Net上预训练的参数和U-net架构，将基于学习的先验语义信息和上色任务结合以达到即使没有颜色提示也可以对黑白图片进行颜色推断。但是当输入数据为没有灰度信息的线稿时，该方法就失效了。在线稿上色任务中，不仅需要在线稿数据来源不足的情况下从线稿中提取语义信息、预测颜色，还要隐含地推测灰阶信息以产生真实的阴影。为此，有必要研究一种基于生成模型的的引导上色算法。

Sangkloy等人("Scribbler:Controlling deep image synthesis with sketchand color."IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Vol.2.2017.)通过利用多种算法合成线稿，借此获取成对训练数据。通过生成对抗网络架构学习从线稿+颜色提示到上色结果的映射。框架通过两个网络的博弈学习使得模型输出更加逼近真实图片，借此学习除颜色外的阴影等信息。但是该方法的模型无法支持高分辨率的任务，而且会较严重地在合成线稿的特征上过拟合，而在真实线稿上无法保持生成质量。

本发明受到以上算法的启发，针对项目需求，提出一种有效的基于用户颜色引导的语义级别线稿上色方法。

发明内容

本发明的目的解决基于用户颜色引导的上色方法的不足之处。在基于用户颜色引导的语义级别线稿上色中，处理目标是线稿图像和颜色提示图像，处理目的是对线稿图像基于有限的颜色提示进行语义级别上色。

本发明的技术方案：

一种基于用户颜色引导的语义级别线稿上色方法，步骤如下：

(1)合成线稿的生成与颜色线条处理：

使用XDoG算子对有颜色的原画进行线稿提取，XDoG算子参数设定如下：

σ＝0.3/0.4/0.5，τ＝0.95，κ＝4.5；其中，σ为随机选取；

训练时的颜色线条为从降采样4倍后的原图随机采样模拟，实际使用时对用户输入颜色样条降采样4倍后，每隔一个像素置0以使输入接近训练时的数据稀疏程度；

(2)网络体系结构由四个子网络组成：生成器网络G、判别器网络D、局部特征网络F1和特征提取网络F2。如图1所示，其中局部特征网络利用预训练参数从二维线稿中提取蕴含语义信息的三维特征图作为局部特征提供给生成器和判别器，生成器利用输入的线稿、局部特征和颜色提示图作为输入合成上色图片；判别器利用局部特征和有色图片通过wasserstein距离对真实图片和合成图片予以区分，从而为生成器提供对抗损失；特征提取网络提取真实图片和对应合成图片的特征图，通过在特征图层面计算两者之间均方差作为生成器损失以建立生成器输出与其潜在对应真实图片间的联系。多个网络协同作用，显示良好的上色效果；

生成器网络G：以线稿图、局部特征和颜色提示图为输入；如图2所示，网络整体为U-Net架构，线稿图和局部特征经带步长的卷积逐渐减少空间尺度直到和局部特征网络输出具有相同空间尺度；而后这些特征经过4个子网络，每个子网络包括1个融合输入特征及跳跃链接特征的卷积层，B_n个ResNeXt模块以及1个PixelShuffle模块；其中B₁＝20,B₂＝10,B₃＝10,B₄＝5；设置B₂,B₃,B₄的ResNeXt模块中的卷积为空洞卷积，以提高浅层卷积的感受野；对所有的卷积均使用0.2的LeakyRelu激活函数且不使用任何normalization层；减少了模型显存的占用，使得模型感受野足够大到可以“看”到整张图片；

判别器网络D：以局部特征和上色后图片为输入，总体设计如图2所示；使用局部特征而不是线稿图作为条件对抗网络的条件输入以避免合成线稿对判别器产生过拟合的影响；判别器与生成器使用相同的ResNeXt模块且未将卷积置换为空洞卷积；

局部特征网络F1：以线稿图为输入，利用了Illustration2Vec网络("Illustration2vec:a semantic vector representation of illustrations."SIGGRAPHAsia 2015Technical Briefs.ACM,2015.)的前六层预训练网络参数作为局部特征网络，并使这部分参数不在训练过程更新；该设计使得生成器网络和判别器网络可以稳定从线稿获取不受训练过程中(合成线稿导致的)过拟合效应影响的特征。

特征提取网络F2：以上色后图片为输入，利用了预训练的VGG16网络前四层卷积层作为网络主体。所提其特征用于计算内容损失，其定义如下：

其中，c、h、w分别代表特征的通道、高度和宽度；X代表线稿、H代表颜色提示，Y代表X对应的真实图片；

生成器损失函数设计如下：

设λ₁＝1e-4，对抗损失定义如下：

判别器损失函数设计如下：

其中Wasserstein损失为条件版本的WGAN-GP损失(不包括梯度损失)，其定义如下：

惩罚损失设计如下：

其中我们设λ₂＝10，ε_drift＝1e-3，插值点分布

由下式间接定义：

本发明的有益效果：模型采用了独立于训练过程的网络做为局部特征网络为生成器和判别器提供特征信息，有效地解决了合成线稿带来的过拟合与低泛化能力的问题。利用了由ResNeXt模块、PixelShuffle模块等组成且不含normalization层的子网络使模型可以兼顾效率在更高分辨率情况下产生更真实的结果，在定性和定量两方面均具有更好的上色性能。

附图说明

图1是本发明的设计原理图。

图2是条件生成对抗网络结构设计图。

图3(a)和(b)是基于用户颜色引导的语义级别线稿上色效果图。

图1中，G是生成器网络；D是判别器网络.；F1是局部特征网络；F2是预训练的VGG前4层生成器网络。发明基于颜色提示，通过XDoG算子提取线稿，得到训练数据，通过局部特征网络和经过条件生成对抗网络框架训练得到的生成器对用户输入X、H进行处理，得到输出结果。

图2中，显示了生成器和判别器的具体设计，每个卷积层/基本模块附近标明了输出特征通道数(n)和步长(s)。

图3中，左为输入线稿，中为用户输入的颜色线条提示(灰色背景色)，右为上色结果。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明基于PyTorch框架搭建网络模型。

Step 1:通过XDoG算子合成线稿，在原图随机采样模拟颜色提示线条。

Step 2:搭建层次结构如图2、3所示的网络结构，加载VGG16和Illustration2Vec网络的预训练参数，对数据集切分为每组4套数据的mini-batches。使用ADAM优化算法做参数更新，参数设置β₁＝0.5，β₂＝0.9。初始学习率α＝1e-4。

Step 3:提取下一个mini-batch，利用局部特征网络计对特征进行提取。

Step 4:传入mini-batch线稿图片,计算生成器结果、判别器结果，分别计算wasserstein距离、梯度损失和drift损失，更新判别器参数。

Step 5:传入mini-batch真实图片,计算判别器结果，分别计算wasserstein距离、梯度损失和drift损失，更新判别器参数。

Step 6:传入mini-batch线稿图片,计算生成器结果、判别器结果，分别计算内容损失、wasserstein距离、梯度损失和drift损失，更新生成器参数。如果更新次数达到125k次，置学习率为1e-5。如果更新次数少于250k次，返回Step 3。

Step 7:应用训练好的模型进行前向传播产生上色结果。

Claims

1.一种基于用户颜色引导的语义级别线稿上色方法，其特征在于，步骤如下：

(1)合成线稿的生成与颜色线条处理：

使用XDoG算子对有颜色的原图进行线稿提取，XDoG算子参数设定如下：

σ＝0.3/0.4/0.5，τ＝0.95，κ＝4.5；其中，σ为随机选取；

(2)通过多个特征网络协同的条件生成对抗网络框架训练生成器，网络体系结构由四个子网络组成：生成器网络G、判别器网络D、局部特征网络F1和特征提取网络F2；其中，局部特征网络F1利用预训练参数，从二维线稿中提取蕴含语义信息的三维特征图，作为局部特征提供给生成器网络G和判别器网络D，生成器网络G利用输入的线稿、局部特征和颜色提示图作为输入合成上色图片；判别器网络D利用局部特征和上色后图片，通过wasserstein距离对真实图片和合成图片予以区分，从而为生成器网络G提供对抗损失；特征提取网络F2提取真实图片和对应合成图片的特征图，通过在特征图层面计算两者之间均方差，作为生成器网络G损失，以建立生成器网络G输出与其潜在对应真实图片间的联系；多个网络协同训练，显示良好的上色效果；

生成器网络G：以线稿图、局部特征和颜色提示图为输入；网络整体为U-Net架构，线稿图和局部特征经带步长的卷积逐渐减少空间尺度，直到和局部特征网络输出具有相同空间尺度；而后这些特征经过4个子网络，每个子网络包括1个融合输入特征及跳跃链接特征的卷积层，B_n个ResNeXt模块以及1个PixelShuffle模块；其中B₁＝20,B₂＝10,B₃＝10,B₄＝5；设置B₂,B₃,B₄的ResNeXt模块中的卷积为空洞卷积，以提高浅层卷积的感受野；对所有的卷积均使用0.2的LeakyRelu激活函数且不使用任何normalization层；减少模型显存的占用，使得模型感受野足够大到“看”到整张图片；

判别器网络D：以局部特征和上色后图片为输入；使用局部特征而不是线稿图作为条件对抗网络的条件输入，以避免合成线稿对判别器网络D产生过拟合的影响；判别器网络D与生成器网络G使用相同的ResNeXt模块，且未将卷积置换为空洞卷积；

局部特征网络F1：以线稿图为输入，利用了Illustration2Vec网络的前六层预训练网络参数作为局部特征网络，并使这部分参数不在训练过程更新；该设计使得生成器网络G和判别器网络D稳定从线稿获取不受训练过程中过拟合效应影响的特征；

特征提取网络F2：以上色后图片为输入，利用预训练的VGG16网络前四层卷积层作为网络主体；所提其特征用于计算内容损失。