CN108830913B - 基于用户颜色引导的语义级别线稿上色方法 - Google Patents

基于用户颜色引导的语义级别线稿上色方法 Download PDF

Info

Publication number
CN108830913B
CN108830913B CN201810533325.4A CN201810533325A CN108830913B CN 108830913 B CN108830913 B CN 108830913B CN 201810533325 A CN201810533325 A CN 201810533325A CN 108830913 B CN108830913 B CN 108830913B
Authority
CN
China
Prior art keywords
network
line draft
feature
input
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810533325.4A
Other languages
English (en)
Other versions
CN108830913A (zh
Inventor
次元政
李豪杰
王智慧
罗钟铉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810533325.4A priority Critical patent/CN108830913B/zh
Publication of CN108830913A publication Critical patent/CN108830913A/zh
Application granted granted Critical
Publication of CN108830913B publication Critical patent/CN108830913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于计算机视觉技术领域,提供了一种基于用户颜色引导的语义级别线稿上色方法。该方法首先进行合成线稿的生成与颜色线条处理,使用条件生成对抗网络框架训练生成模型。该方法设计的生成对抗网络体系结构由四个子网络组成:生成器网络、判别器网络,局部特征网络以及特征提取网络,这四个网络协同作用,表现出了良好的引导上色效果。

Description

基于用户颜色引导的语义级别线稿上色方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于用户颜色引导的语义级别线稿上色方法。
背景技术
目前,基于用户引导的语义级别图像处理仍然是一个开放且具有挑战性的问题。电子线稿上色是原画创作、动漫制作的核心步骤之一,简化上色步骤是提高创作效率及减少中间帧上色外包工作量的关键。与黑白照片不同,线稿不具有灰度信息以及易于获取的“线稿-原画”成对数据。此外,如图3左所示,线稿的数据在数值上呈现为二值化的稀疏数据,这给语义级别上色带来了很大的挑战。
在人的上色交互过程中,基于颜色线条的引导信息同时包含颜色、密度与空间信息,是最为直观的交互方式。因此许多引导上色算法是基于颜色线条信息的。Yingge等人("Manga colorization."ACM Transactions on Graphics(TOG).Vol.25.No.3.ACM,2006.)提出了一种基于边缘与不同材质的漫画上色算法,该算法基于模式连续、密度连续以及对不同材质的区分进行上色,但是这类方法只能依据原图材质密度产生阴影,对于仅有边缘信息的电子线稿只能产生单调的上色效果。此外,该方法完全依赖于用户输入,无法依据原图内涵的语义信息(肢体,物体,服饰等)对颜色进行推断。因此,在做语义级别的线稿上色任务时,应该采用基于学习的方法。
随着深学习技术的飞速发展,全卷积网络(“"Gradient-based learning appliedto document recognition."Proceedings of the IEEE 86.11(1998):2278-2324.)推动了基于学习的图像处理的发展。许多优秀的研究基于全卷积网络,并通过大量数据的学习,从输入图像中提取丰富的语义信息。Zhang等人("Real-time user-guided imagecolorization with learned deep priors."arXiv preprint arXiv:1705.02999(2017).)通过利用在Image-Net上预训练的参数和U-net架构,将基于学习的先验语义信息和上色任务结合以达到即使没有颜色提示也可以对黑白图片进行颜色推断。但是当输入数据为没有灰度信息的线稿时,该方法就失效了。在线稿上色任务中,不仅需要在线稿数据来源不足的情况下从线稿中提取语义信息、预测颜色,还要隐含地推测灰阶信息以产生真实的阴影。为此,有必要研究一种基于生成模型的的引导上色算法。
Sangkloy等人("Scribbler:Controlling deep image synthesis with sketchand color."IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Vol.2.2017.)通过利用多种算法合成线稿,借此获取成对训练数据。通过生成对抗网络架构学习从线稿+颜色提示到上色结果的映射。框架通过两个网络的博弈学习使得模型输出更加逼近真实图片,借此学习除颜色外的阴影等信息。但是该方法的模型无法支持高分辨率的任务,而且会较严重地在合成线稿的特征上过拟合,而在真实线稿上无法保持生成质量。
本发明受到以上算法的启发,针对项目需求,提出一种有效的基于用户颜色引导的语义级别线稿上色方法。
发明内容
本发明的目的解决基于用户颜色引导的上色方法的不足之处。在基于用户颜色引导的语义级别线稿上色中,处理目标是线稿图像和颜色提示图像,处理目的是对线稿图像基于有限的颜色提示进行语义级别上色。
本发明的技术方案:
一种基于用户颜色引导的语义级别线稿上色方法,步骤如下:
(1)合成线稿的生成与颜色线条处理:
使用XDoG算子对有颜色的原画进行线稿提取,XDoG算子参数设定如下:
Figure BDA0001677694970000031
σ=0.3/0.4/0.5,τ=0.95,κ=4.5;其中,σ为随机选取;
训练时的颜色线条为从降采样4倍后的原图随机采样模拟,实际使用时对用户输入颜色样条降采样4倍后,每隔一个像素置0以使输入接近训练时的数据稀疏程度;
(2)网络体系结构由四个子网络组成:生成器网络G、判别器网络D、局部特征网络F1和特征提取网络F2。如图1所示,其中局部特征网络利用预训练参数从二维线稿中提取蕴含语义信息的三维特征图作为局部特征提供给生成器和判别器,生成器利用输入的线稿、局部特征和颜色提示图作为输入合成上色图片;判别器利用局部特征和有色图片通过wasserstein距离对真实图片和合成图片予以区分,从而为生成器提供对抗损失;特征提取网络提取真实图片和对应合成图片的特征图,通过在特征图层面计算两者之间均方差作为生成器损失以建立生成器输出与其潜在对应真实图片间的联系。多个网络协同作用,显示良好的上色效果;
生成器网络G:以线稿图、局部特征和颜色提示图为输入;如图2所示,网络整体为U-Net架构,线稿图和局部特征经带步长的卷积逐渐减少空间尺度直到和局部特征网络输出具有相同空间尺度;而后这些特征经过4个子网络,每个子网络包括1个融合输入特征及跳跃链接特征的卷积层,Bn个ResNeXt模块以及1个PixelShuffle模块;其中B1=20,B2=10,B3=10,B4=5;设置B2,B3,B4的ResNeXt模块中的卷积为空洞卷积,以提高浅层卷积的感受野;对所有的卷积均使用0.2的LeakyRelu激活函数且不使用任何normalization层;减少了模型显存的占用,使得模型感受野足够大到可以“看”到整张图片;
判别器网络D:以局部特征和上色后图片为输入,总体设计如图2所示;使用局部特征而不是线稿图作为条件对抗网络的条件输入以避免合成线稿对判别器产生过拟合的影响;判别器与生成器使用相同的ResNeXt模块且未将卷积置换为空洞卷积;
局部特征网络F1:以线稿图为输入,利用了Illustration2Vec网络("Illustration2vec:a semantic vector representation of illustrations."SIGGRAPHAsia 2015Technical Briefs.ACM,2015.)的前六层预训练网络参数作为局部特征网络,并使这部分参数不在训练过程更新;该设计使得生成器网络和判别器网络可以稳定从线稿获取不受训练过程中(合成线稿导致的)过拟合效应影响的特征。
特征提取网络F2:以上色后图片为输入,利用了预训练的VGG16网络前四层卷积层作为网络主体。所提其特征用于计算内容损失,其定义如下:
Figure BDA0001677694970000041
其中,c、h、w分别代表特征的通道、高度和宽度;X代表线稿、H代表颜色提示,Y代表X对应的真实图片;
生成器损失函数设计如下:
Figure BDA0001677694970000042
设λ1=1e-4,对抗损失定义如下:
Figure BDA0001677694970000051
判别器损失函数设计如下:
Figure BDA0001677694970000052
其中Wasserstein损失为条件版本的WGAN-GP损失(不包括梯度损失),其定义如下:
Figure BDA0001677694970000053
惩罚损失设计如下:
Figure BDA0001677694970000054
其中我们设λ2=10,εdrift=1e-3,插值点分布
Figure BDA0001677694970000056
由下式间接定义:
Figure BDA0001677694970000055
本发明的有益效果:模型采用了独立于训练过程的网络做为局部特征网络为生成器和判别器提供特征信息,有效地解决了合成线稿带来的过拟合与低泛化能力的问题。利用了由ResNeXt模块、PixelShuffle模块等组成且不含normalization层的子网络使模型可以兼顾效率在更高分辨率情况下产生更真实的结果,在定性和定量两方面均具有更好的上色性能。
附图说明
图1是本发明的设计原理图。
图2是条件生成对抗网络结构设计图。
图3(a)和(b)是基于用户颜色引导的语义级别线稿上色效果图。
图1中,G是生成器网络;D是判别器网络.;F1是局部特征网络;F2是预训练的VGG前4层生成器网络。发明基于颜色提示,通过XDoG算子提取线稿,得到训练数据,通过局部特征网络和经过条件生成对抗网络框架训练得到的生成器对用户输入X、H进行处理,得到输出结果。
图2中,显示了生成器和判别器的具体设计,每个卷积层/基本模块附近标明了输出特征通道数(n)和步长(s)。
图3中,左为输入线稿,中为用户输入的颜色线条提示(灰色背景色),右为上色结果。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明基于PyTorch框架搭建网络模型。
Step 1:通过XDoG算子合成线稿,在原图随机采样模拟颜色提示线条。
Step 2:搭建层次结构如图2、3所示的网络结构,加载VGG16和Illustration2Vec网络的预训练参数,对数据集切分为每组4套数据的mini-batches。使用ADAM优化算法做参数更新,参数设置β1=0.5,β2=0.9。初始学习率α=1e-4。
Step 3:提取下一个mini-batch,利用局部特征网络计对特征进行提取。
Step 4:传入mini-batch线稿图片,计算生成器结果、判别器结果,分别计算wasserstein距离、梯度损失和drift损失,更新判别器参数。
Step 5:传入mini-batch真实图片,计算判别器结果,分别计算wasserstein距离、梯度损失和drift损失,更新判别器参数。
Step 6:传入mini-batch线稿图片,计算生成器结果、判别器结果,分别计算内容损失、wasserstein距离、梯度损失和drift损失,更新生成器参数。如果更新次数达到125k次,置学习率为1e-5。如果更新次数少于250k次,返回Step 3。
Step 7:应用训练好的模型进行前向传播产生上色结果。

Claims (1)

1.一种基于用户颜色引导的语义级别线稿上色方法,其特征在于,步骤如下:
(1)合成线稿的生成与颜色线条处理:
使用XDoG算子对有颜色的原图进行线稿提取,XDoG算子参数设定如下:
Figure FDA0003374342350000011
σ=0.3/0.4/0.5,τ=0.95,κ=4.5;其中,σ为随机选取;
训练时的颜色线条为从降采样4倍后的原图随机采样模拟,实际使用时对用户输入颜色样条降采样4倍后,每隔一个像素置0以使输入接近训练时的数据稀疏程度;
(2)通过多个特征网络协同的条件生成对抗网络框架训练生成器,网络体系结构由四个子网络组成:生成器网络G、判别器网络D、局部特征网络F1和特征提取网络F2;其中,局部特征网络F1利用预训练参数,从二维线稿中提取蕴含语义信息的三维特征图,作为局部特征提供给生成器网络G和判别器网络D,生成器网络G利用输入的线稿、局部特征和颜色提示图作为输入合成上色图片;判别器网络D利用局部特征和上色后图片,通过wasserstein距离对真实图片和合成图片予以区分,从而为生成器网络G提供对抗损失;特征提取网络F2提取真实图片和对应合成图片的特征图,通过在特征图层面计算两者之间均方差,作为生成器网络G损失,以建立生成器网络G输出与其潜在对应真实图片间的联系;多个网络协同训练,显示良好的上色效果;
生成器网络G:以线稿图、局部特征和颜色提示图为输入;网络整体为U-Net架构,线稿图和局部特征经带步长的卷积逐渐减少空间尺度,直到和局部特征网络输出具有相同空间尺度;而后这些特征经过4个子网络,每个子网络包括1个融合输入特征及跳跃链接特征的卷积层,Bn个ResNeXt模块以及1个PixelShuffle模块;其中B1=20,B2=10,B3=10,B4=5;设置B2,B3,B4的ResNeXt模块中的卷积为空洞卷积,以提高浅层卷积的感受野;对所有的卷积均使用0.2的LeakyRelu激活函数且不使用任何normalization层;减少模型显存的占用,使得模型感受野足够大到“看”到整张图片;
判别器网络D:以局部特征和上色后图片为输入;使用局部特征而不是线稿图作为条件对抗网络的条件输入,以避免合成线稿对判别器网络D产生过拟合的影响;判别器网络D与生成器网络G使用相同的ResNeXt模块,且未将卷积置换为空洞卷积;
局部特征网络F1:以线稿图为输入,利用了Illustration2Vec网络的前六层预训练网络参数作为局部特征网络,并使这部分参数不在训练过程更新;该设计使得生成器网络G和判别器网络D稳定从线稿获取不受训练过程中过拟合效应影响的特征;
特征提取网络F2:以上色后图片为输入,利用预训练的VGG16网络前四层卷积层作为网络主体;所提其特征用于计算内容损失。
CN201810533325.4A 2018-05-25 2018-05-25 基于用户颜色引导的语义级别线稿上色方法 Active CN108830913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810533325.4A CN108830913B (zh) 2018-05-25 2018-05-25 基于用户颜色引导的语义级别线稿上色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810533325.4A CN108830913B (zh) 2018-05-25 2018-05-25 基于用户颜色引导的语义级别线稿上色方法

Publications (2)

Publication Number Publication Date
CN108830913A CN108830913A (zh) 2018-11-16
CN108830913B true CN108830913B (zh) 2022-05-17

Family

ID=64146603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810533325.4A Active CN108830913B (zh) 2018-05-25 2018-05-25 基于用户颜色引导的语义级别线稿上色方法

Country Status (1)

Country Link
CN (1) CN108830913B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6676744B1 (ja) * 2018-12-28 2020-04-08 株式会社Cygames 画像処理方法、画像処理システム及びプログラム
CN109800732B (zh) * 2019-01-30 2021-01-15 北京字节跳动网络技术有限公司 用于生成漫画头像生成模型的方法和装置
CN110059772B (zh) * 2019-05-14 2021-04-30 温州大学 基于多尺度解码网络的遥感图像语义分割方法
CN110223359B (zh) * 2019-05-27 2020-11-17 浙江大学 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN110263192B (zh) * 2019-06-06 2021-04-27 西安交通大学 一种基于条件生成对抗网络的磨粒形貌数据库创建方法
CN111080746B (zh) * 2019-12-10 2024-04-26 中国科学院计算技术研究所 图像处理方法、装置、电子设备和存储介质
CN111222519B (zh) * 2020-01-16 2023-03-24 西北大学 一种层次化彩绘文物线稿提取模型构建、方法及装置
CN111862270B (zh) * 2020-07-16 2022-09-16 大连理工大学 一种基于双色彩空间引导的动漫线稿自动上色方法
CN112446382B (zh) * 2020-11-12 2022-03-25 云南师范大学 一种基于细粒度语义级的民族服饰灰度图像着色方法
CN115937356A (zh) * 2022-04-25 2023-04-07 北京字跳网络技术有限公司 图像处理方法、装置、设备及介质
CN116416342B (zh) * 2023-06-12 2023-09-19 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814196A (zh) * 2010-03-09 2010-08-25 浙江大学 基于图片的三维动漫玩具设计方法
CN104063890A (zh) * 2013-03-22 2014-09-24 中国移动通信集团福建有限公司 一种人脸卡通动漫形象化方法及系统
KR20150034058A (ko) * 2013-09-25 2015-04-02 삼성전자주식회사 영상 분석에 기초한 애니메이션 컨텐츠 생성 방법 및 그 장치
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814196A (zh) * 2010-03-09 2010-08-25 浙江大学 基于图片的三维动漫玩具设计方法
CN104063890A (zh) * 2013-03-22 2014-09-24 中国移动通信集团福建有限公司 一种人脸卡通动漫形象化方法及系统
KR20150034058A (ko) * 2013-09-25 2015-04-02 삼성전자주식회사 영상 분석에 기초한 애니메이션 컨텐츠 생성 방법 및 그 장치
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
cGAN-based Manga Colorization Using a Single Training Image;Paulina Hensman,et al;《arXiv:1706.06918v1》;20170621;正文第1-8页 *
Outline Colorization through Tandem Adversarial Networks;Kevin Frans;《arXiv:1704.08834v1》;20170428;正文第1-10页 *
基于条件生成对抗网络的漫画手绘图上色方法;梁培俊,刘怡俊;《http://www.arocmag.com/article/02-2019-02-O47.html》;20180119;正文第1-8页 *

Also Published As

Publication number Publication date
CN108830913A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830913B (zh) 基于用户颜色引导的语义级别线稿上色方法
Golts et al. Unsupervised single image dehazing using dark channel prior loss
Zhuang et al. Underwater image enhancement with hyper-laplacian reflectance priors
Li et al. Luminance-aware pyramid network for low-light image enhancement
Baldassarre et al. Deep koalarization: Image colorization using cnns and inception-resnet-v2
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
Huang et al. Deep learning for image colorization: Current and future prospects
CN109949255A (zh) 图像重建方法及设备
CN111161137B (zh) 一种基于神经网络的多风格国画花生成方法
Ren et al. Two-stage sketch colorization with color parsing
CN113255813B (zh) 一种基于特征融合的多风格图像生成方法
Ben‐Zvi et al. Line‐drawing video stylization
CN115512036A (zh) 一种基于本征神经辐射场的可编辑新颖视图合成方法
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
RU2713695C1 (ru) Текстурированные нейронные аватары
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN115018729B (zh) 一种面向内容的白盒图像增强方法
Fu et al. Multi‐style Chinese art painting generation of flowers
Lian et al. Anime style transfer with spatially-adaptive normalization
CN115908600A (zh) 基于先验正则化的大批量图像重建方法
Zhang et al. New Image Processing: VGG Image Style Transfer with Gram Matrix Style Features
Jiang et al. Mask‐guided image person removal with data synthesis
Lee et al. AutoCaCoNet: Automatic Cartoon Colorization Network Using Self-Attention GAN, Segmentation, and Color Correction
Zhou et al. Restoration of Laser Interference Image Based on Large Scale Deep Learning
Jamgochian et al. 3D Neural Style Transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant