CN109544662B

CN109544662B - 一种基于SRUnet的动漫风格线稿上色方法及系统

Info

Publication number: CN109544662B
Application number: CN201811441619.0A
Authority: CN
Inventors: 饶鉴; 陈欣; 刘罡
Original assignee: Wenchuang Smart Technology Wuhan Co ltd
Current assignee: Wenchuang Smart Technology Wuhan Co ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2023-04-07
Anticipated expiration: 2038-11-29
Also published as: CN109544662A

Abstract

本发明公开了一种基于SRUnet的动漫风格线稿上色方法及系统。首先建立由激励层和残差U网组成的动漫风格线稿上色网络模型SRUnet；然后采用训练集中的图片对对所述SRUnet模型进行训练，获得SRUnet生成的动漫风格彩色图像；根据实际彩色图像和所述动漫风格彩色图像确定SRUnet的总损失值；根据所述总损失值优化SRUnet的网络参数，得到训练后的SRUnet；采用所述训练后的SRUnet即可对待上色的黑白线稿图进行上色，能够快速有效的生成更加具有生动感的动漫风格彩色图像，提高生成图像的生动感和视觉质量，扩大应用范围与应用场景。

Description

一种基于SRUnet的动漫风格线稿上色方法及系统

技术领域

本发明涉及深度学习和动漫风格线稿上色技术领域，特别是涉及一种基于SRUnet的动漫风格线稿上色方法及系统。

背景技术

随着深度学习技术的发展，基于深度学习的动漫风格线稿上色技术正逐渐得到越来越广泛的应用。动漫风格线稿上色是基于黑白线稿图中线条的分布信息和语义信息来上色为具有生动色彩的动漫图像的一种视觉图像生成技术。线稿上色方法集成了深度学习、模式识别和数字图像处理等多种专业技术。动漫风格线稿上色的关键有两点：(1)网络模型的存储容量；(2)高分辨率。深度学习能够实现图像全局的特征提取，同时也能提高网络模型的参数数量，即网络模型的存储容量和生成高分辨率的图像，极大的提高了动漫风格线稿上色的生动性。动漫风格线稿上色方法所使用的深度学习网络结构的设计往往会直接影响到动漫风格线稿上色的效果。因此设计一种合适的深度学习网络结构是提高动漫风格线稿上色的生动性的重要任务之一。

在2017年，Isola使用U网(U-net)作为条件GANs(GenerativeAdversarial Nets，生成对抗网络)的生成器，并且当将语义图转换为彩色图像时，该方法可以实现期望的性能。然而，当黑白线稿图转换为彩色图像时，它表现不佳。之后苏州大学的三位作者LvminZhang,Yi Ji,Xin Lin提出了怎样将集合的剩余U-Net样式应用到灰度图中，并借助分类器生成的对抗网络AC-GAN(Auxiliary Classifier GAN，辅助分类器生成对抗网络)自动为图像上色，生成过程迅速、效果良好。然而，虽然上述两种方法能够成功将线稿图上色为彩色图像，但生成的彩色图像一般都存在色彩分布混乱，颜色深浅过渡不均匀等问题，而且以上这些方法生成的彩色图像的视觉质量仍然有待提高。

发明内容

本发明的目的是提供一种基于SRUnet的动漫风格线稿上色方法及系统，能够快速有效的生成更加生动的动漫风格彩色图像，提高生成图像的生动感和视觉质量，扩大应用范围与应用场景。

为实现上述目的，本发明提供了如下方案：

一种基于SRUnet的动漫风格线稿上色方法，所述方法包括：

获取残差U网；

根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型；

获取所述动漫风格线稿上色网络模型的训练集；所述训练集包括多组图片对；所述图片对包括一张黑白线稿图和与所述黑白线稿图相对应的实际彩色图像；

根据所述训练集中的所述图片对对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像；

根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值；

根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型；所述网络参数为所述动漫风格线稿上色网络模型中所有卷积层的权重参数；

采用所述训练后的动漫风格线稿上色网络模型对待上色的黑白线稿图进行上色。

可选的，所述根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型，具体包括：

在所述残差U网的左右分支中水平方向上每个级别之间的跳层连接中加入所述激励层，构成所述动漫风格线稿上色网络模型。

可选的，所述根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值，具体包括：

根据所述实际彩色图像和所述动漫风格彩色图像，采用损失函数

确定所述动漫风格线稿上色网络模型的总损失值；其中L_f表示所述动漫风格线稿上色网络模型的总损失值；F表示所述动漫风格彩色图像；G表示所述实际彩色图像；φ表示预训练的VGG-19网络；φ_l表示VGG-19网络中的第l层；φ_l(F)表示将所述动漫风格彩色图像F输入到VGG-19网络中第l层卷积层输出的特征图；φ_l(G)表示将所述实际彩色图像G输入到VGG-19网络中第l层卷积层输出的特征图；l∈{0，1，2，3，4，5}；λ_l为第l层损失值对应的权重系数。

可选的，所述根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型，具体包括：

根据所述总损失值，采用Adam优化算法迭代更新所述网络参数；

判断所述迭代更新的迭代次数是否达到预设最大训练代数，获得第一判断结果；

若所述第一判断结果为所述迭代次数达到预设最大训练代数，确定更新后的网络参数作为训练后的网络参数；

根据所述训练后的网络参数确定所述训练后的动漫风格线稿上色网络模型。

一种基于SRUnet的动漫风格线稿上色系统，所述系统包括：

残差U网获取模块，用于获取残差U网；

SRUnet建立模块，用于根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型；

训练集图片对获取模块，用于获取所述动漫风格线稿上色网络模型的训练集；所述训练集包括多组图片对；所述图片对包括一张黑白线稿图和与所述黑白线稿图相对应的实际彩色图像；

模型训练模块，用于根据所述训练集中的所述图片对对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像；

总损失值确定模块，用于根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值；

网络参数优化模块，用于根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型；所述网络参数为所述动漫风格线稿上色网络模型中所有卷积层的权重参数；

上色模块，用于采用所述训练后的动漫风格线稿上色网络模型对待上色的黑白线稿图进行上色。

可选的，所述SRUnet建立模块具体包括：

可选的，所述总损失值确定模块具体包括：

可选的，所述网络参数优化模块具体包括：

网络参数优化单元，用于根据所述总损失值，采用Adam优化算法迭代更新所述网络参数；

迭代次数判断单元，用于判断所述迭代更新的迭代次数是否达到预设最大训练代数，获得第一判断结果；

训练后的网络参数确定单元，用于若所述第一判断结果为所述迭代次数达到预设最大训练代数，确定更新后的网络参数作为训练后的网络参数；

训练后的SRUnet确定单元，用于根据所述训练后的网络参数确定所述训练后的动漫风格线稿上色网络模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种基于SRUnet的动漫风格线稿上色方法及系统，首先建立由激励层和残差U网组成的动漫风格线稿上色网络模型SRUnet；然后采用训练集中的图片对对所述SRUnet模型进行训练，获得SRUnet生成的与黑白线稿图对应的动漫风格彩色图像；根据实际彩色图像和所述动漫风格彩色图像确定SRUnet的总损失值；根据所述总损失值优化SRUnet的网络参数，得到训练后的SRUnet；采用所述训练后的SRUnet即可对待上色的黑白线稿图进行上色。本发明训练后的SRUnet网络模型对数据集中所有的黑白线稿图都具有相当可靠的上色成对应实际彩色图像的能力，所生成的动漫彩色图像比其他现有方法生成的图像更加具有生动感。并且本发明利用感知损失的理论，采用预训练的VGG-19作为特征感知网络构建了一组极为有效的损失函数来计算网络模型的总损失。采用本发明提供的方法及系统，能够快速有效的生成更加具有生动感的动漫风格彩色图像，提高生成图像的生动感和视觉质量，扩大应用范围与应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于SRUnet的动漫风格线稿上色方法的方法流程图；

图2为本发明建立的动漫风格线稿上色网络模型SRUnet的网络结构图；

图3为本发明采用的swish layer(激励层)的结构示意图；

图4为采用本发明提供的训练后的SRUnet模型对黑白线稿图进行上色的上色结果图；

图5为本发明提供的基于SRUnet的动漫风格线稿上色系统的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的基于SRUnet的动漫风格线稿上色方法的方法流程图。参见图1，本发明提供的基于SRUnet的动漫风格线稿上色方法具体包括：

步骤101：获取残差U网。

ResUnet(Residual U-net，残差U网)是一种卷积神经网络的结构，它是基于原始U网的一个改进，是由相关学者在论文中提出的，ResUnet模型可以在公开的网上获取。

步骤102：根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型。

图2为本发明建立的动漫风格线稿上色网络模型SRUnet的网络结构图。所述步骤102建立由swish layer(激励层)和ResUnet(Residual U-net，残差U网)组成的动漫风格线稿上色网络模型SRUnet(Swish Residual Unet)。所述的swish layer被嵌入到ResUnet中左右分支的各个级别之间。SRUnet中的上采样方法使用的是反卷积的方法，能够使特征图的分辨率增大一倍。

图3为本发明采用的swish layer(激励层)的结构示意图。swish layer(激励层)是SRUnet中的一类网络模块，它是由一个卷积层和一个sigmoid激活函数组成，其公式为f(x)＝x·sigmoid(β(x))。其中，x表示输入的特征图，sigmoid是一个激活函数，其函数表达式为sigmoid(x)＝1/(1+exp(-x))，β表示swish layer中的卷积层，β(x)表示对输入的特征图做卷积操作后的新特征图。

在ResUnet中，在其左右分支的skip connection(跳层连接)中加入swish layer，就构成了SRUnet。swish layer的具体加入方法是：在SRUnet中，左右分支的每一个级别之间都有skip connection连接，这一连接直接将低层特征传到高级特征。为了对传递的特征进行过滤，增强特征重用，在这层连接中加入swish layer模块来控制特征的流通，使网络训练更加容易。ResUnet左右分支中水平方向上每个级别之间的跳层连接都加入了swishlayer，最后构成了SRUnet。

建立的SRUnet的体系结构如图2所示，SRUnet模型由大量的卷积层构成，结构复杂，和原始U网一样，其模型结构呈现U形。SRUnet用简单抽象的公式表示为y＝f(x)，其中x表示输入的黑白线稿图，y表示输出的动漫风格彩色图像，f表示SRUnet网络模型。参见图2，在SRUnet的竖直方向上，由于shortcut connection(快捷连接)的存在，从而构成残差块。在SRUnet的水平方向上，左右分支的每个级别之间都有swish layer连接。

本发明建立的SRUnet是对现有残差U网的一种改进，它的性能比残差U网要好。与残差U网相比，SRUnet在训练时的收敛速度更快，而且SRUnet中的swish layer能促进特征重用，同时也能过滤传递的特征信息，使深层网络的训练更加容易。

建立所述动漫风格线稿上色网络模型SRUnet后，对所述动漫风格线稿上色网络模型SRUnet中的网络结构参数进行初始化，所述网络结构参数包括学习率learning_rate，最大训练代数(迭代次数)epoch，训练集(图片对)分为多批，每次输入一批，每批训练样本个数记为batch_size，黑白线稿图宽度width，黑白线稿图高度height，训练集的路径train_data_file，测试集的路径test_data_file。

优选的，网络训练的迭代次数epoch＝50，训练样本分批输入，每批训练样本个数记为batch_size＝1，初始学习率learning_rate＝0.0001，图像的宽width＝256，图像的高度height＝256，训练集的路径为train_data_file＝“/data/sketch/train/”，测试集的路径为test_data_file＝“/data/sketch/test/”，训练结果路径为“/result_sketch/”。

步骤103：获取所述动漫风格线稿上色网络模型的训练集。

本发明所使用的训练集和测试集来自于大规模动漫图片数据集Danbo oru2017。训练集中的图片由两部分图片组成，其中一部分是黑白线稿图，另一部分是与黑白线稿图相对应的实际彩色图像。即所述训练集包括多组图片对；所述图片对包括一张黑白线稿图和与所述黑白线稿图相对应的实际彩色图像。

步骤104：根据所述训练集中的所述图片对对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像。

动漫风格线稿上色网络模型SRUnet在训练过程中会自动学习实际彩色图像中的颜色分布、纹理信息、光影变化等，并将其应用到黑白线稿中，最后生成对应的动漫风格彩色图像。

将训练集中的图片对依次输入到初始化后的动漫风格线稿上色网络模型SRUnet中，将会输出与输入图片对中黑白线稿图相对应的动漫风格彩色图像。所述图片对为所述训练集中一张黑白线稿图和相对应的一张真实彩色图像组成的图片对。所述真实彩色图像作为SRUnet对黑白线稿图进行上色的实际的彩色参考图像。

步骤105：根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值。

所述的动漫风格线稿上色网络模型SRUnet使用下式作为损失函数：

其中，L_f表示计算得到的总损失值；F和G分别表示SRUnet生成的动漫风格彩色图像和对应的实际彩色图像。φ表示视觉感知网络，即预训练的VGG-19网络；φ_l表示VGG-19中的第l层。φ_l(F)和φ_l(G)分别表示将F和G输入到VGG-19网络中第l层卷积层输出的特征图。l的取值为{0，1，2，3，4，5}。Ф₀表示VGG-19网络的输入图，Ф₁至Ф₅表示VGG-19中的五个卷积层(分别是conv1_2，conv2_2，conv3_2，conv4_2，conv5_2)。λ_l为第l层损失值对应的权重系数，第0-5层对应的λ_l＝{0.88,0.79,0.63,0.51,0.39,1.07}。

将SRUnet输出的动漫风格彩色图像与训练集中对应的实际彩色图像进行平均绝对误差(L1loss)计算，L1loss指平均绝对误差(MAE)，其计算公式为

平均绝对误差是一种常用的回归损失函数，它是目标值与预测值之差的绝对值的和，表示了预测值的平均误差幅度，而不需要考虑误差的方向。上式中n表示样本数，y_i表示目标值，在本发明中为所述实际彩色图像；

表示预测值，本发明中为SRUnet输出的动漫风格彩色图像。

同时也要将SRUnet输出的动漫风格彩色图像与对应的实际彩色图像分别输入到预训练好的VGG-19模型中，然后分别得到VGG-19中5个卷积层(分别是conv1_2，conv2_2，conv3_2，conv4_2，conv5_2)输出的特征子图，再将这5组特征子图分别进行平均绝对误差计算。最后得到6组平均绝对误差损失，这6组平均绝对误差损失之和即为SRUnet网络模型训练的总损失。

所述预训练好的VGG-19(Visual Geometry Group-19)已经在互联网上被公开，可以从网上获取。VGG-19共有16个卷积层，按这些卷积层输出的特征图的分辨率大小可以分为5个级别，分别是conv1，conv2，conv3，conv4，conv5。由于要在这5个级别中各取一个卷积层用作提取感知特征，为了保证所提取的5个感知特征有相同的计算距离，所以选择各个级别中的中间层即第二层，最后所取得的5个卷积层即为conv1_2，conv2_2，conv3_2，conv4_2，conv5_2。本发明采用所述预训练好的VGG-19模型作为一个感知网络用于提取感知特征，利用感知特征来计算总损失。

步骤106：根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型。

利用所述步骤105计算的得到的SRUnet网络模型的总损失值，使用Adam优化算法来更新SRUnet的网络参数并减少网络训练的总损失。所述网络参数为所述动漫风格线稿上色网络模型SRUnet中所有卷积层的权重参数。所述Adam优化算法通常采用Adam优化器实现。根据计算得到的总损失值，Adam优化器会利用总损失来优化网络参数。在训练过程中，网络参数被不断更新优化，这会使得最后计算的网络总损失值越来越小，即网络模型呈现收敛的态势。

根据所述总损失值，采用Adam优化算法迭代更新所述网络参数；根据每次迭代训练得到的动漫风格彩色图像，使用已经确定好的SRUnet网络模型的损失函数来计算网络的总损失，从而利用Adam优化器不断优化网络参数。当迭代更新的迭代次数达到预设的最大训练代数时，训练完毕，得到训练后的网络参数。将所述训练后的网络参数作为SRUnet的网络参数，生成所述训练后的动漫风格线稿上色网络模型。

步骤107：采用所述训练后的动漫风格线稿上色网络模型对待上色的黑白线稿图进行上色。

在测试阶段，根据所述训练好的网络参数以及所述SRUnet网络模型，对获取的测试集中的黑白线稿图进行高效的动漫风格线稿上色。图4为采用本发明提供的训练后的SRUnet模型对黑白线稿图进行上色的上色结果图。将测试的黑白线稿图输入到所述训练好的SRUnet模型中，得到上色成功的彩色动漫图，即所述动漫风格彩色图像。测试阶段采用本发明提供的训练后的SRUnet模型为一张黑白线稿上色的时间为0.15s左右，相比动漫画师手工的上色创作，缩减了大量的时间，可见采用本发明训练好的网络模型在高配置的硬件设备上能够快速运算并实现自动上色。

本发明对测试数据集中所有的黑白线稿图都具有相当可靠的上色成对应实际彩色图像的能力，所生成的动漫彩色图像比其他现有方法生成的图像更加具有生动感。并且本发明利用感知损失的理论，采用预训练的VGG-19作为特征感知网络构建了一组极为有效的损失函数来计算网络模型的总损失。

在实际应用中，采用本发明提供的所述训练后的动漫风格线稿上色网络模型对待上色的黑白线稿图进行上色，能够快速有效的生成更加生动的动漫风格彩色图像，提高生成图像的生动感和视觉质量，扩大应用范围与应用场景。

根据所述基于SRUnet的动漫风格线稿上色方法，本发明还提供一种基于SRUnet的动漫风格线稿上色系统。图5为本发明提供的基于SRUnet的动漫风格线稿上色系统的系统结构图，参见图5，所述系统包括：

残差U网获取模块501，用于获取残差U网；

SRUnet建立模块502，用于根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型；

训练集图片对获取模块503，用于获取所述动漫风格线稿上色网络模型的训练集；所述训练集包括多组图片对；所述图片对包括一张黑白线稿图和与所述黑白线稿图相对应的实际彩色图像；

模型训练模块504，用于根据所述训练集中的所述图片对对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像；

总损失值确定模块505，用于根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值；

网络参数优化模块506，用于根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型；所述网络参数为所述动漫风格线稿上色网络模型中所有卷积层的权重参数；

上色模块507，用于采用所述训练后的动漫风格线稿上色网络模型对待上色的黑白线稿图进行上色。

其中，所述SRUnet建立模块502具体包括：

所述总损失值确定模块505具体包括：

所述网络参数优化模块506具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于SRUnet的动漫风格线稿上色方法，其特征在于，所述方法包括：

获取残差U网；

根据所述训练集中的所述图片对，对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像；

所述根据所述实际彩色图像和所述动漫风格彩色图像确定所述动漫风格线稿上色网络模型的总损失值，具体包括：

确定所述动漫风格线稿上色网络模型的总损失值；其中L_f表示所述动漫风格线稿上色网络模型的总损失值；F表示所述动漫风格彩色图像；G表示所述实际彩色图像；φ表示预训练的VGG-19网络；φ_l表示VGG-19网络中的第l层；φ_l(F)表示将所述动漫风格彩色图像F输入到VGG-19网络中第l层卷积层输出的特征图；φ_l(G)表示将所述实际彩色图像G输入到VGG-19网络中第l层卷积层输出的特征图；l∈{0，1，2，3，4，5}；λ_l为第l层损失值对应的权重系数；

2.根据权利要求1所述的动漫风格线稿上色方法，其特征在于，所述根据所述残差U网建立由激励层和所述残差U网组成的动漫风格线稿上色网络模型，具体包括：

3.根据权利要求1所述的动漫风格线稿上色方法，其特征在于，所述根据所述总损失值优化所述动漫风格线稿上色网络模型的网络参数，得到训练后的动漫风格线稿上色网络模型，具体包括：

4.一种基于SRUnet的动漫风格线稿上色系统，其特征在于，所述系统包括：

残差U网获取模块，用于获取残差U网；

模型训练模块，用于根据所述训练集中的所述图片对，对所述动漫风格线稿上色网络模型进行训练，获得所述动漫风格线稿上色网络模型生成的与所述黑白线稿图对应的动漫风格彩色图像；

所述总损失值确定模块具体包括：

5.根据权利要求4所述的动漫风格线稿上色系统，其特征在于，所述SRUnet建立模块具体包括：

6.根据权利要求4所述的动漫风格线稿上色系统，其特征在于，所述网络参数优化模块具体包括：