CN114494499A

CN114494499A - 一种基于注意力机制的草图上色方法

Info

Publication number: CN114494499A
Application number: CN202210111517.2A
Authority: CN
Inventors: 康昭; 李泽坤
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-05-13
Anticipated expiration: 2042-01-26
Also published as: CN114494499B

Abstract

本发明属于图片处理技术领域，具体涉及一种基于注意力机制的草图上色方法，不同于现有利用色块为草图上色的方法，该方法只需用户输入一张风格参考图片，即可快速为草图进行相似风格的高质量上色。本发明主要包括网络构架设计和训练算法两部分。本方法上色步骤如下：对输入草图和风格参考图片进行编码，得到神经网络提取后的特征数据；利用该发明提出的注意力机制将两个特征图进行空间对齐与语义融合；使用基于U‑net的解码器将特征图数据转化为上色图片；将生成式对抗神经网络作为正则项，使生成图片更加真实。本发明所生成的图片相比于现有同参数量模型具有更高的真实性与结构保真性，在验证数据集上生成效果平均有25％的提升。

Description

一种基于注意力机制的草图上色方法

技术领域

本发明属于图片处理技术领域，具体涉及一种基于注意力机制的草图上色方法。

背景技术

草图自动上色是一个使用价值十分高的重要技术。如今，在平面设计、动画和其他内容创作领域中，上色往往需要消耗大量的人力、时间。通常我们通过研究草图自动上色技术可以很好的帮助产业提高生产力，将艺术设计工作者从繁琐的上色工作中解放。

在过去的几年中，关于上色的相关技术不断的涌现，但是它们都是基于语义掩码上色或色块引导上色。使用语义掩码上色虽然具有良好的上色效果，但是该方法上色流程与真实生产脱节，无法直接的帮助艺术从业者；使用色块引导上色虽然与实际应用中的上色流程一致，但是，在动漫影视中数以万计的关键帧上色等大批量的作业问题仍然无法得到有效的解决。

针对上述问题，Junsoo Lee等人(Lee J,Kim E,Lee Y,et al.Reference-BasedSketch Image Colorization using Augmented-Self Reference and Dense SemanticCorrespondence.2020.)提出使用风格参考图片对草图进行上色。这种方式即可完美嵌入在真实生产环境中辅助艺术工作者进行上色，还可以做到对大批量待上色线稿进行“一键上色”。但是该方法所生成的图片常常会出现不完全上色和颜色溢出等问题。

发明内容

本发明拟提供一种基于注意力机制的草图上色方法，拟解决采用现有技术中所提到的方法所生成的图片常常会出现不完全上色和颜色溢出等问题。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于注意力机制的草图上色方法，包括以下步骤：

步骤1：搭建草图上色模型；

步骤1.1：搭建对待上色草图进行特征编码的草图编码网络；所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层，为了提高草图编码网络的非线性表达能力，卷积层均使用Leaky ReLU激活函数；为了利用不同层级的特征信息，通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到草图特征，所述n和M均为正整数；

步骤1.2：搭建对参考草图进行特征编码的参考图编码网络，所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层，为了提高草图编码网络的非线性表达能力，卷积层均使用Leaky ReLU激活函数；为了利用不同层级的特征信息，通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到参考图特征；

步骤1.3：基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络；所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合，得到融合特征图；

步骤1.4：搭建生成网络，所述生成网络包括残差模块和解码器，解码器与草图编码构成U-net结构，通过跳转连接生成网络；所述生成网络基于步骤1.3中得到的融合特征图，生成上色图片；所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络；通过跳转连接生成网络可以利用待上色草图的不同层级的信息，从而保证生成网络所生成图片和待上色草图的轮廓一致；

步骤1.5：基于全卷积神经网络搭建判别网络，所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督，进而产生更加出众的上色结果；

步骤2：将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练，得到生成的上色图片。

本发明通过对输入的待上色草图和参考图片进行编码，得到草图特征和参考图特征；利用注意力机制网络将草图特征和参考图特征进行对齐及融合，得到融合特征图；再基于U-net的解码器将融合特征图转化为上色图片；将生成式对抗神经网络作为正则项，使生成的上色图片更加真实；并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性，在验证数据集上生成效果平均有25％的提升。

优选的，所述步骤2包括以下步骤：

步骤2.1：获取数据集内的彩色图片，使用XDOG方法对彩色图片进行滤波得到待上色草图；将数据集内的彩色图片进行颜色抖动增广，将进行颜色抖动增广后的图片作为待上色草图的预期上色结果，再对该增广图片使用薄板样条形变得到训练所需的风格参考图片；

步骤2.2：将待上色草图和参考图片分别输入草图编码网络和参考图编码网络，基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征；基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合，得到融合特征图；最后通过生成网络，基于所述融合特征图，生成上色图片。

步骤2.3：将生成的上色图片和数据集内对应的彩色图片分别输入至预训练的VGG16模型中，并提取上色图片和对应的真实彩色图片的深度特征，并通过感知损失和风格损失约束两者的深度特征一直；并使用对抗损失和重构损失辅助上色网络和判别网络的训练；损失函数的总和具体如下：

其中F表示上色网络，D表示判别网络；

代表对抗损失；

代表重构损失，其权重λ₁＝30：

代表感知损失，其权重λ₂＝0.01；

代表风格损失，其权重λ₃＝50。

优选的，所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合，形成第一组合图和第二组合图，并将第一组合图和第二组合图输入至判别网络，并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练：

其中F表示上色网络，D表示判别网络；I_s表示待上色草图，I_gt表示预期上色结果图片；F(I_s，I_r)表示使用I_s作为草图，I_r作为风格参考所得到的上色结果，即上文所提到的上色图片；(I_gt，I_s)代表第一组合图，(F(I_s，I_r)，I_s)代表第二组合图。

优选的，还包括用于续接步骤2.3的步骤2.4：采用Adam算法优化步骤2.3中所述的损失函数的总和。

优选的，所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束，具体如下：

其中，F(I_s，I_r)表示使用待上色草图I_s和参考图片I_r的上色结果；I_gt表示预期上色结果图片；

代表重构损失。

优选的，为了进一步的约束生成网络所生成的上色图片的内容和风格，采用如下公式约束上色网络所生成的图片的内容和风格：

其中，其中，I_gen代表生成的上色图片，I_gt表示预期上色结果图片；φ_l(·)表示预训练模型VGG16的第l层卷积输出；

表示Gram矩阵；其中

代表感知损失，

代表风格损失。

优选的，所述步骤1.3中采用如下公式构建特征对齐的注意力图：

A＝XY^T；

其中，X和Y表示两个输入特征矩阵；在交叉-SGA中X为步骤1.1中的草图特征图，Y为步骤1.2中的参考图特征；在内联-SGA中X和Y均为交叉-SGA的输出；

代表注意力矩阵。

优选的，所述步骤1.3中采用如下公式进行特征融合：

其中Z表示特征聚合输出；σ(·)表示Leaky ReLU激活函数；sg(·)表示停止该变量的反向传播；W_x和W_y表示特征调整矩阵。

进一步的，为了减少生成网络所生成的图片的棋盘伪影现象，所述步骤1.4还包括：当进行特征融合后的特征图需要进行上采样时，首先采用双线性插值将特征图尺寸放大，再使用2D卷积进行卷积操作压缩特征维度。

优选的，所述步骤1.1和步骤1.2中的n取值为3；M取值为10。

优选的，所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试，得到Frechet Inception距离得分(FID)和结构相似性(SSIM)；并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。

Anime：Anime数据集是Tseng等人(Tseng H Y，Fisher M，Lu J，et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。

AFHQ：AFHQ数据集是Choi等人(Choi Y，Uh Y，Yoo J，et al.StarGAN v2：DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物：猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明通过对输入的待上色草图和参考图片进行编码，得到草图特征和参考图特征；利用注意力机制网络将草图特征和参考图特征进行对齐及融合，得到融合特征图；再基于U-net的解码器将融合特征图转化为上色图片；将生成式对抗神经网络作为正则项，使生成的上色图片更加真实；并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性，在验证数据集上生成效果平均有25％的提升。

2.本发明相较于采用归一化的方法生成的上色图片来讲，真实性提升了37.58％，结构保真性提升了32.76％。

3.本发明相较于其他注意力机制方法所述生成的上色图片来讲，真实性提升了27.21％，结构保真性提升了25.67％。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的模型示意图(彩图见其他证明文件的图A)。

图2为本发明的流程示意图。

图3为本发明的实验效果示意图(彩图见其他证明文件的图B)。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1和附图2对本发明的实施例作详细描述；

一种基于注意力机制的草图上色方法，包括以下步骤：

步骤1：搭建草图上色模型；

步骤1.1：搭建对待上色草图进行特征编码的草图编码网络；所述草图编码网络采用3*3的2D卷积核堆叠10层卷积层，为了提高草图编码网络的非线性表达能力，卷积层均使用Leaky ReLU激活函数；为了利用不同层级的特征信息，通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到草图特征；

步骤1.2：搭建对参考草图进行特征编码的参考图编码网络，所述参考图编码网络采用3*3的2D卷积核堆叠10层卷积层，为了提高草图编码网络的非线性表达能力，卷积层均使用Leaky ReLU激活函数；为了利用不同层级的特征信息，通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到参考图特征；

所述步骤1.3中采用如下公式构建特征对齐的注意力图：

A＝XY^T；

代表注意力矩阵。

所述步骤1.3中采用如下公式进行特征融合：

步骤1.4：搭建生成网络，所述生成网络包括残差模块和解码器，解码器与草图编码构成U-net结构，通过跳转连接生成网络；所述生成网络基于步骤1.3中得到的融合特征图，生成上色图片；所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络；通过跳转连接生成网络可以利用待上色草图的不同层级的信息，从而保证生成网络所生成图片和待上色草图的轮廓一致；为了减少生成网络所生成的图片的棋盘伪影现象，所述步骤1.4还包括：当进行特征融合后的特征图需要进行上采样时，首先采用双线性插值将特征图尺寸放大，再使用2D卷积进行卷积操作压缩特征维度。

所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试，得到Frechet Inception距离得分(FID)和结构相似性(SSIM)；并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。

Anime:Anime数据集是Tseng等人(Tseng H Y,Fisher M,Lu J,et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。

AFHQ:AFHQ数据集是Choi等人(Choi Y,Uh Y,Yoo J,et al.StarGAN v2:DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物：猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。

所述步骤2包括以下步骤：

其中F表示上色网络，D表示判别网络；

代表对抗损失；

代表重构损失，其权重λ₁＝30；

代表感知损失，其权重λ₂＝0.01；

代表风格损失，其权重λ₃＝50。

所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合，形成第一组合图和第二组合图，并将第一组合图和第二组合图输入至判别网络，并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练：

所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束，具体如下：

代表重构损失；

为固定的数学符号，表示求期望。

为了进一步的约束生成网络所生成的上色图片的内容和风格，采用如下公式约束上色网络所生成的图片的内容和风格：

表示Gram矩阵；其中

代表感知损失，

代表风格损失，

为固定的数学符号，表示求期望。

步骤2.4：采用Adam算法优化步骤2.3中所述的损失函数的总和。

为了进一步的说明本发明，基于本发明提供如下实验：

为了验证提出的基于注意力机制的草图上色方法的优越性，本发明在2个公开基准网络数据集上进行了草图上色的实验。本发明与其他基于参考图的草图上色方法进行比较。SPADE和UNITE所采用自适应归一化特征融合技术，而CoCosNet和SCFT所采用注意力机制特征融合技术。所有方法均采用相同的编码-解码结构，只有特征融合模块不同。这些结果的比较呈现在表1和图3中。图3(彩图请参见其他证明文件的图B)中第一列表示风格参考图片，第二列表示草图，第3～6列表示对比方法生成结果，最后一列表示本方法生成结果。所有实验均在具有Intel(R)Core(TM)i7-8700 3.20GHz CPU、GeForce GTX 1080Ti GPU和64GB RAM的计算机上进行。

表1：在Anime和AFHQ上的数值结果

从实验结果可以看出本发明有如下优点：

1)从生成图片的效果角度，本发明的上色效果明显好于其他方法，生成图片更真实，且与草图结构完全一致。

2)从量化指标角度，本方法所生成的上色图片FID较其他方法平均有27.21％的提升，SSIM得到平均25.67％的提升。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于注意力机制的草图上色方法，其特征在于，包括以下步骤：

步骤1：搭建草图上色模型；

步骤1.1：搭建对待上色草图进行特征编码的草图编码网络；所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层，卷积层均使用Leaky ReLU激活函数；并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到草图特征，所述n和M均为正整数；

步骤1.2：搭建对参考草图进行特征编码的参考图编码网络，所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层，卷积层均使用Leaky ReLU激活函数；并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16，按照特征维度拼接池化后的每层卷积，得到参考图特征；

步骤1.4：搭建生成网络，所述生成网络包括残差模块和解码器，解码器与草图编码构成U-net结构，通过跳转连接生成网络；所述生成网络基于步骤1.3中得到的融合特征图，生成上色图片；所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络；

步骤1.5：基于全卷积神经网络搭建判别网络，所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督；

2.根据权利要求1所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤2包括以下步骤：

步骤2.2：将待上色草图和参考图片分别输入草图编码网络和参考图编码网络，基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征；基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合，得到融合特征图；最后通过生成网络，基于所述融合特征图，生成上色图片；

步骤2.3：将生成的上色图片和数据集内对应的的彩色图片分别输入至预训练的VGG16模型中，并提取上色图片和对应的真实彩色图片的深度特征，并通过感知损失和风格损失约束两者的深度特征一直；并使用对抗损失和重构损失辅助上色网络和判别网络的训练；损失函数的总和具体如下：

其中F表示上色网络，D表示判别网络；

代表对抗损失；

代表重构损失，其权重λ₁＝30；

代表感知损失，其权重λ₂＝0.01；

代表风格损失，其权重λ₃＝50。

3.根据权利要求2所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤2.3中将待上色草图分别与预期上色结果图片和生成的上色图片组合，形成第一组合图和第二组合图，并将第一组合图和第二组合图输入至判别网络，并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练：

其中F表示上色网络，D表示判别网络；I_s表示待上色草图，I_gt表示预期上色结果图片；F(I_s,I_r)表示使用I_s作为草图，I_r作为风格参考所得到的上色结果，即上文所提到的生成的上色图片；(I_gt,I_s)代表第一组合图，(F(I_s,I_r),I_s)代表第二组合图。

4.根据权利要求2所述的一种基于注意力机制的草图上色方法，其特征在于，还包括用于续接步骤2.3的步骤2.4：采用Adam算法优化步骤2.3中所述的损失函数的总和。

5.根据权利要求2所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束，具体如下：

其中，F(I_s,I_r)表示使用待上色草图I_s和参考图片I_r的上色结果；I_gt表示预期上色结果图片；

代表重构损失。

6.根据权利要求5所述的一种基于注意力机制的草图上色方法，其特征在于，采用如下公式约束上色网络所生成的图片的内容和风格：

其中，其中，I_gen代表生成的上色图片，I_gt代表预期上色结果图片；φ_l(·)表示预训练模型VGG16的第l层卷积输出；

表示Gram矩阵；其中

代表感知损失，

代表风格损失。

7.根据权利要求1所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤1.3中采用如下公式构建特征对齐的注意力图：

A＝XY^T；

代表注意力矩阵。

8.根据权利要求1所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤1.3中采用如下公式进行特征融合：

9.根据权利要求1所述的一种基于注意力机制的草图上色方法，其特征在于，所述步骤1.4还包括：当进行特征融合后的特征图需要进行上采样时，首先采用双线性插值将特征图尺寸放大，再使用2D卷积进行卷积操作压缩特征维度。

10.根据权利要求1所述的一种基于注意力机制的草图上色方法，其特征在于，所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试，得到FrechetInception距离得分和结构相似性。