CN112767507A

CN112767507A - 基于动态记忆模块和生成对抗网络的动漫草图上色方法

Info

Publication number: CN112767507A
Application number: CN202110056463.XA
Authority: CN
Inventors: 刘秀平; 于冰冰; 谭红臣; 卞瑜昊
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-07
Anticipated expiration: 2041-01-15
Also published as: CN112767507B

Abstract

本发明提供了一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，属于图像处理技术领域。本发明首次利用动态记忆模块完成图像上色任务，首先将动漫草图输入到网络中，获取图片特征图；利用动态记忆模块动态地从图像标签中读取信息，组合图片特征和图像标签信息，对生成器和判别器进行训练，以生成符合标签描述的彩色图像。本发明利用动态记忆模块和条件生成对抗网络实现了由动漫草图及相应的图片标签生成彩色图片的任务，通过动态组合标签信息和图像信息提升图片质量；本发明利用真实的图像数据集进行评估，并观察在最先进的基线上的改进。

Description

基于动态记忆模块和生成对抗网络的动漫草图上色方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于动态记忆模块和生成对抗网络的动漫草图上色方法。

背景技术

图像上色技术在图像处理领域是非常重要的研究内容，涉及到包括计算机视觉、灰度图像处理、颜色空间变换等多个方面的算法。传统的图像上色方法分为基于局部颜色的图像上色方法和基于颜色传递的图像上色方法。第一种方法也被称为基于笔刷的上色方法，此算法需要用户手动在目标图像上用彩色的笔刷对局部进行颜色标注，并将此数据作为上色依据，进一步对整幅图片进行扩张上色。第二种方法需要一张与待上色图片相似的彩色样本图像，并以该图像作为基准，在待上色图像上进行颜色的传递，使得待上色图片与彩色图片样本具有相似的颜色，该方法又称为基于样本图像的上色方法。

随着计算机性能和图形处理器性能的不断提高，处理深度神经网络和图像的能力越来越强，深度学习的技术也不断被应用到图像的上色任务中。目前基于深度学习的图像上色任务中，大多使用条件生成对抗网络，通过设计生成器和判别器，其中生成器的作用是生成图片并设法骗过判别器，而判别器则要区分图片的真假，通过两者之间的对抗，使得模型效果越来越好，最终生成器可以生成以假乱真的图片。

目前图片上色问题中，大多存在着以下几个问题：(1)颜色错误，在图片中填充了不恰当的颜色，比如绿色的人脸等；(2)颜色渗透，网络往往无法区分前景和背景、图片中的不同实例，造成前景和背景、不同实例之间的颜色渗透；(3)结果的多样性，上色图片应该有多种合理的结果，例如一只鸟可以是白色、黑色、黄色等多种不同颜色。

发明内容

本发明针对上述图片上色问题中存在的不足之处进行改善，根据指定的图片标签，例如红色的眼睛、紫色的头发等，自动对图片进行快速准确的上色。本发明提出一种基于动态记忆模块和条件生成对抗网络的的图像上色方法，首先将动漫图片的草图作为输入，得到特征图，在特征图中，利用动态记忆模块，加入图片标签信息对图片的上色结果进行指导。

为了实现上述目的，本发明采用如下技术方案：

一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，网络将根据给定的图片标签，自动对草图的相应区域进行自动上色；包括以下步骤：

步骤S1：获取训练数据集，包括大量彩色动漫图片、相应的图片标签和草图。

步骤S2：构建草图上色网络模型生成器的编码器部分，将草图和对应的图片标签输入到生成器中，获取图像特征和文本特征。

进一步，所述步骤S2具体为：

步骤S21：将草图和对应的图片标签文本输入到生成器中，生成器包含了一个图像编码器、两个文本编码器、一个主解码器和一个辅助解码器。

将草图输入到图像编码器中，获得相应的图像特征

其中，N＝H×Q表示图像特征中的像素个数，H和Q分别为图像特征的长和宽；

表示第i个像素特征，

表示图像像素特征的维度。将图片标签转换为one-hot向量，并分别输入到两个文本编码器中，两个文本编码器分别输出一个与图像特征

的长宽相同的文本特征

和另一个文本特征

其中N表示图像像素的个数，

和w_j分别表示W₁中的第i个单词特征、W中的第j个单词特征；T表示单词个数，N_w1和N_w分别表示W₁和W中单词特征的维度。

步骤S22：将图像特征

和文本特征W₁沿特征维度拼接：

得到更新的图像特征

其中

步骤S3：将更新的图像特征输入到辅助解码器中，生成一张上色图像，防止神经网络的梯度消失。

步骤S4：构建动态记忆模块，动态地从图片标签的文本中选择对上色最重要的部分，并利用门控机制动态地组合文本和图像信息。

进一步，所述步骤S4具体为：

步骤S41：在动态记忆模块中，使用门控机制计算每个标签的重要性：

其中，

表示用单词特征w_j计算其关于图像特征的重要性，用于控制信息流动和更新图像特征；A是一个1×N_w的矩阵，B是一个1×N_r的矩阵；σ是激活函数，可以将向量归一化到(0,1)，在这里采用sigmoid函数作为激活函数：

步骤S42：组合图像和单词特征进行写入，更新记忆：

其中，m_j表示第j个记忆；M_w和M_r为1*1卷积操作，这两个操作分别将图像特征和单词特征映射到同一个维度N_m。

步骤S43：计算每一个图像像素特征和每一个记忆之间的相似概率，用于读取记忆

其中，α_i,j表示第i个图像像素特征和第j个记忆之间的相似概率；φ_K是1*1卷积操作，用于将记忆特征映射到N_r维。

步骤S44：读取记忆

其中，o_i为读取出的记忆；φ_V是1*1卷积操作，用于将记忆特征映射到N_r维。

步骤S45：利用门控机制控制信息流动和更新图像特征

其中，

表示用于信息融合的响应门；W和b是参数矩阵和偏置向量；

为第i个更新后的图像特征。

步骤S46：使用PixelShuffle算法改变图像特征的维度大小，使得图像特征的长、宽分别扩大二倍，通道数缩小四倍。

步骤S47：将图像编码器中与当前图像特征大小相同的特征拼接上去，更新图像特征。

步骤S5：构建多个动态记忆模块，作为主解码器进行处理，直到图像特征大小与原本图片的大小相同。

步骤S6：在主解码器中添加一个3*3卷积、一个LeakyRelu激活层、一个3*3卷积和一个Tanh激活层，生成上色图片。

步骤S7：将步骤S6中生成的上色图片和真实彩色图片输入到判别器中，令判别器去判别图像的真假以及输入的图像文本标签，根据整体的损失函数交替训练生成器和判别器，在保证图像上色质量的同时，也保证图像上色结果和我们给定的标签一致，所得的生成器即为动漫草图上色的工具。

本发明与现有技术相比具有以下有益效果：

(1)与大多数方法中一句话的文本输入或使用笔刷对草图进行局部标注不同，本发明的输入是一组可选择的标签，这对于用户的使用更加便捷；(2)本发明通过引入图片的文本标签信息，实现了由一组标签生成对应的彩色动漫图片，并且上色结果满足我们的标签描述；(3)本发明的生成对抗网络中，在生成器中使用动态记忆模块读取、存储标签信息，更新图像特征，实现了更充分的信息读取与特征融合，提升了图片生成质量和生成结果的准确性。

附图说明

图1是本发明设计的整体结构。

图2是本发明设计的动态记忆模块。

图3是本发明设计的草图上色模块中的生成器结构。

图4是本发明设计的草图上色模块中的判别器结构。

具体实施方法

下面将结合具体实例和附图对本发明的技术方案进行进一步的说明。

如图1所示，一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，包括以下步骤：

进一步，所述步骤S1具体为：

步骤S11：收集大量的彩色动漫图片及相应的图片标签，例如蓝色的头发、红色的帽子、白色的背景等；对所有图片均分别使用SketchKeras、XDoG和SketchSimplification算法得到相应的草图；

步骤S12：使用Lbpcascade_animeface工具，在彩色动漫图片中提取出动漫人物的人脸位置，分别在彩色图片和草图中裁剪出人脸图片、在相应的图片标签中提取出面部有关的标签，将相应的面部图片和草图、标签加入到训练集中，这将使得网络对人脸的细节有更好的上色结果。

步骤S2：构建草图上色网络模型生成器的编码器部分，整个草图上色网络以Tag2Pix作为框架，草图上色网络模型包含一个生成器和一个判别器，生成器使用U-Net结构，包含编码器部分和解码器部分。

进一步，所述步骤S2具体为：

将草图输入到图像编码器中，获得相应的图像特征

表示第i个像素特征，

表示图像像素特征的维度。

将图片标签转换为one-hot向量，并分别输入到文本编码器中，得到一个与图像特征的长宽相同的文本特征

和另一个文本特征

其中，N表示图像像素的个数，

和w_j分别表示W₁的第i个单词特征、W中的第j个单词特征，T表示单词个数，N_w1和N_w分别表示W₁和W中单词特征的维度。

步骤S22：将图像特征

和文本特征W₁拼接：

得到更新的图像特征

其中

步骤S3：将更新后的图像特征输入到辅助解码器中，生成一张上色图像，该图像并非作为最后的上色结果，而是为网络中间层特征提供额外监督，防止神经网络的梯度消失。

步骤S4：构建动态记忆模块，该模块可以动态地从图片标签中选择对上色最重要的部分，使得图像能够很好地和图片标签匹配上，并利用门控机制动态地组合文本和图像信息。

进一步，所述步骤S4具体为：

步骤S41：在动态记忆模块中，使用门控机制计算每个图片标签的重要性：

其中，

步骤S42：组合图像和单词特征进行写入，更新记忆：

其中，m_j表示第j个记忆，M_w和M_r为1*1卷积操作，这两个操作分别将图像特征和单词特征映射到同一个维度N_m。

步骤S43：计算每一个图像特征和每一个记忆之间的相似概率，用于读取记忆

步骤S44：读取记忆

步骤S45：利用门控机制控制信息流动和更新图像特征

其中，

表示用于信息融合的响应门，W和b是参数矩阵和偏置向量；

为第i个更新后的图像特征。

步骤S46：使用PixelShuffle算法改变S45中更新后的图像特征维度大小，使得图像特征的长、宽分别扩大二倍，通道数缩小四倍。

步骤S5：重复S4，构建多个动态记忆模块进行处理，直到图像特征大小与原本图片的大小相同。

步骤S7：将步骤S6中生成的上色图片和真实彩色图片输入到判别器中，令判别器去判别图像的真假以及输入的图像文本标签，交替训练生成器和判别器，相应的最小化各自的损失函数。

判别器的损失函数：

生成器的损失函数：

其中

c_v是图片标签，y为彩色图片，x为草图，G_f为生成器主解码器的输出，G_g为辅助解码器的输出，λ_rec和λ_cls为权重。D_adv为判别器；E_x、E_y、E_x,y分别为对于变量x的数学期望、对于变量y的数学期望和对x，y组合分布的数学期望；β为超参数，本实施例中设置为0.9。

以上所述步骤中生成器与判别器是以Tag2Pix为基线的拓展模型，仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，其特征在于，该方法包括以下步骤：

步骤S1：获取训练数据集，包括彩色动漫图片、相应的图片标签和草图；

步骤S2：构建草图上色网络模型生成器的编码器部分，将草图和对应的图片标签输入到生成器中，获取图像特征和文本特征；并将图像特征和文本特征拼接，得到更新的图像特征；

所述的草图上色网络模型包含一个生成器和一个判别器，所述的生成器包含一个图像编码器、两个文本编码器、一个主解码器和一个辅助解码器；

步骤S3：将更新的图像特征输入到辅助解码器中，生成一张上色图像，防止神经网络的梯度消失；

步骤S4：构建动态记忆模块，动态地从图片标签的文本中选择对上色最重要的部分，并利用门控机制动态地组合文本和图像信息；

步骤S5：构建多个动态记忆模块，作为主解码器进行处理，直到图像特征大小与原本图片的大小相同；

步骤S6：在主解码器中添加一个3*3卷积、一个LeakyRelu激活层、一个3*3卷积和一个Tanh激活层，生成上色图片；

步骤S7：将步骤S6中生成的上色图片和真实彩色图片输入到判别器中，令判别器去判别图像的真假以及输入的图像文本标签，交替训练生成器和判别器，相应的最小化生成器和判别器各自的损失函数。

2.根据权利要求1所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，其特征在于，所述的步骤S2具体为：

步骤S21：将草图输入到图像编码器中，获得相应的图像特征

表示第i个像素特征，

表示图像像素特征的维度；

将图片标签转换为one-hot向量，并分别输入到两个文本编码器中，两个文本编码器分别输出一个与图像特征

的长宽相同的文本特征

和另一个文本特征W＝w₁，w₂，…，w_T，

其中

和w_j分别表示W₁中的第i个单词特征、W中的第j个单词特征；T表示单词个数，N_w1和N_w分别表示W₁和W中单词特征的维度；

步骤S22：将图像特征

和文本特征W₁沿特征维度拼接：

得到更新的图像特征R＝r₁，r₂，…，r_N，

其中

3.根据权利要求1或2所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，其特征在于，所述步骤S4具体为：

其中，

表示用单词特征w_j计算其关于图像特征的重要性，用于控制信息流动和更新图像特征；A是一个1×N_w的矩阵，B是一个1×N_r的矩阵；σ是激活函数，可以将向量归一化到(0，1)，采用sigmoid函数作为激活函数：

步骤S42：组合图像和单词特征进行写入，更新记忆：

其中，m_j表示第j个记忆；M_w和M_r为1*1卷积操作，这两个操作分别将图像特征和单词特征映射到同一个维度N_m；

其中，α_i，j表示第i个图像像素特征和第j个记忆之间的相似概率；φ_K是1*1卷积操作，用于将记忆特征映射到N_r维；

步骤S44：读取记忆

其中，o_i为读取出的记忆；φ_V是1*1卷积操作，用于将记忆特征映射到N_r维；

步骤S45：利用门控机制控制信息流动和更新图像特征

其中，

表示用于信息融合的响应门；W和b是参数矩阵和偏置向量；

为第i个更新后的图像特征；

步骤S46：使用PixelShuffle算法改变图像特征的维度大小，使得图像特征的长、宽分别扩大二倍，通道数缩小四倍；

4.根据权利要求1或2所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，其特征在于，所述步骤S7中，

判别器的损失函数：

生成器的损失函数：

其中

c_v是图片标签，y为彩色图片，x为草图，G_f为生成器主解码器的输出，G_g为辅助解码器的输出，λ_rec和λ_cls为权重；D_adv为判别器；E_x、E_y、E_x，y分别为对于变量x的数学期望、对于变量y的数学期望和对x，y组合分布的数学期望；β为超参数。

5.根据权利要求3所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法，其特征在于，所述步骤S7中，

判别器的损失函数：

生成器的损失函数：

其中