CN112767507A - 基于动态记忆模块和生成对抗网络的动漫草图上色方法 - Google Patents
基于动态记忆模块和生成对抗网络的动漫草图上色方法 Download PDFInfo
- Publication number
- CN112767507A CN112767507A CN202110056463.XA CN202110056463A CN112767507A CN 112767507 A CN112767507 A CN 112767507A CN 202110056463 A CN202110056463 A CN 202110056463A CN 112767507 A CN112767507 A CN 112767507A
- Authority
- CN
- China
- Prior art keywords
- image
- picture
- sketch
- coloring
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,属于图像处理技术领域。本发明首次利用动态记忆模块完成图像上色任务,首先将动漫草图输入到网络中,获取图片特征图;利用动态记忆模块动态地从图像标签中读取信息,组合图片特征和图像标签信息,对生成器和判别器进行训练,以生成符合标签描述的彩色图像。本发明利用动态记忆模块和条件生成对抗网络实现了由动漫草图及相应的图片标签生成彩色图片的任务,通过动态组合标签信息和图像信息提升图片质量;本发明利用真实的图像数据集进行评估,并观察在最先进的基线上的改进。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于动态记忆模块和生成对抗网络的动漫草图上色方法。
背景技术
图像上色技术在图像处理领域是非常重要的研究内容,涉及到包括计算机视觉、灰度图像处理、颜色空间变换等多个方面的算法。传统的图像上色方法分为基于局部颜色的图像上色方法和基于颜色传递的图像上色方法。第一种方法也被称为基于笔刷的上色方法,此算法需要用户手动在目标图像上用彩色的笔刷对局部进行颜色标注,并将此数据作为上色依据,进一步对整幅图片进行扩张上色。第二种方法需要一张与待上色图片相似的彩色样本图像,并以该图像作为基准,在待上色图像上进行颜色的传递,使得待上色图片与彩色图片样本具有相似的颜色,该方法又称为基于样本图像的上色方法。
随着计算机性能和图形处理器性能的不断提高,处理深度神经网络和图像的能力越来越强,深度学习的技术也不断被应用到图像的上色任务中。目前基于深度学习的图像上色任务中,大多使用条件生成对抗网络,通过设计生成器和判别器,其中生成器的作用是生成图片并设法骗过判别器,而判别器则要区分图片的真假,通过两者之间的对抗,使得模型效果越来越好,最终生成器可以生成以假乱真的图片。
目前图片上色问题中,大多存在着以下几个问题:(1)颜色错误,在图片中填充了不恰当的颜色,比如绿色的人脸等;(2)颜色渗透,网络往往无法区分前景和背景、图片中的不同实例,造成前景和背景、不同实例之间的颜色渗透;(3)结果的多样性,上色图片应该有多种合理的结果,例如一只鸟可以是白色、黑色、黄色等多种不同颜色。
发明内容
本发明针对上述图片上色问题中存在的不足之处进行改善,根据指定的图片标签,例如红色的眼睛、紫色的头发等,自动对图片进行快速准确的上色。本发明提出一种基于动态记忆模块和条件生成对抗网络的的图像上色方法,首先将动漫图片的草图作为输入,得到特征图,在特征图中,利用动态记忆模块,加入图片标签信息对图片的上色结果进行指导。
为了实现上述目的,本发明采用如下技术方案:
一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,网络将根据给定的图片标签,自动对草图的相应区域进行自动上色;包括以下步骤:
步骤S1:获取训练数据集,包括大量彩色动漫图片、相应的图片标签和草图。
步骤S2:构建草图上色网络模型生成器的编码器部分,将草图和对应的图片标签输入到生成器中,获取图像特征和文本特征。
进一步,所述步骤S2具体为:
步骤S21:将草图和对应的图片标签文本输入到生成器中,生成器包含了一个图像编码器、两个文本编码器、一个主解码器和一个辅助解码器。
将草图输入到图像编码器中,获得相应的图像特征其中,N=H×Q表示图像特征中的像素个数,H和Q分别为图像特征的长和宽;表示第i个像素特征,表示图像像素特征的维度。将图片标签转换为one-hot向量,并分别输入到两个文本编码器中,两个文本编码器分别输出一个与图像特征的长宽相同的文本特征和另一个文本特征其中N表示图像像素的个数,和wj分别表示W1中的第i个单词特征、W中的第j个单词特征;T表示单词个数,Nw1和Nw分别表示W1和W中单词特征的维度。
步骤S3:将更新的图像特征输入到辅助解码器中,生成一张上色图像,防止神经网络的梯度消失。
步骤S4:构建动态记忆模块,动态地从图片标签的文本中选择对上色最重要的部分,并利用门控机制动态地组合文本和图像信息。
进一步,所述步骤S4具体为:
步骤S41:在动态记忆模块中,使用门控机制计算每个标签的重要性:
其中,表示用单词特征wj计算其关于图像特征的重要性,用于控制信息流动和更新图像特征;A是一个1×Nw的矩阵,B是一个1×Nr的矩阵;σ是激活函数,可以将向量归一化到(0,1),在这里采用sigmoid函数作为激活函数:
步骤S42:组合图像和单词特征进行写入,更新记忆:
其中,mj表示第j个记忆;Mw和Mr为1*1卷积操作,这两个操作分别将图像特征和单词特征映射到同一个维度Nm。
步骤S43:计算每一个图像像素特征和每一个记忆之间的相似概率,用于读取记忆
其中,αi,j表示第i个图像像素特征和第j个记忆之间的相似概率;φK是1*1卷积操作,用于将记忆特征映射到Nr维。
步骤S44:读取记忆
其中,oi为读取出的记忆;φV是1*1卷积操作,用于将记忆特征映射到Nr维。
步骤S45:利用门控机制控制信息流动和更新图像特征
步骤S46:使用PixelShuffle算法改变图像特征的维度大小,使得图像特征的长、宽分别扩大二倍,通道数缩小四倍。
步骤S47:将图像编码器中与当前图像特征大小相同的特征拼接上去,更新图像特征。
步骤S5:构建多个动态记忆模块,作为主解码器进行处理,直到图像特征大小与原本图片的大小相同。
步骤S6:在主解码器中添加一个3*3卷积、一个LeakyRelu激活层、一个3*3卷积和一个Tanh激活层,生成上色图片。
步骤S7:将步骤S6中生成的上色图片和真实彩色图片输入到判别器中,令判别器去判别图像的真假以及输入的图像文本标签,根据整体的损失函数交替训练生成器和判别器,在保证图像上色质量的同时,也保证图像上色结果和我们给定的标签一致,所得的生成器即为动漫草图上色的工具。
本发明与现有技术相比具有以下有益效果:
(1)与大多数方法中一句话的文本输入或使用笔刷对草图进行局部标注不同,本发明的输入是一组可选择的标签,这对于用户的使用更加便捷;(2)本发明通过引入图片的文本标签信息,实现了由一组标签生成对应的彩色动漫图片,并且上色结果满足我们的标签描述;(3)本发明的生成对抗网络中,在生成器中使用动态记忆模块读取、存储标签信息,更新图像特征,实现了更充分的信息读取与特征融合,提升了图片生成质量和生成结果的准确性。
附图说明
图1是本发明设计的整体结构。
图2是本发明设计的动态记忆模块。
图3是本发明设计的草图上色模块中的生成器结构。
图4是本发明设计的草图上色模块中的判别器结构。
具体实施方法
下面将结合具体实例和附图对本发明的技术方案进行进一步的说明。
如图1所示,一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,包括以下步骤:
步骤S1:获取训练数据集,包括大量彩色动漫图片、相应的图片标签和草图。
进一步,所述步骤S1具体为:
步骤S11:收集大量的彩色动漫图片及相应的图片标签,例如蓝色的头发、红色的帽子、白色的背景等;对所有图片均分别使用SketchKeras、XDoG和SketchSimplification算法得到相应的草图;
步骤S12:使用Lbpcascade_animeface工具,在彩色动漫图片中提取出动漫人物的人脸位置,分别在彩色图片和草图中裁剪出人脸图片、在相应的图片标签中提取出面部有关的标签,将相应的面部图片和草图、标签加入到训练集中,这将使得网络对人脸的细节有更好的上色结果。
步骤S2:构建草图上色网络模型生成器的编码器部分,整个草图上色网络以Tag2Pix作为框架,草图上色网络模型包含一个生成器和一个判别器,生成器使用U-Net结构,包含编码器部分和解码器部分。
进一步,所述步骤S2具体为:
步骤S21:将草图和对应的图片标签文本输入到生成器中,生成器包含了一个图像编码器、两个文本编码器、一个主解码器和一个辅助解码器。
将图片标签转换为one-hot向量,并分别输入到文本编码器中,得到一个与图像特征的长宽相同的文本特征和另一个文本特征其中,N表示图像像素的个数,和wj分别表示W1的第i个单词特征、W中的第j个单词特征,T表示单词个数,Nw1和Nw分别表示W1和W中单词特征的维度。
步骤S3:将更新后的图像特征输入到辅助解码器中,生成一张上色图像,该图像并非作为最后的上色结果,而是为网络中间层特征提供额外监督,防止神经网络的梯度消失。
步骤S4:构建动态记忆模块,该模块可以动态地从图片标签中选择对上色最重要的部分,使得图像能够很好地和图片标签匹配上,并利用门控机制动态地组合文本和图像信息。
进一步,所述步骤S4具体为:
步骤S41:在动态记忆模块中,使用门控机制计算每个图片标签的重要性:
其中,表示用单词特征wj计算其关于图像特征的重要性,用于控制信息流动和更新图像特征;A是一个1×Nw的矩阵,B是一个1×Nr的矩阵;σ是激活函数,可以将向量归一化到(0,1),在这里采用sigmoid函数作为激活函数:
步骤S42:组合图像和单词特征进行写入,更新记忆:
其中,mj表示第j个记忆,Mw和Mr为1*1卷积操作,这两个操作分别将图像特征和单词特征映射到同一个维度Nm。
步骤S43:计算每一个图像特征和每一个记忆之间的相似概率,用于读取记忆
其中,αi,j表示第i个图像像素特征和第j个记忆之间的相似概率;φK是1*1卷积操作,用于将记忆特征映射到Nr维。
步骤S44:读取记忆
其中,oi为读取出的记忆;φV是1*1卷积操作,用于将记忆特征映射到Nr维。
步骤S45:利用门控机制控制信息流动和更新图像特征
步骤S46:使用PixelShuffle算法改变S45中更新后的图像特征维度大小,使得图像特征的长、宽分别扩大二倍,通道数缩小四倍。
步骤S47:将图像编码器中与当前图像特征大小相同的特征拼接上去,更新图像特征。
步骤S5:重复S4,构建多个动态记忆模块进行处理,直到图像特征大小与原本图片的大小相同。
步骤S6:在主解码器中添加一个3*3卷积、一个LeakyRelu激活层、一个3*3卷积和一个Tanh激活层,生成上色图片。
步骤S7:将步骤S6中生成的上色图片和真实彩色图片输入到判别器中,令判别器去判别图像的真假以及输入的图像文本标签,交替训练生成器和判别器,相应的最小化各自的损失函数。
判别器的损失函数:
生成器的损失函数:
其中
cv是图片标签,y为彩色图片,x为草图,Gf为生成器主解码器的输出,Gg为辅助解码器的输出,λrec和λcls为权重。Dadv为判别器;Ex、Ey、Ex,y分别为对于变量x的数学期望、对于变量y的数学期望和对x,y组合分布的数学期望;β为超参数,本实施例中设置为0.9。
以上所述步骤中生成器与判别器是以Tag2Pix为基线的拓展模型,仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,其特征在于,该方法包括以下步骤:
步骤S1:获取训练数据集,包括彩色动漫图片、相应的图片标签和草图;
步骤S2:构建草图上色网络模型生成器的编码器部分,将草图和对应的图片标签输入到生成器中,获取图像特征和文本特征;并将图像特征和文本特征拼接,得到更新的图像特征;
所述的草图上色网络模型包含一个生成器和一个判别器,所述的生成器包含一个图像编码器、两个文本编码器、一个主解码器和一个辅助解码器;
步骤S3:将更新的图像特征输入到辅助解码器中,生成一张上色图像,防止神经网络的梯度消失;
步骤S4:构建动态记忆模块,动态地从图片标签的文本中选择对上色最重要的部分,并利用门控机制动态地组合文本和图像信息;
步骤S5:构建多个动态记忆模块,作为主解码器进行处理,直到图像特征大小与原本图片的大小相同;
步骤S6:在主解码器中添加一个3*3卷积、一个LeakyRelu激活层、一个3*3卷积和一个Tanh激活层,生成上色图片;
步骤S7:将步骤S6中生成的上色图片和真实彩色图片输入到判别器中,令判别器去判别图像的真假以及输入的图像文本标签,交替训练生成器和判别器,相应的最小化生成器和判别器各自的损失函数。
2.根据权利要求1所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,其特征在于,所述的步骤S2具体为:
将图片标签转换为one-hot向量,并分别输入到两个文本编码器中,两个文本编码器分别输出一个与图像特征的长宽相同的文本特征和另一个文本特征W=w1,w2,…,wT,其中和wj分别表示W1中的第i个单词特征、W中的第j个单词特征;T表示单词个数,Nw1和Nw分别表示W1和W中单词特征的维度;
3.根据权利要求1或2所述的一种基于动态记忆模块和生成对抗网络的动漫草图上色方法,其特征在于,所述步骤S4具体为:
步骤S41:在动态记忆模块中,使用门控机制计算每个标签的重要性:
其中,表示用单词特征wj计算其关于图像特征的重要性,用于控制信息流动和更新图像特征;A是一个1×Nw的矩阵,B是一个1×Nr的矩阵;σ是激活函数,可以将向量归一化到(0,1),采用sigmoid函数作为激活函数:
步骤S42:组合图像和单词特征进行写入,更新记忆:
其中,mj表示第j个记忆;Mw和Mr为1*1卷积操作,这两个操作分别将图像特征和单词特征映射到同一个维度Nm;
步骤S43:计算每一个图像像素特征和每一个记忆之间的相似概率,用于读取记忆
其中,αi,j表示第i个图像像素特征和第j个记忆之间的相似概率;φK是1*1卷积操作,用于将记忆特征映射到Nr维;
步骤S44:读取记忆
其中,oi为读取出的记忆;φV是1*1卷积操作,用于将记忆特征映射到Nr维;
步骤S45:利用门控机制控制信息流动和更新图像特征
步骤S46:使用PixelShuffle算法改变图像特征的维度大小,使得图像特征的长、宽分别扩大二倍,通道数缩小四倍;
步骤S47:将图像编码器中与当前图像特征大小相同的特征拼接上去,更新图像特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056463.XA CN112767507B (zh) | 2021-01-15 | 2021-01-15 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056463.XA CN112767507B (zh) | 2021-01-15 | 2021-01-15 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767507A true CN112767507A (zh) | 2021-05-07 |
CN112767507B CN112767507B (zh) | 2022-11-18 |
Family
ID=75702051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110056463.XA Active CN112767507B (zh) | 2021-01-15 | 2021-01-15 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767507B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494499A (zh) * | 2022-01-26 | 2022-05-13 | 电子科技大学 | 一种基于注意力机制的草图上色方法 |
CN115423887A (zh) * | 2022-08-04 | 2022-12-02 | 北京乐信圣文科技有限责任公司 | 一种针对人脸线条图片的参考性上色方法、系统、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111798369A (zh) * | 2020-06-29 | 2020-10-20 | 电子科技大学 | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 |
-
2021
- 2021-01-15 CN CN202110056463.XA patent/CN112767507B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111798369A (zh) * | 2020-06-29 | 2020-10-20 | 电子科技大学 | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 |
Non-Patent Citations (1)
Title |
---|
蒋文杰等: "一种改进的生成对抗网络的图像上色方法研究", 《计算机技术与发展》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494499A (zh) * | 2022-01-26 | 2022-05-13 | 电子科技大学 | 一种基于注意力机制的草图上色方法 |
CN115423887A (zh) * | 2022-08-04 | 2022-12-02 | 北京乐信圣文科技有限责任公司 | 一种针对人脸线条图片的参考性上色方法、系统、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112767507B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833183B (zh) | 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN104732506B (zh) | 一种基于人脸语义分析的人物照片颜色风格转换方法 | |
CN108986058B (zh) | 明度一致性学习的图像融合方法 | |
CN108830913B (zh) | 基于用户颜色引导的语义级别线稿上色方法 | |
CN112767507B (zh) | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 | |
CN107239733A (zh) | 连续手写字识别方法及系统 | |
Jiang et al. | Incorporating depth into both cnn and crf for indoor semantic segmentation | |
CN109359499A (zh) | 一种用于脸部分类的方法和装置 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
Tang et al. | Attribute-guided sketch generation | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
Qu et al. | Perceptual-DualGAN: perceptual losses for image to image translation with generative adversarial nets | |
CN113298129A (zh) | 基于超像素和图卷积网络的极化sar图像分类方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Arnaud et al. | Tree-gated deep mixture-of-experts for pose-robust face alignment | |
Gain et al. | A novel unbiased deep learning approach (dl-net) in feature space for converting gray to color image | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
CN112801029A (zh) | 基于注意力机制的多任务学习方法 | |
CN116030249A (zh) | 一种基于生成对抗网络的交互式图像多目标分割方法及系统 | |
Zhao et al. | DA-Res2Net: a novel Densely connected residual Attention network for image semantic segmentation | |
CN114708591A (zh) | 基于单字连接的文档图像中文字符检测方法 | |
CN113763498A (zh) | 一种面向工业制造的肖像简笔画区域自适应颜色匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |