CN108830912B - 一种深度特征对抗式学习的交互式灰度图像着色方法 - Google Patents
一种深度特征对抗式学习的交互式灰度图像着色方法 Download PDFInfo
- Publication number
- CN108830912B CN108830912B CN201810417101.7A CN201810417101A CN108830912B CN 108830912 B CN108830912 B CN 108830912B CN 201810417101 A CN201810417101 A CN 201810417101A CN 108830912 B CN108830912 B CN 108830912B
- Authority
- CN
- China
- Prior art keywords
- image
- color
- network
- neural network
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 22
- 230000003042 antagnostic effect Effects 0.000 title claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 62
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000607734 Yersinia <bacteria> Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种深度特征对抗式学习的交互式灰度图像着色方法,基于生成式对抗网络理论,构建以U型网络结构为基础的全卷积神经网络作为生成器,可处理任意尺寸的图像。通过随机模拟交互笔画的方式自动生成灰度图像着色训练数据,同时对判别器和生成器两个神经网络进行对抗式训练。最终训练出灰度图像着色神经网络模型,实现交互式的灰度图像着色。本发明可以对带有用户笔画交互的灰度图像进行上色,在高效自动化处理的同时,也支持用户的个性化上色需求,实现艺术化的创作。
Description
技术领域
本发明涉及图像处理、深度学习和增强现实技术领域,具体地说是一种深度特征对抗式学习的交互式灰度图像着色方法。
背景技术
灰度图像着色是一个经典的图像编辑问题,即输入一张单通道的灰度图像,将其转化为RGB三通道的彩色图像,且与图像表达的语义内容相符。人们在早期拍摄的大量老照片、老电影等很多都是黑白色的,将这些图像视频重新上色,可以使其产生新的活力。另外,画家、艺术家等在创作绘画时,动画制作者在创作新的漫画、动画作品时,常常首先创作出黑白底色的初品,然后再对其进行上色处理。因此,对灰度图像进行自动化、智能化着色,不管对于经典老照片、老视频修复处理,还是现代的艺术创作,都有着非常重要的需求,一直是图像编辑领域的一个研究热点。
早期的基于用户交互的图像着色是通过用户笔画对颜色选取及着色区域进行控制,通过编辑传播等方法将用户的笔画传播到其他特征相似的区域。2004年,以色列耶路撒冷希伯来大学的Levin等人提出了基于编辑传播的灰度图像着色方法,通过笔画交互,将颜色传播到相似的像素上面。2008年,美国达特茅斯学院的An等人提出了一种基于像素相似性的图像视频编辑传播方法。2010年,以色列耶路撒冷希伯来大学的Farbman等人提出了基于扩散映射的图像编辑传播方法,利用扩散距离衡量像素之间的相似度。2012年,北京航空航天大学的Chen等人提出了一种特征流形结构保持的图像视频编辑传播方法,该方法利用局部线性嵌入实现编辑传播,保持了特征空间的流形结构。除了通过画笔交互对图像局部进行控制外,还出现了利用颜色模板等对全局进行控制的着色方法。例如,2010年,浙江大学的Wang等人提出了基于颜色模板的图像增强方法。2015年,美国普林斯顿大学的Chang等人提出了基于调色板的图像重着色方法,通过对颜色模板的编辑,实现整幅图像色调的改变。
另外一种半自动化的图像着色是将参考图像的色调迁移到目标图像上。2001年,犹他大学的Reinhard等人通过统计参考图像颜色的均值和方差,将其色调迁移到目标灰度图像上,实现灰度图像着色。2008年,香港中文大学的Liu等人提出了基于多幅参考图像的灰度图像着色方法,并考虑了光照、反射等因素。2012年,南洋理工大学的Gupta等人提取超像素的特征进行匹配,实现基于参考图像的灰度图像着色方法。然而,这些方法的灰度图像着色结果很大程度上取决于参考图像是否合适,例如参考图像与待着色的灰度图像是否是相似场景。而寻找合适的参考图像本身就是费时费力的。
最近,随着深度学习的快速发展,基于神经网络的灰度图像着色取得了出色的成果。这得益于卷积神经网络可以从大量的图像训练集中学习到灰度图像着色的知识,使灰度图像着色实现完全的自动化处理。2015年,上海交通大学的Cheng等人首次利用深度神经网络解决灰度图像着色问题,利用语义特征描述符,实现了高质量的全自动着色方法。2016年,日本早稻田大学的Iizuka等人提出了一种基于深度学习的端到端灰度图像自动着色方法,该方法在神经网络中加入融合层,将图像局部信息与全局信息融合到一起,并利用类别标签进行着色优化。同年,美国加利福尼亚大学的Zhang等人提出了一种基于卷积神经网络的灰度图像着色方法,提出了一个新的损失函数,解决了颜色多样性问题。同年,美国芝加哥大学的Larsson等人提出了表达学习的灰度图像自动着色方法,该方法利用深度网络学习图像底层特征和语义表达,可以预测像素的颜色直方图。但是这些全自动方法对于一张输入的灰度图像只能输出唯一的着色结果,这个结果是神经网络对训练数据集综合考量后得到的。例如,如果训练集中的自然场景都为夏天的绿色场景,那么对于灰度自然场景的着色结果就一定是绿色的,不可能出现秋天的金黄色场景。因此,这些基于神经网络的灰度图像着色结果无法根据不同需求对同一副灰度图像产生不同的着色结果。
由以上分析可以得出,交互式灰度图像着色方法可以根据用户要求生成着色结果,但需要大量的人工交互作为保障,智能化程度低;基于深度学习的自动化灰度图像着色方法解放了人力,但是着色结果唯一,当编辑结果有误,或用户有其他需求时,无法通过人工干预进行调整。
发明内容
为了克服上述现有技术的不足,本发明提出了一种深度特征对抗式学习的交互式灰度图像着色方法,将深度学习与人工交互相结合,将人工交互作为训练集的一部分输入神经网络进行训练,使神经网络可以处理带有交互信息的灰度图像,达到灰度图像着色自动化、智能化、个性化的统一。
为完成发明目的,本发明采用的技术方案是:
本发明一种深度特征对抗式学习的交互式灰度图像着色方法,其具体步骤如下:
步骤一:通过模拟人工笔画交互的方式生成灰度图像着色训练集。
步骤二:设计生成式对抗网络,包括生成器神经网络和判别器神经网络,并进行训练。
步骤三:网络训练结束后,输入带有人工交互的灰度图像,神经网络会输出着色后的彩色图像。
其中,在步骤一中所述的“模拟人工笔画交互”,是指将彩色图像转化到Lab颜色空间,其中L为亮度通道,即为此彩色图像对应的灰度图像。其他两个通道a、b为颜色通道,利用颜色通道的颜色值作为笔画的颜色来模拟交互。对于每一幅图像,随机采取1至32个像素点,对于每一个像素点,保证其颜色饱和度的值大于30%,否则重新选择像素点。对于每一个像素点,以此点为中心,随机取1×1、3×3、5×5的图像块,赋予中心像素点的颜色,其他所有像素颜色值均为0。
其中,在步骤二中所述的“生成器神经网络”,是一种全卷积神经网络。网络的输入为一张灰度图像以及用户的交互其中表示实数空间,H表示图像像素高度,W表示图像像素宽度。在Lab颜色空间下,灰度图像对应L亮度通道,用户交互G对应ab颜色通道。网络的输出为预测出的所有像素在ab通道的颜色值,即全卷积神经网络通过最小化如下公式得到:
其中,在步骤二中所述的“判别器神经网络”,是一种混合神经网络,输入为一张图像,输出为0或1的标量,代表输入为“真”或“假”。判别器神经网络由若干个卷积层以及一个全连接层构成。判别器网络包含4组卷积层,每组特征层的空间分辨率依次减半,特征维度依次加倍。最后为全连接层,输入维度为最后特征层的特征个数,输出维度为一,即判断结果为真或假。
步骤(2)中,所述生成器神经网络为一种全卷积神经网络,其具体结构为:由9组卷积网络层构成,第1组网络将输入信息映射为初始化的特征层,特征层分辨率与图像相同。第2-5组网络特征层的空间分辨率依次减半,特征维度则加倍;第6-9组网络特征层的空间分辨率依次加倍,直到恢复到原图大小,而特征维度则减半;每组网络由1至2个卷积层构成,且每个卷积层之后都有批量归一化层以及激活函数;在神经网络前后对称、空间分辨率相同的每对卷积层之间,通过快捷通道进行连接,直接利用卷积层进行下采样,即设卷积核大小为4、步长为2时,特征层空间分辨率将会减半;在神经网络后半段,采用反卷积实现空间分辨率尺度的加倍;在9组卷积层的最后,再加入最后的一个颜色卷积层,将特征层映射为ab双通道的颜色特征层,得到最终的着色结果。
本发明与现有的技术相比的优点在于:本发明通过构建带有笔画交互的灰度图像着色训练集,利用此训练集进行神经网络的对抗式学习,训练出的神经网络模型可以对带有笔画交互的灰度图像进行上色。当着色结果有误或用户需求发生改变时,可以对着色结果进行人工调整。在高效自动化处理的同时,也支持用户的个性化上色需求,实现艺术化的创作。
附图说明
图1是本发明所述方法流程图;
图2是本发明的对抗式生成网络结构图;
图3是本发明的生成器神经网络结构图;
图中符号说明如下:
X:灰度图像;
G:用户交互;
Y:彩色图像。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明的方法作详细解释说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
本发明提出一个新的灰度图像着色方法,该方法将深度学习与人工交互相结合,将人工交互作为训练集的一部分输入神经网络进行训练,使神经网络可以处理带有交互信息的灰度图像,达到灰度图像着色自动化、智能化、个性化的统一
本发明提出一种深度特征对抗式学习的交互式灰度图像着色方法,流程如图1所示,具体实施方式如下:
步骤一:通过模拟人工笔画交互的方式生成灰度图像着色训练集。
首先对数据库中的彩色图像进行筛选,在HSV颜色空间计算每个图像所有像素的平均饱和度,去除平均颜色饱和度小于20%的图像。然后将彩色图像转化到Lab颜色空间,其中L为亮度通道,即为此彩色图像对应的灰度图像。其他两个通道a、b为颜色通道,利用颜色通道的颜色值作为笔画的颜色来模拟交互。对于每一幅图像,随机采取1至32个像素点,对于每一个像素点,保证其颜色饱和度的值大于30%,否则重新选择像素点。对于每一个像素点,以此点为中心,随机取1×1、3×3、5×5的图像块,赋予中心像素点的颜色,其他所有像素颜色值均为0。为了使训练的网络也可以处理没有交互的灰度图像,在训练集中也会随机加入没有交互的纯灰度图像作为输入。这样训练出的神经网络可以对没有交互的灰度图像和加了用户笔画交互的灰度图像都可以进行着色。
然而,这种随机进行选点的交互生成方式仍然有其局限性。对于神经网络来说,测试集需要和训练集的输入形式保持一致,才能得到想要的结果。所以在进行灰度图像着色测试时,用户的交互输入必须和训练集一致,即必须用点的方式进行笔画交互。但是人们习惯的笔画交互方式是画线,如果用画线的交互方式进行测试,神经网络的着色结果会变差。
因此,为了不改变用户的交互方式,并能使测试图像的笔画交互与训练集一致,本发明将用户的笔画交互自动采样转化为点的笔画交互形式,不仅能最大满足用户的便利性,也最大限度地生成更好的着色结果。对于每一次用户交互i,设此次交互的笔画颜色为Ci,此次交互笔画所覆盖的像素集为Pi。初始化像素点集D={p0},其中p0为用户交互笔画的第一个像素点。然后从点集Pi中选取下一个像素点p*为到D中所有点的距离大于m且最近的点,即然后将p*加入点集D。其中pj为点集D中任意一点。以此迭代,直到点集Pi中所有像素点都在D中某点的距离m范围内。则点集D为最终的采样点,即转化后的笔画交互点集。以此点集的像素点颜色保留,Pi中其他像素的颜色舍去,作为测试图像进行测试得到着色结果。
步骤二:设计生成式对抗网络,包括生成器神经网络和判别器神经网络,并进行训练。
生成式对抗网络主要由生成器与辨别器两个网络组成,如图2所示。生成器输入为灰度图像以及用户交互,输出着色后的结果。辨别器输入为彩色图像,然后辨别此彩色图像为“真”或“假”。当输入为生成器网络生成的彩色图像时,辨别器判别其为“假”彩色图像;输入为训练集中的彩色图像时,判别器判别其为“真”彩色图像。这样,生成器为了迷惑判别器,会尽可能地将图像生成为和训练集相似的“真”彩色图像;而判别器为了判别的更准确,会尽可能地将生成器的“假”彩色图像分辨出来。因此,生成器和判别器之间会产生“对抗”,使得两个网络趋于最佳。而生成器网络则是最终的灰度图像着色神经网络模型。
生成器神经网络是一种全卷积神经网络。网络的输入为一张灰度图像以及用户的交互其中表示实数空间,H表示图像像素高度,W表示图像像素宽度。在CIE Lab颜色空间下,灰度图像对应L亮度通道,用户交互G对应ab颜色通道。网络的输出为预测出的所有像素在ab通道的颜色值,即全卷积神经网络通过最小化如下公式得到:
通过最小化损失函数来求解网络模型参数θ,以此进行训练。通过实验发现,从硬盘读取灰度图像和将彩色图像转化为灰度图像所用的时间相差无几,因此训练数据库只包含彩色图像,灰度图像的生成以及用户交互的随机模拟生成都是在训练过程中实时进行的。
损失函数构造如下:
构成生成器的全卷积神经网络结构见图3。神经网络的输入为单通道灰度图像以及双通道的用户交互两项合并后为输出为ab双通道的颜色图神经网络的主要部分由U-Net网络构成。U-net网络已经被成功应用于很多图像处理应用上。本发明神经网络由9组卷积网络层构成,第1组网络将输入信息映射为初始化的特征层,特征层分辨率与图像相同。第2-5组网络特征层的空间分辨率依次减半,特征维度则加倍。第6-9组网络特征层的空间分辨率依次加倍,直到恢复到原图大小,而特征维度则减半。每组网络由1至2个卷积层(Convolution)构成,且每个卷积层与批量归一化层(Batch Normalization)以及激活函数(Rectified Linear Unit,ReLU)构成Conv-Batchnorm-ReLU组合,加速训练及收敛。在神经网络前后对称、空间分辨率相同的每对卷积层之间,通过快捷通道(Shortcut)进行连接,用以帮助图像恢复空间信息,并且可以用浅层的低维信息对深层的预测进行更加直接的引导,有助于网络的训练。例如,第2组卷积层和第8组卷积层之间,以及第3组卷积层和第7组卷积层之间都有快捷通道进行连接。本网络是全卷积神经网络,没有使用池化层(Pooling)进行特征采样,而是直接利用卷积层进行采样,即设卷积核大小为4、步长为2时,特征层空间分辨率将会减半。而在神经网络后半段,采用反卷积(Transposed Convolution)实现空间分辨率尺度的加倍。在这9组卷积层的最后,再加入最后的一个颜色卷积层,将特征层映射为ab双通道的颜色特征层,得到最终的着色结果。
表1生成器神经网络结构及参数设置
Layer | Resolution | Channel | Kernel | Stride | Padding | Transposed | Shortcut |
data | 1 | 3 | - | - | - | - | - |
conv1_1 | 1 | 32 | 3 | 1 | 1 | - | - |
conv2_1 | 1/2 | 64 | 4 | 2 | 1 | - | - |
conv2_2 | 1/2 | 64 | 3 | 1 | 1 | - | - |
conv3_1 | 1/4 | 128 | 4 | 2 | 1 | - | - |
conv3_2 | 1/4 | 128 | 3 | 1 | 1 | - | - |
conv4_1 | 1/8 | 256 | 4 | 2 | 1 | - | - |
conv4_2 | 1/8 | 256 | 3 | 1 | 1 | - | - |
conv5_1 | 1/16 | 512 | 4 | 2 | 1 | - | - |
conv5_2 | 1/16 | 512 | 3 | 1 | 1 | - | conv5_1 |
conv6_1 | 1/8 | 512 | 4 | 2 | 1 | √ | - |
conv6_2 | 1/8 | 256 | 3 | 1 | 1 | - | conv4_2 |
conv7_1 | 1/4 | 256 | 4 | 2 | 1 | √ | - |
conv7_2 | 1/4 | 128 | 3 | 1 | 1 | - | conv3_2 |
conv8_1 | 1/2 | 128 | 4 | 2 | 1 | √ | - |
conv8_2 | 1/2 | 64 | 3 | 1 | 1 | - | conv2_2 |
conv9_1 | 1 | 64 | 4 | 2 | 1 | √ | - |
conv9_2 | 1 | 32 | 3 | 1 | 1 | - | - |
conv_ab | 1 | 2 | 3 | 1 | 1 | - | - |
生成器神经网络每一层的具体参数设置见表1。表中Resolution表示通过卷积层输出的特征层的分辨率相对于输入图像的缩放比例。Channel指输出特征层的通道层数。Kernel、Stride、Padding分别表示卷积层的卷积核大小、步长、边缘填充大小,通过这几个参数来控制像素的采样及分辨率缩放。Transposed一列中打对勾的表示这一卷积层为反卷积。Shortcut表示快捷通道,指此层的结果与哪一层结果进行了并联。例如,conv5_2层中,此层的输出特征层和conv5_1的输出特征层进行了并联,并作为下一层conv6_1层的输入;conv6_2层中,此层的输出特征层和conv4_2的输出特征层进行了并联,并作为下一层conv7_1层的输入;以此类推。另外,每个卷积层的输出都要经过Batchnorm归一化层和ReLU激活函数处理,未在表中列出。
构成判别器的神经网络输入为一张图像,输出为0或1的标量,代表输入为“真”或“假”。一般来说,判别器网络由若干个卷积层(类似于生成器的前半部分)以及一个全连接层构成。本发明的判别器网络包含4组卷积层,每组特征层的空间分辨率依次减半,特征维度依次加倍。和生成器网络类似,每个卷积层都与批量归一化层以及激活函数构成Conv-Batchnorm-ReLU组合同时出现。最后为全连接层,输入维度为最后特征层的特征个数,输出维度为一,即判断结果为真或假。
步骤三:网络训练结束后,输入带有人工交互的灰度图像,神经网络会输出着色后的彩色图像。
本发明训练的对抗神经网络既可以直接对灰度图像进行着色,也可以处理带有交互的灰度图像,根据用户交互内容进行有目的的着色。当用户对于着色结果不满意时,可以随时通过交互进行修改。另外,本方法对于用户交互量要求较低,用户只需要极少的交互既可以实现对着色结果的控制。
以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。
Claims (1)
1.一种深度特征对抗式学习的交互式灰度图像着色方法,其特征在于,包含以下步骤:
步骤一:通过模拟人工笔画交互的方式生成灰度图像着色训练集
首先对数据库中的彩色图像进行筛选,在HSV颜色空间计算每个图像所有像素的平均饱和度,去除平均颜色饱和度小于20%的图像,然后将彩色图像转化到Lab颜色空间,其中L为亮度通道,即为此彩色图像对应的灰度图像,其他两个通道a、b为颜色通道,利用颜色通道的颜色值作为笔画的颜色来模拟交互;对于每一幅图像,随机采取1至32个像素点,对于每一个像素点,保证其颜色饱和度的值大于30%,否则重新选择像素点;对于每一个像素点,以此点为中心,随机取1×1、3×3、5×5的图像块,赋予中心像素点的颜色,其他所有像素颜色值均为0;为了使训练的网络也能处理没有交互的灰度图像,在训练集中也会随机加入没有交互的纯灰度图像作为输入,这样训练出的神经网络对没有交互的灰度图像和加了用户笔画交互的灰度图像都进行着色;
为了不改变用户的交互方式,并能使测试图像的笔画交互与训练集一致,将用户的笔画交互自动采样转化为点的笔画交互形式,不仅能最大满足用户的便利性,也最大限度地生成更好的着色结果;对于每一次用户交互i,设此次交互的笔画颜色为Ci,此次交互笔画所覆盖的像素集为Pi,初始化像素点集D={p0},其中p0为用户交互笔画的第一个像素点;然后从点集Pi中选取下一个像素点p*为到D中所有点的距离大于m且最近的点,即s.t.pj∈D,p*∈Pi,||p*-pj||≥m,然后将p*加入点集D,其中pj为点集D中任意一点,以此迭代,直到点集Pi中所有像素点都在D中某点的距离m范围内,则点集D为最终的采样点,即转化后的笔画交互点集,以此点集的像素点颜色保留,Pi中其他像素的颜色舍去,作为测试图像进行测试得到着色结果;
步骤二:设计生成式对抗网络,包括生成器神经网络和判别器神经网络,并进行训练;
生成式对抗网络由生成器与辨别器两个网络组成,生成器输入为灰度图像以及用户交互,输出着色后的结果,辨别器输入为彩色图像,然后辨别此彩色图像为“真”或“假”;当输入为生成器网络生成的彩色图像时,辨别器判别其为“假”彩色图像;输入为训练集中的彩色图像时,判别器判别其为“真”彩色图像;这样生成器为了迷惑判别器,会尽可能地将图像生成为和训练集相似的“真”彩色图像;而判别器为了判别的更准确,会尽可能地将生成器的“假”彩色图像分辨出来;因此,生成器和判别器之间会产生“对抗”,使得两个网络趋于最佳,而生成器网络则是最终的灰度图像着色神经网络模型;
所述生成器神经网络是一种全卷积神经网络,网络的输入为一张灰度图像以及用户的交互其中表示实数空间,H表示图像像素高度,W表示图像像素宽度,在CIE Lab颜色空间下,灰度图像对应L亮度通道,用户交互G对应ab颜色通道,网络的输出为预测出的所有像素在ab通道的颜色值,即全卷积神经网络通过最小化如下公式得到:
损失函数构造如下:
构成生成器的全卷积神经网络结构的输入为单通道灰度图像以及双通道的用户交互两项合并后为输出为ab双通道的颜色图神经网络的主要部分由U-Net网络构成,由9组卷积网络层构成,第1组网络将输入信息映射为初始化的特征层,特征层分辨率与图像相同,第2-5组网络特征层的空间分辨率依次减半,特征维度则加倍,第6-9组网络特征层的空间分辨率依次加倍,直到恢复到原图大小,而特征维度则减半;每组网络由1至2个卷积层构成,且每个卷积层与批量归一化层以及激活函数构成Conv-Batchnorm-ReLU组合,加速训练及收敛;在神经网络前后对称、空间分辨率相同的每对卷积层之间,通过快捷通道进行连接,用以帮助图像恢复空间信息,并且用浅层的低维信息对深层的预测进行更加直接的引导,有助于网络的训练,本网络是全卷积神经网络,没有使用池化层进行特征采样,而是直接利用卷积层进行采样,即设卷积核大小为4、步长为2时,特征层空间分辨率将会减半;在神经网络后半段,采用反卷积实现空间分辨率尺度的加倍;在这9组卷积层的最后,再加入最后的一个颜色卷积层,将特征层映射为ab双通道的颜色特征层,得到最终的着色结果;
步骤三:网络训练结束后,输入带有人工交互的灰度图像,神经网络会输出着色后的彩色图像;
训练的对抗神经网络能直接对灰度图像进行着色和带有交互的灰度图像,根据用户交互内容进行有目的的着色,当用户对于着色结果不满意时,随时通过交互进行修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810417101.7A CN108830912B (zh) | 2018-05-04 | 2018-05-04 | 一种深度特征对抗式学习的交互式灰度图像着色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810417101.7A CN108830912B (zh) | 2018-05-04 | 2018-05-04 | 一种深度特征对抗式学习的交互式灰度图像着色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108830912A CN108830912A (zh) | 2018-11-16 |
CN108830912B true CN108830912B (zh) | 2021-04-16 |
Family
ID=64148147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810417101.7A Active CN108830912B (zh) | 2018-05-04 | 2018-05-04 | 一种深度特征对抗式学习的交互式灰度图像着色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830912B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598771B (zh) * | 2018-11-28 | 2023-04-25 | 华东师范大学 | 一种多地貌特征约束的地形合成方法 |
CN109754403A (zh) * | 2018-11-29 | 2019-05-14 | 中国科学院深圳先进技术研究院 | 一种ct图像内的肿瘤自动分割方法及系统 |
CN109544662B (zh) * | 2018-11-29 | 2023-04-07 | 文创智慧科技(武汉)有限公司 | 一种基于SRUnet的动漫风格线稿上色方法及系统 |
CN109801346B (zh) * | 2018-12-20 | 2023-06-30 | 武汉西山艺创文化有限公司 | 一种基于神经网络的原画辅助上色方法和装置 |
CN109901835B (zh) * | 2019-01-25 | 2020-09-04 | 北京三快在线科技有限公司 | 布局元素的方法、装置、设备及存储介质 |
CN109886325B (zh) * | 2019-02-01 | 2022-11-29 | 辽宁工程技术大学 | 一种非线性颜色空间分类的模板选择与加速匹配方法 |
CN111179361B (zh) * | 2019-03-26 | 2023-05-12 | 西安电子科技大学 | 一种基于深度学习的黑白影像自动着色方法 |
CN110163801B (zh) * | 2019-05-17 | 2021-07-20 | 深圳先进技术研究院 | 一种图像超分辨和着色方法、系统及电子设备 |
CN110335324A (zh) * | 2019-05-22 | 2019-10-15 | 湖南大学 | 一种基于rgb三通道多路合成的灰度图像着色方法及系统 |
CN110288515A (zh) * | 2019-05-27 | 2019-09-27 | 宁波大学 | 对电子显微镜拍摄的微观结构照片进行智能着色的方法及cnn着色学习器 |
CN110517332B (zh) * | 2019-07-09 | 2023-10-03 | 广东工业大学 | 一种基于深度学习的漫画手绘图交互式着色方法 |
CN110378985B (zh) * | 2019-07-19 | 2023-04-28 | 中国传媒大学 | 一种基于gan的动漫绘画辅助创作方法 |
CN110533740A (zh) * | 2019-07-31 | 2019-12-03 | 成都旷视金智科技有限公司 | 一种图像着色方法、装置、系统及存储介质 |
CN110503701B (zh) * | 2019-08-29 | 2023-07-25 | 广东工业大学 | 一种漫画手绘图的上色方法及装置 |
CN113994384A (zh) * | 2019-09-11 | 2022-01-28 | 谷歌有限责任公司 | 使用机器学习的图像着色 |
CN110675462B (zh) * | 2019-09-17 | 2023-06-16 | 天津大学 | 一种基于卷积神经网络的灰度图像彩色化方法 |
CN110852980A (zh) * | 2019-11-13 | 2020-02-28 | 北京京东方专用显示科技有限公司 | 交互式图像填充方法及系统、服务器、设备及介质 |
CN111476863B (zh) * | 2020-04-02 | 2024-03-12 | 北京奇艺世纪科技有限公司 | 一种黑白漫画上色的方法、装置、电子设备及存储介质 |
CN111476857B (zh) * | 2020-04-10 | 2021-07-09 | 广东省人民医院(广东省医学科学院) | 基于深度学习的结构不变的病理图像颜色标准化方法 |
CN111524205A (zh) * | 2020-04-23 | 2020-08-11 | 北京信息科技大学 | 基于循环生成对抗网络的图像着色处理方法及装置 |
CN111738186B (zh) * | 2020-06-28 | 2024-02-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN112330790B (zh) * | 2020-11-20 | 2024-02-02 | 东北大学 | 基于对抗学习与自适应色度修正的ct图像自动着色方法 |
CN112991493B (zh) * | 2021-04-09 | 2023-07-18 | 华南理工大学 | 基于vae-gan和混合密度网络的灰度图像着色方法 |
CN113436094B (zh) * | 2021-06-24 | 2022-05-31 | 湖南大学 | 一种基于多视角注意力机制的灰度图像自动上色方法 |
CN113870371B (zh) * | 2021-12-03 | 2022-02-15 | 浙江霖研精密科技有限公司 | 基于生成对抗网络的图片颜色变换装置、方法和存储介质 |
CN114913272B (zh) * | 2022-05-19 | 2024-07-02 | 北京航空航天大学 | 一种基于参考图像和用户导引的灰度图像精准上色方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477695A (zh) * | 2009-01-05 | 2009-07-08 | 东南大学 | 一种图像和视频快速着色的方法 |
CN107784654B (zh) * | 2016-08-26 | 2020-09-25 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN106855996B (zh) * | 2016-12-13 | 2020-01-03 | 中山大学 | 一种基于卷积神经网络的灰阶图像着色方法及其装置 |
CN107330956B (zh) * | 2017-07-03 | 2020-08-07 | 广东工业大学 | 一种漫画手绘图无监督上色方法及装置 |
CN107833183B (zh) * | 2017-11-29 | 2021-05-25 | 安徽工业大学 | 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法 |
AU2018100325A4 (en) * | 2018-03-15 | 2018-04-26 | Nian, Xilai MR | A New Method For Fast Images And Videos Coloring By Using Conditional Generative Adversarial Networks |
-
2018
- 2018-05-04 CN CN201810417101.7A patent/CN108830912B/zh active Active
Non-Patent Citations (1)
Title |
---|
基于生成对抗网络的人脸灰度图上色;李炬;《电脑知识与技术》;20180430;第14卷(第11期);第179-181页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108830912A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830912B (zh) | 一种深度特征对抗式学习的交互式灰度图像着色方法 | |
US8508546B2 (en) | Image mask generation | |
Zhang et al. | Style transfer via image component analysis | |
Li et al. | Globally and locally semantic colorization via exemplar-based broad-GAN | |
CN110263813A (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN113255813A (zh) | 一种基于特征融合的多风格图像生成方法 | |
CN112991371B (zh) | 一种基于着色溢出约束的图像自动着色方法及系统 | |
CN111062432B (zh) | 一种语义上多模态图像生成的方法 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN109636764A (zh) | 一种基于深度学习与显著性检测的图像风格转移方法 | |
JP7463186B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115512036A (zh) | 一种基于本征神经辐射场的可编辑新颖视图合成方法 | |
Li et al. | Instant edit propagation on images based on bilateral grid | |
KR20230073751A (ko) | 레이아웃 기반의 동일 화풍 영상 생성 시스템 및 방법 | |
CN110163855B (zh) | 一种基于多路深度卷积神经网络的彩色图像质量评价方法 | |
CN116543227A (zh) | 基于图卷积网络的遥感图像场景分类方法 | |
CN109102457B (zh) | 一种基于卷积神经网络的智能化变色系统及方法 | |
CN112561782B (zh) | 一种提高海上场景仿真图片真实度的方法 | |
Zhu et al. | Sand painting conversion based on detail preservation | |
Liu et al. | Palette-based recoloring of natural images under different illumination | |
CN113436094B (zh) | 一种基于多视角注意力机制的灰度图像自动上色方法 | |
CN114187380B (zh) | 基于视觉显著性和通道注意力机制的色彩传递方法 | |
Pahal et al. | Image colorization with deep convolutional neural networks | |
Li et al. | Neural image recolorization for creative domains | |
KR0151918B1 (ko) | 화상 처리를 이용한 화상 생성 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |