CN111524205A

CN111524205A - 基于循环生成对抗网络的图像着色处理方法及装置

Info

Publication number: CN111524205A
Application number: CN202010325399.6A
Authority: CN
Inventors: 杜康宁; 曹林; 刘昌通
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-11

Abstract

本发明公开了一种基于循环生成对抗网络的图像着色处理方法及装置，该方法包括：根据预先获取的图像训练样本，通过机器学习训练一个双层循环生成对抗网络模型，使得模型的生成对抗损失和一致性损失满足预设收敛条件，该模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；在模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用第一生成器对待着色的灰度图像进行着色处理。本发明能够避免复杂背景下图像的误着色，提高图像着色处理的准确性。

Description

基于循环生成对抗网络的图像着色处理方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种基于循环生成对抗网络的图像着色处理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

众所周知，对于灰度图像，人眼只能识别出十几种灰度等级，但是对于彩色图像，人眼却可以分辨出成百上千种的色彩，可见，彩色图像能够更好表达图像的意义，增强图像的特征，提高人眼的认知，传递视觉的享受，使人眼能更快、更好地捕捉到图像的意义和信息，进而充分发挥好图像的价值。图像着色技术是对灰度图像(包括黑白图像)进行伪彩色化处理的一种技术手段，其作为现代计算机的一种辅助技术，在影像处理、老照片修复等领域具有重要的研究意义和应用价值。

传统的图像着色技术主要有如下两种：第一种，基于局部颜色扩展的着色技术，需要用户手动在目标图像上对局部区域的颜色进行标注，并将此颜色作为着色的依据，然后再进一步对整幅图像进行扩张上色。第二种，基于颜色传递的着色技术，需要一张或者多张与待着色图像相似的彩色样本图像，并以此为基准，对待着色图像进行颜色的传递，使得待着色图像与彩色样本图像具有相似的颜色。

对于第一种基于局部颜色扩展的着色技术，由于需要用户的人为干预(例如，在目标图像上进行区域颜色标注，或者将图像分割成小块单元图像)，其着色结果能够符合预期，更接近真实彩色图像的水准，且着色结果是以用户标注的颜色为导向的，更容易被用户接受。但由于每个用户对于图像的理解不同，对图像的审美观也不同，因此在局部区域标注的颜色也会不同，最后导致不同的着色结果。换言之，如果人工标注的颜色不准确，那么着色结果将与预期的效果相悖，甚至出现颜色错误、混乱的结果，尤其是在亮度变化较明显的区域，如果错误将颜色标注在了边缘区域，则扩散的结果将会变得很不理想。

对于第二种基于颜色传递的着色技术，由于需要彩色的参考图像，将参考图像中的颜色信息传递到待着色图像上，这便需要在彩色参考图像和待着色图像中去寻找相似的部分，以传递颜色。

相对于第一种基于局部颜色扩展的着色技术，第二种基于颜色传递的着色技术，在一定程度上能够减少人为干预的操作，但仍需要手动设置参考图像。

随着计算机性能的不断提高，使得GPU计算能力也相应提升，对深度神经网络和数字图像的处理能力也越来越强。同时，图像处理领域的相关算法技术和处理手段也变得越来越繁琐，而深度学习技术因适合进行大量数据计算的特性，使其在图像处理领域起到了极大的作用。因此近几年来，深度学习与数字图像处理技术之间的联系日益紧密，深度学习不断推动着图像领域向前发展，深度学习的方法逐渐引入到图像着色的研究中。

目前，基于深度学习的图像着色技术主要采用深度卷积神经网络，图像先是经过网络的下采样层，提取图像结构中的色彩信息，然后再经过上采样层，生成并还原图像的真实的大小。这类采用深度卷积神经网络的图像着色方法，网络在提取图像特征和生成图像的过程中，容易丢失图像的关键信息，出现误着色的问题。

例如，基于残差神经网络的图像着色技术，利用全局特征网络对图像提取全局特征，并用残差神经网络对图像提取局部特征，然后融合全局特征与局部特征，再经过残差神经网络进一步提取融合后的特征，从而使整个网络模型完成了从灰度图像到彩色图像的非线性映射。图1为现有技术中提供的一种基于残差神经网络的图像着色模型示意图，如图1所示，基于残差神经网络的着色技术模型主要包括三个部分：两个残差子网络和一个全局特征子网络。其中，两个残差子网络分别由融合层前残差子网络和融合层后残差子网络两部分构成。每个残差子网络包含5个残差单元，每个残差单元又包含3层卷积层，对应着3次卷积运算。残差单元由卷积核大小分别是1×1、3×3、1×1，步长为1，通道数分别为64、128、64的3层卷积操作构成。灰度图像进入融合层前残差子网络后，会经过三次卷积操作，输出通道数为64的特征图，再经过多个残差单元网络得到通道数为256的特征图。

由于灰度图像会进入全局特征网络中，在进入全局特征网络之前，图像会被缩放到224×224大小，而全局特征子网络由卷积神经网络和全连接层构成。在进入全局特征网络时，首先经过尺寸3×3、步长为2的卷积核，得到通道数为64的特征图。下一层采用尺寸大小相同、步长为1的卷积核，得到通道数为256的特征图。以此类推，经过多次卷积核的尺寸大小为3×3，步长交替为1和2的卷积计算。图像完成所有卷积层的操作后，再通过3个全连接层，最后输出大小为1×205的特征向量。之后，网络将全局特征网络输出的特征向量与融合层前残差子网络输出的特征融合，将其共同输入至融合层后残差子网络，经过多个残差单元模块后得到预测的彩色图像。

经分析，基于残差神经网络的图像着色技术，利用图像的全局特征和局部特征完成对图像语义的描述，两个网络同时对灰度图像进行特征提取，互不干扰，只是在反向传播的过程中同时更新全局特征网络和局部特征网络(残差网络)两个网络的参数。该项技术通过组合全局特征和局部特征的方式，使融合后的特征更多包含图像的信息。全局特征用来指导局部特征，而局部特征更多表示图像中的细节信息，如局部的纹理轮廓信息等。但这种基于残差神经网络的图像着色技术仍然存在着很大的缺陷，由于全局特征网络和局部特征网络都采用了数量较多，尺寸不同的滤波器。在卷积过程中，原始图像的信息被压缩为尺寸、通道数不相同的特征图，而过多的卷积操作，反而会影响网络提取的图像特征的效果，使图像特征的表达能力变差，无法保留图像中关键的细节信息。因此，基于残差神经网络着色技术在图像的着色过程中，由于特征无法完全保留住图像的关键信息，上色时容易出现无法对物体正确着色或颜色饱和度低、效果差等问题。另外，由于残差神经网络中的残差单元实现了局部输入和输出的恒等映射关系，网络训练中比拟合隐藏的非线性映射关系更容易，因此网络的层数也就更深。换而言之，网络的层数越深，网络中的参数也就越多，计算的复杂度也就越高。在灰度图像的着色过程中，基于残差神经网络的着色技术因其计算的复杂程度，同时存在着耗时较长的问题。

随着生成对抗网络技术在图像生成领域取得了巨大的成功，使得该项技术也被引用到了图像着色领域中。图2为现有技术中提供的一种基于生成对抗网络的图像着色模型示意图，如图2所示，基于生成对抗网络的图像着色技术，只是简单地由生成器和判别器两部分构成，对于生成器而言，灰度图像作为网络的输入，在经过生成器后，期望得到的输出是灰度图像对应的彩色图像。对于判别器，则需要将生成器的输出作为判别器的输入，而输出则是判别器对图像真假的判断。在生成对抗网络的训练过程中，首先需要一个性能良好的判别网络，因为判别网络在有效地区分出真实的彩色图像和生成的彩色图像之后，才可以为生成器的更新提供一个正确的方向，因此在生成对抗网络的训练中，应该先多次训练判别网络，然后再继续训练生成网络。经过多轮的训练后，直到判别器无法分辨出真实的彩色图像和生成的彩色图像，使生成的彩色图像分布不断接近真实的彩色图像分布。

图3为现有技术中提供的一种基于生成对抗网络的图像着色模型中生成器的网络模型示意图，如图3所示，生成器由特征提取层和上采样层两部分组成，特征提取层由多个卷积层组成。灰度图像输入到生成网络中，首先经过4次带有步伐的卷积操作，输出256个2×2大小的特征图。特征提取的卷积核尺寸大小为3×3，卷积核的步长为2，每一个卷积层的特征图个数分别为16、64、128、256。上采样层的输入是特征提取层的输出，又经过多次反卷积的操作，使提取的特征恢复至和原图像同样的大小。而判别器的前半部分采用和特征提取层相同的网络结构，将输出的特征图输入至全连接网络，最后经过Sigmoid激活函数，判别网络的输出作为判别生成图像真伪的标签值。

经分析，基于生成对抗网络的图像着色技术，采用了最原始的生成对抗网络结构，仅由一个生成器和一个判别器两个部分组成，生成器和判别器在训练过程中，通过不断地博弈学习，共同提高网络的能力。但基于生成对抗网络的图像着色技术仍然存在着较大的缺陷，由于其网络的映射关系复杂多样且存在很大的不确定性，容易出现着色模型的坍塌等问题，影响灰度图像的着色结果。在基于生成对抗网络的图像着色模型中，生成器所学习的映射关系是一种多对多的关系，然而判别器只能分辨出生成图像和目标图像是否在同一个域中，而无法分辨出生成的图像是否在目标域中与原始的图像相对应。因而，可能出现多对一的映射关系，当生成网络只学习了一种映射关系，即所有的原始灰度图像经过生成网络后，被映射至同一张生成图像。生成网络无法继续学习灰度图像与彩色图像之间更多的映射关系，因为生成图像被正确映射至目标域中，判别网络已经无法进一步区分生成图像的真假。基于生成对抗网络的着色技术，由于其存在着模型坍塌的问题，因而在图像着色处理时存在或多或少误着色的问题。

由上分析可知，传统的图像着色方法存在颜色失真、效果不佳等问题，而目前基于深度学习的图像着色方法存在复杂背景下误着色的问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种基于循环生成对抗网络的图像着色处理方法，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该方法包括：获取第一训练图像样本和第二训练图像样本，其中，第一训练图像样本中包含：多个真实的灰度图像，第二训练图像样本中包含：多个真实的彩色图像；根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；在双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

本发明实施例还提供一种基于循环生成对抗网络的图像着色处理装置，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该装置包括：训练样本获取模块，用于获取第一训练图像样本和第二训练图像样本，其中，第一训练图像样本中包含：多个真实的灰度图像，第二训练图像样本中包含：多个真实的彩色图像；模型训练模块，用于根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；图像着色模块，用于在双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

本发明实施例还提供一种计算机设备，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于循环生成对抗网络的图像着色处理方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该计算机可读存储介质存储有执行上述基于循环生成对抗网络的图像着色处理方法的计算机程序。

本发明实施例中，根据预先获取的图像训练样本，通过机器学习训练一个生成对抗损失和一致性损失满足预设收敛条件的双层循环生成对抗网络模型，并采用使得模型的，双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的生成器，对待着色的灰度图像进行着色处理。

通过本发明实施例，能够避免复杂背景下图像的误着色，更准确地将灰度图像转换为对应的彩色图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为现有技术中提供的一种基于残差神经网络的图像着色模型示意图；

图2为现有技术中提供的一种基于生成对抗网络的图像着色模型示意图；

图3为现有技术中提供的一种基于生成对抗网络的图像着色模型中生成器的网络模型示意图；

图4为本发明实施例中提供的一种基于循环生成对抗网络的图像着色模型示意图；

图5为本发明实施例中提供的一种基于循环生成对抗网络的图像着色处理方法流程图；

图6为本发明实施例中提供的一种基于UNet网络模型的生成器示意图；

图7为本发明实施例中提供的一种基于FCN网络模型的生成器示意图；

图8为本发明实施例中提供的一种基于多层卷积神经网络模型的判别器示意图；

图9为本发明实施例中提供的一种模型训练过程示意图；

图10为本发明实施例中提供的一种图像样本筛选示意图；

图11为本发明实施例中提供的一种图像着色结果示意图；

图12为本发明实施例中提供的一种基于循环生成对抗网络的图像着色处理装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

①深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。其最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

②神经网络：是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

③灰度图像：是每个像素只有一个采样颜色的图像。这类图像显示为从最暗的黑色到最亮的白色的灰度。灰度图像与黑白图像不同，在计算机图像领域中黑白图像只有黑白两种颜色，灰度图像在黑色与白色之间还有许多级的颜色深度。但黑白图像也常被视为是灰度图像的一种类型。

④卷积核：是图像处理时，给定输入图像，输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素，其中权值由一个函数定义，这个函数称为卷积核。

⑤激活函数：是在人工神经网络的神经元上运行的函数，负责将神经元的输入进行非线性变换，提高网络的表达能力。

发明人经研究发现，图2所示的生成对抗网络出现模型坍塌的根本原因是其只采用了生成对抗损失监督生成网络的训练过程。在生成对抗损失监督下的生成网络，只能学习到从源域的数据分布到目标域的数据分布之间的映射关系，而无法学习到每张灰度图像到对应的彩色图像之间的映射关系。所以，一张待着色的灰度图像输入网络后，可能被赋予其它物体的颜色，虽然人通过感官很容易分辨出这张图片是错误的，但判别网络会认为它是一张正确的彩色图像。总而言之，基于生成对抗网络的着色技术，虽然可以通过生成器和判别器之间的博弈学习，不断提高生成网络的着色能力，但由于判别器无法准确分辨出生成的彩色图像是否与网络输入的灰度图像一致，在训练过程中无法避免地会出现不同程度的模型坍塌的问题。

针对上述问题，本文提出了基于循环生成对抗网络的图像着色处理模型。该模型建立在循环生成对抗网络的基础上，采用生成对抗损失和一致性损失共同监督训练双层循环生成对抗网络模型，由于一致性损失可以约束原始的图像与生成重建图像之间的距离，以减少生成网络中多余的映射关系，使得灰度图像较为准确地转换为相对应的彩色图像，从而减少图像的误着色。

图4为本发明实施例中提供的一种基于循环生成对抗网络的图像着色模型示意图，如图4所示，模型包含四个子网络，分别是生成网络G：负责将真实的灰度图像映射至对应的彩色图像

生成网络F:负责将真实的彩色图像映射至对应的灰度图像

判别网络D_X:用于判别区分真实的灰度图像X_G和生成网络F生成的灰度图像

判别网络D_Y:用于区分真实的彩色图像X_C和生成的彩色图像

该模型的训练目标是通过学习灰度图像{X_G}_i＝1∈X_G和彩色图像{X_C}_i＝1∈X_C之间的对应关系，获得最优的映射关系

即将原始的灰度图像映射至对应的彩色图像间的最优关系。

图4所示的四个子网络构成了一对循环生成网络，其分别将输入的样本映射到中间域，然后将中间域的数据重构回原有的域中。例如，输入灰度图像样本X_G，最终会被映射回到灰度图像F[G(x_G)]，中间域的数据是生成的彩色图像

同样，输入为原始的彩色图像X_C时，最终也会被重构回原有的域中G(F(X_C))，其中间域是F网络生成的灰度图像

需要注意的是，本发明实施例提供的基于循环生成对抗网络的图像着色模型中，两个循环生成网络的过程是相互独立的，反向传递优化网络时，循环生成网络的一致性损失是分开计算的。如图4所示，着色模型分别获取两个循环生成网络重构的数据，即得到重构的彩色图像G[(F(X_C)]和重构的灰度图像F[G(x_G)]。然后通过距离度量，再分别计算其重建的图像与网络输入的源目标域图像之间的距离作为一致性损失，与生成对抗损失一同完成对网络的监督训练。通过一致性损失，可以达到减少生成网络中多余映射关系的目的，使网络输入的灰度图像更好地生成对应的彩色图像。

在上述发明构思下，本发明实施例中提供了一种基于循环生成对抗网络的图像着色处理方法，图5为本发明实施例中提供的一种基于循环生成对抗网络的图像着色处理方法流程图，如图5所示，该方法包括如下步骤：

S501，获取第一训练图像样本和第二训练图像样本，其中，第一训练图像样本中包含：多个真实的灰度图像，第二训练图像样本中包含：多个真实的彩色图像。

需要说明的是，本发明实施例中第一训练图像样本中包含的灰度图像或第二训练图像样本中包含的彩色图像可以对各种目标对象(例如，动物、植物、人物或机器设备等)进行拍摄采集到的图像。

需要注意的是，第一训练图像样本的灰度图像和第二训练图像样本中的彩色图像可以是对应的，也可以是不对应的。

S502，根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器。

需要注意的是，对机器学习来说，特征提取往往需要人工投入大量时间去研究和调整，深度学习作为解决特征提取问题的一个机器学习分支，可以自动学习特征和任务之间的关联，以及从简单特征中提取复杂的特征，因而，作为一种可选的实施方式，本发明实施例可通过深度学习来训练双层循环生成对抗网络模型。

具体地，上述S502可以通过如下步骤来实现：将第一训练图像样本中真实的灰度图像输入至第一生成器，输出映射后的彩色图像，将映射后的彩色图像输入至第二生成器，输出重构后的灰度图像，并通过第一判别器区分第一生成器输出的彩色图像和第二训练图像样本中真实的彩色图像，计算重构后的灰度图像与真实的灰度图像之间的第一距离，以及映射后的彩色图像和真实的彩色图像之间的第二距离；将第二训练图像样本中真实的彩色图像输入至第二生成器，输出映射后的灰度图像，将映射后的灰度图像输入至第一生成器，输出重构后的彩色图像，并通过第二判别器区分第二生成器输出的灰度图像和第一训练图像样本中真实的灰度图像，计算重构后的彩色图像与真实的彩色图像之间的第三距离，以及映射后的灰度图像和真实的灰度图像之间的第四距离；通过机器学习训练双层循环生成对抗网络模型包含的第一生成器、第二生成器、第一判别器和第二判别器，使得第一距离、第二距离、第三距离和第四距离满足预设收敛条件，其中，第一距离和第三距离用于表征双层循环生成对抗网络模型的一致性损失，第二距离和第四距离用于表征双层循环生成对抗网络模型的生成对抗损失。

可选地，预设收敛条件为：

其中，

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λL_Cycle(G,F) (2)

其中，x表示真实的图像；

表示重构后的图像；L_Cycle表示重构后的图像与真实的图像之间的距离；

表示

的L1范数；L_GAN(G,D_Y,X,Y)表示将X域图像映射为Y域图像的生成对抗损失；L_GAN(F,D_X,Y,X)表示将Y域图像映射为X域图像的生成对抗损失；

表示X域图像样本分布的期望值；

表示Y域图像样本分布的期望值；G(x)表示Y域图像映射后的X域图像；G(y)表示X域图像映射后的Y域图像；D_X表示用于区分真实的X域图像与映射后的X域图像的判别器；D_Y表示用于区分真实的Y域图像与映射后的Y域图像的判别器；L(G,F,D_X,D_Y)表示模型训练的目标函数；λ表示调整生成对抗损失和一致性损失间权重所采用的参数。

在使用规模较大的数据集(训练图像样本)训练网络模型的时候，会出现数据质量不同，部分图像存在着颜色暗淡和图像模糊等问题，从而影响模型着色效果。由此，为了避免网络有过拟合的现象，本发明实施例在根据第一训练图像样本和第二训练图像样本，对双层循环生成对抗网络模型进行训练的时候，可以通过如下步骤来实现：计算各个图像的标准差和平均梯度，其中，每个图像的标准差用于表征每个图像上各个像素点灰度值相对于均值的离散程度，每个图像的平均梯度用于表征每个图像的清晰度；根据各个图像的标准差和平均梯度，从第一训练图像样本筛选出第三训练图像样本，并从第二训练图像样本中筛选出第四训练图像样本；根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型；根据第三训练图像样本和第四训练图像样本，对训练得到的双层循环生成对抗网络模型的模型参数进行调整。

在第一阶段根据第一训练图像样本和第二训练图像样本实现模型预训练过程，能够使得模型中包含的生成网络G学习到灰度图像映射至对应的彩色图像的映射关系；在第二阶段根据第三训练图像样本和第四训练图像样本，对训练得到的双层循环生成对抗网络模型的模型参数进行微调，能够提高着色模型的着色效果。

可选地，本发明实施例可以通过如下公式计算各个图像的标准差：

其中，SD表示图像F的标准差；M×N表示图像F的尺寸；F(i,j)表示图像F上一个像素点(i,j)。

可选地，本发明实施例可以通过如下公式计算各个图像的平均梯度：

其中，MG表示图像F的平均梯度；M×N表示图像F的尺寸；ΔxF(i,j)表示图像F上的像素点(i,j)在x方向上的一阶差分；ΔyF(i,j)表示图像F上的像素点(i,j)在y方向上的一阶差分。

一种可选的实施例中，通过上述S502训练得到的双层循环生成对抗网络模型中，第一生成器和第二生成器可以采用UNet网络模型，第一判别器和第二判别器可以采用多层卷积神经网络模型。

需要说明的是，现有的基于生成对抗网络的图像着色模型中，生成器(即生成网络模型)仅由简单的卷积层和反卷积层构成，提取特征时容易丢失图像的局部信息，限制网络的着色效果。为了避免该问题，本发明实施例提供的基于循环生成对抗网络图像着色模型中，生成网络(即生成器)采用U形网络(UNet)，通过跳跃连接，将下采样中每一层输出的特征连接至对应的上采样层。其目的是将浅层信息直接传递到相同高度的反卷积层，形成更厚的特征，提升图像的生成细节。

如图6所示，采用U形网络结构的生成网络，整体由上采样和下采样两部分组成。其中下采样部分共有5层，滤波器的数量分别为[32,64,128,256,512]。下采样过程中，图像特征每层经过两次卷积，滤波器大小为3×3，其目的是提取图像纹理结构等基本信息。卷积后连接批标准化(Batch Normalization，BN)层，目的是调整卷积后的数据分布，使卷积的输出分布在激活函数近原点邻域内，降低梯度弥散率，避免梯度消失的问题。本发明实施例中，激活层采用带泄露的线性整流函数(Leaky Rectified Linear Unit，LReLU)，代替原本的线性激活函数(Rectified Linear Unit，ReLU)，能够减少计算的复杂度，且不会导致负值区域的神经元全为0。在上采样过程中，采用与下采样相对称的5层反卷积，将深层特征恢复至一定尺寸的大小。需要注意的是，生成网络的目的是将输入映射至目标域空间的分布，例如根据嘴唇形状特征对应至上红色的过程。

可选地，本发明实施例中生成网络还可以采用FCN网络，FCN网络可以适应不同尺寸的图像，并自适应地输出同样大小的彩色图像，其网络结构如图7所示。FCN网络中采用的卷积核大小均为3×3，并在特征图的周围补足1单位的padding；以使网络的结构不存在过多的精度损失。输入的灰度图像首先经过3层步长为2的卷积层，3层卷积核的数量分别为[64,128,256]。这一阶段的目的在于提取纹理、轮廓等基本结构，并将模型的感受野扩大8倍。然后，经过3层步长为1的卷积核，卷积核的数量均为512。该阶段在浅层特征基础之上进一步提取目标的典型特征,理解其内容。随后的上采样过程中,采用了2层的反卷积操作,将输出恢复至正常大小,并将特征映射为三通道对应的彩色图像。

由于FCN网络由卷积层与反卷积层所构成，使得网络能够处理不同尺寸的图像并完成图像中像素级的分类及回归任务。而端到端的FCN具有保持输入与输出的尺寸相同的特性，因此能够适应不同尺寸的图像输入，并直接由网络产生最终输出。

如图8所示，本发明的两个判别网络(即判别器)采用相同的网络结构，即多层卷积神经网络。判别网络D用于辨别区分真实的图像和生成的图像。由于二者之间存在一定的关联，判别器可以通过卷积神经网络进行学习，获取更加有效的图像特征，对两类图像进行正确分类。对于判别网络D，首先输入待分类的图像，然后经过带有步伐的6次卷积后，输出256个4×4的特征图。特征提取的卷积核尺寸为5×5,卷积步长2，每一个卷积层的特征图个数分别是8、16、32、64、128、256。然后将生成的特征图拉伸至11264维长度的向量，使用多层全连接将特征的维度降低至1维。为了进一步防止特征降维过程中，出现过拟合的现象，在全连接层后面加上Dropout层，概率值设置为0.7。最后，将压缩过的特征向量输入至Sigmoid函数，判别生成图像是否符合真实图像的分布。

S503，在双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

需要说明的是，本发明实施例结合生成对抗损失和一致性损失共同监督训练双层循环生成对抗网络模型，其中，生成对抗性损失能够用于监督网络学习灰度图像映射至彩色域图像的对应关系；由于只使用对抗性损失训练网络模型的时候，仅学习输入图像和目标图像的映射关系，无法解决生成网络中存在的多余映射问题，因此本发明实施例通过加入一致性损失，能够更好确保生成数据的稳定性，减少其它多余映射关系。如图4所示，本发明实施例提供的双层循环生成对抗网络模型中，通过两个生成对抗网络，将输入的图像重构回原有的域中，再计算其与原始图像的距离损失。

如公式(3)和公式(4)所示，本发明实施例采用交叉熵损失函数计算生成对抗性损失。

对于生成网络G：X→Y及其判别网络D_Y，生成网络G将X域数据生成符合Y域分布的目标，判别网络D_Y用于区分真实的Y域数据{y}和生成样本{G(x)}。生成对抗损失的目标如公式(8)所示。训练判别器时，损失函数目标是为了使判别器区分真实的样本和生成的样本，即最大化D_Y(y)，同时使D_Y(G(x))最小；训练生成器时，损失函数的目标是使生成数据接近目标数据域，即使D_Y(G(x))最大化。

对于生成网络F:Y→X及相应的判别网络，同样引入交叉熵的生成对抗损失，损失函数目标如公式(9)所示。

本发明实施例提供的双层循环生成对抗网络模型中，两个循环生成过程如公式(10)和(11)所示。

其中，x_G和

为真实的灰度图像和F网络重构的灰度图像；x_C和

为真实的彩色图像和G网络重构的彩色图像。通过上述公式(5)能够计算重构图像与其原始图像之间的距离损失。

在确定生成对抗损失和一致性损失后，利用公式(2)所示的目标函数对本发明实施例提供的双层循环生成对抗网络模型进行训练，直到满足公式(1)所示的训练目标。

基于本发明实施例提供的上述基于循环生成对抗网络的图像着色处理方法，具体实施过程如下：

(一)预处理：采集多张彩色图像，并根据每张彩色图像生成对应的灰度图像。

(二)参数设置：在数据训练过程中，生成网络G和F，判别网络DX和DY均采用初始学习率为0.0002，动量为0.5的Adam优化器更新网络的参数，同时采用线性衰减的方法逐渐降低学习率。经过不断的迭代训练使模型收敛，存储整个网络的参数。

(三)实验过程：如图9所示，包含两个阶段：第一阶段首先使用2000个训练样本对整个网络进行训练，得到着色模型；第二阶段在规模较大的原数据集中筛选出了质量相对较高的800个训练样本，微调网络模型的参数。可选地，通过公式(6)计算图像的标准差和公式(7)计算图像的平均梯度。标准差越大说明图像中灰度级分布越分散，图像的颜色也更加鲜明。平均梯度能够反映图像细节和纹理的变化，在一定程度上可以表示图像的清晰度，其值越大说明图像整体的清晰度越高。

可选地，本发明实施例，在选取筛选图像样本的时候，将标准差和平均梯度的阈值设置为54和25时，筛选出的图像质量较高。为本发明实施例中提供的一种图像样本筛选示意图，如图10所示，前两列是筛选出的图片，图像颜色明亮，且清晰程度较高。后两列是未选出的图片，其中第三列图片的标准差低于阈值54，图像亮度低，色彩偏暗，第四列图片的平均梯度值低于阈值25，图像较为模糊。

为了客观的评价生成图像的质量，本发明实施例采用图像质量评价标准结构相似性(Structural Similarity Index,SSIM)和峰值信噪比(Peak Signal to Noise Ratio,PSNR)对着色图像整体进行质量评估。PSNR用于评价生成图像着色的真实程度，其值越大，表示失真越少；SSIM用于衡量目标间结构的相似程度，SSIM测量值越大，表示两张图像相似度越高。

图11为本发明实施例中提供的一种图像着色结果示意图，如图11所示，Iizuka的双通道卷积网络，着色结果颜色较为鲜艳，但着色准确率低；Larsson的VGG网络提取图像特征，误着色问题有所改善，但目标对象区域变得模糊；Zhang针对图像中每个像素点进行分类，着色准确率较高且目标对象清晰，但颜色饱和度低。而本发明实施例提供的图像着色方法的着色准确率高，不同目标的区分度较高，颜色也更加自然。但部分区域存在颜色分布不均匀的问题，仍未能达到理想的饱和度，如图11第一行的着色结果。

本发明实施例一步比较了与其他着色模型不同场景中SSIM和PSNR指标均值，如表1和表2中所示。在不同场景下，本文方法着色的图像与原图相比具有更高的SSIM、PSNR值，说明本实验的结果与原图相比较，结构更加相似，而且失真较小。综上，针对基于生成对抗网络着色技术易出现的图像误着色问题，本发明实施例提供的基于循环生成对抗网络的图像着色处理方法，采用生成对抗损失和一致性损失，计算重构的数据计算其与对应原始图像的距离损失，能够减少生成网络多余的映射关系。

表1单色背景下不同模型平均SSIM、PSNR指标对比结果

网络模型	SSIM/％	PSNR/dB
			Iizuka	95.4205	34.6785
Larsson	97.3620	34.6668
			Zhang	98.8255	36.9591
本发明	99.3643	39.7104

表2复杂背景下不同模型平均SSIM、PSNR指标对比结果

实验结果表明，本发明实施例提供的基于循环生成对抗网络的图像着色处理方法，能够适用于单色和复杂背景的图像着色，着色精度有很大提高。与同类方法相比，本发明实施例提供的方法在颜色连续性、图像颜色的合理性等都有着出色的表现。

基于同一发明构思，本发明实施例中还提供了一种基于循环生成对抗网络的图像着色处理装置，如下面的实施例所述。由于该装置实施例解决问题的原理与基于循环生成对抗网络的图像着色处理方法相似，因此该装置实施例的实施可以参见方法的实施，重复之处不再赘述。

图12为本发明实施例中提供的一种基于循环生成对抗网络的图像着色处理装置示意图，如图12所示，该装置可以包括：训练样本获取模块121、模型训练模块122、图像着色模块123。

其中，训练样本获取模块121，用于获取第一训练图像样本和第二训练图像样本，其中，第一训练图像样本中包含：多个真实的灰度图像，第二训练图像样本中包含：多个真实的彩色图像；模型训练模块122，用于根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；图像着色模块123，用于在双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

可选地，本发明实施例提供的基于循环生成对抗网络的图像着色处理装置中，第一生成器和第二生成器可以采用UNet网络模型，第一判别器和第二判别器可以采用多层卷积神经网络模型。

在一种可选的实施中，本发明实施例提供的基于循环生成对抗网络的图像着色处理装置中，模型训练模块122还用于将第一训练图像样本中真实的灰度图像输入至第一生成器，输出映射后的彩色图像，将映射后的彩色图像输入至第二生成器，输出重构后的灰度图像，并通过第一判别器区分第一生成器输出的彩色图像和第二训练图像样本中真实的彩色图像，计算重构后的灰度图像与真实的灰度图像之间的第一距离，以及映射后的彩色图像和真实的彩色图像之间的第二距离；将第二训练图像样本中真实的彩色图像输入至第二生成器，输出映射后的灰度图像，将映射后的灰度图像输入至第一生成器，输出重构后的彩色图像，并通过第二判别器区分第二生成器输出的灰度图像和第一训练图像样本中真实的灰度图像，计算重构后的彩色图像与真实的彩色图像之间的第三距离，以及映射后的灰度图像和真实的灰度图像之间的第四距离；以及通过机器学习训练双层循环生成对抗网络模型包含的第一生成器、第二生成器、第一判别器和第二判别器，使得第一距离、第二距离、第三距离和第四距离满足预设收敛条件，其中，第一距离和第三距离用于表征双层循环生成对抗网络模型的一致性损失，第二距离和第四距离用于表征双层循环生成对抗网络模型的生成对抗损失。

可选地，本发明实施例提供的基于循环生成对抗网络的图像着色处理装置中，模型训练模块122在训练模型的时候，可以采用公式(1)所示的预设收敛条件。

进一步地，本发明实施例提供的基于循环生成对抗网络的图像着色处理装置中，模型训练模块122还用于计算各个图像的标准差和平均梯度，其中，每个图像的标准差用于表征每个图像上各个像素点灰度值相对于均值的离散程度，每个图像的平均梯度用于表征每个图像的清晰度；根据各个图像的标准差和平均梯度，从第一训练图像样本筛选出第三训练图像样本，并从第二训练图像样本中筛选出第四训练图像样本；根据第一训练图像样本和第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型；根据第三训练图像样本和第四训练图像样本，对训练得到的双层循环生成对抗网络模型的模型参数进行调整。

可选地，本发明实施例提供的基于循环生成对抗网络的图像着色处理装置中，模型训练模块122可以通过公式(6)计算各个图像的标准差；以及通过公式(7)计算各个图像的平均梯度。

本发明实施例中还提供了一种计算机设备，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一项的基于循环生成对抗网络的图像着色处理方法。

本发明实施例中还提供了一种计算机可读存储介质，用以解决现有图像着色处理方法无法解决复杂背景下误着色的技术问题，该计算机可读存储介质存储有执行上述任一项的基于循环生成对抗网络的图像着色处理方法的计算机程序。

综上所述，本发明实施例由两个生成器和两个判别器共同构成双层循环生成对抗网络的图像着色模型，通过生成器将输入的图像映射至目标图像域中，通过判别器区分真实的源域图像和生成的图像。为了减少生成对抗网络中多余的映射关系，本发明实施例还加入了计算原始图像和重建图像之间的距离损失，作为重建图像与原始图像之间关联性的距离度量。输入图像经过一个生成网络，生成对应的目标域的图像，将生成的图像再经过一个生成器，则可重构回原始的图像，基于原始图像和重建图像之间的距离度量，在网络模型训练过程中，通过不断减小原始图像与重建图像之间的距离，减少生成网络多余的映射关系，能够使得最终训练得到的基于循环生成对抗网络的图像着色模型实现减少图像误着色的目的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于循环生成对抗网络的图像着色处理方法，其特征在于，包括：

获取第一训练图像样本和第二训练图像样本，其中，所述第一训练图像样本中包含：多个真实的灰度图像，所述第二训练图像样本中包含：多个真实的彩色图像；

根据所述第一训练图像样本和所述第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，所述双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；

在所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用所述双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

2.如权利要求1所述的方法，其特征在于，根据所述第一训练图像样本和所述第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，包括：

将所述第一训练图像样本中真实的灰度图像输入至第一生成器，输出映射后的彩色图像，将映射后的彩色图像输入至第二生成器，输出重构后的灰度图像，并通过第一判别器区分第一生成器输出的彩色图像和所述第二训练图像样本中真实的彩色图像，计算重构后的灰度图像与真实的灰度图像之间的第一距离，以及映射后的彩色图像和真实的彩色图像之间的第二距离；

将所述第二训练图像样本中真实的彩色图像输入至第二生成器，输出映射后的灰度图像，将映射后的灰度图像输入至第一生成器，输出重构后的彩色图像，并通过第二判别器区分第二生成器输出的灰度图像和所述第一训练图像样本中真实的灰度图像，计算重构后的彩色图像与真实的彩色图像之间的第三距离，以及映射后的灰度图像和真实的灰度图像之间的第四距离；

通过机器学习训练所述双层循环生成对抗网络模型包含的第一生成器、第二生成器、第一判别器和第二判别器，使得第一距离、第二距离、第三距离和第四距离满足预设收敛条件，其中，第一距离和第三距离用于表征所述双层循环生成对抗网络模型的一致性损失，第二距离和第四距离用于表征所述双层循环生成对抗网络模型的生成对抗损失。

3.如权利要求2所述的方法，其特征在于，所述预设收敛条件为：

其中，

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+λL_Cycle(G,F) (2)

其中，x表示真实的图像；

表示

表示X域图像样本分布的期望值；

表示Y域图像样本分布的期望值；G(x)表示Y域图像映射后的X域图像；G(y)表示X域图像映射后的Y域图像；D_X表示用于区分真实的X域图像与映射后的X域图像的判别器；D_Y表示用于区分真实的Y域图像与映射后的Y域图像的判别器；L(G,F,D_X,D_Y)表示模型训练的目标函数；λ表示调整生成对抗损失和一致性损失间权重所设置的超参。

4.如权利要求1所述的方法，其特征在于，根据所述第一训练图像样本和所述第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，包括：

计算各个图像的标准差和平均梯度，其中，每个图像的标准差用于表征每个图像上各个像素点灰度值相对于均值的离散程度，每个图像的平均梯度用于表征每个图像的清晰度；

根据各个图像的标准差和平均梯度，从第一训练图像样本筛选出第三训练图像样本，并从第二训练图像样本中筛选出第四训练图像样本；

根据所述第一训练图像样本和所述第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型；

根据所述第三训练图像样本和所述第四训练图像样本，对训练得到的双层循环生成对抗网络模型的模型参数进行调整。

5.如权利要求4所述的方法，其特征在于，

通过公式(6)计算各个图像的标准差：

其中，SD表示图像F的标准差；M×N表示图像F的尺寸；F(i,j)表示图像F上一个像素点(i,j)；

通过公式(7)计算各个图像的平均梯度：

6.如权利要求1至5任一项所述的方法，其特征在于，所述第一生成器和所述第二生成器采用UNet网络模型，所述第一判别器和所述第二判别器采用多层卷积神经网络模型。

7.如权利要求1至5任一项所述的方法，其特征在于，所述第一生成器和所述第二生成器采用FCN网络模型，所述第一判别器和所述第二判别器采用多层卷积神经网络模型。

8.一种基于循环生成对抗网络的图像着色处理装置，其特征在于，包括：

训练样本获取模块，用于获取第一训练图像样本和第二训练图像样本，其中，所述第一训练图像样本中包含：多个真实的灰度图像，所述第二训练图像样本中包含：多个真实的彩色图像；

模型训练模块，用于根据所述第一训练图像样本和所述第二训练图像样本，通过机器学习训练一个双层循环生成对抗网络模型，使得所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件，其中，所述双层循环生成对抗网络模型中包含：用于将灰度图像映射为彩色图像的第一生成器、用于将彩色图像映射为灰度图像的第二生成器、用于区分第一生成器输出彩色图像与真实彩色图像的第一判别器、用于区分第二生成器输出灰度图像与真实灰度图像的第二判别器；

图像着色模块，用于在所述双层循环生成对抗网络模型的生成对抗损失和一致性损失满足预设收敛条件的情况下，采用所述双层循环生成对抗网络模型中包含的用于将灰度图像映射为彩色图像的第一生成器，对待着色的灰度图像进行着色处理。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述基于循环生成对抗网络的图像着色处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任一项所述基于循环生成对抗网络的图像着色处理方法的计算机程序。