CN111627080B

CN111627080B - 基于卷积神经与条件生成对抗性网络的灰度图像上色方法

Info

Publication number: CN111627080B
Application number: CN202010427953.1A
Authority: CN
Inventors: 黎海生; 廖明霞; 鲁健恒; 黄飞燕; 罗丹仪; 全永桦; 陈玉萍
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2022-11-18
Anticipated expiration: 2040-05-20
Also published as: CN111627080A

Abstract

本发明提成一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其采用基于残差网络的迁移学习方法对图像进行分类后，将原始灰色图像与该图像的标签一起输入到图像自动上色网络中，图像自动上色网络根据图像的标签为该图像匹配相对应的上色模型进行图像自动上色。该方法与以往传统的上色方法相比，此方法能够全面地对提取到的特征进行分类，再根据图像的分类，有目的地对目标对象进行自动上色，从而使图片上色效果更接近人们心中预设的视觉效果，且在相同的训练次数和学习率的条件下，该方法能够实现更好的上色效果。

Description

基于卷积神经与条件生成对抗性网络的灰度图像上色方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法。

背景技术

目前，对于图片上色主要还是运用Photoshop等软件手工完成。对于设计师来说，一张图片的上色，往往不仅需要花费很长的时间去完成，还要经过不断地研究、不断地调整和修改，才能得到满意的效果。因此，如果能够输入一张图片，就能够生成已经上色好的图片，仅仅需要几秒钟就可以自动完成手工可能需要一个月时间才能完成的工作，这样的方法会显得十分的重要且有意义。

图像着色技术在图像处理领域是非常重要的研究话题，其发展也越来越快，目前我们所公知的图片自动上色的技术中，大多数用的是条件生成对抗性网络，通过设计生成器和判别器。其中生成器的作用是生成图片并设法骗过判别器，而判别器则要区分图片的真假，通过对抗学习使得两者越来越强，使生成器生成的图片能够达到以假乱真的效果，最终经过生成器对图片进行上色。由于没有经过系统的图像分类，这样往往需要庞大且广泛的样本数和足够多的训练次数，要耗费比较长的时间去训练生成器和判别器，才能有比较好的上色效果，如果样本数和训练次数不够，因为受到图片类型或者图片色调的限制，上色后生成图片可能出现颜色比较单一或者颜色与图片不匹配的问题，和人们预设的上色效果差距过大。因此，如果能够加入图像分类模块，对图片的类型进行分类(如按照动物、植物、动漫、食物等等分类)，将获得标签的图片输入到对抗网络中，根据标签的值选取对应的生成器进行上色，这样的上色效果会更好。另外，图像分类采用的是迁移学习的方法，传统的图像分类方法需要消耗大量的时间,且分类效果相对较差，而迁移学习的方法只需在一个特定的数据集上，重新利用已经训练过的卷积神经网络(CNN)，并将其改造或迁移到一个不同的数据集中，重复使用训练过的卷积神经网络，这样能够有效的解决耗时较长的问题。

综上所述，基于卷积神经网络与条件生成对抗网络的灰度图片自动上色的方法研究中，如果按照现有的方法去实现，就需要去收集较多类型广泛的样本数据，并且需要耗费大量时间去训练条件生成网络的生成器和判别器，最终才能生成上色效果较好的图片，这样的方法耗时长、效果欠佳，不是一种理想的方法。

发明内容

鉴于以上内容，有必要提供一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其利用深度学习与生成对抗网络(GANs)、迁移学习等技术，提供一个能够准确快速以及精确上色的全自动灰度图像彩色化的方法，从而给输入的灰度图片自动上色，省去手工上色所需花费的大量时间，同时耗时短、效果好。

为达到上述目的，本发明所采用的技术方案是：

一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其采用基于残差网络的迁移学习方法对图像进行分类后，将原始灰色图像与该图像的标签一起输入到图像自动上色网络中，图像自动上色网络根据图像的标签为该图像匹配相对应的上色模型进行图像自动上色，该上色方法具体包括如下步骤：

(一)模型建立

1)收集数据

1.1)收集大量的彩色图片，并对收集到的数据做数据增操作处理，数据增操作包括图像旋转、图像亮度调整等；然后，将数据的尺寸通过图像裁剪，处理成相同的大小；

1.2)给数据集中的图像添加标签，同一类的图像标签相同，不同类的图像标签不同，图像类别数设为N；

1.3)划分收集的数据，其中90％作为训练集，10％作为测试集；

2)建立图像分类网络模型

图像分类网络模型由残差网络结构组成，该残差结构包含五个卷积层组、一个全局平均池化层、一个全连接层和一个Softmax层，其中，将Softmax层的神经元数目设为N；

3)建立图像自动上色网络模型

图像自动上色网络选用带有条件生成对抗性网络的Pix2Pix模型，该Pix2Pix模型由生成器网络与判别器网络两部分组成；其中，生成器网络选用U-Net结构，该U-Net结构由压缩路径和扩展路径组成，在压缩路径，其重复采用两个卷积层和一个最大池化层的结构，在扩展路径，其重复采用一个反卷积层和两个卷积层的结构；判别器网络使用PatchGAN，其将图像分割成每个大小为M x M的图像块(patch)，判别器对每一个patch做真假判别，将一张图片所有patch的结果取平均作为最终的判别器输出；

(二)图像上色

1)加载训练好的图像分类网络模型与图像自动上色网络模型；

2)输入待上色的灰色图像，该灰色图像经过图像分类网络获得标签后再连同所获得的标签输入到图像自动上色网络中；

3)在图像自动上色网络中，根据输入的图像标签，加载对应的图像上色模型，将待上色的灰色图像送入该图像上色模型中进行上色，得到一张彩色图像。

进一步地，图像分类网络模型的训练过程包括以下步骤：

2.1)获得做了标签的数据集；

2.2)向残差网络结构中输入数据集中的训练集图像；

2.3)图像经过残差网络结构输出该图像是某个类别的概率，所输出的所有类别的概率之和为1；

2.4)通过比较所有类别的概率，输出概率最大的标签值，该标签值所对应的类别即为图像分类网络针对该图像判别出来其所属于的类别，将该标签值与图像真实的标签值比较，并根据比较结果优化网络的参数；

2.5)重复步骤2.2)-2.4)，直到训练图像完全输入或者图像分类网络的正确率符合预先的期望值为止，保存图像分类网络模型。

进一步地，图像自动上色网络模型的训练过程包括以下步骤：

3.1)获得做了标签的数据集；

3.2)将数据集所有类别中没有训练过的某一类别图像的训练集输入到图像自动上色网络中；

3.3)对输入到图像自动上色网络中的彩色图像x进行灰度化处理，灰度化图像y作为生成器网络G的输入，生成器网络G使用U-Net结构通过对灰度化图像y进行特征提取与上采样后，输出图像特征张量，该图像特征张量是生成器网络G对输出图像的a*，b*颜色通道的预测值；最后，生成器网络G将得到的图像特征张量与灰度化图像中包含的L*通道结合到一起，获得基于CIE色彩空间并与原输入图像底层结构大致相同的上色图像G(y)，生成器网络G在不断的训练中学习从灰度图像到彩色图像的非线性映射；

3.4)上色图像G(y)与原始彩色图像x构成图像对(x，G(y))，彩色图像x与彩色图像x构成图像对(x，x)，将(x，G(y))、(x，x)作为判别器网络D的输入，判别器网络D通过PatchGAN对图像的每一个patch做真假判断，进而得出图像对之间是否真的是对应的，即G(y)是否就是x，x是否就是x；

3.5)判别器网络D与生成器网络G通过损失函数交替优化自己的参数，生成器网络G的优化目标是使(G(y)，x)之间的损失越小越好，判别器网络D的目标则是(G(y)，x)之间的损失尽可能的大，(x，x)之间的损失尽可能的小；

3.6)训练完输入的图像，根据标签保存模型到该类别对应的模型保存路径中；

3.7)重复步骤3.2)-3.6)，直到所有类别都训练完成。

进一步地，在将训练集图像输入到图像分类网络中训练前，将图像通过中心裁剪的方法进行尺寸上的裁剪，但不改变原始图像的尺寸。

与现有技术相比，本发明具有以下有益效果：

1、用户可以方便快捷地对灰度图像进行自动上色，其无需提取构建映射集合的特征，只需输入图像训练系统即可利用模型完成对灰度图像的自动上色。

2、本发明采用条件生成对抗网络，得到的深度学习模型减少了图像到图像的结构化损失，不出现模糊图像，使生成的图像的着色效果更趋近于饱和，更真实，并且，条件生成对抗网络网络层数较少，训练时间快，方法简单实用。

3、我们在图像上色前加入了一个采用迁移学习方法的图像分类系统，迁移学习网络方便增加、删除类别，图像通过图像分类后再输入图像上色模型使得彩色化后的图像细节更加丰富，物体颜色更加一致，极大的简化了模型着色的难度。

总而言之，本发明的上色方法与以往传统的上色方法相比，能够全面地对提取到的特征进行分类，再根据图像的分类，有目的地对目标对象进行自动上色，从而使图片上色效果更接近人们心中预设的视觉效果，且在相同的训练次数和学习率的条件下，该方法能够实现更好的上色效果。

附图说明

图1为本发明的流程图，

图2为ResNet-50结构图，

图3为图像数据输入网络的流程图，

图4为动漫类图像上色效果，

图5为食物类图像上色效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行进一步的描述，但不以任何方式限制本发明的范围，此外，对实施例的各种特征的引用并不代表所有的实施例都必须包括所引用的特征。

清参阅图1所给的本发明的流程框图，本发明提供的一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其采用基于残差网络的迁移学习方法对图像进行分类后，将原始灰色图像与该图像的标签一起输入到图像自动上色网络中，图像自动上色网络根据图像的标签为该图像匹配相对应的上色模型进行图像自动上色，该上色方法具体包括如下步骤：

(一)模型建立

1)收集数据

1.1)收集大量的彩色图片，并对收集到的数据做数据增操作处理，数据增操作包括图像旋转、图像亮度调整等；然后，将数据的尺寸通过图像裁剪，处理成相同的大小，例如，大小均为256*256。

1.2)给数据集中的图像添加标签，同一类的图像标签相同，不同类的图像标签不同，图像类别数设为N。

1.3)划分收集的数据，其中90％作为训练集，10％作为测试集。

基于上述收集数据的步骤，在本实施方式中，其具体可为：

(1)在收集图像时，按类别分多个文件保存，并依次对各个文件夹的数据单独进行数据增强操作时。

(2)对各个类别的图像添加标签，每个类别的图像标签均进行编码，确定好各个类别所对应的编码后，对各个类别的文件夹进行重命名操作，重命名的方式为“类别编码_文件夹原名”；在该步中，对类别进行编码时，根据设定类别数N的位数进行编码，如，N为两位数，则标签所对应的编码就分别为00、01、02...N-1；N为三位数，标签所对应的编码就分别为000、001、002...N-1，需要说明的是，在编码时，要保证各编码出现的次数近似，即保证在收集数据时各个类别的均匀性。

(3)从各个类别的文件夹中各取出10％的图像作为测试集，测试集中的图像存储方式同训练集。

(4)需要获取图像的标签时，可按N的位数从图像的文件路径中提取。

2)建立图像分类网络模型

图像分类网络模型由残差网络结构组成，该残差结构包含五个卷积层组、一个全局平均池化层、一个全连接层和一个Softmax层，其中，将Softmax层的神经元数目设为N。

本发明的图像分类网络模型利用残差网络结构实现，在本实施方式中，具体采用的是ResNet-50网络结构，ResNet-50结构如图2所示，在该网络模型中，残差结构能够对每层的输入做一个参考，它学习的是残差函数，而不是其他一些没有参考的函数，残差函数可以保证更深一层的网络起码等于上一层的网络，而不会比它更差。

3)建立图像自动上色网络模型

图像自动上色网络选用带有条件生成对抗性网络的Pix2Pix模型，该Pix2Pix模型由生成器网络与判别器网络两部分组成；其中，生成器网络选用U-Net结构，该U-Net结构由压缩路径和扩展路径组成，在压缩路径，其重复采用两个卷积层和一个最大池化层的结构，在扩展路径，其重复采用一个反卷积层和两个卷积层的结构；判别器网络使用PatchGAN，其将图像分割成每个大小为M x M的图像块(patch)，例如，在本实施方式中，M取70，判别器对每一个patch做真假判别，将一张图片所有patch的结果取平均作为最终的判别器输出。

需要说明的是，生成器网络的激活函数除了最后一层都采用ReLu函数，最后一层采用tanh函数，这是因为最后一层需要输出图像，图像的像素值是有取值范围的(例如，0～255)，而ReLU函数的输出可能会很大。判别器网络的激活函数全部采用ReLU函数。

(二)图像上色

1)加载训练好的图像分类网络模型与图像自动上色网络模型。

在本发明中，图像分类网络模型与图像自动上色网络模型的训练过程分别如下：

图像分类网络模型的训练过程包括以下步骤：

2.1)获得做了标签的数据集。

2.2)向残差网络结构中输入数据集中的训练集图像；其中，在本实施方式中，所输入的图像规格为224*224。

2.3)图像经过残差网络结构输出该图像是某个类别的概率，所输出的所有类别的概率之和为1。

2.4)通过比较所有类别的概率，输出概率最大的标签值，也就是，经过softmax层后，系统输出的是概率最大的label值，该标签值所对应的类别即为图像分类网络针对该图像判别出来其所属于的类别，将该标签值与图像真实的标签值比较，并根据比较结果优化网络的参数。

图像自动上色网络模型的训练过程包括以下步骤：

3.1)获得做了标签的数据集。

3.2)将数据集所有类别中没有训练过的某一类别图像的训练集输入到图像自动上色网络中。

3.3)对输入到图像自动上色网络中的彩色图像x进行灰度化处理，灰度化图像y作为生成器网络G的输入，生成器网络G使用U-Net结构通过对灰度化图像y进行特征提取与上采样后，输出图像特征张量，在本实施方式中，该图像特征张量的尺寸为256*256*2，该图像特征张量是生成器网络G对输出图像的a*，b*颜色通道的预测值；最后，生成器网络G将得到的图像特征张量与灰度化图像中包含的L*通道结合到一起，获得基于CIE色彩空间并与原输入图像底层结构大致相同的上色图像G(y)，生成器网络G在不断的训练中学习从灰度图像到彩色图像的非线性映射。

在该步中，生成器网络G输出图像特征张量的同时，U-Net采取的对i层与n-i层做一个残差连接(skip-connect)的方法让G(y)尽可能的保存了y的一些信息，从而时G(y)能更接近x。

3.4)上色图像G(y)与原始彩色图像x构成图像对(x，G(y))，彩色图像x与彩色图像x构成图像对(x，x)，将(x，G(y))、(x，x)作为判别器网络D的输入，判别器网络D通过PatchGAN对图像的每一个patch做真假判断，进而得出图像对之间是否真的是对应的，即G(y)是否就是x，x是否就是x。

3.5)判别器网络D与生成器网络G通过损失函数交替优化自己的参数，生成器网络G的优化目标是使(G(y)，x)之间的损失越小越好，判别器网络D的目标则是(G(y)，x)之间的损失尽可能的大，(x，x)之间的损失尽可能的小。在本实施方式中，使用梯度下降法对D和G的参数交替做优化。

3.6)训练完输入的图像，根据标签保存模型到该类别对应的模型保存路径中；即，一个类别的图像自动上色网络训练完成之后，保存模型到该类别对应的模型保存文件夹中。

3.7)重复步骤3.2)-3.6)，直到所有类别都训练完成，此时，每个类别都有了对应的图像上色模型。

需要说明是的，由于图像自动上色网络的训练需要大量的彩色-灰度相对应的图像，所以本实施方式中默认收集的图像都是彩色图像，图像自动上色网络输入图像的规格是256*256。

进一步地，由于图像分类网络的输入规格与图像自动上色网络的输入规格不一致，在将训练集图像输入到图像分类网络中训练前，将图像通过中心裁剪的方法进行尺寸上的裁剪，例如，剪裁为尺寸为224*224的图像，但不改变原始图像的尺寸，具体实现方法如图3所示。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其特征在于，其采用基于残差网络的迁移学习方法对图像进行分类后，将原始灰色图像与该图像的标签一起输入到图像自动上色网络中，图像自动上色网络根据图像的标签为该图像匹配相对应的上色模型进行图像自动上色，该上色方法具体包括如下步骤：

(一)模型建立

1)收集数据

2)建立图像分类网络模型

3)建立图像自动上色网络模型

(二)图像上色

2.如权利要求1所述的基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其特征在于，图像分类网络模型的训练过程包括以下步骤：

2.1)获得做了标签的数据集；

2.2)向残差网络结构中输入数据集中的训练集图像；

3.如权利要求1所述的基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其特征在于，图像自动上色网络模型的训练过程包括以下步骤：

3.1)获得做了标签的数据集；

3.7)重复步骤3.2)-3.6)，直到所有类别都训练完成。

4.如权利要求1所述的基于卷积神经与条件生成对抗性网络的灰度图像上色方法，其特征在于，在将训练集图像输入到图像分类网络中训练前，将图像通过中心裁剪的方法进行尺寸上的裁剪，但不改变原始图像的尺寸。