CN114581552A

CN114581552A - 一种基于生成对抗网络的灰度图像彩色化方法

Info

Publication number: CN114581552A
Application number: CN202210252286.7A
Authority: CN
Inventors: 于同同; 霍智勇; 许晶晶; 訾润
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-03

Abstract

本发明公开了一种基于生成对抗网络的灰度图像彩色化方法，该方法首先选取COCO图像数据集中的定量彩色图片组，去色处理后制作成训练集，其次构建生成对抗网络架构，使得生成器模型在其中完成预训练，然后对判别模型和经过预训练的生成模型进行交替训练，调整参数，得到训练好的模型，再将测试数据输入模型后可实现灰度图像彩色化。本发明通过对生成器的预训练方法和过程，使得训练方法和数据集优化上拥有极大的提升，能够保证训练质量和最终生成图像的泛化质量的基础上，极大缩短训练时长，具灵活性；且利用U‑Net的思想，在COCO数据集上训练和测试，能极大程度的减少传统方法需要人工干预且难以进行大尺寸图像像素级别的精细上色工作的弊端。

Description

一种基于生成对抗网络的灰度图像彩色化方法

技术领域

本发明涉及深度学习和图像生成技术领域，具体涉及一种基于生成对抗网络的灰度图像彩色化方法。

背景技术

灰度图像彩色化算法是当前数字图像处理和计算机视觉领域的研究热点，在黑白影视资料、动漫素描、古画修复以及医学和航空领域有着广阔的应用前景。传统的彩色化方法主要分为局部颜色扩散法和基于参考图像的颜色转移法两大类，其中局部颜色扩散法需依靠人为给出一些标定的彩色像素点，通过扩散或变分等方法给全局图像染色，然而该方法要求人为提供初始彩色扩散像素，为彩色化过程带来不便；所述颜色转移法是基于一副或多副场景相近、颜色分布相近的参考图像，使之颜色转移到候选图像上，但此类方法所需人为给定的参考图像在复杂场景下往往难以寻找。作为用于图像着色领域的方法，过去的传统方法难以取得很好的效果，并且需要人工干预，且即便如此也难以进行大尺寸图像像素级别的精细上色工作。

近来由于深度学习的快速发展和广泛应用，许多研究选择将深度学习和图像着色结合起来。基于深度学习的灰度图像彩色化过程分为两个阶段：训练阶段和着色阶段。首先将大规模不同类型的彩色图像放到模型中去训练，经过不断的权要更新，使损失函数减到最小，模型达到最优之后，便可以将待着色图像输入到着色模型中，从而得到彩色化图像，这大大促进了图像着色领域的发展。

生成对抗网络(Generative Adversarial Nets, GANs)是一种无监督学习的训练方法，包括两部分：一个生成器网络D和一个判别器网络G。生成器网络用于生成逼真的样本，判别器用于从中分辨出生成样本和原样本。GANs的学习过程是同时训练识别器D和生成器G。生成器G的目标是学习数据x上的分布Pa，G从均匀分布或高斯分布的Pz(z)中对输入变量z采样，然后通过另一个网络将输入变量z映射到数据空间；D是判别器，目的是识别影像是来自训练数据还是来自G。通过迭代交替训练，判别模型完成辨别输入样本来自于真实数据还是生成模型的任务。同时，生成模型经过训练生成使判别模型无法分辨的数据。在训练期间，两种模型迭代训练竞争，最终生成与两部分模型学习到的数据分布最接近的数据。

在训练集方面，彩色化网络的性能受到训练集大小和类型的影响，小规模且类型单一的训练集能够更加容易的学习到样本的颜色信息，但学习到的颜色信息有限，只能对和训练集类型相似的图片上色，泛化能力差。如果要获得一个比较通用的灰度图片彩色化模型，需要大量不同类别的图片作为训练集。虽然大规模的数据集需要较长的训练时间，但是能够学习到更加丰富的颜色信息，模型的泛化能力强，可以对各种类型的灰度图像着色。

目前，在西安电子科技大学的一种基于深度学习的灰度图像彩色化算法研究论文当中，通过量化Lab颜色空间中ab颜色通道来对颜色预测的多模态性质建模。由于自然图像中ab的取值倾向于较小的值，所以在训练时使用分类再平衡技术来平衡那些出现频率较少的颜色类别，从而可以维持颜色的多样性。该文章采用ImageNet数据集的子集，主要包括各种动物、车、水果以及建筑、海滩等室外场景，共包括31万张图片。其中30万张图片为训练集，5000张图片作为验证集，5000张图片作为测试集，其特点在于使用了大规模的数据集，在数据集和训练集方面的数量都非常庞大，虽然保证了图像的泛化度，但也造成了训练需要较长的训练时间且灵活度较差。

发明内容

本发明的目的在于提供基于生成对抗网络的灰度图像彩色话方法，以解决目前技术中所存在的耗时较长且灵活度较差的问题。

本发明为解决上述技术问题采用的技术方案如下：

一种基于生成对抗网络的灰度图像彩色化方法，具体按照如下步骤实施：

A、选取COCO图像数据集中的定量彩色图片组，进行去色处理，制作成训练集；

B、构建生成对抗网络架构，包括生成器模型和判别器模型，所述生成器模型是Resnet18骨干网络经过预训练后形成的；

C、将步骤A得到的训练集依次输入生成对抗网络架构中进行模型训练，调整参数，达到收敛；

D、将待处理的图像进行预处理，输入步骤C得到的对抗模型可使灰度图像自动彩色化。

优选的，所述步骤A中选用COCO数据集的子集，在其中精选8000张图片作为优化训练集，2000张图片作为验证集，2000张图片作为测试集。

优选的，步骤A中所述训练集的去色处理方法是将图像的颜色模式由RGB模式转换为Lab模式，进而提取L通道作为训练的灰度图像；所述训练集的图像大小为256×256像素。

优选的，所述步骤B中生成模型使用U-net网络架构，由编码器和解码器组成，所述编码器和解码器各自有8个模块。其中，编码器进行下采样操作，其每个模块包含一个卷积层Conv2D和批标准化层BatchNorm2d，激活函数使用Leaky-ReLU函数进行激活；所述解码器每个模块自定义了一个反卷积层ConvTranspose2d，卷积层的卷积核大小为（2，4），反卷积层包含一个上采样层和步长为2的卷积层Conv2D，所述卷积层Conv2D使用ReLU激活函数。灰度图的L通道向量作为条件向量输入生成器模型，经过U-net网络卷积、池化、特征融合、反卷积等操作得到Lab三通道的目标张量，最后经过转换得到生成图像。

优选的，步骤B中所述预训练过程如下：

（1）用ResNet骨干构建U-net，加载ResNet18架构的预训练权重，并切割模型以移除最后两层，所述最后两层为GlobalAveragePooling和一个用于ImageNet分类任务的线性层；

（2）DynamicUnet通过使用Resnet骨架建立一个具有所需输出通道、输入大小为256像素的U-net，作为初始生成器，其中，所述输出通道为2个L和ab；

（3）将所述灰度图的L通道的数据输入上述初始生成器，计算生成器的损失L₁（G），将梯度归零；

（4）反向传播计算得到每个参数的梯度值，通过梯度下降执行一步参数更新；

在每一次训练中，不断更新损失函数，重复训练20次，将训练过后的网络作为生成器。

优选的，所述步骤C的具体过程为：

C1、固定生成器，训练优化判别器：分别向判别器输入真实图像和生成器生成的虚假图像，通过实际输出与目标输出计算出判别损失，更新判别器参数；

C2、固定判别器，训练优化生成器：将训练集训练图像的L通道输入生成器，生成与训练图像相同尺寸的虚假图像，向判别器输入该虚假图像，通过实际输出与目标输出计算出生成损失，更新生成器参数；

C3、重复步骤C1和C2，将所述训练集进行20次迭代更新后，经过训练的模型即可实现灰度图像自动彩色化。

优选的，在所述步骤C1中，生成网络中的编码器卷积核数量和判别网络的卷积核数量均设置为 64，大小为4，epoch设置为3-5。

优选的，在步骤C中利用条件生成对抗网络模型的损失函数、生成器损失函数、判别器损失函数计算生成对抗网络架构的损失函数，得到基于生成对抗网络模型最终的损失函数；所述条件生成对抗网络模型的目标函数为：

L_GAN(G,D)＝E_x，y[log D(x，y)]+E_x，z[log(1-D(x，G(x，z)))]，

其中，L_GAN(G,D)表示真实图像与生成的虚假图像之间的程度差异，E表示数学期望，log D(x，y)表示判别器对真实图像判定为真实数据的概率，G(x，z)表示生成的虚假图像，D(x，G(x，z))表示判别模型对生成的虚假图像的判别结果，log(1-D(x，G(x，z)))表示判别模型将生成的虚假图像判定为虚假图片的概率；

训练生成模型使得目标函数最小化，而判别模型通过不断迭代使得目标函数最大化，即：

G*=arg min max L_GAN(G,D)+λL₁(G)

同时，结合L1损失函数，可以重建图像的低频信息，更好地保留图像的高频信息，生成理想的图像；

式中max L_GAN(G,D)表示训练判别模型时保证生成模型部分不变，使得判别模型可以准确地判别生成的虚假图像，即使得1- D(x，G(x，z))的值接近于1，最大化E_x，y[log D(x，y)]的值；

min L_GAN(G,D)表示训练生成模型时保证判别模型部分保持不变，使得生成的虚假图像可以通过判别模型的判断，即使得D(x，G(x，z))的值接近于1，并且最小化E_x，z[log(1-D(x，G(x，z)))]的值；

式中λ为权重系数，用来调节生成模型的损失函数L₁(G)的比重，从而得到更好的输出图像，L₁(G)表示真实的图像与生成的图像之间的距离，定义为：

L1(G)＝E_x，y，z[||y-G_(x，y)||1]

式中，G(x ,z)表示生成的图像，y表示真实的图像，L1表示真实图像和生成的图像之间的信息重建过程。

本发明的技术方案能产生以下的技术效果：

1. 本发明通过有监督地对生成器的预训练方法和过程，使得训练方法和训练数据集优化上拥有极大的提升，能够保证训练质量和最终生成图像的泛化质量的基础上，极大缩短训练时长，极具灵活性，可以随时适应不同的使用需求，在不降低生成图像质量的情况下，改变精选数据集并快速完成预训练并投入使用。

2. 本发明的基于生成对抗网络的灰度图像彩色化方法，利用U-Net的思想，在COCO数据集上训练和测试，取得了较为精确的彩色图像，能够极大程度的减少传统方法需要人工干预且难以进行大尺寸图像像素级别的精细上色工作的弊端，能为图像彩色化提供一种新的方式，产生更加充满活力和现实的色彩，还原更多的图像细节且图像颜色更为丰富。

附图说明

图1为本发明的生成模型体系架构图；

图2为本发明的训练流程图；

图3为本发明所述Resnet18结构切除最后两层的结构图；

图4为本发明实施例中的部分彩色化结果对比图；

其中a为灰度图像图，b为本发明方法所输出的生成图像图，c为原图；

图5为本发明损失函数趋势图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本发明提供一种技术方案：基于生成对抗网络的灰度图像彩色化方法，包括如下步骤：

B、构建生成对抗网络架构，包括生成器模型和判别器模型，所述生成器模型在生成对抗网络中完成预训练；

本发明中，步骤A中选用COCO数据集的子集，在其中精选8000张图片作为优化训练集，2000张图片作为验证集，2000张图片作为测试集。

本发明中，步骤A中所述训练集的去色处理方法为将图像的颜色模式由RGB转换为Lab模式，进而提取L通道作为训练的灰度图像；所述训练集的图像大小为256×256像素。

本发明中，步骤B中生成模型采用U-net网络架构，由编码器和解码器两部分组成，所述编码器和解码器各自有8个模块。所述编码器每个模块包含一个卷积层Conv2D和批标准化层BatchNorm2d，激活函数使用Leaky-ReLU函数进行激活。所述解码器每个模块自定义了一个反卷积层ConvTranspose2d，卷积层的卷积核大小为（2，4），反卷积层包含一个上采样层和步长为2的卷积层Conv2D，卷积层Conv2D使用ReLU激活函数。灰度图的L通道向量作为条件向量输入生成器模型，经过U-net网络卷积、池化、特征融合、反卷积等操作得到Lab三通道的目标张量，最后经过转换得到生成图像。

本发明中，步骤B中所述预训练过程如下：

（1）用ResNet骨干构建U-net，加载ResNet18架构的预训练权重，并切割模型以移除最后两层，如图3所示，所述最后两层为GlobalAveragePooling和一个用于ImageNet分类任务的线性层；

（2）DynamicUnet通过使用所述Resnet骨架建立一个具有所需输出通道、输入大小为256像素的U-net，作为初始生成器；

（3）将所述灰度图的L通道的数据输入初始生成器，计算生成器的损失L₁（G），将梯度归零，在该算法中，opt使用Adam优化器，lr取1E-4，主要作用是令训练收敛，提高计算效率，降低内存需求；

本发明中，步骤C的具体过程为：

C1、固定生成器，训练优化判别器：分别向判别器输入真实图像和生成器生成的虚假图像，默认真实图像样本集的类标签为1，虚假图像样本集的类标签为0，通过实际输出与目标输出计算出判别损失，更新判别器参数；

本发明中，在步骤C1的生成网络中的编码器卷积核数量和判别网络的卷积核数量均设置为 64，大小为4，epoch设置为3-5。

本发明中，在步骤C中利用条件生成对抗网络模型的损失函数、生成器损失函数、判别器损失函数计算生成对抗网络架构的损失函数，得到基于生成对抗网络模型最终的损失函数；所述条件生成对抗网络模型的目标函数为：

L_GAN(G,D)＝E_x，y[log D(x，y)]+E_x，z[log(1-D(x，G(x，z)))]，

其中，L_GAN(G,D)表示真实图像与生成的虚假图像之间的程度差异，E表示数学期望，log D(x，y)表示判别器对真实图像判定为真实数据的概率，G(x，z)表示生成的虚假图像，D(x，G(x，z))表示判别模型对生成的虚假图像的判别结果，log(1-D(x，G(x，z)))表示判别模型将生成的虚假图片判定为虚假图片的概率；

G*=arg min max L_GAN(G,D)+λL₁(G)

L1(G)＝E_x，y，z[||y-G_(x，y)||1]

下面结合仿真实验对本发明的效果做进一步描述。

1.实验条件

本节算法基于caffe 深度学习框架，实验的硬件配置为：处理器：Intel Core i5-8500 CPU @ 3.00GHz×6；内存：15.6GiB；GPU：Ge Force GTX 1080。

2.仿真内容和结果

本发明在COCO数据集的子集中精选8000张图片作为优化训练集，2000张图片作为验证集，2000张图片作为测试集，然后对训练集图片进行预处理，将图像的颜色模式由RGB转换成Lab模式，再构建生成对抗网络模型，其中的生成器模型采用Resnet18骨干网络经预训练后形成，预训练次数为20次；然后将经过预处理的训练集输入到生成对抗网络模型中，交替训练模型，首先固定生成器，训练优化判别器，然后固定判别器，训练优化生成器，经过20次迭代更新后，经过训练的生成对抗网络模型可实现灰度图像自动彩色化。图4为输出图像的彩色化结果对比图。图5为本发明损失函数趋势图。

本发明基于生成对抗网络建立灰度图像彩色化的模型，其中对生成模型进行了预训练，通过有监督的预训练方法和过程，使得对生成器的训练方法和训练数据集优化上拥有极大的提升；然后输入训练集，交替训练生成对抗网络的生成模型和判别模型，生成更精确的彩色图像，本发明方法能够保证训练质量和最终生成图像的泛化质量的基础上，极大缩短训练时长，适应不同的使用需求，有效提高了模型的灵活性。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，具体按照如下步骤实施：

B、构建生成对抗网络架构，包括生成模型和判别模型，所述生成模型是 Resnet18骨干网络经过预训练后形成的；

2.根据权利要求1所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，所述步骤A中选用的是COCO数据集的子集，在其中精选8000张图片作为优化训练集，2000张图片作为验证集，2000张图片作为测试集。

3.根据权利要求2所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，步骤A中所述训练集的去色处理方法是将图像的颜色模式由RGB模式转换为Lab模式，进而提取L通道作为训练的灰度图像；所述训练集的图像大小为256×256像素。

4.根据权利要求1-3任一项所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，所述步骤B中生成模型使用U-net网络架构，由编码器和解码器组成，所述编码器和解码器各自有8个模块；其中，编码器进行下采样操作，其每个模块包含一个卷积层Conv2D和批标准化层BatchNorm2d，激活函数使用Leaky-ReLU函数进行激活；所述解码器每个模块自定义了一个反卷积层ConvTranspose2d，卷积层的卷积核大小为（2，4），反卷积层包含一个上采样层和步长为2的卷积层Conv2D，所述卷积层Conv2D使用ReLU激活函数。

5.根据权利要求4所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，步骤B中所述预训练过程如下：

（1）用ResNet骨干构建U-net，加载ResNet18架构的预训练权重，并切割模型以移除最后两层；

（2）DynamicUnet通过使用Resnet骨架建立一个输出通道为2个L和ab、输入大小为256像素的U-net，作为初始生成器；

（3）将灰度图像的L通道的数据输入所述初始生成器，计算生成器的损失L₁（G），将梯度归零；

6.根据权利要求1所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，所述步骤C的具体过程为：

7.根据权利要求6所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，在所述步骤C1中，生成网络中的编码器卷积核数量和判别网络的卷积核数量均设置为 64，大小为4，epoch设置为3-5。

8.根据权利要求6所述的一种基于生成对抗网络的灰度图像彩色化方法，其特征在于，在步骤C中利用条件生成对抗网络模型的损失函数、生成器损失函数、判别器损失函数计算生成对抗网络架构的损失函数，得到基于生成对抗网络模型最终的损失函数；所述条件生成对抗网络模型的目标函数为：

L_GAN(G,D)＝E_x，y[log D(x，y)]+E_x，z[log(1-D(x，G(x，z)))]，

其中，L_GAN(G,D)表示真实图像与生成的虚假图像之间的程度差异，E表示数学期望，logD(x，y)表示判别器对真实图像判定为真实数据的概率，G(x，z)表示生成的虚假图像，D(x，G(x，z))表示判别模型对生成的虚假图像的判别结果，log(1-D(x，G(x，z)))表示判别模型将生成的虚假图像判定为虚假图片的概率；

训练生成模型使得目标函数最小化，而判别模型使得目标函数最大化，即：

G*=arg min max L_GAN(G,D)+λL₁(G)

其中max L_GAN(G,D)表示训练判别模型时保证生成模型部分不变，使得判别模型可以准确地判别生成的虚假图像，即使得1- D(x，G(x，z))的值接近于1，最大化E_x，y[log D(x，y)]的值；

L₁(G)＝E_x，y，z[||y-G_(x，y)||1]