CN113222069A

CN113222069A - 一种基于多任务生成对抗网络的灰度图像着色方法

Info

Publication number: CN113222069A
Application number: CN202110617819.2A
Authority: CN
Inventors: 金鑫; 李忠兰; 朱星帆; 邹冬青; 李晓东; 孙启龙; 周子寅; 刘可; 刘清雨
Original assignee: Shaoding Artificial Intelligence Technology Co ltd
Current assignee: Shaoding Artificial Intelligence Technology Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-06
Anticipated expiration: 2041-06-03
Also published as: CN113222069B

Abstract

本发明涉及一种基于多任务生成对抗网络的灰度图像着色方法，通过使用生成对抗网络实现对灰度图像着色和色彩修复。该方法中的生成对抗网络有三个子任务网络：人物解析网络、生成器中的分类网络和辨别器中的分辨网络。在进行着色的过程中，人物解析网络和分类网络将人物解析信息和图像分类信息传入到主着色网络中最终生成着色的图像，然后利用辨别器对生成的图像进行辨别并将信息反馈回生成器从而指导生成器生成最优着色图像。基于以上的描述，将147部影像材料制作成数据集，将多任务生成对抗网络在此数据集上进行训练后对灰度图像进行着色获得了较好的效果。

Description

一种基于多任务生成对抗网络的灰度图像着色方法

技术领域

本发明是一种基于多任务生成对抗网络的灰度图像着色方法，属于计算机视觉领域。

背景技术

在彩色摄影之前，人类所拍摄的均为灰度图像或者视频。在许多应用中，恢复这些灰度图像为彩色是可取的。在历史上，特别是战争年代，各个国家地区除了常服以外大部分是军装，因此对历史影像的着色恢复很大程度上是要解决对人物军装的着色，并且人物军装的颜色搭配是固定的。国内外当前的着色方法通常只关注一般场景，而忽略了如何合理地对人物进行着色，恢复人物衣服的颜色确实是非常重要和具有挑战性。一方面，由于民族差异、姿势、服装类型、时代差异等因素，导致人物色彩化困难重重。另一方面，杂乱无章的背景通常会导致色彩在人的边界上泛滥，也使得着色颜色不够准确。另外，在人物军装着色部分缺失对应的数据集因此也很难恢复出人物军装的颜色。因此，本发明设计了一个现代历史影像数据集解决数据集问题，对应设计了多任务生成对抗网络进行灰度图像着色恢复，其中包含人物解析网络、分类网络和分辨网络的多任务网络解决人物着色的边界溢出和颜色准确的问题，同样，本发明的方法也适用于自然场景的着色恢复。

发明内容

本发明的技术解决问题：克服现有的在当前人物军装图像数据集缺失的缺点下，提供一种基于多任务生成对抗网络的灰度图像着色方法，设计了一个约1.3M大的现代历史影像数据集，其对军装所处的国家、年代和服装类型进行了42种分类。在此数据集之上，提出了多任务生成对抗网络解决着色图像边界不准确，着色颜色不准确的问题，实现了更加高效、快速、准确的着色，使得恢复历史老旧影片中的人物军装成为可能。

本发明的技术解决方案：一种基于多任务生成对抗网络的灰度图像着色方法，包括如下步骤：

步骤1、数据集的准备及建立，为保证收集到的数据集中图像的清晰度，收集清晰的影视材料；包括电视剧，电影和纪录片；对所述影像材料进行切帧为图像，再对所述图像进行预处理以及对图像进行分类，根据年代，国家和服装类型将图像分类为42类标签，便于多任务生成对抗网络对图像进行分类，从而达到准确着色；通过预处理后最终得到图像数量大于等于1.3M，包含42类标签的数据集并命名为现代历史影像数据集(Modern HistoryMovie Dataset，MHMD)；

步骤2、设计多任务生成对抗网络，在包含有历史军装图像的现代历史影像数据集上对多任务生成对抗网络进行训练，实现对人物的准确着色；

所述多任务生成对抗网络中包含生成器和辨别器，将灰度图像输入到生成器中后，生成器生成着色后的图像传输到辨别器中进行辨别着色效果然后将信息反馈给生成器，指导生成器更好的生成着色图像；所述生成器中分为人物解析网络、分类网络和主着色网络；人物解析网络对输入的图像进行解析，将人物的各个部位进行分割并将人物和背景分割开，使得主着色网络能够对各个部分准确着色，避免边界颜色的溢出；分类网络将图像分类为42类标签中的一种，指导主着色网络选择正确的颜色进行搭配着色；主着色网络采用U-Net的方式融合人物解析网络和分类网络获取的输入图像的特征从而实现更加自然准确的着色和颜色修复；

所述辨别器包括分辨网络，所述分辨网络基于InfoGAN进行设计，InfoGAN能够很好地获取图像的Info信息和展示其浅层信息，即细节信息，通过分辨网络获得的256维向量和分类网络获得的256维向量之间建立损失函数约束图像分类更加准确并且能够补充图像浅层信息，以达到更好的着色效果；

步骤3、训练多任务生成对抗网络，将设计的多任务生成对抗网络在现代历史影像数据集上进行训练，得到完整的着色模型，利用此着色模型测试灰度图像的着色效果。本发明中采用消融实验验证人物解析网络和辨别器中的分辨网络的有效性，去掉多任务生成对抗网络中的人物解析网络部分在现代历史影像数据集上进行训练得到消融实验模型，利用此模型和完整的着色模型对同一张图像进行着色，可视化定性的比较两者着色效果，并通过计算LIPIS、SSIM和PSNR三种指标来判断着色效果的好坏；同理进行辨别器中分辨网络的消融实验；

步骤4、使用Human Parsing技术对步骤3中的多任务生成对抗网络进行改进，使得人物解析网络能够实现细粒度的人物解析，达到对人物的各个部位，包括手、服装和头发的分割，并且分割开人物和背景；

步骤5、生成灰度图像的着色图像，得到最终着色效果图，通过使用Human Parsing技术对网络结构进行改进，获得人物各个部分准确地边界从而着色的时候对各个部分着色准确和完整并且避免边界颜色溢出。采用数据指标和可视化两种方式与其他方法进行对比，本发明提出的多任务生成对抗网络能够很好地实现历史人物军装的着色和修复，同样也适用于自然场景的修复。

所述步骤(1)具体实现如下：

(1.1)对收集到的彩色影像材料进行切帧为图像后进行预处理操作，删除灰度图像、人物过多和无人的图像；

(1.2)对预处理后的图像进行分类。根据图像的内容所表现的年代，国家和服装类型将图像分类为42类标签；

(1.3)随机选择图像总数的1％的图像进行手动标签，将标记的1％的图像输入到分类网络ResNet中进行训练以分类所有的图像；

(1.4)对分类错误的图像进行细微调整；

最终得到大于等于1.3M大小的现代历史影像数据集，Modern History MovieDataset，MHMD。

所述步骤(2)中，多任务生成对抗网络的实现包括：

步骤(2.1)输入灰度图像；通过VGG-16网络的前10层获取灰度图像的特征；

步骤(2.2)将提取了特征的灰度图像输入到人物解析网络中，人物解析网络采用不断卷积和上采样的方式计算图像的特征，再以Deeplab-v3技术生成分割图像，并将手工调整后的图像作为真值Ground Truth；基于U-Net的方式将人物解析网络的卷积信息融合到主着色网络中；

步骤(2.3)将提取了特征的灰度图像同样也输入到分类网络中，分类网络分为两个小的分支，一个分支将图像分类信息传递到主着色网络中指导主着色网络根据类别进行着色；另一分支输出预测的输入图像为42类标签中哪一类标签；

步骤(2.4)主着色网络采用卷积和上采样并融入分类信息以及人物解析信息得到；

步骤(2.5)基于InfoGAN，分辨网络获得图像的Info信息从而将图像的浅层信息更好的展示；其次，分辨网络获得的256维向量和分类网络的256维向量共同约束主着色网络中的分类损失从而使得最终着色颜色更加准确；

步骤(2.6)在辨别器中引入WGAN和PatchGAN设计损失函数，引入WGAN避免训练过程中梯度消失和崩溃，PatchGAN使得辨别器能够更好的捕捉和追踪到图像的更多信息。

所述步骤(3)中，多任务生成对抗网络的设计如下：

(3.1)输入灰度图映射到CIE颜色系统的L_ab空间，其中L_ab含义为L表示Light颜色亮度，a表示红色、品红色和绿色之间的位置，b表示黄色和蓝色之间的位置，通过VGG-16网络的前10层，VGG-16提前在Image-Net数据上进行训练，然后通过人物解析网络、分类网络和主着色网络得到预测的着色图像，然后根据生成对抗网络的特点，生成的预测图像再经过辨别器判断效果并将信息反馈给生成器从而进行调整，最终达到最佳的着色效果；

多任务生成对抗网络总损失函数为：

为主着色网络损失；

为分类网络损失；

为人物解析网络损失；

为分辨网络损失；

为辨别器损失，λ_cls,λ_par,λ_g,λ_info参数在训练时取值为：0.003,0.003,0.1,0.003；

(3.2)生成器最终生成一个(a,b)通道的图像，生成器损失函数为：

其中，(L,a_r,b_r)是在L_ab空间上生成的预测的彩色图；L为输入的灰度图像，a_r为预测的彩色图在红色或品红色和绿色之间的颜色位置，b_r为预测的彩色图像在黄色和蓝色之间的颜色位置；P_r是彩色图像的分布；||·||₂为欧式距离；通过计算生成器生成的图像

和预测的图像(a_r,b_r)之间的欧式距离使得结果图像能够更接近于原始图像；

(3.3)人物解析网络使用Deeplab-v3技术生成的图像并用手工调整作为此网络的Ground Truth真值指导此网络对图像进行分割，其损失函数为：

其中，(S,a_r,b_r)中S是人物解析前的图像；(a_r,b_r)是生成的人物解析图像；计算生成的人物解析图像和解析前图像的欧式距离并使其最小化，使得人物解析网络能够更加准确的进行图像中人物的解析，分割出人物各个部位的边界；

(3.4)分类网络通过卷积和全连接一方面将分类信息传递到主着色网络中，另一方面预测出图像的标签，即分类网络获得的42维向量对应数据集中分类的42类标签；传递到主着色网络的256维向量和辨别器中的分辨网络获得的256维向量共同约束分类网络损失，使得分类更加准确最终使主着色网络使用更正确的颜色进行着色；分类网络的损失函数为：

P_rg表示输入的灰度图像的分布；y_v∈R^m为VGG网络分类数据集中的图像获得的分类标签；计算y_v和

之间的KL散度使得

更加拟合VGG网络分类的标签，使得分类网络能够更加准确的分类；

(3.5)利用InfoGAN能够更好表达图像的浅层信息的特点，引入InfoGAN作为分辨网络计算分辨网络获得的图像info信息，其损失函数为：

计算生成图像

和infoGAN之间的KL散度，使得生成的图像尽可能拟合获得的info信息从而生成的图像能够更好地表现出图像的浅层信息；

(3.6)采用WGAN和PatchGAN设计辨别器的损失，其中WGAN使用Earth-Mover距离来计算损失以使损失最小化，并且WGAN避免训练过程中梯度消失和崩溃，使得整个训练过程更加稳定；同时，梯度惩罚中加入Kantorovich-Rubinstein惩罚，最终辨别器损失函数为：

其中，

为

生成的图像的分布模型，

是沿着数据分布P_r和生成器的分布

之间对点之间的直线均匀采样；

为计算彩色图像的辨别器损失值；

为辨别器计算生成器生成的彩色图像的损失；

为Kantorovich-Rubinstein惩罚；

(3.7)多任务生成对抗网络在设计的数据集的1.3M数据上进行训练，一共训练8轮，每训练一轮需要28个小时；使用Adam优化器最小化多任务生成对抗网络总损失函数，并使用动量优化，Adam优化器的指数衰减率参数β₁＝0.5,β₂＝0.999；

输入的灰度图像经过VGG-16的前10层获得图像特征后，分别将图像特征输入到分类网络和人物解析网络进行损失函数的计算，同时，主着色网络融合人物解析网络和分类网络的信息并进行损失函数的计算，然后生成器部分获得(a,b)通道的图像；接着进入到辨别器中的分辨网络，设计并计算分辨网络和分类网络获得的向量之间的损失函数从而约束分类网络更加准确地对图像进行分类，最后再计算整个辨别器的损失函数并将信息反馈到生成器使得整个多任务生成对抗网络能够更好的生成着色图像。

完成整个多任务生成对抗网络的训练之后，本发明通过消融实验验证人物解析网络和辨别器中的分辨网络的有效性，即去掉多任务生成对抗网络中的人物解析网络部分，然后再现代历史影像数据集上进行训练得到消融实验模型。通过可视化和定量指标对比说明各个网络模块的有效性。

所述步骤(4)中，使用Human Parsing对多任务生成对抗网络进行改进如下：

(4.1)将人物解析部分的Deeplab-v3生成分割图像改为使用Human Parsing技术生成分割图像；

(4.2)然后手动调整Human Parsing生成的分割图像作为人物解析网络的真值；

(4.3)通过使用更准确、更细粒的分割技术Human Parsing技术生成分割图像能够更好的指导人物解析网络对输入图像提取更准确的人物解析信息，使得着色边界更加准确。

本发明与现有技术相比的优点在于：

(1)本发明是设计的现代历史影像数据集MHMD(Modern Historical MoviesDataset)是第一个专注于人物军装的数据集，包含大于等于1.3M大小的图像，主要致力并服务于人物军装的着色恢复。

(2)本发明设计的多任务生成对抗网络中包含了人物解析网络和分类网络能够很好地解决人物细粒度的语义分割和对图像进行分类，能够很好解决图像生成中的颜色准确性和边界清晰的问题。

(3)本发明在Deeplab-v3基础上进行人物解析网络的设计，并使用Human Parsing进行最终的人物解析网络的改进，Human Parsing能够很好地对图像中人物进行细粒度的语义分割，分割出人物的手，脸，衣服等部位，将人物解析网络获取的图像信息融合到主着色网络中使得能够很好地对人物各个部分进行着色避免了着色边界的溢出。

(4)本发明针对42类标签设计了分类网络，分类网络能够对图像进行分类预测，从而使得最终生成的图像颜色更加准确。

(5)本发明参考InfoGAN网络设计了分辨网络，获取图像的浅层信息并将最终生成的256维向量和分类网络全连接层的256维向量共同设计为一个损失函数约束分类网络的准确性，从而使最终生成的图像分类更加准确着色更加准确。

(6)本发明使用U-Net的方式将人物解析网络和分类网络的特征层融合到主着色网络中，从而使得主着色网络能够捕获到分类信息和分割信息进而更好的指导最终的着色。

(7)本发明在辨别器的损失函数设计中引入WGAN和PatchGAN，WGAN能够避免训练过程中梯度消失和崩溃，PatchGAN使得辨别器能够更好地捕捉和追踪图像的更多信息，弥补了辨别网络中仅获取图像浅层信息的缺陷。

附图说明

图1为本发明方法的流程框图；

图2为本发明设计的数据集和其他数据集的对比图；

图3为本发明设计的数据集中42类标签的详细信息图；

图4为本发明网络结构图；

图5为本发明的Deeplab-v3和Human Parsing效果对比图；

图6为本发明的模块训练效果图；

图7为本发明的LPIPS、PSNR和SSIM的指标对比图；

图8为本发明的多任务生成对抗网络生成的着色效果图和其他着色方法的对比图。

具体实施方式

为了更好地理解本发明，先对一些基本概念进行一下解释说明。

生成对抗网络：GenerativeAdversarial Networks，GAN是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

InfoGAN：可解释的生成对抗网络，可充分表达图像的浅层信息；

PatchGAN：使用PatchGAN可以生成高分辨率、高细节的图像；

WGAN：去掉了生成器最后一层的激活函数，使得生成对抗网络训练过程更加稳定，避免了梯度消失；

Deeplab-v3：使用带孔卷积技术，有效的增大了卷积过程中的感受野，是一种有效的图像分割方法；

Human Parsing：人体解析技术，将在图像中捕获的人分割成多个语义上一致的区域，例如，头，手臂，衣服等部位。作为一种细粒度的语义分割技术，他比Deeplab-v3技术更具挑战性并且分割效果更好；

LPIPS：使用深度特征度量图像相似度的有效性，能够很好地判断图像之间的差异，LPIPS值越小，表示两幅图像之间差异越小；

PSNR：反映图像质量的指标，PSNR峰值信噪比是图像压缩前后的峰值信噪比，其值越大，表示生成的图像质量越好；

SSIM：SSIM是一种结构相似性指数，是衡量两幅图像之间相似性的指标，其值越大，表示生成的图像和原图越相似；

KL散度：相对熵。描述两个概率分布之间差异的一种方法，它是非对称的；

U-Net：U-Net是比较早的使用全卷积网络进行语义分割的算法之一，论文《U-Net:Convolutional Networks for Biomedical Image Segmentation》中使用包含压缩路径和扩展路径的对称U形结构在当时非常具有创新性，且一定程度上影响了后面若干个分割网络的设计，该网络的名字也是取自其U形形状；

ResNet：深度残差网络，使得训练数百甚至数千层网络得到可能；

LPIPS指标能够很好地判断图像之间的差异，LPIPS值越小，表示两幅图像之间差异越小；PSNR和SSIM指标均是反映图像质量的指标，PSNR峰值信噪比是图像压缩前后的峰值信噪比，其值越大，表示生成的图像质量越好；SSIM是一种结构相似性指数，是衡量两幅图像之间相似性的指标，其值越大，表示生成的图像和原图越相似。

如图1所示，本发明整个实现过程如下：

(1)首先是数据集的准备及建立。本发明收集了147部国内外影片并进行切片裁剪为图像。通过程序处理筛除掉灰度图像、模糊图像和人物过多或无人物的图像；然后对约1.3M的1％的数据进行手动标签，一共为42类标签，如图3所示；如图2为本发明提出的MHMD数据集和其他数据集在色度上的对比，包括与ImageNet数据集、COCO-Stuff数据集和Places数据集的对比；在MHMD数据集上使用ResNet网络进行分类，按照标签二战前(BeforeWorld War II)、二战中(During WWWII)和二战后(After WWWII)分为三类，然后每一类下面分为中国(China)、美国(America)、德国(Germany)、苏联(Russia)、英国(Britain)和日本(Japan)，在每个国家标签下又分为了军装(military uniform)、正装(formal)和非正装(non-formal)；在每个分类标签右侧标记了在MHMD数据集中此类标签含有的图像数量；

(2)设计多任务生成对抗网络。如图4所示为本发明设计的多任务生成对抗网络。主要分为生成器(Generator network)、辨别器(Discriminator Network)两个部分；其中生成器中分为人物解析网络(Parsing network)、分类网络(Classification network)和主着色网络；辨别器中分为分辨网络(ClassifierNetwork)和辨别器。生成器部分：输入的灰度图像Gray进入VGG-16的前10层网络层，即Low-level feature network获取图像的特征，然后输入到人物解析网络，采用不断卷积和上采样的方式计算图像的特征并以Deeplab-v3技术生成的并做手工调整后的图像作为GroundTruth真值，最终得到预测的人物解析图像，Pred.Parsing；分类网络的设计：通过卷积和全连接，分类网络能够获得图像的分类标签并输出42类标签向量；将标签信息传递到生成器的主着色网络中获得(a,b)通道的预测的图像，Pred.AB。最后，主着色网络中融合人物解析网络的网络层特征信息和分类网络特征层信息使得最终着色的图像既学习到图像的分割信息又学习到图像的分类信息从而最终着色图像更加自然，准确；

辨别器含有两个分支，第一个分支分辨网络，基于InfoGAN而设计使得分辨网络能够获得图像的Info信息从而更好的展示图像浅层信息；其次，在分辨网络最后的全连接层获得的256维向量和分类网络的256维向量之间设计了一个损失函数共同约束分类网络对于图像分类的准确度。第二个分支是辨别器，本发明引入WGAN和PatchGAN的方式设计损失函数，WGAN能够避免训练过程中梯度消失和崩溃，PatchGAN使得辨别器能够更好地捕捉和追踪图像的更多信息，弥补了辨别网络中仅获取图像浅层信息的缺陷；

(3)训练多任务生成对抗网络。本发明采用WGAN和PatchGAN来设计辨别器的损失，其中WGAN使用Earth-Mover距离来计算损失以使其最小化，并且WGAN可避免训练过程中梯度消失和崩溃从而使得整个训练过程更加稳定；同时，本发明的梯度惩罚中加入了Kantorovich-Rubinstein惩罚。本发明的多任务生成对抗网络在本发明设计的MHMD数据集的1.3M数据上进行训练，一共训练8轮，在Nvidia titan X pascal显卡上每训练一轮大约需要28个小时。本发明使用Adam优化器最小化多任务生成对抗网络总损失函数，并使用了动量优化，其矩估计的指数衰减率参数为β₁＝0.5,β₂＝0.999；然后采用消融实验验证多任务生成对抗网络中人物解析网络和分辨网络的有效性。在保持其余所有的不变的情况下，仅分别去掉多任务生成对抗网络中的人物解析网络和分辨网络模块，并分别进行训练。如图6所示为多任务生成对抗网络进行各个网络模块的训练之后的效果图，可以看出人物解析网络能够很好地将人物各个部分以及和背景分割开，但是着色准确度上却不及分辨网络，而分辨网络缺乏分割从而颜色容易溢出原定范围，由此可见人物解析网络和分辨网络必不可少；

(4)使用Human Parsing改进多任务生成对抗网络。如图5所示，Deeplab-v3比Human Parsing的分割效果差，导致了最终着色的效果也不佳。Deeplab-v3仅分割人物和背景，而Human Parsing分割了人物和背景之后，还分割了人物每个部分，包括人物的头，脸和手臂等，由于Human Parsing分割效果更好更细致因此引入到人物解析网络中改进多任务生成对抗网络，从而使得最终生成的着色效果图能够在各个既定的部分着色且边界清晰；

(5)最后，本发明将提出的多任务生成对抗网络着色的效果图和其他着色方法得到的效果图进行指标上和可视化对比，如图7，8所示。数据指标上：本发明采用了LPIPS、PSNR和SSIM三个指标判断各个模块对着色的影响。LPIPS指标能够很好地判断图像之间的差异，LPIPS值越小，表示两幅图像之间差异越小；PSNR和SSIM指标均是反映图像质量的指标，PSNR峰值信噪比是图像压缩前后的峰值信噪比，其值越大，表示生成的图像质量越好；SSIM是一种结构相似性指数，是衡量两幅图像之间相似性的指标，其值越大，表示生成的图像和原图越相似。

可视化对比：本发明和其他6种方法进行对比。如图8所示，其他方法要么存在颜色不正确的情况，要么存在颜色溢出既定范围的情况，而我们的方法在颜色准确性和边界准确度上都比其他方法更好。

上述各步骤的具体实现过程如下：

1.多任务生成对抗网络的设计

本发明中使用的多任务生成对抗网络的结构图如图2所示，其生成器详细设计如下：

首先是人物解析网络，采用不断卷积和上采样的方式计算图像的特征并以Deeplab-v3技术生成的并做手工调整后的图像作为Ground Truth；根据U-Net的信息传递方式将人物解析网络的卷积信息传到主着色网络中。通过人物解析网络可以使得着色图像中人物各个部位(例如脸、手和衣服)的边界和人物与背景的边界更加清晰；其次是分类网络的设计：通过卷积和全连接，分类网络能够获得图像的分类标签并输出42类标签向量；将标签信息传递到生成器的主着色网络中使得着色的图像更加准确。最后，主着色网络中融合人物解析网络的网络层特征信息和分类网络特征层信息使得最终着色的图像既学习到图像的边界分割信息又学习到图像的分类信息从而最终着色图像更加自然，准确。

辨别器含有两个分支，第一个分支分辨网络，基于InfoGAN而设计使得分辨网络能够获得图像的Info信息从而更好的展示图像浅层信息；其次，在分辨网络最后的全连接层获得的256维向量和分类网络的256维向量之间设计了一个损失函数共同约束分类网络对图像分类的准确度。第二个分支是辨别器，本发明引入WGAN和PatchGAN的方式设计损失函数，WGAN能够避免训练过程中梯度消失和崩溃，PatchGAN使得辨别器能够更好地捕捉和追踪图像的更多信息，弥补了辨别网络中仅获取图像浅层信息的缺陷。

基于以上分析，使得着色的生成对抗网络可以实现人物解析、标签分类和着色的多任务，最终使得着色的图像更加准确自然。

2.多任务生成对抗网络的训练

设计完多任务生成对抗网络的网络结构图，之后需要设计其损失函数。详细的损失函数设计如下：

(1)输入灰度图映射到CIEL_ab空间通过VGG-16网络的前10层，VGG-16提前在Image-Net数据上进行训练。然后通过人物解析网络、分类网络和着色主网络得到预测的着色图像，然后根据生成对抗网络的特点，生成的预测图像再经过辨别器判断效果并将信息反馈给生成器从而进行调整，最终达到最佳的着色效果。总损失函数为：

(2)生成器最终生成一个(a,b)通道的图像，生成器损失函数为：

(3)人物解析网络使用Deeplab-v3技术生成的图像并用手工调整作为此网络的Ground Truth真值指导此网络对图像进行分割，其损失函数为：

(4)分类网络通过卷积和全连接一方面将分类信息传递到主着色网络中，另一方面可预测出图像的标签，即分类网络获得的42维向量对应数据集中分类的42类标签；传递到主着色网络的256维向量和辨别器中的分辨网络获得的256维向量共同约束分类网络损失使得分类更加准确最终使主着色网络使用更正确的颜色进行着色；分类网络的损失函数为：

之间的KL散度使得

(5)利用InfoGAN能够更好表达图像的浅层信息的特点，本发明引入InfoGAN作为分辨网络计算分辨网络获得的图像info信息，其损失函数为：

P_rg表示输入的灰度图像的分布；计算生成图像

(6)本发明采用WGAN和PatchGAN来设计辨别器的损失，其中WGAN使用Earth-Mover距离来计算损失以使其最小化，并且WGAN可避免训练过程中梯度消失和崩溃从而使得整个训练过程更加稳定；同时，本发明的梯度惩罚中加入了Kantorovich-Rubinstein惩罚，最终辨别器损失函数为：

其中，

为

生成器生成的图像的分布模型，

是沿着彩色图像的数据分布P_r和生成器的分布

之间对点之间的直线均匀采样；

为计算彩色图像的辨别器损失值；

为辨别器计算生成器生成的彩色图像的损失；

为Kantorovich-Rubinstein惩罚；

(7)本发明的多任务生成对抗网络在本发明设计的现代历史影像数据集MHMD的1.3M数据上进行训练，一共训练8轮，在Nvidia titan X pascal显卡上每训练一轮大约需要28个小时。本发明使用Adam优化器最小化目标损失函数，并使用了动量优化，动量优化的矩估计的指数衰减率参数为β₁＝0.5,β₂＝0.999。

(8)为证明多任务生成对抗网络中人物解析网络和分类网络的有效性，本发明对这两个网络模块进行控制变量的单独训练，即消融实验，其详细情况为：在保持其余所有的不变的情况下，仅分别去掉多任务生成对抗网络中的人物解析网络和分辨网络模块，并分别进行训练。如图6所示为多任务生成对抗网络进行各个网络模块的训练之后的效果图，可以看出人物解析网络能够很好地将人物各个部分以及和背景分割开，但是着色准确度上却不及分辨网络，而分辨网络缺乏分割从而颜色容易溢出原定范围，由此可见人物解析网络和分辨网络必不可少；

3.使用Human Parsing对多任务生成对抗网络进行改进

由于Deeplab-v3技术在图像分割准确度上存在缺陷，因此使用Human Parsing技术对多任务生成对抗网络进行改进，详细的改进如下：

如图5所示，由于Deeplab-v3技术只能将图像中人物和背景进行分割，并且分割效果不佳。例如，对于颜色稍暗的图像并不能很好的识别边界，这使得最终着色的效果图边界模糊，因此本发明使用Human Parsing技术对这部分进行改进。Human Parsing技术是对人物各个部位进行细粒度的语义解析，例如可以将人物和背景分开，也能将人物的服装、脸、左右手臂和其他语义部位进行分割。这种精细的分割能够使得最终着色边界更加准确。

4.生成着色效果图并作对比

本发明采用数据指标和可视化两种对比方式。数据指标上：本发明采用了LPIPS、PSNR和SSIM三个指标判断各个模块对着色的影响。LPIPS指标能够很好地判断图像之间的差异，LPIPS值越小，表示两幅图像之间差异越小；PSNR和SSIM指标均是反映图像质量的指标，PSNR峰值信噪比是图像压缩前后的峰值信噪比，其值越大，表示生成的图像质量越好；SSIM是一种结构相似性指数，是衡量两幅图像之间相似性的指标，其值越大，表示生成的图像和原图越相似。如图7所示，本发明的方法在LPIPS、PSNR和SSIM指标上都胜过其他的方法。

可视化对比：本发明和其他6种方法进行对比。如图8所示，其他方法要么存在颜色不正确的情况，要么存在颜色溢出既定范围的情况，而本发明的方法在颜色准确性和边界准确度上都比其他方法更好。

Claims

1.一种基于多任务生成对抗网络的灰度图像着色方法，其特征在于，包括如下步骤：

步骤1、收集清晰的影视材料，建立数据集；所述影视材料包括电视剧，电影和纪录片；对所述影像材料进行切帧为图像，再对所述图像进行预处理以及对图像进行分类，根据年代，国家和服装类型将图像分类为42类标签，便于多任务生成对抗网络对图像进行分类，达到准确着色；通过预处理后最终得到图像数量大于1.3M，包含42类标签的数据集并命名为现代历史影像数据集(Modern History Movie Dataset，MHMD)；

所述多任务生成对抗网络中包含生成器和辨别器，将灰度图像输入到生成器中后，生成器生成着色后的图像传输到辨别器中进行辨别着色效果然后将信息反馈给生成器，指导生成器更好的生成着色图像；所述生成器中分为人物解析网络、分类网络和主着色网络；人物解析网络对输入的图像进行解析，将人物的各个部位进行分割并将人物和背景分割开，使得主着色网络能够对各个部分准确着色，避免边界颜色的溢出；分类网络将图像分类为42类标签中的一种，指导主着色网络选择正确的颜色进行搭配着色；主着色网络采用U-Net的方式融合人物解析网络和分类网络获取的输入图像的特征，实现更加自然准确的着色和颜色修复；

步骤3、训练多任务生成对抗网络，将设计的多任务生成对抗网络在现代历史影像数据集上进行训练，得到完整的着色模型，利用此着色模型测试灰度图像的着色效果；

步骤5、生成灰度图像的着色图像，得到最终着色效果图，通过使用Human Parsing技术对网络结构进行改进，获得人物各个部分准确地边界，着色的时候对各个部分着色准确和完整并且避免边界颜色溢出。

2.根据权利要求1所述的一种基于多任务生成对抗网络的灰度图像着色方法，其特征在于：所述步骤(1)具体实现如下：

(1.4)对分类错误的图像进行细微调整；

3.根据权利要求1所述的一种基于多任务生成对抗网络的灰度图像着色方法，其特征在于：所述步骤(2)中，多任务生成对抗网络的实现包括：

4.根据权利要求1所述的一种基于多任务生成对抗网络的灰度图像着色方法，其特征在于：所述步骤(3)中，多任务生成对抗网络的设计如下：

多任务生成对抗网络总损失函数为：