CN114299184B

CN114299184B - 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置

Info

Publication number: CN114299184B
Application number: CN202111654394.9A
Authority: CN
Inventors: 耿生玲; 王福波; 张丹
Original assignee: Qinghai Normal University
Current assignee: Qinghai Normal University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-09-06
Anticipated expiration: 2041-12-30
Also published as: CN114299184A

Abstract

本发明涉及一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置，包括预构建线稿上色模型；所述深度神经网络模型包括预训练的语义分割网络、生成器以及判别器，对所述线稿上色模型进行训练，将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出目标上色图像。本发明通过预训练的语义分割网络划彩绘线稿图中的不同部件的语义区域，指导预训练图像的颜色定位到藏式建筑彩绘线稿图的不同位置，能够精准着色到不同区域，同时也提升了渐变色的模拟效果。本申请对语义标签进行赋色并完成颜色扩展，从而达到辅助上色的目的。

Description

基于语义匹配的藏式建筑彩绘线稿图上色方法及装置

技术领域

本发明属于计算机技术领域，具体涉及一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置。

背景技术

藏式建筑彩绘是热贡艺术中的重要组成部分，也是国家级非物质文化遗产之一。其中最具有代表性的就是唐卡(Thang-ga)，指的是用彩缎装裱后悬挂供奉的宗教卷轴画，是藏族文化中一种独具特色的绘画艺术形式，具有鲜明的民族特色。藏式建筑彩绘传统工艺包含的工序极其繁琐，最为重要的一道工序就是着色，首先对线笔勾勒出的佛像等构件形成的线稿图结合主客观因素灵活涂色完成线稿的着色，然后对着色后的唐卡进行晕染，赋予唐卡绘画中的事物真实的质感与立体感。藏式建筑彩绘的颜料配制极其考究，传统上用黄金、白银、珊瑚、珍珠、孔雀石、松石、朱砂等珍贵矿物原料以及藏红花、大黄、蓝靛等植物原料经过加工作为绘画颜料，绘制出来的艺术品可以保存上千年之久。传统的藏式建筑彩绘主要分为普通彩绘、黑金、红金、蓝金、黄金等绘制工艺类型，这对仿真上色算法生成效果的多样性要求较高。计算机仿真难以模拟传统的绘画工艺，特别是这类线条颜色较为复杂的画作。

着色这一阶段耗资耗时耗力，一旦在着色过程中出现失误，将前功尽弃，造成不可挽回的损失，特别是对于一幅已经完成的彩绘，如果想绘制成不同工艺的效果，每一次都需要重新绘制底稿、调色、重新上色，且绘制出的艺术效果不可预见。如果可以预见线稿图的上色效果将会事半功倍，本文针对藏式建筑彩绘线稿图自动上色问题进行研究，用户可选定绘制工艺类型作为输入条件，预训练模型自动语义匹配对应的部件，根据用户所选定的绘制工艺类型对输入的藏式建筑彩绘线稿图进行颜色渲染，结合辅助上色模块进行颜色校准，生成与真实艺术品色彩风格相近的彩绘图。用户可以通过选定不同的绘制工艺类型，就可快速获得线稿图不同的渲染效果。

相关技术中，图像上色是计算机视觉领域的研究热点之一，与一般的图像上色不同，对象上色规则极其考究，无随意性，当前深度学习的兴起和发展对其产生了很大的促进作用。基于深度学习框架灰度图上色方面的研究取得了较快的进展，上色算法依据灰度图自身携带的亮度、纹理信息识别不同的语义对象，进而渲染出自然真实的图像色彩，还原度较高；但是对于研究对象是线稿图的直接上色，线稿图仅勾勒物体的外形轮廓和主要线条，没有亮度以及明暗信息，这就导致上色过程中对线稿对象语义的辨识和艺术效果处理上具有一定的难度。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置，以解决现有技术中对于研究对象是线稿图的直接上色，上色过程中对线稿对象语义的辨识和艺术效果处理上具有一定难度的问题。

为实现以上目的，本发明采用如下技术方案：一种基于语义匹配的藏式建筑彩绘线稿图上色方法，包括：

S101，预构建线稿上色模型；所述深度神经网络模型包括预训练的语义分割网络、生成器以及判别器；

S102，对所述线稿上色模型进行训练，包括：

对高分辨率线稿图和彩色高清图进行预处理，得到语义标签图；

将高分辨率线稿图和彩色高清图输入生成器的子生成器中，生成彩色图像；

将所述彩色图像和语义标签图输入到生成器的辅助生成器中，所述辅助生成器根据所述语义标签图对所述彩色图像进行上色处理，生成带有语义信息及语义匹配颜色标注的渲染图像；

将所述高分辨率线稿图和所述渲染图像作为假样本数据集，将高分辨率线稿图和彩色高清图作为正样本数据集，将所述负样本数据集和正样本数据集输入到判别器中，利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型；

S103，将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出带有语义信息及语义匹配颜色标注的目标上色图像。

进一步的，所述语义标签图包括线稿标签图和高清标签图；所述对高分辨率线稿图和彩色高清图进行预处理，得到语义标签图，包括：

将彩绘线稿图输入到预训练的语义分割网络中，得到线稿标签图；

将彩绘高清图输入到预训练的语义分割网络中，得到高清标签图。

进一步的，所述利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型，包括：

将所述渲染图像和高分辨率线稿图输入到判别器中，所述判别器将所述彩色高清图和所述渲染图像划分为多个预设尺寸的图像块，将所述彩色高清图的图像块与所述渲染图像中对应的图像块进行对比，评估所述渲染图像的每个图像块的生成质量，将所有评估结果的平均值作为目标函数的损失函数以更新所述生成器和判别器的网络参数，得到训练好的线稿上色模型。

进一步的，所述将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，包括：

将待处理线稿图和需要生成的工艺类型输入到生成器中；

所述生成器调用所述工艺类型相应的接口对所述待处理线稿图进行颜色渲染；其中，颜色来源于预存储的彩图RGB值。

进一步的，所述判别器采用多尺度判别器；

采用平均池化来进行下采样处理操作，所述平均池化操作的核尺寸大小设定为3，步长参数设定为2，填充参数设定为1，每个尺度设有五个卷积层，卷积核尺寸大小均设为4，输入的特征维度，经前面四层卷积会转化成512维，最后一层转化为一个维度，输出结果；

将彩色高清图和所述渲染图像划分成一系列70×70的图像块，判别器对渲染图像的每一图像块的生成质量进行评估比较，结合平均损失对权值优化得到渲染图像的判别结果并将其更新至生成模型和判别模型的网络参数中。

进一步的，所述子生成器包括：

转换模块，用于将所述彩绘线稿图转换成彩图，所述转换模块采用以U-Net为基础的网络结构；

颜色学习模块，用于提取训练集中对应工艺类型彩图的颜色信息。

进一步的，所述辅助生成器包括：

辅助上色与颜色校准模块，用于根据所述语义标签图对所述彩色图像进行颜色校准；

渐变颜色生成模块，用于实现渐变效果；

语音定位模块，用于提升各个语义区域的颜色渲染效果。

进一步的，所述线稿上色模型采用生成对抗网络。

本申请实施例提供一种基于语义匹配的藏式建筑彩绘线稿图上色装置，包括：

构建模块，用于预构建线稿上色模型；所述深度神经网络模型包括预训练的语义分割网络、生成器以及判别器；

训练模块，用于对所述线稿上色模型进行训练，包括：

预处理单元，用于对高分辨率线稿图和彩色高清图进行预处理，得到语义标签图；

生成单元，用于将高分辨率线稿图和彩色高清图输入生成器的子生成器中，生成彩色图像；

上色单元，用于将所述彩色图像和语义标签图输入到生成器的辅助生成器中，所述辅助生成器根据所述语义标签图对所述彩色图像进行上色处理，生成带有语义信息及语义匹配颜色标注的渲染图像；

训练单元，用于将所述高分辨率线稿图和所述渲染图像作为假样本数据集，将高分辨率线稿图和彩色高清图作为正样本数据集，将所述负样本数据集和正样本数据集输入到判别器中，利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型；

输出模块，用于将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出带有语义信息及语义匹配颜色标注的目标上色图像。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置，本发明涉及一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置，包括预构建线稿上色模型；所述深度神经网络模型包括预训练的语义分割网络、生成器以及判别器，对所述线稿上色模型进行训练，将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出目标上色图像。本发明通过预训练的语义分割网络划彩绘线稿图中的不同部件的语义区域，指导预训练图像的颜色定位到藏式建筑彩绘线稿图的不同位置，能够精准着色到不同区域，同时也提升了渐变色的模拟效果。本申请对语义标签进行赋色并完成颜色扩展，从而达到辅助上色的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于语义匹配的藏式建筑彩绘线稿图上色方法的步骤示意图；

图2为本发明基于语义匹配的藏式建筑彩绘线稿图上色方法的流程示意图；

图3为本发明提供的线稿上色模型的流程示意图；

图4为本发明线稿上色模型的生成器的结构示意图；

图5为本发明Pix2PixHD结构示意图；

图6为本发明基于CE2P框架的语义分割模块网络结构图；

图7为本发明基于曲率的角点检测算法渐变色渲染过程示意图；

图8为本发明训练阶段SMAC-CGAN生成器网络流程图；

图9为本发明基于语义匹配的藏式建筑彩绘线稿图上色装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

目前在线稿图自动上色方面的研究方法可大致分成两大类：其一是用户通过交互分割区域，利用先验知识进行颜色标注、彩色语义词、纹理定位等形式进行色彩区域填充，这类上色方法生成的图像通常缺少立体感，纹理细节方面生成效果较差，并且需要在繁琐的交互下完成。Zhang等人通过区分线稿图各部件标注相应的颜色线条，用条件生成对抗网络对同属区域进行颜色扩展完成上色，算法通过多次调整线条色彩能实现精细化的上色。其二是利用参考图像实现色彩风格迁移，HX等人提出了一种多模态无监督图像到图像转换(MUNIT)框架，将其内容空间与从目标域的风格空间中采样的随机样式代码重新组合，通过风格与内容的分离，保留局部特征，融入不同参考图像的风格特征实现多模态输出，同时也引入了过渡复杂的判别器与生成器.Li等人通过打乱原作的几何结构等摄动操作生成原作摄动图，采用“原作摄动图-花卉线稿图”数据对进行网络训练，降低了模型对原作空间几何结构的依赖性，该算法对用户选择的参考图像的颜色语义具有正确的响应，所引入的“语义定位+颜色编码”的结构设计，提升了对渐变色的模拟效果，实现了在不同参考图像指导下的花卉线稿图的工笔效果上色，可快速生成多样化的上色结果。Zhang等人使用预训练好的视觉几何组网络提取彩色参考图像的颜色特征作为条件信息，并将其加入到以条件生成对抗网络为生成网络的结构中，增强上色过程对颜色的可控性。Zhu等人基于条件生成对抗网络(CGAN)，改进和增强人像线稿图自动上色算法中常用的U型网络(U-Net)生成器的结构，设计双层信息抽取的生成器网络，自动完成场景线稿到动漫效果的上色。2016年，Gatys等人通过深度卷积神经网络实现艺术风格传递(aneuralalgorithmofartisticstyle，ANAS)，当参考图像的艺术风格鲜明奔放时(如印象派油画、波普艺术)，迁移的效果较好，但藏式建筑彩绘色彩典雅工丽，使用该方法上色效果不佳；Lee等人提出了对原作进行扭曲、颜色扰动等得到训练彩图，然后分别提取训练彩图和线稿图的卷积特征，在语义层面上寻找二者不同区域最匹配的图像块，从而实现线稿图上色.但是由于线稿图和彩色图携带的信息差异较大，语义匹配时容易出错，生成图像易出现色彩失真。上述各种方法在线稿图上色方面取得了一定的效果，但是当预训练图像和输入的线稿图结构差异较大时，易产生语义信息匹配错误而导致上色错误、溢出等问题；并且由于这些上色过程缺乏针对工笔画特有的渐变色进行模拟的功能设计，因而用于藏式建筑彩绘上色的模拟效果不佳。

下面结合附图介绍本申请实施例中提供的一个具体的基于语义匹配的藏式建筑彩绘线稿图上色方法及装置。

如图1所示，本申请实施例中提供的基于语义匹配的藏式建筑彩绘线稿图上色方法，包括：

S102，对所述线稿上色模型进行训练，包括：

优选的，所述语义标签图包括线稿标签图和高清标签图；所述对高分辨率线稿图和彩色高清图进行预处理，得到语义标签图，包括：

基于语义匹配的藏式建筑彩绘线稿图上色方法的工作原理为：参见图2，在整个藏式建筑彩绘线稿图上色的训练过程中，网络由预训练的语义分割网络、生成器(子生成器与辅助生成器)以及判别器三个主要部分构成，SMAC-CGAN方法的网络训练。

本申请线稿上色模型的训练过程为：首先将高分辨率线稿图和彩色高清图作为生成器的输入，生成器包括子生成器和辅助生成器，结合辅助上色模块，提取关键特征生成彩色图像；然后将高分辨率线稿图与生成图像作为负样本数据对，高分辨率线稿图与藏式建筑彩绘高清图作为正样本数据对作为判别模型的输入，以此识别真假图像。通过提取这些真假图像的特征得到实伪类别区分的特征矩阵，同时利用概率输出函数判断真伪概率，根据判别器的损失更新迭代每次训练模型的权重。为了识别藏式建筑彩绘线稿图不同的语义区域，构建了藏式建筑彩绘语义分割高清数据集，并预训练了一个语义分割网络对藏式建筑彩绘线稿图进行分割，训练时分割得到的语义标签图连同藏式建筑彩绘线稿图同时输入进生成器中，在语义标签图的指导下，生成器网络学习藏式建筑彩绘线稿图和预训练数据图像之间的结构语义关系，根据藏式建筑彩绘不同部件的语义信息，来解决藏式建筑彩绘图像彩色分布对应及空间一致性的问题，进而实现线稿图上色。

一些实施例中，所述利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型，包括：

优选的，所述将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，包括：

将待处理线稿图和需要生成的工艺类型输入到生成器中；

需要说明的是，应用阶段的网络流程如图3所示，首先将高分辨率藏式建筑彩绘线稿图输入到生成器中进行辅助上色；然后将生成的图像和线稿图以及选定需要生成的工艺类型(比如彩绘工艺)一起作为输入进入到生成器中。生成器将自动根据所选工艺类型调用相应接口，将藏式建筑彩绘线稿图生成带有语义信息及语义匹配颜色标注的半渲染图像，其中的颜色来源于数据库中先前采集的彩图RGB值。本申请能够达到的有益效果包括：

(1)藏式建筑彩绘的绘制对色彩要求极其苛刻且采用标准化色彩，此时生成的半渲染图像中的色彩RGB值由先前工作所采集的藏式建筑彩绘颜料色彩RGB值作为参考，从而可以保证输出图像的色彩风格；

(2)结合手绘线稿图中非黑即白以及彩绘着色的特点，利用基于YUV颜色模型中亮度近似的像素在封闭空间内应当具有相近的颜色这一理论对各部件区域进行像素级着色，使得对高分辨率藏式建筑彩绘线稿图的着色细节处理的更细致，同时减少算法的时间复杂度；

(3)优点(2)中所提到的着色方法对各部件边缘部分有着较好的着色效果，不会产生边缘处颜色含糊不清的现象。生成的半渲染图像可以对同质区域进行色彩扩展完成上色，经过和含有辅助上色与颜色校准模块生成的图像融合，最终渲染成符合用户所选类型色调信息的藏式建筑彩绘，通过选取不同工艺类型的藏式建筑彩绘，可以快速将藏式建筑彩绘线稿图渲染成符合用户所选工艺类型色调的彩图。

本申请中，所述线稿上色模型采用生成对抗网络。生成高质量的图像对于生成对抗网络(Generative Adversarial Network，GAN)来说是一个具大的挑战，判别高质量的真伪图像更是如此。GAN框架中的判别器可以指导生成器输出真实的图像，但对于藏式建筑彩绘这类须具有高分辨率和高清细节的图像来说，普通的GAN判别器并不适用。为了保证判别的正确率以及考虑到藏式建筑彩绘上色过程中对于细节方面要求较高，本文采用块鉴别器(Patch Generative Adversarial Network，PatchGAN)对模型进行判别评估，这种训练方式更注重图像的局部细节。基于多尺度的判别器对生成器输出的高清图像和真实图像在多个尺度下进行判别，在生成图像的边缘颜色处理、颜色过渡、颜色渐变等方面的模拟效果极优，判别器基于多尺度判别器和PatchGAN，由两个尺度的判别器构成：首先采用平均池化来进行下采样处理操作，这里池化操作的核尺寸大小设定为3，步长参数设定为2，填充参数设定为1，每个尺度设有五个卷积层，卷积核尺寸大小均设为4，输入的特征维度，经前面四层卷积会转化成512维，最后一层转化为一个维度，输出结果。这里将图像划分成一系列70×70(PatchGAN的最佳感受野大小)的图像块，判别器对每一图像块的生成质量进行评估比较，结合平均损失对权值优化最终得到整幅图的判别结果并将其更新至生成器和判别器的网络参数中。

本申请中线稿上色模型的损失函数是其进行反向传播调整参数的一个重要参考，为了更好的完成藏式建筑彩绘图像精准着色，该方法的损失函数由两部分组成，一是CGAN的损失函数，如公式(1)所示，生成器G迭代尝试最小化下面的目标函数，而D则通过迭代尝试最大化这个目标函数。为了惩罚网络生成图像与真实图像的色彩差异，损失函数的第二部分是由损失函数L₁所构成，见公式(2)，L₁损失严格要求生成图像与真实图像保持像素对齐，而这有可能导致生成图像颜色分布不均，为此第三部分新增了L_f特征损失，见式(3)，使得生成图像和藏式建筑彩绘高清图在高层语义上保持对齐。

L_CGAN(G,D)＝E_x,y[log D(x,y)]+E_x,z[log(1-D(x,G(x,z)))] (1)

因此线稿上色模型最终的损失函数L_SMAC-CGAN如下:

其中，λ₁，λ_f，分别表示L₁损失，L_f特征损失的正则系数，x表示藏式建筑彩绘线稿图，y表示藏式建筑彩绘高清图；G(x，z)表示生成器以藏式建筑彩绘线稿图x和所选定的工艺类型中的预训练数据高清图z为输入时的生成结果，使用ImageNet2012图像数据集上的预训练模型VGG16对y藏式建筑彩绘高清图或生成图像G(x，z)提取中间层特征，用φ(y)和φ(G(x，z))表示；D(x，y)与D(x，G(x，z))表示输入的图像y或G(x，z)属于真实图像且跟藏式建筑彩绘线稿图x中线条结构相同的概率。

优选的，所述子生成器包括：

所述辅助生成器包括：

渐变颜色生成模块，用于实现渐变效果；

语音定位模块，用于提升各个语义区域的颜色渲染效果。

对于线稿图转换成彩图这类图像上色问题，现有的生成器结构通过编码器将现有图像编码至低维向量，提取图像特征并对应相应的元素，然后由生成器解码网络还原输入图像空间，以此来减少重建误差，实现图像的异质转换。由于卷积网络的池化层会丢失非常多有价值的信息，比如空间特征、关联结构以及线条信息，特别是线稿图这类特征较少的图像，通常会导致生成结果缺乏立体感、边缘模糊及颜色溢出等。针对以上不足，SMAC-CGAN的生成器选用U-Net作为基础框架，有的CGAN使用的是Encoder-decoder模型作为生成器，但是相比之下，U-Net效果会更好，因为上采样时加入了底层的特征信息，保证了生成图像具有较高的分辨率。假设总共有n层，那么第i层和第n-i层之间有跳跃连接U-Net的这种跨层连接结构保证了细节信息不会丢失，将编码过程中提取到的特征复用到解码过程中，该结构设计保证了特征信息在传递过程中的稳定性，避免了偏重深层特征而丢失浅层特征的这一现象。

本申请中生成器网络结构采用改进的Pix2PixHD结构并且带有残差网络块组，主网络大体结构分为：三个下采样层，九个残差网络块组，后面再接三个上采样层，如图5所示，下采样层中卷积的卷积核大小为3，步长参数设定为2，填充参数设定为1，每经过一个下采样特征维度就会翻倍。用残差网络块组的结构代替跳跃连接，残差网络块组由两个卷积组成，特征维度保持变。上采样层中反卷积的卷积大小为3，步长参数设定为2，填充参数设定为1，每经过一个上采样特征维度就会变为原来的一半并将输入与输出连接起来。

如图4所示，SMAC-CGAN的生成器共10层，卷积核采用4×4的大小，各层的具体参数详见表1。其中Conv2D表示为2维卷积层，Deconv表示为反卷积，Conditional IN表示条件实例归一化，ReLU表示为修正线性单元，LReLU表示为带泄露修正线性单元，TanH表示为双曲正切函数。除最后一层外，所有的层都会接批归一化操作和ReLU激活函数，最后一层的激活函数为TanH。

一些实施例中，藏式建筑彩绘线稿图上色仿真任务属于细粒度工作，语义区域分割与定位的精确度至关重要，以确保颜色可以精准定位到不同位置。由于藏式建筑彩绘中人物形象居多，为了提高语义分割任务的效率，本文采用基于边缘感知的上下文嵌入方法(Context Embedding with Edge Perceiving，CE2P)。基于边缘感知的上下文嵌入人体解析方法，其中上下文嵌入模块用以编码多尺度的上下文信息，高分辨率嵌入模块用以放大特征图来复原细节，边缘感知模块用于整合对象轮廓边缘的特征，细化解析预测结果的边界。该方法模型将以上三个功能模块进行整合，最终实现融汇上下文嵌入特征、低维特征、边界语义信息的人体解析模型，此方法能够实现端到端的语义训练结果。CE2P将局部细节部件，上下文信息特征和边缘信息融合到一个网络结构中，使用Resnet-101作为特征提取骨干，其网络结构如图6所示。

SMAC-CGAN基于改进后的Pix2PixHD作为网络主体结构，将藏式建筑彩绘语义信息作为生成器网络模型的输入条件之一，并应用到藏式建筑彩绘线稿图着色任务之中。与Pix2Pix相比，Pix2PixHD模型架构有很多改进之处，比如:Pix2PixHD可以生成更质量的图像。整个生成器网络结构由两部分组成，第一部分的生成器与Pix2Pix结构类似，不同点在于将U-Net瓶颈层替换为残差块组，较跳跃连接的方式相比，利用残差结构可以更好的保留细节，以致着色后不会导致图像失真。第二部分的生成器特点在于具有更大规模的参数模型，同时在瓶颈层中间处加入了第一部分的生成器提取到的中间特征信息，使得整个生成器可以生成更高分辨率的图像。生成器模型输入线稿图X∈R^H×W×1和语义掩码M∈R^H×W×1作为条件，其中H、W代表图像的高度与宽度，k为彩绘语义的分类个数，k值越大，分类就更加详细。针对具体的藏式建筑彩绘，其语义划分应更具有民族特色，分别设置的语义类别为头饰、面部、眼睛、嘴巴、耳朵、身体、胳膊、手、脚、飘带、袍子、裙子、裤子、花朵、叶子、法器、配饰、背景等20余个分类。生成器模型输出结果为预测的两个色彩通道Y∈R^H×W×2，输出为双通道的原因是选择的颜色空间为YUV色彩空间，只需预测对应U、V的颜色通道即可，最后再与亮度通道Y进行拼接，这样就构成了完整的YUV三个通道色彩空间信息。在判别器模型中一般可分为两种类别输入，由生成器输出的彩色图像与真实的彩色图像。本文设置单通道线稿图信息作为生成图像输入之一，之后再将从生成器预测的两个颜色通道以及语义掩码信息同时作为生成图像输入，将三者按顺序特征拼接后作为生成图像并输入到判别器中，另一边真实的藏式建筑彩绘彩色图像和语义掩码信息特征拼接后作为真实图像的输入。这里判别器的输入设置不只是生成图像或真实彩色图像，而是两者与各自对应的语义信息拼接后的结果。

首先将线稿图与各语义掩码信息作为生成器的输入条件，其中线稿图在YUV色彩空间为单通道，掩码信息是藏式建筑彩绘各类语义，表示藏式建筑彩绘各部件区域掩码。掩码信息的通道数与语义分类数一致，每个通道都由0和l组成，进而描述藏式建筑彩绘不同部件区域语义信息。然后将线稿图与语义掩码信息特征拼接后输入到生成器模型中，在这里生成器的瓶颈层使用的是残差网络块组并且带有跳跃连接。生成器最终输出线稿图预测的在YUV色彩空间的UV两个通道，再将其与线稿图进行拼接，最终输出假的生成图像。本文不仅将生成器输出的假的图像输入到判别器，而且同时输入语义掩码信息，将两者进行拼接再交由判别器，同时对于真实图像也是与其语义掩码信息进行特征拼接，作为判别器的输入。

对于辅助生成器的原理具体为：其中，辅助上色与颜校准模块输入为带有颜色标签的语义标注图，输出为藏式建筑彩绘彩图。

渐变颜色生成模块用于藏式建筑彩绘制作过程中较为重要的一步叫做晕染，目的是赋予绘画中的事物真实的质感与立体感，如彩绘中的叶子、花朵等为了使上色仿真效果更接近手工绘制，根据藏式建筑彩绘中具有渐变色元素的特点得到启发，提出了一种基于曲率和边缘检测的渐变色辅助上色算法，其中具体的，基于曲率的角点检测算法输入：具有渐变色元素的藏式建筑彩绘线稿图A₁，输出具有渐变色效果的藏式建筑彩绘彩图，渲染具有渐变色元素的线稿图流程如下：

①反相二值化：反相任意算子的边缘提取，得到图像的初步轮廓A₂。

②细化：对A₂边缘像素值大于1的部分细化得到图像A₃。

③遍历边缘像素点:从图像A₃中任意一个边缘像素点(S_x，S_y)出发，沿着其8邻域内且未遍历过的像素点前进并将其访问的像素值保存至X，Y列表中。

④计算一阶、二阶导数:每个X_i，Y_i坐标的点，都会和X_i-1，Y_i-1以及X_i+1，Y_i+1相邻，因此用相邻的X_i和X_i+1的差值来近似在X方向的导数，Y方向上同理，从而可以得到一阶导数与二阶导数。为了直观地显示图像中每个点的曲率，这里将列表映射到二维矩阵中。

⑤计算曲率矩阵K:设曲线是由参数方程

给出，利用参数方程求导法可得

⑥提取检测中心线：取出K的极大值对应的坐标点(X_i，Y_i)，从该坐标点开始分别沿边缘两侧遍历计算两侧各点对之间的距离R将其存入矩阵B中，将其各点像素值存入矩阵c并计算中心线的长度L。直至遍历到K的其他极大值对应的坐标点处返回，从而提取出中心线，并判断中心线在当前元素边缘的内部还是外部，舍弃外部中心线，保留内部中心线。

⑦渐变区域划分:根据先验知识以及实验评价结果，这里取L前1/3端作为渐变区，同时将点对之间的距离R两端各取1/5作为渐变区。

⑧色彩生成:根据数据库中采集的颜色与部件自动进行语义匹配，在语义对象的渐变区中生成3×3像素大小的彩色颜色块，如图7所示，此处采用广度优先搜索算法遍历生成颜色块。

本申请中训练模型按工艺类型分类别进行训练，在训练时，分别建立不同工艺类型的数据集进行训练，以保证线稿图在上色过程中能够保留相应工艺类型的颜色特征。在这里我们建立了彩绘、黑金、红金、蓝金、黄金五个数据集，对数据集中的每种工艺类型的藏式建筑彩绘高清彩图进行标注和训练，因为对预训练原作进行扭曲、颜色干扰可以提高模型的适应能力，因此在训练前要完成图像预处理，包括图像随机截取、图像大小调整、图像随机翻转以及模糊、扭曲等几何变换的步骤，打乱图像空间结构得到处理后的图像作为训练阶段的一部分数据集，从而可以达到数据增强的目的，由于藏式建筑彩绘高清彩图数量较少，从而可以增加样本量，便于训练。既降低线稿图和参考图像结构上的相似性同时又能保留线稿图上色所需的颜色信息。首先将构建的数据集进行划分，分为训练集与测试集，划分比例为9:1语义信息通过PNG图像格式进行读取，保证语义类别在预处理阶段缩放后的准确性。epoch的次数过多，容易造成过拟合，次数过少，容易使训练的参数达不到最优，经过综合考量，训练阶段将epoch值设置为180，模型参数共经过1200次迭代更新。为了在训练速度和内存容量之间寻找到最佳的平衡点，将batchsize值设置为16，学习率设置为0。00007，优化器采用SGD，动量参数设定为0。8，对于本方法中的损失函数对应的损失系数λ₁、λ_f分别设置为1和0。1参数设置方面，将ResNet101作为骨干网络，使用9个由残差块组成的模块，对应上述网络的Bottleneck，每个模块使用若干个同样输出通道数的残差块。每个模块在第一个残差块里将上一个模块的通道数翻倍，并将高和宽减半。同时使用在ImageNet训练过的参数作为预训练模型。语义分割的类别数为20，其中标签需要0为背景，其余1-19对应各个部件的语义。为红金工艺的大日如来彩图原图及语义标注和蓝金工艺的大日如来彩图原图及语义标注，其中红金工艺的彩图整体偏红色，特别是服饰、背景、叶子等部件呈现为偏红色；而蓝金工艺的彩图整体偏蓝色，服饰、背景、叶子等部件呈现为偏蓝色。图中金色部分两者差异不大，整体上看，红金工艺彩图整体偏暖色，而蓝金工艺彩图整体偏冷色，所以在训练过程中我们须按工艺类型分别建立数据集，以此来更好的完成上色任务。

如图8所示，本申请训练方式设计为将“高清彩图&预处理彩图-高分辨率线稿图”配对输入生成器中，并要求生成器的输出结果为高清彩图，高清彩图与高分辨率线稿图的空间结构这此过程中发生了一系列的变化，这就使得训练彩图与线稿图线条结构的具有差异性；在训练的过程中，严格要求生成器输出的图片是高清彩图，这一方式就使得预处理彩图的颜色信息(面部、衣服、配饰、花朵、叶子、头饰、背景等)可以关联到该颜色在线稿图中对应的语义区域，生成器中引入的线稿图语义分割模块可使生成器更加精准地定位颜色语义区域。在网络训练完成后的网络应用过程中，输入的待生成工艺类型将调用对应的数据集接口(参见图3)，尽管有些预训练图像的线条结构与输入的线稿图存在差异，但生成器依然可以较好地捕捉预训练彩图中的色彩信息并保持与输入的线稿图高度相关联。

可以理解的是，本申请中藏式建筑彩绘高分辨率线稿图数据集来自由非物质文化遗产“热贡艺术”传承人更登大师手绘，类别较丰富，涵盖佛祖释迦牟尼、药师佛、文殊菩萨、千手千眼十一面观音、四臂观音、弥勒菩萨、金刚总持、莲花生大士、大威德金刚等神明画像与吉祥图案。藏式建筑彩绘高清彩图数据集则来自热贡艺术博物馆馆藏艺术品高清扫描而成，最终构造了一个包括2000余幅图片，1.2×10⁴个预处理图像的训练集，除更登大师提供的高分辨率线稿图外，其余线稿图则通过高斯模糊差分算法提取藏式建筑彩绘高清彩图的边缘线条获得。此外，本文上色仿真算法基于CNN，通过卷积核学习图像特征，为了防止因图片大小悬殊而引起卷积核参数收敛困难，网络训练不稳定，将数据集中图片的尺寸统一设置为600×900的大小，形成训练数据集。本文使用的藏式建筑彩绘线稿图中线条颜色有深有浅，线条的大小有粗有细，是因为文中有的图片是整体扫描而成，而有的巨幅作品则分块扫描，所以这会导致图片分辨率不同，分辨率较低的图片上携带的信息较少，轮廓线条较模糊，与之相对应的线稿图线条笔画较细，颜色较淡；反之，线条笔画较粗，颜色较深，另一个原因是更登大师所作的白描图线条非常清晰、颜色较深、粗中有细。对于颜色较浅的线稿图，在训练时，为了使模型的鲁棒性更强，这类图片也不刻意做图像增强。

本文提出的基于语义匹配生成颜色标签并进行辅助上色的藏式建筑彩绘上色仿真算法(SMAC-CGAN)，实现了藏式建筑彩绘线稿图线稿到藏式建筑彩绘彩图的转换，通过预训练的语义分割网络划分藏式建筑彩绘线稿图中的不同部件的语义区域，指导预训练图像的颜色定位到藏式建筑彩绘线稿图的不同位置，同时，辅助模块的引入，能够精准着色到不同区域，同时也提升了渐变色的模拟效果。针对训练阶段采用“藏式建筑彩绘彩图-藏式建筑彩绘高清线稿图”可能导致上色模型过度依赖造成颜色失真的后果，本文提出对语义标签进行赋色并完成颜色扩展，从而达到辅助上色的目的。实验表明，本申请能较准确的将对应工艺类型中的预训练图像的颜色信息传递到含有任意人物类型以及背景的藏式建筑彩绘线稿图中，生成具有特定工艺类型效果的图像。

如图9所示，本申请提供一种基于语义匹配的藏式建筑彩绘线稿图上色装置，包括：

训练模块，用于对所述线稿上色模型进行训练，包括：

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于语义匹配的藏式建筑彩绘线稿图上色方法；

处理器用于调用并执行存储器中的计算机程序。

综上所述，本发明提供一种基于语义匹配的藏式建筑彩绘线稿图上色方法及装置，所述方法包括预构建线稿上色模型；所述深度神经网络模型包括预训练的语义分割网络、生成器以及判别器，对所述线稿上色模型进行训练，将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出目标上色图像。本发明通过预训练的语义分割网络划彩绘线稿图中的不同部件的语义区域，指导预训练图像的颜色定位到藏式建筑彩绘线稿图的不同位置，能够精准着色到不同区域，同时也提升了渐变色的模拟效果。本申请对语义标签进行赋色并完成颜色扩展，从而达到辅助上色的目的。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于语义匹配的藏式建筑彩绘线稿图上色方法，其特征在于，包括：

S101，预构建线稿上色模型；所述线稿上色模型包括预训练的语义分割网络、生成器以及判别器；

S102，对所述线稿上色模型进行训练，包括：

将所述高分辨率线稿图和所述渲染图像作为负样本数据集，将高分辨率线稿图和彩色高清图作为正样本数据集，将所述负样本数据集和正样本数据集输入到判别器中，利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型；

S103，将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出带有语义信息及语义匹配颜色标注的目标上色图像；

所述利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型，包括：

将所述渲染图像和高分辨率线稿图输入到判别器中，所述判别器将所述彩色高清图和所述渲染图像划分为多个预设尺寸的图像块，将所述彩色高清图的图像块与所述渲染图像中对应的图像块进行对比，评估所述渲染图像的每个图像块的生成质量，将所有评估结果的平均值作为目标函数的损失函数以更新所述生成器和判别器的网络参数，得到训练好的线稿上色模型；

所述损失函数由两部分组成，一是CGAN的损失函数，

L_CGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]

生成器G迭代尝试最小化下面的目标函数，而D则通过迭代尝试最大化这个目标函数；

为了惩罚网络生成图像与真实图像的色彩差异，损失函数的第二部分是由损失函数L₁所构成，

L₁损失使得生成图像与真实图像保持像素对齐，会导致生成图像颜色分布不均，因此，新增L_f特征损失，以使得生成图像和藏式建筑彩绘高清图在高层语义上保持对齐，

因此线稿上色模型最终的损失函数L_SMAC-CGAN如下:

其中，λ₁，λ_f，分别表示L₁损失，L_f特征损失的正则系数，x表示藏式建筑彩绘线稿图，y表示藏式建筑彩绘高清图；G(x，z)表示生成器以藏式建筑彩绘线稿图x和所选定的工艺类型中的预训练数据高清图z为输入时的生成结果，使用ImageNet2012图像数据集上的预训练模型VGG16对y藏式建筑彩绘高清图或生成图像G(x，z)提取中间层特征，用φ(y)和φ(G(x，z))表示；D(x，y)与D(x，G(x，z))分别表示输入的图像y或G(x，z)属于真实图像且跟藏式建筑彩绘线稿图x中线条结构相同的概率。

2.根据权利要求1所述的方法，其特征在于，所述语义标签图包括线稿标签图和高清标签图；所述对高分辨率线稿图和彩色高清图进行预处理，得到语义标签图，包括：

3.根据权利要求1所述的方法，其特征在于，所述将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，包括：

将待处理线稿图和需要生成的工艺类型输入到生成器中；

4.根据权利要求1所述的方法，其特征在于，所述判别器采用多尺度判别器；

5.根据权利要求1所述的方法，其特征在于，所述子生成器包括：

6.根据权利要求5所述的方法，其特征在于，所述辅助生成器包括：

渐变颜色生成模块，用于实现渐变效果；

语音定位模块，用于提升各个语义区域的颜色渲染效果。

7.根据权利要求5所述的方法，其特征在于，

所述线稿上色模型采用生成对抗网络。

8.一种基于语义匹配的藏式建筑彩绘线稿图上色装置，其特征在于，包括：

构建模块，用于预构建线稿上色模型；所述线稿上色模型包括预训练的语义分割网络、生成器以及判别器；

训练模块，用于对所述线稿上色模型进行训练，包括：

训练单元，用于将所述高分辨率线稿图和所述渲染图像作为负样本数据集，将高分辨率线稿图和彩色高清图作为正样本数据集，将所述负样本数据集和正样本数据集输入到判别器中，利用概率输出函数判断真伪概率以确定所述线稿上色模型的目标函数，得到训练好的线稿上色模型；

输出模块，用于将待处理线稿图和需要生成的工艺类型输入所述训练好的线稿上色模型中，输出带有语义信息及语义匹配颜色标注的目标上色图像；

所述损失函数由两部分组成，一是CGAN的损失函数，

L_CGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]

因此线稿上色模型最终的损失函数L_SMAC-CGAN如下: