CN112446382B

CN112446382B - 一种基于细粒度语义级的民族服饰灰度图像着色方法

Info

Publication number: CN112446382B
Application number: CN202011259558.3A
Authority: CN
Inventors: 甘健侯; 吴迪; 邹伟; 周菊香; 王俊
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-03-25
Anticipated expiration: 2040-11-12
Also published as: CN112446382A

Abstract

本发明涉及一种基于细粒度语义级的民族服饰灰度图像着色方法，属于灰度图像自动着色技术领域。本发明利用服饰不同部位语义来辅助民族服饰灰度图像着色。一般全自动的着色方法并不会考虑图像的语义信息，而对于民族服饰而言，不同服饰部位颜色分布差异较大，本发明是将服饰细粒度级的语义信息和灰度图像信息同时作为条件输入到生成器，其中最重要的是利用服饰不同部位的语义信息，来解决服饰图像空间一致性等问题。

Description

一种基于细粒度语义级的民族服饰灰度图像着色方法

技术领域

本发明涉及一种基于细粒度语义级的民族服饰灰度图像着色方法，属于灰度图像自动着色技术领域。

背景技术

少数民族文化源远流长、各个少数民族形成了各自不同的文化特色，其中民族服饰在民族文化发展中有着重要分量，民族服饰是各民族的生动符号，种类繁多，各自发展。每个少数民族服饰形成了各自不同的文化特色，最直观的就体现在服饰色彩方面，对于民族服饰而言颜色是一种特殊的表达，由各民族不同的文化决定的。(如，哈尼族主色调为青、蓝、红、绿等颜色；傣族主色调主要以红、淡黄、淡绿等颜色)将灰度图像彩色化相关技术应用在民族服饰灰度图像着色方面，可以更好的保护与传承少数民族文化。然而民族服饰相比较与普通服饰，因其复杂的服饰设计和颜色分布，利用一般的着色方法难以得到很好的着色效果。

发明内容

本发明要解决的技术问题是提供一种基于细粒度语义级的民族服饰灰度图像着色方法，用以解决现有着色方法对民族服饰灰度图像着色时效果差的问题。

本发明的技术方案是：一种基于细粒度语义级的民族服饰灰度图像着色方法，利用服饰不同部位语义来辅助民族服饰灰度图像着色。一般全自动的着色方法并不会考虑图像的语义信息，而对于民族服饰而言，不同服饰部位颜色分布差异较大，本发明是将服饰细粒度级的语义信息和灰度图像信息同时作为条件输入到生成器，其中最重要的是利用服饰不同部位的语义信息，来解决服饰图像空间一致性等问题。(例如，全自动灰度图像着色方法不会考虑服饰不同部位的颜色分布，只会根据灰度信息进行彩色映射)。

具体步骤为：

Step1：色彩生成阶段

Step1.1：对民族服饰灰度图像进行语义范围的人工标注，获得民族服饰语义分割图，按照预先设定好的少数民族服饰语义标签，将语义分割信息转化为各个民族服饰各部位细粒度语义掩码。

转化后的民族服饰细粒度语义掩码维度为8维，与少数民族服饰语义标签数量一致。语义分割信息转化为语义掩码实际上是在8个维度上分别用二元掩码表示语义信息，二元掩码由0和1组成，其中1所组成的区域与实际语义相对应，0对应的是无关区域信息。

Step 1.2：将民族服饰灰度图像与民族服饰语义掩码进行拼接，灰度图像在CIE-Lab色彩空间中用一个维进行编码，也就是Lab三个颜色通道中的灰度通道(L通道)。根据预先设置好的少数民族服饰语义标签对语义进行编码，维度大小为语义标签数，图像长宽不变，按照各通道进行拼接。其中图像长宽分别为H和W，语义掩码维度为C，拼接后的尺寸为(C+1)*H*W，其中包括一维的灰度通道。

Step 1.3：将拼接后的尺寸为(C+1)*H*W的数据输入到彩色生成器中，首先进行下采样，将拼接后的图像数据依次转换为64维、128维、256维、512维，得到最终的图像特征图，其维度为512。

Step 1.4：下采样后将图像特征图进一步输入到残差块组中，每个残差块都包含两个卷积层，对于残差块内部结构，特征图A首先保留副本，再与经过残差块中两层卷积得到的特征图B进行拼接。

Step 1.5：图像特征图经过残差块组后，再将处理后的特征图进行上采样，采用反卷积的方式，将特征图依次转换为512维、256维、128维、64维，最后的图像特征图维度为64维。

Step1.6：将Step 1.5中的64维输出结果通过卷积层，输出双通道图像，在CIE-Lab色彩空间下将灰度图像拼接到双通道图像上，再转换色彩空间到RGB进行显示与存储。

Step 2：生成图像判别阶段

Step 2.1：将Step 1.6中生成的三通道RGB图像与民族服饰细粒度语义级掩码进行拼接。

Step 2.2：将Step 2.1处理后的数据输入到色彩判别器中，判别器其特点为多尺度判别以及分块判别，输入数据进入第一尺度判别器网络，将其依次转换为64维、128维、256维、512维。

Step 2.3：同样将Step 2.1处理后的数据进行尺度变换，利用平局池化层对原数据进行重新采样，采样后数据维度不变，再将其输入到第二尺度判别器网络中，依次转换为64维、128维、256维、512维。

Step 2.4：将Step 2.2与Step 2.3的输出结果进行整合，这两个步骤产生的结果是多个真值或者假值，将两个判别器的判别结果进行统计，最终根据真值与假值的数量输出最终的结果，真值数量多则最终结果为真，否则最终结果为假。然后再输出最终的判别结果，判别器最终输出的结果将帮助生成器提高生成颜色的效果。

Step 2.5：将真实彩色图像与根据民族服饰设置的语义级掩码进行拼接，重复Step 2.2、Step 2.3、Step 2.4。在不断迭代的过程中，判别器部分的最终判别结果将辅助并影响生成器生成更好的着色图像。

所述Step1.1中，转化后的民族服饰细粒度语义掩码维度为8维，与少数民族服饰语义标签数量一致。

所述Step1.4中，图像特征图在残差块组中共经过9个残差块。

所述Step 2.1中，三通道RGB彩色图像为3维，根据民族服饰设置的语义级掩码有8维数据，将两者拼接起来为11维数据，具体数据维度为11*H*W。

本发明将服饰细粒度级语义信息作为输入条件之一，应用到灰度图像着色任务之中。使用的生成器模型输入灰度图像X∈R^H×W×1和细粒度级语义Mask M∈R^H×W×k作为条件，其中H、W为图像的高度与宽度，k为服饰细粒度语义的分类个数,k越大细粒度就更加详细。

针对具体的民族服饰分别设置细粒度语义分为袖子、上衣、腰带、裙子、裤子、护腿、配饰、背景8个分类。

相较于普通的服饰，民族服饰的细粒度语义划分更具有民族特色。生成器模型输出为预测的两个色彩通道Y∈R^H×W×2在CIE Lab色彩空间下。对于判别器模型，设置单颜色通道灰度图象与从生成器输出的两个颜色通道的信息和细粒度语义掩码拼接后作为假的输入，真实的民族服饰彩色图像和细粒度语义掩码拼接后作为真的输入。

本发明不仅将生成器输出的假的图像输入到判别器，而且同时输入细粒度语义掩码，将两者进行拼接再交由判别器，同时对于真实图像也是与其细粒度语义掩码进行拼接，作为判别器的输入。

本发明的有益效果是：帮助修复少数民族服饰黑白照片，实现民族服饰灰度图像自动着色。与现有的自动着色方法相比，本发明可以更好的根据不同部位语义信息与之相对应的进行自动着色，使得着色效果超过主流自动着色方法。生成着色效果的局部颜色一致性高于一般方法，并且能够更好的生成高分辨率的图像、保留民族服饰彩色细节，对于少数民族服饰黑白照片彩色化有着重大的意义。

附图说明

图1是本发明的流程图；

图2是本发明的生成器网络架构图；

图3是本发明的判别器网络架构图；

图4是本发明的图像数据可视化效果图；

图5是本发明的残差块结构图；

图6是本发明的灰度图像和与之对应的细粒度语义信息图；

图7是本发明的彩色化输出结果。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1，如图1所示，一种基于细粒度语义级的民族服饰灰度图像着色方法，具体步骤为：

Step1：色彩生成阶段，如图2所示；

Step1.1：对民族服饰灰度图像进行标注，获得民族服饰语义分割图，按照预先设定好的少数民族服饰语义标签，将语义分割信息转化为各个民族服饰部位的细粒度语义掩码。

Step 1.2：将民族服饰灰度图像与民族服饰语义掩码进行拼接，灰度图像在CIE-Lab色彩空间中用一个维进行编码。根据预先设置好的少数民族服饰语义标签对语义进行编码，维度大小为语义标签数，图像长宽不变，按照各通道进行拼接。

Step 1.3：将拼接后的数据输入到彩色生成器中，首先进行下采样，将拼接后的图像数据依次转换为64维、128维、256维、512维，得到最终的图像特征图。

Step 1.4：下采样后将图像特征图进一步输入到残差块组中，每个残差块都包含两个卷积层，对于残差块内部结构，特征图A首先保留副本，与经过两层卷积后的B进行拼接。

Step 1.5：图像特征图经过残差块组后，再将处理后的特征图进行上采样，采用反卷积的方式，将特征图依次转换为512维、256维、128维、64维。

Step 2：生成图像判别阶段，如图3所示

Step 2.4：将Step 2.2与Step 2.3的输出结果进行整合，将两个判别器的判别结果进行统计，然后再输出最终的判别结果。

Step 2.5：将真实彩色图像与根据民族服饰设置的语义级掩码进行拼接，重复Step 2.2、Step 2.3、Step 2.4。

进一步的，Step1.1中，转化后的民族服饰细粒度语义掩码维度为8维，与少数民族服饰语义标签数量一致。

进一步的，Step1.1中，对民族服饰灰度图像进行标注的方法为人工标注。

进一步的，Step1.4中，图像特征图在残差块组中共经过9个残差块。

进一步的，Step 2.1中，三通道RGB彩色图像为3维，根据民族服饰设置的语义级掩码有8维数据，将两者拼接起来为11维数据。

图1示明了自动着色网络架构。首先将灰度图像与各语义掩码作为生成器的条件。其中灰度图像在CIE-Lab色彩空间为单通道，掩码是服饰各细粒度级语义，表示民族服饰各部位区域掩码，可视化效果如图4所示。Mask的通道数与细粒度语义分类数目相同，每个通道都是由0和1组成，进而描述服饰不同部位区域语义信息。然后将灰度图像与细粒度语义掩码拼接后输入到生成器模型中，在这里生成器的瓶颈层使用的是残差块并且带有跳跃连接。生成器最终输出灰度图像预测的在CIE-Lab色彩空间的ab两个通道，再将其与灰度图像进行拼接，最终输出假的生成图像。

具体实施时，在色彩生成阶段，首先将灰度图像进行语义范围的人工标注，灰度图像与语义分割图可视化效果如图6所示，两者相对应，大小一致，分辨率大小为512*1024。然后将语义分割信息转化为相互拼接好的8个维度的语义掩码，语义掩码维度与少数民族服饰语义标签数量一致。对于民族服饰图像的语义分割图，其语义数量不固定，有些语义可能不会包含在这张图像当中，但对于语义掩码维度依然为8，这张图像不包含的语义，对应维度的语义掩码则为0。然后将灰度图像转成灰度通道，将灰度通道与8个维度的语义掩码进行拼接。再将拼接后的数据输入到生成器之中。

生成器网络结构基于一般结构并且带有残差块。主要网络大体结构由3个下采样层，9个残差块组，后面再接三个上采样层。下采样层卷积的卷积核大小为3，步长参数为2，填充参数为1，每经过一个下采样特征维度就会翻倍。用残差块组的结构代替跳跃连接，每个残差块由2个卷积组成，特征维度不改变。上采样层反卷积的卷积大小为3，步长参数为2，填充参数为1，每经过一个上采样特征维度就会变为原来的一半并将输入与输出连接起来。所有的层都会接批归一化和ReLU激活函数，除了最后一层以外，最后一层的激活函数为双曲正切函数，残差块结构如图5所示。

生成器最终会生成两维的512*1024特征，此特征便是CIE Lab色彩空间下的ab通道颜色信息。将灰度通道信息与ab通道信息拼接，就可以得到完整的Lab三通道颜色信息，形成了完整的一张彩色图像，在判别阶段，将特征输入到判别器中进行判别，经过网络的前向传播，最终输出真假结果。

判别器网络结构基于多尺度判别器和分块判别器，主要结构是两个尺度的判别器，采用平均池化来进行下采样核大小为3填充参数为2填充参数为1，每个尺度都有五个卷积层，卷积核大小均为4，步长参数为1填充参数为2，输入的特征维度，经过前四层会转化为512维，最后一层转换为一个维度，输出结果。除了最后一层外激活函数都是使用LeakyReLU，负斜率设置为0.2；除了第一层和最后一层外都是用实例归一化，eps设置为10-5，动量参数设为0.1。

生成器与判别器参数不断更新与迭代，最终完成生成器的训练过程。再将要彩色化的灰度图像和与之对应的语义分割图拼接后输入到生成器中，将输出的ab通道信息与灰度通道拼接后即可得到如图7所示的彩色图像。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于细粒度语义级的民族服饰灰度图像着色方法，其特征在于：

Step1：色彩生成阶段

Step1.1：对民族服饰灰度图像进行标注，获得民族服饰语义分割图，按照预先设定好的少数民族服饰语义标签，将语义分割信息转化为各个民族服饰部位的细粒度语义掩码；

Step 1.2：将民族服饰灰度图像与民族服饰语义掩码进行拼接，灰度图像在CIE-Lab色彩空间中用一个维进行编码；根据预先设置好的少数民族服饰语义标签对语义进行编码，维度大小为语义标签数，图像长宽不变，按照各通道进行拼接；

Step 1.3：将拼接后的数据输入到彩色生成器中，首先进行下采样，将拼接后的图像数据依次转换为64维、128维、256维、512维，得到最终的图像特征图；

Step 1.4：下采样后将图像特征图进一步输入到残差块组中，每个残差块都包含两个卷积层，对于残差块内部结构，特征图A首先保留副本，与经过两层卷积后的B进行拼接；

Step 1.5：图像特征图经过残差块组后，再将处理后的特征图进行上采样，采用反卷积的方式，将特征图依次转换为512维、256维、128维、64维；

Step1.6：将Step 1.5中的64维输出结果通过卷积层，输出双通道图像，在CIE-Lab色彩空间下将灰度图像拼接到双通道图像上，再转换色彩空间到RGB进行显示与存储；

Step 2：生成图像判别阶段

Step 2.1：将Step 1.6中生成的三通道RGB图像与民族服饰细粒度语义级掩码进行拼接；

Step 2.2：将Step 2.1处理后的数据输入到色彩判别器中，判别器其特点为多尺度判别以及分块判别，输入数据进入第一尺度判别器网络，将其依次转换为64维、128维、256维、512维；

Step 2.3：同样将Step 2.1处理后的数据进行尺度变换，利用平局池化层对原数据进行重新采样，采样后数据维度不变，再将其输入到第二尺度判别器网络中，依次转换为64维、128维、256维、512维；

Step 2.4：将Step 2.2与Step 2.3的输出结果进行整合，将两个判别器的判别结果进行统计，然后再输出最终的判别结果；

Step 2.5：将真实彩色图像与根据民族服饰设置的语义级掩码进行拼接，重复Step2.2、Step 2.3、Step 2.4。

2.根据权利要求1所述的基于细粒度语义级的民族服饰灰度图像着色方法，其特征在于：Step1.1中，转化后的民族服饰细粒度语义掩码维度为8维，与少数民族服饰语义标签数量一致。

3.根据权利要求1所述的基于细粒度语义级的民族服饰灰度图像着色方法，其特征在于：Step1.1中，对民族服饰灰度图像进行标注的方法为人工标注。

4.根据权利要求1所述的基于细粒度语义级的民族服饰灰度图像着色方法，其特征在于：Step1.4中，图像特征图在残差块组中共经过9个残差块。

5.根据权利要求1所述的基于细粒度语义级的民族服饰灰度图像着色方法，其特征在于：Step 2.1中，三通道RGB彩色图像为3维，根据民族服饰设置的语义级掩码有8维数据，将两者拼接起来为11维数据。