CN115690288B

CN115690288B - 一种由颜色标符指导的自动着色算法及装置

Info

Publication number: CN115690288B
Application number: CN202211368563.7A
Authority: CN
Inventors: 施柏鑫; 翁书晨; 孙冀蒙; 李昱; 李思
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-05-16
Anticipated expiration: 2042-11-03
Also published as: CN115690288A

Abstract

本发明公开了一种由颜色标符指导的自动着色算法及装置，通过端到端的着色Transformer结构的设计，在图像着色任务上的着色效果大大超越之前的着色方法。同时，通过设计全新的灰度选择模块，减小可选颜色的范围从而减少不合理着色现象的发生。由于没有引入额外的外部先验，本发明的模型可以适合更多通用场景。此外，引入color token的概念，从而将着色任务看做是分类任务来提升色彩饱和度。设计了color attention和color query的模块来指导灰度图像特征和color token之间的交互，从而生成视觉上美观并且合理的着色结果。

Description

一种由颜色标符指导的自动着色算法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种由颜色标符指导的自动着色算法及装置。

背景技术

近年来，随着计算机技术发展，计算机算力逐渐加强，机器学习、深度学习技术快速进步，计算机视觉相关技术逐渐应用到各个场景，例如艺术创作，视频/图像修复等。在以上场景中，图像着色作为一项关键技术，设计相关算法从图像的灰色通道中提取纹理信息，并生成合理的彩色通道，使着色图像接近真实且有意义。因此，图像着色在计算机视觉、计算机图形学、绘画教学等领域中都有广泛的应用价值。

在日常生活中，经常会出现照片泛黄、颜色丢失等现象。对于那些保存久远、承载历史的早期黑白照片，恢复成彩色图像对抒发人文情怀也有着重大的意义。在工业中，对画质渲染程度的追求会提升人们的游戏体验感，但也会导致速度的降低，带来较大延迟。因此，使用高效的图像着色算法，可以极大的降低计算资源的消耗，提升效率。在绘画教学等艺术创造领域，图像着色可以帮助使用者进行开拓创新，在辅助教学中发挥着重要的作用。因此，研究图像着色技术也有十分重要的现实意义。

目前，图像着色大概分为两类：自动着色和非自动着色。其中，自动着色是指在没有任何暗示的前提下生成彩色图像。相比于非自动着色，自动着色所需依赖更少，因此应用场景更加广泛。着色算法主流上可以分为传统机器学习和深度学习方法两类，而相比于机器学习方法，深度学习在low-level和high-level上都被广泛的应用。

在图像着色中，深度学习方法主要分为基于CNN和基于Transformer的方法。在基于CNN的方法中，如颜色ful image颜色ization，由于CNN的感受野有限以及局部归纳偏置导致对于距离较近的元素可以建模关系，而对于远距离的元素难以建模依赖关系，所以导致远距离元素很难维持着色统一性，从而导致了不合理的着色现象。Transformer方法依靠其远距离依赖的优势，克服了这个问题，但是由于标准回归建模导致着色饱和度过低，很难进行丰富的色彩着色，同时，Transformer的inference时间也较长，时延较大。因此，设计高效的深度网络结构来实现合理、鲜艳的着色面临较大的挑战。

发明内容

本发明的目的在于提供一种由颜色标符指导的自动着色算法。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供了一种由颜色标符指导的自动着色算法，包括以下步骤：

S1、将输入的灰度图像分为图像块，提取灰度图像中的远距离特征，得到图像令牌序列；并且使用CNN网络来提取图像令牌(image token)序列相对的位置编码，位置编码和图像令牌序列相加得到序列一，作为图像部分的输入；

S2、将Ab颜色空间量化成若干个颜色块，根据统计分布选择有效的颜色块作为颜色令牌序列；使用CNN网络提取颜色令牌(颜色token)序列相对的位置编码，位置编码和颜色令牌相加得到序列二，作为颜色部分的输入；

S3、序列一和序列二合并为一个完整的序列注入颜色transformer中，在颜色transformer中，颜色信息被注入到灰度图像特征中并完成交互，输出交互序列；

S4、在输出序列中，提取图像令牌部分的像素级别特征，完成颜色令牌和图像特征之间的交互，根据L灰度值为每个像素的灰度值选择一个合适的ab取值；

S5、最后将L灰度值和ab取值拼接在一起构成Lab三灰度值，再经过颜色空间映射到RGB空间中，即得到最终的着色结果。

进一步地，步骤S1中的图像编码器使用标准的ViT。

进一步地，步骤S2使用颜色编码器将Ab颜色空间量化成484个颜色块，根据统计分布选择有效的313个颜色块作为颜色令牌序列。

进一步地，步骤S3中颜色transformer由两层transformer层以及projection模块构成，其中，transformer中的attention层使用颜色attention，projection模块中图像特征用CNN来进一步提取特征，颜色部分用全连接层来进一步编码。

进一步地，步骤S4中，采用点乘计算图像特征和颜色令牌之间的相似度，经过softmax函数之后再和量化的ab取值相乘得到预测的ab值。

进一步地，softmax的损失函数为：

L_total＝αL_cl+βL_δ

其中，α，β为两个不同的超参，L_cl为分类损失，L_δ为smooth-l1损失；

其中，(x,y)为图像的像素点位置，q是量化颜色令牌的索引下标，

为选择有效的颜色块的颜色令牌的概率分布，I_q为量化的颜色块的真实的概率分布，T_ab为预测的ab通道值，I_ab为实际的ab通道值，δ取值为1。

进一步地，步骤S5中L灰度值分为四个取值范围，分别为：[0,25)，[25,50)，[50,75)，[75,100)。

另一方面，本发明还提供了一种由颜色标符指导的自动着色装置，包括以下模块以实现上述任一项所述的方法：

图像编码器，用于提取输入灰度图中的远距离特征，并且使用CNN网络来提取相对位置编码，和图像特征相加作为图像部分的输入；

颜色编码器，用于对输入的颜色令牌提取相对位置编码；

灰度选择模块，用于根据L灰度值来减小可选的ab取值范围，从而过滤掉不合理的颜色取值；

颜色transformer，用来将颜色信息注入到灰度图像特征中，实现颜色信息和图像特征之间的交互，并将修正后的颜色信息和图像特征合并成一个完整的序列作为transformer的输出；

颜色query模块，用于为每个像素指定一个合理的颜色。

又一方面，本发明还提供了一种设备，包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一项所述的方法。

与现有技术相比，本发明的有益效果为：

本发明的由颜色标符指导的自动着色算法和装置，提出一个端到端的着色transformer模型来生成合理的着色结果，通过引入全新的灰度选择模块来减小可选颜色的范围，设计了颜色attention和颜色query的模块来指导灰度图像特征和颜色令牌之间的交互，从而减轻不合理着色现象的发生，提升视觉上的美观性。同时由于没有引入额外的外部先验，本发明的模型可以适合更多通用场景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的由颜色标符指导的自动着色算法流程图。

图2为本发明实施例提供的由颜色标符指导的自动着色装置模块结构图。

图3为本发明实施例提供的方法在黑白老照片上的应用效果。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明的由颜色标符指导的自动着色算法，如图1所示，包括以下步骤：

S1、将输入的灰度图像分为图像块，提取灰度图像中的远距离特征，得到图像令牌序列；并且使用CNN(Convolution Neutral Network卷积神经网络)来提取图像令牌(imagetoken)序列相对的位置编码，位置编码和图像令牌序列相加得到序列一，作为图像部分的输入；

S4、在输出序列中，提取图像令牌部分的像素级别特征，如可采用上采样网络或其他类似结构，比如反卷积网络、卷积+上采样的组合等；然后完成颜色令牌和图像特征之间的交互，根据L灰度值为每个像素的灰度值选择一个合适的ab取值；

S5、最后将L灰度值和ab取值拼接在一起构成Lab(一个亮度通道和两个颜色通道构成的颜色空间)三灰度值，再经过颜色空间映射到RGB(RGB color model，红绿蓝加性颜色模型)空间中，即得到最终的着色结果。

为了实现上述方法，本发明提供了一种由颜色标符指导的自动着色装置，包括以下模块：

(1)图像编码器。用于提取输入灰度图中的远距离特征，并且使用CNN网络来提取相对位置编码，和图像特征相加作为图像部分的输入。具体的，图像编码器可使用标准的ViT，也换成其他预训练好的视觉Transformer网络变种，比如Swin Transformer等。

(2)颜色编码器。用于对输入的颜色令牌提取相对位置编码。具体地，首先将ab颜色空间量化成484个颜色块，然后根据统计分布选择有效的313个颜色块作为color token,随机初始化并且在训练过程不断更新。由于color patch之间的位置关系和颜色间语义相关，因此本发明使用CNN网络提取相对位置编码，和color token相加作为颜色部分的输入。

(3)灰度选择模块。用于根据L灰度值来减小可选的ab取值范围，从而过滤掉不合理的颜色取值。具体地，如图2所示，因为观察到ab的分布和灰度值L有关，本发明将L灰度值分为四个取值范围，分别为：[0,25)，[25,50)，[50,75)，[75,100)，然后我们得到在不同的L范围下的ab的不同分布。不同的L取值对应的ab取值可选范围也不同，因此可以实现根据L灰度值来减小可选的ab取值范围，从而过滤掉不合理的颜色取值。

(4)颜色transformer，用来将颜色信息注入到灰度图像特征中，实现颜色信息和图像特征之间的交互，并将修正后的颜色信息和图像特征合并成一个完整的序列作为transformer的输出。具体地，颜色transformer由两层transformer层以及多个projection模块构成。使用color attention来替换原始transformer中的attention层，具体而言，color attention是一种掩码多头注意力机制(multi-head self attention，MSA)，用来实现颜色信息和图像特征之间的交互。在transformer层之后还会针对图像部分和颜色部分分别设计projection模块，其中，图像特征用CNN来进一步提取特征，颜色部分用全连接层来进一步编码。最后我们将修正后的颜色信息和图像特征合并成一个完整的序列作为transformer的输出。

(5)颜色query模块，用于为每个像素指定一个合理的颜色以求得到丰富多彩的着色结果。具体地，首先需要对图像特征部分上采样到像素级别，然后采用点乘计算图像特征和color token之间的相似度，经过softmax之后再和量化的ab取值相乘得到预测的ab值，最后和输入的L值拼接成三通道得到着色结果。

本发明在着色任务通用数据集ImageNet上进行训练，其中包含1.3百万的图像，覆盖了1000个不同的类别。本发明使用验证集的前5千张图进行评测，并且将测试集中的图像都采用中心裁剪并且缩放到256×256的分辨率上来进行图像预处理。本专利采用6个不同的量化指标进行评测，分别是PSNR、SSIM、LPIPS、FID、colorful等，以上基准都是和其他的着色相关工作保持一致的。

具体训练过程如下：

(1)着色任务看做是一个逐像素分类任务来处理，因此需要最小化交叉熵损失函数。本发明将ab空间量化到313个color token作为备选token，在color query中得到这些颜色token的概率分布

来方便模型进行预测。同时，需要将真实图像的颜色也进行预处理，需要将真实图像的ab通道先量化到ab空间中，得到真实的概率分布

具体而言，对于每一个像素点，在所有ab对中寻找5个最近邻的ab对，然后计算量化值与他们的距离作为权重加权构造出归一化的软标签I_q。分类损失被定义为：

其中，(x,y)为图像的像素点位置，q是量化color token的索引下标。

(2)与此同时，本发明还使用另一个smooth-l1损失来约束训练过程，使得训练更加稳定，并且减少着色过于饱和的情况发生。这项损失定义为：

其中，δ取值为1。

(3)两项损失共同参与训练，本发明使用不同的超参控制两项损失之间的比重，最终的损失函数表示为：

L_total＝αL_cl+βL_δ

其中，两个参数α，β分别取1和10时训练效果较好。

在本发明的实施例中，设置训练的批大小为16，使用SGD优化器来最小化以上损失。设置学习率为1e-3。

本发明的方法或装置在应用时，采用以下步骤：

a)在linux系统上搭建虚拟环境，并且安装一些环境依赖包，例如：Python3.6,Pytorch1.10,CUDA,cuDNN等。

b)进行数据预处理，对数据集中的图像采用中心裁剪以及缩放成256×256的分辨率，作为模型的输入数据。

c)按照图1进行模型结构的搭建，在8块NVIDIA GeForce RTX 3090显卡上对模型进行训练，训练10轮模型收敛。

d)对模型预测的ab值与输入的L值进行合并，再转换到RGB空间中，进行可视化。对着色结果使用相关指标进行评测。

e)对早期的1930年代的黑白老照片进行着色，在实际的生活场景下测试模型的效果。结果如图3所示。

本发明通过端到端的着色Transformer结构的设计，在图像着色任务上的着色效果大大超越之前的着色方法。同时，通过设计全新的灰度选择模块，减小可选颜色的范围从而减少不合理着色现象的发生。由于没有引入额外的外部先验，本发明的模型可以适合更多通用场景。此外，引入color token的概念，从而将着色任务看做是分类任务来提升色彩饱和度。设计了color attention和color query的模块来指导灰度图像特征和colortoken之间的交互，从而生成视觉上美观并且合理的着色结果。

相应于上述本发明实施例提供的方法，本发明实施例还提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述本发明实施例提供的方法流程。

上述控制设备设备中提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种由颜色标符指导的自动着色算法，其特征在于，包括以下步骤：

S1、将输入的灰度图像分为图像块，提取灰度图像中的远距离特征，得到图像令牌序列；并且使用CNN网络来提取图像令牌序列相对的位置编码，位置编码和图像令牌序列相加得到序列一，作为图像部分的输入；

S2、将Ab颜色空间量化成若干个颜色块，根据统计分布选择有效的颜色块作为颜色令牌序列；使用CNN网络提取颜色令牌序列相对的位置编码，位置编码和颜色令牌相加得到序列二，作为颜色部分的输入；

2.根据权利要求1所述的由颜色标符指导的自动着色算法，其特征在于，步骤S1中的图像编码器使用标准的ViT。

3.根据权利要求1所述的由颜色标符指导的自动着色算法，其特征在于，步骤S2使用颜色编码器将Ab颜色空间量化成484个颜色块，根据统计分布选择有效的313个颜色块作为颜色令牌序列。

4.根据权利要求1所述的由颜色标符指导的自动着色算法，其特征在于，步骤S3中颜色transformer由两层transformer层以及projection模块构成，其中，transformer中的attention层使用颜色attention，projection模块中图像特征用CNN来进一步提取特征，颜色部分用全连接层来进一步编码。

5.根据权利要求1所述的由颜色标符指导的自动着色算法，其特征在于，步骤S4中，采用点乘计算图像特征和颜色令牌之间的相似度，经过softmax函数之后再和量化的ab取值相乘得到预测的ab值。

6.根据权利要求5所述的由颜色标符指导的自动着色算法，其特征在于，softmax的损失函数为：

L_total＝αL_cl+βLδ

7.根据权利要求1所述的由颜色标符指导的自动着色算法，其特征在于，步骤S5中L灰度值分为四个取值范围，分别为：[0,25)，[25,50)，[50,75)，[75,100)。

8.一种由颜色标符指导的自动着色装置，其特征在于，包括以下模块以实现权利要求1-7任一项所述的由颜色标符指导的自动着色算法：

颜色编码器，用于对输入的颜色令牌提取相对位置编码；

颜色query模块，用于为每个像素指定一个合理的颜色。

9.一种设备，其特征在于，包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；其特征在于，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一项所述的由颜色标符指导的自动着色算法。