CN116433508B

CN116433508B - 一种基于Swin-Unet的灰度图像着色校正方法

Info

Publication number: CN116433508B
Application number: CN202310255192.XA
Authority: CN
Inventors: 张伟; 王钰; 沈琼霞; 杨维明; 李璋; 刘国君; 石鑫
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-10-27
Anticipated expiration: 2043-03-16
Also published as: CN116433508A

Abstract

本发明公开一种基于Swin‑Unet的灰度图像着色校正方法，包括：获取原始图像，对所述原始图像预处理得到预处理数据集，其中，所述预处理数据集包括训练集和测试集；构建灰度图像着色校正模型，将所述训练集输入到所述灰度图像着色校正模型进行训练，得到训练好的灰度图像着色校正模型；将所述测试集输入到所述训练好的灰度图像着色校正模型，得到最终的彩色图片。本发明利用Swin‑Unet对灰度图像进行颜色预测，并通过卷积神经网络对预估颜色进行颜色校正，确保颜色校正效果，并且泛化性强。

Description

一种基于Swin-Unet的灰度图像着色校正方法

技术领域

本发明涉及图像着色技术领域，特别涉及一种基于Swin-Unet的灰度图像着色校正方法。

背景技术

图像是人们日常获取信息的一个重要途径，承载着巨大的信息量，特别是在现在这个信息时代，音频、图像、视频等多媒体信息呈现指数级增长，有研究表明，人眼可以分辨上千万种颜色，却只能分辨十几种灰度层级，相比于灰度图像，彩色图像包含更丰富的视觉信息。但是由于早期的拍摄技术和设备限制，存在着大量黑白照片和影像，它们同样具有重大的意义，将这些留存下来的黑白影像着色还原有助于了解那个年代的事物，满足人们的视觉需求。

不仅在影视制作方面灰度图像着色技术有重要意义，同样，在工业领域，如合成孔径雷达(SAR)影像、医学图像等方向，应用着色技术可以弥补设备自身不足导致的图像限制，可以更好的凸显图像特征，帮助人们做出更准确的判断；在艺术创作领域，如素描绘画、动漫等方向，用着色技术进行图像增强和伪着色也可以为艺术创作者提供帮助，提高工作效率，在一定程度上还能启发创作者；在图像预处理领域，如图像分割、行人检测、人脸识别等，彩色化后的影像也具有更加丰富的特征信息，从而提高识别的准确率。因此，灰度图像的着色在众多领域有着广泛应用，具有很高的研究价值。

发明内容

本发明的目的在于，目前的灰度图像着色方法大致分为两类：基于回归和基于分类，受限于网络自身架构和损失函数等，着色结果通常不饱和、语义颜色信息错误、颜色容易晕染。本发明从人类绘画的角度出发，提供一种基于unet-transformer的图像着色和基于卷积神经网络的颜色校正方法，利用unet-transformer对灰度图像进行颜色预测，并通过卷积神经网络对预估颜色进行颜色校正，确保颜色校正效果，并且泛化性强。

为了实现上述技术目的，本发明提供了如下技术方案：一种基于Swin-Unet的灰度图像着色校正方法，包括：

获取原始图像，对所述原始图像预处理得到预处理数据集，其中，所述预处理数据集包括训练集和测试集；

构建灰度图像着色校正模型，将所述训练集输入到所述灰度图像着色校正模型进行训练，得到训练好的灰度图像着色校正模型；

将所述测试集输入到所述训练好的灰度图像着色校正模型，得到最终的彩色图片。

可选的，基于图像裁剪和数据增强方法对所述原始图像进行预处理得到预处理数据集；

其中，所述预处理数据集包括训练集和测试集；

所述训练集和测试集均包括原始图像对应的灰度图像和ab通道图。

可选的，所述灰度图像着色校正模型包括unet-swintransformer分类着色模型和卷积神经网络颜色校正模型；

其中，所述unet-swintransformer分类着色模型用于图像颜色预测；

所述卷积神经网络颜色校正模型用于图像颜色校正。

可选的，所述unet-swintransformer分类着色模型包括：补丁嵌入层、编码器、瓶颈层、解码器和跳跃连接；

其中，所述编码器包括第一下采样层、第二下采样层和第三下采样层，三个所述下采样层依次连接，三个所述下采样层均包括swin block和patchmerging；

所述解码器包括第一上采样层、第二上采样层、第三上采样层，三个所述上采样层依次连接，三个所述上采样层包括patch expanding层、concat层和color attention模块；

所述瓶颈层分别为window attention和shift window attention，所述瓶颈层分别与所述编码器和所述解码器连接。

可选的，基于所述unet-swintransformer分类着色模型进行图像颜色预测的过程包括：

将所述灰度图像输入所述补丁嵌入层，得到若干图像块；

将若干所述图像块输入所述编码器，经第一下采样层得到第一特征向量；经第二下采样层得到第二特征向量；将第三下采样层得到第三特征向量；

将所述第三特征向量输入所述解码器，经所述第一上采样层的patch expanding层得到第四特征向量；

基于所述跳跃连接，所述第四特征向量和所述第二特征向量拼接，输入所述第一上采样层的color attention模块得到第一融合图像；

将所述第四特征向量输入所述第二上采样层的patch expanding层，得到第五特征向量；

基于所述跳跃连接，所述第五特征向量和所述第一特征向量拼接，输入所述第二上采样层的color attention模块得到第二融合图像；

将所述第五特征向量输入所述第三上采样层，得到第六特征向量和颜色标记；

所述第六特征向量和所述颜色标记经两个反卷积层得到图像预测颜色。

可选的，所述卷积神经网络颜色校正模型包括第一层神经网络、第二层神经网络、第三层神经网络和第四层神经网络；

其中，前三层神经网络均依次包括卷积层、批归一化层、激活层、卷积层和激活层；第四层神经网络为网络输出层；

可选的，基于所述卷积神经网络颜色校正模型进行图像颜色校正的过程包括：

基于所述灰度图像计算亮度值；

将所述图像预测颜色与亮度值拼接转换得到图像的RGB值；

将所述图像的RGB值转换为Lab模式，得到亮度分量；

将所述亮度分量输入第一层神经网络得到第一层神经网络结果，将所述图像预测颜色分别输入第二层神经网络得到第二层神经网络结果；

将所述第一层神经网络结果和所述二层神经网络结果拼接，输入到第三层神经网络，得到图像校正颜色；

将所述图像校正颜色、图像预测颜色和灰度图像均输入所述网络输出层，得到最终的彩色图片。

本发明具有如下技术效果：

1.本发明通过将颜色预测转换为颜色空间的分类问题，将swin transformer提取出来的图像特征与在lab颜色空间编码好的color tokens进行交互，使颜色信息融入到图像特征中，采用softmax函数预测像素可能出现的颜色的最大概率进行着色。

2.本发明在颜色分类的基础上增加了基于卷积神经网络的颜色校正网络，使得着色效果更自然，在一定程度上也有助于降低颜色晕染。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的方法流程示意图；

图2为本发明实施例中的基于unet-transformer的图像着色和基于卷积神经网络的颜色校正网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明以研究自然图像为对象，采用深度学习方法对灰度图像进行自动着色，无需任何人工介入和先验。当前的深度学习方法大致可以分为两类，一是基于回归对像素进行着色，而是基于分类，二者在着色过程中仍会存在颜色语义信息预测失败、颜色饱和度不足、颜色预测偏差、颜色溢出等问题，为了克服以上问题，本发明从人类绘画的角度出发，模拟人类对图像上色的过程，将灰度图像上色变为二阶段问题，首先将像素大致映射为lab颜色空间中规定的颜色种类，然后在此基础上进一步细化颜色，将预测颜色进行重定向，在保证颜色预测大致正确和饱和度较高的前提下使得颜色更加精细，更接近图像真实的颜色。

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例一

本实施例提供了一种基于Swin-Unet的灰度图像着色校正方法，包括如下步骤：

本发明依次对自然图像数据集进行颜色校正得到偏色训练数据集；将相应灰度图像进行裁剪，使用预设unet-transformer和卷积神经网络模型对灰度图像进行颜色预测分类、颜色校正，优化模型的网络参数直至收敛，输出训练好的transformer和卷积神经网络模型；利用训练好的模型预估待着色的灰度图像颜色，并进行颜色校正，确保着色效果，得到更加鲜艳、符合人眼偏好的彩色图像。

其中，unet-transformer和卷积神经网络模型为：

编码器部分包括一个基于ImageNet数据集的预训练Swin Transformer模型，得到编码器的输出和每一层swin transformer的输出集合。

解码器包括一个基于颜色mask的三层transformer网络，将编码器的输出和颜色tokens拼接后输入解码器，然后将每层color-mask transformer网络的输出跟编码器下采样的输出拼接并输入下一层color-mask tranformer网络。

基于卷积神经网络的颜色校正网络包括四层神经网络，前三层每层包含一个卷积层、一个批归一化层、一个激活层、一个卷积层、一个激活层；最后一层为网络输出层，输出为解码器的输出结果的极坐标校正矩阵。

将解码器和颜色校正网络的输出结果结合，得到最终的校正图片。

实施例二

如图1所示，本发明提供一种基于Swin-Unet的灰度图像着色校正方法，包括如下步骤：

依次对原始图像进行裁剪、数据增强等处理，得到相应的灰度图像和ab通道图，构成训练数据集。

构建用于灰度图像着色的unet-swintransformer网络和图像颜色校正的卷积神经网络模型，利用训练集对预设unet-swintransformer和卷积神经网络模型进行训练，基于预设的损失函数和优化器，对模型参数进行优化调整，直至网络收敛，输出训练好的unet-swintransformer和卷积神经网络模型。

利用训练好的模型对灰度图像进行着色和颜色校正，得到最后的彩色图片。

实施例三

本实施例提供一种基于Swin-Unet的灰度图像着色校正方法，本实施例训练所用的图像来自于公开数据集—ImageNet。

对图片进行预处理具体为：将公开数据集中的图像进行随机区域固定大小剪裁，裁剪大小为256*256，然后按照一定概率随机水平翻转图片，将转换好的图片由RGB格式转换为LAB格式，第一个通道的就是灰度图像image_l，后两个通道分别为a、b通道，根据image_l计算亮度值的mask_l。从而得到预处理数据集，用以训练预设的unet-swintransformer和卷积神经网络模型。

如图2所示，所构建的模型大体可以分为左边部分unet-swintransformer分类着色模型和右边部分卷积神经网络颜色校正模型。

左边部分为一个U型swintransformer，其具体结构为：

输入为单亮度通道的灰度图像，大小为[B,1,256,256]，将图像第二个通道复制为3通道，方便后续处理。

将image输入Patch embedding，变为一系列经过卷积和Linear层后的imagepatches，大小为[B,64*64,C]，C为通道数。

layers_down_1为swin block和patch merging，将输出的image patches经过自注意力计算后变为[B,32*32,2*C]。

layers_down_2和layers_down_3和layers_down_1为相同结构，Bottle_neck_1和Bottle_neck_2分别为window attention和shift window attention，经过layers_down_2、layers_down_3、Bottle_neck_1和Bottle_neck_2后得到大小为[B,8*8,8*C]的特征向量。

layers_up_1包括一个patch expanding层、一个concat层和一个colorattention模块，将上一步得到的大小为[B,8*8,8*C]的特征向量输入patch expanding层得到大小为[B,16*16,4*C]的特征向量，将其与经过layers_down_2的大小相同的向量在最后一维拼接后与color tokens共同输入color attention模块，让图像特征与颜色特征相互融合。

layers_up_2与layers_up_3跟layers_up_1结构相同，但是为了保存更多的颜色信息，在上采样时保持通道数并与相应下采样层特征拼接，因此layers_up_2和layers_up_3分别得到大小为[B,32*32,6C]和[B,64*64,7C]的特征向量。为了方便计算，颜色标记在每次上采样后也需要通过一个线性层与图像特征向量保持相同通道数。因此，最后得到大小为[B,64*64,7C]的图像特征向量和大小为[B,313,7C]的颜色标记。

up_final是两个反卷积层，将大小为[B,64*64,7C]的图像特征向量输入up_final后得到大小为[B,256*256,7C]的图像特征向量，然后与颜色tokens向乘得到最后的pred_colors，经过颜色空间映射后得到预测的ab通道图片。

右侧的颜色回归网络包括两个分支模块，用于处理颜色预测网络得到的Pred_colors和ground truth的亮度值L，每个通道分别代表极坐标下预测的ab值到真实ab值的角度和距离。具体步骤如图2所示，一阶段处理得到的pred_colors分别和ground truth的亮度值分量L拼接后转换为图像的RGB值，再转换到Lab模式提取亮度分量L’，L’和pred_colors计算得到的pred_theta再分别经过一个三层的组合卷积神经网络后拼接到一起，经过一个两层的组合卷积神经网络后得到最后的校正颜色Correct_colors张量，与pred_colors和输入Gray image共同组成最后的输出图片output。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于Swin-Unet的灰度图像着色校正方法，其特征在于，包括：

将所述测试集输入到所述训练好的灰度图像着色校正模型，得到最终的彩色图片；

基于图像裁剪和数据增强方法对所述原始图像进行预处理得到预处理数据集；

其中，所述预处理数据集包括训练集和测试集；

所述训练集和测试集均包括原始图像对应的灰度图像和ab通道图；

所述灰度图像着色校正模型包括unet-swintransformer分类着色模型和卷积神经网络颜色校正模型；

其中，所述unet-swintransformer分类着色模型用于获得图像预测颜色；

所述卷积神经网络颜色校正模型用于图像颜色校正；

所述卷积神经网络颜色校正模型包括第一层神经网络、第二层神经网络、第三层神经网络和第四层神经网络；

基于所述卷积神经网络颜色校正模型进行图像颜色校正的过程包括：

基于所述灰度图像计算亮度值；

将所述图像预测颜色与亮度值拼接转换得到图像的RGB值；

将所述图像的RGB值转换为Lab模式，得到亮度分量；

将所述第一层神经网络结果和所述第二层神经网络结果拼接，输入到第三层神经网络，得到图像校正颜色；

2.根据权利要求1所述的基于Swin-Unet的灰度图像着色校正方法，其特征在于：所述unet-swintransformer分类着色模型包括：补丁嵌入层、编码器、瓶颈层、解码器和跳跃连接；

其中，所述编码器包括第一下采样层、第二下采样层和第三下采样层，三个所述下采样层依次连接，三个所述下采样层均包括swin block和patch merging；

3.根据权利要求2所述的基于Swin-Unet的灰度图像着色校正方法，其特征在于：基于所述unet-swintransformer分类着色模型进行图像颜色预测的过程包括：

将所述灰度图像输入所述补丁嵌入层，得到若干图像块；

将若干所述图像块输入所述编码器，经第一下采样层得到第一特征向量；经第二下采样层得到第二特征向量；经第三下采样层得到第三特征向量；

将所述第一融合图像输入所述第二上采样层的patch expanding层，得到第五特征向量；

将所述第二融合图像输入所述第三上采样层，得到第六特征向量和颜色标记；