CN113436094A

CN113436094A - 一种基于多视角注意力机制的灰度图像自动上色方法

Info

Publication number: CN113436094A
Application number: CN202110703101.5A
Authority: CN
Inventors: 蒋斌; 戴家武; 许方镪
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-24
Anticipated expiration: 2041-06-24
Also published as: CN113436094B

Abstract

本发明涉及一种基于多视角注意力机制的灰度图像自动上色方法，属于灰度图像上色技术领域。通过步骤1，数据收集与处理，步骤2，模型构建，对特征图F进行全局平均池化，将特征图F进行通道池化，将输入特征图F不做任何变换成为F_{out_3}；有益效果在于，采用多视角注意力机制，多视角注意力模块能够让上色模型自适应地获取不同视角、不同尺度的注意力信息，更好地支持模型重建彩色图像。能够自适应地学习不同视角的特征信息，提高了编码‑解码结构的特征提取能力，强化了图像内语义信息和上下文信息的建模。通过将该模块嵌入编码‑解码结构，在保证上色结果图像质量的同时提高了颜色的饱和度和多样性。

Description

一种基于多视角注意力机制的灰度图像自动上色方法

技术领域

本发明涉及一种基于多视角注意力机制的灰度图像自动上色方法，属于灰度图像上色技术领域。

背景技术

灰度图像上色是当前图像处理领域的研究热点，该项技术广泛地应用于影视处理、广告制作以及艺术创作。通过图像上色技术能够修复老照片，给黑白电影赋予生动的色彩，同时可以为动漫、卡通人物进行辅助上色，降低艺术创作的复杂度。由此可见，灰度图像上色具有较大的使用价值和趣味性。传统的灰度图像上色方法往往需要人为参与，其中一种需要用户给定一张参考图像，上色模型从参考图像中迁移适合的颜色，而合适的参考图像往往难以获取，当参考图像和待上色的灰度图像目标、背景相差较大时难以得到生动的上色效果。第二种则需要用户人为地在灰度图像上进行颜色涂鸦，这要求用户需要一定的专业知识来选择合适的颜色，而且在上色过程中需要进行较大范围的颜色涂鸦来保证上色效果。近年来，由于深度学习技术兴起以及获取大规模图像数据集简易性，出现了一大批基于卷积神经网络(CNN)和生成对抗网络(GAN)的灰度图像自动上色方法。在目前的灰度图像自动上色模型中，以CNN为基础的编码器-解码器结构能够基于大规模数据集自动学习从灰度图像到彩色图像的映射，但往往得到的上色图像饱和度不够且多样性低，原因在于这种编码解码的方式只是逐像素学习映射关系，难以对图像中的语义和上下文信息有效建模。在以GAN为基础的生成式上色模型中，通过生成器和判别器的对抗训练来让生成器根据输入的灰度图像，近似地模拟真实彩色图像的分布，该种方法能够在一定程度上提高上色结果的多样性，但是生成的图像质量不佳，且GAN模型训练不稳定，难以收敛。

综上所述，当前的基于深度学习的灰度图像自动上色方法无法保证上色结果的多样性和图像质量，限制了该项技术的应用场景。为了保证灰度图像自动上色的结果生动，提高生成彩色图像的质量，需要针对现有的模型方法加以改进。

发明内容

本发明的目的在于提供一种基于多视角注意力机制的灰度图像自动上色方法，从而克服现有技术中的不足。

本发明的技术方案在于，包括以下步骤：

步骤1，数据收集与处理，采用开源的大规模图像数据集ImageNet,在获得数据集后对图像进行中心裁剪，得到分辨率为256*256的训练图像，随后对图像进行颜色空间变换，从RGB颜色空间变换到CIE Lab空间，对训练集中的每一张图像，以其L通道的数据作为灰度输入，ab通道作为颜色标签；

步骤2，模型构建，基于编码-解码架构设计全卷积的自动上色模型；采用多视角注意力机制，通过多视角注意力模块能够让上色模型自适应地获取不同视角、不同尺度的注意力信息，更好地支持模型重建彩色图像；

多视角注意力机制包括以下方法：多视角注意力模块接受一个尺寸为R^H×W×C的特征图F作为输入，随后该特征图进入三个分支；

分支1：对特征图F进行全局平均池化，将其转换为F₁₁，尺寸为R^1×1×C；将特征图F₁₁输入到两层连续的全连接层进行仿射变换，两层全连接层之间有一层ReLU激活函数，第二层全连接层后有一层Sigmoid,最终得到特征图F_{out_1}，其尺寸为R^1×1×C，该过程的可用公式(1)、(2)进行规约；

F₁₁＝avgpool(F) (1)

F_{out_1}＝σ(f_l2(R(f_l1(F₁₁)))) (2)

其中avgpool代表全局平均池化，σ代表Sigmiod层，f_l1和f_l2分别代表两层全连接层，R代表激活函数ReLU层；

分支2:将特征图F进行通道池化，得到特征图F₂₁，其尺寸为R^H×W×2；采用最大池化，将F₂₁按照2^k倍下采样，k＝1,2,3,..,n-1；得到不同尺度的特征图V₁,V₂,...,V_n-1,特征图V_k的尺寸为

随后对于每一个特征图V_k，经过一个3x3卷积和一层Sigmoid层之后进行k倍上采样，恢复特征图尺寸为R^H×W×1，得到n-1个特征图输出A₁,A₂,...,A_n-1；最后将每张特征图分别乘上一个可学习参数λ_k得到第二个分支的特征图输出F_{out_2}，尺寸为R^H×W×1；

该分支数学规约如式(3)至(6)所示：

F₂₁＝localpool(F₂) (3)

V_k＝mp(F₂₁) (4)

V_outk＝up(σ(conv(V_k))) (5)

其中localpool代表通道池化，mp代表空间上的最大池化，up代表上采样，conv代表3×3卷积，k表示特征图下采样的倍数，是一个1到n的整数，n表示最大的下采样倍数即任意符合图像分辨率下采样倍数的整数；

分支3：将输入特征图F不做任何变换成为F_{out_3}；

最后将三个分支的输出通过“广播”机制进行维度复制，所述的“广播”机制是针对维度不匹配的运算张量对缺失的维度用已有的元素进行复制扩展，该操作的实现已被集成在深度学习框架中。

得到了三张尺寸均为R^H×W×C的特征图，最后进行Hadmard乘积得到最终的输出F_out，尺寸为R^H×W×C，并传入下一层。特征图聚合操作的数学规约如式(7)所示：

所述步骤2中，基于编码-解码架构设计全卷积的自动上色模型，采用了Huber-loss作为损失函数，其数学规约如式(8)：

其中x和y分别表示训练数据对中的彩色原图以及模型重建后的彩色图像对应位置的像素值，δ是一个超参数，在本发明中其值取1，即δ＝1。

所述的步骤2中所述的编码-解码架构包括编码器、多视角注意力机制、解码器；

所述的编码器用于提取灰度图像特征，由多个卷积块组成，不同大小的卷积块之间进行了下采样操作，每次下采样率为2，特征图尺寸减半，但对特征通道加倍，该部分共有三个卷积块；

所述的多视角注意力机制总共包含四个卷积块，用于确保特征图尺寸不变的卷积，并且在每一个特征图尺寸不变的中间的卷积块后面加入多视角注意力模块；

所述的解码器用于彩色通道的重建，与编码器结构对称，不同尺寸的块之间做上采样操作，特征图尺寸加倍，特征通道减半，共三个解卷积块。

在所有的卷积块、解卷积块中，除了最后一个解卷积块，均由3×3卷积层、批量归一化层以及ReLU激活函数层构成；所述的最后一个解卷积块由一层3×3卷积层和一层Tanh激活函数层构成，输出通道数是2。

输入的L通道，L∈R^H×W×1，输出生成的ab通道，ab∈R^H×W×2；将生成的ab通道与原先的L通道结合后形成上色图像。

本发明对当前基于卷积神经网络的编码-解码架构的灰度图像自动上色模型加以改进，提出了一种多视角注意力机制模块，有益效果在于，该模块能够自适应地学习不同视角的特征信息，提高了编码-解码结构的特征提取能力，强化了图像内语义信息和上下文信息的建模。通过将该模块嵌入编码-解码结构，在保证上色结果图像质量的同时提高了颜色的饱和度和多样性。

附图说明

图1为本发明模型整体结构图。

图2为图1中的主干网络图。

图3为图1中的多视角注意力机制模块图。

具体实施方式

下面结合附图1至3对本发明的优选实施例作进一步说明，本发明包括以下步骤：

步骤1，数据收集与处理，采用开源的大规模图像数据集ImageNet,包括训练数据130万张、验证数据5万张、测试数据1万张。在获得数据集后对图像进行中心裁剪，得到分辨率为256*256的训练图像，随后对图像进行颜色空间变换，从RGB颜色空间变换到CIE Lab空间，对训练集中的每一张图像，以其L通道的数据作为灰度输入，ab通道作为颜色标签；

F₁₁＝avgpool(F) (1)

F_{out_1}＝σ(f_l2(R(f_l1(F₁₁)))) (2)

分支2：将特征图F进行通道池化，得到特征图F₂₁，其尺寸为R^H×W×2；采用最大池化，将F₂₁按照2^k倍下采样，k＝1,2,3,..,n-1；得到不同尺度的特征图V₁,V₂,...,V_n-1,特征图V_k的尺寸为

该分支数学规约如式(3)至(6)所示：

F₂₁＝localpool(F₂) (3)

V_k＝mp(F₂₁) (4)

V_outk＝up(σ(conv(V_k))) (5)

其中localpool代表通道池化，mp代表空间上的最大池化，localpool和mp分别对应本发明中的“全局池化”和“局部池化”，up代表上采样，conv代表3×3卷积，k表示特征图下采样的倍数，是一个1到n的整数，n表示最大的下采样倍数，即任意符合图像分辨率下采样倍数的整数；在本实施例中n取4；

分支3：将输入特征图F不做任何变换成为F_{out_3}；

最后将三个分支的输出通过“广播”机制进行维度复制，所述的“广播”机制是针对维度不匹配的运算张量对缺失的维度用已有的元素进行复制扩展，该操作的实现已被集成在深度学习框架中；

Claims

1.一种基于多视角注意力机制的灰度图像自动上色方法，其特征在于包括以下步骤：

F₁₁＝avgpool(F) (1)

F_{out_1}＝σ(f_l2(R(f_l1(F₁₁)))) (2)

该分支数学规约如式(3)至(6)所示：

F₂₁＝localpool(F₂) (3)

V_k＝mp(F₂₁) (4)

V_outk＝up(σ(conv(V_k))) (5)

其中localpool代表通道池化，mp代表空间上的最大池化，up代表上采样，conv代表3×3卷积，k表示特征图下采样的倍数，是一个1到n的整数，n表示最大的下采样倍数，即任意符合图像分辨率下采样倍数的整数；

分支3：将输入特征图F不做任何变换成为F_{out_3}；

最后将三个分支的输出通过“广播”机制进行维度复制，得到了三张尺寸均为R^H×W×C的特征图，最后进行Hadmard乘积得到最终的输出F_out，尺寸为R^H×W×C，并传入下一层；特征图聚合操作的数学规约如式(7)所示：

2.根据权利要求1所述的一种基于多视角注意力机制的灰度图像自动上色方法，其特征在于，所述步骤2中，基于编码-解码架构设计全卷积的自动上色模型，采用了Huber-loss作为损失函数，其数学规约如式(8)：

3.根据权利要求1所述的一种基于多视角注意力机制的灰度图像自动上色方法，其特征在于，步骤2中所述的编码-解码架构包括编码器、多视角注意力机制、解码器；

4.根据权利要求3所述的一种基于多视角注意力机制的灰度图像自动上色方法，其特征在于，在所有的卷积块、解卷积块中，除了最后一个解卷积块，均由3×3卷积层、批量归一化层以及ReLU激活函数层构成；所述的最后一个解卷积块由一层3×3卷积层和一层Tanh激活函数层构成，输出通道数是2。

5.根据权利要求1所述的一种基于多视角注意力机制的灰度图像自动上色方法，其特征在于，输入的L通道，L∈R^H×W×1，输出生成的ab通道，ab∈R^H×W×2；将生成的ab通道与原先的L通道结合后形成上色图像。