CN113554733B

CN113554733B - 基于语言的解耦合条件注入灰度图像彩色化方法

Info

Publication number: CN113554733B
Application number: CN202110859533.5A
Authority: CN
Inventors: 施柏鑫; 李思; 吴昊; 翁书晨; 汤佳骏
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2022-02-01
Anticipated expiration: 2041-07-28
Also published as: CN113554733A

Abstract

基于语言的解耦合条件注入灰度图像彩色化方法，涉及图像处理技术领域，解决现有技术存在的颜色与事物的不匹配问题及颜色与事物的耦合问题，本发明利用提取器对原始Caption进行关键词的提取，然后利用检测器对精简的Caption进行补全后输入到解耦合的条件注入模块，在将Caption注入到神经网络时，利用Step D‑A‑I完成：分离Caption中表示颜色和表示物体的两部分，用表示物体的部分进行定位，表示颜色的部分进行相应部位的颜色分配。实现了文本中事物定位任务与颜色注入任务的分离。使得最后得到的彩色图像满足本文的要求。

Description

基于语言的解耦合条件注入灰度图像彩色化方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于语言的解耦合条件注入灰度图像彩色化方法。

背景技术

灰度图像彩色化技术(Grayscale Image Colorization)是将颜色信息添加到灰度图像上，使其成为彩色图像。相较于人工上色，其有着低成本、快速的优点，因而被广泛应用于老照片、近红外线图像和漫画线稿的上色。

传统的方法将灰度图像的彩色化看作一个优化问题，需要额外的提示来预测整张图像的颜色。根据提示方式的不同，分为两大类：1)基于涂鸦的彩色化(Scribble-basedColorization)技术，用户在灰度图像上涂鸦(彩色的点或线条)，该技术会将这些局部的颜色信息传播到整张灰度图像，最终得到符合涂鸦的彩色图像。2)基于样例的彩色化(Example-based Colorization)技术，用户将一张与灰度图像结构相似的彩色图像作为彩色化的样例，该技术将统计样例的颜色信息并将其迁移到灰度图像上，最终得到与样例颜色相近的灰度图像的彩色版本。但是这些方法比较耗时，而且需要提供额外的信息，更糟糕的是当涂鸦数量较少或样例与灰度图像不相似时，生成的彩色图像质量往往较差。

随着深度学习方法的发展，利用神经网络对隐式数据分布全面的建模能力来预测灰度图像的颜色逐渐成为近几年的主流方法。应用了深度学习的方法能够提前从数据中学习物体颜色(例如，往往天空是蓝色而草地是绿色)，在预测灰度图像的颜色时就不再需要额外的提示。自此，全自动的彩色化(Automatic Colorization)技术成为了研究的热点。

但是由于物体潜在地具有多种可能的颜色(例如，苹果可能是绿色，黄色或者红色)，全自动的彩色化技术所得到的彩色图像并不一定能够满足用户特定的要求。因此，与用户交互的彩色化技术仍然有研究的必要，应用了深度学习的基于涂鸦和基于样例的彩色化方法，均取得了相较于传统方法明显的提升。最近，一种新交互方式的彩色化技术被提出，即基于语言的彩色化(Language-based Colorization)技术。用户将期望的颜色以自然语言的文本形式给出，该技术在彩色化一张灰度图像时，会以该文本为条件来约束彩色化过程，最终生成满足条件的彩色图像。

现有技术1：Learning to Color from Language

Varun Manjunatha,Mohit Iyyer,Jordan Boyd-Graber,and LarryDavis.Learning to color from language.NAACL,2018。

主要方法：应用了深度学习的方法，主要采用一个结构为编码器-解码器(Encoder-Decoder)的卷积神经网络(Convolutional Neural Networks,CNN)。灰度图像作为输入，经过Encoder阶段得到特征图(Feature map)；而文本被一个双向长短期记忆单元(Bidirectional Long and Short Term Memory，BiLSTM)编码为一个向量。随后该特征和向量通过一个特征线性调制(Feature-wise Linear Modulation，FiLM)融合模块进行融合，融合得到的信息在Decoder阶段被恢复为彩色图像。

实现过程：

(1)将图像由RGB色彩空间转换到Lab色彩空间，其中L通道代表灰度，而a和b通道代表了颜色信息。将L输入到CNN中，经过Encoder阶段得到特征图F_n，n表示第n个卷积块；文本通过BiLSTM被编码为向量h。

(2)特征图F_n和向量h在FiLM中进行融合。首先通过线性投影计算两个向量γ_n和β_n：

其中

和

是可学习的权重矩阵。经过以下计算得到融合后的特征图F′_n：

其中空间坐标i和j确定F_n中的元素，运算符°表示元素乘法。

(3)F′_n在Decoder生成预测的彩色图像的a和b通道，结合已有L通道，就得到Lab色彩空间的彩色图像，最后再转换为RGB色彩空间。

现有技术2：Yanping Xie.Language-guided image colorization.Master’sthesis,ETH Zurich,Departement of Computer Science,2018.

主要方法：在现有技术1的基础上进行改进。该方法采用了一种带有跨越连接结构的“U”型结构编码器-解码器(U-Net)，利于在Decoder阶段恢复图像的更多细节；在主干网络的上添加了语义分割的分支网络，以促进彩色化过程中对高层语义的学习。

实现过程：与现有技术1的实现过程一致，唯一不同的是：由于语义分割分支网络共享了主干网络，所以该技术同时对主干和分支训练。

现有技术的缺点：

1、存在颜色-事物的耦合问题(color-object coupling)。现有技术都应用了深度学习，从数据集中学习潜在的事物与颜色的对应关系。这就造成当用户指定的事物与颜色是在数据集中不常出现的搭配时，得到的彩色图像可能无法满足条件指定的颜色。

2、存在颜色-事物的不匹配问题(color-object mismatch)。用户提供的文本中往往只指定了灰度图像中部分事物的颜色，而得到的彩色图像中未被指定的事物的颜色可能与文本中的某个事物的颜色相同。

发明内容

本发明为解决现有技术中存在的颜色与事物的不匹配问题及颜色与事物的耦合问题，提供一种基于语言的解耦合条件注入灰度图像彩色化方法。

基于语言的解耦合条件注入灰度图像彩色化方法，该方法由以下步骤实现：

步骤一、采用提取器Extractor对原始的记录自然语言句子的文本Caption进行关键词提取；

步骤二、采用检测器Detector检测灰度图像中存在的事物，并设定默认的颜色，然后在解耦合条件注入模块中与步骤一提取的关键词进行合并，获得处理后的Caption；所述灰度图像经编码器Encoder获得特征图Feature map；

步骤三、所述解耦合条件注入模块采用词嵌入Word Embedding方式将步骤二获得处理后的Caption中每个单词编码为向量

表示全体实数集，D为向量m的维度；获得2×N个向量m；

步骤四、将步骤二中经编码器Encoder获得的特征图Feature Map采用特征图矩阵H表示，

为通道数，F为高度h和宽度w的乘积；

采用一个卷积层

将每个向量m转换为维度与特征图Feature Map的通道数相同的向量m′，

步骤五、分离处理后的Caption中表示事物和颜色的向量；具体为：

步骤五一、将表示颜色的向量m′放在一起，所述m′构成一个矩阵C，

将表示事物的m′构成矩阵O，

表示颜色的向量和表示事物的向量均为N个；

步骤五二、计算注意力映射：

计算事物和特征图Feature Map之间的注意力映射；用下式表示为：

式中，e为自然底数；

表示H^T的第i行，H^T表示H的转置矩阵，O_j表示矩阵O的第j列；α_i,j表示特征图Feature Map中第i个像素属于Caption中第j个事物的概率；

O_k表示矩阵O的第k列；

步骤五三、计算每个位置要注入的颜色矩阵C′，

第i列C′_i由下式计算：

步骤六、将特征图矩阵H和颜色矩阵C′进行拼接，获得了融合灰度图像信息和语言信息的特征图H′，

步骤七、将步骤六获得的特征图H′经解码器Decoder解码后获得预测的彩色化图像在Lab色彩空间的ab通道，将所述灰度图像的L通道和预测的ab通道进行拼接，获得Lab色彩空间的彩色图像，将所述Lab色彩空间的彩色图像转换到RGB色彩空间，得到最终的彩色图像。

本发明的有益效果：本发明所述的方法成功解决了现有技术中存在的color-object coupling和color-object mismatch两个问题。使灰度图像彩色化的结果更加符合用户的描述。利用文本来约束灰度图像彩色化的方法，将用户描述颜色信息的自然语言以文本形式作为条件，指导灰度图像彩色化的过程，使得最后得到的彩色图像满足本文的要求。

本发明所述方法中，先利用提取器(Extractor)对原始Caption进行关键词的提取，然后利用检测器(Detector)对精简的Caption进行补全后输入到解耦合的条件注入模块，而现有方法直接使用循环神经网络将原始的记录自然语言句子的文本(Caption)编码为向量。

本发明所述的方法在将Caption注入到神经网络时，利用Step D-A-I完成：分离Caption中表示颜色和表示物体的两部分，用表示物体的部分进行定位，而表示颜色的部分进行相应部位的颜色分配。这实际上实现了文本中事物定位任务与颜色注入任务的分离。而现有方法将代表着整个Caption的向量，直接与灰度图像特征融合。

附图说明

图1为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法的神经网络结构示意图；

图2为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法中注入步骤流程图。

图3为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法中HSV色彩空间的划分(虚线框内)和生成Caption的流程图。

具体实施方式

结合图1至图3说明本实施方式，基于语言的解耦合条件注入灰度图像彩色化方法，采用深度学习的方法，神经网络的结构如图1所示。整个网络以灰度图像在Lab色彩空间的L通道和Caption为输入，输出预测的彩色化图像在Lab色彩空间的ab两通道；然后将灰度图像的L通道和预测的颜色信息ab通道拼接起来，得到Lab色彩空间的彩色图像，最后再将其转换到RGB色彩空间，得到最终的结果。神经网络的训练采用合成数据。下面详细介绍神经网络的结构与训练数据的合成。

结合图1说明本实施方式，整个网络采用了U-Net的结构，Encoder由4个卷积块组成，每个卷积块有2～3个卷积层。灰度图像在经过Encoder时分辨率逐块递减，而通道数逐块增加。经Encoder得到的特征图Feature Map在解耦合条件注入模块中与Caption完成图像信息与语言信息的融合，最后融合的信息在Decoder阶段进行恢复，得到预测的灰度图像的颜色信息。同时为了能帮助神经网络更好地识别灰度图像中的各类事物，还增加了语义分割分支网络。训练整个神经网络时，完成彩色化的主干网络和语义分割分支网络同时进行训练；预测时，只使用主干网络。

具体方法由下步骤实现：

一、提取器Extractor：灰度图像包含了除颜色以外的所有语义信息，因此Caption中除颜色以外的信息都可以看做是冗余信息，它们对彩色化过程没有帮助。本实施方式中使用一个Extractor对原始的Caption进行关键词提取，仅保留事物及其对应颜色。如图1所示，如：原始Caption是“A black dog carries a red fribee in its mouth.”，由提取器Extractor提取关键词得到(black,dog)和(red,fribee)。所述Extractor有很多现成的方法可供使用，本实施方式中采用了一种简单的实现，即利用句子的常见模板进行关键词匹配。

二、检测器Detector：人们往往只会关注感兴趣的事物，所以提供的原始Caption中只包含了灰度图像中的部分事物，例如步骤一中得到的(black,dog)和(red,fribee)，只包含了灰度图像中的两种事物。为了尽可能地包含灰度图像中的事物，通过一个Detector来检测灰度图像中存在的事物，并用default作为默认的颜色，然后与步骤一中得到的进行合并。如图1所示，该步骤会得到(black,dog)(red,fribee)(default,grass)(default,sky)(default house)(default tree)。这里的Detector也有很多现有的方法可供使用，本实施方式中采用的是利用一个已有的预训练的语义分割模型，它可以将图像中的所有事物都识别并标注类别。

三、解耦合条件注入模块：具体过程如图2所示。

I、使用词嵌入Word Embedding将步骤二得到的Caption中的每个单词编码为向量

例如m_black,m_dog,m_red,m_frisbee；

II、Encoder阶段得到的特征图Feature map用

表示，其中

是通道数，F是高度h和宽度w的乘积。使用一个卷积层

将每个m转换为维度与Feature Map的通道数相同的向量m′＝Um,

如：m′_black,m′_dog,m′_red,m′_frisbee；

III、分离caption中表示事物和颜色的向量(Step D)：将表示颜色的m′放在一起，这些m′构成一个矩阵

其中N是m′的数量；同理，表示事物的m′构成矩阵

IV、计算注意力映射(Step A)：计算事物和特征图Feature Map之间的注意力映射Attention Maps：

其中

α_i,j表示Feature map中第i个像素属于Caption中第j个事物的概率。

V、计算最终要注入的颜色(Step I)：最终要注入的颜色可以表示为

其第i列C′_i由下式计算：

最后，将H和C′拼接，经过一个卷积层得到

即融合了灰度图像信息和语言信息的特征图。

本实施方式中，还包括采用损失函数smooth-l₁计算彩色图像的损失，其中，计算预测的ab通道与真实的ab通道的损失为：

采用G^c和G^s分别表示真实的ab通道的值和分割图的值，I^c和I^s分别表示预测的ab通道的值和分割图的值。其中，I^s并非G^s一样仅给出像素所属的类别，而是给出像素在所有类别上的概率。计算a和b两通道预测值和真实值之间的差距：

其中，x和y作为自变量，作为某个像素的a或b通道的预测值或真实值，δ＝1。l_δ应用在整张图像的每个像素，最后将每个像素的l_δ相加，得到整张图像在彩色化任务中的损失，即：

式中，h′,w′分别表示图像的行和列，共同确定图像中的一个像素，z表示a或b通道；

表示a或b通道的图像中第h′行w′列像素的真实值，

分别表示a或b通道的图像中第h′行w′列像素的预测值。

采用语义分割分支网络进行分割，采用加权交叉熵计算损失：

其中，σ_h′,w′是类别稀有度权重，由数据集中类别分布计算而来。

表示图像中第h′行w′列像素被预测为真实类别

的概率；如：一共有182个类别。h′,w′处的像素的真实类别是第66个类别，则

的而

是一个长度为182的向量，向量的每一处表示对应类别的概率，

就表示该像素被预测为正确类别的概率，范围0～1，越接近1，预测得越准。

本实施方式中，采用语义分割分支网络用于能增强Encoder对灰度图像的语义理解，有利于减弱最终彩色图像中的渗色现象，提高整体的着色质量。

网络的整体损失是彩色化任务与分割任务的加权组合，即：

L_total(G^c,I^c,G^s,I^s)＝L_c(G^c,I^c)+λ·L_s(G^s,I^s),

其中，λ是控制两部分贡献的权重，在实验中取0.1。

本实施方式中，还包括采用合成训练数据对神经网络的训练。由于训练数据中的Caption相当于经过Extractor和Detector的处理，所以在对神经网络进行训练时，会跳过这两个处理步骤。

结合图3说明本实施方式，首先确定如何使用一个单词来描述一个像素的颜色。预先选定了10种常见的颜色，并将HSV色彩空间划分为对应数量的部分，如图3虚线框内所示。所述合成训练数据的Caption生成过程为：利用COCO数据集中的彩色图像及对应分割图来生成Caption，采用如下步骤实现：

步骤1、丢弃灰度图像；

计算彩色图像中各种颜色的像素的比例，如果black，gray和white三种颜色占比之和高于灰度阈值α₁(实验中选取0.8)，则将该彩色图像视为灰度图像，直接舍弃；

步骤2、忽略图像中占比小于事物阈值α₂(实验中选取0.1)的事物；

步骤3、确定图像中剩余事物的颜色；

如果事物存在一种颜色，其占比超过该事物的颜色阈值α₃(实验中选取0.35)，则将该颜色作为该事物的颜色；否则，舍弃整张图像。

本实施方式中，在训练之前，首先进行数据增强。对灰度图像采用镜面翻转操作；随机选择Caption中的某些事物，将其对应的颜色改为默认色default。

本实施方式中，Extractor和Detector的有多种现有的实现方式，可将Extractor替换为循环神经网络。也可采用卷积块添加残差结构替换深度卷积网络模型结构。

本实施方式所述的方法可开发作为app，网页等应用。

Claims

1.基于语言的解耦合条件注入灰度图像彩色化方法，其特征是：该方法由以下步骤实现：

表示全体实数集，D为向量m的维度；获得2×N个向量m；

为通道数，F为高度h和宽度w的乘积；

采用一个卷积层

将每个向量m转换为维度与特征图Feature Map的通道数相同的向量m′，m′＝Um,

将表示事物的m′构成矩阵O，

表示颜色的向量和表示事物的向量均为N个；

步骤五二、计算注意力映射：

式中，e为自然底数；

O_k表示矩阵O的第k列；

步骤五三、计算每个位置要注入的颜色矩阵C′，

第i列C_i′由下式计算：

2.根据权利要求1所述的基于语言的解耦合条件注入灰度图像彩色化方法，其特征在于：

步骤七中，还包括采用smooth-l₁损失函数计算预测的ab通道与真实的ab通道的损失：具体过程如下：

采用G^c和G^s分别表示真实的ab通道的值和分割图的值，I^c和I^s分别表示预测的ab通道的值和分割图的值；

计算ab两通道预测值和真实值之间的差距，公式如下：

式中，δ＝1，

为应用在整张图像的每个像素，最后将每个像素的

相加，获得整张图像在彩色化任务中的损失，即：

表示a或b通道的图像中第h′行w′列像素的真实值，

分别表示a或b通道的图像中第h′行w′列像素的预测值。

3.根据权利要求2所述的基于语言的解耦合条件注入灰度图像彩色化方法，其特征在于：还包括语义分割分支网络，语义分割任务的损失采用加权交叉熵计算，公式如下：

其中，σ_h′,w′是类别稀有度权重，由数据集中类别分布计算而来；

表示图像中第h′行w′列像素被预测为真实类别

的概率；

网络的整体损失为彩色化任务与分割任务的加权组合，即：

L_total(G^c,I^c,G^s,I^s)＝L_c(G^c,I^c)+λ·L_s(G^s,I^s)

式中，λ为控制两部分贡献的权重。

4.根据权利要求1所述的基于语言的解耦合条件注入灰度图像彩色化方法，其特征在于：还包括采用合成训练数据对神经网络进行训练，完成彩色化的主干网络和语义分割分支网络同时进行训练；

所述合成训练数据利用COCO数据集中的彩色图像及对应的分割图来生成Caption，所述Caption与步骤二中处理后的Caption相同，在对神经网络训练时，直接输入Caption，所述Caption的生成过程为：

步骤A、丢弃灰度图像；

计算彩色图像中各种颜色的像素的比例，如果各种颜色占比之和高于灰度阈值α₁，则将该彩色图像视为灰度图像，直接舍弃；

步骤B、忽略彩色图像中占比小于事物阈值α₂的事物；

步骤C、确定彩色图像中剩余事物的颜色；

如果事物存在一种颜色，其占比超过该事物的颜色阈值α₃，则将该颜色作为该事物的颜色；否则，舍弃整张图像。