CN113554733B - 基于语言的解耦合条件注入灰度图像彩色化方法 - Google Patents

基于语言的解耦合条件注入灰度图像彩色化方法 Download PDF

Info

Publication number
CN113554733B
CN113554733B CN202110859533.5A CN202110859533A CN113554733B CN 113554733 B CN113554733 B CN 113554733B CN 202110859533 A CN202110859533 A CN 202110859533A CN 113554733 B CN113554733 B CN 113554733B
Authority
CN
China
Prior art keywords
image
color
caption
channel
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110859533.5A
Other languages
English (en)
Other versions
CN113554733A (zh
Inventor
施柏鑫
李思
吴昊
翁书晨
汤佳骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110859533.5A priority Critical patent/CN113554733B/zh
Publication of CN113554733A publication Critical patent/CN113554733A/zh
Application granted granted Critical
Publication of CN113554733B publication Critical patent/CN113554733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

基于语言的解耦合条件注入灰度图像彩色化方法,涉及图像处理技术领域,解决现有技术存在的颜色与事物的不匹配问题及颜色与事物的耦合问题,本发明利用提取器对原始Caption进行关键词的提取,然后利用检测器对精简的Caption进行补全后输入到解耦合的条件注入模块,在将Caption注入到神经网络时,利用Step D‑A‑I完成:分离Caption中表示颜色和表示物体的两部分,用表示物体的部分进行定位,表示颜色的部分进行相应部位的颜色分配。实现了文本中事物定位任务与颜色注入任务的分离。使得最后得到的彩色图像满足本文的要求。

Description

基于语言的解耦合条件注入灰度图像彩色化方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于语言的解耦合条件注入灰度图像彩色化方法。
背景技术
灰度图像彩色化技术(Grayscale Image Colorization)是将颜色信息添加到灰度图像上,使其成为彩色图像。相较于人工上色,其有着低成本、快速的优点,因而被广泛应用于老照片、近红外线图像和漫画线稿的上色。
传统的方法将灰度图像的彩色化看作一个优化问题,需要额外的提示来预测整张图像的颜色。根据提示方式的不同,分为两大类:1)基于涂鸦的彩色化(Scribble-basedColorization)技术,用户在灰度图像上涂鸦(彩色的点或线条),该技术会将这些局部的颜色信息传播到整张灰度图像,最终得到符合涂鸦的彩色图像。2)基于样例的彩色化(Example-based Colorization)技术,用户将一张与灰度图像结构相似的彩色图像作为彩色化的样例,该技术将统计样例的颜色信息并将其迁移到灰度图像上,最终得到与样例颜色相近的灰度图像的彩色版本。但是这些方法比较耗时,而且需要提供额外的信息,更糟糕的是当涂鸦数量较少或样例与灰度图像不相似时,生成的彩色图像质量往往较差。
随着深度学习方法的发展,利用神经网络对隐式数据分布全面的建模能力来预测灰度图像的颜色逐渐成为近几年的主流方法。应用了深度学习的方法能够提前从数据中学习物体颜色(例如,往往天空是蓝色而草地是绿色),在预测灰度图像的颜色时就不再需要额外的提示。自此,全自动的彩色化(Automatic Colorization)技术成为了研究的热点。
但是由于物体潜在地具有多种可能的颜色(例如,苹果可能是绿色,黄色或者红色),全自动的彩色化技术所得到的彩色图像并不一定能够满足用户特定的要求。因此,与用户交互的彩色化技术仍然有研究的必要,应用了深度学习的基于涂鸦和基于样例的彩色化方法,均取得了相较于传统方法明显的提升。最近,一种新交互方式的彩色化技术被提出,即基于语言的彩色化(Language-based Colorization)技术。用户将期望的颜色以自然语言的文本形式给出,该技术在彩色化一张灰度图像时,会以该文本为条件来约束彩色化过程,最终生成满足条件的彩色图像。
现有技术1:Learning to Color from Language
Varun Manjunatha,Mohit Iyyer,Jordan Boyd-Graber,and LarryDavis.Learning to color from language.NAACL,2018。
主要方法:应用了深度学习的方法,主要采用一个结构为编码器-解码器(Encoder-Decoder)的卷积神经网络(Convolutional Neural Networks,CNN)。灰度图像作为输入,经过Encoder阶段得到特征图(Feature map);而文本被一个双向长短期记忆单元(Bidirectional Long and Short Term Memory,BiLSTM)编码为一个向量。随后该特征和向量通过一个特征线性调制(Feature-wise Linear Modulation,FiLM)融合模块进行融合,融合得到的信息在Decoder阶段被恢复为彩色图像。
实现过程:
(1)将图像由RGB色彩空间转换到Lab色彩空间,其中L通道代表灰度,而a和b通道代表了颜色信息。将L输入到CNN中,经过Encoder阶段得到特征图Fn,n表示第n个卷积块;文本通过BiLSTM被编码为向量h。
(2)特征图Fn和向量h在FiLM中进行融合。首先通过线性投影计算两个向量γn和βn
Figure GDA0003427757230000021
其中
Figure GDA0003427757230000022
Figure GDA0003427757230000023
是可学习的权重矩阵。经过以下计算得到融合后的特征图F′n
Figure GDA0003427757230000024
其中空间坐标i和j确定Fn中的元素,运算符°表示元素乘法。
(3)F′n在Decoder生成预测的彩色图像的a和b通道,结合已有L通道,就得到Lab色彩空间的彩色图像,最后再转换为RGB色彩空间。
现有技术2:Yanping Xie.Language-guided image colorization.Master’sthesis,ETH Zurich,Departement of Computer Science,2018.
主要方法:在现有技术1的基础上进行改进。该方法采用了一种带有跨越连接结构的“U”型结构编码器-解码器(U-Net),利于在Decoder阶段恢复图像的更多细节;在主干网络的上添加了语义分割的分支网络,以促进彩色化过程中对高层语义的学习。
实现过程:与现有技术1的实现过程一致,唯一不同的是:由于语义分割分支网络共享了主干网络,所以该技术同时对主干和分支训练。
现有技术的缺点:
1、存在颜色-事物的耦合问题(color-object coupling)。现有技术都应用了深度学习,从数据集中学习潜在的事物与颜色的对应关系。这就造成当用户指定的事物与颜色是在数据集中不常出现的搭配时,得到的彩色图像可能无法满足条件指定的颜色。
2、存在颜色-事物的不匹配问题(color-object mismatch)。用户提供的文本中往往只指定了灰度图像中部分事物的颜色,而得到的彩色图像中未被指定的事物的颜色可能与文本中的某个事物的颜色相同。
发明内容
本发明为解决现有技术中存在的颜色与事物的不匹配问题及颜色与事物的耦合问题,提供一种基于语言的解耦合条件注入灰度图像彩色化方法。
基于语言的解耦合条件注入灰度图像彩色化方法,该方法由以下步骤实现:
步骤一、采用提取器Extractor对原始的记录自然语言句子的文本Caption进行关键词提取;
步骤二、采用检测器Detector检测灰度图像中存在的事物,并设定默认的颜色,然后在解耦合条件注入模块中与步骤一提取的关键词进行合并,获得处理后的Caption;所述灰度图像经编码器Encoder获得特征图Feature map;
步骤三、所述解耦合条件注入模块采用词嵌入Word Embedding方式将步骤二获得处理后的Caption中每个单词编码为向量
Figure GDA0003427757230000031
Figure GDA0003427757230000032
表示全体实数集,D为向量m的维度;获得2×N个向量m;
步骤四、将步骤二中经编码器Encoder获得的特征图Feature Map采用特征图矩阵H表示,
Figure GDA0003427757230000033
Figure GDA0003427757230000034
为通道数,F为高度h和宽度w的乘积;
采用一个卷积层
Figure GDA0003427757230000035
将每个向量m转换为维度与特征图Feature Map的通道数相同的向量m′,
Figure GDA0003427757230000036
步骤五、分离处理后的Caption中表示事物和颜色的向量;具体为:
步骤五一、将表示颜色的向量m′放在一起,所述m′构成一个矩阵C,
Figure GDA0003427757230000041
将表示事物的m′构成矩阵O,
Figure GDA0003427757230000042
表示颜色的向量和表示事物的向量均为N个;
步骤五二、计算注意力映射:
计算事物和特征图Feature Map之间的注意力映射;用下式表示为:
Figure GDA0003427757230000043
式中,e为自然底数;
Figure GDA0003427757230000044
Figure GDA0003427757230000045
表示HT的第i行,HT表示H的转置矩阵,Oj表示矩阵O的第j列;αi,j表示特征图Feature Map中第i个像素属于Caption中第j个事物的概率;
Figure GDA0003427757230000046
Ok表示矩阵O的第k列;
步骤五三、计算每个位置要注入的颜色矩阵C′,
Figure GDA0003427757230000047
第i列C′i由下式计算:
Figure GDA0003427757230000048
步骤六、将特征图矩阵H和颜色矩阵C′进行拼接,获得了融合灰度图像信息和语言信息的特征图H′,
Figure GDA0003427757230000049
步骤七、将步骤六获得的特征图H′经解码器Decoder解码后获得预测的彩色化图像在Lab色彩空间的ab通道,将所述灰度图像的L通道和预测的ab通道进行拼接,获得Lab色彩空间的彩色图像,将所述Lab色彩空间的彩色图像转换到RGB色彩空间,得到最终的彩色图像。
本发明的有益效果:本发明所述的方法成功解决了现有技术中存在的color-object coupling和color-object mismatch两个问题。使灰度图像彩色化的结果更加符合用户的描述。利用文本来约束灰度图像彩色化的方法,将用户描述颜色信息的自然语言以文本形式作为条件,指导灰度图像彩色化的过程,使得最后得到的彩色图像满足本文的要求。
本发明所述方法中,先利用提取器(Extractor)对原始Caption进行关键词的提取,然后利用检测器(Detector)对精简的Caption进行补全后输入到解耦合的条件注入模块,而现有方法直接使用循环神经网络将原始的记录自然语言句子的文本(Caption)编码为向量。
本发明所述的方法在将Caption注入到神经网络时,利用Step D-A-I完成:分离Caption中表示颜色和表示物体的两部分,用表示物体的部分进行定位,而表示颜色的部分进行相应部位的颜色分配。这实际上实现了文本中事物定位任务与颜色注入任务的分离。而现有方法将代表着整个Caption的向量,直接与灰度图像特征融合。
附图说明
图1为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法的神经网络结构示意图;
图2为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法中注入步骤流程图。
图3为本发明所述的基于语言的解耦合条件注入灰度图像彩色化方法中HSV色彩空间的划分(虚线框内)和生成Caption的流程图。
具体实施方式
结合图1至图3说明本实施方式,基于语言的解耦合条件注入灰度图像彩色化方法,采用深度学习的方法,神经网络的结构如图1所示。整个网络以灰度图像在Lab色彩空间的L通道和Caption为输入,输出预测的彩色化图像在Lab色彩空间的ab两通道;然后将灰度图像的L通道和预测的颜色信息ab通道拼接起来,得到Lab色彩空间的彩色图像,最后再将其转换到RGB色彩空间,得到最终的结果。神经网络的训练采用合成数据。下面详细介绍神经网络的结构与训练数据的合成。
结合图1说明本实施方式,整个网络采用了U-Net的结构,Encoder由4个卷积块组成,每个卷积块有2~3个卷积层。灰度图像在经过Encoder时分辨率逐块递减,而通道数逐块增加。经Encoder得到的特征图Feature Map在解耦合条件注入模块中与Caption完成图像信息与语言信息的融合,最后融合的信息在Decoder阶段进行恢复,得到预测的灰度图像的颜色信息。同时为了能帮助神经网络更好地识别灰度图像中的各类事物,还增加了语义分割分支网络。训练整个神经网络时,完成彩色化的主干网络和语义分割分支网络同时进行训练;预测时,只使用主干网络。
具体方法由下步骤实现:
一、提取器Extractor:灰度图像包含了除颜色以外的所有语义信息,因此Caption中除颜色以外的信息都可以看做是冗余信息,它们对彩色化过程没有帮助。本实施方式中使用一个Extractor对原始的Caption进行关键词提取,仅保留事物及其对应颜色。如图1所示,如:原始Caption是“A black dog carries a red fribee in its mouth.”,由提取器Extractor提取关键词得到(black,dog)和(red,fribee)。所述Extractor有很多现成的方法可供使用,本实施方式中采用了一种简单的实现,即利用句子的常见模板进行关键词匹配。
二、检测器Detector:人们往往只会关注感兴趣的事物,所以提供的原始Caption中只包含了灰度图像中的部分事物,例如步骤一中得到的(black,dog)和(red,fribee),只包含了灰度图像中的两种事物。为了尽可能地包含灰度图像中的事物,通过一个Detector来检测灰度图像中存在的事物,并用default作为默认的颜色,然后与步骤一中得到的进行合并。如图1所示,该步骤会得到(black,dog)(red,fribee)(default,grass)(default,sky)(default house)(default tree)。这里的Detector也有很多现有的方法可供使用,本实施方式中采用的是利用一个已有的预训练的语义分割模型,它可以将图像中的所有事物都识别并标注类别。
三、解耦合条件注入模块:具体过程如图2所示。
I、使用词嵌入Word Embedding将步骤二得到的Caption中的每个单词编码为向量
Figure GDA0003427757230000061
例如mblack,mdog,mred,mfrisbee
II、Encoder阶段得到的特征图Feature map用
Figure GDA0003427757230000062
表示,其中
Figure GDA0003427757230000063
是通道数,F是高度h和宽度w的乘积。使用一个卷积层
Figure GDA0003427757230000064
将每个m转换为维度与Feature Map的通道数相同的向量m′=Um,
Figure GDA0003427757230000065
如:m′black,m′dog,m′red,m′frisbee
III、分离caption中表示事物和颜色的向量(Step D):将表示颜色的m′放在一起,这些m′构成一个矩阵
Figure GDA0003427757230000066
其中N是m′的数量;同理,表示事物的m′构成矩阵
Figure GDA0003427757230000067
IV、计算注意力映射(Step A):计算事物和特征图Feature Map之间的注意力映射Attention Maps:
Figure GDA0003427757230000071
其中
Figure GDA0003427757230000072
αi,j表示Feature map中第i个像素属于Caption中第j个事物的概率。
V、计算最终要注入的颜色(Step I):最终要注入的颜色可以表示为
Figure GDA0003427757230000073
其第i列C′i由下式计算:
Figure GDA0003427757230000074
最后,将H和C′拼接,经过一个卷积层得到
Figure GDA0003427757230000075
即融合了灰度图像信息和语言信息的特征图。
本实施方式中,还包括采用损失函数smooth-l1计算彩色图像的损失,其中,计算预测的ab通道与真实的ab通道的损失为:
采用Gc和Gs分别表示真实的ab通道的值和分割图的值,Ic和Is分别表示预测的ab通道的值和分割图的值。其中,Is并非Gs一样仅给出像素所属的类别,而是给出像素在所有类别上的概率。计算a和b两通道预测值和真实值之间的差距:
Figure GDA0003427757230000076
其中,x和y作为自变量,作为某个像素的a或b通道的预测值或真实值,δ=1。lδ应用在整张图像的每个像素,最后将每个像素的lδ相加,得到整张图像在彩色化任务中的损失,即:
Figure GDA0003427757230000077
式中,h′,w′分别表示图像的行和列,共同确定图像中的一个像素,z表示a或b通道;
Figure GDA0003427757230000078
表示a或b通道的图像中第h′行w′列像素的真实值,
Figure GDA0003427757230000079
分别表示a或b通道的图像中第h′行w′列像素的预测值。
采用语义分割分支网络进行分割,采用加权交叉熵计算损失:
Figure GDA0003427757230000081
其中,σh′,w′是类别稀有度权重,由数据集中类别分布计算而来。
Figure GDA0003427757230000082
表示图像中第h′行w′列像素被预测为真实类别
Figure GDA0003427757230000083
的概率;如:一共有182个类别。h′,w′处的像素的真实类别是第66个类别,则
Figure GDA0003427757230000084
的而
Figure GDA0003427757230000085
是一个长度为182的向量,向量的每一处表示对应类别的概率,
Figure GDA0003427757230000086
就表示该像素被预测为正确类别的概率,范围0~1,越接近1,预测得越准。
本实施方式中,采用语义分割分支网络用于能增强Encoder对灰度图像的语义理解,有利于减弱最终彩色图像中的渗色现象,提高整体的着色质量。
网络的整体损失是彩色化任务与分割任务的加权组合,即:
Ltotal(Gc,Ic,Gs,Is)=Lc(Gc,Ic)+λ·Ls(Gs,Is),
其中,λ是控制两部分贡献的权重,在实验中取0.1。
本实施方式中,还包括采用合成训练数据对神经网络的训练。由于训练数据中的Caption相当于经过Extractor和Detector的处理,所以在对神经网络进行训练时,会跳过这两个处理步骤。
结合图3说明本实施方式,首先确定如何使用一个单词来描述一个像素的颜色。预先选定了10种常见的颜色,并将HSV色彩空间划分为对应数量的部分,如图3虚线框内所示。所述合成训练数据的Caption生成过程为:利用COCO数据集中的彩色图像及对应分割图来生成Caption,采用如下步骤实现:
步骤1、丢弃灰度图像;
计算彩色图像中各种颜色的像素的比例,如果black,gray和white三种颜色占比之和高于灰度阈值α1(实验中选取0.8),则将该彩色图像视为灰度图像,直接舍弃;
步骤2、忽略图像中占比小于事物阈值α2(实验中选取0.1)的事物;
步骤3、确定图像中剩余事物的颜色;
如果事物存在一种颜色,其占比超过该事物的颜色阈值α3(实验中选取0.35),则将该颜色作为该事物的颜色;否则,舍弃整张图像。
本实施方式中,在训练之前,首先进行数据增强。对灰度图像采用镜面翻转操作;随机选择Caption中的某些事物,将其对应的颜色改为默认色default。
本实施方式中,Extractor和Detector的有多种现有的实现方式,可将Extractor替换为循环神经网络。也可采用卷积块添加残差结构替换深度卷积网络模型结构。
本实施方式所述的方法可开发作为app,网页等应用。

Claims (4)

1.基于语言的解耦合条件注入灰度图像彩色化方法,其特征是:该方法由以下步骤实现:
步骤一、采用提取器Extractor对原始的记录自然语言句子的文本Caption进行关键词提取;
步骤二、采用检测器Detector检测灰度图像中存在的事物,并设定默认的颜色,然后在解耦合条件注入模块中与步骤一提取的关键词进行合并,获得处理后的Caption;所述灰度图像经编码器Encoder获得特征图Feature map;
步骤三、所述解耦合条件注入模块采用词嵌入Word Embedding方式将步骤二获得处理后的Caption中每个单词编码为向量
Figure FDA0003427757220000011
Figure FDA0003427757220000012
表示全体实数集,D为向量m的维度;获得2×N个向量m;
步骤四、将步骤二中经编码器Encoder获得的特征图Feature Map采用特征图矩阵H表示,
Figure FDA0003427757220000013
Figure FDA0003427757220000014
为通道数,F为高度h和宽度w的乘积;
采用一个卷积层
Figure FDA0003427757220000015
将每个向量m转换为维度与特征图Feature Map的通道数相同的向量m′,m′=Um,
Figure FDA0003427757220000016
步骤五、分离处理后的Caption中表示事物和颜色的向量;具体为:
步骤五一、将表示颜色的向量m′放在一起,所述m′构成一个矩阵C,
Figure FDA0003427757220000017
将表示事物的m′构成矩阵O,
Figure FDA0003427757220000018
表示颜色的向量和表示事物的向量均为N个;
步骤五二、计算注意力映射:
计算事物和特征图Feature Map之间的注意力映射;用下式表示为:
Figure FDA0003427757220000019
式中,e为自然底数;
Figure FDA00034277572200000110
Figure FDA00034277572200000111
表示HT的第i行,HT表示H的转置矩阵,Oj表示矩阵O的第j列;αi,j表示特征图Feature Map中第i个像素属于Caption中第j个事物的概率;
Figure FDA00034277572200000112
Ok表示矩阵O的第k列;
步骤五三、计算每个位置要注入的颜色矩阵C′,
Figure FDA00034277572200000113
第i列Ci′由下式计算:
Figure FDA0003427757220000021
步骤六、将特征图矩阵H和颜色矩阵C′进行拼接,获得了融合灰度图像信息和语言信息的特征图H′,
Figure FDA0003427757220000022
步骤七、将步骤六获得的特征图H′经解码器Decoder解码后获得预测的彩色化图像在Lab色彩空间的ab通道,将所述灰度图像的L通道和预测的ab通道进行拼接,获得Lab色彩空间的彩色图像,将所述Lab色彩空间的彩色图像转换到RGB色彩空间,得到最终的彩色图像。
2.根据权利要求1所述的基于语言的解耦合条件注入灰度图像彩色化方法,其特征在于:
步骤七中,还包括采用smooth-l1损失函数计算预测的ab通道与真实的ab通道的损失:具体过程如下:
采用Gc和Gs分别表示真实的ab通道的值和分割图的值,Ic和Is分别表示预测的ab通道的值和分割图的值;
计算ab两通道预测值和真实值之间的差距,公式如下:
Figure FDA0003427757220000023
式中,δ=1,
Figure FDA0003427757220000024
为应用在整张图像的每个像素,最后将每个像素的
Figure FDA0003427757220000025
相加,获得整张图像在彩色化任务中的损失,即:
Figure FDA0003427757220000026
式中,h′,w′分别表示图像的行和列,共同确定图像中的一个像素,z表示a或b通道;
Figure FDA0003427757220000027
表示a或b通道的图像中第h′行w′列像素的真实值,
Figure FDA0003427757220000028
分别表示a或b通道的图像中第h′行w′列像素的预测值。
3.根据权利要求2所述的基于语言的解耦合条件注入灰度图像彩色化方法,其特征在于:还包括语义分割分支网络,语义分割任务的损失采用加权交叉熵计算,公式如下:
Figure FDA0003427757220000031
其中,σh′,w′是类别稀有度权重,由数据集中类别分布计算而来;
Figure FDA0003427757220000032
表示图像中第h′行w′列像素被预测为真实类别
Figure FDA0003427757220000033
的概率;
网络的整体损失为彩色化任务与分割任务的加权组合,即:
Ltotal(Gc,Ic,Gs,Is)=Lc(Gc,Ic)+λ·Ls(Gs,Is)
式中,λ为控制两部分贡献的权重。
4.根据权利要求1所述的基于语言的解耦合条件注入灰度图像彩色化方法,其特征在于:还包括采用合成训练数据对神经网络进行训练,完成彩色化的主干网络和语义分割分支网络同时进行训练;
所述合成训练数据利用COCO数据集中的彩色图像及对应的分割图来生成Caption,所述Caption与步骤二中处理后的Caption相同,在对神经网络训练时,直接输入Caption,所述Caption的生成过程为:
步骤A、丢弃灰度图像;
计算彩色图像中各种颜色的像素的比例,如果各种颜色占比之和高于灰度阈值α1,则将该彩色图像视为灰度图像,直接舍弃;
步骤B、忽略彩色图像中占比小于事物阈值α2的事物;
步骤C、确定彩色图像中剩余事物的颜色;
如果事物存在一种颜色,其占比超过该事物的颜色阈值α3,则将该颜色作为该事物的颜色;否则,舍弃整张图像。
CN202110859533.5A 2021-07-28 2021-07-28 基于语言的解耦合条件注入灰度图像彩色化方法 Active CN113554733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859533.5A CN113554733B (zh) 2021-07-28 2021-07-28 基于语言的解耦合条件注入灰度图像彩色化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859533.5A CN113554733B (zh) 2021-07-28 2021-07-28 基于语言的解耦合条件注入灰度图像彩色化方法

Publications (2)

Publication Number Publication Date
CN113554733A CN113554733A (zh) 2021-10-26
CN113554733B true CN113554733B (zh) 2022-02-01

Family

ID=78133160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859533.5A Active CN113554733B (zh) 2021-07-28 2021-07-28 基于语言的解耦合条件注入灰度图像彩色化方法

Country Status (1)

Country Link
CN (1) CN113554733B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115139670B (zh) * 2022-07-08 2024-01-30 广东阿诺捷喷墨科技有限公司 一种基于单pass喷墨数据处理的喷墨印刷方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446382A (zh) * 2020-11-12 2021-03-05 云南师范大学 一种基于细粒度语义级的民族服饰灰度图像着色方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489161A (zh) * 2013-09-12 2014-01-01 南京邮电大学 一种灰度图像彩色化方法及装置
EP3399460B1 (en) * 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
CN109949353A (zh) * 2019-03-25 2019-06-28 北京理工大学 一种低照度图像自然感彩色化方法
CN110223359B (zh) * 2019-05-27 2020-11-17 浙江大学 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN110570484B (zh) * 2019-08-12 2021-09-24 浙江大学 一种图像解耦表征下的文本指导图像上色方法
CN111669514B (zh) * 2020-06-08 2021-02-26 北京大学 高动态范围成像方法和装置
CN111815549A (zh) * 2020-07-09 2020-10-23 湖南大学 一种基于导向滤波图像融合的夜视图像彩色化方法
CN112396607B (zh) * 2020-11-18 2023-06-16 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN112330790B (zh) * 2020-11-20 2024-02-02 东北大学 基于对抗学习与自适应色度修正的ct图像自动着色方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446382A (zh) * 2020-11-12 2021-03-05 云南师范大学 一种基于细粒度语义级的民族服饰灰度图像着色方法

Also Published As

Publication number Publication date
CN113554733A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
US20210312232A1 (en) Domain alignment for object detection domain adaptation tasks
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN113657400A (zh) 基于跨模态文本检索注意力机制的文本指导图像分割方法
CN114332466B (zh) 图像语义分割网络持续学习方法、系统、设备及存储介质
CN111742345A (zh) 通过着色的视觉跟踪
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
Chang et al. L-CoDer: Language-based colorization with color-object decoupling transformer
CN113554733B (zh) 基于语言的解耦合条件注入灰度图像彩色化方法
CN110490189A (zh) 一种基于双向消息链路卷积网络的显著性物体的检测方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN117149944A (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
Chang et al. L-CoIns: Language-based colorization with instance awareness
CN112861911A (zh) 一种基于深度特征选择融合的rgb-d语义分割方法
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN112749734B (zh) 一种基于可迁移注意力机制的领域自适应的目标检测方法
CN114817627A (zh) 基于多面视频表示学习的文本到视频的跨模态检索方法
CN114758283A (zh) 一种视频标签分类方法、系统及计算机可读存储介质
CN116433703A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN113239219A (zh) 一种基于多模态查询的图像检索方法、系统、介质及设备
CN110969187A (zh) 一种图谱迁移的语义分析方法
Gain et al. CCC++: Optimized Color Classified Colorization with Segment Anything Model (SAM) Empowered Object Selective Color Harmonization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant