CN110570484A - 一种图像解耦表征下的文本指导图像上色方法 - Google Patents

一种图像解耦表征下的文本指导图像上色方法 Download PDF

Info

Publication number
CN110570484A
CN110570484A CN201910740824.5A CN201910740824A CN110570484A CN 110570484 A CN110570484 A CN 110570484A CN 201910740824 A CN201910740824 A CN 201910740824A CN 110570484 A CN110570484 A CN 110570484A
Authority
CN
China
Prior art keywords
image
color
vector
loss
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910740824.5A
Other languages
English (en)
Other versions
CN110570484B (zh
Inventor
孔祥维
王鑫鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910740824.5A priority Critical patent/CN110570484B/zh
Publication of CN110570484A publication Critical patent/CN110570484A/zh
Application granted granted Critical
Publication of CN110570484B publication Critical patent/CN110570484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像解耦表征下的文本指导图像上色方法。对于每幅彩色图像,生成灰度图像,提取彩色图像中的图像配色信息;构建编码器‑解码器网络作为学习图像解耦表征的网络,利用图像配色信息和彩色图像、灰度图像处理输入训练编码器‑解码器网络,并且通过颜色表征向量和内容表征向量重构图像;将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息;将文本配色信息映射到训练后网络的颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。

Description

一种图像解耦表征下的文本指导图像上色方法
技术领域
本发明涉及了一种图像解耦表征下的文本指导图像上色方法。本发明涉深度学习,图像处理,学习图像解耦表征等技术。
背景技术
色彩是图像中最重要的组成部分之一,能够给人留下深刻的印象,对于表达信息至关重要。比如商家常常根据不同的季节,来设计不同配色的营销海报。此外,经过验证,图像颜色对于图像分类等任务的性能有很大影响。然而,由于成像设备和光照的限制,很多图像的色彩不尽人意,甚至没有颜色。因而图像上色是图像处理领域很重要的研究课题。
图像上色任务通常由专业人士手动完成,非常复杂且耗时。随着深度学习的兴起,许多基于深度网络的图像上色方法致力于减轻人力的负担并更有效地执行这些任务。这些方法可以分为三类:基于涂鸦着色,基于示例着色和基于学习着色。基于涂鸦的方法根据在图像不同区域标注的颜色来对于整体图像上色,仍然需要手工工作和专业技能来提供可靠的标注。基于示例的方法通过匹配全局颜色的统计信息,将颜色信息从参考图像传送到目标灰度图像,颜色分布的结构性较差,并且上色结果取决于选择的参考图像。基于学习的方法通过线性系统解决着色问题,无需人为干预,但是这种方法对一个灰度图像只能生成一种结果。并且这种端到端的学习式方法是一种黑盒模型,人们无法得知生成上色结果的来龙去脉,可解释性较差。
此外,在互联网海量的数据中,图文多模数据是一种很重要的数据形式。结合图像和文本数据,利用其多模数据的互补性可以消除歧义和不确定性,获得更准确的数据理解。文本数据在表达语义上更明确具体,并且具有更好的可解释性,但是在图像上色任务中,文本信息很少被考虑进来。人类能够很容易理解文本并将其与颜色对应起来,但是对于机器来说并不容易。不同模式的数据之间存在语义“鸿沟”,由文本直接生成彩色图像是比较困难的,如何跨过图像-文本间的语义“鸿沟”,将文本的语义信息用于指导灰度图像的上色任务也是本发明要解决的技术问题之一。
本发明中使用学习图像的解耦表征的方法来实现图像的上色,能够产生不同的上色结果,并且具有一定的可解释性。本发明中提出的模型是一种编码-解码结构的模型,存在“瓶颈”现象,即图像的信息会在编码和解码的过程中丢失。为了重构出高质量的彩色图像,要尽可能保留图像的关键信息,这也是本发明要解决的问题之一。
本发明中要解决的问题包括:减少人力的消耗;提高上色结果的颜色结构性和图像质量;增加上色结果的多样性;结合文本信息,提高方法的可解释性,生成符合文本语义的上色结果。
发明内容
本发明的目的在于解决现有图像上色方法忽略文本信息,依赖于人工标注、选择参考图像,或者上色结果结构性差、多样性低的问题的技术问题,提供一种图像解耦表征下的文本指导图像上色方法。
本发明是通过以下技术方案来实现的:
步骤1)对于数据库中的每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,使能够将图像的颜色信息和内容信息映射到在向量空间进行表征,并且通过颜色表征向量和内容表征向量重构图像;
本发明所设计的编码器-解码器网络在较高分辨率下会丢失细节。通常使用跳连来解决它,然而,跳连对学习解耦表征具有不利影响。本发明中增加了潜在表征的规模,用于减少“瓶颈效应”的影响。
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt
所述的文本包含一个词或者多个词的文本数据。
具体是指将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为文本配色信息pt。由文本配色生成网络TPN具体是采用文献《Bahng H,Yoo S,Cho W,et al.Coloring with Words:Guiding Image Colorization Through Text-basedPalette Generation[C]//Proceedings of the European Conference on ComputerVision(ECCV).2018:431-447.》中的方法实施,文本配色网络TPN在文本配色数据库PAT上训练。
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成彩色图像作为上色结果。
所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.4)根据步骤2.2)和步骤2.3)的结果,分别计算图像重构损失表征重构损失KL损失分布限制和生成对抗损失
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络。
所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
将重构彩色图像内容表征向量和重构彩色图像颜色表征向量再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量和重构灰度图像颜色表征向量再输入到解码器中得到灰度输出图像xgcg
2.4)采用以下方式计算重构损失、分布限制损失等各个损失值,使得彩色图像配色信息pi的颜色表征向量与彩色图像颜色表征向量cr_c在向量空间的距离相近;并且灰度图像的颜色表征向量cr_g不包含任何信息。
2.4.1)图像重构损失包含重构原始图像和交叉重构。具体是指:给定图像,网络应能够在编码和解码后重构原图像;彩色图像和灰度图像的内容一致,内容表征向量包含信息相同,应不含颜色信息,交叉组合彩色图像和灰度图像的表征,解码得到图像。所述的图像重构损失计算为:
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
2.4.2)表征重构损失是指在给定向量空间里内容表征向量和颜色表征向量的组合,经过解码和再编码之后,信息不会丢失,仍然能够得到原来的表征数据。所述的表征重构损失计算为:
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
上述五种重构损失均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失为例说明计算为:
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值;
2.4.3)针对KL损失,颜色信息编码器Ecr采用VAE的思想,将编码器的输出限制为标准正态分布,通过对标准正态分布进行采样即可得到颜色的向量表征数据。计算图像颜色表征向量分布与标准正态分布之间的KL散度作为KL损失计算为:
其中,表示图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)为了联合文本信息,本发明提出了配色信息作为“桥梁”的结合方法。使用图像的配色信息pi辅助训练,使得配色编码器Ep能够将文本生成的配色信息pt也能够映射到彩色图像颜色表征向量cr_c所在正态分布。此外,灰度图像不含颜色信息,为了避免噪声影响编码器的训练,灰度图像的颜色表征向量应不包含任何信息。所述的分布限制损失针对配色信息,所述的分布限制损失计算如下:
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量再使用L1范数损失函数计算彩色图像配色颜色表征向量与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;表示统计平均值;
2.4.5)本发明提出的框架中解码器D将颜色表征向量和内容表征向量解码,试图生成“以假乱真”的图像,扮演着生成器的角色。彩色图像鉴别器Dc区分重构的彩色图像与真实彩色图像,而灰度图像鉴别器Dg区分合成灰度图像与真实灰度图像。在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数计算为:
其中,表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,表示统计平均值;
2.5)综合图像重构损失表征重构损失KL损失分布限制和生成对抗损失获得总体损失函数,总体损失函数为:
其中,λi表示图像重构损失的权重,λl表示表征重构损失的权重,λk表示KL损失的权重,λd表示分布限制损失的权重,λa表示生成对抗损失的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
所述步骤4)具体为:
对于文本数据,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,得到文本配色颜色表征向量
对于待测的灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
然后将文本配色颜色表征向量与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
文本的语义能够与图像的颜色信息结合起来。取决于TPN生成了与文本语义相关的文本配色pt,以及本发明在步骤2)中将图像配色信息pi通过配色信息编码器Ep映射到彩色图像的颜色表征向量cr_c所在空间,得到这样能使配色颜色表征向量作为颜色表征参与重构图像,从而文本配色颜色表征向量也能作为颜色表征向量参与重构图像。
所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。本发明使用文本配色生成网络,根据输入文本,生成符合文本语义的多种颜色,作为配色信息,指导图像上色。通过学习图像的解耦表征,将图像内容信息和颜色信息映射到向量空间的不同位置,得到图像内容表征向量和颜色表征向量。同时把文本的颜色信息也映射到图像颜色信息所在位置,得到文本配色的颜色表征向量。组合图像的内容表征向量和文本的颜色表征向量,即可重构出保留原始图像内容,颜色符合文本语义的彩色图像。
本发明的有益效果是:
1.本发明能够处理文本信息,根据不同的文本,生成多种不同与文本语义相关的上色结果。使用彩色和灰度的图像对来训练网络,提取彩色图像的配色信息pi训练编码器Ep,作为图像与文本信息结合的桥梁。
2.本发明使用学习图像解耦表征的方式来进行图像上色,不需要额外的标注信息和选择与目标图像相近的参考图像。
3.本发明能够生成高质量的上色结果。在编码-解码的过程中,通过图像重构和表征重构来限制模型能够保留图像重构的关键信息,生成高质量的彩色图像;并且引入生成对抗损失来使得重构出的图像与真实的图像更接近。
附图说明
图1为本发明所提出的方法的结构图,其中(a)为网络架构示意图,(b)为、步骤2)中提到的训练网络结构示意图,(c)为步骤3)、步骤4)、步骤5)中提到的结构示意图。
图2为本发明所提出的方法,用于训练网络的各项损失函数的示意图。
图3为本发明所提出的方法与现有最先进算法的实验结果比较示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明采用两个计算机视觉领域常用的数据库MIR Flickr25K和CUB-200-2011验证本发明的有效性。MIR Flickr25K由25000幅社交图像网站Flickr的图像构成,20000幅用于训练,5000幅用于测试。CUB-200-2011是一个鸟类图像数据库,包含200中不同鸟类,共11788幅图像,180类图像用于训练,20类图像用于测试。本发明将数据库中的图像进行预处理,得到灰度图像,使用成对的彩色图像和灰度图像的形式训练网络,使用灰度图像进行测试。本发明中使用的文本数据有一个或多个词组成,来自于文本配色数据库PAT。以MIRFlickr25K数据库作为实施例来说明本发明的具体实施方式。下面结合附图及具体实施例对本发明作进一步详细说明。
一、图像预处理阶段
本发明使用PIL(Python Image Library)函数库中的convert函数将RGB格式的图像转化到CIE Lab空间,保存图像灰度层L作为灰度图像参与网络训练。原始的彩色图像和得到的灰度图像被裁减成256×256像素的图像。使用python函数库colorgram中的extract_colors函数统计所有像素点的颜色,相同颜色值进行统计数量,提取像素点颜色数量占比前5位的颜色,按照顺序保存其RGB值作为图像的配色信息pi,用于辅助训练。
二、解码器、编码器网络结构和处理
如图1(a)所示,本发明提出的架构中包含内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep、解码器D、彩色图像鉴别器Dc和灰度图像鉴别器Dc。其中的内容编码器和解码器是由结构对称的残差块和卷积层组成的。鉴别器Dc和鉴别器Dg用于区分真实图像和重建图像。
其中:
内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成。
颜色信息编码器Ecr是由五个卷积层依次连接构成。
配色信息编码器Ep是由四个卷积层依次连接构成。
解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
然后利用编码器和解码器构建解码器、编码器网络结构进行以下处理:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量cr_p
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
将重构彩色图像内容表征向量和重构彩色图像颜色表征向量再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量和重构灰度图像颜色表征向量再输入到解码器中得到灰度输出图像xgcg
三、损失函数
损失函数用于更新网络的参数。损失函数的设计包含以下原则:
解耦图像内容信息和颜色信息,内容表征向量中应不含颜色信息,颜色表征向量中也应不含内容信息;为了保证输出结果的质量,编码得到的表征中应尽可能多的包含关键信息;为了将文本信息映射到图像颜色的向量空间,用于辅助训练的图像配色pi得到的颜色表征向量分布应与图像颜色表征向量cr_c分布一致。
参照以上原则,本发明网络的损失函数包括图像重构损失表征重构损失KL损失分布限制和生成对抗损失各类损失的示意图见图2。
1)图像重构损失计算为:
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
以距离举例,具体计算为:
其中,D表示解码器,解码灰度图像内容信息ct_g和彩色图像配色的颜色表征向量组合得到第三中间彩色图像xgp表示统计平均值。
2)表征重构损失计算为:
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
上述五种重构损失均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失为例说明计算为:
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值。
3)计算图像颜色表征向量cr_c的分布与标准正态分布之间的KL散度作为KL损失计算为:
其中,μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差。
4)分布限制损失计算如下:
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量再使用L1范数损失函数计算彩色图像配色颜色表征向量与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;表示统计平均值。
5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数计算为:
其中,表示训练解码器D时最小化损失函数训练彩色图像鉴别器Dc时最大化函数D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,其余项生成对抗损失子函数定义与xgp类似,Dc(*)表示彩色图像的鉴别损失,使用sigmoid函数计算,表示统计平均值。
综合图像重构损失表征重构损失KL损失分布限制和生成对抗损失获得总体损失函数,总体损失函数为:
其中,λi表示图像重构损失的权重,λl表示表征重构损失的权重,λk表示KL损失的权重,λd表示分布限制损失的权重,λa表示生成对抗损失的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
本实施例中使用Adam优化器更新网络参数,在20000幅图像训练集上迭代100000次,获得训练好的编码器-解码器网络。
四、图像文本指导上色
如附图1(c)所示,具体为:
4.1、将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为与文本语义相关的文本配色信息pt
4.2、对于待测的彩色图像对应的文本,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,即将文本配色信息pt映射到图像的颜色表征向量所在的空间,得到文本配色颜色表征向量
4.3、对于待测的彩色图像,处理成灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
4.4、然后将文本配色颜色表征向量与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
本发明中对比了现有最先进的方法,结果如附图3所示。其中真实配色是指文本与配色数据库PAT中,文本所对应的真实配色,作为本发明方法与对比方法结果的参考。可以看出,对比方法的结果中图像整体的色调一致,不能区分图像的内容,因而上色结果不够自然;本发明方法能够根据图像内容生成不同区域颜色不同的上色结果,更加自然。并且对比方法的结果中图像的颜色与文本生成的配色有差异,上色过程中不能准确的将配色信息映射到图像中;而本发明方法的上色结果能准确反映配色信息,更符合文本的语义。

Claims (7)

1.一种图像解耦表征下的文本指导图像上色方法,其特征在于:该方法的以下步骤:
步骤1)对于每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,并且通过颜色表征向量和内容表征向量重构图像;
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。
2.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.4)根据步骤2.2)和步骤2.3)的结果,分别计算图像重构损失表征重构损失KL损失分布限制和生成对抗损失
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络。
3.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
4.根据权利要求2所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
将重构彩色图像内容表征向量和重构彩色图像颜色表征向量再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量和重构灰度图像颜色表征向量再输入到解码器中得到灰度输出图像xgcg
2.4)采用以下方式计算重构损失、分布限制损失等各个损失值,使得彩色图像配色信息pi的颜色表征向量与彩色图像颜色表征向量cr_c在向量空间的距离相近;
2.4.1)所述的图像重构损失计算为:
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
2.4.2)所述的表征重构损失计算为:
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
上述五种重构损失均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失为例说明计算为:
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值;
2.4.3)计算图像颜色表征向量分布与标准正态分布之间的KL散度作为KL损失计算为:
其中,图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)所述的分布限制损失计算如下:
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量再使用L1范数损失函数计算彩色图像配色颜色表征向量与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;表示统计平均值;
2.4.5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数计算为:
其中,表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,表示统计平均值;
2.5)综合图像重构损失表征重构损失KL损失分布限制和生成对抗损失获得总体损失函数,总体损失函数为:
其中,λi表示图像重构损失的权重,λl表示表征重构损失的权重,λk表示KL损失的权重,λd表示分布限制损失的权重,λa表示生成对抗损失的权重。
5.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
6.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤4)具体为:
对于文本数据,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,得到文本配色颜色表征向量
对于待测的灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
然后将文本配色颜色表征向量与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
7.根据权利要求2或4所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
CN201910740824.5A 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法 Active CN110570484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910740824.5A CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910740824.5A CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Publications (2)

Publication Number Publication Date
CN110570484A true CN110570484A (zh) 2019-12-13
CN110570484B CN110570484B (zh) 2021-09-24

Family

ID=68775212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910740824.5A Active CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Country Status (1)

Country Link
CN (1) CN110570484B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111696026A (zh) * 2020-05-06 2020-09-22 华南理工大学 基于l0正则项的可逆灰度图算法、计算设备
CN113554733A (zh) * 2021-07-28 2021-10-26 北京大学 基于语言的解耦合条件注入灰度图像彩色化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343037B1 (en) * 2004-02-04 2008-03-11 Microsoft Corporation Dynamic, locally-adaptive, lossless palettization of color and grayscale images
CN107564087A (zh) * 2017-09-11 2018-01-09 南京大学 一种基于屏幕的三维线状符号渲染方法
CN108182672A (zh) * 2014-05-28 2018-06-19 皇家飞利浦有限公司 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置
US20180333643A1 (en) * 2017-05-16 2018-11-22 Sony Interactive Entertainment America Llc Systems and Methods for Detecting and Displaying a Boundary Associated With Player Movement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343037B1 (en) * 2004-02-04 2008-03-11 Microsoft Corporation Dynamic, locally-adaptive, lossless palettization of color and grayscale images
CN108182672A (zh) * 2014-05-28 2018-06-19 皇家飞利浦有限公司 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置
US20180333643A1 (en) * 2017-05-16 2018-11-22 Sony Interactive Entertainment America Llc Systems and Methods for Detecting and Displaying a Boundary Associated With Player Movement
CN107564087A (zh) * 2017-09-11 2018-01-09 南京大学 一种基于屏幕的三维线状符号渲染方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DEKUI MA 等: "Nonlinear Discrete Cross-Modal Hashing for Visual-Textual Data", 《IEEE MULTIMEDIA》 *
HYOJIN BAHNG 等: "Coloring with Words: Guiding Image Colorization Through Text-based Palette Generation", 《ARXIV:1804.04128V2》 *
周乐: "基于对抗生成网络的反射去除算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111696026A (zh) * 2020-05-06 2020-09-22 华南理工大学 基于l0正则项的可逆灰度图算法、计算设备
CN111696026B (zh) * 2020-05-06 2023-06-23 华南理工大学 基于l0正则项的可逆灰度图算法、计算设备
CN113554733A (zh) * 2021-07-28 2021-10-26 北京大学 基于语言的解耦合条件注入灰度图像彩色化方法

Also Published As

Publication number Publication date
CN110570484B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
US11250252B2 (en) Simulated handwriting image generator
CN110570484B (zh) 一种图像解耦表征下的文本指导图像上色方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN112233012B (zh) 一种人脸生成系统及方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
US20180365594A1 (en) Systems and methods for generative learning
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN110705459A (zh) 数理化公式自动识别方法及装置、模型训练方法及装置
CN114255159A (zh) 手写文本图像生成方法、装置、电子设备和存储介质
CN112036137A (zh) 一种基于深度学习的多风格书法数字墨水仿真方法和系统
Ouyang et al. Generating image sequence from description with LSTM conditional GAN
CN113887251A (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN113657125A (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116704508A (zh) 信息处理方法及装置
Watanabe et al. Generative adversarial network including referring image segmentation for text-guided image manipulation
CN114444488B (zh) 一种少样本机器阅读理解方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant