CN112991493B - 基于vae-gan和混合密度网络的灰度图像着色方法 - Google Patents
基于vae-gan和混合密度网络的灰度图像着色方法 Download PDFInfo
- Publication number
- CN112991493B CN112991493B CN202110380496.XA CN202110380496A CN112991493B CN 112991493 B CN112991493 B CN 112991493B CN 202110380496 A CN202110380496 A CN 202110380496A CN 112991493 B CN112991493 B CN 112991493B
- Authority
- CN
- China
- Prior art keywords
- vae
- distribution
- gan
- image
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000009826 distribution Methods 0.000 claims abstract description 125
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract 14
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000002948 stochastic simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Color Image Communication Systems (AREA)
Abstract
本发明公开了一种基于VAE‑GAN和混合密度网络的灰度图像着色方法,首先构建VAE‑GAN模型,将数据集中的彩色图像变换到Lab色彩空间,并得到灰度图像;利用VAE‑GAN学习彩色图像的ab通道颜色域表征;然后构建混合密度网络模型,以灰度图像为输入,ab通道颜色域表征为标签,学习混合高斯分布。在实际应用时,先将待测灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE‑GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果。本发明通过综合VAE‑GAN和混合密度网络,有效改进了图像着色的质量。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是一种改进的基于VAE-GAN和混合密度网络的灰度图像着色方法。
背景技术
随着多媒体技术和数字经济的蓬勃发展,图像和视频已经成为人们日常生活中不可缺少的信息传播的载体。图像着色作为计算机视觉的一个重要研究领域,在工业生产、医疗、教育、交通等各个环节都有着广泛的应用。例如,在早起的影视行业,由于设备和技术的限制,只能拍摄和录制黑白或灰度的视频或图像,这些缺乏色彩的图像或视频往往不够生动活泼,不能满足现今人们的观赏需求,因此需要进行视频或图像的着色重制;又如在动画制作行业,动画作品的产生往往是由动画作者首先绘制出不带颜色的线稿图像,而后才由美术师进行着色处理,而着色过程通常严重依赖人力,效率低下。当今以深度学习为代表的人工智能技术方兴未艾,在计算机视觉、自然语言处理等领域都带来了巨大的突破,因此,灰度图像着色也可以通过这个技术进行解决。
然而,目前图像着色的技术仍有一定的缺陷:基于参考图像的着色方法需要人为寻找合适的参考图像,着色效果严重依赖于所选取的参考图像的质量;基于着色线索的着色方法则需要人为给定部分像素的颜色作为标记信息,以扩展到整幅图像完成着色,标记信息的多寡则需要根据图像结构的复杂程度进行确定,这个过程相对而言费时费力;而基于深度学习的自动图像着色方法通常只能给出一种着色结果,甚至给出的着色结果存在着颜色溢出等问题,并不能满足实际生产生活的需要。
好的灰度图像自动着色算法需要考虑到着色的多样性和着色的结构一致性,而如何设计一种合适的方法实现无参考条件下的着色多样性和结构一致性,是目前亟待解决的技术问题。
发明内容
本发明的第一目的在于解决现有技术存在的着色结果单一、着色的结构一致性无法保证的问题,提出一种基于VAE-GAN(变分自编码器-生成对抗网络)和混合密度网络(MixtureDensityNetwork,MDN)的灰度图像着色方法,可以有效地改进图像着色的主客观质量。
本发明的第二目的在于提出一种基于VAE-GAN和混合密度网络的灰度图像着色装置。
本发明的第三目的在于提出一种计算机可读存储介质。
本发明的第四目的在于提出一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于VAE-GAN和混合密度网络的灰度图像着色方法,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
优选的,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器。
更进一步的,VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练。
更进一步的,在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布N(0,I);为近似的后验分布,设定为以协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为Kullback-Leibler散度与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
优选的,在步骤S3构建混合密度网络模型的过程中,将高斯分布数量设为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的隐变量维度J,每个高斯分布的协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk;
将负对数似然作为混合密度网络模型的损失函数,表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望;
采用随机梯度下降算法对混合密度网络进行训练,更新其参数。
更进一步的,在步骤S4对待测的灰度图像进行着色的过程中,首先使用混合密度网络得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk,基于该概率系数和均值进行随机采样,采样出其中一个高斯分布Np(μp,I),然后从该高斯分布中采样得到最终的ab通道颜色域表征zp;再将ab通道颜色域表征zp输入到VAE-GAN的解码器进行解码,得到最终的ab通道颜色域。
本发明的第二目的通过下述技术方案实现:一种基于VAE-GAN和混合密度网络的灰度图像着色装置,包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接;
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本发明的第三目的通过下述技术方案实现:一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
本发明的第四目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
本发明相对于现有技术具有如下的优点及效果:
本发明通过使用混合密度网络,可以学习到多模态颜色域表征,实现多样化的着色;通过将VAE和GAN相结合,在变分自编码器VAE的训练过程中,以对抗生成网络GAN的特征表达差异代替传统VAE中的重建损失,增强了VAE提取颜色域特征的能力;同时引入了GAN的对抗训练,使得解码器合成的颜色域更清晰准确,能够改善着色的一致性,着色结果更为饱和自然,抑制颜色溢出等现象,使得着色结果更真实生动多样,改善了着色质量。
附图说明
图1为本发明基于VAE-GAN和混合密度网络的灰度图像着色方法的流程图。
图2为本发明VAE-GAN模型和混合密度网络模型的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色方法,如图1所示,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像。这里,本实施例先将图像缩放为统一的64×64大小,再进行色彩空间转换。
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存。
如图2所示,VAE-GAN模型包括两个主要部分:VAE部分和GAN部分。其中,VAE主要作用是通过对输入的色彩域进行重构,得到色彩域的特征,而传统的VAE模型由于在训练过程中使用了逐像素误差平方的重构损失,造成在生成样本的模糊效应。通过引入GAN的对抗损失,使得VAE重构结果更为清晰,降低着色过程中的颜色溢出效应,提高着色的质量。
VAE可以分为编码器和解码器,GAN可以分为生成器和判别器,本实施例的VAE-GAN其实是把VAE的编码器和GAN的生成器共用,所以VAE-GAN模型分为三个部分:编码器(E)、解码器(G)、判别器(D)。
编码器用于将颜色域转换为高斯分布隐变量的均值和方差,随后解码器则通过采样随机噪声,使用均值和方差得到高斯分布随机变量进行重构,以恢复图像的颜色域。由于VAE的编码器同时作为GAN的生成器,因此VAE-GAN模型可以通过生成出来的颜色域和原始彩色图像颜色域的对抗训练,提升解码器重构颜色域的能力。
在本实施例中,编码器的网络结构为5层卷积神经网络,从64×64×2的输入开始,使用3×3大小、步长为2的卷积核进行卷积,初始输出通道数设为64;后面的卷积层均为3×3大小,输出通道数为前一层两倍的形式;同时每一层卷积层后接batchnormalization归一化和ReLU激活函数。编码器的最后一层为全连接层,输出128维的隐变量,其中64维表示后验分布的均值μ,另外64维则表示后验分布的标准差σ。
解码器的网络结构为5层转置卷积神经网络,首先采样出均匀分布的随机噪声ε,利用编码器得到的均值和方差得到后验分布的隐变量z=σ·ε+μ;得到隐变量z后,采用全连接层转换为4×4×64的特征图,随后再进行3×3,步长为2的转置卷积,逐步提升特征图的大小。所有转置卷积均为3×3大小,输出通道数为前一层的一半的形式,采用Batchnormalization归一化和ReLU激活函数。最后使用tanh作为激活函数得到64×64×2的重构颜色域通道。
判别器的网络结构为7层卷积神经网络,其输入为64×64×2的颜色域通道,所有卷积神经网络均采用3×3大小、步长为2的卷积层,初始输出通道为32,后续所有卷积层均为3×3大小,输出通道数为前一层两倍,最后为输出单元为1的全连接层,后接sigmoid激活函数。
这里,VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练,更新网络的参数。
具体来说,在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布N(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果。
在训练解码器时,其损失函数为Kullback-Leibler散度与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出。
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
S3、构建混合密度网络模型,以步骤S1得到的灰度图作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布。
这里,设定高斯分布的数量为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的特征维度J,协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk。
在本实施例中,所设定的高斯分布的数量K=8,高斯分布均为64维。混合密度网络模型的网络结构为7层卷积神经网络,输入为数据集中的彩色图像所对应的灰度图像,大小为64×64×1,所有卷积神经网络均采用3×3、步长为2的卷积层,batchnormalization归一化和ReLU激活函数,且最后采用大小分别是4096和520的全连接层,得到高斯分布的概率系数和每个高斯分布的均值。
并且,在混合密度网络模型训练的过程中,将负对数似然作为混合密度网络模型的损失函数,采用随机梯度下降算法对混合密度网络进行训练,更新其参数。损失函数表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像(即彩色图像)的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望。
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征。
具体来说,混合密度网络先得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk。在本实施例中,对于输入的灰度图像g,其颜色域的分布可以表示为:
然后根据得到的概率系数πk(k=1-8)和均值μk,利用随机模拟从中采样出某个分量p,再从该分量所代表的高斯分布Np(μp,I)中采样出变量zp,作为待测的灰度图像的ab通道颜色域表征。
之后,再将ab通道颜色域表征zp输入到训练好的VAE-GAN模型,通过VAE-GAN模型的解码器对该颜色域表征进行解码,得到最终的着色输出,即灰度图像的着色结果,也可以说是灰度图像对应的Lab彩色图像。
实施例2
本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色装置,可实现实施例1中的灰度图像着色方法。该装置包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接。
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
在此需要说明的是,本实施例的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3
本实施例提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法,具体为:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例提供了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法,具体为:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、平板电脑或其他具有处理器功能的终端设备。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。
Claims (6)
1.一种基于VAE-GAN和混合密度网络的灰度图像着色方法,其特征在于,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像;
其中,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器;
VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练;
在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布Ν(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为判别器上计算的感知损失与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
2.根据权利要求1所述的灰度图像着色方法,其特征在于,在步骤S3构建混合密度网络模型的过程中,将高斯分布数量设为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的隐变量维度J,每个高斯分布的协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk;
将负对数似然作为混合密度网络模型的损失函数,表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望;
采用随机梯度下降算法对混合密度网络进行训练,更新其参数。
3.根据权利要求2所述的灰度图像着色方法,其特征在于,在步骤S4对待测的灰度图像进行着色的过程中,首先使用混合密度网络得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk,基于该概率系数和均值进行随机采样,采样出其中一个高斯分布Νp(μp,I),然后从该高斯分布中采样得到最终的ab通道颜色域表征zp;再将ab通道颜色域表征zp输入到VAE-GAN的解码器进行解码,得到最终的ab通道颜色域。
4.一种基于VAE-GAN和混合密度网络的灰度图像着色装置,其特征在于,包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接;
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像;
其中,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器;
VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练;
在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布Ν(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为判别器上计算的感知损失与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
5.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
6.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380496.XA CN112991493B (zh) | 2021-04-09 | 2021-04-09 | 基于vae-gan和混合密度网络的灰度图像着色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380496.XA CN112991493B (zh) | 2021-04-09 | 2021-04-09 | 基于vae-gan和混合密度网络的灰度图像着色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991493A CN112991493A (zh) | 2021-06-18 |
CN112991493B true CN112991493B (zh) | 2023-07-18 |
Family
ID=76339537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380496.XA Active CN112991493B (zh) | 2021-04-09 | 2021-04-09 | 基于vae-gan和混合密度网络的灰度图像着色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991493B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822951B (zh) * | 2021-06-25 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN113674231B (zh) * | 2021-08-11 | 2022-06-07 | 宿迁林讯新材料有限公司 | 基于图像增强的轧制过程中氧化铁皮检测方法与系统 |
CN114820863B (zh) * | 2022-07-01 | 2022-09-09 | 锐创软件技术(启东)有限公司 | 基于色彩均匀编码的智能配色方法及系统 |
CN115690288B (zh) * | 2022-11-03 | 2023-05-16 | 北京大学 | 一种由颜色标符指导的自动着色算法及装置 |
CN116168137B (zh) * | 2023-04-21 | 2023-07-11 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的新视角合成方法、装置及存储器 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992275A (zh) * | 2019-11-18 | 2020-04-10 | 天津大学 | 一种基于生成对抗网络的细化单幅图像去雨方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830912B (zh) * | 2018-05-04 | 2021-04-16 | 北京航空航天大学 | 一种深度特征对抗式学习的交互式灰度图像着色方法 |
US11593660B2 (en) * | 2018-09-18 | 2023-02-28 | Insilico Medicine Ip Limited | Subset conditioning using variational autoencoder with a learnable tensor train induced prior |
CN113808061A (zh) * | 2019-04-28 | 2021-12-17 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置 |
US20220301227A1 (en) * | 2019-09-11 | 2022-09-22 | Google Llc | Image colorization using machine learning |
CN111625608B (zh) * | 2020-04-20 | 2023-04-07 | 中国地质大学(武汉) | 一种基于gan模型根据遥感影像生成电子地图的方法、系统 |
-
2021
- 2021-04-09 CN CN202110380496.XA patent/CN112991493B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992275A (zh) * | 2019-11-18 | 2020-04-10 | 天津大学 | 一种基于生成对抗网络的细化单幅图像去雨方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112991493A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991493B (zh) | 基于vae-gan和混合密度网络的灰度图像着色方法 | |
CN110599409B (zh) | 基于多尺度卷积组与并行的卷积神经网络图像去噪方法 | |
CN109410239B (zh) | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN109948692B (zh) | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 | |
Wei et al. | Universal deep network for steganalysis of color image based on channel representation | |
CN116188325A (zh) | 一种基于深度学习和图像颜色空间特性的图像去噪方法 | |
CN118196231B (zh) | 一种基于概念分割的终身学习文生图方法 | |
CN107862344B (zh) | 一种图像分类方法 | |
CN117078505A (zh) | 一种基于结构线提取的图像卡通化方法 | |
CN114897884A (zh) | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 | |
CN113052768A (zh) | 一种处理图像的方法、终端及计算机可读存储介质 | |
CN117459649A (zh) | 一种基于图像风格迁移的大容量信息隐藏方法及系统 | |
CN109242879A (zh) | 基于深度卷积神经网络的脑部胶质瘤核磁图像分割方法 | |
CN107221019B (zh) | 图表转换方法及装置 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN113436094B (zh) | 一种基于多视角注意力机制的灰度图像自动上色方法 | |
CN114519678A (zh) | 一种扫描透射图像恢复方法、装置及存储介质 | |
CN113538214A (zh) | 一种妆容迁移的控制方法、系统和存储介质 | |
CN115496843A (zh) | 一种基于gan的局部写实感漫画风格迁移系统及方法 | |
CN117115453B (zh) | 目标图像生成方法、装置及计算机可读存储介质 | |
CN116310660B (zh) | 一种增强样本的生成方法及装置 | |
CN118154894A (zh) | 分层显著性引导视觉特征提取模型建立及质量评价方法 | |
Wu et al. | Exposure image correction of electrical equipment nameplate based on the LMPEC algorithm | |
CN118365520A (zh) | 用于图像超分辨率重建的改进生成对抗网络的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |