CN113947550A - 一种基于潜在空间嵌入扩展的真实图像重建方法 - Google Patents

一种基于潜在空间嵌入扩展的真实图像重建方法 Download PDF

Info

Publication number
CN113947550A
CN113947550A CN202111235541.9A CN202111235541A CN113947550A CN 113947550 A CN113947550 A CN 113947550A CN 202111235541 A CN202111235541 A CN 202111235541A CN 113947550 A CN113947550 A CN 113947550A
Authority
CN
China
Prior art keywords
latent
image
real image
encoder
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111235541.9A
Other languages
English (en)
Inventor
霍智勇
操伟业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111235541.9A priority Critical patent/CN113947550A/zh
Publication of CN113947550A publication Critical patent/CN113947550A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

一种基于潜在空间嵌入扩展的真实图像重建方法,首先有监督地训练一个域内引导编码器,将给定的图像映射到StyleGAN的固有潜在空间中,其中引入像素损失用来保持视觉质量,使编码后的潜码在像素域进行对齐;引入感知损失,用来引导逆向映射的潜码降落到StyleGAN空间的语义域内,使编码后的潜码在语义域内进行对齐。为了进一步提高重构图像的质量,提出了嵌入优化算法,实现StyleGAN潜在空间的扩展,将域内引导编码器的输出作为初始值进行优化,来微调编码器产生的潜码,实现真实图像的高准确性逆映射。本方法可以解决真实图像逆向映射后重构图像质量不高、不能够通过改变重构后的潜码进行语义编辑的问题,能高度还原真实图像,并且能通过改变潜码进行准确的语义操纵。

Description

一种基于潜在空间嵌入扩展的真实图像重建方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于潜在空间嵌入扩展的真实图像重建方法。
背景技术
生成对抗网络(Generative Adversarial Network,GAN)潜在空间有丰富的语义信息,然而将这些学习到的语义信息用于真实图像编辑是很困难的,真实图像重建技术的目的是在生成对抗网络(Generative Adversarial Network,GAN)的潜在空间找到一个潜码,能够精确地还原真实图像,更重要的是,能够通过改变潜码进行有意义的语义操纵。
随着生成式对抗网络(GANs)在图像合成方面的应用不断深入,已经能够合成高质量和高保真度的图像。StyleGAN作为一种基于样式的生成器架构,生成的高分辨率图像具有很高的视觉质量。由于它有一个解纠缠的潜在空间w,是由初始潜在空间z通过多层感知器网络映射获得,具有一定的语义编辑能力。为此可以利用StyleGAN的逆向映射获得真实图像在潜在空间中的潜码,并通过改变潜码进行相应的语义操纵。目前已经开展了一些研究工作,DumoulinV等人提出联合GAN训练一个编码器,编码器学习将生成的图像映射为其原始的潜在向量,但编码器存在可能的过拟合,使得图像重构与真实图像存在明显差异,此外该方法不适用于预先训练过的GAN,必须同时与GAN一起训练,网络参数和计算代价都有所增加。Luo等人描述的方法是在预训练GAN后训练编码器,不用联合GAN一起训练,但无法准确实现真实图像在GAN潜在空间的准确映射,逆向映射的图像质量存在明显差异。
发明内容
综上所述,针对现有的方法存在的问题,本发明提出一种基于潜在空间嵌入扩展的真实图像重建方法,通过两阶段完成真实图像到潜在空间的逆向映射,第一阶段训练了一个域内编码器,使得编码后的潜码在像素域和语义域进行对齐,第二阶段利用经过编码网络得到的潜码获得初步恢复的真实图像,通过嵌入优化,扩展StyleGAN的潜在空间,从而实现对真实图像准确逆映射。
一种基于潜在空间嵌入扩展的真实图像重建方法,包括如下步骤:
步骤1,获取训练图像数据集与预处理,同时得到图像的标签;
步骤2,将步骤1中得到的训练图像数据和标签输入建立的域内编码器网络进行训练,其过程包括:
步骤21,图像逆映射:用ResNet50做为编码器的主要结构,对输入的图像进行编码,得到的潜码维度与图像的标签维度一致;
步骤22,图像重构:把生成的潜码送入到预训练好的StyleGAN2生成器中,得到重构后的图像;
步骤23,编码器训练:联合输入图像和重构图像的感知损失、逐像素损失和潜码之间的L2范数损失来优化编码器网络;
步骤3,将真实图像输入到训练后的域内编码器网络中,得到真实图像的潜码,并把此潜码当做嵌入对抗优化算法初始值,进行迭代优化,最后得到输入图像的重构;嵌入对抗优化过程如下:
从预训练好的ResNet50域内编码器生成的潜码w开始,搜索优化的矢量w*,通过最小化输入真实图像与w*生成的重构图像之间的感知损失和逐像素损失,来迭代优化潜码。
进一步地,所述步骤1的训练图像数据集是由StyleGAN2的生成模型生成出来的。
进一步地,所述步骤1还包括用置信度为0.98的Yolov3的网络,对生成的训练图像数据集进行筛选,去掉生成质量低的图像。
进一步地,所述步骤1中图像的标签由正态随机采样的数值通过StyleGAN2的映射网络得到,维度为18*512。
进一步地,所述步骤2组合了潜码之间的L2范数损失、输入图像和生成图像的感知损失和逐像素损失。
进一步地,所述步骤3以步骤2训练好的编码器模型生成的潜码当作潜码优化的初始值。
进一步地,所述步骤3组合了输入和输出图像的感知损失和逐像素损失。
本发明采用上述技术方案,能产生如下技术效果:
本发明提供的基于潜在空间嵌入扩展的真实图像重建方法,通过域内编码网络加嵌入对抗优化算法,能精确地找到输入真实图像在扩展的潜在空间的准确逆映射,得到重构效果好的图像,在高度还原真实图像的同时,也保证了逆向映射后的潜码能够通过改变潜码码进行语义编辑。
附图说明
图1为本发明基于潜在空间嵌入扩展的真实图像重建方法的原理示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明总体结构如图1所示,提出一个基于潜在空间嵌入扩展的真实图像重建方法。本方法具体包括以下步骤:
步骤1、获取训练图像数据与预处理。
由于网络需要多次迭代训练,并且要适应各类应用情形,所以准备的训练数据量需要达到一定的量级要求。潜在向量通过正态随机采样获得,通过StyleGAN2生成器,得到110k张图像,由于有些生成图像质量不高,让生成的110k图像经过Yolov3网络进行筛选,Yolov3的网络置信度为0.98,最后筛选出100k张图像,图像的标签是正态随机采样的数值通过StyleGAN2的映射网络得到,维度为18*512。
步骤2、首先,编码器设计的结构采用ResNet50网络,网络的输入是256*256的生成图像,目标是要训练一个编码器,把真实图像映射到StyleGAN2的k*512维w空间,k是生成器的样式输入数。例如,能够以1024×1024的分辨率合成图像的生成器,所对应的是18种相同样式输入相对应的w空间,所以将ResNet50网络去掉最后的三个全连接层,添加三个卷积层,每个卷积层都包含144个大小为3*3的卷积核,网络的输出变成成18*512维,便于潜码的对齐。具体网络结构如图1所示。
其次,将所获取的预处理后的训练图像数据和标签输入建立的域内编码器网络进行训练,其过程如下:
步骤21、在训练编码器的过程中,固定StyleGAN2的生成器,只优化编码器网络,为了在优化过程中度量输入图像和嵌入图像之间的相似性,组合使用损失函数
Figure BDA0003317374360000051
该函数是VGG16得到的感知损失
Figure BDA0003317374360000052
和像素级MSE损失
Figure BDA0003317374360000053
的组合。选择感知损失和像素级MSE损失是因为像素级MSE损失无法找到高质量的逆向映射潜码,而感知损失就像某种调节器,引导优化进入潜在空间的正确区域。
Lpart=minwλperceptLpercrpt(G(w),I1)+λmseLmse(G(w),I1)
其中I1∈Rn×n×3是输入图像,G是预训练的StyleGAN2的生成器,N是图像中标量的个数(N=n×n×3),w是要优化的潜码,λperceptmse为感知损失和像素级MSE损失的权重,实验时λperceptmse为1,对于感知损失
Figure BDA0003317374360000054
Figure BDA0003317374360000055
其中I1是输入图像,I2是编码后的潜码w通过StyleGAN2生成的重构图像,I1、I2∈Rn ×n×3,Fj分别为VGG16的conv1_1、conv1_2、conv3_2和conv4_2层输出,Nj是第j层输出的标量数,经验得到的所有λj=1具有良好的性能。
对于MSE损失,如下
Figure BDA0003317374360000056
其中I1∈Rn×n×3是输入图像,G是预训练的StyleGAN2的生成器,N是图像中标量的个数(N=n×n×3),w是要优化的潜码。
由步骤1可知,实验所采用的数据集是用StyleGAN2预训练模型产生的图像,这样在训练编码器的时候,就能得到输入真实图像的潜在编码,进行有监督的训练,这样,对于数据集的每张图像,都有了它的潜码表示,这样,真实潜码和编码后的潜码的L2范数损失,可以表示为
Figure BDA0003317374360000061
Figure BDA0003317374360000062
总的损失函数为
Figure BDA0003317374360000063
Figure BDA0003317374360000064
网络的输入是StyleGAN2预训练网络生成的图像I1,把生成的图像送入ResNet50编码网络,得到潜在编码w,维数是18*512,再把潜码w送入StyleGAN2的生成器G中,得到重构的图片I2,形成训练对(I1,I2),因为输入的图像I1是通过预训练好的StyleGAN2模型得到的,就能得到图像I1的标签,即图像I1的潜在编码,用潜码的L2范数损失,加上之前训练对(I1,I2)求的感知损失和逐像素的MSE损失,来联合优化编码器,得到重构效果最好的潜码w的分布。
步骤3,本发明的嵌入优化过程是将给定的图像嵌入到经过StyleGAN2生成器的流形上,从预训练的ResNet50域内编码器生成的潜码w开始,搜索优化的矢量w*,使给定图像与从w*生成的图像之间的相似性的损失函数最小化,本发明的策略倾向于产生具有更高重构质量的反向潜码,并能在规定的时间内收敛。进一步在固定数量的迭代中,对经过ResNet50编码器的潜码进行进一步梯度下降优化,联合感知损失和逐像素MSE损失作为优化函数。
Figure BDA0003317374360000071
其中w*是最优潜码,λpercept是VGG16感知损失分配权重的标量,G是预训练好的StyleGAN2生成器,winv是要优化的潜在编码,它是经过预训练的ResNet50编码器得到的,I∈Rn×n×3是要输入的图像,λmse是为像素级均方误差损失分配权重的标量,实验时,λpercept、λmse的标量值为1。
综上,本发明提出了一种基于潜在空间嵌入扩展的真实图像重建方法,高度还原真实图像的同时,也保证了逆向映射后的潜码能够通过改变潜码码进行语义编辑,首先训练了一个域内编码器,编码器不仅强调潜码的对齐,还引入感知损失和逐像素损失,使编码后的潜码在像素域和语义域进行对齐,为了进一步提高重构图像的还原质量,提出了嵌入优化算法,实现了对潜在空间的扩展,将域内编码器得到的潜码作为初始优化值进行优化,来微调编码器产生的潜码,更好地恢复目标图像。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述方法包括如下步骤:
步骤1,获取训练图像数据集与预处理,同时得到图像的标签;
步骤2,将步骤1中得到的训练图像数据和标签输入建立的域内编码器网络进行训练,其过程包括:
步骤21,图像逆映射:用ResNet50做为编码器的主要结构,对输入的图像进行编码,得到的潜码维度与图像的标签维度一致;
步骤22,图像重构:把生成的潜码送入到预训练好的StyleGAN2生成器中,得到重构后的图像;
步骤23,编码器训练:联合输入图像和重构图像的感知损失、逐像素损失和潜码之间的L2范数损失来优化编码器网络;
步骤3,将真实图像输入到训练后的域内编码器网络中,得到真实图像的潜码,并把此潜码当做嵌入对抗优化算法初始值,进行迭代优化,最后得到输入图像的重构;嵌入对抗优化过程如下:
从预训练好的ResNet50域内编码器生成的潜码w开始,搜索优化的矢量w*,通过最小化输入真实图像与w*生成的重构图像之间的感知损失和逐像素损失,来迭代优化潜码。
2.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤1的训练图像数据集是由StyleGAN2的生成模型生成出来的。
3.根据权利要求2所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤1还包括用置信度为0.98的Yolov3的网络,对生成的训练图像数据集进行筛选,去掉生成质量低的图像。
4.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤1中图像的标签由正态随机采样的数值通过StyleGAN2的映射网络得到,维度为18*512。
5.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤2组合了潜码之间的L2范数损失、输入图像和生成图像的感知损失和逐像素损失。
6.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤3以步骤2训练好的编码器模型生成的潜码当作潜码优化的初始值。
7.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法,其特征在于:所述步骤3组合了输入和输出图像的感知损失和逐像素损失。
CN202111235541.9A 2021-10-22 2021-10-22 一种基于潜在空间嵌入扩展的真实图像重建方法 Pending CN113947550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111235541.9A CN113947550A (zh) 2021-10-22 2021-10-22 一种基于潜在空间嵌入扩展的真实图像重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111235541.9A CN113947550A (zh) 2021-10-22 2021-10-22 一种基于潜在空间嵌入扩展的真实图像重建方法

Publications (1)

Publication Number Publication Date
CN113947550A true CN113947550A (zh) 2022-01-18

Family

ID=79332467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111235541.9A Pending CN113947550A (zh) 2021-10-22 2021-10-22 一种基于潜在空间嵌入扩展的真实图像重建方法

Country Status (1)

Country Link
CN (1) CN113947550A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095136A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095136A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法
CN117095136B (zh) * 2023-10-19 2024-03-29 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法

Similar Documents

Publication Publication Date Title
CN110706302B (zh) 一种文本合成图像的系统及方法
WO2023280064A1 (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
CN112419135B (zh) 水印识别在线训练、制样、去除方法及装置、设备、介质
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
CN115311720B (zh) 一种基于Transformer的deepfake生成方法
CN115409937A (zh) 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN115829876A (zh) 一种基于交叉注意力机制的真实退化图像盲修复方法
CN116957931A (zh) 一种基于神经辐射场的相机图像画质提升方法
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
CN117078539A (zh) 基于CNN-Transformer的局部全局交互式图像恢复方法
CN115934932A (zh) 一种基于多模态关键信息分析的摘要生成系统
CN113947550A (zh) 一种基于潜在空间嵌入扩展的真实图像重建方法
Quan et al. Deep learning-based image and video inpainting: A survey
CN112734645B (zh) 一种基于特征蒸馏复用的轻量化图像超分辨率重建方法
Ma et al. Cloud-egan: Rethinking cyclegan from a feature enhancement perspective for cloud removal by combining cnn and transformer
CN111339734B (zh) 一种基于文本生成图像的方法
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
CN115496134B (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN116523985A (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN115035170A (zh) 基于全局纹理与结构的图像修复方法
CN114581334A (zh) 一种基于生成对抗网络的自调节文本生成图像方法
Adiban et al. Hierarchical residual learning based vector quantized variational autoencorder for image reconstruction and generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination