CN113947550A

CN113947550A - 一种基于潜在空间嵌入扩展的真实图像重建方法

Info

Publication number: CN113947550A
Application number: CN202111235541.9A
Authority: CN
Inventors: 霍智勇; 操伟业
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-18

Abstract

一种基于潜在空间嵌入扩展的真实图像重建方法，首先有监督地训练一个域内引导编码器，将给定的图像映射到StyleGAN的固有潜在空间中，其中引入像素损失用来保持视觉质量，使编码后的潜码在像素域进行对齐；引入感知损失，用来引导逆向映射的潜码降落到StyleGAN空间的语义域内，使编码后的潜码在语义域内进行对齐。为了进一步提高重构图像的质量，提出了嵌入优化算法，实现StyleGAN潜在空间的扩展，将域内引导编码器的输出作为初始值进行优化，来微调编码器产生的潜码，实现真实图像的高准确性逆映射。本方法可以解决真实图像逆向映射后重构图像质量不高、不能够通过改变重构后的潜码进行语义编辑的问题，能高度还原真实图像，并且能通过改变潜码进行准确的语义操纵。

Description

一种基于潜在空间嵌入扩展的真实图像重建方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于潜在空间嵌入扩展的真实图像重建方法。

背景技术

生成对抗网络(Generative Adversarial Network，GAN)潜在空间有丰富的语义信息，然而将这些学习到的语义信息用于真实图像编辑是很困难的，真实图像重建技术的目的是在生成对抗网络(Generative Adversarial Network，GAN)的潜在空间找到一个潜码，能够精确地还原真实图像，更重要的是，能够通过改变潜码进行有意义的语义操纵。

随着生成式对抗网络(GANs)在图像合成方面的应用不断深入，已经能够合成高质量和高保真度的图像。StyleGAN作为一种基于样式的生成器架构，生成的高分辨率图像具有很高的视觉质量。由于它有一个解纠缠的潜在空间w，是由初始潜在空间z通过多层感知器网络映射获得，具有一定的语义编辑能力。为此可以利用StyleGAN的逆向映射获得真实图像在潜在空间中的潜码，并通过改变潜码进行相应的语义操纵。目前已经开展了一些研究工作，DumoulinV等人提出联合GAN训练一个编码器，编码器学习将生成的图像映射为其原始的潜在向量，但编码器存在可能的过拟合，使得图像重构与真实图像存在明显差异，此外该方法不适用于预先训练过的GAN，必须同时与GAN一起训练，网络参数和计算代价都有所增加。Luo等人描述的方法是在预训练GAN后训练编码器，不用联合GAN一起训练，但无法准确实现真实图像在GAN潜在空间的准确映射，逆向映射的图像质量存在明显差异。

发明内容

综上所述，针对现有的方法存在的问题，本发明提出一种基于潜在空间嵌入扩展的真实图像重建方法，通过两阶段完成真实图像到潜在空间的逆向映射，第一阶段训练了一个域内编码器，使得编码后的潜码在像素域和语义域进行对齐，第二阶段利用经过编码网络得到的潜码获得初步恢复的真实图像，通过嵌入优化，扩展StyleGAN的潜在空间，从而实现对真实图像准确逆映射。

一种基于潜在空间嵌入扩展的真实图像重建方法，包括如下步骤：

步骤1，获取训练图像数据集与预处理，同时得到图像的标签；

步骤2，将步骤1中得到的训练图像数据和标签输入建立的域内编码器网络进行训练，其过程包括：

步骤21，图像逆映射：用ResNet50做为编码器的主要结构，对输入的图像进行编码，得到的潜码维度与图像的标签维度一致；

步骤22，图像重构：把生成的潜码送入到预训练好的StyleGAN2生成器中，得到重构后的图像；

步骤23，编码器训练：联合输入图像和重构图像的感知损失、逐像素损失和潜码之间的L2范数损失来优化编码器网络；

步骤3，将真实图像输入到训练后的域内编码器网络中，得到真实图像的潜码，并把此潜码当做嵌入对抗优化算法初始值，进行迭代优化，最后得到输入图像的重构；嵌入对抗优化过程如下：

从预训练好的ResNet50域内编码器生成的潜码w开始，搜索优化的矢量w^*，通过最小化输入真实图像与w^*生成的重构图像之间的感知损失和逐像素损失，来迭代优化潜码。

进一步地，所述步骤1的训练图像数据集是由StyleGAN2的生成模型生成出来的。

进一步地，所述步骤1还包括用置信度为0.98的Yolov3的网络，对生成的训练图像数据集进行筛选，去掉生成质量低的图像。

进一步地，所述步骤1中图像的标签由正态随机采样的数值通过StyleGAN2的映射网络得到，维度为18*512。

进一步地，所述步骤2组合了潜码之间的L2范数损失、输入图像和生成图像的感知损失和逐像素损失。

进一步地，所述步骤3以步骤2训练好的编码器模型生成的潜码当作潜码优化的初始值。

进一步地，所述步骤3组合了输入和输出图像的感知损失和逐像素损失。

本发明采用上述技术方案，能产生如下技术效果：

本发明提供的基于潜在空间嵌入扩展的真实图像重建方法，通过域内编码网络加嵌入对抗优化算法，能精确地找到输入真实图像在扩展的潜在空间的准确逆映射，得到重构效果好的图像，在高度还原真实图像的同时，也保证了逆向映射后的潜码能够通过改变潜码码进行语义编辑。

附图说明

图1为本发明基于潜在空间嵌入扩展的真实图像重建方法的原理示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明总体结构如图1所示，提出一个基于潜在空间嵌入扩展的真实图像重建方法。本方法具体包括以下步骤：

步骤1、获取训练图像数据与预处理。

由于网络需要多次迭代训练，并且要适应各类应用情形，所以准备的训练数据量需要达到一定的量级要求。潜在向量通过正态随机采样获得，通过StyleGAN2生成器，得到110k张图像，由于有些生成图像质量不高，让生成的110k图像经过Yolov3网络进行筛选，Yolov3的网络置信度为0.98,最后筛选出100k张图像，图像的标签是正态随机采样的数值通过StyleGAN2的映射网络得到，维度为18*512。

步骤2、首先，编码器设计的结构采用ResNet50网络，网络的输入是256*256的生成图像，目标是要训练一个编码器，把真实图像映射到StyleGAN2的k*512维w空间，k是生成器的样式输入数。例如，能够以1024×1024的分辨率合成图像的生成器，所对应的是18种相同样式输入相对应的w空间，所以将ResNet50网络去掉最后的三个全连接层，添加三个卷积层，每个卷积层都包含144个大小为3*3的卷积核，网络的输出变成成18*512维，便于潜码的对齐。具体网络结构如图1所示。

其次，将所获取的预处理后的训练图像数据和标签输入建立的域内编码器网络进行训练，其过程如下：

步骤21、在训练编码器的过程中，固定StyleGAN2的生成器，只优化编码器网络，为了在优化过程中度量输入图像和嵌入图像之间的相似性，组合使用损失函数

该函数是VGG16得到的感知损失

和像素级MSE损失

的组合。选择感知损失和像素级MSE损失是因为像素级MSE损失无法找到高质量的逆向映射潜码，而感知损失就像某种调节器，引导优化进入潜在空间的正确区域。

L_part＝min_wλ_perceptL_percrpt(G(w),I₁)+λ_mseL_mse(G(w),I₁)

其中I₁∈R^n×n×3是输入图像，G是预训练的StyleGAN2的生成器，N是图像中标量的个数(N＝n×n×3)，w是要优化的潜码，λ_percept,λ_mse为感知损失和像素级MSE损失的权重，实验时λ_percept,λ_mse为1，对于感知损失

其中I₁是输入图像，I₂是编码后的潜码w通过StyleGAN2生成的重构图像，I₁、I₂∈Rⁿ ^×n×3，F_j分别为VGG16的conv1_1、conv1_2、conv3_2和conv4_2层输出，N_j是第j层输出的标量数，经验得到的所有λ_j＝1具有良好的性能。

对于MSE损失，如下

其中I₁∈R^n×n×3是输入图像，G是预训练的StyleGAN2的生成器，N是图像中标量的个数(N＝n×n×3)，w是要优化的潜码。

由步骤1可知，实验所采用的数据集是用StyleGAN2预训练模型产生的图像，这样在训练编码器的时候，就能得到输入真实图像的潜在编码，进行有监督的训练，这样，对于数据集的每张图像，都有了它的潜码表示，这样，真实潜码和编码后的潜码的L2范数损失，可以表示为

总的损失函数为

网络的输入是StyleGAN2预训练网络生成的图像I₁，把生成的图像送入ResNet50编码网络，得到潜在编码w，维数是18*512，再把潜码w送入StyleGAN2的生成器G中，得到重构的图片I₂，形成训练对(I₁，I₂)，因为输入的图像I₁是通过预训练好的StyleGAN2模型得到的，就能得到图像I₁的标签，即图像I₁的潜在编码，用潜码的L2范数损失，加上之前训练对(I₁，I₂)求的感知损失和逐像素的MSE损失，来联合优化编码器，得到重构效果最好的潜码w的分布。

步骤3，本发明的嵌入优化过程是将给定的图像嵌入到经过StyleGAN2生成器的流形上，从预训练的ResNet50域内编码器生成的潜码w开始，搜索优化的矢量w^*，使给定图像与从w^*生成的图像之间的相似性的损失函数最小化，本发明的策略倾向于产生具有更高重构质量的反向潜码，并能在规定的时间内收敛。进一步在固定数量的迭代中，对经过ResNet50编码器的潜码进行进一步梯度下降优化，联合感知损失和逐像素MSE损失作为优化函数。

其中w^*是最优潜码，λ_percept是VGG16感知损失分配权重的标量，G是预训练好的StyleGAN2生成器，w^inv是要优化的潜在编码，它是经过预训练的ResNet50编码器得到的，I∈R^n×n×3是要输入的图像，λ_mse是为像素级均方误差损失分配权重的标量，实验时，λ_percept、λ_mse的标量值为1。

综上，本发明提出了一种基于潜在空间嵌入扩展的真实图像重建方法，高度还原真实图像的同时，也保证了逆向映射后的潜码能够通过改变潜码码进行语义编辑，首先训练了一个域内编码器，编码器不仅强调潜码的对齐，还引入感知损失和逐像素损失，使编码后的潜码在像素域和语义域进行对齐，为了进一步提高重构图像的还原质量，提出了嵌入优化算法，实现了对潜在空间的扩展，将域内编码器得到的潜码作为初始优化值进行优化，来微调编码器产生的潜码，更好地恢复目标图像。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤1的训练图像数据集是由StyleGAN2的生成模型生成出来的。

3.根据权利要求2所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤1还包括用置信度为0.98的Yolov3的网络，对生成的训练图像数据集进行筛选，去掉生成质量低的图像。

4.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤1中图像的标签由正态随机采样的数值通过StyleGAN2的映射网络得到，维度为18*512。

5.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤2组合了潜码之间的L2范数损失、输入图像和生成图像的感知损失和逐像素损失。

6.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤3以步骤2训练好的编码器模型生成的潜码当作潜码优化的初始值。

7.根据权利要求1所述的一种基于潜在空间嵌入扩展的真实图像重建方法，其特征在于：所述步骤3组合了输入和输出图像的感知损失和逐像素损失。