CN117095136B

CN117095136B - 一种基于3d gan的多物体和多属性的图像重建和编辑方法

Info

Publication number: CN117095136B
Application number: CN202311353748.5A
Authority: CN
Inventors: 周鹏远; 马龙; 李浩冉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-03-29
Anticipated expiration: 2043-10-19
Also published as: CN117095136A

Abstract

本发明提供了一种基于3D GAN的多物体和多属性的图像重建和编辑方法。该方法包括：利用图像分割模块对待编辑图像中的多个物体进行图像实例分割；利用训练完成的多个神经反演编码器分别从物体分割图、背景分割图以及待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码；利用多个优化器分别对物体潜在编码、背景潜在编码以及相机潜在编码进行优化；基于优化后的物体潜在编码、背景潜在编码和相机潜在编码，利用图像重建模块对待编辑图像进行重建，得到重建图像；利用图像编辑模块对优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码进行随机采样以完成对重建图像的编辑。

Description

一种基于3D GAN的多物体和多属性的图像重建和编辑方法

技术领域

本发明涉及深度学习领域，特别涉及一种基于3D GAN的多物体和多属性的图像重建和编辑方法、一种神经反演编码器的训练方法、电子设备以及存储介质。

背景技术

生成对抗网络（Generative Adversarial Network，GAN）是一种深度生成模型（Deep Generative Model），它通过对抗训练学习生成新数据。它由两个神经网络组成：生成器G和鉴别器D，它们通过对抗过程联合训练。G的目标是合成类似于真实数据的假数据，而D的目标是区分真假数据。通过对抗训练过程，生成器G试图生成与真实数据分布匹配的假数据来使鉴别器失效。

近年来，GAN已应用于计算机视觉任务，例如：图像翻译、图像处理到图像恢复。目前的许多 GAN 模型，例如PGGAN、BigGAN 和 StyleGAN，从随机的latent code（latentspace：潜在空间）通过采样得到的高斯噪声）合成具有高质量和多样性的图像。最近的研究表明，GAN 通过图像生成的监督，有效地latent space中编码丰富的语义信息。这些方法可以合成具有多种属性的图像，例如具有不同年龄和表情的人脸，以及具有不同光照条件的场景。通过改变 latent code，可以在保留生成图像一些属性的同时操纵另一些属性。3DGANs通常将2D GANs与某种形式的3D表示（例如NeRF，Mesh，Point Cloud）相结合，在之前2DGAN的编辑的基础上又可以编辑相机的位姿，使得可以得到不同相机角度下的视图。

GAN Inversion是一种在某一预训练的生成器下，获取输入图像的latent codes，并对latent codes进行修改以进行图像编辑操作的方法，由于3D GAN相对于2D GAN（通常仅有单个latent code）而言，往往具有大量latent codes用于进行复杂多元化的图像生成。

然而，现有的基于GAN Inversion物体编辑技术不能较好地对具有复杂多场景以及多物体的图像进行编辑。

发明内容

鉴于上述问题，本发明提供了一种基于3D GAN的多物体和多属性的图像重建和编辑方法，以期至少能够解决上述问题之一。

根据本发明的第一个方面，提供了一种基于3D GAN的多物体和多属性的图像重建和编辑方法，包括：

根据预定义的目标检测算法，利用图像分割模块对待编辑图像中的多个物体进行图像实例分割，得到物体分割图和背景分割图；

利用训练完成的多个神经反演编码器分别从物体分割图、背景分割图以及待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码；

根据预定义的自动循环优化算法和预定义的排序算法，利用具有不同参数的多个优化器分别对物体潜在编码、背景潜在编码以及相机潜在编码进行优化；

基于优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码，利用图像重建模块对待编辑图像进行重建，得到重建图像，其中，训练完成的图像重建和编辑模型基于3D GAN进行构建；

利用图像编辑模块通过在潜在向量空间中对优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码进行随机采样以完成对重建图像的编辑。

根据本发明的实施例，上述物体属性包括物体的颜色、物体的形状、物体的尺寸、物体在待编辑图像中的位置以及物体的旋转角度；背景属性包括背景的颜色、背景的光照强度和背景的类别；相机位姿信息包括相机拍摄时的三维空间坐标和相机参数。

根据本发明的实施例，上述利用训练完成的多个神经反演编码器分别从物体分割图、背景分割图以及待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码包括：

基于不同的初始参数，分别构建物体神经反演编码器、背景神经反演编码器和相机神经反演编码器并进行训练，其中，神经反演编码器包括基于3D GAN Inversion架构的特征提取器、基于3D GAN GIREFFE渲染架构的卷积神经网络以及多个结构不同的多层感知机；

利用训练完成的物体神经反演编码器对物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到物体潜在编码；

利用训练完成的背景神经反演编码器对背景分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到背景潜在编码；

利用训练完成的相机神经反演编码器对待编辑图像进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到相机潜在编码。

根据本发明的实施例，上述利用训练完成的物体神经反演编码器对物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到物体潜在编码包括：

利用特征提取器对物体分割图进行多层次特征提取操作，得到多个不同层次的物体特征图；

利用卷积神经网络对物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量；

将处理于同一层次的物体特征图和采样向量进行跳跃连接，得到多个具有预设维度的连接向量；

利用多个结构不同的多层感知机对多个具有预设维度的连接向量进行映射处理，得到物体潜在编码。

根据本发明的实施例，上述利用图像编辑模块通过在潜在向量空间中对优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码进行随机采样以完成对重建图像的编辑包括：

利用图像编辑模块对优化后的物体潜在编码进行随机采样，将采样到的物体潜在编码替换重建图像中物体的目标属性，完成对重建图像中的物体编辑；

利用图像编辑模块对优化后的背景潜在编码进行随机采样，将采样到的背景潜在编码替换重建图像中背景的目标属性，完成对重建图像中的背景编辑；

利用图像编辑模块对优化后的相机潜在编码进行随机采样，将采样到的相机潜在编码替换重建图像中相机位姿信息，完成对重建图像中的相机位姿信息编辑。

根据本发明的第二个方面，提供了一种神经反演编码器的训练方法，应用于基于3D GAN的多物体和多属性的图像重建和编辑方法，包括：

基于预定义的目标检测算法，利用图像分割模块对图像样本中的多个目标物体进行图像实例分割，得到物体分割图和背景分割图；

利用物体神经反演编码器从物体分割图中提取物体潜在编码，利用背景神经反演编码器从背景分割图中提取背景潜在编码，并利用相机神经反演编码器从图像样本中提取相机潜在编码；

根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对物体潜在编码进行优化，利用背景优化器对背景潜在编码进行优化，并利用相机优化器对相机潜在编码进行优化；

利用图像重建模型处理优化后的物体潜在编码、优化的背景潜在编码以及优化后的相机潜在编码，得到重建图像，其中，图像重建模块基于3D GAN进行构建；

利用预定义的损失函数处理优化后的物体潜在编码、优化的背景潜在编码、优化后的相机潜在编码、图像样本以及重建图像，得到损失值；

根据预定义的优化目标函数，利用损失值对物体神经反演编码器、背景神经反演编码器以及相机神经反演编码器的参数进行优化；

迭代进行分割操作、提取操作、优化操作、重建操作以及参数优化操作，直到满足预设训练条件，得到训练完成的物体神经反演编码器、训练完成的背景神经反演编码器以及训练完成的相机神经反演编码器。

根据本发明的实施例，上述利用物体神经反演编码器从物体分割图中提取物体潜在编码包括：

利用物体神经反演编码器的特征提取网络对物体分割图进行多层次的特征提取，得到多个不同层次的图像特征，其中，特征提取网络基于GIREEFE中的神经渲染块结构进行构建；

利用物体神经反演编码器的卷积神经网络对物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量；

利用物体神经反演编码器将处理于同一层次的物体特征图和采样向量进行跳跃连接，得到多个具有预设维度的连接向量；

利用物体神经反演编码器的多个结构不同的多层感知机对多个具有预设维度的连接向量进行映射处理，得到物体潜在编码。

根据本发明的实施例，上述根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对物体潜在编码进行优化包括：

向物体潜在编码中随机添加高斯噪声，得到带有扰动的物体潜在编码，并利用预定义的排序算法对带有扰动的物体潜在编码进行排序，得到排序后的物体潜在编码；

计算图像样本和重建图像之间的相似度，并基于相似度，利用预定义的损失对排序后的物体潜在编码进行自适应地多次迭代优化，得到优化后的物体潜在编码。

根据本发明的第三个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行基于3D GAN的多物体和多属性的图像重建和编辑方法以及神经反演编码器的训练方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行基于3D GAN的多物体和多属性的图像重建和编辑方法以及神经反演编码器的训练方法。

本发明提供的上述基于3D GAN的多物体和多属性的图像重建和编辑方法，通过预训练的神经反演编码器和基于3D GAN的图像重建和编辑模型，不仅大大减少了优化过程所需要的时间，同时能够对具有复杂多场景和多物体的图像进行精确的重建和灵活的多属性编辑，有效地解决了现有技术中的技术问题。

附图说明

图1是根据本发明实施例的基于3D GAN的多物体和多属性的图像重建和编辑方法的流程图；

图2是根据本发明实施例的获取多类别潜在编码的流程图；

图3是根据本发明的实施例获取物体潜在编码的流程图；

图4是根据本发明实施例的潜在编码的粗略提取方法；

图5是根据本发明的实施例完成图像编辑的流程图；

图6是根据本发明实施例的神经反演编码器的训练方法的流程图；

图7是根据本发明实施例的基于3D GAN Inversion的多物体和多属性编辑方案的整体架构示意图；

图8是根据本发明实施例的Latent Code优化模块的结构示意图；

图9是根据本发明实施例的多场景下的对车辆和小物块的编辑效果示意图；

图10是根据本发明实施例的人脸的编辑效果示意图；

图11示意性示出了根据本发明实施例的适于实现基于3D GAN的多物体和多属性的图像重建和编辑方法以及神经反演编码器的训练方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

现有技术中，3D GANs可以分为两类：显式模型和隐式模型。显式模型，通过对学习到的三维特征的刚体变换，能够显式地控制结果物体的姿态。例如BlockGAN分别生成前景和背景的3D特征，并将它们组合成一个完整的3D场景表示，最终渲染成一个真实的图像。而隐式模型通常表现得更好，通过将图像表示为NeRF，并使用体积渲染在连续视图中生成逼真的图像，例如GRAF在生成过程中集成了形状和外观的latent codes，便于对生成的车辆和家具图像的形状和外观进行独立操作。GIRAFFE通过将图像组成视为经过仿射变换的多个对象组成的前景的和以特定摄像机角度渲染的背景，将GRAF扩展到多对象场景。

GAN Inversion是一种在某一预训练的生成器(本发明选用预训练的GIRAFFE生成器)下，获取输入图像的latent codes，并对latent codes进行修改以进行图像编辑操作的方法，由于3D GAN相对于2D GAN（通常仅有单个latent code）而言，往往具有大量latentcodes用于进行复杂多元化的图像生成，以本发明使用的3D GAN模型GIRAFFE为例，生成一张拥有n个物体的图像，至少需要5n+3个latent codes，用于控制图像中的各个物体和背景的属性，其中包括物体颜色、形状、大小、位置、旋转角度以及背景的光照强度、场景类别、相机位姿等，所以，对于3D GAN Inversion而言，如何从一张图片中准确提取多物体的多个latent codes以进行图像重建和编辑，成为了一个巨大挑战。

针对现有的GAN inversion物体属性编辑技术，存在的问题可以总结如下：由于2DGAN仅使用单个latent code控制图片生成，所以只能2D GAN inversion也只能编辑单个物体和背景的一些简单外观属性，例如颜色和形状，而忽略了该物体的空间属性，例如尺度、平移和旋转等，但是在复杂自然场景下，需要编辑的往往是多个物体以及他们共同背景的外观属性，甚至是空间属性，所以3D GAN Inversion的实现迫在眉睫；3D GAN相对于2DGAN，往往具有更多的变量，所以对3D GAN Inversion而言，如何从单张图片中准确地提取这多个属性特征，并且映射到latent space，获得较为准确的latent codes用以重建图像，然后通过改变这些latent codes来编辑图像的相应属性是一个巨大的难题。

因此，在复杂的多物体场景中执行灵活和多属性的编辑方面还存在很大的不足。

为了解决现有技术中的各种技术问题，本发明提供了新的多物体的多属性编辑技术（3D-GOI：3D GAN Omni-Inversion for Multifaceted and Multi-object Editing），以实现了在复杂的多物体场景中灵活和多属性的编辑。

在本发明所公开的技术方案，所处理的图像中的车辆和人物均取得了相关数据所有者的授权，并在数据所有者的许可下，对上述数据进行处理、应用和存储，相关过程符合法律法规的规定，采取了必要和可靠的保密措施，符合公序良俗的要求。需要特别说明的是，本发明提供的图片中所涉及到的人物图像均为AI生成的人物图像，并非真人图像。

图1是根据本发明实施例的基于3D GAN的多物体和多属性的图像重建和编辑方法的流程图。

如图1所示，上述基于3D GAN的多物体和多属性的图像重建和编辑方法包括操作S110~操作S150。

在操作S110，根据预定义的目标检测算法，利用图像分割模块对待编辑图像中的多个物体进行图像实例分割，得到物体分割图和背景分割图。

上述预定义的目标检测算法包括YoloV7算法。

在操作S110中，通过将待编辑图像进行实例分割，能够得到背景图和物体分割图，从而为分离不同物体和背景不同属性对应的latent codes提供便利。

在操作S120，利用训练完成的多个神经反演编码器分别从物体分割图、背景分割图以及待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码。

根据本发明的实施例，上述物体属性包括物体的颜色、物体的形状、物体的尺寸、物体在待编辑图像中的位置以及物体的旋转角度；背景属性包括背景的颜色、背景的光照强度和背景的类别，相机位姿信息包括相机拍摄时的三维空间坐标和相机参数。

通过多个神经反演编码器分别从原图、背景图、物体分割图中获得物体和背景的latent codes的近似值，例如相机位姿、物体形状和颜色、物体位置信息等。

神经反演编码器，用于粗略提取图像中每个物体的多个latent codes，先对原始图像进行大小变形，再通过多个卷积网络分别得到图像中每个物体不同属性所对应latentcodes的近似估计，同时保存提取到的所有latent codes，用于生成器的还原。

在操作S130，根据预定义的自动循环优化算法和预定义的排序算法，利用具有不同参数的多个优化器分别对物体潜在编码、背景潜在编码以及相机潜在编码进行优化。

本发明实施上述操作S130，通过一个高效的预定义的自动循环优化算法和预定义的排序算法，解决了同时优化多个变量会陷入局部极小的问题，同时大大提高了优化的准确率，后文给出具体的实验验证，可以验证此优化方法的有效性。

潜在编码优化的过程主要通过排序函数，对参与循环优化的多个latent codes（即潜在编码，下同）进行排序，决定优化次序；对排序后的多个latent codes进行循环优化，直至获得最优解；基于以上最优latent codes，利用生成器进行图像重建，保存以上最优值。

在操作S140，基于优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码，利用图像重建模块对待编辑图像进行重建，得到重建图像，其中，训练完成的图像重建和编辑模型基于3D GAN进行构建。

上述图像重建和编辑模型用于通过提取到的latent codes重建完整图片，通过预训练的GIRAFFE生成器基于latent codes重建出完整图像。

在操作S150，利用图像编辑模块通过在潜在向量空间中对优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码进行随机采样以完成对重建图像的编辑。

在Latent Space（潜在空间）对优化后的潜在编码进行随机采样，并将采样到的潜在编码用于替换该采样潜在编码所代表属性在重建图像中潜所表示的物体、背景或相机位姿。

图2是根据本发明实施例的获取多类别潜在编码的流程图。

如图2所示，上述利用训练完成的多个神经反演编码器分别从物体分割图、背景分割图以及待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码包括操作S210~操作S240。

在操作S210，基于不同的初始参数，分别构建物体神经反演编码器、背景神经反演编码器和相机神经反演编码器并进行训练，其中，神经反演编码器包括基于3D GANInversion架构的特征提取器、基于3D GAN GIREFFE渲染架构的卷积神经网络以及多个结构不同的多层感知机。

在操作S220，利用训练完成的物体神经反演编码器对物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到物体潜在编码。

在操作S230，利用训练完成的背景神经反演编码器对背景分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到背景潜在编码。

在操作S240，利用训练完成的相机神经反演编码器对待编辑图像进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到相机潜在编码。

本发明实施上述提取方法，通过不同编码器从不同分割图像中提取latent codes近似值，在极大减少了优化过程所需时间的同时，极大提高了准确率，这也是本发明能够实现多物体重建和多属性编辑的基础。后文给出具体的实验验证，可以证明此编码器的高准确率。

图3是根据本发明的实施例获取物体潜在编码的流程图。

如图3所示，上述利用训练完成的物体神经反演编码器对物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到物体潜在编码包括操作S310～操作S340。

在操作S310，利用特征提取器对物体分割图进行多层次特征提取操作，得到多个不同层次的物体特征图。

在操作S320，利用卷积神经网络对物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量。

在操作S330，将处理于同一层次的物体特征图和采样向量进行跳跃连接，得到多个具有预设维度的连接向量。

在操作S340，利用多个结构不同的多层感知机对多个具有预设维度的连接向量进行映射处理，得到物体潜在编码。

背景潜在编码和相机潜在编码的获取方式与物体潜在编码的获取方式类似，本领域技术人员可以理解，上述针对不同类别的神经反演编码器在结构上类似，但是参数取值不同。

利用神经反演编码器提取每个物体、背景的每个属性的latent codes。与传统的基于编码器的反演方法不同，由于latent codes数量过多以及不同属性的latent codes维度不同，所不能使用单一编码器来预测所有的latent codes。因此为每个latent code分配一个神经反演编码器。本发明的编码器网络由三部分组成。第一部分采用E4E编码器的框架来提取图像特征。受GIREFFE神经渲染块结构的启发，第二部分使用卷积神经网络（CNN）对原始图像逐层向下采样，然后使用跳跃连接，与第一部分提取得到的图像特征共同产生一维特征。最后一层采用不同的MLP结构来获取不同维度的latent codes的近似值。

图4是根据本发明实施例的潜在编码的粗略提取方法。

如图4所示，对待编辑图像中的物体（图4所示的多种车辆）进行场景分割（SceneDecomposition），然后将分割图送到预训练的编码器（即神经反演编码器）中，进行粗略提取（Coarse Estimation），得到待编辑图像中目标物体的属性信息，即Latent Codes。

图5是根据本发明的实施例完成图像编辑的流程图。

如图5所示，上述利用图像编辑模块通过在潜在向量空间中对优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码进行随机采样以完成对重建图像的编辑包括操作S510~操作S530。

在操作S510，利用图像编辑模块对优化后的物体潜在编码进行随机采样，将采样到的物体潜在编码替换重建图像中物体的目标属性，完成对重建图像中的物体编辑。

在操作S520，利用图像编辑模块对优化后的背景潜在编码进行随机采样，将采样到的背景潜在编码替换重建图像中背景的目标属性，完成对重建图像中的背景编辑。

在操作S530，利用图像编辑模块对优化后的相机潜在编码进行随机采样，将采样到的相机潜在编码替换重建图像中相机位姿信息，完成对重建图像中的相机位姿信息编辑。

图6是根据本发明实施例的神经反演编码器的训练方法的流程图。

如图6所示，上述神经反演编码器的训练方法，应用于基于3D GAN的多物体和多属性的图像重建和编辑方法包括操作S610~操作S670。

在操作S610，基于预定义的目标检测算法，利用图像分割模块对图像样本中的多个目标物体进行图像实例分割，得到物体分割图和背景分割图。

在操作S620，利用物体神经反演编码器从物体分割图中提取物体潜在编码，利用背景神经反演编码器从背景分割图中提取背景潜在编码，并利用相机神经反演编码器从图像样本中提取相机潜在编码。

在操作S630，根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对物体潜在编码进行优化，利用背景优化器对背景潜在编码进行优化，并利用相机优化器对相机潜在编码进行优化。

在操作S640，利用图像重建模型处理优化后的物体潜在编码、优化的背景潜在编码以及优化后的相机潜在编码，得到重建图像，其中，图像重建模块基于3D GAN进行构建。

在操作S650，利用预定义的损失函数处理优化后的物体潜在编码、优化的背景潜在编码、优化后的相机潜在编码、图像样本以及重建图像，得到损失值。

在操作S660，根据预定义的优化目标函数，利用损失值对物体神经反演编码器、背景神经反演编码器以及相机神经反演编码器的参数进行优化。

在操作S670，迭代进行分割操作、提取操作、优化操作、重建操作以及参数优化操作，直到满足预设训练条件，得到训练完成的物体神经反演编码器、训练完成的背景神经反演编码器以及训练完成的相机神经反演编码器。

根据本发明的实施例，上述利用物体神经反演编码器从物体分割图中提取物体潜在编码包括：利用物体神经反演编码器的特征提取网络对物体分割图进行多层次的特征提取，得到多个不同层次的图像特征，其中，特征提取网络基于GIREEFE中的神经渲染块结构进行构建；利用物体神经反演编码器的卷积神经网络对物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量；利用物体神经反演编码器将处理于同一层次的物体特征图和采样向量进行跳跃连接，得到多个具有预设维度的连接向量；

根据本发明的实施例，上述根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对物体潜在编码进行优化包括：向物体潜在编码中随机添加高斯噪声，得到带有扰动的物体潜在编码，并利用预定义的排序算法对带有扰动的物体潜在编码进行排序，得到排序后的物体潜在编码；计算图像样本和重建图像之间的相似度，并基于相似度，利用预定义的损失对排序后的物体潜在编码进行自适应地多次迭代优化，得到优化后的物体潜在编码。

图7是根据本发明实施例的基于3D GAN Inversion的多物体和多属性编辑方案的整体架构示意图。

下面结合图7以及具体实施方式对本发明提供的上述多物体和多属性的图像重建和编辑方法做进一步详细地说明。

如图7所示，本发明提供的上述图像重建和编辑方法图像分割模块、Latent Code提取模块、Latent Code优化模块以及图像重建和编辑模块。在图7所示的架构图中，将原始图像进行实例分割，得到背景图和物体分割图，利用多个神经反演编码器分别从原图、背景图、物体分割图中获得对应的latent codes的近似值，利用优循环化算法和排序函数对latent codes进行进一步优化，获得更为精准的latent codes，基于以上最优latentcodes，利用生成器进行图像重建，通过改变对应物体的对应latent codes，进行对应物体属性编辑。

在图像分割模块，由于本发明使用的生成器为冻结参数的GIRAFFE生成器，而GIRAFFE将图像组成视为经过仿射变换的多个对象组成的前景的和以特定摄像机角度渲染的背景，因此通过图像实例分割背景图和物体分割图，便可以分别从背景图和物体分割图中提取控制背景和物体各个属性的latent codes，即W为生成器中控制图像生成的参数，那么W可分为三部分，物体属性（如颜色、位置、旋转角度等）、背景属性（背景颜色和类别）和相机位姿信息，如果用前缀obj表示物体属性，bg表示背景属性，camera_pose表示相机位姿信息，则W可以表示为：通过使用Yolov7分割算法对图像中的物体进行分割，获得背景图和物体分割图，便可分别从中提取/>、以及/>。

在Latent Code提取模块，利用神经反演编码器提取每个物体、背景的每个属性的latent code。与传统的基于编码器的反演方法不同，由于latent codes数量过多以及不同属性的latent codes维度不同，所以不能使用单一编码器来预测所有的latent codes。因此为每个latent code分配一个神经反演编码器。本发明的编码器网络由三部分组成：第一部分采用E4E（一种GAN Inversion模型的主体结构）编码器的框架来提取图像特征。受NIB(GIREFFE中神经渲染块结构)的启发，第二部分使用CNN(卷积神经网络)，对原始图像逐层向下采样，然后使用skip connection（跳跃连接），与第一部分提取得到的图像特征共同产生一维特征。最后一层采用不同的MLP结构来获取不同维度的latent codes的近似值：

设分别为原图像和重建后的图像只要最小化/>之间的差别，即可得到更为精确的latent codes，于是问题可以表示公式（1）：

（1），

这里，，/>表示/>对/>的差集，/>表示损失函数，引入了MSE（均方误差也称为/>损失）、 />(感知损失)、/>(身份特征损失)，损失函数/>可以表示为公式（2）：

（2），

表示不同损失的比例系数，而在编码器的训练过程中，每次只训练一个编码器，而其他值使用真实值。

图8是根据本发明实施例的Latent Code优化模块的结构示意图。

下面结合图8以及具体实施方式，对Latent Code优化模块的功能做进一步详细地说明。

如图8所示，在Latent Code优化模块，使用一个优化器同时优化所有latentcodes总会收敛到局部最小值。为了避免这个问题，本发明使用多个优化器，每个优化器处理一个latent code。而同时优化的顺序在重建图像与原图的差异上起着至关重要的作用，由于不同编码器预测得到的latent code与其真实值的差异不同，以及不同latent code在控制图像生成方面影响不同（例如，改变bg_shape和bg_app对应的latent code，会影响背景生成，从而对整体重建效果有更大的影响），使用对具有显著差异和对重建图像质量影响较大的latent code进行优先优化往往会产生更加优越的结果。因此，本发明提出了一种自动循环优化算法和排序算法，其中排序算法根据每一轮重建的图像对每个latent code进行排序。本发明的排序算法的目的是在每个代码中添加多个微小扰动，计算添加微小扰动前后重建的图像与原始图像之间的损失，同时使用损失变化量和干扰量的偏导数来计算它们的优先级，如公式（3）和（4）所示：

（3），

（4），

这里表示/>对/>的差集，/>表示引入的微小扰动，/>表示损失函数的变化量，/>表示损失函数, 本发明引入了MSE（均方误差也称为/>损失）、/>(感知损失)、/>(身份特征损失)以及/>(深度损失)，损失函数的形式为公式（5）所示：

（5）。

本发明的循环优化算法，通过衡量重建的图像与原始图像之间的损失，决定对排序后的latent codes是否进行循环优化，并且自适应的决定优化器学习率以及迭代次数，这种优化方法可以获得更为准确的latent codes，以便更加全面的重建和编辑图像。

图9是根据本发明实施例的多场景下的对车辆和小物块的编辑效果示意图。

图10是根据本发明实施例的人脸的编辑效果示意图。

在图像重建和编辑模块，通过图像分割模块、Latent codes提取模块和Latentcodes优化模块，本发明从原始图像中分别提取到了各个物体的各个属性的精确latentcodes和背景的latent codes以及相机位姿信息的Latent codes：和，/>通过结合以上latentcodes与GIRAFFE生成器，本发明实现了图像的高质量重建。同时，通过在latent space中随机采样latent code，替换对应物体或背景某具体属性对应的latent code，便可实现对应物体或背景具体属性的编辑功能。至此，依赖于本发明对物体、背景和相机位姿信息的准确分类，对latent codes的准确提取和精确优化，不仅实现了在单物体场景下的多属性编辑，而且在多物体复杂场景的多属性编辑上展现出优异的效果，图8展示了本发明在各种场景下的对车辆和小物块的编辑效果，图9展示了本发明对人脸（AI合成的人脸图像）的编辑效果。

为了说明本发明的有效性，本发明通过进行了如下实验进行了验证。

实验在对抗生成网络GIRAFFE生成的G-CelebA-HQ人脸数据集（本发明使用在CelebA-HQ数据集上的GIRAFFE预训练模型来生成训练和测试数据集；本发明用“G-数据集”来表示）和车辆数据集上进行了实验，以MSE（均方误差）、LPIPS（感知损失）和ID（ID相似度）作为精确性评价指标,其中MSE和LPIPS越小，代表重建质量越好，而ID精确率越高，表示重建后的物体更契合原图中的物体，以重建单张图片所需的时间（Time）作为高效性的评价指标。且设计了消融实验，从而验证了设计模块的有效性。

实验分为如下几个部分：

本发明的方法（3D_GOI）与其他方法在数据集G-CelebA-HQ上的精确性，实时性以及高效性的对比，其结果如表1所示。

表1-不同方法在数据集G-CelebA-HQ上的精确性以及高效性的对比

从表1可以看出与目前精度最好的方法相比，本发明在牺牲极少量精度下，提高了接近2倍的预测速度，同时本发明的方法（3D_GOI）消耗更少的内存资源，为工业落地奠定了基础。

神经反演编码器的消融实验对比，其结果如表2所示。

在表2中对比了本发明设计的神经反演编码器各个组成部分对重建图片质量的影响，通过对比可以发现，本发明所设计的神经反演编码器在提取各个latent code时的有效性和精确性，发现本发明添加的NIB结构可以大大提高预测精度外，本发明还发现obj/bg_ shape和obj_r比其他latent codes更难预测。

表2-神经反演编码器的消融实验

融合不同latent codes优化策略对比。

表3-融合不同latent codes的循环优化的消融实验

表3测试了在一个优化器中同时优多个latent codes对重建效果的影响。正如之前所述一次优化所有变量会导致优化结果陷入局部最小值，而每次独立优化单个latentcode有很好的效果。

综上实验的结果可以看出，本发明公开了一种基于3D GAN Inversion的多物体和多属性编辑方法，通过设计了神经反演编码器，用于从实例分割后的图像中粗略提取图像中每个物体的多个latent codes，并提出了循环优化算法和排序函数，用于进一步优化latent codes，使其更加精确，同时大大减少了优化时间，解决了同时优化多个latentcodes导致的局部极小问题，提高了重建图像的质量，缩短了重建所需的时间。通过对多物体图像中每个物体的多个latent codes的精准预测，实现了多物体图像高质量重建，解决了多物体的多属性编辑问题。

如图11所示，根据本发明实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器（ROM）1102中的程序或者从存储部分1108加载到随机访问存储器（RAM）1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备1100还可以包括输入/输出（I/O）接口1105，输入/输出（I/O）接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于3D GAN的多物体和多属性的图像重建和编辑方法，其特征在于，包括：

利用训练完成的多个神经反演编码器分别从所述物体分割图、所述背景分割图以及所述待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码；

根据预定义的自动循环优化算法和预定义的排序算法，利用具有不同参数的多个优化器分别对所述物体潜在编码、所述背景潜在编码以及所述相机潜在编码进行优化；

基于优化后的物体潜在编码、优化后的背景潜在编码以及优化后的相机潜在编码，利用图像重建模块对待编辑图像进行重建，得到重建图像，其中，所述训练完成的图像重建和编辑模型基于3D GAN进行构建；

利用图像编辑模块通过在潜在向量空间中对所述优化后的物体潜在编码、所述优化后的背景潜在编码以及所述优化后的相机潜在编码进行随机采样以完成对所述重建图像的编辑；

其中，所述神经反演编码器用于粗略提取图像中每个物体的多个潜在编码；

其中，所述神经反演编码器用于粗略提取图像中每个物体的多个潜在编码包括：

通过对原始图像进行大小变形，并通过多个卷积网络分别得到变形后的原始图像中每个物体不同属性所对应潜在编码的近似估计；

将所述每个物体不同属性所对应潜在编码进行保存以便用于生成器的还原；

其中，利用训练完成的多个神经反演编码器分别从所述物体分割图、所述背景分割图以及所述待编辑图像中提取表征物体属性的物体潜在编码、表征背景属性的背景潜在编码以及表征相机位姿信息的相机潜在编码包括：

基于不同的初始参数，分别构建物体神经反演编码器、背景神经反演编码器和相机神经反演编码器并进行训练，其中，所述神经反演编码器包括基于3D GAN Inversion架构的特征提取器、基于3D GAN GIREFFE渲染架构的卷积神经网络以及多个结构不同的多层感知机；

利用训练完成的物体神经反演编码器对所述物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到所述物体潜在编码；

利用训练完成的背景神经反演编码器对所述背景分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到所述背景潜在编码；

利用训练完成的相机神经反演编码器对所述待编辑图像进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到所述相机潜在编码；

其中，利用训练完成的物体神经反演编码器对所述物体分割图进行特征提取、图像逐层向下采样、同层图像特征跳跃连接以及特征多层次映射，得到所述物体潜在编码包括：

利用所述特征提取器对所述物体分割图进行多层次特征提取操作，得到多个不同层次的物体特征图；

利用所述卷积神经网络对所述物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量；

将处理于同一层次的所述物体特征图和所述采样向量进行跳跃连接，得到多个具有预设维度的连接向量；

利用多个结构不同的多层感知机对所述多个具有预设维度的连接向量进行映射处理，得到所述物体潜在编码。

2.根据权利要求1所述的方法，其特征在于，所述物体属性包括物体的颜色、物体的形状、物体的尺寸、物体在所述待编辑图像中的位置以及物体的旋转角度；所述背景属性包括背景的颜色、背景的光照强度和背景的类别；所述相机位姿信息包括相机拍摄时的三维空间坐标和相机参数。

3.根据权利要求1所述的方法，其特征在于，利用图像编辑模块通过在潜在向量空间中对所述优化后的物体潜在编码、所述优化后的背景潜在编码以及所述优化后的相机潜在编码进行随机采样以完成对所述重建图像的编辑包括：

利用所述图像编辑模块对所述优化后的物体潜在编码进行随机采样，将采样到的物体潜在编码替换所述重建图像中物体的目标属性，完成对所述重建图像中的物体编辑；

利用所述图像编辑模块对所述优化后的背景潜在编码进行随机采样，将采样到的背景潜在编码替换所述重建图像中背景的目标属性，完成对所述重建图像中的背景编辑；

利用所述图像编辑模块对所述优化后的相机潜在编码进行随机采样，将采样到的相机潜在编码替换所述重建图像中相机位姿信息，完成对所述重建图像中的相机位姿信息编辑。

4.一种神经反演编码器的训练方法，应用于权利要求1-3任一项所述的图像重建和编辑方法，其特征在于，包括：

利用物体神经反演编码器从所述物体分割图中提取物体潜在编码，利用背景神经反演编码器从所述背景分割图中提取背景潜在编码，并利用相机神经反演编码器从所述图像样本中提取相机潜在编码；

根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对所述物体潜在编码进行优化，利用背景优化器对所述背景潜在编码进行优化，并利用相机优化器对所述相机潜在编码进行优化；

利用图像重建模型处理优化后的物体潜在编码、优化的背景潜在编码以及优化后的相机潜在编码，得到重建图像，其中，所述图像重建模块基于3D GAN进行构建；

利用预定义的损失函数处理所述优化后的物体潜在编码、所述优化的背景潜在编码、所述优化后的相机潜在编码、所述图像样本以及所述重建图像，得到损失值；

根据预定义的优化目标函数，利用损失值对所述物体神经反演编码器、所述背景神经反演编码器以及所述相机神经反演编码器的参数进行优化；

5.根据权利要求4所述的方法，其特征在于，利用物体神经反演编码器从所述物体分割图中提取物体潜在编码包括：

利用所述物体神经反演编码器的特征提取网络对所述物体分割图进行多层次的特征提取，得到多个不同层次的图像特征，其中，所述特征提取网络基于GIREEFE中的神经渲染块结构进行构建；

利用所述物体神经反演编码器的卷积神经网络对所述物体分割图进行逐层向下采样操作，得到多个不同层次的采样向量；

利用所述物体神经反演编码器将处理于同一层次的所述物体特征图和所述采样向量进行跳跃连接，得到多个具有预设维度的连接向量；

利用所述物体神经反演编码器的多个结构不同的多层感知机对所述多个具有预设维度的连接向量进行映射处理，得到所述物体潜在编码。

6.根据权利要求4所述的方法，其特征在于，根据预定义的自动循环优化算法和预定义的排序算法，利用物体优化器对所述物体潜在编码进行优化包括：

向所述物体潜在编码中随机添加高斯噪声，得到带有扰动的物体潜在编码，并利用预定义的排序算法对所述带有扰动的物体潜在编码进行排序，得到排序后的物体潜在编码；

计算所述图像样本和所述重建图像之间的相似度，并基于所述相似度，利用预定义的损失对所述排序后的物体潜在编码进行自适应地多次迭代优化，得到优化后的物体潜在编码。

7.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。