CN117392314A

CN117392314A - 一种基于神经辐射场优化的gan的三维图像生成方法

Info

Publication number: CN117392314A
Application number: CN202311320895.2A
Authority: CN
Inventors: 郝泳涛; 何汝欣; 吴子睿
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-12

Abstract

本发明涉及一种基于神经辐射场优化的GAN的三维图像生成方法，包括：获取合成数据集；将所述合成数据集输入至三维图像自动化生成模型中，得到三维图像；其中，所述三维图像自动化生成模型包括：生成器网络，所述生成器网络以相机矩阵K、相机姿态ξ、二维采样模式v、形状编码z_s以及外观编码z_a作为输入，结合锥形采样方法预测一个图像中的离散像素点区域P′；判别器网络，所述判别器网络将所述生成器网络预测的离散像素点区域P′与从真实图像I中提取的像素点区域P进行比较。本发明提高了模型表示精细细节的能力，并减少了模型的计算量。

Description

一种基于神经辐射场优化的GAN的三维图像生成方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于神经辐射场优化的GAN的三维图像生成方法。

背景技术

近年来，随着人工智能的发展和深度学习技术的广泛应用，基于深度学习的图像生成技术取得了巨大的进展，能够很好地完成包括人脸生成、风格迁移等二维领域的图像生成任务。但在现实生活中，人们对真实物体的认知往往是三维的。随着技术的快速革新与计算机算力的不断提升，三维模型因为可以包含更多信息、展示更多细节、提供更多观赏角度，能带给使用者更加真实、直观的体验而逐渐获得应用与普及。由于传统的图像生成技术无法提供三维形状的内部细节和实现针对物体的多角度观察，许多研究者也将研究目标向三维领域转移。目前，三维图像自动生成已经成为计算机视觉、计算机图形学和机器学习领域的一个重要研究方向，在虚拟现实、增强现实、电影特效、游戏开发以及医学图像处理等领域具有广泛的应用前景。

在三维图像生成中，深度学习方法可以通过不同的方式应用。一种常见的方法是利用生成对抗网络(GANs)进行三维形状的生成。通过训练生成器网络和判别器网络的对抗学习，生成器可以逐渐学习到生成逼真的三维形状。此外，研究人员还提出了许多改进的GANs架构，如条件GANs和变分自编码器(VAE)，用于更精细和可控的三维形状生成。另一种深度学习方法是基于神经渲染的三维图像生成。神经渲染器可以将三维场景渲染为二维图像，并通过优化网络参数来使渲染结果与观察到的图像尽可能接近。这种方法能够生成逼真的图像，并且可以通过调整网络参数来实现对场景的控制，如改变视角、材质和光照等。此外，还有一些研究探索了如何结合传统的三维几何重建技术和生成对抗网络，以提高三维合成的质量和效率。例如，利用生成对抗网络生成的纹理信息和传统的几何重建方法生成的模型进行融合，可以得到更精确和逼真的三维合成结果。尽管上述三种模型在许多图像生成任务上表现出色，但由于三维数据的维度较高，传统的生成对抗网络以及神经渲染器在处理三维数据时往往需要更多的计算资源和更长的训练时间，并且这些模型缺乏合成高保真度图像所需的表达能力。

发明内容

本发明提供一种基于神经辐射场优化的GAN的三维图像生成方法，能够克服上述现有技术存在对于合成高保真度三维模型生成耗时过长，以及缺乏合成所需的表达能力问题。

本发明解决其技术问题所采用的技术方案是：提供一种基于神经辐射场优化的GAN的三维图像生成方法，包括以下步骤：

获取合成数据集；

将所述合成数据集输入至三维图像自动化生成模型中，得到三维图像；其中，所述三维图像自动化生成模型包括：

生成器网络，所述生成器网络以相机矩阵K、相机姿态ξ、二维采样模式v、形状编码z_s以及外观编码z_a作为输入，结合锥形采样方法预测一个图像中的离散像素点区域P′；

判别器网络，所述判别器网络将所述生成器网络预测的离散像素点区域P′与从真实图像I中提取的像素点区域P进行比较。

所述生成器网络包括：

锥形采样模块，用于根据相机矩阵K、相机姿态ξ、二维采样模式v进行锥形采样，得到锥形采样点的位置编码X；

形状编码模块，用于根据所述位置编码X和形状编码z_s计算新形状编码h；

拼接模块，用于拼接所述新形状编码h、视角编码d和外观编码z_a，得到拼接编码；

颜色编码模块，用于根据所述拼接编码生成颜色编码c；

密度编码模块，用于根据新形状编码h生成密度编码σ；

体素渲染模块，用于根据颜色编码c和密度编码σ对像素进行渲染形成离散像素点区域P′的体素信息。

所述锥形采样模块在锥形采样时从相机的投影中心沿穿过像素中心的方向投射一个锥体，其中，锥体的顶点位于o，锥在像面上的半径为o+D，位于[t₀,t₁]之间的锥形截锥内位置的集合F表示为：其中，1{·}为指标函数，t₀和t₁分别表示锥形传播光线上的两个采样点，其中t₀为近采样点，t₁为远采样点；/>表示世界坐标中像素的宽度，上标T表示矩阵转置，x表示位于[t₀,t₁]之间的锥形截锥内的位置，即锥形采样点的位置。

所述锥形采样模块采用引入了积分的位置编码对锥形采样点的位置进行位置编码，其中引入积分的位置编码表示为：其中，x表示锥形采样点的位置，μ表示x服从的高斯分布的均值，σ²表示x服从的高斯分布的方差。

所述体素渲染模块对每个像素进行渲染时遵循如下公式：其中，C(r；Θ,t)为渲染后的体素信息，r表示从相机发出的一条射线，Θ表示使用的多层感知机的参数，t表示射出光线采样点相对相机的距离，k和k′表示采样点，T_k表示沿着射线从k′到k的累计透过率，即射线从k′传播到k而没有击中任何其他粒子的概率，τ_k表示体素密度值，t_k锥形传播光线上的采样点，c_k表示像素颜色。

所述体素渲染模块使用一个带有参数Θ的单一多层感知机，所述单一多层感知机的优化问题表示为其中，λ为权重，是一个超参数，C^*(r)表示实际像素值，t^c和t^f表示锥形传播光线上的两个采样点相对相机的距离。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过引入锥形采样渲染并结合对抗生成网络来对三维图像中的每个像素进行生成与渲染，将引入的锥形采样渲染替代光线后，采样的不再是离散的点集，而是一个连续的圆台区域，这能够解决现有技术中忽略了光线观察范围体积与大小的问题，从而减少了锯齿伪影，并显著提高了模型表示精细细节的能力，且进一步地减少了模型的计算量，为后续媒体、娱乐行业中复杂的三维场景生成任务提供了一个自动化生成模型。

附图说明

图1是本发明实施方式中三维图像自动化生成模型的构造流程图；

图2是本发明实施方式中三维图像自动化生成模型的网络结构图；

图3是本发明实施方式中生成器网络的结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于神经辐射场优化的GAN的三维图像生成方法，该方法包括以下步骤：获取合成数据集；将所述合成数据集输入至三维图像自动化生成模型中，得到三维图像，其中，所述三维图像自动化生成模型包括：生成器网络，所述生成器网络以相机矩阵K、相机姿态ξ、二维采样模式v、形状编码z_s以及外观编码z_a作为输入，结合锥形采样方法预测一个图像中的离散像素点区域P′；判别器网络，所述判别器网络将所述生成器网络预测的离散像素点区域P′与从真实图像I中提取的像素点区域P进行比较。

其中，三维图像自动化生成模型的构造包括训练阶段和测试阶段，如图1所示，训练阶段包括以下步骤：

1、获取训练数据，本实施方式中的训练数据使用的是CARLA合成数据集，CARLA数据集由Schwarz等人在自动驾驶模拟器Carla中采集得到，其中包含10k张图像，包括18种不同的汽车型号，这些图像具有随机采样的颜色和逼真的纹理和反射率属性；

2、对所述的训练数据进行预处理，包括训练数据的读取以及一些裁剪、平移的数据增强操作；

3、获取预先建立的三维图片自动化生成网络模型，将所述训练数据载入该网络模型中进行训练，首先使用生成器网络来生成一张三维图片，再将生成器网络生成的三维图片输入给判别器网络，使用判别器网络给生成器网络进行反馈；

4、按照如上流程进行多个轮次训练，不断提高模型生成三维图片的质量。

所述测试阶段包含以下步骤：

1、获取测试数据，所述测试数据为CARLA合成数据集以及真实人脸数据集celebA及celebA-hq。

2、将所述测试数据载入训练好的三维图像自动化生成模型中，获取生成结果，将生成结果与真实数据进行比较，当满足要求时，表示三维图像自动化生成模型已训练完毕；当未满足要求时，则重新进行训练阶段进行训练，直至满足要求为止。

如图2所示，本实施方式的三维图像自动化生成模型包括生成器网络和判别器网络。生成器网络以相机矩阵K、相机姿态ξ、二维采样模式v、形状编码z_s以及外观编码z_a作为输入，结合锥形采样方法预测一个图像中的离散像素点区域P′。判别器网络将所述生成器网络预测的离散像素点区域P′与从真实图像I中提取的像素点区域P进行比较。

本实施方式中的生成器网络包括：锥形采样模块，用于根据相机矩阵K、相机姿态ξ、二维采样模式v进行锥形采样，得到锥形采样点的位置编码X；形状编码模块，用于根据所述位置编码X和形状编码z_s计算新形状编码h；拼接模块，用于拼接所述新形状编码h、视角编码d和外观编码z_a，得到拼接编码；颜色编码模块，用于根据所述拼接编码生成颜色编码c；密度编码模块，用于根据新形状编码h生成密度编码σ；体素渲染模块，用于根据颜色编码c和密度编码σ对像素进行渲染形成离散像素点区域P′的体素信息。

如图3所示，首先，通过锥形采样模块得到锥形采样点的位置编码X，接着利用形状头部h_θ根据锥形采样点的位置编码X和输入的形状编码z_s计算出一个新形状编码h，然后为了预测位置x处的颜色，将新形状编码h、视角编码d和外观编码z_a进行拼接，并将拼接后的拼接编码传递给一个颜色头部c_θ得到颜色编码c，再通过一个密度头部σ_θ将新形状编码h转换为密度编码σ，由于密度编码σ是由锥形采样点的位置编码X和输入的形状编码z_s独立计算得到的，没有考虑视角编码d和外观编码z_a，这样有助于模型在不同视角下生成具有一致的外观图像，从而增强多视角观察的一致性。本实施方式的生成器网络分别使用形状编码z_s和外观编码z_a来建模形状和外观，并在推导过程中对它们进行分别操作，整个操作过程满足以下映射：

其中，L_x、L_d、M_s、M_a分别是位置编码、视角编码、形状编码和外观编码的维度。

本实施方式中的锥形采样模块引入了锥形采样方法。在渲染和特征化过程中，铸造一个锥体，并沿着这个锥体特征化圆锥体。模型中的图像一次渲染一个像素，因此可以根据渲染感兴趣的单个像素来描述该过程。对于该像素，从相机的投影中心o沿穿过该像素中心的方向D投射一个锥体。该锥体的顶点位于o，锥在像面上的半径为o+D，参数化为将/>设为世界坐标中像素的宽度，按/>缩放，从而得到一个锥体，其在图像平面上的截面在x和y上的方差与像素足迹的方差相匹配。位于两个t值[t₀,t₁]之间的锥形截锥内位置的集合F表示为：

其中，1{·}为指标函数，t₀和t₁分别表示锥形传播光线上的两个采样点，表示世界坐标中像素的宽度，上标T表示矩阵转置。

进一步地，本实施方式中的锥形采样模块还引入了积分的位置编码IPE。该位置编码可以在图像分辨率较低的情况下过滤掉高频信号，从而实现抗锯齿的效果。现有的位置编码公式为：

γ(p)＝(sin(2⁰πp),cos(2⁰πp),…,sin(2^L-1πp),cos(2^L-1πp))

将位置编码公式重写为傅里叶特征：

如此得到了IPE(积分位置编码)的封闭形式。由于对一个变量进行线性变换后，其协方差矩阵也会进行相应的线性变换，这样就可以在将拟合圆台区域分布的高斯函数投射到高频空间后，计算出位置编码函数P的均值和协方差：

μ_γ＝Pμ,Σ_γ＝PΣP^T

然后就可以由这个多元高斯函数的期望推知最终的积分的位置编码，这两个期望可以用简单的封闭形式表达式表示：

其中，x表示锥形采样点的位置，μ表示x服从的高斯分布的均值，σ²表示x服从的高斯分布的方差。

本实施方式中的体素渲染模块对每个像素进行渲染时遵循时遵循如下公式：

其中，C(r；Θ,t)为渲染后的体素信息，r表示从相机发出的一条射线，Θ表示使用的多层感知机的参数，t表示射出光线采样点相对相机的距离，k和k′表示采样点，T_k表示沿着射线从k′到k的累计透过率，即射线从k′传播到k而没有击中任何其他粒子的概率，τ_k表示体素密度值，t_k锥形传播光线上的采样点，c_k表示像素颜色。

锥形采样渲染和IPE(积分位置编码)特征允许显式地将尺度编码到输入特性中，从而使多层感知机能够学习场景的多尺度表示。因此，可以使用一个带有参数Θ的单一多层感知机，在分层采样策略中重复查询它。这样做的好处包括使模型的大小被分成两半，渲染更准确，采样效率更高，整个算法也变得更简单。该方案的优化问题是：

其中，λ为权重，是一个超参数，C^*(r)实际像素值，t^c和t^f表示锥形传播光线上的两个采样点相对相机的距离。

本实施方式的三维图像自动化生成模型在推理时，为一个大小为K×K的图像块预测一个颜色值，并通过对其进行随机缩放与旋转来提供整个亮度场的梯度。

在生成器网络中，使用上述提到的锥形采样方法，对每个图像块进行采样，再将其经过集成位置编码后输入生成器网络生成(c,0)，进而积分得到像素的颜色C。本实施方式的生成器网络的结构如表1所示。

表1生成器网络的具体结构

整体网络均使用全连接层，h_θ、c_θ、σ_θ都是使用ReLU激活的全连接网络实现的。

在判别器网络中，判别器网络被实现为一个卷积神经网络，它将预测的图像块P0与从数据分布pD中提取的真实图像I中提取的图像块P进行比较。为了从实数图像I中提取K×K的图像块，首先从用于绘制上面的生成器网络的patch的相同分布pν中绘制v＝(u,s)。然后，通过在二维图像坐标P(u,s)处查询I，使用双线性插值对真实patchP进行采样。使用Γ(I，ν)来表示这种双线性采样操作。

不难发现，本发明通过引入锥形采样渲染并结合对抗生成网络来对三维图像中的每个像素进行生成与渲染，将引入的锥形采样渲染替代光线后，采样的不再是离散的点集，而是一个连续的圆台区域，这能够解决现有技术中忽略了光线观察范围体积与大小的问题，从而减少了锯齿伪影，并显著提高了模型表示精细细节的能力，且进一步地减少了模型的计算量，为后续媒体、娱乐行业中复杂的三维场景生成任务提供了一个自动化生成模型。

Claims

1.一种基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，包括以下步骤：

获取合成数据集；

2.根据权利要求1所述的基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，

所述生成器网络包括：

颜色编码模块，用于根据所述拼接编码生成颜色编码c；

密度编码模块，用于根据新形状编码h生成密度编码σ；

3.根据权利要求2所述的基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，所述锥形采样模块在锥形采样时从相机的投影中心沿穿过像素中心的方向投射一个锥体，其中，锥体的顶点位于o，锥在像面上的半径为o+D，位于[t₀,t₁]之间的锥形截锥内位置的集合F表示为：

其中，1{·}为指标函数，t₀和t₁分别表示锥形传播光线上的两个采样点，其中t₀为近采样点，t₁为远采样点；表示世界坐标中像素的宽度，上标T表示矩阵转置，x表示位于[t₀,t₁]之间的锥形截锥内的位置，即锥形采样点的位置。

4.根据权利要求2所述的基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，所述锥形采样模块采用引入了积分的位置编码对锥形采样点的位置进行位置编码，其中引入积分的位置编码表示为：其中，x表示锥形采样点的位置，μ表示x服从的高斯分布的均值，σ²表示x服从的高斯分布的方差。

5.根据权利要求2所述的基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，所述体素渲染模块对每个像素进行渲染时遵循如下公式：

6.根据权利要求5所述的基于神经辐射场优化的GAN的三维图像生成方法，其特征在于，所述体素渲染模块使用一个带有参数Θ的单一多层感知机，所述单一多层感知机的优化问题表示为其中，λ为权重，是一个超参数，C^*(r)表示实际像素值，t^c和t^f表示锥形传播光线上的两个采样点相对相机的距离。