CN114926553A

CN114926553A - 基于神经辐射场的三维场景一致性风格化方法及系统

Info

Publication number: CN114926553A
Application number: CN202210517934.7A
Authority: CN
Inventors: 高林; 黄熠华; 何月; 袁宇杰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-19

Abstract

本发明提出一种基于神经辐射场的三维场景一致性风格化方法和系统。通过引入2D风格化模型和3D神经辐射场互学习的策略，让神经辐射场获得了像素级的精准风格化监督，同时减少了2D风格化模型的不一致性对神经辐射场结果的损害。引入的条件概率建模的可学习变量在学习到2D风格化结果的不一致性，进一步降低了神经辐射场的模糊，与此同时让神经辐射场能够条件化的对三维场景进行风格化渲染。本发明能够基于一组风格图片，和同一场景不同视角的一组图片，建模出该场景的风格化神经辐射场。可给定场景的任意新视角和一张风格图片，渲染出该视角下符合风格图片的风格效果的场景图片，渲染结果在不同视角下满足一致性。

Description

基于神经辐射场的三维场景一致性风格化方法及系统

技术领域

本发明涉及计算机图形学的几何处理领域，尤其涉及对于三维场景的建模和外观编辑。

背景技术

建模和控制复杂真实的三维场景外观一直都是计算机视觉与图形学领域中非常基础且重要的前沿热点问题。其中的三维场景风格化在游戏、电影、虚拟现实、增强现实等领域有着巨大的应用前景。三维场景风格化的研究挑战之一在于对场景的外观进行控制的同时保持多视角的一致性。现有技术方法可将风格化扩展到三维场景上。该方法使用了特征点云来表示场景，通过深度网络进行特征转换以实现风格迁移。在渲染风格化图片时，首先将特征投影到图片平面上，再通过卷积神经网络回归得到风格化的颜色。现有技术方法还使用了NeRF(神经辐射场)对场景进行建模和风格化。使用一个变分自编码器编码2D图片的风格，将编码后的风格作为NeRF的输入，渲染得到风格化的图片。受限于GPU的内存，训练过程中无法采样整张图片或是大的图块。该方法使用了子集采样的方法，通过一个小的图块来近似一个大图块，并在其上计算风格化损失和内容损失。风格化损失和内容损失通过预训练的卷积神经网络分类器VGG提取图片特征后，计算风格化结果和风格图片、内容图片的逐通道均值方差的距离以及特征距离得到。

上述现有技术提出的方法需要显式的点云几何作为代理，但其点云的获得依赖于传统的运动恢复结构SfM技术，存在着几何上的误差。同时由于离散的点云难以进行位置信息的训练优化，导致了风格化结果存在着较多的几何破损和失准。上述另一现有技术通过神经辐射场对几何进行了学习和优化。但该方法所用到的神经辐射场有巨大的GPU内存开销，依赖于近似大图块的小图块进行风格化损失和内容损失的计算，造成了风格化结果中精细几何与纹理的缺乏。对于如何利用神经辐射场进行场景几何外观优化的同时，确保风格化损失和内容损失的精确计算，提升风格化结果的质量，成为了研究关注的重点。

发明内容

本发明的目的是克服三维场景风格化任务中对于神经辐射场的训练无法使用大图块计算风格化损失和内容损失进行训练的问题以及使用2D风格化方法辅助训练神经辐射场导致的模糊问题。具体来说本发明提出了一种基于神经辐射场的三维场景一致性风格化方法，其中包括

步骤1、获取风格图片和一组相同场景不同视角的内容图片；

步骤2、使用特征提取模型分别对该内容图片和该风格图片进行特征提取，得到该内容图片的内容特征和该风格图片的风格特征；内容特征通过线性变换，将其均值和方差与风格特征的均值和方差对齐，通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作，得到第一风格化内容图片；

步骤3、该第一风格化内容图片经过该特征提取模型提取出中间特征，根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离，作为风格化损失；根据该中间特征与该内容特征之间的L2距离，作为内容损失，通过优化该内容损失和该风格化损失训练卷积网络解码器，得到具备风格化能力的中间解码器；

步骤4、通过神经辐射场，渲染出该场景多个视角下的颜色图片和深度图片，经过该特征提取模型依次提取每张颜色图片的特征，并将其与风格特征的均值方差对齐后，使用该中间解码器恢复为风格化的第二风格化内容图片；根据每张第二风格化内容图片的深度以及视角，将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角，得到多张颜色投影图片及其对应的深度投影图片；根据深度投影图片，筛除颜色投影图片中深度差距过大的像素点，计算筛除后的颜色投影图片之间的颜色误差作为一致性损失，通过该一致性损失、该风格化损失和该内容损失，对该中间解码器进行训练，得到最终解码器；

步骤5、将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器，得到风格化图片结果。

所述的基于神经辐射场的三维场景一致性风格化方法，其中该神经辐射场具有风格化颜色预测模块，且该神经辐射场的训练方法包括：

该风格化颜色预测模块接收空间坐标x和表示风格的隐向量，输出该空间位置在该风格下的辐射颜色，在训练的过程中，为每个训练样本分配隐变量l_ij，每个训练样本由内容图片C_i和风格图片S_j组成{C_i,S_j}；

卷积神经网络分类器VGG将内容图片C_i风格化后得到风格化图片

该风格化颜色预测模块预测出光线R_h上各个采样点的颜色c_hk，通过该神经辐射场的几何预测模块得到各采样点的不透明度σ_jk，沿光线方向组合得到该光线R_h的颜色

其中T_k表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数，并基于该颜色

得到风格化图片

对

计算其损失L_mimic以约束2D和3D辐射场的风格化结果，L_mimic为风格化图片

和风格化图片

间的L2距离；该神经辐射场训练阶段的损失函数为：L_mimic+λ_dL_d；该卷积神经网络分类器VGG训练阶段的损失函数为：λ_mL_mimic+λ_sL_s+λ_cL_c；其中L_s，L_c是该风格化损失和该内容损失，λ_d、λ_m、λ_s和λ_c均为预设权重。

所述的基于神经辐射场的三维场景一致性风格化方法，其中为每个训练样本分配隐变量l_ij具体包括：

将S_j的特征编码映射到隐分布

上，对于隐向量l_ij，在训练过程中计算其负对数似然损失

以约束隐向量l_ij符合分布

本发明还提出了一种基于神经辐射场的三维场景一致性风格化系统，其中包括：

初始模块，用于获取风格图片和一组相同场景不同视角的内容图片；

线性变换模块，用于使用特征提取模型分别对该内容图片和该风格图片进行特征提取，得到该内容图片的内容特征和该风格图片的风格特征；内容特征通过线性变换，将其均值和方差与风格特征的均值和方差对齐，通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作，得到第一风格化内容图片；

损失计算模块，用于该第一风格化内容图片经过该特征提取模型提取出中间特征，根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离，作为风格化损失；根据该中间特征与该内容特征之间的L2距离，作为内容损失，通过优化该内容损失和该风格化损失训练卷积网络解码器，得到具备风格化能力的中间解码器；

训练模块，用于通过神经辐射场，渲染出该场景多个视角下的颜色图片和深度图片，经过该特征提取模型依次提取每张颜色图片的特征，并将其与风格特征的均值方差对齐后，使用该中间解码器恢复为风格化的第二风格化内容图片；根据每张第二风格化内容图片的深度以及视角，将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角，得到多张颜色投影图片及其对应的深度投影图片；根据深度投影图片，筛除颜色投影图片中深度差距过大的像素点，计算筛除后的颜色投影图片之间的颜色误差作为一致性损失，通过该一致性损失、该风格化损失和该内容损失，对该中间解码器进行训练，得到最终解码器；

风格化模块，用于将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器，得到风格化图片结果。

所述的基于神经辐射场的三维场景一致性风格化系统，其中该神经辐射场具有风格化颜色预测模块，且该神经辐射场的训练方法包括：

该风格化颜色预测模块接收空间坐标x和表示风格的隐向量，输出该空间位置在该风格下的辐射颜色，在训练的过程中，为每个训练样本分配隐变量l_ij，每个训练样本由内容图片C_i和风格图片S_j组成{C_i，S_j}；

得到风格化图片

对

和风格化图片

所述的基于神经辐射场的三维场景一致性风格化系统，其中为每个训练样本分配隐变量l_ij具体包括：

将S_j的特征编码映射到隐分布

上，对于隐向量l_ij，在训练过程中计算其负对数似然损失

以约束隐向量l_ij符合分布

本发明还提出了一种服务器，用于实施所述任意一种基于神经辐射场的三维场景一致性风格化方法。

本发明还提出了一种存储介质，用于存储执行所述基于神经辐射场的三维场景一致性风格化的程序。

本发明还提出了一种客户端，用于所述任意一种基于神经辐射场的三维场景一致性风格化系统。该客户端为手机应用APP或电脑应用软件。

由以上方案可知，本发明的优点在于：

本发明通过引入2D风格化模型和3D神经辐射场互学习的策略，让神经辐射场获得了像素级的精准风格化监督，同时减少了2D风格化模型的不一致性对神经辐射场结果的损害。引入的条件概率建模的可学习变量在学习到2D风格化结果的不一致性，进一步降低了神经辐射场的模糊，与此同时让神经辐射场能够条件化的对三维场景进行风格化渲染。本项发明能够基于一组风格图片，和同一场景不同视角的一组图片，建模出该场景的风格化神经辐射场。可给定场景的任意新视角和一张风格图片，渲染出该视角下符合风格图片的风格效果的场景图片，渲染结果在不同视角下满足一致性，不会出现同一位置的渲染颜色有较大差异的问题。

附图说明

图1为本发明方法的框架图；

图2为本发明方法在视频风格化的比对结果图；

图3为本发明方法和LSNV的比对结果图；

图4为本发明方法和SIRP的比对结果图。

具体实施方式

鉴于已有方法存在各种局限性，本发明从三维场景的精准建模和训练策略的角度对三维场景风格化算法进行改进。本发明的一个重点是使用神经辐射场来对三维场景进行风格化表达，同时使用了2D卷积网络与3D神经辐射场互学习的方法进行模型的训练。神经辐射场能够精准的重建场景的几何与外观，近年来受到了广泛关注。但神经辐射场的风格化训练存在着巨大的技术挑战。一方面，神经辐射场的计算需要巨大的显存开销，在消费级的单张英伟达显卡RTX 2080Ti上，至多只能容纳2048根光线的颜色计算。而2D图片上广泛采用的风格化损失和内容损失需要较大的图块(512*512根光线)才能进行准确的计算。如果使用小图块近似大图快的策略则会导致精度和效果的损失。本发明采用了2D-3D互学习策略，引入了2D卷积网络进行大图块上的风格化损失和内容损失计算，并通过一个对齐误差将损失梯度传播到神经辐射场上。另一方面，神经辐射场对于训练数据中的不一致性非常敏感，而2D卷积网络的风格化结果由于缺乏空间感知，存在着严重的不一致性，容易造成神经辐射场的渲染结果中出现严重的模糊。本发明针对这一挑战引入了条件概率建模的可学习隐变量，来对不一致性进行表示，同时使用了互学习机制来让神经辐射场规范2D卷积网络的一致性，从而避免了结果的模糊，同时支持了条件风格化功能。具体来说本申请包括如下核心技术点：

关键点1，基于神经辐射场建模风格化的三维场景。通过学习的方法优化辐射场的几何和风格化外观。技术效果；基于神经辐射场的建模，计算出场景在不同风格、不同视角下的高质量风格化图片，并保持了场景的一致性；

关键点2，；引入了2D卷积神经网络的风格化模型与3D神经辐射场之间的互学习策略，将风格化知识从2D模型传播给3D辐射场，将空间一致性先验从3D辐射场蒸馏到2D风格化模型；技术效果为能够在单张消费级的英伟达显卡(如RTX 2080Ti)上进行大图块的风格化损失和内容损失计算，损失函数包含的风格化知识传播给3D辐射场指导其进行空间一致性的风格化，训练得到具备风格化效果的神经辐射场；

关键点3，针对2D风格化模型的风格化知识的不一致会造成3D神经辐射场的输出模糊的问题，引入了条件概率建模的可学习隐向量作为风格化神经辐射场的输入；技术效果通过变分自编码器建模的可学习隐变量能够在保证3D神经辐射场具备风格化效果的同时，学习到不同视角2D风格化方法的不一致性，从而避免了不一致性被辐射场参数捕捉而造成模糊。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明的任务是，给定一组风格化图片以及一组同一场景不同视角的图片，得到任意新视角下，满足任一风格化图片的风格效果的场景图。为了达到这个目标，本发明引入了互学习策略来优化风格化神经辐射场和2D卷积风格化模型。为了避免2D卷积模型的不一致性造成神经辐射场渲染结果的模糊，使用了两个针对性的策略，一个是利用神经辐射场的3D一致性来训练2D卷积风格化模型，降低其不一致性程度，另一个是引入了可学习的条件概率建模的隐变量来捕捉不一致性，同时让神经辐射场能够条件化的进行风格化渲染。

本发明利用2D卷积神经网络作为解码器，搭配神经辐射场NeRF进行互学习。2D风格化模型采用预训练的卷积神经网络分类器(VGG网络)来提取内容图片和风格图片的特征。内容图片的特征通过线性变换，将其均值和方差与风格图片特征的均值和方差对齐。经过特征对齐后的内容图片特征输入到一个卷积网络解码器中，经过反卷积等操作恢复出风格化之后的内容图片。风格化内容图片再经过VGG网络提取出特征，计算其特征的均值与方差与风格图片特征的均值与方差之间的L2距离，作为风格化损失。风格化内容图片经过VGG提取的特征与内容图片提取得到的深层次特征之间的L2距离作为内容损失。通过优化这两个损失，训练得到一个具备风格化能力的解码器。为了让该解码器能够保持较好的一致性以参与后续的互学习过程，本发明首先对该解码器进行一致性的预训练。通过一个训练好的神经辐射场，渲染出场景多个视角下的颜色图片和深度图片。将拍摄视角相近的颜色图片经过VGG提取特征，对齐风格特征的均值方差之后，使用解码器恢复风格化的内容图片。由于已知这些图片的深度以及视角，因此将这些图片的像素点重新投影到同一视角下，得到重投影的颜色图片和深度图片。通过筛除重新投影后深度差距过大的像素点来筛除遮挡等特殊情况，计算筛除后的颜色图片之间的颜色误差并得到一致性损失。一致性预训练阶段，通过一致性损失、风格化损失以及内容损失三种损失搭配，对2D卷积解码器进行训练。

本发明为神经辐射场添加了一个额外的风格化颜色预测模块，该模块接收空间坐标x和表示风格的隐向量l作为输入，输出该空间位置在该风格下的辐射颜色c。考虑到2D风格化方法得到的风格化图片并不一致，容易导致神经辐射场的结果出现模糊。因此，在训练的过程中，本发明为每一张训练样本引入了一个可学习的隐变量。每个训练样本由一张内容图片C_i和一个风格图片S_j组成{C_i，S_j}，2D风格化模型将内容图片风格化后得到风格化图片

对应该训练样本，对于每个赋予其一个可训练的隐向量l_ij。神经辐射场的风格化颜色预测模块预测出光线R_h上各个采样点的颜色c_hk后，用原神经辐射场的几何预测模块预测采样点的不透明度σ_jk，沿光线方向组合得到了该光线的颜色

其中

表示第k个采样点之前的采样点由于自身不透明性质得到的遮挡系数，c_s表示风格化神经辐射场的颜色预测函数，r_hk表示光线h上的第k个采样点的坐标，σ_k表示第k个采样点的不透明度，δ_k表示第k个采样点和同一根光线上的下一个采样点之间的距离。训练样本来源于2D风格化模型，由于每个样本都有独自的可学习隐向量l_ij，因此样本之间的不一致性不会被共用的神经辐射场系数学习到，而更容易表达在隐向量l_ij上，从而在一定程度上避免了神经辐射场输出模糊的结果。为了让神经辐射场能够条件化的进行风格化渲染，本发明中对可学习的隐向量l_ih进行了条件概率建模。为了建模隐向量l_ij和条件变量S_j之间的关系，本发明中引入了一个变分自编码器，将条件变量S_j映射到高斯分布

上。对于隐向量l_ij，在训练过程中计算其负对数似然损失

用以约束其符合分布

经过L_d约束，同样风格的隐变量能够聚成一类，确保了在测试阶段使用μ_j作为条件输入控制神经辐射场风格化渲染时能够在不同视角下都达到接近l_ij控制的渲染结果。

互学习阶段，对于2D卷积风格化方法得到的风格化图片

计算其风格化损失L_s和内容损失L_c，同时添加一项额外的损失L_mimic来约束2D方法和3D辐射场的风格化结果接近。L_mimic＝||SC^3D-SC^2D||²定义为2D方法的输出和3D方法输出之间的L2距离。这项损失能够让2D方法学习到3D辐射场的一致性。对于3D辐射场得到的风格化结果

同样使用L_mimic约束其与

距离接近。对于3D辐射场的风格化模块和可学习隐向量，互学习阶段的损失函数为：L_mimic+λ_dL_d。对于2D卷积风格化方法，其互学习阶段的损失函数为：λ_mL_mimic+λ_sL_s+λ_cL_c。其中L_s，L_c是风格化和内容损失，定义为VGG提取的特征方差，均值的L2距离以及深层次特征距离L_s＝∑_l||var(VGG(SC^2D)_l)-var(VGG(S)_l)||²，L_c＝||VGG(SC^2D)_l′-VGG(C)_l′||²，l′表示VGG隐空间的深层，λ_d，λ_s，λ_c是损失项的权重系数。

整个方法的框架如图1所示。流程可总结为

1、训练出一个表示原场景的神经辐射场NeRF。

2、基于NeRF渲染出一系列新视角图片，并搭配风格化图片预训练2D卷积解码器，训练的损失函数使用风格化损失、内容损失以及一致性损失。

3、对于风格图片，将其风格特征使用预训练的VGG网络提取出来。再训练一个变分自编码器VAE将这些特征编码到隐分布上

4、初始化风格化颜色预测模块，为每个风格化训练样本{C_i，S_j}赋予一个可学习的隐向量l_ij，隐向量的初始化通过在相应的隐分布上采样得到。

5、在训练样本{C_i，S_j}上进行采样，将可学习的隐变量l_ij作为神经辐射场的输入，控制神经辐射场渲染出颜色

2D风格化结果得到

使用L_mimic，L_d，L_s，L_c对2D解码器和风格化神经辐射场进行优化。

在训练完成后，可以使用训练好的风格化神经辐射场进行风格化渲染。将制定的风格图片的VAE编码得到的分布均值作为控制向量输入到风格化神经辐射场中。对指定角度的光线上进行采样，计算不透明度和风格化辐射光颜色，再组合得到光线最终的颜色。以此方式渲染出各张图片。

风格化神经辐射场的训练和测试是在真实的三维场景数据集上进行的，其中包括360度无界场景数据集Tanks Templates，前向视角场景数据集LLFF。Tanks Templates中测试了六个场景，包括：M60，Train，Truck，Playground，Friency，Family。LLFF中测试了七个场景。

这里与四种相关工作进行对比，其中包括两种视频风格化方法MCCNet和ReReVST，两种三维场景风格化方法LSNV和SIRP。和视频风格化方法的比对结果如附图2所示(其中由于本申请风格化效果展示需要依托彩色图片，才能清楚的体现图片风格及风格化效果，故采用彩色图片)，视频风格化方法对于长时段的一致性保持较差，会出现闪烁的情况，本发明基于物理渲染的方法可以从根本上杜绝了不一致的发生。和LSNV的比对结果如图3所示，由于LSNV采用点云的表示方法，几何上会出现缺漏和失准的情况，而本发明采用的神经辐射场对场景的几何有着精准的建模。和SIRP的比对结果如图4所示，SIRP使用近似采样的方法，导致了结果缺失了细节内容。本发明采用了互学习的学习方法，在2D风格化结果上使用更大的图块计算风格化损失和内容损失并传导到神经辐射场上，因此可以得到更精细的风格化结果。

通过上述风格化实验的结果可以看出，本发明提出的风格化神经辐射场几何的方法，能够支持用户对场景的高效风格化建模，同时保证理想的一致性风格化结果，相比已有方法具有更高的实用价值和更优异的性能。以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

得到风格化图片

对

和风格化图片

将S_j的特征编码映射到隐分布

上，对于隐向量l_ij，在训练过程中计算其负对数似然损失

以约束隐向量l_ij符合分布