CN115512036A

CN115512036A - 一种基于本征神经辐射场的可编辑新颖视图合成方法

Info

Publication number: CN115512036A
Application number: CN202211190853.7A
Authority: CN
Inventors: 章国锋; 鲍虎军; 陈硕; 叶伟才
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-23

Abstract

本发明提供了一种基于本征神经辐射场的可编辑新颖视图合成方法。本发明采用本征神经辐射场的表示方法IntrinsicNeRF，第一次将本征图像分解技术引入神经渲染方法NeRF中,可以处理规模不受限制的场景。为了应对本征分解这一欠约束的逆向问题的挑战,本发明采用距离感知点采样方法和迭代聚类优化方法，引入传统本征分解先验对IntrinsicNeRF进行无监督训练,从而获得时空一致的本征分解结果。为了防止较大场景中不同物体相似的反射率被错误的聚类到一起，本发明采用基于语义信息的层次聚类方法。本发明能够对视频场景进行实时颜色编辑、材质编辑和光照变化。Blender Objects和Replica Scene实验表明，IntrinsicNeRF可以获得一致的本征分解结果和高保真的新颖视图合成。

Description

一种基于本征神经辐射场的可编辑新颖视图合成方法

技术领域

本发明涉及本征图像分解领域、神经渲染领域，具体涉及一种基于本征神经辐射场(Intrinsic Neural Radiance Fields,IntrinsicNeRF)的可编辑新颖视图合成方法。

背景技术

本征图像分解是将一个图像分解为反射率(R，Reflectance)和光照(S，Shading)两个图层的问题，其中R表示物体本身的材质颜色，S表示由光照分布不同、物体几何变化等原因造成的图像明暗变化。利用本征图像分解结果，可以实现逼真的纹理、光照编辑效果，有广阔的应用前景，因此得到了广泛的研究。但是这个问题是非常困难的，对于单个像素的颜色值理论上存在无数多种R和S的解。为此，本征分解的研究者们对这个问题提出了大量的假设和先验约束，使得本征分解能够得到一个合理的解。传统的本征分解方法中，主要是将这个问题转换为一个包含大量先验假设约束的优化问题。这限制了这些方法的适用场景，而且人工选定合适的参数也非常困难。随着深度学习技术的发展，以及大量本征图像分解数据集的提出，基于深度学习的方法可以通过网络训练得到大量本征分解数据之间的关联，从而去掉或者是减少需要人工设定的先验假设，同时达到更好的效果。

本征图像分解技术还从图像扩展到视频，它不是简单的当做分别对每一帧进行本征分解，还应该保证不同帧之间分解的一致性。大致可以分为两种类型。一种是先进行图像的本征分解，利用光流等运动信息建立帧与帧之间的关联，通过一些后处理对每一帧分解结果进行调整，从而保持不同帧之间的一致性。另一类方法是通过构建一致性的约束，将相关的损失函数加入到优化过程中。

神经渲染技术NeRF是近两年的一大研究热点。Nerf网络的输入由三维的空间位置(x,y,z)和二维的视线方向(θ,φ)组成，通过多层感知机(MLP)输出在该位置和视线方向下该点的颜色RGB值以及该点的体密度。训练时，以一组已知相机位姿的场景图片作为输入，通过在图像上随机采样像素点生成对应光线，然后对每条光线上的点进行积分，用体渲染的方式得到该像素点的颜色。目前也提出了很多将NeRF与逆渲染结合起来的工作，期望通过NeRF这套可微的体渲染管线，从多帧图像中同时恢复出物体表面几何、材质以及环境光照，进而实现对物体的材质编辑、relighting等效果。虽然这类工作展示出了一些非常逼真的编辑效果，但他们存在一些共同的问题。这类方法依赖于较为精准的几何恢复，如果基于表面的NeRF方法无法正确建模，那么就不能进行正确的光照材质恢复。同时由于这类方法会对渲染流程、光照表示进行简化，存在应用场景的限制，目前这类逆渲染NeRF方法只能用于物体级别的数据。

现有方法存在的问题包括：

1、对应用场景的限制

逆渲染与神经渲染结合的方法希望从图像中恢复出场景的光照、几何、材质等基本参数，实现对场景的数字化。但是这个问题是非常困难的，因为从场景的光照、几何、材质，在生成图像的过程中损失了大量信息，是一个高度不适定问题。因此逆渲染方法通常需要对场景几何、光照、以及渲染管线进行一系列的先验假设，同时还需要较为准确的三维模型，所以这类方法通常被限制在物体级别。

2、在神经渲染框架下难以对物体颜色进行精确的编辑

逆渲染与神经渲染结合的方法虽然可以通过修改场景的光照、材质参数，渲染出真实感的编辑效果。但是物体的反射率等信息依然是通过MLP隐式的表示的，在隐式表示中难以对物体反射率进行精确的编辑。

3、对视频进行本征分解

对视频进行本征分解还需要保证不同帧本征分解结果的一致性。现有的视频本征分解通过构建不同帧之间的数据关联，将时空约束项加入优化过程中，从而保证一致性。但是如果能利用神经渲染方法，将这些分解属性映射到同一个隐空间中，那么就可以自然的保持这种一致性，而不需要构建约束。

发明内容

本发明针对现有技术的不足，提出了一种基于本征神经辐射场IntrinsicNeRF的可编辑新颖视图合成方法，较好的克服上述问题，并在物体级别和场景级别的测试数据上得到了不错的实验效果。

本发明的技术方案如下：

本发明提出了一种基于本征神经辐射场的可编辑新颖视图合成方法，其包括如下步骤：

S1:构造本征神经辐射场

所述的本征神经辐射场为使用多层感知机MLP网络表示的本征神经辐射场，

S2：无监督先验引导

把无监督的先验信息引入多层感知机MLP网络，所述的无监督的先验信息包括色度先验、反射率稀疏性先验、光照平滑先验、残差约束、亮度先验；

S3：网络优化

根据数据规模，对于物体级别的数据，选择适用于物体级别的反射率自适应迭代聚类，对于场景级别的数据，选择适用于场景级别的反射率层次聚类；通过聚类得到一个预测的稀疏反射率结果，根据预测结果与真实的稀疏反射率结果构造反射率聚类损失；

联合优化颜色损失、语义损失、本征分解无监督先验相关的损失以及反射率聚类损失，来对多层感知机MLP网络进行优化；当网络训练好后，给定三维空间点和相机方向，多层感知机MLP网络可以输出该点的反射率，阴影和残差项，并最终合成新颖的视图。

根据本发明的优选方案，所述的S1中的MLP网络以空间点坐标和视角方向为输入，输出体密度、该点的语义标签、反射率值R、光照S、以及一个与视角相关的残差项Re；其中R、S、Re就是该点的本征分解结果；通过本征分解模型I＝RxS+Re能够计算出该点的RGB颜色值，并通过体渲染的方式能够构造出新视角下的图像。

现有技术相比，本发明的有益效果包括：

1)本发明将本征图像分解技术与神经渲染技术进行结合。在神经渲染方法的基础上，可以实现对图像的本征分解，得到反射率、光照和残差项。相比其他的本征分解方法，本方法利用了神经渲染方法的特点，保证了不同帧之间本征分解结果的一致性。

2)本发明没有对使用场景规模的限制。相比目前将逆渲染与神经渲染结合的方法只能运行在物体级别的数据上，本发明提出的IntrinsicNeRF在物体级别数据和场景级别数据上都能较好的运行。

3)本发明可以实时的对视频进行编辑。基于本发明提出的IntrinsicNeRF对视频数据分解得到的信息，本发明可以对视频进行实时的编辑操作，实现包括物体颜色编辑、光照亮度调整以及材质编辑的效果。

附图说明

图1是本发明的本征神经辐射场IntrinsicNeRF的框架图。

图2是本发明提出的本征神经辐射场IntrinsicNeRF的网络结构示意图。

图3是本发明中距离感知点采样方法的示意图。

图4是本发明中反射率自适应迭代聚类的流程示意图。

图5是本发明中层次反射率聚类和索引方法的示意图。

图6是本发明中Replica场景数据集上本发明方法与其他同类方法的反射率结果比较。

图7是本发明中基于IntrinsicNeRF的视频颜色编辑效果。

图8是本发明中基于IntrinsicNeRF的光照亮度编辑效果。

图9是本发明中基于IntrinsicNeRF的材质编辑效果。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。所述实施例仅是本公开内容的示范且不圈定限制范围。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

本发明提供了一种基于本征神经辐射场的可编辑新颖视图合成方法，基于神经渲染框架实现了对视频序列时空一致的本征图像分解，可以实现对视频的实时编辑效果，包括场景物体颜色编辑、光照亮度编辑、材质编辑效果，还可以合成新视角的图片。

如图1所示，本发明方法主要包括如下步骤：

步骤1：本征神经辐射场

构造一个使用多层感知机(MLP)表示的本征神经辐射场，以空间点坐标和视角方向为输入，输出体密度、该点的语义标签(物体级别时没有)、反射率值R、光照S、以及一个与视角相关的残差项Re。R、S、Re是该点的本征分解结果，通过I＝RxS+Re可以计算出该点的RGB颜色值，并通过体渲染构造出新视角下的图像。每次采样的像素点跟距离相关，以方便后续无监督本征先验的优化。

步骤2：无监督先验引导。

本征图像分解是一个高度不适定的问题，有无数多种反射率和光照的组合可以得到同一个RGB值。为了使网络输出的反射率R、光照S以及残差项Re在能够组成最终RGB图像且同时符合期望的分解结果，将传统本征分解方法中常用的先验约束引入到优化过程中，包括单色光假设、反射率稀疏先验、光照平滑先验等等。本网络不需要本征分解监督数据，而是基于一系列先验信息对网络进行无监督的优化。

步骤3：网络优化

根据数据规模，对于物体级别的数据，选择适用于物体级别的反射率自适应迭代聚类，对于场景级别的数据，选择适用于场景级别的反射率层次聚类；通过聚类得到一个预测的稀疏反射率结果，根据预测结果与真实的稀疏反射率结果构造反射率聚类损失；联合优化颜色损失、语义损失、本征分解无监督先验相关的损失以及反射率聚类损失，完整的损失函数如下：

L_final＝λ_phoL_pho+λ_semL_sem+λ_chromL_chrom+λ_reflectL_reflect+λ_non-localL_non-local+λ_shadingL_shading+λ_clusterL_cluster+λ_residualL_residual+λ_intensityL_intensity (21)

在本实施例中，图像颜色损失权重λ_pho设置为1，语义损失权重λ_sem为0.04，色度损失权重λ_chrom为0.04，残差损失权重λ_residual在训练早期阶段(前10万次迭代)为1，在后期(后10万次迭代)降低到0.02。光照平滑损失的权重设置为1，局部反射率损失权重为0.04，非局部反射率损失权重为0.02。聚类约束的权重前期设置为0.01，然后随着迭代进行逐渐指数上升到1。本发明使用PyTorch来实现IntrinsicNeRF，并在单张Nvidia RTX3090 24G显卡上进行训练。每一个Batch包含1024条光线。Replica场景的图像分辨率为320x240，Blender物体数据集的图像大小为400x400。使用Adam优化器，学习率设置为5e-4，20万次迭代。

在步骤3的网络优化中，在无监督先验的引导下，网络输出的本征分解结果已经非常接近目标，但是在一些相同材质相同反射率的区域仍然会存在分解出的反射率不一致的情况。因此本发明针对物体级别的的数据，提出了适用于物体级别的反射率自适应迭代聚类：构造了一个会随着训练过程不断更新的聚类运算G，对于一组相近的反射率颜色r，运算G会将这些颜色映射到同一个目标反射率值G(r)，在网络优化过程中添加一个聚类约束使得网络输出的相近的反射率值逐渐靠拢，使得最终场景内的反射率值更为稀疏，得到更好的本征分解结果。

在步骤3的网络优化中，针对场景级别的数据，由于场景中物体种类数较为丰富，不同的物体上也可能出现相似的反射率值，在迭代聚类过程中就会将这些不同物体上相近的反射率值错误的聚为同一类。因此本发明进一步考虑场景中物体的语义信息，将反射率的先验约束以及迭代聚类操作限制在同类物体中，进一步提出了适用于场景级别的反射率层次聚类的方法，并将反射率值保存为(物体类别，反射率类别)的两级索引的形式，这种保存形式也被进一步用到了本发明的视频颜色编辑应用中。

在本发明的一项具体实施中，对步骤1的实施过程进行了介绍。

MLP网络结构如附图2所示。网络整体结构与NeRF中的结构相似，网络以三维坐标(x,y,z)以及视角方向

为输入，通过多个分支输出体密度、语义标签(可选)、反射率R、光照S、以及与视角相关的残差项Re。

不同于本征图像分解中常用的I＝RxS模型将图像分解为反射率R和光照S两部分的乘积。本发明进一步使用了一个残差项Re来表示图像中无法用朗伯面假设表示的现象，比如金属材质、物体表面的高光等等。因此本发明使用的本征分解模型是I＝RxS+Re。按照NeRF的方法对一条光线上的各个采样点的R、S、Re进行积分，就可以得到一个像素点的本征分解结果，再根据公式I＝RxS+Re就能得到该像素点的颜色值。构建与NeRF中相同的像素值损失函数L_pho：

在本发明的一项具体实施中，对步骤2的实施过程进行了介绍。

将本征图像分解引入到NeRF框架中，如果不加任何约束会得到不稳定的本征分解结果，因此本发明需要引入一系列先验约束对本征分解内容进行引导。但是传统本征分解约束大多构建在相邻的像素点上，不同于单纯的本征分解方法以一张完整的图像为输入，在NeRF框架下每次迭代优化只能得到一些随机的采样点，这些采样点之间没有任何关联。为了使本征图像分解的约束应用到NeRF框架下，本发明提出了一种距离感知的点采样方法，如附图3所示。与NeRF相同，每次迭代优化采样总共1024个点。首先在图像中随机选取得到512个采样点，接着对这512个点随机选取一个四邻域点，得到另外512个点。这两组点拼接在一起得到了完整的1024个采样点。其中编号n(n<512)的点与编号n+512的点是相邻点对，而编号n与编号n+256的两个点没有任何关联，所以可以视为一对随机点对。这些相邻点对和随机点对会被用于构建之后的无监督先验。

步骤2中提及的无监督先验引导主要包含了以下6个先验约束，每个先验的含义、以及对应的损失函数构建方法具体为：

步骤2.1单色光假设以及色度相似性权重：

为了对整个问题进行简化，这里本发明使用了本征图像分解中常用的单色光假设，也就是假设环境中个点光照都是相同颜色，因此光照S可以只用一个灰度值来表示，从而减少了问题中的未知数个数。在这个假设下，反射率的色度值等于原始图像的色度值。色度的计算方法为c(x)＝I(x)/|I(x)|，同时这里定义了两个像素值之间色度相似性权重ω_cs(x，y)，这个权重会在之后的先验约束中被反复用到，计算方法如下：

步骤2.2色度先验：

在单色光假设下，反射率的色度值应该尽可能与图像的色度值相同。但是本发明并不是直接设定反射率色度值等于图像色度值，因为还有一项残差项也带有一定的颜色，所以通过引入一个色度先验损失函数使得反射率色度值接近图像色度值。定义方式如下：

其中x表示某个像素点，其中c_r表示反射率图中的色度值，c表示RGB图像的色度值。

步骤2.3反射率稀疏性先验：

反射率具有分块常量(piecewise constant)的特点，进一步描述为在空间和色度上相近的像素点通常也具有相同的反射率。基于本发明在步骤1.2中提出的像素点采样方法，构建相邻像素点之间的反射率约束。

在人造环境中，一些距离较远的空间点也可能具有相同的反射率，比如在图像空间中占据较大区域的墙或者地面，因此还需要保证构造非局部的反射率约束。同样基于步骤1.2中的采样方法，构建随机非局部像素点之间的反射率约束。

局部与非局部反射率约束的公式形式是完全相同的，但是非局部约束的损失权重在训练是要低于局部反射率约束的损失权重。

步骤2.4光照平滑先验：

本发明约束光照分量S的变化是平滑的，也就是相邻像素点的S值尽可能接近。这个先验是建立在假设环境中物体表面的几何变化以及光照变化都是平滑的。

色度差距越大的两个点，光照平滑约束越强。

步骤2.5残差约束：

本发明希望图像内容尽可能的由R和S来表示，因为环境中的漫反射光一般占据主导成分。所以需要对残差项添加损失，使Re尽可能低。同时这也是为了防止一些极端情况，比如R和S都变为零，而Re＝I，这也会使前面的几个损失函数变得很小，但这并不是本发明期望的结果。

在网络训练初期这个约束的权重设置的较大，使得RxS尽可能的接近目标图像I。然后到了训练后半段就降低这个约束的权重，这时网络输出的R和S已经基本稳定，但是由于RxS并不能表示与视角相关的内容，所以这时降低残差约束让Re来表示无法用朗伯面表示的剩余内容，比如物体高光等现象，同时也使得RxS+Re更接近于目标图像I。

步骤2.6亮度先验：

前面对反射率和shading的约束中考虑的都是两个像素R和S的相对关系，并没有对R或者S的绝对大小进行约束。为了防止优化过程中R和S陷入某些极端值，同时使得R和S整体值处于一个合理的范围，这里本发明添加一个整体亮度约束：

使得网络输出的R平均值，尽可能的接近原始图像RGB值的平均值。在实验过程中，训练初期将这个约束的权重设置的较大，因为网络初期不稳定，加强这个约束可以防止网络陷入极端值。到了训练后期，就降低这个约束的权重。

在本发明的一项具体实施中，对步骤3中适用于物体级别数据的反射率自适应迭代聚类的实施过程进行了介绍。

如图4所示，步骤3中提及的反射率自适应迭代聚类主要包含了以下5个步骤，具体为：

步骤3.1颜色空间变换：

在网络训练过程中，每经过一万次迭代就会抽取一组相机位姿，完整生成对应位姿的图像以及对应的本征分解分量。接着将这组图像包含的所有像素点P的R分量取出，对反射率R的RGB值进行变换f([r,g,b])＝[β(r+g+b)/3,r/(r+g+b),g/(r+g+b)]，变换为亮度、色度r、色度g三个通道，在亮度通道前添加了一个小于1的系数β，在本发明的实验中将β设置为0.5，这样变换的目的是降低亮度差异对聚类的影响，使得聚类更关注于两点反射率色度的相似性，将RGB变换之后的空间称为f空间。

步骤3.2Mean-Shift聚类：

紧接着在f空间上对这些像素点的反射率值进行Mean shift聚类。不同于K-Means方法需要指定场景中的反射率类别数K，Mean Shift聚类方法可以自动确定聚类的类别数，因为本发明并不知道场景中有多少类的反射率值。

步骤3.3聚类运算G

在上一步聚类之后，得到了一组聚类中心，同时得到了对每一个像素P的分类标签。本发明将聚类运算G定义为，对于任意一个反射率值r，将该反射率映射在f空间上最近的那个像素P所属的类别作为该点的类别，并将该类别的中心颜色作为该点反射率的聚类颜色G(r)。

步骤3.4体素滤波

像素P的数量非常大，直接在这些像素中找最近邻非常费时。由于训练时引导反射率值聚集在一些非常小的区域内，所以并不需要在所有像素P中查找最近邻。这里对所有像素P在f空间中进行体素滤波，将滤波剩下的点作为锚点anchors，这样运算G只需要查找anchors中的最近邻，然后输出anchors所属类别的中心颜色。

步骤3.5聚类损失函数及优化

构造反射率值r与其聚类反射率值G(r)之间的损失，引导相近的反射率值向着同一个反射率值靠拢。得到如下聚类损失函数，其中r_cluster＝G(r)：

在实现过程中，聚类损失的权重会随着迭代次数的增加逐渐升高，同时Mean-shift算法中的关键参数bandwidth也会逐渐变大(bandwidth越大mean-shift聚类类别数就越少)。因为在网络优化初期，网络生成的反射率R并不可靠，所以需要较低的权重。而到了优化末期，使用较大的权重，会将最终的网络输出结果引导向聚类的效果，使网络输出的反射率与聚类之后的反射率基本没有区别。

在本发明的一项具体实施中，对步骤3中适用于场景级别数据的反射率层次聚类及其索引方法的实施过程进行了介绍。主要包含了以下2个步骤，具体为：

步骤3.6IntrinsicNeRF语义分支

在场景级别数据上，如果直接对所有像素进行聚类，那么很有可能把不同物体上相似的反射率聚为同一类，但是不同类别的物体上的反射率是不应该有关联的。针对场景级别的数据，本发明基于Semantic-NeRF工作，结合场景中的语义信息，进一步提出了层次化聚类的方法。本发明在IntrinsicNeRF基础上加上一个只与输入三维坐标相关的分支，输出该空间点的语义标签。同样对一条光线上所有采样点的语义信息进行积分，得到该像素点的语义标签。Replica场景数据包含每一帧图像对应的语义标签数据，对语义分支进行监督，构造如下的语义损失函数L_sem:

其中p^I表示语义标签真值对应类别l的概率值，

和

分别表示光线r对类别l的粗略估计和精细估计概率值(粗细两个网络估计的值)。

步骤3.7基于语义的反射率层次聚类

不同于物体级别的反射率迭代聚类方法只需要获取每个像素点的反射率值，这里需要同时取出这组图像的每个像素点的语义分割标签和反射率值。根据所有像素的语义标签不同，将所有像素集合P分为{P₁P₂，...，P_N}这N个子集合，其中N是场景中语义标签的种类数。接着分别对这个N个像素点集合构造N个聚类运算{G₁G₂，…，G_N}(在适用于物体级别数据的反射率自适应迭代聚类的步骤3.3中定义)。接着本发明定义一个层次聚类运算HG，输入一个像素点的反射率以及该像素的语义标签，然后根据语义标签使用对应的聚类运算得到聚类之后的反射率。

HG(RGB，label_x)＝G_x(RGB).

其中x表示像素对应的语义类别。这样的层次聚类策略允许将聚类信息存储在树结构中，可以快速的进行查询，如图5所示。对于每个像素点，首先根据该点的语义信息选择对应的聚类运算G，然后再找到该类别中最近的锚点，将该锚点所属类别的中心颜色作为该像素点反射率的聚类颜色。这种层次聚类方式也进一步用于本发明的视频编辑方法中。

为了进一步展示本发明的实施效果，本实施例从四个方面进行了实验：

①首先本发明在Replica场景数据集上与同类方法定性的比较反射率分解结果、定量比较新视角图像合成效果，②对本发明提出的IntrinsicNeRF进行消融实验，证明本发明使用的传统本征分解先验与迭代聚类方法的有效性，③接着本发明测试了基于IntrinsicNeRF分解结果的实时视频编辑效果，包括颜色编辑、光照变化和材质编辑。

使用的数据集清单：

本发明使用了8个Blender物体模型数据集，其中4个来自于Invrender，4个来自于NeRF。使用Blender Cycles渲染器得到每个物体100个不同视角下的图片作为训练数据、另外200个不同视角图片作为测试数据，同时生成了每个视角下对应的反射率图用于本征分解结果的量化评估。还使用了Semantic-NeRF工作中生成的Replica场景数据集，该数据集包含了8个不同的房间中录制的视频序列、对应的深度图、语义分割标签以及每一帧的相机位姿。每个场景下的视频序列包含了900张320x240分辨率图像，每隔5帧取一张图像作为训练数据，取训练数据的中间帧作为测试数据。

对比的同类方法：本发明选择了多种同类方法与本发明提出的IntrinsicNeRF进行对比，包括基于优化的传统本征图像分解方法IIW，基于深度学习的有监督本征图像分解方法CGIntrinsic，基于深度学习的无监督本征图像分解方法USI3D，基于逆渲染的NeRF方法InvRender。

评价指标：

反射率结果评估指标：峰值信噪比(PSNR),结构相似度(SSIM),学习感知图像块相似度(LPIPS),均方误差(MSE),局部均方误差(LMSE).

新视角合成图像质量评估指标：峰值信噪比(PSNR),结构相似度(SSIM),学习感知图像块相似度(LPIPS)

语义分割评估指标：均值交并比(mIoU)

实验1：Replica场景数据集上的结果对比

反射率分解结果对比：由于Replica场景数据集并没有提供反射率真值，因此无法量化比较不同方法在该数据集上的表现，所以在该数据集上本发明只是进行了反射率分解结果的视觉效果比较，如图6所示。

新视角图像合成质量对比：在Replica场景数据集上的实验，本发明将IntrinscNeRF与Semantic-NeRF的输出结果进行对比。除了对比新视角合成图像质量，同时也比较了语义分割效果，如表1所示。结果中可以看到，两种方法在各方面的数值都非常接近，验证了IntrinsicNeRF这一整套扩展方法并不会对原本的NeRF方法造成明显的影响，同时还可以赋予NeRF等工作更丰富的功能。

表1 Semantic-NeRF与本发明方法在Replica场景数据上对比

方法	PSNR↑	SSIM↑	LPIPS↓	mIoU↑
					Semantic-NeRF	30.9770	0.8955	0.1066	0.9725
Ours	30.7044	0.8908	0.1140	0.9702

实验2：消融实验

为了验证本发明中几个关键方法的有效性，这里进行了一系列消融实验。首先在Blender数据集上，①实验的baseline是在NeRF基础上单纯将网络结构改造为IntrinsicNeRF的结构，但训练时并不引入任何先验约束、也不进行聚类。②同时本发明测试了在baseline基础上仅添加无监督约束，但不进行迭代聚类。③最后是完整的IntrinsicNeRF方法。反射率估计结果如表2、表3所示。从表中的量化比较结果以及图中的视觉效果都可以明显的看到，完整使用本文几个关键的方法可以达到最佳的效果。

表2在Blender物体数据集(invrender四个模型)上消融实验结果

表3在Blender物体数据集(NeRF四个模型)上消融实验结果

在Replica数据集上，虽然无法进行数值对比，但是可以对比视觉效果。在Replica数据集上的消融实验，除了与Blender相同的三种方法，还额外测试了不进行层次聚类的效果，如图6所示。从图中可以看到，如果只是单纯的对所有反射率聚类而不是进行层次聚类，得到的反射率分解效果非常差，不同物体相似的反射率被错误的聚为一类。而引入了层次聚类的完整方法效果显著提升。

实验3：视频实时编辑效果

场景物体颜色编辑：IntrinsicNeRF网络生成的反射率会被保存为【语义类别，反射率类别】的形式，同时也保存了整个场景对应的所有语义类别所包含的反射率(通过最后一轮层次迭代聚类得到)，因此通过【语义类别，反射率类别】标签可以快速找到每个像素点对应的反射率值，基于这种表示方式可以实现实时的对视频中的物体颜色进行编辑的效果。只需要修改某一反射率类别的颜色，就可以同时修改视频中所有属于该类别的像素的反射率值，然后使用修改之后的反射率R与未修改的光照S和残差Re就能够重组出编辑之后的视频，如图7所示。

光照亮度编辑：IntrinsicNeRF还分解出了一个残差项Re，在多种约束的作用下，残差项Re包含了物体表面高光、灯光在墙面上的光斑等无法用朗伯面假设描述的部分。通过给Re分量整体乘上一个系数k进行缩放，再将变换后的Re替换原本的Re重建出图像I’＝Rx S+k x Re，从而实现出调亮环境整体灯光的效果。在Blender和Replica数据集上的光照亮度编辑测试效果如图8。

材质编辑：通过对本征图像分解结果光照S和残差Re进行一些变换，可以模拟出修改物体材质的效果。如对光照S图层整体进行非线性映射，使得高亮度值的部分更亮，低亮度值的部分更暗，可以让物体更具有金属感，如图9所示。

根据以上实验结果可以得出以下结论：

1)本发明提出首个将本征图像分解与神经渲染结合的方法IntrinsicNeRF，在合成新视角图片的同时，还能得到图像的本征分解结果(反射率、光照和残差项)。利用神经渲染的特点保证不同视角下本征分解结果的一致性。

2)本发明提出了一种点采样方法，可以将传统本征分解方法中的先验约束引入到神经渲染框架的优化过程中。还提出了一种迭代聚类优化和一种基于语义信息的层次聚类方法以获得效果更好的本征分解结果。

3)本发明提出的IntrinsicNeRF不限制场景规模，可应用于物体级别的数据和场景级别的数据，在Blender物体数据集以及Replica场景数据集上都取得了较好的实验效果。

4)本发明支持多种实时的视频编辑功能。基于场景本征分解数据，可以实现实时的对视频序列的物体颜色编辑、材质编辑、光照亮度调节功能，同时还支持高质量的新视角图片生成。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，包括如下步骤：

S1:构造本征神经辐射场

S2：无监督先验引导

S3：网络优化

2.根据权利要求1所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，所述的S1中的MLP网络以空间点坐标和视角方向为输入，输出体密度、该点的语义标签、反射率值R、光照S、以及一个与视角相关的残差项Re；其中R、S、Re就是该点的本征分解结果；通过本征分解模型I＝RxS+Re能够计算出该点的RGB颜色值，并通过体渲染的方式能够构造出新视角下的图像。

3.根据权利要求1所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，S2中所述的无监督先验引导，具体包括如下步骤：

步骤2.1单色光假设以及色度相似性权重：

假设环境中各点光照都是相同颜色，因此光照S用一个灰度值来表示；反射率的色度值等于原始图像的色度值；色度的计算方法为c(x)＝I(x)/|I(x)|，其中I(x)表示图像的像素颜色，同时定义两个像素值之间色度相似性权重ω_cs(x，y)，计算方法如下：

其中，α_cs＝60，|| ||²表示二范数；

步骤2.2色度先验：

引入一个色度先验损失函数使得反射率色度值接近图像色度值，定义方式如下：

其中x表示某个像素点，其中c_r表示反射率图中的色度值，c表示RGB图像的色度值；

步骤2.3反射率稀疏性先验：

构建局部相邻像素点之间的反射率约束：

其中，这里的r(x)表示坐标x点的反射率值。

表示坐标x的相邻区域；

构建随机非局部像素点之间的反射率约束：

其中，这里的r(x)表示坐标x点的反射率值；

表示坐标x的局部不相邻区域；

其中，非局部约束的损失权重在训练时要低于局部反射率约束的损失权重；

步骤2.4光照平滑先验：

约束光照分量S的变化是平滑的，也就是相邻像素点的S值尽可能接近；这个先验是建立在假设环境中物体表面的几何变化以及光照变化都是平滑的，

其中，s(x)表示坐标x点的s分量的值；色度差距越大的两个点，光照平滑约束越强；

步骤2.5残差约束：

设定并添加残差约束：

在网络训练初期，残差约束的权重设置的较大，使得RxS尽可能的接近目标图像I，在网络训练后半段降低残差约束的权重；

步骤2.6亮度先验：

添加整体亮度约束：

使得网络输出的R平均值尽可能的接近原始图像RGB值的平均值，训练初期将整体亮度约束的权重设置的较大，在训练后期，降低整体亮度约束的权重。

4.根据权利要求3所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，在构造反射率稀疏性先验时，像素点采用距离感知点采样方法进行采样，距离感知点采样方法具体为：每次迭代优化采样总共1024个点；首先在图像中随机选取得到512个采样点，接着对这512个点随机选取一个四邻域点，得到另外512个点；这两组点拼接在一起得到了完整的1024个采样点；其中编号n(n<512)的点与编号n+512的点是相邻点对，而编号n与编号n+256的两个点没有任何关联，所以可以视为一对随机点对。

5.根据权利要求1所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，所述的适用于物体级别的反射率自适应迭代聚类为：对物体级别的数据，构造了一个会随着训练过程不断更新的聚类运算G；

对于一组相近的反射率颜色r，运算G会将这些颜色映射到同一个目标反射率值G(r)，在网络优化过程中使得网络输出的相近的反射率值逐渐靠拢，使得最终场景内的反射率值更为稀疏，得到更好的本征分解结果。

6.根据权利要求1或5所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，所述的适用于物体级别的反射率自适应迭代聚类具体包括如下步骤：

步骤3.1颜色空间变换：

在网络训练过程中，每经过设定次迭代就会抽取一组相机位姿，完整生成对应位姿的图像以及对应的本征分解分量；将这组图像包含的所有像素点P的R分量取出，对反射率R的RGB值进行变换f([r,g,b])＝[β(r+g+b)/3,r/(r+g+b),g/(r+g+b)]，变换为亮度、色度r、色度g三个通道，在亮度通道前添加了一个小于1的系数β，降低亮度差异对聚类的影响，将RGB变换之后的空间称为f空间；

步骤3.2Mean-Shift聚类：

在f空间上对这些像素点的反射率值进行Mean shift聚类；

步骤3.3聚类运算G

步骤3.2聚类之后，得到了一组聚类中心，同时得到了对每一个像素P的分类标签；将聚类运算G定义为：对于任意一个反射率值r，将该反射率映射在f空间上最近的那个像素P所属的类别作为该点的类别，并将该类别的中心颜色作为该点反射率的聚类颜色G(r)；

步骤3.4体素滤波

对所有像素P在f空间中进行体素滤波，将滤波剩下的点作为锚点anchors，这样运算G只需要查找anchors中的最近邻，然后输出anchors所属类别的中心颜色；

步骤3.5聚类损失函数及优化

构造反射率值r与其聚类反射率值G(r)之间的损失，引导相近的反射率值向着同一个反射率值靠拢；得到如下聚类损失函数，其中r_cluster＝G(r)：

7.根据权利要求1所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，所述的适用于场景级别的反射率层次聚类为：

1)在Intrinsic NeRF加上语义分支，每个点除了获得反射率，阴影和残差项外，还会得到每个点的语义标签；

2)利用每个点的语义标签和反射率值，可以将先根据语义标签对这些点进行分类，得到不同语义类别下的三维点；接着对每个语义类别下的三维点，执行适用于物体级别的反射率自适应迭代聚类进行迭代聚类优化。

8.根据权利要求1或7所述的基于本征神经辐射场的可编辑新颖视图合成方法，其特征在于，所述的适用于场景级别的反射率层次聚类为：

首先，在Intrinsic-NeRF基础上加上一个只与输入三维坐标相关的分支，输出该空间点的语义标签，这样每个三维点除了本征辐射场的分量还带有语义信息；同样对一条光线上所有采样点的语义信息进行积分，得到该像素点的语义标签；场景数据包含每一帧图像对应的语义标签数据，对语义分支进行监督，构造如下的语义损失函数L_sem:

其中p^l表示语义标签真值对应类别l的概率值，

和

分别表示光线r对类别l的粗略估计和精细估计概率值；

其次，根据所有像素的语义标签不同，将所有像素集合P分为N个子集合{P₁P₂，...，P_N}，其中N是场景中语义标签的种类数；接着对这N个像素点子集合分别构造N个聚类运算{G₁G₂，...，G_N}；每个聚类运算定义均为：对于其对应的子集合内像素点的反射率值r，将该反射率映射在空间上最近的那个像素P所属的类别作为该点的类别，并将该类别的中心颜色作为该点反射率的聚类颜色G(r)；

然后，定义一个层次聚类运算HG，输入为一个像素点的反射率以及该像素的语义标签，然后根据语义标签使用对应的聚类运算得到聚类之后的反射率；

HG(RGB，label_x)＝G_x(RGB).

其中x表示像素对应的语义类别；这样的层次聚类策略允许将聚类信息存储在树结构中，可以快速的进行查询；即对于每个像素点，根据该点的语义信息选择对应的聚类运算G，然后再找到该类别中最近的锚点，将该锚点所属类别的中心颜色作为该像素点反射率的聚类颜色。