CN117745924B

CN117745924B - 基于深度无偏估计的神经渲染方法、系统及设备

Info

Publication number: CN117745924B
Application number: CN202410182262.8A
Authority: CN
Inventors: 方顺; 张志恒; 崔铭; 冯星
Original assignee: Beijing Xuanguang Technology Co ltd
Current assignee: Beijing Xuanguang Technology Co ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-05-14
Anticipated expiration: 2044-02-19
Also published as: CN117745924A

Abstract

本发明属于三维重建领域，具体涉及了一种基于深度无偏估计的神经渲染方法、系统及设备，旨在解决现有的新视角图像合成和模型重建中，由于相机大幅度运动还会导致相机轨迹估计的不准确使得渲染图像可能出现失真、模糊的问题。本发明包括：获取同一目标物体的多张不同角度的图像；基于深度估计网络和采样点估计网络构建深度无偏估计渲染网络，并通过多重损失函数进行训练；逐张获取每一张输入图像对应的初始深度图，并通过线性变换参数转换为多视图一致的无偏深度图，采样并通过采样点估计网络获得颜色、深度和体密度。本发明通过将深度一致性引入到无姿态先验的神经辐射场训练中，解决了大幅度相机运动下的姿态估计和神经渲染的问题。

Description

基于深度无偏估计的神经渲染方法、系统及设备

技术领域

本发明属于三维重建领域，具体涉及了一种基于深度无偏估计的神经渲染方法、系统及设备。

背景技术

在视觉渲染和三维重建领域中，大幅度相机运动对神经渲染的质量以及相机轨迹估计的准确性带来了显著挑战。当相机发生大幅运动时，图像序列中的视角变化较大，由此产生的视角间差异与不一致性会对新视角下的渲染效果产生消极影响，使得渲染图像可能出现失真、模糊或不真实等问题。同时，相机的大幅度运动还会导致相机轨迹估计的不准确，会影响到后续的相机位姿估计、场景重建等任务的准确性和稳定性。

神经辐射场具有形状辐射模糊性，即从单一视角看过去是没问题的，但从其他角度看过去就会产生错误，如图2所示。形状辐射模糊性是由于当前从某一个视角观看三维物体时，相当于这个三维物体在当前这个视角方向的平面投影，这样就忽略了视角方向深度估计，从而导致了这个问题。在神经辐射场中，因为输入的是多个视角的图像，虽然不会出现图2中在新视角渲染的图像完全错误的情况，但会导致新视角图像渲染出现模糊的问题。

本发明要实现的是在具有大幅度相机运动的图像序列中，联合优化相机姿态和神经辐射场，以改善新视角渲染的质量和相机轨迹的准确性。

发明内容

为了解决现有技术中的上述问题，即现有的新视角图像合成和模型重建中，由于相机大幅度运动还会导致相机轨迹估计的不准确使得渲染图像可能出现失真、模糊或不真实的问题，本发明提供了一种基于深度无偏估计的神经渲染方法，所述方法包括：

步骤S1，获取同一目标物体的多张不同角度的图像，作为输入图像；

步骤S2，基于深度估计网络和采样点估计网络构建深度无偏估计渲染网络，并通过多重损失函数进行训练；所述多重损失函数包括重建损失、深度估计网络损失、无偏深度损失、光度损失和点云损失；所述无偏深度损失基于深度估计网络的输出和采样点估计网络的输出计算；

步骤S3，通过训练好的深度无偏估计渲染网络中深度估计网络逐张获取每一张输入图像对应的初始深度图，并通过线性变换参数转换为多视图一致的无偏深度图；

步骤S4，进行每一张输入图像和对应的无偏深度图的采样，并将获取的采样点通过采样点估计网络获得采样点颜色、采样点深度和采样点体密度；

步骤S5，基于所有所述采样点体密度、采样点颜色和采样点深度，通过体渲染分别获得输入图像颜色和无偏深度图颜色。

本发明并未将所有的输入图像一次共同输入网络进行标注和拼接，而是选择将多张图像逐张输入深度估计网络，并在得到多张初始深度图后，通过特有的深度估计网络损失和无偏深度损失对邻帧之间的差距进行约束，最终得到多视图一致的无偏深度图，能够解决大幅度相机运动下的姿态估计和神经渲染的问题。

进一步的，所述深度估计网络，采用多级编码解码的深度无偏估计网络实现，具体包括：

依次连接的嵌入层、残差网络、多级编码解码模块和层头；

所述嵌入层，用于将所述输入图像进行嵌入处理，并依照设定尺寸划分为多个补丁块；

所述残差网络，用于基于所述补丁块，提取特征获得隐向量；

所述多级编码解码模块，用于将隐向量进行抽取、整合和转换获得特征图像；多级编码解码模块配置为多级编码器和多级解码器；每一级编码器的输出端连接同级解码器的输入端和下一级编码器的输入端；每一级解码器的输出端连接上一级解码器的输入端；最上一级解码器的输出端连接层头；

所述层头，用于将所述特征图像转换为初始深度图。

本发明的深度估计网络，通过多级编码解码模块，提取不同层次的特征，并同时将低层特征直接传递给解码器，与对应的上采样特征融合可以在生成深度图时同时利用到局部细节和全局上下文信息，提高预测的准确性，获得精准的初始深度图。

进一步的，所述无偏深度图，其获得方法包括：

当获得所有的初始深度图后，通过基于无偏深度损失优化的线性变换参数，转换为多视图一致的无偏深度图；

其中表示第张无偏深度图，表示第张初始深度图，表示第张初始深度图的缩放因数，第张初始深度图的偏移因数。

由于每张输入图像是分别逐张输入到深度估计网络中的，导致输入图像之间没有关联，同一空间点在不同的输入图像中可能存在估计出不同的深度信息不同的情况，本发明通过设置线性变换参数并通过特有的无偏深度损失来进行优化，进一步提高深度估计的准确性。

进一步的，所述步骤S4，包括：

所述采样点估计网络，具体包括：

采样点位置编码块与第一多层感知机，第一多层感知机后为并行的第二多层感知机、第三多层感知机和体密度输出层；其中第一多层感知机包的输入端通过跳跃连接的方式连接至多层感知机的设定层；

步骤S41，基于所述采样点通过采样点位置编码模块进行位置编码获得采样点位置编码向量；

步骤S42，通过第一多层感知机将所述采样点位置编码向量进行特征提取，获得采样点特征；

步骤S43，基于所述采样点特征，通过体密度输出层获取采样点体密度；

将获取输入图像时记录的相机方向向量进行位置编码获得相机方向编码向量；

将所述相机方向编码向量与采样点特征共同输入第二多层感知机，获得采样点颜色；

将所述相机方向编码向量与采样点特征共同输入第三多层感知机，获得采样点深度。

本发明通过与常规NeRF的网络类似的结构，除了获取常规NeRF相同的数据外还进一步估计了采样点深度的信息，通过采样点深度不仅可以辅助新视角图像的生成，在训练阶段还用于优化线性变换参数，实现多视图深度信息保持一致，进而提高了渲染和新视角图像生成的准确性。

进一步的，所述深度无偏估计渲染网络，其训练方法包括：

步骤A1，获取多组同一训练目标的多张不同角度的图像，作为多组训练集图像；并记录相机姿态和失真参数；

步骤A2，选取一组训练集图像，逐张输入所述深度无偏估计渲染网络，获取训练集初始深度图、训练集无偏深度图、训练集相机姿态、训练集采样点颜色、训练集采样点深度和训练集采样点体密度；

步骤A3，基于所述相机姿态、失真参数、训练集初始深度图、训练集无偏深度图、训练集相机姿态、训练集采样点颜色、训练集采样点深度和训练集采样点体密度，计算总损失函数；

步骤A4，调整深度无偏估计渲染网络的参数和线性变换参数，回到步骤A2选取另一组训练集图像，直至所述总损失函数低于设定的阈值，获得训练好的深度无偏估计渲染网络。

进一步的，所述总损失函数为：

；

其中，表示重建损失，表示深度估计网络损失，表示深度估计网络损失的权重，表示无偏深度损失，表示无偏深度损失的权重，表示点云损失，表示点云损失的权重，表示光度损失；

所述无偏深度损失，具体为：

；

其中，表示第个无偏深度图，表示无偏深度图的总数量，表示第个无偏深度图通过采样点估计网络后得到的采样点深度；

；

表示相机原点到相机近界面的距离，表示相机原点到相机远裁面的距离，表示相机射线函数，表示射线行进距离，表示透射率；

；

表示相机原点，表示相机朝向；

；

表示在相机射线上选取的采样点s的采样点体密度。

本发明通过设置包含了重建损失、深度估计网络损失、无偏深度损失、光度损失和点云损失的的总损失函数进行训练，并且针对深度一致性特别设计了无偏深度损失项，无偏深度损失所用的网络为单独的估计采样点深度的分支，以此实现多张初始深度视图的深度一致性统一。

进一步的，所述深度估计网络损失，具体为：

；

其中，表示像素总数，表示第个像素，表示第个像素的深度误差，表示尺度系数，；

表示第个像素的预测深度值，表示第个像素的实际深度值。

进一步的，所述点云损失，具体为：

将所述无偏深度图反向投影为反向投影的点云上；

其中，表示倒角距离，表示第个无偏深度图反向投影的点云，表示第个无偏深度图反向投影的点云，第个无偏深度图和第个无偏深度图为相邻的无偏深度图，表示将第个无偏深度图反向投影的点云变换到第个无偏深度图反向投影的点云的相对姿态，表示第个无偏深度图的变换矩阵，表示第个无偏深度图的变换矩阵；

其中：

；

表示第个无偏深度图上的任意点，表示第个无偏深度图上的任意点。

进一步的，所述光度损失，具体为：

；

其中，表示对尖括号内的图像进行采样操作，表示第个无偏深度图对应的相机的投影矩阵，表示从将第个无偏深度图反向投影的点云变换到第个无偏深度图反向投影的点云的相对姿态，和分别表示第个无偏深度图对应的输入图像和第个无偏深度图对应的输入图像。

进一步的，所述重建损失，具体为：

表示第个无偏深度图像对应的采样点估计网络的输出值，表示输入图像的总数；

对于多个输入图像，具有一一对应的相机姿态；通过，取所有输入图像损失函数的最小值优化模型参数；其中相机姿态为通过姿态估计网络预测获得；

处理多张图像的模型参数为，其中表示在优化期间更新的相机姿态，包括旋转参数和平移参数；表示无偏深度图像对应的采样点估计网络的输出值。

本发明的另一方面，提出了一种基于深度无偏估计的神经渲染系统，所述系统包括：

输入图像获取模块，配置为获取同一目标物体的多张不同角度的图像，作为输入图像；

渲染网络构建模块，配置为基于深度估计网络和采样点估计网络构建深度无偏估计渲染网络，并通过多重损失函数进行训练；所述多重损失函数包括重建损失、深度估计网络损失、无偏深度损失、光度损失和点云损失；所述无偏深度损失基于深度估计网络的输出和采样点估计网络的输出计算；

无偏处理模块，配置为通过训练好的深度无偏估计渲染网络中深度估计网络获取每一张输入图像对应的初始深度图，并通过线性变换参数转换为多视图一致的无偏深度图；

渲染信息获取模块，配置为进行每一张输入图像和对应的无偏深度图的采样，并将获取的采样点通过采样点估计网络获得采样点颜色、采样点深度和采样点体密度；

体渲染模块，配置为基于所有所述采样点体密度、采样点颜色和采样点深度，通过体渲染分别获得输入图像颜色和无偏深度图颜色。本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于深度无偏估计的神经渲染方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于深度无偏估计的神经渲染方法。

本发明的有益效果：

（1）本发明通过将深度估计引入到无姿态先验的神经辐射场训练中，解决了大幅度相机运动下的姿态估计和神经渲染的问题。

（2）本发明通过在训练过程中对深度图进行尺度和平移参数的优化，从而将深度图转化为多视角一致的无偏深度图，利用这些多视角一致的深度图来约束相邻帧之间的相对姿态，通过提出的新的损失函数来实现相对姿态的约束，使用无偏深度损失来保持未畸变的深度图和神经网络渲染的深度图之间的一致性。同时，多视图一致性约束也有助于相对姿态估计，从而进一步提高深度估计的准确性。

（3）相较于现有技术中使用SfM算法获取相机姿态的方法，本发明降低了计算复杂度和时间成本。

（4）相较于现有技术中依赖于RGB-D输入或依赖于SLAM跟踪系统生成的准确相机姿态的方法相比，本发明通过对深度图进行尺度和平移参数的优化，获得更宽的适用范围。

（5）本发明的方法对深度估计的图进行了有效整合，充分利用了深度图提供的几何先验信息，在应对大幅度相机运动的挑战性相机轨迹时，得到了更准确的估计姿态和渲染新视角。

（6）本方法通过相邻帧之间的相对姿态损失和基于深度的表面渲染损失，对相机姿态估计进行了有效的正则化。这有助于提高相机姿态估计的准确性。

（7）本发明针对相机大幅运动导致的辐射模糊性问题，因此认定所有输入图像的像素变异程度一致，无需采用现有技术中通常用于深度一致校准的关键点对齐或语义解析校准方法，降低了计算资源的占用提高计算效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明实施例中基于深度无偏估计的神经渲染方法的原理示意图；

图2是现有技术中不同视角的图像存在的形状辐射模糊性的效果示意图；

图3是本发明实施例中输入的不同视角的图像的示意图；

图4是本发明实施例中的其中一种深度估计网络的网络结构框图；

图5是本发明实施例中的无偏深度图的效果示意图；

图6是本发明实施例中的采样点估计网络的网络结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有技术中进行神经辐射场进行三维重建或新视角图像生成时，由于神经辐射场的形状辐射模糊性，从不同的视角观看三维物体时，相当于这个三维物体在我们这个视角方向的平面投影，这样就忽略了视角方向深度估计，从而导致不同视角的图像估计出的深度信息产生错误的问题。在神经辐射场中，因为输入的是多个视角的图像，如图2的彭罗斯三角所示，从不同角度会造成不同的视觉错位。

如果能够克服大幅度相机运动的图像序列中，解决深度估计不一致的问题，能够极大的提高三维重建效率和重建精度，本发明旨在优化相机姿态和神经辐射场，以改善新视角渲染的质量和相机轨迹的准确性。

为了更清晰地对本发明基于深度无偏估计的神经渲染方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于深度无偏估计的神经渲染方法，包括步骤S1至步骤S3，各步骤详细描述如下：

输入一张图像到“深度估计网络中”就能得到相应的深度图，但无论用什么神经网络去估计深度，都会带来一个“多视图深度一致性”的问题，即无法做到多个不同角度的视图通过网络分别生成对应的深度图后深度信息在这些深度图中是无偏的。

步骤S1，获取同一目标物体的多张不同角度的图像，作为输入图像；采集到的输入图像如图3所示；

其中无偏深度损失基于深度估计网络的输出和采样点估计网络的输出计算；所述深度估计网络损失，为基于尺度不变误差与元素级L2误差构建并，通过尺度系数进行平衡的损失；

在本实施例中，所述深度估计网络，采用多级编码解码的深度无偏估计网络实现，如图4所示，具体包括：

依次连接的嵌入层、残差网络、多级编码解码模块和层头；

所述嵌入层，用于将所述输入图像进行嵌入处理（embedding），并依照设定尺寸划分为多个补丁块（patch）；本实施例将补丁块设置为16像素，即补丁块为4*4的像素块；

所述残差网络，用于基于所述补丁块，提取特征获得隐向量；本实施例的残差网络选用ResNet-50，3*3卷积层+ReLU激活函数；

所述层头，用于将所述特征图像转换为初始深度图。本实施例的层头（head）采用1*1卷积层+ReLU激活函数。

本实施例中，多级编码解码模块中的编码器为transformer网络的编码器部分，更具全局性，能够更好地捕捉图像中的全局上下文信息，并且能够处理长距离的依赖关系，这使得本网络能够产生更细粒度和全局一致的预测结果，能够更有效地估计初始深度信息。

多级编码解码模块中的解码器选用ResNet-50，3*3卷积层+ReLU激活函数；

本实施例是将隐向量输入到4个Transformer网络的编码器部分中，每次输出，其特征图的分辨率减半，即降采样，然后通过解码器进行上采样，在上采样的同时，将4个Transformer的编码器部分输出分别与相应编码器叠加。因为分辨率相同，直接相加，即相加后的通道数为两个特征图通道数之和。最后通过ResNet-50进行解码。

本实施例也可采用其他深度估计网络如MonoDepth、SfMLearner、DispNet、GeoNet替代transformer网络进行深度估计。

其中多张视图一致，即多图一致性是指在多个视角下观察同一场景时，场景的深度信息保持一致。在深度估计任务中，我们希望从多个输入图像中恢复一组多视图一致的深度图，这些无偏深度图可以用于相对姿态估计。

为了实现多视图一致性，我们考虑每个单视图深度图的两个线性变换参数，得到所有帧的一系列变换参数。通过联合优化这些参数以及神经网络模型，我们可以恢复一个多视图一致的深度图。在优化过程中，我们使用无偏深度损失来保持未畸变的深度图和神经网络渲染的深度图之间的一致性。同时，多视图一致性约束也有助于相对姿态估计，从而进一步提高深度估计的准确性。

在本实施例中，所述无偏深度图，其获得方法包括：

在本实施例中，有N张输入图像，每张输入图像均生成一张对应的初始深度图像，所以生成的初始深度图为，但无论用什么样的深度估计网络，生成的初始深度图都无法达到多张视图一致，因为每张输入图像是分别输入到网络中的，输入图像之间并没有关联，导致同一空间点在不同视图中估计出来的初始深度信息是不同的。

本实施例中获得的无偏深度图如图5所示；

步骤S4，进行每一张输入图像和对应的无偏深度图的采样；

本实施例中，将输入图像和多张无偏深度图共同输入到采样点估计网络；采样时认为每像素向三维空间发射一条射线，此摄像上进行采样，得到多个不同的采样点，将采样点逐个输入采样点估计网络；

逐个采样点输入到“采样点估计网络”中，而采样点来自像素发出的射线，而像素来自于相机（即输入图像），而相机因角度不同有多张输入图像。因此，如果有100张不同角度的输入图像，每个输入图像的分辨率是1024*1024，每个像素发出射线上的采样点数量是128个，那么需要输入到“采样点估计网络”中的采样点数量为：100*1024*1024*128=134亿个采样点，数量巨大；

对此，本实施例包括通过对输入图像和无偏深度图进行实例分割如通过Mask2Former神经网络进行实例分割以降低计算负荷的步骤，对分割出来的实例对象输入到采样点估计网络中；如果分割出来的实例对象的分辨率低于1024个，则全部像素作为输入，否则随机采样1024个输入到“采样点估计网络”中的采样点数量，最大值为：100*1024*128=1310万个采样点，数量降低了1024倍。

将获取的采样点通过采样点估计网络获得采样点颜色、采样点深度和采样点体密度。

此处采样点颜色、采样点深度和采样点体密度，包括了输入图像的颜色、深度和体密度，和无偏深度图像的颜色、深度和体密度。

在本实施例中，所述步骤S204，包括：

所述采样点估计网络，如图6所示，具体包括：

在本实施例中，第一多层感知机为隐藏层8层、256个通道每层的多层感知机，设置的跳跃连接可以更好的提取特征向量；第二多层感知机为1层隐藏层、128个通道的多层感知机；第三多层感知机为1层隐藏层、64通道的多层感知机；

基于所有所述采样点体密度、采样点颜色和采样点深度，通过体渲染分别获得输入图像颜色和无偏深度图颜色。

本实施例中的采样点估计网络与现有技术中的NeRF类似，但是在常规的NeRF估计的参数之外，还设置了估计采样点深度的支路，估计采样点的深度信息用以保持未畸变的深度图和神经网络渲染的深度图之间的一致性。

得到采样点颜色和采样点深度后，分别通过体渲染的方式，优化采样点估计网络，体渲染部分与现有的NeRF相同，对于无偏深度图像和输入图像，视为每个像素发射射线为，其中是相机像素点位置，即射线起点，是观测方向，是行进距离；将采样点颜色乘以体密度和累积透射率，得到采样点对相机像素颜色的贡献值，所有贡献值之和即为相机屏幕像素的颜色，，表示第k个采样点的颜色，通过采样点估计网络预估获得；

表示第k个采样点的颜色的贡献系数，表示第个采样点的体密度；表示相邻两个采样点的距离表示第个采样点到屏幕像素的距离；表示累计透射率，相当于是贡献出去的，那就是不透明的，就是透射率，表示与不同的另一个像素点序号，所以之前个点的所有透射率乘积，就是当前的累计透射率。。

本发明的第二实施例，公开了所述深度无偏估计渲染网络的训练方法，具体包括：

在本实施例中，所述总损失函数为：

；

所述无偏深度损失，具体为：

；

表示相机原点，表示相机朝向；

表示在相机射线上选取的采样点s的采样点体密度。

在本实施例中，深度估计网络损失，具体为：

；

表示第个像素的预测深度值，表示第个像素的实际深度值。

尺度参数用于平衡尺度不变误差和元素及L2误差之间的贡献，当λ=0时，损失函数等价于元素级L2误差；当λ=1时，损失函数等价于尺度不变误差。一般来说，选择一个适当的λ值可以在保持绝对尺度预测准确性的同时，稍微改善预测结果的质量。

在本实施例中，优化相机的绝对姿态可能会导致过度拟合，通过惩罚不同相机之间的相对姿态可以实现平滑的收敛，尤其在复杂的相机轨迹中。因此采用点云损失和基于表面的光度损失来限制相对姿态的损失。

在本实施例中，所述点云损失，具体为：

将所述无偏深度图反向投影为反向投影的点云上；

；

倒角距离是一种用于比较两个点云之间的相似性的度量指标，倒角距离衡量了两个点云之间的最小平均距离，即对于一个点云中的每个点，找到另一个点云中距离最近的点，并计算它们之间的距离，然后将所有距离求和并取平均。倒角距离可以用于点云配准、形状匹配和生成等任务中，用于评估点云之间的对齐程度和相似性，在点云损失函数中，倒角距离常被用作点云之间的距离度量，以约束相邻点云之间的相对姿态。

其中，；

光度一致性（Photometric Consistency）是指在图像或视觉重建任务中，通过比较不同视角或不同时间点的图像之间的像素值来判断它们是否来自于同一个场景或物体表面。光度一致性假设了在不同视角或不同时间点下，同一个场景或物体表面的像素值应该保持不变。因此，通过计算像素值之间的差异，可以评估图像之间的一致性程度。在视觉重建任务中，光度一致性常用于相机姿态估计、多视图几何恢复和视图合成等方面。通过比较不同视角下的图像，可以通过最小化像素值之间的差异来优化相机姿态估计，从而获得更准确的相机位姿。在多视图几何恢复中，光度一致性可以用于约束不同视角下的点云或深度图之间的一致性，从而提高重建的准确性。在视图合成中，光度一致性可以用于评估合成图像与真实图像之间的差异，从而衡量合成质量的好坏。总之，光度一致性是一种用于比较不同视角或不同时间点图像之间的像素值差异的度量指标，用于评估图像之间的一致性程度，并在视觉重建任务中起到重要的作用。

在本实施例中，所述光度损失，具体为：

；

光度损失会惩罚关联像素之间的外观差异，该关联关系建立在点云分别投影到图像和基础上的。

在本实施例中，所述重建损失，具体为：

；

表示第个无偏深度图对应的采样点估计网络的输出值，表示输入图像的总数；

对于相机运动较大或不规则的情况，通过预计算出是不准确的，会导致新视图渲染质量的下降。因此我们相机姿态也是通过网络预测出来的；

最小化总损失函数，即为，表示模型参数，是相机姿态，表示失真参数。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于深度无偏估计的神经渲染系统，所述系统包括：

待渲染信息获取模块，配置为基于所述输入图像，通过深度无偏估计渲染网络，获取采样点体密度、采样点颜色和采样点深度；

所述深度无偏估计渲染网络，基于深度估计网络和采样点估计网络构建，并通过包含重建损失、深度估计网络损失、无偏深度损失、光度损失和点云损失的的总损失函数进行训练；所述深度估计网络损失，为基于尺度不变误差与元素级L2误差构建并，通过尺度系数进行平衡的损失；

体渲染模块，配置为基于所有所述采样点体密度、采样点颜色和采样点深度，通过体渲染分别获得输入图像颜色和深度图像颜色。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于深度无偏估计的神经渲染系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于深度无偏估计的神经渲染方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深度无偏估计的神经渲染方法，其特征在于，所述方法包括：

所述深度估计网络，采用多级编码解码的深度无偏估计网络实现，具体包括：

依次连接的嵌入层、残差网络、多级编码解码模块和层头；

多级编码解码模块配置为多级编码器和多级解码器；每一级编码器的输出端连接同级解码器的输入端和下一级编码器的输入端；每一级解码器的输出端连接上一级解码器的输入端；最上一级解码器的输出端连接层头；

所述采样点估计网络，具体包括：

采样点位置编码块与第一多层感知机，第一多层感知机后为并行的第二多层感知机、第三多层感知机和体密度输出层；其中第一多层感知机的输入端通过跳跃连接的方式连接至多层感知机的设定层；

所述多重损失函数为：

；

所述无偏深度损失，具体为：

；

表示相机原点，表示相机朝向；

；

表示在相机射线上选取的采样点s的采样点体密度；

2.根据权利要求1所述的基于深度无偏估计的神经渲染方法，其特征在于，所述深度估计网络，采用多级编码解码的深度无偏估计网络实现，具体包括：

所述多级编码解码模块，用于将隐向量进行抽取、整合和转换获得特征图像；

所述层头，用于将所述特征图像转换为初始深度图。

3.根据权利要求2所述的基于深度无偏估计的神经渲染方法，其特征在于，所述无偏深度图，其获得方法包括：

4.根据权利要求2所述的基于深度无偏估计的神经渲染方法，其特征在于，所述步骤S4，包括：

5.根据权利要求3所述的基于深度无偏估计的神经渲染方法，其特征在于，所述深度无偏估计渲染网络，其训练方法包括：

步骤A3，基于所述相机姿态、失真参数、训练集初始深度图、训练集无偏深度图、训练集相机姿态、训练集采样点颜色、训练集采样点深度和训练集采样点体密度，计算多重损失函数；

步骤A4，调整深度无偏估计渲染网络的参数和线性变换参数，回到步骤A2选取另一组训练集图像，直至所述多重损失函数低于设定的阈值，获得训练好的深度无偏估计渲染网络。

6.根据权利要求1所述的基于深度无偏估计的神经渲染方法，其特征在于，所述深度估计网络损失，具体为：

；

表示第个像素的预测深度值，表示第个像素的实际深度值。

7.根据权利要求1所述的基于深度无偏估计的神经渲染方法，其特征在于，所述点云损失，具体为：

将所述无偏深度图反向投影为反向投影的点云上；

；

其中，

；

8.根据权利要求1所述的基于深度无偏估计的神经渲染方法，其特征在于，所述光度损失，具体为：

；

9.根据权利要求8所述的基于深度无偏估计的神经渲染方法，其特征在于，所述重建损失，具体为：

；

10.一种基于深度无偏估计的神经渲染系统，其特征在于，所述系统包括：

依次连接的嵌入层、残差网络、多级编码解码模块和层头；

所述采样点估计网络，具体包括：

所述多重损失函数为：

；

所述无偏深度损失，具体为：

；

表示相机原点，表示相机朝向；

；

表示在相机射线上选取的采样点s的采样点体密度；

体渲染模块，配置为基于所有所述采样点体密度、采样点颜色和采样点深度，通过体渲染分别获得输入图像颜色和无偏深度图颜色。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-9任一项所述的基于深度无偏估计的神经渲染方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-9任一项所述的基于深度无偏估计的神经渲染方法。