CN112613609B

CN112613609B - 基于联合位姿优化的神经辐射场增强方法

Info

Publication number: CN112613609B
Application number: CN202011510924.8A
Authority: CN
Inventors: 谷溢; 朝红阳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-05-06
Anticipated expiration: 2040-12-18
Also published as: CN112613609A

Abstract

本发明属于计算机图形学领域下的神经渲染领域以及计算机视觉领域下的相机位姿优化领域，更具体地，涉及一种基于联合位姿优化的神经辐射场增强方法。通过结合神经渲染的方法，结合神经网络的表达能力，可以进一步有效的优化相机位姿，在更准确的相机位姿下，训练出的神经辐射场更接近真实场景，渲染出的图像质量更高，细节更清晰。

Description

基于联合位姿优化的神经辐射场增强方法

技术领域

本发明属于计算机图形学领域下的神经渲染领域以及计算机视觉领域下的相机位姿优化领域，更具体地，涉及一种基于联合位姿优化的神经辐射场增强方法。

背景技术

新视角合成是计算机视觉领域以及计算机图形学领域中一项极具挑战性的任务。它的定义是，从一系列的对某一场景的捕获图像中，合成新的视角下的图像。神经辐射场(NeRF)在新视角合成的任务中取得了显著的成果。而在实际应用中，相机位姿往往是通过SfM算法得到的，由于SfM算法依赖于关键点的检测以及匹配，在一些重复纹理较多的场景中，往往会产生很多外点导致错误匹配，这对SfM的性能会造成很大的不良影响。简而言之，通过SfM得到的位姿是不够准确的，使用这样的位姿采样出的点也是不准确的，而这些点的坐标就是NeRF的输入，也就导致NeRF难以拟合真实场景的神经辐射场。因此我们需要更准确的位姿，来辅助NeRF得到更准确的输入。

现有的一些方法中，隐式表达聚焦在几何属性，而不能模拟更复杂的属性，比如颜色，密度。神经渲染方法大部分需要3D显示信息作为输入，而准确的几何又很难获取，不利于位姿计算。相机位姿依赖图像之间的匹配点，如果有错误匹配被考虑到算法流程中，就会引入不同程度的误差。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种基于联合位姿优化的神经辐射场增强方法，从渲染的角度，同时优化辐射场和位姿。

为解决上述技术问题，本发明采用的技术方案是：一种基于联合位姿优化的神经辐射场增强方法，包括以下步骤：

S1.针对真实场景，首先对场景拍摄一系列的图像，得到图像集合

一共N_I张图像；

S2.对图像使用colmap进行数据预处理，得到相机位姿、内参、近平面和远平面的参数，相机位姿集合

相机位姿具体表示为M_k＝{R_k,o_k}；假定所有的图像共享同一个相机内参K，此时的位姿只是作为初始值，后续步骤中需要进一步优化；

S3.对每一幅图，光心与像素点连线即为一条光线，任意选择n条光线；对某一条从相机光心射出的光线r(t)＝o+td，使其通过给定的像素点；o为相机的位置，d为视角方向，t为大于0的实数，在采样时选取；

S4.对每一条光线进行两次采样，分别为粗采样和细采样；此时所有的采样点坐标以及视角观察方向的坐标都是在相机坐标系之下；

S5.将相机坐标系下的点以及视角方向的坐标转换到世界坐标系下，世界坐标系与colmap坐标系一致；这一过程中引入相机位姿以及相机内参；此时将相机位姿转化为可优化的变量；

S6.在得到全局坐标之后，将这些坐标输入到两个MLP之中，第一个MLP以采样点的位置坐标作为输入，输出这个点的密度以及一个高维向量，第二个MLP以采样点的观测方向的坐标以及第一个MLP输出的高维向量作为输入，输出这个点在这个视角下的颜色值；

S7.对一条光线，采用离散的体绘制渲染积分，得到像素对应的颜色估计值；

S8.通过反向传播，同时更新网络参数以及相机位姿参数。

现有技术主要是通过捆集调整的方法来优化位姿，使用基于图像渲染的方法来合成新视角的图像。本发明通过结合神经渲染的方法，结合神经网络的表达能力，可以进一步有效的优化相机位姿，在更准确的相机位姿下，训练出的神经辐射场更接近真实场景，渲染出的图像质量更高，细节更清晰。

进一步的，所述的步骤S1中拍摄的所有的图像均近似为向前拍摄或者360度向内拍摄；使用旋转矩阵

来表示相机的朝向；使用3维坐标

表示相机位置；(·)_w表示在世界坐标系下的坐标点；(·)_c表示相机坐标系下的坐标点；

表示基于小孔成像的相机内参矩阵。

进一步的，所述的步骤S3中，根据体绘制的原理，任意像素点的颜色通过以下积分求得：

式中，

σ为r(t)点的密度，c为r(t)点在d方向观测的颜色；光线从t_n出发直到t_f。

进一步的，所述的步骤S4中，粗采样在光线上采64个点，细采样在这个64个点的基础上，根据粗采样密度分布，额外再采128个点。

进一步的，对连续积分式(1)离散化后得：

式中，

δ_i＝t_t+1-t_i是两个离散积分点之间的距离；在式(2)中，颜色的表达式关于采样点和视角方向是可微的。

进一步的，在所述的步骤S5中，将输入的参数表达为位姿相关的函数：

r(t,R,o)＝o+tRK^-1p， (4)

式中，p＝[u,v,1]^T表示像素的齐次坐标，t表示对应采样点的深度值。

进一步的，所述的步骤S6中，使用MLP模型来模拟场景属性，对场景中任意点的密度和颜色进行拟合，定义为F_θ，F_θ以空间中点的坐标x＝(x,y,z)以及观察视角方向d＝(d_x,d_y,d_z)作为输入，输出该点的密度σ以及颜色c＝(r,g,b)；MLP的表达式为：

式中，γ(·)表示对位置的编码。

进一步的，所述的步骤S7中，使用下式(7)计算积分：

式中，w_i＝T_i(1-exp(-σ_iδ_i))。

进一步的，在所述的步骤S8中，对于网络的loss函数，采用与NeRF相同的残差loss：

式中，

和

分别表示粗采样和细采样下得到的颜色估计值；C表示颜色的真值。

进一步的，为了使旋转矩阵近似于正交矩阵，引入正则loss：

最终的loss函数表示为：

与现有技术相比，有益效果是：本发明提供的一种基于联合位姿优化的神经辐射场增强方法，通过结合神经渲染的方法，结合神经网络的表达能力，可以进一步有效的优化相机位姿，在更准确的相机位姿下，训练出的神经辐射场更接近真实场景，渲染出的图像质量更高，细节更清晰。

附图说明

图1是本发明中算法的示意图，描述了位姿与神经辐射场同时优化的过程。

图2是本发明使用的网络结构示意图。

图3是本发明网络配置示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

一种基于联合位姿优化的神经辐射场增强方法，包括以下步骤：

一共N_I张图像；所有的图像均近似为向前拍摄或者360度向内拍摄；使用旋转矩阵

来表示相机的朝向；使用3维坐标

表示基于小孔成像的相机内参矩阵；

S3.对每一幅图，光心与像素点连线即为一条光线，任意选择4096条光线；具体需要根据显存大小选取，例如24G显卡可选用4096条光线；对某一条从相机光心射出的光线r(t)＝o+td，使其通过给定的像素点；o为相机的位置，d为视角方向，t为大于0的实数，根据体绘制的原理，任意像素点的颜色通过以下积分求得：

式中，

S4.连续积分不能计算，因此需要离散化。对每一条光线进行两次采样，分别为粗采样和细采样。粗采样在光线上采64个点，细采样在这个64个点的基础上，根据粗采样密度分布，额外再采128个点，注意此时所有的采样点坐标以及视角观察方向的坐标都是在相机坐标系之下。然后即可离散化计算公式(1)这个积分：

式中，

S5.接着是本发明的关键步骤，在其他任务中，普遍任务colmap的位姿足够准，不需要再继续优化。而本发明任务，在渲染任务中，只要渲染过程对相机位姿可微，那么就能够继续优化，同步提高位姿精度和渲染质量。本发明将相机坐标系下的点以及视角方向的坐标转换到世界坐标系下，世界坐标系与colmap坐标系一致。这一过程中需要引入相机位姿以及相机内参。此时需要将相机位姿转化为可优化的变量。将模型的输入表达为位姿相关的函数：

r(t,R,o)＝o+tRK^-1p， (4)

使用MLP模型来模拟场景属性，对场景中任意点的密度和颜色进行拟合，定义为F_θ，F_θ以空间中点的坐标x＝(x,y,z)以及观察视角方向d＝(d_x,d_y,d_z)作为输入，输出该点的密度σ以及颜色c＝(r,g,b)；MLP的表达式为：

式中，γ(·)表示对位置的编码。

两个MLP的具体配置如图3所示，γ(x)需要两次输入，也就是存在skipconnection操作。+表示级联操作。位姿变量参数和网络的权重参数都使用Adam优化器来优化。具体的Adam优化器参数配置为：

对网络权重参数，学习率以5×10^-4为初始值，对位姿变量参数，学习率以1×10^-4为初始值，随着优化的进行，学习率以5×10^-5的速度进行指数衰减。其他Adam的超参数设为默认值。

S7.对一条光线，采用离散的体绘制渲染积分，得到像素对应的颜色估计值；这里估计值有两个，一个对应于粗采样，一个对应于细采样。尽管最后在渲染新视角的图像时，我们使用的是细采样的颜色值，但是粗采样依然是必要的。具体的，使用下式计算积分：

式中，w_i＝T_i(1-exp(-σ_iδ_i))。

S8.通过反向传播，同时更新网络参数以及相机位姿参数。体绘制渲染等式对于相机位姿使可微的，通过利用反向传播算法，我们可以同时优化相机位姿以及网络的参数，从而使得输入到网络中的坐标点更为准确。

对于网络的loss函数，采用与NeRF相同的残差loss：

式中，

和

进一步的，为了使旋转矩阵近似于正交矩阵，引入正则loss：

最终的loss函数表示为：

本发明的方法模型对λ的不同配置并不敏感，实际配置中选取λ＝1作为正则项的权重。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于联合位姿优化的神经辐射场增强方法，其特征在于，包括以下步骤：

一共N_I张图像；

S3.对每一幅图，光心与像素点连线即为一条光线，任意选择n条光线；对某一条从相机光心射出的光线r(t)＝o+td，使其通过给定的像素点，o为相机的位置，d为视角方向，t为大于0的实数，在采样时选取；

S8.通过反向传播，同时更新网络参数以及相机位姿参数。

2.根据权利要求1所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，所述的步骤S1中拍摄的所有的图像均近似为向前拍摄或者360度向内拍摄；使用旋转矩阵

来表示相机的朝向；使用3维坐标

表示基于小孔成像的相机内参矩阵。

3.根据权利要求1所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，所述的步骤S3中，根据体绘制的原理，任意像素点的颜色通过以下积分求得：

式中，

4.根据权利要求3所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，所述的步骤S4中，粗采样在光线上采64个点，细采样在这个64个点的基础上，根据粗采样密度分布，额外再采128个点。

5.根据权利要求4所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，对连续积分式(1)离散化后得：

式中，

6.根据权利要求5所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，在所述的步骤S5中，将输入的参数表达为位姿相关的函数：

r(t,R,o)＝o+tRK^-1p， (4)

7.根据权利要求6所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，所述的步骤S6中，使用MLP模型来模拟场景属性，对场景中任意点的密度和颜色进行拟合，定义为F_θ，F_θ以空间中点的坐标x＝(x,y,z)以及观察视角方向d＝(d_x,d_y,d_z)作为输入，输出该点的密度σ以及颜色c＝(r,g,b)；

MLP的表达式为：

式中，γ(·)表示对位置的编码。

8.根据权利要求7所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，所述的步骤S7中，使用下式(7)计算积分：

式中，w_i＝T_i(1-exp(-σ_iδ_i))。

9.根据权利要求8所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，在所述的步骤S8中，对于网络的loss函数，采用与NeRF相同的残差loss：

式中，

和

10.根据权利要求9所述的基于联合位姿优化的神经辐射场增强方法，其特征在于，为了使旋转矩阵近似于正交矩阵，引入正则loss：

最终的loss函数表示为：