CN116993826A

CN116993826A - 一种基于局部空间聚合神经辐射场的场景新视图生成方法

Info

Publication number: CN116993826A
Application number: CN202310945852.7A
Authority: CN
Inventors: 黄皓禹; 余宙; 丁佳骏; 俞俊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-03

Abstract

本发明提供了一种基于局部空间融合神经辐射场的场景新视图生成方法，包含如下步骤：S1，将输入图片使用COLMAP进行摄像机标定，并对图像上各像素对应的射线进行数字化表示；S2，构建网络结构，包含神经辐射场网络模型与局部空间信息聚合模型；S3，依据优化采样方式选择像素作为每次网络迭代的输入，输出每个采样点的预测密度与预测颜色；S4，建立体渲染模型计算得到各条光线对应像素点颜色；S5根据像素点的实际颜色与预测颜色，考虑局部空间颜色信息的一致性构建损失函数，并以此更新S2网络结构的参数；本发明通过获取并融合局部空间的三维点信息，进行三维邻近空间中共有特征的交互，以实现质量更高的新视图生成。

Description

一种基于局部空间聚合神经辐射场的场景新视图生成方法

【技术领域】

本发明涉及计算机图形学领域，具体涉及一种基于局部空间聚合神经辐射场的场景新视图生成方法。

【背景技术】

在计算机图形学和三维重建领域，生成逼真的三维模型一直是一个重要的研究方向。过去的几十年里，研究人员提出了许多方法和算法来捕捉和渲染三维场景。

传统的方法包括结构光扫描、多视图立体摄影和三角剖分等技术。这些方法通过从不同视角获取场景的几何信息，然后进行重建和纹理映射，以生成三维模型。然而，这些方法通常需要复杂的数据处理和手动操作，且往往需要大量的时间和计算资源。

近年来，随着深度学习技术的发展，基于神经网络的方法在计算机图形学领域取得了显著的进展。其中，神经辐射场(NeRF)是一种新兴的技术，它通过训练一个深度神经网络来对场景的光线传播进行建模，从而实现高质量的图像渲染。

与传统方法相比，NeRF具有以下优势：它可以生成逼真的图像，包括真实的光照效果和细节；它不需要显式的几何重建过程，从而避免了复杂的几何处理；它可以处理复杂的光照和遮挡情况，生成更加真实的结果。

然而，目前的NeRF方法仍然存在一些限制和挑战。例如，它对训练数据的要求较高，需要大量的高质量图像和相应的几何信息。此外，NeRF网络以空间三维点为输入，该点信息为输出，在训练过程中每个三维点完全独立且与其他点无任何信息交互，未有效利用三维空间中邻近区域的共有特征并通过交互学习到更多信息，因此生成新视图质量仍有提升空间。

【发明内容】

针对相关技术中的上述技术问题，本发明旨在提供一种改进的NeRF方法，以克服现有技术的限制，进一步提高合成视图的生成质量，通过提取并聚合局部空间的光线信息以达到融合三维场景中某一截面上的相邻密度、颜色信息，以实现更高质量的新视图生成，包含以下步骤：

步骤1：将输入图像中每个像素对应的射线进行数字化表示。

步骤2：每轮迭代训练时，选择若干相邻像素对应的射线作为局部空间(patch)，并在这些射线上进行三维点的采样，将其位姿信息作为神经辐射场网络输入数据，输出各采样点的密度与颜色。

步骤3：使用卷积神经网络对各patch中相邻采样点的密度与颜色进行局部信息的聚合。

步骤4：依据体渲染模型，将各采样点视为非刚性物体，依据其密度信息转换为辐射强度，并省略背景光的影响，在采样点范围内积分即可得到对应像素的预测颜色。

步骤5：综合考虑各像素点颜色、各patch颜色的均值与方差计算损失函数，并以最小化该值为目标更新神经辐射场网络与卷积神经网络的参数。

步骤6：各网络训练完成后，对于指定的视角，给出其对应的摄像机位姿参数得到待渲染像素对应射线数字化描述，输入网络即可计算对应像素的颜色，组合而成得到新视图生成图片。

作为优选，所述步骤(1)具体为：将已有视角图像输入COLMAP工具进行摄像机标定，得到摄像机位姿信息，再结合每个像素点在相机坐标系上的归一化坐标(方向向量)与位姿信息中的旋转矩阵得到每个像素点对应的射线(起点为摄像机，终点为无穷远)数字化表示。

作为优选，所述步骤(2)具体为：优化后的采样方式为，随机选择若干个像素点作为patch的中心点，在其周围k*k的像素范围内选取所有的像素点。在各条射线上采样点的确定应用分层采样方式，即分别训练两个网络，一个用于粗渲染，另一个用于精渲染，粗渲染时在采样范围内均匀选取采样点，而精渲染采样时依据粗渲染网络的密度预测结果按比例地在光线上分配采样点，采样公式如下所示：

其中t_i代表采样点，t_n和t_f代表采样范围(最近点与最远点)的距离单位，在摄像机标定中得到，N代表采样点的个数。

作为优选具体的，所述步骤(3)具体为：对于采样点的预测密度与颜色分别采用单独的卷积神经网络进行局部信息的聚合，且确保聚合前后张量的维度与大小不变(即等宽卷积)。

作为优选，所述步骤(4)的体渲染模型具体为：将采样光线上的采样点输入上文所述神经辐射场模型后得到各点的预测密度与颜色，之后建立体渲染模型，将物质抽象成粒子群，根据密度与颜色模拟光线在穿过物体时与粒子进行概率碰撞，综合吸收、放射、外散射与内散射四部分得到最终颜色公式如下：

其中σ(u)为预测密度，C(t)为预测颜色，t表示从采样范围最近点t_n到各个采样点的距离。

作为优选，在实际计算中需将连续的积分方程转换为离散的累加公式如下所示：

其中δ_n代表相邻采样点之间的距离，得到迭代过程中所选像素点的预测颜色。

作为优选，所述步骤(5)中的损失函数具体为：第一部分为预测颜色与实际颜色的均方误差(MSE)，第二部分为每个局部空间(patch)中预测颜色的均值与实际颜色的均值的L2范数，第三部分为每个patch中预测颜色的方差与实际颜色的方差的L2范数，公式如下所示：

L_total＝ρ₁L_color+ρ₂L_mean+ρ₃L_variance

其中，Q表示所有采样像素的集合，P表示所有patch的集合，表示在某个像素点的预测颜色，C(p)表示真实颜色，M(·)表示对某个patch中像素点颜色求平均值，V(·)表示对某个patch中像素点颜色求方差，ρ₁，ρ₂，ρ₃分别为三部分损失函数的权重超参数。

本发明在迭代训练时优化了采样方式，采样了相邻空间的射线作为patch输入神经辐射场网络，并加入空间聚合模块使用卷积神经网络融合横向空间信息，使得整个网络在输出各个采样点的密度与颜色时关注周边信息，达到更加精确的新视图合成效果。

【附图说明】

图1是本发明的整体流程框架图。

图2是本发明的神经网络结构示意图。

图3是本发明设计的采样方式示意图。

【具体实施方式】

下面将结合说明书附图对本发明的具体实施方式，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参考图1、图2以及图3，本实施提供了一种基于局部空间聚合神经辐射场的场景新视图生成方法，如图1所示其包括如下步骤：

S1、获取待重建场景的输入图片，使用COLMAP工具得到各个摄像机的位姿信息，得到每张图像上摄像机到各个像素的射线数字化表示。

首先使用摄像工具拍摄待重建物理的若干张照片(20张及以上，包含不重复视角，此处为30张)，将其输入COLMAP工具，经过特征提取、特征匹配、稀疏重建三个步骤得到摄像机位姿信息，再使用LLFF项目的imgs2poses.py脚本将其转换为局部光场融合(LLFF)格式的数据集，由一个npy文件包含了30张图片的17维位姿参数，并读取原始图片根据参数中的下采样倍数进行分辨率的降低，最终将位姿参数转换为3行3列的旋转变换矩阵和3行1列的平移变换矩阵和图片的宽、高、焦距以及2维的边界张量；若有缩放参数则将旋转变换矩阵与边界张量乘上缩放因子完成数据缩放，得到相机->世界坐标系的变换矩阵与渲染路径上的姿态矩阵，返回各图像的位姿信息、渲染位姿与测试索引。

根据图片的宽、高、焦距信息计算得到相机的内参矩阵，公式如下所示：

其中f为相机焦距，H为图像的高；根据各图像的高、宽与相机内参矩阵，计算得到每个像素点对应的从相机出发的射线表示，包含R_o即位姿信息中的平移变换矩阵扩展成3维大小与R_d即各像素方向单位向量在相机坐标系下的表达与旋转变换矩阵相乘得到的方向向量，公式如下所示：

R_o＝E(M_c2w[：3，-1]，R_d)

R_d[i，j]＝∑M_dirs[i，j]·M_c2w[：3，：3]

其中，M_c2w为3行4列矩阵，包含了旋转变换矩阵与平移变换矩阵，M_dirs表示每个像素在相机坐标系下的方向单位向量。

S2，构建网络结构，包含神经辐射场网络模型与局部空间信息聚合模型。

创建神经辐射场模型：(1)一个位置编码结构将采样点的3维位置表示与3维方向表示通过正弦、余弦编码映射到高维空间以描述场景中的高频信息，公式如下所示：

γ(p)＝{sin(2⁰πp)，cos(2⁰πp)，…，sin(2^L-1πp)，cos(2^L-1πp)}

其中p表示每个采样点的位置信息或方向信息，sin(·)和cos(·)分别表示正弦、余弦计算，L表示编码频率，π表示圆周率；(2)一个多层感知机(MLP)网络通过采样点信息预测得到采样点密度与颜色，参考图2的网络结构示意图可知，密度网络为8层输出维度为256维的全连接层，其中第1层输入维度为采样点位置向量维度(本例中为63维)，第5层输入维度为319维(上一层256维输出+位置向量63维)，第2、3、4、6、7、8层输入维度均为256维，随后连接一个输入256维、输出1维的全连接层得到采样点的预测密度；颜色网络为一个输入283维(密度网络第8层256维输出+方向向量27维)、输出128维的全连接层提取特征，一个输入128维、输出3维的全连接层将特征转换为采样点的预测颜色RGB值，全连接层的计算公式如下所示：

Y＝Activation(X·W+b)

X＝[x₁，x₂，...，x_n]^T

b＝[b₁，b₂，...,b_m]^T

Y＝[y₁，y₂，...，y_m]^T

其中，Y表示全连接层的输出向量，X表示全连接层的输入向量，W表示权重矩阵，b表示偏置向量，n表示输入维度，m表示输出维度，表示矩阵乘法，+表示向量之间的加法，Activation(·)表示激活函数，它可以是线性激活函数(如恒等函数)或非线性激活函数(如ReLU、Sigmoid、tanh等)。

创建局部空间信息聚合模型：基于神经辐射场网络得到的每个采样点的预测密度和颜色，本发明使用卷积神经网络对两部分分别进行局部空间的信息聚合，具体来说，使用一层输入通道数为单条射线上采样点数*1(密度)或*3(颜色)，输出通道数与输入通道数相同，卷积核大小为3*3，填充(padding)为1的等宽卷积层作用到预测密度与预测颜色上，实现局部空间中横向水平信息的交互，有：

其中表示输入数据，其中H为输入图像的高度，W为输入图像的宽度，C为输入图像的通道数。每个元素X_i，j，k表示输入数据在位置(i，j)处、通道k的值，表示卷积层的滤波器，其中K为卷积核的大小，N为滤波器的数量即输出特征图的通道数。每个滤波器F_{p，q，r，s}表示第p行、第q列、第r个输入通道和第s个输出通道的权重，计算公式如下所示：

其中表示卷积层的输出，Y_i，j，s表示输出数据在位置(i，j)处、通道s的值。

S3，依据优化采样方式选择像素作为每次网络迭代的输入，使用分层采样方式依次进行粗渲染与精渲染，输出每个采样点的预测密度与预测颜色。

在每次迭代中，随机选择某张照片中的若干个像素，为了获取并融合像素点之间的横向水平信息，本发明设计了一种取相邻像素点为patch的采样模式，具体来讲，在一张完整的图像中，随机选择若干个中心点(本例中为512个)，以这512个像素为中心，向外辐射至3*3范围的像素均纳入采样范围，这512个patch将作为神经辐射场网络的输入内容，供网络融合并学习三维空间中每个物理点及其周围局部空间中的三维信息表达，需要注意的是，为了在中心点确定之后得到合理、有效的patch，在选择中心点时应排除图像最外1圈的像素(5*5范围则为2圈，7*7范围则为3圈，以此类推)，如图3所示。

在选择好射线后需在每条射线上对三维点进行采样，本发明采用分层采样的形式，即第一轮在射线上进行等间隔的均匀采样，输入神经辐射场网络得到预测密度后，根据预测密度在密度大的区域进行非等间隔的密集采样，这样能在相同计算开销下学习到更多的场景3D信息。

S4，建立体渲染模型将每条光线上各采样点预测密度与颜色依概率计算得到该光线对应像素点颜色。

将采样光线上的采样点输入上文所述神经辐射场模型后得到各点的预测密度与颜色，之后建立体渲染模型，将物质抽象成粒子群，根据密度与颜色模拟光线在穿过物体时与粒子进行概率碰撞，综合吸收、放射、外散射与内散射四部分得到最终颜色公式如下：

其中σ(u)为预测密度，C(t)为预测颜色，在实际计算中需将连续的积分方程转换为离散的累加公式如下所示：

得到迭代过程中所选像素点的预测颜色。

S5，根据像素点的实际颜色与预测颜色，考虑局部空间颜色信息的一致性构建损失函数，并以此更新S2网络结构的参数。

得到各个像素点的预测颜色后，将预测颜色与输入图像数据的真实颜色作对比计算损失函数，为了进一步进行局部空间的信息聚合，本发明设计的损失函数分为三个部分：第一部分为预测颜色与实际颜色的均方误差(MSE)，第二部分为每个局部空间(patch)中预测颜色的均值与实际颜色的均值的L2范数，第三部分为每个patch中预测颜色的方差与实际颜色的方差的L2范数，公式如下所示：

L_total＝p₁L_color+p₂L_mean+p₃L_oariance

其中，Q表示所有采样像素的集合，P表示所有patch的集合，表示在某个像素点的预测颜色，C(p)表示真实颜色，M(·)表示对某个patch中像素点颜色求平均值，V(·)表示对某个patch中像素点颜色求方差，ρ₁，ρ₂，ρ₃分别为三部分损失函数的权重超参数，此例中分别设置为1,5e-2,1e-3，根据此损失函数使用反向传播方法对神经辐射场网络与局部空间信息聚合网络参数进行更新迭代。

在训练若干轮(本实施例中为100000轮)后基于读取数据时给出的渲染位姿，使用相同方法得到各像素的射线表示，输入训练完成的神经辐射场网络中再利用体渲染模型得到新视角渲染图像的各像素颜色，按照相应顺序排列即可得到新视角渲染图像，完成对该场景的三维重建。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，包括如下步骤：

S1、获取图像并构建数据集；

S2、将图像中每个像素对应的射线进行数字化表示；

S3、构建网络结构，包含神经辐射场网络模型与局部空间信息聚合模型，

S4、所述神经辐射场网络模型每轮迭代训练时，选择若干相邻像素对应的射线作为patch，并在这些射线上进行三维点的采样，将采样的三维点的位姿信息作为神经辐射场网络输入数据，输出各采样点的预测密度与颜色；

使用局部空间信息聚合模型对各patch中相邻采样点的密度与颜色进行局部信息的聚合；

S5、依据体渲染模型，将各采样点视为非刚性物体，依据其密度信息转换为辐射强度，并省略背景光的影响，在采样点范围内积分即可得到对应像素的预测颜色；

S6、综合考虑各像素点颜色、各patch颜色的均值与方差计算损失函数，并以最小化该值为目标更新神经辐射场网络与卷积神经网络的参数；

S7、各网络训练完成后，对于指定的视角，给出其对应的摄像机位姿参数得到待渲染像素对应射线数字化描述，输入网络即可计算对应像素的颜色，组合而成得到新视图生成图片。

2.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，所述步骤S2的具体方法为：

S2-1、将已有视角图像输入COLMAP工具进行摄像机标定，得到摄像机位姿信息；

S2-2、再结合每个像素点在相机坐标系上的归一化坐标与位姿信息中的旋转矩阵得到每个像素点对应的射线的数字化表示。

3.根据权利要求2所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，所述归一化坐标指的是每个像素点在相机坐标系上方向向量。

4.根据权利要求2所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，每个像素点对应的所述射线指的是相机坐标系上以摄像机为起点，终点为无穷远。

5.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，所述步骤S3中搭建有两个神经辐射场网络分别用于粗渲染和精渲染，所述三维点的采样方法为：随机选择若干个像素点作为patch的中心点，在其周围k*k的像素范围内选取所有的像素点。

6.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，在各条射线上采样点的确定应用分层采样方式，即分别训练两个神经辐射场网络，一个用于粗渲染，另一个用于精渲染，粗渲染时在采样范围内均匀选取采样点，精渲染采样时依据粗渲染网络的密度预测结果按比例地在光线上分配采样点。

7.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于，所述步骤S3中聚合前后张量的维度与大小不变。

8.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于：所述步骤S5中的体渲染模型具体为：

将采样光线上的采样点输入上文所述神经辐射场模型后得到各点的预测密度与颜色，之后建立体渲染模型，将物质抽象成粒子群，根据预测密度与颜色模拟光线在穿过物体时与粒子进行概率碰撞，综合吸收、放射、外散射与内散射四部分得到最终颜色公式如下：

9.根据权利要求1所述的基于局部空间聚合神经辐射场的场景新视图生成方法，其特征在于：所述步骤S6中的损失函数具体为：

包括预测颜色与实际颜色的MSE、每个patch中预测颜色的均值与实际颜色的均值的L2范数、每个patch中预测颜色的方差与实际颜色的方差的L2范数，公式如下所示：

L_total＝ρ₁L_color+ρ₂L_mean+ρ₃L_variance