CN117173315A - 基于神经辐射场的无界场景实时渲染方法、系统及设备 - Google Patents

基于神经辐射场的无界场景实时渲染方法、系统及设备 Download PDF

Info

Publication number
CN117173315A
CN117173315A CN202311452552.1A CN202311452552A CN117173315A CN 117173315 A CN117173315 A CN 117173315A CN 202311452552 A CN202311452552 A CN 202311452552A CN 117173315 A CN117173315 A CN 117173315A
Authority
CN
China
Prior art keywords
representing
space
unbounded
scene
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311452552.1A
Other languages
English (en)
Inventor
方顺
杨峰峰
崔铭
冯星
张志恒
韦建伟
张造时
王月
乔磊
孙思远
裴瑶
张柏鹏
高鹏蕊
吕艳娜
贺斌
周昊
闫茹愉
王朝鹏
杨子剑
徐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xuanguang Technology Co ltd
Original Assignee
Beijing Xuanguang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xuanguang Technology Co ltd filed Critical Beijing Xuanguang Technology Co ltd
Priority to CN202311452552.1A priority Critical patent/CN117173315A/zh
Publication of CN117173315A publication Critical patent/CN117173315A/zh
Pending legal-status Critical Current

Links

Abstract

本发明属于人工智能、计算机视觉、计算机图形学领域,具体涉及一种基于神经辐射场的无界场景实时渲染方法、系统及设备,旨在解决现有NeRF方法的特征分配存在浪费、模型训练时间长、仅能处理有界场景的渲染以及存在控制流分歧的问题。本发明方法包括:采集无边场景中任意但已知位姿的图像,作为输入图像;对输入图像中点进行标准化,标准化后,结合预构建的哈希索引表,进行位置编码;将位置编码后的特征向量输入预构建的属性预测网络,得到输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像。本发明大大减少了内存消耗,缩减了模型的训练时长、通过神经网络学习哈希值处理避免控制流分歧并实现了无界场景的渲染。

Description

基于神经辐射场的无界场景实时渲染方法、系统及设备
技术领域
本发明属于人工智能、计算机视觉、计算机图形学领域,具体涉及一种基于神经辐射场的无界场景实时渲染方法、系统及设备。
背景技术
神经辐射场(NeRF)在场景重建和新视图合成方面显示出了有希望的结果。与传统的几何和外观表示(如纹理网格)相比,NeRF不需要精确的几何和纹理重建,并且可以产生逼真的渲染结果。
但NeRF方法在使用神经图形原语时遇到了一些问题:
1)NeRF方法使用密集的网格来表示可训练特征,这会消耗大量的内存,且训练需要数天才能训练完,训练时间长;
2)NeRF方法在处理空间中将相同数量的特征分配给了空间中的空白区域和表面附近的区域,特征分布时存在浪费;
3)仅能处理有界场景,仅能处理面向前方或360度旋转的轨迹;
4)存在控制流分歧;
基于此,本发明提出了一种基于神经辐射场的无界场景实时渲染方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有NeRF方法的特征分配存在浪费、模型训练时间长、仅能处理有界场景的渲染以及存在控制流分歧的问题,本发明提出了一种基于神经辐射场的无界场景实时渲染方法,该方法包括:
步骤S100,采集无边场景中任意但已知位姿的图像,作为输入图像;
步骤S200,对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
步骤S300,将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
在一些优选的实施方式中,所述属性预测网络,其训练方法为:
步骤A100,根据各可视相机的视椎体,通过设定的空间分割树状数据结构对待渲染的无边场景下的各区域进行划分,得到各叶节点区域;划分后,对各可视相机的视图方向进行矫正并选取可视相机子集;所述设定的空间分割树状数据结构包括八叉树结构;
步骤A200,通过矫正后的可视相机在划分后的各叶节点区域内采样,采样后,通过主成分分析方法对预构建的扭曲函数求解,得到从图像空间到扭曲空间的雅可比矩阵,并对采样点进行扭曲映射,得到各采样点映射到扭曲空间中的点,记为z;
步骤A300,通过设定的哈希函数计算所述z的相邻网格顶点的哈希值,构建索引哈希表,即所述相邻网格顶点的特征向量与对应的哈希值的映射关系;
步骤A400,对步骤A200采样的点进行标准化,标准化后,结合所述索引哈希表,进行位置编码,所述位置编码包括特征编码、方向编码;
步骤A500,将位置编码后的特征向量输入预构建的属性预测网络,得到各采样点的体密度及RGB颜色,进而结合预构建的损失函数计算损失值,更新网络参数;
步骤A600,循环执行步骤A100-步骤A500,直至得到训练好的属性预测网络。
在一些优选的实施方式中,通过所述八叉树结构对所述待渲染的无边场景下的各区域进行划分,得到各叶节点区域,其方法为:
步骤A101,构建根节点:取所有可视相机的中心组成包围盒的设定倍;
步骤A102,从所述根节点开始,迭代检查所有可视相机的视椎体与各节点是否相交,若相交,则计算相交的可视相机的中心到对应节点的中心的距离,若该距离小于等于λ.s,则将当前节点划分为N个子节点,每个子节点的边长为s/2,并跳转步骤A103,否则,标记当前节点为叶节点,并跳转步骤A103;s为树节点的边长;λ表示节点权重系数;
步骤A103,重复步骤A102,直至得到所有的叶节点,即叶节点区域。
在一些优选的实施方式中,所述扭曲函数为:
其中,是扭曲函数,/>是第i个可视相机,一共n个可视相机,/>和/>是两个欧几里几何空间的任意点。
在一些优选的实施方式中,通过主成分分析方法对预构建的扭曲函数求解,得到从图像空间到扭曲空间的雅可比矩阵,其方法为:
构建扭曲矩阵M,使得,/>,表示空间点在所有可视相机的二维投影坐标;
在各叶节点区域S内均匀采样设定数量的点,并投影到所选的可视相机中,得到投影坐标;
构建协方差矩阵,其中/>是所有投影坐标的平均坐标,T表示转置,K表示投影坐标;
通过对所述协方差矩阵进行特征分解,得到三个最大特征值的特征向量,形成矩阵M’;
构建对角线矩阵,使得M=SM’;从图像空间到扭曲空间的雅可比矩阵可表示为
通过下式,求出S矩阵,也就是参数
其中,表示从原始空间到图像空间的雅可比矩阵,/>表示从原始空间到扭曲空间的雅可比矩阵;
对于所有采样点,每个采样点都有参数/>,用所有参数/>的平均值作为最终的缩放参数,进而得到M,进而得到从图像空间到扭曲空间的雅可比矩阵。
在一些优选的实施方式中,通过设定的哈希函数计算z的相邻网格顶点的哈希值,其方法为:
其中,是第i个叶节点哈希函数,/>表示按位或运算,/>和/>是随机的大素数,/>表示扭曲空间的x,y,z坐标的索引,L是哈希表的长度,/>表示z的相邻网格顶点。
在一些优选的实施方式中,所述属性预测网络其在训练过程中的损失函数为:
其中,表示总损失,/>、/>、/>分别表示不同损失对应的正则化系数,/>表示颜色重建损失,/>表示视差损失,/>表示总方差损失,/>表示屏幕像素真实颜色值,/>表示属性预测网络输出的RGB颜色,/>,/>表示体渲染权重,/>表示第i个采样点到相机像素点的距离,/>表示可视相机发出射线的数量,/>表示当前颜色的贡献系数,/>表示边界点的数量,/>、/>表示使用两个相邻八叉树节点的不同哈希函数从索引哈希表中提取出的特征向量。
本发明的第二方面,提出了一种基于神经辐射场的无界场景实时渲染系统,该系统包括:
图像采集模块,配置为采集无边场景中任意但已知位姿的图像,作为输入图像;
位置编码模块,配置为对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
图像渲染模块,配置为将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
本发明的第三方面,提出了一种基于神经辐射场的无界场景实时渲染设备,包括:
至少一个处理器;以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的一种基于神经辐射场的无界场景实时渲染方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的一种基于神经辐射场的无界场景实时渲染方法。
本发明的有益效果:
本发明大大减少了内存消耗,缩减了模型的训练时长、通过神经网络学习哈希值处理避免控制流分歧并实现了无界场景的渲染。
1)本发明使用多分辨率哈希编码来存储可训练特征,大大减少了内存消耗,缩短训练时间,只需要几分钟训练时间。其次,通过使用多个分辨率的哈希表来存储特征向量,并在通过多层感知器传递之前将它们插值和连接起来,从而减少了浪费。并通过让神经网络学习如何处理哈希冲突来避免了传统方法中的控制流分歧,提高了性能,解决了传统方法中的内存消耗和特征分布浪费的问题,从而提高了效率和灵活性。
2)本发明通过扭曲映射,可处理无界场景,可以处理以物体为中心的任意轨迹,为大型、无边界场景提供了自有的相机轨迹。
3)本发明可以做到实时渲染,一方面相比于神经辐射场(NeRF)的神经网络来说,现在的网络特别简单,一共两个MLPs,一个1层,一个2层,每层通道数也减少到64个,所以本发明神经网络是大幅轻量化的;另一方面,因为本发明使用了哈希表存储特征向量,任一点,都可以直接通过哈希表来查找,然后再输入到网络中,这是能够大幅减轻神经网络层数的原因。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1 是本发明一种实施例的基于神经辐射场的无界场景实时渲染方法的流程示意图;
图2为本发明一种实施例的属性预测网络的训练过程示意图;
图3是本发明一种实施例的划分空间的示意图;
图4是本发明一种实施例的可视相机矫正前后的对比示意图;
图5是本发明一种实施例的哈希映射的示意图;
图6是本发明一种实施例的属性预测网络的结构示意图;
图7是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明第一实施例的一种基于神经辐射场的无界场景实时渲染方法,如图1所示,该方法包括:
步骤S100,采集无边场景中任意但已知位姿的图像,作为输入图像;
步骤S200,对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
步骤S300,将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
为了更清晰地对本发明一种基于神经辐射场的无界场景实时渲染方法进行说明,下面结合附图2,对本发明方法一种实施例中各步骤进行展开详述。
在下述实施例中,先对属性预测网络的训练过程进行描述,再对通过基于神经辐射场的无界场景实时渲染方法重建新视角渲染后的三维图像的过程进行描述。
1、属性预测网络的训练过程
步骤A100,根据各可视相机的视椎体,通过设定的空间分割树状数据结构对待渲染的无边场景下的各区域进行划分,得到各叶节点区域;划分后,对各可视相机的视图方向进行矫正并选取可视相机子集;所述设定的空间分割树状数据结构包括八叉树结构;
在自由轨迹中,不同区域的可见相机是不同的,这使得我们要自适应地将空间细分为不同的区域,如图3所示,黑色实体框为可视相机,相乘的扇形是可视相机的拍照区域,黑色的圆点为要求颜色和体密度的点。因此,扭曲函数在一个区域内使用的可见相机是相同的,但在各个区域之间是不同的。
在本实施例中,优选采用八叉树结构来存储细分区域,这可以快速检索可见相机,具体如下:
步骤A101,构建根节点:取所有可视相机的中心组成包围盒的设定倍;本发明优选为512倍。
步骤A102,若一个树节点的边长为s,则从所述根节点开始,迭代检查所有可视相机的视椎体与各节点是否相交,若相交,则计算相交的可视相机的中心到对应节点的中心的距离,若该距离小于等于λ.s,则将当前节点划分为N个子节点,N优选为8,每个子节点的边长为s/2,并跳转步骤A103,否则(即不想交,或者相交但不满足),则说明当前节点已经足够小了,不需要再细分下去了,标记当前节点为叶节点,并跳转步骤A103;λ表示节点权重系数;
步骤A103,重复上述步骤(即步骤A102),直至得到所有的叶节点,其中/>表示第i个叶节点对应的空间区域,/>表示叶节点总数,即叶节点区域。
划分后,对各可视相机的视图方向进行矫正并选取可视相机子集,具体为:
在获得一组视锥体与叶节点相交的可见相机后,发现这些可视相机并不是所有都适用于计算透视扭曲,因为一些可视相机并没有完全覆盖该区域,如图4左图所示。为了解决这个问题,可以采用一种相机矫正策略,即旋转相机视图方向,使其看起来位于区域S的中心。这种相机矫正策略可以确保区域S内大多数点可以扭曲到有意义的坐标。
另外,如果将所有可视相机按照它们到S区域中心的距离以相同的距离r对齐,可以帮助提高渲染质量,这里的r是个经验值,比如设置为距离区域S最近的4个相机与S中心距离平均值的1/4。
相机选择:当可视相机数量大于时,可以选择相机的子集以便提高计算效率;每次选择/>个相机,但每次/>个相机的选择都可能不一样,这样每个训练batch选择的相机是不一样的,但总数都是/>个。
选择方法为:先随机选择一个相机作为种子相机,然后重复添加个最远可见的相机。
步骤A200,通过矫正后的可视相机在划分后的各叶节点区域内采样,采样后,通过主成分分析方法对预构建的扭曲函数求解,得到从图像空间到扭曲空间的雅可比矩阵,并对采样点进行扭曲映射,得到各采样点映射到扭曲空间中的点,记为z;
透射相机(即可视相机)的特点是近大远小,导致远处的图像空间被扭曲了,因此需要扭曲原始的欧几里德几何空间,并在扭曲空间中建立轴对称网格,以便让这些网格与相机射线对齐。对于拍摄无限场景的一张图片,需要将这张无限场景转换为有界场景,这种转换方式就是扭曲映射,转换的函数就叫扭曲函数;
在本实施例中,扭曲函数为:
(1)
其中,是扭曲函数,/>是第i个可视相机,一共n个可视相机,/>和/>是两个欧几里几何空间的任意点。
任意两点在扭曲空间的距离(即上式左侧)等于所有相机中两点的距离之和(即上式右侧)。因此扭曲函数是否合适是一个相对值,因为它仅与相机有关,不同相机数量、角度,都会影响这个值。
通过主成分分析方法对预构建的扭曲函数求解,具体如下:
构建扭曲矩阵M,使得,/>,表示空间点在所有可视相机的二维投影坐标;
在各叶节点区域S内均匀采样设定数量的点(本发明优选采样n=323个点),并投影到所选的/>可视相机中,得到投影坐标,进而得到高位坐标;
(2)
一共个可视相机,/>表示点/>在第1个可视相机的投影坐标,表示点/>在第1、2…/>个可视相机的投影坐标,是第1个可视相机的uv坐标,/>表示/>投影到所有/>个可视相机上的uv坐标,并连接称为一个长向量。
构建协方差矩阵,其中/>是所有投影坐标的平均坐标,T表示转置,K表示投影坐标;
通过对所述协方差矩阵进行特征分解,得到三个最大特征值的特征向量,形成矩阵。定义了投影轴的方向;
然后通过缩放每个轴来执行归一化。具体来说,需要找到三个参数,并组成对角线矩阵S,使得M=SM’。希望扭曲空间中的单位长度可以与图像空间中的单位长度近似对齐,也就是对于扭曲空间的每个轴,当一个点沿着该轴移动单位长度时,我们希望所有图像坐标的最大空间旋转近似为一个像素长度;
从原始空间到图像空间的雅可比矩阵可表示为,/>表示从原始空间到扭曲空间的雅可比矩阵,从图像空间到扭曲空间的雅可比矩阵可表示为,本实施例的目标是计算雅可比矩阵/>,并对/>每个列向量的最大值等于1。
通过下式,求出S矩阵,也就是参数
(3)
对于所有采样点,每个采样点都有参数/>,用所有参数/>的平均值作为最终的缩放参数,进而得到M,进而得到从图像空间到扭曲空间的雅可比矩阵。
步骤A300,通过设定的哈希函数计算所述z的相邻网格顶点的哈希值,构建索引哈希表,即所述相邻网格顶点的特征向量与对应的哈希值的映射关系;
图5中仅展示了l=0、l=1两个等级,L是级别,实际上,L=16。T是每级哈希表的大小,具体来说,,实际使用中,/>。F是特征的维度,具体来说,F=2。/>是最粗糙分辨率,具体来说,/>。/>是最精细分辨率,具体来说,/>
对于级分辨率/>,即向下取整,其中/>,b称为增长因子,/>。对于输入坐标/>,其在/>级分辨率中有/>个顶点,构成一个体素,这里d表示维度,d=3即式三维。可以求出/>,/>,即分别上取整和下取整来获得两个整数顶点坐标,进而可以算出体素所有/>顶点的坐标。然后每个顶点通过/>级哈希表,索引到对应的特征向量(注意,这里所有等级使用同一哈希函数,会导致重复的问题,后文将探讨解决办法)。
因为不同叶节点使用了不同的相机,所以不同叶节点扭曲空间不同,有个叶节点,就有/>个扭曲空间。而参数的数量会随着叶节点的数量而增加,为了限制参数的数量,我们假设所有扭曲函数将不同叶节点映射到同一扭曲空间,并在扭曲空间上构建一个哈希-网格表,有多个哈希函数。
不同叶节点共享相同扭曲空间,将不可避免地导致冲突,比如两个叶节点中的两个不同的点(具有不同密度和颜色),将被映射到扭曲空间中的同一个点。
为了解决这个问题,本发明对不同叶节点采用不同哈希函数来计算每个网格的顶点。
对于第i个叶节点中的x点,映射到扭曲空间中的点是,然后找到z的8个相邻网格顶点/>(具有整数坐标);
然后通过第i个叶节点哈希函数来计算每个顶点的哈希值;
(4)
其中,是第i个叶节点哈希函数,/>表示按位或运算,/>和/>是随机的大素数,对于特定叶节点其值是固定的(比如对于第i个的hash函数中的/>和/>是固定不变的,且与/>和/>不同,其中i≠j),/>表示扭曲空间的x,y,z坐标的索引,L是哈希表的长度。
通过上述公式计算出来的哈希值将用于索引哈希表,以便检索出顶点的特征向量。然后,扭曲空间点z的特征向量是8个网格顶点/>的特征向量的三线性插值。最后,z的特征向量和视角方向d输入到一个tiny-MLPs网络中,以产生颜色和密度,如图1所示。
步骤A400,对步骤A200采样的点进行标准化,标准化后,结合所述索引哈希表,进行位置编码,所述位置编码包括特征编码、方向编码;
在本实施例中,输入可以是LLFF和NeRF-360-V2两个数据集中的图像(LLFF和NeRF-360-V2为本发明优选的图像集,在其他实施例中可以根据实际情况选取),也可以是自己拍摄的,然后对输入进行标准化。
合适的扭曲函数可以为体渲染的射线点采样提供支持。根据适合的扭曲函数的定义,扭曲空间两点之间的距离等于图像平面上两个投影点之间的距离之和。因此,在扭曲空间进行均匀采样,则相当于在原始欧几里德空间中进行了非均匀采样,这提高了采样效率,并带来了更稳定的收敛性。
具体来说,对于相机某一像素发射的射线,相机每个像素发射射线:
(5)
其中是相机像素点位置,即射线起点,/>是观测方向,t是行进距离。
首先计算透射扭曲函数的雅可比矩阵/>,然后下一个采样点,其中/>是控制采样间隔的预设参数,这里可以采用一个线性近似。
当前采样点,则下一个采样点/>,使得,其中/>是控制样本密度的参数,即单位立方体在扭曲空间中的对角线长度,一个经验值/>。为了更有效地计算原始空间中的步进/>,本发明采用了线性近似:
(6)
是在点/>处,从原始空间到扭曲空间的雅可比矩阵,/>和/>的距离近似为/>,而这个距离为/>,所以/>
采样点p的位置是xyz三维向量,编码之前需要先将原始数据标准化到[-1,1]范围,并按如下方式进行编码:
1)特征编码
对于粒子特征向量来说,一个粒子点能找到8个体素网格顶点,每个顶点都能从哈希表中找到一个特征向量,所以一共是8个向量,sin和cos一共2个,一共进行了L=10次,xyz三个坐标都需要进行编码,因此一共8*10*2=160个参数。
2)方向编码
对于相机方向来说,方向是3维向量,一共进行了L=4次,因此一共3*4*2=24个参数。
步骤A500,将位置编码后的特征向量输入预构建的属性预测网络,得到各采样点的体密度及RGB颜色,进而结合预构建的损失函数计算损失值,更新网络参数;
在本实施例中,仅属性预测部分使用到了神经网络,优选采用两个多层感知机(MLPs),第1个MLPs仅1层、64个通道,输出体密度,并将体密度的特征向量输入到第2个MLPs中。第2个MLPs输入体密度特征向量,以及相机方向向量,网络的隐藏层由2层、64通道/层构成,输出当前点的RGB颜色。如图6所示。
属性预测网络其在训练过程中的损失函数为:
(5)
(6)
(7)
(8)
(9)
(10)
其中,表示总损失,/>、/>、/>分别表示不同损失对应的正则化系数,/>表示颜色重建损失,/>表示视差损失,是一种正则化损失,视差损失鼓励视差不要太大,这对减少漂浮的伪影有改善作用,视差disparity是通过采样逆距离的加权和,/>表示总方差损失,也是一种正则化损失,它鼓励两个相邻八叉树节点的边界处具有相似的密度和颜色,/>表示屏幕像素真实颜色值,/>表示属性预测网络输出的RGB颜色,,/>表示体渲染权重,/>表示第i个采样点到相机像素点的距离,/>表示可视相机发出射线的数量, 比如对于1024*1024分辨率的相机,那/>,/>表示当前颜色的贡献系数,/>,/>为其体密度,/>表示相邻两个采样点的距离,/>表示边界点的数量,/>、/>表示使用两个相邻八叉树节点的不同哈希函数从哈希索引表中提取出的特征向量。在迭代训练时,每次随机取个八叉树叶节点的边界点。对于每个采样点k,/>、/>是使用两个相邻八叉树节点的不同哈希函数从哈希表中提取出的特征向量。
步骤A600,循环执行步骤A100-步骤A500,直至得到训练好的属性预测网络。
2、基于神经辐射场的无界场景实时渲染方法
步骤S100,采集无边场景中任意但已知位姿的图像,作为输入图像;
在本实施例中,先采集一系列的无边场景任意但已知位姿的图像作为输入。
在实际应用中,以沿着主相机轨道的所有相机图像(即无边场景任意但已知位姿的图片)作为输入,但每次只输入几张临近的相机的照片。所谓主相机就是用于新视角图片合成与渲染输出相机,而其他相机是用于拍摄输入图片的,拍摄一张图片作为输入,所以不会把一台相机一直放在那个位置,只是一张图片的概念。主相机沿着轨道路径不断向前运动,然后通过输入不同的输入图片,从而产生新的视角视图。
步骤S200,对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
在本实施例中,对所述输入图像中点(即采集的空间点)进行标准化,标准化以及位置编码详见步骤A400的内容。
步骤S300,将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像。
在本实施例中,相机发出的射线是连续的,有无穷尽的点,为了简化,对这个连续的点离散化,通过采样点来估算。因此屏幕像素颜色的公式为:
(6)
上述公式由等号变成了约等号,因为用少量采样点来估算的值。采样点一共有N个,所有采样点的颜色贡献之和,就是屏幕像素颜色,是当前颜色的贡献系数,其中/>为其体密度,/>表示相邻两个采样点的距离,/>表示累计透射率,/>,/>还是第i个粒子点的颜色,即RGB颜色,通过多层感知机预估出来。即所述输入图像中的点(即采集的空间戴南)的体密度及RGB颜色,进而合成新视角渲染后的图像。
与现有技术相比,本发明可以做到实时渲染,一方面相比于神经辐射场(NeRF)的神经网络来说,现在的网络特别简单,一共两个MLPs,一个1层,一个2层,每层通道数也减少到64个,所以本发明神经网络是大幅轻量化的。另一方面,因为本发明使用了哈希表存储特征向量,任一点,都可以直接通过哈希表来查找,然后再输入到网络中,这是能够大幅减轻神经网络层数的原因。
本发明第二施例的一种基于神经辐射场的无界场景实时渲染系统,该系统包括:
图像采集模块,配置为采集无边场景中任意但已知位姿的图像,作为输入图像;
位置编码模块,配置为对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
图像渲染模块,配置为将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
需要说明的是,上述实施例提供实施例的基于神经辐射场的无界场景实时渲染系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种基于神经辐射场的无界场景实时渲染设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于神经辐射场的无界场景实时渲染方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于神经辐射场的无界场景实时渲染方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的基于神经辐射场的无界场景实时渲染设备、计算机可读存储介质的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
下面参考图7,其示出了适于用来实现本申请方法、系统、电子设备、可读存储介质实施例的服务器的计算机系统的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分709。通讯部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通讯部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于神经辐射场的无界场景实时渲染方法,其特征在于,该方法包括:
步骤S100,采集无边场景中任意但已知位姿的图像,作为输入图像;
步骤S200,对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
步骤S300,将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
2.根据权利要求1所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,所述属性预测网络,其训练方法为:
步骤A100,根据各可视相机的视椎体,通过设定的空间分割树状数据结构对待渲染的无边场景下的各区域进行划分,得到各叶节点区域;划分后,对各可视相机的视图方向进行矫正并选取可视相机子集;所述设定的空间分割树状数据结构包括八叉树结构;
步骤A200,通过矫正后的可视相机在划分后的各叶节点区域内采样,采样后,通过主成分分析方法对预构建的扭曲函数求解,得到从图像空间到扭曲空间的雅可比矩阵,并对采样点进行扭曲映射,得到各采样点映射到扭曲空间中的点,记为z;
步骤A300,通过设定的哈希函数计算所述z的相邻网格顶点的哈希值,构建索引哈希表,即所述相邻网格顶点的特征向量与对应的哈希值的映射关系;
步骤A400,对步骤A200采样的点进行标准化,标准化后,结合所述索引哈希表,进行位置编码,所述位置编码包括特征编码、方向编码;
步骤A500,将位置编码后的特征向量输入预构建的属性预测网络,得到各采样点的体密度及RGB颜色,进而结合预构建的损失函数计算损失值,更新网络参数;
步骤A600,循环执行步骤A100-步骤A500,直至得到训练好的属性预测网络。
3.根据权利要求2所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,通过所述八叉树结构对所述待渲染的无边场景下的各区域进行划分,得到各叶节点区域,其方法为:
步骤A101,构建根节点:取所有可视相机的中心组成包围盒的设定倍;
步骤A102,从所述根节点开始,迭代检查所有可视相机的视椎体与各节点是否相交,若相交,则计算相交的可视相机的中心到对应节点的中心的距离,若该距离小于等于λ.s,则将当前节点划分为N个子节点,每个子节点的边长为s/2,并跳转步骤A103,否则,标记当前节点为叶节点,并跳转步骤A103;s为树节点的边长;λ表示节点权重系数;
步骤A103,重复步骤A102,直至得到所有的叶节点,即叶节点区域。
4.根据权利要求2所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,所述扭曲函数为:
其中,是扭曲函数,/>是第i个可视相机,一共n个可视相机,/>和/>是两个欧几里几何空间的任意点。
5.根据权利要求4所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,通过主成分分析方法对预构建的扭曲函数求解,得到从图像空间到扭曲空间的雅可比矩阵,其方法为:
构建扭曲矩阵M,使得,/>,表示空间点在所有可视相机的二维投影坐标;
在各叶节点区域S内均匀采样设定数量的点,并投影到所选的可视相机中,得到投影坐标;
构建协方差矩阵,其中/>是所有投影坐标的平均坐标,T 表示转置,K表示投影坐标;
通过对所述协方差矩阵进行特征分解,得到三个最大特征值的特征向量,形成矩阵M’;
构建对角线矩阵,使得M=SM’;从图像空间到扭曲空间的雅可比矩阵可表示为
通过下式,求出S矩阵,也就是参数
其中,表示从原始空间到图像空间的雅可比矩阵,/>表示从原始空间到扭曲空间的雅可比矩阵;
对于所有采样点,每个采样点都有参数/>,用所有参数/>的平均值作为最终的缩放参数,进而得到M,进而得到从图像空间到扭曲空间的雅可比矩阵。
6.根据权利要求5所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,通过设定的哈希函数计算z的相邻网格顶点的哈希值,其方法为:
其中,是第i个叶节点哈希函数,/>表示按位或运算,/>和/>是随机的大素数,/>表示扭曲空间的x,y,z坐标的索引,L是哈希表的长度,/>表示z的相邻网格顶点。
7.根据权利要求4所述的基于神经辐射场的无界场景实时渲染方法,其特征在于,所述属性预测网络其在训练过程中的损失函数为:
其中,表示总损失,/>、/>、/>分别表示不同损失对应的正则化系数,/>表示颜色重建损失,/>表示视差损失,/>表示总方差损失,/>表示屏幕像素真实颜色值,/>表示属性预测网络输出的RGB颜色,/>,/>表示体渲染权重,/>表示第i个采样点到相机像素点的距离,/>表示可视相机发出射线的数量,/>表示当前颜色的贡献系数,/>表示边界点的数量,/>、/>表示使用两个相邻八叉树节点的不同哈希函数从索引哈希表中提取出的特征向量。
8.一种基于神经辐射场的无界场景实时渲染系统,其特征在于,该系统包括:
图像采集模块,配置为采集无边场景中任意但已知位姿的图像,作为输入图像;
位置编码模块,配置为对所述输入图像中点进行标准化,标准后,结合预构建的索引哈希表,进行位置编码;所述位置编码包括特征编码、方向编码;
图像渲染模块,配置为将位置编码后的特征向量输入预构建的属性预测网络,得到所述输入图像中的点的体密度及RGB颜色,进而得到新视角渲染后的图像;
所述属性预测网络包括两个多层感知机,分别作为第一感知机、第二感知机;其中,所述第一感知机的输入为特征向量,输出为体密度;所述第二感知机的输入为体密度、相机方向向量,输出为当前点的RGB颜色。
9.一种基于神经辐射场的无界场景实时渲染设备,其特征在于,包括:
至少一个处理器;以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的一种基于神经辐射场的无界场景实时渲染方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-7任一项所述的一种基于神经辐射场的无界场景实时渲染方法。
CN202311452552.1A 2023-11-03 2023-11-03 基于神经辐射场的无界场景实时渲染方法、系统及设备 Pending CN117173315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311452552.1A CN117173315A (zh) 2023-11-03 2023-11-03 基于神经辐射场的无界场景实时渲染方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311452552.1A CN117173315A (zh) 2023-11-03 2023-11-03 基于神经辐射场的无界场景实时渲染方法、系统及设备

Publications (1)

Publication Number Publication Date
CN117173315A true CN117173315A (zh) 2023-12-05

Family

ID=88941646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311452552.1A Pending CN117173315A (zh) 2023-11-03 2023-11-03 基于神经辐射场的无界场景实时渲染方法、系统及设备

Country Status (1)

Country Link
CN (1) CN117173315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117745916A (zh) * 2024-02-19 2024-03-22 北京渲光科技有限公司 多张多类型模糊图像的三维渲染方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861546A (zh) * 2022-12-23 2023-03-28 四川农业大学 一种基于神经体渲染的作物几何感知与三维表型重建方法
WO2023080921A1 (en) * 2021-11-03 2023-05-11 Google Llc Neural radiance field generative modeling of object classes from single two-dimensional views

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080921A1 (en) * 2021-11-03 2023-05-11 Google Llc Neural radiance field generative modeling of object classes from single two-dimensional views
CN115861546A (zh) * 2022-12-23 2023-03-28 四川农业大学 一种基于神经体渲染的作物几何感知与三维表型重建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BEN MILDENHALL 等: "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", COMPUTER VISION–ECCV 2020, pages 405 *
PENGWANG等: "F2-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories -Supplementary-", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 1 - 6 *
PENGWANG等: "F2-NeRF:Fast Neural Radiance Field Training with Free Camera Trajectories", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 4152 - 4157 *
THOMAS MÜLLER: "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", ACM TRANSACTIONS ON GRAPHICS, vol. 41, no. 4, pages 1 - 15, XP059129619, DOI: 10.1145/3528223.3530127 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117745916A (zh) * 2024-02-19 2024-03-22 北京渲光科技有限公司 多张多类型模糊图像的三维渲染方法和系统

Similar Documents

Publication Publication Date Title
CN114549731B (zh) 视角图像的生成方法、装置、电子设备及存储介质
Wynn et al. Diffusionerf: Regularizing neural radiance fields with denoising diffusion models
CN112465955A (zh) 一种动态人体三维重建和视角合成方法
CN113450396B (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN110517352B (zh) 一种物体的三维重建方法、存储介质、终端及系统
CN103559737A (zh) 一种对象全景建模方法
CN117173315A (zh) 基于神经辐射场的无界场景实时渲染方法、系统及设备
CN115115797B (zh) 大场景稀疏光场语义驱动智能重建方法、系统与装置
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
CN114666564A (zh) 一种基于隐式神经场景表示进行虚拟视点图像合成的方法
CN116958453B (zh) 基于神经辐射场的三维模型重建方法、设备和介质
Ye et al. Consistent-1-to-3: Consistent image to 3d view synthesis via geometry-aware diffusion models
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
CN115797561A (zh) 三维重建方法、设备及可读存储介质
CN116993826A (zh) 一种基于局部空间聚合神经辐射场的场景新视图生成方法
CN115205463A (zh) 基于多球面场景表达的新视角图像生成方法、装置和设备
CN116134491A (zh) 用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测
WO2022222011A1 (zh) 一种可驱动的隐式三维人体表示方法
CN117058302A (zh) 一种基于NeRF的可泛化性场景渲染方法
CN115953551A (zh) 一种基于点云初始化和深度监督的稀疏网格辐射场表示方法
Madhusudana et al. Revisiting dead leaves model: Training with synthetic data
Müller et al. Unbiased Gradient Estimation for Differentiable Surface Splatting via Poisson Sampling
JP2023079022A (ja) 情報処理装置及び情報生成方法
CN114723915A (zh) 一种基于多视红外的稠密点云生成方法
Jignasu et al. Plant geometry reconstruction from field data using neural radiance fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination