CN117197323A - 一种基于神经网络的大场景自由视点插值方法及装置 - Google Patents
一种基于神经网络的大场景自由视点插值方法及装置 Download PDFInfo
- Publication number
- CN117197323A CN117197323A CN202311114443.9A CN202311114443A CN117197323A CN 117197323 A CN117197323 A CN 117197323A CN 202311114443 A CN202311114443 A CN 202311114443A CN 117197323 A CN117197323 A CN 117197323A
- Authority
- CN
- China
- Prior art keywords
- block
- color
- point
- grid
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000009877 rendering Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 24
- 230000010354 integration Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Generation (AREA)
Abstract
本发明公开了一种基于神经网络的大场景自由视点插值方法及装置,包括以下四个步骤,1、对场景进行拍摄,并把图片作为输入计算全局网格模型和相机参数;2、把步骤1计算得到的全局网格模型剖分成块,并为每个块创建哈希网格以及两个解码器,解码器分别用于解码漫反射和反射;3、为步骤2建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征,解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;4、利用步骤3训练完成的模型,进行基于点混合的多块渲染。通过本发明提出的方法,可同时适用于室内和室外大场景,实现照片级别真实的高质量渲染。可用于虚拟现实场景构建等相关领域。
Description
技术领域
本发明涉及计算机视觉及图形学领域,特别是涉及一种基于神经网络的大场景自由视点插值方法及装置。
背景技术
近年来基于神经网络的视点插值算法发展迅速,其基本理论是编码一个基于坐标点的三维空间光照场,并利用体渲染技术(参见Mildenhall B,Srinivasan P P,Tancik M,et al.Nerf:Representing scenes as neural radiance fields for view synthesis[C]//European conference on computer vision.Springer,Cham,2020:405-421.)完成对光照场的渲染。神经光照场的优势在于可以较好地重建出反射,压缩场景存储消耗。
当前基于神经网络来编码光场仍然存在许多问题,尤其是应用到大规模场景上。首先,相机位姿在大规模场景重建中的精准度不高,导致最终渲染质量低,存在模糊区域;其次,大场景的训练速度慢,细节重建难度大,单卡训练大场景容易存在显存溢出等问题;最后,如何实现高质量大场景渲染仍具有挑战。
发明内容
本发明目的在于针对现有技术的不足,提供了一种基于神经网络的大场景自由视点插值方法及装置。可以分布式优化大场景的同时优化相机位姿,实现高质量渲染。
为了达到上述目的,本发明采用以下技术方案:第一方面,本发明提供了一种基于神经网络的大场景自由视点插值方法,包括以下步骤:
(1)对某个视角下的场景进行拍摄,基于图片计算全局网格模型和相机参数;
(2)把步骤(1)计算得到的全局网格模型剖分成块,并为每个块创建哈希网格、漫反射解码器和反射解码器,基于哈希网格得到哈希特征,并通过漫反射解码器和反射解码器得到三维点颜色,并通过体渲染积分得到一条光线的颜色;
(3)为步骤(2)建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征、解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;
(4)利用步骤(3)训练完成的模型,在光线上进行采样点,基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色。
进一步地,步骤(1)中,将拍摄的图片输入三维重建软件CapturingReality,得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。
进一步地,步骤(2)中,设定块的尺寸,从全局网格模型的最小角点开始剖分块,块与块之间存在20%的重叠区域,并丢弃内部不包含相机的块。
进一步地,步骤(2)中,哈希网格的输入是世界坐标系下的三维点x,输出是多层级哈希特征fx:
fx=φθ(x)
其中,φθ表示哈希网格,θ表示优化参数;
漫反射解码器输入多层级哈希特征fx,输出为64维度的特征,基于前32维度的特征得到体密度、漫反射颜色以及反射系数:
Dθ(fx)=(σx,cd,s,hx)
其中,Dθ表示漫反射解码器,σx表示体密度,cd表示漫反射颜色,s表示反射系数,hx表示后32维度的特征;
反射解码器输入为球谐基函数sh对光线方向ω的编码以及漫反射解码器输出的后32维特征hx,输出是反射颜色cs:
Sθ(sh(ω),hx)=cs
其中,Sθ表示反射解码器,因此,三维点颜色被表示为:
c=cd+s·cs
其中,c为三维点x的颜色,利用体渲染公式积分得到一条光线的颜色。
进一步地,步骤(3)中,利用相机位姿和全局网格模型为每个块分配光线,如果光线发射位置位于块内,则直接被选为该块的训练光线;如果光线发射位置位于块外,满足光线与块相交且没有被遮挡,则被选为该块的训练光线;每个块独立编码块内前景以及块外背景颜色,块内空间三维点用于表达前景,块外三维点用于表达背景;前景与背景共享哈希网格特征以及两个解码器参数。
进一步地,步骤(3)中,训练过程中为每个块存储一份几何网格,通过哈希网格和解码器获得几何网格内三维点的体密度,若1-exp(-σx)<λ,则对几何网格进行剪枝,λ为剪枝的阈值;
通过两条导数链优化相机位姿:1.损失对哈希网格特征的梯度通过空间三维点传递到相机位姿;2.扭曲损失对相机变换矩阵的梯度传递到相机位姿;
扭曲损失帮助优化几何以及相机位姿,优化后参数回传,优化哈希网格特征,解码器参数。
进一步地,渲染光线的前景颜色具体过程为:若一个采样点只被某个块单独占有,则使用该块对应的哈希网格和解码器推理该点的颜色与体密度;若该采样点在块间重叠区域,则使用点混合方式推理该点的前景颜色cf与体密度:
其中,S(xn)表示包含点xn的块集合,表示块k对于点xn的混合权重;该权重与点和块边界的距离有关,在两个块的重叠区域;N表示为光线上采样点的数量,n为采样点编号,/>表示第n个采样点在块k内的体密度;/>表示前景采样点的可见性;δn表示第n个采样点到第n+1个采样点的距离;/>第n个采样点在块k内的颜色。
进一步地,渲染光线的背景颜色具体过程为:利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色,若同时穿出多个块,即穿出点xN被多个块包含,则加权混合背景颜色cb:
其中,S′(xN)表示包含出射点xN的块集合,是积分完成的背景颜色,Tn表示背景采样点的可见性;最后光线的颜色表示为
第二方面,本发明还提供了一种基于神经网络的大场景自由视点插值装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于神经网络的大场景自由视点插值方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于神经网络的大场景自由视点插值方法。
本发明的有益效果在于:
1、统一室内室外场景的表达。把远景和反射物体同时编码在背景,同时利用反射解码器拟合高光和其他视角相关效果。
2、分块表达大场景,利用交替方向乘子法分布式训练块相关哈希网格特征和网络,同时优化相机位姿。加快了训练速度,提升了可扩展性,避免了单卡编码大场景存在的显存问题。
3、实现高质量渲染,渲染指标PSNR在测试的2个室内场景和4个室外场景中平均提升5%-10%。渲染清晰的近景、远景、反射以及实现块间颜色的平滑过度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明方法的流程图;
图2为本发明对于场景表达的示意图;
图3为背景点采样的示意图;
图4为本发明体素化训练的示意图;
图5为本发明一种基于神经网络的大场景自由视点插值装置的结构图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供了一种基于神经网络的大场景自由视点插值方法,大场景的重建可以理解为对光场信号的重建。其输入是拍摄的照片,相当于对光场信号的采样。对光场信号的自由视点插值,即可以不受拍摄采样视点的约束,可以在未拍摄过的视点实现对于大场景的渲染。该方法具体包括以下四个步骤:
1.对某个视角下的场景进行拍摄,基于图片计算全局网格模型和相机参数;
2.把步骤1计算得到的全局网格模型剖分成块,并为每个块创建哈希网格、漫反射解码器和反射解码器,基于哈希网格得到哈希特征,并通过漫反射解码器和反射解码器得到三维点颜色,并通过体渲染积分得到一条光线的颜色;
3.为步骤2建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征、解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;
4.利用步骤3训练完成的模型,在光线上进行采样点,基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色。
下面结合图2-图4对本发明详细说明。
现具体介绍本发明的四个步骤:
(1)对某个视角下的场景进行拍摄,并把图片作为输入计算全局网格模型和相机参数,具体为:利用三维重建软件CapturingReality(参见CapturingReality.2016.Reality capture,http://capturingreality.com.),把拍摄图片作为输入,得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。
(2)把步骤1计算得到的全局网格模型剖分成块,并为每个块创建哈希网格以及两个解码器,解码器分别用于解码漫反射和反射,具体位:给定一个块的尺寸,从全局网格模型的最小角点开始剖分块,块与块之间存在20%的重叠区域,丢弃内部不包含相机的块,为保留下来的块创建哈希网格φθ(θ表示优化参数),漫反射解码器Dθ和反射解码器Sθ。
哈希网格φθ共有16个层级,分辨率从最低32,上升到最高的4096(室内场景)/8192(室外场景),每个层级l的分辨率的计算方式如下:
Nmax,Nmin分别表示最大和最小分辨率。
哈希特征的尺寸为每个层级224,哈希特征的维度是2。哈希网格的输入是世界坐标系下的三维点x,输出是多层级的特征fx:
fx=φθ(x)
漫反射解码器Dθ包含一个深度为2,宽度为64的多层感知机和3个深度为1,宽度为32的多层感知机,其中,深度为2的多层感知机输入是多层级哈希特征fx,输出是64维度的特征,该特征的前32维分别输入到3个深度为1的多层感知机得到体密度σx,漫反射颜色cd以及反射系数s,后32维特征记为hx:
Dθ(fx)=(σx,cd,s,hx)
反射解码器Sθ是一个深度为3,宽度为64的深度感知机,其输入是球谐基函数sh对光线方向ω的编码以及漫反射解码器输出的后32维特征hx,输出是反射颜色cs:
Sθ(sh(ω),hx)=cs
每个世界坐标系下的三维点颜色被表示为:c=cd+s·cs。利用体渲染公式(参见Max N.Optical models for direct volume rendering[J].IEEE Transactions onVisualization and Computer Graphics,1995,1(2):99-108.)积分得到一条光线的颜色。
(3)为步骤2建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征,解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间共享相机位姿的一致性,具体为:如图3所示,利用相机位姿和全局网格模型为每个块分配光线,如果光线发射位置(即对应的相机位置)位于块内,则直接被选为该块的训练光线;如果光线发射位置位于块外,满足光线与块相交且没有被遮挡,则被选为该块的训练光线。如果一个相机发射的光线被多个块选为训练光线,那么定义该类相机为共享相机。
每个块独立编码块内前景以及块外背景颜色,具体为:定义哈希网格的空间范围为[-2,2]3,空间三维点通过函数contract(·)被映射到哈希网格空间(参见Nerfstudiohttps://docs.nerf.studio/en/latest/)。块内空间三维点被归一化到[-1,1]用于表达前景,块外三维点被压缩到[-2,-1]或者[1,2]之间用于表达背景:
‖·‖∞是无穷范数,xj为三维点x的其中一个维度。前景与背景共享哈希网格特征以及解码器参数。
训练过程中为每个块存储一份几何网格,用来表达一个区域内是否存在几何。这个几何网格在训练过程中会被剪枝和细分。每训练1000个迭代,会对几何网格进行剪枝,即通过哈希网格和解码器获得几何网格内三维点的体密度,若1-exp(-σx)<λ,则这个网格会被剪枝。几何网格的分辨率和剪枝的阈值λ每2000个迭代改变一次,分辨率从163最高细分到分辨率5123,λ从0.1增加到0.4。
每个块独立优化与其相关的相机位姿,利用交替方向乘子法保证块间共享相机位姿一致性,具体为:通过两条导数链优化相机位姿,1.损失对哈希网格特征的梯度通过空间三维点传递到相机位姿;2.扭曲损失对相机变换矩阵的梯度传递到相机位姿。每迭代100次训练,进行块间共享相机位姿同步,同步方式为取共享相机位姿的平均值。
反射感知的扭曲损失帮助优化几何以及相机位姿,优化后参数回传,优化哈希网格特征,解码器参数,具体为:获得模型对像素p预测的颜色cp,通过模型预测的深度dp得到表面点,深度dp是对一条光线上的三维点的σx进行积分得到,并利用相机参数把表面点投影到邻居图片像素p′得到邻居颜色cp′,则邻居深度为dp′,加权求和计算预测颜色cp和邻居像素颜色cp′的损失:
B为一个迭代的所有像素。wpp′是像素p扭曲到像素p′对应的损失权重:
和/>分别是像素p和像素p′的反射权重:/> 是表面点在邻居像素p′的可见性:/>
(4)利用步骤3训练完成的模型,进行基于点混合的多块渲染(如图4所示),具体为:基于训练完成的一定数量的块集合,定义在渲染流程中,光线在块集合内积分累加的颜色为前景颜色cf,块集合外积分累加的颜色为背景颜色cb。
渲染光线的前景颜色,具体为:从需要渲染的像素投影一条光线,使用Fast VoxelTraversal算法(参见Amanatides,John,and Andrew Woo."Afast voxel traversalalgorithm for ray tracing."Eurographics.Vol.87.No.3.1987.)获得光线顺序穿过所有的块,借助每个块内存有的几何网格,在光线上进行采样点。若一个采样点只被某个块单独占有,则使用该块对应的哈希网格和解码器推理该点的颜色与体密度;若该采样点在块间重叠区域,则使用点混合方式推理该点的前景颜色cf与体密度:
S(xn)表示包含点xn的块集合,表示块k对于点xn的混合权重。该权重与点和块边界的距离有关,在两个块的重叠区域;N表示为光线上采样点的数量,n为采样点编号,/>表示第n个采样点在块k内的体密度;/>表示前景采样点的可见性;δn表示第n个采样点到第n+1个采样点的距离;/>第n个采样点在块k内的颜色。
渲染光线的背景颜色,具体为:利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色,若同时穿出多个块,即穿出点xN被多个块包含,则加权混合背景颜色cb:
S′(xN)表示包含出射点xN的块集合,是积分完成的背景颜色, Tn表示背景采样点的可见性。最后光线的颜色表示为实现照片级别真实感渲染。
与前述一种基于神经网络的大场景自由视点插值方法的实施例相对应,本发明还提供了一种基于神经网络的大场景自由视点插值装置的实施例。
参见图5,本发明实施例提供的一种基于神经网络的大场景自由视点插值装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于神经网络的大场景自由视点插值方法。
本发明提供的一种基于神经网络的大场景自由视点插值装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明提供的一种基于神经网络的大场景自由视点插值装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于神经网络的大场景自由视点插值方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (10)
1.一种基于神经网络的大场景自由视点插值方法,其特征在于,包括以下步骤:
(1)对某个视角下的场景进行拍摄,基于图片计算全局网格模型和相机参数;
(2)把步骤(1)计算得到的全局网格模型剖分成块,并为每个块创建哈希网格、漫反射解码器和反射解码器,基于哈希网格得到哈希特征,并通过漫反射解码器和反射解码器得到三维点颜色,并通过体渲染积分得到一条光线的颜色;
(3)为步骤(2)建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征、解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;
(4)利用步骤(3)训练完成的模型,在光线上进行采样点,基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色。
2.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤(1)中,将拍摄的图片输入三维重建软件CapturingReality,得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。
3.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤(2)中,设定块的尺寸,从全局网格模型的最小角点开始剖分块,块与块之间存在20%的重叠区域,并丢弃内部不包含相机的块。
4.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤(2)中,哈希网格的输入是世界坐标系下的三维点x,输出是多层级哈希特征fx:
fx=φθ(x)
其中,φθ表示哈希网格,θ表示优化参数;
漫反射解码器输入多层级哈希特征fx,输出为64维度的特征,基于前32维度的特征得到体密度、漫反射颜色以及反射系数:
Dθ(fx)=(σx,cd,s,hx)
其中,Dθ表示漫反射解码器,σx表示体密度,cd表示漫反射颜色,s表示反射系数,hx表示后32维度的特征;
反射解码器输入为球谐基函数sh对光线方向ω的编码以及漫反射解码器输出的后32维特征hx,输出是反射颜色cs:
Sθ(sh(ω),hx)=cs
其中,Sθ表示反射解码器,因此,三维点颜色被表示为:
c=cd+s·cs
其中,c为三维点x的颜色,利用体渲染公式积分得到一条光线的颜色。
5.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤(3)中,利用相机位姿和全局网格模型为每个块分配光线,如果光线发射位置位于块内,则直接被选为该块的训练光线;如果光线发射位置位于块外,满足光线与块相交且没有被遮挡,则被选为该块的训练光线;每个块独立编码块内前景以及块外背景颜色,块内空间三维点用于表达前景,块外三维点用于表达背景;前景与背景共享哈希网格特征以及两个解码器参数。
6.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤(3)中,训练过程中为每个块存储一份几何网格,通过哈希网格和解码器获得几何网格内三维点的体密度,若1-exp(-σx)<λ,则对几何网格进行剪枝,λ为剪枝的阈值;
通过两条导数链优化相机位姿:1.损失对哈希网格特征的梯度通过空间三维点传递到相机位姿;2.扭曲损失对相机变换矩阵的梯度传递到相机位姿;
扭曲损失帮助优化几何以及相机位姿,优化后参数回传,优化哈希网格特征,解码器参数。
7.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,渲染光线的前景颜色具体过程为:若一个采样点只被某个块单独占有,则使用该块对应的哈希网格和解码器推理该点的颜色与体密度;若该采样点在块间重叠区域,则使用点混合方式推理该点的前景颜色cf与体密度:
其中,S(xn)表示包含点xn的块集合,表示块k对于点xn的混合权重;该权重与点和块边界的距离有关,在两个块的重叠区域;N表示为光线上采样点的数量,n为采样点编号,/>表示第n个采样点在块k内的体密度;/>表示前景采样点的可见性;δn表示第n个采样点到第n+1个采样点的距离;/>第n个采样点在块k内的颜色。
8.根据权利要求7所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,渲染光线的背景颜色具体过程为:利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色,若同时穿出多个块,即穿出点xN被多个块包含,则加权混合背景颜色cb:
其中,S′(xN)表示包含出射点xN的块集合,是积分完成的背景颜色,Tn表示背景采样点的可见性;最后光线的颜色表示为
9.一种基于神经网络的大场景自由视点插值装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-8中任一项所述的一种基于神经网络的大场景自由视点插值方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-8中任一项所述的一种基于神经网络的大场景自由视点插值方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311114443.9A CN117197323A (zh) | 2023-08-31 | 2023-08-31 | 一种基于神经网络的大场景自由视点插值方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311114443.9A CN117197323A (zh) | 2023-08-31 | 2023-08-31 | 一种基于神经网络的大场景自由视点插值方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117197323A true CN117197323A (zh) | 2023-12-08 |
Family
ID=89004543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311114443.9A Pending CN117197323A (zh) | 2023-08-31 | 2023-08-31 | 一种基于神经网络的大场景自由视点插值方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197323A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820901A (zh) * | 2022-04-08 | 2022-07-29 | 浙江大学 | 一种基于神经网络的大场景自由视点插值方法 |
-
2023
- 2023-08-31 CN CN202311114443.9A patent/CN117197323A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820901A (zh) * | 2022-04-08 | 2022-07-29 | 浙江大学 | 一种基于神经网络的大场景自由视点插值方法 |
CN114820901B (zh) * | 2022-04-08 | 2024-05-31 | 浙江大学 | 一种基于神经网络的大场景自由视点插值方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910486B (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
Yariv et al. | Bakedsdf: Meshing neural sdfs for real-time view synthesis | |
US9984498B2 (en) | Sparse GPU voxelization for 3D surface reconstruction | |
CN109785423B (zh) | 图像补光方法、装置及计算机设备 | |
WO2021228031A1 (zh) | 渲染方法、设备以及系统 | |
US11373358B2 (en) | Ray tracing hardware acceleration for supporting motion blur and moving/deforming geometry | |
WO2018113502A1 (zh) | 一种自动生成网格与着色器多层次细节的方法 | |
US11232628B1 (en) | Method for processing image data to provide for soft shadow effects using shadow depth information | |
CN114863038B (zh) | 基于显式几何形变的实时动态自由视角合成方法及装置 | |
CN114255313B (zh) | 镜面物体三维重建方法、装置、计算机设备和存储介质 | |
US20210217225A1 (en) | Arbitrary view generation | |
CN117197323A (zh) | 一种基于神经网络的大场景自由视点插值方法及装置 | |
CN110634178A (zh) | 面向数字博物馆的三维场景精细化重建方法 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN115205463A (zh) | 基于多球面场景表达的新视角图像生成方法、装置和设备 | |
CA3199390A1 (en) | Systems and methods for rendering virtual objects using editable light-source parameter estimation | |
WO2022217470A1 (en) | Hair rendering system based on deep neural network | |
US20140267357A1 (en) | Adaptive importance sampling for point-based global illumination | |
US10424106B1 (en) | Scalable computer image synthesis | |
CN109446945A (zh) | 三维模型处理方法和装置、电子设备、计算机可读存储介质 | |
Božič et al. | Neural assets: Volumetric object capture and rendering for interactive environments | |
CN116993894B (zh) | 虚拟画面的生成方法、装置、设备、存储介质及程序产品 | |
Chen et al. | Jump-NERF: An Approach to Removing Glare and Pseudo Shadows Caused by Glass in Architectural Spaces | |
Jaspe Villanueva | Scalable exploration of 3D massive models | |
Mihut et al. | Lighting and Shadow Techniques for Realistic 3D Synthetic Object Compositing in Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |