CN118570100A - 一种基于神经辐射场的视频漂浮伪影去除方法和系统 - Google Patents

一种基于神经辐射场的视频漂浮伪影去除方法和系统 Download PDF

Info

Publication number
CN118570100A
CN118570100A CN202410541956.6A CN202410541956A CN118570100A CN 118570100 A CN118570100 A CN 118570100A CN 202410541956 A CN202410541956 A CN 202410541956A CN 118570100 A CN118570100 A CN 118570100A
Authority
CN
China
Prior art keywords
radiation field
training
distribution
floating
pixel point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410541956.6A
Other languages
English (en)
Inventor
黄晋
程逸舟
王耀明
陈洁敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hudongpai Technology Co ltd
South China Normal University
Original Assignee
Hudongpai Technology Co ltd
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hudongpai Technology Co ltd, South China Normal University filed Critical Hudongpai Technology Co ltd
Priority to CN202410541956.6A priority Critical patent/CN118570100A/zh
Publication of CN118570100A publication Critical patent/CN118570100A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种基于神经辐射场的视频漂浮伪影去除方法和系统,方法包括:获取训练视图,进而根据所述训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布,并根据所述空间辐射分布得到分布图;根据所述分布图计算各所述像素点的权重,进而根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型;获取待渲染视频图像,将所述待渲染视频图像输入所述漂浮伪影去除模型,生成渲染图像。本发明能够有效防止浮动伪影的出现,并增强渲染图像的质量和重建的几何保真度,可广泛应用于三维重建技术领域。

Description

一种基于神经辐射场的视频漂浮伪影去除方法和系统
技术领域
本申请涉及三维重建技术领域,尤其涉及一种基于神经辐射场的视频漂浮伪影去除方法和系统。
背景技术
NeRF技术可以应用于视频的新视角合成、场景扩展以及特效制作等方面。通过NeRF技术,制作人员基于已有的视频素材,生成全新的视角和场景,为观众带来更加丰富的视觉体验。同时,NeRF技术还可以用于创建视频中复杂的特效,例如光影效果、透明和半透明物体的渲染等,提升视频的整体质量。现有NeRF技术可以在小规模场景中合成逼真的新视角视图,但当任务扩展到大规模无界场景时,则可能会出现被称为浮动物的伪影。这类伪影通常表现为被错误建模在相机附近的半透明漂浮物体,导致生成的视频模糊,降低视频的渲染质量和重建的几何保真度。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种基于神经辐射场的视频漂浮伪影去除方法和系统,能够提高视频的渲染质量和重建的几何保真度。
为实现上述目的,本申请实施例的一方面提出了一种基于神经辐射场的视频漂浮伪影去除方法,包括以下步骤:
获取训练视图,进而根据所述训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布,并根据所述空间辐射分布得到分布图;
根据所述分布图计算各所述像素点的权重,进而根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
获取待渲染视频图像,将所述待渲染视频图像输入所述漂浮伪影去除模型,生成渲染图像。
在一些实施例中,将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布这一步骤,其具体包括:
将所述训练视图和所述训练视图对应的相机位姿输入所述神经辐射场模型;
将所述训练视图中的各所述像素点投影到所述神经辐射场模型,得到各所述像素点对应的三维空间信息;
根据所述三维空间信息通过体积渲染计算得到各所述像素点在所述相机位姿下的深度图;
根据所述深度图和正交积分计算得到各所述像素点的空间位置;
将各所述像素点对应的所述空间位置进行离散化,得到包含各所述像素点的体素网格;
计算各所述体素网格的像素点数量,得到所述空间辐射分布。
在一些实施例中,所述根据所述空间辐射分布得到分布图这一步骤,其具体为:
对预设的空白哈希表进行初始化,得到哈希表,进而将各所述体素网格和所述像素点数量存储于所述哈希表中,得到所述分布图。
在一些实施例中,所述根据所述分布图计算各所述像素点的权重这一步骤,其具体为:
将所述分布图的乘法逆作为各所述像素点的权重。
在一些实施例中,所述根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型这一步骤,其具体包括:
将所述权重作为正则化损失函数的系数,得到第一损失,并将所述权重作为重建损失函数的系数,得到第二损失;
根据所述第一损失和所述第二损失得到损失函数,进而根据所述损失函数和所述坐标截断函数对所述神经辐射场模型进行加权训练,得到所述漂浮伪影去除模型。
在一些实施例中,所述第一损失为:
其中,表示所述第一损失,表示所述正则化损失函数,W表示所述权重,N表示所有射线r的集合,s表示一组经过正则化的射线长度,α表示射线体密度分布,u和v表示所述射线r上任意两个所述像素点之间的空间坐标,αs(u)表示在空间坐标u处的步函数的插值,αs(v)表示在空间坐标v处的步函数的插值。
在一些实施例中,所述坐标截断函数为:
其中,表示所述像素点的三维空间坐标,trancate(·)表示对中心区域之外的所述三维空间坐标进行截断,k表示控制坐标截断位数的超参数,||·||表示L范数。
为实现上述目的,本申请实施例的另一方面提出了一种基于神经辐射场的视频漂浮伪影去除系统,包括:
模型初步训练模块,用于获取训练视图,进而根据所述训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
空间辐射分布获取模块,用于将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布,并根据所述空间辐射分布得到分布图;
模型加权训练模块,用于根据所述分布图计算各所述像素点的权重,进而根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
渲染图像生成模块,用于获取待渲染视频图像,将所述待渲染视频图像输入所述漂浮伪影去除模型,生成渲染图像。
为实现上述目的,本申请实施例的另一方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如前面所述的基于神经辐射场的视频漂浮伪影去除方法。
为实现上述目的,本申请实施例的另一方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如前面所述的基于神经辐射场的视频漂浮伪影去除方法。
本发明的有益效果是:本发明的基于神经辐射场的视频漂浮伪影去除方法和系统,一方面通过预先训练好的神经辐射场模型挖掘输入训练视图中潜在的空间辐射分布,进而根据得到的空间辐射分布得到各像素点对应的权重,并根据权重重新分配梯度,确保稀疏采样区域在后续优化阶段具有更强烈的梯度,从而有效防止浮动伪影的出现;另一方面,利用坐标截断函数根据像素点距离中心的距离逐渐截断空间坐标,从而使远处区域的体素规模逐渐增加,有效增强渲染图像的质量和重建的几何保真度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面对本发明实施例中所需要使用的附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例提供的一种基于神经辐射场的视频漂浮伪影去除方法的步骤流程图;
图2为本发明实施例提供的参考图像与分布图的对比示意图;
图3为本发明实施例提供的不同超参数对坐标截断效果的对比示意图;
图4为本发明实施例提供的背景细化消融实验的定性结果示意图;
图5为本发明实施例提供的加权正则化消融实验的定性结果示意图;
图6为本发明实施例提供的一种基于神经辐射场的视频漂浮伪影去除系统的结构示意图;
图7为本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
NeRF(Neural Radiance Fields,神经辐射场)利用多层感知器(MLPs)作为表示连续空间的隐式方程。通过在给定相机姿态下最小化渲染图像和捕获图像之间的颜色损失,可以仅使用RGB图像输入直接优化三维场景。在NeRF收敛后,可以评估空间中任意点的颜色和体积密度,以实现新视角渲染。
NeRF技术可以应用于视频的新视角合成、场景扩展以及特效制作等方面。通过NeRF技术,制作人员基于已有的视频素材,生成全新的视角和场景,为观众带来更加丰富的视觉体验。同时,NeRF技术还可以用于创建视频中复杂的特效,例如光影效果、透明和半透明物体的渲染等,提升视频的整体质量。虽然NeRF在小规模场景中可以合成逼真的新视图,但当任务扩展到大规模室内或室外环境时,可能会出现伪影。这种类型的伪影被称为“浮动伪影”或“背景坍缩”。它们出现的一个主要原因是训练图像中远处表面的辐射采样过于稀疏。鉴于一组有限的图像,NeRF的重建问题是不适定的,并且存在退化解。由于形状和辐射(捕获图像)之间的模糊性,模型可能会为一组训练图像生成不正确的几何形状。然而,随着捕获视点数量的增加,NeRF更有可能在优化过程中朝着接近真实的正确表面收敛。另一方面,在处理更大规模的场景时,由于辐射采样不平衡,增加的训练视图数量只能保证部分准确的几何形状。且由于大多数场景通常是以中心为焦点进行捕获,远处物体可能缺乏采样。因此,对于更远处的对象,表面辐射采样变得更加稀疏,增加了重建不正确几何的可能性。
为此,本发明实施例提出了一种基于神经辐射场的视频漂浮伪影去除方法,一方面通过预先训练好的神经辐射场模型挖掘输入训练视图中潜在的空间辐射分布,进而根据得到的空间辐射分布得到各像素点对应的权重,并根据权重重新分配梯度,确保稀疏采样区域在后续优化阶段具有更强烈的梯度,从而有效防止浮动伪影的出现;另一方面,利用坐标截断函数根据像素点距离中心的距离逐渐截断空间坐标,从而使远处区域的体素规模逐渐增加,有效增强渲染图像的质量和重建的几何保真度。该漂浮伪影去除方法可以应用于远景渲染、角色与物体渲染以及特效场景合成等场景,但并不局限于此。
参照图1,图1为本发明实施例提供的一种基于神经辐射场的视频漂浮伪影去除方法的步骤流程图,本发明实施例提出一种基于神经辐射场的视频漂浮伪影去除方法,该方法包括步骤S101至S104:
S101、获取训练视图,进而根据训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
具体地,训练视图的获取可以使用移动设备或消费级相机所拍摄的RGB图像。这些图像需要来自不同的视角和角度,以覆盖整个场景。对于每张图像需要提取相机的内部和外部参数,例如相机位置、方向、焦距等。这些参数描述了相机的位置和朝向,以及图像的透视投影。通常图像所对应的相机参数在预处理过程中使用COLMAP软件对图像进行预处理得到。COLMAP是一个开源的计算机视觉软件包,用于从图像集合中重建三维场景。它结合了SfM(Structure-from-Motion)和MVS(Multi-View Stereo)技术,能够从相机图像序列中估计相机的位置、姿态以及场景中的三维结构。此外,用于NeRF的公开数据集中通常包括相机参数数据。
S102、将训练视图中的各像素点投影到神经辐射场模型,得到空间辐射分布,并根据空间辐射分布得到分布图;
具体地,通过预训练好的神经辐射场模型挖掘输入像素空间中的潜在空间辐射分布。然后,所得到的分布被用于加权正则化和重建损失。与以往需要来自预训练模型或传感器的深度先验的方法不同,本发明实施例重新利用了神经辐射场流水线,来得到一种“免费”的空间辐射分布,并用于后续场景微调。
进一步作为可选的实施方式,将训练视图中的各像素点投影到神经辐射场模型,得到空间辐射分布这一步骤具体可以划分为以下步骤S1021至S1026:
S1021、将训练视图和训练视图对应的相机位姿输入神经辐射场模型;
S1022、将训练视图中的各像素点投影到神经辐射场模型,得到各像素点对应的三维空间信息;
S1023、根据三维空间信息通过体积渲染计算得到各像素点在相机位姿下的深度图;
S1024、根据深度图和正交积分计算得到各像素点的空间位置;
具体地,本发明实施例将训练视图的像素点视为神经辐射场模型的样本,以建模捕获辐射的空间分布,其中,最初的神经辐射场模型在没有任何修改的情况下进行优化,直到收敛。为了获取表面辐射的空间分布,将每个像素点重新投影到其对应的表面位置上,神经辐射场是一个三维空间模型,能够捕捉场景的几何形状和颜色信息,重新投影的过程即将二维像素映射到三维空间中的对应位置,以便利用神经辐射场模型中的三维信息。对于每个训练视图,通过下式沿着射线对所有点的深度执行体积渲染积分,从而获得相应的深度图
其中,表示射线r对应的深度图,xi表示第i个像素点的坐标(空间位置),Ti表示第i个像素点的透射率,αi=1-exp(-αiδi),δi表示第i个像素点采样步长,N表示所有像素点集合,o表示相机原点,o-xi表示第i个像素点的深度。
各个像素点的空间位置xi通过下式获得:
其中,d表示观察方向。
S1025、将各像素点对应的空间位置进行离散化,得到包含各像素点的体素网格;
S1026、计算各体素网格的像素点数量,得到空间辐射分布。
具体地,为了获得这些表面点(像素点)的空间辐射分布,将连续的神经辐射场离散化为一个体素网格,以表示体素网格内表面点的分布。也即将空间离散化为分辨率为h3的体素网格,其中h=b/s,b表示场景边界长度,s表示体素边长。计算每个体素网格中的表面点数量(像素点数量),将其近似为表面辐射的空间辐射分布。
进一步作为可选的实施方式,根据空间辐射分布得到分布图这一步骤具体可以为以下步骤S1027:
S1027、对预设的空白哈希表进行初始化,得到哈希表,进而将各体素网格和像素点数量存储于哈希表中,得到分布图。
具体地,由于离散空间中的体素数量较多,但存在像素点的体素相对稀疏,出于空间和时间效率的考虑,使用哈希表结构存储体素网格及其内部的像素点数量。对于像素点Ii,使用对应体素网格的哈希值h(yi)查询哈希表,并令体素网格内部的像素点数量增加1,进而遍历下一像素点,直至遍历所有像素点。最后,再遍历一次所有像素点Ii,查询其所在体素网格内的像素点数量作为临近像素点ni,像素点数量越多说明其表示的物体表面更多地被拍摄到,得到分布图。如图2所示为参考图像与分布图的对比示意图,图2中顶部行为参考图像,底部行为分布图的可视化,亮度表示对应表面上采样辐射的密度。由于展示的“花园”场景(顶部行)是围绕一张桌子拍摄的,桌子的表面在所有训练图像中都有密集采样,导致在分布图中出现了一个突出的区域。另一方面,远处的树木和建筑只在少数图像中被捕获,导致它们在分布图上看起来暗淡甚至几乎看不见。
S103、根据分布图计算各像素点的权重,进而根据权重和预设的坐标截断函数对神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
进一步作为可选的实施方式,根据分布图计算各像素点的权重这一步骤具体可以划分为以下步骤S1031:
S1031、将分布图的乘法逆作为各像素点的权重;
具体地,将临近像素点ni的倒数作为各像素点的权重Wi,即本发明实施例中通过各像素点的权重指导漂浮伪影的去除过程,那些辐射强度较低的区域(即漂浮伪影较为明显的区域)将被赋予更大的权重,从而在重建过程中得到更多的关注和处理,以此有针对性地减少或消除视频中的漂浮伪影。
进一步作为可选的实施方式,根据权重和预设的坐标截断函数对神经辐射场模型进行加权训练,得到漂浮伪影去除模型这一步骤具体可以划分为以下步骤S1032和S1033:
S1032、将权重作为正则化损失函数的系数,得到第一损失,并将权重作为重建损失函数的系数,得到第二损失;
S1033、根据第一损失和第二损失得到损失函数,进而根据损失函数和坐标截断函数对神经辐射场模型进行加权训练,得到漂浮伪影去除模型。
进一步作为可选的实施方式,第一损失为:
其中,表示第一损失,表示正则化损失函数,W表示权重,N表示所有射线r的集合,s表示一组经过正则化的射线长度,α表示射线体密度分布,u和v表示射线r上任意两个像素点之间的空间坐标,αs(u)表示在空间坐标u处的步函数的插值,αs(v)表示在空间坐标v处的步函数的插值。
具体地,当NeRF扩展到大规模场景时,可能会出现浮动伪影的问题,现有技术引入了一个正则化损失函数来减轻这些伪影,鼓励沿每条射线具有单峰体积密度。设s表示一组经过正则化的射线距离,正则化损失函数可以表示为下式:
虽然引入了正则化损失函数来约束几何形状并防止浮动物体的生成,但直接在其他类似NeRF的模型中全局应用正则化项可能无法有效地防止浮动伪影的出现。当正则化强度过低时,无法防止浮动伪影的出现,而过高的强度则会导致模型无法收敛。浮动伪影只会出现在稀疏采样区域,因此需要在这些区域对几何形状施加更强的约束。因此,本发明实施例在优化过程中为相关射线(像素)分配更高的正则化权重,即利用前述获取的权重W作为正则化损失函数的系数,得到如下式的第一损失
若NeRF从所有图像中均匀采样像素,将导致梯度被场景的主要物体所主导,而这些物体更有可能被采样到,这种不平衡的梯度分配可能导致远处物体表面的细节丢失或模糊。为了补偿采样不均衡,本发明实施例提出加权重建损失来缩放稀疏采样区域的梯度,即将权重W并入重建损失中,放大远处表面的梯度,以改善表面质量,得到如下式的第二损失
其中,Wr表示射线r的权重,表示射线r的预测颜色值,C(r)表示射线r的真实颜色值,N表示所有射线r的集合。
整体的损失函数如下式,其包括扭曲正则化损失(第一损失)和加权重建损失(第二损失):
其中,λ表示损失权重。
进一步作为可选的实施方式,坐标截断函数为:
其中,表示像素点的三维空间坐标,trancate(·)表示对中心区域之外的三维空间坐标进行截断,k表示控制坐标截断位数的超参数,||·||表示L范数。
具体地,原始的NeRF沿着射线投射并沿着它们采样无穷小的体素,优化接近地面真实表面的体素。这种方法因为有足够数量的优化体素来表示物体表面,对密集采样的表面点效果很好。然而随着射线深入场景,表面点(像素点)的分布变得越来越稀疏。当在距离场景中心很远的位置采样体素时,无穷小而稀疏的体素很难有效地表示远处表面的细节。因此,本发明实施例提出一种新颖的坐标重新参数化方法,根据体素距离中心区域的距离来放大体素,也即根据像素点距离中心的距离逐渐截断空间坐标,从而使远处区域的体素规模逐渐增加。通过坐标截断函数对中心区域外的空间坐标进行截断,使场景中心区域外的分辨率降低,使低分辨率的辐射场更好地表示更远处被捕获到的粗糙表面。如图3所示为不同超参数对坐标截断效果的对比示意图,从图3中可见更小的超参数k会导致远处表面的细节更好(黑色边界)。在本发明实施例中,根据像素点距离中心的距离尽量减小超参数k。
S104、获取待渲染视频图像,将待渲染视频图像输入漂浮伪影去除模型,生成渲染图像。
具体地,将待渲染视频图像输入训练好的神经辐射场模型,即可得到更清晰、更高质量的渲染图像,为观众带来更加丰富的视觉体验。
上述对本发明实施例的基于神经辐射场的视频漂浮伪影方法进行了说明。可以认识到,相较于现有技术,本发明实施例一方面通过预先训练好的神经辐射场模型挖掘输入训练视图中潜在的空间辐射分布,进而根据得到的空间辐射分布得到各像素点对应的权重,并根据权重重新分配梯度,确保稀疏采样区域在后续优化阶段具有更强烈的梯度,从而有效防止浮动伪影的出现;另一方面,利用坐标截断函数根据像素点距离中心的距离逐渐截断空间坐标,从而使远处区域的体素规模逐渐增加,有效增强渲染图像的质量和重建的几何保真度,去除视频中的漂浮伪影。
为进一步验证本发明实施例的准确性,下面结合实验对本发明实施例的效果作进一步说明。
本发明实施例的实验基于Instant-NGP实现,Instant-NGP是一种基于哈希的NeRF变体。由于Instant-NGP没有解决浮动伪影的问题,选择它作为基准模型来展示本发明实施例提出的漂浮伪影方法的有效性。训练过程包括两个阶段:在第一阶段,在没有任何修改的情况下训练Instant-NGP,直到辐射场收敛;在第二阶段,基于本发明实施例提出的漂浮伪影方法对辐射场进行微调,以消除浮动伪影并改善渲染质量。为了在实验中公平,Instant-NGP和本发明实施例提出的漂浮伪影方法进行相同数量的迭代。由于本发明实施例提出的漂浮伪影方法利用了Mip-NeRF 360提出的正则化项,因此Instant-NGP也将纳入相同的项。具体来说,在第一阶段,将模型训练20,000次迭代,直到收敛。之后,使用本发明实施例提出的漂浮伪影方法进行额外的微调,进行30,000次迭代。类似地,基准模型Instant-NGP也在没有任何修改下进行额外的训练,进行30,000次迭代。按照Mip-NeRF 360的设置,将视图按8:1的比例划分为训练和测试视图。
实验在Mip-NeRF 360中介绍的大规模无界数据集上进行,该数据集包括三个室外场景和四个室内场景(其中两个未公开的室外场景被排除在外)。数据集包含从场景内不同角度拍摄的一系列RGB图像。然而,它仍然可能包含稀疏或未观察到的角度,这代表了在真实世界应用中可能发生的情况。场景内的物体都是静态的,并且一直处于一致的曝光状态。另外,评估主要集中在新视角合成的渲染质量上,使用来自先前NeRF方法的评估指标:峰值信噪比(PSNR)、结构相似性指数(SSIM)以及感知相似度指数(LPIPS)。
实验1:定性比较
为了评估本发明实施例提出的漂浮伪影方法的有效性,将其与先前的工作进行比较,包括包括Instant-NGP、DVGO以及Plenoxels。其中,Instant-NGP利用多个哈希表以不同分辨率编码空间特征,并使用小型MLP进行解码;DVGO利用密度体素网格表示场景几何形状,使用特征体素网格和浅层MLP表示视角相关的外观;Plenoxels避免使用神经网络,而是仅依赖稀疏网格来建模几何形状和视角相关的外观。在更传统的NeRF框架中,本发明实施例提出的漂浮伪影方法与原始NeRF、NeRF++以及Mip-NeRF 360进行了比较。这些方法仅将神经网络作为场景的隐式表示,导致训练和渲染速度相对较慢。其中,NeRF++和Mip-NeRF360对空间重新参数化,以扩展NeRF到具有较大尺度的无界场景。对于DVGO、Plenoxels、NeRF和NeRF++,本发明实施例使用nerf-factory实现,并采用默认迭代设置。由于在辐射场收敛后继续迭代可能会导致更多的伪影和渲染质量下降,因此选择这些方法在收敛时使用默认设置获得的结果。对于Instant-NGP,通过使用20,000和50,000次迭代与本发明实施例提出的漂浮伪影方法进行了对齐。
比较实验的定量评估结果如下表1所示。考虑到重建质量与场景规模之间的强相关性,将结果分为室内和室外两个部分进行比较。从表1中可见,本发明实施例提出的漂浮伪影方法能够有效超越原始NeRF、NeRF++、Instant-NGP、DVGO以及Plenoxels。本发明实施例提出的漂浮伪影方法能够超越快速NeRF的基线的原因有两个:首先,加权正则化策略使模型能够应用更强的正则化项,而不会损害整体的渲染质量,显著减少浮动伪影;其次,本发明实施例中放大了远处表面的梯度权重,使网络能够更好地对全局而不是中心区域进行建模。
表1
实验2:消融实验
针对本发明实施例提出的扭曲正则化损失、加权重建损失以及坐标重新参数化方法进行消融实验。消融实验的定量评估结果如下表2所示,从表2中可见,每个提出的模块都对最终的渲染质量有所贡献。
表2
背景细化:通过不使用加权重建损失微调进行消融实验,这意味着对模型进行更多次迭代的训练。如图4所示为背景细化消融实验的定性结果示意图,从图4中可见,在背景细化后,远处墙壁上的纹理得到了恢复。本发明实施例还在室外场景上进行了实验,背景细化消融实验的定量评估结果如下表3所示。可见本发明实施例通过使用加权重建损失进行模型微调,能够稍微提高PSNR和SSIM,且稍微降低LPIPS。
表3
加权正则化:在加权正则化消融研究中,对策略正则化(即本发明实施例提出的使用权重作为加权正则化函数的系数)、全局正则化以及不使用正则化之间的渲染质量进行比较。分别将损失函数中的损失权重值λ设定为0.001和0.004,以此分别进行全局正则化和策略正则化的实验。加权正则化消融实验的定量评估结果如下表4所示,从表4中可见,使用全局正则化导致渲染质量下降,极端的全局正则化项(λ值为0.004时)也会导致渲染质量急剧下降;相比之下,使用策略正则化能够在消除伪影的同时保证渲染质量,且极端的策略正则化项(λ值为0.004时)并不会显著降低渲染质量,表明本发明实施例提出的漂浮伪影去除方法对正则化权重的稳健性。如图5所示为加权正则化消融实验的定性结果示意图,图5中每行从左到右:NGP的20K迭代渲染深度图,NGP的50K迭代渲染深度图,NGP的20K迭代与30K微调(本发明实施例的)深度图以及本发明实施例渲染的图像。在NGP收敛后继续训练(第一列)可能不会提高重建质量,反而可能引入更多伪影(第二列),而采用本发明实施例提出的方法(第三列)进行进一步训练证明是有效的,可以消除伪影,生成更清晰、更高质量的几何形状,表明本发明实施例提出的漂浮伪影去除方法能够有效地消除伪影。
表3
坐标重新参数化:如表2所示,若在模型训练中不使用坐标重新参数化方法,其PSNR和SSIM将稍微有所降低,坐标重新参数化主要增强了图像远处表面的细节,而远处表面仅构成图像的一小部分,因此它对整体指标的贡献不是很显著。为了进一步说明坐标重新参数化方法的有效性,使用方程k而不是坐标截断函数进行坐标截断,并分别将k设置为1000、500以及250,在整个场景上进行坐标截断。从图3中显示了在不同坐标截断下不同距离处表面的渲染质量,可见本发明实施例提出的坐标重新参数化方法对于渲染质量提高的有效性。
参照图6,本发明实施例还提供了一种基于神经辐射场的视频漂浮伪影系统,包括:
模型初步训练模块,用于获取训练视图,进而根据训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
空间辐射分布获取模块,用于将训练视图中的各像素点投影到神经辐射场模型,得到空间辐射分布,并根据空间辐射分布得到分布图;
模型加权训练模块,用于根据分布图计算各像素点的权重,进而根据权重和预设的坐标截断函数对神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
渲染图像生成模块,用于获取待渲染视频图像,将待渲染视频图像输入漂浮伪影去除模型,生成渲染图像。
上述基于神经辐射场的视频漂浮伪影方法实施例中的内容均适用于本基于神经辐射场的视频漂浮伪影系统实施例中,本基于神经辐射场的视频漂浮伪影系统实施例所具体实现的功能与上述基于神经辐射场的视频漂浮伪影方法实施例相同,并且达到的有益效果与上述基于神经辐射场的视频漂浮伪影方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述基于神经辐射场的视频漂浮伪影方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
如图7所示为本发明实施例提供的电子设备的硬件结构示意图,参照图7,本发明实施例提供了一种电子设备,包括:
处理器1001,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案;
存储器1002,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1002可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1002中,并由处理器1001来调用执行本发明实施例的基于神经辐射场的视频漂浮伪影方法;
输入/输出接口1003,用于实现信息输入及输出;
通信接口1004,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1005,在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息;
其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。
本发明实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述基于神经辐射场的视频漂浮伪影方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,包括以下步骤:
获取训练视图,进而根据所述训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布,并根据所述空间辐射分布得到分布图;
根据所述分布图计算各所述像素点的权重,进而根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
获取待渲染视频图像,将所述待渲染视频图像输入所述漂浮伪影去除模型,生成渲染图像。
2.根据权利要求1所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布这一步骤,其具体包括:
将所述训练视图和所述训练视图对应的相机位姿输入所述神经辐射场模型;
将所述训练视图中的各所述像素点投影到所述神经辐射场模型,得到各所述像素点对应的三维空间信息;
根据所述三维空间信息通过体积渲染计算得到各所述像素点在所述相机位姿下的深度图;
根据所述深度图和正交积分计算得到各所述像素点的空间位置;
将各所述像素点对应的所述空间位置进行离散化,得到包含各所述像素点的体素网格;
计算各所述体素网格的像素点数量,得到所述空间辐射分布。
3.根据权利要求2所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述根据所述空间辐射分布得到分布图这一步骤,其具体为:
对预设的空白哈希表进行初始化,得到哈希表,进而将各所述体素网格和所述像素点数量存储于所述哈希表中,得到所述分布图。
4.根据权利要求1所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述根据所述分布图计算各所述像素点的权重这一步骤,其具体为:
将所述分布图的乘法逆作为各所述像素点的权重。
5.根据权利要求1所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型这一步骤,其具体包括:
将所述权重作为正则化损失函数的系数,得到第一损失,并将所述权重作为重建损失函数的系数,得到第二损失;
根据所述第一损失和所述第二损失得到损失函数,进而根据所述损失函数和所述坐标截断函数对所述神经辐射场模型进行加权训练,得到所述漂浮伪影去除模型。
6.根据权利要求5所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述第一损失为:
其中,表示所述第一损失,表示所述正则化损失函数,W表示所述权重,N表示所有射线r的集合,s表示一组经过正则化的射线长度,α表示射线体密度分布,u和v表示所述射线r上任意两个所述像素点之间的空间坐标,αs(u)表示在空间坐标u处的步函数的插值,αs(v)表示在空间坐标v处的步函数的插值。
7.根据权利要求1所述的一种基于神经辐射场的视频漂浮伪影去除方法,其特征在于,所述坐标截断函数为:
其中,表示所述像素点的三维空间坐标,trancate(·)表示对中心区域之外的所述三维空间坐标进行截断,k表示控制坐标截断位数的超参数,||·||表示L范数。
8.一种基于神经辐射场的视频漂浮伪影去除系统,其特征在于,包括:
模型初步训练模块,用于获取训练视图,进而根据所述训练视图对全连接神经网络进行初步训练,得到神经辐射场模型;
空间辐射分布获取模块,用于将所述训练视图中的各像素点投影到所述神经辐射场模型,得到空间辐射分布,并根据所述空间辐射分布得到分布图;
模型加权训练模块,用于根据所述分布图计算各所述像素点的权重,进而根据所述权重和预设的坐标截断函数对所述神经辐射场模型进行加权训练,得到漂浮伪影去除模型;
渲染图像生成模块,用于获取待渲染视频图像,将所述待渲染视频图像输入所述漂浮伪影去除模型,生成渲染图像。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于神经辐射场的视频漂浮伪影去除方法的步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的基于神经辐射场的视频漂浮伪影去除方法的步骤。
CN202410541956.6A 2024-04-30 2024-04-30 一种基于神经辐射场的视频漂浮伪影去除方法和系统 Pending CN118570100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410541956.6A CN118570100A (zh) 2024-04-30 2024-04-30 一种基于神经辐射场的视频漂浮伪影去除方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410541956.6A CN118570100A (zh) 2024-04-30 2024-04-30 一种基于神经辐射场的视频漂浮伪影去除方法和系统

Publications (1)

Publication Number Publication Date
CN118570100A true CN118570100A (zh) 2024-08-30

Family

ID=92475336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410541956.6A Pending CN118570100A (zh) 2024-04-30 2024-04-30 一种基于神经辐射场的视频漂浮伪影去除方法和系统

Country Status (1)

Country Link
CN (1) CN118570100A (zh)

Similar Documents

Publication Publication Date Title
Kopanas et al. Point‐Based Neural Rendering with Per‐View Optimization
CN115082639B (zh) 图像生成方法、装置、电子设备和存储介质
US20180324465A1 (en) Edge-aware spatio-temporal filtering and optical flow estimation in real time
Klenk et al. E-nerf: Neural radiance fields from a moving event camera
Jeon et al. Reconstruction-based pairwise depth dataset for depth image enhancement using CNN
US11887256B2 (en) Deferred neural rendering for view extrapolation
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
CN113450396A (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN116883565A (zh) 一种数字孪生场景的显隐式模型融合渲染方法及应用
Franke et al. Vet: Visual error tomography for point cloud completion and high-quality neural rendering
Jia et al. Drone-NeRF: Efficient NeRF based 3D scene reconstruction for large-scale drone survey
CN118154770A (zh) 基于神经辐射场的单幅树木图像三维重建方法和装置
Li et al. Dehazing-NeRF: neural radiance fields from hazy images
Ehret et al. Regularization of NeRFs using differential geometry
CN116228986A (zh) 一种基于局部到全局补全策略的室内场景光照估计方法
Li et al. Point-Based Neural Scene Rendering for Street Views
Jäger et al. A comparative Neural Radiance Field (NeRF) 3D analysis of camera poses from HoloLens trajectories and Structure from Motion
CN118570100A (zh) 一种基于神经辐射场的视频漂浮伪影去除方法和系统
Olszewski Hashcc: Lightweight method to improve the quality of the camera-less nerf scene generation
Colom et al. 3D shape reconstruction from non-realistic multiple-view depictions using NVDiffRec
CN118314271B (zh) 一种基于3d高斯光栅化快速高精度稠密重建方法和系统
Zhu et al. RPBG: Towards Robust Neural Point-based Graphics in the Wild
Wei et al. LiDeNeRF: Neural radiance field reconstruction with depth prior provided by LiDAR point cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination