CN116958492B - 一种基于NeRf重建三维底座场景渲染的VR编辑方法 - Google Patents

一种基于NeRf重建三维底座场景渲染的VR编辑方法 Download PDF

Info

Publication number
CN116958492B
CN116958492B CN202310850294.6A CN202310850294A CN116958492B CN 116958492 B CN116958492 B CN 116958492B CN 202310850294 A CN202310850294 A CN 202310850294A CN 116958492 B CN116958492 B CN 116958492B
Authority
CN
China
Prior art keywords
scene
dimensional
density value
picture
nerf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310850294.6A
Other languages
English (en)
Other versions
CN116958492A (zh
Inventor
石立阳
张誉升
杨建�
黄星淮
祝昌宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Technology Guangzhou Co ltd
Original Assignee
Digital Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Technology Guangzhou Co ltd filed Critical Digital Technology Guangzhou Co ltd
Priority to CN202310850294.6A priority Critical patent/CN116958492B/zh
Publication of CN116958492A publication Critical patent/CN116958492A/zh
Application granted granted Critical
Publication of CN116958492B publication Critical patent/CN116958492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于NeRf重建三维底座场景渲染的VR编辑方法,能够实现实景三维漫游功能和三维场景打标签功能。采用本方法实现的实景三维漫游功能,能够在场景中进行自由移动不受预置点位限制,此外,本方法本质上是在渲染每一帧场景图片,能够减少项目内存大小提高加载速度。此外,本方法通过在场景中进行打标签,并将标签融合进训练模型中进行训练,可以实现多视角下标签的全局位置一致性。这意味着标签在不同视角下的位置和姿态都能够被准确地捕捉和渲染,从而提高了标签的准确性和一致性。

Description

一种基于NeRf重建三维底座场景渲染的VR编辑方法
技术领域
本申请涉及虚拟现实技术领域,特别涉及一种基于NeRf重建三维底座场景渲染的VR编辑方法。
背景技术
虚拟现实(Virtual Reality,VR)技术中的编辑应用中包括实景三维漫游与三维场景打标签两项功能。目前的实景三维漫游功能是对提前用全景相机录制好的场景在网页端进行移动查看完成移动漫游的功能;三维场景打标签功能是在三维实景查看过程中,对查看到的环境的某一点进行打标签的功能。当前上述两项功能均存在待改进的缺陷点。
当前实景三维漫游功能存在以下缺点:
1、仅能在提前预置的固定点位进行查看,无法在场景中进行自由移动查看,漫游自由度低,查看受限制,存在该问题主要原因是通过该方式进行实景漫游的本质是通过全景图片进行查看,而全景图片是由提前拍摄录制的数据获得,由于提前拍摄的位置无法改变,也因此限制了实景漫游的自由度。
2、查看场景存在畸变,该问题主要原因是全景相机是一个鱼眼类的相机,该类相机视野场大,但是输出的图像存在较大畸变,由于需要通过全景图片进行查看,因此该畸变无法消除。
3、耗时长,由于点位设置和查看都需要重建场景模型,而重建场景模型是要较长的时间。
当前三维场景打标签功能的实现流程为:在实景查看中,使用鼠标对着场景中的某一点进行点击获取坐标并设立标签时,会从当前图像的像素点发射一条射线,直至该射线碰撞到最近的场景模型实体,以该点作为该标签的三维坐标点,进而把标签在场景模型中进行实体化。由于该过程同样依赖于重建场景模型,因此也存在建模消耗时间长的问题。
发明内容
本申请的目的在于提供一种基于NeRf重建三维底座场景渲染的VR编辑方法,其能够改善上述问题。
本申请的实施例是这样实现的:
第一方面,本申请提供一种基于NeRf重建三维底座场景渲染的VR编辑方法,其包括:
S1:获取关于目标场景的多维度现场数据;
S2:构建一个多层感知器神经网络模型,通过所述多维度现场数据对所述多层感知器神经网络模型进行多轮训练,得到所述目标场景的场景生成模型;
S3:获取用户输入的查看位置,将所述查看位置输入所述场景生成模型,得到所述查看位置对应的所述目标场景中各发光点的颜色值和整体密度值;
S4:根据所述颜色值和所述整体密度值,渲染出所述查看位置能够查看到的所述目标场景的三维实景。
其中,S1、S2等仅为步骤标识,方法的执行顺序并不一定按照数字由小到大的顺序进行,比如可以是先执行步骤S2再执行步骤S1,本申请不做限制。
可以理解,本申请公开了一种基于神经辐射场(Neural Radiance Fields,NeRf)重建三维底座场景渲染的VR编辑应用方法,通过目标场景的多维现场数据对一个多层感知器神经网络模型进行多轮训练,得到该目标场景的场景生成模型;再由用户输入任一查看位置,即可根据该场景生成模型的输出数据渲染出三维实景。采用本方法实现实景三维漫游,能够在场景中进行自由移动不受预置点位限制,此外,本方法本质上是在渲染每一帧场景图片,并不依赖于计算量较大的网格(Mesh)三维模型,因此能够减少项目内存大小提高加载速度。
在本申请可选的实施例中,所述步骤S1包括:
S11:通过相机对目标场景进行多方位录制,得到录制视频;
S12:对所述录制视频按时间顺序进行抽帧,并按照统一尺寸裁剪抽取的各帧画面,得到所述目标场景的图片序列;
S13:对所述图片序列中的每张图片进行相机位姿计算,得到包括每张图片对应的相对位姿的位姿文件;
S14:根据所述图片序列和所述位姿文件,得到所述所述图片序列中每张图片对应的深度图和法线图;
S15:采用物体检测分割算法(InSPyReNet)根据所述图片序列,得到所述图片序列的掩码图。
在本申请可选的实施例中,所述多维度现场数据包括以下至少一项:所述目标场景的图片序列;所述位姿文件;所述图片序列中每张图片对应的所述深度图和所述法线图;所述图片序列的所述掩码图。
在本申请可选的实施例中,所述多层感知器神经网络模型包括输入层、隐藏层和输出层;所述多层感知器神经网络模型的输出数据包括以下五维向量:第一方向光辐射度;第二方向光辐射度;第三方向光辐射度;前景密度值;后景密度值。
在本申请可选的实施例中,所述步骤S2包括:
S21:构建所述多层感知器(MLP)神经网络模型;
S22:将所述多维度现场数据输入所述多层感知器神经网络模型,得到所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值;
S23:使用射线步进(Ray Marching)算法根据所述第一方向光辐射度(radiance)、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值估算对应的颜色值,得到估算颜色值;
S24:根据所述估算颜色值和真实颜色值计算损失值,根据所述损失值进行反向传播,更新所述多层感知器神经网络模型中每个神经元之间的连接权重,得到所述目标场景的场景生成模型。
在本申请可选的实施例中,所述步骤S3包括:
S31:获取用户输入的查看点三维坐标和查看角度;
S32:将所述查看点三维坐标和所述查看角度输入所述场景生成模型,得到所述查看位置对应的所述目标场景中各发光点的所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值;
S33:使用Ray Marching算法根据所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值计算所述目标场景中各发光点的颜色值;
S34:结合所述前景密度值和所述后景密度值,得到所述目标场景中各发光点的整体密度值。
在本申请可选的实施例中,上述VR编辑应用方法还包括
S5:获取用户针对所述目标场景的三维实景标注的标签信息;
S6:将所述标签信息输入所述多层感知器神经网络模型进行训练,更新所述场景生成模型。
其中,所述标签信息包括标签图像和标签位置。
可以理解,本申请提供的打标签功能具有以下优势:
1、减少项目内存大小和提高加载速度:传统的三维模型(如mesh模型)需要占用大量内存空间,特别是建筑级的mesh模型,可能占用几个GB的内存。而采用NeRF进行实景漫游时,不需要显示具体的三维模型,而是在渲染每一帧场景图片。NeRF模型的权重大小相对较小,通常只占用几百兆的内存空间。因此,通过将标签渲染进网络模型中,可以减少项目的内存占用,提高加载速度。
2、全局一致性的标签:打标签的全局一致性通常依赖于使用mesh三维模型。然而,采用NeRF进行实景漫游时,重建的场景是隐式的,并且通过渲染每个视角的场景图片来实现。通过将标签渲染进网络模型中,可以获得具有全局一致性的标签,无需依赖具体的三维模型。
第二方面,本申请公开了一种VR编辑应用的处理装置,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面任一项所述的方法。
第三方面,本申请公开了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面任一项所述的方法。
有益效果:
本申请公开了一种基于NeRf重建三维底座场景渲染的VR编辑方法,包括实景三维漫游功能和三维场景打标签功能。
针对实景三维漫游功能,本申请通过目标场景的多维现场数据对一个多层感知器神经网络模型进行多轮训练,得到该目标场景的场景生成模型;再由用户输入任一查看位置,即可根据该场景生成模型的输出数据渲染出三维实景。采用本方法实现的实景三维漫游功能,能够在场景中进行自由移动不受预置点位限制,此外,本方法本质上是在渲染每一帧场景图片,并不依赖于计算量较大的Mesh三维模型,因此能够减少项目内存大小提高加载速度。
针对三维场景打标签功能,获取用户针对目标场景的三维实景标注的标签信息;将该标签信息输入所述多层感知器神经网络模型进行训练,更新所述场景生成模型。通过在场景中进行打标签,并将标签融合进训练模型中进行训练,可以实现多视角下标签的全局位置一致性。这意味着标签在不同视角下的位置和姿态都能够被准确地捕捉和渲染,从而提高了标签的准确性和一致性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举可选实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请提供的一种基于NeRf重建三维底座场景渲染的VR编辑方法的流程示意图;
图2是图1所示方法的具体执行流程图;
图3是本申请提供的一种VR编辑应用的处理装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一方面,本申请提供一种基于NeRf重建三维底座场景渲染的VR编辑方法,主要涉及实景三维漫游功能与三维场景打标签功能。
针对实景三维漫游功能的实现,如图1所示,上述方法包括:
S1:获取关于目标场景的多维度现场数据。
在本申请可选的实施例中,如图2所示,步骤S1包括:
S11:通过相机对目标场景进行多方位录制,得到录制视频。
使用手机或使用全景相机对需要漫游的目标场景进行录制,录制场景时应尽可能的覆盖场景内所有方位和角落。
S12:对录制视频按时间顺序进行抽帧,并按照统一尺寸裁剪抽取的各帧画面,得到目标场景的图片序列。
将录像进行抽帧以获取图片序列并进行图像裁减,非1:1的图像将按照宽的长度作为正方形的边长,截取原图像中间的正方形部分,截取后将该图像进行尺寸重置,统一将尺寸重置为384*384。
S13:对图片序列中的每张图片进行相机位姿计算,得到包括每张图片对应的相对位姿的位姿文件。
将处理好的图片序列进行相机的位姿计算(SFM),获得每张图片所在的相对位姿,并将位姿结果保存进json文件中。
S14:根据图片序列和位姿文件,得到图片序列中每张图片对应的深度图和法线图。
将计算位姿后的图片序列采用Omnidata Model等图像处理模型进行深度图(depth)与法线图(normal)的获取。
S15:采用InSPyReNet根据图片序列,得到图片序列的掩码图。
逆向显著性金字塔重建网络(Inverse Saliency Pyramid ReconstructionNetwork,InSPyReNet)的核心思想是利用显著性图像的金字塔表示来重建原始图像。金字塔表示将图像分解为多个尺度的图像,从粗糙到细致地描述了图像的结构信息。InSPyReNet通过学习一个逆过程,即从显著性图像金字塔逐层恢复原始图像的金字塔,以实现图像重建。InSPyReNet包含多个关键组件,包括编码器、解码器和逆金字塔重建模块。编码器负责将原始图像转换为显著性图像金字塔,解码器则从显著性图像金字塔中重建原始图像。逆金字塔重建模块通过逆向处理显著性图像金字塔的每一层来逐层重建原始图像的金字塔。InSPyReNet通过端到端的训练过程来学习重建原始图像的能力。训练过程包括使用重建图像和原始图像之间的损失函数来优化网络参数,以使重建图像尽可能接近原始图像。通过使用InSPyReNet,可以在给定显著性图像的情况下,恢复出原始图像的结构信息和细节。这对于图像处理和计算机视觉任务中的许多应用是非常有用的,例如图像修复、图像压缩和图像编辑等。
在本申请可选的实施例中,多维度现场数据包括以下至少一项:目标场景的图片序列;位姿文件;图片序列中每张图片对应的深度图和法线图;图片序列的掩码图。
S2:构建一个多层感知器神经网络模型,通过多维度现场数据对多层感知器神经网络模型进行多轮训练,得到目标场景的场景生成模型。
NeRF模型由两个主要部分组成:NeRF编码器和NeRF渲染器。NeRF编码器负责将场景中的三维点映射到其辐射强度和法向量的表示,而NeRF渲染器则根据这些表示生成最终的图像。NeRF模型通过从输入图像和对应的视角数据中学习,优化这两个部分的参数,以使生成的图像与观察到的图像尽可能一致。其中,步骤S2主要表现了NeRF编码器的工作;步骤S3-S4主要表现了NeRF渲染器的工作。
在本申请可选的实施例中,如图2所示,步骤S2包括:
S21:构建多层感知器神经网络模型。
在本申请可选的实施例中,多层感知器神经网络模型包括输入层、隐藏层和输出层;多层感知器神经网络模型的输出数据包括以下五维向量:第一方向光辐射度;第二方向光辐射度;第三方向光辐射度;前景密度值;后景密度值。
构建多层感知器神经网络模型之后,可以设置训练轮次,批量大小和学习率等超参数。针对每轮次训练课重复执行以下步骤S22至S24。
S22:将多维度现场数据输入多层感知器神经网络模型,得到第一方向光辐射度、第二方向光辐射度、第三方向光辐射度、前景密度值和后景密度值。
从现场数据集中随机抽取一批数据作为输入;将输入数据传入神经网络,获取输出的光辐射度和密度值。
S23:使用射线步进(Ray Marching)算法根据第一方向光辐射度、第二方向光辐射度、第三方向光辐射度、前景密度值和后景密度值估算对应的颜色值,得到估算颜色值。
Ray Marching是一种用于实时渲染三维场景的算法。它的原理是通过射线追踪的方式,从相机位置出发,沿着射线逐步前进,直到与场景中的物体相交或达到最大迭代次数。通过对射线的步进和采样,可以计算出相机位置对应的像素颜色值。Ray Marching的原理基于体素空间的表示。场景中的物体被分解为一系列体素,每个体素包含了物体的几何和材质属性。算法通过迭代地计算射线与体素的相交,并根据相交点处的材质属性来决定射线的下一步前进距离。通过多次迭代和采样,可以逐渐累积计算出像素颜色值。RayMarching的优势在于能够处理复杂的三维场景和物体表面,包括光照、反射、折射等效果。与传统的光栅化渲染算法相比,Ray Marching不需要离散化场景,并且可以在每个像素上进行自适应的采样。这使得Ray Marching可以更好地处理场景中的细节和光照效果,并且能够生成高质量的图像。
本申请实施例中,估算颜色值的计算公式如下:
其中,C(r)为射线r的颜色,由积分得到;tn为距离t的近端;tf为距离t的远端;T(t)是射线r从tn到t累积的透明度,σ()为体素密度;d为相机射线的角度。
S24:根据估算颜色值和真实颜色值计算损失值,根据损失值进行反向传播,更新多层感知器神经网络模型中每个神经元之间的连接权重,得到目标场景的场景生成模型。
上述训练结果为目标场景的隐式重建的权重。
在NeRF(Neural Radiance Fields)模型中,权重通常指的是神经网络的参数,即模型的可学习参数。这些参数控制着模型的行为和输出,包括神经网络的层权重和偏置项。NeRF模型是一种用于对三维场景进行建模和渲染的神经网络模型。它通过学习表示场景中每个3D点的辐射量和密度来实现渲染。具体而言,NeRF模型使用一对神经网络——一个用于估计3D点的辐射量(颜色),另一个用于估计每个3D点的密度。对于辐射量神经网络,权重参数控制了神经网络的层之间的连接强度和变换关系。这些权重用于从场景的3D坐标和观察角度等输入信息中预测每个3D点的颜色。对于密度神经网络,权重参数用于从场景的3D坐标中预测每个3D点的密度。这些权重控制了神经网络如何从输入坐标中学习场景的几何形状和结构信息。在训练NeRF模型时,这些权重参数是通过最小化损失函数来进行优化的,以使模型的预测尽可能地接近真实观察到的图像。优化算法(例如梯度下降)通过调整这些权重,以最大程度地减小模型的预测与真实图像之间的差距。NeRF模型的权重是根据特定的训练数据和任务来学习的,并且在每个具体的应用中可能会有所不同。
通过使用可微渲染函数,可以将预测的颜色值与实际观测到的颜色值进行比较,从而计算损失并进行反向传播。这种方式使得训练过程可以利用真实数据与预测结果之间的差异,逐渐优化网络权重,提高模型的性能和精度。
在本申请实施例中,计算损失值的损失函数如下:
其中,Cr(r)为较稀疏点的颜色值;Cf(r)为根据概率密度函数采样的点;C(r)为图片上的颜色真值。
S3:获取用户输入的查看位置,将查看位置输入场景生成模型,得到查看位置对应的目标场景中各发光点的颜色值和整体密度值。
在本申请可选的实施例中,步骤S3包括:
S31:获取用户输入的查看点三维坐标和查看角度。
举例说明,用户可以通过键盘的W字母按键、A字母按键、S字母按键、D字母按键控制视角相机的前后左右,使用鼠标控制前进方向,至此完成拥有高自由度的三维实景查看功能。
S32:将查看点三维坐标和查看角度输入场景生成模型,得到查看位置对应的目标场景中各发光点的第一方向光辐射度、第二方向光辐射度、第三方向光辐射度、前景密度值和后景密度值。
S33:使用Ray Marching算法根据第一方向光辐射度、第二方向光辐射度、第三方向光辐射度、前景密度值和后景密度值计算目标场景中各发光点的颜色值。
S34:结合前景密度值和后景密度值,得到目标场景中各发光点的整体密度值。
S4:根据颜色值和整体密度值,渲染出查看位置能够查看到的目标场景的三维实景。
其中,S1、S2等仅为步骤标识,方法的执行顺序并不一定按照数字由小到大的顺序进行,比如可以是先执行步骤S2再执行步骤S1,本申请不做限制。
可以理解,本申请公开了一种基于神经辐射场(Neural Radiance Fields,NeRf)重建三维底座场景渲染的VR编辑应用方法,通过目标场景的多维现场数据对一个多层感知器神经网络模型进行多轮训练,得到该目标场景的场景生成模型;再由用户输入任一查看位置,即可根据该场景生成模型的输出数据渲染出三维实景。采用本方法实现实景三维漫游,能够在场景中进行自由移动不受预置点位限制,此外,本方法本质上是在渲染每一帧场景图片,并不依赖于计算量较大的网格(Mesh)三维模型,因此能够减少项目内存大小提高加载速度。
在本申请可选的实施例中,如图2所示,上述VR编辑应用方法还包括
S5:获取用户针对目标场景的三维实景标注的标签信息;
S6:将标签信息输入多层感知器神经网络模型进行训练,更新场景生成模型。
其中,标签信息包括标签图像和标签位置。
步骤S6包括将标签信息融合进原始场景进行训练,导出包含标签的场景模型权重,反馈给场景生成模型。
可以理解,本申请提供的打标签功能具有以下优势:
1、减少项目内存大小和提高加载速度:传统的三维模型(如mesh模型)需要占用大量内存空间,特别是建筑级的mesh模型,可能占用几个GB的内存。而采用NeRF进行实景漫游时,不需要显示具体的三维模型,而是在渲染每一帧场景图片。NeRF模型的权重大小相对较小,通常只占用几百兆的内存空间。因此,通过将标签渲染进网络模型中,可以减少项目的内存占用,提高加载速度。
2、全局一致性的标签:打标签的全局一致性通常依赖于使用mesh三维模型。然而,采用NeRF进行实景漫游时,重建的场景是隐式的,并且通过渲染每个视角的场景图片来实现。通过将标签渲染进网络模型中,可以获得具有全局一致性的标签,无需依赖具体的三维模型。
第二方面,本申请提供一种VR编辑应用的处理装置。如图3所示,VR编辑应用的处理装置包括一个或多个处理器301;一个或多个输入设备302,一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器304用于存储计算机程序,该计算机程序包括程序指令,处理器301用于执行存储器304存储的程序指令。其中,处理器301被配置用于调用该程序指令执行第一方面任一方法的操作:
应当理解,在本发明实施例中,所称处理器301可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备302可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备303可以包括显示器(LCD等)、扬声器等。
该存储器304可以包括只读存储器和随机存取存储器,并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如,存储器304还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行第一方面任一方法所描述的实现方式,也可执行本发明实施例所描述的终端设备的实现方式,在此不再赘述。
第三方面,本发明供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现第一方面任一方法的步骤。
上述计算机可读存储介质可以是前述任一实施例的终端设备的内部存储单元,例如终端设备的硬盘或内存。上述计算机可读存储介质也可以是上述终端设备的外部存储设备,例如上述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述终端设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述终端设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
以上描述仅为本申请的可选实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
以上描述仅为本申请的可选实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
以上所述仅为本申请的可选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,包括:
S1:获取关于目标场景的多维度现场数据;
S2:构建一个多层感知器神经网络模型,通过所述多维度现场数据对所述多层感知器神经网络模型进行多轮训练,得到所述目标场景的场景生成模型;
S3:获取用户输入的查看位置,将所述查看位置输入所述场景生成模型,得到所述查看位置对应的所述目标场景中各发光点的颜色值和整体密度值;
S4:根据所述颜色值和所述整体密度值,渲染出所述查看位置能够查看到的所述目标场景的三维实景;
S5:获取用户针对所述目标场景的三维实景标注的标签信息;
S6:将所述标签信息输入所述多层感知器神经网络模型进行训练,更新所述场景生成模型;所述标签信息包括标签图像和标签位置。
2.根据权利要求1所述的基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,
所述步骤S1包括:
S11:通过相机对目标场景进行多方位录制,得到录制视频;
S12:对所述录制视频按时间顺序进行抽帧,并按照统一尺寸裁剪抽取的各帧画面,得到所述目标场景的图片序列;
S13:对所述图片序列中的每张图片进行相机位姿计算,得到包括每张图片对应的相对位姿的位姿文件;
S14:采用Omnidata Model根据所述图片序列和所述位姿文件,得到所述所述图片序列中每张图片对应的深度图和法线图;
S15:采用InSPyReNet根据所述图片序列,得到所述图片序列的掩码图。
3.根据权利要求2所述的基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,
所述多维度现场数据包括以下至少一项:
所述目标场景的图片序列;
所述位姿文件;
所述图片序列中每张图片对应的所述深度图和所述法线图;
所述图片序列的所述掩码图。
4.根据权利要求1所述的基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,
所述多层感知器神经网络模型包括输入层、隐藏层和输出层;
所述多层感知器神经网络模型的输出数据包括以下五维向量:
第一方向光辐射度;
第二方向光辐射度;
第三方向光辐射度;
前景密度值;
后景密度值。
5.根据权利要求4所述的基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,
所述步骤S2包括:
S21:构建所述多层感知器神经网络模型;
S22:将所述多维度现场数据输入所述多层感知器神经网络模型,得到所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值;
S23:使用Ray Marching算法根据所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值估算对应的颜色值,得到估算颜色值;
S24:根据所述估算颜色值和真实颜色值计算损失值,根据所述损失值进行反向传播,更新所述多层感知器神经网络模型中每个神经元之间的连接权重,得到所述目标场景的场景生成模型。
6.根据权利要求5所述的基于NeRf重建三维底座场景渲染的VR编辑方法,其特征在于,
所述步骤S3包括:
S31:获取用户输入的查看点三维坐标和查看角度;
S32:将所述查看点三维坐标和所述查看角度输入所述场景生成模型,得到所述查看位置对应的所述目标场景中各发光点的所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值;
S33:使用Ray Marching算法根据所述第一方向光辐射度、所述第二方向光辐射度、所述第三方向光辐射度、所述前景密度值和所述后景密度值计算所述目标场景中各发光点的颜色值;
S34:结合所述前景密度值和所述后景密度值,得到所述目标场景中各发光点的整体密度值。
CN202310850294.6A 2023-07-12 2023-07-12 一种基于NeRf重建三维底座场景渲染的VR编辑方法 Active CN116958492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310850294.6A CN116958492B (zh) 2023-07-12 2023-07-12 一种基于NeRf重建三维底座场景渲染的VR编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310850294.6A CN116958492B (zh) 2023-07-12 2023-07-12 一种基于NeRf重建三维底座场景渲染的VR编辑方法

Publications (2)

Publication Number Publication Date
CN116958492A CN116958492A (zh) 2023-10-27
CN116958492B true CN116958492B (zh) 2024-05-03

Family

ID=88459678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310850294.6A Active CN116958492B (zh) 2023-07-12 2023-07-12 一种基于NeRf重建三维底座场景渲染的VR编辑方法

Country Status (1)

Country Link
CN (1) CN116958492B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332840B (zh) * 2023-12-01 2024-03-19 深圳市其域创新科技有限公司 神经辐射场的训练方法、获取目标场景图像的方法及装置
CN117333637B (zh) * 2023-12-01 2024-03-08 北京渲光科技有限公司 三维场景的建模及渲染方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000013407A1 (en) * 1998-08-28 2000-03-09 Sarnoff Corporation Method and apparatus for electronically enhancing images
CN106547880A (zh) * 2016-10-26 2017-03-29 重庆邮电大学 一种融合地理区域知识的多维度地理场景识别方法
CN114758081A (zh) * 2022-06-15 2022-07-15 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN114979785A (zh) * 2022-04-15 2022-08-30 荣耀终端有限公司 视频处理方法和相关装置
CN115457188A (zh) * 2022-09-19 2022-12-09 遥在(山东)数字科技有限公司 一种基于注视点的3d渲染显示方法及系统
CN115482368A (zh) * 2022-09-28 2022-12-16 浙江大学 一种利用语义图进行三维场景编辑的方法
CN116071278A (zh) * 2022-11-29 2023-05-05 西安交通大学 无人机航拍图像合成方法、系统、计算机设备及存储介质
CN116129073A (zh) * 2022-12-06 2023-05-16 闽江学院 基于giraffe的教室场景三维重建方法
CN116188689A (zh) * 2023-01-13 2023-05-30 阿里巴巴(中国)有限公司 辐射场的处理方法、存储介质以及计算机终端
CN116258859A (zh) * 2023-03-15 2023-06-13 零束科技有限公司 语义分割方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000013407A1 (en) * 1998-08-28 2000-03-09 Sarnoff Corporation Method and apparatus for electronically enhancing images
CN106547880A (zh) * 2016-10-26 2017-03-29 重庆邮电大学 一种融合地理区域知识的多维度地理场景识别方法
CN114979785A (zh) * 2022-04-15 2022-08-30 荣耀终端有限公司 视频处理方法和相关装置
CN114758081A (zh) * 2022-06-15 2022-07-15 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
WO2023093186A1 (zh) * 2022-06-15 2023-06-01 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN115457188A (zh) * 2022-09-19 2022-12-09 遥在(山东)数字科技有限公司 一种基于注视点的3d渲染显示方法及系统
CN115482368A (zh) * 2022-09-28 2022-12-16 浙江大学 一种利用语义图进行三维场景编辑的方法
CN116071278A (zh) * 2022-11-29 2023-05-05 西安交通大学 无人机航拍图像合成方法、系统、计算机设备及存储介质
CN116129073A (zh) * 2022-12-06 2023-05-16 闽江学院 基于giraffe的教室场景三维重建方法
CN116188689A (zh) * 2023-01-13 2023-05-30 阿里巴巴(中国)有限公司 辐射场的处理方法、存储介质以及计算机终端
CN116258859A (zh) * 2023-03-15 2023-06-13 零束科技有限公司 语义分割方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction;Zehao Yu et al.;《36th Conference on Neural Information Processing Systems》;第1-15页 *
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis;Ben Mildenhall et al.;《Communications of the ACM》;第65卷(第1期);第99-106页 *
Revisiting Image Pyramid Structure for High Resolution Salient Object Detection;Taehun Kim et al.;《Proceedings of the Asian Conference on Computer Vision (ACCV), 2022》;第108-124页 *

Also Published As

Publication number Publication date
CN116958492A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
Xie et al. Neural fields in visual computing and beyond
CN108335353B (zh) 动态场景的三维重建方法、装置和系统、服务器、介质
CN116958492B (zh) 一种基于NeRf重建三维底座场景渲染的VR编辑方法
US11941831B2 (en) Depth estimation
CN115082639A (zh) 图像生成方法、装置、电子设备和存储介质
CN113689578B (zh) 一种人体数据集生成方法及装置
CN115100339A (zh) 图像生成方法、装置、电子设备和存储介质
US11748937B2 (en) Sub-pixel data simulation system
CN110998671B (zh) 三维重建方法、装置、系统和存储介质
dos Santos Rosa et al. Sparse-to-continuous: Enhancing monocular depth estimation using occupancy maps
US20230130281A1 (en) Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling
CN113450396A (zh) 基于骨骼特征的三维/二维图像配准方法及装置
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN116051719A (zh) 一种基于神经辐射场模型的图像渲染方法及装置
Baudron et al. E3d: event-based 3d shape reconstruction
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN113439289A (zh) 用于确定对象厚度的图像处理
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
CN116993926B (zh) 单视图人体三维重建方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Mittal Neural Radiance Fields: Past, Present, and Future
WO2022139784A1 (en) Learning articulated shape reconstruction from imagery
CN116503524B (zh) 一种虚拟形象的生成方法、系统、装置及存储介质
US11562504B1 (en) System, apparatus and method for predicting lens attribute

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant