CN116452758B - 一种神经辐射场模型加速训练方法、装置、设备及介质 - Google Patents

一种神经辐射场模型加速训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN116452758B
CN116452758B CN202310728864.4A CN202310728864A CN116452758B CN 116452758 B CN116452758 B CN 116452758B CN 202310728864 A CN202310728864 A CN 202310728864A CN 116452758 B CN116452758 B CN 116452758B
Authority
CN
China
Prior art keywords
pixel
color
depth value
predicted
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310728864.4A
Other languages
English (en)
Other versions
CN116452758A (zh
Inventor
蒋敏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingyi Shanghai Intelligent Technology Co ltd
Original Assignee
Qingyi Shanghai Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingyi Shanghai Intelligent Technology Co ltd filed Critical Qingyi Shanghai Intelligent Technology Co ltd
Priority to CN202310728864.4A priority Critical patent/CN116452758B/zh
Publication of CN116452758A publication Critical patent/CN116452758A/zh
Application granted granted Critical
Publication of CN116452758B publication Critical patent/CN116452758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Image Generation (AREA)

Abstract

本发明提供一种神经辐射场模型加速训练方法、装置、设备及介质,涉及计算机视觉技术领域。方法包括:通过相机对待渲染场景进行多视角的图像采集;根据采集到的图像获得相机位姿参数,并得到相对坐标系下图像的特征点云;计算特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据预测的深度值与伪深度值计算深度损失,根据预测的像素颜色与图像的真实颜色计算颜色损失;将深度损失和颜色损失输入神经网络,反向传播,更新神经网络参数。本发明可提高神经辐射场模型的渲染速度,减少甚至消除神经辐射场建模中的漂浮物,提升场景重建的效果。

Description

一种神经辐射场模型加速训练方法、装置、设备及介质
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种神经辐射场模型加速训练方法、装置、设备及介质。
背景技术
神经辐射场(NeRF)是一种开创性的三维重建方法,不同于传统的通过点云、网格或者体素等显式重建方法,神经辐射场是一种使用神经网络隐函数隐态建模实现三维场景的方法,在已知一组相机位姿和拍摄图像的情况下,通过神经网络的训练来拟合在已知角度上的拍摄图像,使用体渲染得到像素的颜色,隐态进行三维场景的建模。
与常规建模方法相比,神经辐射场的优势如下:1.神经辐射场建模耗时与图像数目关系小;2.神经辐射场建模真实度高,和常规建模方法相比,神经辐射场可以对植被、半透明物体、反光物体、水面等进行真实的还原;3.神经辐射场建模不依赖于图像中的特征点,因此在特征点稀疏的局部场景中,常规建模方法可能会缺失物体的一些部分和形成毛刺边缘。
但是,原始的NeRF需要一周时间才能完成训练,而且渲染的速度也十分缓慢,重建的场景中部分质量也很差。英伟达(instant-NGP)将NeRF加速成可以实时渲染,并且训练时间缩短到只需要几分钟,但仍存在渲染开销大和重建场景中存在漂浮物的问题。
发明内容
鉴于神经辐射场收敛慢、存在漂浮物的问题,本申请实施例提供一种神经辐射场模型加速训练方法、装置、设备及介质,以达到提高神经辐射场模型的渲染速度,并且减少甚至消除神经辐射场建模中的漂浮物的目的。
本申请实施例提供以下技术方案:一种神经辐射场模型加速训练方法,包括:
通过相机对待渲染场景进行多视角的图像采集;
根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与所述图像的真实颜色计算颜色损失;
将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型。
根据本申请一种实施例,还包括:
通过高斯分布对图像的像素点进行采样,控制采样率占整个图像的4-10%,并计算每个特征点覆盖下的像素深度的权重;
根据所述权重,对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值。
根据本申请一种实施例,计算每个特征点覆盖下的像素深度的权重,包括:
采用如下公式计算每个特征点覆盖下的像素深度的权重:
其中,为特征点的像素坐标,/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标,/>是一个特征点覆盖下的像素深度的权重;/>是缩放因子,用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值,/>
根据本申请一种实施例,对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值,包括:
采用如下公式,对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值:
其中,为覆盖像素的特征点的伪深度值,/>是像素的最终的伪深度值,/>是每个特征点覆盖下的像素深度的权重之和。
根据本申请一种实施例,采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,包括:
根据相机位姿参数,在给定的像素点对应视角的相机射线上采样,获得采样点的位置坐标和视角方向;其中,将相机射线标记为r(t)= o+ td ,o为射线原点,d为视角方向,t为相机射线的长度;
将采样点的位置坐标向量和视角方向的坐标向量输入所述神经网络,输出预测的采样点的颜色和体密度/>,采用体渲染的方式,累计每个采样点的颜色和体密度,得到所述预测的像素颜色和所述预测的深度值。
根据本申请一种实施例,累计每个采样点的颜色和体密度,得到所述预测的像素颜色和所述预测的深度值,包括:
通过以下积分公式得到所述预测的像素颜色
通过以下积分公式得到所述预测的深度值
其中,
其中,i=(1,2,3...N),表示第i个采样点j=(1,2,3...(i-1)),表示第j个采样点/>分别表示两个采样点间的距离,/>,/>,/>表示相机到第i个采样点的距离,/>表示相机到第j个采样点的距离,/>表示相机到第i+1个采样点的距离,/>表示相机到第j+1个采样点的距离,/>表示第i个采样点的体密度,/>表示颜色,/>表示采样点i剩余的体密度,/>表示第j个采样点的体密度。
根据本申请一种实施例,根据所述预测的深度值与所述伪深度值/>计算深度损失,包括:
通过以下公式计算所述深度损失:
根据预测的像素颜色与真实图像的颜色/>计算颜色损失,包括:
通过以下公式计算所述颜色损失:
其中,G和R均表示光线集合;
将所述深度损失和所述颜色损失构成的所述损失函数为:
本申请还提供一种神经辐射场模型加速训练装置,包括:
图像采集模块,用于通过相机对待渲染场景进行多视角的图像采集;
特征提取模块,用于根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
伪深度值计算模块,用于在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
损失计算模块,用于采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与所述图像的真实颜色计算颜色损失;
模型更新模块,用于将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型。
本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的神经辐射场模型加速训练方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述的神经辐射场模型加速训练方法的计算机程序。
与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:本发明针对神经辐射场训练收敛慢、渲染开销大和重建场景中存在漂浮物的问题,设计了从特征点云中计算伪深度的方法,将点云与相机之间的距离作为深度值,将深度值加入到损失函数中神经辐射场模型的训练。使用伪深度监督神经辐射场模型的训练缩短了收敛时间,大大提高了神经辐射场模型渲染的速度,降低了渲染成本,并且可以解决神经辐射场模型重建场景中存在漂浮物的问题,提升了场景重建的效果。
本发明的方法可以在神经辐射场建模方法本身具有的建模和渲染高真实性的能力下,进一步实用化基于神经辐射场的实景建模应用。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的神经辐射场模型加速训练方法流程示意图;
图2是本发明实施例的神经辐射场模型加速训练装置结构框图;
图3是本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本发明实施例提供了一种神经辐射场模型加速训练方法,包括:
S101.通过相机对待渲染场景进行多视角的图像采集;
S102.根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
该步骤中,在采用传统的神经辐射场(NeRF)进行建模时,采用运动结构法则(SFM),从采集到的图像中提取特征点进行匹配的方式计算相机位姿的同时,可以得到部分特征点的相对三维坐标,这部分特征点的集合为本发明实施例中所述的特征点云。
S103.在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
由于特征点与像素所对应,此伪深度值就作为该像素的深度标签。
在该步骤的进一步方案中,由于使用SFM得到的是稀疏点云而非稠密的点云,特征点对应的像素的数量约占据整张图片像素的1/3000,数量过于少,对最终的监督并不会很强烈,所以该方法中还使用高斯分布对图像的像素点进行采样,控制最终的采样率占整张图片的4%~10%,并计算每个特征点覆盖下的像素深度的权重;其中,所述采样率为采样像素的数量占整张图片像素数量的百分数,采样率占据这些数量不会消耗太多额外的计算开销并且监督效果也不差,优选的采样率为6%。
其中,采用如下公式计算每个特征点覆盖下的像素深度的权重:
式中,为特征点的像素坐标,/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标,/>是一个特征点覆盖下的像素深度的权重,/>;/>是缩放因子,用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值,即上述的4%~10%,在具体实施时,当图像像素为1600*1600时,控制f = 1。
另外,由于一个像素会存在被多个特征点覆盖的情况,每个特征点都会产生一个深度的权重,因此控制所有特征点深度的权重之和≤1,如下式:
的阈值是 0.01。当覆盖像素的某个特征点产生的深度的权重过于小的时候,即小于0.01时,本实施例将权重直接设置为0,即:当/>≤0.01时,/>= 0。
由于采样点的伪深度值与覆盖该采样点的特征点的伪深度值一致,因此会存在一个像素点被多个特征点覆盖的情况,本实施例使用如下公式加权各个特征点的深度,得到最终用来监督的像素的伪深度值
其中,为覆盖像素的特征点的伪深度值,/>是用来监督像素的最终的所述伪深度值;在进行采样时,特征点对应的像素会覆盖其余像素进行采样,因此所述的覆盖像素的特征点的伪深度值/>,即通过该特征点与相机的距离获得,/>是每个特征点覆盖下的像素深度的权重之和。
S104.采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与真实图像的颜色计算颜色损失;
该步骤中,采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,具体包括:
根据相机位姿参数,在给定的像素点对应视角的相机射线上采样,获得采样点的位置坐标和视角方向;其中,将相机射线标记为r(t)= o+ td ,o为射线原点,d为视角方向,t为相机射线的长度;
将采样点的位置坐标向量和视角方向的坐标向量输入神经网络,输出预测的采样点的颜色和体密度/>,采用体渲染的方式,累计每个采样点的颜色和体密度,得到所述预测的像素颜色和所述预测的深度值。
将所述预测的像素颜色的积分公式简化为:
将所述预测的深度值的积分公式简化为:
其中,
其中,i=(1,2,3...N),表示第i个采样点j=(1,2,3...(i-1)),表示第j个采样点/>分别表示两个采样点间的距离,/>,/>,/>表示相机到第i个采样点的距离,/>表示相机到第j个采样点的距离,/>表示相机到第i+1个采样点的距离,/>表示相机到第j+1个采样点的距离,/>表示第i个采样点的体密度,/>表示颜色,/>表示采样点i剩余的体密度,/>表示第j个采样点的体密度。
再根据所述预测的深度值与所述伪深度值/>计算深度损失,所述深度损失为:
根据预测的像素颜色与真实图像的颜色/>计算颜色损失,所述颜色损失为:
其中,上式中的G和R均表示光线集合。
S105.将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型。
具体地,将所述深度损失和所述颜色损失构成损失函数输入神经网络,所述损失函数为:
本发明实施例鉴于神经辐射场收敛慢、存在漂浮物的问题,定义了一种伪深度,可以加入到损失函数中用来监督神经辐射场的训练,本质上就是使用伪深度对体密度进行监督,可以加大物体表面的采样点的体密度值,从而加速模型训练,加快收敛,使射线渲染提前终止,从而大大加快NeRF渲染的速度,并且减少乃至消除神经辐射场建模中的漂浮物。
本发明实的上述神经辐射场模型加速训练方法的一种运行过程实施例如下:
1.运行python run_colmap2nerf.py得到transform.json,包含相机位姿(相机内外参数);
2.运行python colmap2point_cloud.py得到特征点云数据,将得到的point_cloud.json路径放入1的json文件中;
3.运行编译好的软件,输入以下参数:
其中--scene即为transform.json的路径,--config为模型的种类,一共有3种大小的网络,适应不同大小的场景。
如图2所示,本方面另一方面还提供一种神经辐射场模型加速训练装置200,包括:
图像采集模块201,用于通过相机对待渲染场景进行多视角的图像采集;
特征提取模块202,用于根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
伪深度值计算模块203,用于在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
损失计算模块204,用于采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与所述图像的真实颜色计算颜色损失;
模型更新模块205,用于将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型。
在一种实施例中,提供了一种计算机设备,如图3所示,包括存储器301、处理器302及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的神经辐射场模型加速训练方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的神经辐射场模型加速训练方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种神经辐射场模型加速训练方法,其特征在于,包括:
通过相机对待渲染场景进行多视角的图像采集;
根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与所述图像的真实颜色计算颜色损失;
将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型;
还包括:
通过高斯分布对图像的像素点进行采样,控制采样率占整个图像的4-10%,并计算每个特征点覆盖下的像素深度的权重;
根据所述权重,对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值;
计算每个特征点覆盖下的像素深度的权重,包括:
采用如下公式计算每个特征点覆盖下的像素深度的权重:
其中,为特征点的像素坐标,/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标,/>是一个特征点覆盖下的像素深度的权重;/>是缩放因子,用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值,/>
对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值,包括:
采用如下公式,对每个像素的所述伪深度值进行加权计算,得到每个像素的最终的伪深度值:
其中,为覆盖像素的特征点的伪深度值,/>是像素的最终的伪深度值,/>是每个特征点覆盖下的像素深度的权重之和。
2.根据权利要求1所述的神经辐射场模型加速训练方法,其特征在于,采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,包括:
根据相机位姿参数,在给定的像素点对应视角的相机射线上采样,获得采样点的位置坐标和视角方向;其中,将相机射线标记为r(t)= o+ td ,o为射线原点,d为视角方向,t为相机射线的长度;
将采样点的位置坐标向量和视角方向的坐标向量输入所述神经网络,输出预测的采样点的颜色和体密度/>,采用体渲染的方式,累计每个采样点的颜色和体密度,得到所述预测的像素颜色和所述预测的深度值。
3.根据权利要求2所述的神经辐射场模型加速训练方法,其特征在于,累计每个采样点的颜色和体密度,得到所述预测的像素颜色和所述预测的深度值,包括:
通过以下积分公式得到所述预测的像素颜色
通过以下积分公式得到所述预测的深度值
其中,
其中,i=(1,2,3...N),表示第i个采样点j=(1,2,3...(i-1)),表示第j个采样点/>分别表示两个采样点间的距离,/>,/>,/>表示相机到第i个采样点的距离,/>表示相机到第j个采样点的距离,/>表示相机到第i+1个采样点的距离,/>表示相机到第j+1个采样点的距离,/>表示第i个采样点的体密度,/>表示颜色,/>表示采样点i剩余的体密度,/>表示第j个采样点的体密度。
4.根据权利要求3所述的神经辐射场模型加速训练方法,其特征在于,根据所述预测的深度值与所述伪深度值/>计算深度损失,包括:
通过以下公式计算所述深度损失:
根据预测的像素颜色与真实图像的颜色/>计算颜色损失,包括:
通过以下公式计算所述颜色损失:
其中,G和R均表示光线集合;
将所述深度损失和所述颜色损失构成的所述损失函数为:
5.一种应用权利要求1至4任一项所述的方法的神经辐射场模型加速训练装置,其特征在于,包括:
图像采集模块,用于通过相机对待渲染场景进行多视角的图像采集;
特征提取模块,用于根据采集到的图像获得相机位姿参数,并得到相对坐标系下所述图像的特征点云;
伪深度值计算模块,用于在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离,将该距离作为该特征点对应像素的伪深度值;
损失计算模块,用于采用体渲染的方法,分别得到预测的深度值和预测的像素颜色,根据所述预测的深度值与所述伪深度值计算深度损失,根据预测的像素颜色与所述图像的真实颜色计算颜色损失;
模型更新模块,用于将所述深度损失和所述颜色损失构成损失函数后输入神经网络,通过反向传播,更新所述神经网络的参数,得到神经辐射场模型。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的神经辐射场模型加速训练方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的神经辐射场模型加速训练方法的计算机程序。
CN202310728864.4A 2023-06-20 2023-06-20 一种神经辐射场模型加速训练方法、装置、设备及介质 Active CN116452758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310728864.4A CN116452758B (zh) 2023-06-20 2023-06-20 一种神经辐射场模型加速训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310728864.4A CN116452758B (zh) 2023-06-20 2023-06-20 一种神经辐射场模型加速训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116452758A CN116452758A (zh) 2023-07-18
CN116452758B true CN116452758B (zh) 2023-10-20

Family

ID=87120606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310728864.4A Active CN116452758B (zh) 2023-06-20 2023-06-20 一种神经辐射场模型加速训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116452758B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115339B (zh) * 2023-07-20 2024-05-14 哈尔滨工业大学 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法
CN116977525B (zh) * 2023-07-31 2024-03-01 之江实验室 一种图像渲染方法、装置、存储介质及电子设备
CN117274472B (zh) * 2023-08-16 2024-05-31 武汉大学 一种基于隐式三维表达的航空真正射影像生成方法和系统
CN117036569B (zh) * 2023-10-08 2024-01-30 北京渲光科技有限公司 三维模型颜色生成网络训练方法、颜色生成方法及装置
CN117252987A (zh) * 2023-10-08 2023-12-19 烟台大学 一种基于显式和隐式混合编码的动态场景重建方法
CN117456097B (zh) * 2023-10-30 2024-05-14 南通海赛未来数字科技有限公司 一种三维模型构建方法及装置
CN117333609B (zh) * 2023-12-01 2024-02-09 北京渲光科技有限公司 图像渲染方法、网络的训练方法、设备及介质
CN117710583A (zh) * 2023-12-18 2024-03-15 中铁第四勘察设计院集团有限公司 基于神经辐射场的空地影像三维重建方法、系统及设备
CN117745924B (zh) * 2024-02-19 2024-05-14 北京渲光科技有限公司 基于深度无偏估计的神经渲染方法、系统及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
CN114898028A (zh) * 2022-04-29 2022-08-12 厦门大学 基于点云的场景重建兼渲染的方法、存储介质和电子设备
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115457182A (zh) * 2022-09-28 2022-12-09 南京邮电大学 一种基于多平面图像场景表示的交互视点图像合成方法
CN115619928A (zh) * 2022-09-27 2023-01-17 北京易航远智科技有限公司 用于多相机系统的三维场景重建装置的训练方法
CN115953551A (zh) * 2022-12-22 2023-04-11 浙江大学 一种基于点云初始化和深度监督的稀疏网格辐射场表示方法
CN116051740A (zh) * 2023-01-04 2023-05-02 华南理工大学 一种基于神经辐射场的室外无界场景三维重建方法及系统
WO2023080921A1 (en) * 2021-11-03 2023-05-11 Google Llc Neural radiance field generative modeling of object classes from single two-dimensional views
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
CN116152323A (zh) * 2023-04-18 2023-05-23 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备
CN116152442A (zh) * 2023-03-30 2023-05-23 北京数原数字化城市研究中心 一种三维点云模型生成方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094043B2 (en) * 2017-09-25 2021-08-17 The Regents Of The University Of California Generation of high dynamic range visual media
US20220301252A1 (en) * 2021-03-17 2022-09-22 Adobe Inc. View synthesis of a dynamic scene

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
WO2023080921A1 (en) * 2021-11-03 2023-05-11 Google Llc Neural radiance field generative modeling of object classes from single two-dimensional views
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
CN114898028A (zh) * 2022-04-29 2022-08-12 厦门大学 基于点云的场景重建兼渲染的方法、存储介质和电子设备
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115619928A (zh) * 2022-09-27 2023-01-17 北京易航远智科技有限公司 用于多相机系统的三维场景重建装置的训练方法
CN115457182A (zh) * 2022-09-28 2022-12-09 南京邮电大学 一种基于多平面图像场景表示的交互视点图像合成方法
CN115953551A (zh) * 2022-12-22 2023-04-11 浙江大学 一种基于点云初始化和深度监督的稀疏网格辐射场表示方法
CN116051740A (zh) * 2023-01-04 2023-05-02 华南理工大学 一种基于神经辐射场的室外无界场景三维重建方法及系统
CN116152442A (zh) * 2023-03-30 2023-05-23 北京数原数字化城市研究中心 一种三维点云模型生成方法及装置
CN116152323A (zh) * 2023-04-18 2023-05-23 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备

Also Published As

Publication number Publication date
CN116452758A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN116452758B (zh) 一种神经辐射场模型加速训练方法、装置、设备及介质
CN113706714B (zh) 基于深度图像和神经辐射场的新视角合成方法
Bozic et al. Transformerfusion: Monocular rgb scene reconstruction using transformers
CN106934827A (zh) 三维场景的重建方法和装置
CN105453139A (zh) 用于3d表面重建的稀疏gpu体素化
CN114898028A (zh) 基于点云的场景重建兼渲染的方法、存储介质和电子设备
Zhu et al. Fsgs: Real-time few-shot view synthesis using gaussian splatting
Klenk et al. E-nerf: Neural radiance fields from a moving event camera
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
CN115601511A (zh) 三维重建方法、装置、计算机设备及计算机可读存储介质
CN114170290A (zh) 图像的处理方法及相关设备
CN116721210A (zh) 基于神经有符号距离场的实时高效三维重建方法及装置
Zhang et al. Hawk‐eye‐inspired perception algorithm of stereo vision for obtaining orchard 3D point cloud navigation map
WO2022217470A1 (en) Hair rendering system based on deep neural network
Ahn et al. Panerf: Pseudo-view augmentation for improved neural radiance fields based on few-shot inputs
CN116912393A (zh) 人脸重建方法、装置、电子设备及可读存储介质
Goswami et al. Interactive landscape–scale cloud animation using DCGAN
Spick et al. Naive mesh-to-mesh coloured model generation using 3D GANs
CN116168393B (zh) 基于点云神经辐射场的语义标注数据自动生成方法、装置
CN116681839A (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
CN116385577A (zh) 虚拟视点图像生成方法及装置
CN116342377A (zh) 一种降质场景下伪装目标图像自适应生成方法与系统
CN115953476A (zh) 基于可泛化神经辐射场的人体自由视角合成方法
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及系统
CN117332840B (zh) 神经辐射场的训练方法、获取目标场景图像的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant