CN116310076A - 基于神经辐射场的三维重建方法、装置、设备及存储介质 - Google Patents
基于神经辐射场的三维重建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116310076A CN116310076A CN202211712072.XA CN202211712072A CN116310076A CN 116310076 A CN116310076 A CN 116310076A CN 202211712072 A CN202211712072 A CN 202211712072A CN 116310076 A CN116310076 A CN 116310076A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- image
- information
- sampling point
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000005855 radiation Effects 0.000 title claims abstract description 40
- 210000005036 nerve Anatomy 0.000 title abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 141
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000009877 rendering Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000001537 neural effect Effects 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000005266 casting Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本申请涉及图像处理技术领域,揭露一种基于神经辐射场的三维重建方法、装置、设备及存储介质,其中方法包括:获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到拍摄相机信息和稀疏点云数据;基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息;通过对采样点信息进行位置编码处理,得到目标采样点信息;将目标采样点信息转换为三维模型隐式表示,得到三维图像;对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。本发明有利于提高三维模型的生成精度。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于神经辐射场的三维重建方法、装置、设备及存储介质。
背景技术
在计算机图形学和计算机视觉中,三维重建是根据物体单视图或者多视图的图像对物体进行三维重建的过程,称为基于图像的几何建模(Image based modeling)。这种技术已逐渐成熟且走向实用阶段,有些软件能够让用户拿着普通相机或者手机对着要建模的实物从不同视角拍摄若干照片,然后软件就能根据这些照片自动地生成相应的3D模型。这种基于图片的建模技术提供给了非专业建模人士来构建3D模型新的工具。
当前主流的多视图三维重建算法仍为传统的基于立体视觉算法。然而,基于立体视觉的3D重建算法重建实时性差、计算量大、对图片采集要求较高,重建结果会存在边缘细节不清晰、模型空洞等情况,从而导致三维模型的生成精度较低。
发明内容
本申请实施例的目的在于提出一种基于神经辐射场的三维重建方法、装置、设备及存储介质,以提高三维模型生成的精度。
为了解决上述技术问题,本申请实施例提供一种基于神经辐射场的三维重建方法,包括:
获取若干多视角图像,并对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和稀疏点云数据,其中,所述拍摄相机的空间位置和拍摄方向;
基于所述稀疏点云数据,对所述多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将所述采样点三维位置信息与所述拍摄相机信息作为采样点信息;
通过对所述采样点信息进行位置编码处理,得到目标采样点信息;
将所述目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;
对所述三维图像进行体素渲染,生成新视角图像,并将所述新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
为了解决上述技术问题,本申请实施例提供一种基于神经辐射场的三维重建装置,包括:
多视角图像获取单元,用于获取若干多视角图像,并对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和稀疏点云数据,其中,所述拍摄相机的空间位置和拍摄方向;
采样点信息生成单元,用于基于所述稀疏点云数据,对所述多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将所述采样点三维位置信息与所述拍摄相机信息作为采样点信息;
位置编码单元,用于通过对所述采样点信息进行位置编码处理,得到目标采样点信息;
三维图像生成单元,用于将所述目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;
体素渲染单元,用于对所述三维图像进行体素渲染,生成新视角图像,并将所述新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于神经辐射场的三维重建方法。
为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于神经辐射场的三维重建方法。
本发明实施例提供了一种基于神经辐射场的三维重建方法、装置、设备及存储介质。其中,方法包括:获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据,其中,拍摄相机的空间位置和拍摄方向;基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息;通过对采样点信息进行位置编码处理,得到目标采样点信息;将目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。本发明实施例通过引入神经辐射场的隐式表示对三维模型进行表示,有利于提高三维模型的生成精度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于神经辐射场的三维重建方法流程的一实现流程图;
图2是本申请实施例提供的基于神经辐射场的三维重建方法中子流程的又一实现流程图;
图3是本申请实施例提供的基于神经辐射场的三维重建方法中子流程的又一实现流程图;
图4是本申请实施例提供的基于神经辐射场的三维重建方法中子流程的又一实现流程图;
图5是本申请实施例提供的基于神经辐射场的三维重建装置示意图;
图6是本申请实施例提供的计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面结合附图和实施方式对本发明进行详细说明。
需要说明的是,本申请实施例所提供的基于神经辐射场的三维重建方法一般由服务器执行,相应地,基于神经辐射场的三维重建装置一般配置于服务器中。
请参阅图1,图1示出了基于神经辐射场的三维重建方法的一种具体实施方式。
需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限,该方法包括如下步骤:
S1:获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据。
其中,拍摄相机信息的空间位置和拍摄方向。
进一步地,本申请提供步骤S1的一种具体实施方式,详述如下:
获取若干多视角图像;
采用增量式SFM的方式,对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据。
具体地,获取同一个物体或场景的多种不同视角图像,然后对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据。其中,相机位姿估计是为了获取相机的空间位置和拍摄方向。稀疏点云重建的目的是获取物体采样点的大致范围,从而便于后续的采样处理。
其中,本申请实施例采用增量式SFM的方式,对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据。其中,SFM,(Structure From Motion,从运动中恢复结构),是一种从一组不同视角下拍摄的无序或有序影像中,同时恢复场景三维结构和相机姿态的技术。本申请实施例主要以增量式SfM为主,目的是得到场景中的相机姿态和表示场景结构的稀疏点云。增量式SfM选择无序影像进行特征匹配,并进行几何纠正、三角测量恢复稀疏点云结构,通过已有点云重新估计相对姿态,再进行局部和全局的BA(Bundle Adjustment)优化。之后逐步向已有的结构中增加视角或影像,进行三角测量和姿态估计,再进行BA优化修正结构数据,最后输出全部的相机参数和稀疏三维点云,也即输出拍摄相机信息和稀疏点云数据。
本申请实施例是基于神经辐射场的三维重建方法。神经辐射场NeRF是NeuralRadiance Fields的缩写,其可以简要概括为用一个神经网络模型去隐式地学习一个静态3D场景。为了训练网络,针对一个静态场景,需要提供大量相机参数已知的图片。基于这些图片训练好的神经网络,即可以从任意角度渲染出图片的结果即渲染之前没有拍过的角度的照片,在此基础上对隐式表示的3D模型显式化,从而支持3D模型二次编辑和可视化。
S2:基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息。
请参阅图2,图2示出了步骤S2的一种具体实施方式,详叙如下:
S21:通过神经网络模型对多视角图像进行图像特征提取,得到图像特征。
S22:基于稀疏点云数据和图像特征进行采样处理,得到采样点三维位置信息。
进一步地,本申请提供步骤S22的一种具体实施方式,详述如下:
基于稀疏点云数据和图像特征,结合均匀采样的方式,对在新的视角下光线投影的信息表征点进行采样,得到采样点三维位置信息。
具体地,上述步骤已经获取到了稀疏点云数据,基于稀疏点云数据确定物体采样点的大致范围,然后在新的视角下进行光线投影,并在此光线下进行采样。由于采样点越密重建分辨率越高,采样方式可以支持多种采样方式,包括均匀采样(固定步长),自适应采样等,本发明实施例采用的是均匀采样。
S23:将采样点三维位置信息与拍摄相机信息作为采样点信息。
具体地,采样点信息为5D坐标,该坐标包括该坐标包含3D位置信息m=(x,y,z)和视角方向d=(θ,φ)。
S3:通过对采样点信息进行位置编码处理,得到目标采样点信息。
进一步地,本申请提供步骤S3的一种具体实施方式,详述如下:
将采样点信息中的采样点三维位置信息映射到高维空间,并基于采样点三维位置信息和拍摄相机信息构建映射关系,以对采样点信息进行位置编码处理,得到目标采样点信息。
具体地,神经网络是通用的函数近似器(universal function approximators),但其在表示颜色和几何形状方面的高频变化方面表现不佳,这表明深度网络偏向于学习低频函数。在将输入传递给神经网络之前,使用高频函数将输入映射到更高维度的空间,可以更好地拟合包含高频变化的数据。为了能有效提升清晰度,本申请实施例将采样点信息中的采样点三维位置信息映射到高维空间,并基于采样点三维位置信息和拍摄相机信息构建映射关系,以对采样点信息进行位置编码处理,得到目标采样点信息。
S4:将目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像。
其中,目标采样点包括目标三维位置信息和目标拍摄相机信息
请参阅图3,图3示出了步骤S4的一种具体实施方式,详叙如下:
S41:将目标三维位置信息输入到第一全连接层中进行卷积处理和激活处理,得到中间特征和体素密度。
S42:将中间特征和目标拍摄相机信息进行拼接,得到拼接特征。
S43:将拼接特征输入到第二全连接层中进行卷积处理和激活处理,得到目标特征。
S44:将目标特征输入到第三全连接层中进行卷积处理和激活处理,得到隐式表示的三维图像。
具体地,本申请实施例中采用拍摄的视角图片训练好的深度模型下推理得到各个新角度的3D模型隐式表示。具体地,将目标三维位置信息输入到第一全连接层中,该第一全连接层为8层的全连接层,每层通道数为256且都经过ReLU激活函数。然后在第一全连接层后添加一个新的全连接层,其通道数为256但不经过激活函数。经过两个全连接层后得到了维度256的中间特征和体素密度。然后将中间特征和目标拍摄相机信息进行拼接,得到拼接特征;再将拼接特征输入到第二全连接层中进行卷积处理和激活处理,得到目标特征。其中,第二全连接层为128层的全连接层,且经过ReLU激活函数。最后将目标特征输入到神经网络的第三全连接层中,经过卷积处理后,再经过sigmoid激活函数的激活处理后,得到三维的RGB输出,也即得到隐式表示的三维图像。
S5:对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
请参阅图4,图4示出了步骤S5的一种具体实施方式,详叙如下:
S51:采用光线投影法,对三维图像进行体素渲染,生成新视角图像。
S52:将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
具体地,采用体素渲染技术中的光线投影法(Ray Casting)进行渲染新视角的图片;再对隐式表示的三维模型进行显式化表示,从而获取3D mesh模型。
现有的基于立体视觉的三维重建算法是基于Point Cloud显式形式进行三维模型表示的,显式表示是离散式表示方法,显式表示的缺点是离散表示三维物体会因为不够精细而造成重叠等伪影,且离散式表示对内存的消耗限制了生成高分辨率的三维物体模型。本发明的主要目的是针对当前主流立体视觉的重建算法是显式表示三维模型,显式表示为离散式表示三维物体,导致需要生成高分辨率三维模型时会造成内存消耗和计算量剧增的问题。基于以上不足,本申请实施例引入神经辐射场(Neural Radiance Fields)对三维模型进行隐式表示,将三维模型表示用映射函数连续化表示三维模型的信息,继而引入深度学习网络模型近似该映射函数。这样将很好的解决了显式表示离散化的缺点,能够支持用户表示任意分辨率的三维模型,从而实现三维模型的重建,以及任意新视角观察的图片的渲染。其中,显式表示(explicit representation),包括Mesh,Point Cloud,Voxel,Volume等。显式表示的优点是能够对场景/物体进行显式建模,从而合成照片级的虚拟视角(新视角)。缺点是这种离散表示因为不够精细化会造成重叠等伪影,而且最重要的,它们对内存的消耗限制了高分辨率场景的应用。隐式表示(implicit representation),通常用一个函数来描述场景几何。隐式表示使用深度学习网络模型近似该函数,输入3D空间坐标,输出对应的几何信息。隐式表示的好处是它一种连续的表示,能够适用于大分辨率场景/物体重建,而且通常不需要3D信号进行监督。
其中,光线投射法是体绘制的方法之一,也是现阶段较为流行的一种,基于图像空间,结合体数据的颜色、灰度不透明度和梯度不透明度合成图像。通过在颜色传输函数、灰度不透明度传输函数和梯度不透明度传输函数设置当前图像渲染效果最佳的参数来实现对重建三维模型颜色值和不透明度的渲染,利用光线吸收模型对通过颜色传输函数获取的颜色进行累加,直到光线穿过体数据,针对三维重建模型的平面像素的渲染效果,进而生成展示图像。
本实施例中,获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据,其中,拍摄相机的空间位置和拍摄方向;基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息;通过对采样点信息进行位置编码处理,得到目标采样点信息;将目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。本发明实施例通过引入神经辐射场的隐式表示对三维模型进行表示,有利于提高三维模型的生成精度。
请参考图5,作为对上述图1所示方法的实现,本申请提供了一种基于神经辐射场的三维重建装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的基于神经辐射场的三维重建装置包括:多视角图像获取单元61、采样点信息生成单元62、位置编码单元63、三维图像生成单元64及体素渲染单元65,其中:
多视角图像获取单元61,用于获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据,其中,拍摄相机的空间位置和拍摄方向;
采样点信息生成单元62,用于基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息;
位置编码单元63,用于通过对采样点信息进行位置编码处理,得到目标采样点信息;
三维图像生成单元64,用于将目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;
体素渲染单元65,用于对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
进一步地,采样点信息生成单元62包括:
图像特征提取单元,用于通过神经网络模型对多视角图像进行图像特征提取,得到图像特征;
采样处理单元,用于基于稀疏点云数据和图像特征进行采样处理,得到采样点三维位置信息;
采样点信息确定单元,用于将采样点三维位置信息与拍摄相机信息作为采样点信息。
进一步地,采样处理单元包括:
均匀采样单元,用于基于稀疏点云数据和图像特征,结合均匀采样的方式,对在新的视角下光线投影的信息表征点进行采样,得到采样点三维位置信息。
进一步地,位置编码单元63包括:
目标采样点信息生成单元,用于将采样点信息中的采样点三维位置信息映射到高维空间,并基于采样点三维位置信息和拍摄相机信息构建映射关系,以对采样点信息进行位置编码处理,得到目标采样点信息。
进一步地,三维图像生成单元64包括:
中间特征生成单元,用于将目标三维位置信息输入到第一全连接层中进行卷积处理和激活处理,得到中间特征和体素密度;
特征拼接单元,用于将中间特征和目标拍摄相机信息进行拼接,得到拼接特征;
目标特征生成单元,用于将拼接特征输入到第二全连接层中进行卷积处理和激活处理,得到目标特征;
卷积处理单元,用于将目标特征输入到第三全连接层中进行卷积处理和激活处理,得到隐式表示的三维图像。
进一步地,体素渲染单元65包括:
新视角图像生成单元,用于采用光线投影法,对三维图像进行体素渲染,生成新视角图像;
三维网格模型生成单元,用于将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
进一步地,多视角图像获取单元61包括:
图像获取单元,用于获取若干多视角图像;
位姿估计单元,用于采用增量式SFM的方式,对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据。
本实施例中,获取若干多视角图像,并对每张多视角图像进行相机位姿估计和稀疏点云重建,得到多视角图像对应的拍摄相机信息和稀疏点云数据,其中,拍摄相机的空间位置和拍摄方向;基于稀疏点云数据,对多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将采样点三维位置信息与拍摄相机信息作为采样点信息;通过对采样点信息进行位置编码处理,得到目标采样点信息;将目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;对三维图像进行体素渲染,生成新视角图像,并将新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。本发明实施例通过引入神经辐射场的隐式表示对三维模型进行表示,有利于提高三维模型的生成精度。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是,图中仅示出了具有三种组件存储器71、处理器72、网络接口73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器71至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器71可以是计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,存储器71也可以是计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器71还可以既包括计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,存储器71通常用于存储安装于计算机设备7的操作系统和各类应用软件,例如基于神经辐射场的三维重建方法的程序代码等。此外,存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器72在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备7的总体操作。本实施例中,处理器72用于运行存储器71中存储的程序代码或者处理数据,例如运行上述基于神经辐射场的三维重建方法的程序代码,以实现基于神经辐射场的三维重建方法的各种实施例。
网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在计算机设备7与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种基于神经辐射场的三维重建方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于神经辐射场的三维重建方法,其特征在于,包括:
获取若干多视角图像,并对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和稀疏点云数据,其中,所述拍摄相机信息的空间位置和拍摄方向;
基于所述稀疏点云数据,对所述多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将所述采样点三维位置信息与所述拍摄相机信息作为采样点信息;
通过对所述采样点信息进行位置编码处理,得到目标采样点信息;
将所述目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;
对所述三维图像进行体素渲染,生成新视角图像,并将所述新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
2.根据权利要求1所述的基于神经辐射场的三维重建方法,其特征在于,所述基于所述稀疏点云数据,对所述多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将所述采样点三维位置信息与所述拍摄相机信息作为采样点信息,包括:
通过神经网络模型对所述多视角图像进行图像特征提取,得到图像特征;
基于所述稀疏点云数据和所述图像特征进行采样处理,得到所述采样点三维位置信息;
将所述采样点三维位置信息与所述拍摄相机信息作为所述采样点信息。
3.根据权利要求2所述的基于神经辐射场的三维重建方法,其特征在于,所述基于所述稀疏点云数据和所述图像特征进行采样处理,得到所述采样点三维位置信息,包括:
基于所述稀疏点云数据和所述图像特征,结合均匀采样的方式,对在新的视角下光线投影的信息表征点进行采样,得到所述采样点三维位置信息。
4.根据权利要求1所述的基于神经辐射场的三维重建方法,其特征在于,所述通过对所述采样点信息进行位置编码处理,得到目标采样点信息,包括:
将所述采样点信息中的所述采样点三维位置信息映射到高维空间,并基于所述采样点三维位置信息和所述拍摄相机信息构建映射关系,以对所述采样点信息进行位置编码处理,得到所述目标采样点信息。
5.根据权利要求1所述的基于神经辐射场的三维重建方法,其特征在于,所述目标采样点包括目标三维位置信息和目标拍摄相机信息,所述将所述目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像,包括:
将所述目标三维位置信息输入到第一全连接层中进行卷积处理和激活处理,得到中间特征和体素密度;
将所述中间特征和所述目标拍摄相机信息进行拼接,得到拼接特征;
将所述拼接特征输入到第二全连接层中进行卷积处理和激活处理,得到目标特征;
将所述目标特征输入到第三全连接层中进行卷积处理和激活处理,得到隐式表示的所述三维图像。
6.根据权利要求1所述的基于神经辐射场的三维重建方法,其特征在于,所述对所述三维图像进行体素渲染,生成新视角图像,并将所述新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型,包括:
采用光线投影法,对所述三维图像进行体素渲染,生成所述新视角图像;
将所述新视角图像从隐式表示的三维模型进行显示化表示,生成所述三维网格模型。
7.根据权利要求1至6任一项所述的基于神经辐射场的三维重建方法,其特征在于,所述获取若干多视角图像,并对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和稀疏点云数据,包括:
获取若干所述多视角图像;
采用增量式SFM的方式,对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和所述稀疏点云数据。
8.一种基于神经辐射场的三维重建装置,其特征在于,包括:
多视角图像获取单元,用于获取若干多视角图像,并对每张所述多视角图像进行相机位姿估计和稀疏点云重建,得到所述多视角图像对应的拍摄相机信息和稀疏点云数据,其中,所述拍摄相机的空间位置和拍摄方向;
采样点信息生成单元,用于基于所述稀疏点云数据,对所述多视角图像进行图像特征提取和采样处理,得到采样点三维位置信息,并将所述采样点三维位置信息与所述拍摄相机信息作为采样点信息;
位置编码单元,用于通过对所述采样点信息进行位置编码处理,得到目标采样点信息;
三维图像生成单元,用于将所述目标采样点信息转换为三维模型隐式表示,得到隐式表示的三维图像;
体素渲染单元,用于对所述三维图像进行体素渲染,生成新视角图像,并将所述新视角图像从隐式表示的三维模型进行显示化表示,生成三维网格模型。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于神经辐射场的三维重建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于神经辐射场的三维重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712072.XA CN116310076A (zh) | 2022-12-29 | 2022-12-29 | 基于神经辐射场的三维重建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712072.XA CN116310076A (zh) | 2022-12-29 | 2022-12-29 | 基于神经辐射场的三维重建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310076A true CN116310076A (zh) | 2023-06-23 |
Family
ID=86776889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211712072.XA Pending CN116310076A (zh) | 2022-12-29 | 2022-12-29 | 基于神经辐射场的三维重建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310076A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681839A (zh) * | 2023-08-02 | 2023-09-01 | 深圳市森歌数据技术有限公司 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
CN116805354A (zh) * | 2023-08-23 | 2023-09-26 | 山东黄河三角洲国家级自然保护区管理委员会 | 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置 |
CN116958453A (zh) * | 2023-09-20 | 2023-10-27 | 成都索贝数码科技股份有限公司 | 基于神经辐射场的三维模型重建方法、设备和介质 |
CN117132507A (zh) * | 2023-10-23 | 2023-11-28 | 光轮智能(北京)科技有限公司 | 图像增强方法、图像处理方法、计算机设备及存储介质 |
CN117315152A (zh) * | 2023-09-27 | 2023-12-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其系统 |
CN117422802A (zh) * | 2023-12-19 | 2024-01-19 | 粤港澳大湾区数字经济研究院(福田) | 三维人像数字化重建方法、装置、终端设备及存储介质 |
CN117710583A (zh) * | 2023-12-18 | 2024-03-15 | 中铁第四勘察设计院集团有限公司 | 基于神经辐射场的空地影像三维重建方法、系统及设备 |
CN117934728A (zh) * | 2024-03-21 | 2024-04-26 | 海纳云物联科技有限公司 | 三维重建方法、装置、设备及存储介质 |
-
2022
- 2022-12-29 CN CN202211712072.XA patent/CN116310076A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681839A (zh) * | 2023-08-02 | 2023-09-01 | 深圳市森歌数据技术有限公司 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
CN116681839B (zh) * | 2023-08-02 | 2024-02-23 | 深圳市森歌数据技术有限公司 | 一种基于改进NeRF的实景三维目标重建与单体化方法 |
CN116805354B (zh) * | 2023-08-23 | 2023-12-29 | 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) | 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置 |
CN116805354A (zh) * | 2023-08-23 | 2023-09-26 | 山东黄河三角洲国家级自然保护区管理委员会 | 一种基于神经辐射场的珍稀鸟类三维模型重构方法与装置 |
CN116958453B (zh) * | 2023-09-20 | 2023-12-08 | 成都索贝数码科技股份有限公司 | 基于神经辐射场的三维模型重建方法、设备和介质 |
CN116958453A (zh) * | 2023-09-20 | 2023-10-27 | 成都索贝数码科技股份有限公司 | 基于神经辐射场的三维模型重建方法、设备和介质 |
CN117315152A (zh) * | 2023-09-27 | 2023-12-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其系统 |
CN117315152B (zh) * | 2023-09-27 | 2024-03-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其系统 |
CN117132507A (zh) * | 2023-10-23 | 2023-11-28 | 光轮智能(北京)科技有限公司 | 图像增强方法、图像处理方法、计算机设备及存储介质 |
CN117132507B (zh) * | 2023-10-23 | 2023-12-22 | 光轮智能(北京)科技有限公司 | 图像增强方法、图像处理方法、计算机设备及存储介质 |
CN117710583A (zh) * | 2023-12-18 | 2024-03-15 | 中铁第四勘察设计院集团有限公司 | 基于神经辐射场的空地影像三维重建方法、系统及设备 |
CN117422802A (zh) * | 2023-12-19 | 2024-01-19 | 粤港澳大湾区数字经济研究院(福田) | 三维人像数字化重建方法、装置、终端设备及存储介质 |
CN117422802B (zh) * | 2023-12-19 | 2024-04-12 | 粤港澳大湾区数字经济研究院(福田) | 三维人像数字化重建方法、装置、终端设备及存储介质 |
CN117934728A (zh) * | 2024-03-21 | 2024-04-26 | 海纳云物联科技有限公司 | 三维重建方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116310076A (zh) | 基于神经辐射场的三维重建方法、装置、设备及存储介质 | |
CN114549731B (zh) | 视角图像的生成方法、装置、电子设备及存储介质 | |
CN115082639B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN112132739B (zh) | 3d重建以及人脸姿态归一化方法、装置、存储介质及设备 | |
WO2019226366A1 (en) | Lighting estimation | |
CN113762147B (zh) | 人脸表情迁移方法、装置、电子设备及存储介质 | |
CN114450719A (zh) | 人体模型重建方法、重建系统及存储介质 | |
CN116778063A (zh) | 一种基于特征纹理网格和哈希编码的快速虚拟视点合成方法及装置 | |
CN116070687A (zh) | 一种基于全局光线空间仿射变换的神经网络光场表示方法 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
JP2024510230A (ja) | 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 | |
CN115272575B (zh) | 图像生成方法及装置、存储介质和电子设备 | |
Zhou et al. | Single-view view synthesis with self-rectified pseudo-stereo | |
CN115082636B (zh) | 基于混合高斯网络的单图像三维重建方法及设备 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN113920270A (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
CN116883524A (zh) | 图像生成模型训练、图像生成方法、装置和计算机设备 | |
CN111178501A (zh) | 双循环对抗网络架构的优化方法、系统、电子设备及装置 | |
CN112085850B (zh) | 人脸重建方法及相关设备 | |
CN116958449B (zh) | 城市场景三维建模方法、装置及电子设备 | |
CN117422809B (zh) | 一种光场图像渲染的数据处理方法 | |
CN116740300B (zh) | 一种基于多模态的素体与纹理融合家具模型重建方法 | |
CN113034671B (zh) | 一种基于双目视觉的交通标志牌三维重建方法 | |
WO2024055379A1 (zh) | 基于角色化身模型的视频处理方法、系统及相关设备 | |
Zhang et al. | Immersive Dramatic Space 3D Layout Using Panoramic Image Reconstruction Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |