CN117058334A - 一种室内场景表面重建的方法、装置、设备及存储介质 - Google Patents
一种室内场景表面重建的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117058334A CN117058334A CN202310868455.4A CN202310868455A CN117058334A CN 117058334 A CN117058334 A CN 117058334A CN 202310868455 A CN202310868455 A CN 202310868455A CN 117058334 A CN117058334 A CN 117058334A
- Authority
- CN
- China
- Prior art keywords
- point
- under
- view angle
- dimensional
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000010521 absorption reaction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 76
- 238000005070 sampling Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 31
- 239000003086 colorant Substances 0.000 claims description 30
- 230000001537 neural effect Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 26
- 238000009877 rendering Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 210000005036 nerve Anatomy 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000002834 transmittance Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供了一种室内场景表面重建的方法、装置、设备及存储介质,其方法包括:获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;根据所述目标对象在每个视角下的深度图,计算每个视角下的彩色图像中每个像素点的位置和颜色,并由所述每个视角下的彩色图像中每个像素点的位置和颜色融合得到粗糙的室内场景点云;通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point‑NISF;利用所述Point‑NISF完成所述目标对象的室内场景三维重建。
Description
技术领域
本申请涉及室内场景表面重建技术领域,具体地,涉及一种室内场景表面重建的方法、装置、设备及存储介质。
背景技术
从多视角的彩色图像重建室内三维场景是很重要且具有挑战性的任务,而且在许多实际应用中都扮演着重要角色,例如机器人导航、虚拟现实和路径规划等。室内场景通常包含许多大面积的无纹理区域和重复的图案,例如白色墙壁、地板和反射表面,这对于各种重建算法都提出了挑战。
传统的MVS(Multi-View Stereo,多视角立体成像)方法可以对纹理丰富的表面结构完成合理的三维表面重建,但在室内场景大量缺乏纹理的区域中遇到困难。最近,基于坐标的神经表示法已成为一种流行的场景表示方法,它利用MLP(Multilayer Perceptron,多层感知机)将三维坐标回归到某种输出值,通过这种方式实现紧凑和灵活的场景编码。这种神经场(Neural Field)在图像、形状和三维场景的编码中都取得了显著的成果。对于不同的编码目标,神经场可以通过调整输出来切换成不同模式。比如将神经场的输出设置为空间占据概率或是SDF(Signed Distance Field,有向距离场),然后通过可微分的表面渲染或是体渲染技术进行参数优化。其中,将输出设置为SDF的神经场被称为NISF(NeuralImplicit Surface Field,神经隐式表面场)。
为了基于神经隐式表面场(NISF)完成室内场景表面重建,现有方法使用几何先验信息来监督神经隐式表面场的训练过程,这些先验主要包括两种:表面法向量先验与深度先验。其中表面法向量先验是指,由单视角RGB图像估计该视图下的表面法向量图像,将这些表面法向量图作为先验信息;而深度先验则指的是利用单目深度估计来预测各个视图下的深度结果,将这些深度图作为先验信息。具体地,NeuRIS方法将表面法向量先验整合到体渲染框架中,用这种二维的表面法向量信息,通过神经渲染的方式,来监督神经隐式表面场(NISF)的训练。此外,MonoSDF通过单目图像估计得到表面法向量先验和深度先验,并将其集成到神经体渲染框架中,以提高重建质量。
在现有技术中,NeuRIS和MonoSDF采用了神经隐式表面场(NISF)来完成室内场景的表面重建,这些方法所需要的训练时间较长,往往需要3-4小时才能完成神经隐式表面场(NISF)的构建。
发明内容
本申请实施例提供了一种室内场景表面重建的方法、装置、设备及存储介质,以解决基于神经隐式表面场(NISF)的三维场景重建算法训练时间较长的技术问题。
根据本申请实施例的第一个方面,提供了一种室内场景表面重建的方法,包括:
获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;
根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;
通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;
将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建;
其中,所述MVS是指多视角立体成像;所述NISF是指神经隐式表面场;所述Point-NISF是指融合点云信息的神经隐式表面场;所述SDF是指有向距离值。
优选地,所述根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色包括:
选定一个视角作为源视角,并将其他剩余视角作为参考视角;
获取所述源视角下的彩色图像的二维像素(X,Y),并根据所述源视角下的深度图,将所述彩色图像中的二维像素(X,Y)投影至相机坐标系下的三维点(x,y,z);
根据所述源视角下的相机位姿,将相机坐标系下的三维点(x,y,z)转换至世界坐标系下的三维点(x′,y′,z′),并利用所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息。
优选地,所述根据所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息包括:
选取一个参考视角,将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的三维坐标系下的三维点同时将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的图像平面上的像素坐标/>
从所述参考视角的深度图中获取所述像素坐标的深度值,并根据所述像素坐标/>的深度值,判断所述参考视角的信息是否有效;
当判断所述参考视角的信息有效时,根据所述像素坐标的深度值和所述参考视角的相机位姿,将所述像素坐标/>投影到世界坐标系下的三维点/>同时保留所述参考视角下像素坐标/>处的颜色信息;
重复上述步骤,直至得到所有参考视角下的三维参考点集合和参考颜色集合,并根据所述所有参考视角下的三维参考点集合和参考颜色集合,得到所述世界坐标系下的三维点(x′,y′,z′)的位置和颜色。
优选地,所述通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF包括:
为所述彩色图像中像素点q构造一条从光心出发且穿过所述像素的光线,并在所述光线上采样n个空间点;
根据每个空间采样点,获取每个空间采样点处的点云特征,并利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值;
利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数,并通过反向传播训练优化NISF中的参数,得到Point-NISF。
优选地,所述根据每个空间采样点,获取每个空间采样点处的点云特征包括:
根据所述每个空间采样点的空间位置信息,获取距离所述每个空间采样点最近的k个邻居点,并获取每个邻居点的空间位置坐标和特征矢量;
利用所述每个邻居点的空间位置坐标和特征矢量,聚合出所述每个空间采样点的点云位置特征和点云特征;
将所述每个空间采样点的三维坐标转化成位置特征矢量,并将所述每个空间采样点位置特征矢量、点云位置特征和点云特征进行拼接处理,得到每个空间采样点处的点云特征。
优选地,所述利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值包括:
根据所述每个空间采样点处的点云特征,得到每个空间采样点处的表面法向量、透射率及颜色预测值;
根据所述每个空间采样点处的表面法向量、透射率及颜色预测值和所述体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值。
优选地,所述利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数包括:
根据所述彩色图像中像素点q处的颜色预测值,构建彩色图像中像素q处的颜色损失函数;
根据所述彩色图像中像素点q处的法向量图预测值,构建彩色图像中像素q处的表面法向量损失函数;
构建法向量模长约束,并根据所述颜色损失函数、所述表面法向量损失函数和所述法向量模长约束,得到损失函数。
根据本申请实施例的第二个方面,提供了一种室内场景表面重建的装置,包括:
预测模块,用于获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;
计算及融合模块,用于根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;
训练模块,用于通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;
三维重建模块,用于将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建;
其中,所述MVS是指多视角立体成像;所述NISF是指神经隐式表面场;所述Point-NISF是指融合点云信息的神经隐式表面场;所述SDF是指有向距离值。
本申请实施例由于采用以上技术方案,具有以下技术效果:将粗糙点云先验引入神经隐式表面场的优化过程,从MVS方法中得到的粗糙点云中蕴含了丰富的几何信息,这些几何信息可以给NISF提供更加有效的训练指导,加速NISF的训练过程。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例基于MVS的深度估计与点云融合的示意图;
图2为本申请实施例基于粗糙点云先验的NISF优化示意图;
图3为本申请实施例在几个室内场景数据集下的表面重建效果示意图;
图4为本申请实施例与现有方法的重建精度和训练时间对比示意图;
图5为本申请实施例一种室内场景表面重建的方法的流程图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
如图5所示,本申请实施例的一种室内场景表面重建的方法的流程图,包括:
步骤S101:获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;
步骤S102:根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;
步骤S103:通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;
步骤S104:将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建;
其中,所述MVS是指多视角立体成像;所述NISF是指神经隐式表面场;所述Point-NISF是指融合点云信息的神经隐式表面场;所述SDF是指有向距离值。
进一步地,所述根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色包括:选定一个视角作为源视角,并将其他剩余视角作为参考视角;获取所述源视角下的彩色图像的二维像素(X,Y),并根据所述源视角下的深度图,将所述彩色图像中的二维像素(X,Y)投影至相机坐标系下的三维点(x,y,z);根据所述源视角下的相机位姿,将相机坐标系下的三维点(x,y,z)转换至世界坐标系下的三维点(x′,y′,z′),并利用所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息。
具体地说,所述根据所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息包括:选取一个参考视角,将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的三维坐标系下的三维点同时将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的图像平面上的像素坐标从所述参考视角的深度图中获取所述像素坐标/>的深度值,并根据所述像素坐标/>的深度值,判断所述参考视角的信息是否有效;当判断所述参考视角的信息有效时,根据所述像素坐标/>的深度值和所述参考视角的相机位姿,将所述像素坐标投影到世界坐标系下的三维点/>同时保留所述参考视角下像素坐标处的颜色信息;重复上述步骤,直至得到所有参考视角下的三维参考点集合和参考颜色集合,并根据所述所有参考视角下的三维参考点集合和参考颜色集合,得到所述世界坐标系下的三维点(x′,y′,z′)的位置和颜色。
进一步地,所述通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF包括:为所述彩色图像中像素点q构造一条从光心出发且穿过所述像素的光线,并在所述光线上采样n个空间点;根据每个空间采样点,获取每个空间采样点处的点云特征,并利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值;利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数,并通过反向传播训练优化NISF中的参数,得到Point-NISF。
其中,所述根据每个空间采样点,获取每个空间采样点处的点云特征包括:根据所述每个空间采样点的空间位置信息,获取距离所述每个空间采样点最近的k个邻居点,并获取每个邻居点的空间位置坐标和特征矢量;利用所述每个邻居点的空间位置坐标和特征矢量,聚合出所述每个空间采样点的点云位置特征和点云特征;将所述每个空间采样点的三维坐标转化成位置特征矢量,并将所述每个空间采样点位置特征矢量、点云位置特征和点云特征进行拼接处理,得到每个空间采样点处的点云特征。
其中,所述利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值包括:根据所述每个空间采样点处的点云特征,得到每个空间采样点处的表面法向量、透射率及颜色预测值;根据所述每个空间采样点处的表面法向量、透射率及颜色预测值和所述体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值。
进一步地,所述利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数包括:根据所述彩色图像中像素点q处的颜色预测值,构建彩色图像中像素q处的颜色损失函数;根据所述彩色图像中像素点q处的法向量图预测值,构建彩色图像中像素q处的表面法向量损失函数;构建法向量模长约束,并根据所述颜色损失函数、所述表面法向量损失函数和所述法向量模长约束,得到损失函数。
实施例二
本发明实施例还提供了一种室内场景表面重建的装置,包括:预测模块,用于获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;计算及融合模块,用于根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;训练模块,用于通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;三维重建模块,用于将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建。
本申请实施例提供的一种电子设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现一种室内场景表面重建的方法。
本申请实施例提供的一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现一种室内场景表面重建的方法。
本发明的解决方案由两部分构成。(1)基于多视角立体成像(Multi-View Stereo,简称MVS)的深度估计与点云融合,生成粗糙点云,作为训练数据辅助神经隐式表面场(NISF)的训练过程;(2)基于粗糙点云先验的NISF优化,将粗糙点云和带位姿的多视角图像作为训练数据,训练优化NISF。从而缩短基于神经隐式表面场(NISF)的三维场景重建算法的训练时间。
本发明将粗糙点云先验引入神经隐式表面场(NISF)的优化过程。现有基于NISF的三维场景表面重建方法(如NeuRIS、MonoSDF)都需要很长时间来优化,而从MVS方法中得到的粗糙点云中蕴含了丰富的几何信息,这些几何信息可以给NISF提供更加有效的训练指导,加速NISF的训练过程。
实施例三
本发明为基于粗糙点云先验加速神经隐式表面场(NISF)训练对应的步骤如:
步骤S1:将多视角彩色图像及其相机位姿输入SimpleRecon这一深度MVS模块,估计各视角下的深度图。
步骤S2.利用多视角下的相机位姿,结合多视角彩色图像以及S1得到的多视角深度图,融合得到粗糙的场景点云。
步骤S3.将带位姿的多视角彩色图像以及S2得到的粗糙点云输入NISF,训练这一融合点云信息的神经隐式表面场,称之为Point-NISF。
步骤S4.将空间划分为三维体素网格,利用S3得到的Point-NISF预测每一个体素处的SDF值,利用Marching Cubes算法处理预测出的三维SDF体素网格,完成这一场景的三维重建,得到如图3所示的重建结果。
针对步骤S2包括:
步骤S21、选定一个视角下彩色图像中的二维像素(X,Y),依据该视角下的深度图将(X,Y)投影至相机坐标系下的三维点(x,y,z),然后通相机位姿把三维点从相机坐标系转换至世界坐标系,得到世界坐标系下的三维点(x′,y′,z′)。将这一选定的视角称为源视角,剩余的其他视角称为参考视角。
步骤S22、针对S21得到的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息。具体地,对于每一个参考视角做如下操作:
步骤S221、将(x′,y′,z′)重投影到视角的三维坐标系中,对应点/>(x′,y′,z′)重投影到视角/>的图像平面上,对应像素坐标为/>从视角/>的深度图中,获取像素/>处的深度值/>若/>则说明参考视角和源视角在该三维点处达成一致,这一参考视角/>的信息有效,可以执行后续的信息融合步骤。否则这一参考视角/>的信息无效,跳过这一视角,查询下一个参考视角。
步骤S222、若S221)中查询到的参考视角有效,即/>满足/>则将依据深度/>以及参考视角的相机位姿,投影到世界坐标系下的三维点/>同时保留参考视角中像素/>处的颜色信息/>作为源视角三维点(x′,y′,z′)的参考。
步骤S223、对所有的参考视角,执行上述S222)、S223)步骤,得到源视角三维点(x′,y′,z′)的三维参考点集合{|i遍历所有参考视角}以及参考颜色集合{/>|i遍历所有参考视角}。
步骤S224、将三维点(x′,y′,z′)与S223)中得到三维参考点集合中的位置坐标取平均,也将来自于源视角的颜色和S223)中得到参考颜色集合中的颜色取平均,得到三维点(x′,y′,z′)最终的位置p和颜色c。至此完成对三维点(x′,y′,z′)的参考信息融合。
步骤S23、对于每个视角下的每个像素点,重复步骤S21-S22,将所有得到的位置p和颜色c收集起来,得到图1所示粗糙的三维点云。
针对步骤S3包括:
步骤S31、对多视角图像I中像素点q,构造一条从光心出发、穿过该像素的光线r,并在该光线上采样n个空间点xi=o+td,其中xi是采样出的空间点,o是相机光心,d是视线方向,t是采样空间点沿着视线方向距离相机光心的距离。
步骤S32、将图像I送入单目法向量估计网络SNC,预测出图像I对应的表面法向量图N,作为训练中的一种监督信号。
步骤S33、对S31中得到的每个空间采样点xi,从融合点云信息的神经隐式表面场(Point-NISF)中查询点云特征具体地:
步骤S331、对于每个三维空间点xi,在半径为R的球壳范围内查询距离其最近的K个邻居点,得到K个邻居点的空间位置坐标p(i,0),…,p(i,K-1)和特征矢量:f(i,0),…,f(i,K-1)。
步骤S332、根据S331)得到邻居点的空间位置坐标、特征矢量,聚合出点xi处的点云位置特征和点云特征/>本解决方案中采用加权平均完成聚合:
其中p(i,j)为S331)中得到的邻居点空间坐标位置,f(i,j)为S331)中得到的邻居点特征矢量,xi为S31)中得到的空间采样点坐标位置,γ(i,j)为每个邻居点p(i,j)对应的加权权重,j为迭代下标,K为S331)中所述查询得到邻居点的总数。
步骤S333、利用位置编码模块将三维坐标xi转化成位置特征矢量PEi。最终将PEi和S332)得到的拼接成位置xi处的点云特征/>至此完成xi的点云特征查询,拼接得到的点云特征用于后续的SDF和颜色值计算。
步骤S34、将S33中得到的点云特征输入图2所示的SDF编码模块和颜色编码模块,得到空间点xi处的表面法向量ni、透射率αi和颜色预测值ci。具体地,执行如下步骤:
步骤S341、将S33中得到的点云特征输入图2所示SDF编码模块,预测空间点xi处的SDF值si。SDF编码模块由多层线性网络(MLP)构成,本解决方案中采用8层MLP,隐状态变量的维度为256,输出维度为16。其中输出向量的第一维是SDF预测值si,后15维是SDF特征向量/>
步骤S342、将S341)得到的SDF预测值对空间坐标求导数,得到空间点xi处的表面法向量ni:
步骤S343、利用SDF到透射率的转换函数,将SDF预测值si转换成三维空间点xi处的透射率αi。
步骤S344、将S33中得到的点云特征S341)中得到的SDF特征向量/>S342)中得到的表面法向量ni以及S31中得到的视线方向d拼接起来,将拼接后的向量输入颜色编码模块,输出位置xi处从视线方向d看到的颜色预测值ci。颜色编码模块由多层线性网络(MLP)构成,本解决方案中采用5层MLP,隐状态变量的维度为256,输出维度为3。
步骤S35、对S31中得到的每个三维空间采样点xi,执行步骤S33-S34,得到一系列的表面法向量ni、透射率αi和颜色预测值ci。然后利用体渲染技术,渲染出图像I中像素点q处的颜色预测值和法向量图预测值/>
其中,是累计穿透率。
步骤S36、根据S35中得到的颜色预测值和法向量图预测值/>构建损失函数,通过反向传播训练优化NISF中的参数。具体地:
步骤S361、构建如下的颜色损失函数
其中I(q)用于指代像素q处的颜色值。
步骤S362、构建如下的表面法向量损失函数
其中N(q)用于指代S32中得到表面法向量图在像素q处的法向量值。
步骤S363、构建如下的法向量模长约束:
步骤S364、结合上述损失函数和约束,得到如下总的损失函数:
本发明的有益效果在于,与现有基于神经隐式表面场的重建方法NeuRIS、MonoSDF相比,NISF的训练时间大幅降低,同时不损失场景重建的精度。
能够实现这一效果的核心原因是:将粗糙点云先验引入神经隐式表面场(NISF)的优化过程。现有的上述方法都需要很长时间来优化,本方法从MVS中得到粗糙点云,其中蕴含了丰富的几何信息,这些几何信息可以给NISF提供更加有效的训练指导,加速NISF的训练过程。
在ScanNet数据集中选取了四个场景做实验验证,这四个场景分别是:scene0050_00,scene0084_00,scene0580_00和scene0616_00。对于各场景下表面重建的精度,我们用网格模型顶点的准确率、召回率和F1分数三个指标来衡量。具体地,将重建出的三维网格模型的顶点集合与数据集中场景的真值点云数据相比,若点与点之间的距离在5cm以内,则判定为准确。以此准确标准来计算三维网格模型顶点集合的准确率和召回率,并按照如下公式计算F1分数:
在这四个场景中,本方法以1小时左右的时间,实现了与现有方法相近或者更好的场景重建精度,并且在四个场景中取得了最佳的平均重建精度,具体数据如图4所示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种室内场景表面重建的方法,其特征在于,包括:
获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;
根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;
通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;
将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建;
其中,所述MVS是指多视角立体成像;所述NISF是指神经隐式表面场;所述Point-NISF是指融合点云信息的神经隐式表面场;所述SDF是指有向距离值。
2.根据权利要求1所述的室内场景表面重建的方法,其特征在于,所述根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色包括:
选定一个视角作为源视角,并将其他剩余视角作为参考视角;
获取所述源视角下的彩色图像的二维像素(X,Y),并根据所述源视角下的深度图,将所述彩色图像中的二维像素(X,Y)投影至相机坐标系下的三维点(x,y,z);
根据所述源视角下的相机位姿,将相机坐标系下的三维点(x,y,z)转换至世界坐标系下的三维点(x′,y′,z′),并利用所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息。
3.根据权利要求2所述的室内场景表面重建的方法,其特征在于,所述根据所述世界坐标系下的三维点(x′,y′,z′),从各个参考视角中融合有效的位置信息和颜色信息包括:
选取一个参考视角,将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的三维坐标系下的三维点同时将所述世界坐标系下的三维点(x′,y′,z′)重投影到所述参考视角下的图像平面上的像素坐标/>
从所述参考视角的深度图中获取所述像素坐标的深度值,并根据所述像素坐标的深度值,判断所述参考视角的信息是否有效;
当判断所述参考视角的信息有效时,根据所述像素坐标的深度值和所述参考视角的相机位姿,将所述像素坐标/>投影到世界坐标系下的三维点/>同时保留所述参考视角下像素坐标/>处的颜色信息;
重复上述步骤,直至得到所有参考视角下的三维参考点集合和参考颜色集合,并根据所述所有参考视角下的三维参考点集合和参考颜色集合,得到所述世界坐标系下的三维点(x′,y′,z′)的位置和颜色。
4.根据权利要求1所述的室内场景表面重建的方法,其特征在于,所述通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF包括:
为所述彩色图像中像素点q构造一条从光心出发且穿过所述像素的光线,并在所述光线上采样n个空间点;
根据每个空间采样点,获取每个空间采样点处的点云特征,并利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值;
利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数,并通过反向传播训练优化NISF中的参数,得到Point-NISF。
5.根据权利要求4所述的室内场景表面重建的方法,其特征在于,所述根据每个空间采样点,获取每个空间采样点处的点云特征包括:
根据所述每个空间采样点的空间位置信息,获取距离所述每个空间采样点最近的k个邻居点,并获取每个邻居点的空间位置坐标和特征矢量;
利用所述每个邻居点的空间位置坐标和特征矢量,聚合出所述每个空间采样点的点云位置特征和点云特征;
将所述每个空间采样点的三维坐标转化成位置特征矢量,并将所述每个空间采样点位置特征矢量、点云位置特征和点云特征进行拼接处理,得到每个空间采样点处的点云特征。
6.根据权利要求4所述的室内场景表面重建的方法,其特征在于,所述利用所述每个空间采样点处的点云特征和体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值包括:
根据所述每个空间采样点处的点云特征,得到每个空间采样点处的表面法向量、透射率及颜色预测值;
根据所述每个空间采样点处的表面法向量、透射率及颜色预测值和所述体渲染技术,渲染出彩色图像中像素点q处的颜色预测值和法向量图预测值。
7.根据权利要求4所述的室内场景表面重建的方法,其特征在于,所述利用所述彩色图像中像素点q处的颜色预测值和法向量图预测值,构建损失函数包括:
根据所述彩色图像中像素点q处的颜色预测值,构建彩色图像中像素q处的颜色损失函数;
根据所述彩色图像中像素点q处的法向量图预测值,构建彩色图像中像素q处的表面法向量损失函数;
构建法向量模长约束,并根据所述颜色损失函数、所述表面法向量损失函数和所述法向量模长约束,得到损失函数。
8.一种室内场景表面重建的装置,其特征在于,包括:
预测模块,用于获取目标对象在各个视角下的彩色图像和各个视角下的相机位姿,并通过将所述各个视角下的彩色图像和所述各个视角下的相机位姿输入深度MVS模块中,预测出所述目标对象在每个视角下的深度图;
计算及融合模块,用于根据所述目标对象在每个视角下的深度图,投影得到每个视角下的三维点,并结合所述每个视角下的深度图,查询、比较所述三维点投影到各个视角下彩色图像中的像素位置和颜色,验证所述三维点的有效性,融合像素颜色得到所述三维点的颜色,并将有效的所述三维点聚合形成粗糙的室内场景点云;
训练模块,用于通过将带位姿的各个视角下的彩色图像和所述粗糙的室内场景点云输入至NISF进行训练,得到Point-NISF;
三维重建模块,用于将所述目标对象空间划分为多个三维体素网格,利用所述Point-NISF预测每个三维体素网格处的SDF值,并利用所述每个三维体素网格处的SDF值完成所述目标对象的室内场景三维重建;
其中,所述MVS是指多视角立体成像;所述NISF是指神经隐式表面场;所述Point-NISF是指融合点云信息的神经隐式表面场;所述SDF是指有向距离值。
9.一种电子设备,其特征在于,包括:存储器;处理器;以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868455.4A CN117058334A (zh) | 2023-07-14 | 2023-07-14 | 一种室内场景表面重建的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868455.4A CN117058334A (zh) | 2023-07-14 | 2023-07-14 | 一种室内场景表面重建的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058334A true CN117058334A (zh) | 2023-11-14 |
Family
ID=88652550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310868455.4A Pending CN117058334A (zh) | 2023-07-14 | 2023-07-14 | 一种室内场景表面重建的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058334A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994444A (zh) * | 2024-04-03 | 2024-05-07 | 浙江华创视讯科技有限公司 | 复杂场景的重建方法、设备及存储介质 |
-
2023
- 2023-07-14 CN CN202310868455.4A patent/CN117058334A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994444A (zh) * | 2024-04-03 | 2024-05-07 | 浙江华创视讯科技有限公司 | 复杂场景的重建方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6868191B2 (en) | System and method for median fusion of depth maps | |
CN108921926B (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN104778694B (zh) | 一种面向多投影拼接显示的参数化自动几何校正方法 | |
CN113160068B (zh) | 基于图像的点云补全方法及系统 | |
US20100054579A1 (en) | Three-dimensional surface generation method | |
Greene et al. | Flame: Fast lightweight mesh estimation using variational smoothing on delaunay graphs | |
CN106856012B (zh) | 一种实时大规模场景三维扫描建模方法及系统 | |
CN112215880B (zh) | 一种图像深度估计方法及装置、电子设备、存储介质 | |
CN110223351B (zh) | 一种基于卷积神经网络的深度相机定位方法 | |
CN113256699B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113034681B (zh) | 空间平面关系约束的三维重建方法及装置 | |
JP2018124939A (ja) | 画像合成装置、画像合成方法、及び画像合成プログラム | |
CN117058334A (zh) | 一种室内场景表面重建的方法、装置、设备及存储介质 | |
CN114882158B (zh) | 基于注意力机制的nerf优化的方法、装置、设备及可读介质 | |
CN115205463A (zh) | 基于多球面场景表达的新视角图像生成方法、装置和设备 | |
CN116342804A (zh) | 一种室外场景三维重建方法、装置、电子设备及存储介质 | |
CN117974899B (zh) | 一种基于数字孪生的三维场景展示方法及其系统 | |
CN110428461B (zh) | 结合深度学习的单目slam方法及装置 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
JPWO2020121406A1 (ja) | 3次元計測装置、移動ロボット、手押し車型移動装置および3次元計測処理方法 | |
CN101686407A (zh) | 一种采样点信息的获取方法和装置 | |
Hua et al. | Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAM | |
Premalatha et al. | Adaptive fish school search optimized resnet for multi-view 3D objects reconstruction | |
CN111932670B (zh) | 基于单个rgbd相机的三维人体自画像重建方法及系统 | |
Watson et al. | Heightfields for efficient scene reconstruction for AR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |