CN116152442B

CN116152442B - 一种三维点云模型生成方法及装置

Info

Publication number: CN116152442B
Application number: CN202310328647.6A
Authority: CN
Inventors: 赵飞飞; 周鑫; 于金波; 王梦魁; 刘祥德
Original assignee: Beijing Digital City Research Center
Current assignee: Beijing Digital City Research Center
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-09-08
Anticipated expiration: 2043-03-30
Also published as: CN116152442A

Abstract

本申请公开了一种三维点云模型生成方法及装置，涉及计算机图形学和三维视觉技术领域。该方法包括：获取场景图像集合和相机参数；根据场景图像集合和相机参数，基于神经辐射场模型生成深度图；根据深度图，生成三维点云模型。该方法能够有效提升神经辐射场生成的深度图质量，解决深度图投影后的几何一致性问题，从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

Description

一种三维点云模型生成方法及装置

技术领域

本申请涉及计算机图形学和三维视觉技术领域，特别涉及一种三维点云模型生成方法及装置。

背景技术

神经辐射场(NeRF)通常使用多层感知器来隐式表征三维场景，即将三维场景表示为一个由神经网络建模的辐射场，由辐射场描述场景中每个点在任意观察方向的颜色和体积密度，并通过体积渲染来合成任意视角下的新视图，在新视图合成领域和三维场景重建领域获得了广泛关注。

然而，上述神经辐射场采用的场景隐式表征和体积渲染流程决定了神经辐射场无法直接输出以三维点云模型为例的显式模型。现有的获取三维点云模型的方法大多数是直接利用深度图投影的方法提取场景的三维点云模型，并未考虑到神经辐射场生成的深度信息的不准确性，因此生成的三维点云模型通常会存在不完整、分层冗余、离群点噪声等问题。

发明内容

有鉴于此，本申请实施例提供了一种三维点云模型生成方法及装置，能够生成完整性较好，几何精度较高的三维点云模型。

本申请实施例公开了如下技术方案：

第一方面，本申请公开了一种三维点云模型生成方法，所述方法包括：

获取场景图像集合和相机参数；

根据所述场景图像集合和相机参数，基于神经辐射场模型生成深度图；

根据所述深度图，生成三维点云模型。

可选的，所述神经辐射场模型使用联合损失函数进行训练，所述联合损失函数的公式具体如下：

其中，L_θ为损失函数，r为发射射线，R为射线的集合，L_color为光度一致性损失函数，L_smooth为深度平滑损失函数，λ为权重因子。

可选的，所述光度一致性函数的公式具体如下：

其中，L_color为光度一致性损失函数，r为发射射线，R为射线的集合，为渲染像素颜色，C(r)为真实像素颜色。

可选的，所述深度平滑损失函数的公式具体如下：

其中，L_smooth为深度平滑损失函数，S_patch为渲染区域面积大小，r为发射射线，R为射线的集合，i为像素的横坐标点，j为像素的纵坐标点，d(r_ij)为像素(i，j)的预测深度，d(r_i+1j)为像素(i+1，j)的预测深度，d(r_ij+1)为像素(i，j+1)的预测深度。

可选的，所述根据所述场景图像集合和相机参数，基于神经辐射场模型生成深度图，包括：

根据视角稀疏选择策略筛选用于生成深度图的相机视角，所述视角稀疏选择策略为相机视场角不低于第一预设阈值，和，相邻的所述相机视场角的交叉重叠区域不超过第二预设阈值；

根据筛选后的相机视角和所述相机参数，基于神经辐射场模型生成原始深度图；

对所述原始深度图进行滤波处理，以生成处理后的深度图。

可选的，所述原始深度图的深度计算公式具体如下：

其中，d(r)为光线r的深度值，t₁为场景近边界，t₂为场景远边界，T(t)为沿光线的累积透射率，σ(r(t))为相机光线r(t)的密度值。

可选的，所述对所述原始深度图进行滤波处理，以生成处理后的深度图，包括：

基于联合双边滤波方法对所述原始深度图进行滤波处理，以生成处理后的深度图；

所述联合双边滤波方法的公式具体如下：

其中，为处理后的深度图，D_p为原始深度图，S为中心像素p的邻域，p和q是原始深度图上的点，I_p为p像素点的颜色值，I_q为q像素点的颜色值，K_p为归一化系数，w_d为空间距离权重，w_r为颜色距离权重。

可选的，所述方法还包括：

获取所述三维点云模型中每个三维点的置信度；

判断所述每个三维点的置信度是否低于第三预设阈值；

若是，则剔除所述置信度低于第三预设阈值的三维点，以形成更新后的三维点云模型。

可选的，所述置信度的计算公式具体如下：

P_conf＝λ₁S_depth+λ₂S_color

其中，P_conf为三维点云的置信度，S_depth为深度置信度，S_color为颜色置信度，λ₁为深度置信度的权重因子，λ₂为颜色置信度的权重因子。

第二方面，本申请公开了一种三维点云模型生成装置，所述装置包括：获取模块、深度模块、模型模块；

所述获取模块，用于获取场景图像集合和相机参数；

所述深度模块，用于根据所述场景图像集合和相机参数，基于神经辐射场模型生成深度图；

所述模型模块，用于根据所述深度图，生成三维点云模型。

相较于现有技术，本申请具有以下有益效果：

本申请公开了一种三维点云模型生成方法及装置，首先获取场景图像集合和相机参数，随后根据该场景图像集合和相机参数，基于神经辐射场模型生成深度图，最后根据生成的深度图生成三维点云模型。由此，该方法能够有效提升神经辐射场生成的深度图质量，解决深度图投影后的几何一致性问题，从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种三维点云模型生成方法的流程图；

图2为本申请实施例提供的一种三维点云模型生成装置的示意图。

具体实施方式

下面先对本申请所涉及的技术术语进行介绍。

多层感知器(MLP，Multilayer Perceptron)是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

运动结构恢复(SFM，Structure from motion)，即给出多幅图像及其图像特征的一个稀疏对应集合，从而估计3D点(三维点)的位置，这个求解过程通常涉及3D几何(结构)和摄像机姿态(运动)的同时估计。

神经辐射场使用多层感知器来隐式表征三维场景，即将场景中每一个点的三维位置和方向映射到其密度和辐射度，并通过体积渲染来合成任意视角下的新视图，实现了最先进的图像视觉质量，在新视图合成和三维场景重建领域获得了广泛关注，激发了许多由这种新方法衍生而来的后续工作，在城市建图、虚拟现实、增强现实和机器人技术等领域具有广泛的应用。

然而，正如前文描述，尽管神经辐射场在新视图合成任务中取得了出色的性能，但是上述神经辐射场采用的场景隐式表征和体积渲染流程决定了神经辐射场无法直接输出以三维点云模型为例的显式模型。而三维点云等显式模型在机器人、虚拟现实、增强现实和自动驾驶等任务中具有重要的应用价值，因此无法输出显式模型在一定程度上限制了神经辐射场方法的发展和应用。

目前，尚未有成熟的算法可用于从神经辐射场隐式表征中直接提取三维点云模型。由于神经辐射场模型的训练没有深度信息进行显式监督，所以神经辐射场模型通常会存在形状辐射模糊问题，即神经辐射场预测的密度最大值点并不一定准确位于物体表面位置。这种深度不确定性给直接利用深度图投影的方法提取场景的三维点云模型造成了困难，提出的三维点云模型往往会存在不完整、分层冗余、离群点噪声等问题。

有鉴于此，本申请公开了一种三维点云模型生成方法及装置，首先获取场景图像集合和相机参数，随后根据该场景图像集合和相机参数，基于神经辐射场模型生成深度图，最后根据生成的深度图生成三维点云模型。由此，该方法能够有效提升神经辐射场生成的深度图质量，解决深度图投影后的几何一致性问题，从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，该图为本申请实施例提供的一种三维点云模型生成方法的流程图。该方法包括：

S101：获取场景图像集合。

基于真实的场景采集N张场景图像，得到如下公式(1)的场景图像集合I。需要说明的是，对于上述场景图像的个数，本申请不做限定。

I＝{I_k|k＝1,2,…,N} (1)

需要说明的是，上述场景图像集合中包含的所有场景图像均为同一个场景的不同视角的图像，上述场景图像可以是RGB图像，也可以是其他格式的图像，对于具体的图像格式，本申请不做限定。

需要说明的是，上述场景图像集合中包含的所有场景图像可以是一系列不同方位的相机同时进行拍摄，也可以是单个相机进行移动拍摄，对于场景图像的具体拍摄方法，本申请不做限定。

需要说明的是，上述场景图片集合可以是对场景视频进行抽帧处理后拆分形成的图像帧集合，也可以是两张及以上的场景图像组成的集合。对于具体的场景图像集合，本申请不做限定。

S102：基于场景图像集合，获取相机参数。

相机参数可以分为相机内参和相机外参。相机内参可以表征相机的固定参数，是一个3×3的矩阵，相机外参可以表征当前相机旋转和置相对于世界坐标系的参数，是一个4×4的矩阵。

在一些具体的实现方式中，可以基于SFM中的Colmap方法对S101步骤中获取的场景图像集合进行数据预处理，以获取相机参数。具体的，Colmap方法是一种通用的运动结构恢复(SFM)和多视图立体(MVS)管道的方法，它为有序和无序图像集合的重建提供了广泛的功能。

在另一些具体的实现方式中，还可以由本领域技术人员直接输入相机参数。需要说明的是，对于相机参数的具体获取方法，本申请不做限定。

可以理解的是，除了获取上述的相机参数，还可以基于SFM中的Colmap方法对S101步骤中获取的场景图像集合进行数据预处理，以获取场景图像集合中各个场景图片的场景边界范围。在一些示例中，上述场景边界范围可以是[-1，1]之间的任意范围。

S103：使用光度一致性损失和深度平滑损失训练神经辐射场模型。

神经辐射场模型通常为多层感知器MLP网络。对于具体的模型层数和宽度，本申请不做限定。

在一些具体的实施方式中，由于神经辐射场模型渲染出的渲染像素颜色可能与室内场景图像中的真实像素颜色存在差异，因此对于每个像素，可以通过最小化渲染像素颜色与真实像素颜色之间的距离，并添加深度平滑损失来训练神经辐射场模型，即利用总损失函数优化全连接网络。

在一些示例中，训练神经辐射场模型的损失函数可以如公式(2)所示：

具体的，光度一致性损失函数的计算方法可以如公式(3)所示：

具体的，深度平滑损失函数的计算方法可以如公式(4)所示：

需要说明的是，实际执行上述步骤时，可以先执行S102后执行S103，也可以先执行S103后执行S102，也可以S102、S103同时执行，对于具体的先后顺序，本申请不做限定。

S104：利用视角稀疏选择策略选择相机视角，并结合相机参数生成原始深度图。

在一些具体的实现方式中，视角稀疏选择策略可以为：第一，相机视场角不低于第一预设阈值，示例性的，第一预设阈值可以是45度，以确保使用最少数量的相机视角即可覆盖全部场景。第二，相邻相机视场角的交叉重叠区域不超过第二预设阈值，示例性的，第二预设阈值可以是10％，以便进行点云融合，同时不明显增加计算量。

需要说明的是，所选相机的视场角需要保证能够在交叉重叠条件下覆盖整个场景，即所选相机的视野范围能够覆盖场景的所占空间，以生成完整的三维点云模型。除此之外，对于具体的视角稀疏选择策略，本申请不做限定。

由此，在所有相机视野范围能够完全覆盖场景的前提下，可以选择更少的相机视角，以避免大量的冗余计算，使得点云模型生成速度更快。

S105：根据相机位姿信息渲染原始深度图。

在一些具体的实现方式中，可以根据如下公式(5)，使用累积的透射率计算光线的预期深度，以渲染S104步骤中生成的原始深度图。

S106：利用联合双边滤波方法，对原始深度图进行滤波预处理。

联合双边滤波方法指的是将原始深度图及对应视角下的彩色图像作为输入，利用高斯核函数计算出原始深度图的空间距离权值和RGB图像颜色距离权值，并将权值相乘得到联合滤波权重。由于S105步骤中获得的原始深度图存在噪声的影响，因此可以使用联合双边滤波方法对上述原始深度图进行滤波预处理。由此，通过联合双边滤波优化初始深度信息，获得更加清晰一致的深度图，即处理后的深度图。

在一些具体的实现方式中，令D表示S105步骤中获取的原始深度图，滤波后的深度图(即处理后的深度图)如下公式(6)所示：

在一些示例中，上述原始深度图中点p与其邻域中点q的空间距离权值的公式可以如下公式(7)所示，上述RGB彩色图像中点p与其邻域中点q的颜色距离权值可以如下公式(8)所示：

其中，w_d(p,q)为原始深度图中点p与其邻域中点q的空间距离权值，w_r(I_p,I_q)表示RGB彩色图像中点p与其邻域中点q的颜色距离权值，I_p和I_q分别为点p和其邻域中点q的颜色值，σ_d为空间距离权值的高斯函数标准差、σ_r为颜色距离权值的高斯函数标准差。

S107：对处理后的深度图投影，生成三维点云模型。

根据S102步骤中获取到的相机参数中的相机内参进行坐标变换，即将图像坐标系中的二维像素点(u,v)映射到相应坐标系下的三维点(X,Y,Z)，从而生成三维点云数据。

在一些具体的实现方式中，转换后的三维点云对应的坐标计算公式可以如下公式(9)所示：

其中，z为二维图像点(u,v)对应的深度，(u₀,v₀)为图像的中心像素坐标，f_x和f_y为相机焦距。

S108：计算三维点云模型中每个三维点的置信度。

对于每一个三维点，其置信度由颜色置信度和重投影误差共同组成。三维点云的置信度可以如下公式(10)所示：

P_conf＝λ₁S_depth+λ₂S_color (10)

具体的，颜色置信度S_color为颜色误差，即如下公式(11)所示：

其中，S_color为颜色置信度(即颜色误差)，为渲染像素颜色，C(r)为真实像素颜色，||·||_L1为L1距离。

S109：剔除置信度小于阈值的三维点，形成最终的三维点云模型。

当将所有的深度图反向投影到三维空间中时，会出现大量冗余信息，因此可以根据S108步骤中计算得到的置信度值，将置信度值小于第三预设阈值的三维点从点云模型中剔除，从而提高点云精度。

在一些具体的实现方式中，可以将上述剔除置信度小于第三预设阈值的三维点后的点云模型保存为最终的点云模型，将最终生成的点云模型保存为ply文件。

本申请公开了一种三维点云模型生成方法，首先获取场景图像集合和相机参数，随后根据该场景图像集合和相机参数，基于神经辐射场模型生成深度图，最后根据生成的深度图生成三维点云模型。由此，该方法能够有效提升神经辐射场生成的深度图质量，解决深度图投影后的几何一致性问题，从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

参见图2，该图为本申请实施例提供的一种三维点云模型生成装置的示意图。该三维点云模型生成装置200包括：获取模块201、深度模块202、模型模块203。其中，获取模块201，用于获取场景图像集合和相机参数；深度模块202，用于根据场景图像集合和相机参数，基于神经辐射场模型生成深度图；模型模块203，用于根据深度图，生成三维点云模型。

在一些可能的实现方式中，神经辐射场模型使用联合损失函数进行训练，上述联合损失函数的公式具体如下公式(12)：

在一些可能的实现方式中，上述光度一致性损失函数的公式具体如下公式(13)：

在一些可能的实现方式中，上述深度平滑损失函数的公式具体如下公式(14)：

在一些可能的实现方式中，上述深度模块202具体包括：第一子模块、第二子模块、第三子模块。

其中，第一子模块用于：根据视角稀疏选择策略筛选用于生成深度图的相机视角，视角稀疏选择策略为相机视场角不低于第一预设阈值，和，相邻的上述相机视场角的交叉重叠区域不超过第二预设阈值；

第二子模块用于：根据筛选后的场景图片集合和相机参数，基于神经辐射场模型生成原始深度图；

第三子模块用于：对上述原始深度图进行滤波处理，以生成处理后的深度图。

在一些可能的实现方式中，上述原始深度图的深度计算公式具体如下公式(15)：

在一些可能的实现方式中，上述第三子模块具体用于：

基于联合双边滤波方法对上述原始深度图进行滤波处理，以生成处理后的深度图；

上述联合双边滤波方法的公式具体如下公式(16)：

在一些可能的实现方式中，上述三维点云模型生成装置200还包括：计算模块、判断模块、更新模块。

其中，计算模块用于：获取三维点云模型中每个三维点的置信度；

判断模块用于：判断每个三维点的置信度是否低于第三预设阈值；

更新模块用于：若是，则剔除上述置信度低于第三预设阈值的三维点，以形成更新后的三维点云模型。

在一些可能的实现方式中，上述置信度的计算公式具体如下公式(17)所示：

P_conf＝λ₁S_depth+λ₂S_color (17)

本申请公开了一种三维点云模型生成装置，包括：获取模块、深度模块、模型模块。该装置能够有效提升神经辐射场生成的深度图质量，解决深度图投影后的几何一致性问题，从而高效和快速地从神经辐射场隐式表示中获得更加准确的场景三维点云模型。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种三维点云模型生成方法，其特征在于，所述方法包括：

获取场景图像集合和相机参数；

根据筛选后的相机视角和所述相机参数，基于神经辐射场模型生成原始深度图，所述原始深度图的深度计算公式具体如下：

其中，d(r)为光线r的深度值，t₁为场景近边界，t₂为场景远边界，T(t)为沿光线的累积透射率，σ(r(t))为相机光线r(t)的密度值；

对所述原始深度图进行滤波处理，以生成处理后的深度图；

根据所述处理后的深度图，生成三维点云模型。

2.根据权利要求1所述的方法，其特征在于，所述神经辐射场模型使用联合损失函数进行训练，所述联合损失函数的公式具体如下：

3.根据权利要求2所述的方法，其特征在于，所述光度一致性损失函数的公式具体如下：

其中，L_color为光度一致性损失函数，为渲染像素颜色，C(r)为真实像素颜色。

4.根据权利要求2所述的方法，其特征在于，所述深度平滑损失函数的公式具体如下：

5.根据权利要求1所述的方法，其特征在于，所述对所述原始深度图进行滤波处理，以生成处理后的深度图，包括：

所述联合双边滤波方法的公式具体如下：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述三维点云模型中每个三维点的置信度；

判断所述每个三维点的置信度是否低于第三预设阈值；

7.根据权利要求6所述的方法，其特征在于，所述置信度的计算公式具体如下：

P_conf＝λ₁S_depth+λ₂S_color

8.一种三维点云模型生成装置，其特征在于，所述装置包括：获取模块、第一子模块、第二子模块、第三子模块和模型模块；

所述获取模块，用于获取场景图像集合和相机参数；

所述第一子模块，用于根据视角稀疏选择策略筛选用于生成深度图的相机视角，所述视角稀疏选择策略为相机视场角不低于第一预设阈值，和，相邻的所述相机视场角的交叉重叠区域不超过第二预设阈值；

所述第二子模块，用于根据筛选后的相机视角和所述相机参数，基于神经辐射场模型生成原始深度图，所述原始深度图的深度计算公式具体如下：

所述第三子模块，用于对所述原始深度图进行滤波处理，以生成处理后的深度图；

所述模型模块，用于根据所述处理后的深度图，生成三维点云模型。