CN112907730A

CN112907730A - 一种三维点云重建方法、装置和电子设备

Info

Publication number: CN112907730A
Application number: CN202110179089.2A
Authority: CN
Inventors: 金鹏; 刘检华; 刘少丽; 黄浩; 胡佳
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-04
Anticipated expiration: 2041-02-07
Also published as: CN112907730B

Abstract

本发明提供了一种三维点云重建方法、装置和电子设备，所述三维点云重建方法包括：根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理。通过本发明方案，可以在一定程度上提高重建的点云的稠密性、完整性和精度。

Description

一种三维点云重建方法、装置和电子设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种三维点云重建方法、装置和电子设备。

背景技术

基于图像的三维重建是计算机视觉中的一个经典研究方向，被广泛应用于虚拟现实、远程协作等领域。

近年来，基于深度学习理论的三维重建方法的研究迅猛发展，该方法从数据集中学习三维形状的先验知识，不用建立多张图像间的特征匹配关系，仅从单目图像中即可实现三维重建。但是，单目图像只能采集到物体的正面信息，背面不可见部分可能存在多种重建结果，为了解决不可见部分的重建奇异性，通常需要从物体的三维模型中学些形状的先验知识。

但是，真实环境中物体的三维模型真值难以获取，例如：依靠激光扫描仪获取大量物体的三维模型是很耗费精力的。因此，将多视角图像作为监督数据训练神经网络被广泛采纳。

深度图中每个像素代表物体表面的深度，蕴含着丰富的几何信息。在深度图的监督下，可以学到更多的先验知识。但是，它的数据结构比轮廓复杂，导致渲染过程繁琐，难以保证可微性。因此，经过人们的研究，通过点云表达物体的三维形状，它不受点之间连接关系的约束，更容易增加点的数量重建稠密点云，详细表达物体三维特征。但是，点云的无序性和稠密性导致多个点不可避免的投影在了一个像素内，增加了渲染的难度。而且渲染过程需要视角的位资，对数据集中各视角图像的标定也会耗费额外的工作。总的来说，三维点云的重建过程中，存在稠密程度、完整性和重建精度低的问题。

发明内容

本发明实施例提供一种三维点云重建方法、装置和电子设备，用以解决现有技术中，重建后的三维点云的稠密程度、完整性和精度较低的问题。

为了解决上述技术问题，本发明实施例提供如下技术方案：

本发明实施例提供一种三维点云重建方法，包括：

根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；

通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；

根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理。

可选地，所述获取目标图像在目标视角下的目标点云，包括：

获取所述目标图像在所述目标视角下的所述第一深度图；

对所述第一深度图的像素进行融合处理，得到所述目标点云。

可选地，所述得到渲染出的第二深度图，包括：

在一个渲染像素对应多个投影点的情况下，根据所述多个投影点中深度值最小的目标投影点，确定渲染出的所述第二深度图；

所述目标点云包括所述多个投影点。

可选地，所述方法还包括：

根据插值计算公式和所述监督深度图中像素的第一深度真值，确定所述目标投影点在所述第二深度图中投影位置的第二深度真值。

可选地，所述插值计算公式包括：

其中，

分别为所述第二深度图中所述投影位置的横坐标值和纵坐标值，x₁，x₂分别为与所述投影位置相邻的四个像素的横坐标值，y₁，y₂分别与所述投影位置相邻的四个像素的纵坐标值，d₁₁、d₂₁、d₁₂、d₂₂分别为与所述投影位置相邻的四个像素的深度真值，d_i为所述第二深度真值。

可选地，所述对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图，还包括：

根据预先建立的视角位资预测模型，预测所述监督深度图的视角位资。

可选地，所述方法还包括：

确定所述监督深度图中的参考深度图；所述参考深度图为所述监督深度图中已知视角位资的深度图；

根据所述参考深度图和所述视角位资预测模型，预测第三深度图的视角位资；所述第三深度图为所述监督深度图中除所述参考深度图之外的深度图；

利用预测出的所述视角位资，融合所述第三深度图，得到所述第三深度图的预测点云。

可选地，所述方法还包括：

通过所述可微渲染器，对所述预测点云在所述参考深度图对应的参考视角下进行渲染，得到渲染出的第四深度图；

确定所述参考深度图与所述第四深度图之间的第一损失函数；

通过最小化所述第一损失函数，优化所述视角位资预测模型。

可选地，所述根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理，包括：

确定所述第二深度图和所述监督深度图之间的第二损失函数；

通过最小化的所述第二损失函数，对所述目标点云进行重建优化处理。

本发明实施例还提供一种三维点云重建装置，包括：

获取模块，用于根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；

渲染模块，用于通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；

优化模块，用于根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理。

可选地，所述获取模块包括：

获取单元，用于获取所述目标图像在所述目标视角下的所述第一深度图；

融合单元，用于对所述第一深度图的像素进行融合处理，得到所述目标点云。

可选地，所述渲染模块包括：

第一确定单元，用于在一个渲染像素对应多个投影点的情况下，根据所述多个投影点中深度值最小的目标投影点，确定渲染出的所述第二深度图；

所述目标点云包括所述多个投影点。

可选地，所述渲染模块还包括：

第二确定单元，用于根据插值计算公式和所述监督深度图中像素的第一深度真值，确定所述目标投影点在所述第二深度图中投影位置的第二深度真值。

可选地，所述插值计算公式包括：

其中，

可选地，所述装置还包括：

预测模块，用于根据预先建立的视角位资预测模型，预测所述监督深度图的视角位资。

可选地，所述预测模块还用于：

可选地，所述优化模块包括：

第三确定单元，用于确定所述第二深度图和所述监督深度图之间的第二损失函数；

优化单元，用于通过最小化的所述第二损失函数，对所述目标点云进行重建优化处理。

本发明实施例化提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上任一项所述的三维点云重建方法的步骤。

本发明实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上任一项所述的三维点云重建方法的步骤。

本发明的有益效果是：

本发明方案，根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理，可以在一定程度上提高重建的点云的稠密性、完整性和精度。

附图说明

图1表示本发明实施例提供的三维点云重建方法的流程图；

图2表示本发明实施例提供的在监督深度图中采样获得第二深度真值的原理图；

图3表示本发明实施例提供的三维点云重建装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明针对现有技术中，重建后的三维点云的稠密程度、完整性和精度较低的问题，提供一种三维点云重建方法、装置和电子设备。

如图1所示，本发明实施例提供一种三维点云重建方法，包括：

步骤101：根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云。

在本发明实施例中，所述目标图像为单目图像，所述目标视角的数量为8个，所述第一深度图的目标点云为三维点云。

步骤102：通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图。

在本发明实施例中，对所述第一深度图的目标点云在监督视角下进行渲染，得到渲染出的第二深度图，也就是将第一深度图的目标点云渲染到监督视角，即三维点云在所述监督视角下二维成像。所述监督视角的数量可以为多个。

在本发明实施例中，可微渲染器对监督视角的视角位资是可微的。

步骤103：根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理。

在本发明实施例中，将第一深度图的目标点云渲染到监督视角，与该监督视角对应的监督数据中监督深度图的深度真值之间建立损失函数，从而优化生成的点云。

需要说明的是，监督数据中监督深度图的深度真值可以是根据建立的CAD模型得到的。

本发明实施例，根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理，可以在一定程度上提高重建的点云的稠密性、完整性和精度。

可选地，所述获取目标图像在目标视角下的第一深度图的目标点云，包括：

获取所述目标图像在所述目标视角下的所述第一深度图；

在本发明实施例中，通过点云生成网络(StructureCNN)从任意的视角的目标图像，也就是单目图像中，预测多个目标视角V的第一深度图D_v(v∈V)。第一深度图D_v中的每个像素的(x_i,y_i)的深度为z_i，也就是将点云坐标x_i＝(x_i,y_i,z_i)表达成为多通道的图像形式。因此，所述点云生成网络可以采用二维卷积构建网络(StructureCNN)，相比于三维卷积构建网络节省了内存。

在训练过程中，编码器将目标图像的颜色信息编码成隐藏层特征(latentrepresentation)，并由解码器预测目标视角的深度

所有目标视角v∈V的第一深度图中的每个像素对应的点x_i＝(x_i,y_i,z_i)，根据如下公式变换到世界坐标系(WCS)中得到点

进而得到完整的点云

完成点云的重建。

其中，K代表拍摄所述目标图像的相机的内参数，目标视角的视角位资旋转矩阵R_v和平移向量t_v组成，

为第一深度图中的像素点的深度真值。通过视角位资(R_v,t_v)可以将空间点从WCS转化到v视角的相机坐标系(CCS)下。

需要说明的是，如果采用监督的训练方法，利用目标视角下的监督视图的深度真值D_v构建损失函数

重建的点云

将存在大量的离散点。因此，需要将重建的点云

进一步渲染到监督视角，并将与监督视角的监督深度图间的一致性作为损失函数，进行优化。

可选地，所述得到渲染出的第二深度图，包括：

所述目标点云包括所述多个投影点。

在本发明实施例中，渲染模拟的是点云的成像过程，重建的点云

通过如下公式渲染到N个监督视角中，渲染出的第二深度图为

对应深度图真值为D_n。

其中，

(R_n,t_n)是监督视角的视角位资，

是

中一个像素的渲染结果。

之后，通过最小化损失函数

实现点云的优化。

本发明实施例，根据物体在深度图中所占区域的大小，重建得到不同数量的点云，保证对于不同尺寸的物体都能得到稠密点云。

需要说明的是，如果在渲染过程中，一个像素对应多个投影点，则只选取多个投影点中深度值最小的目标投影点的深度值

作为渲染结果，

使每个有投影点的像素都参与到优化的过程中，从而减少离散点。

可选地，所述方法还包括：

可选地，所述插值计算公式包括：

其中，

分别为所述第二深度图中所述投影位置的横坐标值和纵坐标值，x₁，x₂分别为与所述投影位置相邻的四个像素的横坐标值，y₁，y₂分别与所述投影位置相邻的四个像素的纵坐标值，d₁₁、d₂₁、d₁₂、d₂₂分别为与所述投影位置相邻的四个像素的深度真值，d_i为所述投影位置的第二深度真值。

在本发明实施例中，对于第二深度图中，每个投影位置

的第二深度真值d_i，根据如下插值公式，在对应的监督深度图D_n中采样获得。

其中，

在监督深度图中采样获得第二深度图中投影位置的第二深度真值的原理图如图2所示。

本发明实施例提供的渲染过程主要依赖点的投影和双线性插值，因此，渲染器对监督视角的视角位资(R_n,t_n)是可微的。

在本发明实施例中，所述视角位资预测模型为卷积神经网络(PoseCNN)，根据PoseCNN，预测监督视角的视角位资(R_n,t_n)，保证各监督视角在未标定的情况下，依然可以训练网络，且可以根据需求任意布置监督视角。

可选地，所述方法还包括：

在本发明实施例中，视角位资是相对于参考坐标系而言的，若有多个视角位资已知的参考深度图D_f存在，可将它们所处的坐标系定为参考坐标系，参考深度图D_f的数量越多，对视角位资预测的精度越有帮助。

需要说明的是，若不存在视角位资已知的参考深度图，可将任意一个参考深度图D_f的局部坐标系作为参考坐标系。

利用预测的视角位资，融合多个监督深度图D_n得到三维点云

视角位资的预测精度越高，三维点云

与点云的真值P_N越接近。

可选地，所述方法还包括：

在本发明实施例中，三维点云

被渲染到与所述参考深度图D_f对应的参考视角下，得到第三深度图

通过最小化第三深度图

与参考深度图D_f之间的第一损失函数

训练视角位资预测网络PoseCNN。视角位资的预测对于视角的变化以及遮挡有有较强的鲁棒性。

下面具体说明点云生成网络StructureCNN和视角位资预测网络PoseCNN的建立过程与训练策略：

对目标图像中拍摄的物体渲染24张彩色图像，像素值为(64×64×3)，100张监督视角深度图D_n，像素值为(64×64)，8张目标视角深度图D_v，像素值为(64×64)。

神经网络中的点云生成网络StructureCNN和视角位资预测网络PoseCNN分享相同的编码器，编码器由四个卷积层和三个全连接层组成。对于点云生成网络StructureCNN，解码器包括三个全连接层；每个特征图由最近邻插值法放大后输入卷积层；每个卷积层之间加入了批标准化和激活函数(ReLU)；每一层的滤波器尺寸都是3×3。视角位资预测网络PoseCNN的解码器包括两个全连接层。视角位资由四元数和投影中心的空间位置(7个变量)表达。

将数据集随机按照8：2的比例分为训练集和测试集。首先，将D_v作为参考视角训练视角位资预测网络PoseCNN，D_f＝D_v，F＝V＝8。然后，根据视角位资预测网络PoseCNN对D_n的视角位资的预测值训练点云生成网络StructureCNN。训练过程采用Tensorflow实现，学习率为0.0001，优化器为ADAM。

在本发明实施例中，还以上述实施例进行说明，根据第二深度图和所述监督深度图的深度真值，构建第二损失函数

通过最小化所述第二损失函数，实现对目标点云的优化处理。

本发明实施例，针对点云的生成，建立了点云生成网络StuctureCNN和点云渲染器，从一张图像中预测目标视角的深度图并融合成点云，进一步渲染到其他视角，在对应真实深度图的监督下优化网络系数，提高点云重建质量。在此过程中，利用双线性插值的方法在真实深度图上采样，使得渲染器对点云的重建和渲染过程中涉及到的视角位资均可微。基于此，构建了视角位资预测网络PoseCNN。视角位资的预测对于视角的变化和遮挡具有较强的鲁棒性。本发明方案，无论对于渲染图像还是真实图像，本发明实施例提供的重建的点云在稠密程度、完整性和精度上，都有较大的提高。

如图3所示，本发明实施例还提供一种三维点云重建装置，包括：

获取模块301，用于根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；

渲染模块302，用于通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；

优化模块303，用于根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理。

本发明实施例提供的装置，根据点云生成网络，获取目标图像在目标视角下的第一深度图的目标点云；通过可微渲染器，对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图；根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理，可以在一定程度上提高重建的点云的稠密性、完整性和精度。

可选地，所述获取模块301包括：

可选地，所述渲染模块302包括：

所述目标点云包括所述多个投影点。

可选地，所述渲染模块302还包括：

可选地，所述插值计算公式包括：

其中，

可选地，所述装置还包括：

可选地，所述预测模块还用于：

可选地，所述优化模块303包括：

需要说明的是，本发明实施例提供的三维点云重建装置是能够执行上述的三维点云重建方法的装置，则上述的三维点云重建方法的所有实施例均适用于该装置，且能达到相同或者相似的技术效果。

需要说明的是，本发明实施例提供的电子设备，能够执行上述的三维点云重建方法，则上述的三维点云重建方法的所有实施例均适用于该电子设备，且能达到相同或者相似的技术效果。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种三维点云重建方法，其特征在于，包括：

2.根据权利要求1所述的三维点云重建方法，其特征在于，所述获取目标图像在目标视角下的目标点云，包括：

获取所述目标图像在所述目标视角下的所述第一深度图；

3.根据权利要求1所述的三维点云重建方法，其特征在于，所述得到渲染出的第二深度图，包括：

所述目标点云包括所述多个投影点。

4.根据权利要求3所述的三维点云重建方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的三维点云重建方法，其特征在于，所述插值计算公式包括：

其中，

6.根据权利要求1所述的三维点云重建方法，其特征在于，所述对所述目标点云在监督视角下进行渲染，得到渲染出的第二深度图，还包括：

根据预先建立的视角位资预测模型，预测所述监督视角下的监督深度图的视角位资。

7.根据权利要求6所述的三维点云重建方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的三维点云重建方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的三维点云重建方法，其特征在于，所述根据所述第二深度图和所述监督视角下的监督深度图，对所述目标点云进行重建优化处理，包括：

10.一种三维点云重建装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-9中任一项所述的三维点云重建方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-9中任一项所述的三维点云重建方法的步骤。