CN113096239B

CN113096239B - 一种基于深度学习的三维点云重建方法

Info

Publication number: CN113096239B
Application number: CN202110370551.7A
Authority: CN
Inventors: 雷建军; 宋嘉慧; 彭勃; 于增瑞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-07-19
Anticipated expiration: 2041-04-07
Also published as: CN113096239A

Abstract

本发明公开了一种基于深度学习的三维点云重建方法，包括：点云预测器根据输入的潜在特征表示，预测出三维点云的坐标信息；每个分支以对应特征编码器输出的潜在特征表示作为输入，学习结合了其他分支信息的互补特征；通过应用跨视图交互单元，每个稀疏点云重建子网捕获跨视图的互补信息，反馈给点云预测器生成稀疏点云；构建由多个点云特征提取子网、全局引导的特征学习子网和生成层组成的全局引导的稠密点云重建模块，每个点云特征提取子网由一系列共享权重的多层感知机组成，所述多层感知机从生成的稀疏点云中提取点云特征；采取倒角距离损失作为几何一致性约束，并构建了语义一致性约束来优化稠密点云的生成。

Description

一种基于深度学习的三维点云重建方法

技术领域

本发明涉及三维点云重建领域，尤其涉及一种基于深度学习的三维点云重建方法。

背景技术

作为计算机视觉领域的热点研究任务之一，三维模型重建的目标旨在通过给定的二维图像的信息生成包含在二维图像中物体的真实三维模型。三维模型有多种表示方式，包括：体素、网格和三维点云。三维点云作为三维模型的典型代表，已被应用于自动驾驶、虚拟现实等诸多领域。因此，三维点云重建任务引起了研究人员的广泛关注。此外，生成的点云模型的质量会显著影响后续任务的性能，如三维模型检索、分类和分割等。然而，由于点云数据分布不规则、排列无序的特点，生成的点云模型通常不够稠密，难以覆盖更多有效的位置信息和形状细节。因此，生成分辨率更高、细节更丰富的点云模型是一项具有挑战性的任务。

三维模型重建包括：单视图三维模型重建和多视图三维模型重建。近年来，由于深度学习强大的学习能力，许多单视图三维模型重建方法被提出。单视图三维模型重建方法仅根据输入的单幅二维图像重建出合理的三维模型。从给定的图像推断三维模型需要结合低层次的图像位置信息、高层次的图像语义信息和图像各个组成部分的结构排列信息等，推理过程十分复杂。由于单视图包含的视觉信息有限，从单视图中预测三维模型更加困难，因此基于单视图的三维模型重建方法往往会产生粗糙的三维模型。

与单视图重建方法不同，多视图三维模型重建方法以从同一物体不同角度和位置捕获的多幅二维图像为输入来预测三维模型。多幅图像可以提供更全面的三维物体的形状和位置信息，促使生成网络更精确地建立二维图像和三维模型之间的映射关系。受此启发，近年来提出了许多基于多视图的三维模型重建方法，以提高重建的三维模型的质量。Eigen等人提出基于深度卷积架构生成深度图，然后对深度图经过复杂的处理以转换成三维模型。Choy等人提出了一种端到端的三维模型重建网络3D-R2N2，该网络利用卷积神经网络从输入的二维图像直接生成三维模型。由于图卷积网络能够更好地提取拓扑图的空间信息，Wen等人提出了一种基于图卷积的变形网络来生成三维模型。

虽然现有的基于深度学习的三维模型重建方法可以从有限数量的输入视图中预测出较合理的三维形状，但这些方法通常都直接生成相对稀疏且粗糙的三维点云。因此，利用深度学习的优势，探索生成更加稠密、细节更丰富的三维点云重建方法具有重要的研究意义。

发明内容

为了生成分辨率更高，细节更丰富的高质量三维模型，并充分挖掘不同视图之间的互补信息，本发明提出了一种基于深度学习的三维点云重建方法，利用从稀疏到稠密的分阶段学习策略从多视图输入中重建稠密且精细的三维点云，以提升三维点云重建任务的性能，详见下文描述：

一种基于深度学习的三维点云重建方法，所述方法包括：

学习每个输入图像的视觉信息，通过特征编码器，每个输入图像被编码为潜在特征表示，点云预测器根据输入的潜在特征表示，预测出三维点云的坐标信息；

每个分支以对应特征编码器输出的潜在特征表示作为输入，学习结合了其他分支信息的互补特征；通过应用跨视图交互单元，每个稀疏点云重建子网捕获跨视图的互补信息，反馈给点云预测器生成稀疏点云；

构建由多个点云特征提取子网、全局引导的特征学习子网和生成层组成的全局引导的稠密点云重建模块，每个点云特征提取子网由一系列共享权重的多层感知机组成，所述多层感知机从生成的稀疏点云中提取点云特征；

采取倒角距离损失作为几何一致性约束，并构建了语义一致性约束来优化稠密点云的生成。

其中，所述每个分支以对应特征编码器输出的潜在特征表示作为输入，学习结合了其他分支信息的互补特征具体为：

特征编码器输出的潜在特征表示f_i被送入级联层，而其他分支的输入先经过卷积核大小为3×3的卷积层进行自适应学习，再送入到同一个级联层；通过级联操作，将不同分支学习到的特征沿着通道维进行连接，然后，将交互后的特征输入到卷积核大小为3×3的卷积层中，得到最终的跨视图互补特征

其中，Conv(·)表示卷积操作，[，]表示级联操作。

进一步地，所述方法包括：

基于全局引导特征，在每个点云特征提取子网中应用全局引导机制，利用图像引导信息引导点云特征提取过程；

全局引导机制通过多个引导块的执行将M级全局引导特征引入到每个点云特征提取子网中，每个引导块由一个连接层和一个SMLP组成；

第m个制导块的输出为提取的第m级点云特征

其中K_m表示特征的通道维数；

表示为：

其中，当m＝1时

基于获得的第M级点云特征

使用一个级联和一组多层感知机层对进行稠密点云D∈R^(V×N)×3的重建：

其中，MLPs(·)表示多层感知机层，用于将融合后的点云特征投影到三维空间，S_V表示第V个输入视图重建出的稀疏点云。

其中，所述方法采用余弦一致性函数构建语义一致性约束。

本发明提供的技术方案的有益效果是：

1、本发明设计了一种基于深度学习的三维点云重建网络，该重建网络采用从稀疏到密集的分阶段学习策略，从多幅彩色图像中逐步生成高分辨率且细节丰富的三维点云；

2、为了重建出信息更全面的点云模型，本发明设计了一个跨视图交互单元，以从多视图输入中捕获互补信息，缓解跨视图差异；

3、本发明设计了全局引导的稠密点云重建模块，通过全局引导机制，得到最终稠密的三维点云模型。

附图说明

图1为一种基于深度学习的三维点云重建方法的流程图；

图2为不同方法在ShapeNet数据集上的可视化结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于深度学习的三维点云重建方法，参见图1，该方法包括以下步骤：

一、构建稀疏点云重建模块

首先，构建稀疏点云重建模块，该模块由多个相同稀疏点云重建子网组成。每个稀疏点云重建子网包括：一个特征编码器和一个点云预测器。

(1)特征编码器：采用基于深度学习的二维图像特征提取网络VGG16，该VGG16网络的输入为三维物体从某一视角拍摄或投影得到的图片。该网络用于学习每个输入图像的视觉信息。通过特征编码器，每个输入图像被编码为潜在特征表示。

(2)点云预测器：采用与PSGN(点集生成网络)方法中相同的点云预测器的结构，该预测器的输入为特征编码器输出的潜在特征表示，点云预测器包含一系列的卷积层、反卷积层以及全连接层，点云预测器能够根据输入的图像潜在特征表示，预测出三维点云的坐标信息。

其中，VGG16和PSGN均为本领域技术人员所公知，本发明实施例对此不做赘述。

二、设计跨视图交互单元

为了有效地探索多视图之间的互补信息，减少跨视图之间的信息差异，在多个稀疏点云重建子网之间引入了跨视图交互单元来提取跨视图的互补特征。

跨视图交互单元包含多个相似特征交互分支，其定义为：每个分支以对应稀疏点云重建子网的特征编码器输出的潜在特征表示作为输入，学习结合了其他分支信息的互补特征。

设

表示第i个特征交互分支的输入，其中V表示输入视图的个数，h、w、c表示特征图的高度、宽度和通道，R表示数学中的实数域。

首先，特征编码器输出的潜在特征表示f_i被送入级联层，而其他分支的输入先经过卷积核大小为3×3的卷积层进行自适应学习，再送入到同一个级联层。通过级联操作，将不同分支学习到的特征沿着通道维进行连接。然后，将交互后的特征输入到卷积核大小为3×3的卷积层中，得到最终的跨视图互补特征

其中，Conv(·)表示卷积操作，[，]表示级联操作。通过应用跨视图交互单元，每个稀疏点云重建子网可以捕获跨视图的互补信息，然后反馈给点云预测器，生成一个相对完整的稀疏点云S_i∈R^N×3，其中N表示稀疏点云中点的数量。

三、设计全局引导的稠密点云重建模块

全局引导的稠密点云重建模块由多个点云特征提取子网、全局引导的特征学习子网和生成层组成。每个点云特征提取子网由一系列共享权重的多层感知机SMLP组成，这些SMLP从稀疏点云重建模块生成的稀疏点云中提取点云特征。

由于多视图图像包含丰富的内容信息和位置信息，因此设计了全局引导的特征学习子网，目的是从多视图图像中获取引导信息，为三维点云特征提取过程提供有用的引导信息。全局引导特征学习子网包含一个与VGG16结构相同的特征编码器，以通过多视图聚合后的图像为输入，学习M-level全局引导特征，包括：低层次的空间结构细节和高层次的上下文信息，并在各级引导特征后都应用全连接层，使得全局引导特征与点云特征进行对齐。

表示从引导图像中提取的第m级全局引导特征，其中h_m、w_m、c_m分别表示第m级全局引导特征的高度、宽度和通道尺寸。

表示对齐后的第m级全局引导特征：

其中，FC(·)表示全连接层，

为从引导图像中提取的第m级全局引导特征，I表示图像。

基于全局引导特征

在每个点云特征提取子网中应用全局引导机制，利用图像引导信息引导点云特征提取过程。全局引导机制通过多个引导块的执行将M级全局引导特征引入到每个点云特征提取子网中。每个引导块由一个连接层和一个SMLP组成。第m个制导块的输出为提取的第m级点云特征

其中K_m表示特征的通道维数。

可以表示为：

其中，当m＝1时

然后，基于获得的第M级点云特征

四、构建几何一致性约束和语义一致性约束

在提出的基于深度学习的三维点云重建方法中，采取了倒角距离损失作为几何一致性约束，并构建了语义一致性约束来优化稠密点云的生成。

(1)几何一致性约束通过计算两个点云之间的距离，来约束点云的几何位置，该损失函数定义loss_{几何一致性}(P₁,P₂)为：

其中，q₁为点云P₁中的一个点，q₂为点云P₂中的一个点，loss_{几何一致性}(·)表示几何一致性约束。

(2)由于生成的稀疏点云和密集点云都对应同一个三维物体，包含相同的语义信息。因此，为了实现不同点云之间的语义一致性，本发明实施例利用余弦一致性函数构建了语义一致性约束。

具体来说，将网络生成的稀疏点云和稠密点云都送入PointNet网络中提取全局语义特征，然后通过语义一致性约束对得到的全局语义特征进行约束。

语义一致性约束loss_{语义一致性}(S₁,…,S_V,D)的定义为：

其中，Z_r、Z_s表示从点云中提取的全局语义特征，T表示数学中的转置，V表示输入视图的个数，也就是重建出的稀疏点云的个数，r表示一个变化范围为数值1到(V+1)的变量，r表示一个变化范围为数值(r+1)到(V+1)的变量。loss_{语义一致性}(·)表示语义一致性约束。

(3)生成网络的总体目标函数是上述几何一致性约束和语义一致性约束的加权总和：

其中，PointNet和余弦一致性函数皆为本领域技术人员所公知，本发明实施例对此不做赘述。loss_CD(S_i,GT)表示对稀疏点云S_i和真实点云GT进行几何一致性约束的计算，loss_CD(D,GT)表示对稠密点云D和真实点云GT进行几何一致性约束的计算。

通过在网络训练中应用总体目标函数进行网络优化，约束重建点云在几何形状上和语义层面上都接近真实点云，从而实现高精确度的稠密点云重建。

本发明实施例提出的方法在公开数据集ShapeNet中的“椅子”这一类别上进行了实验。实验结果表明，所提出的方法优于先进的多视图重建方法3D-R2N2。图2展示了本发明实施例提出的方法与3D-R2N2在三维重建指标“倒角距离”上的对比结果，倒角距离的数值越小，代表性能越好。

其中，上述方法3D-R2N2、ShapeNet数据集以及倒角距离皆为本领域技术人员所公知，本发明实施例对此不做赘述。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。