CN114298946B

CN114298946B - 一种框架细节增强的深度学习点云补全方法

Info

Publication number: CN114298946B
Application number: CN202210229519.1A
Authority: CN
Inventors: 肖春霞; 张文逍; 周华健; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-14
Anticipated expiration: 2042-03-10
Also published as: CN114298946A

Abstract

本发明公开了一种基于框架细节增强的深度学习点云补全方法，通过充分利用形状框架和细节之间的相互联系来更好地进行点云补全。该网络包含了一个框架‑细节Transformer模块，其中包含交叉注意力层和自注意力层，以充分探索从局部细节到全局形状的相关性，并利用它来增强整体形状框架。本发明不仅能够增强点云补全的细节和整体的准确度。

Description

一种框架细节增强的深度学习点云补全方法

技术领域

本发明属于点云补全领域，尤其涉及一种框架细节增强的深度学习点云补全方法。

背景技术

在日常生活中，人们通过手机、相机拍摄的照片和视频，以及在各大网站上看到的各类视频，都是以2D数据形式呈现在人们眼前。然而在现实生活中，所有的物体都是以3D形式存在于这个世界，2D数据仅是3D数据通过投影之后的一种表现形式。所以，如果想要进一步对真实世界场景进行模拟和理解，3D数据的获取往往必不可少。3D数据相较于2D数据有两个明显的优势：1）区别于2D数据只能表示固定视角下的画面，用户可以从各个不同的视角对3D数据进行观察。2）3D数据更有利于使用者同数据进行交互，如其在3D游戏和虚拟现实的应用。

因此，3D数据目前越来越受到人们的重视，其在各个领域都具有广泛的应用。随着增强及虚拟现实技术的发展，这些技术对于3D数据的需求也日益增加。增强现实和虚拟

现实中往往需要知道场景中物体的比例和位置，以便提供逼真的视觉效果，并实现对场景的更高层次的理解。例如，必须知道场景几何形状才能进行让虚拟的3D人物行走在桌子上，而不会直接穿过这些物体。同时，在机器人领域同样需要对周围的3D环境进行感知和理解，例如室内机器人需要能准确地将餐具放回餐桌。在自动驾驶领域，对于周围环境需要有更加准确的理解，以保证驾驶过程中的安全性，通常会采用2D和3D协同感知的方式，其中对于3D环境的感知和理解是及其重要的一环，例如自动驾驶过程中需要准确判断出周围物体在3D世界中的体积和移动速度等。除此之外，3D数据在医学图像中逐渐受到人们的重视，早期医学图像主要通过对2D图像进行研究和分析，随着3D建模技术的发展，通过对3D医学影像进行分析能够更加准确地获悉患者的情况。

既然三维数据如此重要，那么如何对三维数据进行获取也自然成为人们关心的重点问题。

随着3D传感器技术的不断更新和发展，低成本3D传感器相继问世，如微软推出的Kinect\cite{smisek20133d}以及英伟达公司推出的RealSense\cite{keselman2017intel}。相较于以前通过2D图像进行重建或手工建模的方式，通过3D传感器来获取3D数据变得越来越方便和容易，这也成为促进三维视觉快速发展的一个重要因素。同时，近年来许多移动智能手机也适配了深度传感相机，如2020年发布的两款iPhone都配有ToF深度相机，华为公司研发的P40、P40 pro，三星发布的S20+、S20 Ultra也都搭载了ToF深度相机模组，以便更好地进行增强现实应用并优化相机成像的效果。

另一方面，点云往往是3D传感器获得的数据的直接表现形式。如通过激光扫描仪得到的点云，可通过设备直接获得扫描得到的各点的3D坐标。又如深度相机虽然是以2D深度图的形式进行表现，但其往往会根据相机参数对2D深度图进行投影，最终同样以点云的形式在3D空间呈现。

然而，通过3D传感器扫描得到的3D点云数据的质量往往不尽人意，而这主要有以下几点原因：首先传感器在移动时，由于跟踪（Tracking）会不断累计误差，导致最终输出的3D模型也存在几何误差；其次3D传感器分辨率有限，导致扫描得到的数据不够密集。除上述两个原因外，更重要的一个原因是在扫描过程中往往物体之间存在遮挡，而这也导致了扫描得到的模型往往都是不完整的。通过传感器扫描得到的不完整3D物体模型往往很难被直接应用到后续的任务如增强现实、自动驾驶中，因为不完整的模型会导致不够准确的场景信息理解，直接影响到任务最终的成败与否。因此，如何能够对扫描得到的3D物体进行有效的补全，成为目前3D视觉领域一大重要的研究问题。

Point completion network是第一个直接在点云格式上利用深度学习的点云补全工作，该网络通过提取的全局特征向量恢复完整的 3D 模型，但无法提供精细的几何细节。近期的一些工作ECG，GRNet等通过利用局部特征获取到具有几何细节的完整形状，然而，这些工作通常利用卷积操作提取局部特征来恢复整个物体形状，而忽略了全局框架和局部细节之间的相关性。

发明内容

本发明针对现有技术的不足，如不能有效恢复细节信息以及不能有效利用细节特征对整体形状进行增强，提供了一个种由粗糙到精细的两阶段点云补全方法。在第一阶段，网络学习包含全局形状信息的粗略框架，用作后续细节增强的关键锚点。在第二阶段，通过建立粗糙框架锚点和局部细节特征之间的相关性，从而增强粗糙框架的几何细节。本发明的技术方案为一种框架细节增强的深度学习点云补全方法，包括以下步骤：

步骤1，给定X作为部分输入点云，首先利用 PCN 自动编码器来生成用于粗略形状补全的全局特征；

步骤2，通过解码全局特征恢复出粗略的框架

；

步骤3，随后，使用多层感知机MLP分别从X和

中提取逐点特征F _X和F _C。F _X可以看作是包含几何细节的局部特征，F _C是指全局框架中各个点特征；

步骤4，将F _X和F _C连同其对应的空间坐标P _X和P _C输入到框架-细节Transformer模块以将局部细节特征从F _X和F _C融合到F _C并获得增强的特征

；

步骤5，将

的一同输入到具有 U-Net 架构的重建网络中，以获得最终的细节增强结果。

进一步地，步骤1的中给定X作为部分输入点云，首先利用自动编码器来生成用于粗略形状补全的全局特征，在自动编码器使用PointNet为基础框架，通过多层感知机来提取逐点特征，之后通过最大池化层获取全局特征。

进一步地，对于得到的全局特征，首先将其通过多层感知机将原本的低维度特征提取到高维度特征而后通过Reshape操作来到得到与粗糙结果相同的维度，多层感知机可以有效地提取点云的特征，之后再通过多层感知机回归出粗略的框架

。

进一步地，框架-细节Transformer模块包括一个自注意力层和一个交叉注意力层；其输入是F _X和F _C，自注意力层将对每个点的特征进行提取和聚合，输出

和

；交叉注意层分析粗糙框架中的点和输入的局部模型中的点的相关性，并将来自局部模型的细节特征F _X和F _C集成到粗糙框架点的特征

中，最终得到增强后的特征

。

更进一步地，所述框架-细节Transformer模块还包括一个可选的全局自注意力层，可选的全局自注意力层可以应用于

和

的组合，以在全局视图中进一步传播特征，全局自注意力层是根据内存的充裕情况选择添加或者不添加。

本发明有效增强了点云补全结果的细节：提供了一个基于框架细节增强的由粗糙到精细的点云补全方法，探索输入的部分形状和生成的粗略骨架之间的相关性，以实现以更多的约束进行细节恢复。同时提出了一种选择性注意力机制，可以在保证网络性能的前提下减少内存资源的消耗。本发明提供的方法能够有效地应用于真实扫描的数据之上。

附图说明

图1是本发明的点云补全网络的原理示意图。

图2是本发明的点云补全网络的网络框架图。

图3是本发明的点云补全网络的框架-细节Transformer示意图。

图4是本发明的U-Net 架构示意图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明，并不对本发明作任何的限制。

本发明基于深度学习与Transformer框架，网络结构如图2所示，该方法的网络主要以编码解码器为主要结构模型，在特征提取过程中主要用到PointNet为主要模块，该网络结构的主要优点在于利用了Transformer框架对粗糙补全结果进行了细节的融合增强，该网络包含以下几个步骤：

步骤1，给定X作为部分输入点云，首先自动编码器使用了PointNet为基础框架，通过多层感知机MLP来提取逐点特征，之后通过最大池化层获取粗略形状补全的全局特征；

步骤2，对于得到的全局特征，首先将其通过多层感知机MLP将原本的低维度特征提取到高维度特征而后通过Reshape操作来到得到与粗糙结果相同的维度，多层感知机可以有效地提取点云的特征，之后再通过MLP回归出粗略的框架

：

步骤3，使用多层感知机MLP进一步X和

中提取逐点特征F _X和F _C。该多层感知机对于X和

具有相同的通道数。F _X可以看作是包含几何细节的局部特征，F _C指全局框架中各个点特征。

步骤4，将F _X和F _C连同其对应的空间坐标P _X和P _C输入到框架-细节Transformer模块。框架-细节Transformer模块具体定义如下：

框架-细节Transformer如图3所示，由一个自注意力层、一个交叉注意力层和一个可选的全局自注意力层组成。本模块的输入是F _X和F _C，它们代表了X和

的逐点特征。自注意力层将对每个点的特征进行提取和聚合，输出

和

。交叉注意层充分探索了粗糙框架中的点和输入的局部模型中的点的相关性，并将来自局部模型的细节特征F _X和F _C集成到粗糙框架点的特征

中，最终得到增强后的特征

。可选的全局自注意力层可以应用于

和

的组合，以在全局视图中进一步传播特征。全局自注意力层可以提高网络性能，但相应地需要额外的计算和内存消耗，因此该全局自注意力层是可根据内存的充裕情况选择添加或者不添加。

给定具有特征

的输入点云P，自注意力层可由如下公式表示：

其中

表示线性投影，

是一个包含线性层的多层感知机MLP，

代表查询值中第i个元素，

代表键值中第i个元素，

代表value中第i个元素。

同样代表MLP，其由线性层组成，且包含批量归一化操作和ReLU激活函数，

为初始融合后的特征，d为特征维度。计算自注意力特征和输入特征之间的偏移量可以获得更好的特征表示。这里自注意力层中没有用到位置编码，因为从点坐标

获得的点特征已经能够包含足够的位置信息。

根据观察，对F _X和F _C进行组合并直接应用自注意力层并不能获得良好的结果，因为粗糙框架是从单个全局向量中恢复的，因此F _X和F _C之间共享的信息以及建立的联系非常有限。

本发明提供了一个交叉注意力层，从而在进行坐标重建之前充分探索从局部细节到整体粗糙框架的相关性。其表达形式类似于之前的自注意力层，但其中有两个重要的不同：

1）在交叉注意力层中，只有

用于计算查询值，而键值和数值是从

中计算而来，这表示本网络学了一个交叉映射关系

→

。

2) 交叉注意力层中还用到了一个额外的位置编码层。通过添加位置编码层，能够更好地查找从局部模型到粗糙框架的联系。

对于位置编码可以直接使用每个点的空间坐标

直接作为位置编码，然而，在将输入传递到网络之前，使用高频函数将输入映射到更高维空间可以更好地拟合包含高频变化的数据。因此受该工作的启发，给定位置p，本节定义了一个映射函数γ，表示从R ^L到更高维空间R ^2L。因此，位置编码函数可以表示为：

给定点特征

，交叉注意力层定义如下：

最终，框架-细节Transformer模块以将局部细节特征从F _X和F _C融合到F _C并获得增强的特征

。

步骤5，将

的一同输入到具有 U-Net 架构的重建网络中，以获得最终的细节增强结果。具体来讲，重建网络遵循带有跨层连接的 U-Net 架构，使用EdgeConv作为特征传播的基本模块，它通过选择邻域图特征空间中的K 个最近邻点来进行特征的传播。对于每个下采样和上采样操作，利用到了Pointatrousgraph中的 Edge-preserved Pooling 和 Edge-preserved Unpooling模块。此外，还利用了边缘感知特征扩展EFE 模块根据所需的最终分辨率来扩展点的特征。

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种框架细节增强的深度学习点云补全方法，其特征在于：

步骤1，给定X作为部分输入点云，首先利用自动编码器来生成用于粗略形状补全的全局特征；

步骤2，通过解码全局特征恢复出粗略的框架

；

步骤3，分别从X和

中提取逐点特征F _X和F _C；F _X可以看作是包含几何细节的局部特征，F _C是指全局框架中各个点特征；

；

其中，框架-细节Transformer模块包括一个自注意力层、一个交叉注意力层和一个可选的全局自注意力层；其输入是F _X和F _C，自注意力层将对每个点的特征进行提取和聚合，输出

和

中，得到增强后的特征

；可选的全局自注意力层可以应用于

和

的组合，以在全局视图中进一步传播特征，全局自注意力层是根据内存的充裕情况选择添加或者不添加；

步骤5，将

的一同输入到重建网络中，以获得最终的细节增强结果。

2.根据权利要求1所述的框架细节增强的深度学习点云补全方法，其特征在于：

步骤1的中给定X作为部分输入点云，首先利用自动编码器来生成用于粗略形状补全的全局特征，在自动编码器使用PointNet为基础框架，通过多层感知机来提取逐点特征，之后通过最大池化层获取全局特征。

3.根据权利要求2所述的框架细节增强的深度学习点云补全方法，其特征在于：

对于得到的全局特征，首先将其通过多层感知机将原本的低维度特征提取到高维度特征而后通过Reshape操作来到得到与粗糙结果相同的维度，多层感知机可以有效地提取点云的特征，之后再通过多层感知机回归出粗略的框架

。

4.根据权利要求1所述的框架细节增强的深度学习点云补全方法，其特征在于：

给定具有特征

的输入点云P，自注意力层可由如下公式表示：

其中

表示线性投影，

是一个包含线性层的多层感知机MLP，

代表查询值中第i个元素，

代表键值中第i个元素，

代表value中第i个元素，

为初始融合后的特征，d为特征维度。

5.根据权利要求4所述的框架细节增强的深度学习点云补全方法，其特征在于：

交叉注意力层，其表达形式类似于之前的自注意力层，不同之处在于：

1）在交叉注意力层中，只有

用于计算查询值，而键值和value是从

中计算而来，即有一个交叉映射关系

→

；

2）交叉注意力层中还用到了一个额外的位置编码层，位置编码函数可以表示为：

给定点特征

，交叉注意力层定义如下：

。

6.根据权利要求1所述的框架细节增强的深度学习点云补全方法，其特征在于：

步骤5具体为：使用EdgeConv作为特征传播的基本模块，它通过选择邻域图特征空间中的 K 个最近邻点来进行特征的传播，对于每个下采样和上采样操作，利用到了Pointatrousgraph中的 Edge-preserved Pooling 和 Edge-preserved Unpooling模块；利用了边缘感知特征扩展模块根据所需的最终分辨率来扩展点的特征。