CN113205466A

CN113205466A - 一种基于隐空间拓扑结构约束的残缺点云补全方法

Info

Publication number: CN113205466A
Application number: CN202110506116.2A
Authority: CN
Inventors: 彭聪; 朱一凡; 王雁刚
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-08-03
Anticipated expiration: 2041-05-10
Also published as: CN113205466B

Abstract

本发明公开一种基于隐空间拓扑结构约束的残缺点云补全方法，属于计算机视觉技术领域。基于单视角残缺点云的三维形状补全技术，对深度图转换得到的单视角残缺点云进行补全，获得对象的完整三维点云形状，实现感知对象几何信息的快速重构。S1、采集目标对象的三维空间坐标；S2、对系统输入的原始残缺点云进行点云姿态规范化；S3、基于姿态规范化残缺点云预测其对应的完整关键点骨架；S4、基于预测的完整关键点骨架，恢复其对应的稠密完整点云；S5、基于完整三维点云进行机器人感知任务优化。本发明可以针对任意位姿的真实三维点云进行形状补全，具有更强的泛化性和鲁棒性，应用范围广、速度快且抗噪声能力强。

Description

一种基于隐空间拓扑结构约束的残缺点云补全方法

技术领域

本发明涉及一种基于隐空间拓扑结构约束的残缺点云补全方法，属于计算机视觉技术领域。

背景技术

作为现代计算机、自动控制、机械制造等技术的应用综合体，机器人具有极高的自主决策和执行能力，可以代替人类完成很多复杂任务。机器人技术中的感知环节是机器人实现环境交互的重要接口，机器人通过感知手段与环境进行信息交互，获取各种环境对象信息以协助操控者进行决策。随着近年来计算机视觉技术的发展，基于计算机视觉的机器人感知技术得到了广泛运用，机器人通过视觉传感器采集对象的三维立体信息进而实现分析感知。但是在实际信息采集过程中，由于遮挡、环境噪声、设备误差等因素的影响，直接采集得到的三维信息(本发明使用三维点云作为三维信息表征形式)往往是残缺的，存在信息损失，因此无法对对象的完整几何形状进行描述和表征，这就给后续任务中基于对象完整三维模型的感知理解和行动规划造成了一定的困难。所以有必要发明一种残缺点云补全技术对直接采集的残缺点云进行修复，从而获得感知对象完整的三维立体信息，进一步优化后续任务。

发明内容

本发明针对以上问题，提出了一种基于隐空间拓扑结构约束的残缺点云补全方法，基于单视角残缺点云的三维形状补全技术，对深度图转换得到的单视角残缺点云进行补全，获得对象的完整三维点云形状，实现感知对象几何信息的快速重构。

本发明的技术方案为：按以下步骤进行处理：

S1、通过便携式深度相机拍摄目标对象的单视角深度图像，并根据已知的相机内参数将单视角深度图转换为三维空间坐标，并进行位置规范化预处理，得到原始残缺点云数据；

S2、对系统输入的原始残缺点云进行位姿估计，并根据所预测位姿进行点云姿态规范化，得到姿态规范化残缺点云；

S3、基于姿态规范化残缺点云预测其对应的完整关键点骨架；

S4、基于预测的完整关键点骨架，使用上采样网络恢复其对应的稠密完整点云，即完整三维点云；

S5、基于完整三维点云进行机器人感知任务优化。

步骤S1具体为：

S1.1、使用Kinect二代深度相机拍摄目标对象的深度图片，利用图像分割获取对象实际对应的深度图像区域，并根据相机内参数与针孔相机模型将对象的深度图像转换为原始残缺点云数据；

S1.2、针对步骤S1.1获取的原始残缺点云数据，将根据当前的坐标范围通过平移和缩放将其变换到到半径为1的单位球体中，实现位置规范化。

步骤S2具体为：

S2.1、构建相对位姿特征向量，该位姿向量由旋转轴角、偏移量和缩放因子联合构成，根据罗德里格斯公式可根据位姿向量对点云进行三维仿射变换，变换计算过程如下：

R＝I+sinθ*K+(1-cosθ)*K²

P'＝R*(s*P)+t

其中R为根据罗德里格斯公式计算得到的旋转矩阵，(k_x,k_y,k_z)是单位转轴向量，K是由转轴向量构建的矩阵，θ为旋转角度；P为输入的非对齐点云，P’为经过变换后的对齐点云，s和t为缩放因子和偏移量；

S2.2、基于步骤S2.1构建的相对位姿特征向量，借助虚拟三维形状数据集ShapeNet构建训练数据集，对所有点云数据施加已知的位姿变换向量，形成点云-位姿向量数据对用于训练；

S2.3、构建位姿预测网络，主要由多层感知器A与全连接网络B组成，并利用步骤S2.2构建的数据集进行网络训练和测试，获取最优的网络训练模型；

S2.4、将原始残缺点云输入训练好的网络模型预测位姿，并根据步骤S2.1将位姿转换为三维仿射变换矩阵进一步施加于点云上，将其变换至归一化形状空间。

步骤S3具体为：

S3.1、利用已有完整点云数据训练关键点提取网络，即实现由稠密完整三维点云到稀疏关键点骨架的映射，Chamfer距离作为深度神经网络的损失函数来监督该训练过程，该指标衡量了两个无序点集之间的相似程度，具体计算方法如下：

其中，P1是输入完整稠密点云，P2是预测得到的关键点骨架点云；

S3.2、构建残缺点云关键点补全网络，该网络主要由多层感知器C和全连接层网络D构成，将残缺三维点云输入网络，估计其对应潜在关键点骨架的点云坐标，其训练方法与步骤S3.1类似，使用预测关键点和真值关键点间的Chamfer距离作为网络训练约束。

步骤S4具体为：

S4.1、在S3.1构建的关键点提取网络后增加关键点上采样网络，将提取得到的关键点骨架进一步恢复得到其对应的稠密完整点云，该训练过程将预测点云与真值稠密点云之间的Chamfer距离作为训练约束；

S4.2、基于步骤S4.1预训练好的上采样网络，将残缺点云预测到的关键点骨架进行上采样，恢复出其对应的潜在完整稠密点云；

S4.3、为保证输入残缺点云中的细节结构信息不会在网络学习过程中丢失，最后采用最远点采样技术将输入的残缺点云和预测的完整点云进行混合采样，最终得到残缺点云的补全结果。

在一种应用情况下，步骤S5具体为：基于该完整三维点云模型，机器人可以进行更加准确的目标检测任务，即基于三维点云进行目标检测，并与传统基于二维图片的检测方法相融合，实现基于多模态数据的目标检测，优化检测性能。

在另一种应用情况下，步骤S5具体为：基于完整三维点云模型，可以优化机器人感知中的目标抓取任务，即基于完整的三维空间信息，机器人控制系统可以更加准确地计算抓取位置。

本发明着眼于机器人感知的对象建模环节，即获取感知对象的立体三维形状信息，拟进行基于单幅深度图像的三维点云补全。在单视角深度图像采样条件下，感知对象存在自遮挡这一本质问题，机器人很难在复杂环境下快速获取感知对象的完整三维信息，所以目前基于三维的环境感知技术并没有取得理想的效果。针对视觉感知环节中立体信息缺失、采样范围有限、精度要求较高等问题，本发明提出基于单视角残缺点云的三维形状补全技术，对深度转换得到的单视角残缺点云进行补全，获得对象的完整三维点云形状，实现感知对象几何信息的快速重构。

基于已有的完整稠密点云数据，本发明拟首先训练一个点云下采样-上采样自编码器，稠密点云经过全连接网络下采样得到稀疏关键点骨架，该关键点骨架再经过上采样恢复为稠密完整点云，这么做的原因是摆脱网络训练对真值三维点骨架的依赖，并构建出一种可解释的隐空间拓扑结构特征编码。接着，残缺点云在其对应的拓扑结构特征编码监督下生成其对应潜在完整形状的关键点骨架，预测得到的骨架送入之前预训练好的上采样模块恢复得到稠密点云。为保证输入残缺点云中的细节结构信息不会在网络学习的过程中丢失或被破坏，最后还将利用最远点采样技术将输入点云和网络预测点云进行混合采样，得到目标点云的完整稠密点云作为补全最终结果。

本发明可以针对任意位姿的真实三维点云进行结构补全，具有更强的泛化性和鲁棒性，应用范围广、速度快且抗噪声能力强。

附图说明

图1为完整与残缺点云示意图；

图2为基于隐空间拓扑结构约束的残缺点云补全方法流程图；

图3为迭代位姿估计网络结构示意图；

图4为基于PointNet网络结构的编码器-解码器网络结构示意图；

图5为关键骨架提取网络结构示意图；

图6为残缺点云补全网络结构示意图。

具体实施方式

为能清楚说明本专利的技术特点，下面通过具体实施方式，并结合其附图，对本专利进行详细阐述。

本发明将首先基于级联式深度神经网络，以及海量人工构造的三维点云数据集，对输入的原始残缺三维点云进行姿态规范化，然后再根据规范化残缺点云预测其对应的潜在稀疏关键点骨架，最后基于稀疏关键点骨架经过上采样恢复得到完整稠密三维点云。

三维点云数据复杂度高，具有排列无序性和旋转不变性的特点，基于几何关系优化的补全方法很难对未知结构的物体进行良好的补全，故本发明拟采用数据驱动基于深度学习的方法完成部分三维点云补全任务，完整和残缺三维点云如图1所示。同时，三维点云的几何拓扑结构具有多样性，拟通过关键点骨架提技术从复杂三维点云中提取得到关键点骨架作为形状的最简几何结构表达，在关键点骨架层面上先进行形状补全，再利用点云重建技术由关键点骨架恢复得到稠密完整三维点云。另外针对实际场景中出现的目标点云位姿随机性问题，拟提出迭代位姿预测技术进行位姿规范化。具体采用的技术路线如图2所示。

具体实现步骤如下：

S1、通过便携式深度相机拍摄目标对象的单视角深度图像，并根据已知的相机内参数将单视角深度图转换为三维空间坐标，并进行位置规范化预处理，得到原始残缺点云数据。

步骤S1具体为：

S1.1、本发明拟使用Kinect二代深度相机拍摄目标对象的深度图片，利用已有的图像分割技术获取对象实际对应的深度图像区域，并根据已有的相机内参数与针孔相机模型将对象的深度图像转换为原始残缺点云数据；

S1.2、针对获取的原始残缺点云数据，将根据当前的坐标范围通过平移和缩放将其变换到到半径为1的单位球体中，实现位置规范化。

S2、对系统输入的任意非对齐点云(即原始残缺点云数据)进行位姿估计，并根据所预测位姿进行点云姿态规范化，得到姿态规范化残缺点云。

针对实际场景下，感知对象目点云位姿具有任意性，需要预先对点云位姿进行估计，估计得到的位姿信息用来对输入点云进行位姿修正，将点云变换到统一的姿态、尺度空间下，便于结合归一化的虚拟训练数据进行后续网络的训练和测试，拟提出的目标点云位姿估计网络框架如图3所示。

步骤S2具体为：

S2.1、构建相对位姿特征向量，该位姿向量以旋转轴角、平移量和缩放因子形式构成，根据该位姿向量可对点云进行相应的三维仿射变换。

具体来说：对原始残缺点云数据施加任意的仿射变换，仿射变换变换通过三个变换参数来表征，分别是旋转轴角a(三维向量)，偏移量t(三维向量)，缩放因子s(一维向量)，点云的三维仿射变换过程可描述为：

P'＝R*(s*P)+t

其中P是输入非对齐点云，P’是经过变换后的对齐点云；R为旋转矩阵，可以基于旋转轴角a，由罗德里格斯公式和计算得到，计算过程如下：

R＝I+sinθ*K+(1-cosθ)*K²

其中(k_x,k_y,k_z)是单位转轴向量，K是由转轴向量构建的矩阵，θ为旋转的角度；

S2.2、基于步骤S2.1构建的相对位姿特征向量，借助虚拟三维点云数据构建训练数据，对所有点云数据施加已知的位姿变换向量，形成点云-位姿向量数据对用于训练。由于实际场景下位姿训练数据的获取难度较大，数据精度不高，且可采集的数据变化范围较小，难以训练得到强泛化能力的神经网络。本方法拟利用虚拟数据集进行训练，数据的获取难度更小，同时可以通过人工给定真值位姿的方式来生成训练数据，使得训练数据的精度更高。拟使用的虚拟数据集为ShapeNet数据集，ShapeNet是一个注释丰富且规模较大的3D形状数据集，被用于协助计算机图形学、计算机视觉、机器人学以及其他相关学科的研究工作，ShapeNet中有55类，共51300个物体的虚拟3D模型，为本方法提供了充足的训练和测试数据样本，数据集的来源为Chang,A.X.,Funkhouser,T.,Guibas,L.,Hanrahan,P.,Huang,Q.,Li,Z.,...&Xiao,J.(2015).Shapenet:An information-rich 3d modelrepository.arXiv preprint arXiv:1512.03012.。ShapeNet中所有点云模型的坐标都已经被规范化到了半径为1的单位球体中，且模型的主轴均进行了预对齐，因此可以认为训练集中的所有原始数据均处在一个统一的尺度、姿态形状空间中；

具体来说：将经过变换后的三维点云送入由一维卷积层实现的多层感知器A，提取得到描述整个点云信息的全局特征向量，再将该特征向量送入全连接层B进行维度变换，最终得到预测的位姿向量，该向量一共有七维，第一维表示缩放因子s，第二维到第四维表示旋转轴角，第五维到第七维表示偏移量。

计算预测得到的位姿向量与真值位姿向量之间的均方误差作为网络的损失函数值，计算过程如下：

L_Pose＝||a-a^*||₂+α*||t-t^*||₂+β*||s-s^*||₂

α、β为超参数，用以平衡三种损失值，‖*‖₂表示计算向量*的二范数。

因为位姿的估计很难通过一次网络前向传播就预测到精确的结果，所以我们借鉴迭代最近点算法中迭代估计的思想，采用级联神经网络结构，迭代多次对位姿进行估计，每次估计的位姿是基于上次估计位姿变换下的点云，整个训练过程使用Adam优化方法(是现有技术中一种常用的深度神经网络有化训练算法)对网络参数进行更新计算；最终得到可进行点云相对位姿预测的网络模型。

S3、基于姿态规范化残缺点云预测其对应的完整关键点骨架。

目前深度传感器所采集的点云数据存在较大噪声，直接基于源数据进行点云补全的结果并不理想。本发明拟提出一种基于无监督学习的三维关键点骨架提取方法。首先从稠密三维点云提取稀疏三维点云骨架，作为点云最简几何表征，进而基于最简几何表征完成点云补全。该方法大幅降低噪声干扰，进而提升系统鲁棒性。同时采用无监督学习方法进行关键点提取，从而规避人工数据标注的繁重工作量，并且优化网络学习效率和泛化能力。

关键点骨架可以视为三维点云形状的最简表征形式，可以在后续的补全过程中为残缺点云的结构补全提供几何结构信息的监督。关键点骨架提取网络的设计灵感来源于PointNet网络，其网络结构如图4所示。

步骤S3具体为：

S3.1、利用已有完整点云数据训练关键点提取网络，即实现由稠密完整三维点云到稀疏关键点骨架的映射，Chamfer距离作为深度神经网络的损失函数来监督该训练过程，该指标衡量了两个无序点集之间的相似程度；

具体来说：先将步骤S2.4得到的三维点云送入多层感知器B，提取得到逐点的特征向量，再经过最大值池化层筛选得到全局特征向量，再将全局特征向量送入全连接层进行维度变换，在最后一层全连接层输出上，将一维向量修改形状得到n*3格式的二维向量，以表征关键点坐标，n代表关键点数量，拟设为32；关键点预测的网络结构如图5所示。

预测得到的关键点骨架也以三维点云数据的形式表示，这样就有了输入完整稠密点云P1，关键点点云集P2，接下来使用Chamfer距离计算两个点云集合的相似程度，作为网络的损失函数值。Chamfer距离为现有技术，最早应用在以下文章中：Fan H,Su H,Guibas LJ.A point set generation network for 3d object reconstruction from a singleimage[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:605-613；Chamfer距离的计算遍历目标集合中的每一个元素，搜索每个元素在另一个集合中的最近邻元素，然后计算两个元素间的欧式距离，作为该元素与另一个集合的距离，并在另一个集合中重复完全相同的操作，用所有元素距离求和并取平均值得到的计算结果来衡量两个集合间的相似程度，具体计算过程如下：

其中，P1是输入完整稠密点云，P2是预测得到的关键点骨架点云；基于该约束最终可以训练获得点云关键点骨架提取网络，可从完整稠密点云中提取出稀疏点云构成关键点骨架。

S4、基于预测的完整关键点骨架，使用上采样网络恢复其对应的稠密完整点云，即完整三维点云。

由于信息的不对称性，残缺点云补全问题实质上是一个欠信息的病态问题，即无法获得足够的信息来保证补全预测的准确性，因此直接使用神经网络学习由残缺点云到完整点云的映射难度较大，且效果欠佳。为降低神经网络进行点云补全的难度，本发明拟提出基于拓扑结构约束的形状补全方法，拓扑约束由点云提取得到的完整关键点骨架提供，在特征隐空间中对残缺点云补全进行监督，使得网络能够以最精简的方式学习三维形状的几何结构，从而实现高效的快速形状补全，具体流程方法如图6所示。

下采样网络即为步骤S3.2最终训练得到的关键点提取网络，上采样网络是将关键点骨架恢复成稠密完整点云，二者共同构成了自重建网络，分开来也可以作为独立的模块分别进行上采样和下采样，合在一起则是进行自重建任务。

步骤S4具体为：

S4.3、为保证输入残缺点云中的细节结构信息不会在网络学习的过程中丢失，最后根据最远点采样技术将输入的残缺点云和预测的完整点云进行采样，由此，得到残缺点云的补全结果。

具体来说：网络分为两个分支网络，两个分支的训练是分开进行的，部分点云分支网络的训练要依赖于预训练好的完整点云分支网络。

首先简述完整点云分支网络，该网络的输入是完整三维点云，也是部分点云补全的学习目标，整个补全网络的训练数据是以完整-部分点云形式成对出现的。完整点云被送入下采样网络，检测得到完整点云的关键点骨架，该关键点骨架可以视作是完整点云在特征隐空间的一种最简结构表征。

接下来将提取得到的关键点送入上采样网络，上采样网络的功能是将稀疏的关键点骨架点云，恢复得到完整的稠密点云；最后还将根据下采样网络中位姿预测模块预测得到的位姿信息，将统一形状空间中的点云转换回目标点云原本的姿态和尺度。点云重建所使用的损失函数依然为Chamfer距离，也可以考虑使用EMD距离作为损失函数，具体选择将视实际实验情况而定。

接下来介绍部分点云分支网络，该网络训练时将依赖于预训练好的完整点云分支，完整点云分支网络在该过程所有网络参数均保持不变。该分支的输入是部分点云，送入下采样网络，预测一个关键点骨架，但是其学习的目标是该部分点云对应完整点云经过下采样网络提取得到的完整关键点骨架，同样使用Chamfer距离进行关键点学习的约束。这样经过网络预测，输入残缺的部分点云，可以输出完整关键点骨架。

在推测阶段，取预训练好的完整点云分支上采样网络和部分点云分支的下采样网络进行串联，保持网络参数固定不变，位姿参数使用部分点云分支的预测值。部分点云经过下采样网络补全得到完整关键点骨架，完整关键点再进行上采样网络恢复得到稠密完整点云，从而完成由部分点云到完整点云的补全任务。

S5、基于完整三维点云进行机器人感知任务优化。

智能机器人可以在环境感知过程中可以通过深度相机传感器采集到环境中目标对象的残缺点云信息，并根据S2—>S3—>S4的流程恢复出对象的完整三维点云；

在另一种应用情况下，步骤S5具体为：基于完整三维点云模型，可以优化机器人感知中的目标抓取任务，即基于完整的三维空间信息，机器人控制系统可以更加准确地计算抓取位置。如果仅仅基于残缺点云进行抓取位置计算，很可能出现位置计算不准确，进而导致抓却失败，严重情况会造成抓取对象的损坏，带来较大损失。由此可见，引入残缺点云补全技术可对机器人感知环节的多项任务进行性能优化，提高任务的成功率。

本发明具体实施途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，按以下步骤进行处理：

S5、基于完整三维点云进行机器人感知任务优化。

2.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S1具体为：

3.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S2具体为：

S2.1、构建相对位姿特征向量，该位姿向量由旋转轴角、偏移量和缩放因子联合构成，根据罗德里格斯公式可根据位姿向量对点云进行为三维仿射变换，变换计算过程如下：

R＝I+sinθ*K+(1-cosθ)*K²

P′＝R*(s*P)+t

4.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S3具体为：

5.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S4具体为：

6.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S5具体为：基于该完整三维点云模型，机器人可以进行更加准确的目标检测任务，即基于三维点云进行目标检测，并与传统基于二维图片的检测方法相融合，实现基于多模态数据的目标检测，优化检测性能。

7.根据权利要求1所述的一种基于隐空间拓扑结构约束的残缺点云补全方法，其特征在于，步骤S5具体为：基于完整三维点云模型，可以优化机器人感知中的目标抓取任务，即基于完整的三维空间信息，机器人控制系统可以更加准确地对抓取位置进行计算。