CN117078518A

CN117078518A - 一种基于多模态迭代融合的三维点云超分方法

Info

Publication number: CN117078518A
Application number: CN202311154465.8A
Authority: CN
Inventors: 王琴; 张驰; 王普正; 李剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-11-17

Abstract

本发明属于三维点云超分领域，公开了基于多模态迭代融合的三维点云超分方法，主要包括以下步骤：采用Unet特征提取模块对低分点云和K次触觉点云分别进行特征提取，将低分点云特征和K次触觉特征再进行迭代融合，经过K次迭代融合后的特征与原有低分点云一起送入Transformer编码器模块，经过特征重排操作和坐标重建得到高分点云；迭代融合包括，首次迭代融合时输入为低分点云特征和首次触觉特征，第k+1次迭代的输入为k次迭代融合的特征加上第k次触觉特征。本发明有效提高了多次触觉信息对低分点云超分任务的辅助作用，提高了高分辨率点云的质量，并且在实验中观察不同迭代次数的效果，得到迭代次数最优值K。

Description

一种基于多模态迭代融合的三维点云超分方法

技术领域

本发明属于三维点云超分领域，具体涉及一种基于多模态迭代融合的三维点云超分方法。

背景技术

随着三维扫描仪以及三维点云采集技术的飞速发展，三维点云在计算机视觉、机器人导引、工业设计等方面的应用越来越广泛，只要点云足够密集，就能够构建出足够精确的模型以满足各种任务的需求。但是由于传感器分辨率、扫描时间、扫描条件等限制，采集到的点云往往是比较稀疏的。现有的点云上采样方法只是针对单一的低分辨率点云进行处理，对过于稀疏的点云进行较大倍率的上采样时结果较差，并且没有使用其他模态的信息进行辅助。

传统的点云超分辨率算法需要很强的先验形状信息。经典的移动最小二乘算法对于点云的表面形状有很强的先验假设，此外由于点云的复杂性，无序性，经典算法在域迁移和鲁棒性方面表现很差。随着深度学习在二维图像超分辨率领域的成功应用以及首次使用深度学习网络处理点云数据PointNet的提出，研究者开始专注于构建深度学习网络完成点云超分辨率任务。PU-net是首次基于深度学习的点云上采样网络，成为点云超分深度学习的开山之作，后续的诸多方法都是在此方法上发展而来。受生成对抗网络GAN网络的启发，PU-GAN首次使用生成对抗网络处理点云数据超分辨率的工作。依靠生成器对输入的点云进行上采样并输出，鉴别器对输出进行辨别并输出置信度。PU-GCN是首次引入使用GCN网络的上采样模块，GCN使上采样器能够对点邻域的空间信息进行编码，并从特征空间中学习新的点，而不是简单地复制原始点或者复制不同变换后的点。PU-Transformer首次在点云超分辨率网络中引入Transformer模块，使用位置融合模块来捕捉点云数据的局部上下文信息，可以提供更多低分辨率点的位置相关信息。

除了传统的激光雷达等三维扫描仪可以得到三维模型，触觉是感知三维形状的另一种方式，大多数触觉传感器可以测量小接触面积上的力分布或几何形状。结合每次触摸中传感器的位置和姿态，可以辅助重建物体的形状。然而，触觉感知受到传感器大小和规模的限制，每次触摸只获得局部区域的信息，因此可能需要多次触摸和很长时间才能重建物体的完整形状。随着触觉传感器的发展，常见的触觉传感器如Gelsight、DIGIT可以通过触摸得到接触表面的局部几何形状，这些高分辨率的局部几何信息由于其精确性，常被应用于三维重建任务中。一种结合视觉信息和触觉信息重建三维模型的新范式逐渐引起注意，通过视觉信息和触觉信息，以及从大规模数据集中学习的常见物体形状的先验知识，从而准确预测3D物体形状。然而，触觉信息与其他模态信息的融合很大程度上还没有被探索。

因此，在三维点云超分领域，目前需要探索一种融合多模态信息的深度学习网络，利用精确的局部信息，提升点云超分效果。

发明内容

本发明要解决的技术问题是将触觉信息与其他模态信息的进行融合，提升点云效果。

本发明提供了一种基于多模态迭代融合的三维点云超分方法，包括如下步骤：

步骤1，构建点云超分数据集3DVT；

所述点云超分数据集3DVT包括高分辨率点云、低分点云、以及多次触觉点云；

步骤2，构建超分网络；

所述超分网络用于将输入的低分点云和多次触觉点云融合后输出高分辨率点云；

步骤3，对点云超分数据集3DVT中的所述低分点云和K次触觉点云进行预处理后，输入到所述超分网络中，对超分网络进行训练，其中K大于等于1；所述K次触觉点云是从点云超分数据集3DVT的多次触觉点云中选取了K次触觉点云，用于训练超分网络。

步骤4，将待融合的K次触觉点云和低分点云送入训练好的超分网络中，得到高分辨率点云

进一步的，所述超分网络包括特征提取模块、特征融合模块、特征扩展模块以及坐标重建模块；所述提取模块包括触觉点云特征提取模块和低分点云特征提取模块；

低分点云和K次触觉点云分别输入低分点云特征提取模块和触觉点云特征提取模块，对特征点云进行特征提取，得到低分点云特征和触觉点云特征；将所述低分点云特征和所述触觉点云特征输入到特征融合模块进行特征融合，得到融合后的特征，再输入到特征扩展模块，将扩展后的特征输入到坐标重建模块进行重建，得到高分辨率点云。

进一步的，所述特征提取模块采用编码器-解码器结构，编码器与解码器之间采用跳跃连接；触觉点云特征提取模块和低分点云特征提取模块结构相同，通道数不同。

进一步的，所述K次触觉点云输入触觉点云特征提取模块，对特征点云进行特征提取，具体为，将每一次的触觉点云分别输入到所述触觉点云特征提取模块，得到K个触觉点云特征，分别记为第k个触觉点云特征，其中，1≤k≤K，步骤如下：

第k次触觉点云经过两层卷积操作后得到触觉点云第一中间特征，最大池化层对所述触觉点云第一中间特征下采样，再经过两层卷积操作后得到触觉点云第二中间特征，最大池化层对所述触觉点云第二中间特征下采样，经过两层卷积操作，再经过反卷积层操作后，与所述触觉点云第二中间特征做拼接，然后送入两层级联的卷积层，再通过反卷积层后，与所述触觉点云第一中间特征做拼接，送入两层级联的卷积层，最后得到第k个触觉点云特征；。

进一步的，将所述低分点云特征和所述触觉点云特征输入到特征融合模块进行特征融合，得到融合后的特征，具体步骤如下：

当K＝1时；

所述低分点云特征和第一个触觉点云特征拼接后，依次送到卷积层、最大池化层，将所述最大池化层的输出特征与所述低分点云特征再次拼接并进行反卷积操作，最后得第一次融合后的点云特征；

当K>1时，还包括如下步骤：

将k次融合后的特征和第k-1个触觉点云特征作为输入，进行特征拼接后依次经过卷积层、最大池化层后，再与原低分点云特征进行拼接，再经过反卷积层得到第k次融合后的特征，不断循环，直到得到第K次融合后的特征，所述第K次融合后的特征为特征提取模块输出的融合后的特征。

进一步的，特征扩展模块由多层级联的Transformer编码器构成，用于对第K次融合后的点云特征提取高维度的特征，作为扩展后的特征输入到坐标重建模块；坐标重建模块中首先对扩展后的特征进行重排操作，得到重排后的特征，然后通过多层感知机制将所述重排后的特征映射回三维坐标空间，得到高分辨率点云。

进一步的，对所述超分网络进行训练的过程中，采用倒角距离CD作为损失函数最小化低分点云与高分点云之间的距离，如下式所示：

其中P代表超分网络预测的高分辨率点云，Q代表真实高分辨率点云，p∈P代表预测点云中的点，q∈Q代表数据集3DVT中高分辨率点云中的点，式中第一项表示P中任意一点p到Q的最小距离之和，第二项表示Q中任意一点q到P的最小距离之和。

进一步的，步骤3中对点云超分数据集3DVT中的所述低分点云和所述K次触觉点云进行预处理，具体为，对所述触觉点云与所述低分点云进行归一化，以及数据增强处理。

进一步的，所述数据增强处理包括对归一化后的所述触觉点云与所述低分点云进行旋转、缩放和随机扰动操作。

进一步的，K为最优触摸次数，通过迭代，在实验中观察触摸次数取不同值时，点云的超分效果，以得到当前数据集中的最优值K。

有益效果：现有的三维点云超分方法有一定局限性，对过于稀疏的点云进行较大倍率的上采样时，容易出现空洞、异常点、分布不均匀等问题，这是因为低分点云过于稀疏时，自身携带的信息过少。而触觉点云具有密度大，精确等特点，但是覆盖面积小，只能获得局部区域信息，需要较多的触摸次数才能得到物体的全部信息。本发明充分利用触觉点云的优点辅助低分点云超分任务，将低分点云特征与触觉点云特征进行融合，使得点云特征中包含了更多的局部信息，改善了输出的高分点云的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是特征提取模块结构图；

图2是特征融合模块结构图；

图3是整体网络框架图；

图4是可视化结果比较图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

步骤1，以在Pybullet仿真模拟环境中通过机械手与DIGIT传感器构建的三维重建点云数据集为基础，重新构建含有多次触觉信息的点云超分数据集3DVT。

所述三维重建点云数据集包括真实高分辨率点云和多次触觉点云。

所述点云超分数据集3DVT包括高分辨率点云、低分点云、以及多次触觉点云。所述高分辨率点云和低分点云均是对真实高分辨率点云下采样得到。

所述点云超分数据集3DVT中共有12732个样本，包括简单和复杂的物体，以验证模型的泛化能力，取其中90％作为训练集，10％作为测试集。

步骤2，构建超分网络；所述超分网络用于将输入的低分点云和K次触觉点云融合后输出高分辨率点云；

超分网络包括特征提取模块、特征融合模块、特征扩展模块以及坐标重建模块，特征提取模块包括触觉点云特征提取模块和低分点云特征提取模块。

步骤3，对触觉点云与低分点云进行归一化，以及数据增强，所述数据增强是指对归一化后的触觉点云与低分点云进行旋转、缩放、随机扰动等操作，通过对有限数据的变换和处理，使模型可以在更丰富的训练条件下习得更好的函数表达，从而表现出更好的性能。

步骤4，使用含有多次触觉信息的点云超分数据集3DVT训练超分网络，将低分点云(512个点)与触觉点云(512个点)输入到超分网络中，得到高分辨率点云(8192个点)。

步骤4.1，使用低分特征提取模块和触觉点云特征提取模块分别对低分点云和K次触觉点云进行初步特征提取，得到低分点云特征和触觉点云特征；

借鉴Unet的思想，特征提取模块采用编码器-解码器结构，编码器与解码器之间采用跳跃连接，编码器部分由卷积层、最大池化层等构成，解码器加入了反卷积层和跳跃连接。

图1为触觉点云特征提取模块，输入为触觉点云(512,3),经过两层卷积操作后得到512×16的第一中间特征，最大池化层将其下采样到256×16，再经过两层卷积操作后得到256×32的第二中间特征，最大池化层将其下采样到128×32，再经过两层卷积操作后，得到128×64的特征，通过反卷积层维度变为256×64。采用跳跃连接操作，与之前得到的256×32的第二中间特征做拼接，然后送入两层级联的卷积层，再通过反卷积层维度变为512×32，与512×16的第一中间特征做拼接，送入两层级联的卷积层，最后得到输出特征(512,4)。

低分点云特征提取模块与触觉点云特征提取模块基本相同，不同点在于低分点云特征提取输出特征通道数为16，触觉点云特征提取输出特征通道数为4，两者之间比例为4:1。

在特征提取模块，输入为低分点云(512个点)得到低分点云特征和触觉点云特征512×16,输入触觉点云(N×512个点)，得到触觉点云特征N×512×4。

步骤4.2，低分点云特征和K次触觉特征送入特征融合模块进行迭代融合得到整体特征。

如图2所示，特征融合模块,采用级联的方式，包括拼接层、卷积层、最大池化层、反卷积层，多次触觉特征的融合采用循环迭代的方式。

首次融合触觉特征时，先将低分点云特征(512×16)和第一次触觉点云特征(512×4)拼接，然后依次送到卷积层、最大池化层。为了更好地保留原有低分点云特征，将处理后的特征与原低分点云特征再次拼接并进行反卷积操作，最后得第一次融合后的点云特征(512×16)。

加入多次触觉时，采用循环迭代的方式，在进行第k+1次特征融合时，将k第k次融合后的特征和第k次触觉点云特征作为输入，进行特征拼接后依次经过卷积层、最大池化层后，再与原低分点云特征进行拼接，再经过反卷积层得到第k次融合后的特征。进行上述循环，直到得到第K次融合后的特征。

第K次迭代融合后的点云特征维度为512×16。其中k取值为(1、2…K)，K为最优触摸次数，通过迭代，在实验中观察触摸次数取不同值时，点云的超分效果，以得到当前数据集中的最优值K。

步骤4.3，特征扩展模块由5层级联的Transformer编码器构成，用于对第K次迭代融合后的点云特征提取到高维度的特征，作为扩展后的特征输入到坐标重建模块；坐标重建模块中首先对扩展后的特征进行重排操作，然后通过多层感知机制将其映射回三维坐标空间，从而得到高分辨率点云。

在训练中采用倒角距离CD作为损失函数最小化低分点云与真实高分点云之间的距离，倒角距离CD定义如公式(1)所示，其中P代表网络预测的高分辨率点云，Q代表高分辨率点云，p∈P代表预测点云中的点，q∈Q代表高分辨率点云中的点。第一项表示P中任意一点p到Q的最小距离之和，第二项表示Q中任意一点q到P的最小距离之和。倒角距离越大说明P、Q两组点云差异越大，倒角距离越小，说明预测点云与真实点云越接近，预测结果越好。

模型采用Pytorch深度学习框架，并对点云进行了归一化，增强(旋转，缩放，随机扰动)等预处理操作。使用Adam算法进行优化，学习率为0.001，上采样倍率为16，Batchsize为36，在NVIDIARTX A6000上训练300个epoch。

步骤5，将待融合的K次触觉点云和低分点云送入训练好的超分网络中，得到高分辨率点云。

表1不同触摸次数下测试结果

表1为上采样率r＝16时不同触摸次数下的实验结果比较。输入低分辨率点云由512个点组成，每个触觉点云由512个点组成，输出高分辨率点云由8192个点组成。使用的评估指标是倒角距离CD。从表1中可以看出，使用触觉信息辅助比不使用触觉信息得到的倒角距离更小，测试结果更好。此外，在使用四次触摸信息之前，CD随着触摸次数的增加而减少。随着触摸次数的增加，CD的下降速率逐渐变缓。当使用五次触摸信息时，CD增加了，这可能是由于当触觉次数过高时，触觉信息对整体特征的影响过大。这结果表明了触觉信息对视觉超分的辅助效果存在一个上限。综上所述，结合触觉信息可以显著提高上采样性能且在本数据集中触摸次数的最优取值为4次。

为了更加直观地表示加入触觉信息后，高分辨率点云的区别，使用训练好的模型在测试集上进行了定性分析以及可视化展示。如图4所示，选取了三个物体模型进行可视化并且对局部进行了放大观察，从左到右三列依次为关节、拱门和灯柱，图4中的(a)是高分辨率点云GT(8192个点)，图4中的(b)中是网络的输入低分辨率点云(512个点)，块状区域是密集的触觉点云，每个触觉点云同样包含512个点。图4中的(c)中是不加入触觉信息的上采样结果(8192个点)，图4中的(d)中加入四次触摸信息的上采样结果(8192个点)。比较结合触觉信息和不结合触觉信息的情况下产生的高分辨率点云，可以看到图4中的(c)中不添加触觉信息的方法往往会引入过多的噪声(如图4中的(c)中的关节点云的局部放大图所示)，以非均匀分布将点聚在一起(如图4中的(c)中的拱门点云的局部放大图所示)，或者破坏结果中的一些微小结构(如图4中的(c)中的灯柱点云的局部放大图所示)。相比之下，结合触觉信息的方法产生的视觉结果与真实点云最相似，并且可以很好地保留均匀分布的微小局部结构。由此可以得出，加入触觉信息后，不仅会影响到点云上采样时的局部效果，而且触觉信息还会作为全局信息的一部分对上采样结果产生影响，得到的高分辨率点云从视觉效果上来看更加均匀，局部异常点更少。

为了评估此框架中主要组件的有效性，对特征提取块和特征融合块进行了消融研究。所有模型都在数据集3DVT上进行训练和评估。表2中的结果表明了特征提取模块和融合模块在整合触觉信息时的有效性。第一行为去除了特征提取和特征融合模块，直接拼接触觉点云的实验结果，可以看到上采样质量的下降。这是由于密集的局部信息对点云整体结构的破坏，不包含触觉信息的点云性能优于包含触觉信息的点云。第二行为去除特征融合模块，直接将低分点云特征与触觉特征拼接的实验结果，第三行是完整网络框架的实验结果。表中证明在不同数量的触摸次数中完整的网络框架始终以最低的CD值实现最佳性能。然而删除任何组件都会导致整体性能的降低，这意味着框架中的每个组件都有所贡献。

表2消融实验结果

Claims

1.一种基于多模态迭代融合的三维点云超分方法，其特征在于，包括如下步骤:

步骤1，构建点云超分数据集3DVT；

步骤2，构建超分网络；

步骤3，对点云超分数据集3DVT中的所述低分点云和K次触觉点云进行预处理后，输入到所述超分网络中，对超分网络进行训练，其中K大于等于1；

步骤4，将待融合的K次触觉点云和低分点云送入训练好的超分网络中，得到高分辨率点云。

2.根据权利要求1所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，所述超分网络包括特征提取模块、特征融合模块、特征扩展模块以及坐标重建模块；

所述提取模块包括触觉点云特征提取模块和低分点云特征提取模块；

3.根据权利要求2所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，所述特征提取模块采用编码器-解码器结构，编码器与解码器之间采用跳跃连接；

触觉点云特征提取模块和低分点云特征提取模块结构相同，通道数不同。

4.根据权利要求2所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，所述K次触觉点云输入触觉点云特征提取模块，对特征点云进行特征提取，具体为，将每一次的触觉点云分别输入到所述触觉点云特征提取模块，得到K个触觉点云特征，分别记为第k个触觉点云特征，其中，1≤k≤K，步骤如下：

第k次触觉点云经过两层卷积操作后得到触觉点云第一中间特征，最大池化层对所述触觉点云第一中间特征下采样，再经过两层卷积操作后得到触觉点云第二中间特征，最大池化层对所述触觉点云第二中间特征下采样，经过两层卷积操作，再经过反卷积层操作后，与所述触觉点云第二中间特征做拼接，然后送入两层级联的卷积层，再通过反卷积层后，与所述触觉点云第一中间特征做拼接，送入两层级联的卷积层，最后得到第k个触觉点云特征。

5.根据权利要求4所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，将所述低分点云特征和所述触觉点云特征输入到特征融合模块进行特征融合，得到融合后的特征，具体步骤如下：

当K＝1时；

当K>1时，还包括如下步骤：

6.根据权利要求5所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，特征扩展模块由多层级联的Transformer编码器构成，用于对第K次融合后的点云特征提取高维度的特征，作为扩展后的特征输入到坐标重建模块；坐标重建模块中首先对扩展后的特征进行重排操作，得到重排后的特征，然后通过多层感知机制将所述重排后的特征映射回三维坐标空间，得到高分辨率点云。

7.根据权利要求1所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，对所述超分网络进行训练的过程中，采用倒角距离CD作为损失函数最小化低分点云与高分点云之间的距离，如下式所示：

8.根据权利要求1所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，步骤3中对点云超分数据集3DVT中的所述低分点云和所述K次触觉点云进行预处理，具体为，对所述触觉点云与所述低分点云进行归一化，以及数据增强处理。

9.根据权利要求1所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，所述数据增强处理包括对归一化后的所述触觉点云与所述低分点云进行旋转、缩放和随机扰动操作。

10.根据权利要求1所述一种基于多模态迭代融合的三维点云超分方法，其特征在于，K为最优触摸次数；通过迭代，在实验中观察触摸次数取不同值时，点云的超分效果，以得到最优触摸次数K。