CN117274764B

CN117274764B - 一种多模态特征融合的三维点云补全方法

Info

Publication number: CN117274764B
Application number: CN202311565238.4A
Authority: CN
Inventors: 王琴; 石键瀚; 王怀钰; 李剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-13
Anticipated expiration: 2043-11-22
Also published as: CN117274764A

Abstract

本发明属于三维点云补全领域，公开了一种多模态特征融合的三维点云补全方法，包括：构建用于多模态特征融合的三维点云补全网络，触觉融合主要在触觉特征融合模块与触觉辅助查询生成模块，触觉特征融合模块将不完整点云和触觉点云分别提取特征，并将触觉特征和不完整点云特征依次融合；触觉辅助查询生成模块使用触觉点云生成触觉查询，触觉查询拼接上全局查询得到查询嵌入，全局中心点和触觉中心点拼接得到查询点，查询嵌入与查询点送入Transformer解码器，通过交叉注意力充分利用触觉信息进行解码。本发明基于不完整点云特征和触觉点云特征融合的方法，充分利用了触觉信息，补充了缺失部分的几何细节，提高了点云补全的质量。

Description

一种多模态特征融合的三维点云补全方法

技术领域

本发明属于三维点云补全领域，具体的说是涉及一种多模态特征融合的三维点云补全方法。

背景技术

从不完整的点云中恢复完整的点云对于各种下游应用来说是必不可少的步骤。随着机器学习领域的发展和各种3D点云数据集的出现，使用机器学习的点云补全方法也越来越多。但基于机器学习的方法通常会丢失部分输入形状结构，因为它们需要对原始点云进行下采样和编码。因此，他们会用一些方法来弥补细节上的损失。例如FBNet使用基于反馈的点云补全网络，通过反馈连接重用输出信息来增强自身的特征学习。SoftPool++ 提出了一种新的卷积算子，用于学习编码器中的点云，通过特征激活的软池化从点云中提取排列不变的特征，并使其能够保留细粒度的几何细节。SnowflakeNet堆叠多个雪花反卷积模块以生成完整的形状，类似于点云上采样逐步恢复点云形状。VRCNet引入了一种新的变分相关性点云补全网络，并提出了一种关系增强网络来获取点与局部特征之间的结构关系。VRCNet提出了点自注意力核和点选择核模块作为关系增强网络的基本构建模块，使用不同核大小的多个分支来挖掘和融合多尺度的点特征。

虽然上述基于机器学习的点云补全方法引入了许多关注点云局部形状的方法，但在某些情况下，它们恢复的局部点云往往是离散的，因为缺乏精确的局部形状约束。

触觉传感器一直以来都有许多研究者在关注。基于视觉的触觉传感器是近年来的研究热点。基于视觉的触觉传感器将接触形变信号转换为图像，以获得更高的空间分辨率和对接触力更高的灵敏度。此外，基于视觉的触觉传感器可以通过摄像头捕捉接触面的变形，推断出与被检测物体接触相关的形状信息。由于触觉传感器触摸部位较小，要获取物体形状需要大量的触摸次数，所有仅仅使用触觉来实现物体形状重建在实际中难以实现。

综上所述，基于机器学习的点云补全方法尽管引入了许多关注点云局部形状的方法，但由于从已有的点云推断缺失部分的几何细节是非常困难的，缺乏精确的局部形状约束，它们恢复的缺失区域的局部点云往往是离散的；单纯的使用触觉点云恢复物体形状，需要大量的触觉数据，这会消耗大量的时间，重建效率十分低效。

因此，在点云补全领域，目前需要探索一种利用机器学习合理的将触觉点云特征融合到不完整点云特征中的方法，以此利用触觉信息弥补无法从部分点云推断缺失点云几何细节的问题，提高点云补全的效果。

发明内容

为了解决上述技术问题，本发明提供了一种多模态特征融合的三维点云补全方法，该三维点云补全方法通过将不完整点云特征和触觉点云特征进行融合，使用缺失部分的触觉信息可以很好的补充缺失部分的几何细节，弥补从已有的点云推断缺失部分的几何细节，提高了点云补全的质量。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种多模态特征融合的三维点云补全方法，该方法包括如下步骤：

步骤1、构建多模态特征融合的点云补全网络，所述多模态特征融合的点云补全网络包括触觉特征融合模块、Transformer编码器、触觉辅助查询生成模块、Transformer解码器和上采样模块；

步骤2、使用训练集训练步骤1构建的所述多模态特征融合的点云补全网络，将训练集数据导入点云补全网络，利用神经网络的正向、反向传播优化总体网络参数，通过基于倒角距离的损失函数约束网络训练，使多模态特征融合的点云补全网络拟合训练集数据，获取训练好的多模态特征融合的点云补全网络；

步骤3、将测试集数据输入步骤2中训练好的多模态特征融合的点云补全网络，实现不完整点云的重建，得到完整的点云。

本发明的进一步改进在于：在步骤1中，所述多模态特征融合的点云补全网络将触觉点云和不完整点云/>在所述触觉特征融合模块中分别提取不完整点云特征/>和触觉特征/>，进行触觉特征融合并使用多层感知机进行降维，实现第一步触觉点云融合，得到融合触觉后的点代理特征/>，输入到所述Transformer编码器进行编码，得到编码后的点代理特征X，然后将编码后的点代理特征X、触觉点云/>和部分不完整点云/>输入到触觉辅助查询生成模块得到已知部分点云的查询嵌入/>，实现第二步触觉融合，最后由Transformer解码器的交叉注意力解码出全局的查询特征，最后通过所述上采样模块重建完整点云。

本发明的进一步改进在于：步骤1中的所述触觉特征融合模块包含动态图边卷积（DGCNN）、卷积层、边缘卷积层和多层感知机（MLP），输入不完整点云和触觉点云/>，不完整点云/>通过一个动态图边卷积提取不完整点云的特征/>，触觉点云/>经过一层卷积和两层边缘卷积得到触觉特征/>，两层边缘卷积层逐层整合局部信息，在不完整点云特征/>与所述触觉特征/>之间采用递归特征融合策略，所述递归特征融合策略具体为：

对于一次触觉融合，触觉特征拼接不完整点云的特征/>，使用多层感知机来映射特征维度到C得到融合特征/>；

对于一次以上的触觉融合，拼接上一次以上触觉特征通过多层感知机再次映射到维度C，以形成输出/>，融合原理如下所示：

,

其中，是融合触觉后的点代理特征。

本发明的进一步改进在于：所述触觉特征和所述不完整点云特征/>维度不一样，触觉特征/>和不完整点云特征/>的特征比例决定了触觉特征融合模块对触觉特征的注意程度。

本发明的进一步改进在于：步骤1的所述触觉辅助查询生成模块包含查询生成模块和多层感知机，所述触觉辅助查询生成模块的输入包括不完整点云、Transformer编码器输出的点代理特征X和触觉点云/>，将不完整点云/>和Transformer编码器生成的点代理特征X输入到查询生成模块生成预测的全局中心点/>和对应查询特征/>，触觉点云/>使用最远点采样得到触觉中心点再经过多层感知机得到触觉查询特征/>，触觉查询特征/>拼接全局查询特征/>得到查询嵌入/>，触觉中心点拼接全局中心点得到查询点/>。

本发明的进一步改进在于：所述查询生成模块包括3个多层感知机，Transformer编码器输出的点代理特征X先经过第一个多层感知机进行升维，之后进行max Pooling获取全局特征，之后经过第二个多层感知机重建出缺失区域的中心点，然后对输入不完整点云/>进行最远点采样得到已知区域中心点，与预测区域中心点拼接得到全局中心点/>，最后将全局特征/>和全局中心点/>拼接，经过MLP后生成最后的全局查询特征/>：

。

本发明的进一步改进在于：在步骤2中，训练时使用的倒角距离损失函数表达为：

，

其中：表示输出点云/>与完整点云/>之间最近点的平均距离，用以优化多模态特征融合的点云补全网络的参数。

本发明的进一步改进在于：所述步骤2中通过基于倒角距离的损失函数约束网络训练，使多模态特征融合的点云补全网络拟合训练集数据，获取训练好的多模态特征融合的点云补全网络，具体为：计算多模态特征融合的点云补全网络的输出点云到地面真实点云/>的最近点的平均距离，以及地面真实点云/>到多模态特征融合的点云补全网络的输出点云/>的最近点的平均距离，两者相加得到最终的倒角距离，并以其作为网络训练的损失函数，对整体网络进行优化。

本发明的进一步改进在于：步骤1所述Transformer编码器和Transformer解码器，使用 K近邻（KNN）模型来捕捉点云中的几何关系。

本发明的进一步改进在于：步骤1中的所述上采样模块是基于FoldingNet搭建的网络，上采样将Transformer解码器输出的代理点和代理特征作为输入，以代理点作为中心点进行上采样。

本发明的有益效果是：

（1）本方法克服了当前点云补全网络难以从已有的点云推断缺失部分的几何细节的问题，基于不完整点云特征和触觉点云特征融合的方法，充分利用了触觉信息，补充了缺失部分的几何细节，提高了点云补全的质量及效率，以达到改善点云补全的效果。

（2）同时融合触觉信息很好的解决了点云离散问题，补全位置的点云更加聚集。

（3）本发明提出的触觉特征融合模块和触觉辅助查询生成模块良好的可迁移性。

附图说明

图1是本发明多模态特征融合的点云补全网络的整体框架图。

图2是本发明触觉特征融合模块框架图。

图3是本发明触觉辅助查询生成模块框架图。

图4是本发明查询生成模块框架图。

图5是不同的物体点云的补全效果图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种多模态特征融合的三维点云补全方法，该方法包括如下步骤：

步骤1，构建多模态特征融合的点云补全网络。

如图2所示，多模态特征融合的点云补全网络包括触觉特征融合模块、Transformer编码器、触觉辅助查询生成模块、Transformer解码器和上采样模块。

对于多模态特征融合的点云补全网络，不完整点云与触觉点云/>在触觉特征融合模块中分别提取不完整点云特征/>和触觉特征/>然后进行触觉特征融合并使用MLP进行降维，实现第一步触觉点云融合，得到融合触觉后的点代理特征/>，输入到Transformer编码器进行编码，得到编码后的点代理特征X；然后将不完整部分点云/>，触觉点云/>和编码后的点代理特征X输入到触觉辅助查询生成模块得到已知部分点云的查询嵌入/>，实现第二步触觉融合，再由Transformer解码器的交叉注意力解码出全局的查询特征，最后经过上采样模块得到补全后的点云。

如图3所示，触觉特征融合模块包括动态图边卷积（DGCNN）、卷积层（Conv）、边缘卷积层和多层感知机（MLP），输入包括不完整点云和触觉点云/>，不完整点云/>通过DGCNN得到对应特征/>；触觉点云/>和/>先经过一个Conv层，再经过两层EdgeConv得到触觉特征和/>。在进行两层EdgeConv时，每一层都会输出新的点云图结构从而产生新的特征空间，两层EdgeConv逐层整合局部信息。在不完整点云特征/>与触觉特征之间采用递归特征融合策略，触觉特征/>拼接不完整点云的特征/>，并使用MLP进行融合和保持维度不变。接下来融合更多次触觉特征/>时再次进行拼接并通过MLP保存维度不变，以得到融合触觉后的点代理特征/>。融合原理如下：

。

如图3所示，触觉辅助查询生成模块包括查询生成模块和两层MLP。触觉辅助查询生成模块输入包括不完整点云，Transformer编码器输出的点代理特征X和触觉点云/>。触觉点云/>首先通过最远点采样得到触觉中心点/>，触觉中心点/>通过两层MLP得到触觉查询特征/>，触觉查询特征/>拼接上查询生成模块输出的全局查询特征/>得到查询嵌入/>，同时触觉中心点/>拼接上查询生成模块输出的全局查询特征输出的全局中心点/>得到对应查询点/>:

。

如图4所示，查询生成模块包括3个MLP。点代理特征X先经过第一个MLP进行升维，之后进行max Pooling获取全局特征，之后经过第二个MLP重建出缺失区域的中心点。然后对输入不完整点云/>进行最远点采样得到已知区域中心点，与预测区域中心点拼接得到全局中心点/>。最后将全局特征/>和全局中心点/>拼接，经过MLP后生成最后的全局查询特征/>：

所述触觉特征和所述不完整点云特征/>维度不一样，触觉特征/>和不完整点云特征/>的特征比例决定了触觉特征融合模块对触觉特征的注意程度，在本发明中触觉特征维度设为24，不完整点云特征/>维度设为384。

所述Transformer编码器和Transformer解码器使用Transformer 对输入的特征进行编码，同时利用 KNN 模型来捕捉点云中的几何关系。Transformer编码器在给定点代理和点代理特征情况下，通过获取点代理邻近关键点和对应点代理特征。然后，通过线性层的特征聚合，来学习局部几何结构。Transformer解码器在给定查询点、查询嵌入、Transformer编码器的输出下，使用了交叉注意力和自注意力学习点与点间的关系。

上采样模块是基于FoldingNet搭建的网络。上采样将Transformer解码器输出的代理点和代理特征作为输入，以代理点作为中心点进行上采样。

步骤2：使用训练集训练多模态特征融合的点云补全网络：将训练集数据导入多模态特征融合的点云补全网络，利用神经网络的正向、反向传播优化总体网络参数，通过基于倒角距离的损失函数约束网络训练，使多模态特征融合的点云补全网络拟合训练集数据，获取训练好的多模态特征融合的点云补全网络。

所述训练数据集是3DVT，训练数据集中包含10,186个数据，每个数据包含物体真实点云和触觉点云。每一个物体真实点云包含8192个点，每一个触觉点云包含256个点。训练时会随机选取某个位置，以这个位置为基点，随机去除距离这个基点最近的2048到6144个点，用以模拟点云的缺失。

所述训练时使用的倒角距离损失函数表达为：

，

表示不完整点云/>与完整点云/>之间最近点的平均距离，用以优化多模态特征融合的点云补全网络的参数。具体为：计算多模态特征融合的点云补全网络的输出点云到地面真实点云/>的最近点的平均距离，以及地面真实点云/>到多模态特征融合的点云补全网络的输出点云/>的最近点的平均距离，两者相加得到最终的倒角距离，并以其作为网络训练的损失函数，对整体网络进行优化。

步骤3，将测试集数据输入训练好的多模态特征融合的点云补全网络，实现不完整点云的补全，并分析测试结果。

针对多模态特征融合的点云补全网络的效果验证，进行了多项实验。包括添加不同次数触摸对点云不全的影响、消融实验和验证触觉特征融合模块和触觉辅助查询生成模块可迁移性的实验。实验选用测试数据集是3DVT，测试数据集中包含2546个数据，每个数据包含物体真实点云和触觉点云。测试时会选取某个位置，以这个位置为基点，去除距离这个基点最近的2048、4096或6144个点，用以模拟点云缺失25%、50%和75%。

添加不同次数触摸对点云补全的影响的实验结果对比如表1所示。表1中的数据评价标准是补全后的点云和真实点云间的倒角距离，倒角距离越小表示重建效果越好。表1中CD-S、CD-M和CD-H分别表示点云缺失25%，缺失50%和缺失75%。

表1 添加不同次数触摸对点云补全结果

由表1的不使用触觉和使用1次触觉结果可见，使用触觉后的倒角距离比起不使用触觉更小。表明了融合触觉后网络确实学习到了触觉信息，解决了从已有的点云推断缺失部分的几何细节比较困难的问题。对比使用2次触觉和一次触觉结果可以看出触觉融合可以有效的利用多次触觉信息。

图5中展示了3个不同的物体点云的补全效果。从左到右5列，（a）是缺失点云加上2次触觉，（b）是不融合触觉的补全结果，（c）是融合1次触觉后的补全结果，（d）是融合2次触觉后的补全结果，（e）是物体的真实点云。由（b）列可以看出不添加触觉点云只能恢复出大致的形状，会有补全后物体缺失中心不能很好补全而出现中心有空缺或者补全的点云离散。（c）（d）在部分点云的基础上融合触觉信息，由图中可见网络很好的获取缺失部分的细节信息，补全后的点云中心空缺的问题得到解决。同时融合触觉信息也很好的解决了点云离散问题，补全位置的点云更加聚集。

表2以AdaPoinTr add 2 touch为例，展示了本发明提出的各个模块的有效性。其中CD-S、CD-M和CD-H分别表示点云缺失25%，缺失50%和缺失75%。模型A没有使用触觉特征融合模块和触觉辅助查询生成模块，模型B只使用触觉特征融合模块，模型C只使用触觉辅助查询生成模块，模型D使用触觉特征融合模块和触觉辅助查询生成模块。

表2 消融实验

从表2的B、C模型可以看出，单独使用触觉特征融合模块或触觉辅助查询生成模块的补全结果都比模型A好；模型D同时使用了两个模块，补全结果优于只单独使用其中一个模块的模型B、C。实验充分表现了本发明提出的网络中的模块的有效性，成功实现了触觉信息的融合，提高了点云补全的质量。

表3将网络中的触觉特征融合模块和触觉辅助查询生成模块迁移到PoinTr网络上。

表3 迁移实验结果

表3中融合触觉之后的倒角距离相比于不使用触觉更低，凸显了本发明提出的触觉特征融合模块和触觉辅助查询生成模块良好的可迁移性。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种多模态特征融合的三维点云补全方法，其特征在于：所述三维点云补全方法包括如下步骤：

步骤3、将测试集数据输入步骤2中训练好的多模态特征融合的点云补全网络，实现不完整点云的重建，得到完整的点云；

步骤1中的所述触觉特征融合模块包含动态图边卷积、卷积层、边缘卷积层和多层感知机，输入不完整点云P_i和触觉点云P_t，不完整点云P_i通过一个动态图边卷积提取不完整点云的特征F_i，触觉点云P_t经过一层卷积和两层边缘卷积得到触觉特征F_t，两层边缘卷积层逐层整合局部信息，在不完整点云的特征F_i与所述触觉特征F_t之间采用递归特征融合策略，递归特征融合策略具体为：

对于一次触觉融合，触觉特征F_t1拼接不完整点云的特征F_i，使用多层感知机来映射到维度C得到融合特征F`_P；

对于一次以上的触觉融合，拼接上一次以上触觉特征F_tn通过多层感知机再次映射到维度C，以形成输出P_p，融合原理如下所示：

F`_P＝MLP(concat(F_i，F_t1))

P_p＝MLP(concat(F`_p，F_tn))

其中，P_p是融合触觉后的点代理特征。

2.根据权利要求1所述的一种多模态特征融合的三维点云补全方法，其特征在于：在步骤1中，所述多模态特征融合的点云补全网络将触觉点云P_t和不完整点云P_i在所述触觉特征融合模块中分别提取不完整点云特征F_i和触觉特征F_t，进行触觉特征融合并使用多层感知机进行降维，实现第一步触觉点云融合，得到融合触觉后的点代理特征P_p，输入到所述Transformer编码器进行编码，得到编码后的点代理特征X，然后将编码后的点代理特征X、触觉点云P_t和部分不完整点云P_i输入到触觉辅助查询生成模块得到己知部分点云的查询嵌入Q，实现第二步触觉融合，最后由Transformer解码器的交叉注意力解码出全局的查询特征，最后通过所述上采样模块重建完整点云。

3.根据权利要求1所述的一种多模态特征融合的三维点云补全方法，其特征在于：所述触觉特征F_t和所述不完整点云特征F_i维度不一样，触觉特征F_t维度设为24，不完整点云特征F_i维度设为384，触觉特征F_t和不完整点云特征F_i的特征比例决定了触觉特征融合模块对触觉特征的注意程度。

4.根据权利要求1所述的一种多模态特征融合的三维点云补全方法，其特征在于：步骤1的所述触觉辅助查询生成模块包含查询生成模块和多层感知机，所述触觉辅助查询生成模块的输入包括不完整点云P_i、Transformer编码器输出的点代理特征X和触觉点云P_t，将不完整点云P_i和Transformer编码器生成的点代理特征X输入到查询生成模块生成预测的全局中心点P_q和对应查询特征F_q，触觉点云P_t使用最远点采样得到触觉中心点再经过多层感知机得到触觉查询特征F_tc，触觉查询特征F_tc拼接全局查询特征F得到查询嵌入Q，触觉中心点拼接全局中心点得到查询点P_c。

5.根据权利要求4所述的一种多模态特征融合的三维点云补全方法，其特征在于：所述查询生成模块包括3个多层感知机，Transformer编码器输出的点代理特征X先经过第一个多层感知机进行升维，之后进行max Pooling获取全局特征f，之后经过第二个多层感知机重建出缺失区域的中心点，然后对输入不完整点云P_i进行最远点采样得到己知区域中心点，与预测区域中心点拼接得到全局中心点P_q，最后将全局特征f和全局中心点P_q拼接，经过MLP后生成最后的全局查询特征F_q：

f＝max(MLP(P_i))

P_q＝concat(fps(P_i)，MLP(f))

F_q＝MLP(P_q，f)。

6.根据权利要求1所述的一种多模态特征融合的三维点云补全方法，其特征在于：在步骤2中，训练时使用的倒角距离损失函数表达为：

其中：CD表示输出点云P与完整点云G之间最近点的平均距离，用以优化多模态特征融合的点云补全网络的参数。

7.根据权利要求6所述的一种多模态特征融合的三维点云补全方法，其特征在于：所述步骤2中通过基于倒角距离的损失函数约束网络训练，使多模态特征融合的点云补全网络拟合训练集数据，获取训练好的多模态特征融合的点云补全网络，具体为：计算多模态特征融合的点云补全网络的输出点云P到地面真实点云G的最近点的平均距离，以及地面真实点云G到多模态特征融合的点云补全网络的输出点云P的最近点的平均距离，两者相加得到最终的倒角距离，并以其作为网络训练的损失函数，对整体网络进行优化。