CN117274764B - 一种多模态特征融合的三维点云补全方法 - Google Patents
一种多模态特征融合的三维点云补全方法 Download PDFInfo
- Publication number
- CN117274764B CN117274764B CN202311565238.4A CN202311565238A CN117274764B CN 117274764 B CN117274764 B CN 117274764B CN 202311565238 A CN202311565238 A CN 202311565238A CN 117274764 B CN117274764 B CN 117274764B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- feature
- haptic
- point
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000035807 sensation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 1
- 239000013589 supplement Substances 0.000 abstract 1
- 230000000295 complement effect Effects 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000533950 Leucojum Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明属于三维点云补全领域,公开了一种多模态特征融合的三维点云补全方法,包括:构建用于多模态特征融合的三维点云补全网络,触觉融合主要在触觉特征融合模块与触觉辅助查询生成模块,触觉特征融合模块将不完整点云和触觉点云分别提取特征,并将触觉特征和不完整点云特征依次融合;触觉辅助查询生成模块使用触觉点云生成触觉查询,触觉查询拼接上全局查询得到查询嵌入,全局中心点和触觉中心点拼接得到查询点,查询嵌入与查询点送入Transformer解码器,通过交叉注意力充分利用触觉信息进行解码。本发明基于不完整点云特征和触觉点云特征融合的方法,充分利用了触觉信息,补充了缺失部分的几何细节,提高了点云补全的质量。
Description
技术领域
本发明属于三维点云补全领域,具体的说是涉及一种多模态特征融合的三维点云补全方法。
背景技术
从不完整的点云中恢复完整的点云对于各种下游应用来说是必不可少的步骤。随着机器学习领域的发展和各种3D点云数据集的出现,使用机器学习的点云补全方法也越来越多。但基于机器学习的方法通常会丢失部分输入形状结构,因为它们需要对原始点云进行下采样和编码。因此,他们会用一些方法来弥补细节上的损失。例如FBNet使用基于反馈的点云补全网络,通过反馈连接重用输出信息来增强自身的特征学习。SoftPool++ 提出了一种新的卷积算子,用于学习编码器中的点云,通过特征激活的软池化从点云中提取排列不变的特征,并使其能够保留细粒度的几何细节。SnowflakeNet堆叠多个雪花反卷积模块以生成完整的形状,类似于点云上采样逐步恢复点云形状。VRCNet引入了一种新的变分相关性点云补全网络,并提出了一种关系增强网络来获取点与局部特征之间的结构关系。VRCNet提出了点自注意力核和点选择核模块作为关系增强网络的基本构建模块,使用不同核大小的多个分支来挖掘和融合多尺度的点特征。
虽然上述基于机器学习的点云补全方法引入了许多关注点云局部形状的方法,但在某些情况下,它们恢复的局部点云往往是离散的,因为缺乏精确的局部形状约束。
触觉传感器一直以来都有许多研究者在关注。基于视觉的触觉传感器是近年来的研究热点。基于视觉的触觉传感器将接触形变信号转换为图像,以获得更高的空间分辨率和对接触力更高的灵敏度。此外,基于视觉的触觉传感器可以通过摄像头捕捉接触面的变形,推断出与被检测物体接触相关的形状信息。由于触觉传感器触摸部位较小,要获取物体形状需要大量的触摸次数,所有仅仅使用触觉来实现物体形状重建在实际中难以实现。
综上所述,基于机器学习的点云补全方法尽管引入了许多关注点云局部形状的方法,但由于从已有的点云推断缺失部分的几何细节是非常困难的,缺乏精确的局部形状约束,它们恢复的缺失区域的局部点云往往是离散的;单纯的使用触觉点云恢复物体形状,需要大量的触觉数据,这会消耗大量的时间,重建效率十分低效。
因此,在点云补全领域,目前需要探索一种利用机器学习合理的将触觉点云特征融合到不完整点云特征中的方法,以此利用触觉信息弥补无法从部分点云推断缺失点云几何细节的问题,提高点云补全的效果。
发明内容
为了解决上述技术问题,本发明提供了一种多模态特征融合的三维点云补全方法,该三维点云补全方法通过将不完整点云特征和触觉点云特征进行融合,使用缺失部分的触觉信息可以很好的补充缺失部分的几何细节,弥补从已有的点云推断缺失部分的几何细节,提高了点云补全的质量。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种多模态特征融合的三维点云补全方法,该方法包括如下步骤:
步骤1、构建多模态特征融合的点云补全网络,所述多模态特征融合的点云补全网络包括触觉特征融合模块、Transformer编码器、触觉辅助查询生成模块、Transformer解码器和上采样模块;
步骤2、使用训练集训练步骤1构建的所述多模态特征融合的点云补全网络,将训练集数据导入点云补全网络,利用神经网络的正向、反向传播优化总体网络参数,通过基于倒角距离的损失函数约束网络训练,使多模态特征融合的点云补全网络拟合训练集数据,获取训练好的多模态特征融合的点云补全网络;
步骤3、将测试集数据输入步骤2中训练好的多模态特征融合的点云补全网络,实现不完整点云的重建,得到完整的点云。
本发明的进一步改进在于:在步骤1中,所述多模态特征融合的点云补全网络将触觉点云和不完整点云/>在所述触觉特征融合模块中分别提取不完整点云特征/>和触觉特征/>,进行触觉特征融合并使用多层感知机进行降维,实现第一步触觉点云融合,得到融合触觉后的点代理特征/>,输入到所述Transformer编码器进行编码,得到编码后的点代理特征X,然后将编码后的点代理特征X、触觉点云/>和部分不完整点云/>输入到触觉辅助查询生成模块得到已知部分点云的查询嵌入/>,实现第二步触觉融合,最后由Transformer解码器的交叉注意力解码出全局的查询特征,最后通过所述上采样模块重建完整点云。
本发明的进一步改进在于:步骤1中的所述触觉特征融合模块包含动态图边卷积(DGCNN)、卷积层、边缘卷积层和多层感知机(MLP),输入不完整点云和触觉点云/>,不完整点云/>通过一个动态图边卷积提取不完整点云的特征/>,触觉点云/>经过一层卷积和两层边缘卷积得到触觉特征/>,两层边缘卷积层逐层整合局部信息,在不完整点云特征/>与所述触觉特征/>之间采用递归特征融合策略,所述递归特征融合策略具体为:
对于一次触觉融合,触觉特征拼接不完整点云的特征/>,使用多层感知机来映射特征维度到C得到融合特征/>;
对于一次以上的触觉融合,拼接上一次以上触觉特征通过多层感知机再次映射到维度C,以形成输出/>,融合原理如下所示:
,
其中,是融合触觉后的点代理特征。
本发明的进一步改进在于:所述触觉特征和所述不完整点云特征/>维度不一样,触觉特征/>和不完整点云特征/>的特征比例决定了触觉特征融合模块对触觉特征的注意程度。
本发明的进一步改进在于:步骤1的所述触觉辅助查询生成模块包含查询生成模块和多层感知机,所述触觉辅助查询生成模块的输入包括不完整点云、Transformer编码器输出的点代理特征X和触觉点云/>,将不完整点云/>和Transformer编码器生成的点代理特征X输入到查询生成模块生成预测的全局中心点/>和对应查询特征/>,触觉点云/>使用最远点采样得到触觉中心点再经过多层感知机得到触觉查询特征/>,触觉查询特征/>拼接全局查询特征/>得到查询嵌入/>,触觉中心点拼接全局中心点得到查询点/>。
本发明的进一步改进在于:所述查询生成模块包括3个多层感知机,Transformer编码器输出的点代理特征X先经过第一个多层感知机进行升维,之后进行max Pooling获取全局特征,之后经过第二个多层感知机重建出缺失区域的中心点,然后对输入不完整点云/>进行最远点采样得到已知区域中心点,与预测区域中心点拼接得到全局中心点/>,最后将全局特征/>和全局中心点/>拼接,经过MLP后生成最后的全局查询特征/>:
。
本发明的进一步改进在于:在步骤2中,训练时使用的倒角距离损失函数表达为:
,
其中:表示输出点云/>与完整点云/>之间最近点的平均距离,用以优化多模态特征融合的点云补全网络的参数。
本发明的进一步改进在于:所述步骤2中通过基于倒角距离的损失函数约束网络训练,使多模态特征融合的点云补全网络拟合训练集数据,获取训练好的多模态特征融合的点云补全网络,具体为:计算多模态特征融合的点云补全网络的输出点云到地面真实点云/>的最近点的平均距离,以及地面真实点云/>到多模态特征融合的点云补全网络的输出点云/>的最近点的平均距离,两者相加得到最终的倒角距离,并以其作为网络训练的损失函数,对整体网络进行优化。
本发明的进一步改进在于:步骤1所述Transformer编码器和Transformer解码器,使用 K近邻(KNN) 模型来捕捉点云中的几何关系。
本发明的进一步改进在于:步骤1中的所述上采样模块是基于FoldingNet搭建的网络,上采样将Transformer解码器输出的代理点和代理特征作为输入,以代理点作为中心点进行上采样。
本发明的有益效果是:
(1)本方法克服了当前点云补全网络难以从已有的点云推断缺失部分的几何细节的问题,基于不完整点云特征和触觉点云特征融合的方法,充分利用了触觉信息,补充了缺失部分的几何细节,提高了点云补全的质量及效率,以达到改善点云补全的效果。
(2)同时融合触觉信息很好的解决了点云离散问题,补全位置的点云更加聚集。
(3)本发明提出的触觉特征融合模块和触觉辅助查询生成模块良好的可迁移性。
附图说明
图1是本发明多模态特征融合的点云补全网络的整体框架图。
图2是本发明触觉特征融合模块框架图。
图3是本发明触觉辅助查询生成模块框架图。
图4是本发明查询生成模块框架图。
图5是不同的物体点云的补全效果图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1所示,本发明是一种多模态特征融合的三维点云补全方法,该方法包括如下步骤:
步骤1,构建多模态特征融合的点云补全网络。
如图2所示,多模态特征融合的点云补全网络包括触觉特征融合模块、Transformer编码器、触觉辅助查询生成模块、Transformer解码器和上采样模块。
对于多模态特征融合的点云补全网络,不完整点云与触觉点云/>在触觉特征融合模块中分别提取不完整点云特征/>和触觉特征/>然后进行触觉特征融合并使用MLP进行降维,实现第一步触觉点云融合,得到融合触觉后的点代理特征/>,输入到Transformer编码器进行编码,得到编码后的点代理特征X;然后将不完整部分点云/>,触觉点云/>和编码后的点代理特征X输入到触觉辅助查询生成模块得到已知部分点云的查询嵌入/>,实现第二步触觉融合,再由Transformer解码器的交叉注意力解码出全局的查询特征,最后经过上采样模块得到补全后的点云。
如图3所示,触觉特征融合模块包括动态图边卷积(DGCNN)、卷积层(Conv)、边缘卷积层和多层感知机(MLP),输入包括不完整点云和触觉点云/>,不完整点云/>通过DGCNN得到对应特征/>;触觉点云/>和/>先经过一个Conv层,再经过两层EdgeConv得到触觉特征和/>。在进行两层EdgeConv时,每一层都会输出新的点云图结构从而产生新的特征空间,两层EdgeConv逐层整合局部信息。在不完整点云特征/>与触觉特征之间采用递归特征融合策略,触觉特征/>拼接不完整点云的特征/>,并使用MLP进行融合和保持维度不变。接下来融合更多次触觉特征/>时再次进行拼接并通过MLP保存维度不变,以得到融合触觉后的点代理特征/>。融合原理如下:
。
如图3所示,触觉辅助查询生成模块包括查询生成模块和两层MLP。触觉辅助查询生成模块输入包括不完整点云,Transformer编码器输出的点代理特征X和触觉点云/>。触觉点云/>首先通过最远点采样得到触觉中心点/>,触觉中心点/>通过两层MLP得到触觉查询特征/>,触觉查询特征/>拼接上查询生成模块输出的全局查询特征/>得到查询嵌入/>,同时触觉中心点/>拼接上查询生成模块输出的全局查询特征输出的全局中心点/>得到对应查询点/>:
。
如图4所示,查询生成模块包括3个MLP。点代理特征X先经过第一个MLP进行升维,之后进行max Pooling获取全局特征,之后经过第二个MLP重建出缺失区域的中心点。然后对输入不完整点云/>进行最远点采样得到已知区域中心点,与预测区域中心点拼接得到全局中心点/>。最后将全局特征/>和全局中心点/>拼接,经过MLP后生成最后的全局查询特征/>:
所述触觉特征和所述不完整点云特征/>维度不一样,触觉特征/>和不完整点云特征/>的特征比例决定了触觉特征融合模块对触觉特征的注意程度,在本发明中触觉特征维度设为24,不完整点云特征/>维度设为384。
所述Transformer编码器和Transformer解码器使用Transformer 对输入的特征进行编码,同时利用 KNN 模型来捕捉点云中的几何关系。Transformer编码器在给定点代理和点代理特征情况下,通过获取点代理邻近关键点和对应点代理特征。然后,通过线性层的特征聚合,来学习局部几何结构。Transformer解码器在给定查询点、查询嵌入、Transformer编码器的输出下,使用了交叉注意力和自注意力学习点与点间的关系。
上采样模块是基于FoldingNet搭建的网络。上采样将Transformer解码器输出的代理点和代理特征作为输入,以代理点作为中心点进行上采样。
步骤2:使用训练集训练多模态特征融合的点云补全网络:将训练集数据导入多模态特征融合的点云补全网络,利用神经网络的正向、反向传播优化总体网络参数,通过基于倒角距离的损失函数约束网络训练,使多模态特征融合的点云补全网络拟合训练集数据,获取训练好的多模态特征融合的点云补全网络。
所述训练数据集是3DVT,训练数据集中包含10,186个数据,每个数据包含物体真实点云和触觉点云。每一个物体真实点云包含8192个点,每一个触觉点云包含256个点。训练时会随机选取某个位置,以这个位置为基点,随机去除距离这个基点最近的2048到6144个点,用以模拟点云的缺失。
所述训练时使用的倒角距离损失函数表达为:
,
表示不完整点云/>与完整点云/>之间最近点的平均距离,用以优化多模态特征融合的点云补全网络的参数。具体为:计算多模态特征融合的点云补全网络的输出点云到地面真实点云/>的最近点的平均距离,以及地面真实点云/>到多模态特征融合的点云补全网络的输出点云/>的最近点的平均距离,两者相加得到最终的倒角距离,并以其作为网络训练的损失函数,对整体网络进行优化。
步骤3,将测试集数据输入训练好的多模态特征融合的点云补全网络,实现不完整点云的补全,并分析测试结果。
针对多模态特征融合的点云补全网络的效果验证,进行了多项实验。包括添加不同次数触摸对点云不全的影响、消融实验和验证触觉特征融合模块和触觉辅助查询生成模块可迁移性的实验。实验选用测试数据集是3DVT,测试数据集中包含2546个数据,每个数据包含物体真实点云和触觉点云。测试时会选取某个位置,以这个位置为基点,去除距离这个基点最近的2048、4096或6144个点,用以模拟点云缺失25%、50%和75%。
添加不同次数触摸对点云补全的影响的实验结果对比如表1所示。表1中的数据评价标准是补全后的点云和真实点云间的倒角距离,倒角距离越小表示重建效果越好。表1中CD-S、CD-M和CD-H分别表示点云缺失25%,缺失50%和缺失75%。
表1 添加不同次数触摸对点云补全结果
由表1的不使用触觉和使用1次触觉结果可见,使用触觉后的倒角距离比起不使用触觉更小。表明了融合触觉后网络确实学习到了触觉信息,解决了从已有的点云推断缺失部分的几何细节比较困难的问题。对比使用2次触觉和一次触觉结果可以看出触觉融合可以有效的利用多次触觉信息。
图5中展示了3个不同的物体点云的补全效果。从左到右5列,(a)是缺失点云加上2次触觉,(b)是不融合触觉的补全结果,(c)是融合1次触觉后的补全结果,(d)是融合2次触觉后的补全结果,(e)是物体的真实点云。由(b)列可以看出不添加触觉点云只能恢复出大致的形状,会有补全后物体缺失中心不能很好补全而出现中心有空缺或者补全的点云离散。(c)(d)在部分点云的基础上融合触觉信息,由图中可见网络很好的获取缺失部分的细节信息,补全后的点云中心空缺的问题得到解决。同时融合触觉信息也很好的解决了点云离散问题,补全位置的点云更加聚集。
表2以AdaPoinTr add 2 touch为例,展示了本发明提出的各个模块的有效性。其中CD-S、CD-M和CD-H分别表示点云缺失25%,缺失50%和缺失75%。模型A没有使用触觉特征融合模块和触觉辅助查询生成模块,模型B只使用触觉特征融合模块,模型C只使用触觉辅助查询生成模块,模型D使用触觉特征融合模块和触觉辅助查询生成模块。
表2 消融实验
从表2的B、C模型可以看出,单独使用触觉特征融合模块或触觉辅助查询生成模块的补全结果都比模型A好;模型D同时使用了两个模块,补全结果优于只单独使用其中一个模块的模型B、C。实验充分表现了本发明提出的网络中的模块的有效性,成功实现了触觉信息的融合,提高了点云补全的质量。
表3将网络中的触觉特征融合模块和触觉辅助查询生成模块迁移到PoinTr网络上。
表3 迁移实验结果
表3中融合触觉之后的倒角距离相比于不使用触觉更低,凸显了本发明提出的触觉特征融合模块和触觉辅助查询生成模块良好的可迁移性。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (7)
1.一种多模态特征融合的三维点云补全方法,其特征在于:所述三维点云补全方法包括如下步骤:
步骤1、构建多模态特征融合的点云补全网络,所述多模态特征融合的点云补全网络包括触觉特征融合模块、Transformer编码器、触觉辅助查询生成模块、Transformer解码器和上采样模块;
步骤2、使用训练集训练步骤1构建的所述多模态特征融合的点云补全网络,将训练集数据导入点云补全网络,利用神经网络的正向、反向传播优化总体网络参数,通过基于倒角距离的损失函数约束网络训练,使多模态特征融合的点云补全网络拟合训练集数据,获取训练好的多模态特征融合的点云补全网络;
步骤3、将测试集数据输入步骤2中训练好的多模态特征融合的点云补全网络,实现不完整点云的重建,得到完整的点云;
步骤1中的所述触觉特征融合模块包含动态图边卷积、卷积层、边缘卷积层和多层感知机,输入不完整点云Pi和触觉点云Pt,不完整点云Pi通过一个动态图边卷积提取不完整点云的特征Fi,触觉点云Pt经过一层卷积和两层边缘卷积得到触觉特征Ft,两层边缘卷积层逐层整合局部信息,在不完整点云的特征Fi与所述触觉特征Ft之间采用递归特征融合策略,递归特征融合策略具体为:
对于一次触觉融合,触觉特征Ft1拼接不完整点云的特征Fi,使用多层感知机来映射到维度C得到融合特征F`P;
对于一次以上的触觉融合,拼接上一次以上触觉特征Ftn通过多层感知机再次映射到维度C,以形成输出Pp,融合原理如下所示:
F`P=MLP(concat(Fi,Ft1))
Pp=MLP(concat(F`p,Ftn))
其中,Pp是融合触觉后的点代理特征。
2.根据权利要求1所述的一种多模态特征融合的三维点云补全方法,其特征在于:在步骤1中,所述多模态特征融合的点云补全网络将触觉点云Pt和不完整点云Pi在所述触觉特征融合模块中分别提取不完整点云特征Fi和触觉特征Ft,进行触觉特征融合并使用多层感知机进行降维,实现第一步触觉点云融合,得到融合触觉后的点代理特征Pp,输入到所述Transformer编码器进行编码,得到编码后的点代理特征X,然后将编码后的点代理特征X、触觉点云Pt和部分不完整点云Pi输入到触觉辅助查询生成模块得到己知部分点云的查询嵌入Q,实现第二步触觉融合,最后由Transformer解码器的交叉注意力解码出全局的查询特征,最后通过所述上采样模块重建完整点云。
3.根据权利要求1所述的一种多模态特征融合的三维点云补全方法,其特征在于:所述触觉特征Ft和所述不完整点云特征Fi维度不一样,触觉特征Ft维度设为24,不完整点云特征Fi维度设为384,触觉特征Ft和不完整点云特征Fi的特征比例决定了触觉特征融合模块对触觉特征的注意程度。
4.根据权利要求1所述的一种多模态特征融合的三维点云补全方法,其特征在于:步骤1的所述触觉辅助查询生成模块包含查询生成模块和多层感知机,所述触觉辅助查询生成模块的输入包括不完整点云Pi、Transformer编码器输出的点代理特征X和触觉点云Pt,将不完整点云Pi和Transformer编码器生成的点代理特征X输入到查询生成模块生成预测的全局中心点Pq和对应查询特征Fq,触觉点云Pt使用最远点采样得到触觉中心点再经过多层感知机得到触觉查询特征Ftc,触觉查询特征Ftc拼接全局查询特征F得到查询嵌入Q,触觉中心点拼接全局中心点得到查询点Pc。
5.根据权利要求4所述的一种多模态特征融合的三维点云补全方法,其特征在于:所述查询生成模块包括3个多层感知机,Transformer编码器输出的点代理特征X先经过第一个多层感知机进行升维,之后进行max Pooling获取全局特征f,之后经过第二个多层感知机重建出缺失区域的中心点,然后对输入不完整点云Pi进行最远点采样得到己知区域中心点,与预测区域中心点拼接得到全局中心点Pq,最后将全局特征f和全局中心点Pq拼接,经过MLP后生成最后的全局查询特征Fq:
f=max(MLP(Pi))
Pq=concat(fps(Pi),MLP(f))
Fq=MLP(Pq,f)。
6.根据权利要求1所述的一种多模态特征融合的三维点云补全方法,其特征在于:在步骤2中,训练时使用的倒角距离损失函数表达为:
其中:CD表示输出点云P与完整点云G之间最近点的平均距离,用以优化多模态特征融合的点云补全网络的参数。
7.根据权利要求6所述的一种多模态特征融合的三维点云补全方法,其特征在于:所述步骤2中通过基于倒角距离的损失函数约束网络训练,使多模态特征融合的点云补全网络拟合训练集数据,获取训练好的多模态特征融合的点云补全网络,具体为:计算多模态特征融合的点云补全网络的输出点云P到地面真实点云G的最近点的平均距离,以及地面真实点云G到多模态特征融合的点云补全网络的输出点云P的最近点的平均距离,两者相加得到最终的倒角距离,并以其作为网络训练的损失函数,对整体网络进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311565238.4A CN117274764B (zh) | 2023-11-22 | 2023-11-22 | 一种多模态特征融合的三维点云补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311565238.4A CN117274764B (zh) | 2023-11-22 | 2023-11-22 | 一种多模态特征融合的三维点云补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274764A CN117274764A (zh) | 2023-12-22 |
CN117274764B true CN117274764B (zh) | 2024-02-13 |
Family
ID=89216442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311565238.4A Active CN117274764B (zh) | 2023-11-22 | 2023-11-22 | 一种多模态特征融合的三维点云补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274764B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937043A (zh) * | 2023-01-04 | 2023-04-07 | 南京邮电大学 | 一种触觉辅助点云补全的方法 |
CN115984339A (zh) * | 2023-02-15 | 2023-04-18 | 西安交通大学 | 基于几何特征精炼与对抗生成网络的双管道点云补全方法 |
CN116229079A (zh) * | 2023-03-30 | 2023-06-06 | 重庆邮电大学 | 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统 |
CN116503552A (zh) * | 2023-04-14 | 2023-07-28 | 中国地质大学(武汉) | 一种基于多尺度特征融合的由粗到精点云形状补全方法 |
CN117078518A (zh) * | 2023-09-08 | 2023-11-17 | 南京邮电大学 | 一种基于多模态迭代融合的三维点云超分方法 |
CN117094925A (zh) * | 2023-06-20 | 2023-11-21 | 华南农业大学 | 一种基于点代理增强和逐层上采样的猪体点云补全方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI805077B (zh) * | 2021-11-16 | 2023-06-11 | 國立陽明交通大學 | 路徑規劃方法及其系統 |
-
2023
- 2023-11-22 CN CN202311565238.4A patent/CN117274764B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937043A (zh) * | 2023-01-04 | 2023-04-07 | 南京邮电大学 | 一种触觉辅助点云补全的方法 |
CN115984339A (zh) * | 2023-02-15 | 2023-04-18 | 西安交通大学 | 基于几何特征精炼与对抗生成网络的双管道点云补全方法 |
CN116229079A (zh) * | 2023-03-30 | 2023-06-06 | 重庆邮电大学 | 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统 |
CN116503552A (zh) * | 2023-04-14 | 2023-07-28 | 中国地质大学(武汉) | 一种基于多尺度特征融合的由粗到精点云形状补全方法 |
CN117094925A (zh) * | 2023-06-20 | 2023-11-21 | 华南农业大学 | 一种基于点代理增强和逐层上采样的猪体点云补全方法 |
CN117078518A (zh) * | 2023-09-08 | 2023-11-17 | 南京邮电大学 | 一种基于多模态迭代融合的三维点云超分方法 |
Non-Patent Citations (1)
Title |
---|
PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers;Xumin Yu等;arXiv;第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117274764A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | 3d point cloud geometry compression on deep learning | |
CN112967219B (zh) | 基于深度学习网络的二阶段牙体点云补全方法及系统 | |
Chen et al. | Joint hand-object 3d reconstruction from a single image with cross-branch feature fusion | |
CN113345082B (zh) | 一种特征金字塔多视图三维重建方法和系统 | |
CN113379646A (zh) | 一种利用生成对抗网络进行稠密点云补全的算法 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
Liang et al. | Context-aware network for RGB-D salient object detection | |
CN115984339A (zh) | 基于几何特征精炼与对抗生成网络的双管道点云补全方法 | |
Wang et al. | Unidirectional RGB-T salient object detection with intertwined driving of encoding and fusion | |
CN116485815A (zh) | 基于双尺度编码器网络的医学图像分割方法、设备和介质 | |
Tian et al. | Depth estimation for advancing intelligent transport systems based on self‐improving pyramid stereo network | |
Yao et al. | Transformers and CNNs fusion network for salient object detection | |
Zhang et al. | DDF-HO: hand-held object reconstruction via conditional directed distance field | |
Min et al. | Uniworld: Autonomous driving pre-training via world models | |
CN117274764B (zh) | 一种多模态特征融合的三维点云补全方法 | |
Zhang et al. | PointVST: Self-supervised pre-training for 3d point clouds via view-specific point-to-image translation | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
CN117078518A (zh) | 一种基于多模态迭代融合的三维点云超分方法 | |
Li et al. | DPG-Net: Densely progressive-growing network for point cloud completion | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
Liu et al. | Vst++: Efficient and stronger visual saliency transformer | |
CN115497085A (zh) | 基于多分辨率双特征折叠的点云补全方法及系统 | |
Qian et al. | Context-aware transformer for 3d point cloud automatic annotation | |
Tesema et al. | Point Cloud Completion: A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |