CN115994977A - 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 - Google Patents
一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 Download PDFInfo
- Publication number
- CN115994977A CN115994977A CN202211626317.7A CN202211626317A CN115994977A CN 115994977 A CN115994977 A CN 115994977A CN 202211626317 A CN202211626317 A CN 202211626317A CN 115994977 A CN115994977 A CN 115994977A
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- vector
- point cloud
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 35
- 230000007246 mechanism Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000000295 complement effect Effects 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 215
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000011176 pooling Methods 0.000 claims description 48
- 210000002569 neuron Anatomy 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000002776 aggregation Effects 0.000 abstract description 3
- 238000004220 aggregation Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010146 3D printing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,包括,获取三维物体的三维点云;将所述三维点云输入点云编码器,三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、全连接层;将输出特征向量F1输入点云解码器,经点云解码器进行处理得到输出向量,分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构为在传统金字塔结构的基础上增加了自底向上的路径聚合网络、跨层级连接以及混合注意力模块。能较好地生成缺失点云,提高了准确率,同时在更少的网络参数情况下具有更优的性能。
Description
技术领域
本发明涉及三维点云补全领域,尤其涉及一种基于混合注意力机制的双向金字塔结构的三维点云补全方法。
背景技术
三维重建技术可以对各种三维场景进行自动构建,从而减少人工设计费用以及缩短设计周期等,为社会生活创造巨大的经济效益。点云是数字化时代最具代表性的三维数据,是现实世界映射到数字世界的最精准的表现形式。点云数据由于具有空间细节丰富、采集方便等优点,成为许多场景理解相关应用的首选表示。
在真实的扫描环境中,直接从三维传感器获取的点云往往因为传感器分辨率的限制或者一些物体遮挡等因素导致生成的点云是稀疏的、不完整的。点云模型的不完整性会对后续应用产生严重的影响。因此,点云缺失数据的补全成为了三维模型研究与应用的关键。点云补全技术可应用于以下领域:
(一)智慧城市:利用激光扫描与倾斜摄影测量城市三维点云数据,通过点云补全技术可以更全面、更精细、更实时、更真实地可视化与定量化城市三维模型。
(二)文物推广:利用三维扫描设备采集陶艺等作品的三维彩色点云数据,通过点云补全等方法得到完整的优化彩色点云信息,从而进行数字化的推广与宣传。
(三)医学影像分析:基于医学点云数据的补全、分类、分割、配准、目标检测等任务可以辅助医生进行更为准确的诊断和治疗,在临床医学以及个性化医疗器械辅助设计与3D打印有着重要的应用价值。
(四)机器人&工业自动化:使用三维点云进行补全、聚类、分割后将结果融合到SLAM(即时定位与地图构建)中,进行智能导航。
得益于3D采集技术的蓬勃发展,包括各种类型的3D扫描仪、激光雷达和RGB-D相机在内的3D传感器正在以更低的成本迅速普及,用于展现更加丰富的几何、形状和尺度信息。现阶段3D数据广泛应用于多个领域,包括但不限于自动驾驶、机器人、遥感和医疗等。同时在展现形式上,3D数据也拥有深度图像、点云、网格和体积网格等多种格式。其中,点云作为一种常用的格式,在不进行任何离散化的情况下,保留了三维空间中原始的几何信息。因此,点云数据得到广泛应用。
但在实际的采集数据过程中,由于视线遮挡或技术人员操作不当等原因,获取到的点云模型会存在形状不完整的问题。点云模型的不完整性会对后续应用产生严重的影响。因此,对点云缺失数据进行补全成为了三维重建以及三维数据识别、检测等应用的关键。
相关点云补全技术中,模型结构比较简单,提取点云数据的特征不够丰富、区分度不足,因此对于不同类别的补全点云精确度不高、细节信息不够完整,无法满足高精度点云补全的需求及后续三维数据识别、检测等应用。
发明内容
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,以克服上述技术问题。
一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,包括,
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F′2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
优选地,所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。
优选地,所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1)) (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1)) (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,W'1和W'2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F'1,
F′1=σ(CA×PA)×Z1+Z1 (3)
其中,σ为Sigmoid函数,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F'2、F'3。
优选地,所述双向注意力金字塔结构的多级补全损失函数为公式(4),
其中,为输出向量,Fgt、F'gt、F″gt为不同尺度的真实点云,α为超参数,根据公式(5)计算与Fgt之间的倒角距离,根据公式(6)计算与F'gt之间的倒角距离,根据公式(7)计算与F″gt之间的倒角距离,
dCD为倒角距离,用于测量输出向量与真实点云之间平均最近距离。
一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法流程图;
图2是本发明含有注意力机制的多层感知机结构;
图3是本发明混合注意力模块结构图;
图4是本发明ShapeNet-55的定性结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明方法流程图,如图1所示,本实施例的方法可以包括:
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作横向拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量,多层感知机的不同维度可以提取低、中、高级特征,每一级特征都包含丰富的点云信息,含有注意力机制的多层感知机结构如图2所示。
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过一个全连接层获取特征向量F2,输出特征向量F1通过两个全连接层获取特征向量F3,F1的大小为1024×3,F2的大小为512×3,F3的大小为256×3。通过跳跃连接分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,这种跳跃连接不但提供了远程信息补偿,使原始的不完整点云几何信息在解码器结构中仍然可用,而且残差学习可以促进梯度反向传播,有利于网络收敛。
分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3,采用混合注意力模块来提取有利于推断缺失点云区域的特征。混合注意力模块引入可学习权值来了解不同特征的重要性。不同的输入特征对输出结果的贡献通常是不相等的。对生成缺失点云结构有利的特征权重会大一些,因此利用包含通道注意力和点注意力的混合注意力模块来学习特征之间的权重,结构如图3所示。
所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1)) (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,应用通道平均池化层得到一个大小为C×1的全局特征向量,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1)) (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,应用点平均池化层得到一个大小为1×L的全局特征向量,W′1和W′2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F'1,
F′1=σ(CA×PA)×Z1+Z1 (3)
其中,σ为Sigmoid函数,可以将注意力权重归一化到[0,1]区间。通过以上操作,可以使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F'2、F'3。
本实施例在传统金字塔结构基础上,不仅添加了自底向上的路径聚合网络,还添加了跨层级连接。通过充分融合具有丰富全局信息的高级特征和具有几何细节信息的低级特征,网络可以更准确的预测点云的缺失结构。同时,引入混合注意模块来学习不同层级特征之间的重要性,进行有选择地融合特征,从而提升点云补全精确度。
将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量即网络预测的不同尺度的缺失点云结构,大小分别为512×3、128×3、64×3。分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构为在传统金字塔结构的基础上增加了自底向上的路径聚合网络、跨层级连接以及混合注意力模块。
其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
所述双向注意力金字塔结构的多级补全损失函数为公式(4),
其中,为输出向量,Fgt、F'gt、F'g't为不同尺度的真实点云,大小分别为512×3、128×3、64×3,α为超参数,根据公式(5)计算与Fgt之间的倒角距离,根据公式(6)计算与F'gt之间的倒角距离,根据公式(7)计算与之间的倒角距离,
dCD为倒角距离,用于测量输出向量与真实点云之间平均最近距离。
一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
比较了本实施例中的方法和其他方法在ShapeNet-13和ShapeNet-55两个公开数据集的预测FPred→真实FGT和真实FGT→预测FPred两种倒角距离。计算公式如下所示。
其中,dCD(FPred,FGT)表示FPred与FGT的倒角距离,dCD(FGT,FPred)表示FGT与FPred的倒角距离。
(一)ShapeNet-13数据集结果。比较了本实施例提出的模型与实施例在13个类别上的倒角距离优于其他方法。表明,该方法能较好地生成缺失点云,准确率更好。
表1本实施例与其他方法在ShapeNet-13数据集上的比较结果
成对数字为倒角距离×103(距离数值越低,补全结果越好)。
(二)ShapeNet-55数据集结果。比较了本实施例的模型与PF-Net在ShapeNet-55数据集的结果,如表2所示。根据数据集中55个类别的数量将其分为简单等级、中等等级和较难等级。超过2500个数据的类别定义为简单等级。少于80个数据的类别定义为较难等级。处于二者之间属于中等等级。表中数据说明,本实施例的三个等级倒角距离和55个类别的平均倒角距离均小于PF-Net方法。此外,还比较了PF-Net和本实施例可训练参数的数量,本实施例在更少的网络参数情况下具有更优的性能。
表2本实施例与PF-Net在ShapeNet-55数据集上的比较结果
同时,展示了Shapenet-55数据集中三个等级的定性结果,如图4所示。每个等级展示了三个示例。对于各种类别,本实施例可以以更高的精度和更多的细节实现缺失点云的补全。
整体的有益效果:
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,包括,
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
2.根据权利要求1所述的一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。
3.根据权利要求1所述的一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1)) (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1)) (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,W′1和W′2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F′1,
F′1=σ(CA×PA)×Z1+Z1 (3)
其中,σ为Sigmoid函数,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F′2、F′3。
5.一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,其特征在于,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1;
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3,将输出特征向量F′1、F′2、F′3输入至双向注意力金字塔结构进行处理得到输出向量分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F′1的第六连接输出特征,第七全连接层用于提取特征向量F′2的第七连接输出特征,第一卷积层用于提取特征向量F′1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量第三混合注意力模块用于根据第一混合输出特征、输出向量得到输出向量第四混合注意力模用于根据第一卷积输出特征、输出向量输出向量得到输出向量
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211626317.7A CN115994977A (zh) | 2022-12-16 | 2022-12-16 | 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211626317.7A CN115994977A (zh) | 2022-12-16 | 2022-12-16 | 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115994977A true CN115994977A (zh) | 2023-04-21 |
Family
ID=85994727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211626317.7A Pending CN115994977A (zh) | 2022-12-16 | 2022-12-16 | 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994977A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401794A (zh) * | 2023-06-09 | 2023-07-07 | 四川大学 | 基于注意力引导的深度点云配准的叶片三维精确重建方法 |
-
2022
- 2022-12-16 CN CN202211626317.7A patent/CN115994977A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401794A (zh) * | 2023-06-09 | 2023-07-07 | 四川大学 | 基于注意力引导的深度点云配准的叶片三维精确重建方法 |
CN116401794B (zh) * | 2023-06-09 | 2023-08-15 | 四川大学 | 基于注意力引导的深度点云配准的叶片三维精确重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507222B (zh) | 一种基于多源数据知识迁移的三维物体检测框架 | |
CN112418351B (zh) | 基于全局与局部上下文感知的零样本学习图像分类方法 | |
CN113516693B (zh) | 一种快速通用的图像配准方法 | |
CN112784782B (zh) | 一种基于多视角双注意网络的三维物体识别方法 | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN115937774A (zh) | 一种基于特征融合和语义交互的安检违禁品检测方法 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN115994977A (zh) | 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 | |
CN112258565A (zh) | 图像处理方法以及装置 | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
Lechgar et al. | Detection of cities vehicle fleet using YOLO V2 and aerial images | |
CN116664856A (zh) | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 | |
CN115205654A (zh) | 一种新型基于关键点约束的单目视觉3d目标检测方法 | |
CN115222954A (zh) | 弱感知目标检测方法及相关设备 | |
CN114445816A (zh) | 一种基于二维图像和三维点云的花粉分类方法 | |
CN117152630A (zh) | 一种基于深度学习的光学遥感图像变化检测方法 | |
CN116630915A (zh) | 一种具有关系增广注意力的逆序分层鸟瞰图推理方法 | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN116030292A (zh) | 基于改进ResNext的混凝土表面粗糙度检测方法 | |
Alaba et al. | Multi-sensor fusion 3D object detection for autonomous driving | |
WO2022175057A1 (en) | Apparatus, system and method for translating sensor label data between sensor domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |