CN115994977A - 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 - Google Patents

一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 Download PDF

Info

Publication number
CN115994977A
CN115994977A CN202211626317.7A CN202211626317A CN115994977A CN 115994977 A CN115994977 A CN 115994977A CN 202211626317 A CN202211626317 A CN 202211626317A CN 115994977 A CN115994977 A CN 115994977A
Authority
CN
China
Prior art keywords
layer
output
vector
point cloud
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211626317.7A
Other languages
English (en)
Inventor
李杨
肖尧
刚家林
余庆军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft University of Information
Original Assignee
Dalian Neusoft University of Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft University of Information filed Critical Dalian Neusoft University of Information
Priority to CN202211626317.7A priority Critical patent/CN115994977A/zh
Publication of CN115994977A publication Critical patent/CN115994977A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,包括,获取三维物体的三维点云;将所述三维点云输入点云编码器,三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、全连接层;将输出特征向量F1输入点云解码器,经点云解码器进行处理得到输出向量,分别将输出向量转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构为在传统金字塔结构的基础上增加了自底向上的路径聚合网络、跨层级连接以及混合注意力模块。能较好地生成缺失点云,提高了准确率,同时在更少的网络参数情况下具有更优的性能。

Description

一种基于混合注意力机制的双向金字塔结构的三维点云补全方法
技术领域
本发明涉及三维点云补全领域,尤其涉及一种基于混合注意力机制的双向金字塔结构的三维点云补全方法。
背景技术
三维重建技术可以对各种三维场景进行自动构建,从而减少人工设计费用以及缩短设计周期等,为社会生活创造巨大的经济效益。点云是数字化时代最具代表性的三维数据,是现实世界映射到数字世界的最精准的表现形式。点云数据由于具有空间细节丰富、采集方便等优点,成为许多场景理解相关应用的首选表示。
在真实的扫描环境中,直接从三维传感器获取的点云往往因为传感器分辨率的限制或者一些物体遮挡等因素导致生成的点云是稀疏的、不完整的。点云模型的不完整性会对后续应用产生严重的影响。因此,点云缺失数据的补全成为了三维模型研究与应用的关键。点云补全技术可应用于以下领域:
(一)智慧城市:利用激光扫描与倾斜摄影测量城市三维点云数据,通过点云补全技术可以更全面、更精细、更实时、更真实地可视化与定量化城市三维模型。
(二)文物推广:利用三维扫描设备采集陶艺等作品的三维彩色点云数据,通过点云补全等方法得到完整的优化彩色点云信息,从而进行数字化的推广与宣传。
(三)医学影像分析:基于医学点云数据的补全、分类、分割、配准、目标检测等任务可以辅助医生进行更为准确的诊断和治疗,在临床医学以及个性化医疗器械辅助设计与3D打印有着重要的应用价值。
(四)机器人&工业自动化:使用三维点云进行补全、聚类、分割后将结果融合到SLAM(即时定位与地图构建)中,进行智能导航。
得益于3D采集技术的蓬勃发展,包括各种类型的3D扫描仪、激光雷达和RGB-D相机在内的3D传感器正在以更低的成本迅速普及,用于展现更加丰富的几何、形状和尺度信息。现阶段3D数据广泛应用于多个领域,包括但不限于自动驾驶、机器人、遥感和医疗等。同时在展现形式上,3D数据也拥有深度图像、点云、网格和体积网格等多种格式。其中,点云作为一种常用的格式,在不进行任何离散化的情况下,保留了三维空间中原始的几何信息。因此,点云数据得到广泛应用。
但在实际的采集数据过程中,由于视线遮挡或技术人员操作不当等原因,获取到的点云模型会存在形状不完整的问题。点云模型的不完整性会对后续应用产生严重的影响。因此,对点云缺失数据进行补全成为了三维重建以及三维数据识别、检测等应用的关键。
相关点云补全技术中,模型结构比较简单,提取点云数据的特征不够丰富、区分度不足,因此对于不同类别的补全点云精确度不高、细节信息不够完整,无法满足高精度点云补全的需求及后续三维数据识别、检测等应用。
发明内容
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,以克服上述技术问题。
一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,包括,
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量
Figure BDA0004003572730000031
分别将输出向量
Figure BDA0004003572730000032
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F′2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure BDA0004003572730000033
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure BDA0004003572730000034
得到输出向量
Figure BDA0004003572730000035
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure BDA0004003572730000036
输出向量
Figure BDA0004003572730000037
得到输出向量
Figure BDA0004003572730000038
优选地,所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。
优选地,所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1))      (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1))       (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,W'1和W'2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F'1
F′1=σ(CA×PA)×Z1+Z1               (3)
其中,σ为Sigmoid函数,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F'2、F'3
优选地,所述双向注意力金字塔结构的多级补全损失函数为公式(4),
Figure BDA0004003572730000051
其中,
Figure BDA0004003572730000052
为输出向量,Fgt、F'gt、F″gt为不同尺度的真实点云,α为超参数,根据公式(5)计算
Figure BDA0004003572730000053
与Fgt之间的倒角距离,根据公式(6)计算
Figure BDA0004003572730000054
与F'gt之间的倒角距离,根据公式(7)计算
Figure BDA0004003572730000055
与F″gt之间的倒角距离,
Figure BDA0004003572730000056
Figure BDA0004003572730000057
Figure BDA0004003572730000058
dCD为倒角距离,用于测量输出向量与真实点云之间平均最近距离。
一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量
Figure BDA0004003572730000061
分别将输出向量
Figure BDA0004003572730000062
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure BDA0004003572730000063
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure BDA0004003572730000064
得到输出向量
Figure BDA0004003572730000065
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure BDA0004003572730000066
输出向量
Figure BDA0004003572730000067
得到输出向量
Figure BDA0004003572730000068
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法流程图;
图2是本发明含有注意力机制的多层感知机结构;
图3是本发明混合注意力模块结构图;
图4是本发明ShapeNet-55的定性结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明方法流程图,如图1所示,本实施例的方法可以包括:
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作横向拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量,多层感知机的不同维度可以提取低、中、高级特征,每一级特征都包含丰富的点云信息,含有注意力机制的多层感知机结构如图2所示。
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过一个全连接层获取特征向量F2,输出特征向量F1通过两个全连接层获取特征向量F3,F1的大小为1024×3,F2的大小为512×3,F3的大小为256×3。通过跳跃连接分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,这种跳跃连接不但提供了远程信息补偿,使原始的不完整点云几何信息在解码器结构中仍然可用,而且残差学习可以促进梯度反向传播,有利于网络收敛。
分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3,采用混合注意力模块来提取有利于推断缺失点云区域的特征。混合注意力模块引入可学习权值来了解不同特征的重要性。不同的输入特征对输出结果的贡献通常是不相等的。对生成缺失点云结构有利的特征权重会大一些,因此利用包含通道注意力和点注意力的混合注意力模块来学习特征之间的权重,结构如图3所示。
所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1))      (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,应用通道平均池化层得到一个大小为C×1的全局特征向量,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1))       (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,应用点平均池化层得到一个大小为1×L的全局特征向量,W′1和W′2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F'1
F′1=σ(CA×PA)×Z1+Z1               (3)
其中,σ为Sigmoid函数,可以将注意力权重归一化到[0,1]区间。通过以上操作,可以使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F'2、F'3
本实施例在传统金字塔结构基础上,不仅添加了自底向上的路径聚合网络,还添加了跨层级连接。通过充分融合具有丰富全局信息的高级特征和具有几何细节信息的低级特征,网络可以更准确的预测点云的缺失结构。同时,引入混合注意模块来学习不同层级特征之间的重要性,进行有选择地融合特征,从而提升点云补全精确度。
将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量
Figure BDA0004003572730000101
即网络预测的不同尺度的缺失点云结构,大小分别为512×3、128×3、64×3。分别将输出向量
Figure BDA0004003572730000102
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构为在传统金字塔结构的基础上增加了自底向上的路径聚合网络、跨层级连接以及混合注意力模块。
其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure BDA0004003572730000103
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure BDA0004003572730000104
得到输出向量
Figure BDA0004003572730000105
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure BDA0004003572730000106
输出向量
Figure BDA0004003572730000107
得到输出向量
Figure BDA0004003572730000108
所述双向注意力金字塔结构的多级补全损失函数为公式(4),
Figure BDA0004003572730000109
其中,
Figure BDA0004003572730000111
为输出向量,Fgt、F'gt、F'g't为不同尺度的真实点云,大小分别为512×3、128×3、64×3,α为超参数,根据公式(5)计算
Figure BDA0004003572730000112
与Fgt之间的倒角距离,根据公式(6)计算
Figure BDA0004003572730000113
与F'gt之间的倒角距离,根据公式(7)计算
Figure BDA0004003572730000114
Figure BDA0004003572730000115
之间的倒角距离,
Figure BDA0004003572730000116
Figure BDA0004003572730000117
Figure BDA0004003572730000118
dCD为倒角距离,用于测量输出向量与真实点云之间平均最近距离。
一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量
Figure BDA0004003572730000121
分别将输出向量
Figure BDA0004003572730000122
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure BDA0004003572730000123
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure BDA0004003572730000124
得到输出向量
Figure BDA0004003572730000125
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure BDA0004003572730000126
输出向量
Figure BDA0004003572730000127
得到输出向量
Figure BDA0004003572730000128
比较了本实施例中的方法和其他方法在ShapeNet-13和ShapeNet-55两个公开数据集的预测FPred→真实FGT和真实FGT→预测FPred两种倒角距离。计算公式如下所示。
Figure BDA0004003572730000129
Figure BDA00040035727300001210
其中,dCD(FPred,FGT)表示FPred与FGT的倒角距离,dCD(FGT,FPred)表示FGT与FPred的倒角距离。
(一)ShapeNet-13数据集结果。比较了本实施例提出的模型与实施例在13个类别上的倒角距离优于其他方法。表明,该方法能较好地生成缺失点云,准确率更好。
表1本实施例与其他方法在ShapeNet-13数据集上的比较结果
Figure BDA0004003572730000131
成对数字为倒角距离×103(距离数值越低,补全结果越好)。
(二)ShapeNet-55数据集结果。比较了本实施例的模型与PF-Net在ShapeNet-55数据集的结果,如表2所示。根据数据集中55个类别的数量将其分为简单等级、中等等级和较难等级。超过2500个数据的类别定义为简单等级。少于80个数据的类别定义为较难等级。处于二者之间属于中等等级。表中数据说明,本实施例的三个等级倒角距离和55个类别的平均倒角距离均小于PF-Net方法。此外,还比较了PF-Net和本实施例可训练参数的数量,本实施例在更少的网络参数情况下具有更优的性能。
表2本实施例与PF-Net在ShapeNet-55数据集上的比较结果
Figure BDA0004003572730000141
同时,展示了Shapenet-55数据集中三个等级的定性结果,如图4所示。每个等级展示了三个示例。对于各种类别,本实施例可以以更高的精度和更多的细节实现缺失点云的补全。
整体的有益效果:
本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,包括,
步骤一、获取三维物体的三维点云;
步骤二、将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,
所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
步骤三、将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F'2、F'3,将输出特征向量F'1、F'2、F'3输入至双向注意力金字塔结构进行处理得到输出向量
Figure FDA0004003572720000011
分别将输出向量
Figure FDA0004003572720000012
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'1的第六连接输出特征,第七全连接层用于提取特征向量F'2的第七连接输出特征,第一卷积层用于提取特征向量F'1的第一卷积输出特征,第二卷积层用于根据特征向量F'2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F'3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure FDA0004003572720000021
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure FDA0004003572720000022
得到输出向量
Figure FDA0004003572720000023
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure FDA0004003572720000024
输出向量
Figure FDA0004003572720000025
得到输出向量
Figure FDA0004003572720000026
2.根据权利要求1所述的一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。
3.根据权利要求1所述的一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,所述分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F'1、F'2、F'3包括,
S31、通过通道注意力模块对向量Z1进行处理得到输出向量CA,所述通道注意力模块包括通道平均池化层、两个全连接层和一个RELU激活函数,根据公式(1)得到向量CA,
CA=W2×RELU(W1×pool(Z1))    (1)
CA为通道注意力模块的输出向量,Z1的大小为C×L,pool是通道平均池化层,W1和W2是两个全连接层的参数,大小分别为C/16×C和C×C/16,RELU为激活函数,
S32、通过点注意力模块对向量Z1进行处理得到输出向量PA,所述点注意力模块包括点平均池化层、两个全连接层和一个RELU激活函数,根据公式(2)得到向量PA,
PA=W′2×RELU(W′1×pool′(Z1))    (2)
其中,PA为点注意力模块的输出向量,pool’是点平均池化层,W′1和W′2是两个全连接层的参数,大小分别为L/16×L和L×L/16,
S33、根据公式(3)对Z1进行处理后得到输出特征向量F′1
F′1=σ(CA×PA)×Z1+Z1    (3)
其中,σ为Sigmoid函数,
S34、分别对Z2、Z3执行S31-S33,得到输出特征向量F′2、F′3
4.根据权利要求1所述的一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,其特征在于,所述双向注意力金字塔结构的多级补全损失函数为公式(4),
Figure FDA0004003572720000031
其中,
Figure FDA0004003572720000032
为输出向量,Fgt、F′gt、F″gt为不同尺度的真实点云,α为超参数,根据公式(5)计算
Figure FDA0004003572720000033
与Fgt之间的倒角距离,根据公式(6)计算
Figure FDA0004003572720000034
与F′gt之间的倒角距离,根据公式(7)计算
Figure FDA0004003572720000035
与F″gt之间的倒角距离,
Figure FDA0004003572720000036
Figure FDA0004003572720000041
Figure FDA0004003572720000042
dCD为倒角距离,用于测量输出向量与真实点云之间平均最近距离。
5.一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,其特征在于,包括,
获取模块,用于获取三维物体的三维点云;
特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F1
预测模块,用于将输出特征向量F1输入点云解码器,所述点云解码器包括第三全连接层、第四全连接层、第五全连接层、混合注意力模块、双向注意力金字塔结构,输出特征向量F1通过第三全连接层获取特征向量F2,输出特征向量F1通过第四全连接层和第五全连接层获取特征向量F3,分别将三维点云与输出特征向量F1、特征向量F2、特征向量F3进行连接并分别表示为Z1、Z2、Z3,分别根据混合注意力模块将Z1、Z2、Z3进行融合得到输出特征向量F′1、F′2、F′3,将输出特征向量F′1、F′2、F′3输入至双向注意力金字塔结构进行处理得到输出向量
Figure FDA0004003572720000043
分别将输出向量
Figure FDA0004003572720000044
转换为不同尺度的三维形状,分别修正所述三维形状的局部几何细节得到完整三维物体形状,其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F′1的第六连接输出特征,第七全连接层用于提取特征向量F′2的第七连接输出特征,第一卷积层用于提取特征向量F′1的第一卷积输出特征,第二卷积层用于根据特征向量F′2、第六连接输出特征得到第二卷积输出特征,第三卷积层用于根据特征向量F′3、第七连接输出特征得到第三卷积输出特征,第一混合注意力模块用于根据第二卷积输出特征和第一卷积输出特征得到第一混合输出特征,第二混合注意力模块用于根据第三卷积输出特征、第二卷积输出特征和第一卷积输出特征得到输出向量
Figure FDA0004003572720000051
第三混合注意力模块用于根据第一混合输出特征、输出向量
Figure FDA0004003572720000052
得到输出向量
Figure FDA0004003572720000053
第四混合注意力模用于根据第一卷积输出特征、输出向量
Figure FDA0004003572720000054
输出向量
Figure FDA0004003572720000055
得到输出向量
Figure FDA0004003572720000056
CN202211626317.7A 2022-12-16 2022-12-16 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法 Pending CN115994977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211626317.7A CN115994977A (zh) 2022-12-16 2022-12-16 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211626317.7A CN115994977A (zh) 2022-12-16 2022-12-16 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法

Publications (1)

Publication Number Publication Date
CN115994977A true CN115994977A (zh) 2023-04-21

Family

ID=85994727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211626317.7A Pending CN115994977A (zh) 2022-12-16 2022-12-16 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法

Country Status (1)

Country Link
CN (1) CN115994977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401794A (zh) * 2023-06-09 2023-07-07 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401794A (zh) * 2023-06-09 2023-07-07 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法
CN116401794B (zh) * 2023-06-09 2023-08-15 四川大学 基于注意力引导的深度点云配准的叶片三维精确重建方法

Similar Documents

Publication Publication Date Title
CN111507222B (zh) 一种基于多源数据知识迁移的三维物体检测框架
CN112418351B (zh) 基于全局与局部上下文感知的零样本学习图像分类方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN112784782B (zh) 一种基于多视角双注意网络的三维物体识别方法
CN114612660A (zh) 一种基于多特征融合点云分割的三维建模方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN115937774A (zh) 一种基于特征融合和语义交互的安检违禁品检测方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN115994977A (zh) 一种基于混合注意力机制的双向金字塔结构的三维点云补全方法
CN112258565A (zh) 图像处理方法以及装置
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
Lechgar et al. Detection of cities vehicle fleet using YOLO V2 and aerial images
CN116664856A (zh) 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质
CN115205654A (zh) 一种新型基于关键点约束的单目视觉3d目标检测方法
CN115222954A (zh) 弱感知目标检测方法及相关设备
CN114445816A (zh) 一种基于二维图像和三维点云的花粉分类方法
CN117152630A (zh) 一种基于深度学习的光学遥感图像变化检测方法
CN116630915A (zh) 一种具有关系增广注意力的逆序分层鸟瞰图推理方法
CN116433904A (zh) 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN116030292A (zh) 基于改进ResNext的混凝土表面粗糙度检测方法
Alaba et al. Multi-sensor fusion 3D object detection for autonomous driving
WO2022175057A1 (en) Apparatus, system and method for translating sensor label data between sensor domains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination