CN116958958A

CN116958958A - 基于图卷积双流形状先验自适应类别级物体姿态估计方法

Info

Publication number: CN116958958A
Application number: CN202310963602.6A
Authority: CN
Inventors: 黄章进; 邹露
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-27
Anticipated expiration: 2043-07-31

Abstract

本发明公开了一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，包括：S1、输入物体RGB‑D图像数据和物体三维CAD模型集合数据；S2、获取物体类别级形状先验点云；S3、获取物体在深度相机下的下采样前点云；S4、多尺度图卷积网络提取多尺度姿态感知物体特征；S5、多层感知机网络提取多尺度形状感知物体特征；S6、对多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合，得到物体描述符；S7、从特征融合获得变形场和对应关系矩阵；S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示，实现物体姿态估计。本发明更高效和准确，解决了类别级物体姿态估计中姿态感知不足的问题。

Description

基于图卷积双流形状先验自适应类别级物体姿态估计方法

技术领域

本发明涉及计算机视觉和物体姿态估计技术领域，尤其涉及一种基于图卷积双流形状先验自适应类别级物体姿态估计方法。

背景技术

近年来，基于深度学习的六自由度(6D)物体姿态估计技术受到广泛关注。因为深度学习方法提取的物体特征具有较强的鲁棒性，使得结合深度学习的物体姿态估计技术在性能上取得了显著提升。同时，低成本的三维传感器的出现使得获取三维数据变得更加简单，丰富的公开数据集有助于研究人员对模型性能进行评估和分析，这进一步推动了物体姿态估计相关研究的发展。

但是在实际的应用中，6D物体姿态估计在真实环境中，获取物体的三维CAD模型往往非常困难，因此实例级方法在实际应用中存在一定的局限性。为了克服这一困难，一些最近的研究开始探索在测试阶段无需物体CAD模型的类别级6D物体姿态估计方法。由于物体的CAD模型未知，类别级任务不仅需要预测未知实例的6D物体姿态，还需预测其3D尺寸。为解决上述的问题，现有的归一化物体坐标空间NOCS，在规范化空间中为具有相同尺度和方向的不同实例重建其对应的三维模型，并根据重建的三维模型得到其对应的规范化坐标，通过实例点云和规范化坐标之间的稠密关联，再利用Umeyama算法结合RANSAC算法实现姿态估计。同时现有的另一种规范形状空间表示方法CASS，该方法的核心思想是利用与姿态无关的三维形状表示来重构物体三维模型。但是，由于以上两种方法提出的规范化表示缺乏对同一类别不同实例之间形状变化的明确表示，限制了其6D姿态估计的准确性。

针对上述问题，SPD模型提出利用类别级形状先验重构规范化物体，尽管SPD在一定程度上减轻了类内差异对姿态估计的准确率造成的影响，然而该方法将同一类别的所有实例限制在了同一个形状空间，忽略了同一类物体之间的形状差异。同时现有的另一种结构引导的类别级形状先验表示方法SGPA，利用transformer神经网络来学习实例点云与类别统一的形状先验之间的相关性，为不同形状的实例赋予各自的形状先验。但是形状先验适应方法通常只是将观测到的点云映射到标准化的物体空间，这样会导致提取的物体特征不足以感知物体的姿态。因此，如何提供一种基于图卷积双流形状先验自适应类别级物体姿态估计方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，本发明相对现有的方法来说更高效和准确，解决了类别级物体姿态估计中姿态感知不足的问题。

根据本发明实施例的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，包括：

S1、输入摄像机采集的物体RGB-D图像数据和物体三维CAD模型集合数据；

S2、从物体三维CAD模型集合数据库中获取物体类别级形状先验点云；

S3、对物体RGB-D图像数据进行预处理，获取物体在深度相机下的下采样前点云；

S4、通过多尺度图卷积网络从下采样前点云中提取多尺度姿态感知物体特征；

S5、通过多层感知机网络从先验点云中提取多尺度形状感知物体特征；

S6、对提取的多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合，得到物体描述符；

S7、利用形状先验适应方法从特征融合获得变形场和对应关系矩阵；

S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示，并实现物体姿态估计。

可选的，所述S2具体包括：

S21、利用SPD技术中的自动编码器网络对物体三维CAD模型集合数据库进行训练；

S22、通过将同一类别的所有物体的平均编码作为解码器的输入，解码获得类别级的类别级形状先验点云。

可选的，所述S3具体包括：

S31、使用MASK R-CNN对物体RGB-D图像数据中的物体进行分割和检测；

S32、将MASK R-CNN得到的物体掩码区域映射到物体的深度图像上，获得物体的深度区域；

S33、利用摄像机参数将物体的深度区域信息转换为物体的三维点云，作为摄像机的下采样前点云。

可选的，所述摄像机的下采样前点云为：

其中，P₀表示点云，表示实数集，N₀表示点云中点的个数，每个点具有X、Y、Z三个坐标。

可选的，所述S4具体包括：

S41、多尺度图卷积网络分为五个图卷积层和两个图最大池化层；

其中，图卷积层的卷积核个数为[128,128,256,256,512]，图最大池化层采用固定的下采样比例为4；

S42、图卷积层从下采样前点云中学习姿态感知的物体特征，图最大池化层对学习到的特征进行聚合和压缩；

S43、每两个连续的图卷积层之间插入一个图最大池化层，在多尺度图卷积网络的最后添加了一个传统的最大池化层，以获得每个点的全局物体描述符；

其中，多尺度图卷积网络产生六个输出特征F_p分别对应不同尺度下的特征表示，F_p为：

其中，[N₀，N₀，N₀/4，N₀/4，N₀/16，N₀]分别表示六个尺度下下采样前点云的个数，[128,128,256,256,512,512]分别表示六个尺度下物体特征的维度。

可选的，所述S5具体包括：

S51、引入三层多层感知机捕获局部先验特征，引入一个两层多层感知机和一个通道最大池化层生成全局先验特征；

其中，三层多层感知机的维度设置为[64,64,64]，两层多层感知机的维度设置为[128,1024]；

S52、将全局先验特征被嵌入到每个先验点云中，用于提取多尺度形状感知物体特征；

多尺度形状感知物体特征包括具有不同尺度的局部先验特征和全局先验特征：

其中，F_s表示局部先验特征和全局先验特征的集合，N_r表示先验点云中点的个数，64和1024分别表示每个先验点云中点对应的特征维度。

可选的，所述S6包括采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。

可选的，所述S6具体包括：

S61、对于下采样前点云P_o中的每个点P_n执行最近邻搜索算法，找到每个点在下采样点云Q_o中最近点的索引i：

其中，函数表示求出满足{}中最近点条件的索引i，i∈{1,2,…,|Q_o|}，n∈{1,2,…,|P_o|}，|Q_o|表示下采样后点云中点的个数，|P_o|表示下采样前点云中点的个数，q_i表示下采样后点云Q_o中的点，p_n表示下采样前点云P_o中的点；

S62、对下采样前点云P_o中的每个点p_n执行特征索引操作，通过索引点q_i的特征来获取其在下采样后点云Q_o中对应的特征；

S63、通过最近邻搜索算法和特征索引操作，将下采样前点云P_o中每个点p_n的特征与不同下采样尺度下的特定点的特征对齐；

S64、将对齐后的多尺度姿态感知物体特征F_p'和多尺度形状感知物体特征F_s进行拼接，得到全面的物体描述符F_obj；

其中，N_o表示经过特征传播机制后六个尺度上的特征都被对齐为具有N_o个点的特征，N_r和N_o均设置为1024；

其中，N_r和N_o均设置为1024；

即F_obj具有1024个2880维特征的物体描述符：

可选的，所述S7中包含形变场解码器和对应矩阵解码器，分别用于回归形变场D_def和对应矩阵A；

形变场回归解码器由三个线性层组成，维度分别为[512,256,N_r*3]，形变场解码器预测先验点云P_r到重建的物体点云的每个点的形变，其中，D_def的每一行d_i表示了形变场中的一个向量，N_r是先验点云中点的数量，即重建的物体点云/>

对应矩阵回归解码器由三个线性层组成，维度分别为[512,256,N_o*N_r]，对应矩阵解码器预测下采样前点云P_o中每个点与其重建的物体点云中所有点之间的软对应关系。

可选的，所述S8中具体包括：

S81、物体标准化坐标通过将对应矩阵A与重建的点云/>进行矩阵相乘而获得：

S82、每个下采样前点云P_o中的点都会被映射到其在重建点云中对应的物体标准化坐标上，通过得到的物体标准化坐标表示物体在三维空间中的位置和方向；

S83、给定下采样前点云Po及其重建的物体标准化坐标使用Umeyama算法结合RANSAC算法计算相似变换参数，包括旋转、平移和缩放，旋转和平移参数对应于物体6D姿态，缩放参数对应于物体尺寸，进而估计物体在在空间中的位置、方向和尺寸下的姿态信息。

本发明的有益效果是：

本发明在类别级别的物体姿态和尺寸估计方面具有显著的优势，通过采用新的双流形状先验适应方法，该方法能够提取姿态感知的物体特征和形状感知的物体特征，并通过多尺度特征传播机制将它们融合为综合的物体描述符，最终实现了精确的物体6D姿态及尺寸估计和准确的三维形状重构，与现有技术相比，本发明的方法不仅准确度更高，而且参数量更少，具有更好的实用性和效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法的流程图；

图2为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法的框架图；

图3为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法在REAL275数据集上进行姿态估计的可视化结果示意图；

图4为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法在REAL275数据集上进行的三维形状重构结果示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，包括：

本实施方式中，S2具体包括：

本实施方式中采用通用的深度图像-点云转换技术，从RGB-D图像中获取物体的下采样前点云：

本实施方式中，摄像机的下采样前点云为：

参考图2，本实施方式中由于摄像机的下采样前点云中具有关于物体姿态的丰富几何信息，为了充分利用相机下采样前点云中宝贵的姿态信息，本实施方式提出了一个多尺度图卷积网络作为特征提取骨干网络，为了学习姿态感知的物体特征：

S43、为了获得紧凑的三维物体描述符，每两个连续的图卷积层之间插入一个图最大池化层，然而，由于这些层都是局部点云运算符，缺乏对物体的全局感知，因此，在多尺度图卷积网络的最后添加了一个传统的最大池化层，以获得每个点的全局物体描述符；

为了在不同尺度上获得更丰富的特征，本实施方式多尺度图卷积网络产生六个输出特征F_p分别对应不同尺度下的特征表示，F_p为：

其中，[N₀，N₀，N₀/4，N₀/4，N₀/16，N₀]分别表示六个尺度下下采样前点云的个数，[128,128,256,256,512,512]分别表示六个尺度下物体特征的维度，图卷积层的感受野中最近邻的数量设置为50，每个核的支撑点数设置为3。

通过实施方式的设置，多尺度图卷积网络能够有效提取下采样前点云中的姿态感知的物体特征，并为后续步骤提供准确且丰富的描述符。

先验点云提供了同一类别物体实例形状的先验知识，反映了物体实例的一般几何结构，这些先验知识对于恢复物体的三维模型和预测物体的姿态至关重要。

为了有效提取先验点云中有价值的形状信息，本实施方式采用了一个三层的多层感知机来捕获局部先验特征，接下来，另外一个两层的多层感知机和一个通道最大池化层被用来生成全局先验特征，最后，这些全局先验特征被嵌入到每个点中，以提供形状感知的物体特征，具体描述为：

通过综合利用这两部分特征，本实施方式能够获得丰富且多尺度的形状信息，为后续步骤提供准确的先验知识。

本实施方式中为了有效地利用物体的姿态和形状信息，提出了一种整合从下采样前点云中提取的姿态感知的物体特征和从先验点云中提取的形状感知的物体特征的方法，然而，由于S4中的图最大池化层操作导致不同下采样层输出的点的数量不同，下采样前点云的特征无法直接与下采样点云的特征进行整合，为了解决这个问题，本实施方式采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。

本实施方式中S6具体包括：

其中，N_r和N_o均设置为1024；

即F_obj具有1024个2880维特征的物体描述符：

通过本实施方式特征传播机制，能够有效整合不同尺度上的物体特征，提供更全面准确的物体描述符。

本实施方式中，S7中包含包含两个解码器，分别为形变场解码器和对应矩阵解码器，分别用于回归形变场D_def和对应矩阵A；

形变场回归解码器由三个线性层组成，维度分别为[512,256,N_r*3]，形变场解码器的任务是预测先验点云P_r到重建的物体点云的每个点的形变，其中，D_def的每一行d_i表示了形变场中的一个向量，N_r是先验点云中点的数量，即重建的物体点云/>

对应矩阵回归解码器由三个线性层组成，维度分别为[512,256,N_o*N_r]，对应矩阵解码器的任务是预测下采样前点云P_o中每个点与其重建的物体点云中所有点之间的软对应关系。

通过形变场解码器和对应矩阵解码器，能够恢复形变场和建立下采样前点云与重建点云之间的对应关系，为后续的物体姿态及尺寸估计提供基础。

本实施方式中，S8中具体包括：

实施例1：

为与已有技术进行公平比较，在训练过程中从反投影的深度图像中采样N_o＝1024个点以获得观测到的实例点云，形状先验中的点数N_r也设置为1024，在两个NVIDIAGeForce RTX 3090GPU上进行实验，批量大小为64。训练所使用的损失函数以及训练方式与SPD技术中的方案相同。

本发明报告了50％和75％阈值下的三维交并比(IoU)的平均精度，以综合评估旋转、平移和尺寸估计的准确性。为了直接比较旋转和平移的误差，还采用了5°2cm、5°5cm、10°2cm、10°5cm和10°10cm的指标。如果旋转和平移误差低于给定的阈值，则认为姿态是正确的。此外，采用倒角距离来评估三维模型重建结果的准确性。

6D姿态及尺寸估计准确率结果如下表1所示：

表1

根据上述表1的结果可以看出本发明方法在REAL275数据集上的所有评估指标都显著优于目前最先进的SGPA技术，取得了最佳的6D姿态和尺寸估计结果。在综合评估旋转、平移和尺寸估计的准确性方面，3D₅₀指标超过了1.6％，3D₇₅指标超过了7.8％。在直接评估旋转和平移估计的准确性方面，5°2cm超过了9.1％，5°5cm超过了12.4％，10°2cm超过了2.2％，10°5cm超过了6.3％。此外，本发明方法的参数数量相比SGPA技术减少了75％。在CAMERA25数据集上，本发明方法取得了与SGPA技术十分接近的结果，然而本发明方法的参数数量相比SGPA技术减少了75％。

三维形状重构误差结果如下表2所示：

表2

根据上述表2的结果，可以看出本发明方法在REAL275数据集中的瓶子、碗、相机、罐子和笔记本电脑这5个物体类别上都取得了最低的形状重构误差，在杯子这个类别上的误差也只比最好的SPD技术低0.01，总共6个类别的平均误差比目前最先进的SGPA技术低0.04，另外，本发明方法在CAMERA25数据集中的瓶子、碗、相机、罐子和杯子这5个物体类别上都取得了最低的形状重构误差，在笔记本电脑这个类别上的误差只比最好的SGPA技术低0.01，总共6个类别的平均误差比目前最先进的SGPA技术低0.01，这些结果表明本发明方法取得了最佳的三维形状重构结果。

由上表1和表2的结果可以看出，本发明提出了双流形状先验适应方法，用于类别级别的物体姿态和尺寸估计，该方法通过整合下采样前点云和先验点云的特征信息，实现了准确的姿态和尺寸估计。

同时根据实施例1的实验结果表明，与其他形状先验适应方法相比，本发明提出的方案仅使用了5.9M的参数就达到了最先进的性能。相比于传统方法，本发明的方法在性能上具有显著的提升，并且参数量较少，具有更高的效率和更低的计算成本。

实施例2：

参考图3可以观察到本发明提出的方法对于6D姿态和物体尺寸的预测结果，图中深色包围盒，相较于SGPA技术的预测结果更接近真实标签，即图中的白色包围盒。

本发明设计了一种新颖的多尺度图卷积网络来从下采样前点云中提取姿态感知的物体特征，并设计了一个多层感知机网络来从先验点云中提取形状感知的物体特征。这两个网络相互补充，能够有效地捕捉物体的几何结构和形状特征。

实施例3：

参考图4可以看到本发明提出的方法重构出的三维物体形状相较于SGPA技术重构出的三维物体形状更加接近物体的真实形状。

通过实施例2-3可以看出，本发明通过聚合多尺度姿态感知物体特征和多尺度形状感知物体特征，生成综合的物体描述符。这样做既能保持姿态敏感的几何稳定性，又能保持类内形状的一致性，提高了姿态和尺寸估计的准确性和鲁棒性。

通过实施例1-3可以看出本发明的方法在类别级别的物体姿态和尺寸估计方面具有显著的优势，通过采用新的双流形状先验适应方法，该方法能够提取姿态感知的物体特征和形状感知的物体特征，并通过多尺度特征传播机制将它们融合为综合的物体描述符，最终实现了精确的物体6D姿态及尺寸估计和准确的三维形状重构，与现有技术相比，本发明的方法不仅准确度更高，而且参数量更少，具有更好的实用性和效率，因此，本发明的方法在计算机视觉、机器人技术等领域具有广泛的应用前景。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，包括：

2.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S2具体包括：

3.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S3具体包括：

4.根据权利要求3所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述摄像机的下采样前点云为：

5.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S4具体包括：

6.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S5具体包括：

7.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S6包括采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。

8.根据权利要求7所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S6具体包括：

其中，N_r和N_o均设置为1024；

即F_obj具有1024个2880维特征的物体描述符：

或/>

9.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S7中包含形变场解码器和对应矩阵解码器，分别用于回归形变场D_def和对应矩阵A；

10.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法，其特征在于，所述S8中具体包括：

S83、给定下采样前点云P_o及其重建的物体标准化坐标使用Umeyama算法结合RANSAC算法计算相似变换参数，包括旋转、平移和缩放，旋转和平移参数对应于物体6D姿态，缩放参数对应于物体尺寸，进而估计物体在在空间中的位置、方向和尺寸下的姿态信息。