CN113012122B

CN113012122B - 一种类别级6d位姿与尺寸估计方法及装置

Info

Publication number: CN113012122B
Application number: CN202110266160.0A
Authority: CN
Inventors: 付彦伟; 林海涛; 薛向阳
Original assignee: Fudan University
Current assignee: Shanghai Yuanmu Intelligent Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-07-29
Anticipated expiration: 2041-03-11
Also published as: US11593957B2; CN113012122A; US20220292698A1

Abstract

本发明提供了一种类别级6D位姿与尺寸估计方法及装置，基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计，其特征在于，包括如下步骤：基于相机内参将深度观测数据重投影到三维空间并归一化，得到目标物体的部分观测点云数据；根据目标物体从模板点云数据库中选出与目标类型相同的规范化模板点云数据；基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸。本发明的类别级6D位姿与尺寸估计方法及装置，可以准确估计出类别已知但未见过实例物体的6D位姿和尺寸，具有较高的准确性、泛化能力以及实用性。

Description

一种类别级6D位姿与尺寸估计方法及装置

技术领域

本发明属于数据识别领域，具体涉及一种类别级6D位姿与尺寸估计方法及装置。

背景技术

在增强现实、场景理解任务中，尤其是机器人应用领域，准确估计目标物体的6D位姿(空间中的3D位移和3D旋转)尤为重要。目前大多数现有技术在“实例级”6D物体位姿估计已经达到非常高的精度，但是这些方法都比较依赖事先提供的关于相关目标物体的精确三维模型，从而限制了算法泛化推广到未知实例的能力。

近年来，“类别级”6D物体位姿和尺寸估计技术尝试解决上述问题。目前绝大多数方法是考虑从彩色(RGB)或者RGB-深度(RGB-D)通道提取特征进而进行估计。但由于同类别内的物体在几何、纹理上会存在类别内差异，使得现有模型的泛化能力较差。例如：

文[1]中先将实例物体的彩色像素观测(RGB)映射到归一化的规范表示空间(NOCS)中，然后根据其实际深度观测(D)和规范表示空间中表达式之间的仿射变换关系得到实际6D位姿和尺寸，但该方法主要学习从像素观测到规范空间的映射关系，纹理上的极大的类内差异使得其估计效果较差。

文[2]中则是提取RGB-D通道的特征并进行融合，但其实验结果表明，使得模型性能提升的因素是RGB通道提取的特征为主。而RGB和D通道存在固有差异，文[2]中的融合方式难以充分探索和利用来自D通道的几何信息。

文[3]中是通过帧跟踪的方式来进行目标物体的实时6D位姿估计，但该方法需要事先提供目标物体初始的6D位姿和尺寸，另外，该方法中的一个网络模型只能针对单一类别内物体，限制了其拓展到移动设备上的潜力。

综上，现有的类别级6D位姿和尺寸估计方法泛化能力均较差。

参考文献

[1]Wang H,Sridhar S,Huang J,et al.Normalized object coordinate spacefor category-level 6d object pose and size estimation[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2019:2642-2651.

[2]Tian M,Ang M H,Lee G H.Shape Prior Deformation for Categorical 6DObject Pose and Size Estimation[C]//European Conference on ComputerVision.Springer,Cham,2020:530-546.

[3]Wang C,Martín-Martín R,Xu D,et al.6-pack:Category-level 6d posetracker with anchor-based keypoints[C]//2020IEEE International Conference onRobotics and Automation(ICRA).IEEE,2020:10059-10066.

发明内容

为解决上述问题，提供了一种能够针对不同的类别已知但未见过实例的目标物体进行6D位姿与尺寸估计，本发明采用了如下技术方案：

本发明提供了一种类别级6D位姿与尺寸估计方法，基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计，其特征在于，包括如下步骤：步骤S1-1，基于相机内参将深度观测数据重投影到三维空间并归一化，从而得到目标物体的部分观测点云数据；步骤S1-2，根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据；步骤S1-3，基于部分观测点云数据以及规范化模板点云数据利用预先训练好的几何特征学习网络对目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸，其中，几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络，朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向，从而得到与目标物体朝向一致的模板模型的朝向一致点云数据，并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册，从而得到目标物体的3D朝向，几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复，从而得到反射对称点云数据，尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据，并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸，根据3D朝向以及中心坐标得到预测位姿，并将空间尺寸作为预测尺寸。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，尺度估计子网络包括稠密中心投票模块以及尺寸估计模块，尺度估计子网络为去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量，并从去中心化点云组数据中提取得到尺度特征，稠密中心投票模块基于预测偏移向量通过加权机制裁决得到目标物体的中心坐标，尺寸估计模块根据尺度特征得到目标物体的空间尺寸。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，模板点云数据库的构建包括如下步骤：步骤S2-1，从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型；步骤S2-2，依次对模板模型进行采样，得到每一类别的三维模板形状点云；步骤S2-3，利用最远距离采样算法依次从三维模板形状点云中采样出多个用于表征物体形状的稀疏关键点，作为每一类别物体的模板点云数据；步骤S2-4，依次将模板点云数据中的大小、中心位置以及朝向进行规范化处理，得到每一模板模型对应的规范化模板点云数据。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，图像包括RGB图像以及与该RGB图像对齐的深度图像，深度观测数据包括如下预处理步骤：步骤S3-1，利用实例分割技术从RGB图像中分割得到目标物体的分割掩膜以及目标物体的预测类别；步骤S3-2，基于分割掩膜从深度图像中提取得到目标物体的深度观测数据。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，几何反射对称子网络对部分观测点云数据进行的反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，几何特征学习网络训练过程中预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据，并对该合成深度数据进行重投影得到用于训练的部分观测点云数据，作为物体局部点云数据。

根据本发明提供的一种类别级6D位姿与尺寸估计方法，还可以具有这样的技术特征，其中，几何特征学习网络训练过程中基于预定的损失函数进行训练更新，损失函数包括关键点重建损失、对称性预测损失、向心距离加权向量损失以及尺寸估计损失。

本发明提供了一种类别级6D位姿与尺寸估计装置，基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计，其特征在于，包括：深度数据处理模块，基于相机内参将深度观测数据重投影到三维空间并归一化，从而得到部分观测点云数据；模板点云确定模块，根据目标物体的目标类别利用预先训练好的几何特征学习网络从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据；以及位姿尺寸预测模块，基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸，其中，几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络，朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向，从而得到与目标物体朝向一致的模板模型的朝向一致点云数据，并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册，从而得到目标物体的3D朝向，几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称，从而得到反射对称点云数据，尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据，并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸，根据3D朝向以及中心坐标得到预测位姿，并将空间尺寸作为预测尺寸。

发明作用与效果

根据本发明的一种类别级6D位姿与尺寸估计方法及装置，由于根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据，从而让后续的几何特征学习网络能够学习并归纳出同一类别内物体在几何上的类内差异以及语义形状对应关系。因此，可以针对不同类别已知但未见过实例的目标物体进行6D位姿与尺寸估计，具有较好的泛化能力。

由于朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向，从而得到与目标物体朝向一致的模板模型的朝向一致点云数据，因此隐式学习了类内物体的语义对应关系，间接恢复物体的3D朝向，充分利用了深度观测数据更具有区分性、类内误差相对小的特点，从而克服了同类别内的物体在几何、纹理上会存在类别内差异的问题。

另外，由于几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复从而得到反射对称点云数据，因此通过物体在几何上存在反射对称的先验假设，实现物体的朝向表征解耦和形状理解，并且可以为点云补全操作从而获得更完整形状。

由于尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据，因此将点云搬移到与真实中心更接近的中心位置进行了进一步优化，从而减小了预测偏移，为后续逐点潜在中心偏移向量和整体尺寸提供更为准确的预测。

通过本发明的类别级6D位姿与尺寸估计方法及装置，可以准确估计出类别已知但未见过实例物体的6D位姿和尺寸，具有较高的准确性、泛化能力以及实用性。可以应用在工业领域、AR领域，例如，工业中机械臂可以根据6D位姿与尺寸估计结果更精准地抓取放置目标物。

附图说明

图1为本发明实施例的一种类别级6D位姿与尺寸估计方法的流程图；

图2为本发明实施例的规范化模板点云数据的示例图；

图3为本发明实施例的几何特征学习网络的结构示意图；以及

图4为本发明实施例的位姿与尺寸估计实验结果对比图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种类别级6D位姿与尺寸估计方法及装置作具体阐述。

<实施例>

本实施例中一种类别级6D位姿与尺寸估计方法及装置是对类别已知但是未见过的实例物体(即目标物体)进行估计。

图1为本发明实施例的一种类别级6D位姿与尺寸估计方法的流程图。

如图1所示，一种类别级6D位姿与尺寸估计方法包括如下步骤：

步骤S1-1，基于相机内参将深度观测数据重投影到三维空间并归一化，从而得到部分观测点云数据。

其中，深度观测数据基于利用相机拍摄到的RGB图像以及与该RGB图像对齐的深度图像得到，包括如下预处理步骤：

步骤S3-1，利用实例分割技术从RGB图像中分割得到目标物体的分割掩膜以及目标物体的预测类别；

步骤S3-2，基于分割掩膜从深度图像中提取得到目标物体的深度观测数据。

步骤S1-2，根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据。

其中，模板点云数据库的构建包括如下步骤：

步骤S2-1，从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型。

本实施例中，3D数据库为ShapeNet数据集，该ShapeNet数据集中包含各种常见类别的物体的计算机辅助设计生成的CAD模型，从所有类别中选择6个常见的类别(如图2所示，分别为饮料瓶、碗、相机、罐头、笔记本电脑以及马克杯)作为本发明的类别级6D位姿与尺寸估计方法及装置的实验基础。

同时，从每个常见类别的多个CAD模型中随机选取一个作为该常见类别的模板模型。

另外，对6个常见类别的所有的CAD模型按照80:20的比例划分训练用数据集与测试用数据集。

步骤S2-2，依次对模板模型进行采样，得到每一类别的三维模板形状点云。

本实施例中，利用Meshlab软件提供的泊松盘采样在CAD模板模型上进行采样，得到顶点个数约3000-5000的三维模板形状点云。

步骤S2-3，利用最远距离采样算法依次从三维模板形状点云中采样出多个用于表征物体形状且具有最远距离的稀疏关键点，作为每一类别物体的模板点云数据，从而最大限度保留三维模板形状点云的几何形状。

步骤S2-4，依次将模板点云数据中的大小、中心位置以及朝向进行规范化处理，得到每一模板模型对应的规范化模板点云数据。

步骤S1-3，基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸。

图3为本发明实施例的几何特征学习网络的结构示意图。

如图3所示，几何特征学习网络包括朝向一致性子网络(简称3D-OCR)、几何反射对称子网络(简称GeoReS)以及尺度估计子网络(简称MPDE)。

朝向一致性子网络为一个用于处理点云朝向的编解码器，几何反射对称子网络为一个用于处理点云对称的编解码器，尺度估计子网络为一个用于处理点云尺寸的编解码器。

具体地，朝向一致性子网络中的编码器从规范化模板点云数据中提取到模板形状特征

几何反射对称子网络中的编码器从部分观测点云数据中提取到观测物体形状特征

朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向，从而得到与目标物体朝向一致的模板模型的朝向一致点云数据，并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册，从而得到目标物体的3D朝向。

具体地，朝向一致性子网络将模板形状特征

观测物体形状特征

以及规范化模板点云数据

进行拼接生成朝向逐点嵌入编码，再通过朝向一致性子网络中的解码器进行预测，得到朝向一致点云数据

另外，本实施例中利用正交Procrustes求仿射变换对规范化模板点云数据

以及朝向一致点云数据

进行点云注册，从而得到目标物体的3D朝向，即目标物体在相机坐标系下的转矩阵

几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复，完成对部分观测点云数据进行补全，从而得到反射对称点云数据。

具体地，几何反射对称子网络将模板形状特征

观测物体形状特征

以及部分观测点云数据

(即部分物体点云)进行拼接生成几何逐点嵌入编码，再通过几何反射对称子网络中的解码器进行预测，得到反射对称点云数据

该反射对称点云数据

与部分观测点云数据

为反射对称关系。

另外，反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。

尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据，并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸。

其中，尺度估计子网络包括稠密中心投票模块以及尺寸估计模块。

尺度估计子网络为去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量，并从去中心化点云组数据中提取得到尺度特征。

稠密中心投票模块基于预测偏移向量通过加权机制裁决得到目标物体的中心坐标。

具体地，将部分观测点云数据

与反射对称点云数据

组合为点云组数据，尺度估计子网络对该点云组数据进行去中心化处理得到去中心化点云组数据

尺度估计子网络中的编码器从去中心化点云组数据中提取得到尺度特征

将尺度特征

与去中心化点云组数据

进行拼接生成尺寸逐点嵌入编码，并由尺度估计子网络中的解码器生成逐点的预测向心偏移向量

其中，2N为新点云组

中点云数目。

尺寸估计模块根据尺度特征得到目标物体的空间尺寸。

具体地，尺寸估计模块通过全连接层从尺度特征

中获得目标物体的空间尺寸大小。

根据3D朝向以及中心坐标得到预测位姿，并将空间尺寸作为预测尺寸。

在几何特征学习网络训练过程中，不需要采集包含目标物体的深度图像以及RGB图像，而是通过合成手段基于每一类别的不同CAD模型的相关数据进行合成，从而得到合成深度数据作为训练几何特征学习网络的训练数据。具体地：

需要预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据，并对该合成深度数据进行重投影得到用于训练的部分观测点云数据，作为物体局部点云数据。

首先，通过随机设置相机位姿从而完成对深度图片的渲染，得到每个CAD模型在不同视角下对应的渲染深度图，并记录相机位姿的相机外参。其中，通过渲染软件Blender编程渲染深度图片，每个CAD模型选取60张不同视角下的渲染深度图作为合成深度数据，并获取合成深度数据中每一张渲染深度图的相机内部参数和外部参数作为相机参数。

其次，对合成深度数据进行重投影得到用于训练的部分观测点云数据，作为物体局部点云数据。

接下来，对合成深度数据、规范化模板点云数据以及对应的相机参数进行处理，得到朝向一致性点云真实值以及物体对称性点云真实值，根据物体局部点云数据对应的相机内参得到物体局部点云数据的中心真实值以及尺寸真实值。

然后，基于物体局部点云数据、规范化模板点云数据、朝向一致性点云真实值、物体对称性点云真实值、中心真实值以及尺寸真实值对几何特征学习网络训练。

另外，在训练过程中，尺度估计子网络直接将部分观测点云数据与真实值对称点云组成点云组数据，并进行后续的去中心化。

在上述几何特征学习网络训练过程中基于预定的损失函数进行训练更新。该损失函数包括关键点重建损失(Keypoint Reconstruction Loss)、对称性预测损失(SymmetryPrediction Loss)、向心距离加权向量损失(Centripetal Distance-weighted VectorLoss)以及尺寸估计损失(Size Loss)。

其中，关键点重建损失用于使得朝向一致点云数据中的顶点逼近真实坐标；对称性预测损失用于监督反射对称点云数据的学习和生成；向心距离加权向量损失用于监督逐点产生一个指向目标物体潜在中心的方向权重向量，以及后续最终中心点的裁决；尺寸估计损失用于监督网络对尺寸的回归精度。

几何特征学习网络利用反向传播算法以梯度下降算法优化训练得到。具体地，利用Adam优化器对网络进行优化，系数betas＝(0.9,0.999)，权重衰减系数为0。总共训练大约200轮直至收敛，初始学习率为1e-4，每过20轮学习率降为原来的0.75。

本实施例的类别级6D位姿与尺寸估计装置包括深度数据处理模块、模板点云确定模块以及位姿尺寸预测模块。本实施例中，类别级6D位姿与尺寸估计装置是类别级6D位姿与尺寸估计方法得到的，基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计，并可应用于嵌入式设备。

深度数据处理模块基于相机内参将深度观测数据重投影到三维空间并归一化，从而得到目标物体的部分观测点云数据。

模板点云确定模块根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据。

位姿尺寸预测模块基于部分观测点云数据以及规范化模板点云数据利用预先训练好的几何特征学习网络对目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸。

为了验证本发明的类别级6D位姿与尺寸估计方法及装置的效果，针对从ShapeNet数据集中选取6个常见类别CAD模板模型的测试用数据集，与参考文献[1]中的NOCS方法、参考文献[2]中的DeformNet方法以及参考文献[3]中的6-PACK方法进行实验对比。

实验结果从3DIoU(>k％)、n度m厘米的平均精度(mAP)、准确度(Accuracy)以及网络模型大小三个方面进行评估。

其中，mAP-3DIoU(>k％)具体指标为3DIoU(>50％)和3DIoU(>75％)。mAP-n度m厘米具体指标为5度2厘米，5度5厘米、10度2厘米和10度5厘米。Accuracy-n度m厘米指标为5度5厘米。

mAP-3DIoU(>k％)、mAP-n度m厘米和Accuracy-n度m厘米评估标准最大值100，值越大越理想，而网络模型大小数值越小越理想，单位为MBit。

图4为本发明实施例的位姿与尺寸估计实验结果对比图。

如图4所示，本发明的mAP-3DIoU中各个指标值均高于NOCS与DeformNet，mAP-n度m厘米高于DeformNet与6-PACK，模型大小远远小于DeformNet与6-PACK。

综上，本发明的类别级6D位姿与尺寸估计方法及装置不仅具有较高的估计准确率，并且因模型体积小，从而使得将本发明的估计方法直接应用在移动设备上成为可能，更加具有实用性。

另外，DeformNet模型大小为73.3MBit，该模型是对应了多个类别的大小，即单个模型可应用到多个类别中。

6-PACK模型大小为81.5MBit，该模型只对应了一个类别，即单个模型对应单个类别。相较于DeformNet与本发明的模型而言，泛化性能较差。

而DeformNet模型虽然与本发明一样，都可以单个模型应用到多个类别中，但是本发明的模型大小远远小于DeformNet模型，且准确性优于DeformNet。因此，本发明的方法不仅具有较好的泛化性，还具有较高的准确性以及实用性。

其中，NOCS方法的未对Accuracy进行评价，所以图4中对应位置为空值，而模型大小方面由于该NOCS模型集成了实例分割和6D位姿和尺寸估计网络，而本实验部分只是为了比对6D位姿和尺寸估计网络模型的大小，所以图4中NOCS模型大小值为空。

另外，由于6-PACK方法为跟踪方法，从而无法计算平均精度指标，故图4中mAP-3DIoU中各个指标值均为空值。

实施例作用与效果

根据本实施例提供的类别级6D位姿与尺寸估计方法及装置，由于根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据，从而让后续的几何特征学习网络能够学习并归纳出同一类别内物体在几何上的类内差异和语义形状对应关系。因此，可以针对不同类别已知但未见过实例的目标物体进行6D位姿与尺寸估计，具有较好的泛化能力。

另外，由于几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称，并对部分观测点云数据进行补全，从而得到反射对称点云数据，因此通过物体在几何上存在反射对称的先验假设，实现物体的朝向表征解耦和形状理解，并且可以为点云补全操作从而获得更完整形状。

另外，实施例中，由于训练集从6个常见类别的所有的CAD模型中选出，因此使得最后训练好的几何特征学习网络具有较高的准确性，且因为几何特征学习网络训练过程中的训练数据通过合成手段基于每一类别的不同CAD模型的相关数据合成得到，而无需采集真实环境中的数据，从而避免了繁杂的人工6D位姿数据标注过程，减少了工作量。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

在实施例中，模板点云数据库包括6个常见类别的规范化模板点云数据，在本发明的其他方案中，模板点云数据库可以根据实际应用场景调整规范化模板点云数据的种类与数量。

Claims

1.一种类别级6D位姿与尺寸估计方法，基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计，其特征在于，包括如下步骤：

步骤S1-1，基于所述相机内参将所述深度观测数据重投影到三维空间并归一化，从而得到所述目标物体的部分观测点云数据；

步骤S1-2，根据所述目标物体的目标类别从预定的模板点云数据库中选出与所述目标类型相同的模板模型对应的规范化模板点云数据；

步骤S1-3，基于所述部分观测点云数据以及所述规范化模板点云数据利用预先训练好的几何特征学习网络对所述目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸，

其中，所述几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络，

所述朝向一致性子网络基于所述部分观测点云数据在3D朝向上的语义信息调整所述规范化模板点云数据对应的朝向，从而得到与所述目标物体朝向一致的模板模型的朝向一致点云数据，并利用仿射变换对所述规范化模板点云数据以及所述朝向一致点云数据进行点云注册，从而得到所述目标物体的3D朝向，

所述几何反射对称子网络基于所述规范化模板点云数据对所述部分观测点云数据对应的目标物体进行反射对称性点云恢复从而得到反射对称点云数据，

所述尺度估计子网络基于所述部分观测点云数据以及所述反射对称点云数据进行去中心化处理从而得到去中心化点云组数据，并基于该去中心化点云组数据得到所述目标物体的中心坐标以及所述目标物体的空间尺寸，

根据所述3D朝向以及所述中心坐标得到所述预测位姿，并将所述空间尺寸作为所述预测尺寸，

所述模板点云数据库的构建包括如下步骤：

步骤S2-1，从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型；

步骤S2-2，依次对所述模板模型进行采样，得到每一类别的三维模板形状点云；

步骤S2-3，利用最远距离采样算法依次从所述三维模板形状点云中采样出多个用于表征物体形状的稀疏关键点，作为每一类别物体的模板点云数据；

步骤S2-4，依次将所述模板点云数据中的大小、中心位置以及朝向进行规范化处理，得到每一模板模型对应的所述规范化模板点云数据。

2.根据权利要求1所述的类别级6D位姿与尺寸估计方法，其特征在于：

其中，所述尺度估计子网络包括稠密中心投票模块以及尺寸估计模块，

所述尺度估计子网络为所述去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量，并从所述去中心化点云组数据中提取得到尺度特征，

所述稠密中心投票模块基于所述预测偏移向量通过加权机制裁决得到所述目标物体的中心坐标，

所述尺寸估计模块根据所述尺度特征得到所述目标物体的空间尺寸。

3.根据权利要求1所述的类别级6D位姿与尺寸估计方法，其特征在于：

其中，所述图像包括RGB图像以及与该RGB图像对齐的深度图像，

所述深度观测数据包括如下预处理步骤：

步骤S3-1，利用实例分割技术从所述RGB图像中分割得到所述目标物体的分割掩膜以及所述目标物体的预测类别；

步骤S3-2，基于所述分割掩膜从所述深度图像中提取得到所述目标物体的深度观测数据。

4.根据权利要求1所述的类别级6D位姿与尺寸估计方法，其特征在于：

其中，所述几何反射对称子网络对所述部分观测点云数据进行的反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。

5.根据权利要求1所述的类别级6D位姿与尺寸估计方法，其特征在于：

其中，所述几何特征学习网络训练过程中预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据，并对该合成深度数据进行重投影得到用于训练的部分观测点云数据，作为物体局部点云数据。

6.根据权利要求1所述的类别级6D位姿与尺寸估计方法，其特征在于：

其中，所述几何特征学习网络训练过程中基于预定的损失函数进行训练更新，

所述损失函数包括关键点重建损失、对称性预测损失、向心距离加权向量损失以及尺寸估计损失。

7.一种类别级6D位姿与尺寸估计装置，基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计，其特征在于，包括：

深度数据处理模块，基于所述相机内参将所述深度观测数据重投影到三维空间并归一化，从而得到所述目标物体的部分观测点云数据；

模板点云确定模块，根据所述目标物体的目标类别从预定的模板点云数据库中选出与所述目标类型相同的模板模型对应的规范化模板点云数据；以及

位姿尺寸预测模块，基于所述部分观测点云数据以及所述规范化模板点云数据利用预先训练好的几何特征学习网络对所述目标物体的6D位姿及尺寸进行估计，得到对应的预测位姿与预测尺寸，

所述几何反射对称子网络基于所述规范化模板点云数据对所述部分观测点云数据对应的目标物体进行反射对称性点云恢复，从而得到反射对称点云数据，

所述模板点云数据库的构建包括如下步骤：