CN114863573B

CN114863573B - 一种基于单目rgb-d图像的类别级6d姿态估计方法

Info

Publication number: CN114863573B
Application number: CN202210801201.6A
Authority: CN
Inventors: 姚莉; 刘欢; 杨俊宴; 吴含前
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-09-23
Anticipated expiration: 2042-07-08
Also published as: CN114863573A

Abstract

本发明公开了一种基于单目RGB‑D图像的类别级6D姿态估计方法，本方法引入RGB‑D图像特征融合机制，通过自注意力机制融合RGB‑D图像中目标实例的像素颜色特征和点云几何特征，获取目标实例更好的特征表达；并且引入类别形状隐式编码先验来克服同一类别下不同实例物体之间的形状差异。本方法首先对单幅RGB‑D图片进行目标检测与实例分割，结合深度信息计算出目标实例采样点的三维坐标；根据目标实例的类别输入对应的类别形状编码先验，基于一种多分支的网络结构，分别预测目标实例的点云模型和采样点的对应关系矩阵，进而运算出采样点对应的三维点云坐标；最后解算出目标物体的6D姿态。

Description

一种基于单目RGB-D图像的类别级6D姿态估计方法

技术领域

本发明属于计算机视觉和场景理解领域，涉及一种基于单目RGB-D图像的类别级6D姿态估计方法。

背景技术

由于模糊性（例如视差的存在），基于单目图像的6D姿态估计是一个不适定问题。与实例级6D姿态估计不同，类别级6D姿态估计需要很强的先验知识。目前实例级别的物体6D姿态估计研究取得了很大的进展，但是相比之下，类别级的物体6D姿态估计问题则面临着诸多挑战。首先，在缺少物体三维模型的前提下估计物体6D姿态的准确率不高。其次，同一类别的不同物体实例之间在形状、尺寸、纹理上都会有不同程度的差异，导致算法类别泛化的能力受限。

发明内容

针对以上问题，本发明提供一种基于单目RGB-D图像的类别级6D姿态估计方法，这种方法充分利用了深度学习方法在图像领域的成功以及类别形状编码的先验信息，可以在物体三维模型未知情况下预测物体的6D姿态。

本专利提供一种基于单目RGB-D图像的类别级6D姿态估计方法，包括前置阶段、训练阶段和重建阶段，各阶段如下：

1）前置阶段：

根据包含不同类别的物体实例三维模型数据集，获取每个类别的三维点云隐式形状编码；

2）训练阶段：

训练样本通过单幅的RGB-D图片生成特定目标实例的特征空间，结合对应类别的隐式形状编码先验输入，重建目标实例的标准归一化三维点云，并且进一步预测对应的坐标映射，根据预测的坐标映射与实际的三维坐标映射的差异，以及点云重建的误差，计算综合损失，完成网络的拟合；

3）重建阶段：

训练阶段完成后，对单幅的RGB-D输入图片，进行目标检测与实例分割，并结合深度信息计算出目标实例采样点的三维坐标，根据目标实例的类别输入对应的类别形状编码先验，通过网络预测采样点对应的归一化三维点云坐标，通过Umeyama算法计采样点集与对应实例模型三维坐标点集之间的变换矩阵，进而解算出目标物体的6D姿态。

作为本发明进一步改进，步骤1）前置阶段具体包括如下步骤：

步骤1.1：将同一类别的物体实例统一位姿朝向，缩放到单位尺度，形成标准归一化的三维模型数据集，用

表示，其中C为三维模型的类别数目，N _c为类别c中三维模型的数量，则表示类别c中第i个实例物体的三维点云；

步骤1.2：利用归一化的三维模型数据集

训练一个点云自编码器网络，用

和

分别表示训练好的编码器和解码器；

步骤1.3：利用训练好的点云编码器

对每个三维模型采样点进行编码，三维模型

对应的隐式特征编码用

表示；

步骤1.4：将每个类别中所有物体实例的隐式编码向量逐元素取平均，得到每个类别的平均隐式编码向量，称为类别形状隐式编码，用

表示，则

。

作为本发明进一步改进，所述步骤2）训练阶段的训练样本包括不同场景下的RGB-D图像、图像中对应目标物体的三维模型、分割掩码及类别信息、各个类别的隐式形状编码和目标物体二维像素点对应的归一化点云模型三维坐标映射。

作为本发明进一步改进，步骤2）训练阶段具体包括如下步骤：

步骤2.1：根据目标物体的分割掩码裁剪出物体的RGB图像块，再根据相机内参矩阵和深度图计算物体可视区域每个像素对应的三维坐标，随机采样得到物体的采样点集；

步骤2.2：通过自注意力融合网络提取并融合物体实例的图像特征和点云特征，得到实例RGB-D图像对应的特征；

步骤2.3：根据物体的类别信息输入前置阶段中对应的类别形状编码；

步骤2.4：利用网络的重建分支预测物体在标准归一化空间中的三维点云，并计算出重建点云的误差；

步骤2.5：利用网络的另一分支预测一个辅助的对应关系矩阵；

步骤2.6：对应关系矩阵的每一行为一个采样点对应于重建点云的分类one-hot向量，将对应关系矩阵与重建点云相乘得到每个采样点对应的标准归一化三维模型坐标，计算坐标预测的误差；

步骤2.7：根据步骤4、步骤5和步骤6计算的误差对网络进行反向传播，重复训练直至网络收敛。

作为本发明进一步改进，所述前置阶段步骤1.2中：

点云自动编码器网络训练时，损失函数为采样点云与重建点云的Chamfer距离误差：

其中P为采样点云，

为重建点云，a、b分别表示点集P和

中的采样点坐标。

作为本发明进一步改进，所述训练阶段步骤2.1中：

需要根据深度信息计算目标物体二维像素对应的三维坐标，并随机采样768个坐标点，若目标实例的像素点不足768，则重复采样，补足至足够的采样点。

作为本发明进一步改进，所述训练阶段步骤2.4中：

网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练，其中点云重建误差：

其中S为重建点云的预测值，S _gt为物体标准归一化三维点云模型。

作为本发明进一步改进，所述训练阶段步骤2.5中：

损失函数引入了针对对应关系矩阵的交叉熵损失：

其中M为预测的对应关系矩阵，n是采样点的个数，也就是矩阵M的行数，M[i,j]表示矩阵第i行第j列的元素。

作为本发明进一步改进，所述训练阶段步骤2.6中：

网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练，其中坐标预测误差为：

其中

表示坐标预测值，

表示真实坐标值，

表示

中的一个坐标预测值，

表示在

中与

相对应的真实值。

作为本发明进一步改进，所述训练阶段步骤2.7中：

总的损失为点云重建损失、坐标预测损失和交叉熵损失的加权和：

；

其中

、

分别为不同损失项的权重系数。

本发明与现有技术相比，其显著优点在于：

本发明的方法可以通过单目RGB-D图像预测目标物体对应的6D姿态，解除了6D姿态估计时对物体三维模型的依赖；更有效的克服了类内形状差异性，使得算法模型具有更好的类别泛化能力，预测出更加精确的6D姿态；所用神经网络参数量较小，可以在普通电脑上进行6D姿态估计。

附图说明

图1为本发明实施例的类别级6D姿态估计方法前置阶段类别形状编码先验的获取过程；

图2为本发明实施例的类别级6D姿态估计方法网络训练过程的流程图；

图3为本发明实施例的类别级6D姿态估计方法整体预测阶段的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明。

实施例：本实施例的基于单目RGB-D图像的类别级6D姿态估计方法是基于采样点坐标对应关系的姿态估计方法。

本实施例的方法主要包括前置过程、训练过程与预测过程。

（一）前置阶段

前置阶段是训练与预测过程所通用的。具体来说，如图1所示，将已有的三维模型数据集统一缩放到单位立方体中，并针对同一类别物体统一朝向。对物体三维模型表面采样2048个点，令三维模型采样点云集合为

，其中C为三维模型的类别数目，N _c为类别c中三维模型的数量，

则表示类别c中第i个实例物体的三维点云。首先利用三维数据集

，基于Chamfer距离损失训练图1中的（a）中的自动编码器网络，用

和

分别表示训练好的编码器和解码器。然后利用训练好的点云编码器

得到数据集中每个三维模型

对应的隐式特征编码

。最后将每个类别中所有物体实例的隐式编码向量逐元素取平均，得到每个类别的平均隐式编码向量(将其称为类别形状隐式编码)，用

表示，那么：

。

各个类别形状的隐式编码在类别级三维物体姿态估计任务中被当做先验知识，用来代表具体某一类物体的三维形状隐式编码。

（二）训练阶段

如图2所示，训练阶段完成的任务主要就是用神经网络预测RGB-D图像中像素采样点对应的物体归一化模型三维坐标。训练样本包括不同场景下的RGB-D图像、图像中对应目标物体的三维模型、分割掩码及类别信息、各个类别的隐式形状编码、目标物体二维像素点对应的归一化点云模型三维坐标映射。在该步骤中，网络模型以目标实例对应的图像块、可视点云数据和类别形状隐式编码先验作为输入。整个网络具有两个直接输出，一个是类别形状编码在目标实例特征的指导下重建出的点云，另一个是目标实例结合类别先验预测的点云对应关系矩阵。然后根据网络模型输出的重建点云和对应关系矩阵，得出目标实例像素采样点对应的归一化模型三维坐标；再根据总体的损失函数来训练网络。具体来说：

1、实例特征提取；

使用CNN网络和MLP网络分别对图像输入和点云输入进行特征提取，然后再通过一个Transformer模块将图像特征和点云特征融合，经过MLP和平均池化得到实例的全局特征。

2、将实例全局特征与实例对应的类别形状隐式编码进行融合，在利用FoldingNet解码器对融合的编码进行解码，得到目标实例的重建点云。根据Chamfer距离计算重建损失：

3、将实例的局部融合特征和全局特征，以及类别形状隐式编码进行特征拼接，经过MLP和softmax层输出对应关系矩阵。逐行计算对应关系矩阵的交叉熵损失：

4、根据重建点云和对应关系矩阵，得出像素采样点对应的三维模型坐标映射，并根据数据集给出的真实值计算误差：

5、根据三项误差的加权和对网络进行监督训练。

（三）预测阶段

如图3所示，进行预测阶段时，假设所有的网络都已经训练完毕，在该阶段，输入一张已知相机内参的RGB-D图片就能得到图中各个目标物体相对应的6D姿态。该阶段具体步骤如下：

步骤1：对输入图像进行实例分割，得到图像中目标物体的RGB图像块和对应类别。

步骤2：根据相机内参矩阵和深度信息计算物体可视区域每个像素对应的三维坐标，随机采样得到物体的采样点集。

步骤3：通过网络提取目标物体RGB图像的颜色特征和采样点的几何特征。

步骤4：根据物体的类别信息输入前置阶段中对应的类别形状编码。

步骤5：训练好的网络根据实例特征和对应的类别形状编码，预测出目标物体的归一化点云坐标和对应关系矩阵。

步骤6：对应关系矩阵与重建点云相乘得到每个采样点对应的标准归一化三维模型坐标。

步骤7：根据采样点与归一化重建点云坐标的对应关系，利用Umeyama算法拟合两者之间的变换矩阵，进而分解出旋转和平移分量，得到物体的6D位姿。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。