CN114862951A

CN114862951A - 一种将旋转和平移相解耦的6d位姿估计方法

Info

Publication number: CN114862951A
Application number: CN202210456048.8A
Authority: CN
Inventors: 李智勇; 李峥嵘; 陈文锐
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-05

Abstract

本发明公开了一种将旋转和平移相解耦的6D位姿估计方法，包括将RGBD图片进行图像分割得到包含目标的点云和RGB图片；分别提取包含目标的点云和RGB图片的特征，并根据特征估计目标的旋转；使用得到的目标的旋转对包含目标的点云进行旋转，得到与相机点云同方向的目标点云，然后估计点云的平移；点云平移为与相机点云同方向的目标点云，和相机点云之间的平移；通过迭代对目标的旋转和点云的平移进行优化，得到最终优化的6D位姿估计结果。本发明设计了一种将目标旋转和平移分开进行估计的网络框架，该框架通过先估计目标旋转，然后通过该旋转进行精确的平移估计，然后往返执行上两步操作以不断提高精度，拟合效果好，准确度高。

Description

一种将旋转和平移相解耦的6D位姿估计方法

技术领域

本发明属于计算机视觉处理领域，具体涉及一种将旋转和平移相解耦的6D 位姿估计方法。

背景技术

近几年来，目标6D位姿估计在机器人装配、自动驾驶和增强现实等领域得到了广泛的应用。在机器人抓取与装配任务中，实时且精确的3D定位和目标的朝向估计是抓取手势合理、装配成功率高的重要保障。

由于深度学习和人工智能的发展，出现了许多基于CNN的姿势估计方法。这些方法通常是其他领域更成熟方法的变体。如目标检测、实例分割、关键点检测等。然而，严格来说，由于6D姿势估计是一项3D任务，这些基于2D的方法最终会遇到瓶颈。由于RGBD传感器的成熟，目前的研究倾向于将RGB信息和深度信息结合起来进行姿态估计。在深度信息的帮助下，可以极大地缓解照明和障碍等环境因素造成的不稳定性。

最近的方法通常使用PointNet和CNN来分别提取RGBD图片的特征，然后采用一个主网络来直接估计目标的位姿，该位姿包括一个平移向量和一个四元数来分别代表3D位置和3D方向。但是本方法无法准确吻合人体实际观察到的位姿，造成6D位姿估计不准确，效率低。

发明内容

本发明的目的在于提供一种将旋转和平移相解耦的6D位姿估计方法，本方法准确进行位姿估计，符合人体实际观察方向。

本发明提供的这种将旋转和平移相解耦的6D位姿估计方法，包括如下步骤：

S1.将RGBD图片进行图像分割得到包含目标的点云和RGB图片；

S2.分别提取包含目标的点云和RGB图片的特征，并根据特征估计目标的旋转；

S3.使用得到的目标的旋转对包含目标的点云进行旋转，得到与相机点云同方向的目标点云，然后估计点云的平移；点云平移为与相机点云同方向的目标点云，和相机点云之间的平移；相机点云具体为相机得到的深度图片经过转换后得到的点云；

S4.通过迭代对目标的旋转和点云的平移进行优化，得到最终优化的6D位姿估计结果。

所述的步骤S1，包括采用PSPNet网络对相机得到的图像进行分割；将分割后的深度图片转换初始点云，并根据以检测中心为圆心，目标最大长度为直径做球，该球以外的点视为噪声点，剔除掉噪声点云，分割后输出为包含目标的点云和RGB图片。

所述的步骤S2包括，采用初始旋转的PointNet网络对包含目标的点云进行特征提取，得到点云特征；采用CNN网络对RGB图片的颜色信息进行特征提取，得到颜色特征；然后将点云特征和颜色特征点对点的进行融合得到特征F；将特征F输入到初始旋转的多层感知机中，对初始旋转的多层感知机进行训练，初始旋转的多层感知机输出四元数Q，四元数Q用于表示目标的旋转方向。

对初始旋转的多层感知机训练包括，采用初始旋转的多层感知机为每一个像素计算出一个长度为4的向量表示目标旋转，初始旋转的多层感知机为一种基于全连接网络的结构，并采用旋转损失函数进行训练：

v_j＝x_j-Rx_j

其中，L_r表示特征估计目标的旋转的损失；x_j表示相机点云的第j个点；R 表示真实旋转；

表示第j个点的估计旋转；N表示相机点云的点的数量；ω表示旋转损失超参数；v_j表示第j个点叉乘真实旋转之后形成的向量；

表示第 j个点叉乘估计旋转之后形成的向量；<·,·>表示两个向量之间的余弦值；||·||表示向量的长度；

表示估计向量的平均值。

所述的步骤S3，包括如下步骤：

A1.将四元数Q对包含目标的点云进行旋转，得到与相机点云同方向的目标点云，使得与相机点云同方向的目标点云，和相机点云的方向与数量一致；

A2.将与相机点云同方向的目标点云输入到初始平移的目标PointNet网络中提取出目标特征，将相机点云输入到初始平移的源PointNet网络中提取相机点云特征，并将目标特征和相机点云特征点对点进行拼接，得到拼接特征；同时将特征F复制N份拼接到得到的拼接特征中，并输入到初始平移的多层感知机中，输出一个3维的向量表示目标相对于相机的平移T，N为相机点云的数量。

所述的步骤A1，包括将目标的包含目标的点云转换成3D点云，然后叉乘，得到的旋转矩阵，旋转矩阵由四元数Q转换求得，得到与相机点云同方向的目标点云；对包含目标的点云进行采样，采样步骤为，将包含目标的点云根据其在相机坐标下的深度进行排序，选出深度最小的N个点，其中N为相机点云的数量；

所述的步骤A2，具体为采用去除了STN(空间转换网络)结构的初始平移的目标PointNet网络或初始平移的源PointNet网络，平移损失函数为：

其中，L_d表示平移估计部分的损失；N为相机点云的数量；x_j表示相机点云的第j个点；R表示真实旋转；

表示第j个点的估计旋转；t表示真实平移；

表示估计平移。

所述的步骤S4，每一次迭代包括如下步骤：

B1.将上一次迭代得到的旋转与平移应用到目标包含目标的点云的点云中并采样，得到一个粗对齐的点云，该点云与相机点云数量一致；

B2.将与相机点云同方向的目标点云输入到第i次迭代的旋转估计中的源PointNet网络中提取特征；将相机点云输入到第i次迭代的旋转估计中的目标 PointNet网络中提取特征；然后点对点的进行拼接；

B3.将特征F复制N份拼接到B2中的特征中，N为相机点云的数量，然后将该特征输入到第i次迭代的旋转估计中的MLP回归网络中，输出一个四元数表示目标相对于相机的旋转，具体为：

第k次迭代得到的旋转R^k表示为，

其中，R^i-1表示第i-1次迭代得到的旋转；

表示第i次迭代的旋转估计中的源PointNet网络、第i次迭代的旋转估计中的目标PointNet网络和第i次迭代的旋转估计中的MLP回归网络；ASS(·)表示步骤A1所述的采样步骤；ρ表示目标点云；T^i-1表示第i-1次迭代得到的平移；

表示相机点云；I表示迭代总数；

采用步骤S3的方法求得第i次迭代得到的平移Tⁱ：

其中，

表示第i次迭代的平移估计中的源PointNet网络、第i次迭代的平移估计中的目标PointNet网络和第i次迭代的平移估计中的MLP回归网络。

B4.计算总损失函数：

其中，L表示总损失；L_r表示特征估计目标的旋转的损失；L_d表示平移估计部分的损失；β表示总损失超参数；

表示第k次迭代的旋转损失；

表示第 k次迭代的平移损失；

设置评价指标，评价指标为目标点云在分别与估计的位姿和真实位姿转换之后点之间的平均距离，

其中，R表示真实旋转；

表示第j个点的估计旋转；x_j表示相机点云的第j个点；N为相机点云的数量；并采用得到的评价指标ADD对迭代结果进行评价，选取最优的6D位姿估计结果。

本发明提供的这种将旋转和平移相解耦的6D位姿估计方法，设计了一种将目标旋转和平移分开进行估计的网络框架，该框架通过先估计目标旋转，然后通过该旋转进行精确的平移估计，然后往返执行上两步操作以不断提高精度，拟合效果好，准确度高。

附图说明

图1为本发明方法的流程示意图。

图2为本发明实施例的位姿结果在流程中的示意图。

具体实施方式

如图1为本发明方法的流程示意图：本发明提供的这种将旋转和平移相解耦的6D位姿估计方法，包括如下步骤：

S1.将RGBD图片进行图像分割得到包含目标的点云和RGB图片；

所述的步骤S1，包括采用一种轻量级的基于编码解码架构的实例分割网络对相机得到的图像进行分割，在本实施例中使用PSPNet；将分割后的深度图片转换初始点云，并根据以检测中心为圆心，目标最大长度为直径做球，该球以外的点视为噪声点，剔除掉噪声点云，分割后输出为包含目标的点云和RGB图片。

v_j＝x_j-Rx_j

其中，L_r表示特征估计目标的旋转的损失；x_j表示相机点云的第j个点，该点从对象的3D模型中随机选择；R表示真实旋转；

表示第j个点的估计旋转； N表示相机点云的点的数量；ω表示旋转损失超参数；v_j表示第j个点叉乘真实旋转之后形成的向量；

表示第j个点叉乘估计旋转之后形成的向量；<·,·>表示两个向量之间的余弦值；||·||表示向量的长度；

表示估计向量的平均值。

损失函数有两个约束。前者意味着每个点的方向与真实的方向尽可能相似，后者意味着每个向量的长度尽可能一致。

所述的步骤S3，包括如下步骤：

A2.将与相机点云同方向的目标点云输入到初始平移的目标PointNet网络中提取出目标特征，将相机点云输入到初始平移的源PointNet网络中提取相机点云特征，并将目标特征和相机点云特征点对点进行拼接，得到拼接特征；同时将特征F复制N份拼接到得到的拼接特征中，并输入到第二多层感知机中，输出一个3维的向量表示目标相对于相机的平移T，N为相机点云的数量。

所述的步骤A1，包括将目标的包含目标的点云转换成3D点云，然后叉乘得到的旋转矩阵，旋转矩阵由四元数Q转换求得，得到了与相机点云同方向的目标点云。因为深度相机得到的点云只有2.5D(即只能得到目标的一面)，所以需要对包含目标的点云进行采样。采样步骤为，将包含目标的点云根据其在相机坐标下的深度进行排序，然后选出深度最小的N个点，其中N为相机点云的数量。

所述的步骤A2，具体为由于STN结构会消除点云的旋转特性，采用去除了 STN结构的PointNet；平移损失函数为：

其中，L_d表示平移估计部分的损失，这个损失代表了目标点云在分别应用了真实位姿和估计位姿之后的平均距离；N为相机点云的数量；x_j表示相机点云的第j个点；R表示真实旋转；

表示第j个点的估计旋转；t表示真实平移；

表示估计平移。

步骤S4，每一次迭代包括如下步骤：

B2.将与相机点云同方向的目标点云输入到第i次迭代的旋转估计中的源PointNet网络中提取特征，将相机点云输入到第i次迭代的旋转估计中的目标 PointNet网络中提取特征，然后点对点的进行拼接；

第k次迭代得到的旋转Q^k表示为，

其中，Q^i-1表示第i-1次迭代得到的旋转；

表示相机点云；I表示迭代总数；

采用步骤S3的方法求得第i次迭代得到的平移Tⁱ：

其中，

B4.计算总损失函数：

表示第k次迭代的旋转损失；

表示第k次迭代的平移损失；

其中，R表示真实旋转；

如图2为本发明实施例的位姿结果在流程中的示意图。左侧为初始位姿，右侧为真实位姿结果；其中图2a表示初始位姿，图2b表示旋转估计后的位姿，图2c表示平移估计后的位姿，图2d表示第一次迭代旋转之后的位姿，图2e表示第一次迭代平移之后的位姿，图2f表示最终结果。在本实施例中，在YCB 数据集上进行了实验，获得了0.76cm的最终结果。另外，本发明的推理速度也可以满足实时性需求，在YCB数据集的图片中，能达到20fps的速度。

Claims

1.一种将旋转和平移相解耦的6D位姿估计方法，其特征在于包括如下步骤：

S1.将RGBD图片进行图像分割得到包含目标的点云和RGB图片；

2.根据权利要求1所述的将旋转和平移相解耦的6D位姿估计方法，其特征在于所述的步骤S1，包括采用PSPNet网络对相机得到的图像进行分割；将分割后的深度图片转换初始点云，并根据以检测中心为圆心，目标最大长度为直径做球，该球以外的点视为噪声点，剔除掉噪声点云，分割后输出为包含目标的点云和RGB图片。

3.根据权利要求2所述的将旋转和平移相解耦的6D位姿估计方法，其特征在于所述的步骤S2包括，采用初始旋转的PointNet网络对包含目标的点云进行特征提取，得到点云特征；采用CNN网络对RGB图片的颜色信息进行特征提取，得到颜色特征；然后将点云特征和颜色特征点对点的进行融合得到特征F；将特征F输入到初始旋转的多层感知机中，对初始旋转的多层感知机进行训练，初始旋转的多层感知机输出四元数Q，四元数Q用于表示目标的旋转方向。

4.根据权利要求3所述的将旋转和平移相解耦的6D位姿估计方法，其特征在于对初始旋转的多层感知机训练包括，采用初始旋转的多层感知机为每一个像素计算出一个长度为4的向量表示目标旋转，初始旋转的多层感知机为一种基于全连接网络的结构，并采用旋转损失函数进行训练：

v_j＝x_j-Rx_j

其中，L_r表示特征估计目标的旋转的损失；x_j表示相机点云的第j个点；R表示真实旋转；

表示估计向量的平均值。

5.根据权利要求4所述的将旋转和平移相解耦的6D位姿估计方法，其特征在于所述的步骤S3，包括如下步骤：

6.根据权利要求5所述的将旋转和平移相解耦的6D位姿估计方法，其特征在于所述的步骤A1，包括将目标的包含目标的点云转换成3D点云，然后叉乘，得到的旋转矩阵，旋转矩阵由四元数Q转换求得，得到与相机点云同方向的目标点云；对包含目标的点云进行采样，采样步骤为，将包含目标的点云根据其在相机坐标下的深度进行排序，选出深度最小的N个点，其中N为相机点云的数量；