CN113221647B

CN113221647B - 一种融合点云局部特征的6d位姿估计方法

Info

Publication number: CN113221647B
Application number: CN202110375942.8A
Authority: CN
Inventors: 孙炜; 刘剑; 刘崇沛
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2022-05-17
Anticipated expiration: 2041-04-08
Also published as: CN113221647A

Abstract

本发明涉及一种融合点云局部特征的6D位姿估计方法，包括以下步骤，首先将三维相机获取的图像分为RGB图像与深度图像，随后提取输入RGB图像的特征信息，解析RGB图像的颜色信息。其次，对于深度点云图像，将局部区域中的点密集连接为局部点网，以了解每个点对其他点的影响，从而调整其特征。再者，将得到的颜色信息与点云深度信息进行逐像素密集融合，将融合结果结合密集融合的全局特征，生成逐像素的估计位姿。将所有像素点的估计位姿输入最终的多层感知机，再对置信度进行平均最大池化，从而预测对象的6D位姿。本发明有效的将点云局部特征信息纳入点要素中，增强了要素描述局部邻域的能力，并在6D位姿估计稳定性、准确率等性能上得到显著提升。

Description

一种融合点云局部特征的6D位姿估计方法

技术领域

本发明涉及机器人环境感知技术领域，尤其是涉及一种融合点云局部特征的6D位姿估计方法。

背景技术

机器人环境感知技术以其高度柔性化的特点已渗透到各大领域，如智能物流、缺陷检测等。6D位姿估计所指的是相机坐标系与目标对象坐标系间的旋转与平移变换关系，共包含位置与旋转角在内的6个位姿量，在自动驾驶、工业智能机器人以及AR等应用领域中起到至关重要的作用。

从实际应用来看，目前应用于工业场景的6D位姿估计方法绝大部分可分为三种，第一类是基于匹配对应的方法，适用于纹理较为丰富的目标对象，其具体又可分为：3D-3D对应(ICP算法等)、3D-2D对应(SIFI、ORB等)。第二类是基于模板的方法，可有效的应用在无纹理图像中，其通过比较实际图像与模型图像的梯度信息，查找与模型图像最相像的图像，将实际图像的位姿用此模型图像的位姿来表示(Linemod算法等)。第三类是基于投票的方法，主要应用在存在遮挡的情况，其核心是基于全局建模与局部匹配，原理是将图像里的每个局部特征作为因素，从而对全局输出进行投票(PPF算法等)。

从位姿估计算法来看，现有的专利大部分仍然局限于上述三类传统的方法，而上述三类传统算法都有其固有的缺陷，例如，基于匹配的方法要求目标对象具有丰富的纹理特征才能有效估计位姿。基于模板的方法需要耗费大量的时间进行模板配对计算，效率较低。基于投票的方法在需要提供每个对象精准的CAD模型，且实时性不够。综上，当面对较为复杂的工业环境时，如多种工件、存在遮挡、背景杂乱时，传统的算法是无法有效工作的。

随着三维相机成像技术的成熟，可以准确提供物体的三维点云数据，使用点云数据可以弥补二维视觉的固有缺陷。近年来，随着深度学习技术的发展，基于学习的6D位姿估计相比传统的机理建模算法，在位姿估计精度上有了很大的提高。其通过学习寻找6D位姿与图像特征二者存在的联系，之后基于学习的模型，对对象进行识别，用回归的方法实现精确估计对象的6D位姿。

综上所述，因二维视觉与传统算法的固有缺陷，导致位姿估计的精度不高、实时性与鲁棒性较差，无法应对较为复杂的工业环境。本发明结合了三维视觉与深度学习，提出了一种融合点云局部特征的6D位姿估计方法。

名词解释：

ResNet18网络：由18个带权重的层(17个卷积层+1个全连接层)以及对应的池化层和BN层组成的提取图像特征的轻量级网络。

四级金字塔场景解析网络：本专利使用的金字塔场景解析模块融合了四种金字塔层级下的特征，是一个四级模块，其层级大小分别为1×1、2×2、3×3和6×6。金字塔各级将输入特征图抽象成不同的子区域，并形成不同位置的集合表示。金字塔池模块中不同层级的输出包含不同大小的特征地图，为了保持全局特征的权重，当金字塔的层级大小为N时，在每个金字塔层级之后使用1×1卷积层，将上下文表示的维数降到原来的1/N，然后通过双线性插值对低维特征地图进行上采样，得到与原始特征地图相同大小的特征。最后，将不同层次的特征串联成最终的金字塔全局特征，具体结构如图2所示。

局部点云网络：通过将所选局部点云区域中的所有点密集连接，关联其局部领域特征，从而解析图像深度信息的网络。

发明内容

针对上述6D位姿估计方法所存在的不足与挑战，本发明提出一种融合点云局部特征的6D位姿估计方法，在背景杂乱、存在多种不同尺寸对象以及存在遮挡的复杂场景下，实现目标对象快速、准确、稳定的6D位姿估计。

包括以下步骤，首先将三维相机获取的图像分为RGB图像与深度图像，随后使用预先训练好的ResNet18网络提取输入RGB图像的特征信息，将提取的特征信息输入四级金字塔场景解析网络，用于解析RGB图像的颜色信息。其次，对于深度点云图像，将局部区域中的点密集连接为局部点网，使用一种新颖的自适应特征调整模块，以了解每个点对其他点的影响，从而调整其特征。再者，将得到的颜色信息与点云深度信息进行逐像素密集融合，将融合结果结合密集融合的全局特征，生成逐像素的估计位姿。最后，将所有像素点的估计位姿输入最终的多层感知机，再对置信度进行平均最大池化，从而预测对象的6D位姿。本发明有效的将点云局部特征信息纳入点要素中，增强了要素描述局部邻域的能力，并在6D位姿估计稳定性、准确率等性能上得到显著提升。

为实现上述目的，本发明采用以下技术方案：

一种融合点云局部特征的6D位姿估计方法，包括以下步骤：

步骤S1：通过三维相机获取对象的图像，对象的图像分为RGB图像与深度图像；提取RGB图像的特征信息；

步骤S2：将RGB图像的特征信息输入一个四级金字塔场景解析网络，解析得到RGB图像的场景颜色信息；

步骤S3：将深度图像转化为深度点云信息，将深度点云信息输入到一个局部点云网络，局部点云网络通过将局部区域中的点密集连接为局部点网，从而解析得到深度图像的深度信息；

步骤S4：将得到的场景颜色信息和深度图像的深度信息进行局部逐像素密集融合，之后再结合密集融合的全局特征，生成每个像素点的估计位姿；

步骤S5：将所有像素点的估计位姿输入最终的多层感知机，再对置信度进行平均最大池化，采用回归的方式预测得到对象的6D位姿。

进一步的改进，所述步骤S1包括如下步骤：

首先，使用三维相机分别获取对象的RGB图像与深度图像，再将RGB图像输入到一个预先训练好的ResNet18网络，提取RGB图像的特征信息。

进一步的改进，所述步骤S2包括如下步骤：

步骤S201：将步骤S1获取的特征信息输入一个拥有四级模块的金字塔场景解析网络，其各级大小分别为1×1、2×2、3×3和6×6。该网络首先逐级对输入信息进行自适应平均池化，随后将池化结果均输入一个1*1的卷积神经网络，再对其进行上采样，最后得到与原始特征相同大小的特征。

步骤S202：将金字塔场景解析网络四级模块输出的多级信息与步骤S1获取的特征信息进行融合，获取输入场景的颜色信息。

进一步的改进，所述步骤S3包括如下步骤：

步骤S301：将步骤S1获取的场景深度信息输入一个局部点云网络中，将局部区域中的点密集连接为局部点网；

步骤S302：对于每个选定的局部区域X及局部区域的特征集Y＝{Y₁,Y₂,···,Y_M}，建立一个组合特征的函数f(Y_i,Y_j)，其中，M表示局部区域中所采样的总点数，Y_i表示局部区域中第i个采样点的特征向量，Y_j表示局部区域中第j个采样点的特征向量；

将两个特征向量之间的差值组合为两个特征向量相互之间的影响，公式表示为：

f(Y_i,Y_j)＝Y_i-Y_j

步骤S303：使用多层感知机来计算影响函数F_eft，计算公式表示为：

F_eft(Y_i,Y_j)＝MLP(f(Y_i,Y_j))；

式中，MLP()表示多层感知机；F_eft(Y_i,Y_j)表示Y_j对Y_i的最终影响指标；

步骤S304：建立一个特征关联函数F_link(Y_i,Y_j)，并且在特征关联函数中包含Y_i的自影响，计算公式表示为：

步骤S305：构建一个特征调制器F_m()，因各个选定的局部区域的不同特征对Y_i的影响不同，通过Adam优化器自适应地学习Y中每个特征对每个Y_i的影响量来交换和整合特征集Y中的信息；特征调制器F_m()计算公式表示为：

其中，F_m(Y_i,Y)表示其余特征对Y_i影响的特征调制器；

步骤S306：构建一种自适应特征调整模块，通过学习局部邻域内的上下文信息来增强Y中的点特征，以获取每个点对其它点的影响，从而调整每个点的特征，计算公式为：

式中Y_i'是Y_i调整后的特征，ΔY_i是通过特征调制器F_m从Y中学习而来的变量；

步骤S307：将调整后的特征Y_i'输入进多层共享感知机，之后进行最大池化，在每个局部区域的整个空间和所有通道中进行进一步的信息融合，最终得到融合点云局部特征的深度信息。

进一步的改进，所述步骤S4包括如下步骤：

步骤S401：将场景颜色信息、深度图像的深度信息进行局部逐像素密集融合，生成逐像素的密集融合特征。

步骤S402：将逐像素点的密集融合特征输入多层感知机，随后再进行平均池化，得到逐像素密集融合后的全局特征；

步骤S403：将逐像素密集融合后的特征与全局特征结合起来，生成逐像素点的估计位姿；

步骤S404：若对象为非对称物体，则对象的位姿估计损失函数

为采样点的地面真实位姿与预测位姿之间的平均欧式距离，计算公式表示为：

式中

为采样点的地面真实位姿与预测位姿之间的平均欧式距离，M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R_i'x_j+t_i')为其第j个点中的预测位姿，R表示世界坐标系到相机坐标系转换的真实旋转矩阵，t表示世界坐标系到相机坐标系转换的真实平移矩阵，R_i'表示世界坐标系到相机坐标系转换的估计旋转矩阵，t_i'表示世界坐标系到相机坐标系转换的估计平移矩阵；

步骤S405：若对象为对称物体，则位姿估计损失函数

为采样点的地面真实位姿与预测位姿之间的欧式距离最小值的平均值，计算公式表示为：

式中M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R_i'x_k+t_i')为从第k个点中预测的预测位姿，其余解释同S404；

步骤S406：之后通过训练学习，不断降低损失函数的值，最终选择损失函数值最小的作为逐像素点的预测位姿。

进一步的改进，所述步骤S5包括如下步骤：

步骤S501：得到逐像素点的预测位姿后，将其输入最终的共享感知机，回归输出对象整体的预测6D位姿与所预测6D位姿的置信度分数。

步骤S502：将对象的位姿估计损失函数与置信度分数结合形成对象整体6D位姿估计的损失函数，整体损失函数L的计算公式表示为：

式中α是一个平衡超参数，

为位姿估计的损失函数，s_i为每个预测位姿的置信度分数，K是从分割的P个元素中随机抽取的密集像素特征的个数；

步骤S503：过训练学习，不断降低对象整体损失函数的值，最终选择整体损失函数值最小的输出作为对象的整体估计位姿。

附图说明

图1为本发明的6D位姿估计方法系统框架图；

图2为本发明的6D位姿估计方法网络框架图。

具体实施方式

实施例

下面结合图1对本次发明的实现步骤进行具体的描述：

步骤S1：首先，使用三维相机分别获取场景的RGB图像与深度图像。再将三维相机获取的RGB图像输入到一个预先训练好的ResNet18网络，提取输入图像的特征信息。

步骤S2：将步骤S1提取的特征信息输入一个四级金字塔场景解析网络，用于解析场景的颜色信息。

步骤S3：将深度图像转化为深度点云信息，将深度点云信息输入到一个局部点云网络，该局部点云网络通过将局部区域中的点密集连接为局部点网，提出了一种从点云局部邻域提取上下文特征的新方法，从而解析得到深度图像的深度信息。

步骤S301：将步骤S1获取的场景深度信息输入一个改进的局部点云网络中，将局部区域中的点密集连接为局部点网。

步骤S302：对于给定的局部区域X及其特征集Y＝{Y₁,Y₂,···,Y_M}，建立一个组合特征的函数f(Y_i,Y_j)，将两个特征向量之间的差值组合为其相互之间的影响，公式表示为：

f(Y_i,Y_j)＝Y_i-Y_j

步骤S303：使用多层感知机(MLP)来计算影响函数F_eft，计算公式表示为：

F_eft(Y_i,Y_j)＝MLP(f(Y_i,Y_j))

式中f是步骤S302中用于组合特征Y_i和Y_j的函数，F_eft(Y_i,Y_j)是Y_j对Y_i的最终影响指标。

步骤S304：建立一个新型的特征关联函数F_link(Y_i,Y_j)，并且在特征关联函数中包含了Y_i的自影响，计算公式表示为：

其中，F_m(Y_i,Y)表示其余特征对Y_i影响的特征调制器；

步骤S4：将步骤S2得到的场景颜色信息、步骤S3得到的深度信息进行局部逐像素密集融合，之后再结合密集融合的全局特征，生成每个像素的估计位姿。

步骤S404：若对象为非对称物体，则对象的位姿估计损失函数

式中

步骤S405：若对象为对称物体，则位姿估计损失函数

步骤S5：将所有像素点的估计位姿输入最终的多层感知机，再对置信度进行平均最大池化，采用回归的方式预测对象的6D位姿。

式中α是一个平衡超参数，

为位姿估计的损失函数，s_i为每个预测位姿的置信度分数，K是从分割的P个元素中随机抽取的密集像素特征的个数。

步骤S503：之后通过训练学习，不断降低对象整体损失函数的值，最终选择整体损失函数值最小的输出作为对象的整体估计位姿。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合点云局部特征的6D位姿估计方法，其特征在于，包括以下步骤：

具体包括如下步骤：

步骤S302：对于每个选定的局部区域X及局部区域的特征集Y＝{Y₁,Y₂,…,Y_M}，建立一个组合特征的函数f(Y_i,Y_j)，其中，M表示局部区域中所采样的总点数，Y_i表示局部区域中第i个采样点的特征向量，Y_j表示局部区域中第j个采样点的特征向量；

f(Y_i,Y_j)＝Y_i-Y_j

F_eft(Y_i,Y_j)＝MLP(f(Y_i,Y_j))；

其中，F_m(Y_i,Y)表示其余特征对Y_i影响的特征调制器；

式中Y_i'是Y_i调整后的特征，△Y_i是通过特征调制器F_m从Y中学习而来的变量；

步骤S307：将调整后的特征Y_i'输入进多层共享感知机，之后进行最大池化，在每个局部区域的整个空间和所有通道中进行进一步的信息融合，最终得到融合点云局部特征的深度信息；

2.如权利要求1所述的融合点云局部特征的6D位姿估计方法，其特征在于，所述步骤S1包括如下步骤：

3.如权利要求1所述的融合点云局部特征的6D位姿估计方法，其特征在于，所述步骤S2包括如下步骤：

步骤S201：将步骤S1获取的特征信息输入一个拥有四级模块的金字塔场景解析网络，其各级大小分别为1×1、2×2、3×3和6×6；该网络首先逐级对输入信息进行自适应平均池化，随后将池化结果均输入一个1*1的卷积神经网络，再对其进行上采样，最后得到与原始特征相同大小的特征；

4.如权利要求1所述的融合点云局部特征的6D位姿估计方法，其特征在于，所述步骤S4包括如下步骤：

步骤S401：将场景颜色信息、深度图像的深度信息进行局部逐像素密集融合，生成逐像素的密集融合特征；

步骤S404：若对象为非对称物体，则对象的位姿估计损失函数

式中

为采样点的地面真实位姿与预测位姿之间的平均欧式距离，M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R′_ix_j+t′_i)为其第j个点中的预测位姿，R表示世界坐标系到相机坐标系转换的真实旋转矩阵，t表示世界坐标系到相机坐标系转换的真实平移矩阵，R′_i表示世界坐标系到相机坐标系转换的估计旋转矩阵，t′_i表示世界坐标系到相机坐标系转换的估计平移矩阵；

步骤S405：若对象为对称物体，则位姿估计损失函数

式中M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R′_ix_k+t′_i)为从第k个点中预测的预测位姿，其余解释同S404；

5.如权利要求4所述的融合点云局部特征的6D位姿估计方法，其特征在于，所述步骤S5包括如下步骤：

步骤S501：得到逐像素点的预测位姿后，将其输入最终的共享感知机，回归输出对象整体的预测6D位姿与所预测6D位姿的置信度分数；

式中α是一个平衡超参数，