CN114742888A

CN114742888A - 一种基于深度学习的6d姿态估计方法

Info

Publication number: CN114742888A
Application number: CN202210239821.5A
Authority: CN
Inventors: 袁正谦; 朱迪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-12
Filing date: 2022-03-12
Publication date: 2022-07-12

Abstract

本发明公开了一种基于深度学习的6D姿态估计方法，包括图像特征提取模块、点云特征提取模块、图像和点云特征融合模块和6D姿态估计模块，首先将物体从场景中分割出区域以及对应的深度图，对分割出来的图像区域进行图像特征提取；再根据分割出来的区域以及对应的深度图，确定物体被观测到的那个面的3D坐标信息，得到物体的点云数据，并送入点云特征提取模块提取点云几何特征；再将提取到的图像特征和点云特征送到特征融合网络中，提取融合特征；最后根据提取到的融合特征估计物体的6D姿态信息。本发明能够有效地解决密集2D‑3D特征提取不高效以及物体被遮挡的问题，在提高检测精度的同时兼顾速度，并具有较高的鲁棒性。

Description

一种基于深度学习的6D姿态估计方法

技术领域

本发明涉及三维计算机视觉领域，特别涉及一种基于深度学习的6D姿态估计算法。

背景技术

在我们的日常生活中，无时无刻不在进行着人与物体之间的交互。为了得到更好的交互效果，我们需要得知物体的6D姿态信息。例如，当我们伸手去拿桌子上摆放的一个水杯，需要知道水杯在我们的什么方位，距离是多少以及水杯是如何摆放的。同理，机器亦是如此。当机器想要抓取到物体，需要它利用各种摄像头来获取到所看到的物体的各种信息，并估计该物体的6D姿态，然后做出后续的抓取操作，比如机械臂的抓取，无人驾驶和增强现实等等。

6D姿态估计的目的是在场景中检测出目标，并估计目标相对参考坐标系的旋转和平移。其中，三维的平移是我们从摄像机坐标系原点开始沿着X、Y、Z 轴移动到所观察物体的坐标系原点之间的距离。三维的平移可以表示为一个三维的向量而三维的旋转可以看作，从摄像机坐标系到所观察物体的坐标系分别绕着X、Y、Z轴所旋转的角度，可以用一个3×3的矩阵来表示，即R∈SO(3)。最后，六维姿态可以用[R|t]来表示。

在过去的十年中，已经报道了许多方法。但是，由于背景的混乱，物体之间的严重遮挡以及光照条件的变化，尤其是在杂乱的场景中，该问题仍然具有挑战性。大多数经典方法都使用RGB图片作为输入，其中一些方法使用RGB- D数据作为输入。通常，这些方法的基本思想是通过在不同视点之间建立对应的2D图像特征来估计对象姿态，或构造从3D模型到2D图像的地图。在处理低纹理物体和不稳定的光照条件时通常会遇到困难。随着可靠的深度传感器的问世，基于RGB-D数据的方法变得越来越流行，并且在最近取得了重大进展。与RGB数据相比，深度数据不受纹理和光照变化引起的干扰，这使得使用 RGB-D数据的方法比仅使用RGB的方法更可靠。但是，实时实现准确的姿态估计仍然是一个很大的挑战。

发明内容

为了克服现有的技术问题，本发明提出一种有效的物体6D姿态估计算法，其基于深度神经网络的智能视觉系统，并以RGB-D图像作为输入，能够有效地解决密集2D-3D特征提取不高效以及物体被遮挡的问题，在提高检测精度的同时兼顾速度，并具有较高的鲁棒性。

本发明解决上述问题的技术方案是：一种基于深度学习的6D姿态估计算法，包括图像特征提取模块，用于提取二维RGB图像的外观特征信息；点云特征提取模块，用于提取三维点云的几何特征信息；图像和点云特征融合模块，用于融合图像特征和点云特征；6D姿态估计模块，用于根据融合后的特征进行 6D姿态的估计。整个算法的实施步骤如下：

步骤一：将物体从场景中分割出区域以及对应的深度图，对分割出来的图像区域进行图像特征提取。

步骤二：根据分割出来的区域以及对应的深度图，确定物体在相机坐标系下，被相机观测到的那个面的3D坐标信息，得到物体的点云数据，并送入点云特征提取模块提取点云几何特征

步骤三：将提取到的图像特征和点云特征送到特征融合网络中，提取融合特征。

步骤四：根据提取到的融合特征进一步估计物体的6D姿态信息。

优选地，所述步骤一中用RGB-D数据作为输入，使用两个主干网络分别从 RGB图像和深度图提取特征，为了提取图像特征，选取了ResNet-18作为主干网络，并结合了混合注意力机制；用于从深度图提取特征的另一个骨干网络由几个卷积和池化层组成；网络的最终输出将主要取决于颜色特征，而深度特征将用作辅助信息。

优选地，所述步骤二中，点云特征提取模块中一个分支由多个卷积层和一个池化层层组成，对输入进来的点云数据选取多个点分别作为对应的局部区域中心点，在中心点的周围选取多个邻近点来构造局部区域，利用PointNet网络从局部区域提取局部特征，再利用注意力机制学习局部特征，在局部范围内计算加权求和并得到注意力池化结果。

优选地，将包含局部和全局的点云特征与图像特征进行卷积和特征拼接操作，分别拼接成128维和256维特征，将256维融合特征进行卷积操作提升至 1024维特征，最后将128维、256维、1024维特征进行concatenate拼接后做为一个全局特征。

优选地，对全局特征进行4次卷积操作预测物体的旋转参数，平移参数和置信度。

采用上述技术方案所产生的有益效果为：

1、本发明在图像特征提取分支涉及一种新的操作，在resnet18网络中融入了混合注意力机制，通过关注重要特征并抑制不必要的特征提取到更多有用的特征信息,同时所提取的特征具有强大的表征能力，可以用于检测、分割、高精度的姿态估计，密集特征对于遮挡残缺等情况也更鲁棒。

2、本发明在点云特征提取分支涉及一种新的操作AT-PointNet++，以提取全局和局部结构特征的组合表示，通过引入注意力池化层来提高网络再降维过程中的信息传递率，对采样所得点的特征进行增强，这对于准确的6D姿态估计至关重要。

附图说明

图1为本发明所提供的6D姿态估计网络框架图；

图2为整个算法实现的流程图；

图3为引入的混合注意力机制的实现图；

图4为结合混合注意力机制的图像特征提取网络；

图5为点云自注意力机制实现模块；

图6为点云和图像特征融合模块。

具体实施方式

为了使本发明实施方式的技术方案和优点更加清楚明白，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

本发明是一种基于深度学习的6D姿态估计算法，其通过RGB-D图像的输入，从混乱的场景中推算出目标物体精确的6D姿态，由于场景的复杂性以及物体之间存在遮挡，导致这是一个非常困难的任务。为了减少混乱背景的干扰以及处理各个物体之间所存在的遮挡问题，设计了一种6D姿态估计网络，整个网络框架如图1所示。

算法实现的流程图如图2所示，分别进行图像特征提取模块提取图像特征和点云特征提取模块提取几何特征，再经过图像和点云特征融合模块融合图像和点云特征。最后经过6D姿态估计模块预测出目标的6D姿态。具体操作如下：

1)基于Resnet-18的PSPNet网络结构设计了一种新的图像特征提取网络，融入混合注意力机制，进行通道注意力机制和空间注意力机制的特征refine，加强对图像零件特征的提取。先对输入进来的图像做二维卷积操作，提取32维特征，然后输入混合注意力机制，依次进行一次通道注意力操作和空间注意力操作，进行特征加强。混合注意力模块，这是一种用于前馈神经网络的简单而有效的注意力模块。注意力不仅要告诉我们重点关注哪里，还要提高关注点的表示。目标是通过使用注意机制来增加表现力，关注重要特征并抑制不必要的特征。为了强调空间和通道这两个维度上的有意义特征，混合注意力模块依次应用通道和空间注意模块，来分别在通道和空间维度上学习关注什么、在哪里关注，如图3所示。此外，通过了解要强调或抑制的信息也有助于网络内的信息流动。其中通道注意力(CAM)对特征图(H*W*C)分别同时做全局平均池化(1*1*C)和全局最大池化(1*1*C)，同时输入全连接层，并进行相加 (1*1*C)，再输入激活函数层(sigmoid)，生成权重(1*1*C)，最后将权重与特征图(H*W*C)相乘。从而在通道层上对特征进行一次重学习。空间注意力(SAM)对输入的特征图分别从通道维度进行求平均和求最大，合并得到一个通道数为2的卷积层，然后通过一个卷积，得到了一个通道数为1的spatial attention，最后将特征图和spatial attention相乘。从而在空间层上对特征进行一次重学习。

再将加强后的特征进行4次二维卷积操作，升维到512维特征，再做一次混合注意力机制，依次进行一次通道注意力操作和空间注意力操作，进行特征加强。图像特征提取过程，如图6所示。

2)点云特征提取模块上，基于PointNet网络结构的基础上，结合分层结构、最远点采样算法(FPS)和注意力机制构建了层级结构学习局部区域特征的AT- PointNet++。

其中一个分支对整个点云数据的全局位置信息进行编码，提取全局特征。另一个分支对于输入进来的点云集合中使用iterative farthest point sampling(FPS) 算法下采样m个点，再以这m个点为中心聚合k个点，这样我们就得到了m 个小点集，即得到点集和点集的特征集合。利用KNN算法给每一个下采样得到的点找到K个邻居点，分别计算出每个点x与其他邻居点的相关性，然后利用Softmax计算出一组权重，最后使用权重对x的所有邻居点的特征进行加权求和，得出点x的第k个邻居点的新的feature。经过这步处理后，每个邻居点的feature会包含邻域范围内的所有点的一些信息。然后，将两个分支提取的特征连接在一起，形成一个结合局部特征和全局特征的点云特征，并用于后续的特征融合操作。

3)点云和图像特征融合模块中，将图像特征提取模块提取到的32纬图像特征和点云特征提取模块提取到的32维点云特征，并分别对图像和点云做一维卷积操作提取图像64维特征和点云64维特征进行concatenate拼接获取128维融合特征，再做一维卷积操作提取图像和点云的128维特征，并进行 concatenate拼接获取256维融合特征，将256维融合特征进行2次一维卷积操作提升至1024维特征并做Maxpooling操作，最后将所获得的128维、256维和 1024维融合特征进行concatenate拼接后做为一个全局特征，如图1所示。

4)6D姿态估计模块中，将提取到的1408维特征进行卷积操作，分别预测旋转参数，平移参数和置信度，总共进行四次卷积，先从1408维降维到640维，再从640维卷积到256维，第三次卷积从256维度降到128维，第四次卷积操作一个分支从128维降到预测物体的个数*4维，预测旋转参数，第二个分支从 128维降到预测物体的个数*3维，第三个分支从128维降到预测物体的个数*1 维。

最后，我们的算法在公开数据集linemod上进行训练和测试，并和原来的DenseFusion模型的训练结果进行了对比,平均检测精度提高了2.1％，对比结果如表1所示。实验评估指标为点云之间平均距离(Average Closest Point Distance， ADD-S)，通过在点云模型中选取500个点，预测新的一帧的旋转参数R和平移参数T，将新的一帧的点云通过预测参数进行旋转平移变化，将变化后的点云与初始groud truth点云计算平均距离，当损失小于一定的阈值(公开数据集设置为0.02m)时，就认为当前预测符合预期要求，将准确个数加1，最后计算准确个数和总数的比值，这个比率为最终ADD-S指标的精度值。

表1与Densefusion方法在linemod数据集上对比结果

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的6D姿态估计方法，其特征在于，包括：

图像特征提取模块，用于提取二维RGB图像的外观特征信息；

点云特征提取模块，用于提取三维点云的几何特征信息；

图像和点云特征融合模块，用于融合图像特征和点云特征；

6D姿态估计模块，用于根据融合后的特征进行6D姿态的估计；

整个算法的实施步骤如下：

步骤一：将物体从场景中分割出区域以及对应的深度图，对分割出来的图像区域进行图像特征提取；

步骤二：根据分割出来的区域以及对应的深度图，确定物体在相机坐标系下，被相机观测到的那个面的3D坐标信息，得到物体的点云数据，并送入点云特征提取模块提取点云几何特征；

步骤三：将提取到的图像特征和点云特征送到特征融合网络中，提取融合特征；

2.根据权利要求1所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤一中用RGB-D数据作为输入，使用两个主干网络分别从RGB图像和深度图提取特征；为了提取图像特征，选取了ResNet-18作为主干网络，并结合了混合注意力机制；用于从深度图提取特征的另一个骨干网络由若干个卷积和池化层组成；网络的最终输出将主要取决于颜色特征，而深度特征将用作辅助信息。

3.根据权利要求1所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤二中，点云特征提取模块包括两个分支，其中一个分支由多个Conv1D层和一个Avg-Pool层组成，对整个点云数据的全局位置信息进行编码；另一分支提取点云数据的局部结构以及局部结构的位置信息；将上述两个分支提取的特征连接在一起，形成一个结合局部特征和全局特征的点云特征。

4.根据权利要求3所述的一种基于深度学习的6D姿态估计方法，其特征在于，将包含局部和全局的点云特征与图像特征进行卷积和特征拼接操作，分别拼接成128维和256维特征，将256维融合特征进行卷积操作提升至1024维特征，最后将所获得128维、256维、1024维特征进行concatenate拼接后做为一个全局特征。

5.根据权利要求4所述的一种基于深度学习的6D姿态估计方法，其特征在于，对全局特征进行4次卷积操作预测物体的旋转参数，平移参数和置信度。