CN110097574A

CN110097574A - 一种已知刚体的实时位姿估计方法

Info

Publication number: CN110097574A
Application number: CN201910336424.8A
Authority: CN
Inventors: 高�浩; 肖文奇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-06

Abstract

本发明公开一种已知刚体的实时位姿估计方法，通过标注已知刚体的数据样本建立已知物体的样本数据集；通过全卷积神经网络训练数据集，使得计算机能够了解和识别图像和视频中的已知物体，得到输入图像或者视频中物体关键点的置信区间图；该网络分阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出；对视频中关键点的运动轨迹进行跟踪，通过PnP算法估计目标物体的位姿。本发明提出的方法，针对刚性的、已知的物体，可以跟踪视频中目标物体的关键点，并对目标物体进行实时位姿估计。

Description

一种已知刚体的实时位姿估计方法

技术领域

本发明涉及计算机视觉、图形学以及深度学习技术领域，具体涉及一种已知刚体的实时位姿估计方法。

背景技术

自2006年加拿大多伦多大学教授Geoffery Hinton和他的学生RuslanSalakhutdinov在nature上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。随着研究的不断深入，深度学习在学术界持续升温，其中斯坦福大学、纽约大学等成为研究深度学习的重要场所，2011年以来，微软研究院和Google的语音识别研究院先后采用DNN技术降低语音识别错误率20％-30％，是语音识别领域十多年来最大的突破性进展。2012年，DNN技术在图像识别领域取得惊人的效果，在ImageNet评测上将错误率从26％降低到15％。之后深度学习在图像识别、语音识别、自然语言处理等领域展现出越来越大的潜力，深度神经网络已成功地应用于二维目标的检测问题。

随着科技的进步，机器人越来越多的出现在人们的视野，为了让机器人和人类一起安全有效地工作，实现机械臂的自主抓取，它们必须意识到周围的环境。这种意识的一个方面是对场景中物体的三维位置和方向的认识，通常被称为6自由度姿态。这种知识对于执行对象的挑选和放置、从一个人手中交接或观察某人处理对象进行模仿学习非常重要。在本发明中，我们针对的操作对象是刚性的、已知形状的物体，而且允许在之前对物体的外观和形状进行训练。我们的目标是从单个RGB图像实时推断出这些杂乱物体的三维姿态，使机器人能够对这些物体进行操作。在现有技术的基础上，实现物体位姿的估计是非常有研究意义和价值的。

因此，有必要提出一种有效的技术方案，利用已知物体的外观和形状信息，实现目标物体的实时位姿估计。

发明内容

本发明的目的在于针对现有技术的不足，提出一种方法解决已知刚体实时位姿估计的问题，该方法借助深度学习的手段，能够实时检测和跟踪目标刚体特征点，并结合PnP(perspective-n-point)算法估计每个目标对象的6自由度位姿，从而实现对已知刚体的实时位姿估计。

为实现上述目的，本发明采用的技术方案是：

一种已知刚体的实时位姿估计方法，包括

S1，制作刚体的样本数据集；

S2，通过全卷积神经网络训练数据集，得到刚体关键点的置信度图；

S3，对关键点的运动轨迹进行跟踪，通过PnP算法估计目标刚体的位姿。

优选地，在制作样本数据集时，对于已知刚体，从不同角度拍照获取多张图片，利用图像标注工具从图像中选取合适的关键点进行标注，制作刚体的样本数据。

具体地，在样本数据集的制作上，分为样本获取部分和样本标注部分。在样本获取部分，需要环形的从多个视角对目标刚体拍照以获得不同角度下刚体的图片，样本数据应该尽可能多，能够反映刚体在各种视角下的外观和形状。在样本标注部分，利用标注软件对采集到的图片数据进行标注。在目标刚体上选择合适的特征点，并给这些特征点打上label,特征点可以是角点或颜色变化比较明显的点。

优选地，在制作样本数据集阶段，所述标注图像包含至少4个关键点，所述关键点反映刚体的特征，且受图像拍摄角度变化的影响不大。图中特征点个数设置在4个及以上，为后面的位姿解算做准备。

具体地，训练数据集阶段，将制作好的数据集通过全卷积神经网络进行训练，得到一种输入到输出的映射，即根据输入的彩色图像得到关键点的置信度图。

优选地，所述全卷积神经网络采用多级架构检测关键点，其前馈网络作为输入，输入一个大小为w×h×3的RGB图像，输出结果为特征点的置信度图。

具体地，为了能够实时检测到视频或图像中的关键点，设计合理的网络结构，其中pose machines(位姿机)提供了一个顺序预测框架，用于学习丰富的隐式空间模型，将卷积网络结合到用于学习图像特征的姿势机器框架和用于位姿估计任务的图像相关空间模型的系统设计，引入卷积姿势机(CPM)，在CPM的每个阶段，输入为图像特征和前一阶段产生的置信度图，置信度图为后续阶段每个关键点的位置的可能性提供了一个评判依据，CPM继承了卷积位姿机框架的好处，能够隐式学习图像和多部分线索之间的依赖关系。

具体地，通过设计一个由卷积网络组成的顺序架构来实现特征点的预测，该全卷积深度神经网络采用多级架构检测关键点，通过顺序卷积体系结构学习隐式空间模型，直接在前一阶段的置信图上运行，为关键点位置提供越来越精确的估计，而无需显示的图形模型风格推理。

优选地，对于所述置信度图，设定一个适当的阈值，在阈值以上的置信度图上搜索局部峰值，然后使用贪婪分配算法将预估顶点与检测到的质心关联起来，最后得到几个点或者几个小的区域作为检测到的特征点。

优选地，估计目标刚体的位姿进一步包括：通过多对匹配的3D点与图像2D点，在已知或者未知相机内参的情况下，利用最小重投影误差来求解相机外参或者物体位姿。

优选地，通过PnP算法估计每个目标刚体的6自由度位姿。

具体地，在目标刚体的位姿估计中，利用所述深度神经网络训练得到的图像或视频中特征点的二维图像坐标，然后采用PnP算法来恢复对象相对于摄像机的最终平移和旋转，即达到求解刚体的姿态的目的。

与现有技术相比，本发明的有益效果在于：本发明通过卷积神经网络训练图像数据，得到图像特征点的二维坐标，再结合PnP算法求解目标刚体的位姿；本发明不需要繁琐的操作，拍摄设备也没有特殊需求，只需对需要检测的物体进行简单的标注，便可以实现对目标对象的位姿估计，适用于刚性的、已知的物体，同时还可以满足实时位姿估计的要求，具有很好的应用价值。

附图说明

图1为根据实施例的本发明的已知刚体的实时位姿估计的流程示意图；

图2为根据实施例的本发明位姿机工作的流程示意图；

图3为根据实施例的位姿机所对应的多级卷积神经网络的架构示意图；

图4为根据实施例的通过卷积神经网络训练所生成的特征点的置信度图；

图5为根据实施例的通过PnP算法解算物体位姿的示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提出的技术方案针对刚性的、已知的物体，能够实现对视频中目标物体中特征点的识别并对目标物体的位姿进行实时估计。

如图1所示，提供一种已知刚体的实时位姿估计方法的流程示意图，该方法包括以下步骤：

(1)建立目标物体的样本数据库。

具体地，对于已知刚体，需要环形的从多个视角对目标刚体拍照以获得不同角度下刚体的图片，样本数据应该尽可能多，能够反映刚体在各种视角下的外观和形状。在样本标注部分，利用标注软件对采集到的图片数据进行标注。在目标刚体上选择合适的特征点，并给这些特征点打上label，对于特征点的选取有一定的要求，特征点可以是角点或颜色变化比较明显的点，不宜过于单一，例如对于规则的立方体，可以选择8个顶点作为该物体的特征点，并给这8个点分别编号为1，2，…，8，然后在其他图中找到对应的8个顶点，根据对应位置关系给这8个点打上对应的编号。此外，对于特征点个数也有一定的要求，每张图中目标物体的特征点数量至少为4个。

(2)通过卷积神经网络对采集到的样本数据进行训练，输出目标物体的关键点的图像二维坐标。

具体地，如图2所示，为训练数据集所采用的卷积神经网络架构，受到卷积位姿机(CPM)的启发，该全卷积神经网络采用多级架构检测关键点。其中前馈网络作为输入，输入一个大小为w×h×3的RGB图像，其中w代表图像的宽度，h代表图像的高度，3代表RGB三个颜色通道，输出结果为特征点的置信度图。置信度图如图4所示，其中白色的部分代表特征点出现在该位置，预测的点在置信度图中出现的概率呈现一种高斯分布。此外，每个特征点都会输出一个对应的置信度图。

该网络分阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出。由于所有阶段都是卷积的，所以当数据通过网络时，它们利用了一个越来越大的接受野。正是由于这个特性，网络能够在早期阶段解决由于接受野较小而产生的歧义的问题，这是通过在后面阶段越来越多的考虑图像特征以及置信度图来实现的。

如图3所示，网络输入彩色图像(如ori image)。网络分为几个stage运行。每个阶段都能输出各个关键点的置信度图(如score1、score2、score3、score4)，使用时以最后一个阶段的响应图输出为准。此外，center map是一个提前生成的高斯函数模板，用来把响应归拢到图像中心。

该卷积神经网络由多个预测器序列组成，如图2所示，g_t(t＝1,2，...T)是待训练模型，用于预测每个特征点在图像中每个位置的概率，b_i(i＝1,2，...T)表示置信度，T表示stage的个数，T＝1,2，...。在stage1中，利用图像上的局部信息，g_t输出关键点的置信度值；在stage≥2时，基于两种输入来预测图片中关键点位置的置信度，这两种输入分别是图片的特征以及前一个stage输出的响应图；这里的后续stage中所用的图像特征x′与stage1所用到的图像特征x是不同的。该网络的思想在于，在每个尺度下计算各个关键点的置信度图，对于每一个关键点，将所有尺度下的置信度图进行累加，得到总的置信度图，随着stage的逐段进行，计算的置信度对每个关键点的估计越来越精细化。

在网络对图像进行处理后，需要从置信度图中提取出目标对象。使用一个简单的后处理步骤，设定一个适当的阈值，在阈值以上的置信度图中搜索局部峰值，然后使用贪婪分配算法选择峰值最大的点作为特征点。

通过上述网络的训练，可以得到特征点在图像上的二维坐标。

(3)得到不同帧图像对应关键点的二维坐标，使用PnP算法求解得到目标物体的位姿。

具体地，在获得特征点在图像上的二维坐标后，利用PnP算法，求解物体的位姿。如图5所示，是PnP算法求解的示意图，通过卷积神经网络我们可以获得每张图中特征点的二维坐标，即第k-1幅图上的u_i的二维坐标以及他在第k幅图上的对应点u_i′的二维坐标，p_i为u_i在世界坐标系下对应点的三维坐标(该坐标可以通过测量得到)，求解由第k-1幅图到第k幅图的旋转矩阵和平移量，即T_k-1,k，恢复物体相对于摄像机的平移和旋转的量，达到物体位姿估计的目的。

至此，一种已知刚体的实时位姿估计方法的全部流程结束。

本发明涉及一种对于已知刚体的实时位姿估计方法，通过标注已知刚体的数据样本建立已知物体的样本数据集；通过全卷积神经网络训练数据集，使得计算机能够了解和识别图像和视频中的已知物体，得到输入图像或者视频中物体关键点的置信区间图；该网络分阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出；对视频中关键点的运动轨迹进行跟踪，通过PnP算法估计目标物体的位姿。本发明提出的方法，针对刚性的、已知的物体，可以跟踪视频中目标物体的关键点，并对目标物体进行实时位姿估计。本发明提出的刚体位姿估计的深度学习框架，可以实时的估计物体在当前时刻的位姿，且本发明结合计算机视觉，利用PnP算法结算物体位姿。

本发明能够实时估计物体位姿，对机器人机械臂自主抓取物体具有一定的指导作用。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种已知刚体的实时位姿估计方法，其特征在于，包括

S1，制作刚体的样本数据集；

2.根据权利要求1所述的一种已知刚体的实时位姿估计方法，其特征在于，在制作样本数据集时，对于已知刚体，从不同角度拍照获取多张图片，利用图像标注工具从图像中选取合适的关键点进行标注，制作刚体的样本数据。

3.根据权利要求2所述的一种已知刚体的实时位姿估计方法，其特征在于，在制作样本数据集阶段，所述标注图像包含至少4个关键点，所述关键点反映刚体的特征，且受图像拍摄角度变化的影响不大。

4.根据权利要求1所述的一种已知刚体的实时位姿估计方法，其特征在于，所述全卷积神经网络采用多级架构检测关键点，其前馈网络作为输入，输入一个大小为w×h×3的RGB图像，输出结果为特征点的置信度图。

5.根据权利要求4所述的一种已知刚体的实时位姿估计方法，其特征在于，对于所述置信度图，设定一个适当的阈值，在阈值以上的置信度图上搜索局部峰值，然后使用贪婪分配算法将预估顶点与检测到的质心关联起来，最后得到几个点或者几个小的区域作为检测到的特征点。

6.根据权利要求1所述的一种已知刚体的实时位姿估计方法，其特征在于，估计目标刚体的位姿进一步包括：通过多对匹配的3D点与图像2D点，在已知或者未知相机内参的情况下，利用最小重投影误差来求解相机外参或者物体位姿。

7.根据权利要求1所述的一种已知刚体的实时位姿估计方法，其特征在于，通过PnP算法估计每个目标刚体的6自由度位姿。