CN110728222A

CN110728222A - 一种用于机械臂抓取系统中目标物体的位姿估计方法

Info

Publication number: CN110728222A
Application number: CN201910943079.4A
Authority: CN
Inventors: 梁斌; 孙井花; 王学谦; 李志恒; 徐峰; 刘厚德
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-24
Anticipated expiration: 2039-09-30
Also published as: CN110728222B

Abstract

本发明提供一种用于机械臂抓取系统中目标物体的位姿估计方法，包括如下步骤：S1：渲染训练数据集；S2：构建目标物体的位姿估计级联网络，所述级联网络采用三个轻量级网络级联的方式；S3：训练所述目标物体的位姿估计级联网络。通过采用级联网络，使姿态估计问题成为分类问题，减少网络训练测试时间，提高检测精度。

Description

一种用于机械臂抓取系统中目标物体的位姿估计方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于机械臂抓取系统中目标物体的位姿估计方法。

背景技术

随着科学技术的发展，尤其是计算机技术的发展以及海量数据的可获得，人工智能再一次掀起一股浪潮。其中计算机视觉在物体识别和分类方面取得了很好的成果，同时也被应用到其他方面。在这些领域中，当机械臂的操作对象是某些具体的物体时，例如各种金属或非金属，可变性或不可变形的零件，物流行业的物品等等，通常需要知道物体相对于机械臂所在的位置，这样才可以规划机械臂达到目标物体以实施相应操作。除此以外，仅仅是物体位置这一简单的先验知识不能满足机械臂操作需求，还需要知道物体相对于机械臂所呈现的姿态和种类等等，这样才能准确地以一定的方式对物体进行操作，如抓取物体然后完成以一定姿态放置物体，组装物体，码垛，分拣等等操作。因此，可以用来解决机械臂抓取系统中的这些问题的物体检测与物体位姿估计方法的研究是非常有必要的。而且在很多情况下，由于工业环境设备的局限性，系统的存储、计算等能力可能比较弱因而更不能负担比较大的网络和复杂的计算。在前文调研部分的所有方法中，物体检测网络SSD300是最快的方式，当使用GPU且批量大小为8时，其推理时间为59fps。最近，在人脸检测领域采用级联网络的思想，网络表现出了超越SSD300的实时性，GPU上为99fps，CPU上为16fps。在此背景下，迫切需要满足一定实时性要求的稳定可靠的物体位姿估计方法。

发明内容

本发明为了解决现有技术中缺乏一种满足一定实时性要求的稳定可靠的物体位姿估计方法的问题，提供一种用于机械臂抓取系统中目标物体的位姿估计方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种用于机械臂抓取系统中目标物体的位姿估计方法，包括如下步骤：S1：渲染训练数据集；S2：构建目标物体的位姿估计级联网络，所述级联网络采用三个轻量级网络级联的方式；S3：训练所述目标物体的位姿估计级联网络。

优选地，还包括如下步骤中的至少一步：S4：评价所述目标物体的位姿估计级联网络；S5：测试所述目标物体的位姿估计级联网络；S6：分析所述目标物体的位姿估计级联网络的运行时间。

优选地，采用OpenGL渲染方式渲染训练数据集。

优选地，所述三个轻量级网络分别用于：生成检测框；去除不准确的所述检测框；选择最准确的所述检测框并输出所述目标物体的位姿值。

优选地，步骤S3包括如下步骤：S31：定义所述目标物体的位姿，所述位姿由三维旋转矩阵和三维平移矩阵组成的四维矩阵表示；S32：设置多任务损失函数，具体如下：

其中，α、β、γ是损失函数的比例因子，

和分别为三个轻量级网络的损失函数；S33：采用三个轻量级网络处理训练数据，得到训练数据集。

优选地，训练数据包括如下步骤：T1：裁剪输入的RGB图像以获得目标样本，所述目标样本包括：负样本，部分样本和正样本，作为训练数据输入第一个轻量级网络并记录训练数据，其中，根据候选边界框和真实值边界框之间的IoU，将IoU>0.65的分类为正样本，0.35<IoU<0.65分类为部分样本，IoU<0.25分类为负样本；其中目标样本的尺寸为12x12；T2：将所述目标样本的尺寸调整到24x24并输入到第二个轻量级网络并记录训练数据；T3：将所述目标样本的尺寸调整到48x48并输入到第三个轻量级网络并记录训练数据。

优选地，在步骤T1和步骤T2中，所述损失函数的β大于α、γ；在步骤T3中，α，γ大于β。

优选地，步骤S4中使用F1-score，2D-pose和ADD评价所述目标物体的位姿估计级联网络。

优选地，使用标准数据集LINEMOD中的测试集测试所述目标物体的位姿估计级联网络。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种用于机械臂抓取系统中目标物体的位姿估计方法，通过采用级联网络，使姿态估计问题成为分类问题，减少网络训练测试时间，提高检测精度。

附图说明

图1是本发明实施例中一种用于机械臂抓取系统中目标物体的位姿估计方法示意图。

图2是本发明实施例中又一种用于机械臂抓取系统中目标物体的位姿估计方法示意图。

图3是本发明实施例中采用的视角采样区域示意图。

图4是本发明实施例中采用的另一个视角采样区域示意图。

图5是本发明实施例中位姿估计级联网络的示意图。

图6是本发明实施例中物体检测和位姿估计级联网络训练的方法示意图。

图7是本发明实施例中几何投影关系计算深度的示意图。

图8是本发明实施例中处理训练数据的方法示意图。

图9是本发明实施例中对单个目标的图片物体姿态估计的定性测试结果示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接即可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

如图1所示，本发明提供一种用于机械臂抓取系统中目标物体的位姿估计方法，包括如下步骤：

S1：渲染训练数据集；

S2：构建目标物体的位姿估计级联网络，所述级联网络采用三个轻量级网络级联的方式；

S3：训练所述目标物体的位姿估计级联网络。

如图2所示，本发明提供的用于机械臂抓取系统中目标物体的位姿估计方法，还包括如下步骤中的至少一步：

S4：评价所述目标物体的位姿估计级联网络；

S5：测试所述目标物体的位姿估计级联网络；

S6：分析所述目标物体的位姿估计级联网络的运行时间。

具体的，如下所示：

步骤1：OpenGL渲染训练数据集

图像渲染是将三维的光能传递处理转换为一个二维图像的过程。目前研究者使用最多的是OpenGL渲染方式。这个渲染工具的优点是有比较完备的函数库，方便嵌入到各种编程语言中直接调用，不需要考虑接口问题。有的研究者甚至在网络训练的过程中使用该方法渲染位姿的中间值，然后不断迭代优化。在渲染时设置不同的光照条件等以添加环境噪声，提高网络的鲁棒性。鉴于不同物体的外表对称性情况，渲染时采样不同的空间区域，如图3所示为本发明采用的视角采样区域。如图4所示，当物体是中心对称是采样范围是绿色的弧线，当为半对称时是红色或者蓝色区域，当物体完全不对称时采样红色绿色和蓝色整个上半球。

步骤2：物体检测和位姿估计级联网络构建

如图5所示，本发明的位姿估计级联网络由三个独立的子网络组成，且三个网络结构都是不同的。训练时三个网络是按一定顺序一个一个训练，而不是一起训练，三个独立的网络逐步预测目标的边界框和位姿。在被检测物体的上半球中采样大约1313个视图作为分类目标，以使姿态估计问题成为分类问题，如图4所示。但由于目标对象的对称性，相邻视图可能在一定程度上具有相似性。为此，要求网络获得有辨别力的描述以正确地对视角点进行分类。因此，网络的过滤器需要权重的多样性。

给定一个图像，将其调整为不同的尺度以构建图像金字塔，然后将它们放入三阶段级联框架中。选择3x3卷积核以减少计算，同时增加深度以获得更好的性能。第I步：框架的第一部分获得输入图像中对象大量粗略的边框，之后，仍然需要采用非最大抑制(NMS)来省略高度重叠的候选。得到的边框如图1中StepⅠ最后的图片所示。第II步：来自第一步的所有候选框都被提供给框架的这一部分，并且大量的错误候选者被边界框回归和NMS候选者合并，如步骤Ⅱ中最后的图片所示，得到的候选框更有规律了，基本都是围绕目标物体的。第III步：与第二步类似，此步骤继续拒绝候选人获得最后一个边界框。此外，在此步骤中，需要更详细地描述对象以生成姿势假设，因此该部分中的网络比前两个步骤更大。

特别地，因为需要最后一个网络估计目标物体的理想姿态，所以第三个网络具有最复杂的组成。在CNN层之后，加入位姿估计分支。这些新添加的层从前面CNN接收捕获的特征，然后通过参数更新将它们转换为预测视角类别，边界框修正量等。

步骤3：如图6所示，物体检测和位姿估计级联网络训练，包括如下步骤：

S31：定义所述目标物体的位姿，所述位姿由三维旋转矩阵和三维平移矩阵组成的四维矩阵表示；

S32：设置多任务损失函数，具体如下：

其中，α、β、γ是损失函数的比例因子，

和

分别为三个轻量级网络的损失函数；

S33：采用三个轻量级网络处理训练数据，得到训练数据集。

具体的，物体位姿定义。物体的位姿是由三维的旋转矩阵R(见方程(1))和三维平移矩阵T(见方程(2))组成的四维矩阵P(见方程(3))表示。

T＝(x，y，z) (2)

如图7所示，物体检测的目的是获取给定图像中的对象的边界框，并且根据视角分类得到物体的旋转矩阵R。对于平移矩阵，回归得到物体像素坐标(x_p，y_p)，根据其与三维空间坐标(x_s，y_s，z_s)之间的数学关系，见方程(6)，其中f_x，f_y，c_x，c_y表示的相机的内参，通过几何投影关系计算深度z_s，见公式(4)。

其次，设置多任务损失函数。训练目标级联网络检测器时需要网络完成三个任务：物体检测，采样视角分类，物体中心点回归。根据这三个任务，将三个损失项乘以相应系数后形成一个表示总损失的表达式，见方程(7)。α，β，γ三个系数是用于控制训练过程中每个损失的侧重量的比例因子。在上述三个步骤的网络训练中，这三个系数是变化的。在步骤I和步骤II中，更加注重物体检测部分，而不太关注姿态估计。因为在这两个步骤中，的目标是获得比较好的检测边界框。在步骤III中，这时边界框经过前两步的计算可能已经非常适合物体了，因此需要更多关注姿态估计以获得候选边界框内的对象的姿态。对于

使用softmax作为激活函数，对于

和

选择L2作为损失函数。

如图8所示，在开始训练过程之前还需要按照需求处理训练数据：

T1：裁剪输入的RGB图像以获得目标样本，所述目标样本包括：负样本，部分样本和正样本，作为训练数据输入第一个轻量级网络并记录训练数据，其中，根据候选边界框和真实值边界框之间的IoU，将IoU>0.65的分类为正样本，0.35<IoU<0.65分类为部分样本，IoU<0.25分类为负样本；其中目标样本的尺寸为12x12；

T2：将所述目标样本的尺寸调整到24x24并输入到第二个轻量级网络并记录训练数据；

T3：将所述目标样本的尺寸调整到48x48并输入到第三个轻量级网络并记录训练数据。

具体的，首先裁剪输入的RGB图像以获得负样本，部分样本和正样本，并将它们调整大小为12x12作为训练数据并送入第一个网络。特别地，计算候选边界框和真实值边界框之间的IoU，然后将那些IoU>0.65的结果分类为正样本，将那些0.35<IoU<0.65分类为部分样本，将那些IoU<0.25分类为负样本并舍弃0.25<IoU<0.35范围内的样本。正样本，部分物体样本和负样本主要用于目标检测和分类。对于姿态估计，使用真实值边界框裁剪出大小为12x12的目标样本，并同时记录真实值位姿作为训练数据。在步骤II中，原始训练图像通过步骤I中训练得到的网络以获得粗略边界框候选并且同时生成正、负、部分三个类别的样本。然后将它们调整到24x24作为训练集输入给第二个网络。和上一步相似，这一步大小生成图片大小为24x24的位姿训练数据。类似于步骤II，在步骤III中，原始训练图像经过由前两个步骤得到的训练网络的处理以获得更少但更准确的候选边界框并省略不良候选者，同时产生三个类别样本。之后，将它们调整为48x48作为训练数据集提供给最后一个网络。位姿训练数据在此步骤中为48x48。

有了之前的准备之后就可以开始网络训练过程。步骤I中有必要使损失函数中的β大于其他两个系数，因为在这一阶段需要对边界框回归加入多权衡，以便在为第二步生成良好的边界框候选者。步骤II中的网络功能上与上一步骤类似，因而α，β，γ设置与步骤I相同。在步骤III中需要更加重视位姿恢复部分。因而α，γ应该都高于β。此外，旋转矩阵与平移矩阵具有相同的重要性，因此分配α，γ相同的数值。

在本发明的一种实施例中，步骤I中损失函数中的α，β，γ分别设置为0.5，1.0，0.5。将其他两个系数设置为大约0.5，让网络学习一些物体种类和姿态的特征。步骤II中α，β，γ仍然可以分别为0.5，1.0，0.5。在步骤III中，α，β，γ设置为1.0，0.5，1.0。训练时，三个网络的训练时间都比较短。第一个网络和第二个网络在GTX960m上的训练时间大约为40min，第三个网络训练时间大约为70min。这显示，相比于其它深度卷积网络，本方法的训练时间大幅度减少。

步骤4：位姿估计评价指标。：近年来研究者引入了几种6D姿态估计评估指标。为了与其他方法进行比较，本发明采用F1-score，2D-pose和ADD(Average Distance of ModelPoints)度量物体检测和位姿估计的效果。

S4.1：F1-score与检测精度和召回率有关，它代表了网络在物体检测中的表现，其表达式可以描述为方程(8)

其中TP(True Positive)意为预测答案正确，FP(False Positive)意为错将其他类别预测为本类，FN(False Negative)意为错将本类标签预测为其他类标签。

S4.2 2D-pose指标在2维中的度量姿势误差，其使用真实值的boundingbox和测试结果3D对象模型投影到图像中的boundingbox之间的IoU值作为评价标准。如果两个投影框之间的IoU高于0.5，则接受估计的姿势。值得注意的是，在投影操作之后，目标物体的大多数特征会被忽略，例如纹理，对象的3D形状，物体背面的所有特征等。因此投影边界框和地面真实框之间的IoU主要代表预测的位姿中的平移矩阵T是否正确。

S4.3 ADD度量来测量物体位姿的3D姿势误差，表征的是一个物体两种姿态下物体表面点之间的平均距离，如公式(9)所表示。在ADD度量中，如果平均距离小于对象直径的10％，则接受估计的姿势。该度量可以测量两个对象

的表面的两个对应点之间的距离。因此，它同时评估旋转矩阵和平移矩阵。

步骤5：物体检测和位姿估计级联网络测试，测试时使用现有标准数据集LINEMOD中的测试集。

S5.1：首先定性描述基于级联网络的物体检测和位姿估计结果。使用标准数据集LINEMOD测试训练好的网络，其中包含杂乱场景中的15个纹理不良的对象。从整个数据集中选择8个对象。值得注意的是，对于测试数据集的大部分内容，一个图像仅使用真实值注释了一个对象。对于每个对象，在单个对象测试数据集中随机选择15％的图像来验证的神经模型。

图9显示了分类法在LINEMOD数据集上对单个目标的图片物体姿态估计的一些定性测试结果。第一行中的图像表示网络的对象检测结果，第二行表示姿势估计结果。从检测边界框中可以看到一些盒子在某种程度上不能很好地适应对象。使用预测姿势将目标渲染到测试图像上，如图9中的第二行所示。

S5.2：定量描述基于级联网络的物体检测和位姿估计结果。为了更好评估基于级联网络物体检测和位姿估计方法，需要定量描述基于级联网络的物体检测和位姿估计结果。表1展示出了物体检测结果的F₁-score，其中IoU设定为0.5。与最近的Deep-6DPose相比，的方法可以获得类似的检测结果，而的方法即使在性能较差的GPU上也比Deep-6DPose消耗更少的时间，如表4所示。已经说过的训练数据集是通过OpenGL渲染，而不是真实世界的图像。合成图像不是那么“真实”，让网络学习足够的真实世界图像的光照条件，颜色，纹理和杂乱的背景。这导致测试阶段中出现漏检和边界框偏移的情况。

表2揭示了2D姿态估计误差。理论上，对物体进行投射后，物体将失去大部分表面和三维形状特征。投影后只选择两个投影边界框的IoU值而忽略投影的轮廓。这表明如果估计的位置(X，Y，Z)越精确，则得分越高，而估计的旋转矩阵对该度量的影响较小。该表揭示了的方法比Brachmann要好得多，并且得到与Deep-6DPose几乎相同的结果。

表3表示几种极好的姿势估计方法的3D姿态误差。与2D姿势度量不同，ADD度量可以测量地面姿态和预测姿势之间的表面距离，因此该度量可以对旋转矩阵和传递矩阵进行权衡。但是从表2中注意到转移矩阵已被很好地预测。因此，在这种情况下，表3中的ADD度量可以更多地反映旋转矩阵的正确性。

表1基于级联网络方法物体检测F₁-score与其他方法比较

表2基于级联网络方法位姿估计2D-pose指标与其他方法比较

表3基于级联网络方法位姿估计ADD指标与其他方法比较

步骤6：物体检测与位姿估计运行时间分析。

在测试阶段，所有三个网络在i7-4720HQ CPU@2.60GHz和GTX960m GPU上占用时间大约为0.05s(20fps)。与表4中物体检测和姿态估计区域中的所有其他方法相比，这是最快的速度，可以满足基本的实时性需求。除LINEMOD外，其他方法都在GPU上，而本发明使用的设备计算能力比其他方法弱得多。

表4基于级联网络方法消耗时间与其他方法比较

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，包括如下步骤：

S1：渲染训练数据集；

S3：训练所述目标物体的位姿估计级联网络。

2.如权利要求1所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，还包括如下步骤中的至少一步：

S4：评价所述目标物体的位姿估计级联网络；

S5：测试所述目标物体的位姿估计级联网络；

S6：分析所述目标物体的位姿估计级联网络的运行时间。

3.如权利要求1所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，采用OpenGL渲染方式渲染训练数据集。

4.如权利要求1所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，所述三个轻量级网络分别用于：生成检测框；去除不准确的所述检测框；选择最准确的所述检测框并输出所述目标物体的位姿值。

5.如权利要求1所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，步骤S3包括如下步骤：

S32：设置多任务损失函数，具体如下：

其中，α、β、γ是损失函数的比例因子，

和

分别为三个轻量级网络的损失函数；

S33：采用三个轻量级网络处理训练数据，得到训练数据集。

6.如权利要求5所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，训练数据包括如下步骤：

7.如权利要求6所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，在步骤T1和步骤T2中，所述损失函数的β大于α、γ；在步骤T3中，α，γ大于β。

8.如权利要求2所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，步骤S4中使用F1-score，2D-pose和ADD评价所述目标物体的位姿估计级联网络。

9.如权利要求2所述的用于机械臂抓取系统中目标物体的位姿估计方法，其特征在于，使用标准数据集LINEMOD中的测试集测试所述目标物体的位姿估计级联网络。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。