CN101430192B

CN101430192B - 确定场景中的对象的三维姿态的方法和系统

Info

Publication number: CN101430192B
Application number: CN2008101756167A
Authority: CN
Inventors: 阿米特·K·阿格拉瓦尔; 拉梅什·拉什卡尔
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-11-07
Filing date: 2008-10-17
Publication date: 2010-12-15
Anticipated expiration: 2028-10-17
Also published as: EP2058761A3; JP5258465B2; US7983487B2; CN101430192A; EP2058761B1; JP2009115783A; US20090116728A1; EP2058761A2

Abstract

本发明涉及确定场景中的对象的三维姿态的方法和系统。根据在改变包括多个对象的场景中的照明时所获取的所述场景的一组图像确定多个深度边缘。连接所述深度边缘来形成多个轮廓。根据所述轮廓来将所述图像划分成多个区域。使用所述区域来构造遮挡图。所述遮挡图包括代表场景中的未被遮挡对象的未被遮挡区域的源节点。将与所述未被遮挡区域相关的轮廓与所述多个对象的一组廓影进行比较，其中，每一个廓影都具有已知姿态。选择最佳匹配的廓影的已知姿态作为所述未被遮挡对象的姿态。

Description

确定场景中的对象的三维姿态的方法和系统

技术领域

本发明总体上涉及三维对象的检测和识别，更具体地说，涉及确定对象的姿态(pose)。本方法的实际输出(即，对象的姿态)使得能够进行多种有用的应用，尤其是用于制造现场(setting)的料箱提取机械(binpicking machine)。

背景技术

工业机器人通常被设计用来以高准确度和高精确度来重复执行相同任务。在多种工业应用中(诸如制造和装配中)，机器人用于从料箱中‘提取’零件(零件获取)，并以正确的位置和方向(姿态)来放置这些零件，用于后续处理。

机器人依赖于要提取的零件的一致姿态。任何偏差都会导致机器人或者零件的损坏，这会增加成本。通常，定制设计的机械及机电系统用于以特定的姿态向机器人供给零件。在有些情况下，零件是由人工预先定位的，使得机器人能够容易地提取零件。

最近，计算机视觉技术已经被用于使零件定位及提取的过程自动化。大多数传统的自动化技术只能提取单个非封闭(non-occluding)零件，或者彼此间隔放置的零件(例如，零散地分散在传送带上的零件)。

虽然一些视觉辅助系统能够提取堆叠(stacked)的零件，但是这只能在使用复杂的机械系统或者人工干预的情况下实现。大多数视觉辅助系统缺乏可靠性、准确度和鲁棒性，并且使用昂贵的视觉传感器和硬件。当零件被随机放置、被以随意的方式彼此上下放置成一堆或放置在料箱中时，传统的视觉辅助系统缺乏三维零件获取的能力。

三维姿态估计及零件获取的问题是公知的。手工零件获取包括人工地进行获取、放置以进行装配。对于对沉重的零件进行工作的人是存在风险的。另外，要求人类操作者具备特定水平的一系列技巧。期望通过取代人类操作者来降低成本。

自动的零件获取系统通常使用机电装置，诸如装备有特别设计的用于提取零件的抓取器(grasper)的机械手。然而，机器人需要了解要提取零件的姿态。诸如精确固定(precision fixturing)的一些方法能够用于以特定的姿态将零件递交给机械手。这些系统是昂贵的，缺乏互操作性(即，需要针对特定的零件专门地设计这些系统)，而且不能处理成箱的随机堆叠的零件。

计算机视觉系统能够用于确定对象的姿态。这些系统通常使用一个或更多个照相机。能够对由这些照相机所获取的图像进行分析，以对这些对象进行定位，并为机械手提供用于进行后续操作的反馈。大多数视觉系统是二维的，并且只能用于二维的任务，诸如检查和简单的零件获取。那些系统只能够确定该零件在平面内的方向和位置，但是不能确定在平面外的任何旋转和到该零件的距离。通常，那些二维系统要求零件没有交叠，并且放置在平坦的表面上。所以，那些系统不能对成堆(pile)的随机放置的对象进行操作。

一些系统通过使得到该对象的距离基于在图像中该对象的尺寸，来改进二维视觉系统。但是，那些2.5维系统不能估计平面外的旋转，而且它们的距离估计通常不可靠。

三维视觉系统通常使用传感器来估计场景(scene)的三维几何尺寸。立体(stereo)系统使用两个照相机来估计到对象的距离。首先，相应的特征都位于立体图像中。这些照相机之间的几何关系能够用于识别这些特征的深度(距离)。然而，对相应的特征进行定位本身就是一个挑战性的问题，尤其是对于在外表上通常具有高反射性并相似(homogeneous)的机器零件。如果图像关于特征是嘈杂的，则立体系统可能会错误地估计深度。立体系统的另一个问题在于，只针对特征、而不是覆盖整个对象来恢复深度。所降低的准确度不足以进行准确的料箱提取。

激光三角测量(triangulation)使用结构光(structured light)来生成其全部图像都通过照相机获取的对象表面的模型(pattern)。激光三角测量能够恢复该对象表面的三维形状。这种技术例如已经被用于包括对柔性的且尺寸不稳定的零件进行焊接(welding)、密封(sealing)、胶浆淀积(glue deposition)、研磨(grinding)、水射流切割(waterjet cutting)以及去毛刺(deburring)的边缘跟踪(edge tracking)的应用。

激光三角测量要求图像配准(image registration)，并考虑阴影(shadow)和遮挡(occlusion)。那些系统对于一般、随机的料箱提取应用还不够完善。另外，当在人类操作者附近设置激光时经常会引起安全问题。

发明内容

本发明的实施方式提供一种用于检测和识别在场景中的对象的系统和方法。此外，这些实施方式确定了各个对象的三维姿态。这里将姿态定义为对象的三维位置和方向。

在实际应用的示例中，这些对象在料箱中彼此上下成堆。距离照相机最近的对象位于堆的顶部，并且能够从料箱中被提取出来而不干扰其它对象。

当使用光源对该场景进行照明时，照相机获取该场景的图像。光源投下阴影。这些阴影用于获得该场景中的对象的深度边缘和阴影边缘。使用深度边缘与阴影边缘之间的物理及几何约束来将这些深度边缘连接起来，得到闭合轮廓(contour)。这些轮廓用于将该图像场景划分成多个区域。

构造一个“遮挡图(occlusion graph)”。该图针对每个所划分的区域都具有一个节点。如果与一个节点相关的区域将阴影投到(遮挡)与另一节点相关的区域上，则将这两个节点通过边(edge)连接起来。遮挡图标识出该场景中的未被遮挡对象。未被遮挡对象对应于该堆顶部的对象，该对象具有完整的连接轮廓。

使用这些对象的三维计算机辅助设计(CAD)模型来生成对象廓影(silhouette)的数据库(存储器)。这些廓影针对不同的视角。该数据库还包括针对不同视角的该对象的部分廓影。这些廓影也表示为深度边缘。

对该遮挡图进行遍历以找到潜在的候选未被遮挡对象。将顶层(未遮挡)对象的轮廓与该数据库的这些廓影进行匹配，以估计该未被遮挡对象的三维位置和方向(三维姿态)。

可以将所估计的三维姿态与机械手一起用于多种机器人任务，包括用于处理或装配的零件获取。该系统使得能够进行没有约束的三维料箱提取。

附图说明

图1是示出根据本发明实施方式的定位和提取对象的系统和方法的框图；

图2是示出根据本发明实施方式的一个对象及该对象所投下阴影的示意图；以及

图3是示出根据本发明一个实施方式的遮挡图。

具体实施方式

系统结构

图1示出了根据本发明实施方式的定位和提取对象的系统和方法。在本发明的一个实施方式中，这些对象在外观和形状上相似。在另一实施方式中，这些对象不同。

料箱101装有机器人103要提取的对象102。由多个光源104对该料箱进行照明。这些光源在该料箱上投下多个阴影。照相机105获取110当照明发生变化时该料箱中的这些对象的一组(多个)图像111。例如，如图2中所示，根据光源104的位置，阴影201-202可以是对象102的任何一侧。

确定120由于图像111中的阴影201-202而造成的深度边缘121及阴影边缘122。连接深度边缘121以形成130经连接的轮廓131。这些轮廓用于将该图像划分140成多个区域141。然后，将这些区域141用于构造150遮挡图151。

该图用于对预先存储在数据库(存储器)162中的廓影161进行定位160。这些廓影也采用深度边缘的形式。各个廓影都具有相关的姿态106。选择170该数据库中的与根据该图的未被遮挡对象的轮廓131最佳匹配的廓影161的姿态106，作为该料箱中的对象的姿态。机器人103使用这些姿态来从该料箱中提取对象，用于进一步处理。

方法操作

图像获取

通过一个或者更多个照相机105获取110一组(多个)图像111。这些照相机可以是摄像机或者是静态照相机。这些照相机可以被设置在机械手107上，或者被固定在靠近该机器人及料箱的工作空间内。使用光源104来获取这些图像。这些光源可以是放置在照相机附近或者工作空间中的发光二极管(LED)或其它类型的发光装置。出于校准的目的，确定这些光源相对于这些照相机的设置。在目前的实现中，我们使用多闪光灯(multiflash)照相机，参见授予Raskar的美国专利7,218,792，以引用的方式将该专利合并于此。

当只由环境(ambient)光对该场景进行照明时，还获取环境图像。从该组图像中的每一个图像中减去该环境图像，以消除环境光的影响。

确定深度边缘及阴影边缘

在获取这些图像之后，我们确定该料箱中的这些对象的深度边缘121和阴影边缘122。深度边缘被定义为对象的边界与背景之间的不连续性(discontinuity)。阴影边缘被定义为对象所投下的阴影与背景之间的不连续性。

通常，工业对象具有非朗伯反射(non-Lambertian reflectance)及镜面反射(specularity)，这导致噪声及伪深度边缘。因为亮度随着视角发生改变，所以很难处理非朗伯表面。本方法也能够处理具有孔的对象。与自投影(self-shadowing)类似，当存在由于镜面反射而产生的伪深度边缘时，本方法能够通过去除伪深度边缘而忽略镜面辉亮(specularhighlight)的影响。

为了简化该描述，这组图像包括通过将这些光源放置在该照相机的上方、下方、左方、右方而获得的四个不同照明的图像I₁、I₂、I₃、I₄。我们通过确定在各个像素处的梯度的中值并根据这些梯度重构回去，来从这组图像中确定本征图像(intrinsic image)I_median，参见Raskar。

然后，用I_i＝min(I_i，I_median)来替换各个图像I_i。也就是说，在图像I_i中的各个像素处，用亮度值或者中值I_median中的最小值来替换该亮度值。然后，我们获得比值图像I_R＝I_i/I_median。这个操作的作用在于使这些图像中的镜面反射最小化。

在这些比值图像中检测边缘。根据对该图像照明的方向，这些边缘对应于深度边缘或阴影边缘。

轮廓形成

深度边缘121可能是不完整的，即，由于软阴影(soft shadow)或者缺少阴影而可能缺少深度边缘和阴影边缘的某些部分。使用格式塔规则(Gestalt rule)的用于连接边缘的启发式方法(heuristic method)是公知的。但是，我们使用物理及几何约束来进行边缘连接，而不使用启发式方法。这些约束是在深度边缘与阴影边缘之间。所投下的阴影具有半阴影区(penumbra region)，以上所定义的深度边缘对应于位于该半阴影的一侧的不连续性，而阴影边缘对应于该半阴影的另一侧的不连续性。因此，我们定义两个约束：

1)对于每一个深度边缘，存在平行的阴影边缘；以及

2)深度边缘和阴影边缘不能在同一像素处共存。

这两个约束使得我们能够完成(complete)缺失的深度边缘，以形成闭合轮廓。我们通过使线段与深度边缘拟合(fit)并且延长各条线段，来实现该处理。将符合上述约束的各条延长线段保留为轮廓131。

划分

由深度边缘121形成的轮廓131将该图像划分成多个区域141。如下面所述，通过合并对过度划分进行修正。

遮挡图构造

如图3中所示，遮挡图被定义为节点301、303及有向弧302的二维有向图。在该图中，这些节点表示区域，而当由第一节点所代表的区域在由第二节点所代表的区域上投下阴影时，有向弧从第一节点前进到第二节点。对于一个图像，可能存在一组图。例如，如果有两堆单独的对象，则我们构造两个遮挡图，每一堆一个遮挡图。

如下来构造该遮挡图。令A和B表示一对区域。将这对区域作为节点插入到该图中。然后，我们确定区域A是否在区域B上投下阴影，反之亦然。如果是，则由有向弧以投下阴影的方向来连接节点A和B。如果否，则可以将这些区域合并，并合并这些节点。

定位未被遮挡对象

该遮挡图标识出该料箱里的未被遮挡对象。源节点303是没有入(incoming)有向弧的节点。源节点必须表示未被遮挡对象的区域。

姿态估计

姿态估计是两阶段处理，第一阶段处理是粗处理，第二阶段处理是精处理。姿态估计使用预先存储在数据库中的廓影的深度边缘。

预处理

将在不同视角下的对象的廓影预先存储在数据库中。针对各个视角，还将对象的部分廓影存储在数据库中。视角得到相应的姿态。这些部分廓影有助于对存在自投影及自遮挡(self occlusion)的对象进行匹配。假定在制造和装配应用中很容易获得对象的CAD模型。

粗姿态估计

将与根据该图的未被遮挡对象相关的轮廓与存储在数据库中的廓影进行匹配，以获得最佳匹配姿态。这种匹配可以使用任何已知的技术，诸如斜面(chamfer)匹配或者匹配图像矩(moment)。由于存储在数据库中的廓影的数量是有限的，所以我们只能获得粗姿态估计。

精姿态估计

我们使用整个三维CAD模型来细化该三维姿态。使用通过将该三维CAD模型的廓影与给定区域进行匹配而对旋转及位移(translation)进行优化的传统技术，来对姿态进行细化。这种优化从粗姿态估计开始，并收敛于正确的姿态。

对象提取

机器人可以使用该姿态来从该料箱中提取最上层的对象。如果具体的图像显示出多个未被遮挡对象，则可以依次提取这些对象。

多个对象类型

当该数据库存储了不同对象的对应廓影时，针对类似的对象描述了以上方法。

多个图像获取

针对位于固定视角的单个照相机描述了以上方法。但是，该系统也可以工作于多个照相机视角。然后，额外的图像可以用于验证划分以及姿态估计结果。另选的是，可以组合来自多个图像的信息，以提高姿态估计的准确度。

本发明的效果

根据本发明的实施方式的系统和方法确定料箱中的未被遮挡零件的姿态。该系统使用装备有廉价发光二极管(LED)的单个照相机。可以将姿态馈送给机械手，以在制造应用中从料箱中提取出这些零件。由于本方法相对简单而且执行快捷，所以它可用于实时应用。

本发明执行三维对象识别和姿态估计而不使用三维获取设备(诸如立体摄像机、激光或者结构光)。重构场景的深度图是费时而昂贵的，尤其是对具有镜面反射及非朗伯表面的发亮的工业零件。本发明的系统不对三维深度进行估计。而是根据所投下的阴影获得深度边缘。与一般所用的特征(诸如亮度边缘、角部和接合点)不同，可以将深度边缘用作用于划分场景和估计姿态的特征。

使用深度边缘使得本系统能够对有纹理的(textured)对象、没有纹理的(non-textured)对象、发亮的或者镜面的对象进行操作。使用基于亮度边缘的特征的系统很难处理发亮的金属工业零件和无纹理的对象。

本发明提供了一种新颖的边缘连接处理，以完成场景中缺失的深度边缘。传统的边缘连接处理试图通过使用启发式方法来完成亮度边缘，以从亮度图像获得封闭轮廓。我们使用实际的物理及几何约束连接深度边缘，而不使用任何启发式方法。

我们还提供了一种新颖的场景遮挡图。从被深度边缘包围的区域构造该遮挡图。该遮挡图中的各个节点对应于被深度边缘所包围的二维区域。如果区域A在区域B上投下阴影，则在节点A与节点B之间存在有向弧。该遮挡图的源节点对应于该场景中的未被遮挡对象。

该图减少了将对象与它们的廓影进行匹配所需执行的匹配次数。

虽然通过优选实施方式的示例的方式对本发明进行了描述，但是可以理解的是，可以在本发明的精神和范围内作出各种其它改动和修改。因此，所附权利要求的目的在于覆盖落入本发明真实的精神和范围内的所有这些变形和修改。

Claims

1.一种用于确定场景中的对象的三维姿态的方法，该方法包括以下步骤：

在变化包括多个对象的场景中的照明时根据所获取的所述场景的一组图像确定多个深度边缘；

连接所述深度边缘，来形成多个轮廓；

根据所述轮廓来将所述图像划分成多个区域；

使用所述区域来构造遮挡图，其中，所述遮挡图包括源节点，该源节点代表在所述场景中的未被遮挡对象的未被遮挡区域；

将与所述未被遮挡区域相关的轮廓与所述多个对象的一组廓影进行

比较，其中，每一个廓影都具有已知的姿态；以及

选择最佳匹配的廓影的已知姿态，作为所述未被遮挡对象的姿态，

其中，所述深度边缘被定义为所述对象的边界与所述场景中的背景之间的不连续性，

所述连接的步骤具有以下的约束：对于每一个深度边缘存在平行的阴影边缘，并且所述深度边缘和所述阴影边缘不能在所述一组图像中的同一像素处共存，所述阴影边缘被定义为由所述对象投下的阴影与所述背景之间的不连续性，并且

其中，所述遮挡图被定义为节点及有向弧的二维有向图，当由第一节点所代表的第一区域在由第二节点所代表的第二区域上投下阴影时，有向弧从所述第一节点前进到所述第二节点，并且所述源节点没有入有向弧，

该方法还包括以下步骤：如果所述第一节点与所述第二节点之间没有有向弧，则将所述第一节点与所述第二节点合并。

2.根据权利要求1所述的方法，该方法还包括以下步骤：

根据所述姿态将所述未被遮挡对象从所述场景中提取出来。

3.根据权利要求2所述的方法，其中，由机械手执行所述提取的步骤。

4.根据权利要求1所述的方法，其中，所述多个对象在外表和形状上类似。

5.根据权利要求1所述的方法，其中，所述多个对象具有非朗伯表面。

6.根据权利要求1所述的方法，其中，所述变化的照明来自位于照相机上方、下方、左方及右方的光源。

7.根据权利要求6所述的方法，其中，所述照相机是摄像机。

8.根据权利要求3所述的方法，其中，照相机被设置在所述机械手上。

9.根据权利要求1所述的方法，其中，所述多个对象包括镜面反射。

10.根据权利要求9所述的方法，其中，所述一组图像为I_i，并且该方法还包括以下步骤：

根据所述一组图像中的各个像素处的梯度的中值来确定对于各个图像I_i的本征图像I_median；

用I_i＝min(I_i，I_median)来替代各个图像I_i；

获得比值图像I_i/I_median；以及

根据所述比值图像来确定所述深度边缘，以使所述镜面反射最小化。

11.根据权利要求1所述的方法，其中，所述廓影及已知姿态都预先存储在存储器或数据库中。

12.根据权利要求1所述的方法，其中，从所述多个对象的不同视角的计算机辅助设计模型来获得所述廓影及已知姿态。

13.根据权利要求1所述的方法，其中，所述廓影包括部分廓影。

14.根据权利要求1所述的方法，其中，由多个照相机获取所述一组图像。

15.一种用于确定场景中的对象的三维姿态的系统，该系统包括：

照相机，该照相机被设置为在改变包括多个对象的场景中的照明时获取所述场景的一组图像；

用于根据所述一组图像来确定多个深度边缘的装置；

用于连接所述深度边缘来形成多个轮廓的装置；

用于根据所述轮廓来将所述图像划分成多个区域的装置；

用于使用所述区域来构造遮挡图的装置，其中，该遮挡图包括源节点，该源节点代表所述场景中的未被遮挡对象的未被遮挡区域；

用于存储所述多个对象的一组廓影的数据库，其中，每一个廓影都具有已知姿态；

用于将对应于所述遮挡图的子图的深度边缘与所述一组廓影进行比较的装置；以及

用于选择最佳匹配的廓影的已知姿态作为所述未被遮挡对象的姿态的装置，

所述用于连接所述深度边缘来形成多个轮廓的装置具有以下的约束：对于每一个深度边缘存在平行的阴影边缘，并且所述深度边缘和所述阴影边缘不能在所述一组图像中的同一像素处共存，所述阴影边缘被定义为由所述对象投下的阴影与所述背景之间的不连续性，并且

该系统还包括：用于在所述第一节点与所述第二节点之间没有有向弧的情况下，将所述第一节点与所述第二节点合并的装置。

16.根据权利要求15所述的系统，该系统还包括：

用于根据所述姿态从所述场景提取出所述未被遮挡对象的装置。