CN102236794B

CN102236794B - 3d场景中3d对象的识别和姿态确定

Info

Publication number: CN102236794B
Application number: CN201010292836.5A
Authority: CN
Inventors: 伯特伦·海因里希·德罗斯特; 马库斯·乌尔里希
Original assignee: MVTec Software GmbH
Current assignee: MVTec Software GmbH
Priority date: 2010-05-07
Filing date: 2010-09-25
Publication date: 2015-03-04
Anticipated expiration: 2030-09-25
Also published as: CN102236794A; US8830229B2; EP2385483B1; JP2011238204A; US20110273442A1; EP2385483A1; JP5677798B2

Abstract

本发明涉及3D场景中3D对象的识别和姿态确定。本发明提供一种方法，用于识别3D场景数据中3D对象的实例，并且确定所述实例的3D姿态，该方法包括以下步骤：(a)提供3D场景数据；(b)从3D场景数据中选择至少一个基准点；(c)对于每一选中的基准点，在所述基准点是所述3D对象的一部分的假设下，计算所述3D对象的候选姿态；以及(d)根据所述候选姿态计算过滤后的姿态的集合。

Description

3D场景中3D对象的识别和姿态确定

技术领域

本发明通常涉及机器视觉系统，更特别地，涉及3D场景中的3D对象的识别和定位。

背景技术

3D对象识别是很多计算机视觉应用的一部分。与处理平面的强度图像(intensity image)的基于图像的计算机视觉相比，3D计算机视觉处理三维信息，并且对于需要检查或操控的非平面对象和表面尤其重要。已开发了很多不同方法和传感器，用于获取场景的3D表面信息。这些方法中的很多是返回所谓的深度图像(range image)，这是一种在每一点的值表示场景表面距相机的距离的图像。如果传感器经过校正并且其内部参数是已知的，则深度图像可以变换为其中每个点的X坐标、Y坐标和Z坐标是已知的3D场景。此外，可以组合来自多个传感器的信息来得到无法表示为深度图像的3D场景。与现有技术相反，本发明的方法能够识别任意3D场景中任何形状的任何形式的对象，并且无需近似姿态作为先验信息。

基于描述符或特征的技术基于通过使用表面描述符而找到场景中的3D点与对象上的3D点之间的对应关系。表面描述符使用低维度表示方式来表示该表面上的点周围的表面。通常，对于对象的表面上的所有点计算表面描述符并且将其存储于数据库中。为了识别场景中的对象，对于场景中的点计算表面描述符，并且使用预先计算出的数据库搜索对应的对象点。一旦找出足够的对应关系，就可以恢复对象的姿态。在Campbell和Flynn(A Survey Of Free-Form ObjectRepresentation and Recognition Techniques，2001，Computer Vision and ImageUnderstanding，Vol.81，Issue 2，pp.166-210(自由形式对象表示与识别技术纵览，2001，计算机视觉和图像理解，第81卷，第2期，166至210页))，Mamic和 Bennamoun(Representation and recognition of 3D free-form objects，2002，DigitalSignal Processing，Vol.12，Issue 1，pp.47-76(3D自由形式对象的表示与识别，2002，数字信号处理，第12卷，第1期，47至76页))以及Mian等人(AutomaticCorrespondence for 3D Modeling：An Extensive Review，2005，International Journalof Shape Modeling，Vol.11，Issue 2，p.253(用于3D建模的自动对应：外延评审，2005，形状建模国际期刊，第11卷，第2期，253页))给出了不同表面描述符的大量概述。

依靠通过局部描述符进行对应关系搜索的方法具有若干缺点。首先，局部描述符无法区分对象上的各相似表面部分(例如较大的平面小块)。这样的相似部分产生相同或者相似的局部描述符，并且进而导致场景与对象之间的不正确的对应关系。影响半径增大从而使得不相似的表面部分包括于描述符的构造中，这产生对该表面的丢失部分的敏感性，这对于封闭或者传感器问题是频繁出现的。第二，局部描述符通常太慢而无法在实时系统中实现，并且需要若干秒的处理时间。第三，局部描述符对于杂波(clutter，即不属于感兴趣的对象的场景部分)敏感。此外，局部描述符需要3D场景数据的密集表示，该密集表示通常是不可用的。最后，当前描述符对于实时应用并非足够快。

有若干方法使用所谓的几何图元来检测场景中的对象。几何图元是一种简单的几何对象，例如平面、圆柱体或者球体。与自由形式的对象相比，几何图元由于其固有对称性而更易于在场景中检测出。存在若干检测图元或者场景中由几何图元构成的对象的方法。在EP-A-2 047 403中，3D对象划分为多个几何图元。于是在3D场景中搜索这些几何图元，并且通过标识场景中的与对象中的图元相似的图元而识别对象。其它方法使用普通霍夫变换(Hough transform)的变型来检测场景中的几何图元，例如Katsoulas(Robust extraction of vertices in rangeimages by constraining the hough transform，2003，Lecture Notes in ComputerScience，Vol.2652，pp.360-369(通过限制霍夫变换盲提取深度图像中的顶点，2003，计算机科学讲稿，第2651卷，360至369页))，Rabbani和Heuvel(Efficienthough transform for automatic detection of cylinders in point clouds，2005， Proceedings of the 11th Annual Conference of the Advanced School for Computingand Imaging(ASCI’05)，pp.60-65(用于自动检测由点云中的圆柱体的有效霍夫变换，2005，计算和成像讲习班第十一次年会公报(ASCI’05)，60至65页))，以及Zaharia和Preteux(Hough transform-based 3D mesh retrieval，2001，Proceedings of the SPIE Conf.4476on Vision Geometry X，pp.175-185(基于霍夫变换的3D网格模型检索，2001，在视觉几何X上的SPIE会议4476公报，175至185页))。依靠几何图元的所有方法具有的缺点在于，它们对于普通自由形式对象不起作用。

已开发出用于识别深度图像中的3D对象的若干方法，例如在EP-A-1 986153中的方法。这些方法作用于由各种传感器系统返回的单深度图像。然而，所有基于深度图像的系统受限于从单个深度图像所获取的3D信息，并且不能处理来自其它3D传感器或来自不同深度图像的组合的普通3D信息。此外，它们对于实时系统而言并不足够快，原因是它们通常需要在参数空间中进行暴力搜索。

已知有若干用于细化对象的已知3D姿态的方法。这些方法需要场景中对象的近似3D姿态作为输入，并且增加了该姿态的精度。已开发出若干这样的方法，例如迭代最接近点(Iterative Closest Points，见例如Zhang(Iterative point matchingfor registration of free-form curves，1994，International Journal of Computer Vision，Vol.7，Issue 3，pp.119-152(用于注册自由形式的曲线的迭代点匹配，计算机视觉国际期刊，第7卷，第三期，119至152页))，EP-A-2 026 279和Fitzgibbon(Robustregistration of 2D and 3D point sets，2003，Image and Vision Computing，Vol.21，Issue 13-14，pp.1145-1153(2D稳健匹配和3D点集，2003，图像和视觉计算，第21卷，第13至14期，1145至1153页))。姿态细化的主要缺点在于，输入姿态需要足够接近于正确姿态，否则各方法将无法收敛。然而，对于3D场景，正确姿态的良好近似难以获得，因为实际应用一般包含杂波(clutter)、封闭(occlusion)和噪声。

出于前述原因，需要一种方法，其允许高效识别任意自由形式的3D对象，并且恢复它们在普通3D场景中的3D姿态。

发明内容

本发明提供一种用于找寻3D场景中的3D对象以及以场景坐标确定对象的3D姿态的系统和方法。在典型应用中，使用例如具有两个或更多相机的立体系统、片光(sheet of light)、飞行时间、对焦深度、或光度立体(photometric stereo)来获取3D场景。于是，使用所提出的方法找到对象的3D姿态。所得3D姿态用于例如以机器人来操控对象或者检测对象表面上的误差。

所提出的方法比先前方法具有若干优点：其允许识别具有任何类型表面几何形状的自由形式的对象，因此不受限于特定类型的对象。此外，该方法对于噪声、丢失对象部分以及杂波是健壮的。能够以高精度确定3D对象的姿态。找到3D对象以及恢复其3D姿态需要很少的计算时间，并且适合于实时环境。

该方法包括两个阶段。在离线阶段中，计算模型描述，该模型描述可以稍后用于找寻3D对象。用户需要提供需找寻的对象的3D表示，例如3D CAD模型或3D点集合。该方法仅需要对象的几何形状，而不需要颜色、纹理或表面反射信息，使得本发明适合于广泛的对象类型。可以提供另外的局部信息(例如颜色和纹理)以进一步增加该方法的健壮性。通过以特定速率来采样对象的表面，从采样的表面计算用于每一对点的描述符，并且将点对存储在由所述点对描述符进行索引的数据库中，从而构建模型描述。

于在线阶段中用户提供3D场景，且在离线阶段中计算出的模型描述。以特定速率对场景的表面进行采样。这些场景点的子集用作基准点。对于每一基准点，对象的3D姿态相对于该基准点而被参数化，计算出基准点与所有其它场景点之间的点对描述符并且在离线阶段中所创建的数据库中对其进行搜索，并且返回数据库中具有最多匹配的3D姿态。于是关于一致性而检查从所有基准点恢复的3D姿态，并且使用在所有一致的3D姿态上的平均姿态。最后，可以使用任何用于姿态细化的方法来改进找到的姿态。

根据第一方面，本发明提供一种用于识别3D场景数据中3D对象的实例以及用于确定所述实例的3D姿态的方法，该方法包括以下步骤：(a)提供3D场景数据；(b)从所述3D场景数据中选择至少一个基准点；(c)对于每一选中的基准点，在所述基准点是所述3D对象的一部分的假设下，计算所述3D对象的候选姿态；(d)从所述候选姿态计算过滤后的姿态的集合。步骤(a)中的3D场景数据优选被提供作为3D点的集合或3D计算机辅助设计模型。

优选地，在步骤(a)之前从3D对象计算3D模型，且该3D模型用于步骤(b)、(c)、(d)中，包括以下步骤：(m1)提供所述3D对象的3D对象数据；(m2)从所述3D对象数据创建用于3D对象识别和姿态确定的3D模型。优选地提供步骤(m1)中的3D场景数据作为3D点集合或者作为3D计算机辅助设计模型。根据优选实施例，步骤(m2)包括：(m2a)从所述3D对象数据中选择至少两个采样点；(m2b)计算点对描述符，所述点对描述符对于每一对选中的采样点描述这两个点及其关系；(m2c)创建存储由所述点对描述符索引的点对的全局模型描述。更优选地，步骤(m2c)包括：(m2d)对点对描述符进行采样；(m2e)创建将每一采样后的点对描述符映射到点对的列表的全局模型描述，其中，每一列表包含具有相同的经采样的点对描述符的所有成对的选中的采样点。

优选地，在处理之前过滤3D对象数据和/或3D场景数据，包括以下步骤中的至少一个：检测并且去除离群值；减少噪声；计算表面法线。

所述点对描述符优选包含以下项中的至少一个：两个点的距离、两个点的两条法线之间的角度以及两个点的法线中的每一条与两个点之间的差矢量之间的两个角度。

根据另一优选实施例，在步骤(b)中，基准点是从所述3D场景数据中随机选择的，或者是通过对3D场景数据均匀采样而随机选择的。优选地，相对于3D对象的大小来计算3D场景数据的均匀采样的采样距离。

更优选地，在步骤(c)中，对于每一候选姿态计算得分值。优选地，使用投票方案计算候选姿态。投票方案优选地包括以下步骤：(c1)对可能的对象姿态的空间进行采样；(c2)关于步骤(c1)的每一姿态空间采样创建计数；(c3)从所述3D场景数据中选择场景点的集合。(c4)对于每一选中的场景点计算姿态，使得选中的场景点和基准点皆在所述3D对象的表面上；(c5)对于在步骤(c4)中计算的每一姿态，增加用于相应姿态空间采样的计数；以及(c6)检测所采样的姿态空间中的峰值计数值，并且选择相应的姿态空间采样作为候选姿态。在步骤(c6)中，峰值计数值的检测受限于超过阈值的计数值。在步骤(c1)中，可能的对象姿态的空间优选由两个参数表示，其中，第一参数是3D对象上的点，第二参数是描述绕着表面法线进行的旋转的角度。3D对象上的点优选地表示为对于从3D对象数据中选择的点集合的索引，旋转角度是通过将角度的集合划分为相等大小的间隔而被采样的。点集合优选地通过对3D对象的表面进行均匀采样而选自3D对象数据。

更优选地，在步骤(c4)中，使用允许搜索与成对基准点和选中的场景点相似的3D对象上的点对的数据结构，从而计算姿态。搜索点对优选地包括步骤：(c4a)计算描述所述两个点及其关系的点对描述符；(c4b)使用所述点对描述符作为对于数据结构的索引。所述点对描述符优选地包含以下项中的至少一个：两个点的距离；两个点的两条法线之间的角度；两个点的法线中的每一条与两个点之间的差矢量之间的两个角度；在每一点处的颜色或者灰度值；在每一点处的纹理信息；在每一点处的表面描述符；在每一点处的曲率；在每一点处的其它几何表面信息。点对描述符包含两个点的距离、两个点的两条法线之间的角度以及两个点的法线中的每一条与两个点之间的差矢量之间的两个角度。

根据优选实施例，步骤(c4b)包括：(c4c)对点对描述符进行采样；(c4d)使用将经采样的点对描述符映射到点对列表的数据结构。在步骤(c4d)中，优选使用散列表作为数据结构。

根据优选实施例，步骤(d)中的计算包括：(d1)限定在候选姿态之间的邻居关系；(d2)计算每一姿态的得分，作为邻居候选姿态的得分的加权和；(d3)通过根据(d2)中计算的得分对姿态进行排序，选择过滤后的姿态的集合。优选地，所述邻居关系是通过以下方式限定的：设定姿态的变换与姿态的旋转的差的阈值，或者设定在两个姿态之下3D对象上的点可具有的最大距离的阈值。所述方法还包括步骤：将在(d3)中选择的姿态重新计算作为邻居姿态上的平均姿态。加权优选地取决于候选姿态和当前邻居姿态。

本发明的方法优选地还包括步骤：通过优化在所述姿态下基于3D场景与3D 对象之间的距离的误差函数，从而细化过滤后姿态的集合中的每一姿态。

本发明的方法优选地还包括步骤：对于过滤后姿态的集合中的每一姿态计算得分，其中，所述得分描述在所述姿态下3D场景与3D对象之间的一致性。

本发明的方法优选还包括步骤：对于最终姿态中的每一个计算得分。计算出的得分优选为在计算出的姿态下位于3D对象表面上的3D场景中的点的数量。

附图说明

结合附图，根据以下详细描述将更充分地理解本发明，其中：

图1示出如何通过均匀采样来调整3D数据；

图2示出可以如何描述两个3D点之间的关系；

图3示出如何创建描述全局特性的全局模型描述；

图4是离线阶段(即模型生成)的流程图；

图5是在线阶段(即匹配阶段)的流程图；

图6使用局部坐标示出对象坐标系、局部坐标系与场景坐标系之间的变换。

具体实施方式

说明和定义

所有以下数据应当以电子(优选为数字)形式可得。所描述的方法和算法被看作电子形式并且是以计算机实现的。

在以下记法中，3D点是具有三个坐标值的3D空间中的点。每一3D点参考一坐标系，其中，最著名的坐标系是定义了3D场景数据的场景坐标系，以及定义了感兴趣的3D对象的对象坐标系。3D矢量是具有三个坐标值的3D空间中的矢量。在表面上的点处的3D法线矢量是具有为1的欧几里得长度并且在给定点处垂直于该表面的3D矢量。3D点云是3D点的集合。定向的3D点云是其中3D法线矢量与每一点关联的3D点云。3D刚性变换是3D点至3D点的映射，该映射保留点距离，形式上为映射f，使得对于任何点P、Q，方程|P-Q|＝|f(P)-f(Q)|成立。每个3D刚性变换可以分解为旋转和平移，其中，首先对辐角点进行旋转，并且对结果应用平移。形式上，每个3D刚性变换可以分解为3D旋转R和3D矢量T，使得f(P)＝R(P)+T。

3D数据调整是将3D中的表面变换为在所述表面上均匀分布的3D点集合的方法，如图1所示。在优选实施例中，3D数据调整是取以下项作为输入的方法：(a)描述3D中的2D表面的3D数据(101)，以及(b)采样距离d；其输出具有以下特性的3D点的集合(102)：(a)其仅包括同样处于输入的3D数据的表面上的点，(b)所得点云中的所有成对点可具有至少为d的距离，(c)输入的3D数据中的每个点在输出集合中具有距离至多为d的点。在本发明优选实施例中，通过在输入点集合上进行迭代，并且使每一个输入点仅当在输出云中不存在相比采样距离更接近该新的点的点时添加到输出集合中，从而对于3D点集合产生具有期望特性的调整后的点集合。通过将每个面采样为点集合并且如上所述处理所得到的点，从而变换3D CAD模型。在一可替选实施例中，通过从表面随机选择点来调整3D数据。在另一可替选实施例中，法线方向用于调整，其中，子采样点集合在高曲率区域中更密集。在优选实施例中，计算出从3D数据的表面选出的各点的表面法线(103)。

调整输入点云通常产生具有更少的点的云，该具有更少的点的云仍然良好表示原始的云。在离线阶段和在线阶段中，本发明使用调整，用于高效减小点的数量，产生更快的性能。如下所述，对局部参数空间的采样也很重要。在优选实施例中，采样距离d以与对象的直径相关的项而被参数化，其中，直径是3D对象上两个点之间的最大距离。设D_obj是对象的直径，则采样距离d通过τ_d而被参数化为d＝τ_dD_obj。在一可替选实施例中，由用户给出采样因子。在另一可替选实施例中，采样因子是根据例如3D数据的噪声级别的先验信息而设置的。

点对(point pair)描述符是值的列表，描述成对3D点。在优选实施例中，这些值包括两个点之间的距离、两条法线之间的角度、第一法线与两个点的差矢量之间的角度以及第二法线与两个点的差矢量之间的角度。在一可替选实施例中，点对描述符中可以包括局部特征(例如在两个点处的表面的颜色、在两个点处的曲率以及其它集合特征)以及背景技术部分中所述的局部点描述符(例如旋转图像、点斑以及其它)。通常，在不脱离本发明范围的情况下，前面所述的值的任何子集可以用作描述符。将更多信息添加到点对描述符中会增加其区分不同的成对点的能力，但也增加其复杂度进而增加其计算、存储的复杂度以及处理描述符的复杂度。

在优选实施例中，分别具有法线n₁和n₂的两个3D点P₁和P₂的点对描述符F的形式定义如图2所示，

(1)F(P₁，P₂，n₁，n₂)＝(|P₂-P₁|，∠(n₁，n₂)，∠(n₁，P₂-P₁)，∠(n₂，P₂-P₁))

其中，∠(a，b)表示两个矢量之间的角度。在文献中描述了相似的特征，例如Wahl等人(Surflet-pair-relation histograms：A statistical 3d-shape representation forrapid classification，2003，Proceedings Fourth International Conference on 3-DDigital Imaging and Modeling 2003(3DIM 2003)，pp.474-481(Surflet对关系直方图：用于快速分类的统计3D形状表示，2003，3D数字成像和建模第四次国际会议公报2003(3DIM 2003)，474至481页))，他构建了基于点对描述符的直方图的3D对象的标识系统。对于法线方位未知(即，仅已知方向)的情况，上述角度在[0°；90°]中被归一化，并且对于矢量的取反是不变的。

采样后的点对描述符是点对描述符的经采样版本。在优选实施例中，以相等大小的间隔对点对描述符的四个项采样，以产生采样后的点对描述符。采样后的点对描述符的形式定义如下：设n_a是关于角度值的间隔的数量，并且d_a＝360°/n_a。设d是上述距离采样因子，并且设是小于x的最大整数值，则点对特征F(P₁，P₂，n₁，n₂)＝(F₁，F₂，F₃，F₄)的采样版本F_S(P₁，P₂，n₁，n₂)定义为：

全局模型描述是一种允许高效搜索与来自场景的给定的点对相似的对象上的所有点对的数据结构。因此，其为将来自场景的点对作为输入并且输出与输入点对相似的对象上的点对的列表的数据结构或方法。在优选实施例中，从采样后的点对描述符到点对集合的映射用作点对描述符。通过计算用于给定点对的采样后的点对描述符，并且使用散列映射来获取具有相等的经采样点对描述符的所有点对，从而完成查找。散列表允许高效地访问相似的点对，其中，时序独立于模型描述中存储的点对的数量。在一可替选实施例中，用于最接近邻居访问（nearest neighbor access）的方法可以用于获取与给定点对之一相似的具有点对描述符的所有点对。在另一替换实施例中，任意索引方案可以用作数据结构，例如搜索树。图3概述全局模型描述：选择来自表面（301）的点对（302），并且计算点对描述符（303）。使用点对描述符（305）来索引全局模型描述（304），并且返回与点对（302）具有相似特性的在3D对象（307）的表面上的点对（308）的集合。

场景中的对象的局部姿态定义为场景中对象的、相对于给定场景点（称为基准点）的3D姿态，其中假设给定基准点位于对象的表面上。这种假设限制了可能的姿态。因此，局部姿态具有比完全3D姿态更少的自由度。在优选实施例中，如下使用局部坐标来对局部姿态进行参数化：设s_r是被假设为位于对象表面上的场景中的基准点，则（a）m_r是与s_r对应的模型表面上的点，并且（b）α是在对准s_r、m_r以及它们的法线之后绕着s_r的法线旋转的角度（图6）。局部坐标相对于s_r写作(m_r,α)，并且具有总共三个自由度，两个用于模型表面上的m_r的位置，一个用于旋转角度α。在一可替选实施例中，可以使用对象的表面的不同参数化，例如u-v-坐标或纹理坐标。

对于场景的基准点s_r，设T_S→L是将s_r平移到原点并且将s_r的法线旋转到x轴上（指向正方向）的刚性3D变换。对于模型点m_r，设T_M→L是将m_r平移到原点并且将m_r的法线旋转到x轴上（指向正方向）的刚性3D变换。设R_x(α)是以角度α绕着x轴旋转的刚性3D变换。那么，给定关于基准点s_r的局部坐标(m_r,α)，从模型空间中的点m_i到场景空间中的其对应点s_i的映射可以写作：

s_{i} T_{S &RightArrow; L}^{- 1} R_{x} (α) T_{M &RightArrow; L} m_{i} - - - (3)

如果s_i、m_i、T_S→L和T_M→L已知，则对于α可以求解上述方程。

3D模型创建

在该方法的离线阶段，通过适合于后续在场景中识别感兴趣对象的方式构建描述该感兴趣对象的模型。用于创建模型的方法包括以下步骤，如图4所示：（a）任选地，准备3D对象数据；（b）对象采样点的选择；（c）全局模型描述的创建；（d）任选地，用于姿态细化的准备。在优选实施例中，所创建的模型会包括选中的采样点和全局模型描述。在一可替选实施例中，可以包括以下信息：原始3D对象数据；用于姿态细化而计算出的数据；该方法的用户所需的附加信息。

3D对象数据的准备这一步骤用于通过去除不期望的特征并且添加期望的特征来准备输入3D数据。在优选实施例中，包括以下步骤：(a1)任选地抑制来自数据的期望的特征(例如3D传感器所产生的噪声和离群值)，其中，所使用的确切方法还取决于用于获取数据的传感器；(a2)计算表面法线，如果表面法线已经可用，则这是任选的。

在优选实施例中，3D对象数据作为3D点集合或者计算机辅助设计模型(CAD模型)的形式给出。在一可替选实施例中，可以使用代数表面。在另一可替选实施例中，可以使用3D表面的任何其它表示。

需要从3D对象数据中选择对象采样点集合，用于创建全局模型描述。在优选实施例中，使用上述3D数据调整方法来对3D对象数据进行子采样，以创建稀疏采样点集合。在一可替选实施例中，用户可以提供将用作采样点的点集合。在另一可替选实施例中，来自3D对象数据的所有点可以用作对象采样点。在又一可替选实施例中，来自对象的点的随机子集可以用作采样点。在其它可替选实施例中，在不脱离本发明范围的情况下，其它对象采样点选择策略是可能的。

用于创建全局模型描述的方法取决于关于全局模型描述而选择的具体数据结构。在优选实施例中，创建全局模型描述包括：(c1)根据对象采样点的集合关于每一成对点计算点对描述符；(c2)通过使用计算出的点对描述符作为索引，存储全局模型描述中的每一对采样点。在一可替选实施例中，点可以存储在数据结构中，从而对于相似点对的高效查找不需点对描述符。

如果在匹配处理中会使用任选的姿态细化，并且如果选中的用于姿态细化的方法需要可以根据3D对象预先计算出的某种数据，则该数据也可以在离线阶段计算，并且与模型一起存储。在优选实施例中，计算出允许快速搜索最接近于给定搜索点的对象上的点的数据结构。该数据结构后续用于针对姿态细化的迭代最接近点(Iterative Closest Points，ICP)方法。在一可替选实施例中，可以使用任何其它姿态细化方法的数据结构，例如期望最大化(expectation maximization， EM)(Granger和Pennec(Multi-scale EM-ICP：A fast and robust approach forsurface registration，2002，European Conference on Computer Vision(ECCV 2002)，pp.418-432)(Granger和Pennec(通用换算EM-ICP：用于表面拼接的计算机快速和稳健接近，2002，欧洲计算机视觉会议(ECCV 2002)，418至432页))。

对象识别和姿态确定

该方法的在线阶段识别3D场景中的3D对象的实例，并且计算该场景中的所述实例的3D姿态。其将离线阶段中计算出的3D场景和3D模型作为输入，并且输出场景中该对象的3D姿态集合，并且任选地输出对姿态进行排序的得分的集合。如图5所示，在线阶段包括以下步骤：(a)3D场景数据的准备；(b)基准点的选择；(c)假设基准点处于感兴趣的对象上，计算最佳地描述对象位置的关于每一基准点的局部坐标的集合；(d)过滤所得姿态以形成最终姿态，(e)任选的姿态细化；以及(f)任选地，对最终姿态评分。

3D场景数据的准备这一步骤用于通过去除不期望的特征并且添加期望的特征来准备输入3D数据。在优选实施例中，准备输入3D数据包括以下步骤：(a1)任选地抑制来自数据的不期望的特征(例如3D传感器所产生的噪声和离群值)，其中，所使用的确切方法还取决于用于获取数据的传感器；(a2)计算表面法线，如果表面法线已经可用，则这是任选的；(a3)将各点均匀分布在场景点云中，以避免偏向场景的更密集采样的部分(例如对于基于投影的测距扫描仪而言更接近扫描仪的部分)。在优选实施例中，用于步骤(a3)的采样距离设置为等于或大于离线阶段中用于调整模型点云的采样距离，并且等于或大于用于创建经采样的点对描述符的采样距离。改变采样距离产生具有不同数量的点的经调整的点云，这样随后影响本发明方法的运行时间和精度，其因此成为用于平衡二者的重要参数。在一可替选实施例中，采样距离可以由用户给出。在另一可替选实施例中，可以通过例如3D数据的噪声级别的先验信息来计算采样距离。

在优选实施例中，3D场景数据作为3D点集合给出，或以计算机辅助设计模型(CAD模型)的形式给出。在在一可替选施例中，可以使用代数表面。在另一可替选实施例中，可以使用3D表面的任何其它表示。

多个基准点选自3D场景数据，并且用在后续步骤中。为了该方法得以运作，重要的是，选择位于感兴趣的对象的表面上的至少一个基准点，原因是仅当基准点中的至少一个满足条件时后续步骤找到对象姿态。在优选实施例中，通过从场景点云中取出随机的点子集来选择基准点，其中，该子集中的点的数量相对于场景点云的大小而被参数化。在一可替选实施例中，来自均匀分布的场景点集合或原始3D场景数据的所有点可以用作基准点。在另一可替选实施例中，用户提供的关于对象的可能位置的知识、关于模型的表面特征的知识、场景点云的调整或其它方法可以用于掌控基准点的选择。在不脱离本发明范围的情况下，它们可以容易地用在本发明中。选中的基准点的数量直接影响本发明方法的运行时间。基准点选择方法因此需要在选择过多基准点(导致较差的性能)与过少基准点(其中丢失感兴趣的对象的几率增加)之间做出平衡。

对于在前一步骤中选择的每一基准点，在基准点处于感兴趣对象的表面上的假设下，计算与感兴趣对象最可能具有的3D姿态对应的局部坐标的集合。在优选实施例中，采用与普通霍夫变换(Hough transform)相似的投票方案，其计算最佳说明所观测到的数据的局部坐标。在一可替选实施例中，可能有优化局部坐标的若干其它方式，包括但不限于穷举搜索和能量函数的数值最小化。

在优选实施例中，使用相似于普通霍夫变换(Hough transform)的用于计算对象的局部坐标的投票方案。投票方案包括以下步骤：(c1)参数空间(在此为局部坐标的空间)被划分为采样集合，并且每一采样附有计数器并且计数器初始被设置为零；(c2)对于场景云中的每一点，确定通过模型形成对该点的说明的所有局部坐标，意味着当使用这些局部坐标对对象进行变换时，当前场景点和当前基准点皆位于对象的表面上；(c3)对于说明该点的每一局部坐标，包含该局部坐标的相应参数空间采样的计数增加；(c4)在通过步骤(c2)和(c3)处理所有场景点之后，用于局部坐标空间的每一采样的计数会与说明该部分参数空间的场景点的数量对应。其计数具有最大值的采样对应于以最佳方式说明场景点的局部坐标。在最后的步骤中，选择具有最大计数值的采样或其计数超过阈值的采样集合。投票方案的若干可替选实施例是可能的，包括但不限于：在步骤(c2) 中，不使用所有场景点而仅使用场景点的子集；在步骤(c3)中，以取决于当前场景点的权重的值增加计数；在步骤(c4)中，使用直方图分析来分析峰值的投票空间。

在优选实施例中，如下完成步骤(c1)中的参数空间的划分：通过选自3D对象数据的采样点之一描述局部坐标的第一分量(即描述模型表面上的位置的分量)，并且第一分量因此隐式地划分为离散值。通过将可能的旋转角的间隔[0°；360°]分为相等大小的n_a个间隔(相似于上述对采样后的点对描述符的角度值的采样)，划分第二分量(即描述绕着基准点的法线旋转的角度的分量)。在一可替选实施例中，第一分量的划分可以通过以u-v-坐标或纹理坐标来表示第一分量并且对这些坐标进行采样来完成。

在步骤(c2)中说明当前场景点的局部坐标的计算如下完成：(c2.1)如上所述计算基准点与当前场景点之间的点对描述符并且对其采样；(c2.2)经采样的点对描述符用于访问在离线阶段计算出的全局模型描述，其将返回具有与场景点对相似的距离和方位的模型点对的列表；(c2.3)对于每一这种模型点对，使用场景点对和模型点对使用方程(3)来计算局部坐标。在一可替选实施例中，全局模型描述可以基于最接近的邻居，比如在不对点对描述符采样的情况下允许搜索相似点对的数据结构。在另一替选实施例中，可以使用在不需要点对描述符的情况下允许直接搜索相似点对的数据结构。

在处理所有场景点之后，步骤(c4)选择其中相应计数具有最大值的参数空间的采样。在优选实施例中，选择具有最大值(即全局最大值)的计数。在一可替选实施例中，可以使用具有超过特定阈值的计数值的所有采样，其中，阈值可以是固定的，或者可以取决于所有计数的最大值。在另一可替选实施例中，可以使用用于检测计数空间中的局部峰值而不是全局阈值的方法。

从每一选中的采样取出一个局部坐标，并且局部坐标被变换为完全3D姿态，其中的每一个返回有对应局部坐标采样的计数值。该计数值是所述3D姿态的得分。

姿态过滤是一种从一个或多个基准点将候选姿态(任选地增添有得分值)作为输入，并且输出按姿态正确的似然率排序的仅包含感兴趣对象的最有可能的姿态的经过滤姿态的集合的方法。通常，姿态集合可以包含零个、一个或多个姿态。姿态过滤用于不同目的：

(1)离群值去除：假设基准点位于感兴趣对象的表面上，计算基准点的候选姿态。如果该假设不正确，例如对于场景中的不属于感兴趣对象杂波点，或者如果基准点的法线不正确，则该基准点的所得候选姿态将包含不与对象的正确姿态对应的不正确姿态。姿态过滤应该去除这样的不正确的姿态。

(2)增加精度和稳定性：如果若干基准点处于对象的表面上，则关于它们中的每一个的候选姿态将包含与对象的正确姿态对应的姿态。然而，由于计算中的数值误差、数据中的噪声，并且由于上述机制中涉及的采样步长，因此姿态将与正确姿态稍有不同。姿态过滤对关于不同基准点找到的所有正确姿态分组，并且计算平均姿态，因此增加了最终结果的精度和稳定性。

在优选实施例中，姿态过滤包括以下步骤：(d1)定义姿态之间的邻居关系，其中，如果姿态的旋转部分差异小于固定阈值，并且如果它们的平移矢量的差具有小于固定阈值的长度，则姿态被定义为邻居；(d2)将新的得分分配给每一姿态，该新的得分为((d1)中所定义的)邻居姿态的所有得分的和；(d3)按新的得分对姿态进行排序；(d4)选择具有最佳得分的姿态；(d5)通过对邻居姿态进行平均来任选地重新计算选中的姿态。在一可替选实施例中，通过规定来自模型的点在两个姿态下可能具有的最大差来定义步骤(d1)中的姿态的邻居关系，例如：在步骤(d2)的的一可替选实施例中，将得分计算为邻居姿态的得分的加权和，其中，加权函数取决于两个姿态。在(d1)的另一可替选实施例中，所有姿态被看作邻居，并且如所描述的那样使用加权函数。此外，没有姿态可以被看作步骤(d1)中的邻居，有效地导致从投票方案选择具有最高单个得分的姿态。在一可替选实施例中，聚类方法(例如k均值或均值转移)可以用于选择最终姿态集合。在步骤(d5)的优选实施例中，通过计算姿态的平移矢量的均值来对平移进行平均化，并且通过计算姿态的旋转的平均Rodriguez矢量来对旋转进行平均化。在步骤(d5)的一可替选实施例中，旋转可以包括在计算平均旋转之前选中的姿态的旋转的反转。这样增加了均值旋转的稳定性。在步骤(d5)的另一可替选实施例中，通过优化取决于姿态和平均姿态的得分函数来计算平均旋转。在可替选实施例中，若干其它方法是可能的，用于在不脱离本发明范围的情况下实现上述目的中的一个或多个。

姿态细化描述了一类方法，该类方法将3D对象模型、3D场景和场景中模型的近似姿态作为输入，并且输出模型的细化的、更精确的姿态。姿态细化方法通常通过使误差函数最小化来优化场景与对象之间的对应性。姿态细化的缺点在于，初始近似姿态需是已知的，并且足够好以足以让该方法收敛。如上所述的本发明计算对象的近似姿态，该姿态足够好以足以使用姿态细化进行细化。姿态细化的使用是任选的，并且取决于本发明的用户所需的精度。所提方法的所得姿态通常足够精确以足以进行对象操控，例如抓握。然而，使用本发明进行表面检查的应用(例如检测未正确生产的部分)可能需要姿态细化步骤。在优选实施例中，使用迭代最接近点(ICP)进行姿态细化。对于ICP，场景中的各点与对象表面之间的距离的总和被最小化。在一可替选实施例中，可以使用期望最大化进行姿态细化。在另一可替选实施例中，可以使用任何使场景点与对象之间的距离最小化的方法。在其它可替选实施例中，在不脱离本发明范围的情况下，若干用于细化近似姿态的其它方法也是可能的。

评分是这样一种方法，该方法将在算法中计算出的最终姿态以及3D场景数据和3D对象数据作为输入，并且输出描述所计算出的姿态的质量或者在所述姿态下场景与对象之间的一致性的一个或多个值。其中，最终姿态的质量和精度取决于场景中感兴趣的对象的存在以及可视性，并且取决于场景数据和模型数据的质量。需要评分来向该方法的用户提供估计所得姿态的方式，其为后续判断的基础。

可能有若干用于对最终姿态进行评分的可替选实施例，包括但不限于：(a)返回以投票方案计算出的姿态的得分；(b)返回姿态过滤步骤中计算出的累积得分；(c)给定所得姿态，计算位于模型表面上的场景点的数量；(d)计算场景点与在所得姿态下接近于模型的场景点的模型表面之间的距离的协方差；(e)将模型投影到用于获取场景数据的深度传感器的图像，并且在图像域中计算模型与场景点之间的距离；(f)(e)的方法，但具有附加的、从多于一个视点验证所投影的模型点的可视性的步骤，如对于立体方法所要求的那样；(g)计算模型表面点的法线与对应场景表面点之间的点积的和；(h)给定所得姿态，计算可见模型表面与总模型表面的比率，或可见模型表面与在传感器相机中可见的模型表面之间的比率；(i)使用从(a)到(g)的方法中的两种或更多种，并且组合所得值。在不脱离本发明范围的情况下，取决于用户需求和传感器特性，可以由计算得分的其它方式。

在优选实施例中，如果不使用姿态细化，则返回如方法(b)中计算出的、在姿态过滤步骤中计算出的得分；如果使用姿态细化，则返回方法(c)、(d)、(e)或(f)的得分。

虽然已经在附图和前面的描述中详细说明并且描述了本发明，但这种说明和描述应认为是说明性或示例性的，而并非限制性的。应理解，在所附权利要求的范围内，本领域技术人员可以进行改变和修改。特别地，本发明涵盖其它具有来自以上以及以下描述的不同实施例的各特征的任何组合的实施例。

此外，在权利要求中，词语“包括”并不排除其它元件或步骤，并且数量词“一个”并非排除多个。单一单元可以实现权利要求中记载的若干特征的功能。与属性或值结合的术语“基本上”、“大约”、“近似”等也特别地分别确切定义属性或确切地定义值。权利要求中的任意标号不应理解为对范围进行限制。

Claims

1.一种用于识别3D场景中3D对象的实例并且用于确定所述实例的3D姿态的方法，所述3D对象通过3D对象数据表示，所述3D场景通过3D场景数据表示，所述方法包括以下步骤：

(a)提供3D场景数据以及3D对象数据；

(b)从所述3D场景数据中选择至少一个基准场景点；

(c)对于每一选中的基准场景点，在所述基准场景点是所述3D对象的一部分的假设下，通过如下步骤计算所述3D对象的候选姿态；

(c1)通过两个参数表示可能的候选姿态的空间，其中，第一参数是所述3D对象数据的对应所述基准场景点的点，且第二参数描述旋转角度；

(c1a)将所述第一参数表示为对于从3D对象数据中选择的点的集合的索引，且对第二参数进行采样；

(c2)关于步骤(c1a)的每一姿态空间采样创建计数；

(c3)从所述3D场景数据中选择场景点的集合；

(c4)对于每一选中的场景点通过如下步骤计算匹配姿态，使得选中的场景点和基准点皆在所述3D对象的表面上；

(c4a)计算描述所述基准场景点、当前场景点以及它们的几何关系的点对描述符；

(c4b)使用所述点对描述符搜索与所述场景点对相似的所述3D对象数据上的点对；

(c4c)对于每一这种相似的点对，计算与所述基准场景点对应的点，以及在对准基准场景点、基准场景点对应的对象点以及它们的表面法线之后，计算对准场景点对和对象点对的旋转角度；

(c5)对于在步骤(c4c)中计算的每一对应的点以及旋转角度，增加相应姿态空间采样的计数；

(c6)检测经采样的姿态空间中的峰值计数器值，并且选择相应姿态空间采样作为候选姿态。

2.如权利要求1所述的方法，其中，在步骤(b)之前从3D对象计算3D模型，并且该3D模型用在后续步骤中，包括以下步骤：

(a1)从所述3D对象数据中选择至少两个采样点；

(a2)计算点对描述符，对于每一对选中的采样点，点对描述符描述这两个点及其几何关系；

(a3)创建全局模型描述，该全局模型描述存储由所述点对描述符索引的点对。

3.如权利要求2所述的方法，其中，步骤(a3)包括：

(a3a)对点对描述符进行采样；

(a3b)创建全局模型描述使得所述全局模型描述将每一采样后的点对描述符映射到点对列表，其中，每一列表包含具有相同的经采样点对描述符的所有成对的选中的采样点。

4.如权利要求1所述的方法，其中，在步骤(b)中，所述基准点是从所述3D场景数据中随机选择的或者通过对所述3D场景数据均匀采样而随机选择的。

5.如权利要求1所述的方法，其中，步骤(c4b)包括：

(c4b1)对所述点对描述符进行采样；

(c4b2)使用将采样后的点对描述符映射到点对的列表的数据结构。

6.如权利要求5所述的方法，其中，在步骤(c4b2)中，散列表用作数据结构。

7.如权利要求1所述的方法，还包括步骤：

(d)过滤所述候选姿态以获得最终姿态的集合。

8.如权利要求7所述的方法，其中，步骤(d)的计算包括：

(d1)限定各候选姿态之间的邻居关系；

(d2)计算每一姿态的得分，作为邻居候选姿态的得分的加权和；

(d3)通过根据对在(d2)中计算的得分对姿态进行排序，选择过滤后的姿态的集合。

9.如权利要求8所述的方法，其中，所述邻居关系是通过以下方式限定的：设定所述姿态的变换和所述姿态的旋转的差的阈值，或者设定一候选姿态中的对象的表面点与另一不同候选姿态中的所述对象的相同表面点之间的距离的阈值。

10.如权利要求8的方法，还包括步骤：重新计算在(d3)中选择的姿态作为邻居姿态上的平均姿态。

11.如权利要求1所述的方法，还包括步骤：通过优化在所述姿态下基于所述3D场景与所述3D对象之间的距离的误差函数，细化每一计算的候选姿态。

12.如权利要求7所述的方法，还包括步骤：通过优化在所述姿态下基于所述3D场景数据与所述3D对象数据之间的距离的误差函数，细化(d)中计算的每一最终姿态。

13.如权利要求1所述的方法，还包括步骤：对于每一计算的候选姿态计算得分，其中，所述得分描述在所述姿态下所述3D场景数据与所述3D对象数据之间的一致性。

14.如权利要求7所述的方法，还包括步骤：对于(d)中计算的每一最终姿态计算得分，其中所述得分描述在所述姿态下所述3D场景数据与所述3D对象数据之间的一致性。