CN107428004A

CN107428004A - 对象数据的自动收集和标记

Info

Publication number: CN107428004A
Application number: CN201680020972.4A
Authority: CN
Inventors: B·J·蒂博多; M·瑞沃; M·雅洛贝安尤; G·施拉克延
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-04-10
Filing date: 2016-04-05
Publication date: 2017-12-01
Anticipated expiration: 2036-04-05
Also published as: CN107428004B; WO2016164326A1; US20160297068A1; US9878447B2; EP3281072A1

Abstract

关于现实环境中的物理对象的数据将被自动收集和标记。机械设备被用于在现实环境中的三维工作空间内将对象操作为不同的姿势。当对象处于每个不同姿势时，对象的图像从一个或多个传感器被输入，并且指定姿势的数据从机械设备被输入。针对每个不同姿势从传感器中的每个传感器输入的对象的图像利用指定姿势的数据和标识对象的信息被标记。可以生成用于对象的数据库，该数据库包括这些经标记的图像。经标记的图像还可以被用于训练检测器和分类器，以当对象处于与现实环境相似的环境中时检测和识别该对象。

Description

对象数据的自动收集和标记

背景技术

自主机器人系统包括使用物理对象检测和识别的导航和对象操纵应用。可以要求给定的自主机器人系统在各种室内和室外环境中操作，室内和室外环境可以是结构化的(例如，受控的)或非结构化的(例如，非受控的)，并且可以具有不同程度的复杂性。因此，需要跨各种对象类型/类/类别的健壮的物理对象检测和识别，以便于机器人系统能够以安全和有效的方式与其环境交互。这通常通过使用大的经标记的对象数据集以训练机器人系统的导航和对象操纵应用来实现，其中针对具有高度复杂性的非结构化环境，该数据集的大小可能相当大。

此外，万维网目前拥有数十亿个网页，这些网页目前共同拥有约一万亿图像，并且这些数字继续快速增长。正在进行各种努力，以利用有意义的数据来标记这些图像中的更多图像。

发明内容

本文描述的数据收集和标记技术实现通常涉及关于物理对象的数据的自动收集和标记。在一个示例性实现中，机械设备被配置为在现实环境中的三维工作空间内操纵对象，并且一个或多个传感器被配置为当对象在工作空间的一个或多个规定区域内时捕获和输出该对象的图像。传感器被校准到机械设备的坐标系。然后，针对在工作空间的这些区域内的多个不同姿势中的每个姿势，机械设备被用于将该对象操作为该姿势，指定该姿势的数据从机械设备被输入，其中指定该姿势的数据在机械设备的坐标系中，并且从传感器中的每个传感器输入的对象的图像利用指定该姿势的数据和利用标识该对象的信息被标记。然后用于对象的数据库被生成，其中该数据库包括针对不同姿势中的每个姿势从传感器中的每个传感器输入的对象的经标记的图像。

在另一示例性实现中，针对不同姿势中的每个姿势从传感器中的每个传感器接收的物理对象的经标记的图像被用于训练检测器和分类器，以当对象处于与现实环境类似的环境中时检测和识别该对象。

应当注意，提供前述发明内容以便以简化形式介绍在下面的详细描述中被进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于确定所要求保护的主题的范围中的辅助。其唯一目的在于以简化形式呈现所要求保护的主题的一些概念，作为下面呈现的更详细描述的序言。

附图说明

关于以下描述、所附权利要求和附图，本文所描述的数据收集和标记技术实现的具体特征、方面和优点将变得更好理解，在附图中：

图1是以简化形式示出用于自动收集和标记关于物理对象的数据、并且用于训练检测器和分类器以检测和识别物理对象的系统框架的示例性实现的示图，其中系统框架包括被配置为操纵该对象的机械设备以及被配置为捕获和输出该对象的图像的一个或多个传感器。

图2是示出三维空间中的对象的六个自由度的示例性模型的示图。

图3是以简化形式示出用于自动收集和标记关于物理对象的数据的过程的示例性实现的流程图。

图4是以简化形式示出用于将传感器校准到机械设备的坐标系的过程的示例性实现的流程图。

图5是以简化形式示出在机械设备是机器臂的情况下用于使用机械设备将物理对象操纵为给定姿势的过程的示例性实现的流程图。

图6是以简化形式示出用于训练检测器和分类器以检测和识别物理对象的过程的示例性实现的流程图。

图7是以简化形式示出用于在现实环境中检测和识别物理对象的过程的示例性实现的流程图。

图8是示出通用计算机系统的简化示例的示图，在该通用计算机系统上可以实现如本文所描述的数据收集和标记技术的各种实现和元素。

具体实现

在对数据收集和标记技术实现的以下描述中，参考形成其一部分的附图，并且其中通过说明的方式示出了其中可以实践数据收集和标记技术的具体实现。应当理解，在不脱离数据收集和标记技术实现的范围的情况下，可以利用其他实现并且可以进行结构改变。

还应注意，为了清楚起见，在描述本文所描述的数据收集和标记技术实现中将采用具体术语，并且不旨在将这些实现限于所选择的具体术语。此外，应当理解，每个具体术语包括以广泛相似的方式操作以实现类似目的的所有其技术等同物。在本文中对“一个实现”、或“另一实现”、或“示例性实现”、或“备选实现”、或“一个版本”、或“另一版本”、或“示例版本”、或“备选版本”的引用是指结合该实现或版本来描述的特定特征、特定结构、或特定特性可以被包括在数据收集和标记技术的至少一个实现中。短语“在一个实现中”、“在另一实现中”、“在示例性实现中”、“在备选实现中”、“在一个版本中”、“在另一版本中”、“在示例版本中”和“在备选版本中”在说明书中的各个地方中的出现不一定全部指代相同的实现或版本，也不是与其他实现/版本互斥的独立或备选的实现/版本。此外，表示数据收集和标记技术的一个或多个实现或版本的处理流程的顺序并不固有地指示任何特定顺序，也不暗示对数据收集和标记技术的任何限制。

如本文所使用的，术语“组件”、“系统”、“客户端”等旨在指代计算机相关实体，硬件、软件(例如，执行中)、固件或其组合。例如，组件可以是在处理器、对象、可执行程序、程序、函数、库、子例程、计算机、或软件和硬件的组合上运行的过程。通过说明的方式，在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件可以驻留在过程内，并且组件可以被本地化在一个计算机上和/或分布在两个或更多个计算机之间。术语“处理器”通常被理解为指代硬件组件，诸如计算机系统的处理单元(本文中也被称为“计算设备”)。

此外，在术语“包括”、“包含”、“具有”、“含有”及其变体和其他类似词语被用在本详细描述或权利要求书中的程度上，这些术语旨在以类似于术语“包括”的方式是包含性的，作为开放的过渡词而不排除任何附加或其他元素。

1.0对象数据的自动收集和标记

本文描述的数据收集和标记技术实现通常涉及自动收集和标记关于物理对象(例如，现实对象)的数据，使用该数据来训练检测器和分类器以检测和识别对象，并且然后使用经训练的探测器和分类器在现实环境中检测和识别对象。数据收集和标记技术实现由于各种原因是有利的，包括但不限于以下原因。一般来说，数据收集和标记技术实现可以收集和标记关于许多不同类型/类/类别的物理对象(包括动画对象和静止对象两者)的数据。数据收集和标记技术实现还可以当给定物理对象在包括室内和室外环境的各种现实环境中时收集和标识关于该对象的数据，其中这些环境可以是结构化的(例如，受控的)或非结构化的(例如，非受控的)，并且可以具有不同程度的复杂性。数据收集和标记技术实现也是非常高效和成本有效的，因为它们可以在很少的人为干预的情况下收集和标记关于对象的大量数据，其中该数据的质量(例如，准确性)通常仅由用于自动收集该数据的装备的质量所限制。

另外，由本文描述的数据收集和标记技术实现生成的对象数据是能够以各种方式使用的、有意义的现实数据(而非人造/合成数据)。例如，该对象数据可以被用于训练给定机器人系统或被配置为在给定环境中操纵物理对象的任何其它类型的机械设备的前述导航和对象操纵应用。一旦系统/设备已经被训练，则其将能够检测、识别和操纵与对象数据相关联的物理对象。此外，如下文将更详细地描述的，目标数据包括当对象在现实环境中处于多个不同姿势时该对象的图像，其中图像中的每个图像利用指定对象处于的特定姿势的数据以及利用标识对象的信息被标记。因此，如果对象数据被存储在万维网上，则其能够被用于向用户提供更准确的图像搜索，增强图像可访问性(例如，其能够被用于向视障用户提供图像的可听见的描述)，以及阻止不适当的图像被传送给某些用户(例如，儿童)。

图1以简化形式示出用于自动收集和标记关于物理对象的数据、并且用于训练检测器和分类器以检测和识别(例如，学习能够检测和识别的检测和分类程序)物理对象的系统框架的示例性实现。如图1所示，系统框架100包括机械设备102(以下有时称为机械装置)、一个或多个传感器(例如，传感器108)(以下有时称为感测装置)和计算设备110。机械设备102在计算设备110的控制下操作，并且被配置为在给定的现实环境(例如，工厂环境以及其他可能的环境)中的三维(3D)工作空间106内操纵(例如，定位)物理对象104(所示实现中的碗)。传感器108还在计算设备110的控制下操作，并且被配置为当对象104在工作空间106的一个或多个规定区域内时捕获和输出对象104的图像。术语“图像”在本文中用于指代能够在计算机系统的显示设备上查看并且还能够由计算机系统处理的数字图像。在本文描述的数据收集和标记技术的示例性实现中，传感器108中的每个传感器是静态的(例如，传感器具有固定位置和固定的旋转方向，它们不随时间而改变)并且被放置在环境中的不同位置处，其中该位置可以在工作空间106内(如图1所示)或工作空间之外。

再次参考图1，系统框架100还可以包括数据仓库112(以下有时称为数据存储装置)。在本文描述的数据收集和标记技术的一种实现中，数据仓库112对于计算设备110是本地的，并且可以实际上与其集成。在数据收集和标记技术的另一实现中，数据仓库112远离计算设备110，并且通过数据通信网络(未示出)与其连接(例如，数据仓库可以位于云中)。如下文将更详细地描述的，在本文描述的数据收集和标记技术的示例性实现中，为物理对象104生成数据库，并且该数据库可以被存储在数据仓库112中。系统框架100还可以包括一个或多个可见光源(未示出，以下有时称为可见光源装置)。在数据收集和标记技术的示例性实现中，可见光源中的每个可见光源是静态的(例如，光源具有固定位置和固定的旋转方向，它们不随时间而改变)并且被放置在环境中的不同位置处，其中该位置可以在3D工作空间106内部或工作空间之外。系统框架的备选实现(未示出)也是可能的，其中计算设备被实现为经由计算机网络彼此通信并且因此可以彼此远离的多个计算设备。

再次参考图1，机械设备102可以以各种方式实现，包括但不限于以下方式。在图1所示的数据收集和标记技术的实现中，机械设备102是常规的机器臂，其包括末端执行器114，末端执行器114被配置为抓住(例如，抓紧)和释放物理对象104。在本文所描述的数据收集和标记技术的另一实现(未示出)中，该机械设备是常规的计算机数控(CNC)装置，其包括平台被附接到的工具控制点，并且对象被放置在平台上。在数据收集和标记技术的又一实现(未示出)中，该机械设备是常规的移动机器人，其包括对象被放置在其上的平台。在又一实现中，机械设备包括机器臂和CNC装置两者，其中对象被可移动地放置在CNC装置的平台上，并且机器臂能够改变对象在平台上的位置和旋转方向。

再次参考图1，传感器108可以以各种方式实现，包括但不限于以下方式。在本文描述的数据收集和标记技术的一个实现中，传感器中的一个或多个传感器是常规的结构光3D扫描仪(例如，与常规红外相机结合的常规红外结构光投影仪，该常规红外相机与该投影仪匹配)。在数据收集和标记技术的另一实现中，传感器中的一个或多个传感器是常规的调制光3D扫描仪。在数据收集和标记技术的又一实现中，传感器中的一个或多个传感器是常规的飞行时间相机。在数据收集和标记技术的又一实现中，传感器中的一个或多个传感器包括作为立体相机一起操作的两个或更多个常规可见光相机(其可以是单色相机或彩色相机(也称为RGB(红、绿和蓝)相机))。在数据收集和标记技术的又一实现中，传感器中的一个或多个传感器是单个可见光照相机。数据采集和标签技术的附加实现也是可能的，其中传感器被实现为结构化3D扫描仪、调制光3D扫描仪、飞行时间相机、作为立体相机一起操作的两个或更多个可见光相机、以及单个可见光相机的任意组合。

术语“姿势”在本文中被用于指代在给定的现实环境中给定物理对象的具体位置和旋转方向。可以使用定义对象的位置和旋转方向的各种类型的数据来指定对象的姿势。如在机械系统的领域中所理解的，术语“自由度”指代对象能够移动的不同模式(例如，对象的运动的不同方面)，其中自由度的数目等于不同模式的总数目。图2示出了3D空间中的对象的示例性六自由度模型。如图2所示，对象200可以沿着第一轴202(例如，笛卡尔坐标系的y轴)前后移动，并且该向前/向后的移动可以被认为是对象的第一自由度。对象200还可以沿着垂直于第一轴202的第二轴204(例如，笛卡尔坐标系的x轴)左右移动，并且该左/右移动可以被认为是对象的第二自由度。对象200还可以沿着垂直于第一轴202和第二轴204的第三轴206(例如，笛卡尔坐标系的z轴)上下移动，并且该上/下移动可以被认为是对象的第三自由度。对象200也可围绕第一轴202旋转208，其中该旋转208可以被认为是对象的第四自由度。对象200也可以围绕第二轴204旋转210，其中该旋转210可以被认为是对象的第五自由度。对象200也可以围绕第三轴206旋转212，其中该旋转212可以被认为是对象的第六自由度。

图3以简化形式示出了用于自动收集和标记关于物理对象的数据的过程的示例性实现。从下面的更详细的描述并再次参考图1将会理解，基于图3所示的过程实现基于图1所示并且至此描述的系统框架100实现。如图3所示，该过程开始于将传感器校准到机械设备的坐标系(有时称为“坐标系”)(过程动作300)。该传感器校准可以使用各种常规方法被执行，其中两个示例在下文中被描述。应当注意，一旦针对给定的机械设备102和被放置在环境中的给定布置中的给定的一组传感器108已经完成了动作300的传感器校准，则图3所示的后续过程动作可以针对各种不同的对象104被重复，而不必重复该校准。

图4以简化形式示出了用于将传感器校准到机械设备的坐标系/框架的过程的示例性实现，其中该过程实现了常规的基于平面校准图案的方法，该方法采用封闭式解析解，随后是基于最大似然准则的非线性细化。如图4所示，该过程开始于针对能够由传感器观察到的、3D工作空间的前述一个或多个规定区域内的各种姿势中的每个姿势发生以下动作(过程动作400)。首先，当校准图案处于该姿势中时，平面校准图案的图像从传感器中的每个传感器被输入，其中校准图案的度量已知(过程动作402)。应当注意，可以使用任何类型的平面图案，只要它在平面上的度量是已知的。还应注意，平面校准图案可以以各种方式被置于各种姿势中(例如，图案可以被手动置于姿势中的每个姿势中，或者机械设备可以被用于将图案置于姿势中的每个姿势中，以及其他可能的方式)。然后在从传感器中的每个传感器输入的校准图案的图像中检测特征点(处理动作404)，其中使用常规方法执行该特征点检测。在动作400的动作已经被完成之后，使用常规的封闭式解析解来从特征点估计传感器中的每个传感器的内在和外在参数，特征点在针对校准图案被置于其中的、各种姿势中的每个姿势从该传感器输入的该图案的图像中被检测(处理动作406)。然后使用基于最大似然准则的常规非线性优化技术来细化这些估计的参数(处理动作408)。

在本文描述的数据收集和标记技术的另一实现中，使用常规的自动原位注册和校准方法将传感器校准到机械设备的坐标系/框架，以计算坐标系/框架变换函数，其在传感器的坐标系/框架和机械设备的坐标系/框架之间映射坐标。在该实现的示例性版本中，计算的变换函数是能够考虑传感器和/或机械设备的非线性特性的非线性函数。例如，变换函数可以是封闭式函数或封闭式函数的集合。变换函数也可以使用查找表或神经网络等来被描述。

再次参考图3，在传感器已被校准到机械设备的坐标系(动作300)之后，针对能够由传感器观察到的、3D工作空间的一个或多个规定区域内的多个不同姿势中的每个姿势发生以下动作(过程动作302)。首先，机械设备被用于将对象操纵为该姿势(过程动作304)。然后当对象处于该姿势时该对象的图像从传感器中的每个传感器被输入(过程动作306)。然后指定该姿势的数据从机械设备被输入(过程动作308)。然后利用指定该姿势的数据和利用标识对象的信息(例如，标识对象的类型/类/类别的信息)来标记从传感器中的每个传感器输入的对象的图像(过程动作310)。

图5以简化形式示出了在机械设备是前述机器臂的情况下用于使用机械设备来将对象操纵为姿势的过程的示例性实现。如图5所示，该过程开始于指令机器臂抓住对象(过程动作500)。然后指令机器臂将对象放置在能够由传感器观察到的、3D工作空间的区域中的期望区域中的期望表面上(过程动作502)。然后指令机器臂释放对象(过程动作504)。然后指令机器臂缩回远离该对象(过程动作506)。

再次参考图3，在机械设备是前述CNC装置的情况下，动作304的操纵包括指令CNC装置将对象被放置于其上的平台操纵为该姿势。在机械设备是前述移动机器人的情况下，动作304的操纵包括指令对象被放置于其上的移动机器人以操纵为该姿势。

再次参考图1，在传感器108中的一个或多个传感器是结构光3D扫描仪或调制光3D扫描仪的情况下，从其输入的对象104的图像包括深度图。在传感器中的一个或多个传感器是飞行时间相机的情况下，从其输入的对象的图像包括深度图和彩色图像。在传感器中的一个或多个传感器包括两个或更多个可见光相机的情况下，从其输入的对象的图像包括立体图像。在传感器中的一个或多个传感器是单个可见光照相机的情况下，从其输入的对象的图像包括彩色图像或单色图像。在本文描述的数据收集和标记技术的示例性实现中，从机械设备102输入的、指定姿势的数据使用图2中示例的六自由度模型来限定3D工作空间106内的对象104的位置和旋转方向。

再次参考图3，在本文描述的数据收集和标记技术的示例性实现中，在动作308中从机械设备输入的指定姿势的数据在机械设备的坐标系中。在机械设备是机器臂的情况下，指定姿势的该数据包括在对象被释放时该臂的末端执行器的姿势的坐标。在机械设备是CNC装置的情况下，指定姿势的该数据包括在向装置的工具控制点附接的平台已经被操纵为该姿势之后装置的工具控制点的姿势的坐标。在机械设备是移动机器人的情况下，指定姿势的数据包括在移动机器人已经被操纵为该姿势之后移动机器人的坐标。

再次参考图3，在本文描述的数据收集和标记技术的一个实现中，从传感器中的每个传感器输入的对象的图像利用仅在机械设备的坐标系中指定姿势的数据被标记(动作310)。在数据收集和标记技术的另一实现中，传感器的前述校准(动作300)被用于将指定姿势的数据从机械设备的坐标系转换为传感器的坐标系，并且从传感器中的每个传感器输入的对象的图像利用在机械设备的坐标系和传感器的坐标系两者中指定该姿势的数据被标记。

再次参考图3，在动作302的前述动作已经被完成之后，用于该对象的数据库被生成，其中该数据库包括从针对该对象被操纵为的不同姿势中的每个姿势从传感器中的每个传感器输入的对象的经标记图像(过程动作312)。然后用于该对象的数据库可以被存储在前述数据仓库中(过程动作314)。应当理解，用于该对象的数据库形成该对象的模型，该模型表示该对象在现实环境的不同部分中的外观。在本文描述的数据收集和标记技术的可选实现中，还可以输入指定传感器中的每个传感器相对于机械设备的位置的位置的数据(过程动作316)，并且然后指定传感器中的每个传感器的位置的该数据可以被添加到用于该对象的数据库(过程动作318)。在其中系统框架包括前述可见光源的数据收集和标记技术的另一可选实现中，还可以输入指定可见光源中的每个可见光源相对于机械设备的位置的位置的数据(过程动作320)，并且然后该数据也可以被添加到用于该对象的数据库中(过程动作322)。

有鉴于此，应当理解，本文所描述的用于自动收集和标记关于物理对象的数据的系统和过程可以在很少的人为干预的情况下被用于非常高效并且成本有效地收集和标记关于各种现实世界环境中的各种物理对象的大量数据，其中该数据的质量通常仅由所使用的机械设备的质量、所使用的传感器的数量以及传感器的质量限制。

1.1使用收集和标记的对象数据来训练检测器和分类器以检测和识别对象

图6以简化形式示出了用于训练检测器和分类器以检测和识别物理对象的过程的示例性实现。换句话说，图6中所示的过程实现学习能够检测和识别物理对象的检测和分类程序。从下面的更详细的描述并且再次参考图1将会理解，，图6中所示的过程实现基于图1中所示并且至此描述的系统框架100实现。如图6所示，该过程开始于针对现实环境中的3D工作空间的一个或多个规定区域内的多个不同姿势中的每个姿势发生以下动作(过程动作600)。首先，当对象处于该姿势时，从一个或多个传感器中的每个传感器接收该对象的图像，其中这些传感器被配置为当对象在工作空间的这些区域内时捕获和输出该对象的图像(过程动作602)。然后从机械设备接收指定该姿势的数据(过程动作604)，其中该数据在机械设备的坐标系中，并且传感器已经被预先校准到机械设备的坐标系。然后利用指定该姿势的数据以及利用标识该对象的信息来标记从传感器中的每个传感器接收的该对象的图像(过程动作606)。

再次参考图6，在刚刚描述的动作600的动作已经被完成之后，针对该对象被操纵为的不同姿势中的每个姿势从传感器中的每个传感器接收的该对象的经标记的图像被用于训练检测器和分类器，然后其中经训练的检测器和分类器能够当该对象在与现实环境类似的环境中时检测和识别该对象(过程动作608)。在本文描述的数据收集和标记技术的示例性实现中，使用诸如常规逻辑回归方法、或常规决策树方法、或常规支持向量机方法以及其他类型的机器学习方法的任何机器学习方法来执行该检测器和分类器训练，机器学习方法类型。应当注意，用于训练检测器和分类器的刚刚描述的过程可以被用于训练各种检测器和分类器，包括常规支持向量机、或常规人工神经网络、或常规贝叶斯统计检测器和分类器、以及其他类型的检测器和分类器。

图7以简化形式示出了用于在现实环境中检测和识别物理对象的过程的示例性实现。从下面的更详细的描述并且并再次参考图1将会理解，图7中所示的过程实现基于图1中所示的系统框架100实现。如图7所示，该过程开始于当该对象在现实环境中处于特定姿势时从传感器接收该对象的图像(过程动作700)。然后接收指定该特定姿势的数据(过程动作702)，其中可以以各种方式生成该数据。例如，常规方法可以被用于根据从传感器接收的对象的图像与传感器的前述内在和外在参数的组合来确定指定特定姿势的数据。然后，使用预先训练的对象检测器和分类器(例如，预先学习的对象检测和分类程序)来根据对象的图像和指定特定姿势的数据检测并识别该对象，其中检测器和分类器使用数据库被训练，该数据库包括当对象在与现实环境类似的环境中处于多个不同姿势时被捕获的该对象的图像，并且该数据库中的对象的图像中的每个图像利用指定当对象的图像被捕获时该对象所处的姿势的数据被标记(过程动作704)。

2.0其他实现

虽然已经通过具体参考其实现描述了数据收集和标记技术，但是应当理解，在不脱离数据收集和标记技术的真实精神和范围的情况下，可以进行其变型和修改。通过示例而非限制的方式，其他类型的传感器也可以被用于当物理对象处于不同姿势时捕获和输出关于该物理对象的数据。例如，在机械设备是机器臂的情况下，可以将一个或多个力传感器附接到臂的末端执行器上的不同规定位置，并且施加到力传感器中的每个力传感器的力可以被输入/记录为臂正将对象操纵为不同姿势。除了使用捕获具有深度图或立体图像的形式的深度信息的传感器之外，还可以使用其它类型的传感器来捕获深度信息，诸如与超声接收器组合的超声发射器，该超声接收器与该超声发射器匹配。

注意，在整个描述中的前述实现中的任何或全部实现可以以期望形成附加的混合实现的任何组合来被使用。另外，虽然已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解在所附权利要求中限定的主题不一定限于上述具体特征或动作。相反，上述具体特征和动作被公开为实现权利要求的示例形式。

上面已经描述的内容包括示例实现。为了描述所要求保护的主题的目的，当然不可能描述组件或方法的每个可设想的组合，但是本领域普通技术人员可以认识到许多进一步的组合和排列是可能的。因此，所要求保护的主题旨在包括落在所附权利要求的精神和范围内的所有这样的改变、修改和变型。

关于由上述组件、设备、电路、系统等执行的各种功能，用于描述这些组件的术语(包括对“装置”的引用)意图为对应于(除非另有指示)执行所描述的组件的指定功能的任何组件(例如，功能等同物)，即使在结构上不等同于所公开的结构，其在所要求保护的主题的本文示出的示例性方面中执行功能。在这方面，还将认识到，前述实现包括系统以及计算机可读存储介质，计算机可读存储介质具有用于执行所要求保护的主题的各种方法的动作和/或事件的计算机可执行指令。

存在实现前述实现(诸如适当的应用编程接口(API)、工具包、驱动器代码、操作系统、控件、独立或可下载的软件对象等)的多种方式，它们使得应用和服务能够使用本文中描述的实现。所要求保护的主题从API(或其他软件对象)的立场、以及从根据本文所阐述的实现操作的软件或硬件对象的立场考虑到这种使用。因此，本文所描述的各种实现可以具有完全在硬件中、或者部分在硬件中部分在软件中、或完全在软件中的方面。

已经关于几个组件之间的交互描述了前述系统。应当理解，根据前述的各种排列和组合，这样的系统和组件可以包括那些组件或指定的子组件、指定的组件或子组件中的一些组件或子组件、和/或附加组件。子组件还可以被实现为通信地耦合到其他组件而非被包括在父组件(例如，分层组件)内的组件。

另外，应当注意，一个或多个组件可以被组合成提供聚合功能的单个组件或被划分成几个分离的子组件，并且任何一个或多个中间层(诸如管理层)可以被提供以通信地耦合到这样的子组件，以便于提供集成的功能。本文描述的任何组件还可以与本文未具体描述但本领域技术人员通常已知的一个或多个其它组件交互。

3.0示例性操作环境

本文描述的数据收集和标记技术实现在许多类型的通用或专用计算系统环境或配置内可操作。图8示出了可以在其上实现如本文所描述的数据收集和标记技术的各种实现和元素的通用计算机系统的简化示例。应当注意，图8中所示的简化计算设备10中由断线或虚线表示的任何框表示简化计算设备的备选实现。如下所述，这些备选实现中的任何或全部备选实现可以与本文档中所描述的其他备选实现结合使用。简化计算设备10通常被发现在具有至少一些最小计算能力的设备中，诸如个人计算机(PC)、服务器计算机、手持计算设备、膝上型计算机或移动计算机、诸如蜂窝电话和个人数字助理(PDA)的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机以及音频或视频媒体播放器。

为了允许设备实现本文描述的数据收集和标记技术实现，设备应当具有足够的计算能力和系统存储器以启用基本的计算操作。特别地，图8所示的简化计算设备10的计算能力通常由一个或多个处理单元12示出，并且还可以包括与系统存储器16通信的一个或多个图形处理单元(GPU)14。注意，简化计算设备10的处理单元12可以是专用微处理器(诸如数字信号处理器(DSP)、超长指令字(VLIW)处理器、现场可编程门阵列(FPGA)或其他微控制器)，或者可以是具有一个或多个处理核心的常规中央处理单元(CPU)。

此外，简化计算设备10还可以包括其他组件，例如通信接口18。简化计算设备10还可以包括一个或多个常规的计算机输入设备20(例如，触摸屏、触敏表面、定点设备、键盘、音频输入设备、基于声音或语音的输入和控制设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等)或这些设备的任何组合。

类似地，与简化计算设备10以及本文描述的数据收集和标记技术实现的任何其他组件或特征的各种交互，包括输入、输出、控制、反馈以及对与数据收集和标记技术实现相关联的一个或多个用户或其他设备或系统的响应，由各种自然用户界面(NUI)场景启用。由数据收集和标记技术实现启用的NUI技术和场景包括但不限于允许一个或多个用户以“自然”的方式与数据收集和标记技术实现交互的界面技术，而不受由诸如鼠标、键盘、遥控器等的输入设备施加的人为约束。

这样的NUI实现通过各种技术的使用被启用，各种技术包括但不限于使用从用户语音得到的NUI信息或经由麦克风或其他传感器(例如，声音和/或语音识别)捕获的发声。这样的NUI实现也可以通过各种技术的使用被启用，各种技术包括但不限于从用户的面部表情和从用户的手、手指、手腕、手臂、腿、身体、头部、眼睛等的位置、运动或方向得到的信息，其中这样的信息可以使用诸如立体或飞行时间相机系统、红外相机系统、RGB(红、绿和蓝)相机系统的各种类型的2D或深度成像设备或这样的设备的任何组合来被捕获。这样的NUI实现的另外的例子包括但不限于从触摸和触笔识别、手势识别(屏幕上和屏幕或显示表面附近)、空气或基于接触的手势、用户触摸(在各种表面、对象或其他用户上)、基于悬停的输入或动作等得到的NUI信息。这样的NUI实现还可以包括但不限于各种预测机器智能过程的使用，其单独地或与其他NUI信息相结合地评估当前或过去的用户行为、输入、动作等，以预测诸如用户意图、期望和/或目标的信息。不管基于NUI的信息的类型或来源如何，这样的信息然后可以被用于发起、终止或以其他方式控制在本文中描述的数据收集和标记技术实现的一个或多个输入、输出、动作或功能特征，或与之交互。

然而，应当理解，可以通过将人为约束或附加信号与NUI输入的任何组合结合使用来进一步增强前述示例性NUI场景。这样的人为约束或附加信号可以由诸如鼠标、键盘和遥控器之类的输入设备或由各种远程或用户穿戴的设备来施加或生成，诸如加速度计、用于接收代表由用户肌肉生成的电子信号的肌电信号的肌电图(EMG)传感器、心率监测器、用于测量用户汗水的电流皮肤传导传感器、用于测量或以其他方式感测用户大脑活动或电场的可穿戴或远程生物传感器、用于测量用户体温变化或差异的可穿戴或远程生物传感器等。从这些类型的人为约束或附加信号得到的任何这样的信息可以与任何一个或多个NUI输入结合以发起、终止或以其他方式控制在本文中描述的数据收集和标记技术实现的一个或多个输入、输出、动作或功能特征，或与之交互。

简化计算设备10还可以包括其他可选组件，诸如一个或多个常规计算机输出设备22(例如，显示设备24、音频输出设备、视频输出设备、用于发送有线或无线数据传输的设备等)。注意，用于通用计算机的典型通信接口18、输入设备20、输出设备22和存储设备26是本领域技术人员公知的，并且在本文中将不再详细描述。

图8中所示的简化计算设备10还可以包括各种计算机可读介质。计算机可读介质可以是能够由计算机10经由存储设备26访问的任何可用介质，并且可以包括易失性和非易失性介质，其是可拆卸的28和/或不可拆卸的30，用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据的信息。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质是指有形计算机可读或机器可读介质或存储设备，诸如数字通用盘(DVD)、蓝光盘(BD)、紧凑盘(CD)、软盘、磁带驱动器、硬盘驱动器、光学驱动器、固态存储器件、随机存取存储器(RAM)，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、CD-ROM或其他光盘存储设备、智能卡、闪存(例如，卡、棒和键驱动器)、磁带盒、磁带、磁盘存储设备、磁条或其他磁存储设备。此外，传播的信号不被包括在计算机可读存储介质的范围内。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的保留也可以通过使用各种前述通信介质(与计算机存储介质相对)中的任一种来实现，以编码一个或多个调制数据信号或载波、或其他传输机制或通信协议，并且可以包括任何有线或无线信息传递机制。注意，术语“调制数据信号”或“载波”通常是指以将信息编码在信号中的方式使其特征中的一个或多个特征被设置或改变的信号。例如，通信介质可以包括承载一个或多个调制数据信号的诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频(RF)、红外、激光和其他无线介质的无线介质，用于传输和/或接收一个或多个调制数据信号或载波。

此外，体现本文所描述的各种数据收集和标记技术实现中的一些或全部软件、程序和/或计算机程序产品或其部分可以被存储、接收、发送、或从计算机可读或机器可读介质或存储设备以及具有计算机可执行指令或其他数据结构的形式通信介质的任何期望的组合中被读取。另外，所要求保护的主题可以使用标准编程和/或工程技术来被实现为方法、装置或制品，以产生软件、固件、硬件或其任何组合来控制计算机实现所公开的主题。本文所用的术语“制品”旨在包括从任何计算机可读设备或介质可访问的计算机程序。

本文描述的数据收集和标记技术实现可以在由计算设备执行的诸如程序模块的计算机可执行指令的一般上下文中被进一步描述。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。数据收集和标记技术实现也可以在分布式计算环境中被实践，其中任务由一个或多个远程处理设备执行，或者在通过一个或多个通信网络链接的一个或多个设备的云中被执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储介质(包括介质存储设备)两者中。另外，前述指令可以部分地或全部地被实现为硬件逻辑电路，其可以包括或者可以不包括处理器。

备选地或者附加地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的说明性类型的硬件逻辑组件包括FPGA、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

4.0权利要求支持和另外的实现

以下段落总结了可以在本文档中要求保护的实现的各种示例。然而，应当理解，下面总结的实现不旨在限制可以鉴于前述描述而要求保护的主题。此外，下面总结的实现中的任何或全部实现可以以与前述描述中所描述的实现中的一些或全部实现、以及在附图中的一个或多个附图中示出的任何实现、以及下面描述的任何其它实现的任何期望的组合来要求保护。此外，应当注意，以下实现旨在鉴于贯穿本文档描述的前述描述和附图来被理解。

在一种实现中，系统被用于收集和标记关于物理对象的数据。该系统包括机械设备以及一个或多个传感器，机械设备被配置为在现实环境中的3D工作空间内操纵对象，并且一个或多个传感器被配置为当对象在工作空间的一个或多个规定区域内时捕获和输出该对象的图像。该系统还包括计算设备和具有由计算设备可执行的程序模块的计算机程序。计算设备由计算机程序的程序模块引导，以将传感器校准到机械设备的坐标系，针对工作空间的这些区域内的多个不同姿势中的每个姿势，使用机械设备来将对象操纵为该姿势，当该对象处于该姿势时从传感器中的每个传感器输入该对象的图像，从机械设备输入指定该姿势的数据，指定该姿势的数据在机械设备的坐标系中，并且利用指定该姿势的数据以及利用标识该对象的信息来标记从传感器中的每个传感器输入的该对象的图像，以及生成用于对象的数据库，其中该数据库包括针对这些不同姿势中的每个姿势从传感器中的每个传感器输入的该对象的经标记的图像。

在刚刚描述的系统的一个实现中，机械设备包括机器臂，其包括被配置为抓住和释放对象的末端执行器，使用机械设备来将对象操纵为该姿势的动作包括以下动作：指令机器臂抓住对象，指令机器臂将对象放置在工作空间的区域中的期望区域中的期望表面上，指令机器臂释放该对象，以及指令机器臂缩回远离该对象，并且指定该姿势的数据包括在对象被释放时末端执行器的姿势的坐标。在另一实现中，机械设备包括CNC装置，其包括平台被附接到的工具控制点，对象被放置在平台上，使用机械设备将对象操纵为该姿势的动作包括指令CNC装置将平台操纵为该姿势的动作，指定该姿势的数据包括在平台已经被操纵为该姿势之后工具控制点的姿势的坐标。在另一实现中，机械设备包括移动机器人，其包括对象被放置在其上的平台，使用机械设备将对象操纵为该姿势的动作包括指令移动机器人以操纵为该姿势的动作，并且指定该姿势的数据包括在移动机器人已经被操纵为该姿势之后移动机器人的坐标。

在一个实现中，传感器中的一个或多个传感器包括结构光3D扫描仪，并且从其输入的对象的图像包括深度图。在另一实现中，传感器中的一个或多个传感器包括调制光3D扫描仪，并且从其输入的对象的图像包括深度图。在另一实现中，传感器中的一个或多个传感器包括飞行时间相机，并且从其输入的对象的图像包括深度图和彩色图像。在另一个实现中，传感器中的一个或多个传感器包括作为立体相机一起操作的两个或更多个可见光相机，并且从其输入的对象的图像包括立体图像。在另一实现中，传感器中的一个或多个传感器包括单个可见光相机，并且从其输入的对象的图像包括彩色图像或单色图像。

在本节中前面段落中任一段描述的实现也可以彼此结合，以及与本节之前描述的实现和版本中的一个或多个实现和版本相结合。例如，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中将传感器校准到机械设备的坐标系统的动作包括以下动作：针对工作空间的区域内的各种姿势中的每个姿势，当平面校准图案处于该姿势时，从传感器中的每个传感器输入该图案的图像，该图案的度量已知，以及在从传感器中的每个传感器输入的该图案的图像中检测特征点；使用封闭式解析解从特征点估计传感器中的每个传感器的内在和外在参数，特征点在针对各种姿势中的每个姿势从传感器输入的该图案的图像中被检测；以及使用基于最大似然准则的非线性优化技术来细化估计的所述参数。另外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中将传感器校准到机械设备的坐标系统的动作包括使用自动原位注册和校准方法来计算坐标系变换函数，其在传感器的坐标系与机械设备的坐标系之间映射坐标。

此外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中传感器中的每个传感器是静态的并且被放置在环境中的不同位置处。此外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中计算设备进一步由计算机程序的程序模块引导以：输入指定传感器中的每个传感器相对于机械设备的位置的位置的数据，以及将指定传感器中的每个传感器的位置的该数据添加到数据库中。此外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中系统还包括一个或多个可见光源，可见光源中的每个可见光源是静态的并且被放置在环境中的不同位置处，并且计算设备进一步由计算机程序的程序模块引导以：输入指定可见光源中的每个可见光源相对于机械设备的位置的位置的数据，以及将指定可见光源中的每个可见光源的位置的该数据添加到数据库中。

此外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中利用指定姿势的数据来标记从传感器中的每个传感器输入的对象的图像的动作包括以下动作：使用传感器的校准将指定姿势的数据从机械设备的坐标系转换到传感器的所述坐标系；以及利用在机械设备的坐标系和传感器的坐标系两者中指定该姿势的数据来标记从传感器中的每个传感器输入的该对象的图像。此外，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中系统还包括数据仓库，并且计算设备进一步由计算机程序的程序模块引导以将数据库存储在数据仓库中。

在另一实现中，系统被用于训练检测器和分类器以检测和识别物理对象。该系统包括一个或多个计算设备和具有由一个或多个计算设备可执行的程序模块的计算机程序。每当存在多个计算设备时，一个或多个计算设备经由计算机网络彼此通信。一个或多个计算设备由计算机程序的程序模块引导以：针对现实环境中的三维工作空间的一个或多个规定区域内的多个不同姿势中的每个姿势，当对象处于该姿势时，从一个或多个传感器中的每个传感器接收该对象的图像，从被配置为将该对象操纵为该姿势的机械设备接收指定该姿势的数据，指定该姿势的数据在机械设备的坐标系中，传感器被校准到机械设备的坐标系，以及利用指定该姿势的数据来标记从传感器中的每个传感器接收的该对象的图像，以及使用针对不同姿势中的每个姿势从传感器中的每个传感器接收的该对象的经标记的图像来训练检测器和分类器，经训练的检测器和分类器然后能够当该对象处于与现实环境类似的环境中时检测和识别该对象。

在刚刚描述的系统的一个实现中，使用机器学习方法来执行检测器和分类器训练，机器学习方法包括以下之一：逻辑回归方法；或决策树方法；或支持向量机方法。在本节中前面段落中任一段描述的实现也可以彼此结合，以及与本节之前描述的实现和版本中的一个或多个实现和版本相结合。例如，之前的实现和版本中的一些或全部实现和版本可以与前述实现结合，其中检测器和分类器包括以下之一：支持向量机；或人工神经网络；或贝叶斯统计检测器和分类器。

在另一实现中，系统被用于检测和识别现实环境中的物理对象。该系统包括传感器、一个或多个计算设备以及具有由一个或多个计算设备可执行的程序模块的计算机程序，传感器被配置为当对象在现实环境中时捕获和输出该对象的图像。每当存在多个计算设备时，一个或多个计算设备经由计算机网络彼此通信。一个或多个计算设备由计算机程序的程序模块指导以：当对象在现实环境中处于特定姿势时，从传感器接收该对象的图像，接收指定该特定姿势的数据，以及使用预先训练的对象检测器和分类器来根据该对象的图像和指定该特定姿势的数据检测和识别该对象，该检测器和分类器已经使用数据库被训练，该数据库包括当该对象在与现实环境类似的环境中处于多个不同姿势时被捕获的该对象的图像，该数据库中的该对象的图像中的每个图像利用指定当该对象的图像被捕获时该对象所处的姿势的数据被标记。

在一个实现中，数据收集和标记系统由用于自动收集和标记关于物理对象的数据的装置来实现。数据收集和标记系统包括机械装置以及一个或多个感测装置，机械装置用于在现实环境中的3D工作空间内操纵对象，一个或多个感测装置用于当对象在工作空间的一个或多个规定区域内时捕获和输出该对象的图像。数据收集和标记系统还包括计算设备，其包括处理器，该处理器被配置为执行：用于将感测装置校准到机械装置的坐标系的校准步骤；针对工作空间的区域内的多个不同姿势中的每个姿势，用于使用机械装置将该对象操作为该姿势的对象操纵步骤，用于当该对象处于该姿势时从传感器中的每个传感器输入该对象的图像的图像输入步骤，用于从机械装置输入指定该姿势的数据的姿势数据输入步骤，指定该姿势的数据在机械装置的坐标系中，以及用于利用指定该姿势的数据以及利用标识该对象的信息来标记从传感器中的每个传感器输入的该对象的图像的图像标记步骤；以及用于生成用于对象的数据库的数据库生成步骤，该数据库包括针对不同姿势中的每个姿势从传感器中的每个传感器输入的该对象的经标记的图像。

在刚刚描述的数据收集和标记系统的一个版本中，机械装置包括机器臂，其包括被配置为抓住和释放对象的末端执行器，用于使用机械装置将对象操纵为该姿势的对象操纵步骤包括：用于指令机器臂抓住对象的对象抓住步骤，用于指令机器臂将对象放置在工作空间的区域中的期望区域中的期望表面上的对象放置步骤，用于指令机器臂释放对象的对象释放步骤，以及用于指令机器臂缩回远离该对象的臂缩回步骤，并且指定该姿势的数据包括在对象被释放时末端执行器的姿势的坐标。在另一版本中，机械装置包括CNC装置，其包括平台被附接到的工具控制点，对象被放置在平台上，用于使用机械装置将对象操纵为该姿势的对象操纵步骤包括用于指令CNC设备将平台操纵为该姿势的平台操纵步骤，并且指定该姿势的数据包括在平台已经被操纵为该姿势之后工具控制点的姿势的坐标。在另一版本中，机械装置包括移动机器人，其包括对象被放置在其上的平台，用于使用机械装置将对象操纵为该姿势的对象操纵步骤包括用于指令机器人以操纵为该姿势的机器人操纵步骤，并且指定该姿势的数据包括在移动机器人已经被操纵为该姿势之后移动机器人的坐标。

数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中用于将感测装置校准到机械装置的坐标系的校准步骤包括：针对工作空间的区域内的各种姿势中的每个姿势，用于当平面校准图案处于该姿势时从传感器中的每个传感器输入该图案的图像的校准图案输入步骤，该图案的度量已知，以及用于在从传感器中的每个传感器输入的该图案的图像中检测特征点的特征点检测步骤；用于使用封闭式解析解从特征点估计感测装置中的每个感测装置的内在和外在参数的参数估计步骤，特征点在针对各种姿势中的每个姿势从感测装置输入的该图案的图像中被检测；以及用于使用基于最大似然准则的非线性优化技术来细化这些估计的参数的参数细化步骤。数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中用于将感测装置校准到机械设备的坐标系的校准步骤包括使用自动原位注册和校准方法来计算坐标系变换函数的变换函数计算步骤，坐标系变换函数在感测装置的坐标系与机械设备的坐标系之间映射坐标。

此外，数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中处理器进一步被配置为执行：感测装置位置数据输入步骤，用于输入指定感测装置中的每个感测装置相对于机械装置的位置的位置的数据；以及感测装置位置数据库附加步骤，用于将指定感测装置中的每个感测装置的位置的数据添加到用于对象的数据库中。数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中数据收集和标记系统还包括用于产生可见光源的一个或多个可见光源装置，可见光源装置中的每个可见光源装置是静态的并且被放置在环境中的不同位置处，并且处理器还被配置为执行可见光源装置位置数据输入步骤以及可见光源装置位置数据库附加步骤，可见光源装置位置数据输入步骤用于输入指定可见光源装置中的每个可见光源装置相对于机械设备的位置的位置的数据，可见光源装置位置数据库附加步骤用于将指定可见光源装置中的每个可见光源装置的位置的数据添加到用于对象的数据库中。

数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中用于利用指定姿势的数据来标记从感测装置中的每个感测装置输入的该对象的图像的图像标记步骤包括：姿势数据转换步骤，用于使用感测装置的校准将指定姿势的数据从机械装置的坐标系转换到感测装置的坐标系；以及另一图像标记步骤，用于利用在机械装置的坐标系和感测装置的坐标系两者中指定姿势的数据来标记从感测装置中的每个感测装置输入的对象的图像。数据收集和标记系统的之前的实现和版本中的一些或全部实现和版本可以与以下实现相结合，其中数据收集和标记系统还包括用于存储数据的数据存储装置，并且处理器还被配置为执行数据库存储步骤，用于将用于对象的数据库存储在数据存储装置中。

在另一实现中，检测器和分类器训练系统由用于训练检测器和分类器以检测和识别物理对象的装置来实现。检测器和分类器训练系统包括一个或多个计算设备，每当存在多个计算设备时，计算设备经由计算机网络彼此通信，该计算设备包括处理器，其被配置为执行：针对现实环境中的三维工作空间的一个或多个规定区域内的多个不同姿势中的每个姿势，用于当对象处于该姿势时从一个或多个传感器中的每个传感器接收该对象的图像的图像接收步骤；用于从用于将对象操纵为该姿势的机械设备接收指定该姿势的数据的姿势数据接收步骤，指定该姿势的数据在机械设备的坐标系中，传感器被校准到机械设备的坐标系；以及用于利用指定姿势的数据来标记从传感器中的每个传感器接收的该对象的图像的图像标记步骤，以及用于使用针对不同姿势中的每个姿势从传感器中的每个传感器接收的该对象的经标记的图像来训练检测器和分类器的训练步骤，经训练的检测器和分类器然后能够当该对象处于与现实环境类似的环境中时检测和识别该对象。

在另一实现中，检测器和分类器训练系统由用于识别现实环境中的物理对象的装置来被实现。对象检测和识别系统包括：用于当对象在现实环境中时捕获和输出该对象的图像的感测装置；以及一个或多个计算设备，每当存在多个计算设备时，计算设备经由计算机网络彼此通信，计算设备包括处理器，该处理器被配置为执行：图像接收步骤，用于当对象在现实环境中处于特定姿势时从感测装置接收该对象的图像；姿势数据接收步骤，用于接收指定该特定姿势的数据；以及对象检测和识别步骤，用于使用预先训练的对象检测器和分类器来根据该对象的图像和指定该特定姿势的数据检测和识别该对象，该检测器和分类器已经使用数据库被训练，该数据库包括当该对象在与现实环境类似的环境中处于多个不同姿势时被捕获的该对象的图像，该数据库中的该对象的图像中的每个图像利用指定当该对象的图像被捕获时该对象所处的姿势的数据被标记。

Claims

1.一种用于自动收集和标记关于物理对象的数据的系统，包括：

机械设备，所述机械设备被配置为在现实环境中的三维(3D)工作空间内操纵所述对象；

一个或多个传感器，所述一个或多个传感器被配置为当所述对象在所述工作空间的一个或多个规定区域内时捕获和输出所述对象的图像；以及

计算设备，所述计算设备包括处理器，所述处理器被配置为：

将所述传感器校准到所述机械设备的坐标系，

针对所述工作空间的所述区域内的多个不同姿势中的每个姿势，

使用所述机械设备将所述对象操纵为所述姿势，

当所述对象处于所述姿势时，从所述传感器中的每个传感器输入所述对象的图像，

从所述机械设备输入指定所述姿势的数据，指定所述姿势的所述数据在所述机械设备的所述坐标系中，以及

利用指定所述姿势的所述数据以及利用标识所述对象的信息来标记从所述传感器中的每个传感器输入的所述对象的所述图像，以及

生成用于所述对象的数据库，所述数据库包括针对所述不同姿势中的每个姿势从所述传感器中的每个传感器输入的所述对象的经标记的所述图像。

2.根据权利要求1所述的系统，其中，

所述机械设备包括机器臂，所述机器臂包括末端执行器，所述末端执行器被配置为抓住和释放所述对象，

使用所述机械设备将所述对象操纵为所述姿势的动作包括以下动作：

指令所述机器臂抓住所述对象，

指令所述机器臂将所述对象放置在所述工作空间的所述区域中的期望区域中的期望表面上，

指令所述机器臂释放所述对象，以及

指令所述机器臂缩回远离所述对象，并且

指定所述姿势的所述数据包括在所述对象被释放时所述末端执行器的所述姿势的坐标。

3.根据权利要求1所述的系统，其中，

所述机械设备包括计算机数控(CNC)装置，所述CNC装置包括平台被附接到的工具控制点，

所述对象被放置在所述平台上，

使用所述机械设备将所述对象操纵为所述姿势的动作包括指令所述CNC装置将所述平台操纵为所述姿势的动作，并且

指定所述姿势的所述数据包括在所述平台已经被操纵为所述姿势之后所述工具控制点的所述姿势的坐标。

4.根据权利要求1所述的系统，其中，

所述机械设备包括移动机器人，所述移动机器人包括所述对象被放置在其上的平台，

使用所述机械设备将所述对象操纵为所述姿势的动作包括指令所述移动机器人以操纵为所述姿势的动作，并且

指定所述姿势的所述数据包括在所述移动机器人已经被操纵为所述姿势之后所述移动机器人的坐标。

5.根据权利要求1、2、3或4所述的系统，其中将所述传感器校准到所述机械设备的所述坐标系的动作包括以下动作：

针对所述工作空间的所述区域内的各种姿势中的每个姿势，

当平面校准图案处于所述姿势时，从所述传感器中的每个传感器输入所述图案的图像，所述图案的度量已知，以及

在从所述传感器中的每个传感器输入的所述图案的所述图像中检测特征点；

使用封闭式解析解从所述特征点估计所述传感器中的每个传感器的内在和外在参数，所述特征点在针对所述各种姿势中的每个姿势从所述传感器输入的所述图案的所述图像中被检测；以及

使用基于最大似然准则的非线性优化技术来细化估计的所述参数。

6.根据权利要求1、2、3或4所述的系统，其中将所述传感器校准到所述机械设备的所述坐标系的动作包括使用自动原位注册和校准方法来计算坐标系变换函数的动作，所述坐标系变换函数在所述传感器的所述坐标系和所述机械设备的所述坐标系之间映射坐标。

7.根据权利要求1、2、3、4、5或6所述的系统，其中，

所述系统还包括一个或多个可见光源，

所述可见光源中的每个可见光源是静态的并且被放置在所述环境中的不同位置处，并且

所述处理器还被配置为，

输入指定所述可见光源中的每个可见光源相对于所述机械设备的位置的位置的数据，以及

将指定所述可见光源中的每个可见光源的所述位置的所述数据添加到所述数据库。

8.根据权利要求1、2、3、4、5、6或7所述的系统，其中利用指定所述姿势的所述数据来标记从所述传感器中的每个传感器输入的所述对象的所述图像的动作包括以下动作：

使用所述传感器的所述校准将指定所述姿势的所述数据从所述机械设备的所述坐标系转换到所述传感器的所述坐标系；以及

利用在所述机械设备的所述坐标系和所述传感器的所述坐标系两者中指定所述姿势的所述数据来标记从所述传感器中的每个传感器输入的所述对象的所述图像。

9.一种用于训练检测器和分类器以检测和识别物理对象的系统，包括：

一个或多个计算设备，每当存在多个计算设备时，所述计算设备经由计算机网络彼此通信，所述计算设备包括处理器，所述处理器被配置为：

针对现实环境中的三维工作空间的一个或多个规定区域内的多个不同姿势中的每个姿势，

当所述对象处于所述姿势时，从一个或多个传感器中的每个传感器接收所述对象的图像，

从被配置为将所述对象操纵为所述姿势的机械设备接收指定所述姿势的数据，指定所述姿势的所述数据在所述机械设备的坐标系中，所述传感器被校准到所述机械设备的所述坐标系，以及

利用指定所述姿势的所述数据来标记从所述传感器中的每个传感器接收的所述对象的所述图像；以及

使用针对所述不同姿势中的每个姿势从所述传感器中的每个传感器接收的所述对象的经标记的所述图像来训练所述检测器和所述分类器，经训练的所述检测器和所述分类器然后能够当所述对象处于与所述现实环境类似的环境中时检测和识别所述对象。

10.一种用于在现实环境中检测和识别物理对象的系统，包括：

传感器，所述传感器被配置为当所述对象处于所述现实环境中时捕获和输出所述对象的图像；以及

当所述对象在所述现实环境中处于特定姿势时，从所述传感器接收所述对象的图像，

接收指定所述特定姿势的数据，以及

使用预先训练的对象检测器和分类器来根据所述对象的所述图像和指定所述特定姿势的所述数据检测和识别所述对象，所述检测器和分类器已经使用数据库被训练，所述数据库包括当所述对象在与所述现实环境类似的环境中处于多个不同姿势时被捕获的所述对象的图像，所述数据库中的所述对象的所述图像中的每个图像利用指定当所述对象的所述图像被捕获时所述对象所处的所述姿势的数据被标记。

11.根据权利要求1、2、3、4、5或6所述的系统，其中所述传感器中的每个传感器是静态的并且被放置在所述环境中的不同位置处。

12.根据权利要求1、2、3、4、5、6或11所述的系统，其中所述处理器还被配置为：

输入指定所述传感器中的每个传感器相对于所述机械设备的位置的位置的数据；

将指定所述传感器中的每个传感器的所述位置的所述数据添加到所述数据库。

13.根据权利要求1、2、3、4、5、6、11、12、7或8所述的系统，其中，

所述系统还包括数据仓库，并且

所述处理器还被配置为将所述数据库存储在所述数据仓库中。

14.根据权利要求9所述的系统，其中所述检测器和分类器训练使用机器学习方法被执行，所述机器学习方法包括以下之一：

逻辑回归方法；或

决策树方法；或

支持向量机方法。

15.根据权利要求9或14所述的系统，其中所述检测器和分类器包括以下之一：

支持向量机；或

人工神经网络；或

贝叶斯统计检测器和分类器。