CN113614784A

CN113614784A - 利用稀疏rgb-d slam和交互感知对对象进行检测、跟踪和三维建模

Info

Publication number: CN113614784A
Application number: CN202080022809.8A
Authority: CN
Inventors: R·I·科尔科德尔; D·R·M·德阿尔梅达
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-03-27
Filing date: 2020-02-14
Publication date: 2021-11-05
Also published as: JP2022529088A; EP3782119A1; JP7199596B2; US10977480B2; WO2020195416A1; US20200311971A1

Abstract

一种用于检测和操纵工作区上的对象的对象检测系统包括：三维(3D)传感器，其被配置为获取并发送场景的点云，每个点云包括工作区中的一个或更多个对象；操纵器，其被配置为移动或抓取一个或更多个对象中的每一个；存储器，其用于存储图像和计算机可执行程序，所述计算机可执行程序包括对象检测‑定位程序、分段程序、抓取‑移动程序和几何重建程序；处理器，其用于结合3D传感器、存储器和操纵器，使用所述图像来执行计算机可执行程序。计算机可执行程序被配置为使得处理器执行以下步骤：生成包括点云和测量值的帧；从第一帧生成初始地图；通过使用操纵器使用第一帧来移动一个或更多个对象的一部分；在移动步骤之后，获取第二帧；使用第二帧从初始地图生成第一动态地图和静态地图；基于第一动态地图来移动一个或更多个对象的另一部分；当第一动态地图和第二动态地图当中的至少一个动态地图包括相对于一个或更多个对象离群的分段时，分割至少一个动态地图；从分割地图重建一个或更多个对象的3D几何形状；以及确定一个或更多个对象何时彼此分离。

Description

利用稀疏RGB-D SLAM和交互感知对对象进行检测、跟踪和三维建模

技术领域

本发明总体上涉及用于训练描述符的系统，更具体地，涉及用于通过主动采样来训练描述符的方法和系统以及用于使用主动采样训练的神经网络来检测对象的系统。

背景技术

当部署在非结构化环境中时，自主系统在确定与执行其任务相关的几何信息方面面临重大挑战。当负责操纵对象时，例如，从混乱的环境中抓取或分类对象时，这个挑战在于正确地确定对象是什么。对象识别是计算机视觉中的一项常见任务，可以采用多种方法来获得具有多个对象假设的场景分割。然而，在没有先验对象模型的情况下，存在场景分割不完美的高可能性。

交互式感知是机器人技术中的一个概念，其中通过利用与环境的有意交互，机器人系统能够以通过被动读取视觉传感器数据不可能进行的方式收集关于环境的更多信息。该概念已被机器人团体应用于例如使得能够进行对象分割、生成3D对象模型或验证分割假设。

例如，简单的场景分割算法可以提取对象候选的小平面，并且对应于观察到的场景中的合理平滑和连续的表面。机器人通过戳这些小平面来与它们交互。如果小平面发生显著的运动，则认为它们是确认的对象假设，并且尝试抓取。如果没有发生运动，或者如果小平面不能被跟踪(例如，如果它实际上是非常接近的两个对象的产物)，则系统继续测试其它小平面。

另一种方法使用同时定位和制图(SLAM)框架来同时登记机器人环境的静态场景(即，不可移动的对象)并跟踪可能在同一场景中移动的对象。每当在空间的分段区域中出现未配准关键点的显著部分时，该系统使得能够产生新的SLAM图。然后独立于静态场景的地图来配准这些新地图。

在这种情况下，作为地图之间的污染风险，仍然存在限制。该系统依赖于场景分割来向其对象地图添加新特征，并且如果对象与环境的某个其它部分接触，则存在添加属于环境的其它部分的特征的风险。这将系统的可用性限制为其中孤立对象在静态环境中移动的场景。

因此，需要提供一种新型系统和方法，其允许机器人或自动制造机器检测、跟踪和3D建模工作区(工作桌、工作台、装配台等)上的对象。

发明内容

根据本发明的实施方式，机器人系统可以在交互式感知上下文中利用稀疏点平面SLAM算法来独立地检测和重建场景中对象的3D模型。这是通过采用新型分段分类算法和管理多个独立的SLAM图来实现的。这可以产生一个集成系统，该集成系统不仅通过经由交互测试分段假设，而且通过积累关于允许3D模型重建的现有假设的信息，从而扩大了先前交互感知工作的范围。能够使用稀疏SLAM公式以单个静态视点重建3D模型，并且将每个假设保持为独立的地图。此外，通过执行对象建模和操纵，而不是重建机器人的整个环境，在机器人系统中执行的计算可以极大地减少中央处理单元(CPU或处理器)的使用、功耗和/或网络带宽的使用。这可以提供处理器(CPU)的功能的改进。

此外，本发明的另一实施方式基于用于检测和操纵工作区上的对象的计算机可实现的对象检测方法的实现。在这种情况下，计算机可实现的对象检测方法包括：通过使用三维(3D)传感器获取和发送场景的点云，每个点云包括工作区中的一个或更多个对象；通过使用分割程序生成包括点云和测量值的帧；由从3D传感器接收的第一帧生成初始地图；通过使用操纵器执行对象检测-定位程序，使用所述第一帧来移动所述一个或更多个对象的一部分；在移动之后，使用所述分割程序获取第二帧；使用所述第二帧从所述初始地图生成第一动态地图和静态地图；通过使用所述操纵器执行抓取-移动程序，基于所述第一动态地图来移动所述一个或更多个对象的另一部分，以生成第二动态地图；当所述第一动态地图和所述第二动态地图当中的至少一个动态地图包括相对于所述一个或更多个对象离群的分段时，分割至少一个动态地图；移除所述至少一个动态地图；通过使用几何重建程序从所分割地图重建所述一个或更多个对象的3D几何形状；以及基于重建的3D几何形状确定所述一个或更多个对象何时彼此分离。

然而，进一步地，本发明的一些实施方式基于如下实现：非暂时性计算机可读存储介质具有用于由处理系统检测和操纵工作区上的对象的计算机可执行指令。所述计算机可执行指令包括：通过使用三维(3D)传感器获取和发送场景的点云，每个点云包括工作区中的一个或更多个对象；通过使用分割程序生成包括点云和测量值的帧；由从3D传感器接收的第一帧生成初始地图；通过使用操纵器执行对象检测-定位程序，使用所述第一帧来移动所述一个或更多个对象的一部分；在移动之后，使用所述分割程序获取第二帧；使用所述第二帧从所述初始地图生成第一动态地图和静态地图；通过使用所述操纵器执行抓取-移动程序，基于所述第一动态地图来移动所述一个或更多个对象的另一部分，以生成第二动态地图；当所述第一动态地图和所述第二动态地图当中的至少一个动态地图包括相对于所述一个或更多个对象离群的分段时，分割至少一个动态地图；移除所述至少一个动态地图；通过使用几何重建程序从所分割地图重建所述一个或更多个对象的3D几何形状；以及基于重建的3D几何形状确定所述一个或更多个对象何时彼此分离。

附图说明

将参照附图进一步解释当前公开的实施方式。所示出的附图不一定是按比例绘制的，而是通常将重点放在说明当前公开的实施方式的原理上。

图1是示出根据本发明的实施方式的特征生成器的训练过程的图。

图2是示出用于对象的检测、跟踪和3D建模的对象检测系统的框图。

图3是经处理的帧Fi的符号描绘。

图4是系统中的地图集合。

图5是段分类的算法1。

图6是地图分割的算法2。

图7A是地图污染的第一图示。

图7B是地图污染的第二图示。

图7C是地图污染的第三图示。

图8是地图分割过程的简单示例。

图9是示出推动方向和角度的框图。

图10是从机器人的角度来看的场景。

图11是从机器人的视角观察四个对象的实验结果的场景。

图12是从机器人的视角观察喷雾瓶的实验结果的场景。

虽然上述附图阐述了当前公开的实施方式，但如在讨论中所指出的，也可预期其它实施方式。

具体实施方式

本公开以表示而非限制的方式呈现示例性实施方式。本领域技术人员可以设计出落在当前公开的实施方式的原理的范围和精神内的许多其它修改和实施方式。

下文参照附图描述本发明的各种实施方式。应当注意，附图不是按照比例绘制的，在整个附图中，相似结构或功能的元件由相似的附图标记表示。还应当注意的是，附图仅旨在促进对本发明的特定实施方式的描述。它们不意图作为本发明的穷举描述或作为对本发明范围的限制。

以下描述仅提供示例性实施方式，而不旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的使能描述。预期可在不脱离所附权利要求书中所阐述的所公开主题的精神和范围的情况下对元件的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施方式的全面理解。然而，所属领域的普通技术人员之一可理解的是，可在没有这些特定细节的情况下实践所述实施方式。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件，以便不以不必要的细节使实施方式模糊。在其它实例中，可在没有不必要细节的情况下示出众所周知的过程、结构及技术以避免使实施方式模糊。

另外，可以将各个实施方式描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可将操作描述为顺序过程，但许多操作可并行或同时执行。另外，可以重新布置操作的顺序。过程可在其操作完成时终止，但可具有未在图中论述或未包括的额外步骤。此外，并非在所有实施方式中都会发生任何特别描述的过程中的所有操作。过程可以对应于方法、函数、过程、子例程、子程序等。当过程对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分地手动或自动地实现。可通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实施方案。当在软件、固件、中间件或微代码中实现时，用于执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要的任务。

应当注意，计算机系统可以被称为系统。此外，modenl参数可以被称为加权参数。

检测和跟踪多个对象的概述

图1是示出根据本发明的实施方式的可以检测、跟踪和操纵工作区70上的对象75的机器人系统50的示例。在这种情况下，工作区70具有可以在其上支持对象78的工作区的边缘或端部。此外，工作区70的边缘或端部的位置可被初步确定为工作区70的极限并存储在储存器130或存储器140中，或者机器人系统50可以在经由相机111获取点云(图像)的同时，通过使用程序(程序模块)131至135中的一个或组合来确定工作区70的极限。机器人系统50可被称为机器人或对象处理/操纵系统，其可被布置在工厂中的制造生产线或独立的对象处理生产线中。机器人系统50可包括移动机械装置(未示出)、基座、头部、主体55、包括操纵器(多个操纵器)61的臂(或多个臂)60、包括与操纵器61的致动器112(未示出)和用于操纵工作区70(或工作台)上的对象75的臂60连接的输入/输出(I/O)接口110在内的对象检测系统100。在一些情况下，操纵器61可包括一个或各个多个操纵部件(手或手指)以移动和抓握工作区70上的对象或每个对象75的一部分。对象检测系统100可以包括经由有线信道或无线信道连接到接口110的相机65，并且相机65可以拍摄RBG-D帧作为图像并且从RBG-D帧生成关于对象75的点云。相机65可设置在机器人系统50的一部分上或与机器人系统50分离的位置上，使得相机65可检测工作区70上的对象75。此外，相机65使用I/O接口110经由有线通信信道或无线通信信道连接到对象检测系统100。

此外，机器人臂60可包括真空夹持器以拾取或夹持每个对象75。相机65可以是VGA(640x480)分辨率的彩色和深度图像。由相机65拍摄的图像(帧)被转换为3D点云，并且每个点具有3D坐标和颜色值两者。此外，机器人臂60包括定位控制器(未示出)，该定位控制器根据来自接口110的信号将操纵器61的端部定位到期望位置。基于由对象检测系统100生成的经处理的数据来确定期望位置。机器人臂60包括用于控制机器人臂60的移动的运动控制电路(未示出)。运动控制电路操作机器人臂60，并且经由线缆连接或无线通信连接到系统100。此外，系统100可以布置在机器人臂60的外部。

图2是示出根据本公开的实施方式的用于对象的检测、跟踪和3D建模的对象检测系统100的框图。

对象操纵系统100可以包括人机接口(HMI)和I/O接口110，其连接到机器人系统60的至少一个RGB-D相机65和操纵器/致动器112。此外，对象操纵系统100可以包括麦克风113、接收器114、发送器115、3D传感器116、全球定位系统(GPS)117、一个或更多个I/O接口118、处理器120、储存装置130、存储器140、可与包括局域网和互联网(未示出)在内的网络155连接的网络接口控制器150(NIC)、连接到显示装置165的显示接口160、可与成像装置175连接的成像接口170、可与打印装置185连接的打印机接口180。RGB-D相机可以与机器人系统60分开布置，并且可以经由I/O接口110连接到系统100。I/O接口110可以包括模拟/数字转换器和数字/模拟转换器，并且可以包括无线通信接口。

I/O接口110包括无线通信接口，该无线通信接口可以经由无线网络连接或无线局域网与其它对象检测和定位系统或其它计算机通信，这使得能够执行远程多个对象检测和定位。图像处理系统100可以包括电源190。电源190可以是经由I/O接口118从外部电源(未示出)可再充电的电池。根据应用，电源190可以可选地位于系统100的外部。

HMI和I/O接口110以及I/O接口118可以适于连接到另一显示装置(未示出)，所述另一显示装置包括计算机监测器、相机、电视、投影仪或移动设备等。

图像处理系统100可以经由与NIC 150连接的网络155接收包括语音数据的电子文本/成像文档。储存装置130包括对象检测和定位程序(模块)131、抓取(拾取)和移动程序132、分割程序(模块)133和几何重建程序(模块)134。

在这种情况下，对象检测和定位程序131、抓取和移动程序132、分割程序133和几何重建程序(模块)134的算法作为编码数据存储在储存器130中。程序模块131至134可以存储到计算机可读记录介质(未示出)，使得处理器120可以从该介质执行程序模块131至134的算法。此外，定点装置/介质112可以包括读取存储在计算机可读记录介质上的程序的模块。

例如，程序131可以包括对象标识符的程序模块，对象标识符的程序模块对图像的像素中的第一集群的第一像素和和第二集群的第二像素进行聚类，使得单个变换分别将第一像素转移到第二像素。此外，该程序可以包括对象定位器的程序模块，其用于确定由第一集群的第一像素表示的对象的第一姿态。在这种情况下，当第一组中的任何像素的第一外观与第二组中的像素的第二外观匹配并且所述第一组中的任何像素对之间的第一距离与所述第二组中的一对相应外观匹配像素之间的第二距离匹配时，由所述第一集群的第一像素形成的第一组与由所述第二集群的第二像素形成的第二组匹配。

此外，程序131可以包括：特征提取器的程序模块，其用于基于像素的强度值来提取图像中的对象的特征；特征对查找器的程序模块，其用于基于所提取的特征的外观相似性来从所提取的特征中查找对象的特征匹配对，其中，所述外观相似性由所述像素的强度值定义；三元组生成器的程序模块，其用于从所述特征匹配对生成三元组；匹配查找器的程序模块，其用于基于几何相似性从生成的三元组中找到匹配三元组；以及聚类模块的程序模块，其用于对具有由预定参数定义的相似变换的三元组对的集合进行聚类。

为了开始使用传感器116获取图像数据，可以使用键盘(未示出)或在图形用户界面(GUI)(未示出)上显示的启动命令、定点装置/介质112或经由连接到其它计算机195的无线网络或网络190向系统100发送指令。响应于使用存储在储存器130中的预先安装的传统语音识别程序通过麦克风113接收到用户的声学信号，可以开始图像的获取。

处理器120可以是包括一个或更多个图形处理单元(GPU)的多个处理器。储存器130可以包括能够识别经由麦克风113获得的语音信号的语音识别算法(未示出)。

此外，图像处理系统100可根据系统设计的要求而被简化。例如，图像处理系统100可以通过包括至少一个RGB-D相机111、接口110、与存储器140和存储对象检测和定位程序131的储存器130相关联的处理器120以及图1中所示的部件的其它组合来设计。

图像处理系统100可以包括或连接到机器人臂(未示出)的控制系统，以用于基于物体检测和定位程序131操纵对象，其中至少一个RGB-D相机111安装在机器人臂的操纵部位附近。作为示例，图1中示出了包括图像处理系统100和RGB-D相机的机器人臂系统60。此外，下面将讨论程序模块131至135的一些功能。

由对象跟踪器程序135连续跟踪检测到的对象，包括当对象方位相对于相机111的视点改变时的情况。场景中的对象由于与受拾取/移动程序132控制的机器人臂60的交互而改变取向。

根据本发明的实施方式，允许通过利用在3D空间中配准点和平面的稀疏SLAM算法来同时且独立地检测和跟踪多个对象。我们将在SLAM的上下文中使用测量值和界标的标准定义：测量值由系统从可用的RGB-D数据中提取，并与地图中的界标相关联。与将对象添加到单个地图中的状态信息或将对象从地图中分割出来的方法相比，每个检测到的对象在其自己的地图中被跟踪。当我们的系统接收到新的RGB-D帧时，机器人系统60中的系统100对其进行处理以提取点和平面测量值，并执行基于深度的分割。测量值被用于相对于系统中的所有现有地图来配准每个帧。该配准程序的结果用于对分段进行分类，并允许我们防止地图之间的污染。如果交互的结果产生不与任何地图正确配准的分段，则地图被分成两个独立的假设。

以下描述提供了关于点平面SLAM以及我们如何执行新的RGBD帧的配准的简短背景。然后，我们详细介绍了我们的分段分类方法，以及该方法如何能够管理系统中所有可用的地图。

定义

图3示出了对象的定义的概念。图3示出了经处理帧Fⁱ的符号描绘。在该示例中，存在9个点和一个平面测量值。平面测量值p_m ¹⁰用于将分段S³初始化。基于深度的分割获得了另外两个分段。对于该帧，使得

并且

我们将我们的测量值表示为p_m，并且它们对应的界标表示为p_l。测量值可以是点或平面，并且它们对应的界标将存储与测量值相关联的特征集合。在点测量值的情况下，这些特征是使用SIFT提取的关键点描述符，而对于平面界标，我们存储平面参数和相关联平面测量的内点集合。帧F中的所有测量值的集合由下式给出：

分段被定义为帧中的测量值的集合，

并且帧中的所有分段的集合被表示为

关键帧KF是添加到地图的RGB-D帧。在我们的系统中，如果帧在公共参考中的配准姿态与地图中所有其它关键帧的配准姿态充分不同，则帧被标记为关键帧。

我们的系统维护地图集合

其中每个地图都是关键帧和界标的独立集合，如图4所示。在这种情况下，该图示出了累积关键帧集合KFⁱ和界标列表的地图的示例。这些包含了将帧中的测量值与每个地图的界标相匹配所需的特征。在这项工作中，我们的目标是建立独立的地图集合，每个地图只存储与一个对象假设有关的界标。

最后，我们可以针对每个地图M^k∈M为每个帧Fⁱ定义内点(inlier)测量值和匹配点测量值的集合。内点集合I^i,k包含已经成功配准到某个界标p_l∈M^k的所有点测量值。匹配测量值集合J^i,k将包含所有的点测量值，这些点测量值已经使用比率测试与来自地图中的某个界标的关键点描述符匹配。

配准

配准过程的目标是为所有地图确定从给予系统的第i个帧到M中的第k个地图的坐标系的刚体变换

为此，我们采用了一种多组配准方案，其包括顺序的基于帧的配准算法和基于分段的配准算法，旨在解决优化问题，

在RANSAC框架中，距离算子d(·,·)计算特征之间的距离。

分段分类

在这项工作中，我们提出了一种新的分段分类方法，该方法基于多组配准过程的结果和每个地图中可用的累积关键点描述符。这种分类是我们的地图管理算法的基石，其允许我们通过创建和分割SLAM地图来创建和更新对象假设。

对于当前帧Fⁱ和所有地图M^k∈M，我们从对配准分段的集合进行分类开始，

所述配准分段被定义为具有内点测量值

与分段中的测量值的总量(由其基数

给出)的高比率的分段。然后，我们将未配准的分段划分为两个互补集：匹配分段和不匹配分段，分别为0^k _m和S^k _u。

因此对于每个地图，我们将得到

如果我们成功地将足够多的其测量值的描述符匹配到M^k中的描述符，则未配准的分段将属于S^k _m，

这将在多个对象与M^k相关联并且这些对象的子集由于机器人交互而受到干扰时发生。其余的分段对于地图来说是新的，因此是未配准和不匹配的，并且将被分配给S^k _u。图5的算法1示出了该过程，其中M.registered(S^j)和M.keypointMatched(S^j)分别对应于公式(2)和(4)中的不等式。

检测、跟踪和重建环境中的对象

我们的系统的目标是检测机器人环境中的对象，并在建立三维对象模型的同时跟踪它们。这是通过在地图集合M上迭代，并且基于与环境的连续交互的结果来更新、破坏和创建新的地图来实现的。我们假设环境只会因为这些相互作用而受到干扰。

我们首先处理提供给系统的每个新帧，并从公式(1)获得配准变换。对于每个地图M^k∈M，我们然后执行算法1。这导致可用分段的按地图划分，其遵循公式(3)。

一旦地图M^k具有

我们就分割M^k并生成两个新地图，一个将S^k _r的测量值存储为界标，另一个具有来自S^k _m的测量值。从系统中删除原始地图。

该过程允许我们的系统将对象假设检测为相对于地图的主导运动模式移动的分段集合，并且通过随后的地图分割额外地改进这些假设。图8描述了地图分割过程的简单示例。在顶部，向系统呈现三个连续帧。在每个帧之间发生场景干扰。针对帧相对于被分割的地图示出了分段划分，即，针对F¹和F²相对于M¹勾勒分段轮廓，并且针对M²勾勒F³轮廓。最后地图集合是M＝{M³,M⁴,M⁵}。

当

如果当前帧被确定为该地图的关键帧，则我们用S^k _r的测量值更新每个M^k。我们通过从地图中的所有关键帧恢复所有配准的分段来获得任何给定地图的3D重建。

处理地图污染

维护多个独立地图的重大挑战在于处理地图污染。当与杂乱场景中的对象交互时，被跟踪对象通常与其它被跟踪对象或静态场景中的对象非常接近。当这种情况发生时，新帧的分段可能包含属于两个或更多个地图的元素，参见图7A至图7C。

图7A、图7B和图7C是地图污染的图示。两个对象(蜡笔盒和洗漱用具)由两个独立的地图建模，由于相互作用，这两个地图接触在一起，分别参见图7A和图7B。如果基于深度的分割算法将两个对象一起分割，则地图可能被不正确地更新，从而生成不正确的模型，参见图7C。

我们通过采用S_r和S_m对于两个不同的地图不能重叠的假设来处理这些情况。如果满足下列条件之一：a)

b)

或c)

则我们不更新两个地图M^k,M^l∈M,k≠l。换句话说，分段不能：a)被同时配准到两个地图，b)被特征匹配到两个地图，或者c)被配准到一个地图并被特征匹配到另一个地图。当这种情况发生时，我们假设这些地图之间存在污染的风险。处于污染风险的地图仍然被跟踪，但不能用新的关键帧更新。

因此，我们创建了

即，我们只保留没有污染风险的地图，

在第III-D节中提出的地图管理算法在该子集上执行，遵循图6中的算法2。

未配准和不匹配的分段

在某些情况下，对于所有地图，我们可能有一个或更多个未配准和不匹配的分段，

导致这种问题的情况根据用于生成每个帧的分段的分段算法而变化。在我们的工作中，我们假设分割算法将倾向于对观察到的场景进行欠分割。这样，当在交互之后显示先前被遮挡的对象时，或者如果对象姿态以显示其全新的一面的方式改变，则将主要发生遵循(6)的分段。我们通过将这些新的分段添加到具有最接近分段质心的配准姿态的地图来处理这些新分段，因为进一步的相互作用将允许系统通过地图分裂来校正受影响的对象假设。

集成系统

在前一节中，我们讨论了一种用于检测、跟踪和建模3D对象的感知算法，该算法是在RGB-D帧之间的变化是由于施加在观察环境上的动作而导致的假设下建立的。为此，我们将感知算法集成到Fetch机器人中的机器人操纵器中，并设计了一组简单的操作原语来对观察到的场景进行操作。在本节中，我们将描述该集成系统和我们用来从下面讨论的实验部分获得结果的交互逻辑。

选择的分割算法

我们的地图管理算法依赖于图5中的算法1中所示的分段分类过程。虽然所描述的方法是通用的，但它需要具有足够关键点信息的分段来应用公式(2)和(4)。我们的实现方式首先提取场景中的主导平面，如墙和支持的桌平面，并将它们标记为分段。由于SIFT的使用导致需要相当大的段，因此为了允许鲁棒分类，我们选择使用来自PCL库的欧几里德集群提取方法来对每个RGB-D帧中的剩余点进行欠分段。与平面分段一起，这种策略允许我们获得平面表面上的对象集群作为单个分段。

推动

在某些情况下，机器人系统依赖于推动基元来与场景上观察到的分段交互。给定目标位置和推动方向，我们将机器人末端执行器定位在目标后面，并且以围绕推动目标定义的可选小角度运动，沿推动方向线性移动机器人末端执行器达预先配置的距离。这个角度分量允许系统在目标上施加更大的旋转，这对于收集关于对象的具有更丰富测量值集合的透视图是有用的。如果最终位置在工作区边界之外，则我们通过修改推动距离来考虑工作区约束(与移动/推动距离相关)。

为了确定推进方向，我们采用了对象分割目标。分割有助于重建更完整的对象模型，并且其是与所选择的分割算法很好地工作的策略，这是因为接触的对象将倾向于被一起分割。系统100基于简单人工势方法来确定(或计算)将目标推动点移动远离分段形心的方向，其中，机器人工作区中的每个形心具有的排斥势：

其中，r_i是在推进平面上投影的推进点和第i个质心位置之间的距离。从这个计算的方向，我们可以提取相对于平面上的参考框架的角度α_p，参见图9。该图示出了从以角度α_p为中心的分布绘制推动方向，该角度是通过计算使所选推动点上的人工势最小化的方向而获得的。在这个示例中，所选择的推动点被标记为一个星，并且两个分段的质心(全黑圆)被用来从公式(7)计算人工势。

系统100被配置为使用该角度作为具有方差σ_p ²的高斯分布的第一矩α_p，我们从该第一矩采样实际推进角，

该随机分量帮助系统100避免(对象从工作区)落入局部最小值，其中对象块被前后推而不被分离。除了分段质心外，我们还考虑了支撑平面的极限：极限最接近目标的点被添加为排斥点。

抓取

系统100被配置为利用我们的对象假设的重建模型来通知抓取姿势检测器(未示出)。给定目标对象假设，我们将其模型重建为点云，并将其发送到检测器，检测器产生根据所提出的姿态产生稳定抓取的可能性进行排名的一组建议。系统100从排名最高的抓取建议循环到排名最低的抓取建议，并移除违反工作区约束的建议。然后，我们使用TRAC-IK计算其余建议的逆运动学(IK)解。选择具有有效IK解的排名最高的建议作为抓取姿态。例如，立体深度传感器配置可用于获得所观察场景的更完整的部分视点点云。使用SLAM对环境中的对象建模的显著优点是能够利用单个静态深度传感器累积被跟踪对象的不同视点，并且使用重建的点云来通知抓取规划器。在V-B节中，我们展示了视点的积累如何使我们的系统获得更好的抓取建议。

交互逻辑

为了演示我们提出的方法，系统100实现简单的交互逻辑。在每次迭代中，系统100从M中随机地采样地图，并且产生其重建模型的质心的推动方向，如在部分IV-B中所描述的。我们的系统的相关实现细节是，我们保持跟踪哪个地图正在建模机器人的静态场景，即，组成所观察场景的主要运动模式的分段集合。对于不是静态地图的每个地图，一旦足够数量的关键帧已经被配准到地图，我们就生成抓取建议候选，因为这意味着对应的对象假设已经被交互而没有分割地图，因此假设确实是单个化对象的可能性更高。如果抓取失败，则系统尝试进一步推动动作，以尝试并为抓取姿态检测器生成更完整的模型。

实验

我们将集成系统部署在以人为中心的环境中，在这个环境中，几个相互接触的对象被放置在一个桌子的顶部，这构成了将定义推动方向的支撑平面，从图10中的机器人视点看到，指示了与所描绘的框架对齐的支撑平面上推动动作的计划。然后我们执行IV-D部分的交互逻辑。

我们在Intel Core i7-7700K CPU上以4.20GHz的频率运行感知算法，64GB的可用内存，公式(2)和(4)的分段分类参数被设置为δ_r＝0.7和α_m＝10。公式(8)中的分布的标准偏差被设置为δ_p＝0.4rad，我们从公式(8)中采样推动方向角。由于分段分类系统依赖于丰富的关键点信息，因此我们忽略了|S^j|<20的分段。用地图M^k∈M配准的帧Fⁱ作为新的关键帧添加到该地图，该地图具有与M^k中最新配准的关键帧分别相差超过5cm或0.087rad的平移分量或旋转分量。

对象检测、跟踪和建模

图11的(a)至图11的(f)中示出了四个对象的实验结果，其中图11的(a)显示了从机器人角度来看场景的初始配置，图11的(b)至图11的(e)示出了从外部角度来看执行的动作。每个图像与来自M的重建模型的图示成对。图11的实验显示在提交视频中，以及不同对象和初始工作区配置的实验。

抓取

我们测试了系统使用重建的对象模型来通知抓取姿态检测器分组的能力。一旦对象被单一化，我们就可以使用重建的模型来计划抓取。在多个对象的实验中，我们假设一旦地图累积了两个以上的关键帧就实现了单一化，从而在一些模型上测试了这种方法的可行性。

为了测试在现有对象模型上添加信息如何有助于获得更好的抓取姿态建议，我们进行了实验，在每次推动对象假设后，我们都尝试抓取。虽然用单个配准的关键帧可以获得一个成功的地图抓取姿态，但我们观察到，诸如喷雾瓶的更复杂的几何图形受益于积累更多数量的关键帧，参见图12。

本发明的上述实施方式可以以多种方式中的任何方式来实现。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，软件代码可以在任何合适的处理器或处理器集合上执行，无论其是设置在单个计算机中还是分布在多个计算机之间。这样的处理器可以被实现为集成电路，在集成电路组件中具有一个或多个处理器。然而，可以使用任何适当格式的电路来实现处理器。

此外，本发明的实施方式可以实现为已经提供了示例的方法。作为方法的一部分执行的动作可以以任何合适的方式排序。因此，可以构建其中以不同于所示出的顺序执行动作的实施方式，其可包括同时执行一些动作，虽然这些动作在说明性实施方式中示出为顺序动作。

在权利要求中使用诸如“第一”、“第二”之类的序数术语来修改权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素的任何优先级、优先序或顺序或者执行方法动作的时间顺序，而是仅仅用作将具有某一名称的一个权利要求元素与具有相同名称的另一元素(除了序数术语)区分开来的标签，以区分权利要求元素。

虽然已经通过优选实施方式的示例描述了本发明，但是应当理解，在本发明的精神和范围内可以进行各种其它的调整和修改。

因此，所附权利要求书的目的是覆盖落入本发明的真实精神和范围内的所有这些变化和修改。

Claims

1.一种用于检测和操纵工作区上的对象的对象检测系统，所述系统包括：

三维3D传感器，其被配置为获取并发送场景的点云，每个点云包括所述工作区中的一个或更多个对象；

操纵器，其被配置为移动或抓取所述一个或更多个对象中的每一个；

存储器，其用于存储图像和计算机可执行程序，所述计算机可执行程序包括对象检测-定位程序、分割程序、抓取-移动程序和几何重建程序；

处理器，其用于结合所述3D传感器、所述存储器和所述操纵器，使用所述图像来执行所述计算机可执行程序，其中，所述计算机可执行程序被配置为使得所述处理器执行以下步骤：

通过使用所述分割程序生成包括所述点云和测量值在内的帧；

从由所述分割程序创建的第一帧生成初始地图；

通过执行所述抓取-移动程序，使用所述操纵器利用所述第一帧来移动所述一个或更多个对象的一部分；

在移动步骤之后，使用所述分割程序来获取第二帧；

使用所述第二帧从所述初始地图生成第一动态地图和静态地图；

通过执行所述抓取-移动程序，使用所述操纵器基于所述第一动态地图来移动所述一个或更多个对象的另一部分，以生成第二动态地图；当所述第一动态地图和所述第二动态地图当中的至少一个动态地图包括相对于所述一个或更多个对象离群的分段时，分割所述至少一个动态地图；

移除所述至少一个动态地图；

通过执行对象跟踪器程序来跟踪包括在移除之后剩余的对应动态地图中的至少一个或更多个对象；

通过使用所述几何重建程序从分割地图重建所述一个或更多个对象的3D几何形状；以及

基于所重建的3D几何形状确定所述一个或更多个对象何时彼此分离。

2.根据权利要求1所述的系统，其中，所述几何重建程序是稀疏同时定位和制图SLAM模块。

3.根据权利要求1所述的系统，其中，所述操纵器以围绕所述一个或更多个对象定义的角运动将所述一个或更多个对象移动预定距离。

4.根据权利要求1所述的系统，其中，根据与运动的移动距离和方向相关的工作区约束来执行移动步骤。

5.根据权利要求4所述的系统，其中，通过利用角度作为方差σ_p ²的高斯分布的第一矩α_p来确定所述移动距离，以避免所述一个或更多个对象超过所述工作区的极限。

6.根据权利要求1所述的系统，其中，基于人工势方法来确定移动步骤的方向，其中，所述一个或更多个对象的质心具有排斥势，并且所述工作区的极限具有排斥势。

7.根据权利要求5所述的系统，其中，所述工作区的极限被定义为所述工作区的边缘。

8.一种用于检测和操纵工作区上的对象的计算机能实现的对象检测方法，所述方法包括以下步骤：

通过使用三维3D传感器获取和发送场景的点云，每个点云包括所述工作区中的一个或更多个对象；

通过使用分割程序生成包括所述点云和测量值的帧；

从由所述分割程序创建的第一帧生成初始地图；

通过执行抓取-移动程序，使用操纵器利用所述第一帧来移动所述一个或更多个对象的一部分；

在移动步骤之后，使用所述分割程序来获取第二帧；

通过执行所述抓取-移动程序，使用所述操纵器基于所述第一动态地图来移动所述一个或更多个对象的另一部分，以生成第二动态地图；

当所述第一动态地图和所述第二动态地图当中的至少一个动态地图包括相对于所述一个或更多个对象离群的分段时，分割所述至少一个动态地图；

移除所述至少一个动态地图；

通过使用几何重建程序从分割地图重建所述一个或更多个对象的3D几何形状；以及

9.根据权利要求8所述的方法，其中，所述几何重建程序是稀疏同时定位和制图SLAM模块。

10.根据权利要求8所述的方法，其中，所述操纵器以围绕所述一个或更多个对象定义的角运动将所述一个或更多个对象移动预定距离。

11.根据权利要求8所述的方法，其中，根据与运动的移动距离和方向相关的工作区约束来执行移动步骤。

12.根据权利要求11所述的方法，其中，通过利用角度作为方差σ_p ²的高斯分布的第一矩α_p，来确定所述移动距离，以避免所述一个或更多个对象超过所述工作区的极限。

13.根据权利要求8所述的方法，其中，基于人工势方法来确定移动步骤的方向，其中，所述一个或更多个对象的质心具有排斥势，并且所述工作区的极限具有排斥势。

14.根据权利要求12所述的方法，其中，所述工作区的极限被定义为工作区的边缘。

15.一种非暂时性计算机可读存储介质，其具有用于由处理系统检测和操纵工作区上的对象的计算机可执行指令，所述计算机可执行指令包括：

通过使用三维3D传感器获取和发送场景的点云，每个点云包括工作区中的一个或更多个对象；

通过使用分割程序生成包括所述点云和测量值的帧；

从由所述分割程序创建的第一帧生成初始地图；

在移动步骤之后，使用所述分割程序来获取第二帧；

移除所述至少一个动态地图；

16.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述几何重建程序是稀疏同时定位和制图SLAM模块。

17.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述操纵器以围绕所述一个或更多个对象定义的角运动将所述一个或更多个对象移动预定距离。

18.根据权利要求15所述的非暂时性计算机可读存储介质，其中，根据与运动的移动距离和方向相关的工作区约束来执行移动步骤。

19.根据权利要求18所述的非暂时性计算机可读存储介质，其中，通过利用角度作为方差σ_p ²的高斯分布的第一矩α_p，来确定所述移动距离，以避免所述一个或更多个对象超过所述工作区的极限。

20.根据权利要求15所述的非暂时性计算机可读存储介质，其中，基于人工势方法来确定移动步骤的方向，其中，所述一个或更多个对象的质心具有排斥势，并且所述工作区的极限具有排斥势。

21.根据权利要求19所述的非暂时性计算机可读存储介质，其中，所述工作区的极限被定义为所述工作区的边缘。