CN114820772A

CN114820772A - 基于图像数据的物体检测的系统及方法

Info

Publication number: CN114820772A
Application number: CN202210552124.5A
Authority: CN
Inventors: 余锦泽; 何塞·赫罗尼莫·莫雷拉·罗德里格斯; 叶旭涛
Original assignee: Mujin Technology
Current assignee: Mujin Technology
Priority date: 2019-07-15
Filing date: 2020-07-15
Publication date: 2022-07-29
Anticipated expiration: 2040-07-15
Also published as: US20210019891A1; CN112308908A; DE102020116803A1; US11288814B2; CN114820772B; JP2021015616A; JP6782046B1; JP2021015600A; US20220284591A1

Abstract

公开了基于图像数据的物体检测的系统及方法。具体地，提供了一种检测物体的系统和方法。该方法包括从基于第一图像捕获模式来表示物体的第一图像数据中生成第一边缘信息，从基于第二图像捕获模式来表示物体的第二图像数据中生成第二边缘信息，第二模式不同于第一模式，将第一边缘信息与第二边缘信息融合以生成融合后的边缘信息，基于融合后的边缘信息生成物体检测假设，以及基于融合后的边缘信息、第一边缘信息和/或第二边缘信息来验证物体检测假设。

Description

基于图像数据的物体检测的系统及方法

本申请是申请日为2020年7月15日、题为“基于图像数据的物体检测的系统及方法”的发明专利申请202010681462.X的分案申请。

技术领域

本公开涉及物体检测，并且更具体地，涉及用于检测物体的边缘的系统和方法。

背景技术

在某些机器视觉应用中，为了检测间隙并确定物体的尺寸或类型，检测沿传送设备移动、堆叠在托盘上或包装在容器中的物体或盒子的边缘可能很重要。然而，由于正在使用的相机或其他成像设备的颜色或光学分辨率，相关技术系统可能难以检测两个物体或盒子之间、物体与周围环境之间、或包装在单个托盘上的多个物体之间的对比度或边界。依赖于单个成像设备的相关技术系统可能具有未能找到或检测到物体周围的边界或边缘的增加的概率。本发明的示例实现方案可以解决相关技术系统中的缺陷。

发明内容

本发明的方面可以包括一种检测物体的方法。该方法可以包括从基于第一图像捕获模式来表示物体的第一图像数据中生成第一边缘信息，从基于第二图像捕获模式来表示该物体的第二图像数据中生成第二边缘信息，该第二模式不同于第一模式，将第一边缘信息与第二边缘信息融合以生成融合后的边缘信息，基于融合后的边缘信息生成物体检测假设，并基于融合后的边缘信息、第一边缘信息和/或第二边缘信息来验证该物体检测假设。

本发明的附加方面可以包括一种编码有指令的非暂时性计算机可读介质，该指令用于使计算设备执行检测物体的方法。该方法可以包括从基于第一图像捕获模式来表示物体的第一图像数据中生成第一边缘信息，从基于第二图像捕获模式来表示物体的第二图像数据中生成第二边缘信息，该第二模式不同于第一模式，将第一边缘信息与第二边缘信息融合以生成融合后的边缘信息，基于融合后的边缘信息生成物体检测假设，并基于融合后的边缘信息、第一边缘信息和/或第二边缘信息来验证该物体检测假设。

本发明的另一些方面可以包括一种用于使用机器视觉来检测物体的计算系统。该计算系统可以包括系统接口和通信地耦合到系统接口的处理器。系统接口可以被配置接收基于第一图像捕获模式来表示物体的第一图像数据，并且接收基于第二图像捕获模式来表示物体的第二图像数据，该第二模式不同于第一模式。处理器可以被配置为执行物体检测方法。该方法可以包括从基于第一图像捕获模式来表示物体的第一图像数据中生成第一边缘信息，从基于第二图像捕获模式来表示物体的第二图像数据中生成第二边缘信息，该第二模式不同于第一模式，将第一边缘信息与第二边缘信息融合以生成融合后的边缘信息，基于融合后的边缘信息生成物体检测假设，并基于融合后的边缘信息、第一边缘信息和/或第二边缘信息来验证该物体检测假设。

本发明的附加方面可以包括用于使用机器视觉来检测物体的另一物体检测系统。该系统可以包括被配置为捕获第一图像捕获模式的图像和捕获第二图像捕获模式的图像的设备、被配置为从以第一图像捕获模式收集的图像数据中生成第一物体边缘信息并从以第二图像捕获模式(该第二模式不同于第一模式)收集的图像数据中生成第二物体边缘信息的设备、处理器。处理器可以被配置为将第一物体边缘信息与第二物体边缘信息融合以生成融合后的边缘信息，基于融合后的边缘信息生成物体检测假设，并基于融合后的边缘信息、第一物体边缘信息和第二物体边缘信息来验证该物体检测假设。

附图说明

将基于以下附图详细描述本发明的(一个或多个)示例性实施例，其中：

图1A是示例环境的图示，其中可以使用结合了本发明的示例实施例的机器人系统。

图1B是示出可以使用结合了本发明的示例实施例的机器人系统的框图。

图2示出了根据本发明的第一示例实现方案的用于检测沿着传送装置移动的物体的设备。

图3示出了根据本发明的第二示例实现方案的用于检测沿着传送装置移动的物体的设备。

图4示出了根据本发明的第三示例实现方案的用于检测沿着传送装置移动的物体的设备。

图5示出了根据比较示例的可以表示单个图像捕获设备或相机的边缘检测结果的图像数据的示意图。

图6示出了融合后的图像数据表示的示意图，该融合后的图像数据可以表示用作本发明的示例实现方案的融合后的边缘检测结果。

图7A和7B示出了可以根据本发明的示例性实现方案通过利用融合后的检测到的边缘数据来避免的不准确的检测假设的示意表示。

图8示出了根据本发明示例实现方案的用于物体检测和验证的过程的流程图。

图9示出了具有适合于在本发明的一些示例实现方案中使用的示例计算机设备的示例计算环境。

具体实施方式

以下详细描述提供了本发明的附图和示例实现方案的更多细节。为了清楚起见，在附图之间省略了冗余元素的参考标号和描述。贯穿说明书中使用的术语仅作为示例提供，并非旨在进行限制。例如，术语“自动”的使用可以涉及全自动的或半自动的实现方案，该半自动的实现方案涉及用户或操作者对实现方案的某些方面的控制，这取决于实践本发明的实现方案的本领域普通技术人员的期望实现方案。此外，诸如“第一”、“第二”、“第三”等的顺序术语(terminology)可以仅出于标记目的而在说明书和权利要求书中使用，并且不应限于是指以所描述的顺序出现的所描述的动作或项目。在不脱离本发明的范围的情况下，动作或项目可以被排序为不同的顺序或者可以被并行或动态地执行。

在本发明中，术语“计算机可读介质”可以包括本地存储设备、基于云的存储设备、远程服务器或对于本领域普通技术人员而言可能清楚的任何其他存储设备。

根据本发明的机器视觉或物体检测系统的示例实现方案可以通过使用两种或更多种模式的图像数据来检测物体之间的间隙或对比度差异，从而来提高(诸如通过检测物体或盒子之间的间隙或空间而进行的)物体边缘检测的概率。通过使用两种或更多种模式的图像数据，可以检测到材质、背景、箱子或物体、环境照明或反射中的差异，并且基于这些检测，计算系统可以生成融合后的边缘信息以标识间隙或点云之间的边缘以确定物体大小。此外，如下面所解释的，通过融合使用不同模式的图像数据检测到的边缘信息，示例实现方案可以看到物体或盒子的周围轮廓，该周围轮廓为盒子在图(map)上的边缘，从而导致更高的可能性来限定此区域并给出正确的检测假设以用于后续处理。通过提高检测物体位置和轮廓的概率，在工业加工、包装或运送设施内可以更好地跟踪和定位物体。

本文描述的示例实现方案可以涉及对移动通过分类或制造设施的托盘或盒子进行跟踪。但是，示例实现方案不限于这些应用。本文描述的过程和系统的示例实现方案也可以用于3D映射、自主视觉或可以受益于改进的边缘检测的任何其他应用。与传统的边缘检测系统相比，示例实现方案可以通过使用更多的数据模块来克服不同感测设备的弱点或限制从而提供增强的边缘检测结果，并将强度或能力结合到给定环境中。

适用环境

图1A是根据本申请示例实施例的示例环境的图示，其中机器人系统100具有机器视觉或物体检测系统。机器人系统100包括被配置为执行一个或多个任务的一个或多个结构(例如，机器人)。件损管理(piece-loss management)机制的各个方面可以通过各种结构来实践或实现。

对于图1A中所示的示例，机器人系统100可包括仓库或分配/运送枢纽中的卸载单元102、转移单元104、运输单元106、装载单元108或其组合。机器人系统100中的每个单元可以被配置为执行一个或多个任务。任务可以按顺序被组合以执行实现目标的操作，诸如从卡车或货车上卸载物体以存储在仓库中，或从存储位置卸载物体并将它们装载到卡车或货车上以进行运送。对于另一示例，任务可以包括将物体从一个容器移动到另一容器。每个单元可以被配置为执行一系列动作(例如，操作其中的一个或多个部件)以执行任务。

在一些实施例中，任务可以包括从开始位置114到任务位置116对目标物体112(例如，盒子、箱子、笼子、托盘等)的操纵(例如，移动和/或重新定向)。例如，卸载单元102(例如，拆箱机器人)可以配置为将目标物体112从运载工具(例如，卡车)中的位置转移到传送带上的位置。此外，转移单元104(例如，码垛机器人)可以被配置成将目标物体112从传送带上的位置转移到运输单元106上的位置，诸如用于将目标物体112装载在运输单元106上的托盘上。

根据另一示例实施例，转移单元104(例如，拣件机器人)可以被配置为将目标物体112从一个容器转移到另一容器。在完成操作时，运输单元106可以将目标物体112从与转移单元104相关联的区域转移到与装载单元108相关联的区域。装载单元108可以将目标物体112从转移单元104转移(例如，通过移动承载有目标物体112的托盘)到存储位置(例如，架子上的位置)。下面介绍有关任务和相关联的动作的细节。

为了说明的目的，在运送中心的上下文中描述了机器人系统100；然而，应当理解，机器人系统100可以被配置为在其他环境中以及出于其他目的(诸如用于制造、组装、包装、医疗保健和/或其他类型的自动化)执行任务。还应理解，机器人系统100可以包括其他单元，诸如操纵器、服务机器人、模块化机器人等，未在图1中示出。

例如，在一些实施例中，机器人系统100可以包括：用于将物体从笼子、推车或托盘转移到传送器或其他托盘上的卸垛单元，用于将物体从一个容器转移到另一个容器的容器切换单元，用于包裹物体的包装单元，用于根据物体的一个或多个特性将物体分组的分类单元，用于根据物体的一个或多个特性不同地操纵(例如，用于分类、分组和/或转移)物体的拣件单元，或其组合。

适用系统

图1B是示出了根据本技术的示例实施例的具有机器视觉或物体检测系统的机器人系统100的框图。在一些实施例中，例如，机器人系统100(例如，在上述单元和/或机器人中的一个或多个单元和/或机器人处)可以包括电子/电气设备，诸如一个或多个处理器118、一个或多个存储设备120、一个或多个通信设备122、一个或多个输入-输出设备124、一个或多个致动设备128、一个或多个运输电动机130、一个或多个传感器132，或其组合。

各种设备可以经由有线连接和/或无线连接彼此通信地耦合。例如，机器人系统100可以包括总线，诸如系统总线、外围部件互连(PCI)总线或PCI-Express总线、HyperTransport或工业标准架构(ISA)总线，小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)总线或电气和电子工程师协会(IEEE)标准1394总线(也称为“FIREWIRE”)。同样，例如，机器人系统100可以包括桥、适配器、控制器或其他与信号有关的设备，用于提供设备之间的有线连接。无线连接可以基于例如蜂窝通信协议(例如3G，4G、LTE、5G等)、无线局域网(LAN)协议(例如无线保真(WIFI))、对等或设备到设备的通信协议(例如，蓝牙、近场通信(NFC)等)、物联网(IoT)协议(例如，NB-IoT、LTE-M等)，以及/或其他无线通信协议。

处理器118可以包括被配置为执行存储在存储设备120(例如，计算机存储器)上的指令(例如，软件指令)的数据处理器(例如，中央处理器(CPU)、专用计算机和/或板载服务器)。处理器118可以实现程序指令以控制其他设备/与其他设备接口，从而使机器人系统100执行动作、任务和/或操作。

存储设备120可以包括其上存储有程序指令(例如，软件)的非暂时性计算机可读介质。存储设备120的一些示例可以包括易失性存储器(例如，高速缓存和/或随机存取存储器(RAM))和/或非易失性存储器(例如，闪存和/或磁盘驱动器)。设备120的其他示例可以包括便携式存储器驱动器和/或云存储设备。

在一些实施例中，存储设备120可以用于进一步存储并提供对处理结果和/或数据/阈值(例如，预定数据和阈值)的访问。例如，存储设备120可以存储主数据，该主数据包括可以对由机器人系统100操纵的物体(例如，盒子、箱子和/或产品)的描述。在一个或多个实施例中，主数据可以包括预期由机器人系统100操作的物体的尺寸、形状(例如，潜在姿势的模板和/或用于识别不同姿势的物体的计算机生成的模型)，配色方案、图像、标识信息(例如，条形码、快速响应(QR)码、徽标等等，和/或其预期位置)、预期重量、或其组合。在一些实施例中，主数据可以包括关于物体的与操纵有关的信息，例如每个物体上的质心位置，与一个或多个动作/操作(maneuver)对应的预期的传感器测量值(例如，力、扭矩、压力和/或接触测量值))，或其组合。

另外，例如，存储设备120可以存储物体跟踪数据。在一些实施例中，物体跟踪数据可以包括被扫描或被操纵的物体的日志。在一些实施例中，物体跟踪数据可以包括物体在一个或多个位置(例如，指定的拾取或放下位置和/或传送带)处的图像数据(例如，图片\点云\实时视频馈送等)。在一些实施例中，物体跟踪数据可包括物体在一个或多个位置处的位置和/或朝向。

通信设备122可以包括被配置为经由网络与外部或远程设备通信的电路。例如，通信设备122可以包括接收器、发送器、调制器/解调器(调制解调器)、信号检测器，信号编码器/解码器、连接器端口、网卡等。通信设备122可以被配置为根据一种或多种通信协议(例如，互联网协议(IP)、无线通信协议等)来发送、接收和/或处理电信号。在一些实施例中，机器人系统100可以使用通信设备122在机器人系统100的单元之间交换信息和/或与机器人系统100外部的系统或设备交换信息(例如，用于报告、数据收集、分析和/或故障排除的目的)。

输入-输出设备124可以包括被配置为向操作员(例如，操作人员)传达信息和/或从操作员(例如，操作人员)接收信息的用户界面设备。例如，输入-输出设备124可以包括显示器126和/或其他输出设备(例如，扬声器、触觉电路或触觉反馈设备等)，用于将信息传达给操作人员。此外，输入-输出设备124可以包括控制或接收设备，例如键盘、鼠标、触摸屏、麦克风、用户界面(UI)传感器(例如，用于接收运动命令的相机)、可穿戴输入设备等。在一些实施例中，在执行动作、任务、操作或其组合时，机器人系统100可以使用输入-输出设备124与操作人员交互。

机器人系统100可包括物理或结构构件(例如，机器人操纵手臂)，其在关节处连接以进行运动(例如，旋转和/或平移位移)。结构构件和关节可以形成动力链，该动力链被配置为取决于机器人系统100的使用/操作来操纵被配置为执行一个或多个任务(例如，夹持、旋转，焊接等)的末端执行器(例如，夹持器)。机器人系统100可以包括致动设备128(例如，电动机、致动器、电线、人工肌肉、电活性聚合物等)，该致动设备128被配置成驱动或操纵(例如，移动和/或重新定向)围绕对应关节或在对应关节处的结构构件。在一些实施例中，机器人系统100可以包括被配置为将对应的单元/机箱从一个地方运输到另一个地方的运输电动机130。

机器人系统100可以包括传感器132，该传感器132被配置为获取用于实现任务的信息，诸如用于操纵结构构件和/或用于运输机器人单元。传感器132可以包括被配置为检测或测量机器人系统100和/或周围的环境的一个或多个物理属性(例如，其一个或多个结构构件/关节的状态、条件和/或位置)的设备。传感器132的一些示例可以包括加速度计、陀螺仪、力传感器、应变仪、触觉传感器，扭矩传感器和位置编码器。

在一些实施例中，例如，传感器132可以包括被配置为检测周围环境的一个或多个成像设备134(例如，二维和/或三维相机，包括视觉和/或红外相机、LADAR、RADAR，和/或其他测距或成像设备)。成像设备134可以检测并生成所检测到的环境的表示，诸如数字图像和/或点云，用于实现机器/计算机视觉(例如，用于自动检查，机器人引导或其他机器人应用)。如下面进一步详细描述的，机器人系统100(经由例如处理器118)可以处理数字图像和/或点云以标识图1A的目标物体112、图1A的开始位置114、图1A的任务位置116、图1A的目标物体112的姿势、或其组合。

为了操纵目标物体112，机器人系统100(例如，经由各种单元)可以捕获并分析指定区域(例如，卡车内部、容器内部或传送带上物体的拾取位置)的图像，以标识目标物体112及其开始位置114。类似地，机器人系统100可以捕获并分析另一个指定区域的图像(例如，用于将物体放置在传送带上的放下位置，用于将物体放置在容器内的位置、或用于堆叠目的的托盘上的位置)以标识任务位置116。

此外，例如，传感器132可以包括位置传感器136(例如，位置编码器、电位计等)，该位置传感器136被配置为检测机器人系统100的结构构件(例如，机器人臂和/或末端执行器)和/或对应关节的位置。在执行任务期间，机器人系统100可以使用位置传感器136来跟踪结构构件和/或关节的位置和/或朝向。

在一些实施例中，传感器132可以包括接触传感器138(例如，压力传感器、力传感器、应变仪、压阻/压电传感器、电容传感器、弹性电阻(elastoresistive)传感器、和/或其他触觉传感器)，该接触传感器138被配置为测量与多个物理结构或表面之间的直接接触相关联的特性。接触传感器138可以测量与末端执行器(例如，夹持器)在目标物体112上的夹持相对应的特性。相应地，接触传感器138可以输出表示与夹持器和目标物体112之间的接触或附着程度相对应的量化度量(例如，测量的力、扭矩、位置等)的接触度量。例如，接触度量可以包括与由末端执行器施加到目标物体112上的力相关联的一个或多个力或扭矩读数。有关接触度量的详细说明如下。

如下面进一步详细描述的，机器人系统100(经由例如处理器118)可以基于接触度量来实现不同的动作以完成任务。例如，如果初始接触度量低于阈值，则机器人系统100可以重新夹持目标物体112。此外，如果在执行任务期间接触度量低于阈值，则机器人系统100可以有意地放下目标物体112，调整任务位置116，调整动作的速度或加速度，或其组合。

通过提供基于所需能力来改变工具头(tool head)的能力，根据本申请的末端执行器(例如，夹持器)的示例实施例可以在工具选择和定制方面具有更大的灵活性。例如，可变夹持器可以交换以匹配要被抓住的物体的类型。匹配可以基于物体的大小、物体的精致程度或对于本领域普通技术人员而言可能清楚的任何其他因素来进行。此改变能力是由通信地耦合到控制模块的连接器结构提供的，该控制模块被配置为感测工具的变化并调整信号I/O操作和所供应的压缩空气馈送以对应于新工具的要求。

示例实现方案

图2示出了根据本发明的第一示例实现方案的用于检测沿着传送装置220移动的物体275a-275c的装置205。装置205可以包括沿着Z轴与传送装置220间隔开的两个图像数据捕获设备210/212。如所示的，图像捕获设备210/212在物体275a-275c沿着传送装置220的移动方向上对齐，并且与物体275a-275c位于传送装置220的同一侧。然而，示例实现方案不限于此配置，并且可以以对于本领域普通技术人员而言可能清楚的其他配置来布置。在下面讨论的图3和图4中示出了其他示例性配置。此外，出于说明性目的，装置205与传送装置220上的物体275a-275c一起示出，但是可以理解物体275a-275c可以以不同的配置来布置。例如，物体275a-275c可以被堆叠或布置在平台(诸如托盘)上，或者在物体容器(诸如车或箱)内。

在一些示例实现方案中，图像数据捕获设备210/212中的一个或两个可以是二维成像设备或相机，诸如彩色静态相机(例如，RGB相机)、彩色摄像机、单色或灰度静态相机、单色或灰度摄像机、或对于本领域普通技术人员而言可能清楚的任何其他二维成像设备。另外，在一些示例实现方案中，每个图像数据捕获设备210/212可以是不同类型的二维成像设备(例如，一个图像捕获设备可以是RGB相机并且另一个图像捕获设备可以是单色相机，或对于本领域普通技术人员而言可能清楚的二维成像设备的任何其他组合)。

此外，在一些示例实现方案中，图像数据捕获设备210/212中的一个或两个可以是能够生成3D点云信息的三维图像设备，诸如立体视觉相机，距离成像相机(即飞行时间(TOF)相机)、或能够生成3D点云信息的任何其他设备。另外，在一些示例实现方案中，每个图像数据捕获设备210/212可以是不同类型的三维成像设备(例如，一个图像捕获设备可以是立体视觉相机并且另一个图像捕获设备可以是飞行时间相机，或对于本领域普通技术人员而言可能清楚的三维成像设备的任何其他组合)。

更进一步，在一些示例实现方案中，图像捕获设备之一(例如，设备210)可以是二维图像捕获设备，并且另一个图像捕获设备(例如，设备212)可以是三维图像捕获设备。

如图2所示，图像捕获设备210/212可以配置为当物体275a-275c在传送装置220上行进期间在图像捕获设备210/212下面通过时捕获或生成物体275a-275c的图像数据。在一些示例实现方案中，物体275a-275c可以是沿着工业、制造或分类设施中的传送装置220或类似装置行进的盒子、包裹或托盘。

装置205还可包括耦合到图像捕获设备210/212以处理物体275a-275c的图像数据的计算设备225。在一些示例实现方案中，计算设备225可以包括系统接口280(例如，输入/输出(I/O)接口)，该系统接口280将图像捕获设备210/212通信地耦合到计算设备225内的一个或多个处理器。例如，计算设备225的系统接口280可以接收由图像捕获设备210/212捕获或生成的图像数据，并将图像数据提供给计算设备225的一个或多个处理器。

此外，计算设备225的一个或多个处理器可以被配置为基于由图像捕获设备210/212捕获或生成的图像数据来检测物体275a-275c的边缘。作为另一示例，计算设备225的一个或多个处理器可以被配置为将在图像捕获设备210/212的图像数据中检测到的边缘融合，以便检测物体275a-275c之间的间隙。下面将更详细地讨论检测和融合边缘的过程。在一些示例实现方案中，计算设备225可以是例如下面讨论的图9的计算环境900的计算设备905。另外，系统接口280可以是例如图9的计算设备905的I/O接口925。此外，一个或多个处理器可以是例如图9的计算设备905的(一个或多个)处理器910。

计算设备225还可以从图像数据捕获设备210/212的输出生成经组合的图像信号，以更好地检测物体275a-275c之间的边缘和间隙。在一些示例实现方案中，计算设备225还可以将经组合的图像信号发送到经由例如网络230(例如，通过有线和/或无线连接)彼此通信连接的多个设备235-265，该多个设备235-265可以使用检测到的间隙和边缘用于分类、跟踪或对于本领域普通技术人员而言可能清楚的任何其他目的。

多个设备235-265可以包括但不限于计算机235(例如，膝上型计算设备)、移动设备240(例如，智能手机或平板电脑)、可穿戴设备255(例如，智能手表)、连接到存储设备250的服务器计算机245和对于本领域普通技术人员而言可能清楚的其他计算设备260-265。设备235-265也可具有如下在图9所示的计算环境900。

尽管在一些示例实现方案中，计算设备225可以在将经组合的图像信号发送到多个设备235-265之前生成该经组合的图像信号，但是本发明的示例实现方案不限于此配置。例如，计算设备225可以使用下面讨论的过程或算法将来自图像数据捕获设备210(也可以被称为第一图像数据捕获设备210)的图像数据与来自图像数据捕获设备212(也可以被称为第二图像数据捕获设备212)的图像数据组合，以相对于物体275a-275c检测边缘和间隙，以生成经组合的图像信号。

相反，在其他示例实现方案中，计算设备225可以将来自图像数据捕获设备210的图像数据和来自图像数据捕获设备212的图像数据作为单独的信号发送到多个设备235-265中的一个或多个设备。一旦接收到单独的信号，多个设备235-265中的每个设备可以使用下面讨论的过程或算法来组合单独的信号，以生成经组合的图像信号，以相对于物体275a-275c检测边缘和间隙。

计算设备225可以在装置205的初始设置或可重新配置设置期间确定是发送经组合的图像信号还是发送与来自图像数据捕获设备210的图像数据和来自图像数据捕获设备212的图像数据相对应的单独信号以生成经组合的图像信号。确定是发送经组合的图像信号还是发送单独的信号可以基于查询多个设备235-265中的每个设备以确定多个设备235-265中的每个设备的能力和可用于到多个设备235-265中的每个设备的数据传输的带宽。

图3示出了根据本发明的第二示例实现方案的用于检测沿着传送装置320移动的物体375a-375c的装置305。装置305类似于图2所示并且如上所述的装置205。因此，相似的参考标号用于说明相似的结构和部件。

装置305包括沿着Z轴与传送装置320间隔开的两个图像数据捕获设备310/312。然而，与图2不同，图像捕获设备310/312被示出为相对于彼此成角度，同时也与物体375a-375c位于传送装置320的同一侧。再次，示例实现方案不限于此配置，并且可以以对于本领域普通技术人员而言可能清楚的其他配置来布置。在下面讨论的图4中示出了其他示例性配置。

在一些示例实现方案中，图像数据捕获设备310/312中的一个或两个可以是二维成像设备或相机，诸如彩色静态相机(例如，RGB相机)、彩色摄像机、单色或灰度静态相机、单色或灰度摄像机、或对于本领域普通技术人员而言可能清楚的任何其他二维成像设备。另外，在一些示例实现方案中，每个图像数据捕获设备310/312可以是不同类型的二维成像设备(例如，一个图像捕获设备可以是RGB相机并且另一个图像捕获设备可以是单色相机，或对于本领域普通技术人员而言可能清楚的二维成像设备的任何其他组合)。

此外，在一些示例实现方案中，图像数据捕获设备310/312中的一个或两个可以是能够捕获3D点云的三维图像设备，诸如立体视觉相机、飞行时间(TOF)相机、或能够捕获3D点云的任何其他设备。另外，在一些示例实现方案中，每个图像数据捕获设备310/312可以是不同类型的三维成像设备(例如，一个图像捕获设备可以是立体视觉相机并且另一个图像捕获设备可以是飞行时间相机，或对于本领域普通技术人员而言可能清楚的三维成像设备的任何其他组合)。

更进一步，在一些示例实现方案中，图像捕获设备之一(例如，设备310)可以是二维捕获设备，并且另一个图像捕获设备(例如，设备312)可以是三维捕获设备。

图像捕获设备310/312可以配置为当物体375a-375c在传送装置320上行进期间在图像捕获设备310/312下面通过时捕获物体375a-375c的图像数据。在一些示例实现方案中，物体375a-375c可以是沿着工业、制造或分类设施中的传送带或类似装置行进的盒子、包裹或托盘。

装置305还可包括耦合到图像捕获设备310/312以处理物体375a-375c的图像数据的计算设备325。在一些示例实现方案中，计算设备325可以包括系统接口380(例如，I/O接口)，该系统接口380将图像捕获设备310/312通信地耦合到计算设备325内的一个或多个处理器。例如，计算设备325的系统接口380可以接收由图像捕获设备310/312捕获或生成的图像数据，并将图像数据提供给计算设备325的一个或多个处理器。

计算设备325的一个或多个处理器可以被配置检测物体375a-375c的边缘并融合检测到的边缘以便检测物体375a-375c之间的间隙。下面将更详细地讨论检测和融合边缘的过程。在一些示例实现方案中，计算设备325可以是例如下面讨论的图9的计算环境900的计算设备905。另外，系统接口380可以是例如图9的计算设备905的I/O接口925。此外，一个或多个处理器可以是例如图9的计算设备905的(一个或多个)处理器910。

计算设备325还可以从图像数据捕获设备310/312的输出生成经组合的图像信号，以更好地检测物体375a-375c之间的边缘和间隙。在一些示例实现方案中，计算设备325还可以将经组合的图像信号发送到经由例如网络330(例如，通过有线和/或无线连接)彼此通信连接的多个设备335-365，该多个设备335-365可以使用检测到的间隙和边缘用于分类、跟踪或对于本领域普通技术人员而言可能清楚的任何其他目的。

多个设备335-365可以包括但不限于计算机335(例如，膝上型计算设备)、移动设备340(例如，智能手机或平板电脑)、可穿戴设备355(例如，智能手表)、连接到存储设备350的服务器计算机345和对于本领域普通技术人员而言可能清楚的其他计算设备360-365。设备335-365也可具有如下在图9所示的计算环境900。

尽管在一些示例实现方案中，计算设备325可以在将经组合的图像信号发送到多个设备335-365之前生成该经组合的图像信号，但是本发明的示例实现方案不限于此配置。例如，计算设备325可以使用下面讨论的过程或算法将来自图像数据捕获设备310(也可以被称为第一图像数据捕获设备310)的图像数据与来自图像数据捕获设备312(也可以被称为第二图像数据捕获设备312)的图像数据组合，以相对于物体375a-375c检测边缘和间隙，以生成经组合的图像信号。

相反，在其他示例实现方案中，计算设备325可以将来自图像数据捕获设备310的图像数据和来自图像数据捕获设备312的图像数据作为单独的信号发送到多个设备335-365中的一个或多个设备。一旦接收到单独的信号，多个设备335-365中的每个设备可以使用下面讨论的过程或算法来组合单独的信号，以生成经组合的图像信号，以相对于物体375a-375c检测边缘和间隙。

计算设备325可以在装置305的初始设置或可重新配置设置期间确定是发送经组合的图像信号还是发送与来自图像数据捕获设备310的图像数据和来自图像数据捕获设备312的图像数据相对应的单独信号以生成经组合的图像信号。确定是发送经组合的图像信号还是发送单独信号可以基于查询多个设备335-365中的每个设备以确定多个设备335-365中的每个设备的能力和可用于到多个设备335-365中的每个设备的数据传输的带宽。

图4示出了根据本发明的第三示例实现方案的用于检测沿着传送装置420移动的物体475a-475c的装置405。装置405类似于图2所示并且如上所述的装置205。因此，相似的参考标号用于说明相似的结构和部件。

装置405包括沿着Z轴与传送装置间隔开的两个图像数据捕获设备410/412。然而，与图2不同，图像捕获设备410/412被示出为在X轴、Y轴或Z轴中的一个或多个轴上对齐，同时也位于物体475a-475c的不同侧并且更具体地是传送装置的420的相对侧。再次，示例实现方案不限于此配置，并且可以以对于本领域普通技术人员而言可能清楚的其他配置来布置。

在一些示例实现方案中，图像数据捕获设备410/412中的一个或两个可以是二维成像设备或相机，诸如彩色静态相机(例如，RGB相机)、彩色摄像机、单色或灰度静态相机、单色或灰度摄像机、或对于本领域普通技术人员而言可能清楚的任何其他二维成像设备。另外，在一些示例实现方案中，每个图像数据捕获设备410/412可以是不同类型的二维成像设备(例如，一个图像捕获设备可以是RGB相机并且另一个图像捕获设备可以是单色相机，或对于本领域普通技术人员而言可能清楚的二维成像设备的任何其他组合)。

此外，在一些示例实现方案中，图像数据捕获设备410/412中的一个或两个可以是能够捕获3D点云的三维图像设备，诸如立体视觉相机，飞行时间(TOF)相机、或能够捕获3D点云的任何其他设备。另外，在一些示例实现方案中，每个图像数据捕获设备410/412可以是不同类型的三维成像设备(例如，一个图像捕获设备可以是立体视觉相机并且另一个图像捕获设备可以是飞行时间相机，或对于本领域普通技术人员而言可能清楚的三维成像设备的任何其他组合)。

更进一步，在一些示例实现方案中，图像捕获设备之一(例如，设备410)可以是二维捕获设备，并且另一个图像捕获设备(例如，设备412)可以是三维捕获设备。

图像捕获设备410/412可以被配置为当物体475a-475c在传送装置420上行进期间在图像捕获设备410/412下面通过时捕获物体475a-475c的图像数据。在一些示例实现方案中，物体475a-475c可以是沿着工业、制造或分类设施中的传送带或类似装置行进的盒子、包裹或托盘。

装置405还可包括耦合到图像捕获设备410/412以处理物体475a-475c的图像数据的计算设备425。在一些示例实现方案中，计算设备425可以包括系统接口480(例如，I/O接口)，该系统接口480将图像捕获设备410/412通信地耦合到计算设备425内的一个或多个处理器。例如，计算设备425的系统接口480可以接收由图像捕获设备410/412捕获或生成的图像数据，并将图像数据提供给计算设备425的一个或多个处理器。

计算设备425的一个或多个处理器可以被配置检测物体475a-475c的边缘并融合边缘以便检测物体475a-475c之间的间隙。下面将更详细地讨论检测和融合边缘的过程。在一些示例实现方案中，计算设备425可以是例如下面讨论的图9的计算环境900的计算设备905。另外，系统接口480可以是例如图9的计算设备905的I/O接口925。此外，一个或多个处理器可以是例如图9的计算设备905的(一个或多个)处理器910。

计算设备425还可以从图像数据捕获设备410/412的输出生成经组合的图像信号，以更好地检测物体475a-475c之间的边缘和间隙。在一些示例实现方案中，计算设备425还可以将经组合的图像信号发送到经由例如网络430(例如，通过有线和/或无线连接)彼此通信连接的多个设备435-465，该多个设备435-465可以使用检测到的间隙和边缘用于分类、跟踪或对于本领域普通技术人员而言可能清楚的任何其他目的。

多个设备435-465以包括但不限于计算机435(例如，膝上型计算设备)、移动设备440(例如，智能手机或平板电脑)、可穿戴设备455(例如，智能手表)、连接到存储设备450的服务器计算机445和对于本领域普通技术人员而言可能清楚的其他计算设备460-465。设备435-465也可具有如下在图9所示的计算环境900。

尽管在一些示例实现方案中，计算设备425可以在将经组合的图像信号发送到多个设备435-465之前生成该经组合的图像信号，但是本发明的示例实现方案不限于此配置。例如，计算设备425可以使用下面讨论的过程或算法将来自图像数据捕获设备410(也可以被称为第一图像数据捕获设备410)的图像数据与来自图像数据捕获设备412(也可以被称为第二图像数据捕获设备412)的图像数据组合，以相对于物体475a-475c检测边缘和间隙，以生成经组合的图像信号。

相反，在其他示例实现方案中，计算设备425可以将来自图像数据捕获设备410的图像数据和来自图像数据捕获设备412的图像数据作为单独的信号发送到多个设备435-465中的一个或多个设备。一旦接收到单独的信号，多个设备435-465中的每个设备可以使用下面讨论的过程或算法来组合单独的信号，以生成经组合的图像信号，以相对于物体475a-475c检测边缘和间隙。

计算设备425可以在装置405的初始设置或可重新配置设置期间确定是发送经组合的图像信号还是发送与来自图像数据捕获设备410的图像数据和来自图像数据捕获设备412的图像数据相对应的单独信号以生成经组合的图像信号。确定是发送经组合的图像信号还是发送单独的信号可以基于查询多个设备435-465中的每个设备以确定多个设备435-465中的每个设备的能力和可用于到多个设备435-465中的每个设备的数据传输的带宽。

图5示出了根据比较示例的可以表示单个图像捕获设备或相机的边缘检测结果的图像数据的示意图500。如所示的，图像数据的边缘检测结果可以包括不同大小的多个矩形502、510和530，这些矩形以图形方式表示托盘501上大致相同大小的盒子或物体。换句话说，图5的图像数据示出了矩形502、510和530具有不同的大小，从而指示系统正在检测由彼此具有不同大小的每个矩形表示的物体或盒子。然而，实际上，在此示例中，系统试图由矩形502、510、530表示的由图像捕获设备成像的实际盒子或物体具有大致相似的大小和形状。换句话说，当盒子实际上具有大致相似的大小和形状时，系统错误地将这些盒子检测为具有不同的形状和大小

每个盒子或物体具有由图像数据中检测到的边缘(例如，表示限定物体的形状的边缘的线和曲线)限定的检测到的形状。在图5中，由单个图像捕获设备检测到的盒子或物体的边缘被示为由参考标号505、512、515和535表示的形成矩形502、510和530的边的直线。然而，检测到的边缘可能不是直线，并且可能是曲线或不规则形状。

如所示的，线505(表示检测到的边缘)已被检测为具有第一长度，并且线512(表示另一检测到的边缘)已被检测为具有比线505的长度更长的第二长度。此外，线515和535(每个代表检测到的边缘)已被检测为相对于由线505和512表示的检测到的边缘具有较短的长度。在此示例中，尽管对于实际盒子或物体可能存在存在于区域520和525中的内部边缘，但是在区域520和525中没有检测到附加的内部边缘(例如，图像数据中表示的物体或盒子之间的边缘)。示例实现方案可以使用下面相对于图8描述的过程800来融合从不同模式的图像数据中检测到的边缘或轮廓，以解决轮廓检测中的错误(例如，未检测到的内部边缘、检测到的边缘具有比物体的实际边缘更长或更短的边缘，或对于本领域普通技术人员而言可能清楚的任何其他检测错误)。

图6示出了融合后的图像数据表示的示意图600，该融合后的图像数据表示可以表示作为本发明的示例实现方案的融合后的边缘检测结果。如所示的，两个不同的图像数据表示(例如，第一图像数据表示610和第二图像数据表示615)可以被合并成融合后的图像数据表示605，该融合后的图像数据表示605表示与所检测到的物体的融合后的边缘或轮廓相对应的融合后的图像数据。

例如，第一图像数据表示610可以是使用2D图像数据(诸如单色相机图像数据)捕获的图像数据的视觉表示。在一些情况下，2D图像捕获设备(例如2D图像相机)可能没有足够的分辨率来确定不同物体(诸如盒子)之间的对比度。如果2D图像捕获设备的分辨率没有足够的分辨率来确定不同盒子之间的对比度，则边缘的一些部分(例如，相邻盒子之间的内部边缘)则可能不被检测，从而导致不准确的检测到的边缘(诸如线655)，而其他边缘可以被准确地检测，如线660所示。在图6中，已经通过区域620中的阴影线示出了表示基于不准确的检测到的边缘表示而检测到的物体的区域。第一图像数据表示610本身可以被视为检测失败，因为在不准确的检测到的边缘的区域(例如，区域620中的阴影线)中的盒子之间的内部边缘可能没有被准确检测到。然而，如下所述，当第一图像数据表示610与第二图像数据表示615结合时，可以生成融合后的图像数据表示605。

作为示例，第二图像数据表示615可以是由3D相机(例如，深度感知相机)生成的3D点云数据(也被称为3D图像数据)的视觉表示。区域625中的阴影区域可以表示3D点云数据。尽管3D点云的部分可以表示区域625中的盒子或物体的高度，但是物体外围的边缘可能失真或未被完全表示(这可能是由于噪声或环境因素引起的)，如由所确定的轮廓线640跟虚线630所示出的实际边缘相比所指示的那样。在一些情况下，基于对3D图像数据的处理和/或分析的边缘检测可以准确地检测线条665所示的边缘，而在其他情况下，基于对3D图像数据的处理和/或分析的边缘检测可能生成不完整或不准确的边缘检测，如线670所示。再次，基于第二图像数据表示615的检测到的边缘中的一些本身也可以被视为检测失败，因为内部边缘中的一些(即线670)和物体外围的边缘可能失真、不完整和/或不准确(如所确定的轮廓线640和虚线630所示的实际边缘之间的差异所示)。

通过将如第一图像数据表示610所示的图像数据(表示2D图像数据)与如第一图像数据表示610所示的第二图像数据表示615(表示3D深度相机数据)进行融合，可以生成如图像数据表示605所示的融合后的图像数据。如所示的，融合后的图像数据表示605可以允许基于内部轮廓或边缘645和外围轮廓或边缘650的增加的检测准确度而检测到九个不同的物体635，这可以通过将部分检测到的、不准确的或不完整的检测到的边缘(诸如由线670和655表示的检测到的边缘)彼此融合来确定，和/或通过将准确检测到的边缘(即具有高度的检测置信度的边缘，诸如外部边缘(诸如由线66-和665表示的检测到的边缘))与部分检测到的、不准确或不完整的检测到的边缘中的一个或多个边缘组合来确定。

因此，使用根据本发明的示例实现方案的过程的边缘融合可以允许从一对第一图像数据表示610和第二图像数据表示615中生成融合后的图像数据表示605，否则第一图像数据表示610和第二图像数据表示615各自将导致可能被认为是不准确或低置信度的目标检测假设。

图7A和7B示出了根据本发明的示例实现方案的物体检测的示意表示。如下文关于图8的过程800中的步骤820所描述的，图1的机器人系统100可以生成物体检测假设。一旦如关于步骤820所述的那样已经确定了物体检测假设，就可以如下文关于图8中的过程800的步骤825所述的那样验证该物体检测假设。通过使用融合后的图像数据，可以实现改进的物体检测假设的生成及其验证。

图7A示出了根据本发明的示例性实现方案的可以通过利用融合后的边缘数据表示来避免的不准确的检测假设的第一示例。如图7A所示，在一些情况下，基于对来自单个图像捕获模式的矩形710所表示的边缘检测数据的分析，由虚线715表示的内部轮廓或边缘(例如，两个盒子之间的轮廓或边缘)可能不被检测，并且机器人系统100可能无法准确生成用于由正方形705表示的实际物体的检测假设。作为结果，机器人系统100可能会错误地将检测假设生成为矩形710。由于与不同模式的图像数据相关联的边缘检测数据的融合可以提高边缘信息的确定性和/或标识否则将不被视为物体轮廓的有效边缘检测结果的边缘，因此机器人系统100可以改进检测假设的生成和/或验证。

图7B示出了根据本发明的示例性实现方案的可以通过利用融合后的检测到的边缘数据来避免的不准确的检测假设的第二示例。如所示的，可以检测托盘720上的一系列盒子725。另外，可以基于表示输入图像740的图像信息来生成检测假设(由正方形745表示)。然而，在一些情况下，机器人系统100通过基于单个图像捕获模式的边缘可能不能检测到虚线735表示的分割轮廓(例如，两个盒子之间的内部轮廓或边缘)，而是可能错误地生成由矩形745表示的检测假设。换句话说，无法识别由虚线735表示的边缘或轮廓(例如，两个盒子之间的内部边缘)可能导致错误或不准确的物体检测假设。由于与不同模式的图像数据相关联的边缘检测数据的融合可以更好地允许检测物体的轮廓，因此可以实现改进的物体检测假设的生成和/或验证。

图8示出了根据本发明示例实现方案的用于物体检测和验证的过程800的流程图。过程800可以由机器人系统100的计算设备(诸如图9中示出并且在下面讨论的计算环境900的计算设备905)执行。

如图8所示，过程800开始于在步骤805处检测与由第一成像模式捕获的图像数据相关联的边缘信息。边缘信息是限定和/或描述在图像数据中捕获的一个或多个物体的轮廓的信息。如上所述，物体的边缘可以是表示限定物体形状的边缘的线和/或曲线。边缘信息可以包括边缘尺寸(例如，边缘长度)、边缘形状(例如，直线、弯曲等)、边缘位置和角位置(例如，两个或更多个边缘相遇的位置)。例如，边缘信息可以是与形成图像数据中的检测到的边缘的一个或多个像素的位置相对应的坐标信息(即(x，y)坐标)。边缘信息还可以包括高度或深度信息(例如，表示图像捕获设备和表面上的点之间的距离的信息)以及具有相似高度的区域的位置。作为示例，深度信息可以包括表示距图像捕获设备(即3D相机)的距离的值。在一些实施例中，深度信息可以是分配给图像数据中的像素的深度值。

如果在图像数据中捕获了多个物体，则图像数据可以包括位于图像数据中捕获的多个物体的集合的外围上的外部或外围轮廓或边缘。例如，外围边缘或轮廓可以由图6的融合后的图像数据表示605中的参考标号650表示。此外，图像数据可以包括位于相邻物体之间的内部轮廓或边缘。例如，盒子的内部轮廓或边缘可以垂直于外围边缘或轮廓。此外，例如，内部轮廓或边缘可以由图6的融合后的图像数据表示605中的参考标号645表示。

第一成像模式(例如，第一图像捕获模式)可以是用于捕获或生成图像数据的过程。在一些示例实现方案中，第一成像模式可以是捕获2D图像数据以便产生如上面关于图6所讨论的第一图像数据表示610所例示的图像数据表示的过程。换句话说，在一些示例实现方案中，第一成像模式的边缘信息检测可以基于二维图像数据(诸如来自单色相机(例如，灰度相机)、彩色相机(例如，红绿蓝(RGB)相机)，或对于本领域普通技术人员而言可能清楚的任何其他二维相机的数据)来进行。

关于二维图像数据，可以使用对于本领域普通技术人员可能清楚的任何类型的2D边缘检测算法来执行边缘检测。例如，2D边缘检测的方法可以是CANNY边缘检测、区域相似性边缘检测(RSD)、线段检测(LSS)，或可以用于检测物体轮廓以提取边缘信息的任何其他2D边缘检测方法。

在其他示例实现方案中，第一成像模式可以是捕获3D点云数据以产生如上面关于图6所讨论的第二图像数据表示615所例示的图像数据表示的过程。换句话说，在一些示例实现方案中，第一成像模式的边缘信息检测可以基于三维数据(诸如来自立体视觉相机，距离成像相机(例如，飞行时间(TOF)相机)或对于本领域普通技术人员而言可能清楚的任何其他三维相机的数据)进行。

关于三维图像数据(例如，3D点云数据)，3D点云可以是表示物体的图像空间中的点的投影。然后物体轮廓或边缘可以从3D点云中被标识。例如，机器人系统200可以基于3D点云中的一个位置与3D点云中的相邻位置之间的深度信息的变化或差异而从投影后的3D点云中标识出物体轮廓或边缘。

在步骤810处，检测与以第二成像模式收集的图像数据相关联的边缘信息。如下面更详细讨论的，第二成像模式不同于与步骤805的边缘信息检测相关联的第一成像模式。

如上所述，边缘信息是限定在图像数据中捕获的一个或多个物体的轮廓的信息。如上所述，物体的轮廓可以是表示限定物体形状的边缘的线和/或曲线。再次，边缘信息可以包括边缘尺寸(例如，边缘长度)、边缘形状(例如，直线、弯曲等)、边缘位置和角位置(例如，两个或更多个边缘相遇的位置)。边缘信息还可以包括高度或深度信息(例如，表示图像捕获设备和表面上的点之间的距离的信息)以及具有相似高度的区域的位置。轮廓可以包括位于图像数据中捕获的多个物体的集合的外围上的外部或外围轮廓或边缘。例如，外围边缘或轮廓可以由图6的融合后的图像数据表示605中的参考标号650表示。此外，图像数据可以包括位于相邻物体之间的内部轮廓或边缘。例如，盒子的内部轮廓或边缘可以垂直于外围边缘或轮廓。此外，例如，内部轮廓或边缘可以由图6的融合后的图像数据表示605中的参考标号645表示。

第二成像模式(例如，第二图像捕获模式)也可以是用于捕获或生成图像数据的过程。在一些示例实现方案中，第二成像模式可以是捕获2D图像数据以便产生如上面关于图6所讨论的第一图像数据表示610所例示的图像数据表示的过程。换句话说，在一些示例实现方案中，第二成像模式的边缘信息检测可以基于二维图像数据(诸如来自单色相机(例如，灰度相机)、彩色相机(例如，RGB相机)，或对于本领域普通技术人员而言可能清楚的任何其他二维相机的数据)来进行。

在其他示例实现方案中，第二成像模式可以是捕获3D点云数据以产生如上面关于图6所讨论的第二图像数据表示615所例示的图像数据表示的过程。换句话说，在一些示例实现方案中，第二成像模式的边缘信息检测可以基于三维数据(诸如来自立体视觉相机，距离成像相机(例如，TOF相机)、或对于本领域普通技术人员而言可能清楚的任何其他三维相机的数据)进行。

关于三维图像数据(例如，3D点云数据)，3D点云可以是表示物体的图像空间中的点的投影。然后物体轮廓或边缘可以从3D点云中被标识出。例如，机器人系统200可以基于3D点云中的一个位置与3D点云中的相邻位置之间的深度信息的变化或差异，从投影后的3D点云中标识出物体轮廓或边缘。

与第一成像模式相比，第二成像模式(例如，第二图像捕获模式)是不同类型的图像捕获模式。例如，如果与第一成像模式相关联的边缘检测是基于二维数据进行的，则在步骤810处可以基于三维数据或不同类型的二维数据(例如，如果在步骤805处使用了彩色相机，则步骤810处为单色相机，或者，如果在步骤805使用了单色相机数据，则步骤810处为彩色相机)来检测边缘信息。

相反，如果与第一成像模式相关联的边缘检测是基于三维数据进行的，则在步骤810处可以基于二维数据或不同类型的三维数据(例如，如果在步骤805处使用了TOF相机，则步骤810处为立体视觉相机，或者如果在步骤805处使用了立体视觉相机，则步骤810处为TOF相机)来检测边缘信息。

在步骤815处，使用融合过程将从与第一成像模式和第二成像模式相关联的数据中检测到的边缘信息进行组合以生成融合后的边缘信息。具体地，基于第一成像模式和第二成像模式检测到的边缘被组合到“标准”相机空间中。换句话说，基于第一成像模式和第二成像模式中的每个模式而检测到的边缘从与每个成像模式相关联的原生(native)相机空间(例如，坐标系)变换到公共或共享相机空间(例如，标准相机空间)中，如下更详细描述的那样。标准相机空间的示例实现方案可以包括3D相机空间，诸如用于立体视觉相机或ToF相机的相机空间。

在一些示例实现方案中，可以使用在2D图像的检测到的边缘附近捕获的二维平面或表面的深度信息将来自二维图像数据(例如，来自2D成像模式)的检测到的边缘投影到三维相机空间中，该深度信息可以限定边缘高度。此外，在一些示例实现方案中，三维空间数据可以被变换为不同模式的三维空间数据(例如，来自ToF相机的图像数据可以被变换为来自立体视觉相机的图像数据)。

换句话说，融合过程可以通过将与图像数据的模式之一相关联的投影后的边缘点(例如，沿着检测到的边缘的点的坐标或位置)生成到公共图像空间(例如，“标准”相机空间)中来执行。更具体地，可以将来自图像数据的模式之一的检测到的边缘投影(或映射)到选定的相机或成像设备的公共图像空间(也被称为选定的标准相机空间，其可以是例如立体视觉相机空间)中。在融合过程期间，机器人系统100可以考虑并校正由于诸如点云噪声或校准之类的因素(例如，相机之间的物理偏移/角度/距离)而导致的在变换和投影之后边缘点的坐标的可能的不准确性。

对于选定的标准相机(例如，立体视觉相机)的图像空间中的检测到的边缘，可以通过使用标准相机的检测到的边缘的原始位置信息(即，坐标)来执行投影。换句话说，机器人系统100确实需要执行将检测到的边缘从选定的标准相机到公共图像空间的投影。在一些示例实现方案中，选定的标准相机可以与第一成像模式相关联。在其他示例实现方案中，选定的相机可以与第二成像模式相关联。

对于其他相机(例如，具有与选定的“标准”相机空间不同的原生图像空间的相机)的图像空间中检测到的边缘，可以取决于相机的类型而执行几个不同的步骤。

在其他成像模式是2D相机的情况下，边缘点是从2D相机的2D图像数据检测到的、形成检测到的边缘的点(也被称为2D边缘点)，可以通过使用来自选定的标准相机的与被投影的2D点相对应的深度信息将2D边缘点投影到的选定的标准相机的选定的相机图像空间(在本例中是3D图像空间)来给边缘点分配深度值。换句话说，来自选定的标准相机图像空间(例如，立体视觉相机)的、对应于2D位置(例如，检测到的边缘的边缘点位于2D相机的2D图像空间中的(x，y)像素坐标)的点(即像素)的深度值被用于将2D边缘点投影到选定的标准相机的3D图像空间中。这可以从2D边缘点生成投影的3D边缘点。

此外，可以将由另一相机(例如，具有与选定的标准图像空间不同的原生图像空间的相机)捕获的边缘点变换到选定的标准图像空间(也被称为“变换后的边缘点”)。变换后的边缘点可以从上一段中描述的被投影的2D边缘点生成，也可以来自与选定的标准相机或成像设备不同的另一个3D相机。例如，可以将从被投影的2D边缘点生成的变换后的边缘点变换到选定的标准相机的3D空间，使得变换后的边缘点可以被视为它们也是选定的标准相机的原始图像数据的一部分。一个相机的边缘点到选定的标准相机的变换可以包括平移或偏移投影后的3D边缘点的位置，和/或缩放投影后的3D边缘点以使投影后的3D边缘点与选定的相机的标准相机图像空间相符。

一旦投影后的3D边缘点已经被变换到选定的标准相机图像空间中，则计算系统100可以生成包括投影后的3D边缘点的3D点云(也被称为融合后的3D点云)的2D表示(也被称为2D位图)。例如，2D位图可以与融合后的3D点云的自顶向下表示相对应，其可以包括盒子和托盘的堆叠的顶表面，如图6所示。在此上下文中，与选定的标准相机相关联的2D位图与3D图像空间的深度值无关，但与图像本身的2D坐标(例如，图像像素的x-y坐标或沿上述图2-图4中所示的x轴和y轴的坐标)相对应。在一些实施例中，2D位图中的像素可以对应于真实世界的尺寸(即，像素的长度可以对应于真实世界中的单位长度或距离)。在这样的实施例中，机器人系统100可以将融合后的3D点云的2D位图用于下游过程，例如用于运动计划、夹持定位以及涉及物体的其他操作。

一旦生成融合后的边缘信息，机器人系统100就可以在步骤820处基于融合后的边缘信息来生成物体检测假设。在一些示例实现方案中，机器人系统100可以基于融合后的边缘信息的融合后的边缘对3D点云信息进行分段(segmenting)，并基于此分段生成基于物体检测假设。例如，机器人系统100可以沿着融合后的边缘对3D点云信息进行分段，直到到达边缘交叉点。边缘交叉点例如可以是两个或多个融合后的边缘相交的位置，或者在一些情况下可以是检测到的边缘的外推之间的交点将位于的位置。在盒状物体的示例中，机器人系统100可以物体检测假设生成为3D点云信息的一部分，该一部分由两对平行的融合后的边缘连同与该两对平行的融合后的边缘之间的交点相对应的边缘交叉点来限定，其中一对平行的融合后的边缘对垂直于另一对平行的融合后的边缘。在一些实施例中，机器人系统100可以基于融合后的边缘的不同组合来生成多个物体检测假设。

通过使用融合后的边缘信息来生成物体检测假设，可以实现几个重要的益处，如上面关于图7A和7B所讨论的。可以实现的一个重要益处是，与从单个图像捕获模式生成的边缘信息相比，融合后的边缘信息可用于更准确和精确地对点云数据进行分段。例如，在用于检测高度基本相似的物体或盒子的应用中，诸如当每个盒子的顶表面具有相同或相似的高度以至于这些顶表面形成基本水平的平面或表面时，可能会捕获到点云的对应于盒子的这些顶表面的一部分(也称为“点云层”)，其涵盖多个物体或盒子。为了继续该示例，在点云层内，盒子或物体可以具有相同或相似的高度/深度值，从而使得难以检测各个盒子或物体(即，与盒子之间的间隔相对应的内部轮廓645)。更具体地，使用基于2D图像数据的检测到的边缘对3D点云数据进行分段可能产生不完整的边缘(即，与盒子的实际顶表面的整个边缘的一部分对应的检测到的边缘)或错误的边缘(即，实际上不与盒子顶表面的实际边缘对应的检测到的边缘，诸如盒子盖的边缘、折痕/褶皱、或盒子的顶表面上的设计/图形/图像的一部分)。此外，由于盒子可能被紧密地打包，因此可以与盒子之间的间隔相对应的深度差可能在3D图像数据中没有被捕获。因此，组合了来自多个成像模式的边缘信息的融合后的边缘信息可以通过减少错误边缘检测和/或标识否则不会被检测的边缘来改进对实际物体边缘的标识，并增加边缘信息与实际物体边缘之间相关性的确定性。这可以允许更好地对点云层进行分段，并改进对各个物体或盒子的检测。

可以实现的另一个重要益处是融合后的边缘信息可以用作检测假设生成的特征。例如，如上所述，融合后的边缘信息可以用于检测或生成可能对应于物体轮廓的角位置的边缘交叉点(例如，两个或更多个检测到的边缘相交的位置或检测到的边缘的外推之间的交点将位于的位置)。更具体地，对仅来自单个成像模式的图像数据的分析(即，基于二维图像数据或三维图像数据的边缘检测)可能具有较高的错误概率或无法标识边缘，使用融合后的边缘信息生成检测假设增加了物体检测假设正确的概率。

在生成物体检测假设之后，机器人系统100可以在步骤825处执行对物体检测假设的验证。在一些实施例中，机器人系统100可以基于物体检测假设与对图2的主数据中的已注册物体的物体描述的比较来验证物体检测假设。例如，机器人系统100可以通过将物体检测假设的轮廓属性(即，融合后的边缘的长度、边缘交叉点的方位/位置)与对应于主数据中的已注册物体的轮廓属性进行匹配来验证物体检测假设。在一些实施例中，当在物体检测假设的验证期间与已注册物体进行比较时，机器人系统100可以考虑多个因素，诸如融合后的边缘信息的完整性(即，是融合后的边缘包括不连续性，还是融合后的边缘的长度跨越两个交叉点之间的整个距离)，这可能会影响检测到的轮廓的准确性。例如，机器人系统100可以提供物体检测假设的确定性评级或与已注册物体的匹配程度。作为具体示例，如上所述，机器人系统100可以为包括融合后的边缘信息的更高程度的完整性的检测假设提供更高的确定性评级。由于融合后的边缘信息可以提供来自可用的成像设备的组合的最大可能的信息，因此融合后的边缘信息可以帮助提高与基于检测假设确定物体的边缘或轮廓的确切位置相关联的准确性和可靠性。此外，在确定确定性评级或匹配程度时，可以考虑由于诸如点云噪声或校准之类的因素(例如，相机之间的物理偏移/角度/距离)而导致的在变换和投影之后的边缘点的坐标的可能的不准确性。

在物体检测假设的验证之后，在步骤830处，机器人系统100可以将与物体检测假设相对应的目标物体(诸如，图1的目标物体112)的物体轮廓、姿势/朝向信息和/或位置信息用于对目标物体的进一步处理。例如，机器人系统可以将物体轮廓、姿势/朝向信息和/或位置信息用于涉及操纵目标物体的操作，诸如用于机器人的末端执行器的夹持放置和/或用于移动目标物体的运动计划计算。由于轮廓和位置检测的准确度提高，运送或制造过程可以被改进。在物体轮廓和位置已经被中继之后，过程800可以根据需要进行重复以生成进一步的物体检测假(这可以包括根据以上步骤的附加边缘融合操作)，或者该过程可以结束。

示例计算环境

图9示出了具有适合于在一些示例实现方案中使用的示例计算机设备905的示例计算环境900。计算环境900中的计算设备905可包括一个或多个处理单元、核或处理器910、存储器915(例如，RAM、ROM等)、内部存储920(例如，磁性、光学、固态存储和/或有机的)和/或I/O接口925，它们中的任何一个都可以耦合在通信机件或总线930上以用于传达信息或嵌入在计算设备905中。

计算设备905可以通信地耦合到输入/接口935和输出设备/接口940。输入/接口935和输出设备/接口940中的一个或两个可以是有线或无线接口并且可以是可拆卸的。输入/接口935可以包括可用于提供输入的物理或虚拟的任何设备、部件、传感器或接口(例如，按钮、触摸屏界面、键盘，指向/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器等)。

输出设备/接口940可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方案中，输入/接口935(例如，用户界面)和输出设备/接口940可以被嵌入或物理耦合到计算设备905。在其他示例实现方案中，其他计算设备可以用作或提供计算设备905的输入/接口935和输出设备/接口940的功能。这些元件可以包括但不限于众所周知的AR硬件输入，以允许用户与AR环境交互。

计算设备905的示例可以包括但不限于高度移动的设备(例如，智能电话、车辆和其他机器中的设备、人类和动物携带的设备等)、移动设备(例如，平板电脑、笔记本电脑、膝上型计算机、个人计算机、便携式电视、收音机等)，以及并非为移动性而设计的设备(例如台式计算机、服务器设备、其他计算机、信息亭、具有嵌入到其中和/或耦合到其的一个或多个处理器的电视、收音机等)。

计算设备905可以通信地耦合(例如，经由I/O接口925)到外部存储945和网络950，以用于与任何数量的联网部件、设备和系统进行通信，包括具有相同或不同配置的一个或多个计算设备。计算设备905或任何连接的计算设备可以作为服务器，客户端、瘦服务器、通用机器、专用机器或另一标签，提供服务器，客户端、瘦服务器、通用机器、专用机器或另一标签的服务，或被称为服务器，客户端、瘦服务器、通用机器、专用机器或另一标签。

I/O接口925可以包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11xs、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)的有线和/或无线接口，以用于向和/或从计算环境900中的至少所有连接的部件、设备和网络传达信息。网络950可以是任何网络或网络组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算设备905可以使用计算机可用或计算机可读介质和/或使用这些介质来通信，包括暂时性介质和非暂时性介质。暂时性介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂时性介质包括磁性介质(例如，盘和磁带)、光学介质(例如CD ROM、数字视频磁盘、蓝光盘)、固态介质(例如，RAM、ROM、闪存、固态存储)以及其他非易失性存储或存储器。

计算设备905可以用于在一些示例计算环境中实现技术、方法、应用、过程或计算机可执行指令。计算机可执行指令可以从暂时性介质中检索，也可以存储在非暂时性介质中并从中检索。可执行指令可以源自任何编程、脚本和机器语言中的一种或多种(例如C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)。

(一个或多个)处理器910可以在本机或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或多个应用，包括逻辑单元955、应用程序编程接口(API)单元960、输入单元965、输出单元970、边缘检测单元975、边缘融合单元980、假设生成单元985、假设验证单元990和用于不同单元彼此通信、与OS通信以及与其他应用通信(未示出的)单元间通信机件995。

例如，边缘检测单元975、边缘融合单元980、假设生成单元985和假设验证单元990可以实现图8中所示的一个或多个过程。所描述的单元和元素可以在设计、功能、配置或实现方案上变化并且不限于所提供的描述。

在一些示例实现方案中，当信息或执行指令被API单元960接收到时，它可以被传达给一个或多个其他单元(例如，边缘检测单元975、边缘融合单元980、假设生成单元985和假设验证单元990)。例如，边缘检测单元975可以从从至少两种不同的图像捕获模式捕获的图像数据中自动检测物体边缘，并将检测到的边缘提供给边缘融合单元980。边缘融合单元980可以将检测到的边缘融合到生成的边缘融合数据中，边缘融合数据被提供给假设生成单元985。假设生成单元985可以基于边缘融合数据生成物体检测假设，并提供给假设验证单元990。假设验证单元990可以基于收集的图像数据以及边缘融合数据来验证生成的假设。

在一些情况下，在上述一些示例实现方案中，逻辑单元955可以被配置为控制单元之间的信息流，并指导由API单元960、输入单元965、边缘检测单元975、边缘融合单元980、假设生成单元985和假设验证单元990提供的服务。例如，一个或多个过程或实现方案的流程可以由逻辑单元955单独地或结合API单元960来控制。

尽管已经示出和描述了一些示例实现方案，但是提供这些示例实现方案是为了将本文所述的主题传达给熟悉该领域的人。应该理解的是，本文描述的主题可以以各种形式实现而不限于所描述的示例实现方案。本文描述的主题可以在没有这些具体限定或描述的内容的情况下，或者在具有未描述的其他或不同的元素或内容的情况下实践。熟悉本领域的人员将理解，可以在不脱离如所附权利要求及其等同物所限定的本文所述主题的情况下，对这些示例实现方案进行改变。

Claims

1.一种检测物体的方法，所述方法包括：

从基于第一图像捕获模式来表示物体的第一图像数据中生成第一边缘信息；

从基于第二图像捕获模式来表示所述物体的第二图像数据中生成第二边缘信息，所述第二模式不同于所述第一模式；

将所述第一边缘信息与所述第二边缘信息融合以生成融合后的边缘信息；

基于所述融合后的边缘信息生成物体检测假设；以及

基于所述融合后的边缘信息、所述第一边缘信息和/或所述第二边缘信息来验证所述物体检测假设。

2.如权利要求1所述的方法，其中，将所述第一边缘信息与所述第二边缘信息融合包括将所述第一边缘信息与所述第二边缘信息组合到公共图像空间中。

3.如权利要求2所述的方法，其中，将所述第一边缘信息与所述第二边缘信息组合到所述公共图像空间中包括：

基于与所述第一图像捕获模式相关联的检测到的边缘的坐标来映射所述第一边缘信息；以及

变换所述第二边缘信息以对应于与所述第一图像捕获模式相关联的图像空间。

4.如权利要求3所述的方法，其中，与所述第一图像捕获模式相关联的所述图像空间是三维图像空间；并且

其中，变换所述第二边缘信息以对应于与所述第一图像捕获模式相关联的所述图像空间包括：

基于与所述第二边缘信息的二维边缘点的二维位置相对应的、与所述第一边缘信息相关联的深度信息，将来自所述第二边缘信息的所述二维边缘点投影到所述三维图像空间，以生成与所述第二边缘信息相关联的投影后的三维点；以及

变换所述投影后的三维点以对应于所述三维图像空间。

5.如权利要求4所述的方法，其中，变换所述第二边缘信息以对应于与所述第一图像捕获模式相关联的所述图像空间还包括：

将与所述三维图像空间相对应的变换后的三维点投影到与所述第一边缘信息相关联的图像的二维坐标。

6.如权利要求1所述的方法，其中，基于所述第一图像捕获模式来表示所述物体的所述图像数据是通过二维图像捕获模式捕获的图像数据，并且

其中，检测所述第一边缘信息包括以下各项中的一项或多项：

CANNY边缘检测；

区域相似度边缘检测；以及

线段检测。

7.如权利要求1所述的方法，其中，基于所述第一图像捕获模式来表示所述物体的所述图像数据是通过三维图像捕获模式捕获的图像数据，并且

其中，检测所述第一边缘信息包括：

将使用所述第一模式捕获的所述图像数据投影到与要检测的一个或多个物体相关联的图像空间中；以及

从投影后的3D点云中提取物体边缘。

8.一种非暂时性计算机可读介质，编码有用于使计算设备执行检测物体的方法的指令，该方法包括：

基于所述融合后的边缘信息生成物体检测假设；以及

9.如权利要求8所述的非暂时性计算机可读介质，其中，将所述第一边缘信息与所述第二边缘信息融合包括将所述第一边缘信息与所述第二边缘信息组合到公共图像空间中。

10.如权利要求9所述的非暂时性计算机可读介质，其中，将所述第一边缘信息与所述第二边缘信息组合到所述公共图像空间中包括：

11.如权利要求10所述的非暂时性计算机可读介质，其中，与所述第一图像捕获模式相关联的所述图像空间是三维图像空间；并且

变换所述投影后的三维点以对应于所述三维图像空间。

12.如权利要求11所述的非暂时性计算机可读介质，其中，变换所述第二边缘信息以对应于与所述第一图像捕获模式相关联的所述图像空间还包括：

13.如权利要求8所述的非暂时性计算机可读介质，其中，基于所述第一图像捕获模式来表示所述物体的所述图像数据是通过二维图像捕获模式捕获的图像数据，并且

CANNY边缘检测；

区域相似度边缘检测；以及

线段检测。

14.如权利要求8所述的非暂时性计算机可读介质，基于所述第一图像捕获模式来表示所述物体的所述第一图像数据是通过三维图像捕获模式捕获的图像数据，并且

其中，检测所述第一边缘信息包括：

从投影后的3D点云中提取物体边缘。

15.一种用于检测物体的物体检测系统，所述系统包括：

系统接口，被配置为用于接收基于第一图像捕获模式来表示物体的第一图像数据，并接收基于第二图像捕获模式来表示所述物体的第二图像数据，所述第二模式不同于所述第一模式；

处理器，被通信地耦合到所述系统接口，所述处理器被配置为执行物体检测方法，所述物体检测方法包括：

从基于第一图像捕获模式来表示物体的所述第一图像数据中生成第一边缘信息；

从基于第二图像捕获模式来表示物体的所述第二图像数据中生成第二边缘信息，所述第二模式不同于所述第一模式；

基于所述融合后的边缘信息生成物体检测假设；以及

16.如权利要求15所述的物体检测系统，其中，将所述第一边缘信息与所述第二边缘信息融合包括将所述第一边缘信息与所述第二边缘信息组合到公共图像空间中。

17.如权利要求16所述的物体检测系统，其中，将所述第一边缘信息与所述第二边缘信息组合到所述公共图像空间中包括：

18.如权利要求17所述的物体检测系统，其中，与所述第一图像捕获模式相关联的所述图像空间是三维图像空间；并且

变换所述投影后的三维点以对应于所述三维图像空间。

19.如权利要求18所述的物体检测系统，其中，变换所述第二边缘信息以对应于与所述第一图像捕获模式相关联的所述图像空间还包括：

20.如权利要求15所述的物体检测系统，其中，基于所述第一图像捕获模式来表示所述物体的所述第一图像数据是通过三维图像捕获模式捕获的图像数据，并且

其中，检测所述第一边缘信息包括：

从投影后的3D点云中提取物体边缘。