CN117545598A - 用于自主箱中抓取的高级传感器融合和多标准决策 - Google Patents

用于自主箱中抓取的高级传感器融合和多标准决策 Download PDF

Info

Publication number
CN117545598A
CN117545598A CN202180099732.9A CN202180099732A CN117545598A CN 117545598 A CN117545598 A CN 117545598A CN 202180099732 A CN202180099732 A CN 202180099732A CN 117545598 A CN117545598 A CN 117545598A
Authority
CN
China
Prior art keywords
module
capture
grip
alternatives
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180099732.9A
Other languages
English (en)
Inventor
伊内斯·乌加尔德·迪亚斯
欧根·索洛乔
胡安·L·阿帕里西奥·奥赫亚
马丁·泽尔
海科·克劳森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN117545598A publication Critical patent/CN117545598A/zh
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/37Measurements
    • G05B2219/37325Multisensor integration, fusion, redundant
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39103Multicooperating sensing modules
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39473Autonomous grasping, find, approach, grasp object, sensory motor coordination
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39527Workpiece detector, sensor mounted in, near hand, gripper
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39531Several different sensors integrated into hand
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39543Recognize object and plan hand shapes in grasping movements
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40014Gripping workpiece to place it in another place
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40532Ann for vision processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

在用于执行自主箱中抓取的方法的所描述实施方案中,由一个或多个传感器来感知包括箱体的物理环境,该箱体包含多个物体。多个人工智能(AI)模块从传感器获取信息,以计算抓取替代方案,并且在一些实施方案中,检测关注物体。在高级传感器融合(HLSF)模块中基于AI模块的输出来计算抓取替代方案及其属性。多标准决策(MCDM)模块被用于对抓取替代方案进行排序,并选择满足特定约束的同时使应用效用最大化的方案。

Description

用于自主箱中抓取的高级传感器融合和多标准决策
技术领域
本发明主要涉及用于执行自动化任务的机器人领域。具体而言,所描述的实施例涉及用于基于人工智能(AI)执行自主箱中抓取任务的技术。
背景技术
人工智能(AI)和机器人技术是工厂环境内外的自动化任务的强大组合。在机器人领域,通过AI技术,已经设想并实现了许多自动化任务。例如,存在用于视觉映射和导航、物体检测、抓取、组装等的最先进解决方案。通常采用机器学习,诸如深度神经网络或强化学习技术。
随着机器人任务复杂性日益增加,需要AI可实现的解决方案组合。一个此类示例是箱中抓取。箱中抓取由配备有传感器和摄像机的机器人组成,该机器人使用机器人末端执行器从箱体中以随机姿态抓取物体。物体可以是已知的或未知的、相同类型的或混合的。典型的箱中抓取应用由一组请求组成,这一组请求用于收集从堆中选择的物体。在每次请求,箱中抓取算法必须计算并决策机器人下一次执行哪个抓取。该算法可以组合使用各种感觉输入的抓取检测器来使用物体检测器。挑战在于组合检测器的输出或Al解决方案,以决策机器人的下一个动作,从而以最高的精度和效率实现整个箱中抓取任务。
发明内容
简而言之,本发明的各方面利用高级传感器融合和多标准决策方法来选择箱中抓取应用中的最佳替代抓取动作。
根据本发明的第一方面,提供了一种执行自主箱中抓取的方法,当箱体中的物体的语义识别为必需时,例如当箱体中存在混合物体类型的分类时,该方法可能特别适合。该方法包括捕获物理环境的一个或多个图像,该物理环境包括放置在箱体中的多个物体。基于捕获的第一图像,该方法包括由物体检测模块生成第一输出,该第一输出定位第一图像中的一个或多个关注物体。基于捕获的第二图像,该方法包括由抓取检测模块生成第二输出,该第二输出定义对应于第二图像中多个位置的多个抓取替代方案。该方法还包括由高级传感器融合模块组合至少第一输出和第二输出,以计算每个抓取替代方案的属性,该属性包括抓取替代方案与被检测物体之间的功能关系。该方法还包括由多标准决策模块基于所计算的属性对抓取替代方案进行排序,以选择抓取替代方案中的一个来执行。该方法还包括运行可控装置,以通过基于所选的抓取替代方案生成可执行指令来从箱体中选择性地抓取物体。
根据本发明的第二方面,提供了一种用于执行自主箱中抓取的方法,当箱体中的物体的语义识别为非必需时,例如,当箱体中仅存在相同类型的物体时,该方法可能特别适合。该方法包括捕获物理环境的一个或多个图像,该物理环境包括放置在箱体中的多个物体,并且将捕获的一个或多个图像作为输入发送至多个抓取检测模块。基于相应的输入图像,该方法包括每个抓取检测模块生成相应的输出,该输出定义对应于相应输入图像中多个位置的多个抓取替代方案。该方法还包括由高级传感器融合模块组合抓取检测模块的输出,以计算抓取替代方案的属性。该方法还包括由多标准决策模块基于所计算的属性对抓取替代方案进行排序,以选择抓取替代方案中的一个来执行。该方法还包括通过基于所选的抓取替代方案生成可执行指令,运行可控装置从箱体中抓取物体。
本发明的其他方面以计算机程序产品和自主系统来实现上述方法的特征。
通过本发明的技术可以实现附加的技术特征和益处。本文详细描述了本发明的实施例和各方面,并将其视为所要求保护的主题的一部分。为了更好地理解,请参考详细描述和附图。
附图说明
当结合附图阅读时,从以下详细描述中可以最佳地理解本发明的前述及其他方面。为了容易识别对任何元件或动作的讨论,参考数字中的最高有效位是指该元件或动作首次被介绍的图号。
图1示出了能够执行箱中抓取应用的示例性自主系统。
图2是示出了根据本发明的示例实施例的用于执行自主箱中抓取的功能块的框图。
图3是根据本发明的实施例的由高级传感器融合模块生成的物理环境的一致表示的一部分的示例图。
图4是根据本发明的实施例的多标准决策模块使用的矩阵的示例图。
图5示出了其中可以实现本发明的实施例的计算环境。
具体实施方式
现在将参考附图描述与系统和方法相关的各种技术,其中相同的附图标记始终表示相同的元件。下面讨论的附图以及用于描述本专利文件中的本发明的原理的各种实施例仅仅是示例性的,不应以任何方式解释为限制本发明的范围。本领域技术人员将理解,本发明的原理可以在任何适当布置的设备中实现。应当理解,被描述为由某些系统元件执行的功能可以由多个元件执行。类似地,例如,元件可以被配置为执行功能,该功能被描述为由多个元件执行。将参考示例性非限制性实施例来描述本申请的多种创新教导。
现在参考图1,示出了示例性自主系统100,其中可以实施本发明的各个方面。自主系统100可以例如在工厂环境中实现。与传统自动化相比,自主性赋予工厂车间的每个资产决策和自我控制能力,以便在出现局部问题时独立行动。自主系统100包括一个或多个可控装置,诸如机器人102。诸如机器人102的一个或多个设备可由计算系统104控制,以在物理环境106内执行一项或多项工业任务。工业任务的示例包括装配、运输等。如本文所用,物理环境可以指任何未知的或动态的工业环境。物理环境106定义了由机器人102执行任务的环境,并且可以包括例如机器人102本身、单元的设计或布局、由机器人处理的工件、工具(例如,固定装置、夹具等)等。
计算系统104可以包括工业PC或任何其他计算设备,诸如台式计算机或膝上型计算机或嵌入式系统等。计算系统104可以包括一个或多个处理器,该处理器被配置为处理信息和/或控制与机器人102相关联的各种操作。尤其是,一个或多个处理器可以被配置为执行用于操作机器人102的应用程序,诸如工程设计工具。
为了实现系统100的自主性,在一个实施例中,应用程序可以被设计成运行机器人102以在基于技能的编程环境中执行任务。与传统自动化中,工程师通常从头到尾参与对整个任务的编程,通常利用底层代码来生成单独的命令,与传统自动化相比,在如本文所描述的自主系统中,使用技能而非单独的命令在更高的抽象级别对诸如机器人102的物理设备进行编程。这些技能是针对高级抽象行为以编程物理设备如何修改物理环境为中心而得出的。技能的说明性示例包括抓取或拾起物体的技能、放置物体的技能、开门的技能、检测物体的技能等。
应用程序可以例如使用如上所描述的技能功能来生成定义高级任务的控制器代码,该代码可以被部署到机器人控制器108。根据高级控制器代码,机器人控制器108可以为一个或多个马达生成低级控制信号,用于控制机器人102的运动,诸如机器人臂的角位置、机器人基座的旋转角度等,以执行指定任务。在其他实施例中,由应用程序生成的控制器代码可以被部署到中间控制设备,诸如可编程逻辑控制器(PLC),该中间控制设备然后可以为要控制的机器人102生成低级控制命令。此外,应用程序可以被配置为直接整合来自机器人102运行的物理环境106的传感器数据。为此,计算系统104可以包括网络接口,便于在应用程序和物理环境106之间传输实时数据。下文结合图5描述了适用于本申请的计算系统的示例。
仍然参考图1,机器人102可以包括机器人臂或操纵器110以及被配置为支撑机器人操纵器110的基座112。基座112可以包括轮子114,或者可以被配置为在物理环境106内移动。机器人102还可以包括附接至机器人操纵器110的末端执行器116。末端执行器116可以包括一个或多个被配置为抓取和/或移动物体118的工具。在所示场景中,物体118被放置在接收器或“箱体”中。示例性末端执行器116包括手指状抓取器或基于真空的抓取器。机器人操纵器110可以被配置为移动以便改变末端执行器116的位置,例如,以便在物理环境106内放置或移动物体118。自主系统100还可以包括一个或多个照相机或传感器(通常是多个传感器),其中一个被描述为安装在机器人操纵器110上的传感器122。诸如传感器122的传感器被配置为捕获物理环境106的图像,以使自主系统能够感知和导航场景。
箱中抓取应用包括由机器人操纵器110使用末端执行器116从箱体120中以单个化方式抓取物体118。物体118可以在箱体120内以任意姿势排列。如图1所示,物体118可以是各种类型的,或者可以是相同类型的。包括放置在箱体120中的物体118的物理环境通过由一个或多个传感器捕获的图像被感知。传感器可以包括一个或多个单模态或多模态传感器,例如RGB传感器、深度传感器、红外照相机、点云传感器等,其可以被战略性地定位以共同获得箱体120的全景。来自传感器的输出可以被馈送至部署在计算系统104上的一个或多个抓取检测算法,以基于指定目标和施加的约束(例如,箱体的尺寸和位置)来确定要由机器人102执行的最佳抓取(由选定的抓取位置定义)。例如,当箱体120含有各种物体类型时,箱中抓取目标可能需要选择性地抓取特定类型的物体118(例如,只抓取“杯子”)。在这种情况下,除了确定最佳抓取之外,有必要执行场景中的物体118的语义识别。
对分类的或未知的物体的箱中抓取可以包括物体检测算法和抓取检测算法的组合,物体检测算法用于在分类的堆中定位关注物体,抓取检测算法用于在给定场景3D图的情况下计算抓取。物体检测算法和抓取检测算法可以包括AI解决方案,例如神经网络。现有技术缺乏一种将决策作为算法输出组合来处理的系统方法。
在当前实践中,新的机器人抓取运动通常通过散布在整个代码库中的一系列大多不相连的条件语句从所有可能的替代方案中采样。这些条件语句检查可能的工作空间违规、抓取与被检测物体的从属关系、组合的物体检测和抓取精度等。总的来说,这种方法缺乏所需的灵活性和可扩展性,例如,当添加另一个Al解决方案来解决问题,会施加更多约束或引入更多感觉输入。
另一种方法是在单个Al解决方案、例如单个神经网络中结合抓取和物体检测。虽然这种方法解决了一部分决策的不确定性(例如,抓取与被检测物体的从属关系和组合的预期精度),但是它不允许包括由环境施加的约束(例如,工作空间违规)。此外,训练此类指定的神经网络可能并非直截了当,因为可能需要大量的训练数据,但是这些数据在所需的程度上又是不可用的;这不同于经过严格审查的通用物体和抓取检测算法,其使用通过AI社区可获得的主流数据集。
本发明的实施例解决了至少一些前述技术挑战。所描述的实施例利用高级传感器融合(HLSF)和多标准决策(MCDM)方法,基于来自箱中抓取应用中的多个检测算法的输出来选择最佳替代抓取动作。
图2是示出了根据所描述的实施例的用于执行自主箱中抓取的功能块的框图。功能块可以由如图1所示的自主系统来实现。至少一些功能块被表示为模块。如本文所用,术语“模块”是指含有一个或多个例程的软件组件或计算机程序的一部分。在一些情况下,模块可以包括AI算法,诸如神经网络。组成计算机程序的模块可以是独立的和可互换的,并且每个模块被配置为执行期望功能性的一个方面。在实施例中,所描述的模块是其一部分的计算机程序包括用于由诸如机器人的可控装置自主执行技能功能(即,拾起或抓住物体)的代码。
参考图2,所描述的系统包括多个传感器,诸如第一传感器204和第二传感器206,它们被配置为捕获物理环境202的图像,该物理环境包括放置在箱体中的物体。在当前描述的实施例中,箱体中的物体是混合类型的。传感器204、206可以提供多模式感觉输入,和/或可以位于不同位置以捕获包括箱体的物理环境202的不同视图。该系统利用多个检测模块,诸如一个或多个物体检测模块208以及一个或多个抓取检测模块210,它们从不同的感觉输入中获取信息。在所示示例中,由第一传感器204捕获的第一图像被发送至物体检测模块208,由第二传感器206捕获的第二图像被发送至抓取检测模块210。基于第一图像,物体检测模块208生成第一输出,该第一输出定位第一图像中一个或多个关注物体。基于第二图像,抓取检测模块210生成第二输出,该第二输出定义对应于第二图像中多个位置的多个抓取替代方案。术语“第一图像”和“第二图像”不一定指第一图像和第二图像不同,并且实际上在一些实施例中(稍后描述)指的是由单个传感器捕获的同一图像。HLSF模块212组合来自多个检测模块的多个输出,诸如上述第一输出和第二输出,以计算每个抓取替代方案214的属性216。属性216包括抓取替代方案与所定位物体之间的功能关系。MCDM模块222基于所计算的属性216对抓取替代方案214进行排序,以选择抓取替代方案之一来执行。可以基于箱中抓取应用的目标220(例如,要抓取的一种或多种指定类型的物体)以及可能由物理环境施加的约束218(例如,箱体的尺寸和位置)来生成排名。在各种实施例中,目标220和/或约束218可以是预定义的,或者可以由用户指定,例如经由人机界面(HMI)面板。MCDM模块222输出由所选择的抓取替代方案定义的动作224,基于该动作生成可执行指令来运行可控装置或机器人以选择性地从箱中抓取物体。
现在将描述功能块的示例性和非限制性实施例。
物体检测是计算机视觉中的一个问题,涉及识别给定图像中一个或多个物体的存在、位置和类型。这是一个涉及建立物体定位和物体分类方法的问题。物体定位是指识别图像中一个或多个物体的位置,并围绕它们的范围绘制轮廓或边界框。物体分类涉及预测图像中物体的类别。物体检测结合了这两项任务,并对图像中的一个或多个物体进行定位和分类。
多种已知的物体检测算法在RGB(红绿蓝)颜色空间中工作。因此,发送至物体检测模块208的第一图像可以定义RGB彩色图像。可替代地,第一图像可以包括点云,该点云具有点云中每个点的颜色信息(除了3D空间中的坐标之外)。
在一个实施例中,物体检测模块208包括神经网络,诸如分割神经网络。适用于本目的的神经网络结构的一个示例是基于掩蔽区域的卷积神经网络(Mask R-CNN)。分割神经网络提供逐像素的物体识别输出。分割输出可以呈现任意形状的轮廓,因为标记粒度在像素级完成。在包括物体图像和物体分类标签的数据集上训练物体检测神经网络。一旦被训练,物体检测神经网络被配置为接收输入图像(即,来自第一传感器204的第一图像),并在其中预测分割被识别物体的轮廓以及每个被识别物体的类别标签。
适用于本目的的物体检测模块的另一个示例包括一组被称为YOLO(“You LookOnly Once”)的物体识别模型,其输出表示被识别物体边界框(不是任意形状的轮廓)和每个边界框(物体)的预测类别标签。其他示例包括基于非AI的传统计算机视觉算法,诸如Canny边缘检测算法,该算法对彩色图像应用滤波技术(例如,高斯滤波器),在图像中应用强度梯度,随后确定潜在的边缘并跟踪边缘,以获得物体的合适轮廓。
物体检测神经网络的第一输出可以为第一图像中的每个位置(例如,像素或其他定义的区域)指示定义的类别标签的物体的存在的预测概率值或置信水平。
抓取检测模块210可以包括抓取神经网络,以计算抓取,以便机器人抓取物体。抓取神经网络通常是卷积的,使得网络可以用某种类型的抓取负担度量(称为抓取分数)来标记输入图像的每个位置(例如,像素或其他定义的区域)。抓取分数指示在由像素(或其他定义的区域)定义的位置处的抓取质量,其通常表示执行成功抓取(例如,没有掉落物体)的置信度水平。可以在数据集上训练抓取神经网络,该数据集包括物体或场景的3D深度图和类别标签,该类别标签包括给定类型的末端执行器(例如,手指状抓取器、基于真空的抓取器等)的抓取分数。
在一个实施例中,发送至抓取检测模块210的第二图像可以定义场景的深度图像。深度图像是一种图像或图像通道,其含有与场景物体的表面离视点的距离相关的信息。可替代地,第二图像可以包括场景的点云图像,其中深度信息可以从点云中的点的x、y和z坐标导出。传感器206因此可以包括深度传感器、点云传感器或者能够捕获图像的任何其他类型的传感器,从该图像可以导出场景的3D深度图。
抓取检测模块210的第二输出可以包括与输入第二图像相关联的一个或多个分类或分数。例如,第二输出可以包括输出向量,该输出向量包括与第二图像中的各个位置(例如,像素或其他定义的区域)相关联的多个预测抓取分数。例如,抓取神经网络的输出可以为第二图像中的每个位置(例如,像素或其他定义的区域)指示预测的抓取分数。每个位置或抓取点代表一个抓取替代方案,其可用于以成功的预测置信度执行抓取。抓取神经网络因此可以为每个抓取替代方案定义抓取参数化,该参数化可以包括抓取的位置或抓取点(例如,x、y和z坐标)和接近方向,以及抓取分数。
在一些实施例中,物体检测模块208和/或抓取检测模块210可以包括现成的神经网络,其已经在类似的应用中被广泛验证和测试。然而,所提出的方法在概念上扩展到其他种类的基于AI或非基于AI的检测模块。检测模块可以适当地从部署的传感器获取输入。例如,在一个实施例中,RGB相机可以连接至物体检测模块208,而深度传感器可以连接至抓取检测模块210。在一些实施例中,单个传感器可以馈送至物体检测模块208和抓取检测模块210。在示例中,单个传感器可以包括RGB-D传感器或点云传感器等。在这种情况下,捕获的图像可以含有颜色和深度信息,这可以分别被物体检测模块208和抓取检测模块210利用。
虽然图2所示的实施例仅示出了单个物体检测模块208和单个抓取检测模块210,但是所提出的方法提供了添加任何数量的检测模块和/或传感器的可扩展性。例如,该系统可以采用多个物体检测神经网络或同一物体检测神经网络的多个示例,其被提供有由不同传感器捕获的不同第一图像(例如,RGB彩色图像),以生成多个第一输出。同样,该系统可以采用多个抓取神经网络或同一抓取神经网络的多个示例,其被提供有由不同传感器捕获的不同第二图像(例如,深度图),以生成多个第二输出。复制相同的神经网络并用来自多个不同传感器的输入来馈送各个示例提供了额外的鲁棒性。多个不同的传感器可以与不同的能力或精度、或不同的供应商、或场景的不同视图、或上述的任何组合相关联。
在由一个或多个物体检测模块208生成的第一输出中,每个位置(像素或其他定义的区域)与关于物体存在的概念相关联。在由一个或多个抓取检测模块210生成的第二输出中,每个位置(像素或其他定义的区域)代表具有关联抓取分数的抓取替代方案,但是通常没有关于什么像素(或区域)属于什么物体的概念。HLSF模块212融合来自一个或多个物体检测模块208和一个或多个抓取检测模块210的输出,以计算每个抓取替代方案的属性,该属性指示哪些抓取替代方案附属于哪些物体。
根据定义,与结合原始数据源的低级传感器融合相反,高级传感器融合需要结合来自多个算法结果的决策或置信水平。HLSF模块212获取来自一个或多个物体检测模块208和一个或多个抓取检测模块210的输出,以构成物理环境的一致表示,并由此确定可用的动作过程。这包括用于产生算法结果的适用传感器之间的自动校准,以将算法的输出对准公共坐标系。
图3示出了通过组合多个算法输出而获得的物理环境的一致表示的一部分。这里,由多个检测模块208、210产生的输出被对准到共同的真实世界坐标系,以产生一致表示300。公共坐标系可以由HLSF模块212任意选择,或者可以由用户输入指定。表示300的每个位置(像素或其他定义的区域)保存关注物体的存在和抓取质量的概率值或置信水平。以上是基于从一个或多个物体检测模块208以及一个或多个抓取检测模块210获得的置信水平的组合来计算的。表示300的每一个位置都代表一个抓取替代方案。例如,如果采用多个抓取检测模块210,则基于由多个抓取检测模块预测的对应位置的抓取分数来计算一致表示300中每个位置(表示相应抓取替代方案)的抓取质量。例如,一致表示300中的位置(像素或其他定义的区域)的抓取质量可以被确定为由各个抓取检测模块为该位置计算的抓取分数的平均值或加权平均值。在一些实施例中,多个抓取检测模块210可以为特定抓取位置(即,抓取替代方案)产生相似的抓取分数(指示抓取质量),但是为该抓取替代方案提供显著不同的接近角。接近角的这种差异会导致该抓取的总分数较低。HLSF模块212可以降低该抓取替代方案的质量,或者提供与其相关联的附加“差异”属性。MCDM模块222可以利用后一种方法来决策是惩罚高差异抓取替代方案还是接受它们。当采用多个物体检测模块208时,HLSF212可以为一致表示300中的每个位置(像素或其他定义的区域)计算给定类别标签的物体存在的概率,例如,使用贝叶斯推断或类似的概率方法。这扩大到任何数量的算法可用于产生相同特征的输出,以实现冗余信息融合的情况。
仍然参考图3,示出了三种抓取选择,它们对应于一致表示300的位置或单元302、304和306。表示300的每个单元可以表示单个像素或由多个像素定义的更大区域。该表示的所示部分包括物体A(即,类别标签A的物体)和物体B(即,类别标签B的物体)。在给定的单元中,存在类别标签为A的物体的概率被表示为P(A)。同样,在给定的单元中,存在类别标签为B的物体的概率表示为P(B)。基于计算的概率P(A),对应于单元302和304的抓取替代方案被确定为从属于物体A。然而,与单元302对应的抓取替代方案相关联的抓取质量相比,与更靠近物体A中心的单元304对应的抓取替代方案与更高的抓取质量相关联。基于所计算的概率P(A)和P(B),对应于单元306的抓取替代方案具有与多个物体A和B的从属关系。在示例中,当特定物体在对应单元中存在的概率P高于阈值时,可以确定抓取替代方案与该物体的从属关系。
因此,HLSF模块为每个抓取替代方案计算属性,该属性包括抓取替代方案与被检测物体之间的功能关系。每个抓取替代方案的属性可以包括例如抓取质量、与物体A的从属关系、与物体B的从属关系、接近角的差异等。
再次参考图2,基于抓取替代方案214以及由HLSF模块212计算的相应属性216,由MCDM模块(222)做出决策以选择抓取替代方案中的一个来执行。按照所描述的实施例,MCDM模块222可以基于映射到属性的多个标准以及分配给每个标准的相应权重来对抓取替代方案214进行排序。可以基于指定的箱中抓取应用目标以及一个或多个指定的应用约束来确定权重。
MCDM模块222可以通过建立如图4所示的决策矩阵来开始。在所示的决策矩阵400中,行代表可能的抓取选择A1、A2、A3等,而列代表标准C1、C2、C3、C4等。标准由抓取的属性给出。每个标准C1、C2、C3、C4等与相应权重W1、W2、W3、W4等关联。标准示例包括“与物体A的从属关系”、“与物体B的从属关系”、预测的抓取质量、机器人路径距离等。对于每个抓取替代方案,由MCDM模块222计算属于多个标准的加权分数。在图4中,与标准C1、C2、C3和C4相关的抓取替代方案A1的分数分别表示为a11、a12、a13和a14;与标准C1、C2、C3和C4相关的抓取替代方案A2的分数分别表示为a21、a22、a23和a24;等等。然后,MCDM模块222基于多个标准上的加权分数对抓取替代方案进行排序,并在给定当前应用目标的情况下选择最佳抓取替代方案(例如,仅抓取A类和C类物体,优先选择具有最小机器人路径距离的物体,优先选择即使在长距离行进的情况下也具有高抓取质量的物体等)和应用约束(例如,工作空间边界、机器人的硬件、抓取模态,诸如抽吸、捏等。)。为此,从图4所示的决策矩阵开始,可以使用几种MCDM技术中的一种或多种来达到最终决策。适用于本目的的已知MCDM技术的示例包括简单技术(诸如权重和模型(WSM)和加权乘积模型(WPM))或复杂技术(诸如层次分析法(AHP)以及ELECTRE和TOPSIS法)。
在一些实施例中,为了提高计算效率,在实现MCDM解决方案之前,可以从决策矩阵中移除按照箱中抓取应用的不可行抓取替代方案。不可行抓取替代方案的示例包括其执行会导致冲突的抓取、具有多个物体从属关系的抓取等。在不同情况下,候选抓取的这种基于约束的消除过程可以在图2中的过程流程不同阶段以自动方式执行,诸如通过单独的检测模块、HLSF模块或在MCDM解决方案阶段。
继续参考图2,MCDM模块222输出动作224,该动作由通过任意上述技术达成的所选抓取替代方案来定义。基于输出动作224,生成可执行代码,该可执行代码可被发送至机器人控制器以运行机器人选择性地从箱中抓取物体。选择性抓取可包括从箱体中一堆分类物体中抓取指定类型的物体。
MCDM模块222的重要性权重可以由专家基于箱中抓取应用来手动设置。例如,如果每小时的总抓取应该最大化,机器人路径距离可能不如抓取质量重要。在一些实施例中,初始权重可(例如,由专家)分配给MCDM模块的每个标准,随后基于来自自主箱中抓取连续示例的模拟或真实世界执行的反馈来调整权重。这种方法尤其适用于许多箱中抓取应用,其中虽然一些重要性权重是明确的或二进制的(例如,应排除可能导致冲突的解决方案),但其他权重仅是近似已知的(例如,路径距离~0.2和抓取质量~0.3)。因此,专家可以定义参数允许的范围和初始值,而不是先验地固定所有的重要性权重。然后,MCDM模块222可以使用来自模拟实验或真实世界本身的经验来微调参数。例如,基于当前动作的成功标准(例如,每小时的总抓取),系统可以在允许的范围内以概率方式随机改变设置。更具体地,如果机器人路径距离p被定义为[0.1 0.3]并且抓取质量q被定义为[0.2 0.4],则在设置p=0.2和q=0.3的第一次迭代之后,系统可以以p=0.21和q=0.29再次尝试。如果新设置比原始设置更准确地满足成功标准,则新设置被用作下一优化步骤的起点。如果不是这种情况,那么原始设置将保留为下一次执行箱中抓取的原点。通过这种方式,MCDM模块222可以迭代地微调设置,以基于来自眼前的应用的真实结果来优化标准。
所提出的结合HLSF和MCDM法的方法也可以应用于不需要对箱体中物体进行语义识别的场景。这种情况的一个示例是只涉及放置在箱体中的相同类型的物体的箱中抓取应用。在这种情况下,不需要物体检测模块。然而,该方法可以利用多个抓取检测模块。多个抓取检测模块可以包括多个不同的神经网络,或者可以包括同一神经网络的多个示例。多个抓取检测模块中的每一个都被馈送有由不同传感器捕获的相应图像。每个传感器可以被配置为定义物理环境的深度图。示例传感器包括深度传感器、RGB-D相机、点云传感器等。多个不同的传感器可以与不同能力或精度、或不同供应商、或场景的不同视图、或上述的任何组合相关联。多个抓取检测模块基于相应输入图像产生多个输出,每个输出定义对应于相应输入图像中多个位置的多个抓取替代方案。在这种情况下,HLSF模块结合多个抓取检测模块的输出来计算抓取替代方法的属性(例如,抓取质量)。MCDM模块基于所计算的属性对抓取替代方案进行排序,以选择其中一个抓取替代方案来执行。MCDM模块输出由所选择的抓取替代方案定义的动作,基于该动作生成可执行指令以运行诸如机器人的可控装置从箱中抓取物体。
类似于先前描述的实施例,本实施例中的抓取神经网络可分别被训练为产生输出向量,该输出向量包括与相应输入图像中各个位置相关联的多个预测抓取分数,抓取分数指示相应位置的抓取质量。例如,抓取神经网络的输出可以为相应输入图像中每个位置(例如,像素或其他定义的区域)指示预测抓取分数。每个位置或抓取点代表一个抓取替代方案,其可用于以成功的预测置信度执行抓取。抓取神经网络可以为每个抓取替代方案定义抓取参数化,该参数化可以包括抓取的位置或抓取点(例如,x、y和z坐标)和接近方向,以及抓取分数。在一些实施例中,抓取神经网络可以包括已经在类似应用中验证并测试过的现成神经网络。
此外,类似于先前描述的实施例,HLSF模块可以将多个抓取检测模块的输出对准到公共坐标系,以生成物理环境的一致表示,并且为一致表示中的每个位置计算抓取质量的概率值。基于由多个抓取检测模块预测的相应位置的抓取分数,计算一致表示中每个位置(表示相应抓取替代方案)的抓取质量。例如,一致表示中的位置(像素或其他定义的区域)的抓取质量可以被确定为由各个抓取检测模块为该位置计算的抓取分数的平均值或加权平均值。在一些实施例中,多个抓取检测模块可以为特定抓取位置(即,抓取替代方案)产生相似的抓取分数(指示抓取质量),但是为该抓取替代方案提供非常不同的接近角。接近角的这种差异会导致抓取者的总分数较低。HLSF模块可以降低抓取替代方案的质量,或者提供与其相关联的附加“差异”属性。MCDM模块可以利用后一种方法来决策是惩罚高差异抓取替代方案还是接受它们。
MCDM模块可以基于映射到属性的多个标准以及分配给每个标准的相应权重,对由HLSF模块计算的抓取替代方案进行排序,基于指定箱中抓取目标以及一个或多个指定约束来确定权重。为此,如参照图4所解释的,MCDM模块可以生成决策树,并使用上述任何已知的MCDM技术来对可执行动作做出最终决策。在一些实施例中,为了提高计算效率,在实现MCDM解决方案之前,可以从决策矩阵中移除按照箱中抓取应用的不可行抓取替代方案。在进一步的实施例中,如上所描述,MCDM模块可以通过将初始权重分配给多标准决策模块的每个标准来微调权重,并且随后基于来自自主箱中抓取连续示例的模拟或真实世界执行的反馈来调整权重。
总之,所提出的方法将高级传感器融合和多标准决策方法联系起来,以在箱中抓取场景中产生快速一致的决策。所提出的方法提供了几种技术优势,本文列出了其中的几种。首先,所提出的方法提供了可扩展性,因为它使得添加任意数量的AI解决方案和传感器成为可能。其次,所提出的方法使开发更为便利,因为它不需要从头创建组合的AI解决方案并用定制数据进行训练。此外,所提出的方法提供了鲁棒性,因为可以利用多种AI解决方案来实现相同目的。此外,在进一步的实施例中,MCDM的更新版本被呈现为具有用于经由模拟和/或真实经验进行标准重要性权重自调整的技术。
图5示出了包括计算系统502的示例性计算环境,在该计算环境中可以实现本发明的各个方面。计算系统502可以实施为例如但不限于用于控制自主系统的机器人的工业PC。诸如计算系统502和计算环境500的计算机和计算环境对于本领域技术人员来说是已知的,因此在此简要描述。
如图5所示,计算系统502可以包括通信机制,诸如系统总线504或用于在计算系统502内传递信息的其他通信机制。计算系统502还包括与系统总线504耦合的一个或多个处理器506,用于处理信息。处理器506可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)或本领域已知的任何其他处理器。
计算系统502还包括耦合至系统总线504的系统存储器508,用于存储信息和将由处理器506执行的指令。系统存储器508可包括易失性和/或非易失性存储器形式的计算机可读存储介质,诸如只读存储器(ROM)510和/或随机存取存储器(RAM)512。系统存储器RAM512可包括其他动态存储设备(例如,动态RAM、静态RAM和同步DRAM)。系统存储器ROM 510可以包括其他静态存储设备(例如,可编程ROM、可擦除PROM和电可擦除PROM)。此外,系统存储器508可以用于在处理器506执行指令期间存储临时变量或其他中间信息。基本输入/输出系统514(BIOS)含有诸如在启动时协助在计算系统502内的元件之间传输信息的基本例程,该基本输入/输出系统可以存储在系统存储器ROM 510中。系统存储器RAM 512可以含有处理器506可立即访问和/或当前正在操作的数据和/或程序模块。系统存储器508还可以包括例如操作系统516、应用程序518、其他程序模块520和程序数据522。
计算系统502还包括耦合至系统总线504的磁盘控制器524,以控制用于存储信息和指令的一个或多个存储设备,诸如磁性硬盘526和可移动介质驱动器528(例如,软盘驱动器、光盘驱动器、磁带驱动器和/或固态驱动器)。可以使用适当的设备接口(例如,小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、通用串行总线(USB)或FireWire)将存储设备添加至计算系统502。
计算系统502还可以包括耦合至系统总线504的显示控制器530,以控制显示器532,诸如阴极射线管(CRT)或液晶显示器(LCD)等,用于向计算机用户显示信息。计算系统502包括用户输入界面534以及一个或多个输入设备,诸如键盘536和点击设备538,用于与计算机用户交互并向一个或多个处理器506提供信息。点击设备538例如可以是鼠标、光笔、轨迹球或点击杆,用于向一个或多个处理器506传送方向信息和命令选择,并用于控制显示器532上的光标移动。显示器532可以提供触摸屏界面,该界面允许输入以补充或替换点击设备538的方向信息和命令选择的通信。
计算系统502还包括耦合至系统总线504的I/O适配器546,以将计算系统502连接至可控物理设备,诸如机器人。在图5所示的示例中,I/O适配器546连接至机器人控制器548。在一个实施例中,机器人控制器548包括例如一个或多个电机,用于控制机器人的各种部件(例如,臂、基座等)的线性和/或角度位置。
响应于一个或多个处理器506执行存储器(诸如系统存储器508)中含有的一个或多个指令的一个或多个序列,计算系统502可以执行本发明的实施例的部分或全部处理步骤。此类指令可以从另一个计算机可读存储介质(诸如磁性硬盘526或可移动介质驱动器528)读入系统存储器508。磁性硬盘526可以含有由本发明的实施例使用的一个或多个数据存储和数据文件。可以对数据存储内容和数据文件进行加密以提高安全性。处理器506也可以在多处理装置中使用,以执行系统存储器508中含有的一个或多个指令序列。在替代实施例中,可以使用硬连线电路来代替软件指令或者与软件指令相结合。因此,实施例不限于硬件电路和软件的任何指定组合。
计算系统502可以包括至少一个计算机可读存储介质或存储器,用于保存根据本发明的实施例编程的指令并且用于包括数据结构、表格、记录或本发明描述的其他数据。如本发明所用,术语“计算机可读存储介质”是指参与向一个或多个处理器506提供指令以供执行的任何介质。计算机可读存储介质可以采取多种形式,包括但不限于非暂时性、非易失性介质、易失性介质和传输介质。非易失性介质的非限制性示例包括光盘、固态驱动器、磁盘和磁光盘,诸如磁性硬盘526或可移动介质驱动器528。易失性介质的非限制性示例包括动态存储器,诸如系统存储器508。传输介质的非限制性示例包括同轴电缆、铜线和光纤,包括构成系统总线504的导线。传输介质也可以采用声波或光波的形式,诸如在无线电波和红外数据通信期间产生的那些。
计算环境500还可以包括计算系统502,该计算系统使用到一个或多个远程计算机(诸如远程计算设备544)的逻辑连接在联网环境中操作。远程计算设备544可以是个人计算机(膝上型或台式)、移动设备、服务器、路由器、网络PC、对等设备或其他常见的网络节点,并且通常包括以上相对于计算系统502描述的多种或所有元件。当在联网环境中使用时,计算系统502可以包括调制解调器542,用于通过诸如因特网的网络540建立通信。调制解调器542可以经由网络接口545或经由另一种适当的机制连接至系统总线504。
网络540可以是本领域公知的任何网络或系统,包括因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、直接连接或一系列连接、蜂窝电话网络、或能够促进计算系统502与其他计算机(例如,远程计算设备544)之间通信的任何其他网络或介质。网络540可以是有线的、无线的或其组合。有线连接可以使用以太网、通用串行总线(USB)、RJ-6或本领域中公知的任何其他有线连接来实现。无线连接可以使用Wi-Fi、WiMAX和蓝牙、红外、蜂窝网络、卫星或本领域中公知的任何其他无线连接方法来实现。此外,若干网络可以单独工作或彼此通信,以便于网络540中的通信。
本发明的实施例可以用硬件和软件的任意组合来实现。此外,本发明的实施例可以被包括在具有例如非暂时性计算机可读存储介质的制品(例如,一个或多个计算机程序产品)中。计算机可读存储介质在其中包括例如用于提供和促进本发明实施例的机制的计算机可读程序指令。该制品可以被包括作为计算系统的一部分或者单独出售。
计算机可读存储介质可以包括有形设备,该有形设备可以保留并存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何合适的组合。本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络下载到外部计算机或外部存储设备,该网络例如是因特网、局域网、广域网和/或无线网络。
附图的系统和过程并非唯一性的。根据本发明的原理,可以推导出其他系统、过程和菜单来实现相同的目标。尽管已经参考特定实施例描述了本发明,但是应当理解,本文示出和描述的实施例及变型仅用于说明目的。在不脱离本发明的范围的情况下,本领域技术人员可以实现对当前设计的修改。

Claims (20)

1.一种用于执行自主箱中抓取的方法,包括:
捕获物理环境的一个或多个图像,所述物理环境包括放置在箱体中的多个物体,
基于捕获的第一图像,由物体检测模块生成定位所述第一图像中一个或多个关注物体的第一输出,
基于捕获的第二图像,由抓取检测模块生成定义对应于所述第二图像中多个位置的多个抓取替代方案的第二输出,
由高级传感器融合(HLSF)模块组合至少所述第一输出和所述第二输出,以计算每个抓取替代方案的属性,所述属性包括抓取替代方案与被检测物体之间的功能关系,
由多标准决策(MCDM)模块基于所计算的属性对所述抓取替代方案进行排序,以选择所述抓取替代方案中的一者来执行,以及通过基于所选的抓取替代方案生成可执行指令,运行可控装置从所述箱体选择性地抓取物体。
2.根据权利要求1所述的方法,其中,所述第一图像定义RGB彩色图像。
3.根据权利要求1和2中任一项所述的方法,其中,所述第二图像定义所述物理环境的深度图。
4.根据权利要求1至3中任一项所述的方法,其中,所述物体检测模块包括第一神经网络,所述第一神经网络被训练为在所述第一图像中预测表示所识别的物体的轮廓或边界框以及每个所识别的物体的类别标签。
5.根据权利要求4所述的方法,包括利用被提供有由不同传感器捕获的不同第一图像的多个第一神经网络或单个第一神经网络的多个示例来生成多个第一输出,其中,HLSF模块组合所述多个第一输出以计算每个抓取替代方案的属性。
6.根据权利要求1至5中任一项所述的方法,其中,所述抓取检测模块包括第二神经网络,所述第二神经网络被训练为产生输出向量,所述输出向量包括与所述第二图像中各个位置相关联的多个预测抓取分数,所述抓取分数指示相应位置的抓取质量,每个位置代表一个抓取替代方案。
7.根据权利要求6所述的方法,包括利用被提供有由不同传感器捕获的不同第二图像的多个第二神经网络或单个第二神经网络的多个示例来生成多个第二输出,其中,HLSF模块组合所述多个第二输出以计算每个抓取替代方案的属性。
8.根据权利要求1至7中任一项所述的方法,包括:
由HLSF模块将所述第一输出和所述第二输出与公共坐标系对齐,以生成所述物理环境的一致表示,以及
由所述HLSF模块为所述一致表示中的每个位置计算关注物体的存在的和抓取质量的概率值。
9.根据权利要求1至8中任一项所述的方法,其中,对于每个抓取替代方案,由HLSF模块计算的属性包括抓取质量以及抓取替代方案与关注物体的从属关系。
10.根据权利要求1至9中任一项所述的方法,其中,MCDM模块对抓取替代方案的排序基于映射到所述属性的多个标准以及分配给每个标准的相应权重,基于指定的箱中抓取目标以及一个或多个指定的约束来确定所述权重。
11.根据权利要求10所述的方法,包括向所述多标准决策模块的每个标准分配初始权重,并且随后基于来自所述自主箱中抓取的连续示例的模拟或真实世界执行的反馈来调整所述权重。
12.一种非暂时性计算机可读存储介质,包括指令,当由计算系统处理所述指令时,所述指令将所述计算系统配置为执行根据权利要求1至11中任一项所述的方法。
13.一种自主系统,包括:
可控装置,包括被配置为抓取物体的末端执行器;
一个或多个传感器,每个传感器被配置为捕获物理环境的图像,所述物理环境包括放置在箱体中的多个物体,以及
计算系统,包括:
一个或多个处理器;和
存储指令的存储器,当由所述一个或多个处理器执行所述指令时,使得所述自主系统:
基于捕获的第一图像,由物体检测模块生成定位所述第一图像中一个或多个关注物体的第一输出,
基于捕获的第二图像,由抓取检测模块生成定义对应于所述第二图像中多个位置的多个抓取替代方案的第二输出,
由高级传感器融合(HLSF)模块组合至少所述第一输出和所述第二输出,以计算每个抓取替代方案的属性,所述属性包括所述抓取替代方案与被检测物体之间的功能关系,
由多标准决策(MCDM)模块基于所计算的属性对所述抓取替代方案进行排序,以选择所述抓取替代方案中的一者来执行,以及
通过基于所选的抓取替代方案生成可执行指令,运行所述可控装置从所述箱体中选择性地抓取物体。
14.一种用于执行自主箱中抓取的方法,包括:
捕获物理环境的一个或多个图像,所述物理环境包括放置在箱体中的多个物体,
将捕获的一个或多个图像作为输入发送至多个抓取检测模块,
基于相应的输入图像,每个抓取检测模块生成定义对应于相应输入图像中多个位置的多个抓取替代方案的相应的输出,
由高级传感器融合(HLSF)模块组合所述抓取检测模块的输出,以计算所述抓取替代方案的属性,
由多标准决策(MCDM)模块基于所计算的属性对所述抓取替代方案进行排序,以选择所述抓取替代方案中的一者来执行,以及
通过基于所选的抓取替代方案生成可执行指令,运行可控装置从所述箱体中抓取物体。
15.根据权利要求14所述的方法,其中,所述多个抓取检测模块包括至少一个抓取神经网络,所述抓取神经网络被训练以产生输出向量,所述输出向量包括与相应输入图像中各个位置相关联的多个预测抓取分数,所述抓取分数指示相应位置的抓取质量,每个位置代表一个抓取替代方案。
16.根据权利要求15所述的方法,其中,所述多个抓取检测模块包括单个抓取神经网络的多个示例,所述多个示例被提供有由不同传感器捕获的输入图像以生成多个输出。
17.根据权利要求14至16中任一项所述的方法,包括:
由HLSF模块将所述抓取检测模块的输出与公共坐标系对齐,以生成所述物理环境的一致表示,以及
由所述HLSF模块为所述一致表示中的每个位置计算抓取质量的概率值。
18.根据权利要求14至17中任一项所述的方法,其中,由MCDM模块对所述抓取替代方案的排序基于映射到所述属性的多个标准以及分配给每个标准的相应权重,基于指定的箱中抓取目标以及一个或多个指定的约束来确定所述权重。
19.根据权利要求18所述的方法,包括向所述多标准决策模块的每个标准分配初始权重,并且随后基于来自所述自主箱中抓取的连续示例的模拟或真实世界执行的反馈来调整所述权重。
20.一种非暂时性计算机可读存储介质,包括指令,当由计算系统处理所述指令时,所述指令将所述计算系统配置为执行根据权利要求14至19中任一项所述的方法。
CN202180099732.9A 2021-06-25 2021-06-25 用于自主箱中抓取的高级传感器融合和多标准决策 Pending CN117545598A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2021/039031 WO2022271181A1 (en) 2021-06-25 2021-06-25 High-level sensor fusion and multi-criteria decision making for autonomous bin picking

Publications (1)

Publication Number Publication Date
CN117545598A true CN117545598A (zh) 2024-02-09

Family

ID=77022241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180099732.9A Pending CN117545598A (zh) 2021-06-25 2021-06-25 用于自主箱中抓取的高级传感器融合和多标准决策

Country Status (3)

Country Link
EP (1) EP4341050A1 (zh)
CN (1) CN117545598A (zh)
WO (1) WO2022271181A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019006091A2 (en) * 2017-06-28 2019-01-03 Google Llc METHODS AND APPARATUS FOR MACHINE LEARNING FOR SEMANTIC ROBOTIC SEIZURE
US20210069908A1 (en) * 2019-09-07 2021-03-11 Embodied Intelligence, Inc. Three-dimensional computer vision system for robotic devices

Also Published As

Publication number Publication date
EP4341050A1 (en) 2024-03-27
WO2022271181A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
Mahler et al. Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics
US11717959B2 (en) Machine learning methods and apparatus for semantic robotic grasping
CN109483573A (zh) 机器学习装置、机器人系统以及机器学习方法
Chu et al. Toward affordance detection and ranking on novel objects for real-world robotic manipulation
Zhang et al. Grasp for stacking via deep reinforcement learning
US11292129B2 (en) Performance recreation system
Asadi et al. Automated object manipulation using vision-based mobile robotic system for construction applications
Li et al. A review: Machine learning on robotic grasping
US20210069908A1 (en) Three-dimensional computer vision system for robotic devices
Singh et al. A survey on vision guided robotic systems with intelligent control strategies for autonomous tasks
Militaru et al. Object handling in cluttered indoor environment with a mobile manipulator
US20230158679A1 (en) Task-oriented 3d reconstruction for autonomous robotic operations
CN112288809A (zh) 一种用于多物体复杂场景的机器人抓取检测方法
Van Molle et al. Learning to grasp from a single demonstration
Kim et al. Digital twin for autonomous collaborative robot by using synthetic data and reinforcement learning
US20240198530A1 (en) High-level sensor fusion and multi-criteria decision making for autonomous bin picking
CN117545598A (zh) 用于自主箱中抓取的高级传感器融合和多标准决策
Lin et al. Inference of 6-DOF robot grasps using point cloud data
EP4367644A1 (en) Synthetic dataset creation for object detection and classification with deep learning
US20240198515A1 (en) Transformation for covariate shift of grasp neural networks
Luo Automatic Manipulator Tracking Control based on moving target trajectory prediction
EP4327299A1 (en) Transformation for covariate shift of grasp neural networks
US20240198526A1 (en) Auto-generation of path constraints for grasp stability
US20230267614A1 (en) Discriminative 3D Shape Modeling for Few-Shot Instance Segmentation
WO2023100282A1 (ja) データ生成システム、モデル生成システム、推定システム、学習済みモデルの製造方法、ロボット制御システム、データ生成方法、およびデータ生成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination