CN114761183B

CN114761183B - 用于为机器人系统开发神经技能的计算机化工程工具和方法

Info

Publication number: CN114761183B
Application number: CN201980102742.6A
Authority: CN
Inventors: 阿基梅德斯·马丁内斯·卡内多
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-07-16
Anticipated expiration: 2039-12-03
Also published as: WO2021112825A1; CN114761183A; EP4051461A1; EP4051461B1; US20220379476A1

Abstract

本发明提供了用于为诸如机器人系统(50)的计算机化自主系统开发神经技能的计算机化工程工具和方法论。所公开的计算机化工程工具(10)能够涉及闭环中布置的相应模块化功能的集成布置，诸如能够包括物理引擎(14)、神经数据编辑器(16)、实验编辑器(18)、神经技能编辑器(20)和机器学习环境(22)。所公开的实施例有助于成本有效地简化涉及神经技能的开发工作，诸如通过减少开发任何给定机器人系统中涉及的神经技能所涉及的时间以及通过降低开发神经技能所涉及的专业水平。

Description

用于为机器人系统开发神经技能的计算机化工程工具和方法

技术领域

所公开的实施例大体上涉及计算机化工程工具的领域，并且更具体而言，涉及用于为诸如机器人系统的计算机化自主系统开发神经技能的计算机化工程工具和方法论。

背景技术

目前，由机器人系统实现的技能能够是手工的(例如，通过诸如IEC61131-3编程语言之类的合适的编程语言进行编程，该编程语言能够被用于例如在可编程逻辑控制器(PLC)中实现控制程序)；或者这种技能能够使用机器学习技术(诸如通过神经网络)来学习。

手工的技能的开发通常能够涉及核心技术技能，诸如能够由机器人学专家执行。涉及该核心技术技能的开发工作能够是耗时的。神经技能的开发往往相对更复杂，并且通常涉及机器人学专家和深度学习专家。因此，诸如由于数据收集和神经网络设计、训练以及调整，涉及神经技能的开发工作与手工的技能的开发相比变得甚至更加耗时。因此，需要简化涉及神经技能的开发工作，例如减少开发任何给定机器人系统中涉及的神经技能所涉及的时间。另外，希望降低开发神经技能所涉及的专业水平。

附图说明

图1示出了所公开的计算机化工程工具的一个非限制性实施例的框图，该计算机化工程工具能被配置用于为机器人系统开发神经技能，如能涉及一个或多个机器人，所述一个或多个机器人例如能够被用于涉及自主控制的工业应用中。

图2示出了用于为机器人系统开发神经技能的所公开的方法论的一个非限制性实施例的流程图。

图3－7分别示出了与用于为机器人系统开发神经技能的所公开的方法论有关的进一步的非限制性细节。

具体实施方式

本发明人已经认识到，由于神经技能的开发通常涉及至少两种不同的技术学科(例如，机器人学和机器学习)。这些不同的技术学科通常涉及两个不同的专家功能角色(尽管单人理论上能够执行这两个角色)，这两个角色需要不同的且耗时的概念化。

例如，在典型的现有技术方法下，为了适当地确定什么应是神经技能，以便适当地操纵对象(例如，“拾取和放置”、“旋拧”、“抓取”等)，机器人学专家最初设计实验以生成适合于机器学习专家的数据。另一方面，机器学习专家的任务是基于与机器人学专家的交互来设计神经网络。应当理解，专家之间的连续且有意义的交互是必要的，因为例如所设计的实验应生成用于神经网络的适当的数据，并且因此数据应适当地匹配神经网络的特性，诸如在类型、输入/输出参数等方面。

在机器人学专家方面，能够通过物理引擎在模拟或现实环境中运行所设计的实验。因此，机器人学专家还应(i)编写代码以从所设计的实验提取数据，以及(ii)开发或实现数据生成环境。机器人学专家还应开发测试环境以测量并证实神经技能的性能和行为。当这些组件被准备好时，执行一次或多次实验，并且生成数据。

在机器学习专家方面，随后使用适当的神经网络代码来实现神经网络架构的设计。在诸如从物理引擎中所进行的实验能获得训练和测试数据之后，训练神经网络。机器学习专家随后测试神经网络的性能，并确定所获得的性能是否足以满足期望的目标。如果神经网络训练获得满意的结果，则神经网络能够被作为神经技能部署在现实应用中。

如果神经网络训练没有获得满意的结果，则重复上述过程。即，在这两个专家之间必须有进一步的交互以进行适当的调整并再次重新执行整个过程。在实际的应用中，上述现有技术过程通常能涉及多次迭代，并因此这种过程往往是耗时且繁重的。举例而言，用于开发神经技能以执行机器人的逆运动学的现有技术过程能花费几个星期。

至少鉴于前述考虑，所公开的实施例实现了适当的改进以更有效地开发神经技能。在没有限制的情况下，所公开的计算机化工程工具消除了开发(例如，以代码形式)数据生成环境的需要和提取数据的代码。相反，所公开的工程工具有效地允许用户例如在物理引擎中直接与虚拟世界交互。因此，机器人学专家能够直接利用现实世界中的对象来设计实验，并且能够利用适当的数据基元，诸如能够指示能应用的几何形状、物理交互和感知数据。例如，这允许有效地制定能使用的成像装置(例如，照相机)的参数(例如，红、绿及蓝(RGB)图像、深度感知、平面分割)，并因此有效地创建具有不同几何形状的不同机器人，并且限定在现实世界中待操纵的对象的物理特性，诸如能够涉及力、加速度、速度、冲击等。

在以下详细描述中，阐述了各种具体细节以便提供对这些实施例的全面理解。然而，本领域的技术人员将理解，所公开的实施例能够在没有这些具体细节的情况下实践，本发明的各方面不限于所公开的实施例，且本发明的各方面能够在各种可替代实施例中实践。在其它实例中，为了避免不必要且繁冗的解释，未详细描述由本领域的技术人员充分了解的方法、步骤和组件。

此外，各种操作能够被描述为以有助于理解本发明实施例的方式执行的多个离散步骤。然而，描述的顺序不应被解释为暗示这些操作需要以它们所呈现的顺序来执行，甚至也不应被解释为暗示它们是有关顺序的，除非另外指明。此外，短语“在一个实施例中”的重复使用不一定指同一实施例，尽管它能够指同一实施例。应注意，所公开的实施例不需要被解释为互斥的实施例，因为本领域的技术人员能够根据给定应用的需要适当地组合所公开的这些实施例的某些方面。

图1示出了所公开的计算机化工程工具10的一个非限制性实施例的框图。在一个非限制性实施例中，计算机化工程工具10能够涉及在闭环中的相应模块化功能(诸如通过相应用户界面模块)的集成布置，该集成布置包括物理引擎14、神经数据编辑器16、实验编辑器18、神经技能编辑器20和机器学习环境22。

在一个非限制性实施例中，物理引擎14能被配置用于生成多个数据基元24，诸如能够指示：1)将由机器人系统操纵的对象以及机器人系统的操纵器(例如，夹具)的相应的几何形状；2)由机器人系统的成像装置和能够涉及的任何其它传感器(共同地由传感器数据25表示)对对象的感官感知(诸如RGB图像、深度感知和平面分割)；以及3)机器人系统与对象的一个或多个物理交互，诸如当机器人27沿给定轨迹29前进以执行任务时能够涉及的力、加速度、速度、冲击。

在一个非限制性实施例中，神经数据编辑器16能够被配置用于显示(例如，分层布置的)用户可选数据元素的组织列表26，用户可选数据元素形成由物理引擎14生成的数据基元。在一个非限制性实施例中，由神经数据编辑器16所显示的用户可选数据元素的组织列表的用户选择的数据元素的一个或多个数据集28(诸如用神经数据编辑器16内的检查标记示例性地示出)被输入到实验编辑器18中。

在没有限制的情况下，搜索功能能够包括在神经数据编辑器16中，以帮助用户根据例如数据元素的名称、类型和能够基于给定应用的需要适当定制的任何其它期望标准来过滤用户可选数据元素的列表26。例如，关节信息能够由关节索引(相对于给定机器人)、关节名称、关节类型(例如，回转的、棱柱形的、球形的、平面的等)、阻尼、摩擦、位置下限和上限、最大力、最大速度、关节轴线、母框架等组成。另外，物理引擎14中的每个用户限定的实体均能够在神经数据编辑器16中获得。用户限定的实体的非限制性实例能够是轨迹、约束、对象等。应当理解，用户可选数据元素的列表26对于机器学习专家选择并输出训练神经技能能够需要的适当数据元素是有用的。

在一个非限制性实施例中，输入到实验编辑器18中的用户选择的数据元素的一个或多个数据集能够用实验编辑器18准备，以获得用于期望的实验案例的参数数据30。在一个非限制性实施例中，神经技能编辑器20能够被配置用于限定神经网络32，该神经网络32在被执行时服从用实验编辑器18准备的参数数据。例如，能够在实验编辑器18中准备参数数据30，以限定适合于所限定的神经网络的相应输入和输出实例。

应当理解，神经技能编辑器20能够允许图形方法和/或编程方法来限定神经网络32，诸如但不限于能够包括由箭头34示意性表示的层配置和类型、层高度、激活函数、优化器、超参数等。由于在数据与神经网络的架构之间的相互依赖性，神经技能编辑器20和实验编辑器18能够由机器学习专家同时使用。例如，做出的与待从任何给定的设计实验中提取的数据有关的决定能够对神经网络架构有影响，反之亦然。为了便于与用户的交互，工程工具10能够被配置成结合上述各种编辑器来实现对用户友好的视图。例如，如果需要，机器学习专家能够将实验编辑器18和神经技能编辑器20配置成在公共屏幕上并排显示。

如本领域的技术人员所理解的，在没有限制的情况下，上述各种编辑器能够构成对用户“用户友好”的硬件和/或软件模块。即，不难学习或理解。以下是能够在所公开的编辑器中找到的用户友好属性的非限制性实例。

理解相对简单。即，不是过于复杂的而是简单明了的，提供对功能特征和/或设置的快速访问。

组织得体。即，提供组织良好的“外观和感觉”，使得更容易跟踪不同的选项和设置的概念化。

直观。即，被设计为对本领域的技术人员具有逻辑意义，并且被进一步设计为涉及如何与他们交互的非繁琐的解释。

可靠性。即，期望这些模块平稳地操作而不会对用户造成不适当的挫折。

在一个非限制性实施例中，机器学习环境22能够被配置成利用由实验编辑器18准备的参数数据来执行所限定的神经网络，以便在机器学习环境22中学习神经技能，涉及的这些神经技能能够用于实现控制策略的至少一部分，以控制待由机器人系统50的机器人执行的任务序列。机器学习环境22中的学习能够通过本领域的技术人员充分了解的标准机器学习框架来实现，诸如Tensorflow、Keras、Pytorch以及其它机器学习框架。

在一个非限制性实施例中，能够从机器学习环境22提取与正在被学习的神经技能有关的统计特性36。在一个非限制性实施例中，分析器38能够被配置用于分析从机器学习环境22提取的统计特性36，以确定学习的神经技能是否满足期望的目标。

在没有限制的情况下，分析器38能够被配置用于生成与神经网络32的性能有关的图表、统计和绘图，与学习环境22有关的错误或警告，以及被选择用于评估神经技能的性能的度量。

在一方面，如果分析器38确定在机器学习环境22中学习的神经技能满足期望的目标，则技能编写器40能够被配置用于编写编程的技能，诸如包括学习的神经技能并可选地包括手工的技能，涉及的这些手工的技能能够用于实现控制策略的至少其它的部分。

在一个非限制性实施例中，代码生成器42响应于由技能编写器40编写的编程的技能来自动生成计算机可读代码43，计算机可读代码43适合于例如由机器人系统45的机器人控制器44执行以实现控制策略。

在没有限制的情况下，技能编写器40允许机器人学专家有效地获得用于神经技能的代码，并且可选地，如果给定应用需要的话，将这些神经技能与传统的手工的技能结合。手工的技能和/或神经技能能够相应地组成待被扩展的相对较大的程序，以创建更高级的技能。

另一方面，如果分析器38确定在机器学习环境22中学习的神经技能不满足期望的目标，则能够在闭环中执行至少一次迭代，以进行以下调整中的至少一个调整：由物理引擎14对多个数据基元中的至少一个数据基元进行的调整，由神经数据编辑器16对由神经数据编辑器16显示的用户可选数据元素的相应数据集的选择进行的调整，由实验编辑器18为准备用于期望的实验案例的经调整的参数数据的调整，以及对神经技能编辑器20中限定的神经网络进行的调整。

在一个非限制性实施例中，元学习优化器60能够耦合到计算机化工程工具10。元学习优化器60能够被配置用于优化由闭环中所布置的模块提供的相应功能中的至少一个功能。如本领域的技术人员将了解的那样，使用能理解的大量时间和计算，基于人工智能(AI)的系统能够有效地从零开始掌握相对复杂的技能。但是，如果希望开发多种新技能并使这些技能适应不同的环境，则在每种环境中从零开始开发每种新技能不会是有效的。相反，希望学习如何通过适当地调整先前的经验或知识来修改或优化已经开发的任务，而不是孤立地考虑每个新任务。这在概念上类似于避免在每种实例中的“无谓的重复(reinvention of the wheel)”，而是使用元学习优化器60来适当地利用先前的经验或知识来开发新的神经技能。这种学习如何学习或元学习的方法是关于向计算机化工程工具10提供有效多功能性的期望特征，计算机化工程工具能够基于先前的经验或知识持续地学习以优化各种各样的任务。对于渴望涉及某些示例性元学习技术的背景信息的读者，参见2017年7月18日由来自伯克利人工智能研究室(Berkeley Artificial IntelligenceResearch)的Chelsae Finn所著的标题为“Learning to Learn”的文章，其用简明的英语提供了各种元学习方法的介绍性概述。

图2示出了用于通过计算机化工程工具10(图1)为机器人系统开发神经技能的所公开方法论的一个非限制性实施例的流程图。框102允许在计算机化工程工具中布置由相应模块化功能的集成布置所限定的闭环，(诸如通过相应的用户界面模块)包括物理引擎14、神经数据编辑器16、实验编辑器18、神经技能编辑器20和机器学习环境22，如以上在图1的内容中所论述的那样。

框104允许由物理引擎14生成多个数据基元24，数据基元指示：1)待由机器人系统操纵的对象和机器人系统的相应的几何形状，2)对象的感官感知，以及3)机器人系统与对象的一个或多个物理交互。

框106允许由神经数据编辑器16显示用户可选数据元素的组织列表26，用户可选数据元素形成由物理引擎14生成的数据基元。框108允许向实验编辑器18输入由神经数据编辑器16显示的用户可选数据元素的组织列表的用户选择的数据元素的一个或多个数据集。

框110允许向实验编辑器18输入由神经数据编辑器16显示的用户可选数据元素的组织列表的用户选择的数据元素的一个或多个数据集。框112允许用神经技能编辑器20限定神经网络，该神经网络在被执行时服从用实验编辑器18准备的参数数据。

框114允许利用由实验编辑器18准备的参数数据由机器学习环境22执行所限定的神经网络。通过机器学习环境22的执行被配置用于学习神经技能，这些神经技能有效地实现控制策略的至少一部分以控制待由机器人系统50的机器人执行的任务序列。框116允许从机器学习环境22提取与在机器学习环境22中正在被学习的神经技能有关的统计特性。

下面的描述将继续描述其它非限制性方面，这些方面能够结合用于为机器人系统开发神经技能的公开的方法论来执行。

如图3所示，框122允许由计算机化工程工具10的分析器38分析从机器学习环境22提取的统计特性。在一个非限制性实施例中，该分析能够被配置用于确定学习的神经技能是否满足期望的目标。

如图4所示，如果该分析确定学习的神经技能满足期望的目标，则框132允许使用技能编写器40来编写编程的技能，诸如包括学习的神经技能并可选地包括手工的技能，这些手工的技能能够被配置用于实现控制策略的至少其它部分。

如图5所示，框142允许将编程的技能输入到代码生成器42，代码生成器被配置用于生成计算机可读代码，该计算机可读代码适合于由机器人系统50的机器人控制器44执行，以实现控制策略。

如图6所示，如果该分析确定学习的神经技能不满足期望的目标，则框152允许在闭环中执行至少一次迭代，以进行以下调整中的至少一个调整：由物理引擎对多个数据基元中的至少一个数据基元的调整，由神经数据编辑器对由神经数据编辑器显示的用户可选数据元素的相应数据集的选择的调整，由实验编辑器对被配置用于为期望的实验案例准备经调整的参数数据的准备的调整，以及对所限定的神经网络的调整。

如图7所示，框162允许将计算机化工程工具10耦合到元学习优化器60，元学习优化器能够被配置用于通过模块的集成布置来优化相应功能中的至少一个功能。

在操作中，所公开的实施例实现了适当的改进，以更有效地开发神经技能。在没有限制的情况下，所公开的实施例有效地开发能用于连续的自动化机器人控制的神经技能。举例而言，学习的神经技能能够有效地实现机器人的交互控制，并且能包括相对难以建模的交互，诸如能涉及摩擦、接触和冲击交互，例如，在执行任务序列中的相应任务时机器人的关节(例如，夹具)能够发生的交互。

所公开的实施例被认为有利于机器学习网络对于工业自动化和控制的广泛且灵活的适用性，所述工业自动化和控制能够涉及自动化机器人控制。例如，所公开的实施例有助于简化涉及神经技能的开发工作，例如减少开发任何给定机器人系统中涉及的神经技能所涉及的时间。所公开的实施例还有助于降低开发神经技能所涉及的专业水平。

虽然已经以示例性形式公开了本发明的实施例，但是对于本领域的技术人员显而易见的是，在不脱离权利要求中阐述的本发明及其等同物的范围的情况下，能够对本发明进行诸多修改、添加和删除。

Claims

1.一种用于通过计算机化工程工具(10)为机器人系统(50)开发神经技能的方法，所述方法包括：

在所述计算机化工程工具中布置闭环，所述闭环包括相应的模块化功能的集成布置，所述集成布置包括物理引擎(14)、神经数据编辑器(16)、实验编辑器(18)、神经技能编辑器(20)和机器学习环境(22)；

由所述物理引擎生成多个数据基元(24)，所述数据基元指示：1)待由所述机器人系统操纵的对象的相应的几何形状和所述机器人系统的相应的几何形状，2)所述对象的感官感知，以及3)所述机器人系统与所述对象的一个或多个物理交互；

由所述神经数据编辑器显示用户可选数据元素的组织列表(26)，所述用户可选数据元素形成由所述物理引擎生成的所述数据基元；

向所述实验编辑器输入由所述神经数据编辑器显示的所述用户可选数据元素的组织列表的用户选择的数据元素的一个或多个数据集(28)；

用所述实验编辑器准备所述用户选择的数据元素的一个或多个数据集，用于为期望的实验案例准备参数数据(30)；

用所述神经技能编辑器限定神经网络(32)，所述神经网络在被执行时服从用所述实验编辑器准备的所述参数数据；

由所述机器学习环境(22)利用由所述实验编辑器准备的所述参数数据来执行限定的所述神经网络，该执行被配置用于在所述机器学习环境中学习神经技能，所述神经技能有效地实现控制策略的至少一部分以控制待由所述机器人系统的机器人执行的任务序列；以及

从所述机器学习环境提取与在所述机器学习环境中正在被学习的所述神经技能有关的统计特性(36)。

2.根据权利要求1所述的用于开发神经技能的方法，还包括由所述计算机化工程工具的分析器(38)分析从所述机器学习环境提取的所述统计特性，该分析被配置用于确定学习的神经技能是否满足期望的目标。

3.根据权利要求2所述的用于开发神经技能的方法，还包括响应于由所述分析器(38)确定所述学习的神经技能满足所述期望的目标的分析，而由技能编写器(40)编写包括所述学习的神经技能的编程的技能。

4.根据权利要求3所述的用于开发神经技能的方法，其中，由所述技能编写器编写的所述编程的技能还包括被配置用于实现所述控制策略的至少其它部分的手工的技能。

5.根据权利要求4所述的用于开发神经技能的方法，还包括将所述编程的技能输入到代码生成器(42)，所述代码生成器被配置用于生成计算机可读代码(43)，所述计算机可读代码适合由所述机器人系统的机器人控制器(44)执行，以实现所述控制策略。

6.根据权利要求2所述的用于开发神经技能的方法，还包括响应于由所述分析器(38)确定所述学习的神经技能不满足所述期望的目标的分析，而在所述闭环中执行至少一次迭代以进行以下调整中的至少一个调整：

由所述物理引擎(14)对多个数据基元中的至少一个数据基元的调整，由所述神经数据编辑器(16)对由所述神经数据编辑器显示的用户可选数据元素的相应数据集的选择的调整，由所述实验编辑器(18)对被配置用于为期望的实验案例准备经调整的参数数据的准备的调整，以及由所述神经技能编辑器(20)对限定的所述神经网络(32)的调整。

7.根据权利要求1所述的用于开发神经技能的方法，还包括将所述计算机化工程工具耦合到元学习优化器(60)，所述元学习优化器被配置用于通过相应模块化功能的所述集成布置优化相应功能中的至少一个功能。

8.一种用于为机器人系统(50)开发神经技能的计算机化工程工具(10)，所述计算机化工程工具包括：

在闭环中的相应模块化功能的集成布置，所述集成布置包括物理引擎(14)、神经数据编辑器(16)、实验编辑器(18)、神经技能编辑器(20)和机器学习环境(22)，

其中，所述物理引擎被配置用于生成多个数据基元(24)，所述数据基元指示：1)待由所述机器人系统操纵的对象的相应的几何形状和所述机器人系统的操纵器的相应的几何形状，2)所述对象的感官感知，以及3)所述机器人系统与所述对象的一个或多个物理交互，

其中，所述神经数据编辑器被配置用于显示用户可选数据元素的组织列表(26)，所述用户可选数据元素形成由所述物理引擎生成的数据基元；

其中，由所述神经数据编辑器显示的所述用户可选数据元素的组织列表的用户选择的数据元素的一个或多个数据集(28)被输入到所述实验编辑器中；

其中，所述用户选择的数据元素的一个或多个数据集利用所述实验编辑器来准备，以获得用于期望的实验案例的参数数据(30)；

其中，所述神经技能编辑器(20)被配置用于限定神经网络(32)，所述神经网络在被执行时服从用所述实验编辑器准备的所述参数数据；

其中，所述机器学习环境(22)被配置用于利用由所述实验编辑器准备的所述参数数据来执行所限定的神经网络，以便在所述机器学习环境中学习神经技能，所述神经技能有效地实现控制策略的至少一部分以控制待由所述机器人系统的机器人执行的任务序列；并且

其中，从所述机器学习环境提取与正在被学习的神经技能有关的统计特性(36)。

9.根据权利要求8所述的计算机化工程工具，还包括分析器(38)，所述分析器被配置用于分析从所述机器学习环境提取的所述统计特性，以确定学习的神经技能是否满足期望的目标。

10.根据权利要求9所述的计算机化工程工具，还包括技能编写器(40)，所述技能编写器被配置用于响应于所述分析器(38)确定所述学习的神经技能满足所述期望的目标而编写包括所述学习的神经技能的编程的技能。

11.根据权利要求10所述的计算机化工程工具，其中，由所述技能编写器(40)编写的所述编程的技能还包括被配置用于实现所述控制策略的至少其它部分的手工的技能。

12.根据权利要求11所述的计算机化工程工具，还包括代码生成器(42)，所述代码生成器响应于所述编程的技能而生成计算机可读代码，所述计算机可读代码适合由所述机器人系统的机器人控制器(44)执行，以实现所述控制策略。

13.根据权利要求9所述的计算机化工程工具，其中，响应于所述分析器(38)确定所述学习的神经技能不满足所述期望的目标，所述计算机化工程工具被配置用于在闭环中执行至少一次迭代，以进行以下调整中的至少一个调整：

由所述物理引擎(14)对多个数据基元中的至少一个数据基元的调整，由所述神经数据编辑器(16)对由所述神经数据编辑器显示的用户可选数据元素的相应数据集的选择的调整，由所述实验编辑器(18)为准备用于期望的实验案例的经调整的参数数据的调整，以及由所述神经技能编辑器(20)对限定的神经网络的调整。

14.根据权利要求8所述的计算机化工程工具，其中，元学习优化器(60)耦合到所述计算机化工程工具，所述元学习优化器被配置用于通过所述相应模块化功能的所述集成布置优化相应功能中的至少一个功能。