CN110662634B

CN110662634B - 用于控制关节型机器人的致动器的系统和方法

Info

Publication number: CN110662634B
Application number: CN201880034424.6A
Authority: CN
Inventors: 萨米·哈达丁; 拉尔斯·约翰斯梅勒
Original assignee: Franka Emika GmbH
Current assignee: Franka Emika GmbH
Priority date: 2017-05-29
Filing date: 2018-05-29
Publication date: 2022-12-23
Anticipated expiration: 2038-05-29
Also published as: JP2020522394A; KR20200033805A; CN110662634A; EP3634694A1; US20200086480A1; WO2018219943A1; JP7244087B2; KR102421676B1

Abstract

本发明涉及一种用于控制关节型机器人(80)的致动器并且用于使机器人(80)能够执行给定任务的系统，该系统包括第一单元(101)、第二单元(102)，该第一单元(101)根据任务提供可从技能空间选择的机器人技能s的规范，其中第二单元(102)连接到第一单元(101)且还连接到学习单元(103)和自适应控制器(104)，其中自适应控制器(104)接收技能命令χ_cmd，其中技能命令χ_cmd包括技能参数P_I，其中控制器(104)根据技能命令χ_cmd控制机器人(80)的致动器，其中机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计并反馈给控制器(104)和第二单元(102)，其中第二单元(102)基于实际状态确定由机器人(80)执行的技能的表现Q(t)，并且其中学习单元(103)接收P_D和来自第二单元(102)的Q(t)，确定更新的技能参数P_I(t)，并将P_I(t)提供给第二单元(102)以替换迄今为止已有的技能参数P_I。

Description

用于控制关节型机器人的致动器的系统和方法

技术领域

本发明涉及一种用于控制关节型机器人(articulated robot)的致动器的系统和方法。

背景技术

编程复杂机器人的传统方式有时会寻求变得更加直观，以使不仅专家而且车间工人，也就是说非专业人员，都可以利用机器人以进行他们的工作。在这种背景下，术语“技能”和“基于任务的编程”非常重要。“技能”尤其是机器人的预定动作或运动的某种形式的表示。存在几种使用技能进行编程的方法，例如[1]、[2]、[3]，并且它们特别地大多数情况下是独立地于控制器查看的，也就是说，特别地，控制器仅执行由技能实施所计算的命令。从中可以看出，底层控制器是用于操纵技能的共同因素，并且因此提供由它们共享的一组参数。但是，根据常识，对所有操作技能使用相同的参数值通常效率不高甚至不可行。通常，甚至不可能在不同环境中考虑相同技能。根据特定的情况，必须调整参数以便考虑不同的环境特性，例如所涉及对象的较粗糙的表面或不同质量。可以在给定的确定性范围内选择参数，以使得关于特定成本函数最优地或至少接近最优地实现技能。特别地，成本函数和约束条件通常由人类用户出于某种意图定义，例如接触力低、执行时间短或机器人的功耗低。在这种情况下，重要的问题是调整控制器参数，以便在参数空间中找到使这种成本函数最小化的区域，或者在不需要具有除了任务规范以及机器人能力以外的任何关于任务的预备知识的情况下找到首先可行的区域。提出了以不同方式应对这一问题的几种方法，例如[4]，其中描述了通过演示学习运动技能的方法。在[5]中，介绍了一种基于强化学习的方法，可以从演示中获得新的运动技能。[6]、[7]的作者采用强化学习方法来学习代表技能的运动原语。在[8]中，通过演示方法进行有监督的学习与动态运动原语一起使用，以学习模拟中的双足步行。在[9]中可以找到一种利用随机实值增强学习算法结合非线性多层人工神经网络来学习机器人技能的早期方法。[10]中显示了软机器人技术，而[11]中显示了将这种思想应用于复杂操纵问题的阻抗控制。[12]中介绍了自适应阻抗控制器。两者都根据运动错误并基于四个物理上有意义的元参数而在执行期间进行调整。由此产生的问题是，如何针对环境和当前问题选择这些元参数。

发明内容

本发明的目的是提供一种用于改进机器人操纵技能的学习的系统和方法。

本发明的第一方面涉及一种用于控制关节型机器人的致动器并用于使该机器人能够执行给定任务的系统，该系统包括：

-第一单元，其根据任务提供从技能空间中可选择的机器人技能的规范，其中机器人技能s被定义为元组(S,O,C_pre,C_err,C_suc,R_m,χ_cmd,X,P,Q)，其中：

S：I子空间ζ_i的笛卡尔积S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I，其中i＝{l,2,....,I}且I≥2，

O：物理对象集，

C_pre：前提条件，

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中P由三个子集P_t，P_I，P_D组成，其中P_t是从任务的先验知识得到的参数，P_I是最初未知且需要在任务的执行过程中学习和/或估计的参数，并且P_D是参数P_I的约束，

Q：表现度量，而Q(t)表示由机器人执行的技能的实际表现，

-第二单元，其中第二单元连接到第一单元，并且还连接到学习单元和自适应控制器，其中自适应控制器接收技能命令χ_cmd，其中技能命令χ_cmd包括技能参数P_I，其中，基于技能命令χ_cmd，控制器控制机器人的致动器，其中机器人的实际状态由相应的传感器感测和/或由相应的估计器估算，并反馈到控制器和第二单元，其中基于实际状态，第二单元确定由机器人执行的技能的表现Q(t)，并且其中学习单元接收P_D和来自第二单元的Q(t)，确定更新的技能参数P_I(t)并将P_I(t)提供到第二单元，以替换迄今为止已有的技能参数P_I。

优选地，子空间ζ_i包括控制变量(特别是期望的变量)或者对机器人或测量状态的外部影响，特别是外力旋量(external wrench)，外力旋量特别包括外力和外力矩。

优选的自适应控制器的推导如下：

考虑机器人动态：

其中M(q)表示对称的正定质量矩阵，

为科里奥利(Coriolis)和离心扭矩，且g(q)为重力矢量。控制定律被定义为：

其中，F_ff(t)表示前馈力旋量(feed-forward wrench)，K(t)为刚度矩阵，D为阻尼矩阵，J(q)为雅可比行列式(Jacobian)。位置和速度错误分别用e＝[e_t,e_r]^T和

表示。e_t＝x^*-x是平移位置错误，而e_r＝θ^*-θ是旋转角度轴错误。动态补偿器τ_r被定义为：

前馈力旋量F_ff被定义为：

其中，F_d(t)是可选的初始时间相关轨迹，而F_ff,0是积分器的初始值。控制器通过以下公式适应前馈力旋量和刚度：

δF_ff(t)＝F_ff(t)-F_ff(t-T) (5)

...＝α(∈-γ_α(t)F_ff(t)) (6)

和

δK(t)＝K(t)-K(t-T) (7)

自适应跟踪错误被定义为：

其中K>0。正定矩阵α,β,γ_a和γ_β分别表示用于前馈、刚度和遗忘因子的学习率。阻尼D是根据[21]设计的，并且T是控制器的采样时间。

通过以上解释，基本上给出了优选的自适应控制器。

优选的γ_a和γ_β通过约束推导出，如下：

自适应阻抗控制器的第一个约束是刚度自适应速度的上限

将c_α：＝αγ_α和

插入到(8)，并与有界的刚度变化率一起，导出关系如下：

如果假设K(t＝0)且

e_max优选地被定义为在

成立时的错误的量。此外，K_max表示绝对最大刚度，任何现实世界中受阻抗控制的机器人的另一个约束。然后，β的最大值可以写为：

由于当K_max达到时δK(t)＝0且

所以(10)可重写为：

最终，适配参数变成

和

寻找对前馈力旋量的适应优选类似地进行。这样，a和β的上限特别地与固有的系统能力K_max和F_max有关，以导致最快的可能适应性。

通过以上解释，推导出优选的γ_a和γ_β。

推出的技能公式特别关注抽象技能、元学习(通过学习单元)和自适应控制之间的相互作用。该技术特别向自适应控制器提供期望的命令和轨迹以及元参数和用于执行任务的其他相关量。另外，技能特别地包括学习单元的质量度量和参数域，同时特别地接收所学习的执行中使用的参数的集合。自适应控制器特别通过期望的关节扭矩来命令机器人硬件并接收感官反馈。最后，技能公式特别地使容易连接到高级任务计划模块成为可能。机器人技能s的规范从第一单元优选被提供如下：

在主要关注操作对象的概念的意义上，以下优选的技能公式是以对象为中心的。这种方法的优点是其简单的符号和直观的可解释性。更大的直观性方面是基于与自然语言的相似性：

定义1(技能)：技能s是技能空间的元素。它被定义为一个元组(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)。

定义2(空间)：令S为与技能s相关的I子空间

的笛卡尔积，即：S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I其中i＝{1,2,…,I}且I≥2。

优选地，子空间ζ_i包括控制变量(特别是期望变量)或者对机器人或测量状态的外部影响，特别是外力旋量，外力旋量特别包括是外力和外力矩。

定义3(对象)：令o表示物理对象，物理对象具有与其相关联的坐标°X(t)∈S。O表示与技能s相关的物理对象的集合o∈O，其中n_o＝|O|且n_o＞0。此外，将X(t)定义为

注意，在这些考虑中，在技能执行期间集合O不发生变化，即n_o＝常数。

定义4(任务框架)：任务框架°R_TF(t)表示从框架TF到基本框架0的旋转。注意，我们假设°RTF(t)＝常数。

定义5(参数)：P表示由三个子集P_t、P_I和P_D组成的所有技能参数的集合。集合

包含从先验任务知识、经验和执行技能的意图中得出的所有参数。在这种情况下，P_t还也称为任务规范。集合

包含并非必须事先已知并且需要学习或估计的所有其他参数。特别地，它包含用于自适应控制器的元参数(α,β,γ_α,γ_β)。第三子集

定义了用于P_I的有效域，即，它由用于连续参数的值区间或用于离散参数的值的集合组成。因此，当学习P_I时，P_D确定界限。

条件：优选有技能执行所涉及的三种条件类型：前提条件、失败条件和成功条件。它们都具有相同的基本定义，但其应用却大不相同。他们的目的是从头到尾定义技能的界限和限制；

定义6(条件)：令

为闭集，且c(X(t))为函数c：S→B，其中B＝{0,1}。条件成立iff c(X(t))＝1。请注意，映射本身取决于条件的特定类型。

定义7(前提条件)：C_pre表示由C_pre(X(t))定义的前提条件成立所选择的集合。条件成立，即

t_o表示开始执行技能时的时间。这意味着在技能执行的开始时，每个所涉及的对象的坐标必须在C_pre中。

定义8(错误条件)：C_err表示错误条件c_err(X(t))成立所选择的集合，即c_err(X(t))＝1。这是从

得出的。如果在时间t处满足错误条件，则技能执行被中断。在此，这里不做关于如何解决该错误状态的假设，因为这特别地依赖于实际的技术实施以及高级控制和计划机构的能力。

定义9(成功条件)：C_suc表示由c_suc(X(t))定义的成功条件成立所选择的集合，即

如果所有涉及的对象的坐标都在C_suc内，择技能执行可以成功终止。这并不是说该技能必须终止。

定义10(标称结果)：标称结果R∈S是技能执行的理想终点，即收敛点。尽管标称结果R是该技能的理想目标，但如果成功条件C_suc成立，则认为其执行成功。尽管如此，X(t)收敛到这一点。但是，如果有两个或多个在排队，则可以从一项技能协调(blend)到另一项技能。

定义11(技能动态)：令X：[t₀,∞]→P为一般的动态过程，其中t₀表示技能执行的开始。如果

则该过程可以终止。

它收敛到标称结果R。此动态过程根据输入(即具体实施)对技能实际执行的操作进行编码。优选地，这是以下之一：轨迹生成器、DMP或计算基于传感器的速度或力命令的其他算法。结束时间t_e不必是已知的先验。例如，对于搜索技能，由于搜索问题的本质，其无法确定它何时终止。

定义12(命令)：令

为技能命令，即由发送给控制器的TF中定义的速度和力组成的期望轨迹。

定义13(质量度量)：Q表示所有的2元组(w,f_q(X(t))的集合，其中0<w<1且约束为f_c,i(X(t))。此外，令q＝∑_i

质量度量是评估技能的表现并对其施加质量约束的一种手段。该评估旨在比较相同技能的两个不同实施方式或参数P的两个不同集合。约束可以例如用于提供用于特定任务(例如特定时间限制)的质量限制的测量。注意，质量度量反映了一些标准，该标准是从执行技能的整个过程中得出的或由人工监督员给出的。此外，一个优选实施例是，技能具有几种不同的度量来解决最优性的不同需求。

通过以上内容，从第一单元以优选的方式提供了机器人技能s的规范。

学习单元优选地被推导出如下：

学习单元应用元学习，其特别地意味着找到正确的(最佳)参数p^*∈P_l，以用于解决给定的任务。要求：为了学习控制器元参数以及其他参数(例如执行速度)，将评估几种潜在合适的学习方法。该方法将面临以下问题：

-问题没有可行的分析解决方案，

-梯度(Gradients)通常是不可用的，

-现实世界中的问题本质上是随机的，

-没有假设最小值或成本函数凸性，

-违反安全、任务或质量约束，

-大的过程噪音和许多重复，

因此，一种合适的学习算法将必须满足以下要求：

·数字黑盒优化，

·无需梯度，

·必须考虑随机性，

·全局优化器

·处理未知和噪音约束，

·快速收敛速度。

优选地，在学习单元中应用以下用于元学习的算法之一或其组合：网格搜索、纯随机搜索、梯度下降族、进化算法、粒子群、贝叶斯优化。

通常，基于梯度下降的算法要求梯度可用。网格搜索和纯随机搜索以及进化算法通常不假定随机性，并且在没有广泛了解它们优化的问题(即利用消息灵通的屏障函数)的情况下无法处理未知约束。后一点也适用于粒子群算法。只有根据[25]的贝叶斯优化方法能在优化过程中显式处理未知的噪声约束。另一个且确定的其中一个主要要求是，如果可能的话，几乎不需要手动调整。选择例如学习率或对噪声进行明确假设会脱离这种意图。显然地，此要求在很大程度上取决于具体的实施，但也取决于优化程序类及其相应的要求。

考虑到所有提到的要求，优选地应用从[26]、[27]、[28]、[25]中已知的留兰香(spearmint)算法。这种特定的实施不需要手动调整，只需要事先一次指定先验和习得函数(acquisition function)即可。

更优选地，应用贝叶斯优化。优选地，其实现和实施如下：

通常，贝叶斯优化(BO)通过建立f(p)的统计模型来在一些有界集合X上找到未知的目标函数f(p)的最小值。除成本函数外，它还有两个主要部分，它们是先验和习得函数。先验：特别地，高斯过程被用作先验来推导关于被优化的函数的假设。高斯过程具有均值函数

和协方差函数

作为内核，优选使用自动相关性确定(ARD)Matérn5/2内核，它由下式给出：

其中

该内核在d个维度上具有d+3个超参数，即每个维度一个特征长度标度、协方差幅度θ₀、观测噪声v和常数均值m。这些内核超参数通过切片采样[29]应用马尔可夫链蒙特卡罗(MCMC)进行整合。习得函数：如[30]中所述，优选地，具有约束的预测熵搜索(PESC)被用作选择下一个要探索的参数x的手段。成本函数：优选地，如以上定义的成本度量Q被直接用于评估参数P_l的特定集合。同样，通过使用条件C_suc和C_err可以评估技能的成功或失败。如[25]中所述，贝叶斯优化可以直接使用成功和失败条件以及Q中的约束。

本发明具有以下优点：来自[12]的自适应控制器被扩展到笛卡尔空间和全前馈跟踪。提供一种基于阻抗控制的实际世界约束的自适应控制器的新颖的元参数设计。介绍一种新颖的公式来描述机器人的操作技能并缩小高级规范和低级自适应交互控制之间的差距。通过贝叶斯优化[14]进行元学习(其在机器人技术[16]、[17]、[18]中经常应用)是自适应阻抗控制和高级技能规范之间缺少的计算链接。介绍一种统一的框架，该框架将所有的自适应阻抗控制、元学习和技能规范组成一个闭环系统。

根据本发明的实施例，自适应控制器通过δF_ff＝F_ff(t)-F_ff(t-T)来适应前馈力旋量和刚度。

根据本发明的另一个实施例，学习单元执行贝叶斯和/或HiREPS优化/学习。

HiREPS是“分层相对熵策略搜索(Hierarchical Relative Entropy PolicySearch)”的缩写。

根据本发明的另一个实施例，该系统包括具有数据网络的数据接口，并且该系统被设计和设置成从数据网络下载用于设置和控制系统的系统程序。

根据本发明的另一个实施例，系统被设计和设置成从数据网络下载用于系统程序的参数。

根据本发明的另一个实施例，该系统被设计和设置成经由本地输入接口和/或经由教学过程来输入用于系统程序的参数，其中机器人被手动引导。

根据本发明的另一个实施例，系统被设计和设置成使得由远程站控制从数据网络下载系统程序和/或相应的参数，并且其中远程站是数据网络的一部分。

根据本发明的另一个实施例，系统被设计和设置成使得：基于从数据网络接收的相应请求，将系统程序和/或在系统处本地可用的相应的参数发送到数据网络的一个或多个参与者。

根据本发明的另一个实施例，系统被设计和设置成使得可以从远程站启动具有在系统处本地可用的相应参数的系统程序，并且其中远程站是数据网络的一部分。

根据本发明的另一个实施例，系统被设计和设置成使得远程站和/或本地输入接口包括人机接口HMI，该人机接口HMI被设计和设置用于输入系统程序和相应的参数和/或用于从多个系统程序和相应的参数中选择系统程序和相应的参数。

根据本发明的另一个实施例，人机接口HMI被设计和设置成使得：可以通过以下方式输入：在触摸屏上拖放、引导对话、键盘、计算机鼠标、力觉接口(haptic interface)、虚拟现实接口、增强现实接口、声学接口、经由人体跟踪接口、基于肌电图数据、基于脑电图数据、经由神经元接口或其组合。

根据本发明的另一个实施例，人机接口HMI被设计和设置成传递听觉反馈、视觉反馈、力觉反馈、嗅觉反馈、触觉反馈或电反馈或其组合。

本发明的另一方面涉及一种具有如以上和以下所示的系统的机器人。

本发明的另一方面涉及一种用于控制关节型机器人的致动器并使该机器人能够执行给定任务的方法，该机器人包括第一单元、第二单元、学习单元和自适应控制器，该第二单元连接到第一单元，并且还连接到学习单元和自适应控制器，包括以下步骤：

-由第一单元(101)根据任务提供从技能空间中可选择的机器人技能s的规范，其中机器人技能s被定义为元组(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)，其中：

S：I子空间ζ的笛卡尔积:S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I，其中i＝{1，2，....，I}且I≥2，

O：对象的集合，

C_pre：前提条件

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中P由三个子集P_t,P_l,P_D组成，其中P_t是从任务的先验知识中得出的参数P_I，P_I是最初未知且在任务的执行过程中需要学习和/或估计的参数，并且P_D是参数P_I的约束，

Q：表现度量，而Q(t)表示由机器人执行的技能的实际表现，

-自适应控制器从第二单元接收技能命令χ_cmd，

其中第二单元连接到第一单元并且还连接到学习单元和自适应控制器，并且其中技能命令χ_cmd包括技能参数P_I，

-由控制器并且基于技能命令χ_cmd来控制机器人的致动器，其中，机器人的实际状态由相应的传感器感测和/或由相应的估计器估计，并反馈给控制器和第二单元，

-由第二单元并基于实际状态，确定由机器人执行的技能的Q(t)，

-学习单元从第二单元接收P_D和Q(t)，以及

-确定更新的技能参数P_I(t)，并将P_I(t)提供给第二单元并替换迄今为止已有的技能参数P_I。

优选地，子空间ζ_i包括控制变量(特别是期望变量)或者对机器人或测量状态的外部影响，特别是外力旋量，外力旋量包括特别地外力和外力矩。

本发明的另一方面涉及一种具有数据处理单元的计算机系统，其中，所述数据处理单元被设计和设置成执行根据前述权利要求中的一项所述的方法。

本发明的另一方面涉及一种具有电子可读控制信号的数字数据存储器，其中，所述控制信号可以与可编程计算机系统协作，从而执行根据前述权利要求中的一项所述的方法。

本发明的另一方面涉及一种计算机程序产品，该计算机程序产品包括存储在机器可读介质中的程序代码，当该程序代码在计算机系统上执行时，用于执行根据前述权利要求中的一项所述的方法。

本发明的另一方面涉及一种具有程序代码的计算机程序，当该计算机程序在计算机系统上运行时，用于执行根据前述权利要求中的一项所述的方法。

上面提到的现有技术的来源和其他来源如下：

[1]：M.R.Pedersen,L.Nalpantidis,R.S.Andersen,C.Schou,S.

V.Krüger,和O.Madsen，“用于制造的机器人技能：从概念到工业部署”，《机器人技术和计算机集成制造》，2015年。

[2]：U.Thomas,G.Hirzinger,B.Rumpe,C.Schulze,和A.Wortmann，“使用uml/p状态图的基于新技能的机器人编程语言”，《机器人与自动化(ICRA)》，2013年IEEE国际会议，IEEE，2013年，第461-466页。

[3]：R.H.Andersen,T.Solund,和J.Hallam，“用于工业机器人共事的硬件独立机器人技能的定义和最初的基于案例的评估”；ISR/Robotik 2014年；第41届国际机器人技术研讨会；VDE会议录，2014，第1-7页。

[4]：P.Pastor,H.Hoffmann,T.Asfour,和S.Schaal，“通过演示学习来学习和掌握运动技能”，《机器人与自动化》，2009年。CRA'09；IEEE国际会议；IEEE，2009年第763-7682页。

[5]：P.Pastor,M.Kalakrishnan,S.Chitta,E.Theodorou,和S.Schaal，“用于操纵的技能学习和任务结果预测”，机器人技术和自动化”(ICRA)，2011年；IEEE国际会议；IEEE，2011年，第3828-3834页。

[6]：J.Kober和J.Peters，“学习机器人的运动原语”，机器人和自动化，2009年。ICRA'09；IEEE国际会议。IEEE，2009年，第2112-2118页。

[7]：J.Kober和J.R.Peters，“用于在机器人技术中运动原语的策略搜索”，《在神经信息处理系统中的进展》，2009年，第849-856页。

[8]：S.Schaal,J.Peters,J.Nakanishi,和A.Ijspeert，“学习运动原语”《机器人研究》。第十一届国际研讨会。斯普林格，2005年，第561-572页。

[9]：V.Gullapalli,J.A.Franklin,和H.Benbrahim，“通过强化学习习得机器人技能”，《IEEE控制系统》，1994年，第14卷，第1号，第13-24页。

[10]：A.Albu-Schaffer,O.Eiberger,M.Grebenstein,S.Haddadin,C.Ott,T.Wimbock,S.Wolf,和G.Hirzinger，“软机器人”，《IEEE机器人与自动化》杂志，2008年，第15卷，第3号。

[11]：S.Part，“阻抗控制：一种操纵方法”，《动态系统、测量与控制》杂志，1985年，第107卷，第17页。

[12]：C.Yang,G.Ganesh,S.Haddadin,S.Parusel,A.Albu-

和E.Burdet，“在稳定和不稳定的相互作用中类似于人的力和阻抗的适应性”，《机器人技术》，IEEE论文集，2011年，第27卷，第5号，第918-930页。

[13]：E.Burdet,R.Osu,D.Franklin,T.Milner,和M.Kawato，“中枢神经系统通过学习最佳阻抗来稳定不稳定的动态”，《自然》，2001年，第414卷，第446-449页。在线获得：http：//dx.doi.org/10.1038/35106566

[14]B.Shahriari，K.Swersky，Z.Wang，R.P.Adams和N.de Freitas，“将人类带出循环：贝叶斯优化综述”，IEEE论文集，2016年第104卷第1号第148-175页。

[15]：M.D.McKay,R.J.Beckman,和W.J.Conover，“在计算机代码输出分析中用于选择输入变量值的三种方法的比较”，《技术计量学》，1979年，第21卷，第2号，第239-245页。

[16]：R.Calandra,A.Seyfarth,J.Peters,和M.P.Deisenroth，“在不确定性下学习步态的贝叶斯优化”，《数学和人工智能年鉴》，2016年，第76卷，第1-2号，第5-23页。

[17]：J.Nogueira,R.Martinez-Cantin,A.Bernardino,和L.Jamone，“用于安全机器人抓取的无先导的贝叶斯优化”，arXiv预印本，arXiv：1603.02038，2016年。

[18]：F.Berkenkamp,A.Krause和A.P.Schoellig，“具有安全约束的贝叶斯优化：机器人技术中的安全和自动参数调整”，arXiv预印本，arXiv：1602.04450，2016年。

[19]：G.Ganesh,A.Albu-

M.Haruno,M.Kawato和E.Burdet，“用于在交互任务中同时适应力、阻抗和轨迹的仿生运动行为”，《机器人与自动化(ICRA)》，2010IEEE国际会议，IEEE，2010年，第2705-2711页。

[20]：J.-J.E.Slotine,W.Li等，《应用非线性控制》。Prentice-hall EnglewoodCliffs，新泽西州，1991年，第199卷，第1号。

[21]：A.Albu-

C.Ott,U.Frese,和G.Hirzinger，“冗余机器人的笛卡尔阻抗控制：DLR-轻型臂的最新结果”，在IEEE Int.Conf.《机器人技术与自动化》，2003年，第3卷，第3704-3709页。

[22]：G.Hirzinger,N.Sporer,A.Albu-

M.Hahnle,R.Krenn,A.Pascucci和M.Schedl，“Dlr的扭矩控制轻型机器人iii-我们现在达到技术极限了吗？”，《机器人技术与自动化》，2002年。会议录，ICRA'02。IEEE国际会议，2002年，IEEE，第2卷，第1710-1716页。

[23]：L.Johannsmeier和S.Haddadin，“用于协作式工业装配过程中任务分配的层次化人机交互计划框架”，IEEE《机器人技术与自动化快报》，2017年，第2卷，第1号，第41-48页。

[24]：R.Calandra,A.Seyfarth,J.Peters,和M.P.Deisenroth，“用于双足运动的贝叶斯优化的实验比较”，《机器人技术与自动化(ICRA)》，2014年IEEE国际会议，IEEE，2014年，第1951-1958页。

[25]：J.Snoek，“贝叶斯优化和半参数模型及其在辅助技术中的应用”，博士学位论文，多伦多大学，2013年。

[26]：J.Snoek，H.Larochelle和R.P.Adams，“机器学习算法的实用贝叶斯优化”，《神经信息处理系统进展》，2012年，第2951-2959页。

[27]：E.Brochu,V.M.Cora,和N.De Freitas，“关于昂贵成本函数的贝叶斯优化的教程，适用于活跃用户建模和分层强化学习”，arXiv预印本，2010年arXiv.1012.2599。

[28]：K.Swersky,J.Snoek和R.P.Adams，“多任务贝叶斯优化”，《神经信息处理系统进展》，2013年第2004-2012页。

[29]：R.M.Neal，“切片抽样”，《统计年鉴》，2003年第705-741页。

[30]：J.M.Herna′ndez-Lobato,M.A.Gelbart,M.W.Hoffman,R.P.Adams和Z.Ghahramani，“用于具有未知约束的贝叶斯优化的预测熵搜索”。在ICML中，2015年第1699-1707页。

附图说明

图1示出了根据本发明的第一实施例的轴孔(peg-in-hole)的技能，

图2显示了根据本发明的另一个实施例的技能动态的概念图，

图3示出了根据本发明的第三实施例的用于控制关节型机器人的致动器的方法，

图4示出了根据本发明的另一个实施例的用于控制关节型机器人的致动器并使机器人能够执行给定任务的系统，

图5以不同的细节水平示出了图4的系统，和

图6示出了根据本发明的另一个实施例的用于控制关节型机器人的致动器并使该机器人能够执行给定任务的系统。

具体实施方式

在图1中，示出了用于标准操纵问题的技能框架的应用，即技能“轴孔”。在图的左半部分，机器人80位于合适的感兴趣区域ROI 1中，其中被抓握的轴(peg)3与带有孔5的物体表面接触。该技能命令由基于速度的搜索算法产生的速度，旨在使用一致对准来找到孔5，并且然后将轴3插入孔5中。在对准阶段，垂直向下(图1中向下)和向左施加前馈力。同时，对准运动包括围绕两个水平轴线的基本旋转(从左到右并且进入图1中的纸平面)。在插入阶段，技能命令

直到x_d达到所需的深度。同时，垂直的李萨如(Lissajous)速度

被覆盖。如果轴3达到期望的深度，则该技能成功。该技能被定义为如下：

S＝{x,R,F_ext,τ_ext},其中

是笛卡尔空间中的位置，

是方向，

是外力和扭矩的力旋量(wrench)，并且

是外扭矩的向量，其中n表示关节数。物体O＝{r,p,h}，其中r是机器人80，p是被机器人80抓住的物体或轴3，并且h是孔5。C_pre＝{X∈S|f_ext,z>f_contact,x∈U(x),g(r,p)＝1}表示机器人80将感测到的具体的接触力f_contact，并且轴3必须位于由U(.)定义的感兴趣区域ROI 1内。函数g(r,p)将已经抓住轴3的机器人r 80的状态简化成二进制映射。C_suc＝{X∈S|x_z>x_z,0+d}表示轴3必须部分地插入到了孔5中至少d，以用于技能成功终止。理想情况下，d是孔5的深度。

C_err＝{X∈S|,τ_ext>τ_max}表示如果机器人80离开ROI 1或外部转矩超出某些指定的安全限制分量形式，则该技能失败。P＝{P_t,P_I}，其中

和P_l＝{α_t,α_r,β_t,β_r,F_ff,0,v_t,v_r}。a是李萨如曲线的振幅，d是期望深度，

是孔5的姿态估计，并且r是感兴趣区域ROI 1的半径。控制器参数α，β和F_ff,0在如上述概括说明中适用，v是速度并且标记t，r分别指的是平移方向和旋转方向。Q_time＝{t_e-t_s,f_z,max＝max_t f_ext,z}，其中t_e和t_s是技能执行的开始和结束时间，而f_ext,z是z方向上的外力。该度量旨在最小化执行时间并同时在插入方向上遵循最大水平的接触力。

图2显示了技能动态的概念图。在执行开始时，所有坐标，即所有物理对象O，都驻留在S的C_pre中，前提条件对其成立。然后，技能动态朝向成功状态C_suc将系统驱动通过技能空间，并且最终达到标称结果R。有效技能空间被C_err包围。缩写“D.<数字>”是指以下定义，使得例如“D.4”指的是即将到来的描述中的定义4。该技能将期望的命令和轨迹以及用于执行任务的元参数和其他相关量一起提供给自适应控制器104。另外，技能在接收在执行中使用的学习的参数集的同时包含到学习单元103的学习算法的质量度量和参数域。自适应控制器104通过期望的关节扭矩命令机器人硬件并接收传感器反馈。最后，技能公式使得容易连接到高级任务计划模块成为可能。应用以下优选的技能形式体系：

定义1(技能)：技能s是技能空间的元素。它定义为元组(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)。

定义2(空间)：令S为与技能S相关的I子空间

的笛卡尔积，即S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I,其中i＝{1,2,…,I}且I≥2，其中子空间包括控制变量和包括外力和外力矩的外力旋量。

定义3(对象)：令o表示具有与其相关联的坐标°X(t)∈S的物理对象。O表示与技能与s相关的所有对象的集合o∈O，其中n_o＝|O|且n_o＞0。此外，将X(t)定义为

在这些考虑因素中，集合O在技能执行期间不变化，即n_o＝常数。

定义4(任务框架)：任务框架°R_TF(t)表示从框架TF到基本框架O的旋转。假定°R_TF(t)＝常数。

定义5(参数)：P表示由三个子集P_t,P_l和P_D组成的所有技能参数的集合。集合

包含由先天任务知识、经验和执行技能的意图产生的所有参数。P_t也称为任务规范。集合

包含并非必须事先已知并且需要学习或估计的所有其他参数。特别地，它包含用于自适应控制器104的元参数(α,β,γ_α,γ_β)。第三子集

定义了P_I的有效域，即它由用于连续参数的值的间隔或用于离散参数的值集合组成。因此，P_D确定学习P_I时的界限。

条件：具有技能执行所涉及的三种条件类型：前提条件、失败条件和成功条件。它们都具有相同的基本定义，但其应用却大不相同。他们的目的是从头到尾定义技能的界限和限制:

定义6(条件)：令

为闭集，且令c(X(t))为函数c：S→B，其中B＝{0，1}。条件满足iff c(X(t))＝1。映射本身取决于条件的特定类型。

t₀表示技能执行开始时的时间。这意味着在技能执行开始时，每个所涉及的对象的坐标必须在C_pre中。

得出的。如果在时间t处满足错误条件，则技能执行将中断。关于如何解决该错误状态不做假设，因为这取决于实际技能实施和高级控制和计划机构的能力。

如果所有涉及的对象的坐标都在C_suc内，则技能执行可以成功终止。

定义10(标称结果)：标称结果R∈S是技能执行的理想终点，即收敛点。

尽管标称结果R是该技能的理想目标，但是如果成功条件为C_suc成立，则认为其执行成功。尽管如此，X(t)收敛到这一点。

定义11(技能动态)：令X:[t₀,∞]→P为一般的动态过程，其中t₀表示技能执行的开始。如果

则该过程终止。

它收敛到标称结果R。此动态过程根据输入(即具体实施)对技能实际执行的操作进行编码。这是轨迹生成器，DMP或其他一些计算基于传感器的速度或力命令的算法。结束时间t_e不一定是已知的先验。对于搜索技能，由于搜索问题的本质，无法确定何时终止。

定义12(命令)：令

定义13(质量度量)：Q表示所有2元组(w,f_q(X(t))的集合，其中0<w<1且约束为f_c,i(X(t))。此外，令

质量度量是评估技能表现并对其施加质量约束的一种手段。该评估旨在比较同一技能的两种不同的实施方式或两组不同的参数P。这些约束用于提供用于特定任务的质量限制(例如特定时间限制)的测量。质量度量反映了一些标准，该标准从执行技能的整体过程中得出或由人工监督者给出。

图3示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的方法，该机器人80包括第一单元101、第二单元102、学习单元103以及自适应控制器104，第二单元102连接到第一单元101并且还连接到学习单元103和自适应控制器104，该方法包括以下步骤：

-由第一单元101根据任务提供S1从技能空间中能够选择的机器人技能s的规范，其中机器人技能s被定义为出自(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)的2元组，其中

S：I子空间ζ_i的笛卡尔积:S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I

其中i＝{l,2,....,I}且I≥2，

O：所有对象的集合，

C_pre：前提条件

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中，P由三个子集P_t,P_l,P_D组成，其中，P_t是从任务的先验知识得出的参数，P_I是最初未知且在任务的执行过程中需要学习和/或估计的参数，且P_D是参数P_I的约束，

Q：表现度量，而Q(t)表示由机器人80执行的技能的实际表现，

-自适应控制器104从第二单元102接收S2技能命令χ_cmd，其中，第二单元102连接到第一单元101，并且进一步连接到学习单元103和自适应控制器104，并且其中，技能命令χ_cmd包括技能参数P_I，

-由自适应控制器104并基于技能命令χ_cmd控制S3机器人80的致动器，其中，机器人80的实际状态由相应的传感器感测和/或由相应的估计器估计，并反馈到控制器104和第二单元102，

-由第二单元102并基于实际状态确定S4由机器人80执行的技能的表现Q(t)，

-学习单元103从第二单元102接收S5 P_D和Q(t)，以及

-确定S6更新的技能参数P_l(t)，并将P_l(t)提供到第二单元102，并且替换迄今为止已有的技能参数P_I，其中，子空间ζ_i包括控制变量和外力旋量，外力旋量特别包括外力和外力矩。

图4和图5以不同的详细程度分别示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的系统。该系统各包括：

-第一单元101，其根据任务提供从技能空间中能够选择的机器人技能s的规范，其中机器人技能被定义为出自(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)的元组，其中

S：I子空间ζ_i的笛卡尔积S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I:

其中i＝{l,2,....,I}且I≥2，

O：所有物理对象的集合，

C_pre：前提条件

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中P由三个子集P_t,P_l,P_D组成，其中P_t是从任务的先验知识得出的参数，P_I是最初未知且需要在任务的执行期间学习和/或估算的参数，并且P_D是参数P_I的约束，

Q：表现度量，而Q(t)表示由机器人80执行的技能的实际表现，

-第二单元102，其中第二单元102连接到第一单元101，并且还连接到学习单元103和自适应控制器104，其中自适应控制器104接收技能命令χ_cmd，其中技能命令χ_cmd包括技能参数P_I，其中，基于技能命令χ_cmd，控制器104控制机器人80的致动器，其中，机器人80的实际状态X(t)由相应的传感器感测和/或由相应的估计器估计，并反馈到控制器104和第二单元102，其中，基于实际状态X(t)，第二单元102确定由机器人80执行的技能的表现Q(t)，并且其中，学习单元103接收P_D和来自第二单元102的Q(t)，确定更新的技能参数P_I(t)，并将P_I(t)提供到第二单元102以替换迄今为止已有的技能参数P_I，其中子空间ζ_i包括控制变量和外力旋量，所述外力旋量包括外力和外力矩。技能命令χ_cmd包括在期望的力F_d内的技能参数P，并且F_d通过F_d＝f_F(X,P)而依赖于P，其中P_I是P的三个子集之一。同样，期望速度

取决于P并且因此还取决于P_I，其中

本文中，参数P_t是从由堆叠的圆柱体表示的计划和技能监视单元的数据库中接收的。

图6示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的系统，该系统包括：

-第一单元101，其根据任务提供从技能空间中能够选择的机器人技能的规范，其中机器人技能s被定义为来自(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)的元组。该元组的表达式定义如下：

S：I子空间ζ_i的笛卡尔积:S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I

其中i＝{l,2,....,I}且I≥2，

O：所有物理对象的集合，

C_pre：前提条件

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中P由三个子集P_t,P_l,P_D组成，其中P_t是从任务的先验知识得出的参数，P_I是最初未知且在任务执行过程中需要学习和/或估计的参数，且P_D是参数P_I的约束，

Q：表现度量，其中Q(t)表示由机器人80执行的技能的实际表现，

-第二单元102，其中第二单元102连接到第一单元101，并且还连接到学习单元103和自适应控制器104，

其中，自适应控制器104接收技能命令χ_cmd，

其中技能命令χ_cmd包含技能参数P_I，

其中，基于技能命令χ_cmd,控制器104通过控制信号τ_d来控制机器人80的致动器，其中，机器人80的实际状态X(t)由相应的传感器感测和/或由相应的估计器估计，并反馈至控制器104和第二单元102，其中第二单元102基于实际状态X(t)确定由机器人80执行的技能的表现Q(t)，并且其中学习单元103接收P_D以及来自第二单元102的Q(t)，确定更新的技能参数P_I(t)，并将P_I(t)提供至第二单元102以替换迄今为止已有的技能参数P_I。

附图标记列表

1 感兴趣区域ROI

3 轴

5 孔

80 机器人

101 第一单元

102 第二单元

103 学习单元

104 自适应控制器

S1 提供

S2 接收

S3 控制

S4 确定

S5 接收

S6 确定

Claims

1.一种用于控制关节型机器人(80)的致动器并使所述机器人(80)能够执行给定任务的系统，包括：

-第一单元(101)，所述第一单元(101)根据所述任务提供能够从技能空间中选择的机器人技能s的规范，其中，机器人技能s被定义为元组(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)，其中：

S：I子空间ζ_i的笛卡尔积:S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I，其中，i＝{1,2,....,I}并且I≥2，

O：物理对象集，

C_pre：前提条件，

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

P：技能参数，其中，P由三个子集P_t、P_I、P_D组成，其中，P_t是从任务的先验知识中得出的参数，P_I是最初未知且需要在执行所述任务期间学习和/或估计的参数，并且P_D是参数P_I的约束，

Q：表现度量，其中，Q(t)表示由所述机器人(80)执行的技能的实际表现值，

-第二单元(102)，其中，所述第二单元(102)连接到所述第一单元(101)，并且还连接到学习单元(103)和自适应控制器(104)，

其中，所述自适应控制器(104)接收技能命令χ_cmd，

其中，所述技能命令χ_cmd包括技能参数P_I，

其中，所述自适应控制器(104)基于所述技能命令χ_cmd控制所述机器人(80)的所述致动器，

其中，所述机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计，并反馈到所述自适应控制器(104)和所述第二单元(102)，

其中，所述第二单元(102)基于所述实际状态确定由所述机器人(80)执行的技能的实际表现值Q(t)，并且

其中，所述学习单元(103)接收P_D和来自所述第二单元(102)的Q(t)，确定更新的技能参数P_I(t)，并且将P_I(t)提供到所述第二单元(102)，以替换迄今为止已有的技能参数P_I。

2.根据权利要求1所述的系统，其中，所述自适应控制器(104)通过δF_ff＝F_ff(t)-F_ff(t-T)来适应前馈力旋量和刚度，其中，F_ff(t)表示前馈力旋量，T是控制器的采样时间。

3.根据权利要求1所述的系统，其中，所述学习单元(103)执行贝叶斯和/或HiREPS优化/学习。

4.根据权利要求1所述的系统，其中，所述系统包括具有数据网络的数据接口，并且其中，所述系统被设计和设置成从所述数据网络下载用于建立和控制所述系统的系统程序。

5.根据权利要求4所述的系统，其中，所述系统被设计和设置成从所述数据网络下载用于所述系统程序的参数。

6.根据权利要求4所述的系统，其中，所述系统被设计和设置成经由本地输入接口和/或经由教学过程来输入用于所述系统程序的参数，其中，所述机器人(80)被手动引导。

7.一种机器人(80)，所述机器人(80)具有根据权利要求1至6中的一项所述的系统。

8.一种用于控制关节型机器人(80)的致动器并使所述机器人(80)能够执行给定任务的方法，所述机器人(80)包括第一单元(101)、第二单元(102)、学习单元(103)和自适应控制器(104)，所述第二单元(102)连接到所述第一单元(101)并且还连接到学习单元(103)和自适应控制器(104)，所述方法包括以下步骤：

-由第一单元(101)根据任务提供能够从技能空间中选择的机器人技能s的规范，其中，机器人技能s被定义为元组(S,O,C_pre,C_err,C_suc,R,χ_cmd,X,P,Q)，其中：

S：I子空间ζ_i的笛卡尔积:S＝ζ_i＝1×ζ_i＝2×...×ζ_i＝I，

其中i＝{1,2,....,I}并且I≥2，

O：物理对象集，

C_pre：前提条件，

C_err：错误条件，

C_suc：成功条件，

R：理想技能执行的标称结果，

χ_cmd：技能命令，

X：物理坐标，

Q：表现度量，而Q(t)表示由所述机器人(80)执行的技能的实际表现，

-自适应控制器(104)从第二单元(102)接收技能命令χ_cmd，

其中，所述第二单元(102)连接到所述第一单元(101)，并且还连接到学习单元(103)和所述自适应控制器(104)，并且其中，所述技能命令χ_cmd包括技能参数P_I，

-由所述自适应控制器(104)且基于所述技能命令χ_cmd来控制所述机器人(80)的所述致动器，其中，所述机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计，并反馈到所述自适应控制器(104)和所述第二单元(102)，

-由所述第二单元(102)并基于所述实际状态来确定由所述机器人(80)执行的技能的实际表现值Q(t)，

-所述学习单元(103)从所述第二单元(102)接收P_D和Q(t)，和

-确定更新的技能参数P_I(t)，并且将P_I(t)提供到所述第二单元(102)，并且替换迄今为止已有的技能参数P_I。

9.一种具有数据处理单元的计算机系统，其中，所述数据处理单元被设计和设置成执行根据权利要求8所述的方法。

10.一种具有电子可读控制信号的数字数据存储器，其中，所述控制信号能够与可编程计算机系统协作，从而执行根据权利要求8所述的方法。