CN110662634B - 用于控制关节型机器人的致动器的系统和方法 - Google Patents

用于控制关节型机器人的致动器的系统和方法 Download PDF

Info

Publication number
CN110662634B
CN110662634B CN201880034424.6A CN201880034424A CN110662634B CN 110662634 B CN110662634 B CN 110662634B CN 201880034424 A CN201880034424 A CN 201880034424A CN 110662634 B CN110662634 B CN 110662634B
Authority
CN
China
Prior art keywords
skill
unit
robot
parameter
cmd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880034424.6A
Other languages
English (en)
Other versions
CN110662634A (zh
Inventor
萨米·哈达丁
拉尔斯·约翰斯梅勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Franka Emika GmbH
Original Assignee
Franka Emika GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Franka Emika GmbH filed Critical Franka Emika GmbH
Publication of CN110662634A publication Critical patent/CN110662634A/zh
Application granted granted Critical
Publication of CN110662634B publication Critical patent/CN110662634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0081Programme-controlled manipulators with master teach-in means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1633Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39376Hierarchical, learning, recognition and skill level and adaptation servo level

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Numerical Control (AREA)

Abstract

本发明涉及一种用于控制关节型机器人(80)的致动器并且用于使机器人(80)能够执行给定任务的系统,该系统包括第一单元(101)、第二单元(102),该第一单元(101)根据任务提供可从技能空间选择的机器人技能s的规范,其中第二单元(102)连接到第一单元(101)且还连接到学习单元(103)和自适应控制器(104),其中自适应控制器(104)接收技能命令χcmd,其中技能命令χcmd包括技能参数PI,其中控制器(104)根据技能命令χcmd控制机器人(80)的致动器,其中机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计并反馈给控制器(104)和第二单元(102),其中第二单元(102)基于实际状态确定由机器人(80)执行的技能的表现Q(t),并且其中学习单元(103)接收PD和来自第二单元(102)的Q(t),确定更新的技能参数PI(t),并将PI(t)提供给第二单元(102)以替换迄今为止已有的技能参数PI

Description

用于控制关节型机器人的致动器的系统和方法
技术领域
本发明涉及一种用于控制关节型机器人(articulated robot)的致动器的系统和方法。
背景技术
编程复杂机器人的传统方式有时会寻求变得更加直观,以使不仅专家而且车间工人,也就是说非专业人员,都可以利用机器人以进行他们的工作。在这种背景下,术语“技能”和“基于任务的编程”非常重要。“技能”尤其是机器人的预定动作或运动的某种形式的表示。存在几种使用技能进行编程的方法,例如[1]、[2]、[3],并且它们特别地大多数情况下是独立地于控制器查看的,也就是说,特别地,控制器仅执行由技能实施所计算的命令。从中可以看出,底层控制器是用于操纵技能的共同因素,并且因此提供由它们共享的一组参数。但是,根据常识,对所有操作技能使用相同的参数值通常效率不高甚至不可行。通常,甚至不可能在不同环境中考虑相同技能。根据特定的情况,必须调整参数以便考虑不同的环境特性,例如所涉及对象的较粗糙的表面或不同质量。可以在给定的确定性范围内选择参数,以使得关于特定成本函数最优地或至少接近最优地实现技能。特别地,成本函数和约束条件通常由人类用户出于某种意图定义,例如接触力低、执行时间短或机器人的功耗低。在这种情况下,重要的问题是调整控制器参数,以便在参数空间中找到使这种成本函数最小化的区域,或者在不需要具有除了任务规范以及机器人能力以外的任何关于任务的预备知识的情况下找到首先可行的区域。提出了以不同方式应对这一问题的几种方法,例如[4],其中描述了通过演示学习运动技能的方法。在[5]中,介绍了一种基于强化学习的方法,可以从演示中获得新的运动技能。[6]、[7]的作者采用强化学习方法来学习代表技能的运动原语。在[8]中,通过演示方法进行有监督的学习与动态运动原语一起使用,以学习模拟中的双足步行。在[9]中可以找到一种利用随机实值增强学习算法结合非线性多层人工神经网络来学习机器人技能的早期方法。[10]中显示了软机器人技术,而[11]中显示了将这种思想应用于复杂操纵问题的阻抗控制。[12]中介绍了自适应阻抗控制器。两者都根据运动错误并基于四个物理上有意义的元参数而在执行期间进行调整。由此产生的问题是,如何针对环境和当前问题选择这些元参数。
发明内容
本发明的目的是提供一种用于改进机器人操纵技能的学习的系统和方法。
本发明的第一方面涉及一种用于控制关节型机器人的致动器并用于使该机器人能够执行给定任务的系统,该系统包括:
-第一单元,其根据任务提供从技能空间中可选择的机器人技能的规范,其中机器人技能s被定义为元组(S,O,Cpre,Cerr,Csuc,Rmcmd,X,P,Q),其中:
S:I子空间ζi的笛卡尔积S=ζi=1×ζi=2×...×ζi=I,其中i={l,2,....,I}且I≥2,
O:物理对象集,
Cpre:前提条件,
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中P由三个子集Pt,PI,PD组成,其中Pt是从任务的先验知识得到的参数,PI是最初未知且需要在任务的执行过程中学习和/或估计的参数,并且PD是参数PI的约束,
Q:表现度量,而Q(t)表示由机器人执行的技能的实际表现,
-第二单元,其中第二单元连接到第一单元,并且还连接到学习单元和自适应控制器,其中自适应控制器接收技能命令χcmd,其中技能命令χcmd包括技能参数PI,其中,基于技能命令χcmd,控制器控制机器人的致动器,其中机器人的实际状态由相应的传感器感测和/或由相应的估计器估算,并反馈到控制器和第二单元,其中基于实际状态,第二单元确定由机器人执行的技能的表现Q(t),并且其中学习单元接收PD和来自第二单元的Q(t),确定更新的技能参数PI(t)并将PI(t)提供到第二单元,以替换迄今为止已有的技能参数PI
优选地,子空间ζi包括控制变量(特别是期望的变量)或者对机器人或测量状态的外部影响,特别是外力旋量(external wrench),外力旋量特别包括外力和外力矩。
优选的自适应控制器的推导如下:
考虑机器人动态:
Figure BDA0002287005230000031
其中M(q)表示对称的正定质量矩阵,
Figure BDA0002287005230000032
为科里奥利(Coriolis)和离心扭矩,且g(q)为重力矢量。控制定律被定义为:
Figure BDA0002287005230000036
其中,Fff(t)表示前馈力旋量(feed-forward wrench),K(t)为刚度矩阵,D为阻尼矩阵,J(q)为雅可比行列式(Jacobian)。位置和速度错误分别用e=[et,er]T
Figure BDA0002287005230000033
表示。et=x*-x是平移位置错误,而er=θ*-θ是旋转角度轴错误。动态补偿器τr被定义为:
Figure BDA0002287005230000034
前馈力旋量Fff被定义为:
Figure BDA0002287005230000035
其中,Fd(t)是可选的初始时间相关轨迹,而Fff,0是积分器的初始值。控制器通过以下公式适应前馈力旋量和刚度:
δFff(t)=Fff(t)-Fff(t-T) (5)
...=α(∈-γα(t)Fff(t)) (6)
δK(t)=K(t)-K(t-T) (7)
Figure BDA00022870052300000411
自适应跟踪错误被定义为:
Figure BDA0002287005230000041
其中K>0。正定矩阵α,β,γa和γβ分别表示用于前馈、刚度和遗忘因子的学习率。阻尼D是根据[21]设计的,并且T是控制器的采样时间。
通过以上解释,基本上给出了优选的自适应控制器。
优选的γa和γβ通过约束推导出,如下:
自适应阻抗控制器的第一个约束是刚度自适应速度的上限
Figure BDA0002287005230000042
将cα:=αγα
Figure BDA0002287005230000043
插入到(8),并与有界的刚度变化率一起,导出关系如下:
Figure BDA0002287005230000044
如果假设K(t=0)且
Figure BDA0002287005230000045
emax优选地被定义为在
Figure BDA0002287005230000046
成立时的错误的量。此外,Kmax表示绝对最大刚度,任何现实世界中受阻抗控制的机器人的另一个约束。然后,β的最大值可以写为:
Figure BDA0002287005230000047
由于当Kmax达到时δK(t)=0且
Figure BDA00022870052300000412
所以(10)可重写为:
Figure BDA0002287005230000048
最终,适配参数变成
Figure BDA0002287005230000049
Figure BDA00022870052300000410
寻找对前馈力旋量的适应优选类似地进行。这样,a和β的上限特别地与固有的系统能力Kmax和Fmax有关,以导致最快的可能适应性。
通过以上解释,推导出优选的γa和γβ
推出的技能公式特别关注抽象技能、元学习(通过学习单元)和自适应控制之间的相互作用。该技术特别向自适应控制器提供期望的命令和轨迹以及元参数和用于执行任务的其他相关量。另外,技能特别地包括学习单元的质量度量和参数域,同时特别地接收所学习的执行中使用的参数的集合。自适应控制器特别通过期望的关节扭矩来命令机器人硬件并接收感官反馈。最后,技能公式特别地使容易连接到高级任务计划模块成为可能。机器人技能s的规范从第一单元优选被提供如下:
在主要关注操作对象的概念的意义上,以下优选的技能公式是以对象为中心的。这种方法的优点是其简单的符号和直观的可解释性。更大的直观性方面是基于与自然语言的相似性:
定义1(技能):技能s是技能空间的元素。它被定义为一个元组(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q)。
定义2(空间):令S为与技能s相关的I子空间
Figure BDA0002287005230000056
的笛卡尔积,即:S=ζi=1×ζi=2×...×ζi=I其中i={1,2,…,I}且I≥2。
优选地,子空间ζi包括控制变量(特别是期望变量)或者对机器人或测量状态的外部影响,特别是外力旋量,外力旋量特别包括是外力和外力矩。
定义3(对象):令o表示物理对象,物理对象具有与其相关联的坐标°X(t)∈S。O表示与技能s相关的物理对象的集合o∈O,其中no=|O|且no>0。此外,将X(t)定义为
Figure BDA0002287005230000051
注意,在这些考虑中,在技能执行期间集合O不发生变化,即no=常数。
定义4(任务框架):任务框架°RTF(t)表示从框架TF到基本框架0的旋转。注意,我们假设°RTF(t)=常数。
定义5(参数):P表示由三个子集Pt、PI和PD组成的所有技能参数的集合。集合
Figure BDA0002287005230000052
包含从先验任务知识、经验和执行技能的意图中得出的所有参数。在这种情况下,Pt还也称为任务规范。集合
Figure BDA0002287005230000053
包含并非必须事先已知并且需要学习或估计的所有其他参数。特别地,它包含用于自适应控制器的元参数(α,β,γαβ)。第三子集
Figure BDA0002287005230000054
定义了用于PI的有效域,即,它由用于连续参数的值区间或用于离散参数的值的集合组成。因此,当学习PI时,PD确定界限。
条件:优选有技能执行所涉及的三种条件类型:前提条件、失败条件和成功条件。它们都具有相同的基本定义,但其应用却大不相同。他们的目的是从头到尾定义技能的界限和限制;
定义6(条件):令
Figure BDA0002287005230000055
为闭集,且c(X(t))为函数c:S→B,其中B={0,1}。条件成立iff c(X(t))=1。请注意,映射本身取决于条件的特定类型。
定义7(前提条件):Cpre表示由Cpre(X(t))定义的前提条件成立所选择的集合。条件成立,即
Figure BDA0002287005230000061
to表示开始执行技能时的时间。这意味着在技能执行的开始时,每个所涉及的对象的坐标必须在Cpre中。
定义8(错误条件):Cerr表示错误条件cerr(X(t))成立所选择的集合,即cerr(X(t))=1。这是从
Figure BDA0002287005230000062
得出的。如果在时间t处满足错误条件,则技能执行被中断。在此,这里不做关于如何解决该错误状态的假设,因为这特别地依赖于实际的技术实施以及高级控制和计划机构的能力。
定义9(成功条件):Csuc表示由csuc(X(t))定义的成功条件成立所选择的集合,即
Figure BDA0002287005230000063
如果所有涉及的对象的坐标都在Csuc内,择技能执行可以成功终止。这并不是说该技能必须终止。
定义10(标称结果):标称结果R∈S是技能执行的理想终点,即收敛点。尽管标称结果R是该技能的理想目标,但如果成功条件Csuc成立,则认为其执行成功。尽管如此,X(t)收敛到这一点。但是,如果有两个或多个在排队,则可以从一项技能协调(blend)到另一项技能。
定义11(技能动态):令X:[t0,∞]→P为一般的动态过程,其中t0表示技能执行的开始。如果
Figure BDA0002287005230000064
Figure BDA0002287005230000065
则该过程可以终止。
它收敛到标称结果R。此动态过程根据输入(即具体实施)对技能实际执行的操作进行编码。优选地,这是以下之一:轨迹生成器、DMP或计算基于传感器的速度或力命令的其他算法。结束时间te不必是已知的先验。例如,对于搜索技能,由于搜索问题的本质,其无法确定它何时终止。
定义12(命令):令
Figure BDA0002287005230000068
为技能命令,即由发送给控制器的TF中定义的速度和力组成的期望轨迹。
定义13(质量度量):Q表示所有的2元组(w,fq(X(t))的集合,其中0<w<1且约束为fc,i(X(t))。此外,令q=∑i
Figure BDA0002287005230000066
Figure BDA0002287005230000067
质量度量是评估技能的表现并对其施加质量约束的一种手段。该评估旨在比较相同技能的两个不同实施方式或参数P的两个不同集合。约束可以例如用于提供用于特定任务(例如特定时间限制)的质量限制的测量。注意,质量度量反映了一些标准,该标准是从执行技能的整个过程中得出的或由人工监督员给出的。此外,一个优选实施例是,技能具有几种不同的度量来解决最优性的不同需求。
通过以上内容,从第一单元以优选的方式提供了机器人技能s的规范。
学习单元优选地被推导出如下:
学习单元应用元学习,其特别地意味着找到正确的(最佳)参数p*∈Pl,以用于解决给定的任务。要求:为了学习控制器元参数以及其他参数(例如执行速度),将评估几种潜在合适的学习方法。该方法将面临以下问题:
-问题没有可行的分析解决方案,
-梯度(Gradients)通常是不可用的,
-现实世界中的问题本质上是随机的,
-没有假设最小值或成本函数凸性,
-违反安全、任务或质量约束,
-大的过程噪音和许多重复,
因此,一种合适的学习算法将必须满足以下要求:
·数字黑盒优化,
·无需梯度,
·必须考虑随机性,
·全局优化器
·处理未知和噪音约束,
·快速收敛速度。
优选地,在学习单元中应用以下用于元学习的算法之一或其组合:网格搜索、纯随机搜索、梯度下降族、进化算法、粒子群、贝叶斯优化。
通常,基于梯度下降的算法要求梯度可用。网格搜索和纯随机搜索以及进化算法通常不假定随机性,并且在没有广泛了解它们优化的问题(即利用消息灵通的屏障函数)的情况下无法处理未知约束。后一点也适用于粒子群算法。只有根据[25]的贝叶斯优化方法能在优化过程中显式处理未知的噪声约束。另一个且确定的其中一个主要要求是,如果可能的话,几乎不需要手动调整。选择例如学习率或对噪声进行明确假设会脱离这种意图。显然地,此要求在很大程度上取决于具体的实施,但也取决于优化程序类及其相应的要求。
考虑到所有提到的要求,优选地应用从[26]、[27]、[28]、[25]中已知的留兰香(spearmint)算法。这种特定的实施不需要手动调整,只需要事先一次指定先验和习得函数(acquisition function)即可。
更优选地,应用贝叶斯优化。优选地,其实现和实施如下:
通常,贝叶斯优化(BO)通过建立f(p)的统计模型来在一些有界集合X上找到未知的目标函数f(p)的最小值。除成本函数外,它还有两个主要部分,它们是先验和习得函数。先验:特别地,高斯过程被用作先验来推导关于被优化的函数的假设。高斯过程具有均值函数
Figure BDA0002287005230000081
和协方差函数
Figure BDA0002287005230000082
作为内核,优选使用自动相关性确定(ARD)Matérn5/2内核,它由下式给出:
Figure BDA0002287005230000083
其中
Figure BDA0002287005230000084
该内核在d个维度上具有d+3个超参数,即每个维度一个特征长度标度、协方差幅度θ0、观测噪声v和常数均值m。这些内核超参数通过切片采样[29]应用马尔可夫链蒙特卡罗(MCMC)进行整合。习得函数:如[30]中所述,优选地,具有约束的预测熵搜索(PESC)被用作选择下一个要探索的参数x的手段。成本函数:优选地,如以上定义的成本度量Q被直接用于评估参数Pl的特定集合。同样,通过使用条件Csuc和Cerr可以评估技能的成功或失败。如[25]中所述,贝叶斯优化可以直接使用成功和失败条件以及Q中的约束。
本发明具有以下优点:来自[12]的自适应控制器被扩展到笛卡尔空间和全前馈跟踪。提供一种基于阻抗控制的实际世界约束的自适应控制器的新颖的元参数设计。介绍一种新颖的公式来描述机器人的操作技能并缩小高级规范和低级自适应交互控制之间的差距。通过贝叶斯优化[14]进行元学习(其在机器人技术[16]、[17]、[18]中经常应用)是自适应阻抗控制和高级技能规范之间缺少的计算链接。介绍一种统一的框架,该框架将所有的自适应阻抗控制、元学习和技能规范组成一个闭环系统。
根据本发明的实施例,自适应控制器通过δFff=Fff(t)-Fff(t-T)来适应前馈力旋量和刚度。
根据本发明的另一个实施例,学习单元执行贝叶斯和/或HiREPS优化/学习。
HiREPS是“分层相对熵策略搜索(Hierarchical Relative Entropy PolicySearch)”的缩写。
根据本发明的另一个实施例,该系统包括具有数据网络的数据接口,并且该系统被设计和设置成从数据网络下载用于设置和控制系统的系统程序。
根据本发明的另一个实施例,系统被设计和设置成从数据网络下载用于系统程序的参数。
根据本发明的另一个实施例,该系统被设计和设置成经由本地输入接口和/或经由教学过程来输入用于系统程序的参数,其中机器人被手动引导。
根据本发明的另一个实施例,系统被设计和设置成使得由远程站控制从数据网络下载系统程序和/或相应的参数,并且其中远程站是数据网络的一部分。
根据本发明的另一个实施例,系统被设计和设置成使得:基于从数据网络接收的相应请求,将系统程序和/或在系统处本地可用的相应的参数发送到数据网络的一个或多个参与者。
根据本发明的另一个实施例,系统被设计和设置成使得可以从远程站启动具有在系统处本地可用的相应参数的系统程序,并且其中远程站是数据网络的一部分。
根据本发明的另一个实施例,系统被设计和设置成使得远程站和/或本地输入接口包括人机接口HMI,该人机接口HMI被设计和设置用于输入系统程序和相应的参数和/或用于从多个系统程序和相应的参数中选择系统程序和相应的参数。
根据本发明的另一个实施例,人机接口HMI被设计和设置成使得:可以通过以下方式输入:在触摸屏上拖放、引导对话、键盘、计算机鼠标、力觉接口(haptic interface)、虚拟现实接口、增强现实接口、声学接口、经由人体跟踪接口、基于肌电图数据、基于脑电图数据、经由神经元接口或其组合。
根据本发明的另一个实施例,人机接口HMI被设计和设置成传递听觉反馈、视觉反馈、力觉反馈、嗅觉反馈、触觉反馈或电反馈或其组合。
本发明的另一方面涉及一种具有如以上和以下所示的系统的机器人。
本发明的另一方面涉及一种用于控制关节型机器人的致动器并使该机器人能够执行给定任务的方法,该机器人包括第一单元、第二单元、学习单元和自适应控制器,该第二单元连接到第一单元,并且还连接到学习单元和自适应控制器,包括以下步骤:
-由第一单元(101)根据任务提供从技能空间中可选择的机器人技能s的规范,其中机器人技能s被定义为元组(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q),其中:
S:I子空间ζ的笛卡尔积:S=ζi=1×ζi=2×...×ζi=I,其中i={1,2,....,I}且I≥2,
O:对象的集合,
Cpre:前提条件
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中P由三个子集Pt,Pl,PD组成,其中Pt是从任务的先验知识中得出的参数PI,PI是最初未知且在任务的执行过程中需要学习和/或估计的参数,并且PD是参数PI的约束,
Q:表现度量,而Q(t)表示由机器人执行的技能的实际表现,
-自适应控制器从第二单元接收技能命令χcmd
其中第二单元连接到第一单元并且还连接到学习单元和自适应控制器,并且其中技能命令χcmd包括技能参数PI
-由控制器并且基于技能命令χcmd来控制机器人的致动器,其中,机器人的实际状态由相应的传感器感测和/或由相应的估计器估计,并反馈给控制器和第二单元,
-由第二单元并基于实际状态,确定由机器人执行的技能的Q(t),
-学习单元从第二单元接收PD和Q(t),以及
-确定更新的技能参数PI(t),并将PI(t)提供给第二单元并替换迄今为止已有的技能参数PI
优选地,子空间ζi包括控制变量(特别是期望变量)或者对机器人或测量状态的外部影响,特别是外力旋量,外力旋量包括特别地外力和外力矩。
本发明的另一方面涉及一种具有数据处理单元的计算机系统,其中,所述数据处理单元被设计和设置成执行根据前述权利要求中的一项所述的方法。
本发明的另一方面涉及一种具有电子可读控制信号的数字数据存储器,其中,所述控制信号可以与可编程计算机系统协作,从而执行根据前述权利要求中的一项所述的方法。
本发明的另一方面涉及一种计算机程序产品,该计算机程序产品包括存储在机器可读介质中的程序代码,当该程序代码在计算机系统上执行时,用于执行根据前述权利要求中的一项所述的方法。
本发明的另一方面涉及一种具有程序代码的计算机程序,当该计算机程序在计算机系统上运行时,用于执行根据前述权利要求中的一项所述的方法。
上面提到的现有技术的来源和其他来源如下:
[1]:M.R.Pedersen,L.Nalpantidis,R.S.Andersen,C.Schou,S.
Figure BDA0002287005230000111
V.Krüger,和O.Madsen,“用于制造的机器人技能:从概念到工业部署”,《机器人技术和计算机集成制造》,2015年。
[2]:U.Thomas,G.Hirzinger,B.Rumpe,C.Schulze,和A.Wortmann,“使用uml/p状态图的基于新技能的机器人编程语言”,《机器人与自动化(ICRA)》,2013年IEEE国际会议,IEEE,2013年,第461-466页。
[3]:R.H.Andersen,T.Solund,和J.Hallam,“用于工业机器人共事的硬件独立机器人技能的定义和最初的基于案例的评估”;ISR/Robotik 2014年;第41届国际机器人技术研讨会;VDE会议录,2014,第1-7页。
[4]:P.Pastor,H.Hoffmann,T.Asfour,和S.Schaal,“通过演示学习来学习和掌握运动技能”,《机器人与自动化》,2009年。CRA'09;IEEE国际会议;IEEE,2009年第763-7682页。
[5]:P.Pastor,M.Kalakrishnan,S.Chitta,E.Theodorou,和S.Schaal,“用于操纵的技能学习和任务结果预测”,机器人技术和自动化”(ICRA),2011年;IEEE国际会议;IEEE,2011年,第3828-3834页。
[6]:J.Kober和J.Peters,“学习机器人的运动原语”,机器人和自动化,2009年。ICRA'09;IEEE国际会议。IEEE,2009年,第2112-2118页。
[7]:J.Kober和J.R.Peters,“用于在机器人技术中运动原语的策略搜索”,《在神经信息处理系统中的进展》,2009年,第849-856页。
[8]:S.Schaal,J.Peters,J.Nakanishi,和A.Ijspeert,“学习运动原语”《机器人研究》。第十一届国际研讨会。斯普林格,2005年,第561-572页。
[9]:V.Gullapalli,J.A.Franklin,和H.Benbrahim,“通过强化学习习得机器人技能”,《IEEE控制系统》,1994年,第14卷,第1号,第13-24页。
[10]:A.Albu-Schaffer,O.Eiberger,M.Grebenstein,S.Haddadin,C.Ott,T.Wimbock,S.Wolf,和G.Hirzinger,“软机器人”,《IEEE机器人与自动化》杂志,2008年,第15卷,第3号。
[11]:S.Part,“阻抗控制:一种操纵方法”,《动态系统、测量与控制》杂志,1985年,第107卷,第17页。
[12]:C.Yang,G.Ganesh,S.Haddadin,S.Parusel,A.Albu-
Figure BDA0002287005230000121
和E.Burdet,“在稳定和不稳定的相互作用中类似于人的力和阻抗的适应性”,《机器人技术》,IEEE论文集,2011年,第27卷,第5号,第918-930页。
[13]:E.Burdet,R.Osu,D.Franklin,T.Milner,和M.Kawato,“中枢神经系统通过学习最佳阻抗来稳定不稳定的动态”,《自然》,2001年,第414卷,第446-449页。在线获得:http://dx.doi.org/10.1038/35106566
[14]B.Shahriari,K.Swersky,Z.Wang,R.P.Adams和N.de Freitas,“将人类带出循环:贝叶斯优化综述”,IEEE论文集,2016年第104卷第1号第148-175页。
[15]:M.D.McKay,R.J.Beckman,和W.J.Conover,“在计算机代码输出分析中用于选择输入变量值的三种方法的比较”,《技术计量学》,1979年,第21卷,第2号,第239-245页。
[16]:R.Calandra,A.Seyfarth,J.Peters,和M.P.Deisenroth,“在不确定性下学习步态的贝叶斯优化”,《数学和人工智能年鉴》,2016年,第76卷,第1-2号,第5-23页。
[17]:J.Nogueira,R.Martinez-Cantin,A.Bernardino,和L.Jamone,“用于安全机器人抓取的无先导的贝叶斯优化”,arXiv预印本,arXiv:1603.02038,2016年。
[18]:F.Berkenkamp,A.Krause和A.P.Schoellig,“具有安全约束的贝叶斯优化:机器人技术中的安全和自动参数调整”,arXiv预印本,arXiv:1602.04450,2016年。
[19]:G.Ganesh,A.Albu-
Figure BDA0002287005230000131
M.Haruno,M.Kawato和E.Burdet,“用于在交互任务中同时适应力、阻抗和轨迹的仿生运动行为”,《机器人与自动化(ICRA)》,2010IEEE国际会议,IEEE,2010年,第2705-2711页。
[20]:J.-J.E.Slotine,W.Li等,《应用非线性控制》。Prentice-hall EnglewoodCliffs,新泽西州,1991年,第199卷,第1号。
[21]:A.Albu-
Figure BDA0002287005230000132
C.Ott,U.Frese,和G.Hirzinger,“冗余机器人的笛卡尔阻抗控制:DLR-轻型臂的最新结果”,在IEEE Int.Conf.《机器人技术与自动化》,2003年,第3卷,第3704-3709页。
[22]:G.Hirzinger,N.Sporer,A.Albu-
Figure BDA0002287005230000133
M.Hahnle,R.Krenn,A.Pascucci和M.Schedl,“Dlr的扭矩控制轻型机器人iii-我们现在达到技术极限了吗?”,《机器人技术与自动化》,2002年。会议录,ICRA'02。IEEE国际会议,2002年,IEEE,第2卷,第1710-1716页。
[23]:L.Johannsmeier和S.Haddadin,“用于协作式工业装配过程中任务分配的层次化人机交互计划框架”,IEEE《机器人技术与自动化快报》,2017年,第2卷,第1号,第41-48页。
[24]:R.Calandra,A.Seyfarth,J.Peters,和M.P.Deisenroth,“用于双足运动的贝叶斯优化的实验比较”,《机器人技术与自动化(ICRA)》,2014年IEEE国际会议,IEEE,2014年,第1951-1958页。
[25]:J.Snoek,“贝叶斯优化和半参数模型及其在辅助技术中的应用”,博士学位论文,多伦多大学,2013年。
[26]:J.Snoek,H.Larochelle和R.P.Adams,“机器学习算法的实用贝叶斯优化”,《神经信息处理系统进展》,2012年,第2951-2959页。
[27]:E.Brochu,V.M.Cora,和N.De Freitas,“关于昂贵成本函数的贝叶斯优化的教程,适用于活跃用户建模和分层强化学习”,arXiv预印本,2010年arXiv.1012.2599。
[28]:K.Swersky,J.Snoek和R.P.Adams,“多任务贝叶斯优化”,《神经信息处理系统进展》,2013年第2004-2012页。
[29]:R.M.Neal,“切片抽样”,《统计年鉴》,2003年第705-741页。
[30]:J.M.Herna′ndez-Lobato,M.A.Gelbart,M.W.Hoffman,R.P.Adams和Z.Ghahramani,“用于具有未知约束的贝叶斯优化的预测熵搜索”。在ICML中,2015年第1699-1707页。
附图说明
图1示出了根据本发明的第一实施例的轴孔(peg-in-hole)的技能,
图2显示了根据本发明的另一个实施例的技能动态的概念图,
图3示出了根据本发明的第三实施例的用于控制关节型机器人的致动器的方法,
图4示出了根据本发明的另一个实施例的用于控制关节型机器人的致动器并使机器人能够执行给定任务的系统,
图5以不同的细节水平示出了图4的系统,和
图6示出了根据本发明的另一个实施例的用于控制关节型机器人的致动器并使该机器人能够执行给定任务的系统。
具体实施方式
在图1中,示出了用于标准操纵问题的技能框架的应用,即技能“轴孔”。在图的左半部分,机器人80位于合适的感兴趣区域ROI 1中,其中被抓握的轴(peg)3与带有孔5的物体表面接触。该技能命令由基于速度的搜索算法产生的速度,旨在使用一致对准来找到孔5,并且然后将轴3插入孔5中。在对准阶段,垂直向下(图1中向下)和向左施加前馈力。同时,对准运动包括围绕两个水平轴线的基本旋转(从左到右并且进入图1中的纸平面)。在插入阶段,技能命令
Figure BDA0002287005230000151
直到xd达到所需的深度。同时,垂直的李萨如(Lissajous)速度
Figure BDA0002287005230000152
被覆盖。如果轴3达到期望的深度,则该技能成功。该技能被定义为如下:
S={x,R,Fextext},其中
Figure BDA0002287005230000153
是笛卡尔空间中的位置,
Figure BDA0002287005230000154
是方向,
Figure BDA0002287005230000155
是外力和扭矩的力旋量(wrench),并且
Figure BDA0002287005230000156
是外扭矩的向量,其中n表示关节数。物体O={r,p,h},其中r是机器人80,p是被机器人80抓住的物体或轴3,并且h是孔5。Cpre={X∈S|fext,z>fcontact,x∈U(x),g(r,p)=1}表示机器人80将感测到的具体的接触力fcontact,并且轴3必须位于由U(.)定义的感兴趣区域ROI 1内。函数g(r,p)将已经抓住轴3的机器人r 80的状态简化成二进制映射。Csuc={X∈S|xz>xz,0+d}表示轴3必须部分地插入到了孔5中至少d,以用于技能成功终止。理想情况下,d是孔5的深度。
Cerr={X∈S|,τextmax}表示如果机器人80离开ROI 1或外部转矩超出某些指定的安全限制分量形式,则该技能失败。P={Pt,PI},其中
Figure BDA0002287005230000157
Figure BDA0002287005230000158
和Pl={αtrtr,Fff,0,vt,vr}。a是李萨如曲线的振幅,d是期望深度,
Figure BDA0002287005230000159
是孔5的姿态估计,并且r是感兴趣区域ROI 1的半径。控制器参数α,β和Fff,0在如上述概括说明中适用,v是速度并且标记t,r分别指的是平移方向和旋转方向。Qtime={te-ts,fz,max=maxt fext,z},其中te和ts是技能执行的开始和结束时间,而fext,z是z方向上的外力。该度量旨在最小化执行时间并同时在插入方向上遵循最大水平的接触力。
图2显示了技能动态的概念图。在执行开始时,所有坐标,即所有物理对象O,都驻留在S的Cpre中,前提条件对其成立。然后,技能动态朝向成功状态Csuc将系统驱动通过技能空间,并且最终达到标称结果R。有效技能空间被Cerr包围。缩写“D.<数字>”是指以下定义,使得例如“D.4”指的是即将到来的描述中的定义4。该技能将期望的命令和轨迹以及用于执行任务的元参数和其他相关量一起提供给自适应控制器104。另外,技能在接收在执行中使用的学习的参数集的同时包含到学习单元103的学习算法的质量度量和参数域。自适应控制器104通过期望的关节扭矩命令机器人硬件并接收传感器反馈。最后,技能公式使得容易连接到高级任务计划模块成为可能。应用以下优选的技能形式体系:
定义1(技能):技能s是技能空间的元素。它定义为元组(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q)。
定义2(空间):令S为与技能S相关的I子空间
Figure BDA0002287005230000161
的笛卡尔积,即S=ζi=1×ζi=2×...×ζi=I,其中i={1,2,…,I}且I≥2,其中子空间包括控制变量和包括外力和外力矩的外力旋量。
定义3(对象):令o表示具有与其相关联的坐标°X(t)∈S的物理对象。O表示与技能与s相关的所有对象的集合o∈O,其中no=|O|且no>0。此外,将X(t)定义为
Figure BDA0002287005230000162
在这些考虑因素中,集合O在技能执行期间不变化,即no=常数。
定义4(任务框架):任务框架°RTF(t)表示从框架TF到基本框架O的旋转。假定°RTF(t)=常数。
定义5(参数):P表示由三个子集Pt,Pl和PD组成的所有技能参数的集合。集合
Figure BDA0002287005230000163
包含由先天任务知识、经验和执行技能的意图产生的所有参数。Pt也称为任务规范。集合
Figure BDA0002287005230000167
包含并非必须事先已知并且需要学习或估计的所有其他参数。特别地,它包含用于自适应控制器104的元参数(α,β,γαβ)。第三子集
Figure BDA0002287005230000164
定义了PI的有效域,即它由用于连续参数的值的间隔或用于离散参数的值集合组成。因此,PD确定学习PI时的界限。
条件:具有技能执行所涉及的三种条件类型:前提条件、失败条件和成功条件。它们都具有相同的基本定义,但其应用却大不相同。他们的目的是从头到尾定义技能的界限和限制:
定义6(条件):令
Figure BDA0002287005230000165
为闭集,且令c(X(t))为函数c:S→B,其中B={0,1}。条件满足iff c(X(t))=1。映射本身取决于条件的特定类型。
定义7(前提条件):Cpre表示由cpre(X(t))定义的前提条件成立所选择的集合。条件成立,即
Figure BDA0002287005230000166
t0表示技能执行开始时的时间。这意味着在技能执行开始时,每个所涉及的对象的坐标必须在Cpre中。
定义8(错误条件):Cerr表示错误条件Cerr(X(t))成立所选择的集合,即Cerr(X(t))=1。这是从
Figure BDA0002287005230000171
得出的。如果在时间t处满足错误条件,则技能执行将中断。关于如何解决该错误状态不做假设,因为这取决于实际技能实施和高级控制和计划机构的能力。
定义9(成功条件):Csuc表示由csuc(X(t))定义的成功条件成立所选择的集合,即
Figure BDA0002287005230000172
如果所有涉及的对象的坐标都在Csuc内,则技能执行可以成功终止。
定义10(标称结果):标称结果R∈S是技能执行的理想终点,即收敛点。
尽管标称结果R是该技能的理想目标,但是如果成功条件为Csuc成立,则认为其执行成功。尽管如此,X(t)收敛到这一点。
定义11(技能动态):令X:[t0,∞]→P为一般的动态过程,其中t0表示技能执行的开始。如果
Figure BDA0002287005230000173
则该过程终止。
它收敛到标称结果R。此动态过程根据输入(即具体实施)对技能实际执行的操作进行编码。这是轨迹生成器,DMP或其他一些计算基于传感器的速度或力命令的算法。结束时间te不一定是已知的先验。对于搜索技能,由于搜索问题的本质,无法确定何时终止。
定义12(命令):令
Figure BDA0002287005230000174
为技能命令,即由发送给控制器的TF中定义的速度和力组成的期望轨迹。
定义13(质量度量):Q表示所有2元组(w,fq(X(t))的集合,其中0<w<1且约束为fc,i(X(t))。此外,令
Figure BDA0002287005230000175
质量度量是评估技能表现并对其施加质量约束的一种手段。该评估旨在比较同一技能的两种不同的实施方式或两组不同的参数P。这些约束用于提供用于特定任务的质量限制(例如特定时间限制)的测量。质量度量反映了一些标准,该标准从执行技能的整体过程中得出或由人工监督者给出。
图3示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的方法,该机器人80包括第一单元101、第二单元102、学习单元103以及自适应控制器104,第二单元102连接到第一单元101并且还连接到学习单元103和自适应控制器104,该方法包括以下步骤:
-由第一单元101根据任务提供S1从技能空间中能够选择的机器人技能s的规范,其中机器人技能s被定义为出自(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q)的2元组,其中
S:I子空间ζi的笛卡尔积:S=ζi=1×ζi=2×...×ζi=I
其中i={l,2,....,I}且I≥2,
O:所有对象的集合,
Cpre:前提条件
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中,P由三个子集Pt,Pl,PD组成,其中,Pt是从任务的先验知识得出的参数,PI是最初未知且在任务的执行过程中需要学习和/或估计的参数,且PD是参数PI的约束,
Q:表现度量,而Q(t)表示由机器人80执行的技能的实际表现,
-自适应控制器104从第二单元102接收S2技能命令χcmd,其中,第二单元102连接到第一单元101,并且进一步连接到学习单元103和自适应控制器104,并且其中,技能命令χcmd包括技能参数PI
-由自适应控制器104并基于技能命令χcmd控制S3机器人80的致动器,其中,机器人80的实际状态由相应的传感器感测和/或由相应的估计器估计,并反馈到控制器104和第二单元102,
-由第二单元102并基于实际状态确定S4由机器人80执行的技能的表现Q(t),
-学习单元103从第二单元102接收S5 PD和Q(t),以及
-确定S6更新的技能参数Pl(t),并将Pl(t)提供到第二单元102,并且替换迄今为止已有的技能参数PI,其中,子空间ζi包括控制变量和外力旋量,外力旋量特别包括外力和外力矩。
图4和图5以不同的详细程度分别示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的系统。该系统各包括:
-第一单元101,其根据任务提供从技能空间中能够选择的机器人技能s的规范,其中机器人技能被定义为出自(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q)的元组,其中
S:I子空间ζi的笛卡尔积S=ζi=1×ζi=2×...×ζi=I:
其中i={l,2,....,I}且I≥2,
O:所有物理对象的集合,
Cpre:前提条件
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中P由三个子集Pt,Pl,PD组成,其中Pt是从任务的先验知识得出的参数,PI是最初未知且需要在任务的执行期间学习和/或估算的参数,并且PD是参数PI的约束,
Q:表现度量,而Q(t)表示由机器人80执行的技能的实际表现,
-第二单元102,其中第二单元102连接到第一单元101,并且还连接到学习单元103和自适应控制器104,其中自适应控制器104接收技能命令χcmd,其中技能命令χcmd包括技能参数PI,其中,基于技能命令χcmd,控制器104控制机器人80的致动器,其中,机器人80的实际状态X(t)由相应的传感器感测和/或由相应的估计器估计,并反馈到控制器104和第二单元102,其中,基于实际状态X(t),第二单元102确定由机器人80执行的技能的表现Q(t),并且其中,学习单元103接收PD和来自第二单元102的Q(t),确定更新的技能参数PI(t),并将PI(t)提供到第二单元102以替换迄今为止已有的技能参数PI,其中子空间ζi包括控制变量和外力旋量,所述外力旋量包括外力和外力矩。技能命令χcmd包括在期望的力Fd内的技能参数P,并且Fd通过Fd=fF(X,P)而依赖于P,其中PI是P的三个子集之一。同样,期望速度
Figure BDA0002287005230000191
取决于P并且因此还取决于PI,其中
Figure BDA0002287005230000192
本文中,参数Pt是从由堆叠的圆柱体表示的计划和技能监视单元的数据库中接收的。
图6示出了用于控制关节型机器人80的致动器并使机器人80能够执行给定任务的系统,该系统包括:
-第一单元101,其根据任务提供从技能空间中能够选择的机器人技能的规范,其中机器人技能s被定义为来自(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q)的元组。该元组的表达式定义如下:
S:I子空间ζi的笛卡尔积:S=ζi=1×ζi=2×...×ζi=I
其中i={l,2,....,I}且I≥2,
O:所有物理对象的集合,
Cpre:前提条件
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中P由三个子集Pt,Pl,PD组成,其中Pt是从任务的先验知识得出的参数,PI是最初未知且在任务执行过程中需要学习和/或估计的参数,且PD是参数PI的约束,
Q:表现度量,其中Q(t)表示由机器人80执行的技能的实际表现,
-第二单元102,其中第二单元102连接到第一单元101,并且还连接到学习单元103和自适应控制器104,
其中,自适应控制器104接收技能命令χcmd
其中技能命令χcmd包含技能参数PI
其中,基于技能命令χcmd,控制器104通过控制信号τd来控制机器人80的致动器,其中,机器人80的实际状态X(t)由相应的传感器感测和/或由相应的估计器估计,并反馈至控制器104和第二单元102,其中第二单元102基于实际状态X(t)确定由机器人80执行的技能的表现Q(t),并且其中学习单元103接收PD以及来自第二单元102的Q(t),确定更新的技能参数PI(t),并将PI(t)提供至第二单元102以替换迄今为止已有的技能参数PI
附图标记列表
1 感兴趣区域ROI
3 轴
5 孔
80 机器人
101 第一单元
102 第二单元
103 学习单元
104 自适应控制器
S1 提供
S2 接收
S3 控制
S4 确定
S5 接收
S6 确定

Claims (10)

1.一种用于控制关节型机器人(80)的致动器并使所述机器人(80)能够执行给定任务的系统,包括:
-第一单元(101),所述第一单元(101)根据所述任务提供能够从技能空间中选择的机器人技能s的规范,其中,机器人技能s被定义为元组(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q),其中:
S:I子空间ζi的笛卡尔积:S=ζi=1×ζi=2×...×ζi=I,其中,i={1,2,....,I}并且I≥2,
O:物理对象集,
Cpre:前提条件,
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中,P由三个子集Pt、PI、PD组成,其中,Pt是从任务的先验知识中得出的参数,PI是最初未知且需要在执行所述任务期间学习和/或估计的参数,并且PD是参数PI的约束,
Q:表现度量,其中,Q(t)表示由所述机器人(80)执行的技能的实际表现值,
-第二单元(102),其中,所述第二单元(102)连接到所述第一单元(101),并且还连接到学习单元(103)和自适应控制器(104),
其中,所述自适应控制器(104)接收技能命令χcmd
其中,所述技能命令χcmd包括技能参数PI
其中,所述自适应控制器(104)基于所述技能命令χcmd控制所述机器人(80)的所述致动器,
其中,所述机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计,并反馈到所述自适应控制器(104)和所述第二单元(102),
其中,所述第二单元(102)基于所述实际状态确定由所述机器人(80)执行的技能的实际表现值Q(t),并且
其中,所述学习单元(103)接收PD和来自所述第二单元(102)的Q(t),确定更新的技能参数PI(t),并且将PI(t)提供到所述第二单元(102),以替换迄今为止已有的技能参数PI。
2.根据权利要求1所述的系统,其中,所述自适应控制器(104)通过δFff=Fff(t)-Fff(t-T)来适应前馈力旋量和刚度,其中,Fff(t)表示前馈力旋量,T是控制器的采样时间。
3.根据权利要求1所述的系统,其中,所述学习单元(103)执行贝叶斯和/或HiREPS优化/学习。
4.根据权利要求1所述的系统,其中,所述系统包括具有数据网络的数据接口,并且其中,所述系统被设计和设置成从所述数据网络下载用于建立和控制所述系统的系统程序。
5.根据权利要求4所述的系统,其中,所述系统被设计和设置成从所述数据网络下载用于所述系统程序的参数。
6.根据权利要求4所述的系统,其中,所述系统被设计和设置成经由本地输入接口和/或经由教学过程来输入用于所述系统程序的参数,其中,所述机器人(80)被手动引导。
7.一种机器人(80),所述机器人(80)具有根据权利要求1至6中的一项所述的系统。
8.一种用于控制关节型机器人(80)的致动器并使所述机器人(80)能够执行给定任务的方法,所述机器人(80)包括第一单元(101)、第二单元(102)、学习单元(103)和自适应控制器(104),所述第二单元(102)连接到所述第一单元(101)并且还连接到学习单元(103)和自适应控制器(104),所述方法包括以下步骤:
-由第一单元(101)根据任务提供能够从技能空间中选择的机器人技能s的规范,其中,机器人技能s被定义为元组(S,O,Cpre,Cerr,Csuc,R,χcmd,X,P,Q),其中:
S:I子空间ζi的笛卡尔积:S=ζi=1×ζi=2×...×ζi=I
其中i={1,2,....,I}并且I≥2,
O:物理对象集,
Cpre:前提条件,
Cerr:错误条件,
Csuc:成功条件,
R:理想技能执行的标称结果,
χcmd:技能命令,
X:物理坐标,
P:技能参数,其中,P由三个子集Pt、PI、PD组成,其中,Pt是从任务的先验知识中得出的参数,PI是最初未知且需要在执行所述任务期间学习和/或估计的参数,并且PD是参数PI的约束,
Q:表现度量,而Q(t)表示由所述机器人(80)执行的技能的实际表现,
-自适应控制器(104)从第二单元(102)接收技能命令χcmd
其中,所述第二单元(102)连接到所述第一单元(101),并且还连接到学习单元(103)和所述自适应控制器(104),并且其中,所述技能命令χcmd包括技能参数PI
-由所述自适应控制器(104)且基于所述技能命令χcmd来控制所述机器人(80)的所述致动器,其中,所述机器人(80)的实际状态由相应的传感器感测和/或由相应的估计器估计,并反馈到所述自适应控制器(104)和所述第二单元(102),
-由所述第二单元(102)并基于所述实际状态来确定由所述机器人(80)执行的技能的实际表现值Q(t),
-所述学习单元(103)从所述第二单元(102)接收PD和Q(t),和
-确定更新的技能参数PI(t),并且将PI(t)提供到所述第二单元(102),并且替换迄今为止已有的技能参数PI
9.一种具有数据处理单元的计算机系统,其中,所述数据处理单元被设计和设置成执行根据权利要求8所述的方法。
10.一种具有电子可读控制信号的数字数据存储器,其中,所述控制信号能够与可编程计算机系统协作,从而执行根据权利要求8所述的方法。
CN201880034424.6A 2017-05-29 2018-05-29 用于控制关节型机器人的致动器的系统和方法 Active CN110662634B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102017005081 2017-05-29
DE102017005081.3 2017-05-29
PCT/EP2018/064059 WO2018219943A1 (en) 2017-05-29 2018-05-29 System and method for controlling actuators of an articulated robot

Publications (2)

Publication Number Publication Date
CN110662634A CN110662634A (zh) 2020-01-07
CN110662634B true CN110662634B (zh) 2022-12-23

Family

ID=62636150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880034424.6A Active CN110662634B (zh) 2017-05-29 2018-05-29 用于控制关节型机器人的致动器的系统和方法

Country Status (6)

Country Link
US (1) US20200086480A1 (zh)
EP (1) EP3634694A1 (zh)
JP (1) JP7244087B2 (zh)
KR (1) KR102421676B1 (zh)
CN (1) CN110662634B (zh)
WO (1) WO2018219943A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019208264A1 (de) * 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System
DE102019208263A1 (de) 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System
DE102019208262A1 (de) * 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
EP3812972A1 (en) * 2019-10-25 2021-04-28 Robert Bosch GmbH Method for controlling a robot and robot controller
JP7463777B2 (ja) * 2020-03-13 2024-04-09 オムロン株式会社 制御装置、学習装置、ロボットシステム、および方法
CN113110442B (zh) * 2021-04-09 2024-01-16 深圳阿米嘎嘎科技有限公司 四足机器人多重技能运动控制方法、系统及介质
WO2023047496A1 (ja) * 2021-09-22 2023-03-30 日本電気株式会社 制約条件取得装置、制御システム、制約条件取得方法および記録媒体
WO2023166573A1 (ja) * 2022-03-01 2023-09-07 日本電気株式会社 学習装置、制御装置、学習方法及び記憶媒体
WO2023166574A1 (ja) * 2022-03-01 2023-09-07 日本電気株式会社 学習装置、制御装置、学習方法及び記憶媒体
CN116276986B (zh) * 2023-02-28 2024-03-01 中山大学 一种柔性驱动机器人的复合学习自适应控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265202A (ja) * 1998-01-14 1999-09-28 Sony Corp 制御方法および制御装置
JP2006341348A (ja) * 2005-06-09 2006-12-21 National Institute Of Advanced Industrial & Technology タスクスキルによる電源用3ピンプラグ挿入装置
CN104858876A (zh) * 2014-02-25 2015-08-26 通用汽车环球科技运作有限责任公司 机器人任务的可视调试
JP2016009308A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 マルウェア検出方法、システム、装置、ユーザpc及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4534015B2 (ja) 2005-02-04 2010-09-01 独立行政法人産業技術総合研究所 マスタ・スレーブ式ロボット制御情報確定方法
US8924021B2 (en) * 2006-04-27 2014-12-30 Honda Motor Co., Ltd. Control of robots from human motion descriptors
DE102010012598A1 (de) 2010-02-26 2011-09-01 Kuka Laboratories Gmbh Prozessmodulbibliothek und Programmierumgebung zur Programmierung eines Manipulatorprozesses
JP6221414B2 (ja) 2013-06-27 2017-11-01 富士通株式会社 判定装置、判定プログラムおよび判定方法
US9984332B2 (en) * 2013-11-05 2018-05-29 Npc Robotics Corporation Bayesian-centric autonomous robotic learning
JP6823569B2 (ja) * 2017-09-04 2021-02-03 本田技研工業株式会社 目標zmp軌道の生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265202A (ja) * 1998-01-14 1999-09-28 Sony Corp 制御方法および制御装置
JP2006341348A (ja) * 2005-06-09 2006-12-21 National Institute Of Advanced Industrial & Technology タスクスキルによる電源用3ピンプラグ挿入装置
CN104858876A (zh) * 2014-02-25 2015-08-26 通用汽车环球科技运作有限责任公司 机器人任务的可视调试
JP2016009308A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 マルウェア検出方法、システム、装置、ユーザpc及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Human-Like Adaptation of Force and Impedance in Stable and Unstable Interactions;Chenguang Yang et al;《IEEE transaction on robotics》;20111031;第27卷(第5期);第918-930页 *

Also Published As

Publication number Publication date
JP2020522394A (ja) 2020-07-30
KR20200033805A (ko) 2020-03-30
CN110662634A (zh) 2020-01-07
EP3634694A1 (en) 2020-04-15
US20200086480A1 (en) 2020-03-19
WO2018219943A1 (en) 2018-12-06
JP7244087B2 (ja) 2023-03-22
KR102421676B1 (ko) 2022-07-14

Similar Documents

Publication Publication Date Title
CN110662634B (zh) 用于控制关节型机器人的致动器的系统和方法
Johannsmeier et al. A framework for robot manipulation: Skill formalism, meta learning and adaptive control
Peternel et al. Robotic assembly solution by human-in-the-loop teaching method based on real-time stiffness modulation
Fu et al. One-shot learning of manipulation skills with online dynamics adaptation and neural network priors
Tanwani et al. A generative model for intention recognition and manipulation assistance in teleoperation
EP3924884B1 (en) System and method for robust optimization for trajectory-centric model-based reinforcement learning
Ghadirzadeh et al. A sensorimotor reinforcement learning framework for physical human-robot interaction
Mitrovic et al. Adaptive optimal feedback control with learned internal dynamics models
Flacco et al. Discrete-time redundancy resolution at the velocity level with acceleration/torque optimization properties
US11281208B2 (en) Efficient teleoperation of mobile robots via online adaptation
EP3978204A1 (en) Techniques for force and torque-guided robotic assembly
KR20230028501A (ko) 보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습
US20220105625A1 (en) Device and method for controlling a robotic device
JP2022501717A (ja) プラントを制御する制御システム及び方法、並びに記憶媒体
Torabi et al. Sample-efficient adversarial imitation learning from observation
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
Krug et al. Representing movement primitives as implicit dynamical systems learned from multiple demonstrations
Oikonomou et al. Task driven skill learning in a soft-robotic arm
Stulp et al. Reinforcement learning of impedance control in stochastic force fields
Zhang et al. Auto-conditioned recurrent mixture density networks for learning generalizable robot skills
Boas et al. A dmps-based approach for human-robot collaboration task quality management
Kim et al. Generalizing over uncertain dynamics for online trajectory generation
Robbel Active learning in motor control
Mitrovic Stochastic optimal control with learned dynamics models
Owan A learning approach for extending human-robot collaboration to manufacturing-specific tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant