CN114450131A

CN114450131A - 机器人系统的无导数模型学习系统及设计

Info

Publication number: CN114450131A
Application number: CN202080067422.4A
Authority: CN
Inventors: D·罗梅雷斯; A·达拉·里贝拉; D·贾; D·N·尼科夫斯基
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-30
Filing date: 2020-07-29
Publication date: 2022-05-06
Anticipated expiration: 2040-07-29
Also published as: US20210094174A1; WO2021065197A1; EP3856468A1; US11389957B2; CN114450131B; JP2022543926A

Abstract

一种控制操纵系统的操纵器学习控制设备，包括：接口，其配置为接收操纵系统的操纵器状态信号和关于要由操纵系统在工作空间中操纵的对象的对象状态信号，其中，对象状态信号由至少一个对象检测器检测；输出接口，其配置为向操纵系统发送初始和更新策略程序；存储器，其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF‑SPGP核学习程序、无导数半参数高斯过程DF‑SPGP模型学习程序、更新策略程序和初始策略程序的计算机可执行程序；以及处理器，其与存储器连接，配置为将初始策略程序发送到操纵系统以启动学习过程，学习过程在预设时间段内操作操纵对象的操纵器系统。

Description

机器人系统的无导数模型学习系统及设计

技术领域

本发明总体上涉及无导数(derivative-free)模型学习技术的系统和设计，更具体地，涉及用于机器人操纵器系统的无导数模型学习技术的系统和设计。

背景技术

包括深度学习、迁移学习和强化学习的机器学习技术的新浪潮允许诸如机器人和个人助理的智能系统通过从示例或指令中学习来获取知识并解决难题，而无需人类缓慢、量身定制和昂贵的编程。

学习模型控制机器人系统的困难在于以下事实：机器人系统的运动由非常复杂的物理定律(称为刚体动力学(RBD))控制，并且通常只知道这些物理定律的粗略表示。此外，计算这些定律所需的物理量的测量，例如机器人的每个部件的位置、速度和加速度，通常部分不可用。事实上，通常安装在机器人系统上的传感器仅测量位置部件(例如，编码器、电位计、接近传感器...)，而不测量速度和加速度。尽管存在测量速度和加速度的传感器(例如，转速表、激光表面速度计、压电传感器、惯性测量单元(IMU)和加速度计传感器)，但由于结构上的限制和可能的高成本，这些传感器通常不集成在机器人系统中。事实上，这些传感器的缺乏适用于大多数工业机器人操纵器，虽然新一代研究机器人中的一些具有一些传感器来测量加速度，例如IMU，但它们通常不具有测量速度的传感器。此外，当任务涉及对特定对象的操纵时，通常情况是对象是无传感器的，并且仅可添加外部传感器以测量其在空间上的位置，例如相机或编码器。

因此，期望开发先进的AI技术，以用于基于可用的测量来学习外部世界的语义表示，并重新使用它们来在新的机器人任务中进行更好的决策。这些表示可用于实现基于机器学习技术的框架，其使得学习和预测机器人系统的移动成为可能。

发明内容

近年来，强化学习(RL)得到了爆炸性的增长。RL算法已经能够在几个基准问题中达到并超过人类级别的性能。然而，由于所需的大量经验以及与随机探索相关联的安全风险，将RL应用于真实物理系统(例如，机器人系统)仍然是一个挑战。

准确描述物理系统的演化通常是非常具有挑战性的，并且仍然是一个活跃的研究领域，因为从物理的第一原理推导模型在某些方面可能非常复杂，并且还可能由于参数不确定性和未建模的非线性效应而引入偏差。

另一方面，仅从数据中学习模型可能会非常昂贵，并且通常受到泛化不足的影响。在基于模型的RL(MBRL)技术中，基于高斯过程回归(GPR)的模型在模型学习任务中受到了大量关注。实际上，GPR允许将先前物理信息与数据驱动的知识(即，从分析数据之间的相似性推断的信息)合并，从而产生所谓的半参数模型。

物理定律表明，机械系统的状态可以用其广义坐标的位置、速度和加速度来描述。然而，速度和加速度传感器通常不可用，特别是当考虑低成本设置时。例如，这些传感器在当前作为现有技术销售的大多数机械臂操纵器中是不可用的。在这种情况下，通常通过位置测量的因果数字微分来估计速度和加速度，引入真实信号和估计信号之间的差。这些信号失真可被视为额外的未知输入噪声，其可显著损害学习算法的预测精度。

本发明的一些实施方式提供了用于不需要速度和加速度的测量的基于模型的RL算法的学习框架。代替将系统状态表示为位置、速度和加速度的集合，我们将状态定义为位置测量的有限过去历史以表示模型的无导数状态表示，其中位置的导数不包括在该状态表示中。对于无导数的非参数核，已经引入了无导数的GPR模型。

本发明的一些实施方式基于这样的认识，即无导数GPR模型可以被扩展到物理激励的无导数(PIDF)模型，提供更好的泛化特性，并且使得能够设计半参数无导数(SPDF)模型。

因此，一些实施方式基于如下认识：可以提供一种操纵器学习控制设备来控制操纵系统，所述操纵器学习控制设备包括接口，该接口被配置为接收所述操纵系统的操纵器状态信号和关于要由所述操纵系统在工作空间中操纵的对象的对象状态信号，其中，所述对象状态信号由至少一个对象检测器检测；输出接口，其被配置为向所述操纵系统发送初始和更新策略程序；存储器，其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程(DF-SPGP)核学习程序、无导数半参数高斯过程(DF-SPGP)模型学习程序、更新策略程序和初始策略程序的计算机可执行程序；以及处理器，其与所述存储器连接，被配置为将所述初始策略程序发送到所述操纵系统以启动学习过程，所述学习过程操作操纵对象的操纵器系统达预设时间段，之后，所述处理器根据所述对象状态历史数据和所述操纵器状态历史数据更新所述DF-SPGP模型学习程序，所述对象状态历史数据和所述操纵器状态历史数据是使用所述数据预处理程序从在所述预设时间段内已经接收到的操纵器状态信号和对象状态信号的集合转换的，其中，所述处理器根据更新的DF-SPGP模型学习程序来对更新策略程序进行更新。

此外，本发明的另一实施方式基于以下认识：计算机实现的操纵器学习方法包括以下步骤：根据初始策略程序操作操纵系统达预设时间段，其中，所述初始策略程序启动学习过程，该学习过程操作用于操纵对象的操纵器系统；在所述预设时间段内接收操纵器状态信号和对象状态信号；根据从在所述预设时间段内接收到的操纵器状态信号和对象状态信号的集合转换而来的对象状态历史数据和操纵器状态历史数据来更新DF-SPGP模型学习程序；以及根据经更新的DF-SPGP模型学习程序来对更新策略程序进行更新。

附图说明

附图被包括在本说明书中以提供对本发明的进一步理解，阐释本发明的实施方式，且与说明书一起用于解释本发明的原理。

[图1A]

图1A是示出根据本发明的实施方式的包括连接到机器人系统的无导数模型学习系统的操纵器学习控制设备的示意图；

[图1B]

图1B示出了根据本发明的实施方式的用于描述无导数模型学习过程的流程图；

[图1C]

图1C是示出根据本发明的实施方式的布置在操纵器学习控制设备中的无导数模型学习系统的示意图；

[图2A]

图2A示出了根据本发明的实施方式的球杆实验设置的示例；

[图2B]

图2B示出了利用数个标准物理激励估计器和利用根据本发明的一些实施方式获得的估计器

在测试数据中获得的归一化均方根误差(nRMSE)比较；

[图3A]

图3A示出了根据本发明的一些实施方式的在真实系统上和在无导数SPGP模型上利用iLQG策略控制球杆系统时球的位置的演化的比较；

[图3B]

图3B示出了根据本发明的一些实施方式的使用无导数SPGP模型学习程序和无导数PIGP模型学习程序利用更新的iLQG策略获得的控制动作之间的差异；

[图4]

图4示出了根据本发明实施方式的具有各种系统参数和状态变量的FP的示意图；

[图5]

图5示出了根据本发明的一些实施方式的保持在机器人的腕关节中的Furuta摆的示例设置；

[图6]

图6示出了根据本发明实施方式的

及其基于模型的基函数的演化；

[图7A]

图7A示出了包括利用本发明的一些实施方式获得一些模型学习程序的不同模型学习程序在由正弦曲线的和构成的初始策略上记录的测试数据上获得的nRMSE的方面的性能的比较；

[图7B]

图7B示出了包括利用本发明的一些实施方式获得的一些模型学习程序的不同模型学习程序的在由三角波构成的初始策略上记录的测试数据上获得的nRMSE的方面的性能的比较；

[图8]

图8在推出中的RMSE^k及其的相对置信区间方面比较在推出中的包括利用本发明的一些实施方式获得的一些模型学习程序的若干模型学习程序；以及

[图9A]

图9A示出了根据本发明的实施方式的在Furuta摆向上摆动控制上的iLQG轨迹的性能。

[图9B]

图9B示出了根据本发明的实施方式的在Furuta摆向上摆动控制上的iLQG轨迹的性能。

具体实施方式

在整个附图和具体实施方式中，除非另外描述，否则相同的附图标记将被理解为指代相同或相似的元件、特征和结构。为了清楚、说明和方便，可能夸大这些元件的相对尺寸和描绘。

下文参照附图描述本发明的各种实施方式。应当注意，附图不是按照比例绘制的，在整个附图中，具有相似结构或功能的元件由相同的附图标记表示。还应当注意，附图仅旨在帮助对本发明的特定实施方式的描述。它们不意在作为本发明的穷举描述或作为对本发明范围的限制。另外，结合本发明的特定实施方式描述的方面不一定限于该实施方式，并且可以在本发明的任何其他实施方式中实践。

根据本发明的一些实施方式，由于将可用物理知识转换成可以适于描述真实物理定律的灵活的数据驱动的机器学习方法，因此存在能够在预测中提供更高精度的优点。由于本发明的实施方式仅需要机器人系统的每个部件的位置的测量，而不需要速度和加速度的测量，所以模型学习系统可以被大大简化并且减少足够量的计算负荷和功率消耗。

图1A是示出根据本发明的实施方式的包括连接到机器人系统的无导数模型学习系统的操纵器学习控制设备的示意图。部件10、50、176和工作台11定义了本发明的实施方式希望应用于的应用的示例。

用于控制操纵系统的操纵器学习-控制设备100可以使用操纵系统10固有的操纵器控制器50利用接口150向操纵系统10发送配置的初始和更新的策略程序，并且可以接收由至少一个操纵器状态检测器(例如，位置编码器177)检测到的操纵系统的操纵器状态信号和将由操纵系统10在工作空间中操纵的对象176的对象状态信号，其中，对象状态信号由至少一个对象检测器(例如，相机175)检测。这些部件10、50、176、175、177在这里被表示为示例，但是它们可以针对不同的应用而变化，因为本发明的实施方式对于不同的应用是稳健的(robust)。

在学习(训练)过程的开始，使用接口150将用于在预定时间段内移动机器人的初始策略137发送到操纵系统10。初始策略是任意信号，其可以是例如正弦信号、正弦的和或随机信号。在预定时间段期间，收集的数据是分别由175和177检测的对象状态和操纵系统状态，输入/输出接口150将对象状态和操纵系统状态发送到数据预处理程序131。在131中，数据经过一些预处理，然后被存储在存储器中作为操纵器状态历史132和作为对象状态历史133，这些量在每个时间步分别包含操纵器和对象的过去位置的有限历史。无导数SPGP(DF-SPGP)模型学习程序134将操纵器状态历史132、对象状态历史133和初始策略的控制信号作为输入。在执行DF-SPGP模型学习程序134时，训练无导数SPGP(DF-SPGP)核学习程序(未示出)和无导数SPGP模型学习程序。在134中获得的无导数SPGP模型与操纵器必须对对象176计算的任务的任务规范136一起用于在135中计算更新的策略。在135中，策略是迭代线性二次高斯(iLQG)，但是其可以用任何基于模型的轨迹优化技术来代替。一旦在135中学习了更新的策略，就可以经由输入/输出接口150和操纵器控制器50将其发送到操纵器。操纵系统10现在对对象176执行任务。

图1B示出了用于描述根据本发明实施方式的操纵器学习控制设备的流程图。按照先后顺序，在S1中，本发明的实施方式包括定义初始策略137以在预定时间段内激励操纵系统并开始学习过程。然后在S2中，使用接口150将初始策略发送到操纵系统，接口150将控制信号发送到操纵器控制器50，操纵器控制器50在S3中根据初始策略使操纵系统10移动。操纵系统10操纵对象176达预定时间段，并且在S4中由操纵器状态检测器177和对象状态检测器175收集操纵器状态信号和对象状态信号，并且使用接口150将操纵器状态信号和对象状态信号发送到操纵器学习控制设备。接口150将收集的数据和初始策略发送到数据预处理程序，在数据预处理程序中，在S5中对数据进行预处理，并将其作为操纵器状态历史132和对象状态历史133存储在存储器中。在S6中利用这些数据训练无导数SPGP模型学习程序134。之后，在S7中定义操纵系统应该对被操纵对象176计算的任务136，并且在S8中与无导数SPGP模型学习程序一起使用以使用iLQG 135来更新策略。然后，在S9中，使用连接到操纵器控制器50的接口150将更新的策略传输到操纵系统10。操纵系统10现在可以根据在S10中使用无导数SPGP模型学习程序134获得的更新的策略135来执行操纵对象176的任务。

图1C是示出根据本发明的实施方式的布置在操纵器学习控制设备中的无导数模型学习系统的示意图。

根据本发明的实施方式，用于控制操纵系统的操纵器学习控制设备100可以包括：接口150，其被配置为向操纵系统10发送初始和更新的策略程序，并接收操纵系统10的操纵器状态信号和关于要由操纵系统10在工作台11上操纵的对象的对象状态信号，其中，对象状态信号由至少一个对象检测器检测；存储器140，其用于将计算机可执行程序存储在存储部130中，存储器130包括数据预处理程序131、对象状态历史数据133、操纵器状态历史数据132、无导数半参数高斯过程(DF-SPGP)模型学习程序134、更新策略程序135、初始策略程序137、操纵器状态历史132和对象状态历史133；以及与存储器连接的处理器120(或多于一个处理器)。处理器120被配置为经由网络190将初始策略程序137发送到操纵系统195，以启动在预设时间段内操作操纵对象的操纵器系统的学习过程。在这种情况下，处理器120根据对象状态历史数据和操纵器状态历史数据来更新DF-SPGP模型学习程序134，其中处理器根据更新的DF-SPGP模型学习程序134来对更新策略程序135进行更新，所述对象状态历史数据和操纵器状态历史数据是使用数据预处理程序131从在预设时间段内已经接收的操纵器状态和对象状态信号的集合转换而来的。

作为机器人系统的无导数模型学习的示例，将SPDF模型应用于球杆平台和Furuta摆两个示例系统，以显示无导数学习框架(半参数无导数(SPDF)模型)改善了通过标准的基于导数的模型所获得的估计性能。此外，在两个实际系统中，使用SPDF模型来求解基于RL的轨迹优化任务。一些实施方式基于这样的认识，即半参数无导数(SPDF)模型的精度允许对物理系统的令人满意的控制结果，即使以开环方式应用由ILQG算法获得的控制轨迹。

使用高斯过程回归的基于模型的强化学习

在本部分中，我们描述使用GPR的标准模型学习框架和MBRL中采用的轨迹优化算法。RL的环境正式地由马尔可夫决策过程(MDP)定义。考虑服从马尔可夫性质的离散时间系统

其中，

和

是在时刻k的状态向量和输入向量。

当考虑具有广义坐标

的机械系统时，通过刚体动力学获得的动力学方程表明，为了满足马尔可夫性质，状态向量

应该包括广义坐标的位置、速度和加速度，即，

或者可能包括这些变量的子集，这取决于任务定义。

基于模型的RL算法从系统演化的估计

开始导出策略

高斯过程回归

GPR可以用来学习

通常，假设组成

的变量为有条件地独立给定的

和u_k，并且每个状态维数由单独的GPR建模。基于{X,yⁱ}，输入-输出噪声观测的数据集，来推断和更新由

其中i＝1...n_s，表示的

的分量。设N为可用样本的数目，并将GPR输入的集合定义为

其中，

m＝n_s+n_u。关于输出

文献中提出了两个定义。特别地，

可以被定义为

在下一时刻的状态的第i分量，或者被定义为

得到

在这两种情况下，GPR将观测结果建模为

其中，e是具有零均值和协方差

的高斯i.i.d.噪声，并且

矩阵

被称为核矩阵，并且通过核函数

来定义，核函数是核学习程序。在这些假设下，fⁱ(·)的后验分布是高斯分布，并且在闭合形式中可用。在作为模型学习程序的GPR中，关键的方面是选择fⁱ(·)的先验函数，由

定义，通常考虑0，以及

在下面，我们将引用f(·)和k(·,·)分别作为f(·)分量之一和相对的核函数。在文献中，当将GPR应用于物理系统的建模时，通常在以下情况之一中定义核函数或核学习程序。

物理激励核

当通过第一原理导出系统的物理模型时，模型信息可以用于标识特征空间，在该特征空间上系统的演化是线性的。更精确地，假设模型可以以

的形式书写，其中

是通过将GPR输入向量

映射到物理激励特征空间上的第一原理获得的已知非线性函数，并且w是被建模为零均值高斯随机变量的未知参数的向量，即w:N(0,Σ_PI)，Σ_PI∈R^q×q通常选择为对角的。物理激励核(PI)的表达式为

a.

即，特征

中的线性核。PI核在估计性能方面的效率与模型与实际系统行为之间的依附性密切相关。当模型精确时，这些核在精度和泛化方面表现出良好的性能。

为了以后的方便，我们还在

中定义了齐次多项式核，这是(2)的更一般的情况，

注意，线性核是当p＝1时获得的。待估计的超参数仍然是矩阵Σ_PI的对角元素。

非参数核

当不存在要建模的过程的已知结构时，必须由用户根据他们对要建模的过程的理解来选择核。常见的选择是径向基函数核(RBF)：

其中，λ是一个称为比例因子的正常数，Σ_RBF是一个正定矩阵，其定义了一个范数(norm)，在这个范数上计算

和

之间的距离。Σ_RBF的比例因子和元素是称为超参数的未知参数；因此，其被称为非参数(NP)核。已经提出了使Σ_RBF参数化的几种选项，例如对角矩阵或由柯列斯基分解定义的全矩阵，即Σ_RBF＝LL^T。在这种情况下，Σ_RBF的超参数是下三角矩阵L的元素，其中沿着对角线的元素被约束为正。注意，使用这种选择，所有正定矩阵都是参数化的。

半参数核

这种方法结合了物理激励核和非参数核。这里，核函数被定义为协方差的和：

其中，k_NP(·,·)例如可以是RBF核(4)。

半参数(SP)核利用了参数核k_PI的全局性质和非参数核k_NP的灵活性。已经显示出使用SP核具有对数据未很好地探索的状态空间的区域也可以很好地归纳的模型学习程序，用非参数核获得的模型学习程序的典型行为，同时比受未建模动态的影响的用参数核获得的模型学习程序具有更高的精度性能。

使用iLQG的轨迹优化

在本部分中，提出了一个新的学习框架来对物理系统的演化进行建模。在上述标准建模方法中需要解决几个问题。我们在此列出了本发明的一些实施方式要解决的主要问题。

首先，数值微分

根据物理第一原理计算的任何物理系统的刚体动力学是关节位置、速度和加速度的函数。然而，一个共同的问题是，通常不能测量关节速度和加速度，并且通过从关节位置的(可能有噪声的)测量开始的数值微分来计算它们可能严重阻碍最终解。这是一个非常公知和经常讨论的问题，并且其通常通过自组织滤波器(ad-hoc filter)设计而部分地解决。然而，这在调整滤波器的参数方面需要大量的用户知识和经验，并且仍然容易引入各种误差和延迟。

第二，条件独立性假设

在(1)中，

(其中，i＝1...d，

给定)中的条件独立性假设可能是真实系统行为的非常不精确的近似，特别是当所考虑的输出是相同变量的位置、速度或加速度时，它们本质上是相关的。这一事实既是估计性能的问题，也是这样一个问题：因为对于本质相关的建模变量，需要为每个输出估计一个单独的GP，从而导致冗余的建模设计和测试工作，以及计算资源和时间的浪费。当考虑具有相当多自由度的系统时，最后一个方面可能特别相关。

第三，动力学中的延迟和非线性

最后，物理系统经常受到固有延迟和非线性效应的影响，这些效应在几个时刻对系统产生影响，这与一阶马尔可夫假设相矛盾；稍后将讨论这种行为的一个实例。

无导数状态定义

为了克服上述限制，我们以无导数的方式定义系统状态，考虑位置测量的历史作为状态元素：

其中，k_p∈R是正整数。

状态的定义描述如下。在一些情况下，对象状态数据可以表示对象在预定时间段内的位置的顺序测量数据的集合，并且操纵器状态数据可以表示操纵器在预定时间段内的位置的顺序测量数据的集合。

上述定义背后的简单而精确的思想是，当速度和加速度测量不可用时，如果k_p选择得足够大，则位置的历史包含在时间k可用的所有系统信息，给模型学习算法留出估计状态转移函数的可能性。实际上，通过因果数值微分计算的速度和加速度是具有有限脉冲响应(或具有非线性滤波器的有限过去时刻知识)的数字滤波器的输出，其表示过去原始位置数据的统计。这些统计通常不能是精确的，并且可能由于例如当使用低通滤波器来拒绝噪声时引入的延迟而严重损坏，或者如果应用几个滤波器则由于复合误差传播而严重损坏，从而导致学习算法的信息丢失。相反，这种信息丢失被保持在所提出的无导数框架中，该框架是本发明的一些实施方式。对于状态的所有

分量，状态转移函数变为确定性的和已知的(即，恒等函数)。因此，学习系统演化的问题被限制为仅学习函数q_k+1＝f(x_k,u_k)，减少了要学习的模型的数量并且避免了错误的条件独立性假设。最后，MDP具有足够丰富的状态信息，以对固有延迟具有稳健性并且服从一阶马尔可夫性质。

基于PIDF核的状态转移学习

所提出的状态定义需要用于MDP的状态转移函数的建模技术。已仅针对非参数无导数GPR引入无导数GPR。然而，如上所述，数据驱动模型的泛化性能可能不足以保证稳健的学习性能，并且利用来自物理模型的最终先验信息是至关重要的。另一方面，物理模型取决于位置、速度和加速度，并且它们在无导数框架中的使用在标准公式中是不可能的，本发明的实施方式解决了这个问题。在下面，提出了获得所谓物理激励无导数(PIDF)核的过程。

定义

并假设该类型的物理模型

是已知的。然后，我们提出了基于

的一套指导原则来推导一个PIDF核，这是DFSPGP模型学习程序的重要组成部分。

PIDF核指南

中的每个和各个位置、速度或加速度项被度p的不同多项式核

取代，其中，p是原始项的度；例如，

1)中的每个核

的输入是对应于被替换的项的自变量的位置qⁱ的历史

的函数；

例如，

如果状态变量表现为由函数g(·)变换的

则输入到

变为由相同函数g(·)变换的在点2)处定义的输入，例如，

应用这一指南将生成一个核函数k_PIDF(·,·)，其将物理给出的信息结合起来，而不知道速度和加速度。

半参数无导数(SPDF)核的扩展在梳理(combing)时变得简单(trivial)，如“半参数核”部分所述，提出的k_PIDF(x_k,·)具有无导数状态的NP核，

k_NPDF(x_k,·):

k_SPDF(x_k,x_j)＝k_PIDF(x_k,x_j)+k_NPDF(x_k,x_j). (7)

其是DF-SPGP核学习程序。这些指南形式化了使用物理模型但不测量速度和加速度来建模真实系统的非简单问题(non trivial issue)的解。换句话说，基于DF-SPGP核学习程序定义的DF-SPGP模型学习程序(DF-SPGP核学习程序可以定义DF-SPGP模型学习程序)可以预测操纵器和/或由操纵器操纵的对象的行为。

在接下来的部分中，将上述本发明的实施方式应用于两个基准系统(benchmarksystem)，即球杆(BB)和Furuta摆(FP)系统，其详细描述核推导。这是示出本发明的一些实施方式的两个示例。然而，本发明的实施方式不限于这些实施方式。

对于这两个设置，我们将展示使用更新的策略控制系统的任务，突出由于采用无导数框架而带来的优势。在这种情况下，在已经根据更新的DF-SPGP模型学习程序对更新策略程序进行更新之后，将更新策略程序发送到操纵系统。

此外，在BB的情况下，我们将突出k_PIDF(x_k,·)相比使用几个滤波器计算

来获得速度信号的

的改进的估计性能，并且我们将示出标准算法必须处理的选择最合适速度的问题，这与本发明的一些实施方式相反。在更复杂的FP系统中，我们将分析对延迟的鲁棒性、提前k-步的预测性能，并在物理激励、非参数、半参数无导数和标准GPR之间进行广泛的比较。

球杆平台

图2A示出了我们的BB系统的实验设置，一个操纵器系统的示例。铝棒附接到被约束为具有1个自由度(DoF)的倾斜调整台(tip-tilt table)21(平台)。平台由伺服电机(未示出)致动，例如提供开环定位的现成的HiTec型HS-805BB RC型PWM控制伺服电机；平台角度由精确的绝对编码器23测量。在一些情况下，操纵器状态信号由布置在操纵系统的移动部分处的状态检测器检测。操纵器状态信号还可以是来自操纵系统的致动器或操纵系统的编码器的信号，或来自致动器和编码器的信号的组合。此外，状态检测器可以是定位传感器、编码器或定位传感器和编码器的组合。此外，状态检测器可以布置在操纵系统的移动部分处或者布置在操纵系统的非移动部分处，或者布置在操纵系统的移动部分和非移动部分两者处。轴上没有附接转速表，因此角速度不能直接测量。作为由操纵系统操纵的对象的球24在槽中自由滚动。在这种情况下，RGB相机可以附接到固定框架以测量球的位置。在一些情况下，至少一个对象检测器可以是生成对象状态信号的RGBD相机。

此外，相机可以是与操纵系统分离的对象状态检测器。使用简单而快速的斑点跟踪算法在相机收集的图像上对球进行实时跟踪。所有与相机和驱动系统的伺服电机的通信都是使用机器人操作系统(ROS)完成的。

设θ和p分别为在原点位于杆中心且定向s.t.A杆端为正的参考系中所考虑的杆角和球位置。球正向动力学由下式表示：

其中，m、J_b、r和b分别是球质量、惯性、半径和摩擦系数。从式(8)开始，通过在时间上使

向前积分两次并假设两个时刻之间的常数

来导出

的正向函数：

其中，δ_t是采样时间。为了在“无导数状态定义”部分提出的框架中描述BB系统，我们定义了无导数状态x_k＝[x^p _k,x^θ _k]，其中，

在这种情况下，对象状态数据表示对象在预定时间段内的位置的顺序测量数据的集合，并且操纵器状态数据表示操纵器在预定时间段内的位置的顺序测量数据的集合。

将“PIDF核指南”部分中定义的指南应用于式(9)，得到的PIDF核为

预测性能

本部分的目的是比较使用如先前的PIDF核(10)的GP模型(命名为

)和使用标准PI核将(8)应用到式(2)的GP模型(命名为

)的预测性能。标准方法强加的问题是如何从测量值中计算速度以估计

而这个问题并没有唯一的答案。我们用使用不同增益的一些普通滤波器进行了实验，以便找到良好的速度近似：

·标准数值微分后接低通滤波器以抑制数值噪声。我们考虑了3个不同的截止15、21、28Hz，相应的估计器分别命名为

·卡尔曼滤波器，具有不同的过程协方差Σ_x＝diag([σ_x,2σ_x])并且σ_x等于0.005、0.5、10，具有对应的估计器

·窗长为5的非因果Savitzky-Golay滤波器

引入非因果滤波器只是为了提供预测性能的上限，否则它们不能应用于实时应用中。关于

中所考虑的过去时刻的数目，我们设置k_p＝4。由控制动作以30Hz施加并且带有状态收集的BB系统上运行的3分钟组成的数据收集，以及编码器和相机的测量结果被记录。控制动作产生为10个正弦波的总和，正弦波具有在[0,10]Hz之间的随机采样频率、在[0,2π]中的移相和小于5度的振幅。

图2B在顶部绘图和图表上示出了利用若干标准物理激励估计器以及利用根据本发明的一些实施方式获得的估计器

在测试数据中获得的归一化均方根误差(nRMSE)的比较。nRMSE是标准误差度量，并且利用本发明的实施方式获得的模型

具有比其他标准模型更低的nRMSE误差。仅f_PISG执行更好，但这是一个无法在现实中实现的预言，其被添加到图中作为基准。在两个较低的图中，我们给出了用作为标准方法的数值微分和卡尔曼滤波计算的

的详细演化。这些图示出了利用现有技术的数值微分技术如何不存在确定速度

的唯一方式，也因此示出仅使用位置过去历史而不使用速度的本发明的实施方式的重要性。

在图2B中，在顶部绘图中，我们示出了对用物理激励估计器获得的测试数据计算的nRMSE的nRMSE比较。在较低的图中，我们示出了通过数值微分和卡尔曼滤波器计算的

演化的详细图。

利用因果滤波

得到的模型被示出为基准，因为其在操纵器上在运行时不可能在物理上实现并且其保证了最佳性能。在具有因果输入的估计器中，提出方法

执行最好，证实了无导数估计器的有效性。图2B中的图表示出了不同模型的nRMSE的数值。

利用数值微分和卡尔曼滤波获得的结果表明，用于计算速度的技术可以显著影响预测性能。在图2B中，我们还给出了用不同微分技术获得的

演化的详细图。如预期的那样，在这些信号和利用非因果滤波计算的

之间存在一定的延迟。nRMSE数值证明延迟对预测性能有显著影响。因此，截止频率和过程协方差必须以适当的方式调整，从而使延迟最小化。例如，增加截止频率降低了延迟，但同时损害了噪声的抑制。

和

nRMSE值的检查表明过高或过低的截止频率导致最差的预测性能。使用我们提出的方法，不需要调整，因为在GPR训练期间自动学习最优滤波系数。

球杆控制

该系统中的控制任务是沿杆在目标位置以零速度稳定球。使用前面介绍的给出更新的策略的iLQG算法来计算控制轨迹，并且使用DF-SPGP模型学习程序来计算模型，DF-SPGP模型学习程序是具有式(7)中形式的半参数核的GP：

其中，NP核是

Σ_RBF矩阵通过柯列斯基分解参数化。训练数据与下面描述的相同。这是一个用于球杆操纵系统的DF-SPGP模型学习程序。在这种情况下，DF-SPGP模型学习程序预测操纵器和/或由操纵器操纵的对象的行为。然后将获得的控制轨迹应用于物理系统，并且性能可以在图3A和图3B中看到。

图3A示出了在真实系统上和在无导数SPGP模型两者上在利用iLQG策略控制球杆系统时球的位置的演变的比较。两个信号之间的强相似性表明了本发明实施方式的精度。

在图3A的顶部绘图中，我们可以观察到模型的优化轨迹如何在所有100步长(3.3[s])(这是ILQG轨迹的选定长度)中与真实系统的球轨迹保持紧密。该结果表示模型在估计真实系统的演化时的高精度。注意，控制轨迹是在开环中实现的，以突出获得以下值的模型精度：在10次运行中，目标和最终球位置之间的平均偏差为9[mm]，标准偏差为5[mm]。加上一个小的比例反馈，误差几乎变为零。在图3B的底部绘图中，示出了使用

和

核两者获得的控制轨迹。出现了两个主要的观察结果：用

近似在线性系统中将是最佳轨迹的bang-bang轨迹获得的轨迹，与用

获得轨迹类似，但是由于运动方程不能描述真实系统固有的所有非线性效应，所以控制动作具有使球偏离目标位置的最终偏差。

该分析以一个操纵器学习控制设备的示例为结论。在一些情况下，对象状态数据表示对象在预定时间段内的位置的顺序测量数据的集合。

所获得的成功/效果示出了本发明的一些实施方式的一些益处。

Furuta摆：无导数建模与控制

与所考虑的第二物理系统相关的另一个实施方式是作为控制理论中流行的基准系统的Furuta摆。

图5示出了根据本发明的一些实施方式的保持在机器人的腕关节中的Furuta摆的示例设置。Furuta摆是一个具有挑战性的控制系统，因为其是欠驱动的，其动力学非常非线性。由于科里奥利力和向心力的存在，其动力学特征是高度可变的交叉耦合。

FP及其参数和变量的示意图如图4所示。在图4中，我们将“Arm-1”和“Arm-2”分别称为基臂和摆臂，我们用

表示基臂的角度并且用θ表示摆锤的角度。FP是可以由操纵系统操纵的对象的示例。当角度θ由位置编码器传感器测量时，不能测量角度

位置编码器传感器是集成在对象本身中并与操纵系统分离的对象状态检测器。

基于FP的物理模型，我们得到了摆锤角加速度

的表达式，其是关于参数w的向量的线性函数，

其中，

并且

本工作中考虑的FP具有几个不同于研究文献中典型研究的特征。事实上，在我们的FP(见图5)中，基臂由一个夹持器固定，夹持器由机械臂(MELFA RV-4FL，其是操纵系统的一个示例)的腕关节旋转。为此，施加到腕关节的旋转由α表示，其不同于实际的基臂角度

(见图4)。机器人的控制周期固定在7.1ms，与机器人和摆编码器的通信由机器人操作系统(ROS)处理。

这些情况有几个后果。首先，机器人只能在位置控制模式下进行控制，考虑到制造商在控制周期内限制任何机器人关节的最大角位移，我们需要设计设定点的轨迹α^des。这种约束，加上机器人控制器的高性能，导致了α的准确定性演化，我们将其标识为

因此，正向动力学学习问题仅限于建模摆臂动力学。此外，由于弹性和反冲的存在，3D打印夹持器会与FP底座连杆产生显著的相互作用。这些事实导致基臂的振动以及旋转运动，以及摆臂的致动中的显著延迟，这导致

延迟和非线性效应

为了证明FP系统动力学中延迟的存在，我们报告了一个简单的实验，其中α^des中的三角波激发系统。

结果如图6所示，我们报告了

的演化及其基于模型的基函数，其中使用非因果Savitzky-Golay滤波器计算了θ和α的导数(由于粘性摩擦的影响不显著，因此没有报告依赖于

的项)。使用非因果滤波器，因为对于离线分析目的，其是最准确的。

演化的特征在于在轨迹的开始处具有两个明显峰值的主要低频分量和随着时间经过而破坏更多主要分量的较高频率动态分量。从这些结果中可以获得一些见解。首先，低频分量的峰值可以仅由

贡献引起，假定

和θ贡献没有如此显著地表现出这些行为。第二，

贡献和

的峰值(在图中由垂直虚线突出显示)之间的差异表示来自控制信号的延迟和对摆臂的影响。第三，

中的高频分量可以表示由夹持器的振动、基臂的弹性以及由夹持器的柔性给出的所有非线性效应产生的噪声。

Furuta摆DF-SPGP模型学习程序

我们使用无导数框架来学习摆臂演化的模型。FP状态向量定义为

其中

这是过去的历史位置。在这种情况下，对象状态数据表示对象在预定时间段内的位置的顺序测量数据的集合，并且操纵器状态数据表示操纵器在预定时间段内的位置的顺序测量数据的集合。从式(12)开始，并且遵循在BB应用中应用来导出式(9)的相同过程，我们获得

应用“PIDF核指南”部分中的指南，对应的无导数物理激励核的表达式为：

为了还对FP系统的复杂行为建模，我们将FP的半参数核定义为：

其中，NP核被定义为两个RBF的乘积，其Σ_RBF矩阵通过柯列斯基分解被独立地参数化

采用完全协方差矩阵，我们使RBF学习了输入的方便变换，提高了预测器的泛化能力。式(14)是FP系统的DF-SPGP核学习程序，用于计算DF-SPGP模型学习程序。

在报告关于DF-SPGP模型学习程序的性能的数值结果之前，我们希望强调本发明的一些实施方式的显著优点。如在“延迟和非线性效应”部分中实验证明的，相对于α的动力学，θ的演化的特征在于具有显著的延迟。结果，在时刻k的位置、速度和加速度不足以描述FP动态特性。但是，将状态定义为过去测量位置的集合。在这种情况下，对象状态数据表示对象在预定时间段内的位置的顺序测量数据的集合，并且操纵器状态数据表示操纵器在预定时间段内的位置的顺序测量数据的集合。为了适当地设置k_p，我们向GPR提供足够信息的输入向量，让GPR算法选择在适当的时刻输入，从而从数据推断系统延迟。注意，当还考虑速度和加速度时，类似的方法将需要维度状态6k_p+1，该维度状态高于我们在本发明的一些实施方式中提出的维度状态2k_p+1。

预测性能

在本部分中，我们测试不同模型学习程序学习摆臂的演化的准确性。出于比较目的，我们考虑的模型学习程序是：

·

由RBF核定义的非参数模型学习程序，其对角协方差和输入由x_k及其导数给出，即从时间k到k-k_p、k_p＝15的所有位置、速度和加速度；

·f_NP(x_k)：NPDF模型学习程序，带有RBF核并且其中k_p＝15；

·f_PI(x_k)：(13)中定义的PIDF模型学习程序，其中k_p＝15；

·f_SP(x_k):：(14)中定义的SPDF模型学习程序，其中，k_p＝15。

考虑f_der模型以提供了基于x^α和x^θ导数的标准NP估计器的性能。

模型学习程序是在140Hz下收集5分钟所收集的数据的训练数据集D_tr上通过最小化负边际对数似然(NMLL)来训练的。在这种情况下，对象状态数据表示对象在预定时间段内的位置的顺序测量数据的集合。D_tr是五个轨迹的集合，通过将具有范围在±10[rad/sec]之间的随机角速度的30个正弦曲线的和作为输入信号应用而获得。考虑到数据集的一致维数，我们将随机梯度下降应用于NMLL最小化。我们在两个不同的数据集上测试了估计器。第一测试数据集D_sin是与D_tr中的那些具有相同类型的轨迹，而第二数据集(由D_trw表示)由通过应用三角波作为输入而获得的轨迹组成。后一数据集的预测更具挑战性，因为数据是从关于训练数据的不同分布生成的。所提出方法的预测性能在图7A和图7B中报告。图7A和图7B示出了测试数据集f_der、f_NP、f_PI和f_SP中的nRMSE的柱状图。

在D_sin中，所有的估计器都表现出相当高的性能。注意f_der和f_NP，采用了相同的核结构但不同的输入，实现相同的性能，确认速度和加速度的信息本质上包含在位置的历史中，并且本发明的一些实施方式可以自动地推断它们。

D_trw性能确认了PI贡献对于获得良好的泛化特性是至关重要的。事实上，当在远离D_tr中的输入位置的输入位置进行测试时，f_der和f_NP性能会显著恶化。这一点在f_NP中尤其明显。相反，f_PI和f_SP中的PI分量通过使用(13)中定义的适当基函数，捕获FP动态特性的基本行为，并且在更具挑战性的测试中也表现出良好的性能。此外，图7A和图7B表明，采用对Σ_RBF的柯列斯基参数化可以提高NP贡献的泛化能力。实际上，当f_NP中的对角协方差不能拟合D_trw中的数据时，在(14)下定义的f_SP的NP分量改进了f_PI预测，允许在两个测试数据集上保持恒定的性能。预测器f_SP，作为DF-SPGP模型学习程序，优于所有其他方法，确认本发明一些实施方式的优点。

推出性能(Rollout performance)

在本部分中，我们描述了导出模型的推出精度，即在前n步预测的估计性能。对于每个模型，我们都进行了N_sim推出。考虑到第i次推出，我们随机选取初始时刻k_i，选择D_sin中的输入位置

作为初始输入，并对N_w步长窗口执行预测。对于每个模拟，通过从D_sin中实现的轨迹减去预测轨迹来计算

为了描述不确定性是如何随时间演变的，我们定义了误差统计量

即在前面的第k步的预测的RMSE。假设i.i.d.和正态分布误差来计算RMSE^k置信区间。在这个假设下，每个RMSE^k都有χ²分布。在图8中报告了关于f_NP、f_PI和f_SP的RMSE^k的性能。

在初始阶段，

小于

而对于k；30，

变为大于

这表明NP模型对于短区间预测表现良好，而PI模型更适合于长期预测。SP方法作为DF-SPGP模型学习程序，看起来特别方便，因为其结合了这两种模型的优点。

的演化确认了这一点，f_SP表现优于f_NP和f_PI。

控制

使用式(14)中的半参数模型来设计控制器，以使用先前描述的iLQG算法(其是更新策略)来使FP向上摆动(swing-up)。在这种情况下，在已经根据更新的DF-SPGP模型学习程序更新了更新策略程序之后，将更新策略程序发送到操纵系统。iLQG算法获得的轨迹简单地在真实系统上以开环方式实现，以显示DF-SPGP模型学习程序的准确性。

图9A和图9B示出了在FP向上摆动控制上iLQG轨迹的性能。FP能够以接近零的速度向上摆动到目标位置。在图中，我们报告了使用SP模型和真实机器人在iLQG控制序列下获得的θ轨迹之间的良好一致性。比较结果显示了学习模型的长期预测精度。注意，模型可能会在不稳定平衡点附近失去准确性，因为在训练期间缺乏在该区域更难收集的数据。可以指出，以前的使用基于GP的MBRL的尝试无法使一类更简单的倒立摆(车杆系统)向上摆动，因为所学习的模型对于长期预测来说并不准确。这显示了本发明的一些实施方式的优点。

在本公开中，我们提出了用于基于模型的RL的无导数学习框架，并且我们定义了新的物理激励的无导数核。以作为操纵器系统的示例的两个实际机器人系统为例进行的实验表明，所提出的DF-SPGP模型学习程序在预测精度上优于相应的基于导数的GPR模型，并且具有足够的精度来求解真实世界应用中基于模型的RL控制问题。

此外，本发明的实施方式可以实现为已经提供了示例的方法。作为方法的一部分执行的动作可以以任何合适的方式排序。因此，可以构建其中以不同于所示出的顺序执行动作的实施方式，不同的顺序可包括同时执行一些动作，虽然在说明性实施方式中示出为顺序动作。

在权利要求中使用诸如“第一”、“第二”之类的序数术语来修饰权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素的任何优先、优先级或顺序或者执行方法动作的时间顺序，而仅仅用作将具有某一名称的一个权利要求元素与(如果不使用序数术语的话)具有相同名称的另一元素区分开来的标签，以区分权利要求元素。

虽然已经通过优选实施方式的示例描述了本发明，但是应当理解，在本发明的精神和范围内可以进行各种其他的变化和修改。

因此，所附权利要求书的目的是覆盖落入本发明的真实精神和范围内的所有这些变化和修改。

Claims

1.一种用于控制操纵系统的操纵器学习控制设备，所述操纵器学习控制设备包括：

接口，所述接口被配置为接收所述操纵系统的操纵器状态信号和关于要由所述操纵系统在工作空间中操纵的对象的对象状态信号，其中，所述对象状态信号由至少一个对象检测器检测；

输出接口，所述输出接口被配置为向所述操纵系统发送初始策略程序和更新策略程序；

存储器，所述存储器用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF-SPGP核学习程序、无导数半参数高斯过程DF-SPGP模型学习程序、更新策略程序和初始策略程序的计算机可执行程序；以及

处理器，所述处理器与所述存储器连接，所述处理器被配置为将所述初始策略程序发送到所述操纵系统以用于启动学习过程，所述学习过程在预设时间段期间操作操纵所述对象的操纵器系统，其中，所述处理器根据所述对象状态历史数据和所述操纵器状态历史数据更新所述DF-SPGP模型学习程序，所述对象状态历史数据和所述操纵器状态历史数据是使用所述数据预处理程序从在所述预设时间段内已经接收到的操纵器状态信号和对象状态信号的集合转换的，其中，所述处理器根据更新的DF-SPGP模型学习程序来对所述更新策略程序进行更新。

2.根据权利要求1所述的操纵器学习控制设备，其中，在已经根据经更新的DF-SPGP模型学习程序对所述更新策略程序进行更新之后，将所述更新策略程序发送到所述操纵系统。

3.根据权利要求1所述的操纵器学习控制设备，其中，所述操纵器状态信号由状态检测器检测，其中，所述状态检测器布置在所述操纵系统的移动部分处或者所述操纵系统的非移动部分处，或者布置在所述操纵系统的所述移动部分和所述非移动部分两者处。

4.根据权利要求3所述的操纵器学习控制设备，其中，所述操纵器状态信号是来自所述操纵系统的致动器或所述操纵系统的编码器的信号，或者是来自所述致动器和所述编码器的信号的组合。

5.根据权利要求3所述的操纵器学习控制设备，其中，所述状态检测器是定位传感器或编码器或者所述定位传感器和所述编码器的组合。

6.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器是生成所述对象状态信号的RGB或RGBD相机。

7.根据权利要求1所述的操纵器学习控制设备，其中，所述对象状态数据表示所述对象在预定时间段内的位置的顺序测量数据的集合。

8.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器与所述操纵系统分离。

9.根据权利要求1所述的操纵器学习控制设备，其中，操纵器的状态检测器布置在所述操纵系统的关节位置处。

10.根据权利要求3所述的操纵器学习控制设备，其中，所述操纵器状态数据表示所述操纵器在预定时间段内的位置的顺序测量数据的集合。

11.根据权利要求1所述的操纵器学习控制设备，其中，所述DF-SPGP模型学习程序预测所述操纵器和/或由所述操纵器操纵的所述对象的行为。

12.根据权利要求7所述的操纵器学习控制设备，其中，所述DF-SPGP核学习程序定义所述DF-SPGP模型学习程序，所述DF-SPGP模型学习程序预测所述操纵器和/或由所述操纵器操纵的所述对象的行为。

13.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器是生成所述对象状态信号的位置编码器。

14.一种计算机实现的操纵器学习方法，所述操纵器学习方法包括以下步骤：

在预设时间段内根据初始策略程序操作操纵系统，其中，所述初始策略程序启动学习过程，该学习过程操作用于操纵对象的操纵器系统；

在所述预设时间段内接收操纵器状态信号和对象状态信号；

根据从在所述预设时间段内已经接收到的所述操纵器状态信号和所述对象状态信号的集合转换而来的对象状态历史数据和操纵器状态历史数据来更新DF-SPGP模型学习程序；以及

根据经更新的DF-SPGP模型学习程序来对更新策略程序进行更新。

15.根据权利要求14所述的操纵器学习方法，所述操纵器学习方法还包括以下步骤：将经更新的更新策略程序发送到所述操纵系统。

16.根据权利要求14所述的操纵器学习方法，其中，所述操纵器状态信号由布置在所述操纵系统的移动部分处的状态检测器检测。

17.根据权利要求16所述的操纵器学习方法，其中，所述操纵器状态信号是来自所述操纵系统的致动器或所述操纵系统的编码器的信号，或者是来自所述致动器和所述编码器的信号的组合。

18.根据权利要求16所述的操纵器学习方法，其中，所述状态检测器是定位传感器、编码器或所述定位传感器和所述编码器的组合。

19.根据权利要求14所述的操纵器学习方法，其中，至少一个对象检测器是生成所述对象状态信号的RGB或RGBD相机。

20.根据权利要求14所述的操纵器学习方法，其中，所述对象状态数据表示所述对象在预定时间段内的位置的顺序测量数据的集合。

21.根据权利要求14所述的操纵器学习方法，其中，至少一个对象检测器与所述操纵系统分离。

22.根据权利要求14所述的操纵器学习方法，其中，所述状态检测器布置在所述操纵系统的关节位置处。