CN111971628A

CN111971628A - 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质

Info

Publication number: CN111971628A
Application number: CN201980010792.1A
Authority: CN
Inventors: 阮东·德义; 克里斯廷·丹尼尔; 塞巴斯蒂安·特里姆佩; 马丁·希格; 安德烈亚斯·多尔
Original assignee: Robert Bosch GmbH; Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Current assignee: Robert Bosch GmbH; Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date: 2018-01-30
Filing date: 2019-01-28
Publication date: 2020-11-20
Also published as: US20210011447A1; US11093863B2; DE102018201411A1; EP3746850A1; EP3746850B1; WO2019149664A1

Abstract

一种求得可被致动器(20)调节的被测变量(y)的时间曲线的方法，其中对所述致动器(20)施加某个控制变量(u)的时间曲线，其中所述求得是借助所述致动器(20)的特性的高斯过程状态模型来实施，其中根据可参数化的函数族(q(x_1:T,f_2:T,z))来求得所述致动器(20)的被测变量(y)的时间曲线，其中在所述可参数化的函数族(q(x_1:T,f_2:T,z))中，所述致动器(20)的特别是用过渡函数(f_t)求得的下一潜在状态(x_t)与所述致动器(20)的前一潜在状态(x_t‑1)以及与所述致动器(20)的前一控制变量(u_t‑1)的时间关联，等于所述高斯过程状态模型的相应关联。

Description

求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质

背景技术

Roger Frigola、Yutian Chan和Carl E.Rasmussen所著《Variational GaussianProcess State-Space Models》(变分高斯过程状态空间模型，arXiv preprint arXiv:1406.4905v2,2014)揭示一种借助稀疏高斯过程(英语：sparse Gaussian processes)来变分贝叶斯学习非线性状态空间模型(英语：state-space model)的方法。

Thomas F.W.Nicholson、Marc Peter Deisenroth和James Hensman所著《Identification of Gaussian Process State Space Models》(高斯过程状态空间模型的识别，arXiv preprint arXiv:1705.10888v2,2017)以及Andreas Svensson和Thomas B.

所著《A flexible state space model for leaming nonlinear dynamicalSystems》(学习非线性动力学系统的柔性状态空间模型，arXiv preprint arXiv:1603.05486v2,2017)揭示了学习状态空间模型的其他方法。

本发明的优点

与此相比，具有独立权利要求1的特征的方法的优点在于：一种特别有效且可靠的方法，即使在高维潜在状态空间下也能学习非线性状态空间模型。

有利改进方案参阅独立权利要求。

发明内容

在第一方面中，本发明涉及一种求得可被致动器调节的被测变量y的时间曲线的方法，其中对该致动器施加某个控制变量u的时间曲线。

借助高斯过程状态模型(英语：Gaussian process state space model，简称GP-SSM)来求得，该高斯过程状态模型描述致动器的特性。根据可参数化的函数族q(x_1:T,f_2:T,z)来求得致动器的控制变量。

状态空间模型，也称状态模型，是在过渡模型f和过程噪声(英语：process noise)ε_x下借助潜在变量x来描述系统的特性。根据潜在变量x，借助具有测量噪声εy的观察函数g来求得被测变量y借助下标“t”通常就能描述时间变化，在此情况下，状态空间模型通过以下方式而产生，

用高斯过程就能通过函数来展示分布。从而将关于系统特性的先验假设考虑在内。针对一组观察X＝[x₁,...,x_N]，将对应的函数值f＝[f(x₁),...,f(x_N)]作为共同高斯分布，亦即

其中均值矢量m_X为项m_i＝m(x_i)，协方差矩阵K_X,X为要素K_ij＝k(x_i,x_j)。

通常表示正态分布。均值矢量的项m_X例如可以选择等于零。函数k(x_i,x_j)可以用适宜的超参数

例如由下式给出：

在观察X的函数值f给出的情况下，新观察点x^*的相关概率分布就能被写成

其中

其中

其中k_A,B表示A、B中每个要素对的协方差的标量或矢量。此处重要之处在于，如此地选择核，使得函数μ,σ可根据x^*而求微分。

通过缩写

就能将过渡模型写成

经观察的被测变量y从时间点a至未来时间点b的时间序列被缩写成y_a:_b(类似于其他变量)。

有利地，描述性高斯过程可以实现为稀疏高斯过程。为此，可以在可预设的伪输入点(英语：pseudo input points)ζ＝[ζ₁，...，ζ_P]上设置诱导高斯过程目标状态(英语：inducingGaussian process targets)z＝[z₁,...,z_P]。此举特别是在训练数据组较大的情况下会降低高斯过程的参数的调整计算量。

既可以针对过渡模型f又可以针对观察函数g来选择高斯过程。但为了识别表征高斯过程的参数，优选选择已知的参数化观察模型，例如

其中对角协方差矩阵

且观察函数

g(x_t)＝Cx_t, (5)

其中如此地选择矩阵C，使其选择潜在变量x_t的D_y第一项，即

其中I为单位矩阵。D_x表示潜在变量x的空间的维度，D_y表示被测变量y的空间的维度。在D_y<D_x的情况下，这个模型尤为合适，这种情况通常会出现在实体传感器数目有限的系统中，如机器人中。观察函数g也可以由另一参数的可求微分的图像产生。就高维观察空间，即较大的D_y而言，例如也可以将另一可求微分的函数，如神经网络，用作观察函数g。

这样就能将GP-SSM的变量的共同分布函数写成

其中

可以将过程噪声选为具有对角协方差

的

潜在状态p(x₁)的初始分布是未知的。针对每个潜在维度d独立地用

来描述过渡动态。这个概率可以通过稀疏高斯后验概率分布

类似于等式(3)地选择。诱导目标状态z_d的后验概率分布p(z_d)也可以正态分布地用适宜的参数m_ζ、K_ζ，ζ来选择：

用来求得等式(6)所给出的模型的对数似然或后验概率分布的积分极难求解。这样就产生了使用变异函数的方法。

César Lincoln C.Mattos、Zhenwen Dai、Andreas Damianou、Jeremy Forth、Guilherme A.Barreto、Neil D.Lawrence所著《Recurrent Gaussian processes》(递归高斯过程，arXiv preprint arXiv:1511.06644.v6,2016)例如揭示过：将所谓的平均场近似应用于潜在状态x_1:T。该案用下式的因子分解的近似函数族q来对等式(6)所给出的模型的后验概率分布p(x_1:T,f_2:T,z|y_1:T)

进行近似计算。通过改变将这个族参数化的参数，就能尝试尽可能对实际的后验概率分布进行近似计算。

为了更好地保持模型(6)中各状态间的时间关系，作为前述方案的替代方案，可以如此地选择可参数化的函数族q(x_1:T,f_2:T,z)，使得致动器的相继的潜在状态x的时间关联保持不变。亦即，该致动器的下一潜在状态x_t(其例如用过渡函数求得)与该致动器的此前，特别是前一潜在状态x以及与该致动器的此前，特别是前一控制变量u的关联，应等于该高斯过程状态模型的相应关联，特别是对应于等式(6)。亦即，项

或(在稀疏表述的情况下)

在等式(6)中所表述的关联应在可参数化的函数族q(x_1:T,f_2:T,z)中同样保持。

特定而言，可参数化的函数族q(x_1:T,f_2:T,z)被配置成，针对所测训练数据组y_mess尽可能对后验概率分布p(x_1:T,f_2:T,z|y_1:T)进行近似计算。

优选通过以下方式来求得训练数据组y_mess：用可预设的控制变量u的可预设的训练曲线u_1:n来控制致动器并且求得被测变量y的所产生的时间训练曲线y_1:n。这样就能通过(y_1；n,u_1:n)来产生训练数据组y_mess。

有利地，可参数化的函数族q(x_1:T,f_2:T,z)与致动器的初始潜在状态x₁的关联由与这个初始潜在状态相关(特别是仅与该状态相关)的因子给出，其中这个因子由可参数化的变异函数q(x₁)，特别是由正态分布

产生。

作为替代或补充方案，可参数化的函数族q(x_1:T,f_2:T,z)与高斯过程目标状态z_d的关联可以由第二因子给出，其中这个第二因子为可参数化的第二变异函数q(z_d)，其作为自变量而具有相应的高斯过程目标状态z_d。

其中，该可参数化的第二变异函数q(z_d)可以由正态分布函数

产生。

在此情况下，该可参数化的函数族具有下式

在此情况下，用来将这个可参数化的函数族参数化的参数由以下给出：

-过程噪声

-传感器噪声

-针对诱导高斯过程目标状态的变异参数

-可预设的伪输入点

-核-超参数。

采用该可参数化的函数族后，便能通过以下方式来求得致动器的潜在状态

的预测时间变化：根据下一时间点上的预测潜在状态的可参数化的变异函数以给出前一时间点上的预测潜在状态

的方式，来递归地求得下一时间点上的潜在状态

的预测时间变化的样本，其中根据该潜在状态的预测时间变化来选择致动器的控制变量。

这样就能像实施例所详细阐述的那样简单地求得证据下界，即ELBO。

通过潜在状态x的马可夫结构和稀疏高斯过程近似计算，在某个时间点t,q(x_t)上的潜在状态的(边缘化)近似分布，在前一时间点t-1的分布给出的情况下，与此前的时步无关。这样就能实施前述的递归操作。

但需要规定初始的潜在状态

可以指定，特别是随机规定该潜在状态的预测时间变化的初始潜在状态

此举非常简单。

但也可以根据可参数化的变异函数q(x₁)通过初始状态x₁的分布函数以给出所测训练数据组q(x₁|y_1:n,u_1:n)的方式来求得初始潜在状态

该分布函数的表征参数通过反向传播而被训练。

在另一方面中，本发明涉及一种方法，其中根据被测变量y的借助前述方法中的一个所测得的曲线来求得用来控制致动器的最佳控制变量u_opt。这样就能非常简单地对致动器进行最佳控制。

在另一方面中，本发明涉及一种学习控制策略的方法，也称“policy leaming”。其中，求得至少一个最佳参数ξ_opt。这个最佳参数ξ_opt表征致动器控制系统的控制策略。该致动器控制系统被配置成根据该控制策略来用控制变量u控制致动器。亦即，可以根据控制策略并且根据最佳参数ξ_opt来求得控制变量u。借助前述方法中的一个来求得被测变量y的应用该控制策略时所产生的时间曲线，并且根据被测变量y的该所测曲线来求得该至少一个最佳参数ξ_opt。

在另一方面中，本发明涉及一种训练致动器控制系统的方法，该致动器控制系统被配置成实施前述方法中的一个，其中对表征可参数化的函数族q(x_1:T,f_2:T,z)的参数和/或确定性模型参数进行调整，使其针对所测训练数据组尽可能至少对所述致动器的至少潜在状态x_1:T和所述过渡函数f_2:T的时间曲线的后验概率分布p(x_1:T,f_2:T,z|y_1:T)，以给出所述致动器的被测变量y_1:T的时间曲线的方式，进行近似计算。

下面参照所附图式对本发明的实施方式进行详细说明，图中：

图1为本发明的实施方式的结构的示意图；

图2为本发明的其他实施方式的结构的示意图；

图3为本发明的一个方面中的方法的流程的流程图；

图4为本发明的另一方面中的方法的流程的流程图；

图5为本发明的又一方面中的方法的流程的流程图。

具体实施方式

图1示出本发明的实施方式的结构。图1在一个实施方式中示出在环境20中与致动器控制系统40相互作用的致动器10。下文也将致动器10和环境20共同称为致动器系统。例如定期地用传感器30检测致动器系统的状态，该传感器也可以由多个传感器构成。将传感器30的每个传感器信号S传输至致动器控制系统40。据此，致动器控制系统40接收一个序列的传感器信号S。致动器控制系统40由此而求得一个序列的控制信号A，致动器10接收该控制信号。

致动器10例如可以指(半)自主机器人，如(半)自主汽车，或指对田地里的某类杂草进行处理(如加以拔除或喷洒相应的化学品)的机器人。

传感器30例如可以指一或多个视频传感器以及/或者一或多个雷达传感器以及/或者一或多个超声波传感器以及/或者一或多个位置传感器(如GPS)。作为替代或补充方案，传感器30也可以包括求得关于致动器系统的状态的信息的信息系统，如求得环境20中的当前或未来的天气状态的天气信息系统。

在另一实施例中，致动器10可以指制造机器人，在此情况下，传感器30例如可以指检测制造机器人的制造产品的特性的光学传感器。

在另一实施例中，致动器10可以指用来释放或不释放某个设备的活动的释放系统。传感器30例如可以指用来进行脸部检测的光学传感器(例如用于检测图像或视频数据)。致动器10根据控制信号A的序列来求得释放信号，其作用在于：根据该释放信号的值来释放设备。该设备例如可以指物理或逻辑上的访问控制。如此便能根据控制信号A的值来设置访问控制，从而允许或者不允许进行访问。

在另一实施例中，致动器10例如可以指楼宇控制的一部分，如暖气的控制器。

致动器控制系统40在可选的接收单元50中接收传感器的传感器信号S的序列，该接收单元将传感器信号S的序列转换成被测变量y的序列(作为替代方案，也可以分别将传感器信号S直接用作被测变量y)。被测变量y例如可以为传感器信号S的片段或后续处理。将被测变量y输送至机器学习系统60，该学习系统的工作方式参阅图4。

机器学习系统60从被测变量y求得控制变量u。根据存储在参数存储器P中的参数Φ来求得控制变量。这些参数Φ特别是可以包括参数ξ_opt，其对致动器控制系统40的控制策略进行表征。参数存储器P可以整合在致动器控制系统40中，但该参数存储器也可以与致动器控制系统40空间分离且例如通过网络连接而与致动器控制系统40连接。将控制变量u输送至可选的转换单元80，其从中求得控制信号A，该控制信号被输送至致动器10。

在其他实施方式中，致动器控制系统40包括致动器10。

在其他优选实施方式中，致动器控制系统40包括一或多个处理器45和至少一个用来存储指令的机器可读的存储介质46，当在处理器45上执行这些指令时，这些指令使得致动器控制系统40实施用于控制致动器10的方法。

图2示出用来训练致动器控制系统40的机器学习系统60的机器训练系统140。

测量值装置150求得训练数据组y_mess，其既包括控制变量u又包括对应的被测变量y。这些变量例如可以通过借助控制变量u来控制致动器10以及求得所产生的被测变量y来求得，并且存储在数据载体(未予绘示)上，该数据载体可以是测量值装置150的一部分。为了求得训练数据组y_mess，测量值装置150可以从数据载体读取。

将训练数据组y_mess输送至训练块190，其根据存储在参数存储器P中的参数Φ借助图3所示方法来求得经优化的参数Φ'，其在参数存储器P中取代所存储的参数Φ。

作为替代或补充方案，可以借助图5所示方法来求得经优化的参数ξ_opt，其可以是经优化的参数Φ'的一部分并同样被存储在参数存储器P中。

在其他优选实施方式中，训练系统140包括一或多个处理器200和至少一个用来存储指令的机器可读的存储介质210，当在处理器200上执行这些指令时，这些指令使得训练系统140实施用于训练该机器学习系统60的方法。

图3示出训练机器学习系统60的方法的一种实施方式。首先(1000)将参数Φ初始化并提供具有控制变量u和被测变量y的时间曲线的训练数据组。相应的时间曲线用u_1:T或y_1:T表示。

随后(1100)可选地将这些时间曲线分解成规定长度的子曲线T_sub。

而后针对该曲线或者针对多个子曲线中的一或多个而分别求得预测一或多个相应轨迹的潜在变量

为此，首先例如根据参数化分布函数q(x1)来求得初始预测潜在状态

在此情况下，这个分布函数的参数优选同样为待优化参数Φ的一部分，因为初始潜在状态所引起的错误特别是在时间曲线较短时无法迅速减轻。随后，根据该时间曲线的长度而递归地求得其他预测潜在状态

在此情况下，从分布函数q(xt)中获得样本

为此，例如获得样本

而后针对所有d和所有时间点t>l

而获得。其中

随后对参数Φ进行调整，从而将Kullback-Leibler散度KL(q(x_1:T,f_2:T,z)||p(x¹ ^:T,f_2:T,z|y_1:T))最小化，其中在分成若干子曲线的情况下，长度T当然被T_sub取代。通过通常的证据下界(英语：evidence lower bound，简称：ELBO)，

这个KL散度的最小化与ELBO的最大化等效，其由下式给出：

这样就能(1200)根据等式(13)来估算ELBO。为此，借助潜在变量x的预测时间曲线并依据

来估算等式(13)中的右边第一项，其中N表示潜在变量x的在步骤1100中产生的预测时间曲线。

基于对ELBO的这种随机求得来求得函数

的梯度，并且实施参数Φ的随机梯度上升，以便求得新的参数Φ'(1300)。

随后(1400)检验是否达到某项散度标准。如果是(1500)，则新的参数Φ'取代存储在参数存储器P中的参数Φ，该方法结束。否则，返回步骤1150。

图4示出用于控制致动器10的方法的一种实施方式。可选地，首先(2000)实施图3所示训练方法。随后(2010-2050)在控制变量u上针对可预设的预测水平线T_pred实施模型预测控制。

为此，首先(2010)产生控制变量u的时间曲线。随后(2020)求得(如随机选择或者选择等于0)初始潜在状态

此举是可行的，因为就稳定瞬态活跃度而言，错误选择的初始潜在状态

所引起的瞬态效应是会急速消退的。随后，例如借助等式(11)来求得潜在状态

并且借助观察函数g(例如由等式(5)产生)来求得被测变量y_1:Tpred。

而后(2030)根据被测变量y_1:Tpred的所测曲线来求得成本函数。

随后(2040)检验是否达到成本函数的散度标准。如果是(2050)，则将控制变量u的当前所测曲线用作最佳控制变量u_opt，并且根据该最佳控制变量u_opt的曲线来控制致动器10。

如果否(2060)，则改变控制变量u的曲线。例如可以采用梯度下降法，其中例如可以用类似于步骤(2020)的评价步骤来数值求得梯度或者解析预设梯度。而后，随着控制变量u的经改变的曲线而返回步骤2020。

图5示出用于求得参数ξ_opt的方法的一种实施方式。可选地，首先(3000)实施图3所示训练方法。

随后(3010)产生控制变量u的初始值和参数ξ_opt的初始值。同样，以类似于步骤(2020)的方式求得潜在状态x的初始值。随后(3020)借助等式(5)和(11)以及参数ξ_opt所表征的当前控制策略，来求得潜在状态u、被测变量y和控制变量u的时间曲线。而后(4030)根据被测变量的所测曲线来求得成本函数。

随后(3040)检验是否达到成本函数的散度标准。如果是(3050)，则将当前所测参数ξ_opt用作最佳参数ξ_opt。

如果否(3060)，则改变参数ξ_opt。例如可以采用梯度下降法。而后，随着参数ξ_opt的经改变的曲线而返回步骤3020。

所有方法当然既可以在软件中实施，也可以在硬件中实施，或者在由硬件与软件构成的混合形式中实施。

Claims

1.一种求得可被致动器(20)调节的被测变量(y)的时间曲线的方法，其中对所述致动器(20)施加某个控制变量(u)的时间曲线，

其中所述求得是借助所述致动器(20)的特性的高斯过程状态模型来实施，其中根据可参数化的函数族(q(x_1:T,f_2:T,z))来求得所述致动器(20)的被测变量(y)的时间曲线，其中在所述可参数化的函数族(q(x_1:T,f_2:T,z))中，所述致动器(20)的特别是用过渡函数(f_t)求得的下一潜在状态(x_t)与所述致动器(20)的前一潜在状态(x_t-1)以及与所述致动器(20)的前一控制变量(u_t-1)的时间关联，等于所述高斯过程状态模型的相应关联。

2.根据权利要求1所述的方法，其中所述可参数化的函数族(q(x_1:T,f_2:T,z))被配置成，针对所测训练数据组(y_mess)尽可能至少对所述致动器(20)的至少所述潜在状态(x_1:T)和所述过渡函数(f_2:T)的时间曲线的后验概率分布(p(x_1:T,f_2:T,z|y_1:T))，以给出所述被测变量(y_1:T)的时间曲线的方式，进行近似计算。

3.根据权利要求1或2所述的方法，其中所述可参数化的函数族(q(x_1:T,f_2:T,z))与所述致动器(20)的初始潜在状态(x₁)的关联由与所述初始潜在状态(x₁)相关的因子给出，其中所述因子由可参数化的变异函数(q(x₁))，特别是由正态分布(N(m_x1,S_x1))产生。

4.根据权利要求1至3中任一项所述的方法，其中所述高斯过程状态模型为在可预设的伪输入点(ζ₁，...，ζ_P)上具有诱导高斯过程目标状态(z₁,...,z_P)的稀疏高斯过程状态模型。

5.根据权利要求3和4所述的方法，其中所述可参数化的函数族(q(x_1:T,f_2:T,z))与高斯过程目标状态(z_d)的关联由第二因子给出，其中所述第二因子为可参数化的第二变异函数(q(z_d))，其作为自变量而具有相应的高斯过程目标状态(z_d)。

6.根据权利要求5所述的方法，其中所述可参数化的第二变异函数(q(z_d))由正态分布函数(N(z_d|m_d,S_d))产生。

7.根据权利要求4至6中任一项所述的方法，其中通过以下方式来求得所述致动器(20)的潜在状态

的预测时间变化：根据下一时间点上的预测潜在状态的可参数化的变异函数(q)以给出前一时间点上的预测潜在状态

的方式，来递归地求得下一时间点上的潜在状态

的预测时间变化的样本，其中根据所述潜在状态(x)的预测时间变化来选择所述致动器(20)的被测变量(y)的时间曲线。

8.根据权利要求7所述的方法，其中指定，特别是随机规定所述潜在状态的预测时间变化的初始潜在状态

9.根据权利要求7所述的方法，其中根据可参数化的变异函数(q(x₁))通过所述初始状态(x₁)的分布函数以给出所测训练数据组(q(x₁|y_0:n,u_0:n))的方式来求得初始潜在状态

所述分布函数的表征参数可通过反向传播而被训练。

10.根据上述权利要求中任一项所述的方法，其中根据所述被测变量(y)的借助权利要求1至9中任一项所述的方法所测得的曲线来求得最佳控制变量(u_opt)。

11.根据权利要求10所述的方法，其中借助所述最佳控制变量(u_opt)来控制所述致动器(20)。

12.一种求得至少一个最佳参数(ξ_opt)的方法，所述参数表征致动器控制系统(40)的控制策略，所述致动器控制系统被配置成根据所述控制策略来用控制变量(u)控制致动器(20)，

其中借助根据权利要求1至10中任一项所述的方法来求得可被所述致动器(20)调节的被测变量(y)的应用所述控制策略时所产生的时间曲线，并且根据所述被测变量(y)的所测曲线来求得所述至少一个最佳参数(ξ_opt)。

13.一种预测系统(60)，其被配置成实施根据权利要求1至10中任一项所述的方法。

14.一种致动器控制系统(40)，其被配置成借助根据权利要求11所述的方法来控制致动器(20)。

15.一种训练根据权利要求14所述的致动器控制系统(40)的方法，其中对所述可参数化的函数族(q(x_1:T,f_2:T,z))的参数(Φ)和/或确定性参数进行调整，使其针对所测训练数据组尽可能至少对所述致动器的至少所述潜在状态(x_1:T)和所述过渡函数(f_2:T)的时间曲线的后验概率分布(p(x_1:T,f_2:T,z|y_1:T))，以给出所述被测变量(y_1:T)的时间曲线的方式，进行近似计算。

16.一种机器训练系统(140)，其被配置成借助根据权利要求15所述的方法来训练根据权利要求14所述的致动器控制系统(40)。

17.一种计算机程序，其被配置成实施根据权利要求1至12或权利要求15中任一项所述的方法的所有步骤。

18.一种机器可读的存储介质(46，2010)，根据权利要求17所述的计算机程序存储在所述存储介质上。