CN110471276B

CN110471276B - 用于为物理系统创建模型函数的装置

Info

Publication number: CN110471276B
Application number: CN201910385332.9A
Authority: CN
Inventors: N-T.世维; 安德里亚斯·多尔; 克里斯蒂安·丹尼尔; 塞巴斯蒂安·特里普
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-05-09
Filing date: 2019-05-09
Publication date: 2023-06-20
Anticipated expiration: 2039-05-09
Also published as: CN110471276A; DE202018102632U1

Abstract

一种用于测定模型函数的装置，该模型函数用于描述系统行为以实现长期预测，该模型函数由参数向量描述，并且该模型函数中的转移函数由高斯过程再现，该装置包括：训练数据提供块，用于提供训练数据的时序，该时序基于状态变量向量的初始状态和输入变量轨迹的输入变量向量的相应时序或调节器法则而描述输出变量向量的时序；模型损失函数块，提供用于优化的模型损失函数，该模型损失函数与与该模型函数和该参数向量相关的轨迹项相关，该轨迹项与该模型函数及其参数向量相关；优化块，被构建为用于根据该模型损失函数对该参数向量的参数进行联合优化，使得经优化的该参数向量描述该待测定的模型函数，并且该模型函数再现该训练数据的行为。

Description

用于为物理系统创建模型函数的装置

技术领域

本发明涉及控制设备，所述控制设备使用模型函数来为技术系统或所述技术系统的一部分数学建模，以便实现所述技术系统的功能，所述技术系统特别是机器人、车辆、工具或工厂机器(Werkmaschine)。此外，本发明还涉及用于测定模型函数的装置，所述模型函数用于描述物理系统的系统行为，以便特别是预测输出变量的完整轨迹。

背景技术

被构建为用于实现技术系统(特别是机器人、车辆、工具或工厂机器)的功能的控制设备使用借助数学模型函数来描述相关技术系统或其一部分的算法。这样的模型函数使得以数学方式模拟系统行为成为可能，用途广泛，特别是可用来对技术系统进行调节和控制，以及用于预测等等。

此外还习知有学习调节器法则(所谓的策略)的方法。用来创建这类调节器行为模型的方法有基于模型(也就是基于系统动态模型)的方法和无模型方法。

例如基于系统行为的物理基础来描述系统行为的基于模型的方法在短时观察系统行为后就能再现全面的关联。与之相比，无模型方法的优点在于所需要的预设(Vorannahme)更少，例如输入变量和输出变量的无噪声测量、Markow系统行为(Markow-Systemverhalten)的存在以及完全可观察的状态空间。无模型方法特别适用于有大量训练数据可供使用的情况。然而，无模型方法在实际应用时存在诸多缺点。

在基于模型的强化学习的背景下，对系统模型的基本要求是能够提前数个计算步骤地可靠预测系统行为。而传统的模型函数学习方法往往基于对下个计算步骤的预测，其中，对长期系统行为的预测由于极小预测误差的累积而常常存在偏差。

发明内容

本发明提出一种用于测定模型函数的装置，所述模型函数用于描述系统行为以实现长期预测。

进一步的技术方案提供在其他实施例中。

根据第一个方面，提出一种用于测定模型函数的装置，所述模型函数用于描述系统行为以实现长期预测，其中所述模型函数由参数向量描述，所述装置包括：

-训练数据提供块，用于提供训练数据的时序，所述时序基于状态变量向量的初始状态和输入变量向量的相应时序而描述输出变量向量的时序；

-模型损失函数块，提供用于优化的模型损失函数，其中所述模型损失函数与与所述模型函数和所述参数向量相关的轨迹项相关，其中所述轨迹项与所述模型函数及其参数向量相关，

-优化块，被构建为用于根据所述模型损失函数对所述参数向量的参数进行联合优化，使得所述模型函数再现所述训练数据的行为。

为在长期预测方面提供可靠结果的系统模型训练模型函数，这在实践中很难。测量数据通常有噪声，而且相关的(内部)系统状态通常只能间接和部分地被观察/测量。许多系统建模方法也是从无噪声的输入端出发，对于以传统方式创建的系统模型来说，这会导致这些系统模型只能提前一个计算步骤地足够精确地测定动态，并且在长期预测时会造成极大的预测误差。

上述装置用于根据测量数据来测定用于描述系统行为的模型函数，其旨在改善基于模型的调节器法则搜索(MBPS：Model-based Policy Search，基于模型的策略搜索)，以便获得更好的模型函数。在此利用的是以下认识：被设计为在有限时域上优化调节器法则的模型，应当在规定的反馈调节器法则下检测物理系统的长期反馈行为。借此能更好地预测长期系统行为。

此外，可以在创建系统模型的模型函数时使用调节器法则(策略)来生成输入变量，其中借助用于生成输入变量的特定调节器法则来生成输入数据。借此可以根据调节器法则针对被预测的系统行为的表现来优化用于系统模型的模型函数。

通过上述方法，可以借助贝叶斯模型学习方法基于有噪声的输出变量有效创建用于系统模型的模型函数。将调节器法则纳入模型创建，能够减小输入变量空间

并且使模型创建聚焦于某一调节器法则类别下的反馈系统行为。所述方法可应用于某一类别的问题，具体而言，可用于具有输入端、有噪声的输出端和部分未被观察的状态的系统。这产生自特定建模，即，例如潜在的无噪声自回归状态以及对不确定性的贝叶斯表示。

进一步地，所述模型损失函数块可被构建为用于进一步根据校正项来提供所述模型损失函数，其中所述校正项与高斯过程模型的用所述训练数据加以训练的协方差矩阵相关。

特别地，可以通过高斯过程模型提供所述模型函数，其中所述参数向量的参数包括所述高斯过程模型的超参数、支撑位点(Stützstellenpunkt)和噪声参数。

特别地，所述噪声参数可以描述可微噪声过程，特别是加性零均值高斯噪声。

可以如下设置：所述模型损失函数块被构建为用于借助预测输出分布的近似以及借助当前状态和所述输入变量向量的联合分布的瞬态匹配法来提供所述轨迹项，所述预测输出分布产生自形式特别为高斯过程函数的所述模型函数。通过这种方式，可以借助当前状态和输入变量向量的联合分布的瞬态匹配法来测定联合分布。

进一步地，所述轨迹项可具有前馈损失函数和反馈损失函数，其中所述模型损失函数块被构建为用于根据任意输入变量向量的时序来确定所述前馈损失函数，以及用于根据借助规定的调节器法则根据输出变量向量而测定的输入变量向量的时序来确定所述反馈损失函数。

根据另一个方面，提出一种用于控制车辆系统的控制系统，其中所述控制系统具有控制单元，所述控制单元被构建为用于特别是作为观察器来执行模型函数，其中所述模型函数由上述装置创建。

附图说明

下面参考附图详细阐述实施方式。其中：

图1为模拟物理系统的系统模型的示意图；以及

图2为具有假定的联合高斯过程模型的潜在高斯态的系统行为的说明图；以及

图3图示用于测定模型函数的装置，所述模型函数用于描述系统行为以实现长期预测。

具体实施方式

图1示意性地示出具有输入端和输出端的动态系统1。这个动态系统1可作为状态空间模型用未知的传递函数f以及观察函数g加以描述，如下：

其中t对应于计算步骤(循环)。

接着可以引入用于这个状态空间模型的特殊假设，也就是，f(x_t，u_t)在高斯过程优先下是联合高斯分布(jointly Gaussian)。

和/>

借助可微噪声过程描述噪声行为，在此以平均值分别为0的高斯过程噪声或高斯传感器噪声为例。系统1具有时间离散地被提供的输入变量/>

(D_u：输入变量向量的维度)和时间离散地被提供的输出变量/>

(D_y：输出变量向量的维度)。

内部潜在态

(D_x：状态变量向量的维度)一般情况下无法被完全测量。进入系统的输入变量要么是规定控制信号u_t，要么由确定性调节器法则u_t＝π(y_t；θ_π)确定，其中θ_π对应于调节器法则参数。调节器法则参数θ_π可分别针对所有的反馈轨迹被规定且不发生改变。

下面从以下预设出发：借助高斯过程模型模拟传递函数f。借助于自回归模型结构，可以通过历史输入数据向量和历史输出数据向量来再现和考虑未知潜在态。通过自回归模型结构防止具有未知维度的潜在状态空间中的复杂推断(komplexe Inferenz)。

图2示出模型函数所基于的潜在态的序列。状态x_t,x_t+1与f_t,f_t+1存在函数关系。根据无噪声传递函数f确定状态变量x_t且据此确定输出变量y_t。输入变量u_t要么是被规定的，要么由调节器法则π(y_t；θ_π)确定。潜在态x为高斯分布且无噪声传递函数f由高斯过程表示。此外还假定：通过单个的高斯过程模型再现潜在空间的所有维度。

为了实现轨迹概率优化，使用输出变量分布y_0:T，该输出变量分布产生自物理系统1的初始状态x₀且要么产生自输入变量的规定序列u_0:T，要么产生自所应用的调节器法则，该调节器法则由调节器法则参数θ_π定义。如此一来，可以利用既用于开环又用于反馈回路的观察数据y_t来实施测定方法。“开环”在此是指输入变量u_t并非根据输出变量y_t被测定，而是单独地被规定，“闭环”则是指下个计算步骤的输入变量u_t由确定性调节器法则u_t＝π(y_t；θ_π)确定。

针对一定量Dff的基于“开环”输入变量的轨迹以及不同量Dfb的产生自调节器法则u_t＝π(y_t；θ_π,j)的轨迹，按以下方式定义模型损失函数的轨迹项：

其中i对应于关于前馈损失函数的数据集中的所有轨迹的指数，j对应于关于反馈损失函数的数据集中的所有轨迹的指数。

由此，该轨迹项对应于在当前模型下测量到的轨迹的负对数似然。也就是说，该轨迹项描述的是当前模型对测量到的输出变量的描述精度。

参数向量θ包括高斯过程模型参数、支撑位点和噪声参数且由此而描述模型函数。优化/改变参数向量θ，以便将产生自轨迹项的总和和复杂度项的总损失最小化。模型通过θ被参数化，其中对模型参数θ进行调整，使得成本/损失最小化(例如借助梯度下降法)。其中，当前时步与前一个时步之间保持时间相关性，因为根据规定的模型假设，借助瞬态匹配计算关于所有状态的联合(jointly Gaussian)分布。因此，模型误差随时间推移而累积且在模型优化期间被反馈，以便实现良好的长期预测。

高斯过程模型一般性地表示函数y＝f(x)。高斯过程模型通常包括测量到的输入变量值和输出变量值，这些输入变量值和输出变量值被合并成数据集D＝(X,y)，X＝(x₁,…,x_n)且y＝(y₁,…,y_n)。

在此处所说明的方法中，高斯过程模型模拟的是传递函数，即，

自回归的意思是，高斯过程模型的输入变量向量不仅包含输入变量的当前值，也还包括状态变量向量的一个或数个合成状态变量x的较早的历史值，即x_t＝(x_t,x_t-1,…,x_t-L,u_t,…u_t-L)。

与D＝(X,y)是测量数据的常见高斯过程模型应用不同，

是未知的，因为无法测量潜在态。因此，/>

是在优化期间被改变的参数。因此，高斯过程模型的潜在状态空间由m个状态变量/>

和输出变量/>

确定。由状态变量和目标变量定义的点可被优化，以便对系统行为进行描述，这对于稀疏高斯过程模型的学习方法来说是习知的。在输入变量向量中以自回归方式对状态变量/>

加以考虑。

高斯过程模型的超参数θ_hyp、状态变量

和输出变量/>

以及过程噪声方差和观察噪声方差是生成系统模型的被共同优化的参数。因此，参数向量θ的定义如下：

其中Σ_x，Σ_y对应于噪声项的方差。

一般通过对数似然(log likelihood)来优化传统高斯过程模型的超参数，如下：

其中y和X对应于从输入维度n的测量系统数据获得的训练数据点。这些标准模型仅考虑由方差σ_n定义的高斯输出噪声。通过以下获得协方差矩阵K：

用于特定的核函数k。

对上述轨迹项进行优化的结果是产生了较高的模型复杂度，因为与常用的损失函数不同，高斯过程回归不发生模型复杂度的自动正则化。因此，设置将模型复杂度正则化的其他显性项(expliziter Term)。为了避免潜在状态模型的过拟合，引入模型复杂度惩罚

其作为校正项定义如下：

添加在上述模型损失函数中。由此，通过以下产生作为优化目标函数的模型损失函数：

为了根据以下损失项(即轨迹损失)所需要的关联计算有条件的观察分布，必须执行：

由于Markow状态Xt，联合分布将p(x,f,y,u)分解成因子，使得输出变量的边缘分布定义如下：

在为以下初始状态假定高斯分布的情况下：

其中，在每个预测步骤中通过有条件的输出变量分布将基于潜在态p(xt)的高斯近似的输出变量模型假定为：

在当前输出变量yt下评价调节器法则u₀＝π(y_t；θ_π)。为了获得动态模型的输入变量，按以下方式计算当前状态和调节器法则的输出变量p(x_t|u_t)的联合分布：

p(x_t，u_t)＝∫p(u_t|y_t，θ_π)p(y_t|x_t)p(x_t)dy_t

可为高斯观察模型和线性调节器法则精确计算积分。针对例如出现在RBF网络或神经网络中的非线性调节器法则，可以使用联合概率分布p(x_t,u_t)的瞬态匹配近似。

独立地通过高斯过程模拟每个潜在状态维度。为此，为高斯过程选择均值函数(例如零、常数或线性平均值)和协方差核(例如平方指数或Matern核)。平方指数核的定义为：

具有长度尺度

和信号方差/>

在此情况下，用于下个潜在态f_t+1的预测分布的定义为：

其中平均值和方差的定义为：

且

用于借助任意的非线性函数f(x)来传播高斯分布输入变量的边缘分布，例如

不对应于任何高斯分布。为了获得用于传播步骤的分析梯度，使用瞬态匹配(MM)。用于以下高斯分布状态变量的近似预测分布：

的定义为：

p(f_t+1)＝N(μ_ft+1，MM，σ_ft+1，MM)。

进行瞬态匹配近似时，通过具有平均值和方差的高斯分布对分布进行近似计算。为了借助非线性高斯动态模型来传播高斯输入变量，解出上述积分。在使用类高斯核(Gauβ-

Kernel)的情况下，可以闭式计算预测分布的第一和第二瞬态。用于高斯分布输入变量/>

的近似预测分布如下：

其中将平均值计算为，其中

和

相对应。所获得的方差为：

其中

且

对应。

通过在预测时域上重复上述步骤，获得关于所有输出值的联合边缘分布。而后可使用该联合边缘分布来评价以下损失项：

由此，预测时域中的每个计算步骤均与所有的在先计算步骤相关，使得模型误差累积且借此在模型优化期间被反馈，以便改善长期预测的质量。由于为预测轨迹分布选择了潜在高斯动态模型和瞬态匹配近似，可在模型参数方面以分析方式测定用于模型损失函数的梯度。这样就能借助传统的梯度下降法来优化模型参数。

根据以下最小化规则来进行高斯过程参数θ的参数化：

模型损失函数J＝L_ff(θ)+L_fb(θ)+L_comp(θ)的轨迹损失项可分别对应于被观察轨迹的负对数似然。作为替代方案，也可以选择其他操作来替代对数似然，例如关于预测平均值的平方损失。用来搜索调节器法则时，损失J可以是期望轨迹的平方偏差，优化参数在此情况下由调节器法则参数θ_π定义。

两个问题可以通过基于以下预测分布的优化问题而得到解决：

图3示出用于测定模型函数的装置10，所述模型函数用于描述系统行为以实现长期预测。这个装置具有训练数据提供块11，以便提供训练数据的时序，该时序描述输出变量向量y_0:T的时序，或者基于初始状态x₀或状态变量向量和/或输入变量向量x_0:T的相应时序。此外还设有为优化创建模型损失函数的模型损失函数块12，其中模型损失函数与以下与参数向量相关的轨迹项相关：

此外还可设置优化块13，该优化块被构建为用于根据模型损失函数为参数向量进行优化。

借助上述装置而测定的函数模型可用来预测发动机系统/排气系统/过程/制造机器的长期动态系统行为。此外还可基于长期预测模型进行预测诊断。

此外，借助上述装置而测定的函数模型还适合用来在规定的质量标准下优化调节器策略以及用来为预测系统行为建模，即随机最优控制，例如适用于机器人应用、发动机控制、路径诱导等等。

上述装置使得实现更精确的模型函数成为可能，该模型函数实现在用于控制物理系统的功能的控制设备中。

Claims

1.一种用于测定模型函数的装置(10)，所述模型函数用于描述系统行为以实现长期预测，其中所述模型函数由参数向量描述，并且所述模型函数中的转移函数由高斯过程再现，所述装置包括：

训练数据提供块(11)，用于提供训练数据的时序，所述时序基于状态变量向量的初始状态和输入变量轨迹的输入变量向量的相应时序或调节器法则u_t＝π(y_t；θ_π)而描述输出变量向量的时序；其中，u_t代表输入变量，y_t代表输出变量，θ_π代表调节器法则参数，所述调节器法则参数包括高斯过程模型参数，且所述模型函数由所述高斯过程模型参数而描述；

模型损失函数块(12)，提供用于优化的模型损失函数，所述模型损失函数包括前馈损失函数和反馈损失函数；其中所述模型损失函数与所述模型函数和所述参数向量相关的轨迹项相关，其中所述轨迹项与所述模型函数及其参数向量相关；

优化块(13)，被构建为用于根据所述模型损失函数对所述参数向量的参数进行联合优化，使得经优化的所述参数向量描述所述模型函数，并且所述模型函数再现所述训练数据的行为。

2.根据权利要求1所述的装置(10)，其中，所述模型损失函数块(12)被构建为用于进一步根据校正项来提供所述模型损失函数，其中所述校正项与高斯过程模型的用所述训练数据加以训练的协方差矩阵相关。

3.根据权利要求2所述的装置(10)，其中，所述模型函数包括高斯过程函数，其中所述参数向量的参数包括所述高斯过程模型的超参数、支撑位点和噪声参数。

4.根据权利要求3所述的装置(10)，其中，所述噪声参数描述可微噪声过程。

5.根据权利要求1至3中任一项所述的装置(10)，其中，所述模型损失函数块(12)被构建为用于借助预测输出分布的近似以及借助当前状态和所述输入变量向量的联合分布的瞬态匹配法来提供所述轨迹项，所述预测输出分布产生自形式为高斯过程函数的所述模型函数。

6.根据权利要求1至3中任一项所述的装置(10)，其中，所述轨迹项具有前馈损失函数和反馈损失函数，其中所述模型损失函数块(12)被构建为用于根据任意输入变量向量的时序来确定所述前馈损失函数，以及用于根据借助规定的调节器法则根据输出变量向量而测定的输入变量向量的时序来确定所述反馈损失函数。

7.根据权利要求1至3中任一项所述的装置(10)，其中，所述轨迹上的概率分布与所述模型函数及其参数向量以及所选择的起始条件相关。

8.一种用于操作技术系统的控制系统，所述技术系统是车辆系统，其中所述控制系统具有控制单元，所述控制单元被构建为用于执行模型函数，所述模型函数用于控制和/或调节所述车辆系统的变量，其中所述模型函数由根据权利要求1至7中任一项所述的装置创建。

9.一种具有根据权利要求1至7中任一项所述的装置(10)以及根据权利要求8所述的控制系统的系统。

10.一种机器可读存储介质，所述机器可读存储介质上存储有指令，所述指令在被数据处理装置执行时使得所述数据处理装置实施包括以下步骤的方法，以便测定用于描述系统行为以实现长期预测的模型函数，其中所述模型函数由参数向量描述，并且所述模型函数中的转移函数由高斯过程再现：

提供训练数据的时序，所述时序基于状态变量向量的初始状态和输入变量轨迹的输入变量向量的相应时序或调节器法则u_t＝π(y_t；θ_π)而描述输出变量向量的时序；其中，u_t代表输入变量，y_t代表输出变量，θ_π代表调节器法则参数，所述调节器法则参数包括高斯过程模型参数，且所述模型函数由所述高斯过程模型参数而描述；

提供用于优化的模型损失函数，所述模型损失函数包括前馈损失函数和反馈损失函数；其中所述模型损失函数与所述模型函数和所述参数向量相关的轨迹项相关，其中所述轨迹项与所述模型函数及其参数向量相关；

根据所述模型损失函数对所述参数向量的参数进行联合优化，使得经优化的所述参数向量描述所述模型函数，并且所述模型函数再现所述训练数据的行为。