CN111406237B

CN111406237B - 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质

Info

Publication number: CN111406237B
Application number: CN201880067677.3A
Authority: CN
Inventors: 巴斯蒂安·比朔夫; 朱莉娅·维诺格拉德斯卡; 简·彼得斯
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-10-20
Filing date: 2018-08-10
Publication date: 2023-02-17
Anticipated expiration: 2038-08-10
Also published as: US20210003976A1; JP7191965B2; KR20200081407A; JP2020537801A; WO2019076512A1; EP3698223B1; KR102326733B1; CN111406237A; US20220075332A1; EP3698223A1; DE102017218811A1

Abstract

本发明涉及一种用于操作致动器调节系统(45)的方法，其设计为将致动器(20)的调节变量(x)调节为可预定义的目标变量(x)，致动器调节系统(45)被设计为根据表征调节策略(π)的变量(θ)来生成校正变量，并根据所述校正变量(u)来控制致动器(20)，表征调节策略(π)的变量(θ)根据值函数(V*)来确定。

Description

操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质

技术领域

本发明涉及一种用于操作致动器调节系统的方法、一种学习系统、一种致动器调节系统、一种用于执行该方法的计算机程序以及一种存储有该计算机程序的机器可读存储介质。

背景技术

从尚未预公开的DE 10 2017 211 209可知一种用于自动设置致动器调节系统的至少一个参数的方法，该方法被设计用于将致动器的调节变量调节为可预定义的目标变量，其中，根据前述的至少一个参数、目标变量和调节变量来设计致动器调节系统，以产生校正变量并根据该校正变量来控制致动器，

其中，根据长期成本函数选择前述至少一个参数的新值，其中，根据致动器的调节变量的概率分布的预测时间演变来确定该长期成本函数，然后将该参数设置为这个新值。

发明内容

相反，具有独立权利要求1的特征的方法特别具有的优点是，可以保证致动器调节系统的最佳调节。有利的进一步改进是从属权利要求的主题。

在第一方面，本发明涉及一种用于操作致动器调节系统的方法，其设置为用于将致动器的调节变量调节为可预定义的目标变量，其中，致动器调节系统设置为根据表征调节策略的变量、尤其还根据目标变量和/或调节变量来产生校正变量，并根据该校正变量来驱动致动器，

其中，根据值函数来确定表征调节策略的变量。

通过确定值函数，即使在状态变量和/或动作不限于离散值而是可以达到连续值的情况下，也可以保证致动器调节系统的最佳调节。

特别地，可以以这样的方式确定调节策略，即，对于每个调节变量，确定导出校正变量的动作，其中，该动作使值函数最大化。

在进一步的扩展方案中，规定：借助于贝尔曼方程通过迭代值函数的后续迭代逐步地接近该值函数，来迭代地确定值函数，其中，后一迭代的迭代值函数是借助贝尔曼方程从前一迭代的迭代值函数确定的，

其中，仅将后一迭代的迭代值函数在基本函数的集合所覆盖的线性函数空间上的投影用于求解贝尔曼方程，而不使用前一迭代的迭代值函数。

特别地，这确保了迭代确定的值函数最大化预定义的奖励，尤其是在长期并考虑到系统动力学的情况下。通过使用这些投影，可以求解贝尔曼方程，由于其中包含最大值的形成，因此只能逐点解析求解，尤其容易地通过近似值。

特别有利的是，如果不确定后一迭代的迭代值函数而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。

因此，可以确定该投影而不必完全计算后一迭代本身的迭代值函数。

当将高斯函数用作基本函数时，可以获得特别易于解析求解的贝尔曼方程的积分。这使得该方法在数值上特别高效。

由于贝尔曼方程的最大值形成，通常只能在单点上对其进行评估。但是，如果贝尔曼方程的积分是使用数值积分法计算的，则可能是一个全解。因此，使用数字积分法在数值上特别高效。

在本发明的另一方面，如果通过向基础函数的集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合，规定了迭代值函数和其在这个集合所跨越的函数空间上的投影之间的最大残差有多大。

通过该迭代过程，可以特别有效地将方法的数值误差限制在可预定义的最大值，从而可以特别可靠地操作致动器调节系统。

在另一种改进方案中可以规定：根据调节变量的最大点来选择至少一个另外的基本函数，其中，在该最大点处残差变成最大。

这使得该方法特别有效，因为通过在基本函数的集合所覆盖的函数空间上的投影，可以特别快速地减少数值误差。

如果在最大点处的所述至少一个另外的基本函数取其最大值，则效率特别高。

替代地或附加地，如果根据表征在最大点处的残差的曲率的量、特别是在最大点处的残差的黑塞矩阵来选择至少一个另外的基本函数，则进一步提高了方法的效率。

尤其是在多维调节变量的情况下，如果至少一个另外的基本函数的选择使得：其最大点处的黑塞矩阵等于残差的黑塞矩阵，则特别容易。

在本发明的另一方面，可以规定：通过致动器的模型来确定贝尔曼方程所依赖的条件概率。这也使该方法特别有效，因为不必再次确定致动器的实际性能。

如果模型是高斯过程，则在此特别有利。如果基本函数由高斯函数给出，则这特别有利，因为随后可以通过高斯函数的乘积将出现的积分解析求解为积分，从而实现特别有效的实施。

为了获得致动器调节系统的特别良好的调节性能，根据本发明的另一方面，可以规定：致动器调节系统的教导和模型的教导以情节性过程(episodic procedure)来确定，这意味着在确定表征调节策略的变量之后，根据校正变量形成模型并使其适应于得到的调节变量，其中在参考调节策略通过致动器调节系统进行致动器调节的情况下，将该校正变量馈送到致动器，其中在模型适应之后，通过上述方法再次确定表征调节策略的变量，其中然后借助现在适应后的模型来确定条件概率。

在另一方面，本发明涉及一种学习系统，该学习系统用于自动设定表征致动器调节系统的调节策略的变量，致动器调节系统被设置为将致动器的调节变量调节为可预定义的目标变量，学习系统被设置为执行上述方法之一。

在另一方面，本发明涉及一种方法，其中根据前述方法之一确定表征调节策略的变量，然后根据表征调节策略的变量来生成操纵变量，并且根据这一校正变量来控制致动器。

在另一方面，本发明涉及一种致动器调节系统，其被设置为使用该方法来控制致动器。

在又一方面，本发明涉及一种计算机程序，其被设置为执行前述方法之一。换句话说，计算机程序包括当在计算机上执行时使该计算机执行该方法的指令。

本发明还涉及一种机器可读存储介质，其上存储有该计算机程序。

附图说明

随后，参考附图更详细地解释本发明的实施例。其中：

图1是学习系统和致动器之间的交互作用的示意图。

图2是致动器调节系统和致动器之间的交互作用的示意图。

图3是以流程图表示的用于训练致动器调节系统的方法的实施例。

图4是以流程图表示的用于确定迭代值函数的方法的实施例。

图5是以流程图表示的用于确定一组基本函数的方法的实施例。

图6是以流程图表示的用于确定校正变量的方法的实施例。

具体实施方式

图1示出了致动器10，其处于与学习系统40交互的环境20中。致动器 10和环境20在下文中统称为致动器系统。致动器系统的状态由传感器30检测，其也可以由多个传感器提供。传感器30的输出信号S被传送到学习系统 40。学习系统40从中确定致动器10接收的驱动信号A。

致动器10可以是例如(部分)自主机器人，例如(部分)自主机动车辆、 (部分)自主割草机。它也可以是机动车辆的致动器的致动，例如用于怠速控制的节流阀或旁路致动器。它也可以是加热设备或加热设备的一部分，例如阀门致动器。致动器10尤其也可以是较大的系统，例如内燃机或机动车辆的(可能是混合动力的)传动系，甚至是制动系统。

传感器30可以是例如一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个位置传感器(例如GPS)。可以设想其他传感器，例如温度传感器。

在另一个实施例示例中，致动器10可以是制造机器人，并且传感器30 然后可以是例如检测制造机器人的制造产品的特性的光学传感器。

学习系统40将传感器30的输出信号S接收在可选的接收单元50中，接收单元50将输出信号S转换成调节变量x(或者，输出信号S也可以直接被接收作为调节变量x)。调节变量x可以是例如输出信号S的一部分或其进一步处理。调节变量x被提供给调节器60。在调节器中，可以实施调节策略或值函数V*。

在参数存储器70中，存储参数θ，参数θ被提供给调节器60。参数将调节策略π或值函数V*参数化。参数θ可以是单个或多个参数。

模块90向调节器60提供可预定义的目标变量xd。可以规定：模块90例如根据针对模块90预定义的传感器信号来产生可预定义的目标变量xd。模块90也可以从目标变量xd所在的专用内存区域中读取该目标变量xd。

取决于调节策略π或值函数V*，针对目标变量xd和调节变量x，调节器 60产生校正变量u。例如，这可以根据调节变量x和目标变量xd之间的差x- xd来确定。

调节器60将校正变量u传输到输出单元80，输出单元80从中确定驱动信号A。例如，输出单元可以首先检查校正变量u是否在预定变量范围内。如果是这种情况，则根据校正变量u来确定控制信号A，例如根据校正变量u从特征场读取相关的驱动信号A。这是正常情况。另一方面，如果确定校正变量u不在预定值范围内，则可以规定：控制信号A被设计为其使致动器A 进入安全模式。

接收单元50将调节变量x发送到模块100。类似地，调节器60将相应的校正变量u传送到模块100。模块100存储以时间顺序接收到的调节变量x 的时间序列以及各个相应的校正变量u。然后，模块100可以基于这些时间序列来适配模型g的模型参数Λ，σ_n，σ_f。模型参数Λ，σ_n，σ_f被提供给模块110，模块110将其存储在例如专用存储位置。这将在下面的图4的步骤1010中更详细地描述。

在一个实施例中，学习系统40包括具有计算机可读存储介质42的计算机41，计算机可读存储介质42上存储有计算机程序，当该计算机程序被计算机41执行时使计算机41执行学习系统40的所描述的功能。在该实施例中，计算机41包括GPU 43。

模型g可以用于确定值函数V*。这在下面说明。

图2示出了致动器调节系统45与致动器10的交互作用。致动器调节系统45的结构及其与致动器10和传感器30的交互作用在许多部分上与学习系统40的结构相似，这就是为什么这里仅描述其区别的原因。与学习系统40 相反，致动器调节系统45不具有模块100和模块110。因此，省略了向模块 100的变量传输。在致动器调节系统45的参数存储器70中，存储了参数θ，其例如通过根据本发明的方法确定，如图4所示。

图3示出了根据本发明的方法的实施例。首先(1000)，从可预定义的初始概率分布p(x₀)中选择调节变量x的初始值x₀。将情节索引e初始化为值 e＝1，将分配给该情节索引e的值函数

初始化为值

另外，校正变量u₀、u₁、...,u_T-1被随机地选择，直到如图1所描述的用于控制致动器10的可预定义的时间范围T。致动器10经由环境20与传感器30 交互作用，传感器30的信号S作为调节变量x₁、…、x_T-1、x_T间接或直接从调节器60接收。

这些组合成数据集D＝{(x₀,u₀,x₁),...,(x_T-1,u_T-1,x_T}。

模块100接收并汇总(1030)校正变量u和调节变量x的时间序列，它们一起产生调节变量x和校正变量u的配对z，

D是调节变量x的维数，F是校正变量u的维数，即，

然后根据此状态轨迹来适用高斯过程g，使得在相继的时间t、t+1之间以下条件适用

x_t+1＝x_t+g(x_t,u_t) (1)。

这里，u_t＝π_θ(x_t) (1‘)。

高斯过程g的协方差函数k例如由以下公式给出：

参数

是信号方差，

是D+F个输入维数中每个维数的平方长度尺度

的集合。

协方差矩阵K由以下定义

K(Z,Z)_i,j＝k(zⁱ,z^j) (3)。

接着，高斯过程g的特征在于两个函数：平均值μ和方差Var，由下式给出：

这里，y由常用方式给出，即yⁱ＝f(zⁱ)+∈ⁱ，带有白噪声∈ⁱ。

然后，通过最大化对数边际似然函数，以已知方式将参数Λ,σ_n,σ_f与对(zⁱ, yⁱ)匹配。

然后(1020)确定与情节索引e相关联的迭代值函数

这些迭代值函数中的最后一个是与情节索引e相关联的收敛的迭代值函数

在图5中示出了用于确定分配给情节索引e的迭代值函数

的方法的实施例。

然后(1030)，例如通过检查与情节索引e相关联的收敛迭代值函数

和分配给前一情节索引e-1的迭代值函数

相差小于函数Δ₁的第一可预定义极限，即

来检查确认与情节索引e相关联的收敛的迭代值函数

是否收敛。如果收敛，则进行步骤1080。

然而，如果尚未实现收敛(1040)，则与情节索引e相关联的最优调节策略π_e定义为：

然后(1050)再次从初始概率分布p(x₀)中选择调节变量x的初始值x₀。

现在(1060)，使用公式(6)中定义的最优调节策略π_e，迭代地确定一系列调节变量π_e(x₀),…,π_e(x_T-1)，用其来控制致动器10。然后从传感器30 的接收到的输出信号S中确定结果状态变量x₁,…,x_T。

现在(1070)，将情节索引e递增1，并且其分支回到步骤1030。

如果在步骤1030中确定情节上的迭代已导致分配给情节索引e的迭代值函数

的收敛，则将值函数V^*设置为等于分配给情节索引e的迭代值函数

这样就结束了该方法的这一方面。

图4示出了用于确定分配给情节索引e的迭代值函数

的方法的实施例。为了清楚起见，下面省略情节索引e。上标索引在下文中用字母t 表示。该方法总是基于前一值函数

来计算后一迭代值函数

前一迭代值函数

给出为基本函数

和系数

的线性组合

这些系数

也简要地总结在系数向量α^t中。该方法以索引t＝0开始 (1500)。

首先，确定(1510)基本函数

的集合B。这些可以是预定义的，也可以使用图6中所示的算法确定。

然后(1520)确定i,j＝1...N_t+1的标积

随后(1530)，使用数值积分法定义节点ξ₁,…,ξ_K和相关权重w₁,…,w_K。

然后(1540)，借助于这些节点ξ₁,…,ξ_K和权重w₁,…,w_K，将所有索引i＝ 1...N_t+1的向量b^t+1的系数

确定为：

现在(1550)将系数向量α^t+1确定为α^t+1＝M^-1b^t+1，其中，质量矩阵M 由

给出。

运算符Α定义为：

这里，0<γ＜1是指定的加权因子，例如γ＝0.85。r是将奖励值分配给调节变量x的值的奖励函数。有利地，以这样的方式选择奖励函数r：使得调节变量x与目标变量xd的偏差越小，其取值越大。

给定调节变量x’的条件概率p(x′|x,u)，前一调节变量x和操纵变量u可以使用高斯过程g在公式(8)中确定。

应当指出，解析解法无法访问公式(8)中的max运算符。但是，对于给定的调节变量x，在每种情况下都可以通过梯度上升方法进行最大化。

这些定义确保以此方式定义的后一迭代值函数

对应于实际迭代值函数V^t+1在基本函数B覆盖的空间上的投影，其中，实际迭代值函数满足贝尔曼方程(Bellmann equation)：

因此，向量b^t+1近似满足方程

其中，需要认知的是：如果将实际值函数V^t+1替换为其在基本函数B所覆盖的空间上的投影(即，通过迭代值函数

)，并且用数值积分法近似求解所得的积分方程，则仅在特殊情况下才能完全求解该方程。

现在(1560)，检查是否满足终止条件。例如，如果迭代值函数

被收敛，例如，如果与前一迭代值函数

的差变得小于函数Δ₂的第二极限，即，

则可以满足终止条件。如果索引t已达到可预定义的时间范围T，则也可以视为已满足终止条件。

如果不满足终止条件，则将索引t增加1(1570)。另一方面，如果满足终止条件，则将值函数V*设置为等于上一次迭代的迭代值函数

至此，方法的这一部分结束。

图5示出了用于确定用于贝尔曼方程的实际迭代值函数V^t的基本函数的集合B的方法的实施例。为此，首先(1600)将基本函数的集合B初始化为空集，将索引l初始化为值l＝0。投影到基本函数的集合B上的迭代值函数

也被初始化为值0。

然后(1610)，残差

定义为迭代值函数

与相应的投影迭代值函数

之间的偏差。

然后(1620)，例如用梯度上升法，确定残差的最大点x_*＝ argmax_sR^t,l(x)，在最大数x_*处确定残差R^t,l的黑塞矩阵H^t,l。

现在(1630)，确定要被添加到基本函数集合B的新的基本函数

优选将要添加的新的基本函数

选择为具有平均值s_*和协方差矩阵Σ^*的高斯函数。以满足以下方程的方式计算协方差矩阵Σ^*：

然后(1640)，将该基本函数

添加到基本函数的集合B中。

现在(1650)，通过迭代值函数

在现在扩展后的基本函数的集合B所覆盖的函数空间上的投影来确定投影迭代值函数

随后(1660)，例如，通过检查偏差的相关范数(例如，L_∞范数)是否低于函数Δ₃的第三可预定义极限，即

来检查投影迭代值函数

的确定是否充分收敛。

如果不是这种情况，则将索引l加1，并且该方法分支回到步骤1610。

否则，将确定的集合

作为基本函数的搜索集合返回，并且该方法的这一部分结束。

图6示出用于确定校正变量的方法的实施例，并且图6a) 示出在参数存储器70中存储的参数θ对调节策略π进行参数化的情况下的实施例。为此，首先 (1700)定义一组测试点x_i，例如作为Sobol设计计划。

然后(1710)，使用以下公式计算分配给测试点u_i的最佳校正变量x_i，

u_i＝argmax_u∈U∫p(x′|x_i,u)V^*(x′)dx′ (11)。

例如是通过梯度上升方法确定的，根据成对的测试点x_i和各自分配的最佳操纵变量u_i创建训练集M＝{(x₁,u₁),(x₂,u₂),…}。

然后(1720)，利用该训练集M，得出基于数据的模型，例如高斯过程 g_θ，使得基于数据的模型有效地确定针对调节变量x的分配的最佳校正变量 u。表征高斯过程θ的参数g_θ被存储在参数存储器70中。

步骤(1700)至(1720)优选地在学习系统40中执行。

然后(1730)，在致动器调节系统45的操作期间，该系统使用高斯过程 g_θ为给定的调节变量x确定相关的校正变量u。

如此就结束了该方法。

图6b ) 示出了在参数存储器70中存储的参数θ对值函数V*进行参数化的情况下的实施例。为此，在步骤(1800)中，对于给定的调节变量x，类似于步骤(1710)，采用梯度上升方法来确定由以下方程定义的相关校正变量u，

u＝argmax_u∫p(x′|x,u)V^*(x′)dx′。

如此就结束了该方法。

Claims

1.一种用于操作致动器调节系统的方法，其设置为用于将致动器的调节变量调节为可预定义的目标变量，所述致动器调节系统被设置为根据表征调节策略的变量来生成校正变量并根据所述校正变量来控制所述致动器，

其中，表征所述调节策略的所述变量是根据值函数来确定的，其中，所述值函数是利用贝尔曼方程通过对迭代值函数进行连续迭代而逐渐逼近所述值函数而迭代地确定的，其中，通过贝尔曼方程从前一次迭代的迭代值函数来确定后一次迭代的迭代值函数，

其中，对于贝尔曼方程的求解，替代使用前一次迭代的迭代值函数，而仅使用其在基本函数的集合所覆盖的函数空间上的投影。

2.根据权利要求1所述的方法，其中，替代确定所述后一次迭代的迭代值函数，而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。

3.根据权利要求1所述的方法，其中，将高斯函数用作基本函数。

4.根据权利要求1所述的方法，其中，通过数值积分法来确定贝尔曼方程的积分的值。

5.根据权利要求1所述的方法，其中，根据所述迭代值函数与其在所述集合所覆盖的函数空间上的投影之间的最大残差有多大，通过向所述集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合。

6.根据权利要求5所述的方法，其中，根据所述调节变量的最大点来选择所述至少一个另外的基本函数，其中，在所述最大点处所述残差变成最大。

7.根据权利要求6所述的方法，其中，在最大点处所述至少一个另外的基本函数取其最大值。

8.根据权利要求6所述的方法，其中，根据在所述最大点处表征所述残差的曲率的变量、在所述最大点处使用所述残差的黑塞矩阵，来选择所述至少一个另外的基本函数。

9.根据权利要求8所述的方法，其中，以如下方式选择所述至少一个另外的基本函数：使得在所述最大点处，其黑塞矩阵等于所述残差的黑塞矩阵。

10.根据权利要求1所述的方法，其中，利用所述致动器的模型来确定贝尔曼方程所依赖的条件概率。

11.根据权利要求10所述的方法，其中，所述模型是高斯过程。

12.根据权利要求10所述的方法，其中，在确定表征所述调节策略的所述变量之后，根据所述校正变量和之后所得的调节变量来适应所述模型，其中，所述校正变量在考虑所述调节策略而使用所述致动器调节系统来调节所述致动器的过程中被馈送至所述致动器，其中，在调整所述模型之后，再次确定表征所述调节策略的所述变量，其中，然后通过现在适应后的模型来确定所述条件概率。

13.根据权利要求1所述的方法，其中，根据表征所述调节策略的所述变量来生成所述校正变量，并且根据所述校正变量来控制所述致动器。

14.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序由计算机执行时使得所述计算机执行根据权利要求1所述的方法。

15.一种学习系统，用于自动设置表征致动器调节系统的调节策略的变量，其被设置为用于将所述致动器的调节变量调节为可预定义的目标变量，其中，所述学习系统设置为执行根据权利要求1至12中任一项所述的方法。

16.一种致动器调节系统，其被设置为依据根据权利要求13所述的方法来控制致动器。