CN111433688B

CN111433688B - 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统

Info

Publication number: CN111433688B
Application number: CN201880062854.9A
Authority: CN
Inventors: 巴斯蒂安·比朔夫; 朱莉娅·维诺格拉德斯卡; 简·彼得斯
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-10-20
Filing date: 2018-08-10
Publication date: 2023-08-25
Anticipated expiration: 2038-08-10
Also published as: US20210191347A1; WO2019076511A1; US11550272B2; WO2019076511A8; DE102017218813A1; EP3698222A1; CN111433688A; EP3698222B1

Abstract

本发明涉及一种用于自动设置致动器控制系统(45)的至少一个参数(θ)的方法，所述致动器控制系统设计为将致动器(20)的控制变量(x)控制为可预定义设定值(xd)。所述致动器控制系统(45)设计为取决于所述至少一个参数(θ)、所述设定值(xd)和所述控制变量(x)来产生控制变量(u)，且设计为取决于这一控制变量(u)来致动所述致动器(20)。取决于所述控制变量(x)的平稳概率分布(p,θ)来确定所述至少一个参数(θ)的新值(θ*)，且所述参数(θ)随后设置为这一新值(θ*)。

Description

用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统

技术领域

本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法、一种用于实行所述方法的计算机程序和学习系统、一种在其上存储计算机程序的机器可读存储媒体以及一种使用所述方法来设置参数的致动器控制系统。

背景技术

从不是先前公开文件的DE 10 2017 211 209，已知方法用于自动设置致动器控制系统的至少一个参数，所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量，其中致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量，且设计为取决于所述操纵变量来致动所述致动器，

取决于长期代价函数来选择所述至少一个参数的新值，取决于致动器的控制变量的概率分布的预测时间演变来确定所述长期代价函数，且随后参数设置为这一新值。

发明内容

然而，具有独立权利要求1的特征的方法具有的优势是其使得具有无限控制时间范围的致动器控制系统的最佳设置成为可能。有利的发展是独立权利要求项的主题。

在第一方面中，本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法，所述致动器控制系统用于将致动器的控制变量控制为可预定义目标变量，致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量且设计为取决于所述操纵变量来致动所述致动器，取决于控制变量的平稳概率分布来选择至少一个参数的新值，且参数随后设置为所述新值。

平稳概率分布在取决于参数的致动器控制系统的控制策略的持续使用期间是在这种情况中控制变量的概率分布朝其收敛的概率分布。根据本发明，已特别地认识到用于包括根据本发明的致动器和致动器控制系统的许多系统的所述平稳概率分布很大程度上独立于初始需求而存在且是显而易见的。

因此如果不预定义控制时间范围的限制性，那么也有可能使控制策略最佳化。

提供一种有利发展的模型。确切地说，所述模型可以是高斯过程，有利地稀疏高斯过程。随后使用这一模型确定平稳概率分布。这使得方法特别有效。

在这个方面的发展中，可取决于操纵变量来调适模型，当致动器控制系统控制所述致动器时，所述操纵变量供应到致动器。还取决于由模型得出的控制变量来调适模型。“模型调适”可在这种情况下理解为意指调适模型参数，所述模型参数表征模型的行为。

在已调适模型后，取决于致动器的控制变量的平稳概率分布来重新确定至少一个参数的(最佳)新值(且参数随后重置为这一新值)。在这种情况下取决于目前调适的模型来确定至少一个参数的新值的重新确定。

也就是说，在这一发展中，提供一种间歇性方法，其中(通过当真实致动器由致动器控制系统控制时正观测的真实致动器的行为)首先改进模型。致动器控制系统随后由参数改进，所述参数表征在致动器反应的模拟期间由模型最佳化的致动器控制系统的控制策略。改进所述模型和调适所述参数的序列可重复多次。

这一程序的优势是顺次地改进模型和致动器控制系统，因此引起致动器控制系统的特别良好的调适。

在另一特别有利方面中，可通过使用控制变量的可能值估算积分来确定控制变量的平稳概率分布，使用数字正交实行所述估算。“数字正交”在这种情况下是指一种估算方法，其通过评估支撑点和与支撑点相关联的支撑权重处的被积函数(intergrand)来估算积分。

在这种情况下可借助于具有一或多个时间步的(高斯)过程来确定平稳概率分布。在时间步的每一固定状态处，高斯过程在这种情况下模拟具有后续状态的(即，下一时间步处的状态的)相关联平均值和相关联偏差的概率分布。

数字正交的使用(确切地说，与高斯过程结合的使用)的优势是解决方案在数值上特别简单，同时估算的精确性极好，使得以这种方式产生的致动器控制系统特别有效。

在一有利发展中，从根据初始概率分布(伪)随机确定的控制变量的初始值开始，即在这种情况下确切地说根据初始概率分布对初始值进行“采样”，取决于控制变量的确定时间演变来确定支撑点的密度，确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。控制变量的时间演变(即，状态空间中的轨迹)因此得以确定，在所述时间演变的起点处控制变量假定随机确定的初始值。随后取决于这一时间演变来选择支撑点的密度。这引起支撑点的有效选择，因为控制变量的实际轨迹以足够的概率影响支撑点的选择。确切地说，因此可确保当并没有很好地调适致动器控制系统的参数时，方法还可靠地运作。

在一个发展中，还可从作为控制变量的初始值的目标值开始，取决于控制变量的确定时间演变来确定支撑点的密度，确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。这种情况的优势是特别有效地选择支撑点，因为当方法收敛时，可假定控制变量的实际轨迹接近控制变量对其假定目标值的轨迹。

具体地说，可取决于变量来选择支撑点的密度，所述变量表征在控制变量的确定时间演变中的控制变量的至少一个值下的模型的平滑度。更精确地说，表述“模型的平滑度”可理解为意指模型预测的平滑度，即为后续以下时间步所预测的概率分布的平滑度。模型的低水平平滑度在这种情况下意指可预期在时间演变中的连续时间步之间比在模型的平滑度具有较高值的情况下有更大差异。

表征模型的平滑度的这一变量可确切地说是高斯过程的偏差，所述偏差与控制变量在确定时间演变中所假定的值中的至少一个相关联。所述偏差越大，模型的平滑度水平越低。

以此方式可确保选择支撑点的选择，使得估算(确切地说，数字正交)的误差变得特别小。

为了以最佳方式实行这种操作，可取决于最小值来选择区域中的支撑点的密度，所述最小值是变量的最小值，所述变量表征介于这一范围内的控制变量的值下的模型的平滑度。也就是说，将控制变量的一或多个时间演变确定为控制变量假定的值的离散序列。值的离散序列中，随后仅考虑介于前述范围内的那些值。变量与这些值中的每一个相关联，所述变量表征此时的模型的平滑度。最小值选自这些相关联值。

还可替代或另外地取决于区域中的支撑点的平均密度来选择所述区域中的支撑点的密度。确切地说，当支撑点的平均密度与最小值的商低于可预定义阈值(确切地说，值1)时，支撑点的密度可增大。这类方法特别容易实施。

可通过减少体积元素来实现支撑点的平均密度的增大，用于产生支撑点的公式应例如通过将当前体积元素划分为多个较小体积元素且随后借助于用于产生支撑点的公式针对这些较小体积元素中的每一个产生来用于所述体积元素。

在另一方面，可取决于矩阵的主要本征向量来确定数字正交的结果，所述主要本征向量通过以下得出：支撑权重的对角矩阵与转移矩阵的乘积，转移矩阵的分量各自表征控制变量从第一支撑点转移到第二支撑点的概率。

这种情况的优势是对基于重复的矩阵乘法来将主要本征向量确定为操作的阈值特别有效。在这种情况下，只需在每一支撑点处评估描述概率密度的函数一次。这种方法可特别好地并行化且因此对在一或多个GPU上实行特别有效。

在本发明的另一方面中，可取决于局部代价函数来选择长期代价函数，取决于高斯函数和/或多项式函数来选择局部代价函数，所述多项式函数取决于操纵变量与可预定义目标值之间的差。可例如将代价函数选择为高斯函数与多项式函数的线性组合。以此方式选择代价函数是特别简单的。

在又一方面中，可有利地借助于限制函数来将操纵变量限制到可预定义操纵变量范围内的值。这使得以特别简单的方式来限制操纵变量。

在其它方面，本发明涉及一种用于自动设置致动器控制系统的至少一个参数的学习系统，所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量，学习系统设计为实行上述方法中的一种。

如所提及，方法的各方面可在一或多个GPU上特别有效地实行。学习系统可因此有利地包括用于实行方法的一或多个GPU。

附图说明

下文参照附图更详细地描述本发明的实施例，在附图中：

图1示意性地示出学习系统与致动器之间的交互；

图2示意性地示出学习系统的部分的结构；

图3示意性地示出致动器控制系统与致动器之间的交互；

图4在流程图中示意性地示出用于训练致动器控制系统的方法的实施例；

图5在流程图中示意性地示出用于确定新的最佳参数的方法的实施例；

图6在流程图中示意性地示出用于确定支撑点的方法的实施例。

具体实施方式

图1示出与学习系统40交互的在其环境20中的致动器10。致动器10和环境20随后还联合地称作致动器系统。使用传感器30检测致动器系统的状态，其还可使用多个传感器来提供。传感器30的输出信号S传输到学习系统40。从所述信号，学习系统40确定致动器10接收的控制信号A。

致动器10可以是例如(部分)自主机器人，例如(部分)自主机动车辆或(部分)自主割草机。其还可以是机动车辆的致动部件的致动构件，例如用于空转控制的节流阀或旁路致动器。其还可以是加热系统或加热系统的一部分，如阀门致动器。致动器10可确切地说是较大系统，如内燃机或机动车辆的(任选混合)传动系统，例如或还以是制动系统。

传感器30可以是例如一或多个视频传感器和/或一或多个雷达传感器和/或一或多个超声波传感器和/或一或多个位置传感器(例如GPS)。其它传感器也是可能的，例如温度传感器。

在另一实施例中，致动器10可以是制造机器人，且传感器可以是光学传感器30，例如其检测制造机器人的所制造制品的特性。

学习系统40从任选接收单元50中的传感器接收输出信号S，所述任选接收单元将输出信号S转换成控制变量x(替代地，输出信号S还可直接用作控制变量x)。举例来说，控制变量x可以是输出信号S的一部分或进一步处理。控制变量x供应到控制器60，其中实施控制策略π。

供应到控制器60的参数θ存储于参数存储器70中。参数θ使控制策略π参数化。参数θ可以是单个参数或多个参数。

块90将可预定义目标变量xd供应到控制器60。块90可例如取决于针对块90而预定义的传感器信号来产生可预定义目标变量xd。还有可能块90从存储变量的专用存储区中读出目标变量xd。

取决于目标变量xd和控制变量x的控制策略π(θ)(且因此取决于参数θ)，控制器60产生操纵变量u。可例如取决于控制变量x与目标变量xd之间的差x-xd来确定这一操纵变量。

控制器60将操纵变量u传输到输出单元80，所述输出单元根据所述变量来确定控制信号A。有可能例如输出单元首先检查操纵变量u是否介于可预定义值的范围内。如果是这种情况，那么取决于操纵变量u，例如通过取决于操纵变量u从特征图中读出的相关联控制信号A来确定控制信号A。这是惯例。然而，如果确定操纵变量u不介于可预定义值的范围内，那么控制信号A可因此设计成使得其将致动器A切换成保护模式。

接收单元50将控制变量x传输到块100。控制器60还将对应操纵变量u传输到块100。块100存储在一系列时间点处接收的控制变量x的时间序列，和相关对应操纵变量u的时间序列。块100可随后取决于所述时间序列来调适模型g的模型参数Λ、σ_n、σ_f。模型参数Λ、σ_n、σ_f供应到块110，所述块例如存储专用存储区中的所述参数。这在下文描述于图4、步骤1030中。

学习系统40在一个实施例中包括计算机41，所述计算机具有机器可读存储媒体42，计算机程序存储在所述机器可读存储媒体上，当由计算机41实行时所述计算机程序促使计算机实行学习系统40的所描述功能。在实施例中，计算机41包括GPU 43。

模型g可用于使控制策略π的参数θ最佳化。这示意性地示出于图2中。

块120将模型参数Λ、σ_n、σ_f传输到块140和块150。块130确定噪声偏差Σ_∈和最大分区深度Lmax(例如通过预定义的和从存储器中的专用存储区中读出的这些值)，且将其传输到块140。参数存储器70将参数θ传输到块140，且块90将目标值xd传输到块140。

块140根据所述值来确定支撑点ξ_i和相关联支撑权重w_i。所述确定的算法的一个实施例示出于图6中。所确定的支撑点ξ_i和相关联支撑权重w_i传送到块150。

块150根据所述点和权重来确定新参数θ*。这描述于图4、步骤1050中。新参数θ*传送到参数存储器70，其中用新参数θ*的相应对应值替换参数θ的值。

图2中示出的块可以是学习系统40的部分，且此处，如结合图1所描述，所述块可实施为计算机程序的部分且存储于机器可读存储媒体42上。

图3示出致动器控制系统45与致动器10的交互。致动器控制系统45和其与致动器10和传感器30的交互的结构很大程度上与学习系统40的结构相同，因此此处仅描述差异。相比于学习系统40，致动器控制系统45并不具有块100，且也并不具有块110。变量到块100的传输因此不适用。如图4中所示出的已使用根据本发明的方法确定的参数θ存储于致动器控制系统45的参数存储器70中。

图4示出根据本发明的方法的实施例。首先(1000)，以初始值设置参数θ。在这种情况下，参数θ可随机初始化，但其还可固定地加以预定义。

控制器60随后(1010)取决于控制策略π(θ)来产生操纵变量u，如图1中所描述，使用所述变量控制致动器10，如图1中所描述。致动器10经由环境20与传感器30交互，所述环境的传感器的传感器信号S由控制器60直接或间接接收为控制变量x。

块100接收操纵变量u和控制变量x的时间序列且聚集(1020)所述时间序列，所述操纵变量和所述控制变量一起在各情况下形成包括控制变量x和操纵变量x的配对z，z＝(x¹,…,x^D,u¹…u^F)^T。

在这种情况下，D是控制变量x的维数，且F是操纵变量u的维数，即x∈

取决于这一状态轨迹，高斯过程g随后(1030)调适成使得在连续时间点t、t+1之间以下适用：

x_t+1＝x_t+g(x_t,u_t)。 (1)

在这种情况下

u_t＝π_θ(x_t)。 (1')

高斯过程g的协方差函数k例如由以下得出

参数在这种情况下是信号偏差，且/>是D+F输入尺寸中的每一个的平方长度尺度/>的集合。

协方差矩阵K由下式限定

K(Z，Z)_i，j＝k(zⁱ，z^j)。 (3)

高斯过程g随后由两个函数表征：由平均值μ和偏差Var，其由下式得出

y在这种情况下由yⁱ＝f(zⁱ)+∈ⁱ以常见方式得出，其中白噪声是∈ⁱ。

参数Λ，σ_n，σ_f随后通过最大化的对数边缘似然函数以已知方式适用于配对(z¹，y¹)。

随后(1040)确定支撑点ξ_i和相关联支撑权重w_i(例如，如图6中所描述)。具有N分量的初始向量a₀例如初始化为随机选择值且标准化为1长度。

随后(1050)确定新的最佳参数θ*(例如，如图5中所描述)。

以这种方式确定的新最佳参数θ*至少大致上求解等式

在这种情况下，p_*，θ表示控制策略π_θ的持续使用的系统(图1中所示出)朝其收敛的平稳概率分布。r(x)表示例如可由特征图限定的局部代价函数或数学函数。

等式(6)的结果需要以下等式的结果

p_*，θ(x_t+1)＝∫p(x_t+1|x_t，π_θ(x_t))p_*，θ(x_t)dx_t。 (7)

由于积分核的形式，这一等式不能以闭合形式求解。

这个等式的结果因此必须通过数字估算法来实现。这需要达到充足精确性而不变得计算密集。因此，图5中描述的方法对应于使用下式的具有支撑点ξ_i和

Claims

1.一种用于自动设置致动器控制系统的至少一个参数的方法，所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量，其中所述致动器控制系统设计为取决于所述至少一个参数、所述目标变量和所述控制变量来产生操纵变量，且设计为取决于所述操纵变量来致动所述致动器，

其中，取决于所述控制变量的平稳概率分布来确定所述至少一个参数的新值，且所述参数随后设置为这一新值；所述平稳概率分布为：在取决于参数的致动器控制系统的控制策略的使用期间，所述控制变量的概率分布朝向其收敛的概率分布；

其中，通过使用所述控制变量的可能值估算积分来确定所述控制变量的所述平稳概率分布，其中使用数字正交来进行所述估算；

其中，从根据初始概率分布随机确定的所述控制变量的初始值开始，取决于所述控制变量的确定时间演变来确定支撑点的密度，借助于模型和/或所述致动器控制系统来确定所述演变。

2.根据权利要求1所述的方法，其中取决于所述致动器的模型来确定所述平稳概率分布。

3.根据权利要求2所述的方法，其中取决于所述操纵变量和所得控制变量来调适所述模型，当使用所述致动器控制系统来控制所述致动器时，所述操纵变量供应到所述致动器，其中在调适所述模型后，取决于所述致动器的所述控制变量的所述平稳概率分布来重新确定所述至少一个参数的新值，其中取决于目前调适的模型来确定所述至少一个参数的所述新值的所述重新确定。

4.根据权利要求1所述的方法，其中从作为所述控制变量的初始值的目标值开始，还取决于所述控制变量的确定时间演变来确定所述支撑点的所述密度，借助于所述模型和/或所述致动器控制系统来确定所述确定时间演变。

5.根据权利要求1所述的方法，其中取决于变量来选择所述支撑点的密度，所述变量表征在所述控制变量的确定时间演变中的所述控制变量的至少一个值下的模型的平滑度。

6.根据权利要求5所述的方法，其中取决于最小值来选择区域中的支撑点的所述密度，其中所述最小值是所述变量的所述最小值，所述变量表征介于这一范围内的所述控制变量的所述值下的所述模型的平滑度。

7.根据权利要求1所述的方法，其中还可取决于区域中的所述支撑点的平均密度来选择所述区域中的所述支撑点的所述密度。

8.根据权利要求6所述的方法，其中如果支撑点的平均密度与所述最小值的商低于可预定义阈值，那么支撑点的所述密度增大。

9.根据权利要求1所述的方法，其中取决于矩阵的主要本征向量来确定所述数字正交的结果，所述主要本征向量通过以下得出：支撑权重的对角矩阵与转移矩阵的乘积，其中所述转移矩阵的分量各自表征所述控制变量从第一支撑点转移到第二支撑点的概率。

10.根据权利要求1所述的方法，其中取决于局部代价函数来选择长期代价函数，其中取决于高斯函数和/或多项式函数来选择所述局部代价函数，所述多项式函数取决于所述操纵变量与可预定义目标值之间的差。

11.根据权利要求1所述的方法，其中所述操纵变量通过限制函数受限于可预定义操纵变量范围内的值。

12.一种用于自动设置致动器控制系统的至少一个参数的学习系统，所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量，其中所述学习系统设计为实行根据权利要求1所述的方法。

13.根据权利要求12所述的学习系统，其设计为实行根据权利要求9所述的方法，其中所述方法借助于GPU实行。

14.一种机器可读存储媒体，其上存储执行根据权利要求1所述的方法的计算机程序。

15.一种致动器控制系统，其设计为将致动器的控制变量控制为可预定义目标变量，所述致动器控制系统设计为取决于至少一个参数、所述目标变量和所述控制变量来产生操纵变量，且设计为取决于所述操纵变量来致动所述致动器，其中使用根据权利要求1所述的方法来设置所述至少一个参数。