CN113874865A

CN113874865A - 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置

Info

Publication number: CN113874865A
Application number: CN202080041182.0A
Authority: CN
Inventors: E·克伦斯科; C·丹尼尔; L·弗罗利希
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-06-06
Filing date: 2020-05-27
Publication date: 2021-12-31
Also published as: US20220236698A1; DE102019208262A1; WO2020244987A1

Abstract

本发明涉及用于借助于贝叶斯优化方法来确定技术系统（2）的调节策略的方法，其中基于调节模型的模型参数（

）创建和能实施调节策略，其中为了优化调节实施以下步骤：提供质量函数，所述质量函数的形式对应于回归函数并且基于模型参数（

）评估技术系统（2）的调节质量；基于质量函数执行贝叶斯优化方法，以便在说明模型参数（

）的允许值范围的模型参数域（I）内迭代地确定具有模型参数（

）的模型参数组；并且根据质量函数的所属的最大后验估计值（

）来确定模型参数中至少一个模型参数的模型参数域（I）。

Description

借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置

技术领域

本发明涉及一种尤其是在使用贝叶斯优化方法的情况下为技术系统寻找出合适的调节策略的方法。尤其是，本发明涉及一种用于更有效地优化调节模型的模型参数以实现技术系统的调节策略的计算机实现的方法。此外，本发明涉及用于加速贝叶斯优化方法的实施以减少调节策略的参数化的计算开支的措施。

背景技术

用于调节或运行技术系统的调节策略或调节模型的确定视技术系统的复杂性而定是耗费的。虽然在技术系统的线性动态行为情况下可以通过经典方法确定最佳调节，但是尤其是在非线性物理系统情况下，基于物理相互关系创建或参数化相对应的调节模型是耗费的。

可替换地，可以使用所谓的强化学习来寻找出合适的调节策略。强化学习包括观察技术系统与环境之间的相互作用，并从中学习相对应的函数模型，该函数模型描述技术系统在其与环境交互时的行为。通过最小化由成本函数或质量函数说明的成本值来进行学习过程，所述成本值评估调节系统的性能以获得用于在环境中自动化地经调节地引导技术系统的调节模型的模型参数。

尤其是无模型的强化学习方法是有利的，因为不需要关于环境以及环境与系统的相互作用的知识，但是在学习过程期间系统与环境的交互时间非常长。相比之下，在传统的基于模型的方法情况下，模型结构在最初被预先给定，该模型结构基本上描述了调节系统在环境中的行为。由此可以映射出调节系统和环境之间的交互的影响。通过参数适配来适配模型结构可以简单且有效地执行。然而，传统方法具有缺点，因为选择的模型结构可能不合适，并且由此通过调节模型的优化进行参数适配并不能导致最佳结果。

与强化学习相关的调节模型的创建和优化可以结合贝叶斯优化来执行，其中质量函数被建模为高斯过程模型。这使得能够为调节模型创建一个高效的黑盒优化器，所述调节模型在其他情况下会很耗费地创建/参数化。但是，由于此类调节模型的模型参数的数量众多，因此优化非常复杂，从而大量的测量过程是必要的，并且由于测量数据量大，长训练时间成为规则。

发明内容

根据本发明，提供了根据权利要求1的用于借助于贝叶斯优化方法来确定技术系统的调节策略的方法以及根据并列独立权利要求的相对应的装置、调节系统和调节方法。

在从属权利要求中说明了进一步的构型方案。

根据第一方面，提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的方法，其中基于调节模型的模型参数创建和能实施调节策略，其中为了优化调节实施以下步骤：

- 提供质量函数，所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量；

- 基于质量函数执行贝叶斯优化方法，以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组；并且

- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。

创建调节模型以对调节系统的调节进行建模。调节模型定义了一种调节策略并表示一种函数关系，利用该函数关系可以基于调节的一个或多个输入参量来计算操纵参量。输入参量中至少一个输入参量在此对应于要调节的技术系统的状态参量。

可以通过多种方式预先给定调节模型的形式。因此，调节模型可以包含基于物理定律的公式关系，例如运动方程、振动方程、阻尼行为等。调节模型也可以基于自由选择的公式关系。公式关系通常必须考虑技术系统的非线性行为。

用于确定调节模型的贝叶斯优化方法与技术系统迭代地应用不同的调节策略，并以有效的方式优化调节。在此，质量函数借助于高斯过程回归建模，以便将系统模型的性能建模为调节模型的模型参数的函数，其中高斯过程回归基于有噪声的状态参量来创建。基本上，问题涉及寻找出一种将系统状态映射到输入参量向量上的调节策略。为此，基于状态参量向量（来自多个状态参量）和输入参量向量（来自多个输入参量）在预定时间范围内评估取决于调节策略的模型参数的质量函数（成本函数）。

一般在应当最小化未知函数

、即所谓的“黑盒（Black-Box）”函数时应用贝叶斯优化。该未知函数

只能对值 x 被评估和（可能受噪声影响地）观察。所观察的值 y 得出为

，其中 e 表示噪声。此外假设，对未知函数

的每次评估都是昂贵的，也就是说在如下意义上导致成本，即未知函数的评估导致高的耗费，例如在试验台上实施实验时是这种情况。由于对未知函数的评估昂贵，因此值得追求的是在优化期间只须进行少量评估。

在某些假设条件下，例如未知函数的连续性，可以在函数模型中用高斯过程回归来近似未知函数。为此，在多个评估点

处对未知函数进行评估并使用高斯过程观察对应的函数值

之后，可以建立未知函数

的模型。高斯过程的一个特性是，模型预测在评估点周围的范围中非常好并且可以良好地近似未知函数。这反映在功能模型的低不确定性中。远离评价点，关于未知函数

的预测变差，并且不确定性随着距评价点的距离增加而增加。

优化未知函数

的一种可能策略是在许多不同的位置处（例如在规则网格上）评估未知函数，并采用最低的观察函数值作为优化的结果。这种做法效率低下，并且需要具有相对应地高的耗费的许多评估来寻找出最优值。

代替这种方案，使用高斯过程来选择新的评估点。为此，将用于评估未知函数的新评估点选择为，使得由此一方面改进了模型，从而降低了质量函数的估计期望值的不确定性。为此，通常在未知功能尚未被评估（Exploration（探索））的区域中选择评估点。另一方面，将用于评估未知函数的新评估点选择为，使得尽可能快地或以在评估点处的少量测量来实现最小化函数的目标。为此，优选基于高斯过程（Exploitation（采用））承诺低函数值的评估点。这两个对立的标准由所谓的获取功能来权衡。

获取函数使用通过高斯过程模型描述的质量函数的参数，例如期望值

和分配给该期望值的标准偏差

。一个例子是所谓的Lower Confidence Bound (置信下限，LCB) 获取函数，其描述如下：

。在实践中，因子 k 通常恒定地例如规定为一个特定值，例如 k = 2。可以利用常见的基于梯度的方法有效地最小化该新标准，并且然后 LCB (x) 的最小值形成未知函数

的新的评估点。在此情况下要注意的是，对于获取函数的优化，必须定义优化域，在该优化域中搜索下一个评估点。该域通常根据经验和/或专业知识来选择。

根据上述方法，将贝叶斯优化方法用于通过最小化最初未知的质量函数来寻找出调节策略的模型参数。目标是以这样一种方式创建调节模型，即技术系统的行为尽可能精确地符合希望的规范。如有必要，质量函数可以根据调节系统的性能根据相应的模型参数被不断更新。为了更新质量函数，需要对相应模型参数进行评估，这使得有必要在真实环境中利用相应的模型参数来运行调节系统。由于需要实际运行调节系统，通过不断要更新的质量函数来改进成本评估变得非常耗费。因此，值得希望的是，在实际技术系统处尽可能地将测量过程的数量最小化。

分别在一个或多个测量过程之后，可以利用最近测量的模型参数和结果得到的成本来更新质量函数，并且可以选择一组新的测试模型参数，在其中评估质量函数的参数的预先给定的采集函数被最小化或最大化。预先给定获取函数，以便在权衡探索和采用的情况下通过最小化/最大化来确定新的测试模型参数组。在根据本发明的方法的上下文中，探索意味着为了选择新的测试模型参数优选可能的模型参数空间的如下区域，在所述区域中成本尚未通过先前的测量过程进行评估。在根据本发明的方法的上下文中采用意味着通过测量过程为下一次成本评估选择模型参数组，该模型参数组被估计为一组最佳的模型参数。

上述方法的思想在于，在先前受限的优化域中借助于贝叶斯优化方法来确定调节模型的模型参数。虽然在传统的贝叶斯优化方法情况下不容易确定各个模型参数的在其中应当执行对调节策略的搜索的模型参数域，使得以更有效的方式、即利用更少数量的评估过程/测量来实施优化，但是可以根据来自最初实施的系统识别的先前确定的最大后验估计值（MAP估计）来确定模型参数的用于其优化的值范围。

这样，用于质量函数的贝叶斯优化的模型参数域可以自动缩小，即无需手动地预先给定模型参数的值范围，从而可以显着减少用于优化的测量过程的数量。

此外，参数回归模型可以将输入参量向量和系统状态映射到随后的系统状态上，并且尤其是可以被相应地训练以获得加权矩阵。

此外，模型参数可以借助于用于 LQR 调节器的 AB 学习方法来确定，其中针对至少一个最大后验估计值分别确定不确定性度量，其中至少一个模型参数的值范围被规定在最大后验估计值周围。

除了最大后验估计值之外，还可以确定最大后验估计值的不确定性度量，并且所述不确定性度量允许确定所分配的模型参数的相应值范围的大小。这使得能够单独适配模型参数的优化的搜索范围，即将受高度不确定性影响的模型参数的搜索范围规定为大于受较低不确定性影响的模型参数的情况。

可以规定，借助用于 LQR 调节器的 K 学习方法来确定模型参数，其中至少一个模型参数的值范围被规定在最大后验估计值周围。

此外，在最大后验估计值周围以如下度量确定至少一个模型参数的值范围，所述度量被确定为0 和 1 之间的预先给定的因子与相关最大后验估计值的乘积。

根据另一实施方式，优化方法可以以通过对先验平均值函数最小化得出的初始模型参数开始，其中所述技术系统的非参数近似模型被训练来获得先验平均值函数。

根据另一方面，提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的装置，其中基于调节模型的模型参数创建和能实施调节策略，其中所述装置被构造用于为了优化调节实施以下步骤：

- 基于质量函数执行贝叶斯优化方法，以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组；

根据另一方面，提供了一种具有技术系统和用于调节技术系统的调节单元的调节系统，其中在调节单元中实现用于根据技术系统的状态参量来提供输入参量向量的调节模型，其中设置模型创建块以便基于在优化块中实施的贝叶斯优化方法来确定调节模型的模型参数，其中基于调节模型的模型参数创建和能实施调节策略，其中为了优化调节实施以下步骤：

附图说明

下面根据附图更详细地解释实施方式。其中：

图1示出了具有调节单元和待调节的技术系统的调节系统的示意图；和

图2是流程图，用于说明借助强化学习方法创建调节模型的方法。

具体实施方式

图1示出了构造用于调节技术系统2的自适应调节系统1的示意图。技术系统2例如可以是机动车辆的内燃机或其子系统。调节单元 3 用一系列输入参量

作为操纵参量来调节技术系统 2，所述输入参量导致技术系统 2 的某些运行点。输入参量

通常包括多个输入参量，这些输入参量组合在一个输入参量向量

中。此外，对于输入参量（输入参量向量

的元素）中的每一个都有一个允许的值范围。此外，技术系统2的操控导致一个或多个状态参量，所述状态参量在待测量的输入参量向量u处被测量并且以状态参量向量

的形式表示。

借助于作为技术系统2的一部分的一个或多个传感器21，可以检测一个或多个测量参量

的变化过程，所述一个或多个测量参量分别代表相对应的状态参量

，所述状态参量分别说明技术系统 2 的系统状态 x。D在此对应于状态参量的数量。因此，技术系统2的系统状态借助于一个或多个传感器21被检测并且作为状态参量向量x的状态参量被传送到调节单元3。

输入参量

对应于基于状态参量

和调节策略

确定的调节单元3的操纵参量。技术系统2的运行借助于技术系统2的一个或多个致动器22根据输入参量u(t)进行。例如，因此可以控制机器人或车辆的运动或可以对车辆的驱动单元或驾驶员辅助系统进行控制。例如，输入参量 u 可以对应于施加到作为致动器 22 的机电执行器的电压。根据一个或多个输入参量u操控致动器22并实施相对应的动作。在这种情况下，致动器22可以包括（不一定在结构上集成的）操控逻辑，其从输入参量

确定操控参量，相关致动器22利用该操控参量来操控。

在一个实施例中，调节单元3被用于调节作为技术系统的内燃机。为此，可以将节气门位置、燃料输送和/或类似的作为输入参量预给定到节气门执行器或喷射阀的操控装置，并且接收相对应的状态参量，例如转速、负载、发动机温度。

在一个实施例中，调节单元3被用于调节作为技术系统2的至少部分自主的机器人，尤其是至少部分自主的机动车辆。传感器21可以是例如优选地布置在机动车辆中的一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR（激光雷达）传感器和/或一个或多个位置传感器（例如 GPS）。替代地或附加地，传感器21还可以包括确定关于技术系统（机动车辆）的状态的信息的信息系统，例如确定机动车辆附近的当前或未来天气状态的天气信息系统。

在另一实施例中，调节单元3被用于调节作为技术系统的机动车辆中的功能。为此，可以将加速踏板位置、以手腕力矩或转向位置为形式的转向干预、诸如周围对象的位置的环境信息、制动干预和/或类似的预先给定为输入参量并且接收相对应的状态参量，所述状态参量说明机动车辆的驾驶行为，例如车速、转弯位置、与周围对象的距离等。

调节单元3可以利用多个测量参量

来探测，例如至少部分自主机器人的状态或状态变化过程，例如发动机转速、车速、燃料消耗、发动机温度、纵向速度和/或横向速度、转向角、偏航率等。优选地布置在机动车辆中的致动器32可以是例如机动车辆的制动器、驱动器或转向器。

可替代地，至少部分自主的机器人还可以是另一移动机器人（未示出），例如通过飞行、游泳、潜水或步行来移动的机器人。移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。

在另外的替代方案中，至少部分自主的机器人还可以是家用电器（未示出），尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器21、例如光学传感器，可以检测用家用电器处理的对象的状态，例如在洗衣机的情况下，位于洗衣机中衣物的状态。然后可以利用调节单元3来确定该对象的类型或状态并且通过测量参量

来表征。然后可以这样确定输入参量，即根据对象的所确定的类型或所确定的状态来操控家用电器。例如，在洗衣机的情况下，该洗衣机可以根据位于其中的衣物由什么材料构成来进行控制。然后可以根据确定了衣物的何种材料来选择输入参量u(t)。

在另一实施方式中，调节单元3可用于操控生产系统的生产机器（技术系统3），其方式是控制该生产机器的致动器22通过输入参量被操控。生产机器11可以是例如用于冲压、锯切、钻孔、铣削、车削和/或切割的机器。

传感器21则可以是例如检测生产产品的特性的光学传感器。可能的是，控制生产机器的致动器32根据生产产品的所确定的特性被操控，从而生产机器相对应地实施该生产产品的后续处理步骤。还可能的是，传感器31确定由生产机器处理的生产产品的特性，并据此针对后续生产产品来适配对生产机器的操控。

调节单元3的调节遵循调节策略。调节策略应当通过动态过程来适配，使得系统行为在质量函数方面变得最佳。为此，实施优化方法，即调节策略所基于的调节模型的模型参数优化为使得对经调解的技术系统2的性能进行优化。为此，在模型创建块 4 中创建调节模型（动态模型），该调解模型是调节单元 3的调节策略的基础。模型创建块 4 基于在优化块 5 中实施的贝叶斯优化方法确定调节模型的模型参数。这基于在质量函数块 6 中确定或预给定的预给定质量函数进行。

在进一步优选的实施方式中，调节单元3、模型创建块4、优化块5和成本函数块6在计算单元中实现。计算单元包括控制设备 2、一个或多个处理器和至少一个机器可读存储介质，指令存储在所述机器可读存储介质上，所述指令当其在处理器上实施时促使所述计算单元实施根据本方法的发明。

技术系统2对应于动态系统，该动态系统借助于调节单元3以合适的调节策略以优化的方式被调解，所述调节策略应当相对应地借助于贝叶斯优化方法来创建。贝叶斯优化方法用于确定调解模型，其方式是在优化方法期间迭代地应用各种测试模型参数组来调解技术系统2并基于结果得到的状态参量来适配模型参数。在此，质量函数借助于高斯过程回归来建模，通过所述高斯过程回归，技术系统的调解性能被定义为模型参数的函数。调节的性能从预给定的质量标准中得出，该质量标准将调节的品质分配给结果得到的状态参量。状态参量具有容差，使得质量函数优选地通过高斯过程回归创建。

基本上，该问题涉及寻找出一种调节策略，该调解策略将系统状态

映射到输入参量向量

其中

，其中

表示模型参数域

中调节策略的模型参数。基于状态向量

和输入参量向量

在预先确定的时间范围

上预给定依赖于模型参数

的质量函数J，其中模型参数

应当通过优化方法被优化，

其中

对应于期望值，

表示通过状态向量

给出的状态在附着的输入参量向量

情况下的成本，并且

表示状态过渡模型，该状态过渡模型描述技术系统 2 的动态性并且此外通过噪声参量

施加。

贝叶斯优化方法用于通过最小化质量函数来寻找到调节策略的优化模型参数

。目标是调节策略能够利用调节单元 3来实现对技术系统 2 的尽可能最佳的调节，其中通过质量函数确定的成本最小化“最佳地”涉及由调节单元 3 和技术系统2组成的总系统的预给定性能。

因此，质量函数因此提供了在时间窗口

期间实际技术系统 2 的行为相对于相应地具有成本J的预给定性能的偏差。因此，质量函数的评估要求技术系统 2在测量过程中在真是环境中运行。由于需要实际运行包括技术系统2和调节单元3的调节系统，成本J的评估变得非常复杂，使得在真实的技术系统2处用于评估特定调节策略的测量过程的数量应当被尽可能地最小化。

可以借助于 LQR 调节器实施对调节的创建，所述LQR调节器需要待调节系统的线性动态模型。该 LQR 调节器可以通过反馈矩阵 K 来描述，而反馈矩阵的元素可以作为模型参数完全或部分地针对优化被适配。

下面假设，调节策略对应于

的线性状态调节策略。

线性调节策略所具有的优点是，它们与其他调节模型相比具有少的维度。此外，线性调节策略使其能够以简单的方式在调节器中实现并且从而提高贝叶斯优化的效率。

结合贝叶斯优化，可以使用线性二次调节器，即所谓的 LQR 调节器，如在创建调节策略的领域中已知的那样。在 LQR 调节器情况下，测量过程中的系统行为和与环境的交互通过具有一组变化的输入参量向量和结果得出检测的状态参量向量的受控运行来确定。在此，系统动态性根据

被线性化，并且成本相应地被乘方

。

通过这些近似，可以在模型创建块 4 中创建 LQR 反馈矩阵，该矩阵表示动态模型并且一般地称为

。调节策略优化通过直接适配反馈矩阵（K学习（K-Learning））来执行，其中反馈矩阵中的一部分项或每个项对应于用于优化的一个模型参数。此外，只有反馈矩阵K的与系统矩阵A和B对应的组成部分被假设为待优化的模型参数，其中矩阵A和B的每个项对应于一个模型参数。

可替代地，在没有矩阵 Q 和 R（加权矩阵）的反馈矩阵 K 中可以假设为要优化的模型参数。在此，仅适配具有以下形式的权重矩阵的对角线项就足够了：

其中

并且

。

根据模型参数与上述矩阵的从属关系，这些方法被称为K学习（K-Learning）、AB学习（AB-Learning）和QR学习（QR-Learning）。在贝叶斯优化情况下，必须充分关于质量函数的长度尺度覆盖参数空间，以便找出优化的模型参数的良好估计。

然而，在没有先验知识的情况下，很难为优化选择各个模型参数的值范围，即模型参数域。然而，这对于没有过多数量的测量过程的有效优化方法来说是重要的。因此，上述方法规定选择模型参数的合适的搜索范围，从而可以减少测量过程的数量。这尤其是在高维的情况下是必要的，因为在那里不容易手动设置模型参数中每一个模型参数的值范围。因此，模型参数的值范围首先通过学习动态模型上的分布来确定，并且然后使用该分布来选择模型参数中每个模型参数的值范围。该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值来获得，以便获得系统动态性的近似线性模型。这导致模型上的高斯分布

其中

是最大后验 (MAP)估计值，其中符号

说明矩阵 A 和 B 转换成向量。

在选择模型参数取值范围之后，可能的是，在某些维度中模型参数的值范围选择过于保守。例如，如果缩放参数 ß 太小或由于模型偏差，就可能发生这种情况。因此可能发生的是，最优模型参数向量并不位于所选择的模型参数域内。因此，模型参数域可以在优化期间动态地适配。

在贝叶斯优化的过程期间，存在对模型参数值的最优值的估计，即在当前的模型参数域中近似质量函数的最小值。如果从贝叶斯优化得出所估计的最优值的位置位于模型参数域的范围边界处，则更好的模型参数有可能位于当前模型参数域之外。因此提出，对其值位于模型参数域的边界处的模型参数的值范围进行扩大。模型参数域的这种动态适配可以通过不同方式实施。

模型参数的值范围的适配使得能够从有限的值范围出发，在优化期间仅针对模型参数向量的那些优化满足模型参数域的边界范围的维度来动态适配所述值范围。由此，可以整体上更有效地进行优化，从而显着改善收敛性。此外，可以更好地补偿潜在的模型误差，从而经优化的系统模型变得性能更高。通过改善效率，可以将贝叶斯优化缩放到高维调节策略。

为了与模型参数组有关地创建针对调节系统的性能的质量函数，首先提供数据

，其中i = 1 ... n

因此，初始高斯过程模型被训练为质量函数，该初始高斯过程模型以一定代价映射测试模型参数

其中 K 对应于协方差矩阵，其中

。

因此，高斯过程模型既提供了预期值，即成本 J，又提供了该预期值的不确定性。

现在可以由此确定初始模型参数域，因为在没有先验知识的情况下很难为优化选择各个模型参数的值范围，即模型参数域。选择合适的模型参数域对于没有过多数量的测量过程的有效优化方法来说是重要的。在步骤S3中，因此为模型参数选择合适的搜索范围，从而可以减少测量过程的数量。这在高维的情况下尤其必要，因为在那里不容易手动调整模型参数中每个模型参数的值范围。因此，基于先前训练的高斯过程模型来确定模型参数的值范围，并且随后使用该分布来选择模型参数中每个模型参数的值范围。

该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值获得，以便获得系统动态性的近似线性模型。这导致模型上的高斯分布

，

其中

是最大后验 (MAP) 估计并且符号

说明矩阵 A 和 B 转换成向量。

图1的装置1还包括优化单元22。优化单元22可以设置在控制设备2中，或者可替代地与控制设备2分开地设置。优化单元22的目的是为调节器21确定调节模型，通过该调节模型可以调节动态技术系统3。为此，优化单元22执行迭代优化方法，通过该迭代优化方法创建调节模型，其方式是对质量函数进行最小化。质量函数的最小化可以表达为：

其中初始条件通过

预先给定。

在此对应于系统状态在时间点 t 的状态向量，并且

对应于在时间点t的输入参量向量。成本矩阵

和

被假定为正半定或正定。基于动态行为

的线性近似，并且在假设具有调节策略

的线性状态反馈控制器

的情况下，利用

和

得出上述最小化问题的近似静态解，其中最后提到的方程对应于时间离散代数Riccati 方程 (DARE)，其可以有效地根据

通过 Kleinman 方法来求解。下面通过短符号

描述线性状态反馈控制器。

最后提到的方程的解在调节理论中已知为 LQR 调节器（LQR：线性二次调节器）。由于系统动态性的线性近似，LQR 调节器的建模通常导致不令人满意的结果，所述系统动态性的线性近似通常只是在工作点附近的足够精确的近似。

下面应基于贝叶斯优化方法执行调节策略搜索。所述贝叶斯优化方法规定了高斯过程回归。高斯过程回归是对先验未知函数

建模的非参数方法。借助高斯过程回归，在对系统行为进行有噪声观察的情况下，既可以确定函数值的进程，也可以确定函数值中每个函数值的预测的不确定性。高斯过程可以理解为函数上的分布，并且由先验平均值函数

和协方差函数

定义。平均值函数说明关于要映射的质量函数

的先验知识，并且通常假定为零。协方差函数也称为核心，并且定义了分别两个函数值

和

之间的相关性，其中

。

假设 n 个有噪声的观察值：

其中

，可以创建关于对测量数据的预测的先验分布，以便获得质量函数在每个点

的后验预测。后验平均值和协方差由下式给出

其中

并且对称 Gram 矩阵

具有项

。

高斯过程回归被用于对技术系统 2 的行为建模并评估其最优性。由调节器和技术系统2构成的装置的行为由质量函数表示，该质量函数表示模型参数与基于由模型参数定义的调节策略所调节的技术系统的结果得到的成本之间的函数关系。然后应用贝叶斯优化方法来优化质量函数。该质量函数在分析上是不可能的，并且因此必须反复执行。因此，用于优化的耗费应限制于尽可能小的迭代次数。

迭代对应于将调节策略应用到实际的技术系统2的测量过程，所述调节策略由要考虑的模型参数

定义。由此得出新的数据对

，该新的数据对被添加到高斯过程的训练数据

。

在每个测量过程之后，通过最大化获取函数

来选择新的评估点，这可以有效地通过数值优化技术、如 L-BFGS来执行。替换于获取函数，可以使用例如改进概率（probability of improvement，PI）、预期改进（expected improvement，El）和置信上限（upper confidence bound，UCB）。所有这些函数都提供了在采用、即优选其中质量函数尚未被评估的输入参量向量的范围与采用、即优选质量函数的所估计的最优值（最小值）所在的范围之间的权衡。

对于贝叶斯优化，仅评估通过测量过程所运行的技术系统的整体行为，而通常丢弃轨迹数据或进程数据。对于借助于贝叶斯线性回归的系统识别，可以高频采样状态参量，以获得待估计模型的不确定性度量。

在经典参数回归情况下假设模型

具有输入 x 和权重或参数w，它们被用于估计有噪声的目标变量 t。

假设噪声遵循精度（反方差）为

的高斯分布，后验分布对应于在矩阵

中说明的n次测量和在向量

中说明的相应目标值的权重：

其中n对应于数据点的数量，

对应于描述数据中噪声的预给定常数，

对应于待估计模型参数的先验平均值（模型参数的高斯先验的平均值），

对应于待估计的模型参数的先验协方差（模型参数的高斯先验的协方差），

对应于数据点的位置（汇总在一个矩阵中），t 对应于数据点的函数值（汇总在一个向量中），

对应于待估计的模型参数的后验期望值（平均值）并且

对应于待估计的模型参数的后验协方差。

权重 w 的最大后验估计值（MAP 估计）对应于后验分布的平均值，即

并且其协方差对应于

。

调节模型的确定通过强化学习进行，以便借助于贝叶斯优化方法确定线性状态反馈控制器的参数化。

下面提出了用于加速优化过程的收敛的措施。

作为初步假设，假定非线性技术系统 2 被线性模型逼近，并且使用贝叶斯优化方法来优化系统矩阵

的项。结果得到的调节模型

然后可以写为：

该方法称为AB学习方法。

可替代的学习方法是所谓的K学习方法，其中直接优化成反馈增益矩阵。这里，调节模型对应于

，其与前面描述的方案相反不使用上述方法并且因此是无模型方案。

根据图2的流程图，现在借助于贝叶斯优化方法来描述用于创建调节模型的方法。

在步骤S1中，首先确定MAP加权矩阵

。这可以在没有关于调节模型的先验知识的情况下进行。在技术系统的识别过程中，目标是基于给定的当前状态

和输入参量向量

确定技术系统 2 的后续状态

。因此下式适用：

最大后验估计（MAP 估计）对应于权重

。

使用贝叶斯线性回归的优点在于，所述贝叶斯线性回归不仅接收到平均值

的 MAP 估计，而且还接收到不确定性

的估计。这些对应于矩阵

的对角线的项。

在步骤S2中，确定调节模型的待确定模型参数的值范围。贝叶斯优化必须也在质量函数的长度尺度方面尽可能充分地覆盖模型参数的值范围。先验地，通常很难确定为了实现良好的调节行为必须在哪些值范围中优化模型参数、即矩阵 K 的项。

为此，借助来自步骤 S1 的系统识别的 MAP 估计值

，为模型参数中每个模型参数选择有意义的值范围，在所述值范围中模型参数随后被优化。

对于AB学习过程，从矩阵K的MAP估计值

和参数估计值的方差出发，取值范围的选择对应于

（模型参数域）。因此，MAP 估计值周围的

方差可以假设为参数的值范围，因此下式适用：

其中 i 可以优选地假定在 1 和 4 之间，尤其是假定为 2。

因此，在贝叶斯优化方法期间，具有更高不确定性的模型参数被分配了更大值范围用于优化，并且相反地，被良好识别的模型参数、即具有低不确定性的模型参数被分配了更小的值范围。

在 K 学习方法情况下，借助于 LQR 调节器为估计系统构建值范围：

。

调节模型的模型参数的值范围可以在此情况下设置在0与相应模型参数的MAP估计值的两倍之间

。

一般来说，可以预给定调节模型的模型参数的值范围：

其中

。

在步骤S3中，确定先验平均值函数。这使用技术系统 2 的近似模型来确定技术系统 2 的简单模拟器。该模拟器用于估计质量函数的形式。技术系统2的近似模型例如借助于高斯过程基于几个测量点来确定。为此使用的测量点的数量可以在 10 到 100 之间。然后可以例如通过高斯过程回归构建成本的近似先验平均值函数。

然后在步骤S4中通过最小化先验平均值函数来确定初始的模型参数

。

借助初始的模型参数

，可以在步骤S5中评估测量过程中的由此定义的调节模型，并且可以根据质量函数确定相对应的最小成本

。

随后，在步骤 S6 中，在考虑最后确定的数据对

的情况下根据获取函数

的最大化来确定针对优化方法的下一次迭代的下一模型参数

。

借助于当前模型参数

，可以在步骤S7中评估下一测量过程中的由此定义的调节模型并且确定相对应的最小成本

。

然后，在步骤S8中，将最后确定的数据对添加到训练数据中

。

然后在步骤S9中检查终止标准，该终止标准例如说明是否已经实现调节模型的足够性能或者是否存在足够的收敛。如果满足终止标准（二选一：是），则该方法以步骤S10结束，否则（二选一：否）系统跳回到步骤S6。

在步骤S10中，最后确定的模型参数被应用于调节策略。