CN117506887A

CN117506887A - 用于控制技术系统的方法

Info

Publication number: CN117506887A
Application number: CN202310969350.8A
Authority: CN
Inventors: F·奥图; G·纽曼
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-03
Filing date: 2023-08-02
Publication date: 2024-02-06
Also published as: DE102022208082B3; US20240046126A1

Abstract

根据各种实施方式，描述了用于控制技术系统的方法，具有：确定第一动作链的规范的概率分布作为第一概率分布，所述第一动作链用于从所述技术系统的第一状态开始执行以控制所述技术系统；根据第一概率分布选择针对所述第一状态的动作并根据针对第一状态所选择的动作来控制所述技术系统；确定所述技术系统通过执行所述第一动作而进入的第二状态；通过贝叶斯推理确定第二动作链的规范的概率分布作为第二概率分布，所述第二动作链用于从所述第二状态开始执行，其中所述第一概率分布用作先验分布，并且根据后验分布来确定所述第二概率分布；根据所述第二概率分布选择针对所述第二状态的动作，并根据针对所述第二状态所选择的动作来控制所述技术系统。

Description

用于控制技术系统的方法

技术领域

本公开涉及用于控制技术系统的方法。

背景技术

机器人设备(例如机器人臂，以及应该能够在环境中导航的车辆)可以通过强化学习(英文Reinforcement Learning，RL)加以训练以执行特定任务，例如在生产中。

在强化学习的情况下，代理(例如机器人设备的控制装置)学习仅仅通过与其环境交互就以最佳方式行动。因此，为了发现奖励行为，代理应当有效地探索其环境。在连续的控制任务中，这种探索通常是通过使用随机策略来实现的，典型地是关于代理的取决于当前环境状态的下个动作的高斯分布。高斯策略产生行动模式，其方式是高斯策略将独立的高斯噪声添加到应用于环境状态信息的确定性函数的输出。

因此，动作仅仅由于环境的状态转换动力学的随机性而随机地彼此依赖，这导致动作序列具有低的时间连贯性。这种现象是有问题的，因为不连贯的行动流程可能导致低效的随机游走探索行为，这降低数据效率或完全阻止最佳行为的发现。此外，不连贯的探索通常导致不平滑的动作轨迹，这种不平滑的动作轨迹可能在许多物理系统(例如机器人致动器)中导致不稳定的行为或甚至导致硬件损坏。

因此，期望有一种方法可以在强化学习的情况下在动作空间中实现时间连贯的探索。

发明内容

根据各种实施方式，提供了一种用于控制技术系统的方法，具有：确定第一动作链的规范的概率分布作为第一概率分布，所述第一动作链用于从所述技术系统的第一状态开始执行以控制所述技术系统；根据所述第一概率分布选择针对所述第一状态的动作并根据针对第一状态所选择的动作来控制所述技术系统；确定所述技术系统通过执行所述第一动作而进入的第二状态；通过贝叶斯推理确定第二动作链的规范的概率分布作为第二概率分布，所述第二动作链用于从所述第二状态开始执行，其中所述第一概率分布用作先验分布，并且根据后验分布来确定所述第二概率分布；根据所述第二概率分布选择针对所述第二状态的动作，并根据针对所述第二状态所选择的动作来控制所述技术系统。

通过使用关于(两个或更多，例如，三个、四个、五个或更多)动作的链的概率分布并使用贝叶斯推理来更新所述概率分布，上述方法实现了动作的时间相关性(即，关于时间步骤的相关性，其中将每个动作分配给一个时间步骤)，从而实现了关于控制运行(从初始状态到最终状态，例如目标状态)的控制的时间连贯行为。因此，关于多个动作进行了规划。该方法不需要特殊的域知识，不需要经过训练的环境模型，并且可以与任何允许递归控制策略的训练算法一起使用。

贝叶斯推理可以被视为观察到新状态(这里为所述第二状态)时的重新规划，其中该方法可以迭代地继续执行(即所述第二状态取代所述第一状态，并且第三状态取代所述第二状态，依此类推)。

根据动作链规范的相应概率分布来针对状态选择动作意味着对链的规范进行采样并且选择该链的第一个动作作为动作。这可以具有将采样的规范解码为动作链(或该链的至少第一个动作，即该链的第一个位置处的动作)。

下面说明各种实施例。

实施例1是如上所述的用于控制技术系统的方法。

实施例2是根据实施例1的方法，其中将每个动作分配给一个时间步骤，其中后验分布是用于从所述第二状态开始执行的第三动作链的规范的分布，所述第三动作链一直延伸到所述第一动作链延伸到的时间步骤，并且其中通过将后验分布扩展到所述第一动作链延伸到的时间步骤之后的另一时间步骤的动作而根据所述后验分布来确定所述第二概率分布。

换句话说，将首先对于比第一链短一个动作的链的后验分布(因为该链已经被条件化为第二状态，并且因此第一链开始处的动作被省略)扩展到与第二链相同长度的链(即第二链)的概率分布(但移位了一个时间步骤，从而它进一步向未来延伸了一个时间步骤)。由此保证第一分布和第二分布是具有相同长度的动作链的分布，并且特别是始终可以对进一步的动作进行采样(因为显然避免了当重复应用贝叶斯推理时链收缩到零长度)。

实施例3是根据实施例1或2的方法，其中借助于线性随机预测模型来扩展所述后验分布，所述线性随机预测模型是由神经预测网络针对所述第二状态输出的输出来指定的。

因此，特别是控制策略可以通过训练所述神经预测网络(在下面的示例中称为第二神经网络)来加以训练，使得例如RL损失得到最小化(或减少)。

实施例4是根据实施例1至3中任一项所述的方法，其中所述第一概率分布、所述第二概率分布和所述贝叶斯推理的合理性分布是高斯分布。

这使得贝叶斯推理可以简单地执行。

实施例5是根据实施例1至4中任一项所述的方法，其中所述规范是相应链的潜在表示，使得所述第一概率分布和所述第二概率分布是因式分解的高斯分布。

这进一步简化了贝叶斯推理的执行，特别是简化了训练时的反向传播(Backpropagation)。

实施例6是根据实施例1至5中任一项所述的方法，其中所述贝叶斯推理中的合理性分布(即，似然性分布)是所述第二状态的状态信息的分布，该分布是借助于神经编码网络从所述第二状态中确定的。

神经编码网络(在下面的示例中称为第一神经网络)在训练时创建额外的自由度(例如，除了预测网络之外)，并在训练时得到适配，使得该神经编码网络从相应的状态中提取相关的状态信息。

实施例7是一种用于训练代理以通过以下方式控制技术系统的方法，即在多个控制运行中根据实施例1至6中任一项所述的方法控制所述技术系统并根据训练目标函数的优化来适配所述代理。

在此情况下，可以通过根据后验分布确定第二概率分布的参数(特别是通过对预测网络进行适配)和/或通过确定贝叶斯推断的合理性分布(特别是通过对合理性网络进行适配)来进行所述适配。根据优化来适配所述代理应被理解为搜索最佳值(不一定达到该最佳值)，例如使得训练目标函数减少或增加，这取决于该训练目标函数是如何制定的。

实施例8是根据实施例1至7中任一项所述的方法，其中所述训练目标函数具有奖励所述第二概率分布中的动作之间的相关性的至少一个正则化项。

通过这种方式确保了在长动作链(在控制运行中)的情况下，动作之间的相关性不会丢失。例如，可以(借助于正则化项)训练代理，使得概率分布与一阶自回归过程相同(并且从而在彼此相继的时间步骤之间强制存在高度相关性)。例如，还可以设置正则化项来惩罚分布的剧烈更新(即从第一分布到第二分布的大变化)，从而代理被迫有效地预先规划。

实施例9是一种控制装置，其被设置为执行根据实施例1至8中任一项所述的方法。

实施例10是一种具有指令的计算机程序，当所述指令由处理器执行时，所述指令使得所述处理器执行根据实施例1-8中任一项所述的方法。

实施例11是一种存储指令的计算机可读介质，当所述指令由处理器执行时，所述指令使得处理器执行根据实施例1-8中任一项所述的方法。

附图说明

在附图中，相同的附图标记通常在完全不同的视图中指代相同的部分。附图不一定按比例绘制，而是通常将重点放在显示本发明的原理上。在以下描述中，参考以下附图描述各个方面。

图1示出了机器人。

图2示出了根据一种实施方式的时间连贯的控制策略。

图3示出了表示根据一种实施方式的用于控制机器人以拾取和检查对象的方法的流程图。

具体实施方式

以下详细描述涉及附图，这些附图为了解释示出了可以在其中执行本发明的本公开的具体细节和方面。可以采用其他方面，并且可以在不偏离本发明的保护范围的情况下进行结构、逻辑和电气改变。本公开的各个方面不一定是相互排斥的，因为本公开的一些方面可以与本公开的一个或多个其他方面组合以形成新的方面。

下面更详细地描述各种示例。

图1示出了机器人100。

机器人100包括机器人臂101，例如工业机器人臂，用于操纵或组装工件(或一个或多个其他对象)。机器人臂101包括操纵器102、103、104和用于支撑操纵器102、103、104的基座(或支撑件)105。术语“操纵器”涉及机器人臂101的可运动部件，这些可运动部件的致动使得能够与环境进行物理交互，例如执行任务。为了控制，机器人100包括(机器人)控制装置106，该控制装置被设计为根据控制程序实现与环境的交互。操纵器102、103、104的最后一个部件104(离支撑件105最远)也称为末端执行器104，并且可以包括一个或多个工具，例如焊枪、夹具、涂漆工具等。

其他操纵器102、103(更靠近支撑件105)可以形成定位设备，使得与末端执行器104一起，机器人臂101在其端部设置有末端执行器104。机器人臂101是可以提供类似于人臂(可能在其端部带有工具)的功能的机械臂。

机器人臂101可以包括关节元件107、108、109，这些关节元件将操纵器102、103、104彼此连接并与支撑件105连接。关节元件107、108、109可以具有一个或多个关节，每个关节可以提供相关联的操纵器相对于彼此的可旋转运动(即旋转运动)和/或平移运动(即平移)。操纵器102、103、104的运动可以借助于由控制装置106控制的致动器启动。

术语“致动器”可以理解为被设计为响应于受到驱动而施加影响的机制或过程的组件。致动器可以将由控制装置106创建的指令(所谓的激活)实现为机械运动。致动器(例如机电转换器)可以被设计为响应于其激活将电能转换为机械能。

术语“控制装置”可以理解为任何类型的实现逻辑的实体，所述实体例如可以包括电路和/或处理器，所述电路/处理器能够执行存储在存储介质中的软件、固件或其组合并且可以发布指令，例如发布给本示例中的致动器。控制装置可以例如通过程序代码(例如，软件)被配置为控制系统(本示例中的机器人)的运行。

在本示例中，控制装置106包括一个或多个处理器110和存储代码和数据的存储器111，处理器110基于这些代码和数据来控制机器人臂101。根据各种实施方式，控制装置106基于存储在存储器111中并实现控制策略的机器学习模型112来控制机器人臂101。

学习控制策略(英语：policy)的一种可能性是强化学习(英语：ReinforcementLearning，RL)。强化学习的特征在于试错搜索和延迟奖励。与需要标签来从中学习的神经网络的监督学习不同，强化学习使用试错机制来学习状态向动作的分配，使得所获得的奖励得到最大化。通过试错，强化学习算法试图通过尝试不同的动作来发现能导致更高奖励的动作。选择一个动作不仅影响当前状态的奖励，而且影响(当前控制运行的)所有即将到来的状态的奖励，从而影响延迟的(总)奖励或者换句话说累积奖励。

强化学习可以正式表达为马尔可夫决策过程(MDP，Markov Decision Process)，该决策过程具有状态集合动作集合/>初始状态的分布p(s₀)、状态转换分布p(s_t+1|s_t，a_t)、奖励函数r(s_t，a_t，s_t+1)和折扣因子/>在每个时间步骤t，代理(接受学习，即接受训练的代理)观察到相应环境的状态/>(例如，机器人臂101的姿势以及在其工作区域中的对象或障碍物的地点)并根据控制策略分布π(a_t|s_t)选择动作/>然后，环境转变为新状态s_t+1～p(s_t+1|s_t，a_t)，并且代理获得奖励r_t＝r(s_t，a_t，s_t+1)。下面，假设一个情景场景，其中学习目标是找到最佳控制策略(英语：policy)π^*使得时间范围T内的折扣奖励的预期总和最大化：

高斯控制策略对当前状态s_t下待执行的下一个动作a_t的高斯分布进行参数化：

在此情况下，协方差矩阵∑(s_t)＝L(s_t)L^T(s_t)

的均值μ(s_t)和Cholesky分解L(s_t)由确定性函数f：s_t→(μ(s_t)，L(s_t))参数化。因此，来自控制策略的动作采样意味着向均值函数μ(s_t)添加高斯白噪声∈_t：

由于每个时间步骤中的噪声都独立于其他时间步骤的噪声，即因此动作仅通过状态转换的动态性相互依赖，这导致动作之间的时间连贯性低。这在学习的早期阶段特别成问题：由于高斯策略典型地被初始化为使得其具有固定的均值和固定的协方差，即μ(s)≈μ₀，/>因此初始动作轨迹(即动作序列)具有完全不相关的动作：

根据各种实施方式，提高了动作的时间连贯性，其方式是使用参数化接下来的d+1个动作a_t：t+d＝{a_t，a_t+1，...，a_t+d}(而不仅仅是唯一一个动作)的分布的(递归)控制策略：

在此情况下，τ_t-1：＝{s₁，a₁，...，s_t-1，a_t-1}表示直到时间步骤t-1为止的状态-动作轨迹，并且μ^t和∑^t表示时间步骤t时的分布的均值和协方差矩阵。动作a_t是从相应的边际分布中采样而来的：

假设代理能够预先完美地规划其动作，使得新状态信息的观察不改变关于未来动作的控制策略分布：

π(a_t：t+d|τ_t-1)＝π(a_t：t+d|s_t，τ_t-1) (1)

然后，代理(例如，控制装置106)在时间步骤t中选择的动作a_t根据协方差矩阵∑^t与接下来的d个动作(例如，d＝5)相关：

由此可以实现动作之间给定程度的相关性，其方式是构造合适的协方差矩阵∑^t。根据各种实施方式，协方差矩阵∑^t被构造或寻求为使得其与具有参数α∈(0，1)的一阶自回归过程相同，从而非对角的块元素由下式给出

其中∑_nn表示a_t+n-1上边际分布的协方差矩阵，⊙表示逐元素乘积，并且逐元素地求平方根。于是两个动作a_t和a_t+k之间的相关系数为

因此，动作之间的时间连贯性的程度由参数α确定。

然而，对于大多数重要情况，代理预先完美规划其动作的假设是不现实的，因为代理典型地必须根据最新的状态信息(即代理当前最后获得的状态信息)适配其动作规划，以表现得最佳。因此，根据各种实施方式，方程(1)的左侧被处理为未来动作的先验(在观察到状态s_t+1之前)，并且方程(1)的右侧被认为是后验(在观察到状态s_t+1之后)。此外，在训练期间对控制策略进行正则化，从而方程(1)的一致性假设近似成立，由此看上去是激励代理有效地预先规划，但也使得代理可以在必要时改变其动作规划。根据经验可以观察到，如果方程(1)的一致性假设近似成立，则动作近似地根据协方差矩阵∑^t相关，并且因此所得到的动作轨迹是时间上连贯的。

为了强制时间连贯的探索，根据各种实施方式，训练和使用递归控制策略(例如，由一个或多个递归神经网络实现)，其中隐藏状态在(当前控制运行的)所有先前状态和动作的条件下对关于接下来的d个动作的先验分布(即，先验)

进行参数化。

图2示出了根据一种实施方式的时间连贯的控制策略。

首先，第一神经网络201f_θ：对最后达到的(即当前)状态s_t的信息及其不确定性进行编码。假设这样的编码检测了通过观察s_t获得的所有附加信息，使得

p(a_t：t+d|w_t，τ_t-1)＝p(a_t：t+d|s_t，τ_t-1)。

然后，将观察模型用于在202中确定在给定最后观察到的状态s_t的条件下关于未来动作的后验分布(即，后验)：

然后代理在203中从边际分布p(a_t|s_t，τ_t-1)中对动作a_t进行采样。

定义新先验p(a_t+1：t+d+1|τ_t)的下一个隐藏状态z_t+1是通过在204中首先将方程(4)的后验条件化为采样动作a_t而获得的，这导致条件分布

第二，在205中将由第二神经网络206g_φ：s_t→(K_t，b_t，Λ_t)参数化的线性随机预测模型

用于将条件概率扩展到动作a_t+d+1：

这是通过隐藏状态z_t+1给出的关于未来动作a_t+1：t+d+1的先验分布。

可以借助于接受递归控制策略(例如邻近策略优化或信任区域层)的任何控制策略搜索算法来训练上述控制策略。根据各种实施方式，通过将两个惩罚项P_t ⁽¹⁾和P_t ⁽²⁾添加到所使用的控制策略搜索算法的(标准)RL目标函数RL_loss来对控制策略进行正则化，使得控制策略的训练对应于寻找以下优化问题的解

其中在该示例中，RL目标函数RL_loss被选择为使得该RL目标函数应当被最大化，并且是有限批次样本的经验均值，并且(θ，φ)是(似然或合理性)编码器f_θ和动作预测网络g_φ的权重。

第一个正则化项P_t ⁽¹⁾鼓励代理的训练，使得代理在观察到新状态后仅对关于未来动作的先验进行小幅更新，从而代理学会有效地预先规划。例如，第一个正则化项P_t ⁽¹⁾惩罚先验分布和后验分布之间的Kullback-Leibler(KL)散度：

该惩罚项近似地强制执行方程(1)的一致性假设，使得未来动作近似地根据后验分布p(a_t：t+d|s_t，τ_t-1)的协方差矩阵相关。

第二个正则化项鼓励训练，使得后验协方差矩阵与具有参数α∈(0，1)的一阶自回归过程相同，这迫使彼此相继的动作充分相关。目标协方差矩阵/>被构造为使得该目标协方差矩阵与方程(3)中描述的一阶自回归过程的协方差矩阵相同，使得

于是，彼此间隔k个步骤的两个动作之间的相关系数近似为α^|k|。

因此，第一个正则化项保证动作根据后验协方差矩阵相关，而第二个正则化项鼓励/>与一阶自回归过程的协方差矩阵相同。

然而，在上述方法中，为了将贝叶斯定理应用于高斯分布(参见方程(4))来更新动作分布需要将矩阵倒置。对于该倒置，反向传播(用于在训练中适配权重)可能很困难，特别是对于高维动作空间而言。根据各种实施方式，更新因此在潜在空间中进行，在那里分布可以表示为因式高斯分布，即引入潜在变量z，其中

然后，对新观察到的状态信息的条件化在潜在空间中进行：

p(z|s_1：t)∝p(w(s_t)|z)p(z|s_1：t-1)

在这种情况下，可以将动作解码器用于获得(预测的)动作分布。一个简单的示例是线性解码器，其导致动作的高斯分布：

a_t：t+d＝Wz_t+w₀

其中W又可以被参数化，使得仅对时间相关性进行建模，而不对动作组成部分之间的相关性进行建模。所得到的动作分布由下式给出

如图2中的示例所示，更新包括两个步骤：

1.条件化为a_t，和

2.将分布扩展到下一个时间步骤。

在这种情况下，步骤1简单，并且可以借助于高斯条件化来进行。这再次需要倒置，但只需要倒置当前时间步骤的动作协方差，可以将该动作协方差进行因式分解)。

在这种情况下，步骤2较复杂，因为潜在变量z_t不能像未来动作的向量那样分解为各个时间步骤。因此根据一个实施方式，引入附加的正则化项，其迫使动作分布p^-(a_t+1：t+d|s_1：t)(从时间步骤t+1的先验中解码出)等同于条件动作分布p⁺(a_t+1：t+d|s_1：t，a_t)(从前一个时间步骤的后验中解码出)：

对于训练(这也涉及其他实施方式，例如图2的实施方式)，代理通过选择和应用动作(即，根据所选择的动作来控制相应的技术系统)与环境交互，并且在此过程中产生的样本(包括由所选择的动作引起的状态转换)用于训练控制策略(所述控制策略特别是由两个神经网络实现)，并且取决于所使用的RL训练方法，例如V函数(值函数)地被使用。

综上所述，根据各种实施方式提供了一种方法，如图3中所示。

图3示出了表示根据一种实施方式的用于控制机器人以拾取和检查对象的方法的流程图300。

在301中，作为第一概率分布确定第一动作链的规范的概率分布，所述第一动作链用于从所述技术系统的第一状态开始执行以控制所述技术系统。

在302中，根据所述第一概率分布确定针对所述第一状态的动作并根据针对第一状态所选择的动作来控制所述技术系统。

在303中，确定(即例如观察)所述技术系统通过执行所述第一动作而进入的第二状态。

在304中，作为第二概率分布，通过贝叶斯推理确定第二动作链的规范的概率分布，所述第二动作链用于从所述第二状态开始执行，其中所述第一概率分布用作先验分布，并且根据后验分布来确定所述第二概率分布。

在305中，根据所述第二概率分布来确定针对所述第二状态的动作。

在306中，根据针对所述第二状态所选择的动作来控制所述技术系统。

图3的方法可以由具有一个或多个数据处理单元的一个或多个计算机执行。术语“数据处理单元”可以理解为使得能够处理数据或信号的任何类型的实体。所述数据或信号例如可以根据由数据处理单元执行的至少一个(即一个或多于一个)具体功能来处理。数据处理单元可以包括模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央处理器(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)的集成电路或它们的任何组合或由模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央处理器(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)的集成电路或它们的任何组合形成。实现本文更详细描述的相应功能的任何其他方式也可以理解为数据处理单元或逻辑电路装置。这里详细描述的一个或多个方法步骤可以由数据处理单元通过由所述数据处理单元执行的一个或多个具体功能来执行(例如，实现)。

因此，该方法根据各种实施方式特别是由计算机实现的。

图3的措施用于为机器人设备产生控制信号。术语“机器人设备”可以理解为指代任何技术系统(具有运动受到控制的机械部件)，例如计算机控制的机器、车辆、家用电器、电动工具、制造机器、个人助理或访问控制系统。学习用于所述技术系统的控制规则，并且然后对应地控制所述技术系统。例如，动作(以及对应的控制信号)的产生在于产生一个或多个连续值(即执行回归)，例如针对距离、速度或加速度(然后机器人设备或其一部分例如根据该一个或多个连续值运动)。

各种实施方式可以接收来自各种传感器的传感器信号，例如视频、雷达、LiDAR、超声、运动、热成像等，并例如将其用于获得关于被控系统(例如机器人和环境中的一个或多个对象)和场景的状态的传感器数据。可以处理传感器数据。这可能包括对传感器数据进行分类或对传感器数据执行语义分割，以例如探测对象的存在(在获得传感器数据的环境中)。实施方式可以用于训练机器学习系统和控制机器人，例如自主地控制机器人操纵器，以完成不同场景下的各种操纵任务。特别地，实施方式可应用于控制和监视操纵任务的执行，例如在组装线上。

尽管这里已经示出和描述了具体实施方式，但是本领域技术人员认识到，在不偏离本发明的保护范围的情况下，所示出和描述的具体实施方式可以更换为各种替代和/或等效的实现。本申请应当涵盖这里所讨论的具体实施方式的任何适配或变化。因此，本发明旨在仅由权利要求及其等同物来限制。

Claims

1.一种用于控制技术系统的方法，具有：

确定第一动作链的规范的概率分布作为第一概率分布，所述第一动作链用于从所述技术系统的第一状态开始执行以控制所述技术系统；

根据所述第一概率分布选择针对所述第一状态的动作并根据针对第一状态所选择的动作来控制所述技术系统；

确定所述技术系统通过执行所述第一动作而进入的第二状态；

通过贝叶斯推理确定第二动作链的规范的概率分布作为第二概率分布，所述第二动作链用于从所述第二状态开始执行，其中所述第一概率分布用作先验分布，并且根据后验分布来确定所述第二概率分布；

根据所述第二概率分布选择针对所述第二状态的动作；以及

根据针对所述第二状态所选择的动作来控制所述技术系统。

2.根据权利要求1所述的方法，其中将每个动作分配给一个时间步骤，其中后验分布是用于从所述第二状态开始执行的第三动作链的规范的分布，所述第三动作链一直延伸到所述第一动作链延伸到的时间步骤，并且其中通过将后验分布扩展到所述第一动作链延伸到的时间步骤之后的另一时间步骤的动作而根据所述后验分布来确定所述第二概率分布。

3.根据权利要求1或2所述的方法，其中借助于线性随机预测模型来扩展所述后验分布，所述线性随机预测模型是由神经预测网络针对所述第二状态输出的输出来指定的。

4.根据权利要求1至3中任一项所述的方法，其中所述第一概率分布、所述第二概率分布和所述贝叶斯推理的合理性分布是高斯分布。

5.根据权利要求1至4中任一项所述的方法，其中所述规范是相应链的潜在表示，使得所述第一概率分布和所述第二概率分布是因式分解的高斯分布。

6.根据权利要求1至5中任一项所述的方法，其中所述贝叶斯推理中的合理性分布是所述第二状态的状态信息的分布，该分布是借助于神经编码网络从所述第二状态中确定的。

7.一种用于训练代理以通过以下方式控制技术系统的方法：在多个控制运行中根据权利要求1至6中任一项所述的方法控制所述技术系统并根据训练目标函数的优化来适配所述代理。

8.根据权利要求1至7中任一项所述的方法，其中所述训练目标函数具有奖励所述第二概率分布中的动作之间的相关性的至少一个正则化项。

9.一种控制装置，其被设置为执行根据权利要求1至8中任一项所述的方法。

10.一种具有指令的计算机程序，当所述指令由处理器执行时，所述指令使得所述处理器执行根据权利要求1至8中任一项所述的方法。

11.一种存储指令的计算机可读介质，当所述指令由处理器执行时，所述指令使得所述处理器执行根据权利要求1至8中任一项所述的方法。