CN114474040A

CN114474040A - 用于优化机器人的策略的方法

Info

Publication number: CN114474040A
Application number: CN202111253409.0A
Authority: CN
Inventors: L·弗勒利希; E·克伦斯科; L·洛佐
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-10-28
Filing date: 2021-10-27
Publication date: 2022-05-13
Also published as: US11992943B2; US20220126441A1; DE102020213527A1

Abstract

用于优化机器人的策略的方法。一种用于优化机器人的预先给定的策略（英语：policy）的方法，其中所述策略是高斯混合模型（英语：Gaussian mixture model）。所述方法从对高斯过程进行初始化开始，其中所述高斯过程具有至少一个核k，所述核作为输入参量获得在分别通过高斯混合模型和高斯过程表征的概率分布之间并且按照概率乘积核确定的距离。接着是优化所述高斯过程，使得所述高斯过程根据所述高斯混合模型的参数预测成本。然后是根据所述高斯过程确定所述高斯混合模型的最优参数，其中根据所述高斯过程选择参数，使得所述高斯过程输出最优成本函数。

Description

用于优化机器人的策略的方法

技术领域

本发明涉及一种用于优化机器人的借助于高斯混合模型（英语：GaussianMixture Modell）实现的策略的方法和一种设备、一种计算机程序以及一种机器可读存储介质。

背景技术

从作者Shahriari, Bobak等人的"Taking the human out of the loop: Areview of Bayesian optimization." Proceedings of the IEEE 104.1 (2015): 148-175 中已知高斯过程（GP）以及借助于贝叶斯优化（BO）对其进行的优化。

从作者Calinon, Sylvain的"A tutorial on task-parameterized movementlearning and retrieval." Intelligent service robotics 9.1 (2016): 1-29中已知用于机器人的调节策略的高斯混合模型（英语：Gaussian Mixture Modell，简称GMM）。

从作者Jebara, Tony等人的"Probability product kernels." Journal ofMachine Learning Research 7月5日 (2004): 819-844中已知概率乘积核（英语：Probability Product Kernel，简称PPK）。

发明优点

贝叶斯优化（BO）可以高效地优化复杂的机器人问题。然而，贝叶斯优化的缺点是所述贝叶斯优化通常不能很好地被缩放到高维问题上，例如对用于机器人的借助于高斯混合模型实现的策略（英语：policy）的参数的直接优化。因此，只能优化高斯混合模型的有限小数量的混合分量。发明人提出：通过充分利用策略的结构并且为此提出特殊核来减轻所谓的维数灾难。

根据本发明的核的优点在于，一方面通过充分利用搜索空间的对称性显著减小搜索空间，并且另一方面也增加策略的可解释性。

因为根据本发明的核有效地降低维数，因此从而变得可能的是，高效地例如通过BO优化高维高斯混合模型策略。由于现在可以优化高维高斯混合模型策略，所以最终也可以为机器人提供更精确和更可靠的策略。

发明内容

在第一方面中，本发明涉及一种用于优化机器人的预先给定的策略（英语：policy）的计算机实现的方法，其中该策略是高斯混合模型（英语：Gaussian MixtureModell，GMM），所述高斯混合模型根据机器人的起始/和目标位置/状态输出至少一个子轨迹。预先给定的策略优选地是次优的，也即该策略已经是可使用的，但是在预先给定的准则（诸如成本）方面不是最优的。因此可以说该策略已经部分地被设立用于输出子轨迹。子轨迹可以被理解为所述子轨迹是完整轨迹的分段，其中完整轨迹表征机器人的路径或运动，使得所述机器人在使用完整轨迹的情况下到达目标位置。子轨迹可以是路径的分段或是（子）运动，尤其是机器人的行动，其中多个依次组合的子轨迹得出完整轨迹。子轨迹优选地对应于机器人的行动。

该方法从对高斯过程进行初始化开始，所述高斯过程适用于根据GMM的参数化估计成本，尤其是用于确定机器人为了到达目标位置必须花费的成本。GMM的参数化被理解为GMM的参数。GMM的参数是GMM的各个混合分量（英语：mixture components）的期望值和方差。成本可以表征机器人为到达目标位置或状态而必须筹措的机器人开销。附加地或可替代地，成本可以表征在机器人选取差的子轨迹时将会对所述机器人发生的惩罚。优选地利用成本函数来计算成本。

高斯过程具有至少一个核k，所述核描述两个输入参量之间的相似性。核也以术语用于GP的协方差函数而已知。在许多情况下，这种相似度是两个输入参量的距离的函数。在本发明的情况下，由GMM描述输入参量。为此，按照度量基于PPK确定两个GMM之间的距离。

接着是根据策略创建多个轨迹，优选地对于每个策略分别确定一个轨迹。在此，子轨迹可以依次地被确定，并且然后被组合成轨迹。可设想的是，该动作被重复多次以便由此确定多个轨迹。然而，也可设想的是，根据以轻微改变的方式参数化的GMM创建多个轨迹，其中为此GMM的参数轻微地被改变，尤其是随机地围绕参数值给定的各个混合分量散布。可设想的是，有针对性地对于预先给定的混合分量改变参数或对于所有混合分量改变所述参数。接着为所述多个轨迹确定成本。可以说展开多个不同的策略、即GMM的不同参数化，并且为每次展开（Rollout）确定成本。

然后是优化GP，使得所述GP根据GMM的所使用的参数为所述多个轨迹基本上预测相应轨迹的分别所属的成本。为此优选地使用BO。

接着可以通过优化采集函数（Akuisitionsfunktion）来确定用于GMM的新的参数。接着可以利用GMM的新的参数展开得出的策略，并且可以确定其成本。因此，创建至少一个另外的轨迹并且确定其成本。接着可以利用新的数据适配、尤其是重新训练GP。确定新的参数并且重新训练GP的步骤可以被重复多次，直至例如GP已达到足够的预测质量或已达到实验的最大数量。

接着是根据GP确定用于GMM的最优参数，使得GP输出针对最优参数的最优成本，并且之后是由最优参数替换策略的参数。

提出，借助于在GMM p和GP p的数据点q之间的内积

根据PPK计算距离。应该注意的是，数据点（在下面也称为GP的支持点）代表用于创建轨迹的先前考虑的GMM。简单地说，该内积

在下面被称为GMM和GP之间的内积。优选地，内积是L²内积。

此外提出，将内积确定为在多个正态分布上的总和。多个正态分布分别包括用于在GMM的混合分量和GP的支持点之间的每种可能组合的正态分布。多个正态分布分别被参数化为使得所述正态分布在给出支持点的期望值的混合分量的相应期望值的情况下并且作为方差具有分别所考虑的混合分量和支持点的方差上的总和作为参数。多个正态分布分别利用所属的混合分量和GP的支持点的权重加权。可以给GMM的每个混合分量和GP的每个支持点分配权重（英语：mixture weight（混合权重））。

此外提出，核k的输入参量、即p和q之间的距离是由GMM和GP之间的差组成的内积

的平方根。

此外提出，根据第二二项式公式求解内积，并且将求解的第二二项式公式的各个项确定为多个正态分布上的总和，如上描述的那样。第二二项式公式为：

，其中对于相同的项

、

于是分别使用由混合分量或支持点组成的组合。

此外提出，给GMM的混合分量和GP的支持点分别分配长度尺度（英语：lengthscales），其中距离根据长度尺度被缩放、尤其是归一化。

此外提出，在优化GP之后重新创建轨迹。其中为此根据GP确定用于GMM的参数。采集函数（英语：acquisition function）使用GP来确定GMM的参数。然后利用该参数对GMM进行参数化，以便于是借助于新参数化的GMM创建其他轨迹。同样为其他轨迹计算成本。接着根据其他轨迹和所属的成本重新优化GP。

优选地使用动态域适配（英语：Dynamic Domain Adaption，DDA）用于优化。对于关于此的更多细节，请参阅作者 Fröhlich, Lukas P.等人的"Bayesian Optimization forPolicy Search in High-Dimensional Systems via Automatic Domain Selection."arXiv preprint arXiv:2001.07394 (2020), 可在线调用: https://arxiv.org/abs/2001.07394.pdf。这具有以下优点，即通过使用DDA实现特别高效的方法。

此外提出，根据具有替换的参数的策略确定机器人的轨迹，尤其是根据从中获得的子轨迹来操控机器人。优选地，根据策略为机器人提供控制参量。

在其他方面，本发明涉及一种设备以及一种计算机程序，所述设备和计算机程序分别被设立用于执行上述方法，以及涉及一种其上存储有计算机程序的机器可读存储介质。

附图说明

下面参考所附附图更详细地阐述本发明的实施方式。在附图中：

图1示意性地示出本发明的一种实施方式的流程图；

图2示意性地示出用于控制至少部分自主的机器人的实施例；

图3示意性地示出用于控制生产系统的实施例。

具体实施方式

典型地通过所谓的策略（英语：policy）对复杂的自主系统（例如操纵机器人）的行为进行编码，所述策略将当前机器人状态s映射到期望的行动a。已经提出用于策略的不同参数化：神经网络、动态运动基元和高斯混合模型（GMM）。尤其是对于操纵机器人，基于GMM的策略由于其用于采集复杂的运动以及相对小数量的参数的灵活性已被证明是有用的。

“训练”所述策略的典型方式是动觉演示，即专家以物理的方式抓住机器人并且演示期望的行为（称为“从演示中学习”的过程）。基于所记录的行为、尤其是轨迹，于是可以借助于GMM对行为进行编码。在对策略进行训练之后，得出的机器人的行为总是仍然可能是次优的，并且必须进一步被协调，以便完全达到期望的目标。可以使用贝叶斯优化（BO）用于该后续的协调步骤。策略的次优行为也可能由于应该针对新的任务对策略进行适配或其他条件占优势、诸如初始位置被改变而引起。

如果应该优化未知函数，则通常典型地使用BO，其中对于所述未知函数不存在解析形式，而是只能选择性地对所述未知函数进行分析。因为所述分析需要大量时间和/或资源，因此对函数的每个分析都是昂贵的。

由于每种评估的高成本而值得期望的是：以随机抽样方式进行并且从而也是尽可能高效的，以便找到函数的最优值。BO的主要组成部分之一是所谓的代理模型，所述代理模型基于先前的观测来逼近函数。对于代理模型，优选地使用高斯过程（GP）。所述高斯过程可以借助于BO被优化，使得该高斯过程基于较早的评价点

和相应的观测

学习其关联并且针对随后给定的评价点

可以关于观测

作出预测。

GP的关键特性在于，所述GP采集预测中的不确定性，也即在数据附近，预测不确定性小，而所述预测不确定性在远离数据处增加。

可以使用该代理模型来通过优化所谓的检测函数找到下一最优评价点。该检测函数在探索（即优选具有高预测不确定性的点）和利用（即优选具有良好预测结果的点）之间进行权衡。近年来已经提出了许多不同的检测函数。如果已找到检测函数的最优值，则在此处评价目标函数并且利用新的数据

；

更新GP。重复该方法，直至要么找到了足够好的解决方案要么达到优化步骤的最大数量为止。

不利的是，BO不能直接被缩放到高维搜索空间上。

为此，发明人提出通过以下方式实现将BO缩放到更高维参数空间上，即通过设计专门化的核函数k来实现附加的域知识。

对于许多场景，核函数f仅取决于两个元素之间的距离d，即

。

典型地，参数空间中的欧几里得距离不良好地适用于正确地检测在两种策略之间的行为的差异。因为欧几里得距离对于不同地参数化的策略不是不变的。

基于此，发明人提出一种用于在GP中使用的为GMM设置的核函数k。该核函数基于概率乘积核（英语：Probability Product Kernel，PPK），所述概率乘积核定义两个概率分布p和q之间的内积：

方程式（1）

应该注意的是，p和q是GP和GMM。

此外提出，操纵PPK核，使得所述PPK核是静止核。为了能够使用已知核（诸如Matern52核）的特性，提出在已知核中使用PPK核。

因此提出，如下计算p和q之间的距离：

方程式（2）

然后可以在已知的核函数中使用根据方程式（2）的该距离，其中利用PPK核计算各个内积。在假设p和q是GMM和GP的情况下，可以以解析的方式计算为此所需要的内积：

方程式（3）

其中

；

分别表示权重、GMM的混合分量k的平均值或协方差或GP的支持点。

大多数静止核具有所谓的长度尺度（英语：length scale）或也称为相关性参数，所述相关性参数缩放两个元素之间的距离。该参数通常以数值方式被估计，以便最优地适配GP所基于的数据。这可以例如利用“自动相关性确定”（简称ARD）来执行。为了能够使用相关性参数，可以扩展方程式（3）：

方程式（4）

其中长度尺度

用于第k个混合分量和支持点。

然后可以例如在Matern5/2核中使用根据方程式（2）计算的距离。其他核也是可设想的，诸如Matern3/2核：

方程式（2）

图1示意性地示出用于优化机器人的预先给定的策略（英语：policy）的方法的流程图（2），其中该策略是GMM。

该方法从步骤S21开始。在该步骤中，提供GMM，所述GMM优选地已经被训练并且因此适用于为机器人提出子轨迹。此外，GP在步骤S21中被初始化，使得所述GP适用于根据GMM的参数输出成本。在此情况下，成本表征耗费、诸如时间或能量，其中机器人必须筹措所述时间或能量来在遵守策略、尤其是根据策略确定的轨迹的情况下从其起始位置/状态到达目标位置。

GP包括至少一个核函数k，所述核函数根据上面提出的计算被用于确定GMM和GP之间的距离。

接着是步骤S22。在这里根据策略创建多个轨迹。对于所创建的轨迹中的每一个轨迹确定所属的成本。例如，可以通过实验来确定所述成本，其方式是根据所创建的相应策略操控机器人。

接着是步骤S23。在该步骤中，借助于BO并且根据GMM的所使用的参数和与此相关联的成本来优化GP，使得GP根据参数预测成本。

接着可以可选地执行步骤S24。在该步骤中，使用GP来有针对性地确定其他轨迹并且确定其成本。这些其他轨迹用于探索搜索空间并且接近最优成本。为此，根据GP的所输出的不确定性或根据在通过GP预测的最优成本方面的假定最优值来建议用于GMM的参数，以便然后根据利用这些参数所参数化的GMM创建其他轨迹。

当在步骤S24中确定了其他轨迹和成本之后，接着在步骤S24中利用BO和新的数据重新优化GP。

在步骤S23之后或在步骤S24之后是步骤S25。在步骤S25中，然后借助于GP为其所输出的最优成本确定GMM的所属的最优参数。这可以例如利用Broyden-Fletcher-Goldfarb-Shanno（BFGS）方法来执行。接着是通过最优参数替换GMM的参数。

在结束步骤S25之后，该方法完成。应该说明的是，步骤S24可以多次地依次被执行。可设想的是，在步骤S25之后是其他步骤，其中于是使用来自步骤S25的经适配的GMM来运行机器人。对于机器人或生产机器或自主车辆可能使用GMM应该在随后的图中示例性地予以阐述。

图2示出执行器10。以优选规则的时间间隔，在传感器30、尤其是成像传感器、例如视频传感器中检测环境，所述传感器也可以由多个传感器给出，例如立体摄像机。其他传感器也是可设想的，例如雷达、超声波或激光雷达，但也可设想GPS或旋转速率传感器、加速度计、执行器自身处的角度编码器。传感器30的传感器信号S（或在多个传感器情况下每一个传感器信号S）被传送给控制系统40。控制系统40因此接收一系列传感器信号S。控制系统40从中确定操控信号A，所述操控信号A被传输给执行器10。

然后在步骤S25之后将所检测的传感器信号输送给参数化的GMM。

然后，GMM输出子轨迹。根据子轨迹，借助于计算单元确定用于执行器10的操控信号，所述操控信号相对应地被操控并且执行相应的行动。

在其他优选的实施方式中，控制系统40包括单个或多个处理器45和至少一个机器可读存储介质46，指令存储在所述机器可读存储介质上，当在处理器45上执行所述指令时，所述指令促使控制系统40执行根据本发明的方法。

在替代实施方式中，替代于或附加于执行器10，设置可以显示GMM的输出的显示单元10a。

图2示出可以如何使用控制系统40来控制至少部分自主的机器人（这里是至少部分自主的机动车100）。

优选地布置在机动车100中的执行器10可以例如是机动车100的制动器、驱动装置或转向装置。

可替代地，至少部分自主的机器人也可以是另一移动机器人（未绘出），例如是通过飞行、游泳、潜水或行进来前进的机器人。移动机器人也可以例如是至少部分自主的割草机或至少部分自主的运输机器人。即使在这些情况下，操控信号A也可以被确定为使得移动机器人的驱动装置和/或转向装置被操控，使得至少部分自主的机器人防止例如与由人工神经网络60标识的对象碰撞。

可替代地或附加地，可以根据操控信号A操控显示单元10a。例如在具有非自动化的转向装置的机动车100的情况下也可能的是，利用操控信号A操控显示单元10a，使得当确定出机动车100临近时，所述显示单元输出光学或声音警告信号。

图3示出一种实施例，其中使用控制系统40来操控生产系统200的生产机器11，其方式是操控对所述生产机器11进行控制的执行器10。生产机器11可以例如是用于冲压、锯开、钻孔和/或切割的机器。

传感器30于是可以例如是光学传感器，所述光学传感器例如检测生产产品12a、12b的特性。可能的是，这些生产产品12a、12b是可移动的。可能的是，根据所检测的生产产品12a、12b的分配来操控对生产机器11进行控制的执行器10，以便生产机器11相对应地执行生产产品12a、12b中的正确的生产产品的后续加工步骤。

Claims

1.一种用于优化机器人的预先给定的策略（英语：policy）的方法（20），其中所述策略是高斯混合模型（英语：Gaussian mixture model），所述高斯混合模型根据机器人的起始状态和目标状态输出至少一个子轨迹，所述方法包括以下步骤：

对高斯过程进行初始化（S21），所述高斯过程适用于根据高斯混合模型的参数化来估计机器人为了到达目标位置必须花费的成本，

其中所述高斯过程具有至少一个核k，所述核根据在分别通过高斯混合模型和高斯过程表征的概率分布之间按照概率乘积核（英语：Probability Product Kernel）确定的距离获得输入参量；

根据所述策略创建（S22）多个轨迹；

为所述多个轨迹中的每一个轨迹确定（S22）成本；

优化（S24）所述高斯过程，使得所述高斯过程根据所述高斯混合模型的所使用的参数为所述多个轨迹估计所确定的成本；

借助于所述高斯过程确定用于所述高斯混合模型的最优参数，使得所述高斯过程输出用于所述最优参数的最优成本；

通过所述最优参数替换（S25）所述高斯混合模型的参数。

2.根据权利要求1所述的方法，其中按照概率乘积核根据在所述高斯混合模型（p）和所述高斯过程（q）之间的内积

来计算所述距离。

3.根据权利要求2所述的方法，其中根据在多个正态分布上的总和确定所述内积，

其中所述多个正态分布对于在所述高斯混合模型的混合分量和所述高斯过程的支持点之间的每个可能组合分别包括正态分布，

其中所述多个正态分布分别利用给出相应支持点的期望值的相应混合分量的期望值以及利用在相应混合分量和相应支持点的方差上的总和被参数化，

其中所述多个正态分布分别利用所述高斯混合模型的相应混合分量和所述高斯过程的相应支持点的权重被加权。

4.根据前述权利要求中任一项所述的方法，其中所述距离与由在所述高斯混合模型和所述高斯过程之间的差与所述差的内积

的根有关。

5.根据权利要求4所述的方法，其中根据第二二项式公式求解所述差的内积并且所求解的第二二项式公式的各个项

被确定为在根据权利要求2所述的多个正态分布上的总和。

6.根据前述权利要求中任一项所述的方法，其中所述核是Matern核，优选地是Matern5/2核。

7.根据前述权利要求中任一项所述的方法，其中给所述高斯混合模型的混合分量和所述高斯过程的支持点分别分配长度尺度（英语：length scales），其中所述长度尺度缩放根据概率乘积核确定的距离。

8.一种设备，所述设备被设立用于执行根据权利要求1至7中任一项所述的方法。

9.一种计算机程序，所述计算机程序被设立用于执行根据权利要求1至7中任一项所述的方法。

10.一种机器可读存储介质，其上存储有根据权利要求9所述的计算机程序。