CN112215363A

CN112215363A - 用于为机器人创建策略的方法、设备和计算机程序

Info

Publication number: CN112215363A
Application number: CN202010662616.0A
Authority: CN
Inventors: F·胡特尔; L·福克斯; M·林道尔; N·阿瓦德
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-12
Filing date: 2020-07-10
Publication date: 2021-01-12
Also published as: US20210008718A1; US11628562B2; DE102019210372A1

Abstract

本发明涉及一种用于为机器人（10）创建策略的方法，包括以下步骤：初始化所述策略θ₀和情节长度E；多次实施具有以下步骤的循环：根据所述策略θ₀创建多个其他策略；对于情节长度E的长度应用所述多个其他策略；分别确定总奖励F_E，所述总奖励在应用相应的其他策略时被获得；根据已获得最大总奖励的第二多个其他策略来更新所述策略θ₀。在每次实施循环之后，使所述情节长度E增加。本发明此外涉及用于实施该方法的设备和计算机程序以及涉及其上存储有计算机程序的机器可读存储元件。

Description

用于为机器人创建策略的方法、设备和计算机程序

技术领域

本发明涉及一种用于创建策略使得当机器人以情景的方式根据该策略实施行动时实现可预给定的目标的方法。同样，本发明涉及分别被设立用于实施该方法的设备和计算机程序。

背景技术

作者Chrabaszcz等人在其出版物“Back to basics：Benchmarking canonicalevolution strategies for playing atari.”arXiv preprint arXiv: 1802.08842（2018）中公开了进化策略（英文：Evolution Strategy, ES）作为强化学习（英文：reinfocement learning）的替代方案。

发明优点

已经注意到，一些策略使代理、尤其是机器人有能力能够解决复杂的任务，但是在简单的子任务情况下失灵（versagen）。在下文中，应该介绍完全可靠地对机器人进行控制的方法，所述方法使得能够以简单的方式创建策略，所述策略可被用于可靠地控制机器人。此外可以简单地扩展该策略用于复杂的任务。

发明内容

在第一方面中，提出一种用于创建策略（英文：policy）使得当代理、尤其是机器人以情景的方式根据策略实施行动时实现可预给定的目标或完成任务的尤其是计算机实现的方法。该方法从策略θ₀和情节长度（英文：episode length，E）的初始化开始。之后是多次实施循环、适宜地是（计算机）程序循环，所述循环具有以下阐述的步骤。循环是编程语言中的控制结构，只要循环条件保持有效，所述控制结构就重复指令块，或所述控制结构一直重复指令块，直至满足中止条件为止。

循环从根据策略θ₀创建多个其他策略开始。可以通过给策略施加随机抽取的参量来创建其他策略。之后是对于具有情节长度E的分别至少一个情节应用多个其他策略。如果代理的周围环境或策略具有概率特性，则可以将其他策略应用于多个情节。之后是分别确定总奖励（英语：cumulative reward（累积奖励））F_E，所述总奖励F_E在应用相应的其他策略时被实现，并且根据获得最大总奖励的第二多个其他策略来更新策略θ₀。第二多个是可预给定的数量，其中该可预给定的数量小于所有其他策略的数量。在每次实施了循环的所有步骤之后，使情节长度E增大。

可以将应用策略理解为通过代理、尤其是机器人使用所述策略，所述代理根据该策略实施行动，例如以便勘测其周围环境或实现其目标。在应用该策略时，根据代理的周围环境的当前状态来根据策略确定代理的行动。

在通过代理实施行动时，这导致周围环境改变。这种改变可能与奖励关联。可替代地或附加地，奖励可能与行动有关。于是，总奖励是在情节之内所有行动的奖励上的总和。该情节是一系列行动，并且情节长度是该情节的行动的数量。

优点是，首先学习解决短的和简单的任务，从中确定针对该策略的第一知识。然后使用该知识用于在情节长度增加时解决要求更高的任务。由此此外对于较复杂的任务实现关于解决容易任务的知识的转移。另一优点是，通过在方法开始时聚焦于更简单和更短的任务，实现策略的更稳定和更快速的优化。通过在开始时缩短的情节，也仅探索周围环境的片段。这允许学习简单的策略，所述简单的策略也可以有成功希望地应用于整个周围环境。这最后导致更好地概括策略。此外，通过缩短的情节可以在可预给定的时间预算之内评估多个策略，由此可以更快速地学习。

提出将情节长度E 初始设置为小于用于实现可预给定的目标的行动的预期数量的值。情节长度E此外也可以被设置为值，使得第一次可以接收奖励或者可以实现部分目标。也可设想的是，根据最大可实现的奖励（英语：reward）并且尤其是根据通过行动可实现的各个奖励来设置行动的数量。行动的预期数量优选地除以可预给定的常数，由此可以设定更具攻击性的勘测（aggressiveres Erkunden）。

此外提出，通过蒙特卡洛模拟（Monte-Carlo Simulation）确定行动的预期数量。蒙特卡洛模拟可以被理解为分别根据多个随机初始化的策略来控制代理。于是可以根据目标的实现和/或根据代理的进步和/或根据于是所获得的总奖励来选择情节长度。

此外提出，附加地初始化时间预算（英文：time budget, T）。仅只要时间预算T的剩余时间存在，就计算循环迭代。时间预算T可以在所有循环遍历上是恒定的，或者可以在每次循环遍历之后被增加、尤其是倍增。时间预算是可用于应用其他策略和更新初始化的策略的时间。因此，时间预算是循环的可能中止条件。时间预算是物理时间，其例如可以通过秒表来测量。附加地或可替代地，时间预算可以借助于计时器（英文：Timer）被预给定，所述计时器优选地集成在计算单元中，其中在所述计算单元上实施该方法。

此外提出，借助于传感器检测机器人的当前状态和/或机器人的周围环境的当前状态，并且根据传感器值借助于所创建的策略来确定用于机器人的控制参量。

应当注意的是，该策略不仅可以被创建和使用用于控制机器人，而且可以被创建和使用用于控制至少部分自主的机器、至少部分自主的车辆、工具、工厂机器（Werkmaschine）或诸如无人机的飞行物体。

在本发明的另一方面中，提出经训练的神经网络的应用，以便根据神经网络的所确定的输出信号为机器人提供用于操控的操控信号，其中根据第一方面通过神经网络实现所创建的策略。输出信号对应于所创建的策略确定的行动。所创建的策略优选地表征神经网络的参数化。

在另一方面中，提出一种计算机程序。计算机程序被设立用于实施前述方法之一。该计算机程序包括指令，其中当计算机程序在计算机上运行时，所述指令促使计算机实施具有其所有步骤的这些所提及的方法之一。此外提出一种机器可读存储模块，在其上存储有计算机程序。此外，提出了一种设备，所述设备被设立用于实施方法之一。

附图说明

上述方面的实施例在所附的附图中示出并且在随后的描述中更详细地予以阐述。在此：

图1示出机器人的示意图；

图2示出第一伪代码的示意图；

图3示出第二伪代码的示意图；

图4示出用于实施伪代码的设备的示意图。

具体实施方式

图1示出机器人（10）的示意图。机器人（10）被设立用于独立地通过探索其环境（11）、适宜地通过与其环境（11）交互来学习策略（英语：policy）。根据该策略和所检测的传感器参量（x），包括该策略的决策模块（14）确定最佳行动（a）。在一个实施例中，该策略以神经网络的参数（θ）的形式存放在存储器P中。决策模块（14）包含该神经网络，所述神经网络根据所检测的传感器参量（x）确定行动（a）。该神经网络的架构可以例如是在开头引用的现有技术文献中描述的架构。借助于传感器（13）检测传感器参量（x）。为此，该传感器检测机器人（10）的环境（11）的状态（12）。可以根据行动（a）操控机器人（10）的执行器（15）。通过由执行器（15）实施行动（a），环境（11）的状态（16）改变。行动（a）的实施可以用于探索环境（11）或用于解决可预给定的任务或实现可预给定的目标。

机器人（10）此外包括计算单元（17）和机器可读存储元件（18）。计算机程序可以存储在存储元件（18）上，所述计算机程序包括命令，当在计算单元（17）上实施所述命令时，所述命令导致借助于计算单元（17）运行机器人（10）。

应当注意的是，机器人（10）也可以是至少部分自主的车辆、无人机或生产型机床/工厂机器。

图2示例性地示出用于为机器人（10）创建策略的方法“规范进化策略（CanonicalEvolution Strategy）, ES）”的伪代码。

在伪代码的开始，必须预给定初始策略θ₀、时间预算T、最大情节长度E、群体大小（Populationsgröße）λ、母群体大小μ和变异步长（Mutationsschrittgröße）σ以及总奖励函数F(∙)。初始策略θ₀优选地是以下参量，所述参量是神经网络的参数。初始策略可以随机地初始化。

在伪代码的开始，在第1和第2行中关于母群体大小μ实施第一循环，用以确定常数w_j。

接着在第4至11行中通过第二循环对策略进行优化。

一直实施第二循环，直到时间预算T已经被耗尽为止。在第二循环中，通过施加例如随机噪声使初始化的策略θ₀变异。接着，在第7行中借助于总奖励函数F评价变异的策略的性能。总奖励函数F可以是在具有情节长度E的情节（Episode）上的累积奖励（英文：cumulative reward）。

然后，在第9行中根据策略的所获得的总奖励s_i以降序布置所述策略。在之后的第10行中，根据top-μ策略更新该策略，所述top-μ策略分别用常数w_j加权。

接着作为最终策略输出或者使用更新的策略，用于重新实施第二循环。第二循环的重新实施可以任意经常地被重复，直至满足可预给定的中止准则。可预给定的中止准则例如可以是策略的变化小于可预给定的阈值。

图2示例性地示出用于在ES的实施期间动态地适配时间预算T和情节长度E的方法的伪代码。

为此，初始预给定情节调度器（Episodenplaner）（episode scheduler）、时间调度器（time scheduler）和迭代次数N。

在第二伪算法的第1行中，通过从正态分布进行采样来初始化策略θ₀。接着在迭代次数N上从第2行开始至第6行实施循环。首先，根据当前迭代n，通过情节调度器确定最大情节长度E，并且可选地通过时间调度器确定最大时间预算T。随后，利用这两个所确定的参量E和/或T实施方法ES。

在每个所实施的循环遍历之后，情节调度器可以使情节长度E倍增：

。初始情节长度E（0）可以是小于用于实现目标所需要的预期步骤数量的值。可替代地，可以将初始情节长度E（0）除以可预给定的值、例如2。可替代地，可以通过蒙特卡洛模拟来确定初始情节长度E（0）。

例如，时间调度器可以随着所实施的循环遍历次数的增加而递增地提高时间预算T，例如：

。例如，值κ可以对应于20分钟。可替代地，时间调度器可以对于每个循环遍历使时间预算T保持恒定，例如T可以等于1小时。

情节调度器和/或时间调度器的优点是，首先在短情节上学习策略，然后使用所述策略用于在较长情节期间更有效地解决更复杂的任务。因为在短情节上学习到的策略知识可以被再使用用于解决较长的情节。时间调度器的优点是，可以高效地将总体可用的时间预算分解成用于各个情节长度的部分时间。

图4示出用于训练决策模块（14）、尤其是用于实施根据图2或3的伪代码的设备（40）的示意图。设备（40）包括训练模块（41），所述训练模块（41）例如模拟环境（11）并且输出总奖励F。于是，适配模块（43）更新策略并且将更新的策略存储在存储器P中。

Claims

1.一种用于为代理创建策略（英文：policy）使得当所述代理、尤其是机器人（10）以情景方式根据所述策略实施行动（a）时实现可预给定的目标的方法，所述方法包括以下步骤：

初始化所述策略θ₀和情节长度（英文：episode length）E；

多次实施具有以下步骤的循环：

根据所述策略θ₀创建多个其他策略；

对于分别至少一个具有情节长度E的情节应用所述多个其他策略；

分别确定总奖励（英语：cumulative reward）s_i，所述总奖励在应用相应的其他策略时被获得；

根据已获得最大总奖励的可预给定数量的其他策略来更新所述策略θ₀；

其特征在于，在每次实施循环之后，使所述情节长度E增加。

2.根据前述权利要求中任一项所述的方法，其特征在于，附加地初始化时间预算（英文：time budget）T，

其中仅只要存在所述时间预算T的剩余时间，就实施所述循环。

3.根据权利要求2所述的方法，其特征在于，在每次实施所述循环之后，增加所述时间预算T。

4.根据前述权利要求中任一项所述的方法，其特征在于，所述情节长度E初始被设置为小于用于实现所述可预给定的目标的行动的预期数量的值。

5.根据权利要求4所述的方法，其特征在于，通过蒙特卡洛模拟确定所述行动的预期数量。

6.根据前述权利要求中任一项所述的方法，其特征在于，根据所述其他策略的所获得的总奖励s_i以降序对所述其他策略进行排序，并且分别借助于分配给该顺序中的相应位置的第二可预给定的值w来对所述其他策略进行加权。

7.根据前述权利要求中任一项所述的方法，其特征在于，借助于传感器来检测所述代理、尤其是机器人（10）的当前状态、和/或所述代理的周围环境的当前状态，其中根据传感器值，借助于根据前述权利要求中任一项所创建的策略提供用于所述代理、尤其是所述代理的执行器的控制参量。

8.经训练的神经网络的应用，用于根据输送给所述神经网络的所述代理的当前状态和/或所述代理的周围环境的当前状态提供与所创建的策略相对应的行动（a），其中，通过所述神经网络根据权利要求1至6中任一项实现所创建的策略，其方式是所述神经网络从输送给所述神经网络的状态中提供与所述策略相对应的行动（a）。

9.一种计算机程序，包括命令，当所述计算机程序由计算机实施时，所述命令促使所述计算机实施根据权利要求1至6中任一项所述的方法。

10.一种机器可读存储元件（18），其上存储有根据权利要求8所述的计算机程序。

11.一种设备（17），所述设备被设立用于实施根据权利要求1至6中任一项所述的方法。