CN110488807A

CN110488807A - 用于运行机器人的方法、机器人和多智能体系统

Info

Publication number: CN110488807A
Application number: CN201910401787.5A
Authority: CN
Inventors: M.布尔格; P.C.席林格
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-05-15
Filing date: 2019-05-14
Publication date: 2019-11-22
Anticipated expiration: 2039-05-14
Also published as: JP2019200792A; US20190351542A1; US11198214B2; JP7391535B2; DE102018207539A1

Abstract

用于运行机器人的方法、机器人和多智能体系统。本发明涉及用于运行具有多个机器人的多智能体系统的方法，其中每个机器人循环地实施如下方法：从当前系统状态开始确定可能的选项，其中选项限定行动，通过行动能够实现从当前系统状态到随后的系统状态的转变；针对可能的选项中的每个确定用于执行通过该选项说明的行动的行动成本；执行竞拍，其中针对每个选项所确定的行动成本值被其余机器人中的每个考虑；以及实施对应于所述选项中的一个的行动，该实施与针对有关的选项所确定的或所接收的所有成本值相关，其中行动成本针对确定的选项分别考虑经验参数，该经验参数与所述多个机器人的过去的已经被执行的被分配给所述确定的选项的行动的成本相关。

Description

用于运行机器人的方法、机器人和多智能体系统

技术领域

本发明涉及多智能体系统（Multiagentensysteme），并且尤其用于通过借助合作竞拍方法（Auktionsverfahren）分配任务来控制多智能体系统的机器人的方法。

背景技术

协调机器人团队以共同地完成一项任务尤其在环境条件的不确定性的情况下以及在任务规范（Aufgabenspezifikation）中的时间相关性的情况下是困难的。将任务规范分解成子任务需要分解任务规范的合适的机制，其中尤其用于各个机器人的操作指令由于实际环境的不确定性而不能令人满意地被分配。

为了描绘机器人的各个操作之间的时间相关性，已知描述语言，即所谓的线性时序逻辑（Linear Temporal Logic, LTL），其以LTL规范的形式描绘任务规范。根据LTL规范可以以本身已知的方式导出行动计划、即用于各个机器人的操作指令集。

用于机器人应用的LTL能够实现将时间边界条件集成到概率模型中，尤其具有马尔可夫决策过程（MDP：Markov Decision Processes）。马尔可夫决策过程能够实现描绘包括行动实施的未知的时长和环境中的随机事件在内的不确定性。

为了在LTL任务规范的不确定性的情况下创建操作指令，可以设置针对单个机器人的规划，该机器人将任务规范的自动机表示与马尔可夫决策过程组合。也可以针对各个机器人规划操作指令，以便使LTL任务描述的利用最大化。

为了使多个机器人与特定的模型无关地协调，一般已知竞拍方法。P.Schillinger等人的“Auctioning over Probabilistic Options for Temporal Logic-Based Multi-Robot Cooperation under Uncertainty”（IEEE InternationalConference on Robotics and Automation，2018年）公开了一种用于协调机器人团队来完成一项共同的任务的方法。在此，时间相关性和环境的不确定性可以被考虑。所示出的方法能够实现在任务实施期间考虑不确定性和观测，其方式是借助竞拍方法来执行任务分配。

目前，有效的用于在非确定性环境中协调多智能体系统的机器人以解决具有时间上相关的规范的任务的规划算法是未知的。

发明内容

根据本发明提供一种根据权利要求1所述的用于运行多智能体系统中的机器人的方法以及根据并列权利要求所述的机器人和多智能体系统。

其他设计方案在从属权利要求中予以说明。

根据第一方面提供一种用于运行具有多个机器人的多智能体系统的方法，其中所述机器人中的每个循环地实施如下方法：

- 从当前的系统状态开始，确定可能的选项，其中所述选项限定行动，通过所述行动可以实现从当前的系统状态到随后的系统状态的转变；

- 针对所述可能的选项中的每个选项，确定用于执行通过该选项说明的行动的行动成本；

- 执行竞拍，其中针对每个选项所确定的行动成本值被其余机器人中的每个机器人考虑；以及

- 实施对应于所述选项中的一个选项的行动，该实施与针对有关的选项所确定的或所接收的所有成本值相关，

其中所述行动成本针对确定的选项分别考虑经验参数中的如下经验参数，该经验参数与多个机器人的过去的已经被执行的被分配给所述确定的选项的行动的成本相关。

上述的用于运行具有多个机器人（智能体）的多智能体系统的方法的构思在于，提供确定性有限自动机，该确定性有限自动机限定要由多智能体系统解决的任务规范。所述确定性有限自动机具有多个系统状态，所述系统状态限定一个或多个状态路径，所述状态路径必须被遍历（durchlaufen）以实现任务目标。在该确定性有限自动机中以竞拍方法将状态转变分配给不同机器人。可由机器人实施的状态转变随后被称为选项。

在将要实施的状态转变分配给各个机器人的过程中可以将导致状态改变的子任务作为选项分配给各个机器人。这样的竞拍方法能够实现借助合适的成本函数将子任务分配给如下机器人，所述机器人可以以最小的成本执行有关的子任务。成本函数尤其可以考虑用于执行有关的子任务的时间花费以及利用子任务的执行满足针对系统状态限定的条件的概率。

如果通过子任务满足针对系统状态的系统状态条件，则中断机器人的所有正在进行的子任务并且执行重新的竞拍，其中现在将新的选项分配给机器人。新的选项在此对应于从现在达到的系统状态开始的相关的状态转变。该方法一直被执行，直至达到目标状态。以此方式可以以高效的方式执行多智能体系统中的子任务的分配，其中尤其时间相关性可以以特别有效的方式予以考虑。

通过给所有机器人预先给定确定性有限自动机，所述机器人中的每个机器人都可以分布式地确定其在上级的任务目标方面的选项，其中必须解决复杂性小得多的概率规划问题。通过分散竞拍模式将不同的选项分配给不同的机器人，其中所提出的竞拍算法能够实现机器人执行子任务，所述子任务在时间上与其他子任务相关。在每次完成子任务时，重新执行该方法，使得关于系统状态的知识可以当前予以考虑。

上述的方法此外能够实现直接实施，因为尤其不必事先为机器人分派子任务。总体上，在有不确定性的系统环境中协调多个机器人的分散方法使得能够实现例如线性时序逻辑（LTL）、尤其共同安全 LTL形式的预先给定的任务规范。

上述的方法以有效的方式能够实现，尤其在环境条件的不确定性的情况下，使多智能体系统的补充协调。这尤其适用于如下规范，所述规范包含时间逻辑，该时间逻辑应由机器人的整个团队处理。为此，自动地将任务规范的子任务分配给机器人。系统环境的条件也可以通过定期地更新所规划的操作指令加以考虑，使得机器人可以灵活地与不确定性适配。

此外，对应于所述选项中的一个选项的行动可以在针对该对应的选项确定自己的成本值时被实施，该成本值说明针对该对应的选项所接收的所有成本值的最低的成本。

也可以规定，没有对应于所述选项中的一个选项的行动在针对所述选项中的任何一个都未确定自己的成本值时被实施，该成本值说明针对该对应的选项所接收的所有成本值的最低的成本。

此外，当有关的机器人的物理开始状态的分配通过要实施选项的行动开始时，经验参数可以与该分配相关。

根据一种实施方式，经验参数可以通过求解最短路径问题来确定。

可以规定，经验参数在与选项相关的行动结束时被更新，其方式是：确定用于通过有关的机器人实施所述行动的成本，并且根据所确定的成本并且尤其根据适配参数来适配经验参数，该适配参数尤其针对更高的k减小。

可以规定，成本值针对选项根据用于实施被分配给该选项的行动的时长和/或在实施被分配给该选项的行动时该选项导致的用于达到系统状态的状态条件的概率来确定。

尤其，在实施被分配给该选项的行动时达到用于达到系统状态的状态条件的概率可以在实施该行动期间被更新。

根据一种实施方式，当不存在如下可能性：可以通过满足随后的系统状态的条件达到先前的系统状态中的一个系统状态时，可以实现沿着确定性有限自动机的系统状态的路径的前进，其中尤其将前进水平分配给系统状态，所述前进水平说明沿着确定性有限自动机的系统状态的路径的前进。

可以规定，当行动被结束时，将所达到的系统状态传送给其余机器人。

可以规定，当接收到关于达到随后的系统状态的信息时，中断或结束行动的实施。

此外，针对每个选项所确定的成本值可以通过由其余机器人中的每个机器人显式地传达成本来提供。

根据另一方面，提供一种用于运行多智能体系统的机器人，其中所述机器人被构成用于循环地实施如下步骤：

根据另一方面，提供一种多智能体系统，其具有上述的机器人中的多个机器人。

附图说明

随后按照所附的附图更详细地解释实施方式。

图1示出多智能体系统的机器人的示意图；

图2示出确定性有限自动机的图示；

图3示出循环有限自动机的图示；

图4示出用于阐明用于运行多智能体系统以解决给定任务的任务规范的方法的流程图；以及

图5示出布置在系统环境中的具有两个可移动的机器人的多智能体系统的示例。

具体实施方式

随后描述一种方法，利用该方法在多智能体系统中进行描述，在该多智能体系统中多智能体被设置为与环境相互作用的机器人。机器人1具有如在图1中示意性地示出的配置。机器人1为此分别包括被构成用于实施子任务的控制单元2。为了与其他机器人1通信，所述机器人1中的每个此外具有通信装置3，以便将信息传输到其他机器人1并且从这些机器人接收信息。

机器人1可以借助执行器4与系统环境相互作用。执行器4例如可以包括前进执行器、抓取执行器等等，其根据分配给该机器人1的子任务以本身已知的方式被运行。由此，机器人1尤其可以前进、拿起和放下对象等等。

此外，可以借助传感器5检测环境状态。传感器5例如可以包括摄像机、可用于对象探测的其他传感器、诸如超声传感器等等。借助摄像机可以识别和标识如下对象的位置，可以/应与所述对象相互作用，并且能够实现在系统环境之内前进，其中为障碍物的对象被绕行。

此外，机器人1可以配备有交互装置6、诸如触摸显示器或语音输入/输出装置，以便与环境的对象或人员以通信的方式相互作用。以此方式，人员可以在机器人1处进行输入并且获得信息。

随后描述的方法的出发点是线性时序逻辑（LTL）、尤其共同安全线性时序逻辑（co-safe Linear Temporal Logic，scL TL）形式的任务规范。该线性时序逻辑是用于要解决的任务的任务规范的描述语言，其具有时间模态。每个scLTL任务规范可以被翻译成确定性有限自动机（DEA）。

这样的确定性有限自动机（DEA）示例性地在图2中示出。该图示出系统状态（q1-q10），所述系统状态包含起始状态11（q1）、多个中间状态12（q2-q9）和一个或多个目标状态13（q10）。在用于示出确定性有限自动机的图表中，箭头示出从起始状态11（q1）沿着一个或多个路径到目标状态13（q10）的状态转变。当满足被分配给有关的系统状态的状态条件时，达到系统状态。从起始状态11到目标状态13的系统状态通过沿着路径的前进来达到。如果从一个系统状态到接着的系统状态不存在返回路径的可能性，那么实现沿着路径之一的前进。沿着该路径的前进通过前进水平、尤其上升的前进水平来说明。

图3示出具有系统状态q0-q4的循环有限自动机的示意图，该循环有限自动机适合于描述重复的循环任务。该循环有限自动机可以是有限自动机的一部分或是该有限自动机。循环有限自动机的特色尤其在于，当已达到了目标状态（q4）13时，该目标状态被复位到先前的状态、例如开始状态（q0）11。除非在下文中另作说明，术语“确定性有限自动机”和“循环有限自动机”对于所描述的方法而言可以等同地来理解。所示出的循环有限自动机对应于如下LTL公式：

。

随后描述一种用于在循环有限自动机中将选项分配给各个机器人1的方法。在确定性有限自动机的非循环部分中选项的分配可以根据相同的或与此不同的方法来执行。

用于运行多智能体系统的方法的前提是，每个机器人1能够与其余机器人1中的每个机器人通信，并且使每个机器人1知道循环有限自动机DEA。随后的结合图4所示出的方法描述在所述机器人1中的一个机器人中的流程，其中该方法原则上并行地在所述机器人1中的每个机器人中被实施。

首先在步骤S11中从确定性有限自动机中的当前状态开始、尤其在首次遍历时从起始状态11开始确定所有可能的选项。所述选项（被示出为从所设置的（当前）系统状态/机器人状态到可能的随后的系统状态/机器人状态的状态转变）是达到确定性有限自动机的下一可能的系统状态的可能性。

现在在步骤S12中针对在步骤S11中确定的所有可能的选项确定行动成本AK。行动成本AK例如可以与用于实施有关的机器人1的相应的选项的时长D相关。此外，行动成本AK在具有不确定性的系统环境中可以考虑概率。所述概率分别说明如下概率，在通过有关的机器人1实施有关的选项时以该概率满足用于随后的系统状态的状态条件。适用于直接成本：K:K=D(s)*p(s)（其中D(s)是所估计的用于在如下条件下实施选项的时长：实施在物理状态s中结束，和p是满足在该状态s中的有关选项的状态条件的概率，关于所有状态s求和）。此外，成本K可以考虑已经被分派给系统的其他机器人的成本。

此外，在计算选项的行动成本AK时考虑经验参数V，其中AK=K+V。经验参数V能够实现在执行选项时将先前的成本考虑为经验值，可以通过由有关的选项限定的行动的直接成本K修正。

循环有限自动机的情况通过观测之前实现的在相同的当前的和随后的系统状态之间的状态转变（即相同的状态转变）能够实现这一点，能够更好地估计用于通过确定的机器人1实施选项的成本。尤其考虑经验参数V，其方式是：为每个系统状态分配经验参数V的值，该值说明，变换到确定的系统状态是多有利的。

下面更详细地描述经验参数V的确定。

在步骤S13中，将这样确定的成本现在针对有关的机器人1的可能的选项中的每个选项传达给所有其余机器人1。因此，在所有机器人1中存在关于所述选项中的每个选项的成本的信息。

在步骤S14中，现在针对每个可能的系统状态确定最小的行动成本，所述系统状态可以通过自己确定的或从其他机器人1获得的选项中的一个选项达到。

紧接着，在步骤S15中在所述机器人1中的每个中检查，针对可通过选项达到的中间状态，自己的成本是否是关于所有所提供的成本的最小成本。如果情况如此（替代地：是），则将（具有最低成本的）有关的选项分配给有关的机器人1（该机器人已确定了这一点）并且转化成用于达到通过该选项说明的系统状态的操作指令。紧接着，利用步骤S16继续该方法。

在步骤S16中，相应地立即开始实施操作指令。

在步骤S17中，在每个机器人1中检查，通过自己的行动是否满足了状态条件，或是否从所述机器人1中的另一机器人接收了关于状态条件的满足的对应的信息。如果情况不是如此（替代地：否），则跳回到步骤S17，否则（替代地：是），则跳转到步骤S19。

在步骤S19中，检查，是否已达到了例如说明终止条件的所限定的目标系统状态。如果情况如此（替代地：是），则结束该方法。否则，跳回到步骤S11。

如果在步骤S15中针对所述选项中的每个选项确定：所述选项中没有一个选项能够以最小成本实施（替代地：否），则以步骤S18继续该方法。

在相同的最小成本的情况下，也许多个机器人1可能同时选择所述选项中的一个选项并且同时执行对应的操作指令。通过分配过程，为每个机器人1要么分配一个选项，该机器人根据该选项可以实施操作指令，要么每个机器人保持不活动。

在步骤S18中，在竞拍期间机器人1可以采用将来的状态，以便规划操作指令，所述机器人可以跟随所述操作指令，以便为任务提出的将来的部分作准备。这应通过如下方式进行：确保对这些操作指令的跟踪并不妨碍或违反当前的选项的子任务的执行。因此，为了将选项分配给未被分配的机器人1考虑其他选项，所述其他选项包含并非作为先决条件的被实施的选项的结果。

由于环境的不确定性，事先不清楚的是，子任务的实施将如何继续。因此，机器人1可以在实施期间以如下两种方式更新机器人的操作指令：

1.当机器人1的选项被结束时，更新每个其他机器人1的当前的状态。因为由此改变每个机器人1的状态，所以中断之前实施的操作指令。

2.考虑通过机器人1在实施期间收集的知识。由此，可以适配事件概率，所述事件概率说明可以观测到确定的事件。更新的概率被传达给所述机器人1中的每个机器人并且在确定各个选项的成本时加以考虑。

在任务实施期间，每个机器人1循环地实施该方法，其中关注循环有限自动机的共同的系统状态以及自己的机器人状态。从这些状态开始，所述机器人1中的每个机器人实施上面所描述的方法，以便确定下一选项。因为仅仅允许实施首先所分配的选项并且没有采用可预期的前进的选项违反在当前的状态中的LTL任务提出，所以添加所谓的等待行动。在此，针对每个可能的行动根据要遵循的操作指令检查：目标状态之一是否违反当前的系统状态的循环条件。循环条件限定在相应的系统状态中有效的规则或安全规程。如果情况如此，则相应的行动被等待行动代替，该等待行动确保：有关的机器人1保持在相应的状态中并且因此不能够违反循环条件。

每个机器人1于是实施其选项，其方式是：遵循所确定的操作指令。当第一机器人1达到目标状态时，将中断信号发送给所有其他机器人1，以便终止其当前的行动。同时，下一迭代q_k+1的系统状态被设置到相应的选项的目标状态q'上并且在机器人1中间同步。尤其在使用循环有限自动机的情况下，每当达到目标状态13时，将系统状态设定到起始状态11上。

经验参数V根据随后的计算来更新，其中持续时间d_k通过测量为了实施迭代k所需的时长来确定。

为此，经验参数V和Q函数在机器人1中间被共享并且分别通过如下机器人1来更新，该机器人结束其要实施所分配的选项的行动（seine einer zugeordneten Optionauszuführende Aktion）。为此，在机器人1之间传送对应的信息。

选项分配在中断之后重新被实施并且紧接着的选项被选择。该协调允许机器人1关注随机动力学并且根据需求适配其任务分配。

随后描述如何确定经验参数V：

在上述的竞拍过程中，每个机器人1针对所有可用的选项计算尤其实施时长d和分配给有关的选项的行动的目标状态的经验参数V形式的成本K。虽然实施时长d对应于等待以为了实施选项而从当前机器人状态开始到达有关的选项的最终状态的时长，但由此未描绘在具有多个机器人的系统中物理系统状态的随机性。该随机性通过如下方式产生：在由不同的机器人同时实施通过选项所说明的行动时这些机器人在由所述机器人中的一个机器人达到目标状态时可能处于行动的实施中，所述行动随后立即被结束或中断。由于这些其余机器人1的这样产生的不确定的中间状态，只能不精确地确定用于随后的竞拍的这些机器人的紧接着的行动的行动成本。

因此，当应考虑随机性时，可以仅仅通过以估计方式考虑经验参数V来确定具有最低成本的选项。当分配通过要实施选项的行动开始时，经验参数V与有关的机器人1的物理的开始状态的分配相关。

分配通过在重复实施该任务期间所观测到的开始状态来描绘，并且经验参数V因此可以经由逻辑状态描绘长期成本。由此可以通过求解最短路径问题确定选项的任何目标状态。

用于在循环有限自动机中实施转变的持续时间因此对应于具有期望值的选项o的持续时间

。

用于该最短路径问题的贝尔曼方程对应于

，

其中边界条件V*(q)=0和q'对应于选项o的逻辑目标状态，其中O(q)说明从循环有限自动机的系统状态开始可能的选项的集合。在该方案中，持续时间是未知的，并且V*可以仅仅通过观测实际实施的行动的实施持续时间来确定。

借助描绘在系统状态q中在实施通过选项o说明的行动时近似的经验成本的Q函数，可以针对循环有限自动机的所有系统状态和在该系统状态中可用的选项从

导出用于迭代k的所估计的经验参数V_k。

因此，始终在与选项相关的行动结束时，确定用于通过有关的机器人实施行动的成本或时长，并且根据

更新Q函数。α_k对应于适配参数，该适配参数对于更高的k可以减小。

在图5中示出了多智能体系统的场景的示例，之前所描述的方法可以有利地应用于该多智能体系统。在该多智能体系统中，可移动的机器人R1、R2、R3应实施任务。目标在于，在图5中所示出的地图上应实施如下的目标规范：

所述地图通过不同的标签“红（red）”、“蓝（blue）”、“黄（yellow）”和“绿（green）”示出目标位置的集合。

该目标可以要么通过提供到目标位置“红”并且随后到目标位置“蓝”要么通过首先到目标位置“黄”并且随后到目标位置“绿”来实现。要提供的对象可以从位置p1和p2被拿起。此外，当机器人实施交付时，机器人可能被损坏，并且当该机器人被损坏时，没有其他对象可以被拿起。被损坏的机器人1可以在位置“站（station）”中被维修。

由于竞拍分配（Auktionszuordnung）的分散方案，上述的方法可以被应用于具有任意数量的机器人1的多智能体系统，其中任务的实施时间能够通过添加其他机器人1来缩短。

Claims

1.一种用于运行具有多个机器人（1）的多智能体系统的方法，其中所述机器人（1）中的每个机器人循环地实施如下方法：

- 从当前的系统状态（q1-q10）开始，确定（S11）可能的选项，其中所述选项限定行动，通过所述行动能够实现从当前的系统状态到随后的系统状态（q1-q10）的转变；

- 针对所述可能的选项中的每个选项，确定（S12）用于执行通过该选项说明的行动的行动成本；

- 执行（S14，S15）竞拍，其中针对每个选项所确定的行动成本值被其余机器人（1）中的每个机器人考虑；以及

- 实施（S16）对应于所述选项中的一个选项的行动，该实施与针对有关的选项所确定的或所接收的所有成本值相关，

其中所述行动成本针对确定的选项分别考虑经验参数（V），该经验参数与所述多个机器人的过去的已经被执行的被分配给所述确定的选项的行动的成本相关。

2.根据权利要求1所述的方法，其中对应于所述选项中的一个选项的行动在针对该对应的选项确定自己的成本值时被实施，该成本值说明针对该对应的选项所接收的所有成本值的最低的成本。

3.根据权利要求1或2所述的方法，其中没有对应于所述选项中的一个选项的行动在针对所述选项中的任何一个都未确定自己的成本值时被实施，该成本值说明针对该对应的选项所接收的所有成本值的最低的成本。

4.根据权利要求1至3中任一项所述的方法，其中，当有关的机器人（1）的物理开始状态的分配通过要实施所述选项的行动开始时，所述经验参数（V）与该分配相关。

5.根据权利要求1至4中任一项所述的方法，其中通过求解最短路径问题来确定所述经验参数（V）。

6.根据权利要求1至5中任一项所述的方法，其中所述经验参数（V）在与选项相关的行动结束时被更新，其方式是：确定用于通过有关的机器人（1）实施行动的成本并且根据所确定的成本并且尤其根据适配参数来适配所述经验参数（V），该适配参数尤其针对更高的k减小。

7.根据权利要求1至6中任一项所述的方法，其中所述成本值针对选项根据用于实施被分配给该选项的行动的时长和/或在实施被分配给该选项的行动时该选项导致的用于达到所述系统状态（q1-q10）的状态条件的概率来确定。

8.根据权利要求7所述的方法，其中在实施被分配给选项的行动时达到用于达到所述系统状态（q1-q10）的状态条件的概率在实施该行动期间被更新。

9.根据权利要求1至8中任一项所述的方法，其中当行动被结束时，将所达到的系统状态（q1-q10）传送给其余机器人（1）。

10.根据权利要求1至9中任一项所述的方法，其中，当接收到关于达到随后的系统状态（q1-q10）的信息时，中断或结束行动的实施。

11.根据权利要求1至10中任一项所述的方法，其中，针对每个选项所确定的成本值通过由其余机器人（1）中的每个机器人显式地传达成本来提供。

12.一种用于运行多智能体系统的机器人（1），其中所述机器人（1）被构成用于循环地实施如下步骤：

13.一种多智能体系统，其具有多个根据权利要求12所述的机器人（1）。

14.一种计算机程序，其具有程序代码装置，所述程序代码装置被设立用于当所述计算机程序在计算机单元、尤其机器人（1）上被实施时实施根据权利要求1至11中任一项所述的方法。

15.一种机器可读的存储介质，其具有存储于其上的根据权利要求14所述的计算机程序。