CN113490578A

CN113490578A - 运行多智能体系统中的机器人的方法、机器人和多智能体系统

Info

Publication number: CN113490578A
Application number: CN202080019329.6A
Authority: CN
Inventors: M·比格尔; P·C·席林格
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-03-08
Filing date: 2020-03-03
Publication date: 2021-10-08
Anticipated expiration: 2040-03-03
Also published as: US20220055217A1; US11986966B2; DE102019203214B4; DE102019203214A1; CN113490578B; WO2020182541A1

Abstract

本发明涉及一种用于运行具有多个机器人（1）的多智能体系统的方法，其中所述机器人（1）中的每个机器人都循环地执行下列方法：‑以目前的系统状态（q1‑q10）为出发点，确定（S11）可能的选项，其中所述选项限定了通过其能够实现从当前的系统状态至随后的系统状态（q1‑q10）的转移的行动；‑针对可能的选项中的每个可能的选项，确定（S12）用于执行通过所述选项说明的行动的行动成本；‑执行（S14，S15）拍卖，其中由其余机器人（1）中的每个机器人来考虑针对每个选项所确定的行动成本值；以及‑根据所有对于有关选项所确定的或者接收到的成本值，执行（16）与所述选项中的一个选项相对应的行动，其中针对确定的选项的行动成本分别考虑经验参数，所述经验参数取决于多个机器人的针对过去的行动的成本，所述过去的行动已经被执行并且与确定的选项关联。

Description

运行多智能体系统中的机器人的方法、机器人和多智能体系统

技术领域

本发明涉及多智能体系统，并且尤其是涉及用于通过借助协同拍卖方法（Auktionsverfahrens）分配任务来控制多智能体系统的机器人的方法。

背景技术

尤其是在环境状况存在不确定性的情况下以及在任务规范（Aufgabenspezifikation）中存在时间相关性的情况下，协调机器人团队来共同地完成一项任务是困难的。将任务规范分解成子任务要求合适的机制，其中尤其是由于真实环境的不确定性，不能令人满意地关联针对各个机器人的操作指令。

为了描绘在机器人的各个操作之间的时间相关性，已知一种描述语言、即所谓的线性时序逻辑（LTL，Linear Temporal Logic），所述描述语言以LTL 规范的形式描绘任务规范。从LTL规范中，可以以本身已知的方式导出行动计划、也就是说针对各个机器人的操作指令的集合。

针对机器人应用的LTL能够实现，尤其是利用马尔可夫决策过程（MDP：MarkovDecision Processes），将时间边界条件集成到概率模型中。利用马尔可夫决策过程，可以描绘包括执行行动的未知的持续时间和环境中的随机事件在内的不确定性。

为了在针对LTL任务规范的不确定性的情况下创建操作指令，可以设置针对如下单个机器人的规划：该单个机器人将任务规范的自动机表示（Automatenrepraesentation）与马尔可夫决策过程组合。也可以规划针对单个机器人的操作指令，以便使LTL任务描述的使用最大化。

为了与特定模型无关地协调多个机器人，通常已知的是拍卖方法。P.Schillinger等人的“Auctioning over Probabilistic Options for Temporal Logic-Based Multi-Robot Cooperation under Uncertainty”（IEEE InternationalConference on Robotics and Automation，2018年）公开了一种用于协调机器人团队来完成一项共同任务的方法。在此，可以考虑时间相关性和环境的不确定性。所示出的方法使得能够，通过借助拍卖方法来执行任务分配，在任务执行期间考虑不确定性和观测。

目前，有效的用于在非确定性环境中协调多智能体系统的机器人以解决具有在时间上相关的规范的任务的规划算法不是已知的。

发明内容

根据本发明，设置了一种根据权利要求1所述的用于运行多智能体系统中的机器人的方法，以及设置了根据并列独立权利要求所述的一种机器人和一种多智能体系统。

其他构建方案在从属权利要求中予以说明。

根据第一方面，设置了一种用于运行具有多个机器人的多智能体系统的方法，其中要执行通过一系列系统状态来限定的预先给定的任务（Mission），其中所述机器人中的每个机器人都循环地执行下列方法：

- 执行一个或者多个拍卖回合，其中在每个拍卖回合中都执行下列步骤：

○ 以所观测的系统状态为出发点，确定可能的选项，其中这些选项限定了如下行动：通过所述行动，可以实现从所观测的状态到后续状态的转移；

○ 对于可能的选项中的每个可能的选项，确定用于执行通过该选项说明的行动的行动成本；

○ 向其余机器人提供针对所述选项中的每个选项所确定的行动成本，并从其余机器人接收针对选项执行中的每个的行动成本，

○ 执行拍卖，使得根据与有关选项关联的行动成本来关联选项；

- 根据所有对于有关选项所确定的或者接收到的行动成本，执行通过所关联的选项来说明的行动，这对应于所述选项中的一个或者多个，

其中行动成本考虑针对所观测的选项所估计的任务成本，其中根据用于达到当前系统状态的成本、根据经验成本和根据用于执行所观测的选项的成本，确定任务成本，所述经验成本说明用于以通过该选项可达到的后续状态为出发点来达到该任务的目标状态所估计的成本。

上述用于运行具有多个机器人（智能体）的多智能体系统的方法的思想在于，提供确定性有限自动机，该有限自动机限定了要由多智能体系统解决的任务规范。确定性有限自动机具有多个系统状态，所述系统状态限定了一个或者多个状态路径，必须遍历这些状态路径，以达到任务目标。在这个确定性有限自动机中，导致实现状态转移的行动在拍卖方法中与不同的机器人关联。沿着状态路径之一在系统转移之间的可由机器人执行的状态转移随后被称为选项。

在将要执行的状态转移关联到各个机器人的过程中，可以使导致状态变化的子任务作为选项与各个机器人关联。这种拍卖方法使得能够，借助针对整个任务成本的适合的成本函数，使子任务与如下那些机器人关联：所述机器人能够以最低成本执行有关子任务。尤其是，成本函数可以考虑用于执行有关子任务的时间开销，以及可以考虑在执行子任务的情况下满足针对系统状态进行限定的条件的概率，可是也可以考虑另外的标准、如能耗和/或诸如此类。

如果通过执行选项满足了系统状态的系统状态条件，则中断在其余机器人中对所有正在进行中的选项的执行，并执行新拍卖回合，其中新选项现在被分配给多智能体系统的机器人。根据在一个或者多个拍卖回合中的以现在达到的系统状态为出发点的相关的状态转移，确定新选项。执行该方法，一直到达到目标状态。以这种方式，可以以高效的方式来执行对多智能体系统中的选项的分配，其中尤其是时间相关性可以以特别高效的方式予以考虑。

通过向所有机器人预先给定确定性有限自动机，所述机器人中的每个机器人都可以以分布式方式确定他的关于上级任务目标的选项，其中必须解决非常不太复杂的概率规划问题。通过分散式拍卖方案，不同的选项与不同的机器人关联，其中所建议的拍卖算法能够实现，机器人执行在时间上取决于另外的选项的选项。在每次（通过经过执行相对应的选项达到后续状态来）满足状态条件时，重新执行该方法，使得可以及时考虑关于系统状态的知识。

上述方法使得能够，尤其是在环境条件存在不确定性的情况下，以高效的方式来协调多智能体系统。这尤其是适用于包含应由机器人的整个团队处理的时间逻辑的规范。为此，使任务规范的子任务自动地与机器人关联。系统环境的状况也可以通过定期更新所规划的操作指令予以考虑，使得机器人能够灵活地适配不确定性。

此外，如果针对相对应的选项确定了如下行动成本，则可以关联选项，所述行动成本说明了所有针对相对应的选项接收到的行动成本中的最低成本。

根据一个实施形式，可以执行拍卖回合，一直到使至少一个选项与所有机器人都关联。替选地，可以针对最大数目的拍卖回合规定上限，或者可以在有限的时间内执行这些拍卖回合。

可以设置的是，根据任务使用所观测的选项的概率，确定行动成本。

根据一个实施形式，针对第二和进一步的拍卖回合，所观测的系统状态可以对应于在先前的拍卖回合中所观测的选项的后续状态，以确定选项。

可以设置的是，在通过所述机器人之一执行属于所述选项之一的行动时，在达到后续状态时更新经验成本，其方式是：通过有关机器人确定用于执行行动的成本，并且根据所确定的成本和尤其是根据适配参数来适配经验参数。

此外，选项的行动成本可以根据持续时间而被说明，或者被说明为用于执行与所述选项关联的行动的持续时间。

可以设置的是，根据如下状态概率来确定选项的行动成本：在执行与该选项关联的行动时，确定达到该选项通向的后续状态的状态条件。

根据一个实施形式，在执行与选项关联的行动期间，可以更新如下状态概率：在执行该行动时，达到用于达到系统状态的状态条件。

根据其他方面，设置了一种用于运行多智能体系统的机器人，其中要执行通过一系列系统状态限定的所预先给定的任务，其中构造有所述机器人，以便循环地执行下列步骤：

○ 针对所述可能的选项中的每个可能的选项，确定用于执行通过选项说明的行动的行动成本；

- 根据所有对于有关选项所确定的或者接收到的行动成本，执行通过所关联的选项说明的行动，这对应于所述选项中的一个或者多个，

其中行动成本考虑针对所观测的选项所估计的任务成本，其中根据用于达到当前系统状态的成本、根据经验成本和根据用于执行所观测的选项的成本，确定任务成本，所述经验成本说明用于以通过该选项可达到的后续状态为出发点来达到该任务的目标状态的所估计的成本。

根据其他方面，设置了具有上述机器人中的多个机器人的多智能体系统。

附图说明

随后依据附上的附图，更详细地阐述了实施形式。在附图中：

图1示出了多智能体系统的机器人的示意图；

图2示出了确定性有限自动机的图示；

图3示出了循环有限自动机的图示；

图4示出了用于阐明用于运行多智能体系统以解决所说明的任务处的任务规范的方法的流程图；和

图5a-5c示出了针对多个相继的拍卖回合的选项的示例性图示。

具体实施方式

随后，描述了一种方法，利用该方法在如下多智能体系统中予以描述：在所述多智能体系统中，智能体设置为与环境相互作用的机器人。机器人1具有如在图1示意性示出的配置。为此，机器人1分别包括构造用于执行子任务的控制单元2。为了与另外的机器人1进行通信，所述机器人1中的每个机器人此外都具有通信装置3，以便将信息传输至另外的机器人1并且从所述另外的机器人1接收信息。

借助致动机构4，机器人1可以与系统环境相互作用。致动机构4例如可以包括向前行致动机构、抓取致动机构诸如此类，其根据指派给该机器人1的子任务以本身已知的方式运行。由此，机器人1尤其是可以向前行、拿起和放下对象诸如此类。

此外，可以借助传感机构5来检测环境状态。传感机构5例如可以包括摄像机、另外的可用于对象探测的传感机构、如例如超声波传感机构诸如此类。借助摄像机，可以/应与其相互作用的对象的位置可以被识别和被标识，并且在系统环境之内能够实现向前行，其中为障碍物的对象被绕行。

此外，机器人1可以配备有交互装置6、如例如触摸显示器或者语音输入/输出装置，以便与环境的对象或者人员以通信的方式相互作用。以这种方式，人员可以在机器人1处进行输入，并且获得信息。

随后描述的方法的起点是线性时序逻辑（LTL）形式的任务规范，尤其是共同安全线性时序逻辑（scLTL，co-safe Linear Temporal Logic）形式的任务规范。该线性时序逻辑是针对要解决的任务的任务规范的描述语言，其具有时间模态。每个scLTL任务规范都可以被翻译为确定性有限自动机（DEA）。

这种确定性有限自动机（DEA）示例性地在图2中示出。这种确定性有限自动机（DEA）示出了系统状态（进展状态（Fortschrittszustaende））（q1-q10），所述系统状态包含初始状态11（q1）、多个中间状态12（q2-q9）和一个或者多个目标状态13（q10）。如果达到目标状态，则这样多智能体系统的任务就结束。在用于示出确定性有限自动机的简图中，箭头示出从初始状态11（q1）沿着一条或者多条路径至目标状态13（q10）的状态转移。当满足与有关系统状态关联的状态条件时，达到系统状态。通过沿着路径的进展来达到从初始状态11至目标状态13的系统状态。如果从一个系统状态至下一个系统状态不存在返回路径的可能性，那么实现沿着所述路径之一的进展。通过进展水平、尤其是上升的进展水平，说明沿着该路径的进展。

图3示出了具有系统状态q0-q4的循环有限自动机的示意图，所述循环有限自动机适合于描述重复性循环任务。循环有限自动机可以是有限自动机的部分，或者可以是该有限自动机。循环有限自动机的特点例如在于，当已达到目标状态（q4）13时，该循环有线自动机被复位到较早的状态、例如起始状态（q0）11。在下文没有另外说明的地方，术语“确定性有限自动机”和“循环有限自动机”对于所描述的方法可以等同地来理解。所示出的循环有限自动机对应于下列LTL公式：

。

构造有控制单元2，以便通过评估传感机构5和/或通过评估交互装置6中的输入来识别，是否已经达到通过任务规范预先给定的系统状态。

随后描述用于在循环有限自动机中使选项与各个机器人1关联的方法。在确定性有限自动机的非循环部分中的选项的关联可以按照相同的或者偏离于其的方法来执行。

在这方面，选项被理解为机器人的可能的行动，该行动引起自动机从当前系统状态q到后续状态

的转移。如果自动机或系统处于并非目标状态的系统状态q中，则一个或者多个后续状态

是可能的。不同于在完成通过自动机预先给定的（通过任务规范来确定的）任务时说明进展的系统状态，各个机器人的物理状态通过它们的目前的机器人状态（如例如自己的位置）来确定。

针对用于运行多智能体系统的方法的前提条件是：每个机器人1都能够，与其余机器人1中的每个机器人进行通信，并且使每个机器人1都知道循环有限自动机DEA。随后的结合图4示出的方法描述了在机器人1中的一个机器人中在如下任意时间点的流程：该时间点对应于初始状态或者在达到并非目标状态的其他系统状态之后的时间点，其中所述方法原则上在所述机器人1中的每个机器人中并行地被实施。

首先，在步骤S11中，以确定性有限自动机中的目前系统状态q为出发点，尤其是在首次遍历时以初始状态11为出发点，确定所有可能的选项。这些选项（被示出为从所设置的（当前）系统状态q至可能的后续状态

的状态转移）是用于达到确定性有限自动机的接下来的可能的系统状态的可能性。

现在，在步骤S12中，针对在步骤S11中确定的所有可能的选项，确定行动成本AK。行动成本AK例如可以取决于用于实施针对有关机器人1的任务或者一项任务（oder einer）的持续时间。此外，行动成本AK可以在判以不确定性的系统环境中考虑概率。

下面进一步更详细地描述有关选项的行动成本AK的确定。

在步骤S13中，现在针对有关机器人1的可能的选项中的每个选项向所有其余机器人1传达这样确定的成本。因此，在所有机器人1中，存在关于针对所述选项中的每个选项的成本的信息。

在步骤S14中，现在针对每个可能的系统状态，确定最小行动成本AK，所述每个可能的系统状态可以通过自己确定的或者从另外的机器人1获得的选项之一来达到。

紧接着，在步骤S15中，在所述机器人1中的每个机器人中检查，对于可通过选项达到的中间状态，自己的成本是否是关于所有所提供的行动成本AK的最小成本。如果情况如此（替选地：是），则在步骤S18中，使（具有最低成本的）有关选项与有关机器人1（该机器人已查明了这一点）关联，并且该（具有最低成本的）有关选项被转化成用于达到通过该选项说明的系统状态的操作指令。该过程在每个机器人中并行进行，使得使每个机器人都知道其余机器人1的关联。紧接着，该方法以步骤S16继续。如果在步骤S15中查明，对于通过选项可达到的中间状态，自己的行动成本并不是关于所有所提供的行动成本AK的最小成本（替选地：否），则该方法直接以步骤S16继续。

在步骤S16中，现在检查，是否执行其他拍卖回合（索引k）。其他拍卖回合将在之前的拍卖回合中所指派的选项的每个可能的可达到的后续状态（后续系统状态）考虑作为可能的起始状态（起始系统状态）、也就是说通过以前评估的选项可达到的后续状态，并且确定其他待评估的选项连带其相对应的后续状态。这通过图5的示意性示出的拍卖回合来阐明。如果在步骤S16中查明，至少一个选项尚还未指派给所有机器人1和/或后续状态中没有一个对应于目标状态（替选地：是），则执行其他拍卖回合，并且该方法以步骤S11继续。要不然（替选地：否），该方法以步骤S17继续。

在步骤S17中，相对应地立即开始执行通过所关联的选项限定的操作指令。

在步骤S19中，在每个机器人1中都检查，状态条件是否已通过自己的行动得到满足，或者是否从所述机器人1中的其他机器人已接收到关于满足状态条件的相对应的信息。状态条件的满足对应于如下选项的完整执行：该选项已导致达到后续状态

。如果情况不是如此（替选地：否），则跳回到步骤S19，并且要么继续自己的选项，要么等待通过所述机器人1中的其他机器人来满足该状态条件，否则（替选地：是），跳至步骤S20。

在步骤S20检查，是否已达到所限定的目标系统状态，所述目标系统状态例如限定中止条件。如果情况如此（替选地：是），则该方法结束。要不然（替选地：否），在步骤S21中，向其余机器人1传达满足状态条件或选项的完整执行，并且跳回至步骤S11。

如果在步骤S15中针对所述选项中的每个选项都查明没有一个选项可以以最小成本来执行（替选地：否），则该方法以步骤S17继续。

在最低成本相同的情况下，也许可以同时使有关选项与多个机器人1关联，使得所述多个机器人同时执行分别与该选项相对应的操作指令。替选地，有关选项只能与机器人1中的单个的、随机选出的具有最小成本的机器人关联。一般而言，通过具有多个拍卖回合的关联过程，使一个或者多个选项与每个机器人1关联。

在输出执行期间，每个机器人1都循环地执行该方法，其中观测循环有限自动机的公共系统状态q以及自己的机器人状态s。以这些状态为出发点，所述机器人1中的每个机器人都执行上面描述的方法，以便获得一个或者多个选项的指派。

接着，每个机器人1都按照指派的顺序执行与每个机器人关联的选项，其方式是：遵循相对应的操作指令。如果机器人1中的一个机器人达到后续状态，则向所有另外的机器人1发送中断信号（Interrupt-Signal），以便中止这些机器人的目前行动。同时，向其余机器人1传达所达到的系统状态，并开始新的拍卖过程。尤其是在使用循环有限自动机的情况下，每次达到目标状态13，系统状态总是被调整到初始状态11。

如随后所描述的那样，确定每个机器人1用来支付拍卖的行动成本AK。

在假设有关当前机器人1执行当前所观测的选项的行动的情况下，每个机器人1为拍卖确定的行动成本AK对应于直至任务结束（也就是说直至完成任务或达到目标状态）的总成本。总之，针对相继的选项中的每个选项执行多个拍卖，所述选项是至目标状态的路径。

图5相对应地示出了沿着确定性有限自动机的系统状态针对在每个拍卖回合中的迭代进行的行动成本计算的进展。这样，第一拍卖回合的行动成本AK可以通过

来计算，其中q对应于针对第一拍卖回合的初始的系统状态，并且

对应于很可能从选项o的执行中产生的那些系统状态。针对所有拍卖回合的行动成本AK的更一般的形式从：

中得出。

所有成本都可以被说明为直至达到后续状态或目标系统状态的时间说明。当然，成本也可以考虑另外的资源消耗。在此，如果选出了选项o，则方括号中的第一项对应于直至达到相应的后续状态

的预期的执行成本。第一项被计算为如下内容的和：

- 成本D(q)和用于执行所有已经指派给有关机器人1的选项的总（累计）成本d中的最大值，所述成本D(q)也就是说达到分别观测的选项的系统状态q的成本，其中可以应用所观测的选项o。

- 用于以目前的机器人状态

为出发点来执行选项的所估计的成本

。为此，尤其是可以考虑目前状态、如例如机器人1的位置，使得这些成本说明机器人为达到满足该选项的状态条件的机器人状态所估计的开销。

- 经验成本的期望值，所述经验成本对应于由针对所观测的选项的转移概率

和直至达到目标状态

的经验成本

构成的乘积。转移概率的确定。

那么，通过实际上在将来执行选项o的行动的状态概率

，对直至达到目标状态的第一项的成本进行加权。

再者，通过第二项来考虑直至达到目标系统状态的经过加权的成本，所述第二项考虑没有达到状态q和不选择选项o的行动的成本。第二项是所有利用相对应的状态概率

来加权的成本的总和，以经由替选路径中的一个替选路径来结束任务。也就是说，考虑用来达到另外的系统状态

中的一个系统状态而不是q的成本。针对每个系统状态

，所述成本都包含为了达到

的成本

，并且包含经验成本

作为直至达到目标状态的期望的成本。

状态概率

从至接下来的系统状态q的转移概率

、也就是说选项o导致系统状态

的概率中得出。

与选项o导致后续状态

的概率相对应的转移概率

可以如下从每个机器人1的物理模型中被确定。所述转移概率

基于该机器人1可以达到物理目标状态s的集合SA的概率。为此目的，从物理机器人模型的转移概率

和机器人1的所规划的行动

中确定下列所需的变量。概率

说明，从系统的物理状态s达到接下来的物理状态。通过执行一个选项可达到的系统状态称为吸收状态。其余的系统状态称为转移状态。以p_MC为出发点，可以以标准形来描述矩阵：

，

其中Q标明转移状态的集合中的转移概率，并且R标明从转移状态至吸收状态的转移概率。I对应于单位矩阵。那么，基本矩阵N是：

，

其中N表达：如果以转移状态s_i为出发点，则元素N_i,j说明转移状态s_j的预期数目的收入（Einnahmen）。

选项o的要预期的成本取决于在达到吸收状态之前的预期的步骤数目，并且可以利用下式来确定：

，

其中

对应于关于转移状态s的向量，其中

。尤其是，如果以吸收状态为出发点，则成本对应于0。

在选项o结束之后的最后的状态分配、也就是说关于吸收状态的分配对应于

，

其中，

如上对应于关于吸收状态s的向量，其中

。

那么，转移概率对应于：

，

由此确定达到在目标状态s的集合SA中的目标状态之一的总概率。

状态概率

从至接下来的系统状态的转移概率

中得出。对于第一拍卖回合，为

，也就是说对应于以前执行的选项o已导致系统状态q的状态概率。针对接下来的拍卖回合k+1，在选出已“赢得”在前的拍卖回合的选项之后，根据针对所有可能的选项

的转移概率

，如下地更新状态概率

：

。

在更新之后，设置

，因为随后的选项确保，任务并不结束于状态q。

经验成本V基本上说明了如下成本：需要所述成本，以便以确定的系统状态为出发点到达目标状态。V(q)因此说明以目前的系统状态为出发点到达目标状态的成本。

说明以通过选项o确定的后续状态为出发点到达目标状态的成本。尤其是，这些成本可以对应于直至达到目标状态的预期的持续时间。经验成本V难以计算，并且因而建议，借助随后的强化学习过程来确定这些经验成本。

如上面所描述的那样，在相对应的拍卖结束之后，每个机器人1都并行地跟随一个选项，并且已赢得第一拍卖回合的机器人最后结束拍卖o的行动。在选项o结束时，记录有关机器人针对相对应的选项的行动已需要的所需行动成本。强化学习可以被应用于迭代，在这些迭代中，机器人1分别选出接下来的选项，执行该选项，这导致所观测的行动成本（执行持续时间）和后续状态

。

为了从这些观测中导出针对所达到的系统状态q_k的经验成本V，系统状态q_k的经验成本在每次确定行动成本之后如下来更新：

。

具有非负的预先给定的步长参数

和TD误差

。

针对所有q，经验成本

最初被规定到0。在执行每个选项o之后，针对所达到的系统状态q的经验成本V相对应地如下来更新：

。

经验成本可以在机器人1之间显式地被更新。替选地，这些经验成本也可以在所述机器人1中的每个机器人中隐含地通过传送为了执行结束的选项o所需的成本来更新。

针对每个拍卖回合k如下地确定成本D(q)、也就是说达到其中可应用所观测的选项o的初始系统状态q的成本：

。

其中

对应于累积的概率

。

图5a至5c针对示例性自动机图解说明了在相继的拍卖回合、即第一、第二和第三拍卖回合中对选项的观测。

在图5a中，系统状态处于状态q1，以所述状态q1为出发点，两个后续状态q2和q3是可能的。这些状态在相对应的选项o1、o2中被评价。现在，在每个机器人1中评价所有可能的选项 o1、o2，也就是说评价至后续状态q2和q3的可能的转移，而且确定行动成本。在该实例中，现在出发点为，针对o1所确定的行动成本最低，并且系统也选择该选项，以便将它指派给机器人1之一。

图5b示出了该系统的在假设为针对第二拍卖回的基础的情况下的经过更新的模型，以便同样将选项指派给其余机器人1。

转移概率

=0.8和

=0.2分别与在假设已选择了选项o1的情况下在q1与q2之间以及在q1与q3之间的转移关联，其中针对该实例随意选择数值，否则可以从进行执行的机器人1的物理机器人模型中确定所述数值。从这些转移概率中，根据上面描述的行为方式现在得出状态概率

=0.8和

=0.2，现在在计算下列行动成本时将这些状态概率考虑为因子。

行动成本总是考虑针对整个任务估计的成本。也就是说，直至达到相应系统状态的成本、也就是

，针对所观测的选项的成本、也就是

，和针对任务的以通过所观测的选项可达到的后续状态为出发点的其余部分的成本、也就是

。

。

对于第二拍卖回合，参见图 5b，除了状态概率

之外，因此也考虑成本（持续时间）

，以便通过所指派的选项 o1 达到系统状态 q2，以及针对所述机器人的每个机器人r考虑成本

，该成本遵循已经指派给机器人 1的选项。

附加地，针对所有其余的系统状态，确定经过加权的总成本，也就是

，这些系统状态可以从当前系统状态达到，但是其中不能应用相应的所观测的选项。由此，考虑以下情况：不执行所观测的选项，而是替代于此地，实施其余选项之一。这在执行其余选项时通过利用相对应的概率来加权的总任务成本而进行。

在这种情况下，例如，针对从q2向q3的选项o3的行动成本的计算，这意味着，以利用状态概率

=0.8来加权的方式考虑项

，并且附加地以利用

=0.2来加权的方式考虑项

，以便在未达到q2并且因而未激活选项o3的情况下观测任务持续时间。

针对图 5c 中的第三行动回合，那么按照相同的原理更新状态概率

。例如，对于所假设的转移概率

=0.7和

=0.3，在第三拍卖回合中得出针对q₃的新状态概率作为

=0.2+0.8·0.7=0.76，其中第一项0.2 涉及如下情况：直接从q₁出发达到q₃，如已经在第二拍卖回合中所考虑的那样；并且第二项0.8·0.7覆盖如下情况：经由q₂达到q₃。

Claims

1.一种用于运行具有多个机器人（1）的多智能体系统的方法，其中要执行通过一系列系统状态来限定的预先给定的任务，其中所述机器人（1）中的每个机器人都循环地执行下列方法：

○ 以所观测的系统状态（q1-q10）为出发点，确定（S11）可能的选项（o），其中所述选项（o）限定了如下行动：通过所述行动，能够实现从所观测的状态到后续状态（q1-q10）的转移；

○ 针对所述可能的选项（o）中的每个可能的选项，确定（S12）用于执行通过所述选项说明的行动的行动成本（AK）；

○ 向其余机器人提供（S13）针对所述选项中的每个选项所确定的所述行动成本（AK），并且从所述其余机器人接收针对所述选项（o）中的每个选项的所述行动成本（AK）；

○ 执行（S15）拍卖，使得根据与有关选项（o）关联的所述行动成本（AK）来关联选项（o）；

- 根据所有对于所述有关选项（o）所确定的或者接收到的行动成本（AK），执行（S17）通过所关联的选项（o）说明的行动，这对应于所述选项（o）中的一个或者多个，

其中所述行动成本（AK）考虑针对所观测的选项（o）所估计的任务成本，其中根据用于达到当前系统状态、根据经验成本并且根据用于执行所述所观测的选项（o）的成本，确定所述任务成本，所述经验成本说明用于以通过所述选项（o）可达到的后续状态为出发点来达到所述任务的目标状态所估计的成本。

2.根据权利要求1所述的方法，其中，如果针对相对应的选项（o）确定如下行动成本（AK），则执行与所关联的选项（o）相对应的行动，所述行动成本（AK）说明了所有针对所述相对应的选项（o）接收到的行动成本（AK）中的最低成本。

3.根据权利要求1或者2所述的方法，其中，执行拍卖回合，一直到使至少一个选项（o）与所有机器人都关联。

4.根据权利要求1至3中任一项所述的方法，其中，根据所述任务使用所述所观测的选项（o）的转移概率(

)，确定所述行动成本（AK）。

5.根据权利要求1至4中任一项所述的方法，其中，针对第二和进一步的拍卖回合，所述所观测的系统状态（q）与在先前的拍卖回合中所观测的选项（o）的所述后续状态（

）相对应，以确定所述选项（o）。

6.根据权利要求1至5中任一项所述的方法，其中，在通过所述机器人中的一个机器人执行属于所述选项（o）之一的行动时，在达到后续状态（

）时更新所述经验成本（V），其方式是：通过有关机器人（1）确定用于执行所述行动的成本，并且根据所确定的所述成本和尤其是根据适配参数来适配经验参数（V）。

7.根据权利要求1至6中任一项所述的方法，其中，针对选项（o）的所述行动成本（AK）根据持续时间来说明，或者被说明为用于执行与所述选项（o）关联的行动的持续时间。

8.根据权利要求1至7中任一项所述的方法，其中，针对选项（o）的所述行动成本（AK）根据如下状态概率（

）来确定：在执行所述与所述选项（o）关联的行动时，用于达到所述选项（o）通向的所述后续状态（q1-q10）的状态条件。

9.根据权利要求1至8中任一项所述的方法，其中，更新如下状态概率（

）：在执行与选项（o）关联的行动时，达到用于达到所述系统状态的状态条件。

10.一种用于运行多智能体系统的机器人（1），其中要执行通过一系列系统状态来限定的预先给定的任务，其中构造有所述机器人（1），以便循环地执行下列步骤：

○ 以所观测的系统状态（q1-q10）为出发点，确定（S11）可能的选项（o），其中所述选项（o）限定了如下行动：通过所述行动，能够实现从所观测的状态至后续状态的转移，

○ 对于所述可能的选项（o）中的每个可能的选项，确定（S12）用于执行通过所述选项（o）说明的行动的行动成本（AK）；

○ 向其余机器人提供针对所述选项（o）中的每个选项所确定的所述行动成本（AK），并从所述其余机器人接收针对所述选项中的每个选项的所述行动成本（AK）；

○ 执行拍卖，使得根据与有关选项（o）关联的所述行动成本（AK）来关联选项（o）；

- 根据所有对于所述有关选项（o）所确定的或者接收到的行动成本（AK），执行（S16）通过所关联的选项（o）说明的行动，这对应于所述选项（o）中的一个或者多个，

其中所述行动成本（AK）考虑针对所观测的选项（o）所估计的任务成本，其中根据用于达到当前系统状态的成本、根据经验成本并且根据用于执行所述所观测的选项（o）的成本，确定所述任务成本，所述经验成本说明用于以通过所述选项（o）可达到的后续状态为出发点来达到所述任务的目标状态所估计的成本。

11.一种多智能体系统，其具有多个根据权利要求10所述的机器人（1）。

12.一种计算机程序，其具有程序代码装置，所述计算机程序设立为，当在计算单元、尤其是机器人（1）上执行所述计算机程序时，执行根据权利要求1至9中任一项所述的方法。

13.一种机器可读的存储介质，其具有存储在其上的根据权利要求12所述的计算机程序。