JP6938791B2

JP6938791B2 - マルチエージェントシステムにおいてロボットを動作させるための方法、ロボット及びマルチエージェントシステム

Info

Publication number: JP6938791B2
Application number: JP2020534470A
Authority: JP
Inventors: ビュアガーマティアス; クリスティアンシリンガーフィリップ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-12-22
Filing date: 2018-12-13
Publication date: 2021-09-22
Anticipated expiration: 2038-12-13
Also published as: CN111465475A; US20200276699A1; DE102017223717B4; CN111465475B; JP2021506607A; US11179843B2; DE102017223717A1; KR20200099572A; WO2019121338A1

Description

技術分野
本発明は、マルチエージェントシステムに関し、特に、協調的なオークション方法を用いてタスクを分配することによってマルチエージェントシステムのロボットを制御するための方法に関する。

背景技術
１つのタスクを共同で克服するために、複数のロボットからなるチームを調整することは、特に、周囲状況が不確実である場合、及び、タスク仕様における時間依存性が存在する場合には、困難である。１つのタスク仕様を複数のサブタスクに分解するためには、タスク仕様を分解するための適当なメカニズムが必要であり、特に、現実の環境の不確実性に起因して、個々のロボットに対する行動指示を満足のいくように割り当てることは不可能である。

ロボットの個々の行動の間の時間依存性をマッピングするために、ＬＴＬ仕様の形態でタスク仕様をマッピングする記述言語、いわゆる線形時相論理（ＬＴＬ）が公知である。ＬＴＬ仕様から、アクション計画、即ち、個々のロボットに対する行動指示の集合を、公知の手法により導き出すことができる。

ロボット用途のためにＬＴＬを使用することにより、特にマルコフ決定過程（ＭＤＰ：Markov Decision Processes）を用いて、時間的な制約を確率モデルに組み込むことが可能となる。マルコフ決定過程によれば、アクションの実行の未知の期間と、環境内での確率論的なイベントとを含む不確実性を、マッピングすることが可能となる。

ＬＴＬタスク仕様に関して不確実性の下で行動指示を計画するために、Lacerda, D. Parker及びN. Hawes著の『Optimal and dynamic planning for Markov decision processes with co-safe LTL specifications』（Int. Conf. on Intelligent Robots and Systems，第1511-1516頁，IEEE，2014年）は、タスク仕様のオートマトン表現をＭＤＰと組み合わせる単一のロボットための計画を企図している。同様にして、C. D. Ding，S. L. Smith，C. Belta，及びD. Rus.著の『LTL control in uncertain environments with probabilistic satisfaction guarantees』（IFAC，44(1)：3515-3520，2011年）は、ＬＴＬタスク記述の効果を最大化するために、個々のロボットのための行動指示を計画することを企図している。

特定のモデルに関係なく複数のロボットを調整するために、M. G. Lagoudakisら著の『Auction-Based Multi-Robot Routing. In Robotics: Science and Systems』（第343-350頁，Rome，Italy，2005年）は、効率性に焦点を当てた複数のオークション戦略を開示している。Koenig, C.ら著の『The power of sequential singleitem auctions for agent coordination』（National Conference on Artificial Intelligence，volume 21，第1625頁，Menlo Park，CA；Cambridge，MA，London；AAAI Press；MIT Press；1999，2006年）は、最適化結果を恣意的に悪化させることなく計画の労力を軽減するために、シーケンシャルなオークションを開示している。M. Guo及びD. V. Dimarogonas著の『Multiagent plan reconfiguration under local LTL specifications』（International Journal of Robotics Research，34(2)：218-235，2015年）は、マルチロボットシステムの複数のロボットに、相互に独立してローカルのサブタスクを割り当て、目下の競合の発生を通信することを開示している。

『Optimal and dynamic planning for Markov decision processes with co-safe LTL specifications』、Lacerda, D. Parker及びN. Hawes著、Int. Conf. on Intelligent Robots and Systems，第1511-1516頁，IEEE，2014年『LTL control in uncertain environments with probabilistic satisfaction guarantees』、C. D. Ding，S. L. Smith，C. Belta及びD. Rus.著、IFAC，44(1)：3515-3520，2011年『Auction-Based Multi-Robot Routing. In Robotics: Science and Systems』、M. G. Lagoudakisら著、第343-350頁，Rome，Italy，2005年『The power of sequential singleitem auctions for agent coordination』、Koenig, C.ら著、National Conference on Artificial Intelligence，volume 21，第1625頁，Menlo Park，CA；Cambridge，MA，London；AAAI Press；MIT Press；1999，2006年『Multiagent plan reconfiguration under local LTL specifications』、M. Guo及びD. V. Dimarogonas著、International Journal of Robotics Research，34(2)：218-235，2015年

時間依存性の仕様を有するタスクを解決するための、非決定性の環境におけるマルチエージェントシステムのロボットを調整するための効率的な計画アルゴリズムは、現在のところ公知ではない。

発明の開示
本発明によれば、請求項１に記載の、マルチエージェントシステムにおいてロボットを動作させるための方法と、それぞれの独立請求項に記載の、ロボット及びマルチエージェントシステムとが企図されている。

さらなる実施形態は、従属請求項に記載されている。

第１の態様によれば、複数のロボットを有するマルチエージェントシステムを動作させるための方法であって、それぞれのロボットは、目標システム状態に到達するまで、以下の方法、即ち、
・現在のシステム状態を起点として、所定の決定性有限オートマトンにおけるシステム状態の経路に沿った進行が達成される複数の可能なオプションを決定し、ここで、オプションは、現在のシステム状態から後続のシステム状態への遷移を達成し得るようにするアクションを定義するものであり、
・複数の可能なオプションの各々に関して、当該オプションによって指定されたアクションを実行するためのコスト値を決定し、
・オークションを実行し、その際、それぞれのオプションに関して決定されたコスト値が、それぞれ残余のロボットによって考慮され、
・複数のオプションのうちの１つに対応するアクションを、該当する当該オプションに関して決定又は受信した全てのコスト値に依存して実行する、
ことを周期的に実行する方法が企図されている。

複数のロボット（エージェント）を有するマルチエージェントシステムを動作させるための上記の方法の着想は、マルチエージェントシステムによって解決されるべきタスク仕様を定義する決定性有限オートマトンを提供することである。決定性有限オートマトンは、複数のシステム状態を有し、これらのシステム状態は、タスク目標を達成するために通過しなければならない１つ又は複数の状態経路を定義する。この決定性有限オートマトンにおいては、複数の異なるロボットに、オークション方法において状態遷移が割り当てられ、タスク目標の方向へと進行レベルの変更が達成される状態遷移（関連する状態遷移）だけが、オプションとして考慮される。これらの状態遷移は、以下においてはオプションと称される。このために、決定性有限オートマトンのシステム状態には、経路に沿って目標状態に向かって常に増加する、対応する進行レベルが予め割り当てられる。

進行レベルが増加することを特徴とする状態遷移を、個々のロボットに割り当てるプロセスにおいては、状態変化をもたらすサブタスクを、オプションとして個々のロボットに割り当てることができる。このようなオークション方法により、適当なコスト関数を用いて、最小のコストを有する該当するサブタスクを実行し得るロボットに、そのサブタスクを割り当てることができる。コスト関数は、特に、該当するサブタスクを実行するための時間消費量と、システム状態のために定義された条件がサブタスクの実行によって満たされる確率とを考慮することができる。

サブタスクによって、より高い進行レベルを有するシステム状態のためのシステム状態条件が満たされると、ロボットの全ての実行中のサブタスクが中断され、新たなオークションが実施され、そこで、新しいオプションがロボットに分配される。新しいオプションは、現在到達されたシステム状態を起点としている関連する状態遷移に相当する。この方法は、目標状態に到達するまで実施される。このようにして、マルチエージェントシステムにおけるサブタスクの分配を効率的に実施することが可能となり、特に時間依存性を特に効率的に考慮することが可能となる。

決定性有限オートマトンを全てのロボットに対して指定することにより、それぞれのロボットは、各自のオプションを、上位のタスク目標に鑑みて分散的に決定することができ、この場合には、複雑性が格段に低減された確率論的計画問題を解決すれば足りる。分散型のオークション方式により、複数の異なるロボットにそれぞれ異なるオプションが割り当てられ、本提案によるオークションアルゴリズムによって、ロボットは、他のサブタスクに時間的に依存しているサブタスクを実行することが可能となる。サブタスクが満たされるたびに方法が改めて実行され、これにより、システム状態に関する知識を最新で考慮することができる。

上記の方法によれば、さらに、特にロボットに予めサブタスクを割り当てる必要がないので、線形の実装が可能となる。全体として、不確実性の影響を受けるシステム環境において複数のロボットを調整する分散型の方法によって、指定されたタスク仕様を、例えば線形時相論理（ＬＴＬ）、特にＣｏ−ＳａｆｅＬＴＬの形態において実施することが可能となる。

上記の方法によれば、特に環境条件が不確実である場合に、マルチエージェントシステムの補足を効率的に調整することが可能となる。このことは、特に、複数のロボットからなるチーム全体によって処理されるべき時相論理が含まれた仕様の場合に当てはまる。このためにロボットには、タスク仕様のサブタスクが自動的に割り当てられる。計画された行動指示を定期的に更新することにより、システム環境の状況を考慮することもでき、これによってロボットを、不確実性に合わせて柔軟に適合させることができる。

さらに、複数のオプションのうちの１つに対応するアクションを、当該対応するオプションに対して、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定された場合に実行することができる。

複数のオプションのうちの１つに対応するアクションを、複数のオプションのいずれに対しても、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定されなかった場合には、実行しないようにすることもできる。

さらに、複数のオプションのいずれに対しても、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定されなかった場合には、決定性有限オートマトンにおける経路に沿った他のオプションのためのアクションを実行することができ、ここで、他のオプションは、当該他のオプションに対応するアクションの履行が、オークションにおいて分配されたオプションのアクションの実行を阻害しないように選択される。

オプションのためのコスト値を、当該オプションに割り当てられたアクションを実行するための期間に依存して決定することができ、及び／又は、当該オプションに割り当てられたアクションの実行時に、当該オプションが通じているシステム状態に到達するための状態条件が満たされる確率に依存して決定することができる。

特に、オプションに割り当てられたアクションの実行時に、システム状態に到達するための状態条件が達成される確率を、当該アクションの実行中に更新することができる。

１つの実施形態によれば、後続するシステム状態の条件を満たすことによって、先行するシステム状態のうちの１つに到達し得る可能性が存在しない場合に、決定性有限オートマトンのシステム状態の経路に沿った進行を達成することができ、特に、システム状態には、決定性有限オートマトンのシステム状態の経路に沿った進行を示す進行レベルが割り当てられる。

アクションが終了すると、システム状態に到達したことを残余のロボットに送信することができる。

後続するシステム状態に到達したという情報を受信すると、アクションの実行を中断又は終了することができる。

さらに、それぞれのオプションに関して決定されたコスト値を、それぞれ残余のロボットによるコストの明示的な通信によって提供することができる。

他の態様によれば、マルチエージェントシステムを動作させるためのロボットであって、当該ロボットは、目標システム状態に到達するまで、以下のステップ、即ち、
・現在のシステム状態を起点として、所定の決定性有限オートマトンにおけるシステム状態の経路に沿った進行が達成される複数の可能なオプションを決定するステップであって、オプションは、現在のシステム状態から後続のシステム状態への遷移を達成し得るようにするアクションを定義するものである、ステップと、
・複数の可能なオプションの各々に関して、当該オプションによって指定されたアクションを実行するためのコスト値を決定するステップと、
・それぞれ残余のロボットから、それぞれのオプションに関して決定されたコスト値を受信するステップと、
・それぞれのオプションに関して決定されたコスト値を考慮して、オークションを実行するステップと、
・複数のオプションのうちの１つに対応するアクションを、該当する当該オプションに関して決定又は受信した全てのコスト値に依存して実行するステップと、
を周期的に実行するように構成されているロボットが企図されている。

さらなる態様によれば、上記の複数のロボットを有する、マルチエージェントシステムが企図されている。

図面の簡単な説明
以下においては、添付の図面に基づいて実施形態をより詳細に説明する。

マルチエージェントシステムのロボットの概略図である。進行レベル割り当てを有する決定性有限オートマトンを示す図である。決定性有限オートマトンの個々のシステム状態への進行レベルの割り当てを説明するためのフローチャートである。所与のタスクに関するタスク仕様を解決するためのマルチエージェントシステムを動作させるための方法を説明するためのフローチャートである。システム環境内に配置された、２つの移動可能なロボットを有するマルチエージェントシステムの例を示す図である。図５のマルチエージェントシステムのタスクを解決するための決定性有限オートマトンを示す図である。

実施形態の説明
エージェントが、環境と相互作用するロボットとして設けられているマルチエージェントシステムを動作させるための方法を、以下に説明する。ロボット１は、図１に概略的に示されているような構成を有する。このために、ロボット１は、それぞれ１つの制御ユニット２を含み、この制御ユニット２は、サブタスクを実行するように構成されている。さらに、それぞれのロボット１は、他のロボット１と通信するために、他のロボット１に情報を送信するための及び他のロボット１から情報を受信するための通信装置３を有する。

ロボット１は、アクチュエータ４を用いてシステム環境と相互作用することができる。アクチュエータ４は、例えば、移動アクチュエータ、把持アクチュエータなどを含むことができ、これらのアクチュエータは、ロボット１に割り当てられたサブタスクに従って公知の手法により動作させられる。これによってロボット１は、特に移動すること、物体を拾い上げること、物体を置くこと、などを行うことができる。

さらに、センサ５を用いて環境状態を検出することができる。例えば、センサ５は、カメラや、例えば超音波センサのような、物体を検出するために使用可能な他のセンサなどを含み得る。障害物である物体が迂回されるように、システム環境内での移動を可能にするために、相互作用し得る／相互作用すべき相手である物体の位置を、カメラを用いて検出及び識別することができる。

さらに、ロボット１には、例えばタッチディスプレイ又は音声入力／出力装置のような、通信によって環境の物体又は人間と相互作用するための対話装置６を設けることができる。このようにして人間は、ロボット１への入力を実施して、情報を受け取ることができる。

以下において説明する方法の起点は、線形時相論理（ＬＴＬ）、特にｃｏ−ｓａｆｅ線形時相論理（ｓｃＬＴＬ）の形態のタスク仕様である。線形時相論理（ＬＴＬ）は、時間モダリティを有する、解決されるべきタスクのタスク仕様のための記述言語である。いずれのｓｃＬＴＬタスク仕様も、決定性有限オートマトン（ＤＦＡ）に変換することができる。

図２には、そのような決定性有限オートマトン（ＤＦＡ）が例示的に示されている。図２は、複数のシステム状態（ｑ１−ｑ１０）を示し、これらのシステム状態（ｑ１−ｑ１０）には、１つの開始状態１１（ｑ０）と、複数の中間状態１２（ｑ１−ｑ９）と、１つ又は複数の目標状態１３（ｑ１０）とが含まれる。決定性有限オートマトンを説明するための図においては、矢印は、１つ又は複数の経路に沿った、開始状態１１（ｑ１）から目標状態１３（ｑ１０）への状態遷移を示す。ある１つのシステム状態は、その該当するシステム状態に割り当てられた状態条件が満たされると、到達される。開始状態１１から目標状態１３までのシステム状態は、経路に沿った進行によって到達される。ある１つのシステム状態から次に続くシステム状態へと戻り経路の可能性が存在しない場合に、複数の経路のうちの１つに沿った進行が達成される。経路に沿った進行は、進行レベル、特に昇順の進行レベルによって示される。

オークション方法の準備のために、これらの進行レベルが、図３のフローチャートに示される方法に基づいて、開始状態１１を起点として目標状態１３まで付与される。ステップＳ１においては、開始状態１１に１（又は他の初期値）の進行レベルを割り当てることができる。

後続のステップＳ２においては、選択された現在のシステム状態（初期時には開始状態である）から到達し得る全てのシステム状態であって、かつ、現在のシステム状態又は他の以前のシステム状態へと戻ってくる経路を有さない全てのシステム状態（即ち、関連する状態遷移）に対して、１（又は他の量）だけ増加された進行レベルが割り当てられる。関連しない状態遷移（即ち、ＤＦＡにおいて戻ってくる経路を有する状態からの状態遷移）によって到達される残余のシステム状態には、該当する現在のシステム状態と同一の進行レベルが割り当てられる。これによって、以前の状態へと戻ってくる経路を有するそれぞれのシステム状態には、以前のシステム状態の進行レベルと同等の進行レベルが割り当てられる。

ステップＳ３においては、全てのシステム状態が考慮されたかどうかが問い合わせられる。これが当てはまる場合（選択肢：はい）には、方法が終了し、これが当てはまらない場合（選択肢：いいえ）には、ステップＳ２にジャンプして戻り、未だ処理されていない次のシステム状態が、現在のシステム状態として採用される。このようにして、決定性有限オートマトンからのそれぞれのシステム状態に、進行レベル（［ｘ］によって表現されており、ただし、ｘは、進行レベルの数である）を割り当てることができる。このようにして進行レベルが設けられた決定性有限オートマトンＤＦＡに基づいて、対応するタスク仕様を複数のロボットによって処理するための方法を実施することができる。

マルチエージェントシステムを動作させるための方法に対する前提条件は、それぞれのロボット１がそれぞれ残余のロボット１と通信可能であることと、それぞれのロボット１に決定性有限オートマトンＤＦＡが通知されていることとである。以下の方法は、複数のロボット１のうちの１つにおけるシーケンスを説明するものであり、この方法は、基本的に、それぞれのロボット１において並行して実施される。

先ず始めに、ステップＳ１１において、決定性有限オートマトンにおける現在の状態を起点として、特に最初の実行時に、開始状態１１と、進行レベルの増加を達成し得る全ての可能なオプションとが決定される。オプション（より高い進行レベルを有するシステム状態への状態遷移を意味する）は、目標状態１３へ向かう途中の中間状態であるＤＦＡの次の可能なシステム状態へと、到達するための選択肢を表している。本実施例においては、開始状態ｑ１を起点として、システム状態ｑ２及びｑ３が、上記の次の可能なシステム状態に相当する。これは、オプションｑ１→ｑ２、及び、オプションｑ１→ｑ３に相当する。

ここで、ステップＳ１２において、それぞれのロボット１により、ステップＳ１１で決定された全ての可能なオプションに対してアクションコストが決定される。アクションコストは、例えば、該当するロボット１がそれぞれのオプションを実行するための期間に相当し得る又はこれを含み得る。さらに、アクションコストは、不確実性の影響を受けやすいシステム環境においては、確率を考慮することができる。確率は、該当するロボット１によって該当するオプションが実行される際に、到達されるべきシステム状態に対する状態条件が満たされる確率をそれぞれ示す。Ｋ＝ｔ＊ｐ（ただし、ｔは、オプションを実行するための推定期間、ｐは、該当するオプションの状態条件が満たされる確率）が当てはまる。

ステップＳ１３においては、該当するロボット１のそれぞれの可能なオプションに関してこのようにして決定されたコストが、全ての残余のロボット１に通信される。従って、全てのロボット１には、あらゆるオプションのコストに関する情報が存在することとなる。

さて、ステップＳ１４においては、自分自身で求めたオプション又は他のロボット１から受信したオプションのうちの１つによって到達し得るそれぞれの可能なシステム状態に関して、それぞれの最小のコストが決定される。

次に、ステップＳ１５においては、それぞれのロボット１において、オプションによって到達し得る中間状態に関して、固有のコストが最小のコストであるどうかがチェックされる。これが当てはまる場合（選択肢：はい）には、該当するロボット１によって（その最小のコストを有する）該当するオプションが引き受けられ、そのオプションによって指定されているシステム状態に到達するための行動指示へと変換される。次に、方法は、ステップＳ１６に続く。

ステップＳ１６においては、それに応じて行動指示の実行が即座に開始される。

ステップＳ１７においては、それぞれのロボット１において、自身のアクションによって状態条件が満たされたか、又は、状態条件が満たされたことに関する相応の情報が、他のロボットによって受信されたかがチェックされる。これが当てはまらない場合（選択肢：いいえ）には、ステップＳ１７にジャンプして戻り、これが当てはまる場合（選択肢：はい）には、ステップＳ１９にジャンプする。

ステップＳ１９においては、目標システム状態に到達したかどうかがチェックされる。これが当てはまる場合（選択肢：はい）には、方法が終了する。これが当てはまらない場合には、ステップＳ１１にジャンプして戻る。

ステップＳ１５において、それぞれのオプションに関して、いずれのオプションも、最小のコストでは実行することができないと判断された場合（選択肢：いいえ）には、方法は、ステップＳ１８に続く。

複数の同等の最小のコストが存在する場合には、場合によっては複数のロボット１が、オプションのうちの１つを同時に選択し、対応する行動指示を同時に実行することができる。割り当てプロセスにより、それぞれのロボット１に対して、そのロボット１が行動指示を実行し得るオプションが割り当てられ、又は、何もしないままに留められる。

ステップＳ１８においては、ロボット１は、自身が遂行可能な行動指示を計画して、タスクのうちの未来の部分に備えるために、オークション中に未来の状態を推定することができる。このことは、これらの行動指示の履行が、現在のオプションのサブタスクの実行を阻害しないことが保証されることによって実施されるべきである。従って、割り当てられていないロボット１にオプションを分配するために、現在実行されているオプションよりも高い進行レベルを有するシステム状態を有していて、かつ、実行されているオプションの結果を前提条件として含んでいない、さらなる他のオプションが考慮される。

環境の不確実性に起因して、サブタスクの実行がどのようにして進むかは、前もっては明確ではない。従って、ロボット１は、各自の行動指示を、実行中に２つの方式で更新することができる。

１．ある１つのロボット１のオプションが終了すると、それぞれ他のロボット１の現在の状態が更新される。これによって、それぞれのロボット１の状態が変更されるので、前もって実行された行動指示が中断される。

２．ロボット１によって実行中に収集された知識が考慮される。これにより、特定のイベントが観察される可能性があることを示すイベント確率を適合させることができる。この更新された確率は、それぞれのロボット１に通信され、個々のオプションのコストを決定する際に考慮される。

図５には、オフィスビル内に移動可能なロボットＲ１，Ｒ２が配置されているマルチエージェントシステムの例が示されている。設定目標は、これらのロボット１のうちの一方が、部屋ｒの中に移動して入ることであるが、ただし、このことは、２人の人間ａ，ｂが許可した後にのみ可能となる。この許可は、例えば、個々のロボット１の対話装置６のタッチスクリーンを介してアクセスコードを入力することによって与えることができる。この例においては、これらの人間を、場所ａ２及びｂ１において発見し得ると仮定するが、ただし、このことは、事前には分かっていない。さらに、ナビゲーション行動を実行するための期間は、進んだ距離に比例すると仮定する。アクセス制限を考慮しながら部屋ｒへのアクセスを取得するという設定目標を、次のｓｃＬＴＬの式によって表現することができる。

なお、ａ_ｃ，ｂ_ｃは、該当する人間ａ，ｂによって同意が与えられたことを示す。

φによって構築されているＤＦＡは、図６において、システム状態ｑ１−ｑ５によって概略的に示されている。ｓｃＬＴＬミッションが、ロボット１に伝送される。初期時には、仮定された進行レベルの増加に応じて、ロボットＲ１には、システム状態ｑ１からｑ２につながるオプションｑ１−ｑ２が割り当てられ、ロボットＲ２には、システム状態ｑ２からｑ４につながるオプションｑ２−ｑ４が割り当てられる。従って、ロボットＲ１によって選択されたオプションは、ロボットＲ１をｂ_１へと導き、ロボットＲ２によって選択されたオプションは、ロボットＲ２をａ_１へと導く。該当する人間が２つの部屋ａ_１，ａ_２のうちの一方の中にいる確率と、もう一方の中にいる確率とが同等である（それぞれ０．５の確率）と仮定すると、ロボットＲ２は、部屋ａ_１の方がより近いので、ａ_２ではなくａ_１に移動することを決定する。

計画の最初の立て直しは、ロボットＲ１が部屋ｂ_１に到達した後に行われる。部屋ｂ_１においてロボット１は、承認ｂ_ｃを与える人間ｂがいることを発見し、これによって中間状態ｑ２に到達する。その間にロボットＲ２は、既に部屋ａ_１の近くにきており、従って、ロボットＲ２には、オプションｑ２−ｑ４が割り当てられ、対応するアクションが実行される。その間にロボットＲ１には、ミッションを終了するためにオプションｑ４−ｑ５が割り当てられる。

さて、部屋ａ_１でアクセス許可ａ_ｃを取得することができないとロボットＲ２が判断すると、ロボットＲ２は、オプションｑ２−ｑ４の行動指示を期待どおりには終了することができず、部屋ａ_１でアクセス承認ａ_ｃを取得することができないことを報告するために、部屋ａ_１に人間がいるというイベント確率を０へと更新する。これによって更新がもたらされ、この更新によってロボットＲ１は、ａ_２への移動によってオプションｑ２−ｑ４を実行するためのコストがより小さいロボット１であるとして選択される。なぜなら、ロボットＲ２にはオプションｑ４−ｑ５が割り当てられているからである。ロボットＲ２は、ロボットＲ１がオプションｑ２−ｑ４を終了することができるよりも迅速に中間地点に到達するので、ロボットＲ２がロボットＲ１を待っていることを観察することができる。ロボットＲ１がｑ２−ｑ４を終了すると、ロボットＲ２は、割り当てられた、既にほぼ終了しているオプションｑ４−ｑ５を維持し、部屋ｒに進入することによってミッションを終了する。

オークション割り当ての分散型のアプローチに基づいて、上記の方法を、任意の個数のロボット１を有するマルチエージェントシステムに適用することができ、さらなるロボット１を追加することによって、ミッションの実行時間を短縮することができる。

Claims

複数のロボット（１）を有するマルチエージェントシステムを動作させるための方法であって、
それぞれのロボット（１）は、目標システム状態に到達するまで、以下の方法、即ち、
・現在のシステム状態（ｑ１−ｑ１０）を起点として、所定の決定性有限オートマトン（ＤＦＡ）におけるシステム状態の経路に沿った進行が達成される複数の可能なオプションを決定し（Ｓ１１）、ここで、前記オプションは、現在のシステム状態から後続のシステム状態（ｑ１−ｑ１０）への遷移を達成し得るようにするアクションを定義するものであり、
・前記複数の可能なオプションの各々に関して、当該オプションによって指定されたアクションを実行するためのコスト値を決定し（Ｓ１２）、
・オークションを実行し（Ｓ１４，Ｓ１５）、その際、それぞれのオプションに関して決定された前記コスト値が、それぞれ残余のロボット（１）によって考慮され、
・前記複数のオプションのうちの１つに対応するアクションを、該当する当該オプションに関して決定又は受信した全てのコスト値に依存して実行する（Ｓ１６）、
ことを周期的に実行する方法。
前記複数のオプションのうちの１つに対応するアクションを、当該対応するオプションに対して、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定された場合に実行する、
請求項１に記載の方法。
前記複数のオプションのうちの１つに対応するアクションを、前記複数のオプションのいずれに対しても、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定されなかった場合には実行しない、
請求項１又は２に記載の方法。
前記複数のオプションのいずれに対しても、当該対応するオプションに関して受信した全てのコスト値のうちの最小のコストを示す固有のコスト値が決定されなかった場合には、前記決定性有限オートマトン（ＤＦＡ）における経路に沿った他のオプションのためのアクションを実行し、
前記他のオプションは、当該他のオプションに対応するアクションの履行が、前記オークションにおいて分配されたオプションのアクションの実行を阻害しないように選択される、
請求項１又は２に記載の方法。
オプションのためのコスト値を、
当該オプションに割り当てられたアクションを実行するための期間に依存して決定し、及び／又は、
当該オプションに割り当てられたアクションの実行時に、当該オプションが通じているシステム状態（ｑ１−ｑ１０）に到達するための状態条件が満たされる確率に依存して決定する、
請求項１乃至４のいずれか一項に記載の方法。
オプションに割り当てられたアクションの実行時に、前記システム状態（ｑ１−ｑ１０）に到達するための状態条件が達成される確率を、当該アクションの実行中に更新する、
請求項５に記載の方法。
後続するシステム状態（ｑ１−ｑ１０）の条件を満たすことによって、先行するシステム状態（ｑ１−ｑ１０）のうちの１つに到達し得る可能性が存在しない場合に、前記決定性有限オートマトン（ＤＦＡ）のシステム状態の経路に沿った進行が達成され、
特に、前記システム状態には、前記決定性有限オートマトン（ＤＦＡ）のシステム状態（ｑ１−ｑ１０）の経路に沿った進行を示す進行レベルが割り当てられる、
請求項１乃至６のいずれか一項に記載の方法。
アクションが終了すると、前記システム状態（ｑ１−ｑ１０）に到達したことを残余のロボット（１）に送信する、
請求項１乃至７のいずれか一項に記載の方法。
後続するシステム状態（ｑ１−ｑ１０）に到達したという情報を受信すると、アクションの実行を中断又は終了する、
請求項１乃至８のいずれか一項に記載の方法。
それぞれのオプションに関して決定されたコスト値を、それぞれ残余のロボット（１）によるコストの明示的な通信によって提供する、
請求項１乃至９のいずれか一項に記載の方法。
マルチエージェントシステムを動作させるためのロボット（１）であって、
当該ロボット（１）は、目標システム状態に到達するまで、以下のステップ、即ち、
・現在のシステム状態（ｑ１−ｑ１０）を起点として、所定の決定性有限オートマトン（ＤＦＡ）におけるシステム状態（ｑ１−ｑ１０）の経路に沿った進行が達成される複数の可能なオプションを決定するステップであって、前記オプションは、現在のシステム状態から後続のシステム状態（ｑ１−ｑ１０）への遷移を達成し得るようにするアクションを定義するものである、ステップと、
・前記複数の可能なオプションの各々に関して、当該オプションによって指定されたアクションを実行するためのコスト値を決定するステップと、
・それぞれ残余のロボットから、それぞれのオプションに関して決定されたコスト値を受信するステップと、
・前記それぞれのオプションに関して決定された前記コスト値を考慮して、オークションを実行するステップと、
・前記複数のオプションのうちの１つに対応するアクションを、該当する当該オプションに関して決定又は受信した全てのコスト値に依存して実行するステップと、
を周期的に実行するように構成されているロボット（１）。
請求項１１に記載の複数のロボット（１）を有するマルチエージェントシステム。
計算ユニット上で、特にロボット（１）上で実行されたときに、請求項１乃至１０のいずれか一項に記載の方法を実行するために構成されたプログラムコードを有するコンピュータプログラム。
請求項１３に記載のコンピュータプログラムが記憶された機械可読記憶媒体。