JP2019200792A

JP2019200792A - マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム

Info

Publication number: JP2019200792A
Application number: JP2019091277A
Authority: JP
Inventors: ビュアガーマティアス; Buerger Mathias; シリンガーフィリップクリスティアン; Christian Schillinger Philipp; クリスティアンシリンガーフィリップ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-05-15
Filing date: 2019-05-14
Publication date: 2019-11-21
Anticipated expiration: 2039-05-14
Also published as: DE102018207539A1; JP7391535B2; US11198214B2; CN110488807A; US20190351542A1; CN110488807B

Abstract

【課題】複数のロボットを備えるマルチエージェントシステムの動作方法を提供する。【解決手段】現在のシステム状態から後続のシステム状態への遷移が実現される複数の行動を規定複数のオプションを求めＳ１１、オプションによって示された行動を実行するための行動コストを求めＳ１２、行動コスト値が残余の各ロボットによって考慮された行動を実行しＳ１４、Ｓ１５、該当するオプションに対して求められた又は受信された全てのコスト値に関連して、複数のオプションのうちの１つに相当する行動を実行しＳ１６、所定のオプションに対する行動コストは、それぞれ複数の経験パラメータのうちの１つを考慮し、この経験パラメータは、過去の、既に実行された、特定のオプションに対して割り当てられた、複数のロボットの複数の行動に対するコストに関連する。以上を各ロボットは周期的に実施する。【選択図】図４

Description

本発明は、マルチエージェントシステムに関し、特に、協調的なオークション方法を用いてタスクの分配によってマルチエージェントシステムのロボットを制御する方法に関する。

技術的な背景
タスクを共同で処理するためのロボットのチームの調整は、特に、環境の状態が不確実である場合、及び、タスク仕様が時間に関連する場合に、困難である。タスク仕様を複数の部分タスクに分解するのには、タスク仕様を分解する適切な機構が必要であり、ここでは特に、実際の環境の不確実性が原因で、個々のロボットに対して行動指示を満足に割り当てることができない。

ロボットの個々の行動の間の時間的な関連性を再現するために、記述言語、いわゆる線形時相論理（ＬＴＬ）が既知であり、これは、ＬＴＬ仕様の形態のタスク仕様を再現する。ＬＴＬ仕様から、行動計画、即ち、個々のロボットに対する行動指示のセットをそれ自体公知の方法により導出することができる。

ロボットアプリケーションに対するＬＴＬは、特に、マルコフ決定過程（ＭＤＰ：ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓｅｓ）によって、時間的な周辺条件を確率論的なモデルに統合することを可能にする。マルコフ決定過程は、行動の実行の未知の時間期間と環境における確率的なイベントを含めた不確実性を再現することを可能にする。

行動指示を、ＬＴＬタスク仕様に対する不確実性のもとで作成するために、個々のロボットに対する計画が設定可能であり、これは、タスク仕様の自動再現をマルコフ決定過程と組み合わせる。ＬＴＬタスク記述の利用を最大化するために、行動指示を個々のロボットに対して計画することもできる。

複数のロボットを、特定のモデルに関連せずに、調整するために、一般的に、オークション方法が既知である。Ｐ．Ｓｃｈｉｌｌｉｎｇｅｒ等著「ＡｕｃｔｉｏｎｉｎｇｏｖｅｒＰｒｏｂａｂｉｌｉｓｔｉｃＯｐｔｉｏｎｓｆｏｒＴｅｍｐｏｒａｌＬｏｇｉｃ−ＢａｓｅｄＭｕｌｔｉ−ＲｏｂｏｔＣｏｏｐｅｒａｔｉｏｎｕｎｄｅｒＵｎｃｅｒｔａｉｎｔｙ（ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ，２０１８）」は、共通のタスクを満たす、ロボットのチームの調整方法を開示している。ここでは、時間的な関連性と環境の不確実性が考慮され得る。示されたこの方法は、タスク実行中の不確実性と観察を考慮することを可能にする。これは、オークション方法を用いてタスク分配を実行することによって行われる。

「ＡｕｃｔｉｏｎｉｎｇｏｖｅｒＰｒｏｂａｂｉｌｉｓｔｉｃＯｐｔｉｏｎｓｆｏｒＴｅｍｐｏｒａｌＬｏｇｉｃ−ＢａｓｅｄＭｕｌｔｉ−ＲｏｂｏｔＣｏｏｐｅｒａｔｉｏｎｕｎｄｅｒＵｎｃｅｒｔａｉｎｔｙ（ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ，２０１８）」Ｐ．Ｓｃｈｉｌｌｉｎｇｅｒ等著

時間的に関連する仕様を伴うタスクを解決するための、非決定性環境における、マルチエージェントシステムのロボットの調整に対する効率的な計画アルゴリズムは、この時点では既知ではない。

発明の開示
本発明においては、請求項１に記載されたマルチエージェントシステムにおけるロボットの動作方法並びに他の独立請求項に記載されたロボット及びマルチエージェントシステムが提示されている。

さらなる構成は、従属請求項に記載されている。

第１の態様においては、複数のロボットを備えるマルチエージェントシステムの動作方法が提示されており、各ロボットは、以下の方法を周期的に実施し、即ち、
・現在のシステム状態に基づいて、可能な複数のオプションを求め、複数のオプションは、現在のシステム状態から後続のシステム状態への遷移が実現される複数の行動を規定し、
・可能な複数のオプションのそれぞれに対して、オプションによって示された行動を実行するための行動コストを求め、
・オークションを実行し、ここでは各オプションに対して求められた行動コスト値が残余の各ロボットによって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、複数のオプションのうちの１つに相当する行動を実行し、
所定のオプションに対する行動コストは、それぞれ経験パラメータのうちの１つを考慮し、この経験パラメータは、過去の、既に実行された、特定のオプションに対して割り当てられた、複数のロボットの複数の行動に対するコストに関連する。

複数のロボット（エージェント）を備えるマルチエージェントシステムの上述した動作方法の考案は、マルチエージェントシステムによって解決されるべきタスク仕様を規定する決定性有限オートマトンを提供することである。決定性有限オートマトンは、複数のシステム状態を有しており、これらのシステム状態は、タスク目標を達成するために通過しなければならない１つ又は複数の状態経路を規定する。このような決定性有限オートマトンにおいては、状態遷移が、種々のロボットに、オークション方法において割り当てられる。ロボットによって実行可能な状態遷移を以降においては、オプションと称する。

個々のロボットへの実行されるべき状態遷移の割り当てのプロセスにおいて、状態変化を生じさせる部分タスクがオプションとして各ロボットに割り当て可能である。このようなオークション方法は、適切なコスト関数を用いて、部分タスクを、該当する部分タスクを最小コストで実行することを可能にするロボットに割り当てることを可能にする。コスト関数は、特に、該当する部分タスクの実行のための時間コストと、この部分タスクの実行によって、システム状態を規定する条件が満たされる確率を考慮する。

部分タスクによって、システム状態に対するシステム状態条件が満たされる場合、実行中の全ての、ロボットの部分タスクが中断され、新たなオークションが実行され、ここで、新たなオプションがロボットに分配される。新たなオプションは、ここで得られたシステム状態に基づく相対的な状態遷移に対応する。このような方法は、目標状態が得られるまで実施される。このようにして、部分タスクをマルチエージェントシステムにおいて、効率良く分配することが可能である。ここでは特に、時間的な関連性を特に効率的な方法で考慮することができる。

全てのロボットにおける決定性有限オートマトンの設定によって、各ロボットは、有利には、自身のオプションを、上位のタスク目標に関して求めることができ、ここでは、極めて格段に複雑性の低い確率論的な計画問題が解決されればよい。分散したオークションスキームによって、種々のオプションを種々のロボットに割り当てることができる。ここで、提案されたオークションアルゴリズムは、ロボットが、時間的に、別の部分タスクに関連する部分タスクを実行することを可能にする。部分タスクがそれぞれ満たされると、この方法は再び、実施され、システム状態に関する知識が、現在の方式によって考慮され得る。

上述の方法は、さらに、直線的な実装を可能にする。なぜなら特にロボットに、事前に、部分タスクを割り当てる必要がないからである。全体的に、不確実性と結び付いているシステム環境において、複数のロボットを調整する、この分散した方法は、所定のタスク仕様を実行することを可能にする。これは例えば線形時相理論（ＬｉｎｅａｒＴｅｍｐｏｒａｌＬｏｇｉｃ（ＬＴＬ））の形態、特にＣｏ−ＳａｆｅＬＴＬの形態である。

上述した方法は、効率的に、マルチエージェントシステムの付加を調整することを可能にする。これは特に、環境条件が不確実な場合である。これは特に、全体的なロボットのチームによって処理されるべき時間的なロジックを含んでいる仕様に対して当てはまる。このためにロボットに、タスク仕様の部分タスクが自動的に割り当てられる。システム環境の状態も、計画された行動指示の規則的な更新によって考慮可能であり、従って、ロボットを柔軟に、不確実性に整合させることができる。

さらに、複数のオプションのうちの１つに相当する行動を、対応するオプションに対して受信された全てのコスト値のうちの最小コストを示す固有のコスト値が、対応するオプションに対して求められた場合に、実行することができる。

複数のオプションのうちの１つに相当する行動を、対応するオプションに対して受信された全てのコスト値のうちの最小コストを示す固有のコスト値が、オプションに対して求められない場合に、実行しないように設定することもできる。

さらに、経験パラメータは、オプションによって実行されるべき行動が開始されたときに、該当するロボットの物理的な開始状態の分布に関連していてよい。

ある実施形態においては、経験パラメータは、最短経路問題を解くことによって求められる。

該当するロボットによって行動を実行するためのコストが求められ、経験パラメータが、求められたコストに関連して、特に比較的高いｋに対して低減する整合パラメータに特に関連して整合されることによって、経験パラメータが、オプションに属する行動の終了時に更新されるように設定することができる。

オプションに対するコスト値が、オプションに割り当てられた行動を実行するための持続時間に関連して求められる、及び／又は、オプションに割り当てられた行動の実行時に、オプションが導く、システム状態に達するための状態条件が得られる確率に関連して求められるように設定することができる。

特に、オプションに割り当てられた行動の実行時に、システム状態に達するための状態条件が得られる確率が、行動の実行中に更新されてよい。

ある実施形態においては、前進が、決定性有限オートマトンのシステム状態の経路に沿って行われてよい。これは、先行するシステム状態のうちの１つのシステム状態の後続のシステム状態の条件を満たすことができない場合である。ここでは特に、システム状態に、決定性有限オートマトンのシステム状態の経路に沿って前進を示す前進レベルが割り当てられる。

行動の終了時に、得られたシステム状態が、残余のロボットに伝達されるように設定することができる。

後続のシステム状態の到達に関する情報が受信されると、行動の実行が中断され又は終了されるように設定することができる。

さらに、各オプションに対して求められたコスト値を、残余の各ロボットによる、コストの明示的な伝達によって提供することができる。

別の態様においては、マルチエージェントシステムの動作のためのロボットが設けられており、ロボットは、以下のステップを周期的に実行するように構成されており、即ち、
・現在のシステム状態に基づいて、可能な複数のオプションを求め、複数のオプションは、現在のシステム状態から後続のシステム状態への遷移が実現される複数の行動を規定し、
・可能な複数のオプションのそれぞれに対して、オプションによって示された行動を実行するための行動コストを求め、
・オークションを実行し、ここでは各オプションに対して求められた行動コスト値が残余の各ロボットによって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、複数のオプションのうちの１つに相当する行動を実行し、
所定のオプションに対する行動コストは、それぞれ複数の経験パラメータのうちの１つを考慮し、この経験パラメータは、過去の、既に実行された、特定のオプションに対して割り当てられた、複数のロボットの複数の行動に対するコストに関連する。

別の態様においては、マルチエージェントシステムに、複数の上述したロボットが設けられている。

実施形態を以降において、添付の図面に基づいて詳細に説明する。

マルチエージェントシステムのロボットの概略図。決定性有限オートマトンの図。周期性有限オートマトンの図。示されたタスクでのタスク仕様を解決するためのマルチエージェントシステムの動作方法を示すフローチャート。２つの可動のロボットを備えた、システム環境に配置されたマルチエージェントシステムの例。

実施形態の説明
以降においては、エージェントが、環境と相互作用するロボットとして設けられているマルチエージェントシステムにおいて記載された方法を記載する。ロボット１は、図１に概略的に示されているような構造を有している。ロボット１は、このためにそれぞれ１つの制御ユニット２を含んでおり、これは、部分タスクを実行するように形成されている。別のロボット１との通信のために、各ロボット１は、さらに、通信装置３を有しており、これによって、情報を別のロボット１に伝達することができ、さらに情報を別のロボット１から受信することができる。

アクチュエータ４によって、ロボット１にシステム環境を組み込むことができる。アクチュエータ４は、例えば、前進運動アクチュエータ、把持アクチュエータ等を含むことができる。これは、ロボット１に割り当てられた部分タスクに対して対応して、それ自体公知の方法によって動作させられる。これによって、ロボット１は、特に、移動する、対象物を取り上げる、下に置く等をすることができる。

さらに、センサ装置５によって、環境状態を検出することができる。センサ装置５は、例えばカメラ、対象物検出のために用いられる別のセンサ装置、例えば超音波装置等を含むことができる。カメラによって、相互作用され得る／相互作用されるべきである対象物の位置が識別及び同定され、システム環境内の移動を実現することができる。ここでは、障害物等である対象物が回避される。

ロボット１にはさらに、相互作用装置６、例えばタッチディスプレイ又は言語入力／出力装置が設けられていてよく、これによって、環境の対象物又は人物と通信によって相互作用することができる。このようにして人物が、ロボット１に入力し、かつ、情報を得ることができる。

以降に記載する方法の起点は、線形時相論理（ＬＴＬ）、特にｃｏ−ｓａｆｅＬｉｎｅａｒＴｅｍｐｏｒａｌＬｏｇｉｃ（ｓｃＬＴＬ）の形態のタスク仕様である。これは、解決されるべきタスクのタスク仕様に対する記述言語であり、時間的なモダリティを有している。各ｓｃＬＴＬ−タスク仕様は決定性有限オートマトン（ＤＥＡ）に変換される。

このような決定性有限オートマトン（ＤＥＡ）が例示的に図２に示されている。これはシステム状態（ｑ１−ｑ１０）を示しており、これは開始状態１１（ｑ１）、複数の中間状態１２（ｑ２−ｑ９）と１つ又は複数の目標状態１３（ｑ１０）を含んでいる。決定性有限オートマトンを示すこのダイヤグラムにおいては、矢印は、１つ又は複数の経路に沿った、開始状態１１（ｑ１）から目標状態１３（ｑ１０）への状態遷移を示している。該当するシステム状態に割り当てられた状態条件が満たされている場合に、システム状態が得られる。開始状態１１から目標状態１３へのシステム状態は、矢印に沿った前進によって得られる。あるシステム状態から後続のシステム状態へ、戻る経路の可能性が無い場合には、経路の１つに沿って前進が行われる。経路に沿った前進は、前進レベル、特に上昇する前進レベルによって示される。

図３は、システム状態ｑ０−ｑ４を備えた周期性有限オートマトンの概略図を示している。これは、繰り返す周期的なタスクを記述するのに適している。この周期性有限オートマトンは、有限オートマトンの一部であってよく、又は、有限オートマトンを表してよい。周期性有限オートマトンは、特に、次のような特徴を有している。即ち、目標状態（ｑ４）１３が得られたときに、これが早期の状態、例えば開始状態（ｑ０）１１にリセットされるという特徴を有している。以降において、そうでないことが記載されていない限り、決定性有限オートマトンと周期性有限オートマトンの定義は、記載されている方法に対して、同等に理解可能である。図示された周期性有限オートマトンは、以下のＬＴＬの式に対応する。

以降においては、周期性有限オートマトンにおいて、個々のロボット１にオプションを割り当てる方法が記載されている。決定性有限オートマトンの非周期的な部分におけるオプションの割り当ては、同一の方法又は異なる方法に従って実行可能である。

マルチエージェントシステムの動作方法に対する前提条件は、各ロボット１が、残余の各ロボット１と通信可能であるということ、及び、各ロボット１に、周期性有限オートマトンＤＥＡが知らされている、ということである。図４に関連して示された後続の方法は、ロボット１におけるフローを示しており、ここで、これらの方法は、基本的に、並行して、各ロボット１において実施される。

まずはステップＳ１１において、決定性有限オートマトンにおいて、現在の状態に基づいて、特に最初の通過の際に、開始状態１１に基づいて、全ての可能なオプションが求められる。これらのオプション（設定された（現在の）システム状態／ロボット状態から可能な後続のシステム状態／ロボット状態への状態遷移として表されている）は、決定性有限オートマトンの次の可能なシステム状態に達するための可能性を表している。

ステップＳ１２において、ステップＳ１１において求められた全ての可能なオプションに対して、行動コストＡＫが求められる。この行動コストＡＫは、例えば、該当するロボット１に対する各オプションを実行するための持続時間Ｄに関連していてよい。さらに行動コストＡＫは、不確実性を有するシステム環境の際に、確率を考慮する。この確率はそれぞれ、該当するロボット１によって該当するオプションを実行する際に、後続のシステム状態に対する状態条件が満たされる確率を示している。これは、直接的なコストＫ：Ｋ＝Ｄ（ｓ）^＊ｐ（ｓ）に対して当てはまり、ここで、Ｄ（ｓ）は、この実行が物理的な状態ｓで終了する条件下でオプションを実行するための見積もられた持続時間であり、ｐは、全ての状態ｓにわたって合計された、このような状態ｓにおける該当するオプションの状態条件が満たされる確率である。さらに、コストＫは、システムの別のロボットに既に割り当てられているコストを考慮することができる。

さらに、オプションに対する行動コストＡＫの計算時には、ＡＫ＝Ｋ＋Ｖによって、経験パラメータＶが考慮される。このような経験パラメータＶは、早期のコストを、オプションの実行時に経験値として考慮することを可能にし、これによって、該当するオプションによって規定された行動の直接的なコストＫが修正可能である。

周期性有限オートマトンの場合は、同等である現在のシステム状態と後続のシステム状態との間に、事前に実現された状態遷移（即ち、同等の状態遷移）の観察によって、特定のロボット１による、オプションを実行するためのコストがより良好に見積もられることを可能にする。特に、経験パラメータＶが考慮される。これは、各システム状態に対して、特定のシステム状態への変換がどの程度有利であるのかを示す経験パラメータＶの値が割り当てられることによって行われる。

経験パラメータＶの特定を、以降において、より詳細に説明する。

ステップＳ１３においては、このようにして求められたコストが、該当するロボット１の各可能なオプションに対して、残余の全てのロボット１に伝達される。従って、全てのロボット１において、各オプションに対するコストに関する情報が存在する。

ステップＳ１４においては、自身によって求められたオプションの１つによって、又は、別のロボット１から得られたオプションによって到達される各可能なシステム状態に対して、最小行動コストが求められる。

次に、ステップＳ１５において、各ロボット１において、オプションによって得られる中間状態に対して、自身のコストが、提供された全てのコストの中で最小コストであるか否かが検査される。そうである場合には（選択肢：はい）、該当するロボット１（これを確認したロボット）に、該当するオプション（最小コストを伴う）が割り当てられ、このオプションによって示されたシステム状態を得るための行動指示に変換される。次に、この方法はステップＳ１６に続く。

ステップＳ１６においては、対応して、行動指示の実行が迅速に開始される。

ステップＳ１７においては、各ロボット１において、自身の行動によって、状態条件が満たされたか否か、又は、状態条件を満たしたことに関する対応する情報が、別のロボット１から受信されたか否かが検査される。そうでない場合には（選択肢：いいえ）、ステップＳ１７に戻り、そうである場合には（選択肢：はい）、ステップＳ１９に移動する。

ステップＳ１９においては、例えば、中断条件を示す、所定の目標状態が得られたか否かが検査される。そうである場合には（選択肢：はい）、この方法は、終了する。そうでない場合には、ステップＳ１１に戻る。

ステップＳ１５において、各オプションに対して、いずれのオプションも最小コストによって実行され得ないことが確認されると（選択肢：いいえ）、この方法は、ステップＳ１８に続く。

最小コストが同等である場合には特に、複数のロボット１が、オプションの１つを同時に選択し、対応する行動指示を同時に実行してよい。割り当てプロセスによって、各ロボット１に、それに対応して、各ロボットが行動指示を実行することができるオプションが割り当てられ、又は、各ロボットは何もしないままである。

ステップＳ１８において、オークションの間、行動指示を計画するために、ロボット１は今後の状態を想定することができる。ロボットはこれを追求することができ、タスク提示の今後の部分に対して準備することができる。これは、次のことが保証されることによって行われるべきである。即ち、このような行動指示の追跡が現在のオプションの部分タスクの実行を妨害しない、又は、害を与えないことが保証されることによって行われるべきである。従って、割り当てられていないロボット１へのオプションの分配のために、実行されているオプションの結果を、前提条件として含まないさらなるオプションが考慮される。

環境の不確実性によって、事前に、部分タスクの実行がどのように続くのかが明らかではない。従って、ロボット１は、自身の行動指示を、実行の間、２つの方式により更新することができる。
１．ロボット１のオプションが終了すると、各別のロボット１の現在の状態が更新される。これによって、各ロボット１の状態が変更されるので、事前に実行された行動指示が中断される。
２．ロボット１によって、実行の間に集められた知識が考慮される。これによって、特定のイベントが観察されることを示すイベント確率が整合可能である。このような更新された確率は、各ロボット１に伝達され、個々のオプションのコストを求める際に考慮される。

タスク実行中に、各ロボット１は、この方法を周期的に実施する。ここで、周期性有限オートマトンの共通のシステム状態及び自身のロボット状態が留意される。このような状態を起点として、各ロボット１は、上述した方法を実施し、これによって次のオプションを特定する。はじめに割り当てられたオプションだけが実行されることが許容されており、現在の状態におけるＬＴＡタスク提示に害を与える、予期されるべき前進を受理するオプションは実行されないので、いわゆる待機行動が案内される。ここで、従うべき行動指示に即して各可能な行動に対して、目標状態のうちの１つが現在のシステム状態の移行条件に害を与えるか否かが検査される。移行条件は、各システム状態において、有効な調整又は安全規則を規定する。そうである場合には、各行動は、待機行動によって置換される。この待機行動は、該当するロボット１が、各状態に留まり、移行条件に害を与えることができないことを保証する。

各ロボット１は次に、自身のオプションを実行する。これは、定められた行動指示に従うことによって行われる。第１のロボット１が目標状態に達すると、全ての他のロボット１に中断信号が送信され、これによって、自身の現在の行動が中断される。同時に、次の反復のシステム状態ｑ_ｋ＋１が、各オプションの目標状態ｑ’にセットされ、ロボット１の間で同期される。特に、周期性有限オートマトンの使用時には、システム状態は、目標状態１３に達すると常に、開始状態１１に設定される。

経験パラメータＶは、後続の計算に対応して更新される。ここで、持続時間ｄ_ｋは、反復ｋの実行に必要な持続時間を測定することによって特定される。

このために、経験パラメータＶとＱ関数が、ロボット１の間で分配され、割り当てられているオプションの自身のオプションを実行すべき行動を終了した各ロボット１によって更新される。このために、対応する情報がロボット１の間で伝達される。

オプションの割り当ては、中断後に再度実施され、次のオプションが選択される。この調整によってロボット１は、確率動力学に留意し、自身のタスクの割り当てを、需要に従って整合させることができる。

以降においては、経験パラメータＶがどのようにして求められるのかが記載される。

上述したオークションプロセスにおいて、各ロボット１は、全ての使用可能なオプションに対して、コストＫを、特に実行持続時間ｄの形態で計算し、かつ、該当するオプションに割り当てられた行動の目標状態の経験パラメータＶを計算する。実行持続時間ｄは、オプションの実行のために、該当するオプションの現在のロボット状態から最終状態に達するための予期されている持続時間に相当するが、これによって、複数のロボットを備えるシステムにおける物理的なシステム状態の確率性は、再現されない。これは、次のことによって生じる。即ち、種々のロボットによる、オプションによって示された行動の同時の実行時に、これが、複数のロボットのうちの１つのロボットによる目標状態の達成時に、行動の実行の最中に存在し得る、ことによって生じる。これは、この場合には迅速に終了又は中断される。このようにして生じた、これらの残余のロボット１の不特定の中間状態に基づいて、行動コストを、後続のオークションの自身の次の行動に対して、不正確にしか特定することができない。

従って、確率性が考慮されるべき場合には、最小コストを伴うオプションを、経験パラメータＶの推測的な考慮によってしか求めることができない。経験パラメータＶは、オプションによって実行されるべき行動の開始時に、該当するロボット１の物理的な開始状態の分配に関連する。

分配は、観察される開始状態によって、タスクの繰り返される実行中に再現され、経験パラメータＶは、これによって、長期間のコストを、論理的な状態に関して再現することができる。これによって、オプションの各目標状態を、最短経路問題を解くことによって求めることができる。

従って、周期性有限オートマトンにおける遷移の実行のための持続時間は、経験値

を有するオプションｏの持続時間に相当する。

このような最短経路問題に対するベルマン方程式は、

に相当し、ここで、境界条件Ｖ^＊（ｑ）＝０であり、ｑ’はオプションｏの論理的な目標状態である。ここで、Ｏ（ｑ）は、周期性有限オートマトンのシステム状態に基づく、可能なオプションのセットを示している。このようなアプローチにおいては、持続時間

は未知であり、Ｖ^＊は、実際に実行される行動の実行持続時間

の観察によってのみ、求められる。

近似的な経験コストを、オプションｏによって示される行動の実行時に、システム状態ｑにおいて再現するＱ関数によって、反復ｋに対する見積もられた経験パラメータＶ_ｋが

から、周期性有限オートマトンの全てのシステム状態に対して、システム状態において提供可能なオプションにおいて導出される。

これによって、常に、オプションに属する行動の終了時に、該当するロボットによって行動を実行するためのコスト又は持続時間が求められ、Ｑ関数が

に対応して更新される。α_ｋは、整合パラメータに相当し、これは比較的高いｋの場合には低減され得る。

図５には、マルチエージェントシステムのシナリオに対する例が示されており、これに、上述の方法が有利に適用可能である。このマルチエージェントシステムにおいては、可動のロボットＲ１、Ｒ２、Ｒ３が、タスクを実行すべきである。目標設定は、目標位置のセットを、種々のラベル「ｒｅｄ」、「ｂｌｕｅ」、「ｙｅｌｌｏｗ」及び「ｇｒｅｅｎ」によって示す、図５に示されたカード上で、以降の目標仕様

が実行されるべきである、ということである。

このような目標設定は、目標位置「ｒｅｄ」に搬送し、次に、目標位置「ｂｌｕｅ」へ搬送することによって、又は、最初に、目標位置「ｙｅｌｌｏｗ」に搬送し、次に目標位置「ｇｒｅｅｎ」へ搬送することによって、満たされる。搬送されるべき対象物は、位置ｐ１及びｐ２から取り上げられ得る。さらに、ロボットは、これが搬出を実行するときに損傷を受けることがあり、これが損傷を受けると、さらなる対象物は取り上げられない。損傷を受けたロボット１は、位置「ｓｔａｔｉｏｎ」において修理されるものとしてもよい。

オークション割り当ての分散したアプローチに基づいて、上述の方法は、任意の数のロボット１を有するマルチエージェントシステムに適用可能である。ここで、このミッションの実行時間は、さらなるロボット１の追加によって低減可能である。

Claims

複数のロボット（１）を備えるマルチエージェントシステムの動作方法であって、
各ロボット（１）は、以下の方法を周期的に実施し、即ち、
・現在のシステム状態（ｑ１−ｑ１０）に基づいて、可能な複数のオプションを求め（Ｓ１１）、前記複数のオプションは、現在のシステム状態（ｑ１−ｑ１０）から後続のシステム状態（ｑ１−ｑ１０）への遷移が実現される複数の行動を規定し、
・前記可能な複数のオプションのそれぞれに対して、前記オプションによって示された行動を実行するための行動コストを求め（Ｓ１２）、
・オークションを実行し（Ｓ１４，Ｓ１５）、ここでは各オプションに対して求められた行動コスト値が、残余の各ロボット（１）によって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、前記複数のオプションのうちの１つに相当する行動を実行し（Ｓ１６）、
所定のオプションに対する前記行動コストは、それぞれ経験パラメータ（Ｖ）のうちの１つを考慮し、前記経験パラメータ（Ｖ）は、過去の、既に実行された、前記特定のオプションに対して割り当てられた、前記複数のロボットの複数の行動に対するコストに関連する、
マルチエージェントシステムの動作方法。
前記複数のオプションのうちの１つに相当する行動を、対応する前記オプションに対して受信された全てのコスト値のうちの最も低いコストを示す固有のコスト値が、対応する前記オプションに対して求められた場合に、実行する、請求項１に記載の方法。
前記複数のオプションのうちの１つに相当する行動を、対応する前記オプションに対して受信された全てのコスト値のうちの最も低いコストを示す固有のコスト値が、対応する前記オプションに対して求められない場合に、実行しない、請求項１又は２に記載の方法。
前記経験パラメータ（Ｖ）は、前記オプションによって実行されるべき行動が開始されたときに、該当する前記ロボット（１）の物理的な開始状態の分布に関連する、請求項１乃至３のいずれか一項に記載の方法。
前記経験パラメータ（Ｖ）は、最短経路問題を解くことによって求められる、請求項１乃至４のいずれか一項に記載の方法。
該当する前記ロボット（１）によって前記行動を実行するためのコストが求められ、前記経験パラメータ（Ｖ）が、求められた前記コストに関連して、特に比較的高いｋに対して低減する整合パラメータに特に関連して、整合されることによって、前記経験パラメータ（Ｖ）が、オプションに属する前記行動の終了時に更新される、請求項１乃至５のいずれか一項に記載の方法。
オプションに対する前記コスト値を、前記オプションに割り当てられた前記行動を実行するための持続時間に関連して求める、及び／又は、前記オプションに割り当てられた前記行動の実行時に、前記オプションが導く、前記システム状態（ｑ１−ｑ１０）に達するための状態条件が得られる確率に関連して求める、請求項１乃至６のいずれか一項に記載の方法。
オプションに割り当てられた前記行動の実行時に、前記システム状態（ｑ１−ｑ１０）に達するための状態条件が得られる確率が、前記行動の実行中に更新される、請求項７に記載の方法。
行動の終了時に、得られた前記システム状態（ｑ１−ｑ１０）が、残余の前記ロボット（１）に伝達される、請求項１乃至８のいずれか一項に記載の方法。
後続のシステム状態（ｑ１−ｑ１０）の到達に関する情報が受信されると、行動の実行が中断され又は終了される、請求項１乃至９のいずれか一項に記載の方法。
各オプションに対して求められたコスト値が、残余の各ロボット（１）による、コストの明示的な伝達によって提供される、請求項１乃至１０のいずれか一項に記載の方法。
マルチエージェントシステムの動作のためのロボット（１）であって、前記ロボット（１）は、以下のステップを周期的に実行するように構成されており、即ち、
・現在のシステム状態（ｑ１−ｑ１０）に基づいて、可能な複数のオプションを求め（Ｓ１１）、前記複数のオプションは、現在のシステム状態（ｑ１−ｑ１０）から後続のシステム状態（ｑ１−ｑ１０）への遷移が実現される複数の行動を規定し、
・前記可能な複数のオプションのそれぞれに対して、前記オプションによって示された行動を実行するための行動コストを求め（Ｓ１２）、
・オークションを実行し（Ｓ１４，Ｓ１５）、ここでは各オプションに対して求められた行動コスト値が、残余の各ロボット（１）によって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、前記複数のオプションのうちの１つに相当する行動を実行し（Ｓ１６）、
所定のオプションに対する前記行動コストは、それぞれ複数の経験パラメータのうちの１つを考慮し、前記経験パラメータは、過去の、既に実行された、前記特定のオプションに対して割り当てられた、前記複数のロボットの複数の行動に対するコストに関連する、
マルチエージェントシステムの動作のためのロボット（１）。
請求項１２に記載の、複数のロボット（１）を備えるマルチエージェントシステム。
コンピュータプログラムが計算ユニット、特にロボット（１）上で実行されるときに、請求項１乃至１１のいずれか一項に記載の方法を実施するために構成されているプログラムコード手段を備えたコンピュータプログラム。
請求項１４に記載のコンピュータプログラムが格納されている、機械読み取り可能な記憶媒体。