JP2017010520A - エージェント制御方法、エージェント制御装置、及びマルチエージェントシステム - Google Patents

エージェント制御方法、エージェント制御装置、及びマルチエージェントシステム Download PDF

Info

Publication number
JP2017010520A
JP2017010520A JP2016010839A JP2016010839A JP2017010520A JP 2017010520 A JP2017010520 A JP 2017010520A JP 2016010839 A JP2016010839 A JP 2016010839A JP 2016010839 A JP2016010839 A JP 2016010839A JP 2017010520 A JP2017010520 A JP 2017010520A
Authority
JP
Japan
Prior art keywords
agent
graph
state variable
activity
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016010839A
Other languages
English (en)
Inventor
雅司 岡田
Masashi Okada
雅司 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2017010520A publication Critical patent/JP2017010520A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】実応用への適用性に優れたエージェント制御方法を提供すること。【解決手段】エージェント制御方法において、複数のエージェントの巡回対象を表す複数のノードで構成されたグラフを取得し(S1)、前記グラフのサブグラフを規定する状態変数の関数であって前記グラフを分割して得られる複数のサブグラフの各々をアトラクタとして持つ制御関数と、乱数とを用いて前記状態変数の力学系を表す確率微分方程式を定義し(S3)、少なくとも1つのノードが何れのエージェントによっても巡回されていない時間が長いほど低くなる活性度を計算し(S6)、前記活性度が大きいほど前記制御関数の重みを大きくした前記確率微分方程式に従って、エージェントごとに前記状態変数を更新し、前記更新後の状態変数で規定されるサブグラフに含まれるノードを対応するエージェントの巡回対象として決定する(S7)。【選択図】図4

Description

本発明は、エージェント制御方法、エージェント制御装置、及びマルチエージェントシステムに関し、特にエージェントの分散制御に関するものである。
マルチエージェント巡回とは、ネットワーク(無向グラフ)で表現された領域と、ノード間を自律移動可能な複数のエージェントが与えられ、それらのエージェントを用いてグラフを効率よく巡回するための方策を問う問題である。既存技術としては、何らかの効用関数・方策関数(現状態を基に次に巡回するノードを決定するため関数)を用い、次に向かうノードを都度決定する手法や、方策関数を強化学習により構築する手法、グラフの分割に基づく静的なタスク割り当て、オークションに基づく動的なタスク割り当てなど、多岐にわたるアプローチが提案されている。ここでのタスクは巡回対象となるネットワークのサブグラフ(トポロジ)を指す。
一方、通信ネットワーク分野において、生物の適応的振る舞いを記述するアトラクタ選択、及びアトラクタ重畳に基づく仮想網制御技術が提案されている(特許文献1参照)。本先行技術は、物理網上に形成された仮想網のトポロジを当該仮想網の環境変化に対して適応制御する仮想網制御方法であり、前記仮想網のトポロジのダイナミクスをゆらぎ方程式と呼ばれる単純な制御則と活性度と呼ばれるわずかな情報を利用して制御する。
国際公開第2011/093396号
しかしながら、既存のマルチエージェント巡回の多くは、エージェントの集中管理やエージェント間での比較的複雑な交渉を前提としているため、実応用への適用性(例えば、信頼性、可用性、及び保守性)の点で改善の余地がある。アトラクタ選択及びアトラクタ重畳はそのような改善を行うための潜在的な能力を有している可能性があるが、特許文献1に記載の従来技術は通信ネットワークに関する技術であり、マルチエージェント巡回への適用に関する開示はない。
そこで、本開示は、実応用への適用性に優れたエージェント制御方法、エージェント制御装置、及びマルチエージェントシステムの提供を目的とする。
上記の課題を解決するために、本開示の一態様に係るエージェント制御方法は、複数のエージェントの巡回対象を表す複数のノードで構成されたグラフを取得し、前記グラフのサブグラフを規定する状態変数の関数であって前記グラフを分割して得られる複数のサブグラフの各々をアトラクタとして持つ制御関数と、乱数とを用いて前記状態変数の力学系を表す確率微分方程式を定義し、少なくとも1つのノードが何れのエージェントによっても巡回されていない時間が長いほど低くなる活性度を計算し、前記活性度が大きいほど前記制御関数の重みを大きくした前記確率微分方程式に従って、エージェントごとに前記状態変数を更新し、前記更新後の状態変数で規定されるサブグラフに含まれるノードを対応するエージェントの巡回対象として決定するものである。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、またはコンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、およびコンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示によれば、各エージェントに巡回担当領域が割り当てられていない状態からも、分散的、かつ協調的にノードの漏れがないように担当領域を決定可能である。また、エージェントの故障に対しても、各エージェントが担当領域を変えることにより対応可能である。また数百のノードから構成されるような大規模なグラフにおいても適応可能である。
本開示によれば、全エージェントで共有される活性度を介して協調動作し、エージェント間の複雑な交渉を必要としない。また、活性度の共有は各エージェントのブロードキャスト通信のみで完結する。その際の通信量も小さく、通信の頻度も間欠的であるため、移動ロボットを用いた実応用においては、ZigBeeなどの省電力無線通信規格を用いた実現が期待できる。
アトラクタ選択によって駆動される系の挙動を概念的に示す図 本開示での系の挙動を概念的に示す図 本開示の実施の形態1に係るエージェント制御装置のブロック図 本開示の実施の形態1の動作を説明するためのフローチャート 本開示の実施の形態2に係るエージェント制御装置のブロック図 本開示の実施の形態2の動作を説明するためのフローチャート シナリオ1、シナリオ2でのシミュレーションの条件を示す表 シミュレーション(シナリオ1)において巡回対象となるグラフを示す図 シミュレーション(シナリオ2)において巡回対象となるグラフを示す図 シミュレーション(シナリオ1)において各エージェントの担当領域の時間遷移を示す図 シミュレーション(シナリオ1)において活性度と平均巡回空き時間の時間変化を示す図 シミュレーション(シナリオ2)において各エージェントの担当領域の時間遷移を示す図 シミュレーション(シナリオ2)において活性度と平均巡回空き時間の時間 本開示の実施の形態3に係るエージェントの斜視図 本開示の実施の形態3に係るマルチエージェントシステムを示す図
(本発明の基礎となった知見)
[アトラクタ選択]
アトラクタ選択とは、未知の環境変化に対する生物の適応的な振る舞いを記述する数理モデルであり、本モデルで駆動される力学系(以下、単に系と言う)の状態変数xは数式1のランジュバン方程式(確率微分方程式)によって支配される。
アトラクタ選択において数式1はゆらぎ方程式と呼称される。ゆらぎ方程式において、αは活性度と呼ばれる系のコンディションを示す指標である。f(x)はアトラクタを持つ制御関数、ηはノイズであり、それぞれは系の時間発展の決定論的、及び確率的な挙動を記述する。ここでアトラクタとはf(x)=0となる点を指す。α・f(x)=−gradφとするとき、アトラクタ選択における系の挙動は、ポテンシャルφで定まる場を揺らぐ粒子の振る舞いとして表現できる。
図1を例に系の挙動を説明する。この図では視覚化のため、xを一次元としている。(1)活性度が高い場合、粒子はアトラクタ、すなわち−gradφ=0(ポテンシャルの勾配が零)となる点の付近に束縛され、系は定常状態を維持する。(2)一方、活性度が低くなると、粒子はポテンシャルの束縛から解かれ、ノイズの作用により系の状態は確率的に変化する。(3)確率的な変化の過程で活性度が高くなると、粒子は再度、近傍のアトラクタに束縛され、系は新たな定常状態に遷移する。このように、本モデルで駆動される系は、活性度にもとづいて環境に適した状態を選択する。
特許文献1では本モデルに基づき、輻輳やリンクの故障に頑健な仮想網制御技術を提案している。活性度としては容易に取得可能な情報であるリンク利用率のみを用いることで、環境変化に対する高速な反応と適応を実現している。
[アトラクタ重畳]
アトラクタ選択により駆動する複数の系が同一環境に存在し、それらが相互作用することを考える。このとき、全ての系が同一の活性度を共有することで、各々の系は共通の活性度が高くなるように状態を選択する。すなわち、活性度という媒体を通じて、全ての系が協調的な振る舞いを見せる。この概念をアトラクタ重畳と呼び、特許文献1では、本概念に基づき複数の仮想網を協調的に制御する方法も併せて提案している。
本開示では、アトラクタ重畳の概念を用いて複数のエージェントを協調的に自律分散制御する。前提として、エージェントは自身の状態を他エージェントにブロードキャストできる能力を持つものとする。また、故障等によりエージェントの個体数は変化するものとし、正確な個体数は未知であるとする。
上記知見に基づき、本発明者らは、アトラクタ選択及びアトラクタ重畳を用い、実応用への適用性に優れた新規なエージェント制御方法、エージェント制御方法、及びマルチエージェントシステムを考案した。
以下、本開示の一態様に係るエージェント制御方法、エージェント制御方法、及びマルチエージェントシステムについて、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
[概略]
数式1における状態変数x∈[0,1]は各エージェントの巡回するノードを示す変数とする。Nはグラフの全ノード数である。状態変数の各要素x∈xはノードi∈{1,2,・・・,N}に対応し、エージェントはx≧0.5となるノードから構成されるサブグラフを巡回する。制御関数f(x)には、巡回領域の複数の候補がアトラクタとして定義されており、あるアトラクタは、対応するサブグラフのノードに対応する要素が1、それ以外の要素が0の二値で構成される。
図2を参照しながら本手法での系の挙動を概説する。図中の曲面はポテンシャルを、粒子が各エージェントの状態(巡回領域)を、ポテンシャルにおけるアトラクタが巡回領域の候補をそれぞれ示している。なお本図では、視覚化のために状態変数を2次元としている。図2(a)では、全ノードを漏れなく巡回するように巡回領域が割り当てられている。この場合、活性度は高く、エージェントは定常状態を維持する。一方、図2(b)では、一台のエージェントが動作を停止した状態を示している。この場合、活性度は低下し、エージェントはノイズにより新たな状態の探索を開始する。探索の過程で、全ノードをカバーできる状態を発見すると、活性度は上昇し、図2(c)に示す通り、エージェントは再び定常状態に移行する。
[本実施の形態の構成要素]
図3は本実施の形態に係るエージェント制御装置30aの機能的な構成を示すブロック図である。本図においてグラフ取得部31は巡回対象となるグラフの情報を取得する。担当領域候補作成部32は、グラフ取得部31で取得したグラフ構造から巡回担当領域の候補群を作成する。ゆらぎ方程式設計部33は、担当領域候補作成部32で作成した担当領域候補群をアトラクタとして持つゆらぎ方程式を設計する。エージェント間通信部34は、エージェントの現在の担当領域を他エージェントにブロードキャスト通信により通知し、また、他エージェントからの通知を受信する。活性度計算部35は、自身の担当領域、またはエージェント間通信部34から取得した他エージェントの担当領域の情報を基に活性度を計算する。担当領域更新部36は、ゆらぎ方程式設計部33で設計したゆらぎ方程式と、活性度計算部35で計算した活性度の値を基に担当領域を更新する。巡回路計算部37は、担当領域更新部36で計算した担当領域の巡回路を計算する。エージェント制御部38は、巡回路計算部37で計算した巡回路を巡回するようにエージェントを制御する。
エージェント制御装置30aは、例えば、図示していないマイクロプロセッサやメモリを有するコンピュータにより構成されてもよい。エージェント制御装置30aの構成要素の一部又は全部の機能は、前記マイクロプロセッサが前記メモリにあらかじめ保持されているプログラムを実行することによって達成されてもよい。また、エージェント制御装置30aの構成要素の一部又は全部の機能は、専用のハードウェア回路によって達成されてもよい。
[本実施の形態の動作の流れ]
図4は本実施の形態における各エージェントの動作を説明するフローチャートである。まずS1において、グラフ取得部31はエージェントの巡回対象となる領域を表現するグラフを取得する。次にS2において、担当領域候補作成部32は、取得したグラフを基に、担当領域の候補を複数作成する。その後S3において、ゆらぎ方程式設計部33は担当領域候補をアトラクタとして持つゆらぎ方程式を設計する。ゆらぎ方程式の設計後、S4において、エージェントは初期担当領域を決定し、S5において担当領域に含まれるすべてのノードを訪問する巡回路を算出する。ノードの巡回はエージェント制御部38によって制御される。全てのノードを巡回した後、S6において、活性度計算部35は活性度を計算し、S7において、担当領域更新部36は活性度を基に、担当領域を更新する。その際、S8においてエージェント間通信部34は最新の担当領域を全エージェントに通知する。S5からS8の処理は繰り返し実行され、エージェントは巡回を継続的に実施する。
[担当領域候補の作成]
S2における担当領域候補の作成について述べる。本実施の形態では、グラフ分割アルゴリズムにより、グラフをD分割したときのサブグラフを巡回領域の候補とし、アトラクタを定義している。ただしD∈{Dmin,・・・,Dmax}であり、Dmax、Dminは最大のエージェント数などに基づき決定する。担当領域候補の作成については、グラフ分割アルゴリズムによるものに限るものではなく、別の方法を用いてもよい。
[ゆらぎ方程式の設計]
特許文献1では、所望のアトラクタを持つ制御関数f(x)を定義するためにHopfield networkを用いている。しかしながら、Hopfield networkで定義できるアトラクタの数は、状態変数xの次元数の15%程度であり、厳しい制約がある。そこで本発明では、数式2に示すRestricted Boltzmann Machine(RBM)の利用を新規に提案する。
ζ(z)は数式3に示すシグモイド関数であり、W、θ、θはRBMのモデルパラメータである。
上記モデルパラメータは、所望のアトラクタの集合を学習データとし、Contrastive Divergence法により計算する。RBMで定義できるアトラクタの数は、隠れ変数の次元数に比例することが知られており、当該次元数を調整することで、任意の数のアトラクタを収容可能な制御関数f(x)を定義することができる。
[担当領域の巡回]
S5における、担当領域の巡回路は中国人郵便配達問題を解くことで決定する。なお、別のアルゴリズムを用いて巡回路を決定してもよい。
[活性度の計算]
S6における活性度の計算について説明する。本発明では、活性度をベクトルαとして定義し、要素α∈αをノードiに対応させる。数式1における第一項(活性度と制御関数の積)は、ベクトルの要素ごとの積とする。各ノードの活性度αは、S8においてエージェントが最後に当該ノードへの巡回を宣言してから現在までの時間tに基づき、次式で計算する。
数式4は、tが閾値tthdを超えると減衰するように定義されている。μは減衰の傾きを決めるパラメータである。このように計算される活性度αは、少なくとも1つのノードが何れのエージェントによっても巡回されていない時間が長いほど低くなる活性度の一例である。
[担当領域の更新]
S3で設計したゆらぎ方程式を基に、担当領域を決定する。本実施例では、ノイズη∈ηを、それぞれ独立した正規分布に基づく正規乱数としている。ただし、正規分布の平均は1−αに比例させることにより、活性度の低いノードを積極的に巡回対象とするようにしている。
複数のエージェント制御装置30aが協調して上述の動作を行うことにより、図2で説明した系の挙動に従って、各エージェント制御装置30aの担当領域は、全てのノードが漏れなく巡回されるように決定される。
(実施の形態2)
[本実施の形態の構成要素]
図5は本実施の形態に係るエージェント制御装置30bの機能的な構成を示すブロック図である。本図において図3と同様の要素については同じ符号を用い説明を省略する。図5において、次元削減部39は、担当領域候補作成部32の結果を基に状態変数の次元削減処理を行う。
エージェント制御装置30bは、例えば、図示していないマイクロプロセッサやメモリを有するコンピュータにより構成されてもよい。エージェント制御装置30bの構成要素の一部又は全部の機能は、前記マイクロプロセッサが前記メモリにあらかじめ保持されているプログラムを実行することによって達成されてもよい。また、エージェント制御装置30bの構成要素の一部又は全部の機能は、専用のハードウェア回路によって達成されてもよい。
[本実施の形態の動作の流れ]
図6は本実施の形態における各エージェントの動作を説明するフローチャートである。
本図において図4と同様の処理ステップについては同じ符号を用い説明を省略する。本フローチャートではS2の担当領域候補の作成後に、次元削減部39において実行される状態変数の次元削減処理S9が追加されている。S9の処理について以下に説明する。
[状態変数の次元の削減]
S9では、Boolean Matrix Factorization(BMF)を用いて、状態変数の次元を削減し、以降の処理ステップにおける計算コストや通信量を削減する。Mを巡回領域の候補数(アトラクタ数)とし、M行N列の行列Xを考える。Xは各要素がxji∈{0,1}である二値行列であり、j行目の行ベクトルはアトラクタjである。BMFにより、Xは次式のように、二つの二値行列Y,Bの積の形に分解できる。
上記の操作は、ノードのクラスタリングと解釈できる。YはM行N’列、BはN’行N列であり、N’(<N)はクラスタ数を示す。Bのi’行は基底ベクトルであり、あるクラスタi’に所属するノードに対応する要素が1となる。一方、Yのj行は、クラスタリング後のアトラクタjを示し、巡回領域を構成するクラスタに対応する要素が1となる。ここで、xの代わりにN’次元の状態変数yを新たに用いることができる。各要素yi’∈yはクラスタi’∈{1,2,・・・,N’}に対応する。yからxの変換は数式6で計算でき、エージェントはx≧0.5となるノードから構成されるサブグラフを巡回する。つまり、本実施の形態では、各エージェントの巡回対象はクラスタの単位で決定される。
制御関数は、Yの行ベクトルをアトラクタとして持つf(y)を用いる。活性度、ノイズに関しては、実施の形態1の説明において、ノードをクラスタと読み替えて、新規に定義する。この次元削減により、数式2の行列計算やRBMのモデルパラ―メタの決定に要する計算コスト、及び、S8の担当領域の通知時における通信量を削減することができる。
[シミュレーションによる検証]
本実施の形態を基に、提案手法の動作をイベント駆動シミュレーションにより検証する。本シミュレーションでは、エージェントは単位時間あたり単位距離移動するものとしている。
シナリオ1、シナリオ2でのシミュレーションの条件を図7に示す。また、シナリオ1、シナリオ2で巡回対象となるグラフを図8、図9にそれぞれ示す。図8のグラフは実際の環境を想定したものであり、ノードは26m×16mの範囲に分布する。図9のグラフはrandom geometric graphであり、10m×10mの範囲で300個の点を一様乱数により生成し、二点間のマンハッタン距離が一定値以下のノード対を連結した。クラスタ数N’は数式5を満足する最小の値を選択し、また、制御関数におけるRBMの隠れ変数の数はアトラクタ数と同数とした。
図10、図11にシナリオ1でのシミュレーションの結果を示す。図10はシミュレーションを行った際の、各エージェントの担当領域の遷移を示す。濃度が互いに異なる灰色で表された領域A1〜A4が、各エージェントの担当領域を示している。また、図11は活性度(min−activity)と平均巡回空き時間(mean idleness)の時間変化を示す。ただし、活性度はベクトルであるため、ベクトルの要素の最小値をプロットしている。また、平均巡回空き時間とは各ノードが最後に巡回されてから現在までの時間を、全ノードにわたって平均した値である。本シナリオでは、初期(t=0)の状態として全エージェントの担当領域A1〜A4が完全に重複している状態から開始している(図10の(a))。
図10の(b)はシミュレーション開始から、一定時間経過後の状態を示しており、全てのノードを各エージェントが分担して巡回するように担当領域を決定していることがわかる。また、本シナリオでは図10の(b)の状態から一定時間後に、領域A4を担当していたエージェントの動作を停止させている。この環境変化により、図9において、t=3000付近で活性度と平均巡回空き時間が不安定な状態になっている。しかしながら、図10の(c)に示す通り、各エージェントは担当領域A1〜A3を変化させることで環境変化に対して適応し、漏れの無いように全ノードを巡回できていることがわかる。
シナリオ2における担当領域の時間遷移と、活性度・平均巡回空き時間の時間変化を図12、図13にそれぞれ示す。本シナリオにおいても、シナリオ1と同様に、担当領域B1〜B6が共通の状態から開始し、また、一定時間経過後に領域B6を担当していたエージェントを1台停止させている。図12、図13から、先のシナリオと同様に、各エージェントは自律的に担当領域B1〜B5を変化させ、かつ、エージェントの故障に対して適応できていることがわかる。
(実施の形態3)
[本実施の形態の構成要素]
図14は本実施の形態に係るエージェント100の構成を模式的に示す斜視図である。エージェント100は、エージェント制御装置から指定される領域を自律的に移動しながら、一例として、清掃、警備、運搬などの所定のサービスを行う移動ロボットである。エージェント制御装置には、先の実施の形態で説明したエージェント制御装置30a、30bが用いられる。
エージェント100において、サービス装置10は、適したセンサ及び機構を有し、清掃、警備、運搬などのサービスを実行する。移動装置20は、車輪、駆動機構、及び操舵機構を備え、エージェント100をエージェント制御装置30a、30bのエージェント制御部38から指定される領域内で移動させる。エージェント制御装置30a、30bは、エージェント100の担当領域を決定して移動装置20に指示する。担当領域の決定は、先の実施の形態で説明した処理に従って、エージェント間通信部34を介した他のエージェント制御装置30a、30bと通信によって行われる。バッテリー40は、サービス装置10、移動装置20、エージェント制御装置30a、30bに動作電力を供給する。
図15は本実施の形態に係るマルチエージェントシステムを示す図である。本図は施設内を巡回する4台のエージェント100を示している。本図において、黒枠は壁などの障害物であり、当該障害物によって図8のグラフに対応する実際の巡回対象が形成されている。4台のエージェント100は、例えば、図10の(b)に示す担当領域A1〜A4をそれぞれ巡回している。領域A4を担当していたエージェント100が、例えばメンテナンスや故障のために巡回から離脱しても、残りの3台のエージェント100は、各々の担当領域を、例えば図10の(c)に示す担当領域A1〜A3に変化させ、漏れの無いように全ノードを巡回できるようになる。
以上、本発明の実施の形態に係るエージェント制御方法、エージェント制御装置、マルチエージェントシステムについて説明したが、本発明はこれら実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、マルチエージェント巡回におけるエージェント制御方法、エージェント制御装置として、例えば清掃、警備、運搬などの所定のサービスを行うマルチエージェントシステムに広く利用できる。
10 サービス装置
20 移動装置
30a、30b エージェント制御装置
31 グラフ取得部
32 担当領域候補作成部
33 方程式設計部
34 エージェント間通信部
35 活性度計算部
36 担当領域更新部
37 巡回路計算部
38 エージェント制御部
39 次元削減部
40 バッテリー
100 エージェント

Claims (7)

  1. 複数のエージェントの巡回対象を表す複数のノードで構成されたグラフを取得し、
    前記グラフのサブグラフを規定する状態変数の関数であって前記グラフを分割して得られる複数のサブグラフの各々をアトラクタとして持つ制御関数と、乱数とを用いて前記状態変数の力学系を表す確率微分方程式を定義し、
    少なくとも1つのノードが何れのエージェントによっても巡回されていない時間が長いほど低くなる活性度を計算し、
    前記活性度が大きいほど前記制御関数の重みを大きくした前記確率微分方程式に従って、エージェントごとに前記状態変数を更新し、
    前記更新後の状態変数で規定されるサブグラフに含まれるノードを対応するエージェントの巡回対象として決定する、
    エージェント制御方法。
  2. 前記制御関数は、前記アトラクタの集合を用いて学習させたRestricted Boltzmann Machineで構成されている、
    請求項1に記載のエージェント制御方法。
  3. 前記活性度の計算において、全てのエージェントで共通の前記活性度を計算する、
    請求項1に記載のエージェント制御方法。
  4. 前記複数のノードを複数のクラスタにクラスタリングし、クラスタの単位で各エージェントの巡回対象を決定する、
    請求項1に記載のエージェント制御方法。
  5. 複数のエージェントの巡回対象を表す複数のノードで構成されたグラフを取得するグラフ取得部と、
    前記グラフのサブグラフを規定する状態変数の関数であって前記グラフを分割して得られる複数のサブグラフの各々をアトラクタとして持つ制御関数と、乱数とを用いて前記状態変数の力学系を表す確率微分方程式を定義するゆらぎ方程式設計部と、
    少なくとも1つのノードが何れのエージェントによっても巡回されていない時間が長いほど低くなる活性度を、他のエージェントとの通信に基づいて、計算する活性度計算部と、
    前記活性度が大きいほど前記制御関数の重みを大きくした前記確率微分方程式に従って、エージェントごとに前記状態変数を更新し、前記更新後の状態変数で規定されるサブグラフに含まれるノードを対応するエージェントの巡回対象として決定する担当領域更新部と、
    を備えるエージェント制御装置。
  6. 前記制御関数は、前記アトラクタの集合を用いて学習させたRestricted Boltzmann Machineで構成されている、
    請求項5に記載のエージェント制御装置。
  7. 複数のエージェントからなり、前記複数のエージェントの各々が、
    請求項5又は6に記載のエージェント制御装置と、
    前記エージェント制御装置が決定した担当領域内で前記エージェントを移動させる移動装置と、を有する、
    マルチエージェントシステム。
JP2016010839A 2015-06-25 2016-01-22 エージェント制御方法、エージェント制御装置、及びマルチエージェントシステム Pending JP2017010520A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562184424P 2015-06-25 2015-06-25
US62/184,424 2015-06-25

Publications (1)

Publication Number Publication Date
JP2017010520A true JP2017010520A (ja) 2017-01-12

Family

ID=57764010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016010839A Pending JP2017010520A (ja) 2015-06-25 2016-01-22 エージェント制御方法、エージェント制御装置、及びマルチエージェントシステム

Country Status (1)

Country Link
JP (1) JP2017010520A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017006907T5 (de) 2017-01-24 2019-10-02 Denso Corporation Sitzklimaanlage
WO2022195807A1 (ja) * 2021-03-18 2022-09-22 東芝エネルギーシステムズ株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017006907T5 (de) 2017-01-24 2019-10-02 Denso Corporation Sitzklimaanlage
WO2022195807A1 (ja) * 2021-03-18 2022-09-22 東芝エネルギーシステムズ株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
Davidović Bee colony optimization Part I: The algorithm overview
Best et al. Online planning for multi-robot active perception with self-organising maps
Gomes et al. Evolution of swarm robotics systems with novelty search
Acı et al. A modified dragonfly optimization algorithm for single-and multiobjective problems using Brownian motion
CN107995039B (zh) 面向云软件服务的资源自学习与自适应分配方法
Rezvanian et al. Recent advances in learning automata
Taghiyeh et al. A new particle swarm optimization algorithm for noisy optimization problems
Yedidsion et al. Applying max-sum to teams of mobile sensing agents
Wang et al. Self-play learning strategies for resource assignment in Open-RAN networks
KR101416916B1 (ko) 에이전트 기반의 군사 시뮬레이션 환경에서 물자의 최적 분배 시스템 및 그것의 제어방법
Girard et al. Concurrent Markov decision processes for robot team learning
Rosendo et al. A hybrid particle swarm optimization algorithm for combinatorial optimization problems
Anantathanavit et al. Using K-means radius particle swarm optimization for the travelling salesman problem
JP2017010520A (ja) エージェント制御方法、エージェント制御装置、及びマルチエージェントシステム
Ibrahim et al. Applications of multi-agent deep reinforcement learning: Models and algorithms
Ren et al. An energy‐aware method for task allocation in the Internet of things using a hybrid optimization algorithm
Gai et al. Digital twin-enabled AI enhancement in smart critical infrastructures for 5G
Manupati et al. Intelligent search techniques for network-based manufacturing systems: multi-objective formulation and solutions
Duong-Ba et al. Distributed client-server assignment for online social network applications
Elhoseny et al. Mobile object tracking in wide environments using WSNs
Reynolds et al. Cultural algorithm framework
Hamann et al. Population coding: A new design paradigm for embodied distributed systems
Li et al. Decentralized coordination control for a network of mobile robotic sensors
Ramezan Shirazi et al. Morphogenetic self-organization of collective movement without directional sensing
Brush et al. The content and availability of information affects the evolution of social-information gathering strategies