JP2000020494A - マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法 - Google Patents

マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法

Info

Publication number
JP2000020494A
JP2000020494A JP10192101A JP19210198A JP2000020494A JP 2000020494 A JP2000020494 A JP 2000020494A JP 10192101 A JP10192101 A JP 10192101A JP 19210198 A JP19210198 A JP 19210198A JP 2000020494 A JP2000020494 A JP 2000020494A
Authority
JP
Japan
Prior art keywords
learning method
reinforcement learning
learning
environment identification
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10192101A
Other languages
English (en)
Inventor
Satoshi Kurihara
聡 栗原
Toshiharu Sugawara
俊治 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10192101A priority Critical patent/JP2000020494A/ja
Publication of JP2000020494A publication Critical patent/JP2000020494A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 経験強化型強化学習法と環境同定型強化学習
法を統合して、学習に要する試行回数が少なく、動的な
環境の変化に対してロバスト性があり、最適な学習効果
が得られるマルチエージェントモデルを用いて経験強化
型強化学習法と環境同定型強化学習法を統合する分散強
化学習法を提供する。 【解決手段】 経験強化型強化学習法と環境同定型強化
学習法を統合して、学習に要する試行回数が少なく、動
的な環境の変化に対してロバスト性がある経験強化型強
化学習法の特徴と最適に近い学習効果が得られる環境同
定型強化学習法の特徴を具備している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、実世界において人
とインタラクションを行う自律移動ロボットやインター
ネットとユーザとの自律的なインタラクションを行うイ
ンタフェースエージェント等のような自律行動主体が行
動計画モジュールに従って行動するだけでなく、環境内
の個々の状況に対して効率よく適用できるための強化学
習を行うマルチエージェントモデルを用いて経験強化型
強化学習法と環境同定型強化学習法を統合する分散強化
学習法に関する。
【0002】
【従来の技術】プランニングモジュールは自律行動主体
を設計する際の基本的な部分である。特に実世界やイン
ターネットなど、規模が大きく動的に変化するような環
境を対象とする場合は変化に対して柔軟なプランニング
が行えることが必要である。しかしながら、これら自律
行動主体をより効果的に機能させるためには、プランニ
ングモジュールに加えて環境内で遭遇する種々の事態に
効果的に適応させるための強化学習モジュールが必要不
可欠である。
【0003】従来の強化学習法は、大きく経験強化型と
環境同定型の2種類に分類されているが、以下簡単に概
要を説明する。なお、強化学習法に関しての基本的な説
明は「エージェントアプローチ人工知能、古川康一監
訳、共立出版、1997」を参照されたい。
【0004】経験強化型強化学習法は、これまで提案さ
れてきた多くの強化学習法が属するものであり、古典的
強化学習法とも呼ばれているが、これらの提案されてい
る手法の中で最も代表的なものがprofit-sharing(J.J.
Grefenstette:Credit Assignment in Rule Discovery
Systems Based on Generic Algorithms,Machine Learni
ng,Vol.3,pp.225-245,1988参照)である。なお、経験強
化型強化学習法の具体的なアルゴリズムとして以降prof
it-sharing法を用いる。このprofit-sharing法は、報酬
を得た時にそれまでの行動系列を一括して強化する。こ
の時の行動系列を「エピソード」という。学習に要する
試行回数が少ないこと、また動的な環境の変化に対して
多少のロバスト性があるという特徴を有する。しかしな
がら、最適な学習結果が得られないという欠点が指摘さ
れている。
【0005】また、環境同定型強化学習法は、近年特に
注目されている手法であり、Q-learning(C.J.C.Watkin
s and P.Dayan:Technical Note:Q-learning,Machine Le
arning,Vol.8,pp.55-68,1992参照)がこれまで提案され
ている中で代表的な手法である。なお、環境同定型強化
学習法の具体的アルゴリズムとして以降Q-learning法を
用いる。このQ-learning法の特徴は、Q値を求める際に
環境の状態が正確に同定されれば必ず最適な学習効果が
得られる点にある。欠点としては、profit-sharingに比
べて非常に多くの試行回数を要することや、環境の動的
な変化に対するロバスト性が乏しく、学習中に環境が変
化してしまうとそれまで得られた学習結果全体に影響が
及んでしまうことが指摘されている。
【0006】
【発明が解決しようとする課題】対象とする自律行動主
体のための強化学習法について考えてみると、以下2つ
の特徴を合わせ持つことが必要である。
【0007】(1)環境の動的な変化に対応できるロバ
ストな強化学習法でなければならない。つまり、profit
-sharing法の特徴を有することが必要である。
【0008】(2)なるべく最適に近い学習結果が得ら
れる必要がある。例えば、学習結果に基づき移動ロボッ
トが移動することを想定すると、ロボットのバッテリを
考慮すれば無駄な移動は避けなければならない。また、
インターネットから有用な情報を収集するためにネット
ワーク上を移動するプログラムであるソフトウェアエー
ジェントを想定すると、やはり無駄なネットワーク上の
移動は避けなければならない。無論これら自律行動主体
を使用しているユーザにとっても、ロボットが与えられ
たタスクを早急に達成できること、またソフトウェアエ
ージェントが俊敏にユーザが欲しい情報を収集してくれ
ることは必須である。つまり、Q-learning法の特徴も有
することが必要である。
【0009】本発明は、上記に鑑みてなされたもので、
その目的とするところは、経験強化型強化学習法と環境
同定型強化学習法を統合して、学習に要する試行回数が
少なく、動的な環境の変化に対してロバスト性があり、
最適な学習効果が得られるマルチエージェントモデルを
用いて経験強化型強化学習法と環境同定型強化学習法を
統合する分散強化学習法を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、規模が大きく動的に変化
する環境下で動作する自律移動ロボットおよびインタフ
ェースエージェントを含む自律行動主体が環境に自律的
に適用するために行う強化学習に対してマルチエージェ
ントモデルを用いて経験強化型強化学習法と環境同定型
強化学習法を統合することを要旨とする。
【0011】請求項1記載の本発明にあっては、経験強
化型強化学習法と環境同定型強化学習法を統合するた
め、学習に要する試行回数が少なく、動的な環境の変化
に対してロバスト性がある経験強化型強化学習法の特徴
と最適に近い学習効果が得られる環境同定型強化学習法
の特徴を有することができる。
【0012】また、請求項2記載の本発明は、請求項1
記載の発明において、前記経験強化型強化学習法が、報
酬を貰えたか否かを判定して報酬を貰えた場合には、環
境同定エージェントを生成し、報酬を貰えない場合に
は、記憶モジュールに出会ったか否かを判定し、記憶モ
ジュールに出会った場合には強化値をセットするように
したことを要旨とする。
【0013】請求項2記載の本発明にあっては、経験強
化型強化学習法では報酬を貰えた場合には環境同定エー
ジェントを生成し、報酬を貰えない場合には記憶モジュ
ールに出会ったか否かを判定し、記憶モジュールに出会
った場合には強化値をセットするようになっている。
【0014】更に、請求項3記載の本発明は、請求項1
または2記載の発明において、前記環境同定型強化学習
法が、同定を行うためのヒューリスティック距離を使用
し、移動した状態の環境同定率を計算し、この計算値が
所定の値を下回る場合は移動し、前記計算値が所定の値
以上である場合は、活性伝播を行った後、前記ヒューリ
スティック距離Hを順次増加させることを要旨とする。
【0015】請求項3記載の本発明にあっては、環境同
定型強化学習法ではヒューリスティック距離を使用し、
環境同定率を計算し、計算値が所定の値を下回る場合は
移動し、計算値が所定の値以上である場合は活性伝播を
行った後、ヒューリスティック距離Hを順次増加させる
ようにしている。
【0016】
【発明の実施の形態】本発明の分散強化学習法は、マル
チエージェントモデルの枠組を用いて、経験強化型強化
学習法と環境同定型強化学習法とを効果的に統合したも
のであり、以下”MarLee”(Multi-Agent Reinforcemen
t Learning System using Exploitation and Explorati
on)と称することにする。
【0017】まず、MarLeeを説明するための例として、
図1に示すような格子状の状態空間S内を移動する自律
行動主体Aを考える。状態空間Sを構成する個々の状態
はそれぞれS1a,…,S7fのように表記される。自律行
動主体Aは状態空間S内を上下左右に1ブロックずつ移
動することができ、数箇所存在する報酬獲得ポイントB
にて報酬を得ることができる(得られる報酬量はB毎に
それぞれ異なる)。また、状態空間S内には障害物も存
在し、自律行動主体Aは障害物を通過することはできな
い。報酬獲得ポイントBの位置と数は変化しないが、障
害物の位置と数は動的に変化するものとする(動的な環
境の変化)。
【0018】自律行動主体Aは初期状態では状態空間S
が格子状の環境で自分が上下左右に移動できること以
外、報酬獲得ポイントBや障害物の位置に関しての情報
は一切持っていない。また、自分が移動した経路の情報
に関してのみ得ることができる。
【0019】自律行動主体Aが行う強化学習は、常に安
定して高い報酬を獲得できる移動経路を学習することで
ある。つまり、単に高い報酬を獲得できる報酬獲得ポイ
ントBまでの経路を学習するのではなく、状況によって
は獲得報酬量は少なくても想定される移動ステップ数が
少なければ、その報酬獲得ポイントBへの最適な経路が
学習できなければならない。そして、障害物が動的に消
滅/出現するので、これを察知した時にその時点までに
獲得できた学習結果を柔軟に変更でき、学習の効率を低
下させないようにすることも必要となる。
【0020】MarLeeはマルチエージェントモデルの枠組
で構成され(マルチエージェントモデルの詳しい説明は
「エージェントアプローチ人工知能、古川康一監訳、共
立出版、1997参照)、経験強化型の強化学習を行う
1つのエージェント(経験強化エージェントと呼ぶ)
と、環境同定型の強化学習を行う複数のエージェント
(環境同定エージェントと呼ぶ)が互いに協調すること
で強化学習を行う。
【0021】経験強化エージェントは、profit-sharing
と同様の経験強化型の強化学習を行う。上述したよう
に、profit-sharingでは「エピソード」が学習の単位で
あり、エピソードとエピソードに割り振られた強化値を
記憶していく。強化値の割り当て方法もprofit-sharing
と同様で、エピソードを構成する各状態に対して報酬ポ
イントからそれだけ過去であるかを引数として強化値を
返す強化関数に基づいた強化値を割り当てる。profit-s
haringにおいては強化関数の性能が学習効率に大きく影
響を与えることが指摘されており、この点に関しては多
くの研究が行われている。なお、MarLeeにおいては標準
的な強化関数を採用する。
【0022】次に、経験強化エージェントが従来のprof
it-sharingと異なる点について説明する。経験強化エー
ジェントは報酬を得ると、報酬を得たポイントを中心
に、報酬量に応じたエリアを対象として環境同定型強化
学習を行う環境同定エージェントを1つ生成する。生成
された環境同定エージェントは、その後経験強化エージ
ェントとは独立に割り当てられたエリアを対象に環境同
定型強化学習を遂行していく。経験強化エージェントは
その後再び経験強化型学習を続行し、別の報酬ポイント
に出会うと新たな環境同定エージェントを生成し、この
作業を繰り返す上記シミュレーション環境においては、
1つの自律行動主体Aに経験強化エージェントが実装さ
れ、他の複数の自律行動主体Aに環境同定エージェント
が実装される構造になる。
【0023】環境同定エージェントが同定作業を開始し
たエリア内においては、その環境同定エージェントが学
習を終了することにより最適な学習結果が得られるの
で、環境同定エージェントを生成させた後は、経験強化
エージェントは各環境同定エージェントによる同定エリ
アの外周に到達するまでの経路に関する経験強化学習の
みを行う。
【0024】環境同定エージェントは、Q-learningと同
様の環境同定型強化学習を行う。ただし、ロバスト性を
向上させるために行動選択ネットワークに基づく活性伝
播を用いた環境同定を行う。
【0025】行動選択ネットワーク(P.Maes:The Agent
Network Architecture(ANA), SIGATR Bulletin,Vol.2,
No.4,pp.115-120,1991参照)は、比較的単機能なエージ
ェント集合が互いに活性値を伝播し合うことで協調し、
エージェント全体として合目的に機能する枠組である。
集中制御が不要で各エージェントがそれぞれ自律的に振
舞うことから、ロバスト性と拡張性を有する。活性伝播
には前向きと後向きがあり、それぞれ環境指向と目的指
向の行動選択を誘発する。なお、MarLeeでは後向きの活
性伝播のみを利用する。
【0026】まず、環境同定エージェントは与えられた
エリア内をランダムに移動し、初めて移動した各状態に
対して1つずつ記憶モジュールを割り付けていく。各記
憶モジュールに移動能力はなく、自分に伝播された活性
値(後述)や、自分がどの隣接する記憶モジュールと実
際に結合されているかなどの情報を保持している。な
お、記憶モジュール同士は、互いに隣接していても実際
に環境同定エージェントがそれらの間を移動しなければ
結合状態にはならない。なお、各記憶モジュールは、上
下左右の最大4つの記憶モジュールと結合できる。
【0027】エリア内においてある程度記憶モジュール
が割り付けられ、しかも割り付けられた記憶モジュール
の保有する結合数の合計を基に計算される環境同定率
(後述)がある閾値を越えると、環境同定エージェント
はエリア内の移動を中止し、報酬獲得ポイントを中心と
した活性伝播を開始し、profit-sharingにおける強化値
の割り当てに相当する作業を行う。
【0028】記憶モジュールは自分と結合状態にある他
の記憶モジュールから強化値が伝播されると、自発的に
自分が結合している別の記憶モジュールに向かって強化
値を伝播する。伝播の仕方は図2に示すように、全体と
してある減衰を行った後、エピソードの一員となってい
る記憶モジュールとそれ以外の記憶モジュールとで異な
る減衰率により強化値を伝播する。エリア内のすべての
記憶モジュールに対して活性値が伝播された時点で活性
伝播は終了となる。環境同定エージェントにおける学習
とは、各記憶モジュールが自分がどの結合されている記
憶モジュールに対し、どれくらいの強化値を伝播したの
かを記憶することである。なお、活性伝播のアルゴリズ
ムについては、「S.Kurihara.T.Sugawara, "Proposal a
nd Evaluation of Learning Agent Network Architectu
re:L-ANA", MACC'97,1997.12.18」を参照されたい。
【0029】この作業が終了すると、同定するエリアを
拡大した新たな記憶モジュールの割り付け作業を開始
し、この一連の作業を繰り返す。
【0030】環境同定エリアの拡大について説明する。
環境同定エージェントが同定を行うエリアは、上述した
ように報酬を得られる状態を中心とし、報酬に応じたヒ
ューリスティック距離を半径とする円である。今回用い
るシミュレーションにおいてはマンハッタン距離を用い
ている。そして、エリアがどの程度同定されたかを示す
環境同定率がある閾値を越えると、ヒューリスティック
距離を増加させ、同定エリアを序々に拡大していく。
【0031】なお、環境同定率は、環境同定エージェン
トが割り付けることができた記憶エージェントの総数を
n、各記憶エージェントをmi 、記憶エージェントmi
の結合数をri とすると、次式のようになる。
【0032】
【数1】 従って、各環境同定エージェントは、同定エリアを拡大
させていくに従い、次第に他の同定エリアと重なるよう
になり、最終的にはすべての環境の同定が終了すること
になる。従って、十分な学習のための時間が用意できる
状況では、MarLeeは1つの環境同定エージェントのみに
よる全環境を対象とする環境同定型学習を行うことと同
一の結果を得ることになり、最適な学習結果を得ること
ができる。しかしながら、対象とする自律行動主体を考
えると、十分な学習時間を与えられることが困難な状況
が多く考えられる。つまり、上述したように環境同定作
業は経験強化学習に比べ多くの学習時間を必要とするの
で、同定作業が終了できていない状況でも途中段階の学
習結果を利用しなければならない事態が容易に起こり得
るということである。その点、MarLeeでは環境同定が十
分でない段階であっても、同定されていない部分に関し
ては経験強化エージェントがこれを補うことができるた
め、環境同定のみによる強化学習に比べて容易に学習結
果を利用することができる。
【0033】図3にMarLeeによる学習が行われている途
中段階のスナップショットを示す。黒い部分が各環境同
定エージェントにより同定されつつある環境であり、灰
色の点が経験強化エージェントにより学習されたエピソ
ード群である。2つの環境同定エージェントが分散して
環境同定型強化学習を行っていることを確認できる。
【0034】次に、MarLeeによる強化学習の性能を従来
の強化学習法、すなわち経験強化型強化学習のみで学習
を行う場合と、環境同定型強化学習のみで学習を行う場
合とで比較した結果を示す。シミュレーションに用いた
環境は200×200で報酬ポイントは16箇所であ
る。各評価実験においてそれぞれ1200万ステップの
強化学習を行わせた。なお、MarLeeにおいては、例えば
経験強化エージェントと生成された4つの環境同定エー
ジェントがそれぞれ1ステップの学習を行ったとする
と、MarLeeとしては5ステップの学習を行ったと考え
る。
【0035】学習ステップ数に対する平均学習度の変化
について説明する。図4に学習ステップ数に対する各強
化学習法による平均学習度の推移を示した。平均学習度
とは、上述した学習度の全地点の平均値のことである。
学習度とは、環境内の個々の地点について、その地点を
出発して学習結果に従った移動を行いながら報酬ポイン
トに到達するまでの移動経路の長さを出発した地点から
その報酬ポイントまでのマンハッタン距離で割った値の
ことである。従って、学習度が小さいということはそれ
だけ効率よく報酬ポイントに到達できる経路が学習でき
ていることを示す。なお、自律行動主体Aが移動を開始
する出発地点がその時点でまだ未学習の状態であった場
合には、エピソードなど学習されている地点に遭遇でき
るまでランダムな移動を行うものとした。
【0036】図4に示すように、MarLeeは他の強化学習
法に比べ早い段階で高い平均学習度が得られている。経
験強化型強化学習のみで学習を行った場合は、これまで
行ったシミュレーション結果からもわかるように、最適
な経路学習が不可能なことから学習度はなかなか減少せ
ず、また不安定である。
【0037】環境同定型強化学習のみで学習を行った場
合についても、最終的には最適な学習が得られるのであ
るが、MarLeeの方が早い学習ステップの段階で平均学習
度が減少している。環境同定型のみで学習を行う場合に
は、同定できていない地点に対してはランダムな移動を
行うしかないものの、MarLeeでは各環境同定エージェン
トが同定できていないエリアは学習コストが軽い経験強
化エージェントによってエピソードとして学習されるの
で、MarLeeによる学習の方が学習度の減少する度合が早
くなっている。このことは、MarLeeが経験強化型と環境
同定型強化学習の特徴を効果的に統合できることを示す
ものである。
【0038】学習時間に対する平均学習度の変化につい
て説明する。図5は、学習を開始してからの学習時間に
対する平均学習度の推移を示している。これは、各学習
法における1ステップ分の学習に要する時間も異なるか
らである。無論、1ステップ分の学習に要する時間が短
いことが望まれる。
【0039】まず、MarLeeでは環境同定型強化学習を併
用することから学習に多くの時間を要するのではないか
という疑問も考えられるが、環境同定を分散して行って
いることと、同定されたエリアが経験強化エージェント
の学習の対象から除かれることから学習時間は、経験強
化型強化学習のみで学習を行う場合とほとんど差は生じ
ない。
【0040】次に、MarLeeにおいて10個の環境同定エ
ージェントがそれぞれ1ステップの学習を行う間に環境
同定型強化学習のみの学習では10ステップ分の学習を
行うことができるので、同定される面積は大きくなる。
しかしながら、エリアが大きくなると活性伝播効率が2
乗の割合で低下し、学習を完了するまでにMarLeeに比べ
てはるかに多くの時間を必要としてしまう。活性伝播に
要するコストは同定するエリアの大きさに依存するが、
今回のシミュレーションでは、環境同定型強化学習のみ
で学習を行った場合、学習ステップ数が1200万ステ
ップに近くなってくると、1ステップ分の学習を行うの
にMarLeeに比べて平均50倍以上の時間を必要とした。
このことは、分散して環境の同定を行うMarLeeが環境の
規模が大きい場合でも効率の低下を抑制できることを示
すものである。
【0041】次に、図6および図7に示すフローチャー
トを参照して、上述した経験強化エージェントおよび環
境同定エージェントのアルゴリズムについてそれぞれ説
明する。
【0042】まず、図6を参照して、経験強化エージェ
ントのアルゴリズムについて説明する。同図に示す処理
では、まず経験強化エージェントはより大きな強化値を
有する状態に移動し、候補が複数存在する場合には、ラ
ンダムに選択する(ステップS11)。それから、この
移動した状態をエピソード登録用テーブルに登録し(ス
テップS13)。報酬が貰えたか否かをチェックする
(ステップS15)。報酬が貰えた場合には、環境同定
エージェントを生成し(ステップS17)、報酬が貰え
ない場合には、記憶モジュールに出会ったか否かをチェ
ックする(ステップS19)。記憶モジュールに出会わ
ない場合には、ステップS11に戻って、同じ処理を繰
り返すが、記憶モジュールに出会った場合および上述し
たように環境同定エージェントを生成した場合には、エ
ピソード登録用テーブルに登録された各状態に強化値を
セットした後、テーブルを初期化する(ステップS2
1)。
【0043】それから、強化値がセットされていない状
態に移動するが、セットされている候補しか存在しない
場合には、ランダムに移動する(ステップS23)。そ
して、強化値がセットされていない状態に移動できたか
否かをチェックし(ステップS25)、強化値がセット
されていない状態に移動できない場合には、ステップS
23に戻って、強化値がセットされていない状態に移動
できるまで同じ処理を繰り返すが、強化値がセットされ
ていない状態に移動できた場合には、ステップS11に
戻り、同じ処理を繰り返し行う。
【0044】次に、図7を参照して、環境同定エージェ
ントのアルゴリズムについて説明する。同図に示す処理
を実施する環境同定エージェントは経験強化エージェン
トで生成されたものである。また、本処理では、同定を
行うためのヒューリスティック距離をHとする。
【0045】図7の処理において、環境同定エージェン
トは記憶モジュールが割り付けられてなく、かつ報酬獲
得ポイントからの距離H以内である状態に移動するが、
候補がない場合にはランダムに移動する(ステップS3
1)。それから、記憶モジュールが割り付けられていな
い状態に移動できたか否かをチェックする(ステップS
33)。記憶モジュールが割り付けられていない状態に
移動できない場合には、ステップS31に戻り、同じ処
理を繰り返すが、記憶モジュールが割り付けられていな
い状態に移動できた場合には、この移動した状態に記憶
モジュールを割り付け(ステップS35)、環境同定率
を計算する(ステップS37)。
【0046】そして、この計算した環境同定率が所定の
値、例えば90%以上であるか否かをチェックする(ス
テップS39)。90%以上でない場合には、ステップ
S31に戻って、同じ処理を繰り返すが、環境同定率が
90%以上である場合には、活性伝播を行い(ステップ
S41)、それからヒューリスティック距離Hを1増加
するというように順次増加させ(ステップS43)、ス
テップS31に戻って、同じ処理を繰り返し行う。
【0047】
【発明の効果】以上説明したように、本発明によれば、
環境同定エージェントでは仮にある記憶モジュールの機
能が損なわれたとしても、その記憶モジュールを欠いた
状態で活性伝播が行われ、機能が損なわれた部分を迂回
するような経路が自動的に選択される。
【0048】本発明の分散強化学習法であるMarLeeは、
例えばユーザの嗜好に合った情報などを自律的にインタ
ーネットから獲得するソフトウェアエージェントにおい
て、モバイルエージェントのように任意のポイントにエ
ージェントを送り込むことが可能な状況や、複数のロボ
ットを用いて未知の空間の探索などを行う状況において
有効である。
【0049】また、単一の自律移動ロボットなどを考え
た場合においても、経験強化エージェントと環境同定エ
ージェントの役割を交互に行うことでMarLeeを実行する
ことが可能である。
【0050】自律ロボットやインタフェースエージェン
トの学習モジュールにMarLeeを適用することにより、従
来手法に比べより環境の個々の状況に効率的よく適応で
きるようになり、これら自律行動主体の時間的/エネル
ギー的な効率を大きく向上させることができる。
【図面の簡単な説明】
【図1】本発明のマルチエージェントモデルを用いて経
験強化型強化学習法と環境同定型強化学習法を統合する
分散強化学習法を説明するための一例(グリッドワール
ド)を構成する格子状の状態空間内を移動する自律行動
主体を示す説明図である。
【図2】活性伝播の仕方を示す説明図である。
【図3】本発明の分散強化学習法であるMarLeeによる学
習が行われている途中の段階を示す図である。
【図4】本発明の分散強化学習法であるMarLee、経験強
化型強化学習法および環境同定型強化学習法のそれぞれ
による平均学習度の推移を学習ステップ数に対して示す
グラフである。
【図5】本発明の分散強化学習法であるMarLee、経験強
化型強化学習法および環境同定型強化学習法のそれぞれ
による平均学習度の推移を、学習を開始してからの学習
時間に対して示すグラフである。
【図6】本発明の分散強化学習法における経験強化エー
ジェントのアルゴリズムを示すフローチャートである。
【図7】本発明の分散強化学習法における環境同定エー
ジェントのアルゴリズムを示すフローチャートである。
【符号の説明】
A 自律行動主体 B 報酬獲得ポイント S 状態空間 S1a,…,S7f 状態空間を構成する個々の状態

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 規模が大きく動的に変化する環境下で動
    作する自律移動ロボットおよびインタフェースエージェ
    ントを含む自律行動主体が環境に自律的に適用するため
    に行う強化学習に対してマルチエージェントモデルを用
    いて経験強化型強化学習法と環境同定型強化学習法を統
    合することを特徴とする分散強化学習法。
  2. 【請求項2】 前記経験強化型強化学習法は、報酬を貰
    えたか否かを判定して報酬を貰えた場合には、環境同定
    エージェントを生成し、報酬を貰えない場合には、記憶
    モジュールに出会ったか否かを判定し、記憶モジュール
    に出会った場合には強化値をセットするようにしたこと
    を特徴とする請求項1記載のマルチエージェントモデル
    を用いて経験強化型強化学習法と環境同定型強化学習法
    を統合する分散強化学習法。
  3. 【請求項3】 前記環境同定型強化学習法は、同定を行
    うためのヒューリスティック距離を使用し、移動した状
    態の環境同定率を計算し、この計算値が所定の値を下回
    る場合は移動し、前記計算値が所定の値以上である場合
    は、活性伝播を行った後、前記ヒューリスティック距離
    Hを順次増加させることを特徴とする請求項1または2
    記載のマルチエージェントモデルを用いて経験強化型強
    化学習法と環境同定型強化学習法を統合する分散強化学
    習法。
JP10192101A 1998-07-07 1998-07-07 マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法 Pending JP2000020494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10192101A JP2000020494A (ja) 1998-07-07 1998-07-07 マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10192101A JP2000020494A (ja) 1998-07-07 1998-07-07 マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法

Publications (1)

Publication Number Publication Date
JP2000020494A true JP2000020494A (ja) 2000-01-21

Family

ID=16285679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10192101A Pending JP2000020494A (ja) 1998-07-07 1998-07-07 マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法

Country Status (1)

Country Link
JP (1) JP2000020494A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004003832A2 (en) * 2002-06-27 2004-01-08 Koninklijke Philips Electronics N.V. Face recognition using evolutionary algorithms
JP2010176583A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
US8521678B2 (en) 2009-06-12 2013-08-27 Honda Motor Co., Ltd. Learning control system and learning control method
WO2019239680A1 (ja) * 2018-06-15 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法
KR20200128584A (ko) * 2018-05-02 2020-11-13 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
CN114627648A (zh) * 2022-03-16 2022-06-14 中山大学·深圳 一种基于联邦学习的城市交通流诱导方法及系统
CN114942637A (zh) * 2022-05-17 2022-08-26 北方工业大学 一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004003832A2 (en) * 2002-06-27 2004-01-08 Koninklijke Philips Electronics N.V. Face recognition using evolutionary algorithms
WO2004003832A3 (en) * 2002-06-27 2004-05-21 Koninkl Philips Electronics Nv Face recognition using evolutionary algorithms
JP2010176583A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
US8521678B2 (en) 2009-06-12 2013-08-27 Honda Motor Co., Ltd. Learning control system and learning control method
KR20200128584A (ko) * 2018-05-02 2020-11-13 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
KR102315984B1 (ko) 2018-05-02 2021-10-20 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
WO2019239680A1 (ja) * 2018-06-15 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法
CN114627648A (zh) * 2022-03-16 2022-06-14 中山大学·深圳 一种基于联邦学习的城市交通流诱导方法及系统
CN114942637A (zh) * 2022-05-17 2022-08-26 北方工业大学 一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法

Similar Documents

Publication Publication Date Title
Zhao et al. A heuristic distributed task allocation method for multivehicle multitask problems and its application to search and rescue scenario
Stolle et al. Learning options in reinforcement learning
US11179843B2 (en) Method for operating a robot in a multi-agent system, robot, and multi-agent system
Tang et al. A complete methodology for generating multi-robot task solutions using asymtre-d and market-based task allocation
CN109976350A (zh) 多机器人调度方法、装置、服务器及计算机可读存储介质
Vincent et al. Distributed multirobot exploration, mapping, and task allocation
KR102658913B1 (ko) 로봇 협업 제어 방법 및 시스템
Schillinger et al. Multi-objective search for optimal multi-robot planning with finite ltl specifications and resource constraints
Zilberstein Resource-bounded sensing and planning in autonomous systems
Schillinger et al. Hierarchical ltl-task mdps for multi-agent coordination through auctioning and learning
JP2000020494A (ja) マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法
Neville et al. An interleaved approach to trait-based task allocation and scheduling
Schillinger et al. Improving multi-robot behavior using learning-based receding horizon task allocation
Belker et al. Learning to optimize mobile robot navigation based on HTN plans
Alsheddy et al. Guided Local Search.
Kantaros Accelerated reinforcement learning for temporal logic control objectives
Zhang et al. A multi-agent system for dynamic integrated process planning and scheduling using heuristics
Purohit et al. DT*: Temporal logic path planning in a dynamic environment
Undurti et al. A decentralized approach to multi-agent planning in the presence of constraints and uncertainty
Sapaty Spatial Grasp model for dynamic distributed systems
Quiñonez et al. Stochastic learning automata for self-coordination in heterogeneous multi-tasks selection in multi-robot systems
Navarro et al. Temporal bounded reasoning in a dynamic case based planning agent for industrial environments
Cao et al. Complex tasks allocation for multi robot teams under communication constraints
Peterson et al. Dynamic behavior sequencing for hybrid robot architectures
Ansari et al. Cooperative and load-balancing auctions for heterogeneous multi-robot teams dealing with spatial and non-atomic tasks

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005