JP2005078516A - 並列学習装置、並列学習方法及び並列学習プログラム - Google Patents

並列学習装置、並列学習方法及び並列学習プログラム Download PDF

Info

Publication number
JP2005078516A
JP2005078516A JP2003310383A JP2003310383A JP2005078516A JP 2005078516 A JP2005078516 A JP 2005078516A JP 2003310383 A JP2003310383 A JP 2003310383A JP 2003310383 A JP2003310383 A JP 2003310383A JP 2005078516 A JP2005078516 A JP 2005078516A
Authority
JP
Japan
Prior art keywords
learning
action
parallel
action policy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003310383A
Other languages
English (en)
Other versions
JP3703821B2 (ja
Inventor
Eiji Uchibe
英治 内部
Kenji Dotani
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003310383A priority Critical patent/JP3703821B2/ja
Publication of JP2005078516A publication Critical patent/JP2005078516A/ja
Application granted granted Critical
Publication of JP3703821B2 publication Critical patent/JP3703821B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

【課題】 複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置を提供する。
【解決手段】 状態取得部11は、センサ部1により検出された外界の状態を取得し、各学習器21〜2nは、取得された外界の状態に基づいて同時に学習した学習結果から行動方策を決定し、確率的選択器12は、決定された複数の行動方策の中から各学習器21〜2nの学習性能に基づいて一の行動方策を切り替え器13を用いて選択し、アクチュエータ部3は、選択された行動方策に従う行動を実行する。
【選択図】 図1

Description

本発明は、与えられたタスクを達成するための行動方策を学習する並列学習装置、並列学習方法及び並列学習プログラムに関するものである。
ミンスキーは、人間社会と同様に人間の心も、様々なエージェントが協調したり競合したりして動かしており、知能を単純なエージェントの集まりとして捉え、エージェント間の相互作用の結果、全体としての振る舞いを生成していると提唱している。この考え方は計算論的神経科学の分野でも注目を集めており、運動手続きの学習の研究でも、複数の学習モジュールがそれぞれ同時に並行して異なる座標系で学習し、それぞれ系列の学習に貢献していることが示唆されている。
また、強化学習を使って、複雑な行動を学習する課題に対しても、複数の学習器を準備し、それを切り替える方法が既にいくつか提案されている。例えば、複数の学習器をTD 誤差に応じて切り替える方法(非特許文献1参照)や、制御対象の予測モデルと強化学習器とを組にしたモジュールを並列に用い、それらを予測モデルの予測誤差に基づいて切り替えて組み合わせる方法(非特許文献2参照)が提案されている。
エス ピー シン(S. P. Singh)、「エレメンタルシーケンシャルタスクの解法の組み立てによる学習転送」(Transfer of learning by composing solutions of elemental sequential tasks)、マシンラーニング(Machine Learning)、1992年、vol.3、p.9−p.44 ケイ ドウヤ(K. Doya)他、「複数モデルに基づく強化学習」(Multiple Model-Based Reinforcement Learning)、ニューラルコンピューテーション(Neural Computation)、2002年、vol.14、p.1347−p.1369
しかしながら、上記の従来手法では、各学習器が同じ構造を有し、同じ学習法を使用しているため、学習器全体の学習効率は1個の学習器により学習する場合と何ら変わらず、複数の学習器を効率的に学習させることはできない。
本発明の目的は、複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置、並列学習方法及び並列学習プログラムを提供することである。
本発明に係る並列学習装置は、与えられたタスクを達成するための行動方策を学習する並列学習装置であって、外界の状態を取得する取得手段と、取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備えるものである。
本発明に係る並列学習装置では、外界の状態が取得され、取得された外界の状態に基づいて複数の学習手段が同時に学習し、学習した結果から行動方策が決定され、決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動が実行される。
上記の処理が繰り返されることにより、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。
複数の学習手段の各々は、当該学習手段が決定した行動方策と前記選択手段により選択された行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正することが好ましい。この場合、複数の学習器を効率的に学習させることができる。
複数の学習手段の各々は、重点サンプリング法を用いて重み付けを行うことが好ましい。この場合、複数の学習器をより効率的に学習させることができる。
選択手段は、複数の学習手段が決定した複数の行動方策の中から学習性能に基づいて確率的に一の行動方策を確率的に選択することが好ましい。この場合、学習性能が所定範囲内にある学習手段の中から一の行動方策を確率的に選択することができるので、複数の学習手段を効率的に学習させることができる。
複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることが好ましい。この場合、学習特性の異なる複数の学習手段を用いて学習することができるので、例えば、単純な構成の学習手段が迅速に収集したデータを複雑な構成の学習手段に利用することができるので、学習速度を向上することができるとともに、学習性能を向上することができる。
複数の学習手段の各々は、取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、取得手段により取得された外界の状態及び算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、取得手段により取得された外界の状態、決定手段により決定された行動方策及び選択手段により選択された行動方策に基づいて算出手段のパラメータを補正する補正手段とを備えることが好ましい。
この場合、取得された外界の状態と、外界の状態及び価値関数に基づいて決定された行動方策と、選択された行動方策とに基づいて、価値関数を算出するために使用するパラメータを補正しているので、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習することができる。
複数の学習手段のうちの少なくとも一の学習手段は、決定手段により決定された行動方策を記憶する記憶手段をさらに備えることが好ましい。この場合、学習手段が記憶手段を備えているので、部分観測マルコフ決定問題を取り扱うことができる。
本発明に係る並列学習方法は、取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、取得手段が、外界の状態を取得する取得ステップと、複数の学習手段が、取得ステップにおいて取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する学習ステップと、選択手段が、学習ステップにおいて決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択ステップとを含むものである。
本発明に係る並列学習プログラムは、与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、外界の状態を取得する取得手段と、取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させるものである。
本発明によれば、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。
以下、本発明の一実施の形態による並列学習装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。
図1に示す学習システムは、センサ部1、並列学習装置2及びアクチュエータ部3を備える。並列学習装置2は、ROM(リードオンリメモリ)、CPU(中央演算処理装置)、RAM(ランダムアクセスメモリ)等を備える通常のマイクロコンピュータ、A/D(アナログ/デジタル)変換器、D/A(デジタル/アナログ)変換器等から構成され、ROMに記憶された並列学習プログラムをCPUにおいて実行することにより、状態取得部11、確率的選択器12、切り替え器13及びn個の学習器21〜2nとして機能し、与えられたタスクを達成するための行動方策を学習する。
センサ部1は、外界の状態を検出する種々のセンサ等から構成され、アクチュエータ部3は、与えられたタスクを達成するための行動方策に従う所定の行動を実行する種々のアクチュエータ等から構成される。例えば、学習システムが自律走行ロボットとして構成された場合、センサ部1として、外界の画像を撮影するカメラ、移動距離を検出する距離センサ、車輪の回転量を積算して初期位置からの移動量を計算するオドメトリ等を用いることができ、アクチュエータ部3として、任意の方向に移動するための車輪及びモータ等を用いることができる。
センサ部1は、外界の状態を検出して状態取得部11へ出力する。状態取得部11は、センサ部1により検出された外界の状態を取得してn個の学習器21〜2nへ出力する。各学習器21〜2nは、補正器31、価値関数部32及び制御器33を備える。但し、価値関数部32及び制御器33の具体的構成は互いに異なり、状態表現及び学習方法の少なくとも一方が他の学習器と異なる。各学習器21〜2nは、取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定して切り替え器13へ出力する。
また、各学習器21〜2nは、自身が決定した行動方策と切り替え器13から出力される行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正する。ここで、各学習器21〜2nは、後述する重点サンプリング(importance sampling)法を用いて重み付けを行うことが好ましい。
価値関数部32は、状態取得部11からの外界の状態に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33及び確率的選択器12へ出力する。制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31は、価値関数部32から現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策並びに確率的選択器12及び切り替え器13により選択された学習器の行動方策に基づいて価値関数部32のパラメータを補正してパラメータを更新する。
確率的選択器12は、各学習器21〜2nの価値関数部32から価値関数を取得し、取得した価値関数を基に複数の学習器21〜2nの中から最適な行動方策を決定した一の学習器を選択するように切り替え器13の動作を制御する。例えば、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器の行動方策を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器の行動方策の中から一の行動方策を略等確率で選択するように切り替え器13の動作を制御する。
切り替え器13は、複数の行動方策の中から確率的選択器12に指示された学習器の行動方策を選択し、選択した行動方策を各学習器21〜2nへ出力するとともに、選択した行動方策に従う行動をアクチュエータ部3に実行させる。アクチュエータ部3は、選択した行動方策に従う行動を実行する。この行動により外界の状態が変化し、この変化をセンサ部1によって検出して上記の処理を繰り返すことにより、複数の学習器21〜2nが同時に学習することとなる。
例えば、複数の学習器M(i=1,…,n)は、価値関数法又は方策勾配法を用いて与えられたタスクを達成するための制御方策πを学習し、各学習器Mの状態価値関数をVとすると、並列学習装置2は、各エピソードごとに初期観測xを基に、下記の確率に従って学習器Mを選択する。
ここで、TSelは、選択確率のランダムさを制御するパラメータであり、大きければランダムに学習器を選択する傾向がある。選ばれた学習器の行動方策を挙動方策(behavior policy)といい、πBehと表記する。並列学習装置2は、πBehを用いて得られたエピソードで個々の学習器Mの目的方策(target policy)を評価する。
なお、学習器の構成は、上記の例に特に限定されず、種々の変更が可能であり、例えば、下記の外部メモリを付加してもよい。この場合、部分観測マルコフ決定問題(POMDP:Partially Observable Markov Decision Process)を取り扱うことができる。
図2は、学習器の他の構成を示すブロック図である。図2に示す学習器21aと図1に示す学習器21〜2nとで異なる点は、外部メモリ34が付加され、補正器31、価値関数部32及び制御器33が補正器31a、価値関数部32a及び制御器33aに変更された点であり、以下異なる点について詳細に説明する。
外部メモリ34は、lビットの記憶容量を有し、制御器33aが決定した行動方策を記憶し、記憶している行動方策を補正器31a、価値関数部32a及び制御器33aへ出力する。また、外部メモリ34には状態取得部11からの外界の状態が入力され、外界の状態を記録することもできる。価値関数部32aは、状態取得部11からの外界の状態及び外部メモリ34からの行動方策に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33a及び確率的選択器12へ出力する。制御器33aは、状態取得部11からの外界の状態、外部メモリ34からの行動方策及び価値関数部32aにより算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31aは、価値関数部32aから現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、外部メモリ34からの行動方策、制御器33aにより決定された行動方策及び切り替え器13から出力される学習器の行動方策に基づいて価値関数部32aのパラメータを補正してパラメータを更新する。
上記の構成により、学習器21aは、時刻tにおいてセンサ部1によって得られる環境の状態o以外に、外部メモリ34の情報mを利用でき、制御器33aの行動方策aは、実際に状態遷移を引き起こすアクチュエータ部3による環境への行動出力a と、メモリビットを操作する行動方策a から構成される。
この場合、学習器21aで利用される観測量xは、環境の状態oと外部メモリ34の情報mとの組み合わせで表現され、x=(o,m)となる。外部メモリ34の各ビットは1又は0をとるため、情報mは全部で2個となる。また、行動方策a は外部メモリ34の各ビットを1にする行動と0にする行動とを有するため、全部で2l個となる。なお、a とa との組み合わせで学習器21aの行動方策a とすることもできるが、複雑さを抑えるためにa をa と同様のプリミティブな行動の一つとして付加するようにしてもよい。
本実施の形態では、状態取得部11が取得手段の一例に相当し、学習器21〜2n,21aが学習手段の一例に相当し、確率的選択器12及び切り替え器13が選択手段の一例に相当し、価値関数部32,32aが算出手段の一例に相当し、制御器33,33aが決定手段の一例に相当し、補正器31,31aが補正手段の一例に相当する。また、外部メモリ34が記憶手段の一例に相当する。
次に、上記のように構成された学習システムの並列学習処理について説明する。図3は、図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。
まず、ステップS1において、確率的選択器12は、各学習器21〜2nの学習性能を基に一の学習器を確率的に選択する。具体的には、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器の行動方策を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器から一の学習器を等確率になるように選択する。
学習器が選択された後、ステップS2において、状態取得部11は、センサ部1が検出した外界の状態を取得し、各学習器21〜2nの価値関数部32に与える。
次に、ステップS3において、各学習器21〜2nの価値関数部32は、状態取得部11からの外界の状態に基づいて価値関数を算出し、算出した価値関数を制御器33へ出力し、制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。このとき、確率的選択器12は、ステップS1で選択した学習器の行動方策をアクチュエータ部3へ出力するように切り替え器13を制御して行動方策を決定する。
次に、ステップS4において、切り替え器13は、アクチュエータ部3を駆動し、確率的選択器12により選択されている学習器の行動方策に従う行動をアクチュエータ部3に実行させ、アクチュエータ部3は、選択した行動方策に従う行動を実行する。
次に、ステップS5において、各学習器21〜2nの補正器31は、価値関数部32から現在の各パラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策及び切り替え器13により選択された学習器の行動方策に基づいて各パラメータを補正して価値関数部32の各パラメータを更新し、重点サンプリング法による分配処理を実行する。
ここで、上記の重点サンプリング法による分配処理について詳細に説明する。なお、以下の説明では、学習器21〜2nとして図2に示す外部メモリ34を有する学習器21aを用いた場合を例に説明する。
時刻t における環境の状態がsのとき、並列学習装置2はセンサ部1によってその一部をoとして受け取り、そのときの外部メモリ34の情報をmとすると、各学習器21〜2nが取得する観測量xは、x=(o,m)となる。このとき、行動方策πに従ってアクチュエータ部3により行動aを出力すると、結果として環境はst+1に状態遷移し、その評価値であるスカラーの報酬rを得る。行動方策πの下での状態sの価値Vπ(s)は、下式で与えられる。
ここで、R(s) は状態sから観測される収益であり、γは減衰率(0≦γ≦1)であり、Eπ{}は並列学習装置2が行動方策πに従うとしたときの期待値を表す。同様に行動方策πの下で状態sにおいて行動aを実行することの価値は、下式で与えられる。
上記のVπを状態価値関数といい、Qπを行動価値関数といい、両者をまとめて価値関数という。Vπ及びQπを推定するために、本来の行動方策πとは異なる別の行動方策π’を用いる場合を考え、ここで、重点サンプリング法を用いることにより、目的方策πと挙動方策π’の違いに対処する。いま、挙動方策π’によって得られたm番目のエピソードをhとし、Tをエピソードhが終了するまでの時間ステップとし、Prπ(h)とPrπ’(h)とを方策πとπ’とに従ったときにエピソードhが発生する確率とする。
このとき,M個の収益を観測した後で要求されるモンテカルロ推定は、下式で与えられる。
ここで、Rは実際に得られた収益R(s)=rtm(s)+γrtm(s)+1+…+γTm-tm(s)−1Tm−1であり、t(s)はm番目のエピソードhではじめて状態sが得られたときの時間ステップである。エピソードhが発生する確率は、下式で与えられる。
ここで、ρは行動方策の違いを補正する係数であり、Prπ(h)/Prπ’(h)を計算するために環境のダイナミクスに関する知識は必要とせず、行動方策の比率だけが必要とされる。なお、π(s,a)>0ならばπ’(s,a)>0であることが要求される。
次に、学習器21〜2nが強化学習に価値関数法を用いている場合において、上記の重点サンプリング法を価値関数法に適用する方法について具体的に説明する。価値関数法は、状態と行動の組に対して定義される価値QVFを、Bellman方程式を用いて推定する方法であり、代表的な方法としてQ学習やSARSAがある。SARSAは方策オン型の強化学習であり、Q 学習は方策オフ型の強化学習であり、挙動方策と推定方策を個別に持つことができる。
まず、観測値を状態とみなして定式化すると、観測値xで行動aを実行し、報酬rと次の観測値xt+1を受け取ったとき、Q学習及びSARSAでは、TD誤差がそれぞれ下式で与えられる。
ここで、Q及びQSARSAは、Q学習及びSARSAを使用したときの行動価値関数である。
価値関数法に重点サンプリング法を利用する方法としては、公知の手法を用いることができ、本実施の形態では、価値関数をルックアップテーブル形式すなわちw=Q(x,a)のように重みを割り当てており、重点サンプリングを用いた場合の行動価値関数は下式で与えられる。
ここで、SARSAと同様に環境のマルコフ性を利用すると、更新式は下式で与えられる。
ここで、tはm 回目のエピソードで最初に(x,a)=(x,a)となった時刻であり、TVFは適合度トレースであり、λ は適合度の減衰率であり、αVFは学習率である。なお、挙動方策と目標方策とが一致する場合、ρ=1となり、通常のSARSAの更新式となる。
また、確率的行動方策は、例えば、ボルツマン分布を用いて下式で表される。
ここで、TVFは温度パラメータであり、学習の初期段階では大きな値をとるが、学習が進むにつれて小さな値をとるように制御される。価値関数法は、環境がマルコフ決定過程(MDP:Markov Decision Process)である場合、すなわちx=s の場合には最適方策への収束性が示されている。また、POMDPな環境でも、内部変数を持たない範囲ではλを適切に設定することにより最適な確率的方策を獲得することができる。
次に、学習器21〜2nが強化学習に方策勾配法を用いている場合において、上記の重点サンプリング法を方策勾配法に適用する方法について具体的に説明する。従来、報酬に遅れのある問題において報酬の期待値の勾配方向へパラメータを更新する手法が提案されており、これをきっかけとして、種々の方策勾配法が提案されている。
まず、パラメータwにより表現された行動方策πPGをxで期待値をとった価値関数VPGの勾配を利用して下式により改善する。
ここで、αPGはステップサイズパラメータであり、wはwをまとめたパラメータベクトルである。このとき、重点サンプリング法を用いると、状態価値関数は下式で与えられる。
ここで、Pr(h|w)はベクトルwでパラメータ化された行動方策を用いてエピソードhを得る確率であり、下式で表される。
ここで、φ(h)及びΨ(w,h)は下式で与えられる。
上記のφ(h)は環境からサンプリングしなければならないが、Ψ(w,h)は並列学習装置2の行動方策から計算できるので、一つのエピソードが得られたとき、行動方策を改善する方向はV(w)をwで微分して下式のようになる。
上記のPr(h|w)=Pr(h|w’)は制御方策の比率の掛け算により計算でき、方策勾配法を用いる場合の更新式は下式で与えられる。
ここで、T(k)は方策勾配法の場合の適合度トレースであり、挙動方策と目標方策とが一致する場合、ρ=1となる。
次に、方策勾配法では行動方策をパラメータ表現する必要があるが、w=P(x,a)のように状態及び行動の組に対して重みを割り当て、式(13)のようにボルツマン分布を用いて下式で表される。
ここで、PPG(x,a)は行動価値ではなく、TPGは温度パラメータであるが、式(13)と異なり、一定の値をとる。このとき、式(23)の微分は下式で与えられる。
上記の方策勾配法では、価値関数を明示的には推定せず、オンラインで方策を更新するが、本発明ではエピソードの最初に学習器を選択するために価値関数を用いる必要があり、式(4)によって価値VPGをエピソードごとに更新する。
再び、図3を参照して、上記の重点サンプリング法による分配処理が実行された後に、ステップS6において、各学習器21〜2nは、現在実行しているタスクが終了したか否かを判断し、タスクが終了していない場合はステップS2以降の処理を繰り返し、タスクが終了した場合にステップS7へ処理を移行する。
タスクが終了した場合にステップS7において、確率的選択器12は、与えられたタスクに対して学習が終了したか否か、すなわち、与えられたタスクに対して必要とされる学習性能を獲得できたか否かを判断し、学習が終了していない場合はステップS1以降の処理を繰り返し、学習が終了した場合に処理を終了する。
上記の処理により、本実施の形態では、状態取得部11により外界の状態が取得され、取得された外界の状態に基づいて各学習器21〜2nが同時に学習し、学習した結果から行動方策を決定し、決定された複数の行動方策の中から確率的選択器12及び切り替え器13により各学習器21〜2nの学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動がアクチュエータ部3により実行され、これらの処理が繰り返される。この結果、選択された学習器が決定した行動方策により得られた経験から、選択されていない他の学習器も学習し、複数の学習器21〜2nが与えられたタスクを達成するための行動方策を同時に学習することができるので、複数の学習器21〜2nを効率的に学習させることができ、学習器21〜2nがタスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。
次に、上記の並列学習装置の学習効果について具体例を挙げて説明する。図4は、図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。図4に示す例は、台車の上に設けられたポールが直立するように台車を移動制御するものであり、状態変数の一部である台車の位置x及びポールの角度θのみが観測可能なPOMDPの場合の例である。ここで、図4の縦軸は学習性能を表すエピソード単位の総報酬を示し、横軸はエピソード数を示している。
図4に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用い且つ外部メモリ34を持たない学習器、価値関数法を用い且つ外部メモリ34を有する学習器、方策勾配法を用い且つ外部メモリ34を持たない学習器、及び方策勾配法を用い且つ外部メモリ34を有する学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。
一方、曲線B〜Fは比較例であり、曲線Bは、価値関数法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Dは、方策勾配法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Eは、方策勾配法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Fは、重点サンプリング法を用いることなく4個の学習器を同時に学習させた場合の学習性能を表している。
図4から、環境がPOMDPの場合でも、図1に示す並列学習装置を用いた場合(曲線A)、他の学習方法(曲線B〜F)に比較して学習効率が最も高く、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。
図5は、図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。図5に示す例は、自律走行ロボットが障害物を避けながら目的位置に到達するものであり、図5の縦軸は学習性能を表す平均報酬を示し、横軸はエピソード数を示している。
図5に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用いて粗い移動制御を行う学習器、価値関数法を用いて精密な移動制御を行う学習器、方策勾配法を用いて粗い移動制御を行う学習器、及び方策勾配法を用いて精密な移動制御を行う学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。
一方、曲線B,Cは比較例であり、曲線Bは、価値関数法を用いて粗い移動制御を行う学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用いて精密な移動制御を行う学習器のみを用いた場合の学習性能を表している。
図5から、図1に示す並列学習装置を自律走行ロボットに用いた場合(曲線A)、他の学習方法(曲線B,C)に比較して、エピソード数の増加に伴い学習効率が急激に向上し、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。
上記の実施形態では、自律走行ロボット等を対象に説明したが、本発明の適用対象は上記の例に特に限定されず、種々のものに適用可能である。例えば、ペットロボット等に本発明の並列学習装置を適用し、複数の学習器の一つとして人間の教示を導入するようにしてもよい。この場合、人間が教示した通りにペットロボットが行動しつつ、ペットロボット自体の学習も同時に実現することができ、例えば、飼い主がペットロボットに芸を教えつつ、自律学習によってより知的な行動を獲得させることができる。
また、本発明の並列学習装置を最適制御分野等に適用して従来型の制御と機械学習とを融合し、工場等においてマニピュレータの制御等に利用されてきたものを学習器の制御器として利用するようにしてもよい。この場合、これまでに使用してきたものをそのまま利用できるので、従来と同じ性能を保証しながら、他の学習器が獲得したより良い性能を自動的に利用することができる。
さらに、本発明の並列学習装置を進化ロボティクス等の多数の学習器を評価する部分に適用してもよい。この分野では、複数の制御器を順番に一つずつ評価していたため、膨大な時間を必要としていたが、本発明の並列学習装置を用いることにより、複数の学習器を並列に評価することができるため、評価時間を大幅に短縮できる。
本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。 学習器の他の構成を示すブロック図である。 図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。 図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。 図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。
符号の説明
1 センサ部
2 並列学習装置
3 アクチュエータ部
11 状態取得部
12 確率的選択器
13 切り替え器
21〜2n,21a学習器
31,31a 補正器
32,32a 価値関数部
33,33a 制御器
34 外部メモリ

Claims (9)

  1. 与えられたタスクを達成するための行動方策を学習する並列学習装置であって、
    外界の状態を取得する取得手段と、
    前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、
    前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備えることを特徴とする並列学習装置。
  2. 前記複数の学習手段の各々は、当該学習手段が決定した行動方策と前記選択手段により選択された行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正することを特徴とする請求項1記載の並列学習装置。
  3. 前記複数の学習手段の各々は、重点サンプリング法を用いて前記重み付けを行うことを特徴とする請求項2記載の並列学習装置。
  4. 前記選択手段は、前記複数の学習手段が決定した複数の行動方策の中から学習性能に基づいて一の行動方策を確率的に選択することを特徴とする請求項1〜3のいずれかに記載の並列学習装置。
  5. 前記複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることを特徴とする請求項1〜4のいずれかに記載の並列学習装置。
  6. 前記複数の学習手段の各々は、
    前記取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、
    前記取得手段により取得された外界の状態及び前記算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、
    前記取得手段により取得された外界の状態、前記決定手段により決定された行動方策及び前記選択手段により選択された行動方策に基づいて前記算出手段のパラメータを補正する補正手段とを備えることを特徴とする請求項1〜5のいずれかに記載の並列学習装置。
  7. 前記複数の学習手段のうちの少なくとも一の学習手段は、前記決定手段により決定された行動方策を記憶する記憶手段をさらに備えることを特徴とする請求項6記載の並列学習装置。
  8. 取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、
    前記取得手段が、外界の状態を取得する取得ステップと、
    前記複数の学習手段が、前記取得ステップにおいて取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する学習ステップと、
    前記選択手段が、前記学習ステップにおいて決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択ステップとを含むことを特徴とする並列学習方法。
  9. 与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、
    外界の状態を取得する取得手段と、
    前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、
    前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させることを特徴とする並列学習プログラム。
JP2003310383A 2003-09-02 2003-09-02 並列学習装置、並列学習方法及び並列学習プログラム Expired - Fee Related JP3703821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003310383A JP3703821B2 (ja) 2003-09-02 2003-09-02 並列学習装置、並列学習方法及び並列学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003310383A JP3703821B2 (ja) 2003-09-02 2003-09-02 並列学習装置、並列学習方法及び並列学習プログラム

Publications (2)

Publication Number Publication Date
JP2005078516A true JP2005078516A (ja) 2005-03-24
JP3703821B2 JP3703821B2 (ja) 2005-10-05

Family

ID=34412270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003310383A Expired - Fee Related JP3703821B2 (ja) 2003-09-02 2003-09-02 並列学習装置、並列学習方法及び並列学習プログラム

Country Status (1)

Country Link
JP (1) JP3703821B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008000883A (ja) * 2006-06-22 2008-01-10 Honda Research Inst Europe Gmbh ロボットの対話型挙動の制御
JP2008537271A (ja) * 2006-07-13 2008-09-11 ビ−エイイ− システムズ パブリック リミテッド カンパニ− コントローラ
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
JP2010134907A (ja) * 2008-11-04 2010-06-17 Honda Motor Co Ltd 強化学習システム
JP2010287131A (ja) * 2009-06-12 2010-12-24 Honda Motor Co Ltd 学習制御ステム及び学習制御方法
JP2011008613A (ja) * 2009-06-26 2011-01-13 Fuji Heavy Ind Ltd オンラインリスク学習システム
JP2014123272A (ja) * 2012-12-21 2014-07-03 Fujitsu Ltd シミュレーション方法、プログラム、及び情報処理システム
JP2017030088A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 機械学習装置、ネジ締付システムおよびその制御装置
JP2017107902A (ja) * 2015-12-07 2017-06-15 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP2018014838A (ja) * 2016-07-21 2018-01-25 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法
US20180181089A1 (en) * 2016-12-27 2018-06-28 Hitachi, Ltd. Control device and control method
KR20190062184A (ko) * 2017-11-27 2019-06-05 고려대학교 산학협력단 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008000883A (ja) * 2006-06-22 2008-01-10 Honda Research Inst Europe Gmbh ロボットの対話型挙動の制御
JP2008537271A (ja) * 2006-07-13 2008-09-11 ビ−エイイ− システムズ パブリック リミテッド カンパニ− コントローラ
JP4875080B2 (ja) * 2006-07-13 2012-02-15 ビ−エイイ− システムズ パブリック リミテッド カンパニ− コントローラ
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
JP2010134907A (ja) * 2008-11-04 2010-06-17 Honda Motor Co Ltd 強化学習システム
US8392346B2 (en) 2008-11-04 2013-03-05 Honda Motor Co., Ltd. Reinforcement learning system
JP2010287131A (ja) * 2009-06-12 2010-12-24 Honda Motor Co Ltd 学習制御ステム及び学習制御方法
JP2011008613A (ja) * 2009-06-26 2011-01-13 Fuji Heavy Ind Ltd オンラインリスク学習システム
JP2014123272A (ja) * 2012-12-21 2014-07-03 Fujitsu Ltd シミュレーション方法、プログラム、及び情報処理システム
JP2017030088A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 機械学習装置、ネジ締付システムおよびその制御装置
JP2017107902A (ja) * 2015-12-07 2017-06-15 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
US10500721B2 (en) 2015-12-07 2019-12-10 Fanuc Corporation Machine learning device, laminated core manufacturing apparatus, laminated core manufacturing system, and machine learning method for learning operation for stacking core sheets
JP2018014838A (ja) * 2016-07-21 2018-01-25 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法
US10305413B2 (en) 2016-07-21 2019-05-28 Fanuc Corporation Machine learning device which learns current command for motor, motor controller, and machine learning method
US20180181089A1 (en) * 2016-12-27 2018-06-28 Hitachi, Ltd. Control device and control method
KR20190062184A (ko) * 2017-11-27 2019-06-05 고려대학교 산학협력단 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법
KR102099265B1 (ko) * 2017-11-27 2020-05-15 고려대학교 산학협력단 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법

Also Published As

Publication number Publication date
JP3703821B2 (ja) 2005-10-05

Similar Documents

Publication Publication Date Title
Zhelo et al. Curiosity-driven exploration for mapless navigation with deep reinforcement learning
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
Pong et al. Offline meta-reinforcement learning with online self-supervision
US11235461B2 (en) Controller and machine learning device
CN113826051A (zh) 生成实体系统零件之间的交互的数字孪生
JP6744208B2 (ja) 制御装置及び制御方法
JP3703821B2 (ja) 並列学習装置、並列学習方法及び並列学習プログラム
JP2023504220A (ja) 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法
Kartoun et al. A human-robot collaborative reinforcement learning algorithm
JP7458741B2 (ja) ロボット制御装置及びその制御方法及びプログラム
CN115917564A (zh) 用于学习可重用选项以在任务之间传递知识的系统和方法
JP7493554B2 (ja) Few-shot模倣のためのデモンストレーション条件付き強化学習
CN114518751B (zh) 基于最小二乘截断时域差分学习的路径规划决策优化方法
JP2006320997A (ja) ロボット行動選択装置及びロボット行動選択方法
CN109693239A (zh) 一种基于深度强化学习的机器人抓取方法
CN115019185B (zh) 类脑连续学习协同围捕方法、系统及介质
Bakker et al. Quasi-online reinforcement learning for robots
Hu et al. Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model
CN113614743A (zh) 用于操控机器人的方法和设备
Caarls et al. Parallel online temporal difference learning for motor control
JP2021192141A (ja) 学習装置、学習方法、および学習プログラム
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Ding et al. Learning to ground objects for robot task and motion planning
Gromniak et al. Deep reinforcement learning for mobile robot navigation
US11628562B2 (en) Method, device and computer program for producing a strategy for a robot

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110729

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees