JP2003233503A

JP2003233503A - 強化学習システムおよびその方法

Info

Publication number: JP2003233503A
Application number: JP2002032111A
Authority: JP
Inventors: Kanji Ueda; 完次上田; Kazuhiro Okura; 和博大倉
Original assignee: Kobe University NUC
Current assignee: Kobe University NUC
Priority date: 2002-02-08
Filing date: 2002-02-08
Publication date: 2003-08-22

Abstract

(57)【要約】（修正有）【課題】問題に応じて適切なシミュレーション・モデル
を設計する必要がなく、多くの問題に対して即座に適用
できるようにし、また、適切な問題設定、即ち、状況に
適したセンサ情報と行動出力の離散化とが不要となる強
化学習法を提供する。【解決手段】状態・行動空間の離散化を学習過程中に自
律的に行ない、標準的な強化学習のように予め離散化さ
れた状態・行動空間で行なうのではなく、自律移動ロボ
ットなどの人工物に埋め込んだ学習主体のセンサ有効範
囲から定まる連続な状態空間と、モータ出力の物理的範
囲から定まる連続な行動空間において行なわれ、状態・
行動空間の離散化を逐次行なわせながら、適切な行動ル
ールを構築していく。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自律移動ロボット
の制御に関するものであり、特に、強化学習を用いる自
律的意思決定機構に関するものである。

【０００２】

【従来の技術】例えば、自律移動ロボットなどに必要な
行動ベース型AIの研究課題の一つに、与えられた環境に
おいて目的に対して適切なセンサ・モータ間の写像（制
御機構）を適応的に構築することが挙げられる。これに
は、現在、（１）進化的手法を用いて適切な制御機構を
獲得させようとする進化ロボティクスと、（２）センサ
・モータ間の調整に強化学習を適用して行おうとするも
のという二つの大きな流れがある。

【０００３】

【発明が解決しようとする課題】進化ロボティクスで
は、ロボットの行動制御機構をコード化した遺伝子型を
一個体とし、進化型計算手法を用いてその集団を進化さ
せることで適切な制御機構を発現させようとするもので
ある。そのため、原理的にはオンラインでの行動獲得は
困難である。そこで、計算機シミュレーションによって
適切な行動獲得までに要する所要時間を短縮する手法が
使われるが、問題に応じて適切なシミュレーション・モ
デルを設計する必要があり、多くの問題に対して即座に
適用できるとは言いがたい。

【０００４】一方、強化学習を用いたアプローチでは、
制御対象である自律移動ロボットによる学習となるた
め、オンラインでの行動獲得に適している。しかし、Q-
Learning等の典型的な強化学習アルゴリズムを適用する
ためには、進化ロボティクスと同様に適切な問題設定、
即ち、状況に適したセンサ情報と行動出力の離散化とが
必要である。多くの場合、これが強化学習の成功、不成
功を支配し、荒い離散化であれば隠れ状態問題が派生
し、マルコフ性を失って所望の振舞いを獲得できない。
逆に、過度に離散化されれば、報酬伝播に時間がかかり
学習速度が上がらない、或いは学習しないなどの問題が
生じる。一般に状態・行動空間の離散化は、与えられた
タスクとその動作環境、更に、ロボットの出力機構によ
る様々な要因を考慮して適切に決定しなければならない
が、試行錯誤が必要である。

【０００５】

【課題を解決するための手段】本発明による有効な動作
ルール集合を獲得する強化学習システムは、センサ入力
から構成される状態ベクトルＶ、前記状態ベクトルＶに
対応して各々の要素の重要度を示す重みベクトルＷ、動
作ルールの相対的な有効性を示す有効度ｕ、及び、前記
状態ベクトルＶに対応して各動作ルール（以降、動作ル
ールを「ルール」と呼ぶこともある）において指定され
る動作ａ、を規定する動作ルール集合を記憶する格納手
段と、環境からセンサ入力を受け取るセンサ入力受け取
り手段と、受け取ったセンサ入力と、前記の動作ルール
集合の各動作ルールの状態ベクトルＶとを比較し、受け
取ったセンサ入力に最もマッチする１つの動作ルールを
選択する動作ルール選択手段と、選択された動作ルール
に記述された動作ａを実行する動作実行手段と、環境か
ら、実行した動作に対する強化信号を受け取る強化信号
受け取り手段と、実行した状態−動作を記憶した動作ル
ールを生成し、前記動作ルール集合に加える動作ルール
生成手段と、前記強化信号に基づき全ての前記動作ルー
ルの有効度を更新し、そのとき所定の閾値よりも有効度
が小さくなれば、その動作ルールを前記動作ルール集合
から消去する手段と、を具えることを特徴とする。

【０００６】また、本発明による強化学習システムは、
前記動作ルール集合が、重みベクトルＷ＝０で｛状態−
動作｝が未定義である無限定ルールと、重みベクトルＷ
≠０で特定の｛状態−記憶｝が記憶されている限定ルー
ルを含み、前記動作ルール選択手段において、特に有効
な動作ルールがないときは前記無限定ルールを選択し、
前記無限定ルールが選択された場合は、前記動作実行手
段において、実行する動作ａをランダムに決定すること
を、特徴とする。

【０００７】さらに、本発明による強化学習システム
は、前記動作ルール選択手段が、類似度を表わすマッチ
率m_jを次式：

【数９】（ここで、d_kはスケーリング値であってk番目のセンサ
が学習過程において観測したセンサ値の最大差、T_mは定
数、〔外１〕、添え字ｊは動作ルール番号、添え字ｋは
入力ベクトルのk番目の次元である）で計算するマッチ
率演算手段と、各ルールの重みベクトルから状態空間の
汎化の割合を表わす詳細度λを、次式：

【数１０】で計算する詳細度演算手段と、観測した状態に対する各
動作ルールのマッチ率m_j、詳細度λ、有効度uを用い
て、次式：

【数１１】によりボルツマン分布に基づいたルーレット（確率的）
選択を行ない（定数T、n _rl：全ルール数）勝者ルールrl
_wを決定する勝者ルール演算手段と、を具えることを特
徴とする。

【０００８】さらに、本発明による強化学習システム
は、限定ルールが選択された場合、新しく生成されるル
ールは、重みベクトルＷを変更することでセンサ情報と
マッチしない条件において、動作選択における選択確率
が上がるよう汎化がなされたものを新しい条件部とする
動作ルールを生成することを特徴とする。

【０００９】さらに、本発明による強化学習システム
は、有効度uを増す報酬（P>0）、および／または、有効
度uを減らす罰（P<0）を含むペイオフPに基づき、次
式：

【数１２】（ここで、γは割引率（0<γ<1）であり、報酬を獲得し
た時点から過去に遡って減衰される。また〔外２〕はペ
イオフPを与えられた時点からnステップ前の勝者ルール
〔外３〕の有効度を表わす）で有効度uを計算する有効
度演算手段を具え、更に、前記有効度演算手段は、勝者
ルールは、その有効度uの一部Δｕを１ステップ前の勝
者ルールに伝播させ、限定ルールが選択された場合は、
所定のコストを払い、有効度uを減少させ、全ての前記
動作ルールは、ゴール到達時に所定の消散率η（0<η<
1）に応じて有効度uを減少させる、ことを特徴とする。

【００１０】なお、本発明は上記のようにシステムの形
態で説明したが、上記システムに対応した方法の形態で
も本発明を実現することができることに留意されたい。
例えば、本発明による有効な動作ルール集合を獲得する
強化学習方法は、センサ入力から構成される状態ベクト
ルＶ、前記状態ベクトルＶに対応して各々の要素の重要
度を示す重みベクトルＷ、動作ルールの相対的な有効性
を示す有効度ｕ、及び、前記状態ベクトルＶに対応して
各動作ルールにおいて指定される動作ａ、を規定する動
作ルール集合を記憶する格納ステップと、環境からセン
サ入力を受け取るセンサ入力受け取りステップと、受け
取ったセンサ入力と、前記の動作ルール集合の各動作ル
ールの状態ベクトルＶとを比較し、受け取ったセンサ入
力に最もマッチする１つの動作ルールを選択する動作ル
ール選択ステップと、選択された動作ルールに記述され
た動作ａを実行する動作実行ステップと、環境から、実
行した動作ａに対する強化信号を受け取る強化信号受け
取りステップと、実行した状態−動作を記憶した動作ル
ールを生成し、前記動作ルール集合に加える動作ルール
生成ステップと、前記強化信号に基づき前記の動作ルー
ルの有効度を更新し、そのとき所定の閾値よりも有効度
が小さくなれば、その動作ルールを動作ルール集合から
消去するステップと、を含むことを特徴とする。

【００１１】

【発明の実施の形態】本発明の基本的な原理は、強化学
習において、状態・行動空間の離散化を学習過程中に自
律的に行なうことである。本発明による強化学習法は、
標準的な強化学習のように予め離散化された状態・行動
空間で行なうのではなく、自律移動ロボットなどの人工
物に埋め込んだ学習主体のセンサ有効範囲から定まる連
続な状態空間と、モータ出力の物理的範囲から定まる連
続な行動空間において行なわれ、状態・行動空間の離散
化を逐次行なわせながら、適切な行動ルールを構築して
いくことを特徴としている。本発明によるこの新規な強
化学習法をContinuous Space Classifier Generator、
即ちCSCGと呼ぶこととする。

【００１２】本発明によるCSCGによる学習は、実例に基
づく強化学習法の一つであり、経験したセンサ入力（即
ち状態入力）−動作出力のペアをif-then形式で記述し
たルールの集合Ｒの更新を図１のように繰り返すことに
より行なわれる。ステップＳ１では、センサ入力を受け
取る。ステップＳ２では、受け取ったセンサ入力に基づ
き、ルール集合Ｒの中からよりマッチする１つのルール
を選択する。ステップＳ３では、選択されたルールに記
述された動作を実行するステップＳ４では、この実行し
た動作に対し、強化信号が環境から与えられる。ステッ
プＳ５では、与えられた強化信号が正か負かを判断す
る。正の場合はＳ６へ、負の場合は、Ｓ７に進む。ステ
ップＳ６では、実行した状態−動作を記憶したルールを
生成し、ルール集合Ｒに加え、Ｓ７に進む。ステップＳ
７では、強化信号をもとに全ルールの評価を更新する。
このとき、ある所定の閾値よりも評価値が小さくなれ
ば、そのルールをＲから消去する。ステップＳ８では、
終了条件を満たすか否かを判断する。満たさない場合は
Ｓ１に戻る。終了条件を満たす場合は終了する。上記ス
テップＳ２、Ｓ６、Ｓ８の詳細については後述する。強
化学習は、実行した行為の評価として得られる報酬、あ
るいは強化信号を最大化するようにセンサ入力−行為間
の写像間系を学習する枠組みである。これは、以下のよ
うに記述できる。

【外４】

【００１３】本発明によるCSCGにおける動作ルール集合
Rは、次式で記述されるルール

【外５】により構成される。

【数１３】ここで

【外６】は、学習器へのセンサ入力から構成される状態ベクト
ル、

【外７】は、状態ベクトルに対応して各々の要素の重要度を示す
重みベクトル、uはルールの相対的な有効度を表わす実
数値である。aはそのルールが指定する動作を表わすも
のである。なお、ｎ_ｓは入力ベクトルの次元数を表わ
す。重みベクトルWの各要素w_iはi番目のセンサ入力の重
要度を表わし、

【外８】で表わす。w_iが０に近いほどi番目のセンサ入力の重要
度は低くなる。これは状態空間の汎化の役割を担う。

【００１４】集合Rに含まれるルールのうち、W=0で｛状
態−動作｝が未定義であるルールを無限定ルールr
l_IND、W≠0で特定の｛状態−動作｝が記憶されているル
ールを限定ルールrl_DEFと呼ぶものとする。但し、rl_IND
は、常時一個だけ学習器内に存在しており、特に有効
なルールがないときはこれが選択される。即ち、このル
ールは学習器の能動的学習能力を保証する。

【００１５】図２に動作選択とルール生成過程とを示
す。ロボットの知覚と意思決定は、以下のステップで行
なわれる。ステップＰ１では、センサからの入力ベクト
ル

【外９】

【数１４】ここで、d_kはスケーリング値であってk番目のセンサが
学習過程において観測したセンサ値の最大差、T_mは定
数、〔外１〕、添え字ｊは動作ルール番号、添え字ｋは
入力ベクトルのk番目の次元である。ステップＰ２で
は、各ルールの重みベクトルから状態空間の汎化の割合
を表わす詳細度λを求める。

【数１５】ステップＰ３では、観測した状態に対する各ルールのマ
ッチ率、詳細度、有効度を用い、以下に示すボルツマン
分布に基づいたルーレット選択（確率的選択）を行ない
勝者ルールrl_wを決定する。

【数１６】（Ｔは定数）

【００１６】ここでステップＰ３において勝者ルールrl
_w がrl_INDの場合には、動作は[a_min,a_max]の間でランダ
ムに決定する。また、rl_w ∈rl_DEFの場合には、勝者ル
ールが記憶している動作を実行する。

【００１７】動作選択における勝者ルールrl_wは実行し
た動作が罰を与えられない限り新しいルールrl_Cを生成
し、式（１）で定義したルールの構成要素を更新する。
rl_w=rl_INDの場合には、rl_Cの構成要素は次式によって定
義される。なお、rl_cは、rl_IN _Dの有効度u₀とそのとき実
行した動作a_wを受け継ぐものである。

【数１７】 rl_w∈rl_DEFの場合には、勝者ルールのマッチ率m_uが、あ
る生成しきい値（θ_rl）以下（m_u<θ_rl）のときだけ、
勝者は条件部を汎化させた新しいルールrl_cを生成す
る。

【数１８】ここでT_rlは定数である。rl_cの構成要素は、次式によっ
て計算される。

【数１９】ゆえに、生成される汎化ルールの重みベクトルは小さく
なる。そのため、動作選択のときセンサ入力との誤差σ
²（式（３））が小さく見積もられてマッチ率が高くな
り、汎化ルールが記憶している状態と近傍の状態で選択
確率が上がる。

【００１８】本発明によるCSCGの有効度の更新は、勝者
ルールが動作を実行した後、図３に示すように以下の４
つのステップで行われる。ステップＲ１では、直接報酬
伝播について説明する。ペイオフPには有効度を増す報
酬（P>0）と有効度を減らす罰（P<0）があり、報酬はゴ
ール到達時、罰はロボットが障害物に衝突したときのみ
与えられる。これらのペイオフPは、割引率（0<γ<1）
によって減衰しながら、報酬を獲得した時点から過去に
遡って実行されたルールに与えられる。なお、ここで、
γは割引率（0<γ<1）であり、報酬を獲得した時点から
過去に遡って減衰される。また〔外２〕はペイオフPを
与えられた時点からnステップ前の勝者ルール〔外３〕
の有効度を表わす。

【数２０】

【００１９】ステップＲ２では、Bucket Brigade的戦略
について説明する。勝者ルールrl_wは、その有効度の一
部をΔuを１ステップ前の勝者

【外１０】に伝播させる。

【数２１】ここで、

【外１１】である。一般的なBucket Brigade法との違いは、勝者ル
ールrl_wの有効度が減少しない点である。ステップＲ３
では、コストについて説明する。限定ルールは、動作選
択で選ばれ動作を実行したときコストとしてu_wc_fを支払
う。有効度は次式によって更新する。

【数２２】ステップＲ４では、消散について説明する。全ルール
は、ゴール到達時に消散率（0<η<1）に応じて有効度を
減少させられる。

【数２３】以上の操作によって、得られた報酬よりも失った有効度
が多いルール、即ち報酬獲得に寄与しないルールは有効
度を下げ、有効度がしきい値u_min以下に減少したルール
は消去される。

【００２０】本発明によるCSCGの状態空間の構成過程及
び基本動作特性を観測するために、計算機シミュレーシ
ョンを用いて、左右に１つずつ計２個の光センサを持つ
自律ロボットの行動獲得実験を行なう。

【００２１】図４は、自律ロボットのシステム構成と状
態空間を示すものである。ロボットは、最初はスタート
地点に位置し、壁で囲まれた四角い環境中を移動して、
光源（ゴール地点）に到達することを目的とする。ロボ
ットは、左右２個の光センサ

【外１２】によって状態を知覚し、２個の駆動輪（ホイール１、ホ
イール２）によって移動する。光センサはロボットの直
径の約１６倍先の光を感知でき、ロボットが知覚する光
の強度はロボットと光源との距離に比例するものとす
る。光センサの値は、光が見えないとき

【外１３】、ロボットが光源に近づくと

【外１４】となる。２個の駆動輪は、２個のCSCGによってそれぞれ
独立に制御されている。そのためロボットの動作は２個
のモータ出力の結果として定義される。各CSCGは独立し
て制御を行なうがセンサ情報は共有している。

【００２２】状態空間は、センサ入力

【外１５】を縦軸と横軸にとることで定義される。実験は図５に示
すスタートからゴールまでを１エピソードとし、ロボッ
トがゴールに到達したときのみ報酬を与える。ロボット
が1000回試行してもゴールに到達できない場合、エピソ
ードを更新し、ロボットをスタート地点に戻す。このと
き、実機実験を想定した場合、全く同一の初期状態にロ
ボットを置くことが困難であるとして、初期配置角度を
ランダムに設定することとする。尚、実験で使用したCS
CGのパラメータを表１に示す。

【表１】

【００２３】図５は、各エピソードにおける自律ロボッ
トの経路軌跡と各CSCGの状態空間の構成過程を示す図で
ある。なお、繰り返し実験を行ない、安定して行動獲得
できることを確認している。図５中の楕円は重みベクト
ルWと有効度uに基づく各ルールの支配的な状態空間を表
わし、楕円の中心は各ルールの状態ベクトルを表わす。
帯状に連なる小さな点はセンサ入力をプロットしたもの
で、入力順に線で結ばれている。学習初期において、ロ
ボットは無秩序に探索し、実際に観測した状態−動作を
記憶したルールを生成している。しかし、ロボットはセ
ンサ入力に対し逐次状態空間の離散化を行ない、エピソ
ード100においてロボットの状態空間は図５Cのようにな
った。そして、自律ロボットは最終的に表２に示す６動
作を獲得している。

【表２】表２の（１）〜（６）は、図５のルール番号（１）〜
（６）に対応している。例えば、左右のCSCGに記憶され
ているルール（１）が選択されることで、ロボットは左
回転する。しかし、必ずしも類似した状態ベクトルを持
つルール同士が選択されるのではなく、左側CSCGのルー
ル（５）と右側CSCGのルール（６）とが選択されること
で、ロボットは左旋廻を行なっている。

【００２４】次に行動戦略について説明する。まず、ロ
ボットはルール（１）によって光りを正面に捉えるまで
左旋廻し、次にルール（２）と（３）を交互に実行して
左右に首を振り、常に光を正面に捉えるように移動す
る。光センサ入力が大きくなるとルール（５）によって
右旋廻し、旋廻しすぎて右光センサの入力が０になると
ルール（２）と（４）とにより左旋廻し、正面に光を捉
えるように方向修正を行なう。そして、ルール（４）と
（５）を交互に実行して光源に接近する。光源近傍では
ルール（５）-（５）と（５）-（６）によって微妙に方
向修正してゴールに到達している。Episode100では、ル
ール（４）と（５）による大きな方向修正を行なわず、
ルール（５）-（５）とルール（５）-（６）により常に
光を中央に捉えるようにゴールしている。このように、
左右のモータ出力を独立に制御することで、環境に適し
た動作を生成している。また、微妙な方向修正をしなが
ら光源に接近するという巧みな行動を獲得している。

【００２５】図６に衝突回数と動作数及び報酬を獲得し
たエピソードを示す。この図より学習の進展に伴って、
ゴール到達に要するステップ数が減少していることがわ
かる。エピソード１３において、ロボットは壁に衝突し
た状態から抜け出せず、ゴール到達に６９７stepを要し
ている。しかし、エピソード１８においてルール（１）
の生成により、右光センサに入力がないとき左旋廻する
動作を獲得し、壁に衝突せずにゴールに到達するように
なった。

【００２６】図７は、左右の車輪に配置されている２個
のCSCGの限定ルールと汎化ルールの生成数、及び学習器
内に記憶されているルール数を示している。この図か
ら、報酬を継続して獲得するようになると、新たなルー
ル生成がなくなりエピソードを重ねるにしたがい、学習
器内のルール数が減少していることがわかる。実験で
は、エピソード１において左右のCSCGにはそれぞれ、９
８個、９０個のルールが記憶されている。しかし、エピ
ソード３０では、２７個、２１個にまで減少し、エピソ
ード１００では、左右のCSCGに記憶されているルールは
１０個、７個となった。これは、次の作用によるもので
ある。

【００２７】１．有効度の高い限定ルールの発火によっ
て、無限定ルールによるルール生成が抑制されている。２．報酬獲得に寄与しないルールが、式（１７）による
有効度の消散によって、しきい値以下に有効度を下げ、
消去される。３．報酬獲得に寄与するルール群は、ルール数の減少に
より集中的に報酬が伝播するようになる。 CSCGでは、この３つの作用が同時にルール集合に働くこ
とで、動作系列、即ち、行動が獲得されている。

【００２８】次に、状態の識別方法について説明する。
前述したように、動作選択はマッチ率、詳細度及び有効
度による確率的選択で行なわれる。そのため、ロボット
が移動すると、センサ入力が変化し、マッチ率が下が
る。また、実行されたルールはコストを払うため有効度
が下がる。このため、選択確率が下がり、他のルールに
切り替わり易くなる。例えば、ロボットが獲得したルー
ル（２）と（３）を用いた首振り行動の場合、それぞれ
の状態ベクトルは離れている（図５C）。そのため、ロ
ボットが首を振りセンサ入力が変わるとマッチ率が大き
く変化し、ルールの切り替えが起こる。一方、ルール
（５）と（６）の場合、記憶している状態ベクトルは近
い（図５C）。そのため、選択確率はマッチ率よりも有
効度の変化に強く影響を受ける。例えば、ルール（５）
が実行された場合、コストを払い有効度が低くなる。す
るとルール（６）の選択確率が上がり、ルールの切り替
えが起こる。

【００２９】また、重みベクトルによって、センサ入力
と状態ベクトルの自乗誤差σ^２（式（３））は小さくな
る。そのため、重みベクトルが小さいルールはマッチ率
が高く、広い範囲で支配的になる。例えば、エピソード
１００におけるルール（２）の重みベクトルは、それぞ
れW={0.60 , 0.60}, W={0.66 , 0.64}であるため、広い
範囲で選択確率が高くなる。しかし、ルール（５）の重
みベクトルは、どちらもW={1.0 , 1.0}であるため、狭
い範囲でしか選択確率が高くならない。このようにCSCG
では、マッチ率と有効度との関係によってルールの切り
替えを行ない、状態の識別を行なっている。

【００３０】なお、上述した実施例は単なる例示に過ぎ
ず、本発明は幾多の変更、変形が可能であることに留意
されたい。

【図面の簡単な説明】

【図１】本発明によるCSCGの基本的な処理手順を説明
するフローチャートである。

【図２】本発明による動作選択とルール生成過程とを
示すブロック図である。

【図３】本発明によるCSCGの有効度の更新を模式的に
示す図である。

【図４】自律ロボットのシステム構成と状態空間を示
す図である。

【図５】各エピソードにおける自律ロボットの経路軌
跡と各CSCGの状態空間の構成過程を示す図である。

【図６】衝突回数と動作数及び報酬を獲得したエピソ
ードを示す図である。

【図７】左右の車輪に配置されている２個のCSCGの限
定ルールと汎化ルールの生成数、及び学習器内に記憶さ
れている全ルール数を示す図である。

Claims

【特許請求の範囲】

【請求項１】有効な動作ルール集合を獲得する強化学
習システムにおいて、センサ入力から構成される状態ベクトルＶ、前記状態ベ
クトルＶに対応して各々の要素の重要度を示す重みベク
トルＷ、動作ルールの相対的な有効性を示す有効度ｕ、
及び、前記状態ベクトルＶに対応して各動作ルールにお
いて指定される動作ａ、を規定する動作ルール集合を記
憶する格納手段と、環境からセンサ入力を受け取るセンサ入力受け取り手段
と、受け取ったセンサ入力と、前記の動作ルール集合の各動
作ルールの状態ベクトルＶとを比較し、受け取ったセン
サ入力に最もマッチする１つの動作ルールを選択する動
作ルール選択手段と、選択された動作ルールに記述された動作ａを実行する動
作実行手段と、環境から、実行した動作ａに対する強化信号を受け取る
強化信号受け取り手段と、実行した状態−動作を記憶した動作ルールを生成し、前
記動作ルール集合に加える動作ルール生成手段と、前記強化信号に基づき前記の動作ルールの有効度を更新
し、そのとき所定の閾値よりも有効度が小さくなれば、
その動作ルールを動作ルール集合から消去する手段と、
を具えることを特徴とする強化学習システム。
【請求項２】請求項１に記載の強化学習システムにお
いて、前記動作ルール集合が、重みベクトルＷ＝０で｛状態−
動作｝が未定義である無限定ルールと、重みベクトルＷ
≠０で特定の｛状態−記憶｝が記憶されている限定ルー
ルを含み、前記動作ルール選択手段において、特に有効な動作ルー
ルがないときは前記無限定ルールを選択し、前記無限定ルールが選択された場合は、前記動作実行手
段において、実行する動作ａをランダムに決定すること
を、特徴とするシステム。
【請求項３】請求項１または２に記載の強化学習シス
テムにおいて、前記動作ルール選択手段が、類似度を表わすマッチ率m_jを次式：【数１】（ここで、d_kはスケーリング値であってk番目のセンサ
が学習過程において観測したセンサ値の最大差、T_mは定
数、【外１】、添え字ｊは動作ルール番号、添え字ｋは入力ベクトル
のｋ番目の次元である）で計算するマッチ率演算手段
と、前記の各動作ルールの重みベクトルＷから状態空間の汎
化の割合を表わす詳細度λを、次式：【数２】で計算する詳細度演算手段と、前記の観測した状態に対する前記動作ルールの各々のマ
ッチ率m_j、詳細度λ、有効度uを用いて、次式：【数３】によりボルツマン分布に基づいたルーレット選択を行な
い（定数T、n_rl：全ルール数）勝者ルールrl_wを決定す
る勝者ルール演算手段と、を具えることを特徴とするシ
ステム。
【請求項４】請求項１〜３のいずれか１項に記載の強
化学習システムにおいて、限定ルールが選択された場合、新しく生成される動作ル
ールは、重みベクトルＷを変更することでセンサ情報と
マッチしない条件において、動作選択における選択確率
が上がるよう汎化がなされたものを新しい条件部とする
前記動作ルールを生成することを特徴とするシステム。
【請求項５】請求項１〜４のいずれか１項に記載の強
化学習システムにおいて、有効度uを増す報酬（P>0）、および／または、有効度u
を減らす罰（P<0）を含むペイオフPに基づき、次式：【数４】（ここで、γは割引率（0<γ<1）であり、報酬を獲得し
た時点から過去に遡って減衰される。また【外２】はペイオフPを与えられた時点からnステップ前の勝者ル
ール【外３】の有効度を表わす）で有効度uを計算する有効度演算手
段を具え、更に、前記有効度演算手段は、勝者ルールは、その有効
度uの一部Δｕを１ステップ前の勝者ルールに伝播さ
せ、限定ルールが選択された場合は、所定のコストを払
い、有効度uを減少させ、全ての前記動作ルールは、ゴ
ール到達時に所定の消散率ηに応じて有効度uを減少さ
せる、ことを特徴とするシステム。
【請求項６】有効な動作ルール集合を獲得する強化学
習方法において、センサ入力から構成される状態ベクトルＶ、前記状態ベ
クトルＶに対応して各々の要素の重要度を示す重みベク
トルＷ、動作ルールの相対的な有効性を示す有効度ｕ、
及び、前記状態ベクトルＶに対応して各動作ルールにお
いて指定される動作ａ、を規定する動作ルール集合を記
憶する格納ステップと、環境からセンサ入力を受け取るセンサ入力受け取りステ
ップと、受け取ったセンサ入力と、前記の動作ルール集合の各動
作ルールの状態ベクトルＶとを比較し、受け取ったセン
サ入力に最もマッチする１つの動作ルールを選択する動
作ルール選択ステップと、選択された動作ルールに記述された動作ａを実行する動
作実行ステップと、環境から、実行した動作ａに対する強化信号を受け取る
強化信号受け取りステップと、実行した状態−動作を記憶した動作ルールを生成し、前
記動作ルール集合に加える動作ルール生成ステップと、前記強化信号に基づき前記の動作ルールの有効度を更新
し、そのとき所定の閾値よりも有効度が小さくなれば、
その動作ルールを動作ルール集合から消去するステップ
と、を含むことを特徴とする方法。
【請求項７】請求項６に記載の強化学習方法におい
て、前記動作ルール集合が、重みベクトルＷ＝０で｛状態−
動作｝が未定義である無限定ルールと、重みベクトルＷ
≠０で特定の｛状態−記憶｝が記憶されている限定ルー
ルを含み、前記動作ルール選択ステップにおいて、特に有効な動作
ルールがないときは前記無限定ルールを選択し、前記無限定ルールが選択された場合は、前記動作実行ス
テップにおいて、実行する動作ａをランダムに決定する
ことを、特徴とする方法。
【請求項８】請求項６または７に記載の強化学習方法
において、前記動作ルール選択ステップが、類似度を表わすマッチ率m_jを次式：【数５】（ここで、d_kはスケーリング値であってk番目のセンサ
が学習過程において観測したセンサ値の最大差、T_mは定
数、〔外１〕、添え字ｊは動作ルール番号、添え字ｋは
入力ベクトルのｋ番目の次元である）で計算するマッチ
率演算ステップと、前記の各動作ルールの重みベクトルＷから状態空間の汎
化の割合を表わす詳細度λを、次式：【数６】で計算する詳細度演算ステップと、前記の観測した状態に対する前記動作ルールの各々のマ
ッチ率m_j、詳細度λ、有効度uを用いて、次式：【数７】によりボルツマン分布に基づいたルーレット選択を行な
い（定数T、n_rl：全ルール数）勝者ルールrl_wを決定す
る勝者ルール演算ステップと、を含むことを特徴とする
方法。
【請求項９】請求項６〜８のいずれか１項に記載の強
化学習方法において、限定ルールが選択された場合、新しく生成される動作ル
ールは、重みベクトルＷを変更することでセンサ情報と
マッチしない条件において、動作選択における選択確率
が上がるよう汎化がなされたものを新しい条件部とする
前記動作ルールを生成することを特徴とする方法。
【請求項１０】請求項６〜９のいずれか１項に記載の
強化学習方法において、有効度uを増す報酬（P>0）、お
よび／または、有効度uを減らす罰（P<0）を含むペイオ
フPに基づき、次式：【数８】（ここで、γは割引率（0<γ<1）であり、報酬を獲得し
た時点から過去に遡って減衰される。また〔外２〕はペ
イオフPを与えられた時点からnステップ前の勝者ルール
〔外３〕の有効度を表わす）で有効度uを計算する有効
度演算ステップを含み、更に、前記有効度演算ステップは、勝者ルールは、その
有効度uの一部Δｕを１ステップ前の勝者ルールに伝播
させ、限定ルールが選択された場合は、所定のコストを
払い、有効度uを減少させ、全ての前記動作ルールは、
ゴール到達時に所定の消散率ηに応じて有効度uを減少
させる、ことを特徴とする方法。