JP2003233503A - 強化学習システムおよびその方法 - Google Patents

強化学習システムおよびその方法

Info

Publication number
JP2003233503A
JP2003233503A JP2002032111A JP2002032111A JP2003233503A JP 2003233503 A JP2003233503 A JP 2003233503A JP 2002032111 A JP2002032111 A JP 2002032111A JP 2002032111 A JP2002032111 A JP 2002032111A JP 2003233503 A JP2003233503 A JP 2003233503A
Authority
JP
Japan
Prior art keywords
rule
action
effectiveness
state
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002032111A
Other languages
English (en)
Inventor
Kanji Ueda
完次 上田
Kazuhiro Okura
和博 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe University NUC
Original Assignee
Kobe University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe University NUC filed Critical Kobe University NUC
Priority to JP2002032111A priority Critical patent/JP2003233503A/ja
Publication of JP2003233503A publication Critical patent/JP2003233503A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

(57)【要約】 (修正有) 【課題】問題に応じて適切なシミュレーション・モデル
を設計する必要がなく、多くの問題に対して即座に適用
できるようにし、また、適切な問題設定、即ち、状況に
適したセンサ情報と行動出力の離散化とが不要となる強
化学習法を提供する。 【解決手段】状態・行動空間の離散化を学習過程中に自
律的に行ない、標準的な強化学習のように予め離散化さ
れた状態・行動空間で行なうのではなく、自律移動ロボ
ットなどの人工物に埋め込んだ学習主体のセンサ有効範
囲から定まる連続な状態空間と、モータ出力の物理的範
囲から定まる連続な行動空間において行なわれ、状態・
行動空間の離散化を逐次行なわせながら、適切な行動ル
ールを構築していく。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自律移動ロボット
の制御に関するものであり、特に、強化学習を用いる自
律的意思決定機構に関するものである。
【0002】
【従来の技術】例えば、自律移動ロボットなどに必要な
行動ベース型AIの研究課題の一つに、与えられた環境に
おいて目的に対して適切なセンサ・モータ間の写像(制
御機構)を適応的に構築することが挙げられる。これに
は、現在、(1)進化的手法を用いて適切な制御機構を
獲得させようとする進化ロボティクスと、(2)センサ
・モータ間の調整に強化学習を適用して行おうとするも
のという二つの大きな流れがある。
【0003】
【発明が解決しようとする課題】進化ロボティクスで
は、ロボットの行動制御機構をコード化した遺伝子型を
一個体とし、進化型計算手法を用いてその集団を進化さ
せることで適切な制御機構を発現させようとするもので
ある。そのため、原理的にはオンラインでの行動獲得は
困難である。そこで、計算機シミュレーションによって
適切な行動獲得までに要する所要時間を短縮する手法が
使われるが、問題に応じて適切なシミュレーション・モ
デルを設計する必要があり、多くの問題に対して即座に
適用できるとは言いがたい。
【0004】一方、強化学習を用いたアプローチでは、
制御対象である自律移動ロボットによる学習となるた
め、オンラインでの行動獲得に適している。しかし、Q-
Learning等の典型的な強化学習アルゴリズムを適用する
ためには、進化ロボティクスと同様に適切な問題設定、
即ち、状況に適したセンサ情報と行動出力の離散化とが
必要である。多くの場合、これが強化学習の成功、不成
功を支配し、荒い離散化であれば隠れ状態問題が派生
し、マルコフ性を失って所望の振舞いを獲得できない。
逆に、過度に離散化されれば、報酬伝播に時間がかかり
学習速度が上がらない、或いは学習しないなどの問題が
生じる。一般に状態・行動空間の離散化は、与えられた
タスクとその動作環境、更に、ロボットの出力機構によ
る様々な要因を考慮して適切に決定しなければならない
が、試行錯誤が必要である。
【0005】
【課題を解決するための手段】本発明による有効な動作
ルール集合を獲得する強化学習システムは、センサ入力
から構成される状態ベクトルV、前記状態ベクトルVに
対応して各々の要素の重要度を示す重みベクトルW、動
作ルールの相対的な有効性を示す有効度u、及び、前記
状態ベクトルVに対応して各動作ルール(以降、動作ル
ールを「ルール」と呼ぶこともある)において指定され
る動作a、を規定する動作ルール集合を記憶する格納手
段と、環境からセンサ入力を受け取るセンサ入力受け取
り手段と、受け取ったセンサ入力と、前記の動作ルール
集合の各動作ルールの状態ベクトルVとを比較し、受け
取ったセンサ入力に最もマッチする1つの動作ルールを
選択する動作ルール選択手段と、選択された動作ルール
に記述された動作aを実行する動作実行手段と、環境か
ら、実行した動作に対する強化信号を受け取る強化信号
受け取り手段と、実行した状態−動作を記憶した動作ル
ールを生成し、前記動作ルール集合に加える動作ルール
生成手段と、前記強化信号に基づき全ての前記動作ルー
ルの有効度を更新し、そのとき所定の閾値よりも有効度
が小さくなれば、その動作ルールを前記動作ルール集合
から消去する手段と、を具えることを特徴とする。
【0006】また、本発明による強化学習システムは、
前記動作ルール集合が、重みベクトルW=0で{状態−
動作}が未定義である無限定ルールと、重みベクトルW
≠0で特定の{状態−記憶}が記憶されている限定ルー
ルを含み、前記動作ルール選択手段において、特に有効
な動作ルールがないときは前記無限定ルールを選択し、
前記無限定ルールが選択された場合は、前記動作実行手
段において、実行する動作aをランダムに決定すること
を、特徴とする。
【0007】さらに、本発明による強化学習システム
は、前記動作ルール選択手段が、類似度を表わすマッチ
率mjを次式:
【数9】 (ここで、dkはスケーリング値であってk番目のセンサ
が学習過程において観測したセンサ値の最大差、Tmは定
数、〔外1〕、添え字jは動作ルール番号、添え字kは
入力ベクトルのk番目の次元である)で計算するマッチ
率演算手段と、各ルールの重みベクトルから状態空間の
汎化の割合を表わす詳細度λを、次式:
【数10】 で計算する詳細度演算手段と、観測した状態に対する各
動作ルールのマッチ率mj、詳細度λ、有効度uを用い
て、次式:
【数11】 によりボルツマン分布に基づいたルーレット(確率的)
選択を行ない(定数T、n rl:全ルール数)勝者ルールrl
wを決定する勝者ルール演算手段と、を具えることを特
徴とする。
【0008】さらに、本発明による強化学習システム
は、限定ルールが選択された場合、新しく生成されるル
ールは、重みベクトルWを変更することでセンサ情報と
マッチしない条件において、動作選択における選択確率
が上がるよう汎化がなされたものを新しい条件部とする
動作ルールを生成することを特徴とする。
【0009】さらに、本発明による強化学習システム
は、有効度uを増す報酬(P>0)、および/または、有効
度uを減らす罰(P<0)を含むペイオフPに基づき、次
式:
【数12】 (ここで、γは割引率(0<γ<1)であり、報酬を獲得し
た時点から過去に遡って減衰される。また〔外2〕はペ
イオフPを与えられた時点からnステップ前の勝者ルール
〔外3〕の有効度を表わす)で有効度uを計算する有効
度演算手段を具え、更に、前記有効度演算手段は、勝者
ルールは、その有効度uの一部Δuを1ステップ前の勝
者ルールに伝播させ、限定ルールが選択された場合は、
所定のコストを払い、有効度uを減少させ、全ての前記
動作ルールは、ゴール到達時に所定の消散率η(0<η<
1)に応じて有効度uを減少させる、ことを特徴とする。
【0010】なお、本発明は上記のようにシステムの形
態で説明したが、上記システムに対応した方法の形態で
も本発明を実現することができることに留意されたい。
例えば、本発明による有効な動作ルール集合を獲得する
強化学習方法は、センサ入力から構成される状態ベクト
ルV、前記状態ベクトルVに対応して各々の要素の重要
度を示す重みベクトルW、動作ルールの相対的な有効性
を示す有効度u、及び、前記状態ベクトルVに対応して
各動作ルールにおいて指定される動作a、を規定する動
作ルール集合を記憶する格納ステップと、環境からセン
サ入力を受け取るセンサ入力受け取りステップと、受け
取ったセンサ入力と、前記の動作ルール集合の各動作ル
ールの状態ベクトルVとを比較し、受け取ったセンサ入
力に最もマッチする1つの動作ルールを選択する動作ル
ール選択ステップと、選択された動作ルールに記述され
た動作aを実行する動作実行ステップと、環境から、実
行した動作aに対する強化信号を受け取る強化信号受け
取りステップと、実行した状態−動作を記憶した動作ル
ールを生成し、前記動作ルール集合に加える動作ルール
生成ステップと、前記強化信号に基づき前記の動作ルー
ルの有効度を更新し、そのとき所定の閾値よりも有効度
が小さくなれば、その動作ルールを動作ルール集合から
消去するステップと、を含むことを特徴とする。
【0011】
【発明の実施の形態】本発明の基本的な原理は、強化学
習において、状態・行動空間の離散化を学習過程中に自
律的に行なうことである。本発明による強化学習法は、
標準的な強化学習のように予め離散化された状態・行動
空間で行なうのではなく、自律移動ロボットなどの人工
物に埋め込んだ学習主体のセンサ有効範囲から定まる連
続な状態空間と、モータ出力の物理的範囲から定まる連
続な行動空間において行なわれ、状態・行動空間の離散
化を逐次行なわせながら、適切な行動ルールを構築して
いくことを特徴としている。本発明によるこの新規な強
化学習法をContinuous Space Classifier Generator、
即ちCSCGと呼ぶこととする。
【0012】本発明によるCSCGによる学習は、実例に基
づく強化学習法の一つであり、経験したセンサ入力(即
ち状態入力)−動作出力のペアをif-then形式で記述し
たルールの集合Rの更新を図1のように繰り返すことに
より行なわれる。ステップS1では、センサ入力を受け
取る。ステップS2では、受け取ったセンサ入力に基づ
き、ルール集合Rの中からよりマッチする1つのルール
を選択する。ステップS3では、選択されたルールに記
述された動作を実行するステップS4では、この実行し
た動作に対し、強化信号が環境から与えられる。ステッ
プS5では、与えられた強化信号が正か負かを判断す
る。正の場合はS6へ、負の場合は、S7に進む。ステ
ップS6では、実行した状態−動作を記憶したルールを
生成し、ルール集合Rに加え、S7に進む。ステップS
7では、強化信号をもとに全ルールの評価を更新する。
このとき、ある所定の閾値よりも評価値が小さくなれ
ば、そのルールをRから消去する。ステップS8では、
終了条件を満たすか否かを判断する。満たさない場合は
S1に戻る。終了条件を満たす場合は終了する。上記ス
テップS2、S6、S8の詳細については後述する。強
化学習は、実行した行為の評価として得られる報酬、あ
るいは強化信号を最大化するようにセンサ入力−行為間
の写像間系を学習する枠組みである。これは、以下のよ
うに記述できる。
【外4】
【0013】本発明によるCSCGにおける動作ルール集合
Rは、次式で記述されるルール
【外5】 により構成される。
【数13】 ここで
【外6】 は、学習器へのセンサ入力から構成される状態ベクト
ル、
【外7】 は、状態ベクトルに対応して各々の要素の重要度を示す
重みベクトル、uはルールの相対的な有効度を表わす実
数値である。aはそのルールが指定する動作を表わすも
のである。なお、nは入力ベクトルの次元数を表わ
す。重みベクトルWの各要素wiはi番目のセンサ入力の重
要度を表わし、
【外8】 で表わす。wiが0に近いほどi番目のセンサ入力の重要
度は低くなる。これは状態空間の汎化の役割を担う。
【0014】集合Rに含まれるルールのうち、W=0で{状
態−動作}が未定義であるルールを無限定ルールr
lIND、W≠0で特定の{状態−動作}が記憶されているル
ールを限定ルールrlDEFと呼ぶものとする。但し、rlIND
は、常時一個だけ学習器内に存在しており、特に有効
なルールがないときはこれが選択される。即ち、このル
ールは学習器の能動的学習能力を保証する。
【0015】図2に動作選択とルール生成過程とを示
す。ロボットの知覚と意思決定は、以下のステップで行
なわれる。ステップP1では、センサからの入力ベクト
【外9】
【数14】 ここで、dkはスケーリング値であってk番目のセンサが
学習過程において観測したセンサ値の最大差、Tmは定
数、〔外1〕、添え字jは動作ルール番号、添え字kは
入力ベクトルのk番目の次元である。ステップP2で
は、各ルールの重みベクトルから状態空間の汎化の割合
を表わす詳細度λを求める。
【数15】 ステップP3では、観測した状態に対する各ルールのマ
ッチ率、詳細度、有効度を用い、以下に示すボルツマン
分布に基づいたルーレット選択(確率的選択)を行ない
勝者ルールrlwを決定する。
【数16】 (Tは定数)
【0016】ここでステップP3において勝者ルールrl
w がrlINDの場合には、動作は[amin,amax]の間でランダ
ムに決定する。また、rlw ∈rlDEFの場合には、勝者ル
ールが記憶している動作を実行する。
【0017】動作選択における勝者ルールrlwは実行し
た動作が罰を与えられない限り新しいルールrlCを生成
し、式(1)で定義したルールの構成要素を更新する。
rlw=rlINDの場合には、rlCの構成要素は次式によって定
義される。なお、rlcは、rlIN Dの有効度u0とそのとき実
行した動作awを受け継ぐものである。
【数17】 rlw∈rlDEFの場合には、勝者ルールのマッチ率muが、あ
る生成しきい値(θrl)以下(murl)のときだけ、
勝者は条件部を汎化させた新しいルールrlcを生成す
る。
【数18】 ここでTrlは定数である。rlcの構成要素は、次式によっ
て計算される。
【数19】 ゆえに、生成される汎化ルールの重みベクトルは小さく
なる。そのため、動作選択のときセンサ入力との誤差σ
2(式(3))が小さく見積もられてマッチ率が高くな
り、汎化ルールが記憶している状態と近傍の状態で選択
確率が上がる。
【0018】本発明によるCSCGの有効度の更新は、勝者
ルールが動作を実行した後、図3に示すように以下の4
つのステップで行われる。ステップR1では、直接報酬
伝播について説明する。ペイオフPには有効度を増す報
酬(P>0)と有効度を減らす罰(P<0)があり、報酬はゴ
ール到達時、罰はロボットが障害物に衝突したときのみ
与えられる。これらのペイオフPは、割引率(0<γ<1)
によって減衰しながら、報酬を獲得した時点から過去に
遡って実行されたルールに与えられる。なお、ここで、
γは割引率(0<γ<1)であり、報酬を獲得した時点から
過去に遡って減衰される。また〔外2〕はペイオフPを
与えられた時点からnステップ前の勝者ルール〔外3〕
の有効度を表わす。
【数20】
【0019】ステップR2では、Bucket Brigade的戦略
について説明する。勝者ルールrlwは、その有効度の一
部をΔuを1ステップ前の勝者
【外10】 に伝播させる。
【数21】 ここで、
【外11】 である。一般的なBucket Brigade法との違いは、勝者ル
ールrlwの有効度が減少しない点である。ステップR3
では、コストについて説明する。限定ルールは、動作選
択で選ばれ動作を実行したときコストとしてuwcfを支払
う。有効度は次式によって更新する。
【数22】 ステップR4では、消散について説明する。全ルール
は、ゴール到達時に消散率(0<η<1)に応じて有効度を
減少させられる。
【数23】 以上の操作によって、得られた報酬よりも失った有効度
が多いルール、即ち報酬獲得に寄与しないルールは有効
度を下げ、有効度がしきい値umin以下に減少したルール
は消去される。
【0020】本発明によるCSCGの状態空間の構成過程及
び基本動作特性を観測するために、計算機シミュレーシ
ョンを用いて、左右に1つずつ計2個の光センサを持つ
自律ロボットの行動獲得実験を行なう。
【0021】図4は、自律ロボットのシステム構成と状
態空間を示すものである。ロボットは、最初はスタート
地点に位置し、壁で囲まれた四角い環境中を移動して、
光源(ゴール地点)に到達することを目的とする。ロボ
ットは、左右2個の光センサ
【外12】 によって状態を知覚し、2個の駆動輪(ホイール1、ホ
イール2)によって移動する。光センサはロボットの直
径の約16倍先の光を感知でき、ロボットが知覚する光
の強度はロボットと光源との距離に比例するものとす
る。光センサの値は、光が見えないとき
【外13】 、ロボットが光源に近づくと
【外14】 となる。2個の駆動輪は、2個のCSCGによってそれぞれ
独立に制御されている。そのためロボットの動作は2個
のモータ出力の結果として定義される。各CSCGは独立し
て制御を行なうがセンサ情報は共有している。
【0022】状態空間は、センサ入力
【外15】 を縦軸と横軸にとることで定義される。実験は図5に示
すスタートからゴールまでを1エピソードとし、ロボッ
トがゴールに到達したときのみ報酬を与える。ロボット
が1000回試行してもゴールに到達できない場合、エピソ
ードを更新し、ロボットをスタート地点に戻す。このと
き、実機実験を想定した場合、全く同一の初期状態にロ
ボットを置くことが困難であるとして、初期配置角度を
ランダムに設定することとする。尚、実験で使用したCS
CGのパラメータを表1に示す。
【表1】
【0023】図5は、各エピソードにおける自律ロボッ
トの経路軌跡と各CSCGの状態空間の構成過程を示す図で
ある。なお、繰り返し実験を行ない、安定して行動獲得
できることを確認している。図5中の楕円は重みベクト
ルWと有効度uに基づく各ルールの支配的な状態空間を表
わし、楕円の中心は各ルールの状態ベクトルを表わす。
帯状に連なる小さな点はセンサ入力をプロットしたもの
で、入力順に線で結ばれている。学習初期において、ロ
ボットは無秩序に探索し、実際に観測した状態−動作を
記憶したルールを生成している。しかし、ロボットはセ
ンサ入力に対し逐次状態空間の離散化を行ない、エピソ
ード100においてロボットの状態空間は図5Cのようにな
った。そして、自律ロボットは最終的に表2に示す6動
作を獲得している。
【表2】 表2の(1)〜(6)は、図5のルール番号(1)〜
(6)に対応している。例えば、左右のCSCGに記憶され
ているルール(1)が選択されることで、ロボットは左
回転する。しかし、必ずしも類似した状態ベクトルを持
つルール同士が選択されるのではなく、左側CSCGのルー
ル(5)と右側CSCGのルール(6)とが選択されること
で、ロボットは左旋廻を行なっている。
【0024】次に行動戦略について説明する。まず、ロ
ボットはルール(1)によって光りを正面に捉えるまで
左旋廻し、次にルール(2)と(3)を交互に実行して
左右に首を振り、常に光を正面に捉えるように移動す
る。光センサ入力が大きくなるとルール(5)によって
右旋廻し、旋廻しすぎて右光センサの入力が0になると
ルール(2)と(4)とにより左旋廻し、正面に光を捉
えるように方向修正を行なう。そして、ルール(4)と
(5)を交互に実行して光源に接近する。光源近傍では
ルール(5)-(5)と(5)-(6)によって微妙に方
向修正してゴールに到達している。Episode100では、ル
ール(4)と(5)による大きな方向修正を行なわず、
ルール(5)-(5)とルール(5)-(6)により常に
光を中央に捉えるようにゴールしている。このように、
左右のモータ出力を独立に制御することで、環境に適し
た動作を生成している。また、微妙な方向修正をしなが
ら光源に接近するという巧みな行動を獲得している。
【0025】図6に衝突回数と動作数及び報酬を獲得し
たエピソードを示す。この図より学習の進展に伴って、
ゴール到達に要するステップ数が減少していることがわ
かる。エピソード13において、ロボットは壁に衝突し
た状態から抜け出せず、ゴール到達に697stepを要し
ている。しかし、エピソード18においてルール(1)
の生成により、右光センサに入力がないとき左旋廻する
動作を獲得し、壁に衝突せずにゴールに到達するように
なった。
【0026】図7は、左右の車輪に配置されている2個
のCSCGの限定ルールと汎化ルールの生成数、及び学習器
内に記憶されているルール数を示している。この図か
ら、報酬を継続して獲得するようになると、新たなルー
ル生成がなくなりエピソードを重ねるにしたがい、学習
器内のルール数が減少していることがわかる。実験で
は、エピソード1において左右のCSCGにはそれぞれ、9
8個、90個のルールが記憶されている。しかし、エピ
ソード30では、27個、21個にまで減少し、エピソ
ード100では、左右のCSCGに記憶されているルールは
10個、7個となった。これは、次の作用によるもので
ある。
【0027】1.有効度の高い限定ルールの発火によっ
て、無限定ルールによるルール生成が抑制されている。 2.報酬獲得に寄与しないルールが、式(17)による
有効度の消散によって、しきい値以下に有効度を下げ、
消去される。 3.報酬獲得に寄与するルール群は、ルール数の減少に
より集中的に報酬が伝播するようになる。 CSCGでは、この3つの作用が同時にルール集合に働くこ
とで、動作系列、即ち、行動が獲得されている。
【0028】次に、状態の識別方法について説明する。
前述したように、動作選択はマッチ率、詳細度及び有効
度による確率的選択で行なわれる。そのため、ロボット
が移動すると、センサ入力が変化し、マッチ率が下が
る。また、実行されたルールはコストを払うため有効度
が下がる。このため、選択確率が下がり、他のルールに
切り替わり易くなる。例えば、ロボットが獲得したルー
ル(2)と(3)を用いた首振り行動の場合、それぞれ
の状態ベクトルは離れている(図5C)。そのため、ロ
ボットが首を振りセンサ入力が変わるとマッチ率が大き
く変化し、ルールの切り替えが起こる。一方、ルール
(5)と(6)の場合、記憶している状態ベクトルは近
い(図5C)。そのため、選択確率はマッチ率よりも有
効度の変化に強く影響を受ける。例えば、ルール(5)
が実行された場合、コストを払い有効度が低くなる。す
るとルール(6)の選択確率が上がり、ルールの切り替
えが起こる。
【0029】また、重みベクトルによって、センサ入力
と状態ベクトルの自乗誤差σ(式(3))は小さくな
る。そのため、重みベクトルが小さいルールはマッチ率
が高く、広い範囲で支配的になる。例えば、エピソード
100におけるルール(2)の重みベクトルは、それぞ
れW={0.60 , 0.60}, W={0.66 , 0.64}であるため、広い
範囲で選択確率が高くなる。しかし、ルール(5)の重
みベクトルは、どちらもW={1.0 , 1.0}であるため、狭
い範囲でしか選択確率が高くならない。このようにCSCG
では、マッチ率と有効度との関係によってルールの切り
替えを行ない、状態の識別を行なっている。
【0030】なお、上述した実施例は単なる例示に過ぎ
ず、本発明は幾多の変更、変形が可能であることに留意
されたい。
【図面の簡単な説明】
【図1】 本発明によるCSCGの基本的な処理手順を説明
するフローチャートである。
【図2】 本発明による動作選択とルール生成過程とを
示すブロック図である。
【図3】 本発明によるCSCGの有効度の更新を模式的に
示す図である。
【図4】 自律ロボットのシステム構成と状態空間を示
す図である。
【図5】 各エピソードにおける自律ロボットの経路軌
跡と各CSCGの状態空間の構成過程を示す図である。
【図6】 衝突回数と動作数及び報酬を獲得したエピソ
ードを示す図である。
【図7】 左右の車輪に配置されている2個のCSCGの限
定ルールと汎化ルールの生成数、及び学習器内に記憶さ
れている全ルール数を示す図である。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 有効な動作ルール集合を獲得する強化学
    習システムにおいて、 センサ入力から構成される状態ベクトルV、前記状態ベ
    クトルVに対応して各々の要素の重要度を示す重みベク
    トルW、動作ルールの相対的な有効性を示す有効度u、
    及び、前記状態ベクトルVに対応して各動作ルールにお
    いて指定される動作a、を規定する動作ルール集合を記
    憶する格納手段と、 環境からセンサ入力を受け取るセンサ入力受け取り手段
    と、 受け取ったセンサ入力と、前記の動作ルール集合の各動
    作ルールの状態ベクトルVとを比較し、受け取ったセン
    サ入力に最もマッチする1つの動作ルールを選択する動
    作ルール選択手段と、 選択された動作ルールに記述された動作aを実行する動
    作実行手段と、 環境から、実行した動作aに対する強化信号を受け取る
    強化信号受け取り手段と、 実行した状態−動作を記憶した動作ルールを生成し、前
    記動作ルール集合に加える動作ルール生成手段と、 前記強化信号に基づき前記の動作ルールの有効度を更新
    し、そのとき所定の閾値よりも有効度が小さくなれば、
    その動作ルールを動作ルール集合から消去する手段と、
    を具えることを特徴とする強化学習システム。
  2. 【請求項2】 請求項1に記載の強化学習システムにお
    いて、 前記動作ルール集合が、重みベクトルW=0で{状態−
    動作}が未定義である無限定ルールと、重みベクトルW
    ≠0で特定の{状態−記憶}が記憶されている限定ルー
    ルを含み、 前記動作ルール選択手段において、特に有効な動作ルー
    ルがないときは前記無限定ルールを選択し、 前記無限定ルールが選択された場合は、前記動作実行手
    段において、実行する動作aをランダムに決定すること
    を、特徴とするシステム。
  3. 【請求項3】 請求項1または2に記載の強化学習シス
    テムにおいて、 前記動作ルール選択手段が、 類似度を表わすマッチ率mjを次式: 【数1】 (ここで、dkはスケーリング値であってk番目のセンサ
    が学習過程において観測したセンサ値の最大差、Tmは定
    数、 【外1】 、添え字jは動作ルール番号、添え字kは入力ベクトル
    のk番目の次元である)で計算するマッチ率演算手段
    と、 前記の各動作ルールの重みベクトルWから状態空間の汎
    化の割合を表わす詳細度λを、次式: 【数2】 で計算する詳細度演算手段と、 前記の観測した状態に対する前記動作ルールの各々のマ
    ッチ率mj、詳細度λ、有効度uを用いて、次式: 【数3】 によりボルツマン分布に基づいたルーレット選択を行な
    い(定数T、nrl:全ルール数)勝者ルールrlwを決定す
    る勝者ルール演算手段と、を具えることを特徴とするシ
    ステム。
  4. 【請求項4】 請求項1〜3のいずれか1項に記載の強
    化学習システムにおいて、 限定ルールが選択された場合、新しく生成される動作ル
    ールは、重みベクトルWを変更することでセンサ情報と
    マッチしない条件において、動作選択における選択確率
    が上がるよう汎化がなされたものを新しい条件部とする
    前記動作ルールを生成することを特徴とするシステム。
  5. 【請求項5】 請求項1〜4のいずれか1項に記載の強
    化学習システムにおいて、 有効度uを増す報酬(P>0)、および/または、有効度u
    を減らす罰(P<0)を含むペイオフPに基づき、次式: 【数4】 (ここで、γは割引率(0<γ<1)であり、報酬を獲得し
    た時点から過去に遡って減衰される。また 【外2】 はペイオフPを与えられた時点からnステップ前の勝者ル
    ール 【外3】 の有効度を表わす)で有効度uを計算する有効度演算手
    段を具え、 更に、前記有効度演算手段は、勝者ルールは、その有効
    度uの一部Δuを1ステップ前の勝者ルールに伝播さ
    せ、限定ルールが選択された場合は、所定のコストを払
    い、有効度uを減少させ、全ての前記動作ルールは、ゴ
    ール到達時に所定の消散率ηに応じて有効度uを減少さ
    せる、ことを特徴とするシステム。
  6. 【請求項6】 有効な動作ルール集合を獲得する強化学
    習方法において、 センサ入力から構成される状態ベクトルV、前記状態ベ
    クトルVに対応して各々の要素の重要度を示す重みベク
    トルW、動作ルールの相対的な有効性を示す有効度u、
    及び、前記状態ベクトルVに対応して各動作ルールにお
    いて指定される動作a、を規定する動作ルール集合を記
    憶する格納ステップと、 環境からセンサ入力を受け取るセンサ入力受け取りステ
    ップと、 受け取ったセンサ入力と、前記の動作ルール集合の各動
    作ルールの状態ベクトルVとを比較し、受け取ったセン
    サ入力に最もマッチする1つの動作ルールを選択する動
    作ルール選択ステップと、 選択された動作ルールに記述された動作aを実行する動
    作実行ステップと、 環境から、実行した動作aに対する強化信号を受け取る
    強化信号受け取りステップと、 実行した状態−動作を記憶した動作ルールを生成し、前
    記動作ルール集合に加える動作ルール生成ステップと、 前記強化信号に基づき前記の動作ルールの有効度を更新
    し、そのとき所定の閾値よりも有効度が小さくなれば、
    その動作ルールを動作ルール集合から消去するステップ
    と、を含むことを特徴とする方法。
  7. 【請求項7】 請求項6に記載の強化学習方法におい
    て、 前記動作ルール集合が、重みベクトルW=0で{状態−
    動作}が未定義である無限定ルールと、重みベクトルW
    ≠0で特定の{状態−記憶}が記憶されている限定ルー
    ルを含み、 前記動作ルール選択ステップにおいて、特に有効な動作
    ルールがないときは前記無限定ルールを選択し、 前記無限定ルールが選択された場合は、前記動作実行ス
    テップにおいて、実行する動作aをランダムに決定する
    ことを、特徴とする方法。
  8. 【請求項8】 請求項6または7に記載の強化学習方法
    において、 前記動作ルール選択ステップが、 類似度を表わすマッチ率mjを次式: 【数5】 (ここで、dkはスケーリング値であってk番目のセンサ
    が学習過程において観測したセンサ値の最大差、Tmは定
    数、〔外1〕、添え字jは動作ルール番号、添え字kは
    入力ベクトルのk番目の次元である)で計算するマッチ
    率演算ステップと、 前記の各動作ルールの重みベクトルWから状態空間の汎
    化の割合を表わす詳細度λを、次式: 【数6】 で計算する詳細度演算ステップと、 前記の観測した状態に対する前記動作ルールの各々のマ
    ッチ率mj、詳細度λ、有効度uを用いて、次式: 【数7】 によりボルツマン分布に基づいたルーレット選択を行な
    い(定数T、nrl:全ルール数)勝者ルールrlwを決定す
    る勝者ルール演算ステップと、を含むことを特徴とする
    方法。
  9. 【請求項9】 請求項6〜8のいずれか1項に記載の強
    化学習方法において、 限定ルールが選択された場合、新しく生成される動作ル
    ールは、重みベクトルWを変更することでセンサ情報と
    マッチしない条件において、動作選択における選択確率
    が上がるよう汎化がなされたものを新しい条件部とする
    前記動作ルールを生成することを特徴とする方法。
  10. 【請求項10】 請求項6〜9のいずれか1項に記載の
    強化学習方法において、有効度uを増す報酬(P>0)、お
    よび/または、有効度uを減らす罰(P<0)を含むペイオ
    フPに基づき、次式: 【数8】 (ここで、γは割引率(0<γ<1)であり、報酬を獲得し
    た時点から過去に遡って減衰される。また〔外2〕はペ
    イオフPを与えられた時点からnステップ前の勝者ルール
    〔外3〕の有効度を表わす)で有効度uを計算する有効
    度演算ステップを含み、 更に、前記有効度演算ステップは、勝者ルールは、その
    有効度uの一部Δuを1ステップ前の勝者ルールに伝播
    させ、限定ルールが選択された場合は、所定のコストを
    払い、有効度uを減少させ、全ての前記動作ルールは、
    ゴール到達時に所定の消散率ηに応じて有効度uを減少
    させる、ことを特徴とする方法。
JP2002032111A 2002-02-08 2002-02-08 強化学習システムおよびその方法 Pending JP2003233503A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002032111A JP2003233503A (ja) 2002-02-08 2002-02-08 強化学習システムおよびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002032111A JP2003233503A (ja) 2002-02-08 2002-02-08 強化学習システムおよびその方法

Publications (1)

Publication Number Publication Date
JP2003233503A true JP2003233503A (ja) 2003-08-22

Family

ID=27775322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002032111A Pending JP2003233503A (ja) 2002-02-08 2002-02-08 強化学習システムおよびその方法

Country Status (1)

Country Link
JP (1) JP2003233503A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020137019A1 (ja) * 2018-12-27 2020-07-02 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラムが格納された非一時的なコンピュータ可読媒体
WO2022029821A1 (ja) * 2020-08-03 2022-02-10 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020137019A1 (ja) * 2018-12-27 2020-07-02 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラムが格納された非一時的なコンピュータ可読媒体
JPWO2020137019A1 (ja) * 2018-12-27 2021-11-04 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
JP7201958B2 (ja) 2018-12-27 2023-01-11 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
US11841689B2 (en) 2018-12-27 2023-12-12 Nec Corporation Policy creation apparatus, control apparatus, policy creation method, and non-transitory computer readable medium storing policy creation program
WO2022029821A1 (ja) * 2020-08-03 2022-02-10 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
JP7559821B2 (ja) 2020-08-03 2024-10-02 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、プログラム

Similar Documents

Publication Publication Date Title
Sichkar Reinforcement learning algorithms in global path planning for mobile robot
Yang et al. Towards efficient detection and optimal response against sophisticated opponents
EP4102405A1 (en) Demonstration-conditioned reinforcement learning for few-shot imitation
Al Dabooni et al. Heuristic dynamic programming for mobile robot path planning based on Dyna approach
Yokoyama et al. Success weighted by completion time: A dynamics-aware evaluation criteria for embodied navigation
Iima et al. Swarm reinforcement learning methods improving certainty of learning for a multi-robot formation problem
Tung et al. Socially aware robot navigation using deep reinforcement learning
Olmer et al. Evolving realtime behavioral modules for a robot with GP
Chidambaran et al. Multi-criteria evolution of neural network topologies: Balancing experience and performance in autonomous systems
Torrey et al. Transfer learning via advice taking
Qiu Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm
CN116382299A (zh) 路径规划方法、装置、电子设备及存储介质
JP2003233503A (ja) 強化学習システムおよびその方法
Rodrigues et al. Optimizing agent training with deep q-learning on a self-driving reinforcement learning environment
CN116339349A (zh) 路径规划方法、装置、电子设备及存储介质
Yao et al. Local navigation among movable obstacles with deep reinforcement learning
Rybak et al. Development of an algorithm for managing a multi-robot system for cargo transportation based on reinforcement learning in a virtual environment
Southey et al. Approaching evolutionary robotics through population-based incremental learning
Lin et al. Multi-agent inverse reinforcement learning for general-sum stochastic games
Vaněk et al. Multi-goal trajectory planning with motion primitives for hexapod walking robot
Roza et al. Safe and efficient operation with constrained hierarchical reinforcement learning
Musilek et al. Enhanced learning classifier system for robot navigation
Zangirolami et al. Dealing with uncertainty: Balancing exploration and exploitation in deep recurrent reinforcement learning
Grefenstette Learning decision strategies with genetic algorithms
Zajdel Epoch-incremental reinforcement learning algorithms

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050329

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050802