JP4929449B2 - 強化学習装置および強化学習方法 - Google Patents

強化学習装置および強化学習方法 Download PDF

Info

Publication number
JP4929449B2
JP4929449B2 JP2005254763A JP2005254763A JP4929449B2 JP 4929449 B2 JP4929449 B2 JP 4929449B2 JP 2005254763 A JP2005254763 A JP 2005254763A JP 2005254763 A JP2005254763 A JP 2005254763A JP 4929449 B2 JP4929449 B2 JP 4929449B2
Authority
JP
Japan
Prior art keywords
value
complex
value function
action
function value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005254763A
Other languages
English (en)
Other versions
JP2007066242A (ja
Inventor
知樹 濱上
長史 ▲渋▼谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokohama National University NUC
Original Assignee
Yokohama National University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokohama National University NUC filed Critical Yokohama National University NUC
Priority to JP2005254763A priority Critical patent/JP4929449B2/ja
Priority to PCT/JP2006/316659 priority patent/WO2007029516A1/ja
Priority to US12/065,558 priority patent/US8175982B2/en
Publication of JP2007066242A publication Critical patent/JP2007066242A/ja
Application granted granted Critical
Publication of JP4929449B2 publication Critical patent/JP4929449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、自律移動ロボット等に応用する強化学習方法およびこれを用いた装置に関する。
強化学習は自律移動ロボットのような行動主体が、自ら環境を観測し行動した結果から次の適切な方策を獲得する知的動作である。とくに環境同定型手法は教師信号を使わない学習手段であるため、未知の環境における行動を決めるのに向いたシステムであると言われている。代表的な強化学習方法として、Qラーニングをはじめとする状態行動対の価値関数を求める環境同定型手法や、メモリに記憶したエピソードを利用する経験強化型手法が知られている。
強化学習法の一般理論については[1]S.Russell and P.Norvig:Artificial Intelligence A Modern Approach, Prentice Hall, 1995 (邦訳「エージェントアプローチ 人工知能」共立出版 1997) または [2]R.S.Sutton and A.G.Barto: Reinforcement Learning An Introduction, The MIT Press 1988. (邦訳「強化学習」森北出版、2000) が詳しい。
強化学習法についての改良、応用は数多くあり、例えば、基本アルゴリズムに関して言えば、学習における連続状態空間の扱いや、学習速度向上を目指した研究開発が行われている。例えば、[3]エージェント学習装置(科学技術振興事業団、特許文献1)がある。
特開2000−35956
強化学習法における基礎的な問題に「不完全知覚問題」がある。環境同定型強化学習では状態と行動の対に対して価値関数の値を決める。この値が大きいほどその状態でとるべき行動としてふさわしいとするのである。アルゴリズムが比較的簡単で実装が容易である反面、現実の環境と環境検出能力では、ある状態に該当する空間が無数に存在し、その度に異なる行動の選択が求められるという問題が生ずる。これが「不完全知覚問題」である。
不完全知覚問題の生ずる環境は非マルコフ過程からなる環境であり、Qラーニングをはじめとする従来からの強化学習法では原理的に対応できないことが知られている。不完全知覚問題については設計者のヒューリステイックスに基づく仮定や、新しいパラメータを導入することが考えられたが、効果が保障されたわけではない。例えば、前出の文献[3]では、環境の変化を予測し、変化に応じて複数の学習モジュールを自動的に切り替える方法を提供しているが、各学習モジュールの分担範囲を決めるパラメータはタスクに依存するという問題がある。
文献[4]特開2005-78519内部変数推定装置、内部変数推定方法及び内部変数推定プログラム((株)国際電気通信基礎技術研究所)では、内部変数を推測する機構を有し、直接観測できない状態をメタパラメータとして表す方法を提案しているが、内部状態の数や内部変数の次元の設定は設計者のヒューリステイックスに依存する。また、文献[5]特開平9-81205学習システム(富士通(株))によれば、いくつかの時系列情報(コンテキスト)をメモリに蓄え、状態の履歴からとるべき行動を決定するエピソード記憶方式の経験強化型強化学習方法が提案されている。この方法はコンテキストを直接保持するため、非マルコフ過程の環境に対応できるが、どれだけの長さのコンテキストを持てばよいのか、学習時の探査範囲の設定など、設計者のヒューリステックスに大きく依存せざるを得ない。信頼性の点で問題の多い、ヒューリステックスに依存せず、かつ、メモリその他の資源を多大に使わない解決策が望まれる所以である。
本発明における問題解決の要点はエピソード記憶のようなコンテキストを価値関数に簡便な方法で取り込むことにある。このために状態行動価値を複素数で定義する複素価値関数を導入する。時系列情報は複素数値の位相部分に主として取り込まれる。これにより、複雑なアルゴリズムを用いることなく時系列情報が価値関数に取り込まれ、容易な実装でありながら、不完全知覚問題が解決できることとなる。
すなわち、本発明の強化学習装置は、状態と行動の対に対して価値関数値を決定し保持する価値関数値保持部と、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する行動選択部と、状態が遷移した時に価値関数値を更新する価値関数値更新部と、を有し、前記価値関数値は複素数であり、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する。
本発明の教科学習方法は、価値関数値保持部と、行動選択部と、価値関数値更新部と、を有する強化学習装置の強化学習方法であって、前記価値関数値保持部が、状態と行動の対に対して価値関数値を決定し保持する第1のステップと、前記行動選択部が、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する第2のステップと、前記価値関数値更新部が、状態が遷移した時に価値関数値を更新する第3のステップと、を有し、前記第1のステップにおいて、前記価値関数値保持部が決定する価値関数値は複素数であって、前記第3のステップにおいて、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する。
本発明は不完全知覚問題を複雑なアルゴリズムを用いることなく簡便な実装で解決するものであるから、不完全知覚問題のもたらす本質的な欠陥が解消し、自律移動学習が可能なロボットが容易に作れるようになる。不完全知覚問題の及ぶ範囲は広大であり、本発明が解決する問題の範囲も自ずから広いものとなり、技術的、経済的効果は多大である。
具体例として、QラーニングにおけるQ値を複素数として扱う方法を説明する。Q値が複素数であることを明示的に複素Q値と表す。複素Q値の更新式において遷移先の状態に関連する複素Q値をとる際に、位相回転を加えることで時系列の情報(コンテキスト)を含ませるのが本発明の要点である。すなわち直前の行動の複素Q値との位相差を考慮して次のステップで選択されるであろう複素Q値を予測する。図1は予測された複素Q値(複素ベクトルR)と選択可能な行動に対応する複素Q値(複素Q、複素Q)の関係を示す。複素ベクトルRの位相項が変化すると各複素Q値との内積も変化する。つまり、各複素Q値から複素ベクトルRと原点を結ぶ直線に直角に下ろした足と原点との長さが変化する。Q値を実数として扱う場合は、単純に大きさの比較を行うことしか出来ないが、複素Q値を用いると位相差を含んだ比較が可能となる。これによって複雑なアルゴリズムを使わないで時系列を取り入れた行動選択が可能になる。
[更新アルゴニズムの定式化]
状態sから行動aをとって状態si+1へと遷移し報酬rを受け取ったときの、複素Q値の更新則を数1のように定義する。
Figure 0004929449
ここで、kステップ前の状態、行動をそれぞれsi−k,ai−kとする。u(k)は複素関数であり、形式上の適格度トレースであり、数2のように定義する。数2中では関数uに複素数を示すドットを付けた。数2、5中では関数βに複素数を示すドットを付けた。
Figure 0004929449
数1の適用は、予め定めた整数Nを用いて、0≦k≦Nの範囲で行う。
ただし、βは絶対値が1以下の複素数である。
数1における複素Q値は数3のように定義する。
Figure 0004929449
ただし、a’は数4のように定義する。
Figure 0004929449
ここで、予想される複素Q値(複素ベクトルR)は、数5のように定義する。
Figure 0004929449
[行動選択アルゴリズムの定式化]
ここでは、Max−Boltzmann選択を用いる。すなわち、状態sに居るエージェントは、確率1−PmaxでBoltzmann選択を行い、確率PmaxでGreedy方策を行うことにする。
状態s、行動aに対応する複素Q値を複素Q(s,a)とする。また、状態sにおける行動aのBoltzmannの選択確率をProb(s,a)とする。状態sにおける行動集合をA(s)、直前の状態と行動に対応する複素Q値を複素Q(si−1,ai−1)、Boltzmann選択の温度パラメーターをTとするとき、Prob(s,a)を数6のように定める。
Figure 0004929449
ただし、Re[複素関数]は複素数の実部を表す。
greedy方策はarg maxProb(s,a)を選択することにする。
[計算機実験]
図2のような簡単なグリッドワールドにおける迷路問題を対象として計算機実験を行い、提案手法の有効性を確認する。
[状態空間と行動集合]
エージェントが観測可能な情報は、東西南北周囲4マスの壁の有無のみとし、この情報を直接状態として割り当てることにする。すなわち観測可能な状態数は2=16となる。これらの環境において不完全知覚の影響のある状態が存在する。例えば、アスタリスク
*においてはそれぞれにおいて選択すべき行動が異なり、**においては同じ行動をとらなければならない。エージェントが任意の状態において選択することができる行動は、壁のない方向に進むのみとする。すなわち、行動集合A={東、西、南、北}の空集合でない部分集合とする。
[パラメータ設定]
エージェントは、ゴールにたどり着くと環境から報酬r=100を受け取り、初期状態であるスタートに再配置されるものとした。エージェントの行動1ステップごとに負の報酬を与えることや、ゴールにたどり着くのにかかったステップ数に応じて報酬を変えることなど、早くゴールにたどり着く学習を助長するような報酬の与え方はしない。
試行数100を3つのフェーズに分け、それぞれについてパラメータの設定を行った。ステップごとに変化するパラメータについては表1のように設定し、それ以外のパラメータについては各フェーズにおいて共通とし、β=0.9exp(jπ/6)、γ=0.999、T=3000、N=1とした。ただし、j=−1である。
Figure 0004929449
[実験結果]
計算機実験の結果を図3に示す。この結果は100試行を1学習として100学習行い、収束したものに関しての平均である。
maze1、maze2においては100%が収束し、maze3においては95%が収束した。本計算機実験ではmaze1、maze2において100%が最短経路を実現するような方策を獲得した。
maze1では最短経路を実現する方策が獲得でき、一連の行動について観察すると、ある複素Q値次の行動に対応する複素Q値とβの偏角だけずれる学習がなされている。maze2でも最短経路を実現する方策が獲得できた。maze1のような単純な位相関係ではなかったが、位相を自律的に調整することで、不完全知覚問題を解決していることが観察された。maze3では最短経路を実現する方策の学習は見られなかったが、環境中を一部往復することで自律的に環境を多重化して不完全知覚問題を解決していることが観察された。
いずれの場合も、問題を自律的に解決する行動が獲得できており、本発明による不完全知覚問題の解決の効果が示されている。
図4は本発明に関わる装置の具体例で、複素Qラーニング法を実装した装置のブロック図である。行動選択器1においては前回の参照値を基準としてQテーブル2(本発明の価値関数値保持部に対応)から渡されるQ値集合の中から一つの値を選択する。Q値更新部4(本発明の価値関数値更新部に対応)では新たな参照値を基準として遷移後のQ値集合の中から一つの値を選択して更新の目標値とし、Q値更新器5で変更を実行する。
なお、本実施例では価値関数の複素数化と位相の取り込み方を、[数2]のように計算したが、複素数化と位相の取り込み方はこれに限られるものではない。例えば、図1において複素Q、複素Qの位相を時系列情報に基づいて変化させたり、位相だけでなく振幅を変化させてもよく、実際の計算法は環境によって適宜選択されるべきである。本発明の主旨は複素価値関数を用い、位相項に時系列情報を取り入れることにあり、いかなる取り込み方にも及ぶものである。
また、本実施例では複素価値関数を用いる手法をQラーニング法に応用した例を示したが、本発明の本質は複素価値関数を用いることにあるので、例えば、TD法、SARSA法、Actor Critic法、R学習法、Profit Sharing法などの価値関数を用いる方法であればいずれも有効に機能する。
本実施例では行動選択アルゴリズムとしてMax−Boltzmann選択を採用したが、複素価値関数の出力である複素数値から実数値の選択確率を計算できるアルゴリズムであればどのようなものでも良く、理工学で一般的に使われているもので計算する方法は何れも本発明の範囲内に入るものである。
産業上の利用可能性:
不完全知覚問題は強化学習の基本的問題であり、本発明によりこれが解決されれば環境同定型学習の多くの問題点が自ずから解消し、廉価なセンサを有するロボットで自立移動学習が可能になる。本発明の実装は廉価容易であり、経済的な効果は大きい。さらに不完全知覚問題はマルチエージェント系など多数の学習主体の同時学習でも現れる問題であり、本発明はマルチロボットや多点探査アルゴリズムなど、集団としての効率的な学習を要求される用途にも有効に使用できる。
ある状態における複素Q値を複素平面上に示した図である。 (a)〜(c)は計算機実験の実験環境を示す図で、簡単な迷路問題を行うグリットワールドを示す図である。 計算機実験の結果を示す図である。 本発明にかかわるQラーニング法を実装した装置のブロック図である。

Claims (4)

  1. 状態と行動の対に対して価値関数値を決定し保持する価値関数値保持部と、
    前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する行動選択部と、
    状態が遷移した時に価値関数値を更新する価値関数値更新部と、
    を有し、
    前記価値関数値は複素数であり、
    前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
    強化学習装置。
  2. 前記行動選択部は、前記選択した価値関数値と、前記直前の行動の複素価値関数値を基に算出された複素ベクトルの共役複素数との積の実部を使用して行動を選択する
    請求項1に記載の強化学習装置。
  3. 前記強化学習装置における強化学習方法として、Qラーニング法を用い、
    前記価値関数値更新部は、前記価値関数値の更新式において、適格度トレースアルゴリズムを使用する
    請求項1又は2に記載の強化学習装置。
  4. 価値関数値保持部と、行動選択部と、価値関数値更新部と、を有する強化学習装置の強化学習方法であって、
    前記価値関数値保持部が、状態と行動の対に対して価値関数値を決定し保持する第1のステップと、
    前記行動選択部が、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する第2のステップと、
    前記価値関数値更新部が、状態が遷移した時に価値関数値を更新する第3のステップと、
    を有し、
    前記第1のステップにおいて、前記価値関数値保持部が決定する価値関数値は複素数であって、
    前記第3のステップにおいて、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
    強化学習装置の強化学習方法。
JP2005254763A 2005-09-02 2005-09-02 強化学習装置および強化学習方法 Active JP4929449B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005254763A JP4929449B2 (ja) 2005-09-02 2005-09-02 強化学習装置および強化学習方法
PCT/JP2006/316659 WO2007029516A1 (ja) 2005-09-02 2006-08-18 強化学習の価値関数表現方法およびこれを用いた装置
US12/065,558 US8175982B2 (en) 2005-09-02 2006-08-18 Value function representation method of reinforcement learning and apparatus using this

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005254763A JP4929449B2 (ja) 2005-09-02 2005-09-02 強化学習装置および強化学習方法

Publications (2)

Publication Number Publication Date
JP2007066242A JP2007066242A (ja) 2007-03-15
JP4929449B2 true JP4929449B2 (ja) 2012-05-09

Family

ID=37835639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005254763A Active JP4929449B2 (ja) 2005-09-02 2005-09-02 強化学習装置および強化学習方法

Country Status (3)

Country Link
US (1) US8175982B2 (ja)
JP (1) JP4929449B2 (ja)
WO (1) WO2007029516A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203669A1 (en) * 2011-02-03 2012-08-09 Prudsys Ag Method for Determing a Dynamic Bundle Price for a Group of Sales Products and a Computer Program Product
JP5750657B2 (ja) 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
CN110248774A (zh) * 2017-02-09 2019-09-17 三菱电机株式会社 位置控制装置及位置控制方法
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
CN109523029B (zh) * 2018-09-28 2020-11-03 清华大学深圳研究生院 自适应双自驱动深度确定性策略梯度强化学习方法
US11631333B2 (en) * 2019-02-26 2023-04-18 Beijing Didi Infinity Technology And Development Co., Ltd. Multi-agent reinforcement learning for order-dispatching via order-vehicle distribution matching
CN110333739B (zh) * 2019-08-21 2020-07-31 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
WO2021033315A1 (ja) 2019-08-22 2021-02-25 日本電気株式会社 ロボット制御システム、ロボット制御方法、及び、記録媒体
KR102624732B1 (ko) * 2021-04-21 2024-01-11 경북대학교 산학협력단 실내 네비게이션 서비스 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981205A (ja) 1995-09-11 1997-03-28 Fujitsu Ltd 学習システム
JP3086206B2 (ja) 1998-07-17 2000-09-11 科学技術振興事業団 エージェント学習装置
US20020107822A1 (en) * 2000-07-06 2002-08-08 Helmick Joseph Dale Uncertain and complex system teaches neural networks
AU2003260047A1 (en) * 2002-08-29 2004-03-19 Paul Rudolf Associative memory device and method based on wave propagation
US20110099130A1 (en) * 2003-07-16 2011-04-28 Massachusetts Institute Of Technology Integrated learning for interactive synthetic characters
JP3703822B2 (ja) 2003-09-02 2005-10-05 株式会社国際電気通信基礎技術研究所 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム

Also Published As

Publication number Publication date
WO2007029516A1 (ja) 2007-03-15
JP2007066242A (ja) 2007-03-15
US20090234783A1 (en) 2009-09-17
US8175982B2 (en) 2012-05-08

Similar Documents

Publication Publication Date Title
JP4929449B2 (ja) 強化学習装置および強化学習方法
Bohez et al. Value constrained model-free continuous control
Marthi Automatic shaping and decomposition of reward functions
CN107844460B (zh) 一种基于p-maxq的多水下机器人的围捕方法
JP2019087096A (ja) 行動決定システム及び自動運転制御装置
US11759947B2 (en) Method for controlling a robot device and robot device controller
JP2006320997A (ja) ロボット行動選択装置及びロボット行動選択方法
KR20230028501A (ko) 보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습
KR102159880B1 (ko) 메타 인지 기반 고속 환경 탐색 방법 및 장치
JP4699598B2 (ja) 問題解決器として動作するデータ処理装置、及び記憶媒体
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
Zhao et al. Ensemble-based offline-to-online reinforcement learning: From pessimistic learning to optimistic exploration
JP2010092247A (ja) 制御器、制御方法及び制御プログラム
JP2005078516A (ja) 並列学習装置、並列学習方法及び並列学習プログラム
US20150149398A1 (en) Method and apparatus for decision migration in a multi-component robot
Schut et al. Reasoning about intentions in uncertain domains
WO2020121494A1 (ja) 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体
Bekhtaoui et al. Maneuvering target tracking using q-learning based Kalman filter
JPH0981205A (ja) 学習システム
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Contardo et al. Learning states representations in pomdp
JPWO2022091261A5 (ja)
CN112183766A (zh) 学习方法及记录介质
Hernandez-Gardiol et al. Hierarchical memory-based reinforcement learning
Luo Adaptive Decision-Making in Non-Stationary Markov Decision Processes

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080131

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080319

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350