JP5398414B2 - Learning system and learning method - Google Patents
Learning system and learning method Download PDFInfo
- Publication number
- JP5398414B2 JP5398414B2 JP2009187526A JP2009187526A JP5398414B2 JP 5398414 B2 JP5398414 B2 JP 5398414B2 JP 2009187526 A JP2009187526 A JP 2009187526A JP 2009187526 A JP2009187526 A JP 2009187526A JP 5398414 B2 JP5398414 B2 JP 5398414B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- reward
- action
- event
- event list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、強化学習による学習システム及び学習方法に関する。 The present invention relates to a learning system and learning method based on reinforcement learning.
ロボットなどの機械が学習によって自己の制御規則を目的に合うように改善する学習方法として強化学習が知られている(たとえば、非特許文献1)。さらに、特に生物研究において、環境モデルを明示的に持った強化学習を脳が行なっている可能性が示されている(たとえば、非特許文献2)。環境モデルを明示的に持った強化学習によれば、環境モデルを持たない従来型の強化学習が不得手とする環境の変化に対応することができることや、獲得した行動系列をまとまりとして管理することができることなどの利点がある。 Reinforcement learning is known as a learning method in which a machine such as a robot is improved by learning so that its own control rules meet a purpose (for example, Non-Patent Document 1). Furthermore, the possibility that the brain is performing reinforcement learning with an environmental model explicitly in biological research is shown (for example, Non-Patent Document 2). Reinforcement learning with an explicit environment model can respond to changes in the environment that traditional reinforcement learning without an environment model is not good at, and manage acquired action sequences as a group There are advantages such as being able to.
一方で、環境モデルを明示的に持った強化学習は、環境モデルを表す木構造などを探索せねばならず、計算コストが非常に高い。 On the other hand, reinforcement learning with an explicit environment model requires a search for a tree structure representing the environment model, and the calculation cost is very high.
このように、環境モデルを明示的に有する、低計算コストの強化学習システム及び強化学習方法は開発されていない。 Thus, the reinforcement learning system and reinforcement learning method of the low calculation cost which have an environmental model explicitly are not developed.
したがって、環境モデルを明示的に有して、環境の変化に対応し、獲得した行動系列をまとまりとして管理することができる、低計算コストの強化学習システム及び強化学習方法に対するニーズがある。 Accordingly, there is a need for a low learning cost reinforcement learning system and reinforcement learning method that can explicitly have an environment model, can respond to changes in the environment, and can manage acquired action sequences as a whole.
本発明による学習システムは、報酬を得た直前の状態・行動対に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、状態・行動対を、前記複数のイベント・リストに分類して記憶させるイベント・リスト管理部と、各イベント・リストの要素である状態・行動対の報酬期待値を更新する学習制御部と、を備えている。 The learning system according to the present invention includes an event list database that holds a plurality of event lists, with a series of state / action pairs reaching an immediately preceding state / action pair as an event list. An event list management unit that classifies action pairs into the plurality of event lists and stores them, and a learning control unit that updates a reward expected value of a state / action pair that is an element of each event list. ing.
本発明による学習方法は、報酬を得た直前の状態・行動対に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、イベント・リスト管理部と、学習制御部と、を備えた学習システムによる学習方法である。本発明による学習方法は、前記イベント・リスト管理部が、状態・行動対を、前記複数のイベント・リストに分類して記憶させるステップと、前記学習制御部が、各イベント・リストの要素である状態・行動対の報酬期待値を更新するステップと、を含む。 The learning method according to the present invention includes an event list database that holds a plurality of event lists, with an event list as a set of state / action pairs that reach a state / action pair immediately before a reward is obtained, and an event A learning method using a learning system including a list management unit and a learning control unit. In the learning method according to the present invention, the event list management unit classifies and stores state / action pairs into the plurality of event lists, and the learning control unit is an element of each event list. Updating the expected reward value of the state / action pair.
本発明の学習システム及び学習方法によれば、報酬を得た直前の状態・行動対に至る、一連の状態・行動対の集合をイベント・リストとして、状態・行動対を複数のイベント・リストに分類して記憶させる。結果として、報酬を得た直前の状態・行動対ごとの環境モデルが作成される。したがって、本発明の学習システム及び学習方法は、環境の変化に対応することができ、獲得した行動系列をまとまりとして、すなわちイベント・リストとして管理することができる。 According to the learning system and the learning method of the present invention, a set of a state / action pair that reaches a state / action pair immediately before a reward is obtained is an event list, and the state / action pair is converted into a plurality of event lists. Sort and memorize. As a result, an environmental model is created for each state / action pair immediately before the reward is obtained. Therefore, the learning system and the learning method of the present invention can cope with changes in the environment, and can manage the acquired action series as a group, that is, as an event list.
本発明の実施形態によれば、前記イベント・リスト管理部は、行動が選択されるごとに、状態・行動対を一時的に保持し、報酬を得るごとに、一時的に保持した状態・行動対の集合の内、前記イベント・リスト・データベースに記憶されていない状態・行動対を、前記報酬を得た直前の状態・行動対のイベント・リストの要素として前記イベント・リスト・データベースに記憶させる。 According to the embodiment of the present invention, the event / list management unit temporarily holds a state / action pair each time an action is selected, and temporarily holds the state / action each time a reward is obtained. Of the set of pairs, state / action pairs not stored in the event list database are stored in the event list database as elements of the event list of the state / action pair immediately before the reward is obtained. .
本実施形態によれば、状態・行動対を複数のイベント・リストに効率的に分類して記憶させることができる。 According to the present embodiment, state / action pairs can be efficiently classified and stored in a plurality of event lists.
本発明の実施形態によれば、前記学習制御部は、報酬を得るごとに、前記報酬を得た直前の状態・行動対のイベント・リストの要素である状態・行動対の報酬期待値を、前記報酬の値を使用して更新し、前記報酬を得た直前の状態・行動対のイベント・リスト以外のイベント・リストの要素である状態・行動対の報酬期待値を、報酬の値がゼロであるとして更新する。 According to the embodiment of the present invention, every time the learning control unit obtains a reward, the reward expectation value of the state / action pair which is an element of the event / list of state / action pair immediately before the reward is obtained, Update using the value of the reward, and the reward value of the state / action pair that is an element of the event list other than the event list of the state / action pair immediately before obtaining the reward is zero. Update as
本実施形態によれば、イベント・リストごとに、そのイベント・リストの要素である状態・行動対の報酬期待値を効率的に更新することができる。 According to the present embodiment, for each event list, the expected reward value of the state / action pair that is an element of the event list can be efficiently updated.
図1は、本発明の一実施形態による学習システム100を含む装置200の構成を示す図である。装置200は、たとえばロボットであってもよい。装置200は、情報取得部201、取得情報処理部203、行動選択部205、行動出力部207、スーパーバイザ209及び学習システム100を含む。
FIG. 1 is a diagram illustrating a configuration of an
情報取得部201は、環境300から入力情報を取得し、装置200自身の状態情報を取得する。装置200がロボットである場合に、情報取得部201は、カメラを含み、該カメラによって撮影した環境300の画像によって、環境300の情報を取得してもよい。また、情報取得部201は、ロボットの位置及び向きを含む、装置200の状態情報を取得してもよい。情報取得部201は、取得したこれらの情報を取得情報処理部203に送る。
The
取得情報処理部203は、環境及び自己の状態情報に基づいて、装置200のおかれた状態を予め定めた複数の状態のいずれかに分類する。
The acquired
学習システム100は、装置200のおかれた状態において、装置200が選択した行動を状態・行動対として記憶し、その結果の報酬にしたがって、状態・行動対の報酬期待値を学習する。ここで、報酬は、情報取得部201が取得した情報に基づいて取得情報処理部203によって定められる。学習システム100は、イベント・リスト管理部101、一時的リスト記憶部103、イベント・リスト・データベース105及び学習制御部107を含む。イベント・リスト管理部101は、一時的リスト記憶部103及びイベント・リスト・データベース105に状態行動・対を記憶させる。学習制御部107は、報酬にしたがって、状態・行動対ごとの報酬期待値を学習し、イベント・リスト・データベース105に、状態・行動対と関連付けて記憶させる。学習システム100の詳細は、後で説明する。
The
行動選択部205は、取得情報処理部203から装置200のおかれた状態を受け取り、その状態に対して、状態・行動対と関連付けてイベント・リスト・データベース105に記憶された報酬期待値が最大の行動を最大の確率で選択する。
The
行動出力部207は、行動選択部205の選択した行動を出力する。行動の結果としての環境300の変化は、情報取得部201によって情報として取得される。
The
スーパーバイザ209は、装置200のおかれた状態に対して最速で報酬が得られるような一連の行動を教示する。学習の初期の段階において学習システム100の学習を援助するのに使用される。
The
本発明の実施形態による学習システム100は、状態・行動対を、報酬を得た直前の状態・行動対ごとの集合に分類し、上記集合ごとに状態・行動対を記憶し、その状態・行動対の報酬期待値を学習することを特徴とする。報酬を得た直前の状態・行動対ごとの集合として状態・行動対を記憶し、その状態・行動対の報酬期待値を学習することは、報酬を得た直前の状態・行動対ごとの環境モデルを作成することに対応する。したがって、本実施形態による学習システム100は、環境の変化に対応することができ、獲得した行動系列をまとまりとして管理することができる。以下に詳細に説明する。
The
ここで、報酬期待値Rは、以下の式で表せる。
stは、時刻tで観測された状態を表す。観測される状態は複数有り、それぞれ、たとえば
s0,s1,・・・,si,・・・sn
と表せる。時刻tにおいて、これらのうちの一つを実際に観察し、これをstと表す。
s t represents the observed state at time t. There are a plurality of observed states, for example, s0, s1,..., Si,.
It can be expressed. At time t, to observe one of these actually represent to as s t.
atは、時刻tに選択した行動を表す。選択の対象となる行動は複数有り、それぞれ、たとえば
a0,a1,・・・,ai,・・・an
と表せる。時刻tにおいて、これらのうちの一つを実際に選択し、これをatと表す。
a t represents the action selected at time t. There are a plurality of actions to be selected. For example, a0, a1,..., Ai,.
It can be expressed. At time t, selecting one of these actually, this is expressed as a t.
rt+kは時刻t+kで得る報酬である。 rt + k is a reward obtained at time t + k.
γは、割引率と呼ばれるパラメータである。 γ is a parameter called a discount rate.
式(1)は、以下のように変形することができる。
p(k|・・・)は、エピソードが現在時刻からkステップ後に終端に達する確率である。ここで、「エピソード」とは、ある状態において行動が選択される結果、順次生じる一連の状態の中の一つの状態を指し、「終端」とは、上記一連の状態の最後の状態を指す。報酬を得た場合や、行動の選択が中断された場合に、状態は最後の状態に達する。 p (k |...) is the probability that the episode will reach the end after k steps from the current time. Here, “episode” refers to one state in a series of states that are sequentially generated as a result of selecting an action in a certain state, and “end” refers to the last state in the series of states. The state reaches the last state when a reward is obtained or the action selection is interrupted.
(S,A)は、(st+k−1,at+k−1)を表し、報酬rt+kを得る直前の状態・行動対である。時刻tで状態stを観測し、行動atをとった場合の状態・行動対を(st,at)と表す。 (S, A) represents (s t + k−1 , a t + k−1 ), and is a state / action pair immediately before obtaining the reward r t + k . To observe the state s t at time t, representing the state-action pair if you took the action a t and (s t, a t).
E(S,A)[・|・・]は、報酬を得た直前の状態・行動対(S,A)によって分割された報酬期待値の部分を表し、部分期待値と呼称する。 E (S, A) [• | ••] represents a portion of the expected reward value divided by the state / action pair (S, A) immediately before the reward is obtained, and is referred to as a partial expected value.
式(2)は、報酬期待値が部分期待値の和で表せることを示す。また、全ての状態・行動対(si,aj)が複数の(S,A)のグループに分類できることを示す。そこで、上記のように、状態・行動対を、報酬を得た直前の状態・行動対ごとの集合に分類し、上記集合ごとに状態・行動対を記憶し、その状態・行動対の報酬期待値を学習することが可能となる。 Expression (2) indicates that the reward expected value can be expressed by the sum of the partial expected values. It also indicates that all state / action pairs (si, aj) can be classified into a plurality of (S, A) groups. Therefore, as described above, the state / action pair is classified into a set for each state / action pair immediately before the reward is obtained, and the state / action pair is stored for each set, and the reward expectation of the state / action pair is stored. The value can be learned.
図2は、イベント・リスト・データベース105のデータ構造を説明するための図である。図2において、(S,A)nは、報酬を得た直前の状態・行動対を示す。S及びAは、報酬を得た直前の状態及び行動を示し、nは、報酬を得た直前の状態・行動対の番号を示す。(S,A)nは、(S,A)nにいたるまでの一連の状態・行動対とともに集合を形成する。この集合をイベント・リストと呼称する。(si,aj)は、イベント・リストに含まれる状態・行動対を示す。s及びaは、それぞれ状態及び行動を示す。i及びjは、それぞれ状態s及び行動aの番号を示す。(si,aj)に関連付けてその状態・行動対の報酬期待値E[r]pがイべント・リストに記憶される。rは報酬を示し、pは、報酬期待値の番号を示す。
FIG. 2 is a diagram for explaining the data structure of the
このように、イベント・リスト・データベース105は、報酬を得た直前の状態・行動対1051ごとに分類されている。イベント・リストは、報酬を得た直前の状態・行動対1051、状態・行動対1051に至る一連の状態・行動対1053、及びイベント・リストの要素である状態・行動対(si,aj)に関連付けられる報酬期待値E[r]pを含む。報酬期待値E[r]pは前記の「部分期待値」に対応する。
As described above, the
ここで、ある状態・行動対(si,aj)が、複数の、報酬を得た直前の状態・行動対(S,A)のイベント・リストに含まれることがある。この場合にその状態・行動対(si,aj)の報酬期待値は、複数の状態・行動対(S,A)のイベント・リストに含まれるその状態・行動対(si,aj)の報酬期待値の和である。 Here, a certain state / action pair (si, aj) may be included in a plurality of event lists of the state / action pair (S, A) immediately before the reward is obtained. In this case, the reward expectation value of the state / action pair (si, aj) is the reward expectation of the state / action pair (si, aj) included in the event list of the plurality of state / action pairs (S, A). It is the sum of values.
図3は、イベント・リスト管理部101の動作を説明するための流れ図である。
FIG. 3 is a flowchart for explaining the operation of the event
図3のステップS105において、イベント・リスト管理部101は、行動選択部205から状態・行動対(si,aj)を受け取ったかどうか判断する。ここで、行動選択部205は、行動を選択するごとに状態・行動対(si,aj)をイベント・リスト管理部101に送る。状態・行動対(si,aj)を受け取っていればステップS110に進む。状態・行動対(si,aj)を受け取っていなければ、ステップS115に進む。
In step S <b> 105 of FIG. 3, the event /
図3のステップS110において、イベント・リスト管理部101は、状態・行動対(si,aj)を一時的リスト記憶部103に記憶させる。
In step S <b> 110 of FIG. 3, the event /
図3のステップS115において、イベント・リスト管理部101は、取得情報処理部203から報酬を受け取ったかどうか判断する。ここで、取得情報処理部203は、行動出力部207が行動を出力してから所定の時間経過後に情報取得部201が取得した情報に基づいて報酬を定め、イベント・リスト管理部101に送る。報酬を受け取っていればステップS120に進む。報酬を受け取っていなければ、所定の時間経過後ステップS105に戻る。
In step S <b> 115 of FIG. 3, the event
図3のステップS120において、イベント・リスト管理部101は、一時的リスト記憶部103に最後に記憶された状態・行動対(si,aj)を、報酬を得た直前の状態・行動対(S,A)とする。
In step S120 of FIG. 3, the event /
図3のステップS125において、イベント・リスト管理部101は、イベント・リスト・データベース105に(S,A)が存在するかどうか判断する。(S,A)が存在すれば、ステップS135に進む。(S,A)が存在しなければ、ステップS130に進む。
In step S125 of FIG. 3, the event
図3のステップS130において、イベント・リスト管理部101は、(S,A)をイベント・リスト・データベース105に記憶させる。
In step S <b> 130 of FIG. 3, the event
図3のステップS135において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された状態・行動対(si,aj)のそれぞれが、イベント・リスト・データベース105の(S,A)のイベント・リストに含まれるかどうか判断する。(S,A)のイベント・リストに含まれれば、ステップS145に進む。(S,A)のイベント・リストに含まれなければ、ステップS140に進む。
In step S135 of FIG. 3, the
図3のステップS140において、イベント・リスト管理部101は、(S,A)のイベント・リストに含まれていない状態・行動対(si,aj)を(S,A)のイベント・リストに追加する。このとき、追加される状態・行動対の数は、あらかじめ決められた数を上限とする。
In step S140 of FIG. 3, the event
図3のステップS145において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された全ての状態・行動対(si,aj)についてステップS135の処理を行ったかどうか判断する。全ての状態・行動対(si,aj)についてステップS135の処理を行っていれば、ステップS150に進む。全ての状態・行動対(si,aj)についてステップS135の処理を行っていなければ、ステップS135に戻る。
In step S145 of FIG. 3, the event /
図3のステップS150において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された全ての状態・行動対(si,aj)をクリア(消去)する。
In step S150 of FIG. 3, the event /
図4は、学習システム100の学習制御部107の動作を説明するための流れ図である。
FIG. 4 is a flowchart for explaining the operation of the
図4のステップS205において、学習制御部107は、取得情報処理部203から報酬またはエピソード終了の通知を受け取ったかどうか判断する。ここで、取得情報処理部203は、行動出力部207が行動を出力してから所定の時間経過後に情報取得部201が取得した情報に基づいて報酬を定め、学習制御部107に送る。また、取得情報処理部203は、何らかの理由によりエピソードが終端に達したした場合に、エピソード終了の通知を学習制御部107に送る。報酬またはエピソード終了の通知を受け取った場合には、ステップS210に進む。報酬またはエピソード終了の通知を受け取らなかった場合には、所定の時間経過後ステップS205に戻る。
In step S <b> 205 of FIG. 4, the
図4のステップS210において、学習制御部107は、直近で報酬を得た直前の状態・行動対(S,A)のイベント・リストにおける状態・行動対(si,aj)の報酬期待値を以下の式によって更新する。
ここで、αは学習定数と呼ばれるパラメータであり、0と1の間の定数である。 Here, α is a parameter called a learning constant and is a constant between 0 and 1.
Tvは、以下の式によって与えられる。
ここで、τは、状態siにおいて行動ajが選択されて、状態・行動対(si,aj)が、実際に生じた時刻である。 Here, τ is the time when the action aj is selected in the state si and the state / action pair (si, aj) actually occurs.
図4のステップS215において、学習制御部107は、直近で報酬を得た直前の状態・行動対以外の(S,A)のイベント・リストにおける状態・行動対(si,aj)の報酬期待値を式(3)にしたがって更新する。この場合に目標値Tvはゼロとする。エピソード終了の通知を受け取った場合には、目標値Tvはゼロとして全ての(S,A)のイベント・リストにおける状態・行動対(si,aj)の報酬期待値を式(3)にしたがって更新する。
In step S215 of FIG. 4, the
このようにして、報酬を得た直前の状態・行動対にしたがってグループ分けされたイベント・リストごとに報酬期待値が更新される。 In this way, the expected reward value is updated for each event list grouped according to the state / action pair immediately before the reward is obtained.
図5は、行動選択部205の動作を説明するための流れ図である。
FIG. 5 is a flowchart for explaining the operation of the
図5のステップS305において、行動選択部205は、取得情報処理部203から現在の状態を受け取る。ここで、取得情報処理部203は、学習制御部107に報酬を送り、学習制御部107が報酬期待値を更新したことを確認した後に行動選択部205に状態を送ってもよい。
In step S <b> 305 of FIG. 5, the
図5のステップS310において、行動選択部205は、イベント・リスト・データベース105から、現在の状態を有する状態・行動対を選び、さらにその状態・行動対の報酬期待値が最大の状態・行動対を選ぶ。上述のように、複数のイベント・リストに、現在の状態を有する状態・行動対が含まれる場合には、複数のイベント・リストのその状態・行動対の報酬期待値の和をその状態・行動対の報酬期待値とする。
In step S310 of FIG. 5, the
図5のステップS315において、行動選択部205は、選択した状態・行動対の行動を行動出力部207に送り、選択した状態・行動対をイベント・リスト管理部101に送る。
In step S315 of FIG. 5, the
つぎに、本発明の実施形態による学習システム100の機能を確認するためのシミュレーション実験について説明する。シミュレーション実験には第1のシミュレーション環境及び第2のシミュレーション環境を準備する。
Next, a simulation experiment for confirming the function of the
図6は、第1のシミュレーション環境であるマルコフ決定過程(MDP:Markov Decision Process)を説明するための図である。選択しうる行動は、a0,a1,・・・a9の10個である。s0の状態を観測してから、a0からa9の順に行動を選択すると、報酬r=1が与えられる。しかし、各遷移は確率的である。s0からs1へは確率0.3で遷移する。その他の場合は、確率0.9で遷移する。さらに、各状態に対して観測できる信号は2個存在する。たとえば、s0に対しては、O00とO01の信号が存在し、いずれかが確率0.5で観測される。したがって、報酬を得るまでの観測信号の出現の組み合わせは、210=1024通りである。 FIG. 6 is a diagram for explaining a Markov decision process (MDP) which is a first simulation environment. There are ten actions a0, a1,... A9 that can be selected. If the behavior is selected in the order of a0 to a9 after observing the state of s0, a reward r = 1 is given. However, each transition is probabilistic. Transition from s0 to s1 has a probability of 0.3. In other cases, transition is made with a probability of 0.9. Furthermore, there are two signals that can be observed for each state. For example, for s0, O 00 and O 01 signals exist, and either one is observed with a probability of 0.5. Therefore, there are 2 10 = 1024 combinations of appearance of the observation signal until the reward is obtained.
図7は、第2のシミュレーション環境である高次マルコフ決定過程(HOMDP:High Order Markov Decision Process)を説明するための図である。選択しうる行動は、a0,a1,・・・a9の10個であり、そのうち報酬に関係するのはa0,a1,・・・a5の6個である。本過程は、過程Aと過程Bとを含む。過程Aで報酬を得た場合につぎに報酬を得るためには過程Bを選択する必要があり、過程Bで報酬を得た場合につぎに報酬を得るためには過程Aを選択する必要がある。すなわち、同じ観測信号に対して、過程Aと過程Bで異なる行動を選択する必要がある。この場合も各遷移は確率的である。過程Aにおいて、s0からs2へは確率0.3で遷移する。その他の場合は、確率0.9で遷移する。過程Bにおいて、s1からs2へは確率0.3で遷移する。その他の場合は、確率0.9で遷移する。さらに、各状態に対して観測できる信号は2個存在する。たとえば、s0に対しては、O00とO01の信号が存在し、いずれかが確率0.5で観測される。 FIG. 7 is a diagram for explaining a high order Markov decision process (HOMDP) which is a second simulation environment. There are ten actions a0, a1,..., A9, and six actions a0, a1,. This process includes process A and process B. In order to obtain the next reward when the reward is obtained in the process A, it is necessary to select the process B. To obtain the next reward when the reward is obtained in the process B, it is necessary to select the process A. is there. That is, it is necessary to select different actions in the process A and the process B for the same observation signal. Again, each transition is probabilistic. In the process A, a transition is made from s0 to s2 with a probability of 0.3. In other cases, transition is made with a probability of 0.9. In the process B, the transition from s1 to s2 is performed with a probability of 0.3. In other cases, transition is made with a probability of 0.9. Furthermore, there are two signals that can be observed for each state. For example, for s0, O 00 and O 01 signals exist, and either one is observed with a probability of 0.5.
以下に、上記のシミュレーション環境を使用したシミュレーション実験の手順について説明する。最初に、環境をHOMDPのシミュレーション環境として、最初の10回の試行(トライアル)において、スーパーバイザ209が行動選択部107に、最速で報酬が得られるような一連の行動を教示する。この間に学習システム100は、学習を行なう。しかし、この間に全ての行動パターンを学習することはできない。
The procedure of the simulation experiment using the above simulation environment will be described below. First, using the environment as a HOMDP simulation environment, in the first 10 trials, the
つぎに251試行目からは、環境をMDPのシミュレーション環境とし、260試行目までは、スーパーバイザ209が行動選択部107に、最速で報酬が得られるような一連の行動を教示する。この間に学習システム100は、学習を行なう。しかし、この間に全ての行動パターンを学習することはできない。
Next, from the 251st trial, the environment is set as an MDP simulation environment, and until the 260th trial, the
つぎに、501試行目からは、環境を再びHOMDPのシミュレーション環境とする。スーパーバイザ209による教示は行なわない。したがって、学習システム100は、突然変化した環境に対応する必要がある。
Next, from the 501st trial, the environment is again set as a HOMDP simulation environment. The
つぎに、751試行目からは、環境を再びMDPのシミュレーション環境とする。スーパーバイザ209による教示は行なわない。したがって、学習システム100は、突然変化した環境に対応する必要がある。
Next, from the 751st trial, the environment is again set as the MDP simulation environment. The
図8は、本発明の実施形態による学習システムと従来の学習システムのシミュレーション結果を示す図である。図8のグラフの横軸は、試行回数を示す。試行回数は、1000回であり、上述のように、HOMDP、MDP、HOMDP、MDPの順にシミュレーション環境を変化させながら250回ずつ試行を行う。図8のグラフの縦軸は、報酬にいたるステップの平均数を示す。平均は、上記の1000回の試行を一組として2000組の平均である。ここで、ステップとは、行動の選択を指す。すなわち、ステップの数とは、選択された行動の数である。各試行は、直前の試行の最終状態から開始し、学習システムが報酬を得るか、報酬を得ずにステップ数が100回に達した場合に終了する。 FIG. 8 is a diagram illustrating simulation results of the learning system according to the embodiment of the present invention and the conventional learning system. The horizontal axis of the graph in FIG. 8 indicates the number of trials. The number of trials is 1000. As described above, the trial is performed 250 times while changing the simulation environment in the order of HOMDP, MDP, HOMDP, and MDP. The vertical axis of the graph in FIG. 8 indicates the average number of steps leading to a reward. The average is the average 2000 set of the 1000 trials of above as a set. Here, the step indicates selection of an action. That is, the number of steps is the number of selected actions. Each trial starts from the final state of the previous trial and ends when the learning system gets a reward or if the number of steps reaches 100 without getting a reward.
図8のグラフにおいて、太い線は、本発明の学習システムを示す。図8中においては、本発明と表記した。細い線は、従来の適格度トレース付きのSARSA(State-Action-Reward-State-Action)学習則を使用した学習システムを示す。図8中においては、従来例と表記した。適格度トレースのパラメータλは、0.7である。また、直線は、最速のステップ数を示す。図8中においては、理想値と表記した。 In the graph of FIG. 8, a thick line shows the learning system of this invention. In FIG. 8, it described as the present invention. The thin line shows a learning system using a conventional SARSA (State-Action-Reward-State-Action) learning rule with a qualification trace. In FIG. 8, it was described as a conventional example. The qualification trace parameter λ is 0.7. A straight line indicates the fastest number of steps. In FIG. 8, it was expressed as an ideal value.
本発明の学習システムにおいて、式(3)の学習定数αは、0.05とし、式(1)の割引率γは、0・95とした。従来例の学習システムにおいて、上記と同じ数値を使用すると性能が低下したので、学習定数αは0.1とし、割引率γは、0.9とした。 In the learning system of the present invention, the learning constant α in equation (3) is 0.05, and the discount rate γ in equation (1) is 0.95. In the learning system of the conventional example, when the same numerical value as above was used, the performance deteriorated. Therefore, the learning constant α was set to 0.1 and the discount rate γ was set to 0.9.
図8のグラフが示すように、従来例においては、2回目のHOMDPの最終的な平均数は、約45回であり、1回目のHOMDPの最終的な平均数(約35回)よりも大きい。また、2回目のMDPの最終的な平均数は、約40回であり、1回目のMDPの最終的な平均数(約35回)よりも大きい。これに対して、本発明においては、1回目のHOMDP、1回目のMDP、2回目のHOMDP、2回目のMDPの最終的な平均数は全て約30回である。 As shown in the graph of FIG. 8, in the conventional example, the final average number of the second HOMDP is about 45 times, which is larger than the final average number of the first HOMDP (about 35 times). . Further, the final average number of the second MDP is about 40 times, which is larger than the final average number of the first MDP (about 35 times). In contrast, in the present invention, the final average number of the first HOMDP, the first MDP, the second HOMDP, and the second MDP is all about 30 times.
従来例においては、変化前の環境の学習結果が変化後の環境の学習に影響を与え、学習の速度が低下している。しかし、本発明においては、環境が変化しても学習の速度が低下することはない。また、本発明の各環境における平均数も、従来例の平均数よりも小さく、本発明の各環境における学習も従来例より優れている。 In the conventional example, the learning result of the environment before the change affects the learning of the environment after the change, and the learning speed is reduced. However, in the present invention, the learning speed does not decrease even if the environment changes. The average number in each environment of the present invention is also smaller than the average number in the conventional example, and learning in each environment in the present invention is also superior to the conventional example.
このように本発明の学習システムは、環境の変化に対応する学習及び同一の環境における学習において、従来のSARSA(State-Action-Reward-State-Action)学習則を使用した学習システムよりも優れている。また、本発明の学習システムは、複雑な構造の環境モデルを使用しないので計算コストを低く抑えることができる。 Thus, the learning system of the present invention is superior to a learning system using a conventional SARSA (State-Action-Reward-State-Action) learning rule in learning corresponding to environmental changes and learning in the same environment. Yes. In addition, the learning system of the present invention does not use an environment model having a complicated structure, so that the calculation cost can be reduced.
100…学習システム、101…イベント・リスト管理部、103…一時的リスト記憶、105…イベント・リスト・データベース、107…学習制御部
DESCRIPTION OF
Claims (6)
状態・行動対を、前記複数のイベント・リストに分類して記憶させるイベント・リスト管理部と、
下記の数1に示す、各イベント・リストの要素である状態・行動対の報酬期待値R(S t , a t )を更新する学習制御部と、
を備えた学習システム。
An event list management unit for classifying and storing state / action pairs into the plurality of event lists;
A learning control unit that updates the expected reward value R (S t , a t ) of the state / action pair, which is an element of each event list , as shown in the following Equation 1 :
Learning system with
前記イベント・リスト管理部は、行動が選択されるごとに、状態・行動対を前記一時的リスト記憶部に記憶させ、報酬を得るごとに、前記一時的リスト記憶部に記憶された状態・行動対の集合の内、前記イベント・リスト・データベースに記憶されていない状態・行動対を、前記報酬を得た直前の状態・行動対のイベント・リストの要素として前記イベント・リスト・データベースに記憶させる請求項1に記載の学習システム。 A temporary list storage unit;
The event list management unit stores a state / action pair in the temporary list storage unit each time an action is selected, and stores the state / action stored in the temporary list storage unit every time a reward is obtained. Of the set of pairs, state / action pairs not stored in the event list database are stored in the event list database as elements of the event list of the state / action pair immediately before the reward is obtained. The learning system according to claim 1.
前記イベント・リスト管理部が、状態・行動対を、前記複数のイベント・リストに分類して記憶させるステップと、
前記学習制御部が、下記の数1に示す、各イベント・リストの要素である状態・行動対の報酬期待値R(S t , a t )を更新するステップと、を含む学習方法。
The event list management unit classifying and storing state / action pairs into the plurality of event lists;
The learning control unit includes a step of updating the expected reward value R (S t , a t ) of the state / action pair, which is an element of each event list, as shown in Equation 1 below .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/556,872 US8290883B2 (en) | 2008-09-18 | 2009-09-10 | Learning system and learning method comprising an event list database |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13661008P | 2008-09-18 | 2008-09-18 | |
US61/136,610 | 2008-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010073200A JP2010073200A (en) | 2010-04-02 |
JP5398414B2 true JP5398414B2 (en) | 2014-01-29 |
Family
ID=42204859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009187526A Expired - Fee Related JP5398414B2 (en) | 2008-09-18 | 2009-08-12 | Learning system and learning method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5398414B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5528214B2 (en) * | 2010-05-28 | 2014-06-25 | 本田技研工業株式会社 | Learning control system and learning control method |
JP6511333B2 (en) * | 2015-05-27 | 2019-05-15 | 株式会社日立製作所 | Decision support system and decision support method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1359481A4 (en) * | 2001-02-05 | 2006-04-12 | Honda Motor Co Ltd | Agent learning apparatus, method, and program |
-
2009
- 2009-08-12 JP JP2009187526A patent/JP5398414B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010073200A (en) | 2010-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290883B2 (en) | Learning system and learning method comprising an event list database | |
CN105637540B (en) | Method and apparatus for reinforcement learning | |
Zhang et al. | Quota: The quantile option architecture for reinforcement learning | |
JP2008204103A (en) | Image recognition system | |
CN108830376B (en) | Multivalent value network deep reinforcement learning method for time-sensitive environment | |
CN113487039B (en) | Deep reinforcement learning-based intelligent self-adaptive decision generation method and system | |
CN112257603A (en) | Hyperspectral image classification method and related equipment | |
JP5398414B2 (en) | Learning system and learning method | |
Liang et al. | Reducing variance in temporal-difference value estimation via ensemble of deep networks | |
He et al. | Measuring and modelling how people learn how to plan and how people adapt their planning strategies the to structure of the environment | |
JP5528214B2 (en) | Learning control system and learning control method | |
CN111291886B (en) | Fusion training method and device of neural network model | |
JP2005078516A (en) | Device, method and program for parallel learning | |
CN110990548B (en) | Method and device for updating reinforcement learning model | |
JP2011065553A (en) | Learning control system and learning control method | |
US20220027708A1 (en) | Arithmetic apparatus, action determination method, and non-transitory computer readable medium storing control program | |
Mabu et al. | Genetic network programming with learning and evolution for adapting to dynamical environments | |
Mealing et al. | Opponent modelling by sequence prediction and lookahead in two-player games | |
Li et al. | Policy gradient methods with gaussian process modelling acceleration | |
JP6937146B2 (en) | Multiple learning system and multiple learning program | |
CN115605858A (en) | Inference device, update method, and update program | |
US20020016957A1 (en) | Intermediate object linking method and unit | |
EP3748549A1 (en) | Learning device and learning method | |
Rubinstein | A fast memoryless predictive algorithm in a chain of recurrent neural networks | |
Huang et al. | Multi-agent learning in extensive games with complete information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5398414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |