JP5528214B2 - Learning control system and learning control method - Google Patents
Learning control system and learning control method Download PDFInfo
- Publication number
- JP5528214B2 JP5528214B2 JP2010122796A JP2010122796A JP5528214B2 JP 5528214 B2 JP5528214 B2 JP 5528214B2 JP 2010122796 A JP2010122796 A JP 2010122796A JP 2010122796 A JP2010122796 A JP 2010122796A JP 5528214 B2 JP5528214 B2 JP 5528214B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- state
- reward
- event list
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 83
- 230000009471 action Effects 0.000 claims description 168
- 238000007726 management method Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 37
- 230000002787 reinforcement Effects 0.000 claims description 32
- 230000006399 behavior Effects 0.000 claims description 26
- 230000010391 action planning Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 description 63
- 238000004088 simulation Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 11
- 230000010365 information processing Effects 0.000 description 7
- 230000010485 coping Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
Description
本発明は、強化学習を利用した学習システム及び学習方法に関する。 The present invention relates to a learning system and a learning method using reinforcement learning.
ロボットなどの機械が学習によって自己の制御規則を改善する学習方法として強化学習が知られている(たとえば、非特許文献1)。一方、他からの明示的な教示によって学習する教師付き学習と呼ばれる方法がある。この両者を組み合わせることで、たとえば、ロボットが人から教示されたことを覚えて、教示されたことを試行錯誤しながら自分で状況に合わせて巧みに使用することができるようになることが期待できる。しかし、他からの教示を効率的に覚えることができ、かつ、教示された内容を試行錯誤に組み合わせながら学習を行なうことができる学習制御システム及び学習制御方法は開発されていない。 Reinforcement learning is known as a learning method in which a machine such as a robot improves its own control rules by learning (for example, Non-Patent Document 1). On the other hand, there is a method called supervised learning in which learning is performed by explicit teaching from others. By combining the two, for example, it can be expected that the robot will be taught by a person and can be used skillfully according to the situation by trial and error. . However, a learning control system and a learning control method that can efficiently learn the teachings from others and can perform learning while combining the taught contents by trial and error have not been developed.
したがって、他からの教示を効率的に覚えることができ、かつ、教示された内容を試行錯誤に組み合わせながら学習を行なうことができる学習制御システム及び学習制御方法は開発に対するニーズがある。 Therefore, there is a need for development of a learning control system and a learning control method that can efficiently learn the teachings from others and that can perform learning while combining the taught contents by trial and error.
本発明の一つの態様による学習制御システムは、報酬を得た直前の状態・行動対及び報酬を得たときの状態に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるイベント・リスト管理部と、各イベント・リストの要素である状態・行動対の報酬期待値を更新するイベント・リスト学習制御部と、該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求める行動計画部と、強化学習に基づいて第2の行動価値関数を求める強化学習部と、該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択する行動選択部と、を備えている。 The learning control system according to one aspect of the present invention provides a plurality of events by using a set of state / action pairs as a list of states / action pairs immediately before a reward is obtained and a state when the reward is obtained. An event list database that holds a list, an event list management unit that classifies state / action pairs into the plurality of event lists and stores them in the event list database, and elements of each event list An event list learning control unit that updates an expected reward value of a state / action pair, an action plan unit that obtains a first action value function using the event list of the event list database, and reinforcement learning A reinforcement learning unit for obtaining a second action value function based on the first action value function received from the action plan unit and the reinforcement learning part And a, a behavior selection unit that selects an action based on the second action value function.
本態様による学習制御システムによれば、イベント・リスト学習制御部が、報酬を得た直前の状態・行動対及び報酬を得たときの状態によって分類されたイベント・リストごとに状態・行動対の報酬期待値を更新するので、他からの教示を効率的に覚えることができる。また、本態様による学習制御システムによれば、上記他からの教示に加えて、強化学習部が行う試行錯誤の学習の結果も、該イベント・リストに反映されるので、教示された内容を試行錯誤に組み合わせながら学習を行なうことができる。 According to the learning control system of this aspect, the event / list learning control unit sets the state / action pair for each event list classified according to the state / action pair immediately before the reward is obtained and the state when the reward is obtained. Since the reward expectation value is updated, teachings from others can be efficiently learned. Further, according to the learning control system according to this aspect, in addition to the teachings from the above, the result of trial and error learning performed by the reinforcement learning unit is also reflected in the event list, so that the taught content is tried. You can learn while combining with mistakes.
本発明の一つの実施形態による学習制御システムにおいて、該行動計画部は、目標の状態が与えられた場合に、該イベント・リスト・データベースのイベント・リストを使用して、現在の状態から該目標の状態に至る経路を探索し、経路探索が成功した場合には、経路探索の結果に基づいて行動価値関数を求める。 In the learning control system according to one embodiment of the present invention, the action planning unit uses the event list of the event list database to set the target from the current state when the target state is given. The route to the state is searched, and when the route search is successful, an action value function is obtained based on the result of the route search.
本実施形態においては、該行動計画部は、目標の状態が与えられた場合に、該イベント・リスト・データベースのイベント・リストを使用して経路探索を行うので、より効率的に行動価値関数を求めることができる。したがって、教示された内容をより効率的に試行錯誤に組み合わせることができる。 In the present embodiment, the behavior planning unit performs a route search using the event list of the event list database when a target state is given, so that the behavior value function is more efficiently obtained. Can be sought. Therefore, the taught contents can be combined more efficiently by trial and error.
本発明の一つの実施形態による学習制御システムにおいて、該イベント・リスト学習制御部が、各イベント・リストの要素である状態・行動対の報酬期待値を、報酬の値に対する期待値である部分報酬期待値と報酬を得る状態に至るまでの距離の期待値である部分距離期待値との積の和で表し、該部分報酬期待値及び該部分距離期待値を別個に更新するように構成されている。 In the learning control system according to one embodiment of the present invention, the event list learning control unit sets a reward expected value of a state / action pair as an element of each event list to a partial reward that is an expected value for the reward value. Expressed as the sum of the product of the expected value and the expected partial distance that is the expected value of the distance until the reward is obtained, and configured to update the expected partial reward and the expected partial distance separately. Yes.
本実施形態によれば、該部分報酬期待値及び該部分距離期待値を別個に更新するので、より効率的に学習を行うことができる。 According to the present embodiment, since the partial reward expected value and the partial distance expected value are updated separately, learning can be performed more efficiently.
本発明の一つの実施形態による学習制御システムにおいて、該部分報酬期待値を求めるための単純移動平均値及び該部分距離期待値を求めるための単純移動平均値をイベント・リスト・データベースに記憶するように構成されている。 In the learning control system according to one embodiment of the present invention, the simple moving average value for obtaining the partial reward expectation value and the simple moving average value for obtaining the partial distance expectation value are stored in the event list database. It is configured.
本実施形態によれば、該部分報酬期待値及び該部分距離期待値を求めるために単純移動平均値を使用するので、低い計算コストで効率的に学習を行うことができる。 According to the present embodiment, since the simple moving average value is used to obtain the partial reward expectation value and the partial distance expectation value, it is possible to efficiently learn at a low calculation cost.
本発明の一つの態様による学習制御方法は、報酬を得た直前の状態・行動対及び報酬を得たときの状態に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、イベント・リスト管理部と、イベント・リスト学習制御部と、行動計画部と、強化学習部と、を備えた学習制御システムによって、学習を行なって行動を選択する学習制御方法である。本方法は、該イベント・リスト管理部が、状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるステップと、該イベント・リスト学習制御部が、各イベント・リストの要素である状態・行動対の報酬期待値を更新するステップと、を含む。本方法は、該行動計画部が、該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求めるステップと、該強化学習部が、強化学習に基づいて第2の行動価値関数を求めるステップと、該行動選択部が、該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択するステップと、をさらに含む。 The learning control method according to one aspect of the present invention provides a plurality of events by using a set of state / action pairs as a list of states / action pairs immediately before the reward is obtained and the state when the reward is obtained.・ Learning and action by a learning control system that includes an event list database that holds lists, an event list management unit, an event list learning control unit, an action planning unit, and a reinforcement learning unit Is a learning control method for selecting. In this method, the event list management unit classifies the state / action pairs into the plurality of event lists and stores them in the event list database, and the event list learning control unit Updating an expected reward value of the state / action pair which is an element of the event list. The method includes a step in which the action plan unit obtains a first action value function using an event list in the event list database, and the reinforcement learning unit performs a second action based on reinforcement learning. Obtaining a value function; and selecting the action based on the first action value function received from the action planning unit and the second action value function received from the reinforcement learning unit; Further included.
本態様による学習制御方法によれば、イベント・リスト学習制御部が、報酬を得た直前の状態・行動対及び報酬を得たときの状態によって分類されたイベント・リストごとに状態・行動対の報酬期待値を更新するので、他からの教示を効率的に覚えることができる。また、本態様による学習制御方法によれば、上記他からの教示に加えて、強化学習部が行う試行錯誤の学習の結果も、該イベント・リストに反映されるので、教示された内容を試行錯誤に組み合わせながら学習を行なうことができる。 According to the learning control method according to this aspect, the event / list learning control unit sets the state / action pair for each event list classified according to the state / action pair immediately before the reward is obtained and the state when the reward is obtained. Since the reward expectation value is updated, teachings from others can be efficiently learned. Further, according to the learning control method according to this aspect, in addition to the teaching from the above, the result of trial and error learning performed by the reinforcement learning unit is also reflected in the event list. You can learn while combining with mistakes.
図1は、本発明の一実施形態による学習制御システム150を含む装置200の構成を示す図である。装置200は、たとえばロボットであってもよい。装置200は、情報取得部201、行動出力部203、目標取得部205、教示取得部207及び学習システム150を含む。
FIG. 1 is a diagram illustrating a configuration of an
情報取得部201は、環境300から入力情報を取得し、また、装置200自身の状態情報を取得する。装置200がロボットである場合に、情報取得部201は、カメラを含み、該カメラによって撮影した環境300の画像によって、環境300の情報を取得してもよい。また、情報取得部201は、ロボットの位置及び向きを含む、装置200の状態情報を取得してもよい。情報取得部201は、取得したこれらの情報を学習制御システム150に送る。
The
行動出力部203は、学習制御システム150の選択した行動を出力する。行動の結果としての環境300の変化は、情報取得部201によって情報として取得される。
The
教示取得部205は、装置200のおかれた状態に対して、後で説明する報酬が最速で得られるような一連の行動の教示をユーザなどから取得し、その教示を学習制御システム150に送る。教示は、学習の初期の段階において学習システム150の学習を援助するのに使用される。
The
目標取得部207は、ユーザなどから装置200が達成すべき目標を受け取り、その目標を学習制御システム150に送る。
The
学習制御システム150は、取得情報処理部109、強化学習部111、行動選択部113及びイベント・リスト学習制御システム100を含む。
The
取得情報処理部109は、情報取得部201から受け取った情報を処理し、装置200の「状態」を定める。また、装置200の「行動」の結果の評価である「報酬」を定める。
The acquisition
イベント・リスト学習制御システム100及び強化学習部111は、一連の状態、行動及び報酬の情報に基づいて、行動の価値を評価する行動価値関数を定める。イベント・リスト学習制御システム100の詳細は後で説明する。強化学習部111は、従来の強化学習システムであり、たとえば、SARSA(State-Action-Reward-State-Action)アルゴリズムを使用したシステムであってもよい。SARSAアルゴリズムについては、たとえば、文献(R. S. Sutton, A. G. Barto, Reinforcement Learning: Introduction, MIT Press)に詳細に記載されている。
The event list
行動選択部113は、イベント・リスト学習制御システム100から受け取った第1の行動価値関数及び強化学習部111から受け取った第2の行動価値関数に基づいて装置の行動を選択する。また、行動選択部113は、教示取得部205から行動を教示された場合には、教示された行動を選択する。
The
ここで、イベント・リスト学習制御システム100の基本的な考え方について説明する。
Here, the basic concept of the event list learning
最初に行動価値関数について説明する。観測される状態の空間(状態空間)をSとし行動の選択肢の空間(行動空間)をAとする。|S|を状態空間の要素数、|A|を行動空間の要素数とする。状態空間の要素をs, 行動空間の要素をaであらわす。このときstは時刻tにおいて観測された状態空間の要素であり、atも同様である。行動価値関数は、現在時刻tに状態stを観測し、行動atをとったときに時間的に現在tから将来渡って得られる報酬rの期待値であり、以下のようにあらわされる。
式(1)は、以下のように展開することができる。
式(3)は、マルコフ決定過程(Markov Decision Process)という一般的な仮定のもとで以下のように変形することができる。
(S,A,S’)は(st+k-1,at+k-1,st+k)を表し、報酬rt+kを得る直前の状態・行動対(st+k-1,at+k-1)と報酬rt+kを得たときの状態st+kからなるデータの組である。ここで、状態・行動対とは、装置200が、ある状態において、ある行動を選択した場合に、その状態とその行動との対を指す。
(S, A, S ′) represents (s t + k−1 , a t + k−1 , s t + k ), and the state / action pair (s t + k ) immediately before the reward r t + k is obtained. -1 , a t + k-1 ) and the state s t + k when the reward r t + k is obtained. Here, the state / action pair refers to a pair of the state and the action when the
定義から、以下の式が成立する。
また、定義から、以下の式が成立する。
式(4)は、報酬期待値が、式(5)で表される部分距離期待値と式(6)で表される部分距離期待値との積の和で表せることを示す。また、報酬を得た状態を終端とする一連の状態行動対は、「部分」、すなわち、(S,A,S’)ごとのグループ(集合)に分類できることを示す。そこで、一連の状態・行動対を(S,A,S’)ごとの集合に分類し、該集合ごとに状態・行動対を記憶し、それぞれの状態・行動対の報酬期待値を各部分距離期待値ならびに各部分報酬期待値ごとに学習することができる。 Equation (4) indicates that the expected reward value can be expressed as the sum of products of the partial distance expectation value represented by Equation (5) and the partial distance expectation value represented by Equation (6). In addition, a series of state-action pairs ending with a state in which a reward is obtained indicates that they can be classified into “parts”, that is, groups (sets) for each (S, A, S ′). Therefore, a series of state / action pairs are classified into sets for each (S, A, S '), the state / action pairs are stored for each set, and the reward expectation value of each state / action pair is set for each partial distance. It is possible to learn for each expected value and each partial reward expected value.
式(5)で表される部分距離期待値と式(6)で表される部分距離期待値を計算するために、直近のm個のデータの平均である単純移動平均(Simple Moving Average)を使用してもよい。単純移動平均は、以下の式で表せる。
式(5)で表される部分距離期待値に対して、
式(6)で表される部分報酬期待値に対して、
部分距離期待値に対する単純移動平均をmaSAS’[γ|s,a]と表し、部分報酬期待値に対する単純移動平均をma[r|SAS’]と表す。
つぎに、イベント・リスト学習制御システム100の構成について説明する。図1に示すように、イベント・リスト学習制御システム100は、イベント・リスト管理部101、一時的リスト記憶部103、イベント・リスト・データベース105、イベント・リスト学習制御部107及び行動計画部108を含む。
The simple moving average for the partial distance expected value is expressed as ma SAS ' [γ | s, a], and the simple moving average for the partial reward expected value is expressed as ma [r | SAS'].
Next, the configuration of the event list learning
イベント・リスト管理部101は、一連の状態・行動対を一時的記憶部103に記憶させ、報酬を受け取った際に、該一連の状態・行動対を、(S,A,S’)ごとの集合に分類し、該集合ごとにイベント・リスト・データベース105に記憶させる。イベント・リスト・データベース105には、(S,A,S’)ごとの集合の、部分報酬期待値に対する単純移動平均ma[r|SAS’]及び部分距離期待値に対する単純移動平均maSAS’[γ|s,a]も記憶される。
The event
イベント・リスト学習制御システム100は、新たな状態・行動対を受け取るごとに、(S,A,S’)ごとの集合の、分報酬期待値に対する単純移動平均をma[r|SAS’]及び部分距離期待値に対する単純移動平均を更新(学習)する。
Every time a new state / action pair is received, the event list learning
行動計画部108は、目標取得部207から目標の状態が与えられた場合に、イベント・リスト・データベース105のデータを使用して、現在の状態から該目標の状態に至る経路を探索し、経路探索が成功した場合には、経路探索の結果に基づいて行動価値関数を求める。それ以外の場合には、イベント・リスト・データベース105のデータを使用して、行動価値関数を求める。
When the target plan is given from the
イベント・リスト学習制御システム100の各構成要素その詳細については以下に説明する。
Details of each component of the event list learning
図2はイベント・リスト・データベース105のデータ構造を説明するための図である。図2において、(S,A,S’)nは報酬を得る直前の状態・行動対ならびに報酬を得たときの状態を示す。(S,A,S’)nは(S,A,S’)nに至るまでの一連の状態・行動対とともに集合を形成する。この集合をイベント・リストと呼称する。(si,aj)はイベント・リストに含まれる状態・行動対を示す。なお(S,A)もこの集合に含まれる。(si,aj)に関連付けて、その部分距離期待値の単純移動平均maSAS’[γ|s,a]もイベント・リストに保持されている。さらに、この部分距離期待値の単純移動平均を更新するための補助変数e[si,aj]も保持されている。この補助変数については後に説明する。またそれぞれの(S,A,S’)nに関連付けて、対応する部分報酬期待値の単純移動平均ma[r|(S,A,S’)n]が保持されている。
FIG. 2 is a diagram for explaining the data structure of the
このようにイベント・リスト・データベース105のデータは報酬を得る直前の状態・行動対ならびに報酬を得たときの状態(S,A,S’)ごとのデータ、すなわちイベント・リストに分類される。
As described above, the data in the
図3は、イベント・リスト管理部101の動作を説明するための流れ図である。
FIG. 3 is a flowchart for explaining the operation of the event
図3のステップS1005において、イベント・リスト管理部101は、行動選択部113から状態・行動対(s,a)を受け取ったかどうか判断する。ここで、行動選択部113は、行動を選択するごとに状態・行動対(s,a)をイベント・リスト管理部101に送る。状態・行動対(s,a)を受け取っていればステップS1010に進む。状態・行動対(s,a)を受け取っていなければ、待機する。
In step S <b> 1005 of FIG. 3, the event /
図3のステップS1010において、イベント・リスト管理部101は、状態・行動対(s,a)を一時的リスト記憶部103に記憶させる。
In step S <b> 1010 of FIG. 3, the event /
図3のステップS1015において、イベント・リスト管理部101は、取得情報処理部109から報酬及び報酬を得たときの状態s’を受け取ったかどうか判断する。ここで、取得情報処理部109は、行動出力部207が行動を出力してから所定の時間経過後に情報取得部201が取得した情報に基づいて報酬を定め、イベント・リスト管理部101に送る。報酬を受け取っていればステップS1020に進む。報酬を受け取っていなければ、所定の時間経過後ステップS1005に戻る。
In step S1015 of FIG. 3, the event
図3のステップS1020において、イベント・リスト管理部101は、一時的リスト記憶部103に最後に記憶された状態・行動対(s,a)を、報酬を得た直前の状態・行動対(S,A)とし、報酬を得たときの状態s’をS’として、報酬を得た直前の状態・行動対及び報酬を得たときの状態(S,A,S’)を生成する。
In step S1020 of FIG. 3, the event /
図3のステップS1025において、イベント・リスト管理部101は、イベント・リスト・データベース105に (S,A,S’)が存在するかどうか判断する。(S,A,S’)が存在すれば、ステップS1035に進む。(S,A,S’)が存在しなければ、ステップS1030に進む。
In step S1025 of FIG. 3, the event
図3のステップS1030において、イベント・リスト管理部101は、(S,A,S’)をイベント・リスト・データベース105に記憶させる。
In step S 1030 of FIG. 3, the event
図3のステップS1035において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された状態・行動対(s,a)のそれぞれが、イベント・リスト・データベース105の(S,A,S’)のイベント・リストに含まれているかどうか判断する。(S,A,S’)のイベント・リストに含まれていれば、ステップS1045に進む。(S,A,S’)のイベント・リストに含まれていなければ、ステップS1040に進む。
In step S1035 of FIG. 3, the event
図3のステップS1040において、イベント・リスト管理部101は、(S,A,S’)のイベント・リストに含まれていない状態・行動対(s,a)を(S,A,S’)のイベント・リストに追加する。このとき、追加される状態・行動対の数は、あらかじめ決められた数を上限とする。
In step S1040 of FIG. 3, the event
図3のステップS1045において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された全ての状態・行動対(s,a)についてステップS1035の処理を行ったかどうか判断する。全ての状態・行動対(s,a)についてステップS1035の処理を行っていれば、ステップS1050に進む。全ての状態・行動対(s,a)についてステップS1035の処理を行っていなければ、ステップS1035に戻る。
In step S <b> 1045 of FIG. 3, the event /
図3のステップS1050において、イベント・リスト管理部101は、一時的リスト記憶部103に記憶された全ての状態・行動対(s,a)をクリア(消去)する。
In step S1050 of FIG. 3, the event /
図4は、イベント・リスト学習制御部107の動作を説明するための流れ図である。
FIG. 4 is a flowchart for explaining the operation of the event list learning
図4のステップS2005において、イベント・リスト管理部101は、行動選択部113から状態・行動対(s,a)を受け取ったかどうか判断する。状態・行動対(s,a)を受け取っていればステップS2010に進む。状態・行動対(s,a)を受け取っていなければ、待機する。
In step S2005 of FIG. 4, the event /
図4のステップS2010において、イベント・リスト管理部101は、取得情報処理部109から次の状態s’を受け取ったかどうか判断する。次の状態s’を受け取っていれば、ステップS2015に進む。次の状態s’を受け取っていなければ待機する。
In step S2010 of FIG. 4, the event
図4のステップS2015において、イベント・リスト管理部101は、そのときの報酬を受け取ったかどうか判断する。報酬を受け取っていれば、ステップS2020に進む。報酬を受け取っていなければ、ステップS2025に進む。
In step S2015 in FIG. 4, the event
図4のステップS2020において、イベント・リスト管理部101は、報酬の値をrに代入する。
In step S2020 of FIG. 4, the event
図4のステップS2025において、イベント・リスト管理部101は、ゼロをrに代入する。
In step S2025 of FIG. 4, the event
図4のステップS2030において、イベント・リスト管理部101は、イベント・リスト・データベース105中の各イベント・リストの補助変数e[s,a]を更新する。
In step S2030 of FIG. 4, the event
図4のステップS2035において、イベント・リスト管理部101は、イベント・リスト・データベース105中の各イベント・リストの単純移動平均の値を更新する。
In step S2035 of FIG. 4, the event
図5は、図4のステップS2030の詳細な動作を説明するための図である。 FIG. 5 is a diagram for explaining the detailed operation of step S2030 of FIG.
図5のステップS3005において、イベント・リスト管理部101は、イベント・リスト・データベース105から一つのイベント・リスト(S,A,S’)nを取り出す。
In step S3005 of FIG. 5, the event
図5のステップS3010において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nから一つの状態・行動対(s”,a”)を取り出す。
In step S3010 of FIG. 5, the event
図5のステップS3015において、イベント・リスト管理部101は、取り出した状態・行動対(s”,a”)が、受け取った状態・行動対(s,a)と同じであるかどうか判断する。同じであれば、ステップS3020に進む。同じでなければ、ステップS3025に進む。
In step S3015 of FIG. 5, the event /
図5のステップS3020において、イベント・リスト管理部101は、状態・行動対(s”,a”)の補助変数e[s”,a”]を以下の式にしたがって更新する。ここで、補助変数の初期値は、すべてゼロである。
図5のステップS3025において、イベント・リスト管理部101は、状態・行動対(s”,a”)の補助変数e[s”,a”]を以下の式にしたがって更新する。
図5のステップS3030において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの全ての状態・行動対(s”,a”)をチェックしたかどうか判断する。全ての状態・行動対(s”,a”)をチェックしていれば、ステップS3035に進む。全ての状態・行動対(s”,a”)をチェックしていなければ、ステップS3010に戻る。
In step S3030 of FIG. 5, the event
図5のステップS3035において、イベント・リスト管理部101は、イベント・リスト・データベース105の全てのイベント・リスト(S,A,S’)n をチェックしたかどうか判断する。全てのイベント・リスト(S,A,S’)n をチェックしていれば、処理を終了する。全てのイベント・リスト(S,A,S’)n をチェックしていなければ、ステップS3005に戻る。
In step S3035 of FIG. 5, the event
図6は、図4のステップS2035の詳細な動作を説明するための図である。 FIG. 6 is a diagram for explaining the detailed operation of step S2035 of FIG.
図6のステップS4005において、イベント・リスト管理部101は、イベント・リスト・データベース105のイベント・リスト(S,A,S’)nのうちから、その状態・行動対にsを含むものだけを取り出す。
In step S4005 of FIG. 6, the event
図6のステップS4010において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの(S,A,S’)が、(s,a,s’)と同じであるかどうか判断する。同じであれば、ステップS4015に進む。同じでなければステップS4020に進む。
In step S4010 of FIG. 6, the event
図6のステップS4015において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの、部分報酬期待値に対する単純移動平均ma[r|SAS’]を以下の式にしたがって更新する。
図6のステップS4020において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nから一つの状態・行動対(s”,a”)を取り出す。
In step S4020 of FIG. 6, the event
図6のステップS4025において、イベント・リスト管理部101は、状態・行動対(s”,a”)の補助変数e[s”,a”]が正であるかどうか判断する。補助変数e[s”,a”]が正であれば、ステップS4030に進む。補助変数e[s”,a”]が正でなければ、ステップS4050に進む。
In step S4025 of FIG. 6, the event /
図6のステップS4030において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの(S,A,S’)が、(s,a,s’)と同じであるかどうか判断する。同じであれば、ステップS4035に進む。同じでなければステップS4040に進む。
In step S4030 of FIG. 6, the event
図6のステップS4035において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの要素の、部分距離期待値に対する単純移動平均maSAS’[γ|s,a]を以下の式にしたがって更新する。
図6のステップS4040において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの要素の、部分距離期待値に対する単純移動平均maSAS’[γ|s,a]を以下の式にしたがって更新する。
図6のステップS4045において、イベント・リスト管理部101は、状態・行動対(s”,a”)の補助変数e[s”,a”]を以下の式にしたがって更新する。
図6のステップS4050において、イベント・リスト管理部101は、取り出したイベント・リスト(S,A,S’)nの全ての状態・行動対(s”,a”)をチェックしたかどうか判断する。全ての状態・行動対(s”,a”)をチェックしていれば、ステップS4055に進む。全ての状態・行動対(s”,a”)をチェックしていなければ、ステップS4020に戻る。
In step S4050 of FIG. 6, the event
図6のステップS4055において、イベント・リスト管理部101は、イベント・リスト・データベース105の全てのイベント・リスト(S,A,S’)n をチェックしたかどうか判断する。全てのイベント・リスト(S,A,S’)n をチェックしていれば、処理を終了する。全てのイベント・リスト(S,A,S’)n をチェックしていなければ、ステップS4005に戻る。
In step S4055 of FIG. 6, the event
図7Aは、行動計画部108の動作を説明するための流れ図である。
FIG. 7A is a flowchart for explaining the operation of the
図7AのステップS5005において、行動計画部108は、取得情報処理部109から状態s’を受け取ったかどうか判断する。状態s’を受け取っていれば、ステップS5010に進む。状態s’を受け取っていなければ待機する。
In step S5005 of FIG. 7A, the
図7AのステップS5010において、行動計画部108は、目標取得部207から目標S’を受け取ったかどうか判断する。目標S’を受け取っていれば、ステップS5015に進む。目標S’を受け取っていなければ、ステップS5030に進む。
In step S5010 of FIG. 7A, the
図7AのステップS5015において、行動計画部108は、行動計画部108は、イベント・リスト・データベース105の情報を使用して、初期状態s’から目標状態S’に至る経路を探索する。
In step S5015 of FIG. 7A, the
図7Bは、イベント・リスト・データベース105の情報を使用して、初期状態から目標状態に至る経路を探索する方法を説明するための図である。図7B(a)は、S0からS3に至る状態遷移を示す図である。図7B(b)は、図7B(a)の状態遷移に対応するイベント・リストを示す図である。図7B(b)のイベント・リストにおいて、(S,A,S’)は、(S2,a3,S3)である。図7B(c)は、イベント・リストの組み合わせを示す図である。図7B(c)に示されるように、複数のイベント・リストを組み合わせて初期状態から目標状態に至る経路を探索する。経路探索の方法は、たとえば、最良優先探索法(たとえば、人工知能学会編、人工知能学辞典、2006年、共立出版)によってもよい。
FIG. 7B is a diagram for explaining a method for searching for a route from the initial state to the target state using information in the
図7AのステップS5020において、行動計画部108は、経路探索は成功したかどうか判断する。経路探索が成功していれば、ステップS5025に進む。経路探索が成功していなければ、ステップS5030に進む。
In step S5020 of FIG. 7A, the
図7AのステップS5025において、行動計画部108は、経路探索の結果に基づいて、推奨される行動aに対応した行動価値関数をイベント・リスト・データベース105中の対応する単純移動平均の値を使って、以下の式にしたがって求め、出力する。
図7AのステップS5030において、行動計画部108は、イベント・リスト・データベース105の情報を使用して、状態s’に対応する行動価値関数を求め、出力する。具体的に、行動計画部108は、イベント・リスト・データベース105に記憶されたイベント・リストの内、状態s’に対応する部分の部分報酬期待値および部分距離期待値から、以下の式にしたがって式(4)によって示される状態s’に対する報酬期待値を求める。
図8は、行動選択部113の動作を説明するための流れ図である。
FIG. 8 is a flowchart for explaining the operation of the
図8のステップS6005において、行動選択部113は、取得情報処理部109から状態s’を受け取ったかどうか判断する。状態s’を受け取っていれば、ステップS6010に進む。状態s’を受け取っていなければ待機する。
In step S6005 of FIG. 8, the
図8のステップS6010において、行動選択部113は、教示取得部205から教示を受け取ったかどうか判断する。教示を受け取っていれば、ステップS6015に進む。教示を受け取っていなければステップS6020に進む。
In step S6010 of FIG. 8, the
図8のステップS6015において、行動選択部113は、教示された行動aを選択して出力し、処理を終了する。
In step S6015 of FIG. 8, the
図8のステップS6020において、行動選択部113は、強化学習部111から行動価値関数Qを受け取ったかどうか判断する。行動価値関数Qを受け取っていれば、ステップS6025に進む。行動価値関数Qを受け取っていなければステップS6005に戻る。
In step S6020 of FIG. 8, the
図8のステップS6025において、行動選択部113は、行動計画部108から行動価値関数tQを受け取ったかどうか判断する。行動価値関数tQを受け取っていれば、ステップS6030に進む。行動価値関数tQを受け取っていなければステップS6035に進む。
In step S6025 of FIG. 8, the
図8のステップS6030において、行動選択部113は、tQとQとの和をtQとする。
In step S6030 of FIG. 8, the
図8のステップS6035において、行動選択部113は、QをtQとする。
In step S6035 of FIG. 8, the
図8のステップS6040において、行動選択部113は、tQに基づいて、確率的に行動aを選択し、出力する。
In step S6040 of FIG. 8, the
以下に、本実施形態による学習制御システム150のシミュレーション実験について説明する。
Hereinafter, a simulation experiment of the
図9は、シミュレーション実験の手順を説明するための図である。s0からs7までの8個の観察される状態が存在する。また、a0からa7までの8個の行動が存在する。「教示されるエピソード」は、学習制御システム150を備えた装置200に、たとえば教示取得部205を介して教示されるエピソードを示す。ここで、エピソードとは、連続して生じる一連の状態及び行動を指す。以下において、装置200をエージェントと呼称する。
FIG. 9 is a diagram for explaining the procedure of the simulation experiment. There are 8 observed states from s 0 to s 7 . There are 8 actions from a 0 to a 7 . “Teached episode” indicates an episode taught to the
たとえば、エピソードAでは、最初に観測状態はs0が観測される。このとき行動a1をとるように教示される。そして行動a1をエージェントが選択すると、その結果観測状態がs1に代わる。以下同様にして観測状態s3までたどり着くと、正の報酬値がエージェントに与えられる。同様にしてエピソードB、エピソードC、エピソードDが各一回ずつ教示される。エピソードB及びエピソードCの終端においては正の報酬値が与えられる。しかし、エピソードDの終端においては負の報酬値が与えられ、エピソードDは望ましくないものとして教示される。 For example, in episode A, s 0 is first observed as the observation state. At this time they are instructed to take action a 1. When the agent selects action a 1 , the observation state is changed to s 1 as a result. Similarly, when reaching the observation state s 3 in the same manner, a positive reward value is given to the agent. Similarly, episode B, episode C, and episode D are taught once each. A positive reward value is given at the end of episode B and episode C. However, at the end of episode D, a negative reward value is given, and episode D is taught as undesirable.
つぎに、エージェントに問題が与えられる。図9の問題1の場合に、エージェントは、観測状態s0におかれ、目標とする状態がs6であると提示される。エージェントは、状態s0から状態がs6まで、状態を最短のステップで遷移させることが要求される。ここで、ステップとは、状態に対してとられる行動の数である。図9の問題2の場合に、エージェントは、観測状態s0におかれ、目標とする状態がs7であると提示される。エージェントは、状態s0から状態がs7まで、状態を最短のステップで遷移させることが要求される。
Next, a problem is given to the agent. In the case of
実際のシミュレーションにおいては、20のトライアルからなるシミュレーションを行なった。ここで、トライアルとは、エージェントが、状態に応じて終端にいたるまで実施する一連の行動である。ただし、トライアルのステップ数は最大50とする。換言すれば、エージェントの行動が、50ステップを経てもなお終端に至らない場合には、トライアルを終了する。最初の4個のトライアル、すなわち、第1乃至第4のトライアルは、エピソード教示期間であり教示が与えられる。具体的に、第1乃至第4のトライアルにおいては、エピソードA乃至Dが上述のように教示される。第5乃至第20のトライアルは、問題対処期間である。問題対処期間には、エージェントに問題1及び問題2が交互に与えられる。具体的に第5のトライアルにおいては、問題1、第6のトライアルにおいては問題2、第7のトライアルにおいては問題1、第8のトライアルにおいては問題2がそれぞれ与えられる。このようにして、第20のトライアルに至るまで、問題1及び問題2が交互に与えられる。
In the actual simulation, a simulation consisting of 20 trials was performed. Here, the trial is a series of actions that the agent performs until reaching the terminal depending on the state. However, the maximum number of trial steps is 50. In other words, if the agent's action does not reach the end even after 50 steps, the trial ends. The first four trials, that is, the first to fourth trials are episode teaching periods and are taught. Specifically, in the first to fourth trials, episodes A to D are taught as described above. The fifth to twentieth trials are problem-handling periods. During the problem handling period,
図10は、第1のシミュレーションの結果を示す図である。ここで、図10乃至図13のグラフの横軸はトライアル数を示し、縦軸は各トライアルのステップ数を示す。各トライアルのステップ数は、1000回繰り返した結果の平均である。図10乃至図13には、本発明の本実施形態による学習制御システム150の他、SARSA(0.1)のアルゴリズム及びSARSA(0.5)のアルゴリズムによる結果を示した。0.1及び0.5は、λで表されるSARSAアルゴリズムのパラメータである(R. S. Sutton, A. G. Barto, Reinforcement Learning: Introduction, MIT Press)。なお、本実施形態による学習制御システム150の強化学習部111は、SARSA(0.5)のアルゴリズムを使用している。
FIG. 10 is a diagram illustrating a result of the first simulation. Here, the horizontal axis of the graphs of FIGS. 10 to 13 indicates the number of trials, and the vertical axis indicates the number of steps of each trial. The number of steps in each trial is the average of 1000 repeated results. FIGS. 10 to 13 show the results of the SARSA (0.1) algorithm and the SARSA (0.5) algorithm in addition to the
図10において、SARSA(0.1)のアルゴリズムによる結果は、問題対処期間においてステップ数が減少しないので全く学習が行なわれていないことを示している。SARSA(0.5)のアルゴリズムによる結果は、問題1に対してのみステップ数が減少しているので、問題1に対してのみ学習が行なわれていることを示している。本実施形態による学習制御システム150による結果は、問題1及び2に対して正しく学習が行なわれていることを示している。
In FIG. 10, the result of the SARSA (0.1) algorithm indicates that learning is not performed at all because the number of steps does not decrease in the problem coping period. The result of the SARSA (0.5) algorithm shows that learning is performed only for
図11は、第2のシミュレーション結果を示す図である。本シミュレーションにおいて、問題対処期間には、第1のシミュレーションの場合と同様に、エージェントに問題1及び問題2が交互に与えられる。ただし、第2のシミュレーションにおいては、問題対処期間のトライアルが確率的である。具体的に、たとえ、エージェントの選んだ行動が正しくても確率0.8の割合でしか正しく次の状態に遷移しない。図11によれば、この場合でも、本実施形態による学習制御システム150は、正しく学習を行なう。
FIG. 11 is a diagram illustrating a second simulation result. In this simulation, the
図12は、第3のシミュレーション結果を示す図である。本シミュレーションにおいて、問題対処期間の環境が、エピソード教示期間の環境と変わってしまっている。具体的に、エピソード教示期間の、問題1に対応するエピソードAでは、エージェントが行動a2を状態s1で選ぶと、状態s2になったが、問題1のトライアルではs7になってしまうようことが起きるとする。この時の遷移は確率的ではなく、「決定論的」である。図12において、「1’」は、問題1が変わってしまっていることを示す。問題2は、エピソード教示期間と同じである。図12によれば、この場合でも、本実施形態による学習制御システム150は、イベント・リスト学習制御システム100による学習を強化学習部111による学習と効果的に組み合わせることにより、教示されていない問題1’に対しても正しく学習を行なう。
FIG. 12 is a diagram illustrating a third simulation result. In this simulation, the problem handling period environment has changed from the episode teaching period environment. Specifically, in episode A corresponding to
図13は、第4のシミュレーション結果を示す図である。本シミュレーションにおいて、第2のシミュレーションと同様に、問題対処期間のトライアルが確率的であり、且つ、第3のシミュレーションと同様に、問題1が変わってしまっている。この場合でも、本実施形態による学習制御システム150は、イベント・リスト学習制御システム100による学習を強化学習部111による学習と効果的に組み合わせることにより、問題1’及び問題2に対して正しく学習を行なう。
FIG. 13 is a diagram illustrating a fourth simulation result. In this simulation, as in the second simulation, the trial of the problem coping period is probabilistic, and the
図14は、第5のシミュレーション結果を示す図である。第5のシミュレーションにおいては、教示が一切なく目標も与えられない。 FIG. 14 is a diagram illustrating a fifth simulation result. In the fifth simulation, there is no teaching and no target is given.
図15は、第5のシミュレーション環境である高次マルコフ決定過程(HOMDP: High Order Markov Decision Process)を説明するための図である。選択しうる行動は、a0,a1,…a9の10個であり、そのうち報酬に関係するのはa0,a1,…a5の6個である。本過程は、過程Aと過程Bとを含む。過程Aで報酬を得た場合につぎに報酬を得るためには過程Bを選択する必要があり、過程Bで報酬を得た場合につぎに報酬を得るためには過程Aを選択する必要がある。すなわち、同じ観測信号に対して、過程Aと過程Bで異なる行動を選択する必要がある。各遷移は確率的である。過程Aにおいて、s0からs2へは確率0.3で遷移する。その他の場合は、確率0.9で遷移する。過程Bにおいて、s1からs2へは確率0.3で遷移する。その他の場合は、確率0.9で遷移する。さらに、各状態に対して観測できる信号は2個存在する。たとえば、s0に対しては、O00とO01の信号が存在し、いずれかが確率0.5で観測される。 FIG. 15 is a diagram for explaining a high order Markov decision process (HOMDDP) which is a fifth simulation environment. The selected may behavior, a 0, a 1, a ten ... a 9, of which the related to the reward is six of a 0, a 1, ... a 5. This process includes process A and process B. In order to obtain the next reward when the reward is obtained in the process A, it is necessary to select the process B. To obtain the next reward when the reward is obtained in the process B, it is necessary to select the process A. is there. That is, it is necessary to select different actions in the process A and the process B for the same observation signal. Each transition is probabilistic. In the process A, a transition is made from s 0 to s 2 with a probability of 0.3. In other cases, transition is made with a probability of 0.9. In the process B, a transition is made from s 1 to s 2 with a probability of 0.3. In other cases, transition is made with a probability of 0.9. Furthermore, there are two signals that can be observed for each state. For example, for s 0, there are O 00 and O 01 signals, one of which is observed with a probability of 0.5.
図14のグラフの横軸はトライアル数を示し、縦軸は各トライアルのステップ数を示す。各トライアルのステップ数は、1000回繰り返した結果の平均である。図14には、本発明の本実施形態による学習制御システム150の他、SARSA(0.5)のアルゴリズムによる結果を示した。図14において、実線は、学習制御システム150によるステップ数の平均値を示し、一点鎖線は、SARSA(0.5)のアルゴリズムによるステップ数の平均値を示す。また、点線は、学習制御システム150によるステップ数の標準偏差を示し、二点鎖線は、SARSA(0.5)のアルゴリズムによるステップ数の標準偏差を示す。図14によれば、本発明の本実施形態による学習制御システム150は、SARSA(0.5)のアルゴリズムより少ないステップ数で収束している。この結果、全く教示や目標の提示がない場合でも、イベント・リスト学習制御システム100は、強化学習部111の学習を助けていることがわかる。
The horizontal axis of the graph in FIG. 14 indicates the number of trials, and the vertical axis indicates the number of steps in each trial. The number of steps in each trial is the average of 1000 repeated results. FIG. 14 shows the result of the SARSA (0.5) algorithm in addition to the
100…イベント・リスト学習制御システム、101…イベント・リスト管理部、103…一時的リスト記憶、105…イベント・リスト・データベース、107…イベント・リスト学習制御部、108…行動計画部
DESCRIPTION OF
Claims (2)
状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるイベント・リスト管理部と、
各イベント・リストの要素である状態・行動対の報酬期待値を更新するイベント・リスト学習制御部と、
該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求める行動計画部と、
強化学習に基づいて第2の行動価値関数を求める強化学習部と、
該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択する行動選択部と、
を備え、
前記イベント・リスト管理部は、観測された状態、行動、及び報酬を、それぞれ、一の報酬を得た直前の時刻における状態と、当該状態に対してとった行動と、当該行動の結果生じた、当該報酬を得たときの状態と、で構成される集合で表された状態行動連鎖に、当該状態行動連鎖に至るまでの一連の状態・行動対の集合を対応付けて構成したリストを一のイベント・リストとして分類し、当該一のイベント・リストを前記一の報酬に対応付けて、前記イベント・リスト・データベースに記憶させ、
前記第1及び第2の行動価値関数は、それぞれ、前記行動計画部及び前記強化学習部が決定した行動を実行したならば現在から将来にわたって得られるであろう報酬の期待値を表すものであり、
前記第1の行動価値関数は、一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において得られる報酬の期待値である報酬期待値を、複数の前記他の時刻にわたって重みづけ加算した値として定義され、
前記報酬期待値は、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において一の状態行動連鎖を経て報酬が得られる確率を、複数の前記他の時刻にわたって重みづけ加算した値である部分距離期待値と、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において前記一の状態行動連鎖を経て一の報酬が得られる期待値を、当該一の状態行動連鎖を経て得られるすべての報酬について重みづけ加算した値である部分報酬期待値と、の積を、与えられた目標状態に至るまでの経路を構成する一の前記状態行動連鎖のセットについて加算した値として算出される、
学習制御システム。 An event list database that holds a plurality of event lists, with a set of state / action pairs as a list of states / action pairs immediately before the reward is obtained and the state when the reward is obtained;
An event list management unit for classifying state / action pairs into the plurality of event lists and storing them in the event list database;
An event list learning control unit that updates a reward expected value of a state / action pair that is an element of each event list;
An action planning unit for obtaining a first action value function using an event list of the event list database;
A reinforcement learning unit for obtaining a second action value function based on reinforcement learning;
An action selection unit that selects an action based on the first action value function received from the action plan unit and the second action value function received from the reinforcement learning unit;
With
The event list management unit has the observed state, action, and reward, respectively, the state at the time immediately before obtaining one reward, the action taken for the state, and the result of the action And a state-action chain represented by a set composed of the state when the reward is obtained, and a list configured by associating a set of state / action pairs up to the state-action chain. The event list is associated with the one reward and stored in the event list database.
The first and second action value functions represent expected values of rewards that will be obtained from the present to the future if the actions determined by the action planning unit and the reinforcement learning unit are executed, respectively. The
The first behavior value function includes a plurality of the expected reward values that are expected values of rewards obtained at other times after the behavior taken at the one time with respect to the state at the one time. Defined as a weighted addition over other times,
The expected reward value is a probability that a reward is obtained through one state-behavior chain at another time after the action taken at the one time with respect to the state at the one time. The partial distance expectation value, which is a value obtained by weighting over the time, and the action taken at the one time with respect to the state at the one time, through the one state action chain at another time thereafter The product of the expected value from which one reward is obtained and the partial reward expectation value, which is a value obtained by weighting and adding all the rewards obtained through the one state-action chain, to the given target state. Calculated as an added value for one set of the state-action chain constituting the route,
Learning control system.
該イベント・リスト管理部が、状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるステップと、
該イベント・リスト学習制御部が、各イベント・リストの要素である状態・行動対の報酬期待値を更新するステップと、
該行動計画部が、該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求めるステップと、
該強化学習部が、強化学習に基づいて第2の行動価値関数を求めるステップと、
該行動選択部が、該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択するステップと、
を含み、
前記記憶させるステップでは、観測された状態、行動、及び報酬を、それぞれ、一の報酬を得た直前の時刻における状態と、当該状態に対してとった行動と、当該行動の結果生じた、当該報酬を得たときの状態と、で構成される集合で表された状態行動連鎖に、当該状態行動連鎖に至るまでの一連の状態・行動対の集合を対応付けて構成したリストを一のイベント・リストとして分類し、当該一のイベント・リストを前記一の報酬に対応付けて、前記イベント・リスト・データベースに記憶させ、
前記第1及び第2の行動価値関数は、それぞれ、前記行動計画部及び前記強化学習部が決定した行動を実行したならば現在から将来にわたって得られるであろう報酬の期待値を表すものであり、
前記第1の行動価値関数は、一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において得られる報酬の期待値である報酬期待値を、複数の前記他の時刻にわたって重みづけ加算した値として定義され、
前記報酬期待値は、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において一の状態行動連鎖を経て報酬が得られる確率を、複数の前記他の時刻にわたって重みづけ加算した値である部分距離期待値と、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において前記一の状態行動連鎖を経て一の報酬が得られる期待値を、当該一の状態行動連鎖を経て得られるすべての報酬について重みづけ加算した値である部分報酬期待値と、の積を、目標状態に至るまでの経路を構成する一の前記状態行動連鎖のセットについて加算した値として算出される、
学習制御方法。 An event list database that holds a plurality of event lists, with a set of state / action pairs as a list of states / action pairs immediately before the reward is obtained and the state when the reward is obtained; A learning control method for performing learning and selecting an action by a learning control system including an event list management unit, an event list learning control unit, an action planning unit, a reinforcement learning unit, and an action selection unit. There,
The event list management unit classifying state / action pairs into the plurality of event lists and storing them in the event list database;
The event list learning control unit updates a reward expectation value of a state / action pair which is an element of each event list;
The action planning unit using the event list of the event list database to obtain a first action value function;
The reinforcement learning unit obtaining a second action value function based on reinforcement learning;
The action selecting unit selecting an action based on the first action value function received from the action plan unit and the second action value function received from the reinforcement learning unit;
Including
In the storing step, the observed state, action, and reward are respectively the state at the time immediately before obtaining one reward, the action taken for the state, and the result of the action, A list consisting of a set of state / action pairs up to the state-action chain is associated with the state-action chain represented by the set consisting of the state when the reward is obtained, and one event Classify it as a list, associate the one event list with the one reward, and store it in the event list database;
The first and second action value functions represent expected values of rewards that will be obtained from the present to the future if the actions determined by the action planning unit and the reinforcement learning unit are executed, respectively. The
The first behavior value function includes a plurality of the expected reward values that are expected values of rewards obtained at other times after the behavior taken at the one time with respect to the state at the one time. Defined as a weighted addition over other times,
The expected reward value is a probability that a reward is obtained through one state-behavior chain at another time after the action taken at the one time with respect to the state at the one time. The partial distance expectation value, which is a value obtained by weighting over the time, and the action taken at the one time with respect to the state at the one time, through the one state action chain at another time thereafter A route to the target state is formed by multiplying the expected value from which one reward is obtained and the partial reward expected value, which is a value obtained by weighting and adding all rewards obtained through the one state-action chain. Calculated as an added value for the set of state-action chains.
Learning control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122796A JP5528214B2 (en) | 2010-05-28 | 2010-05-28 | Learning control system and learning control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122796A JP5528214B2 (en) | 2010-05-28 | 2010-05-28 | Learning control system and learning control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248728A JP2011248728A (en) | 2011-12-08 |
JP5528214B2 true JP5528214B2 (en) | 2014-06-25 |
Family
ID=45413888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010122796A Expired - Fee Related JP5528214B2 (en) | 2010-05-28 | 2010-05-28 | Learning control system and learning control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5528214B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016009030B4 (en) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Machine learning device, robot system and machine learning system for learning a workpiece receiving operation |
JP6240689B2 (en) | 2015-07-31 | 2017-11-29 | ファナック株式会社 | Machine learning device, robot control device, robot system, and machine learning method for learning human behavior pattern |
WO2018042730A1 (en) * | 2016-08-30 | 2018-03-08 | 本田技研工業株式会社 | Robot control device and robot control method |
JP6691077B2 (en) * | 2017-08-18 | 2020-04-28 | ファナック株式会社 | Control device and machine learning device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11231897A (en) * | 1998-02-12 | 1999-08-27 | Hitachi Ltd | Speech recognition device and method |
JP2002133390A (en) * | 2000-10-18 | 2002-05-10 | Matsushita Electric Ind Co Ltd | Learning device and recording medium |
JP4687732B2 (en) * | 2008-03-13 | 2011-05-25 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP5079602B2 (en) * | 2008-06-09 | 2012-11-21 | 日本電信電話株式会社 | Autonomous mobile robot operation planning apparatus, method, program and recording medium, and autonomous mobile robot operation control apparatus and method |
JP5398414B2 (en) * | 2008-09-18 | 2014-01-29 | 本田技研工業株式会社 | Learning system and learning method |
-
2010
- 2010-05-28 JP JP2010122796A patent/JP5528214B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011248728A (en) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7120433B2 (en) | Answer generation device, answer learning device, answer generation method, and answer generation program | |
Lee et al. | Context-aware dynamics model for generalization in model-based reinforcement learning | |
EP3711000B1 (en) | Regularized neural network architecture search | |
US8290883B2 (en) | Learning system and learning method comprising an event list database | |
JP7247878B2 (en) | Answer learning device, answer learning method, answer generation device, answer generation method, and program | |
JP5346701B2 (en) | Learning control system and learning control method | |
WO2018125337A2 (en) | Automated generation of workflows | |
CN114641779A (en) | Countermeasure training of machine learning models | |
Csordás et al. | The neural data router: Adaptive control flow in transformers improves systematic generalization | |
JP5528214B2 (en) | Learning control system and learning control method | |
KR102203252B1 (en) | Method and system for collaborative filtering based on generative adversarial networks | |
WO2019229931A1 (en) | Information processing device, control method, and program | |
JP2017182320A (en) | Machine learning device | |
US20140236869A1 (en) | Interactive variable selection device, interactive variable selection method, and interactive variable selection program | |
Zhang et al. | Deep incremental rnn for learning sequential data: A lyapunov stable dynamical system | |
CN112508177A (en) | Network structure searching method and device, electronic equipment and storage medium | |
Ada et al. | Generalization in transfer learning | |
Saini et al. | Machine learning-based incremental learning in interactive domain modelling | |
JP5910957B2 (en) | Artificial intelligence device that autonomously constructs a knowledge system by language input | |
JP6844565B2 (en) | Neural network device and program | |
WO2020044414A1 (en) | Hypothesis inference device, hypothesis inference method, and computer-readable recording medium | |
Panou et al. | DeepFoldit--A Deep Reinforcement Learning Neural Network Folding Proteins | |
JP2022045731A (en) | Information processing device, information processing system and information processing method | |
JP5398414B2 (en) | Learning system and learning method | |
Milani et al. | Neural network based approach for learning planning action models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5528214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |