JP6955105B2 - 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 - Google Patents
方策オフ型アクタークリティック強化学習を使用する分散型の訓練 Download PDFInfo
- Publication number
- JP6955105B2 JP6955105B2 JP2020529199A JP2020529199A JP6955105B2 JP 6955105 B2 JP6955105 B2 JP 6955105B2 JP 2020529199 A JP2020529199 A JP 2020529199A JP 2020529199 A JP2020529199 A JP 2020529199A JP 6955105 B2 JP6955105 B2 JP 6955105B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- state value
- empirical
- tuple
- learner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 60
- 230000002787 reinforcement Effects 0.000 title claims description 40
- 230000006399 behavior Effects 0.000 claims description 223
- 230000009471 action Effects 0.000 claims description 182
- 238000013528 artificial neural network Methods 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 103
- 230000003542 behavioural effect Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims 2
- 239000003795 chemical substances by application Substances 0.000 description 66
- 238000004590 computer program Methods 0.000 description 14
- 230000003993 interaction Effects 0.000 description 9
- 238000004088 simulation Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
δtV = rt +γ・V(xt+1) - V(xt) (5)
として決定する可能性があり、式中、rtは、所与の経験タプルに含まれる報酬であり、γは、割引因子であり、V(xt+1)は、所与の経験タプルに含まれる後続の観測結果に関する状態価値であり、V(xt)は、所与の経験タプルに含まれる観測結果に関する状態価値である。
102 行動選択ニューラルネットワーク
104 行動
106 エージェント
108 環境
110 方策スコア
112 観測結果
114 報酬
200 訓練システム
202-A ラーナーコンピューティングユニット
202-B ラーナーコンピューティングユニット
202-Y ラーナーコンピューティングユニット
204-A アクターコンピューティングユニット
204-B アクターコンピューティングユニット
204-X アクターコンピューティングユニット
206 経験タプルの軌跡
208 ラーナー行動選択ネットワークのパラメータ
300 強化学習システム
302 行動選択ネットワーク
304 経験タプルの軌跡
306 状態価値ネットワーク
308 行動選択ネットワークのパラメータ
310 状態価値ネットワークのパラメータ
312 行動選択ネットワークのパラメータの更新
314 状態価値ネットワークのパラメータの更新
316 状態価値
318 ラーナー方策スコア
320 訓練エンジン
400 プロセス
500 プロセス
Claims (23)
- エージェントが環境とインタラクションすることによって実行される行動を選択するために使用される行動選択ニューラルネットワークを訓練するための方法であって、前記行動選択ニューラルネットワークが、前記行動選択ニューラルネットワークの現在のパラメータ値に従って前記環境の観測結果を含む入力を処理して、前記エージェントによって実行され得る行動の所定の組の中の各行動に関するそれぞれのラーナー方策スコアを含む出力を生成するように構成され、前記方法が、
1つまたは複数の経験タプルのシーケンスを取得するステップであって、各経験タプルが、(i)それぞれの時間ステップにおいて前記環境のインスタンスの状態を特徴付ける観測結果、(ii)挙動方策を使用して前記それぞれの時間ステップにおいて前記エージェントによって実行されるために選択された行動、(iii)前記行動が選択されたときに前記挙動方策によって前記選択された行動に割り振られた挙動方策スコア、(iv)前記エージェントが前記選択された行動を実行した後の前記環境のインスタンスの後続の状態を特徴付ける後続の観測結果、および(v)前記エージェントが前記選択された行動を実行した後に受け取られた報酬を含む、ステップと、
状態価値ニューラルネットワークの現在のパラメータ値を調整するステップであって、前記状態価値ニューラルネットワークが、前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記環境の観測結果を含む入力を処理して、前記観測結果に関する状態価値を含む出力を生成するように構成され、前記調整するステップが、
前記状態価値ニューラルネットワークを使用して、前記状態価値ニューラルネットワークの現在のパラメータ値に従って、前記シーケンス内の第1の経験タプルに含まれる前記観測結果に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値を決定すること、
経験タプルの前記シーケンスの各経験タプルに関して、
前記行動選択ニューラルネットワークを使用して、前記行動選択ニューラルネットワークの現在のパラメータ値に従って、前記経験タプルに含まれる前記観測結果に基づいて、前記経験タプルからの前記選択された行動に関するラーナー方策スコアを決定し、
前記選択された行動に関する前記ラーナー方策スコアと前記選択された行動に関する前記挙動方策スコアとの比率に基づいて追跡係数を決定し、
(i)前記経験タプルに関する前記追跡係数、および(ii)前記シーケンスの中で前記経験タプルよりも前にある任意の経験タプルに関する前記追跡係数に基づいて前記経験タプルに関する補正因子を決定し、
少なくとも、(i)前記経験タプルに含まれる前記報酬、(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記観測結果を処理することによって生成された前記経験タプルに含まれる前記観測結果に関する状態価値、および(iii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記後続の観測結果を処理することによって生成された前記経験タプルに含まれる前記後続の観測結果に関する状態価値に基づいて、前記経験タプルに関する状態価値の時間的な違いを決定すること、
少なくとも、(i)前記補正因子、(ii)前記状態価値の時間的な違い、および(iii)前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する前記状態価値に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値目標を決定すること、
前記状態価値ニューラルネットワークのパラメータに関連する状態価値損失関数の勾配を決定することであって、前記状態価値損失関数が、少なくとも前記状態価値目標に基づく、こと、ならびに
前記勾配に基づいて前記状態価値ニューラルネットワークの前記現在のパラメータ値を調整することを含む、ステップと、
少なくとも、(i)前記シーケンスの前記第1の経験タプルからの前記選択された行動に関する前記ラーナー方策スコアと前記挙動方策スコアとの比率、および(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って1つまたは複数の経験タプルに含まれる観測結果を処理することによって前記状態価値ニューラルネットワークにより生成された状態価値に基づいて、前記行動選択ニューラルネットワークの現在のパラメータ値を調整するステップとを含む、
方法。 - 前記経験タプルに関する前記補正因子を決定することが、
第1の切り捨て値で前記経験タプルに関する前記追跡係数を切り捨てることと、
第2の切り捨て値で前記シーケンスの中で前記経験タプルの前にある任意の経験タプルに関する前記追跡係数を切り捨てることとを含む、
請求項1に記載の方法。 - 前記第1の切り捨て値が、前記第2の切り捨て値以上である、
請求項2に記載の方法。 - 前記経験タプルに関する前記補正因子を決定することが、
所定のスケール因子によって前記追跡係数をスケーリングすることを含む、
請求項1から3のいずれか一項に記載の方法。 - 前記経験タプルに関する前記補正因子を決定することが、
(i)前記経験タプルに関する前記追跡係数と、(ii)前記シーケンスの中で前記経験タプルよりも前にある任意の経験タプルに関する前記追跡係数との積を決定することを含む、
請求項1から4のいずれか一項に記載の方法。 - 前記経験タプルに関する状態価値の時間的な違いを決定することが、
(i)前記経験タプルに含まれる前記報酬、(ii)割引因子と前記経験タプルに含まれる前記後続の観測結果に関する前記状態価値との積、および(iii)前記経験タプルに含まれる前記観測結果に関する前記状態価値の負数を足すことを含む、
請求項1から5のいずれか一項に記載の方法。 - 状態価値目標を決定することが、
経験タプルの前記シーケンスの全体に渡る、(i)前記経験タプルに関する前記補正因子と(ii)前記経験タプルに関する前記状態価値の時間的な違いとの積の割引された合計を決定することと、
前記第1の経験タプルに含まれる前記観測結果に関する前記状態価値を前記割引された合計に足すこととを含む、
請求項1から6のいずれか一項に記載の方法。 - 前記状態価値損失関数が、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する前記状態価値目標と前記状態価値との間の2乗損失を含む、
請求項1から7のいずれか一項に記載の方法。 - 前記選択された行動に関する前記ラーナー方策スコアと前記挙動方策スコアとの比率に基づいて前記行動選択ニューラルネットワークの前記現在のパラメータ値を調整するステップが、
所定の値で前記比率を切り捨てることを含む、
請求項1から8のいずれか一項に記載の方法。 - 前記行動選択ニューラルネットワークの前記現在のパラメータ値を調整するステップが、少なくとも、
前記シーケンス内の前記第1の経験タプルに含まれる前記選択された行動に関する前記ラーナー方策スコアの勾配と、
前記シーケンスの中で前記第1の経験タプルの後にあるもっと後の経験タプルに含まれる観測結果に関する状態価値目標であって、前記もっと後の経験タプルに含まれる前記観測結果に関する前記状態価値目標が、少なくとも、(i)前記もっと後の経験タプルおよび後続の経験タプルに関する補正因子、(ii)前記もっと後の経験タプルおよび前記後続の経験タプルに関する状態価値の時間的な違い、ならびに(iii)前記シーケンス内の前記もっと後の経験タプルに含まれる前記観測結果に関する状態価値に基づく、状態価値目標と、
前記シーケンスの1つまたは複数の経験タプルに含まれる報酬とにさらに基づく、
請求項1から9のいずれか一項に記載の方法。 - 行動の前記所定の組の各行動に渡る、(i)前記第1の経験タプルに含まれる前記観測結果に基づく前記行動選択ニューラルネットワークからの前記行動に関するラーナー方策スコアと、(ii)前記第1の経験タプルに含まれる前記観測結果に基づく前記行動選択ニューラルネットワークからの前記行動に関する前記ラーナー方策スコアの対数との積の合計を決定することを含む、エントロピーボーナスを決定するステップと、
少なくとも、前記行動選択ニューラルネットワークのパラメータに関連する前記エントロピーボーナスの勾配にさらに基づいて前記行動選択ニューラルネットワークの前記現在のパラメータ値を調整するステップとをさらに含む、
請求項1から10のいずれか一項に記載の方法。 - 前記挙動方策が、前記行動選択ニューラルネットワークによって定義されるラーナー方策と異なる、
請求項1から11のいずれか一項に記載の方法。 - ラーナー行動選択ニューラルネットワークのパラメータに従ってエージェントが環境とインタラクションすることによって実行される行動を選択するために使用されるラーナー行動選択ニューラルネットワークを訓練するためのシステムであって、
複数のアクターコンピューティングユニットであって、前記アクターコンピューティングユニットの各々が、それぞれのアクター行動選択ニューラルネットワークを保有し、アクターの動作を実行するように構成され、前記動作が、
1つまたは複数の経験タプルの軌跡を生成する動作であって、経験タプルを生成することが、
前記環境のインスタンスの現在の状態を特徴付ける観測結果を受け取り、
前記アクター行動選択ニューラルネットワークを使用して、前記アクター行動選択ニューラルネットワークの現在のパラメータ値に従って、前記観測結果に基づいて、前記エージェントによって実行される選択された行動および前記選択された行動に関する方策スコアを決定し、
(i)前記エージェントが前記選択された行動を実行した後の前記環境のインスタンスの後続の状態を特徴付ける後続の観測結果、および(ii)前記エージェントが前記選択された行動を実行した後に受け取られた報酬を含む遷移データを取得し、
前記観測結果、前記選択された行動、前記選択された行動に関する前記方策スコア、前記後続の観測結果、および前記報酬から経験タプルを生成することを含む、動作と、
経験タプルの前記軌跡をキューに記憶する動作であって、前記キューが、前記アクターコンピューティングユニットの各々によってアクセス可能であり、前記キューが、異なる経験タプルの軌跡の順序付けられたシーケンスを含む、動作とを含む、複数のアクターコンピューティングユニットと、
1つまたは複数のラーナーコンピューティングユニットであって、前記1つまたは複数のラーナーコンピューティングユニットの各々が、
前記キューから経験タプルの軌跡のバッチを取得する動作と、
経験タプルの軌跡の前記バッチを使用して、強化学習技術を使用して前記ラーナー行動選択ニューラルネットワークのパラメータに対する更新を決定する動作とを含む、ラーナーの動作を実行するように構成される、1つまたは複数のラーナーコンピューティングユニットとを含む、
システム。 - 各アクターコンピューティングユニットが、前記アクター行動選択ニューラルネットワークの前記現在のパラメータ値を更新する動作をさらに含むアクターの動作を実行し、前記更新する動作が、
前記ラーナー行動選択ニューラルネットワークの現在のパラメータ値を取得することと、
前記現在のラーナー行動選択ニューラルネットワークのパラメータ値に基づいて前記アクター行動選択ニューラルネットワークの前記現在のパラメータ値を更新することとを含む、
請求項13に記載のシステム。 - 各アクターコンピューティングユニットが、経験タプルの軌跡を生成した後、前記アクター行動選択ニューラルネットワークの前記現在のパラメータ値を更新する前に追加的な経験タプルの軌跡を生成することを控える、
請求項14に記載のシステム。 - 前記ラーナー行動選択ニューラルネットワークが、1つまたは複数の畳み込み層を含み、
経験タプルの軌跡の前記バッチを使用して、前記ラーナー行動選択ニューラルネットワークのパラメータに対する更新を決定する動作が、
前記ラーナー行動選択ニューラルネットワークを使用して前記バッチ内のそれぞれの経験タプルの軌跡の各経験タプルからの各観測結果を処理することを含み、
前記ラーナー行動選択ニューラルネットワークの各畳み込み層に関して、前記観測結果の各々に関する前記畳み込み層への入力が、前記観測結果の各々に関する畳み込み層の出力を生成するために並列的に処理される、
請求項13から15のいずれか一項に記載のシステム。 - 前記ラーナー行動選択ニューラルネットワークが、1つまたは複数の全結合層を含み、
経験タプルの軌跡の前記バッチを使用して、前記ラーナー行動選択ニューラルネットワークのパラメータに対する更新を決定する動作が、
前記ラーナー行動選択ニューラルネットワークを使用して前記バッチ内のそれぞれの経験タプルの軌跡の各経験タプルからの各観測結果を処理することを含み、
前記ラーナー行動選択ニューラルネットワークの各全結合層に関して、前記観測結果の各々に関する前記全結合層への入力が、前記観測結果の各々に関する全結合層の出力を生成するために並列的に処理される、
請求項13から16のいずれか一項に記載のシステム。 - 前記ラーナー行動選択ニューラルネットワークが、1つまたは複数の長期短期記憶層を含み、
経験タプルの軌跡の前記バッチを使用して、前記ラーナー行動選択ニューラルネットワークのパラメータに対する更新を決定する動作が、
前記ラーナー行動選択ニューラルネットワークを使用して前記バッチ内のそれぞれの経験タプルの軌跡の各経験タプルからの各観測結果を処理することを含み、
前記ラーナー行動選択ニューラルネットワークの各長期短期記憶層に関して、前記観測結果の各々に関する前記長期短期記憶層への入力が、前記観測結果の各々に関する長期短期記憶層の出力を生成するために並列的に処理される、
請求項13から17のいずれか一項に記載のシステム。 - 前記強化学習技術が、請求項1から12のいずれか一項に記載の方法を含む、
請求項13から18のいずれか一項に記載のシステム。 - 各経験タプルが、(i)それぞれの時間ステップにおいて前記環境のインスタンスの状態を特徴付ける観測結果、(ii)挙動方策を使用して前記それぞれの時間ステップにおいて前記エージェントによって実行されるために選択された行動、(iii)前記行動が選択されたときに前記挙動方策によって前記選択された行動に割り振られた挙動方策スコア、(iv)前記エージェントが前記選択された行動を実行した後の前記環境のインスタンスの後続の状態を特徴付ける後続の観測結果、および(v)前記エージェントが前記選択された行動を実行した後に受け取られた報酬を含み、
前記1つまたは複数のラーナーコンピューティングユニットの各々が、
状態価値ニューラルネットワークの現在のパラメータ値を調整する動作であって、前記状態価値ニューラルネットワークが、前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記環境の観測結果を含む入力を処理して、前記観測結果に関する状態価値を含む出力を生成するように構成され、前記調整する動作が、
前記状態価値ニューラルネットワークを使用して、前記状態価値ニューラルネットワークの現在のパラメータ値に従って、シーケンス内の第1の経験タプルに含まれる前記観測結果に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値を決定すること、
経験タプルの前記バッチの各経験タプルに関して、
前記ラーナー行動選択ニューラルネットワークを使用して、前記ラーナー行動選択ニューラルネットワークの現在のパラメータ値に従って、前記経験タプルに含まれる前記観測結果に基づいて、前記経験タプルからの前記選択された行動に関するラーナー方策スコアを決定し、
前記選択された行動に関する前記ラーナー方策スコアと前記選択された行動に関する前記挙動方策スコアとの比率に基づいて追跡係数を決定し、
(i)前記経験タプルに関する前記追跡係数、および(ii)前記シーケンスの中で前記経験タプルよりも前にある任意の経験タプルに関する前記追跡係数に基づいて前記経験タプルに関する補正因子を決定し、
少なくとも、(i)前記経験タプルに含まれる前記報酬、(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記観測結果を処理することによって生成された前記経験タプルに含まれる前記観測結果に関する状態価値、および(iii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記後続の観測結果を処理することによって生成された前記経験タプルに含まれる前記後続の観測結果に関する状態価値に基づいて、前記経験タプルに関する状態価値の時間的な違いを決定すること、
少なくとも、(i)前記補正因子、(ii)前記状態価値の時間的な違い、および(iii)前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する前記状態価値に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値目標を決定すること、
前記状態価値ニューラルネットワークのパラメータに関連する状態価値損失関数の勾配を決定することであって、前記状態価値損失関数が、少なくとも前記状態価値目標に基づく、こと、ならびに
前記勾配に基づいて前記状態価値ニューラルネットワークの前記現在のパラメータ値を調整することを含む、動作と、
少なくとも、(i)前記シーケンスの前記第1の経験タプルからの前記選択された行動に関する前記ラーナー方策スコアと前記挙動方策スコアとの比率、および(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って1つまたは複数の経験タプルに含まれる観測結果を処理することによって前記状態価値ニューラルネットワークにより生成された状態価値に基づいて前記ラーナー行動選択ニューラルネットワークの現在のパラメータ値を調整することによって、前記ラーナー行動選択ニューラルネットワークのパラメータに対する前記更新を決定する動作とを含む、ラーナーの動作を実行するように構成される、
請求項13から19のいずれか一項に記載のシステム。 - 1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から12のいずれか一項に記載の方法のそれぞれの動作を実行させる命令を記憶する、
コンピュータ可読記憶媒体。 - 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から12のいずれか一項に記載の方法のそれぞれの動作を実行させる命令を記憶する1つまたは複数のストレージデバイスとを含む、
システム。 - エージェントが環境とインタラクションすることによって実行される行動を選択するために使用されるラーナー行動選択ニューラルネットワークを訓練するための請求項22に記載のシステムであって、前記システムが、
複数のアクターコンピューティングユニットであって、前記アクターコンピューティングユニットの各々が、それぞれのアクター行動選択ニューラルネットワークを保有し、アクターの動作を実行するように構成され、前記動作が、
1つまたは複数の経験タプルの軌跡を生成する動作であって、経験タプルを生成することが、
前記環境のインスタンスの現在の状態を特徴付ける観測結果を受け取り、
前記アクター行動選択ニューラルネットワークを使用して、前記アクター行動選択ニューラルネットワークの現在のパラメータ値に従って、前記観測結果に基づいて、前記エージェントによって実行される選択された行動および前記選択された行動に関する方策スコアを決定し、
(i)前記エージェントが前記選択された行動を実行した後の前記環境のインスタンスの後続の状態を特徴付ける後続の観測結果、および(ii)前記エージェントが前記選択された行動を実行した後に受け取られた報酬を含む遷移データを取得し、
前記観測結果、前記選択された行動、前記選択された行動に関する前記方策スコア、前記後続の観測結果、および前記報酬から経験タプルを生成することを含む、動作、
経験タプルの前記軌跡をキューに記憶する動作であって、前記キューが、前記アクターコンピューティングユニットの各々によってアクセス可能であり、前記キューが、異なる経験タプルの軌跡の順序付けられたシーケンスを含む、動作とを含む、複数のアクターコンピューティングユニットと、
1つまたは複数のラーナーコンピューティングユニットであって、前記1つまたは複数のラーナーコンピューティングユニットの各々が、ラーナーの動作を実行するように構成され、前記動作が、
前記キューから経験タプルの軌跡のバッチを取得する動作であって、各経験タプルが、(i)それぞれの時間ステップにおいて前記環境のインスタンスの状態を特徴付ける観測結果、(ii)挙動方策を使用して前記それぞれの時間ステップにおいて前記エージェントによって実行されるために選択された行動、(iii)前記行動が選択されたときに前記挙動方策によって前記選択された行動に割り振られた挙動方策スコア、(iv)前記エージェントが前記選択された行動を実行した後の前記環境のインスタンスの後続の状態を特徴付ける後続の観測結果、および(v)前記エージェントが前記選択された行動を実行した後に受け取られた報酬を含む、動作、ならびに
経験タプルの軌跡の前記バッチを使用して、
状態価値ニューラルネットワークの現在のパラメータ値を調整することであって、前記状態価値ニューラルネットワークが、前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記環境の観測結果を含む入力を処理して、前記観測結果に関する状態価値を含む出力を生成するように構成され、前記調整することが、
前記状態価値ニューラルネットワークを使用して、前記状態価値ニューラルネットワークの現在のパラメータ値に従って、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値を決定すること、
経験タプルの前記バッチの各経験タプルに関して、
前記ラーナー行動選択ニューラルネットワークを使用して、前記ラーナー行動選択ニューラルネットワークの現在のパラメータ値に従って、前記経験タプルに含まれる前記観測結果に基づいて、前記経験タプルからの前記選択された行動に関するラーナー方策スコアを決定し、
前記選択された行動に関する前記ラーナー方策スコアと前記選択された行動に関する前記挙動方策スコアとの比率に基づいて追跡係数を決定し、
(i)前記経験タプルに関する前記追跡係数、および(ii)前記シーケンスの中で前記経験タプルよりも前にある任意の経験タプルに関する前記追跡係数に基づいて前記経験タプルに関する補正因子を決定し、
少なくとも、(i)前記経験タプルに含まれる前記報酬、(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記観測結果を処理することによって生成された前記経験タプルに含まれる前記観測結果に関する状態価値、および(iii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って前記経験タプルに含まれる前記後続の観測結果を処理することによって生成された前記経験タプルに含まれる前記後続の観測結果に関する状態価値に基づいて、前記経験タプルに関する状態価値の時間的な違いを決定すること、
少なくとも、(i)前記補正因子、(ii)前記状態価値の時間的な違い、および(iii)前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する前記状態価値に基づいて、前記シーケンス内の前記第1の経験タプルに含まれる前記観測結果に関する状態価値目標を決定すること、
前記状態価値ニューラルネットワークのパラメータに関連する状態価値損失関数の勾配を決定することであって、前記状態価値損失関数が、少なくとも前記状態価値目標に基づく、こと、および
前記勾配に基づいて前記状態価値ニューラルネットワークの前記現在のパラメータ値を調整することを含む、こと、ならびに
少なくとも、(i)前記シーケンスの前記第1の経験タプルからの前記選択された行動に関する前記ラーナー方策スコアと前記挙動方策スコアとの比率、および(ii)前記状態価値ニューラルネットワークの現在のパラメータ値に従って1つまたは複数の経験タプルに含まれる観測結果を処理することによって前記状態価値ニューラルネットワークにより生成された状態価値に基づいて、前記ラーナー行動選択ニューラルネットワークの現在のパラメータ値を調整すること、
によって強化学習技術を使用して前記ラーナー行動選択ニューラルネットワークのパラメータに対する更新を決定する動作を含む、1つまたは複数のラーナーコンピューティングユニットとを含む、
システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862626643P | 2018-02-05 | 2018-02-05 | |
US62/626,643 | 2018-02-05 | ||
PCT/EP2019/052692 WO2019149949A1 (en) | 2018-02-05 | 2019-02-05 | Distributed training using off-policy actor-critic reinforcement learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021513128A JP2021513128A (ja) | 2021-05-20 |
JP6955105B2 true JP6955105B2 (ja) | 2021-10-27 |
Family
ID=65324355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020529199A Active JP6955105B2 (ja) | 2018-02-05 | 2019-02-05 | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 |
Country Status (5)
Country | Link |
---|---|
US (3) | US11593646B2 (ja) |
EP (1) | EP3698291A1 (ja) |
JP (1) | JP6955105B2 (ja) |
CN (2) | CN111417964B (ja) |
WO (1) | WO2019149949A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111417964B (zh) | 2018-02-05 | 2024-04-19 | 渊慧科技有限公司 | 异策略行动者-评价者强化学习方法和系统 |
JP2021041820A (ja) * | 2019-09-11 | 2021-03-18 | 株式会社アドテックス | 無人飛翔体及びそのためのコンピュータプログラム |
US20220343164A1 (en) * | 2019-09-25 | 2022-10-27 | Google Llc | Reinforcement learning with centralized inference and training |
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
US11900244B1 (en) * | 2019-09-30 | 2024-02-13 | Amazon Technologies, Inc. | Attention-based deep reinforcement learning for autonomous agents |
US20210158162A1 (en) * | 2019-11-27 | 2021-05-27 | Google Llc | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space |
DE102019132451A1 (de) * | 2019-11-29 | 2021-06-02 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und Vorrichtung zum Anlernen eines Reglers mit variablem Regelziel |
CN111753543B (zh) * | 2020-06-24 | 2024-03-12 | 北京百度网讯科技有限公司 | 药物推荐方法、装置、电子设备及存储介质 |
JPWO2022004601A1 (ja) * | 2020-07-03 | 2022-01-06 | ||
DE102020209685B4 (de) * | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
JP7541191B2 (ja) | 2020-11-13 | 2024-08-27 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | 機械学習モデル及び装置 |
CN112779720B (zh) * | 2020-12-18 | 2022-05-31 | 珠海格力电器股份有限公司 | 洗衣机的控制方法、装置、洗衣机、存储介质及处理器 |
CN114679355A (zh) * | 2020-12-24 | 2022-06-28 | 华为技术有限公司 | 通信方法和装置 |
US20220277213A1 (en) * | 2021-03-01 | 2022-09-01 | The Toronto-Dominion Bank | Horizon-aware cumulative accessibility estimation |
US20240185577A1 (en) | 2021-04-01 | 2024-06-06 | Bayer Aktiengesellschaft | Reinforced attention |
CN113033806B (zh) * | 2021-04-12 | 2023-07-18 | 鹏城实验室 | 用于分布式计算集群调度的深度强化学习模型训练方法、装置及调度方法 |
CN113543342B (zh) * | 2021-07-05 | 2024-03-29 | 南京信息工程大学滨江学院 | 基于noma-mec强化学习资源分配与任务卸载方法 |
CN114741886B (zh) * | 2022-04-18 | 2022-11-22 | 中国人民解放军军事科学院战略评估咨询中心 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
CN114861826B (zh) * | 2022-05-31 | 2024-11-05 | 中国科学技术大学 | 基于分布式设计的大规模强化学习训练框架系统 |
WO2024050712A1 (en) * | 2022-09-07 | 2024-03-14 | Robert Bosch Gmbh | Method and apparatus for guided offline reinforcement learning |
US20240104379A1 (en) * | 2022-09-28 | 2024-03-28 | Deepmind Technologies Limited | Agent control through in-context reinforcement learning |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521203A (zh) * | 2011-11-18 | 2012-06-27 | 东南大学 | 基于因果图的分层强化学习任务图进化方法 |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US10445641B2 (en) * | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
DK3079106T3 (da) * | 2015-04-06 | 2022-08-01 | Deepmind Tech Ltd | UDVÆLGELSE AF FORSTÆRKNINGSLÆRINGSHANDLINGER VED HJÆLP AF MÅL og OBSERVATIONER |
WO2017019555A1 (en) * | 2015-07-24 | 2017-02-02 | Google Inc. | Continuous control with deep reinforcement learning |
EP3295384B1 (en) * | 2015-09-11 | 2020-12-23 | DeepMind Technologies Limited | Training reinforcement learning neural networks |
EP3360085B1 (en) | 2015-11-12 | 2021-05-19 | Deepmind Technologies Limited | Asynchronous deep reinforcement learning |
JP2019518273A (ja) * | 2016-04-27 | 2019-06-27 | ニューララ インコーポレイテッド | 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置 |
CN107102644B (zh) * | 2017-06-22 | 2019-12-10 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
US11341364B2 (en) * | 2017-09-20 | 2022-05-24 | Google Llc | Using simulation and domain adaptation for robotic control |
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
US11604941B1 (en) * | 2017-10-27 | 2023-03-14 | Deepmind Technologies Limited | Training action-selection neural networks from demonstrations using multiple losses |
US10956991B2 (en) * | 2017-12-29 | 2021-03-23 | Facebook, Inc. | Systems and methods for enhancing interactions in a computer networking environment |
CN111417964B (zh) * | 2018-02-05 | 2024-04-19 | 渊慧科技有限公司 | 异策略行动者-评价者强化学习方法和系统 |
US11132211B1 (en) * | 2018-09-24 | 2021-09-28 | Apple Inc. | Neural finite state machines |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
WO2020196066A1 (ja) * | 2019-03-28 | 2020-10-01 | 国立大学法人京都大学 | ニューラルネットワークの学習方法、ニューラルネットワークの生成方法、学習済装置、携帯端末装置、学習処理装置及びコンピュータプログラム |
US20210158162A1 (en) * | 2019-11-27 | 2021-05-27 | Google Llc | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space |
SG11202103113XA (en) * | 2020-04-02 | 2021-04-29 | Alipay Hangzhou Inf Tech Co Ltd | Determining action selection policies of an execution device |
KR20220154785A (ko) * | 2020-06-05 | 2022-11-22 | 딥마인드 테크놀로지스 리미티드 | 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션 |
US20230102544A1 (en) * | 2021-09-28 | 2023-03-30 | Google Llc | Contrastive behavioral similarity embeddings for generalization in reinforcement learning |
US20230107460A1 (en) * | 2021-10-05 | 2023-04-06 | Deepmind Technologies Limited | Compositional generalization for reinforcement learning |
-
2019
- 2019-02-05 CN CN201980006072.8A patent/CN111417964B/zh active Active
- 2019-02-05 WO PCT/EP2019/052692 patent/WO2019149949A1/en unknown
- 2019-02-05 EP EP19703679.1A patent/EP3698291A1/en active Pending
- 2019-02-05 CN CN202410384665.0A patent/CN118211640A/zh active Pending
- 2019-02-05 JP JP2020529199A patent/JP6955105B2/ja active Active
- 2019-02-05 US US16/767,049 patent/US11593646B2/en active Active
-
2023
- 2023-01-04 US US18/149,771 patent/US11868894B2/en active Active
- 2023-10-16 US US18/487,428 patent/US20240127060A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11593646B2 (en) | 2023-02-28 |
WO2019149949A1 (en) | 2019-08-08 |
US20230153617A1 (en) | 2023-05-18 |
EP3698291A1 (en) | 2020-08-26 |
CN111417964A (zh) | 2020-07-14 |
US11868894B2 (en) | 2024-01-09 |
US20240127060A1 (en) | 2024-04-18 |
CN118211640A (zh) | 2024-06-18 |
CN111417964B (zh) | 2024-04-19 |
JP2021513128A (ja) | 2021-05-20 |
US20210034970A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6955105B2 (ja) | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 | |
JP7258965B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
US20240062035A1 (en) | Data-efficient reinforcement learning for continuous control tasks | |
US12067491B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
US20240160901A1 (en) | Controlling agents using amortized q learning | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN111316295A (zh) | 使用分布式优先化回放的强化学习 | |
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
CN113168566A (zh) | 通过使用熵约束来控制机器人 | |
US20220343164A1 (en) | Reinforcement learning with centralized inference and training | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
JP2023535266A (ja) | 相対エントロピーq学習を使ったアクション選択システムのトレーニング | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment | |
CN112119404A (zh) | 样本高效的强化学习 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6955105 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |