JP7160957B2 - モデルフリー強化学習のためのスタック型畳み込み長/短期メモリ - Google Patents
モデルフリー強化学習のためのスタック型畳み込み長/短期メモリ Download PDFInfo
- Publication number
- JP7160957B2 JP7160957B2 JP2020570774A JP2020570774A JP7160957B2 JP 7160957 B2 JP7160957 B2 JP 7160957B2 JP 2020570774 A JP2020570774 A JP 2020570774A JP 2020570774 A JP2020570774 A JP 2020570774A JP 7160957 B2 JP7160957 B2 JP 7160957B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- layer
- time step
- convolutional
- tick
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006403 short-term memory Effects 0.000 title claims description 9
- 230000002787 reinforcement Effects 0.000 title description 21
- 238000013528 artificial neural network Methods 0.000 claims description 200
- 230000009471 action Effects 0.000 claims description 163
- 238000000034 method Methods 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 43
- 241000238876 Acari Species 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 15
- 239000003795 chemical substances by application Substances 0.000 description 85
- 238000012549 training Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000282813 Aepyceros melampus Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 239000000543 intermediate Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000012707 chemical precursor Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000009334 Singa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000011885 synergistic combination Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
Description
102 エージェント
110 制御ニューラルネットワークシステム、制御ニューラルネットワーク
112 エンコーダニューラルネットワーク
114 畳み込み長/短期メモリ(convLSTM)ニューラルネットワーク
116 アクション選択ニューラルネットワーク
150 トレーニングエンジン
Claims (39)
- 環境とインタラクションを行うエージェントを制御するためのシステムであって、1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されると前記1つまたは複数のコンピュータに制御ニューラルネットワークシステムを実施させる命令を記憶する1つまたは複数の記憶デバイスとを備え、前記制御ニューラルネットワークシステムは、
スタック中に順次配置された複数の畳み込みLSTMニューラルネットワーク層を備える畳み込み長/短期メモリ(LSTM)ニューラルネットワークであって、
前記畳み込みLSTMニューラルネットワークは、複数の時間ステップの各々において、前記時間ステップにおける前記環境の状態を特徴づける観測データの表現を受信することと、(i)前記表現および(ii)前記時間ステップの時点での前記畳み込みLSTMニューラルネットワークの状態を処理して、(iii)前記時間ステップに対する最終LSTM隠れ状態出力を生成することと、(iv)前記時間ステップについて前記畳み込みLSTMニューラルネットワークの前記状態を更新することと
をするように構成される、畳み込み長/短期メモリ(LSTM)ニューラルネットワークと、
前記複数の時間ステップの各々において、前記時間ステップに対する前記最終LSTM隠れ状態出力を含むアクション選択入力を受信することと、前記アクション選択入力を処理して、前記時間ステップにおいて前記エージェントによって実施されるべきアクションを選択するのに使用されるアクション選択出力を生成することとを行うように構成されるアクション選択ニューラルネットワークと
を備える、システム。 - 前記時間ステップの時点での前記状態は、前記スタック中の各畳み込みLSTM層についてのそれぞれのセル状態およびそれぞれの隠れ状態を含み、前記時間ステップに対する前記最終LSTM隠れ状態出力は、前記時間ステップに対する前記更新された状態での、前記スタック中の最後の畳み込みLSTM層の前記隠れ状態である、請求項1に記載のシステム。
- 前記畳み込みLSTMニューラルネットワークは、各時間ステップに対するN個のティックに対して処理を行うように構成され、Nは1よりも大きく、前記処理は、前記N個のティックの各々に対して、
(i)前記表現および(ii)前記ティックの時点での前記畳み込みLSTMニューラルネットワークの状態を処理して、前記ティックについて前記畳み込みLSTMニューラルネットワークの前記状態を更新することを含む、請求項2に記載のシステム。 - 前記時間ステップに対する前記最終LSTM隠れ状態出力は、前記時間ステップに対するN個目のティックの後の、前記スタック中の最後の畳み込みLSTM層の前記隠れ状態であり、前記時間ステップに対する、前記畳み込みLSTMニューラルネットワークの前記更新された状態は、前記時間ステップに対するN個目のティックの後の、前記畳み込みLSTMニューラルネットワークの前記更新された状態である、請求項3に記載のシステム。
- 前記時間ステップに対する前記N個のティックのうちの最初のティックの時点での、前記畳み込みLSTMニューラルネットワークの前記状態は、先行する時間ステップに対する、前記畳み込みLSTMニューラルネットワークの前記更新された状態である、請求項3または4のいずれか一項に記載のシステム。
- 前記スタック中の各畳み込みLSTMニューラルネットワーク層は、前記N個のティックの各々において、
前記ティックに対する層入力を処理して、前記ティックの時点での前記畳み込みLSTMニューラルネットワーク層の前記セル状態および前記隠れ状態を更新するように構成される、請求項5に記載のシステム。 - 前記スタック中の最初の層以外の特定の畳み込みLSTMニューラルネットワーク層の各々に対する前記ティックに対する前記層入力は、前記スタック中の前記特定の層の直前の層の前記ティックについての前記更新された隠れ状態を含む、請求項6に記載のシステム。
- 前記スタック中の各層に対する前記ティックに対する前記層入力は、前記時間ステップについての前記表現を含む、請求項6または7のいずれか一項に記載のシステム。
- 前記N個のティックのうちの最初のティック以外の各ティックに対して、前記スタック中の最初の層に対する前記ティックに対する前記層入力は、先行するティックに対する、前記スタック中の最後の層の前記更新された隠れ状態を含む、請求項6から8のいずれか一項に記載のシステム。
- 前記N個のティックのうちの最初のティックに対して、前記スタック中の最初の層に対する前記ティックに対する前記層入力は、前記先行する時間ステップに対する、前記スタック中の最後の層の前記更新された隠れ状態を含む、請求項9に記載のシステム。
- 前記畳み込みLSTMニューラルネットワークは、各ティックに対して、および各畳み込みLSTM層に対して、
前記時間ステップに対する前記畳み込みLSTM層の前記更新された隠れ状態の各チャネル次元に対して、
1つまたは複数のプーリング動作を空間的に適用して、前記チャネル次元に対する1つまたは複数のプールされた出力を生成することと、
前記畳み込みLSTM層に対応する線形層を使って、前記プールされた出力を投影して、投影された出力を生成することと、
前記投影された出力を空間にタイリングして、サマリテンソルを生成することと
をするようにさらに構成され、
前記ティックに対する前記スタック中の各畳み込みLSTM層に対する前記層入力は、前記先行するティックに対する前記畳み込みLSTM層についての前記サマリテンソル、または、前記ティックが、前記時間ステップに対する最初のティックである場合、前記先行する時間ステップに対するN個目のティックに対する、前記畳み込みLSTM層についての前記サマリテンソルを含む、請求項6から10のいずれか一項に記載のシステム。 - 前記1つまたは複数のプーリング動作は、最大プーリング動作、平均プーリング動作、または両方を含む、請求項11に記載のシステム。
- 前記畳み込みLSTMニューラルネットワークは、畳み込み演算子への入力テンソルの境界を指定する特徴マップを、前記スタック中の前記畳み込みLSTM層に対する畳み込み演算子の入力に付加するように構成される、請求項1から12のいずれか一項に記載のシステム。
- 前記アクション選択入力は、前記時間ステップについての前記表現をさらに含む、請求項1から13のいずれか一項に記載のシステム。
- 前記制御ニューラルネットワークシステムは、
前記複数の時間ステップの各々において、前記時間ステップにおける前記環境の前記状態を特徴づける前記観測データを処理して、前記時間ステップに対する前記観測データの前記表現を生成するように構成されたエンコーダニューラルネットワークをさらに備える、請求項1から14のいずれか一項に記載のシステム。 - 前記観測データは前記環境の画像を含み、前記エンコーダニューラルネットワークは1つまたは複数の畳み込み層を備える、請求項15に記載のシステム。
- 前記アクション選択ニューラルネットワークは1つまたは複数の全結合層を備える、請求項1から16のいずれか一項に記載のシステム。
- 前記表現はH×W×Cテンソルであり、前記畳み込みLSTMニューラルネットワークの前記状態および前記最終LSTM隠れ状態出力は前記表現の空間次元を保つ、請求項1から17のいずれか一項に記載のシステム。
- 1つまたは複数のコンピュータによって実行されると前記1つまたは複数のコンピュータに請求項1から18のいずれか一項に記載の制御ニューラルネットワークシステムを実施させる命令を記憶する、1つまたは複数のコンピュータ可読記憶媒体。
- 環境とインタラクションを行うエージェントを制御するための方法であって、複数の時間ステップの各々において、
前記時間ステップにおける前記環境の状態を特徴づける観測データの表現を取得するステップと、
スタック中に順次配置された複数の畳み込みLSTMニューラルネットワーク層を備える畳み込み長/短期メモリ(LSTM)ニューラルネットワークを使って、前記表現を処理するステップであって、
前記畳み込みLSTMニューラルネットワークは、前記時間ステップにおける前記環境の前記状態を特徴づける前記観測データの前記表現を受信することと、(i)前記表現および(ii)前記時間ステップの時点での前記畳み込みLSTMニューラルネットワークの状態を処理して、(iii)前記時間ステップに対する最終LSTM隠れ状態出力を生成することと、(iv)前記時間ステップについて前記畳み込みLSTMニューラルネットワークの前記状態を更新することと
をするように構成される、ステップと、
アクション選択入力を受信することと、前記アクション選択入力を処理して、前記時間ステップにおいて前記エージェントによって実施されるべきアクションを選択するのに使用されるアクション選択出力を生成することとを行うように構成されるアクション選択ニューラルネットワークを使って、前記時間ステップに対する前記最終LSTM隠れ状態出力を含む前記アクション選択入力を処理するステップと、
前 記アクション選択出力から、前記時間ステップにおいて前記エージェントによって実施されるべき前記アクションを選択するステップと、
前記エージェントに、前記選択されたアクションを実施させるステップと
を含む、方法。 - 前記時間ステップの時点での前記状態は、前記スタック中の各畳み込みLSTM層についてのそれぞれのセル状態およびそれぞれの隠れ状態を含み、前記時間ステップに対する前記最終LSTM隠れ状態出力は、前記時間ステップに対する前記更新された状態での、前記スタック中の最後の畳み込みLSTM層の前記隠れ状態である、請求項20に記載の方法。
- 前記畳み込みLSTMニューラルネットワークは、各時間ステップに対するN個のティックに対して処理を行うように構成され、Nは1よりも大きく、前記処理は、前記N個のティックの各々に対して、
(i)前記表現および(ii)前記ティックの時点での前記畳み込みLSTMニューラルネットワークの状態を処理して、前記ティックについて前記畳み込みLSTMニューラルネットワークの前記状態を更新することを含む、請求項21に記載の方法。 - 前記時間ステップに対する前記最終LSTM隠れ状態出力は、前記時間ステップに対するN個目のティックの後の、前記スタック中の最後の畳み込みLSTM層の前記隠れ状態であり、前記時間ステップに対する、前記畳み込みLSTMニューラルネットワークの前記更新された状態は、前記時間ステップに対するN個目のティックの後の、前記畳み込みLSTMニューラルネットワークの前記更新された状態である、請求項22に記載の方法。
- 前記時間ステップに対する前記N個のティックのうちの最初のティックの時点での、前記畳み込みLSTMニューラルネットワークの前記状態は、先行する時間ステップに対する、前記畳み込みLSTMニューラルネットワークの前記更新された状態である、請求項22または23のいずれか一項に記載の方法。
- 前記スタック中の各畳み込みLSTMニューラルネットワーク層は、前記N個のティックの各々において、
前記ティックに対する層入力を処理して、前記ティックの時点での前記畳み込みLSTMニューラルネットワーク層の前記セル状態および前記隠れ状態を更新するように構成される、請求項22から24のいずれか一項に記載の方法。 - 前記スタック中の最初の層以外の特定の畳み込みLSTMニューラルネットワーク層の各々に対する前記ティックに対する前記層入力は、前記スタック中の前記特定の層の直前の層の前記ティックについての前記更新された隠れ状態を含む、請求項25に記載の方法。
- 前記スタック中の各層に対する前記ティックに対する前記層入力は、前記時間ステップについての前記表現を含む、請求項25または26のいずれか一項に記載の方法。
- 前記N個のティックのうちの最初のティック以外の各ティックに対して、前記スタック中の最初の層に対する前記ティックに対する前記層入力は、先行するティックに対する、前記スタック中の最後の層の前記更新された隠れ状態を含む、請求項25から27のいずれか一項に記載の方法。
- 前記N個のティックのうちの最初のティックに対して、前記スタック中の最初の層に対する前記ティックに対する前記層入力は、前記先行する時間ステップに対する、前記スタック中の最後の層の前記更新された隠れ状態を含む、請求項28に記載の方法。
- 前記畳み込みLSTMニューラルネットワークは、各ティックに対して、および各畳み込みLSTM層に対して、
前記時間ステップに対する前記畳み込みLSTM層の前記更新された隠れ状態の各チャネル次元に対して、
1つまたは複数のプーリング動作を空間的に適用して、前記チャネル次元に対する1つまたは複数のプールされた出力を生成することと、
前記畳み込みLSTM層に対応する線形層を使って、前記プールされた出力を投影して、投影された出力を生成することと、
前記投影された出力を空間にタイリングして、サマリテンソルを生成することと
をするようにさらに構成され、
前記ティックに対する前記スタック中の各畳み込みLSTM層に対する前記層入力は、先行するティックに対する前記畳み込みLSTM層についての前記サマリテンソル、または、前記ティックが、前記時間ステップに対する最初のティックである場合、前記先行する時間ステップに対するN個目のティックに対する、前記畳み込みLSTM層についての前記サマリテンソルを含む、請求項25から29のいずれか一項に記載の方法。 - 前記1つまたは複数のプーリング動作は、最大プーリング動作、平均プーリング動作、または両方を含む、請求項30に記載の方法。
- 前記畳み込みLSTMニューラルネットワークは、畳み込み演算子への入力テンソルの境界を指定する特徴マップを、前記スタック中の前記畳み込みLSTM層に対する畳み込み演算子の入力に付加するように構成される、請求項20から31のいずれか一項に記載の方法。
- 前記アクション選択入力は、前記時間ステップについての前記表現をさらに含む、請求項20から32のいずれか一項に記載の方法。
- 前記表現を取得するステップは、
前記時間ステップにおける前記環境の前記状態を特徴づける前記観測データを処理して、前記時間ステップに対する前記観測データの前記表現を生成するように構成されたエンコーダニューラルネットワークを使って、前記観測データを処理するステップを含む、請求項20から33のいずれか一項に記載の方法。 - 前記観測データは前記環境の画像を含み、前記エンコーダニューラルネットワークは1つまたは複数の畳み込み層を備える、請求項34に記載の方法。
- 前記アクション選択ニューラルネットワークは1つまたは複数の全結合層を備える、請求項20から35のいずれか一項に記載の方法。
- 前記表現はH×W×Cテンソルであり、前記畳み込みLSTMニューラルネットワークの前記状態および前記最終LSTM隠れ状態出力は前記表現の空間次元を保つ、請求項20から36のいずれか一項に記載の方法。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項20から37のいずれか一項に記載の方法を実施させる命令を記憶する、1つまたは複数のコンピュータ可読記憶媒体。
- 1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項20から37のいずれか一項に記載の方法を実施させる命令を記憶する1つまたは複数の記憶デバイスとを備える、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862737821P | 2018-09-27 | 2018-09-27 | |
US62/737,821 | 2018-09-27 | ||
PCT/EP2019/076213 WO2020065024A1 (en) | 2018-09-27 | 2019-09-27 | Stacked convolutional long short-term memory for model-free reinforcement learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021530025A JP2021530025A (ja) | 2021-11-04 |
JP7160957B2 true JP7160957B2 (ja) | 2022-10-25 |
Family
ID=68136369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020570774A Active JP7160957B2 (ja) | 2018-09-27 | 2019-09-27 | モデルフリー強化学習のためのスタック型畳み込み長/短期メモリ |
Country Status (6)
Country | Link |
---|---|
US (1) | US10860927B2 (ja) |
EP (1) | EP3788549B1 (ja) |
JP (1) | JP7160957B2 (ja) |
KR (1) | KR20210011422A (ja) |
CN (1) | CN112313672B (ja) |
WO (1) | WO2020065024A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
CA3103470A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
US11645518B2 (en) * | 2019-10-07 | 2023-05-09 | Waymo Llc | Multi-agent simulations |
CN111582439B (zh) * | 2020-04-14 | 2021-08-10 | 清华大学 | 状态部分可观测强化学习算法的高效采样更新方法及装置 |
SE544261C2 (en) | 2020-06-16 | 2022-03-15 | IntuiCell AB | A computer-implemented or hardware-implemented method of entity identification, a computer program product and an apparatus for entity identification |
CN112379601A (zh) * | 2020-12-01 | 2021-02-19 | 华东理工大学 | 基于工业过程的mfa控制系统设计方法 |
US20220188625A1 (en) * | 2020-12-11 | 2022-06-16 | Poyen Hsieh | Method and computer implemented system for generating layout plan using neural network |
CN112652296B (zh) * | 2020-12-23 | 2023-07-04 | 北京华宇信息技术有限公司 | 流式语音端点检测方法、装置及设备 |
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN113156958B (zh) * | 2021-04-27 | 2024-05-31 | 东莞理工学院 | 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 |
WO2023167623A1 (en) * | 2022-03-02 | 2023-09-07 | IntuiCell AB | A method of providing a representation of temporal dynamics of a first system, middleware systems, a controller system, computer program products and non-transitory computer-readable storage media |
CN118567237A (zh) * | 2024-07-29 | 2024-08-30 | 中国电建集团贵阳勘测设计研究院有限公司 | 一种絮凝设备选型及控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018071392A1 (en) | 2016-10-10 | 2018-04-19 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
WO2018083671A1 (en) | 2016-11-04 | 2018-05-11 | Deepmind Technologies Limited | Reinforcement learning with auxiliary tasks |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130054021A1 (en) * | 2011-08-26 | 2013-02-28 | Disney Enterprises, Inc. | Robotic controller that realizes human-like responses to unexpected disturbances |
CN106056213B (zh) * | 2015-04-06 | 2022-03-29 | 渊慧科技有限公司 | 使用目标和观察来选择强化学习动作 |
CN116468815A (zh) * | 2016-01-25 | 2023-07-21 | 渊慧科技有限公司 | 使用神经网络生成图像 |
KR102168003B1 (ko) | 2016-05-20 | 2020-10-20 | 구글 엘엘씨 | 오브젝트(들)를 캡처하는 이미지(들)에 기초하는 그리고 환경에서의 미래 로봇 움직임에 대한 파라미터(들)에 기초하여 로봇 환경에서의 오브젝트(들)의 모션(들)을 예측하는 것과 관련된 머신 학습 방법들 및 장치 |
US10839284B2 (en) * | 2016-11-03 | 2020-11-17 | Salesforce.Com, Inc. | Joint many-task neural network model for multiple natural language processing (NLP) tasks |
WO2018148574A1 (en) * | 2017-02-09 | 2018-08-16 | Google Llc | Agent navigation using visual inputs |
WO2018153807A1 (en) * | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Action selection for reinforcement learning using neural networks |
US20190325294A1 (en) * | 2018-04-18 | 2019-10-24 | Qualcomm Incorporated | Recurrent neural network model compaction |
-
2019
- 2019-09-27 EP EP19782532.6A patent/EP3788549B1/en active Active
- 2019-09-27 WO PCT/EP2019/076213 patent/WO2020065024A1/en unknown
- 2019-09-27 JP JP2020570774A patent/JP7160957B2/ja active Active
- 2019-09-27 CN CN201980040637.4A patent/CN112313672B/zh active Active
- 2019-09-27 US US16/586,360 patent/US10860927B2/en active Active
- 2019-09-27 KR KR1020207036632A patent/KR20210011422A/ko not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018071392A1 (en) | 2016-10-10 | 2018-04-19 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
JP2019530105A (ja) | 2016-10-10 | 2019-10-17 | ディープマインド テクノロジーズ リミテッド | ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク |
WO2018083671A1 (en) | 2016-11-04 | 2018-05-11 | Deepmind Technologies Limited | Reinforcement learning with auxiliary tasks |
JP2019534517A (ja) | 2016-11-04 | 2019-11-28 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
Non-Patent Citations (6)
Title |
---|
「グーグルDeepMindが移動ロボの技術に進出 ディープラーニングでSLAM機能獲得、Street View利用」,NIKKEI Robotics(日経Robotics),日本,日経BP社,2017年10月10日,No.28(2017年11月号),第5~12頁,ISSN: 2189-5783. |
JX Wang, et al.,"LEARNING TO REINFORCEMENT LEARN",arXiv:1611.05763v3,version v3,[online], arXiv (Cornell University),2017年01月23日,Pages 1-17,[令和4年3月13日検索], インターネット, <URL: https://arxiv.org/abs/1611.05763v3>. |
Piotr Mirowski, et al.,"LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS",arXiv:1611.03673v3,version v3,[online], arXiv (Cornell University),2017年01月13日,本文11頁及び"Supplementary Material"5頁,[令和4年3月15日検索], インターネット, <URL: https://arxiv.org/abs/1611.03673v3>. |
Rouhollah Rahmatizadeh, et al.,"From Virtual Demonstration to Real-World Manipulation Using LSTM and MDN",arXiv:1603.03833v4,version v4,[online], arXiv (Cornell University),2017年11月22日,全9頁,[令和4年3月13日検索], インターネット, <URL: https://arxiv.org/abs/1603.03833v4>. |
グェン アン トゥアン(外2名),「人とロボットの協働に向けた意図の生成と共有のモデル化」,人工知能学会第31回全国大会論文集,セッションID:2G1-2,日本,一般社団法人 人工知能学会,2017年,全4頁,[令和4年3月15日検索],インターネット,<URL: https://doi.org/10.11517/pjsai.JSAI2017.0_2G12>. |
新妻 純(外1名),「畳み込みニューラルネットワークを用いた過去の履歴を考慮した強化学習」,情報処理学会第79回全国大会講演論文集,第2分冊,日本,一般社団法人 情報処理学会,2017年03月16日,第2-211~2-212頁. |
Also Published As
Publication number | Publication date |
---|---|
CN112313672A (zh) | 2021-02-02 |
EP3788549B1 (en) | 2023-09-06 |
KR20210011422A (ko) | 2021-02-01 |
CN112313672B (zh) | 2024-09-13 |
EP3788549A1 (en) | 2021-03-10 |
US10860927B2 (en) | 2020-12-08 |
WO2020065024A1 (en) | 2020-04-02 |
JP2021530025A (ja) | 2021-11-04 |
US20200104709A1 (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7160957B2 (ja) | モデルフリー強化学習のためのスタック型畳み込み長/短期メモリ | |
US11868894B2 (en) | Distributed training using actor-critic reinforcement learning with off-policy correction factors | |
EP3776364B1 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
EP3559865B1 (en) | Data-efficient reinforcement learning for continuous control tasks | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US10713559B2 (en) | Recurrent environment predictors | |
JP2023093525A (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
JP7139524B2 (ja) | 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 | |
CN112119404A (zh) | 样本高效的强化学习 | |
JP7181415B2 (ja) | 観測値の尤度を使用して環境を探索するためのエージェントを制御すること | |
KR20230028501A (ko) | 보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습 | |
EP4014161A1 (en) | Training action selection neural networks using q-learning combined with look ahead search | |
JP2023511630A (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
KR20230119023A (ko) | 단기 기억 장치가 있는 어텐션 신경망 | |
EP3847583A1 (en) | Determining control policies by minimizing the impact of delusion | |
KR20230153481A (ko) | 판별기 모델의 앙상블을 사용한 강화 학습 | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210106 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7160957 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |