JP7258965B2 - ニューラルネットワークを使用する強化学習のための行動選択 - Google Patents
ニューラルネットワークを使用する強化学習のための行動選択 Download PDFInfo
- Publication number
- JP7258965B2 JP7258965B2 JP2021127574A JP2021127574A JP7258965B2 JP 7258965 B2 JP7258965 B2 JP 7258965B2 JP 2021127574 A JP2021127574 A JP 2021127574A JP 2021127574 A JP2021127574 A JP 2021127574A JP 7258965 B2 JP7258965 B2 JP 7258965B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- time step
- neural network
- vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims description 195
- 238000013528 artificial neural network Methods 0.000 title claims description 135
- 230000002787 reinforcement Effects 0.000 title description 10
- 239000013598 vector Substances 0.000 claims description 153
- 238000000034 method Methods 0.000 claims description 67
- 239000003795 chemical substances by application Substances 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 59
- 230000006399 behavior Effects 0.000 claims description 40
- 230000000306 recurrent effect Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 26
- 230000001373 regressive effect Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 25
- 238000004590 computer program Methods 0.000 description 15
- 230000003542 behavioural effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000007774 longterm Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- General Factory Administration (AREA)
Description
wt=φGt
πt=Utwt
とするように構成されており、ここで、マトリクスUtの各行は時間ステップに関する行動埋め込みベクトルであり、wtは時間ステップに関する目標埋め込みベクトルであり、πtは時間ステップに関する行動スコアのベクトルである。
102 マネージャシステム
104 潜在表現ニューラルネットワーク
106 潜在表現
108 目標回帰型ニューラルネットワーク
110 初期の目標ベクトル
112 目標プールエンジン
114 最終的な目標ベクトル
116 ワーカシステム
118 中間表現
120 符号化ニューラルネットワーク
122 行動スコア回帰型ニューラルネットワーク
124 行動埋め込みベクトル
126 射影エンジン
128 調整エンジン
130 目標埋め込みベクトル
132 行動スコア
134 訓練エンジン
136 観測
138 外的報酬
140 環境
142 エージェント
144 行動
Claims (20)
- 行動を遂行することで環境と相互作用するエージェントが遂行する行動を所定の行動セットから選択するためのシステムであって、
前記システムは、1つまたは複数のコンピュータと前記1つまたは複数のコンピュータと通信可能に結合された1つまたは複数の記憶デバイスとを含み、前記1つまたは複数の記憶デバイスは複数の命令を記憶し、前記複数の命令は、前記1つまたは複数のコンピュータにより実行されたときに前記1つまたは複数のコンピュータに、
マネージャニューラルネットワークサブシステムと、
ワーカニューラルネットワークサブシステムと、
行動選択サブシステム
を実装させ、
前記マネージャニューラルネットワークサブシステムが、
複数の時間ステップのうちの各々において、
前記時間ステップにおいて前記環境の現在の状態の潜在表現を潜在状態空間において生成する工程と、
前記環境内で前記エージェントが遂行した行動の結果として達成される、前記潜在状態空間での目的を定義する初期の目標ベクトルを、前記時間ステップにおける前記環境の前記現在の状態の前記潜在表現に少なくとも部分的に基づき生成する工程と、
前記時間ステップに関する前記初期の目標ベクトルと1つまたは複数の以前の時間ステップに関する初期の目標ベクトルとをプールし、前記時間ステップに関する最終的な目標ベクトルを生成する工程と
を行うように構成され、
前記ワーカニューラルネットワークサブシステムが、
複数の時間ステップのうちの各々において、
前記時間ステップに関する前記最終的な目標ベクトルと前記環境の現在の状態に少なくとも部分的に基づき、前記所定の行動セットの各行動に関する各行動スコアを生成する工程
を行うように構成され、
前記行動選択サブシステムが、
複数の時間ステップのうちの各々において、前記行動スコアを使用して前記時間ステップにおける前記エージェントが遂行する行動を前記所定の行動セットから選択する工程
を行うように構成された、システム。 - 前記初期の目標ベクトルを生成する工程が、
目標回帰型ニューラルネットワークを使用して前記潜在表現を処理する工程であって、前記目標回帰型ニューラルネットワークが、前記潜在表現を受け取り、前記目標回帰型ニューラルネットワークの隠れ状態に従って前記潜在表現を処理して、前記初期の目標ベクトルを生成し、前記目標回帰型ニューラルネットワークの前記隠れ状態を更新するように構成された、処理する工程
を含む、請求項1に記載のシステム。 - 前記所定の行動セットの各行動に関する前記各行動スコアを生成する工程が、
前記所定の行動セットの各行動に関する、埋め込み空間におけるそれぞれの行動埋め込みベクトルを生成する工程と、
前記時間ステップに関する前記最終的な目標ベクトルを前記埋め込み空間に射影し、目標埋め込みベクトルを生成する工程と、
前記目標埋め込みベクトルにより各行動に関する前記それぞれの行動埋め込みベクトルを調整して、前記所定の行動セットの各行動に関する前記各行動スコアを生成する工程と
を含む、請求項1に記載のシステム。 - 前記行動を選択する工程が、最高の行動スコアを有する行動を選択する工程を含む、請求項1に記載のシステム。
- 前記所定の行動セットの各行動に関する、前記埋め込み空間内の前記それぞれの行動埋め込みベクトルを生成する工程が、
行動スコア回帰型ニューラルネットワークを使用して、前記行動スコア回帰型ニューラルネットワークの隠れ状態に従って、前記環境の前記現在の状態の表現を処理し、前記行動埋め込みベクトルを生成し、前記行動スコア回帰型ニューラルネットワークの前記隠れ状態を更新する工程を含む、請求項3に記載のシステム。 - 前記最終的な目標ベクトルが、前記目標埋め込みベクトルよりも大きい次元数を有する、請求項3に記載のシステム。
- 前記最終的な目標ベクトルの次元数が、前記目標埋め込みベクトルの次元数よりも少なくとも10倍大きい、請求項6に記載のシステム。
- 前記ワーカニューラルネットワークサブシステムは、時間割引きされた報酬の組合せを最大化する行動スコアを生成するように訓練されており、
各報酬は、前記エージェントが選択された行動を遂行した結果として受け取られる外的報酬と、前記マネージャニューラルネットワークサブシステムによって生成された目標ベクトルに依拠する内的報酬との組合せである、請求項1に記載のシステム。 - 前記マネージャニューラルネットワークサブシステムは、前記エージェントが前記選択された行動を遂行した結果として受け取られる前記外的報酬を増加させる行動の選択を助長する行動スコアをもたらす初期の目標ベクトルを生成するように訓練されている、請求項8に記載のシステム。
- 前記システムが、
畳み込みニューラルネットワークを使用して前記環境の前記現在の状態を特徴付ける観測を処理して中間表現を生成する工程
をさらに行うように構成され、
前記時間ステップにおいて前記環境の現在の状態の潜在表現を潜在状態空間において生成する工程が、前記時間ステップにおいて前記中間表現を処理して前記潜在表現を生成する工程を含み、
前記時間ステップに関する前記最終的な目標ベクトルと前記環境の現在の状態に少なくとも部分的に基づき、前記所定の行動セットの各行動に関する各行動スコアを生成する工程が、前記時間ステップに関する前記最終的な目標ベクトルと前記中間表現に少なくとも部分的に基づき、前記所定の行動セットの各行動に関する各行動スコアを生成する工程を含む、請求項1に記載のシステム。 - 前記目標回帰型ニューラルネットワークが、拡張された長短期記憶(LSTM)ニューラルネットワークであり、前記拡張されたLSTMニューラルネットワークは、r個のサブ状態へと分割される内部状態を維持するように構成され、rは1よりも大きい整数であり、前記拡張されたLSTMニューラルネットワークは、前記複数の時間ステップにおける各時間ステップにおいて、
前記時間ステップに関するネットワーク入力を受け取り、
前記r個のサブ状態からサブ状態を選択し、
LSTMニューラルネットワークを使用して前記時間ステップに関する前記選択されたサブ状態の現在の値および前記ネットワーク入力を処理して、前記選択されたサブ状態の前記現在の値を更新し、LSTMネットワークパラメータのセットの現在の値に従って、前記時間ステップに関するネットワーク出力を生成する
ように構成された、請求項2に記載のシステム。 - 前記拡張されたLSTMニューラルネットワークは、前記時間ステップの各々に関して、
前記時間ステップに関する前記ネットワーク出力と以前の時間ステップの所定回数までの前記ネットワーク出力とをプールして、前記時間ステップに関する最終的なネットワーク出力を生成するようにさらに構成された、請求項11に記載のシステム。 - 前記ネットワーク出力をプールする工程が、前記ネットワーク出力を合計する工程を含む、請求項12に記載のシステム。
- 前記ネットワーク出力をプールする工程が、前記ネットワーク出力を平均する工程を含む、請求項12に記載のシステム。
- 前記ネットワーク出力をプールする工程が、最大のネットワーク出力を選択する工程を含む、請求項12に記載のシステム。
- 前記複数の時間ステップにおける前記時間ステップが、前記複数の時間ステップにおける最初の時間ステップに対する1から、前記複数の時間ステップにおける最後の時間ステップのTまでインデックスを付けられ、
各サブ状態は、1からrまでの範囲のインデックスを割り当てられ、
前記r個のサブ状態からあるサブ状態を選択することは、rを法とする時間ステップのインデックスと等しいインデックスを有するサブ状態を選択することを含む
請求項11に記載のシステム。 - 前記LSTMニューラルネットワークは複数のLSTM層を含む、請求項11に記載のシステム。
- LSTMニューラルネットワークを使用して前記時間ステップに関する前記選択されたサブ状態の現在の値および前記ネットワーク入力を処理して、前記選択されたサブ状態の前記現在の値を更新し、LSTMネットワークパラメータのセットの現在の値に従って、前記時間ステップに関するネットワーク出力を生成することが、
前記時間ステップにおける前記ネットワーク入力を処理するために、前記LSTMニューラルネットワークの内部状態を、前記選択されたサブ状態の現在の値に設定することを含む、請求項11に記載のシステム。 - 複数の命令を記録する1つまたは複数の非一時的コンピュータ記録媒体であって、
前記複数の命令は、1つまたは複数のコンピュータにより実行されたときに、行動を遂行することで環境と相互作用するエージェントにより遂行される行動を所定の行動セットから選択するための複数の動作を、前記1つまたは複数のコンピュータに実行させ、前記複数の動作が、複数の時間ステップの各々において、
前記時間ステップにおいて前記環境の現在の状態の潜在表現を潜在状態空間において生成する動作と、
前記環境内で前記エージェントが遂行した行動の結果として達成される、前記潜在状態空間での目的を定義する初期の目標ベクトルを、前記時間ステップにおける前記環境の前記現在の状態の前記潜在表現に少なくとも部分的に基づき生成する動作と、
前記時間ステップに関する前記初期の目標ベクトルと1つまたは複数の以前の時間ステップに関する初期の目標ベクトルとをプールし、前記時間ステップに関する最終的な目標ベクトルを生成する動作と
前記時間ステップに関する前記最終的な目標ベクトルと前記環境の現在の状態に少なくとも部分的に基づき、前記所定の行動セットの各行動に関する各行動スコアを生成する動作と、
前記行動スコアを使用して前記時間ステップにおける前記エージェントが遂行する行動を前記所定の行動セットから選択する動作と
を含む、1つまたは複数の非一時的コンピュータ記録媒体。 - 行動を遂行することで環境と相互作用するエージェントにより遂行される行動を所定の行動セットから選択するための1つまたは複数のデータ処理装置により実行される方法であって、
複数の時間ステップの各々において、
前記時間ステップにおいて前記環境の現在の状態の潜在表現を潜在状態空間において生成する工程と、
前記環境内で前記エージェントが遂行した行動の結果として達成される、前記潜在状態空間での目的を定義する初期の目標ベクトルを、前記時間ステップにおける前記環境の前記現在の状態の前記潜在表現に少なくとも部分的に基づき生成する工程と、
前記時間ステップに関する前記初期の目標ベクトルと1つまたは複数の以前の時間ステップに関する初期の目標ベクトルとをプールし、前記時間ステップに関する最終的な目標ベクトルを生成する工程と
前記時間ステップに関する前記最終的な目標ベクトルと前記環境の現在の状態に少なくとも部分的に基づき、前記所定の行動セットの各行動に関する各行動スコアを生成する工程と、
前記行動スコアを使用して前記時間ステップにおける前記エージェントが遂行する行動を前記所定の行動セットから選択する工程と
を含む、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023060824A JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762463532P | 2017-02-24 | 2017-02-24 | |
US62/463,532 | 2017-02-24 | ||
JP2019546129A JP6926218B2 (ja) | 2017-02-24 | 2018-02-19 | ニューラルネットワークを使用する強化学習のための行動選択 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546129A Division JP6926218B2 (ja) | 2017-02-24 | 2018-02-19 | ニューラルネットワークを使用する強化学習のための行動選択 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023060824A Division JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021185493A JP2021185493A (ja) | 2021-12-09 |
JP7258965B2 true JP7258965B2 (ja) | 2023-04-17 |
Family
ID=61244626
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546129A Active JP6926218B2 (ja) | 2017-02-24 | 2018-02-19 | ニューラルネットワークを使用する強化学習のための行動選択 |
JP2021127574A Active JP7258965B2 (ja) | 2017-02-24 | 2021-08-03 | ニューラルネットワークを使用する強化学習のための行動選択 |
JP2023060824A Pending JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546129A Active JP6926218B2 (ja) | 2017-02-24 | 2018-02-19 | ニューラルネットワークを使用する強化学習のための行動選択 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023060824A Pending JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10679126B2 (ja) |
EP (1) | EP3568810B1 (ja) |
JP (3) | JP6926218B2 (ja) |
CN (2) | CN116796791A (ja) |
DK (1) | DK3568810T3 (ja) |
WO (1) | WO2018153807A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11735028B2 (en) | 2018-06-12 | 2023-08-22 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
EP3788549B1 (en) * | 2018-09-27 | 2023-09-06 | DeepMind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
US11455530B2 (en) * | 2018-11-20 | 2022-09-27 | Google Llc | Controlling agents using scene memory data |
US10381006B1 (en) * | 2018-11-26 | 2019-08-13 | Accenture Global Solutions Limited | Dialog management system for using multiple artificial intelligence service providers |
EP3871132A1 (en) | 2018-12-04 | 2021-09-01 | Google LLC | Generating integrated circuit floorplans using neural networks |
US11636347B2 (en) | 2019-01-23 | 2023-04-25 | Deepmind Technologies Limited | Action selection using interaction history graphs |
KR20210016828A (ko) * | 2019-08-05 | 2021-02-17 | 주식회사 엘지화학 | 배터리 관리 장치, 배터리 관리 방법 및 배터리 팩 |
SE1950924A1 (en) * | 2019-08-13 | 2021-02-14 | Kaaberg Johard Leonard | Improved machine learning for technical systems |
US20210089910A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Reinforcement learning using meta-learned intrinsic rewards |
CN111245008B (zh) * | 2020-01-14 | 2021-07-16 | 香港中文大学(深圳) | 一种风场协同控制方法及装置 |
CN111487863B (zh) * | 2020-04-14 | 2022-06-17 | 东南大学 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
US20220321879A1 (en) * | 2021-03-30 | 2022-10-06 | Isize Limited | Processing image data |
US20230161635A1 (en) * | 2021-11-22 | 2023-05-25 | Vmware, Inc. | Reinforcement-learning-based distributed-application controller incorporating transfer learning |
WO2023217868A1 (en) * | 2022-05-11 | 2023-11-16 | Deepmind Technologies Limited | Negotiating contracts for agent cooperation in multi-agent systems |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056185A (ja) | 2003-08-05 | 2005-03-03 | Techno Face:Kk | 階層型エージェント学習方法およびシステム |
US20160179162A1 (en) | 2014-12-22 | 2016-06-23 | Intel Corporation | Holistic global performance and power management |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150356199A1 (en) * | 2014-06-06 | 2015-12-10 | Microsoft Corporation | Click-through-based cross-view learning for internet searches |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
FR3025344B1 (fr) * | 2014-08-28 | 2017-11-24 | Commissariat Energie Atomique | Reseau de neurones convolutionnels |
EP3079106B1 (en) * | 2015-04-06 | 2022-06-08 | DeepMind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
WO2017019555A1 (en) * | 2015-07-24 | 2017-02-02 | Google Inc. | Continuous control with deep reinforcement learning |
DE202016004628U1 (de) * | 2016-07-27 | 2016-09-23 | Google Inc. | Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze |
US20180247199A1 (en) * | 2017-02-24 | 2018-08-30 | Qualcomm Incorporated | Method and apparatus for multi-dimensional sequence prediction |
-
2018
- 2018-02-19 DK DK18705929.0T patent/DK3568810T3/da active
- 2018-02-19 EP EP18705929.0A patent/EP3568810B1/en active Active
- 2018-02-19 CN CN202310839049.5A patent/CN116796791A/zh active Pending
- 2018-02-19 JP JP2019546129A patent/JP6926218B2/ja active Active
- 2018-02-19 CN CN201880013632.8A patent/CN110546653B/zh active Active
- 2018-02-19 WO PCT/EP2018/054002 patent/WO2018153807A1/en unknown
-
2019
- 2019-07-15 US US16/511,571 patent/US10679126B2/en active Active
-
2020
- 2020-05-05 US US16/866,753 patent/US11537887B2/en active Active
-
2021
- 2021-08-03 JP JP2021127574A patent/JP7258965B2/ja active Active
-
2022
- 2022-11-30 US US18/072,175 patent/US20230090824A1/en active Pending
-
2023
- 2023-04-04 JP JP2023060824A patent/JP2023093525A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056185A (ja) | 2003-08-05 | 2005-03-03 | Techno Face:Kk | 階層型エージェント学習方法およびシステム |
US20160179162A1 (en) | 2014-12-22 | 2016-06-23 | Intel Corporation | Holistic global performance and power management |
Non-Patent Citations (3)
Title |
---|
AURELIA LEON ET AL.,OPTIONS DISCOVERY WITH BUDGETED REINFORCEMENT LEARNING,ARXIV.ORG [ONLINE],2017年02月22日,ARXIV:1611.06824V3,https://arxiv.org/pdf/1611.06824.pdf |
NICOLAS HEESS ET AL.,LEARNING AND TRANSFER OF MODULATED LOCOMOTOR CONTROLLERS,ARXIV.ORG [ONLINE],2016年10月17日,ARXIV:1610.05182V1,PAGE(S):1 - 13,https://arxiv.org/pdf/1610.05182.pdf |
TEJAS D KULKARNI ET AL.,HIERARCHICAL DEEP REINFORCEMENT LEARNING: INTEGRATING TEMPORAL ABSTRACTION AND INTRINSIC MOTIVATION,ARXIV.ORG [ONLINE],2016年05月31日,ARXIV:1604.06057V2,PAGE(S):1 - 14,https://arxiv.org/pdf/1604.06057.pdf |
Also Published As
Publication number | Publication date |
---|---|
JP2023093525A (ja) | 2023-07-04 |
US20230090824A1 (en) | 2023-03-23 |
DK3568810T3 (da) | 2023-11-13 |
US20190340509A1 (en) | 2019-11-07 |
JP6926218B2 (ja) | 2021-08-25 |
CN110546653B (zh) | 2023-06-20 |
US10679126B2 (en) | 2020-06-09 |
WO2018153807A1 (en) | 2018-08-30 |
CN110546653A (zh) | 2019-12-06 |
CN116796791A (zh) | 2023-09-22 |
EP3568810A1 (en) | 2019-11-20 |
US11537887B2 (en) | 2022-12-27 |
US20200265313A1 (en) | 2020-08-20 |
JP2021185493A (ja) | 2021-12-09 |
JP2020508524A (ja) | 2020-03-19 |
EP3568810B1 (en) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7258965B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
US11868894B2 (en) | Distributed training using actor-critic reinforcement learning with off-policy correction factors | |
US20240320438A1 (en) | Action selection based on environment observations and textual instructions | |
US20240220774A1 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
US20200293862A1 (en) | Training action selection neural networks using off-policy actor critic reinforcement learning | |
JP6728496B2 (ja) | 強化学習を使用した環境ナビゲーション | |
CN110326004B (zh) | 使用路径一致性学习训练策略神经网络 | |
US10664725B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
US10733501B2 (en) | Environment prediction using reinforcement learning | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
US11200482B2 (en) | Recurrent environment predictors | |
US20200082227A1 (en) | Imagination-based agent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7258965 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |