JP2021185492A - 補助タスクを伴う強化学習 - Google Patents
補助タスクを伴う強化学習 Download PDFInfo
- Publication number
- JP2021185492A JP2021185492A JP2021127570A JP2021127570A JP2021185492A JP 2021185492 A JP2021185492 A JP 2021185492A JP 2021127570 A JP2021127570 A JP 2021127570A JP 2021127570 A JP2021127570 A JP 2021127570A JP 2021185492 A JP2021185492 A JP 2021185492A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- reward
- selection policy
- training
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 351
- 230000009471 action Effects 0.000 claims abstract description 155
- 238000000034 method Methods 0.000 claims abstract description 113
- 238000012549 training Methods 0.000 claims abstract description 105
- 230000006399 behavior Effects 0.000 claims description 77
- 230000002787 reinforcement Effects 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 28
- 230000003542 behavioural effect Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 12
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000012952 Resampling Methods 0.000 claims description 4
- 239000000543 intermediate Substances 0.000 claims 14
- 239000003795 chemical substances by application Substances 0.000 description 52
- 230000007774 longterm Effects 0.000 description 23
- 230000004044 response Effects 0.000 description 20
- 238000004590 computer program Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 9
- 238000001994 activation Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本明細書において説明された主題の実装形態は、1つまたは複数のコンピュータプログラムとして、すなわち、データ処理装置が実行するために有形非一時的記憶媒体上に符号化された、またはデータ処理装置の動作を制御するための、コンピュータプログラム命令の1つまたは複数のモジュールとして、実装され得る。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、あるいはそれらのうちの1つまたは複数の組合せであり得る。代替的にまたは追加として、プログラム命令は、データ処理装置が実行するための好適な受信機装置への送信のための情報を符号化するために生成される、人工的に生成された伝搬される信号、たとえば、機械生成の電気信号、光信号、または電磁信号上に符号化され得る。
102 環境
104 観察
106 報酬
108 エージェント
110 行動
112 行動選択ポリシーニューラルネットワーク
114 リプレイメモリ
116 サンプリングエンジン
118 ピクセル制御ニューラルネットワーク
120 特徴制御ニューラルネットワーク
122 報酬予測ニューラルネットワーク
Claims (20)
第1の強化学習技法を用いて行動選択ポリシーニューラルネットワークをトレーニングするステップであって、
前記行動選択ポリシーニューラルネットワークは、複数のネットワークパラメータを有し、環境と対話するエージェントによって実行されるべき行動を選択する際に使用され、
前記行動選択ポリシーニューラルネットワークは、観察入力を含む入力を受信することと、行動選択ポリシー出力を生成するために前記ネットワークパラメータに従って入力を処理することとを行うように構成され、
前記行動選択ポリシーニューラルネットワークをトレーニングするステップが、前記行動選択ポリシーネットワークパラメータの値を調整するステップを含む、トレーニングするステップと、
前記第1の強化学習技法を使用した、行動選択ポリシーニューラルネットワークのトレーニングの間において、
前記行動選択ポリシーニューラルネットワークのトレーニングの間に、前記環境との前記エージェントの対話に関する報酬予測ニューラルネットワークをトレーニングするステップであって、
前記報酬予測ニューラルネットワークが、報酬予測パラメータを有し、
前記環境との前記エージェントの対話の結果として受信された観察画像のシーケンスを特徴づける、前記行動選択ポリシーニューラルネットワークによって生成された1つまたは複数の中間出力を受信することと、
前記シーケンス中の最後の観察画像に後続する次の観察画像とともに受信されることになる報酬の推定である、予測された報酬を生成するために、前記報酬予測パラメータに従って、前記1つまたは複数の中間出力を処理することと
を行うように構成され、
前記報酬予測ニューラルネットワークをトレーニングするステップは、
前記報酬予測ニューラルネットワークによって生成された予測された報酬に基づいて、勾配を決定するステップと、
前記勾配を使用して、前記報酬予測パラメータおよび前記行動選択ポリシーネットワークパラメータの値を調整するステップとを含む、トレーニングするステップと
を含む、方法。
前記次の観察画像とともに受信される実際の報酬を受信するステップと、
前記実際の報酬と前記推定された報酬との間の損失を減少させるように前記報酬予測ニューラルネットワークをトレーニングするステップと
を含む、請求項1に記載の方法。
を含む、請求項2に記載の方法。
前記シーケンス中の前記最後の観察に後続する前記観察とともに受信された実際の報酬が0でないシーケンスを、前記シーケンス中の前記最後の観察に後続する前記観察とともに受信された前記実際の報酬が0であるシーケンスよりも、高い確率でサンプリングするステップを含む、請求項4に記載の方法。
前記リプレイメモリから最近のシーケンスをリサンプリングするステップと、
前記リサンプリングされた最近のシーケンス中の前記観察画像のための前記値推定に関する余分の価値関数回帰を実行するステップと
をさらに含む、請求項4に記載の方法。
前記入力の符号化表現を生成する畳み込みエンコーダニューラルネットワークと、
前記入力の前記符号化表現を処理して中間表現を生成する中間ニューラルネットワークと、
前記中間表現を処理して前記行動選択出力を生成する出力ニューラルネットワークと
を含む、請求項1に記載の方法。
前記観察画像のシーケンスを特徴付ける前記行動選択ポリシーニューラルネットワークにより生成される前記1つまたは複数の中間出力が、前記シーケンス内の最後の観察画像のための前記中間表現である、請求項7に記載の方法。
1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータと通信可能に結合された1つまたは複数の記憶デバイスであって、複数の命令を記録する1つまたは複数の記憶デバイスと
を含み、前記複数の命令は、前記1つまたは複数のコンピュータにより実行されたときに、前記1つまたは複数のコンピュータに複数の動作を実行させ、前記複数の動作が、
第1の強化学習技法を用いて行動選択ポリシーニューラルネットワークをトレーニングする動作であって、
前記行動選択ポリシーニューラルネットワークは、複数のネットワークパラメータを有し、環境と対話するエージェントによって実行されるべき行動を選択する際に使用され、
前記行動選択ポリシーニューラルネットワークは、観察入力を含む入力を受信することと、行動選択ポリシー出力を生成するために前記ネットワークパラメータに従って入力を処理することとを行うように構成され、
前記行動選択ポリシーニューラルネットワークをトレーニングする動作が、前記行動選択ポリシーネットワークパラメータの値を調整する動作を含む、トレーニングする動作と、
前記第1の強化学習技法を使用した、行動選択ポリシーニューラルネットワークのトレーニングの間において、
前記行動選択ポリシーニューラルネットワークのトレーニングの間に、前記環境との前記エージェントの対話に関する報酬予測ニューラルネットワークをトレーニングする動作であって、
前記報酬予測ニューラルネットワークが、報酬予測パラメータを有し、
前記環境との前記エージェントの対話の結果として受信された観察画像のシーケンスを特徴づける、前記行動選択ポリシーニューラルネットワークによって生成された1つまたは複数の中間出力を受信することと、
シーケンス中の最後の観察画像に後続する次の観察画像とともに受信されることになる報酬の推定である、予測された報酬を生成するために、前記報酬予測パラメータに従って、前記1つまたは複数の中間出力を処理することと
を行うように構成され、
前記報酬予測ニューラルネットワークをトレーニングする動作は、
前記報酬予測ニューラルネットワークによって生成された予測された報酬に基づいて、勾配を決定する動作と、
前記勾配を使用して、前記報酬予測パラメータおよび前記行動選択ポリシーネットワークパラメータの値を調整する動作とを含む、トレーニングする動作と
を含む、システム。
前記次の観察画像とともに受信される実際の報酬を受信する動作と、
前記実際の報酬と前記推定された報酬との間の損失を減少させるように前記報酬予測ニューラルネットワークをトレーニングする動作と
を含む、請求項10に記載のシステム。
前記シーケンス中の前記最後の観察に後続する前記観察とともに受信された実際の報酬が0でないシーケンスを、前記シーケンス中の前記最後の観察に後続する前記観察とともに受信された前記実際の報酬が0であるシーケンスよりも、高い確率でサンプリングする動作を含む、請求項13に記載のシステム。
前記リプレイメモリから最近のシーケンスをリサンプリングする動作と、
前記リサンプリングされた最近のシーケンス中の前記観察画像のための前記値推定に関する余分の価値関数回帰を実行する動作と
をさらに含む、請求項13に記載のシステム。
前記複数の命令は、1つまたは複数のコンピュータにより実行されたときに、前記1つまたは複数のコンピュータに複数の動作を実行させ、前記複数の動作が、
第1の強化学習技法を用いて行動選択ポリシーニューラルネットワークをトレーニングする動作であって、
前記行動選択ポリシーニューラルネットワークは、複数のネットワークパラメータを有し、環境と対話するエージェントによって実行されるべき行動を選択する際に使用され、
前記行動選択ポリシーニューラルネットワークは、観察入力を含む入力を受信することと、行動選択ポリシー出力を生成するために前記ネットワークパラメータに従って入力を処理することとを行うように構成され、
前記行動選択ポリシーニューラルネットワークをトレーニングする動作が、前記行動選択ポリシーネットワークパラメータの値を調整する動作を含む、トレーニングする動作と、
前記第1の強化学習技法を使用した、行動選択ポリシーニューラルネットワークのトレーニングの間において、
前記行動選択ポリシーニューラルネットワークのトレーニングの間に、前記環境との前記エージェントの対話に関する報酬予測ニューラルネットワークをトレーニングする動作であって、
前記報酬予測ニューラルネットワークが、報酬予測パラメータを有し、
前記環境との前記エージェントの対話の結果として受信された観察画像のシーケンスを特徴づける、前記行動選択ポリシーニューラルネットワークによって生成された1つまたは複数の中間出力を受信することと、
シーケンス中の最後の観察画像に後続する次の観察画像とともに受信されることになる報酬の推定である、予測された報酬を生成するために、前記報酬予測パラメータに従って、前記1つまたは複数の中間出力を処理することと
を行うように構成され、
前記報酬予測ニューラルネットワークをトレーニングする動作は、
前記報酬予測ニューラルネットワークによって生成された予測された報酬に基づいて、勾配を決定する動作と、
前記勾配を使用して、前記報酬予測パラメータおよび前記行動選択ポリシーネットワークパラメータの値を調整する動作とを含む、トレーニングする動作と
を含む、1つまたは複数の非一時的コンピュータ記録媒体。
前記次の観察画像とともに受信される実際の報酬を受信する動作と、
前記実際の報酬と前記推定された報酬との間の損失を減少させるように前記報酬予測ニューラルネットワークをトレーニングする動作と
を含む、請求項16に記載の1つまたは複数の非一時的コンピュータ記録媒体。
前記リプレイメモリから最近のシーケンスをリサンプリングする動作と、
前記リサンプリングされた最近のシーケンス中の前記観察画像のための前記値推定に関する余分の価値関数回帰を実行する動作と
をさらに含む、請求項19に記載の1つまたは複数の非一時的コンピュータ記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662418120P | 2016-11-04 | 2016-11-04 | |
US62/418,120 | 2016-11-04 | ||
JP2019523801A JP6926203B2 (ja) | 2016-11-04 | 2017-11-04 | 補助タスクを伴う強化学習 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523801A Division JP6926203B2 (ja) | 2016-11-04 | 2017-11-04 | 補助タスクを伴う強化学習 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021185492A true JP2021185492A (ja) | 2021-12-09 |
JP7235813B2 JP7235813B2 (ja) | 2023-03-08 |
Family
ID=60543606
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523801A Active JP6926203B2 (ja) | 2016-11-04 | 2017-11-04 | 補助タスクを伴う強化学習 |
JP2021127570A Active JP7235813B2 (ja) | 2016-11-04 | 2021-08-03 | 補助タスクを伴う強化学習 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523801A Active JP6926203B2 (ja) | 2016-11-04 | 2017-11-04 | 補助タスクを伴う強化学習 |
Country Status (7)
Country | Link |
---|---|
US (3) | US10956820B2 (ja) |
EP (1) | EP3535705B1 (ja) |
JP (2) | JP6926203B2 (ja) |
KR (1) | KR102424893B1 (ja) |
CN (1) | CN110114783B (ja) |
DK (1) | DK3535705T3 (ja) |
WO (1) | WO2018083671A1 (ja) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3872715A1 (en) | 2015-11-12 | 2021-09-01 | Deepmind Technologies Limited | Asynchronous deep reinforcement learning |
CN117910543A (zh) * | 2015-11-12 | 2024-04-19 | 渊慧科技有限公司 | 使用优先化经验存储器训练神经网络 |
CN110088775B (zh) * | 2016-11-04 | 2023-11-07 | 渊慧科技有限公司 | 使用加强学习的环境预测 |
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
US11604997B2 (en) * | 2017-06-09 | 2023-03-14 | Deepmind Technologies Limited | Training action selection neural networks using leave-one-out-updates |
KR102100350B1 (ko) * | 2017-10-16 | 2020-04-14 | 농업회사법인 상상텃밭 주식회사 | 온실 시스템의 제어 모델 생성 방법 |
US20210192357A1 (en) * | 2018-05-17 | 2021-06-24 | Magic Leap, Inc. | Gradient adversarial training of neural networks |
WO2019219969A1 (en) * | 2018-05-18 | 2019-11-21 | Deepmind Technologies Limited | Graph neural network systems for behavior prediction and reinforcement learning in multple agent environments |
US11600387B2 (en) | 2018-05-18 | 2023-03-07 | Htc Corporation | Control method and reinforcement learning for medical system |
US11086674B2 (en) | 2018-05-25 | 2021-08-10 | Royal Bank Of Canada | Trade platform with reinforcement learning network and matching engine |
WO2019241145A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
CN109239661A (zh) * | 2018-09-18 | 2019-01-18 | 广西大学 | 一种基于深度q网络的rfid室内定位系统及算法 |
US20200097811A1 (en) * | 2018-09-25 | 2020-03-26 | International Business Machines Corporation | Reinforcement learning by sharing individual data within dynamic groups |
JP7160957B2 (ja) * | 2018-09-27 | 2022-10-25 | ディープマインド テクノロジーズ リミテッド | モデルフリー強化学習のためのスタック型畳み込み長/短期メモリ |
US11663441B2 (en) | 2018-09-27 | 2023-05-30 | Deepmind Technologies Limited | Action selection neural network training using imitation learning in latent space |
US11295174B2 (en) * | 2018-11-05 | 2022-04-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep RL |
US11574148B2 (en) | 2018-11-05 | 2023-02-07 | Royal Bank Of Canada | System and method for deep reinforcement learning |
WO2020122985A1 (en) * | 2018-12-10 | 2020-06-18 | Interactive-Al, Llc | Neural modulation codes for multilingual and style dependent speech and language processing |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
US11074480B2 (en) * | 2019-01-31 | 2021-07-27 | StradVision, Inc. | Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning |
DE102019105280A1 (de) * | 2019-03-01 | 2020-09-03 | Friedrich-Alexander-Universität Erlangen-Nürnberg | Autonomes selbstlernendes System |
KR102267316B1 (ko) * | 2019-03-05 | 2021-06-21 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
US11816591B2 (en) | 2019-03-20 | 2023-11-14 | Sony Group Corporation | Reinforcement learning through a double actor critic algorithm |
US11308362B2 (en) * | 2019-03-26 | 2022-04-19 | Shenzhen Keya Medical Technology Corporation | Method and system for generating a centerline for an object, and computer readable medium |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
KR20220016171A (ko) * | 2019-07-08 | 2022-02-08 | 구글 엘엘씨 | 기계 학습을 사용한 셀룰러 네트워크 최적화 |
KR102082113B1 (ko) * | 2019-07-23 | 2020-02-27 | 주식회사 애자일소다 | 데이터 기반 강화 학습 장치 및 방법 |
US11676064B2 (en) * | 2019-08-16 | 2023-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Constraint adaptor for reinforcement learning control |
KR102155055B1 (ko) * | 2019-10-28 | 2020-09-11 | 라온피플 주식회사 | 강화학습 기반 신호 제어 장치 및 신호 제어 방법 |
CN110852438B (zh) * | 2019-11-11 | 2023-08-04 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
US20210158196A1 (en) * | 2019-11-25 | 2021-05-27 | Deepmind Technologies Limited | Non-stationary delayed bandits with intermediate signals |
KR102173579B1 (ko) * | 2019-12-02 | 2020-11-03 | 한국기술교육대학교 산학협력단 | 연합강화학습을 통한 다중 디바이스 제어 시스템 및 그 방법 |
US11579575B2 (en) * | 2019-12-03 | 2023-02-14 | Baidu Usa Llc | Inverse reinforcement learning with model predictive control |
CN111026272B (zh) * | 2019-12-09 | 2023-10-31 | 网易(杭州)网络有限公司 | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 |
CN111130698B (zh) * | 2019-12-26 | 2022-05-31 | 南京中感微电子有限公司 | 无线通信接收窗口预测方法、装置及无线通信设备 |
EP4100884A1 (en) * | 2020-02-07 | 2022-12-14 | DeepMind Technologies Limited | Recurrent unit for generating or processing a sequence of images |
KR102440817B1 (ko) * | 2020-02-19 | 2022-09-06 | 사회복지법인 삼성생명공익재단 | 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램 |
KR102100688B1 (ko) * | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
KR102100686B1 (ko) * | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 손실률을 낮추기 위한 데이터 기반 강화 학습 장치 및 방법 |
CN111416774B (zh) * | 2020-03-17 | 2023-03-21 | 深圳市赛为智能股份有限公司 | 网络拥塞控制方法、装置、计算机设备及存储介质 |
CN111461325B (zh) * | 2020-03-30 | 2023-06-20 | 华南理工大学 | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 |
SG11202102364YA (en) * | 2020-04-02 | 2021-04-29 | Alipay Hangzhou Inf Tech Co Ltd | Determining action selection policies of an execution device |
KR102195433B1 (ko) * | 2020-04-07 | 2020-12-28 | 주식회사 애자일소다 | 학습의 목표와 보상을 연계한 데이터 기반 강화 학습 장치 및 방법 |
KR102272501B1 (ko) * | 2020-04-24 | 2021-07-01 | 연세대학교 산학협력단 | 분산 강화 학습 장치 및 방법 |
CN111496794B (zh) * | 2020-04-29 | 2022-04-01 | 华中科技大学 | 一种基于仿真工业机器人的运动学自抓取学习方法和系统 |
CN111666149B (zh) * | 2020-05-06 | 2023-04-07 | 西北工业大学 | 基于深度强化学习的超密边缘计算网络移动性管理方法 |
KR20220154785A (ko) | 2020-06-05 | 2022-11-22 | 딥마인드 테크놀로지스 리미티드 | 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션 |
US11528347B2 (en) * | 2020-06-25 | 2022-12-13 | Nokia Solutions And Networks Oy | Inter-packet communication of machine learning information |
CN111882030B (zh) * | 2020-06-29 | 2023-12-05 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
CN111818570B (zh) * | 2020-07-25 | 2022-04-01 | 清华大学 | 一种面向真实网络环境的智能拥塞控制方法及系统 |
DE102020209685B4 (de) | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
CN113422751B (zh) * | 2020-08-27 | 2023-12-05 | 阿里巴巴集团控股有限公司 | 基于在线强化学习的流媒体处理方法、装置及电子设备 |
KR102345267B1 (ko) * | 2020-10-12 | 2021-12-31 | 서울대학교산학협력단 | 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치 |
CN112347104B (zh) * | 2020-11-06 | 2023-09-29 | 中国人民大学 | 一种基于深度强化学习的列存储布局优化方法 |
CN112541835A (zh) * | 2020-12-08 | 2021-03-23 | 香港中文大学(深圳) | 一种基于混合模型的风电场控制学习方法 |
CN112949988B (zh) * | 2021-02-01 | 2024-01-05 | 浙江大学 | 一种基于强化学习的服务流程构造方法 |
KR102599363B1 (ko) * | 2021-02-04 | 2023-11-09 | 박근식 | 사용자기반의 ai에너지 절감 및 수요예측시스템 |
GB2604640A (en) * | 2021-03-12 | 2022-09-14 | Samsung Electronics Co Ltd | Performing a processing task instructed by an application |
US20220303191A1 (en) * | 2021-03-18 | 2022-09-22 | Nokia Solutions And Networks Oy | Network management |
WO2022199792A1 (en) * | 2021-03-22 | 2022-09-29 | Telefonaktiebolaget Lm Ericsson (Publ) | Reward estimation for a target policy |
CN113242469B (zh) * | 2021-04-21 | 2022-07-12 | 南京大学 | 一种自适应视频传输配置方法和系统 |
CN113420806B (zh) * | 2021-06-21 | 2023-02-03 | 西安电子科技大学 | 一种人脸检测质量评分方法及系统 |
WO2023023848A1 (en) * | 2021-08-24 | 2023-03-02 | Royal Bank Of Canada | System and method for machine learning architecture with multiple policy heads |
CN113810954B (zh) * | 2021-09-08 | 2023-12-29 | 国网宁夏电力有限公司信息通信公司 | 基于流量预测与深度强化学习的虚拟资源动态扩缩容方法 |
CN116330310B (zh) * | 2023-02-14 | 2023-11-07 | 河南泽远网络科技有限公司 | 一种低延时机器人交互方法 |
CN116453706B (zh) * | 2023-06-14 | 2023-09-08 | 之江实验室 | 一种基于强化学习的血液透析方案制定方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345962B2 (en) | 2007-11-29 | 2013-01-01 | Nec Laboratories America, Inc. | Transfer learning methods and systems for feed-forward visual recognition systems |
KR20100112742A (ko) * | 2009-04-10 | 2010-10-20 | 경기대학교 산학협력단 | 강화 학습을 위한 행위-기반 구조 |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US10445641B2 (en) * | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
US10628733B2 (en) * | 2015-04-06 | 2020-04-21 | Deepmind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
FR3052457B1 (fr) | 2016-06-14 | 2018-06-22 | Bostik Sa | Compositions adhesives a base de polymeres silyles reticulables |
-
2017
- 2017-11-04 JP JP2019523801A patent/JP6926203B2/ja active Active
- 2017-11-04 DK DK17808163.4T patent/DK3535705T3/da active
- 2017-11-04 CN CN201780080119.6A patent/CN110114783B/zh active Active
- 2017-11-04 EP EP17808163.4A patent/EP3535705B1/en active Active
- 2017-11-04 KR KR1020197015648A patent/KR102424893B1/ko active IP Right Grant
- 2017-11-04 WO PCT/IB2017/056906 patent/WO2018083671A1/en active Search and Examination
-
2019
- 2019-05-03 US US16/403,385 patent/US10956820B2/en active Active
-
2021
- 2021-02-24 US US17/183,618 patent/US11842281B2/en active Active
- 2021-08-03 JP JP2021127570A patent/JP7235813B2/ja active Active
-
2023
- 2023-11-03 US US18/386,954 patent/US20240144015A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
Non-Patent Citations (1)
Title |
---|
TEJAS D. KULKARNI, ET AL.: "Deep Successor Reinforcement Learning", ARXIV.ORG, vol. v1, JPN6022039910, 8 June 2016 (2016-06-08), ISSN: 0004877488 * |
Also Published As
Publication number | Publication date |
---|---|
US20210182688A1 (en) | 2021-06-17 |
US20240144015A1 (en) | 2024-05-02 |
CN110114783B (zh) | 2023-07-18 |
US10956820B2 (en) | 2021-03-23 |
KR20190069582A (ko) | 2019-06-19 |
CN110114783A (zh) | 2019-08-09 |
JP6926203B2 (ja) | 2021-08-25 |
EP3535705A1 (en) | 2019-09-11 |
JP7235813B2 (ja) | 2023-03-08 |
WO2018083671A1 (en) | 2018-05-11 |
DK3535705T3 (da) | 2022-05-30 |
US20190258938A1 (en) | 2019-08-22 |
US11842281B2 (en) | 2023-12-12 |
JP2019534517A (ja) | 2019-11-28 |
KR102424893B1 (ko) | 2022-07-25 |
EP3535705B1 (en) | 2022-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
CN110326004B (zh) | 使用路径一致性学习训练策略神经网络 | |
US10706352B2 (en) | Training action selection neural networks using off-policy actor critic reinforcement learning | |
JP7258965B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
JP6917508B2 (ja) | 強化学習を用いた環境予測 | |
US11868866B2 (en) | Controlling agents using amortized Q learning | |
US11200482B2 (en) | Recurrent environment predictors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7235813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |