JP7448683B2 - マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション - Google Patents
マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション Download PDFInfo
- Publication number
- JP7448683B2 JP7448683B2 JP2022561576A JP2022561576A JP7448683B2 JP 7448683 B2 JP7448683 B2 JP 7448683B2 JP 2022561576 A JP2022561576 A JP 2022561576A JP 2022561576 A JP2022561576 A JP 2022561576A JP 7448683 B2 JP7448683 B2 JP 7448683B2
- Authority
- JP
- Japan
- Prior art keywords
- option
- neural networks
- neural network
- reward
- optional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims description 189
- 230000002787 reinforcement Effects 0.000 title claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 420
- 238000000034 method Methods 0.000 claims description 94
- 238000012549 training Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 description 84
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000004590 computer program Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 11
- 230000001276 controlling effect Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 230000000272 proprioceptive effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 231100000735 select agent Toxicity 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Description
本出願は、2020年6月5日に出願した、米国仮出願第63/035,467号の優先権を主張するものである。先願の開示は、本出願の開示の一部であると見なされ、参照により本出願の開示に組み込まれる。
102 エージェント
104 環境
106 観測
110 データ
120 マネージャニューラルネットワーク
130 オプションポリシーニューラルネットワーク
140 オプション報酬ニューラルネットワーク
150 オプション終了ニューラルネットワーク
160 トレーニングエンジン
Claims (23)
- 環境と対話しながら複数のタスクを実行するようにエージェントを制御するためのコンピュータに実装されるシステムであって、複数の時間ステップの各々において、前記エージェントによって実行されることになるアクションを選択するための出力を生成するために前記環境の現状を特徴付ける観測を含む入力を処理し、前記アクションに応答してタスク報酬を受信するように構成され、前記システムが、
マネージャニューラルネットワークと、複数のオプションポリシーニューラルネットワークのセットであって、各オプションポリシーニューラルネットワークが、それぞれのオプションポリシーに従って前記エージェントによって実行されることになるアクションのシーケンスを選択するためのものである複数のオプションポリシーニューラルネットワークのセットと、
前記複数のオプションポリシーニューラルネットワークの各々に対して1つ、複数のオプション報酬ニューラルネットワークのセットとを備え、
前記マネージャニューラルネットワークが、ある時間ステップにおいて、
マネージャアクションのセットから1つのマネージャアクションを選択するための出力を生成するために、前記マネージャニューラルネットワークのパラメータ値に従って、前記観測と、前記エージェントによって現在実行されている前記タスクのうちの1つを識別するデータとを処理することであって、マネージャアクションの前記セットが、前記エージェントによって実行され得る考えられるアクションとオプション選択アクションのセットとを含み、各オプション選択アクションが、前記複数のオプションポリシーニューラルネットワークのうちの1つのニューラルネットワークを選択する、処理すること
を行うように構成され、
前記複数のオプションポリシーニューラルネットワークの各々が、連続する時間ステップの各々において、
前記エージェントによって実行されることになるアクションを選択するための出力を生成するために、前記複数のオプションポリシーニューラルネットワークのパラメータ値によって定義されたオプションポリシーに従って、前記時間ステップにわたって前記観測を処理する
ように構成され、
前記1つのマネージャアクションがオプション選択アクションであるとき、前記1つのマネージャアクションによって選択される前記1つのニューラルネットワークが、オプション終了基準が満たされるまでの連続時間ステップにわたってアクションを選択するための前記出力を生成し、前記1つのマネージャアクションが、前記エージェントによって実行され得る前記考えられるアクションのうちの1つであるとき、前記アクションを選択するための前記出力が前記1つのマネージャアクションであり、
前記複数のオプション報酬ニューラルネットワークの各々が、時間ステップにわたって、
前記複数のオプションポリシーニューラルネットワークの各々のためのオプション報酬を生成するために、前記複数のオプション報酬ニューラルネットワークのパラメータ値に従って、前記観測を処理する
ように構成され、
前記システムが、前記タスク報酬を使用して前記複数のオプション報酬ニューラルネットワークの前記セットおよび前記マネージャニューラルネットワークをトレーニングし、前記オプション報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々をトレーニングするように構成される
システム。 - 前記複数のオプション報酬ニューラルネットワークのパラメータ値が、前記環境からのリターンを最適化するために、前記複数のオプションポリシーニューラルネットワークの各々の制御下で前記エージェントの前記環境との対話に基づいて調整されるメタ勾配トレーニング技法で前記タスク報酬を使用して前記複数のオプション報酬ニューラルネットワークの各々をトレーニングするように構成される、請求項1に記載のシステム。
- 前記タスク報酬を使用してオプション報酬ニューラルネットワークの前記セットおよび前記マネージャニューラルネットワークをトレーニングし、
前記オプション選択アクションの後、前記オプション終了基準が満たされるまでの連続する時間ステップの間、
前記タスク報酬を使用して前記マネージャニューラルネットワークの前記パラメータ値を更新し、
前記オプション報酬を使用して、前記オプション選択アクションによって選択された前記複数のオプションポリシーニューラルネットワークの各々の前記パラメータ値を更新し、次いで、
前記オプション終了基準が満たされた後、
前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション報酬ニューラルネットワークの前記パラメータ値を更新することによって、前記オプション報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々をトレーニングするように構成される、請求項1または2に記載のシステム。 - 前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション報酬ニューラルネットワークの前記パラメータ値を前記更新することが、
前記オプション選択アクションによって選択された前記複数のオプションポリシーニューラルネットワークの各々によって選択された1つまたは複数のアクションのシーケンス、ならびに対応する観測およびタスク報酬を含む軌跡を生成することと、
前記軌跡からの前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション報酬ニューラルネットワークの前記パラメータ値を更新することと
を含む、請求項3に記載のシステム。 - 前記軌跡からの前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション報酬ニューラルネットワークの前記パラメータ値を前記更新することが、前記複数のオプションポリシーニューラルネットワークの各々を通して、かつ前記複数のオプションポリシーニューラルネットワークの各々のための前記オプション報酬ニューラルネットワークの1つを通して、前記軌跡からの前記タスク報酬に基づいてオプション報酬目的関数の勾配を逆伝搬することを含む、請求項4に記載のシステム。
- 前記マネージャニューラルネットワークの前記パラメータ値と、前記複数のオプションポリシーニューラルネットワークの各々の前記パラメータ値と、前記複数のオプション報酬ニューラルネットワークの前記パラメータ値と、のうちの1つまたは複数を前記更新することが、nステップリターンに基づいて更新することを含む、請求項3から5のいずれか一項に記載のシステム。
- 前記タスク報酬を使用して前記マネージャニューラルネットワークの前記パラメータ値を前記更新することが、マネージャ目的関数の勾配を逆伝搬することを含み、前記複数のオプションポリシーニューラルネットワークの各々の前記パラメータ値を前記更新することが、オプションポリシー目的関数の勾配を逆伝搬することを含み、前記マネージャ目的関数および前記オプションポリシー目的関数が各々、それぞれの強化学習目的関数を含む、請求項3から6のいずれか一項に記載のシステム。
- 前記マネージャ目的関数および前記オプションポリシー目的関数の前記勾配が、それぞれのポリシー勾配を含む、請求項7に記載のシステム。
- 前記複数のオプションポリシーニューラルネットワークの各々に対して1つ、複数のオプション終了ニューラルネットワークのセットをさらに備え、前記複数のオプション終了ニューラルネットワークの各々が、前記時間ステップの各々において、
前記複数のオプションポリシーニューラルネットワークの各々のためのオプション終了値を生成するために、前記複数のオプション報酬ニューラルネットワークの前記パラメータ値に従って、前記観測を処理する
ように構成され、
前記複数のオプション報酬ニューラルネットワークの各々に対して、前記オプション終了値が、前記オプション終了基準が満たされるかどうかを決定する
請求項1から8のいずれか一項に記載のシステム。 - 前記複数のオプション終了ニューラルネットワークのパラメータ値が、前記環境からのリターンを最適化するために、前記複数のオプションポリシーニューラルネットワークの各々の制御下で前記エージェントの前記環境との対話に基づいて調整されるメタ勾配トレーニング技法で前記タスク報酬を使用して前記複数のオプション終了ニューラルネットワークをトレーニングするように構成される、請求項9に記載のシステム。
- 前記オプション終了基準が前記複数のオプションポリシーニューラルネットワークの各々に対して満たされた後、
前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション終了ニューラルネットワークの前記パラメータ値を更新することによって、前記複数のオプション終了ニューラルネットワークの前記セットをトレーニングするように構成される、請求項9または10に記載のシステム。 - 前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション終了ニューラルネットワークの前記パラメータ値を前記更新することが、
前記オプション選択アクションによって選択された前記複数のオプションポリシーニューラルネットワークの各々によって選択された1つまたは複数のアクションのシーケンス、ならびに対応する観測およびタスク報酬を含む軌跡を生成することと、
前記軌跡からの前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション終了ニューラルネットワークの前記パラメータ値を更新することと
を含む、請求項11に記載のシステム。 - 前記軌跡からの前記タスク報酬を使用して前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション終了ニューラルネットワークの前記パラメータ値を前記更新することが、前記複数のオプションポリシーニューラルネットワークの各々を通して、かつ前記複数のオプションポリシーニューラルネットワークの各々のための前記複数のオプション終了ニューラルネットワークを通して、前記軌跡からの前記タスク報酬に基づいてオプション終了目的関数の勾配を逆伝搬することを含む、請求項12に記載のシステム。
- 前記マネージャニューラルネットワークの現在のパラメータ値に従って、マネージャアクションを選択するときに前記環境から予想されるタスク報酬を含む予想されるリターンと切替えコストとに応じて、前記マネージャニューラルネットワークをトレーニングするように構成される、請求項1から13のいずれか一項に記載のシステム。
- 前記切替えコストが、前記タスク報酬、または前記マネージャニューラルネットワークの前記パラメータ値を更新するために使用されるリターンを低減するように構成される、請求項14に記載のシステム。
- 前記複数のオプションポリシーニューラルネットワークの前記セットが、共有されるオプションポリシーニューラルネットワーク本体上にオプションポリシーニューラルネットワークヘッドのセットを備え、前記複数のオプション報酬ニューラルネットワークの前記セットが、共有されるオプション報酬ニューラルネットワーク本体上にオプション報酬ニューラルネットワークヘッドのセットを備える、請求項1から15のいずれか一項に記載のシステム。
- 環境と対話しながら複数のタスクを実行するようにエージェントを制御するために使用されるシステムをトレーニングするコンピュータに実装される方法であって、前記システムが、複数の時間ステップの各々において、前記エージェントによって実行されることになるアクションを選択するための出力を生成するために前記環境の現状を特徴付ける観測を含む入力を処理し、前記アクションに応答してタスク報酬を受信するように構成され、前記方法が、
観測と、前記エージェントによって現在実行されている前記複数のタスクのうちの1つを識別するタスク識別データとを取得するステップと、
マネージャアクションのセットから1つのマネージャアクションを選択するための出力を生成するために、マネージャニューラルネットワークのパラメータ値に従って、前記観測および前記タスク識別データを処理するステップであって、
マネージャアクションの前記セットが、前記エージェントによって実行され得る考えられるアクションとオプション選択アクションのセットとを含み、各オプション選択アクションが、複数のオプションポリシーニューラルネットワークのセットのうちの1つのニューラルネットワークを選択するためのものである、ステップと、
前記1つのマネージャアクションが前記エージェントによって実行され得る前記考えられるアクションのうちの1つであるとき、前記エージェントによって実行されることになるアクションを選択するための出力を生成するために、前記選択されたマネージャアクションを使用するステップと、
前記1つのマネージャアクションがオプション選択アクションであるとき、前記1つのニューラルネットワークを選択し、オプション終了基準が満たされるまでの連続時間ステップにわたって、前記エージェントによって実行されることになる前記アクションを選択するための前記出力を生成するために、前記1つのニューラルネットワークのパラメータ値によって定義されたオプションポリシーに従って、前記時間ステップにわたって前記観測を処理するステップと、
前記複数のオプションポリシーニューラルネットワークに対して1つ、複数のオプション報酬ニューラルネットワークのセットを維持するステップと、
前記1つのニューラルネットワークによる前記連続時間ステップにわたる前記観測の処理に基づいて、
前記複数のオプション報酬ニューラルネットワークの各々のパラメータ値に従って前記観測を処理することによって生成されたオプション報酬を使用して、前記1つのニューラルネットワークをトレーニングするステップと、
前記タスク報酬を使用して前記マネージャニューラルネットワークをトレーニングするステップと、
前記1つのニューラルネットワークによる前記連続時間ステップにわたる前記観測の処理の後、前記タスク報酬を使用して前記複数のオプション報酬ニューラルネットワークの各々をトレーニングするステップと
を含む、方法。 - 前記複数のオプション報酬ニューラルネットワークの各々を前記トレーニングするステップが、前記タスク報酬を受信するための1つまたは複数の観測に応答して前記環境において実行されることになる1つまたは複数のさらなるアクションを選択するために、前記トレーニングの後、前記1つのニューラルネットワークを使用するステップと、前記さらなるアクションに応答して受信された前記タスク報酬を使用して前記複数のオプション報酬ニューラルネットワークの各々をトレーニングするステップとを含む、請求項17に記載の方法。
- 各々がそれぞれのオプションポリシーニューラルネットワークに対して前記オプション終了基準が満たされるかどうかを決定する複数のオプション終了ニューラルネットワークのパラメータ値に従ってオプション終了値を提供する、前記複数のオプションポリシーニューラルネットワークの各々に対して1つ、前記複数のオプション終了ニューラルネットワークのセットを維持するステップと、
前記1つのニューラルネットワークによる前記連続時間ステップにわたる前記観測の処理中、前記複数のオプション終了ニューラルネットワークの前記パラメータ値を固定するステップと、
前記1つのニューラルネットワークの前記連続時間ステップにわたる前記観測の処理の後、前記タスク報酬を使用して前記複数のオプション終了ニューラルネットワークの各々をトレーニングするステップと
をさらに含む、請求項17または18に記載の方法。 - 前記タスク報酬を使用して前記複数のオプション終了ニューラルネットワークの各々を前記トレーニングするステップが、前記タスク報酬を受信するための1つまたは複数の観測に応答して前記環境において実行されることになる1つまたは複数のさらなるアクションを選択するために、前記1つのニューラルネットワークを使用するステップと、前記さらなるアクションに応答して受信された前記タスク報酬を使用して前記複数のオプション終了ニューラルネットワークの各々をトレーニングするステップとを含む、請求項19に記載の方法。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から16のいずれか一項に記載のシステムまたは請求項17から20のいずれか一項に記載の方法を実装させる、コンピュータ可読命令。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から16のいずれか一項に記載のシステムまたは請求項17から20のいずれか一項に記載の方法を実装させるコンピュータ可読命令を記憶した1つまたは複数のコンピュータ記憶媒体。
- 1つまたは複数のコンピュータと、命令を記憶した1つまたは複数の記憶デバイスとを備えたシステムであって、前記命令が、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項17から20のいずれか一項に記載の方法のそれぞれの動作を実行させる、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063035467P | 2020-06-05 | 2020-06-05 | |
US63/035,467 | 2020-06-05 | ||
PCT/EP2021/065124 WO2021245286A1 (en) | 2020-06-05 | 2021-06-07 | Learning options for action selection with meta-gradients in multi-task reinforcement learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023528150A JP2023528150A (ja) | 2023-07-04 |
JP7448683B2 true JP7448683B2 (ja) | 2024-03-12 |
Family
ID=76392367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561576A Active JP7448683B2 (ja) | 2020-06-05 | 2021-06-07 | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230144995A1 (ja) |
EP (1) | EP4111383A1 (ja) |
JP (1) | JP7448683B2 (ja) |
KR (1) | KR20220154785A (ja) |
CN (1) | CN115380293A (ja) |
WO (1) | WO2021245286A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149949A1 (en) * | 2018-02-05 | 2019-08-08 | Deepmind Technologies Limited | Distributed training using off-policy actor-critic reinforcement learning |
CN116755397B (zh) * | 2023-05-26 | 2024-01-23 | 北京航空航天大学 | 一种基于图卷积策略梯度的多机协同任务调度方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119926A (ja) | 2004-10-21 | 2006-05-11 | Honda Motor Co Ltd | 行動学習制御装置 |
JP2019530105A (ja) | 2016-10-10 | 2019-10-17 | ディープマインド テクノロジーズ リミテッド | ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク |
US20190354813A1 (en) | 2017-01-31 | 2019-11-21 | Deepmind Technologies Limited | Data-efficient reinforcement learning for continuous control tasks |
JP2019534517A (ja) | 2016-11-04 | 2019-11-28 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
-
2021
- 2021-06-07 US US17/918,365 patent/US20230144995A1/en active Pending
- 2021-06-07 KR KR1020227035836A patent/KR20220154785A/ko unknown
- 2021-06-07 CN CN202180026583.3A patent/CN115380293A/zh active Pending
- 2021-06-07 EP EP21731744.5A patent/EP4111383A1/en active Pending
- 2021-06-07 WO PCT/EP2021/065124 patent/WO2021245286A1/en unknown
- 2021-06-07 JP JP2022561576A patent/JP7448683B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119926A (ja) | 2004-10-21 | 2006-05-11 | Honda Motor Co Ltd | 行動学習制御装置 |
JP2019530105A (ja) | 2016-10-10 | 2019-10-17 | ディープマインド テクノロジーズ リミテッド | ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク |
JP2019534517A (ja) | 2016-11-04 | 2019-11-28 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
US20190354813A1 (en) | 2017-01-31 | 2019-11-21 | Deepmind Technologies Limited | Data-efficient reinforcement learning for continuous control tasks |
Also Published As
Publication number | Publication date |
---|---|
EP4111383A1 (en) | 2023-01-04 |
WO2021245286A1 (en) | 2021-12-09 |
KR20220154785A (ko) | 2022-11-22 |
US20230144995A1 (en) | 2023-05-11 |
JP2023528150A (ja) | 2023-07-04 |
CN115380293A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
JP7335434B2 (ja) | 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練 | |
US11263531B2 (en) | Unsupervised control using learned rewards | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US10635944B2 (en) | Self-supervised robotic object interaction | |
WO2019149949A1 (en) | Distributed training using off-policy actor-critic reinforcement learning | |
CN112119404A (zh) | 样本高效的强化学习 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
US11604941B1 (en) | Training action-selection neural networks from demonstrations using multiple losses | |
US20220076099A1 (en) | Controlling agents using latent plans | |
CN112334914A (zh) | 使用生成式前导神经网络的模仿学习 | |
KR20230010746A (ko) | 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝 | |
US20230325635A1 (en) | Controlling agents using relative variational intrinsic control | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment | |
US20240126812A1 (en) | Fast exploration and learning of latent graph models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240229 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7448683 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |