JP2023512722A - 適応リターン計算方式を用いた強化学習 - Google Patents
適応リターン計算方式を用いた強化学習 Download PDFInfo
- Publication number
- JP2023512722A JP2023512722A JP2022548005A JP2022548005A JP2023512722A JP 2023512722 A JP2023512722 A JP 2023512722A JP 2022548005 A JP2022548005 A JP 2022548005A JP 2022548005 A JP2022548005 A JP 2022548005A JP 2023512722 A JP2023512722 A JP 2023512722A
- Authority
- JP
- Japan
- Prior art keywords
- reward
- action
- environment
- return
- intrinsic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 69
- 230000002787 reinforcement Effects 0.000 title claims abstract description 9
- 230000003044 adaptive effect Effects 0.000 title abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000003860 storage Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 206
- 238000013528 artificial neural network Methods 0.000 claims description 127
- 238000012549 training Methods 0.000 claims description 79
- 238000012545 processing Methods 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 abstract description 17
- 239000003795 chemical substances by application Substances 0.000 description 99
- 230000015654 memory Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000004088 simulation Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000004821 distillation Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 206010048669 Terminal state Diseases 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000009428 plumbing Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/002—Special television systems not provided for by H04N7/007 - H04N7/18
- H04N7/005—Special television systems not provided for by H04N7/007 - H04N7/18 using at least one opto-electrical conversion device
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
Description
Σiγi-t-1ri、
を満足する。ここでiは、エピソード内のtの後の時間ステップのすべてにわたって、またはエピソード内のtの後の時間ステップのいくつかの固定数に対して変動し、γはディスカウントファクタであり、riは時間ステップiにおける総報酬である。上式から分かるように、ディスカウントファクタの値が高いほど、リターン計算に対してより長い計画対象期間をもたらし、すなわち、時間ステップtから時間的により離れた時間ステップからの報酬が、リターン計算においてより大きい重みを与えられることをもたらす。
Q(x, a, j: θ)=Q(x, a, j: θe)+βj・Q(x, a, j: θi)
を満たすことができ、ここでQ(x, a, j: θe)はアクションaに対する外発的アクションスコアであり、Q(x, a, j: θi)はアクションaに対する内発的アクションスコアであり、βjはj番目の方式内のスケーリングファクタである。
Q(x, a, j: θ)=h(h-1(Q(x, a, j: θe))+βjh-1(Q(x, a, j: θi)))
を満たすことができ、ここでhは、ニューラルネットワークのために概算することを容易にするために、状態-アクション値関数、すなわち外発的および内発的報酬関数をスケーリングする単調増加の反転可能なスカッシング関数である。
102 アクション選択ニューラルネットワーク
104 エージェント
106 環境
108 アクション
110 観測値
112 リターン計算方式
114 アクションスコア
120 ポリシーデータ
130 外発的報酬
132 内発的報酬
200 訓練システム
202 総報酬
204 外発的報酬
206 内発的報酬、探査報酬
208 訓練エンジン
210 リターン計算方式
212 観測値
300 内発的報酬システム
302 埋め込みニューラルネットワーク
304 外部メモリ
306 比較エンジン
308 可制御性表現
Claims (16)
- タスクのエピソードを実行するために環境と相互作用するエージェントを制御するための方法であって、
複数の異なるリターン計算方式の間で選択するためのポリシーを規定するデータを維持するステップであって、各リターン計算方式が、異なる重要度を、前記タスクの前記エピソードを実行しながら前記環境を探査することに対して割り当てる、ステップと、
前記ポリシーを使用して、前記複数の異なるリターン計算方式からリターン計算方式を選択するステップと、
前記選択されたリターン計算方式に従って計算されたリターンを最大化するように前記タスクの前記エピソードを実行するために前記エージェントを制御するステップと、
前記エージェントが前記タスクの前記エピソードを実行した結果として生成された報酬を識別するステップと、
前記識別された報酬を使用して、複数の異なるリターン計算方式の間で選択するために前記ポリシーを更新するステップとを含む、方法。 - 前記複数の異なるリターン計算方式が、少なくとも、リターンを生成するために報酬を組み合わせることにおいて使用されるそれぞれのディスカウントファクタをそれぞれ規定する、請求項1に記載の方法。
- 前記複数の異なるリターン計算方式が、リターンを生成するときに前記環境から受信された外発的報酬に対する内発的報酬の重要度を定義する少なくとも1つのそれぞれの内発的報酬スケーリングファクタをそれぞれ規定する、請求項1または2に記載の方法。
- 前記選択されたリターン計算方式に従って計算されたリターンを最大化するように前記タスクの前記エピソードを実行するために前記エージェントを制御するステップが、以下の、
前記環境の現在の状態を特徴づける観測値を受信するステップと、
前記観測値、およびアクション選択出力を生成するために1つまたは複数のアクション選択ニューラルネットワークを使用して前記選択されたリターン計算方式を規定するデータを処理するステップと、
前記アクション選択出力を使用して前記エージェントによって実行されるアクションを選択するステップと
を反復して実行するステップを含む、請求項1から3のいずれか一項に記載の方法。 - 前記環境は実世界の環境であり、各観測値は前記環境を感知するように構成された少なくとも1つのセンサの出力であり、前記エージェントは前記環境と相互作用する機械的エージェントである、請求項4に記載の方法。
- 前記1つまたは複数のアクション選択ニューラルネットワークが、
前記環境との相互作用の間に受信された観測値に基づいて内発的報酬システムによって生成された内発的報酬のみから計算された内発的リターンを推定する内発的報酬アクション選択ニューラルネットワークと、
前記環境との相互作用の結果として前記環境から受信された外発的報酬のみから計算された外発的リターンを推定する外発的報酬アクション選択ニューラルネットワークとを含む、請求項4または5に記載の方法。 - 前記観測値、およびアクション選択出力を生成するために1つまたは複数のアクション選択ニューラルネットワークを使用して前記選択されたリターン計算方式を規定するデータを処理するステップが、アクションのセット内の各アクションに対して、
前記観測値、前記アクション、および前記エージェントが前記観測値に応答して前記アクションを実行する場合に受信される推定された内発的リターンを生成するために前記内発的報酬アクション選択ニューラルネットワークを使用して前記選択されたリターン計算方式を規定する前記データ、を処理するステップと、
前記観測値、前記アクション、および前記エージェントが前記観測値に応答して前記アクションを実行する場合に受信される推定された外発的リターンを生成するために前記外発的報酬アクション選択ニューラルネットワークを使用して前記選択されたリターン計算方式を規定する前記データ、を処理するステップと、
前記推定された内発的報酬および前記推定された外発的報酬から最終リターン推定を決定するステップとを含む、請求項6に記載の方法。 - 前記アクション選択出力を使用して前記エージェントによって実行されるアクションを選択するステップが、確率1-εの最高の最終リターン推定を用いて前記アクションを選択するステップと、確率εのアクションの前記セットからランダムアクションを選択するステップとを含む、請求項7に記載の方法。
- 前記2つのアクション選択ニューラルネットワークは、同じアーキテクチャを有するが異なるパラメータ値を有する、請求項6から8のいずれか一項に記載の方法。
- タスクエピソードの実行から訓練データを生成するステップと、
強化学習を通して前記訓練データ上で前記1つまたは複数のアクション選択ニューラルネットワークを訓練するステップとをさらに含む、請求項5から9のいずれか一項に記載の方法。 - 前記訓練データ上の前記1つまたは複数のアクション選択ニューラルネットワークを訓練するステップが、
前記タスクエピソードの前記実行の結果として生成された内発的報酬のみを使用して前記内発的報酬アクション選択ニューラルネットワークを訓練するステップと、
前記タスクエピソードの前記実行の間に受信された外発的報酬のみを使用して前記外発的報酬アクション選択ニューラルネットワークを訓練するステップとを含む、請求項6から9のいずれか一項にも従属する場合の請求項10に記載の方法。 - 前記ポリシーは、前記リターン計算方式の各々にそれぞれの報酬スコアを割り当てる、請求項1から11のいずれか一項に記載の方法。
- 前記ポリシーは、前記リターン計算方式の各々に対応するそれぞれの腕を有する非定常多腕バンディットアルゴリズムを使用して更新される、請求項1から12のいずれか一項に記載の方法。
- 前記識別された報酬を使用して、複数の異なるリターン計算方式の間で選択するために前記ポリシーを更新するステップが、
タスクエピソードの実行の間に受信された外発的報酬からディスカウントされない外発的リターンを決定するステップと、
前記ディスカウントされない外発的報酬を前記非定常多腕バンディットアルゴリズムに対する報酬信号として使用することによって前記ポリシーを更新するステップとを含む、請求項13に記載の方法。 - 1つまたは複数のコンピュータと、命令を記憶する1つまたは複数の記憶デバイスとを含むシステムであって、前記命令が、前記1つまたは複数のコンピュータによって実行されたとき、請求項1から14のいずれか一項に記載の方法の動作を前記1つまたは複数のコンピュータに実行させる、システム。
- 命令を記憶する1つまたは複数の非一時的コンピュータ記憶媒体であって、前記命令が、1つまたは複数のコンピュータによって実行されたとき、請求項1から14のいずれか一項に記載の方法の動作を前記1つまたは複数のコンピュータに実行させる、1つまたは複数の非一時的コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062971890P | 2020-02-07 | 2020-02-07 | |
US62/971,890 | 2020-02-07 | ||
PCT/EP2021/052988 WO2021156518A1 (en) | 2020-02-07 | 2021-02-08 | Reinforcement learning with adaptive return computation schemes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023512722A true JP2023512722A (ja) | 2023-03-28 |
Family
ID=74591970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022548005A Pending JP2023512722A (ja) | 2020-02-07 | 2021-02-08 | 適応リターン計算方式を用いた強化学習 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230059004A1 (ja) |
EP (1) | EP4100881A1 (ja) |
JP (1) | JP2023512722A (ja) |
KR (1) | KR20220137732A (ja) |
CN (1) | CN115298668A (ja) |
CA (1) | CA3167201A1 (ja) |
WO (1) | WO2021156518A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114362773B (zh) * | 2021-12-29 | 2022-12-06 | 西南交通大学 | 一种面向光学射频对消的实时自适应追踪决策方法 |
GB202202994D0 (en) * | 2022-03-03 | 2022-04-20 | Deepmind Tech Ltd | Agent control through cultural transmission |
CN114676635B (zh) * | 2022-03-31 | 2022-11-11 | 香港中文大学(深圳) | 一种基于强化学习的光学谐振腔反向设计和优化的方法 |
CN114492845B (zh) * | 2022-04-01 | 2022-07-15 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
WO2024056891A1 (en) * | 2022-09-15 | 2024-03-21 | Deepmind Technologies Limited | Data-efficient reinforcement learning with adaptive return computation schemes |
US20240112038A1 (en) * | 2022-09-26 | 2024-04-04 | Deepmind Technologies Limited | Controlling agents using reporter neural networks |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
-
2021
- 2021-02-08 KR KR1020227030755A patent/KR20220137732A/ko unknown
- 2021-02-08 US US17/797,878 patent/US20230059004A1/en active Pending
- 2021-02-08 JP JP2022548005A patent/JP2023512722A/ja active Pending
- 2021-02-08 CA CA3167201A patent/CA3167201A1/en active Pending
- 2021-02-08 CN CN202180021105.3A patent/CN115298668A/zh active Pending
- 2021-02-08 WO PCT/EP2021/052988 patent/WO2021156518A1/en unknown
- 2021-02-08 EP EP21704741.4A patent/EP4100881A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230059004A1 (en) | 2023-02-23 |
CA3167201A1 (en) | 2021-08-12 |
WO2021156518A1 (en) | 2021-08-12 |
KR20220137732A (ko) | 2022-10-12 |
CN115298668A (zh) | 2022-11-04 |
EP4100881A1 (en) | 2022-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3776364B1 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
JP2023512722A (ja) | 適応リターン計算方式を用いた強化学習 | |
JP7335434B2 (ja) | 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練 | |
US20230244936A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US20240028866A1 (en) | Jointly learning exploratory and non-exploratory action selection policies | |
CN112119404A (zh) | 样本高效的强化学习 | |
US20220366247A1 (en) | Training action selection neural networks using q-learning combined with look ahead search | |
EP3788549A1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
US11604941B1 (en) | Training action-selection neural networks from demonstrations using multiple losses | |
JP2023528150A (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
CN115066686A (zh) | 使用对规划嵌入的注意操作生成在环境中实现目标的隐式规划 | |
WO2020064873A1 (en) | Imitation learning using a generative predecessor neural network | |
JP2023545021A (ja) | パレートフロント最適化を使用する制約付き強化学習ニューラルネットワークシステム | |
EP3948670A1 (en) | Hierarchical policies for multitask transfer | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment | |
US12008077B1 (en) | Training action-selection neural networks from demonstrations using multiple losses | |
WO2024056891A1 (en) | Data-efficient reinforcement learning with adaptive return computation schemes | |
JP2024519271A (ja) | 弁別器モデルの集合を使用した強化学習 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240304 |