JP2019517074A - 疑似カウントを使用する強化学習 - Google Patents
疑似カウントを使用する強化学習 Download PDFInfo
- Publication number
- JP2019517074A JP2019517074A JP2018560871A JP2018560871A JP2019517074A JP 2019517074 A JP2019517074 A JP 2019517074A JP 2018560871 A JP2018560871 A JP 2018560871A JP 2018560871 A JP2018560871 A JP 2018560871A JP 2019517074 A JP2019517074 A JP 2019517074A
- Authority
- JP
- Japan
- Prior art keywords
- reward
- observation
- agent
- action
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims description 37
- 230000009471 action Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 230000004044 response Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 abstract description 16
- 239000003795 chemical substances by application Substances 0.000 description 57
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本出願は、全内容が参照により本明細書に組み込まれる、2016年5月20日に出願された米国仮特許出願第62/339,778号の非仮出願であり、その優先権を主張する。
ρn(x)≒ρ(x; x1:n)=Pγρ(Xn+1=x|X1...Xn=x1:n)
のように与えられる場合に、第1の観察値xが発生する尤度を表し、ここでPγρ(Xn+1=x|X1...Xn=x1:n)は、n個の以前の観察値X1,...,Xnが受信されている場合に、n+1番目の観察値Xn+1が第1の観察値xと同じである尤度を表す条件付き確率である。
ρ'n(x)≒ρ(x; x1:nx)
の新しい発生を観察した後の第1の観察値xに対するシーケンシャル密度モデルの値である。
ρ'n(x)=Pγρ(Xn+2=x|X1...Xn=x1:n, Xn+1=x)
のように決定されてもよく、ここでPγρ(Xn+2=x|X1...Xn=x1:n, Xn+1=x)は、n+1前の観察値x1:nおよびxが発生した場合に、新しい観察値、たとえばn+1番目の観察値Xn+1に続くn+2番目の観察値Xn+2(それは上記の第1の観察値と同じである)が、第1の観察値xと同じである尤度を表す条件付き確率である。
102 強化学習エージェント
104 環境
110 ニューラルネットワーク
120 計数システム
200 プロセス
Claims (12)
- 環境とインタラクションするエージェントによって実行されるべき行動を選択するために使用されるニューラルネットワークをトレーニングするための方法であって、
(i)前記環境の第1の状態を特徴付ける第1の観察値、(ii)前記第1の観察値に応答して前記エージェントによって実行される行動、および(iii)前記第1の観察値に応答して前記エージェントが前記行動を実行することに起因して受信された実際の報酬を識別するデータを取得するステップと、
前記第1の観察値に対する疑似カウントを決定するステップと、
前記第1の観察値に対する前記疑似カウントから前記環境を探求するように前記エージェントを動機付ける探求報酬ボーナスを決定するステップと、
前記実際の報酬および前記探求報酬ボーナスから組み合わされた報酬を生成するステップと、
前記組み合わされた報酬を使用して前記ニューラルネットワークの前記パラメータの現在の値を調整するステップと
を含む、方法。 - 前記疑似カウントが、前記第1の観察値に応答して行動を取ることの効果の確かさについて推定される尺度である、請求項1に記載の方法。
- 前記パラメータの前記現在の値を調整するステップが、
強化学習技法の反復を実行することにおいて、前記実際の報酬の代わりに前記組み合わされた報酬を使用するステップ
を含む、請求項1または2に記載の方法。 - 前記強化学習技法が、モンテカルロリターン内で混合されるダブルDQN技法である、請求項3に記載の方法。
- 前記強化学習技法が、アクター−クリティック技法である、請求項3に記載の方法。
- 前記組み合わされた報酬を生成するステップが、前記実際の報酬と前記探求報酬ボーナスとを合計するステップを含む、請求項1から5のいずれか一項に記載の方法。
- 前記再コーディング確率が、前記第1の観察値の新しい発生を観察した後の前記シーケンシャル密度モデルの値である、請求項8に記載の方法。
- 前記シーケンシャル密度モデルがピクセルレベルの密度モデルである、請求項8または9に記載の方法。
- 1つまたは複数のコンピュータと、命令を記憶する1つまたは複数の記憶デバイスとを含むシステムであって、前記命令が、前記1つまたは複数のコンピュータによって実行されたとき、請求項1から10のいずれか一項に記載の前記それぞれの方法の動作を前記1つまたは複数のコンピュータに実行させるように動作可能である、システム。
- 命令によって符号化されるコンピュータ記憶媒体であって、前記命令が、1つまたは複数のコンピュータによって実行されたとき、請求項1から10のいずれか一項に記載の前記それぞれの方法の動作を前記1つまたは複数のコンピュータに実行させる、コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662339778P | 2016-05-20 | 2016-05-20 | |
US62/339,778 | 2016-05-20 | ||
PCT/US2017/033218 WO2017201220A1 (en) | 2016-05-20 | 2017-05-18 | Reinforcement learning using pseudo-counts |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019517074A true JP2019517074A (ja) | 2019-06-20 |
JP6667674B2 JP6667674B2 (ja) | 2020-03-18 |
Family
ID=58779356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018560871A Active JP6667674B2 (ja) | 2016-05-20 | 2017-05-18 | 疑似カウントを使用する強化学習 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11727264B2 (ja) |
EP (1) | EP3459018B1 (ja) |
JP (1) | JP6667674B2 (ja) |
CN (1) | CN109155005A (ja) |
WO (1) | WO2017201220A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018083667A1 (en) * | 2016-11-04 | 2018-05-11 | Deepmind Technologies Limited | Reinforcement learning systems |
US10789511B2 (en) * | 2018-10-12 | 2020-09-29 | Deepmind Technologies Limited | Controlling agents over long time scales using temporal value transport |
JP7336856B2 (ja) * | 2019-03-01 | 2023-09-01 | 株式会社Preferred Networks | 情報処理装置、方法及びプログラム |
US20200285995A1 (en) * | 2019-03-05 | 2020-09-10 | Hrl Laboratories, Llc | Robust, scalable and generalizable machine learning paradigm for multi-agent applications |
CN111898727A (zh) * | 2019-05-06 | 2020-11-06 | 清华大学 | 基于短时访问机制的强化学习方法、装置及存储介质 |
CN112486584A (zh) * | 2019-08-23 | 2021-03-12 | 中国科学院深圳先进技术研究院 | 一种利用强化学习进行大数据平台调参的方法和系统 |
US11699062B2 (en) * | 2019-09-06 | 2023-07-11 | Honda Motor Co., Ltd. | System and method for implementing reward based strategies for promoting exploration |
CN110994620A (zh) * | 2019-11-16 | 2020-04-10 | 国网浙江省电力有限公司台州供电公司 | 一种基于Q-Learning算法的电网潮流智能调整方法 |
CN112883947B (zh) * | 2021-04-29 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9186793B1 (en) * | 2012-08-31 | 2015-11-17 | Brain Corporation | Apparatus and methods for controlling attention of a robot |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
-
2017
- 2017-05-18 EP EP17726168.2A patent/EP3459018B1/en active Active
- 2017-05-18 CN CN201780031296.5A patent/CN109155005A/zh active Pending
- 2017-05-18 WO PCT/US2017/033218 patent/WO2017201220A1/en active Search and Examination
- 2017-05-18 JP JP2018560871A patent/JP6667674B2/ja active Active
- 2017-05-18 US US16/303,501 patent/US11727264B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3459018B1 (en) | 2021-10-20 |
EP3459018A1 (en) | 2019-03-27 |
US11727264B2 (en) | 2023-08-15 |
JP6667674B2 (ja) | 2020-03-18 |
US20200327405A1 (en) | 2020-10-15 |
WO2017201220A1 (en) | 2017-11-23 |
CN109155005A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6667674B2 (ja) | 疑似カウントを使用する強化学習 | |
JP6828121B2 (ja) | 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練 | |
KR102172277B1 (ko) | 듀얼 심층 신경 네트워크 | |
CN108027897B (zh) | 利用深度强化学习的连续控制 | |
CN107851216B (zh) | 一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法 | |
EP3446260B1 (en) | Memory-efficient backpropagation through time | |
US11288568B2 (en) | Reinforcement learning using advantage estimates | |
JP2020522035A (ja) | 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索 | |
AU2016354558A1 (en) | Asynchronous deep reinforcement learning | |
JP2019533257A (ja) | ニューラルアーキテクチャ検索 | |
US11797839B2 (en) | Training neural networks using priority queues | |
JP6817456B2 (ja) | ニューラルエピソード制御 | |
US20190205757A1 (en) | Model-free control for reinforcement learning agents | |
WO2019222746A1 (en) | Reinforcement learning in combinatorial action spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6667674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |