JP2022504739A - 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 - Google Patents
時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 Download PDFInfo
- Publication number
- JP2022504739A JP2022504739A JP2021519878A JP2021519878A JP2022504739A JP 2022504739 A JP2022504739 A JP 2022504739A JP 2021519878 A JP2021519878 A JP 2021519878A JP 2021519878 A JP2021519878 A JP 2021519878A JP 2022504739 A JP2022504739 A JP 2022504739A
- Authority
- JP
- Japan
- Prior art keywords
- time step
- time
- read
- external memory
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012546 transfer Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 230000002787 reinforcement Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 110
- 230000015654 memory Effects 0.000 claims description 91
- 239000003795 chemical substances by application Substances 0.000 claims description 86
- 239000013598 vector Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000004048 modification Effects 0.000 claims description 18
- 238000012986 modification Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 14
- 102000004169 proteins and genes Human genes 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000000543 intermediate Substances 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000011524 similarity measure Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 241000282813 Aepyceros melampus Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000012707 chemical precursor Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005226 mechanical processes and functions Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7796—Active pattern-learning, e.g. online learning of image or video features based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
102 エージェント
104 環境
106 行動
110 制御ニューラルネットワークシステム
118 モデルパラメータ
120 観測
122 行動選択出力
124 報酬
126 価値予測
150 トレーニングエンジン
170 報酬修正エンジン
172 修正された報酬
202 時間ステップ
204 時間ステップ
300 プロセス
500 プロセス
Claims (14)
- 指定されたタスクを実行するために環境と対話しているエージェントを制御するために使用されるニューラルネットワークシステムをトレーニングする方法であって、
前記エージェントに前記エージェントが前記指定されたタスクの実行を試みるタスクエピソードを実行させるステップであって、前記タスクエピソード中の時間ステップのシーケンスの各々において、
前記環境の現在の状態を特徴付ける観測を取得するステップと、
前記ニューラルネットワークシステムを使用して、前記観測に応答して前記エージェントによって実行されることになる行動を前記観測から選択するステップと、
前記ニューラルネットワークシステムを使用して、前記指定されたタスクを成功裏に実行するために前記現在の状態にある前記環境の価値を表す価値予測を生成するステップと、
前記エージェントに前記選択された行動を実行させるステップと、
応答して、前記エージェントが前記選択された行動を実行する結果として、前記環境内での進展を特徴付ける実際の報酬を受信するステップと
を含む、実行させるステップと、
前記シーケンス内の1つまたは複数の特定の時間ステップの各々に対して、
(i)前記時間ステップにおける前記実際の報酬、および(ii)前記シーケンス内の前記特定の時間ステップの後のしきい値の時間ステップ数を上回る1つまたは複数の時間ステップにおける価値予測から、前記特定の時間ステップに対する修正された報酬を生成するステップと、
強化学習を通して、前記特定の時間ステップに対する前記修正された報酬を少なくとも使用して、前記ニューラルネットワークシステムをトレーニングするステップと
を含む、方法。 - 前記ニューラルネットワークシステムが外部メモリで増強され、
前記エージェントに前記タスクエピソードを前記実行させるステップが、前記シーケンス内の各時間ステップにおいて、
1つまたは複数の読取りヘッドの各々に対して、前記外部メモリからデータを読み取るステップと、
データを前記外部メモリに書き込むステップと
をさらに含み、
各時間ステップにおいて実行されることになる前記行動を選択するステップが、(i)先行する時間ステップにおいて前記外部メモリから読み取られたデータ、または(ii)前記時間ステップにおいて前記外部メモリから読み取られたデータを少なくとも使用して、前記行動を選択するステップを含み、
各時間ステップにおいて前記価値予測を生成するステップが、(i)先行する時間ステップにおいて前記外部メモリから読み取られたデータ、または(ii)前記時間ステップにおいて前記外部メモリから読み取られたデータを少なくとも使用して、前記価値予測を生成するステップを含む、請求項1に記載の方法。 - 1つまたは複数の特定の時間ステップの各々に対する修正された報酬を生成するステップが、
前記1つまたは複数の読取りヘッドの各々に対して、
データが前記時間ステップにおいて前記読取りヘッドに対して前記外部メモリから読み取られた強度に基づいて、時間ステップの前記シーケンス内の1つまたは複数の時間ステップをスプライス時間ステップとして識別するステップと、
各スプライス時間ステップに対して、
前記シーケンス内の前記スプライス時間ステップの前の前記しきい値の時間ステップ数を上回る1つまたは複数の特定の時間ステップを識別するステップと、
前記スプライス時間ステップにおいて前記外部メモリから読み取られた前記データを使用して生成された価値予測から各識別された時間ステップに対する前記報酬に対する修正を生成するステップと、
対応する時間ステップに対する前記実際の報酬に前記修正を適用するステップと
を含む、請求項2に記載の方法。 - 前記外部メモリからデータを前記読み取るステップが、
各読取りヘッドに対して、前記外部メモリが前記時間ステップにおいてどの程度強く読み取られるかを定義する読取り強度パラメータを生成するステップ
を含み、
データが前記時間ステップにおいて前記読取りヘッドに対して前記外部メモリから読み取られた強度に基づいて、時間ステップの前記シーケンス内の1つまたは複数の時間ステップをスプライス時間ステップとして前記識別するステップが、
前記読取りヘッドに対する前記読取り強度パラメータがしきい値を超える1つまたは複数の時間ステップをスプライス時間ステップとして識別するステップ
を含む、請求項3に記載の方法。 - 前記読取り強度パラメータがしきい値を超える1つまたは複数の時間ステップをスプライス時間ステップとして前記識別するステップが、
前記読取りヘッドに対する前記読取り強度パラメータが前記しきい値を超える連続時間ステップの窓を識別するステップと、
前記読取りヘッドに対する前記読取り強度パラメータが最高である前記窓内の前記時間ステップをスプライス時間ステップとして識別するステップと
を含む、請求項4に記載の方法。 - 前記読取り強度パラメータがしきい値を超える1つまたは複数の時間ステップをスプライス時間ステップとして前記識別するステップが、
時間ステップの前記窓を識別するのに先立って、(i)前記時間ステップに対する時間指数と、(ii)前記時間ステップにおいて前記読取りヘッドに対して前記外部メモリから読み取るとき、任意の時間ステップの最大重みを有する前記時間ステップに対する時間指数との間の差異が一定値に満たない時間ステップに対して、前記読取りヘッドに対する前記読取り強度パラメータをゼロに設定するステップ
を含む、請求項5に記載の方法。 - 前記シーケンス内の前記スプライス時間ステップの前の前記しきい値の時間ステップ数を上回る1つまたは複数の特定の時間ステップを識別するステップが、
半減期値を決定するステップと、
前記シーケンス内の前記スプライス時間ステップの前の前記半減期値を上回る各時間ステップを特定の時間ステップとして識別するステップと
を含む、請求項3から6のいずれか一項に記載の方法。 - 各読取りヘッドに対して、かつ各時間ステップに対して、前記外部メモリから前記読み取るステップが、
各先行する時間ステップにおいて前記外部メモリに書き込まれた前記データにそれぞれの重みを割り当てるステップと、
前記それぞれの重みに従って、各先行する時間ステップにおいて前記外部メモリに書き込まれた前記データを結合させる読取りベクトルを生成するステップと
を含む、請求項3から7のいずれか一項に記載の方法。 - 前記スプライス時間ステップにおいて前記外部メモリから読み取られた前記データを使用して生成された価値予測から各識別された時間ステップに対する前記報酬に対する修正を前記生成するステップが、
(i)将来の値割引係数、(ii)前記スプライス時間ステップにおいて前記外部メモリから読み取る間に前記識別された時間ステップに割り当てられた重み、および(iii)前記スプライス時間ステップにおいて前記外部メモリから読み取られた前記データを使用して生成された前記価値予測から前記識別された時間ステップに対する前記修正を生成するステップ
を含む、請求項8に記載の方法。 - 強化学習を通して、前記特定の時間ステップに対する前記修正された報酬を少なくとも使用して、前記ニューラルネットワークシステムを前記トレーニングするステップが、ポリシー勾配損失を含む損失関数を最小化するように前記ニューラルネットワークシステムをトレーニングするステップを含む、請求項1から9のいずれか一項に記載の方法。
- 前記損失関数が再構築損失を含む、請求項10に記載の方法。
- 前記損失関数が、読取り強度がしきい値を超えるときはいつでも、正規化コストを課す読取り再構築損失を含む、請求項1から11のいずれか一項に記載の方法。
- 命令を記憶した1つまたは複数のコンピュータ可読記憶媒体であって、前記命令が、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から12のいずれか一項に記載の方法のそれぞれの動作を実行させる、1つまたは複数のコンピュータ可読記憶媒体。
- 1つまたは複数のコンピュータと、命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記命令が、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から12のいずれか一項に記載の方法のそれぞれの動作を実行させる、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862745202P | 2018-10-12 | 2018-10-12 | |
US62/745,202 | 2018-10-12 | ||
PCT/EP2019/077704 WO2020074741A1 (en) | 2018-10-12 | 2019-10-14 | Controlling agents over long time scales using temporal value transport |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022504739A true JP2022504739A (ja) | 2022-01-13 |
JP7139524B2 JP7139524B2 (ja) | 2022-09-20 |
Family
ID=68242687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021519878A Active JP7139524B2 (ja) | 2018-10-12 | 2019-10-14 | 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10789511B2 (ja) |
EP (1) | EP3864581A1 (ja) |
JP (1) | JP7139524B2 (ja) |
KR (1) | KR20210053970A (ja) |
CN (1) | CN112840359B (ja) |
WO (1) | WO2020074741A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909970B2 (en) * | 2018-09-19 | 2021-02-02 | Adobe Inc. | Utilizing a dynamic memory network to track digital dialog states and generate responses |
KR20210053970A (ko) | 2018-10-12 | 2021-05-12 | 딥마인드 테크놀로지스 리미티드 | TVT(temporal value transport)를 사용하여 롱 타임 스케일에 대한 에이전트 제어 |
US11247571B2 (en) * | 2019-11-18 | 2022-02-15 | GM Global Technology Operations LLC | Intelligent energy management system for a vehicle and corresponding method |
US20220172104A1 (en) * | 2020-11-30 | 2022-06-02 | Tamkang University | Server of reinforcement learning system and reinforcement learning method |
KR20240070376A (ko) * | 2022-11-14 | 2024-05-21 | 주식회사 마키나락스 | 지연된 보상에 기초하여 공조 장치를 제어하기 위한 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2004068399A1 (ja) * | 2003-01-31 | 2006-05-25 | 松下電器産業株式会社 | 予測型行動決定装置および行動決定方法 |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
JP2018083238A (ja) * | 2016-11-21 | 2018-05-31 | ファナック株式会社 | 数値制御装置 |
JP2018525759A (ja) * | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004068399A (ja) | 2002-08-06 | 2004-03-04 | Sugimoto Kenchiku Kenkyusho:Kk | 建築用構造材 |
DE102007001025B4 (de) * | 2007-01-02 | 2008-11-20 | Siemens Ag | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
US10282512B2 (en) * | 2013-07-09 | 2019-05-07 | Indiana University Research And Technology Corporation | Clinical decision-making artificial intelligence object oriented system and method |
KR102140672B1 (ko) * | 2015-09-11 | 2020-08-03 | 구글 엘엘씨 | 트레이닝 증강 학습 신경 네트워크 |
US10936946B2 (en) * | 2015-11-12 | 2021-03-02 | Deepmind Technologies Limited | Asynchronous deep reinforcement learning |
CN108604314B (zh) * | 2015-12-01 | 2022-08-19 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
EP3459018B1 (en) * | 2016-05-20 | 2021-10-20 | Deepmind Technologies Limited | Reinforcement learning using pseudo-counts |
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
CN107351080B (zh) * | 2017-06-16 | 2020-12-01 | 浙江大学 | 一种基于相机单元阵列的混合智能研究系统及控制方法 |
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
CN108519556A (zh) * | 2018-04-13 | 2018-09-11 | 重庆邮电大学 | 一种基于循环神经网络的锂离子电池soc预测方法 |
CN108509654B (zh) * | 2018-04-18 | 2021-12-28 | 上海交通大学 | 动态知识图谱的构建方法 |
KR20210053970A (ko) | 2018-10-12 | 2021-05-12 | 딥마인드 테크놀로지스 리미티드 | TVT(temporal value transport)를 사용하여 롱 타임 스케일에 대한 에이전트 제어 |
-
2019
- 2019-10-14 KR KR1020217009924A patent/KR20210053970A/ko not_active Application Discontinuation
- 2019-10-14 US US16/601,324 patent/US10789511B2/en active Active
- 2019-10-14 WO PCT/EP2019/077704 patent/WO2020074741A1/en unknown
- 2019-10-14 EP EP19787232.8A patent/EP3864581A1/en active Pending
- 2019-10-14 JP JP2021519878A patent/JP7139524B2/ja active Active
- 2019-10-14 CN CN201980066782.XA patent/CN112840359B/zh active Active
-
2020
- 2020-09-28 US US17/035,546 patent/US11769049B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2004068399A1 (ja) * | 2003-01-31 | 2006-05-25 | 松下電器産業株式会社 | 予測型行動決定装置および行動決定方法 |
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
JP2018525759A (ja) * | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
JP2018083238A (ja) * | 2016-11-21 | 2018-05-31 | ファナック株式会社 | 数値制御装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7139524B2 (ja) | 2022-09-20 |
US11769049B2 (en) | 2023-09-26 |
CN112840359B (zh) | 2024-05-14 |
EP3864581A1 (en) | 2021-08-18 |
US10789511B2 (en) | 2020-09-29 |
CN112840359A (zh) | 2021-05-25 |
US20200117956A1 (en) | 2020-04-16 |
WO2020074741A1 (en) | 2020-04-16 |
US20210081723A1 (en) | 2021-03-18 |
KR20210053970A (ko) | 2021-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842261B2 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
JP7139524B2 (ja) | 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御 | |
US11868866B2 (en) | Controlling agents using amortized Q learning | |
JP2020508524A (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
US20230090658A1 (en) | Controlling agents using scene memory data | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
CN116848532A (zh) | 具有短期记忆单元的注意力神经网络 | |
US20220237488A1 (en) | Hierarchical policies for multitask transfer | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment | |
WO2024126633A1 (en) | Training modular agent networks using layout data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7139524 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |