JP7419547B2 - 学習済み隠れ状態を使用するエージェント制御のためのプランニング - Google Patents
学習済み隠れ状態を使用するエージェント制御のためのプランニング Download PDFInfo
- Publication number
- JP7419547B2 JP7419547B2 JP2022545880A JP2022545880A JP7419547B2 JP 7419547 B2 JP7419547 B2 JP 7419547B2 JP 2022545880 A JP2022545880 A JP 2022545880A JP 2022545880 A JP2022545880 A JP 2022545880A JP 7419547 B2 JP7419547 B2 JP 7419547B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- actions
- action
- environment
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 claims description 323
- 238000000034 method Methods 0.000 claims description 98
- 238000009826 distribution Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 51
- 230000000875 corresponding effect Effects 0.000 claims description 45
- 230000007613 environmental effect Effects 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 133
- 230000002787 reinforcement Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 238000012950 reanalysis Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 230000001276 controlling effect Effects 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000543 intermediate Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000009334 Singa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Description
本出願は、2020年1月28日にギリシャ特許庁に出願されたギリシャ特許出願第20200100037号の出願日の利益を米国特許法第119条(a)項に基づき主張するものである。前述の出願の開示は、全体が参照により本明細書に組み込まれる。
102 環境
104 観測
106 リウォード
108 エージェント
110 アクション
114 リプレイメモリ
116 訓練エンジン
120 プランニングエンジン
122 プランデータ
130 表現モデル
140 ダイナミクスモデル
150 予測モデル
160 アクションサンプリングエンジン
200 プロセス
302 状態木
312 ルートノード
332 ノード
400 プロセス
500 プロセス
602 軌跡
700 プロセス
Claims (24)
- アクションのセットから、環境とインタラクティブにやり取りするエージェントによって実行されるべきアクションを選択し、前記エージェントにタスクを実行させるための方法であって、
前記環境の現在の環境状態を特徴付ける現在の観測を受け取るステップと、
前記環境におけるアクションの前記セットからの複数のアクションの各々を実行し、前記現在の環境状態から始まる、前記エージェントの前記タスクを実行することに対するそれぞれの値を示すプランデータを生成する複数のプランニング反復を実行するステップであって、各プランニング反復を実行するステップは、
前記現在の環境状態から始まる前記エージェントによって実行されるべきアクションのシーケンスを、前記環境の状態木を走査するステップによって選択するステップであって、前記環境の前記状態木は前記環境の環境状態を表すノードと、前記環境の状態遷移を引き起こす前記エージェントによって実行され得るアクションを表すエッジとを有し、前記状態木を走査するステップは、
前記状態木のエッジに対する統計量を使用して、前記現在の環境状態を表す前記状態木のルートノードから始まり、前記状態木の葉ノードに到達するまで前記状態木を走査するステップと、
前記葉ノードによって表される環境状態に対応する隠れ状態を、入力として前記隠れ状態を受け取り、出力として少なくともアクションの前記セット上でスコア分布を定義する予測されたポリシー出力を生成するように構成される予測モデルを使用して、処理するステップと、
アクションの前記セットの適切なサブセットをサンプリングするステップと、
前記状態木を、各サンプリングされたアクションについて、前記状態木に、前記サンプリングされたアクションを表す前記葉ノードからのそれぞれの出て行くエッジを追加することによって更新するステップと、
前記統計量を、各サンプリングされたアクションについて、前記サンプリングされたアクションを表す前記それぞれの出て行くエッジを前記予測されたポリシー出力から導出される前記サンプリングされたアクションに対する事前確率と関連付けることによって、更新するステップとを含む、選択するステップを含む、実行するステップと、
前記プランデータを使用して前記現在の観測に応答して前記エージェントによって実行されるべきアクションを選択するステップとを含む方法。 - アクションの前記セットの適切なサブセットをサンプリングするステップは、
前記スコア分布からサンプリング分布を定義するデータを生成するステップと、
前記サンプリング分布から固定された数のサンプルをサンプリングするステップとを含む請求項1に記載の方法。 - 前記サンプリング分布を生成するステップは、温度パラメータで前記スコア分布を調節するステップを含む請求項2に記載の方法。
- 前記葉ノードが前記ルートノードと同じであるときに、前記サンプリング分布を生成するステップは、ノイズを前記スコア分布に加えるステップを含む請求項2または3に記載の方法。
- 前記スコア分布における前記アクションに対する前記スコアに補正係数を適用することによって前記サンプリングされたアクションに対するそれぞれの前記事前確率を生成するステップをさらに含む請求項2から4のいずれか一項に記載の方法。
- 前記補正係数は、(i)前記サンプリングされたアクションが前記固定された数のサンプルでサンプリングされた回数、および(ii)前記サンプリング分布において前記サンプリングされたアクションに割り当てられているスコアに基づく請求項5に記載の方法。
- 前記補正係数は、(i)前記サンプリングされたアクションがサンプリングされた前記回数とサンプルの前記固定された数との比と(ii)前記サンプリング分布において前記サンプリングされたアクションに割り当てられている前記スコアとの比に等しい請求項6に記載の方法。
- 前記プランデータは、前記複数のプランニング反復の間に前記対応するアクションが選択された回数を表す前記ルートノードからの各出て行くエッジに対するそれぞれの訪問カウントを含み、前記現在の観測に応答して前記エージェントによって実行されるべき前記アクションを選択するステップは、前記それぞれの訪問カウントを使用してアクションを選択するステップを含む請求項1から7のいずれか一項に記載の方法。
- システムであって、1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに請求項1から8のいずれか一項に記載の方法の動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステム。
- 1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに請求項1から8のいずれか一項に記載の方法の動作を実行させる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
- アクションのセットから、環境とインタラクティブにやり取りするエージェントによって実行されるべきアクションを選択し、前記エージェントにタスクを実行させるための方法であって、
前記環境の現在の環境状態を特徴付ける現在の観測を受け取るステップと、
前記環境におけるアクションの前記セットの各アクションを実行し、前記現在の環境状態から始まる、前記エージェントの前記タスクを実行することに対するそれぞれの値を示すプランデータを生成する複数のプランニング反復を実行するステップであって、各プランニング反復を実行するステップは、
前記エージェントによって実行されるべきアクションのシーケンスを、前記現在の環境状態から始めて、
(i)入力として、a)入力環境状態に対応する隠れ状態およびb)アクションの前記セットからの入力アクションを受け取り、出力として、少なくとも、前記環境が前記入力環境状態にあるときに前記エージェントが前記入力アクションを実行した場合に前記環境が遷移するであろう予測される次の環境状態に対応する隠れ状態を生成するように構成されるダイナミクスモデル、ならびに
(ii)入力として、前記予測された次の環境状態に対応する前記隠れ状態を受け取り、出力として、a)アクションの前記セット上でスコア分布を定義する予測されたポリシー出力、およびb)前記タスクの実行への前記予測された次の環境状態にある前記環境の値を表す値出力を生成するように構成される予測モデルによって生成される出力に基づき、選択するステップを含む、実行するステップと、
アクションの前記セットから、前記生成されたプランデータに基づき前記現在の観測に応答して前記エージェントによって実行されるべきアクションを選択するステップとを含む方法。 - 前記ダイナミクスモデルは、出力として、前記環境が前記入力環境状態にあるときに前記エージェントが前記入力アクションを実行した場合に受け取られるであろう即時リウォードを表す予測された即時リウォード値も生成し、前記即時リウォード値は、前記環境が前記入力環境状態にあるときに前記入力アクションを実行した結果として前記タスクを完了する際の進捗を表す数値である請求項11に記載の方法。
- アクションの前記シーケンスを選択するステップは、アクションの前記シーケンスを、
前記現在の観測を含む表現入力を受け取り、出力として、前記環境の前記現在の状態に対応する隠れ状態を生成するように構成される表現モデルによって生成された出力、に基づき選択するステップをさらに含む請求項11または12に記載の方法。 - 前記表現入力は、前記現在の状態に先立って前記環境が遷移した1つまたは複数の前の状態を特徴付ける1つまたは複数の前の観測をさらに含む請求項13に記載の方法。
- 前記表現モデル、前記ダイナミクスモデル、および前記予測モデルは、軌跡データのセットからのサンプリングされた軌跡上の共同訓練エンドツーエンドである請求項13または14に記載の方法。
- 前記表現モデル、前記ダイナミクスモデル、および前記予測モデルは、複数の特定の観測の各々について、
前記軌跡内の前記特定の観測によって表される前記状態に続く1つまたは複数の後続の状態の各々に対して、
(i)前記特定の観測を条件として生成された前記後続の状態に対する前記予測されたポリシー出力と、前記観測に応答してアクションを選択するために使用された実際のポリシーとの間のポリシー誤差と、
(ii)前記特定の観測を条件として生成された前記後続の状態について予測された前記値と、前記後続の状態から始めて受け取られる実際のリターンとの間の値誤差とを測定する対象上の共同訓練エンドツーエンドである請求項15に記載の方法。 - 前記対象は、また、前記複数の特定の観測の各々について、
前記軌跡内の前記特定の観測によって表される前記状態に続く前記1つまたは複数の後続の状態の各々に対して、
前記特定の観測を条件として生成された前記後続の状態に対する前記予測された即時リウォードと、前記後続の状態に対応する実際の即時リウォードとの間のリウォード誤差を測定する、請求項12の記載を引用する場合の請求項16に記載の方法。 - 前記ダイナミクスモデルおよび前記表現モデルは、前記隠れ状態を通して前記環境のセマンティクスをモデル化するように訓練されない請求項15から17のいずれか一項に記載の方法。
- 前記後続の状態から始まる前記実際のリターンは、ブートストラップされたnステップリターンである、請求項16もしくは17、または請求項16の記載を引用する場合の請求項18に記載の方法。
- アクションの前記セットから、前記生成されたプランデータに基づき前記現在の観測に応答して前記エージェントによって実行されるべきアクションを選択するステップは、マルコフ決定過程(MDP)プランニングアルゴリズムを使用して前記アクションを選択するステップを含む請求項11から18のいずれか一項に記載の方法。
- 各プランニング反復についてアクションの前記シーケンスを選択するステップおよび前記エージェントによって実行されるべき前記アクションを選択するステップは、モンテカルロ木探索(MCTS)アルゴリズムを使用して実行される請求項20に記載の方法。
- アクションの前記セットから、前記生成されたプランデータに基づき前記現在の観測に応答して前記エージェントによって実行されるべきアクションを選択するステップは、
前記プランデータ内のアクションの前記シーケンスから、最大の関連付けられた値出力を有するアクションのシーケンスを決定するステップと、
前記現在の観測に応答して前記エージェントによって実行されるべき前記アクションとして、アクションの前記決定されたシーケンス内の最初のアクションを選択するステップとを含む請求項20に記載の方法。 - システムであって、1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに請求項11から22のいずれか一項に記載の方法の動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステム。
- 1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに請求項11から22のいずれか一項に記載の方法の動作を実行させる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20200100037 | 2020-01-28 | ||
GR20200100037 | 2020-01-28 | ||
PCT/IB2021/050691 WO2021152515A1 (en) | 2020-01-28 | 2021-01-28 | Planning for agent control using learned hidden states |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023511630A JP2023511630A (ja) | 2023-03-20 |
JP7419547B2 true JP7419547B2 (ja) | 2024-01-22 |
Family
ID=74505312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022545880A Active JP7419547B2 (ja) | 2020-01-28 | 2021-01-28 | 学習済み隠れ状態を使用するエージェント制御のためのプランニング |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230073326A1 (ja) |
EP (1) | EP4097643A1 (ja) |
JP (1) | JP7419547B2 (ja) |
KR (1) | KR20220130177A (ja) |
CN (1) | CN115280322A (ja) |
CA (1) | CA3166388A1 (ja) |
WO (1) | WO2021152515A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11710276B1 (en) * | 2020-09-21 | 2023-07-25 | Apple Inc. | Method and device for improved motion planning |
WO2023057185A1 (en) | 2021-10-06 | 2023-04-13 | Deepmind Technologies Limited | Coordination of multiple robots using graph neural networks |
WO2023177790A1 (en) * | 2022-03-17 | 2023-09-21 | X Development Llc | Planning for agent control using restart-augmented look-ahead search |
US20230303123A1 (en) * | 2022-03-22 | 2023-09-28 | Qualcomm Incorporated | Model hyperparameter adjustment using vehicle driving context classification |
DE102022210934A1 (de) | 2022-10-17 | 2024-04-18 | Continental Autonomous Mobility Germany GmbH | Planung einer Trajektorie |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032864A1 (en) | 2016-07-27 | 2018-02-01 | Google Inc. | Selecting actions to be performed by a reinforcement learning agent using tree search |
WO2018215665A1 (en) | 2017-05-26 | 2018-11-29 | Deepmind Technologies Limited | Training action selection neural networks using look-ahead search |
JP2020009122A (ja) | 2018-07-06 | 2020-01-16 | 国立研究開発法人産業技術総合研究所 | 制御プログラム、制御方法及びシステム |
-
2021
- 2021-01-28 CN CN202180021114.2A patent/CN115280322A/zh active Pending
- 2021-01-28 US US17/794,797 patent/US20230073326A1/en active Pending
- 2021-01-28 JP JP2022545880A patent/JP7419547B2/ja active Active
- 2021-01-28 KR KR1020227028364A patent/KR20220130177A/ko unknown
- 2021-01-28 WO PCT/IB2021/050691 patent/WO2021152515A1/en unknown
- 2021-01-28 CA CA3166388A patent/CA3166388A1/en active Pending
- 2021-01-28 EP EP21703076.6A patent/EP4097643A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032864A1 (en) | 2016-07-27 | 2018-02-01 | Google Inc. | Selecting actions to be performed by a reinforcement learning agent using tree search |
WO2018215665A1 (en) | 2017-05-26 | 2018-11-29 | Deepmind Technologies Limited | Training action selection neural networks using look-ahead search |
JP2020009122A (ja) | 2018-07-06 | 2020-01-16 | 国立研究開発法人産業技術総合研究所 | 制御プログラム、制御方法及びシステム |
Non-Patent Citations (1)
Title |
---|
Tobias Jung, Damien Ernst, Francis Maes,Optimized Look-Ahead Trees: Extensions to Large and Continuous Action Spaces,2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL),2013年 |
Also Published As
Publication number | Publication date |
---|---|
WO2021152515A1 (en) | 2021-08-05 |
US20230073326A1 (en) | 2023-03-09 |
CA3166388A1 (en) | 2021-08-05 |
CN115280322A (zh) | 2022-11-01 |
JP2023511630A (ja) | 2023-03-20 |
KR20220130177A (ko) | 2022-09-26 |
EP4097643A1 (en) | 2022-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
EP3776364B1 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
US11948085B2 (en) | Distributional reinforcement learning for continuous control tasks | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
EP3788549B1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN112119404A (zh) | 样本高效的强化学习 | |
CN116776964A (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
JP2023512722A (ja) | 適応リターン計算方式を用いた強化学習 | |
US11604941B1 (en) | Training action-selection neural networks from demonstrations using multiple losses | |
JP2024506025A (ja) | 短期記憶ユニットを有する注意ニューラルネットワーク | |
US20220076099A1 (en) | Controlling agents using latent plans | |
US20240086703A1 (en) | Controlling agents using state associative learning for long-term credit assignment | |
US20230140899A1 (en) | Rating tasks and policies using conditional probability distributions derived from equilibrium-based solutions of games | |
KR20230153481A (ko) | 판별기 모델의 앙상블을 사용한 강화 학습 | |
CN117730329A (zh) | 通过开放式学习来训练智能体神经网络 | |
WO2023222772A1 (en) | Exploration by bootstepped prediction | |
WO2023237635A1 (en) | Hierarchical reinforcement learning at scale | |
EP4315179A1 (en) | Learning diverse skills for tasks using sequential latent variables for environment dynamics | |
EP4272131A1 (en) | Imitation learning based on prediction of outcomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7419547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |