JP7493554B2 - Few-shot模倣のためのデモンストレーション条件付き強化学習 - Google Patents
Few-shot模倣のためのデモンストレーション条件付き強化学習 Download PDFInfo
- Publication number
- JP7493554B2 JP7493554B2 JP2022093953A JP2022093953A JP7493554B2 JP 7493554 B2 JP7493554 B2 JP 7493554B2 JP 2022093953 A JP2022093953 A JP 2022093953A JP 2022093953 A JP2022093953 A JP 2022093953A JP 7493554 B2 JP7493554 B2 JP 7493554B2
- Authority
- JP
- Japan
- Prior art keywords
- demonstrations
- policy network
- task
- observations
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 26
- 238000012549 training Methods 0.000 claims description 135
- 238000000034 method Methods 0.000 claims description 75
- 230000009471 action Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 55
- 230000007246 mechanism Effects 0.000 description 14
- 230000008901 benefit Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 241000270322 Lepidosauria Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40116—Learn by operator observation, symbiosis, show, watch
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Robotics (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Description
を最適なポリシーの期待収益とする。
内にあり、機械的構造が異なる。
新規タスクが提示されるときに、DCRLが次善のデモンストレーションを上回ることができるかどうかを調査するために、タスク固有の専門家PPOポリシーによって実行されるアクションにノイズを追加することによってデモンストレーションがサンプリングされる。共分散
をもつゼロ平均ガウスノイズが追加されるが、ここで、標準偏差σは、調整可能なパラメータである。本明細書で使用するFew-shotは、10回以下のデモンストレーションを意味してよい。
(エージェントと目標の位置、エージェント速度、および方向)にあり、4つのアクション(前進、後退、左折、右折)があり、報酬は目標到達に対するボーナスと壁衝突に対するペナルティを伴い、エージェントと目標の間のユークリッド距離(Euclidean distance)を引くことにより、遷移関数はViZDoom(参照によって本明細書に統合される、IEEE Conference on Computational Intelligence and Games,CIG,pp.1-8,2016に掲示される、Kempkaなどによる“ViZDoom:A Doom-based AI research platform for visual reinforcement learning”で説明される)を使用して計算され、目標およびエージェントの初期位置は均一にサンプリングされる。DCRLは、50個の迷路の固定セットで訓練され、残りの10個の迷路でテストされる。
Claims (27)
- プロセッサおよびメモリによって実行されて、少なくとも1つのタスクを実行するための訓練済みのポリシーネットワークを含むエージェントとして具体化される方法であって、
前記エージェントを使用して実行される前記方法は、
前記プロセッサが、
前記訓練済みのポリシーネットワークに対する入力として、前記訓練済みのポリシーネットワークを訓練させるために使用された訓練データに含まれていたデモンストレーションではない、新規のタスクと関連する第1のデモンストレーション(demonstration)のセットと観察値を取得する段階、
前記第1のデモンストレーションと関連する前記タスクを実行するために、前記第1のデモンストレーションのセットと前記観察値を前記訓練済みのポリシーネットワークに入力する段階、および
前記訓練済みのポリシーネットワークにより、前記入力された第1のデモンストレーションのセットと前記入力された観察値に基づいて実行される少なくとも1つのアクションを決定する段階を含み、
前記訓練済みのポリシーネットワークは、強化学習(reinforcement learning)を使用して訓練され、
前記訓練済みのポリシーネットワークは、アキシャルアテンション(axial attention)を有するトランスフォーマアーキテクチャ(transformer architecture)を備え、
前記訓練済みのポリシーネットワークは、前記第1のデモンストレーションのセットを処理するための第1セルフアテンションモジュール(self-attention module)、前記観察値を処理するための第2セルフアテンションモジュール、および前記第1のデモンストレーションのセットおよび前記観察値を処理するためのクロスアテンションモジュール(cross-attention module)を含む、方法。 - ロボットまたは前記ロボットの部品を制御すること、マシンを制御すること、車両を制御すること、および環境の状態を操作することのうちの少なくとも1つを含む少なくとも1つのアクションを決定する段階をさらに含む、
請求項1に記載の方法。 - 前記第1のデモンストレーションのセットのうちのデモンストレーションは、観察値のシーケンスを含み、前記観察値のそれぞれは、状態-アクションペア(state-action pair)、状態、位置、イメージ、およびセンサ測定値のうちの少なくとも1つを含む、
請求項1に記載の方法。 - 前記タスクは、ロボットによってオブジェクトを操作するための操作タスクを含み、
前記観察値は、前記ロボットの1つ以上の部品に関する情報を含み、
前記第1のデモンストレーションのセットは、前記ロボットの前記1つ以上の部品の位置および方向のうちの少なくとも1つを含むシーケンスを含み、
前記方法は、実行される前記決定されたアクションに基づいて前記ロボットの少なくとも1つのアクチュエータを制御する段階をさらに含む、
請求項1に記載の方法。 - 前記タスクは、ロボットをナビゲーティングするためのナビゲーションタスクを含み、
前記観察値は、前記ロボットの1つ以上の部品に関する情報を含み、
前記第1のデモンストレーションのセットは、前記ロボットの位置のシーケンスを含み、
前記方法は、実行される前記決定されたアクションに基づいて前記ロボットの少なくとも1つのアクチュエータを制御する段階をさらに含む、
請求項1に記載の方法。 - Few-shot模倣(few-shot imitation)を実行するためのコンピュータ実現方法であって、
訓練データの少なくとも1つのセット(訓練データの各セットは、タスクと関連して(i)報酬関数および報酬のサンプルのうちの少なくとも1つ、(ii)遷移分布および状態遷移のサンプルのうちの少なくとも1つ、および(iii)第1のデモンストレーションのセットを含む)を取得する段階、
前記訓練データの少なくとも1つのセットの第1のデモンストレーションの少なくとも1つのセットをポリシーネットワークに入力することと、危険尺度またはそれぞれの1つ以上の報酬関数または報酬のそれぞれのサンプルに基づいて前記訓練データの少なくとも1つのセットの前記第1のデモンストレーションの少なくとも1つのセットの平均収益(average return)を最大化することにより、強化学習を使用してエージェントで具体化されるポリシーネットワークを訓練させる段階、
前記訓練データに含まれない新規のタスクと関連する第2のデモンストレーションのセットを取得する段階、および
前記新規のタスクを実行するために、前記第2のデモンストレーションのセットおよび状態の観察値を訓練済みのポリシーネットワークに入力する段階を含み、
前記ポリシーネットワークは、
アキシャルアテンションを有するトランスフォーマアーキテクチャ、および
前記第2のデモンストレーションのセットを処理するように構成される第1セルフアテンションモジュール、前記状態の前記観察値を処理するように構成される第2セルフアテンションモジュール、および前記第2のデモンストレーションのセットおよび前記状態の前記観察値を処理するように構成されるクロスアテンションモジュールを含む、
Few-shot模倣を実行するためのコンピュータ実現方法。 - 前記コンピュータ実現方法は、
前記入力された第1のデモンストレーションの少なくとも1つのセットを第1多次元テンソルとしてエンコードし、前記第1多次元テンソルの単一の軸に沿って前記ポリシーネットワークの第1トランスフォーマによってアテンションを適用する段階、および
前記入力された第2のデモンストレーションのセットを第2多次元テンソルとしてエンコードし、前記第2多次元テンソルの単一の軸に沿って前記ポリシーネットワークの第2トランスフォーマのアテンションを適用する段階
のうちの少なくとも1つをさらに含む、請求項6に記載のFew-shot模倣を実行するためのコンピュータ実現方法。 - 前記新規のタスクと関連する第2のデモンストレーションのセットを取得する段階、および前記新規のタスクを実行するために前記第2のデモンストレーションのセットと状態の観察値を前記訓練済みのポリシーネットワークに入力する段階は、推論時間に実行され、
前記訓練データの少なくとも1つのセットを取得する段階、および強化学習を使用してポリシーネットワークを訓練する段階は、訓練時間中に実行される、
請求項6に記載のFew-shot模倣を実行するためのコンピュータ実現方法。 - 前記ポリシーネットワークを訓練するために、前記訓練データの少なくとも1つのセットの前記第1のデモンストレーションの少なくとも1つのセットを前記ポリシーネットワークに入力する段階は、
ポリシーネットワークを訓練するために、前記エージェントの状態、状態-アクションペア、および観察-アクション履歴のうちの少なくとも1つを前記ポリシーネットワークに入力する段階を含む、
請求項6に記載のFew-shot模倣を実行するためのコンピュータ実現方法。 - 前記訓練データの少なくとも1つのセットの前記第1のデモンストレーションの少なくとも1つのセットは、少なくとも2つのタスクのデモンストレーションを含み、
前記訓練データの少なくとも1つのセットの前記第1のデモンストレーションの少なくとも1つのセットの前記平均収益を最大化することは、前記少なくとも2つのタスクの平均累積報酬を最大化することを含む、
請求項6に記載のFew-shot模倣を実行するためのコンピュータ実現方法。 - システムであって、
第1のデモンストレーションのセットを含む訓練タスクのセットに基づいて訓練され、トランスフォーマアーキテクチャによって生成される多次元テンソルの単一の軸上でアキシャルアテンションを有する前記トランスフォーマアーキテクチャを含むポリシーネットワークを含む制御モジュール、および
前記訓練タスクとは異なるタスクである新規のタスクと関連する第2のデモンストレーションのセットおよび状態の観察値を前記ポリシーネットワークに入力し、前記入力された第2のデモンストレーションのセットに基づいて生成される前記多次元テンソルの前記単一の軸に基づいて前記トランスフォーマアーキテクチャのエンコーダモジュールの加重値パラメータを訓練するように構成される訓練モジュールを含み、
前記ポリシーネットワークは、前記第2のデモンストレーションのセットを処理するように構成される第1セルフアテンションモジュール、前記状態の前記観察値を処理するように構成される第2セルフアテンションモジュール、および前記第2のデモンストレーションのセットおよび前記状態の前記観察値を処理するように構成されるクロスアテンションモジュールを含む、システム。 - 前記訓練モジュールは、前記ポリシーネットワークの平均収益を最大化することに基づいて前記エンコーダモジュールの前記加重値パラメータを訓練するように構成される、請求項11に記載のシステム。
- 前記制御モジュールは、前記ポリシーネットワークの出力に基づいてアクチュエータを選択的に作動させるように構成される、請求項11に記載のシステム。
- 前記トランスフォーマアーキテクチャは、前記第2のデモンストレーションのセットに基づいて前記多次元テンソルを生成するように構成されるエンコーダモジュールを含む、請求項11に記載のシステム。
- 前記第2のデモンストレーションのセットの各デモンストレーションは、時系列の観察値を含む、請求項11に記載のシステム。
- 前記時系列の観察値は、ランダムな長さを有する、請求項15に記載のシステム。
- それぞれの観察値は、
状態-アクションペア、状態、位置、イメージ、および測定値のうちの少なくとも1つを含む、請求項15に記載のシステム。 - 前記タスクはオブジェクトを操作するものであり、前記第2のデモンストレーションのセットはロボットの位置および方向のシーケンスを含む、請求項11に記載のシステム。
- 前記タスクは、目標位置に向かってナビゲーティングすることを含み、
前記第2のデモンストレーションのセットは、ナビゲーティングロボットの位置のシーケンスを含む、請求項11に記載のシステム。 - 前記ポリシーネットワークは、直列接続するL個のエンコーダ層を含み、Lは1よりも大きい整数である、請求項11に記載のシステム。
- 前記ポリシーネットワークは、前記L個のエンコーダ層の出力に基づいてアクションを決定するように構成されるL個のデコーダ層をさらに含む、請求項20に記載のシステム。
- メモリに記録される命令語を実行するプロセッサをさらに含み、
前記メモリに記録される前記命令語は、前記ポリシーネットワークを含め、前記制御モジュールおよび前記訓練モジュールに対する命令語をさらに含む、請求項11に記載のシステム。 - 前記命令語は、強化学習を使用し、前記訓練タスクを利用して前記ポリシーネットワークを訓練するための命令語をさらに含む、請求項22に記載のシステム。
- 前記命令語は、前記訓練タスクとは異なる前記新規のタスクと関連する前記第2のデモンストレーションのセットに基づいて実行される少なくとも1つのアクションを決定するように構成される、前記ポリシーネットワークを含むエージェントに対する命令語をさらに含む、請求項23に記載のシステム。
- 前記少なくとも1つのアクションは、ナビゲーションアクションである、請求項24に記載のシステム。
- 前記エージェントは、ロボットに対する前記ナビゲーションアクションを決定する、請求項25に記載のシステム。
- 強化学習を使用する前記命令語は、プロキシマルポリシー最適化(proximal policy optimization)を使用する、請求項23に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21305799.5A EP4102405A1 (en) | 2021-06-10 | 2021-06-10 | Demonstration-conditioned reinforcement learning for few-shot imitation |
EP21305799 | 2021-06-10 | ||
US17/716520 | 2022-04-08 | ||
US17/716,520 US20220395975A1 (en) | 2021-06-10 | 2022-04-08 | Demonstration-conditioned reinforcement learning for few-shot imitation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022189799A JP2022189799A (ja) | 2022-12-22 |
JP7493554B2 true JP7493554B2 (ja) | 2024-05-31 |
Family
ID=77126695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022093953A Active JP7493554B2 (ja) | 2021-06-10 | 2022-06-09 | Few-shot模倣のためのデモンストレーション条件付き強化学習 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220395975A1 (ja) |
EP (1) | EP4102405A1 (ja) |
JP (1) | JP7493554B2 (ja) |
KR (1) | KR20220166716A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12101279B2 (en) * | 2021-08-27 | 2024-09-24 | Accenture Global Solutions Limited | Dynamic goal-oriented dialogue with virtual agents |
JP2024537148A (ja) * | 2021-10-05 | 2024-10-10 | グーグル エルエルシー | ベクトル量子化した画像モデリング |
DE102023200231A1 (de) | 2023-01-12 | 2024-07-18 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum Evaluieren einer Steuerung einer Robotervorrichtung |
CN117892797B (zh) * | 2023-12-29 | 2024-09-06 | 中科南京人工智能创新研究院 | 基于广泛目标重标记的目标条件强化学习方法 |
CN118093840B (zh) * | 2024-04-25 | 2024-07-30 | 腾讯科技(深圳)有限公司 | 视觉问答方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019534517A (ja) | 2016-11-04 | 2019-11-28 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
WO2020058669A1 (en) | 2018-09-21 | 2020-03-26 | Imperial College Of Science, Technology And Medicine | Task embedding for device control |
WO2021058270A1 (en) | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Gated attention neural networks |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10762424B2 (en) * | 2017-09-11 | 2020-09-01 | Sas Institute Inc. | Methods and systems for reinforcement learning |
CN113168553A (zh) * | 2018-09-28 | 2021-07-23 | 英特尔公司 | 机器人移动设备及相关方法 |
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
WO2022023386A1 (en) * | 2020-07-28 | 2022-02-03 | Deepmind Technologies Limited | Off-line learning for robot control using a reward prediction model |
US11772272B2 (en) * | 2021-03-16 | 2023-10-03 | Google Llc | System(s) and method(s) of using imitation learning in training and refining robotic control policies |
-
2021
- 2021-06-10 EP EP21305799.5A patent/EP4102405A1/en active Pending
-
2022
- 2022-04-08 US US17/716,520 patent/US20220395975A1/en active Pending
- 2022-05-13 KR KR1020220058671A patent/KR20220166716A/ko unknown
- 2022-06-09 JP JP2022093953A patent/JP7493554B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019534517A (ja) | 2016-11-04 | 2019-11-28 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
WO2020058669A1 (en) | 2018-09-21 | 2020-03-26 | Imperial College Of Science, Technology And Medicine | Task embedding for device control |
WO2021058270A1 (en) | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Gated attention neural networks |
Non-Patent Citations (2)
Title |
---|
CACHET, Theo et al.,Transformer-based Meta-Imitation Learning for Robotic Manipulation,3th Robot Learning Workshop,NeurIPS 2020 [online],2020年12月11日,pp.1-5,[検索日 2023.05.23], インターネット:<URL: http://www.robot-learning.ml/2020/files/C7.pdf> |
HO, Jonathan et al.,Axial Attention in Multidimensional Transformers,arXiv.org [online],2019年12月20日,pp.1-11,[検索日 2023.05.23], インターネット:<URL: https://arxiv.org/pdf/1912.12180v1.pdf> |
Also Published As
Publication number | Publication date |
---|---|
JP2022189799A (ja) | 2022-12-22 |
US20220395975A1 (en) | 2022-12-15 |
EP4102405A1 (en) | 2022-12-14 |
KR20220166716A (ko) | 2022-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7493554B2 (ja) | Few-shot模倣のためのデモンストレーション条件付き強化学習 | |
Vecerik et al. | Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards | |
US20190272465A1 (en) | Reward estimation via state prediction using expert demonstrations | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN112840359B (zh) | 通过使用时间值传递在长时间尺度上控制代理 | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
CN112348163A (zh) | 具有平衡求解器的深度神经网络 | |
WO2019222634A1 (en) | Data-efficient hierarchical reinforcement learning | |
CN111830822A (zh) | 配置与环境交互的系统 | |
CN115812180A (zh) | 使用奖励预测模型的机器人控制的离线学习 | |
CN110622174A (zh) | 基于想象的智能体神经网络 | |
US20220410380A1 (en) | Learning robotic skills with imitation and reinforcement at scale | |
CN113894780A (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
Liu et al. | Distilling motion planner augmented policies into visual control policies for robot manipulation | |
CN117725982A (zh) | 用于训练代理的方法 | |
US20220305647A1 (en) | Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s) | |
Morales | Deep Reinforcement Learning | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
JP7438544B2 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 | |
KR102719425B1 (ko) | TVT(temporal value transport)를 사용하여 롱 타임 스케일에 대한 에이전트 제어 | |
CN115293334B (zh) | 基于模型的高样本率深度强化学习的无人设备控制方法 | |
CN117001673B (zh) | 机器人控制模型的训练方法、装置和计算机设备 | |
Mitić et al. | Empirical control system development for intelligent mobile robot based on the elements of the reinforcement machine learning and axiomatic design theory | |
CN118438435A (zh) | 一种基于跨模态共享世界模型强化学习的机器人控制方法 | |
CN118752492A (zh) | 基于深度强化学习的多任务多机器人的运动控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240321 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7493554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |