JP7498300B2 - 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること - Google Patents
自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること Download PDFInfo
- Publication number
- JP7498300B2 JP7498300B2 JP2022565890A JP2022565890A JP7498300B2 JP 7498300 B2 JP7498300 B2 JP 7498300B2 JP 2022565890 A JP2022565890 A JP 2022565890A JP 2022565890 A JP2022565890 A JP 2022565890A JP 7498300 B2 JP7498300 B2 JP 7498300B2
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- training
- robot
- target image
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 227
- 238000010801 machine learning Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims description 123
- 230000008569 process Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 37
- 230000009471 action Effects 0.000 claims description 22
- 230000003278 mimic effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 32
- 239000003795 chemical substances by application Substances 0.000 description 20
- 239000012636 effector Substances 0.000 description 18
- 238000012360 testing method Methods 0.000 description 11
- 230000003542 behavioural effect Effects 0.000 description 7
- 230000003750 conditioning effect Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 241000282412 Homo Species 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 210000000078 claw Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000272 proprioceptive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Numerical Control (AREA)
Description
Input:
Input:
Input:πθ(at|st,z)、単一の潜在目標条件付きポリシー。
Input:パラメータ
while True do
LMCIL←0
#データセットにわたってループする。
for k=0...K do
#このデータセットから(デモンストレーション,コンテキスト)バッチをサンプリングする。
(τk,ck)~Dk
#共有された潜在目標空間においてコンテキストを符号化する。
#コンテキストタイプにわたって勾配を平均化する。
LMCILに関して勾配ステップをとることによってθを更新する
end while
Input:
Input:Dplay←{}
Input: wlow,whigh,後知恵ウィンドウサイズの限界。
while True do
#ストリームから次の遊びエピソードを得る。
(s0:t,a0:t)~S
for w=wlow...whigh do
for i=0..(t-w) do
#各々のサイズwのウィンドウを選択する。
τ=(si:i+w,ai:i+w)
#ウィンドウ中の最後の観測結果を目標として扱う。
sg=sw
(τ,sg)をDplayに追加する
end for
end for
end while
Input: Dplay、(τ,sg)ペアを保持する再ラベリングされた遊びデータセット。
Input: D(play,lang)←{}
Input: get_hindsight_instruction():人の監督者、所与のτに対する事後の自然言語命令を提供する。
Input: K、生成すべきペアの数、K<<|Dplay|。
for 0...K do
#遊びからランダム軌跡をサンプリングする。
(τ,)~Dplay
#τを最適なものにする命令について人間に尋ねる。
end for
102 把持エンドエフェクタ
104 物体
108 行動出力エンジン
110 潜在目標エンジン
112 目標条件付きポリシーネットワーク
114 NL命令エンコーダ
116 訓練エンジン
118 NL命令訓練インスタンス
120 NL命令訓練インスタンスエンジン
122 遠隔操作された「遊び」データ
124 目標画像訓練インスタンス
126 目標画像訓練インスタンスエンジン
128 ユーザインターフェース入力デバイス
130 自然言語命令
202 自然言語命令入力
204 潜在目標
206 ビジョンデータの現在のインスタンス
208 行動出力
725 ロボット
740 動作コンポーネント
742 センサ
760 ロボット制御システム
810 コンピューティングシステム
812 バスサブシステム
814 プロセッサ
816 ネットワークインターフェース
820 ユーザインターフェース出力デバイス
822 ユーザインターフェース入力デバイス
824 ストレージサブシステム
825 メモリサブシステム
826 ファイルストレージサブシステム
Claims (16)
ロボットのためのタスクを記述する自由形式の自然言語命令を受け取るステップであって、前記自由形式の自然言語命令が、1つまたは複数のユーザインターフェース入力デバイスを介してユーザによって提供されるユーザインターフェース入力に基づいて生成される、ステップと、
自然言語命令エンコーダを使用して前記自由形式の自然言語命令を処理して、前記自由形式の自然言語命令の潜在目標表現を生成するステップと、
ビジョンデータのインスタンスを受信するステップであって、ビジョンデータの前記インスタンスが、前記ロボットの少なくとも1つのビジョンコンポーネントによって生成され、ビジョンデータの前記インスタンスが、前記ロボットの環境の少なくとも一部を捉える、ステップと、
目標条件付きポリシーネットワークを使用して、少なくとも(a)ビジョンデータの前記インスタンスおよび(b)前記自由形式の自然言語命令の前記潜在目標表現を処理したことに基づいて、出力を生成するステップであって、
前記目標条件付きポリシーネットワークが、少なくとも(i)訓練タスクが目標画像を使用して記述されるような、訓練インスタンスの目標画像セット、および(ii)訓練タスクが自由形式の自然言語命令を使用して記述されるような、訓練インスタンスの自然言語命令セットに基づいて訓練され、訓練タスクが目標画像を使用して記述されるような、前記訓練インスタンスの前記目標画像セットの中の各訓練インスタンスが、人間によって提供される模倣軌跡と、前記模倣軌跡においてロボットによって実行される前記訓練タスクを記述する目標画像とを備える、
ステップと、
前記生成された出力に基づいて前記ロボットの1つまたは複数のアクチュエータを制御するステップであって、前記ロボットの前記1つまたは複数のアクチュエータを制御することが、前記生成された出力によって示される少なくとも1つの行動を前記ロボットに実行させる、ステップとを備える、方法。
前記自然言語命令エンコーダを使用して前記追加の自由形式の自然言語命令を処理して、前記追加の自由形式の自然言語命令の追加の潜在目標表現を生成するステップと、
前記ロボットの前記少なくとも1つのビジョンコンポーネントによって生成されるビジョンデータの追加のインスタンスを受信するステップと、
前記目標条件付きポリシーネットワークを使用して、少なくとも(a)ビジョンデータの前記追加のインスタンスおよび(b)前記追加の自由形式の自然言語命令の前記追加の潜在目標表現を処理したことに基づいて、追加の出力を生成するステップと、
前記生成された追加の出力に基づいて前記ロボットの前記1つまたは複数のアクチュエータを制御するステップであって、前記ロボットの前記1つまたは複数のアクチュエータを制御することが、前記生成された追加の出力によって示される少なくとも1つの追加の行動を前記ロボットに実行させる、ステップとを備える、請求項1に記載の方法。
前記人間が前記環境と相互作用するように前記ロボットを制御している間、前記ロボットの状態および前記ロボットの対応する行動を捉える、データストリームを受信するステップと、
訓練インスタンスの前記目標画像セットの中の各訓練インスタンスに対して、
前記データストリームから画像フレームのシーケンスを選択するステップと、
画像フレームの前記シーケンスの中の最後の画像フレームを、画像フレームの前記シーケンスにおいて実行される前記訓練タスクを記述する訓練目標画像として選択するステップと、
前記訓練インスタンスの前記模倣軌跡部分としての画像フレームの前記選択されたシーケンス、および前記訓練インスタンスの前記目標画像部分としての前記訓練目標画像を、前記訓練インスタンスとして記憶することによって、前記訓練インスタンスを生成するステップと
を備える、請求項1に記載の方法。
前記人間が前記環境と相互作用するように前記ロボットを制御している間、前記ロボットの前記状態および前記ロボットの対応する行動を捉える、データストリームを受信するステップと、
訓練インスタンスの前記自然言語命令セットの中の各訓練インスタンスに対して、
前記データストリームから画像フレームのシーケンスを選択するステップと、
画像フレームの前記シーケンスを人間の評価者に提供するステップと、
画像フレームの前記シーケンスにおいて前記ロボットによって実行される訓練タスクを記述する自由形式の訓練自然言語命令を受け取るステップと、
前記訓練インスタンスの前記模倣軌跡部分としての画像フレームの前記選択されたシーケンス、および前記訓練インスタンスの前記自由形式の訓練自然言語命令部分としての前記自由形式の訓練自然言語命令を、前記訓練インスタンスとして記憶することによって、前記訓練インスタンスを生成するステップと
を備える、請求項5に記載の方法。
訓練インスタンスの前記目標画像セットから第1の訓練インスタンスを選択するステップであって、前記第1の訓練インスタンスが第1の模倣軌跡および前記第1の模倣軌跡を記述する第1の目標画像を含む、ステップと、
目標画像エンコーダを使用して、前記第1の訓練インスタンスの前記第1の目標画像部分を処理することによって、前記第1の目標画像の潜在空間表現を生成するステップと、
前記目標条件付きポリシーネットワークを使用して、少なくとも(1)前記第1の模倣軌跡の中の初期画像フレームおよび(2)前記第1の訓練インスタンスの前記第1の目標画像部分の前記潜在空間表現を処理して、第1の候補出力を生成するステップと、
前記第1の候補出力および前記第1の模倣軌跡の1つまたは複数の部分に基づいて、目標画像損失を決定するステップと、
訓練インスタンスの前記自然言語命令セットから第2の訓練インスタンスを選択するステップであって、前記第2の訓練インスタンスが、第2の模倣軌跡および前記第2の模倣軌跡を記述する第2の自由形式の自然言語命令を含む、ステップと、
前記自然言語命令エンコーダを使用して、前記第2の訓練インスタンスの前記第2の自由形式の自然言語命令部分を処理することによって、前記第2の自由形式の自然言語命令の潜在空間表現を生成するステップであって、前記第1の目標画像の前記潜在空間表現および前記第2の自由形式の自然言語命令の前記潜在空間表現が共有された潜在空間において表現される、ステップと、
前記目標条件付きポリシーネットワークを使用して、少なくとも(1)前記第2の模倣軌跡の中の前記初期画像フレームおよび(2)前記第2の訓練インスタンスの前記第2の自由形式の自然言語命令部分の前記潜在空間表現を処理して、第2の候補出力を生成するステップと、
前記第2の候補出力および前記第2の模倣軌跡の1つまたは複数の部分に基づいて、自然言語命令損失を決定するステップと、
前記目標画像損失および前記自然言語命令損失に基づいて、目標条件付き損失を決定するステップと、
前記決定された目標条件付き損失に基づいて、前記目標画像エンコーダ、前記自然言語命令エンコーダ、および/または前記目標条件付きポリシーネットワークの1つまたは複数の部分を更新するステップとを備える、請求項4または6に記載の方法。
前記ロボットのための追加のタスクを記述する目標画像命令を受信するステップであって、前記目標画像命令が、前記1つまたは複数のユーザインターフェース入力デバイスを介して前記ユーザによって提供される、ステップと、
目標画像エンコーダを使用して前記目標画像命令を処理して、前記目標画像命令の潜在目標表現を生成するステップと、
ビジョンデータの追加のインスタンスを受信するステップであって、ビジョンデータの前記追加のインスタンスが、前記ロボットの前記少なくとも1つのビジョンコンポーネントによって生成され、ビジョンデータの前記追加のインスタンスが、前記ロボットの前記環境の少なくとも一部を捉える、ステップと、
前記目標条件付きポリシーネットワークを使用して、少なくとも(a)ビジョンデータの前記追加のインスタンスおよび(b)前記目標画像命令の前記潜在目標表現を処理したことに基づいて、追加の出力を生成するステップと、
前記生成された追加の出力に基づいて前記ロボットの前記1つまたは複数のアクチュエータを制御するステップであって、前記ロボットの前記1つまたは複数のアクチュエータを制御することが、前記生成された追加の出力によって示される少なくとも1つの追加の行動を前記ロボットに実行させる、ステップと
をさらに備える、請求項1に記載の方法。
訓練インスタンスの目標画像セットから第1の訓練インスタンスを選択するステップであって、前記第1の訓練インスタンスが、第1の模倣軌跡および前記第1の模倣軌跡を記述する第1の目標画像を含む、ステップと、
目標画像エンコーダを使用して、前記第1の訓練インスタンスの前記第1の目標画像部分を処理することによって、前記第1の目標画像の潜在空間表現を生成するステップと、
目標条件付きポリシーネットワークを使用して、少なくとも(1)前記第1の模倣軌跡の中の初期画像フレームおよび(2)前記第1の訓練インスタンスの前記第1の目標画像部分の前記潜在空間表現を処理して、第1の候補出力を生成するステップと、
前記第1の候補出力および前記第1の模倣軌跡の1つまたは複数の部分に基づいて目標画像損失を決定するステップと、
訓練インスタンスの自然言語命令セットから第2の訓練インスタンスを選択するステップであって、前記第2の訓練インスタンスが、第2の模倣軌跡および前記第2の模倣軌跡を記述する第2の自由形式の自然言語命令を含む、ステップと、
自然言語命令エンコーダを使用して、前記第2の訓練インスタンスの前記第2の自由形式の自然言語命令部分を処理することによって、前記第2の自由形式の自然言語命令の潜在空間表現を生成するステップであって、前記第1の目標画像の前記潜在空間表現および前記第2の自由形式の自然言語命令の前記潜在空間表現が、共有される潜在空間において表現される、ステップと、
前記目標条件付きポリシーネットワークを使用して、少なくとも(1)前記第2の模倣軌跡の中の前記初期画像フレームおよび(2)前記第2の訓練インスタンスの前記第2の自由形式の自然言語命令部分の前記潜在空間表現を処理して、第2の候補出力を生成するステップと、
前記第2の候補出力および前記第2の模倣軌跡の1つまたは複数の部分に基づいて、自然言語命令損失を決定するステップと、
前記目標画像損失および前記自然言語命令損失に基づいて、目標条件付き損失を決定するステップと、
前記決定された目標条件付き損失に基づいて、前記目標画像エンコーダ、前記自然言語命令エンコーダ、および/または前記目標条件付きポリシーネットワークの1つまたは複数の部分を更新するステップとを備える、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024087083A JP2024123006A (ja) | 2020-05-14 | 2024-05-29 | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063024996P | 2020-05-14 | 2020-05-14 | |
US63/024,996 | 2020-05-14 | ||
PCT/US2021/032499 WO2021231895A1 (en) | 2020-05-14 | 2021-05-14 | Training and/or utilizing machine learning model(s) for use in natural language based robotic control |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024087083A Division JP2024123006A (ja) | 2020-05-14 | 2024-05-29 | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023525676A JP2023525676A (ja) | 2023-06-19 |
JP7498300B2 true JP7498300B2 (ja) | 2024-06-11 |
Family
ID=76306028
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022565890A Active JP7498300B2 (ja) | 2020-05-14 | 2021-05-14 | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること |
JP2024087083A Pending JP2024123006A (ja) | 2020-05-14 | 2024-05-29 | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024087083A Pending JP2024123006A (ja) | 2020-05-14 | 2024-05-29 | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230182296A1 (ja) |
EP (1) | EP4121256A1 (ja) |
JP (2) | JP7498300B2 (ja) |
KR (1) | KR20230008171A (ja) |
CN (1) | CN115551681A (ja) |
WO (1) | WO2021231895A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220226994A1 (en) * | 2020-07-20 | 2022-07-21 | Georgia Tech Research Corporation | Heterogeneous graph attention networks for scalable multi-robot scheduling |
US11958529B2 (en) * | 2020-08-20 | 2024-04-16 | Nvidia Corporation | Controlling position of robot by determining goal proposals by using neural networks |
US20230107316A1 (en) * | 2021-10-05 | 2023-04-06 | UiPath, Inc. | Automatic data transfer between a source and a target using semantic artificial intelligence for robotic process automation |
CN114800530B (zh) * | 2022-06-09 | 2023-11-28 | 中国科学技术大学 | 基于视觉的机器人的控制方法、设备及存储介质 |
US11931894B1 (en) * | 2023-01-30 | 2024-03-19 | Sanctuary Cognitive Systems Corporation | Robot systems, methods, control modules, and computer program products that leverage large language models |
WO2024182721A1 (en) * | 2023-03-01 | 2024-09-06 | Google Llc | Using scene understanding to generate context guidance in robotic task execution planning |
CN117773934B (zh) * | 2023-12-29 | 2024-08-13 | 兰州大学 | 基于语言指引的物体抓取方法和装置、电子设备及介质 |
-
2021
- 2021-05-14 WO PCT/US2021/032499 patent/WO2021231895A1/en unknown
- 2021-05-14 CN CN202180034023.2A patent/CN115551681A/zh active Pending
- 2021-05-14 JP JP2022565890A patent/JP7498300B2/ja active Active
- 2021-05-14 EP EP21730747.9A patent/EP4121256A1/en active Pending
- 2021-05-14 US US17/924,891 patent/US20230182296A1/en active Pending
- 2021-05-14 KR KR1020227042611A patent/KR20230008171A/ko unknown
-
2024
- 2024-05-29 JP JP2024087083A patent/JP2024123006A/ja active Pending
Non-Patent Citations (1)
Title |
---|
Simon Stepputtis et al,Imitation Learning of Robot Policies by Combining Language, Vision and Demonstration,arXiv:1911.11744,米国,Cornell University,2019年11月26日 |
Also Published As
Publication number | Publication date |
---|---|
EP4121256A1 (en) | 2023-01-25 |
US20230182296A1 (en) | 2023-06-15 |
KR20230008171A (ko) | 2023-01-13 |
WO2021231895A1 (en) | 2021-11-18 |
JP2024123006A (ja) | 2024-09-10 |
JP2023525676A (ja) | 2023-06-19 |
CN115551681A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7498300B2 (ja) | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること | |
US12083678B2 (en) | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning | |
Smith et al. | Avid: Learning multi-stage tasks via pixel-level translation of human videos | |
Radosavovic et al. | State-only imitation learning for dexterous manipulation | |
Breyer et al. | Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning | |
CN112135716B (zh) | 数据高效的分层强化学习 | |
US20230311335A1 (en) | Natural language control of a robot | |
Gopalan et al. | Simultaneously learning transferable symbols and language groundings from perceptual data for instruction following | |
Karamcheti et al. | Learning adaptive language interfaces through decomposition | |
Patki et al. | Language-guided semantic mapping and mobile manipulation in partially observable environments | |
Tanwani | Generative models for learning robot manipulation skills from humans | |
Alt et al. | Robot program parameter inference via differentiable shadow program inversion | |
CN118061186A (zh) | 一种基于多模态大模型预测控制的机器人规划方法及系统 | |
JP2024506580A (ja) | 適応勾配クリッピングを用いるニューラルネットワーク | |
US20220305647A1 (en) | Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s) | |
Carreno et al. | Adapting neural models with sequential monte carlo dropout | |
Abdelrahman et al. | Context-aware task execution using apprenticeship learning | |
WO2022211403A1 (en) | Hybrid robotic motion planning system using machine learning and parametric trajectories | |
Lin et al. | Sketch RL: Interactive Sketch Generation for Long-Horizon Tasks via Vision-Based Skill Predictor | |
Taniguchi et al. | Constructive approach to role-reversal imitation through unsegmented interactions | |
Zhou et al. | Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment | |
Ma et al. | VP-GO: A ‘Light’Action-Conditioned Visual Prediction Model for Grasping Objects | |
Ma et al. | VP-GO: a" light" action-conditioned visual prediction model | |
US20240288870A1 (en) | Method and System for Generating a Sequence of Actions for Controlling a Robot | |
Nakajo et al. | Acquisition of viewpoint transformation and action mappings via sequence to sequence imitative learning by deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231108 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240401 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240501 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7498300 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |