JP6721785B2 - ロボット操作のための深層強化学習 - Google Patents
ロボット操作のための深層強化学習 Download PDFInfo
- Publication number
- JP6721785B2 JP6721785B2 JP2019514301A JP2019514301A JP6721785B2 JP 6721785 B2 JP6721785 B2 JP 6721785B2 JP 2019514301 A JP2019514301 A JP 2019514301A JP 2019514301 A JP2019514301 A JP 2019514301A JP 6721785 B2 JP6721785 B2 JP 6721785B2
- Authority
- JP
- Japan
- Prior art keywords
- robot
- policy
- episode
- given
- robots
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 30
- 238000000034 method Methods 0.000 claims description 141
- 238000012549 training Methods 0.000 claims description 106
- 230000009471 action Effects 0.000 claims description 63
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 239000012636 effector Substances 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 33
- 239000000872 buffer Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 5
- 230000003139 buffering effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 23
- 230000007613 environmental effect Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000000704 physical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000003339 best practice Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32335—Use of ann, neural network
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33033—Identification neural controller copies weight to system neural controller
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33034—Online learning, training
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39001—Robot, manipulator control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39298—Trajectory learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Robotics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Description
114 トレーニングエンジン
122 リプレイバッファ
124 ポリシーネットワーク
180A ロボット
180B ロボット
182A 把持エンドエフェクタ
182B 把持エンドエフェクタ
184A 視覚センサ
184B 視覚センサ
191A へら
191B ホッチキス
201 経路
620 ロボット
640 ロボット
640a 動作コンポーネント
640n 動作コンポーネント
642a センサ
642b センサ
642m センサ
654
660 ロボット制御システム
710 コンピュータデバイス
712 バスサブシステム
714 プロセッサ
716 ネットワークインターフェースサブシステム
720 ユーザインターフェース出力デバイス
722 ユーザインターフェース入力デバイス
724 記憶サブシステム
725 メモリサブシステム
726 ファイル記憶サブシステム
730 ランダムアクセスメモリ(RAM)
732 読取り専用メモリ(ROM)
Claims (33)
実施複数のエピソードの各々が、タスクに関する強化学習ポリシーを表現するポリシーニューラルネットワークに基づいて前記タスクを実施する探査である、複数のロボットの各々による前記複数のエピソードの実施中において、
前記エピソード中に前記複数のロボットによって生成されたロボット経験データのインスタンスをバッファに記憶するステップであって、前記ロボット経験データの前記インスタンスの各々が、前記エピソードのうちの対応するエピソード中に生成され、かつ前記対応するエピソード向けの前記ポリシーニューラルネットワークの対応するポリシーパラメータを伴う前記ポリシーニューラルネットワークを使用して生成される対応する出力上に少なくとも部分的に生成され、前記複数のロボットのうちの所与のロボットの前記ロボット経験データの前記インスタンスが、第1の周波数において前記バッファに記憶される、ステップと、
前記第1の周波数よりも高い第2の周波数において前記ポリシーニューラルネットワークの更新されたポリシーパラメータを繰り返し生成するステップであって、前記繰り返し生成するステップの繰返しの各々が、前記繰返し中に、前記バッファの中の前記ロボット経験データの前記インスタンスのうちの1つまたは複数のもののグループを使用して前記更新されたポリシーパラメータを生成するステップを含む、ステップと、
前記ロボットが実施する複数のエピソードの各々の開始と同時に、前記複数のロボットの各々によって、前記エピソードにおいて前記ロボットが使用する前記ポリシーニューラルネットワークを更新するステップであって、前記更新されたポリシーパラメータを前記繰り返し生成するステップの直近の繰返しの前記更新されたポリシーパラメータを使用するステップを含む、ステップと
を含む、方法。
前記開始ロボット状態から前記後続ロボット状態へ遷移するために実行される前記アクションが、前記対応するエピソード向けの前記更新されたポリシーパラメータを伴う前記ポリシーニューラルネットワークを使用して前記開始ロボット状態を処理することに基づいて生成され、
前記アクションに対する前記報酬が、前記強化学習ポリシーの報酬関数に基づいて生成される、
請求項1から9のいずれか一項に記載の方法。
1つまたは複数の追加のロボットが使用するように直近生成されたバージョンの前記更新されたポリシーパラメータを前記ポリシーニューラルネットワークに供給するステップと
をさらに含む、請求項1から10のいずれか一項に記載の方法。
第1のポリシーパラメータのグループを有するポリシーネットワークに基づいてタスクを実施する探査の所与のエピソードを実施するステップと、
前記所与のロボットからロボット経験データを提供する複数の経験データの繰返しのうちの1つの繰返しにおいて、前記所与のエピソード中に、前記ポリシーネットワークに基づいて生成されたロボット経験データの第1のインスタンスを供給するステップであって、前記複数のロボット経験データの繰返しが第1の周波数において生じる、ステップと、
前記ポリシーネットワークに基づいて前記タスクを実施する後続のエピソードを前記所与のロボットによって実施するのに先立って、
前記第1のポリシーパラメータのグループのうちの1つまたは複数を更新されたポリシーパラメータで置換するステップであって、前記更新されたポリシーパラメータが、追加のロボットによって前記タスクを実施する探査の前記追加のロボットのエピソード中に前記追加のロボットによって生成されたロボット経験データの追加のインスタンスに基づく前記ポリシーネットワークのトレーニングに基づいて生成され、前記追加のロボットによって前記タスクを前記実施するステップが前記ポリシーネットワークに基づき、前記ポリシーネットワークの前記トレーニングが前記第1の周波数よりも高い第2の周波数において生じる複数のトレーニングの繰返しを含み、前記複数のトレーニングの繰返しが、
前記第1のインスタンスおよび前記追加のインスタンスに少なくとも部分的に基づく前記ポリシーネットワークのトレーニングの第1のトレーニングの繰返しと、
前記複数のロボットからの経験データのまたさらなるインスタンスに基づく、前記ポリシーネットワークの1つまたは複数の追加のトレーニングの繰返しと
を含む、ステップ
を含み、
前記後続のエピソードが前記所与のエピソードのすぐ後に続き、前記後続のエピソードにおいて前記ポリシーネットワークに基づいて前記タスクを実施するステップが、前記置換されたポリシーパラメータの代わりに前記更新されたポリシーパラメータを使用するステップを含む、
方法。
前記追加のロボットによる対応するエピソードの実施において前記追加のロボットが使用するように前記さらに更新されたポリシーパラメータを供給するステップと
をさらに含む、請求項12に記載の方法。
前記またさらに更新されたポリシーパラメータを、前記ポリシーネットワークに基づいて前記タスクを実施するさらなる後続のエピソードの前記所与のロボットによる実施において前記所与のロボットが使用するように供給するステップであって、前記さらなる後続のエピソードが前記後続のエピソードのすぐ後に続く、ステップと
をさらに含む、請求項13から15のいずれか一項に記載の方法。
前記ポリシーネットワークからの出力の所与の繰返しにおいて、前記所与のロボットの1つまたは複数の基準の違反を判定するステップと、
前記1つまたは複数の基準がもはや違反されることのないように、前記所与の繰返しの前記出力を修正するステップと、
前記修正された出力に基づいて、経験データの前記インスタンスの所与のインスタンスを生成するステップと
をさらに含む、請求項12に記載の方法。
前記ポリシーネットワークに対する入力として現在の状態表現を適用するステップであって、前記現在の状態表現が、少なくとも前記所与のロボットの現在の状態を指示する、ステップと、
前記ポリシーネットワークを使用して前記入力を処理することにより、出力を生成するステップと、
前記出力に基づいて、前記所与のロボットの1つまたは複数のアクチュエータに対して制御コマンドを供給するステップと
によって、前記探査のうちの所与の探査を生成するステップ
をさらに含む、請求項12から23のいずれか一項に記載の方法。
前記出力にノイズを付加することにより、修正された出力を生成するステップと、
前記修正された出力に基づいて前記制御コマンドを供給するステップと
を含む、請求項24に記載の方法。
複数のロボットのうちの所与のロボットから経験データを受信する複数の経験データの繰返しのうちの1つの繰返しにおいて、前記所与のロボットによって生成されたロボット経験データの所与のインスタンスを受信するステップであって、前記ロボット経験データの前記所与のインスタンスが、タスクを実施する探査の所与のエピソード中に、前記所与のロボットによって前記所与のインスタンスを生成するのに利用されるポリシーネットワークのポリシーパラメータの所与のバージョンに基づいて生成され、前記複数の経験データの繰返しが第1の周波数において生じる、ステップと、
前記複数のロボットのうちの追加のロボットからロボット経験データの追加のインスタンスを受信するステップであって、前記追加のインスタンスが、前記追加のロボットによって、前記ポリシーネットワークに基づいて前記タスクを実施する探査のエピソード中に生成される、ステップと、
前記所与のロボットおよび前記追加のロボットが前記タスクを実施する前記探査のエピソードを継続している間に、前記所与のインスタンスおよび前記追加のインスタンスに少なくとも部分的に基づく前記ポリシーネットワークのトレーニングに基づいて、前記ポリシーネットワークの前記ポリシーパラメータの新バージョンを生成するステップであって、前記ポリシーネットワークの前記トレーニングが前記第1の周波数よりも高い第2の周波数において生じる複数のトレーニングの繰返しを含み、前記複数のトレーニングの繰返しが、
前記所与のインスタンスおよび前記追加のインスタンスに少なくとも部分的に基づく前記ポリシーネットワークのトレーニングの第1のトレーニングの繰返しと、
前記複数のロボットからの経験データのまたさらなるインスタンスに基づく、前記ポリシーネットワークの1つまたは複数の追加のトレーニングの繰返しと
を含む、ステップと、
前記所与のロボットが前記ポリシーパラメータの前記新バージョンに基づいて前記タスクを実施する探査の直後のエピソードを実施するように、前記所与のロボットに対して前記ポリシーパラメータの前記新バージョンを供給するステップと
を含む、方法。
非同期かつ同時に動作する複数のロボットによって生成された経験データのインスタンスを繰り返し受信するステップであって、前記経験データのインスタンスの各々が、ポリシーニューラルネットワークに基づくタスク探査の対応するエピソード中に、前記複数のロボットのうちの対応するロボットによって生成され、前記複数のロボットのうちの所与のロボットによって生成された前記経験データのインスタンスが、第1の周波数において受信される、ステップと、
トレーニングの繰返しの各々において前記ポリシーニューラルネットワークの1つまたは複数の更新されたパラメータを生成するために、前記複数のロボットからの前記受信された経験データに基づいて第2の周波数において前記ポリシーニューラルネットワークを繰り返しトレーニングするステップであって、前記第2の周波数は前記第1の周波数よりも高い、ステップと、
さらなる経験データのインスタンスが基づく前記タスク探査の後続のエピソードに先立って、前記ロボットの前記ポリシーニューラルネットワークを更新するために、前記更新されたパラメータのインスタンスを前記ロボットに対して非同期かつ繰り返し供給するステップと
を含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662395340P | 2016-09-15 | 2016-09-15 | |
US62/395,340 | 2016-09-15 | ||
PCT/US2017/051646 WO2018053187A1 (en) | 2016-09-15 | 2017-09-14 | Deep reinforcement learning for robotic manipulation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019529135A JP2019529135A (ja) | 2019-10-17 |
JP6721785B2 true JP6721785B2 (ja) | 2020-07-15 |
Family
ID=59966886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019514301A Active JP6721785B2 (ja) | 2016-09-15 | 2017-09-14 | ロボット操作のための深層強化学習 |
Country Status (7)
Country | Link |
---|---|
US (3) | US11400587B2 (ja) |
EP (1) | EP3504034A1 (ja) |
JP (1) | JP6721785B2 (ja) |
KR (1) | KR102211012B1 (ja) |
CN (2) | CN115338859A (ja) |
DE (1) | DE202017105598U1 (ja) |
WO (1) | WO2018053187A1 (ja) |
Families Citing this family (140)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11836650B2 (en) | 2016-01-27 | 2023-12-05 | Microsoft Technology Licensing, Llc | Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models |
US11841789B2 (en) | 2016-01-27 | 2023-12-12 | Microsoft Technology Licensing, Llc | Visual aids for debugging |
US11868896B2 (en) | 2016-01-27 | 2024-01-09 | Microsoft Technology Licensing, Llc | Interface for working with simulations on premises |
US10733532B2 (en) | 2016-01-27 | 2020-08-04 | Bonsai AI, Inc. | Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence |
US11775850B2 (en) * | 2016-01-27 | 2023-10-03 | Microsoft Technology Licensing, Llc | Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model |
CN115338859A (zh) | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
CN117709426A (zh) * | 2017-02-24 | 2024-03-15 | 渊慧科技有限公司 | 训练机器学习模型的方法、系统和计算机存储介质 |
WO2018201151A1 (en) * | 2017-04-28 | 2018-11-01 | Google Llc | Neural network optimizer search |
JP2019057093A (ja) * | 2017-09-20 | 2019-04-11 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US10754308B2 (en) * | 2017-11-09 | 2020-08-25 | International Business Machines Corporation | Decomposed perturbation approach using memory based learning for compliant assembly tasks |
JP6680748B2 (ja) * | 2017-11-17 | 2020-04-15 | ファナック株式会社 | 制御装置及び機械学習装置 |
US11494632B1 (en) * | 2017-12-07 | 2022-11-08 | X Development Llc | Generating simulated training examples for training of machine learning model used for robot control |
JP6810087B2 (ja) | 2018-03-29 | 2021-01-06 | ファナック株式会社 | 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法 |
JP7035734B2 (ja) * | 2018-03-30 | 2022-03-15 | 富士通株式会社 | 強化学習プログラム、強化学習方法、および強化学習装置 |
JP7087632B2 (ja) * | 2018-04-26 | 2022-06-21 | セイコーエプソン株式会社 | ロボット制御装置 |
WO2018172593A2 (es) * | 2018-05-25 | 2018-09-27 | Erle Robotics, S.L | Método para integrar nuevos módulos en robots modulares, y un componente de robot del mismo |
CN108481328B (zh) * | 2018-06-04 | 2020-10-09 | 浙江工业大学 | 六关节工业机器人关节空间轨迹跟踪柔性迭代学习控制方法 |
US20190385091A1 (en) * | 2018-06-15 | 2019-12-19 | International Business Machines Corporation | Reinforcement learning exploration by exploiting past experiences for critical events |
WO2019241680A1 (en) * | 2018-06-15 | 2019-12-19 | Google Llc | Deep reinforcement learning for robotic manipulation |
WO2020009139A1 (ja) * | 2018-07-04 | 2020-01-09 | 株式会社Preferred Networks | 学習方法、学習装置、学習システム及びプログラム |
US11285607B2 (en) | 2018-07-13 | 2022-03-29 | Massachusetts Institute Of Technology | Systems and methods for distributed training and management of AI-powered robots using teleoperation via virtual spaces |
WO2020029095A1 (zh) * | 2018-08-07 | 2020-02-13 | 中国科学院深圳先进技术研究院 | 强化学习网络的训练方法、装置、训练设备及存储介质 |
US11823039B2 (en) | 2018-08-24 | 2023-11-21 | International Business Machines Corporation | Safe and fast exploration for reinforcement learning using constrained action manifolds |
WO2020047657A1 (en) * | 2018-09-04 | 2020-03-12 | Kindred Systems Inc. | Real-time real-world reinforcement learning systems and methods |
US10821603B2 (en) * | 2018-09-05 | 2020-11-03 | The Boeing Company | Methods and apparatus for robot control |
CN109212476B (zh) * | 2018-09-18 | 2023-03-14 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
GB2577312B (en) * | 2018-09-21 | 2022-07-20 | Imperial College Innovations Ltd | Task embedding for device control |
US11292133B2 (en) * | 2018-09-28 | 2022-04-05 | Intel Corporation | Methods and apparatus to train interdependent autonomous machines |
DE102019006725B4 (de) * | 2018-10-02 | 2023-06-01 | Fanuc Corporation | Steuereinrichtung und Steuersystem |
JP6508691B1 (ja) | 2018-10-15 | 2019-05-08 | 株式会社Mujin | 制御装置、作業ロボット、プログラム、及び、制御方法 |
KR102611952B1 (ko) * | 2018-10-30 | 2023-12-11 | 삼성전자주식회사 | 로봇의 행동을 제어하는 정책을 갱신하는 방법 및 그 방법을 수행하는 전자 장치 |
US11292129B2 (en) * | 2018-11-21 | 2022-04-05 | Aivot, Llc | Performance recreation system |
CN109543199B (zh) * | 2018-11-28 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法以及相关装置 |
CN109657800A (zh) * | 2018-11-30 | 2019-04-19 | 清华大学深圳研究生院 | 基于参数噪声的强化学习模型优化方法及装置 |
KR102619004B1 (ko) | 2018-12-14 | 2023-12-29 | 삼성전자 주식회사 | 로봇 장치 및 로봇의 작업 기술을 학습하는 방법 |
KR102559552B1 (ko) * | 2018-12-17 | 2023-07-26 | 한국전자통신연구원 | 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법 |
CN109760046A (zh) * | 2018-12-27 | 2019-05-17 | 西北工业大学 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
CN109693239A (zh) * | 2018-12-29 | 2019-04-30 | 深圳市越疆科技有限公司 | 一种基于深度强化学习的机器人抓取方法 |
US11787050B1 (en) * | 2019-01-01 | 2023-10-17 | Sanctuary Cognitive Systems Corporation | Artificial intelligence-actuated robot |
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
WO2020170304A1 (ja) * | 2019-02-18 | 2020-08-27 | 日本電気株式会社 | 学習装置及び方法、予測装置及び方法、並びにコンピュータ可読媒体 |
US11410023B2 (en) | 2019-03-01 | 2022-08-09 | International Business Machines Corporation | Lexicographic deep reinforcement learning using state constraints and conditional policies |
US11308362B2 (en) * | 2019-03-26 | 2022-04-19 | Shenzhen Keya Medical Technology Corporation | Method and system for generating a centerline for an object, and computer readable medium |
DE102019205359B4 (de) * | 2019-04-12 | 2022-05-05 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung |
KR102143757B1 (ko) * | 2019-05-07 | 2020-08-12 | 오토시맨틱스 주식회사 | 딥러닝을 포함한 인공지능을 적용시킨 풍력 발전장치 |
US11345030B2 (en) * | 2019-05-28 | 2022-05-31 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
EP3748551A1 (de) * | 2019-06-07 | 2020-12-09 | Robert Bosch GmbH | Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters |
EP3987478B1 (en) * | 2019-06-21 | 2024-03-27 | Services Pétroliers Schlumberger | Field development planning based on deep reinforcement learning |
CN110400345B (zh) * | 2019-07-24 | 2021-06-15 | 西南科技大学 | 基于深度强化学习的放射性废物推抓协同分拣方法 |
KR20210012730A (ko) | 2019-07-26 | 2021-02-03 | 삼성전자주식회사 | 인공지능 모델의 학습 방법 및 전자 장치 |
CA3088674A1 (en) * | 2019-07-31 | 2021-01-31 | Royal Bank Of Canada | Devices and methods for reinforcement learning visualization using immersive environments |
US11676064B2 (en) * | 2019-08-16 | 2023-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Constraint adaptor for reinforcement learning control |
US11400592B2 (en) * | 2019-08-19 | 2022-08-02 | Wipro Limited | Method and system for task execution in dynamic heterogeneous robotic environment |
CN110333739B (zh) * | 2019-08-21 | 2020-07-31 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110394804B (zh) * | 2019-08-26 | 2022-08-12 | 山东大学 | 一种基于分层线程框架的机器人控制方法、控制器及系统 |
JP7263980B2 (ja) * | 2019-08-27 | 2023-04-25 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習装置 |
CN110502034B (zh) * | 2019-09-04 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
US11685045B1 (en) * | 2019-09-09 | 2023-06-27 | X Development Llc | Asynchronous robotic control using most recently selected robotic action data |
DE102019213676B3 (de) * | 2019-09-10 | 2020-09-17 | Kuka Deutschland Gmbh | Robotersteuerung |
US20220331962A1 (en) * | 2019-09-15 | 2022-10-20 | Google Llc | Determining environment-conditioned action sequences for robotic tasks |
DE102019214400A1 (de) * | 2019-09-20 | 2021-03-25 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Trainieren eines künstlichen neuronalen Netzwerks |
KR102233739B1 (ko) | 2019-09-24 | 2021-03-31 | 한국생산기술연구원 | 강화학습과 인공신경망을 이용한 보행 로봇 자세 제어방법 |
CN112580795B (zh) * | 2019-09-29 | 2024-09-06 | 华为技术有限公司 | 一种神经网络的获取方法以及相关设备 |
US11389957B2 (en) | 2019-09-30 | 2022-07-19 | Mitsubishi Electric Research Laboratories, Inc. | System and design of derivative-free model learning for robotic systems |
WO2021066794A1 (en) * | 2019-09-30 | 2021-04-08 | Siemens Aktiengesellschaft | Machine learning enabled visual servoing with dedicated hardware acceleration |
US11775860B2 (en) * | 2019-10-15 | 2023-10-03 | UiPath, Inc. | Reinforcement learning in robotic process automation |
US20210125052A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Reinforcement learning of tactile grasp policies |
CN110728368B (zh) * | 2019-10-25 | 2022-03-15 | 中国人民解放军国防科技大学 | 一种仿真机器人深度强化学习的加速方法 |
US20210133591A1 (en) * | 2019-11-04 | 2021-05-06 | Baidu Usa Llc | Reducing training times of deep neural networks through efficient hybrid parallelism |
US20240118667A1 (en) * | 2019-11-15 | 2024-04-11 | Google Llc | Mitigating reality gap through training a simulation-to-real model using a vision-based robot task model |
CN110930379B (zh) * | 2019-11-18 | 2023-04-07 | 湖北工业大学 | 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 |
US12109701B2 (en) * | 2019-11-20 | 2024-10-08 | Nvidia Corporation | Guided uncertainty-aware policy optimization: combining model-free and model-based strategies for sample-efficient learning |
CN110929532B (zh) * | 2019-11-21 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
KR102281119B1 (ko) | 2019-11-27 | 2021-07-26 | 한국생산기술연구원 | 강화학습을 이용한 7축 로봇 제어 방법 |
CN110909859B (zh) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
DE102019220478A1 (de) * | 2019-12-20 | 2021-06-24 | Trumpf Werkzeugmaschinen Gmbh + Co. Kg | Verfahren und Vorrichtung zum Ermitteln von Schneidparametern für eine Laserschneidmaschine |
CN111191399B (zh) * | 2019-12-24 | 2021-11-05 | 北京航空航天大学 | 机器鱼的控制方法、装置、设备及存储介质 |
DE102019135810B3 (de) * | 2019-12-27 | 2020-10-29 | Franka Emika Gmbh | Erzeugung eines Steuerprogramms für einen Robotermanipulator |
CN111223141B (zh) * | 2019-12-31 | 2023-10-24 | 东华大学 | 基于强化学习的自动化流水线作业效率优化系统及方法 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
KR20210121790A (ko) | 2020-03-31 | 2021-10-08 | 한국외국어대학교 연구산학협력단 | 강화학습 기반의 분류기 학습 장치 및 방법 |
DE102020204388A1 (de) | 2020-04-03 | 2021-10-07 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Ansteuern eines Agenten |
CN111716352B (zh) * | 2020-05-13 | 2022-04-29 | 中国电力科学研究院有限公司 | 一种配电网带电作业机械臂导航避障方法及系统 |
CN111552183B (zh) * | 2020-05-17 | 2021-04-23 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111633647B (zh) * | 2020-05-26 | 2021-06-22 | 山东大学 | 一种基于深度强化学习的多模融合机器人缝制方法及系统 |
CN112327821A (zh) * | 2020-07-08 | 2021-02-05 | 东莞市均谊视觉科技有限公司 | 一种基于深度强化学习的智能清洁机器人路径规划方法 |
DE102020209685B4 (de) | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
CN112171660B (zh) * | 2020-08-18 | 2021-11-23 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
DE102020210823A1 (de) | 2020-08-27 | 2022-03-03 | Robert Bosch Gesellschaft mit beschränkter Haftung | Maschinen-Steueranordnung |
TWI739604B (zh) * | 2020-09-18 | 2021-09-11 | 英業達股份有限公司 | 訓練機器動物的運動控制器的方法 |
US20220105626A1 (en) * | 2020-10-05 | 2022-04-07 | Autodesk, Inc. | Techniques for force and torque-guided robotic assembly |
US12017352B2 (en) * | 2020-10-29 | 2024-06-25 | Nvidia Corporation | Transformation of joint space coordinates using machine learning |
US11992945B2 (en) * | 2020-11-10 | 2024-05-28 | Google Llc | System and methods for training robot policies in the real world |
CN112356031B (zh) * | 2020-11-11 | 2022-04-01 | 福州大学 | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 |
DE102020214231A1 (de) | 2020-11-12 | 2022-05-12 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotersteuereinrichtung |
WO2022102100A1 (en) | 2020-11-13 | 2022-05-19 | Nec Corporation | Information processing apparatus, information processing method, and computer readable medium |
CN112338921A (zh) * | 2020-11-16 | 2021-02-09 | 西华师范大学 | 一种基于深度强化学习的机械臂智能控制快速训练方法 |
CN112498334B (zh) * | 2020-12-15 | 2022-03-11 | 清华大学 | 智能网联混合动力汽车的鲁棒能量管理方法及系统 |
CN114684293B (zh) * | 2020-12-28 | 2023-07-25 | 成都启源西普科技有限公司 | 一种机器人行走仿真算法 |
CN112801149B (zh) * | 2021-01-15 | 2024-06-11 | 江苏大学 | 一种基于深度强化学习的多车队列控制方法 |
CN112801290B (zh) * | 2021-02-26 | 2021-11-05 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN112975977B (zh) * | 2021-03-05 | 2022-08-09 | 西北大学 | 一种高效的机械臂抓取深度强化学习奖励训练方法及系统 |
CN113093727B (zh) * | 2021-03-08 | 2023-03-28 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113128699B (zh) * | 2021-03-12 | 2022-11-15 | 合肥工业大学 | 快速收敛的多无人机协同对抗强化学习方法 |
EP4075337A1 (en) * | 2021-03-15 | 2022-10-19 | Honeywell Limited | Process controller with meta-reinforcement learning |
US20220305649A1 (en) * | 2021-03-25 | 2022-09-29 | Naver Corporation | Reachable manifold and inverse mapping training for robots |
US20210229281A1 (en) * | 2021-03-26 | 2021-07-29 | Venkat Natarajan | Collaborative multi-robot tasks using action primitives |
CN112990361B (zh) * | 2021-04-20 | 2021-07-27 | 北京动亮健康科技有限公司 | 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置 |
DE102021204846B4 (de) | 2021-05-12 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum Steuern einer Robotervorrichtung |
CN113135532B (zh) * | 2021-05-12 | 2022-03-11 | 吉林大学 | 一种自平衡高空作业台及其控制方法 |
DE102021204961B4 (de) | 2021-05-17 | 2023-06-07 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zur Steuerung einer Robotervorrichtung |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113290557A (zh) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | 一种基于数据驱动的蛇形机器人控制方法 |
CN113340324B (zh) * | 2021-05-27 | 2022-04-29 | 东南大学 | 一种基于深度确定性策略梯度的视觉惯性自校准方法 |
US11845190B1 (en) * | 2021-06-02 | 2023-12-19 | Google Llc | Injecting noise into robot simulation |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
KR102346900B1 (ko) * | 2021-08-05 | 2022-01-04 | 주식회사 애자일소다 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
CN113524196A (zh) * | 2021-08-10 | 2021-10-22 | 南京深一科技有限公司 | 一种基于平面视觉深度强化学习的机械臂抓取控制方法 |
CN113459109B (zh) * | 2021-09-03 | 2021-11-26 | 季华实验室 | 机械臂路径规划方法、装置、电子设备及存储介质 |
CN113967909B (zh) * | 2021-09-13 | 2023-05-16 | 中国人民解放军军事科学院国防科技创新研究院 | 基于方向奖励的机械臂智能控制方法 |
US20230109398A1 (en) * | 2021-10-06 | 2023-04-06 | Giant.Ai, Inc. | Expedited robot teach-through initialization from previously trained system |
KR20230061612A (ko) | 2021-10-28 | 2023-05-09 | 아이둡 주식회사 | 머신 러닝을 이용한 물체의 피킹 자동화 시스템 및 그 제어 방법 |
DE102021212494B4 (de) | 2021-11-05 | 2024-07-04 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zur Steuerung einer Robotervorrichtung |
CN114089633B (zh) * | 2021-11-19 | 2024-04-26 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
KR102664200B1 (ko) | 2021-12-20 | 2024-05-10 | 주식회사 현대케피코 | 가속도센서를 이용한 보행 로봇의 강화 학습 방법 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
KR102631984B1 (ko) * | 2022-02-14 | 2024-01-30 | 경희대학교 산학협력단 | 사람형 로봇 손의 처리 시스템 |
CN114734443B (zh) * | 2022-04-27 | 2023-08-04 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
CN114905510B (zh) * | 2022-04-29 | 2023-07-28 | 南京邮电大学 | 基于自适应近端优化的机器人动作方法 |
CN114952828B (zh) * | 2022-05-09 | 2024-06-14 | 华中科技大学 | 一种基于深度强化学习的机械臂运动规划方法和系统 |
CN114721409B (zh) * | 2022-06-08 | 2022-09-20 | 山东大学 | 一种基于强化学习的水下航行器对接控制方法 |
CN115366099B (zh) * | 2022-08-18 | 2024-05-28 | 江苏科技大学 | 基于正向运动学的机械臂深度确定性策略梯度训练方法 |
CN115674191B (zh) * | 2022-10-08 | 2024-05-10 | 广东工业大学 | 一种基于数字孪生的机械臂控制方法及系统 |
KR20240109625A (ko) | 2023-01-04 | 2024-07-12 | 한국전자기술연구원 | 강화학습을 이용한 원격 로봇 제어 방법 및 시스템 |
US12103182B1 (en) | 2023-10-20 | 2024-10-01 | Tacta Systems Inc. | Tactile robotic training platform |
CN117875407B (zh) * | 2024-03-11 | 2024-06-04 | 中国兵器装备集团自动化研究所有限公司 | 一种多模态持续学习方法、装置、设备及存储介质 |
CN118051063B (zh) * | 2024-04-16 | 2024-06-14 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
CN118114746B (zh) * | 2024-04-26 | 2024-07-23 | 南京邮电大学 | 基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005238422A (ja) | 2004-02-27 | 2005-09-08 | Sony Corp | ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法 |
ES2306161T3 (es) * | 2004-06-15 | 2008-11-01 | Abb Ab | Metodo y sistema para la programacion fuera de linea de multiples robots interactuantes. |
US8060251B2 (en) * | 2004-12-06 | 2011-11-15 | Honda Motor Co., Ltd. | Interface for robot motion control |
JP2008542859A (ja) * | 2005-05-07 | 2008-11-27 | エル ターラー、ステフエン | 有用な情報を自律的にブートストラッピングする装置 |
US11159909B2 (en) * | 2008-02-05 | 2021-10-26 | Victor Thomas Anderson | Wireless location establishing device |
US8805110B2 (en) * | 2008-08-19 | 2014-08-12 | Digimarc Corporation | Methods and systems for content processing |
JP2011204036A (ja) | 2010-03-25 | 2011-10-13 | Institute Of National Colleges Of Technology Japan | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
CN102402712B (zh) * | 2011-08-31 | 2014-03-05 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
US8788439B2 (en) * | 2012-12-21 | 2014-07-22 | InsideSales.com, Inc. | Instance weighted learning machine learning model |
US9056396B1 (en) * | 2013-03-05 | 2015-06-16 | Autofuss | Programming of a robotic arm using a motion capture system |
US9776325B1 (en) * | 2013-03-13 | 2017-10-03 | Hrl Laboratories, Llc | Method for tele-robotic operations over time-delayed communication links |
WO2014190208A2 (en) * | 2013-05-22 | 2014-11-27 | Neurala, Inc. | Methods and apparatus for early sensory integration and robust acquisition of real world knowledge |
US9186795B1 (en) * | 2013-06-24 | 2015-11-17 | Redwood Robotics, Inc. | Programming and execution of force-based tasks with torque-controlled robot arms |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US9533413B2 (en) * | 2014-03-13 | 2017-01-03 | Brain Corporation | Trainable modular robotic apparatus and methods |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
US10445641B2 (en) * | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
US9855658B2 (en) * | 2015-03-19 | 2018-01-02 | Rahul Babu | Drone assisted adaptive robot control |
US9676098B2 (en) * | 2015-07-31 | 2017-06-13 | Heinz Hemken | Data collection from living subjects and controlling an autonomous robot using the data |
US9981381B1 (en) * | 2016-06-08 | 2018-05-29 | X Development Llc | Real time generation of phase synchronized trajectories |
CN115338859A (zh) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
EP3566824B1 (en) * | 2018-05-11 | 2023-06-28 | Siemens Aktiengesellschaft | Method, apparatus, computer-readable storage media and a computer program for robotic programming |
US11554482B2 (en) * | 2020-07-16 | 2023-01-17 | Hitachi, Ltd. | Self-learning industrial robotic system |
-
2017
- 2017-09-14 CN CN202210871601.4A patent/CN115338859A/zh active Pending
- 2017-09-14 EP EP17772579.3A patent/EP3504034A1/en active Pending
- 2017-09-14 KR KR1020197009013A patent/KR102211012B1/ko active IP Right Grant
- 2017-09-14 WO PCT/US2017/051646 patent/WO2018053187A1/en unknown
- 2017-09-14 JP JP2019514301A patent/JP6721785B2/ja active Active
- 2017-09-14 US US16/333,482 patent/US11400587B2/en active Active
- 2017-09-14 CN CN201780067067.9A patent/CN109906132B/zh active Active
- 2017-09-15 DE DE202017105598.1U patent/DE202017105598U1/de active Active
-
2022
- 2022-08-01 US US17/878,186 patent/US11897133B2/en active Active
-
2023
- 2023-12-01 US US18/526,443 patent/US20240131695A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN109906132A (zh) | 2019-06-18 |
DE202017105598U1 (de) | 2018-05-24 |
WO2018053187A1 (en) | 2018-03-22 |
US20220388159A1 (en) | 2022-12-08 |
KR20190040506A (ko) | 2019-04-18 |
US20190232488A1 (en) | 2019-08-01 |
US11400587B2 (en) | 2022-08-02 |
KR102211012B1 (ko) | 2021-02-03 |
EP3504034A1 (en) | 2019-07-03 |
CN115338859A (zh) | 2022-11-15 |
JP2019529135A (ja) | 2019-10-17 |
US20240131695A1 (en) | 2024-04-25 |
US11897133B2 (en) | 2024-02-13 |
CN109906132B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6721785B2 (ja) | ロボット操作のための深層強化学習 | |
US12083678B2 (en) | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning | |
EP3621773B1 (en) | Viewpoint invariant visual servoing of robot end effector using recurrent neural network | |
US20210237266A1 (en) | Deep reinforcement learning for robotic manipulation | |
JP6586532B2 (ja) | ロボットの把持のための深層機械学習方法および装置 | |
US9914213B2 (en) | Deep machine learning methods and apparatus for robotic grasping | |
US11823048B1 (en) | Generating simulated training examples for training of machine learning model used for robot control | |
US20240173854A1 (en) | System and methods for pixel based model predictive control | |
CN112135716A (zh) | 数据高效的分层强化学习 | |
US11992945B2 (en) | System and methods for training robot policies in the real world | |
US20240033904A1 (en) | Simulating multiple robots in virtual environments | |
US11685045B1 (en) | Asynchronous robotic control using most recently selected robotic action data | |
WO2022192132A1 (en) | Controlling multiple simulated robots with a single robot controller | |
CN112313044B (en) | Deep reinforcement learning for robotic manipulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190530 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6721785 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |