JP2022543926A - ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 - Google Patents
ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 Download PDFInfo
- Publication number
- JP2022543926A JP2022543926A JP2022533021A JP2022533021A JP2022543926A JP 2022543926 A JP2022543926 A JP 2022543926A JP 2022533021 A JP2022533021 A JP 2022533021A JP 2022533021 A JP2022533021 A JP 2022533021A JP 2022543926 A JP2022543926 A JP 2022543926A
- Authority
- JP
- Japan
- Prior art keywords
- manipulator
- learning
- program
- state
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013461 design Methods 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012883 sequential measurement Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims 1
- 102100028282 Bile salt export pump Human genes 0.000 description 13
- 101000724352 Homo sapiens Bile salt export pump Proteins 0.000 description 13
- 230000001133 acceleration Effects 0.000 description 13
- 238000005259 measurement Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009022 nonlinear effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000003857 wrist joint Anatomy 0.000 description 2
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 102100035188 Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Human genes 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006880 cross-coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- PDEDQSAFHNADLV-UHFFFAOYSA-M potassium;disodium;dinitrate;nitrite Chemical compound [Na+].[Na+].[K+].[O-]N=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O PDEDQSAFHNADLV-UHFFFAOYSA-M 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
Description
図面および詳細な説明を通して、特に明記しない限り、図面の同一の参照番号は同一または同様の要素、特徴、および構造を示すものと理解される。これらの要素の相対的なサイズおよび描写は、明確化、説明、および便宜のために、誇張される場合がある。
ガウス過程回帰を使用するモデルベースの強化学習
第1:数値微分
第2:条件付き独立性の仮定
デリバティブフリーの状態定義
フルタの振子:デリバティブフリーモデル化および制御
Claims (22)
- 操作システムを制御するためのマニピュレータ学習制御装置であって、前記マニピュレータ学習制御装置は、
前記操作システムのマニピュレータ状態信号と、作業空間において前記操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを備え、前記物体状態信号は、少なくとも1つの物体検出器によって検出され、前記マニピュレータ学習制御装置はさらに、
初期ポリシープログラムおよび更新されたポリシープログラムを前記操作システムに送信するように構成された出力インターフェイスと、
コンピュータで実行可能なプログラムを格納するためのメモリとを備え、前記プログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、前記マニピュレータ学習制御装置はさらに、
前記メモリに関連してプロセッサを備え、前記プロセッサは、予め設定された期間中に前記物体を操作する前記マニピュレータシステムを動作させる学習プロセスを開始するために、前記初期ポリシープログラムを前記操作システムに送信するように構成され、前記プロセッサは、前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから、前記データ前処理プログラムを用いて変換された、前記物体状態履歴データおよび前記マニピュレータ状態履歴データに従って、前記DF-SPGPモデル学習プログラムを更新し、前記プロセッサは、前記更新したDF-SPGPモデル学習プログラムに従って前記更新ポリシープログラムを更新する、マニピュレータ学習制御装置。 - 前記更新ポリシープログラムは、前記更新したDF-SPGPモデル学習プログラムに従って前記更新ポリシープログラムが更新された後に、前記操作システムに送信される、請求項1に記載のマニピュレータ学習制御装置。
- 前記マニピュレータ状態信号は状態検出器によって検出され、前記状態検出器は、前記操作システムの移動部分にもしくは非移動部分に配置される、または、前記操作システムの前記移動部分および前記非移動部分の双方に配置される、請求項1に記載のマニピュレータ学習制御装置。
- 前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項3に記載のマニピュレータ学習制御装置。
- 前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項3に記載のマニピュレータ学習制御装置。
- 前記少なくとも1つの物体検出器は、前記物体状態信号を生成するRGBまたはRGBDカメラである、請求項1に記載のマニピュレータ学習制御装置。
- 前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項1に記載のマニピュレータ学習制御装置。
- 前記少なくとも1つの物体検出器は、前記操作システムから分離される、請求項1に記載のマニピュレータ学習制御装置。
- 前記マニピュレータの前記状態検出器は、前記操作システムの接合部位置に配置される、請求項1に記載のマニピュレータ学習制御装置。
- 前記マニピュレータ状態データは、予め定められた期間における前記マニピュレータの位置の逐次測定データのセットを表す、請求項3に記載のマニピュレータ学習制御装置。
- 前記DF-SPGPモデル学習プログラムは、前記マニピュレータのおよび/または前記マニピュレータが操作する前記物体の挙動を予測する、請求項1に記載のマニピュレータ学習制御装置。
- 前記DF-SPGPカーネル学習プログラムは、前記マニピュレータのおよび/または前記マニピュレータが操作する前記物体の挙動を予測する前記DF-SPGPモデル学習プログラムを定義する、請求項7に記載のマニピュレータ学習制御装置。
- 前記少なくとも1つの物体検出器は、前記物体状態信号を生成する位置エンコーダである、請求項1に記載のマニピュレータ学習制御装置。
- コンピュータにより実現されるマニピュレータ学習方法であって、前記マニピュレータ学習方法は、
予め設定された期間の間、初期ポリシープログラムに従って操作システムを動作させるステップを含み、前記初期ポリシープログラムは、物体を操作するためにマニピュレータシステムを動作させる学習プロセスを開始させ、前記マニピュレータ学習方法はさらに、
前記予め設定された期間の間、マニピュレータ状態信号と物体状態信号とを受信するステップと、
前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから変換された物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラムを更新するステップと、
前記更新したDF-SPGPモデル学習プログラムに従って更新ポリシープログラムを更新するステップとを含む、マニピュレータ学習方法。 - 前記更新した更新ポリシープログラムを前記操作システムに送信するステップをさらに含む、請求項14に記載のマニピュレータ学習方法。
- 前記マニピュレータ状態信号は、前記操作システムの移動部分に配置された状態検出器によって検出される、請求項14に記載のマニピュレータ学習方法。
- 前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項16に記載のマニピュレータ学習方法。
- 前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項16に記載のマニピュレータ学習方法。
- 前記少なくとも1つの物体検出器は、前記物体状態信号を生成するRGBまたはRGBDカメラである、請求項14に記載のマニピュレータ学習方法。
- 前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項14に記載のマニピュレータ学習方法。
- 前記少なくとも1つの物体検出器は、前記操作システムから分離される、請求項14に記載のマニピュレータ学習方法。
- 前記状態検出器は、前記操作システムの接合部位置に配置される、請求項14に記載のマニピュレータ学習方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/587,490 | 2019-09-30 | ||
US16/587,490 US11389957B2 (en) | 2019-09-30 | 2019-09-30 | System and design of derivative-free model learning for robotic systems |
PCT/JP2020/030104 WO2021065197A1 (en) | 2019-09-30 | 2020-07-29 | System and design of derivative-free model learning for robotic systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022543926A true JP2022543926A (ja) | 2022-10-14 |
Family
ID=72322509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022533021A Pending JP2022543926A (ja) | 2019-09-30 | 2020-07-29 | ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11389957B2 (ja) |
EP (1) | EP3856468A1 (ja) |
JP (1) | JP2022543926A (ja) |
CN (1) | CN114450131B (ja) |
WO (1) | WO2021065197A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018215061A1 (de) * | 2018-09-05 | 2020-03-05 | Robert Bosch Gmbh | Verfahren zum sicheren Trainieren eines dynamischen Modells |
US11440196B1 (en) | 2019-12-17 | 2022-09-13 | X Development Llc | Object association using machine learning models |
JP7463777B2 (ja) * | 2020-03-13 | 2024-04-09 | オムロン株式会社 | 制御装置、学習装置、ロボットシステム、および方法 |
CN114609925B (zh) * | 2022-01-14 | 2022-12-06 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
CN114193458B (zh) * | 2022-01-25 | 2024-04-09 | 中山大学 | 一种基于高斯过程在线学习的机器人控制方法 |
CN114789443B (zh) * | 2022-04-29 | 2024-02-23 | 广东工业大学 | 一种基于多源信息深度强化学习的机械臂控制方法及系统 |
CN115741782B (zh) * | 2022-11-09 | 2024-07-02 | 广州市智能软件产业研究院 | 一种机器人泛化能力评价方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4586129B2 (ja) * | 2008-03-25 | 2010-11-24 | 独立行政法人沖縄科学技術研究基盤整備機構 | 制御器、制御方法および制御プログラム |
CN106030430A (zh) * | 2013-11-27 | 2016-10-12 | 宾夕法尼亚大学理事会 | 用于使用旋翼微型航空载具(mav)在室内和室外环境中的稳健的自主飞行的多传感器融合 |
US10488865B2 (en) * | 2014-12-16 | 2019-11-26 | Al Incorporated | Methods and systems for robotic surface coverage |
US9889566B2 (en) | 2015-05-01 | 2018-02-13 | General Electric Company | Systems and methods for control of robotic manipulation |
CN111832702A (zh) * | 2016-03-03 | 2020-10-27 | 谷歌有限责任公司 | 用于机器人抓取的深度机器学习方法和装置 |
KR102487493B1 (ko) * | 2016-03-03 | 2023-01-11 | 구글 엘엘씨 | 로봇 파지용 심층 기계 학습 방법 및 장치 |
CN115338859A (zh) | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN106842925B (zh) * | 2017-01-20 | 2019-10-11 | 清华大学 | 一种基于深度强化学习的机车智能操纵方法与系统 |
JP6438512B2 (ja) | 2017-03-13 | 2018-12-12 | ファナック株式会社 | 機械学習により補正した計測データでワークの取り出しを行うロボットシステム、計測データ処理装置および計測データ処理方法 |
JP6983524B2 (ja) | 2017-03-24 | 2021-12-17 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP6549644B2 (ja) | 2017-06-27 | 2019-07-24 | ファナック株式会社 | 機械学習装置、ロボット制御システム及び機械学習方法 |
US11475291B2 (en) * | 2017-12-27 | 2022-10-18 | X Development Llc | Sharing learned information among robots |
JP7011239B2 (ja) * | 2018-08-17 | 2022-01-26 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
US11559884B2 (en) * | 2018-11-28 | 2023-01-24 | Kindred Systems Inc. | Systems and methods for a passive grasping surface on an active grasping robotic manipulator |
JP7000359B2 (ja) * | 2019-01-16 | 2022-01-19 | ファナック株式会社 | 判定装置 |
CN110171753B (zh) * | 2019-06-03 | 2021-09-21 | 日立楼宇技术(广州)有限公司 | 一种电梯调度策略处理方法、装置、设备和存储介质 |
-
2019
- 2019-09-30 US US16/587,490 patent/US11389957B2/en active Active
-
2020
- 2020-07-29 JP JP2022533021A patent/JP2022543926A/ja active Pending
- 2020-07-29 EP EP20765107.6A patent/EP3856468A1/en not_active Ceased
- 2020-07-29 WO PCT/JP2020/030104 patent/WO2021065197A1/en unknown
- 2020-07-29 CN CN202080067422.4A patent/CN114450131B/zh active Active
Non-Patent Citations (1)
Title |
---|
ROMERES,DIEGO ET AL.: "Derivative-Free Semiparametric Bayesian Modelsfor Robot Learning", HOME PAGE OF MERL -MITSUBISHI ELECTRIC RESEARCH LABORATORIES-, JPN7023001343, 7 December 2018 (2018-12-07), ISSN: 0005130332 * |
Also Published As
Publication number | Publication date |
---|---|
US11389957B2 (en) | 2022-07-19 |
CN114450131B (zh) | 2024-08-13 |
US20210094174A1 (en) | 2021-04-01 |
CN114450131A (zh) | 2022-05-06 |
WO2021065197A1 (en) | 2021-04-08 |
EP3856468A1 (en) | 2021-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022543926A (ja) | ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 | |
US11235461B2 (en) | Controller and machine learning device | |
Nemec et al. | Human robot cooperation with compliance adaptation along the motion trajectory | |
Abu-Dakka et al. | Adaptation of manipulation skills in physical contact with the environment to reference force profiles | |
JP6456555B1 (ja) | キャリブレーション装置、キャリブレーション方法および制御装置 | |
JP7324932B2 (ja) | 動的計画コントローラ | |
KR101942167B1 (ko) | 전방향 휠을 가지고 선형 예측 위치 및 속도 제어기를 기초한 휴머노이드 로봇 | |
CN112428278A (zh) | 机械臂的控制方法、装置及人机协同模型的训练方法 | |
Altuntaş et al. | Reinforcement learning-based mobile robot navigation | |
US11975451B2 (en) | Simulation-in-the-loop tuning of robot parameters for system modeling and control | |
JP2022061022A (ja) | 力及びトルク誘導ロボット組立のための技術 | |
Zhao et al. | Stability and performance limits of latency-prone distributed feedback controllers | |
JP7487338B2 (ja) | 分散型ロボット実証学習 | |
US20220179419A1 (en) | Method and System for Modelling and Control Partially Measurable Systems | |
JP2021501433A (ja) | ターゲットシステム用制御システムの生成 | |
KR20230154076A (ko) | 실시간 로보틱스 제어 프레임워크 | |
Zhang et al. | Time delay compensation of a robotic arm based on multiple sensors for indirect teaching | |
JP7391635B2 (ja) | 制御システム | |
CN107894709A (zh) | 基于自适应评价网络冗余机器人视觉伺服控制 | |
WO2022044615A1 (ja) | 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム | |
CN116265202A (zh) | 一种机器人的控制方法、装置及介质、一种机器人 | |
y Cabrera | Improving Model-Based Control of a Soft Robot via Gaussian Process Regression | |
CN116476067A (zh) | 机器人运动控制方法、设备及介质 | |
Luz et al. | Model Predictive Control for Assistive Robotics Manipulation | |
Erez et al. | Receding-horizon online optimization for dexterous object manipulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230519 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230816 |