JP2024001878A - 制御ルールを実装するための機械学習モデルをトレーニングするための方法 - Google Patents
制御ルールを実装するための機械学習モデルをトレーニングするための方法 Download PDFInfo
- Publication number
- JP2024001878A JP2024001878A JP2023101496A JP2023101496A JP2024001878A JP 2024001878 A JP2024001878 A JP 2024001878A JP 2023101496 A JP2023101496 A JP 2023101496A JP 2023101496 A JP2023101496 A JP 2023101496A JP 2024001878 A JP2024001878 A JP 2024001878A
- Authority
- JP
- Japan
- Prior art keywords
- trajectory
- machine learning
- learning model
- control
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010801 machine learning Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 title claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 21
- 238000009826 distribution Methods 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 6
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 19
- 230000009471 action Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 7
- 239000012636 effector Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39298—Trajectory learning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
【課題】種々の実施形態により、制御ルールを実装するための機械学習モデルをトレーニングするための方法を説明する。【解決手段】本方法は、複数の制御サイクルの各々ごとに、それぞれの制御シナリオを規定する入力データを機械学習モデルに供給することであって、機械学習モデルは、供給された入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する、ことと、確率分布から軌道パラメータ値をサンプリングすることと、軌道パラメータ値に応じて軌道を決定することと、軌道を評価することとを含み、さらに、より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、機械学習モデルを適合させることを含む。【選択図】図2
Description
本開示は、制御ルールを実装するための機械学習モデルをトレーニングするための方法に関する。
強化学習(Reinforcement Learning:RL)においては、エージェント(例えば、ロボット)は、各自の環境との相互作用のみによって最適に振る舞うことを学習する。したがって、エージェントは、高報酬が得られる挙動を発見するために各自の環境を効果的に探査(探索)する必要がある。RL問題は、軌道に基づく視点と、ステップに基づく視点とから考慮可能である。前者の軌道に基づく視点の場合には、例えば、ロボットアームが追従する軌道が、1つのエピソード全体(すなわち、1つの制御サイクル)中に全体として観察され、探索も、軌道レベルで実施される。ステップに基づくアプローチの場合には、1つの軌道のそれぞれの中間状態が個々に考慮され、したがって、探索は、専ら中間状態に基づいている。
ステップに基づくアプローチは、マルコフ仮定によって制限されており、しばしば格段により簡単に定義可能である非マルコフ性の報酬を有する環境におけるトレーニングのためには、使用することができない。これに対して、軌道に基づくアプローチの欠点は、しばしばそのアプローチの複雑さに関して制限されており、状態変化等に対しては設計されていないことである。
ステップに基づくアプローチの利点と軌道に基づくアプローチの利点とを組み合わせる手法、又は、これらのアプローチのそれぞれの欠点を回避する手法が望ましい。
発明の開示
種々の実施形態によれば、制御ルールを実装するための機械学習モデルをトレーニングするための方法であって、複数の制御サイクルの各々ごとに、それぞれの制御シナリオを規定する入力データを機械学習モデルに供給することであって、機械学習モデルは、供給された入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する、ことと、確率分布から軌道パラメータ値をサンプリングすることと、軌道パラメータ値に応じて軌道を決定することと、軌道を評価することとを含み、さらに、より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、機械学習モデルを適合させることを含む方法が提供される。
種々の実施形態によれば、制御ルールを実装するための機械学習モデルをトレーニングするための方法であって、複数の制御サイクルの各々ごとに、それぞれの制御シナリオを規定する入力データを機械学習モデルに供給することであって、機械学習モデルは、供給された入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する、ことと、確率分布から軌道パラメータ値をサンプリングすることと、軌道パラメータ値に応じて軌道を決定することと、軌道を評価することとを含み、さらに、より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、機械学習モデルを適合させることを含む方法が提供される。
上述した方法により、軌道に基づく探索と、軌道に基づく挙動とを使用することが可能となり、このようにして、ステップに基づくアプローチよりもより一様な性能がもたらされる。全体として、このことにより、よりエネルギ効率的なストラテジがもたらされ、挙動は、ステップに基づくアプローチの場合よりも最適な制御ソリューションにより近づくこととなる。上述した方法により、高度に非線形なコンテキスト情報の利用が可能となる。それと同時に、探索は、相関していないステップに基づく予測には依存しなくなる。種々の実施形態によれば、最適な制御の利点と強化学習との組み合わせ、軌道の最適化による安定性の改善及びよりエネルギ効率的な制御、漸近性能の改善、並びに、より強力に相関した探索が達成される。
以下には、種々の実施例が記載されている。
実施例1は、上述のような、制御ルールを実装するための機械学習モデルをトレーニングするための方法である。
実施例2は、軌道パラメータ値が、軌道基底関数の重みであり、軌道が、重みに応じた軌道基底関数の組み合わせによって決定される、実施例1に記載の方法である。
軌道のための運動プリミティブを実装するために基底関数を使用することによって、可能性のある軌道の大きい空間の効率的なパラメータ化が提供される。これに関する例は、DMP(Dynamic Movement Primitives:動的運動プリミティブ)及びProMP(Probabilistic Movement Primitives:確率的運動プリミティブ)である。
実施例3は、軌道を評価することが、軌道を追従するようにロボット装置を制御し、その結果として生じる制御結果を評価することを含む、実施例1又は2に記載の方法である。
したがって、複数の制御サイクルが実施され、その都度、制御の結果が評価され、例えば、目標が達成されたかどうか(又は目標がどの程度良好に達成されたか)、どのくらいのエネルギが消費されたか等が評価される。これにより、(ロボット装置自体の挙動を含む)(制御)環境の反応が、運動に一緒に取り込まれ、これにより、制御ルールは、実際の使用において良好な結果が達成されるようにトレーニングされる。
実施例4は、ロボット装置が、コントローラによって軌道を追従するように制御され、コントローラは、より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、機械学習モデルと共に適合させられる、実施例1から3までのいずれか1つに記載の方法である。
例えば、PDコントローラ(又は他のコントローラ)のパラメータが一緒にトレーニングされることにより、サンプル効率を高めることができる。
実施例5は、機械学習モデルが、ニューラルネットワークである、実施例1から4までのいずれか1つに記載の方法である。
このことにより、評価された軌道に基づくトレーニングのために任意の深層RL方法を使用することが可能となる。
実施例6は、制御方法であって、当該制御方法は、実施例1から5までのいずれか1つに記載の機械学習モデルをトレーニングすることと、所定の制御シナリオを規定する入力データに対してトレーニングされた機械学習モデルを出力する出力データに従って、ロボット装置を制御することとを含む、制御方法である。
実施例7は、プロセッサによって実行された場合に、実施例1から6までのいずれか1つに記載の方法をプロセッサに実施させるための命令を含むコンピュータプログラムである。
実施例8は、プロセッサによって実行された場合に、実施例1から6までのいずれか1つに記載の方法をプロセッサに実施させるための命令を格納しているコンピュータ可読媒体である。
図面においては、同様の参照符号は、全般的に複数の全く異なる図面を通して同一の部分を指す。図面は、必ずしも縮尺通りではなく、その代わりに全般的に本発明の原理を図示することに重点が置かれている。以下の記載においては、以下の図面を参照しながら種々の態様について説明する。
以下の詳細な説明は、添付の図面を参照しており、それらの図面には、本発明を実施可能な本開示の具体的な詳細及び態様が説明のために示されている。他の態様を使用することもでき、本発明の範囲から逸脱することなく、構造的、論理的又は電気的な変更を加えることができる。本開示のいくつかの態様を本開示の1つ又は複数の他の態様と組み合わせて、新しい態様を形成することができることから、本開示の種々の態様は、必ずしも相互に排他的なものではない。
以下、種々の実施例についてさらに詳細に説明する。
図1は、ロボット100を示している。
ロボット100は、ロボットアーム101を含み、例えば、ワークピース(又は、1つ又は複数の他のオブジェクト)を処理するための又は組み立てるための産業用ロボットアームを含む。ロボットアーム101は、マニピュレータ102,103,104と、これらのマニピュレータ102,103,104を支持する基台(又は支持体)105とを含む。「マニピュレータ」という用語は、ロボットアーム101の可動部材を指し、この可動部材を動作させることによって、例えば、ある1つのタスクを実行するために、環境との物理的な相互作用が可能となる。制御のためにロボット100は、(ロボット)制御装置106を含み、この制御装置106は、制御プログラムに従って環境との相互作用を実施するように構成されている。マニピュレータ102,103,104のうちの(支持体105から最も遠い)最後の部材104は、エンドエフェクタ104とも称され、溶接トーチ、把持器具、塗装設備等のような1つ又は複数のツールを含み得る。
(支持体105により近い)他のマニピュレータ102、103は、ポジショニング装置を構成することができ、これにより、エンドエフェクタ104と共に、このエンドエフェクタ104を端部に有するロボットアーム101が提供されている。ロボットアーム101は、(場合によってはその端部にツールを有する)人間の腕と同様の機能を提供することができる機械式のアームである。
ロボットアーム101は、マニピュレータ102,103,104を互いに及び支持体105と相互接続するジョイント部材107,108,109を含み得る。ジョイント部材107,108,109は、1つ又は複数のジョイントを有し得るものであり、それらのジョイントの各々によって、関連するマニピュレータに対して互いに相対的に回転可能な運動(すなわち、回転運動)及び/又は並進運動(すなわち、変位)をもたらすことができる。マニピュレータ102,103,104の運動を、制御装置106によって制御されるアクチュエータを用いて開始することができる。
「アクチュエータ」という用語は、駆動されたことに応答してメカニズム又はプロセスに作用を及ぼすように構成された構成要素であると理解可能である。アクチュエータは、制御装置106によって発せられた命令(いわゆるアクティベーション)を実施して、機械的運動を生じさせることができる。駆動に応答して電気エネルギを機械エネルギに変換するように、アクチュエータ、例えば電気機械変換器を構成することができる。
「制御装置」という用語は、エンティティを実装する任意の種類のロジックとして理解可能であり、このエンティティは、例えば、記憶媒体に格納されたソフトウェア、ファームウェア又はこれらの組み合わせを実行可能な回路及び/又はプロセッサを含み得るものであり、例えば、本実施例においてはアクチュエータに命令を発することができる。例えば、プログラムコード(例えば、ソフトウェア)によって、ロボット装置の動作を制御するように、制御装置を構成することができる。
本実施例によれば、制御装置106は、1つ又は複数のプロセッサ110と、コード及びデータを格納するメモリ111とを含み、プロセッサ110は、このコード及びデータに基づいてロボットアーム101を制御する。種々の実施形態によれば、制御装置106は、メモリ111に格納されている、制御ルール(英語:policy)を実装する機械学習モデル112に基づき、ロボットアーム101を制御する。ロボット100は、例えば、オブジェクト113を操作することが求められている。
あらゆる時点において、ロボットアーム101と、操作されるべきオブジェクト113とからなるシステム全体、又は、(例えば、種々の種類及び形状の)1つ又は複数のさらなるオブジェクト114も、位置、向き、エンドエフェクタ状態(グリッパの開放/閉鎖)等に関して所定の状態stを有し、ここで、tは、開始時点t=1から終了時点t=Tまで経過する。システム、ロボット又はオブジェクトのこの状態を、(制御)コンフィギュレーションとも称する。この制御コンフィギュレーションの少なくとも一部は、例えばカメラ115を用いて(又はロボットに設けられたセンサによっても)検出され、これにより、制御装置は、システム全体の現在の状態に関する情報を有する。
例えば、ロボットアーム101によって実施される操作タスクは、行動atのシーケンスから構成されており、すなわち、制御のそれぞれの時点に対する行動のシーケンスから構成されている。
種々の実施形態によれば、強化学習(例えば、深層RL、すなわち、トレーニングされるニューラルネットワークに基づいた強化学習)が、(軌道に基づく計画とみなすことができる)軌道に基づくアプローチと組み合わせられる。状態stにおける制御ストラテジが、実施されるべき行動atを直接的に出力するという典型的なステップに基づくアプローチとは異なり、種々の実施形態によれば、制御ルールによって、運動プリミティブの(すなわち、具象的にはパラメータ化された軌道の)パラメータに関する値が供給される。次いで、これらのパラメータ値が、軌道(すなわち、例えばエンドエフェクタ104の位置及び速度の推移)に変換され、(従来の)コントローラ、例えばPDコントローラ等を使用して、ロボットによって実施される行動atのシーケンスに変換される。
軌道を、以下においては、重みwであるパラメータに依存して表現するために、例えば、DMP(動的運動プリミティブ)又はProMP(確率的運動プリミティブ)を使用することができる。
DMPは、非線形の摂動関数fを有する2次の線形の動的システム
として表現され、ここで、
は、動的システムの位置、速度又は加速度を表し、α及びβは、正のばね減衰定数であり、gは、目標アトラクタであり、τは、実施速度に影響を与える時定数である。摂動関数自体は、指数関数的に減少する位相変数
を介して
のように定義されており、ここで、
は、基底関数であり、wは、それぞれの基底関数に対する重みwiを有する重みベクトルである。摂動関数は、位相項xに基づいて漸近的に0に近づく。したがって、
の場合、システムダイナミクスは、安定した目標アトラクタによって支配される。重みwiに対する軌道は、動的システムの積分によって得られる。
ProMPの場合、重みベクトルwに対する運動プリミティブは、軌道の分布を提供する(この分布からサンプリングするものとしてもよいし、又は、この分布の平均値を、例えば軌道として利用するものとしてもよい)。このことによって、軌道成分間の、時間にわたる相関を検出することが可能となる。DMPとは異なりProMPは、軌道を直接的にモデル化する。所与の重みベクトルwにおける(1自由度を有する)軌道の確率を、線形の基底関数モデルとして
のように表現することができ、ここで、
は、ホワイトノイズであり、
は、((2)で使用された記述方式による)基底関数を表す。DMPの場合と同様に、基底関数は、時間ではなく位相信号にわたって定義可能である。
例えば条件付けのような確率論的な演算をp(w)に適用することにより、ProMPは、例えば、通過点に対する条件付け、組み合わせ及び重ね合わせのような、軌道を操作するための柔軟な手段を提供する。さらに、wをサンプリングし、基底関数を用いて軌道空間に投影することによって、種々のサンプル軌道を容易に取得することが可能である。ただし、ProMPは、典型的にはパラメータ空間wにおいてガウス分布を使用するので、条件付け演算は、線形の関係に制限されている。ジョイント空間において軌道を学習する場合には、所望のジョイント位置が達成されるように条件付けることが可能であるが、所望のエンドエフェクタ状態の達成、又は、画像のような比較的高次元のセンサ入力の達成さえも、条件付けることは簡単ではない。
種々の実施形態によれば、深層RLの利点が、運動プリミティブの利点と組み合わせられる。このことにより、深層RLアプローチの柔軟性及び汎化能力と、軌道に基づくアプローチの平滑性及び安定性とが提供される。さらに、種々の実施形態によるアプローチの場合には、MDP(マルコフ決定過程)が不要となり、探索は、深層RLアプローチの場合のステップごとの探索の場合よりもより強力に相関するようになる。
図2は、1つの実施形態による強化学習を示している。
強化学習時には、すなわち、例えば制御装置106によって実施されるが、別個のトレーニング装置によっても実施され、特にシミュレーションにも基づいて実施されるトレーニング時には、機械学習モデル201によって、ここでは例えば機械学習モデル112に対応するニューラルネットワークによって表される制御ルール
が学習される。この場合、制御ルールのパラメータは、機械学習モデル201の対応するパラメータであり、例えば、機械学習モデル201のトレーニング時に適合させられるニューラルネットワークの重みである。制御ルールの出力は、運動プリミティブのパラメータ値の、すなわち、ここでは重みベクトルwの確率分布(例えば、平均値(ベクトル)及び共分散行列)の記述である。ニューラルネットワーク201の入力は、コンテキスト情報cであり、例えば、制御シナリオの開始コンフィギュレーション、オブジェクトに関する目標位置等である。202において、それぞれの制御サイクル(すなわち、イテレーション、ロールアウト、又は、エピソード)ごとに(探索のために)確率分布から重みベクトルwがサンプリングされる。203において、この重みベクトルwから、対応する軌道
(例えば、位置及び対応する速度の所望のシーケンス)が生成される。このことは、DMPの場合には(2)に従って実施され、ProMPの場合には(3)に従って実施され、ProMPの場合には、この段階で再度サンプリングを行うことができ、又は、(3)の軌道分布の平均値をとることができる。生成された軌道は、コントローラ(例えば、PDコントローラ)を使用して、ステップに基づく行動atに、すなわち、それぞれの現在の状態stを考慮したそれぞれの制御時点に対するステップに基づく行動atにマッピングされ、このステップに基づく行動atは、実施されて、環境とのインタラクションによって新しい状態st+1を提供する。したがって、それぞれの制御シナリオの開始コンテキストcに対する重みベクトルのサンプリングが、行動のシーケンスを暗黙的に提供する。
ステップに基づくアプローチとは異なり、このアプローチは、それぞれの軌道ごとに1つのサンプル
のみを生成する(ここで、
は、全体的な報酬、又は、軌道の他の評価である)。それぞれのこのようなサンプルは、1つの完全なエピソードに相当し、リプレイ(英語:Replay)バッファに追加され、トレーニングのために使用される。
トレーニングは、任意の深層RL方法を用いて実施可能である。しかしながら、この場合、Q関数を利用するRL方法が、場合によっては粗悪なトレーニング挙動を有し得るということに留意すべきである。なぜなら、Q関数は、入力としての運動プリミティブの(任意の大きさの)パラメータ化を受けるからである。したがって、1つの実施形態によれば、安定した数学的に正しいオンポリシー(On-Policy)方法として、例えばTRL(Trust Region Layers:信頼領域層)方法が使用される。このことは、例えば、サンプル
のバッチを使用してV関数及び機械学習モデル201を更新することを含み、この場合、機械学習モデル201は、より高評価Rを有するサンプルがより高確率になるように適合させられる。
サンプル効率を高めるために、微分可能なコントローラ204を使用することができ、制御ルールの一部にすることができる。
要約すると、種々の実施形態によれば、図3に示されているような方法が提供される。
図3は、1つの実施形態による、制御ルールを実装するための機械学習モデルをトレーニングするための方法を示すフローチャート300を示している。
301において、複数の制御サイクルの各々ごとに、以下のことが行われる。
・302において、それぞれの制御シナリオを規定する入力データが機械学習モデルに供給され、機械学習モデルは、供給された入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する。
・303において、確率分布から軌道パラメータ値がサンプリングされる(すなわち、「抽出される」)。
・304において、軌道パラメータ値に応じて(例えば、(2)又は(3)に従って)軌道が決定される。
・305において、軌道が(例えば、リワード等に基づいて)評価される。
・302において、それぞれの制御シナリオを規定する入力データが機械学習モデルに供給され、機械学習モデルは、供給された入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する。
・303において、確率分布から軌道パラメータ値がサンプリングされる(すなわち、「抽出される」)。
・304において、軌道パラメータ値に応じて(例えば、(2)又は(3)に従って)軌道が決定される。
・305において、軌道が(例えば、リワード等に基づいて)評価される。
306において、(それぞれの制御シナリオに対して)(その制御サイクルにおいて)より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、機械学習モデルが適合させられる。例えば、ニューラルネットワークの重みは、(それぞれの制御シナリオに対する)このニューラルネットワークの出力によって規定される確率分布の平均値が、良好な評価を有する1つ又は複数の軌道を提供していた軌道パラメータ値の方向へとシフトされるように、適合させられる(例えば、共分散行列も同様)。
種々の実施形態によれば、1つの軌道は、複数の時間ステップにわたる複数の制御行動を含む。軌道パラメータ値がサンプリングされる場合には、このことは、複数の時間ステップの各々ごとにこれらの軌道パラメータ値から制御行動が与えられているということを意味する。これにより、(ロボット装置が制御行動を実施する状態に達する前に行われる)サンプリングは、それぞれ異なる時間ステップにおいて実施される制御行動が定められていると判定する。(たとえ、これらの制御行動が依然として完全には把握されていなくても。なぜなら、例えば、それぞれのコントローラによって考慮される摂動が発生するからである。)すなわち、軌道パラメータ値のサンプリングにより(場合により、ProMPの場合のように軌道の分布からのサンプリングと組み合わせて)、全ての後続する(複数の)時間ステップの制御行動が定められる。確率分布は、例えば、全ての軌道パラメータ値に対する1つの共通の確率分布であり、すなわち、例えば多次元の確率分布である。
図3の方法は、1つ又は複数のデータ処理ユニットを含む1つ又は複数のコンピュータによって実施可能である。「データ処理ユニット」という用語は、データ又は信号の処理を可能にする任意の種類のエンティティとして理解可能である。データ又は信号は、例えば、データ処理ユニットによって実施される少なくとも1つの(すなわち、1つ又は複数の)特定の機能に従って処理可能である。データ処理ユニットは、アナログ回路、デジタル回路、論理回路、マイクロプロセッサ、マイクロコントローラ、中央処理装置(CPU)、グラフィック処理装置(GPU)、デジタル信号プロセッサ(DSP)、プログラマブルゲートアレイ(FPGA)の集積回路、又は、これらの任意の組み合わせを含み得るものであり若しくはこれらから形成可能である。本明細書においてより詳細に説明されるそれぞれの機能を実装するための任意の他の手法も、データ処理ユニット又は論理回路装置として理解可能である。本明細書において詳細に説明される方法ステップのうちの1つ又は複数は、データ処理ユニットにより、データ処理ユニットによって実施される1つ又は複数の特定の機能を介して実行(例えば、実装)可能である。
図3の手法は、ロボット装置のための制御信号を生成するために使用される。「ロボット装置」という用語は、コンピュータ制御式の機械、車両、家庭用電化装置、電動工具、製造機械、パーソナルアシスタント、又は、アクセス制御システムのような(動きが制御される機械部品を有する)任意の技術的システムに関するものとして理解可能である。技術的システムのための制御ルールが学習され、次いで、技術的システムが相応に制御される。このために(制御ルールと、例えば上記の実施例におけるコントローラのようなさらなる構成要素とによって)、例えば、距離、速度及び加速度のような1つ又は複数の連続的な値が生成される。この意味において、回帰が実施される。
種々の実施形態は、ビデオ、レーダ、LiDAR、超音波、モーション、サーマルイメージング等のような種々のセンサからのセンサ信号を受信及び使用して、例えば、システム(ロボット及び1つ又は複数のオブジェクト)の状態又はシナリオに関するセンサデータを取得することができる。各実施形態は、機械学習システムをトレーニングして、種々のシナリオ下で種々の操作タスクを達成するように、ロボット、例えばロボットのマニピュレータを自律的に制御するために使用可能である。特に、各実施形態は、例えば組立ラインにおける操作タスクの実行の制御及び監視に適用可能である。
本明細書において特定の実施形態について図示及び説明してきたが、本発明の範囲から逸脱することなく、図示及び説明された特定の実施形態の代わりに多種多様な代替的及び/又は均等な実装形態を使用し得ることは、当業者によって認識される。本願は、本明細書において論じられた特定の実施形態の任意の適合又は変形を網羅することが意図されている。したがって、本発明は、特許請求の範囲及びそれらの均等物によってのみ限定されることが意図されている。
Claims (8)
- 制御ルールを実装するための機械学習モデルをトレーニングするための方法であって、
複数の制御サイクルの各々ごとに、
それぞれの制御シナリオを規定する入力データを前記機械学習モデルに供給することであって、前記機械学習モデルは、供給された前記入力データに応答して、軌道パラメータ値の確率分布を規定する出力データを出力する、ことと、
前記確率分布から軌道パラメータ値をサンプリングすることと、
前記軌道パラメータ値に応じて軌道を決定することと、
前記軌道を評価することと、
を含み、さらに、
より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、前記機械学習モデルを適合させること、
を含む方法。 - 前記軌道パラメータ値は、軌道基底関数の重みであり、
前記軌道は、前記重みに応じた前記軌道基底関数の組み合わせによって決定される、
請求項1に記載の方法。 - 前記軌道を評価することは、前記軌道を追従するようにロボット装置を制御し、その結果として生じる制御結果を評価することを含む、
請求項1又は2に記載の方法。 - 前記ロボット装置は、コントローラによって前記軌道を追従するように制御され、
前記コントローラは、より高評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率が、より低評価を有する軌道が決定される元となった軌道パラメータ値をサンプリングする確率に比較して高められるように、前記機械学習モデルと共に適合させられる、
請求項1乃至3のいずれか一項に記載の方法。 - 前記機械学習モデルは、ニューラルネットワークである、
請求項1乃至4のいずれか一項に記載の方法。 - 請求項1乃至5のいずれか一項に記載の機械学習モデルをトレーニングすることと、
所定の制御シナリオを規定する入力データに対してトレーニングされた前記機械学習モデルを出力する出力データに従って、ロボット装置を制御することと、
を含む制御方法。 - プロセッサによって実行された場合に、請求項1乃至6のいずれか一項に記載の方法を前記プロセッサに実施させるための命令を含むコンピュータプログラム。
- プロセッサによって実行された場合に、請求項1乃至6のいずれか一項に記載の方法を前記プロセッサに実施させるための命令を格納しているコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022206273.6A DE102022206273A1 (de) | 2022-06-22 | 2022-06-22 | Verfahren zum Trainieren eines maschinellen Lernmodells zum Implementieren einer Steuerungsvorschrift |
DE102022206273.6 | 2022-06-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024001878A true JP2024001878A (ja) | 2024-01-10 |
Family
ID=89075711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023101496A Pending JP2024001878A (ja) | 2022-06-22 | 2023-06-21 | 制御ルールを実装するための機械学習モデルをトレーニングするための方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2024001878A (ja) |
CN (1) | CN117260701A (ja) |
DE (1) | DE102022206273A1 (ja) |
-
2022
- 2022-06-22 DE DE102022206273.6A patent/DE102022206273A1/de active Pending
-
2023
- 2023-06-21 JP JP2023101496A patent/JP2024001878A/ja active Pending
- 2023-06-21 CN CN202310744899.7A patent/CN117260701A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN117260701A (zh) | 2023-12-22 |
DE102022206273A1 (de) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7387920B2 (ja) | ロボットを制御するための方法及びロボットコントローラ | |
US20220161424A1 (en) | Device and method for controlling a robotic device | |
Havoutis et al. | Supervisory teleoperation with online learning and optimal control | |
US20220105625A1 (en) | Device and method for controlling a robotic device | |
KR20220155921A (ko) | 로봇 디바이스를 제어하기 위한 방법 | |
CN114063446A (zh) | 用于控制机器人设备的方法和机器人设备控制器 | |
CN114474106A (zh) | 用于控制机器人装置的方法和机器人控制装置 | |
CN114174008A (zh) | 通过机器人操纵对象的方法和操纵系统 | |
US20210213605A1 (en) | Robot control unit and method for controlling a robot | |
US20220066401A1 (en) | Machine control system | |
CN114536319A (zh) | 用于借助于强化学习来训练控制策略的设备和方法 | |
US20230241772A1 (en) | Method for controlling a robotic device | |
CN111949013A (zh) | 控制载具的方法和用于控制载具的装置 | |
Kawaharazuka et al. | Dynamic task control method of a flexible manipulator using a deep recurrent neural network | |
Petrovic et al. | Sim2real deep reinforcement learning of compliance-based robotic assembly operations | |
Bhattacharya et al. | Tri-space operational control of redundant multilink and hybrid cable-driven parallel robots using an iterative-learning-based reactive approach | |
JP2024001878A (ja) | 制御ルールを実装するための機械学習モデルをトレーニングするための方法 | |
Queißer et al. | Skill memories for parameterized dynamic action primitives on the pneumatically driven humanoid robot child affetto | |
US20240046126A1 (en) | Method for controlling a technical system | |
US20230141855A1 (en) | Device and method for controlling a robot device | |
Robbel | Active learning in motor control | |
US20240037393A1 (en) | Method for training a control policy for controlling a technical system | |
WO2023067972A1 (ja) | 動作指令生成装置および動作指令生成方法 | |
Akbulut et al. | Bimanual rope manipulation skill synthesis through context dependent correction policy learning from human demonstration | |
Raina et al. | AI-Based Modeling and Control of Robotic Systems: A Brief Tutorial |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230817 |