JP2021133481A - ロボットの制御システムおよび制御方法 - Google Patents
ロボットの制御システムおよび制御方法 Download PDFInfo
- Publication number
- JP2021133481A JP2021133481A JP2020033546A JP2020033546A JP2021133481A JP 2021133481 A JP2021133481 A JP 2021133481A JP 2020033546 A JP2020033546 A JP 2020033546A JP 2020033546 A JP2020033546 A JP 2020033546A JP 2021133481 A JP2021133481 A JP 2021133481A
- Authority
- JP
- Japan
- Prior art keywords
- state
- robot
- candidate
- state candidate
- robot control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
- B25J13/088—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices with position, velocity or acceleration sensors
- B25J13/089—Determining the position of the robot with reference to its environment
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J15/00—Gripping heads and other end effectors
- B25J15/08—Gripping heads and other end effectors having finger members
- B25J15/12—Gripping heads and other end effectors having finger members with flexible finger members
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
- B25J9/1666—Avoiding collision or forbidden zones
Abstract
【課題】ソフトロボットのモデリングは容易ではなく、ソフトロボットのダイナミクスの同定も困難である。【解決手段】ロボットの制御システムとして、ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、前記状態候補へ遷移するための制御量を推定する制御量推定部と、ロボットの目標とする状態と前記状態候補との距離を計算し、ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、当該距離と当該一致度との和を評価値とする状態候補評価部と、前記状態候補から評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部とを有する。【選択図】 図5
Description
本発明は、ロボットの制御システムおよび制御方法に関し、特に、非線形性を有する柔軟なロボットに好適である。
ロボットの応用範囲が拡大している中、産業界で用いられるロボットに関しては、自動車の組み立て工程に用いられるなど大出力なアプリケーションが多い一方で、食品や衣類など柔らかくかつ変形する物体のハンドリングへの応用例は多くない。このようにロボットが柔軟物のハンドリングを行うことができれば、工場だけでなく、例えば家庭における調理などにロボットを導入できるなど、ロボットの応用先をさらに拡大することが可能となる。
ここで、従来技術としては、「Rapidly Exploring Random Tree」という、ランダムに生成したロボット動作をつなぎ合わせる簡便な技術があるが、答えを見つけるためには強力でかつ精緻なモデルを必要とする。また、「Model Predictive Trajectory Planner」という、経路そのものをパラメータ(経由点など)にして最適化を図り、移動ロボットでは威力を発揮する技術がある。更には、「Confidence based roadmap」という、ロボットの動作をガウス過程でモデリングし、リーチング動作への適用を図る技術がある(非特許文献1)。
「A confidence−based roadmap using Gaussian process regression」p.1013−1026,Autonomous Robots,Vol.41,No.4,2017.4
従来のロボットは、基本的に単純な系の動作計画しかできず、柔らかく変形しやすいオブジェクトを把持することが困難であった。この原因の一つとしては、非線形性を有する柔軟なロボット(以下、「ソフトロボット」という)がどんな動きをするのか、そのモデリングが容易でない点が挙げられる。
例えば、柔軟性を持たせたロボットハンド(以下、「ソフトハンド」という)によるハンドリングの場合、ソフトハンドの素材の物性、空圧の遅れなどが原因となる非線形性が問題となり、また、ロボットそのものも変形するため、ダイナミクスの同定が困難である。そのため、このようなソフトなロボットに対する動作生成/計画も容易ではない。
多くのロボットハンドでは特定の入力を与えることで、ロボットハンドをクローズ/オープンさせるといった、その操作の多くが決められた操作であるところ、例えば、ロボットのフィンガーを特定の位置にリーチングさせるなどの動作を生成させることは容易でない。
そこで、本発明は、ソフトロボットのモデリング工数を削減し、リーチング動作以外の動作も精度良く生成可能にして、かつモデリングが容易なロボットの動作計画手法を提供することを目的とする。
本発明は、上記課題を解決するために、ロボットの制御システムとして、ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、前記状態候補へ遷移するための制御量を推定する制御量推定部と、ロボットの目標とする状態と前記状態候補との距離を計算し、ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、当該距離と当該一致度との和を評価値とする状態候補評価部と、前記状態候補から評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部とを有することを特徴とする。
本発明によれば、ソフトロボットのモデリング工数を削減できると共に、リーチング動作以外の動作も精度良く生成可能になる。併せて、モデリングが容易なロボットの動作計画手法を提供することができ、ロボットの自動化領域の拡大を可能にする。
まず、本発明を実施するための形態としての実施例を説明するに先立って、本発明に係るロボットに用いるモデリングおよび動作計画について説明する。
図1は、ロボットの状態推定を説明する図である。
ロボットの状態推定には、フォワードダイナミクス(forward dynamics)とインバースダイナミクス(inverse dynamics)の二種類を状態推定器として用いる。
ロボットの状態推定には、フォワードダイナミクス(forward dynamics)とインバースダイナミクス(inverse dynamics)の二種類を状態推定器として用いる。
以下では、フォワードダイナミクス(以下、「Fのダイナミクス」という)については、(数1)として表現する。
インバースダイナミクス(以下、「Gのダイナミクス」という)については、(数2)として表現する。
ここで、xは状態(state)、uは制御信号、を表し、この制御信号しては、例えば、ロボットフィンガーの指先を動作(変位)させるための電圧信号(電圧指令値)などである。
次状態(xt+1 )の推定に用いるのがFのダイナミクスであり、制御信号(ut )の推定に用いるのがGのダイナミクスである。多くの動作計画法においては、Gのダイナミクスが重要となる。直線近似などにより次状態の内挿点(xt+1 )を生成し、Gのダイナミクスにより制御信号(ut )を決定する。
本発明では、後述するように、Gのダイナミクスのみならず、動作計画にFのダイナミクスを用いて状態の一致度の指標とするものである。
本発明では、後述するように、Gのダイナミクスのみならず、動作計画にFのダイナミクスを用いて状態の一致度の指標とするものである。
続いて、本発明のコンセプトとしてその着眼点について説明する。図2は、本発明に係るロボットの動作モデリングの問題点を示す図である。
本発明は、ロボットの動作モデリングに機械学習モデルを用い、以下では、その代表例としてニューラルネットワーク(NN)を用いる。ただし、ニューラルネットワーク(NN)に限定されるものではなく、機械学習モデルであれば、多層パーセプトロン(MLP)や線形回帰モデルなどを用いてもよい。
本発明は、ロボットの動作モデリングに機械学習モデルを用い、以下では、その代表例としてニューラルネットワーク(NN)を用いる。ただし、ニューラルネットワーク(NN)に限定されるものではなく、機械学習モデルであれば、多層パーセプトロン(MLP)や線形回帰モデルなどを用いてもよい。
図2に示すように、現在時刻の状態(xt )から制御信号(u´t )により次状態(xt+1 )になった場合、ニューラルネットワークによる動作計画(planned)から算出した計画時の次状態と実際の動作(actual)による実行時の次状態とでは、誤差が発生する。
ニューラルネットワークの誤差により、計画時と実行時との誤差が大きくなり実行可能解にならない。これは、動作計画では誤差がどんどんと累積していくためで、また、ロボットシステムの応答が非線形であるため、ニューラルネットワークの誤差の影響を定量化することも困難である。
そこで、本発明は、後述するフォワードダイナミクス(F)も用いた一致度指標を、動作計画に導入する工夫を施したものである。
そこで、本発明は、後述するフォワードダイナミクス(F)も用いた一致度指標を、動作計画に導入する工夫を施したものである。
次に、本発明による処理手順の概要を示す。以下の手順を実行することにより、モデリングが困難な系の動作計画を実現することが可能となる。
1.ロボットをランダムに動かしてデータを収集
2.FおよびGのダイナミクスを用いたニューラルネットワークによって学習を実行
3.初期状態(x0 )と最終状態(xT )を定義
4.一致度指標を考慮した動作を算出
この算出は、以下の(4−a)(4−b)のステップから成る。
(4−a)次時刻の状態候補(x´t+1 )のサンプリング
(4−b)一致度指標および距離などのコストに基づき次時刻の状態を選択
5.計画動作の実行
上記4.で、選択した状態候補から算出した動作を実行する。
1.ロボットをランダムに動かしてデータを収集
2.FおよびGのダイナミクスを用いたニューラルネットワークによって学習を実行
3.初期状態(x0 )と最終状態(xT )を定義
4.一致度指標を考慮した動作を算出
この算出は、以下の(4−a)(4−b)のステップから成る。
(4−a)次時刻の状態候補(x´t+1 )のサンプリング
(4−b)一致度指標および距離などのコストに基づき次時刻の状態を選択
5.計画動作の実行
上記4.で、選択した状態候補から算出した動作を実行する。
上記した5つの手順の中で、4.の一致度指標を考慮した動作については、本発明の着眼点でもあるので、さらに詳細に説明する。図3は、次時刻の状態候補の選択に当たって模式的な状態遷移を示す図である。
(4−a)について、次時刻状態のための制御信号(u´t )を求めるためには、サンプリングにより次時刻の状態候補を生成してGのダイナミクスを用いる。これは、図3の左側上段に示す遷移である。この時に、現在時刻の状態を中心としたディスク形状のサンプリングにより、効率的に次時刻の状態候補(x´t+1 )をサンプリングする。
図4は、現在時刻の状態(xt )を中心として次時刻の状態候補をサンプリングによりドット表示した図である。このディスク形状のドット内で次時刻の状態候補を選ぶことが可能であって、最小移動量と最大移動量とを加味した次時刻の状態候補の生成が可能となる。
(4−b)について、一致度指標を用いた次時刻候補の選択に際し、先の(4−a)でサンプリングにより生成した目標状態の次時刻の候補点(ディスク形状にドット表示したサンプル点)から1点を選び、この次時刻の状態候補を再現できる制御信号(ut )であるかをチェックして、次時刻の状態(xt+1 )を選択することになる。この次時刻の状態(x´t+1 )への動作生成に対してダイナミクスによる推定誤差を考慮するために、一致度指標を導入する。
この一致度指標を加えた評価関数J(Π)を、以下に(数3)として示す。
ここで、第2項に加算する(数4)が、一致度指標であり、exp(||)など差を検知できる式であれば実施が可能である。λは、定数とする。
また、第1項の(数5)が、コスト関数であり、距離などタスク動作達成に必要なコストを示す項である。
図3の右側に示す遷移のように、求めた制御信号(u´t )を使ってFのダイナミクスにより得られた状態(x´)と次の状態候補(x´t+1 )との一致度計算をすることにより、この制御信号(u´t )を評価する。
以上のように、上記のコスト関数に一致度指標を加えた評価関数J(Π)が最小となる制御信号(ut )を求めることにより、推定誤差の大きい状態遷移を回避することが可能となる。実際に、次時刻の状態候補点を選ぶ際には、データの少ない点や速度が大き過ぎる点を避けるようにする。
以下では、本発明を実施するための形態としての実施例を、図を用いて説明する。
図5は、本発明に係るロボットの制御システムとしての構成を示す図である。
本発明に係るロボットの制御システムは、状態候補生成部1、制御量推定部2、状態候補評価部3および選択部4を用いて、動作計画処理を実行するものである。また、これら各構成部それぞれ、または、制御システム全体として、処理ユニットおよびストレージ部を有するものである(図示せず)。処理ユニットとしては、主にCPUであり、ストレージ部を構成する記憶媒体については、特に限定するものではなく、メモリであってもディスク等であっても構わない。さらに、制御システムは、後述する動作計画やそれに伴う誤差等を表示するための表示部(図示せず)を備えることができる。
図5は、本発明に係るロボットの制御システムとしての構成を示す図である。
本発明に係るロボットの制御システムは、状態候補生成部1、制御量推定部2、状態候補評価部3および選択部4を用いて、動作計画処理を実行するものである。また、これら各構成部それぞれ、または、制御システム全体として、処理ユニットおよびストレージ部を有するものである(図示せず)。処理ユニットとしては、主にCPUであり、ストレージ部を構成する記憶媒体については、特に限定するものではなく、メモリであってもディスク等であっても構わない。さらに、制御システムは、後述する動作計画やそれに伴う誤差等を表示するための表示部(図示せず)を備えることができる。
次に、各構成部が実行する処理内容について順に説明する。ここで、以降に記す各フローチャートにおいて記す、「ストレージA」、「ストレージB」、「ストレージC」および「ストレージD」は、データの保存または読み込みを行う記憶部または記憶領域を示すものであり、上記したストレージ部(図示せず)に対応する。さらに、各フローチャートに示す処理の実行主体は、上記した各構成部が有する処理ユニットまたは制御システムとして統一的に実行をつかさどる処理ユニットであり、以降ではその主体表記を省略する。
図6は、状態候補生成部1が実行する目標状態候補の作成処理のフローチャートを示す図である。
ステップ11(S11)で、状態の最小移動量および最大移動量の読み込みを行う。
ステップ12(S12)で、乱数を用いることにより、次時刻の状態候補としてn個の状態候補を作成する。
上記したステップ11(S11)およびステップ12(S12)で実行する処理が、図3に示すディスク形状にサンプリングしたドット内で次時刻の状態候補を選ぶことに対応する。
ステップ13(S13)で、作成した次時刻の状態候補をストレージAに保存する。
ステップ11(S11)で、状態の最小移動量および最大移動量の読み込みを行う。
ステップ12(S12)で、乱数を用いることにより、次時刻の状態候補としてn個の状態候補を作成する。
上記したステップ11(S11)およびステップ12(S12)で実行する処理が、図3に示すディスク形状にサンプリングしたドット内で次時刻の状態候補を選ぶことに対応する。
ステップ13(S13)で、作成した次時刻の状態候補をストレージAに保存する。
図7は、制御量推定部2が実行する制御量推定処理のフローチャートを示す図である。
ステップ21(S21)で、状態候補生成部1で生成し格納した次時刻の状態候補をストレージAから読み込む。
ステップ22(S22)で、ロボットの現在時刻の状態(xt )を検知して読み込む。
ステップ21(S21)で、状態候補生成部1で生成し格納した次時刻の状態候補をストレージAから読み込む。
ステップ22(S22)で、ロボットの現在時刻の状態(xt )を検知して読み込む。
ステップ23(S23)で、ストレージAから読み込んだ次時刻の状態候補から1つを選択し(xt+1 )、検知した現在時刻の状態(xt )との組み合わせから、Gのダイナミクスにより制御量(u´t )を推定する。このステップ23(S23)は、図4の左側上段に示す制御量(u´t )を得るための遷移に対応する。
ステップ24(S24)で、推定した制御量(以下、「推定制御量」という)と制御量の設定値とを比較して大小関係を判断する。
ステップ24(S24)で、推定した制御量(以下、「推定制御量」という)と制御量の設定値とを比較して大小関係を判断する。
推定制御量が設定値より小さければ(Yes)、ステップ25(S25)で、状態候補(x´t+1 )と推定制御量(u´t )をストレージBに保存して、ステップ26(S26)へ進む。
推定制御量が設定値以上であれば(No)、ステップ26(S26)へスキップする。
推定制御量が設定値以上であれば(No)、ステップ26(S26)へスキップする。
ステップ26(S26)で、実行した候補数のインデックスiが生成した候補数nに達したか否かを、iとnとの大小比較で判断する。i≦nであれば(No)、すなわち、生成した候補数n分の処理を実行していない場合は、ステップ23(S23)へ戻って処理を続ける。i>nを満足すれば(Yes)、処理を終了する。
図8は、状態候補評価部3が実行する状態候補の評価処理のフローチャートを示す図である。
ステップ31(S31)で、先で検知したロボットの現在時刻の状態(xt )およびストレージBに保存したデータ(状態候補と推定制御量)を読み込む。
ステップ32(S32)で、目標とする状態(目標状態)を読み込む。
ステップ31(S31)で、先で検知したロボットの現在時刻の状態(xt )およびストレージBに保存したデータ(状態候補と推定制御量)を読み込む。
ステップ32(S32)で、目標とする状態(目標状態)を読み込む。
ステップ33(S33)で、ストレージBから読み込んだ状態候補(x´t+1 )と目標状態との距離を計算する。
ステップ34(S34)で、ストレージBから読み込んだ推定制御量(u´t )および現在時刻の状態(xt )から次時刻の状態(x´)を計算して推定する。このステップ34(S34)は、図4の中段に示すFのダイナミクスを用いた次状態の推定に対応する。
ステップ34(S34)で、ストレージBから読み込んだ推定制御量(u´t )および現在時刻の状態(xt )から次時刻の状態(x´)を計算して推定する。このステップ34(S34)は、図4の中段に示すFのダイナミクスを用いた次状態の推定に対応する。
ステップ35(S35)で、推定した次時刻の状態(x´)と状態候補(x´t+1 )との一致度を計算する。このステップ35(S35)は、図4の下段に示す一致度計算に対応する。
ステップ36(S36)で、ステップ33(S33)で計算した距離とステップ35(S35)で計算した一致度との和(距離+一致度)を、評価値JとしてストレージCに保存する。
ステップ36(S36)で、ステップ33(S33)で計算した距離とステップ35(S35)で計算した一致度との和(距離+一致度)を、評価値JとしてストレージCに保存する。
ステップ37(S37)で、実行した候補数のインデックスiが生成した候補数nに達したか否かを、iとnとの大小比較で判断する。i≦nであれば(No)、すなわち、生成した候補数n分の処理を実行していない場合は、ステップ23(S23)へ戻って処理を続ける。i>nを満足すれば(Yes)、処理を終了する。
図9は、選択部4が実行する状態の選択処理のフローチャートを示す図である。
ステップ41(S41)で、ストレージCから評価値Jを読み込む。
ステップ42(S42)で、ストレージBから状態候補(x´t+1 )を読み込む。
ステップ41(S41)で、ストレージCから評価値Jを読み込む。
ステップ42(S42)で、ストレージBから状態候補(x´t+1 )を読み込む。
ステップ43(S43)で、評価値Jが最小となるインデックスiを取得する。
ステップ44(S44)で、取得したインデックスiに対応する状態候補(x´t+1 )を選択する。
ステップ44(S44)で、取得したインデックスiに対応する状態候補(x´t+1 )を選択する。
ステップ45(S45)で、選択した状態候補(x´t+1 )を動作生成としてストレージDに保存する。
図10は、本発明に係る制御システム(動作計画部)が実行する全体処理のフローチャートを示す図である。
ステップ51(S51)で、対象とするロボットの初期状態および目標状態を読み込む。
ステップ52(S52)で、図6に示す状態候補の作成処理(S11〜S13)を実行する。
ステップ51(S51)で、対象とするロボットの初期状態および目標状態を読み込む。
ステップ52(S52)で、図6に示す状態候補の作成処理(S11〜S13)を実行する。
ステップ53(S53)で、図7に示す制御量の推定処理(S21〜S26)を実行する。
ステップ54(S54)で、図8に示す状態候補の評価処理(S31〜S37)を実行する。
ステップ54(S54)で、図8に示す状態候補の評価処理(S31〜S37)を実行する。
ステップ55(S55)で、図9に示す状態の選択処理(S41〜S45)を実行する。
ステップ56(S56)で、ストレージDに保存した動作生成を読み込む。
ステップ56(S56)で、ストレージDに保存した動作生成を読み込む。
ステップ57(S57)で、読み込んだ動作生成により得た最新の状態を取得する。
ステップ58(S58)で、取得した最新の状態と目標状態との偏差が所定範囲(δ)の範囲内か否かを判断する。範囲内であれば(Yes)、処理を終了し、範囲外であれば(No)、ステップ52(S52)も戻って一連の処理を再度実行する。
ステップ58(S58)で、取得した最新の状態と目標状態との偏差が所定範囲(δ)の範囲内か否かを判断する。範囲内であれば(Yes)、処理を終了し、範囲外であれば(No)、ステップ52(S52)も戻って一連の処理を再度実行する。
次に、本発明で導入した一致度指標の有無による動作計画および制御結果を、シミュレーション結果を基にして示す。
図11は、動作計画および制御結果において、一致度指標を用いた本発明と一致度指標を用いず距離のみの場合とのシミュレーション実験による軌跡を示す図である。
図11の上段側の2つの図が、本発明(一致度指標有り)の場合で、図11の下段側の2つの図が、一致度指標を用いず距離のみ(一致度指標無し)の場合である。図中、実線が動作計画の場合の軌跡で、破線が制御結果の軌跡である(以降の図12〜14に示す軌跡も同様である)。
また、図11の左側の2つの図が、目標位置を左上にした場合で、図11の右側の2つの図が、目標位置を右上にした場合で、それぞれ中央をスタート地点として、左上または右上をゴール地点(目標位置)としたリーチング動作である。
図11の上段側の2つの図が、本発明(一致度指標有り)の場合で、図11の下段側の2つの図が、一致度指標を用いず距離のみ(一致度指標無し)の場合である。図中、実線が動作計画の場合の軌跡で、破線が制御結果の軌跡である(以降の図12〜14に示す軌跡も同様である)。
また、図11の左側の2つの図が、目標位置を左上にした場合で、図11の右側の2つの図が、目標位置を右上にした場合で、それぞれ中央をスタート地点として、左上または右上をゴール地点(目標位置)としたリーチング動作である。
この実験には、図1〜3に示すロボットフィンガー(robot finger)と同様に、垂直リンク(vertical link)を制御するもので、すなわち、6本のリンクを制御することで動作の生成を行う。そして、ロボットの動作観測は、図1〜3において◆記号で示す4点の二次元位置および速度の16次元観測とした。図11は、手先位置(最下位位置の◆記号)の軌跡の例を示すものである。
図から明らかなように、一致度指標を用いた本発明では、目標位置が右上および左上のどちらの場合であっても、動作計画と制御結果との差が、一致度指標がない場合と比較して小さいことが見て取れる。すなわち、一致度指標を加えることで、ダイナミクス推定の誤差を低減できることが判明した。
図から明らかなように、一致度指標を用いた本発明では、目標位置が右上および左上のどちらの場合であっても、動作計画と制御結果との差が、一致度指標がない場合と比較して小さいことが見て取れる。すなわち、一致度指標を加えることで、ダイナミクス推定の誤差を低減できることが判明した。
続いて、ロボットの動作計画の表示例を、リーチング動作および引き寄せ動作の場合について示す。
図12は、リーチング動作に対して動作計画中に確認できる画面の例を示す図である。
図12に示す画面では、動作の生成結果やシミュレータの現在動作を確認することが可能となる。図12の左上画面には、動作の生成結果を表示すると共に、コストバランスとの兼ね合いを見るために、距離および一致度の設定を可変に調整することができる。図12の右上画面には、図11と同様に、動作計画および制御結果による可動範囲が確認できる表示を行う。また、図12の左下画面には、距離誤差の時間推移をプロット表示し、図12の右下画面には、一致度誤差の時間推移をプロット表示する。また、右下画面の詳細プルダウンは、特定の関節について一致度誤差を表示するために設けたものである。
図12は、リーチング動作に対して動作計画中に確認できる画面の例を示す図である。
図12に示す画面では、動作の生成結果やシミュレータの現在動作を確認することが可能となる。図12の左上画面には、動作の生成結果を表示すると共に、コストバランスとの兼ね合いを見るために、距離および一致度の設定を可変に調整することができる。図12の右上画面には、図11と同様に、動作計画および制御結果による可動範囲が確認できる表示を行う。また、図12の左下画面には、距離誤差の時間推移をプロット表示し、図12の右下画面には、一致度誤差の時間推移をプロット表示する。また、右下画面の詳細プルダウンは、特定の関節について一致度誤差を表示するために設けたものである。
図13は、リーチング動作に対して各特徴量の一致度誤差を確認可能にした画面の例を示す図である。
図13に示す画面では、確認したい関節を指定することでその関節の詳細な動作確認が可能となる。図13の右上画面には、動作計画および制御結果による可動範囲が確認できる表示を行うと共に、一致度誤差を確認する関節を指定できるように各関節に関係する部位を表示する。図13の左上画面には、一致度誤差の総和をプロットし、図13の下側画面には、指定した関節に関係する部位(図13では、手先部分)の位置(左下画面)および速度(右下画面)の一致度誤差を表示する。
図13に示す画面では、確認したい関節を指定することでその関節の詳細な動作確認が可能となる。図13の右上画面には、動作計画および制御結果による可動範囲が確認できる表示を行うと共に、一致度誤差を確認する関節を指定できるように各関節に関係する部位を表示する。図13の左上画面には、一致度誤差の総和をプロットし、図13の下側画面には、指定した関節に関係する部位(図13では、手先部分)の位置(左下画面)および速度(右下画面)の一致度誤差を表示する。
図14は、引き寄せ動作(左側の床に置かれた箱の引き寄せ動作)に対して動作計画中に確認できる画面の例を示す図である。図12で示す画面を、引き寄せ動作時に表示する場合である。
図14に示す画面では、引き寄せ動作時の引き寄せに至るまでの空間毎に、最小誤差量、最良のパラメータおよび探索点の配置などを確認することが可能となる。図14は、手先部分の動きに関する表示を行った例で、下側画面では、距離誤差プロット(左下画面)および一致度誤差プロット(右下画面)として、空間毎にそれぞれの誤差の時間推移をプロット表示する。
図14に示す画面では、引き寄せ動作時の引き寄せに至るまでの空間毎に、最小誤差量、最良のパラメータおよび探索点の配置などを確認することが可能となる。図14は、手先部分の動きに関する表示を行った例で、下側画面では、距離誤差プロット(左下画面)および一致度誤差プロット(右下画面)として、空間毎にそれぞれの誤差の時間推移をプロット表示する。
以上のように、本発明は、非線形要素を持ち、モデリングが容易でないロボットの動作計画に対して、ロボットの状態推定における一致度指標をコスト関数に加えることにより、モデリングが容易で誤差の少ない動作を生成することを可能にすることができる。
1…状態候補生成部
2…制御量推定部
3…状態候補評価部
4…選択部
2…制御量推定部
3…状態候補評価部
4…選択部
Claims (9)
- ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、
前記状態候補へ遷移するための制御量を推定する制御量推定部と、
前記ロボットの目標とする状態と前記状態候補との距離を計算し、前記ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、前記距離と前記一致度との和を評価値とする状態候補評価部と、
前記状態候補から前記評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部と
を有するロボットの制御システム。 - 請求項1に記載のロボットの制御システムであって、
前記制御量推定部は、前記制御量の推定に機械学習モデルを用いる
ことを特徴とするロボットの制御システム。 - 請求項1または2に記載のロボットの制御システムであって、
前記状態候補評価部は、前記次時刻の状態の推定に機械学習モデルを用いる
ことを特徴とするロボットの制御システム。 - 請求項1から3のいずれか1項に記載のロボットの制御システムであって、
前記状態候補生成部は、前記ロボットの現在時刻の状態を中心としたディスク形状のサンプリング点から選択して前記状態候補を生成する
ことを特徴とするロボットの制御システム。 - 請求項1から4のいずれか1項に記載のロボットの制御システムであって、
表示部を更に有し、
前記表示部は、前記動作の生成結果、前記距離および前記一致度の各誤差を表示する
ことを特徴とするロボットの制御システム。 - ロボットの次時刻の状態遷移先である状態候補を生成する第1のステップと、
前記状態候補へ遷移するための制御量を推定する第2のステップと、
前記ロボットの目標とする状態と前記状態候補との距離を計算するステップと、前記ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算するステップと、前記距離と前記一致度との和を評価値とするステップとから成る第3のステップと、
前記状態候補から前記評価値が最小になる状態候補を選択するステップと、選択した当該状態候補に対応する動作を生成するステップとなら成る第4のステップと
を有するロボットの制御方法。 - 請求項6に記載のロボットの制御方法であって、
前記第2のステップは、機械学習モデルを用いて前記制御量を推定する
ことを特徴とするロボットの制御方法。 - 請求項6または7に記載のロボットの制御方法であって、
前記第3のステップは、機械学習モデルを用いて前記次時刻の状態を推定する
ことを特徴とするロボットの制御方法。 - 請求項6から8のいずれか1項に記載のロボットの制御方法であって、
前記第1のステップは、前記ロボットの現在時刻の状態を中心としたディスク形状のサンプリング点から選択して前記状態候補を生成する
ことを特徴とするロボットの制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033546A JP2021133481A (ja) | 2020-02-28 | 2020-02-28 | ロボットの制御システムおよび制御方法 |
US17/183,454 US11707844B2 (en) | 2020-02-28 | 2021-02-24 | Robot control system and robot control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033546A JP2021133481A (ja) | 2020-02-28 | 2020-02-28 | ロボットの制御システムおよび制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021133481A true JP2021133481A (ja) | 2021-09-13 |
Family
ID=77463383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033546A Pending JP2021133481A (ja) | 2020-02-28 | 2020-02-28 | ロボットの制御システムおよび制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11707844B2 (ja) |
JP (1) | JP2021133481A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5489965B2 (ja) * | 2009-12-24 | 2014-05-14 | 本田技研工業株式会社 | 行動制御システムおよびロボット |
JP6240590B2 (ja) * | 2014-11-12 | 2017-11-29 | 本田技研工業株式会社 | 移動ロボットの制御装置 |
US11458626B2 (en) * | 2018-02-05 | 2022-10-04 | Canon Kabushiki Kaisha | Trajectory generating method, and trajectory generating apparatus |
-
2020
- 2020-02-28 JP JP2020033546A patent/JP2021133481A/ja active Pending
-
2021
- 2021-02-24 US US17/183,454 patent/US11707844B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210268654A1 (en) | 2021-09-02 |
US11707844B2 (en) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6781183B2 (ja) | 制御装置及び機械学習装置 | |
JP7196279B2 (ja) | 傾きが未知のペグ・イン・ホール・タスクの実行 | |
Zito et al. | Two-level RRT planning for robotic push manipulation | |
KR102213061B1 (ko) | 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치 | |
CN114761966A (zh) | 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法 | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
JP2018051652A (ja) | ロボットシステム | |
JP2021501433A (ja) | ターゲットシステム用制御システムの生成 | |
Widmann et al. | Human motion prediction in human-robot handovers based on dynamic movement primitives | |
KR20220155921A (ko) | 로봇 디바이스를 제어하기 위한 방법 | |
Vinogradska et al. | Numerical quadrature for probabilistic policy search | |
Gams et al. | Learning of parametric coupling terms for robot-environment interaction | |
Langsfeld | Learning task models for robotic manipulation of nonrigid objects | |
JP2021133481A (ja) | ロボットの制御システムおよび制御方法 | |
US20230241772A1 (en) | Method for controlling a robotic device | |
Langsfeld et al. | Selection of trajectory parameters for dynamic pouring tasks based on exploitation-driven updates of local metamodels | |
Sintov et al. | Motion planning with competency-aware transition models for underactuated adaptive hands | |
Çallar et al. | Hybrid learning of time-series inverse dynamics models for locally isotropic robot motion | |
US11931908B2 (en) | Detecting robotic calibration accuracy discrepancies | |
Grimes et al. | Learning nonparametric policies by imitation | |
Chanrungmaneekul et al. | Non-Parametric Self-Identification and Model Predictive Control of Dexterous In-Hand Manipulation | |
Petkos et al. | Context estimation and learning control through latent variable extraction: From discrete to continuous contexts | |
Hagos | Estimation of Phases for Compliant Motion | |
US20230185254A1 (en) | System and Method for Polytopic Policy Optimization for Robust Feedback Control During Learning | |
US20240123614A1 (en) | Learning device, learning method, and recording medium |