JP2021133481A

JP2021133481A - ロボットの制御システムおよび制御方法

Info

Publication number: JP2021133481A
Application number: JP2020033546A
Authority: JP
Inventors: 有哉岡留; Yuya Okadome; 亮坂井; Akira Sakai; 敏子相薗; Toshiko Aizono
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-09-13
Also published as: US20210268654A1; US11707844B2

Abstract

【課題】ソフトロボットのモデリングは容易ではなく、ソフトロボットのダイナミクスの同定も困難である。【解決手段】ロボットの制御システムとして、ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、前記状態候補へ遷移するための制御量を推定する制御量推定部と、ロボットの目標とする状態と前記状態候補との距離を計算し、ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、当該距離と当該一致度との和を評価値とする状態候補評価部と、前記状態候補から評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部とを有する。【選択図】図５

Description

本発明は、ロボットの制御システムおよび制御方法に関し、特に、非線形性を有する柔軟なロボットに好適である。

ロボットの応用範囲が拡大している中、産業界で用いられるロボットに関しては、自動車の組み立て工程に用いられるなど大出力なアプリケーションが多い一方で、食品や衣類など柔らかくかつ変形する物体のハンドリングへの応用例は多くない。このようにロボットが柔軟物のハンドリングを行うことができれば、工場だけでなく、例えば家庭における調理などにロボットを導入できるなど、ロボットの応用先をさらに拡大することが可能となる。

ここで、従来技術としては、「ＲａｐｉｄｌｙＥｘｐｌｏｒｉｎｇＲａｎｄｏｍＴｒｅｅ」という、ランダムに生成したロボット動作をつなぎ合わせる簡便な技術があるが、答えを見つけるためには強力でかつ精緻なモデルを必要とする。また、「ＭｏｄｅｌＰｒｅｄｉｃｔｉｖｅＴｒａｊｅｃｔｏｒｙＰｌａｎｎｅｒ」という、経路そのものをパラメータ（経由点など）にして最適化を図り、移動ロボットでは威力を発揮する技術がある。更には、「Ｃｏｎｆｉｄｅｎｃｅｂａｓｅｄｒｏａｄｍａｐ」という、ロボットの動作をガウス過程でモデリングし、リーチング動作への適用を図る技術がある（非特許文献１）。

「Ａｃｏｎｆｉｄｅｎｃｅ−ｂａｓｅｄｒｏａｄｍａｐｕｓｉｎｇＧａｕｓｓｉａｎｐｒｏｃｅｓｓｒｅｇｒｅｓｓｉｏｎ」ｐ．１０１３−１０２６，ＡｕｔｏｎｏｍｏｕｓＲｏｂｏｔｓ，Ｖｏｌ．４１，Ｎｏ．４，２０１７．４

従来のロボットは、基本的に単純な系の動作計画しかできず、柔らかく変形しやすいオブジェクトを把持することが困難であった。この原因の一つとしては、非線形性を有する柔軟なロボット（以下、「ソフトロボット」という）がどんな動きをするのか、そのモデリングが容易でない点が挙げられる。

例えば、柔軟性を持たせたロボットハンド（以下、「ソフトハンド」という）によるハンドリングの場合、ソフトハンドの素材の物性、空圧の遅れなどが原因となる非線形性が問題となり、また、ロボットそのものも変形するため、ダイナミクスの同定が困難である。そのため、このようなソフトなロボットに対する動作生成／計画も容易ではない。

多くのロボットハンドでは特定の入力を与えることで、ロボットハンドをクローズ／オープンさせるといった、その操作の多くが決められた操作であるところ、例えば、ロボットのフィンガーを特定の位置にリーチングさせるなどの動作を生成させることは容易でない。

そこで、本発明は、ソフトロボットのモデリング工数を削減し、リーチング動作以外の動作も精度良く生成可能にして、かつモデリングが容易なロボットの動作計画手法を提供することを目的とする。

本発明は、上記課題を解決するために、ロボットの制御システムとして、ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、前記状態候補へ遷移するための制御量を推定する制御量推定部と、ロボットの目標とする状態と前記状態候補との距離を計算し、ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、当該距離と当該一致度との和を評価値とする状態候補評価部と、前記状態候補から評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部とを有することを特徴とする。

本発明によれば、ソフトロボットのモデリング工数を削減できると共に、リーチング動作以外の動作も精度良く生成可能になる。併せて、モデリングが容易なロボットの動作計画手法を提供することができ、ロボットの自動化領域の拡大を可能にする。

ロボットの状態推定を説明する図である。本発明に係るロボットの動作モデリングの問題点を示す図である。次時刻の状態候補の選択に当たって模式的な状態遷移を示す図である。現在時刻の状態を中心として次時刻の状態候補をサンプリングによりドット表示した図である。本発明に係るロボットの制御システムとしての構成を示す図である。状態候補生成部が実行する目標状態候補の作成処理のフローチャートを示す図である。制御量推定部が実行する制御量推定処理のフローチャートを示す図である。状態候補評価部が実行する状態候補の評価処理のフローチャートを示す図である。選択部が実行する状態の選択処理のフローチャートを示す図である。本発明に係る制御システム（動作計画部）が実行する全体処理のフローチャートを示す図である。一致度指標を用いた本発明と一致度指標を用いず距離のみの場合とのシミュレーション実験による軌跡を示す図である。リーチング動作に対して動作計画中に確認できる画面の例を示す図である。リーチング動作に対して各特徴量の一致度誤差を確認可能にした画面の例を示す図である。引き寄せ動作に対して動作計画中に確認できる画面の例を示す図である。

まず、本発明を実施するための形態としての実施例を説明するに先立って、本発明に係るロボットに用いるモデリングおよび動作計画について説明する。

図１は、ロボットの状態推定を説明する図である。
ロボットの状態推定には、フォワードダイナミクス（ｆｏｒｗａｒｄｄｙｎａｍｉｃｓ）とインバースダイナミクス（ｉｎｖｅｒｓｅｄｙｎａｍｉｃｓ）の二種類を状態推定器として用いる。

以下では、フォワードダイナミクス（以下、「Ｆのダイナミクス」という）については、（数１）として表現する。

インバースダイナミクス（以下、「Ｇのダイナミクス」という）については、（数２）として表現する。

ここで、ｘは状態（ｓｔａｔｅ）、ｕは制御信号、を表し、この制御信号しては、例えば、ロボットフィンガーの指先を動作（変位）させるための電圧信号（電圧指令値）などである。

次状態（ｘ_t+1 ）の推定に用いるのがＦのダイナミクスであり、制御信号（ｕ_t ）の推定に用いるのがＧのダイナミクスである。多くの動作計画法においては、Ｇのダイナミクスが重要となる。直線近似などにより次状態の内挿点（ｘ_t+1 ）を生成し、Ｇのダイナミクスにより制御信号（ｕ_t ）を決定する。
本発明では、後述するように、Ｇのダイナミクスのみならず、動作計画にＦのダイナミクスを用いて状態の一致度の指標とするものである。

続いて、本発明のコンセプトとしてその着眼点について説明する。図２は、本発明に係るロボットの動作モデリングの問題点を示す図である。
本発明は、ロボットの動作モデリングに機械学習モデルを用い、以下では、その代表例としてニューラルネットワーク（ＮＮ）を用いる。ただし、ニューラルネットワーク（ＮＮ）に限定されるものではなく、機械学習モデルであれば、多層パーセプトロン（ＭＬＰ）や線形回帰モデルなどを用いてもよい。

図２に示すように、現在時刻の状態（ｘ_t ）から制御信号（ｕ´_t ）により次状態（ｘ_t+1 ）になった場合、ニューラルネットワークによる動作計画（ｐｌａｎｎｅｄ）から算出した計画時の次状態と実際の動作（ａｃｔｕａｌ）による実行時の次状態とでは、誤差が発生する。

ニューラルネットワークの誤差により、計画時と実行時との誤差が大きくなり実行可能解にならない。これは、動作計画では誤差がどんどんと累積していくためで、また、ロボットシステムの応答が非線形であるため、ニューラルネットワークの誤差の影響を定量化することも困難である。
そこで、本発明は、後述するフォワードダイナミクス（Ｆ）も用いた一致度指標を、動作計画に導入する工夫を施したものである。

次に、本発明による処理手順の概要を示す。以下の手順を実行することにより、モデリングが困難な系の動作計画を実現することが可能となる。
１．ロボットをランダムに動かしてデータを収集
２．ＦおよびＧのダイナミクスを用いたニューラルネットワークによって学習を実行
３．初期状態（ｘ_０）と最終状態（ｘ_Ｔ）を定義
４．一致度指標を考慮した動作を算出
この算出は、以下の（４−ａ）（４−ｂ）のステップから成る。
（４−ａ）次時刻の状態候補（ｘ´_t+1 ）のサンプリング
（４−ｂ）一致度指標および距離などのコストに基づき次時刻の状態を選択
５．計画動作の実行
上記４．で、選択した状態候補から算出した動作を実行する。

上記した５つの手順の中で、４．の一致度指標を考慮した動作については、本発明の着眼点でもあるので、さらに詳細に説明する。図３は、次時刻の状態候補の選択に当たって模式的な状態遷移を示す図である。

（４−ａ）について、次時刻状態のための制御信号（ｕ´_t ）を求めるためには、サンプリングにより次時刻の状態候補を生成してＧのダイナミクスを用いる。これは、図３の左側上段に示す遷移である。この時に、現在時刻の状態を中心としたディスク形状のサンプリングにより、効率的に次時刻の状態候補（ｘ´_t+1 ）をサンプリングする。

図４は、現在時刻の状態（ｘ_t ）を中心として次時刻の状態候補をサンプリングによりドット表示した図である。このディスク形状のドット内で次時刻の状態候補を選ぶことが可能であって、最小移動量と最大移動量とを加味した次時刻の状態候補の生成が可能となる。

（４−ｂ）について、一致度指標を用いた次時刻候補の選択に際し、先の（４−ａ）でサンプリングにより生成した目標状態の次時刻の候補点（ディスク形状にドット表示したサンプル点）から１点を選び、この次時刻の状態候補を再現できる制御信号（ｕ_t ）であるかをチェックして、次時刻の状態（ｘ_t+1 ）を選択することになる。この次時刻の状態（ｘ´_t+1 ）への動作生成に対してダイナミクスによる推定誤差を考慮するために、一致度指標を導入する。

この一致度指標を加えた評価関数J（Π）を、以下に（数３）として示す。

ここで、第２項に加算する（数４）が、一致度指標であり、ｅｘｐ（||）など差を検知できる式であれば実施が可能である。λは、定数とする。

また、第１項の（数５）が、コスト関数であり、距離などタスク動作達成に必要なコストを示す項である。

図３の右側に示す遷移のように、求めた制御信号（ｕ´_t ）を使ってＦのダイナミクスにより得られた状態（ｘ´）と次の状態候補（ｘ´_t+1 ）との一致度計算をすることにより、この制御信号（ｕ´_t ）を評価する。

以上のように、上記のコスト関数に一致度指標を加えた評価関数Ｊ（Π）が最小となる制御信号（ｕ_t ）を求めることにより、推定誤差の大きい状態遷移を回避することが可能となる。実際に、次時刻の状態候補点を選ぶ際には、データの少ない点や速度が大き過ぎる点を避けるようにする。

以下では、本発明を実施するための形態としての実施例を、図を用いて説明する。
図５は、本発明に係るロボットの制御システムとしての構成を示す図である。
本発明に係るロボットの制御システムは、状態候補生成部１、制御量推定部２、状態候補評価部３および選択部４を用いて、動作計画処理を実行するものである。また、これら各構成部それぞれ、または、制御システム全体として、処理ユニットおよびストレージ部を有するものである（図示せず）。処理ユニットとしては、主にＣＰＵであり、ストレージ部を構成する記憶媒体については、特に限定するものではなく、メモリであってもディスク等であっても構わない。さらに、制御システムは、後述する動作計画やそれに伴う誤差等を表示するための表示部（図示せず）を備えることができる。

次に、各構成部が実行する処理内容について順に説明する。ここで、以降に記す各フローチャートにおいて記す、「ストレージＡ」、「ストレージＢ」、「ストレージＣ」および「ストレージＤ」は、データの保存または読み込みを行う記憶部または記憶領域を示すものであり、上記したストレージ部（図示せず）に対応する。さらに、各フローチャートに示す処理の実行主体は、上記した各構成部が有する処理ユニットまたは制御システムとして統一的に実行をつかさどる処理ユニットであり、以降ではその主体表記を省略する。

図６は、状態候補生成部１が実行する目標状態候補の作成処理のフローチャートを示す図である。
ステップ１１（Ｓ１１）で、状態の最小移動量および最大移動量の読み込みを行う。
ステップ１２（Ｓ１２）で、乱数を用いることにより、次時刻の状態候補としてｎ個の状態候補を作成する。
上記したステップ１１（Ｓ１１）およびステップ１２（Ｓ１２）で実行する処理が、図３に示すディスク形状にサンプリングしたドット内で次時刻の状態候補を選ぶことに対応する。
ステップ１３（Ｓ１３）で、作成した次時刻の状態候補をストレージＡに保存する。

図７は、制御量推定部２が実行する制御量推定処理のフローチャートを示す図である。
ステップ２１（Ｓ２１）で、状態候補生成部１で生成し格納した次時刻の状態候補をストレージＡから読み込む。
ステップ２２（Ｓ２２）で、ロボットの現在時刻の状態（ｘ_t ）を検知して読み込む。

ステップ２３（Ｓ２３）で、ストレージＡから読み込んだ次時刻の状態候補から１つを選択し（ｘ_t+1 ）、検知した現在時刻の状態（ｘ_t ）との組み合わせから、Ｇのダイナミクスにより制御量（ｕ´_t ）を推定する。このステップ２３（Ｓ２３）は、図４の左側上段に示す制御量（ｕ´_t ）を得るための遷移に対応する。
ステップ２４（Ｓ２４）で、推定した制御量（以下、「推定制御量」という）と制御量の設定値とを比較して大小関係を判断する。

推定制御量が設定値より小さければ（Ｙｅｓ）、ステップ２５（Ｓ２５）で、状態候補（ｘ´_t+1 ）と推定制御量（ｕ´_t ）をストレージＢに保存して、ステップ２６（Ｓ２６）へ進む。
推定制御量が設定値以上であれば（Ｎｏ）、ステップ２６（Ｓ２６）へスキップする。

ステップ２６（Ｓ２６）で、実行した候補数のインデックスｉが生成した候補数ｎに達したか否かを、ｉとｎとの大小比較で判断する。ｉ≦ｎであれば（Ｎｏ）、すなわち、生成した候補数ｎ分の処理を実行していない場合は、ステップ２３（Ｓ２３）へ戻って処理を続ける。ｉ＞ｎを満足すれば（Ｙｅｓ）、処理を終了する。

図８は、状態候補評価部３が実行する状態候補の評価処理のフローチャートを示す図である。
ステップ３１（Ｓ３１）で、先で検知したロボットの現在時刻の状態（ｘ_t ）およびストレージＢに保存したデータ（状態候補と推定制御量）を読み込む。
ステップ３２（Ｓ３２）で、目標とする状態（目標状態）を読み込む。

ステップ３３（Ｓ３３）で、ストレージＢから読み込んだ状態候補（ｘ´_t+1 ）と目標状態との距離を計算する。
ステップ３４（Ｓ３４）で、ストレージＢから読み込んだ推定制御量（ｕ´_t ）および現在時刻の状態（ｘ_t ）から次時刻の状態（ｘ´）を計算して推定する。このステップ３４（Ｓ３４）は、図４の中段に示すＦのダイナミクスを用いた次状態の推定に対応する。

ステップ３５（Ｓ３５）で、推定した次時刻の状態（ｘ´）と状態候補（ｘ´_t+1 ）との一致度を計算する。このステップ３５（Ｓ３５）は、図４の下段に示す一致度計算に対応する。
ステップ３６（Ｓ３６）で、ステップ３３（Ｓ３３）で計算した距離とステップ３５（Ｓ３５）で計算した一致度との和（距離＋一致度）を、評価値ＪとしてストレージＣに保存する。

ステップ３７（Ｓ３７）で、実行した候補数のインデックスｉが生成した候補数ｎに達したか否かを、ｉとｎとの大小比較で判断する。ｉ≦ｎであれば（Ｎｏ）、すなわち、生成した候補数ｎ分の処理を実行していない場合は、ステップ２３（Ｓ２３）へ戻って処理を続ける。ｉ＞ｎを満足すれば（Ｙｅｓ）、処理を終了する。

図９は、選択部４が実行する状態の選択処理のフローチャートを示す図である。
ステップ４１（Ｓ４１）で、ストレージＣから評価値Ｊを読み込む。
ステップ４２（Ｓ４２）で、ストレージＢから状態候補（ｘ´_t+1 ）を読み込む。

ステップ４３（Ｓ４３）で、評価値Ｊが最小となるインデックスｉを取得する。
ステップ４４（Ｓ４４）で、取得したインデックスｉに対応する状態候補（ｘ´_t+1 ）を選択する。

ステップ４５（Ｓ４５）で、選択した状態候補（ｘ´_t+1 ）を動作生成としてストレージＤに保存する。

図１０は、本発明に係る制御システム（動作計画部）が実行する全体処理のフローチャートを示す図である。
ステップ５１（Ｓ５１）で、対象とするロボットの初期状態および目標状態を読み込む。
ステップ５２（Ｓ５２）で、図６に示す状態候補の作成処理（Ｓ１１〜Ｓ１３）を実行する。

ステップ５３（Ｓ５３）で、図７に示す制御量の推定処理（Ｓ２１〜Ｓ２６）を実行する。
ステップ５４（Ｓ５４）で、図８に示す状態候補の評価処理（Ｓ３１〜Ｓ３７）を実行する。

ステップ５５（Ｓ５５）で、図９に示す状態の選択処理（Ｓ４１〜Ｓ４５）を実行する。
ステップ５６（Ｓ５６）で、ストレージＤに保存した動作生成を読み込む。

ステップ５７（Ｓ５７）で、読み込んだ動作生成により得た最新の状態を取得する。
ステップ５８（Ｓ５８）で、取得した最新の状態と目標状態との偏差が所定範囲（δ）の範囲内か否かを判断する。範囲内であれば（Ｙｅｓ）、処理を終了し、範囲外であれば（Ｎｏ）、ステップ５２（Ｓ５２）も戻って一連の処理を再度実行する。

次に、本発明で導入した一致度指標の有無による動作計画および制御結果を、シミュレーション結果を基にして示す。

図１１は、動作計画および制御結果において、一致度指標を用いた本発明と一致度指標を用いず距離のみの場合とのシミュレーション実験による軌跡を示す図である。
図１１の上段側の２つの図が、本発明（一致度指標有り）の場合で、図１１の下段側の２つの図が、一致度指標を用いず距離のみ（一致度指標無し）の場合である。図中、実線が動作計画の場合の軌跡で、破線が制御結果の軌跡である（以降の図１２〜１４に示す軌跡も同様である）。
また、図１１の左側の２つの図が、目標位置を左上にした場合で、図１１の右側の２つの図が、目標位置を右上にした場合で、それぞれ中央をスタート地点として、左上または右上をゴール地点（目標位置）としたリーチング動作である。

この実験には、図１〜３に示すロボットフィンガー（ｒｏｂｏｔｆｉｎｇｅｒ）と同様に、垂直リンク（ｖｅｒｔｉｃａｌｌｉｎｋ）を制御するもので、すなわち、６本のリンクを制御することで動作の生成を行う。そして、ロボットの動作観測は、図１〜３において◆記号で示す４点の二次元位置および速度の１６次元観測とした。図１１は、手先位置（最下位位置の◆記号）の軌跡の例を示すものである。
図から明らかなように、一致度指標を用いた本発明では、目標位置が右上および左上のどちらの場合であっても、動作計画と制御結果との差が、一致度指標がない場合と比較して小さいことが見て取れる。すなわち、一致度指標を加えることで、ダイナミクス推定の誤差を低減できることが判明した。

続いて、ロボットの動作計画の表示例を、リーチング動作および引き寄せ動作の場合について示す。
図１２は、リーチング動作に対して動作計画中に確認できる画面の例を示す図である。
図１２に示す画面では、動作の生成結果やシミュレータの現在動作を確認することが可能となる。図１２の左上画面には、動作の生成結果を表示すると共に、コストバランスとの兼ね合いを見るために、距離および一致度の設定を可変に調整することができる。図１２の右上画面には、図１１と同様に、動作計画および制御結果による可動範囲が確認できる表示を行う。また、図１２の左下画面には、距離誤差の時間推移をプロット表示し、図１２の右下画面には、一致度誤差の時間推移をプロット表示する。また、右下画面の詳細プルダウンは、特定の関節について一致度誤差を表示するために設けたものである。

図１３は、リーチング動作に対して各特徴量の一致度誤差を確認可能にした画面の例を示す図である。
図１３に示す画面では、確認したい関節を指定することでその関節の詳細な動作確認が可能となる。図１３の右上画面には、動作計画および制御結果による可動範囲が確認できる表示を行うと共に、一致度誤差を確認する関節を指定できるように各関節に関係する部位を表示する。図１３の左上画面には、一致度誤差の総和をプロットし、図１３の下側画面には、指定した関節に関係する部位（図１３では、手先部分）の位置（左下画面）および速度（右下画面）の一致度誤差を表示する。

図１４は、引き寄せ動作（左側の床に置かれた箱の引き寄せ動作）に対して動作計画中に確認できる画面の例を示す図である。図１２で示す画面を、引き寄せ動作時に表示する場合である。
図１４に示す画面では、引き寄せ動作時の引き寄せに至るまでの空間毎に、最小誤差量、最良のパラメータおよび探索点の配置などを確認することが可能となる。図１４は、手先部分の動きに関する表示を行った例で、下側画面では、距離誤差プロット（左下画面）および一致度誤差プロット（右下画面）として、空間毎にそれぞれの誤差の時間推移をプロット表示する。

以上のように、本発明は、非線形要素を持ち、モデリングが容易でないロボットの動作計画に対して、ロボットの状態推定における一致度指標をコスト関数に加えることにより、モデリングが容易で誤差の少ない動作を生成することを可能にすることができる。

１…状態候補生成部
２…制御量推定部
３…状態候補評価部
４…選択部

Claims

ロボットの次時刻の状態遷移先である状態候補を生成する状態候補生成部と、
前記状態候補へ遷移するための制御量を推定する制御量推定部と、
前記ロボットの目標とする状態と前記状態候補との距離を計算し、前記ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算し、前記距離と前記一致度との和を評価値とする状態候補評価部と、
前記状態候補から前記評価値が最小になる状態候補を選択し、選択した当該状態候補に対応する動作を生成する選択部と
を有するロボットの制御システム。
請求項１に記載のロボットの制御システムであって、
前記制御量推定部は、前記制御量の推定に機械学習モデルを用いる
ことを特徴とするロボットの制御システム。
請求項１または２に記載のロボットの制御システムであって、
前記状態候補評価部は、前記次時刻の状態の推定に機械学習モデルを用いる
ことを特徴とするロボットの制御システム。
請求項１から３のいずれか１項に記載のロボットの制御システムであって、
前記状態候補生成部は、前記ロボットの現在時刻の状態を中心としたディスク形状のサンプリング点から選択して前記状態候補を生成する
ことを特徴とするロボットの制御システム。
請求項１から４のいずれか１項に記載のロボットの制御システムであって、
表示部を更に有し、
前記表示部は、前記動作の生成結果、前記距離および前記一致度の各誤差を表示する
ことを特徴とするロボットの制御システム。
ロボットの次時刻の状態遷移先である状態候補を生成する第１のステップと、
前記状態候補へ遷移するための制御量を推定する第２のステップと、
前記ロボットの目標とする状態と前記状態候補との距離を計算するステップと、前記ロボットの現在時刻の状態および前記制御量から推定する次時刻の状態と前記状態候補との一致度を計算するステップと、前記距離と前記一致度との和を評価値とするステップとから成る第３のステップと、
前記状態候補から前記評価値が最小になる状態候補を選択するステップと、選択した当該状態候補に対応する動作を生成するステップとなら成る第４のステップと
を有するロボットの制御方法。
請求項６に記載のロボットの制御方法であって、
前記第２のステップは、機械学習モデルを用いて前記制御量を推定する
ことを特徴とするロボットの制御方法。
請求項６または７に記載のロボットの制御方法であって、
前記第３のステップは、機械学習モデルを用いて前記次時刻の状態を推定する
ことを特徴とするロボットの制御方法。
請求項６から８のいずれか１項に記載のロボットの制御方法であって、
前記第１のステップは、前記ロボットの現在時刻の状態を中心としたディスク形状のサンプリング点から選択して前記状態候補を生成する
ことを特徴とするロボットの制御方法。