JP2021122899A

JP2021122899A - 軌道生成装置、多リンクシステム、及び軌道生成方法

Info

Publication number: JP2021122899A
Application number: JP2020018237A
Authority: JP
Inventors: 顕一蓑谷; Kenichi Minoya
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2021-08-30
Anticipated expiration: 2040-02-05
Also published as: JP7375587B2; CN113290553A; US11673271B2; US20210237270A1

Abstract

【課題】多リンク機構の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることを可能にする。【解決手段】ロボットアームの動作空間に存在する障害物の位置座標を取得する情報取得部１００と、機械学習を行った学習結果を用いて、情報取得部１００で取得した障害物の位置座標、ロボットアームの第１時刻における対象関節状態、及びロボットアームの目標関節状態に基づいて、第１時刻の次の時刻である第２時刻における手先位置を推定する手先位置推定部１１０と、手先位置推定部１１０によって推定した手先位置を制約として、第２時刻におけるロボットアームと障害物とが干渉しないロボットアームの非干渉関節状態を探索する制約付き探索部１３０とを備える。【選択図】図２

Description

本開示は、多リンク機構の軌道を生成する軌道生成装置、多リンクシステム、及び軌道生成方法に関するものである。

ロボットアームといった多リンク機構の軌道を生成する技術が知られている。特許文献１には、ディープニューラルネットワーク（以下、ＤＮＮ）の学習を行うことで、障害物を回避して目標位置へ到達するロボットの手先の行動系列を学習する技術が開示されている。機械学習による学習結果を用いて多リンク機構の軌道を生成する手法を、以下では学習ベース手法と呼ぶ。また、多リンク機構の軌道を生成する技術として、ＲＲＴ（Rapidly exploring random tree）といった、多リンク機構の動作制約を考慮しながらランダムに軌道を探索して生成する技術も知られている。多リンク機構の動作制約を考慮しながらランダムに軌道を探索して生成する手法を、以下では探索ベース手法と呼ぶ。

特開２０１９−５８３４号公報

探索ベース手法は、探索に時間をかけることでより適切な軌道を生成することが可能になる一方、短時間で適切な軌道を生成することが難しい。一方、学習ベース手法は、短時間でより適切な軌道を生成することが可能である一方、適切な軌道を生成できる学習結果を学習させることが困難である。これは、多リンク機構の行動出力が連続値であることに加え、多リンク機構が複数の軸を有するために多次元状態空間を扱う必要があることから、学習させる動作パターンが膨大になることが要因として考えられる。

ここで、複雑な問題を複数のサブ問題に分ける階層化によって、学習で扱う状態数を減らすことが考えられる。しかしながら、階層化には、上位階層で問題分割の粒度が大きいと必要な情報が排除されてしまい、解の完全性及び最適性が損なわれる問題が生じる。例えば、解の完全性の問題としては、上位の階層で生成したゴールが、多リンク機能の関節の構造上、下位の階層では到達不可能である問題が考えられる。また、解の最適性の問題としては、上位の階層で生成したゴールが、多リンク機能の関節の構造上、下位の階層では最短経路に対して遠回りを多く必要としてしまう問題が考えられる。

この開示のひとつの目的は、多リンク機構の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることを可能にする軌道生成装置、多リンクシステム、及び軌道生成方法を提供することにある。

上記目的は独立請求項に記載の特徴の組み合わせにより達成され、また、下位請求項は、開示の更なる有利な具体例を規定する。特許請求の範囲に記載した括弧内の符号は、ひとつの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本開示の技術的範囲を限定するものではない。

上記目的を達成するために、本開示の軌道生成装置は、複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）の動作空間におけるこの多リンク機構の軌道を生成する軌道生成装置であって、多リンク機構の動作空間に存在する障害物の位置に関する障害物情報を取得する情報取得部（１００）と、多リンク機構のスタートの関節状態、多リンク機構のゴールの関節状態、及び障害物情報を入力とし、多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習を行った学習結果を用いて、情報取得部で取得した障害物情報、多リンク機構のある時刻である第１時刻における対象関節状態、及び多リンク機構の目標関節状態に基づいて、第１時刻の次の時刻である第２時刻におけるエンド位置である次エンド位置を推定するエンド位置推定部（１１０）と、エンド位置推定部によって推定した次エンド位置を制約として、第２時刻における多リンク機構と障害物とが干渉しない多リンク機構の非干渉関節状態を探索する制約付き探索部（１３０，１３０ａ，１３０ｂ）とを備える。

上記目的を達成するために、本開示の軌道生成方法は、少なくとも１つのプロセッサにより実行される、複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）の動作空間におけるこの多リンク機構の軌道を生成する軌道生成方法であって、多リンク機構の動作空間に存在する障害物の位置に関する障害物情報を取得する位置情報取得工程（Ｓ１，Ｓ２１）と、多リンク機構のスタートの関節状態、多リンク機構のゴールの関節状態、及び障害物情報を入力とし、多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習を行った学習結果を用いて、位置情報取得工程で取得した障害物情報、多リンク機構のある時刻である第１時刻における対象関節状態、及び多リンク機構の目標関節状態に基づいて、第１時刻の次の時刻である第２時刻におけるエンド位置である次エンド位置を推定するエンド位置推定工程（Ｓ２，Ｓ２２）と、エンド位置推定工程によって推定した次エンド位置を制約として、第２時刻における多リンク機構と障害物とが干渉しない多リンク機構の非干渉関節状態を探索する制約付き探索工程（Ｓ３〜Ｓ７，Ｓ２３〜Ｓ３４）とを含む。

以上の構成によれば、多リンク機構のスタートの関節状態、多リンク機構のゴールの関節状態、及び障害物情報を入力とし、多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習は、多リンク機構の関節状態よりも状態数の少ないエンド位置を出力とする。よって、多リンク機構の関節状態を出力とする場合に対して、エンド位置を中間状態とした階層化が行われることになる。よって、階層化を行わない、多リンク機構の関節状態を出力とする場合よりも容易に学習を収束させることができる。このような機械学習の結果を用いるので、多リンク機構の関節状態を出力とする機械学習の結果を用いるよりも容易に実現が可能となる。また、機械学習の学習結果によって次エンド位置まで推定し、この次エンド位置を制約として次の時刻における関節状態を探索するので、この次エンド位置及び関節状態を多リンク機構の軌道として生成することが可能になる。さらに、機械学習の学習結果によって次エンド位置までは推定するので、機械学習を利用せずに探索のみによって軌道を生成する場合に比べ、より短時間でより最適性を満たしやすい軌道を生成することが可能になる。

また、エンド位置は、多リンク機構の全関節の影響を受けるため、多リンク機構の軌道を生成する上での重要な情報が縮約されていると言える。よって、エンド位置を中間状態として階層化を行ったとしても、解の完全性及び最適性を満たすための情報が排除されにくく、解の完全性及び最適性を満たしやすくなる。さらに、次エンド位置を制約として、第２時刻における多リンク機構と障害物とが干渉しない多リンク機構の非干渉関節状態を探索することで多リンク機構の軌道を生成するので、探索によって解の完全性を満たすことが可能になる。その結果、多リンク機構の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることが可能になる。

上記目的を達成するために、本開示の多リンクシステムは、前述の軌道生成装置（１０，１０ａ，１０ｂ）と、軌道生成装置で生成される軌道に沿って動作するように制御される、複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）とを含む。

これによれば、前述の軌道生成装置を含むので、多リンク機構の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることが可能になる。

ロボットアームシステム１の概略的な構成の一例を示す図である。軌道生成装置１０の概略的な構成の一例を示す図である。情報取得部１００の概略的な構成の一例を示す図である。第２時刻の手先姿勢αｔ＋１を算出するための式の一例を示す図である。軌道生成装置１０での軌道生成関連処理の流れの一例を示すフローチャートである。機械学習モデルのみによって関節状態を求める例について説明するための図である。機械学習モデルと探索とを組み合わせて関節状態を求める例について説明するための図である。軌道生成装置１０ａの概略的な構成の一例を示す図である。軌道生成装置１０ａでの軌道生成関連処理の流れの一例を示すフローチャートである。軌道生成装置１０ｂの概略的な構成の一例を示す図である。

図面を参照しながら、開示のための複数の実施形態を説明する。なお、説明の便宜上、複数の実施形態の間において、それまでの説明に用いた図に示した部分と同一の機能を有する部分については、同一の符号を付し、その説明を省略する場合がある。同一の符号を付した部分については、他の実施形態における説明を参照することができる。

（実施形態１）
＜ロボットアームシステム１の概略構成＞
以下、本実施形態について図面を用いて説明する。まず、図１を用いて、ロボットアームシステム１の説明を行う。ロボットアームシステム１は、図１に示すように、軌道生成装置１０及びロボットアーム２０を含む。ロボットアームシステム１が多リンクシステムに相当する。

ロボットアーム２０は、複数のリンクを可動部分である関節によって接続した機械機構である。ロボットアーム２０は、軌道生成装置１０による軌道生成の対象である。ロボットアーム２０の関節の形式としては、回転関節，直動関節，球関節等を採用することができる。なお、本実施形態では、ロボットアーム２０の関節は回転関節である場合を例に挙げて説明を行う。

ロボットアーム２０は、４つの関節（図１のＪｏ１，Ｊｏ２，Ｊｏ３，Ｊｏ４）を備える。ロボットアーム２０の関節は、関節ごとに設けられたモータ等のアクチュエータによって動作するものとすればよい。ロボットアーム２０は、３つのリンク（図１のＬｉ１，Ｌｉ２，Ｌｉ３）を備える。リンクは軸と言い換えることもできる。ロボットアーム２０のリンクは剛体とすればよい。ロボットアーム２０は、１つの手先２０１を備える。手先２０１はエンドエフェクタと言い換えることもできる。以上のように、ロボットアーム２０は、複数の関節及びリンクを備える多リンク機構である。なお、図１で示すロボットアーム２０は、あくまで一例である。ロボットアーム２０は、多リンク機構であれば、関節及びリンクの数が図１に示す例と異なっていてもよい。例えば、ロボットアーム２０は、６軸垂直多関節型のロボットアームであってもよい。

ロボットアーム２０の台座部分とリンクＬｉ１とは関節Ｊｏ１によって結合されている。リンクＬｉ１とリンクＬｉ２とは関節Ｊｏ２によって結合されている。リンクＬｉ２とリンクＬｉ３とは関節Ｊｏ３によって結合されている。リンクＬｉ３と手先２０１とは関節Ｊｏ４によって結合されている。ロボットアーム２０は、各関節を動作させて関節角度を変化させることで、手先２０１の位置及び姿勢を変化させる。

関節Ｊｏ１についての関節角度は、台座部分に対するリンクＬｉ１の角度である。関節Ｊｏ２についての関節角度は、リンクＬｉｎ１に対するリンクＬｉｎ２の角度である。関節Ｊｏ３についての関節角度は、リンクＬｉｎ２に対するリンクＬｉｎ３の角度である。関節Ｊｏ４についての関節角度は、リンクＬｉｎ３に対する手先２０１の角度である。リンクＬｉｎ３に対する手先２０１の角度は、手先２０１の姿勢にあたる。以降では、各関節Ｊｏ１〜Ｊｏ４の関節角度をまとめて関節状態と呼ぶものとする。ロボットアームの軌道とは、関節状態の系列とすればよい。なお、ロボットアームの軌道は、関節状態をもとに特定できる、ロボットアームの動作の軌跡を表す物理量であれば、関節状態の系列以外であってもよい。例えば、各関節に設けられたアクチュエータの出力値の系列等としてもよい。

軌道生成装置１０は、例えばプロセッサ、メモリ、Ｉ／Ｏ、これらを接続するバスを備え、メモリに記憶された制御プログラムを実行することで各種の処理を実行する。ここで言うところのメモリは、コンピュータによって読み取り可能なプログラム及びデータを非一時的に格納する非遷移的実体的記憶媒体（non-transitory tangible storage medium）である。また、非遷移的実体的記憶媒体は、半導体メモリ又は磁気ディスクなどによって実現される。

軌道生成装置１０は、ロボットアーム２０の軌道の生成に関する処理（以下、軌道生成関連処理）を実行する。軌道生成装置１０は、ロボットアーム２０のある関節状態から、ロボットアーム２０の動作空間に存在する障害物（図１のＯｂ）を把持するための目標関節状態に到達するまでの軌道を生成する。そして、軌道生成装置１０は、生成した軌道に沿ってロボットアーム２０を動作させる。なお、軌道生成装置１０の詳細については、以下で述べる。動作空間とは、ロボットアーム２０が作業を行う空間を指す。

＜軌道生成装置１０の概略構成＞
続いて、図２を用いて、軌道生成装置１０の概略構成を説明する。図２に示すように、軌道生成装置１０は、情報取得部１００、手先位置推定部１１０、乱数発生部１２０、制約付き探索部１３０、及び移動指令部１４０を機能ブロックとして備えている。なお、軌道生成装置１０が実行する機能の一部又は全部を、１つ或いは複数のＩＣ等によりハードウェア的に構成してもよい。また、軌道生成装置１０が備える機能ブロックの一部又は全部は、プロセッサによるソフトウェアの実行とハードウェア部材の組み合わせによって実現されてもよい。なお、軌道生成装置１０では、実際のロボットアーム２０及び障害物を対象とする代わりにロボットアーム２０及び障害物の３Ｄモデルを対象として軌道の生成を行ってもよい。

情報取得部１００は、障害物及びロボットアーム２０の関節状態に関する情報を取得する。情報取得部１００は、図３に示すように、位置情報取得部１０１、関節状態取得部１０４、及び次元変換部１０５を備えている。

位置情報取得部１０１は、ロボットアーム２０の動作空間に存在する障害物の位置に関する障害物情報を取得する。ロボットアーム２０の動作空間に存在する障害物を、以降では単に障害物と呼ぶ。位置情報取得部１０１は、図３に示すように、環境情報取得部１０２及び抽象化部１０３を備えている。

環境情報取得部１０２は、障害物情報として、三次元空間上の障害物の位置を示す位置座標を取得する。つまり、環境情報取得部１０２は、障害物の位置の情報として、三次元空間の直交座標系で表される位置座標を取得する。この直交座標系の原点は、ロボットアーム２０の例えば台座部分の固定点等とすればよい。環境情報取得部１０２は、例えばカメラ等のセンサによって実物の障害物を検出することで障害物の位置座標を取得してもよいし、３Ｄモデルの障害物を用いたシミュレーション上の障害物の位置座標を取得してもよい。環境情報取得部１０２は、三次元点群データの形式の障害物の位置座標を取得する構成とすればよい。

抽象化部１０３は、環境情報取得部１０２で取得した三次元点群データの形式の障害物の位置座標を、より情報量の少ない三次元グリッドデータに変換する。具体的には、三次元点群データの形式の障害物の位置座標を、この位置座標の最小の位よりも大きい位の単位間隔の区分あたり１点にまとめることで情報量を減らす。

関節状態取得部１０４は、ロボットアーム２０の関節状態を取得する。関節状態取得部１０４は、各関節Ｊｏ１〜Ｊｏ４の関節角度を取得すればよい。関節状態取得部１０４は時刻ごとのロボットアーム２０の関節状態（以下、対象関節状態）を取得する。この対象関節状態については、例えば時刻が現在の場合は、関節を動作させるアクチュエータの現在の駆動状態から特定すればよい。関節状態取得部１０４は、実物のロボットアーム２０の関節状態を取得してもよいし、３Ｄモデルのロボットアーム２０を用いたシミュレーション上の関節状態を取得してもよい。また、現在の時刻よりも未来の時刻の場合は、その未来の時刻についての後述する制約付き探索部１３０で探索した関節状態を対象関節状態として取得すればよい。関節状態取得部１０４は、ロボットアーム２０の最終的な目標関節状態も取得する。目標関節状態は、例えばオペレータ等が入力することで与える等すればよい。

次元変換部１０５は、関節状態取得部１０４で取得したロボットアーム２０の関節状態を、抽象化部１０３で変換する三次元グリッドデータと同じ形式の三次元グリッドデータに変換する。次元変換部１０５は、ＤＮＮ（Deep Neural Networks）等の機械学習の学習結果を用いて、関節状態取得部１０４で取得したロボットアーム２０の関節状態をこの三次元グリッドデータに変換すればよい。これにより、障害物の位置座標とロボットアーム２０の関節状態とは、同じ三次元グリッドデータの形式に統一される。次元変換部１０５では、ロボットアーム２０の関節状態を入力とし、三次元グリッドデータを出力とする機械学習の学習結果を用いればよい。機械学習では、複数の異なるサンプルについて学習を行わせる。以降の機械学習についても同様である。学習結果とは、学習が行われた機械学習モデルである。例えば、学習結果は、学習が行われた識別器とすればよい。以降についても同様である。

情報取得部１００は、抽象化部１０３で変換した、障害物の位置座標の三次元グリッドデータ、及び次元変換部１０５で変換した、ロボットアーム２０の関節状態の三次元グリッドデータを後述の手先位置推定部１１０に出力する。つまり、障害物の位置座標とロボットアーム２０の関節状態とを三次元グリッドデータの形式に統一して手先位置推定部１１１に出力する。

図２に戻って、手先位置推定部１１０は、ロボットアーム２０の手先２０１の位置（以下、手先位置）を推定する。手先位置はエンド位置に相当する。手先位置推定部１１０がエンド位置推定部に相当する。手先位置推定部１１０は、ＤＮＮ等の機械学習を行った学習結果を用いて、情報取得部１００から入力される障害物の位置座標、ある時刻（以下、第１時刻）における対象関節状態、及び目標関節状態に基づいて、次の時刻（以下、第２時刻）における手先位置を推定する。第１時刻及び第２時刻にあたる時刻は、対象とする時刻が進むのに合わせて変化する。第１時刻がｔの場合は、第２時刻として時刻ｔ＋１における手先位置を推定する。また、第１時刻がｔ＋１の場合は、第２時刻として時刻ｔ＋２における手先位置を推定する。この第２時刻における手先位置が次エンド位置に相当する。

手先位置推定部１１０では、障害物の位置座標、ロボットアーム２０のスタートの関節状態、及びロボットアーム２０のゴールの関節状態を入力とし、ロボットアーム２０の手先位置を出力とする機械学習の学習結果を用いればよい。この機械学習の一例としては、数千個の異なるレイアウトそれぞれに対し、スタートとゴールとが異なる数十種類の環境を用意すればよい。レイアウトは、サイズが等しい立方体数個をロボットアーム２０と重ならないよう動作空間上にランダムに配置すればよい。スタートとゴールとは、障害物と非干渉のポーズを取ることができる関節状態をランダムに生成すればよい。

この機械学習に用いる障害物の位置座標、ロボットアーム２０のスタートの関節状態、及びロボットアーム２０のゴールの関節状態は、同じ三次元グリッドデータの形式に統一するものとする。多リンク機構では、障害物と多リンク機構との座標系が異なる場合、障害物の座標系である三次元直交座標系からロボットアーム２０の座標系である関節座標系への難解な座標変換規則を学習させなければならない問題が生じる。この問題によって、学習を収束させることが困難になる。これに対して、以上の構成によれば、座標系を統一することで座標系が異なる場合よりも学習収束性を向上させることが可能になる。また、グリッドデータの形式とすることで扱うデータの数を抑えて学習収束性を向上させることが可能になる。

また、手先位置推定部１１０で用いる機械学習の学習結果は、障害物と干渉せずにゴールの関節状態に到達できた探索による探索結果を教師データとして機械学習を行った、教師あり学習の学習結果とすることが好ましい。干渉とは障害物とロボットアーム２０とが接触することを指す。探索としては、例えばＲＲＴ（Rapidly‐Exploring Random Tree）等のパスプランニングの手法を用いて行う構成とすればよい。一例として、障害物と干渉せずにゴールの関節状態に到達できたロボットアーム２０の軌道のうちの、タイムステップごとの障害物位置及び関節状態を教師データとして用いればよい。

以上の構成によれば、機械学習において、到達と接触回避とを満たすロボットアーム２０の関節状態を非明示的に覚えさせることが可能になる。よって、ロボットアーム２０の関節状態を出力とする場合に対して、手先位置を中間状態とした階層化を行いながらも、解の完全性をより満たし易くすることが可能になる。

乱数発生部１２０は、手先位置推定部１１０で手先位置を推定するのに用いる障害物の位置座標、対象関節状態、及び目標関節状態の少なくともいずれかに乱数をノイズとして加える。つまり、手先位置推定部１１０の入力にノイズを加える。乱数は例えば正規分布の乱数とすればよい。以上の構成によれば、手先位置推定部１１０の入力にノイズを加えることによるランダムネスの効果によって、学習結果を用いた手先位置の推定において、局所解をより早く脱出することを可能にする。その結果、手先位置推定部１１０での手先位置の推定にかかる処理時間をより短くすることが可能になる。

なお、乱数発生部１２０は、手先位置推定部１１０の入力にノイズを加える構成に限らず、手先位置推定部１１０の出力にノイズを加える構成としてもよい。この場合、乱数発生部１２０は、手先位置推定部１１０で推定する手先位置に乱数をノイズとして加える構成とすればよい。これによれば、手先位置推定部１１０の出力にノイズを加えることによるランダムネスの効果によって、学習結果を用いた手先位置の推定において、局所解をより早く脱出することを可能にする。その結果、手先位置推定部１１０での手先位置の推定にかかる処理時間をより短くすることが可能になる。

制約付き探索部１３０は、手先位置推定部１１０によって推定した手先位置を制約として、第２時刻における非干渉関節状態を探索する。非干渉関節状態とは、ロボットアーム２０と障害物とが干渉しないロボットアーム２０の関節状態である。なお、手先位置推定部１１０によって推定した手先位置とは、乱数発生部１２０が手先位置推定部１１０の出力にノイズを加える構成を採用する場合、このノイズが加わった手先位置とする。以降についても同様とする。制約付き探索部１３０は、図２に示すように、手先姿勢生成部１３１、逆運動学演算部１３２、干渉判定部１３３、目標到達判定部１３４、記憶／修正部１３５、及び探索打切判定部１３６を備えている。

手先姿勢生成部１３１は、手先位置推定部１１０で推定したエンド位置を取るための第２時刻における手先２０１の姿勢（以下、手先姿勢）を生成する。手先姿勢はエンド姿勢に相当する。手先姿勢生成部１３１がエンド姿勢生成部に相当する。手先姿勢生成部１３１は、手先位置推定部１１０で推定した手先位置を取るための手先姿勢として、その手先位置に対応する第２時刻の前回の時刻である第１時刻における手先姿勢から姿勢の変化が所定範囲内の近辺におさまる姿勢を生成することが好ましい。一例としては、第１時刻の手先姿勢をαｔとした場合、図４に示す式によって第２時刻の手先姿勢αｔ＋１を算出し、第２時刻の手先姿勢を生成する。ここで、図４のθは−β＜θ＜βを満たす乱数であるものとする。βは任意に設定可能な値とする。これによれば、ロボットアーム２０の動作の連続性の制約を入れることが可能になるため、非干渉関節状態を探索する範囲を現実的な探索範囲に限定させることが可能になる。

なお、手先姿勢生成部１３１は、第１時刻における手先姿勢から姿勢の変化が所定範囲内の近辺におさまる姿勢を第２時刻における手先姿勢として生成する構成に限らない。例えば、手先姿勢として選択可能な手先姿勢のうちのいずれかをランダムに選択して第２時刻における手先姿勢を生成する構成としてもよい。

逆運動学演算部１３２は、手先位置推定部１１０で推定した手先位置と、手先姿勢生成部１３１で生成した手先姿勢とから、逆運動学演算（inverse kinematics）によって、その手先位置及びその手先姿勢を満たすロボットアーム２０の関節状態を求める。つまり、逆運動学演算によって、手先位置推定部１１０で推定した第２時刻における手先位置と、手先姿勢生成部１３１で生成した第２時刻における手先姿勢とを満たす、第２時刻におけるロボットアームの関節状態を求める。一例として、逆運転学演算としては、ヤコビアン行列を用いた手法を用いる等すればよい。この逆運動学演算部１３２が関節状態導出部に相当する。

干渉判定部１３３は、逆運動学演算部１３２で求めた関節状態を取るロボットアーム２０と障害物との干渉の有無を判定する。干渉判定部１３３は、ロボットアーム２０と障害物との干渉の有無は、例えばシミュレーション上でロボットアーム２０と障害物とが接触するか否かで判定すればよい。

干渉判定部１３３で干渉ありと判定した場合であって、同一時刻についての手先姿勢の生成し直しの回数（以下、探索回数）が規定数Ｕ以下の場合には、手先姿勢生成部１３１で手先姿勢を生成し直す。この場合、逆運動学演算部１３２が、手先位置推定部１１０で推定した手先位置と、手先姿勢生成部１３１で生成し直した手先姿勢とから、逆運動学演算によって、その手先位置及びその手先姿勢を満たすロボットアーム２０の関節状態を求める。そして、干渉判定部１３３が、逆運動学演算部１３２で求めた関節状態を取るロボットアーム２０と障害物との干渉の有無を判定し直す。つまり、非干渉関節状態の探索を継続する。この場合、手先姿勢生成部１３１は、例えば前述のθの値を−β＜θ＜βを満たす範囲内で変更して第２時刻の手先姿勢αｔ＋１を算出し直し、第２時刻の手先姿勢を生成し直せばよい。探索回数については、制約付き探索部１３０がカウントする構成とすればよい。探索回数がエンド姿勢生成回数に相当する。ここで言うところの規定数Ｕは、任意に設定可能な値である。

目標到達判定部１３４は、干渉判定部１３３で干渉なしと判定した場合に、制約付き探索部１３０で探索する非干渉関節状態が目標関節状態に達したか否かを判定する。目標到達判定部１３４は、干渉判定部１３３で干渉なしと判定した関節状態と目標関節状態とが一致する場合に、非干渉関節状態が目標関節状態に達したと判定すればよい。一方、干渉判定部１３３で干渉なしと判定した関節状態と目標関節状態とが一致しない場合には、非干渉関節状態が目標関節状態に達していないと判定すればよい。

記憶／修正部１３５は、干渉判定部１３３で干渉なしと判定した場合に、干渉判定部１３３で干渉なしと判定した関節状態を軌道情報として軌道生成装置１０のメモリに記憶する。また、記憶／修正部１３５は、ロボットアーム２０のスタートにあたる初期の関節状態からゴールにあたる目標関節状態までの軌道情報を記憶した場合に、スタートからゴールに至るまでの各時刻の関節状態を必要に応じて入れ替えるショートカット等の軌道修正を加えることが好ましい。ここで言うところのショートカットとは、スタートからゴールに至るまでの経路をより短くすることを指す。これにより、解の最適性をより向上させることが可能になる。

探索打切判定部１３６は、干渉判定部１３３で干渉ありと判定した場合であって、前述の探索回数が規定数Ｕを超えた場合には、非干渉関節状態の探索を打ち切る。この場合、手先位置推定部１１０で第２時刻における手先位置を異なる手先位置に推定し直した上で、非干渉関節状態の探索をやり直す。手先位置推定部１１０で第２時刻における手先位置を推定し直す場合には、入力は同じまま機械学習の学習結果から異なる手先位置が推定されるまで手先位置を推定し直してもよい。また、乱数発生部１２０で入力又は出力に加えるノイズを変更し、手先位置推定部１１０で第２時刻における手先位置を異なる手先位置に推定し直す構成としてもよい。これによれば、手先姿勢を何回生成し直しても非干渉関節状態の探索が完了しない状態となった場合であっても、探索回数が規定数Ｕを越えた場合に探索を打ち切ることが可能になる。よって、手先姿勢を何回生成し直しても非干渉関節状態の探索が完了しない状態に嵌まり込まずに済む。

以上のように、制約付き探索部１３０では、干渉判定部１３３で干渉なしと判定した場合に、非干渉関節状態の探索を終了する。また、制約付き探索部１３０では、干渉判定部１３３で干渉ありと判定した場合には、手先姿勢生成部１３１での手先姿勢の生成し直しの回数である探索回数が規定数Ｕ未満の場合に、手先姿勢生成部１３１で手先姿勢を異なる手先姿勢に生成し直して非干渉関節状態の探索を継続する。一方、制約付き探索部１３０では、探索回数が規定数Ｕを越える場合には、非干渉関節状態の探索を打ち切って手先位置推定部１１０で異なる手先位置に推定し直した上で非干渉関節状態の探索をやり直す。制約付き探索部１３０で各時刻の非干渉関節状態を探索して記憶することが、ロボットアーム２０の軌道を生成することにあたる。

移動指令部１４０は、制約付き探索部１３０によって生成したロボットアーム２０の軌道に沿った動作を実現するために、ロボットアーム２０の各関節Ｊｏ１〜Ｊｏ４に設けられるアクチュエータへ動作制御信号を送る。これにより、ロボットアーム２０は、軌道生成装置１０で生成される軌道に沿って動作するように制御される。

＜軌道生成装置１０での軌道生成関連処理＞
続いて、図５のフローチャートを用いて、軌道生成装置１０での軌道生成関連処理の流れの一例について説明を行う。プロセッサによって軌道生成関連処理に含まれるステップが実行されることが、軌道生成方法が実行されることに相当する。図５のフローチャートは、例えばオペレータ等によって軌道生成を開始させるための操作入力が行われた場合に開始する構成とすればよい。

まず、ステップＳ１では、情報取得部１００が、障害物の位置座標、第１時刻における対象関節状態、及び目標関節状態を取得する。Ｓ１の工程が、位置情報取得工程に相当する。ステップＳ２では、手先位置推定部１１０が、機械学習を行った学習結果を用いて、Ｓ１で取得した障害物の位置座標、第１時刻における対象関節状態、及び目標関節状態に基づいて、次の時刻である第２時刻における手先位置を推定する。Ｓ２の工程が、エンド位置推定工程に相当する。

Ｓ１〜Ｓ２では、フローが繰り返されてＳ１に処理が戻ってくるごとに、対象とする時刻を追加していく。例えば、第１時刻がｔ１，第２時刻がｔ＋１であった場合には、第１時刻をｔ＋１，第２時刻をｔ＋２と進めていく。なお、Ｓ１では、フローが繰り返されてＳ１に処理が戻ってくるごとに、第１時刻における対象関節状態といった、時刻によって変化する情報に絞って取得し直す構成としてもよい。また、Ｓ１では、乱数発生部１２０が、手先位置推定部１１０の入力又は出力にノイズを加える。

ステップＳ３では、手先姿勢生成部１３１が、第２時刻における手先姿勢を生成する。ステップＳ４では、逆運動学演算部１３２が、Ｓ２で推定した手先位置と、Ｓ３で生成した手先姿勢とから、逆運動学演算によって、その手先位置及びその手先姿勢を満たすロボットアーム２０の関節状態を求める。

ステップＳ５では、干渉判定部１３３が、Ｓ４で求めた関節状態を取るロボットアーム２０と障害物との干渉の有無を判定する。ステップＳ６では、干渉判定部１３３が干渉なしと判定した場合（Ｓ６でＹＥＳ）には、ステップＳ９に移る。一方、干渉判定部１３３が干渉ありと判定した場合（Ｓ６でＮＯ）には、ステップＳ７に移る。

ステップＳ７では、同一時刻についての手先姿勢の生成し直しの回数である探索回数が規定数Ｕを超えた場合（Ｓ７でＹＥＳ）には、ステップＳ８に移る。一方、探索回数が規定数Ｕ以下の場合（Ｓ７でＮＯ）には、Ｓ３に戻って手先姿勢を異なる手先姿勢に生成し直して、非干渉関節状態の探索を継続する。ステップＳ８では、探索打切判定部１３６が、非干渉関節状態の探索を打ち切る。そして、Ｓ１に戻って手先位置を異なる手先位置に推定し直した上で、非干渉関節状態の探索をやり直す。

ステップＳ９では、記憶／修正部１３５が、Ｓ５で干渉なしと判定した関節状態を軌道情報として軌道生成装置１０のメモリに記憶する。Ｓ５で干渉なしと判定した関節状態が、制約付き探索部１３０で探索できた非干渉関節状態にあたる。ステップＳ１０では、目標到達判定部１３４が、制約付き探索部１３０で探索した非干渉関節状態が目標関節状態に達したか否かを判定する。

ステップＳ１１では、目標到達判定部１３４が、非干渉関節状態が目標関節状態に達したと判定した場合（Ｓ１１でＹＥＳ）には、軌道生成関連処理を終了する。なお、非干渉関節状態が目標関節状態に達したと判定した場合に、記憶／修正部１３５が、記憶したロボットアーム２０の初期関節状態から目標関節状態に至るまでの各時刻の関節状態を、必要に応じて入れ替えるショートカット等の軌道修正を加えてもよい。一方、目標到達判定部１３４が、非干渉関節状態が目標関節状態に達していないと判定した場合（Ｓ１１でＮＯ）には、ステップＳ１２に移る。ステップＳ１２では、時刻を次の時刻に進めてＳ１に戻り、処理を繰り返す。例えば、時刻がｔであった場合には、時刻をｔ＋１に進めてＳ１に戻り、処理を繰り返す。Ｓ３〜Ｓ１２の処理の少なくとも一部の工程が制約付き探索工程に相当する。

＜実施形態１のまとめ＞
実施形態１の構成による効果について、図６，図７を用いて説明を行う。図６は、機械学習モデルのみによって関節状態を求める例について説明するための図である。図７は、機械学習モデルと探索とを組み合わせて関節状態を求める例について説明するための図である。

図６の例は、目標関節状態と第１時刻における関節状態とを入力として第２時刻における関節状態を出力とする機械学習モデルのみによってロボットアーム２０の関節状態を求める例である。機械学習モデルは、学習を収束させることができれば、短時間でより適切な軌道を生成することが可能になる。しかしながら、図６に示す機械学習モデルでは、入力も出力も多リンク機構であるロボットアーム２０の関節状態となっている。よって、学習させる動作パターンが膨大になってしまい、学習を収束させることが難しい。

これに対して、実施形態１の構成では、図７に示すような、上位階層では機械学習モデルによってロボットアーム２０の関節状態でなく手先位置を求め、下位階層で手先位置を制約として残りの関節状態を探索する階層構造を導入している。実施形態１の構成によれば、上位階層では、目標関節状態と第１時刻における関節状態とを入力として第２時刻における手先位置を出力とする機械学習モデルを用いる。つまり、ロボットアーム２０の関節状態を出力とする場合に対して、手先位置を中間状態とした階層化が行われることになる。実施形態１の構成では、関節状態よりも状態数の少ない手先位置を出力とすることで、関節状態を出力とする場合よりも容易に学習を収束させることが可能になる。実施形態１の構成では、このような機械学習モデルを用いるので、図６に示すような関節状態を出力とする機械学習モデルを用いるよりも容易に実現が可能となる。

実施形態１の構成によれば、機械学習によって第２時刻における手先位置までは推定するので、機械学習を利用せずに探索のみによってロボットアーム２０の軌道を生成する場合に比べ、より短時間でより最適性を満たしやすい軌道を生成することが可能になる。

また、手先位置は、ロボットアーム２０の全関節の影響を受けるため、ロボットアーム２０の軌道を生成する上での重要な情報が縮約されていると言える。よって、手先位置を中間状態として階層化を行ったとしても、解の完全性及び最適性を満たすための情報が排除されにくく、解の完全性及び最適性を満たしやすくなる。

情報が縮約された手先位置との相対関係のみを記憶すればよい上位階層に比べ、ロボットアーム２０の関節状態全体を考慮する必要がある下位階層の学習は難易度が高い。これに対して、実施形態１の構成では、学習難易度の高い下位階層の関節状態については、上位階層で求めた手先位置を制約とした探索によって求める。この探索では、第２時刻におけるロボットアーム２０と障害物とが干渉しないロボットアーム２０の非干渉関節状態を探索して、ロボットアーム２０の軌道を生成する。よって、探索によって解の完全性を満たすことが可能になる。その結果、ロボットアーム２０の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることが可能になる。

（実施形態２）
実施形態１では、目標関節状態として、最終的な目標関節状態のみを用いる構成を示したが、必ずしもこれに限らない。例えば、目標関節状態として、最終的な目標関節状態に達するまでのサブゴールとしての目標関節状態（以下、サブ目標状態）を用いる構成（以下、実施形態２）としてもよい。例えば、サブ目標状態は、初期関節状態から最終的な目標関節状態までを順に区分するものであって、最後の区分のサブ目標状態が最終的な目標関節状態にあたるものとすればよい。なお、最終的な目標関節状態をサブ目標状態と区別する構成としても構わないが、本実施形態では、最終的な目標関節状態とサブ目標状態と区別しない場合を例に挙げて説明を行う。

以下では、実施形態２の一例について図を用いて説明する。実施形態２のロボットアームシステム１は、軌道生成装置１０の代わりに軌道生成装置１０ａを含むことを除けば、実施形態１のロボットアームシステム１と同様である。実施形態２のロボットアームシステム１も多リンクシステムに相当する。

ここで、図８を用いて、軌道生成装置１０ａの概略的な構成の一例について説明を行う。図８に示すように、軌道生成装置１０ａは、情報取得部１００ａ、手先位置推定部１１０、乱数発生部１２０、制約付き探索部１３０ａ、移動指令部１４０、及びサブ目標推定部１５０を機能ブロックとして備えている。軌道生成装置１０ａは、情報取得部１００及び制約付き探索部１３０の代わりに情報取得部１００ａ及び制約付き探索部１３０ａを備える点と、サブ目標推定部１５０を備える点とを除けば、実施形態１の軌道生成装置１０と同様である。

サブ目標推定部１５０は、ロボットアーム２０のスタートの関節状態、ロボットアームのゴールの関節状態、及び障害物の位置座標を入力とし、任意時刻におけるロボットアーム２０の関節状態の確率分布を出力とする機械学習を行った学習結果を用いて、情報取得部１００で取得する障害物の位置座標、ロボットアーム２０の初期関節状態、及びロボットアーム２０の最終的な目標関節状態に基づいて、任意時刻のロボットアーム２０の関節状態の確率分布を求める。一例としては、ここでの機械学習としては、ＣＶＡＥ（Conditional Variational Autoencoder）を用いればよい。また、確率分布を出力とするには、正規分布の乱数（０〜１）を入力に加えればよい。

さらに、サブ目標推定部１５０は、求めた任意時刻のロボットアーム２０の関節状態の確率分布に対してクラスタリングを行う。クラスタリングとしては、例えばＫ−ｍｅａｎｓ法を用いればよい。そして、サブ目標推定部１５０は、このクラスタリングによって、ロボットアーム２０の最終的な目標関節状態に達するまでのサブゴールとしての目標関節状態であるサブ目標状態を推定する。

情報取得部１００ａは、目標関節状態として、サブ目標推定部１５０で推定したサブ目標状態を取得する。手先位置推定部１１０は、目標関節状態として、サブ目標状態を用いて、第２時刻における手先位置を推定することになる。なお、手先位置推定部１１０は、後述する目標到達判定部１３４ａでサブ目標状態に達したと判定されるごとに、推定に用いるサブ目標状態を次のサブ目標状態に切り替えて、第２時刻における手先位置を推定すればよい。ここで言うところの次のサブ目標状態とは、ロボットアーム２０の初期関節状態から最終的な目標関節状態に至るまでに順に並んだサブ目標状態の並び順における次のサブ目標状態である。並び順の最後にあたるサブ目標状態が、最終的な目標関節状態にあたる。

制約付き探索部１３０ａは、図８に示すように、手先姿勢生成部１３１、逆運動学演算部１３２、干渉判定部１３３、目標到達判定部１３４ａ、記憶／修正部１３５、及び探索打切判定部１３６を備えている。制約付き探索部１３０ａは、目標到達判定部１３４の代わりに目標到達判定部１３４ａを備える点を除けば、実施形態１の制約付き探索部１３０と同様である。目標到達判定部１３４ａは、干渉判定部１３３で干渉なしと判定した場合に、制約付き探索部１３０ａで探索する非干渉関節状態が、サブ目標状態に達したか否かを判定する。

軌道生成装置１０ａでは、手先位置推定部１１０での手先位置の推定と制約付き探索部１３０ａでの非干渉関節状態の探索との一連の処理を、サブ目標推定部１５０で推定するサブ目標状態を、対象とする目標関節状態とし、最終的な目標関節状態に到達するまでサブ目標状態を順次切り替えて行う。

ここで、図９のフローチャートを用いて、軌道生成装置１０ａでの軌道生成関連処理の流れの一例について説明を行う。プロセッサによってこの軌道生成関連処理に含まれるステップが実行されることも、軌道生成方法が実行されることに相当する。図９のフローチャートも、例えばオペレータ等によって軌道生成を開始させるための操作入力が行われた場合に開始する構成とすればよい。

まず、ステップＳ２１では、情報取得部１００ａが、障害物の位置座標、第１時刻における対象関節状態、及び目標関節状態を取得する。Ｓ２１の工程も、位置情報取得工程に相当する。ステップＳ２２では、Ｓ２と同様にして、手先位置推定部１１０が、機械学習を行った学習結果を用いて、Ｓ２１で取得した障害物の位置座標、第１時刻における対象関節状態Ｓｔ、及び目標関節状態に基づいて、次の時刻である第２時刻における手先位置を推定する。Ｓ２２の工程も、エンド位置推定工程に相当する。

Ｓ２１〜Ｓ２２では、フローが繰り返されてＳ２１に処理が戻ってくるごとに、対象とする時刻を追加していく。Ｓ２１では、フローが繰り返されてＳ２１に処理が戻ってくるごとに、第１時刻における対象関節状態Ｓｔといった、時刻によって変化する情報に絞って取得し直す構成としてもよい。さらに、Ｓ２１では、探索した非干渉関節状態が最終的な目標関節状態にあたるサブ目標状態以外のサブ目標状態に達してＳ２１に処理が戻ってくるごとに、目標関節状態として次のサブ目標状態を取得し直す構成としてもよい。また、Ｓ２１でも、乱数発生部１２０が、手先位置推定部１１０の入力又は出力にノイズを加えることが好ましい。

ステップＳ２３〜Ｓ２９では、Ｓ３〜Ｓ９と同様の処理を行う。ステップＳ３０では、目標到達判定部１３４ａが、制約付き探索部１３０ａで探索した非干渉関節状態がサブ目標状態に達したか否かを判定する。

ステップＳ３１では、目標到達判定部１３４ａが、非干渉関節状態がサブ目標状態に達したと判定した場合（Ｓ３１でＹＥＳ）には、ステップＳ３３に移る。一方、目標到達判定部１３４ａが、非干渉関節状態がサブ目標状態に達していないと判定した場合（Ｓ３１でＮＯ）には、ステップＳ３２に移る。ステップＳ３２では、時刻を次の時刻に進めてＳ２１に戻り、処理を繰り返す。

ステップＳ３３では、探索した非干渉関節状態が達したと判定したサブ目標状態が最終的な目標関節状態であった場合（Ｓ３３でＹＥＳ）には、軌道生成関連処理を終了する。一方、探索した非干渉関節状態が達したと判定したサブ目標状態が最終的な目標関節状態でなかった場合（Ｓ３３でＮＯ）には、ステップＳ３４に移る。ステップＳ３４では、目標関節状態とするサブ目標状態を、探索が完了したサブ目標状態の次の目標状態に変更させ、Ｓ２１に戻り、処理を繰り返す。Ｓ２３〜Ｓ３４の処理の少なくとも一部の工程が制約付き探索工程に相当する。

実施形態２の構成によれば、目標関節状態を複数のサブゴールに分けて処理を行う点を除けば実施形態１の構成と同様であるので、実施形態１と同様に、ロボットアーム２０の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることが可能になる。

さらに、実施形態３の構成によれば、ロボットアーム２０の軌跡の生成の処理時間の数十パーセントを占める逆運動学演算を機械学習の学習結果によって近似することで、この処理時間を削減することが可能になる。その結果、さらに現実的な時間内で軌道を生成することがより容易となる。

以上の構成によれば、目標関節状態を複数のサブゴールに分けて処理を行うことで、解の最適性をより高めつつ、ロボットアーム２０の軌道の生成に要する処理時間をより低減することが可能になる。特に、ロボットアーム２０の初期目標状態から最終的な目標状態までの距離が遠いケースでこの効果が顕著となる。

（実施形態３）
実施形態１では、手先位置推定部１１０で推定した手先位置と、手先姿勢生成部１３１で生成した手先姿勢とから、逆運動学演算によって、その手先位置及びその手先姿勢を満たすロボットアーム２０の関節状態を求める構成を示したが、必ずしもこれに限らない。例えば、逆運動学演算の変わりに、この逆運動学演算を近似した機械学習の学習結果を用いる構成（以下、実施形態３）としてもよい。

以下では、実施形態３の一例について図を用いて説明する。実施形態３のロボットアームシステム１は、軌道生成装置１０の代わりに軌道生成装置１０ｂを含むことを除けば、実施形態１のロボットアームシステム１と同様である。実施形態３のロボットアームシステム１も多リンクシステムに相当する。

ここで、図１０を用いて、軌道生成装置１０ｂの概略的な構成の一例について説明を行う。図１０に示すように、軌道生成装置１０ｂは、情報取得部１００、手先位置推定部１１０、乱数発生部１２０、制約付き探索部１３０ｂ、及び移動指令部１４０を機能ブロックとして備えている。軌道生成装置１０ｂは、制約付き探索部１３０の代わりに制約付き探索部１３０ｂを備える点を除けば、実施形態１の軌道生成装置１０と同様である。

制約付き探索部１３０ｂは、図１０に示すように、手先姿勢生成部１３１、逆運動学演算近似部１３２ｂ、干渉判定部１３３、目標到達判定部１３４、記憶／修正部１３５、及び探索打切判定部１３６を備えている。制約付き探索部１３０ｂは、逆運動学演算部１３２の代わりに逆運動学演算近似部１３２ｂを備える点を除けば、実施形態１の制約付き探索部１３０と同様である。

逆運動学演算近似部１３２ｂは、手先２０１が取り得る手先位置及び手先姿勢の組み合わせを入力とし、ロボットアーム２０の関節状態を出力とする機械学習を行った学習結果を用いて、手先位置推定部１１０で推定した第２時刻における手先位置と、手先姿勢生成部１３１で生成した第２時刻における手先姿勢とから、その手先位置及びその手先姿勢を満たすロボットアーム２０の関節状態を求める。ここでの機械学習としては、ＤＮＮ等を用いる構成とすればよい。この逆運動学演算近似部１３２ｂも関節状態導出部に相当する。なお、干渉判定部１３３は、逆運動学演算近似部１３２ｂで求めた関節状態を取るロボットアーム２０と障害物との干渉の有無を判定する。

実施形態３の構成によれば、逆運動学演算の変わりに、この逆運動学演算を近似した機械学習の学習結果を用いる点を除けば実施形態１の構成と同様であるので、実施形態１と同様に、ロボットアーム２０の軌道の生成をより容易且つより短時間に行うことを可能にしつつ、解の完全性と最適性とをより両立させることが可能になる。

さらに、実施形態３の構成によれば、ロボットアーム２０の軌跡の生成の処理時間の数十パーセントを占める逆運動学演算を機械学習の学習結果によって近似することで、この処理時間を削減することが可能になる。その結果、より現実的な時間内でロボットアーム２０の軌道を生成することがより容易となる。

（実施形態４）
前述の実施形態では、乱数発生部１２０が、手先位置推定部１１０の入力又は出力にノイズを加える構成を示したが、必ずしもこれに限らない。例えば、軌道生成装置１０，１０ａ，１０ｂに乱数発生部１２０を備えずに、手先位置推定部１１０の入力及び出力にノイズを加えない構成としてもよい。

（実施形態５）
前述の実施形態では、同一時刻についての手先姿勢の生成し直しの回数である探索回数が規定数Ｕを超えた場合に、探索打切判定部１３６が、非干渉関節状態の探索を打ち切る構成を示したが、必ずしもこれに限らない。例えば、軌道生成装置１０，１０ａ，１０ｂに探索打切判定部１３６を備えずに、探索回数による非干渉関節状態の探索の打ち切りを行わない構成としてもよい。この場合、制約付き探索部１３０，１３０ａ，１３０ｂが探索回数をカウントしない構成としてもよい。

（実施形態６）
前述の実施形態では、障害物の座標系の障害物の位置座標とロボットアーム２０の座標系の関節状態とを同じ三次元グリッドデータの形式に統一する構成を示したが、必ずしもこれに限らない。例えば、障害物の位置座標とロボットアーム２０の関節状態とを同じ三次元グリッドデータの形式に統一しない構成としてもよい。この場合、情報取得部１００に抽象化部１０３及び次元変換部１０５を備えない構成とすればよい。障害物の位置座標とロボットアーム２０の関節状態とを同じ三次元グリッドデータの形式に統一しない場合であっても、障害物の座標系からロボットアーム２０の座標系への座標変換規則を学習させることで、手先位置推定部１１０での手先位置の推定を行うことは可能となる。

（実施形態７）
前述の実施形態では、軌道生成装置１０，１０ａ，１０ｂに移動指令部１４０を備える構成を示したが、必ずしもこれに限らない。例えば、軌道生成装置１０，１０ａ，１０ｂに移動指令部１４０を備えない構成としてもよい。この場合、軌道生成装置１０，１０ａ，１０ｂと異なる装置が、移動指令部１４０の機能を担う構成とすればよい。

（実施形態８）
前述の実施形態では、軌道生成装置１０，１０ａ，１０ｂがロボットアーム２０の軌道を生成する構成を示したが、必ずしもこれに限らない。例えば、軌道生成装置１０，１０ａ，１０ｂがロボットアーム２０以外の多リンク機構の軌道を生成する構成としてもよい。

なお、本開示は、上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示の技術的範囲に含まれる。また、本開示に記載の制御部及びその手法は、コンピュータプログラムにより具体化された１つ乃至は複数の機能を実行するようにプログラムされたプロセッサを構成する専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の装置及びその手法は、専用ハードウェア論理回路により、実現されてもよい。もしくは、本開示に記載の装置及びその手法は、コンピュータプログラムを実行するプロセッサと１つ以上のハードウェア論理回路との組み合わせにより構成された１つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。

１ロボットアームシステム（多リンクシステム）、１０，１０ａ，１０ｂ軌道生成装置、２０ロボットアーム（多リンク機構）、１０１位置情報取得部、１０５次元変換部、１１０手先位置推定部（エンド位置推定部）、１２０乱数発生部、１３０制約付き探索部、１３１手先姿勢生成部（エンド姿勢生成部）、１３２逆運動学演算部（関節状態導出部）、１３２ｂ逆運動学演算近似部（関節状態導出部）、１３３干渉判定部、１３４，１３４ａ目標到達判定部、１５０サブ目標推定部

Claims

複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）の動作空間におけるこの多リンク機構の軌道を生成する軌道生成装置であって、
前記多リンク機構の動作空間に存在する障害物の位置に関する障害物情報を取得する情報取得部（１００）と、
前記多リンク機構のスタートの関節状態、前記多リンク機構のゴールの関節状態、及び前記障害物情報を入力とし、前記多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習を行った学習結果を用いて、前記情報取得部で取得した前記障害物情報、前記多リンク機構のある時刻である第１時刻における対象関節状態、及び前記多リンク機構の目標関節状態に基づいて、前記第１時刻の次の時刻である第２時刻における前記エンド位置である次エンド位置を推定するエンド位置推定部（１１０）と、
前記エンド位置推定部によって推定した前記次エンド位置を制約として、前記第２時刻における前記多リンク機構と前記障害物とが干渉しない前記多リンク機構の非干渉関節状態を探索する制約付き探索部（１３０，１３０ａ，１３０ｂ）とを備える軌道生成装置。
前記制約付き探索部で探索する前記非干渉関節状態が前記目標関節状態に達したか否かを判定する目標到達判定部（１３４，１３４ａ）を備え、
前記制約付き探索部で探索する前記非干渉関節状態が、前記目標到達判定部で前記目標関節状態に達したと判定されるまで、対象とする時刻を順次進めつつ、前記エンド位置推定部での前記次エンド位置の推定と前記制約付き探索部での前記非干渉関節状態の探索との一連の処理を繰り返す請求項１に記載の軌道生成装置。
前記制約付き探索部は、
前記エンド位置推定部で推定した前記次エンド位置を取るための前記エンドエフェクタの姿勢であるエンド姿勢を生成するエンド姿勢生成部（１３１）と、
前記エンド位置推定部で推定した前記次エンド位置と、前記エンド姿勢生成部で生成した前記エンド姿勢とから、その次エンド位置及びそのエンド姿勢を満たす前記多リンク機構の関節状態を求める関節状態導出部（１３２，１３２ｂ）と、
前記関節状態導出部で求めた前記関節状態を取る前記多リンク機構と前記障害物との干渉の有無を判定する干渉判定部（１３３）とを有し、
前記干渉判定部で干渉なしと判定した場合に、前記非干渉関節状態の探索を終了し、前記干渉判定部で干渉ありと判定した場合には、前記エンド姿勢生成部での前記エンド姿勢の生成し直しの回数であるエンド姿勢生成回数が規定数以下の場合に、前記エンド姿勢生成部で前記エンド姿勢を異なる前記エンド姿勢に生成し直して前記探索を継続する一方、前記エンド姿勢生成回数が規定数を超えた場合には、前記探索を打ち切って前記エンド位置推定部で異なる前記エンド位置に推定し直した上で前記探索をやり直す請求項１又は２に記載の軌道生成装置。
前記エンド姿勢生成部は、前記エンド位置推定部で推定した前記次エンド位置を取るための前記エンド姿勢として、その次エンド位置に対応する前記第２時刻の前回の時刻である前記第１時刻における前記エンドエフェクタの姿勢から姿勢の変化が所定範囲内の近辺におさまる姿勢を生成する請求項３に記載の軌道生成装置。
前記エンド位置推定部で前記エンド位置を推定するのに用いる前記障害物情報、前記対象関節状態、及び前記目標関節状態の少なくともいずれか、又は前記エンド位置推定部で推定する前記エンド位置に乱数をノイズとして加える乱数発生部（１２０）を備える請求項３又は４に記載の軌道生成装置。
前記関節状態導出部（１３２）は、前記エンド位置推定部で推定した前記次エンド位置と、前記エンド姿勢生成部で生成した前記エンド姿勢とから、逆運動学演算によって、その次エンド位置及びそのエンド姿勢を満たす前記多リンク機構の関節状態を求める請求項３〜５のいずれか１項に記載の軌道生成装置。
前記関節状態導出部（１３２ｂ）は、前記エンドエフェクタが取り得る位置及び姿勢の組み合わせを入力とし、前記多リンク機構の関節状態を出力とする機械学習を行った学習結果を用いて、前記エンド位置推定部で推定した前記次エンド位置と、前記エンド姿勢生成部で生成した前記エンド姿勢とから、その次エンド位置及びそのエンド姿勢を満たす前記多リンク機構の関節状態を求める請求項３〜５のいずれか１項に記載の軌道生成装置。
前記多リンク機構のスタートの関節状態、前記多リンク機構のゴールの関節状態、及び前記障害物の前記障害物情報を入力とし、任意時刻における前記多リンク機構の関節状態の確率分布を出力とする機械学習を行った学習結果を用いて、前記情報取得部で取得する前記障害物情報、前記多リンク機構の初期関節状態、及び前記多リンク機構の最終的な目標関節状態に基づいて求められる任意時刻の前記多リンク機構の関節状態の確率分布に対するクラスタリングによって、前記多リンク機構の最終的な目標関節状態に達するまでのサブゴールとしての目標関節状態であるサブ目標状態を推定するサブ目標推定部（１５０）を備え、
前記エンド位置推定部での前記次エンド位置の推定と前記制約付き探索部（１３０ａ）での前記非干渉関節状態の探索との一連の処理を、前記サブ目標推定部で推定する前記サブ目標状態を、対象とする前記目標関節状態とし、前記最終的な目標関節状態に到達するまで前記サブ目標状態を順次切り替えて行う請求項１〜７のいずれか１項に記載の軌道生成装置。
前記情報取得部は、
前記障害物の位置の座標を三次元グリッドデータの形式に変換した前記障害物情報を取得する位置情報取得部（１０１）と、
前記多リンク機構の関節状態を前記三次元グリッドデータの形式に変換する次元変換部（１０５）とを備え、
前記エンド位置推定部は、前記三次元グリッドデータの形式に統一した前記多リンク機構のスタートの関節状態、前記多リンク機構のゴールの関節状態、及び前記障害物情報を入力とし、前記多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習を行った学習結果を用いて、前記位置情報取得部で前記三次元グリッドデータの形式に変換して取得した前記障害物情報と、前記次元変換部で前記三次元グリッドデータの形式に変換した、前記第１時刻における前記対象関節状態及び前記目標関節状態とに基づいて、前記次エンド位置を推定する請求項１〜８のいずれか１項に記載の軌道生成装置。
請求項１〜９のいずれか１項に記載の軌道生成装置（１０，１０ａ，１０ｂ）と、
前記軌道生成装置で生成される軌道に沿って動作するように制御される、複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）とを含む多リンクシステム。
少なくとも１つのプロセッサにより実行される、
複数のリンクを可動部分である関節によって接続した機械機構である多リンク機構（２０）の動作空間におけるこの多リンク機構の軌道を生成する軌道生成方法であって、
前記多リンク機構の動作空間に存在する障害物の位置に関する障害物情報を取得する位置情報取得工程（Ｓ１，Ｓ２１）と、
前記多リンク機構のスタートの関節状態、前記多リンク機構のゴールの関節状態、及び前記障害物情報を入力とし、前記多リンク機構のエンドエフェクタの位置であるエンド位置を出力とする機械学習を行った学習結果を用いて、前記位置情報取得工程で取得した前記障害物情報、前記多リンク機構のある時刻である第１時刻における対象関節状態、及び前記多リンク機構の目標関節状態に基づいて、前記第１時刻の次の時刻である第２時刻における前記エンド位置である次エンド位置を推定するエンド位置推定工程（Ｓ２，Ｓ２２）と、
前記エンド位置推定工程によって推定した前記次エンド位置を制約として、前記第２時刻における前記多リンク機構と前記障害物とが干渉しない前記多リンク機構の非干渉関節状態を探索する制約付き探索工程（Ｓ３〜Ｓ７，Ｓ２３〜Ｓ３４）とを含む軌道生成方法。