JP2022155828A

JP2022155828A - 軌道生成システム、軌道生成方法及びプログラム

Info

Publication number: JP2022155828A
Application number: JP2021059244A
Authority: JP
Inventors: 佳佑竹下; Keisuke Takeshita
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-10-14
Anticipated expiration: 2041-03-31
Also published as: US20220317696A1; US12099364B2; JP7517225B2

Abstract

【課題】質の高い軌道を決定することを可能とする軌道生成システムを提供する。
【解決手段】軌道生成システム１は、環境特徴情報取得部２１６と、軌道生成部２３０とを有する。環境特徴情報取得部２１６は、移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得する。軌道生成部２３０は、予め機械学習によって生成され環境内を移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、移動オブジェクトの開始状態及び目標状態と環境特徴情報とを入力し、学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、学習済みモデルを用いて軌道を生成する。
【選択図】図２

Description

本発明は、軌道生成システム、軌道生成方法及びプログラムに関し、特に、移動オブジェクトの軌道を生成する軌道生成システム、軌道生成方法及びプログラムに関する。

特許文献１は、移動体または移動体の把持部を、開始位置から目標位置まで移動させる軌道を生成する演算を行う演算部と、軌道の評価を行う評価部と、を備える軌道生成装置を開示する。特許文献１にかかる軌道生成装置において、演算部は、目標位置及び目標位置の近傍を含む目標領域までの複数の軌道候補を、所定の把持条件に対応付けた複数の自由度で、所定の範囲で生成する。

特開２０２０－０９３３６４号公報

特許文献１にかかる技術では、目標位置の近傍を含む目標領域までの複数の軌道候補を生成している。このような方法で複数の軌道を生成すると、目標位置に到達しない軌道が生成されるおそれがある。したがって、特許文献１にかかる技術では、質の高い軌道を決定できないおそれがある。

本発明は、質の高い軌道を決定することを可能とする軌道生成システム、軌道生成方法及びプログラムを提供するものである。

本発明にかかる軌道生成システムは、環境内を移動する移動オブジェクトの軌道を生成する軌道生成システムであって、前記移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得する環境特徴情報取得部と、予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成する軌道生成部と、を有する。

また、本発明にかかる軌道生成方法は、環境内を移動する移動オブジェクトの軌道を生成する軌道生成方法であって、前記移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得し、予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成する。

また、本発明にかかるプログラムは、環境内を移動する移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得するステップと、予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成するステップと、をコンピュータに実行させる。

本発明においては、学習済みモデルに、移動オブジェクトの開始状態及び目標状態と環境特徴情報とを入力することによって、軌道を生成するように構成されている。これにより、本発明は、環境特徴情報に示される障害物との衝突が抑制され、開始状態から目標状態に到達する軌道を生成することができる。さらに、変更可能な第１のパラメータの異なる複数の値それぞれについて、学習済みの軌道生成モデルを用いて軌道を生成するように構成されている。これにより、本発明は、複数の軌道を生成することができる。したがって、本発明は、生成された複数の軌道から、質の高い軌道を決定することを可能とすることができる。

また、好ましくは、前記第１のパラメータは、当該第１のパラメータの値の変化に伴って、前記学習済みモデルに入力される同じ入力値に対する前記学習済みモデルの出力のばらつきが変化するようなパラメータである。
このように構成されていることにより、本発明は、多様な複数の軌道を生成することが可能となる。

また、好ましくは、前記軌道生成部は、前記学習済みモデルの出力のばらつきがより大きくなるような前記第１のパラメータの値が前記学習済みモデルに設定されている場合に、同じ前記開始状態及び目標状態と前記環境特徴情報とを前記学習済みモデルに入力して軌道を生成する回数を多くする。
このように構成されていることにより、本発明は、効率的に多くの軌道を生成することが可能となる。

また、好ましくは、前記第１のパラメータは、ドロップアウト層が設けられている前記学習済みモデルにおけるドロップアウト率であり、前記軌道生成部は、複数の前記ドロップアウト率ごとに前記学習済みモデルを用いて軌道を生成することによって、複数の軌道を生成する。
このように構成されていることにより、本発明は、多様な複数の軌道を生成することが可能となる。

また、好ましくは、前記第１のパラメータの互いに異なる複数の値をそれぞれ前記学習済みモデルに設定可能なパラメータ設定部、をさらに有する。
このように構成されていることにより、本発明は、学習済みモデルのパラメータを容易に変更することが可能となる。

本発明によれば、質の高い軌道を決定することを可能とする軌道生成システム、軌道生成方法及びプログラムを提供できる。

実施の形態１にかかる軌道生成システムのハードウェア構成を示す図である。実施の形態１にかかる軌道生成システムの構成を示す機能ブロック図である。実施の形態１にかかる学習装置によって実行される学習方法を示すフローチャートである。実施の形態１にかかる軌道生成モデル学習部によって実行される軌道生成モデル学習処理を示すフローチャートである。実施の形態１にかかる、教師軌道の分割処理を説明するための図である。実施の形態１にかかる軌道生成モデルを概略的に例示する図である。実施の形態１にかかる軌道生成部の軌道生成処理を説明するための図である。実施の形態１にかかる軌道生成装置によって実行される軌道生成方法を示すフローチャートである。実施の形態１にかかる軌道生成部によって実行される軌道生成処理を示すフローチャートである。実施の形態１にかかる軌道生成部が複数の軌道を生成することを説明するための図である。実施の形態１にかかる軌道生成部が複数の軌道を生成することを説明するための図である。実施の形態１にかかる軌道生成部が複数の軌道を生成することを説明するための図である。実装例にかかる環境を例示する図である。実装例にかかる移動体を例示する図である。

（実施の形態１）
以下、図面を参照して本発明の実施の形態について説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

図１は、実施の形態１にかかる軌道生成システム１のハードウェア構成を示す図である。ここで、軌道生成システム１は、移動オブジェクトの軌道を生成する。移動オブジェクトは、環境内を移動する。移動オブジェクトは、実空間に対応する環境を移動するものであってもよいし、仮想空間に対応する環境を移動するものであってもよい。移動オブジェクトが実空間を移動する場合、移動オブジェクトは物理的に存在する実機であり得る。また、移動オブジェクトが仮想空間を移動する場合、移動オブジェクトは、シミュレーションによって実現される仮想空間に存在する仮想上のオブジェクトであり得る。また、移動オブジェクトは、例えば、ロボット等の移動体であってもよいし、移動体に設けられた把持部（ロボットハンド等）であってもよい。また、把持部である移動オブジェクトは、例えば産業用ロボット等のロボットアーム（マニピュレータ）であってもよい。また、移動体は、車両であってもよいし、空間を飛翔する飛行体であってもよい。

また、軌道生成システム１は、１つ又は複数のコンピュータによって実現され得る。軌道生成システム１は、クラウドシステムによって実現されてもよい。また、移動オブジェクトが実空間を移動する場合、軌道生成システム１は、移動オブジェクトに搭載されたコンピュータによって実現されてもよい。また、移動オブジェクトが仮想空間を移動する場合、軌道生成システム１は、仮想空間を実現するコンピュータによって実現されてもよい。

また、軌道は、移動オブジェクトが環境内を移動可能な経路（軌跡）であり得る。また、軌道は、移動オブジェクトの開始状態から目標状態までの、移動オブジェクトの状態の軌跡（変化）であり得る。ここで、開始状態は、移動オブジェクトの軌道のスタートの状態を示す。また、目標状態は、移動オブジェクトの軌道のゴールの状態を示す。ここで、移動オブジェクトの状態を表す要素の数は、移動オブジェクトの特徴量の数（次元数）となり得る。なお、移動オブジェクトの特徴量の数（次元数）は、移動オブジェクトの自由度に対応する。そして、移動オブジェクトの状態の特徴の次元数（移動オブジェクトの自由度）をｍとすると、移動オブジェクトの状態は、ｍ次元空間における（特徴量ベクトルで表される）点で示される。そして、移動オブジェクトの軌道は、ｍ次元空間における、特徴量ベクトルで示される点の軌跡とみなされ得る。

ここで、移動オブジェクトが移動体である場合、軌道は、移動体の位置の軌跡であってもよい。また、移動オブジェクトが把持部である場合、軌道は、把持部の先端の位置の軌跡であってもよい。これらの場合、移動オブジェクトの「状態」は、移動オブジェクトの位置に対応する。また、これらの場合、軌道は、移動オブジェクトの開始位置（開始状態）から目標位置（目標状態）までの、移動オブジェクトの位置の軌跡であり得る。なお、これらの場合、移動オブジェクトの位置（状態）は、位置（状態）の要素である位置座標で示され得る。例えば、位置座標が３次元空間における位置座標（ｘ，ｙ，ｚ）で示される場合、移動オブジェクトの位置（状態）の特徴量の数（次元数）は、３となる。また、この位置座標（ｘ，ｙ，ｚ）は、３次元空間における特徴量ベクトルで表される点を示し得る。

また、移動オブジェクトが把持部であって、軌道のゴールが把持部のある姿勢である場合、軌道は、把持部の姿勢の軌跡であってもよい。この場合、移動オブジェクトの「状態」は、移動オブジェクトの姿勢に対応する。また、この場合、軌道は、移動オブジェクトの開始姿勢（開始状態）から目標姿勢（目標状態）までの、移動オブジェクトの姿勢の軌跡であり得る。ここで、把持部は、複数の関節を有する。この場合、移動オブジェクトの姿勢（状態）は、姿勢（状態）の要素である関節角度の組で示され得る。例えば、把持部の関節が２つであり、それぞれの関節角度がφ１及びφ２で示される場合、移動オブジェクトの姿勢（状態）は、特徴量ベクトル（φ１，φ２）で示され、その特徴量の数（次元数）は、２となる。また、この姿勢（φ１，φ２）は、２次元空間における特徴量ベクトルで表される点を示し得る。

また、移動オブジェクトが把持部を有する移動体であって、軌道のゴールが移動体の移動先における把持部のある姿勢である場合、軌道は、移動体の位置姿勢及び把持部の姿勢の軌跡であってもよい。この場合、移動オブジェクトの「状態」は、移動オブジェクトの位置及び姿勢に対応する。また、この場合、軌道は、移動オブジェクトの開始位置姿勢（開始状態）から目標位置姿勢（目標状態）までの、移動オブジェクトの位置姿勢の軌跡であり得る。なお、この場合、移動オブジェクトの位置姿勢（状態）は、移動体の位置座標、移動体の旋回角度（移動体の向き）及び把持部の関節の関節角度の組で示され得る。例えば、移動体の位置座標を（ｘ，ｙ）、移動体の旋回角度をθ、把持部の３つの関節の関節角度を（φ１，φ２，φ３）と表すと、移動オブジェクトの位置姿勢（状態）は、特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３）で示され、その特徴量の数（次元数）は、６となる。また、この移動オブジェクトの状態（ｘ，ｙ，θ，φ１，φ２，φ３）は、６次元空間における特徴量ベクトルで表される点を示し得る。

軌道生成システム１は、主要なハードウェア構成として、ＣＰＵ（Central Processing Unit）１２と、ＲＯＭ（Read Only Memory）１４と、ＲＡＭ（Random Access Memory）１６と、インタフェース部（ＩＦ；Interface）１８とを有する。ＣＰＵ１２、ＲＯＭ１４、ＲＡＭ１６及びインタフェース部１８は、データバスなどを介して相互に接続されている。なお、軌道生成システム１は、ハードウェア構成として、ＧＰＵ（Graphics Processing Unit）を有してもよい。

ＣＰＵ１２は、制御処理及び演算処理等を行う演算装置（処理デバイスまたはプロセッサ）としての機能を有する。なお、演算装置は、ＧＰＵによって実現されてもよい。ＲＯＭ１４は、ＣＰＵ１２（ＧＰＵ）によって実行される制御プログラム及び演算プログラム等を記憶するストレージとしての機能を有する。ＲＡＭ１６は、処理データ等を一時的に記憶するメモリとしての機能を有する。インタフェース部１８は、有線又は無線を介して外部と信号の入出力を行う。また、インタフェース部１８は、ユーザによるデータの入力の操作を受け付け、ユーザに対して情報を表示するための処理を行う。例えば、インタフェース部１８は、生成された軌道を表示してもよい。

図２は、実施の形態１にかかる軌道生成システム１の構成を示す機能ブロック図である。軌道生成システム１は、学習装置１００と、軌道生成装置２００とを有する。なお、学習装置１００及び軌道生成装置２００は、物理的に一体の装置で構成されてもよい。あるいは、学習装置１００及び軌道生成装置２００は、物理的に別個の装置で構成されてもよい。その場合、学習装置１００及び軌道生成装置２００のそれぞれが、図１に示したハードウェア構成を有し得る。例えば、移動オブジェクトが実機で実現される場合、軌道生成装置２００は移動オブジェクトに搭載されたコンピュータによって実現されてもよく、学習装置１００は移動オブジェクトとは別個のコンピュータ（例えばパーソナルコンピュータ）によって実現されてもよい。

学習装置１００は、オートエンコーダ及び軌道生成モデルの学習処理を行う。ここで、オートエンコーダは、例えばニューラルネットワークによって実現され得る。オートエンコーダは、移動オブジェクトが存在する環境内の各オブジェクトである環境オブジェクト（移動オブジェクト以外のオブジェクト）を示す３次元点群（点群データ）から、環境の特徴を示す環境特徴情報を生成（抽出）するために用いられる。詳しくは後述する。なお、移動オブジェクトの軌道を生成する場合、環境特徴情報は、移動オブジェクトが回避すべき障害物の特徴を示す障害物情報に対応する。

また、３次元点群は、移動オブジェクトが存在する環境内の各物体の各点の位置座標を示す。３次元点群は、環境内のある視点から環境内の物体表面の各点までの距離及びその視点から各点までの方向によって、生成され得る。３次元点群は、例えば、移動オブジェクトに搭載されたカメラ（ＲＧＢ－Ｄカメラ、ＬｉＤＡＲ（Light Detection and Ranging）等）又はセンサ（以後、「カメラ等」又は単に「カメラ」と称する）によって得られる。

また、軌道生成モデルは、例えばニューラルネットワーク等の機械学習アルゴリズムで実現され得る。軌道生成モデルは、環境内を移動オブジェクトが移動可能な軌道を生成するために用いられる。軌道生成モデルに開始状態と目標状態と環境特徴情報を入力することによって、軌道が生成され得る。詳しくは後述する。

軌道生成装置２００は、学習装置１００によって学習されたオートエンコーダ及び軌道生成モデルを用いて、移動オブジェクトの軌道を生成する。ここで、本実施の形態では、軌道生成装置２００は、１つの開始状態及び１つの目標状態について、複数の軌道を生成するように構成されている。具体的には、本実施の形態にかかる軌道生成装置２００（軌道生成システム１）は、軌道生成モデル（学習済みモデル）に設定される変更可能なパラメータ（第１のパラメータ）の異なる複数の値それぞれについて、軌道生成モデルを用いて軌道を生成する。これによって、本実施の形態にかかる軌道生成装置２００（軌道生成システム１）は、複数の軌道を生成する。詳しくは後述する。

学習装置１００は、教師データ取得部１１０と、オートエンコーダ学習部１２０と、軌道生成モデル学習部１３０とを有する。また、軌道生成装置２００は、学習済みモデル格納部２１２と、点群取得部２１４と、環境特徴情報取得部２１６と、条件設定部２１８と、パラメータ設定部２２０と、軌道生成部２３０と、軌道出力部２４０と、軌道決定部２５０とを有する。これらの構成要素は、例えば、ＣＰＵ１２がＲＯＭ１４に記憶されたプログラムを実行することによって実現可能である。また、各構成要素は、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールするようにして、実現されるようにしてもよい。なお、各構成要素は、上記のようにソフトウェアによって実現されることに限定されず、何らかの回路素子等のハードウェアによって実現されてもよい。また、上記構成要素の１つ以上は、物理的に別個のハードウェアによってそれぞれ実現されてもよい。

＜学習処理＞
学習処理（学習段階）について説明する。学習装置１００において、教師データ取得部１１０は、オートエンコーダ及び軌道生成モデルの学習に必要な多数の教師データを取得する。教師データは、例えば、教師環境と、その教師環境内を通る教師軌道とを示す。また、教師データは、教師環境におけるある視点から得られた３次元点群データを含んでもよい。なお、教師環境は、実空間の環境であってもよいし、仮想空間の環境であってもよい。また、例えば、教師環境には、床面その他の複数の環境オブジェクトが存在する。例えば、教師環境を示すデータ（教師環境データ）は、床面及びその他の環境オブジェクトの位置座標を示してもよい。また、教師軌道を示すデータ（教師軌道データ）は、教師環境における、移動オブジェクトの開始状態から目標状態までの、移動オブジェクトの状態の軌跡を示してもよい。

ここで、教師軌道は、障害物等の環境オブジェクトに衝突しないように生成されている。つまり、教師軌道は、環境内のどこに環境オブジェクトが存在するかが認識された条件下で生成され得る。また、教師軌道は、機械学習によらない手法で生成されることが好ましい。

オートエンコーダ学習部１２０は、教師データに含まれる３次元点群データを用いて、オートエンコーダの学習処理を行う。具体的には、オートエンコーダ学習部１２０は、オートエンコーダについて、教師データにおける３次元点群を入力とし、その３次元点群が出力となるように、学習処理を行う。つまり、オートエンコーダ学習部１２０は、３次元点群を入力データとし、その３次元点群を正解ラベルとして、オートエンコーダの学習処理を行うようにしてもよい。

ここで、学習済みのオートエンコーダは、エンコードの段階において、３次元点群の次元を圧縮（削減）する。これにより、学習済みのオートエンコーダは、ある環境における３次元点群データが入力されると、圧縮された次元の特徴量を抽出することによって、その環境の特徴を示す環境特徴情報を出力するように構成される。したがって、環境特徴情報の次元は、３次元点群の次元よりも小さくなる。つまり、オートエンコーダは、環境の特徴の次元を３次元点群の次元よりも小さくする。オートエンコーダは、３次元点群データを圧縮することによって、環境特徴情報を出力するように構成されてもよい。また、オートエンコーダは、３次元点群の特徴量から、環境特徴情報に対応する特徴量を抽出するように構成されてもよい。

このように、３次元点群の特徴の次元よりも小さい次元の環境特徴情報を用いて後述する軌道生成モデルの学習処理を行うことによって、学習処理を効率的に行うことができる。なお、オートエンコーダを用いて３次元点群の次元を圧縮することは、必須の構成ではない。オートエンコーダを用いない場合、後述する学習処理において、オートエンコーダを用いて生成される環境特徴情報の代わりに、３次元点群データが、環境特徴情報として、軌道生成モデルに入力され得る。

軌道生成モデル学習部１３０は、教師データに含まれる教師軌道データと、その教師軌道データが生成されたときの教師環境を示す教師環境データと、学習済みのオートエンコーダとを用いて、軌道生成モデルの学習処理を行う。ここで、上述したように、軌道生成モデルは、例えばニューラルネットワーク等の機械学習アルゴリズムによって実現可能である。以下の説明では、軌道生成モデルがニューラルネットワークによって実現される例について説明する。軌道生成モデル学習部１３０の具体的な処理については後述する。

なお、本実施の形態では、軌道生成モデルは、環境特徴情報、移動オブジェクトの目標状態、及び、移動オブジェクトのある状態（現在の状態Ｓ_ｎとする）を入力として、現在の状態Ｓ_ｎの次の状態Ｓ_ｎ＋１を出力する。具体的には、軌道生成モデルは、現在状態Ｓ_ｎ及び目標状態Ｓ_Ｎの特徴量ベクトルと環境特徴情報とを入力として、Ｓ_ｎの次の状態Ｓ_ｎ＋１の特徴量ベクトルを出力する。なお、Ｎは、目標状態を示すインデックスである。ｎは、生成される軌道における、開始状態からの状態の順序を示すインデックスであり、０からＮまでの整数である。

そして、移動オブジェクトの現在の状態及び目標状態と、環境特徴情報とを学習済みの軌道生成モデルに入力して、現在の状態の次の状態が出力されるといった処理を繰り返すことで、状態の軌跡に対応する軌道が生成され得る。つまり、初期段階では、開始状態を現在の状態として、開始状態（現在の状態）及び目標状態と、環境特徴情報とを学習済みの軌道生成モデルに入力して、現在の状態の次の状態が出力される。そして、出力された次の状態を現在の状態として、同様の処理を行うことで、さらに次の状態が出力される。このような処理を繰り返すことで、開始状態から目標状態までの軌道が生成される。

図３は、実施の形態１にかかる学習装置１００によって実行される学習方法を示すフローチャートである。図３は、学習装置１００によって実行される学習処理の流れを示す。教師データ取得部１１０は、上述したように、オートエンコーダ及び軌道生成モデルの学習に必要な教師データを取得する（ステップＳ１０２）。オートエンコーダ学習部１２０は、上述したように、教師データに含まれる３次元点群データを用いて、オートエンコーダの学習を行う（ステップＳ１０４）。軌道生成モデル学習部１３０は、軌道生成モデルの学習を行う（ステップＳ１１０）。なお、軌道生成モデル学習部１３０は、複数の教師軌道それぞれについて、Ｓ１１０の処理を実行する。好ましくは、軌道生成モデル学習部１３０は、取得された教師軌道の全てについて、Ｓ１１０の処理を実行する。これにより、精度のよい、つまり環境中の障害物に衝突することが良好に抑制できる軌道を生成可能な、軌道生成モデルを生成することができる。

図４は、実施の形態１にかかる軌道生成モデル学習部１３０によって実行される軌道生成モデル学習処理（Ｓ１１０）を示すフローチャートである。軌道生成モデル学習部１３０は、教師軌道を一定の長さで分割する（ステップＳ１１２）。なお、教師軌道の分割数をＮ個とする。なお、ここで言う「長さ」とは、教師軌道に関する移動オブジェクトの状態の特徴の次元数をｍとした場合に、ｍ次元空間における特徴量ベクトルで示される点と点との間の距離に対応し得る。なお、本実施の形態では教師軌道を一定の長さで分割するとしたが、教師軌道を分割する際の分割された教師軌道の長さは、一定であることに限定されない。例えば、教師軌道は、所定の範囲内の任意の長さで分割されてもよい。

図５は、実施の形態１にかかる、教師軌道の分割処理（Ｓ１１２）を説明するための図である。図５は、教師軌道３０を例示している。ここで、教師軌道に関する移動オブジェクトの状態の特徴の次元数がｍである場合、図５は、ｍ次元空間における教師軌道３０を示している。

教師軌道３０を分割したときの分割した点である分割点をＰ_ｎとする。ここで、ｎは、教師軌道３０の開始状態からの分割点の順序を示すインデックスである。また、ｎは０からＮまでの整数である。なお、分割点Ｐ_０は開始状態の特徴量ベクトルに対応し、分割点Ｐ_Ｎは目標状態の特徴量ベクトルに対応し得る。したがって、教師軌道３０上には、分割点Ｐ_０，Ｐ_１，Ｐ_２，・・・，Ｐ_ｎ－１，Ｐ_ｎ，Ｐ_ｎ＋１，・・・，Ｐ_Ｎ－１，Ｐ_Ｎが配置されることとなる。ここで、Ｐ_ｎは、開始状態からｎ番目の分割点の状態の特徴量ベクトルに対応する。

図４のフローチャートの説明に戻る。軌道生成モデル学習部１３０は、ｎ＝０として（ステップＳ１１４）、分割した教師軌道の（ｎ点目，ｎ＋１点目，最終点）の状態の組を抽出して、（現在状態，次の状態，目標状態）の状態の組を生成する（ステップＳ１１６）。そして、ｎ＋１＝Ｎでない場合（ステップＳ１１８のＮＯ）、ｎを１だけインクリメントして（ステップＳ１２０）、Ｓ１１６の処理を行う。そして、ｎ＋１＝Ｎとなった場合に（Ｓ１１８のＹＥＳ）、Ｓ１１６の処理を終了し、以降の処理を行う。

このように、Ｓ１１６の処理を繰り返すことで、ｎ＝０～Ｎ－１のそれぞれについて、（現在状態，次の状態，目標状態）の状態の組として、（ｎ点目，ｎ＋１点目，最終点）の状態の組が生成される。例えば、ｎ＝０について、（現在状態，次の状態，目標状態）の状態の組として、（０点目Ｐ_０，１点目Ｐ_１，最終点Ｐ_Ｎ）の状態の組が生成される。また、例えば、ｎ＝１について、（現在状態，次の状態，目標状態）の状態の組として、（１点目Ｐ_１，２点目Ｐ_２，最終点Ｐ_Ｎ）の状態の組が生成される。

軌道生成モデル学習部１３０は、教師軌道に対応する３次元点群から、学習済みのオートエンコーダを用いて環境特徴情報を抽出する（ステップＳ１２２）。具体的には、軌道生成モデル学習部１３０は、教師軌道を作成した際にその教師軌道が通った教師環境において得られた３次元点群を、Ｓ１０４の処理で学習されたオートエンコーダに入力する。これによりオートエンコーダから環境特徴情報が出力されるので、軌道生成モデル学習部１３０は、教師軌道に対応する環境特徴情報を抽出することができる。Ｓ１１６の処理及びＳ１２２の処理によって、後述するように、軌道生成モデルの入力データ及びそれに対応する出力データ（正解ラベル）が得られる。

軌道生成モデル学習部１３０は、「環境特徴情報、現在状態及び目標状態」を入力、「次の状態」を正解ラベルとして、軌道生成モデルの学習処理を行う（ステップＳ１２４）。具体的には、軌道生成モデル学習部１３０は、学習前の軌道生成モデルに、Ｓ１２２で抽出された環境特徴情報と、ある状態の組の「現在状態」及び「目標状態」とを入力する。そして、軌道生成モデル学習部１３０は、その状態の組の「次の状態」と、軌道生成モデルからの出力との差分（誤差）が小さくなるように、軌道生成モデルの各種パラメータ（重み及びバイアス等）を最適化する。

例えば、図５の例において、軌道生成モデル学習部１３０は、学習前の軌道生成モデルに、抽出された環境特徴情報と、ｎ＝０に対応する状態の組の「０点目Ｐ_０」及び「最終点Ｐ_Ｎ」に対応する特徴量ベクトルとを入力する。そして、軌道生成モデル学習部１３０は、ｎ＝０に対応する状態の組の「１点目Ｐ_１」に対応する特徴量ベクトルと、軌道生成モデルから出力された特徴量ベクトルとの差分（誤差）が小さくなるように、軌道生成モデルの各種パラメータを最適化する。同様に、軌道生成モデル学習部１３０は、学習前の軌道生成モデルに、抽出された環境特徴情報と、ｎ＝１に対応する状態の組の「１点目Ｐ_１」及び「最終点Ｐ_Ｎ」に対応する特徴量ベクトルとを入力する。そして、軌道生成モデル学習部１３０は、ｎ＝１に対応する状態の組の「２点目Ｐ_２」に対応する特徴量ベクトルと、軌道生成モデルから出力された特徴量ベクトルとの差分（誤差）が小さくなるように、軌道生成モデルの各種パラメータを最適化する。軌道生成モデル学習部１３０は、以下同様にして、全ての状態の組について、学習処理を行う。つまり、軌道生成モデル学習部１３０は、軌道生成モデルに、環境特徴情報と、ある点Ｐ_ｎ及び最終点Ｐ_Ｎに対応する特徴量ベクトルとを入力する。そして、軌道生成モデル学習部１３０は、点Ｐ_ｎの次の点Ｐ_ｎ＋１に対応する特徴量ベクトルと、軌道生成モデルから出力された特徴量ベクトルとの差分（誤差）が小さくなるように、軌道生成モデルの各種パラメータを最適化する。

本実施の形態において、軌道生成モデル学習部１３０は、学習前の軌道生成モデルに環境特徴情報を入力することによって、軌道生成モデルの学習を行うように構成されている。ここで、環境特徴情報は、環境において移動オブジェクトの移動を妨げる障害物となり得るような環境オブジェクトを示し得る。したがって、軌道生成モデル学習部１３０は、移動オブジェクトが障害物に衝突することが抑制された軌道を生成するような軌道生成モデルを、学習処理によって生成することが可能となる。

図６は、実施の形態１にかかる軌道生成モデル２０を概略的に例示する図である。上述したように、軌道生成モデル２０は、例えばニューラルネットワークによって構築され得る。上述したように、軌道生成モデル２０は、環境特徴情報と、現在状態と、目標状態とが入力されると、次の状態を出力する。

例えば、軌道生成モデル２０は、１つの入力層２２と、複数の全結合層２４－１～２４－Ｋ（Ｋは２以上の整数）とで構成されている。ここで、全結合層２４には、ドロップアウト層が設けられている。全結合層２４がドロップアウト層を含んでもよい。ドロップアウト層においてドロップアウト率を設定することによって、対応する全結合層２４のニューロン（ノード）及びその結合が、設定されたドロップアウト率に応じた割合でランダムに無効化される。これにより、軌道生成モデル２０の学習段階では、過学習が抑制される。なお、学習段階で設定されるドロップアウト率は、任意の値であってもよい。また、軌道生成モデル２０の全結合層２４にドロップアウト層が設けられているので、後述する軌道生成処理で使用される学習済みの軌道生成モデル（学習済みモデル）には、ドロップアウト層が設けられている。

環境特徴情報の特徴の次元数をｊとし、状態の特徴の次元数をｍとする。この場合、入力層２２の次元数（ノードの数）はｊ＋ｍ＋ｍとなる。そして、全結合層２４－１の次元数は、ｊ＋ｍ＋ｍよりも大きくてもよい。そして、全結合層２４の次元数は、後段の全結合層２４になるにつれて、小さくなるようにしてもよい。そして、最終段の全結合層２４－Ｋの次元数は、次の状態の特徴の次元数ｍと同じｍとなる。

＜軌道生成処理＞
次に、軌道生成処理（推論処理）について説明する。軌道生成処理によって、移動オブジェクトの軌道が生成される。軌道生成装置２００において、学習済みモデル格納部２１２は、学習装置１００によって学習された学習済みモデルを格納する。具体的には、学習済みモデル格納部２１２は、オートエンコーダ学習部１２０によって学習されたオートエンコーダを格納する。また、学習済みモデル格納部２１２は、軌道生成モデル学習部１３０によって学習された軌道生成モデルを格納する。

点群取得部２１４は、移動オブジェクトの周囲の環境に対応する３次元点群を取得する。具体的には、点群取得部２１４は、軌道生成の対象となる移動オブジェクトが存在し軌道を生成する対象である環境（対象環境）における３次元点群を取得する。例えば、点群取得部２１４は、開始状態にある移動オブジェクトからの視点からの３次元点群を取得してもよい。この場合、点群取得部２１４は、開始状態にある移動オブジェクトに搭載されたカメラ等によって、３次元点群を取得してもよい。なお、点群取得部２１４は、移動オブジェクトに搭載されたカメラ等から３次元点群を取得することに限られない。点群取得部２１４は、移動オブジェクトとは物理的に離れた位置にあるカメラ等によって、３次元点群を取得してもよい。例えば、点群取得部２１４は、対象環境に設置されたインフラセンサによって、３次元点群を取得してもよい。

環境特徴情報取得部２１６は、３次元点群を用いて、移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得する。具体的には、環境特徴情報取得部２１６は、取得された３次元点群と、学習済みモデル格納部２１２に格納された学習済みのオートエンコーダとを用いて、環境特徴情報を取得する。さらに具体的には、環境特徴情報取得部２１６は、取得された３次元点群を学習済みのオートエンコーダに入力することによって、環境特徴情報を取得する。これにより、３次元点群から環境特徴情報が抽出される。

ここで、上述したように、オートエンコーダは、３次元点群の次元を圧縮（削減）することによって、圧縮された次元の特徴を示す環境特徴情報を出力するように構成される。したがって、環境特徴情報の特徴の次元数は、３次元点群の次元数よりも小さい。

なお、上述したように、オートエンコーダを用いて３次元点群の次元を圧縮することは、必須の構成ではない。オートエンコーダを用いない場合、後述する軌道生成処理において、環境特徴情報の代わりに３次元点群データが、軌道生成モデルに入力され得る。また、この場合、３次元点群が、移動オブジェクトの周囲の環境の特徴を示す環境特徴情報として機能する。したがって、点群取得部２１４が、環境特徴情報取得部として機能する。

条件設定部２１８は、生成しようとする軌道における制約条件を設定する。設定される制約条件は、例えば、軌道の両端の状態である開始状態及び目標状態である。なお、移動オブジェクトの現在の状態を開始状態とし、その状態からの軌道を生成する場合、条件設定部２１８は、現在の状態を、開始状態として設定する。以下、目標状態を設定する場合について説明するが、開始状態を設定する場合についても同様である。

移動オブジェクトが移動体であって、軌道が移動体の位置の軌跡で表される場合、条件設定部２１８は、目標状態として、移動オブジェクトの目標位置を設定してもよい。この場合、条件設定部２１８は、目標位置として、３次元空間における位置座標を設定してもよい。

また、移動オブジェクトが把持部である場合、条件設定部２１８は、目標状態として、把持部の目標姿勢を設定してもよい。この場合、条件設定部２１８は、目標姿勢として、把持部の各関節の関節角度を設定してもよい。例えば、把持部が環境内の物体（環境オブジェクト）を把持するタスクを実行しようとする場合、条件設定部２１８が目標姿勢を設定することで、どの環境オブジェクトをどの方向から把持するか（横から把持する又は上から把持する等）を、設定することができる。

また、移動オブジェクトが把持部を有する移動体である場合、条件設定部２１８は、目標状態として、移動体の目標位置及び把持部の目標姿勢を設定してもよい。この場合、条件設定部２１８は、目標状態として、移動体の位置座標、移動体の旋回角度（向き）及び把持部の各関節の関節角度を設定してもよい。

パラメータ設定部２２０は、学習済みの軌道生成モデル（学習済みモデル）の変更可能なパラメータ（第１のパラメータ；可変パラメータ）の値を、学習済みの軌道生成モデルに設定する。ここで、パラメータ設定部２２０は、学習済みの軌道生成モデルの可変パラメータ（第１のパラメータ）の互いに異なる複数の値をそれぞれ学習済みの軌道生成モデルに設定可能である。このような構成により、学習済みの軌道生成モデル（学習済みモデル）の可変パラメータ（第１のパラメータ）を容易に変更することが可能となる。

ここで、本実施の形態における「可変パラメータ（第１のパラメータ）」は、この可変パラメータの値を変更すると、同じ入力値を学習済みの軌道生成モデルに入力したとしても、出力値が異なり得るようなパラメータである。さらに、この「可変パラメータ（第１のパラメータ）」は、この可変パラメータの値の変化に伴って、同じ入力値を学習済みの軌道生成モデルに入力した場合の軌道生成モデルの出力値のばらつきが変化するようなパラメータである。

例えば、「可変パラメータ（第１のパラメータ）」は、この可変パラメータの値が大きいほど、同じ入力値を学習済みの軌道生成モデルに入力した場合の軌道生成モデルの出力値のばらつきが大きくなるようなパラメータである。すなわち、ある同じ入力値Ｘを軌道生成モデルに入力するとする。この場合、可変パラメータの値が最小（例えば０）である場合は、何度、推論処理を行っても、入力値Ｘを入力したときの軌道生成モデルの出力値は、同じとなる。一方、可変パラメータの値を大きくすると、入力値Ｘを入力したときの軌道生成モデルの出力値は、推論処理を行うたびに異なり得る。そして、可変パラメータの値が大きくなるほど、その出力値のばらつきが大きくなる、つまり、複数の出力値の間の差分が大きくなる。

「可変パラメータ（第１のパラメータ）」は、例えばニューラルネットワークにおけるドロップアウト率であるが、これに限られない。以下の本実施の形態の説明では、「可変パラメータ（第１のパラメータ）」がドロップアウト率であるとする。通常、ドロップアウト率は、過学習の抑制等のため、軌道生成モデルの学習段階で設定される。これに対し、本実施の形態にかかる軌道生成装置２００は、推論段階でも、学習済みの軌道生成モデルのドロップアウト率を有効にして、ドロップアウト率を変更するように構成されている。

パラメータ設定部２２０は、例えば、軌道生成モデルを示すプログラムを、インタフェース部１８に表示させるようにしてもよい。これにより、ユーザは、インタフェース部１８を操作して、プログラム中のドロップアウト率を指定する値を設定（変更）することができる。また、パラメータ設定部２２０は、軌道生成モデルを示すプログラムにおいてドロップアウト率を指定する変数を呼び出すようなインタフェースを実現してもよい。これにより、パラメータ設定部２２０は、インタフェース部１８により、その変数の値を設定（変更）することができる。なお、ドロップアウト率の複数の値それぞれは、予め、ユーザによって、適宜準備されてもよい。例えば、軌道生成モデルに設定されるドロップアウト率は、０％、５％、１０％、１５％、２０％、２５％であってもよい。なお、設定される複数のドロップアウト率は、ユーザの操作に応じて、条件設定部２１８によって予め準備されてもよい。また、パラメータ設定部２２０によって設定されるドロップアウト率の値は、学習段階で設定されたものとは異なり得る。

軌道生成部２３０は、開始状態から目標状態までの軌道を生成する。ここで、本実施の形態では、軌道生成部２３０は、移動オブジェクトの開始状態及び目標状態と環境特徴情報とを学習済みの軌道生成モデル（学習済みモデル）に入力し、ドロップアウト率（可変パラメータ）の互いに異なる複数の値それぞれについて学習済みモデルを用いて軌道を生成する。これにより、軌道生成部２３０は、開始状態から目標状態までの複数の軌道を生成する。つまり、軌道生成部２３０は、条件設定部２１８によって設定されたある制約条件（開始状態及び目標状態）及び環境特徴情報取得部２１６によって取得されたある環境特徴情報について、複数の軌道を生成する。

図７は、実施の形態１にかかる軌道生成部２３０の軌道生成処理を説明するための図である。なお、移動オブジェクトの状態の特徴量ベクトルがｍ次元であるとすると、図７は、ｍ次元空間を模擬的に示している。

軌道生成部２３０は、ドロップアウト率Ｄ_１が設定された軌道生成モデル（学習済みモデル）に、開始状態Ｓ_０及び目標状態Ｓ_Ｎの特徴量ベクトルと環境特徴情報とを入力する。これにより、軌道生成部２３０は、軌道生成モデルの出力として開始状態Ｓ_０の次の状態Ｓ_１の特徴量ベクトルを取得する。そして、軌道生成部２３０は、次の状態Ｓ_１の特徴量ベクトルを開始状態の特徴量ベクトルとして、上述した目標状態Ｓ_Ｎの特徴量ベクトル及び環境特徴情報とともに軌道生成モデルに入力してもよい。これにより、軌道生成部２３０は、軌道生成モデルの出力として、状態Ｓ_１の次の状態Ｓ_２の特徴量ベクトルを取得する。

軌道生成部２３０は、このような処理を繰り返すことで、開始状態Ｓ_０から目標状態Ｓ_Ｎまでの状態を取得する。ここで、開始状態Ｓ_０から目標状態Ｓ_Ｎまでの状態の軌跡が、軌道に対応する。このようにして、軌道生成部２３０は、ドロップアウト率Ｄ_１について、開始状態Ｓ_０及び目標状態Ｓ_Ｎと環境特徴情報とに対応する軌道Ｔ_１を生成する。軌道Ｔ_１は、図７に実線で示されている。なお、上述したように、軌道生成モデルは環境特徴情報を入力して学習されたので、軌道生成モデルを用いて生成された軌道は、障害物に衝突することが抑制されていることが期待される。

なお、軌道生成部２３０は、上述したように開始状態から目標状態に向かって移動オブジェクトの状態を順次生成していくのではなく、目標状態から開始状態に遡って移動オブジェクトの状態を順次生成してもよい。この場合、軌道生成部２３０は、軌道生成モデルに対して、設定された目標状態Ｓ_Ｎの特徴量ベクトルを開始状態として入力し、設定された開始状態Ｓ_０の特徴量ベクトルを目標状態として入力する。これにより、軌道生成部２３０は、軌道生成モデルの出力である「次の状態」として、状態Ｓ_Ｎの前の状態Ｓ_Ｎ－１の特徴量ベクトルを取得する。

あるいは、軌道生成部２３０は、開始状態から目標状態に向かって移動オブジェクトの状態を生成し、目標状態から開始状態に向かって移動オブジェクトの状態を生成することを、交互に行ってもよい。つまり、軌道生成部２３０は、開始状態の側と目標状態の側の両方から、移動オブジェクトの状態を順次生成してもよい。この場合の処理については、図９を用いて後述する。

ここで、軌道生成部２３０は、Ｄ_１とは異なるドロップアウト率Ｄ_２について、上述した処理と同様の処理を行う。これにより、軌道生成部２３０は、ドロップアウト率Ｄ_２について、開始状態Ｓ_０及び目標状態Ｓ_Ｎと環境特徴情報とに対応する軌道Ｔ_２を生成する。軌道Ｔ_２は、図７に破線で示されている。軌道生成部２３０は、さらに異なるドロップアウト率Ｄ_３について、上述した処理と同様の処理を行う。これにより、軌道生成部２３０は、ドロップアウト率Ｄ_３について、開始状態Ｓ_０及び目標状態Ｓ_Ｎと環境特徴情報とに対応する軌道Ｔ_３を生成する。軌道Ｔ_３は、図７に一点鎖線で示されている。

ここで、ドロップアウト率を変更すると、軌道生成モデルにおいて無効化されるノード（ニューロン）の割合が変化する。例えば、ドロップアウト率が５％であれば、軌道生成モデルにおいて無効化されるノード（ニューロン）の割合は５％である。一方、ドロップアウト率が０％であれば、軌道生成モデルにおいて無効化されるノード（ニューロン）の割合は０％である（つまり無効化されるノードはない）。そして、ドロップアウト率を変更すると、軌道生成モデルの無効化されるノードが変わるので、軌道生成モデルの構成が変わることとなる。したがって、軌道生成モデルに同じ入力値を入力したとしても、ドロップアウト率が異なれば、軌道生成モデルの出力は異なり得る。

例えば、図７に示すように、ドロップアウト率Ｄ_１（軌道Ｔ_１）について出力された状態Ｓ_１と、ドロップアウト率Ｄ_２（軌道Ｔ_２）について出力された状態Ｓ_１と、ドロップアウト率Ｄ_３（軌道Ｔ_３）について出力された状態Ｓ_１とは、互いに異なり得る。そして、他の状態（但し開始状態及び目標状態以外の状態）でも、同様の結果となり得る。したがって、軌道Ｔ_１、軌道Ｔ_２及び軌道Ｔ_３は、互いに異なり得る。

よって、軌道生成部２３０は、異なるドロップアウト率について、異なる軌道を生成し得る。したがって、軌道生成部２３０は、異なるドロップアウト率について軌道を生成することにより、互いに異なる複数の（多数の）軌道を生成することができる。

さらに、軌道生成部２３０は、あるドロップアウト率について、開始状態Ｓ_０及び目標状態Ｓ_Ｎの特徴量ベクトルと環境特徴情報とに対応する軌道を生成する処理を、複数回行ってもよい。この場合、軌道生成部２３０は、大きなドロップアウト率が軌道生成モデルに設定されている場合ほど、そのドロップアウト率で上述の軌道を生成する処理を行う回数を多くしてもよい。つまり、軌道生成部２３０は、学習済みモデルの出力のばらつきがより大きくなるような可変パラメータの値が学習済みモデルに設定されている場合に、同じ開始状態及び目標状態と環境特徴情報とを学習済みモデルに入力して軌道を生成する回数を多くしてもよい。

軌道生成モデルのノードは、設定されたドロップアウト率に応じた割合でランダムに無効化される。言い換えると、推論処理ごとに無効化されるノードが、ドロップアウト率に応じて、ランダムに選択される。これにより、例えば状態Ｓ_Ｎと状態Ｓ_ｎとから状態Ｓ_ｎ＋１を推論する処理を考えたとき、この処理を複数回行うと、毎回異なる状態Ｓ_ｎ＋１が推論され得る。つまり、同じドロップアウト率を設定したとしても、１回目の処理で生成された軌道と、２回目の処理で生成された軌道とは、互いに異なり得る。したがって、ドロップアウト率が０でない場合は、ドロップアウト率の変更処理を行わなくとも、複数回の推論処理について、毎回異なる軌道が生成され得る。そして、ドロップアウト率が大きいほど、ランダムに無効化されるノードの組み合わせの数が大きくなる。したがって、ドロップアウト率が大きいほど、軌道生成モデルの出力のばらつきが大きくなる。したがって、ドロップアウト率が大きい場合、そのドロップアウト率で繰り返し軌道生成処理を行うと、処理を行うごとに異なる軌道が生成される可能性が高くなる。逆に、ドロップアウト率が小さい場合、そのドロップアウト率で繰り返し軌道生成処理を行っても、同じ軌道が生成される可能性が高くなるので、軌道生成処理を何度も行うことが無駄となる可能性が高い。したがって、大きなドロップアウト率が軌道生成モデルに設定されている場合ほど、そのドロップアウト率で上述の軌道を生成する処理を行う回数を多くすることにより、効率的に多くの軌道を生成することができる。

軌道出力部２４０は、軌道生成部２３０によって生成された軌道を出力する。軌道出力部２４０は、生成された軌道をインタフェース部１８に表示させてもよい。あるいは、軌道出力部２４０は、生成された軌道を記憶するため、ＲＯＭ１４又はＲＡＭ１６に生成された軌道を出力してもよい。また、軌道出力部２４０は、他の装置に軌道を出力（送信）してもよい。

軌道決定部２５０は、生成された複数の軌道に対して、予め定められた基準で、質の高い軌道を決定する。言い換えると、軌道決定部２５０は、生成された複数の軌道から、予め定められた基準で、質の高い軌道を選択する。例えば、基準において、長さが短く且つ障害物（環境オブジェクト）に衝突しない軌道が、質の高い軌道であると定められているとする。この場合、軌道決定部２５０は、長さが短い順で軌道を並べる。そして、軌道決定部２５０は、短い軌道から順に、その軌道が障害物に衝突していないかをチェックする。これにより、短く、障害物に衝突しない軌道が決定（選択）される。なお、軌道の長さは、その軌道の状態の次元数をｍとした場合のｍ次元空間において、状態を示す特徴量ベクトルに対応する点の軌跡の長さに対応する。また、軌道が障害物に衝突していないかをチェックする方法は、例えば、シミュレーションによって、その軌道で移動オブジェクトを移動させた場合に移動オブジェクトが環境オブジェクトに衝突しないかをチェックしてもよい。

図８は、実施の形態１にかかる軌道生成装置２００によって実行される軌道生成方法を示すフローチャートである。図８は、軌道生成装置２００によって実行される軌道生成処理の流れを示す。条件設定部２１８は、上述したように、生成しようとする軌道における制約条件を設定する（ステップＳ２０２）。これにより、生成しようとする軌道の開始状態及び目標状態が設定される。また、この処理において、軌道生成モデルに設定されるべきドロップアウト率の複数の値が、パラメータ設定部２２０に設定されてもよい。

点群取得部２１４は、上述したように、軌道生成の対象の移動オブジェクトの周囲の環境（対象環境）に対応する３次元点群を取得する（ステップＳ２０４）。環境特徴情報取得部２１６は、上述したように、３次元点群から、学習済みのオートエンコーダを用いて、移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得する（ステップＳ２０６）。

パラメータ設定部２２０は、上述したように、学習済みの軌道生成モデル（学習済みモデル）のドロップアウト率の値を設定する（ステップＳ２０８）。軌道生成部２３０は、上述したように、Ｓ２０８で設定されたドロップアウト率の値で、軌道を生成する（ステップＳ２１０）。具体的には、軌道生成部２３０は、ドロップアウト率をＳ２０８で設定された値に設定された軌道生成モデル（学習済みモデル）に、Ｓ２０２で設定された開始状態及び目標状態の特徴量ベクトルと、Ｓ２０６で取得された環境特徴情報とを入力する。これにより、軌道が生成される。Ｓ２１０の処理の詳細については、図９を用いて後述する。

なお、上述したように、軌道生成部２３０は、ドロップアウト率の値の大きさに応じた回数だけ、そのドロップアウト率の値でＳ２１０の処理を繰り返してもよい。これにより、ドロップアウト率の値が大きいほど、多くの軌道が生成される。

軌道出力部２４０は、上述したように、Ｓ２１０の処理で生成された軌道を出力する（ステップＳ２４０）。軌道生成装置２００（例えば軌道生成部２３０）は、予め準備された複数のドロップアウト率の値の全てについて、軌道生成処理が行われたか否かを判定する（ステップＳ２４２）。複数のドロップアウト率の値の全てについて軌道生成処理が行われていない場合（Ｓ２４２のＮＯ）、処理フローはＳ２０８に進む。そして、パラメータ設定部２２０は、軌道生成処理が行われていないドロップアウト率の値を、軌道生成モデルに設定する（Ｓ２０８）。そして、軌道生成部２３０は、設定されたドロップアウト率の値で、軌道を生成する（Ｓ２１０）。

一方、複数のドロップアウト率の値の全てについて軌道生成処理が行われた場合（Ｓ２４２のＹＥＳ）、軌道決定部２５０は、上述したように、生成された複数の軌道に対して、予め定められた基準で、質の高い軌道を決定する（ステップＳ２４４）。すなわち、軌道決定部２５０は、生成された複数の軌道の質を評価して、質の高い軌道を選択する。

図９は、実施の形態１にかかる軌道生成部２３０によって実行される軌道生成処理（Ｓ２１０）を示すフローチャートである。ここで、Ｓ２０２の処理で設定された開始状態を状態Ｓ_０とし、Ｓ２０２の処理で設定された目標状態を状態Ｓ_Ｎとする。また、状態の特徴量ベクトルをｍ次元とする。

軌道生成部２３０は、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として、学習済みの軌道生成モデルを用いて状態Ｓ_１を取得する（ステップＳ２１２）。具体的には、軌道生成部２３０は、現在状態（開始状態）Ｓ_０及び目標状態Ｓ_Ｎの特徴量ベクトルと環境特徴情報とを学習済みの軌道生成モデルに入力する。軌道生成部２３０は、軌道生成モデルから出力された、状態Ｓ_０の次の状態Ｓ_１の特徴量ベクトルを取得する。

軌道生成部２３０は、状態Ｓ_１と状態Ｓ_Ｎとが接続可能であるか否かを判定する（ステップＳ２１４）。具体的には、軌道生成部２３０は、状態Ｓ_１と状態Ｓ_Ｎとを結ぶ（ｍ次元空間における）直線上の状態において、移動オブジェクトが障害物（環境オブジェクト）と衝突する状態がないか否かを判定する（判定＃１）。さらに具体的には、軌道生成部２３０は、ｍ次元空間において状態Ｓ_１と状態Ｓ_Ｎとを最短距離で結んだ際の状態Ｓ_１と状態Ｓ_Ｎとの間の各状態において、移動オブジェクトが環境オブジェクトと衝突（干渉）していないかを判定する。なお、衝突の判定は、その状態における移動オブジェクトが存在する空間の位置座標と、環境特徴情報において環境オブジェクトを示す特徴量とを用いて行われ得る。なお、ある状態における移動オブジェクトが存在する空間の位置座標は、移動オブジェクトの状態の特徴量が定まれば、一意に定まる。

また、軌道生成部２３０は、状態Ｓ_１と状態Ｓ_Ｎとの距離が、予め定められた閾値よりも小さいか否かを判定する（判定＃２）。なお、状態Ｓ_１と状態Ｓ_Ｎとの距離は、ｍ次元空間における状態Ｓ_１及び状態Ｓ_Ｎそれぞれの特徴量ベクトルで示される点と点との間の距離に対応し得る。軌道生成部２３０は、判定＃１と判定＃２とを満たす場合に、状態Ｓ_１と状態Ｓ_Ｎとが接続可能であると判定する。

状態Ｓ_１と状態Ｓ_Ｎとが接続可能であると判定された場合（Ｓ２１４のＹＥＳ）、軌道生成が完了する。したがって、処理フローはＳ２４０に進む。一方、状態Ｓ_１と状態Ｓ_Ｎとが接続可能でないと判定された場合（Ｓ２１４のＮＯ）、軌道生成部２３０は、目標状態の側から遡って状態を生成する。すなわち、軌道生成部２３０は、状態Ｓ_Ｎを現在状態、Ｓ２１２で生成された状態Ｓ_１を目標状態として、学習済みの軌道生成モデルを用いて、状態Ｓ_Ｎ－１を取得する（ステップＳ２１６）。

具体的には、軌道生成部２３０は、現在状態Ｓ_Ｎ及び目標状態Ｓ_１の特徴量ベクトルと環境特徴情報とを学習済みの軌道生成モデルに入力する。軌道生成部２３０は、軌道生成モデルから出力された、状態Ｓ_Ｎの次の状態Ｓ_Ｎ－１の特徴量ベクトルを取得する。ここで、生成される軌道上では、状態Ｓ_Ｎ－１は状態Ｓ_Ｎの１つ前の状態である。しかしながら、この場合の軌道生成モデルの入出力としては、入力される目標状態Ｓ_１が、現在状態Ｓ_Ｎよりも開始状態の側の状態であるため、状態Ｓ_Ｎ－１は状態Ｓ_Ｎの「次の状態」として出力される。

軌道生成部２３０は、状態Ｓ_Ｎ－１と状態Ｓ_１とが接続可能であるか否かを判定する（ステップＳ２１８）。接続可能であるか否かの判定方法は、Ｓ２１４の処理における方法と実質的に同様であるので、説明を省略する。状態Ｓ_Ｎ－１と状態Ｓ_１とが接続可能であると判定された場合（Ｓ２１８のＹＥＳ）、軌道生成が完了する。したがって、処理フローはＳ２４０に進む。

一方、状態Ｓ_Ｎ－１と状態Ｓ_１とが接続可能でないと判定された場合（Ｓ２１８のＮＯ）、軌道生成部２３０は、状態Ｓ_１を現在状態、状態Ｓ_Ｎ－１を目標状態として、学習済みの軌道生成モデルを用いて状態Ｓ_２を取得する（ステップＳ２２０）。具体的には、軌道生成部２３０は、現在状態Ｓ_１及び目標状態Ｓ_Ｎ－１の特徴量ベクトルと環境特徴情報とを学習済みの軌道生成モデルに入力する。軌道生成部２３０は、軌道生成モデルから出力された、状態Ｓ_１の次の状態Ｓ_２の特徴量ベクトルを取得する。

そして、軌道生成部２３０は、Ｓ２１４～Ｓ２２０と同様の処理を、両側の状態が接続可能となるまで繰り返す（ステップＳ２２２）。つまり、軌道生成部２３０は、Ｓ２１４～Ｓ２２０と同様の処理を、軌道生成モデルから出力された次の状態と軌道生成モデルに入力された目標状態とが接続可能となるまで繰り返す。したがって、この場合、Ｓ２１４と同様にして、軌道生成部２３０は、状態Ｓ_２と状態Ｓ_Ｎ－１とが接続可能であるか否かを判定し、接続可能であれば軌道生成が完了する。一方、接続可能でない場合、Ｓ２１６と同様にして、軌道生成部２３０は、状態Ｓ_Ｎ－１を現在状態、状態Ｓ_２を目標状態として、学習済みの軌道生成モデルを用いて、状態Ｓ_Ｎ－２を取得する。そして、Ｓ２１８と同様にして、軌道生成部２３０は、状態Ｓ_Ｎ－２と状態Ｓ_２とが接続可能であるか否かを判定する。つまり、軌道生成部２３０は、前のステップで生成された状態を目標状態とし、さらにその前のステップで生成された状態を開始状態として、開始状態とした状態の、目標状態の側に１つ隣の状態を生成する。

このように処理を繰り返すことで、状態Ｓ_ｎ－１を現在状態、状態Ｓ_ｎ＋１を目標状態として、軌道生成モデルから状態Ｓ_ｎが出力された場合（Ｓ２２０）に、状態Ｓ_ｎ＋１と状態Ｓ_ｎとが接続可能となる（Ｓ２１４のＹＥＳ）。あるいは、状態Ｓ_ｎ＋１を現在状態、状態Ｓ_ｎ－１を目標状態として、軌道生成モデルから状態Ｓ_ｎが出力された場合（Ｓ２１６）に、状態Ｓ_ｎ－１と状態Ｓ_ｎとが接続可能となる（Ｓ２１８のＹＥＳ）。したがって、開始状態から目標状態まで状態が連なった軌道が生成される。

図１０～図１２は、実施の形態１にかかる軌道生成部２３０が複数の軌道を生成することを説明するための図である。なお、図１０～１２は、移動オブジェクトの状態の特徴量ベクトルがｍ次元である場合の、ｍ次元空間における状態を示す点を、模擬的に示している。図１０は、軌道生成モデルに設定されたドロップアウト率Ｄが０である場合に、図９に示した方法で生成される軌道を示している。

軌道生成モデルに設定されたドロップアウト率Ｄが０である場合、軌道生成モデルを構成するノード（ノードの結合）は、全て有効である。したがって、軌道生成モデルの入力が一定であれは、その出力も一定である。したがって、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として軌道生成モデルから出力される状態Ｓ_１は、一意に決まる。さらに、状態Ｓ_Ｎを現在状態、状態Ｓ_１を目標状態として軌道生成モデルから出力される状態Ｓ_Ｎ－１は、一意に決まる。このように、軌道生成モデルに設定されたドロップアウト率Ｄが０である場合、各状態が一意に決まるので、生成される軌道も一意に決まる。なお、軌道生成モデルに設定されたドロップアウト率Ｄが０である場合に生成される軌道は、学習済みの軌道生成モデルにおいて学習された通りのアルゴリズムで出力されたものである。したがって、軌道生成モデルに設定されたドロップアウト率Ｄが０である場合に生成される軌道は、この学習済みの軌道生成モデルの学習の結果に対してという意味では、最適な軌道となる。

図１１は、軌道生成モデルに設定されたドロップアウト率Ｄが０ではない小さな値Ｄ_１（≠０）である場合に、図９に示した方法で生成される軌道を示している。軌道生成モデルに設定されたドロップアウト率Ｄが０でない場合、軌道生成モデルを構成するノード（ノードの結合）は、そのドロップアウト率に応じてランダムに無効となる。したがって、軌道生成モデルの入力が一定であっても、軌道生成処理を複数回行うと、その出力が異なり得る。

したがって、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として軌道生成モデルから出力される状態Ｓ_１は、一意に決まらない。ここで、軌道生成モデルに設定されたドロップアウト率Ｄ_１が小さな値であれば、その出力のばらつきは小さい。したがって、軌道生成モデルから出力される状態Ｓ_１は、一意に決まらないものの、そのばらつきは小さい。図１１の例では、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として軌道生成モデルから出力される状態Ｓ_１は、ドロップアウト率Ｄ_１に対応するばらつきを示す領域Ｒ_１１内の状態Ｓ_１ ^ａ１又は状態Ｓ_１ ^ｂ１となり得る。ここで、ドロップアウト率ＤがＤ_１（≠０）である場合の軌道生成モデルのアルゴリズムは、ドロップアウト率Ｄが０の場合と異なり得る。したがって、Ｄ＝Ｄ_１（図１１）の場合の状態Ｓ_１ ^ａ１及び状態Ｓ_１ ^ｂ１は、Ｄ＝０（図１０）の場合の状態Ｓ_１とは異なり得る。

また、同様に、状態Ｓ_Ｎを現在状態、状態Ｓ_１を目標状態として軌道生成モデルから出力される状態Ｓ_Ｎ－１は、一意に決まらないものの、そのばらつきは小さい。図１１の例では、状態Ｓ_Ｎを現在状態、状態Ｓ_１を目標状態として軌道生成モデルから出力される状態Ｓ_Ｎ－１は、ドロップアウト率Ｄ_１に対応するばらつきを示す領域Ｒ_１２内の状態Ｓ_Ｎ－１ ^ａ１又は状態Ｓ_Ｎ－１ ^ｂ１となり得る。そして、Ｄ＝Ｄ_１（図１１）の場合の状態Ｓ_Ｎ－１ ^ａ１及び状態Ｓ_Ｎ－１ ^ｂ１は、Ｄ＝０（図１０）の場合の状態Ｓ_Ｎ－１とは異なり得る。

このように、軌道生成モデルに設定されたドロップアウト率が０でない場合、軌道生成モデルから出力される状態が一意に決まらず、ドロップアウト率が０である場合に軌道生成モデルから出力される状態とは異なり得る。そして、その出力された状態を現在状態又は目標状態として軌道生成モデルに入力すると、出力される状態はさらにばらつく。したがって、ドロップアウト率が０でない場合に生成される軌道は、一意に決まらない。したがって、軌道生成処理を複数回行うと、異なる軌道が生成されることとなり得る。なお、ドロップアウト率が比較的小さな値Ｄ_１である場合、生成される複数の軌道のばらつきは、比較的小さい。

図１２は、軌道生成モデルに設定されたドロップアウト率ＤがＤ_１よりも大きな値Ｄ_２である場合に、図９に示した方法で生成される軌道を示している。ここで、Ｄ_２は０ではない。したがって、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として軌道生成モデルから出力される状態Ｓ_１は、一意に決まらない。そして、軌道生成モデルに設定されたドロップアウト率Ｄ_２がＤ_１よりも大きな値であるので、その出力のばらつきは、図１１の場合よりも大きくなる。したがって、軌道生成モデルから出力される状態Ｓ_１は、一意に決まらず、そのばらつきも、図１１の場合よりも大きい。

図１２の例では、状態Ｓ_０を現在状態、状態Ｓ_Ｎを目標状態として軌道生成モデルから出力される状態Ｓ_１は、ドロップアウト率Ｄ_２に対応するばらつきを示す領域Ｒ_２１内の状態Ｓ_１ ^ａ２、状態Ｓ_１ ^ｂ２又は状態Ｓ_１ ^ｃ２となり得る。ここで、ドロップアウト率ＤがＤ_２（≠０）である場合の軌道生成モデルのアルゴリズムは、ドロップアウト率Ｄが０及びＤ_１の場合と異なり得る。したがって、Ｄ＝Ｄ_２（図１２）の場合の状態Ｓ_１ ^ａ２、状態Ｓ_１ ^ｂ２及び状態Ｓ_１ ^ｃ２は、いずれも、状態Ｓ_１、状態Ｓ_１ ^ａ１及び状態Ｓ_１ ^ｂ１とは異なり得る。
また、状態Ｓ_Ｎを現在状態、状態Ｓ_１を目標状態として軌道生成モデルから出力される状態Ｓ_Ｎ－１は、一意に決まらず、そのばらつきも、図１１の場合よりも大きい。図１２の例では、状態Ｓ_Ｎを現在状態、状態Ｓ_１を目標状態として軌道生成モデルから出力される状態Ｓ_Ｎ－１は、ドロップアウト率Ｄ_２に対応するばらつきを示す領域Ｒ_２２内の状態Ｓ_Ｎ－１ ^ａ２、状態Ｓ_Ｎ－１ ^ｂ２又は状態Ｓ_Ｎ－１ ^ｃ２となり得る。そして、Ｄ＝Ｄ_２（図１２）の場合の状態Ｓ_Ｎ－１ ^ａ２、状態Ｓ_Ｎ－１ ^ｂ２及び状態Ｓ_Ｎ－１ ^ｃ２は、いずれも、状態Ｓ_Ｎ－１、状態Ｓ_Ｎ－１ ^ａ１及び状態Ｓ_Ｎ－１ ^ｂ１とは異なり得る。

このように、軌道生成モデルに設定されたドロップアウト率が０でない場合、軌道生成モデルから出力される状態は、一意に決まらず、ドロップアウト率が０である場合に軌道生成モデルから出力される状態とは異なり得る。したがって、ドロップアウト率が０でない場合に生成される軌道は一意に決まらないので、軌道生成処理を複数回行うと、異なる軌道が生成されることとなり得る。ここで、ドロップアウト率がＤ_１よりも大きな値Ｄ_２である場合、生成される複数の軌道のばらつきは、ドロップアウト率がＤ_１である場合よりも大きくなる。したがって、軌道生成モデルのドロップアウト率が大きいと、軌道生成処理を複数回行うことにより、多くの軌道を生成することができる。また、ドロップアウト率の互いに異なる値ごとに軌道生成処理を行うことによって、異なる軌道が生成され得る。したがって、ドロップアウト率の互いに異なる値ごとに軌道生成処理を行うことによって、複数の異なる多様な軌道を生成することが可能となる。

なお、学習済みの軌道生成モデル（ドロップアウト率＝０）を用いて軌道を生成すれば、最適な軌道生成が行われるので、複数の軌道を生成する必要はないとも考えられる。しかしながら、学習済みの軌道生成モデルを用いて軌道を生成しても、必ず、軌道決定の基準に照らして最適な軌道が生成されるとは限らない。軌道を決定（選択）する際の基準は、ユーザによって任意に定められ得るので、軌道生成モデルのアルゴリズムに対応しているとは限らない。また、軌道生成モデルの学習段階で、完全に最適な軌道を生成できるように学習が行うことは、容易ではない。さらに、推論段階（軌道生成処理）において３次元点群を取得する際に、全ての環境オブジェクトの特徴を捉えることができない可能性がある。３次元点群を取得する際の視点から陰になる障害物については、３次元点群に示されない可能性があるからである。その場合は、学習済みの軌道生成モデル（ドロップアウト率＝０）を用いると、特徴を捉えられなかった環境オブジェクトに衝突する軌道が生成される可能性がある。したがって、複数の軌道を生成することの意義は大きい。

また、上述した実施の形態１では、ドロップアウト層が設けられている軌道生成モデル（学習済みモデル）におけるドロップアウト率の値を変更して、変更されたドロップアウト率ごとに軌道生成モデルを用いて軌道を生成するように構成されている。これにより、実施の形態１では、複数の軌道が生成される。また、軌道生成モデルに設定されるドロップアウト率が小さいと、生成される軌道のばらつきが小さいので、学習されたアルゴリズムに対応した軌道に似た軌道が生成される。一方、ドロップアウト率が大きいと、生成される軌道のばらつきが大きくなるので、学習されたアルゴリズムに対応した軌道とは比較的異なる軌道も生成され得る。したがって、実施の形態１にかかる構成により、多種多様な軌道を生成することが可能となる。また、このように、ニューラルネットワークにおいて既存の可変パラメータであるドロップアウト率を変更するように構成されていることによって、比較的容易に、複数の軌道を生成することが可能となる。

また、上述した実施の形態１にかかる軌道生成システム１は、学習済みの軌道生成モデル（学習済みモデル）に、移動オブジェクトの開始状態及び目標状態と環境特徴情報とを入力することによって、軌道を生成するように構成されている。これにより、環境特徴情報に示される障害物との衝突が抑制され、開始状態から目標状態に到達する軌道を生成することができる。さらに、上述した実施の形態１にかかる軌道生成システム１は、変更可能な可変パラメータ（第１のパラメータ）の異なる複数の値それぞれについて、学習済みの軌道生成モデルを用いて軌道を生成するように構成されている。これにより、上述した実施の形態１にかかる軌道生成システム１は、複数の軌道を生成することができる。したがって、上述した実施の形態１にかかる軌道生成システム１は、生成された複数の軌道から、質の高い軌道を決定することを可能とすることができる。

また、上述した実施の形態１では、学習処理及び推論処理において、環境特徴情報を軌道生成モデルに入力するように構成されている。これにより、推論処理（軌道生成処理）においてドロップアウト率の値を変更しても、移動オブジェクトが障害物に衝突することが抑制されている軌道が生成される可能性が高くなる。これにより、軌道決定処理（図８のＳ２４４）において、質の高い軌道を決定する処理が容易となる。なお、この軌道決定処理をコンピュータによって行う場合、移動オブジェクトが障害物に衝突していない軌道が生成されていれば、障害物に衝突していないかをチェックする処理の計算コストを低減することができる。

また、上述した実施の形態１において、可変パラメータ（第１のパラメータ）は、当該第１のパラメータの値の変化に伴って、学習済みモデル（学習済みの軌道生成モデル）に入力される同じ入力値に対する学習済みモデルの出力のばらつきが変化するようなパラメータである。このような構成により、上述したドロップアウト率の例のように、多種多様な軌道を生成することが可能となる。

また、上述した実施の形態１にかかる軌道生成システム１は、学習済みモデル（学習済みの軌道生成モデル）の出力のばらつきがより大きくなるような可変パラメータ（第１のパラメータ）の値が学習済みモデルに設定されている場合に、同じ開始状態及び目標状態と環境特徴情報とを学習済みモデルに入力して軌道を生成する回数を多くするように構成されている。これにより、上述したドロップアウト率の例のように、効率的に多くの軌道を生成することが可能となる。

（実装例）
次に、実施の形態１にかかる軌道生成システム１の実装例について説明する。
図１３は、実装例にかかる環境４０を例示する図である。実装例にかかる環境４０は、実空間を模擬した仮想空間で実現され得る。なお、以下の説明では、仮想空間で実現される構成について説明するが、仮想空間によって実現される構成は、全て、実空間においても実現され得る。

環境４０は、例えば、Ｇａｚｅｂｏシミュレータ等のシミュレータによって、仮想空間上に生成され得る。環境４０には、仮想的に設定されたＸＹＺ座標系（３次元座標系）が設定され得る。これにより、環境４０に存在する物体（環境オブジェクト）の位置を示すことができる。なお、以下の説明で、Ｚ軸正方向を上方とし、Ｚ軸負方向を下方とする。また、環境４０を示す環境データは、環境４０に設定された３次元座標系において、どの位置座標に環境オブジェクトが存在し、どの位置座標に環境オブジェクトが存在しないかを示してもよい。言い換えると、環境４０を示す環境データは、環境４０に設定された３次元座標系の各３次元座標それぞれについて、環境オブジェクトが存在するか否かを示してもよい。

図１３に例示した環境４０には、環境オブジェクトとして、床面４２と、テーブル４４と、把持オブジェクト４６Ａ～４６Ｅとが存在する。床面４２にテーブル４４が置かれており、テーブル４４の上方に把持オブジェクト４６が置かれている。なお、図１３に示した環境４０は、あくまでも、軌道生成システム１の実装に関する環境の例示であることに留意されたい。環境に存在する環境オブジェクトは、図１３に例示したものに限定されない。

把持オブジェクト４６は、図１４を用いて後述する移動体の把持部によって把持され得る。なお、ある把持オブジェクト４６を把持する場合、他の把持オブジェクト４６は、移動体の移動に対する障害物となり得る。例えば、移動体が把持オブジェクト４６Ｄを把持する場合、他の把持オブジェクト４６Ａ，４６Ｂ，４６Ｃ，４６Ｅは、障害物となり得る。

図１４は、実装例にかかる移動体５０を例示する図である。実装例にかかる移動体５０は、実空間を模擬した仮想空間で実現され得る。実装例にかかる移動体５０は、仮想空間で実現される環境４０内を移動する、仮想的な物体である。移動体５０は、例えば、Ｇａｚｅｂｏシミュレータ等のシミュレータによって、仮想空間上に生成され得る。移動体５０は、例えば、ロボット又は台車である。

移動体５０は、本体部５２と、駆動部５４と、カメラ５６と、アーム部６０とを有する。アーム部６０は、把持部６２と、関節６４とを有する。本体部５２は、移動体５０の胴体を構成する。本体部５２の側面には、アーム部６０が設けられている。本体部５２の下方には、駆動部５４が設けられている。本体部５２の上方には、カメラ５６が設けられている。

駆動部５４は、本体部５２を移動させる。駆動部５４は、本体部５２を前後左右に移動させ、及び、本体部５２を旋回させる。カメラ５６は、例えばＲＧＢ－Ｄカメラである。カメラ５６は、移動体５０の周囲の環境４０を撮影して、環境４０内の環境オブジェクト（床面４２及び把持オブジェクト４６等）を示す３次元点群を取得する。なお、カメラ５６の画角は可変であってもよい。

把持部６２は、例えばロボットハンドである。把持部６２は、把持オブジェクト４６を把持することが可能である。アーム部６０には、例えば５個の関節６４が設けられている。関節６４が回転することによって、本体部５２に対する把持部６２の位置及び姿勢を制御することができる。

ここで、環境４０における本体部５２の位置座標を（ｘ，ｙ）とする。また、環境４０における本体部５２の向き（旋回角度）をθとする。また、アーム部６０の５個の関節６４それぞれの関節角度を（φ１，φ２，φ３，φ４，φ５）とする。この場合、把持部６２の位置及び姿勢は、（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）で表され得る。つまり、移動オブジェクトである把持部６２の状態は、（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）の８次元の特徴量ベクトルで特定され得る。そして、環境４０内を移動体５０が移動して把持部６２が把持オブジェクト４６を把持することを目標状態とする場合、移動体５０の把持部６２の軌道は、（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）の軌跡（変化）で表され得る。つまり、把持部６２の軌道は、８次元空間における特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）で示される点の軌跡に対応し得る。

実装例における学習処理について説明する。実装例において、教師データ取得部１１０は、環境４０のような、仮想空間で実現された教師環境を示す教師環境データを、多数取得する。教師データ取得部１１０は、例えば、互いに異なる約３万パターンの教師環境を取得する。教師環境は、環境４０と同様に、Ｇａｚｅｂｏシミュレータ等のシミュレータによって、３次元空間の仮想空間上に生成され得る。

また、教師データ取得部１１０は、各教師環境において、その教師環境に存在する移動体５０のカメラ５６からの視点で取得された３次元点群を取得する。なお、以降の処理では、データ処理の効率化のため、得られた３次元点群における全ての点を使用しなくてもよく、任意の割合で間引かれた点を使用してもよい。例えば、得られた３次元点群が６４０×４８０点である場合に、６４×４８点を使用するようにしてもよい。

また、教師データ取得部１１０は、得られた教師環境における移動体５０の軌道である教師軌道を取得する。ここで、実装例では、環境４０のような教師環境において、移動体５０の把持部６２が、テーブル４４に置かれた把持オブジェクト４６の１つを把持するケースを想定する。したがって、教師軌道において、目標状態は、把持されるべき把持オブジェクト４６を把持部６２が把持したときの移動体５０（把持部６２）の位置及び姿勢に対応する。目標状態は、そのときの把持部６２の特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）で表され得る。目標状態は、教師環境における把持オブジェクト４６ごとに、複数個（例えば５～１６個）、設定されてもよい。また、開始状態は、教師環境においてランダムに設定されてもよい。例えば、開始状態は、移動体５０がテーブル４４から十分離れた位置にあるときの状態であってもよい。そして、教師軌道は、開始状態から目標状態までの移動体５０（把持部６２）の状態を示す特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）の軌跡に対応する。

ここで、教師軌道は、機械学習によらない方法で生成され得る。例えば、教師軌道は、ＣＢｉＲＲＴ２（Constrained Bidirectional RRT）のようなＲＲＴ（Rapidly-Exploring Random Tree）アルゴリズムによって、生成されてもよい。また、上述したように、教師環境において、把持すべき把持オブジェクト４６以外の把持オブジェクト４６は、移動体５０の移動に対する障害物となり得る。したがって、教師軌道は、教師環境において、開始状態から目標状態までの間で、把持すべき把持オブジェクト４６以外の把持オブジェクト４６に移動体５０の構成要素（アーム部６０等）が衝突しないように、生成され得る。

また、実装例において、オートエンコーダ学習部１２０は、教師データ取得部１１０によって取得された３次元点群を用いて、オートエンコーダの学習処理を行う。ここで、オートエンコーダ学習部１２０は、上述した約３万パターンの教師環境における３次元点群を用いて、オートエンコーダの学習処理を行う。実装例において、オートエンコーダは、入力された３次元点群の次元（例えば９２１６次元）を、例えば２５６次元まで圧縮する。したがって、実装例にかかるオートエンコーダを用いて、２５６次元の環境特徴情報が取得（抽出）される。

また、実装例において、軌道生成モデル学習部１３０は、教師データ取得部１１０によって取得された教師軌道を用いて、上述した方法によって軌道生成モデルの学習処理を行う。実装例において、軌道生成モデルは、ニューラルネットワークによって実現される。なお、実装例において、図５に示した分割点Ｐ_ｎは、開始状態からｎ番目の分割点の状態の特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）に対応する。

また、実装例において、図６に例示した軌道生成モデル２０は、１つの入力層２２と、１０個の全結合層２４－１～２４－１０とで構成されている。また、実装例において、ｊ＝２５６、ｍ＝８であるから、入力層２２の次元数（ノードの数）は２７２となる。また、実装例において、全結合層２４－１～２４－１０の次元数は、それぞれ、１２８０，１０２４，８９６，７６８，５１２，３８４，２５６，１２８，６４，８である。

実装例における軌道生成処理（推論処理）について説明する。実装例において、移動体５０の目標位置及び把持部６２の目標姿勢を設定する。条件設定部２１８は、把持すべき把持オブジェクト４６を設定する。そして、条件設定部２１８は、その把持オブジェクト４６を把持部６２が把持したときの把持部６２の姿勢を、目標状態として設定する。そして、条件設定部２１８は、目標状態に対応する特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）を設定する。また、条件設定部２１８は、開始状態に対応する把持部６２の特徴量ベクトル（ｘ，ｙ，θ，φ１，φ２，φ３，φ４，φ５）を設定する。例えば、条件設定部２１８は、環境における移動体５０（把持部６２）の現在の状態（位置及び姿勢）を、開始状態として設定する。

また、実装例において、点群取得部２１４は、軌道生成の対象となる移動体５０（把持部６２）の周囲の、環境４０等の仮想空間で実現された環境に対応する３次元点群を取得する。このとき、点群取得部２１４は、開始状態にある移動体５０のカメラ５６によって、９２１６次元の３次元点群を取得してもよい。また、環境特徴情報取得部２１６は、学習済みをオートエンコーダを用いて、２５６次元の環境特徴情報を抽出する。

また、実装例において、パラメータ設定部２２０は、軌道生成モデルを示すプログラムをインタフェース部１８に表示させることによって、軌道生成モデルのドロップアウト率の値を設定する。また、実装例において、軌道生成部２３０は、上述した方法によって、開始状態（開始姿勢）から目標状態（目標姿勢）までの、移動体５０（把持部６２）の軌道を生成する。また、上述したように、軌道生成モデルのドロップアウト率の値を変更して軌道を生成することによって、１つの制約条件（開始状態及び目標状態）について、多種多様な軌道が生成される。

（変形例）
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートの複数のステップの順序は、適宜、変更可能である。また、上述したフローチャートの１つ以上のステップは、適宜、省略可能である。

例えば、図４に示したフローチャートにおいて、Ｓ１２２の処理は、Ｓ１１２の処理の前に実行されてもよい。また、図８に示したフローチャートにおいて、Ｓ２０２の処理は、Ｓ２０６の処理の後に実行されてもよい。また、図８に示したフローチャートにおいて、Ｓ２４４の処理は、省略されてもよい。

また、軌道生成装置２００において、軌道決定部２５０は、なくてもよい。この場合、軌道決定部２５０の処理は、ユーザの手によって行われてもよい。つまり、ユーザが、生成された複数の軌道から、最適な軌道を決定（選択）してもよい。

また、上述した実施の形態において、軌道生成モデル学習部１３０は、図４のＳ１２４の処理において、軌道生成モデルに、環境特徴情報と、ある点Ｐ_ｎ及び最終点Ｐ_Ｎに対応する特徴量ベクトルとを入力して、Ｐ_ｎ＋１に対応する特徴量ベクトルと、軌道生成モデルから出力された特徴量ベクトルとの差分が小さくなるように、軌道生成モデルの各種パラメータを最適化するとした。しかしながら、本実施の形態は、このような構成に限られない。軌道生成モデル学習部１３０は、軌道生成モデルに、環境特徴情報と、ある点Ｐ_ｎ及び開始点Ｐ_０に対応する特徴量ベクトルとを入力して、Ｐ_ｎ－１に対応する特徴量ベクトルと、軌道生成モデルから出力された特徴量ベクトルとの差分が小さくなるように、軌道生成モデルの各種パラメータを最適化するようにしてもよい。あるいは、軌道生成モデル学習部１３０は、軌道生成モデルに、ある点Ｐ_ｎ及び最終点Ｐ_Ｎに対応する特徴量ベクトルを入力する処理と、ある点Ｐ_ｎ及び開始点Ｐ_０に対応する特徴量ベクトルを入力する処理とを、交互に行ってもよい。

また、上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１軌道生成システム
２０軌道生成モデル
２２入力層
２４全結合層
３０教師軌道
４０環境
４２床面
４４テーブル
４６把持オブジェクト
５０移動体
５２本体部
５４駆動部
５６カメラ
６０アーム部
６２把持部
６４関節
１００学習装置
１１０教師データ取得部
１２０オートエンコーダ学習部
１３０軌道生成モデル学習部
２００軌道生成装置
２１２学習済みモデル格納部
２１４点群取得部
２１６環境特徴情報取得部
２１８条件設定部
２２０パラメータ設定部
２３０軌道生成部
２４０軌道出力部
２５０軌道決定部

Claims

環境内を移動する移動オブジェクトの軌道を生成する軌道生成システムであって、
前記移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得する環境特徴情報取得部と、
予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成する軌道生成部と、
を有する軌道生成システム。
前記第１のパラメータは、当該第１のパラメータの値の変化に伴って、前記学習済みモデルに入力される同じ入力値に対する前記学習済みモデルの出力のばらつきが変化するようなパラメータである、
請求項１に記載の軌道生成システム。
前記軌道生成部は、前記学習済みモデルの出力のばらつきがより大きくなるような前記第１のパラメータの値が前記学習済みモデルに設定されている場合に、同じ前記開始状態及び目標状態と前記環境特徴情報とを前記学習済みモデルに入力して軌道を生成する回数を多くする、
請求項２に記載の軌道生成システム。
前記第１のパラメータは、ドロップアウト層が設けられている前記学習済みモデルにおけるドロップアウト率であり、
前記軌道生成部は、複数の前記ドロップアウト率ごとに前記学習済みモデルを用いて軌道を生成することによって、複数の軌道を生成する、
請求項２又は３に記載の軌道生成システム。
前記第１のパラメータの互いに異なる複数の値をそれぞれ前記学習済みモデルに設定可能なパラメータ設定部、
をさらに有する請求項１から４のいずれか１項に記載の軌道生成システム。
環境内を移動する移動オブジェクトの軌道を生成する軌道生成方法であって、
前記移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得し、
予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成する、
軌道生成方法。
環境内を移動する移動オブジェクトの周囲の環境の特徴を示す環境特徴情報を取得するステップと、
予め機械学習によって生成され環境内を前記移動オブジェクトが移動可能な軌道を生成するために用いられる学習済みモデルに、前記移動オブジェクトの開始状態及び目標状態と前記環境特徴情報とを入力し、前記学習済みモデルに設定される変更可能な第１のパラメータの異なる複数の値それぞれについて、前記学習済みモデルを用いて軌道を生成するステップと、
をコンピュータに実行させるプログラム。