JP2022066086A

JP2022066086A - 軌道生成装置、軌道生成方法、及び軌道生成プログラム

Info

Publication number: JP2022066086A
Application number: JP2020175009A
Authority: JP
Inventors: 政志 ▲濱▼屋; Masaya Hamaya; 崇充松原; Takamitsu Matsubara
Original assignee: Omron Corp; Nara Institute of Science and Technology NUC; Omron Tateisi Electronics Co
Current assignee: Omron Corp; Nara Institute of Science and Technology NUC
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-28
Anticipated expiration: 2040-10-16
Also published as: WO2022080132A1; EP4230359A1; US20230339111A1; CN116323110A

Abstract

【課題】より高い成功率でタスクを達成するための目標軌道を生成することができる。【解決手段】軌道生成装置４０は、教示者によって教示される制御対象の一連の状態を表す軌道情報であって、制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得する取得部４２と、成功軌道情報に属する制御対象の状態と失敗軌道情報に属する制御対象の状態とから制御対象の状態についての成功クラスのクラスタを生成するクラスタリング部４４と、成功クラスのクラスタに基づいて、タスクを制御対象に実行させる際に制御目標として使用できる、制御対象の一連の状態を表す目標軌道情報を生成する生成部４６と、を備える。【選択図】図１１

Description

本発明は、軌道生成装置、軌道生成方法、及び軌道生成プログラムに関する。

物理的に柔軟な柔軟部を有するソフトロボットは、柔軟部を有しない硬いロボットに比べて安全な接触が可能であり、組立動作への応用が期待されている。

その一方で、柔軟さによるダイナミクスの複雑さから、手動で制御器を設計するのは困難である。

制御器の設計には学習（例えば強化学習）のアプローチが有効であるが、制御目的（報酬関数）の設計も難しい。なぜならば、硬いロボットと比べて、目標状態（位置）などに正確に追従することが困難だからである。

例えば、ロボットがペグを穴に挿入する挿入タスクにおいて、挿入位置の誤差を報酬関数とした場合、ペグが穴の上に到達しないまま差し込みを行ってしまったり、ペグを穴にフィットさせるときに、勢いが余ってオーバーシュートしてしまったりしてしまう場合がある。

非特許文献１には、ペグの挿入タスクを複数のサブタスクに区分化して、各区分の制御則を手動で設計する方法が開示されている。

また、非特許文献２には、ロボットの運動学習にモデルベース強化学習（ＧｕｉｄｅｄＰｏｌｉｃｙＳｅａｒｃｈ）を用いる方法が開示されている。この方法では、ロボットが学習中に経験してきた失敗軌道から遠ざかるように方策を更新する。

また、非特許文献３には、逆強化学習を用いて、教示者の成功軌道及び失敗軌道から報酬及び方策を学習する方法が開示されている。この方法では、方策及び報酬の更新の際に、失敗軌道から離れるような拘束を与える。

Nishimura et al., "Peg-in-hole under state uncertainties via a passive wrist joint with push-activate-rotation function," 2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids), pp 67-74, 2020. Esteban et al, "Learning Deep Robot Controllers by Exploiting Successful and Failed Executions," 2018 IEEE-RAS 18th International Conference on Humanoid Robots (Humanoids), pp 1-9, 2018. Shiarlis et al., "Inverse reinforcement learning from failure," International Conference on Autonomous Agents & Multiagent Systems, pp 1060-1068, 2016.

非特許文献１に開示の方法では、タスクに関する知識を十分に持った設計者しか複数のサブタスクへの区分化ができない、という問題があった。

また、非特許文献２に開示の方法では、タスクの失敗は学習中に初めてわかるので、どのような失敗をするかで性能が大きく変化する可能性がある、という問題があった。

また、非特許文献３に開示の方法では、更新した方策及び報酬の正しさを確認するために、方策及び報酬が与えられたときのエージェントの振る舞いのデータを繰り返し取得しなければならない、という問題があった。また、この方法は、離散状態空間表現でありシミュレーション上でしか扱っておらず、実機に適用できるとは限らない、という問題があった。

本発明は、上記の点に鑑みてなされたものであり、より高い成功率でタスクを達成するための目標軌道情報を生成することができる軌道生成装置、軌道生成方法、及び軌道生成プログラムを提供することを目的とする。

開示の第１態様は、軌道生成装置であって、教示者によって教示される制御対象の一連の状態を表す軌道情報であって、前記制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、前記タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得する取得部と、前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態とから前記制御対象の状態についての成功クラスのクラスタを生成するクラスタリング部と、前記成功クラスのクラスタに基づいて、前記タスクを前記制御対象に実行させる際に制御目標として使用できる、前記制御対象の一連の状態を表す目標軌道情報を生成する生成部と、を備える。

上記第１態様において、前記クラスタリング部は、混合ガウスモデルを用いたクラスタリング手法を適用するとともに、前記成功軌道情報及び前記失敗軌道情報に属する前記制御対象の状態同士の類似度を算出し、算出した類似度に基づいて、前記成功クラスのクラスタを生成するようにしてもよい。

上記第１態様において、前記制御対象の状態は、前記制御対象の位置又は前記制御対象の位置及び姿勢であり、前記クラスタリング部は、前記成功軌道情報及び前記失敗軌道情報に属する前記制御対象の各状態に含まれる位置又は位置及び姿勢から前記各状態における前記制御対象の速度を算出し、前記各状態における位置又は位置及び姿勢と前記各状態における速度とから前記類似度を算出するようにしてもよい。

上記第１態様において、前記クラスタリング部は、前記制御対象の状態同士の類似度を調整する調整パラメータにより前記類似度を調整するようにしてもよい。

上記第１態様において、前記クラスタリング部は、前記成功軌道情報に属する前記制御対象の状態同士の間の類似度が大きくなり、前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態との間の類似度が小さくなるように前記調整パラメータを設定するようにしてもよい。

上記第１態様において、前記生成部は、前記成功クラスのクラスタに対して混合ガウス回帰手法を適用して前記目標軌道情報を生成するようにしてもよい。

上記第１態様において、前記取得部は、さらに、教示すべき軌道を案内するための表示をさせるようにしてもよい。

開示の第２態様は、軌道生成方法であって、コンピュータが、教示者によって教示される制御対象の一連の状態を表す軌道情報であって、前記制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、前記タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得し、前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態とから前記制御対象の状態についての成功クラスのクラスタを生成し、前記成功クラスのクラスタに基づいて、前記タスクを前記制御対象に実行させる際に制御目標として使用できる、前記制御対象の一連の状態を表す目標軌道情報を生成する。

開示の第３態様は、軌道生成プログラムであって、コンピュータに、制御対象の動作が成功した場合の成功軌道に関する成功軌道情報と、前記制御対象の動作が失敗した場合の失敗軌道に関する失敗軌道情報と、を取得し、前記成功軌道情報及び前記失敗軌道情報に基づいて、前記成功軌道における前記制御対象の各位置及び前記失敗軌道における前記制御対象の各位置を、予め定めたクラスタリング手法により成功クラス及び失敗クラスにクラスタリングし、前記成功クラスにクラスタリングされた前記制御対象の位置に基づいて、前記制御対象の目標軌道に関する目標軌道情報を生成する処理を実行させる。

本発明によれば、より高い成功率でタスクを達成するための目標軌道情報を生成することができる。

ロボットシステムの構成図である。（Ａ）はロボット１０の概略構成を示す図、（Ｂ）はロボットのアームの先端側を拡大した図である。ペグの嵌め込み作業を構成する動作区分を説明するための図である。ロボット教示装置の構成図である。ハンド機構の三面図である。ハンド機構の斜視図である。ハンド機構を手で持った状態を示す図である。ハンド機構の指を閉じた状態を示す図である。ハンド機構の指を開いた状態を示す図である。軌道生成装置のハードウェア構成を示すブロック図である。軌道生成装置の機能ブロック図である。教示する軌道のガイド表示を示す図である。軌道生成処理のフローチャートである。成功クラスのクラスタ及び失敗クラスのクラスタについて説明するための図である。成功クラスのクラスタを示す図である。成功軌道情報及び失敗軌道情報を用いて生成された目標軌道と、成功軌道情報のみを用いて生成された目標軌道と、について説明するための図である。学習装置の機能ブロック図である。学習処理のフローチャートである。

以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

図１は、ロボット１０を制御するための学習モデルを学習するためのロボットシステム１の構成を示す。ロボットシステム１は、ロボット１０、ロボット教示装置２０、状態観測センサ１４、軌道生成装置４０、及び学習装置５０を有する。

（ロボット）

図２（Ａ）、図２（Ｂ）は、制御対象の一例としてのロボット１０の概略構成を示す図である。本実施形態におけるロボット１０は、６軸垂直多関節ロボットであり、アーム１１の先端１１ａに柔軟部１３を介してグリッパ（ハンド）１２が設けられる。ロボット１０は、グリッパ１２によって部品（例えばペグ）を把持して穴に嵌め込む嵌め込み作業を行う。

図２（Ａ）に示すように、ロボット１０は、関節Ｊ１～Ｊ６を備えた６自由度のアーム１１を有する。各関節Ｊ１～Ｊ６は、図示しないモータによりリンク同士を矢印Ｃ１～Ｃ６の方向に回転可能に接続する。ここでは、垂直多関節ロボットを例に挙げたが、水平多関節ロボット（スカラーロボット）であってもよい。また、６軸ロボットを例に挙げたが、５軸や７軸などその他の自由度の多関節ロボットであってもよく、パラレルリンクロボットであってもよい。

グリッパ１２は、１組の挟持部１２ａを有し、挟持部１２ａを制御して部品を挟持する。グリッパ１２は、柔軟部１３を介してアーム１１の先端１１ａと接続され、アーム１１の移動に伴って移動する。本実施形態では、柔軟部１３は各バネの基部が正三角形の各頂点になる位置関係に配置された３つのバネ１３ａ～１３ｃにより構成されるが、バネの数はいくつであってもよい。また、柔軟部１３は、位置の変動に対して復元力を生じて、柔軟性が得られる機構であればその他の機構であってもよい。例えば、柔軟部１３は、バネやゴムのような弾性体、ダンパ、空気圧または液圧シリンダなどであってもよい。柔軟部１３は、受動要素によって構成されることが好ましい。柔軟部１３により、アーム１１の先端１１ａとグリッパ１２は、水平方向および垂直方向に、５ｍｍ以上、好ましくは１ｃｍ以上、更に好ましくは２ｃｍ以上、相対移動可能に構成される。

グリッパ１２がアーム１１に対して柔軟な状態と固定された状態とを切り替えられるような機構を設けてもよい。

また、ここではアーム１１の先端１１ａとグリッパ１２の間に柔軟部１３を設ける構成を例示したが、グリッパ１２の途中（例えば、指関節の場所または指の柱状部分の途中）、アームの途中（例えば、関節Ｊ１～Ｊ６のいずれかの場所またはアームの柱状部分の途中）に設けられてもよい。また、柔軟部１３は、これらのうちの複数の箇所に設けられてもよい。

ロボットシステム１は、上記のように柔軟部１３を備えるロボット１０の制御を行うためのモデルを、機械学習（例えばモデルベース強化学習）を用いて獲得する。ロボット１０は柔軟部１３を有しているため、把持した部品を環境に接触させても安全であり、また、制御周期が遅くても嵌め込み作業などを実現可能である。一方、柔軟部１３によってグリッパ１２および部品の位置が不確定となるため、解析的な制御モデルを得ることは困難である。そこで、本実施形態では機械学習を用いて制御モデルを獲得する。

本実施形態では、一例として、ペグの嵌め込み作業という１つの作業（タスク）をロボット１０に教示するための軌道情報を、ロボット教示装置２０を用いて生成する。ペグの嵌め込み作業を複数の動作区分に分割して説明する。本実施形態では、ロボット教示装置２０を用いて、１の動作区分又は連続する複数の動作区分に対応する軌道情報を生成する。

図３を参照して、本実施形態におけるペグの嵌め込み作業を構成する動作区分について説明する。図３においては、５１はアーム先端、５２はグリッパ、５３は柔軟部、５４は把持対象物（ペグ）、５５は穴を表す。図３の、符号５６および５７はそれぞれ、各動作区分において考慮する状態および行動を示す。

ペグ嵌め込み作業全体の目的は、ペグ５４を穴５５に挿入することである。ペグの嵌め込み作業は、次の５つの動作区分に分割すると理解しやすい。
ｎ１：アプローチ
ｎ２：コンタクト
ｎ３：フィット
ｎ４：アライン
ｎ５：インサート

「ｎ１：アプローチ」は、グリッパ５２を任意の初期位置から穴５５付近まで接近させる動作である。「ｎ２：コンタクト」は、ペグ５４を穴５５付近の表面に接触させる動作である。柔軟部５３を固定モードと柔軟モードで切り替え可能な場合には、接触前に柔軟部５３を柔軟モードに切り替える。「ｎ３：フィット」は、ペグ５４が表面に接触した状態を保ったままペグ５４を移動させて、ペグ５４の先端が穴５５の先端に嵌まるようにする動作である。「ｎ４：アライン」は、ペグ５４の先端が穴５５に嵌まって接触している状態を保ったまま、ペグ５４の姿勢が穴５５の軸に平行（この例では鉛直）になるようにする動作である。「ｎ５：インサート」は、ペグ５４を穴５５の底まで挿入する動作である。

教示者は、後述するロボット教示装置２０を用いて上記の動作区分の内の１の動作区分又は連続する複数の動作区分に対応させて、ペグ５４の挿入が成功する動作及び失敗する動作を実行することにより、成功軌道及び失敗軌道の軌道情報を生成させる。

（ロボット教示装置）

図４に示すように、ロボット教示装置２０は、ハンド機構２１、状態検出部２２、出力部２４、入力部２８を含む。詳細は後述するが、状態検出部２２は、変位センサ２５ａ、２５ｂ、ＩＭＵ、及び触覚センサ２７ａ、２７ｂを備える。

図５には、ハンド機構２１の三面図を示した。また、図６には、ハンド機構２１の斜視図を示した。

図５、６に示すように、ハンド機構２１は、ハンドル３０と、ハンドル３０の一端に取り付けられた操作部３２と、を備える。ハンドル３０は、本実施形態では一例として円筒状である。

操作部３２は、操作対象を把持する２つの指３４ａ、３４ｂと、２つの指３４ａ、３４ｂを開閉可能な開閉機構３６と、を備える。

なお、本実施形態においては、指３４ａ、３４ｂは、図２における挟持部１２ａに対応する。また、指３４ａ、３４ｂが把持する操作対象は、図３におけるペグ５４に対応する。

指３４ａには、ベルト３８ａが取り付けられている。また、指３４ｂには、ベルト３８ａと同様のベルト３８ｂが取り付けられている。

図７に示すように、教示者としてのユーザは、ベルト３８ａに親指４０ａを挿入し、ベルト３８ｂに一差し指４０ｂを挿入し、残りの指でハンドル３０を握ることにより、ハンド機構２１を持つことができる。すなわち、ハンド機構２１は、ユーザが手持ち可能な形状となっている。

開閉機構３６は、本実施形態では一例として、指３４ａ、３４ｂを図４に示すハンド機構座標系におけるＸ軸方向に開閉可能に案内するリニアガイドであり、矩形枠３７に取り付けられている。

図８に示すように、ユーザが親指４０ａをベルト３８ａに挿入し、人差し指４０ｂをベルト３８ｂに挿入した状態で親指４０ａと人差し指４０ｂとの間を狭める動作を行うことにより、指３４ａ、３４ｂが開閉機構３６に沿ってＸ軸方向に移動し、指３４ａ、３４ｂを閉じることができる。

また、図９に示すように、ユーザが親指４０ａと人差し指４０ｂとの間を広げる動作を行うことにより、指３４ａ、３４ｂが開閉機構３６に沿ってＸ軸方向に移動し、指３４ａ、３４ｂを開くことができる。

状態検出部２２は、ハンド機構２１の位置又はハンド機構２１の位置及び姿勢をロボット１０の状態として検出する。状態検出部２２は、さらにハンド機構２１における複数の指３４ａ、３４ｂの位置を検出してもよい。

具体的には、状態検出部２２は、ハンド機構２１自体の位置及び姿勢を検出するＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ：慣性計測装置）２６を備える。ＩＭＵ２６は、図５等では図示は省略しているが、例えば矩形枠３７上に取り付けられる。ＩＭＵ２６は、直交する３軸方向の並進運動及び回転運動を検出する装置である。ＩＭＵ２６は、例えば加速度センサ及びジャイロセンサを含み、加速度センサにより並進運動を検出し、ジャイロセンサにより回転運動を検出する。

ＩＭＵ２６は、ハンド機構２１の位置、具体的には、ハンド機構２１の各軸方向の変位量を検出する。また、ＩＭＵ２６は、ハンド機構２１の姿勢、具体的には、ハンド機構２１の各軸方向に対する傾き角度を検出する。

なお、ロボット１０のグリッパ１２が鉛直方向下向きの姿勢を維持する動作を教示する場合のように、一定の姿勢を維持する動作を教示する場合には、ハンド機構２１の位置を検出できればよいため、ハンド機構２１の姿勢を検出するセンサは省略してもよい。

また、状態検出部２２は、指３４ａ、３４ｂの位置を検出する変位センサ２５ａ、２５ｂを備える。

変位センサ２５ａ、２５ｂは、開閉機構３６と矩形枠３７との間に設けられている。変位センサ２５ａは、指３４ａのＸ軸方向における位置、具体的には、例えば予め定めた基準位置（例えば指３４ａ、３４ｂを閉じた位置）からのＸ軸方向における変位量を検出する。同様に、変位センサ２５ｂは、指３４ｂのＸ軸方向における位置を検出する。変位センサ２５ａ、２５ｂには、一例としてポテンショメータやリニアエンコーダを用いることができるが、これに限られるものではない。

状態検出部２２は、指３４ａ、３４ｂが対称に動く構造になっている場合には、各指の位置を独立に検出せずに、指３４ａと指３４ｂとの間の間隔又はどちらか一方の指の位置だけを検出してもよい。その検出結果から、指３４ａ、３４ｂの位置を求めることができるので、このような検出をすることも複数の指の位置を検出することに含まれる。

また、状態検出部２２は、操作対象であるペグ５４を把持する側の指３４ａの表面に取り付けられた触覚センサ２７ａを備える。同様に、状態検出部２２は、ペグ５４を把持する側の指３４ｂの表面に取り付けられた触覚センサ２７ｂを備える。状態検出部２２は、触覚センサ２７ａ、２７ｂのいずれか一方だけを備えるようにしてもよい。

触覚センサ２７ａ、２７ｂは、指３４ａ、３４ｂがペグ５４を把持したときに触覚センサ２７ａ、２７ｂに接触したペグ５４から受ける押圧力を検出する。

出力部２４は、状態検出部２２により検出された一連の状態をロボット１０の軌道情報として出力する。例えば、ユーザがロボット教示装置２０を用いてロボット１０に教示すべき動作を行っている間に時系列でＩＭＵ２６により検出されたハンド機構２１の位置及び姿勢を含む軌道情報を出力する。具体的には、出力部２４は、例えば無線通信機能を備えた構成とし、軌道情報を軌道生成装置４０に送信する。また、出力部２４は、軌道情報を図示しないメモリに出力して記憶させるようにしてもよい。

出力部２４が出力する軌道情報には、変位センサ２５ａで検出された指３４ａ、３４ｂの位置を含めてもよく、さらに、触覚センサ２７ａ、２７ｂで検出された押圧力を含めてもよい。

入力部２８は、ユーザがタスクの成功又は失敗を入力するためのものである。例えば入力部２８として、ペグ５４を穴５５に挿入するタスクが成功したことを入力するための成功ボタン及びペグ５４を穴５５に挿入するタスクが失敗したことを入力するための失敗ボタンをハンド機構２１の矩形枠３７に設ける。そして、ユーザがロボット教示装置２０を用いて、ペグ５４を穴５５に挿入するタスクが成功した場合の動作を行った場合には成功ボタンを押下する。これにより、出力部２４は、生成された軌道情報を成功軌道情報として軌道生成装置４０に出力する。例えば、出力部２４は、成功を示す情報と軌道情報とを出力する。また、ペグ５４を穴５５に挿入するタスクが失敗した場合の動作を行った場合には失敗ボタンを押下する。この場合、出力部２４は、生成された軌道情報を失敗軌道情報として軌道生成装置４０に出力する。例えば、出力部２４は、失敗を示す情報と軌道情報とを出力する。

（状態観測センサ）

状態観測センサ１４は、ロボット１０の状態を観測し、観測したデータを状態観測データとして出力する。状態観測センサ１４としては、例えば、ロボット１０の関節のエンコーダ、視覚センサ（カメラ）、モーションキャプチャ等が用いられる。ロボット１０の状態として、各関節の角度からアーム１１の先端１１ａの位置及び姿勢が特定でき、視覚センサから部品（作業対象物）の姿勢が推定できる。モーションキャプチャ用のマーカーがグリッパ１２に取り付けられている場合には、ロボット１０の状態としてグリッパ１２の位置及び姿勢が特定でき、グリッパ１２の位置・姿勢から部品（作業対象物）の姿勢が推定できる。

また、視覚センサによっても、グリッパ１２自体やグリッパ１２が把持している部品の位置及び姿勢をロボット１０の状態として検出できる。グリッパ１２とアーム１１との間が柔軟部である場合、アーム１１に対するグリッパ１２の変位を検出する変位センサによってもアーム１１に対するグリッパ１２の位置及び姿勢をロボット１０の状態として特定することができる。

このように、各種のセンサによって、柔軟部１３、柔軟部１３よりも対象物を把持する側のロボット１０の部位、および把持されている部品の少なくとも何れかについての状態を検出することができ、各種センサの検出結果を状態観測データとして取得することができる。

状態観測データの例としては、ロボット１０の関節のエンコーダから取得される各関節の角度および角速度、ロボット１０のアームに取り付けられた視覚センサによって得られる画像、柔軟部１３に設けた変位センサによって測定される柔軟部１３を挟む部位の間の相対的な変位、モーションキャプチャによって測定されるグリッパ１２の位置及び姿勢が挙げられる。

関節エンコーダからのデータから、アーム１１の先端１１ａの位置、姿勢（角度）、速度、姿勢の変化についての角速度が求められる。なお、各時刻の位置及び姿勢（角度）が取得できればその時間変化（速度、角速度）は取得できるので、以下では時間変化が取得可能であることの言及は省略することもある。視覚センサからのデータによって、アーム１１に対するグリッパ１２および把持対象物の位置及び姿勢が求められる。

また、グリッパ１２にモーションキャプチャ用のマーカーが取り付けられている場合には、モーションキャプチャデータのみによってグリッパ１２の位置及び姿勢を取得できる。アームに対する把持対象物の位置及び姿勢は視覚センサを用いて求めてもよい。また、把持対象物にもマーカーが取り付けられていれば、把持対象物の位置及び姿勢も取得できる。

（軌道生成装置）

図１０は、本実施形態に係る軌道生成装置のハードウェア構成を示すブロック図である。図１０に示すように、軌道生成装置４０は、一般的なコンピュータ（情報処理装置）と同様の構成であり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０Ａ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４０Ｂ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０Ｃ、ストレージ４０Ｄ、キーボード４０Ｅ、マウス４０Ｆ、モニタ４０Ｇ、及び通信インタフェース４０Ｈを有する。各構成は、バス４０Ｉを介して相互に通信可能に接続されている。

本実施形態では、ＲＯＭ４０Ｂ又はストレージ４０Ｄには、軌道生成処理を実行するための軌道生成プログラムが格納されている。ＣＰＵ４０Ａは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄからプログラムを読み出し、ＲＡＭ４０Ｃを作業領域としてプログラムを実行する。ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄに記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。ＲＯＭ４０Ｂは、各種プログラム及び各種データを格納する。ＲＡＭ４０Ｃは、作業領域として一時的にプログラム又はデータを記憶する。ストレージ４０Ｄは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリにより構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。キーボード４０Ｅ及びマウス４０Ｆは入力装置の一例であり、各種の入力を行うために使用される。モニタ４０Ｇは、例えば、液晶ディスプレイであり、ユーザインタフェースを表示する。モニタ４０Ｇは、タッチパネル方式を採用して、入力部として機能してもよい。通信インタフェース４０Ｈは、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

次に、軌道生成装置４０の機能構成について説明する。

図１１に示すように、軌道生成装置４０は、その機能構成として、取得部４２、クラスタリング部４４、及び生成部４６を有する。各機能構成は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された軌道生成プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行することにより実現される。なお、一部または全部の機能は専用のハードウェア装置によって実現されても構わない。

取得部４２は、教示者によって教示される制御対象の一連の状態を表す軌道情報であって、制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得する。本実施形態では、制御対象はロボット１０、特にそのグリッパ１２であり、制御対象の状態は、少なくともグリッパ１２の位置を含む。グリッパ１２の位置は、一般に３自由度の値で表されるが、グリッパ１２が把持している対象物が平面に接触している場合のように運動の１自由度が拘束されている場合には、拘束されている１自由度を固定値として、残りの２自由度の値を実質的な軌道情報としてもよい。グリッパ１２の位置は、ＴＣＰ（ツール・センタ・ポイント）の位置で代表させてもよい。また、グリッパ１２の姿勢が変化する場合には、制御対象の状態は、グリッパ１２の姿勢（例えば３自由度の値で表される）を含むことが好ましい。さらに、グリッパ１２の指３４ａ、３４ｂの位置を含んでもよい。このように、軌道情報は、制御対象の３次元空間内の位置情報又は位置情報及び姿勢情報に限らず、制御対象の状態に関するより多くの次元の情報を含んでもよい。

教示者は、ロボット教示装置２０を用いてロボット１０が行うタスクの開始から終了まで、又はその一部についての軌道情報を生成させる。ロボット１０が行うタスクは、本実施形態では一例としてグリッパ１２によってペグを把持して穴に嵌め込む嵌め込み作業であるが、これに限られるものではない。

教示者は、ロボット教示装置２０を用いてロボット１０が行うタスクが成功する動作及び失敗する動作を実行することにより、成功軌道及び失敗軌道の軌道情報を生成させる。

具体的には、教示者は、ロボット教示装置２０を用いて、ペグ５４を穴５５に挿入するタスクが成功する動作を少なくとも１回行って成功軌道情報を生成させる。また、教示者は、ロボット教示装置２０を用いて、ペグ５４を穴５５に挿入するタスクが失敗する動作を少なくとも１回行って失敗軌道情報を生成させる。タスクが失敗する動作については、複数回行って複数の失敗軌道情報を生成することが好ましい。この場合、例えば穴５５に向かう方向と異なる方向にペグ５４を移動させる軌道や、穴５５の上をペグ５４が通り過ぎてしまう軌道等、様々な軌道でロボット教示装置２０を動かして複数の失敗軌道情報を生成することが好ましい。特に、穴５５の近傍で挿入を失敗する軌道の失敗軌道情報を生成することが好ましい。

取得部４２は、教示すべき軌道を案内するための表示をさせてもよい。例えば、教示者がどのような成功軌道及び失敗軌道を教示させるべきかをモニタ４０Ｇ又は軌道生成装置４０の外部にある表示装置に表示させ、教示者による教示を支援するようにしてもよい。

図１２は、教示すべき軌道のガイド表示を示す図である。図１２では、モニタ４０Ｇの画面４０Ｇ１に穴５５を有する円形で一定の厚みを有する部品Ｐが表示されている。部品Ｐの画像は、部品Ｐを撮影した画像又は部品ＰのＣＡＤデータに基づいて作成される。あるいは、「ペグを穴に挿入するタスク」というタスクの種類が指定されることに基づいて、部品Ｐの外形を表示することなく穴を示す図形だけを表示してもよい。このようにすれば部品Ｐの形状についての情報を取得する必要がない。図１２（Ａ）では、さらに成功軌道のガイド表示である１つの矢線と矢線に沿えてＳの文字が表示されている。この成功軌道のガイド表示によって示される成功軌道を成功軌道Ｓとよぶ。図１２（Ｂ）では、さらに失敗軌道のガイド表示である４つの矢線と各矢線に沿えてＦ１、Ｆ２、Ｆ３又はＦ４の文字が表示されている。これらの失敗軌道のガイド表示によって示される各失敗軌道を失敗軌道Ｆ１、Ｆ２、Ｆ３、Ｆ４とよぶ。軌道を示す矢線は曲線であってもよい。また、ペグ５４が部品Ｐに接触する前の軌道も含めて、教示すべき軌道を立体的に把握できるように表示してもよい。

図１２（Ａ）の成功軌道のガイド表示は、ロボット教示装置２０で把持したペグ５４を矢線の始点付近で部品Ｐに接触させ、接触を維持したままペグ５４を矢線の終点に向かって移動させ、穴５５への挿入を実行することを案内している。もっとも、このような図による表示をしなくても教示者にとってタスクを成功させることが容易であると考えられる場合には、「ペグを穴に挿入してください。」又は「ペグを穴の手前で部品に接触させた後、ペグを穴に挿入してください。」のようにタスクを実行することを文字で要求するだけのガイド表示をしてもよい。

図１２（Ｂ）の失敗軌道のガイド表示は、ロボット教示装置２０で把持したペグ５４を各矢線の始点付近で部品Ｐに接触させ、接触を維持したままペグ５４を各矢線の終点に向かって移動させ、穴５５への挿入を実行することを案内している。例えば、失敗軌道Ｆ１については、矢線の始点である穴５５の手前でペグ５４を部品Ｐに接触させ、その後接触を維持したまま穴５５を超えた反対側までペグ５４の先端を移動させることを案内している。同様に、失敗軌道Ｆ２については穴５５とは反対側に、失敗軌道Ｆ３については穴５５の左側に逸れて、失敗軌道Ｆ４については穴５５の右側に逸れて、それぞれペグ５４を移動させることを案内している。

このように、成功軌道又は失敗軌道のガイド表示に従ってロボット教示装置２０の操作を行わせる場合には、軌道生成装置４０においてロボット教示装置２０から取得する軌道が成功軌道か失敗軌道かがあらかじめ判明しているため、ロボット教示装置２０の成功ボタン、失敗ボタンを使用する必要はない。

図１１のクラスタリング部４４は、成功軌道情報に属するロボット１０の状態と失敗軌道情報に属するロボット１０の状態とからロボット１０の状態についての成功クラスのクラスタを生成する。

クラスタリング部４４は、例えば混合ガウスモデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いたクラスタリング手法を適用するとともに、成功軌道情報及び失敗軌道情報に属するロボット１０の状態同士の類似度を算出し、算出した類似度に基づいて、成功クラスのクラスタを生成してもよい。

また、クラスタリング部４４は、成功軌道情報及び失敗軌道情報に属するロボット１０の各状態に含まれる位置又は位置及び姿勢から各状態におけるロボット１０の速度を算出し、各状態における位置又は位置及び姿勢と各状態における速度とから類似度を算出してもよい。

クラスタリング部４４は、ロボット１０の状態同士の類似度を調整する調整パラメータにより類似度を調整してもよい。

クラスタリング部４４は、成功軌道情報に属するロボット１０の状態同士の間の類似度が大きくなり、成功軌道情報に属するロボット１０の状態と失敗軌道情報に属するロボット１０の状態との間の類似度が小さくなるように調整パラメータを設定してもよい。

生成部４６は、成功クラスのクラスタに基づいて、タスクをロボット１０に実行させる際に制御目標として使用できる、ロボット１０の一連の状態を表す目標軌道情報を生成する。

また、生成部４６は、成功クラスのクラスタに対して混合ガウス回帰手法（ＧＭＲ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＲｅｇｒｅｓｓｉｏｎ）を適用して目標軌道情報を生成してもよい。

（軌道生成処理）

図１３は、軌道生成装置４０が目標軌道情報を生成する軌道生成処理のフローチャートである。

なお、図１３に示す処理に先立ち、ユーザは、ロボット教示装置２０を用いて成功軌道情報を少なくとも１つ生成させると共に、失敗軌道情報を少なくとも１つ生成させる。ロボット教示装置２０は、生成した成功軌道情報及び失敗軌道情報を軌道生成装置４０に送信する。

一般的な模倣学習では、教示された成功軌道を表す成功軌道情報のみを用いてロボットの動作を学習する。しかしながら、柔軟なロボットを使用したときや、教示のための装置とロボットのキネマティクス又はダイナミクスが異なるとき、教示された成功軌道を必ずしもロボットが正確に追従できるとは限らない。また、成功軌道のみに過適合された軌道を追従することは、タスクの失敗を招く虞もある。

このため、本実施形態では、ロボット１０が行うタスクにおける動作を学習する際に用いる目標軌道情報を、成功軌道情報だけでなく失敗軌道情報も用いて生成する。これにより、失敗軌道を避けるような目標軌道の目標軌道情報が生成される。

ステップＳ１００では、ＣＰＵ４０Ａが、取得部４２として、成功軌道情報及び失敗軌道情報をロボット教示装置２０から取得する。

ステップＳ１０２では、ＣＰＵ４０Ａが、クラスタリング部４４として、成功軌道情報に属するロボット１０の状態と失敗軌道情報に属するロボット１０の状態とからロボット１０の状態についての成功クラスのクラスタを生成する。

本実施形態では、混合ガウスモデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、以下ＧＭＭ）を用いたクラスタリング手法を適用して成功クラスのクラスタを生成する。ＧＭＭは、データセットを複数のガウス分布の重ね合わせで表現する。しかしながら、一般的なＧＭＭの手法では表現能力が低く、成功軌道及び失敗軌道の切り分けが困難であるという問題点がある。

また、成功軌道情報及び失敗軌道情報の各軌道情報から成功クラスのクラスタを生成するために、各軌道情報に最も当てはまるようなガウス分布（クラスタ）の数、各ガウス分布の平均や分散、並びに各ガウス分布を重ね合わせる場合の重みを計算する必要がある。

そこで、本実施形態では、より明確に成功軌道及び失敗軌道を分類すると共に、クラスタの数等を自動的に求めるために、下記参考文献１に記載されたＰＣ－ＧＭＭ（Ｐｈｙｓｉｃａｌｌｙ－ＣｏｎｓｉｓｔｅｄＧＭＭ）を使用する。

（参考文献１）
FIGUEROA, Nadia; BILLARD, Aude. "A Physically-Consistent Bayesian Non-Parametric Mixture Model for Dynamical System Learning." In: CoRL. 2018. p. 927-946.

ステップＳ１０２では、ステップＳ１００で取得した成功軌道情報及び失敗軌道情報の各々についてＰＣ－ＧＭＭを適用し、成功クラスのクラスタを生成する。

本実施形態では、最適なガウス分布の数を生成するために、ＰＣ－ＧＭＭを用いて、成功軌道情報及び失敗軌道情報に属するロボット１０の状態同士の類似度を算出し、算出した類似度に基づいて、成功クラスのクラスタを生成する。

また、本実施形態では、ロボット１０の状態ｉ，ｊ同士の類似度を調整する調整パラメータηにより類似度を調整する。具体的には、次式により類似度Δを算出する。

・・・（２）

ここで、ｘはロボット１０の位置である。また、

はロボット１０の速度である。また、ｌは尺度パラメータである。

すなわち、ステップＳ１０２では、成功軌道情報及び失敗軌道情報に属するロボット１０の各状態に含まれる位置及び姿勢から各状態におけるロボット１０の速度を算出し、各状態における位置及び姿勢と各状態における速度とから類似度Δを算出する。

この類似度Δに基づいて、成功軌道情報及び失敗軌道情報に含まれるロボット１０の各状態をどのクラスタに割り当てるかが決められる。

ロボット１０の位置及び速度に基づく類似度を用いることにより、従来の一般的なＧＭＭを用いた手法と比較して、ロボット１０の状態を正確に表現することができる。

さらに、本実施形態では、成功軌道と失敗軌道とをより明確に分けるため、上記（２）式に示すように、ロボット１０の状態ｉ，ｊ同士の類似度を調整する調整パラメータηを用いて類似度Δを調整する。

本実施形態では、成功軌道情報に属するロボット１０の状態同士の間の類似度が大きくなり、成功軌道情報に属するロボット１０の状態と失敗軌道情報に属するロボット１０の状態との間の類似度が小さくなるように調整パラメータηを設定する。

具体的には、２組の状態が成功軌道同士の場合は一例としてη＝１．０に設定し、２組の状態が成功軌道及び失敗軌道の場合は一例としてη＝０．０１とする。これにより、成功軌道情報に属する状態と失敗軌道情報に属する状態とが別のクラスタにクラスタリングされやすくなる。従って、成功クラスを表すクラスタと失敗クラスを表すクラスタとが明確に分離されやすくなる。

図１４～１６のグラフの縦軸はロボット教示装置２０の位置、横軸は時間である。ここで、ロボット教示装置２０の位置は、図１２の各軌道の開始位置から穴５５の中心に向かう方向の成分を表しており、図１２において上に向かう方向が図１４～１６において下に向かう方向に対応している。図１４～１６には、時間の経過に伴うロボット教示装置２０の位置の測定値がプロットされている。図中のｓｕｃｃｅｓｓｆｕｌの点は成功軌道を教示したときの測定値（成功軌道情報）、ｆａｉｌｅｄの点は失敗軌道を教示したときの測定値（失敗軌道情報）である。図１４～１６には、さらに、成功クラスのクラスタＣＳと失敗クラスのクラスタＣＦがそれぞれ楕円で示されている。成功クラスのクラスタＣＳ及び失敗クラスのクラスタＣＦは、成功軌道情報及び失敗軌道情報についてＰＣ－ＧＭＭを適用して生成した。実際のクラスタはガウス分布に従う値の分布で表現されており、図示されている楕円はクラスタの値の等高線を示している。図１５は、図１４から成功軌道情報及び成功クラスのクラスタＣＳを抽出して示している。

図１４において、最初の時間帯では成功軌道がグラフの下方（図１２の上方）に向かっている。この部分は、図３のフィットに対応するロボット教示装置２０の動きを表している。図１４における成功軌道の最下点はフィットの終了状態に対応しており、このとき、ペグ５４の先端が穴５５に引っかかってペグ５４の姿勢はわずかに傾いており、ロボット教示装置２０は穴５５の真上をわずかに通り過ぎている。その後の、成功軌道がグラフの上方（図１２の下方）に向かって変化している部分は、図３のアラインに対応している。この部分では、ロボット教示装置２０の移動方向が反転して、ペグ５４の姿勢が垂直に引き起こされる。図１４の後半の成功軌道の位置の変化が少ない部分は、図３のインサートに対応している。この部分では、成功軌道は穴の軸方向に向かっているので、図１４の縦方向が表している位置成分はほとんど変化しない。

図１４において、成功軌道よりも上方の失敗軌道及び失敗クラスのクラスタＣＦは、図１２の失敗軌道Ｆ２のように、ロボット教示装置２０を穴５５に向かう方向とは反対方向に動かした場合の結果である。また、成功軌道よりも下方の失敗軌道及び失敗クラスのクラスタＣＦは、図１２の失敗軌道Ｆ３及びＦ４のように、ロボット教示装置２０を穴５５に向かう方向から左又は右にそれた方向に動かした場合の結果である。

図１６の左側の図は、成功軌道情報及び失敗軌道情報の両方から生成された成功クラスのクラスタＣＳと、成功軌道情報及び失敗軌道情報の両方から生成された失敗クラスのクラスタＣＦとを示している。また、図１６の中央の図は、成功軌道情報のみから生成された成功クラスのクラスタＣＳを示している。また、図１６の右側の図は、図１６の左側の図に示される成功クラスのクラスタＣＳにＧＭＲを適用して生成した目標軌道Ｋ１（ｓｕｃｃｅｓｓａｎｄｆａｉｌｕｒｅ）と、図１６の中央の図に示される成功クラスのクラスタＣＳにＧＭＲを適用して生成した目標軌道Ｋ２（ｓｕｃｃｅｓｓｏｎｌｙ）と、を示している。図１６に示されるように、目標軌道Ｋ２と比較して、目標軌道Ｋ１の方が急激な変化が少ない軌道になっていることがわかる。このことは、目標軌道Ｋ１の方が最大加速度が小さくて済むことを意味する。目標軌道Ｋ１の方が、成功軌道情報のみに過適合していないと評価できる。

図１３のステップＳ１０４では、ＣＰＵ４０Ａが、生成部４６として、成功クラスのクラスタＣＳに基づいて、タスクをロボット１０に実行させる際に制御目標として使用できる、ロボット１０の一連の状態を表す目標軌道情報を生成する。具体的には、成功クラスのクラスタＣＳに対してＧＭＲを適用して目標軌道情報を生成する。ＧＭＲにより得られるのはガウス分布で表された位置の時間変化であるが、制御目標としては位置の分布の最大値又は平均値の時間変化を用いることができる。ここでは１次元の位置情報についてだけ説明したが、実際には多次元の成功軌道情報及び失敗軌道情報に基づいて多次元の目標軌道情報が生成される。

ステップＳ１０６では、ステップＳ１０４で生成した目標軌道情報を修正する。ステップＳ１０４で生成した目標軌道情報は、ロボット教示装置２０の軌道（例えば位置及び姿勢）を表しているため、ロボット１０の軌道に修正（変換）する必要がある。そこで、ステップＳ１０６では、例えばペグ５４が穴５５に挿入された状態におけるロボット１０の位置及び姿勢と、ロボット教示装置２０の位置及び姿勢との差分をオフセットとして、ステップＳ１０４で生成された目標軌道情報を修正する。

なお、本実施形態では、タスクの実行中においてグリッパ１２に対するペグ５４の位置にばらつきがない場合を前提としているが、実際にはペグ５４を把持する毎にグリッパ１２に対するペグ５４の位置が異なりうる。この場合、外部カメラで撮影した画像に基づいてグリッパ１２に対するペグ５４の位置を算出し、算出した位置に基づいて目標軌道情報を修正してもよい。

（学習装置）

学習装置５０は、機械学習を用いてロボット１０の学習モデルを獲得する。本実施形態では教師データなしで試行錯誤により学習が行える強化学習として、特にデータ効率の高いモデルベース機械学習を用いる。

学習装置５０によって獲得された学習モデル（学習済みモデル）は、ロボット１０を制御する制御装置に搭載されて、実作業に供される。この制御装置は、学習機能を有していてもよく、その場合には追加の学習を行ってもよい。

本実施形態では、ロボット１０が柔軟部１３を有しているため、複雑な力制御を行うことなく、グリッパ１２または対象物を環境に接触させながら動作することが容易である。また、あまり減速せずにグリッパまたは対象物を環境に接触させることが可能であるので、高速な作業ができる。また、機械学習によって学習モデルを獲得するため、簡便にシステム構築が行える。

図１７に示すように、学習装置５０は、記憶部６１、モデル更新部６２、学習モデル６３、報酬算出部６４、及び行動決定部６５を備える。

記憶部６１は、状態観測センサ１４により計測されたロボット１０の状態に関する状態観測データ及び行動決定部６５から出力された速度指令値を記憶する。

モデル更新部６２は、記憶部６１に記憶されている状態観測データ及び速度指令値の中から、ある時刻ｔの状態ｘ_ｔの状態観測データと、速度指令値ｕ_ｔと、次の時刻ｔ＋１における状態ｘ_ｔ＋１の状態観測データと、を１組の計測データとして、ランダムに選んだ複数の時刻ｔにおける複数組（例えば３００組）の計測データを取得する。

そして、取得した複数組の計測データから、ある時刻ｔにおいて計測された状態ｘ_ｔ及び速度指令値ｕ_ｔから学習モデル６３が求めた時刻ｔ＋１における状態ｘの予測値ｆ（ｘ_ｔ、ｕ_ｔ）と時刻ｔ＋１において計測された状態ｘ_ｔとの誤差が最小となることを目標として、制御周期毎に学習モデル６３のモデルパラメータを更新する。このように、所謂勾配法（ｇｒａｄｉｅｎｔｍｅｔｈｏｄ）を用いてモデルパラメータの更新を行い、更新したモデルパラメータを学習モデル６３に出力する。モデルパラメータの更新は、１つの制御周期内で制御周期の開始時に他の処理に先立って１回又は複数回行う。なお、モデルパラメータの更新は、上記の計測データの組が十分多く収集できている場合には、制御周期毎ではなくタスク開始前に行ってもよい。例えばペグを穴に挿入するタスクのような同じタスクを繰り返し実行する場合には、一つのタスクの実行を終了してから次のタスクの実行を開始するまでの間にモデルパラメータの更新を行ってもよい。別の例として、特定のタスクが実行できるようになるまでの試行動作中にモデルパラメータの更新を完了させ、タスクの本番実行を開始した後はモデルパラメータの更新を行わないようにしてもよい。

学習モデル６３としては、例えば状態遷移モデルが用いられる。状態遷移モデルは、状態ｘ_ｔと、そのときのロボット１０の行動である速度指令値ｕ_ｔと、を入力として、行動後の次の状態ｘ_ｔ＋１を出力するモデルである。

学習モデル６３には、行動決定部６５からｎ個の速度指令値の候補が入力され、ｎ個の状態の予測値を生成し、報酬算出部６４へ出力する。

報酬算出部６４は、学習モデル６３から出力されたｎ個の状態の予測値ｆ（ｘ_ｔ、ｕ_ｔ）のそれぞれについて、次式により報酬値ｒ_ｔ＋１を算出し、行動決定部６５へ出力する。

ｒ_ｔ＋１＝－（ｘｄ_ｔ＋１－ｆ（ｘ_ｔ、ｕ_ｔ））^２・・・（１）

ここで、ｘｄはロボット１０の状態の目標値、すなわちロボット１０の位置及び姿勢を表す６次元の値の目標値である。目標値は、軌道生成装置４０により生成された目標軌道情報から得られる。また、ｆは学習モデルを表す関数であり、ｆ（ｘ_ｔ、ｕ_ｔ）はロボット１０の位置及び姿勢を表す６次元の値の予測値である。

なお、学習モデル６３は、次の時刻ｔ＋１、すなわち次の時間ステップ（制御周期）における予測値を出力するが、複数ステップ先までの予測値を出力してもよい。そして、報酬算出部６４は、各予測値と各予測値に対応する目標値とから各時間ステップの報酬値ｒを求め、その総和である報酬値Ｒを出力するようにしてもよい。

行動決定部６５は、ｎ個の速度指令値の候補とそのそれぞれに対応する報酬値ｒ又は報酬値Ｒとの関係に基づいて、報酬値を最大化できる速度指令値を求め、その速度指令値をロボット１０に出力する。本実施形態では一例として所謂クロスエントロピー法（ｃｒｏｓｓ－ｅｎｔｒｏｐｙｍｅｔｈｏｄ：ＣＥＭ）を用いて、報酬値を最大化できる速度指令値を特定し、ロボット１０に出力する。

なお、記憶部６１にデータが十分蓄積されていない学習初期の状態では、学習モデル６３を使用せず、また行動決定部６５における行動の決定に報酬値を使用しなくてもよい。この場合、行動決定部６５からランダムな速度指令値をロボット１０に出力し、その結果として計測された状態観測データを収集することを制御周期毎に繰り返し、状態観測データがある程度収集できた時点からモデルパラメータの更新を開始するようにしてもよい。

（学習処理）

図１８は、機械学習を用いて学習装置５０が学習モデル６３を学習する学習処理の流れを示すフローチャートである。

以下で説明するステップＳ２００～ステップＳ２１４の処理は、制御周期に従って一定の時間間隔で実行される。

ステップＳ２００では、モデル更新部６２が、学習モデルを更新する。具体的には、まず記憶部６１に記憶されている中からランダムに選んだ例えば１００個の時刻ｔについての状態（位置及び姿勢）ｘ_ｔ、速度指令値ｕ_ｔ、状態ｘ_ｔ＋１の組を取得する。なお、状態ｘ_ｔ＋１は、選択した時刻ｔの次の時刻であるｔ＋１について記憶されている、計測された状態である。

次に、前回のモデルパラメータを修正した新たなモデルパラメータを決定する。モデルパラメータの修正は、状態ｘ_ｔ＋１と予測値ｆ（ｘ_ｔ、ｕ_ｔ）との誤差が最小となることを目標として行う。

そして、新たなモデルパラメータを学習モデル６３に設定する。新たなモデルパラメータは、次の制御周期において「前回のモデルパラメータ」として使用するためにモデル更新部６２内に記憶する。

ステップＳ２０２では、行動決定部６５が、ｎ個（例えば３００個）の速度指令値候補をランダムに生成し、学習モデル６３に出力する。

ステップＳ２０４では、学習モデル６３が、ステップＳ２０２で生成されたｎ個の速度指令値候補に対応するｎ個の状態の予測値を生成して報酬算出部６４に出力する。

ステップＳ２０６では、報酬算出部６４が、ステップＳ２０４で生成したｎ個の状態の予測値の各々についての報酬値を算出する。

ステップＳ２０８では、本ルーチンを所定回数（例えば２回）ループしたか否かを判定し、所定回数ループしていない場合はステップＳ２１０へ移行し、所定回数ループした場合はステップＳ２１２へ移行する。

ステップＳ２１０では、行動決定部６５が、ｎ組の速度指令値候補及び報酬値から報酬値が上位である速度指令値候補をｍ個抽出する。なお、ｍはｎの３０％程度の値（例えば１００）に設定される。そして、抽出したｍ個の速度指令値候補の平均及び分散を算出し、正規分布を生成する。次に、生成した正規分布と確率密度が一致する新しいｎ個の速度指令値候補を生成する。その後、ステップＳ２０４に戻り、そこではステップＳ２１０で生成されたｎ個の速度指令値候補が用いられる。

ステップＳ２１２では、状態観測センサ１４から、前回の速度指令の結果である現在の計測された状態ｘを取得し、記憶部６１に記憶する。

ステップＳ２１４では、行動決定部６５が、報酬値を最大化できる速度指令値ｕをロボット１０に出力すると共に、記憶部６１に記憶する。

このように、本実施形態では、ロボット１０が行うタスクにおける動作を学習する際に用いる目標軌道情報を、成功軌道情報だけでなく失敗軌道情報も用いて生成する。これにより、失敗軌道を避けるような、また成功軌道情報のみに過適合していない目標軌道についての目標軌道情報が生成される。そして、このようにして生成された目標軌道情報を用いてロボット１０を制御するため、より高い成功率でタスクを達成することができる。

上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

上各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した軌道生成処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、軌道生成処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、軌道生成プログラムがストレージ４０Ｄ又はＲＯＭ４０Ｂに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

１ロボットシステム
１０ロボット
１１アーム
１２グリッパ
１３柔軟部
１４状態観測センサ
２０ロボット教示装置
４０軌道生成装置
４２取得部
４４クラスタリング部
４６生成部
５０学習装置

Claims

教示者によって教示される制御対象の一連の状態を表す軌道情報であって、前記制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、前記タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得する取得部と、
前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態とから前記制御対象の状態についての成功クラスのクラスタを生成するクラスタリング部と、
前記成功クラスのクラスタに基づいて、前記タスクを前記制御対象に実行させる際に制御目標として使用できる、前記制御対象の一連の状態を表す目標軌道情報を生成する生成部と、
を備えた軌道生成装置。
前記クラスタリング部は、混合ガウスモデルを用いたクラスタリング手法を適用するとともに、前記成功軌道情報及び前記失敗軌道情報に属する前記制御対象の状態同士の類似度を算出し、算出した類似度に基づいて、前記成功クラスのクラスタを生成する
請求項１記載の軌道生成装置。
前記制御対象の状態は、前記制御対象の位置又は前記制御対象の位置及び姿勢であり、
前記クラスタリング部は、前記成功軌道情報及び前記失敗軌道情報に属する前記制御対象の各状態に含まれる位置又は位置及び姿勢から前記各状態における前記制御対象の速度を算出し、前記各状態における位置又は位置及び姿勢と前記各状態における速度とから前記類似度を算出する、
請求項２記載の軌道生成装置。
前記クラスタリング部は、前記制御対象の状態同士の類似度を調整する調整パラメータにより前記類似度を調整する
請求項２又は請求項３記載の軌道生成装置。
前記クラスタリング部は、前記成功軌道情報に属する前記制御対象の状態同士の間の類似度が大きくなり、前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態との間の類似度が小さくなるように前記調整パラメータを設定する
請求項４記載の軌道生成装置。
前記生成部は、前記成功クラスのクラスタに対して混合ガウス回帰手法を適用して前記目標軌道情報を生成する
請求項２～５の何れか１項に記載の軌道生成装置。
前記取得部は、さらに、教示すべき軌道を案内するための表示をさせる
請求項１～６の何れか１項に記載の軌道生成装置。
コンピュータが、
教示者によって教示される制御対象の一連の状態を表す軌道情報であって、前記制御対象が行うタスクが成功する場合の軌道情報である成功軌道情報と、前記タスクが失敗する場合の軌道情報である失敗軌道情報と、を取得し、
前記成功軌道情報に属する前記制御対象の状態と前記失敗軌道情報に属する前記制御対象の状態とから前記制御対象の状態についての成功クラスのクラスタを生成し、
前記成功クラスのクラスタに基づいて、前記タスクを前記制御対象に実行させる際に制御目標として使用できる、前記制御対象の一連の状態を表す目標軌道情報を生成する
処理を実行する軌道生成方法。
コンピュータに、
制御対象の動作が成功した場合の成功軌道に関する成功軌道情報と、前記制御対象の動作が失敗した場合の失敗軌道に関する失敗軌道情報と、を取得し、
前記成功軌道情報及び前記失敗軌道情報に基づいて、前記成功軌道における前記制御対象の各位置及び前記失敗軌道における前記制御対象の各位置を、予め定めたクラスタリング手法により成功クラス及び失敗クラスにクラスタリングし、
前記成功クラスにクラスタリングされた前記制御対象の位置に基づいて、前記制御対象の目標軌道に関する目標軌道情報を生成する
処理を実行させる軌道生成プログラム。