JP5361756B2

JP5361756B2 - 模倣学習のためのタスク固有の表現の自動選択を備えたロボット

Info

Publication number: JP5361756B2
Application number: JP2010025636A
Authority: JP
Inventors: ミヒャエル・ギーンゲル; マヌエル・ミューリグ; ヨッヒェン・シュタイル
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2009-02-27
Filing date: 2010-02-08
Publication date: 2013-12-04
Anticipated expiration: 2030-02-08
Also published as: EP2224303A1; EP2224303B1; US8571714B2; JP2010201611A; DE602009000644D1; US20100222924A1

Description

本発明は、概して、自律型ロボットに関する。また、本発明は、ロボットによる模倣学習プロセスを向上させるための方法に関する。

本発明は、動き模倣データの適切なタスク固有の表現を自律的に選択するためのメカニズムを提供し、それによって、このようなシステムの自律性を向上させる。自律的な選択は、統計的な意思決定、教師とのインタラクション、モデルに基づく事前知識のような、複数の統合化されたキュー（合図）によって駆動されることができる。

“模倣学習”は、自律型ロボットの分野の当業者には周知の用語であり、その説明は下記の非特許文献に見つけることができる。

Bekey著、「Autonomous robots」、The MIT press、２００５年、第６．１２章

本発明の目的は、ロボットの、動きの模倣学習を、より効率的なものにすることである。

本発明の目的は、独立請求項の特徴によって達成される。従属請求項は、さらに、本発明の主要なアイデアを発展させるものである。

本発明の第１の側面によると、ロボットの、動きの模倣学習のための方法が提供される。ここで、ロボットは、次のステップを実行する：
−ロボットの環境におけるエンティティの動きを観察すること、
−感覚(sensorial)データストリームを用いて該観察した動きを記録し、該記録した動きを、異なるタスク空間表現(task space representation)で表現すること、および、
−上記の模倣学習のために該タスク空間表現の一部を選択して、模倣されるべき該動きの再現を行うこと。

タスク空間表現の一部を選択するステップは、該ロボットが、該感覚データストリームから抽出するキューを用いることができる。

また、タスク空間表現の一部を選択するステップは、該動きの複数の実演にわたる変動(variance)を用いることができる。ここで、該観察によって試行間の変動がもっと低いとされたタスク空間表現が、選択される。

タスク空間表現の一部を選択するステップは、注意(attention)に基づく方法を用いてもよい。

タスク空間表現の一部を選択するステップは、人間の教師の運動ないし動的なシミュレーションを用いることができる。

上記の選択するステップのタスク要素を、タスクの実演中に教師の、たとえば既定（デフォルト）の姿勢からのずれのような不快性(discomfort)、かつ、エフェクタのジョイント（関節）のトルクに基づくような努力性(effort)、を介して定義することができる。

タスク空間の選択は、ロボットの動き再現プロセスに影響することができる。

本発明は、また、コンピュータプログラム製品に関し、これは、ロボットのコンピューティング・デバイス上で稼動するときに上記のような方法を実行する。

本発明は、さらに、そのような方法を実行するよう設計されたコンピューティング・ユニットを有するロボットに関し、好ましくは、人間型ロボットに関する。

ロボットは、産業用ロボットでもよく、これは、模倣学習によって作業工程のシーケンスを学習する。

添付の図面とともに好ましい実施形態の以下の記載を参照すれば、当業者にとって、さらなる利点、目的、および特徴は明らかである。

ロボットのコンピューティング・ユニットの一部である、タスク空間選択ユニットを示す図である。特定のタスク空間の重要性を表す適合値を表す図である。

たとえばホンダのアシモ（ＡＳＩＭＯ）ロボットのような人間型ロボット（Ｂｅｋｅｙの第１３章を参照）や産業用ロボットのように、多数の自由度を備えるロボットが、たとえば人間の教師のような、その環境（すなわち、ロボットの、たとえば視覚センサによってカバーされる空間）におけるエンティティを、観察、記録、および模倣することによって新しい動きを学んでいくとき、いわゆるタスク空間（作業空間）内でのタスク固有の表現(task-specific representation)が提示される。タスク固有の表現は、学習するデータの次元を低減し、対応する問題を容易化すると共に、さらなる一般化を可能にする。

本発明は、異なる性質の複数のキュー（cues,合図）を評価することによって、そのようなタスク空間を自律的に選択するメカニズム（すなわち、ロボットのコンピューティング・ユニットによって実行される）を提供する。

本発明による当該選択は、異なる座標系におけるロボットおよび環境の状態を表す複数のタスク空間から、行われる。

「キュー（合図）」は、模倣学習のセッション中に、感覚的な入力(sensorial input)からロボットが抽出する選択基準である。

図１を参照して、自動タスク空間選択ユニットと共に、模倣学習プロセスを説明する。該タスク空間選択ユニットは、ロボットのコンピューティング・ユニットにおける論理ユニットである。

学習されることとなる動きは、該ロボットの環境における教師または他のエンティティ（たとえば、他のロボット、動物等）によって実演される。ロボットは、実演された動きを、たとえばビデオカメラ等のセンサ手段を用いて観察する。該センサ手段は、データストリームを、該ロボットのコンピューティング・ユニットに供給する。

観察された実演の動きのデータストリームは、“生データ”として、該ロボットのコンピューティング・ユニットに接続されてアクセスされるデータ記憶手段に記録される。

たとえば、モーション・キャプチャ(motion capture)または色追跡(color tracking)のような視覚ベースの技術を、該観察された実演の動きを記録するのに用いることができる。

この“生データ”は、その後、異なる可能なタスク空間に投影される（すなわち、表現される）。ここで、これらの該タスク空間は、“タスク空間のプール”に包含される。

タスク空間プールは、たとえば先行の学習ステップにおいて、プログラミングにより予め設定され、もしくはロボットによって自律的に設定されることができる。

たとえば握る(grasping)というタスクについての可能なタスク空間表現（座標系）は、
次のようなものとなり得る：
−ロボットのエンドエフェクタの絶対位置、
−ロボットのエンドエフェクタの、握られる対象物に対する相対位置、および、
−ロボットのエンドエフェクタの向き。

既知の模倣学習のアプローチでは、これらのタスク空間のすべてが用いられて、学習されるタスクを表現するか、もしくは、該タスクに最も良好に適合するこれらの一部が手動で選択されるか、であった。このような手動が介在することは、模倣学習のフレームワーク全体の無限性(open-endedness（際限なく知識を獲得していく性質のこと）)およびインタラクティブな能力(interactive capability)を強く制限する。

それに対し、本発明では、ロボットの“タスク空間セレクタ”ユニットがこれを自動的に行う。タスク空間セレクタユニットがどのように模倣学習プロセスに影響を与えるかについては、２つの手法がある。

第１の手法（１）では、タスク空間表現の一部が、“タスク空間プール”から選択され、他のすべてのタスク空間は破棄される。この選択は、たとえば、感覚データストリーム(sensorial data stream)から好ましくは抽出される選択基準（以下、“キュー（合図）”と呼ばれる）に基づいて実行されることができる。したがって、実際に有効な（これは、該選択基準によって表現される）タスク空間のみが表現され、これがその後にロボットによって再現され、これと共に、残りのタスク空間を破棄することができる。

模倣されるべき動きが一旦学習されたならば、該学習された動きを効率的に（ロボットの制約の中で）再現するために、好ましくは最適化の手法が、異なるタスク空間表現に適用される。よって、第２の手法（２）では、“タスク空間セレクタ”ユニットは、適合値によって、動きの“再現”に影響を及ぼすことができる。該適合値は、異なるキューが重要と“信じる”ものの重み付けされた組み合わせであり、したがって、該適合値は、たとえば以下のものに基づくことができる：
−試行間の変動、
−不快性(discomfort)、
−ジョイント（関節）のトルク、
−注意信号(attention signal)。

ロボットが、学習した動きを再現することができる前に、この動きを、異なる基準に関して最適化することができる。これらの基準は、たとえば、自己衝突の回避、ジョイントの限界を回避すること、バランスを維持すること、または、該動きを行いながら特定の位置を常に注視することというような付加的なタスクを実行すること、であることができる。この最適化は、たとえば進化的アルゴリズム(evolutionary algorithm)を用いて行われることができ、該アルゴリズムにおいて、適合関数（“コスト関数”）は、たとえばこれらの基準の観点から、異なる動きの品質（“適合性”）を評価し、対応する適合値を出力する。

様々なキューからの情報に基づいて、タスク空間セレクタは、該動きのすべての時間ステップにわたり、該動きの表現に使用されるすべてのタスク空間についての適合値を生成する。一例として（図２を参照）、動きの第１パートの間は右手のみを要し、第２パートの間は左手のみを要するというジェスチャ（身振り）を学習する。これについて、表現のために、おそらく２つのタスク空間が選択され、１つは、左手の位置のためのものであり、もう１つは右手の位置のためのものである。これらのタスク空間の両方について、タスク空間セレクタは、そのタスク空間の重要性(importance)を表現する適合値を生成する。正しい結果を生成するため、動きの最適化は、これらの適合値を用いて両方のタスク表現を混合(blend)する。

再現の間、たとえば重要性の基準に基づいて、複数のタスク空間を混合することができる。すなわち、タスク空間の単一の表現だけでなく、タスク空間の重み付けされた混合物をも用いることができる。異なるタスク空間表現を、学習された動きを実行するときに順番に用いることができる。

“タスク空間セレクタ”ユニット内に含まれるキューは、次のような非常に異なる特徴を持つことができる：
−いくつかのタスク実演にわたって試行間の変動が低ければ、高い重要性のタスク空間を割り当てる、変動ベースの計測。後述する参考文献［２］において、該変動を重要な計測値として用いる基本的なアイデアが、良好に評価されている。この点に関し、該参考文献［２］の開示をここで参照により取り入れる。
−教師の挙動についての情報を包含するインタラクティブな（双方向な）キュー。重要性は、該教師による明示的な注意の生成を介して定義される。後述する参考文献［３］では、親―幼児間の研究分野での実験が、重要性を定義するためのそのような注意のメカニズムを示している。この点に関し、該参考文献［３］の開示をここで参照により取り入れる。
−人間の実演者の不快性(discomfort)および努力性(effort)を解析するのに用いられる
人間モデルの運動ないし動的なシミュレーション。人間が経験した快適でない姿勢は、該タスクにとって重要となりうる。後述する従来の参考文献［４］は、模倣についてのタスク重要性を定義する目的で、人間の姿勢を分析することに代えて、該人間の姿勢を予測するために同様のコスト関数を使用している。この点に関し、該参考文献［４］の開示を参照により取り入れる。

例１：対象物を動かすためのタスク空間
この例では、ロボットは、対象物（たとえば、ボール）をバスケットに入れることを学習する。このため、人間の教師が、ロボットに対し、ボールとバスケットについての開始位置が異なる複数の状況で該タスクを実行する方法について、一組の実演をして見せる。“タスク空間プール”における可能なタスク空間は、次の通りである：
−ボールの絶対位置、
−バスケットの絶対位置、
−ボールのバスケットに対する相対位置、
−そのシーン（場面）において他の対象物が存在しうるので、付加的なタスク空間（たとえば、ボールの、他の認識された対象物に対する位置）。

この例では、該タスクを表現するのに使用すべきタスク空間を自動的に決定するために、“タスク空間セレクタ”の以下の２つの要素が使用される。

最初に、動かされるべき重要な対象物がボールであるということを、インタラクティブなキューが信号化する。これは、現に該対象物を動かして注意を生成する教師から得られる。これにより、ボールに関連するもののみに、一組のタスク空間が厳密に制限される。

次に、教師が、該タスクを異なる条件下で数回実演するので、統計的な評価が、さらに、これらのボール関連のタスク空間のどれが重要かを決定することができる。統計的評価の考えでは、タスクの重要性は、複数の実演動作にわたり試行間の変動が小さいということであるが、このことは、当該例にも適用される。すなわち、該評価により、ボールの絶対位置の使用が非常に変化しやすいことが示されるからである。しかしながら、バスケットに対するボールの位置の変動は小さく、よって、より良好な表現となる。

“タスク空間セレクタ”は、ボールおよびバスケットの相対的な位置を、“選択されたタスク空間”として用いることを決定し、“表現(Representation)”に直接影響を及ぼす。

異なるタスク空間の間での決定が容易でない場合、“タスク空間セレクタ”は、また、複数のタスク空間を表現するよう決定することができる。その後、適合値（たとえば、統計的評価からの変動情報、インタラクティブなキューからの注意信号）を用いて、これらのタスク空間を混合し、あるいは動き再現の間に非活性化(deactivate)することができる。

例２：ジェスチャ（身振り）のためのタスク空間
この例は、身体の異なるパーツの、タスクに関係した動きを決定するため、人間モデルの運動シミュレーションを使用することについて説明する。人間型ロボットは、片方または両方のアーム（腕）でジェスチャを再現することを学習する。したがって、この例での主要な問題は、どのアームが、学習する該ジェスチャに必要とされるか、である。前述した例のように、統計的評価のみを用いることは、この問題に答えるのに十分ではない。なぜならば、該動きが１つのアームで実行されるならば、他のアームは、静止したままであるからである。これは、複数の実演動作にわたり試行間の変動が低いこととなる。しかしながら、必要とされないアームの静止は、該表現の一部とはならない。他方、アームを静止した状態に保持することは、必ずしも、これが重要でないことを意味するものではない。

これらの問題を克服するため、モデルに基づく（モデルベースの）キューが、“タスク空間セレクタ”内で用いられる。人間の教師の観察された動きは、運動シミュレーション内で、人間モデル上にマッピングされる。このモデルに基づいて、異なるコスト関数が評価される。各アームの努力値(effort value)が、すべてのアームのジョイント（関節）のトルクに基づいて計算される。その後、不快性(discomfort)が推定され、これは、そのアイドル(idle)位置からの人間の姿勢のずれが大きくなるにつれて、増大する。

これらの２つの計測を用いて、“タスク空間セレクタ”は、どのアームが、実演されたジェスチャに必要とされるかについてロバストに決定し、それに応じて表現を選択することができる。

参考文献
［１］M. Toussaint, M. Gienger およびC．Goerickによる”Optimization of sequential attractor-based movement for compact behavior generation”, 7th IEEE-RAS International Conference on Humanoid Robots (Humanoids 2007), 2007
［２］M. Muhligによる”Task learning of bimanual object handling”, diploma thesis, 2008
［３］Y. Nagai およびK. J. Rohlfingによる、”Parental Action Modification Highlighting the Goal versus the Means”, in Proceedings of IEEE 7th International Conference on Development and Learning (ICDL’08), August 2008.
［４］K. Abdel-Malek, J. Yang, Z. Mi, V. Patel およびK. Nebelによる”Human Upper Body Motion Prediction”, Applied Simulation and Modelling, 2004.

用語
−エフェクタ（effector）：制御されているロボットのパーツ（部分）。これは、たとえば、手または頭であることができる。
−タスク・ベクトル（task vector）: 制御される変数からなるベクトル。人間型ロボットの場合、これは、たとえば手の位置、または頭の注視方向であることができる。
−自由度(degrees of freedom)：自由度は、システムが動くことを許容される最小の一組の座標である。これらは、制御可能であることもできるし（ロボットの駆動されるジョイントのように）、または制御されないようにすることもできる。
−配置空間(Configuration space)：自由度によってカバーされる空間
−ジョイント空間(Joint space)：この用語はロボット工学において用いられることが多く、上記の配置空間を意味する。
−タスク空間（task space）：タスク・ベクトルによって記述される空間。たとえば、ロボットの手の位置がｘ、ｙ、ｚ方向において制御されれば、該タスク空間は、３つの次元を持ち、これらの座標によってカバーされる。

Claims

ロボットの動きの模倣学習のため、ロボットのコンピューティング・デバイスにより実行される方法であって、
該ロボットの環境におけるエンティティの動きを観察するステップと、
感覚データストリームを用いて該観察した動きを記録し、該記録した動きを、異なる複数のタスク空間表現で表現するステップと、
前記模倣学習のため、予め定められた又は感覚データストリームから得られる情報に基づいて決定された選択基準に基づいて、前記複数のタスク空間表現のサブセットを選択し、当該選択されたタスク空間表現のサブセットにより表現された前記動きに従って、模倣されるべき前記動きを再現するステップと、
を含み、
前記選択されたタスク空間表現のサブセットは、前記動きを再現するための、１つのタスク空間表現または一連の異なるタスク空間表現で構成される、
方法。
前記選択基準は、前記ロボットが前記感覚データストリームから抽出するキューにより与えられる、
請求項１に記載の方法。
前記キューは、前記動きの複数回にわたる実演の試行間の変動であって、前記選択基準は、前記観察における当該実演の試行間の変動が最も低いタスク空間表現を選択するものである、
請求項２に記載の方法。
前記キューは、タスクに関連した或る物体を強調する教師の強調動作であって、前記選択基準は、前記教師の強調動作により強調された前記タスクに関連した物体に関するタスク空間表現を選択するものである、
請求項２または３に記載の方法。
前記キューは、前記動きの実演を行う人間である教師の動作についての、人間モデルを用いた運動学的または動的なシミュレーションから算出される評価値である、
請求項２から４のいずれかに記載の方法。
前記評価値は、前記教師である人間の、関節に働くトルクの推定値で表わされる努力性についての評価値、及び、自然姿勢からの姿勢変位の増加と共に増大する、不快性についての評価値である、
請求項５に記載の方法。
前記異なる複数のタスク空間表現による前記動きの表現について、所定の制約条件の下に当該動きを効率的に再現するための最適化が実行される、
請求項１から６のいずれかに記載の方法。
前記選択されたタスク空間表現のサブセットを構成する前記一連の異なるタスク空間表現は、前記動きを再現する際に、当該再現された動きの経過に伴って順番に用いられる、
請求項１から７のいずれかに記載の方法。
ロボットのコンピューティング・デバイス上で実行するときに請求項１から８のいずれ
かに記載の方法を実行する、コンピュータプログラム。
請求項１から８のいずれかに記載の方法を実行するよう設計されたコンピューティング・ユニットを有するロボット。
前記ロボットは、模倣学習によって作業工程のシーケンスを学習する産業用ロボットである、
請求項１０に記載のロボット。