JP2010179454A

JP2010179454A - ロボット装置におけるスキーマの学習と使用

Info

Publication number: JP2010179454A
Application number: JP2009287375A
Authority: JP
Inventors: Claudius Glaeser; クラディウス・グレーザー; Frank Joublin; フランク・ジョブリン
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2009-02-06
Filing date: 2009-12-18
Publication date: 2010-08-19
Also published as: US20100249999A1; EP2216145A1; US8332070B2; EP2216145B1

Abstract

【課題】環境との相互作用時の挙動に優れた自律移動ロボット制御方式を提供する。
【解決手段】スキーマを使用し、該スキーマは、ロボットが設定されたゴールを達成するようにするための、パラメータで表した運動指令の系列の集合であって、該系列のためのパラメータは、該ロボットコントローラの状態変数から得られ、該ロボットコントローラへ知覚入力を供給するためのインタフェースと、スキーマ認識モジュールからの入力、または逆方向モデルモジュールからの入力、またはそれらの組み合わせを供給されるスキーマ状態メモリと、状態変数及び格納されたスキーマに基づいて、運動指令を生成する逆方向モデルと、状態変数及び格納されたスキーマに基づいて、状態変数を予測する順方向モデルと、該ロボットコントローラによって制御された該ロボットの、供給された状態変数に基づいてスキーマを選択するスキーマ認識モジュールと、を備えた。
【選択図】図１

Description

本発明は、ロボット装置のゴール特定順方向及び逆方向モデル、特に、挙動に基づくロボット装置及びゴール予測モデルの、学習及び使用のためのシステム及び方法に関する。

逆方向モデルは、ロボット装置のモータ駆動アクチュエータの命令を生成する。

順方向モデルは、ロボット装置の状態変数を予測する。

本発明は、そのような方法を実現する計算ユニットを有するロボット装置にも関する。

上記のモデルは、知覚運動パターン系列の観察によって上記のモデルの学習を行なうことができるシステムに組み込まれる。それに関して、知覚運動パターンという用語は、状態変数及び運動命令の値を指す。そのような観察は、(制御ユニットによって生成された)運動命令のランダムな実行である、運動バブリングまたは直接のガイダンスによって行なってもよい。本発明は、ロボット装置の、ゴールに向けた挙動制御及びゴール推論のためのシステム及び方法の使用に関する。例示的な応用は、それぞれ、ロボット装置による、目と手の協調、物体操作、または行動理解などである。

知覚運動パターン系列を一時的なまとまりへセグメント化する既存のアプローチは、MOSAIC (Modular Selection and Identification for Control) モデル（非特許文献１）及びRNNPB(Recurrent Neural Network with Parametric Bias)モデル（非特許文献２及び３、特許文献１乃至３）を含む。

MOSAICモデルは、それぞれが順方向及び逆方向モデルの対からなる、多数のモジュールから構成される。それに関して、順方向モデルは、観察されるパターンを同時に記述しようとする一方、逆方向モデルは、それらの順方向モデルの予測の質に依存してロボット装置の全体的な制御に協調して貢献する。それぞれの順方向・逆方向モデル対がスキーマを表すと仮定すると、本発明との差異は以下のとおりである。

（１）MOSAICは、多数のスキーマを同時にアクティブにすることができるが、アクティブなスキーマは、状態変数の将来の値を協調して予測しない。むしろ、順方向モデルのそれぞれがシステム全体の状態変数の値を予測する限りにおいて、並行の予測が適用される。したがって、本発明が、システムダイナミックスの記述に対する組み合わせコードの学習及び使用をおこなうことができるのに対し、MOSAICは、それを行うことができない。

（２）MOSAICは、多数の順方向及び逆方向モデル、より正確には、それぞれのフレームに対する順方向及び逆方向モデルの対を使用することを提案する。対照的に本発明は、順方向モデル及び逆方向モデルそれぞれに対して、単一の処理構造（たとえば、人工的なニューラルネットワーク）を使用することを提案する。それによって、計算及び記憶の複雑さは低減される。

（３）MOSAICは、スキーマの状態に対する明示的な記憶構造を組み入れていない。本発明は、そのような構造を使用する。さらに、本発明は、順方向及び逆方向モデリングを実行する処理構造のモードを設定するために、記憶されたスキーマ状態を使用する。その結果、本発明によれば、MOSAIC モデル内では不可能であるスキーマの形態学的な構成の使用及び学習が可能となる。

（４）MOSAICは、スキーマの認識を実行する、単独の処理モジュールを組み入れていない。むしろ、MOSAICは、観察されたパターン系列を記述する順方向モデルの性質が、どのスキーマが認識されたかを決定する限りにおいて、順方向モデルを使用する。したがって、パターン系列の全体が、順方向モデルによって予測された系列と比較される必要がある限りにおいて、MOSAIC によってスキーマの動的な認識を行なうことできない。対照的に、本発明によって、スキーマの動的な認識を行なうことができる。

（５）最後に、MOSAICは、アトラクター・ダイナミックのコンパクトな表現としてスキーマの概念を組み入れていない。このことは、MOSAIC の順方向及び逆方向モデル対が、複数のダイナミックスを表すが、これらのダイナミックスは必ずしも共通の固定点を有さないことを意味する。したがって、MOSAICは、本発明で実施しているように、ゴールに向けた挙動制御及びゴール推論のために、順方向及び逆方向モデル対を使用することができない。

RNNPBモデルは、知覚運動パターン系列が分散的に表されている、単一のリカレントニューラルネットワーク（RNN Recurrent Neural Network）を使用する。RNNPBモデルは、さらに、RNNをあるモードにおいて駆動させるために、RNNへの入力としてパラメトリックバイアス（PB）ベクトルを使用する。RNNPBモデルと本発明との差異は、以下のとおりである。

（１）RNNPB において、メモリ構造は、所定の挙動に対応するPBベクトルを蓄えると考えられる。挙動を実行する際に、対応するPBベクトルがRNNへ送られ、RNNは、つぎに順方向モデリングを実行する。対照的に、本発明は、ネットワークを、その対応するモードで駆動するために、スキーマの状態を使用することを提案する。この理由により、本発明は、複数のスキーマによってシステムダイナミックスを協調的に予測することを可能とする。

（２）RNNPB において、挙動は、順方向モデルを使用して認識される。より正確には、逆方向反復探索手順は、観察されたパターン系列を最もよく記述するPBベクトルを定めるように適用される。対照的に、本発明は、観察された挙動を記述するアトラクター・ダイナミックを認識するために、分離した処理構造を使用することを提案する。この結果、RNNPBによって、挙動のダイナミックな認識を行なうことはできないが、本発明によっては行うことができる。

（３）RNNPBによって、複数の挙動を同時にアクティブとすることは、複数のPBベクトルがRNNへ送られることを意味するので、これを行うことはできない。対照的に、本発明は、複数のスキーマを同時にアクティブとすることを可能とする。それによって、本発明は、プロパティーRNNPB が提供しない組み合わせスキーマコードの学習及び使用を可能にする。

（４）RNNPBモデルにおいて、パラメータ（重み値及びPBベクトル）は、オフラインで訓練されるのに対し、本発明は、オンライン学習を可能にする。

（５）最後に、RNNPBは、アトラクター・ダイナミックのコンパクトな表現としてスキーマの概念を組み入れていない。

US7373333 US7324980 EP1505534

D.M. Wolpert and M. Kawato, ‘Multiple paired forward and inverse models for motor control’, Neural Networks, 11, pp. 1317-1329, 1998 J. Tani, ‘Learning to generate articulated behavior through the bottom-up and the top-down interaction processes’, Neural Networks, 16, pp. 11-23, 2003 J. Tani, M. Ito, and Y. Sugita, ‘Self-organization of distributedly represented multiple behavior schemata in a mirror system: reviews of robot experiments using RNNPB’, Neural Networks, 17, pp. 1273-1289, 2004

ロボットがその環境と相互作用を行うときにその挙動を改善することが本発明の課題である。

この課題は、独立請求項の特徴によって達成される。従属請求項は、本発明の中心的なアイディアをさらに展開する。

本発明によれば、設定されたゴールを達成するためにスキーマを使用するロボットコントローラが提案される。スキーマは、ロボットがゴールを達成するための、運動指令のパラメータで表した系列の集合である。該系列用のパラメータは、該ロボットコントローラによって制御される該ロボットの状態変数から得られる。それに関して、状態変数は、知覚された（内部）状態を表す。状態変数の値は、ロボットの知覚入力及び他の状態変数の両方から計算される。

ロボットコントローラは、
該ロボットコントローラへ知覚入力を供給するためのインタフェースと、
スキーマ認識モジュール（４）からの入力、または逆方向モデルモジュール（２）からの入力、またはそれらの組み合わせを供給されるスキーマ状態メモリ（１）と、
状態変数及び格納されたスキーマに基づいて、運動指令を生成する逆方向モデルモジュール（２）と、
状態変数及び格納されたスキーマに基づいて、状態変数を予測する順方向モデルモジュール（３）と、
該ロボットコントローラによって制御された該ロボットの、供給された状態変数に基づいてスキーマを選択するスキーマ認識モジュールと、を備える。

オプションとして、ロボットコントローラは、知覚入力及び状態変数に基づいて、該ロボットコントローラによって制御される該ロボットの状態変数を更新するための知覚マッピングモジュールをさらに備えてもよい。さらに、ロボットコントローラは、状態変数に基づいて、該ロボット装置の高いレベルの挙動（スキーマ）を選択するための、ゴール設定モジュールを備えてもよい。ここで、スキーマ状態メモリ（１）構造は、さらに、該ゴール設定モジュールの出力を供給される。本発明のロボットコントローラの構成は、ロボットの認識と行動との間の深い結合を提供する。その深い結合は、ロボットが、その機能の観点から、知覚入力について推論することを可能にするとともに、ロボットの模倣的な挙動、たとえば、人または他のロボットがとった行動を観察し、それを、挙動の自身のレパートリーにマッピングすることができるようにするキーである。

さらに、当業者が、本発明の実施形態の詳細な説明を、添付の図面の図をともに考慮して読めば、特徴、課題及び利点は、明らかになるであろう。

スキーマに基づくシステムを示す図である。それに関して、破線は、階層的に構成されたスキーマを使用するときにオプションとして存在する、接続を示す。スキーマに基づくシステムを示す図である。図１に示すシステムに比較して、切り替えモジュールが追加されている。この切り替えモジュールは、ロボット装置を、観察された状態変数または予測された状態変数のいずれかに依存させる。ゴール分解を介した、ゴールに向けた挙動制御のために使用することができるシステムの部分を示す図である。ゴール分解を介した、ゴールに向けた挙動制御を、内的にシミュレーションするために使用することができるシステムの回路を示す図である。それによってスキーマを認識することができる回路を示す図である。さらに、該回路は、スキーマ認識モジュールが、すでに認識されたより低いレベルのスキーマに依存する限りにおいて、高いレベルのゴールの推論を可能にする。ロボットが目標へ到達するときのスキーマ状態の時間的な展開を例示的に描写する図である。キーとなる事象（ａ−ｆ）の詳細な説明は、明細書の記述を参照されたい。フレームワークの提案される実施例を説明する図である。ハイパー基底関数ネットワークを示す図である。ポピュレーション読み取りメカニズムの結果を説明する図である。該メカニズムは、初期のスキーママップ活動（左側の区画）を、ピークを滑らかにする（右側の区画）ように展開させる。右側の区画において、ピーク応答を示すユニットの局所的な近傍がさらに示されている。スキーマ認識部のパラメータの学習のための戦略を説明する図である。種々のスキーマによって表されるアトラクター・ダイナミックスを説明する図である。それに関して、白い挿入物は、種々の状況において、５個の例示的に選択されたスキーマから、それぞれ１個をアクティブ化したときに、順方向モデルによって生成される知覚パターン系列を示す。円は、スキーマによって表されるダイナミックスの平衡点に対応し、このように、円は、スキーマのゴールを示す。プロットは、学習されたマッピングが、近傍のスキーマが同様のゴールを供給する限りにおいて、トポロジー保存性を有することをさらに示す。最後に、グレイの挿入物は、スキーマのペアを同時にアクティブ化したときに得られる、２個のアトラクター・ダイナミックスを示す。理解できるように、スキーマを同時にアクティブ化することは、単一のスキーマ（円）をアクティブ化したときに得られるものと異なるゴール（円）を伴う。スキーマの認識を説明する図である。最上部の区画は、状態変数値Xの例示的な経路を示し、鉛直方向の線は、アトラクター・ダイナミックが切り替えられた時間事例を示す。最下部の区画は、スキーマ認識モジュールによって生成されたスキーママップにおけるピーク位置S₁及びS₂を示す。さらに、最下部における挿入物は、時間におけるこれらの事例に対する、示されたピーク位置に対応するスキーママップ活動を示す。最終的に、順方向モデルは、認識されたスキーマを入力として使用して、状態変数値

の系列を予測した。この予測された系列は、中間の区画に示されている。理解できるように、観察された経過及び予測された経過は、非常に類似しており、このことは、スキーマがスキーマ認識部によって正しく識別されたことを実証する。

（導入）
ロボット装置と物理的な世界との間の相互作用のための規則（「スキーマ」）は、経験における規則性を記述する認識構造である。スキーマは、ロボット装置の知識の構成のために役立ち、ロボット装置がその環境をどのように見て解釈するかを規定する。スキーマは、階層的に構成されており、それによって、全ての抽象レベルにおける知識を表す。階層の最も低いレベルにおけるスキーマは、ロボット装置がその環境と相互作用を行う際に観察する、空間・時間運動パターンを記述する必要がある。それに関して、知覚運動パターンという用語は、運動指令及び状態変数の値を指す。このように、スキーマは、事象の連続的な流れを、一時的なまとまりに分ける。

本発明は、このようなスキーマを学習し使用するためのシステム（すなわち、ロボットコントローラ）及び方法を提案する。したがって、最初にスキーマの定義が与えられ、階層的に構成されたスキーマが、提案されるシステムに埋め込まれた場合に、ロボット装置のゴールに向けた挙動制御、計画及びゴール推論のために、どのように使用することができるかが検討される。さらに、本発明は、フレーム構造の特定の実施例を提案する。この具体化は、スキーマの階層的な構成に対応していない。この具体化は、むしろ、低いレベルのスキーマの学習及び整合の取れたフレーム構造における妥当な処理原理の組み込みに焦点を当てている。しかし、この実施例は、階層的に構成されたスキーマに対応するように、容易に拡張することができる。最後に、提案されるフレーム構造が、一般的な挙動に対応する、知覚運動のスキーマを自律的に発展させることができることを示すシミュレーション結果を提示する。それによると、スキーマと知覚運動パターン系列との間の学習されたマッピングは、トポロジー保存性を有する。すなわち、隣接するスキーマは、同様の挙動を表す。さらに、スキーマは、生物学的な発見に従った性質を特徴として有する。

（スキーマに基づくシステム）
本発明によるスキーマは、ロボット装置の一般的な挙動を記述する。この理由により、両方の用語は、交換して使用される。一般的な挙動は、その適用が結果として特定の状況に至れば、意味のある情報を保持するので、スキーマは、そのような一般的な挙動の適用が必然的に伴うゴールによって特徴付けられる。そのため、一般的なという用語は、種々の状況において挙動を適用することができるが、常に、そのゴールに対応する状況をもたらすという事実を指す。たとえば、「手を見つめる」というスキーマは、ロボット装置が、中心窩、すなわち、カメラの入力視野の中心においてその手を見るという状況をもたらす。しかし、そのスキーマを適用する際に、ロボット装置が観察する、空間・時間知覚運動パターンは、（たとえば、最初の見つめる状態、すなわち、カメラの入力視野位置、及びロボットの手の位置などによって）大幅に異なるかもしれない。このように、スキーマは、種々の背景に対して、どのようにして単一の平衡ポイントに到達するかについて記述する、汎用のアトラクター・ダイナミックのコンパクトな表現である。そのため、ダイナミックの平衡ポイントは、スキーマのゴールを表す。

技術的に表現すると、スキーマは、設定された目標を達成するための、ロボットの、パラメータで表された行動（運動指令）の系列である。行動（運動指令）は、パラメータとしての状態変数に依存して、ロボットコントローラによって計算される。

運動指令の系列は、「挙動」と呼ばれる。スキーマのこの定義に基づいて、図１に示すシステムを有するロボット装置が提案される。スキーマの現在の状態（たとえば、アクティブまたは非アクティブ）を記憶するためのユニット１の他に、システムは、３個の一体化した部分から構成される。第一に、状態変数及びスキーマによって規定された状況が与えられると、逆方向モデルモジュール２は、運動指令が、（図１のシステムを実現する）制御ユニットから、ロボット装置のモータ駆動アクチュエータへ送られる際に、スキーマのゴールへ到達するために適切な運動指令を計算し発行する。

第二に、状態変数によって規定された状況が与えられると、（「ロボットコントローラ」とも呼ばれる）ロボット装置の制御ユニットは、この状況においてスキーマを適用した、知覚の結果を予測する。ここで、知覚の結果は、状態変数、すなわち、ロボット装置の検出された（内部）状態によって表せる。この機能は、順方向モデルモジュール３によって実現される。

最後に、ロボットコントローラは、どのスキーマが、知覚事象の観察されたストリームを最もよく記述するかを、定めることができる。このように、スキーマ認識モジュール４は、（検出された状態変数によって表現された）観察を、相互作用のための基本的な能力である自身の経験へマッピングする。

図１に示すシステムは、追加の切り替えモジュール５（図２参照）によって拡張することができる。切り替えモジュール５によって、ロボットコントローラのスキーマ認識モジュール４は、切り替え位置Ａにおいて現在の観察（すなわち、現在検出されたロボットの状態変数）を使用するか、切り替え位置Ｂにおいて予測された観察（すなわち、予測された状態変数）を使用することができる。事前に予測された状態変数を入力として使用することにより、順方向モデリングは、任意の時刻の予測を実施する。このようにして、ロボット装置の制御ユニットは、（実際にスキーマを実行することなく、すなわち、ロボット装置のアクチュエータへ運動指令を発することなく）スキーマの適用を内部においてシミュレーションすることができる。このような特性は、計画に対してきわめて重要な特性である。

スキーマの階層的な構成は、それによって、知識を構築し、スキーマを再使用し、より複雑な挙動へスキーマを組み合わせることが可能となるので有益である。スキーマの階層を使用する際に、ロボット装置の高いレベルの挙動は、そのサブゴールへ分解することができる。このことは、逆方向モデルが、ロボット装置の制御ユニットによって発せられる運動指令を指定する必要があるばかりではなく、高いレベルのスキーマのサブゴールを供給する、他の低いレベルのスキーマを選択する必要があることを意味する。たとえば、上述の「手を見つめる」スキーマは、他の「位置ＸＹを見つめる」スキーマを選択することができ、現在の状況（手の位置）が、どの「位置ＸＹを見つめる」スキーマを選択する必要があるかを指定する。つぎに「位置ＸＹを見つめる」スキーマは、発せられる必要な運動指令を選択する。換言すれば、スキーマの選択によってスキーマが示され、（ロボット装置の状態変数によって規定された、）スキーマが適用される状況が、該スキーマをパラメータで表す。その結果、システムは、複数のスキーマが、同時にアクティブであることを可能にする必要があり、さらに、同時にアクティブなスキーマは、（順方向モデルによって）それらの適用の結果を協調して予測する。

図３は、ゴール分解を介したゴールに向けた挙動制御を担当する、ロボット装置の演算ユニットに含まれるシステムの部分を説明するための図である。それに関して、ゴール設定モジュールからの入力は、高いレベルの挙動、したがって、ロボット装置の高いレベルのゴールを設定する可能性がある。スキーマと状態変数の両方が逆方向モデルに入力される限りにおいて、状態変数は、高いレベルの挙動をパラメータによって表す。このようにして、逆方向モデルは、高いレベルのスキーマのサブゴールを供給する他のスキーマを選択することができる。同様にして、新たに選択された低いレベルのスキーマは、可逆モデルによって分解することができる。換言すれば、可逆モデルモジュールは、状況に依存するモデル分解を実施する。すなわち、逆方向モデルモジュールは、高いレベルの挙動を要素部分に分解する。最終的に、要素部分を表すスキーマは、（ロボット装置のモータ駆動アクチュエータに供給された場合に）対応するゴールに到達するために適した、運動指令を、（逆方向モデルを介して）選択する。

さらに、順方向モデルモジュールが、（予測状態変数の観点で）知覚結果の予測のために使用される。状態変数の値とアクティブなスキーマが与えられると、順方向モデルモジュールは、スキーマの適用が引き起こす結果を予測する。図３に示すように、ロボット装置の制御ユニットは、状態変数の現在の値に依存する。これらの値は、ゴールの分解及び結果の予測に使用される現在の状況を表す。同様に、ロボット装置の制御ユニットは、状態変数の予測値に依存してもよい（図４参照）。開始情況が与えられると、ロボット装置の制御ユニットは、上述にように、高いレベルのゴールを分解してもよい。しかし、制御ユニットは、同時に、選択されたスキーマの結果を予測してもよい。それに関して、予測された結果は、推測された状況に対応する。推測された状況を、順方向モデルモジュール及び逆方向モデルモジュールへの入力として使用することにより、制御ユニットは、ゴール分解を介した、ゴールに向けた挙動制御を内部においてシミュレーションすることができる。このようにして、制御ユニットは、任意の時刻の予測を実施することができる。このような、内的なシミュレーションの間において、行動は、現実には実行されなくてよい（たとえば、他のモジュールは、選択された運動指令を阻止してもよく、それによって該運動指令の実行が妨げられる）。

階層的に構成されたスキーマを使用するさらなる利点は、相互作用の相手方の高いレベルのゴールを推論するために、スキーマ階層を使用することができることである。ロボット装置の制御ユニットが、状態変数値の系列を観察すれば、スキーマ認識モジュールは、その系列を、その観察を最もよく記述するスキーマにマッピングする。スキーマ階層において、そのような系列の観察は、たとえば、ある低いレベルのスキーマの認識をもたらす。しかし、スキーマ認識モジュールが、状態変数値の観察されたストリームだけではなく、階層の低いレベルにおいてすでに認識されたスキーマにも依存する場合（図５参照）には、高いレベルのスキーマも認識することができる。換言すれば、スキーマ認識部は、高いレベルの挙動を推定するのに要素挙動部分の認識を使用することもできる。上述の例に戻ると、「位置ＸＹを見つめる」スキーマは、手がその位置にあれば、自動的に「手を見つめる」スキーマの認識をもたらす。

以下に、ゴール分解を介した、ロボット装置のゴールに向けた挙動制御のための、階層的に構成されたスキーマの使用を説明する応用例を示す。記述された手順は、ロボット装置の制御ユニットによって実施される。

（例）
ロボット装置の仕事は、目的に到達することであると仮定する。ロボット装置は、所定の関節を有するモータ駆動アームと２個の可動カメラを有する頭部とを備える。カメラは、外部知覚入力のためのセンサを表し、また、モータによって駆動される。

ロボット装置は、そのアームの関節角度及び２個のカメラの関節（接続箇所）を検出する。さらに、ロボットは、運動指令を介して、関節に力を作用させ、ロボットがその見つめる方向を変化させ、目標を固視し、そのアームを動かすことを可能にする。

そこで、知覚マッピングモジュールによって計算された状態変数は、以下のようであってもよい。

ロボットのアームの関節角度
カメラを指示するロボットの頭部の関節角度
カメラ（目を中心とする）座標における目標の位置
カメラからの目標の距離（目標を固視したときの目の関節角度から得ることができる）
カメラ（目を中心とする）座標における目標と手との間の距離
さらに、ロボットの制御ユニットには、以下のスキーマが格納されている（たとえば、予め設定されるか先行する学習ステップによって獲得される）。

そのゴールは、ロボットのアームを使用して目標へ到達することである「目標へ到達する」
そのゴールは、目標を見つめ、カメラで目標を固視することである「目標を見つめる」
それぞれが所定の位置を見つめるというゴールを有する、多数の「位置ＸＹを見つめる」スキーマ
そのゴールは、ロボットが見つめる位置に到達することである「見つめるところへ到達する」
それぞれが空間における所定の３次元位置へ到達するというゴールを有する、多数の「位置ＸＹＺへ到達する」スキーマ
以下において、目標へ到達するために、ロボットがそのスキーマと提案されるシステムをどのように使用するかを説明する。従って、図６は、スキーマの状態（たとえば、０は非アクティブであり、１はアクティブである）の時間的な展開を示し、さらに、以下に詳細に説明する基本事象（ａ−ｆ）を表示する。

ａ．ゴール設定モジュールからの入力が、「目標へ到達する」状態を「アクティブ」へ設定する。すなわち、ロボットの高いレベルのゴールは、知覚入力、特にカメラを介して検出された目標へ到達することである。

ｂ．「目標へ到達する」スキーマは、逆方向モデルを介して「目標を見つめる」スキーマをアクティブ化する限りにおいて、そのゴールを分解する。

ｃ．カメラ座標における目標の実際の位置及び（現在の見つめる位置をコード化している）実際のカメラ関節角度が与えられると、「目標を見つめる」スキーマは、そのゴールが見つめる位置を所定の位置（目標が現在置かれている位置）へ変化させることである「位置ＸＹを見つめる」スキーマをアクティブ化する限りにおいて、そのゴールを分解する。このゴールの分解は、逆方向モデルを介して行なわれる。以下において、「位置ＸＹを見つめる」スキーマは、実際の目の関節角度に依存する目の関節に力を加える。これらの運動指令もまた、逆方向モデルを介して選択される。

ｄ．カメラ関節角度は、その最終位置に到達した。結果として、カメラ座標における目標位置もその最終位置に到達した。このため、「目標を見つめる」スキーマは、逆方向モデルを介して「位置ＸＹを見つめる」スキーマを解放する。同様に、「目標へ到達する」スキーマは、「目標を見つめる」スキーマを解放し、逆方向モデルを介して「見つめるところへ到達する」スキーマをアクティブ化する。

ｅ．カメラ関節の実際の角度及びカメラからの固視された目標の距離は、空間における３次元位置を表す。この３次元位置が与えられると、「見つめるところへ到達する」スキーマは、（そのゴールが手をこの３次元位置へ持ってくることである）特定の「位置ＸＹＺへ到達する」スキーマを、逆方向モデルを介して選択する。以下において、「位置ＸＹＺへ到達する」スキーマは、ロボット装置の制御ユニットが、アームの関節に力が加えられるような運動指令を発するようにする。ここで、上記の力は、実際のアームの関節角度に依存して逆方向モデルを介して選択される。

ｆ．最終的に、ロボット装置のアームの端部における手は、空間における３次元位置へ到達する。このため、「見つめるところへ到達する」スキーマは、逆方向モデルを介して「位置ＸＹＺへ到達する」スキーマを解放する。同様に、カメラ座標における手と目標との間の距離は、消滅し、それにより「目標へ到達する」スキーマは、逆方向モデルを介して「目標を見つめる」スキーマを解放する。最終的に、「目標へ到達する」スキーマのゴールは達成される。このため、「目標へ到達する」スキーマを選択したゴール設定モジュールからの入力は、いまや存在する必要がなく、それによって「目標へ到達する」スキーマは、非アクティブとなる。

上述の例は、ゴール分解を介したゴールに向けた挙動制御のための、逆方向モデルに関連したスキーマ階層の使用を説明した。しかし、種々のスキーマを実行する間に、スキーマは、順方向モデルを介して、（状態変数による）知覚結果を予測することができる。それによって、特定のスキーマが特定の状態変数に関する結果を予測する限りにおいて、協調的な予測が実行される。

「目標へ到達する」スキーマは、カメラ座標における手と目標との間の距離が減少することを予測することができる。

「目標を見つめる」スキーマは、カメラ座標における目標の位置を予測することができる。

「位置ＸＹを見つめる」スキーマは、目の関節角度を予測することができる。

「見つめるところへ到達する」スキーマは、カメラ座標における手の位置を予測することができる。

「位置ＸＹＺへ到達する」スキーマは、アームの関節角度を予測することができる。

非常に似通った仕方で、状態変数の観察された経路は、スキーマ認識モジュールを介して、対応するスキーマを認識するのに使用することができる。それにより、（階層の低いレベルにおいて）すでに認識されたスキーマを、高いレベルのスキーマが認識されるように考慮することができる。たとえば、カメラ座標における手と目標との間の距離が減少するのを観察することは、「目標へ到達する」スキーマを認識するのに使用することができる。観察される手がロボットのものではなく、相互作用の相手方のものであっても、このことは当てはまる。したがって、この例は、どのようにして、スキーマが、ゴールを相互作用の相手方へ帰属させるのに使用されるかについても説明する。

（実施例）
以前に記したように、本発明は、また、フレームワークの特定の実施例を提案する。スキーマシステムの提案される実施例は、スキーマの間の階層的な依存性を含まない。したがって、ここで提示されるシステムは、「例」において説明した全ての機能は含まない。しかし、提案される実施例は、全ての機能を含むように容易に拡張することができる。むしろ、この仕事は、低いレベルのスキーマのオンライン学習、及び整合したフレームワークにおける種々の処理原理の組み入れに焦点を当てている。図７は、提案される実施例のシステムを示す図である。以下において、種々のコンポーネントをより詳細に説明する。

システムコンポーネントの実施例
適用される原理の一つは、ポピュレーションコーディングの原理である。より正確には、２次元マップに分散したユニットがスキーマを表す。さらに、このマップ内の活動が、多数の同時にアクティブなスキーマをコード化する。そのときフレームワークが達成すべきことは、知覚運動パターン系列からスキーマへのトポロジー保存マッピングを学習することである。換言すれば、スキーマは、隣接するユニットが同様の挙動を表し、それとともに、同様のゴールに対して機能するように、形態学的に構成する必要がある。

第二に、順方向モデルは、単一のリカレントニューラルネットワーク（RNN）によって実現される。このことは、知覚運動パターンが、単一のネットワークにおいて分散的に表されることを意味する。その結果、アクティブなスキーマは、その対応するモードにおいてRNNを駆動する。すなわち、アクティブなスキーマは、RNNが生成する知覚運動パターン系列を定める。要約すると、知覚順方向予測は、一つの中間層及びコンテクストユニットを使用するRNNを介してモデル化される。ここで、出力におけるコンテクストユニットの活動は、入力におけるコンテクストユニットの活動へフィードバックされる。状態変数x(t)及びスキーママップの活動s(t)は、RNNへの入力として働き、RNNは、次の時間ステップにおける状態変数x(t+1)を予測する。

つぎに逆方向モデルは、一つの中間層を有するフィードフォワードニューラルネットワークとして実現される。順方向モデルと同様に、現在の状況を表す状態変数x(t)及び現在適用される挙動を表すスキーママップの活動s(t)は、ネットワークへの入力として機能する。逆方向モデルは、最終的に、スキーマのゴールへ到達するために適切な運動指令m(t)を生成する。

最後に、スキーマ認識部は、追加のRNNとして実現される。もう一度、RNNは、一つの中間層及びコンテクストユニットから構成され、出力のコンテクスト活動は、次の時間ステップにおける入力として使用される。スキーマ認識部は、観察x(t+1)を最もよく記述するスキーマs(t)をアクティブ化する限りにおいて、観察x(t+1)を、経験にマッピングする。

システムは、さらに、中間層における適応性のある中間表現として基底関数を組み入れる。より正確には、順方向モデル、逆方向モデル及びスキーマ認識モジュールを実現するために、ハイパー基底関数（HyperBF）フレームワークが採用される（T. Poggio and F. Girosi, 'Networks for approximation and Learning', Proceedings of the IEEE, 78(9), pp. 1481-1497, 1990）。

ハイパー基底関数ネットワーク
式（1）によれば、ハイパーネットワークは、基底関数活動の重み付けられた組み合わせ及びバイアスｂによって多変数関数f(z)を近似する。そこで、基底関数の中心ξ_iおよび重み付けマトリクスを組み入れる、式（2）における重み付けられたノルムは、アクティブ化関数として機能し、動径関数Ｇは、基底関数活動を計算する。ここで、Ｇは式（３）に従って選択される。

図８は、HyperBFフレームワークを説明する図である。中間層における基底関数のそれぞれは、それぞれのフィールドを有し、その中心ξ_i は、プロトタイプの入力ベクトルである。さらに、重み付けマトリクスW_iは、それぞれのフィールドの形状を記述する。入力zが与えられると、zが基底関数のフィールドに最もよくあったならば、すなわち、z=ξ_iならば、基底関数の活動は、最大となる。最終的に、中間層の活動は、出力を与えるために、シナプスの重みα_iと線形に組み合わされる。

十分に大きな数の中間ユニットが与えられると、HyperBFネットワークは、どのような多変数連続関数もよく近似することができる。基底関数のそれぞれのフィールドは、何らかの学習アルゴリズムを介して変化させられるので、HyperBFネットワークは、タスク依存クラスタリング及び次元縮小を実施する。これらの性質は、HyperBFネットワークを、知覚運動変換によく適合される。

理論的に基底関数の数は、入力次元の数にしたがって、指数的に増加する。通常、次元の呪いと呼ばれる問題である。HyperBFネットワークは、次元縮小を実施するので、他のネットワークほどこの問題に陥りやすくはない。それにもかかわらず、実施例が計算の点で実現可能となるように、入力次元の数は最小となるようにした。したがって、全てのスキーマのマップの活動をHyperBFネットワークに供給数することはなく、スキーマのマップにおけるポピュレーション読み取りが実施され、結果としてのピークに位置が入力として使用される。

ポピュレーション読み取りメカニズム
p_i=(p_i ^x,p_i ^y)^Tがグリッドインデクスiにおけるスキーママップユニットの位置であるとする。さらに、I_i(t)が時刻におけるそのユニットの入力であるとする。ユニットの活動を確実にするために、式（４）にしたがって、最初に入力にシグモイド関数を適用する。

つぎに、ポピュレーション読み取りが実施される。ここで、マップユニットは、２種類の横方向接続を介して相互作用を行なう。第一に、刺激性の横方向重みw_i,j ^excを介してプーリングが実施され、第二に、抑制性の重みw_i,j ^inhが区分の付いた標準化を実施する。刺激性及び抑制性の重みの双方を式（５）にしたがって設定する。

ここで、

である。

K回に対する相互作用式（６）及び（７）は、マップの活動a_i(t)を緩やかにし、ピークをなめらかにする。

初期の活動a_i ⁰(t)=NI_i(t)、区分の付いた標準化の重みμ=1、及び

を設定する。

P(t)は、そのユニットが時刻tにおいてピークの応答を示す、マップインデクスの集合であるとする。そのときに、ピーク位置の集合S(t)は、P(t)におけるユニットの局所的な近傍n内におけるマスの中心を計算することによって得られた。

ここで近傍のサイズを定める半径rは、

に設定される。

図９は、ポピュレーション読み取りメカニズムの結果を示す図である。

多数の同時にアクティブなスキーマの取り扱い
z(t)は、HyperBFネットワーク（順方向モデルまたは逆方向モデル）への入力であるとする。上記入力は、スキーママップのピーク位置s(t)および他の入力i(t)からなる。ポピュレーション読み取りメカニズムが時刻tにおけるM個のピークをもたらすと仮定すると、ピーク位置の集合は、S(t)={s₁(t), s₂(t), …, s_M(t)}である。そこで、式（１０）にしたがって、時刻tにおける入力の集合Z(t)を定義する。さらに、式（１１）にしたがって、時刻tにおけるハイパー基底関数jの活動G_j(t)を定義する。

学習のスキーマ
順方向モデル、逆方向モデル及びスキーマ認識部のパラメータを学習するために、ロボット装置は、知覚運動パターンのストリームを観察すると仮定する。このようなストリームは、初期の運動バブリングフェーズの間に、または直接のガイダンスによって生成されてもよい。

以下の戦略は、ネットワークパラメータを学習するために適用される。状態変数値の系列が与えられると、スキーマ認識部は、その系列を最もよく記述するスキーマをアクティブ化する。認識されたスキーマは、つぎに、知覚運動パターンを予測するために、順方向モデル及び逆方向モデルによって使用される。最終的に、順方向モデル及び逆方向モデルの予測誤差を計算し、全てのシステムコンポーネントのネットワークパラメータを調整するために、BPTT(Backpropagation Through Time)アルゴリズムを適用する。学習アルゴリズムがオンライン動作をできるようにするために、BPTTアルゴリズムの縮小版を使用することができる。

スキーマ認識部のパラメータを学習するために、他の戦略を代替的に適用することができる。この戦略は、図１０に描かれており、以下のように機能する。ゴール設定モジュールからの入力は、スキーマを選択し、スキーマをアクティブ化する。つぎに、アクティブなスキーマが、それらの適用の結果を予測するために、順方向モデルによって使用される。順方向モデルは、このようにして、状態変数値の系列を生成する。この系列は、つぎに、スキーマ認識モジュールへ供給されうる。スキーマ認識モジュールは、ゴール設定モジュールからの入力によってすでに選択されたスキーマをアクティブ化する。結果として、ゴール設定モジュールからの入力によって引き起こされた活動と、スキーマ認識部によって引き起こされた活動との差に基づく認識誤差は、スキーマ状メモリ構造において計算することができる。最後に、スキーマ認識部のパラメータを調整するために、得られた誤差について、時間によるバックプロパゲーションを行うことができる。

（シミュレーション結果）
提案したフレームワークをテストするために、予め定めたコントローラC(χ,x)を使用して、知覚運動パターンを生成した。上記コントローラは、目標値χ=( χ₁,χ₂)^Tが達成されるように、式（１）にしたがって、状態変数x=(x₁,x₂)^Tの値を動的に変化させる。目標値は、間隔[0,10]²からランダムに選択され、コントローラへ供給される。それに関して、

とし、ダイナミックスをdt = 0.01sでサンプルした。

この経験の収集は、ロボット装置が運動指令をランダムに実行し、それらの結果を観察する、初期の運動バブリングフェーズにならうべきである。ここで、システムは、状態変数x=(x₁,x₂)^T、及びコントローラのパラメータm=( χ₁,χ₂)^Tに等しいと仮定される運動指令mを観察する。

スキーママップのために、グリッドに均等に配分された１００個のユニットを使用した。さらに、システムコンポーネントのそれぞれは、中間層における３０のハイパー基底関数を特徴としている。順方向モデル及びスキーマ認識モジュールのRNNは、それぞれ、さらに２個のコンテクストユニットから構成される。学習は、上述のように実行される。

学習アルゴリズムは、一般的な挙動に対応する知覚運動のスキーマを、自律的に展開すべきである。学習アルゴリズムは、さらに、トポロジー保存性を有する、スキーマと知覚運動パターン系列との間のマッピングを、自ら構成すべきである。一旦、システムがスキーマを獲得すると、システムは、対応する挙動を認識し、再生成し、またはシミュレーションするようにスキーマを使用することができる。

ここで、最初に、挙動のシミュレーションに対する結果を示す。したがって、学習の後、ネットワークパラメータは凍結される。つぎに、種々の初期状況x(0)において、それぞれのスキーマをアクティブ化し、順方向モデルが予測を使用して生成した、状態変数値の系列(x(1),x(2),…)を記録した。ここで、時刻tにおける予測は、時刻t+1における順方向モデルへの入力として使用される。

予測された状態変数値の系列（知覚パターン系列）が与えられると、種々のスキーマの適用が伴う、平衡点を計算した。平衡点は、このようにスキーマのゴールを記述する。図１２は、x₁-x₂面におけるこれらのゴール及び５個の例示的な選択されたスキーマの知覚パターン系列（白い挿入物）を示す図である。理解できるように、学習アルゴリズムは、種々の状況におけるあるスキーマの適用が、単一の平衡点への予測に至らせる限りにおいて、一般的な挙動を展開している。

近傍のスキーマのそれぞれのついに対して、さらに対応するゴールを接続した。（ここで、近傍は、スキーママップの２次元トポロジーにしたがって定義される。）理解できるように、種々のスキーマのゴールは、目標空間を十分にサンプルする。さらに、結果としてのマップはきちんと構成されている。アトラクター・ダイナミックス及びスキーマの間の学習されたマッピングは、トポロジー保存性を有する。すなわち、近傍のスキーマは、同様のアトラクター・ダイナミックスを表す。

多数のスキーマを同時にアクティブ化すると、単一のスキーマをアクティブ化することによって得られるものと異なるアトラクター・ダイナミックスを生成することができる。この事実は、図１１にも示されている。そこで、例として、二対の同時にアクティブ化されたスキーマに対して、それぞれ、知覚パターン系列及び対応するゴールを示す。これらの例は、学習されたスキーマが、一般的な挙動の基底の集合を形成することを示す。スキーマを種々に組み合わせることにより、さらに複雑でありうる、他の挙動を生成することができる。

つぎに、スキーマ認識部の性能を示す。スキーマ認識部は、観察される知覚パターン系列を最もよく記述するスキーマをアクティブ化すべきである。したがって、図１２の最上部の区画に示される、状態変数値の例示的な経路を生成する。そこで、鉛直方向の線は、アトラクター・ダイナミックを切り替えた場合の時間経過に対する事例を示す。この知覚パターン系列は、スキーマ認識部へ供給される。図１２は、スキーママップにおける結果としてのピークの位置（最下部の区画）及び時間経過に対する３個の事例に対する対応するスキーママップの活動（最下部における挿入物）を示す。最終的に、ピーク位置は、順方向モデルにおける入力として使用され、順方向モデルは、図１２の中間の区画に示された知覚パターン系列を予測した。状態変数値の予測された経路は、観察値によく類似しているので、スキーマ認識部は、適用されたアトラクター・ダイナミックを正しくに識別していた。より正確には、スキーママップにおけるピークは、アトラクター・ダイナミックが切り替えられた後、初期の時間ステップの間に調整される。このことは、観察されるピーク位置の不連続（最下部の区画）によって示されており、どのスキーマが適用されたかについての初期の推量に対応する。後に、より多くのダイナミックのパターンが観察された際に、ピーク位置がわずかに変化する限りにおいて、初期の推量はわずかに調整される。

（さらなる実施形態）
ポピュレーション読み取りメカニズムがニューラルマップにおいて適用されるコントローラ。ポピュレーション読み取りメカニズムは、滑らかな局所化ピークを生成し、ニューラルマップにおいてその位置を抽出する。

ポピュレーション読み取りメカニズムが、式（6）及び（７）の相互作用的適用に基づいて計算されるコントローラ及び方法。

順方向及び逆方向モデルに対するスキーマ状態入力が、ニューラルマップにおけるピーク活動の位置から計算されるコントローラ及び方法。

システムのパラメータが誤差バックプロパゲーションを介して学習されるコントローラ及び方法。

誤差が、それぞれ順方向及び逆方向モデルの出力において計算されるコントローラ及び方法。一方において、誤差は、状態変数の、順方向モデルの予測と観察値との間の差に基づいている。他方において、誤差は、逆方向モデルの予測行動と実際に実行された行動との差に基づいている。

誤差が、スキーマ状態メモリ構造において計算されるコントローラ及び方法。それに関して、スキーマは、外部入力及び階層的フィードバックによって選択される。さらに、状態変数値は、順方向モデルモジュールによって予測され、最終的に切り替えモジュールが、スキーマ認識モジュールが、予測された状態変数値を使用することができるようにする。結果として、誤差は、選択されたスキーマと認識されたスキーマとの差に基づく（図１０参照）。

ロボット装置が、運動バブリングを介して行動及び状態変数値を経験するコントローラ及び方法。それに関して、運動バブリングは、ロボット装置がランダムに運動指令を実行し、状態変数の値においてその結果を観察するモードを指す。

ロボット装置が、直接のガイダンスを介して行動及び状態変数を経験するコントローラ及び方法。

スキーマの現在の状態が認識モジュールによって規定されるコントローラ及び方法。

スキーマの現在の状態が外部入力によって規定されるコントローラ及び方法。

逆方向モデルが、さらに、スキーマの階層におけるさらなるスキーマを選択するコントローラ及び方法。

階層的に構成されたスキーマの認識が、以前に認識されたスキーマにさらに依存するコントローラ及び方法。

Claims

スキーマを使用するロボットコントローラであって、該スキーマは、ロボットが設定されたゴールを達成するようにするための、パラメータで表した運動指令の系列の集合であって、該系列のためのパラメータは、該ロボットコントローラの状態変数から得られ、
該ロボットコントローラへ知覚入力を供給するためのインタフェースと、
スキーマ認識モジュール（４）からの入力、または逆方向モデルモジュール（２）からの入力、またはそれらの組み合わせを供給されるスキーマ状態メモリ（１）と、
状態変数及び格納されたスキーマに基づいて、運動指令を生成する逆方向モデルモジュール（２）と、
状態変数及び格納されたスキーマに基づいて、状態変数を予測する順方向モデルモジュール（３）と、
該ロボットコントローラによって制御された該ロボットの、供給された状態変数に基づいてスキーマを選択するスキーマ認識モジュールと、を備えたロボットコントローラ。
該順方向モデル、該逆方向モデル、及び該スキーマ認識モジュールへの入力として、現在知覚されている状態変数値及び予測される状態変数値の使用を切り替えることができるようにする、追加の切り替えモジュールをさらに備えた、請求項１に記載のロボットコントローラ。
該順方向モデルが、状態変数の現在値及びスキーマの現在の状態によって、状態変数の将来値を予測する、請求項１または２に記載のロボットコントローラ。
該順方向モデルが、状態変数の現在値及びスキーマの現在の状態によって、状態変数の導関数を予測する、請求項１または２に記載のロボットコントローラ。
該順方向モデルが、リカレントニューラルネットワークを使用して実現される、請求項３または４に記載のロボットコントローラ。
該順方向モデルが、時間遅れニューラルネットワークを使用して実現される、請求項３または４に記載のロボットコントローラ。
該ニューラルネットワークが、その中間層の表現として動径基底関数またはハイパー基底関数を使用する、請求項５または６に記載のロボットコントローラ。
該逆方向モデルが、状態変数の現在値及びスキーマの現在の状態によって、現在アクティブなスキーマのアトラクター・ダイナミックスを生成する行動を選択する、請求項１または２に記載のロボットコントローラ。
該逆方向モデルが、状態変数の現在値及びスキーマの現在の状態によって、現在アクティブなスキーマのアトラクター・ダイナミックスを生成する行動導関数を選択する、請求項１または２に記載のロボットコントローラ。
該逆方向モデルが、リカレントニューラルネットワークを使用して実現される、請求項８または９に記載のロボットコントローラ。
該逆方向モデルが、時間遅れニューラルネットワークを使用して実現される、請求項８または９に記載のロボットコントローラ。
該逆方向モデルが、フィードフォワードニューラルネットワークを使用して実現される、請求項８または９に記載のロボットコントローラ。
該ニューラルネットワークが、その中間層の表現として動径基底関数またはハイパー基底関数を使用する、請求項１０乃至１２のいずれかに記載のロボットコントローラ。
順方向モデル及び逆方向モデルが、単一のモジュールに組み合わされている請求項３乃至１３のいずれかに記載のロボットコントローラ。
スキーマの認識が、状態変数の現在値及びその履歴を使用して行われる請求項１または２に記載のロボットコントローラ。
スキーマの認識が、リカレントニューラルネットワークを使用して行われる請求項１５に記載のロボットコントローラ。
スキーマの認識が、時間遅れニューラルネットワークを使用して行われる請求項１５に記載のロボットコントローラ。
該ニューラルネットワークが、その中間層の表現として動径基底関数またはハイパー基底関数を使用する、請求項１６または１７に記載のロボットコントローラ。
スキーマ状態のメモリ構造が、多次元グリッド上に分布したユニットから攻勢されるニューラルマップである請求項１または２に記載のロボットコントローラ。
該ニューラルマップは、形態学的な構成、すなわち、近傍のスキーマは同様のアトラクター・ダイナミックスを表すことを特徴とする請求項１９に記載のロボットコントローラ。