JP2004118658A

JP2004118658A - 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム

Info

Publication number: JP2004118658A
Application number: JP2002282987A
Authority: JP
Inventors: Atsushi Nakanishi; 中西　淳; Schaal Stefan; シャール　ステファン
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-09-27
Filing date: 2002-09-27
Publication date: 2004-04-15
Anticipated expiration: 2022-09-27
Also published as: JP3868358B2

Abstract

【課題】動作範囲の大きさおよび学習すべき関数の複雑さが大きくなるとともに漸増的に成長する物理系の制御方法および装置を提供する。
【解決手段】この方法は、関数近似の初期構造を規定するステップ１００と、物理系の実際の状態を表わす状態データを受信するステップ１０２と、トラッキング誤差および近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで関数近似を更新するステップ１０４と、更新された関数近似を用い、制御系の制御則にしたがって制御変数の計算を行なうステップ１０６と、計算された制御変数を物理系に出力するステップ１０８と、受信するステップ１０２、更新するステップ１０４、計算を行なうステップ１０６および出力するステップ１０８を繰返し行なうステップとを含む。
【選択図】　　　図６

Description

【０００１】
【発明の属する技術分野】
この発明は非線形適応制御に関し、特に、物理系の力学的構造を記述する非線形関数が未知の場合でも、学習により安定的にその関数を近似して物理系の制御を行なうことができる制御方法および装置に関する。
【０００２】
【従来の技術】
統計的学習という観点からは、モデルベースの適応制御は関数近似プロセスと見ることができ、その目的は制御系のモデルのオープンパラメータのいくつかを、コスト指標が最小となるように調整することである。モデルベースの適応制御は、制御系が線形の場合には、線形系に対する統計的学習と同様に比較的よく研究されている。非線形系では、よく学習に用いられるプロセスは、もとの学習データの入力空間を非線形基底関数により展開し、その結果得られる表現が学習パラメータに対して線形となるようにすることである。
【０００３】
制御系の力学が、制御系のオープンパラメータが運動方程式を線形関数により展開したときに線形で表現される場合については、非線形のモデルベース適応制御にこれと同様な考えを適用した研究がなされてきた。たとえば、大域的な安定性を有するモデルベースのロボットアームの適応制御器で、剛体力学の線形な慣性パラメータの性質を利用するものが提案されている。しかし、システム力学の構造が未知の場合、これを学習するためにはこの未知の関数を推定する必要がある。この目的のために、シグモイド関数を用いた複数レイヤのニューラルネットワークが提案されている。
【０００４】
しかし、このような非線形パラメータをとるニューラルネットワークは、大域的な安定性についての証明が困難で、局所解を含む可能性があり、オフライントレーニングを行なう必要があることも多い。
【０００５】
理想的なアルゴリズムは、入力データ内の冗長性による数値上の問題を避け、入力値の異常を排除し、学習中の更新処理の計算の複雑さをおさえながらデータ効率を高く維持し、高次元空間での学習をリアルタイムで行なえるようにし、当然のことながら、正確な関数近似が可能でかつ十分に一般化可能である必要がある。さらに、学習制御において関数近似を行なう上で特に問題となるのは、多くの場合、動作範囲が未知であり、上限でしか規定されないということである。そのよう動作範囲を大きく見積もった場合に関数近似を行なう場合、多くの学習パラメータを割当てなければならないので計算コストが高くなる。さらにそれらのパラメータが学習データによる制約を適切に受けていないと、ノイズに対し、オーバーフィッティングしてしまうというおそれもある。一般に、推定すべき関数の複雑さが未知である場合に、学習パラメータの数としていくつを選べばよいかを決定するのは難しく、特に学習をオンラインで行なう場合には困難な問題である。
【０００６】
一般的に、制御の対象となるシステムは次のように表わされる。なお、以下の説明のテキスト中においては、ベクトル変数は下線を引いたアルファベットで表わすが、数式中ではボールド体で表わす。行列名については数式中ではボールド体で表わすが、テキスト中では単に大文字のアルファベットで表わす。また、記号「＾」は近似関数を表わし、数式中では近似関数を表わすアルファベット変数名の直上に記述されるが、テキスト中ではアルファベット変数名の直前に記述する。数式中で変数の直上に記した記号「・」および上線は、変数の時間微分および平均をそれぞれ表わす。ベクトルまたは行列の右肩に記した「Ｔ」は転置行列（ベクトル）を表わす。
【０００７】
【数１５】

関数近似器として学習パラメータが線形なもののみを考えると、一般的にその関数＾ｙは次のように表わされる。
【０００８】
【数１６】

ここで、＾ｙはｄ次元の入力ベクトルｘが与えられた場合の真の関数ｆ（ｘ）の近似出力である。Φ（ｘ）はベクター値をとる非線形基底関数の組である。
【０００９】
パラメータθ _ｋを、（ｘ _ｉ，　ｙ_ｉ）または（ｘ _ｉ，ｅ_ｉ）の形式で与えられるデータから近似する必要がある。ここでｙ_ｉは学習のターゲットであり、ｅ_ｉは推定誤差ｅ_ｐ，ｉ＝ｆ（ｘ _ｉ）−＾ｆ（ｘ _ｉ）を近似する誤差信号であって、平均値が０の雑音を含む。
【００１０】
Φ_ｋ（ｘ）の簡単な例は、ラジアルベース関数ネットワークで使用されているようなガウス関数、すなわちΦ_ｋ（ｘ）＝ｅｘｐ（−０．５（ｘ−ｘ _ｃ，ｋ）^ＴＤ_ｋ（ｘ−ｘ _ｃ，ｋ）である。一般的に、近似すべき関数のクラスに応じてカーネルを選択する必要がある。
【００１１】
トレーニングでは、学習系の目標はｍ個の全てのデータ点上で、将来の推定値が真のターゲット関数にできるだけ近づくように、次の最小二乗指標の値を最小にすることである。
【００１２】
【数１７】

（２）式を（３）式に代入すれば、このような誤差指標を用いると＾ｙ_ｉ値を推定する際には、すべての基底関数が互いに協調して変化する必要があることが分かる。つまり、どの基底関数も推定誤差を減少させる上で、ある程度寄与することが分かる。
【００１３】
【非特許文献１】
Ｋ．Ｓ．ナレンドラおよびＡ．Ｍ．アナスワミ著、「安定適応システム」プレンティスホール社発行、１９８９年（Ｋ．　Ｓ．　Ｎａｒｅｎｄｒａ　ａｎｄ　Ａ．　Ｍ．　Ａｎｎａｓｗａｍｙ，　Ｓｔａｂｌｅ　Ａｄａｐｔｉｖｅ　Ｓｙｓｔｅｍｓ．　ＰｒｅｎｔｉｃｅＨａｌｌ，　１９８９．）
【非特許文献２】
Ｊ．−Ｊ．Ｅ．スロタインおよびＷ．Ｅ．リー著、「応用非線形制御」、プレンティスホール社発行、１９９１年（Ｊ．−Ｊ．　Ｅ．　Ｓｌｏｔｉｎｅ　ａｎｄ　Ｗ．　Ｌｉ，　Ａｐｐｌｉｅｄ　Ｎｏｎｌｉｎｅａｒ　Ｃｏｎｔｒｏｌ．　ＰｒｅｎｔｉｃｅＨａｌｌ，　１９９１．）
【非特許文献３】
Ｊ．−Ｊ．Ｅ．スロタインおよびＷ．リー著、「ロボットマニピュレータの適応制御について」、インターナショナル・ジャーナル・オブ・ロボティックス・リサーチ、第６巻第３号、ｐｐ．４９−５０，１９８７年（Ｊ．−Ｊ．　Ｅ．　Ｓｌｏｔｉｎｅ　ａｎｄ　Ｗ．　Ｌｉ，　“Ｏｎ　ｔｈｅ　ａｄａｐｔｉｖｅ　ｃｏｎｔｒｏｌ　ｏｆ　ｒｏｂｏｔｍａｎｉｐｕｌａｔｏｒｓ，”　ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌ　ｏｆ　Ｒｏｂｏｔｉｃｓ　Ｒｅｓｅａｒｃｈ，　ｖｏｌ．　６，　ｎｏ．　３，　ｐｐ．　４９−５９，１９８７．）
【非特許文献４】
Ｌ．Ｌ．ホィットコム、Ａ．Ａ．リッツィおよびＤ．Ｅ．コディシェク著、「ロボットアームのための新たな適応制御を用いた比較実験」、ＩＥＥＥトランザクションズ・オン・ロボティックス・アンド・オートメーション、第９巻ｐｐ．５９−７０，１９９３年２月（Ｌ．　Ｌ．　Ｗｈｉｔｃｏｍｂ，　Ａ．　Ａ．　Ｒｉｚｚｉ，　ａｎｄ　Ｄ．　Ｅ．　Ｋｏｄｉｔｓｃｈｅｋ，　“Ｃｏｍｐａｒａｔｉｖｅｅｘｐｅｒｉｍｅｎｔｓ　ｗｉｔｈ　ａ　ｎｅｗ　ａｄａｐｔｉｖｅ　ｃｏｎｔｒｏｌｌｅｒ　ｆｏｒ　ｒｏｂｏｔ　ａｒｍｓ，”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｒｏｂｏｔｉｃｓ　ａｎｄＡｕｔｏｍａｔｉｏｎ，　ｖｏｌ．　９，　ｐｐ．　５９−７０，　Ｆｅｂ．　１９９３．）
【非特許文献５】
Ａ．Ｕ．レヴィンおよびＫ．Ｓ．ナレンドラ著、「ニューラルネットワークを用いた非線形動システムの制御：可制御性および安定性」、ＩＥＥＥトランザクションズ・オン・ニューラル・ネットワークス、第４巻、ｐｐ．１９２−２０６、１９９３年３月（Ａ．　Ｕ．　Ｌｅｖｉｎ　ａｎｄ　Ｋ．　Ｓ．　Ｎａｒｅｎｄｒａ，　“Ｃｏｎｔｒｏｌ　ｏｆ　ｎｏｎｌｉｎｅａｒ　ｄｙｎａｍｉｃａｌｓｙｓｔｅｍｓ　ｕｓｉｎｇ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ：　Ｃｏｎｔｒｏｌｌａｂｉｌｉｔｙ　ａｎｄ　ｓｔａｂｉｌｉｚａｔｉｏｎ，”　ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ，　ｖｏｌ．　４，　ｐｐ．　１９２−２０６，　Ｍａｒ．　１９９３．）
【非特許文献６】
Ｆ．−Ｃ．チェンおよびＨ．Ｋ．カリル著、「ニューラルネットワークを用いた非線形離散時間システムのクラスの適応制御」、ＩＥＥＥトランザクションズ・オン・オートマチック・コントロール、第４０巻、ｐｐ．７９１−８０１、１９９５年５月（Ｆ．−Ｃ．　Ｃｈｅｎ　ａｎｄ　Ｈ．　Ｋ．　Ｋｈａｌｉｌ，　“Ａｄａｐｔｉｖｅ　ｃｏｎｔｒｏｌ　ｏｆ　ａ　ｃｌａｓｓ　ｏｆｎｏｎｌｉｎｅａｒ　ｄｉｓｃｒｅｔｅ−ｔｉｍｅ　ｓｙｓｔｅｍｓ　ｕｓｉｎｇ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ，”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　）ｏｎ　Ａｕｔｏｍａｔｉｃ　Ｃｏｎｔｒｏｌ，　ｖｏｌ．　４０，　ｐｐ．　７９１−８０１，　Ｍａｙ　１９９５．
【非特許文献７】
Ｒ．サナーおよびＪ．−Ｊ．スロタイン著、「直接適応制御のためのガウシアンネットワーク」、ＩＥＥＥトランザクションズ・オン・ニューラル・ネットワークス、第３巻、ｐｐ．８３７−８６３，１９９２年１１月（Ｒ．　Ｓａｎｎｅｒ　ａｎｄ　Ｊ．−Ｊ．　Ｅ．　Ｓｌｏｔｉｎｅ，　“Ｇａｕｓｓｉａｎ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｄｉｒｅｃｔ　ａｄａｐｔｉｖｅｃｏｎｔｒｏｌ，”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ，　ｖｏｌ．　３，　ｐｐ．　８３７−８６３，　Ｎｏｖ．　１９９２．）
【非特許文献８】
Ｓ．セシャギリおよびＨ．Ｋ．カリル著、「ＲＢＦニューラル・ネットワークスを用いた非線形システムの出力フィードバック制御」、ＩＥＥＥトランザクションズ・オン・ニューラル・ネットワークス、第１１巻，ｐｐ．６９−７９，２０００年１月（Ｓ．　Ｓｅｓｈａｇｉｒｉ　ａｎｄ　Ｈ．　Ｋ．　Ｋｈａｌｉｌ，　“Ｏｕｔｐｕｔ　ｆｅｅｄｂａｃｋ　ｃｏｎｔｒｏｌ　ｏｆ　ｎｏｎｌｉｎｅａｒｓｙｓｔｅｍｓ　ｕｓｉｎｇ　ＲＢＦ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ，”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｎｅｕｒａｌ　）Ｎｅｔｗｏｒｋｓ，　ｖｏｌ．　１１，　ｐｐ．　６９−７９，　Ｊａｎ．　２０００．
【非特許文献９】
Ｊ．Ｙ．チョイおよびＪ．Ａ．ファレル著、「ピースワイズ線形近似のネットワークを用いた非線形適応制御」、ＩＥＥＥトランザクションズ・オン・ニューラル・ネットワークス」、第１１巻、ｐｐ．３９０−４０１、２０００年３月（Ｊ．　Ｙ．　Ｃｈｏｉ　ａｎｄ　Ｊ．　Ａ．　Ｆａｒｒｅｌｌ，　“Ｎｏｎｌｉｎｅａｒ　ａｄａｐｔｉｖｅ　ｃｏｎｔｒｏｌ　ｕｓｉｎｇｎｅｔｗｏｒｋｓ　ｏｆ　ｐｉｅｃｅｗｉｓｅ　ｌｉｎｅａｒ　ａｐｐｒｏｘｉｍａｔｉｏｎｓ，”　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ，　ｖｏｌ．　１１，　ｐｐ．　３９０−４０１，　Ｍａｒ．　２０００．）
【非特許文献１０】
Ｃ．Ｇ．アトキソン、Ａ．Ｗ．ムーア、およびＳ．シャール著、「局所重み付け学習」、アーティフィシャル・インテリジェンス・レビュー、第１１巻、第１−５号、ｐｐ．１１−７３、１９９７年（Ｃ．　Ｇ．　Ａｔｋｅｓｏｎ，　Ａ．　Ｗ．　Ｍｏｏｒｅ，　ａｎｄ　Ｓ．　Ｓｃｈａａｌ，　“Ｌｏｃａｌｌｙ　ｗｅｉｇｈｔｅｄｌｅａｒｎｉｎｇ，”　ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ　Ｒｅｖｉｅｗ，　ｖｏｌ．　１１，　ｎｏ．　１−５，　ｐｐ．　１１−７３，　１９９７．）
【非特許文献１１】
Ｊ．−Ｊ．Ｅ．スロタインおよびＷ．リー著、「ロボットマニピュレータの複合的適応制御」、オートマチカ、第２５巻、第４号、ｐｐ．５０９−５１９、１９８９年（Ｊ．−Ｊ．　Ｅ．　Ｓｌｏｔｉｎｅ　ａｎｄ　Ｗ．　Ｌｉ，　“Ｃｏｍｐｏｓｉｔｅ　ａｄａｐｔｉｖｅ　ｃｏｎｔｒｏｌ　ｏｆ　ｒｏｂｏｔｍａｎｉｐｕｌａｔｏｒｓ，”　Ａｕｔｏｍａｔｉｃａ，　ｖｏｌ．　２５，　ｎｏ．　４，　ｐｐ．　５０９−５１９，　１９８９．）
【非特許文献１２】
Ｓ．ヴィジャヤクマールおよびＨ．オガワ著、「正確なインクリメンタル学習のためのＲＫＨＳベースの関数分析」、ニューロコンピューティング、第２９巻、第１−３号、ｐｐ．８５−１１３、１９９９年（Ｓ．　Ｖｉｊａｙａｋｕｍａｒ　ａｎｄ　Ｈ．　Ｏｇａｗａ，　“ＲＫＨＳ　ｂａｓｅｄ　ｆｕｎｃｔｉｏｎａｌ　ａｎａｌｙｓｉｓ　ｆｏｒｅｘａｃｔ　ｉｎｃｒｅｍｅｎｔａｌ　ｌｅａｒｎｉｎｇ，”　Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，　ｖｏｌ．　２９，　ｎｏ．　１−３，　ｐｐ．　８５−１１３，　１９９９．）
【非特許文献１３】
Ｓ．シャールおよびＣ．Ｇ．アトキソン、「局所情報のみからのコンストラクティブ・インクリメンタル学習」、ニューラル・コンピューテーション、第１０巻、第８号、ｐｐ．２０４７−２０８４、１９９８年（Ｓ．　Ｓｃｈａａｌ　ａｎｄ　Ｃ．　Ｇ．　Ａｔｋｅｓｏｎ，　“Ｃｏｎｓｔｒｕｃｔｉｖｅ　ｉｎｃｒｅｍｅｎｔａｌ　ｌｅａｒｎｉｎｇ　ｆｒｏｍｏｎｌｙ　ｌｏｃａｌ　ｉｎｆｏｒｍａｔｉｏｎ，”　ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，　ｖｏｌ．　１０，　ｎｏ．　８，　ｐｐ．　２０４７−２０８４，　１９９８．）
【非特許文献１４】
Ｌ．リュングおよびＴ．ソーダーストローム著、「再帰的同定の理論と実践」、ＭＩＴプレス発行、１９８６年（Ｌ．　Ｌｊｕｎｇ　ａｎｄ　Ｔ．　Ｓｏｅｄｅｒｓｔｒｏｅｍ，　Ｔｈｅｏｒｙ　ａｎｄＰｒａｃｔｉｃｅ　ｏｆ　Ｒｅｃｕｒｓｉｖｅ　Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ．　ＭＩＴ　Ｐｒｅｓｓ，　１９８６．）
【非特許文献１５】
Ｈ．Ｋ．カリル著、「非線形系（第２版）」、プレンティスホール社刊、１９９６年（Ｈ．Ｋ．　Ｋｈａｌｉｌ，　Ｎｏｎｌｉｎｅａｒ　Ｓｙｓｔｅｍｓ（２ｎｄ　Ｅｄｉｔｉｏｎ）．　Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ，　１９９６．）
【非特許文献１６】
Ｓ．シャールおよびＣ．Ｇ．アトキソン著、「レセプティブ・フィールド重み付け回帰」、テクニカル・レポートＲＥ−Ｈ−２０９、ＡＴＲ人間情報処理研究所発行、１９９７年（Ｓ．　Ｓｃｈａａｌ　ａｎｄ　Ｃ．　Ｇ．　Ａｔｋｅｓｏｎ，　“Ｒｅｃｅｐｔｉｖｅ　ｆｉｅｌｄ　ｗｅｉｇｈｔｅｄ　ｒｅｇｒｅｓｓｉｏｎ，”ｔｅｃｈｎｉｃａｌ　ｒｅｐｏｒｔ　ＲＥ−Ｈ−２０９，　ＡＴＲ　Ｈｕｍａｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｌａｂｏｒａｔｏｒｉｅｓ，　１９９７．）
【非特許文献１７】
Ｈ．ゴミおよびＭ．カワト著、「フィードバック誤差学習を用いたクローズド・ループ系のためのニューラル・ネットワーク制御」、ニューラル・ネットワークス、第６巻、ｐｐ．９３３−９４６、１９９３年（Ｈ．　Ｇｏｍｉ　ａｎｄ　Ｍ．　Ｋａｗａｔｏ，　“Ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｃｏｎｔｒｏｌ　ｆｏｒ　ａ　ｃｌｏｓｅｄ−ｌｏｏｐｓｙｓｔｅｍ　ｕｓｉｎｇ　ｆｅｅｄｂａｃｋ−ｅｒｒｏｒ−ｌｅａｒｎｉｎｇ，”　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ，　ｖｏｌ．　６，　ｐｐ．９３３−９４６，　１９９３．）
【発明が解決しようとする課題】
このように、複数の基底関数が互いに協調して変化しなければならないため、真の関数を近似するための計算は複雑にならざるを得ない。これを「協調的学習」と呼ぶことにする。特に、時間を経るとデータが増加していくケースでは、基底関数を新たに加えることで近似のためのパラメータが増え、その結果真の関数の値をよりよく近似できるようになる。しかし基底関数の数をあまりに多くすると、入力データ中のノイズまでも近似関数の値に組込んでしまうおそれがある。一般にトレーニングデータがより複雑になり、対応すべき状況の範囲が広くなると、それに伴って学習結果も変化させる必要があるが、そうした場合にノイズまで学習することは、学習結果を不正確にし、システムを不安定とすることもあり好ましくない。
【００１４】
それゆえに本発明の目的は、モデルベースの非線形適応制御を利用した物理系の制御方法および装置であって、自動的に関数近似器の構造的な適合を行なえるもの、すなわち動作範囲の大きさおよび学習すべき関数の複雑さが大きくなるとともに漸増的に成長するようなものを提供することである。
【００１５】
本発明の他の目的は、モデルベースの非線形適応制御を利用した物理系の制御方法および装置であって、自動的に関数近似器の構造的な適合を行なえるもの、すなわち動作範囲の大きさおよび学習すべき関数の複雑さが大きくなるとともに漸増的に成長するようなものであってかつ安定であることが証明可能なものを提供することである。
【００１６】
本発明のさらに他の目的は、上記した物理系の制御方法を実現するためのコンピュータプログラムを提供することである。
【００１７】
【課題を解決するための手段】
この発明のある局面にかかる物理系の制御方法は、物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御方法である。関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められる。この方法は、関数近似の初期構造を規定するステップと、物理系の実際の状態を表わす状態データを受信するステップと、状態データに基づいて、物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および状態データと関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで関数近似を更新するステップと、更新された関数近似を用い、制御系の制御則にしたがって制御変数の計算を行なうステップと、計算された制御変数を物理系に出力するステップと、受信するステップ、更新するステップ、計算するステップおよび出力するステップを繰返し行なうステップとを含む。
【００１８】
好ましくは、関数近似＾ｙは、次の式
【００１９】
【数１８】

ただし
【００２０】
【数１９】

ｃ _ｋはｋ番目の線形モデルの中心位置、
ｗ_ｋは所定のカーネル関数により表わされる重み、
で表わされる。
【００２１】
より好ましくは、重みｗ_ｋは、
【００２２】
【数２０】

なるカーネル関数で計算される。
【００２３】
さらに好ましくは、更新するステップは、既存の局所モデルの各々について、状態データに基づいて、物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および状態データと関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新する第２のステップと、更新する第２のステップで更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するステップと、判定するステップで各局所モデルの学習パラメータが所定の条件を充足していると判定されたことに応答して、局所モデルを追加又は削除するステップとを含む。
【００２４】
更新する第２のステップは、局所モデルごとに、状態データおよびトラッキング誤差に基づいて重みｗ_ｋを計算するステップと、重みｗ_ｋを用い、以下の式
【００２５】
【数２１】

Ｐ_ｋは重み付けされた入力ｘ _ｋに対する共分散行列の逆行列、θ_ｋは当該局所モデルの学習パラメータ、ｗ_ｋは当該局所モデルの重み、ｅはトラッキング誤差、ｅ_ｐｋは近似誤差、λは忘却係数、にしたがって当該局所モデルの学習パラメータの近似＾θ_ｋを算出するステップと、所定の式により定められる、学習データを表わす関数値ｙと関数近似値＾ｙとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するステップとを含んでもよい。
【００２６】
好ましくは、判定するステップは、すべての局所モデルに対して算出された重みｗ_ｋ（ｋ＝１〜局所モデルの数）が所定のしきい値未満か否かを判定するステップを含み、追加又は削除するステップは、すべての局所モデルに対して算出された重みｗ_ｋが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するステップを含む。
【００２７】
より好ましくは、追加するステップで追加される局所モデルの中心位置の初期値は、状態データに対応するデータ点と等しい位置に選ばれる。
【００２８】
さらに好ましくは、追加するステップで追加される局所モデルの幅の初期値は、追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる。
【００２９】
好ましくは、最適化するステップは、以下の式により定められる誤差指標Ｊ_ｋを最小化するように距離メトリックＤ_ｋ，ｉｊを最適化するステップを含み、
【００３０】
【数２２】

ここでは、以下の勾配降下法が用いられ、
【００３１】
【数２３】

ここで、
【００３２】
【数２４】

であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である。
【００３３】
この発明の他の局面にかかるコンピュータプログラムは、コンピュータ上で実行されることにより上述のいずれかの物理系の制御方法を実行するように構成されたコンピュータプログラムコード手段を含む。このコンピュータプログラムは、コンピュータ可読な記憶媒体上に記録されてもよい。
【００３４】
この発明のさらに他の局面にかかる物理系の制御装置は、物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御装置である。関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められる。この装置は、関数近似の初期構造を規定するための初期化手段と、物理系の実際の状態を表わす状態データを受信するための受信手段と、状態データに基づいて、物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および状態データと関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで関数近似を更新するための更新手段と、更新された関数近似を用い、制御系の制御則にしたがって制御変数の計算を行なうための計算手段と、計算された制御変数を物理系に出力するための出力手段と、受信手段、更新手段、計算手段および出力手段手段が繰返し動作するよう制御するための制御手段とを含む。
【００３５】
好ましくは、関数近似＾ｙは、次の式
【００３６】
【数２５】

ただし
【００３７】
【数２６】

ｃ _ｋはｋ番目の線形モデルの中心位置、
ｗ_ｋは所定のカーネル関数により表わされる重み、
で表わされる。
【００３８】
好ましくは、重みｗ_ｋは、
【００３９】
【数２７】

なるカーネル関数で計算される。
【００４０】
より好ましくは、更新手段は、既存の局所モデルの各々について、状態データに基づいて、物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および状態データと関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新するための第２の更新手段と、第２の更新手段により更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するための判定手段と、判定手段が各局所モデルの学習パラメータが所定の条件を充足していると判定したことに応答して、局所モデルを追加又は削除するための手段とを含む。
【００４１】
さらに好ましくは、第２の更新手段は、局所モデルごとに、状態データおよびトラッキング誤差に基づいて重みｗ_ｋを計算するための手段と、重みｗ_ｋを用い、以下の式
【００４２】
【数２８】

Ｐ_ｋは重み付けされた入力ｘ _ｋに対する共分散行列の逆行列、θ_ｋは当該局所モデルの学習パラメータ、ｗ_ｋは当該局所モデルの重み、ｅはトラッキング誤差、ｅ_ｐｋは近似誤差、λは忘却係数、にしたがって当該局所モデルの学習パラメータの近似＾θ_ｋを算出するための手段と、所定の式により定められる、学習データを表わす関数値ｙと関数近似値＾ｙとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するための最適化手段とを含む。
【００４３】
判定手段は、すべての局所モデルに対して算出された重みｗ_ｋ（ｋ＝１〜局所モデルの数）が所定のしきい値未満か否かを判定するための手段を含んでもよく、追加又は削除するための手段は、すべての局所モデルに対して算出された重みｗ_ｋが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するための追加手段を含んでもよい。
【００４４】
好ましくは、追加手段により追加される局所モデルの中心位置の初期値は、状態データに対応するデータ点と等しい位置に選ばれる。
【００４５】
さらに好ましくは、追加手段により追加される局所モデルの幅の初期値は、追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる。
【００４６】
さらに好ましくは、最適化手段は、以下の式により定められる誤差指標Ｊ_ｋを最小化するように距離メトリックＤ_ｋ，ｉｊを最適化するための手段を含み、
【００４７】
【数２９】

ここでは、以下の勾配降下法が用いられ、
【００４８】
【数３０】

ここで、
【００４９】
【数３１】

であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である。
【００５０】
【発明の実施の形態】
以下、本発明の一実施の形態にかかる非線形制御系について述べる。以下、議論を簡明にするために前述の式（１）においてｇ（ｘ）＝１が既知であり、かつｎ＝１の場合のシステムを考える。すなわち、以下の制御系に関する関数近似について考える。
【００５１】
【数３２】

【００５２】
本実施の形態のシステムでは、関数近似を行なうためノンパラメトリック統計学中のカーネル回帰と呼ばれる回帰分析法に起源を持つ学習方法であって、局所重み付け学習（Ｌｏｃａｌｌｙ　Ｗｅｉｇｈｔｅｄ　Ｌｅａｒｎｉｎｇ）と呼ばれるものを採用する［非特許文献１０参照］。この方法は、ピースワイズ（区分された）線形モデルを用いて関数を局所的に他の関数で近似し、それらをそれぞれ局所的に重み付けして加算することにより、関数全体の近似を行なうというものである。ピースワイズ線形モデルでは、必要に応じて局所モデルが追加されるが、各局所モデルは局所的にしか関数近似に寄与しないので、学習システムのためのパラメータ数が過大となることは避けられる。
【００５３】
ＬＷＬでは、各基底関数とそのパラメータとは、互いに独立なローカルモデルであって、たとえばｋ番目のローカルモデルについては以下の局所的に重み付けされた誤差指標を最小化することをその主な特徴とする。
【００５４】
【数３３】

重みｗ_ｋ，ｉの算出方法については後述するが、データ点ｘがどの程度の割合でｋ番目の線形モデルが有効な領域に入っているかを示すものであり、その値はカーネル関数によって決まる。
【００５５】
本実施の形態では、このＬＷＬアルゴリズムの中で特定の例であるレセプティブ・フィールド重み付け回帰（ＲＦＷＲ：Ｒｅｃｅｐｔｉｖｅ　Ｆｉｅｌｄ　Ｗｅｉｇｈｔｅｄ　Ｒｅｇｒｅｓｓｉｏｎ）を用い、さらにトラッキング誤差と近似誤差との双方をパラメータの更新に用いる複合的な適応方法を用いる。ＲＦＷＲと、これら誤差とを用いたパラメータ更新により、本実施の形態の学習システムを採用した制御系は安定で、素早く正確なトラッキングに収束できることが分かった。
【００５６】
図１にトラッキング誤差を、図２に近似誤差を、それぞれ示す。図１および図２においては、説明を簡明にするために２次元的に表わしているが、実際の変数はより高い次元であることが多い。図１を参照して、トラッキング誤差とは、制御系の制御対象の理想的な軌跡ｘ_ｄ（曲線２０）と、制御の結果得られた実際の軌跡ｘ（曲線２２）との間の誤差２４のことをいう。トラッキング誤差のみを用いてパラメータ更新を行なう安定な制御系は既に存在している。
【００５７】
図２を参照して、近似誤差とは、学習データを表わす関数ｙ（曲線２６で表わされる）と、その関数近似＾ｙ（曲線２８で表わされる）との間の誤差３０のことをいう。本実施の形態ではこのトラッキング誤差と近似誤差との双方を用い、さらにピースワイズ線形モデルによる関数近似を行なうが、そのような学習を行なうものは従来は存在していなかった。このシステムによる学習を用いた制御系の安定性は証明可能である。
【００５８】
ＲＦＷＲでは、関数近似＾ｙを以下の式によって定める。
【００５９】
【数３４】

ただし
【００６０】
【数３５】

ｃ _ｋはｋ番目の線形モデルの中心位置、ｗ_ｋは所定のカーネル関数により表わされる重みである。重みｗ_ｋはデータ点ｘが各線形モデルの有効領域にどの程度入っているかを示す尺度である。本実施の形態では、カーネル関数としてコンパクトサポートを持つ以下の４次式で表わされるものを採用する。
【００６１】
【数３６】

ここでｄはｄ^２＝（ｘ−ｃ _ｋ）^ＴＤ_ｋ（ｘ−ｃ _ｋ）で定義されるＭａｈａｌａｎｏｂｉｓ（マハラノビス）距離である。ｃ _ｋはｋ番目のカーネル関数の中心を表わす。Ｄ_ｋは正の有限な距離メトリックである。この４次カーネルは、経験的に関数近似において一定の性能を示すことが知られているＬＷＬのカーネルファミリに属すもので、漸近属性が他とやや異なるものである。詳細については非特許文献１０を参照されたい。この関数を表わす曲線を図３に示す。
【００６２】
図３により分かるように、このカーネル関数は中心からある値の範囲では正の値（図に示す例では±１）をとるが、それ以外では０である。また中心で最大値（この例では１）をとる。このようにコンパクトサポートを持つカーネル関数は、計算量を少なくするので有利である。なぜなら、中心からカーネルの半径以上の距離のあるデータ点は、局所モデルに何ら影響を及ぼさないからである。
【００６３】
図４に、ＲＦＷＲとピースワイズ線形モデルとによる関数近似の概念を示す。図４を参照して、ここでは真の関数４０を近似する場合を考える。学習に用いられるトレーニング点（たとえばトレーニング点４２Ｃ）を中心としたカーネル直径内の範囲４２で、この関数４０を近似する線形関数（直線５２で表わされる）を考えることができる。同様に、各トレーニング点を中心とした局所的領域でこの関数４０を近似する線形関数（直線５４、５６などで表わされる）を考えることができる。線形関数とカーネル関数の形および大きさとを定めるパラメータ（以下に述べるようにこのパラメータは、距離メトリックと回帰パラメータとを含む。）は、トレーニング点による学習で最適化される。各トレーニング点を中心とした区間での最適化された近似関数にカーネル関数により表わされる重み付けをして互いに加算する。そうすることにより、全体として、関数４０が区分された直線（にカーネル関数による重み付けがされたもの）の和によって近似される。これがＲＦＷＲとピースワイズ線形モデルとを用いた関数近似の基本的概念である。
【００６４】
トレーニング点が増加するごとに、必要であれば新たに局所モデルを追加していくことで、関数近似がより正確となる。しかし局所モデルの追加を行なうためにはある基準が満たされる必要がある。また、学習における距離メトリックと回帰パラメータとの更新は、各局所モデルごとに他の局所モデルから完全に独立に行なうことができる。その結果、局所モデルがむやみに追加されることはなく、学習の堅牢性が確保できる。この詳細については非特許文献１３を参照。
【００６５】
図５に、本実施の形態にかかる非線形制御を行なうコントローラ６０のブロック図を、コントローラ６０に対して制御対象となるロボットなどの物理系からの制御変数の入力を行なうためのセンサ群６２Ａ−６２Ｎと、コントローラ６０によって制御されて動作するアクチュエータ群６４Ａ−６４Ｍとともに示す。コントローラ６０は、センサ群６２Ａ−６２Ｎからの入力を受ける入力ポート７０と、アクチュエータ群６４Ａ−６４Ｍが接続される出力ポート７２と、入力ポート７０および出力ポート７２に接続されるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）７４と、いずれもＣＰＵ７４に接続されるＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）７６、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）７８、ネットワークカード８２、およびメモリリーダ８０とを含む。ネットワークカード８２は外部のネットワーク９２に接続される。メモリリーダ８０には、集積回路からなるメモリカード９０を着脱可能であり、メモリカード９０に格納されたデータおよびプログラムをＣＰＵ７４に供給し、ＣＰＵ７４からのデータを格納することが可能である。
【００６６】
すなわち、このコントローラ６０は実質的にコンピュータハードウェアからなり、このコンピュータハードウェアの上で後述するような制御構造を有するプログラムを実行することにより、上記したＲＦＷＲによる学習と、学習結果による制御とを実現する。
【００６７】
図６に、このコントローラ６０が実行する学習および制御のためのプログラムの主要ルーチンの制御構造を示す。図６を参照して、このプログラムは起動後にプログラムの作業領域となるＲＡＭ７８上の領域を初期化したり、パラメータの初期値を読込んだりすることでプログラムの初期化処理を行なうステップ１００と、入力ポート７０でセンサ群６２Ａ−６２Ｎの出力である状態変数を受取りメモリに記憶するための入力ステップ１０２と、入力ステップ１０２において受取った状態変数の値と、内部で保持している学習パラメータ（関数近似のパラメータ）とに基づいて学習パラメータの更新処理を行なうステップ１０４と、更新された学習パラメータにより表わされる関数近似を用いて制御則による計算を行なうためのステップ１０６と、ステップ１０６で行なわれた計算結果を出力ポート７２を介してアクチュエータ群６４Ａ−６４Ｍに出力するためのステップ１０８とを含む。以下、ステップ１０２以下の処理を繰返すことにより、入力されたデータに基づく学習と、学習結果に基づく物理系の制御とが行なわれる。
【００６８】
図７に、図６のステップ１０４で行なわれる処理のフローチャートを示す。図７を参照して、ステップ１０４の学習パラメータの更新処理を行なうプログラムは、内部に保持している学習パラメータと、ステップ１０２においてセンサ群から受取った状態値とに基づき、既存の局所モデルのパラメータ更新を行なうステップ１２０と、学習パラメータおよびセンサ群からの入力とに基づいて新たな局所モデルを追加したり既存の局所モデルを削除したりすべきか否かを判定するためのステップ１２２と、ステップ１２２で局所モデルの追加又は削除をすべきと判定されたときに、必要な処理を行なうためのステップ１２４とを含む。
【００６９】
図８に、図７のステップ１２０での既存局所モデルのパラメータ更新を行なうプログラムのフローチャートを示す。図８を参照して、このプログラムは、以下の繰返し処理を制御するための繰返し変数ｋに初期値として０を代入するステップ１４０と、繰返し変数ｋに１を加算するステップ１４２と、繰返し変数ｋの値が現在の局所モデルの数を越えたか否かを判定し、判定結果がＹＥＳであれば処理を終了させるステップ１４４と、ステップ１４４の判定結果がＮＯである場合に、ステップ１０２で入力されメモリに記憶されたセンサ群６２Ａ−６２Ｎからの状態値ｘおよびトラッキング誤差ｅをメモリから読出すステップ１４６と、状態値ｘ、トラッキング誤差ｅ、および学習パラメータにより以下の式を用いて重みｗ_ｋの計算を行なうステップ１４８とを含む。
【００７０】
【数３７】

ｄの定義については前述したとおりである。
【００７１】
続いステップ１５０で以下の式により＾θ_ｋ，Ｐ_ｋの計算が行なわれる。
【００７２】
【数３８】

Ｐ_ｋは重み付けされた入力ｘ _ｋに対する共分散行列の逆行列であり、θ_ｋは学習パラメータであり、ｗ_ｋは前述の重みであり、ｅはトラッキング誤差であり、ｅ_ｐｋは近似誤差であり、λは忘却係数である。忘却係数λは、パラメータ更新においてはある程度新しいデータだけを用いるために導入された係数で［０，１］の値をとる。
【００７３】
次に、ステップ１５２では以下の式により定義される重み付けされた二乗平均誤差指標を最小化することによりこのｋ番目の線形モデルの距離メトリックＤ_ｋ＝Ｍ_ｋ ^ＴＭ_ｋが最適化される。
【００７４】
【数３９】

ここでは、以下の勾配降下法を用いる。
【００７５】
【数４０】

ここで、
【００７６】
【数４１】

であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である。この距離メトリックの最適化によってカーネルの形とサイズとが真の関数の局所的な曲率にしたがって調整される。すなわち、関数の二次微分行列（Ｈｅｓｓｉａｎ）が大きな値の領域ではカーネルの形は狭くなる。ＲＦＷＲのこのような漸近的な性質については非特許文献１６を参照。
【００７７】
再び図８を参照して、ステップ１５２の後制御はステップ１４２に戻り、以下全ての局所モデルに対してステップ１４４から１５２の処理を繰返すことにより、各局所モデルごとにパラメータが更新され、かつ入力されたデータ点に対する局所モデルごとの重みｗ_ｋが計算される。
【００７８】
図９に、図７のステップ１２２およびステップ１２４の一例として局所モデルを追加する場合のプログラムのフローチャートを示す。図９を参照して、まずステップ１０４であるデータ点ｘについて計算された全ての重みｗ_ｋがあるしきい値より小さいか否かが判定される。この判定結果がＹＥＳであれば、このデータ点の存在がどの局所モデルにも十分に反映されていないということなので、ステップ１７２で新規な局所モデルを追加する。この場合の局所モデルの中心ｃ _ｋの初期値はｘに設定される。その幅には適当な初期値が設定される。たとえば隣接する局所モデルの幅などを初期値に設定するとよい。これは、隣接する局所モデルは、真の関数の隣接する部分に対応しているので、そこでの真の関数の曲率にもそれほど大きな違いはないだろうという推定に基づく。もっとも、ここで新規に追加する局所モデルは以後の更新処理で調整されていくため、上のように幅を選ぶことは必須ではない。ただし、上のように選ぶことにより局所モデルの幅が早期に最適な値に調整されるという効果がある。
【００７９】
再び図７を参照して、ステップ１０６で計算に使用される制御則の例は以下の形のものである。
【００８０】
【数４２】

【００８１】
本実施の形態の制御系の効果を確認するために、数値シミュレーションを行なった。その結果について図１０〜図１２を参照して説明する。このシミュレーションでは以下のようなプラントを考える。
【００８２】
【数４３】

このプラントの運動力学系をタイムステップ０．００１秒でルンゲ−クッタ（Ｒｕｎｇｅ−Ｋｕｔｔａ）アルゴリズムを用いて積分し、局所モデルのパラメータを、デッドゾーンのない離散的表現で、より高次のシステムに拡張した適合規則を用いて０．０２秒ごとに更新した。このシミュレーションでは、非特許文献９と同じＰＤゲインＫ＝［Ｋ_１，Ｋ_２］^Ｔ＝［１００，２００］^Ｔと、フィルタリング済のエラーｅ_１＝ｃｅ（ｃ＝［１５，１］^Ｔ）とを用いた。物理系の初期条件はすべて０に設定した。
【００８３】
以下、本実施の形態にかかる適応コントローラの性能を、（非適応的）ＰＤコントローラと、トラッキング誤差ベースの適応コントローラの性能との比較しながら示す。このシミュレーションでは、非特許文献７、非特許文献９で用いられた所望の軌跡と同じ軌跡を目標とする学習を行なった。この軌跡は単一振幅で平均が０．５の０．４Ｈｚ矩形波により駆動される１０ｒａｄ／ｓの帯域を有する第三次プレフィルタの出力から生成されたものである。この軌跡の２周期分を図１０に示す。目標変数ｘは２つの要素ｘ_１およびｘ_２を含み、図１０においてはそれらの軌跡を別々の軌跡１９０および１９２として示してある。
【００８４】
トラッキング誤差ベースの適応コントローラについては、カーネルの中心位置は［−０．５，１．５］×［−３，３］の範囲で、メッシュサイズ０．５のグリッド上に定義した。したがって６５個の局所モデルを使用したことになる。ＲＦＷＲ複合学習適応コントローラについては、しきい値ｗ_ｇｅｎ＝０．２としたときにトレーニング点がどの局所モデルも活性化しないときに新たな局所モデルを追加するようにした。行列Ｐ_ｋについてはＰ_ｋ＝２５０Ｉで初期化した。その結果、指定した所望の軌跡に対して１８個の局所モデルが生成された。いずれの場合にも、カーネルの距離メトリックの初期値は行列Ｍ＝２．３Ｉとし、局所線形モデルのパラメータ＾θ_ｋはすべて０に設定した。
【００８５】
図１１は、（非適応的）ＰＤコントローラのトラッキング誤差２１０と、トラッキング誤差ベースの２種の適応レート（Γｋ＝１０Ｉと２５０Ｉ）の適応コントローラのトラッキング誤差２１２、２１４と、本実施の形態にかかるＲＦＷＲ複合学習適応コントローラのトラッキング誤差２１６とを互いに比較して示す。トラッキング誤差ベースの適応コントローラの収束速度は適応レートΓ_ｋに大きく依存する。Γｋが大きくなると収束は早くなる。理想的には、トラッキング誤差ベースの適応コントローラをよく調整すれば、図１１のΓ_ｋ＝２５０Ｉのケースに示すように、収束速度とトラッキング誤差の範囲という点では本実施の形態にかかるＲＦＷＲ複合適応コントローラと同等の性能を示す。しかし、サンプリング回数が有限であること、および測定誤差があるためにモデル外の動力学を誘発しやすいことによりその大きさには実際上限界があり、そのために制御系が不安定になるおそれがある。
【００８６】
図１２は、Ｎ（０，０．０１）のガウスノイズを測定値に加えたときの非適応的ＰＤコントローラによるトラッキング誤差２３０と、Γ_ｋ＝１０および２５０Ｉのトラッキング誤差ベースの適応コントローラのトラッキング誤差２３２および２３４と、本実施の形態のＲＦＷＲ複合適応コントローラによるトラッキング誤差２３６とを比較して示す。図１２に示すように、Γｋ＝２５０Ｉのトラッキング誤差ベースの適応コントローラの性能は、ガウスノイズの存在によって大きく低下する。それに対し本実施の形態にかかるＲＦＷＲ複合適応コントローラは安定でかつ高速な学習を実現していることが分かる。
【００８７】
構造適応
本実施の形態にかかるＲＦＷＲ複合学習適応コントローラによって、関数近似器の構造の適応化を実現することができ、それを用いたオンライン関数近似を実現することができる。この特徴は、近似すべき関数の入力域と複雑さとが未知の場合に特に有用である。必要に応じて新たなレセプティブ・フィールドが追加され、そのレセプティブ・フィールドの距離メトリックをリーブワンアウト（ｌｅａｖｅ−ｏｎｅ−ｏｕｔ）クロスバリデーション法による誤差指標を最小化することにより最適化する。
【００８８】
以下の例では、所望の軌跡を生成する際に上で述べたのと同じ矩形波を用いたが、その平均値を２．５秒ごとに−１．０から１．０の範囲でランダムに変化させ、ほぼ［−２，２］×［−２，２］の領域に分布したトレーニングデータを得る。パラメータとしてしきい値ｗ_ｇｅｎ＝０．２およびＰ_ｋ＝２５０Ｉを用いてＲＦＷＲの更新を行なう。距離メトリックの最適化には、第２次勾配降下法（非特許文献１３参照）を用いることにより、距離メトリックの適応速度を上げるようにする。ペナルティγ＝１０^−７を用いる。最初の局所モデルを距離メトリックＭ＝２．３Ｉで初期化し、新たな局所モデルを追加する際には、その距離メトリックは既存の局所モデルのうち最も近いものの距離メトリックと同じ値で初期化する。
【００８９】
図１３は近似すべき関数を示し、図１４は４００秒のトレーニング後のその関数近似を示す。距離メトリックの適応処理の結果、局所モデルの数は９９に増加し、レセプティブ・フィールドは最初は大きかったが、関数の局所的な曲率にしたがって学習過程で調整された。すなわち、それらは原点の突起部領域では狭くなり、関数がフラットな領域では大きいままであった。その様子を図１５に示す。
【００９０】
図１５に示す円形または長円形の線は、各レセプティブ・フィールドの、アクティベーション値が０．１となる等高線を示し、その中心を黒丸とプラス図形とで示す。図１５から分かるように、各レセプティブ・フィールドの大きさと形とは、関数の局所曲率にしたがって調整されている。
【００９１】
注意すべきなのは、トラッキング誤差ベースの適応コントローラに対しては、関数近似器の構造（中心位置、ならびに局所モデルのレセプティブ・フィールドの大きさおよび形）を、オンラインの適応処理に先立って決定しておかなければならないということである。このシミュレーションでは、トラッキング誤差ベースの適応コントローラによれば、メッシュサイズ０．５のグリッド上に広がった予想動作範囲［−２，２］×［−３．８］をカバーするために、２０７個の局所モデルを必要とする。これに対し、本実施の形態のＲＦＷＲ複合適応コントローラは動作範囲のサイズに関し、前もって情報を必要とはしないという利点がある。
【００９２】
以上のように本実施の形態の適応コントローラは、関数近似器の構造を自動的に適応させることができ、しかも安定動作することが証明できる。本実施の形態は局所重み付き学習フレームワーク（ＲＦＷＲ）を用い、未知の関数をピースワイズの（区分された）線形モデルで近似する。局所モデルは必要に応じて新たに割当てられ、局所モデルの構造を決定するカーネルの形と大きさとはオンラインで最適化される。構造を適応化できるというＲＦＷＲの特徴は、近似すべき関数の動作範囲および複雑さが前もってわからない場合に特に有用である。また本実施の形態の適応コントローラでは、トラッキング誤差と近似誤差との双方を用いて学習パラメータを更新する。その結果、本実施の形態の適応コントローラは非常に多くの問題に対し適用することができ、そこで用いられている適応学習方法により効率的でかつ安定な関数近似器を提供することができる。
【図面の簡単な説明】
【図１】トラッキング誤差の概念を示すグラフである。
【図２】近似誤差の概念を示すグラフである。
【図３】本発明の一実施の形態で用いられるカーネル関数の一例を示すグラフである。
【図４】ＲＦＷＲおよびピースワイズ線形近似の概念を示すグラフである。
【図５】本発明の一実施の形態にかかるコントローラのブロック図である。
【図６】本発明の一実施の形態にかかるコントローラが実行する物理系の制御プログラムの全体の制御構造を示すフローチャートである。
【図７】本発明の一実施の形態にかかるコントローラが実行する学習パラメータ更新処理のためのプログラムのフローチャートである。
【図８】本発明の一実施の形態にかかるコントローラが実行する既存局所モデルのパラメータ更新処理のためのプログラムのフローチャートである。
【図９】本発明の一実施の形態にかかるコントローラが実行する局所モデルの追加処理のためのプログラムのフローチャートである。
【図１０】数値シミュレーションにおける目標軌跡を示すグラフである。
【図１１】数値シミュレーションにおける本発明の一実施の形態にかかるコントローラの性能を説明するためのグラフである。
【図１２】数値シミュレーションにおける本発明の一実施の形態にかかるコントローラの性能を説明するための別のグラフである。
【図１３】数値シミュレーションにおける目標関数を示すグラフである。
【図１４】数値シミュレーションにおける本発明の一実施の形態のコントローラによる関数近似の結果を示すグラフである。
【図１５】数値シミュレーションにおいて、本発明の一実施の形態のコントローラによって学習された局所モデルの数および分布を示すグラフである。
【符号の説明】
２０　目標軌跡、２２　実際の軌跡、２４　トラッキング誤差、２６，４０　真の関数、２８　関数近似、３０　近似誤差、３２　カーネル関数、４２，４４，４６　カーネル直径の範囲、４２Ｃ　カーネル中心、５２，５４，５６　局所近似線形関数、６０　コントローラ、７４　ＣＰＵ、７６　ＲＯＭ、７８　ＲＡＭ、８０　メモリリーダ、８２　ネットワークボード、９０　メモリカード、９２　ネットワーク

Claims

物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御方法であって、前記関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められ、
前記関数近似の初期構造を規定するステップと、
前記物理系の実際の状態を表わす状態データを受信するステップと、
前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで前記関数近似を更新するステップと、
更新された前記関数近似を用い、前記制御系の制御則にしたがって制御変数の計算を行なうステップと、
計算された前記制御変数を前記物理系に出力するステップと、
前記受信するステップ、更新するステップ、計算を行なうステップ、および出力するステップを繰返し行なうステップとを含む、物理系の制御方法。
前記関数近似＾ｙは、次の式

ただし

ｃ _ｋはｋ番目の線形モデルの中心位置、
ｗ_ｋは所定のカーネル関数により表わされる重み、
で表わされる、請求項１に記載の物理系の制御方法。
前記重みｗ_ｋは、

なるカーネル関数で計算される、請求項２に記載の物理系の制御方法。
前記更新するステップは、
既存の局所モデルの各々について、前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新する第２のステップと、
前記更新する第２のステップで更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するステップと、
前記判定するステップで各局所モデルの学習パラメータが前記所定の条件を充足していると判定されたことに応答して、局所モデルを追加又は削除するステップとを含む、請求項３に記載の物理系の制御方法。
前記更新する第２のステップは、
前記局所モデルごとに、
前記状態データおよび前記トラッキング誤差に基づいて前記重みｗ_ｋを計算するステップと、
前記重みｗ_ｋを用い、以下の式

Ｐ_ｋは重み付けされた入力ｘ _ｋに対する共分散行列の逆行列、θ_ｋは当該局所モデルの学習パラメータ、ｗ_ｋは当該局所モデルの重み、ｅはトラッキング誤差、ｅ_ｐｋは近似誤差、λは忘却係数
にしたがって当該局所モデルの学習パラメータの近似＾θ_ｋを算出するステップと、
所定の式により定められる、学習データを表わす関数値ｙと関数近似値＾ｙとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するステップとを含む、請求項４に記載の物理系の制御方法。
前記判定するステップは、すべての局所モデルに対して算出された重みｗ_ｋ（ｋ＝１〜局所モデルの数）が所定のしきい値未満か否かを判定するステップを含み、
前記追加又は削除するステップは、すべての局所モデルに対して算出された重みｗ_ｋが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するステップを含む、請求項５に記載の物理系の制御方法。
前記追加するステップで追加される局所モデルの中心位置の初期値は、前記状態データに対応するデータ点と等しい位置に選ばれる、請求項６に記載の物理系の制御方法。
前記追加するステップで追加される局所モデルの幅の初期値は、前記追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる、請求項６又は７に記載の物理系の制御方法。
前記最適化するステップは、以下の式により定められる誤差指標Ｊ_ｋを最小化するように距離メトリックＤ_ｋ，ｉｊを最適化するステップを含み、

ここでは、以下の勾配降下法が用いられ、

ここで、

であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である、請求項６から請求項８のいずれかに記載の物理系の制御方法。
コンピュータ上で実行されることにより請求項１から請求項９のいずれかに記載の物理系の制御方法を実行するように構成されたコンピュータプログラムコード手段を含む、物理系の制御のためのコンピュータプログラム。
コンピュータ可読な記憶媒体上に記録された、請求項１０に記載の物理系の制御のためのコンピュータプログラム。
物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御装置であって、前記関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められ、
前記関数近似の初期構造を規定するための初期化手段と、
前記物理系の実際の状態を表わす状態データを受信するための受信手段と、
前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで前記関数近似を更新するための更新手段と、
更新された前記関数近似を用い、前記制御系の制御則にしたがって制御変数の計算を行なうための計算手段と、
計算された前記制御変数を前記物理系に出力するための出力手段と、
前記受信手段、更新手段、計算手段および前記出力手段が繰返し動作するよう制御するための制御手段とを含む、物理系の制御装置。
前記関数近似＾ｙは、次の式

ただし

ｃ _ｋはｋ番目の線形モデルの中心位置、
ｗ_ｋは所定のカーネル関数により表わされる重み、
で表わされる、請求項１２に記載の物理系の制御装置。
前記重みｗ_ｋは、

なるカーネル関数で計算される、請求項１３に記載の物理系の制御装置。
前記更新手段は、
既存の局所モデルの各々について、前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新するための第２の更新手段と、
前記第２の更新手段により更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するための判定手段と、
前記判定手段が各局所モデルの学習パラメータが前記所定の条件を充足していると判定したことに応答して、局所モデルを追加又は削除するための手段とを含む、請求項１４に記載の物理系の制御装置。
前記第２の更新手段は、
前記局所モデルごとに、
前記状態データおよび前記トラッキング誤差に基づいて前記重みｗ_ｋを計算するための手段と、
前記重みｗ_ｋを用い、以下の式

Ｐ_ｋは重み付けされた入力ｘ _ｋに対する共分散行列の逆行列、θ_ｋは当該局所モデルの学習パラメータ、ｗ_ｋは当該局所モデルの重み、ｅはトラッキング誤差、ｅ_ｐｋは近似誤差、λは忘却係数にしたがって当該局所モデルの学習パラメータの近似＾θ_ｋを算出するための手段と、
所定の式により定められる、学習データを表わす関数値ｙと関数近似値＾ｙとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するための最適化手段とを含む、請求項１５に記載の物理系の制御装置。
前記判定手段は、すべての局所モデルに対して算出された重みｗ_ｋ（ｋ＝１〜局所モデルの数）が所定のしきい値未満か否かを判定するための手段を含み、
前記追加又は削除するための手段は、すべての局所モデルに対して算出された重みｗ_ｋが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するための追加手段を含む、請求項１６に記載の物理系の制御装置。
前記追加手段により追加される局所モデルの中心位置の初期値は、前記状態データに対応するデータ点と等しい位置に選ばれる、請求項１７に記載の物理系の制御装置。
前記追加手段により追加される局所モデルの幅の初期値は、前記追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる、請求項１７又は請求項１８に記載の物理系の制御装置。
前記最適化手段は、以下の式により定められる誤差指標Ｊ_ｋを最小化するように距離メトリックＤ_ｋ，ｉｊを最適化するための手段を含み、

ここでは、以下の勾配降下法が用いられ、

ここで、

であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である、請求項１７から請求項１９のいずれかに記載の物理系の制御装置。