JP4388033B2

JP4388033B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP4388033B2
Application number: JP2006135714A
Authority: JP
Inventors: 淳谷; 隆之助西本; 真人伊藤
Original assignee: Sony Corp; RIKEN Institute of Physical and Chemical Research
Current assignee: Sony Corp; RIKEN Institute of Physical and Chemical Research
Priority date: 2006-05-15
Filing date: 2006-05-15
Publication date: 2009-12-24
Anticipated expiration: 2026-05-15
Also published as: US20070265841A1; JP2007305071A; US7877338B2

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、時系列データをより正確に生成することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。

本出願人は、リカレント型ニューラルネットワークを用いて、時系列データを、学習した結果に応じて時系列データを発生させることを先に提案した（例えば、特許文献１参照）。

この提案においては、図１に示されるように、情報処理装置が、基本的に、リカレント型ニューラルネットワーク（以下、RNNという）１−１乃至１−ｖを有する下位の階層のネットワークと、RNN１１−１乃至１１−ｖを有する上位の階層のネットワークとで構成される。

下位の階層のネットワークにおいては、RNN１−１乃至１−ｖの出力が、それぞれ対応するゲート２−１乃至２−ｖを介して、合成回路３に供給され、合成される。

上位の階層のネットワークにおいても、RNN１１−１乃至１１−ｖの出力が、対応するゲート１２−１乃至１２−ｖを介して合成回路１３に供給され、合成される。そして、上位の階層の合成回路１３の出力に基づいて、下位の階層のゲート２−１乃至２−ｖのオン、オフが制御される。

図１に示す構成を有する情報処理装置では、下位の階層のRNN１−１乃至１−ｖに、それぞれ時系列データＰ１乃至Ｐｖを発生させ、上位の階層の合成回路１３の出力に基づいて、下位の階層のゲート２−１乃至２−ｖのうちの所定のものをオンまたはオフさせるようにすることで、合成回路３からRNN１−１乃至１−ｖのうちの所定のものが発生した時系列データＰ１乃至Ｐｖのいずれかを選択的に出力させることができる。

これにより、例えば、図２に示されるように、所定の時間、時系列データＰ１を生成させた後、次の所定の時間、時系列データＰ２を生成させ、さらに、その次の所定の時間、再び時系列データＰ１を生成させるなどして、時系列データを生成させることができる。
特開平１１−１２６１９８号公報

しかしながら、先の提案は、ゲート２−１乃至２−ｖのうちのいずれか１つのゲートをオンさせる、いわゆるウィナーテイクオール（Winner-take-all）の動作を実行させるようにしているため、ゲート２−１乃至２−ｖの勝者がはっきりと区別される場合には問題ないが、例えば、勝者を決定するレベルが複数のゲートどうしで拮抗しているような場合には、勝者としてのゲート２−１乃至２−ｖが頻繁に交替することがあり、時系列データをより正確に生成することが困難であった。

本発明は、このような状況に鑑みてなされたものであり、時系列データをより正確に生成することができるようにするものである。

本発明の一側面の情報処理装置は、制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御する情報処理装置であって、所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算する複数の行動部品毎のリカレント型ニューラルネットワークと、各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークのそれぞれにより予測演算された前記予測時系列データをそれぞれ出力する前記複数の行動部品毎のゲート手段と、各時刻毎に、前記複数の行動部品毎のゲート手段からそれぞれ出力された前記予測時系列データを合成して出力する合成手段とを有する下位時系列データ生成手段と、各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記複数の行動部品毎のゲート手段のそれぞれについて、前記時刻t+1までの前記予測時系列データの出力の度合を制御する変換手段と、各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークにより予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算する連続時間型のリカレント型ニューラルネットワークを有し、前記連続時間型のリカレント型ニューラルネットワークにより生成された前記時刻t+1までの前記推定予測誤差時系列データを前記変換手段に供給する上位時系列データ生成手段とを備える。

前記下位時系列データ生成手段が出力する前記予測誤差時系列データに対して時間フィルタ処理を施す時間フィルタ手段をさらに設けることができる。

前記下位時系列データ生成手段が出力する前記予測誤差時系列データを非線形に変換する非線形フィルタ手段をさらに設けることができる。

前記下位時系列データ生成手段には、既存の行動シーケンスについて前記生徒用時系列データを学習する毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれが前記生徒用時系列データの学習時に発生した前記予測誤差時系列データを、前記ソフトマックス関数に入力させ、その出力に応じて、新規の行動シーケンスについて前記生徒用時系列データを学習する場合に用いられる、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれの学習の重みを更新させることができる。

前記下位時系列データ生成手段には、既存の行動シーケンスについて前記生徒用時系列データを学習する毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれが前記生徒用時系列データの学習時に発生した前記予測誤差時系列データのうち、最も小さい誤差を発生した前記複数の行動部品毎のリカレント型ニューラルネットワークを勝者として、前記勝者からの距離に応じて、新規の行動シーケンスについて前記生徒用時系列データを学習する場合に用いられる、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれの前記学習の重みを更新させることができる。

本発明の一側面の情報処理方法は、制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御する情報処理装置の情報処理方法であって、前記情報処理装置は、複数の行動部品毎のリカレント型ニューラルネットワークと、ゲート手段と、合成手段とを含む下位時系列データ生成手段と、変換手段と、連続時間型のリカレント型ニューラルネットワークを含む下位時系列データ生成手段とを備え、前記複数の行動部品毎のリカレント型ニューラルネットワークが、所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算し、前記ゲート手段が、各時刻毎に、予測演算された前記予測時系列データをそれぞれ出力し、前記合成手段が、各時刻毎に、それぞれ出力された前記予測時系列データを合成し、前記変換手段が、各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記時刻t+1までの前記予測時系列データの出力の度合を制御し、前記連続時間型のリカレント型ニューラルネットワークを含む前記上位時系列データ生成手段が、各時刻毎に、予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算し、前記時刻t+1までの前記推定予測誤差時系列データを供給するステップを含む。

本発明の一側面のプログラムは、制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御するプログラムであって、所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算する、複数の行動部品毎のリカレント型ニューラルネットワークと、各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークのそれぞれにより予測演算された前記予測時系列データをそれぞれ出力する、前記複数の行動部品毎のゲート手段と、各時刻毎に、前記複数の行動部品毎のゲート手段からそれぞれ出力された前記予測時系列データを合成して出力する合成手段とを有する下位時系列データ生成手段と、各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記複数の行動部品毎のゲート手段のそれぞれについて、前記時刻t+1までの前記予測時系列データの出力の度合を制御する変換手段と、各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークにより予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算する連続時間型のリカレント型ニューラルネットワークを有し、前記連続時間型のリカレント型ニューラルネットワークにより生成された前記時刻t+1までの前記推定予測誤差時系列データを前記変換手段に供給する上位時系列データ生成手段として機能させるための処理をコンピュータに実行させる。

本発明の一側面においては、所定の行動部品を実現させる制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの動作を示す検出データである生徒用時系列データが学習され、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データが各時刻毎に予測演算される。前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データが各時刻毎に予測演算され、各時刻毎に、予測演算された前記予測時系列データがそれぞれ出力される。各時刻毎に、それぞれ出力された前記予測時系列データが合成され、各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換が施され、変換後のデータに基づいて、前記時刻t+1までの前記予測時系列データの出力の度合が制御され、各時刻毎に、予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データが生徒データとして学習され、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データが予測演算され、前記時刻t+1までの前記推定予測誤差時系列データが供給される。

本発明の一側面によれば、時系列データをより正確に生成することができる。

以下、図を参照して、本発明の実施の形態について説明する。

図３は、本発明を適用した情報処理装置の構成例を示している。

図３の情報処理装置５１は、例えば、ロボットなどに組み込まれるものである。情報処理装置５１が組み込まれるロボットには、視認の対象となる対象物を検出するセンサと、ロボットを移動させるために駆動されるモータ（いずれも図示せず）が少なくとも具備されており、センサおよびモータからの信号であるセンサモータ信号が情報処理装置５１に供給される。

情報処理装置５１は、下位時系列予測生成器６１、上位時系列予測生成器６２、およびゲート信号変換部６３により構成され、教師データとして与えられる時系列データを学習する学習処理と、その学習した結果に応じて、入力に対する時系列データを生成（再現）する生成処理を実行する。

本実施の形態では、情報処理装置５１が、ヒューマノイドロボットが行う一連の動作である行動シーケンスを学習および生成する例について説明する。

以下の例では、情報処理装置５１が３つの行動シーケンスA，B、およびCを学習する。

行動シーケンスAとしてのヒューマノイドロボットの動作は、初期状態としての両腕を左右に広げた状態のロボットが、目の前のテーブルに置かれた四角い物体を視認し、物体を両手で掴んで所定の高さだけ持ち上げ、再びテーブルに置く動作を複数回行い、その後、初期状態の位置（以下、ホームポジションともいう）に両腕を戻す動作である。

行動シーケンスBとしてのヒューマノイドロボットの動作は、初期状態から、目の前のテーブルに置かれた四角い物体を視認し、右手で物体に触る、ホームポジションに戻す、左手で物体に触る、ホームポジションに戻るという動作、即ち、物体を片手で交互に触る動作を複数回行う動作である。

行動シーケンスCとしてのヒューマノイドロボットの動作は、初期状態から、目の前のテーブルに置かれた四角い物体を視認し、両手で同時に物体を１回触って、ホームポジションに戻る動作である。

以上のような行動シーケンスA乃至Cそれぞれを実行するときのセンサ（例えば、視覚センサなど）やモータの信号を、情報処理装置５１は学習および生成する。

下位時系列予測生成器６１は、N個のリカレント型ニューラルネットワーク（Recurrent Neural Network;以下、RNNという）７１−１乃至７１−Ｎ、そのRNN７１−１乃至７１−Ｎの後段に配置されるゲート７２−１乃至７２−Ｎ、合成回路７３、演算回路７４、メモリ７５、および制御回路７６により構成される。なお、RNN７１−１乃至７１−Ｎを特に区別する必要がない場合には、単にRNN７１と称する。その他のゲート７２などについても同様である。

下位時系列予測生成器６１には、ヒューマノイドロボットに具備されたセンサおよびモータからのセンサモータ信号が入力される。ここで、時刻ｔに、下位時系列予測生成器６１に入力されるセンサモータ信号をｓｍ（ｔ）と表す。

下位時系列予測生成器６１は、そこに入力される時刻ｔのセンサモータ信号ｓｍ（ｔ）に対して、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）を、予め学習した結果に応じて予測して、出力する。

具体的には、RNN７１−ｎ（ｎ＝１，２，・・・，Ｎ）は、入力された時刻ｔのセンサモータ信号ｓｍ（ｔ）に対して、予め学習した結果に応じて時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）を生成し、ゲート７２−ｎに出力する。

ところで、行動シーケンスは、さまざまな複数の行動部品（運動プリミティブ（primitive））の集まり（連続）で構成されると考えることができる。例えば、上述した行動シーケンスAは、物体を視認する、両腕を物体に（掴むまで）近づける、物体を持ち上げる、持ち上げた物体を下げる、ホームポジションに戻る、等の行動部品の集まりであると考えることができる。RNN７１−１乃至７１−Ｎのそれぞれは、１つの行動部品に対応するセンサモータ信号の時系列データを排他的に学習する。

従って、RNN７１−１乃至７１−Ｎそれぞれに学習されている行動部品が異なるために、RNN７１−１乃至７１−Ｎのそれぞれには、同一のセンサモータ信号ｓｍ（ｔ）が入力されるが、RNN７１−１乃至７１−Ｎのそれぞれが出力するセンサモータ信号ｓｍ（ｔ＋１）は異なるものとなる。ここで、RNN７１−ｎが出力するセンサモータ信号ｓｍ（ｔ＋１）をセンサモータ信号ｓｍ_n（ｔ＋１）と表す。

RNN７１−ｎの後段に配置されるゲート７２−ｎには、RNN７１−ｎからの時刻ｔ＋１のセンサモータ信号ｓｍ_n（ｔ＋１）の他に、ゲート信号変換部６３から、ゲート７２−１乃至７２−Ｎの開閉状態の制御信号であるゲート信号gate［Ｎ］＝｛ｇ₁，ｇ₂，・・・，ｇ_N｝が供給される。なお、後述するように、ゲート信号gate［Ｎ］を構成するゲート信号ｇ_nの総和は１（Σｇ_n＝１）となっている。

ゲート７２−ｎは、ゲート信号ｇ_nに応じて、RNN７１−ｎからのセンサモータ信号ｓｍ_n（ｔ＋１）の出力を開閉する。即ち、ゲート７２−ｎは、時刻ｔ＋１において、ｇ_n×ｓｍ_n（ｔ＋１）を合成回路７３に出力する。

合成回路７３は、ゲート７２−１乃至７２−Ｎそれぞれからの出力を合成し、その合成の結果を、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）として出力する。即ち、合成回路７３は、次式（１）で表されるセンサモータ信号ｓｍ（ｔ＋１）を出力する。

演算回路７４は、センサモータ信号の時系列データの学習時、時刻ｔのセンサモータ信号ｓｍ（ｔ）に対してRNN７１−１乃至７１−Ｎそれぞれが出力した時刻ｔ＋１のセンサモータ信号ｓｍ₁（ｔ＋１）乃至ｓｍ_N（ｔ＋１）と、教師データとして下位時系列予測生成器６１に与えられる時刻ｔ＋１の教師センサモータ信号ｓｍ^*（ｔ＋１）との予測誤差errorL^t+1［Ｎ］＝｛errorL^t+1 ₁，errorL^t+1 ₂，・・・，errorL^t+1 _N｝を計算する。なお、予測誤差errorL^t+1［Ｎ］は、後述する式（１６）で表されるように、時刻ｔ＋１における誤差だけではなく、時刻ｔ＋１から過去Ｌステップ分を考慮した誤差として計算される。

演算回路７４により計算された時刻ｔ＋１におけるRNN７１−ｎの予測誤差errorL^t+1 _nは、メモリ７５に供給され、記憶される。

演算回路７４において、予測誤差errorL^t+1［Ｎ］の計算が時系列に繰り返され、メモリ７５に記憶されることにより、メモリ７５には、教師データに対する予測誤差の時系列データerrorL［Ｎ］が記憶される。この予測誤差の時系列データerrorL［Ｎ］は、上位時系列予測生成器６２に供給される。なお、演算回路７４は、教師データに対する予測誤差の時系列データerrorL［Ｎ］を、０から１の範囲の値に正規化してから出力する。

メモリ７５は、上述したように、教師データに対する予測誤差の時系列データerrorL［Ｎ］を記憶する。また、メモリ７５は、RNN７１−１乃至７１−Ｎの利用頻度FREQ₁乃至FREQ_Nも記憶する。RNN７１−１乃至７１−Ｎの利用頻度FREQ₁乃至FREQ_Nについては図６を参照して後述する。

制御回路７６は、RNN７１−１乃至７１−Ｎ、演算回路７４、メモリ７５など、下位時系列予測生成器６１の各部を制御する。

一方、上位時系列予測生成器６２は、１個の連続時間型のRNN（Continuous Time RNN：以下、CTRNNという）８１により構成される。

上位時系列予測生成器６２のCTRNN８１は、下位時系列生成器６１のRNN７１−１乃至７１−Ｎが、生成時にどれくらいの予測誤差を発生させるかを推定（予測）して出力する。

即ち、CTRNN８１は、RNN７１−１乃至７１−Ｎの予測誤差の時系列データerrorL［Ｎ］を教師データとして用いて学習し、その学習した結果に基づいて、RNN７１−１乃至７１−Ｎの推定予測誤差errorPredH［Ｎ］＝｛errorPredH₁，errorPredH₂，・・・，errorPredH_N｝を生成し、出力する。ここで、時刻ｔにおける推定予測誤差errorPredH［Ｎ］を、errorPredH^t［Ｎ］＝｛errorPredH^t ₁，errorPredH^t ₂，・・・，errorPredH^t _N｝とする。

また、CTRNN８１には、行動シーケンスA乃至Bのいずれの推定予測誤差errorPredH［Ｎ］を出力するかを切替えるタスク切替信号としてのタスクIDが与えられる。

ゲート信号変換部６３は、ソフトマックス（softmax）関数を用いて、時刻ｔにおける推定予測誤差errorPredH^t［Ｎ］を、ゲート信号gate^t［Ｎ］＝｛ｇ^t ₁，ｇ^t ₂，・・・，ｇ^t _N｝に変換し、変換した結果をゲート７２−１乃至７２−Ｎに出力する。

時刻ｔにおけるゲート７２−ｎに対するゲート信号ｇ^t _nは、次式（２）で表される。

式（２）によれば、予測誤差の小さいものは大きい値に、予測誤差の大きいものは小さい値となるような非線形の変換が施される。その結果、予測誤差の小さいものほどゲートがより大きく開き、予測誤差の大きいものほどゲートがより小さく開くような制御が、下位時系列生成器６１のゲート７２−１乃至７２−Ｎにおいて行われることになる。

以上のように構成される情報処理装置５１では、上位時系列予測生成器６２が、下位時系列生成器６１のRNN７１−１乃至７１−Ｎが生成時に発生させる予測誤差の推定値である推定予測誤差errorPredH［Ｎ］を出力し、この推定予測誤差errorPredH［Ｎ］が、ゲート７２−１乃至７２−Ｎの開閉状態を制御するゲート信号gate［Ｎ］に変換される。そして、上述の（１）式で表される、開閉状態が制御されたゲート７２−１乃至７２−Ｎから出力されるRNN７１−１乃至７１−Ｎの出力信号ｓｍ₁（ｔ＋１）乃至ｓｍ_N（ｔ＋１）の総和が、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）として、ヒューマノイドロボットのセンサおよびモータに供給される。

なお、上位時系列予測生成器６２は、上位時系列予測生成器６２の出力である推定予測誤差errorPredH［Ｎ］が、後段のゲート信号変換部６３においてゲート信号gate［Ｎ］に変換されるから、時刻ｔにおいて、どのゲート７２−１乃至７２−Ｎを（大きく）開放するかを予測しているとも言える。

図４は、RNN７１−ｎの詳細な構成例を示している。

RNN７１−ｎは、図４に示されるように、入力層１０１、中間層（隠れ層）１０２、および出力層１０３により構成されており、入力層１０１は所定数のノード１１１を有し、中間層（隠れ層）１０２は、所定数のノード１１２を有し、出力層１０３は、所定数のノード１１３を有している。

入力層１０１のノード１１１には、時刻ｔにおけるセンサモータ信号ｓｍ（ｔ）と、時刻ｔの１つ前の時刻ｔ−１に出力層１０３の一部のノード１１３から出力され、RNN７１−ｎの内部状態を表すコンテキストｃ（ｔ）としてフィードバックされたデータが、入力される。

中間層１０２のノード１１２は、入力層１０１のノード１１１から入力されたデータと、予め学習によって求められたノード１１１との間の重み係数とを積和する重み付け加算処理を行い、その演算結果を出力層１０３のノード１１３に出力する。

出力層１０３を構成するノード１１３は、中間層１０２のノード１１２から入力されたデータと、予め学習によって求められたノード１１２との間の重み係数とを積和する重み付け加算処理の演算を行う。出力層１０３を構成する一部のノード１１３は、演算結果を、時刻ｔ＋１のセンサモータ信号ｓｍ_n（ｔ＋１）として出力する。また、出力層１０３を構成するその他の一部のノード１１３は、演算結果を、時刻ｔ＋１のコンテキストｃ（ｔ＋１）として、入力層１０１のノード１１１にフィードバックする。

以上のように、RNN７１−ｎは、予め学習によって求められたノード間の重み係数を用いた重み付け加算処理により、入力された時刻ｔのセンサモータ信号ｓｍ（ｔ）に対して、時刻ｔ＋１のセンサモータ信号ｓｍ_n（ｔ＋１）を予測して出力する。

なお、ノード間の重み係数を求める学習では、BPTT（Back Propagation Through Time）法が採用される。BPTT法は、コンテキストループを持つRNNの学習アルゴリズムであり、時間的な信号伝播の様子を空間的に展開することで、通常の階層型ニューラルネットワークにおけるバックプロパゲーション（BP）法を適用する手法である。次に後述するCTRNN８１において重み係数を求める場合も同様である。

図５は、CTRNN８１として採用されるCTRNNの詳細な構成例を示している。

図５のCTRNN１４１は、入力層１５１、中間層（隠れ層）１５２、出力層１５３、並びに演算部１５４および１５５により構成されている。

入力層１５１は、入力ノード１６０−ｉ（ｉ＝１，・・・，Ｉ）、パラメータノード１６１−ｒ（ｒ＝１，・・・，Ｒ）、およびコンテキスト入力ノード１６２−ｋ（ｋ＝１，・・・，Ｋ）を有しており、中間層１５２は、隠れノード１６３−ｊ（ｊ＝１，・・・，Ｊ）を有している。また、出力層１５３は、出力ノード１６４−ｉ（ｉ＝１，・・・，Ｉ）と、コンテキスト出力ノード１６５−ｋ（ｋ＝１，・・・，Ｋ）を有している。

なお、入力ノード１６０−ｉ、パラメータノード１６１−ｒ、コンテキスト入力ノード１６２−ｋ、隠れノード１６３−ｊ、出力ノード１６４−ｉ、およびコンテキスト出力ノード１６５−ｋの各ノードを区別する必要がない場合には、単に、入力ノード１６０、パラメータノード１６１、コンテキスト入力ノード１６２、隠れノード１６３、出力ノード１６４、およびコンテキスト出力ノード１６５という。

CTRNN１４１では、そこに入力される時刻ｔの状態ベクトルｘ^u（ｔ）に対して、時刻ｔ＋１の状態ベクトルｘ^u（ｔ＋１）を予測して、出力することが学習される。CTRNN１４１は、ネットワークの内部状態を表すコンテキストループと呼ばれる回帰ループをもち、その内部状態に基づく処理が行われることで対象となる時系列データの時間発展法則を学習することができる。

CTRNN１４１に供給される時刻ｔの状態ベクトルｘ^u（ｔ）は、入力ノード１６０に入力される。パラメータノード１６１には、パラメータtsdata^uが入力される。パラメータtsdata^uは、CTRNN１４１に供給される状態ベクトルｘ^u（ｔ）の種類（時系列データのパターン）を識別するデータであり、CTRNN８１では、行動シーケンスを識別するデータとなる。パタメータtsdata^uは固定値であるが、継続的に同一の値が入力されていると考えることができるので、時刻ｔにおいてパラメータノード１６１に入力されるデータ（ベクトル）をパラメータtsdata^u（ｔ）とする。

入力ノード１６０−ｉには、時刻ｔの状態ベクトルｘ^u（ｔ）を構成するｉ番目の要素であるデータｘ^u _i（ｔ）が入力される。また、パラメータノード１６１−ｒには、時刻ｔのパラメータtsdata^u（ｔ）を構成するｒ番目の要素であるデータtsdata^u _r（ｔ）が入力される。さらに、コンテキスト入力ノード１６２−ｋには、時刻ｔのCTRNN１４１の内部状態ベクトルｃ^u（ｔ）を構成するｋ番目の要素であるデータｃ^u _k（ｔ）が入力される。

入力ノード１６０−ｉ、パラメータノード１６１−ｒ、およびコンテキスト入力ノード１６２−ｋのそれぞれにデータｘ^u _i（ｔ）、tsdata^u _r（ｔ）、およびｃ^u _k（ｔ）が入力された場合に、入力ノード１６０−ｉ、パラメータノード１６１−ｒ、およびコンテキスト入力ノード１６２−ｋが出力するデータｘ_i（ｔ）、tsdata_r（ｔ）、およびｃ_k（ｔ）は、それぞれ、次の式（３）、式（４）、および式（５）によって表される。

式（３）乃至式（５）における関数ｆは、シグモイド関数などの微分可能な連続関数であり、式（３）乃至式（５）は、入力ノード１６０−ｉ、パラメータノード１６１−ｒ、およびコンテキスト入力ノード１６２−ｋのそれぞれに入力されたデータｘ^u _i（ｔ）、tsdata^u _r（ｔ）、およびデータｃ^u _k（ｔ）が、関数ｆにより活性化され、データｘ_i（ｔ）、tsdata_r（ｔ）、およびデータｃ_k（ｔ）として入力ノード１６０−ｉ、パラメータノード１６１−ｒ、およびコンテキスト入力ノード１６２−ｋから出力されることを表している。なお、データｘ^u _i（ｔ）、tsdata^u _r（ｔ）、およびｃ^u _k（ｔ）の上付きのｕは、活性化される前のノードの内部状態を表す（他のノードについても同様）。

隠れノード１６３−ｊに入力されるデータｈ^u _j（ｔ）は、入力ノード１６０−ｉと隠れノード１６３−ｊの結合の重みを表す重み係数ｗ^h _ij、パラメータノード１６１−ｒと隠れノード１６３−ｊの結合の重みを表す重み係数ｗ^h _jr、およびコンテキスト入力ノード１６２−ｋと隠れノード１６３−ｊの結合の重みを表す重み係数ｗ^h _jkとを用いて、式（６）で表すことができ、隠れノード１６３−ｊが出力するデータｈ_j（ｔ）は、式（７）で表すことができる。

なお、式（６）の右辺の第１項のΣは、ｉ＝１乃至Ｉの全てについて加算することを表し、第２項のΣは、ｒ＝１乃至Ｒの全てについて加算することを表し、第３項のΣは、ｋ＝１乃至Ｋの全てについて加算することを表す。

同様にして、出力ノード１６４−ｉに入力されるデータｙ^u _i（ｔ）と、出力ノード１６４−ｉが出力するデータｙ_i（ｔ）、および、コンテキスト出力ノード１６５−ｋに入力されるデータｏ^u _k（ｔ）と、コンテキスト出力ノード１６５−ｋが出力するデータｏ_k（ｔ）は、次式で表すことができる。

式（８）のｗ^y _ijは、隠れノード１６３−ｊと出力ノード１６４−ｉの結合の重みを表す重み係数であり、Σは、ｊ＝１乃至Jの全てについて加算することを表す。また、式（１０）のｗ^o _jkは、隠れノード１６３−ｊとコンテキスト出力ノード１６５−ｋの結合の重みを表す重み係数であり、Σは、ｊ＝１乃至Jの全てについて加算することを表す。

演算部１５４は、出力ノード１６４−ｉが出力するデータｙ_i（ｔ）から、時刻ｔのデータｘ^u _i（ｔ）と時刻ｔ＋１のデータｘ^u _i（ｔ＋１）との差分△ｘ^u _i（ｔ＋１）を式（１２）により求め、さらに、式（１３）により、時刻ｔ＋１のデータｘ^u _i（ｔ＋１）を計算して、出力する。

ここで、αおよびτは、任意の係数を表す。

したがって、CTRNN１４１に時刻ｔのデータｘ^u _i（ｔ）が入力されると、時刻ｔ＋１のデータｘ^u _i（ｔ＋１）がCTRNN１４１の演算部１５４から出力される。また、演算部１５４から出力された時刻ｔ＋１のデータｘ^u _i（ｔ＋１）は、入力ノード１６０−ｉにも供給される（フィードバックされる）。

演算部１５５は、コンテキスト出力ノード１６５−ｋが出力するデータｏ_k（ｔ）から、時刻ｔのデータｃ^u _k（ｔ）と、時刻ｔ＋１のデータｃ^u _k（ｔ＋１）との差分△ｃ^u _k（ｔ＋１）を式（１４）により求め、さらに、式（１５）により、時刻ｔ＋１のデータｃ^u _k（ｔ＋１）を計算して、出力する。

演算部１５５から出力された時刻ｔ＋１のデータｃ^u _k（ｔ＋１）は、コンテキスト入力ノード１６２−ｋにフィードバックされる。

式（１５）は、ネットワークの現在の内部状態を表す内部状態ベクトルｃ^u（ｔ）に、コンテキスト出力ノード１６５−ｋの出力であるデータｏ_k（ｔ）を係数αで重み付けて加算する（所定の割合で足しこむ）ことによって次の時刻ｔ＋１のネットワークの内部状態ベクトルｃ^u（ｔ＋１）とすることを意味しており、その意味で、図５のCTRNN１４１は、連続時間型のRNNであると言うことができる。

以上のように、CTRNN１４１では、時刻ｔのデータｘ^u（ｔ）およびデータｃ^u（ｔ）が入力されると、時刻ｔ＋１のデータｘ^u（ｔ＋１）およびデータｃ^u（ｔ＋１）を生成して出力する処理を逐次的に行うので、重み係数ｗ^h _ij，ｗ^h _ir，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkが学習により求められているとすると、入力ノード１６０に入力する入力データｘ^u（ｔ）の初期値ｘ^u（ｔ₀）＝Ｘ０、パラメータノード１６１に入力するパラメータtsdata^u、コンテキスト入力ノード１６２に入力するコンテキスト入力データｃ^u（ｔ）の初期値ｃ^u（ｔ₀）＝Ｃ０を与えることにより、時系列データを生成することができる。

図５に示したCRTNN１４１を、図３のCRTNN８１として採用し、CRTNN１４１の入力ノード１６０に対してerrorL[Ｎ]が与えられ、パラメータノード１６１に対してタスクIDが与えられる。従って、図５の入力ノード１６０の個数Iは、下位時系列予測生成器６１のRNN７１の個数Ｎと一致する。なお、コンテキスト入力ノード１６２に入力するコンテキスト入力データｃ^u（ｔ）の初期値ｃ^u（ｔ₀）＝Ｃ０には、例えば、ランダムな所定の値が与えられる。

次に、図６のフローチャートを参照して、下位時系列予測生成器６１における、行動シーケンスに対応するセンサモータ信号の時系列データの学習処理について説明する。

初めに、ステップＳ１において、下位時系列予測生成器６１の制御回路７６は、教師データとして供給された所定の時刻の入力データを読み込む。ここでの入力データは、上述したようにセンサモータ信号であり、例えば、時刻ｔのセンサモータ信号ｓｍ（ｔ）が読み込まれたものとする。読み込まれた時刻ｔのセンサモータ信号ｓｍ（ｔ）は、制御回路７６により、下位時系列予測生成器６１を構成するＮ個のRNN７１−１乃至７１−Ｎそれぞれに供給される。

ステップＳ２において、下位時系列予測生成器６１のRNN７１−ｎ（ｎ＝１，２，・・・，Ｎ）は、時刻ｔのセンサモータ信号ｓｍ（ｔ）に対して、時刻ｔ＋１のセンサモータ信号ｓｍ_n（ｔ＋１）を算出する。

また、ステップＳ２において、演算回路７４は、RNN７１−ｎの予測誤差errorL^t+1 _nを算出する。具体的には、演算回路７４は、予測誤差errorL^t+1 _nとして、式（１６）によって表される、時刻ｔ＋１から過去Ｌ時間ステップ分のセンサモータ信号に対する予測誤差を算出する。

式（１６）において、ｓｍ_n,i'（Ｔ）は、時刻Ｔのセンサモータ信号ｓｍ（Ｔ）を出力するRNN７１−ｎの出力層１０３のノード１１３（図４）がＩ’個あるうちのｉ’番目のノード１１３が出力するセンサモータ信号を表し、ｓｍ^* _n,i'（Ｔ）は、それに対する教師データとしてのセンサモータ信号を表す。

式（１６）によれば、時刻Ｔ＝ｔ＋１−Ｌからｔ＋１までの、RNN７１−ｎの出力層１０３のｉ’番目のノード１１３のセンサモータ信号ｓｍ_n,i'（Ｔ）と教師データｓｍ^* _n,i'（Ｔ）との誤差の総和が、時刻ｔ＋１におけるRNN７１−ｎの予測誤差errorL^t+1 _nとされる。なお、過去のセンサモータ信号がＬ時間ステップ分ない場合には、存在する時間ステップ分のデータのみで予測誤差errorL^t+1 _nが求められる。

ステップＳ３において、演算回路７４は、時刻ｔ＋１におけるRNN７１−ｎの予測誤差errorL^t+1 _nをメモリ７５に供給する。これにより、メモリ７５には、RNN７１−１乃至７１−Ｎのｎ個の予測誤差errorL^t+1 ₁乃至errorL^t+1 _Nが供給され、メモリ７５は、予測誤差errorL^t+1［Ｎ］＝｛errorL^t+1 ₁，errorL^t+1 ₂，・・・，errorL^t+1 _N｝を記憶する。また、後述するステップＳ７の処理ＮＯと判定された場合、ステップＳ３の処理が所定時間ステップだけ繰り返されるので、メモリ７５には、教師データに対する予測誤差の時系列データerrorL［Ｎ］が記憶される。

ステップＳ４において、制御回路７６は、予測誤差errorL^t+1 _nに応じたRNN７１−ｎの学習重みγ_nを算出する。具体的には、制御回路７６は、ソフトマックス関数（softmax関数）を用いた式（１７）により、学習重みγ_nを算出する。

ステップＳ５において、制御回路７６は、BPTT（Back Propagation Through Time）法によりRNN７１−ｎの重み係数ｗ_ab,nを更新する。ここで、重み係数ｗ_ab,nは、RNN７１−ｎの入力層１０１のノード１１１と中間層１０２のノード１１２との重み係数、または、RNN７１−ｎの中間層１０２のノード１１２と出力層１０２のノード１１３との重み係数を表す。

RNN７１−ｎの重み係数ｗ_ab,nの更新では、ステップＳ４で算出された学習重みγ_nに応じてRNN７１−ｎの重み係数ｗ_ab,nが算出される。具体的には、次式（１８）および（１９）により、BPTT法の繰り返し計算におけるｓ回目の重み係数ｗ_ab,n（ｓ）から、ｓ＋１回目の重み係数ｗ_ab,n（ｓ＋１）を求めることができる。

式（１８）において、η₁は学習係数を表し、α₁は慣性係数を表す。なお、式（１８）において、ｓ＝１の場合の△ｗ_ab,n（ｓ）は、０とする。

ステップＳ６において、制御回路７６は、RNN７１−１乃至７１−Ｎの利用頻度FREQ₁乃至FREQ_Nをメモリ７５に供給する。メモリ７５は、供給されたRNN７１−１乃至７１−Ｎの利用頻度FREQ₁乃至FREQ_Nを記憶する。上述したステップＳ５において学習重みγ_nが大きいほど、そのRNN７１−ｎの重み係数ｗ_ab,nが更新され、RNN７１−ｎが利用されたことになる。従って、制御回路７６は、例えば、学習重みγ_nが所定の値以上であるRNN７１−ｎの利用頻度FREQ_nをカウントアップさせる。この利用頻度FREQ₁乃至FREQ_Nは、図１０を参照して後述する追加学習で使用される。

ステップＳ７において、下位時系列予測生成器６１の制御回路７６は、入力データの供給が終了したかを判定する。

ステップＳ７で、入力データの供給が終了していないと判定された場合、即ち、ステップＳ１で供給された入力データの次の時刻の入力データが供給された場合、ステップＳ１に戻り、それ以降の処理が繰り返される。

一方、ステップＳ７で、入力データの供給が終了したと判定された場合、学習処理は終了する。

次に、上位時系列予測生成器６２のCRTNN８１における予測誤差の時系列データの学習について説明する。

情報処理装置５１を搭載したヒューマノイドロボットに、複数の行動シーケンスを学習させる場合、学習の結果得られた入力層１５１と中間層１５２の各ノード間の重み係数ｗ^h _ij，ｗ^h _jr、およびｗ^h _jkと、中間層１５２と出力層１５３の各ノード間の重み係数ｗ^y _ijおよびｗ^o _jkが、すべての行動シーケンスに対応可能な値である必要がある。

そこで、学習処理では、複数の行動シーケンスに対応する時系列データの学習が同時に実行される。即ち、学習処理では、学習させる行動シーケンスの数と同数のCTRNN１４１（図５）が用意され、行動シーケンスごとに重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkをそれぞれ求め、それらの平均値を１つの重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkとする処理を繰り返し実行することによって、生成処理で利用されるCTRNN８１の重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkが求められる。

図７は、Ｑ個の行動シーケンスに対応するＱ個の予測誤差の時系列データを学習する、上位時系列予測生成器６２の学習処理のフローチャートである。なお、本実施の形態では、学習する行動シーケンスは、行動シーケンスA，B、およびCの３つであるので、Ｑ＝３となる。

初めに、ステップＳ３１において、上位時系列予測生成器６２は、教師データとしての、Ｑ個の予測誤差の時系列データerrorL[Ｎ]を下位時系列予測生成器６１のメモリ７５から読み込む。そして、上位時系列予測生成器６２は、読み込んだＱ個の時系列データerrorL[Ｎ]を、Ｑ個のCRTNN１４１にそれぞれ供給する。

ステップＳ３２において、上位時系列予測生成器６２は、Ｑ個の行動シーケンスそれぞれを識別するタスクIDを読み込む。本実施の形態では、３つの行動シーケンスA，B、およびCそれぞれを識別するタスクIDを読み込む。そして、上位時系列予測生成器６２は、行動シーケンスAの教師データを供給したCRT１４１には、行動シーケンスAを識別するタスクIDを供給し、行動シーケンスBの教師データを供給したCRT１４１には、行動シーケンスBを識別するタスクIDを供給し、行動シーケンスCの教師データを供給したCRT１４１には、行動シーケンスCを識別するタスクIDを供給する。

ステップＳ３３において、上位時系列予測生成器６２は、学習回数を表す変数ｓに１を代入する。

ステップＳ３４において、上位時系列予測生成器６２は、Ｑ個の時系列データにそれぞれ対応するCTRNN１４１において、BPTT法を用いて、入力層１５１と中間層１５２の各ノード間の重み係数ｗ^h _ij（ｓ）、ｗ^h _jr（ｓ）、およびｗ^h _jk（ｓ）の誤差量δｗ^h _ij、δｗ^h _jr、およびδｗ^h _jkと、中間層１５２と出力層１５３の各ノード間の重み係数ｗ^y _ij（ｓ）およびｗ^o _jk（ｓ）の誤差量δｗ^y _ijおよびδｗ^o _jkを計算する。ここで、ｑ（＝１，・・・，Ｑ）番目の時系列データが入力されたCTRNN１４１において、BPTT法を用いて得られた誤差量δｗ^h _ij，δｗ^h _jr，δｗ^h _jk，δｗ^y _ij、およびδｗ^o _jkを、それぞれ、誤差量δｗ^h _ij,q，δｗ^h _jr,q，δｗ^h _jk,q，δｗ^y _ij,q、およびδｗ^o _jk,qと表す。

なお、上位時系列予測生成器６２は、ステップＳ３４のBPTT法を用いた計算において、時刻ｔ＋１のコンテキスト入力ノード１６２−ｋのデータｃ^u _k（ｔ＋１）の誤差量δｃ^u _k（ｔ＋１）を、時刻ｔのコンテキスト出力ノード１６５−ｋのデータｏ_k（ｔ）の誤差量δｏ_k（ｔ）に逆伝播する際、任意の正の係数ｍで割ることにより、コンテキストデータの時定数の調整を行う。

即ち、上位時系列予測生成器６２は、時刻ｔのコンテキスト出力ノード１６５−ｋのデータｏ_k（ｔ）の誤差量δｏ_k（ｔ）を、時刻ｔ＋１のコンテキスト入力ノード１６２−ｋのデータｃ^u _k（ｔ＋１）の誤差量δｃ^u _k（ｔ＋１）を用いた式（２０）によって求める。

BPTT法において式（２０）を採用することにより、CTRNN１４１の内部状態を表すコンテキストデータの１時間ステップ先の影響度を調整することができる。

ステップＳ３５において、上位時系列予測生成器６２は、入力層１５１と中間層１５２の各ノード間の重み係数ｗ^h _ij、ｗ^h _jr、およびｗ^h _jkと、中間層１５２と出力層１５３の各ノード間の重み係数ｗ^y _ijおよびｗ^o _jkのそれぞれを、Ｑ個の時系列データで平均化して、更新する。

即ち、上位時系列予測生成器６２は、式（２１）乃至式（３０）により、入力層１５１と中間層１５２の各ノード間の重み係数ｗ^h _ij（ｓ＋１）、ｗ^h _jr（ｓ＋１）、およびｗ^h _jk（ｓ＋１）と、中間層１５２と出力層１５３の各ノード間の重み係数ｗ^y _ij（ｓ＋１）およびｗ^o _jk（ｓ＋１）を求める。

ここで、η₂は学習係数を表し、α₂は慣性係数を表す。なお、式（２１）、式（２３）、式（２５）、式（２７）、および式（２９）において、ｓ＝１の場合の△ｗ^h _ij（ｓ），△ｗ^h _jr（ｓ），△ｗ^h _jk（ｓ），△ｗ^y _ij（ｓ）、および△ｗ^o _jk（ｓ）は、０とする。

ステップＳ３６において、上位時系列予測生成器６２は、変数ｓが所定の学習回数以下であるか否かを判定する。ここで設定される所定の学習回数は、学習誤差が十分に小さくなると認められる学習の回数である。

ステップＳ３６で、変数ｓが所定の学習回数以下であると判定された場合、即ち、学習誤差が十分に小さくなると認められるだけの回数の学習をまだ行っていない場合、ステップＳ３７において、上位時系列予測生成器６２は、変数ｓを１だけインクリメントして、ステップＳ３４に処理を戻す。これにより、ステップＳ３４乃至Ｓ３６の処理が繰り返される。一方、ステップＳ３６で、変数ｓが所定の学習回数より大きいと判定された場合、学習処理は終了する。

なお、ステップＳ３６では、学習回数によって処理の終了を判定する以外に、学習誤差が所定の基準値以内となったか否かにより、処理の終了を判定してもよい。

以上のように、上位時系列予測生成器６２の学習処理では、行動シーケンスごとに重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkをそれぞれ求め、それらの平均値を求める処理を繰り返し実行することによって、生成処理で利用されるCTRNN８１の重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkが求められる。

なお、上述した学習処理では、各行動シーケンスの重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkの平均値を求める処理を毎回実行するようにしたが、その処理は、所定回数ごとに実行するようにしてもよい。例えば、学習処理を終了する所定の学習回数が１００００回である場合に、１０回の学習回数ごとに各行動シーケンスの重み係数ｗ^h _ij，ｗ^h _jr，ｗ^h _jk，ｗ^y _ij、およびｗ^o _jkの平均値を求める処理を実行するようにしてもよい。

次に、図８のフローチャートを参照して、図６および図７を参照して説明した学習処理によって求められた重み係数が設定されたRNN７１−１乃至７１−ＮおよびCTRNN８１を含む図３の情報処理装置５１による、時系列データを生成する生成処理について説明する。

初めに、ステップＳ５１において、上位時系列予測生成器６２のCTRNN８１は、入力データの初期値を読み込む。ここでの入力データの初期値とは、入力ノード１６０とコンテキスト入力ノード１６２に供給する初期値であり、そこには、例えば、ランダムな所定の値が供給される。

ステップＳ５２において、上位時系列予測生成器６２のCTRNN８１は、行動シーケンスを識別するタスクIDを読み込む。読み込まれたタスクIDは、パラメータノード１６１に供給される。

ステップＳ５３において、上位時系列予測生成器６２のCTRNN８１は、所定の時刻におけるRNN７１−１乃至７１−Ｎの推定予測誤差errorPredH［Ｎ］の生成処理を実行する。この生成処理の詳細は、図９を参照して後述するが、CTRNN８１は、例えば、時刻ｔ＋１における推定予測誤差errorPredH^t+1［Ｎ］を生成し、ゲート信号変換部６３に出力する。

ステップＳ５４において、ゲート信号変換部６３は、上述した式（２）により、供給された推定予測誤差errorPredH^t+1［Ｎ］をゲート信号gate^t+1［Ｎ］に変換し、変換した結果をゲート７２−１乃至７２−Ｎに出力する。

ステップＳ５５において、時刻ｔのセンサモータ信号ｓｍ（ｔ）が下位時系列予測生成器６１のRNN７１−ｎに入力され、RNN７１−ｎは、入力された時刻ｔのセンサモータ信号ｓｍ（ｔ）に対して、時刻ｔ＋１のセンサモータ信号ｓｍ_n（ｔ＋１）を生成し、ゲート７２−ｎに出力する。

ステップＳ５６において、ゲート７２−ｎは、ゲート信号変換部６３から供給されたゲート信号gate^t+1［Ｎ］のうちのゲート信号ｇ^t+1 _nに応じたセンサモータ信号ｓｍ_n（ｔ＋１）の出力を行う。即ち、ゲート７２−ｎにおいては、ゲート信号ｇ^t+1 _nが大きいときにはゲートが大きく開かれ、ゲート信号ｇ^t+1 _nが小さいときにはゲートを小さく開かれる。合成回路７３には、ゲート７２−ｎのゲートの開き具合に応じたセンサモータｓｍ_n（ｔ＋１）が供給される。

ステップＳ５７において、合成回路７３は、式（１）によりゲート７２−１乃至７２−Ｎそれぞれからの出力を合成し、その合成の結果を、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）として出力する。

ステップＳ５８において、情報処理装置５１は、時系列データの生成を終了するかを判定する。ステップＳ５８で、時系列データの生成を終了しないと判定された場合、処理はステップＳ５３に戻り、それ以降の処理が繰り返される。その結果、上位時系列予測生成器６２では、前回のステップＳ５３で処理した時刻ｔ＋１の次の時刻ｔ＋２おける推定予測誤差errorPredH^t+2［Ｎ］が生成され、下位時系列予測生成器６１では、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）に対するセンサモータｓｍ（ｔ＋２）が生成される。

一方、ステップＳ５８で、例えば、所定の時間ステップ数に到達するなどして、時系列データの生成を終了すると判定された場合、生成処理は終了する。

次に、図９のフローチャートを参照して、図８のステップＳ５３における、推定予測誤差errorPredH［Ｎ］の生成処理について説明する。図９では、時刻ｔ＋１における推定予測誤差errorPredH^t+1［Ｎ］を生成する例について説明する。

初めに、ステップＳ７１において、入力ノード１６１−ｉは、データｘ_i（ｔ）を式（３）により計算し、パラメータノード１６１−ｒは、データtsdata_r（ｔ）を式（４）により計算し、コンテキスト入力ノード１６２−ｋは、データｃ_k（ｔ）を式（５）により計算して、それぞれ出力する。

ステップＳ７２において、隠れノード１６３−ｊは、式（６）を計算することによりデータｈ^u _j（ｔ）を得て、データｈ_j（ｔ）を式（７）により計算して出力する。

ステップＳ７３において、出力ノード１６４−ｉは、式（８）を計算することによりデータｙ^u _i（ｔ）を得て、データｙ_i（ｔ）を式（９）により計算して出力する。

ステップＳ７４において、コンテキスト出力ノード１６５−ｋは、式（１０）を計算することによりデータｏ^u _k（ｔ）を得て、データｏ_k（ｔ）を式（１１）により計算して出力する。

ステップＳ７５において、演算部１５４は、差分△ｘ^u _i（ｔ＋１）を式（１２）により求め、時刻ｔ＋１のデータｘ^u _i（ｔ＋１）を式（１３）により計算し、ゲート信号変換部６３に出力する。

ステップＳ７６において、演算部１５５は、差分△ｃ^u _k（ｔ＋１）を式（１４）により求め、時刻ｔ＋１のデータｃ^u _k（ｔ＋１）を式（１５）により計算する。また、演算部１５５は、式（１５）による計算の結果得られた時刻ｔ＋１のデータｃ^u _k（ｔ＋１）を、コンテキスト入力ノード１６２−ｋにフィードバックする。

ステップＳ７７において、演算部１５４は、式（１３）による計算の結果得られた時刻ｔ＋１のデータｘ^u _i（ｔ＋１）を、入力ノード１６１−ｉにフィードバックする。そして、処理は図８のステップＳ５３に戻り、ステップＳ５４に進む。

以上のように、図８の生成処理によれば、上位時系列予測生成器６２が、下位時系列生成器６１のRNN７１−１乃至７１−Ｎが生成時に発生させる予測誤差の推定値である推定予測誤差errorPredH［Ｎ］を出力し、この推定予測誤差errorPredH［Ｎ］が、ゲート７２−１乃至７２−Ｎの開閉状態を制御するゲート信号gate［Ｎ］に変換される。そして、上述の（１）式で表される、開閉状態が制御されたゲート７２−１乃至７２−Ｎから出力されたRNN７１−１乃至７１−Ｎの出力信号ｓｍ₁（ｔ＋１）乃至ｓｍ_N（ｔ＋１）の総和が、時刻ｔ＋１のセンサモータ信号ｓｍ（ｔ＋１）として、ヒューマノイドロボットのセンサおよびモータに供給され、タスクIDで指定された行動シーケンスが実行される。

次に、情報処理装置５１に、これまで学習させた行動シーケンスA，B、およびC以外の行動シーケンスを追加して学習させる追加学習について説明する。以下では、ホームポジションにいるロボットが、物体を両手で掴んで所定の高さだけ持ち上げ、物体が元々置かれていたテーブルより一段高い前方のテーブルに置いて、ホームポジションに戻る動作となる行動シーケンスDを追加学習させる。

下位時系列予測生成器６１のRNN７１−１乃至７１−Ｎには、上述したように、それぞれ異なる行動部品が学習されている。また、一般的には、RNN７１の個数であるＮ個は行動部品の数よりも十分大きく用意されるため、RNN７１−１乃至７１−Ｎの中には、行動部品が学習されていないRNN７１（以下、適宜、未使用のRNN７１とも称する）も存在する。

これまで学習させた行動シーケンスA，B、およびCに追加して、新たな行動シーケンスDを学習させる場合、既に行動部品が学習されているRNN７１は、そのままにして、未使用のRNN７１に、追加の行動シーケンスDに含まれる新たな行動部品を学習させるのが効率が良い。この場合、追加の行動シーケンスDの学習によってこれまで学習させたRNN７１を壊す（RNN７１の重み係数を変更する）ことがなく、新たな行動シーケンスDに、これまで学習させた行動部品が含まれていた場合、その行動部品を共通に利用することもできる。

そこで、下位時系列予測生成器６１は、行動シーケンスDを追加学習する際、既に行動部品が学習されているRNN７１には、その重み係数を変更しにくくするような抵抗を与える。

既に行動部品が学習されているRNN７１とは、即ち、図６のステップＳ６の処理により、メモリ７５に記憶されている利用頻度FREQ_nが大きいRNN７１−ｎである。

従って、下位時系列予測生成器６１の制御回路７６は、図１０に示すような、利用頻度FREQ_nが少ないRNN７１−ｎほど重み係数を更新し易く、利用頻度FREQ_nが大きいRNN７１−ｎは、重み係数を更新しにくい、換言すれば、利用頻度FREQ_nに負の相関を有する関数ｈ₁によって学習重みμ_nを決定する。図１０に示す関数ｈ₁が表す曲線は、利用頻度FREQ_nが小さいほど傾きが大きく、利用頻度FREQ_nが大きいほど傾きが小さくなる曲線である。なお、図１０では、関数ｈ₁が非線形な曲線として示されているが、負の相関を有する関数であれば、線形な直線であっても勿論よい。

図１１のフローチャートを参照して、情報処理装置５１の追加学習処理について説明する。

初めに、ステップＳ１０１において、下位時系列予測生成器６１の制御回路７６は、メモリ７５に記憶されているRNN７１−１乃至７１−Ｎの利用頻度FREQ₁乃至FREQ_Nを読み出す。

ステップＳ１０２において、下位時系列予測生成器６１の制御回路７６は、図１０に示した関数ｈ₁を用いて、RNN７１−ｎの利用頻度FREQ_nに応じた学習重みμ_nを決定する。決定された学習重みμ_nは、RNN７１−ｎに供給される。

ステップＳ１０３において、情報処理装置５１は、行動シーケンスDに対応するセンサモータ信号の時系列データを学習する、図６の下位時系列予測生成器６１の学習処理、即ち、ステップＳ１乃至Ｓ７の処理を実行する。但し、ステップＳ１０３の処理での図６のステップＳ５においては、式（１８）に代えて、学習重みμ_nが含まれる次式（３１）を採用する。

ステップＳ１０３の処理後、行動シーケンスDの予測誤差の時系列データerrorL[Ｎ]がメモリ７５に記憶される。

ステップＳ１０４において、情報処理装置５１は、行動シーケンスA，B、およびCに、追加された行動シーケンスDの予測誤差の時系列データerrorL[Ｎ]をメモリ７５から読み出し、その４個の予測誤差の時系列データについて、図７の上位時系列予測生成器６２の学習処理、即ち、ステップＳ３１乃至Ｓ３７の処理を実行する。そして、追加学習処理は終了する。

以上のように、情報処理装置５１の追加学習処理では、これまでの学習で利用頻度FREQ_nが大きいRNN７１−ｎについて、その重み係数を変更しにくくするような学習重みμ_nを与えて、重み係数を学習する。これにより、追加の行動シーケンスDの学習によってこれまで学習させたRNN７１の重み係数をできるだけ変更せずに、追加される行動シーケンスを効率的に学習することができる。

次に、本発明を適用した情報処理装置のその他の構成例について説明する。

図１２は、情報処理装置５１のその他の構成例を示している。図１２において、図３の情報処理装置５１と対応する部分については同一の符号を付してあり、その説明は省略する。

図１２の情報処理装置５１は、時間フィルタ部２０１と非線形フィルタ部２０２が新たに設けられている点を除いては、図３の情報処理装置５１と同様に構成されている。

時間フィルタ部２０１には、下位時系列予測生成器６１が出力する予測誤差の時系列データerrorL［Ｎ］が入力される。時間フィルタ部２０１と非線形フィルタ部２０２は、そこに入力される時系列データに所定のフィルタ処理を施し、処理後の時系列データを後段に出力する。非線形フィルタ部２０２は、処理後の時系列データを、予測誤差の時系列データerrorL’［Ｎ］として、上位時系列予測生成器６２に供給する。

上位時系列予測生成器６２は、予測誤差の時系列データを学習するが、ある程度長い時間ステップでのRNN７１−１乃至７１−Ｎの予測誤差の大まかな変動が分かればよく、短時間での微小な変動はあまり関係しない。

時間フィルタ部２０１は、下位時系列予測生成器６１が出力する予測誤差の時系列データerrorL［Ｎ］に対して、時間フィルタ処理を施す。即ち、時間フィルタ部２０１は、下位時系列予測生成器６１が出力する予測誤差の時系列データerrorL［Ｎ］に、いわゆるローパスフィルタ処理を施し、処理後の時系列データを非線形フィルタ部２０２に供給する。例えば、ローパスフィルタ処理としては、所定の時間ステップ数の移動平均などを用いることができる。これにより、短時間での微小な変動が抑制された、RNN７１−１乃至７１−Ｎの予測誤差の時系列データを上位時系列予測生成器６２に供給することができる。

なお、ある程度長い時間ステップでのRNN７１−１乃至７１−Ｎの予測誤差の大まかな変動を上位時系列予測生成器６２が学習するためには、上位時系列予測生成器６２のCTRNN８１が時系列データをサンプリングするときのサンプリングレートを、下位時系列予測生成器６１のRNN７１のサンプリングレートよりも大きくすることによっても実現可能である。例えば、上位時系列予測生成器６２は、下位時系列予測生成器６１のRNN７１の時系列データを所定の時間間隔で間引いた時系列データを学習することで、RNN７１−１乃至７１−Ｎの予測誤差の大まかな変動を学習することができる。また、式（１３）および式（１５）の係数τを調整することにより、時間サンプリングを調整することができる。この場合、係数τが大きいほど、RNN７１−１乃至７１−Ｎの予測誤差の大まかな変動を学習することができる。

非線形フィルタ部２０２は、図１３に示すような、入力される予測誤差errorL_nが小さい範囲では傾きが大きく、入力される予測誤差errorL_nが大きくなるほど傾きが小さくなる非線形の曲線で表される関数ｈ₂によって、入力される予測誤差errorL_nを変換する。非線形フィルタ部２０２は、変換処理後の予測誤差errorL’[Ｎ]を上位時系列予測生成器６２に供給する。

情報処理装置５１の生成処理では、図８を参照して説明したように、予測誤差errorL［Ｎ］の学習によって得られる推定予測誤差errorPredH_nがより小さいRNN７２−ｎほどゲートが大きく開くように制御される。反対に、推定予測誤差errorPredH_nが大きいRNN７２−ｎが出力するセンサモータ信号ｓｍ_n（ｔ＋１）は、ほとんど利用されない。

従って、推定予測誤差errorPredH_nがより小さいRNN７２−ｎほど、下位時系列予測生成器６１が出力するセンサモータ信号ｓｍ（ｔ＋１）への寄与率は高く、重要であると言うことができる。

例えば、RNN７２−１の予測誤差errorL₁とRNN７２−ｎの予測誤差errorL_nが、０乃至１の間の小さい値（例えば、０．３など）で拮抗していた場合と、０乃至１の間の大きい値（例えば、０．９など）で拮抗していた場合とを考えると、RNN７２−１の予測誤差errorL₁とRNN７２−ｎの予測誤差errorL_nが０乃至１の間の小さい値で拮抗していた場合、生成時に、RNN７２−１またはRNN７２−ｎが出力するセンサモータ信号ｓｍ₁（ｔ＋１）またはｓｍ_n（ｔ＋１）の、下位時系列予測生成器６１が出力するセンサモータ信号ｓｍ（ｔ＋１）への寄与率は高いので、RNN７２−１とRNN７２−ｎのセンサモータ信号のどちらが優位であるかは重要になってくる。

一方、RNN７２−１の予測誤差errorL₁とRNN７２−ｎの予測誤差errorL_nが０乃至１の間の大きい値で拮抗していた場合、RNN７２−１とRNN７２−ｎ以外に、より小さい予測誤差を有するRNN７２がいると考えられ、生成時に、RNN７２−１またはRNN７２−ｎが出力するセンサモータ信号ｓｍ₁（ｔ＋１）またはｓｍ_n（ｔ＋１）が、下位時系列予測生成器６１が出力するセンサモータ信号ｓｍ（ｔ＋１）に含まれる率は少ないので、RNN７２−１とRNN７２−ｎのセンサモータ信号のどちらが優位であるかは、さほど重要ではない。

非線形フィルタ部２０２は、関数ｈ₂によって、センサモータ信号ｓｍ（ｔ＋１）の生成に重要な予測誤差errorLの小さいRNN７２どうしの優位差を大きくし、センサモータ信号ｓｍ（ｔ＋１）の生成に重要ではない予測誤差errorLの大きいRNN７２どうしの優位差を小さくする処理を行う。これにより、上位時系列予測生成器６２において、学習に重要なRNN７１が出力した予測誤差errorLを効率的に学習することができる。

時間フィルタ部２０１と非線形フィルタ部２０２の動作は、図７を参照して説明したフローチャートのステップＳ３１の、上位時系列予測生成器６２が、教師データとしての、Ｑ個の予測誤差の時系列データerrorL[Ｎ]を下位時系列予測生成器６１のメモリ７５から読み込む場合において、時間フィルタ部２０１と非線形フィルタ部２０２によって処理された後のＱ個の予測誤差の時系列データerrorL’[Ｎ]を読み込む動作となる。

なお、時間フィルタ部２０１および非線形フィルタブ２０２は、必ずしも両方が同時に設けられる必要はなく、いずれか一方のみでもよい。

ところで、図３および図１２に示した情報処理装置５１では、複数のRNN７１−１乃至７１−ｎを有する下位時系列生成器６１の構成として、複数のRNNの出力をゲート機構により統合して最終的な出力を決定するMixture of RNN Expertというモデルを採用したが、Mixture of RNN Expert以外の構成を採用することもできる。

Mixture of RNN Expert以外の構成としては、例えば、ベクトルパターンのカテゴリ学習に用いられる自己組織化マップ（self-organization map）（以下、ＳＯＭという）を導入し、SOMの各ノードにRNNを採用し、自己組織的に外部入力に対し適切なRNNを選択し、RNNのパラメータ学習を行うRNN-SOMなどを採用することができる。なお、SOMについては、例えば、「T.コホネン、「自己組織化マップ」、シュプリンガー・フェアラーク東京」などにその詳細が記載されている。

図３および図１２に示したMixture of RNN Expertのモデルでは、ある新しい学習サンプル（即ち、時系列データ）に対して、全てのRNNが学習エラー（予測誤差）を算出し、その学習エラーの度合いに応じて各RNNが学習サンプルを学習する。

これに対して、RNN-SOMでは、ある新しい学習サンプル（即ち、時系列データ）に対して、全てのRNNが学習エラー（予測誤差）を算出し、その中で、最も学習エラーの小さいRNNが勝者に決定される。勝者のRNNが決定された後は、各RNNの学習エラーは関係なく、勝者のRNNと距離が近いRNNが、勝者との近傍度合いに応じて学習サンプルを学習するという、各RNNに対して自分以外のRNNとの距離空間の概念が導入されたものである。

図１４は、下位時系列生成器６１の構成としてRNN-SOMを採用した場合の、行動シーケンスに対応するセンサモータ信号の時系列データの学習処理のフローチャートである。

図１４に示される処理は、ステップＳ１２４の処理が、図６のステップＳ４の処理と異なる以外は、図６に示した学習処理と同様である。

即ち、図１４のステップＳ１２１乃至Ｓ１２３およびＳ１２５乃至Ｓ１２７は、図６のステップＳ１乃至Ｓ３およびＳ５乃至Ｓ７と、それぞれ同様である。

ステップＳ１２４では、下位時系列予測生成器６１は、予測誤差errorL^t+1が最小のRNN７１を勝者とし、図１５に示す近傍関数ｈ₃に基づいて、勝者からの距離（DISTANCE_n）に応じた学習重みγ_nを算出する。

近傍関数ｈ₃は、図１５に示されるように、勝者からの距離（DISTANCE_n）が近いRNN７１−ｎほど大きい学習重みγ_nが割り当てられる。

次に、図１６乃至図１９を参照して、上述した情報処理装置５１に、ヒューマノイドロボットが行う行動シーケンスを学習および生成させた実験結果について説明する。

なお、この実験では、下位時系列予測生成器６１が出力する予測誤差の時系列データerrorL［Ｎ］に対して時間フィルタと非線形フィルタを施した、図１２の情報処理装置５１による例を示している。また、下位時系列生成器６１のRNN７１の個数Ｎは、１６（Ｎ＝１６）となっている。

図１６は、行動シーケンスA，B、およびCを学習後、情報処理装置５１が行動シーケンスAを生成した結果を示している。

図１６Ａは、生成処理時の、上位時系列予測生成器６２のCTRNN８１としてのCTRNN１４１のコンテキスト出力ノード１６５の出力データを示している。

図１６Ｂは、上位時系列予測生成器６２のCTRNN８１が出力する推定予測誤差errorPredH［Ｎ］を示している。

図１６Ｃは、図１６Ｂに示される推定予測誤差errorPredH［Ｎ］がゲート信号変換部６３によって変換されたゲート信号gate［Ｎ］を示している。

図１６Ｄは、下位時系列予測生成器６１の合成回路７３から出力されたセンサモータ信号ｓｍ（ｔ）のうちのモータ信号を、図１６Ｅは、下位時系列予測生成器６１の合成回路７３から出力されたセンサモータ信号ｓｍ（ｔ）のうちのセンサ信号を、それぞれ示している。なお、図１６Ｄおよび図１６Ｅでは、４つのモータ信号と２つのセンサ信号のデータが図示されているが、図を見やすくするため、実際のモータ信号およびセンサ信号よりも少ない数のデータを図示している。

図１６Ａ乃至図１６Ｅの横軸は、時間ステップ（step）を表す。また、図１６Ａ，図１６Ｄ，および図１６Ｅの縦軸は、コンテキスト出力ノード１６５、モータ信号、およびセンサ信号それぞれの出力値を表し、０乃至１の範囲の値である。図１６Ｂおよび図１６Ｃは、下位時系列予測生成器６１のRNN７１の番号（１乃至１６）を表している。

図１６ＢおよびＣにおいては、RNN７１−ｎに対応するerrorPredH_nまたはゲート信号ｇ^t _nの値とグレイレベルとが対応しており、図１６Ｂでは、errorPredH_nの値が小さい（即ち、０に近い）ほど黒く（濃く）表されており、図１６Ｃでは、ゲート信号ｇ^t _nの値が大きい（即ち、１に近い）ほど黒く（濃く）表されている。

図１７は、行動シーケンスA，B、およびCを学習後、情報処理装置５１が行動シーケンスBを生成した結果を、図１８は、行動シーケンスCを生成した結果を、それぞれ示している。

また、図１９は、行動シーケンスA，B、およびCを学習後に行動シーケンスDを追加学習させた後、情報処理装置５１が行動シーケンスDを生成した結果を示している。

図１７乃至図１９において、図示されたデータが、行動シーケンスB乃至Dに関するものである以外は、同様である。

行動シーケンスAに対応する時系列データの生成では、図１６Ｃを見て分かるように、シーケンスの前半では、ゲート７２−１４が開かれることによりRNN７１−１４が有効となり、その後、シーケンスの後半部分では、ゲート７２−４が開かれることによりRNN７１−４が有効となっている。

但し、図１６Ｂに示すデータから図１６Ｃに示すデータへの変換、即ち、推定予測誤差errorPredH［Ｎ］からゲート信号gate［Ｎ］への変換は、errorPredH₁乃至errorPredH₁₆のうちの最も値の小さいものが唯一の勝者となるウィナーテイクオール（Winner-take-all）の原理ではなく、上述した式（２）のソフトマックス関数を用いて行われるため、所定の時刻（時間ステップ）から、離散的にRNN７１−１４からRNN７１−４に有効なRNN７１が切替わるのではなく、RNN７１−１４からRNN７１−４への切替が時間の経過とともに緩やかに行われている。

従って、errorPredH₁乃至errorPredH₁₆のうちの複数の値が拮抗しているような場合であっても、勝者が頻繁に交替することはなく、拮抗している状態では、そのまま拮抗している状態として出力を行うことができ、これにより、学習された時系列データを正しく生成することができる。

行動シーケンスBの生成では、図１７Ｃを見て分かるように、RNN７１−１４、RNN７１−２、RNN７１−１３、RNN７１−１、RNN７１−１１が、その順で有効となっている。

行動シーケンスCの生成では、図１８Ｃを見て分かるように、RNN７１−２、RNN７１−１２、RNN７１−３が、その順で有効となっている。

行動シーケンスDの生成では、図１９Ｃを見て分かるように、RNN７１−５、RNN７１−１５、RNN７１−３、RNN７１−１６が、その順で有効となっている。

行動シーケンスB乃至Dのゲート７２の切替においても、図１６の行動シーケンスAにおける場合と同様のことが言える。

即ち、所定の時刻に推定予測誤差errorPredH_nが最も大きいRNN７１−ｎから、所定時間後に次に推定予測誤差errorPredH_n'が最も大きいRNN７１−ｎ’ （ｎ≠ｎ’）へゲート信号gate［Ｎ］が切替わる場合、ゲート信号ｇ_nは徐々に小さくなると同時に、ゲート信号ｇ_n'は徐々に大きくなる。即ち、ゲート７２−ｎでは、センサモータ信号ｓｍ_n（ｔ＋１）の出力が徐々に抑えられ、ゲート７２−ｎ’では、センサモータ信号ｓｍ_n'（ｔ＋１）の出力が徐々に開放される。

また、図１９に示される追加学習によって学習された行動シーケンスDの生成結果では、行動シーケンスA乃至Cでは有効となっていないRNN７１−５、RNN７１−１５、RNN７１−１６が有効となっており、これまでに学習した行動シーケンスA乃至Cにない行動部品については新しいRNN７１が学習していることが分かる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２０は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）３０１は、ROM（Read Only Memory）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）３０３には、CPU３０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU３０１、ROM３０２、およびRAM３０３は、バス３０４により相互に接続されている。

CPU３０１にはまた、バス３０４を介して入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、スピーカなどよりなる出力部３０７が接続されている。CPU３０１は、入力部３０６から入力される指令に対応して各種の処理を実行する。そして、CPU３０１は、処理の結果を出力部３０７に出力する。

入出力インタフェース３０５に接続されている記憶部３０８は、例えばハードディスクからなり、CPU３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、インターネットやローカルエリアネットワークなどのネットワークを介して、または直接に接続された外部の装置と通信する。

入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３２１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部３０８に転送され、記憶される。また、プログラムやデータは、通信部３０９を介して取得され、記憶部３０８に記憶されてもよい。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２０に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスクを含む）、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３２１、または、プログラムが一時的もしくは永続的に格納されるROM３０２や、記憶部３０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部３０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

上述した例では、生成時の行動シーケンスA乃至Cの切替を、CTRNN８１のタスクIDを変更することによって行うようにしたが、CTRNN８１には、タスクIDの入力を持たせずに、コンテキスト入力ノード１６２に与える初期値を変更することによって、生成時の行動シーケンスA乃至Cの切替を行うようにしてもよい。

本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

従来の情報処理装置の一例を示す図である。図１の情報処理装置で生成される時系列データの例を示す図である。本発明を適用した情報処理装置の一実施の形態の構成例を示す図である。下位時系列予測生成器に使用されるRNNの詳細な構成例を示す図である。上位時系列予測生成器に使用されるRNNの詳細な構成例を示す図である。下位時系列予測生成器の学習処理について説明するフローチャートである。上位時系列予測生成器の学習処理について説明するフローチャートである。図３の情報処理装置の生成処理について説明するフローチャートである。図８のステップＳ５３における生成処理について説明するフローチャートである。利用頻度FREQ_nに応じて学習重みμ_nを決定する関数ｈ₁を説明する図である。図３の情報処理装置の追加学習処理について説明するフローチャートである。本発明を適用した情報処理装置のその他の構成例を示す図である。予測誤差errorL_nの大きさに応じて非線形の変換を行う関数ｈ₂を説明する図である。下位時系列予測生成器のその他の学習処理について説明するフローチャートである。図１４の学習処理で使用される近傍関数ｈ₃を説明する図である。情報処理装置５１の実験結果を示す図である。情報処理装置５１の実験結果を示す図である。情報処理装置５１の実験結果を示す図である。情報処理装置５１の実験結果を示す図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

符号の説明

５１情報処理装置，６１下位時系列予測生成器，６２上位時系列予測生成器，６３ゲート信号変換部，７１−１乃至７１−Ｎ RNN，７２−１乃至７２−Ｎゲート，７３合成回路，７４演算回路，７５メモリ，７６制御回路，８１ CTRNN，２０１時間フィルタ部，２０２非線形フィルタ部，３０１ CPU，３０２ ROM，３０３ RAM，３０８記憶部

Claims

制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御する情報処理装置であって、
所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算する、複数の行動部品毎のリカレント型ニューラルネットワークと、
各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークのそれぞれにより予測演算された前記予測時系列データをそれぞれ出力する、前記複数の行動部品毎のゲート手段と、
各時刻毎に、前記複数の行動部品毎のゲート手段からそれぞれ出力された前記予測時系列データを合成して出力する合成手段と
を有する下位時系列データ生成手段と、
各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記複数の行動部品毎のゲート手段のそれぞれについて、前記時刻t+1までの前記予測時系列データの出力の度合を制御する変換手段と、
各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークにより予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算する連続時間型のリカレント型ニューラルネットワークを有し、前記連続時間型のリカレント型ニューラルネットワークにより生成された前記時刻t+1までの前記推定予測誤差時系列データを前記変換手段に供給する上位時系列データ生成手段と
を備える情報処理装置。
前記下位時系列データ生成手段が出力する前記予測誤差時系列データに対して時間フィルタ処理を施す時間フィルタ手段をさらに備える
請求項１に記載の情報処理装置。
前記下位時系列データ生成手段が出力する前記予測誤差時系列データを非線形に変換する非線形フィルタ手段をさらに備える
請求項１に記載の情報処理装置。
前記下位時系列データ生成手段は、既存の行動シーケンスについて前記生徒用時系列データを学習する毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれが前記生徒用時系列データの学習時に発生した前記予測誤差時系列データを、前記ソフトマックス関数に入力させ、その出力に応じて、新規の行動シーケンスについて前記生徒用時系列データを学習する場合に用いられる、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれの学習の重みを更新する
請求項１に記載の情報処理装置。
前記下位時系列データ生成手段は、既存の行動シーケンスについて前記生徒用時系列データを学習する毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれが前記生徒用時系列データの学習時に発生した前記予測誤差時系列データのうち、最も小さい誤差を発生した前記複数の行動部品毎のリカレント型ニューラルネットワークを勝者として、前記勝者からの距離に応じて、新規の行動シーケンスについて前記生徒用時系列データを学習する場合に用いられる、前記複数の行動部品毎のリカレント型ニューラルネットワークそれぞれの前記学習の重みを更新する
請求項１に記載の情報処理装置。
制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御する情報処理装置の情報処理方法において、
前記情報処理装置は、
複数の行動部品毎のリカレント型ニューラルネットワークと、
ゲート手段と、
合成手段と
を含む下位時系列データ生成手段と、
変換手段と、
連続時間型のリカレント型ニューラルネットワークを含む上位時系列データ生成手段と
を備え、
前記複数の行動部品毎のリカレント型ニューラルネットワークが、所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算し、
前記ゲート手段が、各時刻毎に、予測演算された前記予測時系列データをそれぞれ出力し、
前記合成手段が、各時刻毎に、それぞれ出力された前記予測時系列データを合成し、
前記変換手段が、各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記時刻t+1までの前記予測時系列データの出力の度合を制御し、
前記連続時間型のリカレント型ニューラルネットワークを含む前記上位時系列データ生成手段が、各時刻毎に、予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算し、前記時刻t+1までの前記推定予測誤差時系列データを供給する
ステップを含む情報処理方法。
制御対象の行動をセンサにより検出し、その検出データに基づき前記制御対象を制御するコンピュータを、
所定の行動部品を実現させる前記制御対象の動作を示す教師用時系列データを用いて、前記制御対象を制御した場合の時刻t（tは任意の整数値）までの前記制御対象の動作を示す検出データである生徒用時系列データを学習し、その学習結果に基づいて、前記時刻tの後の時刻t+1までの動作の予測を示す予測時系列データを各時刻毎に予測演算し、前記時刻t+1までの教師用時系列データに対する前記予測時系列データの誤差を示す予測誤差時系列データを各時刻毎に予測演算する、複数の行動部品毎のリカレント型ニューラルネットワークと、
各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークのそれぞれにより予測演算された前記予測時系列データをそれぞれ出力する前記複数の行動部品毎のゲート手段と、
各時刻毎に、前記複数の行動部品毎のゲート手段からそれぞれ出力された前記予測時系列データを合成して出力する合成手段と
を有する下位時系列データ生成手段と、
各時刻毎に、前記時刻t+1までの前記予測誤差時系列データの推定を示す推定予測誤差時系列データに対して、前記推定予測誤差時系列データが小さくなる程大きい値に、前記推定予測誤差時系列データが大きくなる程小さい値となる性質の非線形な変換を施して、変換後のデータに基づいて、前記複数の行動部品毎のゲート手段のそれぞれについて、前記時刻t+1までの前記予測時系列データの出力の度合を制御する変換手段と、
各時刻毎に、前記複数の行動部品毎のリカレント型ニューラルネットワークにより予測演算された前記時刻tまでの前記予測誤差時系列データのそれぞれを教師データとして、前記時刻tまでの前記推定予測誤差時系列データを生徒データとして学習し、その学習結果に基づいて、前記時刻t+1までの前記推定予測誤差時系列データを予測演算する連続時間型のリカレント型ニューラルネットワークを有し、前記連続時間型のリカレント型ニューラルネットワークにより生成された前記時刻t+1までの前記推定予測誤差時系列データを前記変換手段に供給する上位時系列データ生成手段と
して機能させるためのプログラム。