JP2010266975A

JP2010266975A - 学習装置、学習方法、データ生成装置、データ生成方法、及び、プログラム

Info

Publication number: JP2010266975A
Application number: JP2009116055A
Authority: JP
Inventors: Kazumi Aoyama; 一美青山; Masato Ito; 真人伊藤; Kuniaki Noda; 邦昭野田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2010-11-25

Abstract

【課題】内部変数を考慮した学習モジュール間の接続性を用いて、時系列信号のプランニングを行うことができるようにする。
【解決手段】学習モデル#iが生成したモデル生成データ#iの最後のオーバラップ部分（最後のLサンプル）と、学習モデル#jが生成したモデル生成データ#jの最初のオーバラップ部分（最初のLサンプル）の累積距離と、学習モデル#iが生成したコンテキスト#iの最後のオーバラップ部分と、学習モデル#jが生成したコンテキスト#jの最初のオーバラップ部分の累積距離の和が、学習モデル#iが学習した時系列パターンの後に、学習モデル#jが学習した時系列パターンが接続する適切さを表すコネクティビティとして算出される。本発明は、時系列信号に基づいてパターン学習を行う装置に適用することができる。
【選択図】図７

Description

本発明は、学習装置、学習方法、データ生成装置、データ生成方法、及び、プログラムに関し、特に、各学習モデルにおける内部変数の意味を統一させ、内部変数を考慮した学習モジュール間の接続性を用いて、時系列信号のプランニングを行うことができるようにした学習装置、学習方法、データ生成装置、データ生成方法、及び、プログラムに関する。

ある時刻tにおいて観測される時系列信号が同じAとBという状況を表すものであっても、過去（時刻t-1,t-2,t-3，・・・）に観測された時系列信号を含めれば、AとBのうちのどちらの状況が目標とする正しい状態であるのかを特定することができる。時系列信号は、例えば実空間に存在するロボットにより観測されたセンサデータである。

時系列信号を用いた学習装置においては、過去の状況を内部変数や内部変数として記憶しておき、観測信号と、内部変数もしくは内部変数とから、時刻t+n(n=1,2,・・・)の状態を予測できるようにモデルパラメータを決定することが行われる。

時系列パターンを時間差分方程式の形で関数近似し、ダイナミクスとして学習（記憶）する学習モデルとしては、例えばRNN(Recurrent Neural Network)がある。RNNでは、コンテキストと呼ばれる内部変数を予測するノードを持ち、学習時にはその初期値をモデルパラメータの１つとして求めるようになされている。

また、隠れマルコフモデルでは、時系列信号を生成する状態を状況AとBで別の状態として用意することで状況AとBを分離している。

特許文献１には、連続する時系列信号を分割し、分割した時系列信号をそれぞれの学習モジュールに割り当てて学習を行わせ、複数の学習モジュール間でモデルパラメータを共有する技術が記載されている。

特開２００８−２５０８５６号公報

モデルパラメータを学習により決定する際、時系列パターンに対する各学習モジュールの持つ内部変数の初期値は、他のモジュールの持つ初期値を考慮せずに各モジュールにおいて決定される。

従って、学習モジュールごとに内部変数の持つ意味が異なり、ある時刻に内部変数として観測される信号が、隠れ状態を含めたどの状態を表しているのかを、学習モジュールに分担して記憶させている時系列パターン全体の中で特定できないことがある。

このことから、学習モジュール間で内部変数の接続性を評価することができず、内部変数の接続性を用いて、学習モジュールをまたいだ、隠れ状態を持つ時系列信号のプランニングを行うといったようなことを実現することができなかった。

本発明はこのような状況に鑑みてなされたものであり、各学習モデルにおける内部変数の意味を統一させ、内部変数を考慮した学習モジュール間の接続性を用いて、時系列信号のプランニングを行うことができるようにするものである。

本発明の一側面の学習装置は、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当てる分割手段と、複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行う学習手段と、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成する生成手段と、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出するコネクティビティ算出手段とを備える。

前記学習モデルは、RNN(Recurrent Neural Network)であるようにすることができる。

前記コネクティビティ算出手段には、前記第１の誤差と前記第２の誤差の和を、前記コネクティビティとして算出させることができる。

本発明の一側面の学習方法は、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行い、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成し、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出するステップを含む。

本発明の一側面のプログラムは、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行い、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成し、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出するステップを含む処理をコンピュータに実行させる。

本発明の他の側面のデータ生成装置は、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行うことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択する始点モデル選択手段と、複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択する終点モデル選択手段と、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求める生成用モデルシーケンス算出手段と、前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成する時系列データ生成手段とを備える。

本発明の他の側面のデータ生成方法は、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行うことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択し、複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択し、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求め、前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成するステップを含む。

本発明の他の側面のプログラムは、時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行うことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択し、複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択し、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求め、前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、時系列データが、一部がオーバラップする複数のデータに分割され、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データが、１つの前記学習モデルに割り当てられる。また、複数の前記学習モデルによる時系列パターンの学習が、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行われ、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データが生成される。複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティが算出される。

本発明の他の側面においては、学習後の複数の学習モデルのうちの、１つの前記学習モデルが、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択され、複数の前記学習モデルのうちの、他の１つの前記学習モデルが、前記生成用モデルシーケンスの終点となる終点モデルとして選択される。また、複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びが、前記生成用モデルシーケンスとして求められる。前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値が決定され、その初期値が、前記学習モデルに与えて、時系列データが生成される。

本発明の一側面によれば、各学習モデルにおける内部変数の意味を統一させ、内部変数を考慮した学習モジュール間の接続性を用いて、時系列信号のプランニングを行うことができる。

本発明を適用したデータ処理装置の構成例を示すブロック図である。図１の学習装置のより詳細な構成例を示すブロック図である。学習モデルとしてのRNNの構成例を示す図である。教師データの分割と、その分割によって得られるモデル学習用データを用いた学習モデルの学習とを説明する図である。内部変数教師データの生成について説明する図である。モデルパラメータの共有について説明する図である。コネクティビティの算出の方法を説明する図である。学習装置の処理について説明するフローチャートである。図８のステップＳ１において行われる学習処理を説明するフローチャートである。図８のステップＳ２において行われるコネクティビティ算出処理を説明するフローチャートである。コネクティビティ算出処理を説明する、図１０に続くフローチャートである。コネクティビティ算出処理を説明する、図１１に続くフローチャートである。図１のデータ生成装置のより詳細な構成例を示すブロック図である。生成用モデルシーケンスの算出のために行われる前向き計算を説明する図である。生成用モデルシーケンスを用いた生成時系列データの生成を説明する図である。データ生成装置のデータ生成処理を説明するフローチャートである。図１６のステップＳ６１において行われる、生成用モデルシーケンスの算出処理を説明するフローチャートである。図１６のステップＳ６２において行われる、時系列データ生成処理を説明するフローチャートである。時系列データ生成処理を説明する、図１８に続くフローチャートである。時系列データ生成処理を説明する、図１９に続くフローチャートである。時系列データ生成処理を説明する、図２０に続くフローチャートである。教師データとしての時系列データと、その時系列データを用いた学習を行った学習モデルを用いて生成される生成時系列データとを示す図である。移動ロボットがナビゲーションタスクを行う移動環境の概要を示す図である。タスクの例を示す図である。タスクの他の例を示す図である。学習時の移動ロボットの移動の軌跡を示す図である。学習モジュールの番号と場所との対応付けを示す図である。生成用モデルシーケンスを示す図である。他の生成用モデルシーケンスを示す図である。本手法と従来手法の比較を示す図である。コンピュータの構成例を示すブロック図である。

［本発明を適用したデータ処理装置の全体構成］
図１は、本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。

データ処理装置は、例えば、現実のロボット等を行動させるための時系列データ（例えば、アクチュエータを駆動するデータ等）や、ディスプレイに表示される仮想的なキャラクタ等を行動させるための時系列データを学習する。さらに、データ処理装置は、その学習結果に基づき、現実のロボットや仮想的なキャラクタを、自律的に行動させるための時系列データを生成し、ロボット等に供給することで、そのロボット等（の行動）を制御する。

すなわち、図１において、データ処理装置は、学習装置１とデータ生成装置２から構成される。データ処理装置は、学習装置１、又は、データ生成装置２だけから構成することができる。

なお、データ生成装置２では、学習装置１が、後述する学習処理を行うことにより得られる情報（データ）を用いて、後述するデータ生成処理を行う。したがって、データ処理装置を、データ生成装置２だけから構成する場合には、データ生成処理に必要な情報を、外部からデータ生成装置２に供給するか、又は、データ生成装置２の内部に記憶しておく必要がある。

学習装置１は、時系列パターンの学習のために用意された時系列データ（以下、教師データともいう）を用い、時系列パターンを学習する学習モデルであって、内部状態（内部変数）を有する複数の学習モデルの学習を行う。この学習の際、複数の学習モデルの内部変数を表す時系列信号が前後のものどうし連続的になるように調整することが行われる。

また、学習装置１は、学習後の複数の学習モデルすべてについて、任意の２つの学習モデルそれぞれが学習（記憶）した時系列パターンどうしが接続する適切さを表すコネクティビティを求める学習処理を行う。

すなわち、学習装置１は、学習処理として、例えば、複雑で、長時間の時系列データ等である教師データを、複数の学習モデルで分担して学習し、その複数の学習モデルのそれぞれに、ダイナミクスである時系列パターンを獲得（記憶）させる処理を行う。

さらに、学習装置１は、学習処理として、複数の学習モデルのそれぞれが獲得したダイナミクスとしての時系列パターンどうしが接続する適切さ（自然さ）（接続性）を表すコネクティビティを求める処理を行う。

ここで、ダイナミクスは、時間変化する力学系を表すもので、例えば、具体的な関数によって表現することができる。学習モデルでは、時系列データの時間変化の特徴、つまり、時系列パターンが、ダイナミクスとして記憶される。

学習装置１は、教師データ保存部１１、教師データ分割部１２、学習モジュール１３、モデルパラメータ共有部１４、コネクティビティ算出部１５、及び、コネクティビティ保存部１６から構成される。学習モジュール１３は、モデル学習用データ保存部２１、学習部２２、モデルパラメータ保存部２３、及び内部変数教師データ生成部２４から構成される。後述するように、学習モジュール１３は複数設けられる。

教師データ保存部１１には外部から教師データが供給される。教師データ保存部１１は、供給される教師データを記憶（保存）する。

ここで、教師データとしては、複雑で、長時間の時系列データを採用することができる。なお、教師データは、その他、例えば、単純で、短時間の時系列データであっても良いし、複雑であるが、それほど長時間ではない時系列データ等であっても良い。

また、現実のロボットを、ある環境下で自律的に行動させるための時系列データを生成する場合には、ロボットを行動させる環境下で、行動の教示を行うユーザがロボットを実際に移動させることで得られる時系列データが教師データとして用いられる。

すなわち、ユーザがロボットを移動させているときに、ロボットがセンシングすることができる物理量のデータや、移動のために、ロボットのアクチュエータに与えられるデータ等をコンポーネントとするベクトルの時系列が、教師データとして用いられる。

ここで、以上のようなロボットがセンシングすることができるセンサデータと、ロボットのアクチュエータに与えられるアクションデータとをコンポーネントとするベクトルの時系列を、以下、センサモータデータともいう。

教師データ分割部１２は、教師データ保存部１１に記憶された教師データとしての時系列データを、一部がオーバラップする複数のデータに分割し、学習モデルの学習に用いるモデル学習用データとして、モデル学習用データ保存部２１に供給する。

ここで、教師データ分割部１２において、教師データを分割して得られる複数のモデル学習用データの長さ（サンプル数）は、同一であっても良いし、異なっていても良い。オーバラップの長さも同様である。

但し、以下では、説明を簡単にするため、教師データを分割して得られる複数のモデル学習用データは、すべて同一の固定長であることとし、また、オーバラップの長さも、固定長であることとする。

学習モジュール１３のモデル学習用データ保存部２１は、教師データ分割部１２からの複数のモデル学習用データを記憶する。

学習部２２は、１つのモデル学習用データを、１つの学習モデルに割り当てるように、モデル学習用データ保存部２１に記憶された複数のモデル学習用データを、複数の学習モデルに割り当てる。さらに、学習部２２は、学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられたモデル学習用データを用いて行うことで、学習モデルを定義するモデルパラメータを求める。そして、学習部２２は、複数の学習モデルそれぞれのモデルパラメータを、モデルパラメータ保存部２３に供給する。

ここで、学習部２２が学習の対象とする複数の学習モデルの数Nは、教師データ分割部１２で得られる複数の学習用モデルデータの数Nに一致する。

したがって、例えば、教師データ分割部１２では、教師データが、あらかじめ用意された学習モデルの数以下の数のモデル学習用データに分割される。あるいは、学習部２２において、教師データ分割部１２で得られた複数のモデル学習用データの数と同一の数の学習モデルが生成される。なお、学習モデルの実体は、メモリ等の記憶領域（例えば、オブジェクト指向プログラミングにおけるインスタンス）である。

モデルパラメータ保存部２３は、学習部２２から供給されるモデルパラメータを記憶する。

内部変数教師データ生成部２４は、複数の学習モデルのそれぞれについて、モデルパラメータ保存部２３に記憶されている、１つの学習モデルの内部変数と、隣接する他の１つの学習モジュールの学習モデルの内部変数を取得する。内部変数教師データ生成部２４は、取得した内部変数に基づいて内部変数教師データを生成し、内部変数の教師として、その１つの学習モデルの学習を行う学習部２２に出力する。

モデルパラメータ共有部１４は、N個の学習モジュール１３のうちの、２以上の学習モジュールに、モデルパラメータを共有させる共有処理を行う。モデルパラメータ共有部１４が共有処理を行うことにより、N個の学習モジュール１３のうちの２以上の学習モジュールはモデルパラメータを共有する。

コネクティビティ算出部１５は、学習部２２で学習が行われた複数の学習モデルのうちの任意の２つの学習モデルに注目し、注目する２つの学習モデル間のコネクティビティを算出する。コネクティビティの算出は、全ての学習モデルの組み合わせについて求められる。

コネクティビティは、１つの学習モデルが学習した時系列パターンの後に、他の１つの学習モデルが学習した時系列パターンが接続する適切さを表す。

例えば、コネクティビティ算出部１５は、モデル学習用データ保存部２１に記憶されたモデル学習用データと、モデルパラメータ保存部２３に記憶されたモデルパラメータと、コネクティビティを算出しようとしている２つの学習モデルの内部変数を取得する。

コネクティビティ算出部１５は、１つの学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を求める。また、コネクティビティ算出部１５は、その、１つの学習モデルの内部変数の最後の一部分のデータ列と、他の１つの学習モデルの内部変数の最初の一部分のデータ列との誤差を求める。

コネクティビティ算出部１５は、求めた２つの誤差の和をコネクティビティとして算出し、コネクティビティ保存部１６に供給する。

コネクティビティ保存部１６は、コネクティビティ算出部１５から供給されるコネクティビティを記憶する。

データ生成装置２は、学習装置１で得られた学習後の複数の学習モデルと、その複数の学習モデルについて算出されたコネクティビティとに基づき、教師データに相当するような、複雑で、長時間の、滑らかな時系列データを生成するデータ生成処理を行う。

すなわち、データ生成装置２は、データ生成処理として、学習後の複数の学習モデルのうちの、１つの学習モデルを、時系列データの生成に用いる学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択する処理を行う。さらに、データ生成装置２は、データ生成処理として、複数の学習モデルのうちの、他の１つの学習モデルを、生成用モデルシーケンスの終点となる終点モデルとして選択する処理を行う。

また、データ生成装置２は、データ生成処理として、コネクティビティに基づき、始点モデルから終点モデルまでの、ある学習モデルの並びを、生成用モデルシーケンスとして求める処理を行う。

さらに、データ生成装置２は、データ生成処理として、生成用モデルシーケンスに基づき、教師データに相当するような、複雑で、長時間の、滑らかな時系列データを生成する処理を行う。

データ生成装置２は、現在データ供給部３１、目標データ供給部３２、始点モデル選択部３３、終点モデル選択部３４、生成用モデルシーケンス算出部３５、時系列データ生成部３６、及び、時系列データ出力部３７から構成される。

現在データ供給部３１は、時系列データである現在データを、始点モデル選択部３３、及び、時系列データ生成部３６に供給する。

ここで、データ処理装置が制御するロボット等は、教師データを構成するのと同様のベクトルの時系列を、観測可能なデータとして、データ処理装置に提供するようになっている。現在データとは、例えば、データ処理装置が制御するロボット等が提供する観測可能なセンサモータデータのうちの、現在時刻のサンプル（ベクトル）を含む、連続する複数のサンプルである。

なお、現在データを構成するサンプルの数は、例えば、モデル学習用データを構成するサンプルの数よりも少ないこととする。

現在データ供給部３１は、例えば、データ処理装置が制御するロボット等が提供する観測可能なセンサモータデータから、現在データを抽出し、始点モデル選択部３３、及び、時系列データ生成部３６に供給する。

目標データ供給部３２は、時系列データである目標データを、終点モデル選択部３４に供給する。

ここで、目標データは、現在データと同様（同一次元）のデータであり、例えば、ユーザ等の外部から、目標データ供給部３２に提供される。

例えば、データ生成装置２において、データ処理装置が制御するロボットがいる現在位置から、ユーザ等の外部から指定された位置（以下、目標位置ともいう）まで、ロボットを移動させるための時系列データであるセンサモータデータを生成する場合を考える。この場合、ロボットが、現在位置で得るセンサモータデータ（数サンプルのセンサモータデータ）が、現在データとなり、目標位置で得られるであろうセンサモータデータが、目標データとなる。

始点モデル選択部３３は、現在データ供給部３１からの現在データに基づき、モデルパラメータ保存部２３にモデルパラメータが記憶された複数の学習モデル、すなわち、学習後の複数の学習モデルのうちの、１つの学習モデルを、始点モデルとして選択する。さらに、始点モデル選択部３３は、始点モデルを特定する始点モデルID(Identification)を、生成用モデルシーケンス算出部３５に供給する。

終点モデル選択部３４は、目標データ供給部３２からの目標データに基づき、モデルパラメータ保存部２３にモデルパラメータが記憶された複数の学習モデル、すなわち、学習後の複数の学習モデルのうちの、１つの学習モデルを、終点モデルとして選択する。さらに、終点モデル選択部３４は、終点モデルを特定する終点モデルIDを、生成用モデルシーケンス算出部３５に供給する。

ここで、始点モデルとは、時系列データの生成に用いる学習モデルのシーケンスである生成用モデルシーケンスの始点となる学習モデルであり、終点モデルとは、生成用モデルシーケンスの終点となる学習モデルである。

始点モデルは、時系列データ生成部３６で生成される（長時間の）時系列データ（以下、生成時系列データともいう）の最初の部分を生成するのに用いられ、終点モデルは、生成時系列データの最後の部分を生成するのに用いられる。

生成用モデルシーケンス算出部３５は、始点モデル選択部３３からの始点モデルIDによって特定される始点モデルから、終点モデル選択部３４からの終点モデルIDによって特定される終点モデルまでの、複数の学習モデルの、ある並びを、生成用モデルシーケンスとして求める。

すなわち、生成用モデルシーケンス算出部３５は、コネクティビティ保存部１６に記憶されたコネクティビティに対応する値を、１つの学習モデルの後に、他の１つの学習モデルを接続する接続コストとする。生成用モデルシーケンス算出部３５は、その接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びを、生成用モデルシーケンスとして求める。

生成用モデルシーケンス算出部３５は、生成用モデルシーケンスを、時系列データ生成部３６に供給する。

時系列データ生成部３６は、生成用モデルシーケンス算出部３５からの生成用モデルシーケンスを構成する学習モデルに、現在データ供給部３１からの現在データを与えることで、生成用モデルシーケンスを構成する各学習モデルに、時系列データを生成させる。

さらに、時系列データ生成部３６は、生成用モデルシーケンスを構成する各学習モデルが生成した時系列データ（以下、モデル生成データともいう）を、生成用モデルシーケンスとしての学習モデルの並びの順に接続させる。時系列データ生成部３６は、そのようにして接続させることによって得られた生成時系列データを、時系列データ出力部３７に供給する。

なお、時系列データ生成部３６は、生成用モデルシーケンス算出部３５からの生成用モデルシーケンスを構成する学習モデルに、現在データ供給部３１からの現在データを与えて、モデル生成データを生成する前に、生成用モデルシーケンスを構成する学習モデルについて、学習モデルが生成する時系列データ（モデル生成データ）の最後の一部分のデータ列と、後（直後）に接続される学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、学習モデルの内部変数の初期値を決定する。

そして、時系列データ生成部３６は、その初期値を、学習モデルに与えて、時系列データ（モデル生成データ）を生成する。その結果、生成用モデルシーケンスを構成する各学習モデルが生成したモデル生成データを、生成用モデルシーケンスとしての学習モデルの並びの順に接続した生成時系列データは、滑らかな時系列データとなる。

［学習装置１の詳細構成例］
図２は、図１の学習装置１のより詳細な構成例を示している。

なお、図２では、教師データ分割部１２において、教師データが、複数であるN個のモデル学習用データに分割されることとする。N個のモデル学習用データの、時系列順で、n番目を、以下、モデル学習用データ#nとも記載する。

教師データ分割部１２は、教師データを、N個のモデル学習用データ#1,#2,・・・,#Nに分割し、１つのモデル学習用データを、１つの学習モデルに割り当てるように、モデル学習用データを学習モジュール１３のモデル学習用データ保存部２１に出力する。

図２の例においては、学習データの分割数と同じN個の学習モジュールである学習モジュール１３₁ないし１３_Nが設けられている。学習モジュール１３₁ないし１３_Nは、それぞれ同じ構成を有している。

モデル学習用データ保存部２１_nは、教師データ分割部１２から供給されたモデル学習用データ＃nを記憶する。

学習部２２_nは、学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられたモデル学習用データ＃nと、内部変数教師データ生成部２４_nから供給された内部変数教師データを用いて行う。学習部２２_nは、学習によって得られた、学習モデルを定義するモデルパラメータをモデルパラメータ保存部２３_nに供給する。

モデルパラメータ保存部２３_nは、学習部２２_nから供給されるモデルパラメータを記憶する。

内部変数教師データ生成部２４_nは、モデルパラメータ保存部２３_nに記憶されている学習モデルの内部変数と、隣接する学習モジュールの学習モデルの内部変数に基づいて内部変数教師データを生成し、内部変数の教師として学習部２２_nに出力する。内部変数教師データの生成については後述する。

モデルパラメータ共有部１４は、N個の学習モジュール１３₁ないし１３_Nのうちの、２以上の学習モジュールに、モデルパラメータを共有させる共有処理を行う。

コネクティビティ算出部１５は、モデルペア選択部５１、モデルパラメータ供給部５２、２個の認識生成部５３及び５４、並びに、コネクティビティ演算部５５から構成される。

モデルペア選択部５１は、N個の学習モデル#1ないし#Nから、任意の２つの学習モデルの並び（順列）を、モデルペアとして選択し、モデルパラメータ供給部５２に供給する。

すなわち、モデルペア選択部５１は、N個の学習モデル#1ないし#Nのうちの１つの学習モデルを、順次、注目モデルとして選択する。さらに、モデルペア選択部５１は、注目モデルに対して、N個の学習モデル#1ないし#Nのうちの、注目モデルの他の１つの学習モデルを、注目モデルの後に接続される後モデルとして選択する。そして、モデルペア選択部５１は、注目モデルと、後モデルとの並び（順列）を、モデルペアとして、モデルパラメータ供給部５２に供給する。

モデルパラメータ供給部５２は、モデルペア選択部５１からのモデルペアを構成する２つの学習モデルのモデルパラメータを、モデルパラメータ保存部２３から読み出す。さらに、モデルパラメータ供給部５２は、モデルパラメータ保存部２３から読み出したモデルパラメータのうちの、モデルペアを構成する２つの学習モデルの並びのうちの１番目の学習モデル（以下、前モデルともいう）のモデルパラメータを、認識生成部５３に供給する。

また、モデルパラメータ供給部５２は、モデルパラメータ保存部２３から読み出したモデルパラメータのうちの、後モデル（モデルペアを構成する２つの学習モデルの並びのうちの２番目の学習モデル）のモデルパラメータを、認識生成部５４に供給する。

認識生成部５３は、モデルパラメータ供給部５２からの、前モデルのモデルパラメータを、学習モデルに設定することで、前モデルを生成する（例えば、オブジェクト指向プログラミングにおける、前モデルとしての学習モデルのインスタンスを生成する）。

また、認識生成部５３は、前モデルに割り当てられたモデル学習用データを、モデル学習用データ保存部２１から読み込み、前モデルに与えることで、前モデルから、時系列データであるモデル生成データを生成する。

さらに、認識生成部５３は、モデル生成データを生成するとともに、前モデルの内部変数を生成する。

ここで、本実施の形態では、学習モデルは内部変数を有し、時系列データ（モデル生成データ）の生成時には、内部変数の初期値が、学習モデルに与えられる。学習モデルから生成されるモデル生成データは、内部変数の初期値によって異なる。認識生成部５３は、前モデルが生成するモデル生成データの最後の一部分のデータ列（複数サンプル）と、認識生成部５４が後モデルから生成するモデル生成データの最初の一部分のデータ列との誤差（以下、接続誤差ともいう）が小さくなるように、前モデルに与える内部変数の初期値を決定する（更新する）。

そして、認識生成部５３は、接続誤差が小さくなったときの内部変数の初期値を、前モデルに与えて、その前モデルから、モデル生成データを生成し、コネクティビティ演算部５５に供給する。また、認識生成部５３は、モデル生成データとともに生成した前モデルの内部変数をコネクティビティ演算部５５に出力する。

認識生成部５４は、モデルパラメータ供給部５２からの、後モデルのモデルパラメータを、学習モデルに設定することで、後モデルを生成する（例えば、オブジェクト指向プログラミングにおける、後モデルとしての学習モデルのインスタンスを生成する）。

また、認識生成部５４は、後モデルに割り当てられたモデル学習用データを、モデル学習用データ保存部２１から読み込み、後モデルに与えることで、後モデルから、時系列データであるモデル生成データを生成する。さらに、認識生成部５４は、モデル生成データを生成するとともに、後モデルの内部変数を生成する。

ここで、認識生成部５４も、後モデルが生成するモデル生成データの最初の一部分のデータ列と、認識生成部５３が前モデルから生成するモデル生成データの最後の一部分のデータ列との接続誤差が小さくなるように後モデルに与える内部変数の初期値を決定する。

そして、認識生成部５４は、接続誤差が小さくなったときの内部変数の初期値を、後モデルに与えて、その後モデルから、モデル生成データを生成し、コネクティビティ演算部５５に供給する。認識生成部５４は、モデル生成データとともに生成した後モデルの内部変数をコネクティビティ演算部５５に出力する。

コネクティビティ演算部５５は、認識生成部５３からの、前モデルから生成されたモデル生成データの最後の一部分のデータ列と、認識生成部５４からの、後モデルから生成されたモデル生成データの最初の一部分のデータ列との接続誤差を求める。

また、コネクティビティ演算部５５は、認識生成部５３からの、前モデルの内部変数の最後の一部分のデータ列と、認識生成部５４からの、後モデルの内部変数の最初の一部分のデータ列との接続誤差を求める。

そして、コネクティビティ演算部５５は、モデル生成データから求めた接続誤差と、内部変数から求めた接続誤差の和を、前モデルに対する後モデルのコネクティビティとして、コネクティビティ保存部１６に供給する。

ここで、学習モデル#iに対する学習モデル#jのコネクティビティを、c_ijと表す（i=1,2,・・・,N：j=1,2,・・・,N：i≠j）。

コネクティビティ保存部１６は、コネクティビティ算出部１５（のコネクティビティ演算部５５）から供給される、N個の学習モデルについての、N×N−N個のコネクティビティc_ijを記憶する。

［学習モデルの説明］
次に、図１の学習装置１で学習に用いられる学習モデルについて説明する。

学習モデルとしては、力学系を近似することができるモデル（力学系近似モデル）のうちの、内部変数を有する力学系近似モデルを採用することができる。

内部変数を有する力学系近似モデルとしては、例えば、RNNがある。

図３は、RNNの構成例を示している。

ここで、あるシステム（系）にデータを入力したときに、そのデータに対して、システムから出力されるデータを、出力データというとともに、システムに入力されるデータを、入力データという。

図３では、RNNは、入力層、隠れ層（中間層）、及び出力層の３層で構成されている。入力層、隠れ層、及び出力層は、それぞれ任意の数の、ニューロンに相当するユニットにより構成される。

RNNでは、入力層の一部のユニットである入力ユニットに、外部から入力データx_tが入力（供給）される。ここで、入力データx_tは、時刻tのサンプル（値）を表す。

入力層の、入力データx_tが入力される入力ユニット以外の、残りのユニットは、コンテキストユニットであり、コンテキストユニットには、出力層の一部のユニットの出力が、内部変数を表すコンテキストとしてフィードバックされる。

ここで、時刻tの入力データx_tが入力層の入力ユニットに入力されるときに入力層のコンテキストユニットに入力される時刻tのコンテキストを、c_tと記載する。

隠れ層のユニットは、入力層に入力される入力データx_tとコンテキストc_tを対象として、所定のウエイト（重み）を用いた重み付け加算を行い、その重み付け加算の結果を引数とする非線形関数の演算を行って、その演算結果を、出力層のユニットに出力する。

出力層のユニットでは、隠れ層のユニットが出力するデータを対象として、隠れ層のユニットと同様の処理が行われる。そして、出力層の一部のユニットからは、上述したように、次の時刻t+1のコンテキストc_t+1が出力され、入力層にフィードバックされる。また、出力層の残りのユニットからは、例えば、入力データx_tに対する出力データが出力される。

すなわち、RNNの学習は、例えば、RNNに対して、ある時系列データの時刻tのサンプルを、入力データとして与えるとともに、その時系列データの、次の時刻t+1のサンプルを、出力データの真値として与え、出力データの、真値に対する誤差を小さくするように行われる。

また、後に詳述するように、RNNの学習は、時系列の信号として表されるコンテキストの、内部変数教師データ生成部２４により生成された内部変数教師データに対する誤差を小さくするようにもして行われる。

このような学習が行われたRNNでは、入力データx_tに対する出力データとして、その入力データx_tの次の時刻t+1の入力データx_t+1の予測値x^* _t+1が出力される。

なお、上述したように、RNNでは、ユニットへの入力が重み付け加算されるが、この重み付け加算に用いられるウエイト（重み）が、RNNのモデルパラメータである。RNNのモデルパラメータとしてのウエイトには、入力ユニットから隠れ層のユニットへのウエイト、コンテキストユニットから隠れ層のユニットへウエイト、隠れ層のユニットから出力層のユニットへのウエイト等がある。

以上のようなRNNを、学習モデルとして採用する場合には、そのRNNの学習時には、入力データ及び出力データの真値として、時系列データであるモデル学習用データ（学習モデルに割り当てられたモデル学習用データ）が与えられる。

そして、RNNの学習では、モデル学習用データ#nの時刻tのサンプル（先頭からt番目のサンプル）を入力データとしてRNNに与えたときに、RNNが出力する出力データとしての時刻t+1のサンプルの予測値の予測誤差を小さくするウエイトが求められる。そのウエイトは、例えば、BPTT(Back-Propagation Through Time)法により求められる。

また、RNNの学習時において、コンテキストの初期値（以下、初期コンテキストともいう）は、例えば、入力データに対する出力データの、出力データの真値に対する誤差が小さくなるように、自己組織的に決定（更新）される。

ここで、自己組織的に決定されるとは、外部からの制御なしに、いわば自発的に決定されることを意味する。

なお、RNNからの時系列データ（モデル生成データ）の生成は、外部から与えられるデータを、入力データとして、RNNに与えることや、RNNが出力する出力データを、入力データとして、RNNに与えることによって行われる。

以下では、学習モデルは、RNNであるとする。

［教師データの分割と、学習モデルの学習の説明］
図４を参照して、教師データ分割部１２（図１）による教師データの分割と、その分割によって得られるモデル学習用データを用いた学習モデルの学習について説明する。

図４は、教師データと、その教師データを分割して得られるモデル学習用データの、学習モデルへの割り当てとを示している。

図４において、教師データは、２つのコンポーネントを有するベクトルの時系列になっている。

教師データ分割部１２（図１）は、複数の学習モデルに教師データを分担して学習させるために、教師データを、Lサンプルがオーバラップする、S(>L)サンプルのモデル学習用データに分割する。

図４では、教師データは、４つのモデル学習用データ#1ないし#4に分割されている。

ここで、モデル学習用データにおいて、そのモデル学習用データと隣接するモデル学習用データとオーバラップしているLサンプルを、以下、モデル学習用データのオーバラップ部分ともいう。

Sサンプルの時系列であるモデル学習用データでは、その最初のLサンプルと、最後のLサンプルが、オーバラップ部分となっている。正確には、教師データから分割された最初のモデル学習用データでは、最後のLサンプルだけがオーバラップ部分となっており、最後のモデル学習用データでは、最初のLサンプルだけがオーバラップ部分となっている。

教師データ分割部１２は、モデル学習用データ#1を学習モジュール１３₁の学習モデル#1に割り当て、モデル学習用データ#2を学習モジュール１３₂の学習モデル#2に割り当てる。また、教師データ分割部１２は、モデル学習用データ#3を学習モジュール１３₃の学習モデル#3に割り当て、モデル学習用データ#4を学習モジュール１３₁の学習モデル#4に割り当てる。

割り当てられたモデル学習用データは、それぞれの学習モジュール１３_nにおいて、そのモデル学習用データ保存部２１_nに保存された後、学習部２２_nに供給される。

学習部２２_nは、学習モデル#nによる時系列パターンの学習を、その学習モデル#nに割り当てられたモデル学習用データ#nを用いて行う。これにより、学習部２２_nは、モデル学習用データ#nのダイナミクスとしての時系列パターンを、学習モデル#nの学習則に従って、時間発展方程式の関数近似モデルとして獲得する。

すなわち、学習部２２_nは、モデル学習用データ#nを用いて、RNNのモデルパラメータであるウエイトをBPTT法により求める。例えば、モデル学習用データ#nの時刻tのサンプルを入力データとして、RNNに与えたときに、RNNが出力する出力データとしての時刻t+1のサンプルの予測値の予測誤差を小さくするウエイトが求められる。

したがって、学習部２２_nでは、隣接（連続）するモデル学習用データ#n及び#n+1がそれぞれ割り当てられる２つの学習モデル#n及び#n+1に注目した場合、学習モデル#n+1の学習は、最初のオーバラップ部分としてのLサンプルが、学習モデル#nの学習に用いられるモデル学習用データ#nの最後のオーバラップ部分としてのLサンプルに一致しているモデル学習用データ#n+1を用いて行われる。

［内部変数教師データの生成］
図５は、内部変数教師データ生成部２４_iによる内部変数教師データの生成の例を示す図である。ここでは、各構成、各モジュール等の添え字として、図４のｎに替えてｉを用いている。

i≠１、かつi≠Nである場合について説明する。この場合、学習モジュール１３_iに入力されるモデル学習用データより時間的に前のモデル学習用データが入力される学習モジュール１３_i-1が存在する。また、学習モジュール１３_iに入力されるモデル学習用データより時間的に後のモデル学習用データが入力される学習モジュール１３_i+1が存在する。

学習モデルの学習時、内部変数教師データ生成部２４_iに対しては、学習モジュール１３_iが有する学習モデル#iのコンテキストと、学習モジュール１３_i-1が有する学習モデル#i-1のコンテキストと、学習モジュール１３_i+1が有する学習モデル#i+1のコンテキストとがそれぞれ供給される。

時系列の信号であるモデル学習用データが入力される毎に出力されるから、RNNのコンテキストノードから出力されるコンテキストも、図５の上段に示すように時系列の信号として表される。横方向が時間方向である。

破線の波形は、学習モジュール１３_i-1が有する学習モデル#i-1のコンテキストを示し、実線の波形は、学習モジュール１３_iが有する学習モデル#iのコンテキストを示す。また、一点鎖線の波形は、学習モジュール１３_i+1が有する学習モデル#i+1のコンテキストを示す。

上述したように、モデル学習用データには、隣接する学習モジュールに入力されるものどうしオーバラップ部分が存在する。学習モジュール１３_i-1に入力されるモデル学習用データの最後のLサンプルと、学習モジュール１３_iに入力されるモデル学習用データの最初のLサンプルは一致する。

しかし、図５に示すように、t=1からt=Nの区間L₁における学習モデル#i-1のコンテキストと学習モデル#iのコンテキストとは、それぞれの学習モデルのモデルパラメータに応じて異なる値をとることになる。

図５上段の区間L₁には、学習モジュール１３_i-1と学習モジュール１３_iに入力されたモデル学習用データ全体のうちのオーバラップ部分が入力されたときにそれぞれの学習モデルにおいて観測されたコンテキストを示している。区間L₁の学習モデル#i-1のコンテキストの値と、学習モデル#iのコンテキストの値とは大きく異なっている。

同様に、学習モジュール１３_iに入力されるモデル学習用データの最後のLサンプルと、学習モジュール１３_i+1に入力されるモデル学習用データの最初のLサンプルは一致する。

しかし、図５に示すように、t=T-N+1からt=Tの区間L₂における学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとは、それぞれの学習モデルのモデルパラメータに応じて異なる値をとることになる。

図５上段の区間L₂には、学習モジュール１３_iと学習モジュール１３_i+1に入力されたモデル学習用データ全体のうちのオーバラップ部分が入力されたときにそれぞれの学習モデルにおいて観測されたコンテキストを示している。区間L₂の学習モデル#iのコンテキストの値と、学習モデル#i+1のコンテキストの値とは大きく異なっている。

以下、モデル学習用データ全体のうちのオーバラップ部分に対応して出力されたコンテキストの部分をコンテキストのオーバラップ部分という。例えば、図５上段の区間L₁は、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストのオーバラップ部分の区間である。

各学習モジュールにおいては、隣接する学習モジュールの学習モデルとの間でコンテキストの値が連続的になるように、コンテキストの教師となる内部変数教師データが生成され、学習が行われる。内部変数教師データを用いた学習は、コンテキストの、内部変数教師データに対する誤差が小さくなるようにして行われる。

内部変数教師データは、前段の学習モデルのコンテキストの最後のオーバラップ部分の値と、後段の学習モデルのコンテキストの最初のオーバラップ部分の値の線形和によって、内部変数教師データ生成部２４_iにより計算される。

モデル学習用データのオーバラップ長をNサンプル、モデル学習用データ長をTサンプルとすると、学習モジュール１３_iの最初のオーバラップ部分である区間L₁における内部変数教師データCtⁱ _1...Nは、下式（１）により計算される。

式（１）のC^i-1 _T-N+1...Tは、学習モデル#i-1のコンテキスト全体のうちの、最後のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。Cⁱ _1...Tは、学習モデル#iのコンテキスト全体のうちの、最初のオーバラップ部分、すなわち、学習モデル#i-1のコンテキストとのオーバラップ部分の値を表す。

εは、他の学習モデルのコンテキストとの線形和を取るときの重みとなる所定の値である。

同様に、学習モジュール１３_iの最後のオーバラップ部分である区間L₂における内部変数教師データCtⁱ _T-N+1は、下式（２）により計算される。

式（２）のCⁱ⁺¹ _1...Tは、学習モデル#i+1のコンテキスト全体のうちの、最初のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。Cⁱ _T-N+1は、学習モデル#i+1のコンテキスト全体のうちの、最後のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。

以上のようにして計算された内部変数教師データCtⁱ _1...Nと内部変数教師データCtⁱ _T-N+1を含む、学習モジュール１３_iの内部変数教師データ全体を図５の下段に示す。

なお、各学習モジュール１３_iにおいて、初期コンテキストに与える内部変数教師データは、学習順で前段の学習モジュール１３_iで得られたコンテキストの値が引き継がれる（そのまま用いられる）。

内部変数教師データとコンテキストの誤差を小さくするようにして順伝播での学習と逆伝播での学習が繰り返されることによって、モデルパラメータが調整される。

そのような学習が繰り返されることにより、学習モデル#iのコンテキスト全体のうちの最初のオーバラップ部分の値は、学習モデル#i-1のコンテキストの最後のオーバラップ部分の値に近いものになる。

学習モジュール１３_i-1においても同様にして学習が行われるから、学習モデル#i-1のコンテキスト全体のうちの最後のオーバラップ部分の値は、学習モデル#iのコンテキストの最初のオーバラップ部分の値に近いものになる。

すなわち、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストとは、より連続的なものになる。

また、学習モデル#iのコンテキスト全体のうちの最後のオーバラップ部分の値は、学習モデル#i+1のコンテキストの最初のオーバラップ部分の値に近いものになる。

学習モジュール１３_i+1においても同様にして学習が行われるから、学習モデル#i+1のコンテキスト全体のうちの最初のオーバラップ部分の値は、学習モデル#iのコンテキストの最後のオーバラップ部分の値に近いものになる。

すなわち、学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとは、より連続的なものになる。

このように、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストとが連続的なものになり、学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとが連続的なものになる。従って、学習モジュール１３_iないし１３_Nの学習モデルのコンテキスト全体が連続的なものになる。

全体のコンテキストが連続的なものになることにより、各学習モジュール１３_iにおいて、その学習モデル#iのコンテキストの意味を統一させることが可能になる。

［モデルパラメータの共有］
図６は、モデルパラメータの共有の概念を示す図である。

N個の学習モジュール１３₁ないし１３_Nのすべてに、モデルパラメータを共有させる場合について説明する。

図６においては、モデルパラメータ保存部２３_iとモデルパラメータ共有部１４以外の図示を省略している。図６に示すように、モデルパラメータ共有部１４にはウエイトマトリクス共有部１４Ａが設けられる。RNNのモデルパラメータとしてのウエイトは複数あるが、その複数のウエイトをコンポーネントとするマトリクスをウエイトマトリクスという。

ウエイトマトリクス共有部１４Ａは、モデルパラメータ保存部２３₁ないし２３_Nに記憶された学習モデル#1ないし#Nの複数のモデルパラメータとしてのウエイトマトリクスすべてを、学習モジュール１３₁ないし１３_Nのそれぞれに共有させる。

すなわち、学習モデル#iのウエイトマトリクスをw_iと表すと、ウエイトマトリクス共有部１４Ａは、ウエイトマトリクスw_iを、N個の学習モジュール１３₁ないし１３_Nそれぞれのウエイトマトリクスw₁ないしw_Nのすべてに基づいて補正する。これにより、ウエイトマトリクス共有部１４Ａは、ウエイトマトリクスw_iに、ウエイトマトリクスw₁ないしw_Nのすべてを影響させる。

具体的には、ウエイトマトリクス共有部１４Ａは、例えば、次式（３）に従い、学習モデル#iのウエイトマトリクスw_iを補正する。

式（３）のΔw_iは、ウエイトマトリクスw_iを補正する補正成分であり、例えば、式（４）に従って求められる。

式（４）のβ_ijは、学習モデル#iのウエイトマトリクスw_iに、学習モデル#j(j=1,2,・・・,N)のウエイトマトリクスw_jを影響させる度合いを表す係数である。

式（４）の右辺のサメーションΣβ_ij(w_j-w_i)は、係数β_ijを重みとした、学習モデル#iのウエイトマトリクスw_jに対する学習モデル#1ないし#Nのウエイトマトリクスw₁ないしw_Nそれぞれの偏差（差分）の重み付け平均値を表す。α_iは、その重み付け平均値Σβ_ij(w_j-w_i)を、ウエイトマトリクスw_iに影響させる度合いを表す係数である。

係数α_i及びβ_ijとしては、例えば、0.0より大で1.0より小の値を採用することができる。

式（４）によれば、係数α_iが小であるほど、いわば共有が弱くなり（ウエイトマトリクスw_iが受ける重み付け平均値Σβ_ij(w_j-w_i)の影響が小さくなり）、係数α_iが大であるほど、いわば共有が強まる。

なお、ウエイトマトリクスw_iの補正の方法は、式（３）に限定されるものではなく、例えば、式（５）に従って行うことが可能である。

ここで、式（５）において、β_ij ^'は、学習モデル#iのウエイトマトリクスw_iに、学習モデル#j(j=1,2,・・・,N)のウエイトマトリクスw_jを影響させる度合いを表す係数である。

式（５）の右辺の第２項におけるサメーションΣβ_ij ^'w_jは、係数β_ij ^'を重みとした、学習モデル#1ないし#Nのウエイトマトリクスw₁ないしw_Nの重み付け平均値を表す。α_i ^'は、その重み付け平均値Σβ_ij ^'w_jを、ウエイトマトリクスw_iに影響させる度合いを表す係数である。

係数α_i ^'及びβ_ij ^'としては、例えば、0.0より大で1.0より小の値を採用することができる。

式（５）によれば、係数α_i ^'が大であるほど、共有が弱くなり（ウエイトマトリクスw_iが受ける重み付け平均値Σβ_ij ^'w_jの影響が小さくなり）、係数α_i ^'が小であるほど、共有が強まる。

［コネクティビティの算出の方法］
図７を参照して、コネクティビティ算出部１５（図１）によるコネクティビティの算出の方法について説明する。

コネクティビティ算出部１５は、複数の学習モデル#1ないし#Nのそれぞれに記憶されたダイナミクスとしての時系列パターンどうしが接続する接続性（適切さ）を表すコネクティビティを求める。

すなわち、コネクティビティ算出部１５は、複数の学習モデル#1ないし#Nから、２つの学習モデル#iと#j（i≠j）の並び（順列）を、モデルペアとして選択する。

さらに、コネクティビティ算出部１５は、モデルペアを構成する学習モデル#iと#jが生成するモデル生成データ#iと#jそれぞれの一部分のデータ列（複数サンプル）であるオーバラップ部分の、いわば順伝播と逆伝播（順伝搬と逆伝搬）を繰り返す。これにより、コネクティビティ算出部１５は、学習モデル#iと#jそれぞれが生成するモデル生成データ#iと#jどうしを、なるべく繋がりやすくする、学習モデル#iと#jの初期コンテキスト（以下、最適初期コンテキストともいう）を求める。

ここで、モデル生成データのオーバラップ部分とは、学習モデルの学習に用いられたモデル学習用データのオーバラップ部分に相当する部分である。

すなわち、図４で説明したように、学習モデルの学習は、オーバラップ部分を有するＳサンプルのモデル学習用データを用いて行われる。

したがって、学習モデルから、Sサンプルの時系列を、モデル生成データとして生成させた場合、そのモデル生成データは、学習に用いられたモデル学習用データのオーバラップ部分に相当する部分を有する。この、モデル生成データが有する、モデル学習用データのオーバラップ部分に相当する部分が、モデル生成データのオーバラップ部分である。

また、学習モデルから、Sサンプルの時系列を、モデル生成データとして生成させた場合に観測されるコンテキストは、学習に用いられたモデル学習用データのオーバラップ部分に相当する部分を有する。この、コンテキストが有する、モデル学習用データのオーバラップ部分に相当する部分が、コンテキストのオーバラップ部分である。

コネクティビティ算出部１５は、最適初期コンテキストを求めた後、学習モデル#iと#jに、それぞれの最適初期コンテキストを与えて、モデル生成データ#iと#jを生成する。また、このとき、コネクティビティ算出部１５は、コンテキスト#iと#jを生成する。

そして、コネクティビティ算出部１５は、モデルペアを構成する前モデル、つまり、モデルペアの１番目の学習モデル#iが生成したモデル生成データ#iの最後のオーバラップ部分（最後のLサンプル）と、後モデル、つまり、モデルペアの２番目の学習モデル#jが生成したモデル生成データ#jの最初のオーバラップ部分（最初のLサンプル）との累積距離（誤差の累積値）を算出する。

また、コネクティビティ算出部１５は、モデルペアを構成する学習モデル#iが生成したコンテキスト#iの最後のオーバラップ部分と、学習モデル#jが生成したコンテキスト#jの最初のオーバラップ部分との累積距離を算出する。

コネクティビティ算出部１５は、算出した２つの累積距離の和を、前モデルとしての学習モデル#iに対する、後モデルとしての学習モデル#jのコネクティビティc_ijとして求める。

教師データ分割部１２において、教師データを、オーバラップ部分を有するモデル学習用データに分割するのは、コネクティビティを算出するためである。

図７を参照して、コネクティビティ算出部１５（図１）によるコネクティビティの算出について、さらに説明する。

コネクティビティ算出部１５は、N個の学習モデル#1ないし#Nから、前モデルとなる学習モデル#iを選択するとともに、その学習モデル#i以外の学習モデル#jを、後モデルとして選択する。

そして、コネクティビティ算出部１５は、前モデルである学習モデル#iの入力データの最初の１サンプルとして、学習モデル#iに割り当てられたモデル学習用データ#iの最初の１サンプルを設定する。

さらに、コネクティビティ算出部１５は、後モデルである学習モデル#jの出力データの最後の１サンプルの真値として、学習モデル#jに割り当てられたモデル学習用データ#jの最後の１サンプルを設定する。

また、コネクティビティ算出部１５は、前モデルである学習モデル#iと、後モデルである学習モデル#jのそれぞれの初期コンテキストとして、ランダムな値を設定する。

そして、コネクティビティ算出部１５は、前モデルである学習モデル#iに、入力データと初期コンテキストを与えて、例えば、モデル学習用データ#iと同一の長さのS（S=T+L）サンプルのモデル生成データ#iを生成する。

このとき、コネクティビティ算出部１５は、モデル学習用データ#iと同一の長さのSサンプルのコンテキスト#iを生成する。

前モデルである学習モデル#iから、Sサンプルのモデル生成データ#iとコンテキスト#iを生成した後、コネクティビティ算出部１５は、そのモデル生成データ#iの最後のオーバラップ部分であるLサンプルを、後モデルである学習モデル#jの入力データの最初のLサンプルとして設定する。

また、コネクティビティ算出部１５は、コンテキスト#iの最後のオーバラップ部分であるLサンプルを、後モデルである学習モデル#jの初期コンテキストの最初のLサンプルとして設定する。ランダムな値として設定された学習モデル#jの初期コンテキスト全体のうちの最初のLサンプルが、コンテキスト#iの最後のオーバラップ部分であるLサンプルによって置き換えられる。

そして、コネクティビティ算出部１５は、後モデルである学習モデル#jに、入力データと初期コンテキストを与えて、例えば、モデル学習用データ#jと同一の長さのSサンプルのモデル生成データ#jとコンテキスト#jを生成する。

ここで、以上のように、前モデルである学習モデル#iから生成されたモデル生成データ#iの最後のオーバラップ部分であるLサンプルを、後モデルである学習モデル#jの入力データの最初のLサンプルとして設定するとともに、前モデルである学習モデル#iから生成されたコンテキスト#iの最後のオーバラップ部分であるLサンプルを、後モデルである学習モデル#jの初期コンテキストの最初のLサンプルとして設定し、後モデルである学習モデル#jから、モデル生成データ#jとコンテキスト#jを生成することが、上述した、オーバラップ部分の順伝播である。

後モデルである学習モデル#jから、Sサンプルのモデル生成データ#jとコンテキスト#jを生成した後、コネクティビティ算出部１５は、そのモデル生成データ#jの最後のサンプルの、後モデルの出力データの最後の１サンプルの真値に対する予測誤差を求める。

そして、コネクティビティ算出部１５は、モデル生成データ#jの最後の１サンプルの予測誤差を、例えば、BPTT法に基づき、モデル生成データ#jの最初の１サンプルまで逆伝播（誤差の逆伝播）することで、その予測誤差を小さくするように、後モデルである学習モデル#jの初期コンテキストを更新する。

学習モデル#jの初期コンテキストの更新後、コネクティビティ算出部１５は、学習モデル#jに、入力データと、更新後の初期コンテキストを与えて、Sサンプルのモデル生成データ#jを生成する。ここで学習モデル#jに与えられる入力データは、前モデルである学習モデル#iから生成されたモデル生成データ#iの最後のオーバラップ部分のLサンプルである。

さらに、コネクティビティ算出部１５は、後モデルである学習モデル#jから生成されたモデル生成データ#jの最初のオーバラップ部分であるLサンプルを、前モデルである学習モデル#iの最後のLサンプルの真値として設定する。

また、コネクティビティ算出部１５は、後モデルである学習モデル#jから生成されたコンテキスト#jの最初のオーバラップ部分であるLサンプルを、前モデルである学習モデル#iの最後のLサンプルとして設定する。

そして、コネクティビティ算出部１５は、モデル生成データ#iの最後のLサンプルの予測誤差を例えばBPTT法に基づき、モデル生成データ#iの最初の１サンプルまで逆伝播（誤差の逆伝播）することで、その予測誤差を小さくするように、前モデルである学習モデル#iの初期コンテキストを更新する。

学習モデル#iの初期コンテキストの更新後、コネクティビティ算出部１５は、学習モデル#iに、入力データと、更新後の初期コンテキストを与えて、Sサンプルのモデル生成データ#iを生成する。

ここで、以上のように、後モデルである学習モデル#jから生成されたモデル生成データ#jの最初のオーバラップ部分であるLサンプルを、前モデルである学習モデル#iの出力データの最後のLサンプルの真値として設定し、その真値に対する、モデル生成データ#iの最後のLサンプルの予測誤差が小さくなるように、学習モデル#iの初期コンテキストを更新して、モデル生成データ#iを生成することが、オーバラップ部分の逆伝播である。

コネクティビティ算出部１５は、前モデルである学習モデル#iから、Sサンプルのモデル生成データ#iとコンテキスト#iを生成した後、そのモデル生成データ#iの最後のオーバラップ部分であるLサンプルを、後モデルである学習モデル#jの入力データの最初のLサンプルとして設定する。

また、コネクティビティ算出部１５は、コンテキスト#iの最後のオーバラップ部分であるLサンプルを、後モデルであるコンテキスト#jのコンテキストの最初のLサンプルとして設定し、以下、同様の処理を所定の回数だけ繰り返す。

コネクティビティ算出部１５は、処理を所定の回数だけ繰り返した後、最後の順伝播が終了した時点における各生成波形に基づいて、コネクティビティを算出する。

すなわち、コネクティビティ算出部１５は、前モデルである学習モデル#iから生成したモデル生成データ#iと、後モデルである学習モデル#jから生成したモデル生成データ#jとのオーバラップ部分の累積距離を算出する。

また、コネクティビティ算出部１５は、最後の順伝播時における、前モデルである学習モデル#iから生成したコンテキスト#iと、後モデルである学習モデル#jから生成したコンテキスト#jとのオーバラップ部分の累積距離を算出する。

コネクティビティ算出部１５は、最後の順伝播時におけるモデル生成データ#iと#jのオーバラップ部分の累積距離と、コンテキスト#iと#jのオーバラップ部分の累積距離との和を、学習モデル#iに対する学習モデル#jのコネクティビティc_ijとして求める。

コネクティビティc_ijは下式（６）により表される。

式（６）において、x_i(t)は、学習モデル#iから生成されるモデル生成データ#iの時刻tのサンプル（モデル生成データ#iの先頭からtサンプル目）を表す。y_j(t+T)は、学習モデル#jから生成されるモデル生成データ#jの時刻t+Tのサンプルを表す。

また、c_i(t)は、学習モデル#iから生成されるコンテキスト#iの時刻tのサンプルを表す。c_j(t+T)は、学習モデル#jから生成されるコンテキスト#jの時刻t+Tのサンプルを表す。

［学習装置１の動作］
図８のフローチャートを参照して、学習装置１の処理について説明する。

ステップＳ１において、学習装置１は学習処理を行う。学習処理により、各学習モジュール１３の学習モデルのモデルパラメータの更新学習が行われる。学習処理については図９のフローチャートを参照して後述する。

ステップＳ２において、学習装置１はコネクティビティ算出処理を行う。コネクティビティ算出処理により、学習が行われた学習モデル#1ないし#Nすべてについて、コネクティビティc_ijが算出される。コネクティビティ算出処理については図１０乃至１２を参照して後述する。コネクティビティ算出処理が終了した後、処理は終了される。

［学習処理］
次に、図９のフローチャートを参照して、図８のステップＳ１において行われる学習処理について説明する。

ステップＳ１１において、教師データ分割部１２は、教師データ保存部１１に記憶されている教師データを読み出し、その入力を受ける。

ステップＳ１２において、教師データ分割部１２は、図４を参照して説明したように、オーバラップ部分を持たせた形で、教師データを複数のモデル学習用データに分割する。

ステップＳ１３において、学習モジュール１３_iの学習部２２_iは、モデルパラメータ保存部２３_iに記憶された学習モデル#iのモデルパラメータであるウエイトマトリクスw_iを、例えば、乱数等によって初期化する。

ステップＳ１４において、学習モジュール１３_iは、モデル学習用データを用いて、モデルパラメータを更新する更新学習を行う。内部変数教師データが生成されている場合、学習モジュール１３_iは、内部変数教師データをも用いて更新学習を行う。

すなわち、学習モジュール１３_iのモデル学習用データ保存部２１_iは、教師データ分割部１２から供給されたモデル学習用データを一時的に保存し、学習部２２_iに供給する。

また、学習部２２_iは、モデル学習用データ保存部２１_iからのモデル学習用データと、内部変数教師データ生成部２４_iから適宜供給される内部変数教師データを用いて、学習モデル#iのウエイトマトリクスw_iを更新する更新学習を行う。更新学習は、例えば、BPTT(Back-Propagation Through Time)法により行われる。BPTT法については特開2002-236904号公報等に記載されている。

学習部２２_iは、更新学習によって得られた新たなモデルパラメータとしてのウエイトマトリクスw_iによって、モデルパラメータ保存部２３_iの記憶内容を更新する。

ステップＳ１５において、内部変数教師データ生成部２４_iは、図５を参照して説明したようにして内部変数教師データを生成する。

ステップＳ１６において、モデルパラメータ共有部１４のウエイトマトリクス共有部１４Ａは、N個の学習モジュール１３₁ないし１３_Nのすべてに、ウエイトマトリクスw₁ないしw_Nのすべてを共有させる共有処理を行う。

ステップＳ１７において、学習装置１は、学習の終了条件が満たされているかどうかを判定する。

学習の終了条件が満たされていないとステップＳ１７において判定された場合、ステップＳ４に戻り、同様の処理、すなわち、ウエイトマトリクスw_iの更新学習と、内部変数教師データの生成と、モデルパラメータの共有とが繰り返される。

一方、ステップＳ１７において、学習の終了条件が満たされていると判定された場合、処理は終了される。

例えば、ステップＳ１４乃至Ｓ１６の処理の繰り返された回数があらかじめ定められた所定の回数になった場合や、ある入力データに対して学習モデル#iが出力する出力データの、入力データに対する誤差が所定値以下になった場合に、学習処理は終了される。

ステップＳ１４乃至Ｓ１６の処理が繰り返されることにより、ウエイトマトリクスは各学習モジュール１３_i間で共有され、また、学習モジュール１３_iのコンテキストの値は前後で連続的に繋がるように学習が行われることになる。

これにより、長時間の時系列パターンを記憶しているシステム全体として、内部変数の役割（意味）を共有することが可能となり、より長期の因果をモデルパラメータ保存部２３_iに記憶させておくことが可能になる。

［コネクティビティ算出処理］
次に、図１０乃至１２のフローチャートを参照して、図８のステップＳ２において行われるコネクティビティ算出処理について説明する。

ステップＳ２１において、コネクティビティ算出部１５（図１）が、N個の学習モデル#1ないし#Nから、まだ、モデルペアとして選択していない順列となる２つの学習モデル#iと#jの並びを選択する。

すなわち、コネクティビティ算出部１５は、N個の学習モデル#1ないし#Nのうちの１つの学習モデルから、モデルペアの前モデルとなる学習モデル#iを選択するとともに、その学習モデル#i以外の学習モデル#jを、モデルペアの後モデルとして選択する。

ステップＳ２２では、コネクティビティ算出部１５は、モデル学習用データ保存部２１（図１）から、モデルペアを構成する２つの学習モデルである前モデルと後モデルのそれぞれに割り当てられたモデル学習用データを読み込む。

ステップＳ２３では、コネクティビティ算出部１５は、モデルペアを構成する前モデルと後モデルそれぞれのモデルパラメータを、モデルパラメータ保存部２３（図１）から読み出す。

ステップＳ２４では、コネクティビティ算出部１５は、前モデルの入力データの最初の１サンプルとして、前モデルに割り当てられたモデル学習用データの最初の１サンプルを設定する。

ステップＳ２５では、コネクティビティ算出部１５は、前モデルのモデルパラメータを、学習モデルに設定することで、前モデルを生成する。

ステップＳ２６では、コネクティビティ算出部１５は、後モデルの出力データの最後の１サンプルの真値として、後モデルに割り当てられたモデル学習用データの最後の１サンプルを設定する。

ステップＳ２７では、コネクティビティ算出部１５は、後モデルのモデルパラメータを、学習モデルに設定することで、後モデルを生成する。

ステップＳ２８では、コネクティビティ算出部１５は、前モデルと後モデルのそれぞれの初期コンテキストとして、ランダムな値を設定する。

図１１は、図１０に続くフローチャートである。

ステップＳ３１では、コネクティビティ算出部１５は、前モデルに、ステップＳ２４で設定された入力データと、初期コンテキストを与えて、モデル生成データとコンテキストを生成する。

ステップＳ３２では、コネクティビティ算出部１５は、前モデルから生成されたモデル生成データの最後のオーバラップ部分であるLサンプルを、後モデルの入力データの最初のLサンプルとして設定する。また、コネクティビティ算出部１５は、前モデルから生成されたコンテキストの最後のオーバラップ部分であるLサンプルを、後モデルの初期コンテキストの最初のLサンプルとして設定する。

ステップＳ３３では、コネクティビティ算出部１５は、後モデルに、ステップＳ３２で設定された入力データと、初期コンテキストを与えて、モデル生成データとコンテキストを生成する。

ステップＳ３４では、コネクティビティ算出部１５は、後モデルから生成されたモデル生成データの最後の１サンプルの、ステップＳ２６で設定された真値に対する予測誤差を求める。

ステップＳ３５では、コネクティビティ算出部１５は、ステップＳ３４で求められた予測誤差をBPTT法に基づき、後モデルから生成されたモデル生成データの最初の１サンプルまで逆伝播することで、後モデルの初期コンテキストを更新する。

ステップＳ３６では、コネクティビティ算出部１５は、後モデルに、ステップＳ３２で設定された入力データと、ステップＳ３５での更新後の初期コンテキストを与えて、モデル生成データとコンテキストを生成する。

ステップＳ３７では、コネクティビティ算出部１５は、後モデルから生成されたモデル生成データの最初のオーバラップ部分のLサンプルを、前モデルの最後のLサンプルの真値として設定する。また、コネクティビティ算出部１５は、後モデルから生成されたコンテキストの最初のオーバラップ部分であるLサンプルを、前モデルの最後のLサンプルとして設定する。

ステップＳ３８では、コネクティビティ算出部１５は、前モデルから生成されたモデル生成データの最後のLサンプルの、ステップＳ３７で設定された真値に対する予測誤差を求める。

ステップＳ３９では、コネクティビティ算出部１５は、ステップＳ３８で求められた予測誤差を、例えばBPTT法に基づき、前モデルから生成されたモデル生成データの最初の１サンプルまで逆伝播することで、前モデルの初期コンテキストを更新する。

図１２は、図１１に続くフローチャートである。

ステップＳ４１では、コネクティビティ算出部１５は、図１１のステップＳ３１ないしＳ３９の処理を所定の回数だけ繰り返したか否かを判定する。

ステップＳ４１において、ステップＳ３１ないしＳ３９の処理を所定の回数だけ繰り返していないと判定された場合、ステップＳ３１に戻り、以上の処理が繰り返される。コネクティビティ算出部１５は、前モデルに、ステップＳ２４で設定された入力データと、初期コンテキスト（いまの場合、ステップＳ３９での更新後の初期コンテキスト）を与えて、モデル生成データとコンテキストを生成し、以下、同様の処理を繰り返す。

ステップＳ３１ないしＳ３９の処理を所定の回数だけ繰り返したとステップＳ４１において判定された場合、処理はステップＳ４２に進む。

ステップＳ４２において、コネクティビティ算出部１５は、最後の順伝播が終了した時点における、前モデルから生成したモデル生成データと、後モデルから生成したモデル生成データとのオーバラップ部分の累積距離を算出する。

また、コネクティビティ算出部１５は、最後の順伝播が終了した時点における、前モデルから生成したコンテキストと、後モデルから生成したコンテキストとのオーバラップ部分の累積距離を算出する。

コネクティビティ算出部１５は、算出した２つの累積距離の和を、前モデルに対する後モデルのコネクティビティc_ijとして求める。

ステップＳ４３では、コネクティビティ算出部１５は、ステップＳ４２で求めたコネクティビティc_ijを、コネクティビティ保存部１６に供給して記憶させる。

ステップＳ４４では、コネクティビティ算出部１５は、N個の学習モデル#1ないし#Nが取り得る、２つの学習モデルの順列のすべてを、モデルペアとして、コネクティビティを求めたかどうかを判定する。

ステップＳ４４において、まだ、モデルペアとしていない２つの学習モデルの順列があると判定された場合、図１０のステップＳ２１に戻り、同様の処理が繰り返される。

ステップＳ４４において、モデルペアとしていない２つの学習モデルの順列がないと判定された場合、図８のステップＳ２に戻り、その後、学習装置１の処理が終了される。

以上のように、学習装置１によれば、内部変数の意味を全ての学習モデルに共通して持たせることができるから、学習モデル間の接続性を表すコネクティビティを、内部変数の連続性をも考慮して評価することが可能になる。

［データ生成装置２の詳細構成例］
図１３は、図１のデータ生成装置２のより詳細な構成例を示している。

なお、図１３では、教師データが、複数であるN個のモデル学習用データ#1ないし#Nに分割され、そのN個のモデル学習用データ#1ないし#Nを用いての、N個の学習モデル#1ないし#Nの学習が、コネクティビティの算出も含めて、既に済んでいることとする。

始点モデル選択部３３は、現在データ分配部６１、モデルパラメータ供給部６２、N個の認識生成部６３₁ないし６３_N、及び、始点モデル決定部６４から構成される。

現在データ分配部６１は、現在データ供給部３１から始点モデル選択部３３に供給される現在データを、N個の認識生成部６３₁ないし６３_Nすべてに供給(分配）する。

モデルパラメータ供給部６２は、N個の学習モデル#1ないし#Nのモデルパラメータ#1ないし#Nを、モデルパラメータ保存部２３から読み出す。さらに、モデルパラメータ供給部６２は、モデルパラメータ保存部２３から読み出したモデルパラメータ#nを、認識生成部６３_nに供給する。

認識生成部６３_nは、モデルパラメータ供給部６２からのモデルパラメータ#nを、学習モデルに設定することで、学習モデル#nを生成する。例えば、認識生成部６３_nは、モデル学習用データ#nを用いた学習が済んだ学習モデル#nの、オブジェクト指向プログラミングにおけるインスタンスを生成する。

そして、認識生成部６３_nは、現在データ分配部６１から供給される現在データを、学習モデル#nに与えることで、学習モデル#nから、現在データの予測値#nを生成する。

なお、学習モデル#nからの、現在データの予測値#nの生成において、学習モデル#nに与える初期コンテキストとしては、例えば、ランダムな値を採用することができる。また、学習モデル#nに与える初期コンテキストとしては、その他、例えば、現在データの予測値#nを小さくする初期コンテキスト（最適初期コンテキスト）を求め、その最適初期コンテキストを採用することができる。

認識生成部６３_nは、学習モデル#nから、現在データの予測値#nを生成すると、その予測値#nの予測誤差を求め、始点モデル決定部６４に供給する。

始点モデル決定部６４は、認識生成部６３₁ないし６３_Nからそれぞれ供給される、現在データの予測値#1ないし#Nの予測誤差が小さい上位１個以上の学習モデルを、始点モデルとして選択する。始点モデル決定部６４は、始点モデルの始点モデルIDを、生成用モデルシーケンス算出部３５に供給する。

終点モデル選択部３４は、目標データ分配部７１、モデルパラメータ供給部７２、N個の認識生成部７３₁ないし７３_N、及び、終点モデル決定部７４から構成される。

目標データ分配部７１は、目標データ供給部３２から終点モデル選択部３４に供給される目標データを、N個の認識生成部７３₁ないし７３_Nすべてに供給(分配）する。

モデルパラメータ供給部７２は、N個の学習モデル#1ないし#Nのモデルパラメータ#1ないし#Nを、モデルパラメータ保存部２３から読み出す。さらに、モデルパラメータ供給部７２は、モデルパラメータ保存部２３から読み出したモデルパラメータ#nを、認識生成部７３_nに供給する。

認識生成部７３_nは、モデルパラメータ供給部７２からのモデルパラメータ#nを、学習モデルに設定することで、学習モデル#nを生成する。

そして、認識生成部７３_nは、目標データ分配部７１から供給される目標データを、学習モデル#nに与えることで、学習モデル#nから、目標データの予測値#nを生成する。

なお、学習モデル#nからの、目標データの予測値#nの生成において、学習モデル#nに与える初期コンテキストとしては、現在データの予測値#nの生成の場合と同様に、ランダムな値や、最適初期コンテキストを採用することができる。

認識生成部７３_nは、学習モデル#nから、目標データの予測値#nを生成すると、その予測値#nの予測誤差を求め、終点モデル決定部７４に供給する。

終点モデル決定部７４は、認識生成部７３₁ないし７３_Nからそれぞれ供給される、目標データの予測値#1ないし#Nの予測誤差が小さい上位１個以上の学習モデルを、終点モデルとして選択する。終点モデル決定部７４は、終点モデルの終点モデルIDを、生成用モデルシーケンス算出部３５に供給する。

生成用モデルシーケンス算出部３５は、始点モデルID供給部８１、終点モデルID供給部８２、及び、シーケンス算出部８３から構成される。

始点モデルID供給部８１は、始点モデル選択部３３（の始点モデル決定部６４）から生成用モデルシーケンス算出部３５に供給される始点モデルIDを受信し、シーケンス算出部８３に供給する。

終点モデルID供給部８２は、終点モデル選択部３４（の終点モデル決定部７４）から生成用モデルシーケンス算出部３５に供給される終点モデルIDを受信し、シーケンス算出部８３に供給する。

シーケンス算出部８３は、始点モデルIDによって特定される始点モデルから、終点モデルIDによって特定される終点モデルまでの、複数の学習モデルの、ある並びを、生成用モデルシーケンスとして求める。

すなわち、シーケンス算出部８３は、コネクティビティ保存部１６に記憶されたコネクティビティc_ijに対応する値を、学習モデル#iの後に、学習モデル#jを接続するのに要するコスト（以下、接続コストともいう）とする。シーケンス算出部８３は、その接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びを、生成用モデルシーケンスとして求める。

そして、シーケンス算出部８３は、生成用モデルシーケンスを、時系列データ生成部３６に供給する。

ここで、シーケンス算出部８３は、コネクティビティc_ijに対応する値によって表される接続コストをノード（学習モデル）どうしの距離とみなす。シーケンス算出部８３は、接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びである生成用モデルシーケンスを、一般的な経路探索アルゴリズムによって求める。

生成用モデルシーケンスを求めるための経路探索アルゴリズムとしては、例えば、ダイクストラ法や、ビタビアルゴリズムを採用することができる。

なお、生成用モデルシーケンス算出部３５は、始点モデル選択部３３から、複数の始点モデルIDが供給される場合や、終点モデル選択部３４から、複数の終点モデルIDが供給される場合、つまり、複数の学習モデルが、始点モデルや終点モデルとして選択された場合、その複数の始点と終点の組み合わせすべてについて、生成用モデルシーケンスを算出する。

すなわち、始点モデルとして選択された学習モデルの数をAと表すとともに、終点モデルとして選択された学習モデルの数をBと表すこととすると、生成用モデルシーケンス算出部３５は、A×B個の生成用モデルシーケンスを算出する。

そして、生成用モデルシーケンス算出部３５は、A×B個の生成用モデルシーケンスのうちの、接続コストの累積値が最小の生成用モデルシーケンスを、時系列データの生成に用いる生成用モデルシーケンスに決定し、時系列データ生成部３６に供給する。

時系列データ生成部３６は、シーケンス供給部９１、モデルパラメータ供給部９２、N個の認識生成部９３₁ないし９３_N、及び、統合生成部９４から構成される。

シーケンス供給部９１は、生成用モデルシーケンス算出部３５（のシーケンス算出部８３）から供給される生成用モデルシーケンスを受信し、モデルパラメータ供給部９２に供給する。

モデルパラメータ供給部９２は、シーケンス供給部９１からの生成用モデルシーケンスを構成する学習モデル（以下、構成モデルともいう）のモデルパラメータを、モデルパラメータ保存部２３から読み出す。モデルパラメータ供給部９２は、読み出したモデルパラメータを、認識生成部９３₁ないし９３_Nのうちの必要なブロックに供給する。

すなわち、生成用モデルシーケンスが、K（≦N）個の構成モデル#1ないし#Kの並びで構成されることとすると、モデルパラメータ供給部９２は、構成モデル#1ないし#Kのモデルパラメータ#1ないし#Kを、モデルパラメータ保存部２３から読み出す。

さらに、モデルパラメータ供給部９２は、構成モデル#k（k=1,2,・・・,K）のモデルパラメータ#kを、認識生成部９３₁ないし９３_Nのうちの認識生成部９３_kに供給する。

認識生成部９３_kは、モデルパラメータ供給部９２からのモデルパラメータ#kを、学習モデルに設定することで、構成モデル#kを生成する。例えば、認識生成部９３_kは、モデル学習用データ#kを用いた学習が済んだ学習モデル#kの、オブジェクト指向プログラミングにおけるインスタンスを生成する。

さらに、認識生成部９３_kは、構成モデル#kから、モデル生成データ#kを生成し、そのモデル生成データ#kの最後のオーバラップ部分と、認識生成部９３_k+1が構成モデル#k+1から生成するモデル生成データ#k+1、すなわち、モデル生成データ#kに接続されるモデル生成データ#k+1の最初のオーバラップ部分との誤差を小さくするように、構成モデル#kの初期コンテキストを更新することで、最適初期コンテキストを求める。

そして、認識生成部９３₁は、構成モデル#1に、その構成モデル#1の最適初期コンテキストを与えるとともに、現在データ供給部３１から供給される現在データを入力データとして与えることで、モデル生成データ#1を生成して、統合生成部９４に供給する。

認識生成部９３₁ないし９３_Kのうちの、認識生成部９３₁以外の認識生成部９３_kは、構成モデル#kに、その構成モデル#kの最適初期コンテキストを与えるとともに、前段の認識生成部９３_k-1が構成モデル#k-1から生成したモデル生成データ#k-1の最後のオーバラップ部分を入力データの最初のLサンプルとして与えることで、モデル生成データ#kを生成して、統合生成部９４に供給する。

統合生成部９４は、認識生成部９３₁ないし９３_Kから供給されるモデル生成データ#1ないし#Kを、オーバラップ部分を考慮して接続することにより、滑らかな生成時系列データを構成(生成）し、時系列データ出力部３７に供給する。

［生成用モデルシーケンスの算出］
次に、生成用モデルシーケンス算出部３５（図１）において、生成用モデルシーケンスを、例えば、ビタビアルゴリズムに基づいて求める方法について説明する。

ここで、ビタビアルゴリズムは、観測結果について、１つの最も尤もらしい説明を与える動的計画法のアルゴリズムである。ビタビアルゴリズムで扱う事象（状態）の系列について、時刻tでの事象の計算は、直前の時刻t-1での事象の系列のみに依存していることを前提とする。すなわち、ビタビアルゴリズムで扱う事象は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質を持つマルコフ性を前提とする確率過程である。

また、ビタビアルゴリズムは状態機械を仮定して動作する。すなわち、モデルとしたシステムは任意の時刻で何らかの状態を持つ。状態数は膨大であっても有限であり、リストアップ可能である。各状態はノードとして表される。与えられた状態に対応する状態の複数の系列（経路）が複数考えられるとしても、最も尤もらしい状態経路が１つある。ビタビアルゴリズムでは、ある状態に到達するあらゆる経路を調べ、最も尤もらしい経路を選ぶ。これを状態の並びに対して順次適用するため、あらゆる経路を保持しておく必要はなく、１つの状態につき１つの経路だけを保持すれば足りる。

さらに、ビタビアルゴリズムでは、ある状態から別の状態への遷移について増分（通常、数）を付与する。この遷移は事象から求められる。また、ビタビアルゴリズムでは、事象は一般に加算的な意味で経路上で累積するとされる。ビタビアルゴリズムでは、各状態についての数を保持するとともに、ある事象が起きたとき、これまでの状態経路の持つ値と新たな遷移における増分を考慮し、最も良い状態を選択する。事象に対応した増分は、ある状態から別の状態への遷移確率に依存して決定される。

生成用モデルシーケンスを、ビタビアルゴリズムに基づいて求める場合、学習後の学習モデル#1ないし#Nのそれぞれが、ビタビアルゴリズムにおける状態機械の状態（ノード）に相当する。したがって、学習後の学習モデル#1ないし#Nの数Nが、ビタビアルゴリズムの全状態数になる。

また、ある状態から別の状態に遷移する際の事象に対応した増分、すなわち、ビタビアルゴリズムにおける遷移確率としては、接続コスト、すなわち、コネクティビティc_ijを用いることができる。但し、遷移確率と接続コスト（コネクティビティc_ij）とは、値の増減が逆の関係にある。すなわち、遷移確率は、値が大きいほど、状態遷移が生じやすいが、接続コストは、値が小さいほど、状態遷移に相当する、学習モデル#iと#jの接続が生じやすい（力学的接続可能性が高い）。

ビタビアルゴリズムでは、ある始点となる状態から目標とする状態への全経路のうちの、遷移確率の総和が最大となる経路を最も尤もらしい経路（ビタビパス(Vitarbi path)）として採用する。これと同様に、生成用モデルシーケンスの算出では、接続コストの累積値、つまり、コネクティビティc_ijの総和が最小となる経路をコストが最小の経路として採用し、その経路上の状態に相当する学習モデルの並びを、生成用モデルシーケンスとする。

すなわち、生成用モデルシーケンス算出部３５は、始点モデルから終点モデルまでの接続コストの累積値が最小になる、学習モデルの並びを、生成用モデルシーケンスとして求める。

いま、最初の時刻t=1（始点モデルに相当する状態の時刻）から、ある時刻t=τまでの、状態#nごとの接続コストの累積値δ_n(τ)をコンポーネントとするベクトルを、累積値ベクトルd(τ)＝（δ₁(τ)，δ₂(τ)，・・・，δ_N(τ)）とする。生成用モデルシーケンス算出部３５は、累積値ベクトルd(τ)＝（δ₁(τ)，δ₂(τ)，・・・，δ_N(τ)）を保持する。

また、状態#iから状態#jへの状態遷移のコスト、すなわち、状態#iに相当する学習モデル#i（が生成するモデル生成データ#i）の直後に、状態#jに相当する学習モデル#j（が生成するモデル生成データ#j）が接続する接続コストを、b_ijで表す。接続コストb_ijの集合は、接続コストb_ijを、第i行第j列のコンポーネントとするマトリクスで表すことができる。

ここで、接続コストb_ijを、第i行第j列のコンポーネントとするマトリクスを、接続コストマトリクスともいう。

いま、学習モデル#iの直後に学習モデル#jが接続するのが不自然でないとみなすことができるコネクティビティc_ijの最大値を、c_maxと表し、その最大値c_maxを、コネクティビティc_ijの閾値とする。コネクティビティc_ijが、閾値c_max以下である場合には、接続コストb_ijとして、コネクティビティc_ijが採用される。また、コネクティビティc_ijが、閾値c_maxを超える場合には、接続コストb_ijとして、閾値c_maxより十分大きな値である接続不可能値c_infが採用される。

ここで、閾値c_maxや接続不可能値c_infは、シミュレーション等によって求められる。

すなわち、例えば、多数の教師データを用いて、学習モデル#iから生成されるモデル生成データの最後のオーバラップ部分と、学習モデル#jから生成されるモデル生成データの最初のオーバラップ部分とが似ていない場合（学習モデル#iから生成されるモデル生成データの直後に、学習モデル#jから生成されるモデル生成データが繋がることが不自然である場合）のコネクティビティc_ijの平均値等が、シミュレーションによって求められ、閾値c_maxとして採用される。

また、例えば、多数の教師データを用いて、複数の学習モデルのすべてを接続した場合のコネクティビティの総和の最大値が求められる。その最大値よりも大きい値（生成用モデルシーケンスを構成する学習モデルのコネクティビティc_ijの総和として取り得ない大きな値）が、接続不可能値c_infとして採用される。

以上のように、コネクティビティc_ijが、閾値c_max以下である場合には、接続コストb_ijとして、コネクティビティc_ijを採用し、コネクティビティc_ijが、閾値c_maxを超える場合には、接続コストb_ijとして、接続不可能値c_infを採用する。これにより、生成用モデルシーケンスにおいて、ある学習モデルの直後に接続され得る学習モデルと、接続されることがない学習モデルとを明確に区別することができる。

生成用モデルシーケンス算出部３５は、生成用モデルシーケンスを求めるにあたり、まず、上述したような接続コストマトリクスを生成するとともに、累積値ベクトルd(t)を初期化する。

ここで、累積値ベクトルd(t)の初期化とは、時刻t=1のときの、累積値ベクトルd(1)のコンポーネントδ₁(1)，δ₂(1)，・・・，δ_N(1)の値を設定（セット）することである。累積値ベクトルd(t)の初期化では、コンポーネントδ₁(1)ないしδ_N(1)のうちの、始点モデルとなっている学習モデルに対応するコンポーネントが、0とされ、その他のコンポーネントは、接続不可能値c_infとされる。

接続コストマトリクスの生成と、累積値ベクトルd(t)の初期化が終了すると、生成用モデルシーケンス算出部３５は、前向き計算（前向き方向（未来方向）の計算）を行うことで、各時刻tの累積値ベクトルd(t)を求める。

図１４は、生成用モデルシーケンス算出部３５による前向き計算を説明する図である。

図１４において、横軸は、時刻tを表し、縦軸は、状態に相当する学習モデルを表す。

生成用モデルシーケンス算出部３５は、累積値ベクトルd(t)のコンポーネントδ_j(t)を、下式（７）に従って、コンポーネントδ_j(t+1)に更新することで、時刻tの累積値ベクトルd(t)を、時刻t+1の累積値ベクトルd(t+1)に更新する。

ここで、式（７）において、min_i()は、変数iを、1ないしNの整数に変えたときのかっこ内の値の最小値を表す。

式（７）によれば、時刻t+1の、学習モデル#jまでの接続コストの累積値δ_j(t+1)は、時刻tの、学習モデル#iまでの接続コストの累積値δ_i(t)と、学習モデル#iに対する学習モデル#jの接続コストb_ijとを用いて求められる。

すなわち、式（７）によれば、時刻t+1において、学習モデル#jに至る、時刻tのすべての学習モデル#1ないし#Nからの接続のうちの、時刻t+1の、学習モデル#jまでの接続コストの累積値が最小になる接続（以下、最小接続ともいう）が選択される。そして、その最小接続を介して、時刻t+1に、学習モデル#jに至るまでの接続コストの累積値が、時刻t+1の、学習モデル#jまでの接続コストの累積値δ_j(t+1)として用いられる。

これにより、生成用モデルシーケンス算出部３５では、時刻t+1に、学習モデル#jに至る全経路を保持することなく、最小接続だけを選択することによって、時刻t+1の、学習モデル#jまでの接続コストの累積値δ_j(t+1)を求めることができる。

なお、生成用モデルシーケンス算出部３５は、式（２）によって、接続コストの累積値δ_j(t+1)を求めた学習モデル#1ないし#Nそれぞれに至るまでの学習モデルの系列（並び）の情報（以下、系列情報ともいう）を保持する。

すなわち、生成用モデルシーケンス算出部３５は、学習モデル#1ないし#Nそれぞれについて、時刻t+1の学習モデル#jへの最小接続となる、時刻tの学習モデル#iの情報（以下、最小接続元情報ともいう）を、時刻ごとに記憶する。

以上のような前向き計算の開始後、生成用モデルシーケンス算出部３５は、前向き計算を終了するための条件（以下、計算終了条件ともいう）の判定を開始し、計算終了条件が満たされたときに、前向き計算を終了する。

ここで、生成用モデルシーケンス算出部３５では、始点モデルから終点モデルまでの学習モデルの並びが、生成用モデルシーケンスとして求められるが、始点モデルから、何時刻後に、終点モデルに到達するかは、未知である。したがって、前向き計算を行うべき回数を、あらかじめ知ることは困難であり、そのため、前向き計算を終了するのに、計算終了条件が必要となる。

計算終了条件としては、学習モデル#1ないし#Nのうちの、終点モデルに至るまでの接続コストの累積値δ_goal(t)が、閾値δ_th以下になったこと（式δ_goal(t)≦δ_thが満たされること）が採用される。

ここで、累積値ベクトルd(t)の初期化では、接続コストの累積値δ₁(1)ないしδ_N(1)のうちの、始点モデルの接続コストの累積値が、0とされ、始点モデル以外の学習モデルの接続コストの累積値は、接続不可能値c_infとされる。

したがって、例えば、終点モデルに至るまでの系列情報が表す学習モデルの系列（並び）のうちの最初の学習モデルが、始点モデルになっていない場合には、終点モデルに至るまでの接続コストの累積値は、接続不可能値c_inf以上の値となる。最初の学習モデルは、時刻t=1の状態に対応する学習モデルである。

一方、終点モデルに至るまでの系列情報が表す学習モデルの系列のうちの最初の学習モデルが、始点モデルになった場合、すなわち、始点モデルから終点モデルまでの学習モデルの並びとして、接続コストの累積値を小にする適切な学習モデルの並びが得られた場合、終点モデルに至るまでの接続コストの累積値は、接続不可能値c_infよりも十分小さいコネクティビティc_ijの累積値となって、接続不可能値c_infより小さな値となる。

したがって、終点モデルに至るまでの系列情報が表す学習モデルの系列のうちの最初の学習モデルが、始点モデルになる場合の、終点モデルに至るまでの接続コストの累積値の一般的な値（例えば、平均値等）より大で、かつ、接続不可能値c_infより小さい値を、閾値δ_thとして採用し、式δ_goal(t)≦δ_thで表される計算終了条件を判定することにより、始点モデルから終点モデルまでの、適切な学習モデルの並び、すなわち、生成用モデルシーケンスを得ることができる。

なお、閾値δ_thは、シミュレーション等によって求められる。また、閾値δ_thとしては、固定の値を採用することもできるし、可変の値を採用することもできる。可変な値の閾値δ_thとしては、接続コストの累積回数（式（７）による前向き計算時の時刻t）に応じて増加する値等を採用することができる。

生成用モデルシーケンス算出部３５は、前向き計算の開始後、計算終了条件が満たされると、前向き計算を終了し、バックトラック処理を行うことで、生成用モデルシーケンスを求める。

すなわち、生成用モデルシーケンス算出部３５は、上述したように、前向き計算において、学習モデル#1ないし#Nそれぞれについて、時刻ごとに最小接続元情報を記憶する。

バックトラック処理では、生成用モデルシーケンス算出部３５は、終点モデルから、時刻を遡る方向に、最小接続元情報を、１時刻ずつ、始点モデルまで辿っていく。生成用モデルシーケンス算出部３５は、最小接続元情報を、辿った順の逆の順番に並び替えることで、時刻順の並びとし、その時刻順の並びの最小接続元情報が表す、始点モデルから終点モデルまでの学習モデルの並びを、生成用モデルシーケンスとして求める。

なお、生成用モデルシーケンスは、時系列データ生成部３６で時系列データの生成に用いられる学習モデルの順番を表す。したがって、生成用モデルシーケンスは、時系列データの生成に用いる学習モデルの順番のプランということができる。

［生成用モデルシーケンスを用いた時系列データの生成］
図１５を参照して、時系列データ生成部３６による、生成用モデルシーケンスを用いた時系列データ（生成時系列データ）の生成について説明する。

図１５は、生成用モデルシーケンスが、４つの構成モデル（学習モデル）#1ないし#4の並びである場合に、その生成用モデルシーケンスを用いて生成される生成時系列データを示している。

時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデル#1ないし#4について、モデル生成データのオーバラップ部分の順伝播と逆伝播を繰り返す。これにより、時系列データ生成部３６は、隣接する構成モデル#kと#k+1それぞれが生成するモデル生成データ#kと#k+1どうしを、なるべく繋がりやすくする、構成モデル#1ないし#4それぞれの初期コンテキスト（最適初期コンテキスト）を求める。

そして、時系列データ生成部３６は、最適初期コンテキストを、構成モデル#1ないし#4に与えて、構成モデル#1ないし#4からモデル生成データ#1ないし#4を生成し、そのモデル生成データ#1ないし#4を接続することで、生成時系列データを生成する。

すなわち、時系列データ生成部３６は、まず、生成用モデルシーケンスを構成する始点モデルである構成モデル#1の入力データの最初の１サンプルとして、構成モデル#1に割り当てられたモデル学習用データ#1の最初の１サンプルを設定する。

さらに、時系列データ生成部３６は、生成用モデルシーケンスを構成する終点モデルである構成モデル#4の出力データの最後の１サンプルの真値として、構成モデル#4に割り当てられたモデル学習用データ#4の最後の１サンプルを設定する。

また、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデル#1ないし#4のそれぞれの初期コンテキストとして、ランダムな値を設定する。

そして、時系列データ生成部３６は、始点モデルである構成モデル#1に、入力データと初期コンテキストを与えて、Sサンプルのモデル生成データ#1を生成する。

始点モデルである構成モデル#1からモデル生成データ#1を生成した後、時系列データ生成部３６は、モデル生成データ#1の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#2の入力データの最初のLサンプルとして設定する。

そして、時系列データ生成部３６は、構成モデル#2に、入力データと初期コンテキストを与えて、Sサンプルのモデル生成データ#2を生成する。

その後、時系列データ生成部３６は、構成モデル#2から生成されたモデル生成データ#2の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#3の入力データの最初のLサンプルとして設定する。

そして、時系列データ生成部３６は、構成モデル#3に、入力データと初期コンテキストを与えて、Sサンプルのモデル生成データ#3を生成する。

さらに、時系列データ生成部３６は、構成モデル#3から生成されたモデル生成データ#3の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#4の入力データの最初のLサンプルとして設定する。

そして、時系列データ生成部３６は、構成モデル#4に、入力データと初期コンテキストを与えて、Sサンプルのモデル生成データ#4を生成する。

以上のように、時系列データ生成部３６は、終点モデルである構成モデル#4から、モデル生成データ#4を生成すると、そのモデル生成データ#4の最後のサンプルの、構成モデル#4の出力データの最後の１サンプルの真値に対する予測誤差を求める。構成モデル#4の出力データの最後の１サンプルの真値は、構成モデル#4に割り当てられたモデル学習用データ#4の最後の１サンプルである。

そして、時系列データ生成部３６は、モデル生成データ#4の最後の１サンプルの予測誤差を、例えば、BPTT法に基づき、モデル生成データ#4の最初の１サンプルまで逆伝播（誤差の逆伝播）することで、その予測誤差を小さくするように、終点モデルである構成モデル#4の初期コンテキストを更新する。

構成モデル#4の初期コンテキストの更新後、時系列データ生成部３６は、構成モデル#4に、入力データと、更新後の初期コンテキストを与えて、Sサンプルのモデル生成データ#4を生成する。構成モデル#4に対する入力データは、直前の構成モデル#3から生成されたモデル生成データ#3の最後のオーバラップ部分のLサンプルである。

さらに、時系列データ生成部３６は、構成モデル#4から生成されたモデル生成データ#4の最初のオーバラップ部分であるLサンプルを、直前の構成モデル#3の最後のLサンプルの真値として設定する。

その後、時系列データ生成部３６は、構成モデル#3から生成されたモデル生成データ#3の最後のLサンプルの、構成モデル#3の出力データの最後のLサンプルの真値に対する予測誤差を求める。構成モデル#3の出力データの最後のLサンプルの真値は、初期コンテキストの更新後の学習モデル#4から生成されたモデル生成データ#4の最初のオーバラップ部分のLサンプルである。

そして、時系列データ生成部３６は、モデル生成データ#3の最後のLサンプルの予測誤差を、例えば、BPTT法に基づき、モデル生成データ#3の最初の１サンプルまで逆伝播（誤差の逆伝播）することで、その予測誤差を小さくするように、構成モデル#3の初期コンテキストを更新する。

その後、時系列データ生成部３６は、構成モデル#3から生成されたモデル生成データ#3の最初のオーバラップ部分であるLサンプルを、直前の構成モデル#2の最後のLサンプルの真値として設定する。

さらに、時系列データ生成部３６は、構成モデル#2から生成されたモデル生成データ#2の最後のLサンプルの、構成モデル#2の出力データの最後のLサンプルの真値に対する予測誤差を求める。構成モデル#2の出力データの最後のLサンプルの真値は、初期コンテキストの更新後の学習モデル#3から生成されたモデル生成データ#3の最初のオーバラップ部分のLサンプルである。

そして、時系列データ生成部３６は、モデル生成データ#2の最後のLサンプルの予測誤差を、例えば、BPTT法に基づき、モデル生成データ#2の最初の１サンプルまで逆伝播することで、その予測誤差を小さくするように、構成モデル#2の初期コンテキストを更新する。

その後、時系列データ生成部３６は、構成モデル#2から生成されたモデル生成データ#2の最初のオーバラップ部分であるLサンプルを、直前の構成モデル#1の最後のLサンプルの真値として設定する。

さらに、時系列データ生成部３６は、構成モデル#1から生成されたモデル生成データ#1の最後のLサンプルの、構成モデル#1の出力データの最後のLサンプルの真値に対する予測誤差を求める。構成モデル#1の出力データの最後のLサンプルの真値は、初期コンテキストの更新後の学習モデル#2から生成されたモデル生成データ#2の最初のオーバラップ部分のLサンプルである。

そして、時系列データ生成部３６は、モデル生成データ#1の最後のLサンプルの予測誤差を、例えば、BPTT法に基づき、モデル生成データ#1の最初の１サンプルまで逆伝播することで、その予測誤差を小さくするように、構成モデル#1の初期コンテキストを更新する。

以上のように、終点モデルである構成モデル#4から、始点モデルである構成モデル#1までの初期コンテキストの更新が終了すると、時系列データ生成部３６は、構成モデル#1に、入力データと、更新後の初期コンテキストを与えて、Sサンプルのモデル生成データ#1を生成する。構成モデル#1に対する入力データは、始点モデルである構成モデル#1に割り当てられたモデル学習用データ#1の最初の１サンプルである。

さらに、時系列データ生成部３６は、始点モデルである構成モデル#1から生成されたモデル生成データ#1の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#2の入力データの最初のLサンプルとして設定し、以下、同様の処理を繰り返す。

そして、時系列データ生成部３６は、例えば、生成用モデルシーケンスを構成する構成モデル#1ないし#4それぞれで得られる予測誤差が収束すると、そのとき得られている初期コンテキストを、構成モデル#1ないし#4それぞれの最適初期コンテキストとする。

その後、時系列データ生成部３６は、始点モデルである構成モデル#1に、入力データとして、現在データを支えるとともに、最適初期コンテキストを与えて、モデル生成データ#1を生成する。

そして、時系列データ生成部３６は、構成モデル#1から生成されたモデル生成データ#1の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#2の入力データの最初のLサンプルとして設定する。

さらに、時系列データ生成部３６は、構成モデル#2に、入力データと、最適初期コンテキストとを与えて、モデル生成データ#2を生成する。

そして、時系列データ生成部３６は、構成モデル#2から生成されたモデル生成データ#2の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#3の入力データの最初のLサンプルとして設定する。

さらに、時系列データ生成部３６は、構成モデル#3に、入力データと、最適初期コンテキストとを与えて、モデル生成データ#3を生成する。

そして、時系列データ生成部３６は、構成モデル#3から生成されたモデル生成データ#3の最後のオーバラップ部分であるLサンプルを、直後の構成モデル#4の入力データの最初のLサンプルとして設定する。

さらに、時系列データ生成部３６は、構成モデル#4に、入力データと、最適初期コンテキストとを与えて、モデル生成データ#4を生成する。

生成用モデルシーケンスを構成する構成モデル#1ないし#4のそれぞれに、最適初期コンテキストを与えて、モデル生成データ#1ないし#4が生成されると、時系列データ生成部３６は、そのモデル生成データ#1ないし#4を接続して、生成時系列データを生成する。

すなわち、時系列データ生成部３６は、例えば、構成モデル#kから生成されたモデル生成データ#kの後に、直後の構成モデル#k+1から生成されたモデル生成データ#k+1の最初のオーバラップ部分より後のサンプル（モデル生成データ#k+1の先頭からL+1サンプル以降のサンプル）を接続することで、生成時系列データを生成する。

［データ生成装置２の動作］
図１６を参照して、データ生成装置２のデータ生成処理について説明する。

データ生成装置２では、ステップＳ６１において、現在データ供給部３１、目標データ供給部３２、始点モデル選択部３３、終点モデル選択部３４、及び、生成用モデルシーケンス算出部３５が、生成用モデルシーケンスを算出する算出処理を行う。

さらに、ステップＳ６１では、生成用モデルシーケンス算出部３５が、生成用モデルシーケンスの算出処理において得られる生成用モデルシーケンスを、時系列データ生成部３６に供給して、処理は、ステップＳ６２に進む。

ステップＳ６２では、時系列データ生成部３６が、生成用モデルシーケンス算出部３５からの生成用モデルシーケンスを用いて、生成時系列データを生成し、時系列データ出力部３７に供給する時系列データ生成処理を行い、処理は、ステップＳ６３に進む。

ステップＳ６３では、時系列データ出力部３７が、時系列データ生成部３６からの生成時系列データを、図１のデータ処理装置が制御するロボットに出力して、データ生成処理は終了する。

図１のデータ処理装置が制御するロボットは、時系列データ出力部３７からの生成時系列データ（センサモータデータ）のコンポーネントのうちのアクションデータに従って駆動する。これにより、ロボットは、所定の行動、すなわち、ロボットでセンシングされるセンサデータとして、現在データが得られている状態から、目標データが得られる状態となるのに適切な行動をとる。

［生成用モデルシーケンスの算出処理］
図１７を参照して、図１６のステップＳ６１で行われる、生成用モデルシーケンスの算出処理について説明する。

ステップＳ７１において、現在データ供給部３１は、現在データを、始点モデル選択部３３、及び、時系列データ生成部３６に供給して、処理は、ステップＳ７２に進む。

ステップＳ７２では、始点モデル選択部３３は、現在データ供給部３１からの現在データを入力データとする。始点モデル選択部３３は、モデルパラメータ保存部２３にモデルパラメータが記憶されたN個の学習モデル#1ないし#Nのそれぞれから、現在データの予測値であるモデル生成データ#1ないし#Nを生成（認識生成）する。

そして、処理は、ステップＳ７２からステップＳ７３に進み、始点モデル選択部３３は、モデル生成データ#1ないし#Nそれぞれの、現在データの予測値の予測誤差を求める。さらに、始点モデル選択部３３は、N個の学習モデル#1ないし#Nのうちの、予測誤差が小さい、例えば、上位１個の学習モデルを始点モデルとして選択し、処理は、ステップＳ７３からステップＳ７４に進む。

ステップＳ７４では、目標データ供給部３２は、目標データを、終点モデル選択部３４に供給して、処理は、ステップＳ７５に進む。

ステップＳ７５では、終点モデル選択部３４は、目標データ供給部３２からの目標データを入力データとする。終点モデル選択部３４は、モデルパラメータ保存部２３にモデルパラメータが記憶されたN個の学習モデル#1ないし#Nのそれぞれから、目標データの予測値であるモデル生成データ#1ないし#Nを生成（認識生成）する。

そして、処理は、ステップＳ７５からステップＳ７６に進み、終点モデル選択部３４は、モデル生成データ#1ないし#Nそれぞれの、目標データの予測値の予測誤差を求める。さらに、終点モデル選択部３４は、N個の学習モデル#1ないし#Nのうちの、予測誤差が小さい、例えば、上位１個の学習モデルを終点モデルとして選択し、処理は、ステップＳ７６からステップＳ７７に進む。

ステップＳ７７では、始点モデル選択部３３が、始点モデルの始点モデルIDを、生成用モデルシーケンス算出部３５に供給する。さらに、ステップＳ７７では、終点モデル選択部３４が、終点モデルの終点モデルIDを、生成用モデルシーケンス算出部３５に供給して、処理は、ステップＳ７７からステップＳ７８に進む。

ステップＳ７８では、生成用モデルシーケンス算出部３５が、始点モデル選択部３３からの始点モデルIDによって始点モデルを特定するとともに、終点モデル選択部３４からの終点モデルIDによって終点モデルを特定する。

さらに、生成用モデルシーケンス算出部３５は、始点モデルから終点モデルまでの、複数の学習モデルの、ある並びを、生成用モデルシーケンスとして求める。

すなわち、生成用モデルシーケンス算出部３５は、上述したように、コネクティビティ保存部１６に記憶されたコネクティビティに対応する値を、１つの学習モデルの後に、他の１つの学習モデルを接続する接続コストとする。生成用モデルシーケンス算出部３５は、その接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びを、生成用モデルシーケンスとして求める。

そして、生成用モデルシーケンス算出部３５は、生成用モデルシーケンスを、時系列データ生成部３６に供給して、処理はリターンする。

［時系列データ生成処理］
図１８ないし図２１を参照して、図１６のステップＳ６２で行われる時系列データ生成処理について説明する。

図１８は、時系列データ生成処理を説明するフローチャートである。

時系列データ生成処理では、ステップＳ８１において、時系列データ生成部３６が、生成用モデルシーケンス算出部３５から供給される生成用モデルシーケンスを受信し、処理は、ステップＳ８２に進む。

ステップＳ８２では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルのうちの、始点モデルと終点モデルのそれぞれに割り当てられたモデル学習用データを、モデル学習用データ保存部２１（図１）から読み込む。

ステップＳ８３では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルそれぞれのモデルパラメータを、モデルパラメータ保存部２３（図１）から読み出し、処理は、ステップＳ８４に進む。

ステップＳ８４では、時系列データ生成部３６は、始点モデルの入力データの最初の１サンプルとして、始点モデルに割り当てられたモデル学習用データの最初の１サンプルを設定して、処理は、ステップＳ８５に進む。

ステップＳ８５では、時系列データ生成部３６は、終点モデルの出力データの最後の１サンプルの真値として、終点モデルに割り当てられたモデル学習用データの最後の１サンプルを設定して、処理は、ステップＳ８６に進む。

ステップＳ８６では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルのモデルパラメータを、学習モデルに設定することで、生成用モデルシーケンスを構成する構成モデルを生成する。例えば、オブジェクト指向プログラミングにおける、構成モデルとしての学習モデルのインスタンスが生成される。

ステップＳ８８では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルのそれぞれの初期コンテキストとして、ランダムな値を設定して、処理は、図１９のステップＳ９１に進む。

すなわち、図１９は、図１８に続くフローチャートである。

ステップＳ９１では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルのうちの、始点モデルを、注目する注目モデルに選択する。さらに、ステップＳ９１では、注目モデルである始点モデルに、ステップＳ８４で設定された入力データと、初期コンテキスト（いまの場合、ステップＳ８７で設定された初期コンテキスト）を与えて、モデル生成データを生成し、処理は、ステップＳ９２に進む。

ステップＳ９２では、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルのうちの、現在の注目モデルの直後の構成モデル（以下、直後モデルともいう）を、新たに、注目モデルに選択する。

さらに、時系列データ生成部３６は、注目モデルの入力データの最初のLサンプルとして、生成用モデルシーケンスを構成する構成モデルのうちの、現在の注目モデルの直前の構成モデル（以下、直前モデルともいう）から生成されたモデル生成データの最後のオーバラップ部分であるLサンプルを設定し、処理は、ステップＳ９２からステップＳ９３に進む。

ステップＳ９３では、時系列データ生成部３６は、注目モデルに、ステップＳ９２で設定された入力データ（直前モデルから生成されたモデル生成データの最後のオーバラップ部分であるLサンプル）と、初期コンテキストを与えてモデル生成データを生成する。

なお、ステップＳ９１及びＳ９３において、注目モデルに与えられる初期コンテキストは、後述するステップＳ１０２とＳ１０６の処理が既に行われている場合には、そのステップＳ１０２とＳ１０６での更新後の初期コンテキストである。一方、ステップＳ１０２とＳ１０６の処理が、まだ行われていない場合には、ステップＳ８７で設定された初期コンテキストである。

ステップＳ９４では、時系列データ生成部３６が、注目モデルが、終点モデルであるかどうかを判定する。ステップＳ９４において、注目モデルが、終点モデルでないと判定された場合、処理は、ステップＳ９２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ９４において、注目モデルが、終点モデルであると判定された場合、つまり、生成用モデルシーケンスを構成する構成モデルのすべてから、モデル生成用データを生成した場合、処理は、図２０のステップＳ１０１に進む。

すなわち、図２０は、図１９に続くフローチャートである。

ステップＳ１０１では、時系列データ生成部３６は、終点モデルから生成されたモデル生成データの最後の１サンプルの、ステップＳ８５で設定された真値に対する予測誤差を求め、処理は、ステップＳ１０２に進む。

ステップＳ１０２では、時系列データ生成部３６は、ステップＳ１０２で求められた予測誤差を、BPTT法に基づき、終点モデルから生成されたモデル生成データの最初の１サンプルまで逆伝播することで、予測誤差を小さくするように、終点モデルの初期コンテキストを更新し、処理は、ステップＳ１０３に進む。

ステップＳ１０３では、時系列データ生成部３６は、終点モデルを、注目モデルに選択する。さらに、ステップＳ１０３では、時系列データ生成部３６は、注目モデルである終点モデルに、ステップＳ９２で設定された入力データと、ステップＳ１０２での更新後の初期コンテキストを与えて、モデル生成データを生成する。

そして、処理は、ステップＳ１０３からステップＳ１０４に進み、時系列データ生成部３６は、注目モデルの直前モデルを、新たに、注目モデルに選択する。さらに、ステップＳ１０４では、時系列データ生成部３６は、直前モデルから生成されたモデル生成データの最初のオーバラップ部分のLサンプルを、注目モデルの最後のLサンプルの真値として設定し、処理は、ステップＳ１０５に進む。

ステップＳ１０５では、時系列データ生成部３６は、注目モデルから生成されたモデル生成データの最後のLサンプルの、ステップＳ１０４で設定された真値（初期コンテキストの更新後の直後モデルから生成されたモデル生成データの最初のオーバラップ部分のLサンプル）に対する予測誤差を求め、処理は、ステップＳ１０６に進む。

ステップＳ１０６では、時系列データ生成部３６は、ステップＳ１０５で求められた予測誤差を、例えば、BPTT法に基づき、注目モデルから生成されたモデル生成データの最初の１サンプルまで逆伝播することで、その予測誤差を小さくするように、注目モデルの初期コンテキストを更新し、処理は、ステップＳ１０７に進む。

ステップＳ１０７では、時系列データ生成部３６が、注目モデルが、始点モデルであるかどうかを判定する。ステップＳ１０７において、注目モデルが、始点モデルでないと判定された場合、処理は、ステップＳ１０４に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１０７において、注目モデルが、始点モデルであると判定された場合、すなわち、ステップＳ１０１ないしＳ１０６において、終点モデルから、始点モデルに向かって、生成用モデルシーケンスを構成する構成モデルのすべての初期コンテキストを更新した場合、処理は、ステップＳ１０８に進み、時系列データ生成部３６は、生成用モデルシーケンスを構成する構成モデルの初期コンテキストの更新を終了する条件（更新終了条件）が満たされているかどうかを判定する。

ここで、ステップＳ１０８での更新終了条件としては、ステップＳ１０１及びＳ１０５で求められる予測誤差が、ある程度収束している状態にあることを採用することができる。具体的には、更新終了条件としては、所定の繰り返し回数だけ、生成用モデルシーケンスを構成する構成モデルの初期コンテキストの更新が行われたことを採用することができる。また、ステップＳ１０１及びＳ１０５で求められる予測誤差が、前回と今回とで、ほとんど変化しないこと、等を採用することができる。

ステップＳ１０８において、更新終了条件が満たされていないと判定された場合、処理は、図１９のステップＳ９１に戻る。時系列データ生成部３６は、始点モデルに、ステップＳ８４で設定された入力データと、初期コンテキスト（いまの場合、ステップＳ１０６での更新後の初期コンテキスト）を与えて、モデル生成データを生成し、以下、同様の処理が繰り返される。

また、ステップＳ１０８において、更新終了条件が満たされていると判定された場合、時系列データ生成部３６は、構成モデルの現在の初期コンテキストを、その構成モデルの最適初期コンテキストとして、処理は、図２１のステップＳ１１１に進む。

すなわち、図２１は、図２０に続く図である。

ステップＳ１１１において、時系列データ生成部３６は、現在データ供給部３１（図１）から供給される現在データを、始点モデルの入力データの最初の複数サンプル（現在データと同一のサンプル数だけのサンプル）として設定する。

ステップＳ１１２では、時系列データ生成部３６は、始点モデルを、注目モデルに選択する。

さらに、ステップＳ１１２では、時系列データ生成部３６は、注目モデルである始点モデルに、ステップＳ１１１で設定された入力データと、始点モデルの最適初期コンテキストを与えて、Sサンプルのモデル生成データを生成し、処理は、ステップＳ１１３に進む。

ステップＳ１１３では、時系列データ生成部３６は、ステップＳ１１２で生成したSサンプルのモデル生成データを、生成時系列データ（の一部）として、時系列データ出力部３７（図１）に出力して、処理は、ステップＳ１１４に進む。

ステップＳ１１４では、時系列データ生成部３６は、注目モデルの直後モデルを、新たに、注目モデルに選択する。

さらに、ステップＳ１１４では、時系列データ生成部３６は、注目モデルの直前モデルから生成されたモデル生成データの最後のオーバラップ部分であるLサンプルを、注目モデルの入力データの最初のLサンプルとして設定し、処理は、ステップＳ１１５に進む。

ステップＳ１１５では、時系列データ生成部３６は、注目モデルに、ステップＳ１１４で設定された入力データと、注目モデルの最適初期コンテキストを与えて、モデル生成データを生成し、処理は、ステップＳ１１６に進む。設定された入力データは、直前モデルから生成されたモデル生成データの最後のオーバラップ部分のLサンプルである。

ステップＳ１１６では、時系列データ生成部３６は、ステップＳ１１５で注目モデルから生成されたモデル生成データのうちの、L+1サンプル以降のサンプルを、直前に出力された生成時系列データに続く生成時系列データとし、時系列データ出力部３７に出力する。

ステップＳ１１７では、時系列データ生成部３６は、注目モデルが、終点モデルであるかどうかを判定する。ステップＳ１１７において、注目モデルが、終点モデルでないと判定された場合、処理は、ステップＳ１１４に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１１７において、注目モデルが、終点モデルであると判定された場合、すなわち、生成用モデルシーケンスを構成する構成モデルのすべてから、モデル生成用データを生成した場合、処理はリターンする。

以上のように、学習装置１の教師データ分割部１２は、時系列データである教師データを、一部がオーバラップする複数のデータに分割し、内部変数を有する学習モデルの学習に用いるモデル学習用データとして出力する。出力されたモデル学習用データは、その１つのモデル学習用データが、１つの学習モデルに割り当てられる。

また、学習部２２は、学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられたモデル学習用データと、コンテキストの教師となる内部変数教師データを用いて行う。

コネクティビティ算出部１５は、複数の学習モデルすべてについて、１つの学習モデルが生成する時系列データの最後の一部分のデータ列であるオーバラップ部分と、他の１つの学習モデルが生成する時系列データの最初のオーバラップ部分との誤差を求める。また、コネクティビティ算出部１５は、１つの学習モデルが生成するコンテキストの最後の一部分のデータ列であるオーバラップ部分と、他の１つの学習モデルがコンテキストの最初のオーバラップ部分との誤差を求める。

コネクティビティ算出部１５は、時系列データのオーバラップ部分の誤差と、コンテキストのオーバラップ部分の誤差との和を、コネクティビティとして算出する。コネクティビティは、１つの学習モデルが学習した時系列パターンの後に、他の１つの学習モデルが学習した時系列パターンが接続する適切さを表す。

一方、データ生成装置２の始点モデル選択部３３は、学習後の複数の学習モデルのうちの、１つの学習モデルを、始点モデルとして選択するとともに、終点モデル選択部３４が、他の１つの学習モデルを、終点モデルとして選択する。

また、生成用モデルシーケンス算出部３５は、コネクティビティに対応する値を、１つの学習モデルの後に、他の１つの学習モデルを接続する接続コストとする。生成用モデルシーケンス算出部３５は、その接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びを、生成用モデルシーケンスとして求める。

時系列データ生成部３６は、生成用モデルシーケンスを構成する学習モデル（構成モデル）について、学習モデルが生成する時系列データの最後のオーバラップ部分と、後に接続される学習モデルが生成する時系列データの最初のオーバラップ部分との誤差を小さくするように、学習モデルの内部変数の初期値を決定し、その初期値を、学習モデルに与えて、時系列データを生成する。

したがって、複雑で、長時間の時系列データを、容易に学習し、また、学習結果に基づき、滑らかな時系列データを、精度良く生成することができる。

さらに、生成用モデルシーケンスを求めるのに用いられるコネクティビティはコンテキストの誤差を考慮して求められたものであるため、学習モジュールをまたいだ因果を持つプランニングが可能になる。

すなわち、学習装置１では、１つの学習モデルでは記憶しきれない複雑（非線形、多次元）かつ長時間のダイナミクスを、複数の学習モデルで時間方向に分担して記憶する学習を行う。また、データ生成装置２では、そのような学習後の学習モデルの並びである生成用モデルシーケンスを算出し、その生成用モデルシーケンスを構成する学習モデルを用いて、生成時系列データを生成する。

そして、生成用モデルシーケンスの算出では、学習モデルどうしの接続性に関する、いわば評価値であるコネクティビティに基づき、各学習モデルが記憶しているダイナミクスをなるべくスムーズに、かつ、始点から終点までより短いパスで接続するように、未経験のプラン（教師データの全部又は一部に相当する生成時系列データを生成する学習モデルの並び以外の学習モデルの並び）をも含む、学習モデルの並びが求められる。

さらに、生成時系列データの生成では、直前モデルから生成されたモデル生成データの最後のオーバラップ部分を、注目モデルの入力データの最初の部分として引き継ぐ順方向の伝播によって、順方向にモデル生成データを生成する一方、順方向に生成したモデル生成データをもとに、終点モデルで計算された予測誤差を、逆方向、つまり、始点モデル側の学習モデルに伝播することで、生成用モデルシーケンスを構成する学習モデルの初期コンテキストが修正（更新）される。そして、この順方向、及び逆方向の伝播を繰り返すことにより、生成用モデルシーケンスが、教師データの全部又は一部に相当する生成時系列データを生成する学習モデルの並び以外の学習モデルの並びであっても、生成用モデルシーケンスを構成する学習モデルから生成されるモデル生成データを滑らかに接続するように、初期コンテキストが修正され、滑らかな生成時系列データが生成（再構成）される。

より具体的には、学習装置１では、時系列データである教師データが、一部がオーバラップする複数のモデル学習用データに分割される。そして、１つのモデル学習用データを、１つの学習モデルに割り当てるように、複数のモデル学習用データが、複数の学習モデルに割り当てられ、学習モデルによる時系列パターンの学習が、その学習モデルに割り当てられたモデル学習用データを用いて行われる。

したがって、時系列データが、複数の学習モデルによって、いわば分担して学習（関数近似学習）されるので、時系列パターンの記憶容量の限界をなくし、複雑で、長時間の時系列パターンを、短時間の（短い）時系列パターンに分けて記憶することができる。さらに、そのような短時間の時系列パターンを記憶した学習モデルを用いて、複雑で、長時間の時系列パターンの時系列データを、精度良く生成（再構成）することができる。

すなわち、１つの学習モデルが学習を担当する時系列パターンの長さが制限されるので、学習モデルが規模の小さいRNN等であっても、時系列パターンを精度良く学習（記憶）することができる。さらに、学習モデルを増加することで、複数の学習モデルの全体の記憶容量を増加することができるので、１つの学習モデルの記憶容量に左右されずに、複雑で長時間の時系列パターンを記憶することができる。

また、学習装置１において、コネクティビティを求め、データ生成装置２において、コネクティビティに基づき、生成用モデルシーケンスを算出するので、学習モデルが学習を担当したモデル学習用データが、教師データのどの位置のデータであるのかに依存することなく、時系列データの生成に用いる学習モデルの並びとしての生成用モデルシーケンスを算出することができる。

すなわち、例えば、ある環境において移動する移動ロボットが、現在位置から、ゴールとなるゴール位置まで移動するタスク（ナビゲーションタスク）を実行するには、教師データとして与えられた経験から、現在位置からゴール位置まで移動する経路のプラン（計画）をたてる必要がある。

例えば、移動ロボットが移動する環境（以下、移動環境ともいう）内の任意の２点の間を、移動ロボットが移動するときに、その移動の経路の各位置で、移動ロボットが獲得することができるセンサモータデータを、教師データとして与えて、学習を行うことにより、移動ロボットは、学習時の経験、つまり、教師データとしてのセンサモータデータを観測することができる経路に沿って、自律的に移動することができる。

すなわち、移動を開始するスタート位置として、学習時の経路上のある位置が与えられ、かつ、移動を終了するゴール位置として、学習時の経路上の、スタート位置よりも、移動方向が後の位置が与えられた場合、移動ロボットは、スタート位置からゴール位置まで移動する経路のプランをたてることができる。

しかしながら、移動環境では、学習時の経路上の位置が、スタート位置及びゴール位置として与えられるとは限らず、また、ゴール位置として、学習時の経路上の、スタート位置よりも後の位置が与えられるとも限らない。

すなわち、移動ロボットが自律的に移動する場合には、現在位置がスタート位置となるが、現在位置が、学習時の経路上の位置であるとは限らない。

さらに、スタート位置、及びゴール位置が、学習時の経路上の位置であったとしても、学習時に通ったスタート位置よりも前に通った位置が、ゴール位置として与えられることがある。

また、学習時の経路に沿って、スタート位置からゴール位置まで移動する経路が冗長で、スタート位置からゴール位置まで移動するのに、不必要に遠回りをする場合には、そのような遠回りをしない経路のプランをたてることが望ましい。

従来の経路のプランをたてる方法としては、例えば、移動環境の地図上で移動可能な領域を求め、その領域を通過する線分をアークとしてグラフを生成し、そのグラフ上での経路の探索問題に帰着させる方法がある。

グラフ上での経路の探索をする方法としては、各アークにコストを設定し、スタート位置からゴール位置までの経路のうちの、経路を構成するアークのコストの総和が最小となる経路を求める方法がある。アークのコストとしては、アークに対応する地図上の距離（アークの両端の間の距離）が用いられる。

しかしながら、アークに対応する地図上の距離を求めるには、移動環境の地図（ひいては、その地図上での、アークの両端の位置の座標）が必要であり、地図が与えられていない場合には、地図上の距離を求めることが困難となる。

したがって、地図が与えられない場合に備え、アークのコストとしては、アークに対応する地図上の距離に代わる指標を採用することが望ましい。

そこで、学習装置１では、１つの学習モデルが学習した時系列パターンの後に、他の１つの学習モデルが学習した時系列パターンが接続する適切さを表すコネクティビティが求められる。

そして、データ生成装置２では、コネクティビティが、アークのコストとして採用され、ビタビアルゴリズムやダイクストラ法等の、グラフの経路探索アルゴリズムで、コストの累積値を最小にする経路としての生成用モデルシーケンスが探索される。

すなわち、データ生成装置２では、コネクティビティに対応する値を接続コストとして、接続コストの累積値を最小にする、始点モデルから終点モデルまでの学習モデルの並びが、生成用モデルシーケンスとして算出される。

生成用モデルシーケンスの算出に用いられるコネクティビティは、一方の学習モデルの学習に用いられたモデル学習用データと、他方の学習モデルの学習に用いられたモデル学習用データとが、教師データにおいて連続していたかどうかに依存しない。

すなわち、時系列データだけに注目すると、教師データにおいて、他方の学習モデルの学習に用いられたモデル学習用データが、一方の学習モデルの学習に用いられたモデル学習用データに続くデータでなくても、一方の学習モデルが生成する時系列データの最後のオーバラップ部分と、他方の学習モデルが生成する時系列データの最初のオーバラップ部分とが類似していれば、一方の学習モデルを前モデルとするとともに、他方の学習モデルを後モデルとするモデルペアのコネクティビティは、前モデルに後モデルを接続することが適切であることを表す小さな値となる。

その結果、コネクティビティに基づいて算出される生成用モデルシーケンスとしての学習モデルの並びは、学習モデルの学習に用いられたモデル学習用データの、教師データ上の順番に依存しない。

そして、学習モデルが記憶するのは教師データの時系列パターンのいわば断片である、モデル学習用データの時系列パターンであるが、データ生成装置２では、その断片を使い回して、接続コストの累積値が小さい生成用モデルシーケンスを算出することができる。

すなわち、学習時には経験していない、例えば、スタート位置からゴール位置まで移動するのに、不必要に遠回りをしない経路に相当する生成用モデルシーケンスを算出することができる。また、例えば、学習時に経験した経路とは逆方向に移動する経路が、接続コストの累積値を小さくする経路であるのであれば、そのような経路に相当する生成用モデルシーケンスを算出することができる。

さらに、データ処理装置２０では、生成用モデルシーケンスとしての学習モデルの並びが、コネクティビティに基づいて算出される。これにより、生成用モデルシーケンスを構成するある構成モデル#kが生成するモデル生成データの後に、その直後の構成モデル#k+1が生成するモデル生成データを接続することが適切であること（接続部分の波形が似ていること）が保証される。

但し、生成用モデルシーケンスを、コネクティビティに基づいて算出することによっては、構成モデル#kが生成するモデル生成データの後に、構成モデル#k+1が生成するモデル生成データを接続したときに、その接続部分が滑らかになることまでは、保証されない。

すなわち、コネクティビティに基づいて算出される生成用モデルシーケンスの構成モデルの並びが、構成モデルの学習に用いられたモデル学習用データの、教師データ上の順番に一致している場合には、構成モデル#kが生成するモデル生成データの後に、構成モデル#k+1が生成するモデル生成データを接続したときに、その接続部分は滑らかになる。

しかしながら、コネクティビティに基づいて算出される生成用モデルシーケンスの構成モデル（学習モデル）の並びが、構成モデルの学習に用いられたモデル学習用データの、教師データ上の順番に一致していない場合には、構成モデル#kが生成するモデル生成データの後に、構成モデル#k+1が生成するモデル生成データを接続したときに、その接続部分は滑らかになるとは限らない。

ここで、学習モデルが、モデル学習用データを、そのままテンプレートとして記憶する場合や、調節可能な内部変数を持たずに、関数近似で記憶する場合には、その記憶しているままの時系列データ（モデル生成データ）しか生成することができない。

そのため、そのような学習モデルの複数から生成されたモデル生成データを接続したときに、その接続部分が滑らかになるとは限らない。

一方、データ生成装置２では、学習モデルとして、時間発展するダイナミクスを関数近似の形で記憶することが可能で、内部変数としてのコンテキストを有するRNNを採用する。さらに、データ生成装置２では、構成モデル#kが生成するモデル生成データの最後のオーバラップ部分と、後に接続される構成モデル#k+1が生成するモデル生成データの最初のオーバラップ部分との誤差を小さくするように、構成モデルとしてのRNNの初期コンテキストを決定し、その初期コンテキスト（最適初期コンテキスト）を、構成モデルに与えて、時系列データを生成する。

したがって、構成モデル#kが生成するモデル生成データの後に、構成モデル#k+1が生成するモデル生成データを接続したときに、その接続部分を滑らかにすることができ、その結果、滑らかな生成時系列データを生成することができる。

［データ生成装置２が生成する生成時系列データ］
図２２は、教師データとしての時系列データと、その時系列データを用いた学習を行った学習モデルを用いて生成される生成時系列データとを示している。

図２２Ａは、教師データとしての経路（以下、教示経路ともいう）を模式的に示している。

教示経路は、位置P₁からP₂までの経路の１つで、図２２Ａでは、７つの経路Q₁,Q₂,Q₃,Q₄,Q₅,Q₆、及びQ₇としてのモデル学習用データに分割されている。学習時には、経路Q_nが、学習モデル#nで学習される。

なお、図２２では、オーバラップ部分の図示は省略してある。

RNNである学習モデル#nは、パラメータa付きの時間発展方程式F(x,a)を近似する関数近似器とみなすことができる。そこで、経路Q_nを学習した学習モデル#nを、以下、F_n(x,a_n)とも表す。

ここで、時間発展方程式F(x,a)の引数xは、入力データを表し、パラメータaは、内部変数の初期値（初期コンテキスト）を表す。

また、図２２Ａにおいて、学習モデルF_n(x,a_n)のパラメータa_nは、例えば、その学習モデルF_n(x,a_n)が学習した経路Q_nになるべく一致するモデル生成データを生成することができるときの内部変数の初期値を表す。

図２２Ｂは、データ生成装置２のデータ生成処理によって、学習モデルF₁(x,a)ないしF₇(x,a)を用いて生成される生成時系列データとしての経路（以下、生成経路ともいう）を模式的に示している。

図２２Ｂにおいて、生成経路は、位置P₁からP₂までの経路ではあるが、図１９Ａの教示経路とは異なる経路になっている。

すなわち、生成経路は、５つの経路Q'₁,Q'₂,Q'₃,Q'₆、及びQ'₇としてのモデル生成データが、その順番で接続されて構成されている。

図２２Ｂでは、データ生成装置２において、７つの学習モデルF₁(x,a)ないしF₇(x,a)から、冗長な経路を生成する学習モデルF₄(x,a),及びF₅(x,a)を除外した学習モデルF₁(x,a),F₂(x,a),F₃(x,a),F₆(x,a),F₇(x,a)の並びが、生成用モデルシーケンスとして求められている。

さらに、データ生成装置２では、生成経路の生成にあたって、図１５等で説明した、モデル生成データのオーバラップ部分の順伝播と逆伝播を繰り返すことで、生成用モデルシーケンスを構成する学習モデルF₁(x,a),F₂(x,a),F₃(x,a),F₆(x,a),F₇(x,a)それぞれから生成されるモデル生成データのオーバラップ部分を滑らかに接続するパラメータaが求められる。

図２２Ｂでは、オーバラップ部分が滑らかに接続するパラメータaとして、学習モデルF₁(x,a)については、値a₁が、学習モデルF₂(x,a)については、値a₂が、学習モデルF₃(x,a)については、値a'₃が、学習モデルF₆(x,a)については、値a'₆が、学習モデルF₇(x,a)については、値a₇がそれぞれ求められている。

そして、学習モデルF₁(x,a₁)からは、経路Q'₁が、学習モデルF₂(x,a₂)からは、経路Q'₂が、については、学習モデルF₃(x,a'₃)からは、経路Q'₃が、学習モデルF₆(x,a'₆)からは、経路Q'₆が、学習モデルF₇(x,a₇)からは、経路Q'₇が、それぞれ、モデル生成データとして生成されている。

図２２Ｂにおいて、パラメータaが図２２Ａの場合と一致している学習モデルF₁(x,a₁)，F₂(x,a₂)、及びF₇(x,a₇)から生成される経路Q'₁,Q'₂、及びQ'₇は、それぞれ、図２２Ａの、対応する経路Q₁,Q₂、及びQ₇と一致している。

一方、図２２Ｂにおいて、パラメータaが図２２Ａの場合と異なる学習モデルF₃(x,a'₃)から生成される経路Q'₃は、図２２Ａの、対応する経路Q₃と異なっている。

すなわち、図２２Ａの経路Q₃は、その始点側（位置P₁に近い側）が、経路Q₂に滑らかに接続するようになっているとともに、終点側（位置P₂に近い側）が、経路Q₄に滑らかに接続するようになっている。

これに対して、図２２Ｂの経路Q'₃は、始点側が、経路Q₂と同一のQ'₂に滑らかに接続するようになっている点は、経路Q₃と一致するが、終点側が、経路Q'₆に滑らかに接続するようになっている点で、経路Q₃と異なる。

さらに、図２２Ｂにおいて、パラメータaが図２２Ａの場合と異なる学習モデルF₆(x,a'₆)から生成される経路Q'₆は、図２２Ａの、対応する経路Q₆と異なっている。

すなわち、図２２Ａの経路Q₆は、その始点側が、経路Q₅に滑らかに接続するようになっているとともに、終点側が、経路Q₇に滑らかに接続するようになっている。

これに対して、図２２Ｂの経路Q'₆は、終点側が、経路Q₇と同一のQ'₇に滑らかに接続するようになっている点は、経路Q₆と一致するが、始点側が、経路Q'₃に滑らかに接続するようになっている点で、経路Q₆と異なる。

以上のようにして、データ生成装置２では、冗長な経路が除外され、かつ滑らかに接続する生成経路が生成される。

［シミュレーション結果］
次に、本件発明者が、図１のデータ処理装置について行ったシミュレーションについて説明する。

シミュレーションでは、移動ロボットに、ナビゲーションタスクを行わせた。

図２３は、移動ロボットがナビゲーションタスクを行う移動環境の概要を示している。

移動環境としては、光源が設置され、四方が壁で囲まれた２次元平面を採用した。移動ロボットは、移動環境を自由に移動することができるが、壁をすり抜けて移動することはできない。なお、移動環境には、四方を囲む壁の他にも、障害物となる壁が存在する。

また、移動ロボットには、移動ロボットから周囲の８方向それぞれについて、壁までの距離をセンシングする距離センサ、及び、光の強度をセンシングする光センサと、エネルギをセンシングするエネルギセンサとを搭載した。壁には、移動環境を囲む壁と、移動環境中の障害物としての壁とがある。また、移動ロボットには、音センサも搭載した。

なお、エネルギとは、ここでは、光センサが出力する、８方向それぞれについての光の強度のうちの最大値に比例する物理量である。

また、移動ロボットは、水平方向（x方向）の移動量m_xと、垂直方向（y方向）の移動量m_yとを表すベクトルである移動ベクトル(m_x,m_y)を、モータデータとして与えると、その移動ベクトル(m_x,m_y)だけ移動する。

シミュレーションでは、以上のような移動ロボットを採用する。教師データ、現在データ、及び目標データとなるセンサモータデータとしては、計２０次元のベクトル(mx,my,d1,d2,d3,d4,d5,d6,d7,d8,l1,l2,l3,l4,l5,l6,l7,l8,S,E)を採用した。

m_x,m_yは、２次元の移動ベクトルは(m_x,m_y)のコンポーネントである。d₁,d₂,d₃,d₄,d₅,d₆,d₇,d₈は、距離センサが出力する、８方向それぞれについての距離である。l₁,l₂,l₃,l₄,l₅,l₆,l₇,l₈は、光センサが出力する、８方向それぞれについての光の強度である。Sは音センサが出力する音量であり、Eはエネルギセンサが出力するエネルギである。

なお、センサモータデータは、人が手動で、移動ロボットを移動させた場合を含め、移動ロボットから観測される。

図２４Ａに示すように、移動ロボットは、スイッチとなる床を通過した後、光に近づくと、光との距離に応じてエネルギが増加する。ただし、スイッチを通過してから200ステップが経過した後は、光に近づいてもエネルギは増加しなくなる。図２４Ａの太線は、移動ロボットの移動の軌跡を示す。

図２４Ｂは、図２４Ａに示すようにスイッチを通る場合の各センサモータデータの観測値を表す。

図２４Ｂの１段目に示す波形は２次元の移動ベクトル(m_x,m_y)を表し、２段目に示す波形は、距離センサが出力する８次元の距離d₁,d₂,d₃,d₄,d₅,d₆,d₇,d₈を表す。３段目に示す波形は、光センサが出力する８次元の光の強度l₁,l₂,l₃,l₄,l₅,l₆,l₇,l₈を表し、４段目に示す波形は、音センサが出力する１次元の音量Sを表す。５段目に示す波形は、エネルギセンサが出力する１次元のエネルギEを表す。

図２４Ｂに示すように、スイッチを通った場合、音センサにより所定の音量Sが観測され、その後、エネルギセンサによりエネルギEが観測される。

図２５Ａは、スイッチを通らない場合の移動ロボットの移動の軌跡を示す。この場合、図２５Ｂに示すように、音センサによって所定の音量Sが観測されず、また、エネルギセンサによってエネルギEが観測されない。

このタスクでは、移動ロボットのエネルギを高くする状態をゴールとした場合、移動ロボットはスイッチを通過した後に光に近づかなければならない。逆に、エネルギを上げることなく光に近づく状態をゴールとした場合には、スイッチを通過せずに光に近づかなければならない。

すなわち、光に近づくときにスイッチを通過したかどうかの状態を内部変数として記憶しておく必要がある。

このタスク設定の下、図２６に示す6種類の軌道に従って移動ロボットを移動させたときに観測された時系列信号を、本学習手法によって、40ステップ分の時系列信号を10ステップのオーバラップ部分を持ちながらそれぞれの学習モジュールに学習させた。

それぞれの学習モジュールの番号（ID）と、その経験の環境中での場所との対応付けを図２７に示す。

図２７において、３桁の数字は、学習モデルを特定するためのモデルIDである。また、モデルIDが付されている線（実線や、点線、太線、細線等）は、そのモデルIDの学習モデルが学習したモデル学習用データが観測されたときの、移動ロボットの移動軌跡を表している。

図２７では、モデル学習用データを学習する学習モデルが切り替わるごとに、モデル学習用データに対応する移動軌跡を、その移動軌跡を表す線の種類を変えて図示してある。

［実験結果］
図２８、図２９は、本手法で接続性を評価した場合に得られるモデルシーケンスプランを示す図である。

本手法によれば、図２８に示すように、エネルギを高くする状態をゴールとした場合(モデル32をゴールとした場合)には、スイッチを通過したプランを生成していることが分かる。

一方、図２９に示すように、エネルギを高くせずに光に近づく状態をゴールとした場合(モデル54をゴールとした場合)には、スイッチを通過せずに光に近づくプランを生成していることがわかる。

モデル54をゴールとした場合の従来手法との比較を図３０に示す。

従来手法においては、モデル間で、スイッチを通ったかどうかの情報を受け渡すことができず（内部変数の意味を共有することができず）、スイッチを通ったプランを生成してしまっていることがわかる。従来手法においては、内部変数（コンテキスト）を考慮して学習を行ったり、コネクティビティを算出したりするようなことは行われないため、内部変数の意味を共有することができない。

上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図３１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

CPU(Central Processing Unit)１０１、ROM(Read Only Memory)１０２、RAM(Random Access Memory)１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。また、バス１０４には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを入出力インタフェース１０５及びバス１０４を介してRAM１０３にロードして実行することにより、上述した一連の処理が行われる。

CPU１０１が実行するプログラムは、例えばリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１０８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１学習装置，２データ生成装置，１１教師データ保存部，１２教師データ分割部，１３学習モジュール，１４モデルパラメータ共有部，１５コネクティビティ算出部，１６コネクティビティ保存部，２１モデル学習用データ保存部，２２学習部，２３モデルパラメータ保存部，２４内部変数教師データ生成部，３１現在データ供給部，３２目標データ供給部，３３始点モデル選択部，３４終点モデル選択部，３５生成用モデルシーケンス算出部，３６時系列データ生成部，３７時系列データ出力部，５１モデルペア選択部，５２モデルパラメータ供給部，５３，５４認識生成部，５５コネクティビティ演算部，６１現在データ分配部，６２モデルパラメータ供給部，６３₁ないし６３_N 認識生成部，６４始点モデル決定部，７１目標データ分配部，７２モデルパラメータ供給部，７３₁ないし７３_N 認識生成部，７４終点モデル決定部，８１始点モデルID供給部，８２終点モデルID供給部，８３シーケンス算出部，９１シーケンス供給部，９２モデルパラメータ供給部，９３₁ないし９３_N 認識生成部，９４統合生成部

Claims

時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当てる分割手段と、
複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行う学習手段と、
複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成する生成手段と、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出するコネクティビティ算出手段と
を備える学習装置。
前記学習モデルは、RNN(Recurrent Neural Network)である
請求項１に記載の学習装置。
前記コネクティビティ算出手段は、前記第１の誤差と前記第２の誤差の和を、前記コネクティビティとして算出する
請求項１に記載の学習装置。
時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、
複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行い、
複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成し、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出する
ステップを含む学習方法。
時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、
複数の前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、その学習モデルの内部状態を表す時系列データの教師となる内部状態教師データとを用いて行い、
複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと、１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データとに基づいて１つの前記学習モデルに与える前記内部状態教師データを生成し、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティとして算出する
ステップを含む処理をコンピュータに実行させるプログラム。
時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、
前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行う
ことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択する始点モデル選択手段と、
複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択する終点モデル選択手段と、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求める生成用モデルシーケンス算出手段と、
前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成する時系列データ生成手段と
を備えるデータ生成装置。
前記学習モデルは、RNN(Recurrent Neural Network)である
請求項６に記載のデータ生成装置。
時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、
前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行う
ことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択し、
複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択し、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求め、
前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成する
ステップを含むデータ生成方法。
時系列データを、一部がオーバラップする複数のデータに分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いるモデル学習用データとして、１つの前記モデル学習用データを、１つの前記学習モデルに割り当て、
前記学習モデルによる時系列パターンの学習を、その学習モデルに割り当てられた前記モデル学習用データと、複数の前記学習モデルすべてについて、１つの前記学習モデルの内部状態を表す時系列データと１つの前記学習モデルに割り当てられた前記モデル学習用データとオーバラップする区間を有する前記モデル学習用データが割り当てられた他の前記学習モデルの内部状態を表す時系列データに基づいて生成された内部状態教師データと、を用いて行う
ことにより得られる、学習後の複数の前記学習モデルのうちの、１つの前記学習モデルを、時系列データの生成に用いる前記学習モデルのシーケンスである生成用モデルシーケンスの始点となる始点モデルとして選択し、
複数の前記学習モデルのうちの、他の１つの前記学習モデルを、前記生成用モデルシーケンスの終点となる終点モデルとして選択し、
複数の前記学習モデルすべてについて、１つの前記学習モデルが生成する時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差である第１の誤差、および、１つの前記学習モデルが生成する内部状態を表す時系列データの最後の一部分のデータ列と、他の１つの前記学習モデルが生成する内部状態を表す時系列データの最初の一部分のデータ列との誤差である第２の誤差に基づいて得られた、１つの前記学習モデルが学習した前記時系列パターンの後に、他の１つの前記学習モデルが学習した前記時系列パターンが接続する適切さを表すコネクティビティに対応する値を、１つの前記学習モデルの後に、他の１つの前記学習モデルを接続する接続コストとして、前記接続コストの累積値を最小にする、前記始点モデルから前記終点モデルまでの前記学習モデルの並びを、前記生成用モデルシーケンスとして求め、
前記生成用モデルシーケンスを構成する前記学習モデルについて、前記学習モデルが生成する時系列データの最後の一部分のデータ列と、後に接続される前記学習モデルが生成する時系列データの最初の一部分のデータ列との誤差を小さくするように、前記学習モデルの前記内部状態の初期値を決定し、その初期値を、前記学習モデルに与えて、時系列データを生成する
ステップを含む処理をコンピュータに実行させるプログラム。