JP2010266974A

JP2010266974A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2010266974A
Application number: JP2009116054A
Authority: JP
Inventors: Kazumi Aoyama; 一美青山; Masato Ito; 真人伊藤; Kuniaki Noda; 邦昭野田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2010-11-25

Abstract

【課題】複数の学習モデルのそれぞれに時系列パターンを学習させる場合に、各学習モデルにおける内部変数の意味を統一させることができるようにする。
【解決手段】各学習モジュールにおいては、隣接する学習モジュールの学習モデルとの間でコンテキストの値が連続的になるように、コンテキストの教師となる内部変数教師シーケンスが生成され、学習が行われる。内部変数教師シーケンスは、前段の学習モデルのコンテキストの最後のオーバラップ部分の値と、後段の学習モデルのコンテキストの最初のオーバラップ部分の値の線形和として計算される。本発明は、時系列信号に基づいてパターン学習を行う装置に適用することができる。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、複数の学習モデルのそれぞれに時系列パターンを学習させる場合に、各学習モデルにおける内部変数の意味を統一させることができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

ある時刻tにおいて観測される時系列信号が同じAとBという状況を表すものであっても、過去（時刻t-1,t-2,t-3，・・・）に観測された時系列信号を含めれば、AとBのうちのどちらの状況が目標とする正しい状態であるのかを特定することができる。時系列信号は、例えば実空間に存在するロボットにより観測されたセンサデータである。

時系列信号を用いた学習装置においては、過去の状況を内部変数（内部状態）として記憶しておき、観測信号と内部変数とから、時刻t+n(n=1,2,・・・)の状態を予測できるようにモデルパラメータを決定することが行われる。

時系列パターンを時間差分方程式の形で関数近似し、ダイナミクスとして学習（記憶）する学習モデルとしては、例えばRNN(Recurrent Neural Network)がある。RNNでは、コンテキストと呼ばれる内部変数を予測するノードを持ち、学習時にはその初期値をモデルパラメータの１つとして求めるようになされている。

また、隠れマルコフモデルでは、時系列信号を生成する状態を状況AとBで別の状態として用意することで状況AとBを分離している。

特許文献１には、連続する時系列信号を分割し、分割した時系列信号をそれぞれの学習モジュールに割り当てて学習を行わせ、複数の学習モジュール間でモデルパラメータを共有する技術が記載されている。

特開２００８−２５０８５６号公報

学習によりモデルパラメータを決定する際、時系列パターンに対する各学習モジュールの持つ内部変数の初期値は、他のモジュールの持つ初期値を考慮せずに各モジュールにおいて決定される。

従って、学習モジュールごとに内部変数の持つ意味が異なり、ある時刻に観測される信号が、隠れ状態を含めたどの状態を表しているのかを、学習モジュールに分担して記憶させている時系列パターン全体の中で特定できないことがある。

本発明はこのような状況に鑑みてなされたものであり、複数の学習モデルのそれぞれに時系列パターンを学習させる場合に、各学習モデルにおける内部変数の意味を統一させることができるようにするものである。

本発明の一側面の情報処理装置は、時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当てる分割手段と、複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行う学習手段と、所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行う生成手段とを備える。

前記生成手段には、割り当てられた前記区分時系列信号全体のうちの、オーバラップする区間の信号を用いた学習によって、前記所定の学習モデルにおいて得られた前記所定の学習モデルの内部状態を表す時系列の信号と、前記他の学習モデルにおいて得られた前記他の学習モデルの内部状態を表す時系列の信号との線形和によって、前記内部状態教師信号を生成させることができる。

前記学習手段には、前記他の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間の前記区分時系列信号を用いた学習によって前記所定の学習モデルにおいて得られた、前記所定の学習モデルの内部状態を表す一部の区間の時系列の信号の、前記内部状態教師信号に対する誤差が所定値より小さくなるように、前記所定の学習モデルの学習を行わせることができる。

前記複数の学習モデルのうちの２以上の学習モデルのそれぞれのモデルパラメータを共有させるモデルパラメータ共有手段をさらに設けることができる。

前記モデルパラメータ共有手段には、それぞれの学習モデルのモデルパラメータを、前記２以上の学習モデルのモデルパラメータの重み付け平均値によって補正することにより、前記２以上の学習モデルのそれぞれのモデルパラメータを共有させることができる。

本発明の一側面の情報処理方法は、時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当て、複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行い、所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行うステップを含む。

本発明の一側面のプログラムは、時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当て、複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行い、所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行うステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、時系列信号が、一部の区間がオーバラップする複数の区分時系列信号に分割され、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当てられる。また、複数の学習モデルの学習が、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行われる。所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することが、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行われる。

本発明の一側面によれば、複数の学習モデルのそれぞれに時系列パターンを学習させる場合に、各学習モデルにおける内部変数の意味を統一させることができる。

本発明の一実施の形態に係る学習装置の構成例を示す図である。 RNNの構成例を示す図である。時系列シーケンスの分割と区分時系列シーケンスを用いた学習モデルの学習について説明する図である。内部変数教師シーケンスの生成について説明する図である。モデルパラメータの共有について説明する図である。学習装置の学習処理について説明するフローチャートである。時系列シーケンスの波形を示す図である。コンテキストの波形を示す図である。時系列シーケンスとコンテキストの波形を示す図である。コンピュータの構成例を示すブロック図である。

［学習装置の構成例］
図１は、本発明の一実施の形態に係る学習装置の構成例を示す図である。

学習装置１は、時系列パターンの学習のための教師データとして用意された時系列シーケンスを用い、内部変数を有する複数の学習モデルの学習を行う装置である。

ここで、教師データとしては、複雑で、長時間の時系列シーケンスを採用することができる。非線形性が強い信号や多次元の信号が複雑な信号となる。

例えば、学習結果の学習モデルを用いて現実のロボットを自律的に行動させるための時系列信号を生成する場合には、ロボットの行動環境下で、行動の教示を行うユーザがロボットを実際に移動させることで得られる時系列信号が教師データとして用いられる。

すなわち、ユーザがロボットを移動させているときに、ロボットがセンシングすることができる物理量のデータや、移動のためにロボットアクチュエータに与えられるデータ等をコンポーネントとするベクトルの時系列の信号が教師データとして用いられる。

図１に示すように、学習装置１は、時系列シーケンス入力部１１、時系列シーケンス分割部１２、学習モジュール１３₁ないし１３_N、およびモデルパラメータ共有部１４から構成される。

時系列シーケンス入力部１１は、教師データとして外部から入力された時系列シーケンスを受信し、時系列シーケンス分割部１２に出力する。

時系列シーケンス分割部１２は、時系列シーケンス入力部１１から供給された時系列シーケンスを、固定長のスライディング・ウィンドウによって複数の区分時系列シーケンスに分割する。

後述するように、内部変数を表す時系列信号が前後で連続的になるように調整することが学習モデルの学習時に行われる。時系列シーケンスの分割は、時間軸上で隣接する区分時系列シーケンスどうしがオーバラップする区間を含むように、「ウィンドウ幅＜スライディング幅」となるようにして行われる。

学習モジュール１３_i(i=1,2,・・・,N)は、区分時系列シーケンス入力部２１_i、モデル学習部２２_i、モデル記憶部２３_i、および内部変数教師シーケンス生成部２４_iから構成される。学習モジュール１３_iは、入力された区分時系列シーケンスを用いて、学習モデルの複数のモデルパラメータを更新する更新学習を行う。

区分時系列シーケンス入力部２１_iは、時系列シーケンス分割部１２から供給された区分時系列シーケンスを、学習モデルの学習に適切な形のデータにする処理を行う。区分時系列シーケンス入力部２１_iは、そのような前処理を施した区分時系列シーケンスをモデル学習部２２_iに出力する。

モデル学習部２２_iは、区分時系列シーケンス入力部２１_iから供給された区分時系列シーケンスと、内部変数教師シーケンス生成部２４_iから供給された内部変数教師シーケンスを用いて、モデル記憶部２３_iに記憶された学習モデルの学習を行う。

モデル記憶部２３_iは、内部変数を有し、パターンを学習する学習モデルを記憶する。モデル記憶部２３_iには、学習モデルの複数のモデルパラメータが記憶される。

ここで、学習モデルとしては、時系列パターンや、時間変化する力学系を表すダイナミクスを学習（獲得）（記憶）するモデル等を採用することができる。

時系列パターンを学習するモデルとしてはHMM(Hidden Markov Model)等がある。ダイナミクスを学習するモデルとしては、RNN，FNN(Feed Forward Neural Network)，RNNPB等のニューラルネットワークや、SVR(Support Vector Regression)等がある。

HMMについては、HMMにおいて状態が遷移する確率を表す状態遷移確率や、状態が遷移するときに、HMMからある観測値が出力される確率を表す出力確率、又は確率密度を表す出力確率密度関数が、HMMのモデルパラメータである。

また、ニューラルネットワークについては、ニューロンに相当するユニット（ノード）において、他のユニットからの入力に付されるウエイト（重み）が、ニューラルネットワークのモデルパラメータである。

なお、HMMの状態遷移確率や、出力確率、又は出力確率密度関数、ニューラルネットワークのウエイトは、いずれも複数存在する。

内部変数教師シーケンス生成部２４_iは、モデル記憶部２３_iに記憶されている学習モデルの内部変数と、隣接する学習モジュール１３_i-1,１３_i+1の学習モデルの内部変数を取得する。内部変数教師シーケンス生成部２４_iは、取得した内部変数に基づいて内部変数教師シーケンスを生成し、内部変数の教師としてモデル学習部２２_iに出力する。

なお、内部変数教師シーケンス生成部２４₁においては、モデル記憶部２３₁に記憶されている学習モデルの内部変数と、学習モジュール１３₂の学習モデルの内部変数が取得され、内部変数教師シーケンスが生成される。また、内部変数教師シーケンス生成部２４_Nにおいては、モデル記憶部２３_Nに記憶されている学習モデルの内部変数と、学習モジュール１３_N-1の学習モデルの内部変数が取得され、内部変数教師シーケンスが生成される。

モデルパラメータ共有部１４は、N個の学習モジュール１３₁ないし１３_Nのうちの、２以上の学習モジュールに、モデルパラメータを共有させる共有処理を行う。モデルパラメータ共有部１４が共有処理を行うことにより、N個の学習モジュール１３₁ないし１３_Nのうちの２以上の学習モジュールはモデルパラメータを共有する。

［学習モデルの説明］
学習装置１で学習される学習モデルについて説明する。

学習モデルとしては、力学系を近似することができるモデル（力学系近似モデル）のうちの、内部変数を有する力学系近似モデルを採用することができる。内部変数を有する力学系近似モデルとしては、例えば、RNNがある。

図２は、RNNの構成例を示す図である。

ここで、あるシステム（系）にデータを入力したときに、そのデータに対して、システムから出力されるデータを出力データというとともに、システムに入力されるデータを入力データという。

図２のRNNは、入力層、隠れ層（中間層）、及び出力層の３層で構成されている。入力層、隠れ層、及び出力層は、それぞれ任意の数の、ニューロンに相当するユニットにより構成される。

RNNでは、入力層の一部のユニットである入力ユニットに、外部から入力データx_tが入力される。ここで、入力データx_tは、時刻tのサンプル（値）を表す。

入力層の、入力データx_tが入力される入力ユニット以外の、残りのユニットはコンテキストユニットである。コンテキストユニットには、出力層の一部のユニットの出力が、内部変数を表すコンテキストとしてフィードバックされる。

ここで、時刻tの入力データx_tが入力層の入力ユニットに入力されるときに入力層のコンテキストユニットに入力される時刻tのコンテキストをc_tと記載する。

隠れ層のユニットは、入力層に入力される入力データx_tとコンテキストc_tを対象として、所定のウエイト（重み）を用いた重み付け加算を行う。隠れ層のユニットは、その重み付け加算の結果を引数とする非線形関数の演算を行って、その演算結果を、出力層のユニットに出力する。

出力層のユニットでは、隠れ層のユニットが出力するデータを対象として、隠れ層のユニットと同様の処理が行われる。そして、出力層の一部のユニットからは、上述したように、次の時刻t+1のコンテキストc_t+1が出力され、入力層にフィードバックされる。また、出力層の残りのユニットからは、例えば、入力データx_tに対する出力データが出力される。

すなわち、RNNの学習は、RNNに対して、ある時系列データの時刻tのサンプルを入力データとして与えるとともに、その時系列データの次の時刻t+1のサンプルを出力データの真値として与え、出力データの、真値に対する誤差を小さくするように行われる。

また、後に詳述するように、RNNの学習は、時系列の信号として表されるコンテキストの、内部変数教師シーケンス生成部２４_iにより生成された内部変数教師シーケンスに対する誤差を小さくするようにもして行われる。

このような学習が行われたRNNでは、入力データx_tに対する出力データとして、その入力データx_tの次の時刻t+1の入力データx_t+1の予測値x^* _t+1が出力される。

なお、上述したように、RNNでは、ユニットへの入力が重み付け加算されるが、この重み付け加算に用いられるウエイト（重み）が、RNNのモデルパラメータである。RNNのモデルパラメータとしてのウエイトには、入力ユニットから隠れ層のユニットへのウエイト、コンテキストユニットから隠れ層のユニットへウエイト、隠れ層のユニットから出力層のユニットへのウエイト等がある。

以下では、学習モデルはRNNであるとする。

［時系列シーケンスの分割と学習モデルの学習］
図３は、教師データとしての時系列シーケンスの分割と、その分割によって得られた区分時系列シーケンスを用いた学習モデルの学習について説明する図である。

図３において、時系列シーケンスは、２つのコンポーネントを有するベクトルの時系列になっている。

時系列シーケンス分割部１２は、複数の学習モデルに時系列シーケンス全体を分担して学習させるために、時系列シーケンスを、Lサンプルがオーバラップする、S(>L)サンプルの区分時系列シーケンスに分割する。

図３では、時系列シーケンスが４つの区分時系列シーケンス#1ないし#4に分割されている。

ここで、区分時系列シーケンス全体のうちの、他の区分時系列シーケンスとオーバラップしているLサンプルを、以下、区分時系列シーケンスのオーバラップ部分ともいう。

Sサンプルの時系列である区分時系列シーケンスでは、その最初のLサンプルと、最後のLサンプルが、オーバラップ部分となっている。但し、正確には、最初の区分時系列シーケンスでは、最後のLサンプルだけがオーバラップ部分となっており、最後の区分時系列シーケンスでは、最初のLサンプルだけがオーバラップ部分となっている。

時系列シーケンス分割部１２は、分割して得られた区分時系列シーケンス#1を学習モデル#1に割り当て、区分時系列シーケンス#2を学習モデル#2に割り当てる。また、時系列シーケンス分割部１２は、区分時系列シーケンス#3を学習モデル#3に割り当て、区分時系列シーケンス#4を学習モデル#4に割り当てる。

学習モデル#1ないし#4は、それぞれ、図１の学習モジュール１３₁ないし１３₄に記憶されている学習モデルである。

学習モジュール１３_iは、学習モデル#iによる時系列パターンの学習を、その学習モデル#iに割り当てられた区分時系列シーケンス#iを用いて行う。これにより、学習モジュール１３_iは、区分時系列シーケンス#iのダイナミクスとしての時系列パターンを、学習モデル#nの学習則に従って、時間発展方程式の関数近似モデルとして獲得する。

すなわち、学習モジュール１３_iは、区分時系列シーケンス#iを用いて、RNNのモデルパラメータであるウエイトを例えばBPTT法により求める。

区分時系列シーケンス#i及び#i+1がそれぞれ割り当てられる２つの学習モデル#i及び#i+1に注目した場合を考える。

この場合、学習モデル#i+1の学習は、最初のオーバラップ部分としてのLサンプルが、学習モデル#iの学習に用いられる区分時系列シーケンス#iの最後のオーバラップ部分としてのLサンプルに一致している区分時系列シーケンス#i+1を用いて行われる。

また、学習モデル#iの学習は、最後のオーバラップ部分としてのLサンプルが、学習モデル#i+1の学習に用いられる区分時系列シーケンス#i+1の最初のオーバラップ部分としてのLサンプルに一致している区分時系列シーケンス#iを用いて行われる。

［内部変数教師シーケンスの生成］
図４は、内部変数教師シーケンス生成部２４_iによる内部変数教師シーケンスの生成の例を示す図である。

i≠１、かつi≠Nである場合について説明する。この場合、学習モジュール１３_iに入力される区分時系列シーケンスより時間的に前の区分時系列シーケンスが入力される学習モジュール１３_i-1が存在する。また、学習モジュール１３_iに入力される区分時系列シーケンスより時間的に後の区分時系列シーケンスが入力される学習モジュール１３_i+1が存在する。

学習モデルの学習時、内部変数教師シーケンス生成部２４_iに対しては、学習モジュール１３_iが有する学習モデル#iのコンテキストと、学習モジュール１３_i-1が有する学習モデル#i-1のコンテキストと、学習モジュール１３_i+1が有する学習モデル#i+1のコンテキストとがそれぞれ供給される。

時系列の信号である区分時系列シーケンスが入力される毎に出力されるから、RNNのコンテキストノードから出力されるコンテキストも、図４の上段に示すように時系列の信号として表される。横方向が時間方向である。

破線の波形は、学習モジュール１３_i-1が有する学習モデル#i-1のコンテキストを示し、実線の波形は、学習モジュール１３_iが有する学習モデル#iのコンテキストを示す。また、一点鎖線の波形は、学習モジュール１３_i+1が有する学習モデル#i+1のコンテキストを示す。

上述したように、区分時系列シーケンスには、隣接する学習モジュールに入力されるものどうしオーバラップ部分が存在する。学習モジュール１３_i-1に入力される区分時系列シーケンスの最後のLサンプルと、学習モジュール１３_iに入力される区分時系列シーケンスの最初のLサンプルは一致する。

しかし、図４に示すように、t=1からt=Nの区間L₁における学習モデル#i-1のコンテキストと学習モデル#iのコンテキストとは、それぞれの学習モデルのモデルパラメータに応じて異なる値をとることになる。

図４上段の区間L₁には、学習モジュール１３_i-1と学習モジュール１３_iに入力された区分時系列シーケンス全体のうちのオーバラップ部分が入力されたときにそれぞれの学習モデルにおいて観測されたコンテキストを示している。区間L₁の学習モデル#i-1のコンテキストの値と、学習モデル#iのコンテキストの値とは大きく異なっている。

同様に、学習モジュール１３_iに入力される区分時系列シーケンスの最後のLサンプルと、学習モジュール１３_i+1に入力される区分時系列シーケンスの最初のLサンプルは一致する。

しかし、図４に示すように、t=T-N+1からt=Tの区間L₂における学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとは、それぞれの学習モデルのモデルパラメータに応じて異なる値をとることになる。

図４上段の区間L₂には、学習モジュール１３_iと学習モジュール１３_i+1に入力された区分時系列シーケンス全体のうちのオーバラップ部分が入力されたときにそれぞれの学習モデルにおいて観測されたコンテキストを示している。区間L₂の学習モデル#iのコンテキストの値と、学習モデル#i+1のコンテキストの値とは大きく異なっている。

以下、区分時系列シーケンス全体のうちのオーバラップ部分に対応して出力されたコンテキストの部分をコンテキストのオーバラップ部分という。例えば、図４上段の区間L₁は、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストのオーバラップ部分の区間である。

各学習モジュールにおいては、隣接する学習モジュールの学習モデルとの間でコンテキストの値が連続的になるように、コンテキストの教師となる内部変数教師シーケンスが生成され、学習が行われる。内部変数教師シーケンスを用いた学習は、コンテキストの、内部変数教師シーケンスに対する誤差が小さくなるようにして行われる。

内部変数教師シーケンスは、前段の学習モデルのコンテキストの最後のオーバラップ部分の値と、後段の学習モデルのコンテキストの最初のオーバラップ部分の値の線形和によって、内部変数教師シーケンス生成部２４_iにより計算される。

区分時系列シーケンスのオーバラップ長をNサンプル、区分時系列シーケンス長をTサンプルとすると、学習モジュール１３_iの最初のオーバラップ部分である区間L₁における内部変数教師シーケンスCtⁱ _1...Nは、下式（１）により計算される。

式（１）のC^i-1 _T-N+1...Tは、学習モデル#i-1のコンテキスト全体のうちの、最後のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。Cⁱ _1...Tは、学習モデル#iのコンテキスト全体のうちの、最初のオーバラップ部分、すなわち、学習モデル#i-1のコンテキストとのオーバラップ部分の値を表す。

εは、他の学習モデルのコンテキストとの線形和を取るときの重みとなる所定の値である。

同様に、学習モジュール１３_iの最後のオーバラップ部分である区間L₂における内部変数教師シーケンスCtⁱ _T-N+1は、下式（２）により計算される。

式（２）のCⁱ⁺¹ _1...Tは、学習モデル#i+1のコンテキスト全体のうちの、最初のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。Cⁱ _T-N+1は、学習モデル#i+1のコンテキスト全体のうちの、最後のオーバラップ部分、すなわち、学習モデル#iのコンテキストとのオーバラップ部分の値を表す。

以上のようにして計算された内部変数教師データCtⁱ _1...Nと内部変数教師データCtⁱ _T-N+1を含む、学習モジュール１３_iの内部変数教師データ全体を図４の下段に示す。

なお、各学習モジュール１３_iにおいて、初期コンテキストに与える内部変数教師データは、学習順で前段の学習モジュール１３_iで得られたコンテキストの値が引き継がれる（そのまま用いられる）。

内部変数教師データとコンテキストの誤差を小さくするようにして順伝播での学習と逆伝播での学習が繰り返されることによって、モデルパラメータが調整される。

そのような学習が繰り返されることにより、学習モデル#iのコンテキスト全体のうちの最初のオーバラップ部分の値は、学習モデル#i-1のコンテキストの最後のオーバラップ部分の値に近いものになる。

学習モジュール１３_i-1においても同様にして学習が行われるから、学習モデル#i-1のコンテキスト全体のうちの最後のオーバラップ部分の値は、学習モデル#iのコンテキストの最初のオーバラップ部分の値に近いものになる。

すなわち、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストとは、より連続的なものになる。

また、学習モデル#iのコンテキスト全体のうちの最後のオーバラップ部分の値は、学習モデル#i+1のコンテキストの最初のオーバラップ部分の値に近いものになる。

学習モジュール１３_i+1においても同様にして学習が行われるから、学習モデル#i+1のコンテキスト全体のうちの最初のオーバラップ部分の値は、学習モデル#iのコンテキストの最後のオーバラップ部分の値に近いものになる。

すなわち、学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとは、より連続的なものになる。

このように、学習モデル#iのコンテキストと学習モデル#i-1のコンテキストとが連続的なものになり、学習モデル#iのコンテキストと学習モデル#i+1のコンテキストとが連続的なものになる。従って、学習モジュール１３_iないし１３_Nの学習モデルのコンテキスト全体が連続的なものになる。

全体のコンテキストが連続的なものになることにより、各学習モジュール１３_iにおいて、その学習モデル#iのコンテキストの意味を統一させることが可能になる。

［モデルパラメータの共有］
図５は、モデルパラメータの共有の例を示す図である。

N個の学習モジュール１３₁ないし１３_Nのすべてに、モデルパラメータを共有させる場合について説明する。

図５においては、モデル記憶部２３_iとモデルパラメータ共有部１４以外の図示を省略している。図５に示すように、モデルパラメータ共有部１４にはウエイトマトリクス共有部３１が設けられる。RNNのモデルパラメータとしてのウエイトは複数あるが、その複数のウエイトをコンポーネントとするマトリクスをウエイトマトリクスという。

ウエイトマトリクス共有部３１は、モデル記憶部２３₁ないし２３_Nに記憶された学習モデル#1ないし#Nの複数のモデルパラメータとしてのウエイトマトリクスすべてを、学習モジュール１３₁ないし１３_Nのそれぞれに共有させる。

すなわち、学習モデル#iのウエイトマトリクスをw_iと表すと、ウエイトマトリクス共有部３１は、ウエイトマトリクスw_iを、ウエイトマトリクスw₁ないしw_Nのすべてに基づいて補正する。これにより、ウエイトマトリクス共有部３１は、ウエイトマトリクスw_iに、ウエイトマトリクスw₁ないしw_Nのすべてを影響させる。

具体的には、ウエイトマトリクス共有部３１は、例えば、次式（３）に従い、学習モデル#iのウエイトマトリクスw_iを補正する。

式（３）のΔw_iは、ウエイトマトリクスw_iを補正する補正成分であり、例えば、式（４）に従って求められる。

式（４）のβ_ijは、学習モデル#iのウエイトマトリクスw_iに、学習モデル#j(j=1,2,・・・,N)のウエイトマトリクスw_jを影響させる度合いを表す係数である。

式（４）の右辺のサメーションΣβ_ij(w_j-w_i)は、係数β_ijを重みとした、学習モデル#iのウエイトマトリクスw_jに対する学習モデル#1ないし#Nのウエイトマトリクスw₁ないしw_Nそれぞれの偏差（差分）の重み付け平均値を表す。α_iは、その重み付け平均値Σβ_ij(w_j-w_i)を、ウエイトマトリクスw_iに影響させる度合いを表す係数である。

係数α_i及びβ_ijとしては、例えば、0.0より大で1.0より小の値を採用することができる。

式（４）によれば、係数α_iが小であるほど、いわば共有が弱くなり（ウエイトマトリクスw_iが受ける重み付け平均値Σβ_ij(w_j-w_i)の影響が小さくなり）、係数α_iが大であるほど、いわば共有が強まる。

なお、ウエイトマトリクスw_iの補正の方法は、式（３）に限定されるものではなく、例えば、式（５）に従って行うことが可能である。

ここで、式（５）において、β_ij ^'は、学習モデル#iのウエイトマトリクスw_iに、学習モデル#j(j=1,2,・・・,N)のウエイトマトリクスw_jを影響させる度合いを表す係数である。

式（５）の右辺の第２項におけるサメーションΣβ_ij ^'w_jは、係数β_ij ^'を重みとした、学習モデル#1ないし#Nのウエイトマトリクスw₁ないしw_Nの重み付け平均値を表す。α_i ^'は、その重み付け平均値Σβ_ij ^'w_jを、ウエイトマトリクスw_iに影響させる度合いを表す係数である。

係数α_i ^'及びβ_ij ^'としては、例えば、0.0より大で1.0より小の値を採用することができる。

式（５）によれば、係数α_i ^'が大であるほど、共有が弱くなり（ウエイトマトリクスw_iが受ける重み付け平均値Σβ_ij ^'w_jの影響が小さくなり）、係数α_i ^'が小であるほど、共有が強まる。

［学習装置１の動作］
図６のフローチャートを参照して、学習装置１の学習処理について説明する。

ステップＳ１において、時系列シーケンス入力部１１は、外部から入力された教師データである時系列シーケンスを受信し、時系列シーケンス分割部１２に出力する。

ステップＳ２において、時系列シーケンス分割部１２は、図３を参照して説明したように、オーバラップ部分を持たせた形で、時系列シーケンスを複数の区分時系列シーケンスに分割する。

ステップＳ３において、学習モジュール１３_iのモデル学習部２２_iは、モデル記憶部２３_iに記憶された学習モデル#iのモデルパラメータであるウエイトマトリクスw_iを、例えば、乱数等によって初期化する。

ステップＳ４において、学習モジュール１３_iは、区分時系列シーケンスを用いて、モデルパラメータを更新する更新学習を行う。内部変数教師シーケンスが生成されている場合、学習モジュール１３_iは、内部変数教師シーケンスをも用いて更新学習を行う。

すなわち、学習モジュール１３_iの区分時系列シーケンス入力部２１_iは、時系列シーケンス分割部１２から供給された区分時系列シーケンスをモデル学習部２２_iに供給する。

また、モデル学習部２２_iは、区分時系列シーケンス入力部２１_iからの区分時系列シーケンスと、内部変数教師シーケンス生成部２４_iから適宜供給される内部変数教師シーケンスを用いて、学習モデル#iのウエイトマトリクスw_iを更新する更新学習を行う。更新学習は、例えば、BPTT(Back-Propagation Through Time)法により行われる。BPTT法については特開2002-236904号公報等に記載されている。

モデル学習部２２_iは、更新学習によって得られた新たなモデルパラメータとしてのウエイトマトリクスw_iによって、モデル記憶部２３_iの記憶内容を更新する。

ステップＳ５において、内部変数教師シーケンス生成部２４_iは、図４を参照して説明したようにして内部変数教師シーケンスを生成する。

ステップＳ６において、モデルパラメータ共有部１４のウエイトマトリクス共有部３１は、N個の学習モジュール１３₁ないし１３_Nのすべてに、ウエイトマトリクスw₁ないしw_Nのすべてを共有させる共有処理を行う。

ステップＳ７において、学習装置１は、学習の終了条件が満たされているかどうかを判定する。

学習の終了条件が満たされていないとステップＳ７において判定された場合、ステップＳ４に戻り、同様の処理、すなわち、ウエイトマトリクスw_iの更新学習と、内部変数教師シーケンスの生成と、モデルパラメータの共有とが繰り返される。

一方、ステップＳ７において、学習の終了条件が満たされていると判定された場合、処理は終了される。

例えば、ステップＳ４乃至Ｓ６の処理の繰り返された回数があらかじめ定められた所定の回数になった場合、ある入力データに対して学習モデル#iが出力する出力データの、入力データに対する誤差が所定値以下になった場合、学習処理は終了される。

ステップＳ４乃至Ｓ６の処理が繰り返されることにより、ウエイトマトリクスは各学習モジュール１３_i間で共有され、また、学習モジュール１３_iのコンテキストの値は前後で連続的に繋がるように学習が行われることになる。

これにより、長時間の時系列パターンを記憶しているシステム全体として、内部変数の役割（意味）を共有することが可能となり、より長期の因果をモデル記憶部２３_iに記憶させておくことが可能になる。

［実験結果］
図７は、学習装置１に学習を行わせるために本件発明者が作成した時系列シーケンスの波形を示す図である。

図７ａ乃至ｇのそれぞれに示すｘ₁乃至ｘ₄の各次元の因果関係は下式（６）で表現される。式（６）にはa〜eとして所定の値が設定される。

太線で示す３次元目のｘ₃がスイッチの役割を有する。このｘ₃の信号が立ち上がってから80ステップ（サンプル）の間は、細線で示すｘ₁と破線で示すｘ₂の最大値が、一点鎖線で示すｘ₄の値と同じ値になる。

ｘ₃の信号が立ち上がってから80ステップ後にｘ₄は0となる。ｘ₃を基準として各次元についての長期の因果を学習するためには、80ステップ前にｘ₃が立ち上がったということを内部変数で記憶しておく必要がある。

式（６）のa〜eのパラメータを変えて作成した図７の7種類の時系列シーケンスの長さはそれぞれ370ステップである。本件発明者は、この各時系列シーケンスを対象として本手法により学習を行わせた。時系列シーケンスの分割は、ウィンドウ幅を40ステップ、スライディング幅を30ステップとした。オーバラップ長は10ステップとなる。

各時系列シーケンスを12の区分時系列シーケンスに分割し、12の学習モジュールに割り当てた。計84の学習モジュールによって、7種類の時系列シーケンスの学習を行った。各学習モジュールのRNNの隠れ層の数は15、コンテキストノードの数は8とした。

図８は、学習後の時系列シーケンスaの内部変数(コンテキスト)の値を示す図である。

図８の上段は、本手法によって、連続的になるようにして学習を行った場合のコンテキストの波形を示す。

図８の下段は、内部変数教師シーケンスを用いずに、連続的になるような学習を行わない場合のコンテキストの波形を示す。この学習については、本出願人による特願2008-178807号に記載されている。特願2008-178807号に記載されている学習は、内部変数教師シーケンスを用いずに、モデルパラメータの更新と、モデルパラメータの共有を繰り返すことによって行われる。

なお、コンテキストノードは8個用意したが、図８には、そのうちの1つのコンテキストの時系列変化のみを示す。本手法を用いることで、学習モジュールごとに異なる値を持つのではなく、コンテキストが連続的な値を持っていることがわかる。

さらに、周期的なシーケンスとなっている時系列シーケンスc（図７）を用いた学習後のコンテキストの波形を図９に示す。

図９のコンテキストを見ると、時系列シーケンスに現れる繰り返しの場面で、ほぼ同じコンテキストの値をとっていることがわかる。これは、学習モジュールを超えて、同じ意味のコンテキストを生成していることを示している。

［コンピュータの構成例］
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

CPU(Central Processing Unit)５１、ROM(Read Only Memory)５２、RAM(Random Access Memory)５３は、バス５４により相互に接続されている。

バス５４には、さらに、入出力インタフェース５５が接続されている。入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ディスプレイ、スピーカなどよりなる出力部５７が接続される。また、バス５４には、ハードディスクや不揮発性のメモリなどよりなる記憶部５８、ネットワークインタフェースなどよりなる通信部５９、リムーバブルメディア６１を駆動するドライブ６０が接続される。

以上のように構成されるコンピュータでは、CPU５１が、例えば、記憶部５８に記憶されているプログラムを入出力インタフェース５５及びバス５４を介してRAM５３にロードして実行することにより、上述した一連の処理が行われる。

CPU５１が実行するプログラムは、例えばリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１学習装置，１１時系列シーケンス入力部，１２時系列シーケンス分割部，１３₁ないし１３_N 学習モジュール，１４モデルパラメータ共有部，２１₁ないし２１_N パターン入力部，２２₁ないし２２_N モデル学習部，２３₁ないし２３_N モデル記憶部，３１ウエイトマトリクス共有部

Claims

時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当てる分割手段と、
複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行う学習手段と、
所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行う生成手段と
を備える情報処理装置。
前記生成手段は、割り当てられた前記区分時系列信号全体のうちの、オーバラップする区間の信号を用いた学習によって、前記所定の学習モデルにおいて得られた前記所定の学習モデルの内部状態を表す時系列の信号と、前記他の学習モデルにおいて得られた前記他の学習モデルの内部状態を表す時系列の信号との線形和によって、前記内部状態教師信号を生成する
請求項１に記載の情報処理装置。
前記学習手段は、前記他の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間の前記区分時系列信号を用いた学習によって前記所定の学習モデルにおいて得られた、前記所定の学習モデルの内部状態を表す一部の区間の時系列の信号の、前記内部状態教師信号に対する誤差が所定値より小さくなるように、前記所定の学習モデルの学習を行う
請求項２に記載の情報処理装置。
前記複数の学習モデルのうちの２以上の学習モデルのそれぞれのモデルパラメータを共有させるモデルパラメータ共有手段をさらに備える
請求項１に記載の情報処理装置。
前記モデルパラメータ共有手段は、それぞれの学習モデルのモデルパラメータを、前記２以上の学習モデルのモデルパラメータの重み付け平均値によって補正することにより、前記２以上の学習モデルのそれぞれのモデルパラメータを共有させる
請求項４に記載の情報処理装置。
時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当て、
複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行い、
所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行う
ステップを含む情報処理方法。
時系列信号を、一部の区間がオーバラップする複数の区分時系列信号に分割し、内部状態を有し、時系列パターンを学習する学習モデルの学習に用いる信号として、１つの前記区分時系列信号を１つの学習モデルに割り当て、
複数の学習モデルの学習を、それぞれの学習モデルに割り当てられた前記区分時系列信号と、それぞれの学習モデルの内部状態を表す時系列の信号の教師となる内部状態教師信号を用いて行い、
所定の学習モデルの内部状態を表す時系列の信号と、前記所定の学習モデルに割り当てられた前記区分時系列信号とオーバラップする区間を有する前記区分時系列信号が割り当てられた他の学習モデルの内部状態を表す時系列の信号とに基づいて前記所定の学習モデルに与える前記内部状態教師信号を生成することを、前記複数の学習モデルのそれぞれを前記所定の学習モデルとして行う
ステップを含む処理をコンピュータに実行させるプログラム。