JP2008276290A - データ処理装置、データ処理方法、及びプログラム - Google Patents

データ処理装置、データ処理方法、及びプログラム Download PDF

Info

Publication number
JP2008276290A
JP2008276290A JP2007115693A JP2007115693A JP2008276290A JP 2008276290 A JP2008276290 A JP 2008276290A JP 2007115693 A JP2007115693 A JP 2007115693A JP 2007115693 A JP2007115693 A JP 2007115693A JP 2008276290 A JP2008276290 A JP 2008276290A
Authority
JP
Japan
Prior art keywords
time
data
series
learning
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007115693A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Kazumi Aoyama
一美 青山
Yukiko Yoshiike
由紀子 吉池
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007115693A priority Critical patent/JP2008276290A/ja
Publication of JP2008276290A publication Critical patent/JP2008276290A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】時系列データの教師なし学習を追加的に行う追加学習を適切に行う。
【解決手段】ネットワーク管理部7は、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークの規模を管理する。一方、生成部6は、時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する。そして、学習部4は、外部から観測することができる時系列データである新規時系列データと、生成部6が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、時系列パターン記憶ネットワークを、自己組織的に更新する。
【選択図】図1

Description

本発明は、データ処理装置、データ処理方法、及びプログラムに関し、特に、例えば、音声のような時系列のデータである時系列データの教師なし学習を追加的に行う追加学習を適切に行うことができるようにするデータ処理装置、データ処理方法、及びプログラムに関する。
パターンを学習して認識を行う技術は、一般にパターン認識(pattern recognition)と呼ばれ、パターン認識における学習は、教師あり学習(supervised learning)と、教師なし学習(unsupervised learning)とに分けることができる。
教師あり学習とは、各パターンの学習データがどのクラスに属するかの情報(これを正解ラベルと呼ぶ)を与えて、各パターンごとに、そのパターンに属する学習データを学習する方法であり、テンプレートマッチング、ニューラルネットワーク、HMM(Hidden Markov Model)などを用いた学習方法が数多く提案されている。
教師あり学習では、学習に利用する学習データが、想定したカテゴリ(クラス)(例えば、各音素のカテゴリや、各音韻のカテゴリ、各単語のカテゴリなど)ごとに用意されるとともに、学習に利用するモデル(各カテゴリの学習データを学習させる学習モデル)も、想定したカテゴリごとに用意される。
そして、教師あり学習では、各カテゴリ(クラス)のモデルの学習が、そのカテゴリの学習データのみを用いて行われ、その結果、正解ラベルに基づき、クラスごとのテンプレート(正解ラベルが表すクラス(カテゴリ)のモデル)を得ることができる。
したがって、教師あり学習によって得られたモデルを用いたパターン認識では、ある認識対象のデータに対し、その認識対象のデータに最も適合(match)するテンプレート(尤度が最も高いテンプレート)の正解ラベルを、認識結果として出力することができる。
ここで、モデルは、パラメータによって定義される。例えば、音声データの学習には、モデルとして、HMMなどが用いられるが、HMMは、ある状態から他の状態(元の状態を含む)に遷移する状態遷移確率や、HMMから出力される観測値の確率密度を表す出力確率密度関数などによって定義される。
一方、教師なし学習は、自己組織化(self-organization)等とも呼ばれ、各パターンの学習データに正解ラベルが与えられない状況で行われる学習であり、例えば、テンプレートマッチングやニューラルネットなどを用いた学習方法があるが、正解ラベルが与えられないという点で、教師あり学習とは大きく異なる。
ところで、パターン認識は、そのパターン認識によって認識しようとする認識対象のデータ(信号)が観測される信号空間の量子化と見ることができる。特に、認識対象のデータがベクトルである場合のパターン認識は、ベクトル量子化(vector quantization)と呼ばれることがある。
ベクトル量子化の学習では、認識対象のデータが観測される信号空間上に、クラスに対応する代表的なベクトル(これをセントロイドベクトルと呼ぶ)が配置される。
ベクトル量子化の教師なし学習として代表的な手法の一つに、K-平均法(K-means clustering method)がある。K-平均法は、初期状態として、セントロイドベクトルを適当に配置し、学習データとしてのベクトルを、最も距離の近いセントロイドベクトルに割り当て、各セントロイドベクトルに割り当てられた学習データの平均ベクトルによってセントロイドベクトルを更新することを繰り返す学習手法である。
ここで、多数の学習データを蓄積し、そのすべてを用いて学習を行う方法は、バッチ学習(batch learning)と呼ばれ、K-平均法は、バッチ学習に分類される。バッチ学習に対して、学習データを観測するたびに、その学習データを用いて学習を行い、パラメータ(セントロイドベクトルのコンポーネントや、HMMを定義する出力確率密度関数など)を少しずつ更新する学習は、オンライン学習(on-line learning)と呼ばれる。
オンライン学習としては、コホネン(T.Kohonen)の提案したSOM(self-organization map)による学習が有名である。SOMによる学習では、入力層と出力層の結合重みが、オンライン学習により少しずつ更新(修正)されていく(例えば、非特許文献1を参照)。
すなわち、SOMにおいて、出力層は、複数のノードを有し、出力層の各ノードには、入力層との結合の度合いを表す結合重みが与えられる。この結合重みをベクトルとした場合、ベクトル量子化の学習を行うことができる。
具体的には、SOMの出力層のノードにおいて、結合重みとしてのベクトルと、学習データとしてのベクトルとの距離が最も近いノードが、勝者ノードに決定され、その勝者ノードの結合重みとしてのベクトルが、学習データとしてのベクトルに近づくように更新される。さらに、勝者ノードの近傍のノードの結合重みも、学習データに少しだけ近づくように更新される。その結果、学習が進むにつれ、結合重みとしてのベクトルが類似したノードどうしは近くなるように、類似しないノードは遠くなるように、出力層の上に配置されていく。ここで、上述のような学習の結果として得られる結合重みのベクトルは、信号空間に配置されるセントロイドベクトルと見ることができる。
SOMの学習では、上述のように、学習が進むにつれて、結合重みとしてのベクトルが類似したノードどうしは近くなるように、類似しないノードは遠くなるように、出力層の上に配置されていき、その結果、出力層には、あたかも学習データに含まれるパターンに応じた地図が自己組織的に構成されていく。ここで、このように、学習データに含まれるパターンに応じて構成される地図を、以下、適宜、カテゴリマップという。
カテゴリマップは、例えば、データを分類し、視覚化して解析するのに利用することができる。
すなわち、カテゴリマップは、多次元の信号(データ)を、低次元の空間で表現する。例えば、SOMの出力層のノードを2次元に配置した場合には、カテゴリマップでは、多次元の信号が、2次元平面上で表現される。このように、多次元の信号を低次元の空間で表現することができる機能は、SOMが持つ重要な特徴の一つである。
ところで、SOMの学習では、学習データに最も距離の近いノード(勝者ノード)の結合重みだけでなく、勝者ノードの近傍のノードの結合重みも更新される。したがって、SOMの学習は、競合学習と近傍学習とを組み合わせたものと考えることができる。
通常、SOMの学習では、あらかじめノードの数が決定され、その数のノードが格子状に配置される。そして、近傍学習としては、学習の初期は、学習データが、広い範囲のノードに影響を与え、学習が進行するにしたがって、学習データが影響を与えるノードの範囲を少しずつ小さくしていく調整が行われる。
このようなSOMの学習には、次の3つの問題点がある。
第1の問題点は、近傍学習の範囲の調整が学習時間に依存し、あらかじめ設定した学習の終了時刻になると、パラメータ(例えば、結合重み)が固定化されるため、その後、新たなデータを追加で学習することが困難になる点である。
第2の問題点は、パラメータが収束するまでに長い時間がかかり、そのために、学習結果を利用することができるようになるまでに時間がかかる点である。
第3の問題点は、ノードの数をあらかじめ決定しておく必要があり、その数を大にすると、近傍学習において、学習の初期に、学習データの影響を与えるノードが増加するため、学習に要する計算量が膨大になる点である。
ところで、近年、SOMに関連した技術(以下、適宜、SOM関連技術という)の研究が行われている。SOM関連技術は、SOMのように低次元のカテゴリマップを形成する技術と、そのような低次元のカテゴリマップを形成しない技術とに大別することができる。
低次元のカテゴリマップを形成しないSOM関連技術としては、例えば、ニューラルガスアルゴリズム(Neural-Gas algorithm)と呼ばれる学習方法がある(例えば、非特許文献2を参照)。
低次元のカテゴリマップを形成しないニューラルガスアルゴリズムのようなSOM関連技術では、複雑な多次元の信号を扱った場合などにおいて、そのような信号の次元を縮退させること、及び、学習の結果を低次元のカテゴリマップとして可視化することができない。
一方、SOMと同様に、低次元のカテゴリマップを形成するSOM関連技術としては、グローインググリッド(Growing Grid)と呼ばれる学習手法がある(例えば、非特許文献3を参照)。
グローインググリッドでは、SOMのような、ノードを格子状に配置したモデルについて、やはり、SOMのような学習がされる。すなわち、グローインググリッドでは、競合学習と近傍学習との組み合わせにより、モデルのパラメータが更新されていく。
但し、SOMでは、ノードの集合であるネットワークの大きさ、つまり、ノードの数を固定にして、近傍学習において学習データを影響させるノードの範囲を、学習時間の経過とともに狭くしていく方法が用いられるのに対して、グローインググリッド では、近傍学習において学習データを影響させるノードの範囲を固定にし、ネットワークの大きさ、つまり、ノードの数を少しずつ大にするという方法が用いられる。
グローインググリッドでは、SOMと同様に、出力層において類似したノードが近接して配置される。これにより、カテゴリマップが形成される。
また、グローインググリッドでは、ノードの数を固定にする必要がなく、必要に応じて、ノードの数を大にすること等ができる。さらに、グローインググリッドでは、学習データを影響させるノードの範囲が固定であるため、近傍学習に要する計算量は変わらない。
したがって、グローインググリッドによれば、カテゴリマップを獲得し、かつ、SOMの第1ないし第3の問題点を解消する(軽減する)ことができる。
すなわち、グローインググリッドでは、ノードを増加することにより、新たなデータを学習することができる。さらに、グローインググリッドでは、近傍学習の範囲、つまり、学習データを影響させるノードの範囲が固定であるため、ある程度の学習を行えば、その学習結果を利用することができ、近傍学習に要する計算量も膨大になることはない。
ところで、グローインググリッドは、SOMと同様にオンライン学習に分類されるが、その学習は、学習データの種類や頻度に関する確率分布を想定し、その確率分布に従った学習データが定常的に観測されることを前提として行われる。
したがって、学習データの確率分布が時間とともに変化する場合(確率分布が非定常な場合)には、学習が困難となる。
すなわち、例えば、3種類の学習データが常に一様に観測される場合には、学習は正常に行われるが、3種類のうちの、1種類目の学習データだけが一定時間観測され、次に2種類目の学習データだけが一定時間観測され、その後、3種類目の学習データだけが一定時間観測される場合には、過去の学習結果が適切に保存されない問題が生じる。
モデルの学習においては、一般に、過去の記憶の維持を重視すると、新しい記憶の形成が困難になり、新しい記憶の形成を重視すると、過去の記憶の維持が困難になる問題がある。この問題は、「安定性と可塑性のジレンマ」と呼ばれる。
新しいデータを追加的に学習できるようにするためには、この「安定性と可塑性のジレンマ」の問題に対する対処が必要となる。
「安定性と可塑性のジレンマ」の問題に対処することができるSOMとしては、セルフリフレッシングSOM(Self-refreshing SOM)と呼ばれるSOMがある(例えば、非特許文献4を参照)。
セルフリフレッシングSOMでは、各ノードの結合重みを、リハースデータとして利用し、このリハースデータと、新たなデータとを混ぜ合わせて、学習データが構成し直され、その学習データを用いて、SOMの学習が行われる。これにより、セルフリフレッシングSOMによれば、過去の記憶を保持しながら、新しい記憶の形成を行うことができる。
しかしながら、セルフリフレッシングSOMにおいては、学習データを構成し直すたびに、その学習データを用いてSOMの学習をし直すために、その計算量は非常に大きくなる。
ところで、SOM やグローインググリッド は、長さが固定の、いわば静的なパターンのデータであるベクトルを対象とした教師なし学習を提供する。したがって、SOMやグローインググリッドは、音声データのような時系列データのパターン(時系列パターン)、つまり、長さが不定の、いわば動的なパターンの学習には、そのまま適用することはできない。
時系列パターンの学習、及び、その学習結果を用いた時系列データのパターン認識、すなわち、例えば、音声データの認識(音声認識)で広く利用されている技術の1つに、HMMを用いるHMM法がある(例えば、非特許文献5を参照)。
HMMは、状態遷移を有する確率モデルである状態遷移確率モデルの1つであり、上述したように、状態遷移確率と、各状態における出力確率密度関数で定義され、HMM法では、時系列データの統計的な特性がHMMによって記憶(保持)される。
ここで、HMMを定義する出力確率密度関数としては、例えば混合正規分布などが用いられる。また、HMMの学習、すなわち、HMMのパラメータ(HMMを定義する状態遷移確率と出力確率密度関数)の推定の方法としては、Baum-Welch 法が広く使われている。
HMM法は、現在実用化されている孤立単語音声認識から大語彙連続音声認識にまで幅広く適用されているが、HMMの学習は、通常、教師あり学習であり、正解ラベルの付与された学習データを用いて行われる。すなわち、例えば、ある単語を認識するHMMの学習は、その単語に対応する学習データ(その単語の発話によって得られる音声データ)を用いて行われる。
このように、HMMの学習は、教師あり学習であり、正解ラベルの付与されていない学習データが与えられた場合にHMMの学習を行うこと、つまり、HMMの教師なし学習は困難である。
そこで、ノードに結合重みとしてのベクトルを与えるのではなく、時系列パターンを記憶することができるモデル(時系列パターンモデル)としての、例えば、HMMを与えたSOM(以下、適宜、HMM-SOMという)を用いて、時系列データの教師なし学習を実現する学習方法(以下、適宜、HMM-SOM法という)が提案されている(例えば、特許文献1を参照)。
HMM-SOMでは、ノードがHMM(のパラメータ)を有し、これにより、ノードでは、そのHMMによって、時系列データの統計的な特性が、時系列パターンとして保持される。
HMM-SOM法では、各ノードが有するHMM(のパラメータ)の教師なし学習を実現するために、競合学習と近傍学習とを組み合わせたSOMの学習が適用される。
HMM-SOMでも、SOMと同様に、ノードの数が固定されているため、新たなデータを追加的に学習することは困難であり、また、ノードの数を大にすると、学習に要する計算量も膨大になる。
特開2006-162898号公報 T.コホネン、「自己組織化マップ」、シュプリンガー・フェアラーク東京 T.M. Martinetz, S.G. Berkovich, K.J. Schulten,「"Neural-Gas" Network for Vector Quantization and its Application to Time-Series Prediction」, IEEE Trans. Neural Networks, VOL. 4, NO. 4, pp558-569, 1999 B. Fritzke, 「グローインググリッド - a self-organizing network with constant neighborhood range and adaptation strength」, Neural Processing Letters (1995), Vol.2, No. 5, page 9-13 Matti Polla, Tiina Lindh-Knuutila and Timo Honkela, 「SELF-REFRESHING SOM AS A SEMANTIC MEMORY MODEL」, Proceedings of AKRR'05, International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning, pages 171-174, Espoo, Finland, June 2005 Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎(上・下)」、NTTアドバンステクノロジ株式会社
従来においては、時系列データの教師なし学習をし、その後、新たな時系列データを追加的に学習することが困難であった。
本発明は、このような状況に鑑みてなされたものであり、時系列データの教師なし学習を追加的に行う追加学習を適切に行うことができるようにするものである。
本発明の第1の側面のデータ処理装置、又は、プログラムは、時系列のデータである時系列データに基づき、学習を行うデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムであり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、前記時系列パターン記憶ネットワークの規模を管理する管理手段と、前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段とを備え、前記学習手段が、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新するデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
本発明の第1の側面のデータ処理方法は、時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、前記時系列パターン記憶ネットワークの規模を管理する管理ステップと、前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップとを含み、前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する。
以上のような第1の側面においては、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークの規模が管理されつつ、前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データが生成され、その時系列データと、外部から観測することができる時系列データである新規時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークが、自己組織的に更新される。
本発明の第2の側面のデータ処理装置、又は、プログラムは、時系列のデータである時系列データに基づき、学習を行うデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムであり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段とを備え、前記学習手段が、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新するデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
本発明の第2の側面のデータ処理方法は、時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップとを含み、前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成ステップにおいて生成される時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する。
以上のような第2の側面においては、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データが生成され、その時系列データと、外部から観測することができる時系列データである新規時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークが、自己組織的に更新される。
本発明の第3の側面のデータ処理装置、又は、プログラムは、時系列のデータである時系列データに基づき、学習を行うデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムであり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、前記時系列パターン記憶ネットワークの規模を管理する管理手段とを備えるデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
本発明の第3の側面のデータ処理方法は、時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、前記時系列パターン記憶ネットワークの規模を管理する管理ステップとを含む。
以上のような第3の側面においては、時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークの規模が管理されつつ、前記時系列パターン記憶ネットワークが、時系列データを用いて、自己組織的に更新される。
本発明の第1ないし第3の側面によれば、時系列データの教師なし学習を追加的に行う追加学習を適切に行うことができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の第1の側面のデータ処理装置、又は、プログラムは、
時系列のデータである時系列データに基づき、学習を行うデータ処理装置(例えば、図1のデータ処理装置)、又は、データ処理装置として、コンピュータを機能させるプログラムであり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段(例えば、図1の学習部4)と、
前記時系列パターン記憶ネットワークの規模を管理する管理手段(例えば、図1のネットワーク管理部7)と、
前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段(例えば、図1の生成部6)と
を備え、
前記学習手段が、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
データ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
第1の側面のデータ処理装置には、
前記ノードが保持する時系列パターンの学習に用いられる学習データを記憶する学習データ記憶手段(例えば、図3の学習データ記憶部22)をさらに設けることができ、
この場合、
前記学習手段には、
前記学習データ記憶手段に既に記憶されている前記学習データを、前記更新用時系列データを用いて、新たな学習データに更新する学習データ更新手段(例えば、図4の学習データ更新部44)を設け、
前記新たな学習データを用いて、前記ノードが保持する時系列パターンを更新させることができる。
第1の側面のデータ処理装置には、
前記学習手段において前記更新用時系列データとして用いる前記新規時系列データと前記生成時系列データとの比率を調整する調整手段(例えば、図20の調整部81)をさらに設けることができる。
前記学習手段には、前記時系列パターン記憶ネットワークの自己組織的な更新に応じて、前記新規時系列データ又は前記生成時系列データを、前記更新用時系列データとして選択する選択手段(例えば、図4のデータ選択部31)を設けることができる。
本発明の第1の側面のデータ処理方法は、
時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップ(例えば、図7のステップS3ないしS7)と、
前記時系列パターン記憶ネットワークの規模を管理する管理ステップ(例えば、図15のステップS52)と、
前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップ(例えば、図11のステップS33)と
を含み、
前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成ステップにおいて生成される時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する。
本発明の第2の側面のデータ処理装置、又は、プログラムは、
時系列のデータである時系列データに基づき、学習を行うデータ処理装置(例えば、図1のデータ処理装置)、又は、データ処理装置として、コンピュータを機能させるプログラムであり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段(例えば、図1の学習部4)と、
前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段(例えば、図1の生成部6)と
を備え、
前記学習手段が、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
データ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
本発明の第2の側面のデータ処理方法は、
時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップ(例えば、図7のステップS3ないしS7)と、
前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップ(例えば、図11のステップS33)と
を含み、
前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成ステップにおいて生成される時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する。
本発明の第3の側面のデータ処理装置、又は、プログラムは、
時系列のデータである時系列データに基づき、学習を行うデータ処理装置(例えば、図1のデータ処理装置)、又は、データ処理装置として、コンピュータを機能させるプログラムであり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段(例えば、図1の学習部4)と、
前記時系列パターン記憶ネットワークの規模を管理する管理手段(例えば、図1のネットワーク管理部7)と
を備えるデータ処理装置、又は、データ処理装置として、コンピュータを機能させるプログラムである。
本発明の第3の側面のデータ処理方法は、
時系列のデータである時系列データに基づき、学習を行うデータ処理方法であり、
時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップ(例えば、図7のステップS3ないしS7)と、
前記時系列パターン記憶ネットワークの規模を管理する管理ステップ(例えば、図15のステップS52)と
を含む。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。
信号入力部1には、後述する学習処理や認識処理の対象となるデータ(以下、処理対象データという)が入力される。ここで、処理対象データは、例えば、音や画像、LED(Light Emitting Diode)の明るさ、モータの回転角度や回転角速度などの観測値(外部から観測することができる値(信号))である。また、処理対象データは、例えば、図1のデータ処理装置が適用されるシステムの入力を受け付ける入力デバイス(センサ)が出力するデータ(入力データ)であっても良いし、何らかの出力を行う出力デバイスに対して与えられるデータ(出力データ)であっても良い。
すなわち、図1のデータ処理装置が、例えば、2足歩行ロボットその他のロボットに適用され、その2足歩行ロボットが、外部の状況に応じて、何らかの処理を行う場合には、信号入力部1は、外部の状況をセンシングするセンサで構成することができる。具体的には、信号入力部1は、例えば、マイク(マイクロフォン)やカメラなどで構成することができる。
信号入力部1がマイクで構成される場合には、そのマイクに対して、外部で発生する音声(人間の音声の他、動物の鳴き声、物音、その他のあらゆる音を含む)が、2足歩行ロボット(データ処理装置が適用されているシステム)に対する入力データとして入力され、対応する音声データが、特徴抽出部2に供給される。また、信号入力部1がカメラで構成される場合には、そのカメラに対して、外部からの光が、2足歩行ロボットに対する入力データとして入力され、対応する画像データが、特徴抽出部2に供給される。
また、2足歩行ロボットが、例えば、手や足に相当する部分を、アクチュエータとしてのモータによって動かすことができる場合には、信号入力部1は、そのモータの回転角度や回転速度を計測する計測装置(回転角度や回転速度をセンシングするセンサ)で構成することができる。なお、2足歩行ロボットの手や足に相当する部分を動かすモータは、そのモータを回転駆動させる電気信号としての駆動信号を与える他、手や足に相当する部分に外部から力を加えて動かすことによっても回転するが、計測装置では、そのいずれの回転によって生じた回転角度や回転速度であっても計測することができる。
信号入力部1が計測装置で構成される場合には、その計測装置に対して、モータの回転角度や回転速度を表す信号が、2足歩行ロボットからの出力データとして入力されて計測され、その計測結果が、特徴抽出部2に供給される。
なお、信号入力部1に入力される処理対象データは、時間的な変化が一定の定常的なデータ(定常信号)であっても良いし、時間的な変化が一定でない非定常なデータ(非定常信号)であっても良い。
また、以下では、信号入力部1に対しては、例えば、時系列データの1つである音声が入力されるものとする。さらに、信号入力部1から特徴抽出部2に対しては、いわゆる音声区間の音声データだけが供給されるものとする。なお、音声区間の検出方法は、特に限定されるものではない。また、信号入力部1から特徴抽出部2に対して供給される音声データは、必ずしも、音声区間の長さである必要はなく、適切な長さに区切られていればよい。すなわち、信号入力部1から特徴抽出部2に対して供給される音声データは、例えば、音素や音韻の単位であっても良いし、単語や文、ある句読点から次の句読点までであっても良い。
ここで、信号入力部1から特徴抽出部2に対して供給される処理対象データは、音声データに限定されるものではなく、その区間も、特に限定されるものではない。すなわち、信号入力部1から特徴抽出部2に対しては、最も良い方法で適当な長さに区切られた処理対象データが供給されれば良い。なお、信号入力部1から特徴抽出部2に対して供給される処理対象データ(の区間)は、一定であっても良いし、一定でなくても良い。
特徴抽出部2は、信号入力部1からの処理対象データとしての時系列データである音声データから特徴量を抽出し、その結果得られる時系列データである時系列の特徴量を、認識部3と学習部4に供給する。すなわち、特徴抽出部2は、信号入力部1からの音声データに対して一定時間間隔で周波数分析などの処理を施し、例えば、メルケプストラム(MFCC(Mel Frequency Cepstrum Coefficient))などの特徴量を抽出して、そのメルケプストラムの時系列データを、認識部3と学習部4に供給する。なお、特徴抽出部2から認識部3と学習部4に供給される時系列データも、外部から観測することができる観測値である。
認識部3は、記憶部5に記憶された、後述する時系列パターン記憶ネットワークに基づき、特徴抽出部2から供給される時系列データを認識し、その認識結果を出力する。
学習部4は、記憶部5に記憶された時系列パターン記憶ネットワークを、特徴抽出部2から供給される時系列データ(の観測値)、又は、再学習制御部8から供給される時系列データを用いて、自己組織的に更新する、自己組織的な学習を行う。すなわち、学習部4は、特徴抽出部2と再学習制御部8それぞれから供給される時系列データを用いて、記憶部5に記憶された時系列パターン記憶ネットワークのパラメータを更新する。なお、このパラメータの更新のことを学習と呼ぶ場合がある。
ここで、学習部4では、正解ラベルの付与されていない時系列データを繰り返し与えると、その与えられた時系列データの中の特徴的なパターン(時系列パターン)を自己組織的に獲得していく教師なし学習が実行される。その結果、記憶部5の時系列パターン記憶ネットワークには、代表的な時系列パターンが効率的に記憶される。すなわち、特徴抽出部2が認識部3と学習部4に供給する時系列データは、幾つかのパターン(時系列パターン)に分類することができ、学習部4では、時系列パターン記憶ネットワークに、時系列データの代表的な時系列パターンを記憶させるための学習が行われる。
記憶部5は、時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを記憶しており、この時系列パターン記憶ネットワーク(のパラメータ)は、学習部4によって適宜更新される。
生成部6には、外部から、又は、再学習制御部8から、制御データが供給される。生成部6に供給される制御データは、記憶部5の時系列パターン記憶ネットワークが記憶している時系列パターンのうちのいずれかを表すもの(例えば、後述するノードラベル)で、生成部6は、記憶部5の時系列パターン記憶ネットワークに基づき、そこに供給される制御データが表す時系列パターンの時系列データを生成して、外部に出力し、又は、再学習制御部8に供給する。
ネットワーク管理部7は、記憶部5に記憶された時系列パターン記憶ネットワークの規模を管理する。
すなわち、時系列パターン記憶ネットワークは、時系列パターンを保持する複数のノードから構成され、後述するように、ノードどうしは、必要に応じて、リンクと呼ばれる結合関係を有している。
ネットワーク管理部7は、時系列パターン記憶ネットワークを構成するノードの追加と、そのノードの追加に伴うリンクの追加や削除を行うことにより、時系列パターン記憶ネットワークの規模を管理する。
ここで、ネットワーク管理部7による、時系列パターン記憶ネットワークの規模を管理する処理と、学習部4による、時系列パターン記憶ネットワークの自己組織的な学習の処理とが相俟って、時系列パターン記憶ネットワークが既に獲得した時系列パターンの記憶を維持しつつ、時系列パターン記憶ネットワークに新たな時系列パターンを獲得させる追加学習が可能となる。
再学習制御部8は、記憶部5に記憶された時系列パターン記憶ネットワークが既に獲得した時系列パターンの時系列データを用いて、記憶部5に記憶された時系列パターン記憶ネットワークを自己組織的に更新する、自己組織的な学習を、学習部4が行うことを制御する。
すなわち、時系列パターン記憶ネットワークが既に獲得した時系列パターンの時系列データを用いて、その時系列パターン記憶ネットワークを自己組織的に更新する学習を、再学習ということとすると、再学習制御部8は、再学習を制御する。
具体的には、再学習制御部8は、時系列パターン記憶ネットワークが既に獲得した時系列パターンのうちの、いずれの時系列パターンの時系列データを、生成部6に生成させるかを決定し、その時系列パターンを表す制御データを、生成部6に供給することにより、生成部6に、時系列データを生成させる。
さらに、再学習制御部8は、生成部6が生成した時系列データを受け取り、学習部4に供給する。学習部4は、再学習制御部8からの時系列データを用いて、記憶部5に記憶された時系列パターン記憶ネットワークを自己組織的に更新する学習、つまり、再学習を行う。
したがって、学習部4が、時系列パターン記憶ネットワークの自己組織的な更新に用いる時系列データを更新用時系列データというとともに、特徴抽出部2が信号入力部1からの処理対象データから特徴量を抽出して出力する、外部から観測することができる時系列データを、新規時系列データといい、生成部6が生成する時系列データを、生成時系列データということとすると、学習部4は、新規時系列データと、生成時系列データとの両方を、更新用時系列データとして用いて、時系列パターン記憶ネットワークを自己組織的に更新する。
ここで、以上のように、学習部4が、特徴抽出部2からの新規時系列データのみならず、再学習制御部8からの生成時系列データをも、更新用時系列データとして用いて、時系列パターン記憶ネットワークを自己組織的に更新することにより、時系列パターン記憶ネットワークが既に獲得した時系列パターンの記憶を維持しつつ、時系列パターン記憶ネットワークに新たな時系列パターンを獲得させる追加学習が可能となる。
次に、図2は、図1の記憶部5に記憶される時系列パターン記憶ネットワークの例を模式的に示している。
時系列パターン記憶ネットワークは、時系列パターンを表現する時系列パターンモデルを有する複数のノードから構成されるネットワークで、そのネットワーク全体で、ノードの数だけの(クラス分けを行う)時系列パターンを記憶する。
図2においては、時系列パターン記憶ネットワークは、ノードN1乃至N9の9個のノードから構成されている。
時系列パターン記憶ネットワークを構成する各ノードNi(図2では、i=1,2,・・・,9)は、時系列パターンを表現する時系列パターンモデルを有する。また、ノードNiは、他のノードNj(図2では、j=1,2,・・・,9)と結合関係を持つことができる。この結合関係をリンクと呼ぶ。
図2の時系列パターン記憶ネットワークでは、9個のノードN1乃至N9が、2次元平面上に、横×縦が3×3の格子状に配置されるように、リンクが与えられている。
すなわち、図2では、ノードN1は、ノードN2とN4のそれぞれとの間にリンクを有し、ノードN2は、ノードN1の他、ノードN3とN5のそれぞれとの間にリンクを有する。ノードN3は、ノードN2との間にリンクを有する他、ノードN6との間にリンクを有し、ノードN4は、ノードN1との間にリンクを有する他、ノードN5とノードN7のそれぞれとの間にリンクを有する。ノードN5は、ノードN2とN4のそれぞれとの間にリンクを有する他、ノードN6とN8のそれぞれとの間にリンクを有し、ノードN6は、ノードN3とN5のそれぞれとの間にリンクを有する他、ノードN9との間にリンクを有する。ノードN7は、ノードN4との間にリンクを有する他、ノードN8との間にリンクを有する。ノードN8は、ノードN5とN7のそれぞれとの間にリンクを有する他、ノードN9との間にリンクを有し、ノードN9は、上述したように、ノードN6とN8のそれぞれとの間にリンクを有する。
時系列パターン記憶ネットワークでは、リンクによって与えられる空間的なノードの配置構造に基づき、その空間上でのある2つのノードどうしの距離を定義することができ、この2つのノードどうしの距離は、その2つのノードそれぞれが有する時系列パターンモデルが表現する時系列パターンのパターン間距離(時系列パターンどうしの類似性)として用いることができる。
2つのノードどうしの距離としては、例えば、その2つのノードどうしを結ぶ最短のパスを構成するリンクの数を採用することができる。この場合、あるノードを注目ノードとして注目すると、その注目ノードとの直接のリンクを有するノード(図2では、注目ノードの横方向や縦方向に隣接するノード)は、注目ノードとの距離が最も近く、注目ノードとの直接のリンクを有するノードから先のリンクを辿っていくことで到達することができるノードは、到達するのに辿るリンクの数が多いほど、注目ノードとの距離が遠くなっていく。
なお、ノードに与えるリンクは、図2に示したノードに2次元的な配置構造を与えるものに限定されるものではない。また、図2に示したリンクは、ノードに対して、2次元的な配置構造を与えるが、リンクは、その他、1次元的な配置構造や3次元的な配置構造等をノードに与えるリンクであっても良い。
時系列パターン記憶ネットワークの(自己組織的な)学習は、学習部4(図1)において、特徴抽出部2から供給される新規時系列データ(及び、再学習制御部8から供給される生成時系列データ)を、更新用時系列データとして行われるが、この更新用時系列データは、カテゴリの種類や、カテゴリの数が未知のものであり、この点、時系列パターン記憶ネットワークの学習は、教師あり学習と大きく異なる。また、時系列パターン記憶ネットワークの学習に用いられる更新用時系列データには、正解ラベルは付与されていない。このため、時系列パターン記憶ネットワークの学習には、教師あり学習を適用することはできない。
このように、時系列パターン記憶ネットワークの学習には、教師あり学習を適用することができず、また、更新用時系列データは、そのカテゴリの種類も、カテゴリの数も未知である。そこで、時系列パターン記憶ネットワークの学習は、その全体(のノード)によって、更新用時系列データの特徴(時系列パターン)を適切に表現することができるように、自己組織的に行われる。
次に、図3は、時系列パターン記憶ネットワークのノードNiの構成例を模式的に示している。
ノードNiは、時系列パターンを表現する時系列パターンモデル21と、その時系列パターンモデル21の学習に用いる学習データとしての時系列データを記憶する学習データ記憶部22とから構成される。
ここで、図3では、時系列パターンモデル21として、状態遷移確率モデルの1つであるHMM(連続HMM)が採用されている。また、図3では、HMMは、自己ループと次状態(右隣の状態)への状態遷移だけを有するleft-to-right型の3状態S1,S2,S3を有するものとなっている。図3の時系列パターンモデル21における丸印は状態を表し、矢印は状態遷移を表している。なお、時系列パターンモデル21としてのHMMは、left-to-right型や、3状態のもの等に限定されない。
時系列パターンモデル21が、図3に示したようなHMMである場合、その時系列パターンモデル21としてのHMMは、状態遷移確率と出力確率密度関数(HMMが離散HMMである場合には、スカラ量である離散的なシンボルが出力される確率)とで定義される。
状態遷移確率は、HMMにおいて、状態が遷移する確率で、図3の時系列パターンモデル21における矢印で示した状態遷移それぞれに対して与えられる。出力確率密度関数は、状態遷移時に、HMMから観測される値の確率密度を表す。出力確率密度関数としては、例えば、混合正規分布などが採用される。これらのHMMのパラメータ(状態遷移確率と出力確率密度関数)は、例えば、Baum-Welch 法によって学習(推定)することができる。
ノードNiが、確率モデル(のうちの状態遷移確率モデル)であるHMMを、時系列パターンモデル21として有する場合、ノードNiでは、学習データ記憶部22に記憶された学習データとしての時系列データの統計的な特性、すなわち、学習データ記憶部22に記憶された学習データの時系列パターンが、時系列パターンモデル21において学習され、時系列パターンモデル21としてのHMMによって、学習データ記憶部22に記憶された学習データとしての時系列データの統計的な特性が、時系列パターンとして、ノードに保持される。これにより、時系列パターンモデル21と、学習データ記憶部22に記憶された学習データとが、対応関係を持つことになる。
ここで、時系列パターン記憶ネットワークの学習、ひいては、ノードNiの時系列パターンモデル21の学習は、例えば、学習部4に対して、(1区間の)更新用時系列データが供給されるごとに学習を行うオンライン学習によって行われる。したがって、時系列パターン記憶ネットワークのパラメータ、つまり、ノードNiの時系列パターンモデル21のパラメータ(時系列パターンモデル21がHMMである場合には、上述したように、状態遷移確率と出力確率密度関数)は、(1区間)の更新用時系列データが学習部4に供給されるたびに、少しずつ更新される。
すなわち、後述するように、時系列パターン記憶ネットワークの学習が進むにつれ、学習データ記憶部22に記憶される学習データは、学習部4に供給される新たな更新用時系列データによって更新され、これにより、少しずつ変化する。そして、その少しずつ変化する学習データによって、時系列パターンモデル21の学習が行われることにより、時系列パターンモデル21のパラメータも、少しずつ変化していく。
なお、ここでは、HMMを、時系列パターンモデル21として採用したが、HMM以外の確率モデルを、時系列パターンモデル21として採用することが可能である。
また、時系列パターンモデル21としては、確率モデルの他、時系列パターンを獲得することができるその他のモデル、すなわち、例えば、時系列データの力学特性等のダイナミクスを獲得することができるRNN(Rrecurrent Neural Network)等の力学モデルを採用することができる。

ここで、RNNは、回帰ループで結合されるコンテキストユニットを持ち、そのコンテキストユニットに内部状態を保持することによって、理論的には、任意の力学系の近似が可能なニューラルネットワークである。かかるRNNによれば、時系列データから、その力学特性としてのダイナミクスを学習することができる。
なお、時系列データを用いたRNNの学習では、時系列データの予測誤差を小さくするように、RNNのパラメータ(重み等)の更新が行われる。また、RNNの学習の方法としては、例えば、BPTT(Back-Propagation Through Time)法がある。
時系列パターンモデル21として、RNNを採用した場合には、時系列パターン記憶ネットワークでは、時系列パターンモデル21としてのRNNによって、学習データとしての時系列データの力学的な特性が、時系列パターンとして、ノードに保持される。
次に、図4は、図1の学習部4の構成例を示している。
学習部4は、データ選択部31と学習処理部32とから構成される。
データ選択部31には、特徴抽出部2(図1)から、(1区間の)新規時系列データとしての特徴量の系列が供給される。また、データ選択部31には、再学習制御部8(図1)から、生成時系列データ、すなわち、再学習制御部8が、生成部6を制御することにより、記憶部5に記憶された時系列パターン記憶ネットワークに基づいて生成させた時系列データが供給される。
データ選択部31は、特徴抽出部2からの新規時系列データ、又は、再学習制御部8からの生成時系列データのうちの一方を、更新用時系列データとして選択し、学習処理部32に供給する。
すなわち、データ選択部31は、例えば、再学習制御部8から、生成時系列データが供給された場合、特徴抽出部2からの新規時系列データの供給の有無に関係なく、再学習制御部8からの生成時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
また、データ選択部31は、再学習制御部8から、生成時系列データが供給されていない場合において、特徴抽出部2から、新規時系列データが供給されたときには、その特徴抽出部2からの新規時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
学習処理部32は、スコア計算部41、勝者ノード決定部42、重み決定部43、学習データ更新部44、及びモデル学習部45から構成され、記憶部5に記憶された時系列パターン記憶ネットワークを、データ選択部31からの更新用時系列データを用いて、自己組織的に更新する。
すなわち、スコア計算部41は、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノードについて、そのノードが、データ選択部31からの更新用時系列データに適合する度合いを表すスコアを求め、勝者ノード決定部42に供給する。
具体的には、例えば、ノードが有する時系列パターンモデル21が、HMMである場合には、スコア計算部41は、ノードが有する時系列パターンモデル21としてのHMMから、データ選択部31からの更新用時系列データが観測される対数尤度を、ビタビアルゴリズム(Viterbi Algorithm)にしたがって求め、そのノードのスコアとして、勝者ノード決定部42に供給する。
勝者ノード決定部42は、記憶部5に記憶された時系列パターン記憶ネットワークにおいて、データ選択部31からの更新用時系列データに最も適合するノードを求め、そのノードを、勝者ノードとして決定する。
すなわち、勝者ノード決定部42は、記憶部5に記憶された時系列パターン記憶ネットワークを構成するノードのうちの、スコア計算部41からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部42は、勝者ノードを表す情報を、重み決定部43に供給する。
ここで、時系列パターン記憶ネットワークを構成するノードには、各ノードを識別するためのラベルであるノードラベルを付しておき、勝者ノードを表す情報、その他のノード表す情報としては、そのノードラベルを採用することができる。なお、ノードラベルは、ノード自体を識別するラベルであり、正解が何であるかを表す正解ラベルとは、何ら関係がない。
重み決定部43は、勝者ノード決定部42から供給されるノードラベルが表す勝者ノードに基づき、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノードについて、後述する更新重みを決定し、学習データ更新部44に供給する。
すなわち、重み決定部43は、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノード(勝者ノードを含む)の更新重みを、そのノードと、勝者ノードとの距離(パターン間距離)に基づいて決定し、学習データ更新部44に供給する。
ここで、ノードが有する時系列パターンモデル21(図3)は、データ選択部31からの更新用時系列データを用いて更新されるが、ノードの更新重みとは、そのノードが有する時系列パターンモデル21の更新によって、その時系列パターンモデル21が受ける更新用時系列データの影響の度合いを表す。したがって、ノードの更新重みが0であれば、そのノードが有する時系列パターンモデル21は、更新用時系列データの影響を受けない(更新されない)。
学習データ更新部44は、記憶部5に記憶された時系列パターン記憶ネットワークの各ノードが有する学習データ記憶部22(図3)に記憶された学習データを更新する。
すなわち、学習データ更新部44は、ノードが有する学習データ記憶部22に既に記憶されている学習データと、データ選択部31からの更新用時系列データとを、重み決定部43からの、対応するノードの更新重みにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部22に記憶させることで、その学習データ記憶部22の記憶内容を更新する。
学習データ更新部44は、以上のように、学習データ記憶部22(図3)に記憶された学習データを、更新重みにしたがって更新すると、その更新が終了した旨の終了通知を、モデル学習部45に供給する。
モデル学習部45は、学習データ更新部44から終了通知を受けると、その学習データ更新部44による更新後の学習データ記憶部22(図3)に記憶された学習データを用いて、時系列パターンに記憶ネットワークの各ノードが有する時系列パターンモデル21の学習を行うことにより、その時系列パターンモデル21を更新する。
したがって、モデル学習部45による、ノードが有する時系列パターンモデル21の更新は、そのノードが有する学習データ記憶部22(図3)に記憶されていた学習データ(の一部)と、データ選択部31からの更新用時系列データとを用いて行われる。
次に、図5は、図4の重み決定部43において更新重みを決定する決定方法を示している。
重み決定部43は、例えば、図5に示すような、勝者ノードとのパターン間距離dの増加に対して更新重みαが減少する関係を表す曲線(以下、距離/重み曲線という)にしたがって、ノードに対する更新重み(ノードの更新重み)αを決定する。距離/重み曲線によれば、勝者ノードとのパターン間距離dが近いノードほど、大きな更新重みαが決定され、パターン間距離dが遠いノードほど、小さな更新重みαが決定される。
図5の距離/重み曲線において、横軸(左から右方向)は、更新重みαを示しており、縦軸(上から下方向)は、パターン間距離dを示している。
パターン間距離dは、上述したように、勝者ノードからの距離、すなわち、勝者ノードに辿り着くまでのリンクの数であり、図5では、縦軸に沿って、時系列パターン記憶ネットワークを構成する6つのノードN1乃至N6が、各ノードNiと勝者ノードとの距離に対応する位置(縦軸の位置)に示されている。
すなわち、図5では、時系列パターン記憶ネットワークを構成する6つのノードN1乃至N6が、その順で、勝者ノードとの距離が近くなっている。時系列パターン記憶ネットワークを構成する6つのノードN1乃至N6のうち、勝者ノードとの距離が最も近いノード、すなわち、勝者ノードとの距離が0のノードであるノードN1は、勝者ノード(となっているノード)である。
ここで、時系列パターン記憶ネットワークが、例えば、図2に示したような2次元的な配置構造を有し、勝者ノードが、例えば、ノードN6であった場合には、勝者ノードN6とノードN6との距離は最も(1番)近い0であり、ノードN6と勝者ノードN6とのパターン間距離dも0となる。また、勝者ノードN6と、ノードN3,N5、またはN9それぞれとの距離は2番目に近い1であり、ノードN3,N5、またはN9それぞれと勝者ノードN6とのパターン間距離dも1となる。さらに、勝者ノードN6と、ノードN2,N4、またはN8それぞれとの距離は3番目に近い2であり、ノードN2,N4、またはN8それぞれと勝者ノードN6とのパターン間距離dも2となる。また、勝者ノードN6と、ノードN1またはN7それぞれとの距離は最も遠い(4番目に近い)3であり、ノードN1またはN7それぞれと勝者ノードN6とのパターン間距離dも3となる。
なお、以上のような、時系列パターン記憶ネットワークの各ノードと勝者ノードとのパターン間距離dや、更新重みαの与え方は、従来のSOMで利用されている距離の与え方と同様の方法である。
但し、従来のSOMで利用されている距離/重み曲線については、パターン間距離dの変化に対する更新重みαの変化が、学習の進行とともに、緩やかなものから、急峻なものになっていくが、重み決定部43が更新重みαの決定に利用する距離/重み曲線については、パターン間距離dの変化に対する更新重みαの変化が、学習の進行に関係なく一定である点で、重み決定部43での更新重みαの決定の方法は、従来のSOMと異なる。
すなわち、更新重みαとパターン間距離dとの関係を表す、図5に示したような距離/重み曲線は、例えば、式(1)によって与えられる。
α=G×γd/△
・・・(1)
ここで、式(1)において、係数Gは、勝者ノードの更新重みを表す定数であり、係数γは、0<γ<1の範囲の定数である。また、係数Δは、近傍学習において、学習に用いられる新たなデータ(例えば、データ選択部31から学習処理部32に供給される更新用時系列データ)を影響させるノードの範囲を調整する係数(以下、適宜、減衰係数という)である。
式(1)における減衰係数Δが大きな値である場合には、パターン間距離dの変化に対する更新重みαの変化は緩やかになり、新たなデータの影響を受けるノードの範囲は大になる。逆に、減衰係数Δが0に近い値である場合には、パターン間距離dの変化に対する更新重みαの変化は急峻になり、新たなデータの影響を受けるノードの範囲は小になる。
従来のSOMでは、減衰係数Δが、学習の進行に伴って、例えば、1から少しずつ0に近づけていくように調整され、その結果、新たなデータの影響を受けるノードの範囲が、学習の進行に伴って、広い範囲から狭い範囲になっていき、最終的には、新たなデータの影響を受けるノードが、例えば、勝者ノードのみとなる。
これに対して、重み決定部43では、式(1)の減衰係数△として、所定の定数が採用され、その結果、新たなデータの影響を受けるノードの範囲(勝者ノードを中心とする範囲)が、学習の進行に関係のない、常に固定の狭い範囲となる。
重み決定部43は、定数の減衰係数△が採用された式(1)に従って、時系列パターン記憶ネットワークの各ノードの更新重みαを決定し、学習データ更新部44(図4)では、各ノードが有する学習データ記憶部22(図3)に記憶される学習データが、そのノードの更新重みαに基づいて更新される。
次に、図6を参照して、図3のノードが有する学習データ記憶部22に記憶される学習データを更新する更新方法について説明する。
いま、あるノードNiが有する学習データ記憶部22には、学習データが既に記憶されており、ノードNiの時系列パターンモデル21は、学習データ記憶部22に既に記憶されている学習データを用いて学習が行われたものであるとする。
学習データ更新部44(図4)は、上述したように、ノードNiが有する学習データ記憶部22に既に記憶されている学習データ(以下、適宜、旧学習データという)と、データ選択部31(図4)から供給される更新用時系列データとを、重み決定部43からのノードNiの更新重みαにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部22に記憶させることで、その学習データ記憶部22の記憶内容を、新たな学習データに更新する。
すなわち、学習データ更新部44は、旧学習データに対して、更新用時系列データである新たな時系列データを追加することで、旧学習データと新たな時系列データとを混合した新たな学習データとするが、旧学習データに対する新たな時系列データの追加(旧学習データと新たな時系列データとの混合)は、ノードNiの更新重みαに対応する比にしたがって行われる。
ここで、新たな時系列データと旧学習データとを、1:0の比率で混合すると、その混合によって得られる新たな学習データは、新たな時系列データだけとなる。逆に、新たな時系列データと旧学習データとを、0:1の比率で混合すると、その混合によって得られる新たな学習データは、旧学習データだけとなる。ノードNiの時系列パターンモデル21(図3)の更新は、新たな学習データを用いた学習によって行われるため、新たな時系列データと旧学習データとを混合する比率を変えることによって、更新により時系列パターンモデル21が受ける新たな時系列データの影響の度合い(強さ)を変えることができる。
ノードNiにおいて、新たな時系列データと旧学習データとを混合する比率としては、ノードNiの更新重みαに対応した値が採用され、例えば、更新重みαが大であるほど、新たな時系列データの比率が大となる(旧学習データの比率が小となる)ような値とされる。
具体的には、ノードNiの学習データ記憶部22には、一定の数の時系列データ(学習データ)が記憶されるものとし、その一定の数をHとする。この場合、ノードNiの時系列パターンモデル21の学習は、常に、H個の学習データ(時系列データ)を用いて行われる。
学習データ記憶部22に、常に、一定の数Hの学習データが記憶される場合、新たな時系列データと旧学習データとの混合によって得られる新たな学習データの個数は、H個である必要があり、そのような、新たな時系列データと旧学習データとの混合を、ノードNiの更新重みαに対応した比率で行う方法としては、新たな時系列データと旧学習データとを、比率α:H-αで混合する方法がある。
新たな時系列データと旧学習データとを、比率α:H-αで混合する具体的な方法としては、図6に示すように、H個の旧学習データのうちのH-α個の旧学習データに対して、α個の新たな時系列データを追加することにより、H個の新たな学習データを得る方法がある。
この場合、学習データ記憶部22に記憶される時系列データの数Hが、例えば、100であり、ノードNiの更新重みαが、例えば、8であれば、学習データ記憶部22の記憶内容は、100個の旧学習データのうちの92個の旧学習データに対して、8個の新たな時系列データを追加することによって得られる100個の新たな学習データに更新される。
H個の旧学習データのうちのH-α個の旧学習データに対する、α個の新たな時系列データの追加は、α個の新たな時系列データが得られるのを待って行う方法があるが、この方法では、1個の新たな時系列データが得られるごとに、学習データ記憶部22の記憶内容を更新することができない。
そこで、学習データ記憶部22の記憶内容の更新は、1個の新たな時系列データが得られるごとに、その新たな時系列データをα個だけ、H-α個の旧学習データに追加することにより行うことができる。すなわち、1個の新たな時系列データをコピーしてα個の新たな時系列データとし、そのα個の新たな時系列データを、H個の旧学習データから古い順にα個を除外して残ったH-α個の旧学習データに追加することにより、学習データ記憶部22の記憶内容の更新を行う。これにより、1個の新たな時系列データが得られるごとに、学習データ記憶部22の記憶内容を更新することができる。
以上のように、学習データ記憶部22の記憶内容の更新を行うことにより、学習データ記憶部22には、常に、新しい順のH個の時系列データだけが、学習データとして保持されることになり、その学習データに占める新たな時系列データの割合(比率)は、更新重みαによって調整されることになる。
次に、図7のフローチャートを参照して、図1のデータ処理装置で行われる、時系列パターン記憶ネットワークを学習する学習処理について説明する。
まず最初に、ステップS1において、学習部4(図4)の学習処理部32におけるモデル学習部45は、記憶部5に記憶された時系列パターン記憶ネットワークのパラメータ、すなわち、時系列パターン記憶ネットワークの各ノードが有する時系列パターンモデル21(図3)としての、例えば、HMMのパラメータを初期化する初期化処理を行う。この初期化処理により、HMMのパラメータ(状態遷移確率と出力確率密度関数)として、適切な初期値が与えられる。
その後、ステップS2において、1個の処理対象データ、すなわち、例えば、1の音声区間の音声データが、信号入力部1に入力されると、信号入力部1は、その処理対象データを、特徴抽出部2に供給する。特徴抽出部2は、処理対象データから特徴量を抽出し、その特徴量の時系列データを、1個の新規時系列データとして、学習部4に供給する。
学習部4(図4)では、データ選択部31が、特徴抽出部2から供給される新規時系列データ、又は、再学習制御部8(図1)から供給される生成時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
学習処理部32では、ステップS3乃至S7において、記憶部5に記憶された時系列パターン記憶ネットワークを、データ選択部31からの更新用時系列データ(の観測値)を用いて、自己組織的に更新する自己組織的な学習が行われる。
すなわち、学習処理部32(図4)では、ステップS3において、スコア計算部41が、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノードについて、そのノードが、データ選択部31からの更新用時系列データに適合する度合いを表すスコアを求める。
具体的には、ノードが有する時系列パターンモデル21(図3)が、例えばHMMである場合には、そのHMMから、新たな時系列データが観測される対数尤度が、例えば、ビタビアルゴリズムに従い、スコアとして求められる。
スコア計算部41は、時系列パターン記憶ネットワークが有するすべてのノードについて、更新用時系列データに対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部42に供給する。
ステップS3の後、処理は、ステップS4に進み、勝者ノード決定部42は、時系列パターン記憶ネットワークを構成するノードのうちの、スコア計算部41からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部42は、勝者ノードを表す情報としてのノードラベルを、重み決定部43に供給して、処理は、ステップS4からステップS5に進む。
ステップS5では、重み決定部43は、勝者ノード決定部42からのノードラベルが表す勝者ノードを、いわば基準として、時系列パターン記憶ネットワークを構成する各ノードの更新重みαを決定し、学習データ更新部44に供給して、処理は、ステップS6に進む。
すなわち、重み決定部43は、例えば、式(1)で表される距離/重み曲線に従って、時系列パターン記憶ネットワークの各ノードの更新重みαを決定し、学習データ更新部44に供給する。
ここで、時系列パターン記憶ネットワークのノードにおいて、更新用時系列データの影響を受ける、勝者ノードを中心とする固定の範囲(以下、適宜、固定影響範囲という)のノードの更新重みαとしては、0より大の値が決定され、時系列パターン記憶ネットワークのノードにおいて、固定影響範囲のノード以外のノードの更新重みαとしては、0が決定される。
ステップS6では、学習データ更新部44は、時系列パターン記憶ネットワークの各ノードが有する学習データ記憶部22(図3)に記憶された学習データを、重み決定部43からの、対応するノードの更新重みαにしたがって更新する。
すなわち、学習データ更新部44は、図6で説明したように、データ選択部31からの更新用時系列データ(新たな時系列データ)と、ノードの学習データ記憶部22に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データによって、学習データ記憶部22の記憶内容を更新する。
なお、時系列パターン記憶ネットワークのノードにおいて、更新重みαが0のノードについては、学習データ記憶部22の記憶内容を更新しても、その記憶内容は変わらないので、ステップS6の処理は行う必要がなく、スキップすることができる。
学習データ更新部44が、時系列パターン記憶ネットワークのノードの学習データ記憶部22(図3)の記憶内容を更新すると、処理は、ステップS6からステップS7に進む。
ステップS7では、モデル学習部45は、時系列パターン記憶ネットワークのパラメータを更新する。
すなわち、モデル学習部45は、時系列パターン記憶ネットワークの各ノードについて、学習データ更新部44による更新後の学習データ記憶部22に記憶された新たな学習データを用いて、時系列パターンモデル21の学習を行うことにより、その時系列パターンモデル21(が表現する時系列パターン)を更新する。
具体的には、ノードが有する時系列パターンモデル21が、例えばHMMである場合には、そのノードが有する学習データ記憶部22に記憶された新たな学習データを用いて、HMMの学習が行われる。この学習では、例えば、HMMの現在の状態遷移確率と出力確率密度関数を初期値とし、新たな学習データを用いて、Baum-Welch法により、新たな状態遷移確率と出力確率密度関数がそれぞれ求められる。そして、その新たな状態遷移確率と出力確率密度関数によって、HMMの状態遷移確率と出力確率密度関数がそれぞれ更新される。
その後は、ステップS7からステップS2に戻り、以下、同様の処理が繰り返される。
なお、時系列パターン記憶ネットワークのノードにおいて、更新重みαが0のノードについては、上述したように、学習データ記憶部22の記憶内容が変わらないので、ステップS7において、学習データ記憶部22に記憶された学習データを用いて、時系列パターンモデル21の学習を行っても、その時系列パターンモデル21のパラメータは変化しない。
したがって、時系列パターン記憶ネットワークのノードにおいて、更新重みαが0のノードについては、ステップS7の処理は行う必要がなく、スキップすることができる。
図7の学習処理によれば、1個の新たな時系列データが得られると、その新たな時系列データに対して、時系列パターン記憶ネットワークを構成するノードの中から、勝者ノードが決定される(ステップS4)。さらに、その勝者ノードを基準として、時系列パターン記憶ネットワークを構成する各ノードの更新重みαが決定される(ステップS5)。そして、その更新重みαに基づいて、時系列パターン記憶ネットワークを構成するノードが有する時系列パターンモデル21(図3)のパラメータが更新される。
すなわち、図7の学習処理では、1個の新たな時系列データに対して、時系列パターン記憶ネットワークを構成するノードのパラメータの更新が1回行われ、以下、同様に、新たな時系列データが得られるたびに、ノードのパラメータの更新が繰り返されることにより、自己組織的に学習が行われる。
かかる自己組織的な学習によれば、時系列パターン記憶ネットワークの各ノードが有する時系列パターンモデル21は、ある時系列パターンを獲得する。時系列パターン記憶ネットワーク全体において学習される時系列パターンの数(種類)は、時系列パターン記憶ネットワークが有するノードの数と一致し、時系列パターン記憶ネットワークが有するノードの数が、例えば100である場合は、100種類の時系列パターンが学習されることになる。この時系列パターンに基づき、認識部3(図1)では、時系列データ(処理対象データ)を認識する認識処理を行うことが可能となり、生成部6(図1)では、時系列データを生成する生成処理を行うことが可能となる。
なお、図7の学習処理では、データ選択部31からの更新用時系列データと、ノードの学習データ記憶部22に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データを用いて、ノード(が有する時系列パターンモデル21)の学習を行うことにより、そのノード(が有する時系列パターンモデル21)のパラメータを更新するようにしたが、ノードのパラメータの更新の方法は、ここで説明した方法以外にも、更新重みαに応じて、更新用時系列データを、ノードのパラメータに反映させる方法であればどのような方法を用いても良い。
重要なのは、更新用時系列データが与えられるたびに、ノードのパラメータを少しずつ更新(修正)することと、その際に、ノードの更新重みαに応じて、更新用時系列データがノードのパラメータ(ひいては、ノードが保持する時系列パターン)に与える影響の強さを調整することである。
ここで、上述の場合には、更新用時系列データと旧学習データとを、更新重みαに応じて混合して、新たな学習データを得た後、時系列パターンモデル21としてのHMMの現在のパラメータ(状態遷移確率と出力確率密度関数)を初期値として、新たな学習データを用いて、HMMの学習をやり直すことにより、時系列パターンモデル21としてのHMMのパラメータを更新することで、更新用時系列データの影響を更新重みαに応じて与えたHMMのパラメータを求めることとしたが、更新用時系列データの影響を更新重みαに応じて与えたHMMのパラメータを求める方法としては、その他、例えば、更新用時系列データを、更新重みαに応じた重みで用いて、HMMのパラメータを更新する方法を採用することができる。
更新用時系列データを、更新重みαに応じた重みで用いて、HMMのパラメータを更新する方法については、例えば、K. Minamino, K. Aoyama, and H. Shimomura, 「Voice Imitation based on self-organizing maps with HMMs」, Proceedings of workshop on Intelligence Dynamics, Humanoids 2005, pp.24-29に記載されており、この方法によれば、HMMの学習を最初からやり直さずに済む。
次に、図8は、図1の認識部3の構成例を示している。
認識部3には、図1で説明したように、特徴抽出部2から、(1個の)時系列データが供給され、この時系列データは、スコア計算部51に供給される。
スコア計算部51は、学習処理部32(図4)のスコア計算部41と同様に、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノードについて、そのノードが、特徴抽出部2からの時系列データ(の観測値)に適合する度合いを表すスコアを求め、勝者ノード決定部52に供給する。すなわち、ノードが有する時系列パターンモデル21が、例えば、図3に示したようにHMMである場合には、スコア計算部51は、ノードが有する時系列パターンモデル21としてのHMMから、特徴抽出部2からの時系列データが観測される対数尤度を求め、そのノードのスコアとして、勝者ノード決定部52に供給する。
勝者ノード決定部52は、学習処理部32(図4)の勝者ノード決定部42と同様に、記憶部5に記憶された時系列パターン記憶ネットワークにおいて、特徴抽出部2からの時系列データに最も適合するノードを求め、そのノードを、勝者ノードとして決定する。
すなわち、勝者ノード決定部52は、記憶部5に記憶された時系列パターン記憶ネットワークを構成するノードのうちの、スコア計算部51からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部52は、勝者ノードを表す情報としてのノードラベルを、出力部53に供給する。
出力部53は、勝者ノード決定部52からの勝者ノードを表すノードラベルを、特徴抽出部2からの特徴量の時系列データ、ひいては、その特徴量に対応する、信号入力部1に入力された処理対象データの認識結果として出力する。
なお、認識部3のスコア計算部51と、学習処理部32(図4)のスコア計算部41とは、いずれか一方のスコア計算部で兼用することが可能である。認識部3の勝者ノード決定部52と、学習処理部32(図4)の勝者ノード決定部42についても、同様である。
次に、図9のフローチャートを参照して、図1のデータ処理装置で行われる、時系列データを認識する認識処理について説明する。
ステップS21において、1個の処理対象データ、すなわち、例えば、1の音声区間の音声データ(時系列データ)が、信号入力部1に入力されると、信号入力部1は、その処理対象データを、特徴抽出部2に供給する。特徴抽出部2は、処理対象データである時系列データから特徴量を抽出し、その特徴量の時系列データを、認識部3に供給する。
認識部3(図8)では、ステップS22において、スコア計算部51が、記憶部5に記憶された時系列パターン記憶ネットワークを構成する各ノードについて、そのノードが、特徴抽出部2からの時系列データに適合する度合いを表すスコアを求める。
具体的には、ノードが有する時系列パターンモデル21(図3)が、例えばHMMである場合には、そのHMMから、特徴抽出部2からの時系列データが観測される対数尤度が求められる。スコア計算部51は、時系列パターン記憶ネットワークが有するすべてのノードについて、特徴抽出部2からの時系列データに対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部52に供給する。
ステップS22の後、処理は、ステップS23に進み、勝者ノード決定部52は、時系列パターン記憶ネットワークを構成するノードのうちの、スコア計算部51からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部52は、勝者ノードを表す情報としてのノードラベルを、出力部53に供給して、処理は、ステップS23からステップS24に進む。
ステップS24では、出力部53は、勝者ノード決定部52からのノードラベルを、特徴抽出部2からの時系列データ(信号入力部1に入力された処理対象データ)の認識結果として出力し、処理を終了する。
なお、出力部53が出力するノードラベル(勝者ノードのノードラベル)は、例えば、制御データとして、生成部6に供給することができる。
以上のような、時系列パターン記憶ネットワークを用いた認識処理によれば、その時系列パターン記憶ネットワークのノードの数に応じた細かさの認識結果を得ることができる。
すなわち、時系列パターン記憶ネットワークの学習(図7)では、時系列パターン記憶ネットワークが有するノードの数に応じた細かさで時系列パターンが獲得されるので、時系列パターン記憶ネットワークを用いた認識では、時系列パターン記憶ネットワークが有するノードの数に応じた細かさで、時系列データを分類(カテゴリ分け)(クラス分け)することができる。
なお、学習が行われた時系列パターン記憶ネットワークの各ノードに対し、そのノードが獲得した時系列パターンに応じて、必要なカテゴリの正解ラベルを適切に付与すれば、時系列パターン記憶ネットワークを用いた認識処理において、時系列データ(処理対象データ)が、いずれのカテゴリの音声データ等であるかの認識結果を得ることができる。
次に、図10は、図1の生成部6の構成例を示している。
生成部6には、図1で説明したように、外部から、又は再学習制御部8から、制御データが供給される。生成部6に供給される制御データは、記憶部5の時系列パターン記憶ネットワークが記憶している時系列パターン、ひいては、時系列パターン記憶ネットワークを構成するノードのうちのいずれかを表すもので、例えば、ノードラベルである。
生成部6に供給された制御データは、生成ノード決定部61に供給される。生成ノード決定部61は、記憶部5に記憶された時系列パターン記憶ネットワークにおいて、そこに供給される制御データが表すノードを、時系列データを生成するのに用いるノード(以下、適宜、生成ノードという)として決定し、その決定結果を、時系列生成部62に供給する。
時系列生成部62は、生成ノード決定部61からの決定結果にしたがい、生成ノードに基づいて、時系列データを生成し、出力部63、又は、再学習制御部8(図1)に供給する。
ここで、ノードが有する時系列パターンモデル21が、例えば、HMMである場合には、時系列生成部62は、生成ノードが有する時系列パターンモデル21としてのHMMにおいて時系列データが観測される尤度を表す出力確率を最大にする時系列データを生成する。ここで、HMMを用いた時系列データの生成については、動的特徴量を利用することで滑らかに変化する時系列データを生成する方法があり、時系列生成部62では、その方法によって、時系列データを生成することができる。このような時系列データの生成方法は、例えば、K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura, "SPEECH PARAMETER GENERATION ALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS", Proc. of ICASSP 2000, vol.3, pp.1315-1318, June 2000に記載されている。
なお、ノードに基づいて、時系列データを生成する生成方法は、上述した方法に限定されるものではなく、ノードが獲得した時系列パターンの時系列データを生成することができる方法であれば、どのような方法であっても良い。
すなわち、本実施の形態では、ノード(図3)は、学習データ記憶部22に、そのノードが獲得した時系列パターンのH個の時系列データを、学習データとして記憶しているが、時系列データの生成方法としては、そのH個の時系列データのうちの、例えば、時間的に最も古い時系列データなどの1個の時系列データを選択して出力する方法等を採用することができる。
ここで、時系列生成部62が、ノードに基づいて生成した時系列データを、以下、適宜、生成時系列データという。
出力部63は、時系列生成部62からの生成時系列データを、処理対象データに相当する時系列データに変換して出力する。すなわち、時系列生成部62において生成される時系列データは、ノードが有する時系列パターンモデル21の学習に用いられた特徴量の時系列データであり、出力部63は、その特徴量の時系列データを、処理対象データ(の時系列データ)に変換して出力する。
具体的には、例えば、処理対象データが音声データであり、特徴抽出部2が、音声データからメルケプストラムを特徴量として抽出し、また、時系列パターンモデル21がHMMであるとする。この場合、メルケプストラムの時系列データが、時系列パターンモデル21によって学習されるので、時系列生成部62が生成ノードの時系列パターンモデル21(図3)に基づいて生成する時系列データは、メルケプストラムの時系列データとなる。出力部63は、時系列生成部62において生成されるメルケプストラム(の時系列データ)を、処理対象データに相当する時系列データである音声データに変換する。
なお、メルケプストラムの時系列データを音声データ(時領域の音声)に変換する方法としては、例えば、MLSAフィルタ(メル対数スペクトル近似フィルタ)と呼ばれる合成フィルタによって、メルケプストラムの時系列データをフィルタリングする方法がある。MLSAフィルタの詳細については、例えば、今井聖、住田一男、古市千恵子、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌(A)、J66-A, 2, pp.122-129, 1983や、徳田恵一、小林隆夫、斉藤博徳、深田俊明、今井聖、「メルケプストラムをパラメータとする音声のスペクトル推定」、電子情報通信学会論文誌(A)、J74-A, 8, pp.1240-1248, 1991に記載されている。
次に、図11のフローチャートを参照して、図1のデータ処理装置で行われる、時系列データ(処理対象データ)を生成する生成処理について説明する。
ステップS31では、制御データが、外部から、又は、再学習制御部8(図1)から、生成部6に入力される。この制御データは、生成ノード決定部61に供給される。
生成ノード決定部61は、ステップS32において、記憶部5に記憶された時系列パターン記憶ネットワークを構成するノードのうちの、制御データとしてのノードラベルが表すノードを、生成ノードとして決定し、その決定結果を、時系列生成部62に供給して、処理は、ステップS33に進む。
ステップS33では、時系列生成部62は、生成ノード決定部61からの決定結果にしたがい、記憶部5に記憶された時系列パターン記憶ネットワークを構成するノードのうちの生成ノードに基づいて、生成時系列データを生成して、ステップS34に進む。
ステップS34では、時系列生成部62は、生成時系列データを、出力部63、又は、再学習制御部8(図1)に供給して、処理は終了する。
すなわち、ステップS31で入力された制御データが、再学習制御部8から入力された制御データである場合には、時系列生成部62は、生成時系列データを、再学習制御部8に供給する。
また、ステップS31で入力された制御データが、外部から入力された制御データである場合には、時系列生成部62は、生成時系列データを、出力部63に供給する。この場合、出力部63は、時系列生成部62からの生成時系列データを、処理対象データに相当する時系列データに変換して出力する。
時系列パターン記憶ネットワークを用いた生成処理によれば、その時系列パターン記憶ネットワークのノードの数に応じた(時系列パターンの)時系列データを生成することができる。
以上のように、時系列パターンモデル21を有する複数のノードから構成される時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新することにより、長さが一定の時系列データは勿論、長さが一定でない時系列データの教師なし学習、つまり、時系列データの、いわば自律的な学習を、容易に(実用的に)行うことができる。
そして、かかる時系列パターン記憶ネットワークの学習によれば、各ノードに、時系列データの統計的な特性や力学的な特性を表す時系列パターンが記憶されるので、その時系列パターンを用いて、時系列データの認識や生成を、容易に行うことができる。さらに、時系列パターン記憶ネットワークによれば、時系列データの分類や解析などを行うことが可能となる。
なお、学習処理、認識処理、生成処理は、例えば、音声データ、画像データ、モータを駆動する信号、その他の任意の時系列データを対象として行うことができる。具体的には、例えば、図1のデータ処理装置を自律型のロボットなどの自律システムに適用し、そのロボットの視覚や、聴覚、触覚に相当するセンサが出力する信号や、ロボットの手や足に相当する部分を駆動するアクチュエータを制御する信号、合成音を生成する装置や目に相当するLEDに対して与える信号等を、学習処理、認識処理、生成処理の対象とする時系列データとして採用することができる。
次に、図12は、図1のネットワーク管理部7の構成例を示している。
ネットワーク管理部7は、拡大判定部71と拡大制御部72とから構成され、記憶部5に記憶された時系列パターン記憶ネットワークの自己組織的な更新(学習)に応じて、時系列パターン記憶ネットワークの規模を拡大する。
すなわち、拡大判定部71は、記憶部5に記憶された時系列パターン記憶ネットワークの自己組織的な更新の状態、すなわち、例えば、時系列パターン記憶ネットワークの学習が行われた回数(学習回数)や、時系列パターン記憶ネットワークの学習が開始されてから経過した時間(学習時間)に応じて、時系列パターン記憶ネットワークの規模を拡大するかどうかを判定し、その判定結果を、拡大制御部72に供給する。
拡大制御部72は、拡大判定部71において、時系列パターン記憶ネットワークの規模を拡大すると判定された場合、記憶部5に記憶された時系列パターン記憶ネットワークのノードを増加させ、必要に応じて、リンクの削除や追加を行うネットワーク拡大処理を行う。
したがって、ネットワーク拡大処理は、学習回数がある回数となった場合や、学習時間がある時間となった場合に行われる。
図13を参照して、図12の拡大制御部72によるネットワーク拡大処理について、さらに説明する。
なお、ここでは、説明を簡単にするために、時系列パターン記憶ネットワークには、ノードを格子状に配置するリンクが与えられることとする。
図13左から1番目は、時系列パターン記憶ネットワークの初期状態を示している。
また、図13左から2番目は、図13左から1番目の時系列パターン記憶ネットワークに対してネットワーク拡大処理を施すことにより得られる時系列パターン記憶ネットワークを示しており、図13左から3番目(右から1番目)は、図13左から2番目の時系列パターン記憶ネットワークに対してネットワーク拡大処理を施すことにより得られる時系列パターン記憶ネットワークを示している。
なお、図13において、丸印は、ノードを表し、ノードどうしを結ぶ線分は、リンクを表す。
図13において、初期状態の時系列パターン記憶ネットワークは、図13左から1番目に示すように、4個のノードから構成され、その4個のノードを、横×縦が2×2個の格子状に配置するリンクを有している。
ネットワーク拡大処理では、時系列パターン記憶ネットワークを構成する各ノードが例えば、4個のノードに、いわば分割され、その分割後のノードを格子状に配置するように、リンクの削除と追加が行われる。
したがって、例えば、図13左から1番目の時系列パターン記憶ネットワークを対象として、ネットワーク拡大処理が行われた場合には、その時系列パターン記憶ネットワークを構成する4個のノードのうちの、黒丸印で示すノードを、注目ノードとして注目すると、注目ノードは、図13左から2番目に、横線を付した丸印で示すように、横×縦が2×2個の4個のノードに分割される。
ネットワーク拡大処理では、他の3つのノードそれぞれも、同様に、4個のノードに分割され、これにより、図13左から1番目に示す、4個のノードで構成されていた時系列パターン記憶ネットワークは、図13左から2番目に示す、16個のノードで構成される時系列パターン記憶ネットワークに拡大する。
さらに、ネットワーク拡大処理では、リンクの削除と追加が行われ、これにより、16個のノードを、横×縦が4×4個の格子状に配置した時系列パターン記憶ネットワークが構成される。
その後、図13左から2番目の時系列パターン記憶ネットワークを対象として、ネットワーク拡大処理が行われた場合には、その時系列パターン記憶ネットワークを構成する16個のノードのうちの、右上がりの斜線を付した丸印で示すノードを、注目ノードとして注目すると、注目ノードは、図13左から3番目に、左上がりの斜線を付した丸印で示すように、横×縦が2×2個の4個のノードに分割される。
ネットワーク拡大処理では、他の15個のノードそれぞれも、同様に、4個のノードに分割され、これにより、図13左から3番目に示す、16個のノードで構成されていた時系列パターン記憶ネットワークは、図13左から3番目に示す、64個のノードで構成される時系列パターン記憶ネットワークに拡大する。
さらに、ネットワーク拡大処理では、リンクの削除と追加が行われ、これにより、64個のノードを、横×縦が8×8個の格子状に配置した時系列パターン記憶ネットワークが構成される。
以上のように、ネットワークの拡大処理では、ノードの数が、例えば、4個、16個、64個、256個、・・・と増加していくように、時系列パターン記憶ネットワークが拡大される。
ここで、時系列パターン記憶ネットワークを構成する、格子状に配置されるノードのうちの、例えば、左下のノードの位置を原点(0,0)として、左から右方向をx軸とするとともに、下から上方向をy軸とする2次元座標系を想定し、横方向又は縦方向に隣接するノードどうしの距離を1とすると、例えば、図13左から2番目の時系列パターン記憶ネットワークの、例えば、左下のノードの座標(x,y)は、(0,0)となる。
また、例えば、座標(0,0)のノードの右隣のノードの座標(x,y)は、(1,0)となり、さらにその右隣のノードの座標(x,y)は、(2,0)となる。また、座標(0,0)のノードの一つ上のノードの座標(x,y)は(0,1)となり、さらにその一つ上のノードの座標は(0,2)となる。また、例えば、図13左から2番目において、右よりの斜線を付した丸印で示すノードの座標(x,y)は、(2,1)となる。
図13で説明したネットワーク拡大処理では、時系列パターン記憶ネットワークの座標(i,j)のノードと同一の4個の新たなノードが生成され、その4個のノードそれぞれが、座標(2×i,2×j),(2×i,2×j+1),(2×i+1,2×j),(2×i+1,2×j+1)に配置される。そして、新たなノードのうちの、上下左右のそれぞれに隣接するノードどうしの間に、リンクが張り直される。
図14は、学習回数に応じてネットワーク拡大処理が図13で説明したように行われる場合の、学習回数と、時系列パターン記憶ネットワークを構成するノードの数(ノード数)との関係を示している。
図14において、横軸は、学習回数を示し、縦軸は、ノード数を示している。
ここで、学習回数は、例えば、学習部4において、図7におけるステップS3ないしS7の自己組織的な学習が1回行われるたびに、1ずつインクリメントされる。
図14では、学習回数が400回に達するまでは、時系列パターン記憶ネットワークのノード数は、初期状態の4個になっている。そして、学習回数が400回に達したときに、ネットワーク拡大処理が行われ、これにより、時系列パターン記憶ネットワークのノード数は、64個に増加している。
その後、学習回数が1600回に達するまでは、ネットワーク拡大処理は行われず、したがって、時系列パターン記憶ネットワークのノード数は64個のままとされ、以下、学習回数が6400回、25600回、・・・と増加するにしたがって、ネットワーク拡大処理が行われ、ノード数が、256個、1024個・・・と増加する。
そして、図14では、学習回数が1600000回に達したとき、ノード数は16384個となっている。
なお、図13で説明したネットワーク拡大処理は、1つの細胞が4つに分裂し、さらに、その4つの細胞それぞれが4つの細胞に分裂するという細胞分裂を繰り返すことで、時間とともに細胞の数を増加していく細胞分裂の現象を工学的にモデル化した細胞分裂モデルに基づく処理になっている。
ネットワーク拡大処理が基づく細胞分裂モデルは、細胞分裂の仕方が、1つの細胞が4つの細胞に分裂する細胞分裂モデルや、細胞分裂のタイミングが、すべての細胞について同一である細胞分裂モデルに限定されるものではない。
すなわち、ネットワーク拡大処理が基づく細胞分裂モデルとしては、例えば、1つの細胞が2つの細胞に分裂する細胞分裂モデルや、すべての細胞が同時に分裂するのではなく、少しずつ時間をずらして分裂する細胞分裂モデル、短時間で多くの細胞に分裂する細胞分裂モデル、長い時間をかけて多くの細胞に分裂する細胞分裂モデル等の、各種の細胞分裂モデルを採用することが可能である。
ネットワーク拡大処理において重要なことは、ノードの分裂として、ノードを、複数のノードに分割するときに、分割後のノードに対して、分割前のノード(分割後のノードの近傍にあった分割前のノード)が保持する時系列パターンと同一、又は類似の時系列パターンを表現する時系列パターンモデル21(図3)を割り当てること、及び、各時系列パターンを保持するノードどうしの、ノードの分割前の位置関係が、ノードの分割後も保存されるように、リンクを与えることである。
これにより、ノードの分割前に、ある時系列パターンAを保持するノードと、他の時系列パターンBを保持するノードとが近傍に配置されていた場合、ノードの分割後でも、時系列パターンA又はそれに類似する時系列パターンを保持するノードと、時系列パターンB又はそれに類似する時系列パターンを保持するノードとは、近傍に配置される。
次に、図15のフローチャートを参照して、図12のネットワーク管理部7が行う処理(規模管理処理)について説明する。
ステップS51では、ネットワーク管理部7(図12)の拡大判定部71が、記憶部5に記憶された時系列パターン記憶ネットワークの学習回数や学習時間に応じて、時系列パターン記憶ネットワークの規模を拡大するかどうかを判定する。
ステップS51において、時系列パターン記憶ネットワークの規模を拡大しないと判定された場合、処理は、ステップS51に戻る。
また、ステップS51において、時系列パターン記憶ネットワークの規模を拡大すると判定された場合、すなわち、学習回数が所定の回数となった場合、又は、学習時間が所定の時間となった場合、処理は、ステップS52に進み、拡大制御部72は、記憶部5に記憶された時系列パターン記憶ネットワークを対象に、例えば、図13や図14で説明したネットワーク拡大処理を行って、ステップS51に戻る。
なお、ステップS52のネットワーク拡大処理によって、時系列パターン記憶ネットワークのノード数を幾つにまで増加させるかは、例えば、記憶部5の記憶容量に制限される。また、時系列パターン記憶ネットワークのノード数を幾つにまで増加させるかは、記憶部5で記憶することができる値を上限値として、例えば、ユーザが設定することができる。
以上のように、ネットワーク管理部7で行われるネットワーク拡大処理と、学習部4で行われる時系列パターン記憶ネットワークの自己組織的な学習の処理とが相俟って、時系列パターン記憶ネットワークが既に獲得した時系列パターンの記憶を維持しつつ、時系列パターン記憶ネットワークに新たな時系列パターンを獲得させる追加学習を適切に行うことが可能となる。
すなわち、例えば、時系列パターン記憶ネットワークを構成するノードの数を固定にし、かつ、式(1)の減衰係数Δを、学習の進行に伴って、例えば、1から少しずつ0に近づけていくように調整し、新たなデータの影響を受けるノードの範囲が、学習の進行に伴って、広い範囲から狭い範囲になっていく時系列パターン記憶ネットワークの学習の方法を、固定HMM-SOM法ということとする。
また、ネットワーク管理部7によるネットワーク拡大処理と、学習部4による時系列パターン記憶ネットワークの自己組織的な学習の処理とが相俟って行われる、時系列パターン記憶ネットワークの学習、つまり、時系列パターン記憶ネットワークを構成するノードの数を学習回数等に応じて増加させ、かつ、式(1)の減衰係数△を所定の定数として、新たなデータの影響を受けるノードの範囲が、学習の進行に関係のない、常に固定の狭い範囲となる時系列パターン記憶ネットワークの学習の方法を、可変HMM-SOM法ということとする。
固定HMM-SOM法では、新たなデータの影響を受けるノードの範囲を、学習の進行に伴って、広い範囲から狭い範囲に調整していくことで、時系列データの教師なし学習を実現することができる。
これに対して、可変HMM-SOM法では、新たなデータの影響を受けるノードの範囲を狭い範囲に固定して調整しないが、時系列パターン記憶ネットワークを構成するノードの数の調整を行うことで、固定HMM-SOM法と同様の教師なし学習を実現する。
また、固定HMM-SOM法では、新たなデータの影響を受けるノードの範囲を、学習の進行に伴って、広い範囲から狭い範囲に調整していくために、学習の初期の段階では、新たなデータの影響を受けるノードの範囲が、広い範囲になっているので、時系列パターン記憶ネットワークの自己組織的な学習(図7ステップS3ないしS7)において、時系列パターンモデル21のパラメータの更新の処理(ステップS7)を行う必要があるノードは、広い範囲にあるノードとなり、その結果、パラメータの更新に要する計算量は膨大になる。
これに対して、可変HMM-SOM法では、新たなデータの影響を受けるノードの範囲は、学習の進行に関係がない固定の狭い範囲に限られるため、時系列パターン記憶ネットワークの自己組織的な学習において、時系列パターンモデル21のパラメータの更新の処理(ステップS7)を行う必要があるノードは、固定の狭い範囲にあるノードだけとなり、その結果、パラメータの更新に要する計算量は小さく抑えられる。さらに、この計算量は、ネットワーク拡大処理によって、時系列パターン記憶ネットワークのノードの数が増加しても変わらない。
したがって、可変HMM-SOM法では、同程度の計算量で、固定HMM-SOM法よりも大規模な(ノード数が多い)時系列パターン記憶ネットワーク、つまり、多くの時系列パターンを記憶することができる、いわば記憶領域の大きい時系列パターン記憶ネットワークの学習が可能となり、その結果、時系列パターン記憶ネットワークの過去の記憶(時系列パターン記憶ネットワークが過去に獲得した時系列パターンの記憶)を安定させることができる。
次に、図16ないし図19を参照して、固定HMM-SOM法による時系列パターン記憶ネットワークの学習と、可変HMM-SOM法による時系列パターン記憶ネットワークの学習のシミュレーションの結果について説明する。
図16は、固定HMM-SOM法による学習と、可変HMM-SOM法による学習の計算の負荷を調査したシミュレーションの結果を示している。
シミュレーションでは、固定HMM-SOM法と、可変HMM-SOM法とのいずれについても、ノードが2次元平面上に格子状に配置された時系列パターン記憶ネットワークを用い、時系列パターンモデル21として、同一のHMMを採用するとともに、同一の学習回数だけの学習を行った。
可変HMM-SOM法では、ネットワーク拡大処理において、横×縦が2×2個の4個のノードで構成される時系列パターン記憶ネットワークを初期状態として、学習回数に応じて、図13で説明したように、ノード数を増加した。
そして、可変HMM-SOM法による学習の終了後の時系列パターン記憶ネットワークのノード数は、固定HMM-SOM法により学習を行った時系列パターン記憶ネットワークのノード数に一致させるようにした。
図16において、横軸は、学習の終了時のノード数を示しており、縦軸は、同一の計算機(コンピュータ)を用いて、固定HMM-SOM法による学習と可変HMM-SOM法による学習を行った場合それぞれの計算の負荷を示している。
そして、図16では、学習の終了時のノード数が、32×32個、64×64個、128×128個の3通りについて、固定HMM-SOM法による学習と、可変HMM-SOM法による学習とのそれぞれの計算の負荷が示されている。
図16によれば、同一の規模(ノード数)の時系列パターン記憶ネットワークの学習を、固定HMM-SOM法と、可変HMM-SOM法とのそれぞれで行った場合、可変HMM-SOM法の方が、固定HMM-SOM法に比べて、計算量を小さく抑えることができることを確認することができる。
さらに、ノード数が多くなるほど、計算量を小さく抑えることができる効果が顕著になることも確認することができる。
次に、図17は、固定HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理と、可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理の認識率を調査したシミュレーションの結果を示している。
図17のシミュレーションでも、図16のシミュレーションと同様に、固定HMM-SOM法と、可変HMM-SOM法とのいずれについても、ノードが2次元平面上に格子状に配置された時系列パターン記憶ネットワークを用い、時系列パターンモデル21として、同一のHMMを採用するとともに、同一の学習回数だけの学習を行った。なお、学習の回数は10000回とした。
また、固定HMM-SOM法により学習を行った時系列パターン記憶ネットワークのノード数は、8×8個とした。そして、可変HMM-SOM法のネットワーク拡大処理では、横×縦が2×2個の4個のノードで構成される時系列パターン記憶ネットワークを初期状態として、学習回数に応じて、図13で説明したように、ノード数を増加し、学習の終了後の時系列パターン記憶ネットワークのノード数が、固定HMM-SOM法による場合と同一の8×8個になるようにした。
さらに、シミュレーションでは、音声データを一定の時間間隔で周波数分析し、12次元のメルケプストラム係数と、そのΔ成分(連続する2つのフレームどうしのメルケプストラム係数の差分)、およびΔΔ成分(連続する2つのフレームどうしの△成分の差分)とをコンポーネントとする36次元の特徴ベクトルの時系列データを、時系列パターン記憶ネットワークの学習と認識処理とに用いた。
時系列パターン記憶ネットワークの学習では、1人の話者に、「あ」、「い」、「う」、「え」、「お」の5種類の音声それぞれを、5回ずつ発声してもらい、その結果得られた25個の音声データの中から、無作為に1つの音声データを、学習用の音声データとして選択して用いた。
認識処理では、学習に用いた音声とは別に、やはり、1人の話者に、「あ」、「い」、「う」、「え」、「お」の5種類の音声それぞれを、5回ずつ発声してもらい、その結果得られた25個の音声データを、認識用の音声データとして順次用いた。
そして、認識処理の認識率の調査では、時系列パターン記憶ネットワークの各ノードに、擬似的な正解ラベルを付し、認識用の音声データに対して、対数尤度が最も高いノードに付された正解ラベルが、その認識用の音声データの種類に一致した場合を正解とするとともに、一致しなかった場合を不正解として、25個の認識用の音声データに対する正解の割合を、認識率として求めた。
なお、ノードに擬似的な正解ラベルを付すにあたっては、各ノードのHMMの学習が、どの種類の音声データを用いて行われたかを調べ、最も大きな割合の音声データの種類、すなわち、ノード(図3)の学習データ記憶部22に学習データとして記憶されている音声データ(の特徴量)の数が最も多い種類を表す正解ラベルを、ノードに付した。
また、認識処理は、学習回数が1000回増加するごとに、つまり、学習回数が1000回、2000回、・・・、10000回になったときに行った。
図17において、横軸は、学習回数を示しており、縦軸は、認識率を示している。
そして、図17では、学習回数が1000回増加するごとの、固定HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理と、可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理とのそれぞれの認識率が示されている。
図17によれば、固定HMM-SOM法であっても、可変HMM-SOM法であっても、学習が進行するに従って、認識率が向上する傾向にあることを確認することができる。
さらに、図17によれば、固定HMM-SOM法、及び可変HMM-SOM法のいずれも、最終的には、認識率が100%となり、5種類の音声を、その5種類に分類(クラスタリング)することができており、時系列データの教師なし学習が実現されていることを確認することができる。
次に、図18、及び図19は、可変HMM-SOM法による学習を行った時系列パターン記憶ネットワーク(以下、適宜、可変HMM-SOMともいう)を示している。
すなわち、図18、及び図19は、いずれも、図17のシミュレーションで得た、学習回数が10000回に達した、8×8個のノードが配置された可変HMM-SOMを示している。
図18では、可変HMM-SOMのノード(図3)の学習データ記憶部22に記憶されている時系列データに対応する5種類の音声データの割合に応じて作成した棒グラフが、ノードに割り当てられ、ノードの配置に対応するように並べられている。
ノードに割り当てられた棒グラフには、そのノードの学習データ記憶部22に記憶されている時系列データに対応する5種類の音声データ全体を100%として、その5種類の音声データそれぞれの割合を表す模様を付してある。
例えば、左上の棒グラフは、「お」の音声データが100%であったことを示している。また、例えば、右上の棒グラフは、「あ」の音声データが20.2%であり、「う」の音声データが79.8%であったことを示している。
図18によれば、音声データの割合が同一の又は類似のノードが近接するように配置されていることを確認することができ、同じ種類の音声データで学習が行われたノードが近接するように配置されることが分かる。
図19は、図17で説明したようにして擬似的な正解ラベルを、ノードに付した可変HMM-SOMを示している。
図19によれば、可変HMM-SOMにおいて格子状に配置されたノードについて、まとまった位置にあるノードに対して、同一の種類を表す正解ラベルが付されていることを確認することができる。
したがって、可変HMM-SOM法によれば、類似の時系列パターンを獲得したノードどうしが近接して配置されるカテゴリマップを得ることができる。
次に、図20は、図1の再学習制御部8の構成例を示している。
再学習制御部18は、調整部81、再学習判定部82、ノード決定部83、及びデータ供給部84から構成され、記憶部5(図1)に記憶された時系列パターン記憶ネットワークが既に獲得した時系列パターンの時系列データを用いて、その時系列パターン記憶ネットワークを自己組織的に更新する再学習を制御する。
すなわち、調整部81は、学習部4(図1)において更新用時系列データとして用いる新規時系列データと生成時系列データとの比率を、例えば、ユーザの操作等に従って調整し、その比率を表す比率情報を、再学習判定部82に供給する。
再学習判定部82は、比率情報に従い、現在のタイミングが、再学習を行うべきタイミングであるかどうかを判定し、その判定結果を、ノード決定部83に供給する。
ノード決定部83は、再学習判定部82において再学習を行うべきタイミングであると判定された場合、記憶部5に記憶された時系列パターン記憶ネットワークが既に獲得した時系列パターンのうちの、いずれの時系列パターンの時系列データを、生成時系列データとして、生成部6に生成させるかを無作為に決定し、その時系列パターンを表す制御データとしてのノードラベルを、生成部6に供給する。
データ供給部84は、生成部6から生成時系列データが供給されるのを待って受信する。
すなわち、ノード決定部83が制御データを生成部6に供給すると、生成部6では、図11で説明したように、その制御データとしてのノードラベルが表すノードを、生成ノードとして、その生成ノードに基づいて、生成時系列データを生成して、再学習制御部8に供給してくる。
データ供給部84は、以上のようにして、生成部6から生成時系列データが供給されるのを待って、その生成時系列データを受信し、学習部4(図4)のデータ選択部31に供給する。
ここで、学習部4(図4)のデータ選択部31は、図4で説明したように、再学習制御部8から、生成時系列データが供給された場合、特徴抽出部2からの新規時系列データの供給の有無に関係なく、再学習制御部8からの生成時系列データを、更新用時系列データとして選択し、再学習制御部8から、生成時系列データが供給されていない場合において、特徴抽出部2から、新規時系列データが供給されたときには、その特徴抽出部2からの新規時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
したがって、調整部81において、例えば、k回にk-1回の割合(比率)で、生成時系列データを更新用時系列データとして用いて再学習を行うように、新規時系列データと生成時系列データとの比率を表す比率情報kが調整されている場合には、再学習判定部82において、比率情報kに従い、更新用時系列データを用いた時系列パターン記憶ネットワークの学習が行われるタイミングのうちの、k回にk-1回のタイミングが、再学習を行うべきタイミングであると判定され、ノード決定部83において、制御データとしてのノードラベルが、生成部6に供給される。
さらに、制御データが生成部6に供給されることにより、生成部6において生成される生成時系列データが、データ供給部84から、学習部4(図4)のデータ選択部31に供給される。
その結果、データ選択部31では、更新用時系列データを用いた時系列パターン記憶ネットワークの学習が行われるタイミングのうちの、k回にk-1回のタイミングで、生成時系列データが、更新用時系列データとして選択され、これにより、比率情報kに従い、k回にk-1回の割合で、時系列パターン記憶ネットワークの再学習が行われることになる。
以上のように、再学習制御部8は、比率情報kに従った割合で、時系列パターン記憶ネットワークの再学習が行われるように、再学習の制御を行う。
次に、図21を参照して、再学習制御部8が制御する再学習の概要について説明する。
図21は、「あ」、「い」、「う」、「え」、「お」の5種類の音声の時系列データを模式的に示している。
図21において、図中上側に示してある時系列データPでは、「あ」、「い」、「う」、「え」、「お」の5種類の音声が、複数個ずつ連続して、その順に並んでいる。したがって、時系列データPを観測した場合には、「あ」、「い」、「う」、「え」、「お」の5種類の音声が、時間の経過に従って順に観測され、その結果、観測値の種類(「あ」、「い」、「う」、「え」、「お」)や頻度に関する確率分布が、時間とともに変化する。
一方、図中下側に示してある時系列データQでは、「あ」、「い」、「う」、「え」、「お」の5種類の音声が、無作為に並んでいる。したがって、時系列データQを観測した場合には、「あ」、「い」、「う」、「え」、「お」の5種類の音声が、無作為に観測され、その結果、観測値の種類や頻度に関する確率分布は、時間とともに変化しない定常的なものとみなすことが可能である。
「あ」、「い」、「う」、「え」、「お」の5種類の音声について、教師なし学習を、オンライン学習によって逐次的に行う場合において、学習結果を安定させるためには、すなわち、例えば、過去の学習結果を適切に保存するためには、観測値の種類や頻度に関する確率分布が時間とともに変化しない定常的なものであることが望ましい。
したがって、学習に用いられる学習データが、非定常な確率分布の時系列データP、つまり、種類や頻度に関する確率分布が変化する時系列データPであっても、その時系列データPの確率分布を定常化した、定常的な確率分布の時系列データQに変換して学習に用いることで、学習結果を安定させることができる。
学習データすべてをあらかじめ用意することができる場合には、その学習データを、非定常な確率分布の時系列データから、定常的な確率分布の時系列データに変換する定常化変換を行うことができる。
しかしながら、例えば、ロボットが、ユーザとのインタラクションを通して得られる観測値を学習データとして用いてオンライン学習を行う場合などの、観測値の時間的な非定常性が未知の状況では、定常化変換をあらかじめ行うことはできない。
そこで、図1のデータ処理装置では、再学習制御部8が再学習の制御を行うことで、時系列パターン記憶ネットワークの学習で用いられる更新用時系列データを、時間的に定常な時系列データに定常化する。
その結果、時系列パターン記憶ネットワークの学習は、時系列データPのような非定常な確率分布の時系列データではなく、時系列データQのような定常的な確率分布の時系列データを用いて行われることとなり、学習結果を安定させることができる。
次に、図22のフローチャートを参照して、図20の再学習制御部8による再学習の制御の処理について説明する。
再学習判定部82は、ステップS71において、調整部81で調整された比率情報kに基づき、現在のタイミングが、再学習を行うべきタイミングであるかどうかを判定し、再学習を行うべきタイミングでないと判定した場合、処理は、ステップS71に戻る。
また、ステップS71において、再学習を行うべきタイミングであると判定された場合、処理は、ステップS72に進み、ノード決定部83は、記憶部5に記憶された時系列パターン記憶ネットワークが既に獲得した時系列パターンのうちの、いずれの時系列パターンの時系列データを、生成時系列データとして、生成部6に生成させるかを無作為に決定し、すなわち、時系列パターン記憶ネットワークを構成するノードの中から、生成時系列データの生成に用いるノードを無作為に決定し、処理は、ステップS73に進む。
ステップS73では、ノード決定部83は、直前に行われたステップS72で決定されたノードを表すノードラベルを、制御データとして生成部6に供給することで、生成部6に生成時系列データを生成させる。
ここで、生成部6は、ノード決定部83から制御データが供給されてくると、図11で説明したように、その制御データとしてのノードラベルが表すノードを、生成ノードとして、その生成ノードに基づいて、生成時系列データを生成して、再学習制御部8に供給してくる。
再学習制御部8では、上述のように、生成部6から生成時系列データが供給されてくるのを待って、処理は、ステップS73からステップS74に進み、データ供給部84は、生成部6からの生成時系列データを受信し、学習部4(図4)のデータ選択部31に供給することで、学習部4に、生成時系列データを更新用時系列データとして用いた時系列パターン記憶ネットワークの学習(再学習)を行わせ、処理は、ステップS71に戻る。
すなわち、学習部4のデータ選択部31は、図4で説明したように、再学習制御部8から、生成時系列データが供給された場合、特徴抽出部2からの新規時系列データの供給の有無に関係なく、再学習制御部8からの生成時系列データを、更新用時系列データとして選択し、学習処理部32に供給するので、データ供給部84が、生成部6からの生成時系列データを、学習部4のデータ選択部31に供給することで、学習部4では、生成時系列データを更新用時系列データとして用いた時系列パターン記憶ネットワークの学習(再学習)が行われることになる。
次に、図23のフローチャートを参照して、再学習を含めた時系列パターン記憶ネットワークの学習の処理について説明する。
まず最初に、ステップS81において、学習部4(図4)の学習処理部32は、記憶部5に記憶された時系列パターン記憶ネットワークのパラメータ、すなわち、時系列パターン記憶ネットワークの各ノードが有する時系列パターンモデル21(図3)としての、例えば、HMMのパラメータ(状態遷移確率と出力確率密度関数)を初期化する初期化処理を行う。
さらに、ステップS81では、再学習制御部8(図20)の再学習判定部82が、学習回数をカウントする変数Nを、例えば0にリセットし、処理は、ステップS82に進む。
ステップS82において、再学習制御部8(図20)の再学習判定部82は、例えば、学習回数Nと、調整部81で調整された比率情報kとに基づき、現在のタイミングが、再学習を行うべきタイミングであるかどうかを判定する。
ステップS82において、再学習を行うべきタイミングでないと判定された場合、処理は、ステップS83に進み、以下、特徴抽出部2(図1)からの新規時系列データを更新用時系列データとして用いて、時系列パターン記憶ネットワークの学習が行われる。
また、ステップS82において、再学習を行うべきタイミングであると判定された場合、処理は、ステップS87に進み、以下、生成部6(図1)で生成された生成時系列データを更新用時系列データとして用いて、時系列パターン記憶ネットワークの学習(再学習)が行われる。
ここで、ステップS82において、再学習を行うべきタイミングであるかどうかの判定は、例えば、式N%k=1、つまり、学習回数Nを、比率情報kで除算して得られる剰余が1であることが成り立たないかどうかどうかによって行うことができる。
すなわち、式N%k=1が成り立つ場合に、再学習を行うべきタイミングでないと判定し、式N%k=1が成り立たない場合に、再学習を行うべきタイミングであると判定することができる。
この場合、式N%k=1が成り立てば、特徴抽出部2(図1)からの新規時系列データを更新用時系列データとして用いて、時系列パターン記憶ネットワークの学習(以下、適宜、新規学習という)が行われ、式N%k=1が成り立たなければ、生成部6(図1)で生成された生成時系列データを更新用時系列データとして用いて、時系列パターン記憶ネットワークの再学習が行われることになる。
すなわち、k回に1回だけ、新規学習が行われ、k-1回だけ、再学習が行われる。
したがって、比率情報kが、例えば、1である場合には、常に、新規学習が行われ、再学習は行われない。
また、比率情報kが、例えば、5である場合には、5回に1回の割合で、新規学習が行われ、5回に4回の割合で、再学習が行われる。
そして、比率情報kが大になるほど、新規学習が行われる割合が小になるとともに、再学習が行われる割合が大になる。
以上のように、新規学習と再学習とを行う割合(比率)は、比率情報kによって調整することができる。
ステップS82において、再学習を行うべきタイミングでないと判定された場合、上述したように、処理は、ステップS83に進み、1個の処理対象データ、すなわち、例えば、1の音声区間の音声データが、信号入力部1に入力されるのを待って、信号入力部1は、その処理対象データを、特徴抽出部2に供給する。特徴抽出部2は、処理対象データから特徴量を抽出し、その特徴量の時系列データを、1個の新規時系列データとして、学習部4に供給して、処理は、ステップS83からステップS84に進む。
ステップS84では、学習部4(図4)のデータ選択部31が、特徴抽出部2からの新規時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
すなわち、いまの場合、データ選択部31には、特徴抽出部2からの新規時系列データのみが供給され、再学習制御部8からは生成時系列データが供給されないので、データ選択部31は、特徴抽出部2からの新規時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
そして、処理は、ステップS84からステップS85に進み、学習処理部32は、図7のステップS3乃至S7の自己組織的な学習を、データ選択部31からの更新用時系列データ、すなわち、いまの場合、特徴抽出部2からの新規時系列データを用いて行い、処理は、ステップS86に進む。
ステップS86では、再学習制御部8(図20)の再学習判定部82が、学習回数Nを1だけインクリメントして、処理は、ステップS82に戻り、以下、同様の処理が繰り返される。
一方、ステップS82において、再学習を行うべきタイミングであると判定された場合、上述したように、処理は、ステップS87に進み、再学習制御部8のノード決定部83は、記憶部5に記憶された時系列パターン記憶ネットワークを構成するノードの中から、生成時系列データの生成に用いるノードを無作為に決定し、そのノードを表すノードラベルを、制御データとして生成部6に供給して、処理は、ステップS88に進む。
ステップS88では、生成部6(図1)は、図11で説明したように、ノード決定部83からの制御データとしてのノードラベルが表すノードを、生成ノードに決定し、その生成ノードに基づいて、生成時系列データを生成して、再学習制御部8に供給する。再学習制御部8(図20)では、データ供給部84が、生成部6からの生成時系列データを受信し、学習部4のデータ選択部31に供給して、処理は、ステップS88からステップS89に進む。
ステップS89では、学習部4(図4)のデータ選択部31が、再学習制御部8(図1)のデータ供給部84からの生成時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
すなわち、いまの場合、データ選択部31には、再学習制御部8からの生成時系列データが供給されるので、データ選択部31は、再学習制御部8からの生成時系列データを、更新用時系列データとして選択し、学習処理部32に供給する。
そして、処理は、ステップS89からステップS85に進み、学習処理部32は、図7のステップS3乃至S7の自己組織的な学習を、データ選択部31からの更新用時系列データ、すなわち、いまの場合、生成部6が、再学習制御部8の制御に従って生成した、時系列パターン記憶ネットワークが既に獲得している時系列パターンの時系列データである生成時系列データを用いて行い、処理は、ステップS86に進む。
ステップS86では、再学習制御部8(図20)の再学習判定部82が、学習回数Nを1だけインクリメントして、処理は、ステップS82に戻り、以下、同様の処理が繰り返される。
以上のように、時系列パターン記憶ネットワークの自己組織的な学習(ステップS85)は、新規時系列データと、生成時系列データとを選択的に更新用時系列データとして用いて、逐次的に繰り返し行われる。
そして、生成時系列データは、時系列パターン記憶ネットワークが既に獲得している時系列パターンの中から無作為に選択(決定)された時系列パターンの時系列データであるから、新規時系列データが、種類や頻度に関する確率分布が時間的に非定常な時系列データであっても、そのような新規時系列データと、時系列パターン記憶ネットワークが既に獲得している時系列パターンの生成時系列データとが、選択的に更新用時系列データとされることにより、更新用時系列データは、種類や頻度に関する確率分布が時間的に定常な時系列データであるとみなすことができる時系列データとなり、学習結果、すなわち、時系列パターン記憶ネットワークの時系列パターンの記憶を安定させることができる。
次に、図24のフローチャートを参照して、再学習の他、ネットワーク管理部7による時系列パターン記憶ネットワークの規模の管理を含めた時系列パターン記憶ネットワークの学習の処理について説明する。
ステップS91において、学習部4(図1)は、特徴抽出部2から供給される新規時系列データを更新用時系列データとして選択し、その更新用時系列データを用いて、記憶部5に記憶された時系列パターン記憶ネットワークの学習(新規学習)を行って、処理は、ステップS92に進む。
ステップS92では、生成部6が、再学習制御部8の制御に従い、記憶部5に記憶された時系列パターン記憶ネットワークが既に獲得している、ある時系列パターンの時系列データを生成し、生成時系列データ(リハースデータ)として、再学習制御部8を介して、学習部4に供給する。
その後、処理は、ステップS92からS93に進み、学習部4は、再学習制御部8を介して供給される生成時系列データを更新用時系列データとして選択し、その更新用時系列データを用いて、記憶部5に記憶された時系列パターン記憶ネットワークの学習(再学習)を行う。
ステップS92及びS93の処理は、比率情報kに基づく回数であるk-1回だけ繰り返し行われる。
すなわち、ステップS91の新規学習が1回だけ行われた後、ステップS93の再学習がk-1回(例えば、比率情報kが5である場合には、4回)だけ行われる。
ステップS92及びS93の処理がk-1回だけ行われた後、処理は、ステップS94に進み、ネットワーク管理部7は、例えば、図13及び図14で説明したように、学習回数Nに応じて、記憶部5に記憶された時系列パターン記憶ネットワークの規模を拡大するネットワーク拡大処理を行って、処理は、ステップS91に戻る。
ここで、比率情報kが、例えば、5である場合には、ステップS94の処理は、学習回数Nが5だけ増加するごとに行われ、図13及び図14で説明したように、学習回数Nが所定の回数に達すると、記憶部5に記憶された時系列パターン記憶ネットワークの規模を拡大するネットワーク拡大処理が行われる。
以上のような、時系列パターン記憶ネットワークの新規学習、再学習、及びネットワーク拡大処理が相俟って行われることにより、追加学習を適切に行うことができる。
すなわち、新規時系列データの種類や頻度に関する確率分布が時間的に非定常な場合でも、再学習制御部8の制御による再学習によって、時系列パターン記憶ネットワークの学習に用いられる更新用時系列データは、種類や頻度に関する確率分布が時間的に定常化された時系列データとなり、その結果、時系列パターン記憶ネットワークによる時系列データの教師なし学習が安定化する。つまり、時系列パターン記憶ネットワークにおいて、過去に獲得した時系列パターンを安定して記憶することが可能となる。
さらに、新規時系列データを用いた時系列パターン記憶ネットワークの学習(新規学習)が、逐次的に、しかも、時系列パターン記憶ネットワークのノード数を、学習の進行に従って増加しながら行われるので、時系列パターン記憶ネットワークの、時系列パターンを記憶する記憶領域が拡大し、この記憶領域の拡大によって、時系列パターン記憶ネットワークが未だ獲得していない新しい時系列パターンの獲得(学習)が可能となり、同時に、時系列パターン記憶ネットワークが既に獲得している時系列パターンの記憶の破壊が抑制される。
さらに、時系列パターン記憶ネットワークの、拡大した記憶領域は、時系列パターン記憶ネットワークが既に獲得している時系列パターンの時系列データを用いた学習(再学習)に利用されることになるので、時系列パターン記憶ネットワークが既に獲得している時系列パターンの記憶の安定性を向上させることができる。
したがって、時系列データの教師なし学習を、追加的にオンライン学習で行うことができる。
ここで、時系列パターン記憶ネットワークを構成するノードの数を学習回数等に応じて増加させる可変HMM-SOM法に加えて、時系列パターン記憶ネットワークの学習に、確率分布を定常化させた更新用時系列データを用いる時系列パターン記憶ネットワークの学習の方法を、以下、適宜、定常化可変HMM-SOM法という。また、定常化可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを、以下、適宜、定常化可変HMM-SOMともいう。
次に、図25ないし図28を参照して、固定HMM-SOM法による時系列パターン記憶ネットワークの学習と、定常化可変HMM-SOM法による時系列パターン記憶ネットワークの学習のシミュレーションの結果について説明する。
図25は、固定HMM-SOM法による学習を行った時系列パターン記憶ネットワーク(以下、固定HMM-SOMともいう)を用いた認識処理と、定常化可変HMM-SOM法による学習を行った時系列パターン記憶ネットワーク(定常化可変HMM-SOM)を用いた認識処理の認識率を調査したシミュレーションの結果を示している。
図25のシミュレーションでは、固定HMM-SOM法と、可変HMM-SOM法とのいずれについても、ノードが2次元平面上に格子状に配置された時系列パターン記憶ネットワークを用い、時系列パターンモデル21として、同一のHMMを採用した。
また、固定HMM-SOM法により学習を行った時系列パターン記憶ネットワークのノード数は、16×16個とした。
一方、定常化可変HMM-SOM法のネットワーク拡大処理では、横×縦が2×2個の4個のノードで構成される時系列パターン記憶ネットワークを初期状態として、学習回数に応じて、図13で説明したように、ノード数を増加し、学習の終了後の時系列パターン記憶ネットワークのノード数が、固定HMM-SOM法による場合と同一の16×16個になるようにした。
さらに、シミュレーションでは、図17のシミュレーションと同様に、音声データから得たメルケプストラム係数、Δ成分、およびΔΔ成分をコンポーネントとする36次元の特徴ベクトルの時系列データを、時系列パターン記憶ネットワークの学習と認識処理とに用いた。
時系列パターン記憶ネットワークの学習では、1人の話者に、「あ」、「い」、「う」、「え」、「お」の5種類の音声それぞれを、5回ずつ発声してもらい、その結果得られた25個の音声データの中から、「あ」、「い」、「う」、「え」、「お」の音声データを、その順で、2000回ずつ選択し、新規時系列データとして用いることにより、新規時系列データを用いた学習(新規学習)を、合計で、10000回行った。
すなわち、まず、5回の発話によって得られた5つの「あ」の音声データの中から、無作為に1つの音声データを選択し、その音声データを用いて時系列パターン記憶ネットワークの学習(新規学習)を行うことを、2000回繰り返し、その後、5回の発話によって得られた5つの「い」の音声データの中から、無作為に1つの音声データを選択し、その音声データを用いて時系列パターン記憶ネットワークの学習(新規学習)を行うことを、2000回繰り返した。以下、同様に、「う」、「え」、「お」の音声データについても、その順で用いて、時系列パターン記憶ネットワークの学習(新規学習)を行うことを、2000回ずつ繰り返した。
ここで、以上のような音声データの与え方は、時間の経過とともに、学習に用いられる時系列データの種類に関する確率分布が変化していくことに対応しており、固定HMM-SOM法と、定常化可変HMM-SOM法とのそれぞれで、新しい種類の時系列データの時系列パターンを追加的に学習することができるできるかどうかを調査することができる。
認識処理では、学習に用いた音声とは別に、やはり、「あ」、「い」、「う」、「え」、「お」の5種類それぞれを、1人の話者に5回ずつ発声してもらい、その結果得られた25個の音声データを、認識用の音声データとして順次用いた。
そして、認識処理の認識率の調査では、図17のシミュレーションと同様に、時系列パターン記憶ネットワークの各ノードに、擬似的な正解ラベルを付し、認識用の音声データに対して、対数尤度が最も高いノードに付された正解ラベルが、その認識用の音声データの種類に一致した場合を正解とするとともに、一致しなかった場合を不正解として、25個の認識用の音声データに対する正解の割合を、認識率として求めた。
また、認識処理は、新規学習の学習回数が1000回増加するごとに、つまり、新規学習の学習回数が1000回、2000回、・・・、10000回になったときに行った。
さらに、定常化可変HMM-SOM法では、比率情報kを10に調整した。したがって、定常化可変HMM-SOM法では、10回の学習において、新規学習が1回だけ行われ、再学習が9回だけ行われる。
図25において、横軸は、新規学習の学習回数を示しており、縦軸は、認識率を示している。
そして、図25では、新規学習の学習回数が1000回増加するごとの、固定HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理と、定常化可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを用いた認識処理とのそれぞれの認識率が示されている。
図25によれば、定常化可変HMM-SOM法では、「あ」、「い」、「う」、「え」、「お」の音声データを、順次、新規時系列データとして用いて学習が行われることにより、認識率が向上し、最終的には、88%に到達することを確認することができる。
これに対して、固定HMM-SOM法では、「あ」、「い」、「う」、「え」、「お」の音声データを、順次、新規時系列データとして用いて学習が行われることにより、認識率は向上する傾向にあるが、最終的には、48%にしか達しないことを確認することができる。
次に、図26は、10000回の新規学習が終了した後に行った認識処理(新規学習の学習回数が10000回になったときに行われた認識処理)の、音声の種類ごとの認識率を示している。
固定HMM-SOM法では、学習の前半に学習用の音声データとして用いられた「あ」や「い」の音声の認識率が0%になっており、したがって、種類に関する確率分布が変化する新規時系列データが学習に用いられることによって、時系列パターン記憶ネットワーク(固定HMM-SOM)が過去に獲得した時系列パターンの記憶が破壊されてしまっていることを確認することができる。
一方、定常化可変HMM-SOM法では、学習の前半に新規時系列データとして用いられた「あ」や「い」の音声の認識率がある程度維持されており、したがって、種類に関する確率分布が変化する新規時系列データが学習に用いられても、ネットワーク拡大処理や再学習によって、時系列パターン記憶ネットワーク(定常化可変HMM-SOM)が過去に獲得した時系列パターンの記憶が保存され、記憶の安定性が、固定HMM-SOM法の場合よりも高いことを確認することができる。
次に、図27は、固定HMM-SOM法による学習を行った時系列パターン記憶ネットワーク(固定HMM-SOM)を示しており、図28は、定常化可変HMM-SOM法による学習を行った時系列パターン記憶ネットワーク(定常化可変HMM-SOM)を示している。
すなわち、図27は、図25のシミュレーションで得た、学習回数が10000回に達した、16×16個のノードが配置された固定HMM-SOMを示しており、図28は、図25のシミュレーションで得た、新規学習の学習回数が10000回に達した、16×16個のノードが配置された定常化可変HMM-SOMを示している。
図27、及び図28では、図19と同様に、図17で説明したようにして擬似的な正解ラベルを、ノードに付してある。すなわち、ノード(図3)の学習データ記憶部22に記憶されている時系列データに対応する5種類の音声データにおいて、最も数が多い種類を表すラベルを、正解ラベルとして、ノードに付してある。
図27、及び図28によれば、固定HMM-SOM及び定常化可変HMM-SOMのいずれにおいても、同一の正解ラベルのノードが近接するように配置されており、したがって、類似の時系列パターンを獲得したノードどうしが近接して配置されるカテゴリマップを得ることができることを確認することができる。
しかしながら、図27の固定HMM-SOMでは、「あ」と「い」の音声のノード(「あ」と「い」の音声の時系列パターンを獲得したノード)自体が存在しない。
これに対して、図28の定常化可変HMM-SOMでは、「あ」、「い」、「う」、「え」、「お」の5種類の音声のノードが存在し、その5種類それぞれに対応する領域が形成されている。したがって、定常化可変HMM-SOM法によれば、時系列パターン記憶ネットワークの記憶の安定性と、新しい記憶の形成(新しい時系列パターンの追加学習)との両方が実現されていることが分かる。
以上のように、図1のデータ処理装置においては、ネットワーク管理部7が、時系列パターンを保持する複数のノードから構成される時系列パターン記憶ネットワークの規模を、ノード数が適宜増加するように管理するとともに、再学習制御部8が、生成部6を制御して、時系列パターン記憶ネットワークのノードが保持する時系列パターンの生成時系列データを生成させる。そして、学習部4において、新規時系列データと、生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、ノード数が増加する時系列パターン記憶ネットワークが、自己組織的に更新される。
したがって、時系列データの教師なし学習を行うこと、及び、オンライン学習で追加学習を行うことができる。
さらに、学習部4が更新用時系列データを用いて行う時系列パターン記憶ネットワークの学習では、その更新用時系列データの影響を受けるノードの範囲が、固定の範囲に限られているため、時系列パターン記憶ネットワークのノード数が増加しても、時系列パターン記憶ネットワークの学習の計算量が膨大にならないので、効率的な学習が可能となる。
なお、本実施の形態では、学習部4において、新規時系列データと、生成時系列データとの両方を、更新用時系列データとして用いて、ノード数が増加する時系列パターン記憶ネットワークを、自己組織的に更新するようにしたが、時系列パターン記憶ネットワークの自己組織的な更新にあたっては、新規時系列データと、生成時系列データとの両方を、更新用時系列データとして用いて、ノード数が増加する時系列パターン記憶ネットワークを対象として行う場合よりも、追加学習の性能は劣化するが、新規時系列データだけを、更新用時系列データとして用いて、ノード数が増加する時系列パターン記憶ネットワークを対象に行うことも可能であるし、ノード数が固定の時系列パターン記憶ネットワークを対象として、新規時系列データと、生成時系列データとの両方を、更新用時系列データとして用いて行うことも可能である。
すなわち、図1のデータ処理装置は、ネットワーク管理部7、又は、再学習制御部8のうちのいずれか一方を設けずに構成することが可能である。
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図29は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。 時系列パターン記憶ネットワークの構成例を示す図である。 ノードの構成例を示す図である。 学習部4の構成例を示すブロック図である。 更新重みαを決定する決定方法を説明するための図である。 学習データ記憶部22に記憶させる学習データを更新する更新方法を説明するための図である。 学習処理を説明するフローチャートである。 認識部3の構成例を示すブロック図である。 認識処理を説明するフローチャートである。 生成部6の構成例を示すブロック図である。 生成処理を説明するフローチャートである。 ネットワーク管理部7の構成例を示すブロック図である。 拡大制御部72によるネットワーク拡大処理を説明する図である。 学習回数と、時系列パターン記憶ネットワークのノード数との関係を示す図である。 ネットワーク管理部7が行う処理を説明するフローチャートである。 固定HMM-SOM法による学習と、可変HMM-SOM法による学習の計算の負荷を調査したシミュレーションの結果を示す図である。 固定HMM-SOMを用いた認識処理と、可変HMM-SOMを用いた認識処理の認識率を調査したシミュレーションの結果を示す図である。 可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを示す図である。 可変HMM-SOM法による学習を行った時系列パターン記憶ネットワークを示す図である。 再学習制御部8の構成例を示すブロック図である。 再学習の概要を説明する図である。 再学習制御部8が行う処理を説明するフローチャートである。 再学習を含めた時系列パターン記憶ネットワークの学習の処理を説明するフローチャートである。 再学習と、時系列パターン記憶ネットワークの規模の管理とを含めた時系列パターン記憶ネットワークの学習の処理を説明するフローチャートである。 固定HMM-SOMを用いた認識処理と、定常化可変HMM-SOMを用いた認識処理の認識率を調査したシミュレーションの結果を示す図である。 認識処理の、音声の種類ごとの認識率を示す図である。 固定HMM-SOMを示す図である。 定常化可変HMM-SOMを示す図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
符号の説明
1 信号入力部, 2 特徴抽出部, 3 認識部, 4 学習部, 5 記憶部, 6 生成部, 7 ネットワーク管理部, 8 再学習制御部, 21 時系列パターンモデル, 22 学習データ記憶部, 31 データ選択部, 32 学習処理部, 41 スコア計算部, 42 勝者ノード決定部, 43 重み決定部, 44 学習データ更新部, 45 モデル学習部, 51 スコア計算部, 52 勝者ノード決定部, 53 出力部, 61 生成ノード決定部, 62 時系列決定部, 63 出力部, 71 拡大判定部, 72 拡大制御部, 81 調整部, 82 再学習判定部, 83 ノード決定部, 84 データ供給部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (17)

  1. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークの規模を管理する管理手段と、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段と
    を備え、
    前記学習手段は、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    データ処理装置。
  2. 前記時系列パターン記憶ネットワークは、確率モデルによって、時系列データの統計的な特性を、時系列パターンとして、前記ノードに保持する
    請求項1に記載のデータ処理装置。
  3. 前記時系列パターン記憶ネットワークは、力学モデルによって、時系列データの力学的な特性を、時系列パターンとして、前記ノードに保持する
    請求項1に記載のデータ処理装置。
  4. 前記ノードが保持する時系列パターンの学習に用いられる学習データを記憶する学習データ記憶手段をさらに備え、
    前記学習手段は、
    前記学習データ記憶手段に既に記憶されている前記学習データを、前記更新用時系列データを用いて、新たな学習データに更新する学習データ更新手段を有し、
    前記新たな学習データを用いて、前記ノードが保持する時系列パターンを更新する
    請求項1に記載のデータ処理装置。
  5. 前記生成手段は、前記学習データ記憶手段に記憶されている前記学習データを、前記生成時系列データとして出力する
    請求項4に記載のデータ処理装置。
  6. 前記時系列パターン記憶ネットワークを構成する複数のノードは、格子状に配置されている
    請求項1に記載のデータ処理装置。
  7. 前記学習手段において前記更新用時系列データとして用いる前記新規時系列データと前記生成時系列データとの比率を調整する調整手段をさらに備える
    請求項1に記載のデータ処理装置。
  8. 前記管理手段は、前記時系列パターン記憶ネットワークの自己組織的な更新に応じて、前記時系列パターン記憶ネットワークの規模を拡大する
    請求項1に記載のデータ処理装置。
  9. 前記学習手段は、前記時系列パターン記憶ネットワークの自己組織的な更新に応じて、前記新規時系列データ又は前記生成時系列データを、前記更新用時系列データとして選択する選択手段を有する
    請求項1に記載のデータ処理装置。
  10. 時系列のデータである時系列データに基づき、学習を行うデータ処理方法において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、
    前記時系列パターン記憶ネットワークの規模を管理する管理ステップと、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップと
    を含み、
    前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成ステップにおいて生成される時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    データ処理方法。
  11. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置として、コンピュータを機能させるプログラムにおいて、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークの規模を管理する管理手段と、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段と
    して、コンピュータを機能させるプログラムであって、
    前記学習手段は、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    プログラム。
  12. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段と
    を備え、
    前記学習手段は、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    データ処理装置。
  13. 時系列のデータである時系列データに基づき、学習を行うデータ処理方法において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成ステップと
    を含み、
    前記学習ステップにおいて、外部から観測することができる時系列データである新規時系列データと、前記生成ステップにおいて生成される時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    データ処理方法。
  14. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置として、コンピュータを機能させるプログラムにおいて、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークのノードが保持する時系列パターンの時系列データを生成する生成手段と
    して、コンピュータを機能させるプログラムであって、
    前記学習手段は、外部から観測することができる時系列データである新規時系列データと、前記生成手段が生成する時系列データである生成時系列データとを、時系列パターン記憶ネットワークの自己組織的な更新に用いる更新用時系列データとして、その更新用時系列データを用いて、前記時系列パターン記憶ネットワークを、自己組織的に更新する
    プログラム。
  15. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークの規模を管理する管理手段と
    を備えるデータ処理装置。
  16. 時系列のデータである時系列データに基づき、学習を行うデータ処理方法において、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習ステップと、
    前記時系列パターン記憶ネットワークの規模を管理する管理ステップと
    を含むデータ処理方法。
  17. 時系列のデータである時系列データに基づき、学習を行うデータ処理装置として、コンピュータを機能させるプログラムにおいて、
    時系列データのパターンである時系列パターンを保持する複数のノードから構成されるネットワークである時系列パターン記憶ネットワークを、時系列データを用いて、自己組織的に更新する学習手段と、
    前記時系列パターン記憶ネットワークの規模を管理する管理手段と
    して、コンピュータを機能させるプログラム。
JP2007115693A 2007-04-25 2007-04-25 データ処理装置、データ処理方法、及びプログラム Pending JP2008276290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007115693A JP2008276290A (ja) 2007-04-25 2007-04-25 データ処理装置、データ処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007115693A JP2008276290A (ja) 2007-04-25 2007-04-25 データ処理装置、データ処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2008276290A true JP2008276290A (ja) 2008-11-13

Family

ID=40054206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007115693A Pending JP2008276290A (ja) 2007-04-25 2007-04-25 データ処理装置、データ処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2008276290A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080914A (ko) * 2016-12-06 2019-07-08 후지필름 가부시키가이샤 세포 화상 평가 장치 및 세포 화상 평가 제어 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09147045A (ja) * 1995-11-17 1997-06-06 Toyo Electric Mfg Co Ltd ニューラルネットワーク
JP2006162898A (ja) * 2004-12-06 2006-06-22 Sony Corp 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、並びにプログラム
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09147045A (ja) * 1995-11-17 1997-06-06 Toyo Electric Mfg Co Ltd ニューラルネットワーク
JP2006162898A (ja) * 2004-12-06 2006-06-22 Sony Corp 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、並びにプログラム
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199800022010; 岩山 真 外2名著: 'リンク削除に基づく隠れマルコフモデルの自動構成法' 情報処理学会研究報告 第93巻,第5号, 19930121, p.73-80., 社団法人情報処理学会 *
CSNG199800761002; 池田思朗 著: 'HMMの構造探索による音素モデルの生成' 電子情報通信学会論文誌 第J78-D-II巻 第1号, 19950125, pp.10-18., 社団法人電子情報通信学会 *
CSNG200400445001; 道端 正裕: '自己組織化マップの自動追加学習システム' 日本ファジィ学会誌 Vol.14,No.2, 20020415, pp.147〜156, 日本ファジィ学会 *
JPN6009063732; 池田思朗 著: 'HMMの構造探索による音素モデルの生成' 電子情報通信学会論文誌 第J78-D-II巻 第1号, 19950125, pp.10-18., 社団法人電子情報通信学会 *
JPN6010001533; 道端 正裕: '自己組織化マップの自動追加学習システム' 日本ファジィ学会誌 Vol.14,No.2, 20020415, pp.147〜156, 日本ファジィ学会 *
JPN6012039518; 岩山 真 外2名著: 'リンク削除に基づく隠れマルコフモデルの自動構成法' 情報処理学会研究報告 第93巻,第5号, 19930121, p.73-80., 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080914A (ko) * 2016-12-06 2019-07-08 후지필름 가부시키가이샤 세포 화상 평가 장치 및 세포 화상 평가 제어 프로그램
KR102231545B1 (ko) * 2016-12-06 2021-03-23 후지필름 가부시키가이샤 세포 화상 평가 장치 및 세포 화상 평가 제어 프로그램
US11037292B2 (en) 2016-12-06 2021-06-15 Fujifilm Corporation Cell image evaluation device and cell image evaluation control program

Similar Documents

Publication Publication Date Title
JP4201012B2 (ja) データ処理装置、データ処理方法、およびプログラム
JP4639784B2 (ja) 学習装置および学習方法、並びにプログラム
JP2006285899A (ja) 学習装置および学習方法、生成装置および生成方法、並びにプログラム
US7783585B2 (en) Data processing device, data processing method, and program
JP4710933B2 (ja) 学習装置、学習方法、およびプログラム
Turnbull et al. Fast recognition of musical genres using RBF networks
KR20070100160A (ko) 학습 장치, 학습 방법, 및 프로그램
JP2011059815A (ja) 情報処理装置、情報処理方法、及び、プログラム
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
Deng et al. Deep dynamic models for learning hidden representations of speech features
US20110060707A1 (en) Information processing device, information processing method, and program
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
JP4534769B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008276290A (ja) データ処理装置、データ処理方法、及びプログラム
Somervuo Competing hidden markov models on the self-organizing map
KR20200144366A (ko) 로봇을 위한 기동어 인식 모델의 생성
JP5486565B2 (ja) 話者クラスタリング方法、話者クラスタリング装置、プログラム
JP4394972B2 (ja) 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体
JP2007280057A (ja) データ処理装置、データ処理方法、およびプログラム
JP2009043122A (ja) データ処理装置、データ処理方法、及びプログラム
JP2007280007A (ja) データ処理装置、データ処理方法、およびプログラム
JP2008293259A (ja) データ処理装置、データ処理方法、及びプログラム
Fonseka et al. GSOM sequence: An unsupervised dynamic approach for knowledge discovery in temporal data
Wang et al. Transfer learning based DNN-HMM hybrid system for rare sound event detection
Li et al. I-vector dependent feature space transformations for adaptive speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121122