JP2006171714A

JP2006171714A - 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム

Info

Publication number: JP2006171714A
Application number: JP2005328805A
Authority: JP
Inventors: Tetsuya Hoya; 谷哲也保
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2004-11-22
Filing date: 2005-11-14
Publication date: 2006-06-29
Anticipated expiration: 2025-11-14
Also published as: JP4899177B2

Abstract

【課題】音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システムを提供する。
【解決手段】パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。具体的には、各ニューロンは、音声言語データの階層的な認識レベル（音素レベル、単語レベル、文節レベル及び文レベル）のそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。
【選択図】図２

Description

本発明は、音声言語データのパターン認識を行うパターン認識システムに係り、とりわけ、システム構成を自己適応的に発展させることが可能な自己組織化ニューラルネットワーク構造を備えた自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムに関する。

一般に、音声言語データのパターン認識を行うパターン認識システムでは、隠れマルコフモデル（ＨＭＭ： Hidden Markov Model）（非特許文献１及び２参照）を応用した手法が広く用いられている。

しかしながら、このようなＨＭＭの手法を用いたパターン認識システムでは、人手を介して作成された言語コーパス等の巨大なデータベースを用いて予め内部パラメータの調整（学習）を行う必要があるので、パターン認識の処理に先立って多くの手間がかかってしまうという問題がある。また、実際にパターン認識の処理を行う際にも、例えばビタービサーチアルゴリズム（非特許文献３及び４参照）等を用いて、入力された音声データ（又は符号化された音声データ）とのパターンマッチングを行う必要があるので、その経路検索に多くの時間がかかってしまうという問題がある。さらに、システムの内部構成を自己適応的に発展させることができないので、環境の変化に十分に対応することができないという問題もある。
Ferguson, J. (ed.): "Hidden Markov Models for Speech", Princeton, NJ:IDA, 1980. 鹿野、伊藤、河原、武田、山本（編）、音声認識システム、IT-Text、情報処理学会、2001. Viterbi, A. J.: "Error bounds for convolutional codes and an asymptotically optimal decoding algorithm", IEEE Trans. Information Theory, IT-13: 260-269, Apr. 1967. Forney, G. D.: "The Viterbi algorithm", Proc. IEEE, 61: 268-278, Mar. 1973.

本発明はこのような点を考慮してなされたものであり、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムを提供することを目的とする。

本発明は、第１の解決手段として、音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部とを備え、前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されていることを特徴とする自己発展型音声言語パターン認識システムを提供する。

なお、上述した第１の解決手段において、前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることが好ましい。

また、上述した第１の解決手段において、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応しているとよい。また、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していてもよい。

さらに、上述した第１の解決手段において、前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも２つ以上のレベルを含むことが好ましい。

さらに、上述した第１の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことが好ましい。

さらに、上述した第１の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することが好ましい。また、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる１段目のネットワーク階層においては、当該１段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、ｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層においては、前段である（ｎ−１）段目のネットワーク階層に含まれるニューロンのうち前記各ｎ段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持してもよい。

本発明は、第２の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる１番目の認識レベルに対応する大きさｓ_１の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層内に追加する第１ステップと、前記第１ステップが終了した後、ｎ＝２〜Ｎ（Ｎは２以上の整数）のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、(a)外部から入力された入力データに基づいて、当該入力データに含まれるｎ番目の認識レベルに対応する大きさｓ_ｎの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてｎ段目のネットワーク階層に追加する処理、及び(b)上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した（ｎ−１）段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、を繰り返す第２ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。

本発明は、第３の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる１番目の認識レベルに対応する大きさｓ_１の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層内に追加する第１ステップと、前記第１ステップと並行して、又は、前記第１ステップが終了した後、ｎ番目の認識レベルに対応する大きさｓ_ｎの単位の音声言語データを認識するためのｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層に関して次の(a)の処理、すなわち、(a)外部から入力された入力データに基づいて、ある所定の期間ｐ_１内に、ｎ段目のネットワーク階層の前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、ｎ段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンに伴って、ｎ段目のネットワーク階層に含まれるニューロンが発火しなければ、当該（ｎ−１）段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてｎ段目のネットワーク階層に追加する処理、を行う第２ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。

なお、上述した第３の解決手段においては、前記第２ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間ｐ_１内に、ｎ段目のネットワーク階層の前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間ｐ_２内に、ｎ段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行ってもよい。

なお、上述した第２又は第３の解決手段において、前記ｎ番目の認識レベルに対応する大きさｓ_ｎは、ｎの値が小さい程小さくなるとよい。また、前記ｎ番目の認識レベルに対応する大きさｓ_ｎは、ｎの値が小さい程大きくなってもよい。

また、上述した第２又は第３の解決手段において、前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも２つ以上のレベルを含むことが好ましい。

本発明は、第４の解決手段として、上述した第２又は第３の解決手段に係る方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラムを提供する。

本発明の第１の解決手段によれば、パターン認識部内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル（音素レベル、単語レベル、文節レベル及び文レベル等）に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。

本発明の第２及び第４の解決手段によれば、上述した第１の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いているので、上述した第１の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。

本発明の第３及び第４の解決手段によれば、上述した第１の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いているので、入力データの大きさの切り替え等を行う必要がなく、上述した第１の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。

発明を実施するための形態

以下、図面を参照して本発明の実施の形態について説明する。

まず、図１により、本実施の形態に係る自己発展型音声言語パターン認識システムの全体構成について説明する。

図１に示すように、本実施の形態に係る自己発展型音声言語パターン認識システム１０は、音声言語データのパターン認識を行うものであり、センサー等から入力された音声言語データの特徴を抽出して特徴データを出力する特徴抽出部１１と、特徴抽出部１１から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部１２とを備えている。また、自己発展型音声言語パターン認識システム１０は、特徴抽出部１１及びパターン認識部１２を制御して、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造の構築又は学習処理、及び、構築された自己組織化ニューラルネットワーク構造による音声言語データの認識処理を行う外部制御部１３を備えている。

このうち、特徴抽出部１１は、センサー等から入力された音声言語データに対して離散化及び帯域分割等の処理を施すことにより、パターン認識部１２へ入力される入力データｘ（本明細書において下線付きの英字はベクトルを表す）を生成するものである。なお、特徴抽出部１１は、外部制御部１３による制御の下で、特徴抽出部１１から出力される特徴データ（入力データｘ）の大きさを制御することができるようになっている。

パターン認識部１２は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロン（カーネルユニット）を含む自己組織化ニューラルネットワーク構造を有している。なお、ここでいう核関数（カーネル関数）とは、ある２つのデータ（ベクトル）の関係を出力する関数をいう（文献『N. Cristianini and J. S. Taylor, "An Introduction to Support Vector Machines", Cambridge Univ. Press, 2000.』参照）。このような核関数としては任意のものを用いることができるが、２つのデータ（ベクトル）の相互関係を距離で表してその度合いをスカラー形式で出力するようなラジアル基底関数が好ましく用いられる。

なお、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造は、本発明者が先に提案した自己組織化カーネルメモリ（ＳＯＫＭ：self-organising kernel memory）（特願２００４−３８５０４号参照）に相当するものであり、特徴抽出部１１から出力された特徴データ（入力データｘ）に基づいて構築又は学習されるものである。具体的には、パターン認識部１２は、初期状態ではニューロンが全く存在しておらず、与えられた条件下で、入力データｘに含まれるデータが選択的に取り出され、それに基づいてニューロンが自己増殖的に順次追加されることにより、また、Ｈｅｂｂの法則に基づく自己組織化アルゴリズムに従ってそれらの複数のニューロンが相互に結合されてネットワークが形成されることにより行われる。なお、このようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、その入力データ（ベクトル）として、特徴抽出部１１から出力された特徴データ（入力データｘ）（図２及び図３の実線の矢印参照）、又は、前段のニューロンから出力されたデータ（図２及び図３の破線の矢印参照）のいずれかをとる。また、各ニューロンは、そのテンプレートデータとして、特徴データ（音声言語データ）そのものを保持する他、特徴データ（音声言語データ）に対応する数値ラベル等を保持することができる。

さらに、以上のようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、そのテンプレートデータとして、１段目のネットワーク階層においては、当該１段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データ（音声言語データ）を保持する一方で、それよりも上段のｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層においては、前段である（ｎ−１）段目のネットワーク階層に含まれるニューロンのうち各ｎ段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持するようにしてもよい。なお、１段目のネットワーク階層に含まれる各ニューロンがテンプレートデータとして保持する特徴データは、例えば１段目のネットワーク階層が音素レベルの階層である場合を例に挙げれば、時間的に短い生音声のフレームデータを特徴抽出したものであり、必ずしも音声学上の厳密な意味での「音素」に対応するデータである必要はない。

以下、上述したｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層に含まれる各ニューロンで保持されるテンプレートデータ（テンプレート行列）の詳細について説明する。今、単語レベルのネットワーク階層である２段目のネットワーク階層内に存在する単語／ＡＩ／に対応するニューロンＫ^２ _ｉが、１段目のネットワーク階層内に存在する音素／Ａ／、／ＡＩ／、／Ｉ／にそれぞれ対応するニューロンＫ^１ _１、Ｋ^１ _５、Ｋ^１ _６の発火の時間的推移（Ｋ^１ _１−＞Ｋ^１ _５−＞Ｋ^１ _６）に基づいて規定されるものとすると、ニューロンＫ^２ _ｉが保持するテンプレート行列Ｃ^２ _ｉは、例えば次式（１）のように表現することができる。

ここで、上式（１）のテンプレート行列Ｃ^２ _ｉの各要素の値“０”／“１”は、前段である１段目のネットワーク階層に含まれる各ニューロンの発火状態（発火しない（“０”）／発火した（“１”））を表している。また、テンプレート行列Ｃ^２ _ｉの各列番号は、１段目のネットワーク階層に含まれるニューロンの発火した時間に相当している。このことから分かるように、テンプレート行列Ｃ^２ _ｉの各要素の値はいわゆる実際のニューロンのスパイク列（ｓｐｉｋｅｔｒａｉｎｓ）を表象しているとも考えられる。

なお、上式（１）のテンプレート行列Ｃ^２ _ｉは、１段目のネットワーク階層に含まれる各ニューロンの発火の度合いも考慮して一般化すると、次式（２）のように表現することができる。ここで、次式（２）のテンプレート行列Ｃ^２ _ｉにおいて、ｃ_ｊｋはニューロンＫ^１ _ｊの発火の度合いを表している。

上式（１）（２）において、テンプレート行列Ｃ^２ _ｉの各行は、１段目のネットワーク階層に含まれる各ニューロンＫ^１ _１、Ｋ^１ _５、Ｋ^１ _６の発火の時間的推移（上式（１）（２）では過去６ポイント分）を表している。すなわち、２段目のネットワーク階層に含まれるニューロンＫ^２ _ｉが上述したようなテンプレート行列Ｃ^２ _ｉと入力データとのマッチングを行うための核関数を保持するようにすれば、音素レベルのニューロンである上記３つのＫ^１ _１、Ｋ^１ _５、Ｋ^１ _６の発火のパターンが入力として与えられ、かつ、上式（１）（２）のようなテンプレート行列Ｃ^２ _ｉとある程度一致した場合に、当該ニューロンＫ^２ _ｉが発火することとなり、これによって、単語／ＡＩ／のパターン認識を行うことが可能になる。

なお、２段目以降のネットワーク階層に含まれるニューロンにおいては、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングについて、必ずしも１段目のネットワーク階層における入力データ（この場合は音素レベルの特徴データ）の与えられるタイミングと一致する必要はない。

具体的には例えば、１段目のネットワーク階層に含まれるニューロンが持つ核関数Ｋ^１ _ｊが次式（３）（４）のようなシグモイド関数（文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照）等で定義される場合には、１段目のネットワーク階層内のニューロンから発火の強さが出力されるタイミングは入力データが与えられるタイミングとを一致させないようにすることができる。これにより、２段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、１段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整することができる。なお、次式（４）において、ｆ（）はある任意の関数（例えばラジアル基底関数）とすることができる。

また、より簡潔には、外部制御部１３内にダウン・サンプリング機構を設け、１段目のネットワーク階層内のニューロンから出力される発火の強さを時間的に不連続な形で取得することにより、２段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、１段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整するようにしてもよい。

以上のようにして２段目以降のネットワーク階層に含まれるニューロンにおいて、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングを調整することにより、前段のネットワーク階層内のニューロンから出力される出力データを間引くことが可能となり、テンプレート行列の列数を大幅に減らすことができる。また、１段目のネットワーク階層内のニューロンが持つ核関数Ｋ^１ _ｊに関し、上式（４）の関数ｆ（）は任意に設定することが可能であるので、この関数ｆ（）を適切に設定することにより、挙動がより複雑な人間の認知構造を模倣するような言語パターン認識システム等を構築することも可能となる。

なお、以上においては、音素レベルのネットワーク階層（１段目のネットワーク階層）と単語レベルのネットワーク階層（２段目のネットワーク階層）との関係を例に挙げて、単語レベルのネットワーク階層に含まれる各ニューロンで保持されるテンプレート行列について説明したが、より上位のネットワーク階層の関係（すなわち、単語レベルのネットワーク階層と文節レベルのネットワーク階層との関係、及び、文節レベルのネットワーク階層と文レベルのネットワーク階層との関係）についても同様であり、上式（１）（２）に示すようなテンプレート行列を持つニューロンが、文節レベルのネットワーク階層に含まれる各ニューロン及び文レベルのネットワーク階層に含まれる各ニューロンとして追加される。

ここで、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。

具体的には、自己組織化ニューラルネットワーク構造に含まれる各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。例えば、階層的な認識レベルが音素レベル、単語レベル、文節レベル及び文レベルの４つのレベルであるものとすると、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造は、図２又は図３に示すような構成をとることができる。なお、図２及び図３に示すような自己組織化ニューラルネットワーク構造において、各レベル間に含まれるニューロン間における信号の流れは単一の方向のみと仮定する。（すなわち、図２及び図３に示すような自己組織化ニューラルネットワーク構造は相互結合型ニューラルネットワークであるので（特願２００４−３８５０４号参照）、原理上、双方向の信号の流れを表現することができるが、ここでは、逆方向の信号の流れ（例えば単語レベルから音素レベルへの信号の流れ）は考慮しないものとする。

ここで、図２に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データｘが直接入力されるニューロンを含む入力側ネットワーク階層が、音素等の比較的小さな（時間的に短い）単位の音声言語データを認識する音素レベルネットワーク階層であり、当該入力側ネットワーク階層から離れるにつれて、比較的大きな単位の音声言語データを認識するネットワーク階層（単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層）が配置されている。なお、図２においては例えば、音素レベルのニューロンである／ＡＫ／、／ＫＡ／、／ＡＩ／、／Ｉ／は入力データｘが直接入力されるように構成されており、単語レベルのニューロンである／ＡＫＡＩ／は、音素レベルのニューロンである／ＡＫ／、／ＫＡ／、／ＡＩ／、／Ｉ／に接続されている。

これに対し、図３に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データｘが直接入力されるニューロンを含む入力側ネットワーク階層が、文等の比較的大きな（時間的に長い）単位の音声言語データを認識する文レベルネットワークであり、当該入力側ネットワーク階層から離れるにつれて、比較的小さな単位の音声言語データを認識するネットワーク階層（単語レベルネットワーク階層及び音素レベルネットワーク階層）が配置されている。

なお、図２及び図３に示す自己組織化ニューラルネットワーク構造において、その構造内に含まれるニューロンは、テンプレートデータの大きさが異なっていても相互に結合可能であり、また、結合された他のニューロンの発火に起因して当該ニューロンの発火が促されるので、この特性を利用することにより、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を容易に構築することができる。すなわち、今、ある二つのニューロンＡ及びＢがそれぞれ異なる大きさのテンプレートデータＴ_Ａ及びＴ_Ｂをあらかじめ保持している仮定する。すると、例えば、ニューロンＡがある入力データに基づいて発火した場合、それに結合されているニューロンＢにその発火が伝わり、それらのウェイト係数の値に応じてニューロンＢが発火することがあり得る。このため、このような特性を用いるようにすれば、例えば、音素レベルネットワーク階層に含まれるニューロン群から単語レベルネットワーク階層に含まれるニューロンへの結合を実現して、階層的な認識レベル（音素レベル、単語レベル、文節レベル及び文レベル）に対応する複数のニューロンを段階的に関係付けることができる。

ここで、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、そのパターン認識結果は、例えば、自己組織化ニューラルネットワーク構造内で発火した全てのニューロンのうちで最も発火率の大きいものを選択し、その値（クラスＩＤの値等）を出力することにより、得ることができる。また、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、複数のニューロンがネットワーク階層単位で段階的に配置されているので、そのパターン認識結果は、例えば、それぞれのネットワーク階層単位（例えば、音素レベルネットワーク階層や単語レベルネットワーク階層等）で最も発火率の大きいニューロンを選択し、その値（クラスＩＤの値等）を出力することにより、得ることができる。

次に、図１に示す自己発展型音声言語パターン認識システム１０において、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する方法の詳細について説明する。

［概要］
図１に示す自己発展型音声言語パターン認識システム１０において、特徴抽出部１１から出力された特徴データ（入力データｘ）は、外部制御部１３による制御の下で、パターン認識部１２へ入力され、この入力された特徴データ（入力データｘ）に基づいて、パターン認識部１２にて、音声言語データのパターン認識の処理を実現するための自己組織化ニューラルネットワーク構造の構築又は学習が行われる。なお、このような構築又は学習の方式としては、例えば次のような３種類の方式を挙げることができる。以下、それぞれの方式の概要を説明する。

（合成方式）
第１の方式は、合成（synthesis）方式又はボトムアップ方式と呼ばれるものであり、例えば、音素等の比較的小さな（時間的に短い）単位の音声言語データを認識する音素レベルネットワーク階層から、比較的大きな単位の音声言語データを認識するネットワーク階層（単語レベルネットワーク階層→文節レベルネットワーク階層→文レベルネットワーク階層）を順に構築するものである。この場合、特徴抽出部１１から出力されてパターン認識部１２へ入力される入力データｘは、外部制御部１３による制御の下で、音声言語データの最小単位（例えば音素単位）から最大単位（例えば文単位）まで所定の期間ごとにこの順番で変えられる。そして、外部制御部１３による制御の下で、パターン認識部１２にて、まず、音素レベルでパターン認識可能なネットワークが最初に構築され、次いで、単語レベル、文節レベル及び文レベルのネットワークがこの順番で順に構築される。これにより、図２に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。なお、以上のような方式以外にも、後述するような並列型学習方式を用いて、自己組織化ニューラルネットワーク構造を構築することも可能である。

（分析方式）
第２の方式は、分析（analysis）又はトップダウン方式と呼ばれるものであり、ソシュール（Saussure）の差異（difference）構造の概念（文献『丸山圭三郎、ソシュールの思想、岩波書店、1981.』参照）に基づいて、文等の比較的大きな（時間的に長い）単位の音声言語データを認識する文レベルネットワーク階層から、比較的小さな単位の音声言語データを認識するネットワーク階層（文節レベルネットワーク階層→単語レベルネットワーク階層→音素レベルネットワーク階層）を順に構築するものである。この場合、特徴抽出部１１から出力されてパターン認識部１２へ入力される入力データｘは、外部制御部１３による制御の下で、予め決められた音声言語データの最大単位（例えば文単位）で与えられる。そして、外部制御部１３による制御の下で、パターン認識部１２にて、まず、文レベルでパターン認識可能なネットワークが最初に構築され、次いで、上記合成方式とは逆に、ソシュールの差異構造に従うような形で、文節レベル、単語レベル及び音素レベルのネットワークがこの順番で順に構築される。これにより、図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

（分析合成方式）
第３の方式は、分析合成（analysis-systhesis）方式又はボトムアップ・トップダウン混在方式と呼ばれるものである。この場合、特徴抽出部１１から出力されてパターン認識部１２へ入力される入力データｘは、初期の段階では、外部制御部１３による制御の下で、音声言語データの任意の単位（例えば音素単位、単語単位、文節単位及び文単位）で与えられ、まず、図４に示すような自己組織化ニューラルネットワーク構造が構築される。次いで、その後の段階で、このようにしてパターン認識部１２内に構築された自己組織化ニューラルネットワーク構造に含まれる複数のニューロンを前提として、上述したような合成方式及び／又は分析方式に従って、複数のニューロンが相互に段階的に関係付けられることにより、図２及び／又は図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築（再編成）される。なお、自己組織化ニューラルネットワーク構造で中間的に構築される図４の構成は、ネットワーク階層（音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層）の区別のない構成であり、全てのニューロンに対して入力データｘが直接入力されている。

なお、図４に示すような自己組織化ニューラルネットワーク構造（階層構造を考慮しないネットワーク構造）は、上述したダウン・サンプリング機構（１段目のネットワーク階層内のニューロンの発火の強さをダウン・サンプリングするメカニズム）として、サンプリング周期が異なるものを複数個用意し、後述する自己組織化ニューラルネットワーク構造の第２の構築方法に従って、ネットワーク構造の構築又は学習を行うようにするとよい。これにより、異なる列数のテンプレート行列を持つ複数のニューロンがネットワーク構造内に一括して追加されることとなり、異なるレベルのネットワーク階層に含まれるようなニューロンが同時に追加される。

［具体的な構築方法］
次に、上述した自己組織化ニューラルネットワーク構造の第１の構築方法として、上述した合成方式に従って、図２に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築するための具体的な手順について説明する。

まず、フェーズ１の処理として、外部制御部１３による制御の下で、特徴抽出部１１から出力される特徴データ（入力データｘ）の大きさを制御し、音素単位の音声言語データ（１番目の認識レベルに対応する大きさｓ_１の単位の音声言語データ）がパターン認識部１２へ入力されるようにする。

この状態で、パターン認識部１２において、所定の期間ｐ_１に亘って、外部から入力された音素単位の音声言語データに基づいて、当該音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層（音素レベルネットワーク階層）内に追加する。

次いで、フェーズ２の処理として、以上のようにして１段目のネットワーク階層（音素レベルネットワーク階層）の構築が終了した後、外部制御部１３による制御の下で、特徴抽出部１１から出力される入力データｘの大きさを切り替え、単語単位の音声言語データ（２番目の認識レベルに対応する大きさｓ_２の単位の音声言語データ）がパターン認識部１２へ入力されるようにする。

この状態で、パターン認識部１２において、所定の期間ｐ_２に亘って、外部から入力された単語単位の音声言語データに基づいて、当該単語単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして２段目のネットワーク階層（単語レベルネットワーク階層）内に追加する。また、このようにして追加されたニューロンを、入力データｘである単語単位の音声言語データに起因して連鎖的に発火した１段目のネットワーク階層（音素レベルネットワーク階層）に含まれるニューロンに対してウェイト係数を介して相互に結合する。

同様にして、上述したフェーズ２と同様の処理を、フェーズｎ（ｎ＝３，４，…）の処理として、所定の期間ｐ_ｎに亘って行い、ｎ段目のネットワーク階層（例えば、文節レベルネットワーク階層や文レベルネットワーク階層等）を順次構築する。

なお、以上において、目的とするＮ段目のネットワーク階層（例えば４段目の文レベルネットワーク階層）が構築された場合には、再度、フェーズ１に戻って、音素レベルネットワーク階層から構築又は学習を繰り返すようにしてもよい。また、各フェーズｎの期間ｐ_ｎ（ｎ＝１，２，．．．，Ｎ）はそれぞれのネットワーク階層の構築又は学習に必要とされる時間を考慮して適宜異なる期間としてもよい。

以上により、図２に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

なお、上述した自己組織化ニューラルネットワーク構造の第１の構築方法においては、構築される自己組織化ニューラルネットワーク構造に含まれる各ネットワーク階層のニューロンがそのテンプレートデータとして特徴データ（音声言語データ）そのものを保持する場合を例に挙げて説明したが、ｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層のニューロンが上式（１）（２）のようなテンプレート行列を保持する場合には、次に述べる第２の構築方法のような手順で、図２に示すような階層構造を備えた自己組織化ニューラルネットワーク構造の構築又は学習を行うことができる。

具体的には、自己組織化ニューラルネットワーク構造の第２の構築方法の手順は次のとおりである。なお、以下に述べる第２の構築方法において、２段目以降のネットワーク階層の構築及び学習は、自己組織化カーネルメモリー（SOKM: self-organising kernel memory）の学習則（特願２００４−３８５０４号及び文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照）を拡張したものである。

まず、外部制御部１３による制御の下で、特徴抽出部１１から出力される特徴データ（入力データｘ）の大きさを制御し、全ての認識レベルに対応する大きさｓ_１〜ｓ_ｎの単位の音声言語データ（音素単位、単語単位及び文節単位の音声言語データ）を含む文単位の音声言語データがパターン認識部１２へ入力されるようにする。

そして、フェーズ１の処理として、パターン認識部１２において、外部から入力された文単位の音声言語データに基づいて、当該音声言語データに含まれる音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層（音素レベルネットワーク階層）内に追加する。

そして、以上のフェーズ１の処理と並行して、又は、フェーズ１の処理が終了した後、ｎ番目の認識レベルに対応する大きさｓ_ｎの単位の音声言語データを認識するためのｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層に関して次の(a)の処理を行う。

すなわち、
(1) 前段である（ｎ−１）段目のネットワーク階層において、もし、ある期間ｐ_１内に、複数のニューロンが発火した場合には、次の処理を行う。
(1-i) もし、前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、後段のネットワーク階層であるｎ段目のネットワーク階層に含まれるニューロンＫ^ｎ _ｉ（ｎ＝２，３，．．．）のいずれかが発火した場合には、
ニューロンＫ^ｎ _ｉとニューロンＫ^ｎ−１ _ｊとの間を結び付けるウェイト係数ｗ_ｉｊを次の規則に従って更新する。
ｗ_ｉｊ＝ｗ_ｉｊ＋Δ_１・ｗ_ｉｊ（ｗ_ｉｊが存在している場合）
＝ｗ_{ｉｊ，ｍａｘ} （ｗ_ｉｊ＞ｗ_{ｉｊ，ｍａｘ}の場合）
＝ｗ_ｉｎｉｔ（ｗ_ｉｊが存在していない場合）
(1-ii) さもなければ、新たなニューロンをｎ段目のネットワーク階層に追加する。なお、この新たなニューロンは、そのテンプレートデータとして、（ｎ−１）段目のネットワーク階層に含まれる前記複数のニューロン（期間ｐ_１内に発火したニューロン）の発火の時間的推移を表す行列データを持つものとする。

逆に、もし、外部から入力された入力データに基づいて、ある所定の期間ｐ_１内に、ｎ段目のネットワーク階層の前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間ｐ_２内に、ｎ段目のネットワーク階層に含まれる何れのニューロンＫ^ｎ _ｉも発火しない場合には、ニューロンＫ^ｎ _ｉとニューロンＫ^ｎ−１ _ｊとの間を結び付けるウェイト係数ｗ_ｉｊを次の規則に従って更新する。
ｗ_ｉｊ＝ｗ_ｉｊ−Δ_２・ｗ_ｉｊ（ｗ_ｉｊ＞ｗ_ｉｎｉｔの場合）
ｗ_ｉｊを消去（そうでない場合）

なお、以上の手順で、ニューロンＫ^ｎ _ｉが前段のネットワーク階層にあるどのニューロンとの間にもウェイト係数による結び付きがない場合には、ニューロンＫ^ｎ _ｉは後段のネットワーク階層から除去される。

以上により、目的とするＮ段（例えば４段）のネットワーク階層（音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層）が並行して構築及び学習され、最終的に、図２に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

なお、以上のようにして構築される自己組織化ニューラルネットワーク構造は、合成方式により構築されたものであるので、そのパフォーマンスは１段目のネットワーク階層（音素レベルネットワーク階層）の構成に大きく依存すると考えられる。このような１段目のネットワーク階層のネットワーク構造としては、上述したような構造（自己組織化カーネルメモリ（ＳＯＫＭ：self-organising kernel memory）を用いた相互結合型ニューラルネットワークシステム（特願２００４−３８５０４号参照））に限らず、発火のパターンをネットワーク構造の出力とするような構造であれば特に制約はない。

なお、以上においては、上述した合成方式の場合を例に挙げて説明したが、上述した分析方式及び分析合成方式の場合でも、同様の手法により、図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができる。

このように本実施の形態によれば、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル（音素レベル、単語レベル、文節レベル及び文レベル等）に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。

また、本実施の形態によれば、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第１の構築手法、すなわち、特定の期間ｐ_ｎ（ｎ＝１，２，．．．，Ｎ）に分けて特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いるようにすれば、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。

また、本実施の形態によれば、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第２の構築手法、すなわち、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いるようにすれば、入力データの大きさの切り替え等を行う必要がなく、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。

なお、上述した実施の形態においては、上述した合成方式、分析方式及び分析合成方式を実現するための具体的な手法として、特定のネットワーク階層の構築又は学習を特定の期間ｐ_ｎ（ｎ＝１，２，．．．，Ｎ）に分けて順次行う、いわゆる直列型学習方式、又は、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式をとる場合を例に挙げて説明したが、図２及び図３に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができれば、これ以外の任意の手法を用いることができることはいうまでもない。

また、上述した実施の形態において、パターン認識部１２内に構築される自己組織化ニューラルネットワーク構造は、上述したような音声言語データに基づいて発火する聴覚モダリティを持つ複数のニューロンに加えて、画像データ等に基づいて発火する視覚、嗅覚及び触覚のうちの少なくとも一つのモダリティを持つ複数のニューロンを含んでいてもよい。この場合には、例えば、聴覚系の音声言語データの入力のみに起因して視覚モダリティを持つニューロンを発火させることも可能となり、いわゆる想起等を模した連想記憶等を行うことが可能となる。

さらに、上述した実施の形態に係る自己発展型音声言語パターン認識システム１０のパターン認識部１２内に構築される自己組織化ニューラルネットワーク構造の構築方法は、例えば、図５に示すようなコンピュータシステム４０上でプログラムにより当該方法を実行させることにより実現することができる。ここで、コンピュータシステム４０は、バス４８と、バス４８に接続されたプロセッサ４１、メモリ４２及びハードディスク４３と、バス４８に接続された周辺機器（キーボードやマウス等の入力装置４４、ディスプレイやプリンタ等の出力装置４５、ＦＤドライブ４６及びＣＤ−ＲＯＭドライブ４７）とを備えている。そして、上述したようなプログラムは、メモリ４２やハードディスク４３、フレキシブルディスク４９及びＣＤ−ＲＯＭ５０等のようなコンピュータ読み取り可能な記録媒体に格納され、プロセッサ４１から逐次読み出されて実行されることにより上述したような機能ないし手順が実現される。

本発明の一実施の形態に係る自己発展型音声言語パターン認識システムの全体構成を示すブロック図。図１に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の一例を示す図。図１に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の他の例を示す図。図１に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の中間的な構成を示す図。本発明の一実施の形態に係る自己発展型音声言語パターン認識システムが実現されるコンピュータシステムの一例を示す図。

符号の説明

１０自己発展型音声言語パターン認識システム
１１特徴抽出部
１２パターン認識部
１３外部制御部

Claims

音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、
音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、
前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部とを備え、
前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されていることを特徴とする自己発展型音声言語パターン認識システム。
前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることを特徴とする、請求項１に記載のシステム。
前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項２に記載のシステム。
前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項２に記載のシステム。
前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも２つ以上のレベルを含むことを特徴とする、請求項１乃至４のいずれか一項に記載のシステム。
前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことを特徴とする、請求項１乃至５のいずれか一項に記載のシステム。
前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することを特徴とする、請求項１乃至６のいずれか一項に記載のシステム。
前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる１段目のネットワーク階層においては、当該１段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、ｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層においては、前段である（ｎ−１）段目のネットワーク階層に含まれるニューロンのうち前記各ｎ段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持することを特徴とする、請求項１乃至６のいずれか一項に記載のシステム。
核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、
外部から入力された入力データに基づいて、当該入力データに含まれる１番目の認識レベルに対応する大きさｓ_１の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層内に追加する第１ステップと、
前記第１ステップが終了した後、ｎ＝２〜Ｎ（Ｎは２以上の整数）のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、
(a) 外部から入力された入力データに基づいて、当該入力データに含まれるｎ番目の認識レベルに対応する大きさｓ_ｎの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてｎ段目のネットワーク階層に追加する処理、及び
(b) 上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した（ｎ−１）段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、
を繰り返す第２ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。
核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、
外部から入力された入力データに基づいて、当該入力データに含まれる１番目の認識レベルに対応する大きさｓ_１の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして１段目のネットワーク階層内に追加する第１ステップと、
前記第１ステップと並行して、又は、前記第１ステップが終了した後、ｎ番目の認識レベルに対応する大きさｓ_ｎの単位の音声言語データを認識するためのｎ（ｎ＝２〜Ｎ（Ｎは２以上の整数））段目のネットワーク階層に関して次の(a)の処理、すなわち、
(a) 外部から入力された入力データに基づいて、ある所定の期間ｐ_１内に、ｎ段目のネットワーク階層の前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、ｎ段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンに伴って、ｎ段目のネットワーク階層に含まれるニューロンが発火しなければ、当該（ｎ−１）段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてｎ段目のネットワーク階層に追加する処理、
を行う第２ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。
前記第２ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間ｐ_１内に、ｎ段目のネットワーク階層の前段である（ｎ−１）段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間ｐ_２内に、ｎ段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行うことを特徴とする、請求項１０に記載の方法。
前記ｎ番目の認識レベルに対応する大きさｓ_ｎは、ｎの値が小さい程小さくなることを特徴とする、請求項９乃至１１のいずれか一項に記載の方法。
前記ｎ番目の認識レベルに対応する大きさｓ_ｎは、ｎの値が小さい程大きくなることを特徴とする、請求項９乃至１１のいずれか一項に記載の方法。
前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも２つ以上のレベルを含むことを特徴とする、請求項９乃至１３のいずれか一項に記載の方法。
請求項９乃至１４のいずれか一項に記載の方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラム。