JP4899177B2 - 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム - Google Patents

自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム Download PDF

Info

Publication number
JP4899177B2
JP4899177B2 JP2005328805A JP2005328805A JP4899177B2 JP 4899177 B2 JP4899177 B2 JP 4899177B2 JP 2005328805 A JP2005328805 A JP 2005328805A JP 2005328805 A JP2005328805 A JP 2005328805A JP 4899177 B2 JP4899177 B2 JP 4899177B2
Authority
JP
Japan
Prior art keywords
data
self
neurons
level
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005328805A
Other languages
English (en)
Other versions
JP2006171714A (ja
Inventor
谷 哲 也 保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2005328805A priority Critical patent/JP4899177B2/ja
Publication of JP2006171714A publication Critical patent/JP2006171714A/ja
Application granted granted Critical
Publication of JP4899177B2 publication Critical patent/JP4899177B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声言語データのパターン認識を行うパターン認識システムに係り、とりわけ、システム構成を自己適応的に発展させることが可能な自己組織化ニューラルネットワーク構造を備えた自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムに関する。
一般に、音声言語データのパターン認識を行うパターン認識システムでは、隠れマルコフモデル(HMM: Hidden Markov Model)(非特許文献1及び2参照)を応用した手法が広く用いられている。
しかしながら、このようなHMMの手法を用いたパターン認識システムでは、人手を介して作成された言語コーパス等の巨大なデータベースを用いて予め内部パラメータの調整(学習)を行う必要があるので、パターン認識の処理に先立って多くの手間がかかってしまうという問題がある。また、実際にパターン認識の処理を行う際にも、例えばビタービサーチアルゴリズム(非特許文献3及び4参照)等を用いて、入力された音声データ(又は符号化された音声データ)とのパターンマッチングを行う必要があるので、その経路検索に多くの時間がかかってしまうという問題がある。さらに、システムの内部構成を自己適応的に発展させることができないので、環境の変化に十分に対応することができないという問題もある。
Ferguson, J. (ed.): "Hidden Markov Models for Speech", Princeton, NJ:IDA, 1980. 鹿野、伊藤、河原、武田、山本(編)、音声認識システム、IT-Text、情報処理学会、2001. Viterbi, A. J.: "Error bounds for convolutional codes and an asymptotically optimal decoding algorithm", IEEE Trans. Information Theory, IT-13: 260-269, Apr. 1967. Forney, G. D.: "The Viterbi algorithm", Proc. IEEE, 61: 268-278, Mar. 1973.
本発明はこのような点を考慮してなされたものであり、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムを提供することを目的とする。
本発明は、第1の解決手段として、音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部とを備え、前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されていることを特徴とする自己発展型音声言語パターン認識システムを提供する。
なお、上述した第1の解決手段において、前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることが好ましい。
また、上述した第1の解決手段において、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応しているとよい。また、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していてもよい。
さらに、上述した第1の解決手段において、前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことが好ましい。
さらに、上述した第1の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことが好ましい。
さらに、上述した第1の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することが好ましい。また、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち前記各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持してもよい。
本発明は、第2の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップが終了した後、n=2〜N(Nは2以上の整数)のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、(a)外部から入力された入力データに基づいて、当該入力データに含まれるn番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、及び(b)上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した(n−1)段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、を繰り返す第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。
本発明は、第3の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップと並行して、又は、前記第1ステップが終了した後、n番目の認識レベルに対応する大きさsの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理、すなわち、(a)外部から入力された入力データに基づいて、ある所定の期間p内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、n段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンに伴って、n段目のネットワーク階層に含まれるニューロンが発火しなければ、当該(n−1)段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、を行う第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。
なお、上述した第3の解決手段においては、前記第2ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間p内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p内に、n段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行ってもよい。
なお、上述した第2又は第3の解決手段において、前記n番目の認識レベルに対応する大きさsは、nの値が小さい程小さくなるとよい。また、前記n番目の認識レベルに対応する大きさsは、nの値が小さい程大きくなってもよい。
また、上述した第2又は第3の解決手段において、前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことが好ましい。
本発明は、第4の解決手段として、上述した第2又は第3の解決手段に係る方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラムを提供する。
本発明の第1の解決手段によれば、パターン認識部内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル等)に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。
本発明の第2及び第4の解決手段によれば、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いているので、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。
本発明の第3及び第4の解決手段によれば、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いているので、入力データの大きさの切り替え等を行う必要がなく、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。
発明を実施するための形態
以下、図面を参照して本発明の実施の形態について説明する。
まず、図1により、本実施の形態に係る自己発展型音声言語パターン認識システムの全体構成について説明する。
図1に示すように、本実施の形態に係る自己発展型音声言語パターン認識システム10は、音声言語データのパターン認識を行うものであり、センサー等から入力された音声言語データの特徴を抽出して特徴データを出力する特徴抽出部11と、特徴抽出部11から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部12とを備えている。また、自己発展型音声言語パターン認識システム10は、特徴抽出部11及びパターン認識部12を制御して、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造の構築又は学習処理、及び、構築された自己組織化ニューラルネットワーク構造による音声言語データの認識処理を行う外部制御部13を備えている。
このうち、特徴抽出部11は、センサー等から入力された音声言語データに対して離散化及び帯域分割等の処理を施すことにより、パターン認識部12へ入力される入力データx(本明細書において下線付きの英字はベクトルを表す)を生成するものである。なお、特徴抽出部11は、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御することができるようになっている。
パターン認識部12は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロン(カーネルユニット)を含む自己組織化ニューラルネットワーク構造を有している。なお、ここでいう核関数(カーネル関数)とは、ある2つのデータ(ベクトル)の関係を出力する関数をいう(文献『N. Cristianini and J. S. Taylor, "An Introduction to Support Vector Machines", Cambridge Univ. Press, 2000.』参照)。このような核関数としては任意のものを用いることができるが、2つのデータ(ベクトル)の相互関係を距離で表してその度合いをスカラー形式で出力するようなラジアル基底関数が好ましく用いられる。
なお、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、本発明者が先に提案した自己組織化カーネルメモリ(SOKM:self-organising kernel memory)(特願2004−38504号参照)に相当するものであり、特徴抽出部11から出力された特徴データ(入力データx)に基づいて構築又は学習されるものである。具体的には、パターン認識部12は、初期状態ではニューロンが全く存在しておらず、与えられた条件下で、入力データxに含まれるデータが選択的に取り出され、それに基づいてニューロンが自己増殖的に順次追加されることにより、また、Hebbの法則に基づく自己組織化アルゴリズムに従ってそれらの複数のニューロンが相互に結合されてネットワークが形成されることにより行われる。なお、このようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、その入力データ(ベクトル)として、特徴抽出部11から出力された特徴データ(入力データx)(図2及び図3の実線の矢印参照)、又は、前段のニューロンから出力されたデータ(図2及び図3の破線の矢印参照)のいずれかをとる。また、各ニューロンは、そのテンプレートデータとして、特徴データ(音声言語データ)そのものを保持する他、特徴データ(音声言語データ)に対応する数値ラベル等を保持することができる。
さらに、以上のようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、そのテンプレートデータとして、1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データ(音声言語データ)を保持する一方で、それよりも上段のn(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持するようにしてもよい。なお、1段目のネットワーク階層に含まれる各ニューロンがテンプレートデータとして保持する特徴データは、例えば1段目のネットワーク階層が音素レベルの階層である場合を例に挙げれば、時間的に短い生音声のフレームデータを特徴抽出したものであり、必ずしも音声学上の厳密な意味での「音素」に対応するデータである必要はない。
以下、上述したn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に含まれる各ニューロンで保持されるテンプレートデータ(テンプレート行列)の詳細について説明する。今、単語レベルのネットワーク階層である2段目のネットワーク階層内に存在する単語/AI/に対応するニューロンK が、1段目のネットワーク階層内に存在する音素/A/、/AI/、/I/にそれぞれ対応するニューロンK 、K 、K の発火の時間的推移(K −>K −>K )に基づいて規定されるものとすると、ニューロンK が保持するテンプレート行列C は、例えば次式(1)のように表現することができる。
Figure 0004899177
ここで、上式(1)のテンプレート行列C の各要素の値“0”/“1”は、前段である1段目のネットワーク階層に含まれる各ニューロンの発火状態(発火しない(“0”)/発火した(“1”))を表している。また、テンプレート行列C の各列番号は、1段目のネットワーク階層に含まれるニューロンの発火した時間に相当している。このことから分かるように、テンプレート行列C の各要素の値はいわゆる実際のニューロンのスパイク列(spike trains)を表象しているとも考えられる。
なお、上式(1)のテンプレート行列C は、1段目のネットワーク階層に含まれる各ニューロンの発火の度合いも考慮して一般化すると、次式(2)のように表現することができる。ここで、次式(2)のテンプレート行列C において、cjkはニューロンK の発火の度合いを表している。
Figure 0004899177
上式(1)(2)において、テンプレート行列C の各行は、1段目のネットワーク階層に含まれる各ニューロンK 、K 、K の発火の時間的推移(上式(1)(2)では過去6ポイント分)を表している。すなわち、2段目のネットワーク階層に含まれるニューロンK が上述したようなテンプレート行列C と入力データとのマッチングを行うための核関数を保持するようにすれば、音素レベルのニューロンである上記3つのK 、K 、K の発火のパターンが入力として与えられ、かつ、上式(1)(2)のようなテンプレート行列C とある程度一致した場合に、当該ニューロンK が発火することとなり、これによって、単語/AI/のパターン認識を行うことが可能になる。
なお、2段目以降のネットワーク階層に含まれるニューロンにおいては、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングについて、必ずしも1段目のネットワーク階層における入力データ(この場合は音素レベルの特徴データ)の与えられるタイミングと一致する必要はない。
具体的には例えば、1段目のネットワーク階層に含まれるニューロンが持つ核関数K が次式(3)(4)のようなシグモイド関数(文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照)等で定義される場合には、1段目のネットワーク階層内のニューロンから発火の強さが出力されるタイミングは入力データが与えられるタイミングとを一致させないようにすることができる。これにより、2段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、1段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整することができる。なお、次式(4)において、f()はある任意の関数(例えばラジアル基底関数)とすることができる。
Figure 0004899177
また、より簡潔には、外部制御部13内にダウン・サンプリング機構を設け、1段目のネットワーク階層内のニューロンから出力される発火の強さを時間的に不連続な形で取得することにより、2段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、1段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整するようにしてもよい。
以上のようにして2段目以降のネットワーク階層に含まれるニューロンにおいて、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングを調整することにより、前段のネットワーク階層内のニューロンから出力される出力データを間引くことが可能となり、テンプレート行列の列数を大幅に減らすことができる。また、1段目のネットワーク階層内のニューロンが持つ核関数K に関し、上式(4)の関数f()は任意に設定することが可能であるので、この関数f()を適切に設定することにより、挙動がより複雑な人間の認知構造を模倣するような言語パターン認識システム等を構築することも可能となる。
なお、以上においては、音素レベルのネットワーク階層(1段目のネットワーク階層)と単語レベルのネットワーク階層(2段目のネットワーク階層)との関係を例に挙げて、単語レベルのネットワーク階層に含まれる各ニューロンで保持されるテンプレート行列について説明したが、より上位のネットワーク階層の関係(すなわち、単語レベルのネットワーク階層と文節レベルのネットワーク階層との関係、及び、文節レベルのネットワーク階層と文レベルのネットワーク階層との関係)についても同様であり、上式(1)(2)に示すようなテンプレート行列を持つニューロンが、文節レベルのネットワーク階層に含まれる各ニューロン及び文レベルのネットワーク階層に含まれる各ニューロンとして追加される。
ここで、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。
具体的には、自己組織化ニューラルネットワーク構造に含まれる各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。例えば、階層的な認識レベルが音素レベル、単語レベル、文節レベル及び文レベルの4つのレベルであるものとすると、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、図2又は図3に示すような構成をとることができる。なお、図2及び図3に示すような自己組織化ニューラルネットワーク構造において、各レベル間に含まれるニューロン間における信号の流れは単一の方向のみと仮定する。(すなわち、図2及び図3に示すような自己組織化ニューラルネットワーク構造は相互結合型ニューラルネットワークであるので(特願2004−38504号参照)、原理上、双方向の信号の流れを表現することができるが、ここでは、逆方向の信号の流れ(例えば単語レベルから音素レベルへの信号の流れ)は考慮しないものとする。
ここで、図2に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データxが直接入力されるニューロンを含む入力側ネットワーク階層が、音素等の比較的小さな(時間的に短い)単位の音声言語データを認識する音素レベルネットワーク階層であり、当該入力側ネットワーク階層から離れるにつれて、比較的大きな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)が配置されている。なお、図2においては例えば、音素レベルのニューロンである/AK/、/KA/、/AI/、/I/は入力データxが直接入力されるように構成されており、単語レベルのニューロンである/AKAI/は、音素レベルのニューロンである/AK/、/KA/、/AI/、/I/に接続されている。
これに対し、図3に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データxが直接入力されるニューロンを含む入力側ネットワーク階層が、文等の比較的大きな(時間的に長い)単位の音声言語データを認識する文レベルネットワークであり、当該入力側ネットワーク階層から離れるにつれて、比較的小さな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層及び音素レベルネットワーク階層)が配置されている。
なお、図2及び図3に示す自己組織化ニューラルネットワーク構造において、その構造内に含まれるニューロンは、テンプレートデータの大きさが異なっていても相互に結合可能であり、また、結合された他のニューロンの発火に起因して当該ニューロンの発火が促されるので、この特性を利用することにより、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を容易に構築することができる。すなわち、今、ある二つのニューロンA及びBがそれぞれ異なる大きさのテンプレートデータT及びTをあらかじめ保持している仮定する。すると、例えば、ニューロンAがある入力データに基づいて発火した場合、それに結合されているニューロンBにその発火が伝わり、それらのウェイト係数の値に応じてニューロンBが発火することがあり得る。このため、このような特性を用いるようにすれば、例えば、音素レベルネットワーク階層に含まれるニューロン群から単語レベルネットワーク階層に含まれるニューロンへの結合を実現して、階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル)に対応する複数のニューロンを段階的に関係付けることができる。
ここで、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、そのパターン認識結果は、例えば、自己組織化ニューラルネットワーク構造内で発火した全てのニューロンのうちで最も発火率の大きいものを選択し、その値(クラスIDの値等)を出力することにより、得ることができる。また、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、複数のニューロンがネットワーク階層単位で段階的に配置されているので、そのパターン認識結果は、例えば、それぞれのネットワーク階層単位(例えば、音素レベルネットワーク階層や単語レベルネットワーク階層等)で最も発火率の大きいニューロンを選択し、その値(クラスIDの値等)を出力することにより、得ることができる。
次に、図1に示す自己発展型音声言語パターン認識システム10において、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する方法の詳細について説明する。
[概要]
図1に示す自己発展型音声言語パターン認識システム10において、特徴抽出部11から出力された特徴データ(入力データx)は、外部制御部13による制御の下で、パターン認識部12へ入力され、この入力された特徴データ(入力データx)に基づいて、パターン認識部12にて、音声言語データのパターン認識の処理を実現するための自己組織化ニューラルネットワーク構造の構築又は学習が行われる。なお、このような構築又は学習の方式としては、例えば次のような3種類の方式を挙げることができる。以下、それぞれの方式の概要を説明する。
(合成方式)
第1の方式は、合成(synthesis)方式又はボトムアップ方式と呼ばれるものであり、例えば、音素等の比較的小さな(時間的に短い)単位の音声言語データを認識する音素レベルネットワーク階層から、比較的大きな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層→文節レベルネットワーク階層→文レベルネットワーク階層)を順に構築するものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、外部制御部13による制御の下で、音声言語データの最小単位(例えば音素単位)から最大単位(例えば文単位)まで所定の期間ごとにこの順番で変えられる。そして、外部制御部13による制御の下で、パターン認識部12にて、まず、音素レベルでパターン認識可能なネットワークが最初に構築され、次いで、単語レベル、文節レベル及び文レベルのネットワークがこの順番で順に構築される。これにより、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。なお、以上のような方式以外にも、後述するような並列型学習方式を用いて、自己組織化ニューラルネットワーク構造を構築することも可能である。
(分析方式)
第2の方式は、分析(analysis)又はトップダウン方式と呼ばれるものであり、ソシュール(Saussure)の差異(difference)構造の概念(文献『丸山圭三郎、ソシュールの思想、岩波書店、1981.』参照)に基づいて、文等の比較的大きな(時間的に長い)単位の音声言語データを認識する文レベルネットワーク階層から、比較的小さな単位の音声言語データを認識するネットワーク階層(文節レベルネットワーク階層→単語レベルネットワーク階層→音素レベルネットワーク階層)を順に構築するものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、外部制御部13による制御の下で、予め決められた音声言語データの最大単位(例えば文単位)で与えられる。そして、外部制御部13による制御の下で、パターン認識部12にて、まず、文レベルでパターン認識可能なネットワークが最初に構築され、次いで、上記合成方式とは逆に、ソシュールの差異構造に従うような形で、文節レベル、単語レベル及び音素レベルのネットワークがこの順番で順に構築される。これにより、図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。
(分析合成方式)
第3の方式は、分析合成(analysis-systhesis)方式又はボトムアップ・トップダウン混在方式と呼ばれるものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、初期の段階では、外部制御部13による制御の下で、音声言語データの任意の単位(例えば音素単位、単語単位、文節単位及び文単位)で与えられ、まず、図4に示すような自己組織化ニューラルネットワーク構造が構築される。次いで、その後の段階で、このようにしてパターン認識部12内に構築された自己組織化ニューラルネットワーク構造に含まれる複数のニューロンを前提として、上述したような合成方式及び/又は分析方式に従って、複数のニューロンが相互に段階的に関係付けられることにより、図2及び/又は図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築(再編成)される。なお、自己組織化ニューラルネットワーク構造で中間的に構築される図4の構成は、ネットワーク階層(音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)の区別のない構成であり、全てのニューロンに対して入力データxが直接入力されている。
なお、図4に示すような自己組織化ニューラルネットワーク構造(階層構造を考慮しないネットワーク構造)は、上述したダウン・サンプリング機構(1段目のネットワーク階層内のニューロンの発火の強さをダウン・サンプリングするメカニズム)として、サンプリング周期が異なるものを複数個用意し、後述する自己組織化ニューラルネットワーク構造の第2の構築方法に従って、ネットワーク構造の構築又は学習を行うようにするとよい。これにより、異なる列数のテンプレート行列を持つ複数のニューロンがネットワーク構造内に一括して追加されることとなり、異なるレベルのネットワーク階層に含まれるようなニューロンが同時に追加される。
[具体的な構築方法]
次に、上述した自己組織化ニューラルネットワーク構造の第1の構築方法として、上述した合成方式に従って、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築するための具体的な手順について説明する。
まず、フェーズ1の処理として、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御し、音素単位の音声言語データ(1番目の認識レベルに対応する大きさsの単位の音声言語データ)がパターン認識部12へ入力されるようにする。
この状態で、パターン認識部12において、所定の期間pに亘って、外部から入力された音素単位の音声言語データに基づいて、当該音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層(音素レベルネットワーク階層)内に追加する。
次いで、フェーズ2の処理として、以上のようにして1段目のネットワーク階層(音素レベルネットワーク階層)の構築が終了した後、外部制御部13による制御の下で、特徴抽出部11から出力される入力データxの大きさを切り替え、単語単位の音声言語データ(2番目の認識レベルに対応する大きさsの単位の音声言語データ)がパターン認識部12へ入力されるようにする。
この状態で、パターン認識部12において、所定の期間pに亘って、外部から入力された単語単位の音声言語データに基づいて、当該単語単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして2段目のネットワーク階層(単語レベルネットワーク階層)内に追加する。また、このようにして追加されたニューロンを、入力データxである単語単位の音声言語データに起因して連鎖的に発火した1段目のネットワーク階層(音素レベルネットワーク階層)に含まれるニューロンに対してウェイト係数を介して相互に結合する。
同様にして、上述したフェーズ2と同様の処理を、フェーズn(n=3,4,…)の処理として、所定の期間pに亘って行い、n段目のネットワーク階層(例えば、文節レベルネットワーク階層や文レベルネットワーク階層等)を順次構築する。
なお、以上において、目的とするN段目のネットワーク階層(例えば4段目の文レベルネットワーク階層)が構築された場合には、再度、フェーズ1に戻って、音素レベルネットワーク階層から構築又は学習を繰り返すようにしてもよい。また、各フェーズnの期間p(n=1,2,...,N)はそれぞれのネットワーク階層の構築又は学習に必要とされる時間を考慮して適宜異なる期間としてもよい。
以上により、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。
なお、上述した自己組織化ニューラルネットワーク構造の第1の構築方法においては、構築される自己組織化ニューラルネットワーク構造に含まれる各ネットワーク階層のニューロンがそのテンプレートデータとして特徴データ(音声言語データ)そのものを保持する場合を例に挙げて説明したが、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層のニューロンが上式(1)(2)のようなテンプレート行列を保持する場合には、次に述べる第2の構築方法のような手順で、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造の構築又は学習を行うことができる。
具体的には、自己組織化ニューラルネットワーク構造の第2の構築方法の手順は次のとおりである。なお、以下に述べる第2の構築方法において、2段目以降のネットワーク階層の構築及び学習は、自己組織化カーネルメモリー(SOKM: self-organising kernel memory)の学習則(特願2004−38504号及び文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照)を拡張したものである。
まず、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御し、全ての認識レベルに対応する大きさs〜sの単位の音声言語データ(音素単位、単語単位及び文節単位の音声言語データ)を含む文単位の音声言語データがパターン認識部12へ入力されるようにする。
そして、フェーズ1の処理として、パターン認識部12において、外部から入力された文単位の音声言語データに基づいて、当該音声言語データに含まれる音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層(音素レベルネットワーク階層)内に追加する。
そして、以上のフェーズ1の処理と並行して、又は、フェーズ1の処理が終了した後、n番目の認識レベルに対応する大きさsの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理を行う。
すなわち、
(1) 前段である(n−1)段目のネットワーク階層において、もし、ある期間p内に、複数のニューロンが発火した場合には、次の処理を行う。
(1-i) もし、前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、後段のネットワーク階層であるn段目のネットワーク階層に含まれるニューロンK (n=2,3,...)のいずれかが発火した場合には、
ニューロンK とニューロンKn−1 との間を結び付けるウェイト係数wijを次の規則に従って更新する。
ij=wij+Δ・wij(wijが存在している場合)
=wij,max (wij>wij,maxの場合)
=winit (wijが存在していない場合)
(1-ii) さもなければ、新たなニューロンをn段目のネットワーク階層に追加する。なお、この新たなニューロンは、そのテンプレートデータとして、(n−1)段目のネットワーク階層に含まれる前記複数のニューロン(期間p内に発火したニューロン)の発火の時間的推移を表す行列データを持つものとする。
逆に、もし、外部から入力された入力データに基づいて、ある所定の期間p内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p内に、n段目のネットワーク階層に含まれる何れのニューロンK も発火しない場合には、ニューロンK とニューロンKn−1 との間を結び付けるウェイト係数wijを次の規則に従って更新する。
ij=wij−Δ・wij(wij>winitの場合)
ijを消去 (そうでない場合)
なお、以上の手順で、ニューロンK が前段のネットワーク階層にあるどのニューロンとの間にもウェイト係数による結び付きがない場合には、ニューロンK は後段のネットワーク階層から除去される。
以上により、目的とするN段(例えば4段)のネットワーク階層(音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)が並行して構築及び学習され、最終的に、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。
なお、以上のようにして構築される自己組織化ニューラルネットワーク構造は、合成方式により構築されたものであるので、そのパフォーマンスは1段目のネットワーク階層(音素レベルネットワーク階層)の構成に大きく依存すると考えられる。このような1段目のネットワーク階層のネットワーク構造としては、上述したような構造(自己組織化カーネルメモリ(SOKM:self-organising kernel memory)を用いた相互結合型ニューラルネットワークシステム(特願2004−38504号参照))に限らず、発火のパターンをネットワーク構造の出力とするような構造であれば特に制約はない。
なお、以上においては、上述した合成方式の場合を例に挙げて説明したが、上述した分析方式及び分析合成方式の場合でも、同様の手法により、図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができる。
このように本実施の形態によれば、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル等)に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。
また、本実施の形態によれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第1の構築手法、すなわち、特定の期間p(n=1,2,...,N)に分けて特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いるようにすれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。
また、本実施の形態によれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第2の構築手法、すなわち、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いるようにすれば、入力データの大きさの切り替え等を行う必要がなく、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。
なお、上述した実施の形態においては、上述した合成方式、分析方式及び分析合成方式を実現するための具体的な手法として、特定のネットワーク階層の構築又は学習を特定の期間p(n=1,2,...,N)に分けて順次行う、いわゆる直列型学習方式、又は、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式をとる場合を例に挙げて説明したが、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができれば、これ以外の任意の手法を用いることができることはいうまでもない。
また、上述した実施の形態において、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、上述したような音声言語データに基づいて発火する聴覚モダリティを持つ複数のニューロンに加えて、画像データ等に基づいて発火する視覚、嗅覚及び触覚のうちの少なくとも一つのモダリティを持つ複数のニューロンを含んでいてもよい。この場合には、例えば、聴覚系の音声言語データの入力のみに起因して視覚モダリティを持つニューロンを発火させることも可能となり、いわゆる想起等を模した連想記憶等を行うことが可能となる。
さらに、上述した実施の形態に係る自己発展型音声言語パターン認識システム10のパターン認識部12内に構築される自己組織化ニューラルネットワーク構造の構築方法は、例えば、図5に示すようなコンピュータシステム40上でプログラムにより当該方法を実行させることにより実現することができる。ここで、コンピュータシステム40は、バス48と、バス48に接続されたプロセッサ41、メモリ42及びハードディスク43と、バス48に接続された周辺機器(キーボードやマウス等の入力装置44、ディスプレイやプリンタ等の出力装置45、FDドライブ46及びCD−ROMドライブ47)とを備えている。そして、上述したようなプログラムは、メモリ42やハードディスク43、フレキシブルディスク49及びCD−ROM50等のようなコンピュータ読み取り可能な記録媒体に格納され、プロセッサ41から逐次読み出されて実行されることにより上述したような機能ないし手順が実現される。
本発明の一実施の形態に係る自己発展型音声言語パターン認識システムの全体構成を示すブロック図。 図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の一例を示す図。 図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の他の例を示す図。 図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の中間的な構成を示す図。 本発明の一実施の形態に係る自己発展型音声言語パターン認識システムが実現されるコンピュータシステムの一例を示す図。
符号の説明
10 自己発展型音声言語パターン認識システム
11 特徴抽出部
12 パターン認識部
13 外部制御部

Claims (16)

  1. 音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、
    音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、
    前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部と、
    外部制御部と、を備え、
    前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されており、
    前記外部制御部は、
    外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、
    前記第1ステップが終了した後、n=2〜N(Nは2以上の整数)のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、
    (a) 外部から入力された入力データに基づいて、当該入力データに含まれるn番目の認識レベルに対応する大きさs の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、及び
    (b) 上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した(n−1)段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、
    を繰り返す第2ステップとを
    行うことにより前記自己組織化ニューラルネットワーク構造を生成する
    ことを特徴とする自己発展型音声言語パターン認識システム。
  2. 音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、
    音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、
    前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部と、
    外部制御部と、を備え、
    前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されており、
    前記外部制御部は、
    外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、
    前記第1ステップと並行して、又は、前記第1ステップが終了した後、n番目の認識レベルに対応する大きさs の単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理、すなわち、
    (a) 外部から入力された入力データに基づいて、ある所定の期間p 内に、n段目
    のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、n段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンに伴って、n段目のネットワーク階層に含まれるニューロンが発火しなければ、当該(n−1)段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、
    を行う第2ステップとを
    行うことにより、自己組織化ニューラルネットワーク構造を生成する、
    ことを特徴とする自己組織化ニューラルネットワーク構造の構築方法。
  3. 前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることを特徴とする、請求項1または2に記載のシステム。
  4. 前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項に記載のシステム。
  5. 前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項に記載のシステム。
  6. 前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことを特徴とする、請求項1乃至のいずれか一項に記載のシステム。
  7. 前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことを特徴とする、請求項1乃至のいずれか一項に記載のシステム。
  8. 前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することを特徴とする、請求項1乃至のいずれか一項に記載のシステム。
  9. 前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち前記各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持することを特徴とする、請求項1乃至のいずれか一項に記載のシステム。
  10. 核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、
    外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、
    前記第1ステップが終了した後、n=2〜N(Nは2以上の整数)のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、
    (a) 外部から入力された入力データに基づいて、当該入力データに含まれるn番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、及び
    (b) 上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した(n−1)段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、
    を繰り返す第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。
  11. 核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、
    外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさsの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、
    前記第1ステップと並行して、又は、前記第1ステップが終了した後、n番目の認識レベルに対応する大きさsの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理、すなわち、
    (a) 外部から入力された入力データに基づいて、ある所定の期間p内に、n段目
    のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、n段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンに伴って、n段目のネットワーク階層に含まれるニューロンが発火しなければ、当該(n−1)段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、
    を行う第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。
  12. 前記第2ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間p内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p内に、n段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行うことを特徴とする、請求項11に記載の方法。
  13. 前記n番目の認識レベルに対応する大きさsは、nの値が小さい程小さくなることを特徴とする、請求項10乃至12のいずれか一項に記載の方法。
  14. 前記n番目の認識レベルに対応する大きさsは、nの値が小さい程大きくなることを特徴とする、請求項10乃至12のいずれか一項に記載の方法。
  15. 前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことを特徴とする、請求項10乃至14のいずれか一項に記載の方法。
  16. 請求項10乃至15のいずれか一項に記載の方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラム。
JP2005328805A 2004-11-22 2005-11-14 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム Expired - Fee Related JP4899177B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005328805A JP4899177B2 (ja) 2004-11-22 2005-11-14 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004337426 2004-11-22
JP2004337426 2004-11-22
JP2005328805A JP4899177B2 (ja) 2004-11-22 2005-11-14 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム

Publications (2)

Publication Number Publication Date
JP2006171714A JP2006171714A (ja) 2006-06-29
JP4899177B2 true JP4899177B2 (ja) 2012-03-21

Family

ID=36672477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005328805A Expired - Fee Related JP4899177B2 (ja) 2004-11-22 2005-11-14 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム

Country Status (1)

Country Link
JP (1) JP4899177B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347066A (zh) * 2013-08-09 2015-02-11 盛乐信息技术(上海)有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101912165B1 (ko) 2011-12-09 2018-10-29 삼성전자주식회사 스파이킹 뉴런 기반 작업 기억 장치
CN110349564B (zh) * 2019-07-22 2021-09-24 思必驰科技股份有限公司 一种跨语言语音识别方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01277899A (ja) * 1988-04-30 1989-11-08 Oki Electric Ind Co Ltd 音声帯域内信号検出方式
JPH07104952B2 (ja) * 1989-12-28 1995-11-13 シャープ株式会社 パターンマッチング装置
JPH10283336A (ja) * 1997-04-03 1998-10-23 Nkk Corp 波形学習装置および波形認識装置
JP4364493B2 (ja) * 2002-10-02 2009-11-18 独立行政法人理化学研究所 信号抽出システム、信号抽出方法および信号抽出プログラム
JP2004252923A (ja) * 2003-02-19 2004-09-09 Tsutomu Miyoshi 自己組織化ネットワークの高速学習方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347066A (zh) * 2013-08-09 2015-02-11 盛乐信息技术(上海)有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统

Also Published As

Publication number Publication date
JP2006171714A (ja) 2006-06-29

Similar Documents

Publication Publication Date Title
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
CN111837178A (zh) 语音处理系统和处理语音信号的方法
JP7109302B2 (ja) 文章生成モデルのアップデート方法及び文章生成装置
CN106652999A (zh) 语音识别系统以及方法
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN107408111A (zh) 端对端语音识别
CN111081230B (zh) 语音识别方法和设备
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
KR102361616B1 (ko) 문맥 정보를 고려한 개체명 인식 방법 및 장치
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN106910497A (zh) 一种中文词语发音预测方法及装置
CN111354333B (zh) 一种基于自注意力的汉语韵律层级预测方法及系统
JP2018159917A (ja) 音響モデルをトレーニングする方法及び装置
Taniguchi et al. Double articulation analyzer with deep sparse autoencoder for unsupervised word discovery from speech signals
Bird et al. Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms
JP4899177B2 (ja) 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
JP7170594B2 (ja) 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法
KR20200120595A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Zhao et al. An open speech resource for Tibetan multi-dialect and multitask recognition
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN102298927A (zh) 可调整内存使用空间的语音辨识系统与方法
Ramadhelza et al. Indonesian Phonemicization Model Using N-Gram-Based Bidirectional Long Short-Term Memory

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110121

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110127

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111215

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees