JP2008186171A - 空間−時間パターンを同時に学習し認識するためのシステム - Google Patents
空間−時間パターンを同時に学習し認識するためのシステム Download PDFInfo
- Publication number
- JP2008186171A JP2008186171A JP2007018135A JP2007018135A JP2008186171A JP 2008186171 A JP2008186171 A JP 2008186171A JP 2007018135 A JP2007018135 A JP 2007018135A JP 2007018135 A JP2007018135 A JP 2007018135A JP 2008186171 A JP2008186171 A JP 2008186171A
- Authority
- JP
- Japan
- Prior art keywords
- state
- new
- feature vector
- transition
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】システムは、ダイナミック隠れマルコフモデルネットワーク(DHMネット)モデルを表すデータの集合を記憶するモデル記憶部と、現在の状態の変数sCURRと、入力特徴ベクトルXに最も良く整合し、特徴量空間において新たな特徴ベクトルからの距離がしきい値より小さい状態が存在すればこれを次の状態と判断し(378−386)、存在しない場合はネットワークに新たな状態を付加する(388−390)ユニットとを含む。新たな状態は新たな特徴ベクトルXと、現在の状態sCURRとによって定義され、状態sCURRとsNEXTとの間で次の遷移が定義される(392)。
【選択図】 図7
Description
現在の自動音声認識システムは、2つの別々の動作モードを有する。トレーニングと、認識とである。トレーニングの後、システムのパラメータは固定され、トレーニング条件とテスト条件との間にミスマッチが生じると、通常は適応手順が行なわれる。
G.カーペンター及びS.グロスバーグ、「自己組織化ニューラルネットワークによる適応パターン認識のART」、コンピュータ、77−88ページ、1988年3月。(G. Carpenter and S. Grossberg, "The ART of adaptive pattern recognition by a self-organizing neural network," Computer, pp. 77-88, Mar. 1988.) F.ハムカー、「生涯学習セル構造−壊滅的干渉無しの連続した学習」、ニューラルネットワークス、第14巻、551−573ページ、2001年。(F. Hamker, "Life-long learning Cell Structures -continuously learning without catastrophic interference," Neural Networks, vol. 14, pp. 551-573, 2001.) S.フラオ及びO.ハセガワ、「オンラインの教師無し分類及びトポロジー学習のための漸次的ネットワーク、ニューラルネットワークス、第19巻、90−106ページ、2006年。(S. Furao and O. Hasegawa, "An incremental network for on-line unsupervised classification and topology learning," Neural Networks, vol. 19, pp. 90-106, 2006.) N.スリニバサ及びN.アージャ、「空間時間パターン学習、認識及び想起のためのトポロジー的時間的相関器ネットワーク、IEEEトランザクション、ニューラルネットワーク、第10巻、第2号、356−371ページ、1999年3月。(N. Srinivasa and N. Ahuja, "A topological and temporal correlator network for spatiotemporal pattern learning, recognition and recall," IEEE Trans. Neural Networks, vol. 10, no. 2, pp. 356-371, Mar. 1999.) D.ベロー、「時間的符号化に依拠した一致検出アーキテクチャの例」、IEEEトランザクション、ニューラルネットワークス、第15巻、第5号、963−979ページ、2004年9月。(D. Beroule, "An instance of coincidence detection architecture relying on temporal coding," IEEE Trans. Neural Networks, vol. 15, no. 5, pp. 963-979, Sept. 2004.) T.マルチネス及びK.シュルテン、「トポロジー表現ネットワーク」ニューラルネットワークス、第7巻、第3号、507−522ページ、1994年。(T. Martinetz and K. Schulten, "Topology representing networks," Neural Networks, vol. 7, no. 3, pp. 507-522, 1994.)
我々は、終わりのない学習原理を実現し、既存の生涯学習構造の限界を避けようと試みた。そうするにあたって、目標としたのは、自己組織化する、かつトポロジーを表す、終わりのない学習システムであって、発話パターンの持続時間、ダイナミックレンジ又はパラメータ化に何ら制限を課さないシステムを生成することである。
1.一般的構造
上述の問題への解決策を求め、さらに最近の神経学的−生物学的研究結果から刺激を受けて、教師無しでオンラインの適応学習が可能であり、一方で、以前に獲得した知識を保存できる、隠れマルコフ状態のネットワークを開発した。発話パターンは、ネットワークを通る状態のシーケンス、すなわち経路として表される。ネットワークは以前に見たことのないパターンを検出することができ、もしこのような新たなパターンに遭遇すると、これは新たな状態と遷移とをネットワークに追加することで学習される。不要なイベント又は「ノイズ」に対応する経路及び状態を経由することは、従って、稀にしかないので、これらは段階的に除去される。従って、ネットワークは必要に応じて成長したり収縮したりする。すなわち、ダイナミック隠れマルコフネットワークはその構造をダイナミックに変化させる。
一般に、すでに学習済みのものから十分に異なるパターンはいずれも、新たなパターンと考えることができる。何をもって十分に異なると判断するかに関して、再び、人間の聴覚系の研究に目を向ける。
「はじめに」の部分で検討した型のニューラルネットワークでは、各学習の繰返しにおいて、重みの更新ΔWnは一般に次のように設定される。
DHMネットの状態は、入力特徴量空間の異なる領域を表すため、図2に示すように、隣接する状態が隣接する領域に対応することが重要である。すなわち、状態ネットワークはトポロジーを表すネットワークでなければならない。ニューラルネットワークのノード(DHMネットの場合は状態)間の横方向接続が、競合ヘッブ則(非特許文献6)を用いて構築される場合、結果として得られるネットワークは完全にトポロジーを表すネットワークである。横方向接続の各々が、特徴量空間におけるトポロジー的に隣接した状態の対を規定している。
ネットワークがダイナミックにその構造を変化させるとき、状態の隣接性関係もまた変わる。これらの変化に対処するため、横方向接続の各々には年齢が与えられる。これは接続が生成されたか、リフレッシュされた場合にゼロとなる。その他の場合、接続年齢は、接続の状態の一つが経由されるたびに増加する。従って、年齢は、その接続のいずれかの状態をシステムが最後に経由してからの経過時間の測定値として機能する。このようにして、ある年齢に達した接続、すなわち、ある程度の期間にわたってリフレッシュされていないものは、除去される。
特徴ベクトルのシーケンスによって表されるいずれかの入力発話パターンに関して、ネットワークを通る最良の状態シーケンスすなわち経路を発見することが目標である。これは以下のように定式化できる。
DHMネットでの認識は、復号された最良の状態シーケンスを適切に解釈することによって行なわれる。人間がこの課題を遂行するのと同じやり方で、ネットワーク中の経路が、それらが表すパターンの特性と関連付けられる。最初の近似では、各経路と、それに対応する状態とが、この経路が生成されたか又は再び経由されたときの情報の全てでラベル付けされることを意味する。これは、語彙的内容、話者の情報、環境情報等を含み得る。
完全なDHMネットのアルゴリズムを以下に要約して述べる。
(1)空のネットワークから開始する。
(2)現在の状態をsCURRとして与えられているとき、次の入力ベクトルxTについて、最も良く整合する後続の状態sCを見つける。もしこれがビジランス試験に合格すれば、これを次の状態として設定して、すなわちsNEXT=sCとして、(5)に進む。
(3)他の全ての状態から、最良の状態sAを見出す。もしこれがビジランス試験に合格すれば、sNEXT=sAとして、(5)に進む。
(4)新たな状態sTを末尾に付加する、すなわちsNEXT=sTとし、その平均をxTに設定する。
(5)遷移を現在の状態sCURRからsNEXTにする(更新する)。
(6)sNEXTとそれに隣接するもの全ての平均を、式(3)に従って更新する。
(7)sNEXTと次に最良の状態との接続を生成(又はリフレッシュ)する。全てのsNEXTの接続の年齢を増加させる。
(8)いずれかの接続の年齢が年齢しきい値THAGEに達したら、その接続を除去する。接続のない状態を除去する。
(9)最良の状態シーケンスの末尾にsNEXTを付加する。現在の状態sCURR=sNEXTに設定し、(2)に進む。
図5は、上述の復号アルゴリズムを組入れた音声認識フロントエンドユニット260の機能を示すブロック図である。音声認識フロントエンドユニット260はマイクロフォン262からのオーディオ信号を受け、DHMネット音響モデルを構築してこれをトレーニングし、音響モデルを利用して音声信号を復号し、復号された(推定された)状態シーケンスを出力する。音声認識フロントエンドユニット260は例えば、より高度な音声認識システムのフロントエンドとして用いることもできる。
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で実行される上記コンピュータプログラムとによって実現できる。図11はこの実施の形態で用いられるコンピュータシステム450の外観を示し、図12はコンピュータシステム450のブロック図である。ここで示されるコンピュータシステム450は単なる例示であって、他の構成でも利用可能である。
音声認識フロントエンドユニット260は以下のように動作する。話者が1つ又は複数の文章を発話する。音声はマイクロフォン262によってアナログ音声信号に変換され、音声キャプチャブロック280に供給される。音声キャプチャブロック280は入力音声信号をディジタル形式に変換し、10ミリ秒のレートで、20マイクロ秒のスライド幅で移動するウィンドウのディジタル音声信号フレームのシーケンスを出力する。
図7に示されるように、デコーダ288はステップ374で入力特徴ベクトルを読出す。すなわち、デコーダ282は、対数関数ブロック286から特徴ベクトルを受け、このベクトルを読込む。
ステップ374で、デコーダ288は次の入力特徴ベクトルを読込む。デコーダ288は、最も良く整合する後続状態sCを発見しようとする。この段階で、DHMネットには状態が一つ、すなわちs0しかない。従って、この例では状態s0がここで発見される。
状態s0がビジランス試験に合格した場合、デコーダ288はステップ380を実行し、ここでs0が次の状態として設定される。つまり、sNEXTの値にs0が代入される。これは、遷移が自己ループであることを意味する。
状態s0がステップ378のビジランス試験に合格しない場合、入力ベクトルは状態s0から十分異なるので、「新しい」と考えられる。ステップ382で、デコーダ288はDHMネット内の他の全ての状態から、最良の状態sAを発見しようとする。動作のこの段階では、s0以外の状態はないので、ステップ384での判断は「NO」となり、ステップ388で、デコーダ288はDHMネットに新たな状態s1を追加する。
第2の繰返しの後、ステップ374でデコーダ288によって読込まれたベクトルの各々について、デコーダ288はステップ376のsCURRに後続する状態の内で最も良く整合する状態を発見しようとする。このような状態があり、かつその状態がビジランス試験に合格すれば、この状態が次の状態に設定される。このような状態がなければ、ステップ382で、他の状態の中から最も良く整合する状態を発見する。このような状態が存在し、その状態がビジランス試験に合格すれば、その状態が次の状態に設定される。そのような状態がなければ、新たな状態と、現在の状態からその新たな状態への遷移とが、ステップ388と392とでそれぞれ生成される。
DHMネット等の終わりのない学習システムにとって、入手可能なデータをトレーニング、開発及びテスト、モデルトレーニング、チューニング及びテスト、に分割するという、伝統的な評価手法はあまり意味を成さない。
140 DHMネット
180、182、184、186、188、190、192、194 横方向接続
260 音声認識フロントエンドユニット
262 マイクロフォン
280 音声キャプチャブロック
282 FFTブロック
284 フィルタバンク(FB)
286 対数関数ブロック
288 デコーダ
290及び292 記憶部
300 状態レコード
304 平均ベクトルフィールド
306 後続状態リスト
330 後続状態IDフィールド
308 隣接状態リスト
332 遷移頻度フィールド
350 隣接状態IDフィールド
352 接続年齢フィールド
Claims (4)
- ネットワークモデルを用いて物理的測定値から導出された特徴ベクトルのシーケンスの空間−時間パターンを同時に学習し認識するためのシステムであって、
前記特徴ベクトルは予め定められた特徴量空間内で定義されており、
前記ネットワークモデルは、前記特徴量空間に定義される一組の状態と、前記状態間の遷移と、前記状態間の横方向接続とを含み、
前記状態の各々は、出力値の確率密度関数を規定し、前記遷移の各々は、状態から状態への遷移を規定するとともに前記遷移の発生頻度と関連付けられており、前記横方向接続の各々は、隣接する状態の対を規定するとともに、前記横方向接続によって接続された状態のいずれかが前記システムによって最後に経由されてからの経過時間の測定値と関連付けられており、
前記システムは、
前記ネットワークモデルを表すデータセットを記憶するためのモデル記憶手段と、
現在の状態の識別子を記憶するための現在状態記憶手段と、
新たな特徴ベクトルに応答して、新たな特徴ベクトルに最も良く整合する状態であって、かつ前記特徴量空間において前記新たな特徴ベクトルからあるしきい値距離内にある状態が存在する場合は、それを次の状態と決定し、存在しない場合は前記ネットワークに新たな状態を追加するための手段とを含み、前記新たな状態は、前記新たな特徴ベクトルと現在の状態の識別子によって特定される現在の状態とによって規定され、かつ前記新たな状態は、前記現在の状態からの次の遷移を規定し、
前記システムはさらに、
前記次の状態が決定されたことに応答して、前記モデル記憶手段に記憶された前記モデルにおける次の遷移の頻度を更新するための手段と、
前記次の状態が決定されたことに応答して、前記次の状態と、それに隣接する状態との前記確率密度関数の各々を、予め定められた更新関数によって更新するための手段と、
前記次の状態が決定されたことに応答して、前記次の状態と、その隣接する状態との接続に関連付けられた経過時間の測定値が予め定められた初期値にリフレッシュされ、かつ他の接続に関連付けられた経過時間の測定値が増分されるように、前記ネットワークモデル内の横方向接続を更新するための手段と、
前記横方向接続が更新されたことに応答して、予め定められたしきい値より大きい経過時間の測定値と関連付けられている接続を削除するための手段と、
前記接続のいずれかが削除されたことに応答して、何の接続も有していない状態を前記ネットワークモデルから除去するための手段と、
前記現在の状態の識別子を出力状態シーケンスの末尾に追加するための手段と、
前記現在状態記憶手段に記憶された前記現在の状態の識別子を、前記次の状態の識別子で置換するための手段とを含む、システム。 - 前記決定するための手段は、
前記現在の状態からの遷移を有する状態の組にあって、かつ前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するための第1の発見手段と、
前記第1の発見手段が次の状態の候補を発見できなかったことに応答して、前記現在の状態からの遷移を持たず、前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するとともに、前記ネットワークモデルを、前記現在の状態から前記次の状態の候補への新たな遷移が生成されるように更新するための、第2の発見手段と、
前記第1又は第2の発見手段によって次の状態の候補が発見されたことに応答して、前記次の状態の識別子を前記次の状態の候補の識別子に設定するための手段と、
前記第1又は第2の発見手段によって次の状態の候補が発見されなかったことに応答して、前記ネットワークモデルに新たな状態を追加するための手段とを含み、前記新たな状態は前記新たな特徴ベクトルによって規定される確率密度関数と前記現在の状態からの遷移とを有し、前記新たな状態の前記遷移は初期頻度の値と関連付けられている、請求項1に記載のシステム。 - 前記横方向接続を更新するための手段は
前記次の状態と、前記新たな特徴ベクトルに次に近い状態との間の接続が生成されるように前記ネットワークモデルを更新するための手段と、
前記次の状態とそれに隣接する状態との間の接続の経過時間の測定値をリフレッシュするための手段と、
前記ネットワークモデル内の接続の経過時間の測定値を増分するための手段とを含む、請求項1に記載のシステム。 - コンピュータ上で実行されると、コンピュータを請求項1〜請求項3のいずれかに記載のシステムとして機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018135A JP5065693B2 (ja) | 2007-01-29 | 2007-01-29 | 空間−時間パターンを同時に学習し認識するためのシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018135A JP5065693B2 (ja) | 2007-01-29 | 2007-01-29 | 空間−時間パターンを同時に学習し認識するためのシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008186171A true JP2008186171A (ja) | 2008-08-14 |
JP5065693B2 JP5065693B2 (ja) | 2012-11-07 |
Family
ID=39729187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007018135A Expired - Fee Related JP5065693B2 (ja) | 2007-01-29 | 2007-01-29 | 空間−時間パターンを同時に学習し認識するためのシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5065693B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123494A (ja) * | 2009-12-14 | 2011-06-23 | Intel Corp | グラフベースのネットワークを横断するための方法及びシステム |
CN113884903A (zh) * | 2021-10-19 | 2022-01-04 | 中国计量大学 | 一种基于多层感知器神经网络的电池故障诊断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293489A (ja) * | 2005-04-06 | 2006-10-26 | Sony Corp | 学習装置および学習方法、並びに学習プログラム |
-
2007
- 2007-01-29 JP JP2007018135A patent/JP5065693B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293489A (ja) * | 2005-04-06 | 2006-10-26 | Sony Corp | 学習装置および学習方法、並びに学習プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123494A (ja) * | 2009-12-14 | 2011-06-23 | Intel Corp | グラフベースのネットワークを横断するための方法及びシステム |
US10229670B2 (en) | 2009-12-14 | 2019-03-12 | Intel Corporation | Methods and systems to traverse graph-based networks |
CN113884903A (zh) * | 2021-10-19 | 2022-01-04 | 中国计量大学 | 一种基于多层感知器神经网络的电池故障诊断方法 |
CN113884903B (zh) * | 2021-10-19 | 2023-08-18 | 中国计量大学 | 一种基于多层感知器神经网络的电池故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5065693B2 (ja) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Towards scaling up classification-based speech separation | |
US7424426B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
Monteiro et al. | Residual convolutional neural network with attentive feature pooling for end-to-end language identification from short-duration speech | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
Khademian et al. | Monaural multi-talker speech recognition using factorial speech processing models | |
EP3267438B1 (en) | Speaker authentication with artificial neural networks | |
Silva et al. | Intelligent genetic fuzzy inference system for speech recognition: An approach from low order feature based on discrete cosine transform | |
JP5065693B2 (ja) | 空間−時間パターンを同時に学習し認識するためのシステム | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Zhuang et al. | Multi-task joint-learning for robust voice activity detection | |
Lin et al. | A Noise Robust Method for Word-Level Pronunciation Assessment. | |
Jolly et al. | Machine learning based speech emotion recognition in hindi audio | |
Zhu et al. | End-to-end speech emotion recognition based on neural network | |
Markov et al. | Never-ending learning with dynamic hidden Markov network. | |
Bovbjerg et al. | Self-Supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions | |
Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
Xu et al. | An adaptation method in noise mismatch conditions for dnn-based speech enhancement | |
Oruh et al. | Deep learning with optimization techniques for the classification of spoken English digit | |
Ajitha et al. | Emotion Recognition in Speech Using MFCC and Classifiers | |
Švec et al. | An analysis of the RNN-based spoken term detection training | |
Rekavandi et al. | Recognition of Speech Isolated Words Based on Pyramid Phonetic Bag of Words Model Display and Kernel-Based Support Vector Machine Classifier Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120731 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120810 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |