JPH06332497A - ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム - Google Patents
ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システムInfo
- Publication number
- JPH06332497A JPH06332497A JP6109158A JP10915894A JPH06332497A JP H06332497 A JPH06332497 A JP H06332497A JP 6109158 A JP6109158 A JP 6109158A JP 10915894 A JP10915894 A JP 10915894A JP H06332497 A JPH06332497 A JP H06332497A
- Authority
- JP
- Japan
- Prior art keywords
- word
- output
- neuron
- equation
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 230000007704 transition Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 41
- 210000002569 neuron Anatomy 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000000946 synaptic effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000002688 persistence Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001055367 Dario Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 241001661355 Synapsis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
ューラル・ネットワークを使用し、その並列処理を、時
間とメモリに関して認識を改良し、システムを最適化す
るために利用可能としており、一方認識技術の統合され
た側面の幾らかを維持している。完全な単語が、その各
々が単語のアコーステイック部分に対応している状態へ
の再帰を有する左から右型のマルコフ・モデル.オート
マトンでモデリングされる、また、認識は、認識された
単語に対応する最小コスト経路を有するものを検出する
ための全オートマトンについて、ヴィテルビ・アルゴリ
ズムに従うダイナミック・プログラミングを行うことに
より得られ、エミッション確率は、独特な方法で訓練さ
れたフィードバックを有するニューラル・ネットワーク
を通じて算出され、一方、遷移確率は、適切な方法で見
積もられる。
Description
に関し、より特定的には、ニューラル・ネットワークを
使用する話者非依存隔離単語音声認識システムに係る。
は、一般的に、使用者により一時に一個別々に発音され
た10語程を含む、少なくとも一つの短い辞書を、認識
することの出来る装置の存在を必要とすることは良く知
られている。また、電話回線を通じる認識は、帯域幅で
制限され、交換機および送信装置により導入されるノイ
ズにより影響を受ける音声信号の乏しい品質の故に、正
常な認識に関する追加的困難を伴うものであることも良
く知られている。現在より多く使用されている認識技術
は、ザ・リンカーン・ラボラトリー・ジャーナル(The
lincoln Laboratory Journal) vol.3,n. 1 (1
990)に掲載されたポール(D. B. Paul)の『隠れマ
ルコフ・モデルを使用する音声認識』(Speech Recongn
ition Using Hidden Markov Models)と題する論文に述
べられているような、所謂マルコフ・モデルに基づいて
いる。例えば、IEEE ASSP誌、1986年1月
号に掲載されたラビナー(L.R. Rabiner )の『隠れマ
ルコフ・モデルへの序説』(An Introduction to Hidde
n Markov Models )と題する論文に述べらたような、マ
ルコフ・モデルは、2つの型のパラメータにより特徴付
けられる確率論的オートマトンである;つまり、このオ
ートマトンのある状態から他の状態への遷移確率、およ
び入力シンボル認識の各状態についての確率、これは、
かようなシンボルのエミッション確率とも呼ばれる、で
ある。
ル・オートマトン構造は、音声の逐次的性質による、一
定の数の制約を設定することにより選択される。それゆ
え、『左から右』のオートマトンだけが、ある状態が放
棄された後、それが再び訪問できない、そして、全ての
遷移が一状態への再帰および次の状態への遷移に制限さ
れている所で、考慮される。それゆえ、完全な単語が、
各状態が、訓練中自動的に決定される、あるアコーステ
イックな言語部分に対応している所で、左から右のオー
トマトン(状態への再帰を有する)によりモデルされ
る。異なるモデルの状態は、入力単語の部分を認識する
確率により特徴付けられる。音声認識は、全てのオート
マトンについて、ヴィテルビ(Viterbi) アルゴリズム
に従うダイナミック・プログラミングを、試験した単語
に関連するオートマトンによる認識確率を最大化する状
態を通じる経路を見出すように、行うことにより生じ
る。検出された経路は、最小コストの経路であり、この
経路が見出されたオートマトンは認識された単語に対応
する。マルコフ・モデルは、満足な性能を達成し、現在
多くの音声認識システムの基礎にある。この技術の性能
に対する上方の制限は、かなり到達してきたように思わ
れ、それ故認識品質を改善する試みに対する技術的関心
がある。
ョン確率が、一般に一状態あたり8から16まで変化す
る数におけるガウス確率の線型密度組合せで算出され
る、連続的マルコフ・モデルの場合、計算負担が非常に
重くなる。本発明の一目的は、マルコフ・モデルで既に
使用されている技術およびニューラル・ネットワークの
新技術を含む混成システムにある。オートマトンを用い
る単語音声モデリングおよびダイナミック・プログラミ
ングを用いるデコーディングはマルコフ・モデルにおけ
るように保持され、一方、エミッション確率は、ニュー
ラル・ネットワークを用いて算出され、遷移確率は、以
後に説明するように異なる方法で算出される。
クは、大脳皮質の組織を単純な形で再現する、分散処理
モデルである。ニューラル・ネットワークは、異なる強
さの接続(シナプシス)により強く相互接続された数多
くの処理ユニット(ニューロン)により構成された並列
処理モデルである。個々のユニットの活動は、単に入力
の重み付けした合計の非線型関数であり、モデル・パワ
ーは、接続の位相幾何学およびそれらの強さに内在す
る。そこに解決すべき問題のデータが供給される入力ユ
ニットから始めて、処理は、結果を供給する出力ユニッ
トまで、ネットワーク内に並列分散される。ニューラル
・ネットワークは、プログラミングされるものでなく、
モデルされるべきリアリティーの例のセットにより訓練
されるものである。ニューラル・ネットワークは、例え
ば、マサチューセッツ・ケンブリッジのMITプレスに
より1986年に刊行された、ルメルハルト(D. Rumel
hart)著の書物『並列分散処理』、vol.1、基礎
(“Parallel Distributed Processing", vol. Foundat
ions) に記述されている。
号分類、産業制御技術、予報および最適化などの多くの
分野において、非常に良い性能を得ることを可能として
いる。この混成認識システムの目的、つまり本発明の目
的は、それを、認識を改善し、システムをタイムおよび
メモリに係わることについて最適化するため、ノイズに
対する強度、分類正確度、分散処理のようなニューラル
・ネットワークの特徴に利用可能とすることであるが、
認識技術の或る統合された側面は、オートマトンを用い
る単語モデリングおよびそれをデコーディングするため
のダイナミック・プログラミングなどに保持されてい
る。混成認識システムの主要な利点は次のようなもので
ある:即ち、ニューラル・ネットワークに典型的な文脈
上の情報および判別的訓練の使用による認識正確度の増
大;例えばニューラル・ネットワークのためのベクトル
型プロセッサ、デジタルまたはアナログVLSIチップ
の様な特別の器具で装備することの出来るニューラル・
モデルの本質的並列性による大きなポテンシアル効率で
ある。本発明の一目的は、請求項1の特徴部分に記述さ
れたニューラル・ネットワークを使用する話者非依存隔
離単語音声認識システムにある。本発明の既述の特徴お
よびその他の特徴は、その非限定的な例として与えられ
た好ましい実施例の以下の記述および添付図面により明
らかとなるであろう。
て、隔離単語および電話回線LTから、また他のアナロ
グ・ソースからの全てのノイズより構成された音声信号
を受け、操作のシーケンスに供する。公知の特徴を有す
るモジュールSPにより行われる第1の操作は、音声信
号を特徴付けるパラメータの抽出を可能とする。それ
は、人間の聴覚システムの臨界帯域幅において行われる
信号のスペクトル解析より成る。信号は、先ず8KHz
のサンプリング・レートでデジタル化され、10ms毎
に急速フーリエ変換により解析される。スペクトル解析
の結果は、次いで12の所謂ケプストラル・パラメータ
を得るため、直交変換(コサイン変換)に供される。各
10msの時間間隔に含まれる合計エネルギーの対数値
が更に算出される。これらの13の値に、それらの数値
微分係数が加えられ、各時間間隔について全部で26の
パラメータが得られる。
を、その単語を取り囲む沈黙から分離して検出する装置
である。この装置は、先行ブロックから供給された音声
信号の合計エネルギーに関連するパラメータ上で動作
し、次のブロックRNAを活性化させるために使用され
る信号を供給する。これは、本発明の目的である混成モ
デルに基づくリコグナイザーであって、以下より詳細に
説明する。認識された単語に関する指標は、ブロックR
NAの出力PRに現れる。リコグナイザーRNAは、マ
ルコフ・モデル技術からの、左から右へのオートマトン
を用いる単語モデリングを継承する混成モデルである
が、その状態のエミッション確率、つまり或る状態が或
る入力セグメントをそれに属するものと認識する確率
は、多層知覚型再帰ニューラル・ネットワークにより見
積もられる。
な単語をモデリングするオートマトンの特定の実施例
は、図2に示される。隔離された単語を認識するため、
各単語は、番号3〜7で示され、その単語に特有であ
り、それぞれ沈黙−単語および単語−沈黙の遷移を含む
初期沈黙状態2および最終状態8により先行および追従
される、その単語に属する状態の中心シーケンスを含む
オートマトンより構成されている。認識中、その単語を
取り囲むより広い沈黙部分および全てのヒスやまがいの
ノイズを知覚するように、オートマトンの始めと終わり
に、他の二つの一般的背景ノイズ状態1および9が加え
られる。図面で判るように、オートマトン状態は、次の
状態への遷移の他に、それ自身への再帰を有している。
ルメルハルト(D. Rumelhart)著の書物『並列分散処
理』(“Parallel Distributed Processing ”)に記述
されている型の多層知覚ニューラル・ネットワークを含
むように描かれており、その入力は、前処理された音声
信号のウインドウ、つまり、ケプストラル・パラメータ
のウインドウであり、その出力は、M1,...,M
k,...,Mnで示される全単語モデルの状態のエミ
ッション確率である。ニューラル・ネットワークの各レ
ベルのユニットは、シナプテイック重みを通じ先行レベ
ルのユニットと完全に接続されている。個々のニューロ
ンiの出力oi は、その入力oj の重み付けられた合計
により与えられ、それにそのニューロンに付き典型的で
ある定数値θi が加えられる。この合計は、次いで、次
式に従うS字変換F(x)に供される。
の接続のシナプテイック重みである)
ワークは、再帰多層知覚型、つまりフィードバックを備
えたものである。このニューラル・ネットワークは、時
間t+1に、時間tの内部レベルHLの内容を含む、或
るレベルFLを実際に含む。この内容は、内部レベルH
Lで入力に帰り、それにより、それ自身を先行状態のメ
モリに利用可能とする、フィードバックを備えたシステ
ムを実現する。ブロックRNAのレベルILにおける入
力は、7個の、ブロックED(図1)により供給された
ケプストラル・パラメータの各10msの時間間隔(3
から9までの間隔の番号が適当である)を含むウインド
ウである;それは、フィードバックを備えた隠されたユ
ニットのレベルHL、および、その上で適当にコード化
された結果が読まれる、出力ユニット・レベルOLによ
り追従される。この出力ユニットは、使用された辞書に
ある単語のモデリングに使用されている全てのオートマ
トン M1,...,Mnの状態とバイユニホームに対
応している。これらのユニットの出力(0から1の範
囲)は、状態のエミッション確率の見積りを与える。
7個の、10msの時間間隔に等しい振幅を有するウイ
ンドウの存在は、一つの10ms振幅ウインドウで動作
しているマルコフ・モデルにより考えられたものより大
きな音声信号の部分を考えることを可能とする。これ
は、それが認識を容易にする故、利点である。フィード
バックの存在はまた、ニューラル・ネットワークに、試
験下の音の認識を容易にするように既に解析された単語
の部分を「思い出させる」ことにより、文脈情報の使用
を可能とする。より特定的には、或る状態のエミッショ
ンの確率は、現行の入力だけに依存するものでなく、先
行の瞬間の入力にも依存するのである。これは、異なる
単語における類似の音(‘DUE’中の‘E’と‘TR
E’中の‘E’)、あるいは同一の単語中であるが異な
る文脈における類似の音(例えば、OTTO中の二つの
‘O’)を判別するのに極めて有用である。例えば、文
脈情報は、‘ZERO’中の‘O’に対応する状態を、
この文脈においてのみ活性化し、‘UNO’,‘NOV
E’等の中の‘O’音の入力があっても活性化しない。
と、そこには、単語認識のため動作している、既に訓練
されたニューラル・ネットワークにおける出力ニューロ
ンの活性化が示されている(この例で’SETT
E’)。縦座標には、それぞれ5と8との間の状態の数
を含む、‘ZERO’から‘NOVE’までの数字の発
音に対応する10オートマトンの状態が、上から下へ続
けて示されている。横座標に多数の10ms時間間隔に
分割された時間を示す。ドットのサイズは、ニューラル
・ネットワークにより見積もられた確率値に正比例して
いる。単語‘SETTE’内の正確なオートマトンの状
態に加えて、オートマトン‘SEI’の最初の状態だけ
が活性化されるが、他のオートマトンは実用上、非活性
化されている、つまり、それらは、これらのオートマト
ンが‘SETTE’内に存在する、‘E’または‘T’
のような音を含んでいても、実用上、確率を有さないこ
とが判る。
認識システム訓練は、そのシステムが認識に使用される
前に行わなければならない。訓練段階中、ブロックRN
Aは、同時に二つの動作を行わなければならない;その
一つは、各単語について、その単語をモデリングする各
オートマトン状態を、或る単語部分に帰する、適当なセ
グメンテイションを検出することにあり;その他のもの
は、ニューラル・ネットワークを、異なる状態に割当ら
れた単語部分を正確に認識させ、その場合、正確な状態
に高い確率を、その他に対して低い確率を出すように訓
練することにある。知られているように、単語セグメン
テイションは、状態終点のベクトルである。例えば、セ
グメンテイションSt =(6 10 18 22 3
0)は、5状態オートマトンによりモデリングされた単
語に対応し、その第1のものは、その単語の最初の6個
の10ms時間間隔を採り、第2のものは、7から10
までの、また第3のものは、11から18まで、と言う
ように時間間隔を採るものである。
実現されているが、それを訓練する有用な動作を生み出
す本発明を特徴付ける変形や追加を含む。この様にし
て、ニューラル・ネットワークは、隔離された単語を良
い成績で認識するために使うことが出来る。ニューラル
・ネットワークの訓練は、訓練セットと呼ばれる一対の
セット<入力ベクトル、出力ベクトル>に基づく正確な
入力、出力伝送関数を実現するために、ネットワークの
重みwij を改善することにある。入力ベクトルは、分
割された単語より成り、ケプストラル・パラメータの形
で記録され、訓練のための最適な特性をもってデータ・
ベース内に集められる。ここに目標ベクトルと呼ばれ
る、出力ベクトルは、以下に説明するように適当に構成
される。訓練が終了した時、得られたシナプテイック重
みがメモリ内に格納され、電話回線から受けた単語を認
識するために使われる。
NAの訓練方法段階は、次のとおりである: 初期化: a. 小さなランダム・シナプテイック重みを用いるニ
ューラル・ネットワークの初期化; b. 訓練セット単語を一様に分割することによる第1
セグメンテイションの創出; 反復; 1. 訓練セットの全ての分割された単語を用いる初期
化; 2. 既に学習していない単語のランダムな選択(ある
単語は、若しその単語に対する平均のエラーが充分に低
ければ、学習しているものと考える); 3. 考慮された言語のための、以後より詳細に述べる
ように適当に改善されたエラー逆伝搬アルゴリズムを適
用することによるシナプテイック重みwijの更新;より
特定的には、ニューラル・ネットワーク入力が、その言
語の左から右へのウインドウ・スライデイングに従い変
化するようにされ、且つ全ての入力ウインドウに対して
適切な目標ベクトルが、出力において供給される。この
目標ベクトルは、その現行のセグメンテイションに従
い、その入力ウインドウが属している状態に対応するニ
ューロンに1をセットし、且つ他の全てのニューロンに
0をセットすることにより構成される; 4. 現在まで訓練されたニューラル・ネットワークを
使用し、且つ正確なモデルについてのみにダイナミック
・プログラミングを行うことによる、その考慮された単
語に対するセグメンテイションの再算出; 5. 以後に述べる方程式に従う現行のセグメンテイシ
ョンSt+1 の更新; 6. 若し、その訓練セット内に非考慮の言語があれ
ば、ステップ2に行く; 7. 以後に述べるようなオートマトンの遷移確率の再
算出;および 8. 若し、その訓練セット上の反復の数が、最大プリ
セット数NMAXより大きければ、終了するか、ステッ
プ1に行く。
イション更新に基づく、目標ベクトルの構成は、学習ア
ルゴリズムの補助的部分により実現される。より特定的
には、セグメンテイションは、次の様にして各反復にお
いて部分的に改良される。St を時刻tにおけるある単
語のセグメンテイション、St+1 を次の反復におけるセ
グメンテイション、S′t を、これまで(ステップ4)
まで訓練されてきたニューラル・ネットワークにより最
算出された同一単語のセグメンテイションと仮定し、若
し、St (k)が、時刻tにおけるセグメンテイション
のk番目の要素とすれば、次の時刻t+1において、そ
れは次式に従って変化する:
分まで振り向き、αは次のS字法則に従って、εから1
−εまで行く)
Nは、そこでパラメータαが変化すべき訓練セットの反
復の数であり、ε、0<ε<0.5は、αの変化範囲で
ある)
させることにある。これらの方法は、セグメンテイショ
ンの遅い変化を、一様な初期のセグメンテイションから
正確なセグメンテイションまで漸進的な進化がある様に
伴い、同時にニューラル・ネットワークの訓練が続くも
のである。この方法は、この認識システムの訓練の良い
結果のために有用である。重みの改善に関して、本発明
は、上記書物でルメルハルトが書いた『エラー逆伝搬』
と呼ばれるものに類似のアルゴリズムの使用を予見して
いる、それは、所望の出力と実際の出力との間の差、つ
まりエラーを、ネットワークの重みを、かようなエラー
を最小にするように改善するため使用するものである。
この改良アルゴリズムを使用する訓練の型を、以後、相
関的訓練と呼ぶ。
クラスとサンプルが存在するなら、正確なクラスの出力
は、そのサンプルについて1、その他の全てについて0
がセットされる。これは、全てのクラスが分離されてい
た時は許容される。しかしながらこれは、現在の場合に
ついて起こることではない、と言うのは、例えば異なる
単語中で、同一の音に対応する異なる状態があり得るか
らである(例えば、‘SEI’および‘SETTE’内
のS−E)。かように、同一の入力が、同時により多く
の状態を活性化しなければならない可能性がある。これ
をするため、一時に只一つのクラス(状態)だけが活性
化されるべきとして、ニューラル・ネットワークの、分
類あたりの厳密に判別的な訓練を改良することが必要で
ある。この相関的訓練は、単語状態間に自然に存在して
いる相関を強調することを可能として、それらを、これ
が困難となつた時にはしかしこれにこだわらずに、出来
るだけ判別するように試みる、と言うのは、これは不都
合に形成された状態の創出又は互いに似過ぎた状態の相
互取消を内包することがあるからである。
は、次のステップに従うエラー逆伝搬の標準アルゴリズ
ムの改良を提供する:訓練セットの各サンプルについ
て: 1. 入力値ベクトルXおよび所望値ベクトルT(目標
ベクトル)を考慮すること; 2. 入力ユニットに入力値を置くこと; 3. 前記値を、入力ユニットから出力ユニットまで前
進的に伝搬させることによりネットワークを実行し、且
つ良く知られている式:
であり、θj は、そのニューロンについて典型的な定数
である)に従い、出力ベクトルOを得ること;
且つok およびoh は、ネットワークの出力レベルのk
番目およびh番目ニューロンの出力である、の相関式に
従って定義される)に従って、出力ベクトルOと所望ベ
クトルTとの間の平方エラーとして定義されたエラーE
を算出すること;
のシナプテイック重み、ηは、学習速度を定義する係
数、βは、重み更新における慣性を定義するモメントと
呼ばれる係数、δi は、ニューロンi上で、逆伝搬エラ
ーであり、oj は、ニューロンjの出力である) ステ
ップ4で定義されたエラーから出発して、相関的訓練の
ための新逆伝搬エラー法則は、次のように定義されるも
のとして得られる:出力ニューロンについては:
ものとする)に使用された、重みに関するエラーの偏微
分係数δE/δwijを算出すること
と。
伝搬アルゴリズムの変形も本発明の一部であり、この認
識システムの訓練段階を有用に実行するために必要であ
る。この認識混成システムのその他の重要な特徴は、オ
ートマトン状態の遷移確率のモデリングのための方法で
ある。提案された方法の目的は、音声会話現象は、それ
らを生じる解剖学的器官の機械的限界により与えられた
最小の持続時間を有するものであると言う良くセットさ
れた仮説に従って状態の最小持続時間のみをモデリング
することを提供することにある;しかしながら最大持続
時間は、高度に変化するものである、と言うのは、それ
らは、話者の個人的特性および情緒的状況に依存する会
話速度の関数であるからである。状態の最小持続時間の
モデリングの目的は、認識を改良して、オートマトンの
最良の経路を、あらゆる場合に間に合う一定の持続時間
を要するアコーステイック現象に対応する状態におい
て、短かすぎる時間の儘であることを防止する。
ートマトン状態は、それ自身への再帰および次の状態へ
の遷移を有する。回帰確率は、それがその状態への永続
性に作用するので、最大持続時間をモデリング出来る。
最大持続時間のモデリングは必要としないので、回帰確
率は、1にセットされる。遷移確率は、それがその状態
からの出力に作用するので、最小持続時間をモデリング
出来る。その状態への永続性に依存する遷移確率は、最
小持続時間をモデリングするために使用される。これを
するため、本発明者らは、それについて遷移確率が算出
される状態への永続性の最大の数を示しているパラメー
タKを導入する。Kの合理的な値は、2から6の範囲に
あり得る。時刻tにおいてそれが状態iにあるとしたと
き、時刻t+1における単語wの状態i+1における遷
移確率は、 PT (Sw,i+1 (t+1)|S
w,i (t))で表され、それに関連している状態に、ま
たはその状態への永続性の時刻に依存する;Sw,i が単
語wの状態i、そしてtは、10msの時間間隔の数と
して表された、その状態への永続性の時刻とする。
値を回復させる関数で、
(h))は、h時間内にSw,i中に残っている単語数を
表す。
語モデルの各状態について、この認識システムの訓練段
階中、算出され、その認識性能を改良しながら、システ
ムの動作中、有用に使用される。このニューラル・ネッ
トワークのアルゴリズム・パラメータ学習(エラー逆伝
搬)を如何に行うかは、非常に慎重さを要すること、そ
してそれらは適切に校正されなければならないことは良
く知られている。この認識システムのニューラル・ネッ
トワークの部分を訓練するとき、次記のパラメータが有
利に使用できる: モメントβ=0.2; 補正が実際に重みに適用される前に蓄積された補正の数
(バッチサイズ)=10; 0.1から0.001まで線形的に減少する学習速度
η。 これまで記述してきたことは、限定的な例のためにのみ
に与えられたものであることは明らかである。変形およ
び改良は特許請求の範囲より逸脱することなく可能であ
る。
る。
実現を示す。
イタリー語数字(‘ZERO’,...,‘NOV
E’)に関連するオートマトンの状態に対するエミッシ
ョン確率の例を示す。
フロー・チャートである。
Claims (5)
- 【請求項1】 話者非依存隔離単語音声認識システムで
あって、音声信号がデジタル化され、高速フーリエ変換
を使用し一定の時間間隔でスペクトル解析を受け、その
解析結果が、ケプストラル・パラメータを得るため、直
交変換を受け、且つ、各時間間隔に含まれる合計エネル
ギーの対数値が算出され、その後、これらの値の数値微
分係数が算出されて各時間間隔についての音声信号の特
徴パラメータを得、その単語末端が信号のエネルギー・
レベルにわたって検出され、単語が、その中で、完全な
単語が左から右型で、その各々が単語のアコースチック
部分に対応している状態への再帰を有するマルコフ・モ
デル・オートマトンによりモデルされ、また、認識が、
出力(PR)に指示される認識された単語に対応する最
小コスト経路を有する一つを検出するための全オートマ
トンに対する、ヴィテルビ・アルゴリズムに従うダイナ
ミック・プログラミングにより行われる、リコグナイザ
ー(RNA)により解析され、エミッション確率が、特
別に訓練されたフィードバックを有するニューラル・ネ
ットワークで算出され、遷移確率が、適切な方法で見積
もられるものにおいて、その訓練方法が、次記操作を含
む事実により特徴付けられるシステム: 初期化; a. 小さなランダム・シナプテイック重みを用いるニ
ューラル・ネットワークの初期化; b. 訓練セット単語を一様に分割することによる第1
セグメンテイションの創出; 反復; 1. 訓練セットの全ての分割された単語を用いる初期
化; 2. 既に学習していない単語のランダムな選択(ある
単語は、若しその単語に対する平均のエラーが充分に低
ければ、学習しているものと考える); 3. 考慮された単語のための、相関的訓練を適用する
ことによるシナプテイック重みwijの更新;より特定的
には、ニューラル・ネットワーク入力は、その単語の左
から右へのウインドウ・スライデイングに従い変化する
ようにされ、且つ全ての入力ウインドウに対して、適切
な目標ベクトルが、その現行のセグメンテイションに従
い、その入力ウインドウが属している状態に対応するニ
ューロンに1をセットし、且つ他の全てのニューロンに
0をセットすることにより構成された、出力で供給され
る; 4. 現在まで訓練されたニューラル・ネットワークを
使用し、且つ正確なモデルについてのみのダイナミック
・プログラミングを行うことによる、その考慮された単
語に対するセグメンテイションの再算出; 5. 現行のセグメンテイションSt+1 の更新; 6. 若し、その訓練セット内に非考慮の単語がまだあ
れば、ステップ2に行く; 7. オートマトンの遷移確率の再算出;および 8. 若し、その訓練セット上の反復の数が、最大プリ
セット数NMAXより大きければ、終了するか、さもな
ければステップ1に行く。 - 【請求項2】 請求項1に記載の話者非依存隔離単語音
声認識システムであって、前記相関的訓練が、訓練セッ
トの各サンプルについて繰り返される次のステップを含
むことを特徴とするシステム: 1. 入力値ベクトルXおよび所望値ベクトルT(目標
ベクトル)を考慮すること; 2. 入力ユニットに入力値を置くこと; 3. 前記値を、入力ユニットから出力ユニットまで前
進的に伝搬させることによりネットワークを実行し、且
つ良く知られている式: 【数1】 (ここで、oi は、ジェネリック・ニューロンiの出力
であり、θi は、そのニューロンについて典型的な定数
である)に従い、出力ベクトルOを得ること; 4. 式: 【数2】 (ここで、目標値は、出力: 【数3】 tk =ok ・oh 若し tk ≠ 1 且つ th = 1 であれば、 tk 不変 若し tk = 1 であれば (ここで、tk は、目標ベクトルのk番目の要素であ
り、且つok およびoh は、ネットワークの出力レベル
のk番目およびh番目ニューロンの出力である)の相関
式に従って定義される)に従って、出力ベクトルOと所
望ベクトルTとの間の平方エラーとして定義されたエラ
ーEを算出すること; 5.シナプテイック重みの更新方程式: 【数4】 (ここで、wijは、ニューロンjからニューロンiまで
のシナプテイック重み、ηは、学習速度を定義する係
数、βは、重み更新における慣性を決定するモメントと
呼ばれる係数、δi は、ニューロンi上で、逆伝搬エラ
ーであり、oj は、ニューロンjの出力である;ステッ
プ4で定義されたエラーから出発して、相関的訓練のた
めの新逆伝搬エラー法則は、次のように定義されるもの
として得られる:出力ニューロンについては: 【数5】 δi =(ti −oi )F′(neti ) 若し ti =1 であれば、 δi =−oi (oh −1)2 F′(neti ) 若し ti ≠1 th =1 であれば 内部ニューロンについては: 【数6】 (ここで、指数kは、上方レベルのニューロン上で動く
ものとする)に従って、重みに関するエラーの偏微分係
数δE/δwijを算出すること; 6.方程式: 【数7】 に従って、全てのシナプテイック重みwijを更新するこ
と。 - 【請求項3】 請求項1に記載の話者非依存隔離単語音
声認識システムであって、時刻tで状態iにあるとした
状況下で、単語wの時刻t+1、状態i+1における遷
移確率が次の方法で算出されることを特徴とするシステ
ム: 【数8】 (ここで、minは、考慮された分数と1との間の最小
値を回復させる関数)で、 【数9】 である、(ここで、この最後の方程式において、Fre
q(Sw,i (h))は、h時間内にSw,i 中に残ってい
る単語数を表す)。 - 【請求項4】 請求項2に記載の話者非依存隔離単語音
声認識システムであって、次記のパラメータが使用され
ることを特徴とするシステム: モメントβ=0.2; 補正が実際に重みに適用される前に蓄積される補正の数
(バッチサイズ)=10; 0.1から0.001まで線型的に減少する学習速度
η。 - 【請求項5】 請求項1に記載の話者非依存隔離単語音
声認識システムであって、各単語が、その単語に属する
状態の中心シーケンス(3,...,7)を含むオート
マトンによりモデルされ、それが、それぞれその言語に
特有の沈黙−言語および言語−沈黙の遷移を含み、一般
的背景ノイズ(1,9)の二つの更なる状態により順番
に先行および追従される、初期(2)および最終(8)
沈黙状態により先行および追従されるものであることを
特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT93A000309 | 1993-05-05 | ||
ITTO930309A IT1270919B (it) | 1993-05-05 | 1993-05-05 | Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06332497A true JPH06332497A (ja) | 1994-12-02 |
JP2654917B2 JP2654917B2 (ja) | 1997-09-17 |
Family
ID=11411463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6109158A Expired - Lifetime JP2654917B2 (ja) | 1993-05-05 | 1994-04-26 | ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US5566270A (ja) |
EP (1) | EP0623914B1 (ja) |
JP (1) | JP2654917B2 (ja) |
CA (1) | CA2122575C (ja) |
DE (2) | DE69414752T2 (ja) |
IT (1) | IT1270919B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002519720A (ja) * | 1998-06-24 | 2002-07-02 | フォニックス コーポレイション | 多層ネットワークを用いた信号分類の方法と装置 |
CN109902292A (zh) * | 2019-01-25 | 2019-06-18 | 网经科技(苏州)有限公司 | 中文词向量处理方法及其系统 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0728487A (ja) * | 1993-03-26 | 1995-01-31 | Texas Instr Inc <Ti> | 音声認識方法 |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
ITTO980383A1 (it) * | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US6662091B2 (en) | 2001-06-29 | 2003-12-09 | Battelle Memorial Institute | Diagnostics/prognostics using wireless links |
NZ530434A (en) | 2001-07-02 | 2005-01-28 | Battelle Memorial Institute | Intelligent microsensor module |
ITTO20020170A1 (it) | 2002-02-28 | 2003-08-28 | Loquendo Spa | Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale. |
GB2397664B (en) * | 2003-01-24 | 2005-04-20 | Schlumberger Holdings | System and method for inferring geological classes |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8126262B2 (en) * | 2007-06-18 | 2012-02-28 | International Business Machines Corporation | Annotating video segments using feature rhythm models |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
US8700399B2 (en) | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN102693723A (zh) * | 2012-04-01 | 2012-09-26 | 北京安慧音通科技有限责任公司 | 一种基于子空间的非特定人孤立词识别方法及装置 |
US9627532B2 (en) * | 2014-06-18 | 2017-04-18 | Nuance Communications, Inc. | Methods and apparatus for training an artificial neural network for use in speech recognition |
US10825445B2 (en) | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US10255909B2 (en) * | 2017-06-29 | 2019-04-09 | Intel IP Corporation | Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
GB8911461D0 (en) * | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
-
1993
- 1993-05-05 IT ITTO930309A patent/IT1270919B/it active IP Right Grant
-
1994
- 1994-04-26 JP JP6109158A patent/JP2654917B2/ja not_active Expired - Lifetime
- 1994-04-29 CA CA002122575A patent/CA2122575C/en not_active Expired - Lifetime
- 1994-05-04 DE DE69414752T patent/DE69414752T2/de not_active Expired - Lifetime
- 1994-05-04 DE DE0623914T patent/DE623914T1/de active Pending
- 1994-05-04 EP EP94106987A patent/EP0623914B1/en not_active Expired - Lifetime
- 1994-05-05 US US08/238,319 patent/US5566270A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002519720A (ja) * | 1998-06-24 | 2002-07-02 | フォニックス コーポレイション | 多層ネットワークを用いた信号分類の方法と装置 |
CN109902292A (zh) * | 2019-01-25 | 2019-06-18 | 网经科技(苏州)有限公司 | 中文词向量处理方法及其系统 |
CN109902292B (zh) * | 2019-01-25 | 2023-05-09 | 网经科技(苏州)有限公司 | 中文词向量处理方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
IT1270919B (it) | 1997-05-16 |
DE69414752T2 (de) | 1999-05-27 |
CA2122575A1 (en) | 1994-11-06 |
JP2654917B2 (ja) | 1997-09-17 |
DE623914T1 (de) | 1995-08-24 |
EP0623914B1 (en) | 1998-11-25 |
ITTO930309A0 (it) | 1993-05-05 |
CA2122575C (en) | 1997-05-13 |
DE69414752D1 (de) | 1999-01-07 |
US5566270A (en) | 1996-10-15 |
EP0623914A1 (en) | 1994-11-09 |
ITTO930309A1 (it) | 1994-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2654917B2 (ja) | ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム | |
Graves et al. | Bidirectional LSTM networks for improved phoneme classification and recognition | |
JP3549681B2 (ja) | 連結数字の認識のための発声識別立証 | |
Juang et al. | Hidden Markov models for speech recognition | |
EP1453037B1 (en) | Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network | |
Morgan et al. | An introduction to hybrid HMM/connectionist continuous speech recognition | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
EP1557823B1 (en) | Method of setting posterior probability parameters for a switching state space model | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
Schwenk | Using boosting to improve a hybrid HMM/neural network speech recognizer | |
Hazen | A comparison of novel techniques for rapid speaker adaptation | |
WO1993013519A1 (en) | Composite expert | |
CN109754784B (zh) | 训练滤波模型的方法和语音识别的方法 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
JP2002358096A (ja) | リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム | |
Wöllmer et al. | Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
Zhang | Joint training methods for tandem and hybrid speech recognition systems using deep neural networks | |
JPH064097A (ja) | 話者認識方法 | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
KR100327486B1 (ko) | 스테이트별 가중치를 적용한 음성 인식 장치 및 방법 | |
Bilmes et al. | Generalized rules for combination and joint training of classifiers | |
Kim et al. | Automatic recognition of pitch movements using multilayer perceptron and time-delay recursive neural network | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
Wu et al. | Statistical voice conversion with quasi-periodic wavenet vocoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090530 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090530 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100530 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110530 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120530 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130530 Year of fee payment: 16 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130530 Year of fee payment: 16 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |