JPH06332497A - ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム - Google Patents

ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム

Info

Publication number
JPH06332497A
JPH06332497A JP6109158A JP10915894A JPH06332497A JP H06332497 A JPH06332497 A JP H06332497A JP 6109158 A JP6109158 A JP 6109158A JP 10915894 A JP10915894 A JP 10915894A JP H06332497 A JPH06332497 A JP H06332497A
Authority
JP
Japan
Prior art keywords
word
output
neuron
equation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6109158A
Other languages
English (en)
Other versions
JP2654917B2 (ja
Inventor
Dario Albesano
ダリオ・アルベサーノ
Roberto Gemello
ロベルト・ジエメロ
Franco Mana
フランコ・マナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSELT Centro Studi e Laboratori Telecomunicazioni SpA filed Critical CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Publication of JPH06332497A publication Critical patent/JPH06332497A/ja
Application granted granted Critical
Publication of JP2654917B2 publication Critical patent/JP2654917B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 話者非依存隔離単語音声認識のための方法 【構成】 混成認識システムに基づいており、それはニ
ューラル・ネットワークを使用し、その並列処理を、時
間とメモリに関して認識を改良し、システムを最適化す
るために利用可能としており、一方認識技術の統合され
た側面の幾らかを維持している。完全な単語が、その各
々が単語のアコーステイック部分に対応している状態へ
の再帰を有する左から右型のマルコフ・モデル.オート
マトンでモデリングされる、また、認識は、認識された
単語に対応する最小コスト経路を有するものを検出する
ための全オートマトンについて、ヴィテルビ・アルゴリ
ズムに従うダイナミック・プログラミングを行うことに
より得られ、エミッション確率は、独特な方法で訓練さ
れたフィードバックを有するニューラル・ネットワーク
を通じて算出され、一方、遷移確率は、適切な方法で見
積もられる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動音声認識システム
に関し、より特定的には、ニューラル・ネットワークを
使用する話者非依存隔離単語音声認識システムに係る。
【0002】
【従来の技術】電話回線を通じる音声サービスの供給
は、一般的に、使用者により一時に一個別々に発音され
た10語程を含む、少なくとも一つの短い辞書を、認識
することの出来る装置の存在を必要とすることは良く知
られている。また、電話回線を通じる認識は、帯域幅で
制限され、交換機および送信装置により導入されるノイ
ズにより影響を受ける音声信号の乏しい品質の故に、正
常な認識に関する追加的困難を伴うものであることも良
く知られている。現在より多く使用されている認識技術
は、ザ・リンカーン・ラボラトリー・ジャーナル(The
lincoln Laboratory Journal) vol.3,n. 1 (1
990)に掲載されたポール(D. B. Paul)の『隠れマ
ルコフ・モデルを使用する音声認識』(Speech Recongn
ition Using Hidden Markov Models)と題する論文に述
べられているような、所謂マルコフ・モデルに基づいて
いる。例えば、IEEE ASSP誌、1986年1月
号に掲載されたラビナー(L.R. Rabiner )の『隠れマ
ルコフ・モデルへの序説』(An Introduction to Hidde
n Markov Models )と題する論文に述べらたような、マ
ルコフ・モデルは、2つの型のパラメータにより特徴付
けられる確率論的オートマトンである;つまり、このオ
ートマトンのある状態から他の状態への遷移確率、およ
び入力シンボル認識の各状態についての確率、これは、
かようなシンボルのエミッション確率とも呼ばれる、で
ある。
【0003】音声認識に応用された時、マルコフ・モデ
ル・オートマトン構造は、音声の逐次的性質による、一
定の数の制約を設定することにより選択される。それゆ
え、『左から右』のオートマトンだけが、ある状態が放
棄された後、それが再び訪問できない、そして、全ての
遷移が一状態への再帰および次の状態への遷移に制限さ
れている所で、考慮される。それゆえ、完全な単語が、
各状態が、訓練中自動的に決定される、あるアコーステ
イックな言語部分に対応している所で、左から右のオー
トマトン(状態への再帰を有する)によりモデルされ
る。異なるモデルの状態は、入力単語の部分を認識する
確率により特徴付けられる。音声認識は、全てのオート
マトンについて、ヴィテルビ(Viterbi) アルゴリズム
に従うダイナミック・プログラミングを、試験した単語
に関連するオートマトンによる認識確率を最大化する状
態を通じる経路を見出すように、行うことにより生じ
る。検出された経路は、最小コストの経路であり、この
経路が見出されたオートマトンは認識された単語に対応
する。マルコフ・モデルは、満足な性能を達成し、現在
多くの音声認識システムの基礎にある。この技術の性能
に対する上方の制限は、かなり到達してきたように思わ
れ、それ故認識品質を改善する試みに対する技術的関心
がある。
【0004】
【発明が解決しようとする課題】更に、そこでエミッシ
ョン確率が、一般に一状態あたり8から16まで変化す
る数におけるガウス確率の線型密度組合せで算出され
る、連続的マルコフ・モデルの場合、計算負担が非常に
重くなる。本発明の一目的は、マルコフ・モデルで既に
使用されている技術およびニューラル・ネットワークの
新技術を含む混成システムにある。オートマトンを用い
る単語音声モデリングおよびダイナミック・プログラミ
ングを用いるデコーディングはマルコフ・モデルにおけ
るように保持され、一方、エミッション確率は、ニュー
ラル・ネットワークを用いて算出され、遷移確率は、以
後に説明するように異なる方法で算出される。
【0005】
【課題を解決するための手段】ニューラル・ネットワー
クは、大脳皮質の組織を単純な形で再現する、分散処理
モデルである。ニューラル・ネットワークは、異なる強
さの接続(シナプシス)により強く相互接続された数多
くの処理ユニット(ニューロン)により構成された並列
処理モデルである。個々のユニットの活動は、単に入力
の重み付けした合計の非線型関数であり、モデル・パワ
ーは、接続の位相幾何学およびそれらの強さに内在す
る。そこに解決すべき問題のデータが供給される入力ユ
ニットから始めて、処理は、結果を供給する出力ユニッ
トまで、ネットワーク内に並列分散される。ニューラル
・ネットワークは、プログラミングされるものでなく、
モデルされるべきリアリティーの例のセットにより訓練
されるものである。ニューラル・ネットワークは、例え
ば、マサチューセッツ・ケンブリッジのMITプレスに
より1986年に刊行された、ルメルハルト(D. Rumel
hart)著の書物『並列分散処理』、vol.1、基礎
(“Parallel Distributed Processing", vol. Foundat
ions) に記述されている。
【0006】
【作用】この技術は、関数見積り、ビデオおよび音声信
号分類、産業制御技術、予報および最適化などの多くの
分野において、非常に良い性能を得ることを可能として
いる。この混成認識システムの目的、つまり本発明の目
的は、それを、認識を改善し、システムをタイムおよび
メモリに係わることについて最適化するため、ノイズに
対する強度、分類正確度、分散処理のようなニューラル
・ネットワークの特徴に利用可能とすることであるが、
認識技術の或る統合された側面は、オートマトンを用い
る単語モデリングおよびそれをデコーディングするため
のダイナミック・プログラミングなどに保持されてい
る。混成認識システムの主要な利点は次のようなもので
ある:即ち、ニューラル・ネットワークに典型的な文脈
上の情報および判別的訓練の使用による認識正確度の増
大;例えばニューラル・ネットワークのためのベクトル
型プロセッサ、デジタルまたはアナログVLSIチップ
の様な特別の器具で装備することの出来るニューラル・
モデルの本質的並列性による大きなポテンシアル効率で
ある。本発明の一目的は、請求項1の特徴部分に記述さ
れたニューラル・ネットワークを使用する話者非依存隔
離単語音声認識システムにある。本発明の既述の特徴お
よびその他の特徴は、その非限定的な例として与えられ
た好ましい実施例の以下の記述および添付図面により明
らかとなるであろう。
【0007】
【実施例】図1に示された認識システムは、入力におい
て、隔離単語および電話回線LTから、また他のアナロ
グ・ソースからの全てのノイズより構成された音声信号
を受け、操作のシーケンスに供する。公知の特徴を有す
るモジュールSPにより行われる第1の操作は、音声信
号を特徴付けるパラメータの抽出を可能とする。それ
は、人間の聴覚システムの臨界帯域幅において行われる
信号のスペクトル解析より成る。信号は、先ず8KHz
のサンプリング・レートでデジタル化され、10ms毎
に急速フーリエ変換により解析される。スペクトル解析
の結果は、次いで12の所謂ケプストラル・パラメータ
を得るため、直交変換(コサイン変換)に供される。各
10msの時間間隔に含まれる合計エネルギーの対数値
が更に算出される。これらの13の値に、それらの数値
微分係数が加えられ、各時間間隔について全部で26の
パラメータが得られる。
【0008】次のモジュールEDは、概略の単語末端
を、その単語を取り囲む沈黙から分離して検出する装置
である。この装置は、先行ブロックから供給された音声
信号の合計エネルギーに関連するパラメータ上で動作
し、次のブロックRNAを活性化させるために使用され
る信号を供給する。これは、本発明の目的である混成モ
デルに基づくリコグナイザーであって、以下より詳細に
説明する。認識された単語に関する指標は、ブロックR
NAの出力PRに現れる。リコグナイザーRNAは、マ
ルコフ・モデル技術からの、左から右へのオートマトン
を用いる単語モデリングを継承する混成モデルである
が、その状態のエミッション確率、つまり或る状態が或
る入力セグメントをそれに属するものと認識する確率
は、多層知覚型再帰ニューラル・ネットワークにより見
積もられる。
【0009】本発明システムで認識を行うための、完全
な単語をモデリングするオートマトンの特定の実施例
は、図2に示される。隔離された単語を認識するため、
各単語は、番号3〜7で示され、その単語に特有であ
り、それぞれ沈黙−単語および単語−沈黙の遷移を含む
初期沈黙状態2および最終状態8により先行および追従
される、その単語に属する状態の中心シーケンスを含む
オートマトンより構成されている。認識中、その単語を
取り囲むより広い沈黙部分および全てのヒスやまがいの
ノイズを知覚するように、オートマトンの始めと終わり
に、他の二つの一般的背景ノイズ状態1および9が加え
られる。図面で判るように、オートマトン状態は、次の
状態への遷移の他に、それ自身への再帰を有している。
【0010】図3において、ブロックRNAは、既述の
ルメルハルト(D. Rumelhart)著の書物『並列分散処
理』(“Parallel Distributed Processing ”)に記述
されている型の多層知覚ニューラル・ネットワークを含
むように描かれており、その入力は、前処理された音声
信号のウインドウ、つまり、ケプストラル・パラメータ
のウインドウであり、その出力は、M1,...,M
k,...,Mnで示される全単語モデルの状態のエミ
ッション確率である。ニューラル・ネットワークの各レ
ベルのユニットは、シナプテイック重みを通じ先行レベ
ルのユニットと完全に接続されている。個々のニューロ
ンiの出力oi は、その入力oj の重み付けられた合計
により与えられ、それにそのニューロンに付き典型的で
ある定数値θi が加えられる。この合計は、次いで、次
式に従うS字変換F(x)に供される。
【数10】 (ここで、wijは、ニューロンjからニューロンiまで
の接続のシナプテイック重みである)
【0011】本システムで使われるニューラル・ネット
ワークは、再帰多層知覚型、つまりフィードバックを備
えたものである。このニューラル・ネットワークは、時
間t+1に、時間tの内部レベルHLの内容を含む、或
るレベルFLを実際に含む。この内容は、内部レベルH
Lで入力に帰り、それにより、それ自身を先行状態のメ
モリに利用可能とする、フィードバックを備えたシステ
ムを実現する。ブロックRNAのレベルILにおける入
力は、7個の、ブロックED(図1)により供給された
ケプストラル・パラメータの各10msの時間間隔(3
から9までの間隔の番号が適当である)を含むウインド
ウである;それは、フィードバックを備えた隠されたユ
ニットのレベルHL、および、その上で適当にコード化
された結果が読まれる、出力ユニット・レベルOLによ
り追従される。この出力ユニットは、使用された辞書に
ある単語のモデリングに使用されている全てのオートマ
トン M1,...,Mnの状態とバイユニホームに対
応している。これらのユニットの出力(0から1の範
囲)は、状態のエミッション確率の見積りを与える。
【0012】ニューラル・ネットワーク入力における、
7個の、10msの時間間隔に等しい振幅を有するウイ
ンドウの存在は、一つの10ms振幅ウインドウで動作
しているマルコフ・モデルにより考えられたものより大
きな音声信号の部分を考えることを可能とする。これ
は、それが認識を容易にする故、利点である。フィード
バックの存在はまた、ニューラル・ネットワークに、試
験下の音の認識を容易にするように既に解析された単語
の部分を「思い出させる」ことにより、文脈情報の使用
を可能とする。より特定的には、或る状態のエミッショ
ンの確率は、現行の入力だけに依存するものでなく、先
行の瞬間の入力にも依存するのである。これは、異なる
単語における類似の音(‘DUE’中の‘E’と‘TR
E’中の‘E’)、あるいは同一の単語中であるが異な
る文脈における類似の音(例えば、OTTO中の二つの
‘O’)を判別するのに極めて有用である。例えば、文
脈情報は、‘ZERO’中の‘O’に対応する状態を、
この文脈においてのみ活性化し、‘UNO’,‘NOV
E’等の中の‘O’音の入力があっても活性化しない。
【0013】より良い理解のために、図4を参照する
と、そこには、単語認識のため動作している、既に訓練
されたニューラル・ネットワークにおける出力ニューロ
ンの活性化が示されている(この例で’SETT
E’)。縦座標には、それぞれ5と8との間の状態の数
を含む、‘ZERO’から‘NOVE’までの数字の発
音に対応する10オートマトンの状態が、上から下へ続
けて示されている。横座標に多数の10ms時間間隔に
分割された時間を示す。ドットのサイズは、ニューラル
・ネットワークにより見積もられた確率値に正比例して
いる。単語‘SETTE’内の正確なオートマトンの状
態に加えて、オートマトン‘SEI’の最初の状態だけ
が活性化されるが、他のオートマトンは実用上、非活性
化されている、つまり、それらは、これらのオートマト
ンが‘SETTE’内に存在する、‘E’または‘T’
のような音を含んでいても、実用上、確率を有さないこ
とが判る。
【0014】既に分類された訓練単語のセットに基づく
認識システム訓練は、そのシステムが認識に使用される
前に行わなければならない。訓練段階中、ブロックRN
Aは、同時に二つの動作を行わなければならない;その
一つは、各単語について、その単語をモデリングする各
オートマトン状態を、或る単語部分に帰する、適当なセ
グメンテイションを検出することにあり;その他のもの
は、ニューラル・ネットワークを、異なる状態に割当ら
れた単語部分を正確に認識させ、その場合、正確な状態
に高い確率を、その他に対して低い確率を出すように訓
練することにある。知られているように、単語セグメン
テイションは、状態終点のベクトルである。例えば、セ
グメンテイションSt =(6 10 18 22 3
0)は、5状態オートマトンによりモデリングされた単
語に対応し、その第1のものは、その単語の最初の6個
の10ms時間間隔を採り、第2のものは、7から10
までの、また第3のものは、11から18まで、と言う
ように時間間隔を採るものである。
【0015】訓練は、部分的には既に公知の方法により
実現されているが、それを訓練する有用な動作を生み出
す本発明を特徴付ける変形や追加を含む。この様にし
て、ニューラル・ネットワークは、隔離された単語を良
い成績で認識するために使うことが出来る。ニューラル
・ネットワークの訓練は、訓練セットと呼ばれる一対の
セット<入力ベクトル、出力ベクトル>に基づく正確な
入力、出力伝送関数を実現するために、ネットワークの
重みwij を改善することにある。入力ベクトルは、分
割された単語より成り、ケプストラル・パラメータの形
で記録され、訓練のための最適な特性をもってデータ・
ベース内に集められる。ここに目標ベクトルと呼ばれ
る、出力ベクトルは、以下に説明するように適当に構成
される。訓練が終了した時、得られたシナプテイック重
みがメモリ内に格納され、電話回線から受けた単語を認
識するために使われる。
【0016】図5のフロー・チャートに示すブロックR
NAの訓練方法段階は、次のとおりである: 初期化: a. 小さなランダム・シナプテイック重みを用いるニ
ューラル・ネットワークの初期化; b. 訓練セット単語を一様に分割することによる第1
セグメンテイションの創出; 反復; 1. 訓練セットの全ての分割された単語を用いる初期
化; 2. 既に学習していない単語のランダムな選択(ある
単語は、若しその単語に対する平均のエラーが充分に低
ければ、学習しているものと考える); 3. 考慮された言語のための、以後より詳細に述べる
ように適当に改善されたエラー逆伝搬アルゴリズムを適
用することによるシナプテイック重みwijの更新;より
特定的には、ニューラル・ネットワーク入力が、その言
語の左から右へのウインドウ・スライデイングに従い変
化するようにされ、且つ全ての入力ウインドウに対して
適切な目標ベクトルが、出力において供給される。この
目標ベクトルは、その現行のセグメンテイションに従
い、その入力ウインドウが属している状態に対応するニ
ューロンに1をセットし、且つ他の全てのニューロンに
0をセットすることにより構成される; 4. 現在まで訓練されたニューラル・ネットワークを
使用し、且つ正確なモデルについてのみにダイナミック
・プログラミングを行うことによる、その考慮された単
語に対するセグメンテイションの再算出; 5. 以後に述べる方程式に従う現行のセグメンテイシ
ョンSt+1 の更新; 6. 若し、その訓練セット内に非考慮の言語があれ
ば、ステップ2に行く; 7. 以後に述べるようなオートマトンの遷移確率の再
算出;および 8. 若し、その訓練セット上の反復の数が、最大プリ
セット数NMAXより大きければ、終了するか、ステッ
プ1に行く。
【0017】言語セグメンテイションおよびセグメンテ
イション更新に基づく、目標ベクトルの構成は、学習ア
ルゴリズムの補助的部分により実現される。より特定的
には、セグメンテイションは、次の様にして各反復にお
いて部分的に改良される。St を時刻tにおけるある単
語のセグメンテイション、St+1 を次の反復におけるセ
グメンテイション、S′t を、これまで(ステップ4)
まで訓練されてきたニューラル・ネットワークにより最
算出された同一単語のセグメンテイションと仮定し、若
し、St (k)が、時刻tにおけるセグメンテイション
のk番目の要素とすれば、次の時刻t+1において、そ
れは次式に従って変化する:
【数11】 St+1 (k)=St (k)+round〔α(S′t (k)−St (k))〕 (ここで、round関数は、最も近い整数に対する増
分まで振り向き、αは次のS字法則に従って、εから1
−εまで行く)
【数12】 (ここで、tは現在時刻(訓練セット上の反復の数)、
Nは、そこでパラメータαが変化すべき訓練セットの反
復の数であり、ε、0<ε<0.5は、αの変化範囲で
ある)
【0018】他の可能性は、αを線型法則に従って増大
させることにある。これらの方法は、セグメンテイショ
ンの遅い変化を、一様な初期のセグメンテイションから
正確なセグメンテイションまで漸進的な進化がある様に
伴い、同時にニューラル・ネットワークの訓練が続くも
のである。この方法は、この認識システムの訓練の良い
結果のために有用である。重みの改善に関して、本発明
は、上記書物でルメルハルトが書いた『エラー逆伝搬』
と呼ばれるものに類似のアルゴリズムの使用を予見して
いる、それは、所望の出力と実際の出力との間の差、つ
まりエラーを、ネットワークの重みを、かようなエラー
を最小にするように改善するため使用するものである。
この改良アルゴリズムを使用する訓練の型を、以後、相
関的訓練と呼ぶ。
【0019】一般に、若し入力に判別すべきより多くの
クラスとサンプルが存在するなら、正確なクラスの出力
は、そのサンプルについて1、その他の全てについて0
がセットされる。これは、全てのクラスが分離されてい
た時は許容される。しかしながらこれは、現在の場合に
ついて起こることではない、と言うのは、例えば異なる
単語中で、同一の音に対応する異なる状態があり得るか
らである(例えば、‘SEI’および‘SETTE’内
のS−E)。かように、同一の入力が、同時により多く
の状態を活性化しなければならない可能性がある。これ
をするため、一時に只一つのクラス(状態)だけが活性
化されるべきとして、ニューラル・ネットワークの、分
類あたりの厳密に判別的な訓練を改良することが必要で
ある。この相関的訓練は、単語状態間に自然に存在して
いる相関を強調することを可能として、それらを、これ
が困難となつた時にはしかしこれにこだわらずに、出来
るだけ判別するように試みる、と言うのは、これは不都
合に形成された状態の創出又は互いに似過ぎた状態の相
互取消を内包することがあるからである。
【0020】より詳細な点に行くと、この相関的訓練
は、次のステップに従うエラー逆伝搬の標準アルゴリズ
ムの改良を提供する:訓練セットの各サンプルについ
て: 1. 入力値ベクトルXおよび所望値ベクトルT(目標
ベクトル)を考慮すること; 2. 入力ユニットに入力値を置くこと; 3. 前記値を、入力ユニットから出力ユニットまで前
進的に伝搬させることによりネットワークを実行し、且
つ良く知られている式:
【数13】 (ここで、oi は、ジェネリック・ニューロンiの出力
であり、θj は、そのニューロンについて典型的な定数
である)に従い、出力ベクトルOを得ること;
【0021】4. 式:
【数14】 (ここで、目標値は、出力:
【数15】 tk =ok ・oh 若し tk ≠ 1 且つ th = 1 であれば、 tk 不変 若し tk = 1 であれば ここで、tk は、目標ベクトルのk番目の要素であり、
且つok およびoh は、ネットワークの出力レベルのk
番目およびh番目ニューロンの出力である、の相関式に
従って定義される)に従って、出力ベクトルOと所望ベ
クトルTとの間の平方エラーとして定義されたエラーE
を算出すること;
【0022】5.シナプテイック重みの更新方程式:
【数16】 (ここで、wijは、ニューロンjからニューロンiまで
のシナプテイック重み、ηは、学習速度を定義する係
数、βは、重み更新における慣性を定義するモメントと
呼ばれる係数、δi は、ニューロンi上で、逆伝搬エラ
ーであり、oj は、ニューロンjの出力である) ステ
ップ4で定義されたエラーから出発して、相関的訓練の
ための新逆伝搬エラー法則は、次のように定義されるも
のとして得られる:出力ニューロンについては:
【数17】 δi =(ti −oi )F′(neti ) 若し ti =1 であれば、 δi =−oi (oh −1)2 F′(neti ) 若し ti ≠1 th =1 であれば 内部ニューロンについては:
【数18】 (ここで、指数kは、上方レベルのニューロン上で動く
ものとする)に使用された、重みに関するエラーの偏微
分係数δE/δwijを算出すること
【0023】6.既述の方程式:
【数19】 に従って、全てのシナプテイック重みwijを更新するこ
と。
【0024】この相関的訓練を実現するためのエラー逆
伝搬アルゴリズムの変形も本発明の一部であり、この認
識システムの訓練段階を有用に実行するために必要であ
る。この認識混成システムのその他の重要な特徴は、オ
ートマトン状態の遷移確率のモデリングのための方法で
ある。提案された方法の目的は、音声会話現象は、それ
らを生じる解剖学的器官の機械的限界により与えられた
最小の持続時間を有するものであると言う良くセットさ
れた仮説に従って状態の最小持続時間のみをモデリング
することを提供することにある;しかしながら最大持続
時間は、高度に変化するものである、と言うのは、それ
らは、話者の個人的特性および情緒的状況に依存する会
話速度の関数であるからである。状態の最小持続時間の
モデリングの目的は、認識を改良して、オートマトンの
最良の経路を、あらゆる場合に間に合う一定の持続時間
を要するアコーステイック現象に対応する状態におい
て、短かすぎる時間の儘であることを防止する。
【0025】図2に示す様に、単語をモデリングするオ
ートマトン状態は、それ自身への再帰および次の状態へ
の遷移を有する。回帰確率は、それがその状態への永続
性に作用するので、最大持続時間をモデリング出来る。
最大持続時間のモデリングは必要としないので、回帰確
率は、1にセットされる。遷移確率は、それがその状態
からの出力に作用するので、最小持続時間をモデリング
出来る。その状態への永続性に依存する遷移確率は、最
小持続時間をモデリングするために使用される。これを
するため、本発明者らは、それについて遷移確率が算出
される状態への永続性の最大の数を示しているパラメー
タKを導入する。Kの合理的な値は、2から6の範囲に
あり得る。時刻tにおいてそれが状態iにあるとしたと
き、時刻t+1における単語wの状態i+1における遷
移確率は、 PT (Sw,i+1 (t+1)|S
w,i (t))で表され、それに関連している状態に、ま
たはその状態への永続性の時刻に依存する;Sw,i が単
語wの状態i、そしてtは、10msの時間間隔の数と
して表された、その状態への永続性の時刻とする。
【0026】この遷移確率は、次の方法で算出される:
【数20】 (ここで、minは、考慮された分数と1との間の最小
値を回復させる関数で、
【数21】 である)この最後の方程式において、Freq(Sw,i
(h))は、h時間内にSw,i中に残っている単語数を
表す。
【0027】この様にして求められる遷移確率は、各単
語モデルの各状態について、この認識システムの訓練段
階中、算出され、その認識性能を改良しながら、システ
ムの動作中、有用に使用される。このニューラル・ネッ
トワークのアルゴリズム・パラメータ学習(エラー逆伝
搬)を如何に行うかは、非常に慎重さを要すること、そ
してそれらは適切に校正されなければならないことは良
く知られている。この認識システムのニューラル・ネッ
トワークの部分を訓練するとき、次記のパラメータが有
利に使用できる: モメントβ=0.2; 補正が実際に重みに適用される前に蓄積された補正の数
(バッチサイズ)=10; 0.1から0.001まで線形的に減少する学習速度
η。 これまで記述してきたことは、限定的な例のためにのみ
に与えられたものであることは明らかである。変形およ
び改良は特許請求の範囲より逸脱することなく可能であ
る。
【図面の簡単な説明】
【図1】システムの機能ブロック・ダイヤグラムであ
る。
【図2】完全単語のオートマトン・モデリングの特定的
実現を示す。
【図3】図1のRNAで指示されたブロックを示す。
【図4】単語‘SETTE’の存在における、10個の
イタリー語数字(‘ZERO’,...,‘NOV
E’)に関連するオートマトンの状態に対するエミッシ
ョン確率の例を示す。
【図5】本発明の認識対象を訓練するのに要する操作の
フロー・チャートである。
【符号の説明】
LT・・・電話回線 SP、ED・・・モジュール RNA・・・リコグナイザー PR・・・出力 M1、Mk、Mn・・・オートマトン OL・・・出力レベル HL・・・内部レベル IL・・・RNAレベル
フロントページの続き (72)発明者 ダリオ・アルベサーノ イタリー国トリノ、ピアネツツア、ヴイ ア・エツセ・パンクラツイオ 10 (72)発明者 ロベルト・ジエメロ イタリー国トリノ、ヴイア・ソスペロ 173/1 (72)発明者 フランコ・マナ イタリー国トリノ、ヴイア・チヤムベリー 93/115 ツエ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 話者非依存隔離単語音声認識システムで
    あって、音声信号がデジタル化され、高速フーリエ変換
    を使用し一定の時間間隔でスペクトル解析を受け、その
    解析結果が、ケプストラル・パラメータを得るため、直
    交変換を受け、且つ、各時間間隔に含まれる合計エネル
    ギーの対数値が算出され、その後、これらの値の数値微
    分係数が算出されて各時間間隔についての音声信号の特
    徴パラメータを得、その単語末端が信号のエネルギー・
    レベルにわたって検出され、単語が、その中で、完全な
    単語が左から右型で、その各々が単語のアコースチック
    部分に対応している状態への再帰を有するマルコフ・モ
    デル・オートマトンによりモデルされ、また、認識が、
    出力(PR)に指示される認識された単語に対応する最
    小コスト経路を有する一つを検出するための全オートマ
    トンに対する、ヴィテルビ・アルゴリズムに従うダイナ
    ミック・プログラミングにより行われる、リコグナイザ
    ー(RNA)により解析され、エミッション確率が、特
    別に訓練されたフィードバックを有するニューラル・ネ
    ットワークで算出され、遷移確率が、適切な方法で見積
    もられるものにおいて、その訓練方法が、次記操作を含
    む事実により特徴付けられるシステム: 初期化; a. 小さなランダム・シナプテイック重みを用いるニ
    ューラル・ネットワークの初期化; b. 訓練セット単語を一様に分割することによる第1
    セグメンテイションの創出; 反復; 1. 訓練セットの全ての分割された単語を用いる初期
    化; 2. 既に学習していない単語のランダムな選択(ある
    単語は、若しその単語に対する平均のエラーが充分に低
    ければ、学習しているものと考える); 3. 考慮された単語のための、相関的訓練を適用する
    ことによるシナプテイック重みwijの更新;より特定的
    には、ニューラル・ネットワーク入力は、その単語の左
    から右へのウインドウ・スライデイングに従い変化する
    ようにされ、且つ全ての入力ウインドウに対して、適切
    な目標ベクトルが、その現行のセグメンテイションに従
    い、その入力ウインドウが属している状態に対応するニ
    ューロンに1をセットし、且つ他の全てのニューロンに
    0をセットすることにより構成された、出力で供給され
    る; 4. 現在まで訓練されたニューラル・ネットワークを
    使用し、且つ正確なモデルについてのみのダイナミック
    ・プログラミングを行うことによる、その考慮された単
    語に対するセグメンテイションの再算出; 5. 現行のセグメンテイションSt+1 の更新; 6. 若し、その訓練セット内に非考慮の単語がまだあ
    れば、ステップ2に行く; 7. オートマトンの遷移確率の再算出;および 8. 若し、その訓練セット上の反復の数が、最大プリ
    セット数NMAXより大きければ、終了するか、さもな
    ければステップ1に行く。
  2. 【請求項2】 請求項1に記載の話者非依存隔離単語音
    声認識システムであって、前記相関的訓練が、訓練セッ
    トの各サンプルについて繰り返される次のステップを含
    むことを特徴とするシステム: 1. 入力値ベクトルXおよび所望値ベクトルT(目標
    ベクトル)を考慮すること; 2. 入力ユニットに入力値を置くこと; 3. 前記値を、入力ユニットから出力ユニットまで前
    進的に伝搬させることによりネットワークを実行し、且
    つ良く知られている式: 【数1】 (ここで、oi は、ジェネリック・ニューロンiの出力
    であり、θi は、そのニューロンについて典型的な定数
    である)に従い、出力ベクトルOを得ること; 4. 式: 【数2】 (ここで、目標値は、出力: 【数3】 tk =ok ・oh 若し tk ≠ 1 且つ th = 1 であれば、 tk 不変 若し tk = 1 であれば (ここで、tk は、目標ベクトルのk番目の要素であ
    り、且つok およびoh は、ネットワークの出力レベル
    のk番目およびh番目ニューロンの出力である)の相関
    式に従って定義される)に従って、出力ベクトルOと所
    望ベクトルTとの間の平方エラーとして定義されたエラ
    ーEを算出すること; 5.シナプテイック重みの更新方程式: 【数4】 (ここで、wijは、ニューロンjからニューロンiまで
    のシナプテイック重み、ηは、学習速度を定義する係
    数、βは、重み更新における慣性を決定するモメントと
    呼ばれる係数、δi は、ニューロンi上で、逆伝搬エラ
    ーであり、oj は、ニューロンjの出力である;ステッ
    プ4で定義されたエラーから出発して、相関的訓練のた
    めの新逆伝搬エラー法則は、次のように定義されるもの
    として得られる:出力ニューロンについては: 【数5】 δi =(ti −oi )F′(neti ) 若し ti =1 であれば、 δi =−oi (oh −1)2 F′(neti ) 若し ti ≠1 th =1 であれば 内部ニューロンについては: 【数6】 (ここで、指数kは、上方レベルのニューロン上で動く
    ものとする)に従って、重みに関するエラーの偏微分係
    数δE/δwijを算出すること; 6.方程式: 【数7】 に従って、全てのシナプテイック重みwijを更新するこ
    と。
  3. 【請求項3】 請求項1に記載の話者非依存隔離単語音
    声認識システムであって、時刻tで状態iにあるとした
    状況下で、単語wの時刻t+1、状態i+1における遷
    移確率が次の方法で算出されることを特徴とするシステ
    ム: 【数8】 (ここで、minは、考慮された分数と1との間の最小
    値を回復させる関数)で、 【数9】 である、(ここで、この最後の方程式において、Fre
    q(Sw,i (h))は、h時間内にSw,i 中に残ってい
    る単語数を表す)。
  4. 【請求項4】 請求項2に記載の話者非依存隔離単語音
    声認識システムであって、次記のパラメータが使用され
    ることを特徴とするシステム: モメントβ=0.2; 補正が実際に重みに適用される前に蓄積される補正の数
    (バッチサイズ)=10; 0.1から0.001まで線型的に減少する学習速度
    η。
  5. 【請求項5】 請求項1に記載の話者非依存隔離単語音
    声認識システムであって、各単語が、その単語に属する
    状態の中心シーケンス(3,...,7)を含むオート
    マトンによりモデルされ、それが、それぞれその言語に
    特有の沈黙−言語および言語−沈黙の遷移を含み、一般
    的背景ノイズ(1,9)の二つの更なる状態により順番
    に先行および追従される、初期(2)および最終(8)
    沈黙状態により先行および追従されるものであることを
    特徴とするシステム。
JP6109158A 1993-05-05 1994-04-26 ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム Expired - Lifetime JP2654917B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT93A000309 1993-05-05
ITTO930309A IT1270919B (it) 1993-05-05 1993-05-05 Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali

Publications (2)

Publication Number Publication Date
JPH06332497A true JPH06332497A (ja) 1994-12-02
JP2654917B2 JP2654917B2 (ja) 1997-09-17

Family

ID=11411463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6109158A Expired - Lifetime JP2654917B2 (ja) 1993-05-05 1994-04-26 ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム

Country Status (6)

Country Link
US (1) US5566270A (ja)
EP (1) EP0623914B1 (ja)
JP (1) JP2654917B2 (ja)
CA (1) CA2122575C (ja)
DE (2) DE69414752T2 (ja)
IT (1) IT1270919B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002519720A (ja) * 1998-06-24 2002-07-02 フォニックス コーポレイション 多層ネットワークを用いた信号分類の方法と装置
CN109902292A (zh) * 2019-01-25 2019-06-18 网经科技(苏州)有限公司 中文词向量处理方法及其系统

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728487A (ja) * 1993-03-26 1995-01-31 Texas Instr Inc <Ti> 音声認識方法
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6662091B2 (en) 2001-06-29 2003-12-09 Battelle Memorial Institute Diagnostics/prognostics using wireless links
NZ530434A (en) 2001-07-02 2005-01-28 Battelle Memorial Institute Intelligent microsensor module
ITTO20020170A1 (it) 2002-02-28 2003-08-28 Loquendo Spa Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale.
GB2397664B (en) * 2003-01-24 2005-04-20 Schlumberger Holdings System and method for inferring geological classes
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
US8700399B2 (en) 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN102693723A (zh) * 2012-04-01 2012-09-26 北京安慧音通科技有限责任公司 一种基于子空间的非特定人孤立词识别方法及装置
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
US10255909B2 (en) * 2017-06-29 2019-04-09 Intel IP Corporation Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB8911461D0 (en) * 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002519720A (ja) * 1998-06-24 2002-07-02 フォニックス コーポレイション 多層ネットワークを用いた信号分類の方法と装置
CN109902292A (zh) * 2019-01-25 2019-06-18 网经科技(苏州)有限公司 中文词向量处理方法及其系统
CN109902292B (zh) * 2019-01-25 2023-05-09 网经科技(苏州)有限公司 中文词向量处理方法及其系统

Also Published As

Publication number Publication date
IT1270919B (it) 1997-05-16
DE69414752T2 (de) 1999-05-27
CA2122575A1 (en) 1994-11-06
JP2654917B2 (ja) 1997-09-17
DE623914T1 (de) 1995-08-24
EP0623914B1 (en) 1998-11-25
ITTO930309A0 (it) 1993-05-05
CA2122575C (en) 1997-05-13
DE69414752D1 (de) 1999-01-07
US5566270A (en) 1996-10-15
EP0623914A1 (en) 1994-11-09
ITTO930309A1 (it) 1994-11-05

Similar Documents

Publication Publication Date Title
JP2654917B2 (ja) ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム
Graves et al. Bidirectional LSTM networks for improved phoneme classification and recognition
JP3549681B2 (ja) 連結数字の認識のための発声識別立証
Juang et al. Hidden Markov models for speech recognition
EP1453037B1 (en) Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
Morgan et al. An introduction to hybrid HMM/connectionist continuous speech recognition
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
EP1557823B1 (en) Method of setting posterior probability parameters for a switching state space model
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
Schwenk Using boosting to improve a hybrid HMM/neural network speech recognizer
Hazen A comparison of novel techniques for rapid speaker adaptation
WO1993013519A1 (en) Composite expert
CN109754784B (zh) 训练滤波模型的方法和语音识别的方法
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP2002358096A (ja) リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム
Wöllmer et al. Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Zhang Joint training methods for tandem and hybrid speech recognition systems using deep neural networks
JPH064097A (ja) 話者認識方法
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
KR100327486B1 (ko) 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
Bilmes et al. Generalized rules for combination and joint training of classifiers
Kim et al. Automatic recognition of pitch movements using multilayer perceptron and time-delay recursive neural network
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
Wu et al. Statistical voice conversion with quasi-periodic wavenet vocoder

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 16

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term