JPH06332497A

JPH06332497A - ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム

Info

Publication number: JPH06332497A
Application number: JP6109158A
Authority: JP
Inventors: Dario Albesano; ダリオ・アルベサーノ; Roberto Gemello; ロベルト・ジエメロ; Franco Mana; フランコ・マナ
Original assignee: CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Current assignee: Telecom Italia SpA
Priority date: 1993-05-05
Filing date: 1994-04-26
Publication date: 1994-12-02
Anticipated expiration: 2012-09-17
Also published as: IT1270919B; DE69414752T2; CA2122575A1; JP2654917B2; DE623914T1; EP0623914B1; ITTO930309A0; CA2122575C; DE69414752D1; US5566270A; EP0623914A1; ITTO930309A1

Abstract

(57)【要約】【目的】話者非依存隔離単語音声認識のための方法【構成】混成認識システムに基づいており、それはニ
ューラル・ネットワークを使用し、その並列処理を、時
間とメモリに関して認識を改良し、システムを最適化す
るために利用可能としており、一方認識技術の統合され
た側面の幾らかを維持している。完全な単語が、その各
々が単語のアコーステイック部分に対応している状態へ
の再帰を有する左から右型のマルコフ・モデル．オート
マトンでモデリングされる、また、認識は、認識された
単語に対応する最小コスト経路を有するものを検出する
ための全オートマトンについて、ヴィテルビ・アルゴリ
ズムに従うダイナミック・プログラミングを行うことに
より得られ、エミッション確率は、独特な方法で訓練さ
れたフィードバックを有するニューラル・ネットワーク
を通じて算出され、一方、遷移確率は、適切な方法で見
積もられる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動音声認識システム
に関し、より特定的には、ニューラル・ネットワークを
使用する話者非依存隔離単語音声認識システムに係る。

【０００２】

【従来の技術】電話回線を通じる音声サービスの供給
は、一般的に、使用者により一時に一個別々に発音され
た１０語程を含む、少なくとも一つの短い辞書を、認識
することの出来る装置の存在を必要とすることは良く知
られている。また、電話回線を通じる認識は、帯域幅で
制限され、交換機および送信装置により導入されるノイ
ズにより影響を受ける音声信号の乏しい品質の故に、正
常な認識に関する追加的困難を伴うものであることも良
く知られている。現在より多く使用されている認識技術
は、ザ・リンカーン・ラボラトリー・ジャーナル（The
lincoln Laboratory Journal) ｖｏｌ．３，ｎ. 1 （１
９９０）に掲載されたポール（D. B. Paul）の『隠れマ
ルコフ・モデルを使用する音声認識』（Speech Recongn
ition Using Hidden Markov Models）と題する論文に述
べられているような、所謂マルコフ・モデルに基づいて
いる。例えば、ＩＥＥＥＡＳＳＰ誌、１９８６年１月
号に掲載されたラビナー（L.R. Rabiner ）の『隠れマ
ルコフ・モデルへの序説』（An Introduction to Hidde
n Markov Models ）と題する論文に述べらたような、マ
ルコフ・モデルは、２つの型のパラメータにより特徴付
けられる確率論的オートマトンである；つまり、このオ
ートマトンのある状態から他の状態への遷移確率、およ
び入力シンボル認識の各状態についての確率、これは、
かようなシンボルのエミッション確率とも呼ばれる、で
ある。

【０００３】音声認識に応用された時、マルコフ・モデ
ル・オートマトン構造は、音声の逐次的性質による、一
定の数の制約を設定することにより選択される。それゆ
え、『左から右』のオートマトンだけが、ある状態が放
棄された後、それが再び訪問できない、そして、全ての
遷移が一状態への再帰および次の状態への遷移に制限さ
れている所で、考慮される。それゆえ、完全な単語が、
各状態が、訓練中自動的に決定される、あるアコーステ
イックな言語部分に対応している所で、左から右のオー
トマトン（状態への再帰を有する）によりモデルされ
る。異なるモデルの状態は、入力単語の部分を認識する
確率により特徴付けられる。音声認識は、全てのオート
マトンについて、ヴィテルビ（Viterbi) アルゴリズム
に従うダイナミック・プログラミングを、試験した単語
に関連するオートマトンによる認識確率を最大化する状
態を通じる経路を見出すように、行うことにより生じ
る。検出された経路は、最小コストの経路であり、この
経路が見出されたオートマトンは認識された単語に対応
する。マルコフ・モデルは、満足な性能を達成し、現在
多くの音声認識システムの基礎にある。この技術の性能
に対する上方の制限は、かなり到達してきたように思わ
れ、それ故認識品質を改善する試みに対する技術的関心
がある。

【０００４】

【発明が解決しようとする課題】更に、そこでエミッシ
ョン確率が、一般に一状態あたり８から１６まで変化す
る数におけるガウス確率の線型密度組合せで算出され
る、連続的マルコフ・モデルの場合、計算負担が非常に
重くなる。本発明の一目的は、マルコフ・モデルで既に
使用されている技術およびニューラル・ネットワークの
新技術を含む混成システムにある。オートマトンを用い
る単語音声モデリングおよびダイナミック・プログラミ
ングを用いるデコーディングはマルコフ・モデルにおけ
るように保持され、一方、エミッション確率は、ニュー
ラル・ネットワークを用いて算出され、遷移確率は、以
後に説明するように異なる方法で算出される。

【０００５】

【課題を解決するための手段】ニューラル・ネットワー
クは、大脳皮質の組織を単純な形で再現する、分散処理
モデルである。ニューラル・ネットワークは、異なる強
さの接続（シナプシス）により強く相互接続された数多
くの処理ユニット（ニューロン）により構成された並列
処理モデルである。個々のユニットの活動は、単に入力
の重み付けした合計の非線型関数であり、モデル・パワ
ーは、接続の位相幾何学およびそれらの強さに内在す
る。そこに解決すべき問題のデータが供給される入力ユ
ニットから始めて、処理は、結果を供給する出力ユニッ
トまで、ネットワーク内に並列分散される。ニューラル
・ネットワークは、プログラミングされるものでなく、
モデルされるべきリアリティーの例のセットにより訓練
されるものである。ニューラル・ネットワークは、例え
ば、マサチューセッツ・ケンブリッジのＭＩＴプレスに
より１９８６年に刊行された、ルメルハルト（D. Rumel
hart）著の書物『並列分散処理』、ｖｏｌ．１、基礎
（“Parallel Distributed Processing", vol. Foundat
ions) に記述されている。

【０００６】

【作用】この技術は、関数見積り、ビデオおよび音声信
号分類、産業制御技術、予報および最適化などの多くの
分野において、非常に良い性能を得ることを可能として
いる。この混成認識システムの目的、つまり本発明の目
的は、それを、認識を改善し、システムをタイムおよび
メモリに係わることについて最適化するため、ノイズに
対する強度、分類正確度、分散処理のようなニューラル
・ネットワークの特徴に利用可能とすることであるが、
認識技術の或る統合された側面は、オートマトンを用い
る単語モデリングおよびそれをデコーディングするため
のダイナミック・プログラミングなどに保持されてい
る。混成認識システムの主要な利点は次のようなもので
ある：即ち、ニューラル・ネットワークに典型的な文脈
上の情報および判別的訓練の使用による認識正確度の増
大；例えばニューラル・ネットワークのためのベクトル
型プロセッサ、デジタルまたはアナログＶＬＳＩチップ
の様な特別の器具で装備することの出来るニューラル・
モデルの本質的並列性による大きなポテンシアル効率で
ある。本発明の一目的は、請求項１の特徴部分に記述さ
れたニューラル・ネットワークを使用する話者非依存隔
離単語音声認識システムにある。本発明の既述の特徴お
よびその他の特徴は、その非限定的な例として与えられ
た好ましい実施例の以下の記述および添付図面により明
らかとなるであろう。

【０００７】

【実施例】図１に示された認識システムは、入力におい
て、隔離単語および電話回線ＬＴから、また他のアナロ
グ・ソースからの全てのノイズより構成された音声信号
を受け、操作のシーケンスに供する。公知の特徴を有す
るモジュールＳＰにより行われる第１の操作は、音声信
号を特徴付けるパラメータの抽出を可能とする。それ
は、人間の聴覚システムの臨界帯域幅において行われる
信号のスペクトル解析より成る。信号は、先ず８ＫＨｚ
のサンプリング・レートでデジタル化され、１０ｍｓ毎
に急速フーリエ変換により解析される。スペクトル解析
の結果は、次いで１２の所謂ケプストラル・パラメータ
を得るため、直交変換（コサイン変換）に供される。各
１０ｍｓの時間間隔に含まれる合計エネルギーの対数値
が更に算出される。これらの１３の値に、それらの数値
微分係数が加えられ、各時間間隔について全部で２６の
パラメータが得られる。

【０００８】次のモジュールＥＤは、概略の単語末端
を、その単語を取り囲む沈黙から分離して検出する装置
である。この装置は、先行ブロックから供給された音声
信号の合計エネルギーに関連するパラメータ上で動作
し、次のブロックＲＮＡを活性化させるために使用され
る信号を供給する。これは、本発明の目的である混成モ
デルに基づくリコグナイザーであって、以下より詳細に
説明する。認識された単語に関する指標は、ブロックＲ
ＮＡの出力ＰＲに現れる。リコグナイザーＲＮＡは、マ
ルコフ・モデル技術からの、左から右へのオートマトン
を用いる単語モデリングを継承する混成モデルである
が、その状態のエミッション確率、つまり或る状態が或
る入力セグメントをそれに属するものと認識する確率
は、多層知覚型再帰ニューラル・ネットワークにより見
積もられる。

【０００９】本発明システムで認識を行うための、完全
な単語をモデリングするオートマトンの特定の実施例
は、図２に示される。隔離された単語を認識するため、
各単語は、番号３〜７で示され、その単語に特有であ
り、それぞれ沈黙−単語および単語−沈黙の遷移を含む
初期沈黙状態２および最終状態８により先行および追従
される、その単語に属する状態の中心シーケンスを含む
オートマトンより構成されている。認識中、その単語を
取り囲むより広い沈黙部分および全てのヒスやまがいの
ノイズを知覚するように、オートマトンの始めと終わり
に、他の二つの一般的背景ノイズ状態１および９が加え
られる。図面で判るように、オートマトン状態は、次の
状態への遷移の他に、それ自身への再帰を有している。

【００１０】図３において、ブロックＲＮＡは、既述の
ルメルハルト（D. Rumelhart）著の書物『並列分散処
理』（“Parallel Distributed Processing ”）に記述
されている型の多層知覚ニューラル・ネットワークを含
むように描かれており、その入力は、前処理された音声
信号のウインドウ、つまり、ケプストラル・パラメータ
のウインドウであり、その出力は、Ｍ１，．．．，Ｍ
ｋ，．．．，Ｍｎで示される全単語モデルの状態のエミ
ッション確率である。ニューラル・ネットワークの各レ
ベルのユニットは、シナプテイック重みを通じ先行レベ
ルのユニットと完全に接続されている。個々のニューロ
ンｉの出力ｏ_iは、その入力ｏ_jの重み付けられた合計
により与えられ、それにそのニューロンに付き典型的で
ある定数値θ_iが加えられる。この合計は、次いで、次
式に従うＳ字変換Ｆ（ｘ）に供される。

【数１０】（ここで、ｗ_ijは、ニューロンｊからニューロンｉまで
の接続のシナプテイック重みである）

【００１１】本システムで使われるニューラル・ネット
ワークは、再帰多層知覚型、つまりフィードバックを備
えたものである。このニューラル・ネットワークは、時
間ｔ＋１に、時間ｔの内部レベルＨＬの内容を含む、或
るレベルＦＬを実際に含む。この内容は、内部レベルＨ
Ｌで入力に帰り、それにより、それ自身を先行状態のメ
モリに利用可能とする、フィードバックを備えたシステ
ムを実現する。ブロックＲＮＡのレベルＩＬにおける入
力は、７個の、ブロックＥＤ（図１）により供給された
ケプストラル・パラメータの各１０ｍｓの時間間隔（３
から９までの間隔の番号が適当である）を含むウインド
ウである；それは、フィードバックを備えた隠されたユ
ニットのレベルＨＬ、および、その上で適当にコード化
された結果が読まれる、出力ユニット・レベルＯＬによ
り追従される。この出力ユニットは、使用された辞書に
ある単語のモデリングに使用されている全てのオートマ
トンＭ１，．．．，Ｍｎの状態とバイユニホームに対
応している。これらのユニットの出力（０から１の範
囲）は、状態のエミッション確率の見積りを与える。

【００１２】ニューラル・ネットワーク入力における、
７個の、１０ｍｓの時間間隔に等しい振幅を有するウイ
ンドウの存在は、一つの１０ｍｓ振幅ウインドウで動作
しているマルコフ・モデルにより考えられたものより大
きな音声信号の部分を考えることを可能とする。これ
は、それが認識を容易にする故、利点である。フィード
バックの存在はまた、ニューラル・ネットワークに、試
験下の音の認識を容易にするように既に解析された単語
の部分を「思い出させる」ことにより、文脈情報の使用
を可能とする。より特定的には、或る状態のエミッショ
ンの確率は、現行の入力だけに依存するものでなく、先
行の瞬間の入力にも依存するのである。これは、異なる
単語における類似の音（‘ＤＵＥ’中の‘Ｅ’と‘ＴＲ
Ｅ’中の‘Ｅ’）、あるいは同一の単語中であるが異な
る文脈における類似の音（例えば、ＯＴＴＯ中の二つの
‘Ｏ’）を判別するのに極めて有用である。例えば、文
脈情報は、‘ＺＥＲＯ’中の‘Ｏ’に対応する状態を、
この文脈においてのみ活性化し、‘ＵＮＯ’，‘ＮＯＶ
Ｅ’等の中の‘Ｏ’音の入力があっても活性化しない。

【００１３】より良い理解のために、図４を参照する
と、そこには、単語認識のため動作している、既に訓練
されたニューラル・ネットワークにおける出力ニューロ
ンの活性化が示されている（この例で’ＳＥＴＴ
Ｅ’）。縦座標には、それぞれ５と８との間の状態の数
を含む、‘ＺＥＲＯ’から‘ＮＯＶＥ’までの数字の発
音に対応する１０オートマトンの状態が、上から下へ続
けて示されている。横座標に多数の１０ｍｓ時間間隔に
分割された時間を示す。ドットのサイズは、ニューラル
・ネットワークにより見積もられた確率値に正比例して
いる。単語‘ＳＥＴＴＥ’内の正確なオートマトンの状
態に加えて、オートマトン‘ＳＥＩ’の最初の状態だけ
が活性化されるが、他のオートマトンは実用上、非活性
化されている、つまり、それらは、これらのオートマト
ンが‘ＳＥＴＴＥ’内に存在する、‘Ｅ’または‘Ｔ’
のような音を含んでいても、実用上、確率を有さないこ
とが判る。

【００１４】既に分類された訓練単語のセットに基づく
認識システム訓練は、そのシステムが認識に使用される
前に行わなければならない。訓練段階中、ブロックＲＮ
Ａは、同時に二つの動作を行わなければならない；その
一つは、各単語について、その単語をモデリングする各
オートマトン状態を、或る単語部分に帰する、適当なセ
グメンテイションを検出することにあり；その他のもの
は、ニューラル・ネットワークを、異なる状態に割当ら
れた単語部分を正確に認識させ、その場合、正確な状態
に高い確率を、その他に対して低い確率を出すように訓
練することにある。知られているように、単語セグメン
テイションは、状態終点のベクトルである。例えば、セ
グメンテイションＳ_t＝（６１０１８２２３
０）は、５状態オートマトンによりモデリングされた単
語に対応し、その第１のものは、その単語の最初の６個
の１０ｍｓ時間間隔を採り、第２のものは、７から１０
までの、また第３のものは、１１から１８まで、と言う
ように時間間隔を採るものである。

【００１５】訓練は、部分的には既に公知の方法により
実現されているが、それを訓練する有用な動作を生み出
す本発明を特徴付ける変形や追加を含む。この様にし
て、ニューラル・ネットワークは、隔離された単語を良
い成績で認識するために使うことが出来る。ニューラル
・ネットワークの訓練は、訓練セットと呼ばれる一対の
セット＜入力ベクトル、出力ベクトル＞に基づく正確な
入力、出力伝送関数を実現するために、ネットワークの
重みｗ_ij を改善することにある。入力ベクトルは、分
割された単語より成り、ケプストラル・パラメータの形
で記録され、訓練のための最適な特性をもってデータ・
ベース内に集められる。ここに目標ベクトルと呼ばれ
る、出力ベクトルは、以下に説明するように適当に構成
される。訓練が終了した時、得られたシナプテイック重
みがメモリ内に格納され、電話回線から受けた単語を認
識するために使われる。

【００１６】図５のフロー・チャートに示すブロックＲ
ＮＡの訓練方法段階は、次のとおりである：初期化：ａ．小さなランダム・シナプテイック重みを用いるニ
ューラル・ネットワークの初期化；ｂ．訓練セット単語を一様に分割することによる第１
セグメンテイションの創出；反復；１．訓練セットの全ての分割された単語を用いる初期
化；２．既に学習していない単語のランダムな選択（ある
単語は、若しその単語に対する平均のエラーが充分に低
ければ、学習しているものと考える）；３．考慮された言語のための、以後より詳細に述べる
ように適当に改善されたエラー逆伝搬アルゴリズムを適
用することによるシナプテイック重みｗ_ijの更新；より
特定的には、ニューラル・ネットワーク入力が、その言
語の左から右へのウインドウ・スライデイングに従い変
化するようにされ、且つ全ての入力ウインドウに対して
適切な目標ベクトルが、出力において供給される。この
目標ベクトルは、その現行のセグメンテイションに従
い、その入力ウインドウが属している状態に対応するニ
ューロンに１をセットし、且つ他の全てのニューロンに
０をセットすることにより構成される；４．現在まで訓練されたニューラル・ネットワークを
使用し、且つ正確なモデルについてのみにダイナミック
・プログラミングを行うことによる、その考慮された単
語に対するセグメンテイションの再算出；５．以後に述べる方程式に従う現行のセグメンテイシ
ョンＳ_t+1の更新；６．若し、その訓練セット内に非考慮の言語があれ
ば、ステップ２に行く；７．以後に述べるようなオートマトンの遷移確率の再
算出；および８．若し、その訓練セット上の反復の数が、最大プリ
セット数ＮＭＡＸより大きければ、終了するか、ステッ
プ１に行く。

【００１７】言語セグメンテイションおよびセグメンテ
イション更新に基づく、目標ベクトルの構成は、学習ア
ルゴリズムの補助的部分により実現される。より特定的
には、セグメンテイションは、次の様にして各反復にお
いて部分的に改良される。Ｓ_tを時刻ｔにおけるある単
語のセグメンテイション、Ｓ_t+1を次の反復におけるセ
グメンテイション、Ｓ′_tを、これまで（ステップ４）
まで訓練されてきたニューラル・ネットワークにより最
算出された同一単語のセグメンテイションと仮定し、若
し、Ｓ_t（ｋ）が、時刻ｔにおけるセグメンテイション
のｋ番目の要素とすれば、次の時刻ｔ＋１において、そ
れは次式に従って変化する：

【数１１】Ｓ_t+1（ｋ）＝Ｓ_t（ｋ）＋ｒｏｕｎｄ〔α（Ｓ′_t（ｋ）−Ｓ_t（ｋ））〕（ここで、ｒｏｕｎｄ関数は、最も近い整数に対する増
分まで振り向き、αは次のＳ字法則に従って、εから１
−εまで行く）

【数１２】（ここで、ｔは現在時刻（訓練セット上の反復の数）、
Ｎは、そこでパラメータαが変化すべき訓練セットの反
復の数であり、ε、０＜ε＜０．５は、αの変化範囲で
ある）

【００１８】他の可能性は、αを線型法則に従って増大
させることにある。これらの方法は、セグメンテイショ
ンの遅い変化を、一様な初期のセグメンテイションから
正確なセグメンテイションまで漸進的な進化がある様に
伴い、同時にニューラル・ネットワークの訓練が続くも
のである。この方法は、この認識システムの訓練の良い
結果のために有用である。重みの改善に関して、本発明
は、上記書物でルメルハルトが書いた『エラー逆伝搬』
と呼ばれるものに類似のアルゴリズムの使用を予見して
いる、それは、所望の出力と実際の出力との間の差、つ
まりエラーを、ネットワークの重みを、かようなエラー
を最小にするように改善するため使用するものである。
この改良アルゴリズムを使用する訓練の型を、以後、相
関的訓練と呼ぶ。

【００１９】一般に、若し入力に判別すべきより多くの
クラスとサンプルが存在するなら、正確なクラスの出力
は、そのサンプルについて１、その他の全てについて０
がセットされる。これは、全てのクラスが分離されてい
た時は許容される。しかしながらこれは、現在の場合に
ついて起こることではない、と言うのは、例えば異なる
単語中で、同一の音に対応する異なる状態があり得るか
らである（例えば、‘ＳＥＩ’および‘ＳＥＴＴＥ’内
のＳ−Ｅ）。かように、同一の入力が、同時により多く
の状態を活性化しなければならない可能性がある。これ
をするため、一時に只一つのクラス（状態）だけが活性
化されるべきとして、ニューラル・ネットワークの、分
類あたりの厳密に判別的な訓練を改良することが必要で
ある。この相関的訓練は、単語状態間に自然に存在して
いる相関を強調することを可能として、それらを、これ
が困難となつた時にはしかしこれにこだわらずに、出来
るだけ判別するように試みる、と言うのは、これは不都
合に形成された状態の創出又は互いに似過ぎた状態の相
互取消を内包することがあるからである。

【００２０】より詳細な点に行くと、この相関的訓練
は、次のステップに従うエラー逆伝搬の標準アルゴリズ
ムの改良を提供する：訓練セットの各サンプルについ
て：１．入力値ベクトルＸおよび所望値ベクトルＴ（目標
ベクトル）を考慮すること；２．入力ユニットに入力値を置くこと；３．前記値を、入力ユニットから出力ユニットまで前
進的に伝搬させることによりネットワークを実行し、且
つ良く知られている式：

【数１３】（ここで、ｏ_iは、ジェネリック・ニューロンｉの出力
であり、θ_jは、そのニューロンについて典型的な定数
である）に従い、出力ベクトルＯを得ること；

【００２１】４．式：

【数１４】（ここで、目標値は、出力：

【数１５】ｔ_k＝ｏ_k・ｏ_h 若しｔ_k≠ １且つｔ_h＝１であれば、ｔ_k 不変若しｔ_k＝１であればここで、ｔ_kは、目標ベクトルのｋ番目の要素であり、
且つｏ_kおよびｏ_hは、ネットワークの出力レベルのｋ
番目およびｈ番目ニューロンの出力である、の相関式に
従って定義される）に従って、出力ベクトルＯと所望ベ
クトルＴとの間の平方エラーとして定義されたエラーＥ
を算出すること；

【００２２】５．シナプテイック重みの更新方程式：

【数１６】（ここで、ｗ_ijは、ニューロンｊからニューロンｉまで
のシナプテイック重み、ηは、学習速度を定義する係
数、βは、重み更新における慣性を定義するモメントと
呼ばれる係数、δ_iは、ニューロンｉ上で、逆伝搬エラ
ーであり、ｏ_jは、ニューロンｊの出力である）ステ
ップ４で定義されたエラーから出発して、相関的訓練の
ための新逆伝搬エラー法則は、次のように定義されるも
のとして得られる：出力ニューロンについては：

【数１７】 δ_i＝（ｔ_i−ｏ_i）Ｆ′（ｎｅｔ_i）若しｔ_i＝１であれば、 δ_i＝−ｏ_i（ｏ_h−１）²Ｆ′（ｎｅｔ_i）若しｔ_i≠１ｔ_h＝１であれば内部ニューロンについては：

【数１８】（ここで、指数ｋは、上方レベルのニューロン上で動く
ものとする）に使用された、重みに関するエラーの偏微
分係数δＥ／δｗ_ijを算出すること

【００２３】６．既述の方程式：

【数１９】に従って、全てのシナプテイック重みｗ_ijを更新するこ
と。

【００２４】この相関的訓練を実現するためのエラー逆
伝搬アルゴリズムの変形も本発明の一部であり、この認
識システムの訓練段階を有用に実行するために必要であ
る。この認識混成システムのその他の重要な特徴は、オ
ートマトン状態の遷移確率のモデリングのための方法で
ある。提案された方法の目的は、音声会話現象は、それ
らを生じる解剖学的器官の機械的限界により与えられた
最小の持続時間を有するものであると言う良くセットさ
れた仮説に従って状態の最小持続時間のみをモデリング
することを提供することにある；しかしながら最大持続
時間は、高度に変化するものである、と言うのは、それ
らは、話者の個人的特性および情緒的状況に依存する会
話速度の関数であるからである。状態の最小持続時間の
モデリングの目的は、認識を改良して、オートマトンの
最良の経路を、あらゆる場合に間に合う一定の持続時間
を要するアコーステイック現象に対応する状態におい
て、短かすぎる時間の儘であることを防止する。

【００２５】図２に示す様に、単語をモデリングするオ
ートマトン状態は、それ自身への再帰および次の状態へ
の遷移を有する。回帰確率は、それがその状態への永続
性に作用するので、最大持続時間をモデリング出来る。
最大持続時間のモデリングは必要としないので、回帰確
率は、１にセットされる。遷移確率は、それがその状態
からの出力に作用するので、最小持続時間をモデリング
出来る。その状態への永続性に依存する遷移確率は、最
小持続時間をモデリングするために使用される。これを
するため、本発明者らは、それについて遷移確率が算出
される状態への永続性の最大の数を示しているパラメー
タＫを導入する。Ｋの合理的な値は、２から６の範囲に
あり得る。時刻ｔにおいてそれが状態ｉにあるとしたと
き、時刻ｔ＋１における単語ｗの状態ｉ＋１における遷
移確率は、Ｐ_T（Ｓ_w,i+1（ｔ＋１）｜Ｓ
_w,i（ｔ））で表され、それに関連している状態に、ま
たはその状態への永続性の時刻に依存する；Ｓ_w,iが単
語ｗの状態ｉ、そしてｔは、１０ｍｓの時間間隔の数と
して表された、その状態への永続性の時刻とする。

【００２６】この遷移確率は、次の方法で算出される：

【数２０】（ここで、ｍｉｎは、考慮された分数と１との間の最小
値を回復させる関数で、

【数２１】である）この最後の方程式において、Ｆｒｅｑ（Ｓ_w,i
（ｈ））は、ｈ時間内にＳ_w,i中に残っている単語数を
表す。

【００２７】この様にして求められる遷移確率は、各単
語モデルの各状態について、この認識システムの訓練段
階中、算出され、その認識性能を改良しながら、システ
ムの動作中、有用に使用される。このニューラル・ネッ
トワークのアルゴリズム・パラメータ学習（エラー逆伝
搬）を如何に行うかは、非常に慎重さを要すること、そ
してそれらは適切に校正されなければならないことは良
く知られている。この認識システムのニューラル・ネッ
トワークの部分を訓練するとき、次記のパラメータが有
利に使用できる：モメントβ＝０．２；補正が実際に重みに適用される前に蓄積された補正の数
（バッチサイズ）＝１０；０．１から０．００１まで線形的に減少する学習速度
η。これまで記述してきたことは、限定的な例のためにのみ
に与えられたものであることは明らかである。変形およ
び改良は特許請求の範囲より逸脱することなく可能であ
る。

【図面の簡単な説明】

【図１】システムの機能ブロック・ダイヤグラムであ
る。

【図２】完全単語のオートマトン・モデリングの特定的
実現を示す。

【図３】図１のＲＮＡで指示されたブロックを示す。

【図４】単語‘ＳＥＴＴＥ’の存在における、１０個の
イタリー語数字（‘ＺＥＲＯ’，．．．，‘ＮＯＶ
Ｅ’）に関連するオートマトンの状態に対するエミッシ
ョン確率の例を示す。

【図５】本発明の認識対象を訓練するのに要する操作の
フロー・チャートである。

【符号の説明】

ＬＴ・・・電話回線ＳＰ、ＥＤ・・・モジュールＲＮＡ・・・リコグナイザーＰＲ・・・出力Ｍ１、Ｍｋ、Ｍｎ・・・オートマトンＯＬ・・・出力レベルＨＬ・・・内部レベルＩＬ・・・ＲＮＡレベル

フロントページの続き (72)発明者ダリオ・アルベサーノイタリー国トリノ、ピアネツツア、ヴイア・エツセ・パンクラツイオ 10 (72)発明者ロベルト・ジエメロイタリー国トリノ、ヴイア・ソスペロ 173／１ (72)発明者フランコ・マナイタリー国トリノ、ヴイア・チヤムベリー 93／115 ツエ

Claims

【特許請求の範囲】

【請求項１】話者非依存隔離単語音声認識システムで
あって、音声信号がデジタル化され、高速フーリエ変換
を使用し一定の時間間隔でスペクトル解析を受け、その
解析結果が、ケプストラル・パラメータを得るため、直
交変換を受け、且つ、各時間間隔に含まれる合計エネル
ギーの対数値が算出され、その後、これらの値の数値微
分係数が算出されて各時間間隔についての音声信号の特
徴パラメータを得、その単語末端が信号のエネルギー・
レベルにわたって検出され、単語が、その中で、完全な
単語が左から右型で、その各々が単語のアコースチック
部分に対応している状態への再帰を有するマルコフ・モ
デル・オートマトンによりモデルされ、また、認識が、
出力（ＰＲ）に指示される認識された単語に対応する最
小コスト経路を有する一つを検出するための全オートマ
トンに対する、ヴィテルビ・アルゴリズムに従うダイナ
ミック・プログラミングにより行われる、リコグナイザ
ー（ＲＮＡ）により解析され、エミッション確率が、特
別に訓練されたフィードバックを有するニューラル・ネ
ットワークで算出され、遷移確率が、適切な方法で見積
もられるものにおいて、その訓練方法が、次記操作を含
む事実により特徴付けられるシステム：初期化；ａ．小さなランダム・シナプテイック重みを用いるニ
ューラル・ネットワークの初期化；ｂ．訓練セット単語を一様に分割することによる第１
セグメンテイションの創出；反復；１．訓練セットの全ての分割された単語を用いる初期
化；２．既に学習していない単語のランダムな選択（ある
単語は、若しその単語に対する平均のエラーが充分に低
ければ、学習しているものと考える）；３．考慮された単語のための、相関的訓練を適用する
ことによるシナプテイック重みｗ_ijの更新；より特定的
には、ニューラル・ネットワーク入力は、その単語の左
から右へのウインドウ・スライデイングに従い変化する
ようにされ、且つ全ての入力ウインドウに対して、適切
な目標ベクトルが、その現行のセグメンテイションに従
い、その入力ウインドウが属している状態に対応するニ
ューロンに１をセットし、且つ他の全てのニューロンに
０をセットすることにより構成された、出力で供給され
る；４．現在まで訓練されたニューラル・ネットワークを
使用し、且つ正確なモデルについてのみのダイナミック
・プログラミングを行うことによる、その考慮された単
語に対するセグメンテイションの再算出；５．現行のセグメンテイションＳ_t+1の更新；６．若し、その訓練セット内に非考慮の単語がまだあ
れば、ステップ２に行く；７．オートマトンの遷移確率の再算出；および８．若し、その訓練セット上の反復の数が、最大プリ
セット数ＮＭＡＸより大きければ、終了するか、さもな
ければステップ１に行く。
【請求項２】請求項１に記載の話者非依存隔離単語音
声認識システムであって、前記相関的訓練が、訓練セッ
トの各サンプルについて繰り返される次のステップを含
むことを特徴とするシステム：１．入力値ベクトルＸおよび所望値ベクトルＴ（目標
ベクトル）を考慮すること；２．入力ユニットに入力値を置くこと；３．前記値を、入力ユニットから出力ユニットまで前
進的に伝搬させることによりネットワークを実行し、且
つ良く知られている式：【数１】（ここで、ｏ_iは、ジェネリック・ニューロンｉの出力
であり、θ_iは、そのニューロンについて典型的な定数
である）に従い、出力ベクトルＯを得ること；４．式：【数２】（ここで、目標値は、出力：【数３】ｔ_k＝ｏ_k・ｏ_h 若しｔ_k≠ １且つｔ_h＝１であれば、ｔ_k 不変若しｔ_k＝１であれば（ここで、ｔ_kは、目標ベクトルのｋ番目の要素であ
り、且つｏ_kおよびｏ_hは、ネットワークの出力レベル
のｋ番目およびｈ番目ニューロンの出力である）の相関
式に従って定義される）に従って、出力ベクトルＯと所
望ベクトルＴとの間の平方エラーとして定義されたエラ
ーＥを算出すること；５．シナプテイック重みの更新方程式：【数４】（ここで、ｗ_ijは、ニューロンｊからニューロンｉまで
のシナプテイック重み、ηは、学習速度を定義する係
数、βは、重み更新における慣性を決定するモメントと
呼ばれる係数、δ_iは、ニューロンｉ上で、逆伝搬エラ
ーであり、ｏ_jは、ニューロンｊの出力である；ステッ
プ４で定義されたエラーから出発して、相関的訓練のた
めの新逆伝搬エラー法則は、次のように定義されるもの
として得られる：出力ニューロンについては：【数５】 δ_i＝（ｔ_i−ｏ_i）Ｆ′（ｎｅｔ_i）若しｔ_i＝１であれば、 δ_i＝−ｏ_i（ｏ_h−１）²Ｆ′（ｎｅｔ_i）若しｔ_i≠１ｔ_h＝１であれば内部ニューロンについては：【数６】（ここで、指数ｋは、上方レベルのニューロン上で動く
ものとする）に従って、重みに関するエラーの偏微分係
数δＥ／δｗ_ijを算出すること；６．方程式：【数７】に従って、全てのシナプテイック重みｗ_ijを更新するこ
と。
【請求項３】請求項１に記載の話者非依存隔離単語音
声認識システムであって、時刻ｔで状態ｉにあるとした
状況下で、単語ｗの時刻ｔ＋１、状態ｉ＋１における遷
移確率が次の方法で算出されることを特徴とするシステ
ム：【数８】（ここで、ｍｉｎは、考慮された分数と１との間の最小
値を回復させる関数）で、【数９】である、（ここで、この最後の方程式において、Ｆｒｅ
ｑ（Ｓ_w,i（ｈ））は、ｈ時間内にＳ_w,i中に残ってい
る単語数を表す）。
【請求項４】請求項２に記載の話者非依存隔離単語音
声認識システムであって、次記のパラメータが使用され
ることを特徴とするシステム：モメントβ＝０．２；補正が実際に重みに適用される前に蓄積される補正の数
（バッチサイズ）＝１０；０．１から０．００１まで線型的に減少する学習速度
η。
【請求項５】請求項１に記載の話者非依存隔離単語音
声認識システムであって、各単語が、その単語に属する
状態の中心シーケンス（３，．．．，７）を含むオート
マトンによりモデルされ、それが、それぞれその言語に
特有の沈黙−言語および言語−沈黙の遷移を含み、一般
的背景ノイズ（１，９）の二つの更なる状態により順番
に先行および追従される、初期（２）および最終（８）
沈黙状態により先行および追従されるものであることを
特徴とするシステム。