JP3078279B2

JP3078279B2 - ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置

Info

Publication number: JP3078279B2
Application number: JP11125902A
Authority: JP
Inventors: ルキアノ・フイツソーレ; ロベルト・ゲメロ; フランコ・ラヴエラ
Original assignee: Telecom Italia Lab SpA
Current assignee: Telecom Italia Lab SpA
Priority date: 1998-05-07
Filing date: 1999-05-06
Publication date: 2000-08-21
Anticipated expiration: 2019-05-06
Also published as: US6185528B1; DE69938374T2; EP0955628A2; EP0955628A3; CA2270326C; ITTO980383A1; JP2000029495A; EP0955628B1; CA2270326A1; DE69938374D1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動音声認識シス
テムに関し、特に、大きな語彙中で孤立したワードを認
識するための方法及び装置に関する。ワードは、言語の
音響音声単位の結合により表され、認識は、ニューラル
ネットワークとマルコフモデルの技術がそれぞれ用いら
れる２つのシーケンシャルステップを通して実行され
る。両技術の結果は、認識精度を改善するよう適当に結
合される。

【０００２】

【従来の技術】ニューラルネットワークは、大脳皮質組
織を非常に単純化した形式にて再現する並列処理構造で
ある。ニューラルネットワークは、ニューロンと称され
る多数の処理単位により形成され、これらのニューロン
が、シナプス又は相互連結重みと称される異なる強度の
リンクを介して強く相互連結される。一般に、ニューロ
ンは、入力層、１以上の中間層、及び出力層から成る階
層構造に従って組織化される。入力ユニットから開始し
て、該入力ユニットが処理されるべき信号を受け取り、
処理がネットワーク中を出力ユニットに向けて後続層に
伝搬し、出力ユニットが結果を与える。ニューラルネッ
トワークの種々の実現について、例えばＤ．Rumelhart
による書籍「並列分散処理(Parallel Distributed Proc
essing) 」、創刊Vol.1 、MIT Press 、Cambridge 、Ma
ss. 、１９８６年に記載されている。ニューラルネット
ワーク技術は、多くの分野、特に音声認識に対して適用
できる。音声認識の場合には、ニューラルネットワーク
は、入力音声信号の一部のパラメータ表現Ｘが与えられ
たときの音声単位の確率Ｐ（Ｑ｜Ｘ）を概算するのに用
いられる。認識されるべきワードは、音声単位の連結と
して表され、動的プログラミングアルゴリズムが、発せ
られている確率が最も高いワードを識別するのに使用さ
れる。

【０００３】隠れマルコフモデルは、古典的な音声認識
技術である。このタイプのモデルは、可能な遷移により
相互連結された幾つかの状態により形成される。遷移
は、元の状態から目的状態に移行する確率に関係する。
さらに、各状態は、所与の確率分布に従って有限アルフ
ァベットのシンボルを放出し得る。音声認識に対して使
用される場合、各モデルは、左から右へのオートマトン
による音響音声単位を表し、該オートマトンでは、循環
遷移により各状態に残るか、又は次の状態に移行するこ
とができる。さらに、各状態は、Ｘにおいて定義された
確率密度と関連する。このＸは、１０ｍｓ毎に音声信号
から引き出されたパラメータのベクトルを表す。従っ
て、状態に関連する確率密度に従って放出されたシンボ
ルは、入力ベクトルの多次元空間におけるガウシアン曲
線の混合により与えられる。隠れマルコフモデルの場合
にも、認識されるべきワードは、音声単位の連結として
表され、動的プログラミングアルゴリズム（ビテルビ(V
iterbi) アルゴリズム）が使用され、所与の入力音声信
号に対して最も高い確率にて発せられたワードを見つけ
る。

【０００４】この認識技術についてのさらなる詳細は、
例えばＬ．Rabiner 、Ｂ- Ｈ．Juang による「音声認識
の基礎(Fundamentals of speech recognition)」、Pren
ticeHall 、Englewood Cliffs、New Jersey（米国）か
ら得られる。この発明の方法は、ニューラルネットワー
ク技術とマルコフモデル技術の両方を２ステップ認識に
より使用し、両技術により得られる結果の結合を利用す
る。異なる認識器のスコアーが組み合わされて認識精度
の点で性能を改善する認識システムが、Ｓ．Austin、
Ｇ．Zavaliagkos 、Ｊ．Makhoul 及びＲ．Schwartzによ
る論文「セグメントニューラルネットを用いた音声認識
(Speech recognitionusing segmental neural net
s)」、ICASSP 92 Conferenceにて発表、サンフランシス
コ、１９９２年３月２３〜２６日、に記載されている。
この公知システムは、隠れマルコフモデルにより第１認
識を行い、Ｎ個の最良認識仮説のリスト（例えば２０
個）、すなわち実際に発せられた文である最も高い確率
を有するＮ個の文のリストを、それらの尤度(likelihoo
d)スコアーと共に与える。マルコフ認識ステージは、ニ
ューラルネットワークに基づいて、各仮説の音声セグメ
ンテーションも行い、セグメンテーション結果を第２認
識ステージに転送する。このステージは、ニューラル認
識技術に従って、第１マルコフステップにより与えられ
た音声セグメントから開始して認識を行い、各々が尤度
スコアーに関連した仮説のリストを与える。両方のスコ
アーは、線形結合されて単一のリストを形成し、このよ
うな結合から生じる最良仮説が、認識された発声として
選択される。

【０００５】この種のシステムは、いくつかの欠点を有
する。第１の欠点は、第２認識ステップが第１ステップ
により与えられた音声セグメントから開始して実行され
ることによる。すなわち、セグメンテーションが時間エ
ラーにより影響されるならば、第２ステップは最終リス
トに伝搬する認識エラーを発生するであろう。さらに、
このようなシステムは、大きな語彙内での孤立ワードの
認識には適当でない。というのは、このように特定の状
況下では計算負荷の観点からニューラル認識器より僅か
に効率の低いマルコフ認識器を第１ステージとして使用
するからである。加えて、マルコフ認識器やニューラル
ネットワーク認識器により与えられる仮説は異なるスコ
アーダイナミックスを示すことを考えれば、スコアーの
シアー(shear) 線形結合は重要でない結果を導き得る。
最後に、この公知システムは、行われた認識についての
如何なる信頼性情報をも与えない。孤立ワードを使用す
るシステムにおける上記情報の利用可能性は、一方では
特に重要な特徴である。すなわち、実際問題として、こ
れらのシステムはユーザーに発声されたワードを確認す
ることを一般に要求し、従って、より長い手順時間を必
要とする。もし信頼性情報が与えられれば、システム
は、認識信頼性が所与の閾値より低くなったときのみ確
認を要求でき、手順をスピードアップできユーザーとシ
ステムオペレーターの両方にとって利益となる。

【０００６】

【発明が解決しようとする課題】本発明の目的は、上記
タイプの認識方法及び装置を提供することであり、これ
らは、大きな語彙内での孤立ワードを認識するよう適宜
設計され、認識精度を改善でき、認識信頼性評価が得ら
れる。

【０００７】

【課題を解決するための手段】特に、本発明による方法
は、認識されるべき同じ発声に対して２つの認識ステッ
プを連続して作用させること、すなわち、ニューラルス
テップがアクティブ語彙全体を分析し、マルコフステッ
プがニューラルステップの結果として与えられる仮説リ
ストによりのみ表される部分語彙を分析すること、及び
さらに結合の結果得られかつ最良仮説に関連するスコア
ーと再配列リスト内の後続位置にある１以上の仮説に関
連するスコアーに基づいて、再配列されたリストの最良
仮説に対して認識信頼性の評価が行われ、それにより、
「確実」又は「不確実」として夫々見なされる認識に対
応する少なくとも２つの値を有し得る信頼性インデック
スを発生することを特徴とする。上記方法を行うための
認識器は、ニューラルネットワークユニットが、隠れマ
ルコフモデルに基づく認識ユニットの前に配置され、ア
クティブ語彙全体に作用することによりその認識を行う
ことができ、隠れマルコフモデルに基づく認識ユニット
が、ニューラルネットワークにより与えられるリストに
含まれる仮説により形成される部分語彙に作用すること
により、ニューラルネットワーク認識ユニットとは独立
にその認識を行うことができること、及び処理ユニット
が、再配列されたリストに含まれる仮説に関連の結合ス
コアーを用いることにより、仮説の再配列リスト内の最
尤スコアーを有する仮説に対する認識信頼性を評価する
ための評価手段を含み、該評価手段は、信頼性インデッ
クスを与えることができ、信頼性インデックスは、この
ような仮説に対して「確実」又は「不確実」として夫々
見なされる認識に対応する少なくとも２つの値を有し得
ることを特徴とする。

【０００８】

【実施例】図１は、本発明による認識システムを示す。
この認識システムは、２つの認識器ＮＥ，ＭＡにより形
成され、連続しかつ独立した２つの認識ステップにおい
てライン１を介して到達した音声信号を操作する。当技
術では通常、ライン１上に存在する信号は、話者により
発せられるワードの適当なパラメーター表現（例えばケ
プストラル(cepstral)表現）とされ、これは、処理装置
（図示せず）において得られ、例えば１０〜１５ｍｓの
持続時間のフレームに編成される。第１ステップで動作
する認識器ＮＥは、ニューラルネットワーク技術に基づ
いており、アクティブ語彙全体を使用することにより認
識を実行する。ＮＥは、出力２上にＭ（ｎｎ）ワードの
リストを与える。これらのワードは、特定タイプのニュ
ーラルネットワークに従って最良認識仮説を形成し、か
つ、各々はそれぞれの音響尤度スコアーｎｎ_iに関連す
る。ＮＥの出力２は、第２認識器ＭＡにも接続される。
第２認識器ＭＡは、ライン１に存在する信号を受け取
り、隠れマルコフモデル（ＨＭＭ）技術に基づいて認識
を行う。この認識は、可能な認識仮説の選択を、認識器
ＮＥにより識別されたＭ（ｎｎ）ワードにより表される
語彙に制限することにより行われる。ＭＡは、出力３に
Ｍ（ｈｍｍ）ワードのリストを与える。これらのワード
は、マルコフモデルによる最良認識仮説を表し、かつ各
々は、それぞれの音響尤度スコアーｈｍｍ_jに関連す
る。

【０００９】従来の方法では、両方のリストとも整列さ
れたリストとして発行される。最も一般的な場合には、
それらは異なる長さを有し、また、ＭＡの動作特性ゆえ
に、ＭＡにより与えられるＭ（ｈｍｍ）ワードはＮＥに
より与えられるＭ（ｎｎ）ワードの部分集合となること
に留意すべきである。両認識器ＮＥ、ＭＡの出力２、３
は、スコアー処理装置ＥＬに接続され、スコアー処理装
置は、次の２種類の操作を行わなければならない。（１）各ワードのスコアーを標準化し標準化されたスコ
アーを結合することにより、２つのリストに存在するワ
ードに関するスコアーを処理し、このような処理の終わ
りに、結合スコアーにより再配列された新しいリストを
システムの第１出力４に与えること。（２）もし両方の認識器ＮＥ、ＭＡが同じワードを最良
認識仮説として識別したならば、このように結合された
リスト内の尤度スコアーに関する幾つかの所与の条件が
満たされていることを確かめることにより、このような
ワードに対する信頼性インデックス（もちろん結合リス
ト内で最良仮説となる）を計算しシステムの第２出力５
に放出すること。

【００１０】この二重機能を考慮して、３つの機能ブロ
ックＵＥ１、ＣＭ、ＵＥ２が、図中スコアー処理装置Ｅ
Ｌ内に描かれている。ＵＥ１は、ＮＥとＭＡにより与え
られるリストのスコアー標準化、標準化されたスコアー
の結合、及び結合されたスコアーに基づいた再配列リス
トの発生についての操作を実行する処理ユニットであ
る。再配列リストは、出力４に与えられる。ＣＭは、比
較ユニットであり、最良認識されたワードが両方のリス
トにおいて同じであるかどうかを確認し、それが肯定的
ならばユニットＵＥ２をイネーブルする。ユニットＵＥ
２は、結合されたスコアーに対する所望の条件が満たさ
れているか否かを確認し、その結果として信頼性インデ
ックスを出力５に与える処理ユニットである。ここに記
載の実施例では、このようなインデックスは「確実」又
は「不確実」としてそれぞれ見なされる認識に対応する
２つの値を取り得ることが仮説される。

【００１１】ユニットＵＥ１、ＵＥ２が上記操作を行う
方法を、以下詳細に説明する。採用された解決策は、マ
ルコフ認識器ＭＡの前に配置されたニューラル認識器Ｎ
Ｅを用いて全体効率を改善する。実際問題として、ニュ
ーラルネットワーク技術は、大きな語彙でのより速い認
識スピードを可能とし、一方、マルコフモデル技術は、
制限された語彙へのより良い性能を提案する。ニューラ
ル認識器ＮＥにより得られた最良Ｍ（ｎｎ）仮説に対応
する語彙のみが使用される第２認識ステップの間、マル
コフ認識器ＭＡを用いることにより、全体の認識時間を
短縮できる。例えば同一出願人による欧州特許出願ＥＰ
−Ａ０７３３９８２に記載のように、ニューラルネット
ワークにより与えられるスピードの利点は、特にニュー
ラル認識器ＮＥが、処理結果の伝搬がインクリメンタル
である（すなわち、ＮＥが、一つの層からより上位の層
への伝搬が、次の瞬間でのニューロンの活性化値間で有
為な差を含むような多層ネットワークを含む）タイプの
場合に得られる。マルコフ認識器ＭＡに対しては特別な
要求は存在せず、当技術において公知のタイプのいずれ
でもよい。

【００１２】図１は機能ブロック図であり、従ってブロ
ックＵＥ１、ＣＭ、ＵＥ２は一般に処理装置ＥＬに記憶
されたプログラムの異なる部分に対応すること留意され
たい。個々の認識器ＮＥ、ＭＡも適当にプログラミング
された処理装置により実現されることを考慮すると、同
じ処理装置が、１より多い表示ブロックのタスクを実行
できることは明らかである。図１の装置により実行され
る認識工程全体は、図２のフローチャートによっても示
される。上記説明により、さらなる説明は必要ないであ
ろう。ＮＥとＭＡにより与えられる両リストに含まれる
仮説に対するスコアー処理操作について、ＵＥ１により
実行される第１ステップは、平均μ（ｎｎ）、μ（ｈｍ
ｍ）及び２つのリストの各々に対するスコアーの分散σ
（ｎｎ）、σ（ｈｍｍ）の計算であり、次の公知の公式
による。

【００１３】

【数１】ここで、Ｍ（ｈｍｍ）、Ｍ（ｎｎ）、ｎｎ_i、ｈｍｍ_j
は上記述べた意味を有する。

【００１４】次のステップは、平均及び分散に対するス
コアー標準化を行い、ゼロ平均及び単位(unitary) 分散
を有するスコアーの２リストＮＮ_i、ＨＭＭ_jを得るこ
とである。このために、ＵＥ１は、次の関係式により表
される操作を行う。

【数２】ＵＥ１は、リスト内のワード数が所与の閾値Ｍより少な
くない場合にのみ、そのリストに対してスコアーの平均
及び分散の計算（及びそれらの標準化）を行う。好まし
い実施態様では、Ｍ＝３、すなわち平均と分散の計算が
可能な最小値とされた。リスト中のワード数が閾値Ｍよ
り少ない場合には、それぞれの認識器により与えられる
スコアーの代わりに、ＵＥ１は予め定められたスコアー
値を使用する。これは、標準化の一種である。これまで
行われた実験では、１つの仮説のみの場合にはスコアー
値３．０が割り当てられ、２つだけの仮説の場合には値
２．０と１．０が割り当てられた。認識器は、これらの
パラメーター値にはほとんど感知しないことが示され
た。このように、良い尤度に対応するいかなる値でも使
用できる。

【００１５】最後に、２つのリスト内の同じワードＩＰ
_h（ＨＭＭ）、ＩＰ_k（ＮＮ）に関連するスコアーの実
際の結合が行われ、可能なワードの最終リストが発生さ
れる。この最終リストは、結合されたスコアーに従って
再配列される。線形結合が行われ、その結果、新しいリ
スト内の任意のワードＩＰｘは、次式により与えられる
結合スコアーＳｘを有する。Ｓｘ＝α・ＮＮ_h＋β・ＨＭＭ_k ここで、αとβは２つの認識器の各々に割り当たられた
重みである。好ましくは、２つの重み（ユニットＵＥ１
内に記憶されている）は、関係式β＝１−αを満たす。
両方の認識器が実質的に同様の性能を有するならば、α
＝０．５である。異なる性能を有する場合には、値αと
βの適当な範囲は、０．４〜０．６とし得る。ただ１つ
のリストに存在するワードの場合には、スコアー結合は
行われないことは明らかである。これらのワード（上記
説明した理由により一般にニューラルネットワークによ
り与えられるリストに属する）は、放棄又は最小スコア
ーに関係付けられ得、スコアー結合が実行されたものの
後の最終リストに挿入される。ゼロ平均と単位分散を有
するリストを与える標準化のおかげで、両認識器により
与えられるスコアーの異なるダイナミックス故の効果が
除去され、認識信頼性が改善される。

【００１６】この方法は、図３のフローチャートにも示
される。上記説明が与えられれば、このフローチャート
に対するさらなる説明は不要であろう。一旦ＵＥ１が結
合スコアーを得て再配列リストを準備したなら、ブロッ
クＵＥ２は、リスト中の第１ワードの認識信頼性を決定
できる。既に述べたように、もし同一ワードがＮＥ及び
ＭＡにより与えられるリスト内で第１位置を有するこ
と、すなわちＩＰ１（ＮＮ）＝ＩＰ１（ＨＭＭ）を認識
すれば、ＵＥ２の動作は比較器ＣＭによりイネーブルさ
れる。信頼性評価のため、ＵＥ２は、最良ワードに関連
するスコアー、及びそのワードとリスト内の後続ワード
の幾つかの間のスコアー差を評価する。特に、認識を
「確実」と見なすためには、（２つのリスト内の最良ワ
ードの同一性に関する条件を同時に満たし）以下の条件
も満たすことが必要である。（１）再配列リスト内の第１ワードの結合スコアーＳ１
が、第１閾値Ｔ１よりも大きくなければならないこと。（２）再配列リスト内の第１ワードに関連する結合スコ
アーＳ１と第２及び第５ワードに関連するスコアーＳ
２、Ｓ５間の差が、それぞれ第２及び第３閾値Ｔ２、Ｔ
３より大きいこと。十分な数の仮説が存在する場合にの
み、差Ｓ１−Ｓ２とＳ１−Ｓ５が計算され、それぞれの
閾値と比較される。そうでない場合には、条件（２）が
満足されたと考える。

【００１７】閾値は、認識器が使用される用途に従って
設定される。例えば、実行された実験では、次の値が採
用された。すなわち、Ｔ１＝２．０、Ｔ２＝０．９、Ｔ
３＝２．３。直感的には、上記述べた条件（両リストに
より与えられる最良認識仮説の同一性に加えて、リスト
中の最良仮説と後続のものの間の十分なスコアー差をも
要求する。）が、いかにして認識信頼性の実際の評価を
可能にするかが分かる。認識信頼性の評価操作は、図４
のフローチャートにも示される。この図では両リスト内
の最良ワードの同一性は、他の条件の確認に対する予備
条件として見なされる代わりに、他の条件と共に共同確
認される条件として示されたことが分かる。しかし、同
じ原理の実行の詳細のみが存在することは明らかであ
る。この図に関しても更なる説明は不要であろう。

【００１８】上記説明は単に非制限的な例として与えら
れていること、及び本発明の範囲から逸脱することなく
変更及び／又は改変が可能であることは明らかである。
例えば、信頼性を評価するため、最良ワードスコアーが
第２ワードのスコアーより十分に大きいか否かのみを確
認することが可能であり、それにより、別のワード（第
５のものでもないが、第２のものから十分離れた別のワ
ードであり得る。）との比較が避けられる。認識信頼性
を確認するため、「確実」と「不確実」の間の中間評価
度を導入するように、異なる方法で上記与えられた条件
を結合することができ、又は更なる条件を加えることが
できる。例えば、中間評価度は、閾値Ｔ３ではなくＴ１
及びＴ２のみに対する条件を満たすことにより表し得
る。最後に、たとえ孤立ワード認識についての説明しか
為されてないとしても、連続的な音声に対しても本認識
器が使用できる。

【図面の簡単な説明】

【図１】本発明による認識システムのブロック図であ
る。

【図２】本発明による認識方法のフローチャートであ
る。

【図３】スコアー結合のための操作のフローチャートで
ある。

【図４】認識信頼性の計算操作のフローチャートであ
る。

【符号の説明】

ＮＥ認識器ＭＡ認識器ＥＬスコアー処理装置ＵＥ１、ＵＥ２、ＣＭ機能ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロベルト・ゲメロイタリー国 10091 アルピグナノ（トリノ）、ヴイア・ヴイラ 10 (72)発明者フランコ・ラヴエライタリー国 10073 シリエ（トリノ）、ヴイア・ヴイグナ 32 (56)参考文献特開平３−15898（ＪＰ，Ａ) 特開平４−218100（ＪＰ，Ａ) 特開昭56−101199（ＪＰ，Ａ) 特開昭58−52696（ＪＰ，Ａ) 特開昭58−159598（ＪＰ，Ａ) 特開昭61−114299（ＪＰ，Ａ) 特開昭63−254498（ＪＰ，Ａ) 特開平２−298998（ＪＰ，Ａ) 特許2577891（ＪＰ，Ｂ２) 特許2654917（ＪＰ，Ｂ２) 特許3039408（ＪＰ，Ｂ２) 特公平４−54960（ＪＰ，Ｂ２) 米国特許5566270（ＵＳ，Ａ) 英国特許出願公開2231698（ＧＢ，Ａ) 英国特許出願公開2230370（ＧＢ，Ａ) 仏国特許出願公開2647249（ＦＲ，Ａ１) 欧州特許出願公開955628（ＥＰ，Ａ２) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．97，Ｎｏ．114，ＳＰ97−15, 深田俊明外，「リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用」ｐ．41−48（1997年６月 19日発行) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ. ２，Ｎｏ．１，Ｐａｒｔ．▲ＩＩ▼，Ｊａｎｕａｒｙ 1994，Ｇ．Ｚａｖａｌｉａｇｋｏｓｅｔａｌ，”ＡＨｙｂｒｉｄＳｅｇｍｅｎｔａｌＮｅｕｒａｌＮｅｔ／ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＳｙｓｔｅｍｆｏｒＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ. 151−160 ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ. ２，Ｎｏ．１，Ｐａｒｔ．▲ＩＩ▼，Ｊａｎｕａｒｙ 1994，Ｃ．Ｄｕｇａｓｔｅｔａｌ，”ＣｏｍｂｉｎｉｎｇＴＤＮＮａｎｄＨＭＭｉｎａＨｙｂｒｉｄＳｙｓｔｅｍｆｏｒＩｍｐｒｏｖｅｄＣｏｎｔｉｎｕｏｕｓ−ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．217−223 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ 1990 ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｓ８．３，”ＴＤＮＮＬａｂｅｌｉｎｇｆｏｒａＨＭＭＲｅｃｏｇｎｉｚｅｒ”，ｐ．421 −423 Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ 1991 ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｓ．Ａｕｓｔｉｎｅｔａｌ，”ＡＨｙｂｒｉｄＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍＵｓｉｎｇＳｅｇｍｅｎｔａｌＮｅｕｒａｌＮｅｔｓｗｉｔｈＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ”，ｐ. 347−356 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ 1993 ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｒ．Ｐ．Ｌｉｐｐｍａｎｎｅｔａｌ，”ＨｙｂｒｉｄＮｅｕｒａｌ−Ｎｅｔｗｏｒｋ／ＨＭＭＡｐｐｒｏａｃｈｅｓｔｏＷｏｒｄｓｐｏｔｔｉｎｇ”ｐ．Ｉ−565−Ｉ− 568 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1993 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ. ３，Ｎ．Ｍ．Ｂｏｔｒｏｓｅｔａｌ，”ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓａｎｄＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ”，ｐ．1770−1775 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1996 ＩＥＥＥＴｈｉｒｄＷｏｒｋｓｈｏｐｏｎＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＴｅｃｈｎｏｌｏｇｙｆｏｒＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＡｐｐｌｉｃａｔｉｏｎｓ, Ｉ．Ｇａｖａｔｅｔａｌ，”ＡＨｙｂｒｉｄＮＮ−ＨＭＭＳｙｓｔｅｍｆｏｒＣｏｎｎｅｃｔｅｄＤｉｇｉｔＲｅｃｏｇｎｉｔｉｏｎＯｖｅｒＴｅｌｅｐｈｏｎｅｉｎＲｏｍａｎｉａｎＬａｎｇｕａｇｅ”, ｐ．37−40 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1998 ＩＥＥＥＷｏｒｌｄＣｏｎｇｒｅｓｓｏｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，1998 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ．１，Ｋ．Ｎａｅｔａｌ，”ＡｎＨＭＭ／ＭＬＰＨｙｂｒｉｄＡｐｐｒｏａｃｈｆｏｒＩｍｐｒｏｖｉｎｇＤｉｓｃｒｉｍｉｎａｔｉｏｎｉｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．156−159 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1998 ＩＥＥＥＦｏｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｙ．Ｊｉａｅｔａｌ，”ＲｅｃｏｇｎｉｔｉｏｎｏｆＣｈｉｎｅｓｅＳｐｅｅｃｈＵｓｉｎｇＨｙｂｒｉｄＨＭＭ／ＨＮＮＭｏｄｅｌｓ”，ｐ726−729 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1998 ＳＢＴ／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｍｐｏｓｉｕｍ，Ｖｏｌ．１，Ｃ．Ａ．Ｙｎｏｇｕｔｉｅｔａｌ，”ＡＣｏｍｐａｒｉｓｏｎＢｅｔｗｅｅｎＨＭＭａｎｄＨｙｂｒｉｄＡＮＮ−ＨＭＭＢａｓｅｄＳｙｓｔｅｍｓｆｏｒＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．135−140 ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＳｙｍｐｏｓｉａｏｎＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｙｓｔｅｍｓ，1998，Ｓ．−Ｍ．Ｇｅｏｒｇｅｓｃｕ，”ＰｒｏｂａｂｉｌｉｔｙＥｓｔｉｍａｔｉｏｎｉｎＨｙｂｒｉｄＮＮ−ＨＭＭＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍｓｗｉｔｈＲｅａｌ−ＴｉｍｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ”，ｐ. 412−417 ＰｒｏｃｅｅｄｉｎｇｓｏｆＵＫＩＴ 1990 Ｃｏｎｆｅｒｅｎｃｅ, ＩＥＥＣｏｎｆｅｒｅｎｃｅＰｕｂｌｉｃａｔｉｏｎＮｏ．316，Ｙ．Ａｒｒｉｏｌａｅｔａｌ，”ＩｎｔｅｇｒａｔｉｏｎｏｆＭｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎａｎｄＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．413 −420 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/28 G06F 15/18 560 G10L 15/14 G10L 15/16 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】２つの認識ステップ（ＮＥ、ＭＡ）、す
なわちニューラルネットワークの使用に基づいた認識ス
テップと隠れマルコフモデルの使用に基づいた認識ステ
ップを行い、各ステップは、各認識仮説が夫々の音響尤
度スコアーに関連した認識仮説のリストをそれぞれ与
え；各リストの尤度スコアーを処理し；そして、処理し
たスコアーに基づいて再配列された単一のリストを与え
る音声認識方法であって、ニューラルステップ（ＮＥ）がアクティブ語彙全体を分
析し且つマルコフステップ（ＭＡ）がニューラルステッ
プ（ＮＥ）の結果として得られる仮説のリストにより表
される部分語彙のみを分析するように、２つの認識ステ
ップ（ＮＥ、ＭＡ）を認識すべき同一発声に対して連続
して作用させ、上記スコアーの結合から得られかつ最良仮説に関連する
スコアー、及び再配列されたリスト内の後続位置を占め
る１以上の仮説に関連するスコアーに基づいて、再配列
リストの最良仮説に対して認識信頼性の評価を行い、
「確実」又は「不確実」と見なされる認識の場合にそれ
ぞれ対応する少なくとも２つの値を取り得る信頼性イン
デックスを発生することを特徴とする音声認識方法。
【請求項２】尤度スコアー処理が、（ア）各リストに
おいて仮説に関連するスコアーの平均と分散を計算する
こと、（イ）それぞれの平均と分散に対して各リスト内
の仮説に関連するスコアーを標準化し、これらのリスト
を、スコアーがゼロ平均と単位分散を有するリストに変
換すること、（ウ）両リストに存在する認識仮説に関連
する標準化スコアーを線形結合すること、なる操作を含
むことを特徴とする請求項１記載の方法。
【請求項３】平均と分散の計算及びリストに対するス
コアー標準化が、そのようなリストが最小値以上の数の
仮説を含む場合にのみ実行されることを特徴とする請求
項２記載の方法。
【請求項４】このような最小値より小さい数の仮説を
含むリストに対して、このようなリストに含まれる仮説
のスコアーが所定の値に割り当てられることを特徴とす
る請求項３記載の方法。
【請求項５】前記線形結合のため、両リストに存在す
る仮説のスコアーが、単位総和を有する重みにより重み
付けされることを特徴とする請求項１〜請求項４のいず
れか一項に記載の方法。
【請求項６】前記単一リストの作成のため、１つのリ
ストにのみ存在する仮説が放棄されることを特徴とする
請求項１〜請求項５のいずれか一項に記載の方法。
【請求項７】前記単一リストの作成のため、１つのリ
ストにのみ存在する仮説が、両リストに存在する仮説の
最小結合スコアーより小さい所与の最小スコアーである
ことを特徴とする請求項１〜請求項５のいずれか一項に
記載の方法。
【請求項８】前記単一リスト内の最良認識仮説に対す
る認識信頼性の前記評価が、前記仮説が両リスト中で最
良であった場合に実行され、また、（ア）前記最良仮説
に関連する結合スコアーを第１閾値と比較すること、
（イ）前記最良仮説に関連する結合スコアーと次に小さ
いスコアーを有する仮説に関連するものとの差により与
えられる第１スコアー差を計算すること、及び（ウ）前
記第１差を第２閾値と比較することなる操作を含み、もし前記結合スコアーと前記第１差が両方ともそれらの
夫々の閾値より大きいならば、信頼性インデックスが、
確実と見なされる認識に対応する値として与えられる、
ことを特徴とする請求項１〜請求項７のいずれか一項に
記載の方法。
【請求項９】前記認識信頼性評価が、（ア）前記最良
仮説に関連する結合スコアーと、再配列されたリスト内
での所定数の位置だけ間隔を置いた次の位置を有する別
の仮説に関連したものとの差により与えられる第２スコ
アー差を計算すること、及び（イ）前記第２差を第３閾
値と比較すること、なる操作をも含み、もし前記別の差がそれぞれの閾値より大きいならば、信
頼性インデックスが、確実と見なされる認識に対応する
値として与えられる、ことを特徴とする請求項８記載の
方法。
【請求項１０】リストが最小値以上の数の仮説を含む
場合にのみ、前記差の計算が行われることを特徴とする
請求項８又は請求項９に記載の方法。
【請求項１１】前記最小値より小さい数の仮説を有す
るリストの場合に、第２及び第３閾値を越える条件が満
足されると見なされることを特徴とする請求項１０記載
の方法。
【請求項１２】（ア）カスケード接続された一対の認
識ユニット（ＮＮ、ＭＡ）であって、ニューラルネット
ワークに基づいた認識技術と隠れマルコフモデルに基づ
いた認識技術をそれぞれ使用し、認識仮説の夫々のリス
トを与え、各仮説は、夫々の音響尤度スコアーに関連し
ている前記認識ユニット、及び（イ）処理ユニット（Ｅ
Ｌ）であって、両認識ユニット（ＮＮ、ＭＡ）により決
められるスコアーを結合し且つ結合スコアーに基づいて
再配列されたリストを与えるための結合手段（ＵＥ１）
を含む前記処理ユニットを含む音声認識器であって、ニューラルネットワーク認識ユニット（ＮＮ）が、隠れ
マルコフモデルに基づく認識ユニット（ＭＡ）の前に配
置され、アクティブ語彙全体に作用することにより認識
を実行するよう構成され、隠れマルコフモデルに基づく
認識ユニット（ＭＡ）が、ニューラルネットワークユニ
ットにより与えられるリストに存在する仮説により形成
される部分語彙に作用することによりニューラルネット
ワーク認識ユニット（ＮＮ）とは独立に認識を行うよう
構成され、処理ユニット（ＥＬ）が、再配列リストに存在する仮説
に関連する結合スコアーを使用することにより、再配列
リスト内の最良尤度スコアーを有する仮説の認識信頼性
を評価するための認識評価手段（ＣＭ、ＵＥ２）を含
み、前記評価手段（ＣＭ、ＵＥ２）は、このような仮説
に対して「確実」又は「不確実」と見なされる認識にそ
れぞれ対応する少なくとも２つの値を取り得る信頼性イ
ンデックスを与えることができることを特徴とする音声
認識器。
【請求項１３】前記結合手段（ＵＥ１）は、その事前
処理を行った後、両リストに含まれる認識仮説に関連す
る尤度スコアーを線形結合するよう構成され、前記事前
処理として、（ア）各リスト内の前記仮説に関連するス
コアーの平均と分散を計算すること、（イ）前記仮説に
関連するスコアーをそれら夫々のリストの平均及び分散
に対して標準化し、前記リストをゼロ平均及び単位分散
を有するスコアーリストに変換すること、なる操作が含
まれることを特徴とする請求項１２記載の認識器。
【請求項１４】このようなリストが最小値以上の数の
仮説を含む場合にのみ、このような結合手段（ＵＥ１）
がイネーブルされて平均及び分散の計算及び各認識ユニ
ット（ＮＮ、ＭＡ）により与えられるリストのスコアー
の標準化を実行することを特徴とする請求項１３記載の
認識器。
【請求項１５】前記評価手段（ＣＭ、ＵＥ２）が、第
１比較手段（ＣＭ）及び第２比較手段（ＵＥ２）を含
み、第１比較手段（ＣＭ）は、ニューラルネットワーク
認識ユニット（ＮＮ）により識別された最良認識仮説を
隠れマルコフモデルに基づく認識ユニット（ＭＡ）によ
り与えられるものと比較し、もしそのような最良仮説が
一致したならイネーブル信号を放出し、第２比較手段
（ＵＥ２）は、前記イネーブル信号によりイネーブルさ
れ、再配列リスト内の最良仮説のスコアー、及び再配列
リスト内の最良仮説に関連したスコアーとすぐ下のスコ
アーを有する仮説に関連したスコアーとの差をそれぞれ
の閾値と比較し、これらのスコアー及び前記差がそれら
の夫々の閾値を越える場合に確実と見なされる認識に対
応する値を有する前記信頼性インデックスを与えるよう
構成されることを特徴とする請求項１２〜請求項１４の
いずれか一項に記載の認識器。
【請求項１６】前記第２比較手段（ＵＥ２）が、再配
列リストの最良仮説に関連したスコアーと再配列リスト
内で次の位置を有し且つ所定数の位置だけ間隔を置いた
仮説に関連したスコアーとの差を別の閾値を比較し、こ
のような差がこのような別の閾値を越える場合に「確
実」と見なされる認識に対応する値を有する前記信頼性
インデックスを与えるよう構成されることを特徴とする
請求項１５記載の認識器。