JPH0612093A

JPH0612093A - 音声認識装置およびそのトレーニング方法ならびに装置

Info

Publication number: JPH0612093A
Application number: JP5064823A
Authority: JP
Inventors: Wu Chou; チョウウー; Biing-Hwang Juang; ジュアンビイン−ホワン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1992-03-02
Filing date: 1993-03-02
Publication date: 1994-01-21
Anticipated expiration: 2015-06-19
Also published as: EP0559349A1; CA2089903C; EP0559349B1; ES2128390T3; JP3053711B2; DE69322894D1; DE69322894T2; CA2089903A1; US5579436A

Abstract

(57)【要約】【目的】ビタビスコアリングを使用する隠れマルコフ
モデル（ＨＭＭ）に基づく音声認識器のようなパターン
ベースの音声認識に対して、新しいトレーニング方法お
よび装置を実現する。【構成】既知音声信号を受信し、この信号およびこの
信号に対する現在の複数の参照パターンに基づいて複数
の認識器スコアリング信号を発生し、これらのスコアリ
ング信号に基づいて誤認識信号を発生する。誤認識信号
および受信した既知音声信号に基づいて、未知音声信号
を誤認識する尤度を減少させるために現在の参照パター
ンを修正し、修正した参照パターンをメモリに格納す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般に音声認識の分野
に関し、特に、音声認識器トレーニングの分野に関す
る。

【０００２】

【従来の技術】音声認識は、未知の音声発話（通常、デ
ィジタルＰＣＭ信号の形式）が識別されるプロセスであ
る。一般に、音声認識は、未知発話の特徴を既知の語ま
たは句の特徴と比較することによって実行される。

【０００３】既知語句の特徴は、トレーニングとして知
られるプロセスで決定される。トレーニングによって、
既知語句のサンプル（トレーニング音声）が検査され、
その特徴（または特性）が、音声認識器のデータベース
内の参照パターンとして記録される。一般的に、各参照
パターンは単一の既知語を表す。

【０００４】未知発話を認識するために、音声認識器
は、その発話を特徴づけるためにその発話から特徴を抽
出する。未知発話の特徴をテストパターンという。次
に、認識器は、データベース内の参照パターンの組合せ
を、未知発話のテストパターンと比較する。参照パター
ンの各組合わせがテストパターンと一致する度合いの相
対的な測度を与えるために、スコアリング技術が使用さ
れる。未知発話は、その未知発話と最も良く一致する参
照パターンの組合せに対応する語として認識される。

【０００５】多くの種類の音声認識器が存在する。例え
ば、テンプレートベース認識器および隠れマルコフモデ
ル（ＨＭＭ）認識器がある。テンプレートベース認識器
は、参照パターンを構築するために既知語サンプルに基
づく１次統計量（例えば、サンプルのスペクトル平均）
を使用してトレーニングされる。一般的に、スコアリン
グは、時間登録技術（例えば動的時間ワーピング（ＤＴ
Ｗ））によって実現される。ＤＴＷは、参照パターンと
テストパターンの間の最適時間整合を与える。

【０００６】この整合は、一方のパターンが他方のパタ
ーンに最適に一致するまで、一方のパターンの時間軸を
局所的に伸縮することによってなされる。ＤＴＷスコア
リングは、２つの最適に整合された参照パターンおよび
テストパターンの間の全体の距離を反映する。最低スコ
アを有する参照パターン（すなわち、その参照パターン
とテストパターンの間の距離が最短）が、テストパター
ンと同定される。

【０００７】ＨＭＭ認識器は、既知語サンプルの１次お
よび２次統計量（すなわち、スペクトル平均および分
散）を使用してトレーニングされる。ＨＭＭ認識器の各
参照パターンは、これらの統計量を反映するＮ状態統計
モデル（ＨＭＭ）である。ＨＭＭの各状態はある意味で
既知語のサンプルの時間的事象に付随する統計量に対応
する。ＨＭＭは、状態遷移行列Ａ（旧状態から新状態に
到達する方法の統計的記述を与える）および観測確率行
列Ｂ（与えられた状態において観測されやすいスペクト
ル特徴の記述を与える）によって特徴づけられる。テス
トパターンのスコアリングは、特定のモデルが与えられ
た場合のテストパターンの特徴の列の生起の確率を反映
する。すべてのモデルにわたるスコアリングは、効率的
な動的プログラミング技術（例えばビタビスコアリン
グ）によって与えられる。テストパターン中の特徴の列
の最大生起確率を示すＨＭＭが、そのテストパターンと
同定される。

【０００８】音声認識器の性能は一般にそれをトレーニ
ングするために使用される技術の効率と密接に対応す
る。例えばＨＭＭ音声認識器の従来のトレーニングは、
特定のＨＭＭが既知語サンプルの統計に一致する尤度を
増加させることに関する統計データ当てはめの原理に基
づく。従来のＨＭＭトレーニングの成功は、大量のトレ
ーニング音声サンプルの利用可能性およびＨＭＭの適切
な選択による。

【０００９】しばしば、利用可能なトレーニング音声の
量は制限され、選択されたＨＭＭによる音声生成プロセ
スに対する仮定はしばしば不正確である。その結果、Ｈ
ＭＭの尤度ベースのトレーニングはあまり効率的とはい
えない。従来のトレーニング方法の欠点は、トレーニン
グと認識誤り率の間の直接的な関係の欠如による。この
欠点を説明するため、ＨＭＭベースの音声認識器につい
てさらに詳細に説明することにする。

【００１０】従来のＨＭＭベースの音声認識器では、連
続音声波形はフレームへとブロック化され、特徴ベクト
ルの離散列Ｘ＝｛ｘ₀，ｘ₁，．．．，ｘ_T（ｘ）｝が抽
出される。ただし、Ｔ（ｘ）は、音声信号内のフレーム
の総数に対応する（入力音声発話をその特徴ベクトル列
Ｘ＝｛ｘ₀，ｘ₁，．．．，ｘ_T（ｘ）｝と同一視しても
混同は生じない）。

【００１１】ＨＭＭの枠組みでは、入力音声特徴ベクト
ル列Ｘは、時刻ｔ＝１，．．．，Ｔ（ｘ）のある離散時
間マルコフ連鎖からの結果のノイズのある観測としてモ
デル化される。時間ｔ＝１，．．．，Ｔ（ｘ）中のあら
ゆる可能な状態遷移列が、このマルコフ連鎖によって決
定されるトレリスを通るパスを構成する。第ｉ語ＨＭＭ
の第ｊ状態においてベクトルｘを観測する観測確率密度
関数は次式で与えられる。

【００１２】

【数１】これは、ガウス分布の重ね合わせである。ただし、ｃⁱ
_j,kは重畳ウェイトであり、次式を満たす。

【数２】ビタビスコアリングのもとでの最適パスは、最大対数尤
度スコアとなるパスである。

【００１３】Θⁱで、第ｉ語ＨＭＭλ_iにおける入力発話
Ｘの最適パスを表せば、第ｉモデルλ_iにおける最適パ
スに沿う入力発話Ｘの対数尤度スコアｇ_i（Ｘ，λ_i）は
次式のように書くことができる。

【数３】ただし、θⁱ _tは最適パスθⁱに沿う対応する状態列、ｘ_t
は時刻ｔにおける対応する観測ベクトル、Ｔ（Ｘ）は入
力発話Ｘ内のフレーム数、ａ↓｛θⁱ _t-1θⁱ _t｝は状態θ
ⁱ _t-1から状態θⁱ _tへの状態遷移確率である。（明細書本
文中で、添字が表記しにくい場合、下付き添字は↓｛｝
の括弧中に、上付き添字は↑｛｝の括弧中に表記するこ
とにする。）

【００１４】ビタビスコアリングを使用するＨＭＭベー
スの孤立語認識器の認識部分では、入力発話が最初に処
理され、最適パスに沿う各語モデルで入力発話Ｘの対数
尤度が評価される。認識器は、ｉ＝ａｒｇｍａｘ_jｇ_j
（Ｘ，λ_j）である場合に限り、入力発話を第ｉ語Ｗ_iに
分類する。第ｉ語に対する認識誤り計数関数を次式のよ
うに定義する。

【数５】

【００１５】この場合、ＨＭＭのトレーニングの目標
は、次式の期待誤り率を縮小することである。

【数６】ただし、期待値はＸに関するものである。実際には、ト
レーニング結果はしばしば、与えられたトレーニング音
声サンプルのセット｛Ｘ_n，ｎ＝１，２，．．．，Ｎ｝
に対する経験的誤り率（次式）によって測定される。

【数７】

【００１６】

【発明が解決しようとする課題】しかし、経験的誤り率
関数（数７）の直接的最小化はいくつかの重大な欠点を
有する。これは、最適化するのは数値的に困難である。
その理由は、分類誤り計数関数が連続関数であるためで
ある。経験的誤り率関数は、ニアミスとかろうじて正確
な場合を区別しない。これは、独立のテストデータセッ
トに対する認識器性能を劣化させる。ビタビスコアリン
グもまた個々では困難を加える。その理由は、経験的誤
り率関数の形および値は、ＨＭＭパラメータによって決
定される分節化とともに変動するためである。現在の分
節化に基づく数値的に最適なＨＭＭパラメータのセット
は、良好な収束結果が証明されない限り、異なる分節化
のもとではその最適性を維持しない。認識誤り率を直接
的に最小化し、ビタビスコアリングを使用するＨＭＭ構
成と整合するトレーニング方法を発見することが重要な
問題となっている。

【００１７】

【課題を解決するための手段】本発明は、認識誤り率を
最小化する音声認識のトレーニング方法および装置を実
現する。本発明は、さまざまな音声認識システム（例え
ば、テンプレートベースおよびＨＭＭベースの音声認識
器）に適用可能である。ＨＭＭ音声認識器に対する本発
明の実施例は、なめらかな損失関数に埋め込まれた誤認
識測度の使用によって認識誤り率を最小化する。

【００１８】本実施例の誤認識測度は、与えられたトレ
ーニングを有する認識器が発話を誤認識する（すなわ
ち、トレーニングの現在の状態に基づいて誤りを生じ
る）尤度を示す。本実施例では、誤認識測度は、（ｉ）
既知のトレーニング発話に対する正確な参照パターンに
基づくその発話の認識器スコアと、（ｉｉ）他の認識器
参照パターンに基づくそのトレーニング発話のスコアの
和の平均、の差を反映する。

【００１９】損失関数は、期待される認識器誤りと、競
合参照パターンスコアリング差分の間の関係を確立す
る。従って、期待される誤りの最小化は、与えられたト
レーニング発話に対して、正確な参照パターンと、他の
競合参照パターンの間のスコアリング差分の最大化に直
接関係することになる。

【００２０】本実施例の損失関数は、認識誤り計数（本
質的に不連続な関数である）の良好な近似を与えるた
め、ビタビ復号を使用するＨＭＭの順次トレーニング方
法によって、認識性能が向上する。さらに、本発明は、
判断規則をなめらかな関数形で特徴づけるため、数値検
索技術の使用によって、尤度スコアの最適分離を達成
し、「ニアミス」と「かろうじて正確」の場合を効率的
に区別することができる。

【００２１】本発明の実施例は、認識器が、（非最適）
線形分節化のトレーニングソースから直接生成された
か、または他の基準に従ってトレーニングされたかにか
かわらず、与えられた認識器のパターンデータベースか
ら初期化される。本実施例は、競合語の間の最大可能分
離をもつ改善された配置を実現するために、ＨＭＭパラ
メータの適応調整（または更新）を提供する。これはオ
フラインでもオンラインでも使用可能であり、目的アプ
リケーションにモデルを適用するために新しいトレーニ
ングソースから新しい特徴を学習することもできる。

【００２２】

【実施例】本発明の実施例は、高度トレーナを使用した
音声認識器である。本実施例は、トレーニングモードお
よび認識モードの両方で、実際の物理的音声信号（例え
ば、パルス符号変調（ＰＣＭ）音声）に作用し、識別さ
れた音声を出力する。出力はディジタル形式でも行われ
る。

【００２３】説明を明確にするため、本発明の実施例
は、個別の機能ブロック（「プロセッサ」とラベルされ
た機能ブロックを含む）からなるものとして説明する。
これらのブロックが表す機能は、共有または専用ハード
ウェアを使用しても与えられる。ハードウェアには、ソ
フトウェアを実行可能なハードウェアも含まれるが、そ
れに制限されるものではない。（「プロセッサ」という
用語の使用は、ソフトウェアを実行可能なハードウェア
のみを指すものと解釈してはならない。）本実施例の機
能ブロックは、ディジタル信号プロセッサ（ＤＳＰ）ハ
ードウェア（例えばＡＴ＆ＴのＤＳＰ１６またはＤＳＰ
３２Ｃ）および後述の動作を実行するソフトウェアから
なるのが望ましい。しかし、とりわけ、超大規模集積
（ＬＳＩ）ハードウェア実施例、および、ハイブリッド
ＤＳＰ／ＶＬＳＩ実施例も可能である。

【００２４】図１は、本発明によるＨＭＭ音声認識シス
テム１の実施例のブロック図である。このシステムは、
トレーニング音声データベース１０、特徴抽出器２０、
モードスイッチ１５、３０、スコアリング比較器４０、
スコアプロセッサ５０、従来型トレーナ６０、ＨＭＭパ
ラメータ（パターン）データベース７０および高度トレ
ーナ８０を有する。

【００２５】システム１のトレーニング音声データベー
ス１０は、ディジタル形式の既知音声信号のサンプルか
らなる。このサンプルは、従来型トレーナ６０および高
度トレーナ８０のために使用される。データベース１０
からの既知音声のサンプルは、モードスイッチ１５を介
してシステム１の他の要素に送られる。

【００２６】モードスイッチ１５は、システム１の２つ
の動作モード、すなわち、トレーニング（Ｔ）モードお
よび認識（Ｒ）モードを反映する。スイッチ１５がＴ位
置（状態）にある場合、データベース１０からのトレー
ニング音声がシステム１の他の部分に送られ、トレーニ
ングがトレーニングセクション９０によって実行され
る。スイッチ１５がＲ位置にある場合、ディジタル形式
の未知音声発話（信号）が、認識セクション９５による
認識のためにシステム１の他の部分に送られる。

【００２７】システム１の特徴抽出器２０は、モードス
イッチ１５に結合される。モードスイッチ１５の状態に
応じて、抽出器２０は、トレーニング音声信号または未
知音声信号のいずれかを受信する。これらの受信音声信
号に基づいて、抽出器２０は、受信音声を特徴づける特
徴ベクトルＸを発生する。特徴抽出器２０は、従来の特
徴抽出器（例えば、フィルタバンク特徴抽出器、線形予
測符号化（ＬＰＣ）特徴抽出器、または、離散フーリエ
変換（ＤＦＴ）特徴抽出器）のうちのいずれでもよい。

【００２８】抽出器２０からの特徴ベクトル出力は、第
２のモードスイッチ３０に送られる。このモードスイッ
チ３０は、モードスイッチ１５とタンデムに動作する。
すなわち、両スイッチは、両スイッチ１５、３０に送ら
れるモード信号に基づいて同時に同一の状態（Ｔまたは
Ｒ）にセットされる。モードスイッチ３０は、抽出器２
０の出力を、システム１の認識セクションまたはトレー
ニングセクションのいずれかに送る。

【００２９】システム１の認識セクション９５は、スコ
アリング比較器４０およびスコアプロセッサ５０からな
る。スコアリング比較器４０は、トレーニングされたパ
ターン（本実施例の場合、ＨＭＭモデル）を未知音声発
話信号に関係づけ、比較の近接度を示すスコアを決定す
る。対数尤度ビタビスコアリングを使用する従来のＨＭ
Ｍスコアリング比較器が、比較器４０として使用可能で
ある。（米国特許第４，７８３，８０４号「隠れマルコ
フモデル音声認識装置」（譲受人：ＡＴ＆Ｔ）参照。）

【００３０】比較器４０によって発生されたスコアは、
スコアプロセッサ５０に送られる。スコアプロセッサ５
０は、送られたスコアのうち最大のものを決定し、その
スコアに対応するＨＭＭを同定する。こうして、未知音
声信号は、同定されたＨＭＭに対応する既知音声として
プロセッサ５０によって認識される。プロセッサ５０
は、ＨＭＭパラメータデータベース７０からの出力とし
て、同定された音声の表現を取得する（後述）。

【００３１】システム１のトレーニングセクション９０
は、従来型ＨＭＭトレーナ６０、ＨＭＭパラメータデー
タベース７０および高度トレーナ８０からなる。ＨＭＭ
トレーナ６０（例えば、米国特許第４，７８３，８０４
号に記載のもの）は、ＨＭＭの従来のトレーニングを行
う。トレーナ６０の出力は、従来のトレーニングされた
ＨＭＭ（Λ_I）のセット、および、ＨＭＭのセットが基
準とするトレーニング音声の特徴ベクトルＸからなる。
本発明の実施例の説明では、従来型トレーナ６０によっ
てなされるトレーニングの程度は重要でない。実際、従
来型トレーナ６０は、ＨＭＭパラメータΛ_Iの初期セッ
トを提供するのみでよく、これは読み出し専用メモリか
ら取り出すことも可能である。

【００３２】トレーナ６０の出力は、高度トレーナ８０
によって初期化パラメータとして使用するためにＨＭＭ
データベース７０に記録される。高度トレーナ８０はΛ
_IおよびＸを受信し、データベース７０に高度（更新）
ＨＭＭ（Λ_U）のセットを返す。最終的に、高度モデル
Λ_Uが、認識モード中にスコアリング比較器４０に送ら
れる。スコアリング比較器４０が、従来のトレーニング
されたＨＭＭ（Λ_I）ではなく高度ＨＭＭ（Λ_U）を使用
することによって、音声認識誤り率が縮小される。

【００３３】図２に、図１の高度トレーナ８０の実施例
を示す。高度トレーナ８０は、ＨＭＭパラメータデータ
ベース７０によって提供されるトレーニング音声のスケ
ジュールに作用する。このスケジュールは、更新された
Λ_IであるΛ_Uを生成する際に、トレーナ８０によって使
用される個々のトレーニング音声サンプルの数Ｎを定義
する。Ｎサンプルのトレーニング音声を処理した結果と
して、高度トレーナ８０は、ＨＭＭパラメータデータベ
ース７０に、更新したＨＭＭパラメータΛ_Uのセットを
返す。続いて、Λ_Uは、認識モード中に、認識器１の参
照パターンのセットとして、または、同一もしくは追加
トレーニング音声を処理する結果としてさらに更新され
る新Λ_Iとして使用される。

【００３４】説明を明確にし計算を簡単にするため、Ｈ
ＭＭ更新プロセッサは、一時に１個のトレーニング音声
サンプルを処理する（すなわち、Ｎ＝１）ものとして説
明する。後述のわずかな修正（「考察」の節を参照）に
よって、本実施例は、いくつかのトレーニング音声サン
プル（すなわち、Ｎ＞１）に基づいてΛ_Iを更新するこ
とも可能である。

【００３５】図２を参照すると、高度トレーナ８０は、
誤認識測度プロセッサ８２、語損失関数プロセッサ８
４、損失関数和プロセッサ８６、およびＨＭＭ更新プロ
セッサ８８からなる。

【００３６】［誤認識測度プロセッサ］誤認識測度プロ
セッサ８２は、ＨＭＭパラメータΛ_Iおよびトレーニン
グ音声サンプルＸをデータベース７０から受信する。サ
ンプルＸおよびΛ_I（λ_iはΛ_Iの要素）に基づいて、プ
ロセッサ８２は誤認識測度ｄ_i（Ｘ，Λ）を次式のよう
に決定する。

【００３７】

【数８】ただし、ｇ_j（Ｘ，λ_j）は第ｊ語モデルにおける入力発
話の対数尤度認識器スコア、ηは正数（例えば２）、Ｗ
は語の総数である。ηが無限大に近づく極限では、誤認
識測度は次式のようになる。

【数９】

【００３８】この場合、正確で最も混同しやすい語のみ
が考慮される。正確語と他の競合語の間の分離は、誤認
識測度によって測定される。誤認識測度ｄ_i（Ｘ，Λ）
＞＞０であることは、誤認識が観測されたことを示し、
ｇ_i（Ｘ，λ_i）がｍａｘ↓｛ｊ≠ｉ｝ｇ_j（Ｘ，λ_j）よ
り非常に小さいことを意味する。さらに、誤認識測度ｄ
_i（Ｘ，Λ）の符号および絶対値は、ニアミスおよびか
ろうじて正確な場合を意味する。

【００３９】誤認識測度プロセッサ８２は、図２の後続
のプロセッサによって使用されるスカラ値ｄ_iを決定す
る。これは、与えられたＸおよびΛ_Iに対して数８を評
価することによってなされる。しかし、誤認識測度（数
８）の関数関係は、競合語を考慮に入れることによって
（後述の損失関数（数１０）に埋め込んだ場合。「ＨＭ
Ｍ更新プロセッサ」の節を参照）、Λ_Iのパラメータの
語間調整トレーニングの基礎をも提供する。

【００４０】スカラｄ_i（Ｘ，Λ）は、誤認識測度プロ
セッサ８２から出力され、語損失関数プロセッサ８４に
入力される。

【００４１】［語損失関数プロセッサ］語損失関数プロ
セッサ８４は、スカラ値ｄ_i（Ｘ，Λ）に基づいて、な
めらかな語損失関数ｌ_iを次式のように評価する。

【数１０】ただし、γは例えば１である。

【００４２】プロセッサ８４は、損失関数和プロセッサ
８６への出力としてスカラｌ_iを生成する。

【００４３】パラメータγおよびη（前述）は、分類誤
り計数関数のなめらかな近似を提供する。損失関数（数
１０）の勾配は、ＨＭＭパラメータΛ_Iを更新するため
にＨＭＭ更新プロセッサ８８によって使用される。従っ
て、この特別に設計された損失関数の期待される損失の
最小化は、誤り確率の最小化に直接リンクする。

【００４４】［損失関数和］損失関数和プロセッサ８６
は、データベース７０の音声サンプルを通る与えられた
パス（経路）に対して現在までに決定されたｌ_iのすべ
ての値（すなわち、これまでにΛを更新するために使用
されたデータベース７０内のすべてのＸに基づくすべて
のｌ_i）の和Ｌを次式のように与える。

【数１１】ｌ_iおよびＬの値は、プロセッサ８６によってＨＭＭ更
新プロセッサ８８に与えられる。データベース７０によ
る完全経路に基づく値Ｌは、しきい値決定の一部として
ＨＭＭ更新プロセッサ８８によって使用される（後
述）。

【００４５】［ＨＭＭ更新プロセッサ］ＨＭＭパラメー
タ更新の説明に入る前に、ＨＭＭ更新プロセッサ８８の
動作の背景について説明する。

【００４６】前述のように、音声認識におけるパラメー
タ最適化の目標は、期待誤り率の最小化である。誤り率
を損失の１つの形式とみる場合、期待損失を最小化する
一般的問題は次式のように書くことができる。

【数１２】

【数１３】ただし、Ｗは異なる語の数であり、Ｗ_kは認識されるべ
き語である。

【００４７】ＨＭＭモデルパラメータΛは次式のように
再帰的に調整される。

【数１４】ただし、Ｕ_nは正定値行列（後述の数１８およびその説
明参照）、ε_nは正数列、▽ｌ（Ｘ_n，Λ_n）は、第ｎト
レーニングサンプルＸ_nにおける、パラメータΛ_nによる
損失関数ｌ（Ｘ，Λ）（数８および数１０参照）の勾配
ベクトルである（▽は、ナブラ（グラディエント演算
子）を表す）。

【００４８】数１４によって表される数列は、Σε_n＝
∞かつΣε_n ²＜∞であれば、期待損失の定常点に収束す
る。期待損失の定常点が稠密でなく、ステップサイズが
十分小さい場合、収束する定常点は期待損失の局所的最
小点である。数列ε_nは、例えば、（１．０−０．２
Ｒ）と選択される。ただし、Ｒは、Ｒ＝０から始まる現
在のトレーニング経路の数に等しい整数であり、経路
は、データベース７０内のトレーニング音声のすべての
サンプルに基づくトレーニングを表す。本実施例では、
トレーニング経路の最大数は５０である。

【００４９】本発明の実施例は、期待損失に関する確率
分布について何の仮定もしていない。従って、不正確な
分布評価によって導入される誤りは除去される。さら
に、本実施例は、観測可能特徴の値（例えば対数尤度ス
コア）によるパラメータを適応的に調整する。対数尤度
スコアの関数に基づく適応化は、ビタビスコアリングを
使用するＨＭＭベースの認識器では有利である。その理
由は、最適パス上の入力発話の厳密な分節化および対数
尤度スコアが正確に計算されるためである。この性質
は、ＨＭＭおよび音声信号処理には特に有用である。そ
の理由は、音声信号は、調音、摩擦音、および記録媒体
から導入されるノイズにおける差を含む、広範囲の多様
性を有するためである。

【００５０】図２の実施例では、ＨＭＭパラメータはＨ
ＭＭ更新プロセッサ８８によって数１４に従い適応的に
調整される。ＨＭＭの構造によって、そのパラメータは
ある制約条件を満足しなければならない。ＨＭＭ更新プ
ロセッサ８８は、すべてのこうした制約条件を満足する
ために、パラメータ更新プロセスの一部として、変換さ
れたＨＭＭパラメータを使用する。以下の変換がプロセ
ッサ８８によって使用される。

【００５１】［（１）分散の対数］

【数１５】ただし、σ_i,j,k,d ²は、第ｉ語、第ｊ状態、第ｋ重畳成
分および特徴ベクトルの第ｄ次元の分散である。

【００５２】［（２）重畳ウェイトの変換された対数］
もとの重畳ウェイトｃ_i,j,kは、変換された重畳ウェイ
トｃ￣_i,j,kに次式のように関係づけられる。（本文中
で、￣は、バー付き文字を表す。）

【数１６】ただし、Ｌは、第ｉ語モデルにおける第ｊ状態の重畳ウ
ェイトの総数である。

【００５３】［（３）遷移確率の変換された対数］もと
の遷移確率ａ_i,jは、変換された遷移確率と次式のよう
に関係づけられる。

【数１７】ただし、Ｍは、第１語モデル中の状態の総数である。

【００５４】本実施例の重要な点は、小さい分散の処理
に関する。過去に提案されたいくつかの訂正トレーニン
グアルゴリズムでは、分散調整は回避されている。その
理由は、それが不正確に処理される場合、悪影響がある
ためである。

【００５５】ＨＭＭにおける分散は、１０⁴〜１０⁶倍も
異なり得る。こうした分散は、観測確率密度関数ｂ
_l ⁱ（ｘ）の指数部分に生じ、ＨＭＭの尤度スコアに対し
て支配的な効果を有する。本実施例では、これはＨＭＭ
パラメータ調整（特に、ＨＭＭの観測確率密度関数にお
ける平均値パラメータの調整）への異なる感度を生じ
る。

【００５６】感度におけるこの大きな差を補償するた
め、本実施例は、正定値行列Ｕ_nを使用する。正定値行
列Ｕ_nは、各状態に対して、次式のような対角行列であ
る。

【数１８】ただし、σ²（ｎ）は時刻ｎにおけるＨＭＭ Λ_Iの分散
である。

【００５７】更新の式は、前記（数１４）のように、そ
れぞれ項▽ｌを含む。一般に、▽ｌは（δｌ／δｂ）×
（δｂ／δΛ）の形をとる（ただし、δは、偏微分の記
号の代用である）。項（δｌ／δｂ）＝ｌ_i（１−ｌ_i）
は、更新間で共通であり、偏微分で表される。項（δｂ
／δΛ）は、更新される各モデルパラメータに対して個
別に表される。

【００５８】図３は、ＨＭＭ更新プロセッサ８８のブロ
ック図である。図示したように、ＨＭＭ更新プロセッサ
８８は、Λ_I、Ｘおよびｌ_iに基づいて、パラメータμ、
σ²、ｃ、およびａを更新し、更新したΛ_UをＨＭＭパラ
メータデータベース７０に返す。Λ_IおよびΛ_Uは、パラ
メータμ、σ²、ｃおよびａからなり、Λ_IおよびΛ_Uは
それぞれ更新されていない量および更新された量を表
す。

【００５９】ＨＭＭ更新プロセッサ８８によってなされ
るパラメータ更新は以下の通りである。

【００６０】［（１）平均値更新］

【数１９】ただし、ｘ_nn（ｄ）は、特徴ベクトルｘ_nnの第ｄ次元成
分であり、θ_jは最適パスが最初に状態ｊに入るタイム
フレームに対応し、θ_j+1は最適パスが最初に状態ｊ＋
１に入るタイムフレームに対応し、ｌ（Ｘ，Λ）は、数
１０に従って構成される損失関数であり、ε_nはステッ
プサイズであり、

【数２０】である。ただし、Ｄは特徴ベクトルの次元である。平均
値更新は、図３のブロック８８−１によってなされる。

【００６１】［（２）分散更新］σ￣²＝ｌｏｇσ²の更
新は、次式に従って実行される。

【数２１】ただし、γ_i,j,k（ｘ_nn）は数２０に定義されている。
従って、時刻ｎ＋１における分散は次式によって与えら
れる。

【数２２】分散は、１０^-6以下で切り捨てられ、σ_i,j,k,d ²（ｎ）
＞１０^-6という制約条件を満たす。分散更新は、図３の
ブロック８８−２によってなされる。

【００６２】［（３）重畳ウェイト更新］パラメータ化
された重畳ウェイトは次式に従って調整される。

【数２３】従って、時刻ｎ＋１における重畳ウェイトは次式によっ
て与えられる。

【数２４】従って、トレーニングプロセス中、調整された重畳ウェ
イトは制約条件Σ_kｃ_i,j _,k（ｎ）＝１およびｃ
_i,j,k（ｎ）＞０を満たす。重畳ウェイト更新は、図３
のブロック８８−３によってなされる。

【００６３】［（４）状態遷移確率更新］左から右への
ＨＭＭにおいて、第ｌ語モデルのパラメータ化された遷
移確率は次式によって調整される。

【数２５】ただし、ｇ_lは第ｌ語モデルにおけるＸの尤度スコアで
あり、ｉは最終状態でなく、状態ｉ内での自己遷移の総
数は次式によって表される。

【００６４】

【数２６】その結果、時刻（ｎ＋１）における遷移確率は次式によ
って与えられる。

【数２７】これもまた、制約条件Σ_jａ_i,j ^l（ｎ）＝１，ａ_i,i ^l＞
０およびａ_i,i+1 ^l＞０を満たす。状態遷移確率更新は、
図３のブロック８８−５によってなされる。

【００６５】ＨＭＭ更新プロセッサ８８によって計算さ
れる更新の式（数２１〜数２４）は、第ｊ状態における
第１語の更新された観測確率密度関数に、次式によって
関係づけられる。

【数２８】ただし、ｃ_i,j,kは重畳ウェイトであり、Ｎ（ｘ，μ
_i,j,k，Ｖ_i,j,k）は、対角共分散行列Ｖ_i,j,kを有する
第ｉ語、第ｊ状態および第ｋ重畳のＤ次元正規ガウス分
布である。ブロック８８−１〜８８−３から出力される
μ（ｎ＋１）、σ²（ｎ＋１）、およびｃ（ｎ＋１）の
値は、ブロック８８−５によって生成される状態遷移確
率ａ（ｎ＋１）の値とともに、データベース７０に返さ
れる。図３に示すように、Λ_Uは、μ、σ²、ｃおよびａ
の更新された値からなる。

【００６６】上記のＨＭＭパラメータ更新の式は、ＨＭ
Ｍパラメータを改善するために、データベース７０から
の単一の音声トレーニングサンプルを使用している。し
かし、高度トレーナ８０は、ＨＭＭパラメータを改善す
るために、複数回反復することも可能である。例えば、
高度トレーナ８０は、データベース７０内のすべてのト
レーニングサンプルに作用することも可能である。

【００６７】しかし、必要であれば、トレーナ８０は、
全データベース７０を通るいくつかのパス（経路）に作
用することも可能である。トレーナ８０は、いくつかの
方法でサンプルの処理を停止することができる。例え
ば、トレーナ８０は、サンプルのデータベース７０を通
る一定数の経路を作成した場合に停止する。しかし、ト
レーナ８０は、現在の経路のすべての音声トレーニング
サンプルを処理することによる損失における改善増分の
記録を維持することが所望される。本発明の実施例は、
プロセッサ８６によって決定されるＬの値の、現在の経
路と前経路の差ΔＬを形成することによって、損失にお
ける改善増分をテストする。ΔＬが所定しきい値（例え
ば０．００５）以下である場合、高度トレーナ８０によ
る処理は停止する（図３、８８−６およびＳＴＯＰ信号
参照）。

【００６８】［考察］図１から分かるように、従来のＨ
ＭＭベースの認識器への最小量の変更が、本発明の実施
例を実現するために要求されるのみである。

【００６９】本発明の実施例は特にＨＭＭ認識器に関す
るものであるが、本発明は他の認識器（例えば、スコア
リング方法として動的時間ワーピングを使用するテンプ
レートベースの認識器）にも適用可能である。本発明を
他の型の認識器に適合させるためには、その認識型を反
映するために、数８の関数ｇで表されるスコアリング方
法を変更しなければならない。この変更は、ＨＭＭ更新
プロセスにおいて、∇ｌによっても反映される。

【００７０】上記の実施例では、トレーニング音声の各
サンプルは逐次的に使用される。ＨＭＭ更新プロセッサ
８８は、現在のサンプルに関して認識器によって提供さ
れる情報を取得し、上記の更新公式に従ってＨＭＭパラ
メータを更新する。プロセッサ８８の計算の複雑さは、
各入力発話に対して調整される競合候補モデルの数を決
定する誤認識測度の形に主に依存する。

【００７１】本実施例では、すべての競合語ＨＭＭが調
整可能である。このアプローチの利点は、利用可能なト
レーニング音声の効率的に利用することである。従来の
トレーニング方法では、各語ＨＭＭモデルは、特定の語
のみの発話によってトレーニングされる。正確モデルと
他の競合モデルの間の相互関係は利用されない。これ
は、認識器の性能を劣化させる主要因であり、特に、混
同クラスからの語を区別しようとする場合にそうであ
る。

【００７２】いくつかのアプリケーションでは、通常、
正確なスコアに近いスコアを有する競合候補は少数しか
ない。誤認識測度（数８）は、選択された数の競合候補
のみを含むように構成することができる。ステップサイ
ズε_nは一般に与えられたＨＭＭおよび損失関数のパラ
メータに依存する。しかし、トレーニングサンプルにつ
いて期待される損失および誤り率はしばしば適切なステ
ップサイズの良い指示子となる。

【００７３】上記のように、高度トレーナ８０の各反復
は、単一の音声トレーニングサンプルに作用する（すな
わちＮ＝１）。しかし、トレーナは、複数のサンプルに
基づいて、更新されたＨＭＭパラメータΛ_Uのセットを
生成することが可能である。このためには、誤認識測度
プロセッサ８２は、音声サンプルのベクトルに作用し、
ｄ値のベクトルを生成する。ただし、各値は与えられた
サンプルに対応する。

【００７４】語損失関数プロセッサ８４は、ｄ値のベク
トルを受信し、ｌ値のベクトルを生成する。各値は対応
するｄの値に基づく。損失関数和８６は、上記のしきい
値計算のために、Ｌを次式のように決定するように作用
する。

【数２９】ただし、Ｎは現在処理されている音声のサンプルの数で
あり、ｌ_nはプロセッサ８４によって生成されるｌ値の
ベクトルの成分を表す。

【００７５】ＨＭＭ更新プロセッサ８８は、上記のよう
にパラメータを更新する。ただし、λ（ｎ）からλ（ｎ
＋１）への更新は、（Ｎ個のサンプルのうちの）単一の
音声サンプルによって与えられる。しかし、あるサンプ
ルの処理から生じるλ（ｎ＋１）が次のサンプルを処理
するためのλ（ｎ）として使用されるように、Ｎ個のサ
ンプルがすべて連続して使用される。Ｎ個のサンプルに
基づいてΛ_Iを更新する際に、数１９、数２１、数２３
および数２５の右辺のΛ_Iの値は一定である。Ｎ個のサ
ンプルすべてが処理された後にはじめてΛ_IがΛ_Uとして
データベースに対して更新される。

【００７６】図１０の損失関数は、本発明に適用可能な
関数の唯一の型ではない。他の型の関数（例えば、双曲
正接に基づくもの、すなわち、ｌ_i（ｄ_i（Ｘ，Λ））＝
ｔａｎｈ（γｄ_i（Ｘ，Λ）））も適用可能である。

【００７７】一般的に数１４によって、および、特に数
１９、数２１、数２３、ならびに数２５によって記述さ
れる反復プロセスは、損失関数の局所的最小を同定す
る。しかし、損失関数の大域的最小を発見するための従
来の技術（例えば、擬似アニーリング）も適用可能であ
る。

【００７８】数１４によって記述されるパラメータ更新
プロセスは、オンラインで、ブートストラップで、適応
的に未知データに作用することができる。時刻ｎにおい
て、認識器パラメータΛ_nが未知発話Ｘ_nを同定するため
に使用され、Λ_nに基づく判断がＸ_nを語Ｗ_kと同定する
と仮定する。この判断は、更新プロセス（数１４）が後
で使用するために新しい認識器パラメータΛ_n+1を生成
することができるように、トレーニングサンプルとして
高度トレーナ８０にフィードバックされる。通常モード
（既知データ）とブートストラップモード（未知デー
タ）の差は、語ラベルが生成される方法にある。通常の
場合、語ラベルは従来の方法でもとから既知である。ブ
ートストラップの場合、語ラベルは認識器自体によって
生成される。

【００７９】さらに、本発明による利点は、語からなる
句のモデルのトレーニングにも拡張され得る。複数語ト
レーニングの実施例は、各語に対してＨＭＭを定義する
のではなく各句に対して１つのＨＭＭを定義し、サンプ
ル句についてトレーニングすることによって実現され
る。

【００８０】

【発明の効果】以上述べたごとく、本発明によれば、音
声認識において、期待される誤りの最小化は、与えられ
たトレーニング発話に対して、正確な参照パターンと、
他の競合参照パターンの間のスコアリング差分の最大化
に直接関係することになる。本実施例の損失関数は、認
識誤り計数（本質的に不連続な関数である）の良好な近
似を与えるため、ビタビ復号を使用するＨＭＭの順次ト
レーニング方法によって、認識性能が向上する。さら
に、本発明は、判断規則をなめらかな関数形で特徴づけ
るため、数値検索技術の使用によって、尤度スコアの最
適分離を達成し、「ニアミス」と「かろうじて正確」の
場合を効率的に区別することができる。

【図面の簡単な説明】

【図１】本発明によるＨＭＭベースの音声認識システム
の実施例のブロック図である。

【図２】図１の高度トレーナの実施例のブロック図であ
る。

【図３】図２のＨＭＭ更新プロセッサの実施例のブロッ
ク図である。

【符号の説明】

１ＨＭＭ音声認識システム１０トレーニング音声データベース１５モードスイッチ２０特徴抽出器３０モードスイッチ４０スコアリング比較器５０スコアプロセッサ６０従来型トレーナ７０ＨＭＭパラメータデータベース８０高度トレーナ８２誤認識測度プロセッサ８４語損失関数プロセッサ８６損失関数和プロセッサ８８ＨＭＭ更新プロセッサ９０トレーニングセクション９５認識セクション

【数４】

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウーチョウアメリカ合衆国 08854 ニュージャージーピスカタウェー、プレズントヴュードライヴ 112エー (72)発明者ビイン−ホワンジュアンアメリカ合衆国 07738 ニュージャージーリンクロフト、ウィスパリングパインズディー 196

Claims

【特許請求の範囲】

【請求項１】既知音声信号を受信するステップと、前記既知音声信号およびその信号に対する現在の参照パ
ターンに基づいて第１認識器スコアリング信号を発生す
るステップと、前記既知音声信号および他の現在の参照パターンに基づ
いて他の認識器スコアリング信号を発生するステップ
と、第１および他の認識器スコアリング信号に基づいて誤認
識信号を発生するステップと、前記誤認識信号および前記既知音声信号に基づいて、未
知音声信号を誤認識する尤度を減少させるために現在の
参照パターンを修正するステップと、修正された参照パターンをメモリに格納するステップと
からなる、既知音声信号および現在の認識器参照パター
ンのセットに基づいて音声認識器パターンデータベース
を作成する方法。
【請求項２】誤認識信号発生ステップが、ａ．第１認識器スコアリング信号と、ｂ．他の認識器スコアリング信号の平均の差を形成するステップからなることを特徴とする請求
項１の方法。
【請求項３】第１認識器スコアリング信号が、既知音
声信号がその信号に対する現在の参照パターンに一致す
る程度を反映することを特徴とする請求項１の方法。
【請求項４】他のスコアリング信号が、既知音声信号
がその信号に対する現在の他の参照パターンに一致する
程度を反映することを特徴とする請求項１の方法。
【請求項５】現在の音声参照パターンを修正するステ
ップが、ａ．ｉ．既知音声の現在の参照パターンに基づく既知音
声の認識器スコアリングを、ｉｉ．他の現在の参照パターンに基づく既知音声の認識
器スコアリングに関係づける関数の勾配を決定するステ
ップと、ｂ．その勾配に基づいて、現在の音声参照パターンのパ
ラメータを調整するステップとからなることを特徴とす
る請求項１の方法。
【請求項６】パラメータ調整ステップがさらに現在の
参照パターンパラメータの行列に基づくことを特徴とす
る請求項５の方法。
【請求項７】現在の参照パターンパラメータの行列が
パターンの分散からなることを特徴とする請求項６の方
法。
【請求項８】パラメータ調整ステップが、参照パター
ン制約条件に従うために、参照パターンパラメータの変
換を調整するステップを有することを特徴とする請求項
５の方法。
【請求項９】現在の認識器参照パターンのセットが隠
れマルコフモデルからなることを特徴とする請求項１の
方法。
【請求項１０】現在の認識器参照パターンのセットが
テンプレートからなることを特徴とする請求項１の方
法。
【請求項１１】現在の認識器参照パターンがパターン
トレーナの出力からなることを特徴とする請求項１の方
法。
【請求項１２】現在の認識器参照パターンが修正され
た参照パターンのセットからなることを特徴とする請求
項１の方法。
【請求項１３】現在の参照パターンを修正するステッ
プが、修正した参照パターンをメモリに格納する前に、
複数回参照パターンを修正するステップからなり、この
複数の修正はそれぞれ別個の既知音声信号に基づくこと
を特徴とする請求項１の方法。
【請求項１４】現在の認識器参照パターンに基づいて
未知音声信号を認識するステップと、認識した音声信号を、既知音声信号として受信されるよ
うに準備するステップとをさらに有することを特徴とす
る請求項１の方法。
【請求項１５】既知音声信号およびその信号に対する
現在の参照パターンに基づいて第１認識器スコアリング
信号を発生する手段と、第１認識器スコアリング信号発生手段に結合され、前記
既知信号および他の現在の参照パターンに基づいて他の
認識器スコアリング信号を発生する手段と、前記２つの手段に結合され、第１および他の認識器スコ
アリング信号に基づいて誤認識信号を発生する手段と、誤認識信号発生手段に結合され、前記既知音声信号を誤
認識する尤度を減少させるために、誤認識信号および前
記既知信号に基づいて、現在の参照パターンを修正する
手段と、修正手段に結合され、修正された参照パターンを格納す
る手段とからなることを特徴とする、既知音声信号およ
び現在の認識器参照パターンに基づいて音声認識器デー
タベースを形成する音声認識器トレーニング装置。
【請求項１６】誤認識信号発生手段が、ａ．第１認識器スコアリング信号と、ｂ．他の認識器スコアリング信号の平均の差を形成する手段からなることを特徴とする請求項１
５の装置。
【請求項１７】現在の音声参照パターンを修正する手
段が、ａ．ｉ．既知音声の現在の参照パターンに基づく既知音
声の認識器スコアリングを、ｉｉ．他の現在の参照パターンに基づく既知音声の認識
器スコアリングに関係づける関数の勾配を決定する手段
と、ｂ．その勾配に基づいて、現在の音声参照パターンのパ
ラメータを調整する手段とからなることを特徴とする請
求項１５の装置。
【請求項１８】現在の認識器参照パターンのセットが
隠れマルコフモデルからなることを特徴とする請求項１
５の装置。
【請求項１９】現在の認識器参照パターンのセットが
テンプレートからなることを特徴とする請求項１５の装
置。
【請求項２０】現在の認識器参照パターンがパターン
トレーナの出力からなることを特徴とする請求項１５の
装置。
【請求項２１】現在の認識器参照パターンが修正され
た参照パターンのセットからなることを特徴とする請求
項１５の装置。
【請求項２２】現在の認識器参照パターンに基づいて
未知音声信号を認識する手段と、認識した音声信号を、既知音声信号として受信されるよ
うに準備する手段とをさらに有することを特徴とする請
求項１５の装置。
【請求項２３】ａ．未知音声信号を受信し、その信号
を表す特徴を同定する特徴抽出器と、ｂ．現在の参照パターンを格納する第１メモリ手段と、ｃ．既知音声トレーニングサンプルを格納する第２メモ
リ手段と、ｄ．特徴抽出器および第１メモリ手段に結合され、現在
の複数の参照パターンのそれぞれに対する比較スコアを
決定するために、これらのパターンを未知音声信号の特
徴と比較するスコアリング比較器と、ｅ．スコアリング比較器に結合され、最高比較スコアを
選択し、最高スコアに基づいて音声を認識するスコアプ
ロセッサと、ｆ．第１および第２メモリ手段に結合されたトレーナ
と、からなり、このトレーナが、ｉ．既知音声信号およびその信号に対する現在の参照パ
ターンに基づいて第１認識器スコアリング信号を発生す
る手段と、ｉｉ．第１認識器スコアリング信号発生手段に結合さ
れ、前記既知信号および他の現在の参照パターンに基づ
いて他の認識器スコアリング信号を発生する手段と、ｉｉｉ．前記２つの手段に結合され、第１および他の認
識器スコアリング信号に基づいて誤認識信号を発生する
手段と、ｉｖ．誤認識信号発生手段に結合され、前記既知音声信
号を誤認識する尤度を減少させるために、誤認識信号お
よび前記既知信号に基づいて、現在の参照パターンを修
正する手段と、ｖ．修正手段に結合され、修正された参照パターンを第
１メモリ手段に格納する手段とからなることを特徴とす
る音声認識装置。