JP4531166B2

JP4531166B2 - 信頼性尺度の評価を用いる音声認識方法

Info

Publication number: JP4531166B2
Application number: JP26095099A
Authority: JP
Inventors: ヘーアードルフィングヤネス; ヴェンデムートアンドレーアス
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 1998-09-16
Filing date: 1999-09-14
Publication date: 2010-08-25
Anticipated expiration: 2019-09-14
Also published as: DE59912819D1; US6421640B1; DE19842405A1; EP0987683A3; EP0987683B1; EP0987683A2; JP2000099080A

Description

【０００１】
【発明の属する技術分野】
本発明は、認識結果に対する複数の第２の信頼性尺度が第１の信頼性尺度を決定するため自動的に結合され、認識結果が第１の信頼性尺度を用いて評価される、音声発話の自動認識方法に関する。
本発明による自動認識方法は、特に、電気機器が単一の音声発話（通常、単語）によって制御される「命令と制御」形のアプリケーションの分野で使用される。本発明の方法は「ディクテーション」の分野で適用可能である。
【０００２】
【従来の技術】
従来の自動認識方法は、信頼性尺度（信頼性測度）を用いて音声認識結果を評価することにより、認識結果が実際に表現された音声発話を表しているかどうかを当該アプリケーションに関して充分に信頼できる方式で判定する。このため、決定された信頼性尺度は閾値と比較される。ユーザは音声発話を繰り返す必要がある。
【０００３】
合成信頼性尺度を決定するため複数の信頼性尺度を結合する基本的な概念は、文献：T.Kemp, T.Schaaf, “Confidence measures for spontaneous speech recognition”, Proc. ICASSP, vol.II, pp.875-878, 1997に提案されている。種々の合成の実現可能性が示唆されているが、個別には説明されていない。
【０００４】
【発明が解決しようとする課題】
本発明の目的は、上記の自動認識方法において、認識結果の正しさを評価する際に合成誤差率を減少させることである。
【０００５】
【課題を解決するための手段】
上記本発明の目的は、第２の信頼性尺度の合成を決定するパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることにより達成される。
このようにして、特に、第２の信頼性尺度の線形結合における重みとして作用するパラメータ値が得られるので、その結果として第１の信頼性尺度が獲得される。
【０００６】
誤差率を更に減少させるため、本発明の自動認識方法は、信頼性尺度が判定限界として作用する閾値と比較される前に、ユーザ及び／又は音声発話固有オフセットを用いて適応されることを特徴とする。
信頼性尺度の合成により作成された信頼性尺度を閾値と比較するとき、所定のアプリケーションへの自動適応は、閾値を適応させることなく簡単に実現される。
【０００７】
また、本発明は、上記本発明の自動認識方法を実施することにより認識結果を評価する処理ユニットを含む音声認識システムを含む。
本発明の上記局面並びに他の局面は、以下の実施例の説明によって明白にされ、解説される。
【０００８】
【発明の実施の形態】
図１は本発明の一実施例による音声認識システムのブロック構成図である。機能ブロック１には、
ｔ＝１，．．．，Ｔ
が時変数であるとき、音声発話、特に、単語を表現する特徴ベクトルｘ_tのシーケンス
Ｘ＝ｘ₁，ｘ₂，．．．，ｘ_T
が供給される。特徴ベクトルｘ_tを形成するため、電気形式で与えられた音声信号は、サンプリングされ、量子化され、ケプストラム解析（Ｃｅｐｓｔｒａｌａｎａｌｙｓｉｓ）を受ける。音声信号は、部分的に重なり合う連続したフレームに分割される。各フレーム毎に、ケプストラム値は特徴ベクトルｘ_tの結合により形成される。機能ブロック１は、シーケンスＷが与えられた場合に、マルコフモデルＨＭＭ（隠れマルコフモデル）と公知のベイズの定理とを使用して、音声発話Ｗの確率に対する積確率値Ｐ（Ｗ｜Ｘ）を作成することにより、通常の確率的音声信号処理を行う。
【０００９】
機能ブロック２は、積確率値Ｐ（Ｗ｜Ｘ）の最大値Ｐ（Ｗ_l｜Ｘ）を獲得する。この音声発話Ｗ₁は認識結果として評価され、例えば、電気機器内の更なる処理のための制御信号として使用される。決定された確率値Ｐ（Ｗ_l｜Ｘ）は機能ブロック３に供給され、処理される。機能ブロック３では、Ｎ＞１の場合に、ｚ＝（ｚ₁，．．．，ｚ_N）
と表される信頼性尺度ベクトルｚが各値Ｐ（Ｗ_l｜Ｘ）に割り当てられ、第２の信頼性尺度と称される信頼性尺度ｚ₁，．．．，ｚ_Nにより構成されるＮ個の要素が得られる。各信頼性尺度の値は、認識結果Ｗ_lの信頼性測度の値である。
【００１０】
以下の実施例の説明では、信頼性尺度の個数ＮがＮ＝５の場合を考える。
ｚ₁：当該音声発話に関連した最初の観測時点の受信時点に対応する時点ｔ_startと、当該音声発話に関連した最後の観測時点に対応する時点ｔ_endの間の時点ｔにおける最良音声発話仮説の確率の対数をとった対数確率と２番目に良い音声発話仮説の確率の対数をとった対数確率との間の差（２つの最良法）
ｚ₂：時点ｔ_startと時点ｔ_endの間の時点ｔにおける最良音声発話仮説の対数確率と当該音声発話仮説の最良からｎ個（例えば、ｎ＝２０）の音声発話仮説の対数確率の平均値との間の差（ｎ平均−最良法）
ｚ₃：各音声発話仮説が時点ｔ_startで最初の対数確率ｌ_wで始まり、時点ｔ_endで最後の対数確率として終了する場合に、対数確率ｌ_wと、範囲（ｔ_start，ｔ_end）における関連した隠れマルコフモデルＨＭＭの最良状態のスコア（すなわち、対数確率値）の合計との間の差が計算される（ｎ最良状態法）
ｚ₄：長さでスケーリングされた対数確率（平均音響法）
ｌ_w／＝ｌ_w／（ｔ_end−ｔ_start＋１）
ｚ₅：ｔ_end−ｔ_startによって決定される語の隠れマルコフモデル状態の数と観測数との間の比率（会話レート法）
改良された分類結果を生成する信頼性尺度は、単純な元の（粗い）信頼性尺度（すなわち、第２の信頼性尺度）の代わりに、拡張ベクトル
ｚ＝ｚ₂₀＝（ｚ₁ ²，ｚ₁ｚ₂，ｚ₁ｚ₃，．．．，ｚ₅ ²）
を形成するときに獲得され、拡張ベクトルｚの成分は、２個の元の信頼性尺度の乗算によって、すなわち、元の信頼性尺度毎に元の信頼性尺度を一つずつ乗算することにより形成された修正信頼性尺度（修正された第２の信頼性尺度）により構成される。この式は、修正信頼性尺度を得るため元の信頼性尺度を乗算することによって修正しても良い。
【００１１】
次に、機能ブロック４によって、合成信頼性尺度ｆ（ｚ）、すなわち、第１の信頼性尺度は、認識結果Ｗ₁に対し、以下に説明する結合関数ｆ（ｚ）に従って合成することにより種々の信頼性尺度ｚ₁，．．．，ｚ_N若しくは修正信頼性尺度から形成され、続いて、第１の信頼性尺度は機能ブロック５において閾値τと比較される。この比較の結果に応じて、当該認識結果Ｗ₁が充分に信頼できない（ｃ＝０）と評価されたか、或いは、充分に信頼できる（ｃ＝１）と評価されたかを示す分類結果ｃが生成される。充分に信頼できない場合、例えば、ユーザは音声発話を繰り返すように要求される。
【００１２】
信頼性尺度ｚの結合のモードを得るため、次に、
ベクトルｚ_e＝（ｚ，１）
が定義される。後述するように、
判定限界ｆ（ｚ）＝τ
を決める必要がある。信頼性尺度の線形結合が
ｆ（ｚ）＝Ｊ₁＋ｚ₁＋Ｊ₂ｚ₂＋．．．＋Ｊ_Nｚ_N
によって与えられ、重み（乗数）Ｊ₁．．．Ｊ_Nが閾値τと組み合わされて
ベクトルＪ＝（Ｊ₁，Ｊ₂，．．．，Ｊ_N,τ）
として表されるとき、スカラー積
ａ＝ｚ_eＪ
が得られる。
【００１３】
ベイズの定理を使用することにより、事前確率
Ｐ（ｃ｜ｚ_e）＝：ｙ
は以下の通りシグモイド形式で表される。
【００１４】
【数１】

【００１５】
クラス条件付き確率値Ｐ（ｚ_e｜ｃ）が指数分布関数（特に、ガウス分布関数及びベルヌーイ分布関数）の族に含まれると仮定する。この条件下で、
ａ＝ａ’
が成立する。この式は多数のアプリケーションに使用される。
ベイズの定理によると、判定限界は、
ｙ＝０．５
とすべきである。従って、この判定限界が選択されたモデルでは、
ａ＝ａ’＝０
となる。
【００１６】
関連したベイズ判定問題に対する適切な誤差関数を獲得し、学習（トレーニング）を用いてパラメータＪ₁．．．Ｊ_Nを決めるため、条件付き確率Ｐ（ｃ｜ｚ_e）は、
Ｐ（ｃ｜ｚ_e）＝ｙ^c（１−ｙ）^1-c
のように表され、ベルヌーイ分布の特殊ケースに対応する。時点ｉが個別に決められる学習データが与えられる反復ステップに対応する場合に、学習データ全体に関係する確率Ｌは、
【００１７】
【数２】

【００１８】
のように表現される。
誤差関数
Ｅ＝−ｌｏｇ（Ｌ）
の最小化は、いわゆるクロスエントロピー誤差
【００１９】
【数３】

【００２０】
の最小化と等価的である。
クロスエントロピー誤差関数は、小さい確率値が非常に良好に評価され、例えば、最小平均自乗（ＬＭＳ）誤差関数を用いる場合よりも本質的に良好に評価される点で有利である。学習中に実行されるべきクロスエントロピー誤差Ｅの最小化によれば、
【００２１】
【数４】

【００２２】
を用いて学習中に学習ルールとして使用される確率シーケンス
【００２３】
【数５】

【００２４】
が導かれ、この確率シーケンスが既に決定されたＪの上に加算的に重ね合わされ、最終的にＪの成分が誤差関数Ｅの負勾配によって更新される。式中、ηは経験的に決められる適当な定数である。
この学習ルールは、最終的に関数ｆ（ｚ）を実現するシグモイド状出力関数を有する階層型ニューラルネットワークを学習させるため使用される。このようなニューラルネットワークの構造及び動作に関する情報は、文献：C.Bishop, “Neural Networks for Pattern Recognition ”, 第６．７章, Oxford, 1995に記載されている。上記のδＪ（ｉ）の式における括弧内の部分は、−１と１の間の範囲に収まる。完全な誤分類の場合に、両端の値−１又は１に達する。学習ルールδＪ（ｉ）は、通常のパーセプトロンを学習するため使用されるルールに対応する。
【００２５】
このような学習の後に、好ましくは、いわゆるガードナー・デリダ（Ｇａｒｄｎｅｒ−Ｄｅｒｒｉｄａ）アルゴリズムを用いてガードナー・デリダ誤差関数の最大化に基づく後処理演算が行われる。このアルゴリズムについて、文献：A.Wendemuth,“Learning the Unlearnable ”, J.Phys. A, 28:5423, 1995を参照のこと。これにより、上記の判定閾値τ及び重みＪが学習データの特殊性に適応することによって、学習は異常値（例えば、信頼性尺度ベクトルｚの成分の中に非常に大きい値を含むデータ）、並びに、サンプリング効果（例えば、誤分類が学習データによって無視される）により良く適応するようになる。
【００２６】
認識結果が正しい若しくは間違っているという分類の誤差率は、決定問題ｆ（ｚ）＜τが、ユーザ固有オフセットｏ_bj、音声発話固有オフセットｏ_wk、又は、ユーザ及び音声発話固有オフセットｏ_bj,wkを用いて増大されることによって、更に改良される。この結果として得られる判定限界は、
ｆ（ｚ）−ｏ_bj＝τ_bj
ｆ（ｚ）−ｏ_wk＝τ_wk
ｆ（ｚ）−ｏ_bj,wk＝τ_bj,wk
である。
【００２７】
ユーザ固有オフセットｏ_bjは、例えば、ユーザｂ_jによる学習用発話に対し決定された信頼性尺度（ｚ₁，ｚ₂，ｚ₃，ｚ₄又はｚ₅）の平均値、最大値又は最小値である。音声発話固有オフセットｏ_wkは、例えば、ユーザ毎に語ｗ_kの学習用発話に対し決定された信頼性尺度（ｚ₁，ｚ₂，ｚ₃，ｚ₄又はｚ₅）の平均値、最大値又は最小値である。オフセットｏ_bj,wkは、基本的にオフセットｏ_wkと同じ方法で決定されるが、ユーザに依存するように定義される。
【図面の簡単な説明】
【図１】本発明による音声認識システムの基本構成要素を示す図である。
【符号の説明】
１，２，３，４，５機能ブロック

Claims

音声発話の自動認識方法であって、認識結果に対する複数の第２の信頼性尺度が第１の信頼性尺度を決定するため自動的に組み合わされ、認識結果が第１の信頼性尺度を用いて評価され、上記第１の信頼性尺度を決定する上記第２の信頼性尺度の組み合わせに重みを付けるパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることを特徴とする方法。
上記第１の信頼性尺度は上記第２の信頼性尺度の線形結合であることを特徴とする請求項１記載の方法。
上記クロスエントロピー尺度の最小化に基づいて上記第２の信頼性尺度の組み合わせに重みを付ける上記パラメータを決定する際に、ガードナー・デリダ誤差関数の最大化に基づく後処理演算が行われることを特徴とする請求項１又は２記載の方法。
上記第２の信頼性尺度の組み合わせよりも前に、上記第２の信頼性尺度が第３の粗い信頼性尺度の乗算によって形成される前処理演算が行われることを特徴とする請求項１乃至３のうちいずれか一項記載の方法。
修正された第２の信頼性尺度を決定するため、上記第２の信頼性尺度毎にすべての上記第２の信頼性尺度が乗算され、上記修正された第２の信頼性尺度が上記第１の信頼性尺度を決定するため組み合わされることを特徴とする請求項１乃至４のうちいずれか一項記載の方法。
上記信頼性尺度は判定限界として作用する閾値と比較される前にユーザ及び／又は音声発話固有オフセットによって適応されることを特徴とする請求項１乃至５のうちいずれか一項記載の方法。
音声認識システムであって：
音声発話を認識する手段と、
認識結果に対する複数の第２の信頼性尺度を決定する手段と、
第１の信頼性尺度を決定するよう上記複数の第２の信頼性尺度を組み合わせる手段と、
上記第１の信頼性尺度によって認識結果を評価する手段とを有しており、
上記組み合わせる手段が、上記第２の信頼性尺度を組み合わせて上記第１の信頼性尺度を決定するのを、クロスエントロピー誤差尺度の最小化に基づいて決定されるパラメータに基づいて行うよう構成されている、
音声認識システム。