JP2002311989A

JP2002311989A - チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法

Info

Publication number: JP2002311989A
Application number: JP2002067939A
Authority: JP
Inventors: Yifan Gong; ゴンイーファー
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 2001-03-14
Filing date: 2002-03-13
Publication date: 2002-10-25
Also published as: US7062433B2; DE60212477T2; EP1241662A2; US20020173959A1; DE60212477D1; EP1241662B1; EP1241662A3

Abstract

(57)【要約】【課題】チャネル／マイクロホンの歪みおよび背景雑
音に対して同時に補正するモデルを提供すること。【解決手段】補正付き音声認識方法が、クリーンな音
声において訓練されたＨＭＭモデルをケプストラル平均
正規化によって修正することによって提供される。各音
声発声に対して、ＭＦＣＣベクトルがクリーンな音声デ
ータベースに対して計算される。この平均ＭＦＣＣが元
のモデルに加算される。所与の音声発声に対して背景雑
音の推定値が決定される。雑音に対して適用されたモデ
ル平均ベクトルが決定される。雑音の多い空間における
平均ベクトルが決定され、これが雑音に対して適応され
るモデル平均ベクトルから取り除かれてターゲット・モ
デルが得られる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識に関し、
特に背景雑音およびチャネル歪みの両方に対する補正に
関する。

【０００２】

【従来の技術、及び、発明が解決しようとする課題】比
較的静かなオフィス環境の音声データによって訓練さ
れ、移動環境において動作する音声認識装置は少なくと
も２つの歪み源、すなわち、背景雑音およびマイクロホ
ンの変化によって誤りを生じる可能性がある。背景雑音
はコンピュータのファン、車のエンジン、および／また
は道路の雑音などからくる可能性がある。マイクロホン
の変化は、そのマイクロホンの品質、ハンドヘルドまた
はハンドフリーまたは口に対する位置に起因する可能性
がある。音声認識の移動用の応用においては、マイクロ
ホンの調整装置および背景雑音の両方が変化する可能性
がある。

【０００３】ケプストラル平均正規化（ＣＭＮ）は、発
声の平均値を取り除き、電話のチャネル歪みなどの畳込
み歪みを処理する簡単で効果的な方法である。１９７４
年、米国音響学学会ジャーナル、５５巻、１３０４〜１
３１２ページ掲載の、Ｂ．エイタル（Ａｔａｌ）の、
“ＥｆｆｅｃｔｉｖｅｎｅｓｓｏｆＬｉｎｅａｒＰ
ｒｅｄｉｃｔｉｏｎＣｈａｒａｃｔｅｒｉｓｔｉｃｓ
ｏｆｔｈｅＳｐｅｅｃｈＷａｖｅｆｏｒＡ
ｕｔｏｍａｔｉｃＳｐｅａｋｅｒＩｄｅｎｔｉｆｉ
ｃａｔｉｏｎａｎｄＶｅｒｉｆｉｃａｔｉｏｎ”
「自動話者認識および検証のための音声波の線形予測特
性の有効性」を参照されたい。スペクトル減算（ＳＳ）
は、特徴空間における背景雑音を減らす。１９７９年４
月の音響学、音声および信号処理に関するＩＥＥＥ議事
録、ＡＳＳＰ‐２７（２）：１１３〜１２９ページ掲載
の、Ｓ．Ｆ．ボール（Ｂｏｌｌ）の論文、“Ｓｕｐｐｒ
ｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅ
ｉｎＳｐｅｅｃｈＵｓｉｎｇＳｐｅｃｔｒａｌ
Ｓｕｂｔｒａｃｔｉｏｎ”「スペクトル減算を使用した
音声における音響的雑音の抑圧」を参照されたい。並列
モデル組合せ（ＰＭＣ）は、雑音のない音声モデルと雑
音の推定値とから雑音の多い状態における音声モデルの
近似を与える。米国、１９９２年４月の、音響学、音声
および信号処理に関するＩＥＥＥ国際会議議事録、１
巻、２３３〜２３６ページ掲載の、Ｍ．Ｊ．Ｆ．グレー
ス（Ｇｌａｅｓ）およびＳ．ヤング（Ｙｏｕｎｇ）の、
“ＡｎＩｍｐｒｏｖｅｄＡｐｐｒｏａｃｈｔｏ
ｔｈｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＤ
ｅｃｏｍｐｏｓｉｔｉｏｎｏｆＳｐｅｅｃｈａｎ
ｄＮｏｉｓｅ”「音声および雑音の隠れマルコフ・モデ
ル分解に対する改善された方法」を参照されたい。その
技法は訓練用のデータを必要としない。

【０００４】付加的雑音および畳込み雑音の共同補正
は、チャネル・モデルおよび雑音モデルを導入すること
によって実現することができる。付加的雑音に対するス
ペクトル的バイアスおよび畳込み雑音に対するケプスト
ラル・バイアスが、Ｍ．アフィフィ（Ａｆｉｆｙ）、
Ｙ．ゴング（Ｇｏｎｇ）、およびＪ．Ｐ．ハトン（Ｈａ
ｔｏｎ）による論文の中で導入されている。この論文
は、表題が、“ＡＧｅｎｅｒａｌＪｏｉｎｔＡｄ
ｄｉｔｉｖｅａｎｄＣｏｎｖｏｌｕｔｉｖｅＢｉ
ａｓＣｏｍｐｅｎｓａｔｉｏｎＡｐｐｒｏａｃｈ
ＡｐｐｌｉｅｄｔｏＮｏｉｓｙＬｏｍｂａｒｄＳ
ｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”「雑音の多いロ
ンバード音声認識に対して適用された一般的な共同の付
加的および畳込みバイアス補正」で、１９９８年１１月
の、音響学、音声および信号処理に関するＩＥＥＥ議事
録、６（６）：５２４〜５３８ページに掲載されてい
る。スペクトル領域および畳込み領域の両方において期
待最大化（ＥＭ）を適用することによって５種類のバイ
アスを計算することができる。Ｊ．Ｌ．ガウベイン（Ｇ
ａｕｖａｉｎ）他による１つの手順が畳込み成分を計算
するために示されており、それはトレーニング・データ
の再走査を必要とする。“Ｄｅｖｅｌｏｐｍｅｎｔｓ
ｉｎＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＤｉｃｔ
ａｔｉｏｎｕｓｉｎｇｔｈｅＡＲＰＡＮＡＢ
ＮｅｗｓＴａｓｋ”「ＡＲＰＡＮＡＢニュース・タ
スクを使用した連続音声ディクテーションにおける開
発」と題するＪ．Ｌ．ガウベイン（Ｇａｕｖａｉｎ）、
Ｌ．ラメル（Ｌａｍｅｌ），Ｍ．アッダ‐デッカー（Ａ
ｄｄａ‐Ｄｅｃｋｅｒ）、およびＤ．マトロフ（Ｍａｔ
ｒｏｕｆ）の論文を参照されたい。１９９６年、デトロ
イト、音響学、音声および信号処理に関するＩＥＥＥ国
際会議議事録、７３〜７６ページに掲載。再急峻降下
（ｓｔｅｅｐｅｓｔｄｅｓｃｅｎｔ）法による畳込み
成分の解も報告されている。“ＡＭａｘｉｍｕｍＬ
ｉｋｅｌｉｈｏｏｄＰｒｏｃｅｄｕｒｅｆｏｒａ
ＵｎｉｖｅｒｓａｌＡｄａｐｔａｔｉｏｎＭｅｔｈ
ｏｄＢａｓｅｄｏｎＨＭＭＣｏｍｐｏｓｉｔｉｏ
ｎ”「ＨＭＭ構成に基づいた汎用付加法のための最尤手
順」と題する、Ｙ．ミナミ（Ｍｉｎａｍｉ）およびＳ．
フルイ（Ｆｕｒｕｉ）の論文を参照されたい。１９９５
年、デトロイト、音響学、音声および信号処理に関する
ＩＥＥＥ国際会議議事録、１２９〜１３２ページに掲
載。Ｙ．ミナミおよびフルイによる１つの方法は、追加
の汎用の音声モデル、およびチャネルが変化する時に汎
用モデルでのチャネル歪みの再宛先を必要とする。１９
９６年、アトランタ、音響学、音声および信号処理に関
するＩＥＥＥ国際会議議事録、３２７〜３３０ページ掲
載の、“ＡｄａｐｔａｔｉｏｎＭｅｔｈｏｄＢａｓｅ
ｄｏｎＨＭＭＣｏｍｐｏｓｉｔｉｏｎａｎｄ
ＥＭＡｌｇｏｒｉｔｈｍ”「ＨＭＭ構成およびＥＭア
ルゴリズムに基づいた適応方法」と題するＹ．ミナミお
よびＳ．フルイの論文を参照されたい。

【０００５】“ＰＭＣｆｏｒＳｐｅｅｃｈＲｅｃ
ｏｇｎｉｔｉｏｎｉｎＡｄｄｉｔｉｖｅａｎｄ
ＣｏｎｖｏｌｕｔｉｏｎａｌＮｏｉｓｅ”「付加的お
よび畳込みの雑音における音声認識のためのＰＭＣ」、
１９９３年１２月、ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ
ＴＲ‐１５４，ＣＵＥＤ／Ｆ‐ＩＮＦＥＮＧの中で、
Ｍ．Ｆ．Ｊ．ゲールズ（Ｇａｌｅｓ）によって提示され
ている技法は、２パスの試験発声、例えば、パラメータ
推定と、それに続く認識、ケプストラルおよびスペクト
ルの領域の間のいくつかの変換、およびクリーンな音声
に対するガウスの混合モデルを必要とする。

【０００６】代わりに、両方のタイプの歪みの非線形性
の変化は、その変化が小さいと仮定して線形の式によっ
て近似することができる。ヤコビアン行列と雑音の多い
状態における差との積として、および統計的線形近似と
して音声モデルのパラメータの変化をモデル化するヤコ
ビアンの方法は、この方向に沿っている。１９９７年１
２月、米国カリフォルニア州サンタバーバラ、ＩＥＥＥ
自動音声認識ワークショップ議事録、３９６〜４０３ペ
ージ掲載の、“ＪａｃｏｂｉａｎＡｄａｐｔａｔｉｏ
ｎｏｆＮｏｉｓｙＳｐｅｅｃｈＭｏｄｅｌｓ”
「雑音の多い音声モデルのヤコビアン適応」と題する
Ｓ．サガヤマ（Ｓａｇａｙａｍａ）、Ｙ．ヤマグチ（Ｙ
ａｍａｇｕｃｈｉ）、およびＳ．タカハシ（Ｔａｋａｈ
ａｓｈｉ）の論文を参照されたい。ＩＥＥＥ信号処理学
会。また、１９９８年１月、ＩＥＥＥ信号処理レター、
５（１）：８〜１０ページ掲載の、Ｎ．Ｓ．キム（Ｋｉ
ｍ）の“ＳｔａｔｉｓｔｉｃａｌＬｉｎｅａｒＡｐ
ｐｒｏｘｉｍａｔｉｏｎｆｏｒＥｎｖｉｒｏｎｍｅ
ｎｔＣｏｍｐｅｎｓａｔｉｏｎ”「環境補正のための
統計的線形近似」も参照されたい。

【０００７】最尤線形回帰（ＭＬＬＲ）は、歪みファク
タを一致させるためにＨＭＭパラメータを変換する。１
９９５年、Ｃｏｍｐｕｔｅｒ，Ｓｐｅｅｃｈａｎｄ
Ｌａｎｇｕａｇｅ、９（２）：１７１〜１８５ページ掲
載の、Ｃ．Ｊ．レゲッタ（Ｌｅｇｇｅｔｔｅｒ）および
Ｐ．Ｃ．ウッドランド（Ｗｏｏｄｌａｎｄ）の、“Ｍａ
ｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲ
ｅｇｒｅｓｓｉｏｎｆｏｒＳｐｅａｋｅｒＡｄａｐ
ｔａｔｉｏｎｏｆＣｏｎｔｉｎｕｏｕｓＤｅｎｓｉ
ｔｙＨＭＭｓ”「連続密度ＨＭＭの話者適応のための
最尤線形回帰」を参照されたい。この方法は両方の雑音
源に対して有効であるが、トレーニング・データを必要
とし、話者に対する依存性を導入する。

【０００８】

【課題を解決するための手段】本発明の１つの実施形態
によると、広範囲の雑音およびチャネル歪みの種類に対
して丈夫である話者独立のシステムを作るために雑音お
よびチャネル歪みを同時に扱う新しい方法が示される。

【０００９】

【発明の実施の形態】図１を参照すると、本発明による
音声認識装置が示されている。音声が認識装置１１に加
えられる。その音声が隠れマルコフ・モデル（ＨＭＭ）
１３に比較されてテキストを認識する。そのモデルは静
かな環境および良好な品質のマイクロホンにおいて記録
された音声によるテキストにおいて最初に提供される。
チャネル／マイクロホンの歪みおよび背景雑音が同時に
存在している状況で動作するのに適している音声モデル
・セットを開発したい。本発明によると、音声モデル・
セットは、雑音および音声に関する統計情報を使用して
提供される。計算コストの小さい方法がＰＭＣおよびＣ
ＭＮの両方を統合化する。

【００１０】図２を参照すると、第１のステップはケプ
ストラル平均正規化付きのクリーンな音声において訓練
されたＨＭＭモデルから開始する。これらのモデルを修
正し、チャネル／マイクロホンの歪み（畳込み歪み）お
よび背景雑音（付加歪み）に対して同時に補正するため
のモデルを得る。ＨＭＭモデルに対する多くのパラメー
タがあるが、そのパラメータのうちの１つのサブセット
だけを変化させる。それは平均ベクトルｍ_p,j,kであ
る。元のモデル空間の平均ベクトルｍ_p,j,kが修正され
る、ここで、ｐは確率密度関数（ＰＤＦ）のインデック
スであり、ｊは状態、ｋは混合成分のインデックスであ
る。

【００１１】第２のステップ２は、訓練されたデータベ
ースにおける平均メル・スケールでのケプストラム係数
（ＭＦＣＣ）ベクトルがどれであるかを計算するステッ
プである。すべてのデータを走査し、その平均値を計算
してを得る。

【００１２】第３のステップ３はｍ_p,j,kによって表さ
れているこの平均ベクトルのプールのそれぞれに平均値を加算するステップである。これによって下式（１）が
得られる。

【数１】例えば、１００個のＰＤＦがあり、ＰＤＦ当たり３個の
状態があり、１つの状態当たり２つのベクトルがある、
合計で６００個のベクトルがあり得る。

【００１３】第４のステップ４は、所与の入力のテスト
発声に対して、背景雑音の推定値が計算されるステップである。であるとする。ここで、ｌは、その値がｌｏｇ（対数）
スペクトルの領域において表されていることを意味す
る。

【００１４】下記のように組合せ演算子を導入する。

【数２】

【数３】

【００１５】ステップ５において、式４を使用して雑音に対して適応された平均ベクトルを計算する。

【数４】ここで、ＤＦＴおよびＩＤＦＴは、それぞれ、ＤＦＴお
よび逆ＤＦＴの演算であり、は雑音補正された平均ベクトルである。

【００１６】式４は、いくつかの演算子を含む。ＤＦＴ
は離散的フーリエ変換であり、ＩＤＦＴは逆離散的フー
リエ変換である。は２つのベクトルでの演算である。がどのように定義されるかは、式２および３を見れば分
かる。式２は演算＋が２つのベクトルｕおよびｖについ
て行われ、その結果がＤ次元のベクトル、すなわち、であり、ここで、Ｔは転置である。２つのベクトルを取
り、別のベクトルを発生する。各要素を結果のベクトル
の中で規定する必要がある。式３は、そのベクトルの中のｊ番目の要素が、ｖのｊ番目の要素の指数関数に
ｕの要素の指数関数を加算し、そのｖのｊ番目の要素の
指数関数にｕの要素の指数関数を加算したものの組合わ
せのｌｏｇを取ったものによって定義されることを表し
ている。これで式４の定義が完了する。

【００１７】次のステップにおいて、（結果のモデルか
らの）雑音の多い音声空間において雑音の多いデータｙの平均ベクトルを取り除く必要がある。十分に雑音の多いデータを補正
されたモデルから合成することができるが、これは大量
の計算を必要とする。本発明によると、そのベクトルは
雑音の多いモデルの統計情報を使用して計算される。認
識装置全体はＣＭＮ（ケプストラル平均正規化モデル）
によって動作するが、式４の中のモデルは平均正規化さ
れていない。発明者は付加的雑音を処理した。その処理
の第２の半分は式４において定義されているモデルのケ
プストラル平均を取り除くことである。これは式４の中
にモデルがあるので難しくない。ステップ６において、
式４によって発生されたすべてのサンプルを積分し、そ
の平均値を得る必要がある。平均値はである。式５がこの積分である。

【００１８】ここで、がＰＤＦのインデックスを示す変数であるとし、が状態インデックスに対する変数であり、が混合成分のインデックスに対する変数であるとする。

【数５】何故なら、下記の関係があるからである。

【数６】下式が成立する。

【数７】式７は、を解析的に計算することができ、その物理的な発生およ
び積分を行う必要がないことを示している。最終の結果
が式７であり、それはいくつかの和への積分である。確
率密度関数における和および状態における和および混合
成分における和である。次に、いくつかの量がある。は、ＰＤＦインデックスを持つことの確率である。が与えられたは、ＰＤＦｐが与えられた場合のその状態にある確率で
ある。次はＰＤＦインデックスが与えられた場合の混合
成分ｐ，ｊの確率である。補正されたモードの平均ベク
トル。これを完成するために、その補正されたモデルか
らこのを取り除き、ターゲット・モデルを得る。これがステッ
プ７である。ターゲット・モデルは下式で表される。

【数８】これが本発明の認識装置にロードしたいものである。こ
の演算が各発声に対して行われる。

【００１９】したがって、の計算は各ＰＤＦの確率の知識を必要とする。Ｐ（，＝
ｐ）について２つの問題がある。・追加の記憶空間を必要とする。・認識のタスク、例えば、語彙、文法に依存する。その確率を得ることは可能であるが、次の単純化された
ケースを考慮したい。を計算するためのこの演算は３つの近似によって単純化
することができる。第１の近似はに対して等しい確率、すなわち、制約Ｃを使用する。１．に対して等しい確率を使用する。

【数９】２．に対して等しい確率を使用する。

【数１０】３．実際には、式１０に記述されているケースは、補
正された平均ベクトルを平均化するステップを構成している。式４および式１
を参照すると、平均化によって音声部分ｍ_p,j,kを、ち
ょうどＣＭＮが行うように減らすことが期待できる。し
たがって、式７を下記のようにさらに単純化することが
できる。

【数１１】次に、モデルがＣＭＮと一緒に雑音の多い音声について使用される。
都合の悪いことに、は上記のすべてのケースにおいてチャネルおよび背景雑
音の両方の関数である。言い換えれば、雑音が存在して
いる状況で、ＣＭＮの場合のように、そのようなベクト
ルによってそのチャネルが取り除かれることの保証はな
い。

【００２０】ハンドフリー録音を含んでいるＷＡＶＥＳ
データベースのサブセットが使用された。それは３つの
録音セッション、すなわち、ｐａｒｋｅｄ‐ｔｒｎ（車
が駐車していて、エンジンが停止している）、ｐａｒｋ
ｅｄ（車が駐車していて、エンジンが停止している）、
およびｃｉｔｙ‐ｄｒｉｖｉｎｇ（車が停止および進行
のベースで運転されている）から構成されている。各セ
ッションにおいて、２０人の話者（１０人が男性）がそ
れぞれ４０個の文章を読み、８００の発声を与えてい
る。各文章は等しい確率での１０、７または４個の数字
のシーケンスのいずれかである。そのデータベースが２
０ｍｓのＭＦＣＣ解析のフレーム・レートで８ｋＨｚに
おいてサンプルされる。特徴ベクトルは１０個の静的係
数と１０個の動的係数とから構成されている。

【００２１】すべての実験において使用されるＨＭＭ
は、ＴＩＤＩＧＩＴＳのクリーンな音声データにおいて
訓練されている。発声ベースのケプストラル平均正規化
が使用される。ＨＭＭは１９５７個の平均ベクトル、お
よび２７０個の対角分散を含む。ＴＩＧＩＤＩＴのテス
ト・セットにおいて評価されて、この認識装置は０．３
６％のワード誤り率を与える。

【００２２】雑音の多い環境における性能を改善するた
めに、ガウスのＰＤＦの分散をいくつかのやや雑音の多
いデータ、例えば、ＷＡＶＥＳｐａｒｋｅｄ＿ｅｖａ
ｌのデータに対してＭＡＰ適応させることができる。そ
のような適応は、クリーンな音声の認識に影響しない
が、ＨＭＭの雑音の多い音声の間の分散のミスマッチを
減らす。その新しいアルゴリズムはＪＡＣ（付加的雑音
および畳込みの歪みの共同補正）と呼ばれる。

【表１】表１：運転の状態および補正方法の関数としてのワード
誤り率（ＷＥＲ）（％）

【００２３】表１は、以下のことを示している。・雑音のない場合の認識（ＷＥＲ）（０．３６％）と比
較して、補正のない場合（ＢＡＳＥＬＥＮＥ）では、認
識の性能が大きく劣化する。・ＣＭＮは、駐車中のデータに対してＷＥＲを効果的に
減らすが、付加的雑音が支配的である運転中の状態に対
しては効果的ではない。・ＰＭＣは、運転中の状態に対してＷＥＲを大きく減ら
すが、マイクロホンのミスマッチが支配的である駐車中
のデータに対してはあまり良い結果を与えない。・ＪＡＣのケースはすべて非ＪＡＣの方法より低いＷＥ
Ｒを与える。・式７から式９までを単純化し、次に式１０を単純化す
ると、結果としてＷＥＲが段階的に増加する。ただし、
その劣化の程度は大きくない。特に、ＰＤＦの確率にお
ける情報は性能にとってはあまり重要ではない。・単純化されたＪＡＣはすべてのテストにおいて最も低
いＷＥＲを与える。このハンドフリー音声認識の場合、
その新しい方法はワード誤り率を駐車中の状態に対して
は６１％、町中のドライビング状態に対しては９４％だ
け減らす。

【００２４】以上の説明に関して更に以下の項を開示す
る。（１）クリーンな音声について訓練されたＨＭＭモデル
をケプストラル平均正規化によって修正し、チャネル／
マイクロホンの歪みおよび背景雑音（付加的歪み）に対
して同時に補正するモデルを提供する方法であって、各
音声の発声に対してクリーンなデータベース上で平均メ
ル・スケールでのケプストラム係数（ＭＦＣＣ）ベクト
ルを計算するステップと、ｐがＰＤＦのインデックスであ
り、ｊが状態であり、ｋがｍ_p,j,kにおける混合成分で
ある元のＨＭＭモデルの平均ベクトルｍ_p,j,kに前記平
均ＭＦＣＣベクトルを加算するステップと、所与の音声発声に対して、背景
雑音ベクトルの推定値を計算するステップと、を使用して雑音に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音の離散的フーリエ変換に加算される平均ＭＦＣＣベクト
ルによって修正された平均ベクトルの離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトルを雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトルを雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとを含む
方法。

【００２５】（２）第１項記載の方法において、前記雑
音の多い音声空間上で前記雑音の多いデータの前記平均
ベクトルを計算する前記ステップが、を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここではＰＤＦを示す変数であり、インデックスＪは、状態イ
ンデックスに対する変数であり、は混合成分のインデックスに対する変数である方法。（３）第２項記載の方法において、前記平均ベクトルを計算する前記ステップがに対して等しい確率を使用し、すなわち、

【数１２】となっている方法。（４）第２項記載の方法において、に対して等しい確率が使用され、すなわち、

【数１３】となっている方法。（５）第３項記載の方法において、平均ベクトルが

【数１４】に等しくなる方法。

【００２６】（６）チャネル歪みおよび背景雑音に対し
て補正された音声認識方法であって、ケプストラル平均
正規化によってクリーンな音声について訓練されたＨＭ
Ｍモデルを提供するステップと、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数（ＭＦＣＣ）ベクトルを計算するステップと、前記平均ＭＦＣＣベクトルを元のＨＭＭモデルの平均ベクトルｍ_p,j,kに加算し、
ここで、ｐはＰＤＦのインデックスであり、ｊは状態で
あり、ｋはｍ_p,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトルの推定値を計算するステップと、を使用して雑音に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音の離散的フーリエ変換に加算される平均ＭＦＣＣベクト
ルによって修正された平均ベクトルの離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトルを雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトルを雑音に対して適応される前記モデル平均ベクトルから
取り除いてターゲット・モデルを得るステップと、音声
を認識するために、ターゲット・モデルを前記音声入力
発声に対して比較するステップとを含む方法。（７）第６項記載の方法において、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトルを計算する前記ステップが、を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここではＰＤＦを示す変数であり、インデックスＪは、状態イ
ンデックスに対する変数であり、は混合成分のインデックスに対する変数である方法。（８）第７項記載の方法において、前記平均ベクトルを計算する前記ステップがに対して等しい確率を使用し、すなわち、

【数１５】となっている方法。（９）第７項記載の方法において、に対して等しい確率が使用され、すなわち、

【数１６】となっている方法。（１０）第９項記載の方法において、平均ベクトルが

【数１７】に等しくなる方法。

【００２７】（１１）チャネル歪みおよび背景雑音に対
して補正された音声認識装置であって、ケプストラル平
均正規化によってクリーンな音声について訓練されたＨ
ＭＭモデルを修正することによって発生される適応ＨＭ
Ｍモデルを含み、前記モデルは、各発声に対して、前記
クリーンなデータベース上で平均メル・スケールでのケ
プストラム係数（ＭＦＣＣ）ベクトルを計算するステップと、前記平均ＭＦＣＣベクトルを元のＨＭＭモデルの平均ベクトルｍ_p,j,kに加算し、
ここで、ｐはＰＤＦのインデックスであり、ｊは状態で
あり、ｋはｍ_p,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトルの推定値を計算するステップと、を使用して雑音に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音の離散的フーリエ変換に加算される平均ＭＦＣＣベクト
ルによって修正された平均ベクトルの離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトルを雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトルを雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとによっ
て適応されていて、さらに、音声を認識するために、適
応モデルを前記音声入力発声に対して比較する手段を組
み合わせて含む認識装置。（１２）第１１項記載の認識装置において、前記雑音の
多い音声空間上で前記雑音の多いデータの前記平均ベク
トルを計算する前記ステップが、を使用した雑音モデルの統計情報を使用して前記ベクト
ルを計算し、ここではＰＤＦを示す変数であり、インデックスＪは、状態イ
ンデックスに対する変数であり、は混合成分のインデックス６に対する変数である認識装
置。（１３）第１２項記載の認識装置において、前記平均ベ
クトルを計算する前記ステップがに対して等しい確率を使用し、すなわち、

【数１８】となっている認識装置。（１４）第１２項記載の認識装置において、に対して等しい確率が使用され、すなわち、

【数１９】となっている認識装置。（１５）第１２項記載の方法において、平均ベクトルが

【数２０】に等しくなる方法。

【００２８】（１６）チャネル／マイクロホンの歪みお
よび背景雑音の両方に対して同時に補正する音声認識方
法であって、クリーンな音声において訓練されたＨＭＭ
モデルをケプストラル平均正規化によって修正するステ
ップと、各音声発声に対して、クリーンなデータベース
に対するＭＦＣＣベクトルを計算するステップと、前記
平均ＭＦＣＣベクトルを元のＨＭＭモデルに加算するス
テップと、所与の音声発声に対して前記背景雑音を評価
するステップと、雑音に対して適応される前記モデル平
均ベクトルを決定するステップと、前記雑音の多い音声
空間上で前記雑音の多いデータの前記平均ベクトルを決
定するステップと、前記雑音に対して適応される前記モ
デル平均ベクトルから前記雑音の多い音声空間上で前記
雑音の多いデータの前記平均ベクトルを取り除き、ター
ゲット・モデルを得るステップとを含む方法。

【００２９】（１７）音声の方法であって、クリーンな
音声において訓練されたＨＭＭモデルをケプストラル平
均正規化によって提供するステップと、畳込み歪みおよ
び背景雑音に対して同時に補正するようにＨＭＭモデル
を修正するステップとを含む方法。

【００３０】（１８）補正付き音声認識方法が、クリー
ンな音声において訓練されたＨＭＭモデルをケプストラ
ル平均正規化によって修正することによって提供され
る。各音声発声に対して、ＭＦＣＣベクトルがクリーン
な音声データベースに対して計算される。この平均ＭＦ
ＣＣが元のモデルに加算される。所与の音声発声に対し
て背景雑音の推定値が決定される。雑音に対して適用さ
れたモデル平均ベクトルが決定される。雑音の多い空間
における平均ベクトルが決定され、これが雑音に対して
適応されるモデル平均ベクトルから取り除かれてターゲ
ット・モデルが得られる。

【図面の簡単な説明】

【図１】本発明の１つの実施形態による音声認識装置を
示す。

【図２】本発明の方法を示す。

【符号の説明】

１１認識装置１３ｃ適応されたＨＭＭ１３ｂ適応化１３ａＨＭＭ（隠れマルコフモデル）

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５２１Ｔ

Claims

【特許請求の範囲】

【請求項１】クリーンな音声について訓練されたＨＭ
Ｍモデルをケプストラル平均正規化によって修正し、チ
ャネル／マイクロホンの歪みおよび背景雑音（付加的歪
み）に対して同時に補正するモデルを提供する方法であ
って、各音声の発声に対してクリーンなデータベース上で平均
メル・スケールでのケプストラム係数（ＭＦＣＣ）ベク
トルを計算するステップと、ｐがＰＤＦのインデックスであり、ｊが状態であり、ｋ
がｍ_p,j,kにおける混合成分である元のＨＭＭモデルの
平均ベクトルｍ_p,j,kに前記平均ＭＦＣＣベクトルを加算するステップと、所与の音声発声に対して背景雑音ベクトルの推定値を計算するステップと、を使用して雑音に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音の離散的フーリエ変換に加算される平均ＭＦＣＣベクト
ルによって修正された平均ベクトルの離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトルを雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトルを雑音に対して適応される前記モデル平均ベクトルから
取り除き、ターゲット・モデルを得るステップとを含む
方法。
【請求項２】チャネル歪みおよび背景雑音に対して補
正された音声認識装置であって、ケプストラル平均正規化によってクリーンな音声につい
て訓練されたＨＭＭモデルを修正することによって発生
される適応ＨＭＭモデルを含み、該モデルは、各発声に対して、前記クリーンなデータベース上で平均メル・スケールで
のケプストラム係数（ＭＦＣＣ）ベクトルを計算するステップと、前記平均ＭＦＣＣベクトルを元のＨＭＭモデルの平均ベクトルｍ_p,j,kに加算し、
ここで、ｐはＰＤＦのインデックスであり、ｊは状態で
あり、ｋはｍ_p,j,kを得るための混合成分であるステッ
プと、所与の音声発声に対して前記背景雑音ベクトルの推定値を計算するステップと、を使用して雑音に対して適応されるモデル平均ベクトルを計算して雑音
が補正された平均ベクトルを取得し、逆離散的フーリエ
変換が、評価された雑音の離散的フーリエ変換に加算される平均ＭＦＣＣベクト
ルによって修正された平均ベクトルの離散的フーリエ変換の和に対して取られるステップ
と、雑音の多いデータの平均ベクトルを雑音の多い音声空間において計算し、前記雑音の多い
データの前記平均ベクトルを雑音に対して適応される前記モデル平均ベクトルから
取り除き、適応モデルを得るステップとによって適応さ
れていて、さらに、音声を認識するために、適応モデルを前記音声入力発声
に対して比較する手段を組み合わせて含む認識装置。