JP3589508B2

JP3589508B2 - 話者適応音声認識方法および話者適応音声認識装置

Info

Publication number: JP3589508B2
Application number: JP20651195A
Authority: JP
Inventors: ツァオヤンキン
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1994-07-19
Filing date: 1995-07-19
Publication date: 2004-11-17
Anticipated expiration: 2015-07-19
Also published as: JPH0863182A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識技術、とくに自己学習型話者適応音声認識方法に関するものである。
【０００２】
【従来の技術】
不特定話者の連続音声（スピーチ）認識を完成することは、マン・マシンコミュニケーションにとって理想である。しかしながら最新のモデル化技法でも、そのようなシステムの復号（ｄｅｃｏｄｉｎｇ））の精度は依然限定的である。不特定話者の連続音声の統計的モデル化における固有の困難性は、各単音単位のスペクトル変動が、異音の文脈上の依存性からだけではなく、個別の話者の音響的および音声的特性からも由来するということである。これらの話者の変動要因により、個別の話者の音声を認識する際に、特定話者のモデルよりも不特定話者のモデルの方が有効性が少ない。
【０００３】
【発明が解決しようとする課題】
不特定話者の連続音声認識を改善するために、有効な学習機構を音声認識器へ組み込むことは非常に重要であり、それにより、利用者が認識器を使用してい間に話者適応を実現でき、また復号の精度を不特定話者の認識器のものまでに徐々に向上することができる。
【０００４】
本発明が関連する分野を一層完全に理解するために、下記の文献を本明細書と一体的に引用する。
【０００５】
Ｓ．Ｊ．ＣｏｘおよびＪ．Ｓ．Ｂｒｉｄｌｅ著（１９８９）、「確率フイッチングによる未監視話者適応」、Ｐｒｏｃ．ＩＣＡＳＳＰ、グラスゴー、スコットランド、１９８９年４月、ｐｐ．２９４〜２９７。
【０００６】
Ｍ．Ｈ．Ｄｅｇｒｏｏｔ著（１９７０）、「最適な統計的判定」、（マグローヒル社）。
【０００７】
Ａ．Ｐ．Ｄｅｍｐｓｔｅｒ、Ｎ．Ｍ．Ｌａｉｒｄ、Ｄ．Ｂ．Ｒｕｂｉｎ著（１９７７）、「ＥＭアルゴリズムを通して不完全なデータからの最大確度予想」、Ｊ．ＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ、Ｂ３９、Ｎｏ．１、ｐｐ．１〜３８。
【０００８】
Ｓ．Ｆｕｒｕｉ著（１９８９）、「階層制スペクトル集合に基づく未監視話者適応手法」、Ｐｒｏｃ．ＩＣＡＳＳＰ、グラスゴー、スコットランド、１９８９年４月、ｐｐ．２８６〜２８９。
【０００９】
Ｈ．Ｈｅｒｍａｎｓｋｙ、Ｂ．Ａ．Ｈａｎｓｏｎ、Ｈ．Ｊ．Ｗａｋｉｔａ著（１９８５）、「音声の知覚に基づく線形予想分析」、Ｐｒｏｃ．ＩＣＡＳＳＰ、タンパ、フロリダ、１９８５年４月、ｐｐ．５０９〜５１２。
【００１０】
Ｍ．Ｊ．Ｈｕｎｔ著（１９８１）、「言語に基づく音声認識システムに対する話者適応」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、６９：Ｓ４１〜Ｓ４２。
【００１１】
Ｌ．Ｆ．Ｌａｍｅｌ、Ｒ．Ｈ．Ｋａｓｓｅｌ、Ｓ．Ｓｅｎｅｆｆ著（１９８６）、「音声データベースの開発：音響−音声集成の設計と分析」、Ｐｒｏｃ．ｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＷｏｒｋｓｈｏｐ（ＤＡＲＰＡ）。
【００１２】
Ｃ−Ｈ．Ｌｅｅ、Ｃ−Ｈ．Ｌｉｎ、Ｂ−ＨＪｕａＮＧ著（１９９０）、「連続密度ＨＭＭパラメータの話者適応についての研究」、Ｐｒｏｃ．ＩＣＡＳＳＰ、ミネアポリス、ミネソタ、１９９０年４月、ｐｐ．１４５〜１４８。
【００１３】
Ｃ−Ｈ．ＬｅｅおよびＪｅａｎ−ＬＧａｕｖａｉｎ著（１９９３）、「ＨＭＭパラメータのＭＡＰ推定に基づく話者適応」、Ｐｒｏｃ．ＩＣＡＳＳＰ、ミネアポリス、ミネソタ、１９９３年４月、ｐｐ．５５８〜５６１。
【００１４】
Ｋ．Ｏｈｋｕｒａ、Ｍ．Ｓｕｇｉｙａｍａ、Ｓ．Ｓａｇａｙａｍａ著（１９９３）、「連続混合密度ＨＭＭｓによる移送ベクトル分野平滑化に基づく話者適応」、Ｐｒｏｃ．ｏｆＩＣＳＬＰ、バンフ、カナダ、１９９２年１０月、ｐｐ．３６９〜３７２。
【００１５】
Ｄ．Ｂ．ＰａｕｌおよびＢ．Ｆ．Ｎｅｃｉｏｇｌｕ著（１９９３）、「リンカーン大規模語彙スタック復号器ＨＭＭＣＳＲ」、Ｐｒｏｃ．ＩＣＡＳＳＰ、Ｖｏｌ．ＩＩ、ミネアポリス、ミネソタ、１９９３年４月、ｐｐ．６６０〜６６４。
【００１６】
Ｋ．Ｓｈｉｎｏｄａ、Ｋ．Ｉｓｏ、Ｔ．Ｗａｔａｎａｂｅ著（１９９１）、「半音節に基づく連続密度ＨＭＭについての話者適応」、Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ、トロント、カナダ、１９９１年５月、ｐｐ．８５７〜８６０。
【００１７】
Ｙ．Ｚｈａｏ、Ｈ．Ｗａｋｉｔａ、Ｘ．Ｚｈｕａｎｇ著（１９９１）、「ＴＩＭＩＴデータベースについての実験によるＨＭＭに基づく不特定話者の連続音声認識システム」、Ｐｒｏｃ．ＩＣＡＳＳＰ、トロント、カナダ、１９９１年５月、ｐｐ．３３３〜３３６。
【００１８】
Ｙ．Ｚｈａｏ著（１９９３ａ）、「音素単位の連続混合ガウス密度ＨＭＭを使用する不特定話者の連続音声認識システム」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．１、Ｎｏ．３、ｐｐ．３４５〜３６１。
【００１９】
Ｙ．Ｚｈａｏ著（１９９３ｂ）、「スペクトル変動源分解に基づく自己学習話者適応」、Ｐｒｏｃ．ＥｕｒｏＳｐｅｅｃｈ ’９３、ベルリン、ドイツ、１９９３年９月、ｐｐ．３５９〜３６２。
【００２０】
本発明者の先願である日本特許出願（特願平６−９１７４４、平成６年４月２８日出願）及びその基礎出願である米国特許出願（出願番号ＮＯ．０８／０５５，０７５、１９９３年４月２９日出願）において、スペクトル変動源（ｓｏｕｒｃｅ）の分解に基づく話者適応技法が開示されている。その技法は、不特定話者の連続音声認識システムについて大幅なエラーの減少を達成しており、そのシステムにおいてその適応は、訓練話者および試験話者から短時間校正音声（ｓｐｅｅｃｈ）を必要としている。本発明は、この適応技法を自己学習適応の枠組まで拡大しており、すなわち適応音声は話者から明示的に必要とされないし、また話者のスペクトル特性は、話者が認識器を通常使用している間に、話者の入って来る音声の発音から統計的手法を通して学習される。
【００２１】
本発明は、このような音声認識方法および装置を提供することを目的とするものである。
【００２２】
【課題を解決するための手段】
本発明の話者適応音声認識方法および装置により、不特定話者の連続音声認識に関する性能が一貫して向上した。連続音声認識の文脈における自己学習の実現可能性に関する一般的な関心は、開始モデルが非常に貧弱であると、分散された適応結果をもたらす可能性があるということであった。
【００２３】
そこで、本発明によれば、スペクトル変動源の分解を通して、認識性能を大きく劣化する原因である音響スペクトル変動源を先ず除去することにより、教師無しでセグメンテイションした時のエラー（ｕｎｓｕｐｅｒｖｉｓｅｄｓｅｇｍｅｎｔａｔｉｏｎｅｒｒｏｒ）を大幅に減少でき、かくして音（ｐｈｏｎ）モデル適応の、引き続く段階の実施が容易となる。さらに、適応割合および共分散を最適化すること、教師無しでセグメンテイションした時のエラーの取扱い、および適応のために別の変動源を識別することが考えられる。
【００２４】
【発明の実施の形態】
以下、本発明の実施の形態の例を図面を用いて説明する。
【００２５】
本発明の音声システムは、一定の話者ｑからの校正音声の極く短時間の発音だけを使用すして、その話者の音声特性に適応できるものである。これは、初期の音響正規化および引き続く音（ｐｈｏｎｅ）モデル適応により可能となる。図１は、話者の音響特性の正規化がどのようにして実施されるかを図示する。正規化は、訓練および試験中に不整合データ収集および記録状態を取扱うことでも実現できる。ついで図２は、音（ｐｈｏｎｅ）モデル適応がどのようにして実施されるかを示す。図１および２において、訓練段階と試験段階とは区別される。訓練とは、既知の音声データおよび複数の話者からの校正音声の一組を使用してこの音声システムが「訓練」される手順を指す。試験音声とは、システムが音声認識用途において実際に使用されるときに個別の話者ｑにより生成される音声を指す。図１および２において訓練段階と試験段階は、別個の囲みで示され、訓練段階１０および試験段階１２と表示される。図１および２、ならびにこの明細書において後で示される数学的式において、校正音声スペクトルは、Ｘ_Ｃで表示され、一方、試験音声スペクトルは、Ｘ_ｔで表示されている。これらのスペクトルは、対数域（ｌｏｇａｒｉｔｈｍｉｃｄｏｍａｉｎ）内にある。図１および２は、これらのシステムの概要を示すことを意図するものである。完全な具体的な内容は、数学的式と関連して後で説明する。図１では、このシステムは、複数の話者から校正音声を供給することにより、先ず校正される。これは、話者１〜話者Ｑから音声が入力されることを示す１４で表示される。図面の左側にある大文字Ｑは、訓練話者の全人数を示す。図面の右側にある小文字ｑは、特定の試験話者を示す。この話者ｑは、図１の１６で示される。
【００２６】
特定の校正文を表す校正音声スペクトルＸ_Ｃは、不特定話者の単音（ｐｈｏｎｅ）モデル推定プロセス１８へ供給され、そのプロセスにより、長円２０内に図示される話者単音（ｐｈｏｎｅ）モデルＭ１の集合が生成される。Ｍ１は、単峰性ガウス密度の集合を有し、そこにおいて各単音（ｐｈｏｎｅ）単位の状態それぞれに対する単峰性（単一の）ガウス密度がある。ついでＭ１は、話者の校正音声の関数として話者についてのスペクトルバイアスを推定するプロセスへ供給される。これは、ｈ−推定器ブロック２２およびｈ−推定器ブロック２４内に図示される。両方のｈ−推定器ブロックは、本質的に同一の方法で構成される。それらは、推定されたスペクトルバイアスパラメータベクトル（推定値）ｈを生成し、そのベクトルは、対数域内にある音声スペクトルから減算される係数（ｆａｃｔｏｒ）であり、正規化されたスペクトルを生成する。この推定されたスペクトルバイアスを求める式は、以下に実施の詳細として説明する。
【００２７】
訓練側（囲み１０）において、訓練話者それぞれの推定されたスペクトルバイアス（推定値）ｈは、対数域内にある話者の訓練音声スペクトルＸ_ｔから減算されて、正規化されたスペクトルの集合を生成し、ついでそのスペクトルは、プロセス２６において隠れマロコフモデル（ＨＭＭ）を使用してモデル化される。この結果、２８で図示される正規化された不特定話者のＨＭＭ単音（ｐｈｏｎｅ）モデルＭ２およびＭ３が生成される。モデル集合Ｍ２は、ガウス混合密度単音（ｐｈｏｎｅ）モデルの集合であり、またＭ３は、単峰性ガウス密度単音（ｐｈｏｎｅ）モデルの集合である。ついで正規化された単音（ｐｈｏｎｅ）モデルＭ２およびＭ３は、復号器３０へ供給され、そこで話者ｑの試験音声を復号するのに使用される。訓練音声スペクトルＸ_ｔは、校正スペクトルＸ_Ｃを求めるのに使用されるものと異なる文を使用して求められる。
【００２８】
話者ｑがシステムを使用して文を認識する前に、校正音声Ｘ_Ｃの短い発声は、ｈ−推定器２４へ先ず供給されて、その話者用の推定されたスペクトルバイアス（推定値）ｈ^（ｑ）を生成する。この（推定値）ｈ^（ｑ）は、話者ｑが校正後にさらに発声をするときに、試験音声スペクトルＸ_ｔから減算される。前と同様に推定されたスペクトルバイアスパラメータは、対数域内で減算されて、音響的に正規化されたスペクトルを生成する。ついでこの正規化されたスペクトルは、復号器３０へ供給され、その復号器は、辞書と文法３２、およびＨＭＭ単音（ｐｈｏｎｅ）モデル２８を使用して、復号されたワード列を構成する。
【００２９】
さらに性能を向上するために、このシステムは、Ｍ２およびＭ３について単音（ｐｈｏｎｅ）モデル適応も実施できる。これを実施する方法は、図２に図示される。図２において、適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３は、長円３４内に示される。図１と同様に図２も、その機能性を訓練段階１０および試験段階１２にセグメンテイションする。試験段階１２は、復号器３０へ適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３が供給されることを除いて、図１で説明したものと本質的に同一である。図２の段階１２のプロセスは、図１の段階１２のものと本質的に同一であるので、ここではさらに説明しないことにする。図２の重点は、単音（ｐｈｏｎｅ）モデル適応プロセスが実施される段階１０に置かれる。複数の訓練話者（話者１〜話者Ｑ）用の校正スペクトルＸ_Ｃは、３６で示されるように、対数域内の推定されたスペクトルバイアスパラメータを減算することにより、正規化される。これは例えば、図１のｈ−推定器２２により生成される（推定値）ｈパラメータを使用することにより、実施される。
【００３０】
次に、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセスは３８において、その入力データについてそのデータを定義された境界の単音（ｐｈｏｎｅ）単位毎にセグメンテイションする。このビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセスは、正規化された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３を使用することにより、実施される。図２において長円４０により図示されるこれらのモデルＭ２およびＭ３は、図１において長円２８により図示されるもの、すなわち音響的正規化後に生成されるものと同一のモデルでもよい。
【００３１】
一旦ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションが実施されると、個別の単音（ｐｈｏｎｅ）単位は、一般に４２で図示される最大尤度推定プロセスにより文脈変調ベクトル（ＣＭＶ）を求めるのに使用される。結果として得られた文脈変調ベクトルは長円４４により図示される。これらの文脈変調ベクトルは、訓練話者（話者１〜話者Ｑ）の校正音声Ｘ_Ｃおよび訓練音声Ｘ_ｔから導かれる。
【００３２】
試験話者である話者ｑ用の校正音声Ｘ_Ｃは、４６において推定されたスペクトルバイアスを減算することにより、正規化される。その後にビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションが４８において実施されて、話者ｑの正規化されたスペクトルを異音（ａｌｌｏｐｈｏｎｅ）サブセグメントにセグメンテイションする。ついで異音サブセグメントのスペクトルは、先に導かれた文脈変調ベクトル４４を使用して、５０において文脈変調される。ついでこれらの文脈変調されたスペクトルは、ベイジアン（Ｂａｙｅｓｉａｎ）推定プロセス５２において使用される。このベイジアン（Ｂａｙｅｓｉａｎ）推定プロセスは、長円４０により示される正規化された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３に基づいて作動し、長円３４により示される適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３を生成する。かくしてこの適応された混合密度単音（ｐｈｏｎｅ）モデルは、話者ｑにさらに適応ための音声の実施を要求することなく個別の話者に同調させられる。
【００３３】
以上極短時間の校正音声を使用した話者適応用システムを説明してきたが、ここで自己学習のシステムを説明する。図３を参照すると、話者ｑの音声スペクトルは、推定されたスペクトルバイアス（推定値）ｈ^（ｑ）を減算することにより、音響的に正規化される。この場合に入力音声スペクトルＸ_ｔは、実際の試験音声、すなわち校正音声とは対照的に認識器により復号される音声を表す。先に述べたように試験音声はＸ_ｔで表示され、また校正音声はＸ_Ｃで表示される。
【００３４】
実際の音響的正規化は、先ず推定されたスペクトルバイアス（推定値）ｈ^（ｑ）を生成することにより、実施される。これはｈ−推定器ブロック１００により実施され、そのブロックは、Ｘ_ｔおよびガウス密度単音（ｐｈｏｎｅ）モデル集合Ｍ３から推定されたスペクトルバイアス（推定値）ｈ^（ｑ）を計算する。この計算は、下記の式（３）においてさらに説明される。音声スペクトルＸ_ｔは対数域内にあるので、推定されたスペクトルバイアスは、減算により音声スペクトルから除去される。これは、図３における１０２および１０４において図示される。ｈ−推定器１００により使用されるガウス密度単音（ｐｈｏｎｅ）モデルＭ３は、１１０において図示される。
【００３５】
減算操作１０２から生じる正規化されたスペクトルは、復号器１０６へ供給され、その復号器は、辞書と文法１０８および適応されたガウス混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３、１１４を使用して、復号されたワード列、すなわち認識された音声を表すテキスト列を生成する。
【００３６】
以下にさらに説明するように、自己学習機能には、各文が復号された後に単音（ｐｈｏｎｅ）モデル適応を実施することを含む。図３において点線１１２は、文の復号後に実施される手順（下部）を復号手順自体（上部）から視覚的にセグメンテイションするために引かれたものである。復号器１０６は長円１１４内に示される適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３を使用することに留意する必要がある。図から分かるように、これらのモデルＭ２およびＭ３は、各文が復号された後に自己学習のやり方で適応される。かくして適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３は、点線１１２の下方に図示される。
【００３７】
単音（ｐｈｏｎｅ）モデル適応プロセスは、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイション１１６で開始される。復号器１０６からの復号されたワード列および適応された混合密度単音（ｐｈｏｎｅ）モデル１１４は、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションブロックへ供給される。このビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセスは、減算プロセス１０４から生じる音響正規化されたスペクトルに基づいて実施される。初心者の期間において、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションは、一連の音声スペクトルを、音素（ｐｈｏｎｅｓ）に相当する実際の音声の物理的単位である単音（ｐｈｏｎｅ）単位のセグメントへセグメンテイションする（音素は、言語的見地すなわち音素的見地から最小の音声単位である。音素は組合わせられて音節を形成し、音節は組合わせられてワードを形成し、またワードは組合わせられて文を形成する。）
ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセス１１６は、各単音（ｐｈｏｎｅ）単位の各状態について適応データを生成する。これは、長円１１８において表示される。復号器１０６の出力はビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセスへ供給される。と言うのは、この場合、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセスは、校正データの既知の列を取り扱っていないからである。
【００３８】
段階１２０において補間パラメータλは、適応データから、各混合コンポーネントのガウス密度毎に推定される。この補間パラメータは、段階１２２において使用されて、長円１１４において図示されるモデル集合Ｍ２およびＭ３における単音（ｐｈｏｎｅ）単位の状態に対して、混合密度における対応コンポーネントガウス密度を適応させるデータが十分にあるかどうかを判断する。データが十分であるならば、混合コンポーネントは集合Ａに属するとして分類され、そのデータは、ベイジアン（Ｂａｙｅｓｉａｎ）推定により混合コンポーネントのパラメータを適応するのに使用される。これは段階１２４に示される。この適応プロセスは、以下の数学的説明における式（９）および（１０）に対応する。
【００３９】
ある場合には、特に話者ｑがこのシステムを使用して先ず音声を開始するときに、音声データの量は、モデル１１４の一定の混合コンポーネントのガウス密度を適応するには不十分なことがある。この状態は、段階１２２で検出され、補間パラメータλがしきい値未満の場合、対応する混合コンポーネントのガウス密度は集合Ｂに属するとして分類される。この場合に文脈変調は、混合コンポーネント密度のパラメータを適応するために単音（ｐｈｏｎｅ）単位の状態のデータに基づいて段階１２６において実施され、そこでは、文脈変調のパラメータは、集合Ａと集合Ｂとの間で推定されている。文脈変調は、集合Ｂにおける混合コンポーネント用の文脈変調された適応データを生成することにより、適応データを補足する。これは長円１２８において図示される。ついでこの文脈変調されたデータは、段階１２４において使用されて、ベイジアン（Ｂａｙｅｓｉａｎ）推定を通して集合Ｂにおけるコンポーネントのガウス密度のパラメータを適応する。
【００４０】
ベイジアン（Ｂａｙｅｓｉａｎ）推定の結果として、適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３が生成される。これらのモデルは、ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションプロセス１１６へ送り返されるので、今後のビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションは、このようにして生成された適応混合密度単音（ｐｈｏｎｅ）モデルを利用できるのである。初心者の期間において、適応された混合密度単音（ｐｈｏｎｅ）モデルは、個別の話者ｑの音声特性に一層良く整合するように修正される。文脈変調は、段階１２６において使用されて、万一データセットが段階１２４における直接適応にとり不十分な場合、データセットにおける「ギャップを埋める」。文脈変調は、単音（ｐｈｏｎｅ）単位の発音が隣接する単音（ｐｈｏｎｅ）単位に応じて異なる発音をする場合、一定の単音（ｐｈｏｎｅ）単位の状態の音響的に正規化された混合密度におけるコンポーネントのガウス密度が、異音の文脈依存性を主にモデル化することを考慮している。文脈変調を通して、隣接する単音（ｐｈｏｎｅ）の異なる文脈からの単音（ｐｈｏｎｅ）単位の適応データは、一定の同様な文脈の異音スペクトルをモデル化する特定のコンポーネントガウス密度のパラメータを適応するのに使用できる。
【００４１】
実施例
話者により生じたスペクトル変動源は、２つの分類、すなわち音響（ａｃｏｕｓｔｉｃ）特有の源および単音（ｐｈｏｎｅ）特有の源に分解される。音響源は、単音（ｐｈｏｎｅ）単位とは関係のないスペクトル変動を引き起こす話者の物理的個性に帰し、一方、単音（ｐｈｏｎｅ）特有源は、単音（ｐｈｏｎｅ）依存のスペクトル変動を引き起こす話者の個人に特有な傾向に帰し、また各変動源は、線形変換システムによりモデル化される。音響変動源からのスペクトルバイアスは、孤立母音およびワード認識における話者適応に対して、Ｃｏｘなどにより提案された教師無しで最大尤度推定を使用して推定される（Ｃｏｘなど、１９８９年）。
【００４２】
音響的正規化は、個別話者の音声スペクトルからそのようなスペクトル変動を除去することにより、実施される。単音（ｐｈｏｎｅ）特有のスペクトル変動は、単音（ｐｈｏｎｅ）モデル適応により取り扱われ、そこにおいて不特定話者のガウス混合密度単音（ｐｈｏｎｅ）モデルのパラメータは、ベイジアン（Ｂａｙｅｓｉａｎ）推定を通して適応される。スペクトルバイアスの教師無し最大尤度推定の導出およびガウス混合密度パラメータのベイジアン（Ｂａｙｅｓｉａｎ）推定の導出は、ＥＭアルゴリズムの数学的枠内に入れられる（Ｄｅｍｐｓｔｅｒなど、１９７７年）。
【００４３】
ベースライン（ｂａｓｅｌｉｎｅ）の不特定話者の連続音声認識システムは、単音（ｐｈｏｎｅ）単位の隠れマロコフモデルに基づいており、各単音（ｐｈｏｎｅ）モデルは３つの対応した状態を有し、また各状態はガウス混合密度によりモデル化される。適応データが限定されるときに適応効果を強化する場合、異音の文脈依存性は、各ガウス混合密度内における混合コンポーネントの対（ｐａｉｒ）間の文脈変調によりモデル化される（Ｚｈａｏ、１９９３ｂ）。提案される適応技法は、ＴＩＭＩＴデータベースから訓練されたベースラインの不特定話者の連続音声認識システムの認識精度を向上する際に有効であることが示される（Ｌａｍｅｌなど、１９８６年）。その評価実験は、ＴＩＭＩＴデータベースのサブセットに基づき、および我々の研究室で収集した音声データに基づき実施される。
【００４４】
この実施の詳細は、自己学習適応方法の一般説明、音響的正規化と単音（ｐｈｏｎｅ）モデル適応に対する統計的手法の詳細説明、実験結果、および要約を含む６項目のセクションで行われている。
【００４５】
自己学習適応
音響および単音（ｐｈｏｎｅ）特有の変動源は、標準話者のスペクトルに基づいて２つのカスケード式線形変換としてモデル化される。話者ｑを考慮して、ｉ＝１，２，．．．．，Ｍの場合、Ｈ^（ｑ）およびＬ_ｉ ^（ｑ）を、それぞれ音響源およびｉ番目の単音（ｐｈｏｎｅ）特有源を表す線形変換とする。またＸ_ｉ，ｔ ^（ｑ）およびＸ_ｉ，ｔ ^（ｏ）を、話者ｑおよび標準話者ｏから時間ｔにおける単音（ｐｈｏｎｅ）単位ｉの一対のスペクトルとする。そうすると、この２つの線形変換からの複合マッピングは、下記の式になる。
【００４６】
【数１】

【００４７】
小文字変数（ｌｏｗｅｒｃａｓｅｖａｒｉａｂｌｅｓ）を使用する対数スペクトル域において、乗算マッピングは加算バイアス、すなわち下記の式になる。
【００４８】
【数２】

【００４９】
本適応方法において音響バイアスｈ^（ｑ）は明示的に取り扱われるが、単音（ｐｈｏｎｅ）特有バイアスｌ_ｉ ^（ｑ）は、単音（ｐｈｏｎｅ）モデルパラメータの適応を通して暗黙的に取り扱われる。ｘ_ｉ，ｔ ^（ｑ）からｈ^（ｑ）の減算は音響的正規化と呼ばれ、音響的に正規化された（正規化）ｘ_ｉ，ｔ ^（ｑ）＝ｘ_ｉ，ｔ ^（ｑ）−ｈ^（ｑ），∀ｉ，ｔを生じる。未整合記録条件が線形変換ひずみＤを導入する場合、対数域におけるこのゆがみｄは、バイアスベクトル（正規化）ｈ^（ｑ）＝ｈ^（ｑ）＋ｄにより吸収される。
【００５０】
ベースライン認識システムは、瞬時スペクトル特徴および動的スペクトル特徴を使用する（Ｚｈａｏ、１９９３ａ）。式（２）から分かるように、動的スペクトル特徴は、その抽出における固有のスペクトル差計算の理由で、スペクトルバイアスｈ^（ｑ）により影響されない。一方、動的特徴は、単音（ｐｈｏｎｅ）単位の境界において単音（ｐｈｏｎｅ）特有のバイアスｌ_ｉ ^（ｑ）により影響されることがある。ここでは、瞬時スペクトル特徴およびそれらのモデルだけが、適応のために考慮される。この瞬時スペクトルモデルおよび動的スペクトルモデルのセグメンテイション処理は、ガウス混合密度単音（ｐｈｏｎｅ）モデルについて定義された、瞬時特徴用に１ブロックおよび動的特徴用に１ブロックのブロック対角共分散構造により容易に実施される（Ｚｈａｏ、１９９３ａ参照）。
【００５１】
話者が認識器使用の途中において一時に１つの文を発声すると仮定すると、入力文毎に、話者適応は、２つの連続するステップで実施される。図３を参照すると、第１の段階は、その文を復号する前に実施され、そこにおいて話者の音響特性のスペクトルバイアスは、その文のスペクトルから推定され、また同一の文の音声スペクトルは引き続いて正規化される。第２の段階はその文を復号した後に実施され、そこにおいて単音（ｐｈｏｎｅ）モデルのパラメータは、ベイジアン（Ｂａｙｅｓｉａｎ）推定を使用して適応される。第２の段階において、各単音（ｐｈｏｎｅ）単位についての適応データは、復号された文のスペクトルシーケンスのビタビ（Ｖｉｔｅｒｂｉ）セグメンテイションを通して作成され、またそのセグメンテイションは、認識されたワード列により管理される。ついで適応された単音（ｐｈｏｎｅ）モデルは、話者からの次の文の発声を認識するのに使用される。
【００５２】
話者正規化
標準話者の単音（ｐｈｏｎｅ）モデルパラメータが、訓練集合における話者の音声データから推定されると仮定すると、単音（ｐｈｏｎｅ）モデルは、単峰性ガウス密度Ｎ（μ_ｉ，Ｃ_ｉ），ｉ＝１，２，．．，Ｍである。話者ｑの場合、文発声は、スペクトル文ｘ^（ｑ）＝｛ｘ_ｔ ^（ｑ），ｔ＝１，．．．，Ｔ^（ｑ）｝から成る。ＥＭアルゴリズムの文脈において、スペクトルベクトルｘ_ｔ ^（ｑ）は観測可能データと呼ばれ、またそれらの単音（ｐｈｏｎｅ）ラベルｉ_ｔは観測不能データと呼ばれる。完全なデータセットは、観測可能データと観測不能データとから成る（ｘ_１ ^（ｑ），ｘ_２ ^（ｑ），．．．，ｘ_Ｔ ^（ｑ），ｉ_１，ｉ_２，．．．，ｉ_Ｔ）。それぞれ観測可能データと観測不能データ用のランダム変数を示すために、大文字変数Ｘ^（ｑ）およびＩを使用して、ｈ^（ｑ）の推定は、完全データの条件付き対数尤度の期待値の反復最大化を通して実施される。初期値（推定値）ｈ_０ ^（ｑ）を仮定すると、反復推定式は以下の通りとなる。
【００５３】
【数３】

【００５４】
ただし、
【００５５】
【数４】

【００５６】
事後の確率Ｐ（ｉ_ｔ＝ｉ｜ｘ_ｔ ^（ｑ），（推定値）ｈ_ｎ ^（ｑ））が決定演算ｉ_ｎ ^＊（ｔ）＝ａｒｇｍａｘＰ（ｉ_ｔ＝ｉ｜ｘ_ｔ ^（ｑ），（推定値）ｈ_ｎ ^（ｑ））によりそれぞれ近似され、かつガウス密度の共分散マトリックスが単位マトリックスとするならば、推定されるスペクトルバイアス（推定値）ｈ^（ｑ）は、文スペクトルと、およびラベル付けされた単音（ｐｈｏｎｅ）モデルの対応する平均ベクトルとの間の単なる平均スペクトル変動となる。すなわち下記の式になる。
【００５７】
【数５】

【００５８】
この検討において式（５）は、スペクトルバイアスの推定に使用され、また初期条件は（推定値）ｈ_０ ^（ｑ）＝０として設定される。
【００５９】
訓練データと試験データにおいて音響正規化を実施するのは好都合であり、そこにおいて訓練スペクトルからスペクトルバイアスを除去することにより、異音の統計的変動を把握する際に単音（ｐｈｏｎｅ）モデルを一層効果的にする。標準話者を特徴付ける単音（ｐｈｏｎｅ）モデルを構成するために、先ず訓練データは、単峰性ガウス密度単音（ｐｈｏｎｅ）モデルの集合を推定するのに使用される。これらのモデルを基準として使用すると、スペクトルバイアスベクトルは、各話者からの文発声毎に推定され、また推定されたスペクトルバイアスは、引き続いて文スペクトルから除去される。ガウス混合密度単音（ｐｈｏｎｅ）モデルは、音響的に正規化された訓練データから訓練される。
【００６０】
話者毎にスペクトルバイアスを推定する別の方法は、話者からより多くのデータが入手できるように推定値を反復して更新することである。一般に、より多くのデータを使用することは、一層信頼できる推定値を生成することになるが、実験によれば、反復推定方法は、話者の音声特性のランダム変化に追従する際に遅れて、この場合には劣った認識結果をもたらすことが観察されている。
【００６１】
単音（ｐｈｏｎｅ）モデル適応
単音（ｐｈｏｎｅ）モデル適応の場合、音響的に正規化された音声スペクトルは、認識されたワードシーケンスに従って単音（ｐｈｏｎｅ）単位の状態にセグメンテイションされる。単音（ｐｈｏｎｅ）単位の状態毎に、ガウス混合密度のパラメータは、ベイジアン（Ｂａｙｅｓｉａｎ）推定を通して適応される（Ｌｅｅ、１９９０年；Ｌｅｅ、１９９３年）。適応データの量が限定されるときに適応効果を強化するために、不十分な適応データを有するガウスコンポーネント密度を適応する文脈変調（Ｚｈａｏ、１９９３ｂ）が採用される。ガウス混合密度パラメータのベイジアン（Ｂａｙｅｓｉａｎ）推定
サイズＭのガウス混合密度を考慮すると、そのコンポーネント密度の平均ベクトルおよび共分散マトリックスは、θ_ｉ＝（μ_ｉ，Ｃ_ｉ），∀ｉにより示される。その混合重みは、α_ｉ≧０，∀ｉおよびΣ^Ｍ _ｉ＝１ α_ｉ＝１である。Θ＝｛θ_１，θ_２，．．．，θ_Ｍ｝およびＡ＝｛α_１，α_２，．．．，α_Ｍ｝として表すと、特徴ベクトルｘ_ｔ（以後（正規化）ｘ_ｔ ^（ｑ）は表示の簡略化のため単にｘ_ｔとし、また特徴次元はＬとする）の尤度は、以下のように計算される。
【００６２】
【数６】

【００６３】
ただし、ｆ（ｘ_ｔ｜θ_ｉ）− Ｎ（μ_ｉ，Ｃ_ｉ），∀ｉである。
事前分布θ_ｉ，ｉ＝１，２，．．．，Ｍは、独立分布であると仮定し、また混合重みα_ｉは定数とする。前の平均および共分散であるμ_０ ^（ｉ）およびＣ_０ ^（ｉ）ｉは、訓練サンプルサイズＮ_ｉ，∀ｉからの不特定話者の推定値である。精密マトリックスｒ_ｉ＝Ｃ_ｉ ^−１と定義し、平均と精密マトリックスの結合分布（μ_ｉ，ｒ_ｉ）を、共役事前分布とする（Ｄｅｇｒｏｏｔ、１９７０年）。具体的には、ｒ_ｉを与えられた時のμ_ｉの条件付分布は、平均μ_０ ^（ｉ）および精密マトリックスｖｒ_ｉを有するガウス分布であり、ただしｖは位取り定数であり、またｒ_ｉの限界分布は、自由度ｐおよび位取りマトリックスτ_ｉ＝Ｎ_ｉＣ_０ ^（ｉ）ｉを有するウィシャート（Ｗｉｓｈａｒｔ）分布である。すなわち下記のようになる。
【００６４】
【数７】

【００６５】
ここに ∝ は「に比例する」を意味する。前の平均および共分散は、Ｎ_ｉデータサンプルから推定されるので、精密スケールｖおよび自由度ｐには、訓練サンプルサイズＮ_ｉの値が割り当てられる（Ｄｅｇｒｏｏｔ、１９７０年）。
【００６６】
観察可能な特徴データｘ＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝の集合および観察不能なデータ｛ｉ_１，ｉ_２，．．．，ｉ_Ｔ｝の集合があり、ｉ_ｔはｘ_ｔ，∀ｔについての混合インデックスである。したがってΘの推定は、ＥＭアルゴリズムの枠内で再び定式化される。先に引用したＥＭ定式化に対する相違は、条件付き期待値が、完全なデータセット（Ｘ，Ｉ）の事後の尤度に関して取られるということである。すなわち下記の通りとなる。
【００６７】
【数８】

【００６８】
初期値 Θ^（０）は、不特定話者のモデルパラメータである。期待値の最大化は、個別のθ_ｉについて結合が減じられ、かつ下記の平均値、
【００６９】
【数９】

【００７０】
【数１０】

【００７１】
を導く。ただしλ_ｉ ^（ｎ）は補間パラメータであり、μ_ｘ ^{（ｉ）（ｎ）}およびＣ_ｘ ^{（ｉ）（ｎ）}は、適応データのサンプル平均および共分散である。γ_ｔ，ｉ ^（ｎ）により事後確率Ｐ（ｉ_ｔ＝ｉ｜ｘ_ｔ，θ_ｉ ^（ｎ））を表示すると、下記のようになる。
【００７２】
【数１１】

【００７３】
パラメータλ_ｉ ^（ｎ）、μ_ｘ ^{（ｉ）（ｎ）}およびＣ_ｘ ^{（ｉ）（ｎ）}は、下記のように計算される。
【００７４】
【数１２】

【００７５】
適応効果の強化
利用者が先ず認識器の使用を開始すると、フィードバック適応データの量は限定され、かつ大部分の混合コンポーネントは少量の適応データを有するか、または全く有しない。この筋書きにおいて、適応データが不足のガウスコンポーネント密度は、文脈変調データを使用して適応される。対数域において、２つの異音ａおよびｂのスペクトル間の関係は、ｘ_ａ，ｔ＝ｘ_ｂ，ｔ＋ξであり、ξは文脈変調ベクトル（ＣＭＶ）である。混合における各ガウスコンポーネント密度が一般化された異音文脈のモデル化スペクトルとして概念化されると、ＣＭＶは、対応する訓練データを使用して混合コンポーネントの各対間で推定できる。
ｃ_ｉ，ｊ（ｘ_ｔ）＝ｘ_ｔ＋ξ_ｉ，ｊにより、ｊ番目の混合コンポーネントに対してｉ番目の混合コンポーネントにおける訓練スペクトルのマッピングｘ_ｔ，∀ｔを表示すると、ＣＭＶξ_ｉ，ｊは、ガウス密度モデルθ_ｊ＝（μ_ｊ，Ｃ_ｊ）に基づいて、ｃ_ｉ，ｊ（ｘ_ｔ），∀ｔの結合尤度を最大化することにより、推定される。すなわち下記のようになる。
【００７６】
【数１３】

【００７７】
推定値は（推定値）ξ_ｉ，ｊ＝μ_ｊ−μ_ｉであり、それはｊ番目のコンポーネントガウス密度とｉ番目のコンポーネントガウス密度との平均ベクトル間の差であることを導くことは簡単である。
【００７８】
ＣＭＶに基づいて、混合における個別のガウスコンポーネント密度へ集約される適応データは、そのパラメータを適応する特定のコンポーネント密度へマッピングできる。この方法には２つの潜在的問題がある。第１に、混合におけるコンポーネント密度は、異なる距離で離間される。文脈変調の線形変換モデルは、大きい距離でセグメンテイションされるコンポーネント密度の対にとり不適切であろう。第２に、話者が長期間認識器を使用した後、単音（ｐｈｏｎｅ）単位の状態における適応データの量は大きくなるであろうし、また特定のガウスコンポーネント密度を適応するために、これら全てのデータを使用すると、過度の適応をもたらすかもしれない。下記において２つの事例が考えられる。第１の事例において、文脈変調した適応データは、特定のガウスコンポーネント密度のパラメータを適応するのに単純に使用される。第２の事例において、適応についての制約は、重みとしきい値を第１の事例に適用して上記の２つの潜在的問題を取り扱うことにより、導入される。
制約なしの適応
式（１２）で定義された補間パラメータλ_ｉは、ｉ，∀ｉ番目の混合コンポーネントについて適応データの量を計る。しきい値η＜１とすると、λ_ｉ≧ηならば、ｉ番目の混合コンポーネントのパラメータは、式（９）および（１０）を使用して直接適応され、そうでないならば、そのパラメータは、文脈変調されたデータを使用して適応されることが決定される。ｊ番目の混合コンポーネントが、不十分な適応データを有する、すなわちλ_ｉ＜ηであると仮定すると、モデルパラメータθ_ｊ＝（μ_ｊ，Ｃ_ｊ）もＥＭ定式化から推定できる。ｃ_ｊ（ｘ）により、ｊ番目の混合コンポーネントに対して個別ガウスコンポーネント密度から適応データｘ＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝のマッピングを表示すると、下記の式となる。
【００７９】
【数１４】

【００８０】
さらに重み係数を定義すると（制約Σ^Ｍ _ｉ＝１ γ_ｔ，ｉ ^（ｎ）＝１の使用に留意）、下記の式となる。
【００８１】
【数１５】

【００８２】
平均（推定値）μ_ｊ ^{（ｎ＋１）}の事後推定値は、下記のように導かれる。
【００８３】
【数１６】

【００８４】
式（１６）から分かるように、重み係数の合計Σ^Ｍ _ｉ＝１ β_ｉ ^{（ｊ）（ｎ）}は、補間パラメータとして役立ち、また推定値（推定値）μ_ｊ ^{（ｎ＋１）}は、
ベクトルδ^{（ｊ）（ｎ）}＝Σ^Ｍ _ｉ＝１β_ｉ ^{（ｊ）（ｎ）}（μ_ｘ ^{（ｉ）（ｎ）}−μ_０ ^（ｊ））だけの、
当初平均値μ_０ ^（ｊ）のずれである。ベクトルδ^{（ｊ）（ｎ）}を利用すると、共分散マトリックスの事後推定値は、下記のように導かれる。
【００８５】
【数１７】

【００８６】
制約付適応
ガウスコンポーネント密度対間の距離を考慮するために、式（１４）のＥＭ定式化は、１未満から１に等しい係数だけ、各特徴ベクトルの尤度に重みを付けるように修正される。すなわち下記のようになる。
【００８７】
【数１８】

【００８８】
ただし係数ｖ_ｊ，ｉは、ユークリッド距離ｄ_ｊ，ｉ＝｜μ_ｉ−μ_ｊ｜の逆関数であり、下記のように定義される。
【００８９】
【数１９】

【００９０】
式（１９）において、ｊ≠ｉの場合の分子は、ｖ_ｊ，ｉの最大値を１へ正規化するためのものであり、すなわち最大ｖ_ｊ，ｉ＝１（ｉ≠ｊ）である。この正規化の目的は、正規化無しの場合よりも大きい適応効果を達成することにある。（推定値）μ_ｊ ^{（ｎ＋１）}および（マトリクス）Ｃ_ｊ ^{（ｎ＋１）}用の推定式は、式（１６）および（１７）におけるものと同一の形式であるが、係数β_ｉ ^{（ｊ）（ｎ）}は下記へ変更されることが容易に導かれる。
【００９１】
【数２０】

【００９２】
過剰適応を避けるために、Σ^Ｍ _ｉ＝１β_ｉ ^{（ｊ）（ｎ）}の値は、しきい値ε＜１と照合される。
Σ^Ｍ _ｉ＝１ β_ｉ ^{（ｊ）（ｎ）}＞εならば、重み付け係数は、ξ_ｉｖ_ｊ，ｉへ修正され、そこにおいてｉ＝ｊの場合はξ_ｉ＝１となり、そうでない場合はξ_ｉ＝ξ＜１，∀ｉとなる。値ξは、Σ^Ｍ _ｉ＝１ β_ｉ ^{（ｊ）（ｎ）}＝εを設定して求められ、これは下記を導く。
【００９３】
【数２１】

【００９４】
実験
発明者（ＳＴＬ）が収集したＴＩＭＩＴのデータベースおよび音声データに基づいて、下記の方法で実験が実施された。ベースラインの不特定話者ＨＭＭ単音（ｐｈｏｎｅ）モデルは、ＴＩＭＩＴデータベースからの７１７個の文および３２５人の話者から訓練された。ＴＩＭＩＴ音声データは、１６ＫＨｚから１０．６７ＫＨｚまでサンプリングが下げられた。ＰＬＰ分析のケプストラム係数（８次）（Ｈｅｒｍａｎｓｋｙなど、１９８５年）および対数エネルギーが、瞬時特性として使用され、またそれらの１次の５０ミリ秒の時間的回帰係数が、動的特性として使用された。タスク語彙サイズは８５３であり、また文法上のパープレキシティは、ＴＩＭＩＴ試験セットおよびＳＴＬ試験セットそれぞれについて１０４および１０５であった。ＴＩＭＩＴ試験セットには、５０人の男性と２５人の女性が含まれ、そこにおいて各話者は、２文から３文を発声し、合計音声数は１８６文であった。ＳＴＬ試験セットには、１人の男性（ＳＴＬ−ｍ）および１人の女性（ＳＴＬ−ｍ）が含まれ、各話者は、９８個のＴＩＭＩＴＳＸ文を読んだ。ＴＩＭＩＴと比較すると、ＳＴＬデータは、高いレベルの環境ノイズ（約１５ｄＢ高い）の下で収集され、また対エイリアシングフィルタ特性も、ＴＩＭＩＴデータベースに使用されるものには十分に整合しなかった。
【００９５】
認識性能が、以下の６事例において評価された。すなわち（ａ）ベースライン不特定話者連続音声認識、（ｂ）音響的正規化、（ｃ）教師無しセグメンテイションによる単音（ｐｈｏｎｅ）モデル適応、（ｄ）教師有りセグメンテイションによる単音（ｐｈｏｎｅ）モデル適応、（ｅ）教師無しセグメンテイションによる単音（ｐｈｏｎｅ）モデル適応プラス文脈変調、および（ｆ）教師有りセグメンテイションによる単音（ｐｈｏｎｅ）モデル適応プラス文脈変調であった。（ｅ）および（ｆ）の事例において、しきい値ηおよびεは、０．３へ設定され、また２つの方法が調査された。第１の方法において、重み付け係数ｖ_ｊ，ｉは、しきい値εだけを制約値として使用されるように１．０に設定された。第２の方法において、重み付け係数ｖ_ｊ，ｉは、式（１９）に従って求められ、またしきい値εも適用された。ＥＭアルゴリズムに基づく推定式の場合、初期パラメータは、不特定話者推定値であり、またパラメータ推定に反復が１回使用された。式（４）および（１１）から分かるように、事後の確率の計算には、個別データサンプルについてガウス密度尤度の評価を必要とするので、計算費用が掛かる。したがってパラメータ推定に１回の反復に制約することは、計算費用を低く抑えるために必要である。６つの事例それぞれについての平均ワード認識精度は、表１に要約される。２人のＳＴＬ話者の場合にワード認識精度およびエラー減少（ベースラインに関して）は、さらに図２に図示され、そこにおいて結果は、水平軸上に示される分数、すなわち１０文、２０文などにわたり平均化される。
【００９６】
この結果から分かるように、ＴＩＭＩＴ試験セットの場合、各話者から入手できるデータは少量であるために、音響的正規化だけが十分な効果を有した。ＳＴＬ話者の場合、ベースラインワード認識精度は、記録条件の不整合のためにＴＩＭＩＴ試験セットの場合よりもかなり低く、またそのために音響的正規化は、性能をかなり向上した。話者ＳＴＬ−ｆの場合、単音（ｐｈｏｎｅ）モデル適用は、音響的正規化後にワード精度をかなり向上したし、また文脈変調データを使用することにより、適応が強化された。話者ＳＴＬ−ｍの場合、多数の文の発声後に単音（ｐｈｏｎｅ）モデル適応の確実な効果が顕著となり、また適応強化の効果は小さい。ＳＴＬ−ｆおよびＳＴＬ−ｍによる試験データを詳しく調べると、幾つかの初期文が、口ごもりおよび舌打ち音などの音声エラーを含んでいることが判明したが、これらの文は認識結果の中に入れられた。
【００９７】
【表１】

【００９８】
表１から、単音（ｐｈｏｎｅ）モデル適応について教師有りセグメンテイションデータを使用すると、文脈変調の第２の方法は、第１の方法よりも良い結果を生じるが、単音（ｐｈｏｎｅ）モデル適応について教師無しセグメンテイションデータを使用すると、２つの方法間で識別できる相違が無い。さらに教師有りセグメンテイションは、教師無しセグメンテイションよりも良い結果を生じるが、その相違は、ＴＩＭＩＴ試験話者および話者ＳＴＬ−ｍの場合には大きくはない。
【００９９】
ガウスコンポーネント密度が、適応データの増加する量からどのようにして適応されるかを説明するために、表２は、話者ＳＴＬ−ｆの場合の方法２の事例（ｆ）から得られた一定の統計を列挙する。固定された文の数それぞれについて、この統計は、直接適応される混合コンポーネント数、文脈変調されたデータにより適応される混合コンポーネント数、および適応されない混合コンポーネント数を含む。しきい値ε（ＣＭＶを使用する）を越える補間パラメータのパーセントも列挙される。この表に示されるように、より多くのデータが入手できるにつれて、より高いパーセントの混合コンポーネントが直接適応され、またより低いパーセントの混合コンポーネントが文脈変調データにより適応される。２パーセント未満の混合コンポーネントは、３０個の文を入手できるとき、適応されない。８０個の文を入手できるとき、補間パラメータの９０％以上は、しきい値ε＝０．３（ＣＭＷを使用する）を越える。
【０１００】
【表２】

【０１０１】
＊注記：ε＝０．３よりも大きい補間パラメータ（ＣＭＶを使用する）のパーセントは、括弧内に示される。
【０１０２】
適応効果を強化するために文脈変調の使用は、Ｓｈｉｎｏｄａなどによる補間の方法（Ｓｈｉｎｏｄａなど、１９９１年）、およびＯｈｋｕｒａなどによるベクトル領域平滑化（Ｏｈｋｕｒａなど、１９９２年）との一定の類似性を有することが、平均ベクトル適応の式（１６）から分かる。その相違点は以下の通りである。すなわち現行の研究において、個別データサンプルは、ＣＭＶを使用してマッピングされ、またこれらのマッピングされたデータは、ガウス密度モデルの平均および共分散を適応するのに使用され、一方、Ｓｈｉｎｏｄａなどによる、およびＯｈｋｕｒａなどによる方法は、適応された当初のモデルの平均間の一定の隣接する重みを付けた異なるベクトルにより、適応データが不足する平均ベクトルをずらすだけである。
【０１０３】
【発明の効果】
以上述べたところから明らかなように、本発明によれば、不特定話者の連続音声認識システムについて大幅なエラーの減少を達成し、それを自己学習適応の枠組まで拡大した、すなわち適応音声は話者から明示的に必要とされないし、また話者のスペクトル特性は、話者が認識器を通常使用している間に、話者の入って来る音声の発音から統計的手法を通して学習される音声認識方法および装置を提供できる。
【図面の簡単な説明】
【図１】短時間校正音声を使用するシステムにおいて話者の音響特性の正規化がどうのようにして実施されるかを図示するブロック図である。
【図２】図１のシステムにおいて単音（ｐｈｏｎｅ）モデル適応がどうのようにして実施されるかを図示するブロック図である。
【図３】本発明に従う自己学習不特定話者の連続音声認識システムの現行の好ましい実施例を図示するブロック図である。
【符号の説明】
１〜Ｑ話者
１８不特定話者単音（ｐｈｏｎｅ）モデル推定
２０不特定話者単音（ｐｈｏｎｅ）モデルＭ１
２２ｈ−推定器
２４ｈ−推定器
２６ＨＭＭ単音（ｐｈｏｎｅ）モデル訓練
２８正規化された不特定話者単音（ｐｈｏｎｅ）モデルＭ２およびＭ３
３０復号器
３２辞書および文法
３４適応された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３
３８ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイション
４０正規化された混合密度単音（ｐｈｏｎｅ）モデルＭ２およびＭ３
４２ＣＭＶの最大尤度推定
４４文脈変調ベクトル
４８ビタビ（Ｖｉｔｅｒｂｉ）セグメンテイション
５０文脈変調
５２ベイジアン（Ｂａｙｅｓｉａｎ）推定
１００ｈ−推定器
１０６復号器
１０８辞書および文法
１１０ガウス密度単音モデルＭ３
１１６Ｖｉｔｅｒｂｉセグメンテイション
１１８各単音モデルの各状態についての適応データ
１１４適応された混合密度単音モデルＭ２およびＭ３
１２０各混合コンポーネントガウス密度についての補間パラメータλの推定
１２２ λ＞しきい値か？
１２４Ｂａｙｅｓｉａｎ推定を通してモデルパラメータの適応
１２６集合ＡおよびＢにおける混合コンポーネントの対間の文脈変調
１２８集合Ｂについての文脈変調された適応データ

Claims

音声を復号する際に使用するための、複数の単音モデルを備えた話者適応音声認識方法であって、
一定の話者からの第１の発声を復号するステップと、
前記第１の発声における復号されたワードに基づいて前記第１の発声をセグメンテイションして、単音単位（ phone units ）用のセグメンテイションされた適応データを生成するステップと、
前記単音単位毎に、前記適応データの量を所定のしきい値と比較するステップと、
前記適応データの量がしきい値以下あるいは未満の前記単音単位に対しては、変調された適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正するステップ
を有することを特徴とする話者適応音声認識方法。
前記の引き続く発声を復号するステップと、前記の復号された引き続く発声を使用して前記の適応された単音モデルをさらに適応するステップとを備えたことを特徴とする請求項１の話者適応音声認識方法。
前記復号する前に前記第１の発声を正規化するステップを備えたことを特徴とする請求項１の話者適応音声認識方法。
音声が音声スペクトルのシーケンスで表されるように、前記第１の発声をスペクトル定義域に変換するステップと、
話者の音響特性に基づいて前記音声スペクトルを正規化するステップとを備えたことを特徴とする請求項１の話者適応音声認識方法。
音声をスペクトル定義域に変換する前記ステップは、ＰＬＰケプストラム係数と、その音声の音声（phonetic）特性を表すエネルギーとを抽出することを特徴とする請求項４の話者適応音声認識方法。
音声をスペクトル定義域に変換する前記ステップは、各ＰＬＰケプストラム係数についての１次の時間的回帰係数と、その音声の動的特性を表すエネルギーとを抽出することを特徴とする請求項４の話者適応音声認識方法。
音声が音声スペクトルのシーケンスで表されるように、前記第１の発声をスペクトル定義域に変換するステップと、話者の音響特性に基づいて前記音声スペクトルを正規化するステップとを備え、前記正規化ステップは、スペクトルバイアスベクトルを推定し、引き続いて前記ベクトルを前記音声スペクトルから除去することにより、実施されることを特徴とする請求項１の話者適応音声認識方法。
前記単音モデルのパラメータを修正するステップは、
前記適応データの量がしきい値以上あるいは超える前記単音単位に対しては、前記適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正することを特徴とする請求項１の話者適応音声認識方法。
前記のセグメンテイションステップはビタビセグメンテイションにより実施されることを特徴とする請求項１の話者適応音声認識方法。
前記単音モデルのそれぞれは隠れマロコフモデルであり、また単音モデルの各状態は、ガウス混合密度の確率密度関数を有することを特徴とする請求項１の話者適応音声認識方法。
前記の適応された単音モデルは隠れマロコフモデルであり、また単音モデルの各状態は、ガウス混合密度の確率密度関数を有することを特徴とする請求項１の話者適応音声認識方法。
単音モデルを適応する前記ステップは、ベイジアン（ Bayesian ）推定を通して、モデルパラメータを修正することを特徴とする請求項１の話者適応音声認識方法。
前記単音モデルはガウス混合密度単音モデルであり、前記適応データの存在を判定するステップは、
混合コンポーネントガウス密度のそれぞれについて、前記適応データから所定の混合コンポーネントガウス密度に存在する適応データの量の尺度としての補間パラメータを推定し、
前記補間パラメータと所定のしきい値とを比較する
ことを特徴とする請求項１の話者適応音声認識方法。
前記単音モデルはガウス混合密度単音モデルであり、前記パラメータを修正するステップは、
混合コンポーネントガウス密度を適応化する
ことを特徴とする請求項１の話者適応音声認識方法。
前記単音モデルはガウス混合密度単音モデルであり、前記変調は、混合密度における混合コンポーネントガウス密度間の関係を推定すること、および推定された関係を使用してデータマッピングを行い適応データを増加する文脈変調である
ことを特徴とする請求項１の話者適応音声認識方法。
１つの混合コンポーネント密度に属するスペクトルを他の混合コンポーネント密度にマッピングする前記文脈変調は、さらに前記他の混合コンポーネント密度の平均ベクトルから前記１つの混合コンポーネント密度のベクトルを減算するように文脈変調ベクトルを計算することにより、および前記推定された文脈変調を前記スペクトルへ加算して、前記他の混合コンポーネント密度についての文脈変調されたスペクトルを得る
ことを特徴とする請求項１５の話者適応音声認識方法。
前記文脈変調は、さらに、
文脈変調ベクトルがコンポーネントガウス密度の対の平均ベクトル間の差から成るところのコンポーネントガウス密度の対間で前記ベクトルを生成すること、および前記文脈変調ベクトルを前記対に対応するスペクトルへ加算する
ことを特徴とする請求項１４の話者適応音声認識方法。
引き続く発声毎に、先行の発声から生成され適応された単音モデルを使用して、前記復号、セグメンテイションおよび修正のステップを繰り返すステップ、をさらに備えた請求項１の話者適応音声認識方法。
音声を復号する際に使用するための、複数の単音モデルを備えた話者適応音声認識装置であって、
一定の話者からの第１の発声を復号する手段と、
前記第１の発声における復号されたワードに基づいて前記第１の発声をセグメンテイションして、単音単位（ phone units ）用のセグメンテイションされた適応データを生成する手段と、
前記単音単位毎に、前記適応データの量を所定のしきい値と比較する手段と、
前記適応データの量がしきい値以下あるいは未満の前記単音単位に対しては、変調された適応データに基づいて、その話者へ適応した前記複数の単音モデルのパラメータを修正する手段
を有することを特徴とする話者適応音声認識装置。