JP2004004906A

JP2004004906A - 固有声に基づいた最尤法を含む話者と環境の適合化方法

Info

Publication number: JP2004004906A
Application number: JP2003178466A
Authority: JP
Inventors: Patrick Nguyen; パトリック・ヌグイェン; Roland Kuhn; ローランド・クーン; Jean-Claude Junqua; ジャン−クロード・ジュンカ
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-04-30
Filing date: 2003-06-23
Publication date: 2004-01-08
Also published as: DE69923026T2; KR19990083632A; DE69923026D1; CN1144172C; KR100574769B1; EP0953968A3; ATE286616T1; CN1243304A; EP0953968B1; EP0953968A2; JPH11338491A; TW436758B

Abstract

【課題】新しい話者について多くの訓練データを要することなく話者および環境適応を実現する。
【解決手段】話者当り１モデルで訓練され、モデルパラメータが所定の順序で抽出されて話者当り１個のスーパーベクトルのセットが構成される。主成分解析が上記スーパーベクトルのセットに関して実行されて、固有音声空間を定義する固有ベクトルのセットが生成され、所望とあらばベクトルの数はデータ圧縮のため減少させることができる。新しい話者は、最尤評価に基づいてスーパーベクトルが上記固有声空間内に存在するように制約することによってスーパーベクトルが構成される適合化データを与える。この新しい話者の固有空間内の結果の係数はその話者について適合化モデルが構成されるモデルパラメータの新しいセットを構成するために使用される。環境適応は訓練データ内に環境変化を含ませることで達成できる。
【選択図】　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的には音声認識に関し、より詳細には音声認識モデルのパラメータが新しい話者の音声をより良く認識するために更新される話者適応に関する。
【０００２】
【従来の技術】
音声認識システムは、話者依存性のものか、話者独立であり得る。話者依存システムは、ある話者が発した多数の単語例（これら例は“訓練データ”と呼ばれる）を与えることによって、当該個人が話した内容を理解できるよう訓練される。話者依存システムは、訓練された個々人についてはきわめて正確であるが、それ以外の人については不正確である。話者独立システムは、応用する言語を話すあらゆる人が使えるように企画されており、通常多数の異なる人々からのデータに基づいて訓練される。訓練データ中にない話者に関して音声認識を実行する場合の話者独立システムにおけるエラーレートは、訓練された話者についての音声認識を実行する匹敵する話者依存システムについてのエラーレートより約２乃至３倍高い。
【０００３】
性能を改善する試みとして、多くの音声認識システムは、話者適応を実行する能力を備え、これによって音声認識システムがエラーレートを減少させるよう使用中に調整される。現在の技術文献では基本的に３つの話者適応方式がある。これらは以下の通りである。
【０００４】
（１）話者規格化（“変換”とも呼ばれる）
新しい話者の特徴ベクトルによって生成されたデジタル信号の観測値は、話者依存システムが訓練された基準の話者からの観測値により近いものに類似させるように変換される。ある例では、変換は反対の方向、つまり、基準パターンが新しい話者のデータにより近接するように変換される。
（２）新しい話者の話者クラスタリング−観測値は、訓練話者のクラスタを選択するのに使用され、各クラスタはこのクラスタ内の話者についてのみ訓練された隠れマルコフモデル（ＨＭＭ）の完全なセットで連係されている。話者にとって最も適したクラスタが選択されると、このクラスタのＨＭＭのみを用いて音声認識が実行される。
（３）モデル適応−確かなＨＭＭパラメータが適合化データの特徴を反映するように更新される。２つの最も普及したモデル適合化技術は、マキシマム・アポステリオリ・エスティメーション（最大帰納予測法）ＭＡＰおよびマキシマム・ライクリフッド・リニア・レグレッション（最尤線形回帰法）ＭＬＬＲである。
これら適合化技術の各々は、有効であることが実証されているが、幾つかの欠点がないという訳ではない。一般に言って、より有効な適合化技術は相当の計算資源を必要とするとともに個々の話者に相当の訓練の労力を要求する傾向がある。
【０００５】
【特許文献１】
特開平１０−２０７４８５号公報。
【特許文献２】
特開平１１−０６５５８９号公報。
【特許文献３】
特開２０００−０８１８９３号公報。
【非特許文献１】
安居院猛ほか，“画像の処理と認識”，昭晃堂，ｐ．９０−９２，１９９２年１１月２５日。
【非特許文献２】
Ｃ．　Ｊ．　Ｌｅｇｇｅｔｔｅｒ　ｅｔ　ａｌ．，　”Ｍａｘｉｍｕｍ　ｌｉｋｅｌｉｈｏｏｄ　ｌｉｎｅａｒ　ｒｅｇｒｅｓｓｉｏｎ　ｆｏｒ　ｓｐｅａｋｅｒ　ａｄａｐｔａｔｉｏｎ　ｏｆ　ｃｏｎｔｉｎｕｏｕｓ　ｄｅｎｓｉｔｙ　ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　ｍｏｄｅｌｓ”，　Ｃｏｍｐｕｔｅｒ　Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ，　Ａｃａｄｅｍｉｃ　Ｐｒｅｓｓ　Ｌｉｍｉｔｅｄ，　Ｎｏ．　９，　ｐｐ．１７１−１８５，　１９９５。
【０００６】
【発明が解決しようとする課題とそのための手段】
本発明は話者および環境適応を実施するために全く新しい技術をもたらすものである。本技術は各新しい話者について多量の訓練データを要求することなく、最初の話者独立認識システムが新しい話者および新しい音響環境に関し迅速に実用レベルを達成することを可能にする。この技術は、“固有声適応（適合化）”と称される。本技術は、オフラインステップにおいて、話者依存モデルの多くの集合が主成分解析（ＰＣＡ）によって分析され、“固有声ベクトル（ｅｉｇｅｎｖｏｉｃｅｖｅｃｔｏｒｓ）”もしくは“固有声（ｅｉｇｅｎｖｏｉｃｅｓ）”と呼ばれる固有ベクトルのセットを与える。このオフラインステップは一回だけ実行されるに過ぎないといえども、計算上かなり集中的である。その後、音声認識システムが用いられる毎に、新しい話者から得られる適合化データに関し軽い計算操作が実行され、固有声で張られた空間内のベクトルを得る。この新しいベクトルは、新しい話者の適応モデルを与える。
【０００７】
ＭＡＰおよびＭＬＬＲのようなモデル適合化技術とは相違して、ＰＣＡステップでは、重い計算の大部分はオフラインで行われる。このことは、本発明が音声認識システムが用いられると、話者もしくは環境適応をきわめて迅速にかつ少ない計算負荷で実行することを可能にする。
【０００８】
本発明の有効性の一部は、訓練話者の集合的セットと認識システムが適合化されるべき個々の新しい話者についての固有声表現からくるものである。換言すれば、ＰＣＡステップの間に得られる固有空間は、全ての訓練話者の集合的音声特徴を表現する。このｎ次元の空間を定義する個々の固有ベクトルは各々非相関であるか直交しており、データ中の変化を表わす重要度の順序にリストされている。我々の経験では、この配列における最高次の固有ベクトルは男性−女性次元である。この固有ベクトルは正の重みを受取ると話者はおそらく男性であり、固有ベクトルが負の重みを受取ると、話者はおそらく女性である。しかしながら、個々の固有ベクトルは話者間の身体的な相違に対してアプリオリに割当てられるものでないことが理解されるべきである。むしろ、固有ベクトルはＰＣＡが実行される訓練データから全的に派生するものである。
【０００９】
適合化の間、新しい話者が音声認識装置を用いると、モデルの出力パラメータは予め決定した固有声の線形結合となるように制約される。換言すれば、新しい話者について訓練される話者依存モデルは訓練話者によって先に定義された固有声空間内に存在しなければならない。これは、比較的軽い計算操作である。本技術は、僅かの量の適合化音声しか用いられない場合でも、良好な話者依存モデルを生成する。
【００１０】
本技術は、多量の適合化データが利用できないような話者および環境適合化用途に用いることができる。例えば、本技術は、新しい話者がシステムの操作に関する指示メッセージに電話で応答し、システムは話者がシステムを通じてある注文を出すように操作する音声で動作する相互マーケティングシステムによって良好に働くであろう。
【００１１】
より詳細には、本発明は、固有声で張られた空間内に新しいベクトルを配置するための最尤技術（最大尤度）を採用する。最尤技術は、新しい話者からの観測データおよび隠れマルコフモデルを構築するのに用いる知識に基づいて補助関数を生成することを含む。補助関数を用いて最尤ベクトルの微分を取り、極大値を見出すことにより得られる。この最尤ベクトルはこのようにして固有声によって張られた空間内に必然的に制約されるとともに、利用できる入力音声データを与えた新しい話者について上記空間内における最適表現を表わす。
【００１２】
本発明によって採用された最尤技術は多くの重要な利点を与える。第１に、最尤ベクトルから構築された適応モデルは、与えられた観測データの品質に応じてＨＭＭモデルの最適なセットを常に生成する。
【００１３】
第２に、最尤技術はある計算を伴うが、計算の負荷は固有声表現が個人の音声を記述するのに必要なパラメータの数を劇的に減少することができるために極めて軽い。典型的な隠れマルコフモデル表現は浮動小数点表記された数値のパラメータを数千個必要とするにも拘らず、本発明の固有声表現ははるかに少ない数のパラメータを必要とするにすぎず、システムはより少ない数のパラメータでも動作するが、典型的な例では、ある話者を表わすのに２５−１００個のパラメータを用いる。計算上の負荷は、本発明によれば、固有ベクトルが直交しており、したがって実行されるべき最大尤度計算は計算機がきわめて容易に計算できる線形方程式のセットを解くことによって達成されるということから、相当に軽減される。
【００１４】
第３に、観測データは隠れマルコフモデルによって予め記述された各々のかつ音声単位ごとの例を含まなければならないことはないことである。即ち、最尤技術は、幾つかの音声単位についてのデータが欠けている場合においても働く。対照的に、投影操作を用いて固有空間内に新しい話者のパラメータを配置するためには、隠れマルコフモデルによって予め記述された各々のかつ音素単位ごとに少なくとも１つの例を話者が発生することが必要とされる。実際的に言えば、最尤技術は、非常に短期で多分不完全な訓練セッションに基づいても確固とした適合化モデルの構築を可能にする。
【００１５】
本技術は、多量の適合化データが利用できないような話者および環境適合化用途に適用できる。例えば、本技術は、新しい話者がシステムの操作に関する指示メッセージに電話で応答するとともに、話者がシステムを通してある注文を行うよう操作するとシステムが自動的に新しい話者に適応する音声で動作する相互マーケティングシステムにおいて良好に作動する。
【００１６】
本発明、本発明の目的と利点をより完全に理解するため以下の詳細な記述と添付の図面を参照されたい。
【００１７】
【発明の実施の形態】
本発明の話者適応技術をより良く理解するためには、音声認識システムの基本的な理解が有用である。現在の大部分の音声認識装置は、音声を表わすため、隠れマルコフモデル（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ；　ＨＭＭ）を採用している。隠れマルコフモデルは状態ダイアグラムを含むモデル化技法である。いかなる音声単位（文節、単語、副単語（ｓｕｂｗｏｒｄ）、音素等）も、そのモデルに包含される全ての知識資源を用いてモデル化される。ＨＭＭは不連続な間隔で観測しうる出力のシーケンスを生成する未知のプロセスを表わし、出力は有限のアルファベット（音声単位の所定のセットに対応する）の要素である。これらのモデルは、生成された観測可能な出力を生成した状態シーケンスが未知であるため“隠れ（ｈｉｄｄｅｎ）”と呼ばれる。
【００１８】
図１に示されるように、ＨＭＭ１０は状態のセット（Ｓ１，Ｓ２，…、Ｓ５）と、図１では矢印で表わされた対の状態間の遷移を定義するベクトルと、確率データの集合とで表わされる。特に、隠れマルコフモデルは遷移ベクトルに関連する遷移確率１２のセットと、各状態における観測出力に関連する出力確率１４のセットを含む。このモデルはある１つの状態からいま１つの状態に規則的な間隔の離散間隔で計時される。クロック時間において、モデルは現在の状態から遷移ベクトルが存在する他の状態に変化する。図示されているように、遷移はある与えられた状態からそれ自身に戻ることもありうる。
【００１９】
遷移確率は、１つの状態から他の状態への遷移がモデルのクロック時に起きる尤度を表わす。かくして、図１に示されるように、各遷移は確率値（０と１の間）を伴なう。ある状態を去る全ての確率の総和は１に等しい。図示の目的で、例示的な遷移確率値のセットが遷移確率テーブル１２に与えられている。実際の装置では、これらの値は、任意の状態を去る全ての確率の総和が１に等しいという制約のもとで訓練データによって生成されることが了解されるであろう。
【００２０】
遷移が起きる毎に、モデルはそのアルファベットの１要素を放出もしくは出力すると考えられる。図１に示された実施例では、音素に基づいた音声単位が仮定されている。かくして、出力確率テーブル１４に特定されている記号は標準の英語において見出される音素の幾つかに対応している。各遷移においてアルファベットのいずれの要素が放出されるかは、出力確率値もしくは訓練中に学習された機能に依存する。放出された出力は、観測のシーケンスを表わし、アルファベットの各要素はある放出確率を有する。
【００２１】
音声のモデル化において、離散的なアルファベット記号のシーケンスとは対立するものとしての連続的なベクトルのシーケンスとして出力を取扱うことが共通のやり方である。このことは、出力確率が単一の数値とは対立するものとして、連続的な確率関数として表わされることを必要とする。このように、ＨＭＭは多くの場合、１もしくはそれ以上のガウス分布からなる確率関数に依拠している。複数のガウス関数が用いられたときには、１６で示すように、複雑な確率分布を定義するため通常これらの関数は加算的に混合される。
【００２２】
単一のガウス関数として表わされるにしろ、ガウス関数の混合として表わされるにしろ、確率分布は複数のパラメータで記述される。遷移確率値（テーブル１２）と同様、これら出力確率パラメータは浮動小数点表記された数値であってもよい。パラメータテーブル１８は訓練話者からの観測データに基づいて確率密度関数（ｐｄｆ）を表わすために通常使用されるパラメータを特定する。図１において、ガウス関数１６における式によって示されるように、モデル化されるべき観測ベクトルＯについての確率密度関数は、ガウス密度Ｎが掛け合わされた各混合成分について混合係数の反復和であり、ガウス密度は平均ベクトルｎｊとケプストラム或いはフィルタバンク係数音声パラメータを表わす分散行列Ｕｊを有する。
【００２３】
隠れマルコフモデルを用いた認識装置の装備の詳細は、ある用途と、他の用途とでは大きく変わる。図１に示すＨＭＭの例は、単に隠れマルコフモデルがいかに構成されるかを単に示すためのものであり、本発明の範囲についての限定を示すものではない。この点に関して、隠れマルコフモデル化のコンセプトには多数の変化がある。以下の記述から十分に理解されるように、本発明の固有音声適合化技術は異なる隠れマルコフモデルの変形の各々並びに他のパラメータ準拠の音声モデル化システムと協働するように容易に適合させることができる。
【００２４】
固有声空間の構築
複数の訓練話者を表わすため固有空間を構築するプロセスは図２に示されている。図２では、Ｔ人の訓練話者２０が固有空間が構築されるべき訓練データの資料を与える。好ましくは相当多数の話者（１００人から２００人の程度）が訓練データを提供する。これらの訓練データは２４で示される話者依存（ＳＤ）モデルを訓練するのに用いられる。話者当り１モデルがステップ２４で構築され、各モデルは認識システムが理解できる音空間を表わす。図１に関する先の記述にしたがって、各モデルはＨＭＭのセットであり得、各音声単位について１つのＨＭＭである。このことは、図２において２６で図示されている。
【００２５】
Ｔ人の話者による全ての訓練データが各話者依存モデルを訓練するのに用いられた後、Ｔ個のスーパーベクトルのセットが２８で構築される。Ｔ人の話者の各人について１つのスーパーベクトル３０が存在する。各話者についてのスーパーベクトルはその話者についての隠れマルコフモデルのパラメータ１８の少なくとも一部に対応するパラメータ（典型的には浮動小数点表記された数値）の順序付けられたリストを含む。
【００２６】
各音声単位に対応するパラメータはある与えられた話者についてのスーパーベクトル内に含まれている。パラメータは、任意の便利な順序で構成することができる。順序は決定的ではないが、ある順序が一旦採用されると、Ｔ人の話者の全てについてそれに従わなければならない。
【００２７】
順序付けられた隠れマルコフモデルパラメータはスーパーベクトルを形成するため連結される。スーパーベクトルにどのＨＭＭパラメータが含まれるかの選択は、利用できる処理能力に依存する。我々は、ガウス関数手段からスーパーベクトルを構築することが良好な結果をもたらすことを見出した。より大きな処理能力が利用できるならばスーパーベクトルは遷移確率（図１のテーブル１２）や共分散行列パラメータ（図１のパラメータ１８）等の他のＨＭＭパラメータをも含むことができる。当然のことながら、隠れマルコフモデルが離散的な出力（確率密度と対立するような）を生成するならば、これらの出力値はスーパーベクトルを構成するのに用いることができる。
【００２８】
スーパーベクトルが各訓練話者について構築された後、主成分解析がステップ３２で実行される。Ｔ個のスーパーベクトルに関する主成分解析は、３４において、Ｔ個の固有ベクトルを与える。かくして、１２０名の訓練話者が用いられた場合には、システムは１２０個の固有ベクトルを生成する。これらの固有ベクトルは固有声空間又は固有空間と呼称する空間を定義する。
【００２９】
固有声空間を作り上げる固有ベクトルは相関されておらず、各ベクトルは異なる話者が識別できるように、異なるディメンジョンを表わしている。もとの訓練セット内の各スーパーベクトルはこれら固有ベクトルの線形結合として表わされる。固有ベクトルはデータのモデル化における重要度によって順序付けされており、第１の固有ベクトルは第２より重要で、それは第３より重要であるというようになっている。この技術を用いた我々の実験では、第１の固有ベクトルは男性−女性次元に対応するものになることが示された。
【００３０】
Ｔ個の固有ベクトルの最大値がステップ３２で生成されるにも拘らず、実際には、最初のＮ個の固有ベクトルだけを保持して、幾つかの固有ベクトルを削除することが可能である。かくして、ステップ３６では、Ｔ個の固有ベクトルからＮ個を任意に抽出し、ステップ３８において、次元数を減少させたパラメータの固有空間を構成する。より高い順序の固有ベクトルは、話者を識別するために重要度の低い情報を有しているに過ぎないので、これらのベクトルを削除することができる。訓練話者の総数より少ない次元数に固有声空間を減少させることは、制限されたメモリとプロセッサ資源を備えた実際のシステムを構築するために有効な固有データ圧縮を与えることができる。
【００３１】
適合化の実行
固有声空間が一旦構築されると、話者適応もしくは環境適応が容易に達成できる。固有空間の構築は計算が膨大で、通常オフラインで実行されるが、適合化は比較的簡単な計算演算であり、新しい話者がシステムを使用している間でも実行することができる。
【００３２】
図３を参照して、新しい話者４０からの音声はステップ４２においてＨＭＭ４４（各音声ユニットについて１個）のパラメータから統計量（以下、抽出統計量という）を計算するために使用される。
【００３３】
統計量は、訓練システムが訓練音声の内容を予め知っている管理モードもしくは音声認識システムが適合化音声の内容を決定するため話者独立モデルを用いる非管理モードのいずれでも抽出することができる。
【００３４】
抽出された統計量で構築されたモデルは、通常、少なくとも初期の段階では、音声認識に極めて不適切である。スーパーベクトルは、ステップ４６において、訓練話者によって先に生成された固有声空間３８内にスーパーベクトル４８が入るよう構築される。スーパーベクトル４８は、音声認識のために使用されるＨＭＭモデルが固有声空間３８を形成する固有声の線形結合でなければならないという強制制約のもとで構築される。
【００３５】
抽出統計量４４は、新しい話者についての適合化モデルを構成する係数の線形結合を評価するために用いられる。そして、ステップ５０では、ＨＭＭの新しいセットが適合化モデル５２を生成するためスーパーベクトルに基づいて構築される。所望とあれば、任意の反復プロセスがステップ５４において適合化モデル５２から新しいスーパーベクトルを構築し、その後、更なる適合化モデルがいま１つのＨＭＭのセットを構築するために実行される。
【００３６】
図４は、２次元空間において新しい話者の音声モデルが固有空間３８内に制約されるプロセスを図示している。上で注意したように、固有空間は主成分解析によって生成された固有ベクトルの数に等しいかそれ以下の次元数の多次元空間である。図４では、図を簡単化するため２次元の場合が図示されているが、固有空間３８は通常２よりはるかに大きい次元数である。
【００３７】
新しい話者は、データ点６０で図式的に示されている。データ点６０は図３に示すスーパーベクトル４８に対応する。６０の新しい話者は固有空間４８の外に位置していることに注目されたい。上で議論したように、適合化の手法はこの新しい話者に良い適合したモデルを表わす固有空間内の点を見出すことを含む。適合化モデルは新しい話者によって発せられた入力音声に基づいているが、固有空間３８内に存在するように制約される。
【００３８】
新しい話者を固有空間内に置くための１つの簡単な技法は、線６２で示すように、簡単な投影操作を用いることである。投影操作は、新しい話者の入力音声に対応した固有空間外の点にできるだけ近い固有空間内の点を見付け出す。このようにして、簡単な投影により、新しい話者は固有空間３８内の点６４に置かれる。これらの点はＨＭＭのセットが再構成されるスーパーベクトルであることに注意されたい。
【００３９】
投影操作は、固有空間内の点が新しい話者にとって最適であることを保証できないという点で比較的粗い技術である。更に、投影操作は、新しい話者についてのスーパーベクトルがその話者についてのＨＭＭのセット全体を表わすデータの完全なセットを含むことを要求する。この要求は相当な実際上の制限をもたらす。新しい話者を固有空間に制約するために投影を用いる場合、その話者は全ての音声単位がデータ内に表わされるように十分な入力音声を提供しなければならない。例えば、隠れマルコフモデルが英語言語の全ての音声を表現するように企画されたとすると、訓練話者は簡単な投影手法が使用される前に全ての音声を与えなければならない。種々の用途において、この制約は実際的ではない。
【００４０】
本発明の最尤手法は単純な投影の上述の欠点の両方の解決を図るものである。本発明の最尤手法は、新しい話者によって与えられた音声を生成する最大の確率を持った隠れマルコフモデルのセットに対応したスーパーベクトルを表わす固有空間３８内の点６６を見出す。図示の目的で、図４では最尤プロセスは線６８で示されている。
【００４１】
単純な投影操作はスーパーベクトルの全ての要素を等しい重要度を有するものとして取扱うが、最尤技術は実際の適合化データから派生する確率に基づいており、したがって、より確からしいデータをより重く重み付けする傾向がある。単純な投影技法とは相違して、新しい話者が訓練データの全セットを与えない（即ち、幾つかの音声単位が欠けたデータ）場合でも、最尤技術は有効に働く。最尤技術は、スーパーベクトルが構築される文脈を考慮しており、あるモデルが他よりより確からしい確率を持った隠れマルコフモデルから新しい話者によって与えられた入力音声を生成する。
【００４２】
実際的な効果として、最尤技術は、どれだけ多くの入力音声が実際に利用できるかに関係なく、新しい話者に最もコンシステントな固有空間内のスーパーベクトルを選択する。参考のため、新しい話者がアラバマ（Ａｌａｂａｍａ）生まれの若い女性であるとする。この話者から２，３のシラブルを受取ると、最尤技術は話者であるアラバマ生まれの女性のアクセントに合った全ての音素（入力音声に表わされていないものを含んで）を表わす固有空間内の点を選択する。
【００４３】
図５は最尤技術の作用を示す。新しい話者による入力音声はスーパーベクトル７０内の各パラメータについて統計量を抽出するのに使用される。上で説明したように、スーパーベクトルはケプストラム係数等に対応した音声パラメータの連鎖リストを備える。図示の実施例では、これらのパラメータは、新しい話者に対応する隠れマルコフモデルのセットから抽出されたガウス関数手段を表わす浮動少数点表記された数値である。他のＨＭＭパラメータも用いることができる。図では、これらのＨＭＭ手段は、７２で示すように、ドットとして示されている。データで十分に満たされると、スーパーベクトル７０は、ＨＭＭモデルで表わされる音声単位の各々に対応する各ＨＭＭ手段についての浮動少数点表記された数値を含む。図示の目的で、音声“ａｈ”についてのパラメータは存在するが、音素“ｉｙ”についてのパラメータは存在しないと仮定されている。
【００４４】
固有空間３８は固有ベクトル７４、７６および７８のセットによって表わされる。新しい話者からの観測データに対応するスーパーベクトル７０は固有空間内において、固有ベクトルの各々にｗ１、ｗ２、…ｗｎで指定された対応する固有値を掛け合わせることによって表わされる。これらの固有値は初期には未知である。最尤技術はこれら未知の固有値についての値を見付け出す。より詳細に説明するように、これらの値は固有空間内の新しい話者を最も良く表わす最適解をさがすことによって選択される。
【００４５】
固有値を固有空間３８の対応する固有ベクトルに掛け合わせるとともに積を総和した後、適合化モデル８０が作り出される。入力音声（スーパーベクトル７０）の抽出統計量が幾つかの欠けたパラメータ値（例えば、“ｉｙ”パラメータ）を有するかも知れないが、適合化モデルを表わすスーパーベクトル８０は全て値で満たされている。更に、スーパーベクトル８０内の値は最適解を表わす、即ち、固有空間内において新しい話者を表わす最尤度を有する。
【００４６】
個々の固有値ｗ１、ｗ２…ｗｎは最尤ベクトルからなると見なされる（以下、最尤ベクトルと呼称される）。図４は８２で図式的にベクトルを図示している。図に示されているように、最尤ベクトル８２は固有値ｗ１、ｗ２…ｗｎのセットを有する。
【００４７】
最尤技術を用いた適合化の実行手順は図６に示されている。新しい話者からの音声は１００で示される観測データを有する、統計量のセットを抽出するために使用される。抽出統計量１０２は、１０４においてスーパーベクトルを構築するのに使用される。図示の如く、抽出統計量はＨＭＭモデル１０２のセットを構築するのにも用いることができる。
【００４８】
スーパーベクトル１０６を用いて、１０８において補助関数Ｑが形成される。本実施例では、ＨＭＭモデル１０２の所定のセットについて観測データを生成する確率を表わす補助関数を採用している。補助関数Ｑの相続く計算は、関数が確率項Ｐのみならずその項の対数ｌｏｇＰをも含む場合には、より容易に行える。
【００４９】
補助関数は、ステップ１１０において固有値ｗ１、ｗ２…ｗｎの各々について個々に補助関数の微分をとることによって最大化される。例えば、固有空間が１００次元である場合、このシステムは補助関数Ｑの１００個の微分を夫々零とおいて計算し、各ｗについて解く。これは、大変な計算のように見えるが、従来のＭＡＰもしくはＭＬＬＲ技術で通常要求される数千の計算を実行するのに比べてはるかに計算上経済的である。
【００５０】
このようにして得られたｗのセットは、最尤点に対応する固有空間内の点を特定するために必要な固有値を表す。このｗのセットは、したがって固有空間内の最尤ベクトルをなす。この関係で、固有ベクトル（図５の固有ベクトル７４，７６および７８）の各々は直交ベクトルのセット又は固有空間内に制約された点を定義するため固有値に掛け合わされる座標を定義する。ステップ１１２において示されるように、最尤ベクトルは固有空間における最適点（図４の点６６）に対応するスーパーベクトル１１４を構築するために使用される。スーパーベクトル１１４は、次いで、ステップ１１６において、新しい話者についての最適化モデル１１８を構築するために用いられる。
【００５１】
本発明の最尤フレームワークの論理において、モデルλに関して観測値Ｏ＝ｏ１、…、ｏＴの尤度を最大化する。これは、補助関数Ｑ（下記の）を繰返し最大化することによって実行され、ここでλは繰返しにおける現在モデルでありλ＾は推定されたモデルである。
【００５２】
【数１】

【００５３】
予備的な近似として、手段に関してのみ最大化を実行する。確率ＰがＨＭＭのセットによって与えられる論理において、以下の式を得る。
【００５４】
【数２】

【００５５】
ここで、
【数３】

および、Ｏ_ｔを時刻ｔにおける特徴ベクトル、
Ｃ_ｍ ^{（ｓ）−１}を状態Ｓの混合ガウス関数についての逆分散、
μ^＾ _ｍ ^（ｓ）を状態Ｓ、混合成分ｍについて近似された適合化平均、
γ_ｍ ^（ｓ）（ｔ）をＰ（混合ガウス）関数ｍを用いた｜λ、Ｏ_ｔとする。
【００５６】
新しい話者のＨＭＭについてのガウス関数手段が固有空間内にあると仮定する。この空間が平均スーパーベクトル／μ_ｊ（ｊ＝１、…Ｅ）で張られているとする。
【００５７】
【数４】

【００５８】
ここで、／μ^（ｓ） _ｍ（ｊ）は固有ベクトル（固有モデル）ｊの状態Ｓにおける混合ガウス関数についての平均ベクトルを表わす。
【００５９】
次に、以下のものが必要である。
【００６０】
【数５】

【００６１】
／μ_ｊは直交しており、Ｗ_ｊは本話者モデルの固有値である。いかなる新しい話者も観測話者によるデータベースの線形結合としてモデル化可能であると仮定する。
【００６２】
次いで、λの状態におけるＳ，Ｍの混合ガウス関数におけるｍを用いて
【数６】

【００６３】
Ｑを最大化する必要があるので、ここでは単に以下のようにセットする。
【００６４】
【数７】

【００６５】
（固有ベクトルは直交しているので∂ｗ_ｉ／∂ｗ_ｊ＝０，ｉ≠ｊ…であることに注目すべきである。）
【００６６】
したがって、以下の式を得る。
【００６７】
【数８】

【００６８】
上記の微分を計算して以下の式を得る。
【００６９】
【数９】

【００７０】
これより、線形方程式のセットを見出すことができる。
【００７１】
【数１０】

【００７２】
環境適応
話者適合化技術として本発明を記述してきたが、本技術は環境適応に容易に拡張することができる。多くの音声認識システムは、マイクロホンの置き方、室の音響、背景雑音、音声信号チャネル品質等の環境条件にきわめて敏感である。固有ベクトルは、丁度異なる話者をモデル化するのに使用されるのと同様に、異なる話者環境をモデル化するのに使用することができる。
【００７３】
多くの事例において、話者適応と環境適応の両方の要求を満足することが望ましい。これを達成するためには、訓練話者が広汎な種々の環境下で記録されることを単に保証すればよい。良好な性能を得るために、訓練話者の数や固有音声の保持される数は静かな環境下における固有声適合化に必要なものより大きいことが必要である。でなければ、手順は上に述べたのと同じである。
【００７４】
話者ではなくて、環境に適応する話者独立システムを構築するためには、上記の技術の僅かな変更が用いられる。まず、Ｅ個の話者独立モデルを訓練する。ここで、Ｅは訓練データにおける異なる環境の数である。理想的には、Ｅ個の異なる記録環境はできるだけ種々である。固有声手順は上に記述した通り実行される。この場合、固有声ベクトルは環境間の変化の成分を表わす。したがって、第１の固有ベクトルは、例えば話者適応の場合のように、男性−女性次元を表わすかも知れないし、表わさないかも知れない。
【００７５】
本発明は、現在の好ましい実施例に関して記述されたが、本発明は種々の異なる用途に適合化しうることが認識されるであろう。従って、先に説明した事例は添付の請求の範囲に対する制限を与えるものではなく、本発明のコンセプトを示すために意図されたものであるにすぎない。
【図面の簡単な説明】
【図１】本発明を理解するのに有用な隠れマルコフモデル（ＨＭＭ）の一例を示す。
【図２】複数の訓練話者から固有空間を構築する方法を図示するデータフローダイアグラムである。
【図３】本発明にしたがって固有声を用いて適合化モデルが構築される方法を図示するデータフローダイアグラムである。
【図４】本発明の最尤操作で投影操作を示す、固有空間の簡単な（２次元の）図示例である。
【図５】新しい話者による観測データが、本発明にしたがった適合化モデルに固有空間を通じて変換される方法を図示するデータ構造のダイアグラムである。
【図６】本発明の最尤固有空間適合化プロセスを示すフローチャートダイアグラムである。
【符号の説明】
２０…Ｔ話者、　２２…訓練データ、　２４、４２…ＳＤモデルの訓練、　２８…Ｔスーパーベクトルの構成、　３２…主成分分析の実行、　３４…Ｔ固有ベクトル、　３６…Ｔ固有ベクトルのうちのＮ個の任意抽出、　３８…Ｎ固有ベクトル、　４０…新しい話者、　５０…スーパーベクトルに基づきＨＭＭの新しいセットを構成、　５２…適合化モデル、　５４…更なる適合モデルに対して任意の繰返し、　１００…ＨＭＭの構成、　１０４…スーパーベクトルの構成、　１０８…補助関数Ｑの構成、　１１０…最大尤度の検出、　１１６…適合化モデルの構成。

Claims

話者適応を実行する適合化方法であって、
複数の訓練話者に対して複数の話者モデルのセットを提供するステップと、
上記複数の話者モデルのセットから、複数のスーパーベクトルのセットを、各スーパーベクトルが上記複数の訓練話者の一人と相関するように構築するステップと、
上記複数のスーパーベクトルのセットに対して主成分解析を実行することにより、上記複数の訓練話者を表現する固有空間を定義する複数の固有ベクトルのセットを生成するステップと、
新しい話者から入力音声を受信するステップと、
上記新しい話者からの上記入力音声から適合化モデルを生成し、かつ上記複数の固有ベクトルのセットを用いて上記適合化モデルが上記固有空間内に存在するように上記適合化モデルを制約するステップとを含むことを特徴とする適合化方法。
与えられた話者に関連付けられた上記複数の話者モデルからの複数のモデルパラメータを連結することによって上記与えられた話者に関するスーパーベクトルを構築するように、上記各話者モデルは１つ又は複数のモデルパラメータを定義することを特徴とする請求項１記載の方法。
上記与えられた話者に関する各話者モデルは異なる音声単位に対応することを特徴とする請求項２記載の方法。
上記主成分解析を実行するステップは、上記訓練話者の数に等しい数の固有ベクトルのセットを生成することをさらに含むことを特徴とする請求項１記載の方法。
上記主成分解析を実行するステップは、複数の固有ベクトルの順序付けされたリストを生成することと、上記順序づけされたリストの予め決められた部分を削除して上記固有空間の次元数を減少させることをさらに含むことを特徴とする請求項１記載の方法。
上記適合化モデルを制約するステップは、上記入力音声を上記固有空間へ投影することによって実行されることを特徴とする請求項１記載の方法。
上記適合化モデルを制約するステップは、最大尤度ベクトルを使用することをさらに含むことを特徴とする請求項１記載の方法。
話者適応を実行する適合化方法であって、
複数の訓練話者に対して複数の話者モデルのセットを提供するステップと、
上記複数の話者モデルのセットから、複数のスーパーベクトルのセットを、各スーパーベクトルが上記複数の訓練話者の一人と相関するように構築するステップと、
上記複数のスーパーベクトルのセットに対して主成分解析を実行することにより、上記複数の訓練話者を表現する固有空間を定義する複数の固有ベクトルのセットを生成するステップと、
新しい話者から入力音声を受信するステップと、
上記入力音声に基づいて最大尤度ベクトルを生成するステップと、
上記複数の固有ベクトルのセットと上記最大尤度ベクトルとを使用することによって適合化モデルを生成し、上記適合化モデルが上記固有空間内に存在するように上記適合化モデルを制約するステップとを含むことを特徴とする適合化方法。
上記最大尤度ベクトルを生成するステップは、
予め定義されたモデルのセットに対して、上記入力音声によって供給される観測データが生成される確率を表す補助関数を定義することと、
上記補助関数を最大化して上記最大尤度ベクトルを求めることとを含むことを特徴とする請求項８記載の方法。
上記適合化モデルは、上記最大尤度ベクトルに上記複数の固有ベクトルのセットを乗算することによって制約されることを特徴とする請求項９記載の方法。
上記最大化するステップは、
上記最大尤度ベクトルを複数の固有値変数のセットとして表すことと、
上記複数の固有値変数に関して上記補助関数の１次微分を計算することと、
上記１次微分がゼロに等しいとしたときに、上記複数の固有値変数の対応する値を求めることとによって実行されることを特徴とする請求項１０記載の方法。