JP2004199077A

JP2004199077A - 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法

Info

Publication number: JP2004199077A
Application number: JP2003421285A
Authority: JP
Inventors: Jean-Francois Bonastre; ジャン−フランソワ・ボナストル; Philippe Morin; フィリップ・モラン; Jean-Claude Junqua; ジャン−クロード・ジャンカ
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-12-18
Filing date: 2003-12-18
Publication date: 2004-07-15
Also published as: US20040122672A1; EP1431959A3; CN1514432A; EP1431959A2

Abstract

【課題】ガウス動的時間伸縮法は、音響パターンを表す階層的な統計モデルを提供する。
【解決手段】このモデルの第１層は、一般的な音響空間を表し、第２層は、各話者空間を表し、第３層は、各登録音声発声に含まれる、等間隔に時間間隔に基づいた時間構造情報を表している。これら３つの層は、階層的に作られ、第２層は、第１層から抽出され、第３層は、第２層から抽出される。このモデルは、音声処理分野で有用であり、特に、検索認識モードを用いた、単語と話者の認識のような分野で有用である。
【選択図】図１

Description

本発明は、広く、音声処理分野の中で、音声を表現するモデルに関する。さらに特化して、本発明は、文章に依存しない統計的な音響空間のモデル化と、時間シーケンスのモデル化の両方を有利に利用して、従来の統計的なモデル化技法よりも非常に少ない登録データを持った検索モードを含む、音声と話者の自動認識アプリケーションを支援するためのモデル化システム及び方法を生み出すモデル化技法に関する。

音声のモデル化技法は、現在では、音声認識から話者検証／識別まで多様な範囲の分野で広く使用される。今日では、殆どのシステムは、隠れマルコフモデル（ＨＭＭ）を使用して、語彙が多くて連続的な音声認識の難しい問題に対処している。隠れマルコフモデルは、音声を一連の状態として表現し、そこでは各状態は、別々の音の単位に対応している。使用前に、一組の隠れマルコフモデルが、人間の音声の実例から作られるが、その素性は知られたものである。調整の時には、統計的な分析が行われて、隠れマルコフモデルの中に記憶するべき確率データが生成される。これらの確率データは、予め定められた状態遷移モデル（ＨＭＭモデル）の中に記憶されるが、この中には、一つの状態から次の状態へ渡る可能性や、所定の音の単位が各状態で作られる可能性が記憶される。典型的には、可能性データは、平均値および／または分散値および／または重み付けパラメータなどのガウスパラメータを表す浮動小数点数として記憶される。

隠れマルコフモデルに基づく認識システムは、調整用の機材が必要であるために非常に高価である。それらは、認識システムに、メモリの厳しい要求とプロセッサ速度の要求を付ける。加えて、従来の隠れマルコフモデルは、通常、実際の入力音声（すなわち認識のために試験されるべき信号の一部）と背景雑音（すなわち無視すべき信号の一部）を区別するのに、終了点の検出の形式で、余分な前処理を必要とする。

動的時間伸縮法（ＤＴＷ）と呼ばれる別の手法が、少量の登録データが利用可能な場合に、しばしば使用される。動的時間伸縮法処理は、それまでに定型化されたモデルと入力シーケンスの間の“最廉価な”配置構造を探すように努める。典型的には、そのようなモデルは、入力調整用音声を入手して、その音声を等しい大きさのフレームに分解して、各フレームを、ケプストラム（cepstral）処理あるいは高速フーリエ変換処理のような既知の様々な処理技法の一つを通して、一組の音響ベクトルとして表す。使用時には、入力試験用音声は、音響ベクトルを抽出して、各時間フレームに対して点数を計算することによって、フレーム毎に処理される。ペナルティ（penalty）は、挿入誤りと削除誤りに対して割り当てられ、総合点数が最も低いシーケンスが、最良の組合せとして選ばれる。

動的時間伸縮法は、音声の発声の時間的シーケンスを追跡するのに役立つ。それらは、隠れマルコフモデルに比して、少量の調整用データしか必要とせず、本質的に音声の時間構造情報（Temporal Structure Information ＝ＴＳＩ）を考慮する。

しかし、動的時間伸縮法システムは、重要な欠点を持っている。対象となる事象にばらつきが多くある場合には、うまく動作しない（例えば、位置決定すべき対象とする言葉）。ＤＴＷシステムは、新しい状況に適合するのも難しい。そのような訳で、ＤＴＷシステムは、状況が比較的安定しているときに、検索をするような応用分野を含めた、言葉と音声の認識に対して効果的に使用することができる。ＤＴＷシステムは、対象とする事象（言葉や話者）に大きなばらつきがある時や、遭遇した環境に大きなばらつきがある時には、あまり適さない。

ガウス混合モデル（Gaussin Mixture Model ＝ＧＭＭ）と呼ばれるものを用いた、３番目の種類のモデル化システムが、話者の認識／識別を行わなくてはいけないときに、しばしば用いられる。ガウス混合モデルは、本質的に、単一状態の隠れマルコフモデルである。入力調整用音声は、フレーム毎に得られ、音響ベクトルによって（例えば、ケプストラム処理や高速フーリエ変換処理を適用して）一組の音響ベクトルとして表される。話者の調整用音声の多数の実例から取られた音響ベクトルは、集められて、その話者を表す単一混合モデルを作るために結合される。不運なことに、このモデル化処理によって、全ての時間情報が捨てられる。こうして、フレームからフレームへ自然に現れる時間構造（ＴＳＩ）に関連した情報が、失われる。

先述したモデル化システムのそれぞれには、選ばれた音声の応用分野で活躍の場があるが、特に話者の識別／検証のための高性能、あるいは言葉検索分野に対しての高性能が必要となる分野において、本格的な隠れマルコフモデル化システムに関連する大量の調整用材料無しに改良をする大いなる余地が残されている。本発明は、時間シーケンスをうまくモデル化したり、またばらつきをうまく扱ったりする、類の無い新しいモデル化システムを通して、上記のような改良を提供し、音響空間における変化を容易に調整される。

本発明は、我々がガウス動的時間伸縮法（ＧＤＷ）と呼ぶところの、新しい音声モデル化技法を提供する。ＧＤＷ音声モデル化によって、音響空間を表す上位層と、話者空間を表す中間層と、登録音声の時間構造を表す下位層とを、等間隔の時間間隔あるいはフレームに基づいて提供される。これら３つの層は、階層的に作られている、つまり中間層は上位層にリンクし、下位層は中間層にリンクしている。

他の側面から見ると、本発明は、上位層の音響空間モデルが複数の話者から構築されるようなＧＤＷ音声モデルを構築するための方法を提供する。そして、中間層の話者モデルは、各話者（あるいは話者のグループ）に対して、この話者（あるいは話者のグループ）に関連する登録音声を用いた音響空間モデルからから構築される。下位レベルＴＳＩ（時間構造情報）モデルは、各対象の事象に対して、順番に、この事象に対応する利用可能な登録音声に関連する各時間間隔を表すことによって構築される。対象の事象は、単語（あるいは短い句）によって構成され、単語自身（単語認識分野）あるいはその組合せ（単語、話者の素性）（暗証番号を元にした話者認識分野）であり得る。ある対象の事象に関連するＧＤＷ音声モデルは、３つの階層的にリンクされる要素である、音響空間モデルと話者モデルとＴＳＩ（時間構造情報）モデルによって構成される。

他の側面から見ると、音響空間モデルが、複数の話者から得た複数の発声から構築されるような音声モデルを構築するための、一般的な方法を提供する。そして話者モデルは、一人の話者あるいは話者のグループからの登録データを用いて、音響空間モデルを適合することによって構築される。そして時間構造情報モデルは、対象の事象に関連する、音響空間モデルと話者モデルと登録音声とから構築される。

本発明とその目的と利点をさらに理解するために、明細書の以下と添付の図面を参照されたい。

本発明は、詳細な説明と添付の図面とから、より良く理解することができるだろう。

実施形態の以下の説明は、単に、現実的な例であり、決して、本発明や、その応用分野や、使用法を制限するものではない。

〔ガウス動的時間伸縮モデル〕
実施形態のシステムと方法の中心には、階層的に作り上げたモデルがあり、ガウス動的時間伸縮（ＧＤＷ）モデルと呼ばれる。以下により詳細に説明されるが、このモデルは、統計的な音響空間情報と、統計的話者空間情報と、登録音声に関連した統計的時間構造情報とに基づいている。こうして、ＧＤＷ音声モデルは、音声システムが作り上げられる環境に関連する音響空間についての情報を得る。ＧＤＷモデルは、登録音声を提供する話者の音声上の特徴についての情報も得る。最後に、ＧＤＷモデルは、時間構造情報と登録音声自身の音声内容につての情報を得る。後者の点について、“sports car”のような登録音声は、“Mississippi”や“carport”からとは、明らかに異なったＴＳＩパターンを持っている。

ＧＤＷ音声モデルの類のない一つの側面は、音響空間にも話者空間情報にも使用するガウスパラメータを、各時間的セグメントに対して別々に変更することで、この時間構造情報がモデル化されることである。好ましくは、或る時間セグメントに対して、ほんのいくつかパラメータが選択され変更される。本実施形態では、（ＧＤＷモデルの）上位層のガウス音響空間のばらつき情報と、ＧＤＷモデル中間層のガウス平均パラメータと話者関連情報、およびガウス混合モデルを策定するのに使用するＧＤＷモデル下位層の重み付けと時間シーケンス情報を説明している。

図１は、ＧＤＷ法の一般原則を示している。図示されるように、ＧＤＷモデルは、音響空間についての先験的な知識１０と、時間構造情報（時間的制約）についての先験的知識１２とを得る。音響空間の先験的知識１０は、統計的音響空間モデル化システム１４へ入力され、このシステムは入力として音響データ１６も受信する。音響データ１６は、調整中と試験期間中（すなわち使用中）に与えられる登録データを表すか、それから抽出される。

時間的制約の先験的知識１２は、同様に、時間的制約処理システム１８に入力される。時間的制約処理システムは、動的時間伸縮法（ＤＴＷ）アルゴリズムを用いるが、これは以下により詳細に説明される。一般的に、時間的制約処理システムは、登録の調整中と試験中（すなわち使用中）の両方に使用される時間シーケンス情報（ＴＳＩ）を定義する。

システム１４と１８のそれぞれの出力は、統計的音響空間モデル化システム１４と時間的制約処理システム１８の間の情報の交換と関連を管理する責任を持つＧＤＷコアシステム２０に与えられる。ＧＤＷコア２０は、究極的にＧＤＷモデル２０を構築し管理する。

ＧＤＷモデルは、３つの階層構造の層から成る。上位層において、モデルには、全体的な音響空間と全体的な記録状況を記載する背景モデル（ＢＭ）と呼ばれる一般的な音響空間モデルが含まれる。階層的に背景モデル３２に関連するのは、中間レベル３８を備える、話者モデルの組である。この層の各モデルは、話者特有の音声特性（ある話者または話者のグループに対する）を表しており、以下で符号Ｘで象徴的に参照される。

話者モデル３８は、話者（あるいは話者のグループ）の全体的な音響空間を記載した音響モデルである。それは、背景モデルから抽出される（従って、階層的関係）。ＧＤＷモデルの下位の階層要素は、時間構造情報モデルであり、ＴＳＩモデルを表す。この層のＴＳＩモデル４２は、フレームに従属する一組のモデルによって、連続的な順番で構成される。対象の事象の各フレームｎに対して、フレームに従属する対応するモデルはＸｎと表され、対応するＸモデルから抽出される。

上記のモデルの層の階層的関係と、これら階層的な層に記憶される情報の性質とによって、ＧＤＷモデルは、非常に豊かで小型で丈夫になる。言い換えると、これによって、ＧＤＷモデルに基づいた音声処理システムは、対象の事象と環境の潜在的に大きなばらつきの下で、言葉の認識と話者の認識（両方とも検索モードで）を実行することができるようになる。以下においてより詳細に示されるが、音響空間情報（典型的には雑音が変動する環境下で複数の話者から作られる）が、話者Ｘのモデルを構築する際に使用される。Ｘモデルは、登録話者（あるいは話者のグループ）についての情報を得るが、その情報は、音響空間モデルの変更としてＸモデル内でモデル化され、その結果、背景モデルからの音響空間情報も、少なくとも部分的に保持される。同様に、Ｘモデルが、対応する時間構造情報（ＴＳＩ）モデルを構築するのに使用される。ＴＳＩモデルは、フレームに従属する一組のモデルによって構成され、その結果、フレームに従属するモデルは、特定の対象とする事象の発声についての時間情報を得、一方、話者モデルＸと背景モデルＢＭからの残った情報は残す。

〔ＧＤＷモデルの調整〕
図２と図３は、ＧＤＷモデルを調整するための、本実施形態の手続きを示している。モデルが調整される様子を理解することで、ＧＤＷモデルの性質と多くの利点とを、より深く理解するであろう。

図２を参照すると、複数の話者からのデータは、３０で集められて、背景モデル３２を構築するのに使用される。多数の話者音響データ３０は、様々な異なる発声から、様々な異なる背景雑音条件下で抽出されるだろう。背景モデル３２は、様々な異なる統計的音響モデル化技法を用いて構築することができる。本実施形態では、音響データ３０は、高速フーリエ変換（ＦＦＴ）あるいはケプストラム技法を用いて、一組の音響ベクトルを抽出するために入手し処理される。そして音響ベクトルは、音響データを得る間に使用された条件で、話者の数で定義される音響空間を表す音響モデルを作るために、統計的に分析される。この観点から、音響空間という用語は、データの得られる物理的空間ではなく、音響データによって広がる抽象的な数学的空間を表すものである（物理的空間の周囲の残響特性と背景雑音は、音響空間に影響を持つが）。

本実施形態において、音響データ３０の何らかの適切な音響モデル化の表現を使用することができる。例えば、ガウス混合モデルＧＭＭあるいは隠れマルコフモデルＨＭＭを使用することができる。ＧＭＭとＨＭＭのどちらを選択するかは、利用可能な先験的な音響知識の量によって決まる。もし大量に利用可能ならば、ＨＭＭモデルが好ましいであろう；が、もし少量のデータが利用可能ならば、ＧＭＭモデルが好ましいであろう。いずれの場合も、モデルは、従来のやり方で調整され、好ましくは期待値最大化アルゴリズムを用いるのが好ましい。モデルを調整するのに、最大尤度基準（maximum likelihood criterion）を使用して、最適化基準を達成することができる。

背景モデルのために、音響空間全体を表すのに、モデルは、典型的には、数百のガウス成分（component）から成る。もし背景モデル（ＢＭ）のためにガウス混合モデル（ＧＭＭ）が選ばれると、使用する確度（likelihood）パラメータは、各パラメータが与えられて、フレームの確度の重み付けした平均値であり、ここで、ある成分は、対応する平均ベクトルと共分散行列とによって表される。こうして、ＧＭＭを元にした背景モデルのために、確度が下記の式１に従って定義される。

ここで、ｙは音響ベクトルであり、ＧはＧＭＭであり、ｇはＧの成分の数であり、ｗ_ｉはｉ番目の成分の重みであり、μ_ｉは成分の平均値であり、

は、成分の（対角線）共分散行列であり、Ｎ（）は、正規確率密度関数（normal probability density function）である。

ＨＭＭを元にした背景モデルに対して、確度（likelihood）パラメータは、ＨＭＭの対応する状態を与えられた、入力フレームの確度であり、これは、式１を用いて確度を計算することのできるようなＧＭＭモデルである。しかし、この場合、入力フレームのシーケンスに対応する、状態の最良のシーケンスを決定するのに、ビタビ復号が適用される。

背景モデル３２を作った後に、音響データ３４が、登録する話者から得られる。

音響データ３４は、３６において、背景モデルを適合させて、それによって話者モデルＸを３８に示したように構築するのに使用される。様々な異なる適合技法を使用することができるが、本実施形態は、機能的最大（Maximum A Posteriori ＝ＭＡＰ）適合を使用する。本実施形態において、混合成分のガウス平均パラメータのみが、適合される。

今までの段階で、背景モデル（ＢＭ）が構築された。このモデルは、本質的に、システムが使用する環境についての音響情報を含んでいる。このモデルから抽出して、話者モデル（Ｘ）は、環境情報を残し、それに、登録に参加した各特定の話者についての情報を加える。次に説明をするが、最後の処理段階は、或る対象とする事象に対応する各文に関連した時間シーケンス情報を、話者モデル（Ｘ）に加える。

時間構造情報をＧＤＷモデルに符号化する最終処理段階が、図２に示されており、段階４０から始まって図３に至る。段階４０において、ＧＤＷＴＳＩモデルは、登録の繰り返しごとに、対応する話者モデル３８から構築される。ＴＳＩモデルは、一つのフレームに対して一つのモデルから成っていて、これは図２の４２に示されている。これらのモデルは、ガウス重み成分を適合させることによって、話者（Ｘ）モデルから抽出することができる。下記の式２は、ＭＡＰ適合アルゴリズムを使って、重み成分が適合される様子を示している。重みのＭＡＰ適合は、直接補間法（direct interpolation strategy）を用いて実施できる。

ここで、

Ｘからデータ部分集合ｙを用いて抽出した状態／フレームｎのｉ番目の成分の最終（適合済み）重みであり、

は、部分集合ｙ上で計算した対応する重み推定値であり、

は、前の情報として使用されるモデルＸのｉ番目の重みであり、αは、適合因子である。

或る対象とする事象に対する最初の一組のＧＤＷＴＳＩモデルを作った後（対象とする事象に対応する登録の各繰り返しに対して一つのＴＳＩモデル）、一つの交差距離行列（cros distance matrix）４２が計算される。この行列は、各ＴＳＩモデル４２と音響データ３４の登録の各繰り返しとの間の全ての距離を表している。それを行った後、各ＴＳＩモデルと登録の繰り返しの組との間の平均距離が計算されて、最小平均距離のＴＳＩモデルが、最良の、あるいは“中央モデル”として選択される４８。

一度、中央モデルが作られると、モデルをより改良するために、この対象とする事象にリンクする登録音声全てに、追加の適合が実行される。こうして、モデル適合が、段階５６において実行される。この適合は、中央モデル５２を音響データ３４と合わせ、その後、図示されるように適合を一回あるいは繰り返して何回か実行することによって実施することができる。その結果は、希望する音声処理分野において、対応する対象の事象に対してＴＳＩモデルとして使用することのできる、適合済み中央モデル５８となる。

〔ＧＤＷモデル化と従来のモデル化の比較〕
ＧＤＷ技法には、図４に示す３層の階層モデル化が含まれる。上位層は、背景モデル（ＢＭ）レベル３２である。中間層は、ＢＭから抽出した話者（Ｘ）モデル３８を備える。下位レベル層は、一組のフレームで決まるモデル４２から出来ている、言い換えると対応するＸから抽出される時間構造情報（ＴＳＩ）モデルを備えている。このＴＳＩモデルは、或る文の音声内容と時間構造情報の両方を備えている。中間層の一つの例及び下位層の一つの例と結びついた上位層の一つの例が、ＧＤＷの対象の事象のモデルを構成する。

図４は、対応する音響空間が、これら３つの層の中で具現化される様子を示している。６０で示されるように、背景モデル（ＢＭ）によって広がる音響空間には、話者達のそれぞれの音響空間６２が含まれる。６４で示したように、各話者モデル（話者モデル３のような）には、一組のフレーム依存モデルとこのモデル間の時間シーケンスから成るＴＳＩモデルに対応するデータ６６が含まれる。

本実施形態において、ＧＤＷモデルの各層は、一組のガウスモデルから成る。最上位層（ＢＭ）において、音響空間モデルは、ガウス共分散パラメータを通して、音響的ばらつきを組み込む。

中間層において、話者に関して登録試料全てによって与えられる話者の特異性は、ガウス平均パラメータによってより明確に表現される。

時間音声構造情報は、本質的に、発話の音声内容と話者とに結びついている。この時間情報は、ＧＤＷモデルの下位層において、ＴＳＩモデルによって考慮される。この情報は、主に、フレーム依存モデルの混合重みパラメータによって表現される。

本発明のＧＤＷモデル化システムが、従来のモデル化と多くの面で異なるが、モデル調整処理は説明したので、ここでこれら差異のいくつかを繰り返すのも有用であろう。図５では、ＧＤＷモデル化システムとＧＭＭ及びＧＴＷモデル化システムを比較している。ここで示すように、ＧＭＭモデル化システムは、時間シーケンス情報（ＴＳＩ）を得ることはないので、ＴＳＩの制約も持っていない。ＤＴＷモデル化システムは、時間シーケンス情報を得ることはないが、非常にわずかの音響空間モデル化をとどめている。本発明のＧＤＷシステムは、他のモデルがいずれも得ることのできないものを得る、すなわち音響空間モデル化情報とＴＳＩの制約である。

〔本実施形態を実施する際のさらなる詳細〕
［ＴＳＩ処理］
先述したように、ＧＤＷモデル化システムは、話者モデルがＴＳＩモデル成分を構築するのに使用される、フレーム依存モデルの時に、音声事象の時間シーケンス情報を考慮する。本実施形態において、動的時間伸縮法がこの目的のために使用される。ＤＴＷアルゴリズムは、各瞬間に対して、入力信号（音響ベクトルのストリームによって表現される）と、予め定められたフレーム依存のいくつかのガウスモデルから成るモデルの間の最良の整合を探し求める。この点からすると、ＧＤＷシステムは、ＨＭＭモデルとは全く異なり、ＨＭＭモデルの状態と入力信号のフレームの間に所定の相関関係は無い。

図６は、本ＤＴＷ復号を示したものである。ＧＤＷシステムにおいて、ＤＴＷアルゴリズムは、３つの要素によって制御される、それは、ペナルティ関数セットと、入力フレームとＴＳＩフレーム依存モデルの間の部分的距離と、時間制約同調（temporal constraint tuning）パラメータである。

ペナルティ関数セットは、二つの関数から成っている。第１の関数は、いくつかの入力フレームが一つのフレーム依存モデルと関連している時に、ペナルティの値を与える。第２の関数は、一つの入力フレームがいくつかのフレーム依存モデルと関連している時に、ペナルティの値を与える。図６は、これら二つのペナルティの例を示している。

本実施形態のいくつかは、どの程度まで、時間的制約がシステムの動作に影供するかを制御する同調因子（tuning factor）を使用することもできる。これは、同調因子を導入することによって実施する。最初に、（式２の）アルファパラメータの値が、フレーム依存モデルの適合中に、フレーム依存モデルの特異性を緩和するのに使用される。もしアルファが１に設定されると、フレーム依存モデルは、全て等しくなり（或る対象事象に対して）、時間的制約の影響力は低くなるだろう。もしアルファが０に設定されると、そのモデルは、完全に自由になり、時間的制約が大きく考慮される。正規化因子が、部分的距離を得違算するのに選択される。これは、時間情報が、対象事象の全体的な面に渡って力を発揮する程度まで、バランスを取ったり調整したりするのに効果がある。

［フレーム確度の計算］
［照合の部分的距離］
ＤＴＷ復号には、各入力フレームと各フレーム依存モデルの間の距離（すなわち近似性の測定）の計算が必要である。この距離は、確度の比から引き出され、フレームの特異性を測定する。この比の分子は、フレーム依存モデルの場合のフレームの確度であり、分母は、事象の全体モデルＸの場合のフレームの確度に近い。フレーム内の対象の情報を考慮するために、分母は、ＸとＢＭ（背景モデル）の組合せを用いて見積もられる。さらに詳細に言うと、照合の部分的距離は、以下で与えられる。

ここで、ｙは入力フレームであり、Ｘｎはフレーム依存モデルであり、Ｘは全体事象モデルであり、ＢＭは背景モデルであり、betaは組合せ因子である。

NormDist()は、確度の比を距離的な点数に変換するのに使用される正規化関数である。

ここで、MaxとMinは、入力の境界である。

上記二つの式において、LocalDist()は、フレームモデルが、全体的な対象モデルに比して入力フレームに近いかどうかを測定する。この測定は相対的なものなので、ＢＭモデルを用いて重み付けされる、つまり入力フレームが関連性があるか否かを示している。関数は、［０，１］空間の中で出力に正規化される。

［一致する点数］
結果としての一致点数は、部分的距離とＤＴＷペナルティの組合せであり、選択したパス内の部分的距離の数によって重み付けされる。

〔フレーム依存モデル構造によるメモリの大きさと計算費用削減〕
統計に基づいたモデル化システムであるので、ある程度、ＧＤＷモデルは、多くのガウス成分の記憶と計算が必要であろう。こうして、応用分野によって、コンピュータ資源の対価を考慮する必要があるだろう。さらにＧＤＷの下位層モデル（ＴＳＩフレーム依存モデル）は、完全なガウスモデルとして見られるが、物理的に中間層モデル（Ｘ）の変更として表現され、これは、上位層モデル（ＢＭ）の変更としても表現される。変更済み要素のみが記憶され再計算されるべきであるから、この構造によって、メモリ空間と計算資源を節約することができる。本実施形態において、所定のフレーム依存モデルに対して、少しのガウス成分の重みだけが、“適合ウィンドウ”内に取り込まれて、記憶され、対応する値のみが所定のフレーム依存モデルに対して再計算される。

図７に示されるように、ウィンドウシステム（windowing system）が、全ての利用可能なガウス成分の部分集合のみと、選択した成分の重みのみが、記憶される。他の全ての成分は、上位モデル内で選別されるか、上位モデルから直接に推定される。

Ｘｎ（事象Ｘに対するｎ番目のフレーム依存モデル）の時のｙ（試験用フレーム）の確度は、２つの量のSumAdapted()とSumNonAdapted()の和で推定される。SumAdapted()は、このフレーム依存モデル（ウィンドウ内の）に対して選択された成分の関与を表しており、これに対し、SumNonAdapted()は、他の成分の関与を表している。これは、さらに式５で示される。

ここで、SumAdapted()はフレーム依存モデル内で選択された成分の関与を表し、SumNonAdapted()は、Ｘ（対応する話者モデル）に取り入れる他の成分の関与を表す。

以下の式６と式７は、SumAdapted()とSumNonAdapted()が計算される様子を示している。

ここで、

は、フレームモデルＸｎ内で選択されるｉ番目の成分の重みであり、

は、Ｘのｉ（ガウス）番目成分の時のｙの確度であり、ｍは重みウィンドウの大きさである。

ここで、

は、フレーム依存モデルＸｎ内で選択されたｉ番目の成分の重みであり、

は、Ｘ内の対応する成分の重みであり、

は、Ｘのｉ（ガウス）番目の成分の時のｙの確度であり、

は、Ｘ（対応する話者モデル）の時のｙの確度である。

式７において、SumNonAdapted()は、フレーム依存モデル（これは対応するＸモデルに取り入れられる）の非適合部分が与えられ、Ｘｎモデル内の成分の重みの和が１まで加算されるようにして正規化された、入力フレームの確度である。

〔ＧＤＷモデルのいくつかの使用法〕
［話者認識］
話者認識は、ＧＤＷ技法から利益を得ることができる一つの音声処理アプリケーションである。そのアプリケーションにおいて、ＢＭモデルは、比較的大きなＧＭＭ（例えば２０４８個の成分）に対応する。対象となる事象は、話者の身元と暗証番号（両方）を備えている。

フレームを元にした点数は、調整過程（時間構造情報サブシステム）によって与えられる、各々の対（フレーム依存モデル、入力フレーム）に対して計算される。点数の関数、BioScore()は、式８によって与えられる。

ここで、ｙは入力フレームであり、Ｘは話者モデルであり、Ｘｎはフレーム依存モデルであり、ＢＭは背景モデルであり、localは０と１の間の重みであり、LocalBioWeightの名前が付けられる。

BioScore()は、入力フレームと対応するフレーム依存モデルの間の類似点の大きさを表している。それは、役に立たないフレーム（例えば、音声のないフレーム）を排除するために、ＢＭモデルによって正規化される。フレーム依存の対象とするモデルは（対象の全体のモデルに比して）、部分的なパラメータによって与えられる。通常、部分的なパラメータは１に設定され、フレーム依存モデルへの制御全てを与える。最終的な点数は、対応するフレームのエネルギーによって重み付けされるBioScore()の算術平均である。

［単語認識アプリケーション］
単語認識アプリケーション（潜在的な検索モードを持った）は、ＧＤＷシステムから大いに利益を得ることのできる他のアプリケーションである。従来のＤＴＷあるいはＨＭＭ法に比べた主な利点は、全体的なＧＭＭを新しい話者あるいは新しい環境条件に適合させることによって得られる、適合可能性である。もし望むなら、適合は、一般的なモデル（この文書ではＸとＵＢＭ）の成分のみを動かして、単語非依存モードで行うことができる。

本発明の記載は、実際の例に過ぎず、従って、本発明の趣旨から外れない変更は、本発明の範囲内であることを意図している。そのような変更は、本発明の趣旨と範囲から外れるものとは見なされない。

本発明のガウス動的時間伸縮法（ＧＤＷ）の概括的構成を示すブロック図である。ＧＤＷモデルが構築され仕込まれる様子を示したフローチャートである。ＧＤＷモデルが構築され仕込まれる様子を示したフローチャートである。ＧＤＷモデルのより詳細な階層モデルの図であり、音響空間と話者空間と時間構造情報がＧＤＷモデルの中に記憶される様子を理解するのに有用である。本発明のＧＤＷモデルと、ガウス混合モデル（ＧＭＭ）や古典的な動的時間伸縮法（ＤＴＷ）モデルなどの従来のモデルの違いのいくつかを示す、比較モデルの図である。ＤＴＷ復号が、一実施形態の時間シーケンス処理システムによって実行される様子を理解するのに有用な時間伸縮の配置構造の図である。必要な計算用メモリを減らすのに一実施形態中で有用な、フレーム依存型重み付けウィンドウシステムの図である。

符号の説明

１０…先験的な知識（音響空間）
１２…先験的な知識（時間的制約）
１４…統計的音響空間のモデル化
１６…音響データ
１８…ＴＳＩサブシステム（ＤＴＷ）
２０…ＧＤＷ（コア）
２２…ＧＤＷモデル
３２…背景モデル（ＢＭ）
３８…話者モデル（ｘ）

Claims

音声モデルを構築する方法において、
複数の話者から得た複数の発声から、音響空間モデルを構築する段階と、
少なくとも一人の話者からの登録音声を用いて、音響空間モデルを適合させることによって、話者モデルを構築する段階と、
前記登録音声に関連する時間構造を識別する段階と、
前記話者モデルと前記登録音声とに基づいて、音声モデルを構築し、同時に、前記登録音声の時間構造を、前記音声モデルの中に保存する段階と
を備えることを特徴とする方法。
前記登録音声の前記時間構造は、一組のフレームに割り振られる、一組のフレーム依存モデルを構築することにより、前記音声モデルの中に保存されることを特徴とする請求項１記載の方法。
前記一組のフレームは、関連したタイミング基準を持っており、それは、前記登録音声のタイミングから作られ、かつ前記登録音声のタイミングを直接保存することを特徴とする請求項２記載の方法。
前記音響空間モデルと、前記話者モデルと、前記時間構造とは、共通の階層関係を共有することを特徴とする請求項１記載の方法。
前記音響空間モデルは、統計的なモデル化によって構築されることを特徴とする請求項１記載の方法。
前記音響空間モデルは、複数の話者から音声を得て、前記の得た音声から特徴を抽出して、前記抽出した特徴をガウスパラメータとして表現することによって構築されることを特徴とする請求項１記載の方法。
前記音響空間モデルは、隠れマルコフモデルを用いて表現されることを特徴とする請求項１記載の方法。
前記音響空間モデルは、ガウス混合モデルを用いて表現されることを特徴とする請求項１記載の方法。
前記話者モデルは、統計的モデル化によって構築され、音響空間モデルを適合させる段階は、最大帰納適合によって実行されることを特徴とする請求項１記載の方法。
前記時間構造情報モデルは、複数の登録音声発声に対して、前記話者モデルと前記音響空間モデルを用いて、統計的モデル化によって構築されることを特徴とする請求項１記載の方法。
前記時間構造情報モデルは、さらに、複数の登録音声発声各々に対して、時間構造情報モデルを構築し、その後、最良の時間構造情報モデルを選択することによって作られることを特徴とする請求項１０記載の方法。
前記時間構造情報モデルを、前記登録音声発声に基づいて適合させる段階を、さらに備えることを特徴とする請求項１０記載の方法。
音声モデルを構築するための方法において、
複数の話者から得られた複数の発声から、音響空間モデルを構築する段階と、
少なくもと一人の話者からの登録音声を用いて、音響空間モデルを適合させることによって話者モデルを構築する段階と、
前記話者モデルを、前記登録音声に関連した順番の時間間隔に対応する複数のフレーム依存モデルとして表現することによって、時間構造情報モデルを構築する段階と、
前記登録音声と、前記話者モデルと、前記音響空間モデルとを用いて、時間構造情報モデルを適合させることによって、前記音声モデルを構築する段階と
を備えることを特徴とする方法。
前記音響空間モデルを、複数のガウスパラメータとして表現する段階を、さらに備えることを特徴とする請求項１３記載の方法。
前記音響空間モデルを、ガウス平均パラメータを含んだ複数のパラメータとして表現する段階をさらに備え、前記音響空間モデルを適合させる段階は、前記ガウス平均パラメータを適合させることによって実行されることを特徴とする請求項１３記載の方法。
前記音響空間モデルを、ガウス重み付けパラメータを含んだ複数のパラメータとして表現する段階をさらに備え、前記時間モデルを適合させる段階は、前記ガウス重み付けパラメータを適合させることによって実行されることを特徴とする請求項１３記載の方法。
前記時間モデルは、さらに、少なくとも一人の単独の話者からの登録音声の複数の例を得て、フレームに基づいた時間構造情報モデルを構築することによって構築されることを特徴とする請求項１３記載の方法。
階層的な音声モデルにおいて、
音響空間を表現するための第１層と、
話者空間を表現するための第１層と、
予め定めたフレーム構造に従って、登録音声の時間構造を表現するための第３層と
を備えることを特徴とする音声モデル。
前記第１層は、一組のガウスモデルパラメータであることを特徴とする請求項１８記載の音声モデル。
前記第２層は、一組のガウスモデル平均パラメータであることを特徴とする請求項１８記載の音声モデル。
前記第３層は、一組のがウスモデル重み付けパラメータであることを特徴とする請求項１８記載の音声モデル。
前記第２層は、前記第１層に階層的に関連していることを特徴とする請求項１８記載の音声モデル。
前記第３層は、前記第２層に階層的に関連していることを特徴とする請求項１８記載の音声モデル。
前記第３層は、前記第３層と前記第２層の間の影響度合いを調整するために、適合因子に基づいて前記第２層に関連していることを特徴とする請求項２３記載の音声モデル。
音声処理システムにおいて、
それに対して入力音声発声が試験される、一組の確率的モデルを持った音声認識器を備え、前記一組の確率的モデルは、
音響空間を表現するための第１層と、
話者空間を表現するための第１層と、
予め定めたフレーム構造に従って、音声の時間構造を表現するための第３層と
を備えるように構成されることを特徴とする音声処理システム。
前記一組の確率的モデルは、登録発声を記憶し、前記音声認識器は、単語検索機能を実行することを特徴とする請求項２５記載の音声処理システム。
前記一組の確率的モデルは、登録発声を記憶し、前記音声認識器は、話者認識機能を実行することを特徴とする請求項２５記載の音声処理システム。
前記第１層は、一組のガウスモデルパラメータであることを特徴とする請求項２５記載の音声モデル。
前記第２層は、一組のガウスモデル平均パラメータであることを特徴とする請求項２５記載の音声処理システム。
前記第３層は、一組のガウスモデル重み付けパラメータであることを特徴とする請求項２５記載の音声処理システム。
前記第２層は、前記第１層に階層的に関連していることを特徴とする請求項２５記載の音声処理システム。
前記第３層は、前記第２層に階層的に関連していることを特徴とする請求項２５記載の音声処理システム。
前記第３層は、前記第３層と前記第２層の間の影響度合いを調整するために、適合因子に基づいて前記第２層に関連していることを特徴とする請求項３２記載の音声処理システム。