JP2004199077A - 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法 - Google Patents

音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法 Download PDF

Info

Publication number
JP2004199077A
JP2004199077A JP2003421285A JP2003421285A JP2004199077A JP 2004199077 A JP2004199077 A JP 2004199077A JP 2003421285 A JP2003421285 A JP 2003421285A JP 2003421285 A JP2003421285 A JP 2003421285A JP 2004199077 A JP2004199077 A JP 2004199077A
Authority
JP
Japan
Prior art keywords
model
layer
speech
speaker
acoustic space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003421285A
Other languages
English (en)
Inventor
Jean-Francois Bonastre
ジャン−フランソワ・ボナストル
Philippe Morin
フィリップ・モラン
Jean-Claude Junqua
ジャン−クロード・ジャンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2004199077A publication Critical patent/JP2004199077A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ガウス動的時間伸縮法は、音響パターンを表す階層的な統計モデルを提供する。
【解決手段】このモデルの第1層は、一般的な音響空間を表し、第2層は、各話者空間を表し、第3層は、各登録音声発声に含まれる、等間隔に時間間隔に基づいた時間構造情報を表している。これら3つの層は、階層的に作られ、第2層は、第1層から抽出され、第3層は、第2層から抽出される。このモデルは、音声処理分野で有用であり、特に、検索認識モードを用いた、単語と話者の認識のような分野で有用である。
【選択図】図1

Description

本発明は、広く、音声処理分野の中で、音声を表現するモデルに関する。さらに特化して、本発明は、文章に依存しない統計的な音響空間のモデル化と、時間シーケンスのモデル化の両方を有利に利用して、従来の統計的なモデル化技法よりも非常に少ない登録データを持った検索モードを含む、音声と話者の自動認識アプリケーションを支援するためのモデル化システム及び方法を生み出すモデル化技法に関する。
音声のモデル化技法は、現在では、音声認識から話者検証/識別まで多様な範囲の分野で広く使用される。今日では、殆どのシステムは、隠れマルコフモデル(HMM)を使用して、語彙が多くて連続的な音声認識の難しい問題に対処している。隠れマルコフモデルは、音声を一連の状態として表現し、そこでは各状態は、別々の音の単位に対応している。使用前に、一組の隠れマルコフモデルが、人間の音声の実例から作られるが、その素性は知られたものである。調整の時には、統計的な分析が行われて、隠れマルコフモデルの中に記憶するべき確率データが生成される。これらの確率データは、予め定められた状態遷移モデル(HMMモデル)の中に記憶されるが、この中には、一つの状態から次の状態へ渡る可能性や、所定の音の単位が各状態で作られる可能性が記憶される。典型的には、可能性データは、平均値および/または分散値および/または重み付けパラメータなどのガウスパラメータを表す浮動小数点数として記憶される。
隠れマルコフモデルに基づく認識システムは、調整用の機材が必要であるために非常に高価である。それらは、認識システムに、メモリの厳しい要求とプロセッサ速度の要求を付ける。加えて、従来の隠れマルコフモデルは、通常、実際の入力音声(すなわち認識のために試験されるべき信号の一部)と背景雑音(すなわち無視すべき信号の一部)を区別するのに、終了点の検出の形式で、余分な前処理を必要とする。
動的時間伸縮法(DTW)と呼ばれる別の手法が、少量の登録データが利用可能な場合に、しばしば使用される。動的時間伸縮法処理は、それまでに定型化されたモデルと入力シーケンスの間の“最廉価な”配置構造を探すように努める。典型的には、そのようなモデルは、入力調整用音声を入手して、その音声を等しい大きさのフレームに分解して、各フレームを、ケプストラム(cepstral)処理あるいは高速フーリエ変換処理のような既知の様々な処理技法の一つを通して、一組の音響ベクトルとして表す。使用時には、入力試験用音声は、音響ベクトルを抽出して、各時間フレームに対して点数を計算することによって、フレーム毎に処理される。ペナルティ(penalty)は、挿入誤りと削除誤りに対して割り当てられ、総合点数が最も低いシーケンスが、最良の組合せとして選ばれる。
動的時間伸縮法は、音声の発声の時間的シーケンスを追跡するのに役立つ。それらは、隠れマルコフモデルに比して、少量の調整用データしか必要とせず、本質的に音声の時間構造情報(Temporal Structure Information =TSI)を考慮する。
しかし、動的時間伸縮法システムは、重要な欠点を持っている。対象となる事象にばらつきが多くある場合には、うまく動作しない(例えば、位置決定すべき対象とする言葉)。DTWシステムは、新しい状況に適合するのも難しい。そのような訳で、DTWシステムは、状況が比較的安定しているときに、検索をするような応用分野を含めた、言葉と音声の認識に対して効果的に使用することができる。DTWシステムは、対象とする事象(言葉や話者)に大きなばらつきがある時や、遭遇した環境に大きなばらつきがある時には、あまり適さない。
ガウス混合モデル(Gaussin Mixture Model =GMM)と呼ばれるものを用いた、3番目の種類のモデル化システムが、話者の認識/識別を行わなくてはいけないときに、しばしば用いられる。ガウス混合モデルは、本質的に、単一状態の隠れマルコフモデルである。入力調整用音声は、フレーム毎に得られ、音響ベクトルによって(例えば、ケプストラム処理や高速フーリエ変換処理を適用して)一組の音響ベクトルとして表される。話者の調整用音声の多数の実例から取られた音響ベクトルは、集められて、その話者を表す単一混合モデルを作るために結合される。不運なことに、このモデル化処理によって、全ての時間情報が捨てられる。こうして、フレームからフレームへ自然に現れる時間構造(TSI)に関連した情報が、失われる。
先述したモデル化システムのそれぞれには、選ばれた音声の応用分野で活躍の場があるが、特に話者の識別/検証のための高性能、あるいは言葉検索分野に対しての高性能が必要となる分野において、本格的な隠れマルコフモデル化システムに関連する大量の調整用材料無しに改良をする大いなる余地が残されている。本発明は、時間シーケンスをうまくモデル化したり、またばらつきをうまく扱ったりする、類の無い新しいモデル化システムを通して、上記のような改良を提供し、音響空間における変化を容易に調整される。
本発明は、我々がガウス動的時間伸縮法(GDW)と呼ぶところの、新しい音声モデル化技法を提供する。GDW音声モデル化によって、音響空間を表す上位層と、話者空間を表す中間層と、登録音声の時間構造を表す下位層とを、等間隔の時間間隔あるいはフレームに基づいて提供される。これら3つの層は、階層的に作られている、つまり中間層は上位層にリンクし、下位層は中間層にリンクしている。
他の側面から見ると、本発明は、上位層の音響空間モデルが複数の話者から構築されるようなGDW音声モデルを構築するための方法を提供する。そして、中間層の話者モデルは、各話者(あるいは話者のグループ)に対して、この話者(あるいは話者のグループ)に関連する登録音声を用いた音響空間モデルからから構築される。下位レベルTSI(時間構造情報)モデルは、各対象の事象に対して、順番に、この事象に対応する利用可能な登録音声に関連する各時間間隔を表すことによって構築される。対象の事象は、単語(あるいは短い句)によって構成され、単語自身(単語認識分野)あるいはその組合せ(単語、話者の素性)(暗証番号を元にした話者認識分野)であり得る。ある対象の事象に関連するGDW音声モデルは、3つの階層的にリンクされる要素である、音響空間モデルと話者モデルとTSI(時間構造情報)モデルによって構成される。
他の側面から見ると、音響空間モデルが、複数の話者から得た複数の発声から構築されるような音声モデルを構築するための、一般的な方法を提供する。そして話者モデルは、一人の話者あるいは話者のグループからの登録データを用いて、音響空間モデルを適合することによって構築される。そして時間構造情報モデルは、対象の事象に関連する、音響空間モデルと話者モデルと登録音声とから構築される。
本発明とその目的と利点をさらに理解するために、明細書の以下と添付の図面を参照されたい。
本発明は、詳細な説明と添付の図面とから、より良く理解することができるだろう。
実施形態の以下の説明は、単に、現実的な例であり、決して、本発明や、その応用分野や、使用法を制限するものではない。
〔ガウス動的時間伸縮モデル〕
実施形態のシステムと方法の中心には、階層的に作り上げたモデルがあり、ガウス動的時間伸縮(GDW)モデルと呼ばれる。以下により詳細に説明されるが、このモデルは、統計的な音響空間情報と、統計的話者空間情報と、登録音声に関連した統計的時間構造情報とに基づいている。こうして、GDW音声モデルは、音声システムが作り上げられる環境に関連する音響空間についての情報を得る。GDWモデルは、登録音声を提供する話者の音声上の特徴についての情報も得る。最後に、GDWモデルは、時間構造情報と登録音声自身の音声内容につての情報を得る。後者の点について、“sports car”のような登録音声は、“Mississippi”や“carport”からとは、明らかに異なったTSIパターンを持っている。
GDW音声モデルの類のない一つの側面は、音響空間にも話者空間情報にも使用するガウスパラメータを、各時間的セグメントに対して別々に変更することで、この時間構造情報がモデル化されることである。好ましくは、或る時間セグメントに対して、ほんのいくつかパラメータが選択され変更される。本実施形態では、(GDWモデルの)上位層のガウス音響空間のばらつき情報と、GDWモデル中間層のガウス平均パラメータと話者関連情報、およびガウス混合モデルを策定するのに使用するGDWモデル下位層の重み付けと時間シーケンス情報を説明している。
図1は、GDW法の一般原則を示している。図示されるように、GDWモデルは、音響空間についての先験的な知識10と、時間構造情報(時間的制約)についての先験的知識12とを得る。音響空間の先験的知識10は、統計的音響空間モデル化システム14へ入力され、このシステムは入力として音響データ16も受信する。音響データ16は、調整中と試験期間中(すなわち使用中)に与えられる登録データを表すか、それから抽出される。
時間的制約の先験的知識12は、同様に、時間的制約処理システム18に入力される。時間的制約処理システムは、動的時間伸縮法(DTW)アルゴリズムを用いるが、これは以下により詳細に説明される。一般的に、時間的制約処理システムは、登録の調整中と試験中(すなわち使用中)の両方に使用される時間シーケンス情報(TSI)を定義する。
システム14と18のそれぞれの出力は、統計的音響空間モデル化システム14と時間的制約処理システム18の間の情報の交換と関連を管理する責任を持つGDWコアシステム20に与えられる。GDWコア20は、究極的にGDWモデル20を構築し管理する。
GDWモデルは、3つの階層構造の層から成る。上位層において、モデルには、全体的な音響空間と全体的な記録状況を記載する背景モデル(BM)と呼ばれる一般的な音響空間モデルが含まれる。階層的に背景モデル32に関連するのは、中間レベル38を備える、話者モデルの組である。この層の各モデルは、話者特有の音声特性(ある話者または話者のグループに対する)を表しており、以下で符号Xで象徴的に参照される。
話者モデル38は、話者(あるいは話者のグループ)の全体的な音響空間を記載した音響モデルである。それは、背景モデルから抽出される(従って、階層的関係)。GDWモデルの下位の階層要素は、時間構造情報モデルであり、TSIモデルを表す。この層のTSIモデル42は、フレームに従属する一組のモデルによって、連続的な順番で構成される。対象の事象の各フレームnに対して、フレームに従属する対応するモデルはXnと表され、対応するXモデルから抽出される。
上記のモデルの層の階層的関係と、これら階層的な層に記憶される情報の性質とによって、GDWモデルは、非常に豊かで小型で丈夫になる。言い換えると、これによって、GDWモデルに基づいた音声処理システムは、対象の事象と環境の潜在的に大きなばらつきの下で、言葉の認識と話者の認識(両方とも検索モードで)を実行することができるようになる。以下においてより詳細に示されるが、音響空間情報(典型的には雑音が変動する環境下で複数の話者から作られる)が、話者Xのモデルを構築する際に使用される。Xモデルは、登録話者(あるいは話者のグループ)についての情報を得るが、その情報は、音響空間モデルの変更としてXモデル内でモデル化され、その結果、背景モデルからの音響空間情報も、少なくとも部分的に保持される。同様に、Xモデルが、対応する時間構造情報(TSI)モデルを構築するのに使用される。TSIモデルは、フレームに従属する一組のモデルによって構成され、その結果、フレームに従属するモデルは、特定の対象とする事象の発声についての時間情報を得、一方、話者モデルXと背景モデルBMからの残った情報は残す。
〔GDWモデルの調整〕
図2と図3は、GDWモデルを調整するための、本実施形態の手続きを示している。モデルが調整される様子を理解することで、GDWモデルの性質と多くの利点とを、より深く理解するであろう。
図2を参照すると、複数の話者からのデータは、30で集められて、背景モデル32を構築するのに使用される。多数の話者音響データ30は、様々な異なる発声から、様々な異なる背景雑音条件下で抽出されるだろう。背景モデル32は、様々な異なる統計的音響モデル化技法を用いて構築することができる。本実施形態では、音響データ30は、高速フーリエ変換(FFT)あるいはケプストラム技法を用いて、一組の音響ベクトルを抽出するために入手し処理される。そして音響ベクトルは、音響データを得る間に使用された条件で、話者の数で定義される音響空間を表す音響モデルを作るために、統計的に分析される。この観点から、音響空間という用語は、データの得られる物理的空間ではなく、音響データによって広がる抽象的な数学的空間を表すものである(物理的空間の周囲の残響特性と背景雑音は、音響空間に影響を持つが)。
本実施形態において、音響データ30の何らかの適切な音響モデル化の表現を使用することができる。例えば、ガウス混合モデルGMMあるいは隠れマルコフモデルHMMを使用することができる。GMMとHMMのどちらを選択するかは、利用可能な先験的な音響知識の量によって決まる。もし大量に利用可能ならば、HMMモデルが好ましいであろう;が、もし少量のデータが利用可能ならば、GMMモデルが好ましいであろう。いずれの場合も、モデルは、従来のやり方で調整され、好ましくは期待値最大化アルゴリズムを用いるのが好ましい。モデルを調整するのに、最大尤度基準(maximum likelihood criterion)を使用して、最適化基準を達成することができる。
背景モデルのために、音響空間全体を表すのに、モデルは、典型的には、数百のガウス成分(component)から成る。もし背景モデル(BM)のためにガウス混合モデル(GMM)が選ばれると、使用する確度(likelihood)パラメータは、各パラメータが与えられて、フレームの確度の重み付けした平均値であり、ここで、ある成分は、対応する平均ベクトルと共分散行列とによって表される。こうして、GMMを元にした背景モデルのために、確度が下記の式1に従って定義される。
Figure 2004199077
ここで、yは音響ベクトルであり、GはGMMであり、gはGの成分の数であり、wはi番目の成分の重みであり、μは成分の平均値であり、
Figure 2004199077
は、成分の(対角線)共分散行列であり、N()は、正規確率密度関数(normal probability density function)である。
HMMを元にした背景モデルに対して、確度(likelihood)パラメータは、HMMの対応する状態を与えられた、入力フレームの確度であり、これは、式1を用いて確度を計算することのできるようなGMMモデルである。しかし、この場合、入力フレームのシーケンスに対応する、状態の最良のシーケンスを決定するのに、ビタビ復号が適用される。
背景モデル32を作った後に、音響データ34が、登録する話者から得られる。
音響データ34は、36において、背景モデルを適合させて、それによって話者モデルXを38に示したように構築するのに使用される。様々な異なる適合技法を使用することができるが、本実施形態は、機能的最大(Maximum A Posteriori =MAP)適合を使用する。本実施形態において、混合成分のガウス平均パラメータのみが、適合される。
今までの段階で、背景モデル(BM)が構築された。このモデルは、本質的に、システムが使用する環境についての音響情報を含んでいる。このモデルから抽出して、話者モデル(X)は、環境情報を残し、それに、登録に参加した各特定の話者についての情報を加える。次に説明をするが、最後の処理段階は、或る対象とする事象に対応する各文に関連した時間シーケンス情報を、話者モデル(X)に加える。
時間構造情報をGDWモデルに符号化する最終処理段階が、図2に示されており、段階40から始まって図3に至る。段階40において、GDW TSIモデルは、登録の繰り返しごとに、対応する話者モデル38から構築される。TSIモデルは、一つのフレームに対して一つのモデルから成っていて、これは図2の42に示されている。これらのモデルは、ガウス重み成分を適合させることによって、話者(X)モデルから抽出することができる。下記の式2は、MAP適合アルゴリズムを使って、重み成分が適合される様子を示している。重みのMAP適合は、直接補間法(direct interpolation strategy)を用いて実施できる。
Figure 2004199077
ここで、
Figure 2004199077
Xからデータ部分集合yを用いて抽出した状態/フレームnのi番目の成分の最終(適合済み)重みであり、
Figure 2004199077
は、部分集合y上で計算した対応する重み推定値であり、
Figure 2004199077
は、前の情報として使用されるモデルXのi番目の重みであり、αは、適合因子である。
或る対象とする事象に対する最初の一組のGDW TSIモデルを作った後(対象とする事象に対応する登録の各繰り返しに対して一つのTSIモデル)、一つの交差距離行列(cros distance matrix)42が計算される。この行列は、各TSIモデル42と音響データ34の登録の各繰り返しとの間の全ての距離を表している。それを行った後、各TSIモデルと登録の繰り返しの組との間の平均距離が計算されて、最小平均距離のTSIモデルが、最良の、あるいは“中央モデル”として選択される48。
一度、中央モデルが作られると、モデルをより改良するために、この対象とする事象にリンクする登録音声全てに、追加の適合が実行される。こうして、モデル適合が、段階56において実行される。この適合は、中央モデル52を音響データ34と合わせ、その後、図示されるように適合を一回あるいは繰り返して何回か実行することによって実施することができる。その結果は、希望する音声処理分野において、対応する対象の事象に対してTSIモデルとして使用することのできる、適合済み中央モデル58となる。
〔GDWモデル化と従来のモデル化の比較〕
GDW技法には、図4に示す3層の階層モデル化が含まれる。上位層は、背景モデル(BM)レベル32である。中間層は、BMから抽出した話者(X)モデル38を備える。下位レベル層は、一組のフレームで決まるモデル42から出来ている、言い換えると対応するXから抽出される時間構造情報(TSI)モデルを備えている。このTSIモデルは、或る文の音声内容と時間構造情報の両方を備えている。中間層の一つの例及び下位層の一つの例と結びついた上位層の一つの例が、GDWの対象の事象のモデルを構成する。
図4は、対応する音響空間が、これら3つの層の中で具現化される様子を示している。60で示されるように、背景モデル(BM)によって広がる音響空間には、話者達のそれぞれの音響空間62が含まれる。64で示したように、各話者モデル(話者モデル3のような)には、一組のフレーム依存モデルとこのモデル間の時間シーケンスから成るTSIモデルに対応するデータ66が含まれる。
本実施形態において、GDWモデルの各層は、一組のガウスモデルから成る。最上位層(BM)において、音響空間モデルは、ガウス共分散パラメータを通して、音響的ばらつきを組み込む。
中間層において、話者に関して登録試料全てによって与えられる話者の特異性は、ガウス平均パラメータによってより明確に表現される。
時間音声構造情報は、本質的に、発話の音声内容と話者とに結びついている。この時間情報は、GDWモデルの下位層において、TSIモデルによって考慮される。この情報は、主に、フレーム依存モデルの混合重みパラメータによって表現される。
本発明のGDWモデル化システムが、従来のモデル化と多くの面で異なるが、モデル調整処理は説明したので、ここでこれら差異のいくつかを繰り返すのも有用であろう。図5では、GDWモデル化システムとGMM及びGTWモデル化システムを比較している。ここで示すように、GMMモデル化システムは、時間シーケンス情報(TSI)を得ることはないので、TSIの制約も持っていない。DTWモデル化システムは、時間シーケンス情報を得ることはないが、非常にわずかの音響空間モデル化をとどめている。本発明のGDWシステムは、他のモデルがいずれも得ることのできないものを得る、すなわち音響空間モデル化情報とTSIの制約である。
〔本実施形態を実施する際のさらなる詳細〕
[TSI処理]
先述したように、GDWモデル化システムは、話者モデルがTSIモデル成分を構築するのに使用される、フレーム依存モデルの時に、音声事象の時間シーケンス情報を考慮する。本実施形態において、動的時間伸縮法がこの目的のために使用される。DTWアルゴリズムは、各瞬間に対して、入力信号(音響ベクトルのストリームによって表現される)と、予め定められたフレーム依存のいくつかのガウスモデルから成るモデルの間の最良の整合を探し求める。この点からすると、GDWシステムは、HMMモデルとは全く異なり、HMMモデルの状態と入力信号のフレームの間に所定の相関関係は無い。
図6は、本DTW復号を示したものである。GDWシステムにおいて、DTWアルゴリズムは、3つの要素によって制御される、それは、ペナルティ関数セットと、入力フレームとTSIフレーム依存モデルの間の部分的距離と、時間制約同調(temporal constraint tuning)パラメータである。
ペナルティ関数セットは、二つの関数から成っている。第1の関数は、いくつかの入力フレームが一つのフレーム依存モデルと関連している時に、ペナルティの値を与える。第2の関数は、一つの入力フレームがいくつかのフレーム依存モデルと関連している時に、ペナルティの値を与える。図6は、これら二つのペナルティの例を示している。
本実施形態のいくつかは、どの程度まで、時間的制約がシステムの動作に影供するかを制御する同調因子(tuning factor)を使用することもできる。これは、同調因子を導入することによって実施する。最初に、(式2の)アルファパラメータの値が、フレーム依存モデルの適合中に、フレーム依存モデルの特異性を緩和するのに使用される。もしアルファが1に設定されると、フレーム依存モデルは、全て等しくなり(或る対象事象に対して)、時間的制約の影響力は低くなるだろう。もしアルファが0に設定されると、そのモデルは、完全に自由になり、時間的制約が大きく考慮される。正規化因子が、部分的距離を得違算するのに選択される。これは、時間情報が、対象事象の全体的な面に渡って力を発揮する程度まで、バランスを取ったり調整したりするのに効果がある。
[フレーム確度の計算]
[照合の部分的距離]
DTW復号には、各入力フレームと各フレーム依存モデルの間の距離(すなわち近似性の測定)の計算が必要である。この距離は、確度の比から引き出され、フレームの特異性を測定する。この比の分子は、フレーム依存モデルの場合のフレームの確度であり、分母は、事象の全体モデルXの場合のフレームの確度に近い。フレーム内の対象の情報を考慮するために、分母は、XとBM(背景モデル)の組合せを用いて見積もられる。さらに詳細に言うと、照合の部分的距離は、以下で与えられる。
Figure 2004199077
ここで、yは入力フレームであり、Xnはフレーム依存モデルであり、Xは全体事象モデルであり、BMは背景モデルであり、betaは組合せ因子である。
NormDist()は、確度の比を距離的な点数に変換するのに使用される正規化関数である。
Figure 2004199077
ここで、MaxとMinは、入力の境界である。
上記二つの式において、LocalDist()は、フレームモデルが、全体的な対象モデルに比して入力フレームに近いかどうかを測定する。この測定は相対的なものなので、BMモデルを用いて重み付けされる、つまり入力フレームが関連性があるか否かを示している。関数は、[0,1]空間の中で出力に正規化される。
[一致する点数]
結果としての一致点数は、部分的距離とDTWペナルティの組合せであり、選択したパス内の部分的距離の数によって重み付けされる。
〔フレーム依存モデル構造によるメモリの大きさと計算費用削減〕
統計に基づいたモデル化システムであるので、ある程度、GDWモデルは、多くのガウス成分の記憶と計算が必要であろう。こうして、応用分野によって、コンピュータ資源の対価を考慮する必要があるだろう。さらにGDWの下位層モデル(TSIフレーム依存モデル)は、完全なガウスモデルとして見られるが、物理的に中間層モデル(X)の変更として表現され、これは、上位層モデル(BM)の変更としても表現される。変更済み要素のみが記憶され再計算されるべきであるから、この構造によって、メモリ空間と計算資源を節約することができる。本実施形態において、所定のフレーム依存モデルに対して、少しのガウス成分の重みだけが、“適合ウィンドウ”内に取り込まれて、記憶され、対応する値のみが所定のフレーム依存モデルに対して再計算される。
図7に示されるように、ウィンドウシステム(windowing system)が、全ての利用可能なガウス成分の部分集合のみと、選択した成分の重みのみが、記憶される。他の全ての成分は、上位モデル内で選別されるか、上位モデルから直接に推定される。
Xn(事象Xに対するn番目のフレーム依存モデル)の時のy(試験用フレーム)の確度は、2つの量のSumAdapted()とSumNonAdapted()の和で推定される。SumAdapted()は、このフレーム依存モデル(ウィンドウ内の)に対して選択された成分の関与を表しており、これに対し、SumNonAdapted()は、他の成分の関与を表している。これは、さらに式5で示される。
Figure 2004199077
ここで、SumAdapted()はフレーム依存モデル内で選択された成分の関与を表し、SumNonAdapted()は、X(対応する話者モデル)に取り入れる他の成分の関与を表す。
以下の式6と式7は、SumAdapted()とSumNonAdapted()が計算される様子を示している。
Figure 2004199077
ここで、
Figure 2004199077
は、フレームモデルXn内で選択されるi番目の成分の重みであり、
Figure 2004199077
は、Xのi(ガウス)番目成分の時のyの確度であり、mは重みウィンドウの大きさである。
Figure 2004199077
ここで、
Figure 2004199077
は、フレーム依存モデルXn内で選択されたi番目の成分の重みであり、
Figure 2004199077
は、X内の対応する成分の重みであり、
Figure 2004199077
は、Xのi(ガウス)番目の成分の時のyの確度であり、
Figure 2004199077
は、X(対応する話者モデル)の時のyの確度である。
式7において、SumNonAdapted()は、フレーム依存モデル(これは対応するXモデルに取り入れられる)の非適合部分が与えられ、Xnモデル内の成分の重みの和が1まで加算されるようにして正規化された、入力フレームの確度である。
〔GDWモデルのいくつかの使用法〕
[話者認識]
話者認識は、GDW技法から利益を得ることができる一つの音声処理アプリケーションである。そのアプリケーションにおいて、BMモデルは、比較的大きなGMM(例えば2048個の成分)に対応する。対象となる事象は、話者の身元と暗証番号(両方)を備えている。
フレームを元にした点数は、調整過程(時間構造情報サブシステム)によって与えられる、各々の対(フレーム依存モデル、入力フレーム)に対して計算される。点数の関数、BioScore()は、式8によって与えられる。
Figure 2004199077
ここで、yは入力フレームであり、Xは話者モデルであり、Xnはフレーム依存モデルであり、BMは背景モデルであり、localは0と1の間の重みであり、LocalBioWeightの名前が付けられる。
BioScore()は、入力フレームと対応するフレーム依存モデルの間の類似点の大きさを表している。それは、役に立たないフレーム(例えば、音声のないフレーム)を排除するために、BMモデルによって正規化される。フレーム依存の対象とするモデルは(対象の全体のモデルに比して)、部分的なパラメータによって与えられる。通常、部分的なパラメータは1に設定され、フレーム依存モデルへの制御全てを与える。最終的な点数は、対応するフレームのエネルギーによって重み付けされるBioScore()の算術平均である。
[単語認識アプリケーション]
単語認識アプリケーション(潜在的な検索モードを持った)は、GDWシステムから大いに利益を得ることのできる他のアプリケーションである。従来のDTWあるいはHMM法に比べた主な利点は、全体的なGMMを新しい話者あるいは新しい環境条件に適合させることによって得られる、適合可能性である。もし望むなら、適合は、一般的なモデル(この文書ではXとUBM)の成分のみを動かして、単語非依存モードで行うことができる。
本発明の記載は、実際の例に過ぎず、従って、本発明の趣旨から外れない変更は、本発明の範囲内であることを意図している。そのような変更は、本発明の趣旨と範囲から外れるものとは見なされない。
本発明のガウス動的時間伸縮法(GDW)の概括的構成を示すブロック図である。 GDWモデルが構築され仕込まれる様子を示したフローチャートである。 GDWモデルが構築され仕込まれる様子を示したフローチャートである。 GDWモデルのより詳細な階層モデルの図であり、音響空間と話者空間と時間構造情報がGDWモデルの中に記憶される様子を理解するのに有用である。 本発明のGDWモデルと、ガウス混合モデル(GMM)や古典的な動的時間伸縮法(DTW)モデルなどの従来のモデルの違いのいくつかを示す、比較モデルの図である。 DTW復号が、一実施形態の時間シーケンス処理システムによって実行される様子を理解するのに有用な時間伸縮の配置構造の図である。 必要な計算用メモリを減らすのに一実施形態中で有用な、フレーム依存型重み付けウィンドウシステムの図である。
符号の説明
10…先験的な知識(音響空間)
12…先験的な知識(時間的制約)
14…統計的音響空間のモデル化
16…音響データ
18…TSIサブシステム(DTW)
20…GDW(コア)
22…GDWモデル
32…背景モデル(BM)
38…話者モデル(x)

Claims (33)

  1. 音声モデルを構築する方法において、
    複数の話者から得た複数の発声から、音響空間モデルを構築する段階と、
    少なくとも一人の話者からの登録音声を用いて、音響空間モデルを適合させることによって、話者モデルを構築する段階と、
    前記登録音声に関連する時間構造を識別する段階と、
    前記話者モデルと前記登録音声とに基づいて、音声モデルを構築し、同時に、前記登録音声の時間構造を、前記音声モデルの中に保存する段階と
    を備えることを特徴とする方法。
  2. 前記登録音声の前記時間構造は、一組のフレームに割り振られる、一組のフレーム依存モデルを構築することにより、前記音声モデルの中に保存されることを特徴とする請求項1記載の方法。
  3. 前記一組のフレームは、関連したタイミング基準を持っており、それは、前記登録音声のタイミングから作られ、かつ前記登録音声のタイミングを直接保存することを特徴とする請求項2記載の方法。
  4. 前記音響空間モデルと、前記話者モデルと、前記時間構造とは、共通の階層関係を共有することを特徴とする請求項1記載の方法。
  5. 前記音響空間モデルは、統計的なモデル化によって構築されることを特徴とする請求項1記載の方法。
  6. 前記音響空間モデルは、複数の話者から音声を得て、前記の得た音声から特徴を抽出して、前記抽出した特徴をガウスパラメータとして表現することによって構築されることを特徴とする請求項1記載の方法。
  7. 前記音響空間モデルは、隠れマルコフモデルを用いて表現されることを特徴とする請求項1記載の方法。
  8. 前記音響空間モデルは、ガウス混合モデルを用いて表現されることを特徴とする請求項1記載の方法。
  9. 前記話者モデルは、統計的モデル化によって構築され、音響空間モデルを適合させる段階は、最大帰納適合によって実行されることを特徴とする請求項1記載の方法。
  10. 前記時間構造情報モデルは、複数の登録音声発声に対して、前記話者モデルと前記音響空間モデルを用いて、統計的モデル化によって構築されることを特徴とする請求項1記載の方法。
  11. 前記時間構造情報モデルは、さらに、複数の登録音声発声各々に対して、時間構造情報モデルを構築し、その後、最良の時間構造情報モデルを選択することによって作られることを特徴とする請求項10記載の方法。
  12. 前記時間構造情報モデルを、前記登録音声発声に基づいて適合させる段階を、さらに備えることを特徴とする請求項10記載の方法。
  13. 音声モデルを構築するための方法において、
    複数の話者から得られた複数の発声から、音響空間モデルを構築する段階と、
    少なくもと一人の話者からの登録音声を用いて、音響空間モデルを適合させることによって話者モデルを構築する段階と、
    前記話者モデルを、前記登録音声に関連した順番の時間間隔に対応する複数のフレーム依存モデルとして表現することによって、時間構造情報モデルを構築する段階と、
    前記登録音声と、前記話者モデルと、前記音響空間モデルとを用いて、時間構造情報モデルを適合させることによって、前記音声モデルを構築する段階と
    を備えることを特徴とする方法。
  14. 前記音響空間モデルを、複数のガウスパラメータとして表現する段階を、さらに備えることを特徴とする請求項13記載の方法。
  15. 前記音響空間モデルを、ガウス平均パラメータを含んだ複数のパラメータとして表現する段階をさらに備え、前記音響空間モデルを適合させる段階は、前記ガウス平均パラメータを適合させることによって実行されることを特徴とする請求項13記載の方法。
  16. 前記音響空間モデルを、ガウス重み付けパラメータを含んだ複数のパラメータとして表現する段階をさらに備え、前記時間モデルを適合させる段階は、前記ガウス重み付けパラメータを適合させることによって実行されることを特徴とする請求項13記載の方法。
  17. 前記時間モデルは、さらに、少なくとも一人の単独の話者からの登録音声の複数の例を得て、フレームに基づいた時間構造情報モデルを構築することによって構築されることを特徴とする請求項13記載の方法。
  18. 階層的な音声モデルにおいて、
    音響空間を表現するための第1層と、
    話者空間を表現するための第1層と、
    予め定めたフレーム構造に従って、登録音声の時間構造を表現するための第3層と
    を備えることを特徴とする音声モデル。
  19. 前記第1層は、一組のガウスモデルパラメータであることを特徴とする請求項18記載の音声モデル。
  20. 前記第2層は、一組のガウスモデル平均パラメータであることを特徴とする請求項18記載の音声モデル。
  21. 前記第3層は、一組のがウスモデル重み付けパラメータであることを特徴とする請求項18記載の音声モデル。
  22. 前記第2層は、前記第1層に階層的に関連していることを特徴とする請求項18記載の音声モデル。
  23. 前記第3層は、前記第2層に階層的に関連していることを特徴とする請求項18記載の音声モデル。
  24. 前記第3層は、前記第3層と前記第2層の間の影響度合いを調整するために、適合因子に基づいて前記第2層に関連していることを特徴とする請求項23記載の音声モデル。
  25. 音声処理システムにおいて、
    それに対して入力音声発声が試験される、一組の確率的モデルを持った音声認識器を備え、前記一組の確率的モデルは、
    音響空間を表現するための第1層と、
    話者空間を表現するための第1層と、
    予め定めたフレーム構造に従って、音声の時間構造を表現するための第3層と
    を備えるように構成されることを特徴とする音声処理システム。
  26. 前記一組の確率的モデルは、登録発声を記憶し、前記音声認識器は、単語検索機能を実行することを特徴とする請求項25記載の音声処理システム。
  27. 前記一組の確率的モデルは、登録発声を記憶し、前記音声認識器は、話者認識機能を実行することを特徴とする請求項25記載の音声処理システム。
  28. 前記第1層は、一組のガウスモデルパラメータであることを特徴とする請求項25記載の音声モデル。
  29. 前記第2層は、一組のガウスモデル平均パラメータであることを特徴とする請求項25記載の音声処理システム。
  30. 前記第3層は、一組のガウスモデル重み付けパラメータであることを特徴とする請求項25記載の音声処理システム。
  31. 前記第2層は、前記第1層に階層的に関連していることを特徴とする請求項25記載の音声処理システム。
  32. 前記第3層は、前記第2層に階層的に関連していることを特徴とする請求項25記載の音声処理システム。
  33. 前記第3層は、前記第3層と前記第2層の間の影響度合いを調整するために、適合因子に基づいて前記第2層に関連していることを特徴とする請求項32記載の音声処理システム。
JP2003421285A 2002-12-18 2003-12-18 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法 Pending JP2004199077A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/323,152 US20040122672A1 (en) 2002-12-18 2002-12-18 Gaussian model-based dynamic time warping system and method for speech processing

Publications (1)

Publication Number Publication Date
JP2004199077A true JP2004199077A (ja) 2004-07-15

Family

ID=32393029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003421285A Pending JP2004199077A (ja) 2002-12-18 2003-12-18 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法

Country Status (4)

Country Link
US (1) US20040122672A1 (ja)
EP (1) EP1431959A3 (ja)
JP (1) JP2004199077A (ja)
CN (1) CN1514432A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346553B2 (en) 2012-05-31 2019-07-09 Fujitsu Limited Determining apparatus, program, and method

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496509B2 (en) * 2004-05-28 2009-02-24 International Business Machines Corporation Methods and apparatus for statistical biometric model migration
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
US20080140399A1 (en) * 2006-12-06 2008-06-12 Hoon Chung Method and system for high-speed speech recognition
US8010589B2 (en) 2007-02-20 2011-08-30 Xerox Corporation Semi-automatic system with an iterative learning method for uncovering the leading indicators in business processes
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
US9595260B2 (en) 2010-12-10 2017-03-14 Panasonic Intellectual Property Corporation Of America Modeling device and method for speaker recognition, and speaker recognition system
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US8886533B2 (en) 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US8918406B2 (en) 2012-12-14 2014-12-23 Second Wind Consulting Llc Intelligent analysis queue construction
CN103871412B (zh) * 2012-12-18 2016-08-03 联芯科技有限公司 一种基于45度斜线滚动的动态时间规整方法和系统
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
US10163437B1 (en) * 2016-06-02 2018-12-25 Amazon Technologies, Inc. Training models using voice tags
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
WO2020068056A1 (en) * 2018-09-25 2020-04-02 Google Llc Speaker diarization using speaker embedding(s) and trained generative model
CN110070531B (zh) * 2019-04-19 2021-05-07 京东方科技集团股份有限公司 用于检测眼底图片的模型训练方法、眼底图片的检测方法及装置
CN113112999B (zh) * 2021-05-28 2022-07-12 宁夏理工学院 基于dtw和gmm的短词句语音识别方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
AU1305799A (en) * 1997-11-03 1999-05-24 T-Netix, Inc. Model adaptation system and method for speaker verification
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346553B2 (en) 2012-05-31 2019-07-09 Fujitsu Limited Determining apparatus, program, and method

Also Published As

Publication number Publication date
US20040122672A1 (en) 2004-06-24
EP1431959A3 (en) 2005-04-20
CN1514432A (zh) 2004-07-21
EP1431959A2 (en) 2004-06-23

Similar Documents

Publication Publication Date Title
US6108628A (en) Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
CN105261357B (zh) 基于统计模型的语音端点检测方法及装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
CA2609247C (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
JP2004199077A (ja) 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法
Uebel et al. Improvements in linear transform based speaker adaptation
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
WO1993013519A1 (en) Composite expert
Mitra et al. Articulatory trajectories for large-vocabulary speech recognition
Mohamed et al. HMM/ANN hybrid model for continuous Malayalam speech recognition
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Reuter et al. Multilingual query-by-example keyword spotting with metric learning and phoneme-to-embedding mapping
Mak et al. Improving reference speaker weighting adaptation by the use of maximum-likelihood reference speakers
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Kacur et al. Speaker identification by K-nearest neighbors: Application of PCA and LDA prior to KNN
JP3102195B2 (ja) 音声認識装置
Agrawal et al. Prosodic feature based text dependent speaker recognition using machine learning algorithms
JPH11143486A (ja) 話者適応装置および方法
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Dey et al. Content normalization for text-dependent speaker verification
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Bonastre et al. Gaussian dynamic warping (gdw) method applied to text-dependent speaker detection and verification
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置