JP2004004906A - 固有声に基づいた最尤法を含む話者と環境の適合化方法 - Google Patents

固有声に基づいた最尤法を含む話者と環境の適合化方法 Download PDF

Info

Publication number
JP2004004906A
JP2004004906A JP2003178466A JP2003178466A JP2004004906A JP 2004004906 A JP2004004906 A JP 2004004906A JP 2003178466 A JP2003178466 A JP 2003178466A JP 2003178466 A JP2003178466 A JP 2003178466A JP 2004004906 A JP2004004906 A JP 2004004906A
Authority
JP
Japan
Prior art keywords
speaker
model
maximum likelihood
adaptation
eigenspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003178466A
Other languages
English (en)
Inventor
Patrick Nguyen
パトリック・ヌグイェン
Roland Kuhn
ローランド・クーン
Jean-Claude Junqua
ジャン−クロード・ジュンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/070,054 external-priority patent/US6263309B1/en
Priority claimed from US09/070,208 external-priority patent/US6327565B1/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2004004906A publication Critical patent/JP2004004906A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Toys (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

【課題】新しい話者について多くの訓練データを要することなく話者および環境適応を実現する。
【解決手段】話者当り1モデルで訓練され、モデルパラメータが所定の順序で抽出されて話者当り1個のスーパーベクトルのセットが構成される。主成分解析が上記スーパーベクトルのセットに関して実行されて、固有音声空間を定義する固有ベクトルのセットが生成され、所望とあらばベクトルの数はデータ圧縮のため減少させることができる。新しい話者は、最尤評価に基づいてスーパーベクトルが上記固有声空間内に存在するように制約することによってスーパーベクトルが構成される適合化データを与える。この新しい話者の固有空間内の結果の係数はその話者について適合化モデルが構成されるモデルパラメータの新しいセットを構成するために使用される。環境適応は訓練データ内に環境変化を含ませることで達成できる。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、一般的には音声認識に関し、より詳細には音声認識モデルのパラメータが新しい話者の音声をより良く認識するために更新される話者適応に関する。
【0002】
【従来の技術】
音声認識システムは、話者依存性のものか、話者独立であり得る。話者依存システムは、ある話者が発した多数の単語例(これら例は“訓練データ”と呼ばれる)を与えることによって、当該個人が話した内容を理解できるよう訓練される。話者依存システムは、訓練された個々人についてはきわめて正確であるが、それ以外の人については不正確である。話者独立システムは、応用する言語を話すあらゆる人が使えるように企画されており、通常多数の異なる人々からのデータに基づいて訓練される。訓練データ中にない話者に関して音声認識を実行する場合の話者独立システムにおけるエラーレートは、訓練された話者についての音声認識を実行する匹敵する話者依存システムについてのエラーレートより約2乃至3倍高い。
【0003】
性能を改善する試みとして、多くの音声認識システムは、話者適応を実行する能力を備え、これによって音声認識システムがエラーレートを減少させるよう使用中に調整される。現在の技術文献では基本的に3つの話者適応方式がある。これらは以下の通りである。
【0004】
(1)話者規格化(“変換”とも呼ばれる)
新しい話者の特徴ベクトルによって生成されたデジタル信号の観測値は、話者依存システムが訓練された基準の話者からの観測値により近いものに類似させるように変換される。ある例では、変換は反対の方向、つまり、基準パターンが新しい話者のデータにより近接するように変換される。
(2)新しい話者の話者クラスタリング−観測値は、訓練話者のクラスタを選択するのに使用され、各クラスタはこのクラスタ内の話者についてのみ訓練された隠れマルコフモデル(HMM)の完全なセットで連係されている。話者にとって最も適したクラスタが選択されると、このクラスタのHMMのみを用いて音声認識が実行される。
(3)モデル適応−確かなHMMパラメータが適合化データの特徴を反映するように更新される。2つの最も普及したモデル適合化技術は、マキシマム・アポステリオリ・エスティメーション(最大帰納予測法)MAPおよびマキシマム・ライクリフッド・リニア・レグレッション(最尤線形回帰法)MLLRである。
これら適合化技術の各々は、有効であることが実証されているが、幾つかの欠点がないという訳ではない。一般に言って、より有効な適合化技術は相当の計算資源を必要とするとともに個々の話者に相当の訓練の労力を要求する傾向がある。
【0005】
【特許文献1】
特開平10−207485号公報。
【特許文献2】
特開平11−065589号公報。
【特許文献3】
特開2000−081893号公報。
【非特許文献1】
安居院猛ほか,“画像の処理と認識”,昭晃堂,p.90−92,1992年11月25日。
【非特許文献2】
C. J. Leggetter et al., ”Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech and Language, Academic Press Limited, No. 9, pp.171−185, 1995。
【0006】
【発明が解決しようとする課題とそのための手段】
本発明は話者および環境適応を実施するために全く新しい技術をもたらすものである。本技術は各新しい話者について多量の訓練データを要求することなく、最初の話者独立認識システムが新しい話者および新しい音響環境に関し迅速に実用レベルを達成することを可能にする。この技術は、“固有声適応(適合化)”と称される。本技術は、オフラインステップにおいて、話者依存モデルの多くの集合が主成分解析(PCA)によって分析され、“固有声ベクトル(eigenvoicevectors)”もしくは“固有声(eigenvoices)”と呼ばれる固有ベクトルのセットを与える。このオフラインステップは一回だけ実行されるに過ぎないといえども、計算上かなり集中的である。その後、音声認識システムが用いられる毎に、新しい話者から得られる適合化データに関し軽い計算操作が実行され、固有声で張られた空間内のベクトルを得る。この新しいベクトルは、新しい話者の適応モデルを与える。
【0007】
MAPおよびMLLRのようなモデル適合化技術とは相違して、PCAステップでは、重い計算の大部分はオフラインで行われる。このことは、本発明が音声認識システムが用いられると、話者もしくは環境適応をきわめて迅速にかつ少ない計算負荷で実行することを可能にする。
【0008】
本発明の有効性の一部は、訓練話者の集合的セットと認識システムが適合化されるべき個々の新しい話者についての固有声表現からくるものである。換言すれば、PCAステップの間に得られる固有空間は、全ての訓練話者の集合的音声特徴を表現する。このn次元の空間を定義する個々の固有ベクトルは各々非相関であるか直交しており、データ中の変化を表わす重要度の順序にリストされている。我々の経験では、この配列における最高次の固有ベクトルは男性−女性次元である。この固有ベクトルは正の重みを受取ると話者はおそらく男性であり、固有ベクトルが負の重みを受取ると、話者はおそらく女性である。しかしながら、個々の固有ベクトルは話者間の身体的な相違に対してアプリオリに割当てられるものでないことが理解されるべきである。むしろ、固有ベクトルはPCAが実行される訓練データから全的に派生するものである。
【0009】
適合化の間、新しい話者が音声認識装置を用いると、モデルの出力パラメータは予め決定した固有声の線形結合となるように制約される。換言すれば、新しい話者について訓練される話者依存モデルは訓練話者によって先に定義された固有声空間内に存在しなければならない。これは、比較的軽い計算操作である。本技術は、僅かの量の適合化音声しか用いられない場合でも、良好な話者依存モデルを生成する。
【0010】
本技術は、多量の適合化データが利用できないような話者および環境適合化用途に用いることができる。例えば、本技術は、新しい話者がシステムの操作に関する指示メッセージに電話で応答し、システムは話者がシステムを通じてある注文を出すように操作する音声で動作する相互マーケティングシステムによって良好に働くであろう。
【0011】
より詳細には、本発明は、固有声で張られた空間内に新しいベクトルを配置するための最尤技術(最大尤度)を採用する。最尤技術は、新しい話者からの観測データおよび隠れマルコフモデルを構築するのに用いる知識に基づいて補助関数を生成することを含む。補助関数を用いて最尤ベクトルの微分を取り、極大値を見出すことにより得られる。この最尤ベクトルはこのようにして固有声によって張られた空間内に必然的に制約されるとともに、利用できる入力音声データを与えた新しい話者について上記空間内における最適表現を表わす。
【0012】
本発明によって採用された最尤技術は多くの重要な利点を与える。第1に、最尤ベクトルから構築された適応モデルは、与えられた観測データの品質に応じてHMMモデルの最適なセットを常に生成する。
【0013】
第2に、最尤技術はある計算を伴うが、計算の負荷は固有声表現が個人の音声を記述するのに必要なパラメータの数を劇的に減少することができるために極めて軽い。典型的な隠れマルコフモデル表現は浮動小数点表記された数値のパラメータを数千個必要とするにも拘らず、本発明の固有声表現ははるかに少ない数のパラメータを必要とするにすぎず、システムはより少ない数のパラメータでも動作するが、典型的な例では、ある話者を表わすのに25−100個のパラメータを用いる。計算上の負荷は、本発明によれば、固有ベクトルが直交しており、したがって実行されるべき最大尤度計算は計算機がきわめて容易に計算できる線形方程式のセットを解くことによって達成されるということから、相当に軽減される。
【0014】
第3に、観測データは隠れマルコフモデルによって予め記述された各々のかつ音声単位ごとの例を含まなければならないことはないことである。即ち、最尤技術は、幾つかの音声単位についてのデータが欠けている場合においても働く。対照的に、投影操作を用いて固有空間内に新しい話者のパラメータを配置するためには、隠れマルコフモデルによって予め記述された各々のかつ音素単位ごとに少なくとも1つの例を話者が発生することが必要とされる。実際的に言えば、最尤技術は、非常に短期で多分不完全な訓練セッションに基づいても確固とした適合化モデルの構築を可能にする。
【0015】
本技術は、多量の適合化データが利用できないような話者および環境適合化用途に適用できる。例えば、本技術は、新しい話者がシステムの操作に関する指示メッセージに電話で応答するとともに、話者がシステムを通してある注文を行うよう操作するとシステムが自動的に新しい話者に適応する音声で動作する相互マーケティングシステムにおいて良好に作動する。
【0016】
本発明、本発明の目的と利点をより完全に理解するため以下の詳細な記述と添付の図面を参照されたい。
【0017】
【発明の実施の形態】
本発明の話者適応技術をより良く理解するためには、音声認識システムの基本的な理解が有用である。現在の大部分の音声認識装置は、音声を表わすため、隠れマルコフモデル(Hidden Markov Model; HMM)を採用している。隠れマルコフモデルは状態ダイアグラムを含むモデル化技法である。いかなる音声単位(文節、単語、副単語(subword)、音素等)も、そのモデルに包含される全ての知識資源を用いてモデル化される。HMMは不連続な間隔で観測しうる出力のシーケンスを生成する未知のプロセスを表わし、出力は有限のアルファベット(音声単位の所定のセットに対応する)の要素である。これらのモデルは、生成された観測可能な出力を生成した状態シーケンスが未知であるため“隠れ(hidden)”と呼ばれる。
【0018】
図1に示されるように、HMM10は状態のセット(S1,S2,…、S5)と、図1では矢印で表わされた対の状態間の遷移を定義するベクトルと、確率データの集合とで表わされる。特に、隠れマルコフモデルは遷移ベクトルに関連する遷移確率12のセットと、各状態における観測出力に関連する出力確率14のセットを含む。このモデルはある1つの状態からいま1つの状態に規則的な間隔の離散間隔で計時される。クロック時間において、モデルは現在の状態から遷移ベクトルが存在する他の状態に変化する。図示されているように、遷移はある与えられた状態からそれ自身に戻ることもありうる。
【0019】
遷移確率は、1つの状態から他の状態への遷移がモデルのクロック時に起きる尤度を表わす。かくして、図1に示されるように、各遷移は確率値(0と1の間)を伴なう。ある状態を去る全ての確率の総和は1に等しい。図示の目的で、例示的な遷移確率値のセットが遷移確率テーブル12に与えられている。実際の装置では、これらの値は、任意の状態を去る全ての確率の総和が1に等しいという制約のもとで訓練データによって生成されることが了解されるであろう。
【0020】
遷移が起きる毎に、モデルはそのアルファベットの1要素を放出もしくは出力すると考えられる。図1に示された実施例では、音素に基づいた音声単位が仮定されている。かくして、出力確率テーブル14に特定されている記号は標準の英語において見出される音素の幾つかに対応している。各遷移においてアルファベットのいずれの要素が放出されるかは、出力確率値もしくは訓練中に学習された機能に依存する。放出された出力は、観測のシーケンスを表わし、アルファベットの各要素はある放出確率を有する。
【0021】
音声のモデル化において、離散的なアルファベット記号のシーケンスとは対立するものとしての連続的なベクトルのシーケンスとして出力を取扱うことが共通のやり方である。このことは、出力確率が単一の数値とは対立するものとして、連続的な確率関数として表わされることを必要とする。このように、HMMは多くの場合、1もしくはそれ以上のガウス分布からなる確率関数に依拠している。複数のガウス関数が用いられたときには、16で示すように、複雑な確率分布を定義するため通常これらの関数は加算的に混合される。
【0022】
単一のガウス関数として表わされるにしろ、ガウス関数の混合として表わされるにしろ、確率分布は複数のパラメータで記述される。遷移確率値(テーブル12)と同様、これら出力確率パラメータは浮動小数点表記された数値であってもよい。パラメータテーブル18は訓練話者からの観測データに基づいて確率密度関数(pdf)を表わすために通常使用されるパラメータを特定する。図1において、ガウス関数16における式によって示されるように、モデル化されるべき観測ベクトルOについての確率密度関数は、ガウス密度Nが掛け合わされた各混合成分について混合係数の反復和であり、ガウス密度は平均ベクトルnjとケプストラム或いはフィルタバンク係数音声パラメータを表わす分散行列Ujを有する。
【0023】
隠れマルコフモデルを用いた認識装置の装備の詳細は、ある用途と、他の用途とでは大きく変わる。図1に示すHMMの例は、単に隠れマルコフモデルがいかに構成されるかを単に示すためのものであり、本発明の範囲についての限定を示すものではない。この点に関して、隠れマルコフモデル化のコンセプトには多数の変化がある。以下の記述から十分に理解されるように、本発明の固有音声適合化技術は異なる隠れマルコフモデルの変形の各々並びに他のパラメータ準拠の音声モデル化システムと協働するように容易に適合させることができる。
【0024】
固有声空間の構築
複数の訓練話者を表わすため固有空間を構築するプロセスは図2に示されている。図2では、T人の訓練話者20が固有空間が構築されるべき訓練データの資料を与える。好ましくは相当多数の話者(100人から200人の程度)が訓練データを提供する。これらの訓練データは24で示される話者依存(SD)モデルを訓練するのに用いられる。話者当り1モデルがステップ24で構築され、各モデルは認識システムが理解できる音空間を表わす。図1に関する先の記述にしたがって、各モデルはHMMのセットであり得、各音声単位について1つのHMMである。このことは、図2において26で図示されている。
【0025】
T人の話者による全ての訓練データが各話者依存モデルを訓練するのに用いられた後、T個のスーパーベクトルのセットが28で構築される。T人の話者の各人について1つのスーパーベクトル30が存在する。各話者についてのスーパーベクトルはその話者についての隠れマルコフモデルのパラメータ18の少なくとも一部に対応するパラメータ(典型的には浮動小数点表記された数値)の順序付けられたリストを含む。
【0026】
各音声単位に対応するパラメータはある与えられた話者についてのスーパーベクトル内に含まれている。パラメータは、任意の便利な順序で構成することができる。順序は決定的ではないが、ある順序が一旦採用されると、T人の話者の全てについてそれに従わなければならない。
【0027】
順序付けられた隠れマルコフモデルパラメータはスーパーベクトルを形成するため連結される。スーパーベクトルにどのHMMパラメータが含まれるかの選択は、利用できる処理能力に依存する。我々は、ガウス関数手段からスーパーベクトルを構築することが良好な結果をもたらすことを見出した。より大きな処理能力が利用できるならばスーパーベクトルは遷移確率(図1のテーブル12)や共分散行列パラメータ(図1のパラメータ18)等の他のHMMパラメータをも含むことができる。当然のことながら、隠れマルコフモデルが離散的な出力(確率密度と対立するような)を生成するならば、これらの出力値はスーパーベクトルを構成するのに用いることができる。
【0028】
スーパーベクトルが各訓練話者について構築された後、主成分解析がステップ32で実行される。T個のスーパーベクトルに関する主成分解析は、34において、T個の固有ベクトルを与える。かくして、120名の訓練話者が用いられた場合には、システムは120個の固有ベクトルを生成する。これらの固有ベクトルは固有声空間又は固有空間と呼称する空間を定義する。
【0029】
固有声空間を作り上げる固有ベクトルは相関されておらず、各ベクトルは異なる話者が識別できるように、異なるディメンジョンを表わしている。もとの訓練セット内の各スーパーベクトルはこれら固有ベクトルの線形結合として表わされる。固有ベクトルはデータのモデル化における重要度によって順序付けされており、第1の固有ベクトルは第2より重要で、それは第3より重要であるというようになっている。この技術を用いた我々の実験では、第1の固有ベクトルは男性−女性次元に対応するものになることが示された。
【0030】
T個の固有ベクトルの最大値がステップ32で生成されるにも拘らず、実際には、最初のN個の固有ベクトルだけを保持して、幾つかの固有ベクトルを削除することが可能である。かくして、ステップ36では、T個の固有ベクトルからN個を任意に抽出し、ステップ38において、次元数を減少させたパラメータの固有空間を構成する。より高い順序の固有ベクトルは、話者を識別するために重要度の低い情報を有しているに過ぎないので、これらのベクトルを削除することができる。訓練話者の総数より少ない次元数に固有声空間を減少させることは、制限されたメモリとプロセッサ資源を備えた実際のシステムを構築するために有効な固有データ圧縮を与えることができる。
【0031】
適合化の実行
固有声空間が一旦構築されると、話者適応もしくは環境適応が容易に達成できる。固有空間の構築は計算が膨大で、通常オフラインで実行されるが、適合化は比較的簡単な計算演算であり、新しい話者がシステムを使用している間でも実行することができる。
【0032】
図3を参照して、新しい話者40からの音声はステップ42においてHMM44(各音声ユニットについて1個)のパラメータから統計量(以下、抽出統計量という)を計算するために使用される。
【0033】
統計量は、訓練システムが訓練音声の内容を予め知っている管理モードもしくは音声認識システムが適合化音声の内容を決定するため話者独立モデルを用いる非管理モードのいずれでも抽出することができる。
【0034】
抽出された統計量で構築されたモデルは、通常、少なくとも初期の段階では、音声認識に極めて不適切である。スーパーベクトルは、ステップ46において、訓練話者によって先に生成された固有声空間38内にスーパーベクトル48が入るよう構築される。スーパーベクトル48は、音声認識のために使用されるHMMモデルが固有声空間38を形成する固有声の線形結合でなければならないという強制制約のもとで構築される。
【0035】
抽出統計量44は、新しい話者についての適合化モデルを構成する係数の線形結合を評価するために用いられる。そして、ステップ50では、HMMの新しいセットが適合化モデル52を生成するためスーパーベクトルに基づいて構築される。所望とあれば、任意の反復プロセスがステップ54において適合化モデル52から新しいスーパーベクトルを構築し、その後、更なる適合化モデルがいま1つのHMMのセットを構築するために実行される。
【0036】
図4は、2次元空間において新しい話者の音声モデルが固有空間38内に制約されるプロセスを図示している。上で注意したように、固有空間は主成分解析によって生成された固有ベクトルの数に等しいかそれ以下の次元数の多次元空間である。図4では、図を簡単化するため2次元の場合が図示されているが、固有空間38は通常2よりはるかに大きい次元数である。
【0037】
新しい話者は、データ点60で図式的に示されている。データ点60は図3に示すスーパーベクトル48に対応する。60の新しい話者は固有空間48の外に位置していることに注目されたい。上で議論したように、適合化の手法はこの新しい話者に良い適合したモデルを表わす固有空間内の点を見出すことを含む。適合化モデルは新しい話者によって発せられた入力音声に基づいているが、固有空間38内に存在するように制約される。
【0038】
新しい話者を固有空間内に置くための1つの簡単な技法は、線62で示すように、簡単な投影操作を用いることである。投影操作は、新しい話者の入力音声に対応した固有空間外の点にできるだけ近い固有空間内の点を見付け出す。このようにして、簡単な投影により、新しい話者は固有空間38内の点64に置かれる。これらの点はHMMのセットが再構成されるスーパーベクトルであることに注意されたい。
【0039】
投影操作は、固有空間内の点が新しい話者にとって最適であることを保証できないという点で比較的粗い技術である。更に、投影操作は、新しい話者についてのスーパーベクトルがその話者についてのHMMのセット全体を表わすデータの完全なセットを含むことを要求する。この要求は相当な実際上の制限をもたらす。新しい話者を固有空間に制約するために投影を用いる場合、その話者は全ての音声単位がデータ内に表わされるように十分な入力音声を提供しなければならない。例えば、隠れマルコフモデルが英語言語の全ての音声を表現するように企画されたとすると、訓練話者は簡単な投影手法が使用される前に全ての音声を与えなければならない。種々の用途において、この制約は実際的ではない。
【0040】
本発明の最尤手法は単純な投影の上述の欠点の両方の解決を図るものである。本発明の最尤手法は、新しい話者によって与えられた音声を生成する最大の確率を持った隠れマルコフモデルのセットに対応したスーパーベクトルを表わす固有空間38内の点66を見出す。図示の目的で、図4では最尤プロセスは線68で示されている。
【0041】
単純な投影操作はスーパーベクトルの全ての要素を等しい重要度を有するものとして取扱うが、最尤技術は実際の適合化データから派生する確率に基づいており、したがって、より確からしいデータをより重く重み付けする傾向がある。単純な投影技法とは相違して、新しい話者が訓練データの全セットを与えない(即ち、幾つかの音声単位が欠けたデータ)場合でも、最尤技術は有効に働く。最尤技術は、スーパーベクトルが構築される文脈を考慮しており、あるモデルが他よりより確からしい確率を持った隠れマルコフモデルから新しい話者によって与えられた入力音声を生成する。
【0042】
実際的な効果として、最尤技術は、どれだけ多くの入力音声が実際に利用できるかに関係なく、新しい話者に最もコンシステントな固有空間内のスーパーベクトルを選択する。参考のため、新しい話者がアラバマ(Alabama)生まれの若い女性であるとする。この話者から2,3のシラブルを受取ると、最尤技術は話者であるアラバマ生まれの女性のアクセントに合った全ての音素(入力音声に表わされていないものを含んで)を表わす固有空間内の点を選択する。
【0043】
図5は最尤技術の作用を示す。新しい話者による入力音声はスーパーベクトル70内の各パラメータについて統計量を抽出するのに使用される。上で説明したように、スーパーベクトルはケプストラム係数等に対応した音声パラメータの連鎖リストを備える。図示の実施例では、これらのパラメータは、新しい話者に対応する隠れマルコフモデルのセットから抽出されたガウス関数手段を表わす浮動少数点表記された数値である。他のHMMパラメータも用いることができる。図では、これらのHMM手段は、72で示すように、ドットとして示されている。データで十分に満たされると、スーパーベクトル70は、HMMモデルで表わされる音声単位の各々に対応する各HMM手段についての浮動少数点表記された数値を含む。図示の目的で、音声“ah”についてのパラメータは存在するが、音素“iy”についてのパラメータは存在しないと仮定されている。
【0044】
固有空間38は固有ベクトル74、76および78のセットによって表わされる。新しい話者からの観測データに対応するスーパーベクトル70は固有空間内において、固有ベクトルの各々にw1、w2、…wnで指定された対応する固有値を掛け合わせることによって表わされる。これらの固有値は初期には未知である。最尤技術はこれら未知の固有値についての値を見付け出す。より詳細に説明するように、これらの値は固有空間内の新しい話者を最も良く表わす最適解をさがすことによって選択される。
【0045】
固有値を固有空間38の対応する固有ベクトルに掛け合わせるとともに積を総和した後、適合化モデル80が作り出される。入力音声(スーパーベクトル70)の抽出統計量が幾つかの欠けたパラメータ値(例えば、“iy”パラメータ)を有するかも知れないが、適合化モデルを表わすスーパーベクトル80は全て値で満たされている。更に、スーパーベクトル80内の値は最適解を表わす、即ち、固有空間内において新しい話者を表わす最尤度を有する。
【0046】
個々の固有値w1、w2…wnは最尤ベクトルからなると見なされる(以下、最尤ベクトルと呼称される)。図4は82で図式的にベクトルを図示している。図に示されているように、最尤ベクトル82は固有値w1、w2…wnのセットを有する。
【0047】
最尤技術を用いた適合化の実行手順は図6に示されている。新しい話者からの音声は100で示される観測データを有する、統計量のセットを抽出するために使用される。抽出統計量102は、104においてスーパーベクトルを構築するのに使用される。図示の如く、抽出統計量はHMMモデル102のセットを構築するのにも用いることができる。
【0048】
スーパーベクトル106を用いて、108において補助関数Qが形成される。本実施例では、HMMモデル102の所定のセットについて観測データを生成する確率を表わす補助関数を採用している。補助関数Qの相続く計算は、関数が確率項Pのみならずその項の対数logPをも含む場合には、より容易に行える。
【0049】
補助関数は、ステップ110において固有値w1、w2…wnの各々について個々に補助関数の微分をとることによって最大化される。例えば、固有空間が100次元である場合、このシステムは補助関数Qの100個の微分を夫々零とおいて計算し、各wについて解く。これは、大変な計算のように見えるが、従来のMAPもしくはMLLR技術で通常要求される数千の計算を実行するのに比べてはるかに計算上経済的である。
【0050】
このようにして得られたwのセットは、最尤点に対応する固有空間内の点を特定するために必要な固有値を表す。このwのセットは、したがって固有空間内の最尤ベクトルをなす。この関係で、固有ベクトル(図5の固有ベクトル74,76および78)の各々は直交ベクトルのセット又は固有空間内に制約された点を定義するため固有値に掛け合わされる座標を定義する。ステップ112において示されるように、最尤ベクトルは固有空間における最適点(図4の点66)に対応するスーパーベクトル114を構築するために使用される。スーパーベクトル114は、次いで、ステップ116において、新しい話者についての最適化モデル118を構築するために用いられる。
【0051】
本発明の最尤フレームワークの論理において、モデルλに関して観測値O=o1、…、oTの尤度を最大化する。これは、補助関数Q(下記の)を繰返し最大化することによって実行され、ここでλは繰返しにおける現在モデルでありλ^は推定されたモデルである。
【0052】
【数1】
Figure 2004004906
【0053】
予備的な近似として、手段に関してのみ最大化を実行する。確率PがHMMのセットによって与えられる論理において、以下の式を得る。
【0054】
【数2】
Figure 2004004906
【0055】
ここで、
【数3】
Figure 2004004906
および、Oを時刻tにおける特徴ベクトル、
(s)−1を状態Sの混合ガウス関数についての逆分散、
μ (s)を状態S、混合成分mについて近似された適合化平均、
γ (s)(t)をP(混合ガウス)関数mを用いた|λ、Oとする。
【0056】
新しい話者のHMMについてのガウス関数手段が固有空間内にあると仮定する。この空間が平均スーパーベクトル/μ(j=1、…E)で張られているとする。
【0057】
【数4】
Figure 2004004906
【0058】
ここで、/μ(s) (j)は固有ベクトル(固有モデル)jの状態Sにおける混合ガウス関数についての平均ベクトルを表わす。
【0059】
次に、以下のものが必要である。
【0060】
【数5】
Figure 2004004906
【0061】
/μは直交しており、Wは本話者モデルの固有値である。いかなる新しい話者も観測話者によるデータベースの線形結合としてモデル化可能であると仮定する。
【0062】
次いで、λの状態におけるS,Mの混合ガウス関数におけるmを用いて
【数6】
Figure 2004004906
【0063】
Qを最大化する必要があるので、ここでは単に以下のようにセットする。
【0064】
【数7】
Figure 2004004906
【0065】
(固有ベクトルは直交しているので∂w/∂w=0,i≠j…であることに注目すべきである。)
【0066】
したがって、以下の式を得る。
【0067】
【数8】
Figure 2004004906
【0068】
上記の微分を計算して以下の式を得る。
【0069】
【数9】
Figure 2004004906
【0070】
これより、線形方程式のセットを見出すことができる。
【0071】
【数10】
Figure 2004004906
【0072】
環境適応
話者適合化技術として本発明を記述してきたが、本技術は環境適応に容易に拡張することができる。多くの音声認識システムは、マイクロホンの置き方、室の音響、背景雑音、音声信号チャネル品質等の環境条件にきわめて敏感である。固有ベクトルは、丁度異なる話者をモデル化するのに使用されるのと同様に、異なる話者環境をモデル化するのに使用することができる。
【0073】
多くの事例において、話者適応と環境適応の両方の要求を満足することが望ましい。これを達成するためには、訓練話者が広汎な種々の環境下で記録されることを単に保証すればよい。良好な性能を得るために、訓練話者の数や固有音声の保持される数は静かな環境下における固有声適合化に必要なものより大きいことが必要である。でなければ、手順は上に述べたのと同じである。
【0074】
話者ではなくて、環境に適応する話者独立システムを構築するためには、上記の技術の僅かな変更が用いられる。まず、E個の話者独立モデルを訓練する。ここで、Eは訓練データにおける異なる環境の数である。理想的には、E個の異なる記録環境はできるだけ種々である。固有声手順は上に記述した通り実行される。この場合、固有声ベクトルは環境間の変化の成分を表わす。したがって、第1の固有ベクトルは、例えば話者適応の場合のように、男性−女性次元を表わすかも知れないし、表わさないかも知れない。
【0075】
本発明は、現在の好ましい実施例に関して記述されたが、本発明は種々の異なる用途に適合化しうることが認識されるであろう。従って、先に説明した事例は添付の請求の範囲に対する制限を与えるものではなく、本発明のコンセプトを示すために意図されたものであるにすぎない。
【図面の簡単な説明】
【図1】本発明を理解するのに有用な隠れマルコフモデル(HMM)の一例を示す。
【図2】複数の訓練話者から固有空間を構築する方法を図示するデータフローダイアグラムである。
【図3】本発明にしたがって固有声を用いて適合化モデルが構築される方法を図示するデータフローダイアグラムである。
【図4】本発明の最尤操作で投影操作を示す、固有空間の簡単な(2次元の)図示例である。
【図5】新しい話者による観測データが、本発明にしたがった適合化モデルに固有空間を通じて変換される方法を図示するデータ構造のダイアグラムである。
【図6】本発明の最尤固有空間適合化プロセスを示すフローチャートダイアグラムである。
【符号の説明】
20…T話者、 22…訓練データ、 24、42…SDモデルの訓練、 28…Tスーパーベクトルの構成、 32…主成分分析の実行、 34…T固有ベクトル、 36…T固有ベクトルのうちのN個の任意抽出、 38…N固有ベクトル、 40…新しい話者、 50…スーパーベクトルに基づきHMMの新しいセットを構成、 52…適合化モデル、 54…更なる適合モデルに対して任意の繰返し、 100…HMMの構成、 104…スーパーベクトルの構成、 108…補助関数Qの構成、 110…最大尤度の検出、 116…適合化モデルの構成。

Claims (11)

  1. 話者適応を実行する適合化方法であって、
    複数の訓練話者に対して複数の話者モデルのセットを提供するステップと、
    上記複数の話者モデルのセットから、複数のスーパーベクトルのセットを、各スーパーベクトルが上記複数の訓練話者の一人と相関するように構築するステップと、
    上記複数のスーパーベクトルのセットに対して主成分解析を実行することにより、上記複数の訓練話者を表現する固有空間を定義する複数の固有ベクトルのセットを生成するステップと、
    新しい話者から入力音声を受信するステップと、
    上記新しい話者からの上記入力音声から適合化モデルを生成し、かつ上記複数の固有ベクトルのセットを用いて上記適合化モデルが上記固有空間内に存在するように上記適合化モデルを制約するステップとを含むことを特徴とする適合化方法。
  2. 与えられた話者に関連付けられた上記複数の話者モデルからの複数のモデルパラメータを連結することによって上記与えられた話者に関するスーパーベクトルを構築するように、上記各話者モデルは1つ又は複数のモデルパラメータを定義することを特徴とする請求項1記載の方法。
  3. 上記与えられた話者に関する各話者モデルは異なる音声単位に対応することを特徴とする請求項2記載の方法。
  4. 上記主成分解析を実行するステップは、上記訓練話者の数に等しい数の固有ベクトルのセットを生成することをさらに含むことを特徴とする請求項1記載の方法。
  5. 上記主成分解析を実行するステップは、複数の固有ベクトルの順序付けされたリストを生成することと、上記順序づけされたリストの予め決められた部分を削除して上記固有空間の次元数を減少させることをさらに含むことを特徴とする請求項1記載の方法。
  6. 上記適合化モデルを制約するステップは、上記入力音声を上記固有空間へ投影することによって実行されることを特徴とする請求項1記載の方法。
  7. 上記適合化モデルを制約するステップは、最大尤度ベクトルを使用することをさらに含むことを特徴とする請求項1記載の方法。
  8. 話者適応を実行する適合化方法であって、
    複数の訓練話者に対して複数の話者モデルのセットを提供するステップと、
    上記複数の話者モデルのセットから、複数のスーパーベクトルのセットを、各スーパーベクトルが上記複数の訓練話者の一人と相関するように構築するステップと、
    上記複数のスーパーベクトルのセットに対して主成分解析を実行することにより、上記複数の訓練話者を表現する固有空間を定義する複数の固有ベクトルのセットを生成するステップと、
    新しい話者から入力音声を受信するステップと、
    上記入力音声に基づいて最大尤度ベクトルを生成するステップと、
    上記複数の固有ベクトルのセットと上記最大尤度ベクトルとを使用することによって適合化モデルを生成し、上記適合化モデルが上記固有空間内に存在するように上記適合化モデルを制約するステップとを含むことを特徴とする適合化方法。
  9. 上記最大尤度ベクトルを生成するステップは、
    予め定義されたモデルのセットに対して、上記入力音声によって供給される観測データが生成される確率を表す補助関数を定義することと、
    上記補助関数を最大化して上記最大尤度ベクトルを求めることとを含むことを特徴とする請求項8記載の方法。
  10. 上記適合化モデルは、上記最大尤度ベクトルに上記複数の固有ベクトルのセットを乗算することによって制約されることを特徴とする請求項9記載の方法。
  11. 上記最大化するステップは、
    上記最大尤度ベクトルを複数の固有値変数のセットとして表すことと、
    上記複数の固有値変数に関して上記補助関数の1次微分を計算することと、
    上記1次微分がゼロに等しいとしたときに、上記複数の固有値変数の対応する値を求めることとによって実行されることを特徴とする請求項10記載の方法。
JP2003178466A 1998-04-30 2003-06-23 固有声に基づいた最尤法を含む話者と環境の適合化方法 Pending JP2004004906A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/070,054 US6263309B1 (en) 1998-04-30 1998-04-30 Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US09/070,208 US6327565B1 (en) 1998-04-30 1998-04-30 Speaker and environment adaptation based on eigenvoices

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11125125A Division JPH11338491A (ja) 1998-04-30 1999-04-30 固有声に基いた最尤法を含む話者と環境適合化

Publications (1)

Publication Number Publication Date
JP2004004906A true JP2004004906A (ja) 2004-01-08

Family

ID=26750711

Family Applications (2)

Application Number Title Priority Date Filing Date
JP11125125A Pending JPH11338491A (ja) 1998-04-30 1999-04-30 固有声に基いた最尤法を含む話者と環境適合化
JP2003178466A Pending JP2004004906A (ja) 1998-04-30 2003-06-23 固有声に基づいた最尤法を含む話者と環境の適合化方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP11125125A Pending JPH11338491A (ja) 1998-04-30 1999-04-30 固有声に基いた最尤法を含む話者と環境適合化

Country Status (7)

Country Link
EP (1) EP0953968B1 (ja)
JP (2) JPH11338491A (ja)
KR (1) KR100574769B1 (ja)
CN (1) CN1144172C (ja)
AT (1) ATE286616T1 (ja)
DE (1) DE69923026T2 (ja)
TW (1) TW436758B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010019941A (ja) * 2008-07-09 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6253181B1 (en) 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
DE10022700A1 (de) * 2000-05-10 2001-11-22 Sympalog Gmbh Sprachdialogsystem
AU5205700A (en) 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
EP1178467B1 (en) * 2000-07-05 2005-03-09 Matsushita Electric Industrial Co., Ltd. Speaker verification and identification
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
EP1774516B1 (en) * 2004-01-12 2011-03-16 Voice Signal Technologies Inc. Normalization of cepstral features for speech recognition
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
CN111833842B (zh) * 2020-06-30 2023-11-03 讯飞智元信息科技有限公司 合成音模板发现方法、装置以及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
JPH05232989A (ja) * 1992-02-20 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化法
JPH071435B2 (ja) * 1993-03-16 1995-01-11 株式会社エイ・ティ・アール自動翻訳電話研究所 音響モデル適応方式
JPH0792676B2 (ja) * 1993-03-26 1995-10-09 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識方法
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
KR100322730B1 (ko) * 1995-11-27 2002-06-20 윤종용 화자적응방법
JP3216565B2 (ja) * 1996-08-02 2001-10-09 日本電信電話株式会社 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH10207485A (ja) * 1997-01-22 1998-08-07 Toshiba Corp 音声認識装置及び話者適応方法
JP3905620B2 (ja) * 1997-06-10 2007-04-18 本田技研工業株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010019941A (ja) * 2008-07-09 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Also Published As

Publication number Publication date
DE69923026T2 (de) 2005-12-22
KR19990083632A (ko) 1999-11-25
DE69923026D1 (de) 2005-02-10
CN1144172C (zh) 2004-03-31
KR100574769B1 (ko) 2006-04-28
EP0953968A3 (en) 2000-05-10
ATE286616T1 (de) 2005-01-15
CN1243304A (zh) 2000-02-02
EP0953968B1 (en) 2005-01-05
EP0953968A2 (en) 1999-11-03
JPH11338491A (ja) 1999-12-10
TW436758B (en) 2001-05-28

Similar Documents

Publication Publication Date Title
US6343267B1 (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6879952B2 (en) Sound source separation using convolutional mixing and a priori sound source knowledge
US6263309B1 (en) Maximum likelihood method for finding an adapted speaker model in eigenvoice space
Woodland Speaker adaptation for continuous density HMMs: A review
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US8069043B2 (en) System and method for using meta-data dependent language modeling for automatic speech recognition
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
US6327565B1 (en) Speaker and environment adaptation based on eigenvoices
US20050038655A1 (en) Bubble splitting for compact acoustic modeling
JP2004004906A (ja) 固有声に基づいた最尤法を含む話者と環境の適合化方法
WO2002091357A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
Chien et al. A hybrid algorithm for speaker adaptation using MAP transformation and adaptation
Rosti Linear Gaussian models for speech recognition
JP2002082694A (ja) 先行知識に基づく話者確認および話者識別
Kim et al. Maximum a posteriori adaptation of HMM parameters based on speaker space projection
JP2004509364A (ja) 音声認識システム
Hashimoto et al. Bayesian context clustering using cross validation for speech recognition
Kim et al. Rapid speaker adaptation using probabilistic principal component analysis
Kumar Feature normalisation for robust speech recognition
Zhang et al. Subspace-GMM acoustic models for under-resourced languages: feasibility study
He et al. Adaptation of hidden Markov models using maximum model distance algorithm
Kim et al. Rapid online adaptation based on transformation space model evolution
Park et al. Performance improvement of rapid speaker adaptation based on eigenvoice and bias compensation.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050823