JP2002156993A - 複数の学習話者を表現する固有空間の特定方法 - Google Patents

複数の学習話者を表現する固有空間の特定方法

Info

Publication number
JP2002156993A
JP2002156993A JP2001297804A JP2001297804A JP2002156993A JP 2002156993 A JP2002156993 A JP 2002156993A JP 2001297804 A JP2001297804 A JP 2001297804A JP 2001297804 A JP2001297804 A JP 2001297804A JP 2002156993 A JP2002156993 A JP 2002156993A
Authority
JP
Japan
Prior art keywords
model
speaker
eigenspace
learning
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001297804A
Other languages
English (en)
Inventor
Henrik Botterweck
ボッターヴェック ヘンリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002156993A publication Critical patent/JP2002156993A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 音声認識において、個々の話者の超ベクトル
におけるすべてのパラメータの配置が同様であることを
保証する方法を提供する。 【解決手段】 複数の学習話者を表現するための方法で
あり、個々の学習話者の学習音声データを用いて、まず
学習話者各自についての不特定話者モデルSIを形成
し、そして一組のモデルの各特定話者モデルSDを、複
数のモデルパラメータによって記述する。そして個々の
学習話者のモデルのモデルパラメータを、関係する超ベ
クトルの各々に連結することによって、話者毎に組合わ
せモデルを高次元モデル空間内に表示する。その後に、
固有空間に基底ベクトル eを復元するためにモデル空
間の次元を低減して、変換を実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の学習話者を
表現する固有空間を決定する方法に関するものである。
こうした方法では、個々の学習話者の学習音声データを
用いて、一組のモデルのモデルを毎回、複数のモデルパ
ラメータによって記述して、最初に特定話者モデル組
を、個々の学習話者用に発展させている。個々の学習話
者のモデル組の複数のモデルパラメータを、関係する超
ベクトルの各々に連結するように、高次元のベクトル空
間内で、話者毎の組合わせモデルを表示する。この組合
わせモデルでは、その後に、固有空間用の基礎ベクトル
を実現するために次元を低減した際に、学習話者の超ベ
クトルへの変換を実行する。これに加えて、本発明は、
本発明によって生成した固有空間を用いて、モデルの基
本組を現在の話者に適応させる音声認識のモデルに関す
るものである。
【0002】
【従来の技術】音声認識システムは通常、まず特徴分析
装置において、音声信号をスペクトル的または時系列的
に分析する方法で動作する。この特徴分析装置では通
常、音声信号を、フレームと称するセクション(区間)
に分割する。そしてこれらのフレームを、さらなる分析
に適した形に符号化及びディジタル化する。そして観測
した信号を複数の異なる特徴、あるいは多次元空間で
は、「観測値」ベクトルまたは「特徴」ベクトルによっ
て記述する。観測値ベクトルまたは観測値ベクトルの列
全体によって記述される音声信号のセクションの各々
を、実際にありうる異なる観測値列のモデルと比較して
いき、最良と判明した観測値ベクトルまたはベクトル列
に整合するモデルを選択するというようにして、最後
に、実際の音声認識、即ち音声信号の意味的内容の認識
を行う。従って音声認識システムは、ありうる全信号列
の一種のライブラリを具え、音声認識システムはこのラ
イブラリから、各々に整合する信号列を選択する。換言
すれば、音声認識システムは、異なる音響単位に対して
一組の音響モデルを具え、音響単位は実際に、原則とし
て音響信号中に発生する。音響単位は例えば、ダイフォ
ン(ニ単音)またはトライフォン(三単音)のような、
音素または音素的な単位とすることができ、音響単位で
は、音素のモデルが、文脈内の前及び/または後の音素
に依存する。明らかに、音響単位は完全単語とすること
もできる。従ってこうしたモデル組は、音素、ダイフォ
ン、トライフォン、等のモデルのみから構成することが
でき、そして単語、あるいは異なる音響単位の混合から
構成することができる。
【0003】音響単位、即ち観測値ベクトルの特定列を
記述するためによくもちいられる方法は、いわゆる隠れ
マルコフモデル(HMモデル)の利用である。これは確
率論的な信号モデルであり、このモデルについては、信
号列が異なる状態のいわゆる「マルコフ連鎖」にもとづ
いているということが仮定されており、ここでは個々の
状態間に遷移確率が存在する。そして各状態そのものは
認識不可能(隠れ)であり、個々の状態における実際の
観測値の発生を、各状態に応じた確率密度によって記述
する。従ってこの概念では、特定の観測値列に対するモ
デルは、種々の遷移した状態の列、各状態での停止の持
続時間、状態間の遷移確率及び各状態における個々の観
測値の発生確率によって記述することができる。そして
特定音素に対するモデルを作成して、一番適切な開始パ
ラメータを1つのモデル用に用いて、変更によるこのモ
デルのいわゆる学習では、最適なモデルが見つかるま
で、各言語のモデル化すべき音素にパラメータを適応さ
せる。種々のHMモデルについての詳細、並びに適応さ
せるべき個々の厳密なパラメータは、本発明では必須の
役割を果たさず、従って以下では、これらのものについ
ては、本発明をより完全に理解するのに必要な場合に限
って記述する。
【0004】モデルは、特定話者(いわゆるSDモデ
ル)または不特定話者(いわゆるSIモデル)のいずれ
とすることもできる。特定話者モデルは、これらの単語
例の内容がシステムにとって既知であるが、個々の話者
の多数の単語例を、事前に音声認識システムに提供する
という点で、厳密に個々の話者向けに学習させたもので
ある。これらの単語例は学習データと称される。こうし
た特定話者システムまたはモデルはそれぞれ、これらを
自分用に学習させた各個人にとって、比較的厳密なもの
である。しかし、これらのものは他のいずれの人にとっ
ても、極めて非厳密なものである。他方では、不特定話
者システムでは、多種多様な話者の学習データにもとづ
いてモデルの学習を行って、これによりシステムが、そ
れぞれの言語を話すどの人も理解できる立場にあるよう
なモデルを作成する。しかし、学習話者に属さない話者
のものとして認識されるべき音声データによる際の、こ
うした不特定話者システムにおけるエラー率は、この話
者向けに特別に学習させた特定話者システムで比較可能
なものについてのエラー率よりも約20〜25%高い。
【0005】音声認識システムの応用においては、例え
ば自動電話応答システムに使用する際には、不都合なこ
とに、システムまたはモデルをそれぞれ、特定の話者に
合わせて事前に学習させることが不可能である。こうし
たシステムの性能を向上させるために、多くの音声認識
システムはその半面、既に観測した音声データにもとづ
いて、音声認識中にシステムを話者に適応させることが
可能である。このことを可能にする簡単な方法は、現在
の話者から生成される認識すべき観測値を変換して、基
準話者の観測値に近づけるという方法であり、特定話者
モデルをこの基準話者用に学習させる。このことを可能
にするさらなる方法は、類似性に従って学習話者をグル
ープ化して、類似話者の各グループ用の共通モデルを学
習させる。各現在話者に対して、現在話者に最良に適合
するグループのモデルを選択する。非常に良好かつ有効
なさらなる方法は、基本HMモデルを各話者に適応させ
ることであり、即ち、種々のHMパラメータを変更し
て、変更したモデルが各話者により良好に整合するよう
にする。この方法で、音声認識中に特定話者モデルが形
成される。既知の2つの最良なモデル適応技法は、いわ
ゆる最大事後確率推定(MAP)及び最尤線形回帰法
(MLLR)である。しかし、非常に有効な技法は、適
切に形成したモデルを新規話者に適応させるまでに、大
きな計算能力及び計算時間、並びに十分な量の新規話者
の発話信号の両者を必要とするという欠点を有する。
【0006】従って欧州特許第0 984 429 A2号には、音
声認識システムを認識すべき話者に適応させる新たな種
類の方法が提案されており、このシステムはいわゆる固
有発声技法で動作する。この固有発声法の出発点は、話
者及びこれらの話者の組合わせ音響モデルを、以下にモ
デル空間と称する高次元線形空間の要素として表現する
ことであり、この空間内では、話者を表現するすべての
パラメータが「超ベクトル」に連結されている。そして
これらの学習話者の超ベクトルで線形変換を実行し、こ
の変換によって、いわゆる固有空間に対する固有空間基
底ベクトルを復元する。この固有空間は高次元モデル空
間の線形の副空間である。そして、固有空間基底ベクト
ルが、種々の学習話者間の種々の相関の特徴、あるいは
学習話者の種々のモデル間の種々の識別の特徴を表現す
るような方法で、変換を実行する。本明細書に可能な変
換を記述し、これは例えば主成分分析(PCA)であ
り、ここでは種々の話者の超ベクトルによって、相関行
列を形成し、この相関行列の固有ベクトルを、固有空間
基底ベクトルとして特定する。さらに可能な方法は「線
形判別分析(LDA)」、因子分析(FA)、「独立成
分分析(ICA)」、または特異値分解(SVD)であ
る。しかし、これらのすべての変換は、演算に関しては
比較的高密度である。このように提供された固有空間基
底ベクトルの各々が異なる次元を表現して、個々の話者
を相互に区別することができる。さらに、元の学習教材
にもとづいて、各話者の各超ベクトルを、これらの基底
ベクトルの線形結合によって記述することができる。
【0007】
【発明が解決しようとする課題】しかし、固有発声法を
大語彙の連続音声認識に使用するために変更するに当た
り、この方法の問題点が判明している。こうした音声認
識では、はるかに多くの連続音素の可能性があり、そし
て固定のコマンド(命令語)を個別に供与する際より
も、音節等の「摩滅」が頻繁に生じる。従って観測値の
実分布が広がり過ぎて、変形が多すぎる。例えばHMモ
デルを用いる際には、単一のガウス密度またはラプラス
密度のような単一の確率密度のみによって記述されるよ
うな、単一の状態または複数の別個の状態によっては、
もはや音響単位を記述することができない。代わりに、
種々の密度を混合することが必要であり、即ち実分布に
適応した確率密度に至るには、異なる重みを有するこう
した密度を複数重ね合わせなければならない。
【0008】42個の異なる音素を有する言語が1音素
当たり3つの状態(初期状態、中期状態、終期状態)の
みから出発し、かつこれらの各音素が1音素当たり3つ
の状態のみによって記述される場合には、記述すべき状
態は既に142通りになる。連続音声を認識する際に非常
に実用的な、文脈依存の音素を用いる際には、各音素の
直前及び/または直後に来る音素に応じて(トライフォ
ン:三単音)、各音素毎に文脈依存モデルを学習させ
る。言語のこうした三単音を記述するためには、例えば
合計2000通りの状態が必要となる。状態(約30通り)当
たりに、十分な数の異なる確率密度を用いる際には、約
60,000通りの異なる確率密度が存在する。通常使用する
約30〜40次元の特徴空間では、これにより最終的に、単
一話者が約二百万個の別個のモデルのパラメータによっ
て記述されるということになる。これらのモデルのパラ
メータは、特徴空間内の60,000通りの確率密度を記述す
るためのすべての特徴パラメータから構成されるが、通
例、各密度の平均値のみを特徴空間内に置いて、すべて
の密度についての分散が同一かつ一定であるものと仮定
する。また各密度毎に、密度についての共分散を個別に
特定する追加的パラメータを用いることもできることは
明らかである。これに加えて、モデルパラメータには、
例えば状態間の遷移確率、及び種々のHMモデルを記述
するさらなるパラメータを含めることができる。そし
て、これら二百万個のモデルパラメータを超ベクトルに
連結させて、各次元のモデル空間内で表現されるように
する。そして個々のパラメータの配置に注意すべきであ
る。原則として、個々のパラメータの相互の順序付けが
任意であることは確かであるが、一旦選択した配置が全
話者について同一であることは保証すべきである。特
に、全話者について、特定状態の個別の確率密度を記述
する個々の特徴パラメータの配置を選択して、全話者の
パラメータに最適な相関があるようにすべきである。個
々の話者の超ベクトルにおけるすべてのパラメータの配
置が同様である場合のみに、固有空間の所定の基底ベク
トルが、種々の話者を区別するための所望の情報を正し
く表現することが保証される。
【0009】
【課題を解決するための手段】従って本発明の目的は、
固有空間を特定した際に、個々の話者の超ベクトルにお
けるすべてのパラメータの配置が同様であることを保証
する方法を提供することにある。
【0010】この目的は、請求項1に記載の方法によっ
て達成することができる。本発明の中心的な考えは、第
1ステップでは、すべての学習話者を含む学習音声デー
タを用いて、各学習話者用の共通の不特定話者モデル組
を開発するということである。そして、種々の音響単位
についての各不特定話者モデルを学習させるために、す
べての学習音声データを使用する。その後に、第2ステ
ップでは、発見した前記不特定話者のモデル組を、個々
の学習話者に適応させるために、個々の学習話者の学習
音声データを用いる。この適応は、例えばMAPまたは
MLLRのような通常の方法で実行することができる。
共通の不特定話者モデル組のモデルを、個々の話者の特
定話者のモデル組のモデルに適応させると、音声データ
の各意味内容を知ることができる。このことは、いわゆ
る教師付き適応である。この適応で、不特定話者のモデ
ル組のモデルの各モデルパラメータの、特定話者のモデ
ル組の各モデルの個々のモデルパラメータへの割り当て
を、問題なく見つけることができ、これにより、これら
のパラメータの相互の割り当てを明確に決定することが
できる。そして、特定話者のモデル組のモデルのモデル
パラメータで、共通の不特定話者モデル組の同じモデル
の同じモデルパラメータに割り当てたものも、各超ベク
トルの各同一位置に配置するような方法で、モデル組の
個々のモデルパラメータの超ベクトルへの連結を実行す
ることができる。
【0011】これにより、極めて多数の異なるモデルパ
ラメータでも、超ベクトルにおける個々のパラメータの
明確な配置が保証される。
【0012】この方法は、導入部に記述した隠れマルコ
フモデルにもとづいて動作する音声システム用の固有空
間を開発するのに特に適している。しかし、こうした方
法は原則として、多数のパラメータを、システム的な方
法で超ベクトルに連結させて、これにより、例えば異な
る話者を高次元のモデル空間の点として表現するような
他のモデルで用いることもできる。
【0013】本発明による方法の特に好適な例では、固
有空間の基底ベクトルを特定するために、基底ベクトル
の簡単な変更によって、まず高次元空間を話者の副空間
に分けて、これらの副空間にすべての学習話者の超ベク
トルを配置する。そして固有空間基底ベクトルを特定す
るための実際の変換を、話者副空間で実行する。その後
に、見出した固有空間基底ベクトルを、簡単な方法でモ
デル空間に再変換する。こうした簡単な基底ベクトルの
変更は、例えば、超ベクトルそのもののグラム−シュミ
ット正規直交化か、あるいは好適には、超ベクトルの差
分ベクトルを、選択した元のベクトルに対してこのよう
に正規直交化することによって可能である。そして平均
の超ベクトルを元のベクトルとして使用することが好ま
しい。この超ベクトルのパラメータは、個々の特定話者
の超ベクトルのパラメータの各平均値である。基底ベク
トルのこうした簡単な変更は、現在のコンピュータで
は、高次元空間においても適切な方法で問題なく実行す
ることができる。この話者副空間内でn人の異なる話者
を表現するためには、話者副空間がn−1の最大次元を
有するべきであり、即ち、固有空間の基底ベクトルの実
際の演算を実行する空間の次元が、元のモデル空間の次
元に比べて大幅に低減されて、演算速度及びメモリ容量
が大幅に節減される。導入部に記述したモデル空間の場
合、即ち連続音声を認識するために約二百万次元を用い
るべき場合には、現在利用可能なコンピュータの、必要
な計算容量、及び導入部に記述した変換方法により固有
空間基底ベクトルを特定することを少しでも可能にする
ために必要な主記憶割り当てを低減する必要がある。
【0014】固有空間の種々の基底ベクトルは、異なる
話者を区別するための重要度に従って配置することが好
ましい。このことは、話者を識別可能にする情報を少し
しか含まないような、固有空間の最も重要でない基底ベ
クトルを除くことで、音声認識システムで使用する固有
空間を縮小する可能性をさらにもたらす。従って、話者
認識において最終使用した固有空間の次元は、学習話者
の数よりもずっと少ない。このため、高次元のモデル空
間内でこのように提供した先験的に最適化された固有空
間内では、学習話者の個々の特定話者モデルを特徴化し
て、新規話者への適応を実行するのに、少数の座標で十
分である。従って必要な座標数は、例えばMLLRのよ
うな他の適応方法の自由度数の一部に過ぎない。超ベク
トルの共分散行列の固有ベクトルを固有空間基底ベクト
ルとして特定するために、PCA法を実行する際には、
関連する固有値にもとづいて固有ベクトルの評価を実行
することができる。より大きい固有値を有する固有ベク
トルは、より小さい固有値を有する固有ベクトルよりも
重要である。
【0015】本発明によれば、こうした固有空間は音声
認識法で用いることができ、音声認識法では、固有空間
を用いて基本モデルの第1組を現在話者に適応させ、こ
の適応は、この話者のものとして認識されるべき既に観
測した音声データによって行う。
【0016】これを行うためには、種々の可能な方法が
ある。これらのいくつかは、欧州特許第0 984 429 A2号
に記載されている。従って基本モデルの各話者への適応
は、適応させたモデルが最終的に固有空間内に存在する
ような方法で行い、即ち、固有空間の種々の基底ベクト
ルの線形結合で表現することができる。
【0017】最も簡単な方法は、固有空間内の基本モデ
ルの直接射影である。こうした射影により、固有空間の
外部に存在する新規話者の基本モデルに最寄りの、固有
空間内の点を正確に発見することができる。不都合なこ
とに、この方法は大雑把すぎる。これに加えて、新規話
者についての十分な入力音声教材が存在する際のみに、
こうした射影操作が発生し、すべての音響単位がデータ
中に少なくとも1回表現されるようになる。多くの応用
では、これらの条件が満足されない。
【0018】代案として、前記文献にも提案されている
可能な方法があり、これは最尤固有発声分解法(MLE
D)である。この方法では、新規話者の音声によって発
生する確率が最大である隠れマルコフモデルの組に属す
る超ベクトルを正確に表現する固有空間内の点を見出
す。この方法のこうした特定技法については、ここでは
これ以上説明しない。この関係の参考文献として、欧州
特許第0 984 429 A2号がある。
【0019】またこれら2つの方法では、学習話者の種
々の特徴とは非常に異なる特徴を有する話者について
も、固有空間内で1つのモデル組のみを作成する。しか
しこうした話者は、学習話者の固有空間内のモデル組に
よって最適には表現されないので、まず本発明による方
法で固有空間内のモデル組を開発し、そしてこの組を、
MAP法またはMLLR法による最適な適応のための新
たな基本モデル組として利用するのが現実的である。し
かし、固有空間を利用しながら基本モデル組を新規話者
に適応させるために、他のいずれの方法も使用できるこ
とは明らかである。
【0020】本発明による方法で、連続音性信号の認識
での、比較的高速な単一話者への適応が可能である。大
きな演算コストは、学習音声教材を処理するため、及び
固有空間を見出すために一度だけ生じることになるが、
パラメータ空間を副空間に分けるために基底ベクトルの
変更を行うので、大語彙の音声認識では、演算コストそ
のものを問題なく制御することができる。この方法で、
何百万ものパラメータを直接使用することなく、固有空
間を有効に形成することができる。
【0021】
【発明の実施の形態】以下、本発明の実施例について図
面を参照しながら詳細に説明する。以下に説明する特
徴、及び既に上述した特徴の、前記の組合わせだけでな
く、単独または他の組合わせも、本発明の本質となりう
る。
【0022】本発明による方法はまず、学習話者、即ち
本実施例では300人の異なる話者の音声データ教材の全
体を、種々の音響単位についての異なる不特定話者モデ
ルSIを有する共通の不特定話者モデル組を学習させる
ために使用することから開始する。
【0023】1つの音響単位についてのこうした不特定
話者モデルSIを、図1の第1ステップに実線の楕円区
分で示す。実際にはこれは、複数の確率密度によって記
述される3つの状態から構成されるモデルである。ここ
でもこれらの密度は33個の音響パラメータによって記述
され、これらの各々が、特徴空間内の確率密度の平均値
である。以下の実施例では、16個のメルケプストラム係
数及びそれらの16個の1次導関数を特徴パラメータとし
て使用する。エネルギの2次導関数、即ち0番目のメル
ケプストラムを33番目の特徴として追加する。こうした
モデルはより少数のパラメータで記述することも、例え
ば密度分布の分散のようなさらなる追加的パラメータに
よっても記述できることは明らかである。
【0024】第2ステップでは、学習話者の各学習教材
を用いながら、これらの不特定話者モデルSIを個々の
話者に適応させ、即ち特定話者モデルSDを作成する。
図1に示す実施例では、不特定話者モデルSIを4人の
異なる話者に適応させる。
【0025】図2では、2人の学習話者S1、S2のみを
有する例を参照して、この方法をより明らかにする。図
の点は、2人の学習話者S1、S2が発声した特定の音響
単位の観測値が発生したことに対応する。これは特徴空
間内での表現であり、ここでは明確さのために2次元の
みを有する。しかし通常、単一の観測値は、2つの特徴
パラメータでは記述されず、多数の、本実施例では前述
の33個の異なる特徴パラメータによって記述される。従
って本実施例における実際の特徴空間は図2に示すよう
な2次元ではなく、33次元である。
【0026】なお、2人の話者S1、S2についての特定
音響単位の個々の観測値は、広い領域で空間的に分布
し、図に示す例では、2人の話者S1、S2について2つ
の局所的最大値が明らかに形成されている。従って1つ
のモデルでは、単一のガウス確率密度では、この音響単
位を十分良好に形成することができず、少なくとも2つ
の確率密度を重ね合わせたものを用いて、観測値の実空
間分布における2つの最大値を表現することになる。実
際には、観測値の分布は通常、さらに広きにわたり、こ
のため良好なモデル化のためには、約30通りの確率密度
を重ね合わせる。
【0027】特定の話者の特定の音響単位についてのモ
デルのどの確率密度が、他の話者の同じ音響単位につい
ての各モデルのどの確率密度に対応するかを特定するた
めに、まず、すべての学習音声データで、共通の不特定
話者モデルを学習させる。図2では、このモデルはちょ
うど2つの不特定話者ガウス確率密度SID(1)、SI
(2)を有する。そして次のステップでは、2人の話者
1、S2各自の既知の学習音声教材を用いながら、この
不特定話者モデルを、2人の話者の各自に適応させる。
これにより、2つの確率密度SDD(1) 1、SDD(2) 1
有する第1話者S1用の特定話者モデルができ、そして
2つの確率密度SDD(1) 2、SDD(2) 2を有する第2話
者S2用の他の特定話者モデルができる。これらのモデ
ルは同一の不特定話者の開始モデルから発展させたの
で、確率密度の割り当て、即ち不特定話者モデルの同じ
確率密度SID(1)、SID(2)から発展させた2人の話
者S 1、S2の確率密度SDD(1) 1、SDD(2) 1、SDD
(1) 2、SDD(2) 2の対応のさせ方は明らかである。図2
に示す簡単化した場合では、話者S1、S2の個々の観測
値の分布の局所的最大値の位置から、この正しい割り当
てを肉眼で見つけることもできる。しかし、学習音声デ
ータの実際の評価で考えると、問題が明らかになり、即
ち2次元空間内の2つの分布ではなく、モデルの状態の
個々の分布どうしを少し重複させながら、33次元空間内
の約30通りの分布を相互に割り当てることができる。
【0028】本発明による割り当て方法により、話者毎
に、個々の密度のパラメータ割り当て、個々の状態のパ
ラメータ割り当て、及び個々のモデルのパラメータ割り
当てが明らかに存在するということが達成される。既知
の順序付けにもとづいて、全話者についてのすべての超
ベクトルにおいて、同じパラメータ順序が存在すること
を保証しながら、全話者についての全パラメータを、話
者毎の超ベクトルに連結させる。これらの超ベクトルを
用いて、個々の話者を高次元モデル空間内の点として正
確に表現することができ、本実施例では約2×106空間
となる。このモデル空間は、学習中の話者の変化の全情
報を含んでいる。
【0029】後の音声認識用の情報を有効に使用するた
めに、必須の情報を失うことなく、データ組の低減する
こと、特にモデル空間の次元の低減することが必要であ
る。こうするために固有発声法を用い、この方法では、
個々の話者の超ベクトルの変換を実行して、固有空間の
基底ベクトルを見出す。この変換では、例えば変換すべ
きベクトルの分散のような相互のばらつきにもとづく低
減基準を用いる。可能な変換は、導入部に記述したよう
な、主成分分析(PCA)である。また、線形判別分析
(LDA)、因子分析(FA)、独立成分分析(IC
A)、または特異値分解(SVD)のような他の適切な
方法も明らかに用いることができる。
【0030】以下の実施例では、固有空間の基底ベクト
ルを見出すために、PCA変換を実行する、即ち個々の
話者の超ベクトルによって特定した共分散行列の固有ベ
クトル及び関連する固有値を探索するということを仮定
する。そしてこれらの固有ベクトルは固有空間の基底ベ
クトルを形成する。
【0031】以下の、この方法の詳細な数学的記述で
は、次の記号を用いる。npは適応すべきモデルパラメ
ータ数であり、本実施例では特徴空間の次元(即ち音響
特徴パラメータ数)に確率密度の合計数を乗じたもので
ある。nsは、音声データを生成した学習話者の数であ
り、ns<<npである。
【外1】 はモデル空間、即ち全モデルパラメータnpの空間であ
り、本実施例では特徴空間内の全確率密度の全平均値で
ある。(ここでは線形構造を用いている。)適応すべき
パラメータを表現する際には、こうしたことを考慮すべ
きである。例えば分散σを適応させる場合には、非常に
小さいσの値、あるいは負のσの値に変換されることを
回避するために、良好な座標としてlog(σ)をもってく
る。(外1)はアフィンユークリッド空間の構造を有
し、このことは、np次元のベクトル空間を用いて、自
然な方法での(外1)への変換を規定することができる
ことを意味する。以下では、(外1)の要素には一重下
線を付ける。空間内の線形写像には二重下線を付ける。
iは(外1)の要素(例えば、可能な話者の一組のモ
デルパラメータ)であり、即ち話者i=1〜nsの超ベ
クトルである。超ベクトルそのものの共分散行列の代わ
りに、全話者の「平均超ベクトル」 Mに対して、超ベ
クトルの差分ベクトル iの共分散行列を規定すること
ができる。このことの出発点は、全話者のすべての i
の超ベクトルについての平均値 Mを、次式のように特
定することである。
【数1】
【0032】(1)式に示すように、この平均超ベクトル
は、全話者の超ベクトルを成分毎に平均したものであ
り、これにより、学習話者の個々の特定話者モデル組の
平均モデル組を表現する。
【0033】その後に、導関数、即ち、個々の超ベクト
iの、この平均超ベクトル Mからの差分ベクトル
iを、次式により決定する。
【数2】 これ以降の演算はすべて、差分ベクトル iで行う。
【0034】本発明の方法の、図2の最下部に示すステ
ップにおける、各特定話者の2対の確率密度SD
(1) 1、SDD(1) 2、及びSDD(2) 1、SDD(2) 2につ
いての平均密度MD(1)、MD(2)を、同部分に示す。こ
れらは、特定話者の確率密度SDD (1) 1、SDD(1) 2
SDD(2) 1、SDD(2) 2と同じ分散を有する密度MD
(1)、MD(2)である。これらの平均密度MD(1)、MD
(2)の平均値は、2人の話者S1、S2の個々の密度SD
(1) 1、SDD(1) 2、SDD(2) 1、SDD(2) 2の平均値
の平均値である。
【0035】差分ベクトル iの共分散行列
【外2】 は、ベクトル iをns×np行列
【外3】 の行として、次式のように、ベクトル iをその転置
【外4】 と乗算して得られる。
【数3】
【0036】0より大きい固有値を有するこの共分散行
列(外2)の、一般にns個の固有ベクトル 1、...、
nsは、そのようなものとして探索した固有空間の基底
ベクトルである。これらのns個のPCA固有ベクトル
は、共分散行列(外2)または「レサジーテンソル」の
主軸である。これらの固有ベクトルは常に、個々の話者
を相互に区別する軸に対応する。共分散行列(外2)を
超ベクトル iの差分ベクトル iから構成し、超ベクト
iは、平均超ベクトル Mになるように形成したの
で、固有ベクトル 1、...、 nsは平均超ベクトル M
を通り、平均超ベクトル Mは固有空間の原点を形成す
る。
【0037】図2の下部に、2次元について、固有ベク
トルの方向を示す。これらのベクトルは、2つの特定話
者の密度SDD(1) 1、SDD(1) 2、及びSDD(2) 1、S
DD (2) 2によって形成した平均密度MD(1)、MD(2)
中心を、2つの特定話者の密度SDD(1) 1、SDD(1) 2
とSDD(2) 1、SDD(2) 2とを接続した方向に通過し、
これらの密度の各々が各平均密度MD(1)、MD(2)に属
する。
【0038】しかし、ほぼ2×106次元の空間における
共分散行列の固有ベクトルの計算のような変換は、極め
て大規模な演算回路、及び(必要な演算動作用に、これ
らのベクトル及び行列を記憶するために)大きな主記憶
容量を必要とするので、これらの変換を、現在利用可能
なコンピュータで実現することはほとんど不可能であ
る。従って、固有空間の基底ベクトルを実際に計算する
前に空間を縮小するために、さらなるステップが必要に
なる。
【0039】こうするために、まずモデル空間内の副空
間(以下では話者副空間とも称する)をカバーする直交
基底を探索し、すべての差分ベクトル iがこれらの副
空間内で表現され、これらの差分ベクトルは、個々の話
者または話者のモデルのそれぞれに属する。この直交基
底を見出すために簡単な基底変換を実行し、この変換は
比較的小規模の演算回路しか必要としない。以下の実施
例では、グラム−シュミット正規直交化法を選択してい
る。基底を変更するために、例えばレヴィン(Lowdin)
変換のような他の簡単な変換法を用いることもできるこ
とは明らかである。
【0040】グラム−シュミット正規直交化法を実行す
る際には、まず差分ベクトルのうちの1つ、例えば 1
を、探索する正規直交基底の第1シュミット基底ベクト
1として用い、これは単に正規化する。その後に、
第2差分ベクトル 2を、この第1種ミット基底ベクト
1に対して正規直交化して、この第2差分ベクトル
2が、1番目に発見したシュミット基底ベクトル
上に最初に射影されるようにして、第2差分ベクトル
2の成分のうち、第1シュミット基底ベクトル 1に平行
なものを、第2差分ベクトル 2から差し引く。そし
て、第1シュミット基底ベクトル 1に直交する第2差
分ベクトル 2の残りの成分を正規化し、これにより第
2種ミット基底ベクトル 2を形成する。 3 sまで
のさらなる差分ベクトルについても同様のことを行い、
まず、既に存在するシュミット基底ベクトル iに平行
な成分を差し引いて、これに直交する成分を、新たなシ
ュミット基底ベクトル 3 sとして正規化する。
【0041】通常のコンピュータの記憶容量が限られて
いるので、2×106次元の空間内で、300個のベクトルを
このように正規直交化することも実行不可能なので、本
実施例では、この正規直交化をブロック毎に実行する。
そして、コンピュータの主記憶が2n個の超ベクトルを
同時に記憶可能であるものと仮定する。従って演算手続
きは以下の通りである。
【0042】まず、2n個のベクトル 1...2nを正規直
交化して、これらの表現を、新たに発見した基底
1...2nの形で記憶する。
【0043】n個のベクトル iのさらなるブロック毎
に、まず既に発見されているn個の正規直交化したシュ
ミット基底ベクトル jのブロック毎に、この i上への
iの射影を差し引く。その後に、残りの成分、即ち直
交成分を相互に正規直交化する。新たに発見した正規直
交基底のシュミット基底ベクトル j、及びこの基底に
おける個々の差分ベクトル iの表現係数を、ここでも
記憶する。
【0044】こうしたグラム−シュミット正規直交化は
【数4】 回の浮動小数点演算を必要とする。これらは、例えば30
0人の話者及び百万次元では、約1011回の個別演算とな
り、約1〜2秒のCPU時間で実行可能である。
【0045】式(1)及び(2)によれば、平均超ベクトル
Mを介して、差分ベクトル iどうしに相関があるので、
これらの差分ベクトルは線形依存性である。従って、必
要な正規直交基底ベクトルは学習話者よりも少ない。こ
のことは、3次元空間内の3点は常に、共通平面内で表
現することができ、即ち、ここでも、3次元空間内のの
3点を表現するために、最大の2次元副空間が必要であ
るということを示す例に相当する。(いずれにせよここ
では重要ではない、モデル空間の絶対ゼロ点に対する話
者の位置の情報についての自由度が節約させるので)1
次元の節約は、本実施例おいては、超ベクトル iその
ものではなく、話者の差分ベクトル iを、話者の副空
間を形成するため、及び共分散行列を計算するために用
いる理由になる。さらに言えば、さもなければ固有空間
内での座標のジャンプ(跳躍)を含めることができる
が、これは実際には、話者適応には寄与しない。
【0046】所望すれば、元々作成した共通の不特定話
者モデルをさらに、全学習話者について、この新たなシ
ュミット正規直交基底で表現することができる。この場
合には、これらの基底は自ずと1次元だけ増加する。従
って、個々の話者の超ベクトルにかかわらず、共通の不
特定話者モデルをそれ自身の超ベクトルによって表現す
るので、副空間の次元は話者数に相当し、これにより、
個々の音響単位に関して極めて大きな分散を有する、追
加的に混合した話者を表現する。
【0047】ここで、完全なモデル空間内の差分ベクト
iの行列(外3)の代わりに、音声副空間のシュミ
ット正規直交基底での差分ベクトル iの表現を行とし
て組合わせて、行列
【外5】 にすることができる。この行列(外5)はns×ns行列
であり、即ち300×300要素のみを有する。これとは対照
的に、元のモデル区間内の差分ベクトル iの行列(外
3)は、約二百万の300倍の要素を有する。
【0048】そして、求められた差分ベクトル iの共
分散行列(外2)について、次式が成り立つ。
【数5】 ここで(外7)は、シュミット正規直交基底の基底ベク
トル i を列として組合わせたns×np行列である。基
底ベクトル iが正規直交であるので、
【外6】 の対角化、及びその後の行列
【外7】 での再変換は、モデル空間内でPCA固有ベクトル
1、...、 nsを見出すのに十分なものである。ベクト
iそのものが正規直交化されているので、シュミッ
ト正規直交基底で表現した差分ベクトル iの行列(外
5)は行列であり、(外6)の対角化が極めて簡単にな
る。
【0049】従ってその結果は、話者数−1に相当する
次元の固有空間となり、その原点は、個々の話者の元の
超ベクトル全部の中心に存在し、その基底ベクトル
、...、 nsは、個々の話者におけるばらつきの方
向に沿っている。
【0050】代案として、例えばグラム−シュミット正
規直交化のような基底の1回の変更によって、まず超ベ
クトルそのものの正規直交基底を見出すことも当然可能
である。そして、この方法で見出した基底の原点を、す
べての超ベクトルの平均値に移動して、その後に固有ベ
クトルを特定するために、まずPCA法を実行する。超
ベクトルそのものからシュミット直交基底を形成して、
その後に新たな基底において平均化を行い、その後にP
CA法並びに再変換を実行するこの方法は、図1の方法
の最後の3ステップに示してある。
【0051】基底の簡単な変更によって見出した超ベク
トルの正規直交基底で、PCA法を実行して、その後に
所望の原点に変換することも当然可能である。さらに、
すべての超ベクトルの平均値の代わりに、全学習話者に
共通の不特定話者モデルの超ベクトルを、固有空間用の
原点として用いることもできる。
【0052】見出した固有空間(及びここでは話者の表
現)は、元のモデル空間に比べて既に大幅に縮小されて
おり、学習における、話者におけるばらつきについての
情報を含んだままである。しかし、即座の認識に用いる
ためにはまだ複雑すぎる。従って、次元をより低減する
必要がある。このことは、単にいくつかの固有ベクトル
を除くことで、達成することができる。
【0053】こうするために、PCA法では、共分散行
列(外2)の固有ベクトルだけでなく、関連する固有値
も特定することができる。(本明細書での固有値の意味
は、上述した欧州特許出願EP 0 984 429 A2とは異な
り、固有ベクトルの線形結合として表現した際のモデル
の係数ではなく、行列(外2)の各固有ベクトル e
属する固有値eの係数であり、これについて e(外
2)=e(外2)が成り立つ。)固有ベクトル eの次
数を特定するために、これらの固有値を用いることがで
きる。固有値が大きくなるほど、2人の異なる話者を区
別するために、関連する固有ベクトル eがより重要に
なる。従って、最重要な固有ベクトルを所定数nE個選
択することが可能であり、これらのベクトルは実際に、
音声認識システム用の固有空間を張るために用いるべき
ものである。既に実現されている方法の具体例では、こ
れらのベクトルは大きい方から10個の固有値を有する固
有ベクトルに過ぎず、他の例では、最重要な方から50個
の固有値を有する固有ベクトルに過ぎない。
【0054】従って、見出した共分散行列(外2)の固
有ベクトル全部ではなく、固有空間を張るために実際に
使用したこれらの固有ベクトル、即ちいわゆる固有発声
eのみが、モデル空間に再変換すべきものであること
は自明である。固有空間についての基底を選択すること
によって、元の超ベクトル iを含めた超ベクトル i
E次元のみを有する縮小した固有空間上に射影する
ことで、超ベクトル iを縮小した固有空間上に射影す
る場合には、結果的な二乗誤差が確実に最小化されるこ
とが保証される。
【0055】この方法で見出した固有空間は、適切かつ
可能な限り高速な方法で基本モデルを新規話者に適応さ
せるために、何通りかに用いることができる。この観点
から、この固有空間は、基本モデルを新規話者に適応さ
せるために、異なる方法でデータを利用する種々の音声
認識システムにおける完結したデータ組として用いるこ
ともでき、このデータ組は既に、予め評価した学習音声
データの必須の情報をすべて含んでいる。
【図面の簡単な説明】
【図1】 本発明による固有空間の発生方法の種々のス
テップの順序を図式的に表現した図である。
【図2】 不特定話者モデルの2人の異なる話者への適
応を示す図である。
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数の学習話者を表現するための固有空
    間を特定する方法において、 個々の学習話者の学習音声データを用いて、個々の学習
    話者についての特定話者モデル組を開発し、モデル組の
    モデルを常に複数のモデルパラメータによって記述する
    ステップと、 個々の学習話者の前記モデル組のモデルの複数のモデル
    パラメータを、関係する超ベクトルの各々に連結するこ
    とによって、話者毎の組合わせモデルを高次元ベクトル
    空間(モデル空間)内で表示するステップと、 前記モデル空間の次元を低減して、固有空間の基底ベク
    トルを導出する変換を実行するステップとを具えている
    ことを特徴とする固有空間の特定方法。
  2. 【請求項2】 前記モデルが隠れマルコフモデルであ
    り、このモデルにおいて、複数の確率密度の混合の各々
    によって単一モデルの状態を記述し、前記確率密度を常
    に、音響特徴空間内の複数の音響特徴量によって記述す
    ることを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記固有空間の基底ベクトルを特定する
    ための変換が、変換すべきベクトルのばらつきにもとづ
    く低減基準を利用することを特徴とする請求項1または
    請求項2に記載の方法。
  4. 【請求項4】 固有空間の基底ベクトルについて、関連
    する順序付けの特徴を特定することを特徴とする請求項
    1から請求項3までのいずれかに記載の方法。
  5. 【請求項5】 前記固有空間の基底ベクトルが、前記超
    ベクトルによって特定される相関行列の固有ベクトルで
    あり、該行列の固有値の順序付けの特徴が前記固有ベク
    トルに属することを特徴とする請求項4に記載の方法。
  6. 【請求項6】 前記固有空間の次元を低減するために、
    前記順序付けの特徴を考慮して、所定数の固有空間基底
    ベクトルを除去することを特徴とする請求項4または請
    求項5に記載の方法。
  7. 【請求項7】 高次元のモデル空間に対して、まず基底
    の変更によって話者副空間への分割を行い、該話者副空
    間内で、全学習話者のすべての超ベクトルを表現し、前
    記話者副空間内で、前記固有空間の基底ベクトルを特定
    するための変換を実行することを特徴とする請求項1か
    ら請求項6までのいずれかに記載の方法。
  8. 【請求項8】 前記固有空間の基底ベクトルを特定する
    ために、前記各学習話者の前記超ベクトルの差分ベクト
    ルに対して、平均超ベクトルへの変換を実行することを
    特徴とする請求項1から請求項7までのいずれかに記載
    の方法。
  9. 【請求項9】 現在話者のものとして認識されるべき、
    既に観測した音声データにもとづいて、固有空間を用い
    て、基本モデル組を前記現在話者に適応させ、複数の学
    習話者の学習音声データにもとづいて、請求項1から請
    求項8までのいずれかに記載の方法に従って前記固有空
    間を特定することを特徴とする音声認識方法。
  10. 【請求項10】 プログラムをコンピュータで実行する
    際に、請求項1から請求項9までのいずれかに記載の方
    法の全ステップを実行するためのプログラムコード手段
    を有するコンピュータプログラム。
  11. 【請求項11】 コンピュータで読取り可能なデータ担
    体に記憶した、請求項10に記載のプログラムコード手
    段を有するコンピュータプログラム。
JP2001297804A 2000-09-27 2001-09-27 複数の学習話者を表現する固有空間の特定方法 Pending JP2002156993A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10047724:0 2000-09-27
DE10047724A DE10047724A1 (de) 2000-09-27 2000-09-27 Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern

Publications (1)

Publication Number Publication Date
JP2002156993A true JP2002156993A (ja) 2002-05-31

Family

ID=7657728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001297804A Pending JP2002156993A (ja) 2000-09-27 2001-09-27 複数の学習話者を表現する固有空間の特定方法

Country Status (4)

Country Link
US (1) US20020143539A1 (ja)
EP (1) EP1193689A3 (ja)
JP (1) JP2002156993A (ja)
DE (1) DE10047724A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置
JP2009205178A (ja) * 2003-10-03 2009-09-10 Asahi Kasei Corp データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10127559A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Benutzergruppenspezifisches Musterverarbeitungssystem
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
US9177557B2 (en) * 2009-07-07 2015-11-03 General Motors Llc. Singular value decomposition for improved voice recognition in presence of multi-talker background noise
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US8861872B2 (en) * 2012-11-05 2014-10-14 Raytheon Bbn Technologies Corp. Image analysis using coefficient distributions with selective basis feature representation
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110428803B (zh) * 2019-07-22 2020-04-28 北京语言大学 一种基于发音属性的发音人国别识别模型建模方法及系统
CN111524502B (zh) * 2020-05-27 2024-04-30 科大讯飞股份有限公司 一种语种检测方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置
JP2009205178A (ja) * 2003-10-03 2009-09-10 Asahi Kasei Corp データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム

Also Published As

Publication number Publication date
US20020143539A1 (en) 2002-10-03
EP1193689A3 (de) 2002-10-30
EP1193689A2 (de) 2002-04-03
DE10047724A1 (de) 2002-04-11

Similar Documents

Publication Publication Date Title
Tjandra et al. VQVAE unsupervised unit discovery and multi-scale code2spec inverter for zerospeech challenge 2019
JP2002156993A (ja) 複数の学習話者を表現する固有空間の特定方法
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
JP5768093B2 (ja) 音声処理システム
JP3683177B2 (ja) 音声認識のための文脈依存モデルの作成方法
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US9165555B2 (en) Low latency real-time vocal tract length normalization
US6915260B2 (en) Method of determining an eigenspace for representing a plurality of training speakers
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Henter et al. Gaussian process dynamical models for nonparametric speech representation and synthesis
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
Xie et al. Deep Neural Network Based Acoustic-to-Articulatory Inversion Using Phone Sequence Information.
Shekofteh et al. Autoregressive modeling of speech trajectory transformed to the reconstructed phase space for ASR purposes
TW436758B (en) Speaker and environment adaptation based on eigenvoices including maximum likelihood method
JP2002132286A (ja) 音声認識方法
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
Ons et al. A self learning vocal interface for speech-impaired users
Beulen et al. Experiments with linear feature extraction in speech recognition.
Tachibana et al. Speaker and style adaptation using average voice model for style control in HMM-based speech synthesis
Fontaine et al. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Zahorian et al. Nonlinear dimensionality reduction methods for use with automatic speech recognition
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
KR100331689B1 (ko) 음성인식 시스템의 화자적응 훈련방법
JP3285048B2 (ja) 不特定話者用音声認識装置