JP2002156993A

JP2002156993A - 複数の学習話者を表現する固有空間の特定方法

Info

Publication number: JP2002156993A
Application number: JP2001297804A
Authority: JP
Inventors: Henrik Botterweck; ボッターヴェックヘンリク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-09-27
Filing date: 2001-09-27
Publication date: 2002-05-31
Also published as: US20020143539A1; EP1193689A3; EP1193689A2; DE10047724A1

Abstract

(57)【要約】（修正有）【課題】音声認識において、個々の話者の超ベクトル
におけるすべてのパラメータの配置が同様であることを
保証する方法を提供する。【解決手段】複数の学習話者を表現するための方法で
あり、個々の学習話者の学習音声データを用いて、まず
学習話者各自についての不特定話者モデルＳＩを形成
し、そして一組のモデルの各特定話者モデルＳＤを、複
数のモデルパラメータによって記述する。そして個々の
学習話者のモデルのモデルパラメータを、関係する超ベ
クトルの各々に連結することによって、話者毎に組合わ
せモデルを高次元モデル空間内に表示する。その後に、
固有空間に基底ベクトルＥ _eを復元するためにモデル空
間の次元を低減して、変換を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の学習話者を
表現する固有空間を決定する方法に関するものである。
こうした方法では、個々の学習話者の学習音声データを
用いて、一組のモデルのモデルを毎回、複数のモデルパ
ラメータによって記述して、最初に特定話者モデル組
を、個々の学習話者用に発展させている。個々の学習話
者のモデル組の複数のモデルパラメータを、関係する超
ベクトルの各々に連結するように、高次元のベクトル空
間内で、話者毎の組合わせモデルを表示する。この組合
わせモデルでは、その後に、固有空間用の基礎ベクトル
を実現するために次元を低減した際に、学習話者の超ベ
クトルへの変換を実行する。これに加えて、本発明は、
本発明によって生成した固有空間を用いて、モデルの基
本組を現在の話者に適応させる音声認識のモデルに関す
るものである。

【０００２】

【従来の技術】音声認識システムは通常、まず特徴分析
装置において、音声信号をスペクトル的または時系列的
に分析する方法で動作する。この特徴分析装置では通
常、音声信号を、フレームと称するセクション（区間）
に分割する。そしてこれらのフレームを、さらなる分析
に適した形に符号化及びディジタル化する。そして観測
した信号を複数の異なる特徴、あるいは多次元空間で
は、「観測値」ベクトルまたは「特徴」ベクトルによっ
て記述する。観測値ベクトルまたは観測値ベクトルの列
全体によって記述される音声信号のセクションの各々
を、実際にありうる異なる観測値列のモデルと比較して
いき、最良と判明した観測値ベクトルまたはベクトル列
に整合するモデルを選択するというようにして、最後
に、実際の音声認識、即ち音声信号の意味的内容の認識
を行う。従って音声認識システムは、ありうる全信号列
の一種のライブラリを具え、音声認識システムはこのラ
イブラリから、各々に整合する信号列を選択する。換言
すれば、音声認識システムは、異なる音響単位に対して
一組の音響モデルを具え、音響単位は実際に、原則とし
て音響信号中に発生する。音響単位は例えば、ダイフォ
ン（ニ単音）またはトライフォン（三単音）のような、
音素または音素的な単位とすることができ、音響単位で
は、音素のモデルが、文脈内の前及び／または後の音素
に依存する。明らかに、音響単位は完全単語とすること
もできる。従ってこうしたモデル組は、音素、ダイフォ
ン、トライフォン、等のモデルのみから構成することが
でき、そして単語、あるいは異なる音響単位の混合から
構成することができる。

【０００３】音響単位、即ち観測値ベクトルの特定列を
記述するためによくもちいられる方法は、いわゆる隠れ
マルコフモデル（ＨＭモデル）の利用である。これは確
率論的な信号モデルであり、このモデルについては、信
号列が異なる状態のいわゆる「マルコフ連鎖」にもとづ
いているということが仮定されており、ここでは個々の
状態間に遷移確率が存在する。そして各状態そのものは
認識不可能（隠れ）であり、個々の状態における実際の
観測値の発生を、各状態に応じた確率密度によって記述
する。従ってこの概念では、特定の観測値列に対するモ
デルは、種々の遷移した状態の列、各状態での停止の持
続時間、状態間の遷移確率及び各状態における個々の観
測値の発生確率によって記述することができる。そして
特定音素に対するモデルを作成して、一番適切な開始パ
ラメータを１つのモデル用に用いて、変更によるこのモ
デルのいわゆる学習では、最適なモデルが見つかるま
で、各言語のモデル化すべき音素にパラメータを適応さ
せる。種々のＨＭモデルについての詳細、並びに適応さ
せるべき個々の厳密なパラメータは、本発明では必須の
役割を果たさず、従って以下では、これらのものについ
ては、本発明をより完全に理解するのに必要な場合に限
って記述する。

【０００４】モデルは、特定話者（いわゆるＳＤモデ
ル）または不特定話者（いわゆるＳＩモデル）のいずれ
とすることもできる。特定話者モデルは、これらの単語
例の内容がシステムにとって既知であるが、個々の話者
の多数の単語例を、事前に音声認識システムに提供する
という点で、厳密に個々の話者向けに学習させたもので
ある。これらの単語例は学習データと称される。こうし
た特定話者システムまたはモデルはそれぞれ、これらを
自分用に学習させた各個人にとって、比較的厳密なもの
である。しかし、これらのものは他のいずれの人にとっ
ても、極めて非厳密なものである。他方では、不特定話
者システムでは、多種多様な話者の学習データにもとづ
いてモデルの学習を行って、これによりシステムが、そ
れぞれの言語を話すどの人も理解できる立場にあるよう
なモデルを作成する。しかし、学習話者に属さない話者
のものとして認識されるべき音声データによる際の、こ
うした不特定話者システムにおけるエラー率は、この話
者向けに特別に学習させた特定話者システムで比較可能
なものについてのエラー率よりも約20〜25％高い。

【０００５】音声認識システムの応用においては、例え
ば自動電話応答システムに使用する際には、不都合なこ
とに、システムまたはモデルをそれぞれ、特定の話者に
合わせて事前に学習させることが不可能である。こうし
たシステムの性能を向上させるために、多くの音声認識
システムはその半面、既に観測した音声データにもとづ
いて、音声認識中にシステムを話者に適応させることが
可能である。このことを可能にする簡単な方法は、現在
の話者から生成される認識すべき観測値を変換して、基
準話者の観測値に近づけるという方法であり、特定話者
モデルをこの基準話者用に学習させる。このことを可能
にするさらなる方法は、類似性に従って学習話者をグル
ープ化して、類似話者の各グループ用の共通モデルを学
習させる。各現在話者に対して、現在話者に最良に適合
するグループのモデルを選択する。非常に良好かつ有効
なさらなる方法は、基本ＨＭモデルを各話者に適応させ
ることであり、即ち、種々のＨＭパラメータを変更し
て、変更したモデルが各話者により良好に整合するよう
にする。この方法で、音声認識中に特定話者モデルが形
成される。既知の２つの最良なモデル適応技法は、いわ
ゆる最大事後確率推定（ＭＡＰ）及び最尤線形回帰法
（ＭＬＬＲ）である。しかし、非常に有効な技法は、適
切に形成したモデルを新規話者に適応させるまでに、大
きな計算能力及び計算時間、並びに十分な量の新規話者
の発話信号の両者を必要とするという欠点を有する。

【０００６】従って欧州特許第0 984 429 A2号には、音
声認識システムを認識すべき話者に適応させる新たな種
類の方法が提案されており、このシステムはいわゆる固
有発声技法で動作する。この固有発声法の出発点は、話
者及びこれらの話者の組合わせ音響モデルを、以下にモ
デル空間と称する高次元線形空間の要素として表現する
ことであり、この空間内では、話者を表現するすべての
パラメータが「超ベクトル」に連結されている。そして
これらの学習話者の超ベクトルで線形変換を実行し、こ
の変換によって、いわゆる固有空間に対する固有空間基
底ベクトルを復元する。この固有空間は高次元モデル空
間の線形の副空間である。そして、固有空間基底ベクト
ルが、種々の学習話者間の種々の相関の特徴、あるいは
学習話者の種々のモデル間の種々の識別の特徴を表現す
るような方法で、変換を実行する。本明細書に可能な変
換を記述し、これは例えば主成分分析（ＰＣＡ）であ
り、ここでは種々の話者の超ベクトルによって、相関行
列を形成し、この相関行列の固有ベクトルを、固有空間
基底ベクトルとして特定する。さらに可能な方法は「線
形判別分析（ＬＤＡ）」、因子分析（ＦＡ）、「独立成
分分析（ＩＣＡ）」、または特異値分解（ＳＶＤ）であ
る。しかし、これらのすべての変換は、演算に関しては
比較的高密度である。このように提供された固有空間基
底ベクトルの各々が異なる次元を表現して、個々の話者
を相互に区別することができる。さらに、元の学習教材
にもとづいて、各話者の各超ベクトルを、これらの基底
ベクトルの線形結合によって記述することができる。

【０００７】

【発明が解決しようとする課題】しかし、固有発声法を
大語彙の連続音声認識に使用するために変更するに当た
り、この方法の問題点が判明している。こうした音声認
識では、はるかに多くの連続音素の可能性があり、そし
て固定のコマンド（命令語）を個別に供与する際より
も、音節等の「摩滅」が頻繁に生じる。従って観測値の
実分布が広がり過ぎて、変形が多すぎる。例えばＨＭモ
デルを用いる際には、単一のガウス密度またはラプラス
密度のような単一の確率密度のみによって記述されるよ
うな、単一の状態または複数の別個の状態によっては、
もはや音響単位を記述することができない。代わりに、
種々の密度を混合することが必要であり、即ち実分布に
適応した確率密度に至るには、異なる重みを有するこう
した密度を複数重ね合わせなければならない。

【０００８】４２個の異なる音素を有する言語が１音素
当たり３つの状態（初期状態、中期状態、終期状態）の
みから出発し、かつこれらの各音素が１音素当たり３つ
の状態のみによって記述される場合には、記述すべき状
態は既に142通りになる。連続音声を認識する際に非常
に実用的な、文脈依存の音素を用いる際には、各音素の
直前及び／または直後に来る音素に応じて（トライフォ
ン：三単音）、各音素毎に文脈依存モデルを学習させ
る。言語のこうした三単音を記述するためには、例えば
合計2000通りの状態が必要となる。状態（約30通り）当
たりに、十分な数の異なる確率密度を用いる際には、約
60,000通りの異なる確率密度が存在する。通常使用する
約30〜40次元の特徴空間では、これにより最終的に、単
一話者が約二百万個の別個のモデルのパラメータによっ
て記述されるということになる。これらのモデルのパラ
メータは、特徴空間内の60,000通りの確率密度を記述す
るためのすべての特徴パラメータから構成されるが、通
例、各密度の平均値のみを特徴空間内に置いて、すべて
の密度についての分散が同一かつ一定であるものと仮定
する。また各密度毎に、密度についての共分散を個別に
特定する追加的パラメータを用いることもできることは
明らかである。これに加えて、モデルパラメータには、
例えば状態間の遷移確率、及び種々のＨＭモデルを記述
するさらなるパラメータを含めることができる。そし
て、これら二百万個のモデルパラメータを超ベクトルに
連結させて、各次元のモデル空間内で表現されるように
する。そして個々のパラメータの配置に注意すべきであ
る。原則として、個々のパラメータの相互の順序付けが
任意であることは確かであるが、一旦選択した配置が全
話者について同一であることは保証すべきである。特
に、全話者について、特定状態の個別の確率密度を記述
する個々の特徴パラメータの配置を選択して、全話者の
パラメータに最適な相関があるようにすべきである。個
々の話者の超ベクトルにおけるすべてのパラメータの配
置が同様である場合のみに、固有空間の所定の基底ベク
トルが、種々の話者を区別するための所望の情報を正し
く表現することが保証される。

【０００９】

【課題を解決するための手段】従って本発明の目的は、
固有空間を特定した際に、個々の話者の超ベクトルにお
けるすべてのパラメータの配置が同様であることを保証
する方法を提供することにある。

【００１０】この目的は、請求項１に記載の方法によっ
て達成することができる。本発明の中心的な考えは、第
１ステップでは、すべての学習話者を含む学習音声デー
タを用いて、各学習話者用の共通の不特定話者モデル組
を開発するということである。そして、種々の音響単位
についての各不特定話者モデルを学習させるために、す
べての学習音声データを使用する。その後に、第２ステ
ップでは、発見した前記不特定話者のモデル組を、個々
の学習話者に適応させるために、個々の学習話者の学習
音声データを用いる。この適応は、例えばＭＡＰまたは
ＭＬＬＲのような通常の方法で実行することができる。
共通の不特定話者モデル組のモデルを、個々の話者の特
定話者のモデル組のモデルに適応させると、音声データ
の各意味内容を知ることができる。このことは、いわゆ
る教師付き適応である。この適応で、不特定話者のモデ
ル組のモデルの各モデルパラメータの、特定話者のモデ
ル組の各モデルの個々のモデルパラメータへの割り当て
を、問題なく見つけることができ、これにより、これら
のパラメータの相互の割り当てを明確に決定することが
できる。そして、特定話者のモデル組のモデルのモデル
パラメータで、共通の不特定話者モデル組の同じモデル
の同じモデルパラメータに割り当てたものも、各超ベク
トルの各同一位置に配置するような方法で、モデル組の
個々のモデルパラメータの超ベクトルへの連結を実行す
ることができる。

【００１１】これにより、極めて多数の異なるモデルパ
ラメータでも、超ベクトルにおける個々のパラメータの
明確な配置が保証される。

【００１２】この方法は、導入部に記述した隠れマルコ
フモデルにもとづいて動作する音声システム用の固有空
間を開発するのに特に適している。しかし、こうした方
法は原則として、多数のパラメータを、システム的な方
法で超ベクトルに連結させて、これにより、例えば異な
る話者を高次元のモデル空間の点として表現するような
他のモデルで用いることもできる。

【００１３】本発明による方法の特に好適な例では、固
有空間の基底ベクトルを特定するために、基底ベクトル
の簡単な変更によって、まず高次元空間を話者の副空間
に分けて、これらの副空間にすべての学習話者の超ベク
トルを配置する。そして固有空間基底ベクトルを特定す
るための実際の変換を、話者副空間で実行する。その後
に、見出した固有空間基底ベクトルを、簡単な方法でモ
デル空間に再変換する。こうした簡単な基底ベクトルの
変更は、例えば、超ベクトルそのもののグラム−シュミ
ット正規直交化か、あるいは好適には、超ベクトルの差
分ベクトルを、選択した元のベクトルに対してこのよう
に正規直交化することによって可能である。そして平均
の超ベクトルを元のベクトルとして使用することが好ま
しい。この超ベクトルのパラメータは、個々の特定話者
の超ベクトルのパラメータの各平均値である。基底ベク
トルのこうした簡単な変更は、現在のコンピュータで
は、高次元空間においても適切な方法で問題なく実行す
ることができる。この話者副空間内でｎ人の異なる話者
を表現するためには、話者副空間がｎ−１の最大次元を
有するべきであり、即ち、固有空間の基底ベクトルの実
際の演算を実行する空間の次元が、元のモデル空間の次
元に比べて大幅に低減されて、演算速度及びメモリ容量
が大幅に節減される。導入部に記述したモデル空間の場
合、即ち連続音声を認識するために約二百万次元を用い
るべき場合には、現在利用可能なコンピュータの、必要
な計算容量、及び導入部に記述した変換方法により固有
空間基底ベクトルを特定することを少しでも可能にする
ために必要な主記憶割り当てを低減する必要がある。

【００１４】固有空間の種々の基底ベクトルは、異なる
話者を区別するための重要度に従って配置することが好
ましい。このことは、話者を識別可能にする情報を少し
しか含まないような、固有空間の最も重要でない基底ベ
クトルを除くことで、音声認識システムで使用する固有
空間を縮小する可能性をさらにもたらす。従って、話者
認識において最終使用した固有空間の次元は、学習話者
の数よりもずっと少ない。このため、高次元のモデル空
間内でこのように提供した先験的に最適化された固有空
間内では、学習話者の個々の特定話者モデルを特徴化し
て、新規話者への適応を実行するのに、少数の座標で十
分である。従って必要な座標数は、例えばＭＬＬＲのよ
うな他の適応方法の自由度数の一部に過ぎない。超ベク
トルの共分散行列の固有ベクトルを固有空間基底ベクト
ルとして特定するために、ＰＣＡ法を実行する際には、
関連する固有値にもとづいて固有ベクトルの評価を実行
することができる。より大きい固有値を有する固有ベク
トルは、より小さい固有値を有する固有ベクトルよりも
重要である。

【００１５】本発明によれば、こうした固有空間は音声
認識法で用いることができ、音声認識法では、固有空間
を用いて基本モデルの第１組を現在話者に適応させ、こ
の適応は、この話者のものとして認識されるべき既に観
測した音声データによって行う。

【００１６】これを行うためには、種々の可能な方法が
ある。これらのいくつかは、欧州特許第0 984 429 A2号
に記載されている。従って基本モデルの各話者への適応
は、適応させたモデルが最終的に固有空間内に存在する
ような方法で行い、即ち、固有空間の種々の基底ベクト
ルの線形結合で表現することができる。

【００１７】最も簡単な方法は、固有空間内の基本モデ
ルの直接射影である。こうした射影により、固有空間の
外部に存在する新規話者の基本モデルに最寄りの、固有
空間内の点を正確に発見することができる。不都合なこ
とに、この方法は大雑把すぎる。これに加えて、新規話
者についての十分な入力音声教材が存在する際のみに、
こうした射影操作が発生し、すべての音響単位がデータ
中に少なくとも１回表現されるようになる。多くの応用
では、これらの条件が満足されない。

【００１８】代案として、前記文献にも提案されている
可能な方法があり、これは最尤固有発声分解法（ＭＬＥ
Ｄ）である。この方法では、新規話者の音声によって発
生する確率が最大である隠れマルコフモデルの組に属す
る超ベクトルを正確に表現する固有空間内の点を見出
す。この方法のこうした特定技法については、ここでは
これ以上説明しない。この関係の参考文献として、欧州
特許第0 984 429 A2号がある。

【００１９】またこれら２つの方法では、学習話者の種
々の特徴とは非常に異なる特徴を有する話者について
も、固有空間内で１つのモデル組のみを作成する。しか
しこうした話者は、学習話者の固有空間内のモデル組に
よって最適には表現されないので、まず本発明による方
法で固有空間内のモデル組を開発し、そしてこの組を、
ＭＡＰ法またはＭＬＬＲ法による最適な適応のための新
たな基本モデル組として利用するのが現実的である。し
かし、固有空間を利用しながら基本モデル組を新規話者
に適応させるために、他のいずれの方法も使用できるこ
とは明らかである。

【００２０】本発明による方法で、連続音性信号の認識
での、比較的高速な単一話者への適応が可能である。大
きな演算コストは、学習音声教材を処理するため、及び
固有空間を見出すために一度だけ生じることになるが、
パラメータ空間を副空間に分けるために基底ベクトルの
変更を行うので、大語彙の音声認識では、演算コストそ
のものを問題なく制御することができる。この方法で、
何百万ものパラメータを直接使用することなく、固有空
間を有効に形成することができる。

【００２１】

【発明の実施の形態】以下、本発明の実施例について図
面を参照しながら詳細に説明する。以下に説明する特
徴、及び既に上述した特徴の、前記の組合わせだけでな
く、単独または他の組合わせも、本発明の本質となりう
る。

【００２２】本発明による方法はまず、学習話者、即ち
本実施例では300人の異なる話者の音声データ教材の全
体を、種々の音響単位についての異なる不特定話者モデ
ルＳＩを有する共通の不特定話者モデル組を学習させる
ために使用することから開始する。

【００２３】１つの音響単位についてのこうした不特定
話者モデルＳＩを、図１の第１ステップに実線の楕円区
分で示す。実際にはこれは、複数の確率密度によって記
述される３つの状態から構成されるモデルである。ここ
でもこれらの密度は33個の音響パラメータによって記述
され、これらの各々が、特徴空間内の確率密度の平均値
である。以下の実施例では、16個のメルケプストラム係
数及びそれらの16個の１次導関数を特徴パラメータとし
て使用する。エネルギの２次導関数、即ち０番目のメル
ケプストラムを33番目の特徴として追加する。こうした
モデルはより少数のパラメータで記述することも、例え
ば密度分布の分散のようなさらなる追加的パラメータに
よっても記述できることは明らかである。

【００２４】第２ステップでは、学習話者の各学習教材
を用いながら、これらの不特定話者モデルＳＩを個々の
話者に適応させ、即ち特定話者モデルＳＤを作成する。
図１に示す実施例では、不特定話者モデルＳＩを４人の
異なる話者に適応させる。

【００２５】図２では、２人の学習話者Ｓ₁、Ｓ₂のみを
有する例を参照して、この方法をより明らかにする。図
の点は、２人の学習話者Ｓ₁、Ｓ₂が発声した特定の音響
単位の観測値が発生したことに対応する。これは特徴空
間内での表現であり、ここでは明確さのために２次元の
みを有する。しかし通常、単一の観測値は、２つの特徴
パラメータでは記述されず、多数の、本実施例では前述
の33個の異なる特徴パラメータによって記述される。従
って本実施例における実際の特徴空間は図２に示すよう
な２次元ではなく、33次元である。

【００２６】なお、２人の話者Ｓ₁、Ｓ₂についての特定
音響単位の個々の観測値は、広い領域で空間的に分布
し、図に示す例では、２人の話者Ｓ₁、Ｓ₂について２つ
の局所的最大値が明らかに形成されている。従って１つ
のモデルでは、単一のガウス確率密度では、この音響単
位を十分良好に形成することができず、少なくとも２つ
の確率密度を重ね合わせたものを用いて、観測値の実空
間分布における２つの最大値を表現することになる。実
際には、観測値の分布は通常、さらに広きにわたり、こ
のため良好なモデル化のためには、約30通りの確率密度
を重ね合わせる。

【００２７】特定の話者の特定の音響単位についてのモ
デルのどの確率密度が、他の話者の同じ音響単位につい
ての各モデルのどの確率密度に対応するかを特定するた
めに、まず、すべての学習音声データで、共通の不特定
話者モデルを学習させる。図２では、このモデルはちょ
うど２つの不特定話者ガウス確率密度ＳＩＤ⁽¹⁾、ＳＩ
Ｄ⁽²⁾を有する。そして次のステップでは、２人の話者
Ｓ₁、Ｓ₂各自の既知の学習音声教材を用いながら、この
不特定話者モデルを、２人の話者の各自に適応させる。
これにより、２つの確率密度ＳＤＤ⁽¹⁾ ₁、ＳＤＤ⁽²⁾ ₁を
有する第１話者Ｓ₁用の特定話者モデルができ、そして
２つの確率密度ＳＤＤ⁽¹⁾ ₂、ＳＤＤ⁽²⁾ ₂を有する第２話
者Ｓ₂用の他の特定話者モデルができる。これらのモデ
ルは同一の不特定話者の開始モデルから発展させたの
で、確率密度の割り当て、即ち不特定話者モデルの同じ
確率密度ＳＩＤ⁽¹⁾、ＳＩＤ⁽²⁾から発展させた２人の話
者Ｓ ₁、Ｓ₂の確率密度ＳＤＤ⁽¹⁾ ₁、ＳＤＤ⁽²⁾ ₁、ＳＤＤ
⁽¹⁾ ₂、ＳＤＤ⁽²⁾ ₂の対応のさせ方は明らかである。図２
に示す簡単化した場合では、話者Ｓ₁、Ｓ₂の個々の観測
値の分布の局所的最大値の位置から、この正しい割り当
てを肉眼で見つけることもできる。しかし、学習音声デ
ータの実際の評価で考えると、問題が明らかになり、即
ち２次元空間内の２つの分布ではなく、モデルの状態の
個々の分布どうしを少し重複させながら、33次元空間内
の約30通りの分布を相互に割り当てることができる。

【００２８】本発明による割り当て方法により、話者毎
に、個々の密度のパラメータ割り当て、個々の状態のパ
ラメータ割り当て、及び個々のモデルのパラメータ割り
当てが明らかに存在するということが達成される。既知
の順序付けにもとづいて、全話者についてのすべての超
ベクトルにおいて、同じパラメータ順序が存在すること
を保証しながら、全話者についての全パラメータを、話
者毎の超ベクトルに連結させる。これらの超ベクトルを
用いて、個々の話者を高次元モデル空間内の点として正
確に表現することができ、本実施例では約２×10⁶空間
となる。このモデル空間は、学習中の話者の変化の全情
報を含んでいる。

【００２９】後の音声認識用の情報を有効に使用するた
めに、必須の情報を失うことなく、データ組の低減する
こと、特にモデル空間の次元の低減することが必要であ
る。こうするために固有発声法を用い、この方法では、
個々の話者の超ベクトルの変換を実行して、固有空間の
基底ベクトルを見出す。この変換では、例えば変換すべ
きベクトルの分散のような相互のばらつきにもとづく低
減基準を用いる。可能な変換は、導入部に記述したよう
な、主成分分析（ＰＣＡ）である。また、線形判別分析
（ＬＤＡ）、因子分析（ＦＡ）、独立成分分析（ＩＣ
Ａ）、または特異値分解（ＳＶＤ）のような他の適切な
方法も明らかに用いることができる。

【００３０】以下の実施例では、固有空間の基底ベクト
ルを見出すために、ＰＣＡ変換を実行する、即ち個々の
話者の超ベクトルによって特定した共分散行列の固有ベ
クトル及び関連する固有値を探索するということを仮定
する。そしてこれらの固有ベクトルは固有空間の基底ベ
クトルを形成する。

【００３１】以下の、この方法の詳細な数学的記述で
は、次の記号を用いる。ｎ_pは適応すべきモデルパラメ
ータ数であり、本実施例では特徴空間の次元（即ち音響
特徴パラメータ数）に確率密度の合計数を乗じたもので
ある。ｎ_sは、音声データを生成した学習話者の数であ
り、ｎ_s<<ｎ_pである。

【外１】はモデル空間、即ち全モデルパラメータｎ_pの空間であ
り、本実施例では特徴空間内の全確率密度の全平均値で
ある。（ここでは線形構造を用いている。）適応すべき
パラメータを表現する際には、こうしたことを考慮すべ
きである。例えば分散σを適応させる場合には、非常に
小さいσの値、あるいは負のσの値に変換されることを
回避するために、良好な座標としてlog(σ)をもってく
る。（外１）はアフィンユークリッド空間の構造を有
し、このことは、ｎ_p次元のベクトル空間を用いて、自
然な方法での（外１）への変換を規定することができる
ことを意味する。以下では、（外１）の要素には一重下
線を付ける。空間内の線形写像には二重下線を付ける。
Ｒ _iは（外１）の要素（例えば、可能な話者の一組のモ
デルパラメータ）であり、即ち話者ｉ＝１〜ｎ_sの超ベ
クトルである。超ベクトルそのものの共分散行列の代わ
りに、全話者の「平均超ベクトル」Ｒ _Mに対して、超ベ
クトルの差分ベクトルＤ _iの共分散行列を規定すること
ができる。このことの出発点は、全話者のすべてのＲ _i
の超ベクトルについての平均値Ｒ _Mを、次式のように特
定することである。

【数１】

【００３２】(1)式に示すように、この平均超ベクトル
は、全話者の超ベクトルを成分毎に平均したものであ
り、これにより、学習話者の個々の特定話者モデル組の
平均モデル組を表現する。

【００３３】その後に、導関数、即ち、個々の超ベクト
ルＲ _iの、この平均超ベクトルＲ _Mからの差分ベクトルＤ
_iを、次式により決定する。

【数２】これ以降の演算はすべて、差分ベクトルＤ _iで行う。

【００３４】本発明の方法の、図２の最下部に示すステ
ップにおける、各特定話者の２対の確率密度ＳＤ
Ｄ⁽¹⁾ ₁、ＳＤＤ⁽¹⁾ ₂、及びＳＤＤ⁽²⁾ ₁、ＳＤＤ⁽²⁾ ₂につ
いての平均密度ＭＤ⁽¹⁾、ＭＤ⁽²⁾を、同部分に示す。こ
れらは、特定話者の確率密度ＳＤＤ ⁽¹⁾ ₁、ＳＤＤ⁽¹⁾ ₂、
ＳＤＤ⁽²⁾ ₁、ＳＤＤ⁽²⁾ ₂と同じ分散を有する密度ＭＤ
⁽¹⁾、ＭＤ⁽²⁾である。これらの平均密度ＭＤ⁽¹⁾、ＭＤ
⁽²⁾の平均値は、２人の話者Ｓ₁、Ｓ₂の個々の密度ＳＤ
Ｄ⁽¹⁾ ₁、ＳＤＤ⁽¹⁾ ₂、ＳＤＤ⁽²⁾ ₁、ＳＤＤ⁽²⁾ ₂の平均値
の平均値である。

【００３５】差分ベクトルＤ _iの共分散行列

【外２】は、ベクトルＤ _iをｎ_s×ｎ_p行列

【外３】の行として、次式のように、ベクトルＤ _iをその転置

【外４】と乗算して得られる。

【数３】

【００３６】０より大きい固有値を有するこの共分散行
列（外２）の、一般にｎ_s個の固有ベクトルＥ ₁、...、
Ｅ _nsは、そのようなものとして探索した固有空間の基底
ベクトルである。これらのｎ_s個のＰＣＡ固有ベクトル
は、共分散行列（外２）または「レサジーテンソル」の
主軸である。これらの固有ベクトルは常に、個々の話者
を相互に区別する軸に対応する。共分散行列（外２）を
超ベクトルＲ _iの差分ベクトルＤ _iから構成し、超ベクト
ルＲ _iは、平均超ベクトルＲ _Mになるように形成したの
で、固有ベクトルＥ ₁、...、Ｅ _nsは平均超ベクトルＲ _M
を通り、平均超ベクトルＲ _Mは固有空間の原点を形成す
る。

【００３７】図２の下部に、２次元について、固有ベク
トルの方向を示す。これらのベクトルは、２つの特定話
者の密度ＳＤＤ⁽¹⁾ ₁、ＳＤＤ⁽¹⁾ ₂、及びＳＤＤ⁽²⁾ ₁、Ｓ
ＤＤ ⁽²⁾ ₂によって形成した平均密度ＭＤ⁽¹⁾、ＭＤ⁽²⁾の
中心を、２つの特定話者の密度ＳＤＤ⁽¹⁾ ₁、ＳＤＤ⁽¹⁾ ₂
とＳＤＤ⁽²⁾ ₁、ＳＤＤ⁽²⁾ ₂とを接続した方向に通過し、
これらの密度の各々が各平均密度ＭＤ⁽¹⁾、ＭＤ⁽²⁾に属
する。

【００３８】しかし、ほぼ２×10⁶次元の空間における
共分散行列の固有ベクトルの計算のような変換は、極め
て大規模な演算回路、及び（必要な演算動作用に、これ
らのベクトル及び行列を記憶するために）大きな主記憶
容量を必要とするので、これらの変換を、現在利用可能
なコンピュータで実現することはほとんど不可能であ
る。従って、固有空間の基底ベクトルを実際に計算する
前に空間を縮小するために、さらなるステップが必要に
なる。

【００３９】こうするために、まずモデル空間内の副空
間（以下では話者副空間とも称する）をカバーする直交
基底を探索し、すべての差分ベクトルＤ _iがこれらの副
空間内で表現され、これらの差分ベクトルは、個々の話
者または話者のモデルのそれぞれに属する。この直交基
底を見出すために簡単な基底変換を実行し、この変換は
比較的小規模の演算回路しか必要としない。以下の実施
例では、グラム−シュミット正規直交化法を選択してい
る。基底を変更するために、例えばレヴィン（Lowdin）
変換のような他の簡単な変換法を用いることもできるこ
とは明らかである。

【００４０】グラム−シュミット正規直交化法を実行す
る際には、まず差分ベクトルのうちの１つ、例えばＤ ₁
を、探索する正規直交基底の第１シュミット基底ベクト
ルＳ ₁として用い、これは単に正規化する。その後に、
第２差分ベクトルＤ ₂を、この第１種ミット基底ベクト
ルＳ ₁に対して正規直交化して、この第２差分ベクトル
Ｄ ₂が、１番目に発見したシュミット基底ベクトルＳ _１
上に最初に射影されるようにして、第２差分ベクトルＤ
₂の成分のうち、第１シュミット基底ベクトルＳ ₁に平行
なものを、第２差分ベクトルＤ ₂から差し引く。そし
て、第１シュミット基底ベクトルＳ ₁に直交する第２差
分ベクトルＤ ₂の残りの成分を正規化し、これにより第
２種ミット基底ベクトルＳ ₂を形成する。Ｄ ₃〜Ｄ _sまで
のさらなる差分ベクトルについても同様のことを行い、
まず、既に存在するシュミット基底ベクトルＳ _iに平行
な成分を差し引いて、これに直交する成分を、新たなシ
ュミット基底ベクトルＳ ₃〜Ｓ _sとして正規化する。

【００４１】通常のコンピュータの記憶容量が限られて
いるので、２×10⁶次元の空間内で、300個のベクトルを
このように正規直交化することも実行不可能なので、本
実施例では、この正規直交化をブロック毎に実行する。
そして、コンピュータの主記憶が２ｎ個の超ベクトルを
同時に記憶可能であるものと仮定する。従って演算手続
きは以下の通りである。

【００４２】まず、２ｎ個のベクトルＤ _1...2nを正規直
交化して、これらの表現を、新たに発見した基底Ｓ
_1...2nの形で記憶する。

【００４３】ｎ個のベクトルＤ _iのさらなるブロック毎
に、まず既に発見されているｎ個の正規直交化したシュ
ミット基底ベクトルＳ _jのブロック毎に、このＳ _i上への
Ｄ _iの射影を差し引く。その後に、残りの成分、即ち直
交成分を相互に正規直交化する。新たに発見した正規直
交基底のシュミット基底ベクトルＳ _j、及びこの基底に
おける個々の差分ベクトルＤ _iの表現係数を、ここでも
記憶する。

【００４４】こうしたグラム−シュミット正規直交化は

【数４】回の浮動小数点演算を必要とする。これらは、例えば30
0人の話者及び百万次元では、約10¹¹回の個別演算とな
り、約１〜２秒のＣＰＵ時間で実行可能である。

【００４５】式(1)及び(2)によれば、平均超ベクトルＲ
_Mを介して、差分ベクトルＤ _iどうしに相関があるので、
これらの差分ベクトルは線形依存性である。従って、必
要な正規直交基底ベクトルは学習話者よりも少ない。こ
のことは、３次元空間内の３点は常に、共通平面内で表
現することができ、即ち、ここでも、３次元空間内のの
３点を表現するために、最大の２次元副空間が必要であ
るということを示す例に相当する。（いずれにせよここ
では重要ではない、モデル空間の絶対ゼロ点に対する話
者の位置の情報についての自由度が節約させるので）１
次元の節約は、本実施例おいては、超ベクトルＲ _iその
ものではなく、話者の差分ベクトルＤ _iを、話者の副空
間を形成するため、及び共分散行列を計算するために用
いる理由になる。さらに言えば、さもなければ固有空間
内での座標のジャンプ（跳躍）を含めることができる
が、これは実際には、話者適応には寄与しない。

【００４６】所望すれば、元々作成した共通の不特定話
者モデルをさらに、全学習話者について、この新たなシ
ュミット正規直交基底で表現することができる。この場
合には、これらの基底は自ずと１次元だけ増加する。従
って、個々の話者の超ベクトルにかかわらず、共通の不
特定話者モデルをそれ自身の超ベクトルによって表現す
るので、副空間の次元は話者数に相当し、これにより、
個々の音響単位に関して極めて大きな分散を有する、追
加的に混合した話者を表現する。

【００４７】ここで、完全なモデル空間内の差分ベクト
ルＤ _iの行列（外３）の代わりに、音声副空間のシュミ
ット正規直交基底での差分ベクトルＤ _iの表現を行とし
て組合わせて、行列

【外５】にすることができる。この行列（外５）はｎ_s×ｎ_s行列
であり、即ち300×300要素のみを有する。これとは対照
的に、元のモデル区間内の差分ベクトルＤ _iの行列（外
３）は、約二百万の300倍の要素を有する。

【００４８】そして、求められた差分ベクトルＤ _iの共
分散行列（外２）について、次式が成り立つ。

【数５】ここで（外７）は、シュミット正規直交基底の基底ベク
トルＳ _iを列として組合わせたｎ_s×ｎ_p行列である。基
底ベクトルＳ _iが正規直交であるので、

【外６】の対角化、及びその後の行列

【外７】での再変換は、モデル空間内でＰＣＡ固有ベクトル
Ｅ ₁、...、Ｅ _nsを見出すのに十分なものである。ベクト
ルＤ _iそのものが正規直交化されているので、シュミッ
ト正規直交基底で表現した差分ベクトルＤ _iの行列（外
５）は行列であり、（外６）の対角化が極めて簡単にな
る。

【００４９】従ってその結果は、話者数−１に相当する
次元の固有空間となり、その原点は、個々の話者の元の
超ベクトル全部の中心に存在し、その基底ベクトル
Ｅ _１、...、Ｅ _nsは、個々の話者におけるばらつきの方
向に沿っている。

【００５０】代案として、例えばグラム−シュミット正
規直交化のような基底の１回の変更によって、まず超ベ
クトルそのものの正規直交基底を見出すことも当然可能
である。そして、この方法で見出した基底の原点を、す
べての超ベクトルの平均値に移動して、その後に固有ベ
クトルを特定するために、まずＰＣＡ法を実行する。超
ベクトルそのものからシュミット直交基底を形成して、
その後に新たな基底において平均化を行い、その後にＰ
ＣＡ法並びに再変換を実行するこの方法は、図１の方法
の最後の３ステップに示してある。

【００５１】基底の簡単な変更によって見出した超ベク
トルの正規直交基底で、ＰＣＡ法を実行して、その後に
所望の原点に変換することも当然可能である。さらに、
すべての超ベクトルの平均値の代わりに、全学習話者に
共通の不特定話者モデルの超ベクトルを、固有空間用の
原点として用いることもできる。

【００５２】見出した固有空間（及びここでは話者の表
現）は、元のモデル空間に比べて既に大幅に縮小されて
おり、学習における、話者におけるばらつきについての
情報を含んだままである。しかし、即座の認識に用いる
ためにはまだ複雑すぎる。従って、次元をより低減する
必要がある。このことは、単にいくつかの固有ベクトル
を除くことで、達成することができる。

【００５３】こうするために、ＰＣＡ法では、共分散行
列（外２）の固有ベクトルだけでなく、関連する固有値
も特定することができる。（本明細書での固有値の意味
は、上述した欧州特許出願EP 0 984 429 A2とは異な
り、固有ベクトルの線形結合として表現した際のモデル
の係数ではなく、行列（外２）の各固有ベクトルＥ _eに
属する固有値ｅの係数であり、これについてＥ _e（外
２）＝ｅ（外２）が成り立つ。）固有ベクトルＥ _eの次
数を特定するために、これらの固有値を用いることがで
きる。固有値が大きくなるほど、２人の異なる話者を区
別するために、関連する固有ベクトルＥ _eがより重要に
なる。従って、最重要な固有ベクトルを所定数ｎ_E個選
択することが可能であり、これらのベクトルは実際に、
音声認識システム用の固有空間を張るために用いるべき
ものである。既に実現されている方法の具体例では、こ
れらのベクトルは大きい方から10個の固有値を有する固
有ベクトルに過ぎず、他の例では、最重要な方から50個
の固有値を有する固有ベクトルに過ぎない。

【００５４】従って、見出した共分散行列（外２）の固
有ベクトル全部ではなく、固有空間を張るために実際に
使用したこれらの固有ベクトル、即ちいわゆる固有発声
Ｅ _eのみが、モデル空間に再変換すべきものであること
は自明である。固有空間についての基底を選択すること
によって、元の超ベクトルＲ _iを含めた超ベクトルＲ _iを
_、ｎ_E次元のみを有する縮小した固有空間上に射影する
ことで、超ベクトルＲ _iを縮小した固有空間上に射影す
る場合には、結果的な二乗誤差が確実に最小化されるこ
とが保証される。

【００５５】この方法で見出した固有空間は、適切かつ
可能な限り高速な方法で基本モデルを新規話者に適応さ
せるために、何通りかに用いることができる。この観点
から、この固有空間は、基本モデルを新規話者に適応さ
せるために、異なる方法でデータを利用する種々の音声
認識システムにおける完結したデータ組として用いるこ
ともでき、このデータ組は既に、予め評価した学習音声
データの必須の情報をすべて含んでいる。

【図面の簡単な説明】

【図１】本発明による固有空間の発生方法の種々のス
テップの順序を図式的に表現した図である。

【図２】不特定話者モデルの２人の異なる話者への適
応を示す図である。

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】複数の学習話者を表現するための固有空
間を特定する方法において、個々の学習話者の学習音声データを用いて、個々の学習
話者についての特定話者モデル組を開発し、モデル組の
モデルを常に複数のモデルパラメータによって記述する
ステップと、個々の学習話者の前記モデル組のモデルの複数のモデル
パラメータを、関係する超ベクトルの各々に連結するこ
とによって、話者毎の組合わせモデルを高次元ベクトル
空間（モデル空間）内で表示するステップと、前記モデル空間の次元を低減して、固有空間の基底ベク
トルを導出する変換を実行するステップとを具えている
ことを特徴とする固有空間の特定方法。
【請求項２】前記モデルが隠れマルコフモデルであ
り、このモデルにおいて、複数の確率密度の混合の各々
によって単一モデルの状態を記述し、前記確率密度を常
に、音響特徴空間内の複数の音響特徴量によって記述す
ることを特徴とする請求項１に記載の方法。
【請求項３】前記固有空間の基底ベクトルを特定する
ための変換が、変換すべきベクトルのばらつきにもとづ
く低減基準を利用することを特徴とする請求項１または
請求項２に記載の方法。
【請求項４】固有空間の基底ベクトルについて、関連
する順序付けの特徴を特定することを特徴とする請求項
１から請求項３までのいずれかに記載の方法。
【請求項５】前記固有空間の基底ベクトルが、前記超
ベクトルによって特定される相関行列の固有ベクトルで
あり、該行列の固有値の順序付けの特徴が前記固有ベク
トルに属することを特徴とする請求項４に記載の方法。
【請求項６】前記固有空間の次元を低減するために、
前記順序付けの特徴を考慮して、所定数の固有空間基底
ベクトルを除去することを特徴とする請求項４または請
求項５に記載の方法。
【請求項７】高次元のモデル空間に対して、まず基底
の変更によって話者副空間への分割を行い、該話者副空
間内で、全学習話者のすべての超ベクトルを表現し、前
記話者副空間内で、前記固有空間の基底ベクトルを特定
するための変換を実行することを特徴とする請求項１か
ら請求項６までのいずれかに記載の方法。
【請求項８】前記固有空間の基底ベクトルを特定する
ために、前記各学習話者の前記超ベクトルの差分ベクト
ルに対して、平均超ベクトルへの変換を実行することを
特徴とする請求項１から請求項７までのいずれかに記載
の方法。
【請求項９】現在話者のものとして認識されるべき、
既に観測した音声データにもとづいて、固有空間を用い
て、基本モデル組を前記現在話者に適応させ、複数の学
習話者の学習音声データにもとづいて、請求項１から請
求項８までのいずれかに記載の方法に従って前記固有空
間を特定することを特徴とする音声認識方法。
【請求項１０】プログラムをコンピュータで実行する
際に、請求項１から請求項９までのいずれかに記載の方
法の全ステップを実行するためのプログラムコード手段
を有するコンピュータプログラム。
【請求項１１】コンピュータで読取り可能なデータ担
体に記憶した、請求項１０に記載のプログラムコード手
段を有するコンピュータプログラム。