JP2000081894A

JP2000081894A - 音声評価方法

Info

Publication number: JP2000081894A
Application number: JP11248458A
Authority: JP
Inventors: Roland Kuhn; ローランドクーン; Patrick Nguyen; パトリックニュイエン; Jean-Crande Junkua; ジーン−クランデジュンクア
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-09-04
Filing date: 1999-09-02
Publication date: 2000-03-21
Also published as: US6697778B1; EP0984431B1; EP0984431A2; US6141644A; ES2214815T3; DE69914839D1; DE69914839T2; CN1188828C; CN1247363A; EP0984431A3; TW448416B

Abstract

(57)【要約】【課題】話者識別および話者照合方法を提供する。【解決手段】登録話者の音声に基づいて（話者照合の
場合にはさらに詐称者の音声にも基づいて）音声モデル
を作成し学習する。音声モデルからのパラメータを連接
してスーパーベクトルを定義する。スーパーベクトルに
対して線形変換を施して次元数を削減し、低次元空間
（固有空間と呼ぶ）を生成する。学習用話者は点または
分布として固有空間内に表される。その後、試験用話者
からの未知音声に対して同様の線形変換を施して固有空
間内に位置づける。固有空間内の試験用話者の学習用話
者に対する類似度によって試験用話者を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声処理技術に関
し、さらに詳しくは、話者照合あるいは話者識別を実行
するシステムおよび方法に関する。

【０００２】

【従来の技術および解決しようとする課題】本人である
ことを認識することは、ほとんどすべての取引における
中心問題である。多くの人が電話を通じて自己の預金口
座にアクセスしたり自己のクレジットカードを使用した
りというような秘密の金融取引を行っている。現在実施
されている本人であることの認識は決して簡単ではな
い。政党間では、社会保障番号、母親の旧姓などの秘密
情報の交換が行われているであろう。このような情報は
盗まれる可能性があり、その場合には誤った認識がされ
ることになる。

【０００３】この発明の１つの局面においては、話者照
合を実行するシステムおよび方法を提供することにより
上述の問題に焦点をあてる。話者照合では、与えられた
音声が特定の話者（ここでは、登録話者という）に属す
るか詐称者（登録話者以外のだれか）に属するかを決定
することが必要とされる。

【０００４】話者識別における問題点は話者照合におけ
る問題点と多少関係している。話者識別では、与えられ
た音声を既得の音声集合の中の１つにマッチングさせる
必要がある。話者照合と同様、話者識別にも多くの興味
深い応用例がある。例えば、話者識別システムは、音声
サンプルを利用することができる話者群に関して話者に
よる音声メールを区分することに使用されるかもしれな
い。このような能力によれば、音声メールシステムにメ
ッセージを残した通話者の身元をコンピュータ画面に表
示させるコンピュータテレフォニーシステムが可能とな
る。

【０００５】話者照合および話者識別の応用例はほとん
ど無数に存在するが、話者照合および話者識別の実行の
解明はこれまでわかりにくいものであった。人間の音声
を認識すること、特にその話者を他の話者から識別する
ことは複雑な問題である。人は、たった一つの単語でさ
え全く同じように二度話すことはめったにない。これ
は、人間の発声法が原因となっている。

【０００６】人間の音声は以下のようにして生成され
る。肺から押し出された空気が声帯を通り抜け、声門に
より調音され音声波が生成される。音声波は口腔および
鼻腔で共鳴し、その後、舌、顎、歯、唇により言語音が
作られる。これらの音声生成機構の相互作用に対して、
様々な要素が影響を及ぼす。例えば、かぜにより声帯の
音質が大きく変化するのと同様に鼻腔の共鳴も大きく変
化する。

【０００７】人間の音声生成における複雑さおよび変わ
りやすさのため、話者照合および話者識別は、新たな音
声を既得の音声サンプルと比較することにより容易に実
行できるというわけではない。詐称者を除外するために
類似度のしきい値を高く設定すると、本物の話者が鼻風
邪を引いている場合にはその本物の話者を棄却してしま
うことがある。一方、類似度のしきい値を低く設定する
と、システムは誤った照合を起こしやすくなる。

【０００８】

【課題を解決するための手段】請求項１に従った音声評
価方法は、登録話者に関する音声評価方法であって、少
なくとも一人の登録話者を含む複数の学習用話者の音声
に基づいて、音声モデル集合を学習するステップと、音
声モデル集合の次元数を削減して基本ベクトル集合を生
成し、この基本ベクトル集合により定義され、かつ、複
数の学習用話者を表すための固有空間を構築するステッ
プと、登録話者を固有空間内に第１の位置として表すス
テップと、新たな話者による入力データに基づいて新た
な音声モデルを学習し、この新たな音声モデルの次元数
を削減して新たな話者を固有空間内に第２の位置として
表すことによって、新たな話者による入力データを処理
するステップと、第１の位置と第２の位置との類似度を
評価し、その評価を新たな話者が登録話者か否かの指標
として用いるステップとを備える。

【０００９】請求項２に従った音声評価方法では、話者
識別を行う場合には、複数の学習用話者は、複数の異な
る登録話者を含む。上記音声評価方法はさらに、複数の
登録話者の各々を固有空間内に学習用話者の位置として
表すステップと、第２の位置と学習用話者の位置との類
似度を評価し、この評価の少なくとも一部に基づいて新
たな話者を複数の登録話者の中から選択した一人として
識別するステップとを備える。

【００１０】請求項３に従った音声評価方法では、話者
照合を行う場合には、複数の学習用話者は、固有空間内
に第３の位置として表される少なくとも一人の詐称者を
含む。

【００１１】請求項４に従った音声評価方法は、第２の
位置と第３の位置との類似度を評価し、その評価を新た
な話者が登録話者か否かのさらなる指標として使うステ
ップを備える。

【００１２】請求項５に従った音声評価方法では、類似
度を評価するステップは、第１の位置と第２の位置との
間の距離を定めることによって行われる。

【００１３】請求項６に従った音声評価方法では、学習
用話者は、固有空間内に位置として表される。

【００１４】請求項７に従った音声評価方法では、学習
用話者は、固有空間内に点として表される。

【００１５】請求項８に従った音声評価方法では、学習
用話者は、固有空間内に分布として表される。

【００１６】請求項９に従った音声評価方法では、新た
な話者による入力データを処理するステップは、入力デ
ータを用いて確率関数を生成しその確率関数を最大化す
ることによって固有空間にある最尤ベクトルを決定する
ステップを含む。

【００１７】請求項１０に従った音声評価方法では、複
数の学習用話者は、複数の登録話者と少なくとも一人の
詐称者とを含む。

【００１８】請求項１１に従った音声評価方法は、第１
の位置と第２の位置との類似度を周期的に評価し、新し
い話者が登録話者か否かの指標としてその評価を用いる
ことによって新たな話者の同一性が変化したか否かを決
定するステップを含む。

【００１９】この発明は、話者照合および話者識別のた
めのモデルに基づいた分析方法を使用する。モデルは、
既知の登録話者の音声に基づいて作成されて学習する
（話者照合の場合には、一人またはそれ以上の詐称者の
音声にも基づく）。これらの話者モデルには、例えば、
隠れマルコフモデル（以下、ＨＭＭともいう。）におけ
るパラメータのように、一般的に多数のパラメータが使
用される。これらのパラメータを直接使用するのではな
く、連接させてスーパーベクトルを作成する。これらの
スーパーベクトルは、話者一人あたり一個作成され、学
習データの話者の母集団全体を表す。

【００２０】スーパーベクトルに対して線形変換を行な
って次元数を削減し、低次元空間（ここでは、固有空間
と呼ぶ）を生成する。この固有空間の基底ベクトルを固
有音声または固有ベクトルと呼ぶ。必要があれば、固有
ベクトルの成分のいくつかを捨てることにより固有空間
の次元数をさらに削減することができる。

【００２１】次いで、学習用データを含む話者の各々を
固有空間内の点あるいは固有空間内の確率分布として固
有空間内に表す。前者（点として表すこと）は、各話者
からの音声を相対的に不変のものとして取り扱う点で、
やや不正確である。後者（確率分布として表すこと）
は、発話ごとの各話者の音声の変化を反映する。

【００２２】各話者の学習用データが固有空間内に表さ
れると、システムを用いて話者照合または話者識別を行
うことができる。

【００２３】新たな音声データが得られるとこれを用い
てスーパーベクトルを作成し、次いで次元数削減を行い
固有空間に表す。新たな音声データの既得のデータに対
する類似度を評価することで話者照合あるいは話者識別
を実行する。話者からの新たな音声について、その固有
空間内の対応する点あるいは対応する分布が登録話者の
学習用データに対するしきい値類似度内であるか否かを
照合する。システムは、本人であっても、その音声が固
有空間内にある詐称者の音声の方に近い場合には棄却す
ることがある。

【００２４】話者識別は類似の方法で行う。新たな音声
データを固有空間内に位置付け、学習用話者のうち固有
ベクトルの分布点が最も近い学習用話者と結びつける。

【００２５】固有空間内において新たな音声データと学
習用データとの類似度を評価することには多くの利点が
ある。

【００２６】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。

【００２７】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。

【００２８】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。

【００２９】

【発明の実施の形態】以下、この発明の実施の形態につ
いて図面を参照しつつ説明する。

【００３０】この発明において用いられる固有音声手法
は、多くの異なった音声モデルに対して機能する。ここ
では好ましい実施の形態として、今日の音声認識手法に
おいて最も一般的な隠れマルコフモデル認識系に関して
説明する。しかし、この発明は、例えば音素類似性認識
系のような他のタイプのモデルに基づく認識系を使用し
て実行することもできる。

【００３１】この発明による話者識別および話者照合を
よりよく理解するためには、話者認識システムについて
基本的な事項を理解しておくことが有用と思われる。し
たがって、以下、隠れマルコフモデル手法について説明
する。隠れマルコフモデルは、今日のほとんどの話者認
識系において話者を表すために使用されているものであ
る。

【００３２】隠れマルコフモデルは状態図を伴うモデル
化手法である。モデルに含まれている全ての知識源
（句、単語、サブワード、音素など）を利用することに
より、いかなる音声単位であってもモデル化することが
可能である。隠れマルコフモデルは、観測可能な出力の
系列を離散間隔で生成する未知の処理を表現し、出力は
（予め決められた音声単位の集合に対応する）いくつか
の有限個のアルファベット要素である。これらのモデル
は、観測可能な出力を生成した状態の系列が未知である
ので、「隠れ」と呼ばれる。

【００３３】図１に示すように、隠れマルコフモデル１
０は、状態（Ｓ１，Ｓ２，．．．，Ｓ５）のセットと、
図１に矢印で示す各対の状態間の遷移を規定するベクト
ルと、確率データの集まりとによって表される。具体的
には、隠れマルコフモデルは、遷移ベクトルに関連する
遷移確率のセット１２と、各状態で観測された出力に関
連する出力確率のセット１４とを含んでいる。このモデ
ルは、ある状態から別の状態まで一定の離散間隔で計測
される。クロックタイムには、モデルは現在の状態から
遷移ベクトルが存在するどの状態へも変化してよい。図
１に示すように、所定の状態からそれ自体に戻るという
遷移も可能である。

【００３４】遷移確率は、モデルが計測された際にある
状態から別の状態への遷移が発生する尤度を表現してい
る。すなわち、図１に示すように、各遷移は０と１の間
の確率値を伴っている。どの状態からでもその状態を離
れる全ての確率の合計は１である。例として、遷移確率
表１２に遷移確率値のセットを掲載する。実際の実施形
態では、どの状態からでもその状態を離れる全ての確率
の合計が１に等しいという制約のもとで、これらの値が
学習データにより生成される。

【００３５】遷移が行われるときはいつも、モデルがア
ルファベットの一要素を発信すなわち出力していると判
断することができる。図１に示す実施形態では、音素を
基準とする音声単位が想定されている。したがって、出
力確率表１４で特定されるシンボルは標準英語に見られ
る音素の一部に相当する。各遷移の際にアルファベット
のどの要素が出力されるかは学習中に覚えた出力確率値
すなわち関数によって決まる。このようにして発信され
た出力（学習データに基づく）は、観測値の系列を表
し、アルファベットの各要素は出力確率を有している。

【００３６】音声をモデル化する際に共通して行われる
ことは、離散アルファベットシンボルの系列とは対照的
に、出力を連続するベクトルの系列として扱うことであ
る。したがって、出力確率は１個の数値の場合とは対照
的に、連続する確率密度関数で表現される必要がある。
このように、ＨＭＭは１個以上のガウス分布を備えた確
率密度関数に基づく場合が多い。複数のガウス関数が使
用される場合、図に１６で示すように、それらは一般に
複素確率分布を画定するよう加法的に混合される。

【００３７】単一ガウス関数として表現されるにせよ混
合ガウス関数として表現されるにせよ、確率分布は複数
のパラメータで記述される。遷移確率値１２と同様に、
これら出力確率パラメータも浮動小数点数を含んでいて
もよい。パラメータ１８は、学習用話者からの観測デー
タに基づいて確率密度関数（ｐｄｆ）を表現するために
一般的に使用されるパラメータを特定するものである。
図１のガウス関数１６の等式で示すように、モデル化さ
れるべき観測ベクトルＯの確率密度関数はガウス密度Ｎ
により多重化された各混合成分の混合係数の反復合計で
あり、この場合、ガウス密度はケプストラム係数あるい
はフィルターバンク係数の音声パラメータから算出され
た平均ベクトルｕｊ及び共分散行列Ｕｊを含んでいる。

【００３８】隠れマルコフモデル認識系の実行の詳細
は、応用例ごとに大幅に異なることがある。図１に示す
隠れマルコフモデルの一例は隠れマルコフモデルを作成
する方法を単に例示したにすぎず、本発明の範囲を限定
するものではない。この点について、隠れマルコフモデ
ル化の概念に関する多くの変形例が存在する。以下の説
明からより完全に理解できるように、本発明の固有音声
適応化技術は各種隠れマルコフモデル変形例だけでなく
パラメータを基準とする他の音声モデル化システムにも
効果的であるように容易に適応させることができる。

【００３９】図２および図３はそれぞれ、この発明の実
施の形態による話者識別、話者照合を実行するための固
有空間の構築を説明するためのフローチャートである。
この発明の実施の形態による話者識別、話者照合を実行
するために、まず固有空間を作成する。作成する固有空
間は、応用例により定まる特有の固有空間である。図２
に示すように、話者識別の場合には、登録話者集合２０
を使用して学習用データ２２を提供し、この学習用デー
タ２２に基づいて固有空間を作成する。対して、話者照
合の場合には、図３に示すように、照合の対象となる一
または複数の登録話者２１ａ、さらに１または複数の仮
想の詐称者２１ｂも使用して学習用データ２２を提供す
る。このように学習用データ２２の源が異なるという違
いがあるが、話者識別と話者照合において固有空間を作
成する手順は本質的に同じである。したがって、図２お
よび図３において同一または相当部分には同じ参照符号
を付している。

【００４０】ステップ２４において、学習用データ２２
に表された話者の各々について学習用話者モデルを発展
させ教え込む。その結果、各話者モデルの集合２６が生
成される。ここでは、隠れマルコフモデルについて示し
たが、これに限定されるものではなく、連接に適したパ
ラメータを有する音声モデルであればどのようなモデル
でもよい。好ましくは、モデルにより画定された全ての
音声単位が少なくとも一度は各話者の実際の音声によっ
て教え込まれるよう十分な学習用データを使ってモデル
２６を学習させる。図２および図３には明確に示してい
ないが、モデルを洗練するのに適した話者適応手順２４
を付加的に含めることができる。このような付加的な手
順の例としては、最大事後推定法（ＭａｘｉｍｕｍＡ
Ｐｏｓｔｔｔｔｅｒｉｏｒｉｅｓｔｉｍａｔｉｏ
ｎ：ＭＡＰ）や、最大線形回帰法（ＭＬＬＲ）などの変
換に基づく手法が挙げられる。

【００４１】話者モデル２６を作成する目的は、学習用
データ集合を正確に表し、各学習用話者を配置し新たな
話者の発声を検査する固有空間の境界をこの集合を使用
して画定することにある。

【００４２】モデル２６を作成した後、ステップ２８に
おいて、各話者についてのモデルを使用してスーパーベ
クトル３０を作成する。スーパーベクトル３０は、各話
者についてのモデルのパラメータを連接させて構成する
ことができる。隠れマルコフモデルを使用する場合、各
話者についてのスーパーベクトルは、パラメータ（一般
に浮動小数点数）の配列リストとなる。これらのパラメ
ータは、その話者についての隠れマルコフモデルのパラ
メータの少なくとも一部に対応する。与えられた話者に
ついてのスーパーベクトルには、各音声単位に対応する
パラメータが含まれる。パラメータは都合のよい順序に
編成することができる。その順序は重要ではないが、一
旦ある順序が採用されると学習用話者全員についてその
順序に従わせる必要がある。

【００４３】スーパーベクトルを作成するために使用す
るモデルパラメータの選択は、利用できるコンピュータ
システムの処理能力に依存する。隠れマルコフモデルを
使用した場合、ガウス平均値（ｔｈｅＧａｕｓｓｉａ
ｎｍｅａｎｓ）からスーパーベクトルを作成すること
により良い結果が得られた。もし、さらに大きな処理能
力を利用できるならば、スーパーベクトルに他のパラメ
ータ（例えば、図１に示す遷移確率１２、パラメータ１
８中の共分散行列Ｕｊなど）を含めることができる。も
し、隠れマルコフモデルにより離散的な出力（確率密度
と対照的な）が生成されるならば、これらの出力値を使
用してスーパーベクトルを作成することができる。

【００４４】スーパーベクトルを作成した後、ステップ
３２において、次元数削減演算を行う。次元数削減は、
元の高次元のスーパーベクトルを基底ベクトルに変える
どのような線形変換を通じても達成できる。不完全では
あるが例を挙げると、主成分分析（Ｐｒｉｎｃｉｐａｌ
ＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＰＣＡ）、
独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎ
ｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）、線形識別分析
（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｔｅＡｎａｌ
ｙｓｉｓ：ＬＤＡ）、因子分析（ＦａｃｔｏｒＡｎａ
ｌｙｓｉｓ：ＦＡ）、特異値分析（Ｓｉｎｇｕｌａｒ
ＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ：ＳＶＤ）な
どが挙げられる。

【００４５】特に、本発明を実行する際に有用な次元数
削減手法を以下に示す。音声認識に関する話者独立型モ
デルから得られたＴ個の学習用スーパーベクトルにより
構成される一つの集合を考える。これらのスーパーベク
トルの各々は次元数Ｖを有すると仮定する。従って、全
てのスーパーベクトルをＸ＝［ｘ１，ｘ２，・・・，ｘ
Ｖ］＾Ｔ（Ｖ＊１ベクトル）のように表すことができ
る。次元数Ｅの新たなベクトルを生成するために、スー
パーベクトルに適用可能な線型変換Ｍを考える。ここ
で、Ｅ≦Ｔである。Ｔは、学習用スーパーベクトルの数
である。変換されたベクトルの各々は、Ｗ＝［ｗ１，ｗ
２，・・・，ｗＥ］＾Ｔのように表すことができる。線型
変換Ｍのパラメータの値は、Ｔ個の学習用スーパーベク
トルによる集合から何らかの方法で計算される。

【００４６】このようにして、線型変換Ｗ＝Ｍ＊Ｘが得
られる。ＭはＥ＊Ｖの次元数を有し、ＷはＥ＊１の次元
数を有する。ここで、Ｅ≦Ｔである。Ｔ個のスーパーベ
クトルによる集合のうち特別のものについては、Ｍは定
数になる。Ｗは次元数Ｅ（Ｅ≦Ｔである。）を有する
ため、Ｔ個のスーパーベクトルによる１つの集合から線
形変換Ｍを計算するためにいくつかの次元数削減手法を
使用することができる。例として、主成分分析（Ｐｒｉ
ｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉ
ｓ）、独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍ
ｐｏｎｅｎｔＡｎａｌｙｓｉｓ）、線形識別分析（Ｌ
ｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉ
ｓ）、因子分析（ＦａｃｔｏｒＡｎａｌｙｓｉｓ）、
特異値分析（ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍ
ｐｏｓｉｔｉｏｎ）がある。

【００４７】この発明は、例に挙げた方法に限らず、入
力ベクトルが話者依存型モデルにより得られた学習用ス
ーパーベクトルであるという特別のケースにおいて不変
線型変換Ｍを見つけるためのどのような方法を使用して
も行うことができる。ここでＭは前記手法を行うために
使用される。

【００４８】ステップ３２において生成された基底ベク
トルは、固有ベクトルにより張られる固有空間を定め
る。次元数削減により、学習用話者一人当たり一つの固
有ベクトルが作成される。したがって、Ｔ人の学習用話
者が存在するときは、次元数削減ステップ３２によりＴ
個の固有ベクトルが生成される。これらの固有ベクトル
により、この説明において固有音声空間あるいは固有空
間と呼ぶ空間が定められる。

【００４９】固有空間を構成する固有ベクトルの各々
は、図２および図３の３４に示すように、それぞれ異な
った次元を表し、それに沿って異なる話者を区別するこ
とができる。元の学習用集合の中の各スーパーベクトル
は、これら固有ベクトルの線形結合として表すことがで
きる。固有ベクトルは、データをモデル化する際の重要
性に応じて配列される。第一の固有ベクトルは第二の固
有ベクトルよりも重要であり、第二の固有ベクトルは第
三の固有ベクトルよりも重要である、という具合であ
る。実験によれば、第一の固有ベクトルは男女を表す次
元に対応する。

【００５０】ステップ３２においては最大Ｔ個の固有ベ
クトルを作成するが、実際にはこれらの固有ベクトルの
いくつかを捨てて最初のＮ個の固有ベクトルだけを保持
することもできる。ステップ３６においては、Ｔ個の固
有ベクトルのうちＮ個を選択的に抽出してパラメータ数
を削減した固有空間３８を作成する。より高位に配列さ
れた固有ベクトル（前述の第一の固有ベクトルに対する
第二、第三の固有ベクトル）は、一般に話者間の識別の
ための重要な情報を比較的含んでいないため捨てること
ができる。固有音声空間を縮小して学習用話者の総数よ
りも小さくすることにより、限られた記憶容量と処理装
置による実用的なシステムを構築する際に有用な固有の
データ圧縮が行える。

【００５１】学習用データから固有ベクトルを作成した
後、学習用データにおける各話者を固有空間内に表す。
話者識別を行う場合には、図２に示すステップ４０ａに
おいて、各登録話者を固有空間内に表す。これを４２ａ
に図式的に示す。話者照合を行う場合には、図３に示す
ステップ４０ｂにおいて、登録話者および仮想の詐称者
を固有空間内に表す。これを４２ｂに図式的に示す。話
者は、図２の４２ａに示すように固有空間内に点とし
て、あるいは図３の４２ｂに示すように固有空間内に確
率分布として表す。

【００５２】＜話者識別あるいは話者照合システムの使
用＞図４は、この発明の実施の形態による話者識別シス
テムおよび話者照合システムの使用を説明するためのフ
ローチャートである。図４を参照して、ステップ４４に
おいて、話者識別あるいは話者照合を求めるユーザは新
たな音声データを提供する。ステップ４６において、新
たなデータを使用して話者依存型モデル４８を学習させ
る。ステップ５０において、モデル４８を使用してスー
パーベクトル５２を作成する。なお、新たな音声データ
は各音声単位の例を必ずしも含んでいない。例えば、新
たな発話が非常に短いためにすべての音声単位の例を含
んでいないかもしれない。本システムは、この問題を解
決する。

【００５３】ステップ５４において、スーパーベクトル
５２に対して次元数削減を行う。その結果ステップ５６
において、固有空間内に新たなデータが図４中の５８に
示すように位置付けられる。図４中５８では、学習用デ
ータに基づいて固有空間内に既存データを示す部分はド
ットで表し、新たな音声データはスターマークで表して
いる。

【００５４】固有空間内に新たなデータを位置付けた
後、学習用話者に対応して既存データを示す点または分
布との類似度の評価が行われる。図４には、話者識別お
よび話者照合の典型的な実施例を示している。

【００５５】話者識別の場合には、ステップ６２におい
て、新たな音声データは固有空間内の最も近い学習用話
者に割り当てられる。この様子を図４中の６４に示す。

【００５６】システムはこのようにして、新しい音声と
固有空間内におけるデータ点またはデータ分布が最も近
い既存の学習用話者とが同一であると認識する。

【００５７】話者照合の場合には、ステップ６６におい
て、システムは新しいデータを示す点を調べて、それが
固有空間内の登録話者に対してあらかじめ定められたし
きい値類似度の範囲内にあるかどうかを決定する。ステ
ップ６８において、新たな話者データが登録話者よりも
詐称者に近いときは、予防手段としてシステムはそのデ
ータを棄却する。この様子を図４中の６９に示す。ここ
には登録話者に対する類似度および詐称者に対する類似
度が描かれている。

【００５８】＜最尤固有空間分析手法（Ｍａｘｉｍｕｍ
ＬｉｋｅｌｉｈｏｏｄＥｉｇｅｎｓｐａｃｅＤｅ
ｃｏｍｐｏｓｉｔｉｏｎＴｅｃｈｎｉｑｕｅ：ＭＬＥ
Ｄ）＞新たな話者を固有空間内に位置付ける一つの簡単
な手法は、単純射影演算を用いることである。射影演算
により、固有空間外の点にできるだけ近い固有空間内の
点が新たな話者による入力音声に対応する。これらの点
が実際にはＨＭＭの集合を再構成することができるスー
パーベクトルであることは重要ではない。

【００５９】射影演算は比較的未熟な手法であるので、
固有空間内の地点が新たな話者に関して最適であるとい
うことは保証されない。さらに、射影演算においては、
新たな話者についての完全なＨＭＭ集合を表すための完
全なデータ集合が新たな話者についてのスーパーベクト
ルに含まれていることが必要とされる。この要求によ
り、実用上の制限をかなり受ける。射影を使用して新た
な話者を固有空間内に位置付ける場合、新たな話者は、
全ての音声単位がデータ内に表されるように十分な入力
音声を提供しなければならない。例えば、隠れマルコフ
モデルにより英語のすべての音素を表そうとすると、単
純射影手法を使用する前に学習用話者は全ての音素の例
を提供しなければならない。応用する際にこのような制
限が存在することは実用的でない。

【００６０】この実施の形態における最尤手法は、上述
の単純射影の欠点の両方に焦点をあてたものである。最
尤手法では、新たな話者によって供給される音声の最大
生成確率を有する隠れマルコフモデルに対応したスーパ
ーベクトルを表す点を固有空間内に見つける。

【００６１】単純射影演算ではスーパーベクトルの全て
の要素を同等の重要性を有するものとして取り扱うのに
対して、最尤手法では、実際の適用データから生じる確
率に基づいてより起こりそうなデータにはより大きな重
みをつけるようにする。単純射影演算と違って、たとえ
新たな話者により十分な学習用データ集合が提供されな
い場合であっても最尤手法は機能する。すなわち、音声
単位のいくつかのデータが欠けている場合である。実際
には、最尤手法ではスーパーベクトルが作成された状況
を考慮に入れる。すなわち、他のモデルよりも新たな話
者が提供した入力音声を生成しやすいという確率を有す
る隠れマルコフモデルからスーパーベクトルを作成す
る。実用上は、入力音声が実際にどのくらい利用できる
かの程度にかかわらず、最尤手法は、固有空間内におい
て新たな話者の入力音声に最も一致するスーパーベクト
ルを選択する。ここで説明の便宜上、新たな話者はアラ
バマ出身の若い女性であると仮定する。最尤手法では、
この話者から発せられた数音節に基づいて、アラバマ出
身女性のアクセントに一致する全ての音素を表す部分が
固有空間内において選択される。

【００６２】図５は、最尤手法がどのように行われるか
を説明するための図である。図５を参照して、新たな話
者からの入力音声を使用してスーパーベクトル７０を作
成する。上述のように、スーパーベクトルは、ケプスト
ラム係数または同様のものに対応した音声パラメータの
連接リストを含む。これらのパラメータは、新たな話者
に対応した隠れマルコフモデルから抽出されたガウス平
均を表す浮動小数点数である。他の隠れマルコフモデル
平均を使用することもできる。これらの隠れマルコフモ
デル平均は、図５中の７２のドットで表される。データ
が全て揃っている場合、スーパーベクトル７０は、隠れ
マルコフモデル平均の各々についての浮動小数点数を含
み、これらは隠れマルコフモデルによって表された音声
単位の各々に対応している。ここで、音素”ａｈ”につ
いてのパラメータは存在するが音素”ｉｙ”についての
パラメータが欠けている場合を仮定する。

【００６３】固有空間３８は、固有ベクトル７４，７
６，７８の集合によって表される。固有ベクトルの各々
を、図５中にＷ１，Ｗ２，・・・，Ｗｎとして示された
対応する固有値と掛け合わせることにより、新たな話者
からの観測データに対応したスーパーベクトル７０を固
有空間内に表すことができる。最初これらの固有値は未
知である。最尤手法はこれら未知の固有値の値を見つけ
る。さらにいうと、これらの値は、固有空間内で新たな
話者を最もよく表す最適解を探すことにより選ばれる。
固有値を固有空間３８内の対応する固有ベクトルと掛け
合わせた後、それらの結果を足しあわせて適応モデルを
表すスーパーベクトル８０を作成する。入力話者のスー
パーベクトル７０はいくつかのパラメータ値（例え
ば、”ｉｙ”パラメータ）を欠いているのに対して、適
応モデルを表すスーパーベクトル８０では全ての値が揃
っている。これはこの発明により得られる一つの利益で
ある。さらに、スーパーベクトル８０内の値は最適解、
すなわち固有空間内に新たな話者を表す最大尤度を表
す。

【００６４】各固有値Ｗ１，Ｗ２，・・・，Ｗｎは、最
尤ベクトルを含んでいるとみなすことができる。図５中
の８２に最尤ベクトルの概略を示す。図５に示すよう
に、最尤ベクトル８２は最尤ベクトル８２は固有値Ｗ
１，Ｗ２，・・・，Ｗｎの集合を含む。

【００６５】図６は、最尤手法を使用した適応化の手順
を説明するためのフローチャートである。図６を参照し
て、まずステップ１００において、観測データを含む新
たな話者からの音声を使用して隠れマルコフモデル集合
１０２を作成する。ステップ１０４において、隠れマル
コフモデル集合１０２を使用してスーパーベクトル１０
６を作成する。スーパーベクトル１０６は、隠れマルコ
フモデル１０２から抽出された隠れマルコフモデルパラ
メータの連接リストを含む。

【００６６】ステップ１０８において、スーパーベクト
ル１０６を使用して確率関数Ｑを作成する。この実施の
形態では、確率関数は、あらかじめ定義された隠れマル
コフモデル１０２に関して観測されたデータの生成確率
を表す。

【００６７】確率関数Ｑが確率項Ｐだけでなくその対数
項ｌｏｇＰも含んでいるならば、確率関数Ｑの後の扱い
が容易になる。

【００６８】ステップ１１０において、固有値Ｗ１，Ｗ
２，・・・，Ｗｎの各々について個々に確率関数Ｑの導
関数を求めることにより確率関数Ｑの最大化を行う。例
えば、固有空間の次元数が１００の場合、このシステム
では、確率関数Ｑの１００個の導関数を求めてそれぞれ
を０と置いてそれぞれのＷを求める。これは計算量が多
いように見えるが、何千もの計算を行うことが一般的に
要求される従来のＭＡＰ法あるいはＭＬＬＲ法に比べて
はるかに計算量が少ない。

【００６９】このようにして得られたＷの集合は、最尤
点に対応した固有空間内の点の認定に必要とされる固有
値を表す。したがって、Ｗの集合は固有空間内の最尤ベ
クトルを含む。固有ベクトルの各々（図５に示す固有ベ
クトル７４，７６，７８）は、直交ベクトル集合または
直交座標集合を定義し、この集合に対して固有値が掛け
合わされて固有空間内に制限された点が定義される。ス
テップ１１２において、この最尤ベクトルを使用して固
有空間内の最適点（図４中の６６に示す）に対応したス
ーパーベクトル１１４が作成される。ステップ１１６に
おいて、スーパーベクトル１１４を使用して新たな話者
についての適応モデル１１８を作成する。

【００７０】この実施の形態における最尤法において、
モデルλに関する観測値Ｏ（Ｏ＝ｏ ₁，・・・，ｏ_T）の
尤度を最大にすることが望まれる。これは、数１に示す
補助関数Ｑの最大化を反復することにより行うことがで
きる。数１において、λは反復処理時の現行モデルを表
し、＾λは推定モデルを表す。

【００７１】

【数１】予備の近似計算として、平均値のみについて最大化を実
行してもよい。隠れマルコフモデル集合により確率Ｐが
与えられた場合には、以下の数２を得る。

【００７２】

【数２】ここで、

【００７３】

【数３】であり、さらに、

【００７４】

【数４】である。

【００７５】新たな話者の隠れマルコフモデルについて
のガウス平均が固有空間内に配置されていると仮定す
る。数５に示す平均スーパーベクトル／μ_j（ｊ＝１，
・・・，Ｅ）によってこの空間を広げる。

【００７６】

【数５】ここで、／μ_m ^(s)（ｊ）は、固有ベクトル（固有モデ
ル）ｊの状態ｓにおける混合ガウシアンｍについての平
均ベクトルを表す。

【００７７】したがって、以下の数６に示される＾μを
必要とする。

【００７８】

【数６】／μ_jは直交しており、ｗ_jは話者モデルの固有値であ
る。どんな新たな話者であっても、観測された話者のデ
ータベースの線形結合によりモデル化することができる
と仮定する。

【００７９】

【数７】Ｑを最大化するため、以下の処理を行う。

【００８０】

【数８】なお、固有ベクトルは直交するため、（∂ｗ_i／∂ｗ_j）
＝０，ｉ≠ｊである。

【００８１】したがって、数９を得る。

【００８２】

【数９】上記導関数を計算することにより、数１０を得る。

【００８３】

【数１０】これにより、数１１に示される一群の線形方程式を得
る。

【００８４】

【数１１】＜固有空間内における類似度評価＞話者を固有空間内に
点として表す場合は、単純な幾何学的距離の計算を用い
て、新たな話者に対してどの学習用話者が一番近いかを
認定することができる。話者を固有空間内に分布として
表す場合は、新たな話者データを観測値Ｏとして取り扱
い、各分布候補（学習用話者を表す）を検査することに
よって類似度を評価してその候補が観測データを生成し
た確率を決定する。最も高い確率を有する候補が最も近
い類似度を有するものと評価する。高い安全性を必要と
する応用例においては、最も高い確率を有する候補が、
あらかじめ定められたしきい値よりも低い確率値を有す
る場合には、照合を棄却することが望まれる。費用関数
を用いて高度の確実性を欠く候補を除外することができ
る。

【００８５】上述のように、新たな話者の学習用話者に
対する類似度の評価は、完全に固有空間内において行わ
れる。さらに高度の正確さを得るために、これに代えて
ベイズ推定法を用いることができる。

【００８６】ベイズ推定法を用いた類似度評価を高める
ために、固有空間内の学習用話者のガウス密度に対し
て、次元数削減を通じて捨てられた話者データを表す直
交補空間内の推定限界密度を掛け合わせる。話者モデル
であるスーパーベクトルに基づいて次元数削減を実行す
れば高次元空間から低次元空間にデータを大幅に圧縮で
きることがこれによりわかるであろう。次元数削減によ
って最も重要な基底ベクトルは保持されるが、より上位
の情報のいくつかは捨てられる。ベイズ推定法は、この
捨てられた情報に対応した限界ガウス密度を推定する。
元の固有空間は、スーパーベクトルの次元数削減処理を
通じての線形変換により作成される。ここではＮ個の全
成分からＭ個の成分が抽出される。抽出されるＭ個の成
分が少ないほど、最大限の固有値に対応した変換基底の
より低次元の下位空間を表すことができる。このように
して、重要でない成分ｉ（ｉ＝Ｍ＋１，・・・，Ｎ）は
捨てられるのに対し、成分ｉ（ｉ＝１，・・・，Ｍ）に
よって固有空間が定義される。これら二つの成分集合
は、相互に排他的で補完的な二つの下位空間を定義す
る。主要な下位空間は重要な固有空間を表し、その直交
成分は次元数削減を通じて捨てられたデータを表す。

【００８７】これら二つの各直交空間内のガウス密度の
積として、数１２に示す式により尤度推定値を計算する
ことができる。

【００８８】

【数１２】数１２において、第１項は固有空間Ｅ内の単ガウス密度
であり、第２項は固有空間に対して直交する空間内の単
ガウス分布である。固有空間への射影と残差だけを使用
して二つの項を完全に学習用データベクトル集合から推
定できることがわかる。

【００８９】

【発明の効果】この発明に従った音声評価方法は、固有
空間内において新たな音声データと学習用データとの類
似度を評価するため以下の利点がある。

【００９０】第一に、固有空間は、単に選択された数個
の特徴だけでなく、各話者の全体を簡潔、低次元の方法
で表す。

【００９１】また、固有空間内に含まれる次元数は、元
の話者モデル空間あるいは特徴ベクトル空間内に含まれ
るよりも一般にかなり少ないので、固有空間内で実行さ
れる類似度の計算を非常に速くすることができる。

【００９２】また、システムにおいては、元の学習用デ
ータを作成するのに使用したすべての例、発話が新たな
音声データに含まれていることは必要とされない。この
発明によれば、その構成要素の一部を欠くスーパーベク
トルに対して次元数の削減を行うことができる。その結
果としての固有空間内の分布点は話者を明確に表す。

【図面の簡単な説明】

【図１】隠れマルコフモデルの典型例を説明するための
図である。

【図２】この発明の実施の形態による話者識別システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。

【図３】この発明の実施の形態による話者照合システム
を実行するための固有空間の作成を説明するためのフロ
ーチャートである。

【図４】この発明の実施の形態による話者識別システム
および話者照合システムの使用を説明するためのフロー
チャートである。

【図５】最尤法がどのように行われるかを説明するため
の図である。

【図６】最尤法を使用した適応化の手順を説明するため
のフローチャートである。

【符号の説明】

２６各話者モデルの集合３０，５２，７０，１０６，１１４スーパーベクトル４２ａ登録話者４２ｂ登録話者および仮想の詐称者４８話者依存型モデル７４，７６，７８固有ベクトル８０適応モデルを表すスーパーベクトル８２最尤ベクトル１０２隠れマルコフモデル集合１１８新たな話者についての適応モデル

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジュンクアジーン−クランデアメリカ合衆国カリフォルニア州 93111 サンタバーバラ，サンタアナアヴェニュー 146

Claims

【特許請求の範囲】

【請求項１】登録話者に関する音声評価方法であっ
て、少なくとも一人の登録話者を含む複数の学習用話者の音
声に基づいて、音声モデル集合を学習するステップと、前記音声モデル集合の次元数を削減して基本ベクトル集
合を生成し、この基本ベクトル集合により定義され、か
つ、前記複数の学習用話者を表すための固有空間を構築
するステップと、前記登録話者を前記固有空間内に第１の位置として表す
ステップと、新たな話者による入力データに基づいて新たな音声モデ
ルを学習し、この新たな音声モデルの次元数を削減して
前記新たな話者を前記固有空間内に第２の位置として表
すことによって、前記新たな話者による入力データを処
理するステップと、前記第１の位置と前記第２の位置との類似度を評価し、
その評価を前記新たな話者が前記登録話者か否かの指標
として用いるステップとを備える、音声評価方法。
【請求項２】請求項１に記載の音声評価方法におい
て、話者識別を行う場合には、前記複数の学習用話者は、複数の異なる登録話者を含
み、前記音声評価方法はさらに、前記複数の登録話者の各々を前記固有空間内に学習用話
者の位置として表すステップと、前記第２の位置と前記学習用話者の位置との類似度を評
価し、この評価の少なくとも一部に基づいて前記新たな
話者を前記複数の登録話者の中から選択した一人として
識別するステップとを備える、音声評価方法。
【請求項３】請求項１に記載の音声評価方法におい
て、話者照合を行う場合には、前記複数の学習用話者は、固有空間内に第３の位置とし
て表される少なくとも一人の詐称者を含む、音声評価方
法。
【請求項４】請求項３に記載の音声評価方法におい
て、前記音声評価方法はさらに、前記第２の位置と前記第３の位置との類似度を評価し、
その評価を前記新たな話者が前記登録話者か否かのさら
なる指標として使うステップを備える、音声評価方法。
【請求項５】請求項１に記載の音声評価方法におい
て、前記類似度を評価するステップは、前記第１の位置と前
記第２の位置との間の距離を定めることによって行われ
る、音声評価方法。
【請求項６】請求項１に記載の音声評価方法におい
て、前記学習用話者は、前記固有空間内に位置として表され
る、音声評価方法。
【請求項７】請求項１に記載の音声評価方法におい
て、前記学習用話者は、前記固有空間内に点として表され
る、音声評価方法。
【請求項８】請求項１に記載の音声評価方法におい
て、前記学習用話者は、前記固有空間内に分布として表され
る、音声評価方法。
【請求項９】請求項１に記載の音声評価方法におい
て、前記新たな話者による入力データを処理するステップ
は、前記入力データを用いて確率関数を生成しその確率関数
を最大化することによって前記固有空間にある最尤ベク
トルを決定するステップを含む、音声評価方法。
【請求項１０】請求項１に記載の音声評価方法におい
て、前記複数の学習用話者は、複数の登録話者と少なくとも
一人の詐称者とを含む、音声評価方法。
【請求項１１】請求項１に記載の音声評価方法におい
て、前記音声評価方法はさらに、前記第１の位置と前記第２の位置との類似度を周期的に
評価し、新しい話者が登録話者か否かの指標としてその
評価を用いることによって前記新たな話者の同一性が変
化したか否かを決定するステップを含む、音声評価方
法。