JP4369132B2

JP4369132B2 - 話者音声のバックグランド学習

Info

Publication number: JP4369132B2
Application number: JP2002588127A
Authority: JP
Inventors: チャオ−シーフアング; ヤ−チェルングチュ; ウェイ−ホツァイ; ジュ−ミンチュング
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-10
Filing date: 2002-04-25
Publication date: 2009-11-18
Anticipated expiration: 2022-04-25
Also published as: EP1395803B1; WO2002090915A1; EP1395803A1; CN1236423C; DE60213595T2; JP2004528595A; ATE335195T1; US7171360B2; CN1462366A; US20030088414A1; DE60213595D1

Description

本発明は、テスト発話（test utterance）を入力し、該テスト発話に対する複数の話者モデルのうちの最も確かそうなモデルを決定し、この最も確かそうな音声モデルに対応する話者を該テスト発話の話者として識別することによる話者の自動識別法に関する。

話者の識別は、益々重要になってきている。伝統的な話者識別は、例えば、話者の素性を声の特徴に基づいて検証するといった保安目的で使用されている。家電装置用に益々多くの音声制御の応用が開発されるにつれて、話者識別は家電装置との対話を更に単純化する場合に重要な役割を果たすことができる。

従来の話者識別（話者ＩＤ）処理においては、特定の話者のモデルが、顧客のエンロール（登録）データを用いて訓練される。通常、音素（phonemes）又は複音（diphones）のような準単語単位をモデル化するために、隠れマルコフモデル（ＨＭＭ）が使用される。良好な性能を達成するためには、話者の音声を特徴付けるため、信頼性のあるシステムは大量のエンロールデータを必要とする。特に、話者の声の特徴は場面（セッション）から場面へと大きく変化するので、多数の異なる場面からのデータが望ましい。各話者は、自身のモデルを訓練する。そのようであるので、話者は実際の訓練を行う前にシステムに対しエンロールしておかなければならない。

モデルが一旦訓練されたら、識別又は検証されるべき話者の発話が、全話者モデルと比較される。話者の素性は、当該発話に対して最も高い尤度（確度）を持つモデルを見付け、該モデルに対応する話者の素性を取り込むことにより決定される。

システムを訓練するのに多くの時間を費やすことはユーザにとり面倒であるので、話者に対する要求事項及び訓練データの量を最小化したいという要求がある。少ないエンロールデータしか利用可能でない場合に、話者モデル化の一層良好なパラメータ推定を発生させることを目的とする種々の方法自体は提案されている。しかしながら、これらのシステムは、ユーザがシステムをエンロール及び訓練することを要する。家電システムにとり、このことは、依然としてユーザに対する高すぎる障壁であり、斯かるシステムの受け入れを妨げる。また、このことは、エンロールメントに馴染みのない通常のユーザにとっては、システムを操作するのを困難にする。

本発明の目的は、話者がシステムを明示的に訓練することによりエンロールする必要性無しに、話者を自動的に識別することが可能な方法及びシステムを提供することにある。

上記本発明の目的を達成するために、複数の話者モデルが：
− バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話話した話者についての事前知識無しで入力し、
− 前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化し、
− 前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練する、
ことにより、バックグラウンドで発生される。

本発明による方法においては、話者固有のモデルを、エンロールデータに依存することなく、代わりにオフラインで収集される話者の音声を用いて訓練することができる。これを達成するために、当該システムは、人の介在無しで、実行しながら別個の話者音声を収集し、分類し及び学習する能力を備えるように設計されている。上記学習はバックグラウンドでの又は隠れた手順であるので、バックグラウンド学習と呼ばれる。本説明においては、該バックグラウンド学習はバッチ学習に焦点を合わす。バッチ学習は、識別されるべき全ての話者の充分な音声データがバックグラウンドで収集された時に実行される。該バックグラウンド学習は、有利には、音声制御システムにおいて使用される。殆どの現状の話者とは独立した音声制御システムは、ユーザにより、最初に当該システムを訓練する必要性なしに使用することができる。ユーザが当該音声制御システムを使用している間に、ユーザにより発せられるコマンドは記録され、本発明によりバックグラウンド学習のために使用される。特定の他の応用例の場合は、ユーザが本発明によるバックグラウンド学習を備える新たなシステムを得た場合、該システムは、例えばマイクロフォンを介して入力される全ての音声を記録することにより、ユーザからの発話を自動的に収集し始める。この目的のために、該システムは音声と他の音とを区別するソフトウェアを備えてもよい。該システムは、如何なるユーザの介入も無しに又はユーザにより起動された後に上記記録を開始することができる。何れの場合においても、該システムは、最初は、誰が実際に発話を行っているかについての情報を有していない。また、本発明に関しては、ユーザがパスワード等の所定のフレーズを話す必要もない。収集された発話の各々は単一の話者からの音声断片を含むと仮定される。言い換えると、各発話の属性は、専ら唯一人の話者から発生したものと判断することができる。

所定の評価規準に従って当該システムが充分なデータを一旦収集すると、上記バッチ学習は、所定の評価規準により規定される話者の特徴に従った音声データのクラスタ化を行う。これには、オプションとして、自己タグ付けされたデータを用いた話者固有のモデルの訓練が後続する。このバッチ学習技術は、システムが管理（監督）されていない形で開始される必要がある場合に使用される。他の例として、本発明によるバックグラウンド学習技術は、“増加的学習”の形態で使用することもできる。これは、現在のシステムに新たなユーザを追加するステップ、又は以前の話者モデルを適応化するために新たな音声データを収集するステップを含む。該システムは、新たな収集データが既に識別された話者のものであるかを決定するための事前検証を実行する。もしそうなら、該データはオプションとして以前の話者モデルを適応化するために使用される。それ以外の場合、該データはブラインドでクラスタ化され、これにより新たな話者モデルが発生される。

このようにして、面倒な精度／エンロールの取り引きは回避され、かくして、ユーザの労力は低減される。

米国特許第5,862,519号が話者識別／検証システム用に音声をブランドでクラスタ化する方法を記載していることに注意すべきである。このシステムにおいては、ブラインドでのクラスタ化は、典型的にはパスワードのような発話を準単語単位に自動的に区分化するために使用されている。該既知のシステムにおいて、ブランド区分化は、未知のパスワードのフレーズを、均質性特性に基づいて準単語単位に区分化するために使用され、ここで、区分化の境界は未知である。上記パスワードのフレーズは、クライアントの話者から到来する。このことは、話者は当該システムにより分かっており、実際に該システムを訓練している。本発明によるシステムにおいては、ブラインドクラスタ化は同一の話者からの発話を一緒にグループ化するために使用され、その場合に、これら発話は幾人かの話者からの発話の集まりの一部である。発話の集合は、幾つかの話者に関係したクラスタにブラインドで分割される。該クラスタ化の間において、話者に関しての事前の知識は存在しない。

従属請求項２の構成によれば、バックグラウンドで入力された各発話に関してモデルが作成される。また、これら発話の各々は、斯様なモデルの全てと比較される。この結果、各発話に対して、確度（尤度）のベクトルが得られる。区別は、斯かる確度を、これら確度に基づく順位付けにより置換することにより増加される。順位付けベクトル間の距離は、異なる話者の発話間を区別するための一般的評価規準を形成する。何故なら、順位付けベクトル間の距離は、これら順位付けベクトルが異なる話者の発話に関係する場合よりも、これら順位付けベクトルが同一の話者の発話に関係する場合に一層小さくなることが分かったからである。このような評価規準に基づいて、発話はクラスタ化される。これらクラスタの各々に対して、モデルが作成される。このモデルは、一人の話者に対して固有であると仮定される。上記順位付けが、高い確度が高い順位値をとなり、同一の話者の発話が順位付けベクトル間の最小の距離として現れるようなものであることが分かるであろう。確度ベクトルの要素の適切な順位付けは、結果として、良好な区別能力となる。

従属請求項３の構成によれば、クラスタ当たりの発話の期待数に基づいて順位付けする場合に閾が使用される。これは、クラスタ化処理を補助する。

従属請求項５の構成によれば、ユーザは彼／彼女の声を用いてエンロールすることができる。自動的に、最も確かそうなモデルが決定され、このモデルに関してユーザの素性が記憶され、エンロールを高速及び容易にする。

従属請求項６の構成によれば、エンロールの間において、当該モデルが既に充分に訓練されたかが判定される。もしそうでないなら、幾つかの更なる発話が入力され、部分的に完成されモデルが該新たな発話に対して適応化される。このようにして、エンロールは、最初から始めなければならない場合と較べて速くなる。

従属請求項７の構成によれば、話者を充分な信頼度で識別することができるという点でモデルが充分に訓練されている場合は、ブラインドでのクラスタ化は停止される。

従属請求項８の構成によれば、モデルが一旦充分に訓練されたら、当該話者は自動的に自身の素性を特定するようになるので、該話者はその時点以降自動的に識別することができる。このようにして、該話者はエンロールに関して如何なる率先もする必要がない。

従属請求項９の構成によれば、話者の識別の結果、家電装置との対話用の個人プロファイルが自動的に取り込まれる。これにより、家電装置の個人化された使用が、非常にユーザ友好的な態様で可能となる。

本発明の上記及び他の態様を、図面を参照して説明する。

図１は、本発明による話者識別システムのブロック図を示している。該システムは、時間的に順次に動作する３つの主要なブロック、即ちバックグラウンド学習部１１０、話者登録部１２０及び話者識別部１３０を含んでいる。上記バックグラウンド学習部は、音声データ収集部１１２を含み、該収集部には話者の特徴に基づく音声発話のブラインド（盲）クラスタ化部１１４が後続する。上記ブラインド発話クラスタ化部は、話者の素性又は話者の母集団サイズに関しての事前情報がない場合に、未知の話者言葉をグループ化することを目的とする。この構成要素の詳細は、後述する。クラスタが一旦発生されると、話者モデル化部１１６は、これらクラスタの各々における発話が、可能性のある話者に関係した対応するモデルを訓練するために使用されることを保証する。好ましくは、上記モデルは伝統的なガウス混合モデル化（ＧＭＭ）技術を用いて訓練されるものとし、斯かる技術においてはＭ個のクラスタの組がGMM’s{λ₁ ^c,λ₂ ^c,…,λ_M ^c}により表される。当業者であれば、音声処理の分野で一般的に知られている他のモデルも使用することができると理解するであろう。斯様なモデルは一般的に知られているので、特定のモデルの詳細は説明しない。本発明を実施するハードウェア自体は、例えば、適切なソフトウェアがロードされたマイクロプロセッサ又はＤＳＰ等の通常のもので、オプションとしてＡ／Ｄ変換器及び音声を入力するマイクロフォンを使用することができる。上記ソフトウェアは、例えばＲＯＭ内に記憶する等により組み込むことができ、又はハードディスク若しくはＣＤ−ＲＯＭ等のバックグラウンド記憶部から又はインターネット等のネットワークを介してロードすることができる。

バックグラウンド学習は監督されていない方法で完了されるので、最初は、どのモデルがどの話者に関連するかについての情報は提供されない。本当の話者を実際に識別する後続の話者識別を実行するために、ブロック１２２に示すように、モデルの各々に対応する話者の素性でタグ付けすることが望ましい。これは、話者が正式な登録をする場合に実行することができる。このフェーズにおいては、当該システムは、話者の各々に、例えば単一の任意の発話ｙ等の幾つかのエンロール用データを提供するよう尋ねる。当該システムはこのエンロール用発話に基づいて当該話者に最も適したモデルを割り当てる。言い換えると、話者は、彼の／彼女の声により話者モデルの１つを“採用”する。これを達成するために、好ましくは最尤判断規則が使用され、結果として最もありそうな話者モデルを選択する。当該システムは、話者Ｓｉに対して、

を満たすモデルを有利に判定する。

特定のアプリケーションに対しては、話者の正確な素性を知る必要はないことが分かる。話者間の区別ができれば充分であろう。そのようであるので、ブロック１２０はオプションである。エンロールが行われなかった場合、話者は、単に、対応する各話者モデルに関連する番号により識別することができる。

ブロック１３０に示す識別の間において、当該システムはブロック１３２において未知の発話（例えばｚ）を入力として取り込み、

を満たすような仮定された話者の素性を出力として生成するが、上記式においてＱはユーザの数である。これは、最もありそうな話者モデルに関連する話者の素性が取り込まれることを意味する。

発話クラスタ化の暗示
{x₁,x₂,…,x_N}がＰ人の周囲の話者{S₁,S₂,…,S_P}からのＮ個の音声発話の群を示すものとし、ここでＮ＞Ｐであり、Ｐは事前には未知であり得るとする。発話のクラスタ化の目的は、１つのクラスタ内の全ての発話が好ましくは唯一人の話者からのものとなるような、発話のＭ個のクラスタの群への分割を生成することにある。理想的には、特定の話者からの全ての発話を単一のクラスタ内へグループ化することができるようにＭ＝Ｐとなることである。この目的のために、発話の各々により伝達される話者の特徴の関連する態様を識別し、これにより、同一の話者の発話の間では小さな差を及び異なる話者の発話の間では大きな差を伴うような何らかの尺度を生成することが前提条件である。テキストとは独立した話者識別におけるガウス混合分類の成功に従って、本発明者は、発話から形成されるガウス混合モデル（ＧＭＭ）が、話されるメッセージというよりはむしろ話者の素性に対応する音響空間を特徴付けるために使用することができるということを理解した。これを進めるために、音声発話は、先ず、デジタル波形表現から特徴ベクトルのストリームに変換され、これらの発話の各々はガウス混合密度によりモデル化される。このようなモデル化は良く知られており、ここでは詳細には説明しない。{λ₁ ^U,λ₂ ^U,…,λ_N ^U}がＮ個の発話から形成されたＧＭＭのパラメータ群を示すものとする。次に、各発話x_iの確度が、各モデルλ_j ^Uに対して、Ｌ_ij＝logｐ(x_i|λ_j ^U),
1<=i,j<=Nとして計算される。実験は、確度が、発話及びテストモデルが同一の話者に関連する場合は一般的に大きくなり、それ以外では小さくなることを示した。即ち、

ここで、Ｓ(x_i)はx_iの話者属性である。しかしながら、この評価規準は常に有効であるとは限らない。音声発話の分割する場合のもっと信頼性のある暗示を得るためには、以下に定義するような順位付けメカニズムを使用することが好ましい。

Ｌ_ｉ＝［Ｌ_i1Ｌ_i2…Ｌ_iN］^ＴをＮ次元ベクトルとする。ｘ_ｉ及びｘ_ｊが同一の話者のものである場合、Ｌ_ｉとＬ_ｊとは何らかの意味でより一層“類似”しており、それ以外では“比類似”であることが分かった。これを示すために、図２にはモデル確度のグレイスケール表現が図示されており、該図においては３人の話者の９つの発話（話者当たり３つの発話）が解析されている。９つの発話が垂直方向に示され、９つのモデルが水平方向に示されている。黒の領域は一層高い確度を表し、白い領域は一層小さな確度を表している。同一の話者からの発話が、異なる話者からの発話のものより一層類似した“確度パターン”を有していることが分かる。そのようであるので、確度ベクトル間の“非類似”の尺度を、クラスタ化の間に評価規準として使用することができる。理想的には、もし確率的モデルλが話者の声の最も重要な特有の特徴を捕捉することができるなら、ｘ_ｉ及びｘ_ｊが同一の話者に関連している場合にＬ_ijの値は大きくなり、それ以外では小さくなる。しかしながら、実際には、全ての話者（ｘ_ｉ）＝話者（ｘ_ｊ）及び話者（ｘ_ｉ）≠話者（ｘ_ｋ）に対して、Ｌ_ij＞Ｌ_ikを保証するのは困難である。図２に示す例のように、ｘ_１及びｘ_２は同一の話者により生成される一方、ｘ_８は他の話者から発せられており、残念ながら、この場合はＬ_１８＞Ｌ_１２である。従って、２つの発話が同一の話者のものであるかを単一のモデルの尤度に基づいて決定することには信頼性がない。この問題を軽減するために、２つの発話の間の類似性を、単一モデルの尤度の代わりに、対以外の発話を考慮することにより測定される。基本的原理は、確度パターンの視覚的調査で構築される。

図２に示されるように、一般的な特色は、２つのベクトルＬ_ｉ及びＬ_ｊが、発話ｘ_ｉ及びｘ_ｊが同一の話し言語のものである場合に、或る意味で大いに“類似”しており、それ以外では“非類似”であるということである。しかしながら、問題は斯様な視覚的特色をどの様に特徴付けるかである。確度のダイナミックレンジは非常に大きいという事実により、発話対の距離を２つのＬベクトルからとられるユークリッド距離を用いて直接測定することは適切でない。例えば、発話ｙ_１及びｙ_２が同一の話者により発生され、ｙ_３は他の話者により発生されたと仮定する。結果としてのＬベクトルは、多分、このようになる（対数確度を使用する）：
L₁= [ L₁₁L₁₂L₁₃]^T = [ -1000 -1111 -3222]^T
L₂= [ L₂₁L₂₂L₂₃]^T = [ -5111 -4000 -8222]^T
L₃= [ L₃₁L₃₂L₃₃]^T = [ -900 -800 -300]T
もっとも、Ｌ_１２＞Ｌ_１３及びＬ_２１＞Ｌ_２３，‖Ｌ_１−Ｌ_２‖＞‖Ｌ_１−Ｌ_３‖である。以下に詳述する音声発話をクラスタ化する好ましい方法は、これらの問題を克服する。
発話クラスタ化手順

先ず、各発話ｘ_ｉに関して、当該発話のモデル確度Ｌ_ｉｊ（１≦ｊ≦Ｎ）が、より大きな順位値がより高い優先度に対して割り当てられるような規則に従って順位付けされる。確度Ｌ_ｉｊの順位付けは、確度ベクトルＬ_ｉにおける他のエレメントの確度に対するものである。斯様であるので、訓練発話に対する確度ベクトルＬ_ｉは、結果として対応する順位付けベクトルＦ_ｉとなる。好ましい実施例においては、中間の順位付けベクトルＲ_ｉが計算され、ここで、ベクトルエレメントＲ_ｉｊは整数１ないしＮから確度ベクトルＬ_ｉにおける他のエレメントの確度に対して確度Ｌ_ｉｊに応じて選択される。好ましい実施例においては、

となる。各順位値は通常は１回のみ使用され、１ないしＮから割り当てられる。この中間順位付けベクトルに基づいて、各発話ｘ_ｉに対する実際の順位付けベクトルF_i = [F_i1, F_i2...,F_iN ]^TはF_ij = 1/R_ijと定義される。

区別を増加させることにより更なる改善が達成され、

ここで、ηはクラスタ当たりの発話の予測数を表す。このように進行して、異なる話者の発話から区別するための一般的評価規準、
D(F_i, F_j)< D(F_i, F_k), if S(x_i) = S(x_j), 及びS(x_i) ≠ S(x_k) (5)
を導出することができ、ここで、D(F_i, F_j)はＦ_ｉ及びＦ_ｊに対する適切な距離尺度である。

上述した例を参照すると、対応する順位付けベクトルは、
F₁= [ 1 1/2 1/3]^T
F₂= [ 1/2 1 1/3]^T
F₃= [ 1/3 1/2 1]^T
となる。この例において、η＝３である。この結果、|| F₁- F₂|| = 0.5, || F₁ - F₃ || = 0.89, 及び || F₂- F₃|| = 0.72となる。明らかに、ｙ_１及びｙ_２は最も近い対である。

閾処理の使用は、１つの発話と、同一の真の話者素性を伴う該発話の仲間との間の関係を明確化するには大きなモデル確度のみが有効であるという事実を明らかにする。これを示すために、図２に示される例が使用される。この例に対する中間順位付けマトリクスＲ_ｉｊは、

である。順位付けマトリクスF_ij (h=3)を作成すると、

となる。対毎の距離|| F_i - F_j ||を計算すると、

となる。|| F_i - F_j || < || F_i - F_k ||, if 話者(x_i) = 話者 (x_j), 及び話者 (x_i) ≠話者 (x_k)なる特性が、再び明らかに示されている。ηに対する実際の値は、収集されたデータに依存して、経験的に決定することができる。

順位付けベクトル間の距離の評価規準に基づいて、話者による発話のブラインドクラスタ化を、従来のベクトルクラスタ化の問題として編成することができる。当業者であれば、如何なる好適なクラスタ化アルゴリズムも使用することができる。例えば、これを解決するために、充分に開発されたｋ平均クラスタ化アルゴリズムを使用することができる。しかしながら、この応用では多分発生するであろう零分割の問題を防止するために、以下のように修正されたｋ平均アルゴリズムを使用することが好ましい。
ステップ１：初期化。クラスタ数を２に設定する。例えばＦ_ｉなるベクトルをクラスタＣ_１の代表として任意に選択する。次いで、Ｆ_ｉから最も遠い（ユークリッド距離等の、選択された距離尺度に関して）ベクトルをクラスタＣ_２の代表として選択する。
ステップ２：最も近い隣接者の検索。各ベクトルＦ_ｊに関して、クラスタの各々における代表のうちのＦ_ｊに最も近い１つを見付け、次いで、Ｆ_ｊを該最も近い代表に関連した対応するクラスタに割り当てる。
ステップ３：分割。全クラスタに関して、現在属しているクラスタの代表から最も遠いベクトルを見付ける。この場合、該ベクトルは新しいクラスタの代表となる。ｋ＝ｋ＋１に設定する。
ステップ４：ｋ＝Ｍとなるまで、ステップ２及びステップ３を反復する。

図３は、本発明によるブラインド発話クラスタ化のブロック図を示している。ブロック３１０、３１２、…、３１８において、発話ｘ_ｉの各々に対して、対応するモデルλ_i ^Uが作成される。ブロック３２０において、発話ｘ_ｉの各々に対して、上記モデルの各々に対する上記発話の確度が計算される。この結果、上記発話の各々に対して、確度ベクトルL_i = [L_i1 L_i2 ...,L_iN ]^Tが得られる。ブロック３３２ないし３３８において、発話ｘ_ｉの各々に対して、確度ベクトルＬ_ｉのエレメントの相対確度に基づいて、対応する順位付けベクトルF_i=[F_i1,F_i2...,F_iN ]^Tが計算される。ブロック３４０において、上記発話ｘ_ｉは、これら発話の上記順位付けベクトル間の距離の評価規準に基づいてクラスタ化される。

実験結果
音声データベース
本発明によるシステムをテストするために使用されたデータベースは、１００名の話者（男性５０名、女性５０名）により発生された５０００の発話からなるものであった。各話者は５０の発話を行い、３つのセッションで記録された。これらの発話は、２秒から５秒の持続時間の範囲であった。１００名の全話者が顧客として務めた、即ちＰ＝Ｑ＝１００であった。該データベースは更に３つの部分集合に分割され、各々をＤＢ−１、ＤＢ−２及びＤＢ−３として示した。第１の部分集合ＤＢ−１は話者当たり２０の発話からなり（大凡、８０秒の全持続時間に相当する）、オフライン収集データとして作用した。第２部分集合ＤＢ−２は、ＤＢ−１における音声断片に含まれなかった別個の１０の発話からなるものであった。ＤＢ−２内の発話の各々は、顧客のエンロールデータとして使用された。第３部分集合ＤＢ−３は残りの２０の発話からなり、話者ＩＤ実験用のテスト集合として作用した。全ての発話は比較的静かな環境において記録され、１６ビットの精度で２２．０５ｋＨｚでサンプリングされた。次いで、２１のＭＦＣＣ（零次係数は使用されない）を含む音声特徴が、１０msのフレームずれを伴う２０msのハミング窓フレーム毎に抽出された。

クラスタ評価
当該話者識別（ＩＤ）システムの有効性は、オフライン収集された発話が如何に良好にクラスタ化されるかに重大に依存するので、話者ＩＤ実験を実施する前に、当該発話クラスタ化方法の効率を評価する必要がある。分割の品質は、クラスタの純度により測定された。該純度とは、１つのクラスタ内の全発話が同一の話者からのものである程度を記述するような品質である。クラスタＭに関しては、純度は、

と定義され、ここで、ｎ_ｍはクラスタｍにおける発話の数であり、ｎ_ｍｋはクラスタｍにおける話者Ｓ_ｋによりなされた発話の数である。この測定値の計算は、各発話の真の属性の知識を必要とする。当該クラスタ化方法の全体の効率は平均純度、

に関して評価される。ブラインド発話クラスタ化を調べるために、ＤＢ−１に対してコンピュータシミュレーションが実施された。２から８まで変化される発話当たりのガウス混合の数が実行され、パラメータηは全実験を通して（Ｎ／Ｍ）に設定された。図４は平均純度対使用されたクラスタの数を示している。クラスタの数が話者の人数に等しい場合（Ｍ＝Ｐ＝１００）、０．８６なる純度が得られる。クラスタの数が増加するにつれて、純度も上昇する。異なる話者からの発話は、７００のクラスタが使用された場合に、完全に分離することができた。また、当該結果は、クラスタ化が使用される発話当たりの混合の数には鈍感であったことを示している。以下においては、４つの混合／発話により得られたクラスタ化の結果が、話者ＩＤ実験を行うために使用された。

話者ＩＤ実験
先ず、従来の管理された方法で動作する基本システムが性能比較のために評価された。ここでは、システム性能を異なる量の訓練データに関して調査するために、２組の実験が実施された。第１組の実験では、特定の話者用のモデルが、ＤＢ−１における２０発話／話者を真の話者属性と共に使用して訓練された。その後、当該システムをテストするためにＤＢ−３における２０発話／話者が使用された。次いで、話者ＩＤの精度が、全てのテスト発話に対して正しく識別された発話の百分率として計算された。また、話者ＩＤ精度は、２から３２まで変化される話者モデル当たりの異なる数のガウス混合密度に関しても測定された。第２組の実験においては、各話者モデルはＤＢ−２から選択された１つの発話を用いて訓練された。

この実験設定は、話者モデルを訓練する場合に疎らなデータを使用するものと見なすことができる。加えて、統計的に意味のある結果を得るために、ＤＢ−２からの各個別の発話は１回のみ選択され、同様の実験が１０回の試行のために実行された。最後に、平均話者ＩＤ精度が計算された。下記の表は、話者ＩＤ精度を上記２組の実験に関する結果を用いて示す。管理されたＧＭＭの訓練に基づく従来の話者ＩＤシステムは、大量のエンロールデータが使用された場合に非常に良好に動作するが、僅かなエンロールデータしか使用されなかった場合には性能が劇的に低下することが分かる。また、表のデータは、我々の提案した管理されていない学習に基づく話者ＩＤの上限及び下限の性能も示している。

次に、本発明による話者ＩＤシステムの有効性をテストするために実験が実施された。異なる話者を表すために要する充分なクラスタ数を決定することが、当該話者ＩＤ課題にバックグラウンド学習を適用する場合の第１ステップである。先に言及した通り、一層大きなクラスタ数が使用される程、一層高い純度が達成することができる。しかしながら、大きな量のクラスタは、話者モデルを訓練する場合に疎らなデータを使用するという危険性を冒す。この理由のため、クラスタ数及び使用される話者モデル当たりの混合数に対する話者ＩＤ性能の影響を調査するために以下の実験が実施された。加えて、統計的に意味のある結果を得るために、ＤＢ−２から選択された話者当たり別個のエンロール発話を伴う１０回の試行が実施され、平均話者ＩＤ精度が次いで計算された。図５は、該話者ＩＤの結果を要約している。９５．６％なる最も良い話者ＩＤ精度は、１５０のクラスタを話者モデル当たり４つの混合と共に用いて達成された。クラスタ数が増加すると、話者ＩＤ精度は徐々に減少する。該結果は、充分なクラスタ数が、話者の人数（もし、事前に分かるなら）より僅かに大きくなるように選択することができることを暗示している。異なる話者からの発話が同じクラスタにグループ化されるよりも、同じ話者からの発話が２以上のクラスタを占める方が好ましい。前記表の結果と比較すると、疎らなエンロールデータを使用した話者ＩＤの性能を、話者の音声のバックグラウンド学習により大きく改善することができることは明らかである。また、上記結果は、提案された管理されていない該学習方法が、話者ＩＤに関して、従来の管理されたものに匹敵することも示している。

上記バックグラウンド学習方法は、話者識別の使用を簡素化し、かくして、話者識別をより多く家電システムで使用する道を開くものである。従来の話者識別とは異なり、本発明によるバックグラウンド学習方法は、話者固有のモデルを構築するためのユーザによる明示的なエンロール及びシステムの訓練に頼らず、代わりにオフラインで収集された音声信号を監督（管理）されない態様でクラスタ化及びパラメータ的にモデル化することにより話者の音声を学習しようと試みるものである。このことは、ユーザからの大量の音声データをエンロールする必要性を除去する。上述したように、システムを使用するための準備を行うために、下記のステップが必要となる：
オフラインの音声発話に関するブラインドクラスタ化が、上述したアルゴリズムに従って実行される。

図１のブロック１２２に関して前述したように、話者のタグ付けが実行される。以下の例では、ユーザに対して個人的な方法が用いられる。かくして、ユーザの名前等の、当該ユーザの個人的情報が必要となる。特定の応用の場合は、異なるユーザを区別するだけで充分であり、個人情報を追加することを不要にする。

話者認識に関する従来のエンロールとは別に、本発明によるシステムは収集された話者データの量に応じて２つの新たなエンロール方法を可能にする。第１のものは、システムにより発生される自動的エンロール手順である。これは“旧友挨拶エンロール”と呼ぶことができるかもしれない。その筋書きは下記の通りである：
当該システムが一定期間活性状態であった間に（例えば、話者から独立した音声制御を使用する又はバックグラウンドで話者データを単に収集する）、当該システムはユーザの発話を自動的に収集し、上述したバックグラウンド学習方法を用いて話者モデルを収集している。

或る時点において、話者の一人が確信尺度を超えた（即ち、前記モデルの１つと比較された発話（例えば、当該システムを制御するために使用される音声コマンド）が所定の閾を超えた）場合、該システムは自動的エンロールを果たす。これは旧友挨拶の形をとることができ、該システムは事前記録されたメッセージ又は音声合成を用いて“こんにちは、私の友よ。あなたから再び馴染みの声を聞きました。あなたの名前を言ってくれますか？”のように言うことができる。

エンロールの後、当該システムは話者を彼／彼女の声により識別することができる。

当該システムは、個人情報を当該話者に関して識別された音声モデルに関連させて如何なる適切な形態においても記憶することができる。例えば、話者は彼／彼女の名前を話すことにより個人情報を提供することができる。当該システムは、この名前を、音声を表す形で記憶することができる。次に同一の話者が当該システムに話しかけた場合、該システムは、もし所望なら音声合成を使用して、記録された音声を再生し該記録された名前が当該システムにとって通常の形で発音されるようにすることができる。また、本システムは上記名前を、音声認識技術を用いて認識し、認識された表現をテキスト的形態のようにして記憶することもできる。該システムはユーザに名前をタイプ入力するよう頼み、このテキスト的表現を記憶することもできる。

第２の形態のエンロールは、最初に話者識別が必要な時点において充分な訓練データが利用可能でない場合に実行される。当該システムは、ユーザに対して、より多くの発話を行うよう要求する。必要とされる入力発話の数は、既に収集されたデータに依存する。充分なレベルの確実性が一旦達成されたら、何らかの好適なモデル適応化アルゴリズムを用いて話者モデルの適応化が実行される。この形態のエンロールは、“適応化による易しいエンロール”と見ることができる。ユーザは、話者モデルを構築するための幾つかの適応化データを話すだけでよい。従来の方法と比較して、この形態のエンロールは少ない時間しか掛からない。

個人化された対話型音声制御システム
伝統的な音声制御システムにおいては、個人化された対話型の機能は音声制御機能とは良好には統合されていない。通常、ユーザは音声により装置を制御することができるが、当該個人は同時に他の事を行うために忙しい場合がある。例えば、テレビジョンは音声コマンド“オン”を使用して動作させることができる。従来の音声制御システムには、装置をオンさせる際に、テレビジョン装置を個人のデフォルト番組又は他の個人的設定に自動的に同調させる機能は存在しない。効果的なユーザインターフェースのためには、話者が自動的に識別されることが望ましい。本発明による話者識別技術は、この目的のために効果的に使用することができ、かくして、音声制御システムようの新たな機能を可能にする。例えば、父親デービッドがＴＶをオンした場合、チャンネルは、彼のプロファイルによれば好みのチャンネルであるような“スポーツ”にデフォルト設定される。２歳の子供トムがＴＶを声によりオンした場合、ディズニーチャンネルが自動的に選択される。このような機能は、装置を一層ユーザ指向にさせる。特に、非常に小さな子供に対しては、装置を補助無しで制御するのを可能にさせる。好ましくは、親が子供のプロファイルに影響を与えることができるようにする。話者識別技術を組み込むことにより、音声制御システムは異なるユーザに対して異なる態様で応答することができる。組み合わされた音声／話者認識システムのブロック図が図６に示されている。音声入力６１０は、音声コマンドを認識するように最適化し得る音声認識器６２０と、話者認識器６３０とに送られる。これら認識器は、好ましくは、並列に動作するものとするが、順次動作も許容することができる。これら認識器は、出力６４０として、認識された内容（例えば、音声コマンド）と当該話者の素性とを発生する。本発明によれば、音声コマンドを認識すると共に話者を識別するために、同一の発話が使用される。次いで、認識されたコマンドは話者とは独立した態様で実行される。

話者識別は、人が装置を操作する（例えば、携帯電話を使用する）のを、又は成人向けチャンネルを見る等の操作をするのを許可されているか検証するために有利に使用することもできる。個人化された対話型音声制御システムにおいては、個人プロファイル及び内容は、音声制御された装置の番組記録を解析することにより自動的に構築することができる。該プロファイルは、音声制御装置に対する当該ユーザの癖を表す。該システムは、斯かるプロファイルを、ユーザの番組／設定をデフォルト設定し、又はユーザの癖を知っている友人のように親切な提案を提供するために使用することができる。

上述した話者識別のアプリケーションは、本発明による識別システムのバックグラウンド訓練と組み合わせて使用することができ、当該システムを一層ユーザ友好的にすることができる。上記識別システムが異なる方法で訓練されるならば、同一のアプリケーションを使用することもできると理解される。

図１は、本発明による話者識別システムのブロック図である。図２は、確度ベクトルの区別能力を示す。図３は、ブラインドクラスタ化のブロック図を示す。図４は、発話のクラスタ化効率を示す。図５は、当該システムの話者識別性能を示す。図６は、音声制御システムにおける話者識別の使用を示す。

Claims

話者を自動的に識別する方法であって、該方法が、
前記話者からテスト発話を入力するステップと、
前記テスト発話に対して複数の話者モデルのうちの最も確実らしい話者モデルを決定するステップと、
前記最も確実らしい話者モデルに関連する話者を前記テスト発話の話者として識別するステップと、
により話者を識別するような方法において、該方法が、
バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を話した話者についての事前知識無しで入力するステップと、
前記訓練発話を所定の評価規準に基づいてブラインドでクラスタ化するステップと、
前記クラスタの各々に関して、各々が一人の話者を表すような前記モデルのうちの対応する話者モデルを訓練するステップと、
によりバックグラウンドにおいて前記複数の話者モデルを発生するステップを含んでいることを特徴とする方法。
請求項１に記載の方法において、前記訓練発話ｘ_ｉ（ｉ＜Ｎ）を前記所定の評価規準に基づいてブラインドでクラスタ化するステップが、
前記訓練発話ｘ_ｉの各々を対応するモデルλ_ｉによりモデル化するステップと、
前記訓練発話ｘ_ｉの各々に関して対応する確度ベクトルＬ_ｉを計算するステップであって、各ベクトル要素Ｌ_ｉｊ（１≦ｊ≦Ｎ）が前記訓練発話Ｘ_ｉの前記モデルλ_ｊのうちの対応するモデルに対する確度を表すようなステップと、
前記訓練発話ｘ_ｉの各々に関して対応する順位付けベクトルＦ_ｉを決定するステップであって、該順位付けベクトルＦ_ｉの各要素Ｆ_ｉｊには、前記確度ベクトルＬ_ｉの他の要素と比較された対応する確度Ｌ_ｉｊの順位付けを表す順位値が、より大きな確度値Ｌ_ｉｊがより大きな順位値Ｆ_ｉｊにより反映されるように割り当てられるようなステップと、
前記訓練発話ｘ_ｉを、Ｆ_ｉとＦ_ｊとの間の距離尺度の極小が訓練発話ｘ_ｉ及びｘ_ｊが同一の話者から発することを示すという評価規準に基づいてクラスタ化するステップと、
を含んでいることを特徴とする方法。
請求項２に記載の方法において、前記順位付けは、前記確度ベクトルＬ_ｉの要素Ｌ_ｉｊのη個の最小側の確度値が、前記順位付けブロックＦ_ｉの対応する要素Ｆ_ｉｊの別個の値により表され、前記確度ベクトルＬ_ｉの残りのＮ−η個の要素Ｌ_ｉｊが前記順位付けベクトルＦ_ｉの対応する要素Ｆ_ｉｊの同一の所定の順位値により表され、ここで、ηはクラスタ当たりの訓練発話の期待数を表し、前記所定の順位値が前記η個の別個の順位値のいずれよりも小さいことを特徴とする方法。
請求項１に記載の方法において、該方法が、
話者からエンロール発話を入力するステップと、
該エンロール発話に対して、複数の話者モデルのうちの最も確かそうなモデルを決定するステップと、
前記話者の識別情報を入力するステップと、
該識別情報を、前記最も確かそうな話者モデルに関連させて記憶するステップと、
を有していることを特徴とする方法。
請求項４に記載の方法において、該方法が、
前記最も確かそうな話者モデルの確度が所定の閾より高いかを検証するステップと、
該確度が前記所定の閾より低い場合に、前記話者からの更なる発話を要求するステップであって、前記確度が前記所定の閾より高くなるまで反復的に、
前記更なる発話を入力し、
前記最も確かそうな話者モデルを前記更なる発話で適応化し、
該適応化された話者モデルの確度を決定する、
ようなステップと、
を含んでいることを特徴とする方法。
請求項１に記載の方法において、前記訓練発話を入力するステップ、前記発話をブラインドでクラスタ化するステップ及び前記話者モデルを訓練するステップが、所定レベルの確度が達成されるまで反復して実行されることを特徴とする方法。
請求項６に記載の方法において、前記所定のレベルの確度の達成に応答して、前記話者は該話者を識別する情報を提供するように自動的に要求され、次いで、前記識別する情報を入力し、該識別する情報を前記最も確かそうな話者モデルと関連させて記憶することを特徴とする方法。
請求項１に記載の方法において、該方法が、前記話者を識別したことに応答して、家電装置と対話するために個人のプロファイルを自動的に取り込むステップを含んでいることを特徴とする方法。
請求項１に記載の方法において、該方法が、前記話者を識別するために使用される前記テスト発話を音声コマンドとして認識するステップと、該認識された音声コマンドを話者に応じた態様で実行するステップとを含んでいることを特徴とする方法。
プロセッサが請求項１に記載の方法を実行するようにさせるコンピュータプログラム。
話者を自動的に識別するシステムであって、該システムが、
話者を識別する話者識別器であって、該識別器が、
前記話者からテスト発話を入力し、
該テスト発話に関して複数の話者モデルのうちの最も確かそうな話者モデルを決定し、
該最も確かそうな話者モデルに関連する話者を前記テスト発話の話者として識別する、
ことにより話者を識別する話者識別器と、
前記複数の話者モデルを発生する話者モデル発生器と、
を有するようなシステムにおいて、前記話者モデル発生器は、
バックグラウンドにおいて、前記複数の話者からの訓練発話を、これら各訓練発話を行う話者についての事前の知識無しに入力し、
これら訓練発話を、所定の評価規準に基づいてブラインドでクラスタ化し、
これらクラスタの各々に関して、各々が話者を表すような話者モデルのうちの対応する話者モデルを訓練する、
ことにより前記複数の話者モデルをバックグラウンドで発生することを特徴とするシステム。