JP3745403B2

JP3745403B2 - オーディオデータセグメントのクラスタリング方法

Info

Publication number: JP3745403B2
Application number: JP08289795A
Authority: JP
Inventors: ディー．ウィルコックスリン; ジー．キンバードナルド
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1994-04-12
Filing date: 1995-04-07
Publication date: 2006-02-15
Anticipated expiration: 2021-02-15
Also published as: US5659662A; JPH07287592A

Description

【０００１】
【産業上の利用分野】
本発明は会話記録データにおける未知のスピーカー（話す人）の初期クラスリングの改良された方法に関する。
【０００２】
より詳細には、本発明はオーディオ記録データにおける未知のスピーカーのクラスタリングでの尤度（likelihood）算出の際の距離再計算の方法に関する。
【０００３】
【従来の技術】
オーディオおよびビデオ記録は、コンシューマグレード（消費者レベル）の記録装置の発展によって今や一般のものとなっている。後の再生のための過去の記録としてビジネスミーティング、講義、もしくはバースデーパーティーが記録されることは今や稀なことではない。不幸にして、オーディオおよびビデオ媒体の両者は、所望の記録部分にアクセスする際のアシストとなる外部またはオーディオ情報をほとんど与えない。書籍においては、巻頭の目次および巻末の索引によってインデックス化が与えられ、このインデックス化によって読者は複数の著者の確認および複数の著者の参照を容易に行うことが可能である。同様のインデックス化方法がオーディオストリームにおいて有用であり、ユーザーは特定のスピーカーの会話部分を確認することが可能となる。ほとんどのビデオ記録に関連する限られたデータ量は、見る者が確実におよび容易に所望の関心部分にアクセスするための充分な情報を与えない。このため見る者は記録内容を順に調べて所望の情報を検索しなければならない。
【０００４】
例えばスピーカー（話し手）やトピック（主題）を示すノートのような、記録中に取られたノートが検索の補助となることが可能である。このようなノートは構造的アウトラインを与えるが、ビデオ媒体とノート媒体との間には直接的な相関がないため、ノートの内容を共にしたビデオ上の時刻の補完を強いられる。このことは、非相関媒体におけるイベントノートは通常イベントの継続時間を含まないという事実によって複雑化する。加えて、そのようなノート化またはインデックス化は非常に煩わしい。コンピュータシステムがイベント期間中のノート取得に使用されることが可能であり、該システムは同時に記録されるかまたは事前に記録される。キーボードを使用するテキストベースシステムがこの場合に使用されることが可能であるが、ほとんどの人はタイプするよりもかなり速く話すため、内容を記述するコンピュータ生成テキストラベルをリアルタイムで作成することは相当な努力を必要とする。
【０００５】
【発明が解決しようとする課題】
オーディオストリームにおいて異なるスピーカーを示すスピーカーチェンジマーカーは、異なるシーケンシャルデータへのランダムアクセスを可能とする。リアルタイム設定においては、そのようなオーディオセグメンテーションは、記録が行われている時にその記録の中へ有用なインデックスを作成する際の補助となり得る。各セグメントは１個人による発声を表す。同一のスピーカーによる発声は結合され、また同様に参照されてインデックスが形成される。会話におけるポーズまたは沈黙期間もまたオーディオインデックス形成において重要である。
【０００６】
オーディオストリーム内にインデックスを作成することは、リアルタイムであっても処理後であっても、ユーザーが特定のオーディオデータセグメントを認識することを可能にする。例えばこのことは、ユーザーが記録を拾い読みして特定のスピーカーに対応するオーディオセグメントを選択したり、次のスピーカーへ記録を早送りすることを可能にする。加えて、スピーカーの順序を知ることは、会話または会話の内容に関する内容情報を与えることも可能である。
【０００７】
【課題を解決するための手段】
隠れマルコフモデル（ＨＭＭ）が使用されて個々のスピーカーがモデル化されることが可能である。スピーカーモデル（複数）は、ガウシアン出力分布を伴う多重状態ＨＭＭ（複数）と１つのtied silenceモデル（結合された無音モデル）とから成る。スピーカーが知られておりトレーニングデータが使用可能である場合、そのようなＨＭＭはBaum-Welchプロシジャーを使用して最初にトレーニングされることが可能である。これとは別に、音声波形の初期セグメンテーションに対して尤度距離を使用する集塊性の階層的クラスタリングの方法を最初に実行し、初期セグメンテーションを使用して個々のスピーカーＨＭＭをトレーニングすることによって個々のＨＭＭは初期化されることが可能である。次にスピーカーＨＭＭは以下に述べるように繰り返し再トレーニングされることが可能である。
【０００８】
ＨＭＭのネットワークが形成され、多数のスピーカーを含む音声がモデル化される。ＨＭＭネットワークを使用し、ネットワークを介する最も確からしい状態シーケンスに基づきオーディオストリームがセグメンテーションされる。このセグメンテーションはリアルタイムで行われることが可能であり、オーディオストリームが形成され記録されている時であってもセグメント情報はオーディオストリームと相関がとられて該ストリームと共に保存される。記録後の動作においては、続いてモデルの再トレーニングとオーディオストリームの再セグメンテーションが行われることが可能であり、再トレーニングされたモデルからセグメンテーションで変化が生じる間、繰り返し処理が続けられる。
【０００９】
セグメンテーションが完了される場合、オーディオストリームはオーディオインデックスを伴ない、オーディオストリームは個々人に従う発声に分離される。電話の呼び出し音のような非音声音もまた検出されてセグメンテーションされることが可能である。
【００１０】
本発明は、スピーカーに従うオーディオ記録におけるオーディオデータセグメントの流動的クラスタリングの方法を開示する。該方法は、オーディオデータをクラスタに分割し、各クラスタペアに対してクラスタ間距離を算出するステップと、最小クラスタ間距離を有する２つのクラスタを結合するステップとを含む。繰り返し処理が行われ、該処理においては全てのクラスタに対する距離が再計算され、最小クラスタ間距離を有する２つのクラスタが結合される。繰り返し処理は、所望のスピーカー数に対するクラスタが得られるまで行われる。
【００１１】
このようにして得られたクラスタが使用されて個々のＨＭＭスピーカーモデルがトレーニングされることが可能である。これらスピーカーモデルは次に並列に結合されてスピーカーネットワークＨＭＭを形成する。スピーカーネットワークＨＭＭが使用され、スピーカーネットワークを介する最適パスを見出すことによってスピーカーに従うオーディオデータのセグメンテーションが決定されることが可能である。
【００１２】
本発明はまた、オーディオ記録データに対してスピーカーに従う電子インデックスを相関付けるプロセッサ制御によるシステムを開示する。該システムは複数の個々のスピーカーからの音声を与えるオーディオソースを含み、オーディオソースはオーディオプロセッサによって処理されてスペクトル特徴データとなる。システムプロセッサはスペクトル特徴データをオーディオプロセッサから受信し、尤度比に基づき推定スピーカーモデルを生成する。該スピーカーモデルのデータセグメントは同一のスピーカーによって発生されたものであり、該スピーカーモデルが並列に結合されてスピーカーネットワークが形成される。スピーカーネットワークはシステムプロセッサによって使用され、異なる個々のスピーカーモデルに対応するオーディオデータセグメントが決定される。
【００１３】
システムプロセッサは同一スピーカーに対応するオーディオデータセグメントを収集してスピーカーモデルを維持することが可能である。新たなスピーカーネットワークがシステムプロセッサによって決定されてオーディオデータが再セグメンテーションされる。
【００１４】
【実施例】
図１は一般化されたオーディオ処理システム１０のブロック図を示し、該システムにおいて本発明が実施されることが可能である。一般に、オーディオストリームはオーディオデータソース１２から与えられ、該データは、会話を行うスピーカー、オーディオトラックを伴う記録ビデオ、または他のオーディオソースによって与えられることが可能である。オーディオデータはオーディオプロセッサ１４へ送られ、オーディオプロセッサは汎用コンピュータのような任意の公知デバイスであることが可能であり、本発明に従って構成されることが可能である。オーディオプロセッサはオーディオデータインデックス１６を出力する。
【００１５】
図２はオーディオインデックスシステムの一般化されたフロー図を示す。図２に示されるステップは以下により詳細に説明されるが、図２は本発明により記述される方法の概観を与えるものである。
【００１６】
オーディオ波形２０はボックス２２のステップにおける入力である。ボックス２２におけるオーディオストリームは、処理されるべきオーディオの部分を含むことが可能であるが、オーディオストリーム内の全てのスピーカーからの音声を含まなければならない。説明を目的として、オーディオストリーム全体がボックス２２のステップにおける入力である。ボックス２４のステップは音声信号データをスペクトル特徴ベクトルへ変換する。例えば、１２次のケプストラムが２０ｍｓごとに算出されることが可能である。
【００１７】
オーディオデータクラスタの初期化はボックス２６のステップで行われ、この初期化は、集塊性の階層的クラスタリングを使用してデータを初期パーティションへクラスタリングすることを含む。所望のスピーカークラスタ数が得られるまで、集塊性のクラスタ間距離が再計算され、最近接クラスタが併合される。
【００１８】
ボックス２８のステップにおいて、ＨＭＭスピーカーモデルは初期クラスタリングデータに基づき各スピーカーに対してトレーニングされる。複数の個々のスピーカーモデルは、該モデルを並列に結合することによってボックス３０のステップにおいて結合され、会話のＨＭＭスピーカーネットワークが形成される。
【００１９】
ボックス３２のステップはＨＭＭスピーカーネットワークを使用し、入力されるオーディオストリームのセグメンテーションを行う。セグメンテーションはビタビ(Viterbi) デコーディングを使用して行われ、スピーカーネットワークを介する最も確からしい状態シーケンスが見出され、状態パスがスピーカーを変更する場合にはマーキングが施される。
【００２０】
セグメンテーションとインデックス化の確度は、ボックス２８のステップに戻ってスピーカーモデルを再トレーニングすることによる後処理の適用で改善されることが可能であり、この場合ボックス３２のステップからのセグメンテーション情報が使用される。再トレーニングと再セグメンテーションの繰り返しは、ボックス３２のステップでのセグメンテーションで大きな変化が生じなくなるまで続けられることが可能である。オーディオセグメントとスピーカーを示す、結果として得られるインデックスは、ボックス３４のステップにおける出力となる。
【００２１】
隠れマルコフモデル（ＨＭＭ）によるモデル化は音声認識で一般的に使用される統計的方法であり、ワード全体、もしくは単音のようなサブワードがモデル化される。未知の発声の認識は、その発声が最も確からしく与えられるモデルもしくはモデルのシーケンスを見出すことに基づいている。ＨＭＭはスピーカーの識別においても使用されることが可能である。モデルはスピーカーの発音に対して作成され、その場合発音は特定のワードについてのものであっても自然な音声についてのものであってもよい。スピーカーの識別は、未知の発声が最も確からしく与えられるスピーカーモデルを見出すことによって行われる。未知の発声が複数のスピーカーからの音声を含む場合、スピーカーは最も確からしいスピーカーモデルのシーケンスを見出すことによって識別される。
【００２２】
理論的に、ＨＭＭは状態のシーケンスから成り、該状態シーケンスは定められた時間間隔で状態間に発生する遷移を伴う。ある状態への遷移が行われるたびに、その状態の出力特性が発生される。音声認識およびスピーカー識別の両者において、これらの出力はその時間間隔に対する音声のスペクトル推定を表す。例えばケプストラムがその例である。ケプストラムはスペクトルエンベロープ（包絡線）の推定であり、音声認識およびスピーカー識別で一般に使用される。ケプストラムは、スペクトルの対数のフーリエ逆変換であり、スペクトルエンベロープと周期的音声ソースとを分離するよう作用する。
【００２３】
状態間の遷移は出力のシーケンスを特定する。状態間遷移および各状態出力に確率を関連付けることによって、ＨＭＭが使用されて音声を統計的にモデル化することが可能となる。システムの出力のみが観測されるため「隠れ（hidden) 」という言葉が用いられる。即ち、基礎となる状態シーケンスは推定され得るのみである。
【００２４】
より形式的には、ＨＭＭＬは、Ｓ₀...Ｓ_N-1のＮ個の状態、状態ｉから状態ｊへの遷移確率ａ_ij,i=0...N-1,j=0...N-1、ならびに状態ｉで出力ｘを生じる確率を与える確率分布ｂ_i(x) ,i=0...N-1、から成る。例えば、ｂ_i(x) は特徴ベクトル xに対する多変数ガウス分布であることが可能である。加えて、遷移可能であるが出力を発生しないヌル状態が存在する。図３は５状態のＨＭＭを示す。状態Ｓ₀ から状態Ｓ₁、Ｓ₂またはＳ₃への遷移確率は画一的であり、即ち、ａ_0j=1/3,j=1,2,3である。状態Ｓ_i,i=1,2,3については、自己遷移および状態
Ｓ₄への遷移が存在し、それらは等確率である。従ってａ_ii=1/2およびａ_i4=1/2,i=1,2,3である。状態Ｓ₄については遷移は常にＳ₀ へ行われ、従ってａ₄₀=1である。状態Ｓ₁、Ｓ₂、およびＳ₃に関連する出力分布は、それぞれｂ₁(x) 、ｂ₂(x) 、およびｂ₃(x) である。状態Ｓ₀ およびＳ₄はヌル状態であり、従って関連する出力を有さない。状態Ｓ₀ とＳ₄を結合することによって等価なＨＭＭが形成されることが可能である。しかし、ＨＭＭを結合してより大きなＨＭＭネットワークを形成するタスクを簡素化するために、このことは行われない。これについては以下に説明が行われる。ＨＭＭに関するより深い検討は、Rabiner による「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」(Proc.IEEE,vol.77,No.2,February,1989,pp.257-285)に見出される。
【００２５】
対象物のシーケンスをモデル化するネットワークＨＭＭは、以下のように個々のＨＭＭを並列に結合することにより作成される。認識されるＭ個の対象物の各々に対するＨＭＭをＬ_i,i=1,...,Mとする。先に述べたように、対象物は単語、単音、またはスピーカーのいづれであってもよい。ネットワークＨＭＭは、許容される全ての対象物シーケンスに対して対象物ＨＭＭ間の遷移を付加することにより作成される。図４において、ＨＭＭＬ₁、Ｌ₂、およびＬ₃によって３つの対象物がモデル化されている。これら対象物は、遷移により示されるように任意の順序で発生可能である。状態Ｓ₀ はヌル状態であり、従って出力を発生しない。Ｓ₀ からは、対象物ＨＭＭＬ₁、Ｌ₂、およびＬ₃への遷移は等確率となる。全ての対象物ＨＭＭからの遷移は状態Ｓ_Rに向かい、次に状態Ｓ₀ への遷移となる。
【００２６】
Ｔ個の出力Ｘ＝ｘ₁...ｘ_Tのシーケンスが与えられる場合、どの対象物ＨＭＭシーケンスが最も確からしく出力シーケンスＸを発生したかを決定することにより認識が実行される。これにはビタビアルゴリズムが使用され、最も確からしく出力Ｘを発生したネットワークを介する状態シーケンスが見出される。シーケンス内の各状態は、認識される対象物の内の１つのＨＭＭに対して特定されるため、最も確からしい状態シーケンスは認識対象物のシーケンスを特定する。図５はビタビアルゴリズムの結果を概略的に示す。ｘ軸は時間を示し、ｙ軸はネットワークＨＭＭ内の現行状態を示す。ＨＭＭＬ₁、Ｌ₂、およびＬ₃に対応する状態はｙ軸上の領域によって示される。与えられた出力を結果としてもたらし得る状態シーケンスが多数存在可能であるが、ビタビアルゴリズムは最も確からしい状態シーケンスを見出す。図５はビタビパスを示す。時刻ｔ₀において最も確からしい対象物はＬ₁である。時刻ｔ₁において対象物はＬ₂であり、ｔ₂においてはＬ₃である。時刻ｔ₃において最も確からしい対象物はＬ₁となる。
【００２７】
ＨＭＭに対するパラメータは、次に、遷移確率ａ_ijおよび出力確率ｂ_i(x) である。これらパラメータは、ＨＭＭによってモデル化された対象物によって既に発生されたことがわかっている出力Ｘを用いてＨＭＭをトレーニングすることにより学習されることが可能である。Baum-Welchプロシジャーとして知られているアルゴリズムが一般に使用される。このアルゴリズムは、トレーニングデータＸの尤度を最大にするパラメータ値を繰り返し処理により見出すアルゴリズムである。該アルゴリズムは、パラメータの初期推定から開始する。続いて以下のステップが実行される。（１）トレーニングデータに基づき、状態間遷移確率および状態からの出力確率を算出する。（２）これらの確率を使用し、遷移確率ａ_ijおよび出力確率ｂ_i(x) の推定値を算出する。ステップ（１）および（２）は収束が得られるまで繰り返される。
【００２８】
前述のように、隠れマルコフモデルが使用されてスピーカー識別を目的として個々のスピーカーがモデル化されることが可能である。図６に示されるように、（特定の発声に対向する）個々の発声スタイルが３５状態ＨＭＭ６０を使用してモデル化されることが可能である。状態Ｓ₀ はヌル状態であり、出力を発生する状態Ｓ₁,...,Ｓ₃₂およびＳ_SILへの遷移を伴う。これらの遷移確率はｐ₁,...,ｐ₃₂およびｐ_SILにより与えられる。これら出力発生状態の各々は、確率ｑ_iを伴う自己遷移、ならびに確率１−ｑ_iを伴う最終ヌル状態Ｓ₃₄への遷移を有している。ヌル状態Ｓ₃₄は確率１で初期ヌル状態Ｓ₀ へ遷移する。各非ヌル状態はガウシアン出力分布を有しており、平均ベクトルおよび対角共分散マトリックスにより特性付けられる。
【００２９】
図７はサイレンス（無音）サブネットワークを示す。該サブネットワークは直列に接続された３状態から成る。各状態は、通常もしくは結合されたガウシアン出力分布を有し、該分布はラベルＳＩＬで示されている。この出力分布はまた、スピーカーモデル６０のサイレンス状態６２における出力分布と同一であり、該分布は状態ラベルＳＩＬで示されている。サイレンスサブネットワークは長時間間隔の無音状態をモデル化するが、会話の発声におけるポーズや短時間間隔の無音状態に対しては適切でない。これらポーズや短時間間隔の無音状態は、個々のスピーカーモデルにおけるサイレンス状態６２によってモデル化される。スピーカーＨＭＭのサイレンス状態における出力分布は全て結合されてサイレンスサブネットワークにおける出力分布となる。
【００３０】
スピーカーＨＭＭの各々は、与えられたスピーカーの発声スタイルに対してトレーニングされなければならない。このトレーニングは先に述べたBaum-Welchアルゴリズムを使用して行われ、遷移確率ａ_ij、およびガウシアン出力確率ｂ_i(x) に対する平均および対角共分散が推定される。ＨＭＭパラメータの初期推定値は次のように得られる。全ての遷移確率が画一的に設定され、この結果、与えられた状態からの全ての遷移は等確率となる。ガウシアン出力分布を初期化するために、スピーカーに対するトレーニングデータから全体平均および対角共分散マトリックスが算出される。全ての状態に対するガウシアン出力分布についての共分散マトリックスが全体的共分散マトリックスに設定される。全体平均に小さな定数を加えることによって平均が設定され、その場合該定数は異なる各状態に対するランダム要素に対して加えられる。Baum-Welch繰り返し処理がスピーカーのトレーニングデータを用いて次に実行される。
【００３１】
認識されるスピーカーが事前にわかっている場合、Baum-Welchアルゴリズムに対するトレーニングデータは、３０秒から１分の各スピーカーに対する音声データを使用して得られる。音声はスピーカーの通常の発声スタイルを表さなければならないが、この場合使用される実際の単語は重要でない。
【００３２】
スピーカーおよびサイレンスサブネットワークに加えて、ガーベッジ（garbage)サブネットワークが頻繁に使用され、スピーカーモデルまたは存在可能な非音声音の内の１つによって特定されない任意のスピーカーがモデル化される。ガーベッジネットワークの形態は、図６に示されるスピーカーネットワークのそれと同じである。しかし、アプリケーションに依存してガーベッジネットワークは異なるデータを使用してトレーニングされる。例えば、ガーベッジサブネットワークが使用されて非音声音がモデル化される場合、それはスピーカーモデルとしてトレーニングされなければならないが、この場合非音声データが使用される。システムに対して未知のスピーカーをモデル化する場合、トレーニングデータを得る１つの方法は、既知の各スピーカーからの音声の部分を使用することである。
【００３３】
ガーベッジモデルをトレーニングする際に全てのスピーカーからの全てのデータが必ずしも使用されないことは重要である。全ての有効なデータを使用することは、各スピーカーモデルに対してよりもガーベッジモデルに対してより多くのトレーニングデータを与え、全てのスピーカーに対してより確実なスピーカーモデルを作成する効果を有する。従って、結果として得られるＨＭＭネットワークはほとんどの音声をガーベッジとして分類する。
【００３４】
１実施例において、入力オーディオトレーニングデータは８ＫＨｚでサンプルされ、１０ｍｓごとに特徴ベクトルが算出される。例えば、各フレームに対する特徴ベクトルは、２５ｍｓウィンドウ下のサンプルに関する２０次の線型予測符号化（ＬＰＣ）を行うことによって算出されることが可能であり、従ってＬＰＣスペクトルから２０個のケプストラム定数が算出されることが可能である。
【００３５】
いくつかの場合においては、認識されるスピーカーは事前にわかっていない。しかし、スピーカーモデルに対する初期推定を得ることがそのような場合にも必要である。この初期推定は、階層的な集塊性のクラスタリングを使用して行われ、異なるスピーカーとして認識されるデータのラフな区分が作成される。
【００３６】
スピーカーに従うデータの区分を与えることによってスピーカーサブネットワークの初期推定を得るために、階層的な集塊性のクラスタリングが使用されることが可能である。このデータは次にスピーカーＨＭＭのBaum-Welchトレーニングに対するトレーニングデータとして使用されることが可能である。
【００３７】
セグメンテーションされていないデータは、最初に等しい長さのセグメントに分割され、各セグメントは数秒の音声から成る。これらのセグメントは階層的クラスタリングに対する初期クラスタ集合として使用される。該アルゴリズムは、最初に全てのクラスタペアについてのクラスタ間距離を算出し、次に最も近い２つのクラスタを併合することによって進行する。このプロセスは所望のスピーカークラスタ数が得られるまで繰り返される。このプロセスが図８に概略的に示されている。スピーカー数が未知の場合、このアルゴリズムが使用されてスピーカー数が推定されることが可能である。その場合、最近接クラスタの併合は、最近接クラスタ間距離が定められたスレショルドを越えるまで継続する。スレショルドを越えるとクラスタリングは中止され、その時のクラスタ数がスピーカー数の推定値として使用される。
【００３８】
図８は、スピーカーでラベル付けされているインターバル集合上の階層的クラスタリング１００を概略的に示す。オリジナルインターバル１０２は、Ｃ、Ｌ、およびＴで３つのスピーカーに対してラベル付けされたツリーのリーフによって示される。そのような全てのインターバルについてのインターバル間距離が算出され、１０４に示されるように最も近接する２つのインターバルが併合される。
【００３９】
この最近接クラスタ併合プロセスは、所望のクラスタ数が形成されるまで繰り返される。３つのクラスタに対し、それらクラスタに対応する３つの分岐が示されている。第１のクラスタ１０６はほとんどスピーカーＣからのインターバルを含み、第２のクラスタ１０８はほとんどスピーカーＬからのインターバルを含み、第３のクラスタ１１０はほとんどスピーカーＴからのインターバルを含む。
【００４０】
スピーカー数が未知の場合、距離に対するスレショルドが設定され、スレショルドが越えられた場合にクラスタの併合が中止される。このことは線１１２により概略的に示されており、該線は４つのクラスタを生成する。（クラスタ１は２つに分割されている。）
クラスタＸが単一セグメントＸ＝ｘかまたはセグメント集合Ｘ＝ｘ₁,ｘ₂,... から成ると仮定する。クラスタＸおよびＹ間の距離はｄ（Ｘ，Ｙ）により表される。前述のシステムにおいて、セグメント間距離はガウシアン分布の仮定に基づき尤度比によって導出された。ｘ＝ｓ₁,...,ｓ_rはある１つのセグメント内のデータを表し、ｙ＝ｓ_r+1,...,ｓ_nはその他のセグメント内のデータを表し、ｚ＝ｓ₁,...,ｓ_nは合成セグメント内のデータを表すものとする。Ｌ（ｘ，θ_x）はｘシーケンスの尤度とし、ここでθ_xはガウシアン分布のパラメータに対する推定値である。同様にＬ（ｙ，θ_y）はｙシーケンスの尤度とし、Ｌ（ｚ，θ_z）は合成シーケンスｚの尤度とする。λは尤度比を表すとすると、次式のように表される。
【００４１】
【数１】

【００４２】
クラスタリングの際に使用される距離計量は−ｌｏｇ（λ）である。
音声データは単一のガウシアン分布では充分にモデル化されないため、尤度比はガウシアン分布の混成結合に拡張される。セグメンテーションされていないデータが最初に使用され、Ｍ個のガウシアン分布の混成に対する平均および共分散マトリックスが推定される。次にこれらは残りの解析により確定される。
Ｎ_i( ｓ）＝Ｎ（ｓ：Ｍ_i, σ_i）はｉ番目の混成要素に関連するガウシアン分布とし、ｇ_i（ｘ）はデータシーケンスｘを使用して推定されたｉ番目の混成要素に対する重みとする。ｇ_i（ｘ）はＮ_i( ｓ）が最大となるｘ内のサンプルの割合である。従ってｘシーケンスの尤度は次式のように表される。
【００４３】
【数２】

【００４４】
ここでθ_x＝（ｇ₁（ｘ）,..., ｇ_M（ｘ））である。尤度Ｌ（ｙ，θ_y）も同様に算出される。合成シーケンスに対する尤度Ｌ（ｚ，θ_z）の算出において、混成要素に対する重みｇ_i（ｚ）として次式を得る。
【００４５】
【数３】

【００４６】
クラスタリングに対する距離計量、ｄ_L＝−ｌｏｇ（λ_L）は従って式（１）を使用して算出されることが可能である。
【００４７】
本発明のクラスタリングプロシジャーは、クラスタを含むインターバルにおけるインターバル間距離の最大、最小、もしくは平均を使用するよりもむしろ式（１）を使用して集塊性のクラスタ間距離を再計算する点において、通常の階層的クラスタリングと異なっている。従って式（２）および（３）により与えられる尤度の計算効率が重要となる。これはクラスタリングレベルの各々において距離が再計算されるためである。
【００４８】
加えて、スピーカーチェンジの事前確率はＭ個のスピーカーを伴うマルコフデュレーションモデルを使用して算出されることが可能である。Ｓ_iはセグメントｉの期間中のスピーカーを表し、Ｍはスピーカー数を表すとする。Ｓ_iは、各スピーカーａに対してＰ_r〔Ｓ_i+1＝ａ｜Ｓ_i＝ａ〕＝ｐ、および各スピーカーａおよびｂ（ａに等しくない）に対してＰ_r〔Ｓ_i+1＝ｂ｜Ｓ_i＝ａ〕＝（１−ｐ）／（Ｍ−１）を伴うマルコフ連鎖であると仮定する。セグメントｉに対するスピーカーがセグメントｉ＋ｎに対しても発声する確率Ｐ_r〔Ｓ_i+n＝Ｓ_i〕は、２状態マルコフ連鎖を使用して算出されることが可能であり、その場合連鎖の状態１は時刻ｉにおけるスピーカーを表し、状態２は他の全てのスピーカーを表す。この連鎖に対する遷移確率マトリックスＰは次式のように表される。
【００４９】
【数４】

【００５０】
このマトリックスに関し、Ｐ_r〔Ｓ_i+n＝Ｓ_i〕＝（Ｐⁿ）₁₁である。Ｐを対角化することにより、Ｐ_r〔Ｓ_i+n＝Ｓ_i〕は次式のようによりクローズした形態で表されることが可能である。
【００５１】
【数５】

【００５２】
この式を使用して、２つの与えられたクラスタが同一のスピーカーまたは２つの異なるスピーカーによって生成される事前確率を算出することが可能である。Ｃをスピーカーチェンジが発生するインターバル数とし、ｎ_iをｉ番目のインターバル長とすると、デュレーションバイアスは次式のように定義される。
【００５３】
【数６】

【００５４】
デュレーションバイアスされた距離はｄ_D（Ｘ，Ｙ）＝−ｌｏｇ（λ_L）−ｌｏｇ（λ_D）として定義される。
【００５５】
図９に示されるスピーカーセグメンテーションネットワーク１２０は、各スピーカーに対するサブネットワーク６０と、サイレンスおよびガーベッジに対するオプショナルなサブネットワーク６４および１２２とから成る。ガーベッジは、オーディオ中の未知のスピーカーまたは非音声音のような、スピーカーまたはサイレンスモデルによってモデル化されない音声または音として定義される。スピーカー、ガーベッジ、およびサイレンスサブネットワークは以下に述べるように得られる。ネットワークモデルは、２またはそれ以上のスピーカーによるバックグランドノイズを伴う会話をモデル化する。
【００５６】
ネットワーク６０のような個々のスピーカーサブネットワークは互いに並列に結合され、各サブネットワークから外部への遷移確率は小さいペナルティ定数εに固定されて、孤立サンプルに基づくスピーカーチェンジが抑制される。各スピーカーサブネットワーク６０はＬ個の状態を伴うＨＭＭから成り、それらＨＭＭは並列に接続される。各状態は、ガウシアン出力分布、自己遷移、および他状態への遷移を有する。
【００５７】
初期ヌル状態からスピーカー、ガーベッジ、およびサイレンスサブネットワークへの遷移確率は画一的である。スピーカー、ガーベッジ、およびサイレンスモデルから外部への遷移確率ペナルティは定数εに設定される。原理的に、これら遷移確率はスピーカーに依存し、トレーニング期間中に学習される。しかし、簡素化を目的として、スピーカーの事前確率は画一値に仮定され、スピーカーを離れる確率εは経験的に選択されて孤立サンプルに基づくスピーカーチェンジが抑制される。
【００５８】
実際には、この遷移確率は著しく小さい。（１０^-20のオーダーである。）従って各スピーカーモデルから外部への遷移は、スピーカーからスピーカーへの切替にペナルティを与えるよう作用する。
【００５９】
スピーカー間の会話をインデックス化することは単に、観測された特徴ベクトルに関する与えられたシーケンスであるネットワークモデルを介する最も確からしい状態シーケンスを見出すことである。スピーカーサブネットワークが初期化された後、スピーカーセグメンテーションネットワークを介する最も確からしい状態シーケンスを見出すことによりスピーカーセグメンテーションが実行され、状態パスがスピーカーを変更する時点でマーキングが施される。最適な状態が１つのスピーカーモデルから他のスピーカーモデルへ切り替わる場合にスピーカーチェンジが発生する。最適な状態シーケンスを見出すことはビタビアルゴリズムを使用して達成される。セグメンテーションの確度は、セグメンテーションされたデータを使用してスピーカーサブネットワークを再トレーニングすることによって改善されることが可能である。このセグメンテーションおよび再トレーニングのプロセスは、セグメンテーションにおいて変化が生じなくなるまで繰り返される。
【００６０】
確度の改善のために、音声のセグメンテーションが繰り返し実行され、各セグメンテーションの後にスピーカーモデルが再トレーニングされる。このことはセグメンテーションの確度を向上させ、特にスピーカートレーニングデータが適用不可能な場合に有効である。
【００６１】
繰り返し再セグメンテーションアルゴリズムが図１０に示される。最初に、トレーニングデータ集合がボックス１３０のステップで与えられ、ボックス１３２のステップでスピーカーモデルがトレーニングされる。このデータは、既知のスピーカーからのトレーニングデータであるかまたは階層的クラスタリングを使用して区分されたデータであることが可能である。次にボックス１３４のステップでこれらスピーカーモデルに基づきセグメンテーションが実行される。ボックス１３４のステップでのセグメンテーションが大きく変化する場合、この改善されたセグメンテーションはスピーカーに対する新たなトレーニングデータとして使用され、ボックス１３２のステップでスピーカーモデルが再トレーニングされる。このプロセスはボックス１３６のステップでセグメンテーションが変化しなくなるまで続けられる。
【００６２】
図１１は、オーディオ記録データのスピーカーに従うインデックスを作成および記憶する、システム１９０における本発明の１実施例を示す。オーディオ記録入力１９１はオーディオプロセッサ１９２によってスペクトル特徴データへ処理され、システムプロセッサ１９４へ与えられる。スペクトル特徴データは、システムプロセッサ１９４による後の繰り返し処理のためにメモリ１９７に記憶されることが可能である。
【００６３】
オーディオプロセッサ１９２によってシステムプロセッサ１９４へ与えられるスペクトルデータは、最初にセグメンテーションおよびクラスタリングされ、初期スピーカーモデルをトレーニングしてスピーカーネットワークを作成するためのデータが与えられる。スペクトルデータはシステムプロセッサ１９４によって再び処理される。スペクトルデータは、システムプロセッサ１９４によって作成されたスピーカーネットワークを使用してシステムプロセッサ１９４によって処理される。オーディオストリームにおいて新たなセグメントの各々が検出されると、システムプロセッサ１９４はタイムソース１９３からタイムスタンプを得る。タイムスタンプは、オーディオ入力１９１の記録からのオーディオデータに関する記録アドレスもしくは記憶時間を示す。タイムソース１９３は、例えば、記録が開始される時に始動する時計であることが可能であり、もしくは、記憶媒体に接続された記録デバイスから時間を記録するデバイスであることが可能である。このタイムスタンプは、セグメントの作成者の識別子と共にメモリ１９５に記憶され、後にスピーカーに従うインデックスへ収集される。
【００６４】
図１２は、スピーカーが事前にわかっていない場合にオーディオストリームのインデックスを決定する前述の方法に関するアプリケーションを記述するものである。ボックス２００のステップは処理されるオーディオデータを選択する。先に述べたように、このステップで使用されるオーディオは、処理されるオーディオストリーム内の少なくとも全てのスピーカーからの音声を有する部分を含むことが可能であるが、オーディオストリーム全体に関して議論を進めることとする。ボックス２０２のステップにおいて、オーディオストリームはセグメントに分解され、このセグメントは通常等しく短い長さである。これら初期セグメントは初期クラスタとして後のステップで使用される。
ボックス２０６のステップは各クラスタについてクラスタ間距離を算出し、ボックス２０８のステップは最小距離を有する２つのクラスタを併合する。ボックス２１０のステップにおいて所望数よりも多くのクラスタが存在する場合、ボックス２０６のステップにおいて新たなクラスタ間距離が算出され、ボックス２１０のステップにおいて２つの最近接クラスタが再び併合される。この処理は所望のクラスタ数が残るまで繰り返される。所望のクラスタ数は、クラスタ間のトータル距離制限かもしくは集合数に基づくことが可能である。例えば、オーディオセグメント内のスピーカー総数は、トレーニングデータが使用不可能な場合であっても知られていることが可能である。そのような数の初期クラスタが決定されるまで併合を行うようシステムが設定されることが可能である。
【００６５】
初期クラスタリングが完了すると、ボックス２１２のステップは個々のスピーカーモデルＨＭＭのトレーニングを行う。これら個々のモデルはボックス２１４のステップにおいて並列に結合され、スピーカーを離れることに対するペナルティが付与される。サイレンスおよびガーベッジモデルがボックス２１２のステップで発生されておらず、ネットワークに付加されていない場合、それらはボックス２１６のステップで付加されることが可能である。ボックス２１８のステップにおいて、オーディオストリームはスピーカーセグメンテーションネットワークを使用してセグメントに分割される。ボックス２２０のステップにおいて、セグメントは各セグメントに対するスピーカーの識別子によりマーキングされる。
【００６６】
ボックス２２２のステップは前の繰り返し処理においてセグメンテーションが大きく変化したかどうかをチェックする。もしそうである場合、ボックス２１２のステップにおいてモデルが再トレーニングされ、改良されたモデルを用いてセグメンテーションの繰り返し処理が実行される。再トレーニングの結果として大きな変化が生じない場合、繰り返し処理は完了し、個々のモデルによって同様にマーキングされたセグメントを収集することによって記録に対するインデックスが作成される。
【００６７】
スピーカーに従うオーディオデータセグメントのクラスタリングの方法が、オーディオデータに関するスピーカーインデックス化のためのスピーカーネットワークへの入力に対する多くの実施例に関連して本文中に記述されてきたが、それらの修正、変形、および拡張を伴う他のアプリケーション、実施、修正、変形、および拡張は本発明の範囲である。
【００６８】
【発明の効果】
以上説明したように、本発明の方法によれば、オーディオストリーム内にインデックスを作成することが可能となり、リアルタイムであっても処理後であっても、ユーザーが特定のスピーカーに関連するオーディオデータセグメントを認識することが可能となる。
【図面の簡単な説明】
【図１】本発明が実施されることが可能である一般化されたオーディオ処理システムのブロック図である。
【図２】オーディオインデックスシステムの一般化されたフロー図である。
【図３】５状態隠れマルコフモデル（ＨＭＭ）を示す図である。
【図４】ＨＭＭによってモデル化される３つの対象物のＨＭＭネットワークを示す図である。
【図５】ビタビアルゴリズムの結果を概略的に示す図である。
【図６】個々のスピーカーの発声スタイルをモデル化する３５状態ＨＭＭを示す図である。
【図７】サイレンスサブネットワークを示す図である。
【図８】スピーカーでラベル付けされたインターバル集合上の階層的クラスタリングを概略的に示す図である。
【図９】各スピーカーに対するサブネットワークと、サイレンスおよびガーベッジに対するオプショナルなサブネットワークとから成るスピーカーセグメンテーションネットワークを示す図である。
【図１０】繰り返し再セグメンテーションアルゴリズムを概略的に示す図である。
【図１１】オーディオ記録データのスピーカーに従うインデックスを作成および記憶するシステムにおける本発明の１実施例を示す図である。
【図１２】スピーカーが未知の場合にオーディオストリームのインデックスを決定する本発明に従う方法を示す図である。
【符号の説明】
１２オーディオデータソース
１４オーディオプロセッサ
１６オーディオデータインデックス
６０３５状態ＨＭＭ
１２０スピーカーセグメンテーションネットワーク

Claims

知られた数の複数のスピーカーからの音声を有するオーディオデータ記録において各スピーカーのインデックスを作成するためのオーディオデータ記録におけるオーディオデータセグメントのクラスタリングの方法であって、
ａ）前記オーディオデータ内の少なくとも全てのスピーカーからの音声を有する前記オーディオデータの部分を与えるステップと、
ｂ）前記オーディオデータの部分をデータクラスタへ分割するステップと、
ｃ）各クラスタペアのクラスタ間距離を算出するステップと、
ｄ）最小クラスタ間距離を有する２つのクラスタを結合して新たなクラスタとするステップと、
ｅ）クラスタの結合によってクラスタの数が前記知られたスピーカー数となるまで前記ステップｂ）、ｃ）、およびｄ）を繰り返すステップと、
を含む、オーディオデータセグメントのクラスタリング方法。