JP4132589B2

JP4132589B2 - オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置

Info

Publication number: JP4132589B2
Application number: JP2000188613A
Authority: JP
Inventors: スコット・シャオンビン・チェン; アラン・シャルル・ルイ・トレザー; マハシュ・ヴィズワナザン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-06-30
Filing date: 2000-06-23
Publication date: 2008-08-13
Anticipated expiration: 2020-06-23
Also published as: JP2001051691A; GB2351592B; US7739114B1; GB2351592A; GB0015194D0

Description

【０００１】
【発明の属する技術分野】
本発明は、概して云えば、オーディオ情報分類システムに関し、詳しく云えば、オーディオ・ファイルにおけるスピーカ（発声者）を識別するための方法及びシステムに関するものである。
【０００２】
【従来の技術】
放送ニュース機構及び情報検索サービスのような多くの機構は、記憶及び検索のために大量のオーディオ情報を処理しなければならない。オーディオ情報は、主題又はスピーカの名前、或いはそれらの両方によって分類されなければならないことが多い。主題によってオーディオ情報を分類するためには、先ず、音声認識システムが、自動分類又はインデキシングのために、オーディオ情報をテキストの形に転写（ｔｒａｎｓｃｒｉｂｅ）する。しかる後、照会／ドキュメント・マッチングを行って関連ドキュメントをユーザに戻すためにインデックスが使用可能である。
【０００３】
従って、主題によってオーディオ情報を分類するというプロセスは本質的には完全に自動化されたものになっている。しかし、スピーカによってオーディオ情報を分類するというプロセスは、特に、放送ニュースのようなリアルタイムの応用に対しては、大きな労力を要する仕事を残すことが多い。スピーカ登録情報を使用してオーディオ・ソースからスピーカを自動的に識別するための数多くの計算主体のオフライン・テクニックが提案されているけれども、スピーカ分類プロセスはヒューマン・オペレータによって最も頻繁に行われ、ヒューマン・オペレータは各スピーカ変更を識別し、対応するスピーカの識別を行う。
【０００４】
オーディオ・ファイルのセグメンテーションは、各識別されたセグメントにスピーカの名前を実際に与えるスピーカ識別ツールのための前処理ステップとしても有用である。更に、オーディオ・ファイルのセグメンテーションは、バックグラウンド・ノイズ又はミュージックを減少させるための前処理ステップとしても使用可能である。
【０００５】
オーディオ・ソースをスピーカによって分類するための一般的なテクニックにおける上記欠点から明らかなように、オーディオ・ソースからリアルタイムでスピーカを自動的に分類する方法及び装置に対する要求が存在する。ベイズ情報基準（Bayesian Information Criterion−ＢＩＣ）に基づく改良されたスピーカ・セグメンテーション及びクラスタリングを提供する方法及び装置に対する更なる要求が存在する。
【０００６】
【発明が解決しようとする課題】
従って、本発明は、オーディオ（又はビデオ）ソースからスピーカを自動的に識別するための方法及び装置を開示することにある。オーディオ情報は、スピーカ変更に対応する潜在的なセグメント境界を識別するために処理される。しかる後、同種のセグメント（一般には同じスピーカに対応する）がクラスタ化され、各検出されたセグメントにクラスタ識別子が割り当てられる。従って、同じスピーカに対応するセグメントは同じクラスタ識別子を持たなければならない。一連のセグメント番号及び対応するクラスタ番号を提供するクラスタリング出力ファイルが生成される。従って、スピーカ識別エンジン又は人間が各クラスタにスピーカ名を任意選択的に割り当てることができる。
【０００７】
【課題を解決するための手段】
本発明は、同時に、オーディオ・ファイルのセグメント化し、同じスピーカに対応するセグメントのクラスタ化する。スピーカ変更に対応してセグメント境界が存在するすべての可能なフレームを識別するために、セグメンテーション・サブルーチンが利用される。フレームは、所与の期間にわたって音声特性を表す。セグメンテーション・サブルーチンは、２つのモデルを比較するモデル選択基準を使用して、所与のフレームｉにおいてセグメント境界が存在するかどうかを決定する。第１モデルは、単一の全共分散ガウス分布（full-covariance Gaussian）を使用するサンプル（ｘ₁,....,ｘ_n）のウィンドウ内にセグメント境界が存在しないものと仮定する。第２モデルは、第１ガウス分布から得られたサンプル（ｘ₁,....,ｘ_i）及び第２ガウス分布から得られたサンプル（ｘ_i+1,....,ｘ_n）をもった２つの全共分散ガウス分布を使用するサンプル（ｘ₁,....,ｘ_n）のウインドウ内にセグメント境界が存在するものと仮定する。次の式が負である場合、ｉ番目のフレームはセグメント境界に対する良好な候補である。
【数２】
【０００８】
但し、|Σ_w|は全ウインドウ（即ち、ｎ個のフレームすべて）の共分散の行列式である。|Σ_f|はそのウインドウの第１サブディビジョンの共分散の行列式であり、|Σ_s|はそのウインドウの第２サブディビジョンの共分散の行列式である。
【０００９】
本発明の更なる局面によれば、特に小さいセグメントに関するセグメンテーション処理の全体な精度を改良する新しいウインドウ選択方式が与えられる。選択されたウインドウがあまりに多くのベクトルを含む場合、幾つかの境界が脱落することがある。同様に、選択されたウインドウがあまりに小さい場合、情報の不足の結果、データの劣悪な表示が生じるであろう。本発明の改良されたセグメンテーション・サブルーチンは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察し、境界が生じそうもない時にはウインドウ・サイズを増大させる。ウインドウ・サイズは、ウインドウが小さい時にはゆっくりと増大し、ウインドウが大きくなる時には急速に増大する。セグメント境界がウインドウ内で検出される時、最小ウインドウ・サイズ（Ｎ₀）を使用して、次のウインドウがその検出された境界の後で始まる。
【００１０】
更に、本発明は、ＢＩＣテストが行われるロケーションの良好な選択によって全体的な処理時間を改善する。ＢＩＣテストは、境界の検出がありそうもないロケーションにそれらが対応する時には排除可能である。先ず、ＢＩＣテストは各ウインドウの境界においては行われない。それは、それらが必ず非常にわずかなデータでもって１つのガウス分布を表すためである（この明らかにわずかなゲインがセグメント検出の間繰り返され、実際に、無視し得るほどのパフォーマンス・インパクトも持たないためである）。更に、現ウインドウが大きい時、ＢＩＣテストがすべて行われる場合、ウインドウの始まりにおけるＢＩＣ計算が何回も、即ち、新しい情報が加えられるたびに行われるであろう。従って、ＢＩＣ計算の数は、現ウインドウの始まりにおけるＢＩＣ計算を無視することによって減少させることが可能である。
【００１１】
本発明のもう１つの局面によれば、セグメンテーション・サブルーチンによって識別された同種のセグメントをクラスタリング・サブルーチンがクラスタ化する。一般に、クラスタリング・サブルーチンはモデル選択基準を使用してその識別されたセグメントの各々にクラスタ識別子を割り当てる。同じスピーカに対応するセグメントは同じクラスタ識別子を持たなければならない。２つのクラスタＣ_i及びＣ_jをマージすべきかどうかを決定するために、２つのモデルが利用される。第１モデルは、それらのクラスタがマージされなければならないものと仮定し、値ＢＩＣ₁を与える。第２モデルは、２つの別個のクラスタが維持されなければならないものと仮定し、値ＢＩＣ₂を与える。ＢＩＣ値の差（ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂）が正である場合、２つのクラスタはマージされる。
【００１２】
本発明のオンライン・クラスタリング・テクニックは、前の反復（クラスタリング・プロシージャに対するコール）において検出されたＫ個のクラスタ及びクラスタ化すべき新しいＭ個のセグメントを伴う。クラスタ化されてない（unclustered）各セグメントに対して、クラスタ化サブルーチンは、他のＭ−１個のクラスタ化されてないセグメントすべてに関してＢＩＣ値における差を計算する。更に、各クラスタ化されてないセグメントに対しても、クラスタリング・サブルーチンはＫ個の既存のクラスタに関してＢＩＣ値における差を計算する。ＢＩＣ値における最大差ΔＢＩＣ_maxがＭ（Ｍ＋Ｋ−１）の結果から識別される。ＢＩＣ値おける最大差ΔＢＩＣ_maxが正である場合、現在のセグメントがそのクラスタと、又はＢＩＣにおける最大差ΔＢＩＣ_maxを与える他のクラスタ解除されたセグメントとマージされる。しかし、ＢＩＣ値おける最大差ΔＢＩＣ_maxが正でない場合、現在のセグメントは１つ又は複数の新しいクラスタとして識別される。
【００１３】
以下の詳細な説明及び図面を参照することによって、本発明の更に完全な理解並びに本発明の更なる特徴及び利点が得られるであろう。
【００１４】
【発明の実施の形態】
図１は、オーディオ／ビデオ・ソースからスピーカを自動的に識別する本発明によるスピーカ分類システム１００を示す。オーディオ／ビデオ・ファイルは、例えば、放送ニュース・プログラムのオーディオ記録又は生放送であってもよい。オーディオ／ビデオ・ソースは、先ず、スピーカ変更を表すセグメント境界が存在するすべての可能なフレームを識別するように処理される。しかる後、同種のセグメント（同じスピーカに対応するセグメント）がクラスタ化され、その識別されたセグメントの各々にクラスタ識別子が割り当てられる。従って、同じスピーカに対応するすべてのセグメントが同じクラスタ識別子を持たなければならない。スピーカ分類システム１００は、（各セグメントの開始時間及び終了時間を持った）一連のセグメント番号をその対応する識別されたクラスタ番号と共に提供するクラスタリング出力ファイルを生成する。
【００１５】
そこで、スピーカ識別エンジン又は人間が各クラスタにスピーカ名を任意選択的に割り当ててもよい。その任意選択的なスピーカ識別エンジンは、識別のためにスピーカの事前登録されたプールを使用する。スピーカ識別タスクはスピーカ分類システム１００の任意選択的なコンポーネントであるので、本発明は各スピーカに対するトレーニング・データを必要としない。
【００１６】
図１は、本発明による例示的なスピーカ分類システム１００のアーキテクチャを示すブロック図である。スピーカ分類システム１００は、図１に示された汎用コンピュータ・システムのような汎用コンピュータ・システムとして具体化可能である。スピーカ分類システム１００はプロセッサ１１０と分散型又はローカル型でもよいデータ記憶装置１２０のような関連のメモリとを含む。プロセッサ１１０は、単一のプロセッサ又は並行して動作する複数のローカル又は分散型プロセッサとして具体化可能である。データ記憶装置１２０及び／又は読み取り専用メモリ（ＲＯＭ）は、プロセッサ１１０が検索、解釈、及び実行するように動作可能である１つ又は複数の命令を記憶するように動作可能である。
【００１７】
データ記憶装置１２０は、本発明に従ってリアルタイムで分類可能である１つ又は複数の事前記録された又は生のオーディオ・ファイル又はビデオ・ファイル（或いはそれの両方）を記憶するためのオーディオ・コーパス・データベース１５０を含むことが望ましい。データ記憶装置１２０は後述する１つ又は複数のクラスタ出力ファイル１６０も有する。更に、図２乃至図４に関連して後述するように、データ記憶装置１２０は、スピーカ分類プロセス２００、セグメンテーション・サブルーチン３００，及びクラスタリング・サブルーチン４００を含む。スピーカ分類プロセス２００は、オーディオ・コーパス・データベース１５０における１つ又は複数のオーディオ・ファイルを分析し、（各セグメントの開始時間及び終了時間を持った）一連のセグメント番号を対応する識別されたクラスタ番号と共に与えるクラスタリング・出力ファイル（クラスタ・レコード）１６０を生成する。
【００１８】
Ａ．ベイズ情報基準（ＢＩＣ）の背景
セグメンテーション・サブルーチン３００及びクラスタリング・サブルーチン４００は両方ともベイズ情報基準（ＢＩＣ）モデル選択基準に基づくものである。ＢＩＣは、ｐ個のパラメータ・モデルのうちのどれがｎ個のデータ・サンプルｘ₁,...ｘ_n,ｘ_i∈Ｒ^dを最もよく表すかを決定するために使用される漸近的に最適なベイズ・モデル選択基準である。各モデルＭ_jは複数のパラメータｋ_jを有する。サンプルｘ_iは独立したものであると仮定する。
【００１９】
ＢＩＣの原理に関する詳細な検討のためには、例えば、The Annals of Statistics 誌の第６巻、４６１乃至４６４ページ（１９７８）における G.Schwarz 氏による「モデルの寸法の見積もり（Estimating the Dimension of a Model）」と題した論文を参照してほしい。そのＢＩＣの原理によれば、十分に大きいｎに対して、データの最良のモデルは次式を最大にするものである。即ち、
【数３】

【００２０】
但し、λ＝１であり、Ｌ_jはモデルＭ_jの下におけるデータの最大見込み値（換言すれば、Ｍ_jのｋ_jパラメータに対する最大見込み値を持ったデータの見込み値）である。２つのモデルしか存在しない時、モデル選択のために簡単なテストが使用される。特に、ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂が正である場合、モデルＭ₁がモデルＭ₂に優先して選択される。同様に、ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂が負である場合、モデルＭ₂がモデルＭ₁に優先して選択される。
【００２１】
Ｂ．スピーカ分類プロセス
前述のように、スピーカ分類システム１００は、図２に示されたスピーカ分類プロセス２００を実行してオーディオ・コーパス・データベース１５０における１つ又は複数のオーディオ・ファイルを分析し、クラスタ出力ファイル１６０を作成する。クラスタ出力ファイル１６０は（各セグメントの開始時間及び終了時間を有する）一連のセグメント番号をその対応する識別されたクラスタ番号と共に与える。
【００２２】
図２に示されるように、スピーカ分類システム１００は、先ず、ステップ２１０においてＰＣＭオーディオ入力ファイル又は生のオーディオ・ストリームからセプストラル（ｃｅｐｓｔｒａｌ）フィーチャを抽出する。本実施例では、データ・サンプル（又は、フレーム）は、連続的なオーディオ・ストリーム・フォームから１０ｍｓの間隔で生成された標準の２４次元（ｄ＝２４）メル・セプストラル（ｍｅｌ−ｃｅｐｓｔｒａｌ）フィーチャ・ベクトルである。一般に、フィーチャ・ベクトルは、情報の損失をできるだけ少なくして音声を表す。
【００２３】
しかる後、スピーカ分類プロセス２００は、スピーカを分離するために、図３に関連して後述するセグメンテーション・サブルーチン３００をステップ２２０において実行する。一般に、セグメンテーション・サブルーチン３００は、セグメント境界が存在するすべての可能なフレームを識別しようとする。
【００２４】
スピーカ分類プロセス２００は、セグメンテーション・サブルーチン３００によって識別された同種のセグメント（同じスピーカに対応する）をクラスタ化するために、図４に関連して後述するクラスタリング・サブルーチン４００をステップ２３０において実行する。一般に、クラスタリング・サブルーチン４００は検出されたセグメントの各々にクラスタ識別子を割り当てる。同じスピーカに対応するセグメントはすべて同じクラスタ識別子を持たなければならない。
【００２５】
最後に、スピーカ分類システム１００の結果がステップ２４０において表示される。一般に、その結果は、（各セグメントの開始時間及び終了時間を有する）一連のセグメント番号をその対応する識別されたクラスタ番号と共に供給するクラスタ出力ファイル（クラスタ・レコード）１６０である。そこで、処理されるべき何らかのオーディオが残っているかどうかを決定するためテストがステップ２５０において行われる。処理されるべきオーディオが残っていることがステップ２５０において決定される場合、プログラム制御はステップ２１０に進み、前述のように処理を継続する。しかし、処理されるべきオーディオが残っていないことがステップ２５０において決定される場合、プログラム制御はステップ２６０において終了する。
【００２６】
Ｃ．スピーカ・セグメンテーション
前述のように、スピーカ分類プロセス２００は、セグメント境界が存在するすべての可能なフレームを識別するために、セグメンテーション・サブルーチン３００（図３）をステップ２２０において実行する。汎用性を損なうことなく、精々１つのセグメント境界が存在する連続的したデータ・サンプル（ｘ₁,....,ｘ_n）のウインドウを考察することにする。
【００２７】
セグメント境界がフレームｉに存在するかどうかという基本的な疑問が、次のような２つのモデルＭ₁及びＭ₂の間のモデル選択問題として投げかけられることがあろう。なお、モデルＭ₁は、（ｘ,...,ｘ_n)が単一の全共分散ガウス分布から得られ、モデルＭ₂は、（ｘ₁,...,ｘ_i）が第１ガウス分布から得られ、（ｘ_i+1,...,ｘ_n）が第２ガウス分布から得られることによって（ｘ₁,...,ｘ_n）が２つの全共分散ガウス分布から得られる。
【００２８】
ｘ_i∈Ｒ^dであるので、モデルＭ₁はｋ₁＝ｄ＋ｄ（ｄ＋１）／２のパラメータを有し、一方、モデルＭ₂は２倍の数のパラメータを有する（ｋ₂＝２ｋ₁）。次式が負である場合、ｉ番目のフレームはセグメント境界に対する良好な候補である。
【数４】

【００２９】
但し、|Σ_w|は全ウインドウ（即ち、ｎ個のフレームすべて）の共分散の行列式である。|Σ_f|はそのウインドウの第１サブディビジョンの共分散の行列式であり、|Σ_s|はそのウインドウの第２サブディビジョンの共分散の行列式である。
【００３０】
従って、ステップ３１０において、２つのサブサンプル（ｘ₁,...,ｘ_i）及び（ｘ_i+1,...,ｘ_n）が連続的なデータ・サンプル（ｘ₁,...,ｘ_n）のウインドウから設定される。「ＢＩＣテストの効率の改良」と題したセクションにおいて後述するように、ステップ３１５乃至３２８において数多くテストが行われ、境界の検出があまりありそうもないロケーションにそのウインドウにおけるＢＩＣテストが対応する時、それらのテストを排除する。特に、ステップ３１５において変数αの値が（ｎ／ｒ）−１の値に初期設定される。但し、r は（フレームにおける）検出解像度である。しかる後、ステップ３２０において、その値αが最大値α_maxを越えるかどうかを決定するためのテストが行われる。ステップ３２０において、その値が最大値α_maxを越えることが決定される場合、ステップ３２４において、カウンタｉが (α−α_max＋１)ｒの値に設定される。しかし、ステップ３２０において、その値αが最大値α_maxを越えないことが決定される場合、ステップ３２８において、カウンタｉはｒの値に設定される。しかる後、ステップ３３０において、上記の式を使用してＢＩＣ値における差が計算される。
【００３１】
ステップ３４０では、カウンタｉの値がｎ−ｒの値に等しいかどうか、換言すれば、そのウインドウにおけるすべての可能なサンプルが評価されてしまったかどうかを決定するためのテストが行われる。ステップ３４０において、カウンタｉの値が未だｎ−ｒに等しくないことが決定される場合、ステップ３５０において、そのｉの値がｒだけインクレメントされ、ステップ３３０においてウインドウにおける次のサンプルに対する処理を継続する。しかし、ステップ３４０においてカウンタｉの値がｎ−ｒに等しいことが決定される場合、ステップ３６０においてＢＩＣ値における最小差（ΔＢＩＣ_i0）が負であるかどうかを決定するための更なるテストが行われる。ステップ３６０においてＢＩＣ値におけるその最小差が負でないことが決定される場合、上記の方法で新しいウインドウを考察するためにステップ３１０に戻る前に、ステップ３６５においてウインドウ・サイズが増加させられる。従って、１つのウインドウにおけるすべてのｉに対するΔＢＩＣ値が計算され、それらのうちのいずれも負のΔＢＩＣ値をもたらすものでない時、ウインドウ・サイズｎが増加させられるだけである。
【００３２】
しかし、ステップ３６０においてＢＩＣ値における最小差が負であることが決定される場合、ステップ３７０において、ｉ₀がセグメント境界として選択される。しかる後、ステップ３７５において、新しいウインドウの始めがｉ₀＋１に移され、ウインドウ・サイズがＮ₀に設定され、しかる後、新しいウインドウを上述の方法で考察するためにプログラム制御はステップ３１０に戻る。
【００３３】
従って、ｉのすべての可能な値に対してＢＩＣ値のテストが行われ、最大の負のΔＢＩＣ_iによってｉ₀が選択される。そのウインドウではフレームｉにおいてセグメント境界が検出可能である。即ち、ΔＢＩＣ_i0＜０である場合、ｘ_i0セグメント境界に対応する。そのテストが否定的な結果である場合、後述のように、ステップ３６０において更なるデータ・サンプルが（パラメータｎを増加させることによって）現ウインドウに加えられ、フィーチャ・ベクトルがすべてセグメント化されてしまうまで、プロセスはデータ・サンプルのこの新しいウインドウに関して繰り返される。一般に、ウインドウ・サイズは、自身が１つのウインドウ拡張から別のウインドウ拡張に増大する複数のフィーチャ・ベクトルによって拡張される。しかし、ウインドウは、或る最大値よりも大きい多数のフィーチャ・ベクトルによって拡張されることはない。ステップ３７０においてセグメント境界が検出される時、ウインドウ拡張値はそれの最小値（Ｎ₀）を検索する。
【００３４】
本発明によれば、セグメンテーション・サブルーチン３００に続いてクラスタリング・サブルーチン４００が生じる。従って、クラスタリングは、セグメンテーション・サブルーチン３００からスプリアス・セグメント境界を排除する処理を行うことができるので、脱落セグメントはスプリアス・セグメントの導入よりももっと厳しいエラーである。実際に、クラスタリングなしでも、スピーカ識別のようなアプリケーションでは、スプリアス境界は（スピーカ識別エラーがないと仮定すると）連続したセグメントが同じにラベルされるということを生じるが、それは許容し得るものである。一方、脱落した境界は２つの問題を生じさせる。第１に、スピーカのひとりは識別され得ない。更に、他のスピーカも、そのスピーカの音声データがその脱落したスピーカからのデータによって改変されるので、不完全に識別されるであろう。
【００３５】
（ａ）可変ウインドウ方式
本発明の更なる特徴によれば、特に小さいセグメントにおける精度全体を改善する新しいウインドウ選択方式が提供される。セグメンテーション・サブルーチン３００が遂行されるウインドウ・サイズの選択は非常に重要である。その選択されたウインドウがあまりにも多くのベクトルを含む場合、いくつかの境界が脱落することがある。一方、その選択されたウインドウが小さすぎる場合、情報不足の結果、ガウス分布によるデータの表示が不十分になるであろう。
【００３６】
セグメント境界が検出されない場合、一定量のデータを現ウインドウに加えることが提案された。そのような方式は精度を改善するために「前後情報（ｃｏｎｔｅｘｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）」を利用するものではない。セグメント境界が検出されても又はされなくても、或いは境界が長い間検出されなくても、同じ量のデータが加えられる。
【００３７】
本発明の改良されたセグメンテーション・サブルーチンは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察するものであり、境界が生じそうもない時にはウインドウ・サイズを更に大きく増加させる。先ず、小さいサイズのベクトルのウインドウ（一般には、１００個の音声フレーム）を考察する。現ウインドウにおいてセグメント境界が検出ない場合、ウインドウのサイズは、ΔＮ_i個のフレームだけ増加する。この新しいウインドウにおいて境界が検出されない場合、フレームの数は、ΔＮ_i+1だけ増加する。但し、セグメント境界が検出されるまで、又は（境界が生じる場合に精度の問題を回避するために）ウインドウ拡張が最大サイズに達してしまうまで ΔＮ_i＝ΔＮ_i+1＋δ_iである。但し、δ_i＝２δ_i+1である。これは、ウインドウが依然として小さいままである時にはかなり遅いウインドウ・サイズの増加及びウインドウが大きくなる時には速いというウインドウ・サイズの増加を保証する。ウインドウ内でセグメント境界が検出される時、最小ウインドウ・サイズ（Ｎ_o）を使用して次のウインドウがその検出された境界の後に始まる。
【００３８】
（ｂ）ＢＩＣテストの効率の改良
本発明のもう１つの特徴によれば、ＢＩＣテストが行われるロケーションの良好な選択によって、処理時間全体における改良が得られる。ウインドウにおけるＢＩＣテストのうちの或るものは、境界の検出がありそうもないロケーションにそれらが対応する時、任意に排除可能である。先ず、ＢＩＣテストは各ウインドウの境界においては行われない。それは、それらが非常わずかなデータでもって１つのガウス分布を必ず表すためである（この明らかに小さいゲインがセグメント検出を通して繰り返され、実際には、それは無視し得るパフォーマンス・インパクトを持たない）。
【００３９】
更に、現ウインドウが大きい時にＢＩＣテストがすべて行われる場合、何らかの新しい情報が加えられる度に、ウインドウの開始時においてＢＩＣ計算が何回も行われたであろう。例えば、１０秒のウインドウ・サイズにおいて、最初の５秒内にセグメント境界が検出されなかった場合、１０秒の現ウインドウの拡張によって最初の５秒内に境界が認められるということは全くありそうもないことである。従って、（ウインドウ拡張に続く）現ウインドウの始まりにおけるＢＩＣ計算を無視することによってＢＩＣ計算の数を減少させることが可能である。実際には、ＢＩＣ計算の最大数は、必要とされる速度／精度に従って調整された調節可能なパラメータ（図３におけるα_max）である。
【００４０】
従って、セグメンテーション・サブルーチン３００は、セグメンテーション情報に関する何らかのフィードバックを持つ前にそれが必要とする最大時間を知ることを可能にする。それは、たとえセグメント境界が検出されなくても、ウインドウが十分に大きい場合には、第１フレームにセグメントが全く存在しないということがわかるためである。この情報は、音声信号のうちのこの部分に関して別の処理を行うために使用可能である。
【００４１】
（ｃ）ＢＩＣペナルティ・ウェート
ＢＩＣの式は、理論と基準に関する実用的な応用との間の差を補うために、ペナルティ・ウェート・パラメータλを利用する。ミス率と誤警報率との間の良好なトレードオフを与える最良の値は１.３であることがわかっている。放送ニュースの転写に対するセグメンテーション精度に関するλの効果を更に総合的に研究するためには、M.S.Thesis, Institut Eurcom 誌（フランス１９９８）における A.Tritschler 氏による「ＢＩＣを使用したセグメンテーション・イネーブルド音声認識アプリケーション（A Segmentation-Enabled Speech Recognition Application Using the BIC）」と題した論文を参照してほしい。
【００４２】
原則として、係数λはタスク依存のものであり、新しいタスク毎に戻されなければならないけれども、実際には、そのアルゴリズムは種々のタイプのデータに適用されており、同じ値のλを使用することによってパフォーマンスにおける認め得る程度の変化は存在しない。
【００４３】
Ｄ．スピーカのクラスタリング
（ａ）クラスリングのためのＢＩＣ処理
クラスタ化サブルーチン４００はクラスタＣ₁,...,Ｃ_Kのセットの１つを他のクラスタとマージしてクラスタＣ₁',...,Ｃ_K-1'の新しいセットを導こうとする。但し、新しいクラスタの１つは前の２つのクラスタの間のマージである。２つのクラスタＣ_i及びＣ_jをマージすべきかどうかを決定するために、２つのモデルが形成される。第１モデルＭ₁は、ＢＩＣ₁に通じるマージされたＣ_i及びＣ_jのデータと共に計算されたガウス・モデルである。第２のモデルＭ₂は、２つの異なるガウス・モデル、即ち、Ｃ_iに対するもの及びＣ_jに対するものを保持し、ＢＩＣ₂を与える。従って、ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂＜０である場合、２つの異なるモデルを保持するほうがよい。ＢＩＣのこの差が正である場合、２つのクラスタはマージされ、所望の新しいクラスタ・セットを持つことになる。
【００４４】
Proceedings of the DARPA Workshop 誌（1998）における S.Chen 及び P.Gopalakrishnan 氏による「スピーカ、環境及びチャネル変更検出、並びにベイズの情報基準によるクラスタリング（Speaker, Environment and Channel Change Detection and Clustering Via the Bayesian Information Criterion）」と題した論文はボトムアップ方式で、即ち、すべての初期セグメントでもって開始し、そしてクラスタのツリーを、そのツリーの最も近接したノードをマージすることによって形成するという方式でオフライン・クラスタリングをインプリメントする方法を示している（類似性の測定はＢＩＣである）。クラスタリング・サブルーチン４００は新しいオンライン・テクニックをインプリメントする。
【００４５】
図４と関連して後述するように、本発明のオンライン・クラスタリングは、前の繰り返し（又は、クラスタリング手順４００に対するコール）において検出されたＫ個のクラスタ及び及びクラスタ化すべき新しいＭ個のセグメントを必要とする。
【００４６】
（ｂ）クラスタリング・サブルーチン
前述のように、スピーカ分類プロセス２００は、ステップ２３０においてクラスタリング・サブルーチン４００（図４）をインプリメントし、セグメンテーション・サブルーチン３００（図３）によって識別された同種のセグメントをクラスタ化する。識別されたセグメントは、他の識別されたセグメントと、又はクラスタリング・サブルーチン４００の前の繰り返しおいて識別されたクラスタとクラスタ化される。
【００４７】
図４に示されるように、クラスタリング・サブルーチン４００は、先ず、ステップ４１０において、クラスタ化されるべきＭ個の新しいセグメント及びＫ個の既存のクラスタを収集する。クラスタ化されてないすべてのセグメントに対して、クラスタリング・サブルーチン４００は、ステップ４２０において、他のＭ−１個のクラスタ化されてないすべてのセグメントに関するＢＩＣ値における差を次のように計算する。
【数５】

【００４８】
更に、すべてにクラスタ化されてないセグメントに対して、クラスタリング・サブルーチン４００は、ステップ４３０において、Ｋ個の既存のクラスタに関するＢＩＣ値における差も次のように計算する。
【数６】

【００４９】
しかる後、クラスタリング・サブルーチン４００は、ステップ４４０において、Ｍ（Ｍ＋Ｋ−１）という結果からＢＩＣ値における最大の差ΔＢＩＣ_maxを識別する。次に、ステップ４５０において、ＢＩＣ値における最大の差ΔＢＩＣ_ma _x値が正であるかどうかを決定するためのテストが行われる。更に後述するように、ΔＢＩＣ_max値は、既存のクラスタとクラスタ化されるべき新しいセグメントとのすべての可能な結合におけるＢＩＣの最大の差である。それは、各セグメントを連続して取り、しかもそのセグメントをクラスタとマージしようとするか又は新しいクラスタを作成しようとする現在の新しいセグメントに与えられた最大の差であるのみならず、クラスタリング・サブルーチン４００はすべての新しいセグメントに与えられた最適の方法をインプリメントする。
【００５０】
ステップ４５０において、ＢＩＣ値における最大の差ΔＢＩＣ_maxが正であることが決定される場合、ステップ４６０において、現在のセグメントが既存のクラスタとマージされ、Ｍの値がインクレメントされ、或いは新しいセグメントが他のクラスタ化されてないセグメントとマージされてＫの値がインクレメントされ、Ｍの値が２だけデクレメントされる。従って、２つのセグメントが存在するかどうか及び新しいクラスタが作成されなければならいかどうかに基づいてカウンタが更新される（Ｍ＝Ｍ−２及びＫ＝Ｋ＋１）。それは、それらの２つのセグメントが同じクラスに対応するか、或いはそれらのエンティティの１つが既にクラスタである場合に新しいセグメントがそのクラスタにマージされるためである（Ｍ＝Ｍ−１及びＫは一定である）。しかる後、プログラム制御は後述のステップ４８０に進む。
【００５１】
しかし、ステップ４５０において、ＢＩＣ値における最大の差ΔＢＩＣ_maxが正ではないことが決定される場合、現在のセグメントが新しいセグメントとして識別され、そして、ステップ４７０において、ΔＢＩＣ_maxの構成要素の性質に基づいて、
（ｉ）クラスタ・カウンタの値Ｋがインクレメントされ、セグメント・カウンタの値Ｍがデクレメントされるか、或いは
（ii）クラスタ・カウンタの値Ｋが２だけインクレメントされ、セグメント・カウンタの値Ｍが２だけデクレメントされる。
従って、それらのカウンタの更新は、１つのセグメント及び１つの既存のクラスタが存在するかどうかに従って行われ（Ｍ＝Ｍ−１及びＫ＝Ｋ＋１）、或いは２つの新しいセグメントが存在するかどうかに従って行われる（Ｍ＝Ｍ−２及びＫ＝Ｋ＋２）。
【００５２】
しかる後、ステップ４８０において、セグメント・カウンタの値Ｍが厳密に正であるかどうか、即ち、処理されるべき更なるセグメントが残っていることを表すかどうかを決定するためのテストが行われる。ステップ４８０において、セグメント・カウンタの値Ｍが正であることが決定される場合、プログラム制御はステップ４４０に戻り、更なるセグメントの処理を上記の方法で継続する。しかし、ステップ４８０において、セグメント・カウンタの値Ｍがゼロであることが決定される場合、プログラム制御は終了する。
【００５３】
クラスタリング・サブルーチン４００は、上述のオフライン・ボトムアップ・クラスタリング・テクニックに比べて次善のアルゴリズムである。それは、ΔＢＩＣ値と見なされる最大値が、オンライン・バージョンにおいて検出されたグローバル最大値とは反対に、オフライン方式ではローカルであり得るためである。最適なセグメント・マージは、通常、時間的に近接したセグメントに対応するものであるので、オンライン・クラスタリング・サブルーチン４００はそのようなセグメントを同じクラスタに関連付けることを更に容易にする。クラスタに対する信頼性の低い小さいセグメントの影響を少なくするために、十分なデータを持ったセグメントだけがクラスタ化される。他のセグメントは別の「ガーベッジ」クラスタに集められる。実際には、小さいセグメントは、ガウス分布が十分に表示されないことがあるという事実のために、クラスタリングにおいてエラーを導くことがある。従って、分類の精度を改善するためには、小さいセグメントはすべて、他のクラスタリングの決定が行われることがないことを意味するゼロのクラスタ識別子を与えられる。
【００５４】
Ｅ．応用
スピーカ分類システム１００は、例えば、放送ニュースのリアルタイム複写のために使用可能である。複写エンジンは、例えば、ＩＢＭ社から商業的に入手可能なＶｉａＶｏｉｃｅｓｐｅｅｃｈ認識システムとして具体化可能である。スピーカ分類システム１００はセグメント／クラスタ情報をコンフィデンス・スコアと共に戻す。その結果生じたセグメント及びクラスタを、識別及び検証のためにスピーカ識別エンジン又は人に提供することが可能である。スピーカ識別エンジンは識別のために事前登録されたスピーカのプールを使用する。スピーカ識別システム１００からのオーディオ及びセグメント／クラスタ情報は、その事前登録されたプールから各セグメントにおけるスピーカを識別するために使用される。スピーカ識別のために使用される或る標準的なテクニックを検討するためには、例えば、Proc. Speaker Recognition and Its Commercial and Forensic Applications 誌（１９９８）における H.Beigi 氏他による「ＩＢＭモデル・ベース及びフレーム毎のスピーカ認識（IBM Model-Based and Frame-By-Frame Speaker Recognition）」と題した論文を参照してほしい。
【００５５】
本願において開示された実施例及びその変形は単に本発明の原理を説明するものであること、及び本発明の技術的範囲及び精神から逸脱することなく、当業者による種々の修正がインプリメント可能であることは理解されるべきである。
【００５６】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００５７】
（１）オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
前記オーディオ・ソースからの同種のセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
を含む方法。
（２）前記識別するステップはＢＩＣモデル選択基準を使用してセグメント境界を識別することを特徴とする上記（１）に記載の方法。
（３）前記オーディオ・ソースの部分に境界が存在しないことを第１モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第２モデルが仮定することを特徴とする上記（２）に記載の方法。
（４）前記オーディオ・ソースにおける所定のサンプルｉは下記の式が負である場合にセグメント境界である可能性があることを特徴とする上記（２）に記載の方法。
【数７】

但し、|Σ_w|はｎ個のサンプルすべてのウインドウの共分散の行列式であり、|Σ_f|は前記ウインドウの第１サブディビジョンの共分散の行列式であり、|Σ_s|は前記ウインドウの第２サブディビジョンの共分散の行列式である。
（５）前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズｎのサンプルを対象にすることを特徴とする上記（１）に記載の方法。
（６）前記ウインドウ・サイズｎはウインドウ・サイズが小さい時に比較的遅い態様で増加し、ウインドウ・サイズが大きい時に速い態様で増加することを特徴とする上記（５）に記載の方法。
（７）前記ウインドウ・サイズｎはセグメント境界が検出された後に最小値に初期設定されることを特徴とする上記（５）に記載の方法。
（８）前記ＢＩＣモデル選択テストはサンプルの各ウインドウの境界において行われないことを特徴とする上記（２）に記載の方法。
（９）前記ＢＩＣモデル選択テストはウインドウ・サイズｎが或る事前設定された閾値を超える時には行われないことを特徴とする上記（２）に記載の方法。
（１０）前記クラスタ化するステップはＢＩＣモデル選択基準を使用して行われることを特徴とする上記（１）に記載の方法。
（１１）２つのセグメント又はクラスタがマージされなければならないことを第１モデルが仮定し、前記２つのセグメント又はクラスタが独立して維持されなければならないこと第２モデルが仮定することを特徴とする上記（１０）に記載の方法。
（１２）前記モデルの各々に対するＢＩＣ値における差が正である場合、前記２つのクラスタをマージするステップを更に含むことを特徴とする上記（１１）に記載の方法。
（１３）前記クラスタ化するステップはＫ個の予め識別されたクラスタ及びクラスタ化されるべきＭ個のセグメントを使用して行われることを特徴とする上記（１）に記載の方法。
（１４）前記クラスタの各々にクラスタ識別子を割り当てるステップを更に含むことを特徴とする上記（１）に記載の方法。
（１５）前記クラスタの各々にスピーカ名を割り当てるために前記オーディオ・ソースをスピーカ識別エンジンでもって処理するステップを更に含むことを特徴とする上記（１）に記載の方法。
（１６）オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
を含む方法。
（１７）前記識別するステップはＢＩＣモデル選択基準を使用してセグメント境界を識別することを特徴とする上記（１６）に記載の方法。
（１８）前記オーディオ・ソースの部分に境界が存在しないことを第１モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第２モデルが仮定することを特徴とする上記（１７）に記載の方法。
（１９）前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズｎのサンプルを対象にすることを特徴とする上記（１６）に記載の方法。
（２０）前記ＢＩＣモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする上記（１７）に記載の方法。
（２１）２つのセグメント又はクラスタがマージされなければならないことを第１モデルが仮定し、前記２つのセグメント又はクラスタが独立して維持されなければならないことを第２モデルが仮定する場合、前記クラスタ化するステップがＢＩＣモデル選択基準を使用して行われることを特徴とする上記（１６）に記載の方法。
（２２）前記クラスタ化するステップはＫ個の予め識別されたクラスタ及びクラスタ化されるべきＭ個のセグメントを使用して行われることを特徴とする上記（１６）に記載の方法。
（２３）オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースを通したパス時に潜在的なセグメント境界を識別するステップと、
同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記オーディオ・ソースを通した同じパスにおいてクラスタ化するステップと、
を含む方法。
（２４）前記識別するステップはＢＩＣモデル選択基準を使用してセグメント境界を識別することを特徴とする上記（２３）に記載の方法。
（２５）前記オーディオ・ソースの部分に境界が存在しないことを第１モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第２モデルが仮定することを特徴とする上記（２４）に記載の方法。
（２６）前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズｎのサンプルを対象とすることを特徴とする上記（２３）に記載の方法。
（２７）前記ＢＩＣモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする上記（２４）に記載の方法。
（２８）２つのセグメント又はクラスタがマージされなければならないことを第１モデルが仮定し、前記２つのセグメント又はクラスタが独立して維持されなければならないことを第２モデルが仮定する場合、前記クラスタ化するステップがＢＩＣモデル選択基準を使用して行われることを特徴とする上記（２３）に記載の方法。
（２９）前記クラスタ化するステップはＫ個の予め識別されたクラスタ及びクラスタ化されるべきＭ個のセグメントを使用して行われることを特徴とする上記（２３）に記載の方法。
（３０）オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように及び前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同種のセグメントをクラスタ化するように構成されることを特徴とするシステム。
（３１）コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
前記セグメント境界の識別と実施的に同時に前記オーディオ・ソースから同種のセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
（３２）オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように及び前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するように構成されることを特徴とするシステム。
（３３）コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
（３４）オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースを通したパスの間に潜在的なセグメント境界を識別するように及び前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するように構成されることを特徴とするシステム。
（３５）コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースを通したパスの間における潜在的なセグメント境界を識別するためのステップと、
前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
【図面の簡単な説明】
【図１】本発明によるスピーカ識別システムのブロック図である。
【図２】図１のスピーカ識別システムによって遂行される例示的なスピーカ識別プロセスを記述したフローチャートである。
【図３】図１のスピーカ識別システムによって遂行される例示的なセグメンテーション・サブルーチンを記述したフローチャートである。
【図４】図１のスピーカ識別システムによって遂行される例示的なクラスタリング・サブルーチンを記述したフローチャートである。

Claims

オーディオ・ソースにおけるスピーカをオーディオ情報分類システムにより追跡するための方法にして、
前記オーディオ情報分類システムが備えるプロセッサが、前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
前記プロセッサが、前記オーディオ・ソースからの同一のスピーカに対応するセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
を含み、
前記識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われる、方法。
前記オーディオ・ソースにおける所定のサンプルｉは下記の式が負である場合にセグメント境界である可能性があることを特徴とする請求項１に記載の方法。

但し、|Σw|はｎ個のサンプルすべてのウインドウの共分散の行列式であり、|Σf|は前記ウインドウの第１サブディビジョンの共分散の行列式であり、|Σs|は前記ウインドウの第２サブディビジョンの共分散の行列式であり、λはペナルティ・ウェート・パラメータであり、ｄはフィーチャ・ベクトルの次元である。
前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズｎのサンプルを対象にすることを特徴とする請求項１に記載の方法。
前記ウインドウ・サイズｎはウインドウ・サイズが小さい時に比較的遅い態様で増加し、ウインドウ・サイズが大きい時に速い態様で増加することを特徴とする請求項３に記載の方法。
前記ウインドウ・サイズｎはセグメント境界が検出された後に最小値に初期設定されることを特徴とする請求項３に記載の方法。
前記ＢＩＣモデル選択テストはサンプルの各ウインドウの境界において行われないことを特徴とする請求項１に記載の方法。
前記ＢＩＣモデル選択テストはウインドウ・サイズｎが或る事前設定された閾値を超える時には行われないことを特徴とする請求項１に記載の方法。
前記モデルの各々に対するＢＩＣ値における差が正である場合、前記２つのクラスタをマージするステップを更に含むことを特徴とする請求項１に記載の方法。
前記クラスタ化するステップはＫ個の予め識別されたクラスタ及びクラスタ化されるべきＭ個のセグメントを使用して行われることを特徴とする請求項１に記載の方法。
前記クラスタの各々にクラスタ識別子を割り当てるステップを更に含むことを特徴とする請求項１に記載の方法。
前記クラスタの各々にスピーカ名を割り当てるために前記オーディオ・ソースをスピーカ識別エンジンでもって処理するステップを更に含むことを特徴とする請求項１に記載の方法。
オーディオ・ソースにおけるスピーカをオーディオ情報分類システムにより追跡するための方法にして、
前記オーディオ情報分類システムが備えるプロセッサが、前記オーディオ・ソースを通したパス時に潜在的なセグメント境界を識別するステップと、
前記プロセッサが、同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記オーディオ・ソースを通した同じパスにおいてクラスタ化するステップと、
を含み、
前記識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われる、方法。
前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズｎのサンプルを対象とすることを特徴とする請求項１２に記載の方法。
前記ＢＩＣモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする請求項１２に記載の方法。
前記クラスタ化するステップはＫ個の予め識別されたクラスタ及びクラスタ化されるべきＭ個のセグメントを使用して行われることを特徴とする請求項１２に記載の方法。
オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは、前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同一のスピーカに対応するセグメントをクラスタ化するステップとを前記プロセッサに実行させ、
前記セグメント境界を識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とするシステム。
オーディオ・ソースにおけるスピーカを追跡するための方法を実行するコンピュータ読取り可能なプログラムが記録された記録媒体であって、
前記コンピュータ読取り可能なプログラムは、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースから同一のスピーカに対応するセグメントをクラスタ化するためのステップと、
を前記コンピュータに実行させ、
前記識別するためのステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とする記録媒体。
オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは、前記オーディオ・ソースを通したパスの間に潜在的なセグメント境界を識別するステップと、前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するステップとを前記プロセッサに実行させ、
前記セグメント境界を識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とするシステム。
オーディオ・ソースにおけるスピーカを追跡するための方法を実行するコンピュータ読取り可能なプログラムが記録された記録媒体であって、
前記コンピュータ読取り可能なプログラムは、
前記オーディオ・ソースを通したパスの間における潜在的なセグメント境界を識別するためのステップと、
前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
を前記コンピュータに実行させ、
前記識別するためのステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するＢＩＣモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
前記クラスタ化するステップでは、２つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記２つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とする記録媒体。