JP4132589B2 - オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置 - Google Patents

オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置 Download PDF

Info

Publication number
JP4132589B2
JP4132589B2 JP2000188613A JP2000188613A JP4132589B2 JP 4132589 B2 JP4132589 B2 JP 4132589B2 JP 2000188613 A JP2000188613 A JP 2000188613A JP 2000188613 A JP2000188613 A JP 2000188613A JP 4132589 B2 JP4132589 B2 JP 4132589B2
Authority
JP
Japan
Prior art keywords
audio source
model
segments
boundary
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000188613A
Other languages
English (en)
Other versions
JP2001051691A (ja
Inventor
スコット・シャオンビン・チェン
アラン・シャルル・ルイ・トレザー
マハシュ・ヴィズワナザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001051691A publication Critical patent/JP2001051691A/ja
Application granted granted Critical
Publication of JP4132589B2 publication Critical patent/JP4132589B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、概して云えば、オーディオ情報分類システムに関し、詳しく云えば、オーディオ・ファイルにおけるスピーカ(発声者)を識別するための方法及びシステムに関するものである。
【0002】
【従来の技術】
放送ニュース機構及び情報検索サービスのような多くの機構は、記憶及び検索のために大量のオーディオ情報を処理しなければならない。オーディオ情報は、主題又はスピーカの名前、或いはそれらの両方によって分類されなければならないことが多い。主題によってオーディオ情報を分類するためには、先ず、音声認識システムが、自動分類又はインデキシングのために、オーディオ情報をテキストの形に転写(transcribe)する。しかる後、照会/ドキュメント・マッチングを行って関連ドキュメントをユーザに戻すためにインデックスが使用可能である。
【0003】
従って、主題によってオーディオ情報を分類するというプロセスは本質的には完全に自動化されたものになっている。しかし、スピーカによってオーディオ情報を分類するというプロセスは、特に、放送ニュースのようなリアルタイムの応用に対しては、大きな労力を要する仕事を残すことが多い。スピーカ登録情報を使用してオーディオ・ソースからスピーカを自動的に識別するための数多くの計算主体のオフライン・テクニックが提案されているけれども、スピーカ分類プロセスはヒューマン・オペレータによって最も頻繁に行われ、ヒューマン・オペレータは各スピーカ変更を識別し、対応するスピーカの識別を行う。
【0004】
オーディオ・ファイルのセグメンテーションは、各識別されたセグメントにスピーカの名前を実際に与えるスピーカ識別ツールのための前処理ステップとしても有用である。更に、オーディオ・ファイルのセグメンテーションは、バックグラウンド・ノイズ又はミュージックを減少させるための前処理ステップとしても使用可能である。
【0005】
オーディオ・ソースをスピーカによって分類するための一般的なテクニックにおける上記欠点から明らかなように、オーディオ・ソースからリアルタイムでスピーカを自動的に分類する方法及び装置に対する要求が存在する。ベイズ情報基準(Bayesian Information Criterion−BIC)に基づく改良されたスピーカ・セグメンテーション及びクラスタリングを提供する方法及び装置に対する更なる要求が存在する。
【0006】
【発明が解決しようとする課題】
従って、本発明は、オーディオ(又はビデオ)ソースからスピーカを自動的に識別するための方法及び装置を開示することにある。オーディオ情報は、スピーカ変更に対応する潜在的なセグメント境界を識別するために処理される。しかる後、同種のセグメント(一般には同じスピーカに対応する)がクラスタ化され、各検出されたセグメントにクラスタ識別子が割り当てられる。従って、同じスピーカに対応するセグメントは同じクラスタ識別子を持たなければならない。一連のセグメント番号及び対応するクラスタ番号を提供するクラスタリング出力ファイルが生成される。従って、スピーカ識別エンジン又は人間が各クラスタにスピーカ名を任意選択的に割り当てることができる。
【0007】
【課題を解決するための手段】
本発明は、同時に、オーディオ・ファイルのセグメント化し、同じスピーカに対応するセグメントのクラスタ化する。スピーカ変更に対応してセグメント境界が存在するすべての可能なフレームを識別するために、セグメンテーション・サブルーチンが利用される。フレームは、所与の期間にわたって音声特性を表す。セグメンテーション・サブルーチンは、2つのモデルを比較するモデル選択基準を使用して、所与のフレームiにおいてセグメント境界が存在するかどうかを決定する。第1モデルは、単一の全共分散ガウス分布(full-covariance Gaussian)を使用するサンプル(x1,....,xn)のウィンドウ内にセグメント境界が存在しないものと仮定する。第2モデルは、第1ガウス分布から得られたサンプル(x1,....,xi)及び第2ガウス分布から得られたサンプル(x i+1 ,....,xn)をもった2つの全共分散ガウス分布を使用するサンプル(x1,....,xn)のウインドウ内にセグメント境界が存在するものと仮定する。次の式が負である場合、i番目のフレームはセグメント境界に対する良好な候補である。
【数2】
【0008】
但し、|Σw|は全ウインドウ(即ち、n個のフレームすべて)の共分散の行列式である。|Σf|はそのウインドウの第1サブディビジョンの共分散の行列式であり、|Σs|はそのウインドウの第2サブディビジョンの共分散の行列式である。
【0009】
本発明の更なる局面によれば、特に小さいセグメントに関するセグメンテーション処理の全体な精度を改良する新しいウインドウ選択方式が与えられる。選択されたウインドウがあまりに多くのベクトルを含む場合、幾つかの境界が脱落することがある。同様に、選択されたウインドウがあまりに小さい場合、情報の不足の結果、データの劣悪な表示が生じるであろう。本発明の改良されたセグメンテーション・サブルーチンは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察し、境界が生じそうもない時にはウインドウ・サイズを増大させる。ウインドウ・サイズは、ウインドウが小さい時にはゆっくりと増大し、ウインドウが大きくなる時には急速に増大する。セグメント境界がウインドウ内で検出される時、最小ウインドウ・サイズ(N0)を使用して、次のウインドウがその検出された境界の後で始まる。
【0010】
更に、本発明は、BICテストが行われるロケーションの良好な選択によって全体的な処理時間を改善する。BICテストは、境界の検出がありそうもないロケーションにそれらが対応する時には排除可能である。先ず、BICテストは各ウインドウの境界においては行われない。それは、それらが必ず非常にわずかなデータでもって1つのガウス分布を表すためである(この明らかにわずかなゲインがセグメント検出の間繰り返され、実際に、無視し得るほどのパフォーマンス・インパクトも持たないためである)。更に、現ウインドウが大きい時、BICテストがすべて行われる場合、ウインドウの始まりにおけるBIC計算が何回も、即ち、新しい情報が加えられるたびに行われるであろう。従って、BIC計算の数は、現ウインドウの始まりにおけるBIC計算を無視することによって減少させることが可能である。
【0011】
本発明のもう1つの局面によれば、セグメンテーション・サブルーチンによって識別された同種のセグメントをクラスタリング・サブルーチンがクラスタ化する。一般に、クラスタリング・サブルーチンはモデル選択基準を使用してその識別されたセグメントの各々にクラスタ識別子を割り当てる。同じスピーカに対応するセグメントは同じクラスタ識別子を持たなければならない。2つのクラスタCi及びCjをマージすべきかどうかを決定するために、2つのモデルが利用される。第1モデルは、それらのクラスタがマージされなければならないものと仮定し、値BIC1を与える。第2モデルは、2つの別個のクラスタが維持されなければならないものと仮定し、値BIC2を与える。BIC値の差(ΔBIC=BIC1−BIC2)が正である場合、2つのクラスタはマージされる。
【0012】
本発明のオンライン・クラスタリング・テクニックは、前の反復(クラスタリング・プロシージャに対するコール)において検出されたK個のクラスタ及びクラスタ化すべき新しいM個のセグメントを伴う。クラスタ化されてない(unclustered)各セグメントに対して、クラスタ化サブルーチンは、他のM−1個のクラスタ化されてないセグメントすべてに関してBIC値における差を計算する。更に、各クラスタ化されてないセグメントに対しても、クラスタリング・サブルーチンはK個の既存のクラスタに関してBIC値における差を計算する。BIC値における最大差ΔBICmaxがM(M+K−1)の結果から識別される。BIC値おける最大差ΔBICmaxが正である場合、現在のセグメントがそのクラスタと、又はBICにおける最大差ΔBICmaxを与える他のクラスタ解除されたセグメントとマージされる。しかし、BIC値おける最大差ΔBICmaxが正でない場合、現在のセグメントは1つ又は複数の新しいクラスタとして識別される。
【0013】
以下の詳細な説明及び図面を参照することによって、本発明の更に完全な理解並びに本発明の更なる特徴及び利点が得られるであろう。
【0014】
【発明の実施の形態】
図1は、オーディオ/ビデオ・ソースからスピーカを自動的に識別する本発明によるスピーカ分類システム100を示す。オーディオ/ビデオ・ファイルは、例えば、放送ニュース・プログラムのオーディオ記録又は生放送であってもよい。オーディオ/ビデオ・ソースは、先ず、スピーカ変更を表すセグメント境界が存在するすべての可能なフレームを識別するように処理される。しかる後、同種のセグメント(同じスピーカに対応するセグメント)がクラスタ化され、その識別されたセグメントの各々にクラスタ識別子が割り当てられる。従って、同じスピーカに対応するすべてのセグメントが同じクラスタ識別子を持たなければならない。スピーカ分類システム100は、(各セグメントの開始時間及び終了時間を持った)一連のセグメント番号をその対応する識別されたクラスタ番号と共に提供するクラスタリング出力ファイルを生成する。
【0015】
そこで、スピーカ識別エンジン又は人間が各クラスタにスピーカ名を任意選択的に割り当ててもよい。その任意選択的なスピーカ識別エンジンは、識別のためにスピーカの事前登録されたプールを使用する。スピーカ識別タスクはスピーカ分類システム100の任意選択的なコンポーネントであるので、本発明は各スピーカに対するトレーニング・データを必要としない。
【0016】
図1は、本発明による例示的なスピーカ分類システム100のアーキテクチャを示すブロック図である。スピーカ分類システム100は、図1に示された汎用コンピュータ・システムのような汎用コンピュータ・システムとして具体化可能である。スピーカ分類システム100はプロセッサ110と分散型又はローカル型でもよいデータ記憶装置120のような関連のメモリとを含む。プロセッサ110は、単一のプロセッサ又は並行して動作する複数のローカル又は分散型プロセッサとして具体化可能である。データ記憶装置120及び/又は読み取り専用メモリ(ROM)は、プロセッサ110が検索、解釈、及び実行するように動作可能である1つ又は複数の命令を記憶するように動作可能である。
【0017】
データ記憶装置120は、本発明に従ってリアルタイムで分類可能である1つ又は複数の事前記録された又は生のオーディオ・ファイル又はビデオ・ファイル(或いはそれの両方)を記憶するためのオーディオ・コーパス・データベース150を含むことが望ましい。データ記憶装置120は後述する1つ又は複数のクラスタ出力ファイル160も有する。更に、図2乃至図4に関連して後述するように、データ記憶装置120は、スピーカ分類プロセス200、セグメンテーション・サブルーチン300,及びクラスタリング・サブルーチン400を含む。スピーカ分類プロセス200は、オーディオ・コーパス・データベース150における1つ又は複数のオーディオ・ファイルを分析し、(各セグメントの開始時間及び終了時間を持った)一連のセグメント番号を対応する識別されたクラスタ番号と共に与えるクラスタリング・出力ファイル(クラスタ・レコード)160を生成する。
【0018】
A.ベイズ情報基準(BIC)の背景
セグメンテーション・サブルーチン300及びクラスタリング・サブルーチン400は両方ともベイズ情報基準(BIC)モデル選択基準に基づくものである。BICは、p個のパラメータ・モデルのうちのどれがn個のデータ・サンプルx1,...xn,xi∈Rdを最もよく表すかを決定するために使用される漸近的に最適なベイズ・モデル選択基準である。各モデルMjは複数のパラメータkjを有する。サンプルxiは独立したものであると仮定する。
【0019】
BICの原理に関する詳細な検討のためには、例えば、The Annals of Statistics 誌の第6巻、461乃至464ページ(1978)における G.Schwarz 氏による「モデルの寸法の見積もり(Estimating the Dimension of a Model)」と題した論文を参照してほしい。そのBICの原理によれば、十分に大きいnに対して、データの最良のモデルは次式を最大にするものである。即ち、
【数3】
Figure 0004132589
【0020】
但し、λ=1であり、LjはモデルMjの下におけるデータの最大見込み値(換言すれば、Mjのkjパラメータに対する最大見込み値を持ったデータの見込み値)である。2つのモデルしか存在しない時、モデル選択のために簡単なテストが使用される。特に、ΔBIC=BIC1−BIC2が正である場合、モデルM1がモデルM2に優先して選択される。同様に、ΔBIC=BIC1−BIC2が負である場合、モデルM2がモデルM1に優先して選択される。
【0021】
B.スピーカ分類プロセス
前述のように、スピーカ分類システム100は、図2に示されたスピーカ分類プロセス200を実行してオーディオ・コーパス・データベース150における1つ又は複数のオーディオ・ファイルを分析し、クラスタ出力ファイル160を作成する。クラスタ出力ファイル160は(各セグメントの開始時間及び終了時間を有する)一連のセグメント番号をその対応する識別されたクラスタ番号と共に与える。
【0022】
図2に示されるように、スピーカ分類システム100は、先ず、ステップ210においてPCMオーディオ入力ファイル又は生のオーディオ・ストリームからセプストラル(cepstral)フィーチャを抽出する。本実施例では、データ・サンプル(又は、フレーム)は、連続的なオーディオ・ストリーム・フォームから10msの間隔で生成された標準の24次元(d=24)メル・セプストラル(mel−cepstral)フィーチャ・ベクトルである。一般に、フィーチャ・ベクトルは、情報の損失をできるだけ少なくして音声を表す。
【0023】
しかる後、スピーカ分類プロセス200は、スピーカを分離するために、図3に関連して後述するセグメンテーション・サブルーチン300をステップ220において実行する。一般に、セグメンテーション・サブルーチン300は、セグメント境界が存在するすべての可能なフレームを識別しようとする。
【0024】
スピーカ分類プロセス200は、セグメンテーション・サブルーチン300によって識別された同種のセグメント(同じスピーカに対応する)をクラスタ化するために、図4に関連して後述するクラスタリング・サブルーチン400をステップ230において実行する。一般に、クラスタリング・サブルーチン400は検出されたセグメントの各々にクラスタ識別子を割り当てる。同じスピーカに対応するセグメントはすべて同じクラスタ識別子を持たなければならない。
【0025】
最後に、スピーカ分類システム100の結果がステップ240において表示される。一般に、その結果は、(各セグメントの開始時間及び終了時間を有する)一連のセグメント番号をその対応する識別されたクラスタ番号と共に供給するクラスタ出力ファイル(クラスタ・レコード)160である。そこで、処理されるべき何らかのオーディオが残っているかどうかを決定するためテストがステップ250において行われる。処理されるべきオーディオが残っていることがステップ250において決定される場合、プログラム制御はステップ210に進み、前述のように処理を継続する。しかし、処理されるべきオーディオが残っていないことがステップ250において決定される場合、プログラム制御はステップ260において終了する。
【0026】
C.スピーカ・セグメンテーション
前述のように、スピーカ分類プロセス200は、セグメント境界が存在するすべての可能なフレームを識別するために、セグメンテーション・サブルーチン300(図3)をステップ220において実行する。汎用性を損なうことなく、精々1つのセグメント境界が存在する連続的したデータ・サンプル(x1,....,xn)のウインドウを考察することにする。
【0027】
セグメント境界がフレームiに存在するかどうかという基本的な疑問が、次のような2つのモデルM1及びM2の間のモデル選択問題として投げかけられることがあろう。なお、モデルM1は、(x,...,xn)が単一の全共分散ガウス分布から得られ、モデルM2は、(x1,...,xi)が第1ガウス分布から得られ、(xi+1,...,xn)が第2ガウス分布から得られることによって(x1,...,xn)が2つの全共分散ガウス分布から得られる。
【0028】
i∈Rdであるので、モデルM1はk1=d+d(d+1)/2のパラメータを有し、一方、モデルM2は2倍の数のパラメータを有する(k2=2k1)。次式が負である場合、i番目のフレームはセグメント境界に対する良好な候補である。
【数4】
Figure 0004132589
【0029】
但し、|Σw|は全ウインドウ(即ち、n個のフレームすべて)の共分散の行列式である。|Σf|はそのウインドウの第1サブディビジョンの共分散の行列式であり、|Σs|はそのウインドウの第2サブディビジョンの共分散の行列式である。
【0030】
従って、ステップ310において、2つのサブサンプル(x1,...,xi)及び(xi+1,...,xn)が連続的なデータ・サンプル(x1,...,xn)のウインドウから設定される。「BICテストの効率の改良」と題したセクションにおいて後述するように、ステップ315乃至328において数多くテストが行われ、境界の検出があまりありそうもないロケーションにそのウインドウにおけるBICテストが対応する時、それらのテストを排除する。特に、ステップ315において変数αの値が(n/r)−1の値に初期設定される。但し、r は(フレームにおける)検出解像度である。しかる後、ステップ320において、その値αが最大値αmaxを越えるかどうかを決定するためのテストが行われる。ステップ320において、その値が最大値αmaxを越えることが決定される場合、ステップ324において、カウンタiが (α−αmax+1)rの値に設定される。しかし、ステップ320において、その値αが最大値αmaxを越えないことが決定される場合、ステップ328において、カウンタiはrの値に設定される。しかる後、ステップ330において、上記の式を使用してBIC値における差が計算される。
【0031】
ステップ340では、カウンタiの値がn−rの値に等しいかどうか、換言すれば、そのウインドウにおけるすべての可能なサンプルが評価されてしまったかどうかを決定するためのテストが行われる。ステップ340において、カウンタiの値が未だn−rに等しくないことが決定される場合、ステップ350において、そのiの値がrだけインクレメントされ、ステップ330においてウインドウにおける次のサンプルに対する処理を継続する。しかし、ステップ340においてカウンタiの値がn−rに等しいことが決定される場合、ステップ360においてBIC値における最小差(ΔBICi0)が負であるかどうかを決定するための更なるテストが行われる。ステップ360においてBIC値におけるその最小差が負でないことが決定される場合、上記の方法で新しいウインドウを考察するためにステップ310に戻る前に、ステップ365においてウインドウ・サイズが増加させられる。従って、1つのウインドウにおけるすべてのiに対するΔBIC値が計算され、それらのうちのいずれも負のΔBIC値をもたらすものでない時、ウインドウ・サイズnが増加させられるだけである。
【0032】
しかし、ステップ360においてBIC値における最小差が負であることが決定される場合、ステップ370において、i0がセグメント境界として選択される。しかる後、ステップ375において、新しいウインドウの始めがi0+1に移され、ウインドウ・サイズがN0に設定され、しかる後、新しいウインドウを上述の方法で考察するためにプログラム制御はステップ310に戻る。
【0033】
従って、iのすべての可能な値に対してBIC値のテストが行われ、最大の負のΔBICiによってi0が選択される。そのウインドウではフレームiにおいてセグメント境界が検出可能である。即ち、ΔBICi0<0である場合、xi0セグメント境界に対応する。そのテストが否定的な結果である場合、後述のように、ステップ360において更なるデータ・サンプルが(パラメータnを増加させることによって)現ウインドウに加えられ、フィーチャ・ベクトルがすべてセグメント化されてしまうまで、プロセスはデータ・サンプルのこの新しいウインドウに関して繰り返される。一般に、ウインドウ・サイズは、自身が1つのウインドウ拡張から別のウインドウ拡張に増大する複数のフィーチャ・ベクトルによって拡張される。しかし、ウインドウは、或る最大値よりも大きい多数のフィーチャ・ベクトルによって拡張されることはない。ステップ370においてセグメント境界が検出される時、ウインドウ拡張値はそれの最小値(N0)を検索する。
【0034】
本発明によれば、セグメンテーション・サブルーチン300に続いてクラスタリング・サブルーチン400が生じる。従って、クラスタリングは、セグメンテーション・サブルーチン300からスプリアス・セグメント境界を排除する処理を行うことができるので、脱落セグメントはスプリアス・セグメントの導入よりももっと厳しいエラーである。実際に、クラスタリングなしでも、スピーカ識別のようなアプリケーションでは、スプリアス境界は(スピーカ識別エラーがないと仮定すると)連続したセグメントが同じにラベルされるということを生じるが、それは許容し得るものである。一方、脱落した境界は2つの問題を生じさせる。第1に、スピーカのひとりは識別され得ない。更に、他のスピーカも、そのスピーカの音声データがその脱落したスピーカからのデータによって改変されるので、不完全に識別されるであろう。
【0035】
(a)可変ウインドウ方式
本発明の更なる特徴によれば、特に小さいセグメントにおける精度全体を改善する新しいウインドウ選択方式が提供される。セグメンテーション・サブルーチン300が遂行されるウインドウ・サイズの選択は非常に重要である。その選択されたウインドウがあまりにも多くのベクトルを含む場合、いくつかの境界が脱落することがある。一方、その選択されたウインドウが小さすぎる場合、情報不足の結果、ガウス分布によるデータの表示が不十分になるであろう。
【0036】
セグメント境界が検出されない場合、一定量のデータを現ウインドウに加えることが提案された。そのような方式は精度を改善するために「前後情報(contextual information)」を利用するものではない。セグメント境界が検出されても又はされなくても、或いは境界が長い間検出されなくても、同じ量のデータが加えられる。
【0037】
本発明の改良されたセグメンテーション・サブルーチンは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察するものであり、境界が生じそうもない時にはウインドウ・サイズを更に大きく増加させる。先ず、小さいサイズのベクトルのウインドウ(一般には、100個の音声フレーム)を考察する。現ウインドウにおいてセグメント境界が検出ない場合、ウインドウのサイズは、ΔNi個のフレームだけ増加する。この新しいウインドウにおいて境界が検出されない場合、フレームの数は、ΔNi+1だけ増加する。但し、セグメント境界が検出されるまで、又は(境界が生じる場合に精度の問題を回避するために)ウインドウ拡張が最大サイズに達してしまうまで ΔNi=ΔNi+1+δiである。但し、δi=2δi+1である。これは、ウインドウが依然として小さいままである時にはかなり遅いウインドウ・サイズの増加及びウインドウが大きくなる時には速いというウインドウ・サイズの増加を保証する。ウインドウ内でセグメント境界が検出される時、最小ウインドウ・サイズ(No)を使用して次のウインドウがその検出された境界の後に始まる。
【0038】
(b)BICテストの効率の改良
本発明のもう1つの特徴によれば、BICテストが行われるロケーションの良好な選択によって、処理時間全体における改良が得られる。ウインドウにおけるBICテストのうちの或るものは、境界の検出がありそうもないロケーションにそれらが対応する時、任意に排除可能である。先ず、BICテストは各ウインドウの境界においては行われない。それは、それらが非常わずかなデータでもって1つのガウス分布を必ず表すためである(この明らかに小さいゲインがセグメント検出を通して繰り返され、実際には、それは無視し得るパフォーマンス・インパクトを持たない)。
【0039】
更に、現ウインドウが大きい時にBICテストがすべて行われる場合、何らかの新しい情報が加えられる度に、ウインドウの開始時においてBIC計算が何回も行われたであろう。例えば、10秒のウインドウ・サイズにおいて、最初の5秒内にセグメント境界が検出されなかった場合、10秒の現ウインドウの拡張によって最初の5秒内に境界が認められるということは全くありそうもないことである。従って、(ウインドウ拡張に続く)現ウインドウの始まりにおけるBIC計算を無視することによってBIC計算の数を減少させることが可能である。実際には、BIC計算の最大数は、必要とされる速度/精度に従って調整された調節可能なパラメータ(図3におけるαmax)である。
【0040】
従って、セグメンテーション・サブルーチン300は、セグメンテーション情報に関する何らかのフィードバックを持つ前にそれが必要とする最大時間を知ることを可能にする。それは、たとえセグメント境界が検出されなくても、ウインドウが十分に大きい場合には、第1フレームにセグメントが全く存在しないということがわかるためである。この情報は、音声信号のうちのこの部分に関して別の処理を行うために使用可能である。
【0041】
(c)BICペナルティ・ウェート
BICの式は、理論と基準に関する実用的な応用との間の差を補うために、ペナルティ・ウェート・パラメータλを利用する。ミス率と誤警報率との間の良好なトレードオフを与える最良の値は1.3であることがわかっている。放送ニュースの転写に対するセグメンテーション精度に関するλの効果を更に総合的に研究するためには、M.S.Thesis, Institut Eurcom 誌(フランス 1998)における A.Tritschler 氏による「BICを使用したセグメンテーション・イネーブルド音声認識アプリケーション(A Segmentation-Enabled Speech Recognition Application Using the BIC)」と題した論文を参照してほしい。
【0042】
原則として、係数λはタスク依存のものであり、新しいタスク毎に戻されなければならないけれども、実際には、そのアルゴリズムは種々のタイプのデータに適用されており、同じ値のλを使用することによってパフォーマンスにおける認め得る程度の変化は存在しない。
【0043】
D.スピーカのクラスタリング
(a)クラスリングのためのBIC処理
クラスタ化サブルーチン400はクラスタC1,...,CKのセットの1つを他のクラスタとマージしてクラスタC1',...,CK-1'の新しいセットを導こうとする。但し、新しいクラスタの1つは前の2つのクラスタの間のマージである。2つのクラスタCi及びCjをマージすべきかどうかを決定するために、2つのモデルが形成される。第1モデルM1は、BIC1に通じるマージされたCi及びCjのデータと共に計算されたガウス・モデルである。第2のモデルM2は、2つの異なるガウス・モデル、即ち、Ciに対するもの及びCjに対するものを保持し、BIC2を与える。従って、ΔBIC=BIC1−BIC2<0である場合、2つの異なるモデルを保持するほうがよい。BICのこの差が正である場合、2つのクラスタはマージされ、所望の新しいクラスタ・セットを持つことになる。
【0044】
Proceedings of the DARPA Workshop 誌(1998)における S.Chen 及び P.Gopalakrishnan 氏による「スピーカ、環境及びチャネル変更検出、並びにベイズの情報基準によるクラスタリング(Speaker, Environment and Channel Change Detection and Clustering Via the Bayesian Information Criterion)」と題した論文はボトムアップ方式で、即ち、すべての初期セグメントでもって開始し、そしてクラスタのツリーを、そのツリーの最も近接したノードをマージすることによって形成するという方式でオフライン・クラスタリングをインプリメントする方法を示している(類似性の測定はBICである)。クラスタリング・サブルーチン400は新しいオンライン・テクニックをインプリメントする。
【0045】
図4と関連して後述するように、本発明のオンライン・クラスタリングは、前の繰り返し(又は、クラスタリング手順400に対するコール)において検出されたK個のクラスタ及び及びクラスタ化すべき新しいM個のセグメントを必要とする。
【0046】
(b)クラスタリング・サブルーチン
前述のように、スピーカ分類プロセス200は、ステップ230においてクラスタリング・サブルーチン400(図4)をインプリメントし、セグメンテーション・サブルーチン300(図3)によって識別された同種のセグメントをクラスタ化する。識別されたセグメントは、他の識別されたセグメントと、又はクラスタリング・サブルーチン400の前の繰り返しおいて識別されたクラスタとクラスタ化される。
【0047】
図4に示されるように、クラスタリング・サブルーチン400は、先ず、ステップ410において、クラスタ化されるべきM個の新しいセグメント及びK個の既存のクラスタを収集する。クラスタ化されてないすべてのセグメントに対して、クラスタリング・サブルーチン400は、ステップ420において、他のM−1個のクラスタ化されてないすべてのセグメントに関するBIC値における差を次のように計算する。
【数5】
Figure 0004132589
【0048】
更に、すべてにクラスタ化されてないセグメントに対して、クラスタリング・サブルーチン400は、ステップ430において、K個の既存のクラスタに関するBIC値における差も次のように計算する。
【数6】
Figure 0004132589
【0049】
しかる後、クラスタリング・サブルーチン400は、ステップ440において、M(M+K−1)という結果からBIC値における最大の差ΔBICmaxを識別する。次に、ステップ450において、BIC値における最大の差ΔBICma x値が正であるかどうかを決定するためのテストが行われる。更に後述するように、ΔBICmax値は、既存のクラスタとクラスタ化されるべき新しいセグメントとのすべての可能な結合におけるBICの最大の差である。それは、各セグメントを連続して取り、しかもそのセグメントをクラスタとマージしようとするか又は新しいクラスタを作成しようとする現在の新しいセグメントに与えられた最大の差であるのみならず、クラスタリング・サブルーチン400はすべての新しいセグメントに与えられた最適の方法をインプリメントする。
【0050】
ステップ450において、BIC値における最大の差ΔBICmaxが正であることが決定される場合、ステップ460において、現在のセグメントが既存のクラスタとマージされ、Mの値がインクレメントされ、或いは新しいセグメントが他のクラスタ化されてないセグメントとマージされてKの値がインクレメントされ、Mの値が2だけデクレメントされる。従って、2つのセグメントが存在するかどうか及び新しいクラスタが作成されなければならいかどうかに基づいてカウンタが更新される(M=M−2及びK=K+1)。それは、それらの2つのセグメントが同じクラスに対応するか、或いはそれらのエンティティの1つが既にクラスタである場合に新しいセグメントがそのクラスタにマージされるためである(M=M−1及びKは一定である)。しかる後、プログラム制御は後述のステップ480に進む。
【0051】
しかし、ステップ450において、BIC値における最大の差ΔBICmaxが正ではないことが決定される場合、現在のセグメントが新しいセグメントとして識別され、そして、ステップ470において、ΔBICmaxの構成要素の性質に基づいて、
(i)クラスタ・カウンタの値Kがインクレメントされ、セグメント・カウンタの値Mがデクレメントされるか、或いは
(ii)クラスタ・カウンタの値Kが2だけインクレメントされ、セグメント・カウンタの値Mが2だけデクレメントされる。
従って、それらのカウンタの更新は、1つのセグメント及び1つの既存のクラスタが存在するかどうかに従って行われ(M=M−1及びK=K+1)、或いは2つの新しいセグメントが存在するかどうかに従って行われる(M=M−2及びK=K+2)。
【0052】
しかる後、ステップ480において、セグメント・カウンタの値Mが厳密に正であるかどうか、即ち、処理されるべき更なるセグメントが残っていることを表すかどうかを決定するためのテストが行われる。ステップ480において、セグメント・カウンタの値Mが正であることが決定される場合、プログラム制御はステップ440に戻り、更なるセグメントの処理を上記の方法で継続する。しかし、ステップ480において、セグメント・カウンタの値Mがゼロであることが決定される場合、プログラム制御は終了する。
【0053】
クラスタリング・サブルーチン400は、上述のオフライン・ボトムアップ・クラスタリング・テクニックに比べて次善のアルゴリズムである。それは、ΔBIC値と見なされる最大値が、オンライン・バージョンにおいて検出されたグローバル最大値とは反対に、オフライン方式ではローカルであり得るためである。最適なセグメント・マージは、通常、時間的に近接したセグメントに対応するものであるので、オンライン・クラスタリング・サブルーチン400はそのようなセグメントを同じクラスタに関連付けることを更に容易にする。クラスタに対する信頼性の低い小さいセグメントの影響を少なくするために、十分なデータを持ったセグメントだけがクラスタ化される。他のセグメントは別の「ガーベッジ」クラスタに集められる。実際には、小さいセグメントは、ガウス分布が十分に表示されないことがあるという事実のために、クラスタリングにおいてエラーを導くことがある。従って、分類の精度を改善するためには、小さいセグメントはすべて、他のクラスタリングの決定が行われることがないことを意味するゼロのクラスタ識別子を与えられる。
【0054】
E.応用
スピーカ分類システム100は、例えば、放送ニュースのリアルタイム複写のために使用可能である。複写エンジンは、例えば、IBM社から商業的に入手可能なViaVoicespeech認識システムとして具体化可能である。スピーカ分類システム100はセグメント/クラスタ情報をコンフィデンス・スコアと共に戻す。その結果生じたセグメント及びクラスタを、識別及び検証のためにスピーカ識別エンジン又は人に提供することが可能である。スピーカ識別エンジンは識別のために事前登録されたスピーカのプールを使用する。スピーカ識別システム100からのオーディオ及びセグメント/クラスタ情報は、その事前登録されたプールから各セグメントにおけるスピーカを識別するために使用される。スピーカ識別のために使用される或る標準的なテクニックを検討するためには、例えば、Proc. Speaker Recognition and Its Commercial and Forensic Applications 誌(1998)における H.Beigi 氏他による「IBMモデル・ベース及びフレーム毎のスピーカ認識(IBM Model-Based and Frame-By-Frame Speaker Recognition)」と題した論文を参照してほしい。
【0055】
本願において開示された実施例及びその変形は単に本発明の原理を説明するものであること、及び本発明の技術的範囲及び精神から逸脱することなく、当業者による種々の修正がインプリメント可能であることは理解されるべきである。
【0056】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0057】
(1)オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
前記オーディオ・ソースからの同種のセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
を含む方法。
(2)前記識別するステップはBICモデル選択基準を使用してセグメント境界を識別することを特徴とする上記(1)に記載の方法。
(3)前記オーディオ・ソースの部分に境界が存在しないことを第1モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第2モデルが仮定することを特徴とする上記(2)に記載の方法。
(4)前記オーディオ・ソースにおける所定のサンプルiは下記の式が負である場合にセグメント境界である可能性があることを特徴とする上記(2)に記載の方法。
【数7】
Figure 0004132589
但し、|Σw|はn個のサンプルすべてのウインドウの共分散の行列式であり、|Σf|は前記ウインドウの第1サブディビジョンの共分散の行列式であり、|Σs|は前記ウインドウの第2サブディビジョンの共分散の行列式である。
(5)前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズnのサンプルを対象にすることを特徴とする上記(1)に記載の方法。
(6)前記ウインドウ・サイズnはウインドウ・サイズが小さい時に比較的遅い態様で増加し、ウインドウ・サイズが大きい時に速い態様で増加することを特徴とする上記(5)に記載の方法。
(7)前記ウインドウ・サイズnはセグメント境界が検出された後に最小値に初期設定されることを特徴とする上記(5)に記載の方法。
(8)前記BICモデル選択テストはサンプルの各ウインドウの境界において行われないことを特徴とする上記(2)に記載の方法。
(9)前記BICモデル選択テストはウインドウ・サイズnが或る事前設定された閾値を超える時には行われないことを特徴とする上記(2)に記載の方法。
(10)前記クラスタ化するステップはBICモデル選択基準を使用して行われることを特徴とする上記(1)に記載の方法。
(11)2つのセグメント又はクラスタがマージされなければならないことを第1モデルが仮定し、前記2つのセグメント又はクラスタが独立して維持されなければならないこと第2モデルが仮定することを特徴とする上記(10)に記載の方法。
(12)前記モデルの各々に対するBIC値における差が正である場合、前記2つのクラスタをマージするステップを更に含むことを特徴とする上記(11)に記載の方法。
(13)前記クラスタ化するステップはK個の予め識別されたクラスタ及びクラスタ化されるべきM個のセグメントを使用して行われることを特徴とする上記(1)に記載の方法。
(14)前記クラスタの各々にクラスタ識別子を割り当てるステップを更に含むことを特徴とする上記(1)に記載の方法。
(15)前記クラスタの各々にスピーカ名を割り当てるために前記オーディオ・ソースをスピーカ識別エンジンでもって処理するステップを更に含むことを特徴とする上記(1)に記載の方法。
(16)オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
を含む方法。
(17)前記識別するステップはBICモデル選択基準を使用してセグメント境界を識別することを特徴とする上記(16)に記載の方法。
(18)前記オーディオ・ソースの部分に境界が存在しないことを第1モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第2モデルが仮定することを特徴とする上記(17)に記載の方法。
(19)前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズnのサンプルを対象にすることを特徴とする上記(16)に記載の方法。
(20)前記BICモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする上記(17)に記載の方法。
(21)2つのセグメント又はクラスタがマージされなければならないことを第1モデルが仮定し、前記2つのセグメント又はクラスタが独立して維持されなければならないことを第2モデルが仮定する場合、前記クラスタ化するステップがBICモデル選択基準を使用して行われることを特徴とする上記(16)に記載の方法。
(22)前記クラスタ化するステップはK個の予め識別されたクラスタ及びクラスタ化されるべきM個のセグメントを使用して行われることを特徴とする上記(16)に記載の方法。
(23)オーディオ・ソースにおけるスピーカを追跡するための方法にして、
前記オーディオ・ソースを通したパス時に潜在的なセグメント境界を識別するステップと、
同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記オーディオ・ソースを通した同じパスにおいてクラスタ化するステップと、
を含む方法。
(24)前記識別するステップはBICモデル選択基準を使用してセグメント境界を識別することを特徴とする上記(23)に記載の方法。
(25)前記オーディオ・ソースの部分に境界が存在しないことを第1モデルが仮定し、前記オーディオ・ソースの部分に境界が存在することを第2モデルが仮定することを特徴とする上記(24)に記載の方法。
(26)前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズnのサンプルを対象とすることを特徴とする上記(23)に記載の方法。
(27)前記BICモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする上記(24)に記載の方法。
(28)2つのセグメント又はクラスタがマージされなければならないことを第1モデルが仮定し、前記2つのセグメント又はクラスタが独立して維持されなければならないことを第2モデルが仮定する場合、前記クラスタ化するステップがBICモデル選択基準を使用して行われることを特徴とする上記(23)に記載の方法。
(29)前記クラスタ化するステップはK個の予め識別されたクラスタ及びクラスタ化されるべきM個のセグメントを使用して行われることを特徴とする上記(23)に記載の方法。
(30)オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように及び前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同種のセグメントをクラスタ化するように構成されることを特徴とするシステム。
(31)コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
前記セグメント境界の識別と実施的に同時に前記オーディオ・ソースから同種のセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
(32)オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように及び前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するように構成されることを特徴とするシステム。
(33)コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
(34)オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
コンピュータ読取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読取り可能なコードは前記オーディオ・ソースを通したパスの間に潜在的なセグメント境界を識別するように及び前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するように構成されることを特徴とするシステム。
(35)コンピュータ読取り可能なプログラム・コード手段を組み込まれたコンピュータ読取り可能な媒体を含み、
前記コンピュータ読取り可能なプログラム・コード手段は、
前記オーディオ・ソースを通したパスの間における潜在的なセグメント境界を識別するためのステップと、
前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
を含むことを特徴とする製造物。
【図面の簡単な説明】
【図1】本発明によるスピーカ識別システムのブロック図である。
【図2】図1のスピーカ識別システムによって遂行される例示的なスピーカ識別プロセスを記述したフローチャートである。
【図3】図1のスピーカ識別システムによって遂行される例示的なセグメンテーション・サブルーチンを記述したフローチャートである。
【図4】図1のスピーカ識別システムによって遂行される例示的なクラスタリング・サブルーチンを記述したフローチャートである。

Claims (19)

  1. オーディオ・ソースにおけるスピーカをオーディオ情報分類システムにより追跡するための方法にして、
    前記オーディオ情報分類システムが備えるプロセッサが、前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
    前記プロセッサが、前記オーディオ・ソースからの同一のスピーカに対応するセグメントを、前記識別するステップと実質的に同時にクラスタ化するステップと、
    を含み、
    前記識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われる、方法。
  2. 前記オーディオ・ソースにおける所定のサンプルiは下記の式が負である場合にセグメント境界である可能性があることを特徴とする請求項に記載の方法。
    Figure 0004132589
    但し、|Σw|はn個のサンプルすべてのウインドウの共分散の行列式であり、|Σf|は前記ウインドウの第1サブディビジョンの共分散の行列式であり、|Σs|は前記ウインドウの第2サブディビジョンの共分散の行列式であり、λはペナルティ・ウェート・パラメータであり、dはフィーチャ・ベクトルの次元である。
  3. 前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズnのサンプルを対象にすることを特徴とする請求項1に記載の方法。
  4. 前記ウインドウ・サイズnはウインドウ・サイズが小さい時に比較的遅い態様で増加し、ウインドウ・サイズが大きい時に速い態様で増加することを特徴とする請求項に記載の方法。
  5. 前記ウインドウ・サイズnはセグメント境界が検出された後に最小値に初期設定されることを特徴とする請求項に記載の方法。
  6. 前記BICモデル選択テストはサンプルの各ウインドウの境界において行われないことを特徴とする請求項に記載の方法。
  7. 前記BICモデル選択テストはウインドウ・サイズnが或る事前設定された閾値を超える時には行われないことを特徴とする請求項に記載の方法。
  8. 前記モデルの各々に対するBIC値における差が正である場合、前記2つのクラスタをマージするステップを更に含むことを特徴とする請求項に記載の方法。
  9. 前記クラスタ化するステップはK個の予め識別されたクラスタ及びクラスタ化されるべきM個のセグメントを使用して行われることを特徴とする請求項1に記載の方法。
  10. 前記クラスタの各々にクラスタ識別子を割り当てるステップを更に含むことを特徴とする請求項1に記載の方法。
  11. 前記クラスタの各々にスピーカ名を割り当てるために前記オーディオ・ソースをスピーカ識別エンジンでもって処理するステップを更に含むことを特徴とする請求項1に記載の方法。
  12. オーディオ・ソースにおけるスピーカをオーディオ情報分類システムにより追跡するための方法にして、
    前記オーディオ情報分類システムが備えるプロセッサが、前記オーディオ・ソースを通したパス時に潜在的なセグメント境界を識別するステップと、
    前記プロセッサが、同じスピーカに対応する前記オーディオ・ソースからのセグメントを、前記オーディオ・ソースを通した同じパスにおいてクラスタ化するステップと、
    を含み、
    前記識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われる、方法。
  13. 前記識別するステップはセグメント境界が生じそうもないエリアにおける小さいウインドウ・サイズnのサンプルを対象とすることを特徴とする請求項12に記載の方法。
  14. 前記BICモデル選択は境界の検出が生じそうもない場合には行われないことを特徴とする請求項12に記載の方法。
  15. 前記クラスタ化するステップはK個の予め識別されたクラスタ及びクラスタ化されるべきM個のセグメントを使用して行われることを特徴とする請求項12に記載の方法。
  16. オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
    コンピュータ読取り可能なコードを記憶するメモリと、
    前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするプロセッサと、
    を含み、
    前記コンピュータ読取り可能なコードは前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースからの同一のスピーカに対応するセグメントをクラスタ化するステップとを前記プロセッサに実行させ
    前記セグメント境界識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オー ディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とするシステム。
  17. オーディオ・ソースにおけるスピーカを追跡するための方法を実行するコンピュータ読取り可能なプログラムが記録された記録媒体であって
    前記コンピュータ読取り可能なプログラムは、
    前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのステップと、
    前記セグメント境界の識別と実質的に同時に前記オーディオ・ソースから同一のスピーカに対応するセグメントをクラスタ化するためのステップと、
    前記コンピュータに実行させ
    前記識別するためのステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とする記録媒体
  18. オーディオ・ソースにおけるスピーカを追跡するためのシステムにして、
    コンピュータ読取り可能なコードを記憶するメモリと、
    前記メモリに動作関係に結合され、前記コンピュータ読取り可能なコードをインプリメントするプロセッサと、
    を含み、
    前記コンピュータ読取り可能なコードは前記オーディオ・ソースを通したパスの間に潜在的なセグメント境界を識別するステップと、前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するステップとを前記プロセッサに実行させ
    前記セグメント境界識別するステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とするシステム。
  19. オーディオ・ソースにおけるスピーカを追跡するための方法を実行するコンピュータ読取り可能なプログラムが記録された記録媒体であって
    前記コンピュータ読取り可能なプログラムは、
    前記オーディオ・ソースを通したパスの間における潜在的なセグメント境界を識別するためのステップと、
    前記オーディオ・ソースを通した同じパスの間に前記オーディオ・ソースからの同じスピーカに対応するセグメントをクラスタ化するためのステップと、
    前記コンピュータに実行させ
    前記識別するためのステップでは、前記オーディオ・ソースから抽出した複数の連続するフレームにおいて何れかのフレームに前記セグメント境界が存在するか否かを、前記オーディオ・ソースの部分に境界が存在しないことを仮定するモデルと前記オーディオ・ソースの部分に境界が存在することを仮定するモデルを比較するBICモデル選択基準を使用して判断することにより前記セグメント境界を識別し、
    前記クラスタ化するステップでは、2つのセグメント又はクラスタがマージされなければならないことを仮定するモデルと前記2つのセグメント又はクラスタが独立して維持されなければならないこと仮定するモデルとを使用して行われることを特徴とする記録媒体
JP2000188613A 1999-06-30 2000-06-23 オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置 Expired - Fee Related JP4132589B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/345238 1999-06-30
US09/345,238 US7739114B1 (en) 1999-06-30 1999-06-30 Methods and apparatus for tracking speakers in an audio stream

Publications (2)

Publication Number Publication Date
JP2001051691A JP2001051691A (ja) 2001-02-23
JP4132589B2 true JP4132589B2 (ja) 2008-08-13

Family

ID=23354168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000188613A Expired - Fee Related JP4132589B2 (ja) 1999-06-30 2000-06-23 オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置

Country Status (3)

Country Link
US (1) US7739114B1 (ja)
JP (1) JP4132589B2 (ja)
GB (1) GB2351592B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
GB2388739B (en) 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
AU2005252714B2 (en) * 2004-06-09 2010-05-20 Canon Kabushiki Kaisha Effective audio segmentation and classification
US8838452B2 (en) 2004-06-09 2014-09-16 Canon Kabushiki Kaisha Effective audio segmentation and classification
US7640218B2 (en) * 2005-01-18 2009-12-29 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs
CN2792450Y (zh) * 2005-02-18 2006-07-05 冯锦满 聚能保健仪
US20090150164A1 (en) * 2007-12-06 2009-06-11 Hu Wei Tri-model audio segmentation
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
US8280905B2 (en) * 2007-12-21 2012-10-02 Georgetown University Automated forensic document signatures
CN102655002B (zh) * 2011-03-01 2013-11-27 株式会社理光 音频处理方法和音频处理设备
JP5342629B2 (ja) * 2011-10-11 2013-11-13 日本電信電話株式会社 男女声識別方法、男女声識別装置及びプログラム
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9728190B2 (en) 2014-07-25 2017-08-08 International Business Machines Corporation Summarization of audio data
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10637898B2 (en) * 2017-05-24 2020-04-28 AffectLayer, Inc. Automatic speaker identification in calls
US11417343B2 (en) 2017-05-24 2022-08-16 Zoominfo Converse Llc Automatic speaker identification in calls using multiple speaker-identification parameters
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5606643A (en) 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6404925B1 (en) 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6345253B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes

Also Published As

Publication number Publication date
JP2001051691A (ja) 2001-02-23
GB2351592B (en) 2003-05-21
US7739114B1 (en) 2010-06-15
GB2351592A (en) 2001-01-03
GB0015194D0 (en) 2000-08-09

Similar Documents

Publication Publication Date Title
JP4132589B2 (ja) オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置
US11900947B2 (en) Method and system for automatically diarising a sound recording
US6424946B1 (en) Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6421645B1 (en) Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6748356B1 (en) Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
Zhou et al. Unsupervised audio stream segmentation and clustering via the Bayesian information criterion.
JP4442081B2 (ja) 音声抄録選択方法
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
US6751354B2 (en) Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US20030236663A1 (en) Mega speaker identification (ID) system and corresponding methods therefor
WO2011160741A1 (en) A method for indexing multimedia information
US20020026309A1 (en) Speech processing system
Wu et al. UBM-based real-time speaker segmentation for broadcasting news
JP4132590B2 (ja) 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置
JP2020204711A (ja) 登録システム
JP4881272B2 (ja) 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム
JP3730179B2 (ja) 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体
JP4738606B2 (ja) データ照合システム及び方法
Sarkar et al. Audio mining: unsupervised spoken term detection over an audio database
Liu et al. Learning semantic visual concepts from video
AU2003248029B2 (en) Audio Object Classification Based on Statistically Derived Semantic Information
CN117649843A (zh) 音频处理方法以及装置
JP2000307996A (ja) 信号処理方法及び映像音声処理装置
Chen et al. UBM-BASED REAL-TIME SPEAKER SEGMENTATION FOR BROADCASTING NEWS
Lahti et al. NOKIA

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041014

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041025

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061212

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070308

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20080214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080422

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees