JPH07287593A - スピーカーデータのクラスタリング方法 - Google Patents

スピーカーデータのクラスタリング方法

Info

Publication number
JPH07287593A
JPH07287593A JP7082898A JP8289895A JPH07287593A JP H07287593 A JPH07287593 A JP H07287593A JP 7082898 A JP7082898 A JP 7082898A JP 8289895 A JP8289895 A JP 8289895A JP H07287593 A JPH07287593 A JP H07287593A
Authority
JP
Japan
Prior art keywords
speaker
data
audio
cluster
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7082898A
Other languages
English (en)
Other versions
JP3926858B2 (ja
Inventor
G Kimber Donald
ジー.キンバー ドナルド
D Wilcox Lynn
ディー.ウィルコックス リン
Francine R Chen
アール.チェン フランシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07287593A publication Critical patent/JPH07287593A/ja
Application granted granted Critical
Publication of JP3926858B2 publication Critical patent/JP3926858B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【目的】 オーディオデータストリーム内にインデック
スを作成する。 【構成】 オーディオストリームはオーディオデータソ
ース12から与えられ、該データは、会話を行うスピー
カー、オーディオトラックを伴う記録ビデオ、または他
のオーディオソースによって与えられることが可能であ
る。オーディオデータはオーディオプロセッサ14へ送
られ、オーディオプロセッサは汎用コンピュータのよう
な任意の公知デバイスであることが可能であり、本発明
に従って構成されることが可能である。オーディオプロ
セッサはオーディオデータインデックス16を出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は会話記録データにおける
未知のスピーカー(話し手)の初期クラスリングの改良
された方法に関する。
【0002】より詳細には、本発明は未知のスピーカー
の会話発声におけるスピーカーチェンジの事前確率を決
定する改善された方法を与える。
【0003】
【従来の技術】オーディオおよびビデオ記録は、コンシ
ューマグレード(消費者レベル)の記録装置の発展によ
って今や一般のものとなっている。後の再生のための過
去の記録としてビジネスミーティング、講義、もしくは
バースデーパーティーが記録されることは今や稀なこと
ではない。不幸にして、オーディオおよびビデオ媒体の
両者は、所望の記録部分にアクセスする際のアシストと
なる外部またはオーディオ情報をほとんど与えない。書
籍においては、巻頭の目次および巻末の索引によってイ
ンデックス化が与えられ、このインデックス化によって
読者は複数の著者の確認および複数の著者の参照を容易
に行うことが可能である。同様のインデックス化方法が
オーディオストリームにおいて有用であり、ユーザーは
特定のスピーカーの会話部分を確認することが可能とな
る。ほとんどのビデオ記録に関連する限られたデータ量
は、見る者が確実におよび容易に所望の関心部分にアク
セスするための充分な情報を与えない。このため見る者
は記録内容を順に調べて所望の情報を検索しなければな
らない。
【0004】例えばスピーカー(話し手)やトピック
(主題)を示すノートのような、記録中に取られたノー
トが検索の補助となることが可能である。このようなノ
ートは構造的アウトラインを与えるが、ビデオ媒体とノ
ート媒体との間には直接的な相関がないため、ノートの
内容を共にしたビデオ上の時刻の補完を強いられる。こ
のことは、非相関媒体におけるイベントノートは通常イ
ベントの継続時間を含まないという事実によって複雑化
する。加えて、そのようなノート化またはインデックス
化は非常に煩わしい。コンピュータシステムがイベント
期間中のノート取得に使用されることが可能であり、該
システムは同時に記録されるかまたは事前に記録され
る。キーボードを使用するテキストベースシステムがこ
の場合に使用されることが可能であるが、ほとんどの人
はタイプするよりもかなり速く話すため、内容を記述す
るコンピュータ生成テキストラベルをリアルタイムで作
成することは相当な努力を必要とする。
【0005】
【発明が解決しようとする課題】代替として、本発明の
方法はスピーカーに従うオーディオストリーム記録のイ
ンデックス化に基づく検索を可能とする。特に、オーデ
ィオストリームはスピーカーイベントへセグメンテーシ
ョンされることが可能であり、各セグメントはイベント
タイプまたはスピーカーIDによってラベル付けされる
ことが可能である。個々のスピーカーからの発声が混在
する場合、例えば会話の状況において、オーディオスト
リームはスピーカーの違いに従ってイベントに分解され
ることが可能であり、その場合同一のスピーカーによっ
て作成されるセグメントは識別またはマーキングされる
ことが可能である。
【0006】オーディオストリームにおいて異なるスピ
ーカーを示すスピーカーチェンジマーカーは、異なるシ
ーケンシャルデータへのランダムアクセスを可能とす
る。リアルタイム設定においては、そのようなオーディ
オセグメンテーションは、記録が行われている時にその
記録の中へ有用なインデックスを作成する際の補助とな
り得る。各セグメントは1個人による発声を表す。同一
のスピーカーによる発声は結合され、また同様に参照さ
れてインデックスが形成される。会話におけるポーズま
たは沈黙期間もまたオーディオインデックス形成におい
て重要である。
【0007】オーディオストリーム内にインデックスを
作成することは、リアルタイムであっても処理後であっ
ても、ユーザーが特定のオーディオデータセグメントを
認識することを可能にする。例えばこのことは、ユーザ
ーが記録を拾い読みして特定のスピーカーに対応するオ
ーディオセグメントを選択したり、次のスピーカーへ記
録を早送りすることを可能にする。加えて、スピーカー
の順序を知ることは、会話または会話の内容に関する内
容情報を与えることも可能である。
【0008】Gishらによる「Segregation of Speakers
for Speech Recognition and Speaker Identification
」(Proc.Int.Conf.Acoustics,Speech and Signal Proc
essing,May 1991,vol.2,pp.873-876)は階層的クラスタ
リングを使用して音声をセグメンテーションする方法を
記載している。最小距離を有するセグメントペアを繰り
返し併合することに基づき系統樹が形成される。セグメ
ント間の距離は、同一スピーカーからの2つのセグメン
トと異なるスピーカーからの2つのセグメントとの尤度
比に基づいている。記載されているアプリケーション
は、コントローラを用いて系統樹内の最大クラスタを識
別し、パイロットを用いて他の全てのクラスタを識別す
ることによって、音声をエアートラフィックコントロー
ラおよび種々のパイロットから分離する。系統樹を介す
る分断は使用される可能性があるが、Gishらはパイロッ
トを分離する方法を検討していない。
【0009】この方法は非リアルタイムのスピーカーセ
グメンテーションに対して使用可能であるが、本発明の
方法はいくつかの改善を提供する。第1に、Gishらによ
り使用される尤度比は単一のガウシアン分布に基づく
が、本発明の方法はガウシアン分布の混成結合を使用
し、これによりパフォーマンスが改善される。第2に、
本発明の階層的クラスタリングアルゴリズムはクラスタ
ペアにおける距離を再計算することによって距離計量に
対する効果的により長いセグメントを与える。このこと
は確度の改善となる。第3に、本発明の方法においては
隠れマルコフモデルが適用され、その結果、階層的クラ
スタリングで使用される数秒のセグメントに比較して、
セグメンテーションの時間分解能が20msのオーダー
となる。最後に、本発明の方法は再セグメンテーション
アルゴリズムを与え、該アルゴリズムは隠れマルコフモ
デル(HMM)ベースのセグメンテーションを繰り返し
改善する。
【0010】Siu らによる「An Unsupervised Sequenti
al Learning Algorithm for the Segmentation of Spee
ch Waveforms with Multiple Speakers 」(Proc.Int.Co
nf.Acoustics,Speech and Signal Processing,March 19
92,vol.2,pp.189-192)はパイロットからいくつかのエア
ートラフィックコントローラ分離する方法を記載してい
る。サイレンス( 無音) セグメントが最初に識別され、
初期音声セグメントがサイレンス間領域として識別され
る。これらセグメントは50音声セグメントを有する領
域にグループ化され、これらの領域において単一のエア
ートラッフィクコントローラが存在するという仮定がな
される。Gishらのような階層的クラスタリングが次に実
行され、コントローラに対するクラスタおよび全てのパ
イロットに対するクラスタが結果として得られる。この
データが使用され、コントローラおよびパイロットに対
するガウシアン混成モデルが初期化される。期待値最大
化(EM)アルゴリズムが次に使用され、コントローラ
またはパイロットとしてセグメントが繰り返し分類さ
れ、混成モデルが再推定される。収束の後、ダイナミッ
クプログラミングアルゴリズムが使用され、スピーカー
デュレーションを考慮することによって分類が改善され
る。
【0011】本発明の方法はSiu らの方法に対していく
つかの改善を提供する。前述のように、ガウシアン分布
の混成結合を使用する階層的クラスタリングは、距離再
計算の際により良い結果を与える。第2に、本発明の隠
れマルコフモデルによるモデル化の使用は、分類の際に
デュレーションの制限が考慮されることを可能とし、こ
のことはポストプロセッサとしてダイナミックプログラ
ミングを使用することに対向するものである。第3に、
結合されたサイレンスモデルを使用する本発明の方法
は、プリプロセッサとしてでなく分類ステージ期間中に
サイレンスが決定されることを可能とする。
【0012】Sugiyamaらによる「Speech Segmentation
and Clustering Based on SpeakerFeatures」(Proc.In
t.Conf.Acoustics,Speech and Signal Processing,Apri
l 1993,vol.2,pp.395-398)は、スピーカーは未知である
がスピーカー数がわかっている場合の音声のセグメンテ
ーションの方法を検討している。このスピーカーモデル
は単一状態のHMMから成る。繰り返し再セグメンテー
ションが実行され、その場合スピーカーモデルが再トレ
ーニングされてセグメンテーションが再推定される。し
かし、この方法にはいくつかの欠点がある。第1に、こ
のスピーカーモデルはランダムに初期化され、この方法
は可変な結果を与えることが知られている。本発明の方
法はスピーカーモデルの安定な初期化を記述している。
第2に、サイレンスが推定されない。第3に、単一状態
スピーカーHMMは多重状態HMMに比較して安定でな
い。
【0013】Matsuiらによる「Comparison of Text-Ind
ependent Speaker Recognition Methods Using VQ-Dist
ortion and Discrete/Continuous HMMs 」(Proc.Int.Co
nf.Acoustics,Speech and Signal Processing,March 19
92,vol.2,pp.157-160)は、HMMスピーカーモデルおよ
びベクトル量子化(VQ)を使用するスピーカー識別方
法における比較を行っている。しかし、Matsuiらは複数
のスピーカーからの音声のセグメンテーションは教示し
ていない。
【0014】
【課題を解決するための手段】本発明においては、隠れ
マルコフモデル(HMM)が使用されて個々のスピーカ
ーがモデル化されることが可能である。スピーカーモデ
ル(複数)は、ガウシアン出力分布を伴う多重状態HM
M(複数)と1つのtied silenceモデル(結合された無
音モデル)とから成る。スピーカーが知られておりトレ
ーニングデータが使用可能である場合、そのようなHM
MはBaum-Welchプロシジャーを使用して最初にトレーニ
ングされることが可能である。これとは別に、音声波形
の初期セグメンテーションに対して尤度距離を使用する
集塊性の階層的クラスタリングの方法を最初に実行し、
初期セグメンテーションを使用して個々のスピーカーH
MMをトレーニングすることによって個々のHMMは初
期化されることが可能である。次にスピーカーHMMは
以下に述べるように繰り返し再トレーニングされること
が可能である。
【0015】HMMのネットワークが形成され、多数の
スピーカーを含む音声がモデル化される。HMMネット
ワークを使用し、ネットワークを介する最も確からしい
状態シーケンスに基づきオーディオストリームがセグメ
ンテーションされる。このセグメンテーションはリアル
タイムで行われることが可能であり、オーディオストリ
ームが形成され記録されている時であってもセグメント
情報はオーディオストリームと相関がとられて該ストリ
ームと共に保存される。記録後の動作においては、続い
てモデルの再トレーニングとオーディオストリームの再
セグメンテーションが行われることが可能であり、再ト
レーニングされたモデルからセグメンテーションで変化
が生じる間、繰り返し処理が続けられる。
【0016】セグメンテーションが完了される場合、オ
ーディオストリームはオーディオインデックスを伴な
い、オーディオストリームは個々人に従う発声に分離さ
れる。電話の呼び出し音のような非音声音もまた検出さ
れてセグメンテーションされることが可能である。
【0017】本発明の目的は、複数の未知のスピーカー
の会話の音声から成るオーディオストリームにおけるス
ピーカーチェンジの推定を改善する方法を与えることで
ある。
【0018】本発明は複数の未知のスピーカーからのス
ピーカーデータをクラスタリングする改善された方法を
開示する。該方法は、オーディオデータ内の少なくとも
全てのスピーカーからの音声を有する前記オーディオデ
ータの部分を与えるステップと、オーディオ部分をデー
タクラスタに分割するステップを含む。各クラスタペア
についてのクラスタ間距離が算出され、クラスタペアの
クラスタ間距離は、2つのクラスタが同一スピーカーか
ら作成される場合の尤度に基づき、尤度測定はスピーカ
ーチェンジの事前確率によってバイアスされる。最小ク
ラスタ間距離を有する2つのクラスタが結合されて新た
なクラスタとなり、新たなクラスタを含む残りのクラス
タの各々に対してスピーカーモデルがトレーニングされ
る。2つのクラスタが同一スピーカーから作成される場
合の尤度は、初期データクラスタ長にわたるスピーカー
チェンジに基づくマルコフデュレーションモデルによっ
てバイアスされることが可能である。
【0019】以下の記述および図面により本発明の目
的、特徴、および利点が明らかとなる。
【0020】
【実施例】
A.システム概観 図1は一般化されたオーディオ処理システム10のブロ
ック図を示し、該システムにおいて本発明が実施される
ことが可能である。一般に、オーディオストリームはオ
ーディオデータソース12から与えられ、該データは、
会話を行うスピーカー、オーディオトラックを伴う記録
ビデオ、または他のオーディオソースによって与えられ
ることが可能である。オーディオデータはオーディオプ
ロセッサ14へ送られ、オーディオプロセッサは汎用コ
ンピュータのような任意の公知デバイスであることが可
能であり、本発明に従って構成されることが可能であ
る。オーディオプロセッサはオーディオデータインデッ
クス16を出力する。
【0021】図2はオーディオインデックスシステムの
一般化されたフロー図を示す。図2に示されるステップ
は以下により詳細に説明されるが、図2は本発明により
記述される方法の概観を与えるものである。
【0022】オーディオ波形20はステップ22におけ
る入力である。オーディオストリーム22は、処理され
るべきオーディオの部分を含むことが可能であるが、オ
ーディオストリーム内の全てのスピーカーからの音声を
含まなければならない。説明を目的として、オーディオ
ストリーム全体がステップ22における入力である。ス
テップ24は音声信号データをスペクトル特徴ベクトル
へ変換する。例えば、12次のケプストラムが20ms
ごとに算出されることが可能である。
【0023】オーディオデータクラスタの初期化はステ
ップ26で行われ、この初期化は、集塊性の階層的クラ
スタリングを使用してデータを初期パーティションへク
ラスタリングすることを含む。所望のスピーカークラス
タ数が得られるまで、集塊性のクラスタ間距離が再計算
され、最近接クラスタが併合される。
【0024】ステップ28において、HMMスピーカー
モデルは初期クラスタリングデータに基づき各スピーカ
ーに対してトレーニングされる。複数の個々のスピーカ
ーモデルは、該モデルを並列に結合することによってス
テップ30において結合され、会話のHMMスピーカー
ネットワークが形成される。
【0025】ステップ32はHMMスピーカーネットワ
ークを使用し、入力されるオーディオストリームのセグ
メンテーションを行う。セグメンテーションはビタビ(V
iterbi) デコーディングを使用して行われ、スピーカー
ネットワークを介する最も確からしい状態シーケンスが
見出され、状態パスがスピーカーを変更する場合にはマ
ーキングが施される。
【0026】セグメンテーションとインデックス化の確
度は、ステップ28に戻ってスピーカーモデルを再トレ
ーニングすることによる後処理の適用で改善されること
が可能であり、この場合ステップ32からのセグメンテ
ーション情報が使用される。再トレーニングと再セグメ
ンテーションの繰り返しは、ステップ32でのセグメン
テーションで大きな変化が生じなくなるまで続けられる
ことが可能である。オーディオセグメントとスピーカー
を示す、結果として得られるインデックスは、ステップ
34における出力となる。 B.隠れマルコフモデル 隠れマルコフモデル(HMM)によるモデル化は音声認
識で一般的に使用される統計的方法であり、ワード全
体、もしくは単音のようなサブワードがモデル化され
る。未知の発声の認識は、その発声が最も確からしく与
えられるモデルもしくはモデルのシーケンスを見出すこ
とに基づいている。HMMはスピーカーの識別において
も使用されることが可能である。モデルはスピーカーの
発音に対して作成され、その場合発音は特定のワードに
ついてのものであっても自然な音声についてのものであ
ってもよい。スピーカーの識別は、未知の発声が最も確
からしく与えられるスピーカーモデルを見出すことによ
って行われる。未知の発声が複数のスピーカーからの音
声を含む場合、スピーカーは最も確からしいスピーカー
モデルのシーケンスを見出すことによって識別される。
【0027】理論的に、HMMは状態のシーケンスから
成り、該状態シーケンスは定められた時間間隔で状態間
に発生する遷移を伴う。ある状態への遷移が行われるた
びに、その状態の出力特性が発生される。音声認識およ
びスピーカー識別の両者において、これらの出力はその
時間間隔に対する音声のスペクトル推定を表す。例えば
ケプストラムがその例である。ケプストラムはスペクト
ルエンベロープ(包絡線)の推定であり、音声認識およ
びスピーカー識別で一般に使用される。ケプストラム
は、スペクトルの対数のフーリエ逆変換であり、スペク
トルエンベロープと周期的音声ソースとを分離するよう
作用する。
【0028】状態間の遷移は出力のシーケンスを特定す
る。状態間遷移および各状態出力に確率を関連付けるこ
とによって、HMMが使用されて音声を統計的にモデル
化することが可能となる。システムの出力のみが観測さ
れるため「隠れ(hidden) 」という言葉が用いられる。
即ち、基礎となる状態シーケンスは推定され得るのみで
ある。
【0029】より形式的には、HMM L は、S0...
N-1 のN個の状態、状態iから状態jへの遷移確率a
ij,i=0...N-1,j=0...N-1、ならびに状態iで出力xを生
じる確率を与える確率分布bi (x) ,i=0...N-1、から成
る。例えば、bi (x) は特徴ベクトル xに対する多変数
ガウス分布であることが可能である。加えて、遷移可能
であるが出力を発生しないヌル状態が存在する。図3は
5状態のHMMを示す。状態S0 から状態S1 、S2
たはS3 への遷移確率は画一的であり、即ち、a0j=1/
3,j=1,2,3である。状態Si ,i=1,2,3については、自己
遷移および状態S4 への遷移が存在し、それらは等確率
である。従ってaii=1/2およびai4=1/2,i=1,2,3であ
る。状態S4 については遷移は常にS0 へ行われ、従っ
てa40=1である。状態S1 、S2 、およびS3 に関連す
る出力分布は、それぞれb1 (x) 、b2 (x) 、およびb
3 (x) である。状態S0 およびS4 はヌル状態であり、
従って関連する出力を有さない。状態S0 とS4 を結合
することによって等価なHMMが形成されることがかの
うである。しかし、HMMを結合してより大きなHMM
ネットワークを形成するタスクを簡素化するために、こ
のことは行われない。これについては以下に説明が行わ
れる。HMMに関するより深い検討は、Rabiner による
「A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition」(Proc.IEEE,vo
l.77,No.2,February,1989,pp.257-285)に見出される。
【0030】対象物のシーケンスをモデル化するネット
ワークHMMは、以下のように個々のHMMを並列に結
合することにより作成される。認識されるL個の対象物
の各々に対するHMMをLi ,i=1,...,Mとする。先に述
べたように、対象物は単語、単音、またはスピーカーの
いづれであってもよい。ネットワークHMMは、許容さ
れる全ての対象物シーケンスに対して対象物HMM間の
遷移を付加することにより作成される。図4において、
HMM L1 、L2 、およびL3 によって3つの対象物
がモデル化されている。これら対象物は、遷移により示
されるように任意の順序で発生可能である。状態S0
ヌル状態であり、従って出力を発生しない。S0 から
は、対象物HMM L1 、L2 、およびL3 への遷移は
等確率となる。全ての対象物HMMからの遷移は状態S
R に向かい、次に状態S0 への遷移となる。
【0031】T個の出力X=x1...xT のシーケンスが
与えられる場合、どの対象物HMMシーケンスが最も確
からしく出力シーケンスXを発生したかを決定すること
により認識が実行される。これにはビタビアルゴリズム
が使用され、最も確からしく出力Xを発生したネットワ
ークを介する状態シーケンスが見出される。シーケンス
内の各状態は、認識される対象物の内の1つのHMMに
対して特定されるため、最も確からしい状態シーケンス
は認識対象物のシーケンスを特定する。図5はビタビア
ルゴリズムの結果を概略的に示す。x軸は時間を示し、
y軸はネットワークHMM内の現行状態を示す。HMM
1 、L2 、およびL3 に対応する状態はy軸上の領
域によって示される。与えられた出力を結果としてもた
らし得る状態シーケンスが多数存在可能であるが、ビタ
ビアルゴリズムは最も確からしい状態シーケンスを見出
す。図5はビタビパスを示す。時刻t0 において最も確
からしい対象物はL1 である。時刻t1 において対象物
はL2 であり、t2 においてはL3 である。時刻t3
おいて最も確からしい対象物はL1 となる。
【0032】HMMに対するパラメータは、次に、遷移
確率aijおよび出力確率bi (x) である。これらパラメ
ータは、HMMによってモデル化された対象物によって
既に発生されたことがわかっている出力Xを用いてHM
Mをトレーニングすることにより学習されることが可能
である。Baum-Welchプロシジャーとして知られているア
ルゴリズムが一般に使用される。このアルゴリズムは、
トレーニングデータXの尤度を最大にするパラメータ値
を繰り返し処理により見出すアルゴリズムである。該ア
ルゴリズムは、パラメータの初期推定から開始する。続
いて以下のステップが実行される。(1)トレーニング
データに基づき、状態間遷移確率および状態からの出力
確率を算出する。(2)これらの確率を使用し、遷移確
率aijおよび出力確率bi (x) の推定値を算出する。ス
テップ(1)および(2)は収束が得られるまで繰り返
される。このアルゴリズムに関するより一貫した記述は
Rabiner の文献に見出される。 C.スピーカーサブネットワーク 前述のように、隠れマルコフモデルが使用されてスピー
カー識別を目的として個々のスピーカーがモデル化され
ることが可能である。図6に示されるように、(特定の
発声に対向する)個々の発声スタイルが35状態HMM
60を使用してモデル化されることが可能である。状態
0 はヌル状態であり、出力を発生する状態S1,...,S
32およびSSIL への遷移を伴う。これらの遷移確率はp
1,...,p32およびpSIL により与えられる。これら出力
発生状態の各々は、確率qi を伴う自己遷移、ならびに
確率1−qi を伴う最終ヌル状態S34への遷移を有して
いる。ヌル状態S34は確率1で初期ヌル状態S0 へ遷移
する。各非ヌル状態はガウシアン出力分布を有してお
り、平均ベクトルおよび対角共分散マトリックスにより
特性付けられる。
【0033】図7はサイレンス(無音)サブネットワー
クを示す。該サブネットワークは直列に接続された3状
態から成る。各状態は、通常もしくは結合されたガウシ
アン出力分布を有し、該分布はラベルSILで示されて
いる。この出力分布はまた、スピーカーモデル60のサ
イレンス状態62における出力分布と同一であり、該分
布は状態ラベルSILで示されている。サイレンスサブ
ネットワークは長時間間隔の無音状態をモデル化する
が、会話の発声におけるポーズや短時間間隔の無音状態
に対しては適切でない。これらポーズや短時間間隔の無
音状態は、個々のスピーカーモデルにおけるサイレンス
状態62によってモデル化される。スピーカーHMMの
サイレンス状態における出力分布は全て結合されてサイ
レンスサブネットワークにおける出力分布となる。
【0034】スピーカーHMMの各々は、与えられたス
ピーカーの発声スタイルに対してトレーニングされなけ
ればならない。このトレーニングは先に述べたBaum-Wel
chアルゴリズムを使用して行われ、遷移確率aij、およ
びガウシアン出力確率bi (x) に対する平均および対角
共分散が推定される。HMMパラメータの初期推定値は
次のように得られる。全ての遷移確率が画一的に設定さ
れ、この結果、与えられた状態からの全ての遷移は等確
率となる。ガウシアン出力分布を初期化するために、ス
ピーカーに対するトレーニングデータから全体平均およ
び対角共分散マトリックスが算出される。全ての状態に
対するガウシアン出力分布についての共分散マトリック
スが全体的共分散マトリックスに設定される。全体平均
に小さな定数を加えることによって平均が設定され、そ
の場合該定数は異なる各状態に対するランダム要素に対
して加えられる。Baum-Welch繰り返し処理がスピーカー
のトレーニングデータを用いて次に実行される。
【0035】認識されるスピーカーが事前にわかってい
る場合、Baum-Welchアルゴリズムに対するトレーニング
データは、30秒から1分の各スピーカーに対する音声
データを使用して得られる。音声はスピーカーの通常の
発声スタイルを表さなければならないが、この場合使用
される実際の単語は重要でない。
【0036】スピーカーおよびサイレンスサブネットワ
ークに加えて、ガーベッジ(garbage)サブネットワーク
が頻繁に使用され、スピーカーモデルまたは存在可能な
非音声音の内の1つによって特定されない任意のスピー
カーがモデル化される。ガーベッジネットワークの形態
は、図6に示されるスピーカーネットワークのそれと同
じである。しかし、アプリケーションに依存してガーベ
ッジネットワークは異なるデータを使用してトレーニン
グされる。例えば、ガーベッジサブネットワークが使用
されて非音声音がモデル化される場合、それはスピーカ
ーモデルとしてトレーニングされなければならないが、
この場合非音声データが使用される。システムに対して
未知のスピーカーをモデル化する場合、トレーニングデ
ータを得る1つの方法は、既知の各スピーカーからの音
声の部分を使用することである。
【0037】ガーベッジモデルをトレーニングする際に
全てのスピーカーからの全てのデータが必ずしも使用さ
れないことは重要である。全ての有効なデータを使用す
ることは、各スピーカーモデルに対してよりもガーベッ
ジモデルに対してより多くのトレーニングデータを与
え、全てのスピーカーに対してより確実なスピーカーモ
デルを作成する効果を有する。従って、結果として得ら
れるHMMネットワークはほとんどの音声をガーベッジ
として分類する。
【0038】1実施例において、入力オーディオトレー
ニングデータは8KHzでサンプルされ、10msごと
に特徴ベクトルが算出される。例えば、各フレームに対
する特徴ベクトルは、25msウィンドウ下のサンプル
に関する20次の線型予測符号化(LPC)を行うこと
によって算出されることが可能であり、従ってLPCス
ペクトルから20個のケプストラム定数が算出されるこ
とが可能である。
【0039】いくつかの場合においては、認識されるス
ピーカーは事前にわかっていない。しかし、スピーカー
モデルに対する初期推定を得ることがそのような場合に
も必要である。この初期推定は、階層的な集塊性のクラ
スタリングを使用して行われ、異なるスピーカーとして
認識されるデータのラフな区分が作成される。 D.階層的な集塊性のクラスタリング スピーカーに従うデータの区分を与えることによってス
ピーカーサブネットワークの初期推定を得るために、階
層的な集塊性のクラスタリングが使用されることが可能
である。このデータは次にスピーカーHMMのBaum-Wel
chトレーニングに対するトレーニングデータとして使用
されることが可能である。
【0040】セグメンテーションされていないデータ
は、最初に等しい長さのセグメントに分割され、各セグ
メントは数秒の音声から成る。これらのセグメントは階
層的クラスタリングに対する初期クラスタ集合として使
用される。該アルゴリズムは、最初に全てのクラスタペ
アについてのクラスタ間距離を算出し、次に最も近い2
つのクラスタを併合することによって進行する。このプ
ロセスは所望のスピーカークラスタ数が得られるまで繰
り返される。このプロセスが図8に概略的に示されてい
る。スピーカー数が未知の場合、このアルゴリズムが使
用されてスピーカー数が推定されることが可能である。
その場合、最近接クラスタの併合は、最近接クラスタ間
距離が定められたスレショルドを越えるまで継続する。
スレショルドを越えるとクラスタリングは中止され、そ
の時のクラスタ数がスピーカー数の推定値として使用さ
れる。
【0041】図8は、スピーカーでラベル付けされてい
るインターバル集合上の階層的クラスタリング100を
概略的に示す。オリジナルインターバル102は、C、
L、およびTで3つのスピーカーに対してラベル付けさ
れたツリーのリーフによって示される。そのような全て
のインターバルについてのインターバル間距離が算出さ
れ、104に示されるように最も近接する2つのインタ
ーバルが併合される。
【0042】この最近接クラスタ併合プロセスは、所望
のクラスタ数が形成されるまで繰り返される。3つのク
ラスタに対し、それらクラスタに対応する3つの分岐が
示されている。第1のクラスタ106はほとんどスピー
カーCからのインターバルを含み、第2のクラスタ10
8はほとんどスピーカーLからのインターバルを含み、
第3のクラスタ110はほとんどスピーカーTからのイ
ンターバルを含む。
【0043】スピーカー数が未知の場合、距離に対する
スレショルドが設定され、スレショルドが越えられた場
合にクラスタの併合が中止される。このことは線112
により概略的に示されており、該線は4つのクラスタを
生成する。(クラスタ1は2つに分割されている。)ク
ラスタXが単一セグメントX=xかまたはセグメント集
合X=x1,x2,...から成ると仮定する。クラスタXお
よびY間の距離はd(X,Y)により表される。前述の
システムにおいて、セグメント間距離はガウシアン分布
の仮定に基づき尤度比によって導出された。x=
1,...,sr はある1つのセグメント内のデータを表
し、y=sr+1,...,sn はその他のセグメント内のデー
タを表し、z=s1,...,sn は合成セグメント内のデー
タを表すものとする。L(x,θx )はxシーケンスの
尤度とし、ここでθx はガウシアン分布のパラメータに
対する推定値である。同様にL(y,θy )はyシーケ
ンスの尤度とし、L(z,θz )は合成シーケンスzの
尤度とする。λは尤度比を表すとすると、次式のように
表される。
【0044】
【数1】
【0045】クラスタリングの際に使用される距離計量
は−log(λ)である。音声データは単一のガウシア
ン分布では充分にモデル化されないため、尤度比はガウ
シアン分布の混成結合に拡張される。セグメンテーショ
ンされていないデータが最初に使用され、M個のガウシ
アン分布の混成に対する平均および共分散マトリックス
が推定される。次にこれらは残りの解析により確定され
る。Ni ( s)=N(s:Mi , σi )はi番目の混成
要素に関連するガウシアン分布とし、gi (x)はデー
タシーケンスxを使用して推定されたi番目の混成要素
に対する重みとする。gi (x)はNi ( s)が最大と
なるx内のサンプルの割合である。従ってxシーケンス
の尤度は次式のように表される。
【0046】
【数2】
【0047】ここでθx =(g1 (x),..., g
M (x))である。尤度L(y,θy )も同様に算出さ
れる。合成シーケンスに対する尤度L(z,θz )の算
出において、混成要素に対する重みgi (z)として次
式を得る。
【0048】
【数3】
【0049】クラスタリングに対する距離計量、dL
−log(λL )は従って式(1)を使用して算出され
ることが可能である。
【0050】本発明のクラスタリングプロシジャーは、
クラスタを含むインターバルにおけるインターバル間距
離の最大、最小、もしくは平均を使用するよりもむしろ
式(1)を使用して集塊性のクラスタ間距離を再計算す
る点において、通常の階層的クラスタリングと異なって
いる。従って式(2)および(3)により与えられる尤
度の計算効率が重要となる。これはクラスタリングレベ
ルの各々において距離が再計算されるためである。
【0051】本発明において、スピーカーチェンジの事
前確率はM個のスピーカーを伴うマルコフデュレーショ
ンモデルを使用して決定される。Si はセグメントiの
期間中のスピーカーを表し、Mはスピーカー数を表すと
する。Si は、各スピーカーaに対してPr 〔Si+1
a|Si =a〕=p、および各スピーカーaおよびb
(aに等しくない)に対してPr 〔Si+1 =b|Si
a〕=(1−p)/(M−1)を伴うマルコフ連鎖であ
ると仮定する。セグメントiに対するスピーカーがセグ
メントi+nに対しても発声する確率Pr 〔Si+n =S
i 〕は、2状態マルコフ連鎖を使用して算出されること
が可能であり、その場合連鎖の状態1は時刻iにおける
スピーカーを表し、状態2は他の全てのスピーカーを表
す。この連鎖に対する遷移確率マトリックスPは次式の
ように表される。
【0052】
【数4】
【0053】このマトリックスに関し、Pr 〔Si+n
i 〕=(Pn 11である。Pを対角化することによ
り、Pr 〔Si+n =Si 〕は次式のようによりクローズ
した形態で表されることが可能である。
【0054】
【数5】
【0055】この式を使用して、2つの与えられたクラ
スタが同一のスピーカーまたは2つの異なるスピーカー
によって生成される事前確率を算出することが可能であ
る。Cをスピーカーチェンジが発生するインターバル数
とし、ni をi番目のインターバル長とすると、デュレ
ーションバイアスは次式のように定義される。
【0056】
【数6】
【0057】デュレーションバイアスされた距離はdD
(X,Y)=−log(λL )−log(λD )として
定義される。 E.スピーカーセグメンテーションネットワーク 図9に示されるスピーカーセグメンテーションネットワ
ーク120は、各スピーカーに対するサブネットワーク
60と、サイレンスおよびガーベッジに対するオプショ
ナルなサブネットワーク64および122とから成る。
ガーベッジは、オーディオ中の未知のスピーカーまたは
非音声音のような、スピーカーまたはサイレンスモデル
によってモデル化されない音声または音として定義され
る。スピーカー、ガーベッジ、およびサイレンスサブネ
ットワークは以下に述べるように得られる。ネットワー
クモデルは、2またはそれ以上のスピーカーによるバッ
クグランドノイズを伴う会話をモデル化する。ネットワ
ーク60のような個々のスピーカーサブネットワークは
互いに並列に結合され、各サブネットワークから外部へ
の遷移確率は小さいペナルティ定数εに固定されて、孤
立サンプルに基づくスピーカーチェンジが抑制される。
各スピーカーサブネットワーク60はL個の状態を伴う
HMMから成り、それらHMMは並列に接続される。各
状態は、ガウシアン出力分布、自己遷移、および他状態
への遷移を有する。
【0058】初期ヌル状態からスピーカー、ガーベッ
ジ、およびサイレンスサブネットワークへの遷移確率は
画一的である。スピーカー、ガーベッジ、およびサイレ
ンスモデルから外部への遷移確率ペナルティは定数εに
設定される。原理的に、これら遷移確率はスピーカーに
依存し、トレーニング期間中に学習される。しかし、簡
素化を目的として、スピーカーの事前確率は画一値に仮
定され、スピーカーを離れる確率εは経験的に選択され
て孤立サンプルに基づくスピーカーチェンジが抑制され
る。
【0059】実際には、この遷移確率は著しく小さい。
(10-20 のオーダーである。)従って各スピーカーモ
デルから外部への遷移は、スピーカーからスピーカーへ
の切替にペナルティを与えるよう作用する。 F.オーディオストリームのセグメンテーション スピーカー間の会話をインデックス化することは単に、
観測された特徴ベクトルに関する与えられたシーケンス
であるネットワークモデルを介する最も確からしい状態
シーケンスを見出すことである。スピーカーサブネット
ワークが初期化された後、スピーカーセグメンテーショ
ンネットワークを介する最も確からしい状態シーケンス
を見出すことによりスピーカーセグメンテーションが実
行され、状態パスがスピーカーを変更する時点でマーキ
ングが施される。最適な状態が1つのスピーカーモデル
から他のスピーカーモデルへ切り替わる場合にスピーカ
ーチェンジが発生する。最適な状態シーケンスを見出す
ことはビタビアルゴリズムを使用して達成される。セグ
メンテーションの確度は、セグメンテーションされたデ
ータを使用してスピーカーサブネットワークを再トレー
ニングすることによって改善されることが可能である。
このセグメンテーションおよび再トレーニングのプロセ
スは、セグメンテーションにおいて変化が生じなくなる
まで繰り返される。
【0060】非リアルタイムアプリケーションに対し、
音声のセグメンテーションが繰り返し実行され、各セグ
メンテーションの後にスピーカーモデルが再トレーニン
グされる。このことはセグメンテーションの確度を向上
させ、特にスピーカートレーニングデータが適用不可能
な場合に有効である。
【0061】繰り返し再セグメンテーションアルゴリズ
ムが図10に示される。最初に、トレーニングデータ集
合がステップ130で与えられ、ステップ132でスピ
ーカーもでるがトレーニングされる。このデータは、既
知のスピーカーからのトレーニングデータであるかまた
は階層的クラスタリングを使用して区分されたデータで
あることが可能である。次にステップ134でこれらス
ピーカーモデルに基づきセグメンテーションが実行され
る。ステップ134でのセグメンテーションが大きく変
化する場合、この改善されたセグメンテーションはスピ
ーカーに対する新たなトレーニングデータとして使用さ
れ、ステップ132でスピーカーモデルが再トレーニン
グされる。このプロセスはステップ136でセグメンテ
ーションが変化しなくなるまで続けられる。 G.アプリケーション 図11は、オーディオ記録データのスピーカーに従うイ
ンデックスを作成および記憶する、システム190にお
ける本発明の1実施例を示す。オーディオ記録入力19
1はオーディオプロセッサ192によってスペクトル特
徴データへ処理され、システムプロセッサ194へ与え
られる。スペクトル特徴データは、システムプロセッサ
194による後の繰り返し処理のためにメモリ197に
記憶されることが可能である。
【0062】オーディオプロセッサ192によってシス
テムプロセッサ194へ与えられるスペクトルデータ
は、最初にセグメンテーションおよびクラスタリングさ
れ、初期スピーカーモデルをトレーニングしてスピーカ
ーネットワークを作成するためのデータが与えられる。
スペクトルデータはシステムプロセッサ194によって
再び処理される。スペクトルデータは、システムプロセ
ッサ194によって作成されたスピーカーネットワーク
を使用してシステムプロセッサ194によって処理され
る。オーディオストリームにおいて新たなセグメントの
各々が検出されると、システムプロセッサ194はタイ
ムソース193からタイムスタンプを得る。タイムスタ
ンプは、オーディオ入力191の記録からのオーディオ
データに関する記録アドレスもしくは記憶時間を示す。
タイムソース193は、例えば、記録が開始される時に
始動する時計であることが可能であり、もしくは、記憶
媒体に接続された記録デバイスから時間を記録するデバ
イスであることが可能である。このタイムスタンプは、
セグメントの作成者の識別子と共にメモリ195に記憶
され、後にスピーカーに従うインデックスへ収集され
る。
【0063】図12は、スピーカーが事前にわかってい
ない場合にオーディオストリームのインデックスを決定
する前述の方法に関するアプリケーションを記述するも
のである。ステップ200は処理されるオーディオデー
タを選択する。先に述べたように、このステップで使用
されるオーディオは、処理されるオーディオストリーム
内の少なくとも全てのスピーカーからの音声を有する部
分を含むことが可能であるが、オーディオストリーム全
体に関して議論を進めることとする。ステップ202に
おいて、オーディオストリームはセグメントに分解さ
れ、このセグメントは通常等しく短い長さである。これ
ら初期セグメントは初期クラスタとして後のステップで
使用される。
【0064】1つのセグメントに対するスピーカーが次
のセグメントに対してもスピーカーとなる確率は、2状
態のマルコフ連鎖を使用して算出されることが可能であ
る。同一のスピーカーかまたは2つの異なるスピーカー
によって2つの与えられたクラスタが生成されるデュレ
ーションバイアスされた事前確率が算出される。 ステ
ップ206は各クラスタについてクラスタ間距離を算出
する。該距離はスピーカーチェンジの事前確率によって
デュレーションバイアスされる。
【0065】ステップ208は最小距離を有する2つの
クラスタを併合する。ステップ210において所望数よ
りも多くのクラスタが存在する場合、ステップ206に
おいて新たなクラスタ間距離が算出され、ステップ21
0において2つの最近接クラスタが再び併合される。こ
の処理は所望のクラスタ数が残るまで繰り返される。所
望のクラスタ数は、クラスタ間のトータル距離制限かも
しくは集合数に基づくことが可能である。例えば、オー
ディオセグメント内のスピーカー総数は、トレーニング
データが使用不可能な場合であっても知られていること
が可能である。そのような数の初期クラスタが決定され
るまで併合を行うようシステムが設定されることが可能
である。
【0066】初期クラスタリングが完了すると、ステッ
プ212は個々のスピーカーモデルHMMのトレーニン
グを行う。これら個々のモデルはステップ214におい
て並列に結合され、スピーカーを離れることに対するペ
ナルティが付与される。サイレンスおよびガーベッジモ
デルがステップ212で発生されておらず、ネットワー
クに付加されていない場合、それらはステップ216で
付加されることが可能である。ステップ218におい
て、オーディオストリームはスピーカーセグメンテーシ
ョンネットワークを使用してセグメントに分割される。
ステップ220において、セグメントは各セグメントに
対するスピーカーの識別子によりマーキングされる。
【0067】ステップ222は前の繰り返し処理におい
てセグメンテーションが大きく変化したかどうかをチェ
ックする。もしそうである場合、ステップ212におい
てモデルが再トレーニングされ、改良されたモデルを用
いてセグメンテーションの繰り返し処理が実行される。
再トレーニングの結果として大きな変化が生じない場
合、繰り返し処理は完了し、個々のモデルによって同様
にマーキングされたセグメントを収集することによって
記録に対するインデックスが作成される。 H.その他 スピーカーに従うオーディオデータセグメントのクラス
タリングの方法が、オーディオデータに関するスピーカ
ーインデックス化のためのスピーカーネットワークへの
入力に対する多くの実施例に関連して本文中に記述され
てきたが、それらの修正、変形、および拡張を伴う他の
アプリケーション、実施、修正、変形、および拡張は本
発明の範囲である。
【0068】
【発明の効果】以上説明したように、本発明の方法によ
れば、オーディオストリーム内にインデックスを作成す
ることが可能となり、リアルタイムであっても処理後で
あっても、ユーザーが特定のスピーカーに関連するオー
ディオデータセグメントを認識することが可能となる。
【図面の簡単な説明】
【図1】本発明が実施されることが可能である一般化さ
れたオーディオ処理システムのブロック図である。
【図2】オーディオインデックスシステムの一般化され
たフロー図である。
【図3】5状態隠れマルコフモデル(HMM)を示す図
である。
【図4】HMMによってモデル化される3つの対象物の
HMMネットワークを示す図である。
【図5】ビタビアルゴリズムの結果を概略的に示す図で
ある。
【図6】個々のスピーカーの発声スタイルをモデル化す
る35状態HMMを示す図である。
【図7】サイレンスサブネットワークを示す図である。
【図8】スピーカーでラベル付けされたインターバル集
合上の階層的クラスタリングを概略的に示す図である。
【図9】各スピーカーに対するサブネットワークと、サ
イレンスおよびガーベッジに対するオプショナルなサブ
ネットワークとから成るスピーカーセグメンテーション
ネットワークを示す図である。
【図10】繰り返し再セグメンテーションアルゴリズム
を概略的に示す図である。
【図11】オーディオ記録データのスピーカーに従うイ
ンデックスを作成および記憶するシステムにおける本発
明の1実施例を示す図である。
【図12】スピーカーが未知の場合にオーディオストリ
ームのインデックスを決定する本発明に従う方法を示す
図である。
【符号の説明】
12 オーディオデータソース 14 オーディオプロセッサ 16 オーディオデータインデックス 60 35状態HMM 120 スピーカーセグメンテーションネットワーク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 リン ディー.ウィルコックス アメリカ合衆国 カリフォルニア州 94028 ポートラ ヴァレー ジョアクイ ン ロード 45 (72)発明者 フランシン アール.チェン アメリカ合衆国 カリフォルニア州 94025 メンロ パーク シャーマン ア ヴェニュー 975

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の未知のスピーカーからのスピーカ
    ーデータをクラスタリングする改善された方法であっ
    て、 オーディオデータ内の少なくとも全てのスピーカーから
    の音声を有する前記オーディオデータの部分を与えるス
    テップと、 前記オーディオ部分をデータクラスタに分割するステッ
    プと、 各クラスタペアについてクラスタ間距離を算出するステ
    ップであって、前記ペアに関する距離は同一スピーカー
    によって2つのクラスタが作成された場合の尤度に基づ
    き、前記尤度の測定はスピーカーチェンジの事前確率に
    よってバイアスされる、クラスタ間距離算出ステップ
    と、 最小クラスタ間距離を有する2つのクラスタを結合して
    新たなクラスタとするステップと、 を含む、スピーカーデータのクラスタリング方法。
  2. 【請求項2】 残りのクラスタの各々に対するスピーカ
    ーモデルをトレーニングするステップをさらに含む、請
    求項1に記載の方法。
  3. 【請求項3】 同一スピーカーによって2つのクラスタ
    が作成された場合の尤度に基づきクラスタ間距離を算出
    する前記ステップはさらに、前記データクラスタ長にお
    けるスピーカーチェンジに基づくマルコフデュレーショ
    ンモデルによってバイアスされる尤度測定を含む、請求
    項1に記載の方法。
JP08289895A 1994-04-12 1995-04-07 スピーカーデータのクラスタリング方法 Expired - Lifetime JP3926858B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US226523 1994-04-12
US08/226,523 US5598507A (en) 1994-04-12 1994-04-12 Method of speaker clustering for unknown speakers in conversational audio data

Publications (2)

Publication Number Publication Date
JPH07287593A true JPH07287593A (ja) 1995-10-31
JP3926858B2 JP3926858B2 (ja) 2007-06-06

Family

ID=22849258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08289895A Expired - Lifetime JP3926858B2 (ja) 1994-04-12 1995-04-07 スピーカーデータのクラスタリング方法

Country Status (2)

Country Link
US (1) US5598507A (ja)
JP (1) JP3926858B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY119374A (en) * 1995-09-12 2005-05-31 Texas Instruments Inc Method and system for enrolling addresses in a speech recognition database
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US7006605B1 (en) 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US5901203A (en) 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6529881B2 (en) * 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US5832429A (en) * 1996-09-11 1998-11-03 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
US6470315B1 (en) * 1996-09-11 2002-10-22 Texas Instruments Incorporated Enrollment and modeling method and apparatus for robust speaker dependent speech models
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US5970455A (en) * 1997-03-20 1999-10-19 Xerox Corporation System for capturing and retrieving audio data and corresponding hand-written notes
JP3033514B2 (ja) * 1997-03-31 2000-04-17 日本電気株式会社 大語彙音声認識方法及び装置
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
US5889523A (en) * 1997-11-25 1999-03-30 Fuji Xerox Co., Ltd. Method and apparatus for dynamically grouping a plurality of graphic objects
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6754631B1 (en) 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6404925B1 (en) 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6542869B1 (en) 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
WO2002007146A1 (fr) * 2000-07-13 2002-01-24 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale et procede de reconnaissance vocale
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
ITTO20010037U1 (it) * 2001-03-02 2002-09-02 Gambro Dasco Spa Raccordo di un circuito di circolazione del sangue in una macchina didialisi.
US7239324B2 (en) * 2001-03-23 2007-07-03 Microsoft Corporation Methods and systems for merging graphics for display on a computing device
US7038690B2 (en) * 2001-03-23 2006-05-02 Microsoft Corporation Methods and systems for displaying animated graphics on a computing device
KR100435440B1 (ko) * 2002-03-18 2004-06-10 정희석 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법
US7295970B1 (en) * 2002-08-29 2007-11-13 At&T Corp Unsupervised speaker segmentation of multi-speaker speech data
US7383509B2 (en) * 2002-09-13 2008-06-03 Fuji Xerox Co., Ltd. Automatic generation of multimedia presentation
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
US7844454B2 (en) * 2003-03-18 2010-11-30 Avaya Inc. Apparatus and method for providing voice recognition for multiple speakers
US7231349B2 (en) * 2003-05-30 2007-06-12 Microsoft Corporation Method and apparatus for compressing asymmetric clustering language models
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
US7433820B2 (en) * 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
US7454337B1 (en) * 2004-05-13 2008-11-18 The United States Of America As Represented By The Director, National Security Agency, The Method of modeling single data class from multi-class data
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
DE102005014761A1 (de) * 2005-03-31 2006-10-05 Siemens Ag Verfahren zum Anordnen von Objektdaten in elektronischen Karten
US7716048B2 (en) * 2006-01-25 2010-05-11 Nice Systems, Ltd. Method and apparatus for segmentation of audio interactions
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
US7822604B2 (en) * 2006-10-31 2010-10-26 International Business Machines Corporation Method and apparatus for identifying conversing pairs over a two-way speech medium
US7870136B1 (en) * 2007-05-24 2011-01-11 Hewlett-Packard Development Company, L.P. Clustering data with constraints
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
ATE457511T1 (de) * 2007-10-10 2010-02-15 Harman Becker Automotive Sys Sprechererkennung
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
WO2011057650A1 (en) 2009-11-12 2011-05-19 Agnitio, S.L. Speaker recognition from telephone calls
US8554562B2 (en) * 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
GB201114737D0 (en) 2011-08-26 2011-10-12 Univ Belfast Method and apparatus for acoustic source separation
JP5895813B2 (ja) * 2012-01-18 2016-03-30 富士ゼロックス株式会社 プログラム及び検索装置
TW201417093A (zh) * 2012-10-19 2014-05-01 Hon Hai Prec Ind Co Ltd 具有影音檔處理功能的電子裝置及影音檔處理方法
EP2936485B1 (en) 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US10026405B2 (en) 2016-05-03 2018-07-17 SESTEK Ses velletisim Bilgisayar Tekn. San. Ve Tic A.S. Method for speaker diarization
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN109545229B (zh) * 2019-01-11 2023-04-21 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) * 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN111554294A (zh) * 2020-04-23 2020-08-18 苏州大学 基于语音识别的智能垃圾分类方法
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Also Published As

Publication number Publication date
JP3926858B2 (ja) 2007-06-06
US5598507A (en) 1997-01-28

Similar Documents

Publication Publication Date Title
JP3926858B2 (ja) スピーカーデータのクラスタリング方法
US5659662A (en) Unsupervised speaker clustering for automatic speaker indexing of recorded audio data
US5655058A (en) Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5606643A (en) Real-time audio recording system for automatic speaker indexing
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
Wilcox et al. Training and search algorithms for an interactive wordspotting system
Friedland et al. The ICSI RT-09 speaker diarization system
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
Priya et al. Implementation of phonetic level speech recognition in Kannada using HTK
Ney et al. An overview of the Philips research system for large vocabulary continuous speech recognition
Chen et al. Speaker and expression factorization for audiobook data: Expressiveness and transplantation
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
Austin et al. Continuous speech recognition using segmental neural nets
Young Acoustic modelling for large vocabulary continuous speech recognition
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2000122689A (ja) 話者適応化装置及び音声認識装置
Kenai et al. Speaker diarization and detection system using a priori speaker information
Li Combination and generation of parallel feature streams for improved speech recognition
Kim et al. On estimating robust probability distribution in HMM-based speech recognition
Gereg et al. Semi-automatic processing and annotation of meeting audio recordings
JP4839555B2 (ja) 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050614

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050913

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060711

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140309

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term