JP3745403B2 - オーディオデータセグメントのクラスタリング方法 - Google Patents

オーディオデータセグメントのクラスタリング方法 Download PDF

Info

Publication number
JP3745403B2
JP3745403B2 JP08289795A JP8289795A JP3745403B2 JP 3745403 B2 JP3745403 B2 JP 3745403B2 JP 08289795 A JP08289795 A JP 08289795A JP 8289795 A JP8289795 A JP 8289795A JP 3745403 B2 JP3745403 B2 JP 3745403B2
Authority
JP
Japan
Prior art keywords
speaker
audio
speakers
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08289795A
Other languages
English (en)
Other versions
JPH07287592A (ja
Inventor
ディー.ウィルコックス リン
ジー.キンバー ドナルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07287592A publication Critical patent/JPH07287592A/ja
Application granted granted Critical
Publication of JP3745403B2 publication Critical patent/JP3745403B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
【産業上の利用分野】
本発明は会話記録データにおける未知のスピーカー(話す人)の初期クラスリングの改良された方法に関する。
【0002】
より詳細には、本発明はオーディオ記録データにおける未知のスピーカーのクラスタリングでの尤度(likelihood)算出の際の距離再計算の方法に関する。
【0003】
【従来の技術】
オーディオおよびビデオ記録は、コンシューマグレード(消費者レベル)の記録装置の発展によって今や一般のものとなっている。後の再生のための過去の記録としてビジネスミーティング、講義、もしくはバースデーパーティーが記録されることは今や稀なことではない。不幸にして、オーディオおよびビデオ媒体の両者は、所望の記録部分にアクセスする際のアシストとなる外部またはオーディオ情報をほとんど与えない。書籍においては、巻頭の目次および巻末の索引によってインデックス化が与えられ、このインデックス化によって読者は複数の著者の確認および複数の著者の参照を容易に行うことが可能である。同様のインデックス化方法がオーディオストリームにおいて有用であり、ユーザーは特定のスピーカーの会話部分を確認することが可能となる。ほとんどのビデオ記録に関連する限られたデータ量は、見る者が確実におよび容易に所望の関心部分にアクセスするための充分な情報を与えない。このため見る者は記録内容を順に調べて所望の情報を検索しなければならない。
【0004】
例えばスピーカー(話し手)やトピック(主題)を示すノートのような、記録中に取られたノートが検索の補助となることが可能である。このようなノートは構造的アウトラインを与えるが、ビデオ媒体とノート媒体との間には直接的な相関がないため、ノートの内容を共にしたビデオ上の時刻の補完を強いられる。このことは、非相関媒体におけるイベントノートは通常イベントの継続時間を含まないという事実によって複雑化する。加えて、そのようなノート化またはインデックス化は非常に煩わしい。コンピュータシステムがイベント期間中のノート取得に使用されることが可能であり、該システムは同時に記録されるかまたは事前に記録される。キーボードを使用するテキストベースシステムがこの場合に使用されることが可能であるが、ほとんどの人はタイプするよりもかなり速く話すため、内容を記述するコンピュータ生成テキストラベルをリアルタイムで作成することは相当な努力を必要とする。
【0005】
【発明が解決しようとする課題】
オーディオストリームにおいて異なるスピーカーを示すスピーカーチェンジマーカーは、異なるシーケンシャルデータへのランダムアクセスを可能とする。リアルタイム設定においては、そのようなオーディオセグメンテーションは、記録が行われている時にその記録の中へ有用なインデックスを作成する際の補助となり得る。各セグメントは1個人による発声を表す。同一のスピーカーによる発声は結合され、また同様に参照されてインデックスが形成される。会話におけるポーズまたは沈黙期間もまたオーディオインデックス形成において重要である。
【0006】
オーディオストリーム内にインデックスを作成することは、リアルタイムであっても処理後であっても、ユーザーが特定のオーディオデータセグメントを認識することを可能にする。例えばこのことは、ユーザーが記録を拾い読みして特定のスピーカーに対応するオーディオセグメントを選択したり、次のスピーカーへ記録を早送りすることを可能にする。加えて、スピーカーの順序を知ることは、会話または会話の内容に関する内容情報を与えることも可能である。
【0007】
【課題を解決するための手段】
隠れマルコフモデル(HMM)が使用されて個々のスピーカーがモデル化されることが可能である。スピーカーモデル(複数)は、ガウシアン出力分布を伴う多重状態HMM(複数)と1つのtied silenceモデル(結合された無音モデル)とから成る。スピーカーが知られておりトレーニングデータが使用可能である場合、そのようなHMMはBaum-Welchプロシジャーを使用して最初にトレーニングされることが可能である。これとは別に、音声波形の初期セグメンテーションに対して尤度距離を使用する集塊性の階層的クラスタリングの方法を最初に実行し、初期セグメンテーションを使用して個々のスピーカーHMMをトレーニングすることによって個々のHMMは初期化されることが可能である。次にスピーカーHMMは以下に述べるように繰り返し再トレーニングされることが可能である。
【0008】
HMMのネットワークが形成され、多数のスピーカーを含む音声がモデル化される。HMMネットワークを使用し、ネットワークを介する最も確からしい状態シーケンスに基づきオーディオストリームがセグメンテーションされる。このセグメンテーションはリアルタイムで行われることが可能であり、オーディオストリームが形成され記録されている時であってもセグメント情報はオーディオストリームと相関がとられて該ストリームと共に保存される。記録後の動作においては、続いてモデルの再トレーニングとオーディオストリームの再セグメンテーションが行われることが可能であり、再トレーニングされたモデルからセグメンテーションで変化が生じる間、繰り返し処理が続けられる。
【0009】
セグメンテーションが完了される場合、オーディオストリームはオーディオインデックスを伴ない、オーディオストリームは個々人に従う発声に分離される。電話の呼び出し音のような非音声音もまた検出されてセグメンテーションされることが可能である。
【0010】
本発明は、スピーカーに従うオーディオ記録におけるオーディオデータセグメントの流動的クラスタリングの方法を開示する。該方法は、オーディオデータをクラスタに分割し、各クラスタペアに対してクラスタ間距離を算出するステップと、最小クラスタ間距離を有する2つのクラスタを結合するステップとを含む。繰り返し処理が行われ、該処理においては全てのクラスタに対する距離が再計算され、最小クラスタ間距離を有する2つのクラスタが結合される。繰り返し処理は、所望のスピーカー数に対するクラスタが得られるまで行われる。
【0011】
このようにして得られたクラスタが使用されて個々のHMMスピーカーモデルがトレーニングされることが可能である。これらスピーカーモデルは次に並列に結合されてスピーカーネットワークHMMを形成する。スピーカーネットワークHMMが使用され、スピーカーネットワークを介する最適パスを見出すことによってスピーカーに従うオーディオデータのセグメンテーションが決定されることが可能である。
【0012】
本発明はまた、オーディオ記録データに対してスピーカーに従う電子インデックスを相関付けるプロセッサ制御によるシステムを開示する。該システムは複数の個々のスピーカーからの音声を与えるオーディオソースを含み、オーディオソースはオーディオプロセッサによって処理されてスペクトル特徴データとなる。システムプロセッサはスペクトル特徴データをオーディオプロセッサから受信し、尤度比に基づき推定スピーカーモデルを生成する。該スピーカーモデルのデータセグメントは同一のスピーカーによって発生されたものであり、該スピーカーモデルが並列に結合されてスピーカーネットワークが形成される。スピーカーネットワークはシステムプロセッサによって使用され、異なる個々のスピーカーモデルに対応するオーディオデータセグメントが決定される。
【0013】
システムプロセッサは同一スピーカーに対応するオーディオデータセグメントを収集してスピーカーモデルを維持することが可能である。新たなスピーカーネットワークがシステムプロセッサによって決定されてオーディオデータが再セグメンテーションされる。
【0014】
【実施例】
図1は一般化されたオーディオ処理システム10のブロック図を示し、該システムにおいて本発明が実施されることが可能である。一般に、オーディオストリームはオーディオデータソース12から与えられ、該データは、会話を行うスピーカー、オーディオトラックを伴う記録ビデオ、または他のオーディオソースによって与えられることが可能である。オーディオデータはオーディオプロセッサ14へ送られ、オーディオプロセッサは汎用コンピュータのような任意の公知デバイスであることが可能であり、本発明に従って構成されることが可能である。オーディオプロセッサはオーディオデータインデックス16を出力する。
【0015】
図2はオーディオインデックスシステムの一般化されたフロー図を示す。図2に示されるステップは以下により詳細に説明されるが、図2は本発明により記述される方法の概観を与えるものである。
【0016】
オーディオ波形20はボックス22のステップにおける入力である。ボックス22におけるオーディオストリームは、処理されるべきオーディオの部分を含むことが可能であるが、オーディオストリーム内の全てのスピーカーからの音声を含まなければならない。説明を目的として、オーディオストリーム全体がボックス22のステップにおける入力である。ボックス24のステップは音声信号データをスペクトル特徴ベクトルへ変換する。例えば、12次のケプストラムが20msごとに算出されることが可能である。
【0017】
オーディオデータクラスタの初期化はボックス26のステップで行われ、この初期化は、集塊性の階層的クラスタリングを使用してデータを初期パーティションへクラスタリングすることを含む。所望のスピーカークラスタ数が得られるまで、集塊性のクラスタ間距離が再計算され、最近接クラスタが併合される。
【0018】
ボックス28のステップにおいて、HMMスピーカーモデルは初期クラスタリングデータに基づき各スピーカーに対してトレーニングされる。複数の個々のスピーカーモデルは、該モデルを並列に結合することによってボックス30のステップにおいて結合され、会話のHMMスピーカーネットワークが形成される。
【0019】
ボックス32のステップはHMMスピーカーネットワークを使用し、入力されるオーディオストリームのセグメンテーションを行う。セグメンテーションはビタビ(Viterbi) デコーディングを使用して行われ、スピーカーネットワークを介する最も確からしい状態シーケンスが見出され、状態パスがスピーカーを変更する場合にはマーキングが施される。
【0020】
セグメンテーションとインデックス化の確度は、ボックス28のステップに戻ってスピーカーモデルを再トレーニングすることによる後処理の適用で改善されることが可能であり、この場合ボックス32のステップからのセグメンテーション情報が使用される。再トレーニングと再セグメンテーションの繰り返しは、ボックス32のステップでのセグメンテーションで大きな変化が生じなくなるまで続けられることが可能である。オーディオセグメントとスピーカーを示す、結果として得られるインデックスは、ボックス34のステップにおける出力となる。
【0021】
隠れマルコフモデル(HMM)によるモデル化は音声認識で一般的に使用される統計的方法であり、ワード全体、もしくは単音のようなサブワードがモデル化される。未知の発声の認識は、その発声が最も確からしく与えられるモデルもしくはモデルのシーケンスを見出すことに基づいている。HMMはスピーカーの識別においても使用されることが可能である。モデルはスピーカーの発音に対して作成され、その場合発音は特定のワードについてのものであっても自然な音声についてのものであってもよい。スピーカーの識別は、未知の発声が最も確からしく与えられるスピーカーモデルを見出すことによって行われる。未知の発声が複数のスピーカーからの音声を含む場合、スピーカーは最も確からしいスピーカーモデルのシーケンスを見出すことによって識別される。
【0022】
理論的に、HMMは状態のシーケンスから成り、該状態シーケンスは定められた時間間隔で状態間に発生する遷移を伴う。ある状態への遷移が行われるたびに、その状態の出力特性が発生される。音声認識およびスピーカー識別の両者において、これらの出力はその時間間隔に対する音声のスペクトル推定を表す。例えばケプストラムがその例である。ケプストラムはスペクトルエンベロープ(包絡線)の推定であり、音声認識およびスピーカー識別で一般に使用される。ケプストラムは、スペクトルの対数のフーリエ逆変換であり、スペクトルエンベロープと周期的音声ソースとを分離するよう作用する。
【0023】
状態間の遷移は出力のシーケンスを特定する。状態間遷移および各状態出力に確率を関連付けることによって、HMMが使用されて音声を統計的にモデル化することが可能となる。システムの出力のみが観測されるため「隠れ(hidden) 」という言葉が用いられる。即ち、基礎となる状態シーケンスは推定され得るのみである。
【0024】
より形式的には、HMM L は、S0...SN-1 のN個の状態、状態iから状態jへの遷移確率aij,i=0...N-1,j=0...N-1、ならびに状態iで出力xを生じる確率を与える確率分布bi (x) ,i=0...N-1、から成る。例えば、bi (x) は特徴ベクトル xに対する多変数ガウス分布であることが可能である。加えて、遷移可能であるが出力を発生しないヌル状態が存在する。図3は5状態のHMMを示す。状態S0 から状態S1 、S2 またはS3 への遷移確率は画一的であり、即ち、a0j=1/3,j=1,2,3である。状態Si ,i=1,2,3については、自己遷移および状態
4 への遷移が存在し、それらは等確率である。従ってaii=1/2およびai4=1/2,i=1,2,3である。状態S4 については遷移は常にS0 へ行われ、従ってa40=1である。状態S1 、S2 、およびS3 に関連する出力分布は、それぞれb1 (x) 、b2 (x) 、およびb3 (x) である。状態S0 およびS4 はヌル状態であり、従って関連する出力を有さない。状態S0 とS4 を結合することによって等価なHMMが形成されることが可能である。しかし、HMMを結合してより大きなHMMネットワークを形成するタスクを簡素化するために、このことは行われない。これについては以下に説明が行われる。HMMに関するより深い検討は、Rabiner による「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」(Proc.IEEE,vol.77,No.2,February,1989,pp.257-285)に見出される。
【0025】
対象物のシーケンスをモデル化するネットワークHMMは、以下のように個々のHMMを並列に結合することにより作成される。認識される個の対象物の各々に対するHMMをLi ,i=1,...,Mとする。先に述べたように、対象物は単語、単音、またはスピーカーのいづれであってもよい。ネットワークHMMは、許容される全ての対象物シーケンスに対して対象物HMM間の遷移を付加することにより作成される。図4において、HMM L1 、L2 、およびL3 によって3つの対象物がモデル化されている。これら対象物は、遷移により示されるように任意の順序で発生可能である。状態S0 はヌル状態であり、従って出力を発生しない。S0 からは、対象物HMM L1 、L2 、およびL3 への遷移は等確率となる。全ての対象物HMMからの遷移は状態SR に向かい、次に状態S0 への遷移となる。
【0026】
T個の出力X=x1...xT のシーケンスが与えられる場合、どの対象物HMMシーケンスが最も確からしく出力シーケンスXを発生したかを決定することにより認識が実行される。これにはビタビアルゴリズムが使用され、最も確からしく出力Xを発生したネットワークを介する状態シーケンスが見出される。シーケンス内の各状態は、認識される対象物の内の1つのHMMに対して特定されるため、最も確からしい状態シーケンスは認識対象物のシーケンスを特定する。図5はビタビアルゴリズムの結果を概略的に示す。x軸は時間を示し、y軸はネットワークHMM内の現行状態を示す。HMM L1 、L2 、およびL3 に対応する状態はy軸上の領域によって示される。与えられた出力を結果としてもたらし得る状態シーケンスが多数存在可能であるが、ビタビアルゴリズムは最も確からしい状態シーケンスを見出す。図5はビタビパスを示す。時刻t0 において最も確からしい対象物はL1 である。時刻t1 において対象物はL2 であり、t2 においてはL3 である。時刻t3 において最も確からしい対象物はL1 となる。
【0027】
HMMに対するパラメータは、次に、遷移確率aijおよび出力確率bi (x) である。これらパラメータは、HMMによってモデル化された対象物によって既に発生されたことがわかっている出力Xを用いてHMMをトレーニングすることにより学習されることが可能である。Baum-Welchプロシジャーとして知られているアルゴリズムが一般に使用される。このアルゴリズムは、トレーニングデータXの尤度を最大にするパラメータ値を繰り返し処理により見出すアルゴリズムである。該アルゴリズムは、パラメータの初期推定から開始する。続いて以下のステップが実行される。(1)トレーニングデータに基づき、状態間遷移確率および状態からの出力確率を算出する。(2)これらの確率を使用し、遷移確率aijおよび出力確率bi (x) の推定値を算出する。ステップ(1)および(2)は収束が得られるまで繰り返される。
【0028】
前述のように、隠れマルコフモデルが使用されてスピーカー識別を目的として個々のスピーカーがモデル化されることが可能である。図6に示されるように、(特定の発声に対向する)個々の発声スタイルが35状態HMM60を使用してモデル化されることが可能である。状態S0 はヌル状態であり、出力を発生する状態S1,...,S32およびSSIL への遷移を伴う。これらの遷移確率はp1,...,p32およびpSIL により与えられる。これら出力発生状態の各々は、確率qi を伴う自己遷移、ならびに確率1−qi を伴う最終ヌル状態S34への遷移を有している。ヌル状態S34は確率1で初期ヌル状態S0 へ遷移する。各非ヌル状態はガウシアン出力分布を有しており、平均ベクトルおよび対角共分散マトリックスにより特性付けられる。
【0029】
図7はサイレンス(無音)サブネットワークを示す。該サブネットワークは直列に接続された3状態から成る。各状態は、通常もしくは結合されたガウシアン出力分布を有し、該分布はラベルSILで示されている。この出力分布はまた、スピーカーモデル60のサイレンス状態62における出力分布と同一であり、該分布は状態ラベルSILで示されている。サイレンスサブネットワークは長時間間隔の無音状態をモデル化するが、会話の発声におけるポーズや短時間間隔の無音状態に対しては適切でない。これらポーズや短時間間隔の無音状態は、個々のスピーカーモデルにおけるサイレンス状態62によってモデル化される。スピーカーHMMのサイレンス状態における出力分布は全て結合されてサイレンスサブネットワークにおける出力分布となる。
【0030】
スピーカーHMMの各々は、与えられたスピーカーの発声スタイルに対してトレーニングされなければならない。このトレーニングは先に述べたBaum-Welchアルゴリズムを使用して行われ、遷移確率aij、およびガウシアン出力確率bi (x) に対する平均および対角共分散が推定される。HMMパラメータの初期推定値は次のように得られる。全ての遷移確率が画一的に設定され、この結果、与えられた状態からの全ての遷移は等確率となる。ガウシアン出力分布を初期化するために、スピーカーに対するトレーニングデータから全体平均および対角共分散マトリックスが算出される。全ての状態に対するガウシアン出力分布についての共分散マトリックスが全体的共分散マトリックスに設定される。全体平均に小さな定数を加えることによって平均が設定され、その場合該定数は異なる各状態に対するランダム要素に対して加えられる。Baum-Welch繰り返し処理がスピーカーのトレーニングデータを用いて次に実行される。
【0031】
認識されるスピーカーが事前にわかっている場合、Baum-Welchアルゴリズムに対するトレーニングデータは、30秒から1分の各スピーカーに対する音声データを使用して得られる。音声はスピーカーの通常の発声スタイルを表さなければならないが、この場合使用される実際の単語は重要でない。
【0032】
スピーカーおよびサイレンスサブネットワークに加えて、ガーベッジ(garbage)サブネットワークが頻繁に使用され、スピーカーモデルまたは存在可能な非音声音の内の1つによって特定されない任意のスピーカーがモデル化される。ガーベッジネットワークの形態は、図6に示されるスピーカーネットワークのそれと同じである。しかし、アプリケーションに依存してガーベッジネットワークは異なるデータを使用してトレーニングされる。例えば、ガーベッジサブネットワークが使用されて非音声音がモデル化される場合、それはスピーカーモデルとしてトレーニングされなければならないが、この場合非音声データが使用される。システムに対して未知のスピーカーをモデル化する場合、トレーニングデータを得る1つの方法は、既知の各スピーカーからの音声の部分を使用することである。
【0033】
ガーベッジモデルをトレーニングする際に全てのスピーカーからの全てのデータが必ずしも使用されないことは重要である。全ての有効なデータを使用することは、各スピーカーモデルに対してよりもガーベッジモデルに対してより多くのトレーニングデータを与え、全てのスピーカーに対してより確実なスピーカーモデルを作成する効果を有する。従って、結果として得られるHMMネットワークはほとんどの音声をガーベッジとして分類する。
【0034】
1実施例において、入力オーディオトレーニングデータは8KHzでサンプルされ、10msごとに特徴ベクトルが算出される。例えば、各フレームに対する特徴ベクトルは、25msウィンドウ下のサンプルに関する20次の線型予測符号化(LPC)を行うことによって算出されることが可能であり、従ってLPCスペクトルから20個のケプストラム定数が算出されることが可能である。
【0035】
いくつかの場合においては、認識されるスピーカーは事前にわかっていない。しかし、スピーカーモデルに対する初期推定を得ることがそのような場合にも必要である。この初期推定は、階層的な集塊性のクラスタリングを使用して行われ、異なるスピーカーとして認識されるデータのラフな区分が作成される。
【0036】
スピーカーに従うデータの区分を与えることによってスピーカーサブネットワークの初期推定を得るために、階層的な集塊性のクラスタリングが使用されることが可能である。このデータは次にスピーカーHMMのBaum-Welchトレーニングに対するトレーニングデータとして使用されることが可能である。
【0037】
セグメンテーションされていないデータは、最初に等しい長さのセグメントに分割され、各セグメントは数秒の音声から成る。これらのセグメントは階層的クラスタリングに対する初期クラスタ集合として使用される。該アルゴリズムは、最初に全てのクラスタペアについてのクラスタ間距離を算出し、次に最も近い2つのクラスタを併合することによって進行する。このプロセスは所望のスピーカークラスタ数が得られるまで繰り返される。このプロセスが図8に概略的に示されている。スピーカー数が未知の場合、このアルゴリズムが使用されてスピーカー数が推定されることが可能である。その場合、最近接クラスタの併合は、最近接クラスタ間距離が定められたスレショルドを越えるまで継続する。スレショルドを越えるとクラスタリングは中止され、その時のクラスタ数がスピーカー数の推定値として使用される。
【0038】
図8は、スピーカーでラベル付けされているインターバル集合上の階層的クラスタリング100を概略的に示す。オリジナルインターバル102は、C、L、およびTで3つのスピーカーに対してラベル付けされたツリーのリーフによって示される。そのような全てのインターバルについてのインターバル間距離が算出され、104に示されるように最も近接する2つのインターバルが併合される。
【0039】
この最近接クラスタ併合プロセスは、所望のクラスタ数が形成されるまで繰り返される。3つのクラスタに対し、それらクラスタに対応する3つの分岐が示されている。第1のクラスタ106はほとんどスピーカーCからのインターバルを含み、第2のクラスタ108はほとんどスピーカーLからのインターバルを含み、第3のクラスタ110はほとんどスピーカーTからのインターバルを含む。
【0040】
スピーカー数が未知の場合、距離に対するスレショルドが設定され、スレショルドが越えられた場合にクラスタの併合が中止される。このことは線112により概略的に示されており、該線は4つのクラスタを生成する。(クラスタ1は2つに分割されている。)
クラスタXが単一セグメントX=xかまたはセグメント集合X=x1,x2,... から成ると仮定する。クラスタXおよびY間の距離はd(X,Y)により表される。前述のシステムにおいて、セグメント間距離はガウシアン分布の仮定に基づき尤度比によって導出された。x=s1,...,sr はある1つのセグメント内のデータを表し、y=sr+1,...,sn はその他のセグメント内のデータを表し、z=s1,...,sn は合成セグメント内のデータを表すものとする。L(x,θx )はxシーケンスの尤度とし、ここでθx はガウシアン分布のパラメータに対する推定値である。同様にL(y,θy )はyシーケンスの尤度とし、L(z,θz )は合成シーケンスzの尤度とする。λは尤度比を表すとすると、次式のように表される。
【0041】
【数1】
Figure 0003745403
【0042】
クラスタリングの際に使用される距離計量は−log(λ)である。
音声データは単一のガウシアン分布では充分にモデル化されないため、尤度比はガウシアン分布の混成結合に拡張される。セグメンテーションされていないデータが最初に使用され、M個のガウシアン分布の混成に対する平均および共分散マトリックスが推定される。次にこれらは残りの解析により確定される。
i ( s)=N(s:Mi , σi )はi番目の混成要素に関連するガウシアン分布とし、gi (x)はデータシーケンスxを使用して推定されたi番目の混成要素に対する重みとする。gi (x)はNi ( s)が最大となるx内のサンプルの割合である。従ってxシーケンスの尤度は次式のように表される。
【0043】
【数2】
Figure 0003745403
【0044】
ここでθx =(g1 (x),..., gM (x))である。尤度L(y,θy )も同様に算出される。合成シーケンスに対する尤度L(z,θz )の算出において、混成要素に対する重みgi (z)として次式を得る。
【0045】
【数3】
Figure 0003745403
【0046】
クラスタリングに対する距離計量、dL =−log(λL )は従って式(1)を使用して算出されることが可能である。
【0047】
本発明のクラスタリングプロシジャーは、クラスタを含むインターバルにおけるインターバル間距離の最大、最小、もしくは平均を使用するよりもむしろ式(1)を使用して集塊性のクラスタ間距離を再計算する点において、通常の階層的クラスタリングと異なっている。従って式(2)および(3)により与えられる尤度の計算効率が重要となる。これはクラスタリングレベルの各々において距離が再計算されるためである。
【0048】
加えて、スピーカーチェンジの事前確率はM個のスピーカーを伴うマルコフデュレーションモデルを使用して算出されることが可能である。Si はセグメントiの期間中のスピーカーを表し、Mはスピーカー数を表すとする。Si は、各スピーカーaに対してPr 〔Si+1 =a|Si =a〕=p、および各スピーカーaおよびb(aに等しくない)に対してPr 〔Si+1 =b|Si =a〕=(1−p)/(M−1)を伴うマルコフ連鎖であると仮定する。セグメントiに対するスピーカーがセグメントi+nに対しても発声する確率Pr 〔Si+n =Si 〕は、2状態マルコフ連鎖を使用して算出されることが可能であり、その場合連鎖の状態1は時刻iにおけるスピーカーを表し、状態2は他の全てのスピーカーを表す。この連鎖に対する遷移確率マトリックスPは次式のように表される。
【0049】
【数4】
Figure 0003745403
【0050】
このマトリックスに関し、Pr 〔Si+n =Si 〕=(Pn 11である。Pを対角化することにより、Pr 〔Si+n =Si 〕は次式のようによりクローズした形態で表されることが可能である。
【0051】
【数5】
Figure 0003745403
【0052】
この式を使用して、2つの与えられたクラスタが同一のスピーカーまたは2つの異なるスピーカーによって生成される事前確率を算出することが可能である。Cをスピーカーチェンジが発生するインターバル数とし、ni をi番目のインターバル長とすると、デュレーションバイアスは次式のように定義される。
【0053】
【数6】
Figure 0003745403
【0054】
デュレーションバイアスされた距離はdD (X,Y)=−log(λL )−log(λD )として定義される。
【0055】
図9に示されるスピーカーセグメンテーションネットワーク120は、各スピーカーに対するサブネットワーク60と、サイレンスおよびガーベッジに対するオプショナルなサブネットワーク64および122とから成る。ガーベッジは、オーディオ中の未知のスピーカーまたは非音声音のような、スピーカーまたはサイレンスモデルによってモデル化されない音声または音として定義される。スピーカー、ガーベッジ、およびサイレンスサブネットワークは以下に述べるように得られる。ネットワークモデルは、2またはそれ以上のスピーカーによるバックグランドノイズを伴う会話をモデル化する。
【0056】
ネットワーク60のような個々のスピーカーサブネットワークは互いに並列に結合され、各サブネットワークから外部への遷移確率は小さいペナルティ定数εに固定されて、孤立サンプルに基づくスピーカーチェンジが抑制される。各スピーカーサブネットワーク60はL個の状態を伴うHMMから成り、それらHMMは並列に接続される。各状態は、ガウシアン出力分布、自己遷移、および他状態への遷移を有する。
【0057】
初期ヌル状態からスピーカー、ガーベッジ、およびサイレンスサブネットワークへの遷移確率は画一的である。スピーカー、ガーベッジ、およびサイレンスモデルから外部への遷移確率ペナルティは定数εに設定される。原理的に、これら遷移確率はスピーカーに依存し、トレーニング期間中に学習される。しかし、簡素化を目的として、スピーカーの事前確率は画一値に仮定され、スピーカーを離れる確率εは経験的に選択されて孤立サンプルに基づくスピーカーチェンジが抑制される。
【0058】
実際には、この遷移確率は著しく小さい。(10-20 のオーダーである。)従って各スピーカーモデルから外部への遷移は、スピーカーからスピーカーへの切替にペナルティを与えるよう作用する。
【0059】
スピーカー間の会話をインデックス化することは単に、観測された特徴ベクトルに関する与えられたシーケンスであるネットワークモデルを介する最も確からしい状態シーケンスを見出すことである。スピーカーサブネットワークが初期化された後、スピーカーセグメンテーションネットワークを介する最も確からしい状態シーケンスを見出すことによりスピーカーセグメンテーションが実行され、状態パスがスピーカーを変更する時点でマーキングが施される。最適な状態が1つのスピーカーモデルから他のスピーカーモデルへ切り替わる場合にスピーカーチェンジが発生する。最適な状態シーケンスを見出すことはビタビアルゴリズムを使用して達成される。セグメンテーションの確度は、セグメンテーションされたデータを使用してスピーカーサブネットワークを再トレーニングすることによって改善されることが可能である。このセグメンテーションおよび再トレーニングのプロセスは、セグメンテーションにおいて変化が生じなくなるまで繰り返される。
【0060】
確度の改善のために、音声のセグメンテーションが繰り返し実行され、各セグメンテーションの後にスピーカーモデルが再トレーニングされる。このことはセグメンテーションの確度を向上させ、特にスピーカートレーニングデータが適用不可能な場合に有効である。
【0061】
繰り返し再セグメンテーションアルゴリズムが図10に示される。最初に、トレーニングデータ集合がボックス130のステップで与えられ、ボックス132のステップでスピーカーモデルがトレーニングされる。このデータは、既知のスピーカーからのトレーニングデータであるかまたは階層的クラスタリングを使用して区分されたデータであることが可能である。次にボックス134のステップでこれらスピーカーモデルに基づきセグメンテーションが実行される。ボックス134のステップでのセグメンテーションが大きく変化する場合、この改善されたセグメンテーションはスピーカーに対する新たなトレーニングデータとして使用され、ボックス132のステップでスピーカーモデルが再トレーニングされる。このプロセスはボックス136のステップでセグメンテーションが変化しなくなるまで続けられる。
【0062】
図11は、オーディオ記録データのスピーカーに従うインデックスを作成および記憶する、システム190における本発明の1実施例を示す。オーディオ記録入力191はオーディオプロセッサ192によってスペクトル特徴データへ処理され、システムプロセッサ194へ与えられる。スペクトル特徴データは、システムプロセッサ194による後の繰り返し処理のためにメモリ197に記憶されることが可能である。
【0063】
オーディオプロセッサ192によってシステムプロセッサ194へ与えられるスペクトルデータは、最初にセグメンテーションおよびクラスタリングされ、初期スピーカーモデルをトレーニングしてスピーカーネットワークを作成するためのデータが与えられる。スペクトルデータはシステムプロセッサ194によって再び処理される。スペクトルデータは、システムプロセッサ194によって作成されたスピーカーネットワークを使用してシステムプロセッサ194によって処理される。オーディオストリームにおいて新たなセグメントの各々が検出されると、システムプロセッサ194はタイムソース193からタイムスタンプを得る。タイムスタンプは、オーディオ入力191の記録からのオーディオデータに関する記録アドレスもしくは記憶時間を示す。タイムソース193は、例えば、記録が開始される時に始動する時計であることが可能であり、もしくは、記憶媒体に接続された記録デバイスから時間を記録するデバイスであることが可能である。このタイムスタンプは、セグメントの作成者の識別子と共にメモリ195に記憶され、後にスピーカーに従うインデックスへ収集される。
【0064】
図12は、スピーカーが事前にわかっていない場合にオーディオストリームのインデックスを決定する前述の方法に関するアプリケーションを記述するものである。ボックス200のステップは処理されるオーディオデータを選択する。先に述べたように、このステップで使用されるオーディオは、処理されるオーディオストリーム内の少なくとも全てのスピーカーからの音声を有する部分を含むことが可能であるが、オーディオストリーム全体に関して議論を進めることとする。ボックス202のステップにおいて、オーディオストリームはセグメントに分解され、このセグメントは通常等しく短い長さである。これら初期セグメントは初期クラスタとして後のステップで使用される。
ボックス206のステップは各クラスタについてクラスタ間距離を算出し、ボックス208のステップは最小距離を有する2つのクラスタを併合する。ボックス210のステップにおいて所望数よりも多くのクラスタが存在する場合、ボックス206のステップにおいて新たなクラスタ間距離が算出され、ボックス210のステップにおいて2つの最近接クラスタが再び併合される。この処理は所望のクラスタ数が残るまで繰り返される。所望のクラスタ数は、クラスタ間のトータル距離制限かもしくは集合数に基づくことが可能である。例えば、オーディオセグメント内のスピーカー総数は、トレーニングデータが使用不可能な場合であっても知られていることが可能である。そのような数の初期クラスタが決定されるまで併合を行うようシステムが設定されることが可能である。
【0065】
初期クラスタリングが完了すると、ボックス212のステップは個々のスピーカーモデルHMMのトレーニングを行う。これら個々のモデルはボックス214のステップにおいて並列に結合され、スピーカーを離れることに対するペナルティが付与される。サイレンスおよびガーベッジモデルがボックス212のステップで発生されておらず、ネットワークに付加されていない場合、それらはボックス216のステップで付加されることが可能である。ボックス218のステップにおいて、オーディオストリームはスピーカーセグメンテーションネットワークを使用してセグメントに分割される。ボックス220のステップにおいて、セグメントは各セグメントに対するスピーカーの識別子によりマーキングされる。
【0066】
ボックス222のステップは前の繰り返し処理においてセグメンテーションが大きく変化したかどうかをチェックする。もしそうである場合、ボックス212のステップにおいてモデルが再トレーニングされ、改良されたモデルを用いてセグメンテーションの繰り返し処理が実行される。再トレーニングの結果として大きな変化が生じない場合、繰り返し処理は完了し、個々のモデルによって同様にマーキングされたセグメントを収集することによって記録に対するインデックスが作成される。
【0067】
スピーカーに従うオーディオデータセグメントのクラスタリングの方法が、オーディオデータに関するスピーカーインデックス化のためのスピーカーネットワークへの入力に対する多くの実施例に関連して本文中に記述されてきたが、それらの修正、変形、および拡張を伴う他のアプリケーション、実施、修正、変形、および拡張は本発明の範囲である。
【0068】
【発明の効果】
以上説明したように、本発明の方法によれば、オーディオストリーム内にインデックスを作成することが可能となり、リアルタイムであっても処理後であっても、ユーザーが特定のスピーカーに関連するオーディオデータセグメントを認識することが可能となる。
【図面の簡単な説明】
【図1】本発明が実施されることが可能である一般化されたオーディオ処理システムのブロック図である。
【図2】オーディオインデックスシステムの一般化されたフロー図である。
【図3】5状態隠れマルコフモデル(HMM)を示す図である。
【図4】HMMによってモデル化される3つの対象物のHMMネットワークを示す図である。
【図5】ビタビアルゴリズムの結果を概略的に示す図である。
【図6】個々のスピーカーの発声スタイルをモデル化する35状態HMMを示す図である。
【図7】サイレンスサブネットワークを示す図である。
【図8】スピーカーでラベル付けされたインターバル集合上の階層的クラスタリングを概略的に示す図である。
【図9】各スピーカーに対するサブネットワークと、サイレンスおよびガーベッジに対するオプショナルなサブネットワークとから成るスピーカーセグメンテーションネットワークを示す図である。
【図10】繰り返し再セグメンテーションアルゴリズムを概略的に示す図である。
【図11】オーディオ記録データのスピーカーに従うインデックスを作成および記憶するシステムにおける本発明の1実施例を示す図である。
【図12】スピーカーが未知の場合にオーディオストリームのインデックスを決定する本発明に従う方法を示す図である。
【符号の説明】
12 オーディオデータソース
14 オーディオプロセッサ
16 オーディオデータインデックス
60 35状態HMM
120 スピーカーセグメンテーションネットワーク

Claims (1)

  1. 知られた数の複数のスピーカーからの音声を有するオーディオデータ記録において各スピーカーのインデックスを作成するためのオーディオデータ記録におけるオーディオデータセグメントクラスタリングの方法であって、
    a)前記オーディオデータ内の少なくとも全てのスピーカーからの音声を有する前記オーディオデータの部分を与えるステップと、
    b)前記オーディオデータの部分をデータクラスタへ分割するステップと、
    c)各クラスタペアのクラスタ間距離を算出するステップと、
    d)最小クラスタ間距離を有する2つのクラスタを結合して新たなクラスタとするステップと、
    e)クラスタの結合によってクラスタの数が前記知られたスピーカー数となるまで前記ステップb)、c)、およびd)を繰り返すステップと、
    を含む、オーディオデータセグメントのクラスタリング方法。
JP08289795A 1994-04-12 1995-04-07 オーディオデータセグメントのクラスタリング方法 Expired - Fee Related JP3745403B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US22652594A 1994-04-12 1994-04-12
US226525 1994-04-12

Publications (2)

Publication Number Publication Date
JPH07287592A JPH07287592A (ja) 1995-10-31
JP3745403B2 true JP3745403B2 (ja) 2006-02-15

Family

ID=22849267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08289795A Expired - Fee Related JP3745403B2 (ja) 1994-04-12 1995-04-07 オーディオデータセグメントのクラスタリング方法

Country Status (2)

Country Link
US (1) US5659662A (ja)
JP (1) JP3745403B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11404478B2 (en) * 2019-10-08 2022-08-02 SK Hynix Inc. Electronic device and method of manufacturing the same

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5864807A (en) * 1997-02-25 1999-01-26 Motorola, Inc. Method and apparatus for training a speaker recognition system
US5889523A (en) * 1997-11-25 1999-03-30 Fuji Xerox Co., Ltd. Method and apparatus for dynamically grouping a plurality of graphic objects
US6009392A (en) * 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6404925B1 (en) 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6345253B1 (en) 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US7739114B1 (en) 1999-06-30 2010-06-15 International Business Machines Corporation Methods and apparatus for tracking speakers in an audio stream
DE19933541C2 (de) 1999-07-16 2002-06-27 Infineon Technologies Ag Verfahren für ein digitales Lerngerät zur digitalen Aufzeichnung eines analogen Audio-Signals mit automatischer Indexierung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US6542869B1 (en) 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6748356B1 (en) 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
US7035807B1 (en) * 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7383509B2 (en) * 2002-09-13 2008-06-03 Fuji Xerox Co., Ltd. Automatic generation of multimedia presentation
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US6816834B2 (en) * 2002-10-23 2004-11-09 Jon Jaroker System and method for secure real-time high accuracy speech to text conversion of general quality speech
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US7231349B2 (en) * 2003-05-30 2007-06-12 Microsoft Corporation Method and apparatus for compressing asymmetric clustering language models
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
US7433820B2 (en) * 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
US7454337B1 (en) 2004-05-13 2008-11-18 The United States Of America As Represented By The Director, National Security Agency, The Method of modeling single data class from multi-class data
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
US7777125B2 (en) * 2004-11-19 2010-08-17 Microsoft Corporation Constructing a table of music similarity vectors from a music similarity graph
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US8902320B2 (en) 2005-01-31 2014-12-02 The Invention Science Fund I, Llc Shared image device synchronization or designation
US7920169B2 (en) 2005-01-31 2011-04-05 Invention Science Fund I, Llc Proximity of shared image devices
US9325781B2 (en) 2005-01-31 2016-04-26 Invention Science Fund I, Llc Audio sharing
US20060174203A1 (en) 2005-01-31 2006-08-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Viewfinder for shared image device
US8606383B2 (en) 2005-01-31 2013-12-10 The Invention Science Fund I, Llc Audio sharing
US9082456B2 (en) 2005-01-31 2015-07-14 The Invention Science Fund I Llc Shared image device designation
US20060170956A1 (en) 2005-01-31 2006-08-03 Jung Edward K Shared image devices
US20060221197A1 (en) * 2005-03-30 2006-10-05 Jung Edward K Image transformation estimator of an imaging device
US9910341B2 (en) 2005-01-31 2018-03-06 The Invention Science Fund I, Llc Shared image device designation
US7876357B2 (en) 2005-01-31 2011-01-25 The Invention Science Fund I, Llc Estimating shared image device operational capabilities or resources
US9124729B2 (en) 2005-01-31 2015-09-01 The Invention Science Fund I, Llc Shared image device synchronization or designation
US9489717B2 (en) 2005-01-31 2016-11-08 Invention Science Fund I, Llc Shared image device
US7872675B2 (en) 2005-06-02 2011-01-18 The Invention Science Fund I, Llc Saved-image management
US8253821B2 (en) 2005-10-31 2012-08-28 The Invention Science Fund I, Llc Degradation/preservation management of captured data
US9001215B2 (en) 2005-06-02 2015-04-07 The Invention Science Fund I, Llc Estimating shared image device operational capabilities or resources
US9967424B2 (en) 2005-06-02 2018-05-08 Invention Science Fund I, Llc Data storage usage protocol
US9451200B2 (en) 2005-06-02 2016-09-20 Invention Science Fund I, Llc Storage access technique for captured data
US9819490B2 (en) 2005-05-04 2017-11-14 Invention Science Fund I, Llc Regional proximity for shared image device(s)
US7782365B2 (en) 2005-06-02 2010-08-24 Searete Llc Enhanced video/still image correlation
US8072501B2 (en) * 2005-10-31 2011-12-06 The Invention Science Fund I, Llc Preservation and/or degradation of a video/audio data stream
US20070222865A1 (en) 2006-03-15 2007-09-27 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Enhanced video/still image correlation
US9621749B2 (en) 2005-06-02 2017-04-11 Invention Science Fund I, Llc Capturing selected image objects
US8964054B2 (en) 2006-08-18 2015-02-24 The Invention Science Fund I, Llc Capturing selected image objects
US9167195B2 (en) 2005-10-31 2015-10-20 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US8233042B2 (en) 2005-10-31 2012-07-31 The Invention Science Fund I, Llc Preservation and/or degradation of a video/audio data stream
US9076208B2 (en) 2006-02-28 2015-07-07 The Invention Science Fund I, Llc Imagery processing
US10003762B2 (en) 2005-04-26 2018-06-19 Invention Science Fund I, Llc Shared image devices
US9191611B2 (en) 2005-06-02 2015-11-17 Invention Science Fund I, Llc Conditional alteration of a saved image
US8681225B2 (en) 2005-06-02 2014-03-25 Royce A. Levien Storage access technique for captured data
US9942511B2 (en) 2005-10-31 2018-04-10 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US20070120980A1 (en) 2005-10-31 2007-05-31 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Preservation/degradation of video/audio aspects of a data stream
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
WO2007086042A2 (en) * 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
EP1906386B1 (en) * 2006-09-29 2009-11-11 Honda Research Institute Europe GmbH Using child directed speech to bootstrap a model based speech segmentation and recognition system
WO2008091947A2 (en) * 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
US7870136B1 (en) * 2007-05-24 2011-01-11 Hewlett-Packard Development Company, L.P. Clustering data with constraints
JP5313466B2 (ja) 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
WO2009098332A1 (es) * 2008-02-08 2009-08-13 Agnitio, S.L. Dispositivo de reconocimiento de locutor
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
EP2499637A1 (en) * 2009-11-12 2012-09-19 Agnitio S.L. Speaker recognition from telephone calls
US9129605B2 (en) 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
TW201417093A (zh) * 2012-10-19 2014-05-01 Hon Hai Prec Ind Co Ltd 具有影音檔處理功能的電子裝置及影音檔處理方法
US10114148B2 (en) * 2013-10-02 2018-10-30 Nec Corporation Heterogeneous log analysis
US9842586B2 (en) 2014-07-09 2017-12-12 Genesys Telecommunications Laboratories, Inc. System and method for semantically exploring concepts
JP6392051B2 (ja) * 2014-09-22 2018-09-19 株式会社東芝 電子機器、方法およびプログラム
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10637898B2 (en) * 2017-05-24 2020-04-28 AffectLayer, Inc. Automatic speaker identification in calls
US11417343B2 (en) 2017-05-24 2022-08-16 Zoominfo Converse Llc Automatic speaker identification in calls using multiple speaker-identification parameters
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
WO2019132690A1 (ru) * 2017-12-27 2019-07-04 Общество с ограниченной ответственностью "Центр речевых технологий" Способ и устройство для построения голосовой модели целевого диктора
US11289097B2 (en) * 2018-08-28 2022-03-29 Dell Products L.P. Information handling systems and methods for accurately identifying an active speaker in a communication session
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) * 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
CN117079667B (zh) * 2023-10-16 2023-12-22 华南师范大学 一种场景分类方法、装置、设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11404478B2 (en) * 2019-10-08 2022-08-02 SK Hynix Inc. Electronic device and method of manufacturing the same

Also Published As

Publication number Publication date
US5659662A (en) 1997-08-19
JPH07287592A (ja) 1995-10-31

Similar Documents

Publication Publication Date Title
JP3745403B2 (ja) オーディオデータセグメントのクラスタリング方法
JP3805809B2 (ja) オーディオデータのセグメンテーション方法
JP3926858B2 (ja) スピーカーデータのクラスタリング方法
US5606643A (en) Real-time audio recording system for automatic speaker indexing
US11900947B2 (en) Method and system for automatically diarising a sound recording
WO2020024690A1 (zh) 语音标注方法、装置及设备
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
Steinbiss et al. The Philips research system for large-vocabulary continuous-speech recognition.
Zweig Bayesian network structures and inference techniques for automatic speech recognition
Ney et al. An overview of the Philips research system for large vocabulary continuous speech recognition
Cohen Segmenting speech using dynamic programming
Chen et al. Speaker and expression factorization for audiobook data: Expressiveness and transplantation
Chang et al. Multiple-F0 tracking based on a high-order HMM model
Kotti et al. Automatic speaker change detection with the Bayesian information criterion using MPEG-7 features and a fusion scheme
Young Acoustic modelling for large vocabulary continuous speech recognition
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Pammi et al. Detection of nonlinguistic vocalizations using alisp sequencing
JP4839555B2 (ja) 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
Gereg et al. Semi-automatic processing and annotation of meeting audio recordings
Kotti et al. Speaker change detection using BIC: A comparison on two datasets
Hu et al. Gradient boosting learning of Hidden Markov models
Shivaprasad et al. Optimized Features Extraction from Spectral and Temporal Features for Identifying the Telugu Dialects by Using GMM and HMM.
Lee Adaptive compensation for robust speech recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees