JP3745403B2 - オーディオデータセグメントのクラスタリング方法 - Google Patents
オーディオデータセグメントのクラスタリング方法 Download PDFInfo
- Publication number
- JP3745403B2 JP3745403B2 JP08289795A JP8289795A JP3745403B2 JP 3745403 B2 JP3745403 B2 JP 3745403B2 JP 08289795 A JP08289795 A JP 08289795A JP 8289795 A JP8289795 A JP 8289795A JP 3745403 B2 JP3745403 B2 JP 3745403B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- audio
- speakers
- state
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000007704 transition Effects 0.000 description 32
- 230000011218 segmentation Effects 0.000 description 29
- 238000012549 training Methods 0.000 description 21
- 238000009826 distribution Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Description
【産業上の利用分野】
本発明は会話記録データにおける未知のスピーカー(話す人)の初期クラスリングの改良された方法に関する。
【0002】
より詳細には、本発明はオーディオ記録データにおける未知のスピーカーのクラスタリングでの尤度(likelihood)算出の際の距離再計算の方法に関する。
【0003】
【従来の技術】
オーディオおよびビデオ記録は、コンシューマグレード(消費者レベル)の記録装置の発展によって今や一般のものとなっている。後の再生のための過去の記録としてビジネスミーティング、講義、もしくはバースデーパーティーが記録されることは今や稀なことではない。不幸にして、オーディオおよびビデオ媒体の両者は、所望の記録部分にアクセスする際のアシストとなる外部またはオーディオ情報をほとんど与えない。書籍においては、巻頭の目次および巻末の索引によってインデックス化が与えられ、このインデックス化によって読者は複数の著者の確認および複数の著者の参照を容易に行うことが可能である。同様のインデックス化方法がオーディオストリームにおいて有用であり、ユーザーは特定のスピーカーの会話部分を確認することが可能となる。ほとんどのビデオ記録に関連する限られたデータ量は、見る者が確実におよび容易に所望の関心部分にアクセスするための充分な情報を与えない。このため見る者は記録内容を順に調べて所望の情報を検索しなければならない。
【0004】
例えばスピーカー(話し手)やトピック(主題)を示すノートのような、記録中に取られたノートが検索の補助となることが可能である。このようなノートは構造的アウトラインを与えるが、ビデオ媒体とノート媒体との間には直接的な相関がないため、ノートの内容を共にしたビデオ上の時刻の補完を強いられる。このことは、非相関媒体におけるイベントノートは通常イベントの継続時間を含まないという事実によって複雑化する。加えて、そのようなノート化またはインデックス化は非常に煩わしい。コンピュータシステムがイベント期間中のノート取得に使用されることが可能であり、該システムは同時に記録されるかまたは事前に記録される。キーボードを使用するテキストベースシステムがこの場合に使用されることが可能であるが、ほとんどの人はタイプするよりもかなり速く話すため、内容を記述するコンピュータ生成テキストラベルをリアルタイムで作成することは相当な努力を必要とする。
【0005】
【発明が解決しようとする課題】
オーディオストリームにおいて異なるスピーカーを示すスピーカーチェンジマーカーは、異なるシーケンシャルデータへのランダムアクセスを可能とする。リアルタイム設定においては、そのようなオーディオセグメンテーションは、記録が行われている時にその記録の中へ有用なインデックスを作成する際の補助となり得る。各セグメントは1個人による発声を表す。同一のスピーカーによる発声は結合され、また同様に参照されてインデックスが形成される。会話におけるポーズまたは沈黙期間もまたオーディオインデックス形成において重要である。
【0006】
オーディオストリーム内にインデックスを作成することは、リアルタイムであっても処理後であっても、ユーザーが特定のオーディオデータセグメントを認識することを可能にする。例えばこのことは、ユーザーが記録を拾い読みして特定のスピーカーに対応するオーディオセグメントを選択したり、次のスピーカーへ記録を早送りすることを可能にする。加えて、スピーカーの順序を知ることは、会話または会話の内容に関する内容情報を与えることも可能である。
【0007】
【課題を解決するための手段】
隠れマルコフモデル(HMM)が使用されて個々のスピーカーがモデル化されることが可能である。スピーカーモデル(複数)は、ガウシアン出力分布を伴う多重状態HMM(複数)と1つのtied silenceモデル(結合された無音モデル)とから成る。スピーカーが知られておりトレーニングデータが使用可能である場合、そのようなHMMはBaum-Welchプロシジャーを使用して最初にトレーニングされることが可能である。これとは別に、音声波形の初期セグメンテーションに対して尤度距離を使用する集塊性の階層的クラスタリングの方法を最初に実行し、初期セグメンテーションを使用して個々のスピーカーHMMをトレーニングすることによって個々のHMMは初期化されることが可能である。次にスピーカーHMMは以下に述べるように繰り返し再トレーニングされることが可能である。
【0008】
HMMのネットワークが形成され、多数のスピーカーを含む音声がモデル化される。HMMネットワークを使用し、ネットワークを介する最も確からしい状態シーケンスに基づきオーディオストリームがセグメンテーションされる。このセグメンテーションはリアルタイムで行われることが可能であり、オーディオストリームが形成され記録されている時であってもセグメント情報はオーディオストリームと相関がとられて該ストリームと共に保存される。記録後の動作においては、続いてモデルの再トレーニングとオーディオストリームの再セグメンテーションが行われることが可能であり、再トレーニングされたモデルからセグメンテーションで変化が生じる間、繰り返し処理が続けられる。
【0009】
セグメンテーションが完了される場合、オーディオストリームはオーディオインデックスを伴ない、オーディオストリームは個々人に従う発声に分離される。電話の呼び出し音のような非音声音もまた検出されてセグメンテーションされることが可能である。
【0010】
本発明は、スピーカーに従うオーディオ記録におけるオーディオデータセグメントの流動的クラスタリングの方法を開示する。該方法は、オーディオデータをクラスタに分割し、各クラスタペアに対してクラスタ間距離を算出するステップと、最小クラスタ間距離を有する2つのクラスタを結合するステップとを含む。繰り返し処理が行われ、該処理においては全てのクラスタに対する距離が再計算され、最小クラスタ間距離を有する2つのクラスタが結合される。繰り返し処理は、所望のスピーカー数に対するクラスタが得られるまで行われる。
【0011】
このようにして得られたクラスタが使用されて個々のHMMスピーカーモデルがトレーニングされることが可能である。これらスピーカーモデルは次に並列に結合されてスピーカーネットワークHMMを形成する。スピーカーネットワークHMMが使用され、スピーカーネットワークを介する最適パスを見出すことによってスピーカーに従うオーディオデータのセグメンテーションが決定されることが可能である。
【0012】
本発明はまた、オーディオ記録データに対してスピーカーに従う電子インデックスを相関付けるプロセッサ制御によるシステムを開示する。該システムは複数の個々のスピーカーからの音声を与えるオーディオソースを含み、オーディオソースはオーディオプロセッサによって処理されてスペクトル特徴データとなる。システムプロセッサはスペクトル特徴データをオーディオプロセッサから受信し、尤度比に基づき推定スピーカーモデルを生成する。該スピーカーモデルのデータセグメントは同一のスピーカーによって発生されたものであり、該スピーカーモデルが並列に結合されてスピーカーネットワークが形成される。スピーカーネットワークはシステムプロセッサによって使用され、異なる個々のスピーカーモデルに対応するオーディオデータセグメントが決定される。
【0013】
システムプロセッサは同一スピーカーに対応するオーディオデータセグメントを収集してスピーカーモデルを維持することが可能である。新たなスピーカーネットワークがシステムプロセッサによって決定されてオーディオデータが再セグメンテーションされる。
【0014】
【実施例】
図1は一般化されたオーディオ処理システム10のブロック図を示し、該システムにおいて本発明が実施されることが可能である。一般に、オーディオストリームはオーディオデータソース12から与えられ、該データは、会話を行うスピーカー、オーディオトラックを伴う記録ビデオ、または他のオーディオソースによって与えられることが可能である。オーディオデータはオーディオプロセッサ14へ送られ、オーディオプロセッサは汎用コンピュータのような任意の公知デバイスであることが可能であり、本発明に従って構成されることが可能である。オーディオプロセッサはオーディオデータインデックス16を出力する。
【0015】
図2はオーディオインデックスシステムの一般化されたフロー図を示す。図2に示されるステップは以下により詳細に説明されるが、図2は本発明により記述される方法の概観を与えるものである。
【0016】
オーディオ波形20はボックス22のステップにおける入力である。ボックス22におけるオーディオストリームは、処理されるべきオーディオの部分を含むことが可能であるが、オーディオストリーム内の全てのスピーカーからの音声を含まなければならない。説明を目的として、オーディオストリーム全体がボックス22のステップにおける入力である。ボックス24のステップは音声信号データをスペクトル特徴ベクトルへ変換する。例えば、12次のケプストラムが20msごとに算出されることが可能である。
【0017】
オーディオデータクラスタの初期化はボックス26のステップで行われ、この初期化は、集塊性の階層的クラスタリングを使用してデータを初期パーティションへクラスタリングすることを含む。所望のスピーカークラスタ数が得られるまで、集塊性のクラスタ間距離が再計算され、最近接クラスタが併合される。
【0018】
ボックス28のステップにおいて、HMMスピーカーモデルは初期クラスタリングデータに基づき各スピーカーに対してトレーニングされる。複数の個々のスピーカーモデルは、該モデルを並列に結合することによってボックス30のステップにおいて結合され、会話のHMMスピーカーネットワークが形成される。
【0019】
ボックス32のステップはHMMスピーカーネットワークを使用し、入力されるオーディオストリームのセグメンテーションを行う。セグメンテーションはビタビ(Viterbi) デコーディングを使用して行われ、スピーカーネットワークを介する最も確からしい状態シーケンスが見出され、状態パスがスピーカーを変更する場合にはマーキングが施される。
【0020】
セグメンテーションとインデックス化の確度は、ボックス28のステップに戻ってスピーカーモデルを再トレーニングすることによる後処理の適用で改善されることが可能であり、この場合ボックス32のステップからのセグメンテーション情報が使用される。再トレーニングと再セグメンテーションの繰り返しは、ボックス32のステップでのセグメンテーションで大きな変化が生じなくなるまで続けられることが可能である。オーディオセグメントとスピーカーを示す、結果として得られるインデックスは、ボックス34のステップにおける出力となる。
【0021】
隠れマルコフモデル(HMM)によるモデル化は音声認識で一般的に使用される統計的方法であり、ワード全体、もしくは単音のようなサブワードがモデル化される。未知の発声の認識は、その発声が最も確からしく与えられるモデルもしくはモデルのシーケンスを見出すことに基づいている。HMMはスピーカーの識別においても使用されることが可能である。モデルはスピーカーの発音に対して作成され、その場合発音は特定のワードについてのものであっても自然な音声についてのものであってもよい。スピーカーの識別は、未知の発声が最も確からしく与えられるスピーカーモデルを見出すことによって行われる。未知の発声が複数のスピーカーからの音声を含む場合、スピーカーは最も確からしいスピーカーモデルのシーケンスを見出すことによって識別される。
【0022】
理論的に、HMMは状態のシーケンスから成り、該状態シーケンスは定められた時間間隔で状態間に発生する遷移を伴う。ある状態への遷移が行われるたびに、その状態の出力特性が発生される。音声認識およびスピーカー識別の両者において、これらの出力はその時間間隔に対する音声のスペクトル推定を表す。例えばケプストラムがその例である。ケプストラムはスペクトルエンベロープ(包絡線)の推定であり、音声認識およびスピーカー識別で一般に使用される。ケプストラムは、スペクトルの対数のフーリエ逆変換であり、スペクトルエンベロープと周期的音声ソースとを分離するよう作用する。
【0023】
状態間の遷移は出力のシーケンスを特定する。状態間遷移および各状態出力に確率を関連付けることによって、HMMが使用されて音声を統計的にモデル化することが可能となる。システムの出力のみが観測されるため「隠れ(hidden) 」という言葉が用いられる。即ち、基礎となる状態シーケンスは推定され得るのみである。
【0024】
より形式的には、HMM L は、S0...SN-1 のN個の状態、状態iから状態jへの遷移確率aij,i=0...N-1,j=0...N-1、ならびに状態iで出力xを生じる確率を与える確率分布bi (x) ,i=0...N-1、から成る。例えば、bi (x) は特徴ベクトル xに対する多変数ガウス分布であることが可能である。加えて、遷移可能であるが出力を発生しないヌル状態が存在する。図3は5状態のHMMを示す。状態S0 から状態S1 、S2 またはS3 への遷移確率は画一的であり、即ち、a0j=1/3,j=1,2,3である。状態Si ,i=1,2,3については、自己遷移および状態
S4 への遷移が存在し、それらは等確率である。従ってaii=1/2およびai4=1/2,i=1,2,3である。状態S4 については遷移は常にS0 へ行われ、従ってa40=1である。状態S1 、S2 、およびS3 に関連する出力分布は、それぞれb1 (x) 、b2 (x) 、およびb3 (x) である。状態S0 およびS4 はヌル状態であり、従って関連する出力を有さない。状態S0 とS4 を結合することによって等価なHMMが形成されることが可能である。しかし、HMMを結合してより大きなHMMネットワークを形成するタスクを簡素化するために、このことは行われない。これについては以下に説明が行われる。HMMに関するより深い検討は、Rabiner による「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」(Proc.IEEE,vol.77,No.2,February,1989,pp.257-285)に見出される。
【0025】
対象物のシーケンスをモデル化するネットワークHMMは、以下のように個々のHMMを並列に結合することにより作成される。認識されるM個の対象物の各々に対するHMMをLi ,i=1,...,Mとする。先に述べたように、対象物は単語、単音、またはスピーカーのいづれであってもよい。ネットワークHMMは、許容される全ての対象物シーケンスに対して対象物HMM間の遷移を付加することにより作成される。図4において、HMM L1 、L2 、およびL3 によって3つの対象物がモデル化されている。これら対象物は、遷移により示されるように任意の順序で発生可能である。状態S0 はヌル状態であり、従って出力を発生しない。S0 からは、対象物HMM L1 、L2 、およびL3 への遷移は等確率となる。全ての対象物HMMからの遷移は状態SR に向かい、次に状態S0 への遷移となる。
【0026】
T個の出力X=x1...xT のシーケンスが与えられる場合、どの対象物HMMシーケンスが最も確からしく出力シーケンスXを発生したかを決定することにより認識が実行される。これにはビタビアルゴリズムが使用され、最も確からしく出力Xを発生したネットワークを介する状態シーケンスが見出される。シーケンス内の各状態は、認識される対象物の内の1つのHMMに対して特定されるため、最も確からしい状態シーケンスは認識対象物のシーケンスを特定する。図5はビタビアルゴリズムの結果を概略的に示す。x軸は時間を示し、y軸はネットワークHMM内の現行状態を示す。HMM L1 、L2 、およびL3 に対応する状態はy軸上の領域によって示される。与えられた出力を結果としてもたらし得る状態シーケンスが多数存在可能であるが、ビタビアルゴリズムは最も確からしい状態シーケンスを見出す。図5はビタビパスを示す。時刻t0 において最も確からしい対象物はL1 である。時刻t1 において対象物はL2 であり、t2 においてはL3 である。時刻t3 において最も確からしい対象物はL1 となる。
【0027】
HMMに対するパラメータは、次に、遷移確率aijおよび出力確率bi (x) である。これらパラメータは、HMMによってモデル化された対象物によって既に発生されたことがわかっている出力Xを用いてHMMをトレーニングすることにより学習されることが可能である。Baum-Welchプロシジャーとして知られているアルゴリズムが一般に使用される。このアルゴリズムは、トレーニングデータXの尤度を最大にするパラメータ値を繰り返し処理により見出すアルゴリズムである。該アルゴリズムは、パラメータの初期推定から開始する。続いて以下のステップが実行される。(1)トレーニングデータに基づき、状態間遷移確率および状態からの出力確率を算出する。(2)これらの確率を使用し、遷移確率aijおよび出力確率bi (x) の推定値を算出する。ステップ(1)および(2)は収束が得られるまで繰り返される。
【0028】
前述のように、隠れマルコフモデルが使用されてスピーカー識別を目的として個々のスピーカーがモデル化されることが可能である。図6に示されるように、(特定の発声に対向する)個々の発声スタイルが35状態HMM60を使用してモデル化されることが可能である。状態S0 はヌル状態であり、出力を発生する状態S1,...,S32およびSSIL への遷移を伴う。これらの遷移確率はp1,...,p32およびpSIL により与えられる。これら出力発生状態の各々は、確率qi を伴う自己遷移、ならびに確率1−qi を伴う最終ヌル状態S34への遷移を有している。ヌル状態S34は確率1で初期ヌル状態S0 へ遷移する。各非ヌル状態はガウシアン出力分布を有しており、平均ベクトルおよび対角共分散マトリックスにより特性付けられる。
【0029】
図7はサイレンス(無音)サブネットワークを示す。該サブネットワークは直列に接続された3状態から成る。各状態は、通常もしくは結合されたガウシアン出力分布を有し、該分布はラベルSILで示されている。この出力分布はまた、スピーカーモデル60のサイレンス状態62における出力分布と同一であり、該分布は状態ラベルSILで示されている。サイレンスサブネットワークは長時間間隔の無音状態をモデル化するが、会話の発声におけるポーズや短時間間隔の無音状態に対しては適切でない。これらポーズや短時間間隔の無音状態は、個々のスピーカーモデルにおけるサイレンス状態62によってモデル化される。スピーカーHMMのサイレンス状態における出力分布は全て結合されてサイレンスサブネットワークにおける出力分布となる。
【0030】
スピーカーHMMの各々は、与えられたスピーカーの発声スタイルに対してトレーニングされなければならない。このトレーニングは先に述べたBaum-Welchアルゴリズムを使用して行われ、遷移確率aij、およびガウシアン出力確率bi (x) に対する平均および対角共分散が推定される。HMMパラメータの初期推定値は次のように得られる。全ての遷移確率が画一的に設定され、この結果、与えられた状態からの全ての遷移は等確率となる。ガウシアン出力分布を初期化するために、スピーカーに対するトレーニングデータから全体平均および対角共分散マトリックスが算出される。全ての状態に対するガウシアン出力分布についての共分散マトリックスが全体的共分散マトリックスに設定される。全体平均に小さな定数を加えることによって平均が設定され、その場合該定数は異なる各状態に対するランダム要素に対して加えられる。Baum-Welch繰り返し処理がスピーカーのトレーニングデータを用いて次に実行される。
【0031】
認識されるスピーカーが事前にわかっている場合、Baum-Welchアルゴリズムに対するトレーニングデータは、30秒から1分の各スピーカーに対する音声データを使用して得られる。音声はスピーカーの通常の発声スタイルを表さなければならないが、この場合使用される実際の単語は重要でない。
【0032】
スピーカーおよびサイレンスサブネットワークに加えて、ガーベッジ(garbage)サブネットワークが頻繁に使用され、スピーカーモデルまたは存在可能な非音声音の内の1つによって特定されない任意のスピーカーがモデル化される。ガーベッジネットワークの形態は、図6に示されるスピーカーネットワークのそれと同じである。しかし、アプリケーションに依存してガーベッジネットワークは異なるデータを使用してトレーニングされる。例えば、ガーベッジサブネットワークが使用されて非音声音がモデル化される場合、それはスピーカーモデルとしてトレーニングされなければならないが、この場合非音声データが使用される。システムに対して未知のスピーカーをモデル化する場合、トレーニングデータを得る1つの方法は、既知の各スピーカーからの音声の部分を使用することである。
【0033】
ガーベッジモデルをトレーニングする際に全てのスピーカーからの全てのデータが必ずしも使用されないことは重要である。全ての有効なデータを使用することは、各スピーカーモデルに対してよりもガーベッジモデルに対してより多くのトレーニングデータを与え、全てのスピーカーに対してより確実なスピーカーモデルを作成する効果を有する。従って、結果として得られるHMMネットワークはほとんどの音声をガーベッジとして分類する。
【0034】
1実施例において、入力オーディオトレーニングデータは8KHzでサンプルされ、10msごとに特徴ベクトルが算出される。例えば、各フレームに対する特徴ベクトルは、25msウィンドウ下のサンプルに関する20次の線型予測符号化(LPC)を行うことによって算出されることが可能であり、従ってLPCスペクトルから20個のケプストラム定数が算出されることが可能である。
【0035】
いくつかの場合においては、認識されるスピーカーは事前にわかっていない。しかし、スピーカーモデルに対する初期推定を得ることがそのような場合にも必要である。この初期推定は、階層的な集塊性のクラスタリングを使用して行われ、異なるスピーカーとして認識されるデータのラフな区分が作成される。
【0036】
スピーカーに従うデータの区分を与えることによってスピーカーサブネットワークの初期推定を得るために、階層的な集塊性のクラスタリングが使用されることが可能である。このデータは次にスピーカーHMMのBaum-Welchトレーニングに対するトレーニングデータとして使用されることが可能である。
【0037】
セグメンテーションされていないデータは、最初に等しい長さのセグメントに分割され、各セグメントは数秒の音声から成る。これらのセグメントは階層的クラスタリングに対する初期クラスタ集合として使用される。該アルゴリズムは、最初に全てのクラスタペアについてのクラスタ間距離を算出し、次に最も近い2つのクラスタを併合することによって進行する。このプロセスは所望のスピーカークラスタ数が得られるまで繰り返される。このプロセスが図8に概略的に示されている。スピーカー数が未知の場合、このアルゴリズムが使用されてスピーカー数が推定されることが可能である。その場合、最近接クラスタの併合は、最近接クラスタ間距離が定められたスレショルドを越えるまで継続する。スレショルドを越えるとクラスタリングは中止され、その時のクラスタ数がスピーカー数の推定値として使用される。
【0038】
図8は、スピーカーでラベル付けされているインターバル集合上の階層的クラスタリング100を概略的に示す。オリジナルインターバル102は、C、L、およびTで3つのスピーカーに対してラベル付けされたツリーのリーフによって示される。そのような全てのインターバルについてのインターバル間距離が算出され、104に示されるように最も近接する2つのインターバルが併合される。
【0039】
この最近接クラスタ併合プロセスは、所望のクラスタ数が形成されるまで繰り返される。3つのクラスタに対し、それらクラスタに対応する3つの分岐が示されている。第1のクラスタ106はほとんどスピーカーCからのインターバルを含み、第2のクラスタ108はほとんどスピーカーLからのインターバルを含み、第3のクラスタ110はほとんどスピーカーTからのインターバルを含む。
【0040】
スピーカー数が未知の場合、距離に対するスレショルドが設定され、スレショルドが越えられた場合にクラスタの併合が中止される。このことは線112により概略的に示されており、該線は4つのクラスタを生成する。(クラスタ1は2つに分割されている。)
クラスタXが単一セグメントX=xかまたはセグメント集合X=x1,x2,... から成ると仮定する。クラスタXおよびY間の距離はd(X,Y)により表される。前述のシステムにおいて、セグメント間距離はガウシアン分布の仮定に基づき尤度比によって導出された。x=s1,...,sr はある1つのセグメント内のデータを表し、y=sr+1,...,sn はその他のセグメント内のデータを表し、z=s1,...,sn は合成セグメント内のデータを表すものとする。L(x,θx )はxシーケンスの尤度とし、ここでθx はガウシアン分布のパラメータに対する推定値である。同様にL(y,θy )はyシーケンスの尤度とし、L(z,θz )は合成シーケンスzの尤度とする。λは尤度比を表すとすると、次式のように表される。
【0041】
【数1】
【0042】
クラスタリングの際に使用される距離計量は−log(λ)である。
音声データは単一のガウシアン分布では充分にモデル化されないため、尤度比はガウシアン分布の混成結合に拡張される。セグメンテーションされていないデータが最初に使用され、M個のガウシアン分布の混成に対する平均および共分散マトリックスが推定される。次にこれらは残りの解析により確定される。
Ni ( s)=N(s:Mi , σi )はi番目の混成要素に関連するガウシアン分布とし、gi (x)はデータシーケンスxを使用して推定されたi番目の混成要素に対する重みとする。gi (x)はNi ( s)が最大となるx内のサンプルの割合である。従ってxシーケンスの尤度は次式のように表される。
【0043】
【数2】
【0044】
ここでθx =(g1 (x),..., gM (x))である。尤度L(y,θy )も同様に算出される。合成シーケンスに対する尤度L(z,θz )の算出において、混成要素に対する重みgi (z)として次式を得る。
【0045】
【数3】
【0046】
クラスタリングに対する距離計量、dL =−log(λL )は従って式(1)を使用して算出されることが可能である。
【0047】
本発明のクラスタリングプロシジャーは、クラスタを含むインターバルにおけるインターバル間距離の最大、最小、もしくは平均を使用するよりもむしろ式(1)を使用して集塊性のクラスタ間距離を再計算する点において、通常の階層的クラスタリングと異なっている。従って式(2)および(3)により与えられる尤度の計算効率が重要となる。これはクラスタリングレベルの各々において距離が再計算されるためである。
【0048】
加えて、スピーカーチェンジの事前確率はM個のスピーカーを伴うマルコフデュレーションモデルを使用して算出されることが可能である。Si はセグメントiの期間中のスピーカーを表し、Mはスピーカー数を表すとする。Si は、各スピーカーaに対してPr 〔Si+1 =a|Si =a〕=p、および各スピーカーaおよびb(aに等しくない)に対してPr 〔Si+1 =b|Si =a〕=(1−p)/(M−1)を伴うマルコフ連鎖であると仮定する。セグメントiに対するスピーカーがセグメントi+nに対しても発声する確率Pr 〔Si+n =Si 〕は、2状態マルコフ連鎖を使用して算出されることが可能であり、その場合連鎖の状態1は時刻iにおけるスピーカーを表し、状態2は他の全てのスピーカーを表す。この連鎖に対する遷移確率マトリックスPは次式のように表される。
【0049】
【数4】
【0050】
このマトリックスに関し、Pr 〔Si+n =Si 〕=(Pn )11である。Pを対角化することにより、Pr 〔Si+n =Si 〕は次式のようによりクローズした形態で表されることが可能である。
【0051】
【数5】
【0052】
この式を使用して、2つの与えられたクラスタが同一のスピーカーまたは2つの異なるスピーカーによって生成される事前確率を算出することが可能である。Cをスピーカーチェンジが発生するインターバル数とし、ni をi番目のインターバル長とすると、デュレーションバイアスは次式のように定義される。
【0053】
【数6】
【0054】
デュレーションバイアスされた距離はdD (X,Y)=−log(λL )−log(λD )として定義される。
【0055】
図9に示されるスピーカーセグメンテーションネットワーク120は、各スピーカーに対するサブネットワーク60と、サイレンスおよびガーベッジに対するオプショナルなサブネットワーク64および122とから成る。ガーベッジは、オーディオ中の未知のスピーカーまたは非音声音のような、スピーカーまたはサイレンスモデルによってモデル化されない音声または音として定義される。スピーカー、ガーベッジ、およびサイレンスサブネットワークは以下に述べるように得られる。ネットワークモデルは、2またはそれ以上のスピーカーによるバックグランドノイズを伴う会話をモデル化する。
【0056】
ネットワーク60のような個々のスピーカーサブネットワークは互いに並列に結合され、各サブネットワークから外部への遷移確率は小さいペナルティ定数εに固定されて、孤立サンプルに基づくスピーカーチェンジが抑制される。各スピーカーサブネットワーク60はL個の状態を伴うHMMから成り、それらHMMは並列に接続される。各状態は、ガウシアン出力分布、自己遷移、および他状態への遷移を有する。
【0057】
初期ヌル状態からスピーカー、ガーベッジ、およびサイレンスサブネットワークへの遷移確率は画一的である。スピーカー、ガーベッジ、およびサイレンスモデルから外部への遷移確率ペナルティは定数εに設定される。原理的に、これら遷移確率はスピーカーに依存し、トレーニング期間中に学習される。しかし、簡素化を目的として、スピーカーの事前確率は画一値に仮定され、スピーカーを離れる確率εは経験的に選択されて孤立サンプルに基づくスピーカーチェンジが抑制される。
【0058】
実際には、この遷移確率は著しく小さい。(10-20 のオーダーである。)従って各スピーカーモデルから外部への遷移は、スピーカーからスピーカーへの切替にペナルティを与えるよう作用する。
【0059】
スピーカー間の会話をインデックス化することは単に、観測された特徴ベクトルに関する与えられたシーケンスであるネットワークモデルを介する最も確からしい状態シーケンスを見出すことである。スピーカーサブネットワークが初期化された後、スピーカーセグメンテーションネットワークを介する最も確からしい状態シーケンスを見出すことによりスピーカーセグメンテーションが実行され、状態パスがスピーカーを変更する時点でマーキングが施される。最適な状態が1つのスピーカーモデルから他のスピーカーモデルへ切り替わる場合にスピーカーチェンジが発生する。最適な状態シーケンスを見出すことはビタビアルゴリズムを使用して達成される。セグメンテーションの確度は、セグメンテーションされたデータを使用してスピーカーサブネットワークを再トレーニングすることによって改善されることが可能である。このセグメンテーションおよび再トレーニングのプロセスは、セグメンテーションにおいて変化が生じなくなるまで繰り返される。
【0060】
確度の改善のために、音声のセグメンテーションが繰り返し実行され、各セグメンテーションの後にスピーカーモデルが再トレーニングされる。このことはセグメンテーションの確度を向上させ、特にスピーカートレーニングデータが適用不可能な場合に有効である。
【0061】
繰り返し再セグメンテーションアルゴリズムが図10に示される。最初に、トレーニングデータ集合がボックス130のステップで与えられ、ボックス132のステップでスピーカーモデルがトレーニングされる。このデータは、既知のスピーカーからのトレーニングデータであるかまたは階層的クラスタリングを使用して区分されたデータであることが可能である。次にボックス134のステップでこれらスピーカーモデルに基づきセグメンテーションが実行される。ボックス134のステップでのセグメンテーションが大きく変化する場合、この改善されたセグメンテーションはスピーカーに対する新たなトレーニングデータとして使用され、ボックス132のステップでスピーカーモデルが再トレーニングされる。このプロセスはボックス136のステップでセグメンテーションが変化しなくなるまで続けられる。
【0062】
図11は、オーディオ記録データのスピーカーに従うインデックスを作成および記憶する、システム190における本発明の1実施例を示す。オーディオ記録入力191はオーディオプロセッサ192によってスペクトル特徴データへ処理され、システムプロセッサ194へ与えられる。スペクトル特徴データは、システムプロセッサ194による後の繰り返し処理のためにメモリ197に記憶されることが可能である。
【0063】
オーディオプロセッサ192によってシステムプロセッサ194へ与えられるスペクトルデータは、最初にセグメンテーションおよびクラスタリングされ、初期スピーカーモデルをトレーニングしてスピーカーネットワークを作成するためのデータが与えられる。スペクトルデータはシステムプロセッサ194によって再び処理される。スペクトルデータは、システムプロセッサ194によって作成されたスピーカーネットワークを使用してシステムプロセッサ194によって処理される。オーディオストリームにおいて新たなセグメントの各々が検出されると、システムプロセッサ194はタイムソース193からタイムスタンプを得る。タイムスタンプは、オーディオ入力191の記録からのオーディオデータに関する記録アドレスもしくは記憶時間を示す。タイムソース193は、例えば、記録が開始される時に始動する時計であることが可能であり、もしくは、記憶媒体に接続された記録デバイスから時間を記録するデバイスであることが可能である。このタイムスタンプは、セグメントの作成者の識別子と共にメモリ195に記憶され、後にスピーカーに従うインデックスへ収集される。
【0064】
図12は、スピーカーが事前にわかっていない場合にオーディオストリームのインデックスを決定する前述の方法に関するアプリケーションを記述するものである。ボックス200のステップは処理されるオーディオデータを選択する。先に述べたように、このステップで使用されるオーディオは、処理されるオーディオストリーム内の少なくとも全てのスピーカーからの音声を有する部分を含むことが可能であるが、オーディオストリーム全体に関して議論を進めることとする。ボックス202のステップにおいて、オーディオストリームはセグメントに分解され、このセグメントは通常等しく短い長さである。これら初期セグメントは初期クラスタとして後のステップで使用される。
ボックス206のステップは各クラスタについてクラスタ間距離を算出し、ボックス208のステップは最小距離を有する2つのクラスタを併合する。ボックス210のステップにおいて所望数よりも多くのクラスタが存在する場合、ボックス206のステップにおいて新たなクラスタ間距離が算出され、ボックス210のステップにおいて2つの最近接クラスタが再び併合される。この処理は所望のクラスタ数が残るまで繰り返される。所望のクラスタ数は、クラスタ間のトータル距離制限かもしくは集合数に基づくことが可能である。例えば、オーディオセグメント内のスピーカー総数は、トレーニングデータが使用不可能な場合であっても知られていることが可能である。そのような数の初期クラスタが決定されるまで併合を行うようシステムが設定されることが可能である。
【0065】
初期クラスタリングが完了すると、ボックス212のステップは個々のスピーカーモデルHMMのトレーニングを行う。これら個々のモデルはボックス214のステップにおいて並列に結合され、スピーカーを離れることに対するペナルティが付与される。サイレンスおよびガーベッジモデルがボックス212のステップで発生されておらず、ネットワークに付加されていない場合、それらはボックス216のステップで付加されることが可能である。ボックス218のステップにおいて、オーディオストリームはスピーカーセグメンテーションネットワークを使用してセグメントに分割される。ボックス220のステップにおいて、セグメントは各セグメントに対するスピーカーの識別子によりマーキングされる。
【0066】
ボックス222のステップは前の繰り返し処理においてセグメンテーションが大きく変化したかどうかをチェックする。もしそうである場合、ボックス212のステップにおいてモデルが再トレーニングされ、改良されたモデルを用いてセグメンテーションの繰り返し処理が実行される。再トレーニングの結果として大きな変化が生じない場合、繰り返し処理は完了し、個々のモデルによって同様にマーキングされたセグメントを収集することによって記録に対するインデックスが作成される。
【0067】
スピーカーに従うオーディオデータセグメントのクラスタリングの方法が、オーディオデータに関するスピーカーインデックス化のためのスピーカーネットワークへの入力に対する多くの実施例に関連して本文中に記述されてきたが、それらの修正、変形、および拡張を伴う他のアプリケーション、実施、修正、変形、および拡張は本発明の範囲である。
【0068】
【発明の効果】
以上説明したように、本発明の方法によれば、オーディオストリーム内にインデックスを作成することが可能となり、リアルタイムであっても処理後であっても、ユーザーが特定のスピーカーに関連するオーディオデータセグメントを認識することが可能となる。
【図面の簡単な説明】
【図1】本発明が実施されることが可能である一般化されたオーディオ処理システムのブロック図である。
【図2】オーディオインデックスシステムの一般化されたフロー図である。
【図3】5状態隠れマルコフモデル(HMM)を示す図である。
【図4】HMMによってモデル化される3つの対象物のHMMネットワークを示す図である。
【図5】ビタビアルゴリズムの結果を概略的に示す図である。
【図6】個々のスピーカーの発声スタイルをモデル化する35状態HMMを示す図である。
【図7】サイレンスサブネットワークを示す図である。
【図8】スピーカーでラベル付けされたインターバル集合上の階層的クラスタリングを概略的に示す図である。
【図9】各スピーカーに対するサブネットワークと、サイレンスおよびガーベッジに対するオプショナルなサブネットワークとから成るスピーカーセグメンテーションネットワークを示す図である。
【図10】繰り返し再セグメンテーションアルゴリズムを概略的に示す図である。
【図11】オーディオ記録データのスピーカーに従うインデックスを作成および記憶するシステムにおける本発明の1実施例を示す図である。
【図12】スピーカーが未知の場合にオーディオストリームのインデックスを決定する本発明に従う方法を示す図である。
【符号の説明】
12 オーディオデータソース
14 オーディオプロセッサ
16 オーディオデータインデックス
60 35状態HMM
120 スピーカーセグメンテーションネットワーク
Claims (1)
- 知られた数の複数のスピーカーからの音声を有するオーディオデータ記録において各スピーカーのインデックスを作成するためのオーディオデータ記録におけるオーディオデータセグメントのクラスタリングの方法であって、
a)前記オーディオデータ内の少なくとも全てのスピーカーからの音声を有する前記オーディオデータの部分を与えるステップと、
b)前記オーディオデータの部分をデータクラスタへ分割するステップと、
c)各クラスタペアのクラスタ間距離を算出するステップと、
d)最小クラスタ間距離を有する2つのクラスタを結合して新たなクラスタとするステップと、
e)クラスタの結合によってクラスタの数が前記知られたスピーカー数となるまで前記ステップb)、c)、およびd)を繰り返すステップと、
を含む、オーディオデータセグメントのクラスタリング方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22652594A | 1994-04-12 | 1994-04-12 | |
US226525 | 1994-04-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07287592A JPH07287592A (ja) | 1995-10-31 |
JP3745403B2 true JP3745403B2 (ja) | 2006-02-15 |
Family
ID=22849267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08289795A Expired - Fee Related JP3745403B2 (ja) | 1994-04-12 | 1995-04-07 | オーディオデータセグメントのクラスタリング方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5659662A (ja) |
JP (1) | JP3745403B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11404478B2 (en) * | 2019-10-08 | 2022-08-02 | SK Hynix Inc. | Electronic device and method of manufacturing the same |
Families Citing this family (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
US6961700B2 (en) * | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
US5864807A (en) * | 1997-02-25 | 1999-01-26 | Motorola, Inc. | Method and apparatus for training a speaker recognition system |
US5889523A (en) * | 1997-11-25 | 1999-03-30 | Fuji Xerox Co., Ltd. | Method and apparatus for dynamically grouping a plurality of graphic objects |
US6009392A (en) * | 1998-01-15 | 1999-12-28 | International Business Machines Corporation | Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus |
US6073096A (en) * | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US6404925B1 (en) | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6421645B1 (en) * | 1999-04-09 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification |
US6345252B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Methods and apparatus for retrieving audio information using content and speaker information |
US6345253B1 (en) | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US7283964B1 (en) * | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US7739114B1 (en) | 1999-06-30 | 2010-06-15 | International Business Machines Corporation | Methods and apparatus for tracking speakers in an audio stream |
DE19933541C2 (de) | 1999-07-16 | 2002-06-27 | Infineon Technologies Ag | Verfahren für ein digitales Lerngerät zur digitalen Aufzeichnung eines analogen Audio-Signals mit automatischer Indexierung |
US6567775B1 (en) | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US6542869B1 (en) | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6748356B1 (en) | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US7472062B2 (en) * | 2002-01-04 | 2008-12-30 | International Business Machines Corporation | Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions |
US7035807B1 (en) * | 2002-02-19 | 2006-04-25 | Brittain John W | Sound on sound-annotations |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US7383509B2 (en) * | 2002-09-13 | 2008-06-03 | Fuji Xerox Co., Ltd. | Automatic generation of multimedia presentation |
US7284004B2 (en) * | 2002-10-15 | 2007-10-16 | Fuji Xerox Co., Ltd. | Summarization of digital files |
US6816834B2 (en) * | 2002-10-23 | 2004-11-09 | Jon Jaroker | System and method for secure real-time high accuracy speech to text conversion of general quality speech |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
US7231349B2 (en) * | 2003-05-30 | 2007-06-12 | Microsoft Corporation | Method and apparatus for compressing asymmetric clustering language models |
US20050249080A1 (en) * | 2004-05-07 | 2005-11-10 | Fuji Xerox Co., Ltd. | Method and system for harvesting a media stream |
US7433820B2 (en) * | 2004-05-12 | 2008-10-07 | International Business Machines Corporation | Asynchronous Hidden Markov Model method and system |
US7454337B1 (en) | 2004-05-13 | 2008-11-18 | The United States Of America As Represented By The Director, National Security Agency, The | Method of modeling single data class from multi-class data |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8938390B2 (en) | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
CN1773536A (zh) * | 2004-11-11 | 2006-05-17 | 国际商业机器公司 | 生成话音纪要的方法、设备和系统 |
US7777125B2 (en) * | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
US8078463B2 (en) * | 2004-11-23 | 2011-12-13 | Nice Systems, Ltd. | Method and apparatus for speaker spotting |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
US8902320B2 (en) | 2005-01-31 | 2014-12-02 | The Invention Science Fund I, Llc | Shared image device synchronization or designation |
US7920169B2 (en) | 2005-01-31 | 2011-04-05 | Invention Science Fund I, Llc | Proximity of shared image devices |
US9325781B2 (en) | 2005-01-31 | 2016-04-26 | Invention Science Fund I, Llc | Audio sharing |
US20060174203A1 (en) | 2005-01-31 | 2006-08-03 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Viewfinder for shared image device |
US8606383B2 (en) | 2005-01-31 | 2013-12-10 | The Invention Science Fund I, Llc | Audio sharing |
US9082456B2 (en) | 2005-01-31 | 2015-07-14 | The Invention Science Fund I Llc | Shared image device designation |
US20060170956A1 (en) | 2005-01-31 | 2006-08-03 | Jung Edward K | Shared image devices |
US20060221197A1 (en) * | 2005-03-30 | 2006-10-05 | Jung Edward K | Image transformation estimator of an imaging device |
US9910341B2 (en) | 2005-01-31 | 2018-03-06 | The Invention Science Fund I, Llc | Shared image device designation |
US7876357B2 (en) | 2005-01-31 | 2011-01-25 | The Invention Science Fund I, Llc | Estimating shared image device operational capabilities or resources |
US9124729B2 (en) | 2005-01-31 | 2015-09-01 | The Invention Science Fund I, Llc | Shared image device synchronization or designation |
US9489717B2 (en) | 2005-01-31 | 2016-11-08 | Invention Science Fund I, Llc | Shared image device |
US7872675B2 (en) | 2005-06-02 | 2011-01-18 | The Invention Science Fund I, Llc | Saved-image management |
US8253821B2 (en) | 2005-10-31 | 2012-08-28 | The Invention Science Fund I, Llc | Degradation/preservation management of captured data |
US9001215B2 (en) | 2005-06-02 | 2015-04-07 | The Invention Science Fund I, Llc | Estimating shared image device operational capabilities or resources |
US9967424B2 (en) | 2005-06-02 | 2018-05-08 | Invention Science Fund I, Llc | Data storage usage protocol |
US9451200B2 (en) | 2005-06-02 | 2016-09-20 | Invention Science Fund I, Llc | Storage access technique for captured data |
US9819490B2 (en) | 2005-05-04 | 2017-11-14 | Invention Science Fund I, Llc | Regional proximity for shared image device(s) |
US7782365B2 (en) | 2005-06-02 | 2010-08-24 | Searete Llc | Enhanced video/still image correlation |
US8072501B2 (en) * | 2005-10-31 | 2011-12-06 | The Invention Science Fund I, Llc | Preservation and/or degradation of a video/audio data stream |
US20070222865A1 (en) | 2006-03-15 | 2007-09-27 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Enhanced video/still image correlation |
US9621749B2 (en) | 2005-06-02 | 2017-04-11 | Invention Science Fund I, Llc | Capturing selected image objects |
US8964054B2 (en) | 2006-08-18 | 2015-02-24 | The Invention Science Fund I, Llc | Capturing selected image objects |
US9167195B2 (en) | 2005-10-31 | 2015-10-20 | Invention Science Fund I, Llc | Preservation/degradation of video/audio aspects of a data stream |
US8233042B2 (en) | 2005-10-31 | 2012-07-31 | The Invention Science Fund I, Llc | Preservation and/or degradation of a video/audio data stream |
US9076208B2 (en) | 2006-02-28 | 2015-07-07 | The Invention Science Fund I, Llc | Imagery processing |
US10003762B2 (en) | 2005-04-26 | 2018-06-19 | Invention Science Fund I, Llc | Shared image devices |
US9191611B2 (en) | 2005-06-02 | 2015-11-17 | Invention Science Fund I, Llc | Conditional alteration of a saved image |
US8681225B2 (en) | 2005-06-02 | 2014-03-25 | Royce A. Levien | Storage access technique for captured data |
US9942511B2 (en) | 2005-10-31 | 2018-04-10 | Invention Science Fund I, Llc | Preservation/degradation of video/audio aspects of a data stream |
US8825482B2 (en) * | 2005-09-15 | 2014-09-02 | Sony Computer Entertainment Inc. | Audio, video, simulation, and user interface paradigms |
US20070120980A1 (en) | 2005-10-31 | 2007-05-31 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Preservation/degradation of video/audio aspects of a data stream |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
EP1906386B1 (en) * | 2006-09-29 | 2009-11-11 | Honda Research Institute Europe GmbH | Using child directed speech to bootstrap a model based speech segmentation and recognition system |
WO2008091947A2 (en) * | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
US7870136B1 (en) * | 2007-05-24 | 2011-01-11 | Hewlett-Packard Development Company, L.P. | Clustering data with constraints |
JP5313466B2 (ja) | 2007-06-28 | 2013-10-09 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声の再生に同期して音声の内容を表示させる技術 |
WO2009098332A1 (es) * | 2008-02-08 | 2009-08-13 | Agnitio, S.L. | Dispositivo de reconocimiento de locutor |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
EP2499637A1 (en) * | 2009-11-12 | 2012-09-19 | Agnitio S.L. | Speaker recognition from telephone calls |
US9129605B2 (en) | 2012-03-30 | 2015-09-08 | Src, Inc. | Automated voice and speech labeling |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
TW201417093A (zh) * | 2012-10-19 | 2014-05-01 | Hon Hai Prec Ind Co Ltd | 具有影音檔處理功能的電子裝置及影音檔處理方法 |
US10114148B2 (en) * | 2013-10-02 | 2018-10-30 | Nec Corporation | Heterogeneous log analysis |
US9842586B2 (en) | 2014-07-09 | 2017-12-12 | Genesys Telecommunications Laboratories, Inc. | System and method for semantically exploring concepts |
JP6392051B2 (ja) * | 2014-09-22 | 2018-09-19 | 株式会社東芝 | 電子機器、方法およびプログラム |
KR102306538B1 (ko) * | 2015-01-20 | 2021-09-29 | 삼성전자주식회사 | 콘텐트 편집 장치 및 방법 |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US10141009B2 (en) * | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CA3179080A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US10637898B2 (en) * | 2017-05-24 | 2020-04-28 | AffectLayer, Inc. | Automatic speaker identification in calls |
US11417343B2 (en) | 2017-05-24 | 2022-08-16 | Zoominfo Converse Llc | Automatic speaker identification in calls using multiple speaker-identification parameters |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
WO2019132690A1 (ru) * | 2017-12-27 | 2019-07-04 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ и устройство для построения голосовой модели целевого диктора |
US11289097B2 (en) * | 2018-08-28 | 2022-03-29 | Dell Products L.P. | Information handling systems and methods for accurately identifying an active speaker in a communication session |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
US11646018B2 (en) * | 2019-03-25 | 2023-05-09 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN111524527B (zh) * | 2020-04-30 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
CN117079667B (zh) * | 2023-10-16 | 2023-12-22 | 华南师范大学 | 一种场景分类方法、装置、设备和可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802224A (en) * | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
-
1995
- 1995-04-07 JP JP08289795A patent/JP3745403B2/ja not_active Expired - Fee Related
-
1996
- 1996-09-09 US US08/710,013 patent/US5659662A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11404478B2 (en) * | 2019-10-08 | 2022-08-02 | SK Hynix Inc. | Electronic device and method of manufacturing the same |
Also Published As
Publication number | Publication date |
---|---|
US5659662A (en) | 1997-08-19 |
JPH07287592A (ja) | 1995-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3745403B2 (ja) | オーディオデータセグメントのクラスタリング方法 | |
JP3805809B2 (ja) | オーディオデータのセグメンテーション方法 | |
JP3926858B2 (ja) | スピーカーデータのクラスタリング方法 | |
US5606643A (en) | Real-time audio recording system for automatic speaker indexing | |
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
Steinbiss et al. | The Philips research system for large-vocabulary continuous-speech recognition. | |
Zweig | Bayesian network structures and inference techniques for automatic speech recognition | |
Ney et al. | An overview of the Philips research system for large vocabulary continuous speech recognition | |
Cohen | Segmenting speech using dynamic programming | |
Chen et al. | Speaker and expression factorization for audiobook data: Expressiveness and transplantation | |
Chang et al. | Multiple-F0 tracking based on a high-order HMM model | |
Kotti et al. | Automatic speaker change detection with the Bayesian information criterion using MPEG-7 features and a fusion scheme | |
Young | Acoustic modelling for large vocabulary continuous speech recognition | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
Pammi et al. | Detection of nonlinguistic vocalizations using alisp sequencing | |
JP4839555B2 (ja) | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 | |
Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings | |
Kotti et al. | Speaker change detection using BIC: A comparison on two datasets | |
Hu et al. | Gradient boosting learning of Hidden Markov models | |
Shivaprasad et al. | Optimized Features Extraction from Spectral and Temporal Features for Identifying the Telugu Dialects by Using GMM and HMM. | |
Lee | Adaptive compensation for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051117 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |