JPH07287591A - オーディオデータのセグメンテーション方法 - Google Patents

オーディオデータのセグメンテーション方法

Info

Publication number
JPH07287591A
JPH07287591A JP7082899A JP8289995A JPH07287591A JP H07287591 A JPH07287591 A JP H07287591A JP 7082899 A JP7082899 A JP 7082899A JP 8289995 A JP8289995 A JP 8289995A JP H07287591 A JPH07287591 A JP H07287591A
Authority
JP
Japan
Prior art keywords
speaker
audio
hmm
audio data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7082899A
Other languages
English (en)
Other versions
JP3805809B2 (ja
Inventor
Balasubramanian Vijay
バラスブラマニアン ヴィジャイ
Francine R Chen
アール.チェン フランシン
A Chou Philip
エイ.チョウ フィリップ
G Kimber Donald
ジー.キンバー ドナルド
D Poon Alex
ディー.プーン アレックス
Karon A Weber
エイ.ウェバー カロン
D Wilcox Lynn
ディー.ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07287591A publication Critical patent/JPH07287591A/ja
Application granted granted Critical
Publication of JP3805809B2 publication Critical patent/JP3805809B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【目的】 オーディオデータストリーム内にインデック
スを作成する。 【構成】 オーディオストリームはオーディオデータソ
ース12から与えられ、該データは、会話を行うスピー
カー、オーディオトラックを伴う記録ビデオ、または他
のオーディオソースによって与えられることが可能であ
る。オーディオデータはオーディオプロセッサ14へ送
られ、オーディオプロセッサは汎用コンピュータのよう
な任意の公知デバイスであることが可能であり、本発明
に従って構成されることが可能である。オーディオプロ
セッサはオーディオデータインデックス16を出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、記録またはリアルタイ
ムオーディオデータストリームに対する会話音声のスピ
ーカー(話し手)によるセグメンテーションに関する。
【0002】より詳細には、本発明は、会話音声のセグ
メンテーションを自動的に行い、個々のスピーカーモデ
ルから成るスピーカーネットワークを使用してオーディ
オ記録データのインデックス化をリアルタイムまたは後
処理的に行う方法に関する。
【0003】
【従来の技術】オーディオおよびビデオ記録は、コンシ
ューマグレード(消費者レベル)の記録装置の発展によ
って今や一般のものとなっている。後の再生のための過
去の記録としてビジネスミーティング、講義、もしくは
バースデーパーティーが記録されることは今や稀なこと
ではない。不幸にして、オーディオおよびビデオ媒体の
両者は、所望の記録部分にアクセスする際のアシストと
なる外部またはオーディオ情報をほとんど与えない。書
籍においては、巻頭の目次および巻末の索引によってイ
ンデックス化が与えられ、このインデックス化によって
読者は複数の著者の確認および複数の著者の参照を容易
に行うことが可能である。同様のインデックス化方法が
オーディオストリームにおいて有用であり、ユーザーは
特定のスピーカーの会話部分を確認することが可能とな
る。ほとんどのビデオ記録に関連する限られたデータ量
は、見る者が確実におよび容易に所望の関心部分にアク
セスするための充分な情報を与えない。このため見る者
は記録内容を順に調べて所望の情報を検索しなければな
らない。
【0004】例えばスピーカー(話し手)やトピック
(主題)を示すノートのような、記録中に取られたノー
トが検索の補助となることが可能である。このようなノ
ートは構造的アウトラインを与えるが、ビデオ媒体とノ
ート媒体との間には直接的な相関がないため、ノートの
内容を共にしたビデオ上の時刻の補完を強いられる。こ
のことは、非相関媒体におけるイベントノートは通常イ
ベントの継続時間を含まないという事実によって複雑化
する。加えて、そのようなノート化またはインデックス
化は非常に煩わしい。コンピュータシステムがイベント
期間中のノート取得に使用されることが可能であり、該
システムは同時に記録されるかまたは事前に記録され
る。キーボードを使用するテキストベースシステムがこ
の場合に使用されることが可能であるが、ほとんどの人
はタイプするよりもかなり速く話すため、内容を記述す
るコンピュータ生成テキストラベルをリアルタイムで作
成することは相当な努力を必要とする。
【0005】
【発明が解決しようとする課題】オーディオストリーム
において異なるスピーカーを示すスピーカーチェンジマ
ーカーは、異なるシーケンシャルデータへのランダムア
クセスを可能とする。リアルタイム設定においては、そ
のようなオーディオセグメンテーションは、記録が行わ
れている時にその記録の中へ有用なインデックスを作成
する際の補助となり得る。各セグメントは1個人による
発声を表す。同一のスピーカーによる発声は結合され、
また同様に参照されてインデックスが形成される。会話
におけるポーズまたは沈黙期間もまたオーディオインデ
ックス形成において重要である。
【0006】オーディオストリーム内にインデックスを
作成することは、リアルタイムであっても処理後であっ
ても、ユーザーが特定のオーディオデータセグメントを
認識することを可能にする。例えばこのことは、ユーザ
ーが記録を拾い読みして特定のスピーカーに対応するオ
ーディオセグメントを選択したり、次のスピーカーへ記
録を早送りすることを可能にする。加えて、スピーカー
の順序を知ることは、会話または会話の内容に関する内
容情報を与えることも可能である。
【0007】
【課題を解決するための手段】本発明は、複数の個々の
スピーカーからの音声を含むオーディオデータをスピー
カーに従ってセグメンテーションする方法を与える。該
方法は、個々のスピーカーの各々に対する個々のHMM
を与えるステップと、個々のHMMを並列に接続するこ
とによってスピーカーネットワークHMMを形成するス
テップとを含む。スピーカーネットワークHMMを介す
る最適パスが決定され、個々のスピーカーの各々に関連
するオーディオデータセグメントが識別される。セグメ
ンテーションされたデータが使用されてスピーカーに従
うオーディオデータ内にインデックスが形成されること
が可能である。
【0008】スピーカーネットワークの形成に際し、ネ
ットワーク内の任意の特定なスピーカーモデルから外部
へ離れることに対する離脱ペナルティが決定される。ス
ピーカーネットワークは、個々のスピーカーモデルに加
え、サイレンス(無音)およびガーベッジの両者を表す
モデルも有することが可能である。
【0009】以下の説明および図面により本発明の前記
および他の目的、特徴、ならびに利点が明らかとなる。
【0010】
【実施例】図1は一般化されたオーディオ処理システム
10のブロック図を示し、該システムにおいて本発明が
実施されることが可能である。一般に、オーディオスト
リームはオーディオデータソース12から与えられ、該
データは、会話を行うスピーカー、オーディオトラック
を伴う記録ビデオ、または他のオーディオソースによっ
て与えられることが可能である。オーディオデータはオ
ーディオプロセッサ14へ送られ、オーディオプロセッ
サは汎用コンピュータのような任意の公知デバイスであ
ることが可能であり、本発明に従って構成されることが
可能である。オーディオプロセッサはオーディオデータ
インデックス16を出力する。
【0011】図2はオーディオインデックスシステムの
一般化されたフロー図を示す。図2に示されるステップ
は以下により詳細に説明されるが、図2は本発明により
記述される方法の概観を与えるものである。
【0012】既知のスピーカー数に対するトレーニング
データを有するオーディオ波形20はボックス22のス
テップにおける入力である。ボックス24のステップは
音声信号データをスペクトル特徴ベクトルへ変換する。
例えば、12次のケプストラムが20msごとに算出さ
れることが可能である。
【0013】代替として、未知のスピーカーからのオー
ディオストリームは、以下に説明される方法を使用し
て、推定されたスピーカークラスタにセグメンテーショ
ンされることが可能であり、個々のスピーカーモデルの
初期トレーニングデータが確定される。
【0014】ボックス26のステップにおいて、HMM
スピーカーモデルは初期化データに基づき各スピーカー
に対してトレーニングされる。複数の個々のスピーカー
モデルは、モデルを並列に接続することによってボック
ス28のステップにおいて結合され、会話のHMMスピ
ーカーモデルが形成される。
【0015】ボックス30のステップは、セグメンテー
ションが実行されるオーディオストリームを入力する。
オーディオストリームはボックス22のステップで使用
されるトレーニングオーディオデータを含んでも含まな
くてもよい。スピーカーモデルの事前トレーニングに対
してスピーカーが使用可能である場合、入力されるオー
ディオストリームもまたリアルタイムに発生およびセグ
メンテーションされることが可能である。ボックス32
のステップにおいて、入力されるオーディオから再び特
徴が抽出され、この特徴抽出はボックス24のステップ
におけるものと同様である。
【0016】ボックス34のステップはボックス28の
HMMスピーカーネットワークを使用し、入力されるオ
ーディオストリームのセグメンテーションを行う。セグ
メンテーションはビタビ(Viterbi) デコーディングを使
用して行われ、スピーカーネットワークを介する最も確
からしい状態シーケンスが見出され、状態パスがスピー
カーを変更する場合にはマーキングが施される。
【0017】セグメンテーションとインデックス化の確
度は、ボックス26のステップに戻ってスピーカーモデ
ルを再トレーニングすることによる後処理の適用で改善
されることが可能であり、この場合ボックス34のステ
ップからのセグメンテーション情報が使用される。再ト
レーニングと再セグメンテーションの繰り返しは、ボッ
クス34のステップでのセグメンテーションで大きな変
化が生じなくなるまで続けられることが可能である。結
果として生じる、オーディオセグメントおよびスピーカ
ーを示すインデックスはボックス36のステップの出力
である。ボックス32のステップにおける特徴抽出の結
果はまたセーブされることが可能であり、各再トレーニ
ングの繰り返しと共に再使用されてボックス34のステ
ップでオーディオデータが再セグメンテーションされる
ことが可能である。
【0018】隠れマルコフモデル(HMM)によるモデ
ル化は音声認識で一般的に使用される統計的方法であ
り、ワード全体、もしくは単音のようなサブワードがモ
デル化される。未知の発声の認識は、その発声が最も確
からしく与えられるモデルもしくはモデルのシーケンス
を見出すことに基づいている。HMMはスピーカーの識
別においても使用されることが可能である。モデルはス
ピーカーの発音に対して作成され、その場合発音は特定
のワードについてのものであっても自然な音声について
のものであってもよい。スピーカーの識別は、未知の発
声が最も確からしく与えられるスピーカーモデルを見出
すことによって行われる。未知の発声が複数のスピーカ
ーからの音声を含む場合、スピーカーは最も確からしい
スピーカーモデルのシーケンスを見出すことによって識
別される。
【0019】理論的に、HMMは状態のシーケンスから
成り、該状態シーケンスは定められた時間間隔で状態間
に発生する遷移を伴う。ある状態への遷移が行われるた
びに、その状態の出力特性が発生される。音声認識およ
びスピーカー識別の両者において、これらの出力はその
時間間隔に対する音声のスペクトル推定を表す。例えば
ケプストラムがその例である。ケプストラムはスペクト
ルエンベロープ(包絡線)の推定であり、音声認識およ
びスピーカー識別で一般に使用される。ケプストラム
は、スペクトルの対数のフーリエ逆変換であり、スペク
トルエンベロープと周期的音声ソースとを分離するよう
作用する。
【0020】状態間の遷移は出力のシーケンスを特定す
る。状態間遷移および各状態出力に確率を関連付けるこ
とによって、HMMが使用されて音声を統計的にモデル
化することが可能となる。システムの出力のみが観測さ
れるため「隠れ(hidden) 」という言葉が用いられる。
即ち、基礎となる状態シーケンスは推定され得るのみで
ある。
【0021】より形式的には、HMM L は、S0...
N-1 のN個の状態、状態iから状態jへの遷移確率a
ij,i=0...N-1,j=0...N-1、ならびに状態iで出力xを生
じる確率を与える確率分布bi (x) ,i=0...N-1、から成
る。例えば、bi (x) は特徴ベクトル xに対する多変数
ガウス分布であることが可能である。加えて、遷移可能
であるが出力を発生しないヌル状態が存在する。図3は
5状態のHMMを示す。状態S0 から状態S1 、S2
たはS3 への遷移確率は画一的であり、即ち、a0j=1/
3,j=1,2,3である。状態Si ,i=1,2,3については、自己
遷移および状態S4 への遷移が存在し、それらは等確率
である。従ってaii=1/2およびai4=1/2,i=1,2,3であ
る。状態S4 については遷移は常にS0 へ行われ、従っ
てa40=1である。状態S1 、S2 、およびS3 に関連す
る出力分布は、それぞれb1 (x) 、b2 (x) 、およびb
3 (x) である。状態S0 およびS4 はヌル状態であり、
従って関連する出力を有さない。状態S0 とS4 を結合
することによって等価なHMMが形成されることがかの
うである。しかし、HMMを結合してより大きなHMM
ネットワークを形成するタスクを簡素化するために、こ
のことは行われない。これについては以下に説明が行わ
れる。HMMに関するより深い検討は、Rabiner による
「A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition」(Proc.IEEE,vo
l.77,No.2,February,1989,pp.257-285)に見出される。
【0022】対象物のシーケンスをモデル化するネット
ワークHMMは、以下のように個々のHMMを並列に結
合することにより作成される。認識されるL個の対象物
の各々に対するHMMをLi ,i=1,...,Mとする。先に述
べたように、対象物は単語、単音、またはスピーカーの
いづれであってもよい。ネットワークHMMは、許容さ
れる全ての対象物シーケンスに対して対象物HMM間の
遷移を付加することにより作成される。図4において、
HMM L1 、L2 、およびL3 によって3つの対象物
がモデル化されている。これら対象物は、遷移により示
されるように任意の順序で発生可能である。状態S0
ヌル状態であり、従って出力を発生しない。S0 から
は、対象物HMM L1 、L2 、およびL3 への遷移は
等確率となる。全ての対象物HMMからの遷移は状態S
R に向かい、次に状態S0 への遷移となる。
【0023】T個の出力X=x1...xT のシーケンスが
与えられる場合、どの対象物HMMシーケンスが最も確
からしく出力シーケンスXを発生したかを決定すること
により認識が実行される。これにはビタビアルゴリズム
が使用され、最も確からしく出力Xを発生したネットワ
ークを介する状態シーケンスが見出される。シーケンス
内の各状態は、認識される対象物の内の1つのHMMに
対して特定されるため、最も確からしい状態シーケンス
は認識対象物のシーケンスを特定する。図5はビタビア
ルゴリズムの結果を概略的に示す。x軸は時間を示し、
y軸はネットワークHMM内の現行状態を示す。HMM
1 、L2 、およびL3 に対応する状態はy軸上の領
域によって示される。与えられた出力を結果としてもた
らし得る状態シーケンスが多数存在可能であるが、ビタ
ビアルゴリズムは最も確からしい状態シーケンスを見出
す。図5はビタビパスを示す。時刻t0 において最も確
からしい対象物はL1 である。時刻t1 において対象物
はL2 であり、t2 においてはL3 である。時刻t3
おいて最も確からしい対象物はL1 となる。
【0024】HMMに対するパラメータは、次に、遷移
確率aijおよび出力確率bi (x) である。これらパラメ
ータは、HMMによってモデル化された対象物によって
既に発生されたことがわかっている出力Xを用いてHM
Mをトレーニングすることにより学習されることが可能
である。Baum-Welchプロシジャーとして知られているア
ルゴリズムが一般に使用される。このアルゴリズムは、
トレーニングデータXの尤度を最大にするパラメータ値
を繰り返し処理により見出すアルゴリズムである。該ア
ルゴリズムは、パラメータの初期推定から開始する。続
いて以下のステップが実行される。(1)トレーニング
データに基づき、状態間遷移確率および状態からの出力
確率を算出する。(2)これらの確率を使用し、遷移確
率aijおよび出力確率bi (x) の推定値を算出する。ス
テップ(1)および(2)は収束が得られるまで繰り返
される。
【0025】前述のように、隠れマルコフモデルが使用
されてスピーカー識別を目的として個々のスピーカーが
モデル化されることが可能である。図6に示されるよう
に、(特定の発声に対向する)個々の発声スタイルが3
5状態HMM60を使用してモデル化されることが可能
である。状態S0 はヌル状態であり、出力を発生する状
態S1,...,S32およびSSIL への遷移を伴う。これらの
遷移確率はp1,...,p32およびpSIL により与えられ
る。これら出力発生状態の各々は、確率qi を伴う自己
遷移、ならびに確率1−qi を伴う最終ヌル状態S34
の遷移を有している。ヌル状態S34は確率1で初期ヌル
状態S0 へ遷移する。各非ヌル状態はガウシアン出力分
布を有しており、平均ベクトルおよび対角共分散マトリ
ックスにより特性付けられる。
【0026】図7はサイレンス(無音)サブネットワー
クを示す。該サブネットワークは直列に接続された3状
態から成る。各状態は、通常もしくは結合されたガウシ
アン出力分布を有し、該分布はラベルSILで示されて
いる。この出力分布はまた、スピーカーモデル60のサ
イレンス状態62における出力分布と同一であり、該分
布は状態ラベルSILで示されている。サイレンスサブ
ネットワークは長時間間隔の無音状態をモデル化する
が、会話の発声におけるポーズや短時間間隔の無音状態
に対しては適切でない。これらポーズや短時間間隔の無
音状態は、個々のスピーカーモデルにおけるサイレンス
状態62によってモデル化される。スピーカーHMMの
サイレンス状態における出力分布は全て結合されてサイ
レンスサブネットワークにおける出力分布となる。
【0027】スピーカーHMMの各々は、与えられたス
ピーカーの発声スタイルに対してトレーニングされなけ
ればならない。このトレーニングは先に述べたBaum-Wel
chアルゴリズムを使用して行われ、遷移確率aij、およ
びガウシアン出力確率bi (x) に対する平均および対角
共分散が推定される。HMMパラメータの初期推定値は
次のように得られる。全ての遷移確率が画一的に設定さ
れ、この結果、与えられた状態からの全ての遷移は等確
率となる。ガウシアン出力分布を初期化するために、ス
ピーカーに対するトレーニングデータから全体平均およ
び対角共分散マトリックスが算出される。全ての状態に
対するガウシアン出力分布についての共分散マトリック
スが全体的共分散マトリックスに設定される。全体平均
に小さな定数を加えることによって平均が設定され、そ
の場合該定数は異なる各状態に対するランダム要素に対
して加えられる。Baum-Welch繰り返し処理がスピーカー
のトレーニングデータを用いて次に実行される。
【0028】認識されるスピーカーが事前にわかってい
る場合、Baum-Welchアルゴリズムに対するトレーニング
データは、30秒から1分の各スピーカーに対する音声
データを使用して得られる。音声はスピーカーの通常の
発声スタイルを表さなければならないが、この場合使用
される実際の単語は重要でない。
【0029】スピーカーおよびサイレンスサブネットワ
ークに加えて、ガーベッジ(garbage)サブネットワーク
が頻繁に使用され、スピーカーモデルまたは存在可能な
非音声音の内の1つによって特定されない任意のスピー
カーがモデル化される。ガーベッジネットワークの形態
は、図6に示されるスピーカーネットワークのそれと同
じである。しかし、アプリケーションに依存してガーベ
ッジネットワークは異なるデータを使用してトレーニン
グされる。例えば、ガーベッジサブネットワークが使用
されて非音声音がモデル化される場合、それはスピーカ
ーモデルとしてトレーニングされなければならないが、
この場合非音声データが使用される。システムに対して
未知のスピーカーをモデル化する場合、トレーニングデ
ータを得る1つの方法は、既知の各スピーカーからの音
声の部分を使用することである。
【0030】ガーベッジモデルをトレーニングする際に
全てのスピーカーからの全てのデータが必ずしも使用さ
れないことは重要である。全ての有効なデータを使用す
ることは、各スピーカーモデルに対してよりもガーベッ
ジモデルに対してより多くのトレーニングデータを与
え、全てのスピーカーに対してより確実なスピーカーモ
デルを作成する効果を有する。従って、結果として得ら
れるHMMネットワークはほとんどの音声をガーベッジ
として分類する。
【0031】1実施例において、入力オーディオトレー
ニングデータは8KHzでサンプルされ、10msごと
に特徴ベクトルが算出される。例えば、各フレームに対
する特徴ベクトルは、25msウィンドウ下のサンプル
に関する20次の線型予測符号化(LPC)を行うこと
によって算出されることが可能であり、従ってLPCス
ペクトルから20個のケプストラム定数が算出されるこ
とが可能である。
【0032】いくつかの場合においては、認識されるス
ピーカーは事前にわかっていない。しかし、スピーカー
モデルに対する初期推定を得ることがそのような場合に
も必要である。この初期推定は、階層的な集塊性のクラ
スタリングを使用して行われ、異なるスピーカーとして
認識されるデータのラフな区分が作成される。
【0033】スピーカーが未知の場合、スピーカーに従
うデータの区分を与えることによってスピーカーサブネ
ットワークの初期推定を得るために階層的な集塊性のク
ラスタリングが使用されることが可能である。このデー
タは次にスピーカーHMMのBaum-Welchトレーニングに
対するトレーニングデータとして使用されることが可能
である。
【0034】セグメンテーションされていないデータ
は、最初に等しい長さのセグメントに分割され、各セグ
メントは数秒の音声から成る。これらのセグメントは階
層的クラスタリングに対する初期クラスタ集合として使
用される。該アルゴリズムは、最初に全てのクラスタペ
アについてのクラスタ間距離を算出し、次に最も近い2
つのクラスタを併合することによって進行する。このプ
ロセスは所望のスピーカークラスタ数が得られるまで繰
り返される。このプロセスが図8に概略的に示されてい
る。スピーカー数が未知の場合、このアルゴリズムが使
用されてスピーカー数が推定されることが可能である。
その場合、最近接クラスタの併合は、最近接クラスタ間
距離が定められたスレショルドを越えるまで継続する。
スレショルドを越えるとクラスタリングは中止され、そ
の時のクラスタ数がスピーカー数の推定値として使用さ
れる。
【0035】図8は、スピーカーでラベル付けされてい
るインターバル集合上の階層的クラスタリング100を
概略的に示す。オリジナルインターバル102は、C、
L、およびTで3つのスピーカーに対してラベル付けさ
れたツリーのリーフによって示される。そのような全て
のインターバルについてのインターバル間距離が算出さ
れ、104に示されるように最も近接する2つのインタ
ーバルが併合される。
【0036】この最近接クラスタ併合プロセスは、所望
のクラスタ数が形成されるまで繰り返される。3つのク
ラスタに対し、それらクラスタに対応する3つの分岐が
示されている。第1のクラスタ106はほとんどスピー
カーCからのインターバルを含み、第2のクラスタ10
8はほとんどスピーカーLからのインターバルを含み、
第3のクラスタ110はほとんどスピーカーTからのイ
ンターバルを含む。
【0037】スピーカー数が未知の場合、距離に対する
スレショルドが設定され、スレショルドが越えられた場
合にクラスタの併合が中止される。このことは線112
により概略的に示されており、該線は4つのクラスタを
生成する。(クラスタ1は2つに分割されている。)ク
ラスタXが単一セグメントX=xかまたはセグメント集
合X=x1,x2,...から成ると仮定する。クラスタXお
よびY間の距離はd(X,Y)により表される。前述の
システムにおいて、セグメント間距離はガウシアン分布
の仮定に基づき尤度比によって導出された。x=
1,...,sr はある1つのセグメント内のデータを表
し、y=sr+1,...,sn はその他のセグメント内のデー
タを表し、z=s1,...,sn は合成セグメント内のデー
タを表すものとする。L(x,θx )はxシーケンスの
尤度とし、ここでθx はガウシアン分布のパラメータに
対する推定値である。同様にL(y,θy )はyシーケ
ンスの尤度とし、L(z,θz )は合成シーケンスzの
尤度とする。λは尤度比を表すとすると、次式のように
表される。
【0038】
【数1】
【0039】クラスタリングの際に使用される距離計量
は−log(λ)である。音声データは単一のガウシア
ン分布では充分にモデル化されないため、尤度比はガウ
シアン分布の混成結合に拡張される。セグメンテーショ
ンされていないデータが最初に使用され、M個のガウシ
アン分布の混成に対する平均および共分散マトリックス
が推定される。次にこれらは残りの解析により確定され
る。Ni ( s)=N(s:Mi , σi )はi番目の混成
要素に関連するガウシアン分布とし、gi (x)はデー
タシーケンスxを使用して推定されたi番目の混成要素
に対する重みとする。gi (x)はNi ( s)が最大と
なるx内のサンプルの割合である。従ってxシーケンス
の尤度は次式のように表される。
【0040】
【数2】
【0041】ここでθx =(g1 (x),..., g
M (x))である。尤度L(y,θy )も同様に算出さ
れる。合成シーケンスに対する尤度L(z,θz )の算
出において、混成要素に対する重みgi (z)として次
式を得る。
【0042】
【数3】
【0043】クラスタリングに対する距離計量、dL
−log(λL )は従って式(1)を使用して算出され
ることが可能である。
【0044】本発明のクラスタリングプロシジャーは、
クラスタを含むインターバルにおけるインターバル間距
離の最大、最小、もしくは平均を使用するよりもむしろ
式(1)を使用して集塊性のクラスタ間距離を再計算す
る点において、通常の階層的クラスタリングと異なって
いる。従って式(2)および(3)により与えられる尤
度の計算効率が重要となる。これはクラスタリングレベ
ルの各々において距離が再計算されるためである。
【0045】加えて、スピーカーチェンジの事前確率は
M個のスピーカーを伴うマルコフデュレーションモデル
を使用して算出されることが可能である。Si はセグメ
ントiの期間中のスピーカーを表し、Mはスピーカー数
を表すとする。Si は、各スピーカーaに対してP
r 〔Si+1 =a|Si =a〕=p、および各スピーカー
aおよびb(aに等しくない)に対してPr 〔Si+1
b|Si =a〕=(1−p)/(M−1)を伴うマルコ
フ連鎖であると仮定する。セグメントiに対するスピー
カーがセグメントi+nに対しても発声する確率P
r 〔Si+n =Si 〕は、2状態マルコフ連鎖を使用して
算出されることが可能であり、その場合連鎖の状態1は
時刻iにおけるスピーカーを表し、状態2は他の全ての
スピーカーを表す。この連鎖に対する遷移確率マトリッ
クスPは次式のように表される。
【0046】
【数4】
【0047】このマトリックスに関し、Pr 〔Si+n
i 〕=(Pn 11である。Pを対角化することによ
り、Pr 〔Si+n =Si 〕は次式のようによりクローズ
した形態で表されることが可能である。
【0048】
【数5】
【0049】この式を使用して、2つの与えられたクラ
スタが同一のスピーカーまたは2つの異なるスピーカー
によって生成される事前確率を算出することが可能であ
る。Cをスピーカーチェンジが発生するインターバル数
とし、ni をi番目のインターバル長とすると、デュレ
ーションバイアスは次式のように定義される。
【0050】
【数6】
【0051】デュレーションバイアスされた距離はdD
(X,Y)=−log(λL )−log(λD )として
定義される。
【0052】図9に示されるスピーカーセグメンテーシ
ョンネットワーク120は、各スピーカーに対するサブ
ネットワーク60と、サイレンスおよびガーベッジに対
するオプショナルなサブネットワーク64および122
とから成る。ガーベッジは、オーディオ中の未知のスピ
ーカーまたは非音声音のような、スピーカーまたはサイ
レンスモデルによってモデル化されない音声または音と
して定義される。スピーカー、ガーベッジ、およびサイ
レンスサブネットワークは以下に述べるように得られ
る。ネットワークモデルは、2またはそれ以上のスピー
カーによるバックグランドノイズを伴う会話をモデル化
する。
【0053】ネットワーク60のような個々のスピーカ
ーサブネットワークは互いに並列に結合され、各サブネ
ットワークから外部への遷移確率は小さいペナルティ定
数εに固定されて、孤立サンプルに基づくスピーカーチ
ェンジが抑制される。各スピーカーサブネットワーク6
0はL個の状態を伴うHMMから成り、それらHMMは
並列に接続される。各状態は、ガウシアン出力分布、自
己遷移、および他状態への遷移を有する。
【0054】初期ヌル状態からスピーカー、ガーベッ
ジ、およびサイレンスサブネットワークへの遷移確率は
画一的である。スピーカー、ガーベッジ、およびサイレ
ンスモデルから外部への遷移確率ペナルティは定数εに
設定される。原理的に、これら遷移確率はスピーカーに
依存し、トレーニング期間中に学習される。しかし、簡
素化を目的として、スピーカーの事前確率は画一値に仮
定され、スピーカーを離れる確率εは経験的に選択され
て孤立サンプルに基づくスピーカーチェンジが抑制され
る。
【0055】実際には、この遷移確率は著しく小さい。
(10-20 のオーダーである。)従って各スピーカーモ
デルから外部への遷移は、スピーカーからスピーカーへ
の切替にペナルティを与えるよう作用する。
【0056】スピーカー間の会話をインデックス化する
ことは単に、観測された特徴ベクトルに関する与えられ
たシーケンスであるネットワークモデルを介する最も確
からしい状態シーケンスを見出すことである。スピーカ
ーサブネットワークが初期化された後、スピーカーセグ
メンテーションネットワークを介する最も確からしい状
態シーケンスを見出すことによりスピーカーセグメンテ
ーションが実行され、状態パスがスピーカーを変更する
時点でマーキングが施される。最適な状態が1つのスピ
ーカーモデルから他のスピーカーモデルへ切り替わる場
合にスピーカーチェンジが発生する。最適な状態シーケ
ンスを見出すことはビタビアルゴリズムを使用して達成
される。セグメンテーションの確度は、セグメンテーシ
ョンされたデータを使用してスピーカーサブネットワー
クを再トレーニングすることによって改善されることが
可能である。このセグメンテーションおよび再トレーニ
ングのプロセスは、セグメンテーションにおいて変化が
生じなくなるまで繰り返される。
【0057】部分的トレースバックの方法または連続的
デコーディングがビタビ探索で使用される。部分的トレ
ースバックは、Brown らによる「Partial Traceback an
d Dynamic Programming 」(Proc.Int.Conf.Acoustics,S
peech and Signal Processing,May 1992,pp.1629-1632)
に記載されている。このアルゴリズムにおいて、全ての
状態からの各タイムステップにおいてビタビトレースバ
ックが実行され、全てのパスの初期部分が整合する場合
にはデコーディングが可能となる。実際に被る遅延は1
秒未満である。
【0058】非リアルタイムのアプリケーションに対
し、音声のセグメンテーションが繰り返し実行され、そ
の場合各セグメンテーションの後にスピーカーモデルが
再トレーニングされる。このことはセグメンテーション
の確度を向上させ、特にスピーカートレーニングデータ
が使用不可能な場合に有効である。
【0059】繰り返し再セグメンテーションアルゴリズ
ムが図10に示される。前述のように、最初にトレーニ
ングデータ集合がボックス130のステップで与えら
れ、ボックス132のステップでスピーカーモデルがト
レーニングされる。次にボックス134のステップでこ
れらスピーカーモデルに基づきセグメンテーションが実
行される。ボックス134のステップでのセグメンテー
ションが大きく変化する場合、この改善されたセグメン
テーションはスピーカーに対する新たなトレーニングデ
ータとして使用され、ボックス132のステップでスピ
ーカーモデルが再トレーニングされる。このプロセスは
ボックス136のステップでセグメンテーションが変化
しなくなるまで続けられる。
【0060】図11は、オーディオデータが記録デバイ
スによって記憶媒体上に記憶される場合にリアルタイム
でオーディオデータのインデックスを作成する、本発明
のシステム140を示す。
【0061】メモリ148から命令を得るシステムプロ
セッサ146はトレーニングデータ147を受信してス
ピーカーモデルを決定する。スピーカーモデルは結合さ
れ、後のオーディオストリーム処理のためのスピーカー
ネットワークが形成される。トレーニングデータ147
は、識別される各スピーカーに対するトレーニングデー
タを有していなければならない。図11に示されるよう
に、トレーニングデータ147はそのオリジナルなオー
ディオ波形から既に処理されており、スペクトル特徴デ
ータの形態でシステムプロセッサ146に保存されてい
る。
【0062】オーディオ入力141はオーディオプロセ
ッサ142によってスペクトル特徴データへ処理され、
システムプロセッサ146に与えられる。これと同時
に、オーディオ入力はオーディオ記録デバイス143に
よって記憶媒体144上に記録される。記録デバイス1
43は、オーディオストリーム情報をアナログまたはデ
ジタル形態で記憶することが可能であり、純粋なオーデ
ィオ記録、もしくはオーディオ/ビデオ記録の部分であ
ることが可能である。
【0063】スペクトルデータは、システムプロセッサ
146によってトレーニングデータ147から作成され
たスピーカーネットワークを使用することによってシス
テムプロセッサ146によって処理される。オーディオ
ストリームにおいて新たなセグメントの各々が検出され
ると、システムプロセッサ146はタイムソース145
からタイムスタンプを得る。タイムスタンプは、オーデ
ィオデータの記憶媒体144上への記憶時間を示す。タ
イムソース145は、例えば、記録が開始される時に始
動する時計であることが可能であり、もしくは、記憶媒
体に接続された記録デバイスから時間を記録するデバイ
スであることが可能である。このタイムスタンプは、セ
グメントの作成者の識別子と共にメモリ148に記憶さ
れ、後にスピーカーに従うインデックスへ収集される。
【0064】図12は、オーディオ記録データのスピー
カーに従うインデックスを作成および記憶する、システ
ム190における本発明のその他の実施例を示す。
【0065】トレーニングデータ196はシステムプロ
セッサ194へ与えられ、スピーカーモデルおよびスピ
ーカーネットワークが生成される。トレーニングデータ
196は識別される各スピーカーに対するトレーニング
データを有していなければならない。図12に示される
ように、トレーニングデータは、既にそのオリジナルな
オーディオ波形から処理されており、スペクトル特徴デ
ータとしてシステムプロセッサ194に保存されてい
る。識別された各スピーカーに対して記録の部分が孤立
され得る場合、トレーニングデータはまたオーディオ記
録入力191の部分であることが可能である。
【0066】オーディオ記録入力191はオーディオプ
ロセッサ192によってスペクトル特徴データへ処理さ
れ、システムプロセッサ194へ与えられる。スペクト
ル特徴データは、システムプロセッサ194による後の
繰り返し処理のためにメモリ197に記憶されることが
可能である。
【0067】スペクトルデータは、システムプロセッサ
194によってトレーニングデータ196から作成され
たスピーカーネットワークを使用することによってシス
テムプロセッサ194によって処理される。オーディオ
ストリームにおいて新たなセグメントの各々が検出され
ると、システムプロセッサ194はタイムソース193
からタイムスタンプを得る。タイムスタンプは、オーデ
ィオ入力191の記録からのオーディオデータの記録ア
ドレスまたは記憶時間を示す。タイムソース193は、
例えば、記録が開始される時に始動する時計であること
が可能であり、もしくは、記憶媒体に接続された記録デ
バイスから時間を記録するデバイスであることが可能で
ある。このタイムスタンプは、セグメントの作成者の識
別子と共にメモリ195に記憶され、後にスピーカーに
従うインデックスへ収集される。
【0068】図11のシステム140によって記録され
るオーディオデータは、図12のシステム190におい
て記録データ191として使用されることが可能であ
る。そのような場合、システム140によって作成され
るインデックスが使用されてトレーニングデータ196
が与えられることが可能であり、特定のスピーカーに属
するセグメントの各集合は、新たなスピーカーモデルを
トレーニングするトレーニングデータとして使用され
る。システムプロセッサ194は新たなスピーカーモデ
ルを使用し、それらを結合してネットワークとし、オー
ディオストリームの再セグメンテーションを行う。その
ような繰り返し処理は、システム140からシステム1
90へのものであれ、もしくはシステム190を繰り返
し介するものであれ、セグメンテーションの確度をさら
に向上させる。
【0069】図13は、オーディオストリームのインデ
ックスを決定する前述の方法のアプリケーションを示
す。図13におけるステップはリアルタイムもしくは後
処理モードで実行されることが可能である。オーディオ
ストリームは通常、オーディオタイミングに相関付けら
れたセグメント情報と共に記録される。ボックス150
のステップは既知のスピーカーからトレーニングデータ
を選択する。前述のように、そのようなトレーニングデ
ータは個々のスピーカーによる30秒から1分の音声か
ら成ることが可能である。このトレーニングデータがボ
ックス152のステップで使用されて個々のスピーカー
各々に対するHMMスピーカーモデルがトレーニングさ
れる。
【0070】ボックス154のステップにおいて、図9
に関連して述べられたように、個々のモデルが並列に接
続されてスピーカーセグメンテーションネットワークが
形成される。この時点で、個々のスピーカーモデルから
離れることに対するペナルティが挿入される。ボックス
156のステップはガーベッジ、即ち未知のスピーカー
および/または非音声音、およびサイレンスインターバ
ルに対するモデルを作成および付加する。サイレンスお
よびガーベッジモデルはボックス152のステップで既
に作成されていることも可能である。
【0071】ボックス158のステップにおいて、オー
ディオストリームはスピーカーセグメンテーションネッ
トワークを使用してセグメントに分解される。セグメン
トは、ボックス160のステップにおいて各セグメント
に対するスピーカーの識別子を用いてマーキングされ
る。ボックス162のステップは同様のマーキングが施
されたセグメントを収集してオーディオ記録のスピーカ
ーインデックスを作成する。
【0072】リアルタイム動作が必要ない場合、図14
に関して述べられるように、より詳細な処理が実行され
ることが可能である。ボックス170から180に示さ
れるステップは、図13のボックス150から160に
示されるステップに関して述べられた方法と同様に実行
される。
【0073】ボックス182に示されるステップにおい
て、テストが実行され、ボックス178のステップで決
定されたセグメンテーションが前のセグメンテーション
から変化したかどうかが決定される。セグメンテーショ
ンに大きな変化があった場合、システムはボックス17
2のステップに戻り、スピーカーモデルの再トレーニン
グおよびオーディオストリームの再セグメンテーション
が行われる。シーケンスの初期には前のセグメンテーシ
ョンが存在しないためシステムは前述のように繰り返し
を行う。オーディオストリームのセグメンテーションに
おいて繰り返し処理により大きな変化が生じなくなった
場合、同様のマーキングが施されたセグメントが収集さ
れてボックス184のステップでインデックスが作成さ
れることが可能である。
【0074】図15は、オーディオ記録データのスピー
カーに従うインデックスを作成および記憶する、システ
ム190における本発明の1実施例を示す。
【0075】オーディオ記録入力191はオーディオプ
ロセッサ192によってスペクトル特徴データへ処理さ
れ、システムプロセッサ194へ与えられる。スペクト
ル特徴データは、システムプロセッサ194による後の
繰り返し処理のためにメモリ197に記憶されることが
可能である。
【0076】オーディオプロセッサ192によってシス
テムプロセッサ194へ与えられるスペクトルデータ
は、最初にセグメンテーションおよびクラスタリングさ
れ、初期スピーカーモデルをトレーニングしてスピーカ
ーネットワークを作成するためのデータが与えられる。
スペクトルデータはシステムプロセッサ194によって
再び処理される。スペクトルデータは、システムプロセ
ッサ194によって作成されたスピーカーネットワーク
を使用してシステムプロセッサ194によって処理され
る。オーディオストリームにおいて新たなセグメントの
各々が検出されると、システムプロセッサ194はタイ
ムソース193からタイムスタンプを得る。タイムスタ
ンプは、オーディオ入力191の記録からのオーディオ
データに関する記録アドレスもしくは記憶時間を示す。
タイムソース193は、例えば、記録が開始される時に
始動する時計であることが可能であり、もしくは、記憶
媒体に接続された記録デバイスから時間を記録するデバ
イスであることが可能である。このタイムスタンプは、
セグメントの作成者の識別子と共にメモリ195に記憶
され、後にスピーカーに従うインデックスへ収集され
る。
【0077】図16は、スピーカーが事前にわかってい
ない場合にオーディオストリームのインデックスを決定
する前述の方法に関するアプリケーションを記述するも
のである。ボックス200のステップは処理されるオー
ディオデータを選択する。先に述べたように、このステ
ップで使用されるオーディオは、処理されるオーディオ
ストリーム内の少なくとも全てのスピーカーからの音声
を有する部分を含むことが可能であるが、オーディオス
トリーム全体に関して議論を進めることとする。ボック
ス202のステップにおいて、オーディオストリームは
セグメントに分解され、このセグメントは通常等しく短
い長さである。これら初期セグメントは初期クラスタと
して後のステップで使用される。
【0078】ボックス206のステップは各クラスタに
ついてクラスタ間距離を算出し、ボックス208のステ
ップは最小距離を有する2つのクラスタを併合する。ボ
ックス210のステップにおいて所望数よりも多くのク
ラスタが存在する場合、ボックス206のステップにお
いて新たなクラスタ間距離が算出され、ボックス210
のステップにおいて2つの最近接クラスタが再び併合さ
れる。この処理は所望のクラスタ数が残るまで繰り返さ
れる。所望のクラスタ数は、クラスタ間のトータル距離
制限かもしくは集合数に基づくことが可能である。例え
ば、オーディオセグメント内のスピーカー総数は、トレ
ーニングデータが使用不可能な場合であっても知られて
いることが可能である。そのような数の初期クラスタが
決定されるまで併合を行うようシステムが設定されるこ
とが可能である。
【0079】初期クラスタリングが完了すると、ボック
ス212のステップは個々のスピーカーモデルHMMの
トレーニングを行う。これら個々のモデルはボックス2
14のステップにおいて並列に結合され、スピーカーを
離れることに対するペナルティが付与される。サイレン
スおよびガーベッジモデルがボックス212のステップ
で発生されておらず、ネットワークに付加されていない
場合、それらはボックス216のステップで付加される
ことが可能である。ボックス218のステップにおい
て、オーディオストリームはスピーカーセグメンテーシ
ョンネットワークを使用してセグメントに分割される。
ボックス220のステップにおいて、セグメントは各セ
グメントに対するスピーカーの識別子によりマーキング
される。
【0080】ボックス222のステップは前の繰り返し
処理においてセグメンテーションが大きく変化したかど
うかをチェックする。もしそうである場合、ボックス2
12のステップにおいてモデルが再トレーニングされ、
改良されたモデルを用いてセグメンテーションの繰り返
し処理が実行される。再トレーニングの結果として大き
な変化が生じない場合、繰り返し処理は完了し、個々の
モデルによって同様にマーキングされたセグメントを収
集することによって記録に対するインデックスが作成さ
れる。
【0081】情報のインデックス化は、スピーカーID
に基づきオーディオストリームの再生を検索および制御
する能力をユーザーに与えることが可能である。例え
ば、ユーザーは特定のスピーカーによる発言のみを検索
したいかもしれない。ユーザーはさらに、オーディオイ
ンデックス情報を使用してオーディオ記録を検索するか
もしれない。ユーザーは、いくつかのスピーカーセグメ
ントをスキップし、次のスピーカーへ効果的に早送りを
行うかもしくは特定のスピーカーセグメントの始まりへ
巻戻しを行いたいかもしれない。
【0082】
【発明の効果】以上説明したように、本発明の方法によ
れば、オーディオストリーム内にインデックスを作成す
ることが可能となり、リアルタイムであっても処理後で
あっても、ユーザーが特定のスピーカーに関連するオー
ディオデータセグメントを認識することが可能となる。
【図面の簡単な説明】
【図1】本発明が実施されることが可能である一般化さ
れたオーディオ処理システムのブロック図である。
【図2】オーディオインデックスシステムの一般化され
たフロー図である。
【図3】5状態隠れマルコフモデル(HMM)を示す図
である。
【図4】HMMによってモデル化される3つの対象物の
HMMネットワークを示す図である。
【図5】ビタビアルゴリズムの結果を概略的に示す図で
ある。
【図6】個々のスピーカーの発声スタイルをモデル化す
る35状態HMMを示す図である。
【図7】サイレンスサブネットワークを示す図である。
【図8】スピーカーによってラベル付けされたインター
バル集合上の階層的クラスタリングを概略的に示す図で
ある。
【図9】各スピーカーに対するサブネットワークと、サ
イレンスおよびガーベッジに対するオプショナルなサブ
ネットワークとから成るスピーカーセグメンテーション
ネットワークを示す図である。
【図10】繰り返し再セグメンテーションアルゴリズム
を概略的に示す図である。
【図11】オーディオデータが記録デバイスによって記
憶媒体上へ記憶される場合にリアルタイムにオーディオ
データインデックスを作成する本発明のシステムを示す
図である。
【図12】事前に記録されたオーディオデータのスピー
カーに従うインデックスを作成および記憶するシステム
における本発明のその他の実施例を示す図である。
【図13】オーディオストリームのインデックスを決定
する前述の方法のアプリケーションを示す図である。
【図14】オーディオストリームのインデックスを決定
する際に実行されることが可能なより詳細なプロセスを
示す図である。
【図15】オーディオ記録データのスピーカーに従うイ
ンデックスを作成および記憶するシステムにおける本発
明の1実施例を示す図である。
【図16】スピーカーが未知の場合にオーディオストリ
ームのインデックスを決定する前述の方法のアプリケー
ションを示す図である。
【符号の説明】
12 オーディオデータソース 14 オーディオプロセッサ 16 オーディオデータインデックス 60 35状態HMM 120 スピーカーセグメンテーションネットワーク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フランシン アール.チェン アメリカ合衆国 カリフォルニア州 94025 メンロ パーク シャーマン ア ヴェニュー 975 (72)発明者 フィリップ エイ.チョウ アメリカ合衆国 カリフォルニア州 94025 メンロ パーク ブラックバーン アヴェニュー 116 (72)発明者 ドナルド ジー.キンバー アメリカ合衆国 カリフォルニア州 94040 マウント ビュー ヴィクター ストリート 678 ナンバー 3 (72)発明者 アレックス ディー.プーン アメリカ合衆国 カリフォルニア州 94040 マウンテン ビュー サウス レ ングストーフ アヴェニュー 575 アパ ートメント ナンバー 21 (72)発明者 カロン エイ.ウェバー アメリカ合衆国 カリフォルニア州 94109 サンフランシスコ ユニオン ス トリート 1330 ナンバー 22 (72)発明者 リン ディー.ウィルコックス アメリカ合衆国 カリフォルニア州 94028 ポートラ ヴァレー ジョアクイ ン ロード 45

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 スピーカーに従ってオーディオデータを
    セグメンテーションする方法であって、前記オーディオ
    データは複数の個々のスピーカーからの音声を含み、前
    記方法は、 オーディオデータの個々のスピーカーの各々に対して個
    々のHMM(隠れマルコフモデル)を与えるステップ
    と、 前記個々のHMMを並列に接続することによってスピー
    カーネットワークHMMを形成するステップと、 前記オーディオデータに対してスピーカーネットワーク
    HMMを介する最適パスを決定し、個々のHMMの各々
    に関連する前記オーディオデータのセグメントを識別す
    るステップと、 前記パスの各セグメントの個々のスピーカーを決定する
    ステップと、 を含む、オーディオデータのセグメンテーション方法。
  2. 【請求項2】 スピーカーネットワークHMMを形成す
    るステップはさらに、前記スピーカーネットワーク内の
    特定な個々のHMMから外部へ離脱することに対する離
    脱ペナルティを決定するステップを含む、請求項1に記
    載の方法。
  3. 【請求項3】 前記個々のHMMの各々は複数の状態を
    含む、請求項1に記載の方法。
JP08289995A 1994-04-12 1995-04-07 オーディオデータのセグメンテーション方法 Expired - Lifetime JP3805809B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/226,519 US5655058A (en) 1994-04-12 1994-04-12 Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US226519 1994-04-12

Publications (2)

Publication Number Publication Date
JPH07287591A true JPH07287591A (ja) 1995-10-31
JP3805809B2 JP3805809B2 (ja) 2006-08-09

Family

ID=22849246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08289995A Expired - Lifetime JP3805809B2 (ja) 1994-04-12 1995-04-07 オーディオデータのセグメンテーション方法

Country Status (2)

Country Link
US (1) US5655058A (ja)
JP (1) JP3805809B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388344B1 (ko) * 1999-04-09 2003-06-25 인터내셔널 비지네스 머신즈 코포레이션 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치
KR20030070179A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
JP2013182150A (ja) * 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology 発話区間検出装置及び発話区間検出のためのコンピュータプログラム

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5826206A (en) * 1996-03-12 1998-10-20 Training Inovations Group, Llc Debriefing systems and methods for retrieving and presenting multiple datastreams with time indication marks in time synchronism
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP3050180B2 (ja) * 1997-08-08 2000-06-12 日本電気株式会社 音声認識装置
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
DE19740147A1 (de) * 1997-09-12 1999-03-18 Philips Patentverwaltung Verfahren zum Ermitteln eines Zuverlässigkeitsmaßes
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6404856B1 (en) 1998-04-10 2002-06-11 Fuji Xerox Co., Ltd. System for recording, annotating and indexing audio data
DE19824355A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US6366296B1 (en) 1998-09-11 2002-04-02 Xerox Corporation Media browser using multimodal analysis
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6542869B1 (en) 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US20020016719A1 (en) * 2000-06-19 2002-02-07 Nemeth Louis G. Methods and systems for providing medical data to a third party in accordance with configurable distribution parameters
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
US7039585B2 (en) 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US6785656B2 (en) * 2001-06-05 2004-08-31 Xm Satellite Radio, Inc. Method and apparatus for digital audio playback using local stored content
US7035807B1 (en) * 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
US7383509B2 (en) * 2002-09-13 2008-06-03 Fuji Xerox Co., Ltd. Automatic generation of multimedia presentation
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US6816834B2 (en) * 2002-10-23 2004-11-09 Jon Jaroker System and method for secure real-time high accuracy speech to text conversion of general quality speech
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US20050097120A1 (en) * 2003-10-31 2005-05-05 Fuji Xerox Co., Ltd. Systems and methods for organizing data
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US20060075347A1 (en) * 2004-10-05 2006-04-06 Rehm Peter H Computerized notetaking system and method
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
US8089563B2 (en) * 2005-06-17 2012-01-03 Fuji Xerox Co., Ltd. Method and system for analyzing fixed-camera video via the selection, visualization, and interaction with storyboard keyframes
US7623677B2 (en) * 2005-06-17 2009-11-24 Fuji Xerox Co., Ltd. Methods and interfaces for visualizing activity across video frames in an action keyframe
US7996771B2 (en) * 2005-06-17 2011-08-09 Fuji Xerox Co., Ltd. Methods and interfaces for event timeline and logs of video streams
US7716048B2 (en) * 2006-01-25 2010-05-11 Nice Systems, Ltd. Method and apparatus for segmentation of audio interactions
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
CN101783160A (zh) * 2009-01-16 2010-07-21 鸿富锦精密工业(深圳)有限公司 音频播放装置及其播放方法
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8645485B1 (en) * 2012-01-30 2014-02-04 Google Inc. Social based aggregation of related media content
US9143742B1 (en) 2012-01-30 2015-09-22 Google Inc. Automated aggregation of related media content
US9129605B2 (en) 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
TW201417093A (zh) * 2012-10-19 2014-05-01 Hon Hai Prec Ind Co Ltd 具有影音檔處理功能的電子裝置及影音檔處理方法
US20140297280A1 (en) * 2013-04-02 2014-10-02 Nexidia Inc. Speaker identification
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388344B1 (ko) * 1999-04-09 2003-06-25 인터내셔널 비지네스 머신즈 코포레이션 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치
KR20030070179A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
JP2013182150A (ja) * 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology 発話区間検出装置及び発話区間検出のためのコンピュータプログラム

Also Published As

Publication number Publication date
JP3805809B2 (ja) 2006-08-09
US5655058A (en) 1997-08-05

Similar Documents

Publication Publication Date Title
JP3805809B2 (ja) オーディオデータのセグメンテーション方法
US5606643A (en) Real-time audio recording system for automatic speaker indexing
JP3745403B2 (ja) オーディオデータセグメントのクラスタリング方法
JP3926858B2 (ja) スピーカーデータのクラスタリング方法
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
Szöke et al. Comparison of keyword spotting approaches for informal continuous speech.
Hansen et al. Speechfind: Advances in spoken document retrieval for a national gallery of the spoken word
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
Friedland et al. The ICSI RT-09 speaker diarization system
JP5177561B2 (ja) 認識器重み学習装置および音声認識装置、ならびに、システム
JPH05204394A (ja) ワードスポッティング法
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
RU2223554C2 (ru) Устройство распознавания речи
CN107480152A (zh) 一种音频分析及检索方法和系统
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Ney et al. An overview of the Philips research system for large vocabulary continuous speech recognition
Wilcox et al. Audio indexing using speaker identification
Gupta et al. Automatic speech recognition technique for voice command
Sangwan et al. Keyword recognition with phone confusion networks and phonological features based keyword threshold detection
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Young Acoustic modelling for large vocabulary continuous speech recognition
Kotti et al. Automatic speaker change detection with the Bayesian information criterion using MPEG-7 features and a fusion scheme
Kenai et al. Speaker diarization and detection system using a priori speaker information
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050907

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060511

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120519

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130519

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130519

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term