JP2003177778A - 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 - Google Patents

音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法

Info

Publication number
JP2003177778A
JP2003177778A JP2002298114A JP2002298114A JP2003177778A JP 2003177778 A JP2003177778 A JP 2003177778A JP 2002298114 A JP2002298114 A JP 2002298114A JP 2002298114 A JP2002298114 A JP 2002298114A JP 2003177778 A JP2003177778 A JP 2003177778A
Authority
JP
Japan
Prior art keywords
audio data
data segments
segment
audio
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002298114A
Other languages
English (en)
Other versions
JP4442081B2 (ja
Inventor
T Foote Jonathan
ティー. フート ジョナサン
Matthew L Cooper
エル. クーパー マシュー
Lynn D Wilcox
ディー. ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2003177778A publication Critical patent/JP2003177778A/ja
Application granted granted Critical
Publication of JP4442081B2 publication Critical patent/JP4442081B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Abstract

(57)【要約】 【課題】 ロバストな音声抄録(excerpts)の抽出方法を
提供する。 【解決手段】 本発明の方法は、音声データを複数の音
声データセグメントにセグメント化するステップ(S300)
と、複数の音声データセグメントの適合基準を設定する
ステップ(S400)と、適合基準に基づいて複数の音声デー
タセグメントを分析するステップと、適合基準を満た
す、複数の音声データセグメントのうち1つを選択する
ステップ(S500)と、を含む。さらに、複数の音声データ
セグメントのうち選択した1つをビデオデータに関連付
けるステップ(S600)を含むこともできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声抄録(excerpt
s)又はアブストラクトの自動抽出に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】音声セ
グメント化の公知の技術は、ポーズの検出に基づく。こ
のような技術は、雑音や反響のある条件下ではロバスト
ではなく、音楽や非スピーチ音声に対してもあまりロバ
ストではない。スピーチ認識及び/又はスピーカ識別ベ
ースの技術は、トレーニングした統計モデルを必要とす
る。このような技術は、音声データがトレーニングドメ
インに相似しない限りロバストではない。さらに、この
ような技術に必要な演算リソースは膨大で、普通は実行
できない。
【0003】ビデオサマリーの作成において、従来のビ
デオサマリージェネレータのいくつかはシーン転換グラ
フを使用してアドホックなセグメント化を実行しようと
試みてきた。アドホックなセグメント化に続いて階層ク
ラスタリングプロセスを実行し、サマリーを作成する。
他の従来のビデオサマリージェネレータは、クローズド
キャプション、アコースティックサイレンス及びピッチ
を使用してセグメント境界を決定し、サマリーの作成に
使用するセグメント候補を識別してきた。これらの従来
のシステムは、ワーク内にクローズドキャプション、ア
コースティックサイレンス及びピッチが存在するかを判
定することに依存し、これらの特徴が検出しづらい場
合、ワークにない場合はうまく作動しなかった。さらに
これら従来のシステムは単に代表的なセグメントを選択
するだけなので、かなり長いセグメント候補のサマリー
を作成することはできない。
【0004】米国特許出願番号第09/947、385
号、米国特許出願番号第09/569、230号および
他の従来の技術では上記課題は解決されていない(例え
ば、非特許文献1〜8参照)。
【0005】
【非特許文献1】ヒーら(He et al.)、「プレゼンテー
ションサマリーの比較:スライド、リーディング、リス
ニング」("Comparing Presentation Summaries : Slide
vs. Reading vs. Listening")、マイクロソフトリサー
チ(Microsoft Research)
【非特許文献2】フート(Foote)、「音声ノベルティの
計測を用いた自動音声セグメンテーション」("Automati
c Audio Segmentation Using A Measure ofAudio Novel
ty")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)
【非特許文献3】ウィルコックスら(Wilcox et al.)、
「スピーカ認識を用いたスピーチセグメンテーション」
("Segmentation Of Speech Using Speaker Identificat
ion")、ゼロックス パーク(Xerox PARC.)
【非特許文献4】クーパーら(Cooper et al.)、「ビデ
オ自己類似分析によるシーン境界検出」("Scene Bounda
ry Detection Via Video Self-Similarity Analysi
s")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)
【非特許文献5】アロンズ(Arons)、「スピーチ記録の
セグメンテーションのためのピッチベース強調検出」("
Pitch-Based Emphasis Detection For Segmenting Spee
ch Recordings")、Proceedings of International Conf
erence on Spoken language Processing(日本、横浜、
9月18〜22日)、1994年、vol. 4、第1931
〜1934頁
【非特許文献6】スチフェルマン(Stifelman)、「リア
ルワールドオブジェクトの拡張:ペーパーベース音声ノ
ート」("Augmenting Real-World Objects :A paper-Bas
ed Audio Notebook")、MITメディアラボラトリー、
スピーチリサーチグループ(MIT Media Laboratory、Spe
ech ResearchGroup)
【非特許文献7】チウら(Chiu et al.)、「インクおよ
び音声ノートのための動的グループ化技術」("A Dynami
c Grouping Technique for Ink and Audio Notes")、エ
フエックスパロアルトラボラトリーインコーポレイテッ
ド(FX Palo Alto Laboratory, Inc.)
【非特許文献8】キンバーら(Kimber et al.)、「音声
ブラウザのためのアコースティックセグメンテーショ
ン」("Acoustic Segmentation for Audio Browsers
")、ゼロックスパーク(Xerox PARC)、エフエックスパ
ロアルトラボラトリーインコーポレイテッド(FX Palo A
lto Laboratory, Inc.)
【0006】
【課題を解決するための手段】本発明のシステム及び方
法は、音声抄録の自動抽出を提供する。本発明のシステ
ム及び方法はまた、自己類似ベースのセグメント化を用
いた自動抽出も提供する。
【0007】音声抄録の自動抽出は、種々の環境で有用
である。例えば、音声抄録の自動抽出は音声/ビデオ分
類及びリトリーバルシステムにおいて有用である。ビデ
オワークをセグメント化し、各セグメントの主要なコン
ポーネントを決定し、第2の同様にセグメント化したビ
デオと比較する。比較の細分性に基づいて、主要なコン
ポーネントの類似の程度を比較し、主要なコンポーネン
トの変化のシーケンス及び/又は頻度を決定することに
よって、又は比較する第1及び第2のワークの主要なコ
ンポーネントの類似を決定するあらゆる他の手段を使用
することによって、類似する、或いはほぼ類似するワー
クを識別することができる。音声抄録の自動抽出によっ
て、キーフレームビデオサマリーに音声抄録で注釈を付
けることができる。キーフレームと組合せたこのような
音声アブストラクトによって、帯域幅の広いストリーミ
ングビデオ又は音声を使用せずに、(音声付き)ビデオ
又は類似の媒体を視聴する軽量且つウェブブラウジング
可能なインタフェースを容易に実現できる。
【0008】本発明の種々の例示的な実施形態では、音
声抄録の抽出方法は、音声データを複数の音声データセ
グメントにセグメント化するステップと、複数の音声デ
ータセグメントの適合基準を設定するステップと、適合
基準に基づいて複数の音声データセグメントを分析する
ステップと、適合基準を満たす、複数の音声データセグ
メントのうち1つを選択するステップと、を含む。音声
データのセグメント化は、音声セグメントの識別に適し
たあらゆる公知の又はこれから開発されるセグメント化
技術であってよい。種々の実施形態では、音声データを
複数の音声データセグメントにセグメント化するステッ
プは、自己類似分析に基づいて音声データをセグメント
化するステップを含む。自己類似分析に基づく音声デー
タのセグメント化ステップは、音声データのソース信号
においてノベルティ(novelty)ポイントを識別するステ
ップを含むことができる。
【0009】本発明の方法の種々の実施形態では、複数
の音声データセグメントの適合基準を設定するステップ
が、音声データセグメントの持続時間制約を設定するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、各音声データセグメン
トの持続時間と持続時間制約とを比較するステップを含
む。このような実施形態では、複数の音声データセグメ
ントのうち1つを選択するステップが、持続時間制約を
満たす、複数の音声データセグメントのうち第1番目を
選択するステップを含むことができる。さらに適合基準
に基づいて複数の音声データセグメントを分析するステ
ップが、持続時間制約との比較に基づいて各音声データ
セグメントの適合スコアを演算するステップをさらに含
むことができる。このような実施形態では、複数の音声
データセグメントのうち1つを選択するステップが、適
合スコアの極大値を有する音声データセグメントを選択
するステップを含むことができる。
【0010】本発明の方法の他の種々の実施形態では、
複数の音声データセグメントの適合基準を設定するステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も1つを音声データセグメントの制約として選択するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、持続時間、ピッチ輪
郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
関連データのうち少なくとも1つを各音声データセグメ
ントに対して識別し制約を適用するステップを含む。
【0011】本発明の種々の例示的な実施形態では、音
声抄録の抽出方法は、複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付けるステップを
さらに含む。このような実施形態では、複数の音声デー
タセグメントのうち選択した1つをビデオデータに関連
付けるステップが、複数の音声データセグメントのうち
選択した1つをキーフレームに関連付けるステップを含
むことができる。
【0012】本発明の他の種々の例示的な実施形態で
は、音声抄録の抽出方法は、音声データを複数の音声デ
ータセグメントにセグメント化するステップと、複数の
音声データセグメントの持続時間制約を設定するステッ
プと、各音声データセグメントの持続時間と持続時間制
約とを比較するステップと、持続時間制約を満たす、複
数の音声データセグメントのうち1つを選択するステッ
プと、を含む。音声データのセグメント化は、音声セグ
メントの識別に適したあらゆる公知の又はこれから開発
されるセグメント化技術であり得る。種々の実施形態で
は、音声データを複数の音声データセグメントにセグメ
ント化するステップが、自己類似分析に基づいて音声デ
ータをセグメント化するステップを含む。自己類似分析
に基づく音声データのセグメント化ステップは、音声デ
ータのソース信号においてノベルティポイントを識別す
るステップを含むことができる。
【0013】本発明の種々の例示的な実施形態では、音
声データ抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、少なくとも1つの適合基準に基
づいて複数の音声データセグメントを分析する分析回路
と、適合基準を満たす、複数の音声データセグメントの
うち1つを選択する選択回路と、を含む。種々の実施形
態では、このシステムは複数の音声データセグメントの
うち選択した1つをビデオデータに関連付けるアソシエ
ーション回路をさらに含む。
【0014】本発明の他の種々の例示的な実施形態で
は、音声抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、各音声データセグメントの持続
時間と持続時間制約とを比較する分析回路と、持続時間
制約を満たす、複数の音声データセグメントのうち1つ
を選択する選択回路と、を含む。種々の実施形態では、
このシステムは複数の音声データセグメントのうち選択
した1つをビデオデータに関連付けるアソシエーション
回路をさらに含む。
【0015】本発明はさらに、本発明の種々の方法を実
行するコンピュータ読取可能記憶媒体及び/又はプログ
ラムを想定している。
【0016】本発明の第1の態様の音声抄録(excerpts)
抽出方法は、音声データを複数の音声データセグメント
にセグメント化するステップと、前記複数の音声データ
セグメントの適合基準を設定するステップと、前記適合
基準に基づいて前記複数の音声データセグメントを分析
するステップと、前記適合基準を満たす、前記複数のデ
ータセグメントのうち1つを選択するステップと、を含
む。
【0017】本発明の第2の態様の音声抄録抽出方法
は、第1の態様の音声抄録抽出方法において、前記音声
データを複数の音声データセグメントにセグメント化す
る前記ステップが、自己類似分析に基づいて前記音声デ
ータをセグメント化するステップを含む。
【0018】本発明の第3の態様の音声抄録抽出方法
は、第2の態様の音声抄録抽出方法において、自己類似
分析に基づいて前記音声データをセグメント化する前記
ステップが、前記音声データのソース信号においてノベ
ルティ(novelty)ポイントを識別するステップを含む。
【0019】本発明の第4の態様の音声抄録抽出方法
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、前記音声データセグメントの持続時間制約を設
定するステップを含み、前記適合基準に基づいて前記複
数のデータセグメントを分析する前記ステップが、各音
声データセグメントの持続時間と前記持続時間制約とを
比較するステップを含む。
【0020】本発明の第5の態様の音声抄録抽出方法
は、第4の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち1つを選択する前記ステ
ップが、前記持続時間制約を満たす、前記複数の音声デ
ータセグメントのうち第1番目の音声データセグメント
を選択するステップを含む。
【0021】本発明の第6の態様の音声抄録抽出方法
は、第4の態様の音声抄録抽出方法において、前記適合
基準に基づいて前記複数の音声データセグメントを分析
する前記ステップが、前記持続時間制約との前記比較に
基づいて各音声データセグメントの適合スコアを演算す
るステップをさらに含む。
【0022】本発明の第7の態様の音声抄録抽出方法
は、第6の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち1つを選択する前記ステ
ップが、前記適合スコアの極大値を有する音声データセ
グメントを選択するステップを含む。
【0023】本発明の第8の態様の音声抄録抽出方法
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も1つを前記音声データセグメントの制約として選択す
るステップを含み、前記適合基準に基づいて前記複数の
音声データセグメントを分析する前記ステップが、持続
時間、ピッチ輪郭、音響上の類似、ビデオ特徴、キーフ
レーム時間及び関連データのうち少なくとも1つを各音
声データセグメントに対して識別し前記制約を適用する
ステップを含む。
【0024】本発明の第9の態様の音声抄録抽出方法
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した1つをビデオデ
ータに関連付けるステップをさらに含む。
【0025】本発明の第10の態様の音声抄録抽出方法
は、第9の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した1つをビデオデ
ータに関連付ける前記ステップが、前記複数の音声デー
タセグメントのうち選択した1つをキーフレームに関連
付けるステップを含む。
【0026】本発明の第11の態様の音声抄録抽出方法
は、音声データを複数の音声データセグメントにセグメ
ント化するステップと、前記複数の音声データセグメン
トの持続時間制約を設定するステップと、各音声データ
セグメントの持続時間と前記持続時間制約とを比較する
ステップと、前記持続時間制約を満たす、前記複数の音
声データセグメントのうち1つを選択するステップと、
を含む。
【0027】本発明の第12の態様の音声抄録抽出方法
は、第11の態様の音声抄録抽出方法において、前記音
声データを複数の音声データセグメントにセグメント化
する前記ステップが、自己類似分析に基づいて前記音声
データをセグメント化するステップを含む。
【0028】本発明の第13の態様の音声抄録抽出方法
は、第12の態様の音声抄録抽出方法において、自己類
似分析に基づいて前記音声データをセグメント化する前
記ステップが、前記音声データのソース信号においてノ
ベルティポイントを識別するステップを含む。
【0029】本発明の第14の態様の音声抄録抽出方法
は、第11の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち1つを選択する前記ス
テップが、前記持続時間制約を満たす、前記複数の音声
データセグメントの第1番目の音声データセグメントを
選択するステップを含む。
【0030】本発明の第15の態様の音声抄録抽出方法
は、第11の態様の音声抄録抽出方法において、前記持
続時間制約との前記比較に基づいて各音声データセグメ
ントの適合スコアを演算するステップをさらに含む。
【0031】本発明の第16の態様の音声抄録抽出方法
は、第15の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち1つを選択する前記ス
テップが、前記適合スコアの極大値を有する音声データ
セグメントを選択するステップを含む。
【0032】本発明の第17の態様の音声抄録抽出方法
は、第11の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した1つをビデオ
データに関連付けるステップをさらに含む。
【0033】本発明の第18の態様の音声抄録抽出方法
は、第17の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した1つをビデオ
データに関連付ける前記ステップが、前記複数の音声デ
ータセグメントのうち選択した1つをキーフレームに関
連付けるステップを含む。
【0034】本発明の第19の態様の音声データ抄録抽
出システムは、コントローラと、音声データを複数の音
声データセグメントにセグメント化するセグメント化回
路と、 前記複数の音声データセグメントを少なくとも
1つの適合基準に基づいて分析する分析回路と、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち1つを選択する選択回路と、を含む。
【0035】本発明の第20の態様の音声データ抄録抽
出システムは、第19の態様の音声データ抄録抽出シス
テムにおいて、前記複数の音声データセグメントのうち
選択した1つをビデオデータに関連付けるアソシエーシ
ョン回路をさらに含む。
【0036】本発明の第21の態様の音声抄録抽出シス
テムは、コントローラと、音声データを複数の音声デー
タセグメントにセグメント化するセグメント化回路と、
各音声データセグメントの持続時間を持続時間制約と比
較する分析回路と、前記持続時間制約を満たす、前記複
数の音声データセグメントのうち1つを選択する選択回
路と、を含む。
【0037】本発明の第22の態様の音声抄録抽出シス
テムは、第21の態様の音声抄録抽出システムにおい
て、前記複数の音声データセグメントのうち選択した1
つをビデオデータに関連付けるアソシエーション回路を
さらに含む。
【0038】本発明の第23の態様のコンピュータ読取
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能であって、該方法は、音声データ
を複数の音声データセグメントにセグメント化するステ
ップと、前記複数の音声データセグメントの適合基準を
設定するステップと、前記適合基準に基づいて前記複数
の音声データセグメントを分析するステップと、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち1つを選択するステップと、を含む。
【0039】本発明の第24の態様の音声抄録の抽出方
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの適合基準を設定する命令
と、前記適合基準に基づいて前記複数の音声データセグ
メントを分析する命令と、前記適合基準を満たす、前記
複数の音声データセグメントのうち1つを選択する命令
と、を含む。
【0040】本発明の第25の態様のコンピュータ読取
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能で、該方法は、音声データを複数
の音声データセグメントにセグメント化するステップ
と、前記複数の音声データセグメントの持続時間制約を
設定するステップと、各音声データセグメントの持続時
間と前記持続時間制約とを比較するステップと、前記持
続時間制約を満たす、前記複数の音声データセグメント
のうち1つを選択するステップと、を含む。
【0041】本発明の第26の態様の音声抄録の抽出方
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの持続時間制約を設定する
命令と、各音声データセグメントの持続時間と前記持続
時間制約とを比較する命令と、前記持続時間制約を満た
す、前記複数の音声データセグメントのうち1つを選択
する命令と、を含む。
【0042】本発明の第27の態様の複数の音声データ
セグメントからの音声抄録選択方法は、境界候補リスト
から境界開始候補を選択するステップと、前記境界候補
リストから隣接境界候補を選択してセグメント候補を定
義するステップと、少なくとも1つの適合基準に基づい
て前記セグメント候補を分析するステップと、前記セグ
メント候補が前記少なくとも1つの適合基準を満たすな
らば、前記セグメント候補をセグメント候補リストに付
加するステップと、前記ステップを繰り返して前記境界
候補リストからの境界開始候補と隣接境界候補とのあら
ゆる組合せを評価するステップと、前記作成したセグメ
ント候補リストからセグメント候補のうち1つを選択す
るステップと、を含む。
【0043】本発明の第28の態様の音声抄録選択方法
は、第27の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
1つを選択する前記ステップが、前記少なくとも1つの
適合基準に基づく。
【0044】本発明の第29の態様の音声抄録選択方法
は、第27の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
1つを選択する前記ステップが、前記少なくとも1つの
適合基準と異なる少なくとも第2の適合基準に基づく。
【0045】
【発明の実施の形態】本発明のこれらの及び他の特徴や
利点は、本発明のシステム及び方法の種々の例示的な実
施形態の以下の詳細な記述に説明されており、またこれ
から明らかとなる。
【0046】本発明のシステム及び方法の種々の例示的
な実施形態を、添付図面を参照しながら以下に詳細に説
明する。
【0047】図1は、本発明の自動抽出システム100
の例示的な実施形態を示す。コントローラ102、メモ
リ104、セグメント化回路106、分析回路108、
選択回路110及びアソシエーション回路112が入出
力回路114を介して通信リンク201に接続する。ア
ソシエーション回路112は任意であり、選択した音声
データセグメントがビデオデータに関連しない場合は省
いてもよいことを理解されたい。
【0048】コントローラ102は入出力回路114を
起動させ、通信リンク201を介して音声データをリト
リーブし、かつ/又は受信する。本発明の種々の実施形
態では、音声データはMPEG−3、MPEG−4、リ
アルネットワーク(RealNetworks)によるPNM−Rea
lNetworksプロトコル、RealVideoプ
ロトコル、マイクロソフト(商標)コーポレーションに
よるウィンドウズ(R)メディアのマイクロソフト(商
標)メディアストリーミングプロトコルなどのストリー
ミング音声/ビデオプロトコルやあらゆる他の公知の又
はこれから開発される音声及び/又は音声/ビデオプロ
トコルに符号化される音声/ビデオ情報の一部である。
本発明の種々の実施形態はまた、MPEG−4での動作
やあらゆる他の符号化情報も想定しており、別個の復号
化や符号化を必要とせずに符号化情報ストリーム又はプ
ロトコルに直接アクセスする。
【0049】リトリーブした、かつ/又は受信した音声
データは生音声データでもよいし、既に粗くセグメント
化されている音声データでもよい。粗いセグメント化
は、公知の又はこれから開発されるあらゆる適切な技術
を用いて達成することができる。例えば、音声データが
音声/ビデオデータの一部である場合、粗いセグメント
化は1999年3月12日に出願した同時係属中の米国
出願番号第09/267,529号(参照によって本明細書中に援
用する)に記載されているように、ビデオデータのカラ
ーヒストグラム分析に基づく。
【0050】リトリーブした、かつ/又は受信した音声
データは、メモリ104に保存される。次いでセグメン
ト化回路106が起動されてリトリーブした、かつ/又
は受信した音声データの複数の音声データセグメントを
識別する。例えば、種々の音声データセグメントを定義
するセグメント境界候補を識別することができる。セグ
メント化回路106は、音声データのセグメント化に適
したあらゆる公知の又はこれから開発されるセグメント
化技術を実行することができる。
【0051】本発明の種々の例示的な実施形態では、セ
グメント化回路106は自己類似分析に基づく音声デー
タのセグメント化を実行することができる。例えば、セ
グメント化回路106は、自己類似分析が音声データの
ソース信号におけるノベルティポイントの識別からなる
セグメント化を実行することができる。このようなセグ
メント化技術は、2000年5月11日に出願した同時
係属中の米国出願番号第09/569,230号(参照として本明
細書中に援用する)に記載されている。
【0052】この自己類似セグメント化技術は、雑音が
多かったり反響したりする条件下ではロバストでなく、
音楽や他の非スピーチの音声データに適さない他の技術
に対して利点を提示する。さらにこの技術は統計モデリ
ングを必要としないし、演算も比較的わずかしか必要と
しない。図2は、9秒間の音声データのエネルギースコ
アとノベルティ(novelty)スコアのグラフを例示する。
ノベルティスコアのピーク、即ち極大点が優れたセグメ
ント境界候補を提供する。その理由は、音声データは極
大点間で自己類似しており、これらの極大点を超えると
著しく異なるためである。さらにノベルティスコアは非
線形測定であるため、比較的広い時間間隔で計算しても
ノベルティスコアは先鋭且つ明確なピーク即ち極大点を
生成する。比較すると、時間間隔が比較的広い場合は、
平均エネルギーを用いた技術のほうがピークがあまり明
確ではない。
【0053】図2に示すように、ノベルティスコアのピ
ーク即ち極大点は、エネルギースコアのピークよりも長
い時間間隔で生じる。したがって、ノベルティスコアは
考慮すべき境界候補の数が少ない。ピークの数を減らす
ためにエネルギースコアをローパスフィルタ処理した場
合、より検出しにくい狭いピークが生じ、時間分解能が
減少する。
【0054】自己類似セグメント化技術を用いて、セグ
メント境界候補をノベルティスコアのピークから選択す
る。選択は、例えば、ノベルティスコアが局所又は広域
閾値を越える点を識別することに基づく。より時間の精
度を上げたいならば、閾値より上の極大点又は傾きがゼ
ロである点を識別することで、ピークを正確に検出する
ことができる。次いで最も高いピークのみを選択するた
めに、ピークを高さによってランク付けする。このこと
によって可変閾値を有効に得ることができ、そのためセ
グメント化方法は雑音のある音声データやわずかしか変
化しない音声データを含む全ての種類の音声データに対
してロバストとなる。
【0055】セグメント境界候補を識別又は選択する
と、分析回路108は時間分析及び/又は適合分析に基
づいて当該音声データセグメントを評価する。時間分析
の場合、分析回路108は持続時間制約にしたがって当
該音声データセグメントを評価する。例えば、識別又は
選択した各セグメント境界候補を当該音声データセグメ
ントの境界開始とみなすことができる。音声データセグ
メント候補が所与のアプリケーションに対して長すぎた
り短すぎたりしないように持続時間制約を設定する。例
えば、5〜15秒の範囲を持続時間制約として使用する
ことができる。セグメント境界候補の開始と終了の各組
合せを分析回路108で持続時間制約と比較する。
【0056】適合分析の場合、分析回路108は少なく
とも1つの適合基準にしたがって当該音声データセグメ
ントを評価する。分析回路108が時間分析を実行する
場合、適合基準は持続時間制約を満たす第1番目の音声
データセグメントとなる。或いは、適合基準は持続時間
制約内の好ましい持続時間に最も近い音声データセグメ
ントでもよい。例えば、分析回路108は、音声データ
セグメント候補の好ましい持続時間からの偏差に基づい
てこれらの候補のランキングを作成することができる。
【0057】適合基準はエネルギー基準であってもよ
い。例えば、分析回路108は、音声データセグメント
候補それぞれの平均エネルギーを評価してもよい。エネ
ルギー基準を使用することで、サイレンス又はバックグ
ラウンドノイズのみからなる音声データセグメント候補
は確実に好まれず選択されない。さらに分析回路108
は、フレーズ全体、音、楽音などの可能性のある音声デ
ータセグメントが好まれるように、隣接する音声データ
セグメント候補のエネルギーに基づいて音声データセグ
メントの各候補を評価することができる。
【0058】分析回路108は、1つ以上の適合基準に
基づいて音声データセグメントの各候補を評価しランク
付けすることができる。使用できる適合基準の他の非限
定的な例として、スピーチ強調を識別する音声データセ
グメント候補のピッチ輪郭や特定の音声特徴を識別する
音声データセグメント候補の音響類似が挙げられる。
【0059】音声データがビデオデータに関連する場
合、音声データセグメント候補に対応する特定のビデオ
画像特徴を適合基準として使用することができる。例え
ば、スピーチを含んでいる可能性のある音声データセグ
メント候補を識別するために、顔検出アルゴリズムを使
用することができる。また、音声データセグメントがビ
デオキーフレームに関連している場合、キーフレーム時
間を適合基準として使用することができ、例えば、キー
フレーム時間が音声データセグメント候補時に生じるか
どうか、各音声データセグメントの境界開始がキーフレ
ーム時間にどの程度近いかを評価する。
【0060】音声データセグメント候補を、他のデータ
ソースに基づく適合基準によって分析回路108で評価
することもできる。例えば、タイムスタンプ注釈、キャ
プション又はサブタイトルデータ、図形データ又は音声
データに関連し得るあらゆる他の適切なデータソースが
挙げられる。
【0061】適合基準に基づいて、分析回路108は音
声データセグメントの各候補の適合スコアを作成するこ
とができる。適合スコアは、音声データセグメントの各
候補がどの程度適合基準を満たしているかの測定を表
す。次いで選択回路110を使用し、例えば、適合スコ
アに基づいて音声データセグメント候補のうち1つを選
択することができる。
【0062】選択回路110によって音声データセグメ
ントを選択すると、アソシエーション回路112が選択
した音声データセグメントをビデオデータに関連付け
る。例えば、アソシエーション回路112は、選択した
音声データセグメントをキーフレームに関連付けてマル
チメディアドキュメントで使用することができる。
【0063】図3〜6は、本発明の自動音声抽出の例示
的な方法を示すフローチャートである。以下に説明する
ように、図3は例示的な方法のフローチャートであり、
図4〜6はその方法の種々のステップをより詳細に例示
するフローチャートである。
【0064】図3に示すように、プロセスはステップS
10から始まり、S100に続く。ステップS100で
は、生音声データを受信する。次いでステップS200
では、生音声データに粗いセグメント化技術を施す。上
述のように、粗いセグメント化技術は音声データをセグ
メント化するあらゆる公知の又はこれから開発される技
術でよい。また、ステップS200の粗いセグメント化
は任意であり、ステップS100で受信した生音声デー
タをS300の前にセグメント化しなくてもよいことを
理解されたい。
【0065】ステップS300では、生音声データ又は
粗いセグメント化による音声データセグメントに対して
類似ベースのセグメント化を実行する。上述の理由か
ら、この技術は他のセグメント化技術よりも好ましい。
しかしながら本発明は類似ベースのセグメント化を含む
方法に限定されず、公知の又はこれから開発される他の
セグメント化技術も使用できることを理解されたい。
【0066】例示的な方法では、ステップS400で音
声データセグメントに時間分析を実行し、音声データセ
グメント候補を識別する。次いでステップS500で
は、識別した音声データセグメント候補を適合分析す
る。例示的なシステムの上記の説明に基づくと、ステッ
プS400が所与のアプリケーションに必要な唯一の分
析であってよいことを理解されたい。またステップS4
00の時間分析を省いてもよいため、唯一の分析がステ
ップS500の適合分析となってもよい。さらにステッ
プS400の時間分析をステップS500の適合分析に
含めてもよいことを理解されたい。
【0067】ステップS500の適合分析に基づいて、
ステップS600で選択した音声データセグメントをビ
デオデータに関連付ける。上述のように好適な実施形態
では、ビデオデータはマルチメディアドキュメントで使
用するためのキーフレームを含む。次いでコントロール
はステップS610に続き、プロセスが終了する。
【0068】図4に示すように、ステップS300はス
テップS310、S320及びS330を有する。音声
データを粗くセグメント化し音声データセグメントをス
テップS310で受信する場合、ステップS310、S
320及びS330をループとして実行し、各セグメン
トを順番に処理する。生音声データ又は単一セグメント
のみをステップS310で受信する場合、ステップS3
10、S320及びS330を図示するようにこの順で
実行する。音声データセグメントをステップS310で
受信すると、ステップS320でそのセグメントのノベ
ルティスコアを決定する。次いでステップS330でノ
ベルティスコアを使用して上述のようにセグメント境界
候補を識別する。
【0069】図5に示すように、ステップS400はス
テップS410、S420及びS430を有する。ステ
ップS410では、音声データセグメントに対して持続
時間制約を設定する。持続時間制約はユーザからの入力
によって手作業で設定してもよいし、例えば、ステップ
S100で受信した音声データの種類又は特徴に基づい
て自動的に設定してもよい。ステップS420では、セ
グメント境界候補を持続時間制約と比較する。次いでス
テップS430では、持続時間制約を満たすセグメント
境界候補を識別する。
【0070】図6に示すように、ステップS500はス
テップS510、S520及びS530を有する。ステ
ップS510では、音声データセグメントに対して適合
基準を設定する。適合基準はユーザからの入力によって
手作業で設定してもよいし、例えば、ステップS100
で受信した音声データの種類又は特徴に基づいて自動的
に設定してもよい。ステップS520では、セグメント
境界候補を適合基準に基づいて分析する。次いでステッ
プS530では、適合基準を満たすセグメント境界候補
に対応する、音声データセグメントのうち1つを選択す
る。
【0071】図7は、本発明の例示的なセグメント選択
方法を示すフローチャートである。このプロセスはステ
ップS1010で始まり、ステップS1100に続く。
ステップS1100では、境界候補のリストを取得す
る。境界候補のリストはノベルティスコアを使用して決
定することができる。図2に示すように、ノベルティス
コア基準に基づいて境界候補(1)〜(6)を選択す
る。
【0072】次にステップS1200では、境界候補の
リストから1つの境界候補を境界開始候補Aiとして選
択する。これは時間順に行われる。そのため、図2の境
界候補(1)が第1の境界開始候補として選択される。
ステップS1300では、境界候補のリストから次の隣
接する境界候補Bjを選択し、セグメント候補Aij
定義する。次いでステップS1400では、セグメント
候補Aijを所望の適合基準に対して分析又は比較す
る。セグメント候補Aijが適合基準を満たすならばコ
ントロールはステップS1500に進み、そこでセグメ
ント候補Aijをセグメント候補のリストに付加する。
コントロールはステップS1600に続く。セグメント
候補Aijが適合基準を満たさないならば、コントロー
ルはステップS1600にジャンプする。
【0073】ステップS1600では、他の隣接境界候
補Bjが存在するか、或いは最後の隣接境界候補Bjが選
択されたかどうかを判定する。他の隣接境界候補Bj
存在するならば、コントロールはステップS1300に
戻る。境界候補Bjが最後であるならば、コントロール
はステップS1700に進む。
【0074】ステップS1700では、他の境界開始候
補Aiが存在するか、或いは最後の境界開始候補Aiが選
択されたかどうかを判定する。他の境界開始候補Ai
存在するならば、コントロールはステップS1200に
戻る。境界開始候補Aiが最後ならば、コントロールは
ステップS1800に進む。このようにして、リストか
らの境界候補のあらゆる組合せを評価する。例えば、図
2に示す境界候補(1)〜(6)のリストの場合、セグ
メント候補((1)−(2))、((1)−(3))、
((1)−(4))、((1)−(5))、((1)−
(6))、((2)−(3))、((2)−(4))、
((2)−(5))、((2)−(6))、((3)−
(4))、((3)−(5))、((3)−(6))、
((4)−(5))、((4)−(6))及び((5)
−(6))を評価する。
【0075】ステップS1800では、セグメント候補
のリストをソートする、例えば、適合スコアによってラ
ンク付けする。ソーティングは、ステップS1400の
セグメント候補を評価するために使用したものと同じ適
合基準に基づいてもよいし、基づかなくてもよい。次い
でステップS1900では、ソートしたセグメント候補
のリストから最良のセグメント候補を選択する。「最良
の」セグメント候補は、ユーザの好み及び/又は抽出し
た音声セグメントの特定のアプリケーションに依存して
いる。次いでコントロールはステップS1910に続
き、そこでプロセスは終了する。
【0076】上記に概説した種々の例示的な実施形態で
は、自動音声抽出システム100をプログラムされた汎
用コンピュータを使用して実行することができる。しか
しながら自動音声抽出システム100は、専用コンピュ
ータ、プログラムされたマイクロプロセッサ又はマイク
ロコントローラ及び周辺集積回路素子、ASIC又は他
の集積回路、デジタル信号プロセッサ、離散素子回路な
どのハードワイヤード電子又はロジック回路、PLD、
PLA、FPGA又はPALなどのプログラマブルロジ
ック装置を使用して実行することもできる。一般に、図
3〜6及び7に示すフローチャートを実行できる有限状
態マシーンを実行できるあらゆる装置を、自動音声抽出
システム100を実行するために使用することができ
る。
【0077】上記に概説した自動音声抽出システム10
0の回路102〜114のそれぞれは、適切にプログラ
ムされた汎用コンピュータの部分として実行することが
できる。或いは、上記に概説した自動音声抽出システム
100の回路102〜114は、ASIC内の物理的に
別個のハードウェア回路として、又はFPGA、PD
L、PLA若しくはPALを使用して、又は離散ロジッ
ク素子若しくは離散回路素子を使用して実行することが
できる。上記に概説した自動音声抽出システム100の
回路102〜114のそれぞれがとる特定の形態は設計
上の選択であり、当業者には明らかで予測できるもので
ある。
【0078】さらに上述の自動音声抽出システム100
及び/又は種々の回路それぞれは、ソフトウェアルーチ
ン、マネージャ又はプログラムされた汎用コンピュー
タ、専用コンピュータ、マイクロプロセッサなどで実行
するオブジェクトとして実行することができる。この場
合、上述の自動音声抽出システム100及び/又は種々
の回路それぞれは、通信ネットワークに埋め込まれた1
つ以上のルーチンとして、サーバ上に存在するリソース
として実行することができる。上述の自動音声抽出シス
テム100及び種々の回路はまた、自動音声抽出システ
ム100をウェブサーバのハードウェア及びソフトウェ
アシステムなどのソフトウェア及び/又はハードウェア
システムに物理的に組み込むことによって実行すること
もできる。
【0079】図1に示すメモリ104は、可変の揮発性
若しくは不揮発性メモリ又は不可変即ち固定メモリのあ
らゆる適切な組合せを使用して実行することができる。
可変メモリは、揮発性であっても不揮発性であっても、
スタティック又はダイナミックRAM、フロッピー
(R)ディスクとディスクドライブ、書き込み可能又は
書き換え可能光ディスクとディスクドライブ、ハードド
ライブ、フラッシュメモリなどのうち任意の1つ以上を
使用して実行することができる。同様に、不可変即ち固
定メモリは、ROM、PROM、EPROM、EEPR
OM、CD−ROM又はDVD−ROMディスクなどの
光ROMディスクのうち任意の1つ以上とディスクドラ
イブを使用して実行することができる。
【0080】図1に示す通信リンク201は、通信装置
を自動音声抽出システム100に接続するあらゆる公知
の又はこれから開発される装置又はシステムであること
ができ、ダイレクトケーブル接続、ワイドエリアネット
ワーク又はローカルエリアネットワークを介した接続、
イントラネットを介した接続、インターネットを介した
接続又はあらゆる他の分散処理ネットワーク又はシステ
ムを介した接続を含む。一般に通信リンク201は、装
置を接続し通信を容易にするために使用できるあらゆる
公知の又はこれから開発される接続システム又は構造で
あることができる。
【0081】さらに、通信リンク201がネットワーク
へのワイヤード又はワイヤレスリンクであり得ることを
理解されたい。ネットワークは、ローカルエリアネット
ワーク、ワイドエリアネットワーク、イントラネット、
インターネット、又はあらゆる他の分散処理及びストレ
ージネットワークであり得る。
【0082】上記に概説した例示的な実施形態に関連さ
せて本発明を説明してきたが、当業者には多くの代替、
修正及びバリエーションが明らかであることは明白であ
る。したがって、上記に説明した本発明の例示的な実施
形態は例示を意図するものであり限定するものではな
い。本発明の趣旨や範囲から逸脱せずに種々の変更を行
うことができる。
【図面の簡単な説明】
【図1】本発明の例示的な自動音声抽出システムを示す
図である。
【図2】9秒間の音声データのエネルギースコアとノベ
ルティスコアの例示的なグラフである。
【図3】本発明の例示的な自動音声抽出方法のフローチ
ャートである。
【図4】本発明の例示的な類似ベースのセグメント化方
法のフローチャートである。
【図5】本発明の例示的な時間分析方法のフローチャー
トである。
【図6】本発明の例示的な適合分析方法のフローチャー
トである。
【図7】本発明の例示的なセグメント選択方法のフロー
チャートである。
【符号の説明】
100 自動音声抽出システム 102 コントローラ 104 メモリ 106 セグメント化回路 108 分析回路 110 選択回路 112 アソシエーション回路 114 入出力回路 201 通信リンク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マシュー エル. クーパー アメリカ合衆国 94304 カリフォルニア 州 パロ アルト ヒルビュー アベニュ ー 3400 ビルディング 4 エフエック ス パロ アルト ラボラトリー インコ ーポレイテッド内 (72)発明者 リン ディー. ウィルコックス アメリカ合衆国 94304 カリフォルニア 州 パロ アルト ヒルビュー アベニュ ー 3400 ビルディング 4 エフエック ス パロ アルト ラボラトリー インコ ーポレイテッド内 Fターム(参考) 5D015 CC05 DD03 KK02

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 音声データを複数の音声データセグメン
    トにセグメント化するステップと、 前記複数の音声データセグメントの適合基準を設定する
    ステップと、 前記適合基準に基づいて前記複数の音声データセグメン
    トを分析するステップと、 前記適合基準を満たす、前記複数のデータセグメントの
    うち1つを選択するステップと、 を含む、音声抄録(excerpts)抽出方法。
  2. 【請求項2】 前記音声データを複数の音声データセグ
    メントにセグメント化する前記ステップが、自己類似分
    析に基づいて前記音声データをセグメント化するステッ
    プを含む、請求項1に記載の方法。
  3. 【請求項3】 自己類似分析に基づいて前記音声データ
    をセグメント化する前記ステップが、前記音声データの
    ソース信号においてノベルティ(novelty)ポイントを識
    別するステップを含む、請求項2に記載の方法。
  4. 【請求項4】 前記複数の音声データセグメントの適合
    基準を設定する前記ステップが、前記音声データセグメ
    ントの持続時間制約を設定するステップを含み、 前記適合基準に基づいて前記複数のデータセグメントを
    分析する前記ステップが、各音声データセグメントの持
    続時間と前記持続時間制約とを比較するステップを含
    む、請求項1に記載の方法。
  5. 【請求項5】 前記複数の音声データセグメントのうち
    1つを選択する前記ステップが、前記持続時間制約を満
    たす、前記複数の音声データセグメントのうち第1番目
    の音声データセグメントを選択するステップを含む、請
    求項4に記載の方法。
  6. 【請求項6】 前記適合基準に基づいて前記複数の音声
    データセグメントを分析する前記ステップが、前記持続
    時間制約との前記比較に基づいて各音声データセグメン
    トの適合スコアを演算するステップをさらに含む、請求
    項4に記載の方法。
  7. 【請求項7】 前記複数の音声データセグメントのうち
    1つを選択する前記ステップが、前記適合スコアの極大
    値を有する音声データセグメントを選択するステップを
    含む、請求項6に記載の方法。
  8. 【請求項8】 前記複数の音声データセグメントの適合
    基準を設定する前記ステップが、持続時間、ピッチ輪
    郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
    関連データのうち少なくとも1つを前記音声データセグ
    メントの制約として選択するステップを含み、 前記適合基準に基づいて前記複数の音声データセグメン
    トを分析する前記ステップが、持続時間、ピッチ輪郭、
    音響上の類似、ビデオ特徴、キーフレーム時間及び関連
    データのうち少なくとも1つを各音声データセグメント
    に対して識別し前記制約を適用するステップを含む、請
    求項1に記載の方法。
  9. 【請求項9】 前記複数の音声データセグメントのうち
    選択した1つをビデオデータに関連付けるステップをさ
    らに含む、請求項1に記載の方法。
  10. 【請求項10】 前記複数の音声データセグメントのう
    ち選択した1つをビデオデータに関連付ける前記ステッ
    プが、前記複数の音声データセグメントのうち選択した
    1つをキーフレームに関連付けるステップを含む、請求
    項9に記載の方法。
  11. 【請求項11】 音声データを複数の音声データセグメ
    ントにセグメント化するステップと、 前記複数の音声データセグメントの持続時間制約を設定
    するステップと、 各音声データセグメントの持続時間と前記持続時間制約
    とを比較するステップと、 前記持続時間制約を満たす、前記複数の音声データセグ
    メントのうち1つを選択するステップと、 を含む、音声抄録抽出方法。
  12. 【請求項12】 前記音声データを複数の音声データセ
    グメントにセグメント化する前記ステップが、自己類似
    分析に基づいて前記音声データをセグメント化するステ
    ップを含む、請求項11に記載の方法。
  13. 【請求項13】 自己類似分析に基づいて前記音声デー
    タをセグメント化する前記ステップが、前記音声データ
    のソース信号においてノベルティポイントを識別するス
    テップを含む、請求項12に記載の方法。
  14. 【請求項14】 前記複数の音声データセグメントのう
    ち1つを選択する前記ステップが、前記持続時間制約を
    満たす、前記複数の音声データセグメントの第1番目の
    音声データセグメントを選択するステップを含む、請求
    項11に記載の方法。
  15. 【請求項15】 前記持続時間制約との前記比較に基づ
    いて各音声データセグメントの適合スコアを演算するス
    テップをさらに含む、請求項11に記載の方法。
  16. 【請求項16】 前記複数の音声データセグメントのう
    ち1つを選択する前記ステップが、前記適合スコアの極
    大値を有する音声データセグメントを選択するステップ
    を含む、請求項15に記載の方法。
  17. 【請求項17】 前記複数の音声データセグメントのう
    ち選択した1つをビデオデータに関連付けるステップを
    さらに含む、請求項11に記載の方法。
  18. 【請求項18】 前記複数の音声データセグメントのう
    ち選択した1つをビデオデータに関連付ける前記ステッ
    プが、前記複数の音声データセグメントのうち選択した
    1つをキーフレームに関連付けるステップを含む、請求
    項17に記載の方法。
  19. 【請求項19】 コントローラと、 音声データを複数の音声データセグメントにセグメント
    化するセグメント化回路と、 前記複数の音声データセグメントを少なくとも1つの適
    合基準に基づいて分析する分析回路と、 前記適合基準を満たす、前記複数の音声データセグメン
    トのうち1つを選択する選択回路と、 を含む、音声データ抄録抽出システム。
  20. 【請求項20】 前記複数の音声データセグメントのう
    ち選択した1つをビデオデータに関連付けるアソシエー
    ション回路をさらに含む、請求項19に記載のシステ
    ム。
  21. 【請求項21】 コントローラと、 音声データを複数の音声データセグメントにセグメント
    化するセグメント化回路と、 各音声データセグメントの持続時間を持続時間制約と比
    較する分析回路と、 前記持続時間制約を満たす、前記複数の音声データセグ
    メントのうち1つを選択する選択回路と、 を含む、音声抄録抽出システム。
  22. 【請求項22】 前記複数の音声データセグメントのう
    ち選択した1つをビデオデータに関連付けるアソシエー
    ション回路をさらに含む、請求項21に記載のシステ
    ム。
  23. 【請求項23】 音声抄録の抽出方法に使用可能な制御
    プログラムであって、 音声データを複数の音声データセグメントにセグメント
    化する命令と、 前記複数の音声データセグメントの適合基準を設定する
    命令と、 前記適合基準に基づいて前記複数の音声データセグメン
    トを分析する命令と、 前記適合基準を満たす、前記複数の音声データセグメン
    トのうち1つを選択する命令と、 を含む、プログラム。
  24. 【請求項24】 音声抄録の抽出方法に使用可能な制御
    プログラムであって、 音声データを複数の音声データセグメントにセグメント
    化する命令と、 前記複数の音声データセグメントの持続時間制約を設定
    する命令と、 各音声データセグメントの持続時間と前記持続時間制約
    とを比較する命令と、 前記持続時間制約を満たす、前記複数の音声データセグ
    メントのうち1つを選択する命令と、 を含む、プログラム。
  25. 【請求項25】 境界候補リストから境界開始候補を選
    択するステップと、 前記境界候補リストから隣接境界候補を選択してセグメ
    ント候補を定義するステップと、 少なくとも1つの適合基準に基づいて前記セグメント候
    補を分析するステップと、 前記セグメント候補が前記少なくとも1つの適合基準を
    満たすならば、前記セグメント候補をセグメント候補リ
    ストに付加するステップと、 前記ステップを繰り返して前記境界候補リストからの境
    界開始候補と隣接境界候補とのあらゆる組合せを評価す
    るステップと、 前記作成したセグメント候補リストからセグメント候補
    のうち1つを選択するステップと、 を含む、複数の音声データセグメントからの音声抄録選
    択方法。
  26. 【請求項26】 前記作成したセグメント候補リストか
    らセグメント候補のうち1つを選択する前記ステップ
    が、前記少なくとも1つの適合基準に基づく、請求項2
    5に記載の方法。
  27. 【請求項27】 前記作成したセグメント候補リストか
    らセグメント候補のうち1つを選択する前記ステップ
    が、前記少なくとも1つの適合基準と異なる少なくとも
    第2の適合基準に基づく、請求項25に記載の方法。
JP2002298114A 2001-11-01 2002-10-11 音声抄録選択方法 Expired - Fee Related JP4442081B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US985073 2001-11-01
US09/985,073 US7260439B2 (en) 2001-11-01 2001-11-01 Systems and methods for the automatic extraction of audio excerpts

Publications (2)

Publication Number Publication Date
JP2003177778A true JP2003177778A (ja) 2003-06-27
JP4442081B2 JP4442081B2 (ja) 2010-03-31

Family

ID=25531168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002298114A Expired - Fee Related JP4442081B2 (ja) 2001-11-01 2002-10-11 音声抄録選択方法

Country Status (2)

Country Link
US (1) US7260439B2 (ja)
JP (1) JP4442081B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242497A (ja) * 2010-05-17 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声データ区分方法、音声データ区分装置、及びプログラム

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
KR100530475B1 (ko) 1999-11-10 2006-01-09 론치 미디어, 인크. 인터넷 라디오와 방송 방법
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
US20050188297A1 (en) * 2001-11-01 2005-08-25 Automatic E-Learning, Llc Multi-audio add/drop deterministic animation synchronization
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7489687B2 (en) * 2002-04-11 2009-02-10 Avaya. Inc. Emergency bandwidth allocation with an RSVP-like protocol
US7305483B2 (en) * 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US8176154B2 (en) 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
US7386357B2 (en) * 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
US20040073690A1 (en) * 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
CN1875377A (zh) * 2003-09-10 2006-12-06 音乐匹配公司 音乐购买和播放系统及其方法
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
JP2007094234A (ja) * 2005-09-30 2007-04-12 Sony Corp データ記録再生装置、データ記録再生方法及びそのプログラム
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
US7617337B1 (en) 2007-02-06 2009-11-10 Avaya Inc. VoIP quality tradeoff system
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US20100293575A1 (en) * 2009-05-12 2010-11-18 Bryan Biniak Live indexing and program guide
US8571330B2 (en) * 2009-09-17 2013-10-29 Hewlett-Packard Development Company, L.P. Video thumbnail selection
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US8606585B2 (en) * 2009-12-10 2013-12-10 At&T Intellectual Property I, L.P. Automatic detection of audio advertisements
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220565A (en) * 1991-05-30 1993-06-15 Motorola, Inc. Selective transmission of encoded voice information representing silence
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
EP0756267A1 (en) * 1995-07-24 1997-01-29 International Business Machines Corporation Method and system for silence removal in voice communication
US5995153A (en) * 1995-11-02 1999-11-30 Prime Image, Inc. Video processing system with real time program duration compression and expansion
US6340971B1 (en) * 1997-02-03 2002-01-22 U.S. Philips Corporation Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
US6799298B2 (en) * 1998-03-11 2004-09-28 Overture Services, Inc. Technique for locating an item of interest within a stored representation of data
US6853868B1 (en) * 1999-10-15 2005-02-08 Sun Microsystems, Inc. Cross-platform audio feedback for GUI components
US7299405B1 (en) * 2000-03-08 2007-11-20 Ricoh Company, Ltd. Method and system for information management to facilitate the exchange of ideas during a collaborative effort
US6642966B1 (en) * 2000-11-06 2003-11-04 Tektronix, Inc. Subliminally embedded keys in video for synchronization

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242497A (ja) * 2010-05-17 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声データ区分方法、音声データ区分装置、及びプログラム

Also Published As

Publication number Publication date
JP4442081B2 (ja) 2010-03-31
US20030083871A1 (en) 2003-05-01
US7260439B2 (en) 2007-08-21

Similar Documents

Publication Publication Date Title
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
Li et al. Classification of general audio data for content-based retrieval
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
Li et al. Content-based movie analysis and indexing based on audiovisual cues
EP1728195B1 (en) Method and system for semantically segmenting scenes of a video sequence
US10134440B2 (en) Video summarization using audio and visual cues
US8838452B2 (en) Effective audio segmentation and classification
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
JP4132589B2 (ja) オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置
JP4348970B2 (ja) 情報検出装置及び方法、並びにプログラム
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
WO2015114216A2 (en) Audio signal analysis
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
KR101667557B1 (ko) 실시간 음원 분류 장치 및 방법
Cotton et al. Soundtrack classification by transient events
JP2000235585A (ja) トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
WO2005093752A1 (en) Method and system for detecting audio and video scene changes
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
Liang et al. Detecting semantic concepts in consumer videos using audio
CN113420178A (zh) 一种数据处理方法以及设备
CN103380457B (zh) 声音处理装置、方法及集成电路
KR100869643B1 (ko) 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
Zhang et al. A two phase method for general audio segmentation
AU2005252714B2 (en) Effective audio segmentation and classification
AU2003204588B2 (en) Robust Detection and Classification of Objects in Audio Using Limited Training Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100104

R150 Certificate of patent or registration of utility model

Ref document number: 4442081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees