JP2003177778A - 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 - Google Patents
音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法Info
- Publication number
- JP2003177778A JP2003177778A JP2002298114A JP2002298114A JP2003177778A JP 2003177778 A JP2003177778 A JP 2003177778A JP 2002298114 A JP2002298114 A JP 2002298114A JP 2002298114 A JP2002298114 A JP 2002298114A JP 2003177778 A JP2003177778 A JP 2003177778A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- data segments
- segment
- audio
- selecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Abstract
提供する。 【解決手段】 本発明の方法は、音声データを複数の音
声データセグメントにセグメント化するステップ(S300)
と、複数の音声データセグメントの適合基準を設定する
ステップ(S400)と、適合基準に基づいて複数の音声デー
タセグメントを分析するステップと、適合基準を満た
す、複数の音声データセグメントのうち1つを選択する
ステップ(S500)と、を含む。さらに、複数の音声データ
セグメントのうち選択した1つをビデオデータに関連付
けるステップ(S600)を含むこともできる。
Description
s)又はアブストラクトの自動抽出に関する。
グメント化の公知の技術は、ポーズの検出に基づく。こ
のような技術は、雑音や反響のある条件下ではロバスト
ではなく、音楽や非スピーチ音声に対してもあまりロバ
ストではない。スピーチ認識及び/又はスピーカ識別ベ
ースの技術は、トレーニングした統計モデルを必要とす
る。このような技術は、音声データがトレーニングドメ
インに相似しない限りロバストではない。さらに、この
ような技術に必要な演算リソースは膨大で、普通は実行
できない。
デオサマリージェネレータのいくつかはシーン転換グラ
フを使用してアドホックなセグメント化を実行しようと
試みてきた。アドホックなセグメント化に続いて階層ク
ラスタリングプロセスを実行し、サマリーを作成する。
他の従来のビデオサマリージェネレータは、クローズド
キャプション、アコースティックサイレンス及びピッチ
を使用してセグメント境界を決定し、サマリーの作成に
使用するセグメント候補を識別してきた。これらの従来
のシステムは、ワーク内にクローズドキャプション、ア
コースティックサイレンス及びピッチが存在するかを判
定することに依存し、これらの特徴が検出しづらい場
合、ワークにない場合はうまく作動しなかった。さらに
これら従来のシステムは単に代表的なセグメントを選択
するだけなので、かなり長いセグメント候補のサマリー
を作成することはできない。
号、米国特許出願番号第09/569、230号および
他の従来の技術では上記課題は解決されていない(例え
ば、非特許文献1〜8参照)。
ションサマリーの比較:スライド、リーディング、リス
ニング」("Comparing Presentation Summaries : Slide
vs. Reading vs. Listening")、マイクロソフトリサー
チ(Microsoft Research)
計測を用いた自動音声セグメンテーション」("Automati
c Audio Segmentation Using A Measure ofAudio Novel
ty")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)
「スピーカ認識を用いたスピーチセグメンテーション」
("Segmentation Of Speech Using Speaker Identificat
ion")、ゼロックス パーク(Xerox PARC.)
オ自己類似分析によるシーン境界検出」("Scene Bounda
ry Detection Via Video Self-Similarity Analysi
s")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)
セグメンテーションのためのピッチベース強調検出」("
Pitch-Based Emphasis Detection For Segmenting Spee
ch Recordings")、Proceedings of International Conf
erence on Spoken language Processing(日本、横浜、
9月18〜22日)、1994年、vol. 4、第1931
〜1934頁
ルワールドオブジェクトの拡張:ペーパーベース音声ノ
ート」("Augmenting Real-World Objects :A paper-Bas
ed Audio Notebook")、MITメディアラボラトリー、
スピーチリサーチグループ(MIT Media Laboratory、Spe
ech ResearchGroup)
び音声ノートのための動的グループ化技術」("A Dynami
c Grouping Technique for Ink and Audio Notes")、エ
フエックスパロアルトラボラトリーインコーポレイテッ
ド(FX Palo Alto Laboratory, Inc.)
ブラウザのためのアコースティックセグメンテーショ
ン」("Acoustic Segmentation for Audio Browsers
")、ゼロックスパーク(Xerox PARC)、エフエックスパ
ロアルトラボラトリーインコーポレイテッド(FX Palo A
lto Laboratory, Inc.)
法は、音声抄録の自動抽出を提供する。本発明のシステ
ム及び方法はまた、自己類似ベースのセグメント化を用
いた自動抽出も提供する。
である。例えば、音声抄録の自動抽出は音声/ビデオ分
類及びリトリーバルシステムにおいて有用である。ビデ
オワークをセグメント化し、各セグメントの主要なコン
ポーネントを決定し、第2の同様にセグメント化したビ
デオと比較する。比較の細分性に基づいて、主要なコン
ポーネントの類似の程度を比較し、主要なコンポーネン
トの変化のシーケンス及び/又は頻度を決定することに
よって、又は比較する第1及び第2のワークの主要なコ
ンポーネントの類似を決定するあらゆる他の手段を使用
することによって、類似する、或いはほぼ類似するワー
クを識別することができる。音声抄録の自動抽出によっ
て、キーフレームビデオサマリーに音声抄録で注釈を付
けることができる。キーフレームと組合せたこのような
音声アブストラクトによって、帯域幅の広いストリーミ
ングビデオ又は音声を使用せずに、(音声付き)ビデオ
又は類似の媒体を視聴する軽量且つウェブブラウジング
可能なインタフェースを容易に実現できる。
声抄録の抽出方法は、音声データを複数の音声データセ
グメントにセグメント化するステップと、複数の音声デ
ータセグメントの適合基準を設定するステップと、適合
基準に基づいて複数の音声データセグメントを分析する
ステップと、適合基準を満たす、複数の音声データセグ
メントのうち1つを選択するステップと、を含む。音声
データのセグメント化は、音声セグメントの識別に適し
たあらゆる公知の又はこれから開発されるセグメント化
技術であってよい。種々の実施形態では、音声データを
複数の音声データセグメントにセグメント化するステッ
プは、自己類似分析に基づいて音声データをセグメント
化するステップを含む。自己類似分析に基づく音声デー
タのセグメント化ステップは、音声データのソース信号
においてノベルティ(novelty)ポイントを識別するステ
ップを含むことができる。
の音声データセグメントの適合基準を設定するステップ
が、音声データセグメントの持続時間制約を設定するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、各音声データセグメン
トの持続時間と持続時間制約とを比較するステップを含
む。このような実施形態では、複数の音声データセグメ
ントのうち1つを選択するステップが、持続時間制約を
満たす、複数の音声データセグメントのうち第1番目を
選択するステップを含むことができる。さらに適合基準
に基づいて複数の音声データセグメントを分析するステ
ップが、持続時間制約との比較に基づいて各音声データ
セグメントの適合スコアを演算するステップをさらに含
むことができる。このような実施形態では、複数の音声
データセグメントのうち1つを選択するステップが、適
合スコアの極大値を有する音声データセグメントを選択
するステップを含むことができる。
複数の音声データセグメントの適合基準を設定するステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も1つを音声データセグメントの制約として選択するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、持続時間、ピッチ輪
郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
関連データのうち少なくとも1つを各音声データセグメ
ントに対して識別し制約を適用するステップを含む。
声抄録の抽出方法は、複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付けるステップを
さらに含む。このような実施形態では、複数の音声デー
タセグメントのうち選択した1つをビデオデータに関連
付けるステップが、複数の音声データセグメントのうち
選択した1つをキーフレームに関連付けるステップを含
むことができる。
は、音声抄録の抽出方法は、音声データを複数の音声デ
ータセグメントにセグメント化するステップと、複数の
音声データセグメントの持続時間制約を設定するステッ
プと、各音声データセグメントの持続時間と持続時間制
約とを比較するステップと、持続時間制約を満たす、複
数の音声データセグメントのうち1つを選択するステッ
プと、を含む。音声データのセグメント化は、音声セグ
メントの識別に適したあらゆる公知の又はこれから開発
されるセグメント化技術であり得る。種々の実施形態で
は、音声データを複数の音声データセグメントにセグメ
ント化するステップが、自己類似分析に基づいて音声デ
ータをセグメント化するステップを含む。自己類似分析
に基づく音声データのセグメント化ステップは、音声デ
ータのソース信号においてノベルティポイントを識別す
るステップを含むことができる。
声データ抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、少なくとも1つの適合基準に基
づいて複数の音声データセグメントを分析する分析回路
と、適合基準を満たす、複数の音声データセグメントの
うち1つを選択する選択回路と、を含む。種々の実施形
態では、このシステムは複数の音声データセグメントの
うち選択した1つをビデオデータに関連付けるアソシエ
ーション回路をさらに含む。
は、音声抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、各音声データセグメントの持続
時間と持続時間制約とを比較する分析回路と、持続時間
制約を満たす、複数の音声データセグメントのうち1つ
を選択する選択回路と、を含む。種々の実施形態では、
このシステムは複数の音声データセグメントのうち選択
した1つをビデオデータに関連付けるアソシエーション
回路をさらに含む。
行するコンピュータ読取可能記憶媒体及び/又はプログ
ラムを想定している。
抽出方法は、音声データを複数の音声データセグメント
にセグメント化するステップと、前記複数の音声データ
セグメントの適合基準を設定するステップと、前記適合
基準に基づいて前記複数の音声データセグメントを分析
するステップと、前記適合基準を満たす、前記複数のデ
ータセグメントのうち1つを選択するステップと、を含
む。
は、第1の態様の音声抄録抽出方法において、前記音声
データを複数の音声データセグメントにセグメント化す
る前記ステップが、自己類似分析に基づいて前記音声デ
ータをセグメント化するステップを含む。
は、第2の態様の音声抄録抽出方法において、自己類似
分析に基づいて前記音声データをセグメント化する前記
ステップが、前記音声データのソース信号においてノベ
ルティ(novelty)ポイントを識別するステップを含む。
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、前記音声データセグメントの持続時間制約を設
定するステップを含み、前記適合基準に基づいて前記複
数のデータセグメントを分析する前記ステップが、各音
声データセグメントの持続時間と前記持続時間制約とを
比較するステップを含む。
は、第4の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち1つを選択する前記ステ
ップが、前記持続時間制約を満たす、前記複数の音声デ
ータセグメントのうち第1番目の音声データセグメント
を選択するステップを含む。
は、第4の態様の音声抄録抽出方法において、前記適合
基準に基づいて前記複数の音声データセグメントを分析
する前記ステップが、前記持続時間制約との前記比較に
基づいて各音声データセグメントの適合スコアを演算す
るステップをさらに含む。
は、第6の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち1つを選択する前記ステ
ップが、前記適合スコアの極大値を有する音声データセ
グメントを選択するステップを含む。
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も1つを前記音声データセグメントの制約として選択す
るステップを含み、前記適合基準に基づいて前記複数の
音声データセグメントを分析する前記ステップが、持続
時間、ピッチ輪郭、音響上の類似、ビデオ特徴、キーフ
レーム時間及び関連データのうち少なくとも1つを各音
声データセグメントに対して識別し前記制約を適用する
ステップを含む。
は、第1の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した1つをビデオデ
ータに関連付けるステップをさらに含む。
は、第9の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した1つをビデオデ
ータに関連付ける前記ステップが、前記複数の音声デー
タセグメントのうち選択した1つをキーフレームに関連
付けるステップを含む。
は、音声データを複数の音声データセグメントにセグメ
ント化するステップと、前記複数の音声データセグメン
トの持続時間制約を設定するステップと、各音声データ
セグメントの持続時間と前記持続時間制約とを比較する
ステップと、前記持続時間制約を満たす、前記複数の音
声データセグメントのうち1つを選択するステップと、
を含む。
は、第11の態様の音声抄録抽出方法において、前記音
声データを複数の音声データセグメントにセグメント化
する前記ステップが、自己類似分析に基づいて前記音声
データをセグメント化するステップを含む。
は、第12の態様の音声抄録抽出方法において、自己類
似分析に基づいて前記音声データをセグメント化する前
記ステップが、前記音声データのソース信号においてノ
ベルティポイントを識別するステップを含む。
は、第11の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち1つを選択する前記ス
テップが、前記持続時間制約を満たす、前記複数の音声
データセグメントの第1番目の音声データセグメントを
選択するステップを含む。
は、第11の態様の音声抄録抽出方法において、前記持
続時間制約との前記比較に基づいて各音声データセグメ
ントの適合スコアを演算するステップをさらに含む。
は、第15の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち1つを選択する前記ス
テップが、前記適合スコアの極大値を有する音声データ
セグメントを選択するステップを含む。
は、第11の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した1つをビデオ
データに関連付けるステップをさらに含む。
は、第17の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した1つをビデオ
データに関連付ける前記ステップが、前記複数の音声デ
ータセグメントのうち選択した1つをキーフレームに関
連付けるステップを含む。
出システムは、コントローラと、音声データを複数の音
声データセグメントにセグメント化するセグメント化回
路と、 前記複数の音声データセグメントを少なくとも
1つの適合基準に基づいて分析する分析回路と、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち1つを選択する選択回路と、を含む。
出システムは、第19の態様の音声データ抄録抽出シス
テムにおいて、前記複数の音声データセグメントのうち
選択した1つをビデオデータに関連付けるアソシエーシ
ョン回路をさらに含む。
テムは、コントローラと、音声データを複数の音声デー
タセグメントにセグメント化するセグメント化回路と、
各音声データセグメントの持続時間を持続時間制約と比
較する分析回路と、前記持続時間制約を満たす、前記複
数の音声データセグメントのうち1つを選択する選択回
路と、を含む。
テムは、第21の態様の音声抄録抽出システムにおい
て、前記複数の音声データセグメントのうち選択した1
つをビデオデータに関連付けるアソシエーション回路を
さらに含む。
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能であって、該方法は、音声データ
を複数の音声データセグメントにセグメント化するステ
ップと、前記複数の音声データセグメントの適合基準を
設定するステップと、前記適合基準に基づいて前記複数
の音声データセグメントを分析するステップと、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち1つを選択するステップと、を含む。
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの適合基準を設定する命令
と、前記適合基準に基づいて前記複数の音声データセグ
メントを分析する命令と、前記適合基準を満たす、前記
複数の音声データセグメントのうち1つを選択する命令
と、を含む。
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能で、該方法は、音声データを複数
の音声データセグメントにセグメント化するステップ
と、前記複数の音声データセグメントの持続時間制約を
設定するステップと、各音声データセグメントの持続時
間と前記持続時間制約とを比較するステップと、前記持
続時間制約を満たす、前記複数の音声データセグメント
のうち1つを選択するステップと、を含む。
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの持続時間制約を設定する
命令と、各音声データセグメントの持続時間と前記持続
時間制約とを比較する命令と、前記持続時間制約を満た
す、前記複数の音声データセグメントのうち1つを選択
する命令と、を含む。
セグメントからの音声抄録選択方法は、境界候補リスト
から境界開始候補を選択するステップと、前記境界候補
リストから隣接境界候補を選択してセグメント候補を定
義するステップと、少なくとも1つの適合基準に基づい
て前記セグメント候補を分析するステップと、前記セグ
メント候補が前記少なくとも1つの適合基準を満たすな
らば、前記セグメント候補をセグメント候補リストに付
加するステップと、前記ステップを繰り返して前記境界
候補リストからの境界開始候補と隣接境界候補とのあら
ゆる組合せを評価するステップと、前記作成したセグメ
ント候補リストからセグメント候補のうち1つを選択す
るステップと、を含む。
は、第27の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
1つを選択する前記ステップが、前記少なくとも1つの
適合基準に基づく。
は、第27の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
1つを選択する前記ステップが、前記少なくとも1つの
適合基準と異なる少なくとも第2の適合基準に基づく。
利点は、本発明のシステム及び方法の種々の例示的な実
施形態の以下の詳細な記述に説明されており、またこれ
から明らかとなる。
な実施形態を、添付図面を参照しながら以下に詳細に説
明する。
の例示的な実施形態を示す。コントローラ102、メモ
リ104、セグメント化回路106、分析回路108、
選択回路110及びアソシエーション回路112が入出
力回路114を介して通信リンク201に接続する。ア
ソシエーション回路112は任意であり、選択した音声
データセグメントがビデオデータに関連しない場合は省
いてもよいことを理解されたい。
起動させ、通信リンク201を介して音声データをリト
リーブし、かつ/又は受信する。本発明の種々の実施形
態では、音声データはMPEG−3、MPEG−4、リ
アルネットワーク(RealNetworks)によるPNM−Rea
lNetworksプロトコル、RealVideoプ
ロトコル、マイクロソフト(商標)コーポレーションに
よるウィンドウズ(R)メディアのマイクロソフト(商
標)メディアストリーミングプロトコルなどのストリー
ミング音声/ビデオプロトコルやあらゆる他の公知の又
はこれから開発される音声及び/又は音声/ビデオプロ
トコルに符号化される音声/ビデオ情報の一部である。
本発明の種々の実施形態はまた、MPEG−4での動作
やあらゆる他の符号化情報も想定しており、別個の復号
化や符号化を必要とせずに符号化情報ストリーム又はプ
ロトコルに直接アクセスする。
データは生音声データでもよいし、既に粗くセグメント
化されている音声データでもよい。粗いセグメント化
は、公知の又はこれから開発されるあらゆる適切な技術
を用いて達成することができる。例えば、音声データが
音声/ビデオデータの一部である場合、粗いセグメント
化は1999年3月12日に出願した同時係属中の米国
出願番号第09/267,529号(参照によって本明細書中に援
用する)に記載されているように、ビデオデータのカラ
ーヒストグラム分析に基づく。
データは、メモリ104に保存される。次いでセグメン
ト化回路106が起動されてリトリーブした、かつ/又
は受信した音声データの複数の音声データセグメントを
識別する。例えば、種々の音声データセグメントを定義
するセグメント境界候補を識別することができる。セグ
メント化回路106は、音声データのセグメント化に適
したあらゆる公知の又はこれから開発されるセグメント
化技術を実行することができる。
グメント化回路106は自己類似分析に基づく音声デー
タのセグメント化を実行することができる。例えば、セ
グメント化回路106は、自己類似分析が音声データの
ソース信号におけるノベルティポイントの識別からなる
セグメント化を実行することができる。このようなセグ
メント化技術は、2000年5月11日に出願した同時
係属中の米国出願番号第09/569,230号(参照として本明
細書中に援用する)に記載されている。
多かったり反響したりする条件下ではロバストでなく、
音楽や他の非スピーチの音声データに適さない他の技術
に対して利点を提示する。さらにこの技術は統計モデリ
ングを必要としないし、演算も比較的わずかしか必要と
しない。図2は、9秒間の音声データのエネルギースコ
アとノベルティ(novelty)スコアのグラフを例示する。
ノベルティスコアのピーク、即ち極大点が優れたセグメ
ント境界候補を提供する。その理由は、音声データは極
大点間で自己類似しており、これらの極大点を超えると
著しく異なるためである。さらにノベルティスコアは非
線形測定であるため、比較的広い時間間隔で計算しても
ノベルティスコアは先鋭且つ明確なピーク即ち極大点を
生成する。比較すると、時間間隔が比較的広い場合は、
平均エネルギーを用いた技術のほうがピークがあまり明
確ではない。
ーク即ち極大点は、エネルギースコアのピークよりも長
い時間間隔で生じる。したがって、ノベルティスコアは
考慮すべき境界候補の数が少ない。ピークの数を減らす
ためにエネルギースコアをローパスフィルタ処理した場
合、より検出しにくい狭いピークが生じ、時間分解能が
減少する。
メント境界候補をノベルティスコアのピークから選択す
る。選択は、例えば、ノベルティスコアが局所又は広域
閾値を越える点を識別することに基づく。より時間の精
度を上げたいならば、閾値より上の極大点又は傾きがゼ
ロである点を識別することで、ピークを正確に検出する
ことができる。次いで最も高いピークのみを選択するた
めに、ピークを高さによってランク付けする。このこと
によって可変閾値を有効に得ることができ、そのためセ
グメント化方法は雑音のある音声データやわずかしか変
化しない音声データを含む全ての種類の音声データに対
してロバストとなる。
と、分析回路108は時間分析及び/又は適合分析に基
づいて当該音声データセグメントを評価する。時間分析
の場合、分析回路108は持続時間制約にしたがって当
該音声データセグメントを評価する。例えば、識別又は
選択した各セグメント境界候補を当該音声データセグメ
ントの境界開始とみなすことができる。音声データセグ
メント候補が所与のアプリケーションに対して長すぎた
り短すぎたりしないように持続時間制約を設定する。例
えば、5〜15秒の範囲を持続時間制約として使用する
ことができる。セグメント境界候補の開始と終了の各組
合せを分析回路108で持続時間制約と比較する。
とも1つの適合基準にしたがって当該音声データセグメ
ントを評価する。分析回路108が時間分析を実行する
場合、適合基準は持続時間制約を満たす第1番目の音声
データセグメントとなる。或いは、適合基準は持続時間
制約内の好ましい持続時間に最も近い音声データセグメ
ントでもよい。例えば、分析回路108は、音声データ
セグメント候補の好ましい持続時間からの偏差に基づい
てこれらの候補のランキングを作成することができる。
い。例えば、分析回路108は、音声データセグメント
候補それぞれの平均エネルギーを評価してもよい。エネ
ルギー基準を使用することで、サイレンス又はバックグ
ラウンドノイズのみからなる音声データセグメント候補
は確実に好まれず選択されない。さらに分析回路108
は、フレーズ全体、音、楽音などの可能性のある音声デ
ータセグメントが好まれるように、隣接する音声データ
セグメント候補のエネルギーに基づいて音声データセグ
メントの各候補を評価することができる。
基づいて音声データセグメントの各候補を評価しランク
付けすることができる。使用できる適合基準の他の非限
定的な例として、スピーチ強調を識別する音声データセ
グメント候補のピッチ輪郭や特定の音声特徴を識別する
音声データセグメント候補の音響類似が挙げられる。
合、音声データセグメント候補に対応する特定のビデオ
画像特徴を適合基準として使用することができる。例え
ば、スピーチを含んでいる可能性のある音声データセグ
メント候補を識別するために、顔検出アルゴリズムを使
用することができる。また、音声データセグメントがビ
デオキーフレームに関連している場合、キーフレーム時
間を適合基準として使用することができ、例えば、キー
フレーム時間が音声データセグメント候補時に生じるか
どうか、各音声データセグメントの境界開始がキーフレ
ーム時間にどの程度近いかを評価する。
ソースに基づく適合基準によって分析回路108で評価
することもできる。例えば、タイムスタンプ注釈、キャ
プション又はサブタイトルデータ、図形データ又は音声
データに関連し得るあらゆる他の適切なデータソースが
挙げられる。
声データセグメントの各候補の適合スコアを作成するこ
とができる。適合スコアは、音声データセグメントの各
候補がどの程度適合基準を満たしているかの測定を表
す。次いで選択回路110を使用し、例えば、適合スコ
アに基づいて音声データセグメント候補のうち1つを選
択することができる。
ントを選択すると、アソシエーション回路112が選択
した音声データセグメントをビデオデータに関連付け
る。例えば、アソシエーション回路112は、選択した
音声データセグメントをキーフレームに関連付けてマル
チメディアドキュメントで使用することができる。
的な方法を示すフローチャートである。以下に説明する
ように、図3は例示的な方法のフローチャートであり、
図4〜6はその方法の種々のステップをより詳細に例示
するフローチャートである。
10から始まり、S100に続く。ステップS100で
は、生音声データを受信する。次いでステップS200
では、生音声データに粗いセグメント化技術を施す。上
述のように、粗いセグメント化技術は音声データをセグ
メント化するあらゆる公知の又はこれから開発される技
術でよい。また、ステップS200の粗いセグメント化
は任意であり、ステップS100で受信した生音声デー
タをS300の前にセグメント化しなくてもよいことを
理解されたい。
粗いセグメント化による音声データセグメントに対して
類似ベースのセグメント化を実行する。上述の理由か
ら、この技術は他のセグメント化技術よりも好ましい。
しかしながら本発明は類似ベースのセグメント化を含む
方法に限定されず、公知の又はこれから開発される他の
セグメント化技術も使用できることを理解されたい。
声データセグメントに時間分析を実行し、音声データセ
グメント候補を識別する。次いでステップS500で
は、識別した音声データセグメント候補を適合分析す
る。例示的なシステムの上記の説明に基づくと、ステッ
プS400が所与のアプリケーションに必要な唯一の分
析であってよいことを理解されたい。またステップS4
00の時間分析を省いてもよいため、唯一の分析がステ
ップS500の適合分析となってもよい。さらにステッ
プS400の時間分析をステップS500の適合分析に
含めてもよいことを理解されたい。
ステップS600で選択した音声データセグメントをビ
デオデータに関連付ける。上述のように好適な実施形態
では、ビデオデータはマルチメディアドキュメントで使
用するためのキーフレームを含む。次いでコントロール
はステップS610に続き、プロセスが終了する。
テップS310、S320及びS330を有する。音声
データを粗くセグメント化し音声データセグメントをス
テップS310で受信する場合、ステップS310、S
320及びS330をループとして実行し、各セグメン
トを順番に処理する。生音声データ又は単一セグメント
のみをステップS310で受信する場合、ステップS3
10、S320及びS330を図示するようにこの順で
実行する。音声データセグメントをステップS310で
受信すると、ステップS320でそのセグメントのノベ
ルティスコアを決定する。次いでステップS330でノ
ベルティスコアを使用して上述のようにセグメント境界
候補を識別する。
テップS410、S420及びS430を有する。ステ
ップS410では、音声データセグメントに対して持続
時間制約を設定する。持続時間制約はユーザからの入力
によって手作業で設定してもよいし、例えば、ステップ
S100で受信した音声データの種類又は特徴に基づい
て自動的に設定してもよい。ステップS420では、セ
グメント境界候補を持続時間制約と比較する。次いでス
テップS430では、持続時間制約を満たすセグメント
境界候補を識別する。
テップS510、S520及びS530を有する。ステ
ップS510では、音声データセグメントに対して適合
基準を設定する。適合基準はユーザからの入力によって
手作業で設定してもよいし、例えば、ステップS100
で受信した音声データの種類又は特徴に基づいて自動的
に設定してもよい。ステップS520では、セグメント
境界候補を適合基準に基づいて分析する。次いでステッ
プS530では、適合基準を満たすセグメント境界候補
に対応する、音声データセグメントのうち1つを選択す
る。
方法を示すフローチャートである。このプロセスはステ
ップS1010で始まり、ステップS1100に続く。
ステップS1100では、境界候補のリストを取得す
る。境界候補のリストはノベルティスコアを使用して決
定することができる。図2に示すように、ノベルティス
コア基準に基づいて境界候補(1)〜(6)を選択す
る。
リストから1つの境界候補を境界開始候補Aiとして選
択する。これは時間順に行われる。そのため、図2の境
界候補(1)が第1の境界開始候補として選択される。
ステップS1300では、境界候補のリストから次の隣
接する境界候補Bjを選択し、セグメント候補AiBjを
定義する。次いでステップS1400では、セグメント
候補AiBjを所望の適合基準に対して分析又は比較す
る。セグメント候補AiBjが適合基準を満たすならばコ
ントロールはステップS1500に進み、そこでセグメ
ント候補AiBjをセグメント候補のリストに付加する。
コントロールはステップS1600に続く。セグメント
候補AiBjが適合基準を満たさないならば、コントロー
ルはステップS1600にジャンプする。
補Bjが存在するか、或いは最後の隣接境界候補Bjが選
択されたかどうかを判定する。他の隣接境界候補Bjが
存在するならば、コントロールはステップS1300に
戻る。境界候補Bjが最後であるならば、コントロール
はステップS1700に進む。
補Aiが存在するか、或いは最後の境界開始候補Aiが選
択されたかどうかを判定する。他の境界開始候補Aiが
存在するならば、コントロールはステップS1200に
戻る。境界開始候補Aiが最後ならば、コントロールは
ステップS1800に進む。このようにして、リストか
らの境界候補のあらゆる組合せを評価する。例えば、図
2に示す境界候補(1)〜(6)のリストの場合、セグ
メント候補((1)−(2))、((1)−(3))、
((1)−(4))、((1)−(5))、((1)−
(6))、((2)−(3))、((2)−(4))、
((2)−(5))、((2)−(6))、((3)−
(4))、((3)−(5))、((3)−(6))、
((4)−(5))、((4)−(6))及び((5)
−(6))を評価する。
のリストをソートする、例えば、適合スコアによってラ
ンク付けする。ソーティングは、ステップS1400の
セグメント候補を評価するために使用したものと同じ適
合基準に基づいてもよいし、基づかなくてもよい。次い
でステップS1900では、ソートしたセグメント候補
のリストから最良のセグメント候補を選択する。「最良
の」セグメント候補は、ユーザの好み及び/又は抽出し
た音声セグメントの特定のアプリケーションに依存して
いる。次いでコントロールはステップS1910に続
き、そこでプロセスは終了する。
は、自動音声抽出システム100をプログラムされた汎
用コンピュータを使用して実行することができる。しか
しながら自動音声抽出システム100は、専用コンピュ
ータ、プログラムされたマイクロプロセッサ又はマイク
ロコントローラ及び周辺集積回路素子、ASIC又は他
の集積回路、デジタル信号プロセッサ、離散素子回路な
どのハードワイヤード電子又はロジック回路、PLD、
PLA、FPGA又はPALなどのプログラマブルロジ
ック装置を使用して実行することもできる。一般に、図
3〜6及び7に示すフローチャートを実行できる有限状
態マシーンを実行できるあらゆる装置を、自動音声抽出
システム100を実行するために使用することができ
る。
0の回路102〜114のそれぞれは、適切にプログラ
ムされた汎用コンピュータの部分として実行することが
できる。或いは、上記に概説した自動音声抽出システム
100の回路102〜114は、ASIC内の物理的に
別個のハードウェア回路として、又はFPGA、PD
L、PLA若しくはPALを使用して、又は離散ロジッ
ク素子若しくは離散回路素子を使用して実行することが
できる。上記に概説した自動音声抽出システム100の
回路102〜114のそれぞれがとる特定の形態は設計
上の選択であり、当業者には明らかで予測できるもので
ある。
及び/又は種々の回路それぞれは、ソフトウェアルーチ
ン、マネージャ又はプログラムされた汎用コンピュー
タ、専用コンピュータ、マイクロプロセッサなどで実行
するオブジェクトとして実行することができる。この場
合、上述の自動音声抽出システム100及び/又は種々
の回路それぞれは、通信ネットワークに埋め込まれた1
つ以上のルーチンとして、サーバ上に存在するリソース
として実行することができる。上述の自動音声抽出シス
テム100及び種々の回路はまた、自動音声抽出システ
ム100をウェブサーバのハードウェア及びソフトウェ
アシステムなどのソフトウェア及び/又はハードウェア
システムに物理的に組み込むことによって実行すること
もできる。
若しくは不揮発性メモリ又は不可変即ち固定メモリのあ
らゆる適切な組合せを使用して実行することができる。
可変メモリは、揮発性であっても不揮発性であっても、
スタティック又はダイナミックRAM、フロッピー
(R)ディスクとディスクドライブ、書き込み可能又は
書き換え可能光ディスクとディスクドライブ、ハードド
ライブ、フラッシュメモリなどのうち任意の1つ以上を
使用して実行することができる。同様に、不可変即ち固
定メモリは、ROM、PROM、EPROM、EEPR
OM、CD−ROM又はDVD−ROMディスクなどの
光ROMディスクのうち任意の1つ以上とディスクドラ
イブを使用して実行することができる。
を自動音声抽出システム100に接続するあらゆる公知
の又はこれから開発される装置又はシステムであること
ができ、ダイレクトケーブル接続、ワイドエリアネット
ワーク又はローカルエリアネットワークを介した接続、
イントラネットを介した接続、インターネットを介した
接続又はあらゆる他の分散処理ネットワーク又はシステ
ムを介した接続を含む。一般に通信リンク201は、装
置を接続し通信を容易にするために使用できるあらゆる
公知の又はこれから開発される接続システム又は構造で
あることができる。
へのワイヤード又はワイヤレスリンクであり得ることを
理解されたい。ネットワークは、ローカルエリアネット
ワーク、ワイドエリアネットワーク、イントラネット、
インターネット、又はあらゆる他の分散処理及びストレ
ージネットワークであり得る。
せて本発明を説明してきたが、当業者には多くの代替、
修正及びバリエーションが明らかであることは明白であ
る。したがって、上記に説明した本発明の例示的な実施
形態は例示を意図するものであり限定するものではな
い。本発明の趣旨や範囲から逸脱せずに種々の変更を行
うことができる。
図である。
ルティスコアの例示的なグラフである。
ャートである。
法のフローチャートである。
トである。
トである。
チャートである。
Claims (27)
- 【請求項1】 音声データを複数の音声データセグメン
トにセグメント化するステップと、 前記複数の音声データセグメントの適合基準を設定する
ステップと、 前記適合基準に基づいて前記複数の音声データセグメン
トを分析するステップと、 前記適合基準を満たす、前記複数のデータセグメントの
うち1つを選択するステップと、 を含む、音声抄録(excerpts)抽出方法。 - 【請求項2】 前記音声データを複数の音声データセグ
メントにセグメント化する前記ステップが、自己類似分
析に基づいて前記音声データをセグメント化するステッ
プを含む、請求項1に記載の方法。 - 【請求項3】 自己類似分析に基づいて前記音声データ
をセグメント化する前記ステップが、前記音声データの
ソース信号においてノベルティ(novelty)ポイントを識
別するステップを含む、請求項2に記載の方法。 - 【請求項4】 前記複数の音声データセグメントの適合
基準を設定する前記ステップが、前記音声データセグメ
ントの持続時間制約を設定するステップを含み、 前記適合基準に基づいて前記複数のデータセグメントを
分析する前記ステップが、各音声データセグメントの持
続時間と前記持続時間制約とを比較するステップを含
む、請求項1に記載の方法。 - 【請求項5】 前記複数の音声データセグメントのうち
1つを選択する前記ステップが、前記持続時間制約を満
たす、前記複数の音声データセグメントのうち第1番目
の音声データセグメントを選択するステップを含む、請
求項4に記載の方法。 - 【請求項6】 前記適合基準に基づいて前記複数の音声
データセグメントを分析する前記ステップが、前記持続
時間制約との前記比較に基づいて各音声データセグメン
トの適合スコアを演算するステップをさらに含む、請求
項4に記載の方法。 - 【請求項7】 前記複数の音声データセグメントのうち
1つを選択する前記ステップが、前記適合スコアの極大
値を有する音声データセグメントを選択するステップを
含む、請求項6に記載の方法。 - 【請求項8】 前記複数の音声データセグメントの適合
基準を設定する前記ステップが、持続時間、ピッチ輪
郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
関連データのうち少なくとも1つを前記音声データセグ
メントの制約として選択するステップを含み、 前記適合基準に基づいて前記複数の音声データセグメン
トを分析する前記ステップが、持続時間、ピッチ輪郭、
音響上の類似、ビデオ特徴、キーフレーム時間及び関連
データのうち少なくとも1つを各音声データセグメント
に対して識別し前記制約を適用するステップを含む、請
求項1に記載の方法。 - 【請求項9】 前記複数の音声データセグメントのうち
選択した1つをビデオデータに関連付けるステップをさ
らに含む、請求項1に記載の方法。 - 【請求項10】 前記複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付ける前記ステッ
プが、前記複数の音声データセグメントのうち選択した
1つをキーフレームに関連付けるステップを含む、請求
項9に記載の方法。 - 【請求項11】 音声データを複数の音声データセグメ
ントにセグメント化するステップと、 前記複数の音声データセグメントの持続時間制約を設定
するステップと、 各音声データセグメントの持続時間と前記持続時間制約
とを比較するステップと、 前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち1つを選択するステップと、 を含む、音声抄録抽出方法。 - 【請求項12】 前記音声データを複数の音声データセ
グメントにセグメント化する前記ステップが、自己類似
分析に基づいて前記音声データをセグメント化するステ
ップを含む、請求項11に記載の方法。 - 【請求項13】 自己類似分析に基づいて前記音声デー
タをセグメント化する前記ステップが、前記音声データ
のソース信号においてノベルティポイントを識別するス
テップを含む、請求項12に記載の方法。 - 【請求項14】 前記複数の音声データセグメントのう
ち1つを選択する前記ステップが、前記持続時間制約を
満たす、前記複数の音声データセグメントの第1番目の
音声データセグメントを選択するステップを含む、請求
項11に記載の方法。 - 【請求項15】 前記持続時間制約との前記比較に基づ
いて各音声データセグメントの適合スコアを演算するス
テップをさらに含む、請求項11に記載の方法。 - 【請求項16】 前記複数の音声データセグメントのう
ち1つを選択する前記ステップが、前記適合スコアの極
大値を有する音声データセグメントを選択するステップ
を含む、請求項15に記載の方法。 - 【請求項17】 前記複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付けるステップを
さらに含む、請求項11に記載の方法。 - 【請求項18】 前記複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付ける前記ステッ
プが、前記複数の音声データセグメントのうち選択した
1つをキーフレームに関連付けるステップを含む、請求
項17に記載の方法。 - 【請求項19】 コントローラと、 音声データを複数の音声データセグメントにセグメント
化するセグメント化回路と、 前記複数の音声データセグメントを少なくとも1つの適
合基準に基づいて分析する分析回路と、 前記適合基準を満たす、前記複数の音声データセグメン
トのうち1つを選択する選択回路と、 を含む、音声データ抄録抽出システム。 - 【請求項20】 前記複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付けるアソシエー
ション回路をさらに含む、請求項19に記載のシステ
ム。 - 【請求項21】 コントローラと、 音声データを複数の音声データセグメントにセグメント
化するセグメント化回路と、 各音声データセグメントの持続時間を持続時間制約と比
較する分析回路と、 前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち1つを選択する選択回路と、 を含む、音声抄録抽出システム。 - 【請求項22】 前記複数の音声データセグメントのう
ち選択した1つをビデオデータに関連付けるアソシエー
ション回路をさらに含む、請求項21に記載のシステ
ム。 - 【請求項23】 音声抄録の抽出方法に使用可能な制御
プログラムであって、 音声データを複数の音声データセグメントにセグメント
化する命令と、 前記複数の音声データセグメントの適合基準を設定する
命令と、 前記適合基準に基づいて前記複数の音声データセグメン
トを分析する命令と、 前記適合基準を満たす、前記複数の音声データセグメン
トのうち1つを選択する命令と、 を含む、プログラム。 - 【請求項24】 音声抄録の抽出方法に使用可能な制御
プログラムであって、 音声データを複数の音声データセグメントにセグメント
化する命令と、 前記複数の音声データセグメントの持続時間制約を設定
する命令と、 各音声データセグメントの持続時間と前記持続時間制約
とを比較する命令と、 前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち1つを選択する命令と、 を含む、プログラム。 - 【請求項25】 境界候補リストから境界開始候補を選
択するステップと、 前記境界候補リストから隣接境界候補を選択してセグメ
ント候補を定義するステップと、 少なくとも1つの適合基準に基づいて前記セグメント候
補を分析するステップと、 前記セグメント候補が前記少なくとも1つの適合基準を
満たすならば、前記セグメント候補をセグメント候補リ
ストに付加するステップと、 前記ステップを繰り返して前記境界候補リストからの境
界開始候補と隣接境界候補とのあらゆる組合せを評価す
るステップと、 前記作成したセグメント候補リストからセグメント候補
のうち1つを選択するステップと、 を含む、複数の音声データセグメントからの音声抄録選
択方法。 - 【請求項26】 前記作成したセグメント候補リストか
らセグメント候補のうち1つを選択する前記ステップ
が、前記少なくとも1つの適合基準に基づく、請求項2
5に記載の方法。 - 【請求項27】 前記作成したセグメント候補リストか
らセグメント候補のうち1つを選択する前記ステップ
が、前記少なくとも1つの適合基準と異なる少なくとも
第2の適合基準に基づく、請求項25に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US985073 | 2001-11-01 | ||
US09/985,073 US7260439B2 (en) | 2001-11-01 | 2001-11-01 | Systems and methods for the automatic extraction of audio excerpts |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003177778A true JP2003177778A (ja) | 2003-06-27 |
JP4442081B2 JP4442081B2 (ja) | 2010-03-31 |
Family
ID=25531168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002298114A Expired - Fee Related JP4442081B2 (ja) | 2001-11-01 | 2002-10-11 | 音声抄録選択方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7260439B2 (ja) |
JP (1) | JP4442081B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242497A (ja) * | 2010-05-17 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声データ区分方法、音声データ区分装置、及びプログラム |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020023123A1 (en) * | 1999-07-26 | 2002-02-21 | Justin P. Madison | Geographic data locator |
KR100530475B1 (ko) | 1999-11-10 | 2006-01-09 | 론치 미디어, 인크. | 인터넷 라디오와 방송 방법 |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US8352331B2 (en) * | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
US7406529B2 (en) * | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
US20050188297A1 (en) * | 2001-11-01 | 2005-08-25 | Automatic E-Learning, Llc | Multi-audio add/drop deterministic animation synchronization |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7489687B2 (en) * | 2002-04-11 | 2009-02-10 | Avaya. Inc. | Emergency bandwidth allocation with an RSVP-like protocol |
US7305483B2 (en) * | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7359979B2 (en) | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US8176154B2 (en) | 2002-09-30 | 2012-05-08 | Avaya Inc. | Instantaneous user initiation voice quality feedback |
US7386357B2 (en) * | 2002-09-30 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | System and method for generating an audio thumbnail of an audio track |
US20040073690A1 (en) * | 2002-09-30 | 2004-04-15 | Neil Hepworth | Voice over IP endpoint call admission |
US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
CN1875377A (zh) * | 2003-09-10 | 2006-12-06 | 音乐匹配公司 | 音乐购买和播放系统及其方法 |
US7978827B1 (en) | 2004-06-30 | 2011-07-12 | Avaya Inc. | Automatic configuration of call handling based on end-user needs and characteristics |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
JP2007094234A (ja) * | 2005-09-30 | 2007-04-12 | Sony Corp | データ記録再生装置、データ記録再生方法及びそのプログラム |
JP4321518B2 (ja) * | 2005-12-27 | 2009-08-26 | 三菱電機株式会社 | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 |
US7680657B2 (en) * | 2006-08-15 | 2010-03-16 | Microsoft Corporation | Auto segmentation based partitioning and clustering approach to robust endpointing |
US7617337B1 (en) | 2007-02-06 | 2009-11-10 | Avaya Inc. | VoIP quality tradeoff system |
EP1959449A1 (en) * | 2007-02-13 | 2008-08-20 | British Telecommunications Public Limited Company | Analysing video material |
US8208643B2 (en) * | 2007-06-29 | 2012-06-26 | Tong Zhang | Generating music thumbnails and identifying related song structure |
US8218751B2 (en) | 2008-09-29 | 2012-07-10 | Avaya Inc. | Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences |
US8996538B1 (en) | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
US20100293575A1 (en) * | 2009-05-12 | 2010-11-18 | Bryan Biniak | Live indexing and program guide |
US8571330B2 (en) * | 2009-09-17 | 2013-10-29 | Hewlett-Packard Development Company, L.P. | Video thumbnail selection |
US8457771B2 (en) * | 2009-12-10 | 2013-06-04 | At&T Intellectual Property I, L.P. | Automated detection and filtering of audio advertisements |
US8606585B2 (en) * | 2009-12-10 | 2013-12-10 | At&T Intellectual Property I, L.P. | Automatic detection of audio advertisements |
US11039177B2 (en) * | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US11102523B2 (en) | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
US10708633B1 (en) | 2019-03-19 | 2020-07-07 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220565A (en) * | 1991-05-30 | 1993-06-15 | Motorola, Inc. | Selective transmission of encoded voice information representing silence |
JPH07225593A (ja) * | 1994-02-10 | 1995-08-22 | Fuji Xerox Co Ltd | 音処理装置 |
EP0756267A1 (en) * | 1995-07-24 | 1997-01-29 | International Business Machines Corporation | Method and system for silence removal in voice communication |
US5995153A (en) * | 1995-11-02 | 1999-11-30 | Prime Image, Inc. | Video processing system with real time program duration compression and expansion |
US6340971B1 (en) * | 1997-02-03 | 2002-01-22 | U.S. Philips Corporation | Method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen |
US6799298B2 (en) * | 1998-03-11 | 2004-09-28 | Overture Services, Inc. | Technique for locating an item of interest within a stored representation of data |
US6853868B1 (en) * | 1999-10-15 | 2005-02-08 | Sun Microsystems, Inc. | Cross-platform audio feedback for GUI components |
US7299405B1 (en) * | 2000-03-08 | 2007-11-20 | Ricoh Company, Ltd. | Method and system for information management to facilitate the exchange of ideas during a collaborative effort |
US6642966B1 (en) * | 2000-11-06 | 2003-11-04 | Tektronix, Inc. | Subliminally embedded keys in video for synchronization |
-
2001
- 2001-11-01 US US09/985,073 patent/US7260439B2/en not_active Expired - Fee Related
-
2002
- 2002-10-11 JP JP2002298114A patent/JP4442081B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242497A (ja) * | 2010-05-17 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声データ区分方法、音声データ区分装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4442081B2 (ja) | 2010-03-31 |
US20030083871A1 (en) | 2003-05-01 |
US7260439B2 (en) | 2007-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003177778A (ja) | 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 | |
Li et al. | Classification of general audio data for content-based retrieval | |
US7263485B2 (en) | Robust detection and classification of objects in audio using limited training data | |
Li et al. | Content-based movie analysis and indexing based on audiovisual cues | |
EP1728195B1 (en) | Method and system for semantically segmenting scenes of a video sequence | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
US8838452B2 (en) | Effective audio segmentation and classification | |
US20040143434A1 (en) | Audio-Assisted segmentation and browsing of news videos | |
JP4132589B2 (ja) | オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置 | |
JP4348970B2 (ja) | 情報検出装置及び方法、並びにプログラム | |
JP2006084875A (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
WO2015114216A2 (en) | Audio signal analysis | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
KR101667557B1 (ko) | 실시간 음원 분류 장치 및 방법 | |
Cotton et al. | Soundtrack classification by transient events | |
JP2000235585A (ja) | トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム | |
WO2005093752A1 (en) | Method and system for detecting audio and video scene changes | |
EP1531457B1 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
Liang et al. | Detecting semantic concepts in consumer videos using audio | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
CN103380457B (zh) | 声音处理装置、方法及集成电路 | |
KR100869643B1 (ko) | 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체 | |
Zhang et al. | A two phase method for general audio segmentation | |
AU2005252714B2 (en) | Effective audio segmentation and classification | |
AU2003204588B2 (en) | Robust Detection and Classification of Objects in Audio Using Limited Training Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4442081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140122 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |