JP4878437B2 - オーディオサムネイルを生成するためのシステムおよび方法 - Google Patents
オーディオサムネイルを生成するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP4878437B2 JP4878437B2 JP2005047144A JP2005047144A JP4878437B2 JP 4878437 B2 JP4878437 B2 JP 4878437B2 JP 2005047144 A JP2005047144 A JP 2005047144A JP 2005047144 A JP2005047144 A JP 2005047144A JP 4878437 B2 JP4878437 B2 JP 4878437B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- clusters
- fingerprint
- fingerprints
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000003595 spectral effect Effects 0.000 claims description 35
- 241001342895 Chorus Species 0.000 claims description 15
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 238000005562 fading Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000001343 mnemonic effect Effects 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/64—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99939—Privileged access
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Electrophonic Musical Instruments (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
110 オーディオファイル
120 サマライザ/サムネイルジェネレータ
130 アナライザ
140 オーディオサムネイル
150 ニーモニックディテクタ
200 特徴計算
210 フィンガープリント
220 スペクトルエネルギー
230 スペクトル平坦性
710 動作環境
712 コンピュータ
714 処理ユニット
716 システムメモリ
718 バス
720 揮発性
722 不揮発性
724 ディスクストレージ
726 インターフェース
728 オペレーティングシステム
730 アプリケーション
732 モジュール
734 データ
736 入力装置
738 インターフェースポート
740 出力装置
742 出力アダプタ
744 リモートコンピュータ
746 メモリストレージ
748 ネットワークインターフェース
750 通信接続
800 コンピューティング環境
810 クライアント
830 サーバ
840 サーバデータストア
850 通信フレームワーク
860 クライアントデータストア
Claims (37)
- オーディオ情報を要約するためのシステムであって、
オーディオをフレームに変換するアナライザと、
前記フレームをフィンガープリントに変換するフィンガープリンティングコンポーネントであって、各フィンガープリントが複数のフレームに部分的に基づくフィンガープリンティングコンポーネントと、
フィンガープリント間の類似性を計算する類似性ディテクタであって、前記類似性ディテクタは、クラスタリング機能を備え、前記クラスタリング機能は、類似性を示す初期のしきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する、類似性ディテクタと、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合からオーディオファイルのサムネイルを生成するヒューリスティックモジュールであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔である、ヒューリスティックモジュールと
を備えたことを特徴とするシステム。 - 前記ヒューリスティックモジュールは、前記サムネイルに適したオーディオのセグメントの判定を助けるために、エネルギーコンポーネントおよび平坦性コンポーネントの少なくとも1つを備えたことを特徴とする請求項1に記載のシステム。
- 前記ヒューリスティックモジュールを用いて、音声コーラスを楽器演奏部分に優先して自動的に選択することを特徴とする請求項2に記載のシステム。
- 前記フィンガープリントによって適当なコーラスが見つからない場合、前記エネルギーコンポーネントおよび前記平坦性コンポーネントを用いることを特徴とする請求項2に記載のシステム。
- オーディオクリップの始めと終わりにある無音をエネルギーベースのしきい値を介して取り除くコンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 前記フィンガープリンティングコンポーネントは、オーディオクリップの各フィンガープリントから他のフィンガープリントへの平均ユークリッド距離が1であるように、正規化コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 前記アナライザは、オーディオフレームの1組のスペクトルマグニチュードを計算することを特徴とする請求項1に記載のシステム。
- 各フレームについて、そのフレーム内の周波数成分あたりの平均エネルギーをオーディオファイル中のフレームにわたるその量の平均で割ることによって平均の正規化したエネルギーEを計算することを特徴とする請求項7に記載のシステム。
- オーディオファイルの中央部分を選択して、前記オーディオファイル中に現れる静かな前奏およびフェード部の影響を軽減するコンポーネントをさらに備えたことを特徴とする請求項8に記載のシステム。
- 前記平坦性コンポーネントは、周波数成分ごとにスペクトルマグニチュードに加える数を用いて、対数を決定するときの数値の問題を軽減することを特徴とする請求項2に記載のシステム。
- 前記平坦性コンポーネントは、前記スペクトルマグニチュードの対数正規化幾何平均として計算されるフレーム量を含むことを特徴とする請求項10に記載のシステム。
- 前記正規化は、フレームあたりのマグニチュードのフレームあたりの対数算術平均を前記幾何平均から引くことによって行われることを特徴とする請求項11に記載のシステム。
- 前記ヒューリスティックモジュールは、オーディオのサムネイルを生成するクラスタの集合を、前記クラスタの集合について判定される平均スペクトル品質値または前記クラスタの集合について判定されるクラスタの拡がりの品質値の少なくとも1つに基づいて選択することを特徴とする請求項1に記載のシステム。
- 前記ヒューリスティックモジュールは、前記クラスタの集合について判定される平均スペクトル品質値および前記クラスタの集合について判定されるクラスタの拡がりの品質値の2乗の和についての最も高い値を有するクラスタの集合を選択することを特徴とする請求項13に記載のシステム。
- 前記初期のしきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項1に記載のシステム。
- クラスタは、2つのギャップの間に横たわるか、フィンガープリントのシーケンスのはじまりと前記シーケンスの最初のギャップとの間に横たわるか、前記シーケンスの最後のギャップとフィンガープリントのシーケンスのおわりとの間に横たわるクラスタの集合におけるフィンガープリントのグループであることを特徴とする請求項1に記載のシステム。
- オーディオファイルをフレームに変換するための手段と、
前記オーディオファイルをフィンガープリンティングし、複数のフレームに部分的に基づいてフィンガープリントを生成するための手段と、
予め定義された類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する手段と、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合を選択することによってオーディオサムネイルを生成するための手段であって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
を備えたことを特徴とする自動サムネイルジェネレータ。 - オーディオサムネイルを生成する方法であって、
複数のオーディオフィンガープリントを生成することであって、各オーディオフィンガープリントが複数のオーディオフレームに部分的に基づくことと、
類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成することと、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合に基づいてサムネイルを作成することであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
を備えることを特徴とする方法。 - 前記フィンガープリントのクラスタの1つまたは複数の集合を生成することは、前記ギャップに基づいてクラスタの集合内のフィンガープリントをフィンガープリントクラスタにクラスタリングすることを備えることを特徴とする請求項18に記載の方法。
- 前記類似性しきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項18に記載の方法。
- 前記類似性しきい値、オーディオファイルに基づいて適応的に選ばれ、2つのフィンガープリントが同じクラスタ集合に属するかどうかの判定を助けるのに使用されることを特徴とする請求項18に記載の方法。
- 前記クラスタリングすることは、一時に1つのフィンガープリントを検討することによって動作することを特徴とする請求項19に記載の方法。
- クラスタがオーディオファイルを通して時間的にどのくらい均一に拡がっているかを記述するパラメータ(D)を判定することをさらに備えることを特徴とする請求項19に記載の方法。
- 前記オーディオサムネイルを作成することは、少なくともパラメータ(D)に基づいてオーディオサムネイルを生成するクラスタの集合を選択することを備えることを特徴とする請求項23に記載の方法。
- 任意のNについて、(D)が1の最大値および0の最小値をとるようにオフセットおよびスケーリングファクタを判定することをさらに備えることを特徴とする請求項25に記載の方法。
- ある集合中のフィンガープリントの平均スペクトル品質を判定することをさらに備えることを特徴とする請求項25に記載の方法。
- ある集合の平均スペクトル平坦性と、パラメータDとを組み合わせて、複数のクラスタ集合のうちから最良のクラスタ集合を判定することを特徴とする請求項27に記載の方法。
- 前記平均のスペクトル平坦性およびパラメータDを組み合わせて各クラスタ集合に関連付けられた単一のパラメータとし、それによって前記パラメータの外部値を有する集合を前記最良の集合とするように選択することを特徴とする請求項28に記載の方法。
- 最良のクラスタ集合が選択されると、前記クラスタ集合内の最良のフィンガープリントは、オーディオサムネイルの所要時間にほぼ等しい所要時間について、そのオーディオの周辺が最大のスペクトルエネルギーまたはスペクトル平坦性を有するフィンガープリントとして判定されることを特徴とする請求項29に記載の方法。
- 前記作成することは、オーディオファイルで繰り返される前記オーディオファイル内のオーディオの最長のセクションを判定することによってクラスタを判定することをさらに備えることを特徴とする請求項18に記載の方法。
- 前記作成することは、
曲の始めまたは終わりに近いクラスタを排除することと、
所定のウィンドウ中の任意のフィンガープリントについてエネルギーがあるしきい値を下回るクラスタを排除することと、
所定のウィンドウ中の平均スペクトル平坦性の尺度が最大となるフィンガープリントを選択すること
の少なくとも1つをさらに備えることを特徴とする請求項18に記載の方法。 - 前記作成することは、オーディオファイル中の時間オフセットを指定することによってサムネイルを生成することをさらに備えることを特徴とする請求項18に記載の方法。
- 前記作成することは、オーディオサムネイルの始めまたは終わりを自動的にフェーディングすることをさらに備えることを特徴とする請求項18に記載の方法。
- 前記生成することは、オーディオファイルを少なくとも2つの層で処理することをさらに備え、第1の層の出力は小さなウィンドウにわたって計算された対数スペクトルに基づき、第2の層は前記第1の層により生成されたベクトルをまとめることによって計算されたベクトルに関して動作することを特徴とする請求項18に記載の方法。
- 先行する層よりも後続する層でより広い時間ウィンドウを提供することをさらに備えることを特徴とする請求項35に記載の方法。
- 前記層の少なくとも1つを用いて時間的ミスアラインメントを補償することをさらに備えることを特徴とする請求項36に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/785,560 US7379875B2 (en) | 2003-10-24 | 2004-02-24 | Systems and methods for generating audio thumbnails |
US10/785,560 | 2004-02-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005250472A JP2005250472A (ja) | 2005-09-15 |
JP4878437B2 true JP4878437B2 (ja) | 2012-02-15 |
Family
ID=34750474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005047144A Expired - Fee Related JP4878437B2 (ja) | 2004-02-24 | 2005-02-23 | オーディオサムネイルを生成するためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7379875B2 (ja) |
EP (1) | EP1571670B1 (ja) |
JP (1) | JP4878437B2 (ja) |
KR (1) | KR101117933B1 (ja) |
CN (1) | CN100461168C (ja) |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8554681B1 (en) * | 2003-11-03 | 2013-10-08 | James W. Wieder | Providing “identified” compositions and digital-works |
US7953504B2 (en) * | 2004-05-14 | 2011-05-31 | Synaptics Incorporated | Method and apparatus for selecting an audio track based upon audio excerpts |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
EP1684263B1 (en) * | 2005-01-21 | 2010-05-05 | Unlimited Media GmbH | Method of generating a footprint for an audio signal |
TWI269268B (en) * | 2005-01-24 | 2006-12-21 | Delta Electronics Inc | Speech recognizing method and system |
WO2007027013A1 (en) * | 2005-07-19 | 2007-03-08 | Samsung Electronics Co., Ltd. | Audio reproduction method and apparatus supporting audio thumbnail function |
KR100733145B1 (ko) * | 2005-09-15 | 2007-06-27 | 한국과학기술원 | 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템 |
KR100715949B1 (ko) * | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
KR100725018B1 (ko) * | 2005-11-24 | 2007-06-07 | 삼성전자주식회사 | 음악 내용 자동 요약 방법 및 그 장치 |
KR100782825B1 (ko) * | 2005-12-01 | 2007-12-06 | 삼성전자주식회사 | 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체 |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
US9319720B2 (en) | 2005-12-13 | 2016-04-19 | Audio Pod Inc. | System and method for rendering digital content using time offsets |
US8285809B2 (en) * | 2005-12-13 | 2012-10-09 | Audio Pod Inc. | Segmentation and transmission of audio streams |
US11128489B2 (en) | 2017-07-18 | 2021-09-21 | Nicira, Inc. | Maintaining data-plane connectivity between hosts |
KR100717387B1 (ko) * | 2006-01-26 | 2007-05-11 | 삼성전자주식회사 | 유사곡 검색 방법 및 그 장치 |
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
US8316081B2 (en) | 2006-04-13 | 2012-11-20 | Domingo Enterprises, Llc | Portable media player enabled to obtain previews of a user's media collection |
US20070245378A1 (en) * | 2006-04-13 | 2007-10-18 | Concert Technology Corporation | User system providing previews to an associated portable media player |
US7603434B2 (en) * | 2006-04-13 | 2009-10-13 | Domingo Enterprises, Llc | Central system providing previews of a user's media collection to a portable media player |
KR100764346B1 (ko) * | 2006-08-01 | 2007-10-08 | 한국정보통신대학교 산학협력단 | 구간유사도 기반의 자동 음악요약 방법 및 시스템 |
US20080046406A1 (en) * | 2006-08-15 | 2008-02-21 | Microsoft Corporation | Audio and video thumbnails |
US7659471B2 (en) * | 2007-03-28 | 2010-02-09 | Nokia Corporation | System and method for music data repetition functionality |
GB2462969A (en) * | 2007-06-28 | 2010-03-03 | Taptu Ltd | Audio thumbnail |
US8208643B2 (en) * | 2007-06-29 | 2012-06-26 | Tong Zhang | Generating music thumbnails and identifying related song structure |
US20090006551A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Dynamic awareness of people |
US8344233B2 (en) * | 2008-05-07 | 2013-01-01 | Microsoft Corporation | Scalable music recommendation by search |
US8650094B2 (en) * | 2008-05-07 | 2014-02-11 | Microsoft Corporation | Music recommendation using emotional allocation modeling |
KR100995839B1 (ko) * | 2008-08-08 | 2010-11-22 | 주식회사 아이토비 | 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법 |
US8452731B2 (en) * | 2008-09-25 | 2013-05-28 | Quest Software, Inc. | Remote backup and restore |
US8433431B1 (en) | 2008-12-02 | 2013-04-30 | Soundhound, Inc. | Displaying text to end users in coordination with audio playback |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8452586B2 (en) * | 2008-12-02 | 2013-05-28 | Soundhound, Inc. | Identifying music from peaks of a reference sound fingerprint |
US8687839B2 (en) * | 2009-05-21 | 2014-04-01 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US20110258211A1 (en) * | 2010-04-18 | 2011-10-20 | Kalisky Ofer | System and method for synchronous matching of media samples with broadcast media streams |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
CN102467939B (zh) * | 2010-11-04 | 2014-08-13 | 北京彩云在线技术开发有限公司 | 一种歌曲音频切割装置及方法 |
US9449024B2 (en) | 2010-11-19 | 2016-09-20 | Microsoft Technology Licensing, Llc | File kinship for multimedia data tracking |
EP2659480B1 (en) * | 2010-12-30 | 2016-07-27 | Dolby Laboratories Licensing Corporation | Repetition detection in media data |
WO2012119140A2 (en) * | 2011-03-03 | 2012-09-07 | Edwards Tyson Lavar | System for autononous detection and separation of common elements within data, and methods and devices associated therewith |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
CN103180847B (zh) * | 2011-10-19 | 2016-03-02 | 华为技术有限公司 | 音乐查询方法和装置 |
CN103093761B (zh) * | 2011-11-01 | 2017-02-01 | 深圳市世纪光速信息技术有限公司 | 音频指纹检索方法及装置 |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US20140074466A1 (en) * | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
CN103020174B (zh) * | 2012-11-28 | 2016-01-06 | 华为技术有限公司 | 相似性分析方法、装置及系统 |
US9065971B2 (en) * | 2012-12-19 | 2015-06-23 | Microsoft Technology Licensing, Llc | Video and audio tagging for active speaker detection |
US10122983B1 (en) * | 2013-03-05 | 2018-11-06 | Google Llc | Creating a video for an audio file |
US9679583B2 (en) * | 2013-03-15 | 2017-06-13 | Facebook, Inc. | Managing silence in audio signal identification |
KR101419764B1 (ko) * | 2013-06-07 | 2014-07-17 | 정영민 | 휴대단말기의 음성 이모티콘 제어방법 |
US10014006B1 (en) | 2013-09-10 | 2018-07-03 | Ampersand, Inc. | Method of determining whether a phone call is answered by a human or by an automated device |
US9053711B1 (en) | 2013-09-10 | 2015-06-09 | Ampersand, Inc. | Method of matching a digitized stream of audio signals to a known audio recording |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
EP2879047A3 (en) * | 2013-11-28 | 2015-12-16 | LG Electronics Inc. | Mobile terminal and controlling method thereof |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
WO2015133782A1 (ko) | 2014-03-03 | 2015-09-11 | 삼성전자 주식회사 | 컨텐츠 분석 방법 및 디바이스 |
US10303800B2 (en) | 2014-03-04 | 2019-05-28 | Interactive Intelligence Group, Inc. | System and method for optimization of audio fingerprint search |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9606766B2 (en) | 2015-04-28 | 2017-03-28 | International Business Machines Corporation | Creating an audio file sample based upon user preferences |
CN105976828A (zh) * | 2016-04-19 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种声音区分方法和终端 |
US10089994B1 (en) * | 2018-01-15 | 2018-10-02 | Alex Radzishevsky | Acoustic fingerprint extraction and matching |
US11062693B1 (en) * | 2019-06-20 | 2021-07-13 | West Corporation | Silence calculator |
CN112346684A (zh) * | 2020-10-20 | 2021-02-09 | 深圳Tcl新技术有限公司 | 数据的显示方法、装置、电视和计算机可读存储介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4567606A (en) * | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
WO1992015090A1 (en) * | 1991-02-22 | 1992-09-03 | Seaway Technologies, Inc. | Acoustic method and apparatus for identifying human sonic sources |
BR9206143A (pt) * | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
US5386493A (en) * | 1992-09-25 | 1995-01-31 | Apple Computer, Inc. | Apparatus and method for playing back audio at faster or slower rates without pitch distortion |
US6505160B1 (en) * | 1995-07-27 | 2003-01-07 | Digimarc Corporation | Connected audio and other media objects |
US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US6606744B1 (en) * | 1999-11-22 | 2003-08-12 | Accenture, Llp | Providing collaborative installation management in a network-based supply chain environment |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6763136B1 (en) * | 2000-09-19 | 2004-07-13 | Bae Systems Mission Solutions, Inc. | Method and apparatus for determining spectral similarity |
KR100367700B1 (ko) * | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
JP3736394B2 (ja) * | 2001-07-10 | 2006-01-18 | 松下電器産業株式会社 | 画像圧縮装置 |
US7328153B2 (en) * | 2001-07-20 | 2008-02-05 | Gracenote, Inc. | Automatic identification of sound recordings |
US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
US7068723B2 (en) * | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
US6933432B2 (en) * | 2002-03-28 | 2005-08-23 | Koninklijke Philips Electronics N.V. | Media player with “DJ” mode |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
US20030191764A1 (en) * | 2002-08-06 | 2003-10-09 | Isaac Richards | System and method for acoustic fingerpringting |
US7386357B2 (en) * | 2002-09-30 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | System and method for generating an audio thumbnail of an audio track |
US7284004B2 (en) * | 2002-10-15 | 2007-10-16 | Fuji Xerox Co., Ltd. | Summarization of digital files |
US7233832B2 (en) * | 2003-04-04 | 2007-06-19 | Apple Inc. | Method and apparatus for expanding audio data |
US20040260682A1 (en) * | 2003-06-19 | 2004-12-23 | Microsoft Corporation | System and method for identifying content and managing information corresponding to objects in a signal |
-
2004
- 2004-02-24 US US10/785,560 patent/US7379875B2/en not_active Expired - Fee Related
-
2005
- 2005-02-10 EP EP05100943.9A patent/EP1571670B1/en not_active Not-in-force
- 2005-02-22 KR KR1020050014598A patent/KR101117933B1/ko active IP Right Grant
- 2005-02-23 JP JP2005047144A patent/JP4878437B2/ja not_active Expired - Fee Related
- 2005-02-24 CN CNB2005100528668A patent/CN100461168C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20050091062A1 (en) | 2005-04-28 |
CN1661600A (zh) | 2005-08-31 |
EP1571670A2 (en) | 2005-09-07 |
EP1571670A3 (en) | 2011-01-12 |
CN100461168C (zh) | 2009-02-11 |
US7379875B2 (en) | 2008-05-27 |
KR101117933B1 (ko) | 2012-03-09 |
EP1571670B1 (en) | 2018-12-19 |
JP2005250472A (ja) | 2005-09-15 |
KR20060043080A (ko) | 2006-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4878437B2 (ja) | オーディオサムネイルを生成するためのシステムおよび方法 | |
JP4345321B2 (ja) | 線形メディアの最適要約を自動作成する方法および情報を格納する情報格納メディアを備える製品 | |
US8082279B2 (en) | System and methods for providing adaptive media property classification | |
US7532943B2 (en) | System and methods for providing automatic classification of media entities according to sonic properties | |
US6910035B2 (en) | System and methods for providing automatic classification of media entities according to consonance properties | |
US7065416B2 (en) | System and methods for providing automatic classification of media entities according to melodic movement properties | |
US7326848B2 (en) | System and methods for providing automatic classification of media entities according to tempo properties | |
US5918223A (en) | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information | |
US7853344B2 (en) | Method and system for analyzing ditigal audio files | |
US7522967B2 (en) | Audio summary based audio processing | |
US20130275421A1 (en) | Repetition Detection in Media Data | |
US20080256106A1 (en) | Determining the Similarity of Music Using Cultural and Acoustic Information | |
US20080208891A1 (en) | System and methods for recognizing sound and music signals in high noise and distortion | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
Hargreaves et al. | Structural segmentation of multitrack audio | |
Smith et al. | Audio properties of perceived boundaries in music | |
KR20100000265A (ko) | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 | |
KR101002732B1 (ko) | 온라인을 통한 디지털 컨텐츠 관리 시스템 | |
Sharma et al. | Audio songs classification based on music patterns | |
Doherty et al. | Pattern matching techniques for replacing missing sections of audio streamed across wireless networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110819 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110822 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4878437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |