JP4878437B2 - オーディオサムネイルを生成するためのシステムおよび方法 - Google Patents

オーディオサムネイルを生成するためのシステムおよび方法 Download PDF

Info

Publication number
JP4878437B2
JP4878437B2 JP2005047144A JP2005047144A JP4878437B2 JP 4878437 B2 JP4878437 B2 JP 4878437B2 JP 2005047144 A JP2005047144 A JP 2005047144A JP 2005047144 A JP2005047144 A JP 2005047144A JP 4878437 B2 JP4878437 B2 JP 4878437B2
Authority
JP
Japan
Prior art keywords
audio
clusters
fingerprint
fingerprints
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005047144A
Other languages
English (en)
Other versions
JP2005250472A (ja
Inventor
ジェイ.シー.バージス クリストファー
プラスティナ ダニエル
エル.レンショー エリン
エス.マルバー ヘンリク
シー.プラット ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005250472A publication Critical patent/JP2005250472A/ja
Application granted granted Critical
Publication of JP4878437B2 publication Critical patent/JP4878437B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99939Privileged access

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、一般には、コンピュータシステムに関し、より詳細には、オーディオファイルのブラウジング(browsing)を容易にする、ニーモニック(mnemonic)なオーディオサムネイルまたはクリップの生成、またはその他の目的のために、オーディオフィンガープリントを使用してオーディオファイル内の共通または繰り返しの要素を決定するシステムおよび方法に関する。
現代の多くのソフトウェアシステムがサポートする現行の機能の1つが、オーディオファイルを格納し、再生する機能である。こうしたシステムの多くにより、ユーザはオーディオファイルの多様なコレクションを格納し、管理することができるようになる。しかし時間の経過につれて、多くのユーザは、必然的により大きな記憶スペースを占める大量のデータに不満を持つようになる。また、コレクションが大きくなると、所望のオーディオ情報を取り出し、再生することが、より難しく、また時間のかかるものになる。多くのシステムで、ユーザがこうした絶えず量の増え続けるオーディオ情報を管理する助けとなるソフトウェアが提供されている。例えば、こうしたシステムは、MP3、Ogg Vorbis(OGG)、Windows Media Audio(登録商標)(WMA)、MPC、MP+のファイルなどを含む、普及したオーディオファイルフォーマットをサポートするオーディオマネージャを含むことがある。これによってユーザは、自分のオーディオファイルの全コレクションをカタログ化でき、好みの曲をすぐに探索できるようになり、アルバムの表紙をサムネイルとして使用し、アルバムをブラウズしたり、レポートや他の役立つ機能を作成したりする。
オーディオファイルの整理に加え、こうしたシステムでは、例えばタグを編集したり、名前を変更したり、歌詞を編集したり、CDを作成したり、アーチストの情報を調べたりすることでファイルを管理する1組のツールが提供される。ユーザは、ハードディスク、CD−ROM、ネットワークドライブ、ZIPドライブまたは他の任意のリムーバブルメディアに格納されたオーディオファイルについて作業を行うことができる。これは、ユーザが複数の再生リストを再生し、各タイトルに関連付けられた画像を表示できるようにするツールを含んでいる。追加の機能には、自動生成されたデータベース統計、個人評価、ジャンル/ムード/年によるソート、およびカスタムのデータベースクエリが含まれる。
オーディオフィンガープリンティング(AFP:Audio fingerprinting)が、近年、ストリームまたはファイルにおいて、オーディオを特定するための強力な方法として現れた。いくつかの会社が現在、オーディオフィンガープリンティングに基づく音楽サービスを提供している。これらのサービスでは、特定すべきオーディオから1つまたは複数のフィンガープリント抽出すること、および、それらのフィンガープリントを、これまでに計算したフィンガープリントの大規模なデータベースと照合することが要求される。
しかしながら、オーディオファイルをすばやく解析(parse)するのは今のところ可能ではないので、大規模なオーディオコレクションを管理するのは(サムネイルの使える画像の場合とは違って)困難である。ユーザは一般にラベルリングに頼らなければならないが、この助けも限られている。ラベルリングは、多々、不正確であり、ラベルリングが正確であっても、ユーザはある所与の曲を、聴くまで思い出せないことがある。ユーザはある曲がどんなものか思い出せない場合、普通、それを再生し、そしてその楽曲が分かったら再生を停止しなければならない。さらに、いくつかのシナリオでは、楽曲選択に対して「手を放した状態(hands−off)」のアプローチが必要になり、例えば、ドライブ中に曲を選ぶためにオーディオコレクションをブラウズしたいと欲することがある。
これまでの取り組みでは、楽曲のブラウジングの問題を多少とも解決するために、楽曲の要約が試みられてきた。しかし、こうしたこれまでの取り組みでは、オーディオの単一のフレームから特徴を計算することに集中していた。これらのフレームは、通常、16〜30ミリ秒の長さである。これまでの取り組みでは、そのようなフレーム間の類似性を計算している。この類似性は、類似性メトリックに利用可能な情報が不十分であるために、どうしても粗いものとなる。
以下に、本発明のいくつかの態様の基本的理解を提供するために本発明の簡略化した要約を示す。この要約は、本発明の広範な概要ではない。本発明の重要/重大な要素を特定し、または本発明の範囲を画定することを意図していない。唯一の目的は、後に示すより詳細な説明の前置きとして本発明のいくつかの概念を簡略化した形で示すことである。
本発明は、オーディオサムネイルを生成するためのシステムおよび方法に関する。対象の発明は、ブラウジングを容易にするため、またはその他の目的でオーディオを要約するために、ニーモニックな「オーディオサムネイル」をユーザに提示する問題を扱う。
サムネイルは短いが(通常、約15秒以下)、ユーザが最も覚えていそうな曲またはオーディオファイルの部分から抽出される。それゆえ、本発明は、部分的にはオーディオクリップ内でほぼ繰り返されるオーディオの部分を判定することによって動作する。例えば、ある曲にコーラスがあり、そのコーラスの複製が十分に似ている場合、システムはそのコーラスを特定し、オリジナルを想起させる効果の高いオーディオのセグメントを構築することができる。よく似た繰り返しを見つけるために、本発明は、その出力が変換されたオーディオデータの複数のフレームに(部分的に)基づくフィンガープリンティングコンポーネントを使用する。
フィンガープリンティングコンポーネントに加えて、システムはスペクトル平坦性の尺度、およびスペクトルエネルギーの尺度を用いて、繰り返されるオーディオの異なる部分間を決定することもできる。また、システムはこうした尺度を活用して、オーディオが繰り返しのセクションを含まない場合でも、そのオーディオのニーモニックなセクションを特定することができる。システムは、ニーモニックなセクションを特定すると、ファイル中のその位置のまわりからセグメント(ある態様では、15秒を使用する)を抽出する。この抽出したセクション(または、等価的に、特定されたセグメントがオーディオファイル中のどこにあるかを判定するオーディオファイル中へのポインタ)が「オーディオサムネイル」として使用される。
上述および関連する目的を達成するため、本発明の特定の例示的な態様について、本明細書で以下の説明および添付の図面に関連して説明する。これらの態様は、本発明が実施できる様々な方法を示唆するが、本発明はそのすべてを包含するものである。本発明の他の利点および新規な特徴は、本発明の以下の詳細な説明から、図面と併せ考慮すると明らかとなろう。
本発明は、オーディオサムネイルと呼ばれるニーモニックなオーディオの部分またはセグメントの自動生成を容易にするシステムおよび方法論に関する。本発明は、複数のフレームに含まれる情報に(部分的に)基づいてフィンガープリントを計算することにより、旧来の楽曲要約技法に取って代わるものである。それゆえ、フィンガープリントははるかに多くの情報を有し、それらの間の類似性ははるかにノイズが少ない。オーディオ情報を要約するためのシステムが提供される。このシステムは、オーディオをフレームに変換するアナライザと、フレームをフィンガープリントに変換するフィンガープリンティングコンポーネントとを含み、各フィンガープリントは複数のフレームに部分的に基づく。類似性検出部はフィンガープリント間の類似性を計算し、ヒューリスティックモジュールは、フィンガープリント間の類似性に部分的に基づいて、オーディオファイルのサムネイルを生成する。システムは、オーディオファイルのサムネイルを生成するために、あるオーディオファイル中の共通の特徴を判定する分析コンポーネントと、共通の特徴に部分的に基づいてそのオーディオファイルのフィンガープリント部分を抽出するニーモニックディテクタとを含む。すると、そのようなファイルの部分またはセグメントを長く聴かなくてもよいようにするために、生成したサムネイルを用いて、オーディオファイルのブラウジングまたは探索を容易にすることができる。
本願で使用するように、「コンポーネント」「オブジェクト」「ジェネレータ」「システム」などは、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、実行中のソフトウェアのどれであれ、コンピュータ関連エンティティを指すものとする。例えば、コンポーネントは、プロセッサ上で実行されているプロセス、プロセッサ、オブジェクト、実行可能プログラム(executable)、実行のスレッド、プログラム、および/またはコンピュータとすることができるが、これらに限定されるものではない。例として、サーバ上で実行されているアプリケーションおよびそのサーバは、ともにコンポーネントでありうる。1つまたは複数のコンポーネントがプロセスおよび/または実行のスレッド内にあってもよく、あるコンポーネントが1台のコンピュータ上に局在しても、そして/または2台以上のコンピュータ間に分散されてもよい。また、こうしたコンポーネントは、様々なデータ構造を格納した様々なコンピュータ可読媒体から実行することができる。コンポーネントは、1つまたは複数のデータパケットを有する信号(例えば、ローカルシステム、分散システム、および/または他のシステムを伴うインターネットなどのネットワークにわたる別のコンポーネントと、その信号を介してやり取りするあるコンポーネントからのデータ)に従うようなローカルおよび/またはリモートのプロセスを介して通信することができる。
まず図1を参照すると、オーディオサムネイルジェネレータシステム100が本発明の一態様に従って示されている。システム100は、またこれもサマライザ120によって処理されるオーディオファイルのデータベース110を含み、このサマライザは、オーディオサムネイルジェネレータとも称される。ジェネレータ120は、オーディオサムネイル140として適したオーディオファイル110のコンポーネント、セグメント、または部分を判定するためにオーディオファイルを処理するアナライザ130を含む。オーディオサムネイル140は、一般に、オーディオファイル110の内容をユーザに思い出させる可能性の高い、オーディオの短いクリップまたはセグメントである(例えば、サムネイルとして再生すると「Goodbye Yellow Brick Road」という歌詞のコーラスであり、ユーザに同名のElton Johnの曲を思い出させるもの)。
ニーモニックディテクタ150は、アナライザ130とともに動作して、オーディオファイル110のどの部分をオーディオサムネイル140として用いるべきかを判定する。例示するように、アナライザ130は、オーディオ情報のストリームを分析するためのフィンガープリントコンポーネント、サムネイル140に適したオーディオのセグメントを判定するためにオーディオファイルをさらに処理するエネルギーコンポーネント、および/または平坦性コンポーネントを含む。アナライザ130内のコンポーネントは、サムネイル140を判定するために、様々な組合せおよび度合いで使用できることに注意されたい。
一般に、システム100は、オーディオフィンガープリンティングを使用してオーディオの繰り返されるセクションを特定する。1つの考え方は、楽曲の似たセクションは、似たフィンガープリントを生成するということである。それゆえ、オリジナルのオーディオを使用するのではなく、フィンガープリントを使用することにより、本発明はわずかに異なる変形が非常によく似たフィンガープリントを提供し、それゆえフィンガープリントはオリジナルのオーディオを使うよりもよりロバスト(robust)であるという利点を提供する。さらに、フィンガープリントは、当技術分野でこれまで使用されたよりもずっと長い時間ウィンドウから抽出した情報を統合するという利点があり、そのためロバストである。また、フィンガープリントには、オリジナルの楽曲の非常にサイズの小さい表現(low dimensional representations)であるという利点があり、それゆえこうしたエンティティの処理はメモリおよびCPUの使用の点でより効率的である。本発明によるフィンガープリント処理については、図3〜5に関する議論でさらに詳細を提供する。
オーディオサムネイル140として使用できるオーディオセクションを特定するための様々な技法が可能である(図2〜3を参照)。以下の説明で、ある実装されたシステムの詳細を提供するが、それがこのようなシステムの一例に過ぎないことを理解されたい。例えば、この実装されたシステムは、フィンガープリントの所要時間は3秒(または他の時間)であり、後続のフィンガープリントの開始点との間のステップは186ミリ秒(または他の時間)を使用している。別のシステムでは6秒のフィンガープリントを使用しているが、フィンガープリンティングシステムは任意の長さのフィンガープリントを生成することができ、3秒はコーラス検出に適したつり合いである。
システム100では、オーディオサムネイルの計算に関わる3つの基本的なオブジェクトがあり、これらはアナライザ130に含まれる。すなわち、フィンガープリントおよび関連する正規化(A)、フィンガープリントを計算したオーディオ中のエネルギーの尺度(B)、およびフィンガープリントを計算したオーディオ中のスペクトル平坦性の尺度(C)である。1つの態様は、これらの特徴を使用して、システムが、純粋な楽器演奏の繰り返しフレーズに優先して音声コーラスを選択できるようにすることである。というのは、音声のコーラスは純粋な楽器演奏の繰り返しよりも想起効果が高い(ニーモニック)と思われるためである。また、特徴(B)および(C)は、(A)の特徴により適当なコーラスが見つからないときに使用することができる。現在のシステムでは、長さが約3秒間のフィンガープリントを、それぞれが半分ずつ(186ミリ秒)重なり合う372ミリ秒の時間ウィンドウ16個を連結することによって計算する。3つの量(A、B、C)はすべて、これらの372ミリ秒のフレーム(または、他の時間フレーム)を使用して計算することができる。これらの特徴をアナライザ130で計算する前に、クリップの始めおよび終わりにある無音は単純なエネルギーベースのしきい値を用いて取り除くことができることに注意されたい。
ここで図2を参照すると、特徴計算200および関連する処理の態様が本発明に従って示されている。この態様では、アナライザコンポーネントに関して上述した量A、B、およびCをより詳細に説明する。210で、例えば、図4〜6に関して説明するように、フィンガープリントを計算する。一例では、フィンガープリントを、オーディオクリップ中の各3秒のウィンドウについて、186ミリ秒ステップで、計算する(または他のサンプリングレート)。各フィンガープリントについて、そのオーディオクリップのそのフィンガープリントから他のフィンガープリントへの平均ユークリッド距離が1になるように、正規化を計算する。これも、フィンガープリンティングを検索タスクに使用するシステムについて、正規化が計算される普通の仕方と異なっている。すなわち、ここではそのクリップ内のオーディオだけが使用される。というのは、フィンガープリントは、通常、同じクリップから抽出された他のフィンガープリントと比較されることになるためである。
220で、オーディオのスペクトルエネルギーを処理する。フィンガープリントの計算では、一般に、フレームごとに1組のスペクトルのマグニチュード(spectoral magnitude)を計算する必要がある。スペクトルマグニチュードは、例えば、MCLT(modulated complex lapped transform)オペレータにより計算することができる。以下に述べるスペクトルエネルギー220およびスペクトル平坦性230は、(220および230によって生成される特徴がオーディオの全体的なボリュームレベルに依存しないように)平均のスペクトルのマグニチュードを正規化ファクタとして使用する。各フレームについて、平均の正規化したエネルギーEは、フレーム内の周波数成分あたりの平均エネルギーを、クリップ中のフレームにわたるその量の平均で割ることによって計算する。平均エネルギーは、ある所与のフィンガープリントに寄与するすべてのフレーム(この例では16個)にわたって平均する。この量は、移動平均を用いることによって効率的に計算することができる。それゆえ、スペクトルエネルギー220は、フィンガープリントあたりのスペクトルエネルギーの尺度である。
230で、スペクトル平坦性の量を判定することができる。例えば、まず、ある所与のフレームに対するこの量の計算を考える。この場合、非常に小さい数(例えば、10−10)を各周波数成分のスペクトルマグニチュードに加えて、対数をとるときの数値の問題を軽減する。計算したこのフレーム量は、スペクトルマグニチュードの対数正規化幾何平均である。これは、スペクトルマグニチュードの対数幾何平均から、スペクトルマグニチュードの対数算術平均を引いたものとして計算される。幾何平均は算術平均以下なので、これにより0以上に制限された量となることに注意されたい。それゆえ、スペクトルエネルギーがスペクトル全体にわたって均一に拡がっている場合、この量は、少数の周波数成分にわたって集中する場合に比べると、はるかに大きくなることになる。
一部のタイプのオーディオでは、この量の大きい値は「フルの(full)」音を示すことがわかっている(例えば、歌っているときにボーカルが音を支配しているオーディオでは、歌の間この量が大きい)。スペクトルエネルギー220に関して、この量230は、フィンガープリントあたり、そのフィンガープリントに寄与するフレームすべてにわたって平均することで計算される。それゆえ、230はフィンガープリントごとのスペクトル平坦性の尺度である。
図3は、本発明の一態様によるオーディオサムネイル処理を示す流れ図である。説明の簡単のために、方法論を一連の行為(act)として示し、説明しているが、一部の行為は、本発明に従って、本明細書に示し、説明するものとは異なる順序で、および/または他の行為と同時に生じる場合があるので、本発明は行為の順序によって限定されないことを理解および認識されたい。例えば、方法論は、状態図のように、一連の相互に関連した状態またはイベントとして表すこともできることを、当業者は理解および認識するであろう。さらに、本発明による方法を実装するのに、例示した行為すべてを必要としない場合もある。
310に進んで、クラスタ計算を考える。「クラスタ」とは、時間的にクラスタ化されるいくつかのフィンガープリントであり、オーディオクリップ中のどこかで繰り返される楽曲の連続するセクションを表すものと定義することができる。クラスタ計算を説明するために、「クラスタ集合S」およびクラスタ集合Sの「多重度(multiplicity)M」の概念を導入する。各集合Sは、フィンガープリントをインデックスする0以上の整数を含むことができる(ここで、開始点がオーディオクリップの始めに対応する、最初に計算するフィンガープリントはインデックス1を有し、開始点がオーディオクリップの始めに半フレーム加えたものに対応する2番目のフィンガープリントはインデックス2を有し、以下同様とする)。
「あるフィンガープリントをある集合に加える」ことにより、これはそのフィンガープリントのインデックスをその集合に加えることを含む。ある所与の集合の多重度Mは、その集合に含まれるクラスタの数である。例えば、ある集合が整数1、2、3、100、101、102を含む場合、この集合は2つのクラスタを含んでいる(1つはフィンガープリントのインデックス0、1、2に対応し、もう1つはフィンガープリントのインデックス100、101、102に対応する)ので、多重度は2とすることができる。各フィンガープリントは、それと関連付けられた「AccountedFor」というブール型のフラグがあり、そのデフォルト値は「偽」である。
一般に、すべての集合は空である。次いで、1番目のフィンガープリントF(すなわち、オーディオクリップの最初の3秒に対応するフィンガープリント)を集合1(S)に入れる。次いで、残りのすべてのフィンガープリントを検査する。残りの各フィンガープリントFについて、FおよびFが次の条件を満たす場合に限り、これもSに入れる。すなわち、(1)FとFの間の正規化ユークリッド距離が初期のしきい値Tを下回っていること(ここで、正規化ユークリッド距離は、ユークリッド距離をFの正規化ファクタで割ったものである)および(2)Fのはじめに対応するオーディオ中のポイントと、Fのはじめに対応するオーディオ中のポイントとの間の所要時間が、第2の固定のしきい値Z(例えば、Z=6秒)を超えることである。条件(2)が通常必要となるのは、隣り合うフィンガープリントはTを下回る正規化ユークリッド距離を有することがあり、同じに聞こえるが、時間的に離れたオーディオの断片について判定すべきであるからである。残りのフィンガープリントをこのようにしてFと比べたら、第2のループを実行し、再帰的に、その集合にすでに入っている任意のフィンガープリントと比べて上記の条件を満たすすべてのフィンガープリントをその集合に加える。
フィンガープリントを集合に加えるとき、その「AccountedFor」フラグを真にセットし、どれかの集合に加えることを検討中のフィンガープリントの集まりからそれを取り除く。上記のフェーズをその後繰り返して、「AccountedFor」フラグがまだセットされていない最初のフィンガープリントに対して新しい集合を作成し、上記のようにフィンガープリントを加える。これを、すべてのフィンガープリントが、ある(そしてただ1つの)集合のメンバーとなるまで(そして「AccountedFor」フラグがすべて真となるまで)続ける。それゆえ、フィンガープリントの集合への割り当てにより、すべてのフィンガープリントからなる集合の区分けが形成される。各集合について、対応する多重度を計算する。これは、フィンガープリントを順に並べ、そうしてその並べたものの中で少なくともZ秒に対応するギャップを探索することによって達成される。すると、クラスタの数は、各端にフィンガープリントを1つ有するギャップの数に、1を加えたものとなる。
上記のすべてを、しきい値Tの初期値について実行する。この時点で、最大多重度を、少なくとも3の値に対して(すなわち、少なくとも3つのクラスタが入った少なくとも1つのクラスタ集合が存在すること)をチェックする。これが真でない場合、Tを小さい値だけインクリメントし、クラスタ集合を再計算する。このプロセスを、少なくとも3つのクラスタをもつ集合が見つかるか、またはTが上限に達するまで続ける。このようにして、少なくとも3つのクラスタを見つけるにあたって、クラスタのメンバーになるために要求される条件を徐々に緩めていく。このプロセスにより、すべての集合が2つのクラスタしか含まないクラスタ集合という結果になるか(この場合、集合を以下に述べるプロセスで使用することになる)、または1つしかクラスタを含まないクラスタ集合になることもある(この場合、オーディオサムネイルを以下に述べるエネルギー尺度を用いて計算することになる)。
320で、最適なクラスタ集合を判定する。この時点で、上記のクラスタリング310の結果、少なくとも2つのクラスタを含む1つまたは複数のクラスタ集合が得られたと仮定して、残るタスクは、適当なクラスタ集合を選択すること(ここで、「適当な」とは、「コーラスまたは繰り返しの楽器演奏に対応するフィンガープリントのインデックスを含んでいそうな」という意味である)と、そのフィンガープリントを使用してオーディオクリップから適当な15秒を選択すること(ここで、この15秒がオーディオサムネイルとなる)である。
適当なクラスタ集合を計算するため、上述(図1)の尺度(B)および(C)を、クラスタがある曲の全体にわたってどのくらい均一に拡がっているかを測る第3の尺度と組み合わせる(この尺度を(D)と呼ぶ)。例えば、3つのクラスタが見つかったが、すべてが曲の最初の20秒の範囲にある場合、これらのクラスタはコーラスである可能性は小さいが、これに対して、3つのクラスタが見つかり、それらがその曲の全体にわたって均一に配置されている場合、これらのクラスタがコーラスであるという可能性が高い。量(D)は、見つかった集合ごとに測定される。ある所与の集合について、(D)は次のように測定される。N個のクラスタが見つかったある所与のクラスタ集合の場合を考える。まず、オーディオファイル全体を、所要時間が1と等しくなるように正規化する。i番目のクラスタの時間位置をtとし、次のように定義する。
Figure 0004878437
このとき、量(D)は
Figure 0004878437
として計算される。
量(D)は次のプロパティを有する。第1に、
Figure 0004878437
であり、t≧ti−1∀iなので、差t−ti−1は確率として解釈することができ、それゆえ(D)は対応する分布に対するRenyiエントロピーに比例する(加法的なオフセットを伴う)。それゆえ、この意味で、より大きい(D)の値でクラスタリングを選択することは、より均一に拡がるクラスタリングを選ぶことに対応する(任意の離散分布について、すべての確率が同じ値をとるときに最大エントロピーとなることが知られているため)。t−ti−1は、(D)を最大化することが、最も均一に拡がるクラスタを選択することと等価であることを示すために確率として解釈したに過ぎないことを強調しておく。この確率論的解釈は、他では使用されていない。第2に、オフセットおよびスケーリングファクタを、任意のNについて(D)が1の最大値および0の最小値をとるように選んでいる。これにより、クラスタの集合の拡がりの品質を、クラスタ集合間で、これらの集合が異なる数のクラスタを含む場合でも、比較できるようになる。さらに、これにより、どの多重度を優先するかに関して、事前知識を容易に適用することができるようになる(例えば、3、4、または5の多重度を、これらに他の多重度よりも大きな重みを与えることによって選ぶ。というのは、コーラスはこうした回数生じる可能性が高いためである)。
幾何平均の特徴、上記の(C)は、ある場合には音声を含むオーディオのセクションを予測するが、他の場合(例えば、歌唱が楽曲の他の部分から音響的に突出していない場合)にはそうでないことがある。しかし、後者の場合、量(C)がオーディオクリップのほとんどを通して著しく変わらない傾向があるが、前者の場合は、オーディオクリップを通して顕著に変わる。これを明らかにするために、検証曲のセットの中央3分の1について(曲中の無音によるバイアスを避けるために、エネルギー尺度(B)がしきい値以上であったフィンガープリントについて)、フィンガープリントごとの対数幾何平均の標準偏差を計算した。中央の3分の1を使用したのは、音楽的に静かな前奏およびフェードのために(C)の値が低い曲の始めと終わりに起因するバイアスを軽減するためである。
この時点で、smaxおよびsminを、検証セット中で見つかったフレームごとの特徴(C)の最大および最小の標準偏差とする。線形写像(a,b)を、asmin+b=0およびasmax+b=1によって定義する(それゆえパラメータaおよびbは検証セットによって固定される)。ある新しい曲についてオーディオサムネイルを計算するものと仮定する。そのフレームごとの値(C)の標準偏差sを計算し、線形写像y=as+bを適用する。y>1の場合はyを1によって置き換え、y<0の場合はyを0によって置き換える。次いでその曲について、その曲の値(C)を区間[0,y]に線形写像する。それで、各集合は、その集合中のフィンガープリントに対してスケールされた値(C)の平均である平均スペクトル品質に帰される。このスケーリングの結果、(最大値1をとる)クラスタ品質の尺度(D)と組み合わされた場合、例えば、特徴(C)が曲にわたって認めうるほど変わらない曲のサムネイルを選ぶ際に、特徴(C)の影響を低くすることになる。
それゆえ、各集合には、それに関連付けられた2つの数がある。1つはクラスタの拡がりの品質を測定し、0から1まで変わり、もう1つはスペクトルの拡がりの品質を測定し、0からyまで変わり、ここでyは大きくても1であり、それらのスペクトルの拡がりの分散が大きい曲についてyは大きい。「最良」または最適の集合には、これら2つの数の二乗の和が最も大きくなるものを選ぶ。スペクトルの拡がり(幾何平均)の量が(検証セットに比べて)小さな分散を有する曲については、yは小さくなり、それゆえその値はクラスタの拡がりの品質と組み合わされたときにより小さな重みを持つことになる。スペクトルの拡がり(幾何平均)の量が(検証セットに比べ)大きな分散を有する曲については、yはほぼ1となり、それゆえその値はクラスタの拡がりの品質と組み合わされたときに、これとほぼ同じ重みをもつことになる。
330に進んで、クラスタの代替的な選択を検討することができる。この態様では、クラスタリングを、クリップ中のどこかで繰り返される、そのクリップ内のオーディオの最長セクションを見つけることによって行うことができる。クラスタ集合が上記のように計算されると、フィンガープリントの数に等しいサイズのベクトルを0で満たし、次いで、多重度が少なくとも2の集合に生じる各フィンガープリントについて0を1で置き換え、最後に、このベクトルに関してランレングス符号化を行って、1の最長のストリングを見つけることによってこれを効率的に達成することができる。そして、これらの対応するフィンガープリントを最良のクラスタに対応させる。
340で、最適フィンガープリントを、上記で判定したクラスタ集合から判定することができる。それゆえ、タスクとして、その集合内の最良クラスタを見つけること、そして、そのクラスタ内の最良のフィンガープリントを見つけること、およびそのフィンガープリントの周辺のオーディオをオーディオサムネイルとして抽出することが残る。この時点で、様々なヒューリスティクスを使用することができる。一例では、曲の始めまたは終わりに近すぎるクラスタを排除し、そのクラスタのまわりの6秒の時間ウィンドウにおける任意のフィンガープリントについて、エネルギー(上記の尺度(B))がしきい値を下回るクラスタを排除し、最後に、そのフィンガープリントのまわりの15秒における平均スペクトル平坦性の尺度(C)が最大になるフィンガープリントを(上記のテストを切り抜けたフィンガープリントから)選ぶ。
上記の処理が失敗する場合(例えば、1より大きい多重度のクラスタ集合が見つからなかった場合)、最良のフィンガープリントは、上記の2つのエネルギー尺度(B)および(C)を用いて次のように計算する。曲の静かな部分を避けるために、エネルギー尺度(B)が曲全体に対して(B)の値の上3分の1に入るフィンガープリントだけを考慮する(曲の静かな部分は、それでもスペクトル平坦性の尺度(C)が大きい。というのは、ホワイトノイズは考えられる最大のスペクトル平坦性の尺度を有し、楽曲の非常に静かな部分はホワイトノイズに近いことがあるためである)。このテストを切り抜けたフィンガープリントについては、周辺の15秒の平均スペクトル平坦性の尺度(C)が最大となるフィンガープリントを、最良のフィンガープリントとして選択する。
350で、340で選択したフィンガープリントからオーディオを抽出する。そのフィンガープリントの位置のまわりの固定の期間のオーディオのセクションをサムネイルとして使用する。フィンガープリントをこのセクションの始めのほうに置くことが有利であることがわかった。というのは、システムが繰り返しの楽器演奏の一節を実際のコーラスの直前で特定することがあるからである。次いで、この「オーディオサムネイル」(例えば、15秒のクリップ)を、例えば、別個のオーディオファイルとしてディスクに保存することができ、またはオーディオファイル全体内でサムネイルの位置を規定する時間オフセットを適当なファイル(例えば、再生リストである.ASXファイル)に保存することができる。望む場合には、より心地よい効果を提供するために、標準的な技法を用いてオーディオの始めと終わりに自動的にフェーディングを適用することができる。
図4に、本発明の一態様による歪み判別分析(DDA:distortion discriminant analysis)システム400を示す。オーディオ処理の技法、例えばスピーチから特徴を抽出する技法では、20ミリ秒程度のフレーム期間を使用することが多い。しかし、フィンガープリンティングの用途について計算オーバーヘッドを減らすため、1秒あたり2〜3回でストリームからフィンガープリントを生成することが望ましい。20ミリ秒の入力フレームでは、最後のDDA層で使用するステップサイズは、初期の100Hzのサンプリングレートより低くサンプリングしなければならず、これは、エイリアシングを引き起こす可能性があり、さらなる歪みの源として作用することになる。図4に示すシステム400により、この問題が回避される。サンプリングレートを低くした中間層がないので、一般にエイリアシングがない。この要件、およびフィンガープリントが約2分の1秒程度の時間スケールで生成されるという要件のために、第1の層のフレームの可能な期間がかなり制約される。また、時間的に広い第1の層により、DDAには周波数空間で重要な方向を選ぶのにより大きな柔軟性が可能となる。
図5に、本発明の一態様による一般化した固有値(generalized eigenvalues)500を示している。上述のシステム400の第1層の64という出力の大きさ(output dimensions)の選択は、図5に示す、トレーニングデータに関する測定された一般化固有スペクトル(generalized eigenspectra)によって導かれている。第1層からの有用な情報のほとんどは、最初の100プロジェクション中に捉えられている。第2層上のスペクトルはより急峻でない落ち方をしている。しかし、データベースルックアップをスピードアップするために、第2の層に関して上位64のプロジェクションだけを考慮した。データベースルックアップのスピードは、出力を186ミリ秒ごとではなく372ミリ秒ごとにサンプリングするだけで、さらに2倍程度に増やすことができよう。
上述のストリームオーディオフィンガープリンティングシステムは、まずステレオオーディオ信号をモノラルに変換し、次いで11025Hzにダウンサンプルする。その信号を、半分ずつ重なり合う固定長の372ミリ秒フレームに分ける。次いで、MCLT(重複ウィンドウによるフーリエ変換)を各フレームに適用する。各MCLT係数の対数モジュラス(log modulus)をとることによって、対数スペクトルを生成する。このストリームオーディオフィンガープリンティングシステムでは、特定の、容易に識別できる歪みを抑圧する2つのフレームごとの前処理ステップを行う。
第1の前処理ステップでは、周波数イコライゼーションおよびボリューム調整により引き起こされる歪みを取り除く。この「デ・イコライゼーションしきい値処理」ステップは、対数スペクトルのDCTをとり、各DCT係数を第1の成分の1から第6およびそれ以上の成分の0に線形にランプする重みで乗じ、次いで逆DCTを行うことによって対数スペクトルにローパスフィルタを適用する。この結果、対数スペクトルに対して滑らかな近似Aが得られる。次いで、Aを一様に6dBだけ下げ、−70dBでクリップする。すると、第1の前処理ステップの出力ベクトルは、対数スペクトルとの間の成分単位の差が正の場合は、その差であり、そうでない場合は、0となる。
第2の処理ステップでは、人間の聴者が聴くことができない信号中の歪みを取り除く。このステップは、第1のステップからの対数スペクトルを累乗し(exponentiate)、次いで、周波数依存の知覚しきい値をアルゴリズムによって生成する。すると、最終の前処理された信号は、dBで表した対数スペクトルと対数知覚しきい値との差が正の場合は、その差であり、そうでない場合は、0となる。最終の前処理されたデータは、フレームあたり2048の実係数(それゆえ2048バンド)からなる。
図6を参照すると、本発明の様々な態様を実装するための例示的な環境710がコンピュータ712を含んでいる。コンピュータ712は、処理ユニット714、システムメモリ716、およびシステムバス718を含む。システムバス718は、これに限定されないがシステムメモリ716を含む、システムコンポーネントを処理ユニット714に結合する。処理ユニット714は、様々な利用可能なプロセッサのいずれかとすることができる。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも、処理ユニット714として用いることができる。
システムバス718は、16ビットバス、ISA(Industrial Standard Architecture)、MSA(Micro−Channel Architecture)、EISA(Extended ISA)、IDE(Intelligent Drive Electronics)、VLB(VESA Local Bus)、PCI(Peripheral Component Interconnect)、USB(Universal Serial Bus)、AGP(Advanced Graphics Port)、PCMCIA(Personal Computer Memory Card International Association)バス、およびSCSI(Small Computer Systems Interface)を含むが、これらに限定されない任意の各種の利用可能なバスアーキテクチャを用いたメモリバスまたはメモリコントローラ、周辺バスまたは外部バス、および/またはローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。
システムメモリ716は、揮発性メモリ720および不揮発性メモリ722を含む。起動時など、コンピュータ712内の要素間の情報を転送する基本的なルーチンが入ったBIOS(basic input/output system)は不揮発性メモリ722に格納される。限定ではなく例として、不揮発性メモリ722は、ROM(read only memory)、PROM(programmable ROM)、EPROM(erasable programmable ROM)、EEPROM(electrically erasable programmable ROM)、またはフラッシュメモリを含むことができる。揮発性メモリ720は、外部キャッシュメモリとして働く、RAM(random access memory)を含む。限定ではなく例として、RAMは、SRAM(synchronous RAM)、DRAM(dynamic RAM)、SDRAM(synchronous DRAM)、DDR SDRAM(double data rate SDRAM)、ESDRAM(enhanced SDRAM)、SLDRAM(SyncLink DRAM)、DRRAM(direct Rambus RAM)などの多くの形で利用可能である。
また、コンピュータ712は、リムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータストレージメディアを含む。図6には、例えばディスクストレージ724を示している。ディスクストレージ724は、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカード、またはメモリスティックなどの装置を含むが、これに限定されない。さらに、ディスクストレージ724は、CD−ROM(compact disk ROM device)、CD−Rドライブ(CD recordable drive)、CD−RWドライブ(CD rewritable drive)DVD−ROM(digital versatile disk ROM drive)を含むがこれに限定されず、別個にまたは他のストレージメディアと組み合わせたストレージメディアを含むことができる。ディスクストレージ装置724のシステムバス718への接続を容易にするために、通常、インターフェース726などのリムーバブルまたは非リムーバブルのインターフェースが使われる。
図6は、ユーザと、適当な動作環境710に記述された基本コンピュータ資源との間の媒介として働くソフトウェアを記述していることを理解されたい。そのようなソフトウェアは、オペレーティングシステム728を含む。オペレーティングシステム728は、ディスクストレージ724上に格納することができるが、コンピュータシステム712の資源の制御および割り当てを行うように働く。システムアプリケーション730は、システムメモリ716中またはディスクストレージ724上に格納されたプログラムモジュール732およびプログラムデータ734を通してオペレーティングシステム728による資源の管理を利用する。本発明は、様々なオペレーティングシステムまたはオペレーティングシステムの組合せで実装できることを理解されたい。
ユーザは、コマンドまたは情報をコンピュータ712に入力装置736を介して入力する。入力装置736は、マウスなどのポインティング装置、トラックボール、スタイラス、タッチパッド、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、Webカメラを含むが、これらに限定されない。これらおよび他の入力装置は、処理ユニット714にシステムバス718を通してインターフェースポート738経由で接続する。インターフェースポート738は、例えば、シリアルポート、パラレルポート、ゲームポート、USB(ユニバーサルシリアルバス)を含む。出力装置740は、入力装置736と同じタイプのポートのいくつかを使用する。それゆえ、例えば、USBポートを使用して、コンピュータ712に入力を提供し、コンピュータ712からの情報を出力装置740に出力することができる。出力アダプタ742は、他の出力装置740の中でも、モニタ、スピーカ、プリンタなど、特別なアダプタを必要とする出力装置740がいくつかあることを例示している。出力アダプタ742は、限定ではなく例として、出力装置740とシステムバス718との接続の手段を提供するビデオカードおよびサウンドカードを含む。他の装置および/または装置のシステムが、リモートコンピュータ744などのように入力および出力機能の両方を提供することに注意されたい。
コンピュータ712は、リモートコンピュータ744など、1つまたは複数のリモートコンピュータへの論理接続を用いてネットワーク化された環境で動作することができる。リモートコンピュータ744は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースのアプライアンス、ピア装置または他の共通ネットワークノードなどとすることができ、通常、コンピュータ712に関して述べた要素の多くまたはすべてを含む。簡潔にするために、メモリストレージ装置746のみがリモートコンピュータ744と共に示されている。リモートコンピュータ744は、ネットワークインターフェース748を通してコンピュータ712に論理的に接続され、次いで、通信接続750経由で物理的に接続されている。ネットワークインターフェース748は、LAN(local−area network)やWAN(wide−area network)などの通信ネットワークを包含する。LAN技術は、FDDI(Fiber Distributed Data Interface)、CDDI(Copper Distributed Data Interface),イーサネット(登録商標)/IEEE802.3、トークンリング/IEEE802.5などを含む。WAN技術は、ポイントツーポイントリンク、ISDN(Integrated Services Digital Network)およびその変形などの回線交換網、パケット交換網、およびDSL(Digital Subscriber Line)を含むが、これらに限定されない。
通信接続750は、ネットワークインターフェース748をバス718に接続するのに用いられるハードウェア/ソフトウェアを指す。通信接続750は、説明の明瞭さのためにコンピュータ712内に示しているが、これはコンピュータ712に外付けとすることもできる。ネットワークインターフェース748への接続に必要なハードウェア/ソフトウェアは、単に例示の目的であるが、通常の電話グレードのモデム、ケーブルモデムおよびDSLモデムを含むモデム、ISDNアダプタ、およびイーサネット(登録商標)カードなどの内蔵および外付けの技術を含む。
図7は、本発明がやり取りすることができる例としてのコンピューティング環境800の図式的なブロック図である。システム800は、1つまたは複数のクライアント810を含む。クライアント810は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティング装置)とすることができる。また、システム800は、1つまたは複数のサーバ830を含む。サーバ830は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティング装置)とすることもできる。サーバ830は、例えば、本発明を用いることによって変換を行うスレッドを収容することができる。クライアント810とサーバ830との間の1つの可能な通信は、2つ以上のコンピュータプロセス間で伝送されるように適合されたデータパケットの形とすることができる。システム800は、クライアント810とサーバ830との間の通信を容易にするために用いることができる通信フレームワーク850を含む。クライアント810は、クライアント810にローカルな情報を格納するのに用いることができる1つまたは複数のクライアントデータストア860に動作可能に接続されている。同様に、サーバ830は、サーバ830にローカルな情報を格納するのに用いることができる1つまたは複数のサーバデータストア840に動作可能に接続されている。
以上述べてきたことは、本発明の例を含んでいる。本発明を説明する目的で、構成要素または方法論の考えられるあらゆる組合せを述べることは、もちろんできないが、当業者には本発明の多くのさらなる組合せおよび並べ替えが可能であることを理解されよう。したがって、本発明は添付の特許請求の範囲の趣旨および範囲に入るそのようなすべての代替形態、変更形態および変形形態を包含するものである。さらに、用語「含む(include)」が詳細な説明または特許請求の範囲で使用されている限りで、このような用語は、「備える(comprising)」が請求項中の移行語として用いられるときに解釈されるように、用語「備える」と同様に包含的であるものとする。
本発明の一態様によるオーディオサムネイルジェネレータシステムの図式的なブロック図である。 本発明による特徴計算を例示する図である。 本発明によるオーディオサムネイル処理を例示する流れ図である。 本発明の一態様による歪み判別分析を例示する図である。 本発明の一態様による一般化した固有値を例示する図である。 本発明の一態様による適当な動作環境を例示する図式的なブロック図である。 本発明がやり取りすることができる例としてのコンピューティング環境の図式的なブロック図である。
符号の説明
100 オーディオサムネイルジェネレータシステム
110 オーディオファイル
120 サマライザ/サムネイルジェネレータ
130 アナライザ
140 オーディオサムネイル
150 ニーモニックディテクタ
200 特徴計算
210 フィンガープリント
220 スペクトルエネルギー
230 スペクトル平坦性
710 動作環境
712 コンピュータ
714 処理ユニット
716 システムメモリ
718 バス
720 揮発性
722 不揮発性
724 ディスクストレージ
726 インターフェース
728 オペレーティングシステム
730 アプリケーション
732 モジュール
734 データ
736 入力装置
738 インターフェースポート
740 出力装置
742 出力アダプタ
744 リモートコンピュータ
746 メモリストレージ
748 ネットワークインターフェース
750 通信接続
800 コンピューティング環境
810 クライアント
830 サーバ
840 サーバデータストア
850 通信フレームワーク
860 クライアントデータストア

Claims (37)

  1. オーディオ情報を要約するためのシステムであって、
    オーディオをフレームに変換するアナライザと、
    前記フレームをフィンガープリントに変換するフィンガープリンティングコンポーネントであって、各フィンガープリントが複数のフレームに部分的に基づくフィンガープリンティングコンポーネントと、
    フィンガープリント間の類似性を計算する類似性ディテクタであって、前記類似性ディテクタは、クラスタリング機能を備え、前記クラスタリング機能は、類似性を示す初期のしきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する、類似性ディテクタと、
    フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合からオーディオファイルのサムネイルを生成するヒューリスティックモジュールであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔である、ヒューリスティックモジュールと
    を備えたことを特徴とするシステム。
  2. 前記ヒューリスティックモジュールは、前記サムネイルに適したオーディオのセグメントの判定を助けるために、エネルギーコンポーネントおよび平坦性コンポーネントの少なくとも1つを備えたことを特徴とする請求項1に記載のシステム。
  3. 前記ヒューリスティックモジュールを用いて、音声コーラスを楽器演奏部分に優先して自動的に選択することを特徴とする請求項2に記載のシステム。
  4. 前記フィンガープリントによって適当なコーラスが見つからない場合、前記エネルギーコンポーネントおよび前記平坦性コンポーネントを用いることを特徴とする請求項2に記載のシステム。
  5. オーディオクリップの始めと終わりにある無音をエネルギーベースのしきい値を介して取り除くコンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  6. 前記フィンガープリンティングコンポーネントは、オーディオクリップの各フィンガープリントから他のフィンガープリントへの平均ユークリッド距離が1であるように、正規化コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  7. 前記アナライザは、オーディオフレームの1組のスペクトルマグニチュードを計算することを特徴とする請求項1に記載のシステム。
  8. 各フレームについて、そのフレーム内の周波数成分あたりの平均エネルギーをオーディオファイル中のフレームにわたるその量の平均で割ることによって平均の正規化したエネルギーEを計算することを特徴とする請求項7に記載のシステム。
  9. オーディオファイルの中央部分を選択して、前記オーディオファイル中に現れる静かな前奏およびフェード部の影響を軽減するコンポーネントをさらに備えたことを特徴とする請求項8に記載のシステム。
  10. 前記平坦性コンポーネントは、周波数成分ごとにスペクトルマグニチュードに加える数を用いて、対数を決定するときの数値の問題を軽減することを特徴とする請求項2に記載のシステム。
  11. 前記平坦性コンポーネントは、前記スペクトルマグニチュードの対数正規化幾何平均として計算されるフレーム量を含むことを特徴とする請求項10に記載のシステム。
  12. 前記正規化は、フレームあたりのマグニチュードのフレームあたりの対数算術平均を前記幾何平均から引くことによって行われることを特徴とする請求項11に記載のシステム。
  13. 前記ヒューリスティックモジュールは、オーディオのサムネイルを生成するクラスタの集合を、前記クラスタの集合について判定される平均スペクトル品質値または前記クラスタの集合について判定されるクラスタの拡がりの品質値の少なくとも1つに基づいて選択することを特徴とする請求項1に記載のシステム。
  14. 前記ヒューリスティックモジュールは、前記クラスタの集合について判定される平均スペクトル品質値および前記クラスタの集合について判定されるクラスタの拡がりの品質値の2乗の和についての最も高い値を有するクラスタの集合を選択することを特徴とする請求項13に記載のシステム。
  15. 前記初期のしきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項1に記載のシステム。
  16. クラスタは、2つのギャップの間に横たわるか、フィンガープリントのシーケンスのはじまりと前記シーケンスの最初のギャップとの間に横たわるか、前記シーケンスの最後のギャップとフィンガープリントのシーケンスのおわりとの間に横たわるクラスタの集合におけるフィンガープリントのグループであることを特徴とする請求項1に記載のシステム。
  17. オーディオファイルをフレームに変換するための手段と、
    前記オーディオファイルをフィンガープリンティングし、複数のフレームに部分的に基づいてフィンガープリントを生成するための手段と、
    予め定義された類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する手段と、
    フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合を選択することによってオーディオサムネイルを生成するための手段であって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
    を備えたことを特徴とする自動サムネイルジェネレータ。
  18. オーディオサムネイルを生成する方法であって、
    複数のオーディオフィンガープリントを生成することであって、各オーディオフィンガープリントが複数のオーディオフレームに部分的に基づくことと、
    類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成することと、
    フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合に基づいてサムネイルを作成することであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
    を備えることを特徴とする方法。
  19. 前記フィンガープリントのクラスタの1つまたは複数の集合を生成することは、前記ギャップに基づいてクラスタの集合内のフィンガープリントをフィンガープリントクラスタにクラスタリングすることを備えることを特徴とする請求項18に記載の方法。
  20. 前記類似性しきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項18に記載の方法。
  21. 前記類似性しきい値、オーディオファイルに基づいて適応的に選ばれ、2つのフィンガープリントが同じクラスタ集合に属するかどうかの判定を助けるのに使用されることを特徴とする請求項18に記載の方法。
  22. 前記クラスタリングすることは、一時に1つのフィンガープリントを検討することによって動作することを特徴とする請求項19に記載の方法。
  23. クラスタがオーディオファイルを通して時間的にどのくらい均一に拡がっているかを記述するパラメータ(D)を判定することをさらに備えることを特徴とする請求項19に記載の方法。
  24. 前記オーディオサムネイルを作成することは、少なくともパラメータ(D)に基づいてオーディオサムネイルを生成するクラスタの集合を選択することを備えることを特徴とする請求項23に記載の方法。
  25. 所要時間が1になるように曲を正規化し、
    i番目のクラスタの時間位置をtとし、
    Figure 0004878437

    Figure 0004878437
    として計算し、ここでNをあるクラスタ集合中のクラスタの数として
    (D)を測定することを特徴とする請求項24に記載の方法。
  26. 任意のNについて、(D)が1の最大値および0の最小値をとるようにオフセットおよびスケーリングファクタを判定することをさらに備えることを特徴とする請求項25に記載の方法。
  27. ある集合中のフィンガープリントの平均スペクトル品質を判定することをさらに備えることを特徴とする請求項25に記載の方法。
  28. ある集合の平均スペクトル平坦性と、パラメータDとを組み合わせて、複数のクラスタ集合のうちから最良のクラスタ集合を判定することを特徴とする請求項27に記載の方法。
  29. 前記平均のスペクトル平坦性およびパラメータDを組み合わせて各クラスタ集合に関連付けられた単一のパラメータとし、それによって前記パラメータの外部値を有する集合を前記最良の集合とするように選択することを特徴とする請求項28に記載の方法。
  30. 最良のクラスタ集合が選択されると、前記クラスタ集合内の最良のフィンガープリントは、オーディオサムネイルの所要時間にほぼ等しい所要時間について、そのオーディオの周辺が最大のスペクトルエネルギーまたはスペクトル平坦性を有するフィンガープリントとして判定されることを特徴とする請求項29に記載の方法。
  31. 前記作成することは、オーディオファイルで繰り返される前記オーディオファイル内のオーディオの最長のセクションを判定することによってクラスタを判定することをさらに備えることを特徴とする請求項18に記載の方法。
  32. 前記作成することは、
    曲の始めまたは終わりに近いクラスタを排除することと、
    所定のウィンドウ中の任意のフィンガープリントについてエネルギーがあるしきい値を下回るクラスタを排除することと、
    所定のウィンドウ中の平均スペクトル平坦性の尺度が最大となるフィンガープリントを選択すること
    の少なくとも1つをさらに備えることを特徴とする請求項18に記載の方法。
  33. 前記作成することは、オーディオファイル中の時間オフセットを指定することによってサムネイルを生成することをさらに備えることを特徴とする請求項18に記載の方法。
  34. 前記作成することは、オーディオサムネイルの始めまたは終わりを自動的にフェーディングすることをさらに備えることを特徴とする請求項18に記載の方法。
  35. 前記生成することは、オーディオファイルを少なくとも2つの層で処理することをさらに備え、第1の層の出力は小さなウィンドウにわたって計算された対数スペクトルに基づき、第2の層は前記第1の層により生成されたベクトルをまとめることによって計算されたベクトルに関して動作することを特徴とする請求項18に記載の方法。
  36. 先行する層よりも後続する層でより広い時間ウィンドウを提供することをさらに備えることを特徴とする請求項35に記載の方法。
  37. 前記層の少なくとも1つを用いて時間的ミスアラインメントを補償することをさらに備えることを特徴とする請求項36に記載の方法。
JP2005047144A 2004-02-24 2005-02-23 オーディオサムネイルを生成するためのシステムおよび方法 Expired - Fee Related JP4878437B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/785,560 US7379875B2 (en) 2003-10-24 2004-02-24 Systems and methods for generating audio thumbnails
US10/785,560 2004-02-24

Publications (2)

Publication Number Publication Date
JP2005250472A JP2005250472A (ja) 2005-09-15
JP4878437B2 true JP4878437B2 (ja) 2012-02-15

Family

ID=34750474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005047144A Expired - Fee Related JP4878437B2 (ja) 2004-02-24 2005-02-23 オーディオサムネイルを生成するためのシステムおよび方法

Country Status (5)

Country Link
US (1) US7379875B2 (ja)
EP (1) EP1571670B1 (ja)
JP (1) JP4878437B2 (ja)
KR (1) KR101117933B1 (ja)
CN (1) CN100461168C (ja)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US7953504B2 (en) * 2004-05-14 2011-05-31 Synaptics Incorporated Method and apparatus for selecting an audio track based upon audio excerpts
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
EP1684263B1 (en) * 2005-01-21 2010-05-05 Unlimited Media GmbH Method of generating a footprint for an audio signal
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
WO2007027013A1 (en) * 2005-07-19 2007-03-08 Samsung Electronics Co., Ltd. Audio reproduction method and apparatus supporting audio thumbnail function
KR100733145B1 (ko) * 2005-09-15 2007-06-27 한국과학기술원 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100725018B1 (ko) * 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
KR100782825B1 (ko) * 2005-12-01 2007-12-06 삼성전자주식회사 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US9319720B2 (en) 2005-12-13 2016-04-19 Audio Pod Inc. System and method for rendering digital content using time offsets
US8285809B2 (en) * 2005-12-13 2012-10-09 Audio Pod Inc. Segmentation and transmission of audio streams
US11128489B2 (en) 2017-07-18 2021-09-21 Nicira, Inc. Maintaining data-plane connectivity between hosts
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US8316081B2 (en) 2006-04-13 2012-11-20 Domingo Enterprises, Llc Portable media player enabled to obtain previews of a user's media collection
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US7603434B2 (en) * 2006-04-13 2009-10-13 Domingo Enterprises, Llc Central system providing previews of a user's media collection to a portable media player
KR100764346B1 (ko) * 2006-08-01 2007-10-08 한국정보통신대학교 산학협력단 구간유사도 기반의 자동 음악요약 방법 및 시스템
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
GB2462969A (en) * 2007-06-28 2010-03-03 Taptu Ltd Audio thumbnail
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
US20090006551A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Dynamic awareness of people
US8344233B2 (en) * 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
US8650094B2 (en) * 2008-05-07 2014-02-11 Microsoft Corporation Music recommendation using emotional allocation modeling
KR100995839B1 (ko) * 2008-08-08 2010-11-22 주식회사 아이토비 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법
US8452731B2 (en) * 2008-09-25 2013-05-28 Quest Software, Inc. Remote backup and restore
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US8687839B2 (en) * 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
US20110258211A1 (en) * 2010-04-18 2011-10-20 Kalisky Ofer System and method for synchronous matching of media samples with broadcast media streams
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
CN102467939B (zh) * 2010-11-04 2014-08-13 北京彩云在线技术开发有限公司 一种歌曲音频切割装置及方法
US9449024B2 (en) 2010-11-19 2016-09-20 Microsoft Technology Licensing, Llc File kinship for multimedia data tracking
EP2659480B1 (en) * 2010-12-30 2016-07-27 Dolby Laboratories Licensing Corporation Repetition detection in media data
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
CN103180847B (zh) * 2011-10-19 2016-03-02 华为技术有限公司 音乐查询方法和装置
CN103093761B (zh) * 2011-11-01 2017-02-01 深圳市世纪光速信息技术有限公司 音频指纹检索方法及装置
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
CN103020174B (zh) * 2012-11-28 2016-01-06 华为技术有限公司 相似性分析方法、装置及系统
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
US10122983B1 (en) * 2013-03-05 2018-11-06 Google Llc Creating a video for an audio file
US9679583B2 (en) * 2013-03-15 2017-06-13 Facebook, Inc. Managing silence in audio signal identification
KR101419764B1 (ko) * 2013-06-07 2014-07-17 정영민 휴대단말기의 음성 이모티콘 제어방법
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
EP2879047A3 (en) * 2013-11-28 2015-12-16 LG Electronics Inc. Mobile terminal and controlling method thereof
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
WO2015133782A1 (ko) 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
US10303800B2 (en) 2014-03-04 2019-05-28 Interactive Intelligence Group, Inc. System and method for optimization of audio fingerprint search
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9606766B2 (en) 2015-04-28 2017-03-28 International Business Machines Corporation Creating an audio file sample based upon user preferences
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
US11062693B1 (en) * 2019-06-20 2021-07-13 West Corporation Silence calculator
CN112346684A (zh) * 2020-10-20 2021-02-09 深圳Tcl新技术有限公司 数据的显示方法、装置、电视和计算机可读存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4567606A (en) * 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
WO1992015090A1 (en) * 1991-02-22 1992-09-03 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5386493A (en) * 1992-09-25 1995-01-31 Apple Computer, Inc. Apparatus and method for playing back audio at faster or slower rates without pitch distortion
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6606744B1 (en) * 1999-11-22 2003-08-12 Accenture, Llp Providing collaborative installation management in a network-based supply chain environment
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6763136B1 (en) * 2000-09-19 2004-07-13 Bae Systems Mission Solutions, Inc. Method and apparatus for determining spectral similarity
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
JP3736394B2 (ja) * 2001-07-10 2006-01-18 松下電器産業株式会社 画像圧縮装置
US7328153B2 (en) * 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US6933432B2 (en) * 2002-03-28 2005-08-23 Koninklijke Philips Electronics N.V. Media player with “DJ” mode
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
US7386357B2 (en) * 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US7233832B2 (en) * 2003-04-04 2007-06-19 Apple Inc. Method and apparatus for expanding audio data
US20040260682A1 (en) * 2003-06-19 2004-12-23 Microsoft Corporation System and method for identifying content and managing information corresponding to objects in a signal

Also Published As

Publication number Publication date
US20050091062A1 (en) 2005-04-28
CN1661600A (zh) 2005-08-31
EP1571670A2 (en) 2005-09-07
EP1571670A3 (en) 2011-01-12
CN100461168C (zh) 2009-02-11
US7379875B2 (en) 2008-05-27
KR101117933B1 (ko) 2012-03-09
EP1571670B1 (en) 2018-12-19
JP2005250472A (ja) 2005-09-15
KR20060043080A (ko) 2006-05-15

Similar Documents

Publication Publication Date Title
JP4878437B2 (ja) オーディオサムネイルを生成するためのシステムおよび方法
JP4345321B2 (ja) 線形メディアの最適要約を自動作成する方法および情報を格納する情報格納メディアを備える製品
US8082279B2 (en) System and methods for providing adaptive media property classification
US7532943B2 (en) System and methods for providing automatic classification of media entities according to sonic properties
US6910035B2 (en) System and methods for providing automatic classification of media entities according to consonance properties
US7065416B2 (en) System and methods for providing automatic classification of media entities according to melodic movement properties
US7326848B2 (en) System and methods for providing automatic classification of media entities according to tempo properties
US5918223A (en) Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US7853344B2 (en) Method and system for analyzing ditigal audio files
US7522967B2 (en) Audio summary based audio processing
US20130275421A1 (en) Repetition Detection in Media Data
US20080256106A1 (en) Determining the Similarity of Music Using Cultural and Acoustic Information
US20080208891A1 (en) System and methods for recognizing sound and music signals in high noise and distortion
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
Hargreaves et al. Structural segmentation of multitrack audio
Smith et al. Audio properties of perceived boundaries in music
KR20100000265A (ko) 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치
KR101002732B1 (ko) 온라인을 통한 디지털 컨텐츠 관리 시스템
Sharma et al. Audio songs classification based on music patterns
Doherty et al. Pattern matching techniques for replacing missing sections of audio streamed across wireless networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110819

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110822

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R150 Certificate of patent or registration of utility model

Ref document number: 4878437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees