JP4184955B2 - 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置 - Google Patents

識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置 Download PDF

Info

Publication number
JP4184955B2
JP4184955B2 JP2003512876A JP2003512876A JP4184955B2 JP 4184955 B2 JP4184955 B2 JP 4184955B2 JP 2003512876 A JP2003512876 A JP 2003512876A JP 2003512876 A JP2003512876 A JP 2003512876A JP 4184955 B2 JP4184955 B2 JP 4184955B2
Authority
JP
Japan
Prior art keywords
identification pattern
format
predetermined
identification
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003512876A
Other languages
English (en)
Other versions
JP2004534285A (ja
Inventor
ヘレ,ユルゲン
アラマンヒェ,エリック
ヘルムート,オリヴァー
カストナー,トルステン
クレマー,マークス
Original Assignee
エム2エニー ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エム2エニー ゲーエムベーハー filed Critical エム2エニー ゲーエムベーハー
Publication of JP2004534285A publication Critical patent/JP2004534285A/ja
Application granted granted Critical
Publication of JP4184955B2 publication Critical patent/JP4184955B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Description

発明の詳細な説明
本発明は、コンテンツ(content)に関連させてオーディオ信号を特徴付けること、あるいは認識することに関し、特に、オーディオ信号の異なった識別パターンの生成と使用とに関する。
近年、利用可能なマルチメディアのデータ題材、すなわちオーディオデータが、益々増加している。この進展は、多数の技術要素に起因している。これらの技術要素には、例えば、インターネットの広範囲での利用、オーディオデータのデータ圧縮に関する高性能な方法、すなわちソースの符号化技術の広範囲な普及ともに、高性能なコンピュータの広範囲での利用が含まれる。この1つの例として、MP3として参照されるMPEG1/2layer3が挙げられる。
利用可能な視聴覚データの総量が莫大なために、例えば、インターネットにおいて、全世界に広がる規模で、コンテンツに関連した基準により、それらのデータを評価でき、分類でき、あるいは、管理できるコンセプトが必要とされる。すなわち、主要で有用な基準に従ってマルチメディアデータを検索し、発見することが必要である。
つまり、いわゆる「コンテンツに基づく」手法を使用して、視聴覚データから、特別に独特である信号に関与するコンテンツ特性を表現するいわゆる「特徴」の抽出が必要である。これらの特徴あるいは、これらの特徴の組み合わせに基づくと、相似した関係あるいは、共通の特徴が、オーディオ信号間で得られる。このプロセスは、一般に、異なった信号から抽出された特徴的な値を比較するか、関連付けするかにより遂行される。ここでは、上記特徴的な値を「ピース(pieces)」と呼ぶことにする。
合衆国特許No.5,981,223には、オーディオ情報の、コンテンツに基づく分析、記憶、検索、及び分割の方法について開示されている。オーディオデータの分析では、数値のセットを生成する。この数値は、特徴ベクトルと呼ばれるものであって、一般的にはマルチメディアのデータベースの中、またはワールドワイドウェブ上に格納されている個々のオーディオピース間における類似点の格付けとランク付けに使用されるものである。
さらに、上記分析は、オーディオピースのセットの分析に基づいて、ユーザによって規定されたオーディオピースのクラスに関する説明を行うことができる。なお、オーディオピースは、全てユーザにより規定されたクラスの構成メンバーである。このシステムでは、比較的長い音響ピース内から個々の音響セクションを見つけることができ、オーディオレコード(audio record)によって自動的に、一連のより短いオーディオ部分に分割できる。
コンテンツに関連したオーディオピースの特徴付けあるいは格付けのために使用される特徴は、オーディオピースの周期的な間隔において、ピースの音量(loudness)、ピッチ、鮮やかさ(brightness)、帯域幅、および、いわゆる、メル頻度セプストラル係数(Mel-frequency Cepstral coefficients, MFCCs)を含む。ブロック毎あるいは、フレーム毎の値は、保存されており、第1の微分係数(derivation)に従う。ここにおいて、第1の同じ微分係数を有するこれら特徴に関する特定の統計学上の数量(例えば平均値、あるいは標準偏差)が、時系列な(over time)変動を記述するために計算される。この統計学上の数量のセットは、特徴的なベクトルを形成する。オーディオピースのこの特徴的なベクトルは、オリジナルファイルと関連してデータベースに保存され、ユーザは、適合したオーディオピースを導き出すために、データベースにアクセスすることができる。
データベースシステムは、n次元空間において、2つのn次元ベクトル間の隔たりを定量化することができる。さらに、1つのクラスに属したオーディオピースのセットを特徴付けることで、オーディオピースのクラスを生成することができる。なお、クラスの例としては、鳥のさえずり、ロック音楽などである。また、ユーザは、特定の方法を用いて、オーディオピースのデータベースを検索することができる。検索結果は、音響ファイルのリストであり、それは、特徴付けられたn次元ベクトルからの距離に一致して整理されて列挙される。ユーザは、類似の特徴を参考に、聴覚および/または心理的な聴覚の特徴、主観的な特徴、あるいは、例えば蜂の羽音のような特徴的なノイズを参考にしてデータベースを検索することができる。
専門家の出版物である「マルチメディアコンテンツ分析(Multimedia Content Analysis)」(ヤオ ワンなど(Yao Wang et al.),IEEE信号処理雑誌2000年11月、12ページ〜30ページ(IEEE Signal Processing Magazine, November 2000, pp. 12 to 36))には、マルチメディアのピースへの特徴付けのための同様なコンセプトが開示されている。マルチメディアのピースに関するコンテンツのクラス分けのための特徴は、時間領域特性あるいは周波数領域特性を含むように提案される。これらは、音量、オーディオ信号形態の基本的な周波数としてのピッチ、スペクトル特性、総エネルギーコンテンツに関連したテープのエネルギー量(energy content)、スペクトル曲線において、カットオフされた周波数などのようなものを含む。オーディオ信号のサンプルのブロック毎に言及された量に関連した短期間の特性に加え、長期間のオーディオピースに関連した長い期間の量も提案される。
様々なカテゴリーが、例えば、動物の音声、ベル鳴る音、群衆の音、笑い、機械のノイズ、楽器、男性の声、女性の声、電話の音、あるいは水の音のようなオーディオピースの特徴付けのために提案されておいる。
使用される特徴の選択は、特徴の抽出のために必要とされる計算量の点において問題が多く、素早く特徴付けが達成できるように想定されているが、しかしながら、特徴が、2つの異なったピースが互いに異なった特徴をもつような、オーディオピースの特性となるという点において問題がある。
オーディオ信号の特性付けのために、オーディオ信号の特徴、あるいは、識別パターン(fingerprint)としても参照されるいわゆる特徴は、既に記述されたように抽出される。また、2つの異なる要求が、この特徴の種類に応じて存在する。すなわち、識別パターンに対する1つの要求は、識別パターンが、信号に対し、できるだけ独特なオーディオ信号であることである。また、識別パターンに対するもう一方の要求は、識別パターンができるだけ少ない情報を含んでいるということである。すなわち、識別パターンは、できるだけ、小さい記憶スペースを使用するということである。これら2つの要求は互いに矛盾したものである。したがって、これを認識する最も単純なやり方は、オーディオ信号の最もよい「識別パターン」は、オーディオ信号自身、すなわち、オーディオ信号により表現されるサンプルの連続であるという事実である。このような識別パターンは、一方で、より多くのメモリを使用するため、第2の要求を大規模に侵害し、その一つとして、とても多くの数のオーディオ信号のために、音楽認識データベースの中に、とても多くの数の識別パターンを保存することを不可能とする。さらに、不利な点は、検索識別パターンと複数の保存されたデータベース識別パターンとを比較するように想定されたマッチングのアルゴリズムにより要求される計算時間の総量は、検索識別パターンおよび/または、データベース識別パターンのサイズに比例するということである。
他の行き過ぎた点としては、例えば、ピースの全てのサンプルの平均値を用いるだけということである。この平均値は、とても少ない記憶スペースだけを必要とするため、それゆえ、大きな音楽データベースとマッチングアルゴリズムとの両方に最もよく適合する。しかし、そのような識別パターンの特徴付けの強度は、人間に関して関係のない変化に対してとても頑健なものとはならない。
特徴付け強度と識別パターンのデータ量との間の理想的な折衷案は、一般的には存在しなく、典型的に実験的に成立するか、あるいは、記憶スペースの利用と伝送容量(transmission capacity)の利用におけるそれぞれのアプリケーションの状況に依存する。この生成は、異なる種類の識別パターンが、1つの特定のアプリケーションにだけ理想的に適合し、他のアプリケーションには、幾分か不適切となるという障害を有している。この文脈において、オーディオ信号の識別および/または特徴付けは、とても大きな特徴的なデータベースがある場合、特に重要である。このデータベースの識別パターンは、オーディオ信号を直接識別する検索識別パターンと比較され、あるいは、効果にオーディオ信号を特徴付ける。この効果とは、データベースにおいて一つあるいはいくつかのオーディオ信号を比較されたオーディオ信号の類似点の測定が出力されるという効果である。識別パターンの特定の種類が、あるアプリケーションに確実に好適であり、他のアプリケーションにはもはや好適でなくなった場合、更新された(renewed)特定の抽出処理は、大量のオーディオ信号に対して実行される。なお、このオーディオ信号の識別パターンは、データベースに保存され、特徴付け強度と記憶スペースの間の折衷案を達成する現在のアプリケーションの代わりに、理想的な折衷案として提供される新しいデータベースとなる。一方では、オリジナルであるピースは、特徴の抽出を更新するために、決して利用され得ない(例えば、オーディオデータベースのために500000のオーディオピースが使用される)。他方では、この結果、−全てが可能であれば−、「新(new)」データベースを満たす、および/またはこのデータベースを「訓練する(train)」ための特徴の抽出処理に関して、大規模な費用となる。
またこの問題は、次の事実によって悪化する。つまり、確かに、インターネットの形態では、利用可能なワールドワイドウェブが存在しており、原則的には無制限の記憶容量を有している。しかし、どの識別パターンがどのアプリケーションに最も好適であるかということを、多くの様々な「識別パターン生成者」に知らせることは不可能である。このため、有効なオーディオ信号の識別および/または特徴付けを行うことを可能とするように、十分な識別パターンデータベース部材が利用されることとなる。
さらなる問題は、識別パターンはまた、多くの様々な伝送チャンネルを通して伝送されることである。とても低い伝送容量をもつ伝送チャンネルとしては、例えば、携帯電話の屋外の伝送チャンネルがある。特徴付け強度とデータベースのための記憶容量とに加え、伝送チャンネルの帯域幅もまた、決定的な要素となる。高い特徴付け強度を有する識別パターンを生成するための長所は形成されない。すなわちこのことは、ほとんど、あるいは全く狭帯域(narrow-band)伝送チャンネルを通しての伝送ができないということである。したがって、アプリケーションのための理想的な識別パターンは、例えば、検索データベースの識別パターンを経由して伝送される伝送チャンネルによってさらに規定される。
本発明の目的は、様々な要求に対して適用可能な柔軟性のある識別パターンのコンセプトを提供することにある。
この目的は、請求項1、13、14に記載された識別パターンの生成方法、請求項7に記載のオーディオ信号を特徴付ける方法、請求項11、15、16に記載の識別パターンを生成するための装置、請求項12に記載されたオーディオ信号特徴付けるための装置により達成することができる。
本発明では、識別パターンが、複数の所定の識別パターン形式(modi)からなる様式(modus)に従って形成されるというという事実によって普遍的に得ることができる識別パターンコンセプトに基づいており、前記識別パターン形式は全て、同一タイプの識別パターンに関連するが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを形成する。本発明によると、前記識別パターン形式が、自身のオーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている。この「拡張可能なscalable」識別パターンは、例えば、高い特徴付け強度を有する識別パターンと大きなデータ量を有するデータベースとを提供することができる。所定の識別パターン形式で生成される高価なデータベース識別パターンは、オーディオ信号自身の特徴の抽出に従うことなく、たやすく低い特徴付け強度を有する「低い」識別パターンに変換することができる。
より好ましくは、常に検索識別パターンの識別パターンとデータベース識別パターンの識別パターンとが、変換されたより高い特徴付け強度を有しており、実際に変換された2つの識別パターンが、互いに比較される。多くの識別パターン形式を用いた規定が、本発明により提供され、データベースは、異なった識別パターンのプロセスに適合する。すなわち、識別パターンは、全体で識別パターン形式があるような異なった識別パターン形式で生成される。
利点としては、同じ周波数のデータベースに使用できることであり、とても低い特徴付け強度を有する識別パターンだけでなく、とても高い特徴付け強度を有する識別パターンも処理でき、そのため、1つのそして、同じ識別パターンデータベースがそれでも使用される期間は、許可された所定の識別パターン形式に依存して、適度な識別パターン様式が各アプリケーションに見つけることができる。
このコンセプトは、オーディオデータベースのための識別パターンの生成者が、アプリケーションの変換のために異なる識別パターンの継続的な生成を行わなくてもよいというさらなる利点を有している。また、拡張可能な識別パターンが、再び生成され、その拡張性の特徴のために、複数のアプリケーションに使用されるというさらなる利点を有している。一方では、このような検索データベースのユーザは、生成において十分な柔軟性が与えられており、もし、状況が望めば、とても低い特徴付け強度を有する識別パターンが高速で伝搬される。また、これに対して、異なったアプリケーションにおいて、非常に高い特徴付け強度を有する識別パターンを生成するユーザもいる。ここでは、特徴付け強度は、識別パターンのデータ容量よりも重要である。ユーザは、1つの、そして、アプリケーションの両方の場合のための、同じデータベースにアクセスできる。それは、状況に応じたオーディオ信号の実質的な範囲に対する記述(description)の全コンセプトを単純化するために、よりユーザフレンドリー(user-friendly)となる。特に、ユーザフレンドリーさと操作性の容易さは、市場で大きな商業的な成功を達成するための決め手となる。
好ましくは、周波数に関する拡張性および/または、経時的な拡張性が使用される。上記周波数に関する拡張性が達成され、本発明のより好ましい具体例と一致し、そこでは、識別パターン形式は、それぞれ、オーディオ信号の分離したサブ帯域(sub-band)への分離した識別パターン情報を有し、そして、識別パターン形式は互いに異なっており、異なった数のサブ帯域のための分離した識別パターン情報を含んでいる。サブ帯域のこの特徴付けは、全ての識別パターン形式で同じである。非常に高い特徴付け強度を持つ識別パターンを有するデータベースが生成される場合、すなわち、生成されたデータベースに関する識別パターンによる識別パターン様式が、20サブ帯域のオーディオ信号などの分離した識別パターン情報を含む場合、より少ない特徴付け強度を持つ他の識別パターン形式は、識別パターンが、例えば、15、10、5つだけあるいは、1つだけのサブ帯域に対する分離した識別パターン情報を含むようにする。異なった識別パターン形式に従って生成された全ての識別パターンは、容易に下位互換可能(downward compatible)であり、データベースを用いたマッチング操作において、それらの識別パターン情報だけは、サブ帯域のためのデータベース識別パターンから持ってくる。サブ帯域は、同様に検索識別パターンに含まれる。極限の場合、一つのサブ帯域の識別パターン情報になる。この一つのサブ帯域は、検索識別パターンもまた一つのサブ帯域用の識別パターン情報にだけ含まれている場合は、識別パターンの識別パターン情報に関する、20に分離したピースのマッチング操作に使用される。
他にまた、経時的に拡張性があることが好適である。相対的に低い特徴付け強度を有する識別パターンは、例えば、10ブロックのオーディオ信号のサンプルからなる識別パターン情報を有している。これに対して、高い特徴付け強度の識別パターンは、オーディオ信号のサンプルのブロック毎の識別パターン情報を有している。どちらの識別パターンでも同じブロック長であるので、経時的に、高い特徴付け強度を有する識別パターン情報の対応する多数のピースは、下位互換のために組み合わされ、低い特徴付け強度を有する識別パターンとして、同じ数のサンプルを特徴付ける識別パターンを変換したこれらのものから生成する。ここでは、識別パターン形式は、お互いに異なっており、とても低い特徴付け強度を有する識別パターン様式が、多くのブロックのサンプルを、一つの識別パターンに処理する。これに対して、非常に高い特徴付け強度を有する識別パターン様式は、例えば、ブロック毎に一つの識別パターンを生成する。つまり、所定のブロックサイズを用いることによって、オーディオ信号自身を更新された特徴的抽出に従わせることなく、低い特徴付け強度を有する識別パターンが、高い特徴付け強度を有する識別パターンの一致する数から生成される。そして、この結果、例えば、データベース比較を実行することができるようになる。
本発明の好ましい実施形態について、添付の図面を参照に以下でより詳細に説明する。
図1は、識別パターンを生成するためのブロック図である。
図2は、オーディオ信号を特徴付けるための発明の装置のブロック図である。
図3aは、オーディオ信号を様々なサブ帯域に細分化する表現を示す図である。
図3bは、図3aに示すサブ帯域細分化とは異なる識別パターンで生成される識別パターン表現の概念を示す図である。
図4aは、時系列にオーディオ信号のブロックの細分化の表現を示す図である。
図4bは、図4aに示すブロックの細分化とは異なった識別パターン形式に従って生成される様々な識別パターン表現の概念を示す図である。
図5は、パターン認識システムの基本的なブロック図である。
以下に図5を参照して、本発明が好適に用いられる、パターン認識システムの概略図を示す。原則的には、この図5に示すパターン認識システムは、2つの操作形式(operating modi)の間で、より正確に言えば、トレーニング様式(training modus)50と分類様式(classification modus)52との間にて区別されている。
このトレーニング様式では、データが「訓練される(trained in )」、すなわち、データがこのシステムに加えられ、そして、データベース54に組み込まれる。
また、この分類様式では、上記データベース54にあるエントリと、特徴付けられた信号とを比較して分類するように試みがなされる。
また、このパターン認識システムは、信号の前処理を行うための手段56、特徴抽出のためのダウンストリーム手段(downstream means)58、特徴処理のための手段60、クラスター生成(cluster generation)のための手段62、および分類化を行うための手段64を備えている。なお、上記手段64は、先のトレーニング様式で訓練された信号xyと信号が一致するというような、例えば、分類様式52の結果として特徴付けられている信号のコンテンツに関するステートメント(statement)を形成するために分類するものである。
図5に示す個々のブロックの機能は、以下のように処理が行われる。
ブロック58とともに、ブロック56は、特徴抽出部を形成している。一方、ブロック60は、特徴処理部である。なお、ブロック56は、チャネル数、サンプリング数(the sampling rate)、解像度(サンプルあたりのビット)など入力信号を一定の目標形式(target format)に変換するものである。これは、入力信号を生じさせるソースに対して設定する条件が無いという点で、有益かつ必要となる。
特徴抽出のための手段58は、通常は大容量である情報を小容量の情報に制限するように機能する。調査された(examined)信号は、たいてい高いデータレート、すなわち、時間スロットにつき多数のサンプルを有している。小さい容量の情報への制限は、本来の信号の本質、すなわち、その特定の性質を失わないように行わなければならない。手段58においては、規定された特徴的特性(例えば、概して音の強さや基本周波数など、本発明では、調性の特性(tonality feature)および/またはSFM)がこの信号から抽出される。このように得られた調性の特性は、いわば調査された信号の本質を含むものとする。
ブロック60では、予め計算された特徴ベクトルが処理される。なお、簡単な処理としてはこのベクトルの正規化を含んでいる。また、可能な特徴処理にはカルーネン−レーベル変換(KLT(Karhunen-Lo`eve transformation))または、当業者に知られている線形判別分析(LDA(linear discriminant analysis))などの線形変換を含んでいる。また、特に非線形変換などの他の変換もまた特徴の処理のために用いられる。
クラス生成部は、処理された特徴ベクトルを結びつけてクラスとするように処理を行う。また、これらのクラスは、関連する信号の圧縮表現(compact representation)に対応する。また、分類化部64は、生成された特徴ベクトルを、予め規定したクラスおよび/または予め規定した信号に関連付けるように処理を行う。
また、図1は、オーディオ信号の認識パターンを生成するための装置の概略を示しており、例えば、図5のブロック58に備えられていてもよい。また、オーディオ信号の認識パターンを生成するために、予め決定された複数の認識パターンの形式(fingerprint modi)を規定している情報が使用され、互いに共通する認識パターンの形式に関連するこの様式情報(modus information)を手段10が格納する。手段10に格納されている様式情報によって規定された認識パターンの形式は、全て、同じ種類の認識パターンや認識パターンの形式に対応付けられる。しかしながら、認識パターンがデータ容量の点で、または、オーディオ信号自体の識別用の特徴を示す強さの点で異なる場合は異なるものとする。本発明では、認識パターンの形式は、第1の特徴を示す強さを有する認識パターンの形式である認識パターンと、第2の特徴を示す強さを有する認識パターンの形式である認識パターンとが音声信号を用いることなく、変換可能とするように予め決定されている。なお、特徴を示す強さがより大きい認識パターンから、特徴を示す大きさがより小さい認識パターンへと変換可能とすることが好適である。しかしながら、特定の種類のアプリケーションによっては、例えば、補間(interpolation)などによって上位への互換を確実に行うこともまたできる。
また、本発明に係る装置は、複数の予め決められた認識パターンの形式からなる、認識パターンの様式(fingerprint modus)を設定するための手段12をさらに備えている。そして、この手段12によって与えられた認識パターンの様式に応じて認識パターンを計算するための手段14においては、入力部16を介して入力され設定されたオーディオ信号の認識パターンが、最終的には計算され、出力部18で出力される。手段12によって設定された認識パターンの様式に応じて、認識パターンを計算するための手段14は、上記認識パターンの様式に依存している各計算仕様(computing specifications)を用いるようにするため、記憶手段10に接続されている。
設定された認識パターンの様式に応じて認識パターンを計算するための手段14は、以下でより詳細に論じる。また、オーディオ信号の調性は、頑健な特性であり、またその一方で、容易に拡張可能な特性として非常に適したものであることが知られている。
また、様々な方法が、ピースの調性の測定量を計算するために用いられる。特徴付けられた時間の信号(time signal)は、手段を用いてスペクトル領域(spectral domain)に変換され、時間に関連するサンプルのブロックからスペクトル係数(spectral coefficients)のブロックを生成する。以下において説明するように、特定の調性の値は、各スペクトル係数および/または各スペクトル成分に対して決定され、例えばイエス/ノー決定(yes/no determination)によって、スペクトル成分が調性を示すものであるか(tonal)否かを分類する。スペクトル成分ならびに、スペクトル成分のエネルギーおよび/またはパワー(power)に関する調性の値を用いるので、多様な異なる方法における信号に関する調性の測定量を計算することができる。
また、調性の測定量が得られるので、2つの調性で示されるピースの間での距離および/または類似性を示すことができる。すなわち、調性についての測定量のピースの差が所定の閾値よりも差異がより小さい場合、そのピースを類似しているものとして分類することができる。一方、それらの調性の指標が相違する閾値よりも差異がより大きい場合、他方のピースは相違するものとして分類される。2つの調性の測定量の間での差異に加えて、さらなる量が、2つのピースの間の調性の隔たりを決定するために用いられてもよい。すなわち、さらなる量とは、例えば、2つの値の間での相違の量、相違の平方、2つの調性の測定量の間での商マイナス1、2つの調性の測定量の間での相関関係、2つの調性の測定量(それらはn次元ベクトル)の間での隔たり距離(distance metric)などである。
特徴付けられた信号は必ずしも時間の信号である必要はないが、例えば、スペクトルの値を量子化したものから生成されたハフマン(Huffman)コードの文字シーケンスから構成されるMP3−符号化信号など、同様のものであってもよい。
また、量子化されたスペクトルの値は、量子化の手段によって原スペクトル値から生成される。なお、この量子化は、量子化によって挿入された量子化したノイズが、以下に示すサイコ−アコースティックマスキング(psycho-acoustic masking)の閾値となるように選択されている。このような場合、符号化されたMP3のデータストリームは、例えば、MP3復号化器によって、スペクトル値を計算するために直接用いられる。また、時間の変域(time domain)への変換を行う必要はなく、またさらにスペクトル領域への別の変換が調性を決定するように処理する必要はないが、MP3復号化器内で計算されたスペクトル値は、スペクトル成分またはSFM(スペクトル平坦方法(spectral flatness measure))によって調性を計算するために用いられる。
また、スペクトル平坦方法は、以下に示す方程式によって計算される。
Figure 0004184955
この方程式でのX(n)は、数nによってスペクトル成分の絶対値の2乗を示しており、一方、Nはスペクトルのスペクトル係数(spectral coefficients)の総数を示す。この式からSFMは、スペクトル成分の相乗平均(geometric mean)とスペクトル成分の相加平均(arithmetic mean)との商に等しいことが分かる。知られているように、この相乗平均の値は、この相加平均の値よりも常に小さいか、もしくはせいぜい大きくてもこの相加平均の値と等しいため、SFMは、0から1までの範囲の値をとる。すなわちこの場合、0に近い値は、調性の信号を示す。また、1に近い値は、平坦化スペクトル曲線(flat spectral curve)を有する幾分ノイズのような信号を示す。全てのX(n)が同じ値である場合のみ、相乗平均と相加平均とが等しくなり、完全に無調(atonal)、すなわち、ノイズのような信号またはパルスのような信号となるということを示す。しかしながら、一方のスペクトル成分が非常に大きな値であり、他方のスペクトル成分X(n)が非常に小さな値であるような極端な場合、SFMは0に近似する値となり、大きな調性の信号を示す。
上記SFMは、「波形のデジタルコード化(”Digital Coding of Waveforms”)」(イングルウッド クリフス(Englewood Cliffs)、NJ、プレンティス−ホール(Prentice - hall)、N.ジャイアント(N. Jayant)、P.ノル(P. Noll)、1984)に記載されており、符号化した値(gain)が過剰な減少から最大限得られる方法として当初定義されっていた。なお、この場合、調性の測定量が上記SFMによって予め決定されていてもよい。
さらにまた、スペクトル値の調性を決定する可能性としては、MPEG−1オーディオISO/IEC11172−3アネックス(Annex)D1「サイコ−アコースティックモデル1」にて記述されているように、オーディオ信号のパワー密度(power density)でのピークを決定することが挙げられる。ここでは、スペクトル成分のレベルが決定される。次いで、あるスペクトル成分の周囲にある2つのスペクトル成分のレベルが決定される。そして、スペクトル成分のレベルが所定の要素(factor)だけ周囲のスペクトル成分のレベルを超える場合、このスペクトル成分は調性であるとして分類される。技術的には、所定の閾値としては7dBが取られるが、本発明においてはいかなる所定の閾値が用いられてもよい。それゆえ、同じ調性か否かについて各スペクトル成分に関して示し得る。
スペクトル成分の調性を決定するためのさらなる可能性としては、スペクトル成分の時間に関連する予測可能性を評価することが挙げられる。ここで、またMPEG−1オーディオISO/IEC11172−3、アネックスD2「サイコ−アコースティックモデル2」を参照する。概して、特徴付けられている信号のサンプルの現在のブロック(current block)が、スペクトル成分の現在のブロックを得るためにスペクトル表現(spectral presentation)に変換される。次に、スペクトル成分の現在のブロックに属するスペクトル成分を、この現在のブロックより前に生じる、特徴付けられた信号のサンプルからの情報、すなわち、過去の情報を使用して予測する。それから、得られた調性の測定量から、予測のエラーが決定される。
また、調性を決定するさらなる可能性が米国特許番号5、918、203に記載されている。そして、特徴付けられたスペクトルの信号に関する正の実数値表現(positive real-valued presentation)が使用される。この表現には、スペクトル成分の値、またはスペクトル成分の絶対値の2乗などが含まれる。実施形態の一例では、スペクトル成分の値、またはスペクトル成分の絶対値の2乗の値は、初めに対数的に圧縮され、次いで特徴を微分するフィルタを使ってフィルタ処理されて、微分法でフィルタ処理されたスペクトル成分のブロックが得られる。
また、別の実施形態では、スペクトル成分の値は、分子を得るために特徴を微分するフィルタを使用してフィルタ処理が行われ、それから分母(denominator)を得るために特徴を積分するフィルタを使用してフィルタ処理が行われる。そして、微分法によってフィルタ処理されたスペクトル成分の値と、積分法によってフィルタ処理された同じスペクトル成分の値との商は、これらスペクトル成分に関する調性の値となる。
これら2つの方法によって、スペクトルにおける隣接するスペクトル成分の値の間での緩やかな変化が抑制される一方、隣接するスペクトル成分の値での急激な変化が強調される。なお、隣接するスペクトル成分の値の間での緩やかな変化は無調の信号成分を示し、また、急激な変化は調性の信号成分を示す。そして、対数的に圧縮され、かつ、差分的(differentiatingly)にフィルタ処理されたスペクトル成分および/またはその商は、観察されたスペクトルに関する調性の測定量を計算するために再度用いられる。
また、上記において、1つの調性の値がスペクトル成分ごとに計算されることについて述べたが、計算量の低減の観点から、どちらの実施形態の場合においても2つの隣接するスペクトル成分の絶対値の2乗した値を加え、それから上述した方法のうちの1つによってこの加算した各結果に対する調整の値を計算することが好ましい。そして、スペクトル成分の絶対値および/またはスペクトル成分の値の2乗からなる、付加的なグループの各種類が、1以上のスペクトル成分の調性の値を計算するために用いられてもよい。
スペクトル成分の調性を決定するさらなる可能性としては、周波数帯域のスペクトル成分のレベルの平均値とスペクトル成分のレベルとを比較することである。このレベルが、例えば、スペクトル成分の絶対値の値または二乗(squares)の平均値と比較される、1つのスペクトル成分を含む周波数帯域の幅が、必要に応じて選択され得る。例えば、ある可能性では、帯域を狭くするように選択することである。あるいは、帯域が広くなるように選択され得るか、もしくは心理音響的標準(psycho-acoustic criteria)を目的として選択され得る。つまり、このことは、スペクトルの短期間でのパワーのセットバック(power setback)の影響がどの程度低減されかである。
上記したオーディオ信号の調性は、スペクトル成分の平均によって決定されたにもかかわらず、これはまた、オーディオ信号のサンプルを使用する場合、時間領域(time domain)において生じる。このために、信号のLPC分析が、この信号に対する予測値(prediction gain)を推測するために実施され得る。この予測値は、SFMに反比例するものであて、よって、同様にオーディオ信号の調性の測定値である。
本発明の好ましい実施形態では、調性の測定量は、示された短期間のスペクトルごとの1つの値だけでなく、調性の値(tonality value)の多次元ベクトルで示されるものである。例えば、短期間でのスペクトルでは、4つの相互に隣接した、好ましくは、重なり合わない領域および/または周波数帯域に細分化されるように、1つの調性の値が、それぞれの周波数帯域に対して決定される。これは、信号の短期間のスペクトルが特徴づけられるようにするために、4次元調性ベクトルを得ることを意味する。また、より優れた特徴によって、例えば、上記のような4つの連続した短期間のスペクトルを処理することがさらに好ましい。そして、それによって全体の調性の測定量が、16次元のベクトルまたは、一般的にn x m次元ベクトルで与えられる(nはサンプルのフレーム(flame)またはブロックあたりの調性成分の数を表し、またmは、予期される(contemplated)ブロックおよび/または短期間のスペクトルの数を表す)。次いで、調性の測定量は、述べてきたように、16次元ベクトルで示される。また、信号の波形を特徴付けられるようにより良く調節する(accommodate)ために、例えば、16次元ベクトルのようないくつかのベクトルを計算し、次いで、例えば、所定の長さを有する1ピースのn x m次元の調性ベクトルのすべてから高次(higher order)の分散、平均値、または中心積率を計算する。そして、その計算によってこの1ピースを示す(index)ために、それらを統計的に処理することがさらに好ましい。一般的に言うと、このように、調性はスペクトル全体の部分から計算される。従って、1つのサブスペクトルまたは、いくつかのサブスペクトルの調性/ノイズの類似点を決定し、スペクトルおよびオーディオ信号のより詳細な特徴を得ることができる。
さらに、調性の値の短期間での統計値(例えば、高次の平均値、分散および中心積率など)が、調性の測定量として計算される。これらは、調性の値および/または調性ベクトルを時系列的に扱い、統計的技術を用いて決定される。従って、ピース(piece)のより長い部分にわたって不可欠な要素(essence)が提供され得る。
経時的な調性のベクトル間、または線形的にフィルタリングした調性の値の間での相違を使用することができる。なお、例えば、線形フィルタとしては、IIRフィルタまたは、FIRフィルタを使用することが可能である。
SFMを計算する際に、計算時間を節減することを理由として、例えば、周波数に関して相互に隣接した絶対値の2乗を加えたり、平均したりすることが好ましく、このおおざっぱな(coarsened)正数(positive)である実数(real-value)のスペクトルの表現を基に、SFM計算を実施することが好ましい。さらに、これは、狭い帯域の周波数低下に対する増大した頑健性(robustness)と計算量の低減となる。
さらに、図1に関して、規定の認識パターン様式(fingerprint modus)の認識パターン形式を設定するための手段(means)12は、以下に詳細に扱われる。手段12は、複数の所定の認識パターン形式から選択し、特定のアプリケーション(application)に最適であるその認識パターン様式を設定する仕事が割り当てられている。なお、指定のチェック−マッチング(check-matching)操作を用いて、経験的に、あるいは自動的に選択が実行される。このようなチェック−マッチング操作において、例えば、特徴を示す強度を表す、異なる認識パターンを生成するために、異なる認識パターン形式に基づいて、いくつかの公知のオーディオ信号が処理される。その後、これらの異なる認識パターンを用いたデータベースでサンプル−マッチング操作が実施されるが、これらのすべては、同じタイプの認識パターン(すなわち、例えば、オーディオ信号の調性および/または調性測定値)を表す。個々の認識パターンに対する間違った出力の指定の閾値を用いて、例えば、閾値基準を満たす規定の認識パターン形式の1つが次いで選択される。
あるいは、手段12は、認識パターンを提供する認識パターンを選択可能とするが、この認識パターンは、例えばそのデータ容量のために、帯域制限された伝送(band-limited transmission)チャンネルを介して、かろうじて伝達される。手段12は、閾値とは無関係にその認識パターンを選択するが、例えば、伝送チャンネルに依存して認識パターンを選択する。チャンネルの使用および/または利用できるチャンネルの容量に依存し、高い特徴を示す強度を有する認識パターン形式か、あるいは、チャンネルが使用されているか、または大幅に帯域制限されている場合、比較的低い特徴を示す強度を有する認識パターン形式が設定される。
また、認識パターンを伝達しないで、それを記憶する場合に、同じことが適用される。つまり、利用できる記憶資源(memory resource)に依存し、記憶集約的(memory-intensive)であるが、高い特徴を示す強度を有する認識パターン形式、または記憶貯蔵的(memory-saving)であるが、比較的低い特徴を示す強度を有する認識パターン様式が、手段12によって設定される。
図2は、オーディオ信号を特徴付けるための、本発明に係る装置のブロック図(block diagram)を示す。このような装置としては、規定の認識パターン形式の1つで検索用認識パターン(search fingerprint)を生成するための手段が挙げられる。これらの手段は、図2の参照数字20によって表され、好ましくは、図1に関連して記載されるように与えられる。オーディオ信号を特徴付けるための装置としてさらにデータベース22が挙げられ、ここで規定の認識パターン形式の1つでまた計算されているデータベース用認識パターンが保存される。
図2に示される装置としては、データベース用認識パターンを用いて、手段20によって生成されている検索用認識パターンを比較する手段24が挙げられる。初めに、前者と比較されるべき検索用認識パターンおよびデータベース用認識パターンが、同じ特徴を示す強度を有するかどうか、すなわち同じ認識パターン形式を有するかどうか、あるいは、データベース用認識パターン形式とは異なる認識パターン形式に基づいて、検索用認識パターンが生成されるかどうか、について手段24で設定される。1つの認識パターンが、他より高い特徴を示す強度を有することが設定された場合、転換後、検索用認識パターンおよびデータベース用認識パターンは、同じ特徴を示す強度を有するように(すなわち、同じ認識パターンに基づいて類似するか、あるいは存在するように)、手段24bで変換が行われる。つまり、手段24cが両方の認識パターンの比較を行うまで、この状態は満たされなかった。次いで、このような比較は、出力26として、検索用認識パターンによって表現されるオーディオ信号が、現在のデータベース用認識パターンによって表現されるオーディオ信号に対応することとなる。あるいは、出力26はまた、任意の確率(probability)を有する類似性を明確にする際(すなわち、類似性の測定)に活用され得る。
好ましくは、手段24aは、どの認識パターンがより高い特徴を示す強度を有するのかを見出すために配列されている。次いで、この認識パターンは、2つの認識パターンのうち、より低い特徴を示す強度を有する認識パターンの特徴を示す強度(すなわち、認識パターン形式)に圧縮される。あるいは、例えば、迅速な検索が所望される場合は、両方の認識パターンは、検索用認識パターンおよびデータベース用認識パターンよりも低い特徴を示す強度を有する認識パターンを提供する認識パターン形式に圧縮される。アプリケーションによっては、補間を用いて、低い特徴を示す強度を有する認識パターンに拡大することがまた必要とされるが、しかしこれは代替的に(alternative)、認識パターンのタイプが補間を可能にする場合のみ、有用な結果を提供する。
すでに説明したように、認識パターン形式を特定するのに矛盾した要求が存在する。一方、できるだけ包括的であるデータの圧縮を達成することに関して大きな利点がある。すなわち、コンピュータのメモリ(memory)に、できるだけ多くの検索用認識パターンを記憶することを可能にするためには、小さな認識パターンサイズとし、さらなる処理をより効果的にすることである。
一方、認識パターンサイズが小さくなるにつれ、データベースに登録されたピースの間の区別がなくなってしまうという危険性が増大する。このことは、特に大きなオーディオのピースに関するデータベース(例えば、500,000個の題(title)を含み得る)および、同定プロセス前にこのオーディオのピースが強い歪み(distortion)に曝されるアプリケーション(例えば、信号の音響学的伝達または損失の多い圧縮を用いる)に関係している。
もちろん、このような理由によって、頑健でないよりコンパクトな(compact)認識パターンのフォーマット、およびコンパクトではないが、それ相応の(correspondingly)より識別力のある特性を提供するフォーマットを定義することは可能である。しかし、述べてきたように、特に、前者のタイプの認識パターンの記述(description)は一般的に、異なるタイプの認識パターンと比較することができないため、高価な認識パターンデータベースを数回(すなわち、フォーマットごとに1回)設定し、記録し続ける必要がある。
これらの問題を除去するために、本発明では、世界共通の拡張可能な記述フォーマットを提供する。そして、このフォーマットとしては、アプリケーションに応じて、可塑性のある様式で、認識パターンの比較が損なわれず、認識パターンの特徴を示す強度とコンパクトさとの間において変化する折衷案(compromise)を与える。これは、好ましくは、2次元によって表現されており、1次元では、帯域の数の比較可能性を示し、もう1つの次元では、時間の比較可能性を示す。また、一般的には、帯域の数の比較可能性では、オーディオ信号のスペクトルの分解(dissection)に基づいている。つまり、オーディオ信号の周波数帯域または、その一部(例えば、250Hz〜4kHz)は、予期される特徴(例えば、調性の測定)に基づいて計算される。また、周波数分離に起因して、それぞれの帯域における信号の特徴についての情報の独立したピースが存在する。つまり、すべての認識パターンは、同じ帯域分割(band partitioning)を使用し、好ましくは同時により低いカットオフ(cut off)周波数から開始する。しかし、より低い特徴を示す強度を有し、コンパクトな(compact)認識パターンを提供する、認識パターン形式は、より少ない帯域を保持しており、従って、より大きな(generous)認識パターン形式(しかし、あまりコンパクトでない形態)より小さい範囲の周波数を含んでいる。それにもかかわらず、両方のタイプの記述は、オーディオ信号の更新された処理をせずに、それらの共通した周波数帯域において有効な方法によって比較される。
好ましい実施形態では、少なくとも部分的に対数的(logarithmic)である帯域の分割が使用されている。そして、その帯域の分割は、あまり低くない周波数(例えば、500Hzより高い周波数)である、ヒトの聴覚によって使用される周波数の大きさ(frequency scale)および/または周波数の弁別(discrimination)に大きく依存する。例えば、500Hz未満の上記の対数的な分割を使用せず、かつ500Hz未満の帯域を分割(例えば、帯域をそれぞれ100Hzの5つの帯域に分割するように、同じ幅を有すること)しないことが好ましい。
また、帯域の数の拡張性(scalability)の例が、図3aおよび図3bに関連して、以下で示される。なお、表記上の理由により、図3に示されるように、オーディオ信号は、4つのサブバンド(sub-band)(30a〜30d)に分割されている。図3bでは、異なる認識パターン形式によって生成される、異なる認識パターンの表現を示す。図3bのそれぞれの認識パターンの表現は、認識パターンの情報が含まれているサブバンドの数を示す識別部分(identifier portion)31、すなわち、該当の認識パターンに関連する認識パターン形式が生成された識別部分(identifier portion)31を含んでいる。認識パターン形式の第4番は、認識パターン表現が、サブバンド1と他の3つのサブバンド2〜4の両方についての認識パターンの情報(FPI)を含むため、最も記憶集約的な(memory-intense)認識パターン表現を提供するが、この表現は、最も高い特徴を示す強度を有するものでもある。一方、認識パターン様式の第3番は、認識パターンの情報の分離ピースが、初めの3つのサブバンドについてのみ含まれるため、わずかによりコンパクトである認識パターン表現を提供するが、この表現は、すでに低い特徴を示す強度を有する。認識パターン形式の第2番は、認識パターンの情報が2つの最も低いサブバンドについてのみ含まれるため、比較的コンパクトな記述を提供するが、この表現はさらに低い特徴を示す強度を有する。認識パターン形式の第1番は、最も低いサブバンド30aの認識パターンの情報のみが含まれるため、非常にコンパクトな認識パターン表現を提供するが、この表現は最も低い特徴を示す強度を有する。
図2のブロック24bの機能(すなわち、1つの認識パターン形式から別の認識パターン形式への認識パターンの変換)は、以下の図3bに関して取り扱われる。また、よく似た(nearly)例として、データベース用認識パターンでは、認識パターン形式の第4番に基づいて作成されていると考えられる。従って、データベースは、非常に高い特徴を示す強度を有する認識パターンを含む。検索用認識パターンは、例えば、認識パターン形式の第2番に基づいて作成されている。例えば、図3bの認識パターン認識部(identifier)31によって、検索用認識パターンとデータベース用認識パターンが、異なる認識パターン形式に基づいて作成されていることを、一度、図2の手段24aによって設定されれば、より高い特徴を示す強度を有する認識パターン(すなわち、データベース用認識パターン)に変換される。図3bに示される実施形態において、変換とは、データベース用認識パターンの第三サブバンドの認識パターンの情報および、第四サブバンドの認識パターンの情報がもはや考慮されないことであり、このことは、つまり、それらの認識パターンの情報が、もはやマッチング操作において重要な役割を果たさないということである。従って、第一サブバンドの認識パターンの情報と第二サブバンドの認識パターンのみが、相互に比較される。あるいは、認識パターン形式の第4番に基づいて作成されているデータベース用認識パターンおよび、認識パターン形式の第2番に基づいて作成されている検索用認識パターンは共に、認識パターン形式の第1番に変換されるため、特に迅速なマッチング操作が所望である場合に有利である。
なお、検索用認識パターンより高い特徴を示す強度を有することが、データベース用認識パターンにとって重要ではないということを指摘しておく。例えば、検索用認識パターンは高い特徴を示す強度を有するが、低い特徴を示す強度を有する古いデータベースしか存在しない場合では、低い特徴を示す強度を有し、かつよりコンパクトな形態に、検索用認識パターンが変換され、そして、マッチング操作が続いて行われるように、工程が逆転され得る。
図3aにおいて、サブバンド1〜4(30a〜30b)が重なり合わない様に示されているが、サブバンドの少しの重なりでさえ、高さ(pitch)の変化の頑健性(robustness)が増すことが指摘されている。つまり、信号のピッチ(signal pitch)の変化(例えば、サンプル率の変換(sample rate conversion)または、少し早くまたは、少し遅く再生(play back)された、信号のピッチの変化)に対応する信号変化に関する表現の頑健性を増すように、任意の帯域が重なることが好ましい。また、ピッチに変化が生じた場合、不変の信号に関する任意周波数帯域に存在する信号部分は、任意の状況下で、周波数の変化(例えば、スペクトルの伸張(extension)または圧縮(compression))に起因して、帯域n−1または帯域n+1に存在するようになる。そのために、明らかに異なる特徴の価値が生じるので、それに応じて認識率が低下する。本発明の好ましい実施形態では、隣接する帯域間に任意の周波数の範囲が存在するという事実によって、例えば、両方の周波数帯域に存在する多数のDFTラインを使用することによって、この効果は緩和される。指標として、例えば10%の周波数の範囲の重なりが好ましく、スペクトルのより大きな伸張および圧縮が予測される場合、上記の重なりがより大きくなるように選択することが可能である。
また、拡張性のさらなる次元が時間に基づいて提供される。つまり、個々の特徴の価値を表す数nを組み合わせるために、平均値および分散を使用することによって、認識パターンの時間に相関する(time-related)粒度(granularity)が設定される。つまり、コンパクト記述ではnについて高い値を選択する、すなわち、(コンパクトな記述ではないものを除く)より多くのものよりも、より高いスケール(higher-scale)である時間に相関した組み合わせを選択する。これを図示し、図4aおよび4bで以下により詳細に説明する。図4aは、時間tにわたるオーディオ信号u(t)のブロック工程、つまり、時系列に明確に示された4つのブロック40a〜40dである。ブロック40a〜40dの全ては、同じ長さ、つまり、同じ数のサンプルを有する。また、認識パターン様式の第3番は、ブロック1〜ブロック4について、特定の認識パターンの情報が計算され記録されているため、非常に高い特徴を示す強度を有した表現を与える。これとは対照的に、認識パターン様式の第2番は、認識パターンの情報が常に2つの連続するブロック、つまり、一方がブロック1およびブロック2と、他方がブロック3およびブロック4とから形成されるため、記憶の点でよりコンパクトであるというよりは、低い特徴の強度を有する認識パターン表現(fingerprint representation)を提供する。また、記憶に関しても好適であり、最も低い特徴を示す強度を有する認識パターン表現は、認識パターン様式の第1番によって最後に示されており、これは、ブロック1〜4のすべての認識パターンの情報を含んでいる。
認識パターン様式の第3番に基づいて作成されている、認識パターンの情報がデータベースに記録される場合であり、かつ、検索用認識パターンが、認識パターン様式の第2番に基づいて作成されている場合、最初の2つのブロックが組み合わされ、次いで検索用認識パターンの最初の認識パターンの情報と比較されるように、データベース用認識パターンが変換される。この手順は次のブロック3およびブロック4に対して繰り返される。この時点で、再び、データベース用認識パターンおよび検索用認識パターンの両方を、認識パターン様式の第1番に基づく認識パターン表現に変換してもよい。
実際のアプリケーションにおいて、認識パターン表現がそれぞれのブロックの認識パターンの情報の平均値または分散を含むように、nブロックから認識パターンの情報が組み合わされていることが好ましい。なお、平均値および分散は以下のように定義される:
Figure 0004184955
上記の方程式の両方において、nは、認識パターンの情報Fの項の任意の数を組み合わせて、それらから平均値Mnを算出する、ブロックまたは帯域などの数を示す数(index)である。また、分散の上記の定義において、有用でないブロックおよび/または帯域の分散は0に等しいことが指摘される。
図4bに関して、認識パターン様式の第3番によって作成されている認識パターン表現であるブロック1の認識パターンの情報は、オーディオの特性の平均値および/または分散を含んでいる。また、同じことが、認識パターン様式の第3番によって作成されている認識パターン表現のブロック2に関する認識パターンの情報にも当てはまる。また、認識パターン様式の第3番に基づく、認識パターン表現のブロック1とブロック2とに関する認識パターンの情報のピースを共に、認識パターン形式の第2番に基づいて生成される認識パターン表現の認識パターンの情報に変換する。つまり、この変換のために、線42によって示されるように、認識パターン様式の第3番に基づく認識パターン表現の認識パターンの情報が、以下のように変換されなければならない。
平均値: M2n(F)=0.5・[M(F)+M’(F)]
分散: V2n(F)=0.5・[V(F)+V’(F)+0.5・(M(F)+M’(F))]
認識パターンに対する、時間に相関した認識パターン表現の細分性を示す単位である粒度(granularity)が、他の認識パターン表現での粒度の整数倍である場合、平均値および分散は相互に比較される。上記の方程式では、例示的な数(factor)として2を当てはめている。また、この方程式において、可変のNnおよびVnは、認識パターン様式の第2番に基づく、ブロック1の認識パターンの情報についての平均値および/または分散の対応する値を表す。しかし、一方で、Mn’およびVn’は、図4bの認識パターン様式の第3番に基づく、認識パターン表現のブロック2についての平均値および/または分散の値を表す。分散が認識パターンの情報として使用される場合、平均値は、拡張性を保証するために、例えば、さらなる他の認識パターンの情報として必要となる。
ここで、認識パターン様式の第2番に基づく認識パターン表現の認識パターンの情報が、認識パターン様式の第1番に基づく認識パターンの情報と比較可能となるように、類似性によって組み合わせ可能であるということが指摘できる。
従って、可変の時間に相関する粒度の(すなわち、異なる認識パターン形式に基づく)認識パターン表現は、例えば、より詳細な(refined)表現からより雑な(coarse)表現に変換することによって比較されてもよい。
文書(document)ISO/IEC JTC 1/SC29/WG11(MPEG)(情報技術−マルチメディアコンテンツの記述インターフェイス−パート4(Information technology−multimedia content description interface−Part 4):(オーディオ)Audio、27.10.2000)の段落4.2に記載されるように、本発明に係る認識パターン表現は、例えば、いわゆる拡張可能なシリーズ(series)として定義されている。
識別パターンを生成するためのブロック図である。 オーディオ信号を特徴付けるための発明の装置のブロック図である。 オーディオ信号を様々なサブ帯域に細分化する表現を示す図である。 図3aに示すサブ帯域細分化とは異なる識別パターンで生成される識別パターン表現の概念を示す図である。 時系列にオーディオ信号のブロックの細分化の表現を示す図である。 図4aに示すブロックの細分化とは異なった識別パターン形式に従って生成される様々な識別パターン表現の概念を示す図である。 パターン認識システムの基本的なブロック図である。

Claims (16)

  1. 複数の所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する方法であって、
    前記識別パターン形式全て、同一タイプの識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
    ーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように、前記識別パターン形式が予め定められている方法において、
    前記複数の所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ(14)と
    さらに、制限された伝送容量を有する伝送チャンネルを通して生成された識別パターンを伝送するステップ、あるいは、限られた記憶容量を有する記憶媒体に生成された識別パターンを格納するステップとをそれぞれ含んでおり、
    識別パターン様式を設定するステップ(12)において、所定の認識パターン様式を、伝送チャンネルあるいは記憶容量それぞれに応じて設定する方法。
  2. 高い特徴付け強度を有する識別パターン様式に基づく識別パターンを、低い特徴付け強度を有する識別パターン様式に基づく識別パターンに変換可能とする請求項1に記載の方法。
  3. 識別パターンの種類が、オーディオ信号の音質特性に関連している請求項1または2に記載の方法。
  4. オーディオ信号が、所定の数の、所定の周波数帯域(30a〜30d)に細分化されており、
    各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものであって、前記識別パターン形式が識別パターン情報のピース数により異なる請求項1ないし3の何れか1項に記載の方法。
  5. オーディオ信号の所定の周波数帯域への細分化において、少なくとも一部分は、対数的な帯域分割を含む請求項4に記載の方法。
  6. 周波数に関して互いに隣接した2つの周波数帯域は、重複した領域を有し、この重複した領域におけるスペクトル成分が、両方の隣接した周波数帯域に属する請求項4または5に記載の方法。
  7. オーディオ信号を特徴付ける方法であって、
    複数の、所定の識別パターン形式を規定した情報(10)を使用して、オーディオ信号の識別パターンを生成するステップを含んでおり、前記識別パターン形式の全ては、同一タイプの識別パターンに関するものであるが、一方ではデータ量が、また他方ではオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、前記識別パターン形式が、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている方法において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ(14)と、
    計算した識別パターンを、オーディオ信号を特徴付ける既知のオーディオ信号を表す複数の保存された識別パターンで比較するステップ(24)とを含み、前記保存された識別パターンは、複数の識別パターン形式のうちの一つにより生成されており、
    前記比較するステップ(24)は、
    検索識別パターンとデータベース識別パターンとが、異なった識別パターン形式で生成されるかどうかを検査するステップ(24a)と、
    識別パターンを同じ識別パターン様式で比較するために、検索識別パターンおよび/または、データベース識別パターンを変換するステップ(24b)と、
    同じ識別パターン様式にある識別パターンを用いて比較を行うステップ(24c)とを含んでいる方法。
  8. 各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものを含み、前記識別パターン形式が、識別パターン情報のピース数によって異なっており、
    変換するステップ(24b)では、サブ帯域のための識別パターン情報を抑制するステップを含む請求項7に記載の方法。
  9. オーディオ信号は、時系列にブロック(40a〜40d)に細分化され、所定の長さを有しており、
    識別パターンの生成において、識別パターン情報を、ブロック毎に決定し、識別パターン形式は、識別パターン情報により表現されたブロック数が異なり、ブロックの長さは、全ての識別パターン形式で同じであり、
    前記変換するステップ(24b)は、時間的に連続したブロックの識別パターン情報と組み合わせるステップを含む請求項7に記載の方法。
  10. 前記識別パターン情報は、平均値および/または分散値を含み、
    検索識別パターンにおいて結合したブロックと、データベース識別パターンにおいて結合したブロックとの間に整数比の関係が存在する請求項9に記載の方法。
  11. 複数の、所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する装置であって、
    前記識別パターン形式の全ては、同一タイプの識別パターンに関連しているが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、前記識別パターン形式が、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている装置において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定する手段(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段(14)と、
    さらに、制限された伝送容量を有する伝送チャンネルを通して、生成された識別パターンを伝送する手段、あるいは、限られた記憶容量を有する記憶媒体に生成された識別パターンを格納する手段とをそれぞれ含んでおり、
    識別パターン様式を設定する手段(12)において、所定の認識パターン様式を、伝送チャンネルあるいは記憶容量それぞれに応じて設定する装置。
  12. オーディオ信号を特徴付ける装置であって、
    複数の、所定の識別パターン形式を規定した情報(10)を使用するオーディオ信号の検索識別パターンを生成する手段を備え、前記識別パターン形式の全ては、同一タイプの識別パターンに関連するが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように、前記識別パターン形式が予め定められている装置において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定する手段(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段(14)とを備えており、
    前記計算された識別パターンと、オーディオ信号を特徴付けるために既に知られたオーディオ信号を表現する、複数の格納された識別パターンとを比較する手段であって、前記格納された識別パターンは、複数の識別パターン形式のうちの1つに基づいて生成されており、この手段が、
    検索識別パターンとデータベース識別パターンとが、異なった識別パターン形式で生成されたかどうかを調査する手段(24a)と、
    比較された識別パターンが同じ識別パターン様式に応じて存在するように、検索識別パターンおよび/または、データベース識別パターンを変換する手段(24b)と、
    同じ識別パターン様式にある識別パターンを用いて比較を行う手段(24c)とを備えた装置。
  13. 複数の、所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する方法であって、
    前記識別パターン形式の全ては、同一タイプの識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
    オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように、前記識別パターン形式が予め定められている方法において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ(14)とを含み、
    前記オーディオ信号が、所定の数の、所定の周波数帯域(30a〜30d)に細分化されており、
    各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものであって、前記識別パターン形式が、識別パターン情報のピース数により異なっており、
    全ての識別パターン形式において、最も低い周波数を有する前記周波数帯域にピースが含まれる方法。
  14. 複数の、所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する方法であって、
    前記識別パターン形式の全ては、同一タイプの識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
    前記識別パターン形式が、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている方法において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ(14)とを含み、
    前記オーディオ信号は、時系列にブロック(40a〜40d)に細分化され、所定の長さを有しており、
    識別パターンの生成において、ブロック毎の識別パターン情報を決定し、識別パターン形式は、識別パターン情報により表現されたブロックの数が異なり、ブロックの長さは、全ての識別パターン形式と同じであり、
    第1の識別パターン様式は、識別パターン情報として含まれるブロックの第1所定数の平均値および/または分散値を有し、第2の識別パターン様式は、ブロックの第2所定数の平均値および/または分散値を有しており、第2所定数に対する第1所定数の比が、整 数となる方法。
  15. 複数の、所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する装置であって、
    前記識別パターン形式の全ては、同一タイプの識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
    前記識別パターン形式が、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている装置において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定する手段(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段(14)とを備え、
    前記オーディオ信号が、所定の数の、所定の周波数帯域(30a〜30d)に細分化されており、
    各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものであって、前記識別パターン形式が、識別パターン情報のピース数により異なっており、そのため、第1識別パターン様式は、各周波数帯域に分離した識別パターンとして、周波数帯域の第1数に識別パターン情報の第1ピースを含んでおり、第2識別パターン様式は、各周波数帯域に分離した識別パターンとして、周波数帯域の第2数に識別パターン情報の第2ピースを含んでおり、
    前記第1数と前記第2数とは異なり、前記所定の周波数帯域は、全ての識別パターン形式に対して同じであり、
    最も低い周波数を有する周波数帯域が、全ての識別パターン形式に含まれるとともに、この識別パターン形式が、異なる周波数帯域数において互いに異なっている装置。
  16. 複数の、所定の識別パターン形式を規定した情報(10)を使用し、オーディオ信号の識別パターンを生成する装置であって、
    前記識別パターン形式の全ては、同一タイプの識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
    前記識別パターン形式が、オーディオ信号を使用せずに、第1の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第2の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている装置において、
    前記複数の、所定の識別パターン形式からなる所定の識別パターン様式を設定する手段(12)と、
    前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段(14)とを備え、
    前記オーディオ信号は、時系列にブロック(40a〜40d)に細分化され、所定の長さを有しており、
    識別パターンの生成において、ブロック毎の識別パターン情報を決定し、識別パターン形式は、識別パターン情報により表現されたブロックの数が異なり、ブロックの長さは、全ての識別パターン形式と同じであり、
    第1の識別パターン様式は、識別パターン情報として含まれるブロックの第1所定数の平均値および/または分散値を有し、第2の識別パターン様式は、ブロックの第2所定数の平均値および/または分散値を有しており、第2所定数に対する第1所定数の比が、整数となる装置。
JP2003512876A 2001-07-10 2002-06-20 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置 Expired - Fee Related JP4184955B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10133333A DE10133333C1 (de) 2001-07-10 2001-07-10 Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
PCT/EP2002/006849 WO2003007185A1 (de) 2001-07-10 2002-06-20 Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals

Publications (2)

Publication Number Publication Date
JP2004534285A JP2004534285A (ja) 2004-11-11
JP4184955B2 true JP4184955B2 (ja) 2008-11-19

Family

ID=7691181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003512876A Expired - Fee Related JP4184955B2 (ja) 2001-07-10 2002-06-20 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置

Country Status (10)

Country Link
US (1) US7460994B2 (ja)
EP (1) EP1405222B9 (ja)
JP (1) JP4184955B2 (ja)
KR (1) KR100659672B1 (ja)
AT (1) ATE545930T1 (ja)
DE (1) DE10133333C1 (ja)
ES (1) ES2382974T3 (ja)
HK (1) HK1060632A1 (ja)
PT (1) PT1405222E (ja)
WO (1) WO2003007185A1 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362775B1 (en) * 1996-07-02 2008-04-22 Wistaria Trading, Inc. Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management
US5613004A (en) 1995-06-07 1997-03-18 The Dice Company Steganographic method and device
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US7095874B2 (en) 1996-07-02 2006-08-22 Wistaria Trading, Inc. Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US5889868A (en) 1996-07-02 1999-03-30 The Dice Company Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7457962B2 (en) 1996-07-02 2008-11-25 Wistaria Trading, Inc Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7730317B2 (en) 1996-12-20 2010-06-01 Wistaria Trading, Inc. Linear predictive coding implementation of digital watermarks
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
WO2002017135A1 (en) 2000-08-23 2002-02-28 Koninklijke Philips Electronics N.V. Method of enhancing rendering of a content item, client system and server system
US7127615B2 (en) 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
CN1235408C (zh) 2001-02-12 2006-01-04 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
US7020304B2 (en) 2002-01-22 2006-03-28 Digimarc Corporation Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding
JP2005517211A (ja) 2002-02-05 2005-06-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋の効率的格納
ATE312381T1 (de) * 2002-02-06 2005-12-15 Koninkl Philips Electronics Nv Schnelles hash-basiertes metadatenretrieval für multimediaobjekte
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
US7824029B2 (en) 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
US8176508B2 (en) * 2002-08-02 2012-05-08 Time Warner Cable Method and apparatus to provide verification of data using a fingerprint
US7222071B2 (en) * 2002-09-27 2007-05-22 Arbitron Inc. Audio data receipt/exposure measurement with code monitoring and signature extraction
US20060041753A1 (en) * 2002-09-30 2006-02-23 Koninklijke Philips Electronics N.V. Fingerprint extraction
AU2003264774A1 (en) * 2002-11-01 2004-05-25 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
US20060075237A1 (en) * 2002-11-12 2006-04-06 Koninklijke Philips Electronics N.V. Fingerprinting multimedia contents
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
DE10304098B4 (de) * 2003-01-31 2006-08-31 Miclip S.A. Verfahren und Vorrichtung zur Steuerung eines Tonfolge gekoppelten Bildfolgeablaufs sowie zugehöriges Programm
US7606790B2 (en) * 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004028693B4 (de) * 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7562228B2 (en) * 2005-03-15 2009-07-14 Microsoft Corporation Forensic for fingerprint detection in multimedia
US20070106405A1 (en) * 2005-08-19 2007-05-10 Gracenote, Inc. Method and system to provide reference data for identification of digital content
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7840540B2 (en) 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US7774385B1 (en) * 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US9020964B1 (en) 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
KR100862616B1 (ko) * 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
US20080274687A1 (en) * 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
US8687839B2 (en) 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8892570B2 (en) 2009-12-22 2014-11-18 Dolby Laboratories Licensing Corporation Method to dynamically design and configure multimedia fingerprint databases
JP4754651B2 (ja) * 2009-12-22 2011-08-24 アレクセイ・ビノグラドフ 信号検出方法、信号検出装置、及び、信号検出プログラム
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
ES2459391T3 (es) * 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
US9244967B2 (en) 2011-08-01 2016-01-26 Actifio, Inc. Incremental copy performance between data stores
US9866915B2 (en) * 2011-11-28 2018-01-09 Excalibur Ip, Llc Context relevant interactive television
CN103729368B (zh) * 2012-10-13 2016-12-21 复旦大学 一种基于局部频谱图像描述子的鲁棒音频识别方法
US9300991B2 (en) 2013-11-13 2016-03-29 International Business Machines Corporation Use of simultaneously received videos by a system to generate a quality of experience value
US9323770B1 (en) * 2013-12-06 2016-04-26 Google Inc. Fingerprint merging after claim generation
US9792187B2 (en) 2014-05-06 2017-10-17 Actifio, Inc. Facilitating test failover using a thin provisioned virtual machine created from a snapshot
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US10462512B2 (en) * 2017-03-31 2019-10-29 Gracenote, Inc. Music service with motion video

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
DE19948974A1 (de) * 1999-10-11 2001-04-12 Nokia Mobile Phones Ltd Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
AU2002232817A1 (en) * 2000-12-21 2002-07-01 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
JP4678464B2 (ja) 2001-06-22 2011-04-27 ソニー株式会社 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7287275B2 (en) * 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth

Also Published As

Publication number Publication date
EP1405222B9 (de) 2012-09-26
EP1405222A1 (de) 2004-04-07
WO2003007185A1 (de) 2003-01-23
ATE545930T1 (de) 2012-03-15
KR20040040409A (ko) 2004-05-12
KR100659672B1 (ko) 2006-12-21
US7460994B2 (en) 2008-12-02
EP1405222B1 (de) 2012-02-15
US20040172411A1 (en) 2004-09-02
PT1405222E (pt) 2012-05-25
JP2004534285A (ja) 2004-11-11
DE10133333C1 (de) 2002-12-05
ES2382974T3 (es) 2012-06-15
HK1060632A1 (en) 2004-08-13

Similar Documents

Publication Publication Date Title
JP4184955B2 (ja) 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US7478045B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
EP2659482B1 (en) Ranking representative segments in media data
KR100896737B1 (ko) 오디오 신호의 견고한 분류를 위한 장치 및 방법, 오디오신호 데이터베이스를 설정 및 운영하는 방법, 및 컴퓨터프로그램
KR101370515B1 (ko) 복합 확장 인지 템포 추정 시스템 및 추정방법
US8073684B2 (en) Apparatus and method for automatic classification/identification of similar compressed audio files
KR100717387B1 (ko) 유사곡 검색 방법 및 그 장치
Deshmukh et al. North Indian classical music's singer identification by timbre recognition using MIR toolbox
Panagiotou et al. PCA summarization for audio song identification using Gaussian mixture models
JP5384952B2 (ja) 特徴量抽出装置、特徴量抽出方法、およびプログラム
Rizzi et al. Genre classification of compressed audio data
US20140139739A1 (en) Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
KR20040000798A (ko) 음악 데이터의 점진적 분할 방법과 음악 데이터 검색방법
Helen Similarity measures for content-based audio retrieval
Dpt Optimal Short-Time Features for Music/Speech Classification of Compressed Audio Data

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080819

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080904

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4184955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees