JP2004534285A

JP2004534285A - 識別パターンを生成するための方法及び装置、並びにオーディオ信号識別のための方法及び装置

Info

Publication number: JP2004534285A
Application number: JP2003512876A
Authority: JP
Inventors: ヘレ，ユルゲン; アラマンヒェ，エリック; ヘルムート，オリヴァー; カストナー，トルステン; クレマー，マークス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2001-07-10
Filing date: 2002-06-20
Publication date: 2004-11-11
Anticipated expiration: 2022-06-20
Also published as: EP1405222B9; EP1405222A1; WO2003007185A1; ATE545930T1; KR20040040409A; KR100659672B1; US7460994B2; EP1405222B1; US20040172411A1; PT1405222E; DE10133333C1; JP4184955B2; ES2382974T3; HK1060632A1

Abstract

複数の所定の識別パターン形式を規定した情報（１０）を使用し、識別パターン形式は全て、同一形式の識別パターンに関する一方、データ量やオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを形成し、識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている。複数の所定の識別パターン形式からなる所定の識別パターン様式を設定し（１２）、続けて、オーディオ信号を使用した識別パターンを計算する（１４）。異なる識別パターン形式により生成された識別パターンの変換可能な特徴は、識別パターン様式の各変換を伴う識別パターンデータベースを再生成しなくても、一定のアプリケーションに対して、データ容量と特徴付け強度との間にフレキシブルな折衷案を設定することができる。時間あるいは周波数により規定される識別パターン表現は、異なった識別パターン様式に容易に変換することができる。

Description

【０００１】
本発明は、コンテンツ(content)に関連させてオーディオ信号を特徴付けること、あるいは認識することに関し、特に、オーディオ信号の異なった識別パターンの生成と使用とに関する。
【０００２】
近年、利用可能なマルチメディアのデータ題材、すなわちオーディオデータが、益々増加している。この進展は、多数の技術要素に起因している。これらの技術要素には、例えば、インターネットの広範囲での利用、オーディオデータのデータ圧縮に関する高性能な方法、すなわちソースの符号化技術の広範囲な普及ともに、高性能なコンピュータの広範囲での利用が含まれる。この１つの例として、ＭＰ３として参照されるＭＰＥＧ１／２ｌａｙｅｒ３が挙げられる。
【０００３】
利用可能な視聴覚データの総量が莫大なために、例えば、インターネットにおいて、全世界に広がる規模で、コンテンツに関連した基準により、それらのデータを評価でき、分類でき、あるいは、管理できるコンセプトが必要とされる。すなわち、主要で有用な基準に従ってマルチメディアデータを検索し、発見することが必要である。
【０００４】
つまり、いわゆる「コンテンツに基づく」手法を使用して、視聴覚データから、特別に独特である信号に関与するコンテンツ特性を表現するいわゆる「特徴」の抽出が必要である。これらの特徴あるいは、これらの特徴の組み合わせに基づくと、相似した関係あるいは、共通の特徴が、オーディオ信号間で得られる。このプロセスは、一般に、異なった信号から抽出された特徴的な値を比較するか、関連付けするかにより遂行される。ここでは、上記特徴的な値を「ピース（pieces）」と呼ぶことにする。
【０００５】
合衆国特許Ｎｏ．５，９８１，２２３には、オーディオ情報の、コンテンツに基づく分析、記憶、検索、及び分割の方法について開示されている。オーディオデータの分析では、数値のセットを生成する。この数値は、特徴ベクトルと呼ばれるものであって、一般的にはマルチメディアのデータベースの中、またはワールドワイドウェブ上に格納されている個々のオーディオピース間における類似点の格付けとランク付けに使用されるものである。
【０００６】
さらに、上記分析は、オーディオピースのセットの分析に基づいて、ユーザによって規定されたオーディオピースのクラスに関する説明を行うことができる。なお、オーディオピースは、全てユーザにより規定されたクラスの構成メンバーである。このシステムでは、比較的長い音響ピース内から個々の音響セクションを見つけることができ、オーディオレコード（audio record）によって自動的に、一連のより短いオーディオ部分に分割できる。
【０００７】
コンテンツに関連したオーディオピースの特徴付けあるいは格付けのために使用される特徴は、オーディオピースの周期的な間隔において、ピースの音量（loudness）、ピッチ、鮮やかさ(brightness)、帯域幅、および、いわゆる、メル頻度セプストラル係数（Mel-frequency Cepstral coefficients, MFCCs）を含む。ブロック毎あるいは、フレーム毎の値は、保存されており、第１の微分係数（derivation）に従う。ここにおいて、第１の同じ微分係数を有するこれら特徴に関する特定の統計学上の数量（例えば平均値、あるいは標準偏差）が、時系列な（over time）変動を記述するために計算される。この統計学上の数量のセットは、特徴的なベクトルを形成する。オーディオピースのこの特徴的なベクトルは、オリジナルファイルと関連してデータベースに保存され、ユーザは、適合したオーディオピースを導き出すために、データベースにアクセスすることができる。
【０００８】
データベースシステムは、ｎ次元空間において、２つのｎ次元ベクトル間の隔たりを定量化することができる。さらに、１つのクラスに属したオーディオピースのセットを特徴付けることで、オーディオピースのクラスを生成することができる。なお、クラスの例としては、鳥のさえずり、ロック音楽などである。また、ユーザは、特定の方法を用いて、オーディオピースのデータベースを検索することができる。検索結果は、音響ファイルのリストであり、それは、特徴付けられたｎ次元ベクトルからの距離に一致して整理されて列挙される。ユーザは、類似の特徴を参考に、聴覚および／または心理的な聴覚の特徴、主観的な特徴、あるいは、例えば蜂の羽音のような特徴的なノイズを参考にしてデータベースを検索することができる。
【０００９】
専門家の出版物である「マルチメディアコンテンツ分析（Multimedia Content Analysis）」（ヤオワンなど（Yao Wang et al.）,ＩＥＥＥ信号処理雑誌２０００年１１月、１２ページ〜３０ページ（IEEE Signal Processing Magazine, November 2000, pp. 12 to 36））には、マルチメディアのピースへの特徴付けのための同様なコンセプトが開示されている。マルチメディアのピースに関するコンテンツのクラス分けのための特徴は、時間領域特性あるいは周波数領域特性を含むように提案される。これらは、音量、オーディオ信号形態の基本的な周波数としてのピッチ、スペクトル特性、総エネルギーコンテンツに関連したテープのエネルギー量（energy content）、スペクトル曲線において、カットオフされた周波数などのようなものを含む。オーディオ信号のサンプルのブロック毎に言及された量に関連した短期間の特性に加え、長期間のオーディオピースに関連した長い期間の量も提案される。
【００１０】
様々なカテゴリーが、例えば、動物の音声、ベル鳴る音、群衆の音、笑い、機械のノイズ、楽器、男性の声、女性の声、電話の音、あるいは水の音のようなオーディオピースの特徴付けのために提案されておいる。
【００１１】
使用される特徴の選択は、特徴の抽出のために必要とされる計算量の点において問題が多く、素早く特徴付けが達成できるように想定されているが、しかしながら、特徴が、２つの異なったピースが互いに異なった特徴をもつような、オーディオピースの特性となるという点において問題がある。
【００１２】
オーディオ信号の特性付けのために、オーディオ信号の特徴、あるいは、識別パターン（fingerprint）としても参照されるいわゆる特徴は、既に記述されたように抽出される。また、２つの異なる要求が、この特徴の種類に応じて存在する。すなわち、識別パターンに対する１つの要求は、識別パターンが、信号に対し、できるだけ独特なオーディオ信号であることである。また、識別パターンに対するもう一方の要求は、識別パターンができるだけ少ない情報を含んでいるということである。すなわち、識別パターンは、できるだけ、小さい記憶スペースを使用するということである。これら２つの要求は互いに矛盾したものである。したがって、これを認識する最も単純なやり方は、オーディオ信号の最もよい「識別パターン」は、オーディオ信号自身、すなわち、オーディオ信号により表現されるサンプルの連続であるという事実である。このような識別パターンは、一方で、より多くのメモリを使用するため、第２の要求を大規模に侵害し、その一つとして、とても多くの数のオーディオ信号のために、音楽認識データベースの中に、とても多くの数の識別パターンを保存することを不可能とする。さらに、不利な点は、検索識別パターンと複数の保存されたデータベース識別パターンとを比較するように想定されたマッチングのアルゴリズムにより要求される計算時間の総量は、検索識別パターンおよび／または、データベース識別パターンのサイズに比例するということである。
【００１３】
他の行き過ぎた点としては、例えば、ピースの全てのサンプルの平均値を用いるだけということである。この平均値は、とても少ない記憶スペースだけを必要とするため、それゆえ、大きな音楽データベースとマッチングアルゴリズムとの両方に最もよく適合する。しかし、そのような識別パターンの特徴付けの強度は、人間に関して関係のない変化に対してとても頑健なものとはならない。
【００１４】
特徴付け強度と識別パターンのデータ量との間の理想的な折衷案は、一般的には存在しなく、典型的に実験的に成立するか、あるいは、記憶スペースの利用と伝送容量(transmission capacity)の利用におけるそれぞれのアプリケーションの状況に依存する。この生成は、異なる種類の識別パターンが、１つの特定のアプリケーションにだけ理想的に適合し、他のアプリケーションには、幾分か不適切となるという障害を有している。この文脈において、オーディオ信号の識別および／または特徴付けは、とても大きな特徴的なデータベースがある場合、特に重要である。このデータベースの識別パターンは、オーディオ信号を直接識別する検索識別パターンと比較され、あるいは、効果にオーディオ信号を特徴付ける。この効果とは、データベースにおいて一つあるいはいくつかのオーディオ信号を比較されたオーディオ信号の類似点の測定が出力されるという効果である。識別パターンの特定の種類が、あるアプリケーションに確実に好適であり、他のアプリケーションにはもはや好適でなくなった場合、更新された（renewed）特定の抽出処理は、大量のオーディオ信号に対して実行される。なお、このオーディオ信号の識別パターンは、データベースに保存され、特徴付け強度と記憶スペースの間の折衷案を達成する現在のアプリケーションの代わりに、理想的な折衷案として提供される新しいデータベースとなる。一方では、オリジナルであるピースは、特徴の抽出を更新するために、決して利用され得ない（例えば、オーディオデータベースのために５０００００のオーディオピースが使用される）。他方では、この結果、−全てが可能であれば−、「新（new）」データベースを満たす、および／またはこのデータベースを「訓練する（train）」ための特徴の抽出処理に関して、大規模な費用となる。
【００１５】
またこの問題は、次の事実によって悪化する。つまり、確かに、インターネットの形態では、利用可能なワールドワイドウェブが存在しており、原則的には無制限の記憶容量を有している。しかし、どの識別パターンがどのアプリケーションに最も好適であるかということを、多くの様々な「識別パターン生成者」に知らせることは不可能である。このため、有効なオーディオ信号の識別および／または特徴付けを行うことを可能とするように、十分な識別パターンデータベース部材が利用されることとなる。
【００１６】
さらなる問題は、識別パターンはまた、多くの様々な伝送チャンネルを通して伝送されることである。とても低い伝送容量をもつ伝送チャンネルとしては、例えば、携帯電話の屋外の伝送チャンネルがある。特徴付け強度とデータベースのための記憶容量とに加え、伝送チャンネルの帯域幅もまた、決定的な要素となる。高い特徴付け強度を有する識別パターンを生成するための長所は形成されない。すなわちこのことは、ほとんど、あるいは全く狭帯域（narrow-band）伝送チャンネルを通しての伝送ができないということである。したがって、アプリケーションのための理想的な識別パターンは、例えば、検索データベースの識別パターンを経由して伝送される伝送チャンネルによってさらに規定される。
【００１７】
本発明の目的は、様々な要求に対して適用可能な柔軟性のある識別パターンのコンセプトを提供することにある。
【００１８】
この目的は、請求項１に記載された識別パターンの生成方法、請求項１０に記載のオーディオ信号の特徴付け方法、請求項１４に記載の識別パターン、請求項１６に記載の識別パターンを生成するための装置、あるいは、請求項１７に記載のオーディオ信号を特徴付けるための装置により達成することができる。
【００１９】
本発明では、識別パターンが、複数の所定の識別パターン形式（modi）からなる様式(modus)に従って形成されるというという事実によって普遍的に得ることができる識別パターンコンセプトに基づいており、前記識別パターン形式は全て、同一形式の識別パターンに関連するが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを形成する。本発明によると、前記識別パターン形式が、自身のオーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている。この「拡張可能なscalable」識別パターンは、例えば、高い特徴付け強度を有する識別パターンと大きなデータ量を有するデータベースとを提供することができる。所定の識別パターン形式で生成される高価なデータベース識別パターンは、オーディオ信号自身の特徴の抽出に従うことなく、たやすく低い特徴付け強度を有する「低い」識別パターンに変換することができる。
【００２０】
より好ましくは、常に検索識別パターンの識別パターンとデータベース識別パターンの識別パターンとが、変換されたより高い特徴付け強度を有しており、実際に変換された２つの識別パターンが、互いに比較される。多くの識別パターン形式を用いた規定が、本発明により提供され、データベースは、異なった識別パターンのプロセスに適合する。すなわち、識別パターンは、全体で識別パターン形式があるような異なった識別パターン形式で生成される。
【００２１】
利点としては、同じ周波数のデータベースに使用できることであり、とても低い特徴付け強度を有する識別パターンだけでなく、とても高い特徴付け強度を有する識別パターンも処理でき、そのため、１つのそして、同じ識別パターンデータベースがそれでも使用される期間は、許可された所定の識別パターン形式に依存して、適度な識別パターン様式が各アプリケーションに見つけることができる。
【００２２】
このコンセプトは、オーディオデータベースのための識別パターンの生成者が、アプリケーションの変換のために異なる識別パターンの継続的な生成を行わなくてもよいというさらなる利点を有している。また、拡張可能な識別パターンが、再び生成され、その拡張性の特徴のために、複数のアプリケーションに使用されるというさらなる利点を有している。一方では、このような検索データベースのユーザは、生成において十分な柔軟性が与えられており、もし、状況が望めば、とても低い特徴付け強度を有する識別パターンが高速で伝搬される。また、これに対して、異なったアプリケーションにおいて、非常に高い特徴付け強度を有する識別パターンを生成するユーザもいる。ここでは、特徴付け強度は、識別パターンのデータ容量よりも重要である。ユーザは、１つの、そして、アプリケーションの両方の場合のための、同じデータベースにアクセスできる。それは、状況に応じたオーディオ信号の実質的な範囲に対する記述（description）の全コンセプトを単純化するために、よりユーザフレンドリー（user-friendly）となる。特に、ユーザフレンドリーさと操作性の容易さは、市場で大きな商業的な成功を達成するための決め手となる。
【００２３】
好ましくは、周波数に関する拡張性および／または、経時的な拡張性が使用される。上記周波数に関する拡張性が達成され、本発明のより好ましい具体例と一致し、そこでは、識別パターン形式は、それぞれ、オーディオ信号の分離したサブ帯域（sub-band）への分離した識別パターン情報を有し、そして、識別パターン形式は互いに異なっており、異なった数のサブ帯域のための分離した識別パターン情報を含んでいる。サブ帯域のこの特徴付けは、全ての識別パターン形式で同じである。非常に高い特徴付け強度を持つ識別パターンを有するデータベースが生成される場合、すなわち、生成されたデータベースに関する識別パターンによる識別パターン様式が、２０サブ帯域のオーディオ信号などの分離した識別パターン情報を含む場合、より少ない特徴付け強度を持つ他の識別パターン形式は、識別パターンが、例えば、１５、１０、５つだけあるいは、１つだけのサブ帯域に対する分離した識別パターン情報を含むようにする。異なった識別パターン形式に従って生成された全ての識別パターンは、容易に下位互換可能（downward compatible）であり、データベースを用いたマッチング操作において、それらの識別パターン情報だけは、サブ帯域のためのデータベース識別パターンから持ってくる。サブ帯域は、同様に検索識別パターンに含まれる。極限の場合、一つのサブ帯域の識別パターン情報になる。この一つのサブ帯域は、検索識別パターンもまた一つのサブ帯域用の識別パターン情報にだけ含まれている場合は、識別パターンの識別パターン情報に関する、２０に分離した項目のマッチング操作に使用される。
【００２４】
他にまた、経時的に拡張性があることが好適である。相対的に低い特徴付け強度を有する識別パターンは、例えば、１０ブロックのオーディオ信号のサンプルからなる識別パターン情報を有している。これに対して、高い特徴付け強度の識別パターンは、オーディオ信号のサンプルのブロック毎の識別パターン情報を有している。どちらの識別パターンでも同じブロック長であるので、経時的に、高い特徴付け強度を有する識別パターン情報の対応する多数の項目は、下位互換のために組み合わされ、低い特徴付け強度を有する識別パターンとして、同じ数のサンプルを特徴付ける識別パターンを変換したこれらのものから生成する。ここでは、識別パターン形式は、お互いに異なっており、とても低い特徴付け強度を有する識別パターン様式が、多くのブロックのサンプルを、一つの識別パターンに処理する。これに対して、非常に高い特徴付け強度を有する識別パターン様式は、例えば、ブロック毎に一つの識別パターンを生成する。つまり、所定のブロックサイズを用いることによって、オーディオ信号自身を更新された特徴的抽出に従わせることなく、低い特徴付け強度を有する識別パターンが、高い特徴付け強度を有する識別パターンの一致する数から生成される。そして、この結果、例えば、データベース比較を実行することができるようになる。
【００２５】
本発明の好ましい実施形態について、添付の図面を参照に以下でより詳細に説明する。
図１は、識別パターンを生成するためのブロック図である。
図２は、オーディオ信号を特徴付けるための発明の装置のブロック図である。
図３ａは、オーディオ信号を様々なサブ帯域に細分化する表現を示す図である。
図３ｂは、図３ａに示すサブ帯域細分化とは異なる識別パターンで生成される識別パターン表現の概念を示す図である。
図４ａは、時系列にオーディオ信号のブロックの細分化の表現を示す図である。
図４ｂは、図４ａに示すブロックの細分化とは異なった識別パターン形式に従って生成される様々な識別パターン表現の概念を示す図である。
図５は、パターン認識システムの基本的なブロック図である。
【００２６】
以下に図５を参照して、本発明が好適に用いられる、パターン認識システムの概略図を示す。原則的には、この図５に示すパターン認識システムは、２つの操作形式（operating modi）の間で、より正確に言えば、トレーニング様式（training modus）５０と分類様式（classification modus）５２との間にて区別されている。
【００２７】
このトレーニング様式では、データが「訓練される（trained in ）」、すなわち、データがこのシステムに加えられ、そして、データベース５４に組み込まれる。
【００２８】
また、この分類様式では、上記データベース５４にあるエントリと、特徴付けられた信号とを比較して分類するように試みがなされる。
【００２９】
また、このパターン認識システムは、信号の前処理を行うための手段５６、特徴抽出のためのダウンストリーム手段（downstream means）５８、特徴処理のための手段６０、クラスター生成（cluster generation）のための手段６２、および分類化を行うための手段６４を備えている。なお、上記手段６４は、先のトレーニング様式で訓練された信号ｘｙと信号が一致するというような、例えば、分類様式５２の結果として特徴付けられている信号のコンテンツに関するステートメント（statement）を形成するために分類するものである。
【００３０】
図５に示す個々のブロックの機能は、以下のように処理が行われる。
【００３１】
ブロック５８とともに、ブロック５６は、特徴抽出部を形成している。一方、ブロック６０は、特徴処理部である。なお、ブロック５６は、チャネル数、サンプリング数（the sampling rate）、解像度（サンプルあたりのビット）など入力信号を一定の目標形式（target format）に変換するものである。これは、入力信号を生じさせるソースに対して設定する条件が無いという点で、有益かつ必要となる。
【００３２】
特徴抽出のための手段５８は、通常は大容量である情報を小容量の情報に制限するように機能する。調査された（examined）信号は、たいてい高いデータレート、すなわち、時間スロットにつき多数のサンプルを有している。小さい容量の情報への制限は、本来の信号の本質、すなわち、その特定の性質を失わないように行わなければならない。手段５８においては、規定された特徴的特性（例えば、概して音の強さや基本周波数など、本発明では、調性の特性（tonality feature）および／またはＳＦＭ）がこの信号から抽出される。このように得られた調性の特性は、いわば調査された信号の本質を含むものとする。
【００３３】
ブロック６０では、予め計算された特徴ベクトルが処理される。なお、簡単な処理としてはこのベクトルの正規化を含んでいる。また、可能な特徴処理にはカルーネン−レーベル変換（ＫＬＴ（Karhunen-Lo`eve transformation））または、当業者に知られている線形判別分析（ＬＤＡ（linear discriminant analysis））などの線形変換を含んでいる。また、特に非線形変換などの他の変換もまた特徴の処理のために用いられる。
【００３４】
クラス生成部は、処理された特徴ベクトルを結びつけてクラスとするように処理を行う。また、これらのクラスは、関連する信号の圧縮表現（compact representation）に対応する。また、分類化部６４は、生成された特徴ベクトルを、予め規定したクラスおよび／または予め規定した信号に関連付けるように処理を行う。
【００３５】
また、図１は、オーディオ信号の認識パターンを生成するための装置の概略を示しており、例えば、図５のブロック５８に備えられていてもよい。また、オーディオ信号の認識パターンを生成するために、予め決定された複数の認識パターンの形式（fingerprint modi）を規定している情報が使用され、互いに共通する認識パターンの形式に関連するこの様式情報（modus information）を手段１０が格納する。手段１０に格納されている様式情報によって規定された認識パターンの形式は、全て、同じ種類の認識パターンや認識パターンの形式に対応付けられる。しかしながら、認識パターンがデータ容量の点で、または、オーディオ信号自体の識別用の特徴を示す強さの点で異なる場合は異なるものとする。本発明では、認識パターンの形式は、第１の特徴を示す強さを有する認識パターンの形式である認識パターンと、第２の特徴を示す強さを有する認識パターンの形式である認識パターンとが音声信号を用いることなく、変換可能とするように予め決定されている。なお、特徴を示す強さがより大きい認識パターンから、特徴を示す大きさがより小さい認識パターンへと変換可能とすることが好適である。しかしながら、特定の種類のアプリケーションによっては、例えば、補間（interpolation）などによって上位への互換を確実に行うこともまたできる。
【００３６】
また、本発明に係る装置は、複数の予め決められた認識パターンの形式からなる、認識パターンの様式（fingerprint modus）を設定するための手段１２をさらに備えている。そして、この手段１２によって与えられた認識パターンの様式に応じて認識パターンを計算するための手段１４においては、入力部１６を介して入力され設定されたオーディオ信号の認識パターンが、最終的には計算され、出力部１８で出力される。手段１２によって設定された認識パターンの様式に応じて、認識パターンを計算するための手段１４は、上記認識パターンの様式に依存している各計算仕様（computing specifications）を用いるようにするため、記憶手段１０に接続されている。
【００３７】
設定された認識パターンの様式に応じて認識パターンを計算するための手段１４は、以下でより詳細に論じる。また、オーディオ信号の調性は、頑健な特性であり、またその一方で、容易に拡張可能な特性として非常に適したものであることが知られている。
【００３８】
また、様々な方法が、ピースの調性の測定量を計算するために用いられる。特徴付けられた時間の信号（time signal）は、手段を用いてスペクトル領域（spectral domain）に変換され、時間に関連するサンプルのブロックからスペクトル係数（spectral coefficients）のブロックを生成する。以下において説明するように、特定の調性の値は、各スペクトル係数および／または各スペクトル成分に対して決定され、例えばイエス／ノー決定（yes/no determination）によって、スペクトル成分が調性を示すものであるか（tonal）否かを分類する。スペクトル成分ならびに、スペクトル成分のエネルギーおよび／またはパワー（power）に関する調性の値を用いるので、多様な異なる方法における信号に関する調性の測定量を計算することができる。
【００３９】
また、調性の測定量が得られるので、２つの調性で示されるピースの間での距離および／または類似性を示すことができる。すなわち、調性についての測定量のピースの差が所定の閾値よりも差異がより小さい場合、そのピースを類似しているものとして分類することができる。一方、それらの調性の指標が相違する閾値よりも差異がより大きい場合、他方のピースは相違するものとして分類される。２つの調性の測定量の間での差異に加えて、さらなる量が、２つのピースの間の調性の隔たりを決定するために用いられてもよい。すなわち、さらなる量とは、例えば、２つの値の間での相違の量、相違の平方、２つの調性の測定量の間での商マイナス１、２つの調性の測定量の間での相関関係、２つの調性の測定量（それらはｎ次元ベクトル）の間での隔たり距離（distance metric）などである。
【００４０】
特徴付けられた信号は必ずしも時間の信号である必要はないが、例えば、スペクトルの値を量子化したものから生成されたハフマン（Huffman）コードの文字シーケンスから構成されるＭＰ３−符号化信号など、同様のものであってもよい。
【００４１】
また、量子化されたスペクトルの値は、量子化の手段によって原スペクトル値から生成される。なお、この量子化は、量子化によって挿入された量子化したノイズが、以下に示すサイコ−アコースティックマスキング（psycho-acoustic masking）の閾値となるように選択されている。このような場合、符号化されたＭＰ３のデータストリームは、例えば、ＭＰ３復号化器によって、スペクトル値を計算するために直接用いられる。また、時間の変域（time domain）への変換を行う必要はなく、またさらにスペクトル領域への別の変換が調性を決定するように処理する必要はないが、ＭＰ３復号化器内で計算されたスペクトル値は、スペクトル成分またはＳＦＭ（スペクトル平坦方法（spectral flatness measure））によって調性を計算するために用いられる。それゆえ、スペクトル成分が調性を決定するために用いられる場合であって、かつ特徴付けられた信号がＭＰ３のデータストリームである場合、逆フィルターバンク（inverse filter-bank）はないが、手段４０は復号化器のように設計される。
【００４２】
また、スペクトル平坦方法は、以下に示す方程式によって計算される。
【００４３】
【数１】

【００４４】
この方程式でのＸ（ｎ）は、数ｎによってスペクトル成分の絶対値の２乗を示しており、一方、Ｎはスペクトルのスペクトル係数（spectral coefficients）の総数を示す。この式からＳＦＭは、スペクトル成分の相乗平均（geometric mean）とスペクトル成分の相加平均(arithmetic mean)との商に等しいことが分かる。知られているように、この相乗平均の値は、この相加平均の値よりも常に小さいか、もしくはせいぜい大きくてもこの相加平均の値と等しいため、ＳＦＭは、０から１までの範囲の値をとる。すなわちこの場合、０に近い値は、調性の信号を示す。また、１に近い値は、平坦化スペクトル曲線（flat spectral curve）を有する幾分ノイズのような信号を示す。全てのＸ（ｎ）が同じ値である場合のみ、相乗平均と相加平均とが等しくなり、完全に無調（atonal）、すなわち、ノイズのような信号またはパルスのような信号となるということを示す。しかしながら、一方のスペクトル成分が非常に大きな値であり、他方のスペクトル成分Ｘ（ｎ）が非常に小さな値であるような極端な場合、ＳＦＭは０に近似する値となり、大きな調性の信号を示す。
【００４５】
上記ＳＦＭは、「波形のデジタルコード化（”Digital Coding of Waveforms”）」（イングルウッドクリフス（Englewood Cliffs）、ＮＪ、プレンティス−ホール（Prentice - hall）、Ｎ．ジャイアント（N. Jayant）、Ｐ．ノル（P. Noll）、１９８４）に記載されており、符号化した値（gain）が過剰な減少から最大限得られる方法として当初定義されっていた。なお、この場合、調性の測定量が上記ＳＦＭによって予め決定されていてもよい。
【００４６】
さらにまた、スペクトル値の調性を決定する可能性としては、ＭＰＥＧ−１オーディオＩＳＯ／ＩＥＣ１１１７２−３アネックス（Ａｎｎｅｘ）Ｄ１「サイコ−アコースティックモデル１」にて記述されているように、オーディオ信号のパワー密度（power density）でのピークを決定することが挙げられる。ここでは、スペクトル成分のレベルが決定される。次いで、あるスペクトル成分の周囲にある２つのスペクトル成分のレベルが決定される。そして、スペクトル成分のレベルが所定の要素（factor）だけ周囲のスペクトル成分のレベルを超える場合、このスペクトル成分は調性であるとして分類される。技術的には、所定の閾値としては７ｄＢが取られるが、本発明においてはいかなる所定の閾値が用いられてもよい。それゆえ、同じ調性か否かについて各スペクトル成分に関して示し得る。
【００４７】
スペクトル成分の調性を決定するためのさらなる可能性としては、スペクトル成分の時間に関連する予測可能性を評価することが挙げられる。ここで、またＭＰＥＧ−１オーディオＩＳＯ／ＩＥＣ１１１７２−３、アネックスＤ２「サイコ−アコースティックモデル２」を参照する。概して、特徴付けられている信号のサンプルの現在のブロック（current block）が、スペクトル成分の現在のブロックを得るためにスペクトル表現（spectral presentation）に変換される。次に、スペクトル成分の現在のブロックに属するスペクトル成分を、この現在のブロックより前に生じる、特徴付けられた信号のサンプルからの情報、すなわち、過去の情報を使用して予測する。それから、得られた調性の測定量から、予測のエラーが決定される。
【００４８】
また、調性を決定するさらなる可能性が米国特許番号５、９１８、２０３に記載されている。そして、特徴付けられたスペクトルの信号に関する正の実数値表現（positive real-valued presentation）が使用される。この表現には、スペクトル成分の値、またはスペクトル成分の絶対値の２乗などが含まれる。実施形態の一例では、スペクトル成分の値、またはスペクトル成分の絶対値の２乗の値は、初めに対数的に圧縮され、次いで特徴を微分するフィルタを使ってフィルタ処理されて、微分法でフィルタ処理されたスペクトル成分のブロックが得られる。
【００４９】
また、別の実施形態では、スペクトル成分の値は、分子を得るために特徴を微分するフィルタを使用してフィルタ処理が行われ、それから分母（denominator）を得るために特徴を積分するフィルタを使用してフィルタ処理が行われる。そして、微分法によってフィルタ処理されたスペクトル成分の値と、積分法によってフィルタ処理された同じスペクトル成分の値との商は、これらスペクトル成分に関する調性の値となる。
【００５０】
これら２つの方法によって、スペクトルにおける隣接するスペクトル成分の値の間での緩やかな変化が抑制される一方、隣接するスペクトル成分の値での急激な変化が強調される。なお、隣接するスペクトル成分の値の間での緩やかな変化は無調の信号成分を示し、また、急激な変化は調性の信号成分を示す。そして、対数的に圧縮され、かつ、差分的（differentiatingly）にフィルタ処理されたスペクトル成分および／またはその商は、観察されたスペクトルに関する調性の測定量を計算するために再度用いられる。
【００５１】
また、上記において、１つの調性の値がスペクトル成分ごとに計算されることについて述べたが、計算量の低減の観点から、どちらの実施形態の場合においても２つの隣接するスペクトル成分の絶対値の２乗した値を加え、それから上述した方法のうちの１つによってこの加算した各結果に対する調整の値を計算することが好ましい。そして、スペクトル成分の絶対値および／またはスペクトル成分の値の２乗からなる、付加的なグループの各種類が、１以上のスペクトル成分の調性の値を計算するために用いられてもよい。
【００５２】
スペクトル成分の調性を決定するさらなる可能性としては、周波数帯域のスペクトル成分のレベルの平均値とスペクトル成分のレベルとを比較することである。このレベルが、例えば、スペクトル成分の絶対値の値または二乗（squares）の平均値と比較される、１つのスペクトル成分を含む周波数帯域の幅が、必要に応じて選択され得る。例えば、ある可能性では、帯域を狭くするように選択することである。あるいは、帯域が広くなるように選択され得るか、もしくは心理音響的標準(psycho-acoustic criteria)を目的として選択され得る。つまり、このことは、スペクトルの短期間でのパワーのセットバック（power setback）の影響がどの程度低減されかである。
【００５３】
上記したオーディオ信号の調性は、スペクトル成分の平均によって決定されたにもかかわらず、これはまた、オーディオ信号のサンプルを使用する場合、時間領域（time domain）において生じる。このために、信号のＬＰＣ分析が、この信号に対する予測値(prediction gain)を推測するために実施され得る。この予測値は、ＳＦＭに反比例するものであて、よって、同様にオーディオ信号の調性の測定値である。
【００５４】
本発明の好ましい実施形態では、調性の測定量は、示された短期間のスペクトルごとの１つの値だけでなく、調性の値(tonality value)の多次元ベクトルで示されるものである。例えば、短期間でのスペクトルでは、４つの相互に隣接した、好ましくは、重なり合わない領域および／または周波数帯域に細分化されるように、１つの調性の値が、それぞれの周波数帯域に対して決定される。これは、信号の短期間のスペクトルが特徴づけられるようにするために、４次元調性ベクトルを得ることを意味する。また、より優れた特徴によって、例えば、上記のような４つの連続した短期間のスペクトルを処理することがさらに好ましい。そして、それによって全体の調性の測定量が、１６次元のベクトルまたは、一般的にｎｘｍ次元ベクトルで与えられる（ｎはサンプルのフレーム(flame)またはブロックあたりの調性成分の数を表し、またｍは、予期される(contemplated)ブロックおよび／または短期間のスペクトルの数を表す）。次いで、調性の測定量は、述べてきたように、１６次元ベクトルで示される。また、信号の波形を特徴付けられるようにより良く調節する(accommodate)ために、例えば、１６次元ベクトルのようないくつかのベクトルを計算し、次いで、例えば、所定の長さを有する１ピースのｎｘｍ次元の調性ベクトルのすべてから高次(higher order)の分散、平均値、または中心積率を計算する。そして、その計算によってこの１ピースを示す(index)ために、それらを統計的に処理することがさらに好ましい。一般的に言うと、このように、調性はスペクトル全体の部分から計算される。従って、１つのサブスペクトルまたは、いくつかのサブスペクトルの調性／ノイズの類似点を決定し、スペクトルおよびオーディオ信号のより詳細な特徴を得ることができる。
【００５５】
さらに、調性の値の短期間での統計値（例えば、高次の平均値、分散および中心積率など）が、調性の測定量として計算される。これらは、調性の値および／または調性ベクトルを時系列的に扱い、統計的技術を用いて決定される。従って、ピース（piece）のより長い部分にわたって不可欠な要素(essence)が提供され得る。
【００５６】
経時的な調性のベクトル間、または線形的にフィルタリングした調性の値の間での相違を使用することができる。なお、例えば、線形フィルタとしては、ＩＩＲフィルタまたは、ＦＩＲフィルタを使用することが可能である。
【００５７】
ＳＦＭを計算する際に、計算時間を節減することを理由として、例えば、周波数に関して相互に隣接した絶対値の２乗を加えたり、平均したりすることが好ましく、このおおざっぱな(coarsened)正数(positive)である実数(real-value)のスペクトルの表現を基に、ＳＦＭ計算を実施することが好ましい。さらに、これは、狭い帯域の周波数低下に対する増大した頑健性（robustness）と計算量の低減となる。
【００５８】
さらに、図１に関して、規定の認識パターン様式(fingerprint modus)の認識パターン形式を設定するための手段(means)１２は、以下に詳細に扱われる。手段１２は、複数の所定の認識パターン形式から選択し、特定のアプリケーション(application)に最適であるその認識パターン様式を設定する仕事が割り当てられている。なお、指定のチェック−マッチング(check-matching)操作を用いて、経験的に、あるいは自動的に選択が実行される。このようなチェック−マッチング操作において、例えば、特徴を示す強度を表す、異なる認識パターンを生成するために、異なる認識パターン形式に基づいて、いくつかの公知のオーディオ信号が処理される。その後、これらの異なる認識パターンを用いたデータベースでサンプル−マッチング操作が実施されるが、これらのすべては、同じタイプの認識パターン（すなわち、例えば、オーディオ信号の調性および／または調性測定値）を表す。個々の認識パターンに対する間違った出力の指定の閾値を用いて、例えば、閾値基準を満たす規定の認識パターン形式の１つが次いで選択される。
【００５９】
あるいは、手段１２は、認識パターンを提供する認識パターンを選択可能とするが、この認識パターンは、例えばそのデータ容量のために、帯域制限された伝送(band-limited transmission)チャンネルを介して、かろうじて伝達される。手段１２は、閾値とは無関係にその認識パターンを選択するが、例えば、伝送チャンネルに依存して認識パターンを選択する。チャンネルの使用および／または利用できるチャンネルの容量に依存し、高い特徴を示す強度を有する認識パターン形式か、あるいは、チャンネルが使用されているか、または大幅に帯域制限されている場合、比較的低い特徴を示す強度を有する認識パターン形式が設定される。
【００６０】
また、認識パターンを伝達しないで、それを記憶する場合に、同じことが適用される。つまり、利用できる記憶資源(memory resource)に依存し、記憶集約的(memory-intensive)であるが、高い特徴を示す強度を有する認識パターン形式、または記憶貯蔵的(memory-saving)であるが、比較的低い特徴を示す強度を有する認識パターン様式が、手段１２によって設定される。
【００６１】
図２は、オーディオ信号を特徴付けるための、本発明に係る装置のブロック図(block diagram)を示す。このような装置としては、規定の認識パターン形式の１つで検索用認識パターン(search fingerprint)を生成するための手段が挙げられる。これらの手段は、図２の参照数字２０によって表され、好ましくは、図１に関連して記載されるように与えられる。オーディオ信号を特徴付けるための装置としてさらにデータベース２２が挙げられ、ここで規定の認識パターン形式の１つでまた計算されているデータベース用認識パターンが保存される。
【００６２】
図２に示される装置としては、データベース用認識パターンを用いて、手段２０によって生成されている検索用認識パターンを比較する手段２４が挙げられる。初めに、前者と比較されるべき検索用認識パターンおよびデータベース用認識パターンが、同じ特徴を示す強度を有するかどうか、すなわち同じ認識パターン形式を有するかどうか、あるいは、データベース用認識パターン形式とは異なる認識パターン形式に基づいて、検索用認識パターンが生成されるかどうか、について手段２４ｂで設定される。１つの認識パターンが、他より高い特徴を示す強度を有することが設定された場合、転換後、検索用認識パターンおよびデータベース用認識パターンは、同じ特徴を示す強度を有するように（すなわち、同じ認識パターンに基づいて類似するか、あるいは存在するように）、手段２４ｂで変換が行われる。つまり、手段２４ｃが両方の認識パターンの比較を行うまで、この状態は満たされなかった。次いで、このような比較は、出力２６として、検索用認識パターンによって表現されるオーディオ信号が、現在のデータベース用認識パターンによって表現されるオーディオ信号に対応することとなる。あるいは、出力２６はまた、任意の確率(probability)を有する類似性を明確にする際（すなわち、類似性の測定）に活用され得る。
【００６３】
好ましくは、手段２４ａは、どの認識パターンがより高い特徴を示す強度を有するのかを見出すために配列されている。次いで、この認識パターンは、２つの認識パターンのうち、より低い特徴を示す強度を有する認識パターンの特徴を示す強度（すなわち、認識パターン形式）に圧縮される。あるいは、例えば、迅速な検索が所望される場合は、両方の認識パターンは、検索用認識パターンおよびデータベース用認識パターンよりも低い特徴を示す強度を有する認識パターンを提供する認識パターン形式に圧縮される。アプリケーションによっては、補間を用いて、低い特徴を示す強度を有する認識パターンに拡大することがまた必要とされるが、しかしこれは代替的に(alternative)、認識パターンのタイプが補間を可能にする場合のみ、有用な結果を提供する。
【００６４】
すでに説明したように、認識パターン形式を特定するのに矛盾した要求が存在する。一方、できるだけ包括的であるデータの圧縮を達成することに関して大きな利点がある。すなわち、コンピュータのメモリ(memory)に、できるだけ多くの検索用認識パターンを記憶することを可能にするためには、小さな認識パターンサイズとし、さらなる処理をより効果的にすることである。
【００６５】
一方、認識パターンサイズが小さくなるにつれ、データベースに登録されたピースの間の区別がなくなってしまうという危険性が増大する。このことは、特に大きなオーディオのピースに関するデータベース（例えば、５００，０００個の題(title)を含み得る）および、同定プロセス前にこのオーディオのピースが強い歪み(distortion)に曝されるアプリケーション（例えば、信号の音響学的伝達または損失の多い圧縮を用いる）に関係している。
【００６６】
もちろん、このような理由によって、頑健でないよりコンパクトな(compact)認識パターンのフォーマット、およびコンパクトではないが、それ相応の(correspondingly)より識別力のある特性を提供するフォーマットを定義することは可能である。しかし、述べてきたように、特に、前者のタイプの認識パターンの記述(description)は一般的に、異なるタイプの認識パターンと比較することができないため、高価な認識パターンデータベースを数回（すなわち、フォーマットごとに１回）設定し、記録し続ける必要がある。
【００６７】
これらの問題を除去するために、本発明では、世界共通の拡張可能な記述フォーマットを提供する。そして、このフォーマットとしては、アプリケーションに応じて、可塑性のある様式で、認識パターンの比較が損なわれず、認識パターンの特徴を示す強度とコンパクトさとの間において変化する折衷案(compromise)を与える。これは、好ましくは、２次元によって表現されており、１次元では、帯域の数の比較可能性を示し、もう１つの次元では、時間の比較可能性を示す。また、一般的には、帯域の数の比較可能性では、オーディオ信号のスペクトルの分解(dissection)に基づいている。つまり、オーディオ信号の周波数帯域または、その一部（例えば、２５０Ｈｚ〜４ｋＨｚ）は、予期される特徴（例えば、調性の測定）に基づいて計算される。また、周波数分離に起因して、それぞれの帯域における信号の特徴についての情報の独立した項目が存在する。つまり、すべての認識パターンは、同じ帯域分割(band partitioning)を使用し、好ましくは同時により低いカットオフ(cut off)周波数から開始する。しかし、より低い特徴を示す強度を有し、コンパクトな(compact)認識パターンを提供する、認識パターン形式は、より少ない帯域を保持しており、従って、より大きな(generous)認識パターン形式（しかし、あまりコンパクトでない形態）より小さい範囲の周波数を含んでいる。それにもかかわらず、両方のタイプの記述は、オーディオ信号の更新された処理をせずに、それらの共通した周波数帯域において有効な方法によって比較される。
【００６８】
好ましい実施形態では、少なくとも部分的に対数的(logarithmic)である帯域の分割が使用されている。そして、その帯域の分割は、あまり低くない周波数（例えば、５００Ｈｚより高い周波数）である、ヒトの聴覚によって使用される周波数の大きさ(frequency scale)および／または周波数の弁別(discrimination)に大きく依存する。例えば、５００Ｈｚ未満の上記の対数的な分割を使用せず、かつ５００Ｈｚ未満の帯域を分割（例えば、帯域をそれぞれ１００Ｈｚの５つの帯域に分割するように、同じ幅を有すること）しないことが好ましい。
【００６９】
また、帯域の数の拡張性(scalability)の例が、図３ａおよび図３ｂに関連して、以下で示される。なお、表記上の理由により、図３に示されるように、オーディオ信号は、４つのサブバンド（sub-band）（３０ａ〜３０ｄ）に分割されている。図３ｂでは、異なる認識パターン形式によって生成される、異なる認識パターンの表現を示す。図３ｂのそれぞれの認識パターンの表現は、認識パターンの情報が含まれているサブバンドの数を示す識別部分(identifier portion)３１、すなわち、該当の認識パターンに関連する認識パターン形式が生成された識別部分(identifier portion)３１を含んでいる。認識パターン形式の第４番は、認識パターン表現が、サブバンド１と他の３つのサブバンド２〜４の両方についての認識パターンの情報（ＦＰＩ）を含むため、最も記憶集約的な(memory-intense)認識パターン表現を提供するが、この表現は、最も高い特徴を示す強度を有するものでもある。一方、認識パターン様式の第３番は、認識パターンの情報の分離項目(separate item)が、初めの３つのサブバンドについてのみ含まれるため、わずかによりコンパクトである認識パターン表現を提供するが、この表現は、すでに低い特徴を示す強度を有する。認識パターン形式の第２番は、認識パターンの情報が２つの最も低いサブバンドについてのみ含まれるため、比較的コンパクトな記述を提供するが、この表現はさらに低い特徴を示す強度を有する。認識パターン形式の第１番は、最も低いサブバンド３０ａの認識パターンの情報のみが含まれるため、非常にコンパクトな認識パターン表現を提供するが、この表現は最も低い特徴を示す強度を有する。
【００７０】
図２のブロック２４ｂの機能（すなわち、１つの認識パターン形式から別の認識パターン形式への認識パターンの変換）は、以下の図３ｂに関して取り扱われる。また、よく似た(nearly)例として、データベース用認識パターンでは、認識パターン形式の第４番に基づいて作成されていると考えられる。従って、データベースは、非常に高い特徴を示す強度を有する認識パターンを含む。検索用認識パターンは、例えば、認識パターン形式の第２番に基づいて作成されている。例えば、図３ｂの認識パターン認識部(identifier)３１によって、検索用認識パターンとデータベース用認識パターンが、異なる認識パターン形式に基づいて作成されていることを、一度、図２の手段２４ａによって設定されれば、より高い特徴を示す強度を有する認識パターン（すなわち、データベース用認識パターン）に変換される。図３ｂに示される実施形態において、変換とは、データベース用認識パターンの第三サブバンドの認識パターンの情報および、第四サブバンドの認識パターンの情報がもはや考慮されないことであり、このことは、つまり、それらの認識パターンの情報が、もはやマッチング操作において重要な役割を果たさないということである。従って、第一サブバンドの認識パターンの情報と第二サブバンドの認識パターンのみが、相互に比較される。あるいは、認識パターン形式の第４番に基づいて作成されているデータベース用認識パターンおよび、認識パターン形式の第２番に基づいて作成されている検索用認識パターンは共に、認識パターン形式の第１番に変換されるため、特に迅速なマッチング操作が所望である場合に有利である。
【００７１】
なお、検索用認識パターンより高い特徴を示す強度を有することが、データベース用認識パターンにとって重要ではないということを指摘しておく。例えば、検索用認識パターンは高い特徴を示す強度を有するが、低い特徴を示す強度を有する古いデータベースしか存在しない場合では、低い特徴を示す強度を有し、かつよりコンパクトな形態に、検索用認識パターンが変換され、そして、マッチング操作が続いて行われるように、工程が逆転され得る。
【００７２】
図３ａにおいて、サブバンド１〜４（３０ａ〜３０ｂ）が重なり合わない様に示されているが、サブバンドの少しの重なりでさえ、高さ(pitch)の変化の頑健性(robustness)が増すことが指摘されている。つまり、信号のピッチ(signal pitch)の変化（例えば、サンプル率の変換(sample rate conversion)または、少し早くまたは、少し遅く再生(play back)された、信号のピッチの変化）に対応する信号変化に関する表現の頑健性を増すように、任意の帯域が重なることが好ましい。また、ピッチに変化が生じた場合、不変の信号に関する任意周波数帯域に存在する信号部分は、任意の状況下で、周波数の変化（例えば、スペクトルの伸張(extension)または圧縮(compression)）に起因して、帯域ｎ−１または帯域ｎ＋１に存在するようになる。そのために、明らかに異なる特徴の価値が生じるので、それに応じて認識率が低下する。本発明の好ましい実施形態では、隣接する帯域間に任意の周波数の範囲が存在するという事実によって、例えば、両方の周波数帯域に存在する多数のＤＦＴラインを使用することによって、この効果は緩和される。指標として、例えば１０％の周波数の範囲の重なりが好ましく、スペクトルのより大きな伸張および圧縮が予測される場合、上記の重なりがより大きくなるように選択することが可能である。
【００７３】
また、拡張性のさらなる次元が時間に基づいて提供される。つまり、個々の特徴の価値を表す数ｎを組み合わせるために、平均値および分散を使用することによって、認識パターンの時間に相関する(time-related)粒度（granularity）が設定される。つまり、コンパクトな記述ではｎについて高い値を選択する、すなわち、（コンパクトな記述ではないものを除く）より多くのものよりも、より高いスケール(higher-scale)である時間に相関した組み合わせを選択する。これを図示し、図４ａおよび４ｂで以下により詳細に説明する。図４ａは、時間ｔにわたるオーディオ信号ｕ（ｔ）のブロック工程、つまり、時系列に明確に示された４つのブロック４０ａ〜４０ｄである。ブロック４０ａ〜４０ｄの全ては、同じ長さ、つまり、同じ数のサンプルを有する。また、認識パターン様式の第３番は、ブロック１〜ブロック４について、特定の認識パターンの情報が計算され記録されているため、非常に高い特徴を示す強度を有した表現を与える。これとは対照的に、認識パターン様式の第２番は、認識パターンの情報が常に２つの連続するブロック、つまり、一方がブロック１およびブロック２と、他方がブロック３およびブロック４とから形成されるため、記憶の点でよりコンパクトであるというよりは、低い特徴の強度を有する認識パターン表現（fingerprint representation）を提供する。また、記憶に関しても好適であり、最も低い特徴を示す強度を有する認識パターン表現は、認識パターン様式の第１番によって最後に示されており、これは、ブロック１〜４のすべての認識パターンの情報を含んでいる。
【００７４】
認識パターン様式の第３番に基づいて作成されている、認識パターンの情報がデータベースに記録される場合であり、かつ、検索用認識パターンが、認識パターン様式の第２番に基づいて作成されている場合、最初の２つのブロックが組み合わされ、次いで検索用認識パターンの最初の認識パターンの情報と比較されるように、データベース用認識パターンが変換される。この手順は次のブロック３およびブロック４に対して繰り返される。この時点で、再び、データベース用認識パターンおよび検索用認識パターンの両方を、認識パターン様式の第１番に基づく認識パターン表現に変換してもよい。
【００７５】
実際のアプリケーションにおいて、認識パターン表現がそれぞれのブロックの認識パターンの情報の平均値または分散を含むように、ｎブロックから認識パターンの情報が組み合わされていることが好ましい。なお、平均値および分散は以下のように定義される：
【００７６】
【数２】

【００７７】
上記の方程式の両方において、ｎは、認識パターンの情報Ｆ_ｉの項の任意の数を組み合わせて、それらから平均値Ｍｎを算出する、ブロックまたは帯域などの数を示す数(index)である。また、分散の上記の定義において、有用でないブロックおよび／または帯域の分散は０に等しいことが指摘される。
【００７８】
図４ｂに関して、認識パターン様式の第３番によって作成されている認識パターン表現であるブロック１の認識パターンの情報は、オーディオの特性の平均値および／または分散を含んでいる。また、同じことが、認識パターン様式の第３番によって作成されている認識パターン表現のブロック２に関する認識パターンの情報にも当てはまる。また、認識パターン様式の第３番に基づく、認識パターン表現のブロック１とブロック２とに関する認識パターンの情報の項目を共に、認識パターン形式の第２番に基づいて生成される認識パターン表現の認識パターンの情報に変換する。つまり、この変換のために、線４２によって示されるように、認識パターン様式の第３番に基づく認識パターン表現の認識パターンの情報が、以下のように変換されなければならない。
【００７９】
平均値：Ｍ_２ｎ（Ｆ）＝０．５・[Ｍ_ｎ（Ｆ）＋Ｍ’_ｎ（Ｆ）]
分散：Ｖ_２ｎ（Ｆ）＝０．５・[Ｖ_ｎ（Ｆ）＋Ｖ’_ｎ（Ｆ）＋０．５・（Ｍ_ｎ（Ｆ）＋Ｍ’_ｎ（Ｆ））^２]
認識パターン表現の時間に相関する粒度(granularity)が、他の認識パターン表現での粒度の整数倍である場合、平均値および分散は相互に比較される。上記の方程式では、例示的な数(factor)として２を当てはめている。また、この方程式において、可変のＮｎおよびＶｎは、認識パターン様式の第２番に基づく、ブロック１の認識パターンの情報についての平均値および／または分散の対応する値を表す。しかし、一方で、Ｍｎ’およびＶｎ’は、図４ｂの認識パターン様式の第３番に基づく、認識パターン表現のブロック２についての平均値および／または分散の値を表す。分散が認識パターンの情報として使用される場合、平均値は、拡張性を保証するために、例えば、さらなる他の認識パターンの情報として必要となる。
【００８０】
ここで、認識パターン様式の第２番に基づく認識パターン表現の認識パターンの情報が、認識パターン様式の第１番に基づく認識パターンの情報と比較可能となるように、類似性によって組み合わせ可能であるということが指摘できる。
【００８１】
従って、可変の時間に相関する粒度の（すなわち、異なる認識パターン形式に基づく）認識パターン表現は、例えば、より詳細な(refined)表現からより雑な(coarse)表現に変換することによって比較されてもよい。
【００８２】
文書(document)ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）（情報技術−マルチメディアコンテンツの記述インターフェイス−パート４（Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔｄｅｓｃｒｉｐｔｉｏｎｉｎｔｅｒｆａｃｅ−Ｐａｒｔ４）：（オーディオ）Ａｕｄｉｏ、２７．１０．２０００）の段落４．２に記載されるように、本発明に係る認識パターン表現は、例えば、いわゆる拡張可能なシリーズ（series）として定義されている。
【図面の簡単な説明】
【００８３】
【図１】識別パターンを生成するためのブロック図である。
【図２】オーディオ信号を特徴付けるための発明の装置のブロック図である。
【図３ａ】オーディオ信号を様々なサブ帯域に細分化する表現を示す図である。
【図３ｂ】図３ａに示すサブ帯域細分化とは異なる識別パターンで生成される識別パターン表現の概念を示す図である。
【図４ａ】時系列にオーディオ信号のブロックの細分化の表現を示す図である。
【図４ｂ】図４ａに示すブロックの細分化とは異なった識別パターン形式に従って生成される様々な識別パターン表現の概念を示す図である。
【図５】パターン認識システムの基本的なブロック図である。

Claims

複数の所定の識別パターン形式を規定した情報（１０）を使用し、オーディオ信号の識別パターンを生成する方法であって、
前記識別パターン形式が全て、同一形式の識別パターンに関するものであるが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、
前記識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている方法において、
前記複数の所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ（１２）と、
前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ（１４）とを含む方法。
高い特徴付け強度を有する認識パターン様式に基づく識別パターンを、低い特徴付け強度を有する認識パターン様式に基づく認識パターンに変換可能とする請求項１に記載の方法。
さらに、制限された伝送容量を有する伝送チャンネルを通しての生成された識別パターンを伝送するステップ、あるいは、限られた記憶容量を有する記憶媒体に生成された識別パターンを格納するステップそれぞれを含んでおり、
識別パターン様式を設定するステップ（１２）において、所定の認識パターン様式を、伝送チャンネルあるいは記憶容量それぞれに応じて設定する請求項１または２に記載の方法。
識別パターンの種類が、オーディオ信号の音質特性に関連している請求項１ないし３の何れか１項に記載の方法。
オーディオ信号が、所定の周波数帯域（３０ａ〜３０ｄ）の所定の数に細分化されており、
各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものであって、前記識別パターン形式が、識別パターン情報の項目数により異なっており、そのため、第１識別パターン様式は、各周波数帯域に分離した識別パターンとして、周波数帯域の第１数のための識別パターン情報の第１項目数を含んでおり、第２識別パターン様式は、各周波数帯域に分離した識別パターンとして、周波数帯域の第２数のための識別パターン情報の第２項目数を含んでおり、
前記第１数と前記第２数とは異なり、前記所定の周波数帯域は、全ての識別パターン形式に対して同じである請求項１ないし４の何れか１項に記載の方法。
オーディオ信号の所定の周波数帯域への細分化において、少なくとも一部分は、対数的な帯域分割を含む請求項５に記載の方法。
周波数に関して互いに隣接した２つの周波数帯域は、重複した領域を有し、この重複した領域におけるスペクトル成分が、両方の隣接した周波数帯域に属する請求項５または６に記載の方法。
全ての識別パターン形式において最も低い周波数を含み、この識別パターン形式は後続の周波数帯域のより高い周波数の数が異なる請求項５ないし７の何れか１項に記載の方法。
前記オーディオ信号は、時系列にブロック（４０ａ〜４０ｄ）に細分化され、所定の長さを有しており、
識別パターンの生成において、ブロック毎の識別パターン情報を決定し、識別パターン形式は、識別パターン情報により表現されたブロックの数が異なり、ブロックの長さは、全ての識別パターン形式で同じである請求項１ないし８の何れか１項に記載の方法。
第１の識別パターン様式は、識別パターン情報として含まれるブロックの第１所定数の平均値および／または分散値を有し、第２の識別パターン様式は、識別パターン情報として含まれるブロックの第２所定数の平均値および／または分散値を有しており、第２所定数に対する第１所定数の比が、整数となる請求項９に記載の方法。
オーディオ信号を特徴付ける方法であって、
複数の所定の識別パターン形式を規定した情報（１０）を使用して、オーディオ信号の識別パターンを生成するステップを含んでおり、前記識別パターン形式は全て、同一形式の識別パターンに関するものであるが、一方ではデータ量が、また他方ではオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、前記識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている方法において、
前記複数の所定の識別パターン形式からなる所定の識別パターン様式を設定するステップ（１２）と、
前記設定された所定の識別パターン様式に基づき、識別パターンを計算するステップ（１４）と、
計算した識別パターンを、オーディオ信号を特徴付ける既知のオーディオ信号を表す複数の保存された識別パターンで比較するステップ（２４）とを含み、前記保存された識別パターンは、複数の識別パターン形式の一つにより生成されており、
前記比較するステップ（２４）は、
検索識別パターンとデータベース識別パターンとが、異なった識別パターン形式で生成されるかどうかを検査するステップ（２４ａ）と、
識別パターンを同じ識別パターン様式で比較するために、検索識別パターンおよび／または、データベース識別パターンを変換するステップ（２４ｂ）と、
同じ識別パターン様式にある識別パターンを用いて比較を行うステップ（２４ｃ）とを含んでいる方法。
各識別パターン様式は、所定の周波数帯域毎の識別パターン情報から生成されたものを含み、前記識別パターン形式が、識別情報の項目数によって異なっており、そのため、第１識別パターン様式は、各周波数帯域に分離した識別パターンとして、周波数帯域の第１数のための識別パターン情報の第１項目数を含み、各周波数帯域に分離した識別パターンとして、周波数帯域の第２数のための識別パターン情報の第１項目数を含み、前記第１数と前記第２数とは異なっており、
変換するステップ（２４ｂ）は、サブ帯域のための識別パターン情報を抑制するステップを含む請求項１１に記載の方法。
オーディオ信号は、時系列にブロック（４０ａ〜４０ｄ）に細分化され、所定の長さを有しており、
識別パターンの生成において、識別パターン情報を、ブロック毎に決定し、前記識別パターン形式は、識別パターン情報により表現されたブロック数が異なり、ブロックの長さは、全ての識別パターン形式で同じであり、
前記変換するステップ（２４ｂ）は、時間的に連続したブロックの識別パターン情報と組み合わせるステップを含む請求項１１に記載の方法。
前記識別パターン情報は、平均値および／または分散値を含み、
検索識別パターンにおいて結合したブロックと、データベース識別パターンにおいて結合したブロックとの間に整数比の関係が存在する請求項１３に記載の方法。
オーディオ信号の識別パターン表現であって、識別パターンに関して、当該識別パターンは、複数の所定の識別パターン形式の一つに応じて構成され、前記識別パターン形式は全て、同一形式の識別パターンに関連するが、この識別パターンは、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている識別パターン表現。
さらに識別パターンの基礎となっている識別パターン様式を示す指標（３１）を含む請求項１５に記載の識別パターン表現。
複数の所定の識別パターン形式を規定した情報（１０）を使用し、オーディオ信号の識別パターンを生成する装置であって、
前記識別パターン形式は全て、同一形式の識別パターンに関連しているが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、前記識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている装置において、
前記複数の所定の識別パターン形式からなる所定の識別パターン様式を設定する手段（１２）と、
前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段（１４）とを備えた装置。
オーディオ信号特徴付ける装置であって、
複数の所定の識別パターン形式を規定した情報（１０）を使用するオーディオ信号の検索識別パターンを生成する手段を備え、前記識別パターン形式は全て、同一形式の識別パターンに関連するが、一方でデータ量が、他方でオーディオ信号を特徴付ける特徴付け強度が互いに異なる様々な識別パターンを有しており、前記識別パターン形式が、オーディオ信号を使用せずに、第１の特徴付け強度を有する識別パターン様式に基づく識別パターンを、第２の特徴付け強度を有する識別パターン様式に基づく識別パターンに変換することができるように予め定められている装置において、
前記複数の所定の識別パターン形式からなる所定の識別パターン様式を設定する手段（１２）と、
前記設定された所定の識別パターン様式に基づき、識別パターンを計算する手段（１４）とを備えており、
前記計算された識別パターンと、オーディオ信号を特徴付けるために既に知られたオーディオ信号を表現する、複数の格納された識別パターンとを比較する手段であって、前記格納された識別パターンは複数の識別パターン形式のうちの１つに基づいて生成されており、この手段が、
検索識別パターンとデータベース識別パターンとが、異なった識別パターン形式で生成されたかどうかを調査する手段（２４ａ）と、
比較された識別パターンが同じ識別パターン様式に応じて存在するように、検索識別パターンおよび／または、データベース識別パターンを変換する手段（２４ｂ）と、
同じ識別パターン様式にある識別パターンを用いて比較を行う手段（２４ｃ）とを備えた装置。