JP2004536348A

JP2004536348A - 録音の自動識別

Info

Publication number: JP2004536348A
Application number: JP2003514541A
Authority: JP
Inventors: ウェルスマックスヴェル; ヴェンカタチャラムヴィドヤ; カッツァンティルカ; ファイチェウンクワン; ダイロンナヴディープ; スキッタノンソムサック
Original assignee: グレースノートインコーポレイテッド
Priority date: 2001-07-20
Filing date: 2002-07-22
Publication date: 2004-12-02
Also published as: DE60236161D1; US20080201140A1; EP1410380A2; AU2002346116A1; US20030086341A1; EP1410380B1; KR20040024870A; WO2003009277A3; US7328153B2; US7881931B2; WO2003009277A2

Abstract

原録音の複製を、複製から特徴を抽出し、これらの特徴のベクトルを生成して、当該ベクトルをベクトルのデータベースと比較することにより識別する。圧縮その他の操作を受けて原音の完全な写しではなくなった録音の複製に対して識別を行なうことができる。高い計算効率により同時に数百クエリーを処理可能である。ベクトルの大きさを１００バイト未満にできるため、携帯装置に数百万ベクトルを保存することができる。

Description

【技術分野】
【０００１】
関連出願の相互検索
本出願は、「録音の自動識別（ＡＵＴＯＭＡＴＩＣＩＤＥＮＴＩＦＩＣＡＴＩＯＮＯＦＳＯＵＮＤＲＥＣＯＲＤＩＮＧＳ）」と題された米国仮出願第６０／３０５，９１１号（ウェルズ（Ｗｅｌｌｓ）ら、２００１年７月２０日出願）に関連しており、これを優先権主張し、本願明細書に援用する。
【０００２】
本発明は、録音の識別に関し、より具体的には楽曲や話し言葉の録音等、録音の識別に関する。
【背景技術】
【０００３】
識別とは、録音の複製が原音または基準録音と同一であることを確認するプロセスである。登録、監視および制御（これら全てが権利所有者および音楽製作者の報酬を保証するために重要である）を行うため録音は自動的に識別されることが必要である。また、楽曲に付加価値を与える、あるいは価値を引き出すために、識別が必要とされる。登録とは、コンテンツ所有者が自分の所有権を記録するプロセスである。監視とは、一般に報酬の支払いに利用するため、所有者への報告用にコンテンツの移動および利用を記録することである。制御とは、コンテンツの利用および移動に関するコンテンツ所有者の要求を強制するプロセスである。
【０００４】
楽曲に付加価値を与える例として、ラベルが付与されていない、または誤ったラベルが付与されたコンテンツを識別することが挙げられる。すると、楽曲利用者が楽曲および識別情報の入手や編集を容易に行なえるようになるばかりか、ユーザーに対し、例えばアーティストの情報や類似楽曲の推薦等、関連コンテンツを提供可能にすることもできるようになる。
【０００５】
楽曲から価値を引き出す例として、楽曲が識別されることで人々に購入機会を提供したり、聞き手のサイコグラフィックス（心理傾向）に関する何らかの分析を行なうことが含まれる。例えば特定の曲は、その曲自体または同じアーティストの関連する曲の購入、あるいはそのアーティストにより人気が出た衣料品の購入を誘発するかもしれない。これは、広告宣伝を配信する媒体として楽曲を用いることにより楽曲から価値を引き出す例である。更に、サイコグラフィックスは心理的、社会的、および人類学的要素を用いて、市場内の集団が製品、人物、イデオロギーについてどのように決定を下すか、逆に態度を保留したりメディアを利用する等の傾向により市場がどのようにセグメント化されているかを決定する。この情報は、より対象を絞った広告宣伝や取引に利用される。これは、楽曲を用いて聞き手のプロファイリングを行い楽曲から価値を引き出す例である。
【０００６】
監視には、保存された楽曲の配信と、再生された楽曲の配信を監視する二種類がある。保存された楽曲は、「機械的」または「複製的」権利が伴う複製物と考えられる。再生された楽曲は、生演奏か録音の再生かによらず実演（パフォーマンス）であると考えられる。この境界により、異なる集金構造が存在することになり、それぞれ別の組織が管理している。ある組織（ハリー・フォックス代理店（ＨａｒｒｙＦｏｘＡｇｅｎｃｙ））はＣＤやテープが売れたときに複製ロイヤリティを徴収する。これらの物理的商品は、各種の会計実務および技術を用いてカウントおよび監視される。ＡＳＣＡＰ、ＢＭＩおよびＳＥＳＡＣは、ラジオまたは公開の場で生の、または録音された楽曲が演奏された際に演奏ロイヤリティを徴収する。こうした演奏は、自動識別と人間による識別を組み合わせて監視される。
【０００７】
楽曲の配信方法にはいくつか異なるものがある。生の楽曲は、ラジオやテレビ（アナログとデジタルの両方）、およびインターネットを介して演奏空間に「配信される」。保存された楽曲その他の録音は、録音に付随する物理媒体（ＣＤ、カセット、ミニ・ディスク、ＣＤ−ＲＷ、ＤＶＤ）で配信することができ、これらは移動（保存、配送、販売）可能である。しかし、録音は物理媒体に常に付随するものではない。電子形式によるストリーミング配信や格納場所の移動により簡単に楽曲は別の場所へ搬送される。どちらも、録音の搬送には、ラジオまたはインターネットのいずれかが用いられる。
【０００８】
デジタル楽曲およびインターネットによって、楽曲を配信して利用する方法、および楽曲を識別するための要件が変化している。これらの変化が生じたのは、インターネットを用いれば演奏と複製の両方を配信することができ、また配信チャネルの数が増大するからである。
【０００９】
地上ラジオ局が同一の曲を再生すれば常時１０００人の聞き手に届けることができるのに対し、インターネット・ラジオ局は異なる１０００曲を再生しながら同時に１０００人の聞き手に届けることができる。これは、選曲が増大かつ多様化する中で楽曲を識別する必要があることを意味する。
【００１０】
楽曲関連の既存ビジネス・モデルは課題に直面している。例えば、パソコンに付属するＣＤ読み取り装置やピア・ツー・ピア型サービスにより楽曲の複製や交換が以前より容易に行なえる。そこで、楽曲を登録、監視、制御し、価値を引き出す新たな方法が求められている。
【００１１】
デジタル楽曲を複製するのは容易である。利用者は、各種の消費者向け電子装置用にいろいろなメディア・フォーマットで複製を作ることが可能である。従って、複数のメディア・フォーマットや装置のタイプを相手により多くの複製された曲を識別することが必要になる。インターネットに接続していない装置もあるため、識別システムには追加的な要件が課されるこおになる。
【００１２】
あらゆる配信チャネルにわたってストリーミングまたは搬送された楽曲を識別可能な単一のソリューションが必要である。それは、スケールメリットが発揮でき、各種の方法やデータベースが違っても調整する必要がなく、課題全般に対し簡便なソリューションを提供することになるからである。
【００１３】
現行の方法は、タグ取付け、電子透かし、暗号化、および音紋（楽曲に固有の特徴を利用）を利用する。タグは、物理媒体またはデジタル複製に取り付けられる。タグに含まれる最小限の共通項はアーティストと曲名の対（ＡＴＰ）である。他の情報として、発行者、ラベル、および日付が含まれていてもよい。録音に一意的なＩＤを付与する試みには、ＩＳＲＣ（国際標準レコーディングコード）、ＩＳＷＣ（国際標準楽曲著作物コード）、ＥＡＮ（欧州統一商品番号）、ＵＰＣ（統一商品コード）、ＩＳＭＮ（国際標準楽譜番号）およびＣＡＥ（作曲者、作詞者、編曲者）がある。全て英数字コードであって、録音の物理的複製に添付されているか、またはデジタル複製に埋め込まれている。さまざまなコードを作成する理由は、作品の自動識別および追跡を支援するためである。
【００１４】
しかし、ＡＴＰおよび英数字コードを用いると問題が生じる。それらは、取り外しや変更が容易に行なえる（その証拠にコンテンツをブロックするためＡＴＰを用いたナップスターによる最近の試みがある）。それらが取り外されたり変更された場合、再添付や修正に人間の介入（聴取）が必要になる。コンテンツがタグに表示されている通りであることを自動的に証明する方法は存在しない。また、タグは複製する前に原音に取り付けなければならないので、旧来のコンテンツへは有益性がない。添付を怠ったり、誤って添付されることもある。効果を発揮するためには膨大な業界関係者の参加を必要とする。ＥＡＮ／ＵＰＣはＣＤを識別するが、個々の楽曲の追跡には役立たない。又、いくつかの国において、楽曲と一緒にデータを送信すること禁じる法律があり、タグの有益性が制約される。また、このようなデータを送信するには帯域幅を増やす必要が生じる恐れがある。
【００１５】
電子透かしは、特殊な読み取り装置により読み取られる、抹消不能かつ不可聴な信号を付与するものである。電子透かしはノイズに対しての耐性がある。電子透かしは生と録音済みコンテンツの組み合わせ、例えば録音済みのバックグラウンド・ミュージックを背景にアナウンサーが話すような場合に有効である。電子透かしは、データベースにアクセスする必要なしに付加的な情報を配信することができる。しかし、電子透かしには次のような課題がある。すなわち、必ずしも不消滅、不可聴であるとは限らない。又、複製する前に原音に透かしを加える必要があり、旧来のコンテンツでは有益性が制約されてしまう。そして、旧来のコンテンツに適用したとしても、まず最初に楽曲を識別する方法が依然として必要となる。
【００１６】
暗号化は、鍵なしではコンテンツにアクセス不可にするためのソフトウェアの技術を利用する。識別は暗号化の前に行なわれ、識別情報（メタデータ）は楽曲に固定される。暗号化に関してもいくつかの課題が存在する。すなわち、旧来のコンテンツでは有益性が制約され、旧来のコンテンツに適用しても、依然としてコンテンツを識別する方法が必要となる。そして、楽曲に「施錠」することに対する消費者の抵抗もある。これらの課題の原因は、施錠された楽曲を再生する装置と再生しない装置との間に互換性がないためであり、既存の楽曲コレクションを再生できない恐れのある装置、および消費者が現在所有している装置で再生できない恐れのある楽曲をしぶしぶ購入させることにつながる点にある。
【００１７】
別のアプローチは、楽曲固有の特徴を用いて「音紋」を提供することである。識別する特徴は楽曲の一部である。従ってそれらを変えれば楽曲も変わる。この方法の利点は以下の通りである。楽曲には何ら手が加えられない。音紋はいつでも再生成可能である。音紋は、旧来のコンテンツでも機能し、広範な産業分野で採用されなくても全てのコンテンツに適用可能である。そして、楽曲全体から音紋が生成可能であり、従ってその曲の完全性および真正性が保される。
【００１８】
現在の音紋を利用した識別方法は、以下に詳述する制約の存在により適切でない。制約とは、（１）多数の曲を識別する必要があること、および（２）原音からわずかに改変された曲を識別することが求められることである。改変は、人間にとってその曲が異なるものと判断するには不十分である。しかし、機械に判断させるには十分である。つまり、現在の音紋利用識別方法における問題は、あるシステムでは多数の曲を扱えるがそれらの改変に対処できず、一方、他のシステムでは各種の改変を扱えるが多数の曲に対処できない点である。
【００１９】
楽曲の改変は、さまざまな「配信チャネルの影響」により発生し得る。例えば、ラジオで再生された楽曲は、静的および動的周波数特性調整（イコライゼーション）および音量正規化を受ける。楽曲はまた、スピードを速めたり遅くすることにより再生時間が短縮または延長される。保存された楽曲は、ラジオで生じるのと同じ効果、および他の操作に起因して原音から改変されうる。最も一般的な操作は、コーデックの利用により、保存された楽曲ファイルのサイズを減らして保存や移動に更に適したものにすることである。最も一般的なコーデックはＭＰ３である。コーデックは、曲を圧縮形式にエンコードして、再生時に聞こえるようデコードまたは伸長する。理想的なコーデックは、圧縮や伸長を受けたバージョンが原音と同じに聞こえるように、知覚上余分な部分だけを除去する。しかし、このプロセスは不可逆的であり、複製の波形を原音とは異なるものに変えてしまう。他の操作およびその発現（配信チャネルの影響）について以下に述べる。
【００２０】
既存の方法は、保存された録音の識別と再生（演奏）された録音の識別を目的としている。２種の識別システムの主な差異は以下の通りである。
−再生された楽曲の識別システムは、曲の開始位置が不明でも曲を識別できなければならない。保存された楽曲では開始位置が容易に特定される。
−再生された楽曲の識別では、最大約１０,０００曲分の基準録音が扱えればよい。保存された楽曲ではそれより大容量を必要とする。
−再生された楽曲は再生中に識別されるため、音紋の抽出や検索速度には厳しい要件が無い。多くのアプリケーションにおいて、保存された楽曲はリアルタイムに識別できなければならない。
−再生された楽曲の識別は、数千のラジオ局を対象とすれば済む場合がある。保存された楽曲の場合、数千万もの個々の楽曲ユーザーを対象とする必要がある。
−再生された楽曲は、原音からの改変を行う操作を前提として識別が行われなければならない。保存された楽曲を識別する従来技術による方法は、改変に対処するするようには設計されていない。
【００２１】
どちらのカテゴリとも、固有特性の利用、メタデータの追加または不可聴信号の追加に依存する技術を含む。しかし、改変の検証には録音の固有の特性を、それ自体または他の情報と組み合わせて利用する識別技術が専ら用いられる。
【００２２】
コンパクトディスク（ＣＤ）上の楽曲の複製を識別すべく共通的に利用される技術の一つとして、米国特許第６,２３０,１９２号に記載されている、トラック間の間隔およびトラックの持続期間またはＣＤのＴＯＣ（Table Of Contents）を利用してＣＤの固有識別子を作成する方法がある。ＣＤ識別子を用いて、既に完成しているデータベースからトラックの名前と順序を検索する。この方法は、楽曲がＣＤからコンピュータ・ハードディスクドライブへ複製されてしまえば機能しない。
【００２３】
別の技術にはハッシュ・アルゴリズムを用いてファイルにラベル付けするものがある。セキュア・ハッシュ・アルゴリズム（ＳＨＡ１）やＭＤ５等のハッシュ・アルゴリズムは、デジタル署名を実施するためにある。デジタル署名では、長大なメッセージを秘密鍵で署名する前に安全な方法で「圧縮」する必要がある。各アルゴリズムは任意の長さの楽曲ファイルに適用でき、１２８ビットのメッセージ・ダイジェストが生成される。ハッシュ値の利点は、抽出が速く行なえ、サイズが小さく、各々のハッシュがファイルの固有識別子であるためにそれらを用いて高速なデータベース検索を実行することができる点である。不利な点は以下の通りである。
（１）このアルゴリズムは改竄への安全性を考慮して設計されているため、ファイルに対するたとえわずかな変更でもハッシュ値が異なる。その結果、ファイルが何らかの「チャネルの影響」を受けるとハッシュ値が変化する。例えば、ナップスター等、大規模なファイル共有交換機構の各々の楽曲には平均５５０のバリエーション（改変された曲）がある。楽曲のわずかな変更（例えばサンプルを１つ除去）でも異なるハッシュ値を生じるため、楽曲を識別する目的に用いることができない。
（２）楽曲ファイルの各々のバリエーション（改変）に対して異なるハッシュをデータベースに保存する必要があるため、多対１の関係を有する巨大なデータベースが生じる。
【００２４】
更に別の技術が米国特許第５,９１８,２２３号に記載されている。この方法は、一つの楽曲から一連の特徴ベクトルを抽出して、識別のためデータベースへ送る。この技術の利点は、特徴ベクトルが楽曲の固有の特徴でかつ知覚上顕著な特徴により構成される点である。このことは、それらがチャネルの影響の多くに対し、チャネルの影響があっても識別結果が左右されない堅牢性を持つであろうことを意味する。不利な点は以下の通りである。
（１）特徴ベクトルの抽出の計算負荷が大きい
（２）特徴ベクトルが巨大である。すなわち、
（ａ）検索に長時間かかり、多数の問い合わせ用に実装するコストが大きい。
【００２５】
（ｂ）ネットワーク・トラフィック量を増やす。
（３）個々のベクトルは、一意的に楽曲を識別するのに十分な情報を含んでいない。複数の特徴ベクトルをデータベースでマッチングさせて、ようやく識別が完了する。従って、検索に長時間かかり、データベースはサイズに制約が課せられる。
（４）この技術が全ての配信チャネルの影響に耐性があることが保障されていない。
【００２６】
再生された録音を識別する一方法がケニオン（Ｋｅｎｙｏｎ）により米国特許第５,２１０,８２０号により記載されている。第８２０号特許は、主にラジオ局監視用に設計されており、関心対象の地上ラジオ局に同調させたリスニングステーションから信号が得られる。このシステムでは、速度変化、ノイズ・バースト、および信号欠落の影響を受けても曲を識別することができる。５個のラジオ・チャンネルの各々で約１０,０００曲のうちの１曲を監視することができる。開示された技術は相当堅牢であるが、使用されるデータベース検索技術が原因で、基準曲のデータベースのサイズが制限されてしまう。
【発明の開示】
【発明が解決しようとする課題】
【００２７】
全ての録音を識別しようとすれば、２００２年初頭時において約１０００万曲の保存された楽曲が対象になる。ストリーミングされた楽曲の場合、この数は、数万のオーダーである。従来技術は、ストリーミングされた楽曲に焦点をあてているが、曲数がこれよりはるかに少ない。
【００２８】
旧来のコンテンツを識別する場合、既存のデジタル楽曲の複製約５０００億曲が該当する。原音生成時に楽曲を識別するための作業が必要な方法ではこれらの複製を識別することができない。
【００２９】
新しいコンテンツは、大多数のポピュラー楽曲を含み、配信元がある程度限定され、ワークフローを制御するプロセスが整備された比較的少数の曲に加え、さまざまな配信元から配信されるより多くの曲で構成される。これらの場所は地理的に分散しており、ワークフロー管理はまちまちである。従って、生成時にで楽曲を識別するための作業が必要がある方法では大多数の曲を識別することができない。
【課題を解決するための手段】
【００３０】
本発明の態様によれば、旧来のコンテンツおよび新しいコンテンツを含む、全ての録音を自動的に識別することができる。
【００３１】
本発明の別の態様によれば、高速で録音を識別することでができる。本システムは、リアルタイムで何度も楽曲を識別することが可能である。例えば、３分の楽曲は３秒未満で識別可能であろう。
【００３２】
本発明の更なる態様によれば、抽出および検索を計算効率良く行ない、自動的に録音が識別される。多くの曲は処理能力が限られた家電製品で行なわれるため、音紋の抽出および検索には効率良く計算することが望まれる。
【００３３】
本発明の更に別の態様によれば、各々の録音から抽出された小さい音紋、およびコンパクトな検索コードを用いて自動的に録音が識別される。これはどちらも、楽曲の多くが記憶空間が限られた家電製品で識別されることから、望ましい。
【００３４】
本発明のまた更なる態様によれば、故意または偶然にかかわらず、タグが無かろうが誤って適用されていようが録音が識別される。
【００３５】
本発明の更に別の態様によれば、「配信チャネルの影響」により録音が改変される場合にその改変が自動的に識別される。それらの「影響」のうち考慮すべきものは以下の通りである。
（１）ＤＣ値：時間領域のデジタル化された楽曲波形振幅の平均値。
（２）位相反転：楽曲波形の各時間領域デジタル・サンプルに−１を乗ずるプロセス。マルチチャネル楽曲の場合、全チャネルに位相反転が適用される。
（３）ピッチ不変速度増加：ピッチに影響を及ぼすことなく楽曲の再生速度を上げるプロセス。
（４）ピーク制限：最大信号振幅を所定の閾値に制限するプロセス。
（５）音量正規化：音声ファイルのゲインを最大音量位置（またはサンプル）が最大レベルになるまで増大させるプロセス。
（６）ダイナミックレンジ縮小：音声のダイナミックレンジを縮小させるプロセス。ダイナミックレンジとは、音声の最弱または最小部分に対する最強または最大部分の比率であり、ｄＢ単位で測定される。
（７）イコライゼーション：周波数の相対的なバランスを変えて音声に所望の調声特徴を生成するプロセス。
（８）再マスタリング：最初のマスタリング終了後に録音をマスタリングするプロセス。録音を録り直すか、または異なるアルバムに収録するために「マスター・テープ」が再加工される際に生じる場合がある。実際のマスタリング施設を使う場合もあるが、他の場合には「マスタリング済み」素材を複製工場に直接送って、最後の数段階を実施する。典型的なマスタリングの効果には、イコライゼーション、ダイナミックレンジ縮少、ピーク制限、音量正規化、ステレオ感の拡張、フェード編集、および単に楽曲を正しい順序に並び替えること等、音声信号の各種のプロセスが含まれる。
（９）位相反転：楽曲波形の各時間領域デジタル・サンプルに−１を乗ずるプロセス。マルチチャネル楽曲の場合、全チャネルに位相反転が適用される。
（１０）ピッチ不変速度増加：ピッチに影響を及ぼすことなく楽曲の再生速度を上げるプロセス。
（１１）ピーク制限：最大信号振幅を所定の閾値に制限するプロセス。
（１２）音量正規化：音声ファイルのゲインを最大音量位置（またはサンプル）が最大レベルになるまで増大させるプロセス。
（１３）ダイナミックレンジ縮小：音声のダイナミックレンジを縮小させるプロセス。ダイナミックレンジとは、音声の最弱または最小部分に対する最強または最大部分の比率であり、ｄＢ単位で測定される。
（１４）イコライゼーション：周波数の相対的なバランスを変えて音声に所望の調声特徴を生成するプロセス。
【００３６】
旧来のコンテンツを取扱可能とするために、原音生成時における作業が必要な、暗号化、透かし、またはタグ付与に基づくシステムは除外される。タグの単純な操作に対して堅牢なシステムとするために、タグ付与システムは除外される。これにより、要件の大半を満たす唯一の方法として音紋利用が残る。
【００３７】
更なる要件は、１曲が完全な状態であり正確であることが保証されるよう１つの曲の全体がチェックされることにある。この要件の理由は以下の通りである。（１）楽曲の権利所有者またはアーティストが、必ず１曲の初めから終わりまで楽曲全体が配信されることを望む場合に品質を保証するため、そして（２）ネットワークを介して不法に楽曲を配信するための方策としての、素性を偽る試みに関係するなりすましを防止するためである。音紋が楽曲の一部、例えば先頭付近で採取されている場合、システムを欺こうとする者は先頭付近だけ合法な楽曲に入れ替えて残りに違法な楽曲を付加するかもしれない。
【００３８】
本発明の更なる態様は、全ての曲の自動識別および認証である。
【００３９】
上記の各態様は、未識別録音の少なくとも１つの部分から少なくとも１つの候補音紋を抽出して、当該少なくとも１つの候補音紋から導かれた少なくとも１つの値と複数の基準音紋のうちの少なくとも１つの基準音紋の値との合致を求めることにより録音を識別する方法により実現される。
【００４０】
上記に続いて開示されるその他の態様および利点は、以下の明細書本文および請求項にて詳述する構造および動作に含まれている。尚、添付の図面を検索する場合において同一番号は同一部材を指示する。
【発明を実施するための最良の形態】
【００４１】
本発明に従って楽曲固有の特徴（音紋）に基づく自動識別システムで実行されるステップは以下の通りである。特徴（要素）を選択し、特徴から音紋を作成し、データベースを検索し、プロセスを拡張して最適化する。音紋に使用する要素を選択する方法を図１Ａに示し、本発明の実施形態に基づく要素の抽出手順を図１Ｂに示す。
【００４２】
音紋に使用する要素を選択する例として、図１Ａのテスト集合１０１は、１０,０００種の録音を集めたものである。テスト集合１０２は、各種操作により「チャネルの影響」が及ぼされた録音の集合である。「影響」の範囲を決める操作については先に述べた通りである。テスト集合および「影響」付きテスト集合の両方から候補となる要素（候補要素）が抽出され（１０３、１０４）、これらの要素が比較される（１０５）。操作の影響が一切現われない要素を選ぶことが理想的であるが、現実には所定の閾値との比較を行い（１０６）、差が閾値を超えない候補要素に対して更なるテストが行われる（１０７）。
【００４３】
各種「影響」に対する変化の度合いが閾値を超えない範囲であれば、候補要素はサイズおよび抽出速度を基に更に選別される。音紋は好適には１秒未満で抽出され、音紋の最終的なサイズは好適には１００バイト未満である。これら３個の基準を全て満たした要素が音紋に利用すべく検討され、一つでも基準を満足しない候補要素は除外される。
【００４４】
音紋はこれらの要素を結合してできる。そして、値の量子化が試みられる。これは、各要素の値の連続区間をサンプリングし重なり合わない部分区間に分割し、各部分区間に離散的かつ一意的な値を割り当てるプロセスである。これが成功すれば、その後のデータベース検索が簡単に行える。しかしこれらの要素は音声への改変の影響を受けやすく、量子化すると音紋の精度が下がる課題がある。
【００４５】
解決すべき別の問題は、音紋内の要素数をいくつにするのが最適かということである。生成できる一意的な音紋の数ＦＰは、要素の個数ｎおよび各要素の離散値の個数ｅの関数として、
ＦＰ＝ｅⁿ
により表される。
【００４６】
レベル数ｅ、要素数ｎを自由に組み合わせることができることを考えると、各々１０レベルを有する３個の要素を含む音紋システムは最大１０³すなわち１０００個の固有音紋（一意的な音紋）を有するであろう。ｅまたはｎを増やすことにより、一意的な値の個数を増加させることは可能であろう。しかし、要素の個数を増やすと音紋のサイズが増大する。上述の理由により音紋のサイズは小さい方が望ましい。また、代表的な録音のサンプルにおいて検出されない要素が出ることが経験的に知られている。これは、単にｅまたはｎの値を増やしても音紋システムの能力が増すものではないことを意味する。また、値を連結してできるベクトルにより表わされたｎ次元超空間内における音紋同士が接触しないよう最小間隔を空けるための設定が必要なことが経験的にわかっている。
【００４７】
従って、音紋作成プロセスの一部は、要件を最適に満たす要素の個数や値を決定することを含む。各々３２,７６８個の値を有する３０個の要素を使用すれば最大限２億個の音紋を与えることがわかる。
【００４８】
データベースの検索をする際の課題は、基準音紋のデータベース（数百万ものエントリが含まれる）から合理的な時間内で候補となる音紋（候補音紋）に最も合致する音紋を得ることにある。２種の可能な方法として、完全一致検索および部分一致検索すなわちファジーマッチングがある。完全一致検索またはハッシュ・キー法は、拡張可能性（スケーラビリティ）、簡便性、かつ明確性（直接テーブル検索）により巨大なデータベースを検索するのに最適な方法である。しかし、完全一致検索を行うには、前に述べたように、各種の影響に対して音紋が完全に不変である必要があるが、分析の結果音紋は影響に対して不変ではなく、これを適用することができないことがわかった。
【００４９】
別の方法は、影響に対する不変性をある程度（通常は相当な程度）有する音紋を作成して、部分一致検索すなわちファジーマッチングを利用することである。実用的なファジーマッチング・システムを実装するには２つの要件がある。すなわち、検索空間を取り扱い可能なサイズまで小さくする「知的な」戦略を立てることと、合致度の客観的な指標を決定することである。クエリー（問い合わせ）、トリガー（起動指示）、または候補音紋が与えられたとき、データベースにおける合致度を決定する必要が生じる。合致度の客観的な指標はスカラー値として定義され、合致するか否かの境界を形成する。
【００５０】
システム性能に関するいくつかのテストが１０００万個の擬似楽曲音紋のデータベースで行われた。しかし、実際の楽曲の音紋を用いたフルスケールの稼動系システムでなければ答えが得られないシステム性能の問題がいくつかある。このために世界の楽曲を代表する、実際の楽曲が１００万曲分集められた。従ってこれ以外では不可能であった精度および性能のテストを行なうことが可能になった。続いてシステムの性能を（ａ）検索時間を短縮すべくデータベースに対して検索をかける音紋ベクトル内の要素の並び順を変えて、（ｂ）検索時間を短縮すべくメモリ内で音紋のキャッシュを用いることにより最適化した。その結果得られた方法は、ファジーマッチングの持つ堅牢性および柔軟性と、完全一致検索の持つ速さが組み合わされて、ストリーミングされた楽曲の識別に適用することができる。
【００５１】
以下に述べる本発明の実施例は、巨大なデータベースを高速検索し、各種のパラメータを調整することにより検索を最適化し、開始位置が不明な録音を識別するシステムを使用し、識別のために楽曲全体から音紋に用いる要素を抽出するものである。本発明の実施形態においては、コンテンツを識別するための部分一致検索と連続的な検索の速度を上げる完全一致検索とを組み合わせて用いる。
【００５２】
デジタル・オーディオ・ファイルは、異なるエンコーダ、ビット・レート、およびサンプリング周波数に応じてさまざまなフォーマットで存在する。図１Ｂに示すように、好適には、音声信号を処理して全ての楽曲に共通かつ音紋抽出段階で容易に操作できるフォーマットにまとめる調整段階２０１が含まれている。信号調整段階２０１では、データのストリームを抽出し、無音部分を除去して、音紋の堅牢性を高めるための変換を実行する。
【００５３】
調整段階の好適な方法では、各種の入力から、１１,０２５Ｈｚでサンプリングされたモノラル・アナログ波形を表わすデータのパルス・コード変調（ＰＣＭ）ストリームを生成する。先頭からゼロを除去してゆき、初めて非ゼロのデータ点が３つ連続すれば、その最初の非ゼロデータ点が曲の開始位置と考えられる。抽出された区間は、開始位置から１５６,９０４個の連続するサンプルから成る。これは、ファイルの最初の１４．２３秒を形成する。サンプリング・レートおよびサンプルのサイズは、音紋の品質、データのサイズ、および抽出時間の適当な妥協点を表わす。
【００５４】
本発明の別の実施例では、ＰＣＭストリームの異なる区間を抽出することができる。例えば、開始位置から第１５６,９０５番目のサンプルから始まり、次の１５６,９０４個の連続するサンプルを使用する区間である。
【００５５】
本発明の更に別の実施形態において、楽曲の第二の区間が抽出される。例えば、開始位置後の最初の１５０,０００個の連続するサンプル、および開始位置の３０秒後の１００,０００個のサンプルの集合である。
【００５６】
信号調整段階２０１ではまた、ＰＣＭストリームを変換して音紋の堅牢性を向上させるステップを含んでいてよい。好適な方法は、ヒストグラム等化を用いて制限に関する「影響」に対して音紋を堅牢にすることである。ヒストグラム等化は、画像のコントラストを強調すべく画像処理でよく用いられる。音声の制限とは、ヒストグラム等化と類似した操作で、各サンプル値を個々に別の値にマッピングするものであるある。制限を行う目的は、他は不変のままに異常値を抑制することにある。手順を図２に示す。ＰＣＭストリーム２１８の個々の音声サンプルが、所定の振幅範囲により区分けされた枠に配置され、ヒストグラム２２０が構成される。その結果得られたヒストグラムは、ｘ軸に振幅、およびｙ軸に各枠のサンプル数を表わす。このヒストグラムは正規化されて、全ての枠の値の合計が単位値に等しくなる（２２２）。このように、ヒストグラムの各バー（横棒）は、その振幅でのサンプル出現の確率密度関数を表わす。確率密度関数を合算すると累積確率密度が生成される（２２４）。ヒストグラムが平坦である、すなわち各振幅でのサンプルの発生確率が等しい場合、結果として得られる累積確率曲線は単調になる。サンプルは、累積確率曲線が極力単調になるように再マッピングされ（２２６）、その結果再形成されたヒストグラムが得られる（２２８）。新しい値は、ヒストグラム等化された音声を表わすものとしてＰＣＭストリームへ逆マッピングされる（２３０）。他の実施例では、ステップ２２６で非単調な形状への異なるマッピングを使用する。
【００５７】
本発明の別の実施形態では、一定時間にわたり非常に広いダイナミックレンジを示すいくつかの楽曲サンプルを考慮する。例えば、クラシック楽曲では大音量区間の前に静かな区間があり得る。これに対応すべく、画像処理における局所コントラスト強調に似たプロセスを用いる。そして、ヒストグラム等化が、サンプルのより小さい部分区間に対して個別に適用される。大多数の部分区間は、自己相似となるであろう。サンプルに含まれる振幅が離散的である場合、部分区間の多くはいずれかの区間の内部に完全に包含されよう。サンプルがより緩やかで大規模な変動を持つ場合、部分区間の多くはその大規模変動の一部になるだけであろう。
【００５８】
本発明の更に別の実施形態は周波数特性調整（イコライゼーション）の影響を考慮する。周波数特性調整、すなわちＥＱは、個別の周波数帯域の出力を増大または減衰させる方法である。音紋の主成分は各周波数帯域内の出力であるため、ＥＱの量が大きい場合、音紋が変わる。帯域毎に正規化を行い信号を処理することにより、結果的に得られる音紋はＥＱに対する耐性が強化される。これにより、音紋を用いて周波数特性調整された楽曲を識別することが可能になる。好適な方法を図３に示すが、それらは以下の通りである。
（１）ＰＣＭ音声ストリーム２３２の所与の１５秒のサンプルから、フレームｊ２３４（約３秒）を抽出する。
（２）フレームのＤＣＴを取得して（２３６）、同サイズの周波数帯域へ分割する（２３８）。好適な方法は３２個の帯域を使用する。
（３）フレームｊに対する各帯域ｉのＤＣＴ値をＬ１距離が１になるよう正規化する（２４０）。
（４）各帯域ｉの正規化済みＤＣＴ値の標準偏差を計算する（２４２）。この値は、時間−周波数行列Ｘ２４４の第（ｉ，ｊ）要素に対応する。
（５）約０．５秒のステップ・サイズを用いて上述の処理繰り返す（２４６）。
（６）行列Ｘから、わずかな信号の変動に極めて高感度な帯域を除去する（２５０）。好適な方法では帯域１、および帯域２６〜３２が除去される。
（７）フレーム毎に平均値を取ったものを並べてなる全帯域平均ベクトルｐｌと帯域毎に平均値を取ったものを並べてなる全フレーム平均ベクトルｐ２を計算する（２５２）。
（８）ｐ１およびｐ２を各々Ｌ１距離が１になるように正規化する（２５４）。
（９）正規化されたｐｌおよびｐ２を連結してＦＰベクトルを形成する（２５６）。
【００５９】
本発明の別の実施形態は以下の通りである。
（１）音紋抽出に用いられる音声の同じ部分を読み込む。
（２）各周波数部分帯域内のエンベロープを、音紋で用いられている形で抽出する。エンベロープの抽出は好適には４次バターワース・帯域通過フィルタにより実行される。
（３）各エンベロープ内のエンベロープのＬ１距離が単位値に等しいように各部分帯域内のエンベロープを正規化する。
（４）音紋を抽出する。
【００６０】
本発明の更に別の実施形態においては、対角周波数領域の出力を用いる。これは、時間および周波数操作に伴う影響のどちらにも対抗する。その方法は以下の通りである。
（１）ＰＣＭストリームの所与の１５秒のサンプルから、フレームｊ（約３秒）を抽出する。
（２）フレームのＤＣＴを取得して、同サイズの周波数帯域へ（ここでは３２個）に分割する。
（３）フレームｊに対応する各帯域ｉのＤＣＴ値をＬ１距離が１になるように正規化する。
（４）各帯域ｉの正規化ＤＣＴ値の標準偏差を計算する。この値は、時間−周波数行列Ｘの第（ｉ，ｊ）要素に対応する。
（５）約０．５秒のステップ・サイズを用いて上述の処理繰り返す。
（６）行列Ｘから、わずかな信号の改変に極めて高感度な帯域を除去する。（この場合、帯域１、および帯域２６〜３２に決定。）
（７）主対角およびＸの両側の８個の非対角要素を取得してベクトルｐ１とする。
（８）反時計回りに９０度回転させた行列Ｘについて（ｇ）を繰り返してベクトルｐ２を得る。
（９）ｐ１およびｐ２を各々Ｌ１距離が１になるように正規化する。
（１０）正規化されたｐｌおよびｐ２を連結してＦＰベクトルを形成する。
【００６１】
時間周波数分解２０２により、信号調整段階２０１を経て出力されるＰＣＭ信号を時間領域から周波数領域に変換する。その際に選択されるパラメータは、（ａ）楽曲間のわずかな差異を検知する感度または能力を最適化し、（ｂ）堅牢性を最適化、すなわち時間または周波数の圧縮および各種のコーデックにより生じる改変の影響を最小化し、（ｃ）計算時間を最小化すべく選択されている。これは、時間と共に変動する信号を持続期間、すなわちある長さを有するフレームに切って（その際フレーム間に若干の重なりが生じる）、各フレームを周波数領域へ変換し、次いでフレームを帯域に分割する（帯域をまたがって若干の重なりが生じる）ものである。
【００６２】
時間−周波数分解の方法の実施形態を図４に示す。３２,７６８個の連続するサンプル（２．９７秒）の各々の１２個の重なり合うフレーム３０１〜３１２の第一フレーム３０１が集められて、離散コサイン変換（ＤＣＴ）３２０を介して時間領域から周波数領域に変換されて、３２,７６８個の周波数振幅ベクトルを生成する。結果的に得られる周波数解像度は、１１,０２５／（２＊３２,７６８）＝０．１６８Ｈｚ／サンプルである。結果的に得られる周波数領域ベクトルの一部が、帯域通過フィルタ３２２を介して、以下の帯域エッジ（Ｈｚ単位）により１５個の周波数帯域へ分割される３２２。１５個の周波数帯域は、０〜１００、１００〜２００、２００〜３００、３００〜４００、４００〜５１０、５１０〜６３０、６３０〜７７０、７７０〜９２０、９２０〜１０８０、１０８０〜１２７０、１２７０〜１４８０、１４８０〜１７２０、１７２０〜２０００、２０００〜２３２０、２３２０〜２７００である。帯域に分割された周波数振幅のベクトル３２６〜３３７は、各時間に対応する成分が周波数振幅行列の列成分を形成する。
【００６３】
３２,７６８個のサンプルの次のフレーム３０２がデータから集められるが、１５６,９０４個のサンプルの元のシーケンスの上を１４,２６４個（１．２９秒）サンプル分シフトされている。ＤＣＴ３２０およびフィルタリング３２２が反復されて、時間間隔における振幅の行列２０３の第二列３２７を与える。この動作は１２回繰り返され、各々においてフレームの開始を１４,２６４個のサンプル分シフトする。その結果、１５行の周波数帯域（ｉ）および１２列の時間フレーム（ｊ）を有する行列２０３が得られる。行列の各要素は、時間フレーム上の特定の周波数帯域における振幅の集まりである。各周波数帯域ｉにおける全てのフレームｊについて、Ｎｉ個のＤＣＴ値が存在する。帯域には異なる帯域幅があるため、値Ｎｉは帯域により異なる。例えば、０から１００Ｈｚまでの帯域１は１００／０．１６８＝５９５個の値を含むが、２３２０から２７００Ｈｚの帯域１５は３８０／０．１６８＝２２６１つの値を含む。
【００６４】
上述の帯域幅分割は、高周波数よりも低周波数の方が精密な解像度を有する。この理由は、人間は改変の有無にかかわりなく楽曲を識別するために低周波情報を用いることが実験上示されているためある。従って、このように生成された帯域から音紋に使用する要素を抽出すれば、人間が二つの楽曲が同一であると識別する方法を反映した結果を生み出しやすいであろう。
【００６５】
本発明の別の実施形態において、３２,７６８個のサンプルの周波数領域ベクトル全体をｌ９個の周波数帯域に分割し、１９行１２列の時間−周波数行列が得られる。帯域エッジ（Ｈｚ単位）は以下の通りである。０〜１００、１００〜２００、２００〜３００、３００〜４００、４００〜５１０、５１０〜６３０、６３０〜７７０、７７０〜９２０、９２０〜１０８０、１０８０〜１２７０、１２７０〜１４８０、１４８０〜１７２０、１７２０〜２０００、２０００〜２３２０、２３２０〜２７００、２７００〜３１５０、３１５０〜３７００、３７００〜４４００、４４００〜５３００。
【００６６】
本発明の更に別の実施形態は、３２,７６８個のサンプルの周波数領域ベクトルを三オクターブ分の周波数帯域に分割し、結果的に２７行１２列の時間−周波数行列が得られる。あるいは、３０,０００個のサンプルの第一フレームとそれに続く重なりの無い３０,０００個のサンプルのフレームを用いてもよい。本発明の更に別の実施形態は、５０％の重なりがあり、持続期間が１秒のフレームを用いる。本発明の他の実施例では、フレームは１０％の重なりを有する周波数帯域か、または帯域のエッジ同士を統合すべく窓関数を用いる周波数領域に変換される。
【００６７】
各時間フレームで周波数振幅の行列２０３を生じる任意の実施形態において、行列２０３は感度および堅牢性を最適化すべく何らかの正規化および／または尺度調整により時間−周波数行列２０４に変換される。好適な方法においては、特定の時間間隔で振幅を２乗にして合算する。この演算の結果、２乗された振幅の１５個の和を要素とするベクトルが得られる。これは特定の時間で止めた時の信号における各帯域の出力を表わす。
【００６８】
好適な実施例においては、時間−周波数行列２０４は行毎に異なる個数の値により算出される。従って、各列ベクトルの１５成分は各行のＤＣＴ値（Ｎｉ）の数で除算することにより正規化される。例えば、帯域０〜１００Ｈｚは帯域５９５で除算されるが、帯域２３２０〜２７００は帯域２２６１で除算される。
【００６９】
本発明の別の実施形態は更なる正規化ステップを用いて、ファイルが受けたかもしれない任意の周波数特性調整の影響、および候補曲と登録曲の音量改変の影響を最小化する。この正規化は以下のように実行される。ここで用いる時間−周波数行列をＭ＝［Ｍｉ、ｊ］で表す。ここで、Ｍｉ,ｊは第ｊフレームの第ｉ帯域のＲＭＳ出力値、ｉ＝１〜１５は帯域番号である、ｊ＝１〜１２はフレーム番号である。各ベクトル
【００７０】
【数１】

【００７１】
は第ｉ帯域１２個のＲＭＳ出力値を保持している。
【００７２】
ベクトル全体が次式を用いて尺度調整される。
【００７３】
【数２】

【００７４】
時間−周波数行列２０４は本質的にスペクトログラムである。次のステップでスペクトログラムを、それを最もよく表わす最少個数の値にまで集約する。これを行なうには多数の方法があり、時間および周波数限界、主成分分析、特異値分解、および時間−周波数におけるスペクトログラムのモーメントなどが含まれる。
【００７５】
好適な方法は、２個の限界値を使用するものである。その２個の限界値は、出力帯域（ＰＢ）として知られる各周波数帯域内の体表値のベクトル２０５、および標準偏差出力ウインドウ（ＳＴＤＰＷ）として知られる各周波数帯域内の分散のベクトル２０６である。
Ｎ_i個のＤＣＴ成分ｘ_kを有する帯域ｉのフレームｊに関するＰＢの計算は次式による。
【００７６】
ＰＢ（ｉ）＝ｓｑｒｔ［（ｓｕｍ_j ａｂｓ（ｘ_k））／１２］］
ここでｊはフレーム番号を表す。ある帯域のＳＴＤＰＷは、その帯域に含まれるＤＣＴ値の２乗平均平方根のフレーム全体における標準偏差である。ＳＴＤＰＷは、各フレームのＤＣＴ値の数により尺度調整される場合がある。
【００７７】
本発明の別の実施形態では、周波数重心ベクトル（ＦＣＶ）として知られている、各時間における周波数のベクトル２０８を用いる。ＦＣＶを計算するには、１５帯域ではなく１９帯域を用いるのが好適である。各列ベクトル
【００７８】
【数３】

【００７９】
は、第ｊ時間フレーム内の各帯域の１９個のＲＭＳ出力値を保持している。１９個の帯域は、帯域＃１〜帯域＃１０の低帯域群、および帯域＃１１〜帯域＃１９の高帯域群に再分割される。２個の重心、すなわち低帯域グループの重心と高帯域グループの重心が生成される。重心を用いるこの方法は、開始位置が利用できない可能性のある楽曲、例えばストリーミング音声や楽曲のランダム区間を追跡する音紋認識システムの能力を向上させる。
【００８０】
本発明の更に別の実施形態においては、主成分分析法を用いる。本方法において、最も代表的な成分が時間−周波数行列２０４から抽出される。Ｘが時間−周波数行列２０４を表わすとする。主成分分析法の理論により、Ｘは次式で与えられる。
【００８１】
Ｘ＝Σ_iσ_iｘ_i ここでｉ＝１、２、．．．
成分ｘ_iは行列Ｘの基本要素行列であり、値σ_iは各ブロックの重み（重要性）である。主成分とは全てのｉについてσ_j≧σ_iであるような行列ｘ_jのことである。このアプローチは、時間−周波数行列２０４の最も重要な特徴を表す成分の最小組を探そうとするものである。その利点は、主成分の選択の仕方により、識別性と堅牢性のバランスを変えることができることである。
【００８２】
本発明の更に別の実施形態において、主成分分析を適用した特定の例である特異値分解（ＳＶＤ）を利用している。これは広く利用されており、更に集約された特徴集合が得られる。ここでの主な考え方は、基本要素行列はすべて階数が１であり、本質的に２個のベクトル（一方が時間（ｕ）で他方が周波数（ｖ））の外積で表されることである。ｘ_j＝ｕｖ^TがＳＶＤにより得られた主成分である場合、時間−周波数行列と主成分とのＬ２距離が最小化される。音声音紋利用においてＳＶＤ方法を用いる利点は、時間領域（シフト、ピーク制限等）および周波数領域（イコライゼーション）で及ぼされた影響を隔離して、一意にＦＰを作成する際にこれら全ての影響の取り扱いを容易にすることである。
【００８３】
本発明の更に別の実施形態において、帯域番号１〜１９を使用するのではなく、異なる帯域値の重み付けに基づく周波数を用いることができる。一群の番号の重心は、それらの番号が提示される順序に依存しない場合がある。各帯域は例えば、その中心周波数または帯域幅、あるいはその帯域に固有な別のパラメータの組で表わすことができる。
【００８４】
帯域番号１−１９を使用する代わりに先に述べた重心の利用において、帯域の中心周波数または帯域幅あるいはその帯域を表わす何らかの量を用いることができる。帯域を示すのに連続番号を用いると、例えば帯域の順序が乱れた場合に問題が生じる恐れがある。重心は、Ｃ＝（ｓｕｍ_iｘ_iｆ（ｘ_i））／ｓｕｍ_iｘ_i）と定義することができる。ｘ_iおよびｆ（ｘ_i）のＰＢ値に番号１〜１９を用いることができる。これは、ｘ_iの帯域ｉの中心周波数を用いるように変更してもよい。
【００８５】
本発明の更に別の実施形態においては、周波数全体にわたる振幅の分散値が算出される。例えば、標準偏差周波数（ＳＴＤＦ）として知られる周波数帯域全体にわたる分散のベクトル２０７である。フレームｊのＳＴＤＦ値は、その周波数帯域についてのＤＣＴの２乗平均平方根値の周波数全体における標準偏差である。
【００８６】
本発明の更に別の実施形態において、人間の聴覚の知覚モデルが作成される。知覚モデルの背景にある裏付けは人間の聴覚能力のシミュレーションである。時間および周波数領域の両方に関する音声信号の改変にかかわりなく、人間は楽曲が原音に一致するか判別できることがわかっている。音紋システムは効率的に個々の「影響」を取扱うことができるものの、信号が原音を極めて歪めたバージョンであるために起こる複合的な影響に対処することは相当困難である。さまざまな影響に対して音紋識別システムを堅牢にするための課題は、これらの影響が時間および周波数に対して局所化されているため、識別システムが感知しない点である。つまり、いずれか一つの影響を緩和すべく信号に何らかの大域的操作を適用すると、音紋に対して予期しない結果をもたらす。そこで、人間の耳のような簡単かつ近似的なモデルを用いて、これらの影響に堅牢な要素を信号から抽出することが目的である。このモデルは知覚モデルと呼ばれている。
【００８７】
本発明は、入力サンプルの特定の有限なサンプルを用いるアルゴリズムを含む。好適な長さは入力信号の１５秒のサンプルである。関係するステップを図５に示すとともに以下に述べる。
（ａ）１５秒の音声サンプル５０１が窓関数を介して音声のフレームへ分割する（５０２）。その目的は、窓関数を用いてフレーム間の遷移を円滑にすることである。円滑化特性を有する任意の窓関数を用いることができる。窓関数の長さは用途に依存する。本用途の場合、ハミング窓ｈおよび０．１秒のフレーム持続期間を用いることができる。ここでの窓関数およびフレームの持続期間は、時間および周波数解像度と複雑さの間で最適なトレードオフを与える組み合わせとして実験的に決定されたものである。長さＮのフレームの場合、信号フレームを抽出して、１点毎に以下に定義する窓関数をそれに乗算する。
【００８８】
【数４】

【００８９】
（ｂ）周波数重み付けの実施。窓関数が施された信号５０３のＤＣＴに対し、耳モデル伝達関数Ａ５０４を周波数スペクトルに適用する（１点毎の乗算）。これは本質的に、臨界可聴範囲（２０００〜４０００Ｈｚ）内の周波数ｆを拡張して人間が音を感じる方法をより良くモデル化することになる。この発想は、２個の信号の一方に改変が加えられているにも関わらず両方が同じに聞こえる場合、それらの周波数スペクトルは人間の臨界可聴範囲で互いに極めて近い可能性が高いということから来ている。この範囲の周波数スペクトル値の拡張は次式で与えられる。
【００９０】
【数５】

【００９１】
（ｃ）知覚的時間−周波数出力行列計算：
−ＤＣＴ値を時間−周波数行列Ｘに保存する（５０５）。
−５０％フレーム重なり（この場合０．０５秒）を用いて前進することにより（ａ）、（ｂ）を繰り返す（５０６）。
−ＸのＤＣ成分を除外（平均信号強度に不変であるために）して（５０７）、瞬間出力（ＤＣＴ値を２乗した強度）を計算して出力行列を得る（５０８）。
−出力行列から、時間−周波数小区間の合計出力を計算する（５０９）。例えば、カットオフ周波数を有する周波数について１９個の臨界帯域［０；１００;２００;３００;４００;５１０;６３０;７７０;９２０;１０８０;１２７０;１４８０;１７２０;２０００;２３２０;２７００;３１５０;３７００;４４００；５３００］および時間について１５個の同サイズの帯域を用いて１９×１５出力行列を生成する。あるいは、１９個の同サイズの帯域を用いて１９×１９出力行列を生成することができる。これは１秒間の非重なりフレームを用いることとは同じでない点に注意されたい。
−Ｌ１距離を用いて時間−周波数行列を正規化する（５１０）。
−１９×１５の行列において、３番目から１７番目の臨界帯域のみ、および１５個の時間帯域全てを保持する（５１１）。あるいは１５×１５行列の場合、３番目から１７番目の臨界帯域および３番目から１７番目の時間帯域だけを保持する（５１１）。３番目から１７番目の臨界帯域は、人間の知覚的な可聴範囲を広げる。３番目から１７番目の時間帯域を用いることにより、時間サンプルの開始と終了における時間情報を除外して歪曲の最小化を容易にする。これにより、時間−周波数行列Ｘｆがより集約される（５１２）。好適な方法は１５×１５行列を用いる。
（ｄ）出力行列Ｘｆを対数尺度（底が１０）に変換（５１３）して１０倍する（すなわち１０ｌｏｇ₁₀（Ｘｆ））と人間の音量モデリングが知覚音量のより良いモデルを与える（出力行列の値を正規化するのはこのためである。この結果、対数領域内の値域に関する境界を与える）。
（ｅ）行列Ｘｆから１つ以上のベクトル値を計算することにより音紋を生成する（５１４）。
【００９２】
本発明の更に他の実施形態においては、時間−周波数帯域における出力を用いてシステムを時間および周波数領域における操作の組み合わせに対して堅牢にする。時間スペクトルまたは周波数スペクトルまたは２種のスペクトルの組み合わせを用いて音声を特徴付けることは普通である。しかし、時間−周波数帯域の連結出力の利用はあまり一般的でない。時間−周波数の連結出力を使用する背景には、音量正規化および周波数特性調整のような時間と周波数の両方における各種の影響に対して堅牢であるためには、とりわけ、時間および周波数の範囲で展開する領域全体にわたる出力を計算するのが有用だからである。様々な影響に堅牢であるための課題は、これらの影響が時間および周波数の領域に局所化されているのでシステムが分からない点にある。従って、いずれか一つの影響を緩和すべく信号に何らかの大域的操作を適用すると、音紋に予期しない結果が生じる。しかし、時間および周波数領域全体にわたって同時に平均化することにより、特定の時間フレーム（音量正規化で生じ得る）または周波数帯域（周波数特性調整で生じ得る）に影響を及ぼすいかなる要因もいくぶん緩和されるので、より広範な影響に対して性能が向上するであろう。
【００９３】
時間−周波数出力行列Ｘｆから出始して、行列に対する以下の演算が実行される。
（ａ）出力行列をＬ１距離が１になるよう正規化する。
（ｂ）正規化された出力行列Ｘｆを対数尺度（底が１０）に変換して１０倍する（すなわち１０ｌｏｇ₁₀（Ｘｆ））（出力行列の値を正規化するのはこのためである。この結果、対数領域内の値域にわたり境界が得られる）。
（ｃ）時間−周波数の連結出力を得る。
−対角時間−周波数領域（主対角要素とＸｆの主対角要素のいずれかの側の７個の非対角要素）の平均出力を半分にしたもの（これは対数領域のｒｍｓ出力と同値である）を得る。この結果、各出力値が時間および周波数帯域のある領域に展開する１５要素の出力ベクトルｍ１が得られる。
−半時計回りに９０度回転させたＸｆについて上記を繰り返す。この結果、別の１５要素出力ベクトルｍ２が得られる。この演算は、中心時間および周波数領域がｍｌおよびｍ２の両方で発生するため、それらをより強調する。
（ｄ）ベクトルｍ１およびｍ２を各々Ｌ１距離が１になるように正規化し、正規化されたｍ１およびｍ２を連結してベクトルｍを得るとともに、逆対数（１０^m）をとって３０要素の音紋（ＦＰ）を生成する。
【００９４】
この音紋は、Ｌ１距離と組み合わされた場合に最も良く機能する。板倉距離（後述）の利用を推奨するのはこの場合困難である。それは、本モデルがすでに幾何平均（対数領域の算術平均は時間−周波数領域の幾何平均に等しい）の概念を用いているからである。
【００９５】
本発明の更に他の実施形態においては、ウェーブレットに基づく分析を用いて特徴が抽出される。ウェーブレットを用いて楽曲から直交成分を抽出すると、各成分は知覚的に関連する周波数帯域に属している。分割はウェーブレットに基づくフィルター・バンクに基づいている。特徴ベクトル値（音紋）は、これらの成分のそれぞれの出力百分率で表される。ウェーブレットを用いる利点は以下の通りである。（１）ウェーブレット分析は、信号周波数によるフィルタ窓関数を自然に適合させて信号成分（特に重要なもの）のより鮮明な状況を明らかにする。（２）ウェーブレット変換の計算が極めて効率的である。
【００９６】
ウェーブレットに基づく音紋用の２種のアルゴリズムについて述べる。両者の目的は、信号の１０段階２項離散ウェーブレット変換を得て、各レベルを別々に再構築することにより時間領域における１０個の直交成分（これら１０個の成分を合計すると元の信号が得られる）を得ることである。次いで、各成分の合計出力（各成分のサンプル値の２乗した大きさの合計）が計算されて、１０個の成分全てにわたって合計出力により正規化した出力値の百分率が得られる。この処理は、順および逆２項ウェーブレット変換を利用して行われる。より速い方法としては、尺度により正規化されたウェーブレット係数等級値（スケーログラム値）から直接１０個の成分各々の出力を計算することである。この方法を用いる根拠は、変換が直交かつユニタリであるため、時間領域からウェーブレット領域へ遷移する際に出力が維持され、かつスケーログラムはウェーブレット領域における出力の指標だからである。これが以下に示す方法である。
（１）適当なウェーブレット・フィルタ、ｈ（ローパス）およびｇ（ハイパス）を選択する。
（２）所与の楽曲サンプルについて、一組の２項尺度Ｓの離散的直交２項ウェーブレット変換を決定する。
（３）Ｓの全ての尺度について、その尺度におけるウェーブレット係数の２乗平均平方根（ｒｍｓ）値を計算する。この値を尺度により正規化してスケーログラム値を与える（ｒｍｓ値を尺度Ｊにおける２^Jで除算する）。
（４）Ｌ２距離（絶対値の２乗和の平方根）が１に等しくなるようにスケーログラム・ベクトルを正規化する。最終結果は、ＷａｖＢａｎｄＰｏｗｅｒＩＯＡである。
【００９７】
３曲の楽曲の３種類の改変に対する結果を図６Ａ〜６Ｃに示す。各楽曲を３種類の方法で改変しても対応する３つの値３５１〜３５３は近接して重なり、又楽曲が異なれば、ベクトルも異なることが図６Ａ〜６Ｃにそれぞれ示され、音紋利用技術として本方法が適していることが示される。
【００９８】
代表値ベクトル２０５〜２０８の値は、検索時間および最終的な音紋の誤り率を最小化するように順序付けられ、重み付けられる（２０９）。好適な方法において、異なる楽曲間での識別能力が大きい順に要素が並べられる。その論理は、合計Ｎ個の特徴のうち最初のＭ個の要素を使えば、Ｎ個の特徴全部を用いる場合に比べて若干誤り率が大きいが、検索回数がはるかに少なくて済む。このように、残りの特徴を追加すればシステムの誤り率をゼロに近づけることはできるが、その分抽出および検索回数が増える。こうして、使用する要素と誤り率の間で最適なトレードオフを自由に選択できる。
【００９９】
音紋内の全ての要素の順序を決定するために、音紋がその入力だけを含むと仮定して誤り率の総和（タイプ１＋タイプ２）を計算する。本実施例において、音紋は３０要素ベクトルであり、その最初の１５要素が１５個の異なる周波数帯域の出力帯域値であって、残りの１５要素は同じ帯域の標準偏差出力ウインドウ値である。言い換えれば、重み付けの好適な方法は２０５と２０６の両方に重み１を、２０７と２０８に重み０を与える。音紋の値は、特定の周波数帯域に対応する全ての値をタプル（組）にまとめることで対にされ、結果的に１５個のタプルが得られる。次いで各タプル（周波数帯域）の有効性が決定される。有効性の高いものから順に並べると帯域の順序は[１、２、３、４、５、６、７、９、１３、８、１５、１２、１１、１０、１４]である。これは、音紋内の要素の順序に変換すると、（１、１６）、（２、１７）、（３、１８）、（４、１９）、（５、２０）、（６、２１）、（７、２２）、（９、２４）、（１３、２８）、（８、２３）、（１５、３０）、（１２、２７）、（１１、２６）、（１０、２５）、（１４、２９）となる。最初の６個の要素が番号順であるため、要素を番号順のままにして重み付き値を連結して最終音紋を生成することにより満足な性能が得られる。
【０１００】
好適な実施例において、時間−周波数行列を処理することにより得られたベクトル２０５、２０６は、各々の個別要素が０〜３２,７６８の範囲の整数になるように尺度調整される。Ｅが平均出力２０５のベクトルを表わし、ＰがＲＭＳ出力２０６の標準偏差のベクトルを表わし、ｅ_iとｐ_iが対応する要素を表わす場合、尺度調整の式は以下で与えられる。
【０１０１】
【数６】

【０１０２】
【数７】

【０１０３】
最後に、２個のベクトルは連結されて、Ｅを最初に、Ｐを最後に置いた結果、音紋として用いられる３０個の要素を有するベクトル２１０が得られる。
【０１０４】
本発明の別の実施例においては、２個の音紋を用いる。その理由は、情報が多いほど良い識別性能が得られるためである。しかし、検索速度を許容できる程度に維持するために、１つの基準音紋に入れることができる情報には制限がある。一方の音紋が他方に無い情報を含む（換言すれば、共通する情報が最小となる）ようにして２個の基準音紋を並列に用いることにより、検索速度を犠牲にすることなくより多くの情報を用いる利点が得られる方法を提供する。
【０１０５】
並列処理に用いる２個の基準音紋を生成する方法は２種類ある。どちらの方法もやり方こそ異なるが大体の場合において正しい結果が得られる。
（ａ）ミスマッチ（誤った合致）の可能性を減らすべく２個の音紋を共に用いる。この場合、マッチングが成立するには、候補音紋の第一の部分が所与の基準音紋の第一の部分と合致するとともに、候補音紋の第二の部分が同じ基準音紋の第二の部分と合致する必要があることを意味する。このように、音紋の第二の部分は、第一の部分の付録として第一の部分から得られた結論を補強するものである。こうすると、音紋の第二の部分は必ずしも第一の部分の情報に直交する情報を含む必要があるというわけではない。一例として、異なる周波数帯域内の出力の平均および標準偏差等、２種の異なる属性を音紋の２個の部分として利用することができる。別の例として、異なる周波数帯域内の出力の平均と重心を２個の音紋の部分として利用することができる。
（ｂ）データベースに存在する楽曲が得られない可能性を減らすような個の音紋を別々に用いる。この場合、マッチングが成立するには、候補音紋の第一の部分だけが所与の基準音紋の第一の部分と合致するか、または候補音紋の第二の部分だけが基準音紋の第二の部分と合致するか、あるいは候補音紋の両方の部分がそれぞれ基準音紋と合致する（上述の（ａ）と同様）必要があることを意味する。候補音紋の第一の部分が所与の基準音紋の第一の部分と合致し、候補音紋の第二の部分が異なる基準音紋の第二の部分と合致した場合、どちらかの基準音紋が最短距離による一致として選択されるか、あるいはその候補に一致するものがないと判定される。このように、音紋の第二の部分が第一の部分を補完するものとして用いられる。この設定の特性により、音紋の２個の部分が互いに直交する情報を含むことが非常に重要である。
【０１０６】
一実施例において、時間限界および周波数限界を音紋の２個の部分として用いる。各部分が捉える情報は、全く異なる平面（次元）にある。別の実施例では、時間−周波数行列の主成分分析を用いて時間および周波数内の主成分を抽出して音紋の２個の部分を形成する。後者を行なう現実的な方法は、主成分時間ベクトルおよび主成分周波数ベクトルを直接生成する特異値分解（ＳＶＤ）を利用して行われる。並行検索を設定する際に時間および周波数ベクトルを用いる背景理由は、時間ベクトルおよび周波数ベクトルの各々における時間領域での信号操作（例えば音量正規化）および周波数領域での信号操作（周波数特性調整）の影響を分離することである。これにより、これら２種の基本的な信号操作の影響が最小限になり、その結果識別確率が向上する。
【０１０７】
巨大なデータベース内で検索を実行する際の主なステップは、検索空間を分割して、距離に基づく合致度の客観的な指標を決定することである。候補音紋と、巨大なデータベースの全ての音紋の間の距離を計算するのは非現実的であるため、検索空間全体から候補となる音紋に正確に一致するものを含む部分集合を決定して、このように縮小された部分集合に対する距離を計算することが必要である。広義には、検索空間全体が重なり合わない領域に分割され、距離を用いて最適合致が決定できるような小さい集合に目標楽曲（候補音紋に正確に一致するもの）を分離する。
【０１０８】
この好適な方法は、範囲縮小検索（ＳＲＲ）である。これは検索空間のＮ層ピラミッド構造化の原理を利用する。ここで、Ｎは音紋のサイズ（音紋の値の個数）である。ピラミッドの底層（レベル０）はデータベース内の全ての音紋を含み、最上層（レベルＮ）は合致する音紋である。中間の層はデータベース内のすべての音紋に対する部分集合に対応する。特に、ピラミッドの第Ｊ層はデータベース内の全ての音紋で構成されていて、該データベースの最初のＪ個の成分が各々、候補音紋の最初のＪ個の成分と所定の距離の範囲内にある。このように、ピラミッドの底部から最上部へ移動するにつれて検索空間内の音紋の個数が連続的に減少する。最上部では、候補音紋と層Ｎ内の音紋と間の距離を用いて最終結果が決定される点に注意されたい。最適合致のための距離（最短距離）が特定のカットオフ閾値より小さいければ、最適合致が成立したと決定される。
【０１０９】
ある種の音紋の場合、ピラミッドが低いために検索時間は短くて済むが、その他の場合、中間値が多くてピラミッドがより高いため検索時間が長くなる。「平坦な上部」を有するピラミッドでは、後述のＬ１距離による距離比較を行うと解が多すぎて効率的な検索を行なえない。誤検索の主な要因としては、ピラミッドを構築する際の規則の決定が最適でないこと、最終的なＬ１距離によるマッチングのカットオフ閾値の決定が不正確なこと、および／またはデータコラプション（破壊）がある。誤検索として、候補音紋が不正確な目標と合致して起こる偽肯定と、利用できる正確な目標が存在するにもかかわらず決して合致しないことで起こる偽否定がある。
【０１１０】
本発明の好適な実施例において用いる検索アルゴリズムは以下の通りである。
（１）音紋データの代表的なサンプルを用いて、距離を用いる場合の最適なカットオフ閾値Δを計算する。
（２）同じサンプルを用いて、ＳＲＲ用の音紋の各値について閾値のベクトル[ＴＩＴ２．．．ＴＮ］を計算する。
（３）最適合致を決定する距離が計算できるような最終集合の受容可能なサイズＭを決定する。
【０１１１】
本アルゴリズムのフローチャートを７Ａ、７Ｂに示す。候補音紋の第一の要素７０１が、全ての基準音紋の集合７０２の第一の要素に対して検索される。検索では、候補要素と所定の距離７０３内にある１ないし複数の基準要素を探す。この距離は、上述の閾値ベクトル [Ｔ１Ｔ２・・・ＴＮ]に対応する。合致する要素（群）が無かった場合、検索は中止される（７０４）。合致する要素（群）があった場合、合致した個数が決定される（７０５）。合致した個数が、先にＭで示した所定個数を超えた場合、候補音紋の第二の要素７０６が、第一の要素と合致した基準音紋の集合７０７に含まれる各音紋の第二の要素に対して比較される。合致する要素（群）があった場合（７０８）、合致の個数が決定される（７０９）。この要素毎の検索は、候補音紋の最後の要素７１０に達するまで続けられる。最後の要素７１０は、集合７１１の各音紋の最後尾の要素と距離が比較される。候補音紋の最後の先行する要素７１０が最後の基準音紋集合７１１の１つ以上と合致するものの（７１２）、合致した要素の個数が所定のサイズＭより大きい場合（７１３）、検索は中止される（７１４）。先行要素のいずれかが基準要素のいずれとも合致しない場合も、検索が中止される（７１５、７１６）。
【０１１２】
候補音紋の特定の要素が合致して、合致した個数が所定の個数Ｍ未満である場合、合致した各基準音紋と候補音紋との距離を求める（７１７）。それらの距離のうち最短のものが決定され（７１８）、所定の閾値と比較される（７１９）。その最短距離が閾値未満である場合、対応する音紋が合致している音紋であると決定される（７２０）。最短距離が閾値を越える場合、候補音紋に合致する音紋はデータベースに存在しないと判定される（７２１）。
【０１１３】
より具体的には、本アルゴリズムは下記の通りである。
（１）候補音紋Ｘ＝［ｘ₁ ｘ₂・・・ｘ_N］が与えられ、最初の値がｘ₁の距離Ｔ₁の範囲内である音紋の集合Ｓ₁を決定する。すなわち、Ｓ₁＝｛Ｙ∈Ｓ₀，｜ｙ₁−ｘ₁｜＜Ｔ₁｝、ここでＳ₀は音紋のデータベース全体、Ｙ＝［ｙ₁ ｙ₂・・・ｙ_N］はＳ₀に属する音紋ベクトル、および｜ｙ₁−ｘ₁｜は値ｙ₁とｘ₁の絶対差である。
（２）この手順は最大Ｎ回繰り返される。ｊ回目の繰り返しにおいて、集合Ｓ_j＝[Ｙ∈Ｓ_(j-1)，｜ｙ_j−ｘ_j｜＜Ｔ_j]を決定する。
（３）ｓｉｚｅ（Ｓ_j）＜Ｍならば繰り返しから抜ける。
（４）ΦをＳＲＲ終了時点での要素の集合とする。
（５）Φが空集合の場合、返される合致要素は無い。
（６）Φが空集合でない場合、Φに含まれる全ての音紋についてＸからの距離を計算する。Ｚが最短の音紋とする。
（７）ＺとＸの距離がΔ未満の場合、Ｚは合致音紋として返され、さもなければ合致するものはないことになる。
データベースの音紋で距離カットオフ閾値の範囲内にあるものが見つかった場合のみ合致要素が返される点に注意されたい。その他の場合は何も返されない。
【０１１４】
図８Ａ、８Ｂに２つの候補音紋を示す。三角印は音紋値を表わし、丸印は音紋の各要素としが所定の距離内にあると判定される範囲を表わす。これらの距離は図７Ａの７０３、７０８、および７１２に対応する。所定の距離内にあると判定される範囲は各々の要素毎に異なる。図８Ａに、値が全て所定の距離内にあると判定される基準音紋を示す。この音紋は、図７Ｂの比較７１において音紋合致と判定される。図８Ｂに、第一の要素が所定の距離にないと判定される候補音紋を示す。この音紋の場合第一の要素の後で検索が中止され、候補音紋がデータベースに存在しない旨をシステムが報告する。
【０１１５】
所与の空間を分割する別の方法はクラスタ分析を用いることである。この処理では、空間全体がいくつかのクラスタに分けられ、各々が管理可能な個数の音紋を含む。各クラスタには、候補音紋に（Ｌ１距離を用いて）合致すると判定される「リーダー」が割り当てられる。候補音紋が属するクラスタは、候補音紋に最短のリーダーがあると考えられる。単純な１階層型であれば、最適合致は選択されたクラスタに含まれる全ての音紋から決定される。より複雑な多階層型であれば、目標楽曲を（理想的には）含むクラスタが識別されるまで、最適なクラスタを決定するプロセスを数回繰り返すことが必要である。
【０１１６】
速度および実装しやすさの観点から、簡単かつ効果的な距離の使用が必要である。候補音紋ベクトルと基準音紋ベクトルの距離は通常、ベクトルの対応する値の「差」で構成される。この差は各種の方法で計算できる。これには「Ｌ１距離」と呼ばれるものも含まれ、上述のように、比較されている２個のベクトルの対応する要素の絶対差の合計である。つまり、
【０１１７】
【数８】

【０１１８】
となる。ここで、ＦＰ_1iは基準音紋の第ｉ要素、およびＦＰ_2iは候補音紋の第ｉ要素である。
【０１１９】
この種の距離計算は、要素毎の距離全てに等しく重み付けを行なう。従って、差が大きいと、最終合計に与える影響が大きい。特に、他の音紋要素と比べて大きい値を有する音紋要素間の差が大きければ、距離計算に大きな影響を及ぼす場合がある。しかし、相対的に見ると比較されている要素の値も同様に大きいために、その差は小さくなるであろう。
【０１２０】
音紋要素の元のサイズを考慮に入れて距離を相対的にし、音紋要素のサイズによりこのように重み付けてもよい。数学的には下記の通りである。
【０１２１】
【数９】

【０１２２】
２個の音声音紋を比較するために重み付き絶対差の概念を適用するいくつかの方法がある。好適な実装方式は、算術平均と幾何平均の偏差を用いる。
【０１２３】
【数１０】

【０１２４】
総和記号（Σ）の後の第一の量は、基準および候補音紋の対応要素の比率の算術平均であり、第二の量は比率の幾何平均である。
【０１２５】
本発明の他の実施形態は、算術および幾何平均の対数を用いる。対数演算の底は任意である。
【０１２６】
【数１１】

【０１２７】
この例は自然対数を用いるが、例えば底が１０や底が２のように他の底を用いても同様の結果が得られる。
【０１２８】
算術および幾何平均の対数を用いる上述の距離計算は、音声認識の分野において板倉距離として知られ、２個の発話音声の周波数スペクトル、または発話音声の自己回帰（ＡＲ）モデルの自己回帰（ＡＲ）係数を比較するために用いられる。板倉距離は、「発話信号ｍの線形予測係数の線スペクトル表現」（板倉文忠、米国音響学会ジャーナル、５７、５３７（Ａ）、１９７５年）に記載されている。好適な実施例において、この距離計算は２個の音紋ベクトルに適用されるが、これらは周波数スペクトルおよびＡＲ係数以外の指標で構成されていてもよい。
【０１２９】
本実装方式を用いると、楽曲認識および周波数特性調整の影響に対する堅牢性においてＬ１距離よりも良い結果が得られる。一般に、性能が向上する理由は以下の通りである。
−比率（すなわち重み付き差）を用いることにより、誤り率が基準ベクトルに相対化して、差の計算を左右する１つの音紋値の影響が制限される。
−有効な比率は、候補音紋とほぼ同じ特徴形状を示す音紋を検出するのに役立つ。このようにして音紋間の「類似性」のより良い指標が得られ、従って候補音紋を正確な基準音紋とマッチングさせる可能性が向上する。
−人間は、音声の違いを対数尺度上で聞き分ける。対数を使用することにより、人間が音声を認識する仕方をより厳密に反映することができる。これは、例えば周波数特性調整等の処理を施された楽曲を、処理が施されていない楽曲と同じであると認識するのに役立ち、従って認識率が向上する。
【０１３０】
本発明の別の実施形態は、絶対値の合計、すなわちＬ１距離を用いる。Ｌ１距離は他の距離と比べたとき、２個の異なる音紋間での最長距離を与える。これは、音紋の識別能力を向上させるために極めて重要である。長さＮのＦＰ₁とＦＰ₂が与えられたならば、それらの間のＬ１距離は、ｓｕｍ_Iａｂｓ（ＦＰ₁（Ｉ）−ＦＰ₂（Ｉ））、ここでI＝１、２、．．Ｎである。
【０１３１】
本発明の更なる実施形態は、Ｌ２距離（絶対値の２乗和の平方根）を用いる。長さＮのＦＰ₁とＦＰ₂が与えられたならば、それらの間のＬ２距離は、ｓｑｒｔ（ｓｕｍ_Iａｂｓ（ＦＰ₁（Ｉ）−ＦＰ₂（Ｉ））²）、ここでI＝１、２、．．Ｎである。
【０１３２】
本発明のまた別の実施形態は、Ｌ∞距離（最大絶対値）を用いる。長さＮのＦＰ₁とＦＰ₂が与えられたならば、それらの間のＬ∞距離は、ｍａｘ_Iａｂｓ（ＦＰ₁（Ｉ）−ＦＰ₂（Ｉ））、ここでI＝１、２、．．Ｎである。
【０１３３】
検索パラメータを調整する目的は、検索有効性および検索速度を最適化することである。起こり得る誤検索が３種類ある。タイプ１の誤検索は、正しい音紋がデータベースに存在するが、検索は誤ったマッチング結果を返すものである。タイプ２の誤検索は、音紋がデータベースに存在するが、検索は合致失敗とするものである。タイプ１ａの誤検索は、音紋がデータベースに存在しないが、検索は間違ったマッチング結果を返すものである。検索効率は、偽肯定すなわちタイプ１＋タイプ１ａの誤りと、偽否定すなわちタイプ２の誤りの間の所望のバランスとして規定される。誤りの総和を最小化することが望ましい場合がある一方、タイプ１またはタイプ２の誤りだけを最小化することが望ましい場合がある。Ｌ１カットオフ閾値やＳＲＲ閾値を変更したり、ＳＲＲ用の音紋の順序を変えることにより調整が行なわれる。ＳＲＲの順序付けは、先の段落で既に述べた、音紋要素に対する順序付けと同じでよい。
【０１３４】
Ｌ１カットオフ閾値は、合致を決定する最終的な基準であり、従ってタイプ１およびタイプ２の誤りに直接影響を与える。閾値を高くするとは、タイプ１（タイプ１ａを含む）誤りを増やす可能性があり、閾値を低くするとタイプ２の誤りを増やす可能性がある。
【０１３５】
本発明の好適な実施例において閾値は、楽曲の集合において楽曲内および楽曲間距離を計算することにより音紋の相対的な広がりに基づいて選択される。楽曲集合に含まれる楽曲は、全ての楽曲および全てのバリエーションを代表するものが選択される。全てのバリエーションに対し、正確な合致度（楽曲内距離）と最適な非合致度（楽曲間距離）の分布の積集合を求めると、タイプ１の誤検索を許容範囲内に抑えつつカットオフ閾値をどの程度大きく設定できるかを推測することができる。サンプリングされた楽曲に基づいて、好適な閾値は０．１５と０．３の間であり、表１に示すように約５，４４７曲の録音のデータ集合を用いたテストにおいて特に０．３０の場合にタイプ１、１ａ、および２の誤検索の和を最小にすることができる。図９Ａ〜９Ｄに、４種のフォーマットで保存された５４４７曲のデータ集合における正確な合致および二番目に良い合致の分布を与える。最適な合致がデータベースに存在しない場合、二番目に良い合致が選択され、タイプ１ａの誤りに寄与する。最適および二番目に良い合致の間の距離が重なり合う場合、時々二番目に良い合致が選択されてタイプ１を生じる場合がある。
【０１３６】
【表１】

【０１３７】
ここでは、ユーザーはタイプ２の誤り率を１．５％以下までは許容すると仮定した。これに基づいて、タイプ１およびタイプ２の誤り率を最小化すべく０．２５の閾値を選択した。データベースが巨大化するにつれて、タイプ１の誤り率が閾値を決定する際に最も重要な要因になる可能性が高いが、その理由は多次元空間に多くの音紋が存在するにつれてタイプ１の誤り率が相当な影響を受けるためである。タイプ２の誤り率は、データベースのサイズが大きくなっても受ける影響がはるかに小さく、顕著に増大する可能性は小さい。
【０１３８】
ＳＲＲ閾値を選択する第一のステップは、ＳＲＲ閾値ベクトルを計算する方法の決定である。本発明の好適な実施例において、音紋の全ての値について閾値は、音紋の各々の値に対するサンプル集合の全楽曲にわたって観測される値の範囲に基づいて設定されている。特に、サンプル集合内の全ての楽曲で、音紋ベクトルの値毎にその楽曲のバリエーション全体にわたり標準偏差が計算される。これにより距離が得られる。次いで音紋ベクトルの各要素の閾値は、その距離の倍数として設定される。好適な値を表２に示す。
【０１３９】
本発明の別の実施形態は、ＦＰ値の誤り率の標準偏差を用いるが、音紋内の全ての値の閾値は基準音紋と、そのバリエーションからの音紋との距離に基づいている。
【０１４０】
次に、閾値の尺度係数が決定される。ＳＲＲの検索時間は、Φ（図７Ａの７０５）のサイズに正比例して増加する。許容可能な速度を実現するには、Φのサイズ（ＳＲＲ検索後の要素の集合）は、極力小さくなければならない。ＳＲＲ閾値を小さく設定すればΦのサイズが小さくなるが、空集合で終わる危険度が増し、結果的にタイプ２の誤り率が高くなる。従って、閾値の尺度係数を決定するプロセスは最適化プロセスである。
【０１４１】
好適な方法を実装する一つの仕方は、楽曲とそのバリエーションの集合を用いて、ＳＲＲ閾値の関数として戻り値の平均個数をグラフ化することである。このようなグラフの例を図１０Ａに示す。誤りの総和（精度）とＳＲＲ戻り値の個数（速度）の間の最良なトレードオフを提供する点が選択されている。閾値が小さいほどＳＲＲ戻り値の個数が減って、検索時間が速くなるが、誤りの総和がより大きくなってしまう。図１０Ａのグラフは、ＦＰの標準偏差が０．８を越えると戻り値の個数が急激な増加を示す。これは、閾値を０．８Ｔに設定すべきであることを意味する。ここで、ＴはＦＰのＳＴＤを用いて計算した最適点であり、それを超えると範囲縮小検索（ＳＲＲ）からの戻り値の平均個数が急激な増加を示す。
【０１４２】
別の方法では、選択された閾値を誤り率が下回るような点が選択される。図１０Ｂに、標準偏差の比率に対する誤り率をグラフで示す。標準偏差が約０．４の箇所に屈折があり、これを閾値として選択できる。目標は、ＳＲＲ戻り値の個数を許容限度以下に抑えつつ最小誤り率を与える値を選択することである。基本的に、効率は精度と速度の両方に基づいて判断される。精度と速度の間のトレードオフが、選択された閾値尺度係数に基づいて行なわれる。
【０１４３】
【表２】

【０１４４】
基準音紋の（１００万レコードを超える）巨大なデータベースを検索する際に、合理的な時間で候補音紋に対する最適合致を見つけることが課題である。考慮すべき２個の関連する方法がある。完全一致検索および部分一致検索すなわちファジーマッチングである。候補音紋が誘導効果の影響に左右されない場合、完全一致検索が適している。その結果得られる音紋をハッシュ・キーとして用いて、基準音紋のハッシュテーブルへ登録することができる。これは、その拡張性、簡便性、および明確性（直接テーブル検索）によって巨大なデータベースにおける検索の最適な方法である。しかし、コーデック、圧縮率、音声の影響および他の配信チャネルの影響により候補音紋は変化する。ハッシュテーブル検索の結果は２値であるため、すべて完全一致検索であるかそうでないかのいずれかである。候補音紋をわずかでも変化させると、その正確な基準音紋がデータベースに存在しなくなり、マッチングが失敗する。録音の全てのバリエーションを識別するには、各バリエーションの音紋がデータベースに存在しなければならない。多くの用途においてこれは非現実である。これは、例えば候補音紋の抽出に際して開始位置が変化するブロードキャスト・ストリームを監視するといった用途では不可能である。この種の音紋から、例えば値を量子化することによりハッシュ・キーを生成しようとすると、精度が低下してしまう。端的にいえば、完全一致検索は速いが柔軟性に欠ける。
【０１４５】
部分一致検索すなわちファジーマッチングは、候補音紋と基準音紋の距離または類似度を用いる。このように、基準音紋のわずかなバリエーションである別々の候補音紋であっても１つの基準音紋に帰着され、基準音紋を識別することができる。ファジーマッチング等において各候補音紋とデータベース内の全ての基準音紋との距離の計算を必要とする場合、大規模に検索を実行するのは現実的でない。上述のように、検索空間のサイズを取扱い可能なサイズにまで減らすスマートな検索方法がある。この技術を使えば規模の調整が可能になる。しかし、ファジーマッチングは完全一致検索ほど高速ではない。端的にいえば、柔軟性はあるが遅い。
【０１４６】
好適な実施例は、ファジーマッチングの識別能力とＬＲＵ（最長不使用）キャッシュを用いて実現される完全一致検索の速さとを組み合わせた技術を使う。ＬＲＵキャッシュは、ウェブ・ブラウザが使用するキャッシュと類似している。新規項目はキャッシュの最上位に配置される。キャッシュがサイズ制限を超えて肥大化すれば、最下位の項目を放棄する。アクセスされた項目は、最上位へ上げられる。最終結果として、頻繁にアクセスされる項目がキャッシュに残るようになる。
【０１４７】
典型的な音紋検索にかかる時間はリクエストを送信してからクライアント側で応答を受信するまでにかかる時間で測定され、通常は１〜２秒要する。サーバー・キャッシングを用いれば、後続の検索は、最初の検索の実行に要した時間の数分の一で済む。例えば、楽曲を最初に検索するのに０．７６４秒要した場合、同じ楽曲をその後検索する際は通常０．００７秒程度しか要しないだろう。好適な実施形態において、サーバー・キャッシュは、最近リクエストされた約６００,０００曲の合計３０００万種（各楽曲に平均５００種のバリエーションがあることに基づく）の音紋バリエーションを保存している。
【０１４８】
音紋はデータベースへ送信される前に、識別のためにＬＲＵキャッシュへ送信される。システム起動時は、全ての音紋がデータベース内で検索されるが、一度識別された音紋は、ＬＲＵへ格納される。キャッシュが満杯になり、大多数の候補音紋がＬＲＵキャッシュ内で識別されるようになるとシステム速度は向上する。
【０１４９】
およそ２０回に１回の検索は一意なバリエーションを求めるものであり、リクエスト・キャッシュが選択され、それ故にＳＲＲ検索を必要とする。２０回のうち残り１９回は、単純なキャッシュ検索で処理される。このアーキテクチャにより、データベース検索能力とハッシュ検索の速度を組み合わせることができる。
【０１５０】
好適な実施例は、図１１に示す以下のシーケンスを用いる。
（１）候補音紋１５００がシステムへ送信される。
（２）ＬＲＵキャッシュ１５０２に対して候補音紋と一致するものがないか検索される（１５０１）。
（３）候補音紋に対する完全一致検索が検出されなかった場合（１５０３）、データベース内で検索が開始される（１５０４）。
（４）データベース内で合致が検出されなかった場合（１５０５）、音紋がデータベースに存在しないことを示す応答が生成される（１５０６）。
（５）ＬＲＵまたはデータベース内で合致が検出された場合（１５０５）、合致した音紋が返される（１５０７）。
（６）データベース内で合致が検出された場合、合致した音紋をＬＲＵキャッシュ１５０２に書き込む（１５０８）。
【０１５１】
本明細書で開示する方法およびシステムを用いて、ラジオ放送等の開始位置が不明な楽曲のストリームを識別することができる。ストリームを識別する２種の方法がある。一方法において、基準楽曲の曲全体から複数の音紋が抽出される。識別対象のストリームは一定間隔で抽出された音紋を有し、それらの候補音紋がデータベースから検索される。別の方法ではイベントまたはブレークポイントの堅牢な集合が原音内で識別され、音紋が抽出されてブレークポイント周辺の基準データベースに配置される。ブレークポイントは、音声操作に対して堅牢であって、抽出が容易であり、集中的なデータベース検索を必要としない単純な検索法による検知が可能な特徴を用いて検知される。ブレークポイントを用いる利点は、基準データベースに多くの音紋を格納する必要がなく、データベース検索量が少なくて済む点である。
【０１５２】
いずれの方法を用いても、ストリームを識別するには厳しい精度要件がシステムに課される。これは、データベースに格納される音紋が増えてデータベースへ送信される音紋が増えるためである。つまり、わずかな誤り率が膨大な誤検索をもたらす。
【０１５３】
複数の音紋を用いる発想は、ストリーム識別における非常に厳しい精度要件を満たす必要から生じている。ここでの主要な発想は、複数の音紋を用いる方が、１つの音紋だけを用いて生じるミスマッチ誤り（タイプ１およびタイプ１ａ）を減らすのに有用な点にある。すなわちマッチング結果に対し、１つの音紋だけでは得られない１段階上の確実性を加える。これは、放送音声と原音の間の時間が正確に揃うことが困難である放送（ストリーミング）音声の場合に適している。また、放送音声信号は往々にして原音ＣＤ音声の修正されたバージョンであることがある。
【０１５４】
複数の音紋に関して以下の２つの事実がある。
（１）候補音紋がいくつかの不定位置から抽出されるため、ＤＢ内の全楽曲の複数の音紋が異なる位置で採取される。ＤＢ内に複数の音紋が存在することにより、合致が検出される確率が向上する。その理由は、放送される部分は、音紋が採取されたＤＢ内の楽曲の一部を含む可能性がより高いからである。これは、タイプ２の誤り率を減らすために重要である。
（２）候補音紋に対し複数の（連続する）マッチングが成立する条件を課す。ここでは、候補信号が一定の間隔またはフレームで音紋を取得される。各音紋は、音紋のＤＢに対してテストされる。そのように連続的ないくつかの音紋がＤＢの同じ楽曲に合致する場合だけマッチングが成立する。このアプローチが機能するのは２種の主要原理による。（ａ）フレームが小さい限り、音紋はフレーム毎にほとんど変化を示さない。（ｂ）複数のマッチングを課すと、ミスマッチの可能性を減らし、タイプ１およびタイプ１ａの誤り率を減らすのに有用である。
【０１５５】
ここで、複数音紋アプローチは検索方法であることを強調しておく。同じ音紋を用いた単一マッチング・アプローチで得られるものと比較すると、複数使う場合、所与の音紋を用いて得られる性能（誤り率に関する）を向上させるのに役立つ。その意味では、最終性能は使用する実際の音紋の有効性による制約を受ける。この方法は、「ラジオの影響」に対して堅牢に設計されている音紋と共に使用する場合にラジオ放送で最高の性能を発揮する。
【０１５６】
複数の連続的な合致基準を用いる背景は、［ｔ０，ｔ１］間の楽曲から得られた音紋は部分[ｔ０，ｔ１］の小近傍δにある同じ楽曲の音紋に合致する、すなわち、[（ｔ０−δ），（ｔ１−δ）］から[（ｔ０＋δ），（ｔ１＋δ）］から得られた候補の任意の部分がデータベース内の原音と合致する可能性が極めて高いことにある。
【０１５７】
ストリームを識別する一方法を図１２に示し、以下に述べる。
（１）音紋１６００のデータベースに「原音」楽曲の集合として公知のＭ個の一意な楽曲から取得した音紋を書き込む。これらは、楽曲のＣＤバージョンまたはラジオ放送から直接抽出された楽曲全体であってよい。音紋は通常、楽曲内で所定の一定間隔で取得され、各楽曲には１つ以上の音紋があってよい。ＤＢのサイズは現在ＮＭである。ここで、Ｎは楽曲毎に取得された音紋の個数である。
（２）ストリーム１６０１の任意の位置から開始して、全フレームについて音紋を抽出する（１６０２）。フレームは通常１〜５秒間である。好適な方法は長さ３秒のフレームを用いる。別の方法において、フレームの持続期間は、音紋の定常性に依存する。音紋が時間に対してほとんど変化しない場合にはより大きいフレームサイズが選択され、さもなければより小さいフレームサイズが選択される。ここで扱う音紋は少なくとも０．５秒までは堅牢であることがわかっているため、最小フレームは１秒が好適である。
（３）候補から抽出された音紋は、ＮＭ個の音紋のデータベース１６００に対してマッチングされる（１６０３）。合致の判定に使用する距離は、指標としてＬ１距離、Ｌ２距離、板倉距離等、任意のものを用いてよい。
（４）マッチング不成立の場合（１６０４）、ストリームは識別されない（１６０５）。ＤＢ内で最も近い音紋が候補音紋の所定のある距離閾値以下に入っていればマッチングが成立する。
（５）１つ以上の音紋が合致した場合、追加基準が適用される（１６０６）。例えば、Ｐ個の連続的な候補音紋がＤＢ内の同じ楽曲と合致した場合、マッチングが成立する。Ｐは検索パラメータであり、所望の誤り率と音紋の定常性の関数である。通常、１〜１０の範囲にある。Ｐが大きいほどミスマッチの可能性は減るが、タイプ２の誤り率が許容範囲を超える恐れがある。
【０１５８】
図１２に示す検索手順の上述の結果を図１３Ａ、１３Ｂに示す。図１３Ａは、最短マッチを示す距離のグラフである。図１３Ｂは、最短マッチに対応するデータベース内の楽曲ＩＤである。垂直線は、データベースの音紋が抽出された基準楽曲における位置を示す。正確に合致したのは、１１９曲の中で番号５０の楽曲である。距離をプロットすれば、データベースの音紋抽出に対応する位置で顕著な落下を示す。この挙動を利用して、ミスマッチの可能性を大幅に減らすことができる。
【０１５９】
ブレークポイントの検知／識別に用いる方法は、信号のウェーブレット分析に基づくものである。信号の連続ウェーブレット変換（ＣＷＴ）は、信号を時間シフト（第一のサンプル位置から始まる信号の位置）と尺度（尺度は、ほぼ周波数の逆数であり解像度を制御する）で表現する。これは異なる時点における信号について周波数情報を提供する。わかりやすくするために、時間シフトをｂ、尺度をａで表わす場合と、ＣＷＴはａとｂの関数になる。ある尺度ａ０と時間ｂ０のＣＷＴ係数は、時間ｂ０を中心に配置されたａ０に対応する時間範囲の信号内で生じる差異を示す指標である。ここで、ｂ０は第一のサンプル点から始まる入力信号のシフトである。このように、変動が大きいほど、ＣＷＴ係数がより大きくなる。例えば、１１０２５Ｈｚでサンプリングされた信号の場合、尺度２¹⁰（尺度を２のベキ乗で特定することは普通である）と時間シフト１５０００におけるＣＷＴ係数は、１５０００／１１０２５＝１．３６秒を中心とし、２¹⁰／１１０２５＝０．０９秒の近傍範囲にある入力信号で起こる変動の指標である。
【０１６０】
ＣＷＴには、本発明に役立つ２種の重要な特性がある。
（１）ＣＷＴ係数の等級は、信号の変化に直接関係する。信号が変化する位置には、変化に付随する周波数を通じてその位置において大きい値を有するＣＷＴ係数が関連付けられている。急速な（突然の）変化は滑らかな変化よりも高い周波数に対応する点に注意されたい。
（２）変化が実際に重要である（知覚的に顕著な）場合、ある範囲の尺度全体にわたり変化が持続する。ノイズ等、信号において孤立した変化は、ＣＷＴ領域でも同様に孤立する傾向があり、ノイズの周波数に対応する尺度でのみ、大きい値が付与されたＣＷＴ係数として現れる。通常、楽曲信号には、ある期間持続する、それらの周囲のある近傍で感知され得る変化を持つ。この結果、そのような変化がその近傍範囲の尺度でＣＷＴ係数等級に反映されている。但し、これらの尺度の最も微細な（最も小さい）変化の実際の持続期間に対応する。
【０１６１】
重要なのは、全ての等級が異なる尺度をまたがって丁度同じ位置に並ぶ必要があるが、ＣＷＴが時間尺度表現であるため、上述の特性を組み合わせることにより、大きい値をとるＣＷＴ係数の等級が関心対象の尺度全体にわたり維持される前提で変化の正確な位置に（ある精度まで）焦点を合わせることが可能になる点である。
【０１６２】
ブレークポイントの計算に用いるアルゴリズムは上述のＣＷＴ特性に基づく。
実際の手順は以下の通りである。
（１）所与の楽曲の固定サンプルの場合、最適尺度の集合におけるＣＷＴを計算する。変化を検知する簡便性と優れた性能を有するため、ハー（Ｈａａｒ）ウェーブレット変換を用いて係数を計算した。バッファサイズに対する現実的な制約を念頭に置いて、サンプル・サイズは５秒間に制限した。
（２）互いに重なる事のない小さなウインドウに対してＣＷＴ係数を２乗した等級、すなわち（ｃ（ａ，ｂ）²）を用いて出力の総和を計算する。選択されたウインドウのサイズは、決定されたブレークポイントの解像度を基本的に制限するが、総和はブレークポイントに堅牢性を与えるために必要である。
（３）全ての尺度について時間領域にわたり総和関数を正規化する。
（４）尺度全体にわたってこれらの正規化された関数の合計を計算する。
（５）固定サンプル全体にわたってこの合計の最大値の位置および値を識別する。
（６）最大値が所定の閾値より大きい場合、対応する位置はそのサンプル用のブレークポイントであると決定される。
【０１６３】
先のアルゴリズムの結果は、９５曲の楽曲を用いてテストされた。楽曲のブレークポイントは最初に人間の耳により検知された。人間の検知に頼る根拠は、ブレークポイントが耳で検知できるならば、大部分の音声操作に対して影響を受けない可能性が高いことである。９５曲の楽曲は、異なるビット率および異なるコーデックで符号化することにより音声操作を受けた後で．ｗａｖフォーマットに復元されてブレークポイント検知機能に挿入された。
【０１６４】
図１４に、機械が抽出したブレークポイントと人間が抽出したブレークポイントを比較した結果を示す。機械が抽出したブレークポイントは、人間が抽出したブレークポイントの±０．５秒の範囲内で生じた場合に正確であるとみなされた。平均精度は９５％を超え、何曲かの楽曲については１００％の精度を有する。人工的な機械抽出ブレークポイントを除去した方が精度は高かった。アルゴリズムが５秒ごとブレークポイントを強制したため、人工的なブレークポイントが生成された。
【０１６５】
楽曲全体を識別する方法への応用がある。例えば、楽曲全体が存在して正確であることを保証するために楽曲全体を確認する必要がある。この種の検索を効率的に実施するためには小さい音紋が望ましい。楽曲全体を確認する必要がある理由は以下の通りである。
（１）品良保証：楽曲の権利所有者またはアーティストは、必ず楽曲全体が配信されることを望む。
（２）なりすまし防止：なりすまし、すなわち識別システムに偽の身元情報を提示する試みは、ネットワークを介して違法に楽曲を配信するために用いられる策である。音紋が楽曲の一部、例えば先頭部分から採取されている場合、システムに不正侵入しようとする者は違法な楽曲の出だしだけ合法な楽曲の出だしに付け替えるかもしれない。
【０１６６】
この種の検索を効率的に実施するために、小さい音紋が望ましい。楽曲全体をコンパクトに表わす方法を以下に述べる。本方法は、図１５Ａ，１５Ｂに示す２段階の音紋利用アプローチを用いる。
（１）第１段階：楽曲全体１７０２用の音紋を生成する（１７０１）。これらの音紋の１つが主音紋として選択される（１７０３）。
【０１６７】
（ａ）好適な方法は、上述の時間−周波数分析を用いる。
【０１６８】
（ｂ）別の方法は、上述のウェーブレットに基づく分析を用いる。
（２）第２段階：完全な基準楽曲音紋（プロファイル）を生成する。
【０１６９】
（ａ）各音紋と主音紋の間の距離を計算する（１７０４）。これらの距離の例を図１５Ｂに示す。次いで音紋、その位置、および距離を１つのベクトルに連結することにより楽曲全体を表わす（１７０５）。上述の３０要素からなる１５秒間の音紋を用いて、全体で３分の楽曲を合計７２バイトに圧縮可能であり、その構成は６０バイト（音紋要素毎に２バイト）＋１バイト（主音紋の位置）＋１１バイト（１２個の音紋の各々と主音紋との間の１１つの距離）。
【０１７０】
（ｂ）別の方法は、例えば主音紋が抽出された部分とは異なる部分からの相対的な楽曲出力のような簡単な指標を用いて、これをプロファイル（特徴形状）として利用する。
本方法は次いで、主音紋をデータベース内の楽曲の主要識別子として利用する。次いで、完全な楽曲のプロファイルを用いて識別情報を検査して、楽曲全体を認証する。
【０１７１】
上述の方法は、多くの異なるタイプのシステム上に実装可能である。例えば、データベースは録音を再生する携帯装置に組み込まれても、またはインターネット経由で毎分数百の装置から受信される処理リクエストを処理する１つ以上のサーバー、あるいはその中間、例えばサーバーではなく単一のデスクトップ・コンピュータからアクセスされてもよい。またはインターネットではなくローカル・エリア・ネットワーク等からアクセスされてもよい。このようなシステムの基本構成のブロック図を図１６に示す。プロセッサ１６０２は、上述の任意の方法を用いて、候補楽曲（群）または候補音紋（群）をｌ／Ｏ装置１６０４から受信して、これらを記憶装置１６０６に保持されているデータベースのレコードと比較する。データベース１６０６のレコードは、原録音、例えば著作権所有者からライセンスを受けた配信業者からのコンパクトディスクその他のデジタル音声ファイルから、あるいは原録音の複製から生成することができる。本発明に従い、基準録音として用いる原録音の複製とは異なるように変更されている原録音の複製を識別すべく、十分に堅牢な基準音紋を生成することができる。
【０１７２】
基準音紋の発生源にかかわらず、好適にはデータベース１６０６から読み出された音紋はＲＡＭ１６０８にキャッシュされる。識別検索の結果は、ディルプレイ装置１６１０にローカルに出力しても、またはＩ／Ｏ装置１６０４経由でネットワーク（図示せず）を介して遠隔装置（それが候補楽曲または候補音紋（群）を提供した／しなかったにかかわらず）へ送信されてもよい。ＲＡＭ１６０８および記憶装置１６０６、あるいは他の永久または着脱可能な記憶装置（図示せず）、例えば磁気および光ディスク、ＲＡＭ、ＲＯＭ等も、本発明の実行および配信に必要なプロセスとデータ構造を保存することができる。プロセスはまた、インターネット等のネットワークを介したダウンロードにより配信されることもできる。
【０１７３】
本発明の多くの特徴および利点は詳細な明細書から明らかであり、添付の請求項により本発明の真の概念および範囲に含まれるこのような特徴および利点を全て包含することを意図している。更に、当業者は各種の改良や変更を容易に考え付くであろうが、本発明を例示した構成や動作そのものに限定する意図は無く、従ってあらゆる適切な改良および均等物も本発明の範囲に含まれる。
【図面の簡単な説明】
【０１７４】
【図１Ａ】本発明の一実施形態による音紋要素の試験手順のフロー図である。
【図１Ｂ】本発明の一実施形態による音紋生成手順のフロー図である。
【図２】音声ファイルのヒストグラム等化手順のフロー図である。
【図３】帯域毎の周波数特性調整手順のフロー図である。
【図４】図１Ｂの時間間隔で周波数振幅の行列を生成する時間−周波数分解のブロック図である。
【図５】聴取の知覚モデルに基づいて音紋を生成する手順のフロー図である。
【図６Ａ】各々３種のバリエーションを有する３種の楽曲のウェーブレットに基づく音紋である。
【図６Ｂ】各々３種のバリエーションを有する３種の楽曲のウェーブレットに基づく音紋である。
【図６Ｃ】各々３種のバリエーションを有する３種の楽曲のウェーブレットに基づく音紋である。
【図７Ａ】基準音紋のデータベースを検索する手順のフロー図である。
【図７Ｂ】基準音紋のデータベースを検索する手順のフロー図である。
【図８Ａ】音紋の例の上に重ね合わせたＳＲＲ検索パラメータのグラフである。
【図８Ｂ】音紋の例の上に重ね合わせたＳＲＲ検索パラメータのグラフである。
【図９Ａ】波形ファイル、ブレード１２８ファイル、ブレード３２ファイル、およびｆｈｇ１２８ｋｇのＭＰ３ファイルにおけるマッチング寄与度の分布のグラフである。
【図９Ｂ】波形ファイル、ブレード１２８ファイル、ブレード３２ファイル、およびｆｈｇ１２８ｋｇのＭＰ３ファイルにおけるマッチング寄与度の分布のグラフである。
【図９Ｃ】波形ファイル、ブレード１２８ファイル、ブレード３２ファイル、およびｆｈｇ１２８ｋｇのＭＰ３ファイルにおけるマッチング寄与度の分布のグラフである。
【図９Ｄ】波形ファイル、ブレード１２８ファイル、ブレード３２ファイル、およびｆｈｇ１２８ｋｇのＭＰ３ファイルにおけるマッチング寄与度の分布のグラフである。
【図１０Ａ】範囲縮小検索の効果のグラフである。
【図１０Ｂ】範囲縮小検索の閾値の関数としての誤り総計（タイプ１＋タイプ２）のグラフである。
【図１１】候補音紋と基準音紋の間のファジーおよび完全一致検索を組み合わせる手順のフロー図である。
【図１２】楽曲のストリームを識別すべく音紋を用いる手順のフロー図である。
【図１３Ａ】サンプル楽曲から毎秒１つの音紋を抽出することに基づく、最短マッチの距離のグラフである。
【図１３Ｂ】図７Ａにおける最短マッチに対応するデータベース内の楽曲ＩＤのグラフである。
【図１４】９５曲の楽曲について機械抽出および人手抽出されたブレークポイント（精度）の合致度の百分率のグラフである。
【図１５Ａ】楽曲全体をコンパクトなベクトルとして表わす手順のフロー図である。
【図１５Ｂ】図１５Ａに示す手順のグラフである。
【図１６】本発明を実装するシステムの概略ブロック図である。

Claims

録音を識別する方法であって、
未識別録音の少なくとも１つの部分から少なくとも１つの候補音紋を抽出する抽出ステップと、
前記少なくとも１つの候補音紋から得られる少なくとも１つの値と、複数の基準音紋のうちの少なくとも１つの基準音紋に含まれる少なくとも１つの値との間の合致を検索する検索ステップとを含むことを特徴とする録音識別方法。
請求項１において、
前記検索ステップが、前記少なくとも１つの候補音紋から得られる値に基づく重みを用いて、前記少なくとも１つの候補音紋と前記少なくとも１つの基準音紋との間の少なくとも１つの重み付き絶対差を計算するステップを含むことを特徴とする録音識別方法。
請求項１において、
前記抽出ステップに先立って、前記未識別録音の前記少なくとも１つの部分のダイナミックレンジを拡張するステップを更に含むことを特徴とする録音識別方法。
請求項３において、
前記ダイナミックレンジを拡張するステップにより、前記未識別録音の前記少なくとも１つの部分に含まれる全てのサンプル値の出現確率がより均等にされることを特徴とする録音識別方法。
請求項１において、
合致した候補音紋を、対応する基準音紋の識別子と共にキャッシュメモリに保存するステップと、
新規音紋候補が前記合致した候補音紋として該キャッシュメモリに格納されているか否かを、該新規候補音紋を用いる前記検索ステップに先立って判定するステップと、を更に含むことを特徴とする録音識別方法。
請求項５において、
前記新規候補音紋が前記合致した候補音紋として前記キャッシュメモリに格納されている場合、該新規候補音紋が、対応する基準音紋と合致することを示すステップと、
該新規候補音紋を前記キャッシュメモリに追加して、前記キャッシュメモリにて前記対応する基準音紋の対応する識別子を前記新規候補音紋に関連付けるステップと、を更に含むことを特徴とする録音識別方法。
請求項１において、
前記抽出ステップの結果、各候補音紋が所定の周波数範囲に所定個数の候補値を含むとともに各基準音紋が前記所定の周波数範囲に所定個数の基準値を含み、
異なる周波数範囲に対応する候補値と基準値との間の選択的に重み付けられた差に基づいて各候補音紋が前記基準音紋の１つと合致するか否かを判定するステップを更に含むことを特徴とする録音識別方法。
請求項７において、
中位周波数が高位および低位周波数よりも低く重み付けられた各周波数範囲における各周波数での出力の程度を表わす値を含むように前記候補音紋および前記基準音紋をそれぞれ生成するステップを更に含むことを特徴とする録音識別方法。
請求項１において、
複数の周波数帯域の各々における出力を計算するステップと、
各帯域内の出力の平均が所定の値に等しくなるように各帯域内の各周波数の出力を正規化するステップとを経て、各々の前記候補音紋および前記基準音紋が生成されることを特徴とする録音識別方法。
請求項１において、
高周波数帯域よりも低周波数帯域においてより微細な解像度を用いて、複数の異なる周波数帯域の各々の内部で周波数分布を計算するステップを経て、各々の候補および基準音紋の生成ステップが生成されることを特徴とする録音識別方法。
請求項１において、
前記抽出ステップで前記未識別録音の少なくとも１つの部分から、原音からの周波数変動の識別能力が低い第一の候補音紋と、原音からの振幅変動の識別能力が低い第二の候補音紋が抽出され、
周波数変動の識別能力が低い第一の基準音紋および振幅変動の識別能力が低い第二の基準音紋を保存するステップと、
前記第一の候補音紋を前記第一の基準音紋と、および前記第二の候補音紋を前記第二の基準音紋と比較するステップと、を更に含むことを特徴とする録音識別方法。
請求項１１において、
前記第一の候補音紋と前記第一の基準音紋との前記比較のために第一のプロセッサを用い、並行して前記第二の候補音紋と前記第二の基準音紋との前記比較のために第二のプロセッサを用いることを特徴とする録音識別方法。
請求項１１において、
前記第一の候補音紋と前記第一の基準音紋との前記比較の第一の結果を、前記第二の候補音紋と前記第二の基準音紋との前記比較の第二の結果と組み合わせて、前記第一および前記第二の音紋の両方に対応する前記第一および前記第二の基準音紋が保存されているか否かを判定することを特徴とする録音識別方法。
請求項１において、
前記未識別録音の部分の持続期間が２５秒未満であることを特徴とする録音識別方法。
請求項１４において、
前記未識別録音の部分の持続期間が少なくとも１０秒であり、かつ２０秒以下であることを特徴とする録音識別方法。
請求項１において、
前記抽出ステップで、フレーム間を滑らかに遷移すべく時間で重み付けられた重なり合うフレームを用いて重み付き周波数スペクトルが取得され、
前記検索ステップが、
低域値よりも高域値を減衰させる知覚的出力尺度を用いて前記重み付き周波数スペクトルを変換済み周波数スペクトルに変換するステップと、
前記変換済み周波数スペクトルから少なくとも１つの値を計算するステップと、を含む、ことを特徴とする録音識別方法。
請求項１において、
前記抽出ステップが、各時間−周波数領域が時間フレームの少なくとも３つの範囲を包含し、周波数の少なくとも３つの範囲を包含するよう、前記未識別録音の部分を時間−周波数領域に分割するステップを含み、
前記検索ステップが、
少なくとも１つの中位時間および中位周波数領域を強調する重み付き時間−周波数領域を生成すべく前記時間−周波数領域を重み付けするステップと、
前記重み付き時間−周波数領域を用いて少なくとも１つの値を計算するステップと、を含むことを特徴とする録音識別方法。
請求項１において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
前記抽出ステップで一定の時間間隔で連続したフレームから複数の候補音紋が生成され、
前記検索ステップで、単一の基準録音からの前記基準音紋と所定個数の前記連続したフレームから得られる前記候補音紋との間で合致が検出された場合のみ、前記未識別録音が前記単一の基準録音に対応するものとして識別されることを特徴とする録音識別方法。
請求項１において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
前記抽出ステップで複数の候補音紋が生成されるとともに、
前記検索ステップが、
第一の候補音紋と、合致する可能性のある、見込み基準録音に対する前記基準音紋の１つとの間で第一の合致を検出するステップと、
所定個数の合致が検出されるまで、前記未識別録音からの他の候補音紋と、前記見込み基準録音に対する前記基準音紋とを比較するステップを含むことを特徴とする録音識別方法。
請求項１において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含むとともに、
合致が検出されない場合、前記検索ステップが基準音紋の全てを含むことを特徴とする録音識別方法。
請求項１において、
基準録音に対する前記基準音紋を生成するステップを更に含み、該生成ステップが、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
前記距離指標に基づいて楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、により行なわれることを特徴とする録音識別方法。
請求項１において、
前記抽出ステップが、
前記未識別録音の少なくとも１つの部分を周波数帯域に分離するステップと、
前記周波数帯域の各々に対するパワースペクトルを計算するステップと、
全ての前記パワースペクトルから少なくとも１つの値を計算するステップと、を含むことを特徴とする録音識別方法。
請求項２２において、
周波数帯域がウェーブレット解析に対応する１つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする録音識別方法。
請求項２３において、
中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする録音識別方法。
請求項１において、
基準録音に対して前記基準音紋を生成するステップを更に含み、該生成ステップが、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
前記主音紋と前記複数の副音紋との基準距離指標を各々計算するステップと、
前記基準距離指標に基づいて基準楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記基準楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、によって行なわれ、
前記抽出ステップで、初期候補音紋および前記初期候補音紋に続く複数の後続候補音紋が一定の時間間隔で生成され、
前記検索ステップが、
前記初期候補音紋を、前記基準録音に対する前記主音紋と比較するステップと、
合致する可能性のある、見込み基準録音が検出された場合、前記初期候補音紋と前記複数の後続候補音紋までの候補距離指標を各々計算し、前記候補距離指標に基づいて候補楽曲プロファイルを生成し、前記候補楽曲プロファイルが前記見込み基準録音に対する前記基準楽曲プロファイルと所定の相関を有する場合のみ、前記未識別録音を前記見込み基準録音として識別することを特徴とする録音識別方法。
請求項２５において、
前記後続候補音紋の前記抽出ステップが完了する前に前記比較ステップが開始されることを特徴とする録音識別方法。
請求項１において、
前記0候補音紋および前記基準音紋がそれぞれ少なくとも２５６個の値を有する要素を少なくとも５つ持つベクトルを含むことを特徴とする録音識別方法。
請求項２７において、
前記候補音紋および前記基準音紋がそれぞれ、６５,５３６個以下の値を有する要素を最大３８つ持つベクトルを含むことを特徴とする録音識別方法。
請求項２８において、
前記候補音紋および前記基準音紋が各々、長さが約１６ビットである約３０個の要素からなるベクトルを含むことを特徴とする録音識別方法。
請求項１において、
前記抽出ステップで、単一の基準録音に対応する異なる複製であって、そのうちの少なくとも１つが前記抽出ステップに先立って変更されている前記異なる複製からそれぞれ複数の候補音紋が生成されることを特徴とする録音識別方法。
請求項３０において、
前記異なる複製の少なくとも１つが、時間領域での音響的影響、周波数領域での音響的影響、および信号圧縮スキームのうち少なくとも一つにより変更されていることを特徴とする録音識別方法。
未識別録音を識別すべく基準録音の基準音紋を生成する方法であって、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定間隔のフレームで前記基準録音から複数の副音紋を抽出するステップと、
前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
前記距離指標に基づいて楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、を含むことを特徴とする録音識別方法。
未識別録音を識別すべく基準録音の基準音紋を生成する方法であって、
各基準録音の所定の部分を複数の周波数帯域に分離するステップと、
前期複数の周波数帯域について、各々パワースペクトルを計算するステップと、
全ての前記パワースペクトルから少なくとも１つの値を計算するステップと、を含むことを特徴とする録音識別方法。
請求項３３において、
前記周波数帯域がウェーブレット解析に対応する１つのプロトタイプ・フィルタから得られるフィルタから出力されることを特徴とする録音識別方法。
請求項３４において、
中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする録音識別方法。
録音を識別する方法を実施する少なくとも１つのプログラムを保存している少なくとも１つのコンピュータ読み取り可能な媒体であって、
未識別録音の少なくとも１つの部分から少なくとも１つの候補音紋を抽出する抽出ステップと、
前記少なくとも１つの候補音紋から得られる少なくとも１つの値と、複数の基準音紋のうちの少なくとも１つの基準音紋の少なくとも１つの値との間の合致を検索する検索ステップと、を含む媒体。
請求項３６において、
前記検索ステップが、前記少なくとも１つの候補音紋から得られる値に基づく重みを用いて、前記少なくとも１つの候補音紋と前記少なくとも１つの基準音紋との間の少なくとも１つの重み付き絶対差を計算するステップを含むことを特徴とする媒体。
請求項３６において、
前記抽出ステップに先立って、前記未識別録音の少なくとも１つの部分のダイナミックレンジを拡張するステップを更に含むことを特徴とする媒体。
請求項３８において、
前記ダイナミックレンジの拡張ステップにより、前記未識別録音の少なくとも１つの部分に含まれる全てのサンプル値の出現確率がより均等にされることを特徴とする媒体。
請求項３６において、
合致した候補音紋を対応する基準音紋の識別子と共にキャッシュメモリに保存するステップと、
新規候補音紋が前記合致した候補音紋として前記キャッシュメモリに格納されているか否かを、該新規候補音紋を用いる前記検索ステップに先立って判定するステップとを更に含むことを特徴とする媒体。
請求項４０において、
前記新規候補音紋が、前記キャッシュメモリに前記合致した候補音紋として格納されている場合、該新規候補音紋と、対応する基準音紋とが合致することを示すステップと、
該新規候補音紋を前記キャッシュメモリに追加して、前記キャッシュメモリの前記新規候補音紋に、前記対応する基準音紋の対応する識別子を関連付けるステップとを更に含むことを特徴とする媒体。
請求項３６において、
前記抽出ステップの結果、各候補音紋が所定の周波数範囲に所定個数の候補値を含むとともに各基準音紋が前記所定の周波数範囲に所定個数の基準値を含み、
異なる周波数範囲にて対応する候補値と基準値との間の選択的に重み付けられた差に基づいて各候補音紋が前記基準音紋の１つと合致するか否かを判定するステップとを更に含むことを特徴とする媒体。
請求項４２において、
中位周波数が高位および低位周波数よりも低く重み付けられた各周波数範囲における各周波数での出力の程度を表わす値を含むように前記候補音紋および前記基準音紋をそれぞれ生成するステップを更に含むことを特徴とする媒体。
請求項３６において、
複数の周波数帯域の各々における出力を計算するステップと、
各帯域内の出力の平均が所定の値に等しくなるように各帯域内の各周波数の出力を正規化するステップとを経て、各々の前記候補音紋および前記基準音紋が生成されることを特徴とする媒体。
請求項３６において、
高周波数帯域よりも低周波数帯域においてより微細な解像度を用いて、複数の異なる周波数帯域の各々における周波数分布を計算するステップを経て、各々の前記候補音紋および前記基準音紋の生成ステップが生成されることを特徴とする媒体。
請求項３６において、
前記抽出ステップで前記未識別録音の少なくとも１つの部分から、原音からの周波数変動の識別能力が低い第一の候補音紋と、原音からの振幅変動の識別能力が低い第二の候補音紋が抽出され、
周波数変動の識別能力が低い第一の基準音紋および振幅変動の識別能力が低い第二の基準音紋を保存するステップと、
前記第一の候補音紋を前記第一の基準音紋と、および前記第二の候補音紋を前記第二の基準音紋と比較するステップとを更に含むことを特徴とする媒体。
請求項４６において、
前記第一の候補音紋と前記第一の基準音紋との前記比較のために第一のプロセッサが用いられ、並行して前記第二の候補音紋と前記第二の基準音紋との前記比較のために第二のプロセッサが用いられることを特徴とする媒体。
請求項４６において、
前記第一の候補音紋と前記第一の基準音紋との前記比較の第一の結果を、前記第二の候補音紋と前記第二の基準音紋との前記比較の第二の結果と組み合わせて、前記第一および前記第二の音紋の両方に対応する前記第一および前記第二の基準音紋が保存されているか否かが判定されることを特徴とする媒体。
請求項３６において、
前記未識別録音の部分の持続期間が２５秒未満であることを特徴とする媒体。
請求項４９において、
前記未識別録音の部分の持続期間が少なくとも１０秒であり、かつ２０秒以下であることを特徴とする媒体。
請求項３６において、
前記抽出ステップで、フレーム間を滑らかに遷移すべく時間で重み付けられた重なり合うフレームを用いて重み付き周波数スペクトルが取得され、
前記検索ステップが、
低域値よりも高域値を減衰させる知覚的出力尺度を用いて前記重み付き周波数スペクトルを変換済み周波数スペクトルに変換するステップと、
前記変換済み周波数スペクトルから少なくとも１つの値を計算するステップとを含むことを特徴とする媒体。
請求項３６において、
前記抽出ステップが、各時間−周波数領域が時間フレームの少なくとも３つの範囲を包含し、周波数の少なくとも３つの範囲を包含するよう、前記未識別録音の部分を時間−周波数領域に分割するステップを含み、
前記検索ステップが、
少なくとも１つの中位時間および中位周波数領域を強調する重み付き時間−周波数領域を生成すべく前記時間−周波数領域を重み付けするステップと、
前記重み付き時間−周波数領域を用いて少なくとも１つの値を計算するステップと、を含むことを特徴とする媒体。
請求項３６において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
前記抽出ステップで一定の時間間隔で連続したフレームから複数の候補音紋が生成され、
前記検索ステップで、単一の基準録音からの前記基準音紋と所定個数の前記連続したフレームから得られる前記候補音紋との間で合致が検出された場合のみ、前記未識別録音が前記単一の基準録音に対応するものとして識別されることを特徴とする媒体。
請求項３６において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含み、
前記抽出ステップで複数の候補音紋が生成されるとともに、
前記検索ステップが、
第一の候補音紋と、合致する可能性のある、見込み基準録音に対する前記基準音紋の１つとの間で第一の合致を検出するステップと、
所定個数の合致が検出されるまで、前記未識別録音からの他の候補音紋と、前記見込み基準録音に対する前記基準音紋とを比較するステップを含むことを特徴とする媒体。
請求項３６において、
複数の基準録音の各々について複数の前記基準音紋を保存するステップを更に含むとともに、
合致が検出されない場合、前記検索ステップが基準音紋の全てを含むことを特徴とする媒体。
請求項３６において、
基準録音に対する前記基準音紋を生成するステップを更に含み、該生成ステップが、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定の時間間隔で基準録音から副音紋を抽出するステップと、
前記主音紋と副音紋との距離指標を各々計算するステップと、
前記距離指標に基づいて楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、により行なわれることを特徴とする媒体。
請求項３６において、
前記抽出ステップが、
前記未識別録音の少なくとも１つの部分を周波数帯域に分離するステップと、
前記周波数帯域の各々に対するパワースペクトルを計算するステップと、
全ての前記パワースペクトルから少なくとも１つの値を計算するステップと、を含むことを特徴とする媒体。
請求項５７において、
周波数帯域がウェーブレット解析に対応する１つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする媒体。
請求項５８において、
中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする媒体。
請求項３６において、
基準録音に対して前記基準音紋を生成するステップを更に含み、該生成ステップが、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定の時間間隔で基準録音から複数の副音紋を抽出するステップと、
前記主音紋と前記複数の副音紋との基準距離指標を各々計算するステップと、
前記基準距離指標に基づいて基準楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記基準楽曲プロファイルと組み合わせて前記主音紋を保存するステップと、によって行なわれ、
前記抽出ステップで、初期候補音紋および前記初期候補音紋に続く複数の後続候補音紋が一定の時間間隔で生成され、
前記検索ステップが、
前記初期候補音紋を、前記基準録音に対する前記主音紋と比較するステップと、
合致する可能性のある、見込み基準録音が検出された場合、前記初期候補音紋と前記複数の後続候補音紋との候補距離指標を各々計算し、前記候補距離指標に基づいて候補楽曲プロファイルを生成し、前記候補楽曲プロファイルが前記見込み基準録音に対する前記基準楽曲プロファイルと所定の相関を有する場合のみ、前記未識別録音を前記見込み基準録音として識別することを特徴とする媒体。
請求項６０において、
前記後続候補音紋の前記抽出ステップが完了する前に前記比較ステップが開始されることを特徴とする媒体。
請求項３６において、
前記候補音紋および前記基準音紋がそれぞれ少なくとも２５６個の値を有する要素を少なくとも５つ持つベクトルを含むことを特徴とする媒体。
請求項７２において、
前記候補音紋および前記基準音紋がそれぞれ、６５,５３６個以下の値を有する要素を最大３８つ持つベクトルを含むことを特徴とする媒体。
請求項６３において、
前記候補音紋および前記基準音紋が各々、長さが約１６ビットである約３０個の要素からなるベクトルを含むことを特徴とする媒体。
請求項３６において、
前記抽出ステップで、単一の基準録音に対応する異なる複製であって、そのうちの少なくとも１つが前記抽出ステップに先立って変更されている前記異なる複製からそれぞれ、複数の候補音紋が生成されることを特徴とする媒体。
請求項６５において、
前記異なる複製の少なくとも１つが、時間領域での音響的影響、周波数領域での音響的影響、および信号圧縮スキームのうち少なくとも一つにより変更されていることを特徴とする媒体。
未識別録音を識別すべく基準録音の基準音紋を生成する方法を実施する少なくとも１つのプログラムを保存している少なくとも１つのコンピュータ読み取り可能な媒体であって、前記方法が、
各基準録音の所定の部分から主音紋を抽出するステップと、
一定間隔のフレームで前記基準録音から複数の副音紋を抽出するステップと、
前記主音紋と前記複数の副音紋との距離指標を各々計算するステップと、
前記距離指標に基づいて楽曲プロファイルを生成するステップと、
前記基準録音に対する前記基準音紋として前記楽曲プロファイルと組み合わせて前記主音紋を保存するステップとを含むことを特徴とする媒体。
未識別録音を識別すべく基準録音の基準音紋を生成する方法を実施する少なくとも１つのプログラムを保存している少なくとも１つのコンピュータ読み取り可能な媒体であって、前記方法が、
各基準録音の所定の部分を複数の周波数帯域に分離するステップと、
前記複数の周波数帯域の各々に対するパワースペクトルを計算するステップと、
全ての前記パワースペクトルから少なくとも１つの値を計算するステップと、を含むことを特徴とする媒体。
請求項６８において、
前記周波数帯域がウェーブレット解析に対応する１つのプロトタイプ・フィルタから得られるフィルタからの出力であることを特徴とする媒体。
請求項６９において、
中心周波数に対する帯域幅の比率が全てのフィルタについて実質的に同一であることを特徴とする媒体。
録音を識別するシステムであって、
複数の基準音紋を保存する記憶装置と、
前記記憶装置に接続されており、未識別録音の少なくとも１つの部分から少なくとも１つの候補音紋を抽出するとともに、前記少なくとも１つの候補音紋から得られる少なくとも１つの値と、前記複数の基準音紋のうちの少なくとも１つの基準音紋に含まれる少なくとも１つの値との間の合致を検索するプロセッサと、を含むシステム。