JP5150266B2

JP5150266B2 - オーディオ信号において繰り返されるマテリアルの自動識別

Info

Publication number: JP5150266B2
Application number: JP2007554350A
Authority: JP
Inventors: デバスク，デイヴィド，エル; ブリッグス，ダレン，ピー; カーライナ，マイクル; チョン・タン，リチァド，ウイン; リ・チュン，ワン，エイヴァリ
Original assignee: ランドマーク、ディジタル、サーヴィセズ、エルエルシー
Priority date: 2005-02-08
Filing date: 2006-02-08
Publication date: 2013-02-20
Anticipated expiration: 2026-02-08
Also published as: CN101189658A; HK1169208A1; US20140052284A1; US9092518B2; ES2569423T3; US20120076310A1; EP2437255A2; US8090579B2; WO2006086556A3; WO2006086556A2; US8571864B2; EP1864243A2; EP2437255B1; US20060277047A1; EP2437255A3; CA2595634C; EP1864243A4; CA2595634A1; JP2008530597A

Description

本発明は、メディアファイルにおけるパターンの認識及び識別に関し、特に、１又は複数のメディアストリームにわたるメディア信号、特にオーディオ信号において繰り返されるマテリアルの識別に関する。
（関連出願）
本発明は、開示内容がここに参照として完全に組み込まれている、２００５年２月８日に出願された、出願番号が６０／６５１，０１０、発明の名称が、オーディオ信号において繰り返されるマテリアルの自動識別である、米国仮特許出願に基づく優先権を主張する。

音楽又はビデオコンテンツといったものについての著作権者は、彼らの音楽又はビデオが再生される事例毎に、報酬を受けられる資格がある。特に、音楽の著作権者については、彼らの歌が数千ものラジオ局のいずれかから空中を通じて、そして現在はインターネット上で、いつ再生されたかを判断するのは、やっかいな作業である。従来、著作権者は、このような場合におけるロイヤリティの収集を第３者にまかせ、商業目的で音楽を再生した実体（ｅｎｔｉｔｉｅｓ）に対して、著作権者のカタログ（ｃａｔａｌｏｇｕｅ）を補償するための使用料金を課させる。その後、これらの料金は、どの歌が最も多く再生されたかに従って、それらの著作権者に報酬を与えるために設計された統計モデルに基づいて、当該著作権者に対して分配される。このような統計的方法は、少ないサンプル数に基づいて、実際の再生事例を極めておおまかに見積もっている。

２００６年１月４日に発行された、特許番号６，９９０，４５３の米国特許は、既知のソングの再生事例を追跡するために、ラジオ局の信号といったメディアストリームからの未知のメディアサンプルを、ソングのような既知のメディアファイルのデータベースと比較するシステム及び方法について記載している。不運なことに、メディアストリームのコンテンツの多くは、様々な理由で予め知られてはいない。例えば、トークショー、ディスクジョッキー又はＤＪの会話又はイントロダクションのようなユニークなオーディオ、そして他の類似するオーディオは、認識されていないユニークなオーディオを示す。

しかし、オーディオストリームを監視するシステムに関連し、実際に報酬を受けるべき著作権者に関する他の認識されていないオーディオがある。そのような、対象となる認識されていないオーディオは、予めインデックスが付けられていないソング、又は、著作権で保護されたミュージックを使用するコマーシャル、又は他の認識されずに繰り返されるオーディオセグメントでもよい。これらの認識されていないオーディオセグメントは、一つのメディアストリーム内で繰り返され、又は、多数のラジオ局上で再生される地方のコマーシャルといったように、多数のメディアストリームにわたって繰り返される。

１又は複数の認識されていないメディアストリームにおいて繰り返されるセグメント又はサンプルを認識するシステム及び方法が必要であり、当該システム及び方法は、サンプルを予めフィンガープリントされ（ｆｉｎｇｅｒｐｒｉｎｔｅｄ）又はインデックスが付けられたサンプルと照合して、認識されていないメディアが繰り返されたことを発見できる。

（発明の要旨）
従って、本願は、少なくとも一つのメディアストリームにおいて繰り返されるオーディオマテリアル（ｍａｔｅｒｉａｌ）を、当該繰り返されるマテリアルの性質（ｎａｔｕｒｅ）についての事前情報なしに認識する方法を記述する。当該方法は、当該メディアストリームからスクリーニングデータベースを生成し、当該メディアストリームから未知のサンプルのオーディオフラグメントを取得し、当該メディアストリームの中から照合するフラグメントを見つけ、そして、当該未知のサンプルが当該スクリーニングデータベースにおけるサンプルのいずれかと照合するかを判断する方法を含む。

他の実施例においては、認識されていないメディアコンテンツの少なくとも一つのソースにおいて繰り返される、認識されていない識別メディアコンテンツのセグメントを識別するためのシステムが記述され、当該システムは、当該認識されていないメディアを受信し、識別子を当該認識されていないメディアのサンプルに関連付ける候補（ｃａｎｄｉｄａｔｅ）マネジャーを備える。当該システムは、更に、認識されていないメディアセグメント用のフィンガープリントを生成し得るフィンガープリントジェネレータと、当該候補マネジャー及びフィンガープリントジェネレータと接続されたメディアサーチエンジンを備え、当該メディアサーチエンジンは、認識されていないメディアのフィンガープリントを予め記憶された認識されていないメディアのフィンガープリントのデータベースと比較して、認識されていないメディアコンテンツにおいて繰り返されるセグメントを見つけ得る。

上記のことは、以下の本発明の詳細な説明がよりよく理解できるように、本発明の特徴と技術的利点を概略的に説明する。本発明のクレームの主題を形成する本発明の追加的な特徴と利点がここで記述される。開示される思想と特定の実施例は、修正、そして、本発明と同一の目的を達成するための他の構成を設計するための基礎としてすぐに役立つことが当業者に理解されるであろう。そのような同等の構成は添付されたクレームに示される発明の思想と範囲を逸脱するものではないことが、当業者に理解されるであろう。本発明の特徴とされる、その構成及びオペレーション方法双方の明白な特徴は、さらなる目的と利点とともに、添付された図面が考慮された時に以下の記述から容易に理解されるであろう。しかし、その各図は、表示と説明のためのみのものであり、本発明の限界を定めるものではないことが明確に理解されるべきである。

ラジオのレコーディングやＴＶのブロードキャスト、又はナイトクラブ等の公共の場所におけるマテリアルのパフォーマンスのレコーディングといった、オーディオ信号中に含まれる予め記録されたマテリアルを識別する自動化された方法を用いるのは、一般的なプラクティスである。用いられる技術にかかわらず、これらの方法は、信号が参照データベース中の既知のコンテンツと照合され得るように、識別対象のマテリアルに予めアクセスすることが必要である。多くのマテリアルは、ミュージックＣＤの場合のように、いつでも商業的に取得可能であるため、これは問題ではない。しかし、オーディオ信号の多くは、例えば商業的にリリースされる日の前のミュージックや、広告マテリアルや、ラジオ局の識別のために記述されるミュージック等の、すぐには取得できないマテリアルからなる。

これは、正確にオーディオ信号のコンテンツの量を量る上で、２つの問題を生じさせる。
（１）識別対象のマテリアルが、参照データベース中に含まれていないため存在しない。
（２）信号の実質的な部分が、対象となるマテリアルを含んでいないのに、当該自動的な方法は、対象とならないものとして識別しないので、マニュアルによる調査から除外され得ない。

オーディオは、例えば、データベースから識別されるオーディオが既知の領域（ｒｅｇｉｏｎ）に分けられ、残りの領域が認識されていないオーディオ（ＮＲＡ）として残されたままとなるワングによる技術（ここに参照として完全に組み込まれている出願番号６０／５６３，３７２の米国仮特許出願）を用いて、直接識別され、そして分けられる。ワングの方法は、既にデータベース内に存在するコンテンツを認識することに制限されており、データベース内に含まれていないマテリアルを識別し、分けることができない。

この制限を克服するため、「シフティング（ｓｉｆｔｉｎｇ）」法が、監視されたメディアストリームから認識されていないオーディオのセグメント（ＮＲＡ）を調査し、そして、それらが近い過去（ｒｅｃｅｎｔｐａｓｔ）からの他のセブメント又はセグメントの部分と照合するかをチェックするために用いられる。一旦そのような照合が発見されると、それらは、区分けされて参照データベースに入れられ、対象となるターゲットマテリアルに予めアクセスすることなくデータベースを生成することを可能とする。

ＮＲＡストリームにおける対象となるアイテムのデータベースを生成するシステムが図１に示される。システム１０は、ＮＲＡストリーム１２を認識されていないオーディオ１１から取得し、対象とするＮＲＡ内において繰り返されるセグメントを識別する。ＮＲＡセグメント１２は、当該メディアストリーム内のデータの各インスタント（ｉｎｓｔａｎｔ）を収集し、ユニークな識別子を用いてマークする候補マネジャー１３に対して送信される。候補マネジャー１３は、当該ＮＲＡをフィンガープリントジェネレータ１４に対して送信し、そこにおいて、当該ＮＲＡからの生のオーディオセグメントが、フィンガープリント特徴を抽出するために処理され、検索可能なデータベース中においてインデックスが付けられる。オーディオサーチエンジン１６は、候補マネジャー１４からのオーディオサーチリクエストに応答し、フィンガープリントジェネレータ１４からのＮＲＡのフィンガープリントを用いて、ＮＲＡセグメントを予めインデックスが付けられたＮＲＡセグメントのデータベースと比較する。ＮＲＡの特定のセグメントが、ある照合に関する閾値まで累積して、システム１０が１又は複数のオーディオストリームにわたって同じオーディオコンテンツを多数回認識したことになると、当該オーディオセグメントは、肯定的な識別を保証するための重要な対象であると判断される。これは、当該重要なコンテンツ、発行された（ｐｕｂｌｉｓｈｅｄ）フィンガープリント１８を発行し、それを他の認識されたサーチエンジン１９に追加することで達成される。

監視されているオーディオストリーム中で多数回照合した当該重要なＮＲＡセグメントは、肯定的に識別され、カタログ化されるために送信される必要がある。当該重要なＮＲＡセグメントの識別は、当該オーディオを聴いて肯定的な識別を行う人間のオペレータに対して送信されることを要する。ここに参照として組み込まれている他の出願において記述されているように、当該人間のオペレータは、当該オーディオを識別し、当該重要なＮＲＡセグメントが既知のオーディオコンテンツのデータベースに追加され得るために必要な情報を入力する。

繰り返されるマテリアルを認識する一つの方法が図２に関連して記述される。方法２０は、１又は複数のメディアストリームから未知の（ＮＲＡ）オーディオをシフティングのために（ｆｏｒｓｉｆｔｉｎｇ）収集し、そこにおいて、オーディオデータの各インスタントは、ユニークなタイムスタンプリファレンス（ｔｉｍｅｓｔａｍｐｒｅｆｅｒｅｎｃｅ）を有する（そのようなタイムスタンプリファレンスは、時間とともに増加し、ストリーム識別子とともに増大する）。

近い過去において監視されたメディアストリームから、未知の（ＮＲＡ）オーディオプログラムマテリアルを含むスクリーニングデータベースが、スクリーニングのために生成され、当該生のオーディオレコーディングが、フィンガープリントの特徴を抽出するために処理され、そして、検索可能なデータベース中においてインデックスが付けられる。そのようなデータベースを提供する方法は、内容がここに参照として組み込まれている、２０００年７月３１日に出願された出願番号０９／８３９，４７６の米国特許出願と２００１年４月２０日に出願された出願番号０９／８３９，４７６の米国特許出願とに基づく優先権を主張し、国際公開番号がＷＯ０２／１１１２３Ａ２であり、発明の名称が、高ノイズ及び歪みにおけるサウンド及びミュージック信号を認識するシステム及び方法である、ワング及びスミス（以下、ワング及びスミス）、又は、内容がここに参照として組み込まれている、２００２年４月２５日に出願された出願番号６０／３７６，０５５の米国仮特許出願に基づく優先権を主張し、国際公開番号がＷＯ０３／０９１９９０Ａ１であり、発明の名称が、「ロバストかつ不変のオーディオパターンマッチング」である、ワング及びカルバート（以下、ワング及びカルバート）において開示されている。「ワング及びスミス」、又は「ワング及びカルバート」からの、これらの特定の方法の使用は、例示であり、限定を意味するものではない。

自動的なセグメンテーション処理を行うために、未知のメディアストリームマテリアルからの短いプローブフラグメントが、プロセス２１に示すように、「ワング及びスミス」又は「ワング及びカルバート」の技術のような識別技術を例示し、当該スクリーニングデータベースを組み込んでいる、図１のオーディオサーチエンジン１６に対して認識用に出力される。プロセス２２において、ＮＲＡが予めフィンガープリントをとられた候補と照合するかが判断される。次に、照合したセグメントが、未知のメディアストリームから識別され、プロセス２３において、既存の候補に対して認識が加えられる。

プローブフラグメントＦ_０（０）が認識されると、当該スクリーニングデータベースからの照合結果Ｆ_ｐ，ｋ（０）（ｋは、照合インデックス）が、照合フラグメントリスト中にグループ化される。当該作業は、照合するセグメントの照合の境界及び照合の度合いを見つけるための作業である。その結果、ｔをＦ_０（０）からのタイムオフセットとして、近接するプローブフラグメントＦ_０（ｔ）が認識用に出力され、それらの対応する照合フラグメントリストが取得される。当該対応する照合フラグメントリストは、継続的にスキャンされ（ｓｃａｎｎｅｄ）、近接するプローブフラグメントは実質的に近接する照合フラグメント上にマップする（ｍａｐ）。一連の近接するプローブフラグメントのチェーン（ｃｈａｉｎ）は、１又は複数の照合するフラグメントのパラレルチェーン上にマップする。そのようなパラレルチェーンの束は、候補グループを形成する。各照合パラレルチェーンは、最高の照合パラレルチェーンを生成するために、時間における双方の方向にできるだけ拡張される。候補セグメンテーションポイントは、複数の照合パラレルチェーンが実質的に同時に終了するか開始する場所である。

最高の照合パラレルチェーンのセットは、異なる長さとともに、異なるエンドポイントを有することができる。これは、繰り返されるプログラムセグメントの階層的ネスティング（ｎｅｓｔｉｎｇ）による。異なるセグメンテーションは、異なるバージョンのソング又はコマーシャルによる。代替的に、繰り返されるマテリアルの中には、繰り返されるプログラム中に埋め込まれ得るものがあり、ラジオプログラムは、当該日を通じて多数回放送されることが多い。

セグメンテーションの階層を判断する方法の一つは、照合フラグメントリスト内で照合号する要素の数に基づいて、各フラグメントにおけるパラレルチェーンを重み付けすることである。最も高い重み付けがされたパラレルチェーンのセットは、おそらくソング又は広告といったアトミック（ａｔｏｍｉｃ）プログラムセグメントである。次に高い重み付けがされたパラレルチェーンは、例えば一時間毎にニュースキャストされ、又は繰り返し放送されるトップ４０ヒットソングといったアトミックプログラムセグメントを含む、繰り返されるラジオプログラムによる。高い重み付けがされたパラレルチェーンは、アトミックプログラムセグメントとして、良い候補であり、広告又はソングを認識するために、参照データベース内において発行を促される。発行の基準は、グループ中の候補の数（何回当該マテリアルが繰り返されたか）と、当該候補間の相関の正しさといったパラメータを含んでおり、例えば、照合フラグメントリストの他の要素との間の、全てのペアの最高の相互スコアを有するセグメントを選択する。一旦発行されると、繰り返されるマテリアルの最も照合する標本に対応するオリジナルのオーディオサンプルを提供するソースメディアストリームが、連続的なオーディオサンプルを提供するためにコピーされる。「最高の」例が識別される必要がある理由は、典型的には、ミュージカルトラックといったいくつかの繰り返されるマテリアルが、音楽を通じて話すプログラムプレゼンターといった、繰り返されないマテリアルにかぶせられる（ｏｖｅｒｌａｉｄ）からである。「最高の」候補は、そのような疑似コンテンツが最も少ないものの一つである。

図２に戻って、プロセス２４が、認識された候補を評価して、プロセス２５に示されるように、それらが発行のための閾値を満たすかを判断する。当該候補が発行される準備ができている場合、それは、プロセス２９に示されるように発行される。プロセス２５において当該候補が発行される準備ができていない場合、プロセス２６において、サーチエンジンデータベースに対して任意の追加的情報が加えられる。プロセス２２に戻って、当該ＮＲＡセグメントが認識されていない場合、当該方法は、プロセス２６に進んで、当該セグメントがサーチエンジンデータベースに加えられる。

プロセス２７において、方法２０は、照合しておらず直ぐに取り除かれる（ｐｕｒｇｉｎｇ）古いＮＲＡがあるかを判断する。当該オーディオストリームの多くが、ライブトークショー、ラジオプロモーション、又は単にラジオパーソナリティ又はＤＪのトークのような、決して照合しないユニークなオーディオであるため、この情報は、処理される新たなＮＲＡのために場所を空けるために当該システムから取り除かれる。タイムスタンプ、新たなＮＲＡコンテンツについて利用可能なメモリ、又はこれら又は他のファクターの組合せから判断されるように、直ぐに取り除かれるＮＲＡが存在する場合、当該方法は、プロセス２８に進んで、当該古いＮＲＡを取り除く。プロセス２８において、取り除くＮＲＡがない場合、又は、当該古いＮＲＡが取り除かれている場合には、当該プロセスは終了する。方法２０が、当該処理されたＮＲＡが当該方法において処理された他のＮＲＡを通りすぎる度に新たなＮＲＡを継続的に認識しようとする継続的なプロセスであることは、当業者に認識されるであろう。

上述したプロセスは、未知のオーディオストリームマテリアルの決められた束（ｂａｔｃｈ）への作業として解釈される。しかし、それは、データをインクリメントベースに（ｏｎａｎｉｎｃｒｅｍｅｎｔａｌｂａｓｉｓ）処理することにまで向上する。新たなメディアストリームコンテンツが取得されると、それは、当該スクリーニングデータベースに追加される。当該新たなメディアストリームコンテンツは、また、プローブフラグメントを形成するために用いられ、そして、上述したように、繰り返されるマテリアルにを求めてスキャンされる。更に、古いマテリアルは、当該スクリーニングデータベースから取り除かれ、その結果、無制限な増加が防止される。これを実行するための一つの方法は、「ワング及びスミス」によれば、新たなデータが到着し、古いデータがリタイアした時に、未知のメディアストリームマテリアルの移動窓を用いて、当該スクリーニングデータベースを継続的に再生成することである。

図３〜図６を参照して、ＮＲＡセグメントのフィンガープリンティングとインデックシングの実施例について説明する。

本発明は特定のハードウェアシステムに限定されないが、ＮＲＡセグメントのようなメディアセグメントをフィンガープリンティングし、ランドマーキング（ｌａｎｄｍａｒｋｉｎｇ）する上で用いられる、分散されているか、又は分散されていないコンピュータシステム３０の実施例が図３中に概括的に示される。システム３０のプロセッサ３２ａ〜３２ｆは、マルチプロセッシングバスアーキテクチャー３４又はベオウルフ（Ｂｅｏｗｕｌｆ）クラスターコンピューティングプロトコルといったネットワーキングプロトコル、又は当該二つの組合せによって接続されている。そのような配置において、当該データベースのインデックスが、好ましくは当該クラスター内の少なくとも一つのノード３２ａ上のランダムアクセスメモリ（ＲＡＭ）に記憶されて、フィンガープリントの検索が極めて迅速になされることを保証する。ランドマーキングノード３２ｃ及び３２ｆ、フィンガープリンティングノード３２ｂ及び３２ｅ、そして、アラインメントスキャニングノード３２ｄといった、他のオブジェクトに対応する演算ノードは、当該データベースのインデックスをサポートしているノード３２ａほど多くのＲＡＭの容量を必要とされない。その結果、各々のオブジェクトに割り当てられた演算ノードの数は、一つのオブジェクトもボトルネックにならないようにするという必要に従って変更される（ｓｃａｌｅｄ）。従って、当該演算ネットワークは、高度にパラレル化され、更に、利用可能な演算リソースの間で分配される多数の同時の信号認識クエリ（ｑｕｅｒｉｅｓ）を処理することができる。

他の実施例においては、ある機能的オブジェクトが、より強く互いに接続されており、他のオブジェクトとあまり強く接続されていない。例えば、当該ランドマーキング及びフィンガープリンティングオブジェクトは、当該演算オブジェクトの残りから物理的に離れたロケーションに存在し得る。この一例は、当該ランドマーキング及びフィンガープリンティングオブジェクトと信号取得プロセスとの強固な関連付けである。この配置においては、当該ランドマーキング及びフィンガープリンティングオブジェクトは、例えば、携帯電話、無線アプリケーションプロトコル（ＷＡＰ）ブラウザ、パーソナルデジタルアシスタント（ＰＤＡ）、又は、オーディオサーチエンジンのクライアントエンドといった他のリモート端末に内蔵される追加的なハードウェア又はソフトウェアとして組み込まれ得る。コンテンツ識別サービスのような、インターネットベースのオーディオサーチサービスにおいては、当該ランドマーキング及びフィンガープリンティングオブジェクトは、マイクロソフトのダイナミックリンクライブラリ（ＤＬＬ）といった、リンクされたソフトウェア命令又はソフトウェアプラグインモジュールとして、当該クライアントのブラウザアプリケーション内に組み込まれ得る。これらの実施例においては、信号キャプチャー、ランドマーキング及びフィンガープリンティングオブジェクトの組合せが、当該サービスのクライアントエンドを構成する。当該クライアントエンドが、ランドマークとフィンガープリントとを含む、取得された信号サンプルの、抽出された特徴（ｆｅａｔｕｒｅ−ｅｘｔｒａｃｔｅｄ）の一覧（ｓｕｍｍａｒｙ）を、当該認識処理を実行するサーバエンドに送信する。取得された生の信号の替わりに、この抽出された特徴の一覧をサーバへ送信することは、データ量が大幅に減少し、多くの場合５００又はそれ以上のファクターが減少するので、有益である。そのような情報は、例えば当該サーバに対して送信されるオーディオストリームとともに、又はそれに替えて、低い帯域幅サイドのチャネルを通じてリアルタイムに送信され得る。これは、当該発明を公衆通信ネットワークを通じて実行することを可能とし、各々のユーザに対して比較的小さいサイズの帯域幅を提供する。

フィンガープリンティングとランドマーキングの方法の実施例が、ＮＲＡサンプル又はセグメント、及び、例えば図１のデータベース１４といったデータベースにおいてインデックスが付けられたＮＲＡセグメントといったオーディオサンプルを参照して詳細に記述される。

認識が実行される前に、検索可能なサウンドデータベースインデックスが構築されなければならない。ここで用いられるように、データベースは、任意のインデックスが付けられたデータの集合であり、商業的に利用可能なデータベースに限定されない。データベースインデックスにおいて、関連するデータの要素は、互いに関連付けられており、個々の要素は、関連付けられたデータを取得するために用いられ得る。サウンドデータベースのインデックスは、スピーチ、ミュージック、広告、ソナー特性を含むレコーディングの、選択された集合又はライブラリにおける、各々のファイル又はレコーディングに対するインデックスセットを含む。各レコーディングは、また、ユニークな識別子であるサウンドＩＤを持っている。当該サウンドデータベース自体は、必ずしも各レコーディングについてのオーディオファイルを記憶する必要はないが、当該サウンドＩＤは、その他の場所から当該オーディオファイルを取得するために用いられ得る。当該サウンドデータベースは、極めて大きく、数百万又は数十億ものファイルのインデックスを含んでいることが望ましい。好ましくは、新たなレコーディングが当該データベースのインデックスに対して増加的に（ｉｎｃｒｅｍｅｎｔａｌｌｙ）追加される。

第１の実施例による当該検索可能なサウンドデータベースのインデックスを構築するための好適な方法４０のブロック図が図４に示される。この実施例においては、ランドマークが最初に算出され、次に、当該ランドマークにおいて、又は当該ランドマークの近くにおいて、フィンガープリントが算出される。当業者にとって明らかであるように、当該データベースのインデックスを構築するための代替的な方法が案出される。特に、以下に列挙される多くのステップは選択的であるが、より効率的に検索可能なデータベースのインデックスを生成するために役立つ。大きなデータベースからのリアルタイムのサウンド認識のためには、検索の効率性が重要であるが、小さなデータベースは、たとえそれらが最適にソートされていなくても、比較的迅速に検索され得る。

当該データベースにインデックスを付けるため、当該コレクション内の各レコーディングは、各オーディオファイルについてのインデックスセットを生成するランドマーキング及びフィンガープリンティング解析を受ける。図５は、ランドマーク（ＬＭ）及びフィンガープリント（ＦＰ）が算出されるサウンドレコーディングのセグメントを概括的に示す。ランドマークが、当該サウンドの特定のタイムポイントにおいて発生し、当該ファイルの開始からの、時間単位のオフセットの値を持つ一方で、フィンガープリントは、特定のランドマークにおける、又は特定のランドマークの近くにおけるサウンドを特徴付ける。その結果、この実施例においては、当該同じフィンガープリントが一つのファイル又は多数のファイル内で多く発生し得る一方で、特定のファイルについての各ランドマークはユニークである。

ステップ４２において、各サウンドレコーディングは、当該サウンドレコーディング内の識別可能で再生成可能なロケーションを発見する方法を用いてランドマーキングされる（ｌａｎｄｍａｒｋｅｄ）。好適なランドマーキングアルゴリズムは、ノイズと他の線形及び非線形ひずみの存在にもかかわらず、サウンドレコーディング内の同じタイムポイントをマークし得る。ランドマーキング方法の中には、以下に記述するフィンガープリンティングプロセスと概念的に独立しているものもあるが、後者のパフォーマンスを最適にするために用いられ得る。ランドマーキングの結果、フィンガープリントが連続的に算出されるサウンドレコーディング内のタイムポイント｛ランドマークｋ｝のリストが得られる。良好なランドマーキングスキームは、サウンドレコーディングの１秒当たり約５〜１０個のランドマークをマークし、もちろん、ランドマーキングの密度は、当該サウンドレコーデンィグのアクティビティ（ａｃｔｉｖｉｔｙ）の量に依存する。

様々な技術がランドマークを算出することができ、その全ては、本発明の範囲内である。本発明のランドマーキングスキームを実行するために用いられる特定の技術的プロセスは、当該分野において知られており、詳細には記述しない。パワーノーム（ＰｏｗｅｒＮｏｒｍ）として知られている一つのランドマーキング技術は、当該レコーディグにおける、可能な全てのタイムポイントにおける瞬間的なパワーを算出し、ローカルな最大値を選択するための技術である。これを実行する一つの手法は、波形を直接修正し、フィルタリングすることによって、包絡線（ｅｎｖｅｌｏｐｅ）を算出することである。

他の方法は、信号のヒルバート変換（方形化）を算出し、当該ヒルバート変換とその元になる信号の二乗和を用いることである。

ランドマーキングについてのパワーノームの方法は、サウンド信号における減衰を見つけるのが得意である。パワーノームは、実際にｐ＝２という、より一般的なスペクトラムＬｐノームの特殊なケースである。当該一般的なスペクトラムＬｐノームは、例えばハニング窓関数が掛けられる高速フーリエ変換（ＦＦＴ）を通じて短時間のスペクトラムを算出することによって、当該サウンド信号に沿った各時間において算出される。好適な実施例は、８０００Ｈｚというサンプリングレート、１０２４サンプルというＦＦＴフレームサイズ、そして、各タイムスライスについての６４サンプルというストライド（ｓｔｒｉｄｅ）を用いる。次に、各々のタイムスライスについてのＬｐノームが、スペクトルコンポーネントの絶対値のｐ＾パワーの合計として算出され、選択的に当該ｐ＾根をとることによって算出される。前述したように、当該ランドマークは、時間を通じたローカルな最大値の最終値として選択される。当該スペクトラルＬｐノームの手法は、図５の、特定のサウンド信号についての時間の関数としてのＬ４ノームのグラフ中に示される。ローカルに最大なところにおける断続線は、当該選択されたランドマークのロケーションを示す。

ｐ＝００の場合、当該Ｌａ０ノームがちょうど最大のノームである。すなわち、当該ノームの値は、スペクトラルスライスにおける最も大きなスペクトラルコンポーネントの絶対値である。このノームによれば、強固なランドマークと良好な全体の認識パフォーマンスがもたらされ、調的な（ｔｏｎａｌ）ミュージックにとって好ましい。その代わりとして、「マルチスライス」スペクトラルランドマークが、一つのスライスの代わりに、お互いからの一定又は可変のオフセットにおけるマルチプルなタイムスライスにわたるスペクトラルコンポーネントのｐ０１パワーの絶対値の合計をとることによって算出され得る。この拡張された合計のローカルな最大値を見つけることによって、以下に記述されるマルチスライスのフィンガープリントの最適な配置が可能となる。

一旦当該ランドマークが算出されると、ステップＳ４４において、フィンガープリントが当該レコーディングにおける各ランドマークのタイムポイントにおいて算出される。当該フィンガープリントは、一般的に、当該タイムポイントにおける、又は当該タイムポイントの近くにおけるレコーディング中の特徴のセットを集約した値又は値のセットである。現在の好適な実施例においては、各フィンガープリントは、多数の特徴のハッシュ関数の一つの数値である。フィンガープリントの可能なタイプは、スペクトラルスライスフィンガープリント、マルチスライスフィンガープリント、ＬＰＣ係数、そして、ケプストラル係数を含む。もちろん、ランドマークの近くの信号又は当該信号のフィーチャーを特徴付ける任意のタイプのフィンガープリントが、本発明の範囲に含まれる。フィンガープリントは、任意のタイプのデジタル信号処理又は当該信号の周波数分析によって算出される。

スペクトラルスライスのフィンガープリントを生成するため、周波数分析が、各ランドマークタイムポイントの近傍において実行されて、上位数個のスペクトラルピークが抽出される。一つのフィンガープリントの値は、ちょうど一つの最も強いスペクトラルピークの周波数の値である。そのような一つのピークを用いると、ノイズが存在する中において驚くほど良好な認識結果が得られるが、単一の周波数のスペクトラルスライスのフィンガープリントは、それらがユニークでないので、他のフィンガープリンティングスキームに比べてより多くの誤り（ｆａｌｓｅｐｏｓｉｔｉｖｅｓ）をもたらす傾向がある。誤りの数は、２個又は３個の最も強いスペクトラルピークの関数から構成されるフィンガープリントを用いることによって減らされる。しかし、２番目に強いスペクトラルのピークが、ノイズの存在する中で、それを比較対象と区別するほど十分に強くない場合には、ノイズに対してより強く反応してしまう。すなわち、算出されたフィンガープリントの値は、再生可能であることが信頼できるほど十分に強固ではない。これにもかかわらず、この場合のパフォーマンスは良好である。

多くのサウンドの時間的変化を利用するため、ランドマークのタイムポイントに対してタイムオフセットのセットを加えることによって、タイムスライスのセットが決定される。各々の決定されたタイムスライスにおいて、スペクトラルスライスのフィンガープリントが算出される。次に、決定されたフィンガープリント情報のセットが、一つのマルチトーン又はマルチスライスのフィンガープリントを生成するために組み合わされる。各マルチスライスのフィンガープリントは、時間的な変化を追跡するので、単一のスペクトラルスライスのフィンガープリントよりユニークであり、その結果、以下に記述されるデータベースインデックスサーチにおいて、より少ない不照合をもたらす。経験によって、ユニークさが増大するので、２つのタイムスライスのうちの各々における、最も強い一つのスペクトラルピークから算出されるマルチスライスのフィンガープリントは、連続するデータベースインデックスサーチにおいてより迅速な（約１００倍速い）計算をもたらすが、大きなノイズの存在下においては、認識率の悪化をもたらす。

代替的に、マルチスライスフィンガープリントを算出するために、あるタイムスライスからの固定のオフセットを用いる替わりに、可変のオフセットが用いられ得る。選択されたスライスに対する当該可変のオフセットは、次のランドマーク、又は、当該フィンガープリントについての「アンカー（ａｎｃｈｏｒ）」ランドマークからのあるオフセットレンジ内のランドマークに対するオフセットである。この場合、ランドマーク間の時間的な差が、また、マルチ周波数の情報とともにフィンガープリント中にエンコードされる。当該フィンガープリントに対してより多くの次元を加えることによって、それらはよりユニークになり、不照合となる機会がより低くなる。

スペクトラルコンポーネントに加えて、他のスペクトラル特徴がフィンガープリントとして抽出され、用いられる。線形予測コーディング（ＬＰＧ）分析が、スペクトラルの形状と同様に、スペクトラルピークといった、信号の線形的に予測可能な特徴を抽出する。ＬＰＣは、デジタル信号処理の分野においては周知である。本発明について、ランドマーク地点において固定された（ａｎｃｈｏｒｅｄ）ウェーブフォーム（ｗａｖｅｆｏｒｍ）スライスのＬＰＣ係数が、量子化されたＬＰＣ係数をハッシング（ｈａｓｈｉｎｇ）してインデックス値にすることによって、フィンガープリントとして用いられ得る。

ケプストライ（Ｃｅｐｓｔｒａｉ）係数が、周期の測定値として有用であり、音声又は多くの音楽的手段（ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔ）等の、調和的な信号を特徴付けるために用いられ得る。ケプストライ分析は、デジタル信号処理の分野において周知である。本発明については、多くのケプストライ係数は、互いにハッシングされて一つのインデックスにされ、フィンガープリントとして用いられる。

例えば図１中のオーディオサーチエンジン１６によって、ＮＲＡセグメントをＮＲＡフィンガープリントと比較するための方法６０の実施例全体のステップを概念的に示すブロック図が図６に示される。それぞれのステップをより詳細に以下に説明する。当該方法は、特徴的なフィンガープリントの相対的位置が、外生の（ｅｘｏｇｅｎｏｕｓ）ＮＲＡサンプルの当該同じフィンガープリントの相対的位置と最もぴったりと照合する照合ＮＲＡフィンガープリントを識別する。ステップ６２において外生のサンプルが取得されると、ステップ６４において、ランドマークとフィンガープリントとが算出される。ランドマークは、当該サンプルにおける特定のロケーション、例えばタイムポイントにおいて発生する。当該ランドマークのサンプル内におけるロケーションは、好ましくは、当該サンプル自体によって決定され、サンプルの質とは独立しており、再生成可能である。すなわち、当該同じランドマークが、当該プロセスが繰り返される毎に、当該同じ信号について算出される。各々のランドマークについて、当該ランドマークにおける、又は当該ランドマークの近くにおけるサンプルの１又は複数の特徴（ｆｅａｔｕｒｅ）を特徴付ける一つのフィンガープリントが取得される。ランドマークに対する特徴の近さは、用いられるフィンガープリンティング方法によって決まる。ある場合には、ある特徴は、それがきれいに当該ランドマークに対応し、前又は後のランドマークに対応しないときには、そのランドマークに近いと考えられる。他の場合において、特徴は、多数の近接するランドマークに対応する。例えば、テキストのフィンガープリントは単語列であってもよく、オーディオのフィンガープリントは、スペクトラルコンポーネントであってもよく、画像のフィンガープリントは、ピクセルのＲＧＢの値であってもよい。ステップ６４の２つの一般的な実施例が以下に記述され、一つは、ランドマークとフィンガープリントが連続的に（ｓｅｑｕｅｎｔｉａｌｌｙ）算出される例であり、一つは、それらが同時に算出される例である。

ステップ６６において、サンプルフィンガープリントが、データベースインデックス６８に記憶されている、照合するシンガープリントのセットを取得するために用いられ、当該データベースインデックス６８中には、照合するフィンガープリントがＮＲＡフィンガープリントのセットのランドマークと識別子とに関連付けられている。次に、当該取得されたファイル識別子とランドマークの値のセットが、（ステップ６４において算出された）サンプルランドマークと、同じフィンガープリントが算出された、取得されたファイルランドマークとを含む、対応するペアを生成するために用いられる（ステップ７０）。次に、生成された対応するペアが、識別子によってソートされ、各々の適用可能なファイルについてのサンプルランドマークとファイルランドマークとの対応のセットを生成する。各々のセットは、当該ファイルランドマークとサンプルランドマークとの間のアラインメント（ａｌｉｇｎｍｅｎｔ）を求めてスキャンされる（ｓｃａｎｎｅｄ）。すなわち、当該ランドマークのペアにおける線形的な対応が識別され、当該セットが、線形的な関係にあるペアの数に従ってスコアが付けられる。線形的な対応は、多数の対応するサンプルロケーションとファイルロケーションが、許容誤差内において実質的に同じ線形式によって記述される場合に発生する。例えば、対応のペアのセットを記述する多くの式の傾きがプラスマイナス５％だけ変化する場合、当該対応のセット全体は、線形的な関係にあると考えられる。もちろん、任意の適当な許容誤差が選択される。最もスコアの高いセットの識別子、すなわち、最も大きい数の線形関係の対応が、ステップ７２においてつきとめられて返される、勝者の（ｗｉｎｎｉｎｇ）ＮＲＡフィンガープリントの識別子である。

以下に更に説明するように、当該データベース内のエントリの数の対数に比例するタイムコンポーネントを用いた認識が行われる。認識は、極めて大きなデータベースを用いた場合においても、本質的にリアルタイムに行われ得る。すなわち、サンプルは、それが少しのタイムラグを伴って取得される時に識別され得る。当該方法は、５〜１０秒のセグメント、そして、より小さい１〜３秒のセグメントに基づいて、サウンドを識別し得る。好適な実施例においては、ステップ６４におけるランドマーキング及びフィンガープリンティング分析は、ステップ６２において、当該サンプルが取得される時にリアルタイムに実行される。ステップ６６におけるデータベースへの問い合わせ（ｑｕｅｒｉｅｓ）が、サンプルフィンガープリントが利用可能となった時に実行され、当該対応付けの結果が蓄積され、定期的に線形の対応を求めてスキャンされる。その結果、当該方法の全てのステップは、図６中に示されるように連続的にではなく、同時に発生する。当該方法は、テキストサーチエンジンと部分的に類似しており、ユーザが問い合わせ（ｑｕｅｒｙ）サンプルを提出し、当該サウンドデータベースにおいてインデックスが付けられている、照合するファイルが返されることに注意すべきである。

上述したように、当該方法は、元々提出されたオーディオサンプルの長さに依存する時間粒度（ｇｒａｎｕｌａｒｉｔｙ）を用いて、繰り返されるマテリアルを自動的に識別する。これは、それ自体は有用であるが、上に列挙したオーディオ認識エンジンを改善すれば、その粒度は大きく改善する。候補のマテリアルの増加する時間分解能（ｒｅｓｏｌｕｔｉｏｎ）に対する方法は、当該オーディオ認識エンジンが、あるオーディオサンプルにおける照合の位置と長さとを返し、その結果、当該システムが当該オーディオサンプルの粒度から独立し得る（特許出願「２つのメディアセグメントのオーバーラップを特徴付ける方法」を参照）こと以外は、上記と同様である。そこに開示される技術は、当該オーディオデータから抽出される、オーバーラップする時系列の（ｔｉｍｅ−ａｌｉｇｎｅｄ）特徴のサポート密度（ｓｕｐｐｏｒｔｄｅｎｓｉｔｙ）に注目している。２つのオーディオサンプルの間での「照合する」オーバーラップの領域は、高い密度を持っている一方、照合しない領域は低い密度を持っている。セグメンテーションポイントの候補が、特徴の高い密度のオーバーラップと低い密度のオーバーラップとの間のトランジション（ｔｒａｎｓｉｔｉｏｎ）を区分けする、照合するメディアのサンプルのフラグメント内のタイムオフセットにおいて選択される。この改善は、１００ミリ秒〜２００ミリ秒内のセグメントのエンドポイントを生む。

ここで開示されるシステム及び方法は、典型的にはコンピュータシステム上で動作するソフトウェアであって、それぞれのステップによって最も効率的に独立したソフトウェアモジュールとして実行されるソフトウェアとして実行される。異なるオブジェクトに対するコンピュータ命令コードは、１又は複数のコンピュータのメモリ内に記憶され、１又は複数のコンピュータプロセッサによって実行される。一実施例においては、当該コードのオブジェクトは、インテルベースのパーソナルコンピュータ又は他のワークステーションといった、一つのコンピュータシステム内において、互いに密集（ｃｌｕｓｔｅｒｅｄ）している。好適な実施例においては、当該方法はネットワークで接続された中央処理装置（ＣＰＵ）群によって実行され、演算負荷を分散するために、様々なソフトウェアオブジェクトが様々なプロセッサによって実行される。その代わりに、各ＣＰＵは、全てのソフトウェアオブジェクトのコピーを有しており、同じように構成された要素の同質的なネットワークを可能とする。この後者の構成においては、各ＣＰＵは、データベースインデックスのサブセットを有し、それ自身のメディアファイルのサブセットを検索する。

本発明とその利点が詳細に記述されたが、様々な変更、代用そして代替が、添付されるクレームによって定義される発明を逸脱することなく行われる。更に、本出願の範囲は、特定の処理、機械、製品、合成物、明細書において記述される手段、方法及びステップに限定することを意図しない。当業者が当該開示によって認識するように、ここに記述される実施例と実質的に同一の機能を果たし、又は実質的に同一の結果をもたらす、現在存在し、後に改良されるプロセス、機械、製品、合成物、手段、方法又はステップが利用される。従って、添付されるクレームは、その範囲内において、そのような処理、機械、製品、合成物、手段、方法、又はステップを含む。

本発明とその利点をより完全に理解するために、添付する図面に関連する以下の説明が参照される。
認識されていないオーディオストリームにおいて関連するアイテムのデータベースを生成するシステムの実施例のブロック図である。繰り返されるＮＲＡのセグメントを照合する方法の実施例のフローチャートである。ここで記述されるフィンガープリンティング及びランドマーキングシステムを実行するコンピュータシステムの実施例のブロック図である。サウンドファイルのデータベースインデックスを構築する方法の実施例のフローチャートである。ＮＲＡセグメントといったサウンドサンプルについて算出されたランドマーク及びフィンガープリントを概略的に示す。ＮＲＡセグメントを、予めフィンガープリントが付けられ、又はインデックスが付けられたＮＲＡサンプル又はセグメントと照合する方法の実施例のフローチャートである。

Claims

少なくとも一つのメディアストリームにおいて繰り返されるオーディオマテリアルを、前記繰り返されるマテリアルの性質の事前情報なしに認識する方法であって、
非認識データが未知の内容を含む場合に、前記メディアストリ−ムから非認識データのセグメントを識別し、
前記非認識データのセグメントが、前記メディアストリームの先行の内容に整合するかを決定し、
前記メディアストリームから未知の内容のスクリーニングデータベースをクリエートするように、整合に基づいて、非認識データのセグメントをサーチ可能なデータベースにインデックスし、
サーチエンジンに非認識データの所定のセグメントを提供して、前記メディアストリームの内容の多数の整合に基づいて、しきい値を越える非認識データの所定のセグメントに対する識別を行なう、
ことを特徴とするオーディオマテリアル認識方法。
前記サーチ可能なデータベースに非認識データのセグメントをインデックスすることが、非認識データのセグメントを記述するフィンガープリント情報をインデックスすることを含む、
ことを特徴とする請求項１に記載のオーディオマテリアル認識方法。
前記非認識データのセグメントが、前記メディアストリームの先の内容に一致するかどうかを決定することが、前記非認識データが、スクリーニングデータベースのインデックスセグメントに整合するかを決定することを含むことを特徴とする請求項１に記載のオーディオマテリアル認識方法。
非認識データの部分に対するフィンガープリントを抽出するように、メディアストリームから非認識データのセグメントを処理し、
前記非認識データのセグメントに対するフィンガープリント情報をメディアストリームからスクリーニングデータベースへインデックスし、
非認識データのセグメントが、メディアストリームの先のコンテントに整合するかどうかを決定することが、非認識データのセグメントのためのフィンガープリント情報と、スクリーニングデータベースのフィンガープリント情報との間の識別整合を含むことを特徴とする請求項１に記載のオーディオマテリアル認識方法。
メディアストリームのオーディオのセグメントを各識別子でマークし、
オーディオの各セグメントのためのフィンガープリント情報を抽出するようにオーディオのセグメントを処理し、
前記オーディオのセグメントをスクリーニングデータベースにインデックスする、
ことを特徴とする請求項１に記載のオーディオマテリアル認識方法。
オーディオのセグメントをスクリーニングデータベースにインデックスすることが、メディアストリームから未知のオーディオデータのリスティングをクリエイトすることを含む請求項５に記載のオーディオマテリアル認識方法。
メディアストリームが、未知のオーディオを含み、さらにオーディオデータのセグメントのためのユニークなタイムスタンプ提供すること含む請求項５に記載のオーディオマテリアル認識方法。
非認識データのセグメントが先のコンテントにマッチするかどうかを決定することが、非認識データのセグメントを、スクリーニングデータベースのオーディオのセグメントと比較することから成る請求項５に記載のオーディオマテリアル認識方法。
オーディオのセグメントのタイムスタンプに基づくスクリーニングデータベースからオーディオのセグメントを除去することを含む請求項５に記載のオーディオマテリアル認識方法。
非認識データの一定のセグメントを、サーチエンジンに提供して、前記非認識データの一定のセグメントに前記メディアストリームの内容の整合の間の相関に基づく識別をする請求項１に記載のオーディオマテリアル認識方法。
非認識データのセグメントが、第２のメディアストリームの内容に整合するかを決定し、
非認識データの一定のセグメントをサーチエンジンに提供して、前記非認識データの一定のセグメントにメディアストリームの内容の整合の回数と、
前記非認識データの一定のセグメントに第２のメディアストリームの内容の整合の回数との合計に基づく識別をする請求項１に記載のオーディオマテリアル認識方法。
前記隣接整合非認識データが前記メディアストリームの先の内容に整合する逐次の順序で受信されるデータから成る場合に、前記しゃへいデータベースにおいて隣接整合非認識データを決定し、
前記隣接整合非認識データに基づくデータの整合チェーンを形成し、
識別のために前記サーチエンジンに前記非認識データの一定のセグメントを提供することが、前記データの整合チェーンを提供することを含む請求項１に記載のオーディオマテリアル認識方法。
少なくとも一つの認識されていないメディアの内容のソースにおいて繰り返される、認識されていないメディアの内容のセグメントを認識するシステムであって、
未知の内容を含む前記認識されていないメディアを受信し、識別子を前記認識されていないメディアのサンプルに関連付ける候補マネジャーと、
認識されていないメディアセグメントについてのフィンガープリントを生成し得るフィンガープリントジェネレータと、
前記候補マネジャーと前記フィンガープリントジェネレータとに接続され、認識されていないメディアのフィンガープリントを予め記憶された認識されていないメディアのフィンガープリントのデータベースと比較して、前記認識されていないメディアコンテンツにおいて繰り返されるセグメントを見つけ得るメディアサーチエンジンとを備え、
前記メディアサーチエンジンがさらに、前記データベース内への前記認識されていないフィンガープリントインデックスの整合に基づいて構成され、前記メディアサーチエンジンが、さらにしきい値を越える一定の認識されていないデータへのメディアストリーム内のコンテンツの多数の整合に基づく識別のためにサーチエンジンに一定の認識されてないメディアを提供するように構成されることを特徴とするシステム。
前記認識されていないメディアが、時間によって範囲を設定される
ことを特徴とする請求項１３に記載のシステム。
前記認識されていないメディアが、あらかじめ認識されたマテリアルのセグメントによって範囲を設定される
ことを特徴とする請求項１３に記載のシステム。
前記認識されていないメディアが、前記フィンガープリントジェネレータに付随するスクリーニングデータベース内のフラグメントに対して照合するフラグメントにマッピングされ、前記照合するフラグメントが、候補グループにグループ化される
ことを特徴とする請求項１３に記載のシステム。
前記候補グループが、発行するのに適した最良の標本を見つけるために前記候補グループを評価し、それによって、パラレルチェーンに照合する最良の標本が、認識される、繰り返されるマテリアルを構成する
ことを特徴とする請求項１６に記載のシステム。
前記候補グループの評価が、前記候補グループにおける他の全てのサンプルとの間での最も良い相互の照合に基づく
ことを特徴とする請求項１６に記載のシステム。
前記少なくとも一つのソースから受信された、認識されていないメディアセグメントを保持する参照データベースを備える
ことを特徴とする請求項１３に記載のシステム。
参照マテリアルのタイムスタンプに基づいて前記参照マテリアルを前記参照データベースから定期的に取り除く
ことを特徴とする請求項１９に記載のシステム。