JP5150266B2 - オーディオ信号において繰り返されるマテリアルの自動識別 - Google Patents

オーディオ信号において繰り返されるマテリアルの自動識別 Download PDF

Info

Publication number
JP5150266B2
JP5150266B2 JP2007554350A JP2007554350A JP5150266B2 JP 5150266 B2 JP5150266 B2 JP 5150266B2 JP 2007554350 A JP2007554350 A JP 2007554350A JP 2007554350 A JP2007554350 A JP 2007554350A JP 5150266 B2 JP5150266 B2 JP 5150266B2
Authority
JP
Japan
Prior art keywords
unrecognized
segment
media
audio
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007554350A
Other languages
English (en)
Other versions
JP2008530597A (ja
Inventor
デバスク,デイヴィド,エル
ブリッグス,ダレン,ピー
カーライナ,マイクル
チョン・タン,リチァド,ウイン
リ・チュン,ワン,エイヴァリ
Original Assignee
ランドマーク、ディジタル、サーヴィセズ、エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ランドマーク、ディジタル、サーヴィセズ、エルエルシー filed Critical ランドマーク、ディジタル、サーヴィセズ、エルエルシー
Publication of JP2008530597A publication Critical patent/JP2008530597A/ja
Application granted granted Critical
Publication of JP5150266B2 publication Critical patent/JP5150266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Description

本発明は、メディアファイルにおけるパターンの認識及び識別に関し、特に、1又は複数のメディアストリームにわたるメディア信号、特にオーディオ信号において繰り返されるマテリアルの識別に関する。
(関連出願)
本発明は、開示内容がここに参照として完全に組み込まれている、2005年2月8日に出願された、出願番号が60/651,010、発明の名称が、オーディオ信号において繰り返されるマテリアルの自動識別である、米国仮特許出願に基づく優先権を主張する。
音楽又はビデオコンテンツといったものについての著作権者は、彼らの音楽又はビデオが再生される事例毎に、報酬を受けられる資格がある。特に、音楽の著作権者については、彼らの歌が数千ものラジオ局のいずれかから空中を通じて、そして現在はインターネット上で、いつ再生されたかを判断するのは、やっかいな作業である。従来、著作権者は、このような場合におけるロイヤリティの収集を第3者にまかせ、商業目的で音楽を再生した実体(entities)に対して、著作権者のカタログ(catalogue)を補償するための使用料金を課させる。その後、これらの料金は、どの歌が最も多く再生されたかに従って、それらの著作権者に報酬を与えるために設計された統計モデルに基づいて、当該著作権者に対して分配される。このような統計的方法は、少ないサンプル数に基づいて、実際の再生事例を極めておおまかに見積もっている。
2006年1月4日に発行された、特許番号6,990,453の米国特許は、既知のソングの再生事例を追跡するために、ラジオ局の信号といったメディアストリームからの未知のメディアサンプルを、ソングのような既知のメディアファイルのデータベースと比較するシステム及び方法について記載している。不運なことに、メディアストリームのコンテンツの多くは、様々な理由で予め知られてはいない。例えば、トークショー、ディスクジョッキー又はDJの会話又はイントロダクションのようなユニークなオーディオ、そして他の類似するオーディオは、認識されていないユニークなオーディオを示す。
しかし、オーディオストリームを監視するシステムに関連し、実際に報酬を受けるべき著作権者に関する他の認識されていないオーディオがある。そのような、対象となる認識されていないオーディオは、予めインデックスが付けられていないソング、又は、著作権で保護されたミュージックを使用するコマーシャル、又は他の認識されずに繰り返されるオーディオセグメントでもよい。これらの認識されていないオーディオセグメントは、一つのメディアストリーム内で繰り返され、又は、多数のラジオ局上で再生される地方のコマーシャルといったように、多数のメディアストリームにわたって繰り返される。
1又は複数の認識されていないメディアストリームにおいて繰り返されるセグメント又はサンプルを認識するシステム及び方法が必要であり、当該システム及び方法は、サンプルを予めフィンガープリントされ(fingerprinted)又はインデックスが付けられたサンプルと照合して、認識されていないメディアが繰り返されたことを発見できる。
(発明の要旨)
従って、本願は、少なくとも一つのメディアストリームにおいて繰り返されるオーディオマテリアル(material)を、当該繰り返されるマテリアルの性質(nature)についての事前情報なしに認識する方法を記述する。当該方法は、当該メディアストリームからスクリーニングデータベースを生成し、当該メディアストリームから未知のサンプルのオーディオフラグメントを取得し、当該メディアストリームの中から照合するフラグメントを見つけ、そして、当該未知のサンプルが当該スクリーニングデータベースにおけるサンプルのいずれかと照合するかを判断する方法を含む。
他の実施例においては、認識されていないメディアコンテンツの少なくとも一つのソースにおいて繰り返される、認識されていない識別メディアコンテンツのセグメントを識別するためのシステムが記述され、当該システムは、当該認識されていないメディアを受信し、識別子を当該認識されていないメディアのサンプルに関連付ける候補(candidate)マネジャーを備える。当該システムは、更に、認識されていないメディアセグメント用のフィンガープリントを生成し得るフィンガープリントジェネレータと、当該候補マネジャー及びフィンガープリントジェネレータと接続されたメディアサーチエンジンを備え、当該メディアサーチエンジンは、認識されていないメディアのフィンガープリントを予め記憶された認識されていないメディアのフィンガープリントのデータベースと比較して、認識されていないメディアコンテンツにおいて繰り返されるセグメントを見つけ得る。
上記のことは、以下の本発明の詳細な説明がよりよく理解できるように、本発明の特徴と技術的利点を概略的に説明する。本発明のクレームの主題を形成する本発明の追加的な特徴と利点がここで記述される。開示される思想と特定の実施例は、修正、そして、本発明と同一の目的を達成するための他の構成を設計するための基礎としてすぐに役立つことが当業者に理解されるであろう。そのような同等の構成は添付されたクレームに示される発明の思想と範囲を逸脱するものではないことが、当業者に理解されるであろう。本発明の特徴とされる、その構成及びオペレーション方法双方の明白な特徴は、さらなる目的と利点とともに、添付された図面が考慮された時に以下の記述から容易に理解されるであろう。しかし、その各図は、表示と説明のためのみのものであり、本発明の限界を定めるものではないことが明確に理解されるべきである。
ラジオのレコーディングやTVのブロードキャスト、又はナイトクラブ等の公共の場所におけるマテリアルのパフォーマンスのレコーディングといった、オーディオ信号中に含まれる予め記録されたマテリアルを識別する自動化された方法を用いるのは、一般的なプラクティスである。用いられる技術にかかわらず、これらの方法は、信号が参照データベース中の既知のコンテンツと照合され得るように、識別対象のマテリアルに予めアクセスすることが必要である。多くのマテリアルは、ミュージックCDの場合のように、いつでも商業的に取得可能であるため、これは問題ではない。しかし、オーディオ信号の多くは、例えば商業的にリリースされる日の前のミュージックや、広告マテリアルや、ラジオ局の識別のために記述されるミュージック等の、すぐには取得できないマテリアルからなる。
これは、正確にオーディオ信号のコンテンツの量を量る上で、2つの問題を生じさせる。
(1)識別対象のマテリアルが、参照データベース中に含まれていないため存在しない。
(2)信号の実質的な部分が、対象となるマテリアルを含んでいないのに、当該自動的な方法は、対象とならないものとして識別しないので、マニュアルによる調査から除外され得ない。
オーディオは、例えば、データベースから識別されるオーディオが既知の領域(region)に分けられ、残りの領域が認識されていないオーディオ(NRA)として残されたままとなるワングによる技術(ここに参照として完全に組み込まれている出願番号60/563,372の米国仮特許出願)を用いて、直接識別され、そして分けられる。ワングの方法は、既にデータベース内に存在するコンテンツを認識することに制限されており、データベース内に含まれていないマテリアルを識別し、分けることができない。
この制限を克服するため、「シフティング(sifting)」法が、監視されたメディアストリームから認識されていないオーディオのセグメント(NRA)を調査し、そして、それらが近い過去(recent past)からの他のセブメント又はセグメントの部分と照合するかをチェックするために用いられる。一旦そのような照合が発見されると、それらは、区分けされて参照データベースに入れられ、対象となるターゲットマテリアルに予めアクセスすることなくデータベースを生成することを可能とする。
NRAストリームにおける対象となるアイテムのデータベースを生成するシステムが図1に示される。システム10は、NRAストリーム12を認識されていないオーディオ11から取得し、対象とするNRA内において繰り返されるセグメントを識別する。NRAセグメント12は、当該メディアストリーム内のデータの各インスタント(instant)を収集し、ユニークな識別子を用いてマークする候補マネジャー13に対して送信される。候補マネジャー13は、当該NRAをフィンガープリントジェネレータ14に対して送信し、そこにおいて、当該NRAからの生のオーディオセグメントが、フィンガープリント特徴を抽出するために処理され、検索可能なデータベース中においてインデックスが付けられる。オーディオサーチエンジン16は、候補マネジャー14からのオーディオサーチリクエストに応答し、フィンガープリントジェネレータ14からのNRAのフィンガープリントを用いて、NRAセグメントを予めインデックスが付けられたNRAセグメントのデータベースと比較する。NRAの特定のセグメントが、ある照合に関する閾値まで累積して、システム10が1又は複数のオーディオストリームにわたって同じオーディオコンテンツを多数回認識したことになると、当該オーディオセグメントは、肯定的な識別を保証するための重要な対象であると判断される。これは、当該重要なコンテンツ、発行された(published)フィンガープリント18を発行し、それを他の認識されたサーチエンジン19に追加することで達成される。
監視されているオーディオストリーム中で多数回照合した当該重要なNRAセグメントは、肯定的に識別され、カタログ化されるために送信される必要がある。当該重要なNRAセグメントの識別は、当該オーディオを聴いて肯定的な識別を行う人間のオペレータに対して送信されることを要する。ここに参照として組み込まれている他の出願において記述されているように、当該人間のオペレータは、当該オーディオを識別し、当該重要なNRAセグメントが既知のオーディオコンテンツのデータベースに追加され得るために必要な情報を入力する。
繰り返されるマテリアルを認識する一つの方法が図2に関連して記述される。方法20は、1又は複数のメディアストリームから未知の(NRA)オーディオをシフティングのために(for sifting)収集し、そこにおいて、オーディオデータの各インスタントは、ユニークなタイムスタンプリファレンス(timestamp reference)を有する(そのようなタイムスタンプリファレンスは、時間とともに増加し、ストリーム識別子とともに増大する)。
近い過去において監視されたメディアストリームから、未知の(NRA)オーディオプログラムマテリアルを含むスクリーニングデータベースが、スクリーニングのために生成され、当該生のオーディオレコーディングが、フィンガープリントの特徴を抽出するために処理され、そして、検索可能なデータベース中においてインデックスが付けられる。そのようなデータベースを提供する方法は、内容がここに参照として組み込まれている、2000年7月31日に出願された出願番号09/839,476の米国特許出願と2001年4月20日に出願された出願番号09/839,476の米国特許出願とに基づく優先権を主張し、国際公開番号がWO02/11123 A2であり、発明の名称が、高ノイズ及び歪みにおけるサウンド及びミュージック信号を認識するシステム及び方法である、ワング及びスミス(以下、ワング及びスミス)、又は、内容がここに参照として組み込まれている、2002年4月25日に出願された出願番号60/376,055の米国仮特許出願に基づく優先権を主張し、国際公開番号がWO03/091990 A1であり、発明の名称が、「ロバストかつ不変のオーディオパターンマッチング」である、ワング及びカルバート(以下、ワング及びカルバート)において開示されている。「ワング及びスミス」、又は「ワング及びカルバート」からの、これらの特定の方法の使用は、例示であり、限定を意味するものではない。
自動的なセグメンテーション処理を行うために、未知のメディアストリームマテリアルからの短いプローブフラグメントが、プロセス21に示すように、「ワング及びスミス」又は「ワング及びカルバート」の技術のような識別技術を例示し、当該スクリーニングデータベースを組み込んでいる、図1のオーディオサーチエンジン16に対して認識用に出力される。プロセス22において、NRAが予めフィンガープリントをとられた候補と照合するかが判断される。次に、照合したセグメントが、未知のメディアストリームから識別され、プロセス23において、既存の候補に対して認識が加えられる。
プローブフラグメントF(0)が認識されると、当該スクリーニングデータベースからの照合結果Fp,k(0)(kは、照合インデックス)が、照合フラグメントリスト中にグループ化される。当該作業は、照合するセグメントの照合の境界及び照合の度合いを見つけるための作業である。その結果、tをF(0)からのタイムオフセットとして、近接するプローブフラグメントF(t)が認識用に出力され、それらの対応する照合フラグメントリストが取得される。当該対応する照合フラグメントリストは、継続的にスキャンされ(scanned)、近接するプローブフラグメントは実質的に近接する照合フラグメント上にマップする(map)。一連の近接するプローブフラグメントのチェーン(chain)は、1又は複数の照合するフラグメントのパラレルチェーン上にマップする。そのようなパラレルチェーンの束は、候補グループを形成する。各照合パラレルチェーンは、最高の照合パラレルチェーンを生成するために、時間における双方の方向にできるだけ拡張される。候補セグメンテーションポイントは、複数の照合パラレルチェーンが実質的に同時に終了するか開始する場所である。
最高の照合パラレルチェーンのセットは、異なる長さとともに、異なるエンドポイントを有することができる。これは、繰り返されるプログラムセグメントの階層的ネスティング(nesting)による。異なるセグメンテーションは、異なるバージョンのソング又はコマーシャルによる。代替的に、繰り返されるマテリアルの中には、繰り返されるプログラム中に埋め込まれ得るものがあり、ラジオプログラムは、当該日を通じて多数回放送されることが多い。
セグメンテーションの階層を判断する方法の一つは、照合フラグメントリスト内で照合号する要素の数に基づいて、各フラグメントにおけるパラレルチェーンを重み付けすることである。最も高い重み付けがされたパラレルチェーンのセットは、おそらくソング又は広告といったアトミック(atomic)プログラムセグメントである。次に高い重み付けがされたパラレルチェーンは、例えば一時間毎にニュースキャストされ、又は繰り返し放送されるトップ40ヒットソングといったアトミックプログラムセグメントを含む、繰り返されるラジオプログラムによる。高い重み付けがされたパラレルチェーンは、アトミックプログラムセグメントとして、良い候補であり、広告又はソングを認識するために、参照データベース内において発行を促される。発行の基準は、グループ中の候補の数(何回当該マテリアルが繰り返されたか)と、当該候補間の相関の正しさといったパラメータを含んでおり、例えば、照合フラグメントリストの他の要素との間の、全てのペアの最高の相互スコアを有するセグメントを選択する。一旦発行されると、繰り返されるマテリアルの最も照合する標本に対応するオリジナルのオーディオサンプルを提供するソースメディアストリームが、連続的なオーディオサンプルを提供するためにコピーされる。「最高の」例が識別される必要がある理由は、典型的には、ミュージカルトラックといったいくつかの繰り返されるマテリアルが、音楽を通じて話すプログラムプレゼンターといった、繰り返されないマテリアルにかぶせられる(overlaid)からである。「最高の」候補は、そのような疑似コンテンツが最も少ないものの一つである。
図2に戻って、プロセス24が、認識された候補を評価して、プロセス25に示されるように、それらが発行のための閾値を満たすかを判断する。当該候補が発行される準備ができている場合、それは、プロセス29に示されるように発行される。プロセス25において当該候補が発行される準備ができていない場合、プロセス26において、サーチエンジンデータベースに対して任意の追加的情報が加えられる。プロセス22に戻って、当該NRAセグメントが認識されていない場合、当該方法は、プロセス26に進んで、当該セグメントがサーチエンジンデータベースに加えられる。
プロセス27において、方法20は、照合しておらず直ぐに取り除かれる(purging)古いNRAがあるかを判断する。当該オーディオストリームの多くが、ライブトークショー、ラジオプロモーション、又は単にラジオパーソナリティ又はDJのトークのような、決して照合しないユニークなオーディオであるため、この情報は、処理される新たなNRAのために場所を空けるために当該システムから取り除かれる。タイムスタンプ、新たなNRAコンテンツについて利用可能なメモリ、又はこれら又は他のファクターの組合せから判断されるように、直ぐに取り除かれるNRAが存在する場合、当該方法は、プロセス28に進んで、当該古いNRAを取り除く。プロセス28において、取り除くNRAがない場合、又は、当該古いNRAが取り除かれている場合には、当該プロセスは終了する。方法20が、当該処理されたNRAが当該方法において処理された他のNRAを通りすぎる度に新たなNRAを継続的に認識しようとする継続的なプロセスであることは、当業者に認識されるであろう。
上述したプロセスは、未知のオーディオストリームマテリアルの決められた束(batch)への作業として解釈される。しかし、それは、データをインクリメントベースに(on an incremental basis)処理することにまで向上する。新たなメディアストリームコンテンツが取得されると、それは、当該スクリーニングデータベースに追加される。当該新たなメディアストリームコンテンツは、また、プローブフラグメントを形成するために用いられ、そして、上述したように、繰り返されるマテリアルにを求めてスキャンされる。更に、古いマテリアルは、当該スクリーニングデータベースから取り除かれ、その結果、無制限な増加が防止される。これを実行するための一つの方法は、「ワング及びスミス」によれば、新たなデータが到着し、古いデータがリタイアした時に、未知のメディアストリームマテリアルの移動窓を用いて、当該スクリーニングデータベースを継続的に再生成することである。
図3〜図6を参照して、NRAセグメントのフィンガープリンティングとインデックシングの実施例について説明する。
本発明は特定のハードウェアシステムに限定されないが、NRAセグメントのようなメディアセグメントをフィンガープリンティングし、ランドマーキング(landmarking)する上で用いられる、分散されているか、又は分散されていないコンピュータシステム30の実施例が図3中に概括的に示される。システム30のプロセッサ32a〜32fは、マルチプロセッシングバスアーキテクチャー34又はベオウルフ(Beowulf)クラスターコンピューティングプロトコルといったネットワーキングプロトコル、又は当該二つの組合せによって接続されている。そのような配置において、当該データベースのインデックスが、好ましくは当該クラスター内の少なくとも一つのノード32a上のランダムアクセスメモリ(RAM)に記憶されて、フィンガープリントの検索が極めて迅速になされることを保証する。ランドマーキングノード32c及び32f、フィンガープリンティングノード32b及び32e、そして、アラインメントスキャニングノード32dといった、他のオブジェクトに対応する演算ノードは、当該データベースのインデックスをサポートしているノード32aほど多くのRAMの容量を必要とされない。その結果、各々のオブジェクトに割り当てられた演算ノードの数は、一つのオブジェクトもボトルネックにならないようにするという必要に従って変更される(scaled)。従って、当該演算ネットワークは、高度にパラレル化され、更に、利用可能な演算リソースの間で分配される多数の同時の信号認識クエリ(queries)を処理することができる。
他の実施例においては、ある機能的オブジェクトが、より強く互いに接続されており、他のオブジェクトとあまり強く接続されていない。例えば、当該ランドマーキング及びフィンガープリンティングオブジェクトは、当該演算オブジェクトの残りから物理的に離れたロケーションに存在し得る。この一例は、当該ランドマーキング及びフィンガープリンティングオブジェクトと信号取得プロセスとの強固な関連付けである。この配置においては、当該ランドマーキング及びフィンガープリンティングオブジェクトは、例えば、携帯電話、無線アプリケーションプロトコル(WAP)ブラウザ、パーソナルデジタルアシスタント(PDA)、又は、オーディオサーチエンジンのクライアントエンドといった他のリモート端末に内蔵される追加的なハードウェア又はソフトウェアとして組み込まれ得る。コンテンツ識別サービスのような、インターネットベースのオーディオサーチサービスにおいては、当該ランドマーキング及びフィンガープリンティングオブジェクトは、マイクロソフトのダイナミックリンクライブラリ(DLL)といった、リンクされたソフトウェア命令又はソフトウェアプラグインモジュールとして、当該クライアントのブラウザアプリケーション内に組み込まれ得る。これらの実施例においては、信号キャプチャー、ランドマーキング及びフィンガープリンティングオブジェクトの組合せが、当該サービスのクライアントエンドを構成する。当該クライアントエンドが、ランドマークとフィンガープリントとを含む、取得された信号サンプルの、抽出された特徴(feature−extracted)の一覧(summary)を、当該認識処理を実行するサーバエンドに送信する。取得された生の信号の替わりに、この抽出された特徴の一覧をサーバへ送信することは、データ量が大幅に減少し、多くの場合500又はそれ以上のファクターが減少するので、有益である。そのような情報は、例えば当該サーバに対して送信されるオーディオストリームとともに、又はそれに替えて、低い帯域幅サイドのチャネルを通じてリアルタイムに送信され得る。これは、当該発明を公衆通信ネットワークを通じて実行することを可能とし、各々のユーザに対して比較的小さいサイズの帯域幅を提供する。
フィンガープリンティングとランドマーキングの方法の実施例が、NRAサンプル又はセグメント、及び、例えば図1のデータベース14といったデータベースにおいてインデックスが付けられたNRAセグメントといったオーディオサンプルを参照して詳細に記述される。
認識が実行される前に、検索可能なサウンドデータベースインデックスが構築されなければならない。ここで用いられるように、データベースは、任意のインデックスが付けられたデータの集合であり、商業的に利用可能なデータベースに限定されない。データベースインデックスにおいて、関連するデータの要素は、互いに関連付けられており、個々の要素は、関連付けられたデータを取得するために用いられ得る。サウンドデータベースのインデックスは、スピーチ、ミュージック、広告、ソナー特性を含むレコーディングの、選択された集合又はライブラリにおける、各々のファイル又はレコーディングに対するインデックスセットを含む。各レコーディングは、また、ユニークな識別子であるサウンドIDを持っている。当該サウンドデータベース自体は、必ずしも各レコーディングについてのオーディオファイルを記憶する必要はないが、当該サウンドIDは、その他の場所から当該オーディオファイルを取得するために用いられ得る。当該サウンドデータベースは、極めて大きく、数百万又は数十億ものファイルのインデックスを含んでいることが望ましい。好ましくは、新たなレコーディングが当該データベースのインデックスに対して増加的に(incrementally)追加される。
第1の実施例による当該検索可能なサウンドデータベースのインデックスを構築するための好適な方法40のブロック図が図4に示される。この実施例においては、ランドマークが最初に算出され、次に、当該ランドマークにおいて、又は当該ランドマークの近くにおいて、フィンガープリントが算出される。当業者にとって明らかであるように、当該データベースのインデックスを構築するための代替的な方法が案出される。特に、以下に列挙される多くのステップは選択的であるが、より効率的に検索可能なデータベースのインデックスを生成するために役立つ。大きなデータベースからのリアルタイムのサウンド認識のためには、検索の効率性が重要であるが、小さなデータベースは、たとえそれらが最適にソートされていなくても、比較的迅速に検索され得る。
当該データベースにインデックスを付けるため、当該コレクション内の各レコーディングは、各オーディオファイルについてのインデックスセットを生成するランドマーキング及びフィンガープリンティング解析を受ける。図5は、ランドマーク(LM)及びフィンガープリント(FP)が算出されるサウンドレコーディングのセグメントを概括的に示す。ランドマークが、当該サウンドの特定のタイムポイントにおいて発生し、当該ファイルの開始からの、時間単位のオフセットの値を持つ一方で、フィンガープリントは、特定のランドマークにおける、又は特定のランドマークの近くにおけるサウンドを特徴付ける。その結果、この実施例においては、当該同じフィンガープリントが一つのファイル又は多数のファイル内で多く発生し得る一方で、特定のファイルについての各ランドマークはユニークである。
ステップ42において、各サウンドレコーディングは、当該サウンドレコーディング内の識別可能で再生成可能なロケーションを発見する方法を用いてランドマーキングされる(landmarked)。好適なランドマーキングアルゴリズムは、ノイズと他の線形及び非線形ひずみの存在にもかかわらず、サウンドレコーディング内の同じタイムポイントをマークし得る。ランドマーキング方法の中には、以下に記述するフィンガープリンティングプロセスと概念的に独立しているものもあるが、後者のパフォーマンスを最適にするために用いられ得る。ランドマーキングの結果、フィンガープリントが連続的に算出されるサウンドレコーディング内のタイムポイント{ランドマークk}のリストが得られる。良好なランドマーキングスキームは、サウンドレコーディングの1秒当たり約5〜10個のランドマークをマークし、もちろん、ランドマーキングの密度は、当該サウンドレコーデンィグのアクティビティ(activity)の量に依存する。
様々な技術がランドマークを算出することができ、その全ては、本発明の範囲内である。本発明のランドマーキングスキームを実行するために用いられる特定の技術的プロセスは、当該分野において知られており、詳細には記述しない。パワーノーム(Power Norm)として知られている一つのランドマーキング技術は、当該レコーディグにおける、可能な全てのタイムポイントにおける瞬間的なパワーを算出し、ローカルな最大値を選択するための技術である。これを実行する一つの手法は、波形を直接修正し、フィルタリングすることによって、包絡線(envelope)を算出することである。
他の方法は、信号のヒルバート変換(方形化)を算出し、当該ヒルバート変換とその元になる信号の二乗和を用いることである。
ランドマーキングについてのパワーノームの方法は、サウンド信号における減衰を見つけるのが得意である。パワーノームは、実際にp=2という、より一般的なスペクトラムLpノームの特殊なケースである。当該一般的なスペクトラムLpノームは、例えばハニング窓関数が掛けられる高速フーリエ変換(FFT)を通じて短時間のスペクトラムを算出することによって、当該サウンド信号に沿った各時間において算出される。好適な実施例は、8000Hzというサンプリングレート、1024サンプルというFFTフレームサイズ、そして、各タイムスライスについての64サンプルというストライド(stride)を用いる。次に、各々のタイムスライスについてのLpノームが、スペクトルコンポーネントの絶対値のp^パワーの合計として算出され、選択的に当該p^根をとることによって算出される。前述したように、当該ランドマークは、時間を通じたローカルな最大値の最終値として選択される。当該スペクトラルLpノームの手法は、図5の、特定のサウンド信号についての時間の関数としてのL4ノームのグラフ中に示される。ローカルに最大なところにおける断続線は、当該選択されたランドマークのロケーションを示す。
p=00の場合、当該La0ノームがちょうど最大のノームである。すなわち、当該ノームの値は、スペクトラルスライスにおける最も大きなスペクトラルコンポーネントの絶対値である。このノームによれば、強固なランドマークと良好な全体の認識パフォーマンスがもたらされ、調的な(tonal)ミュージックにとって好ましい。その代わりとして、「マルチスライス」スペクトラルランドマークが、一つのスライスの代わりに、お互いからの一定又は可変のオフセットにおけるマルチプルなタイムスライスにわたるスペクトラルコンポーネントのp01パワーの絶対値の合計をとることによって算出され得る。この拡張された合計のローカルな最大値を見つけることによって、以下に記述されるマルチスライスのフィンガープリントの最適な配置が可能となる。
一旦当該ランドマークが算出されると、ステップS44において、フィンガープリントが当該レコーディングにおける各ランドマークのタイムポイントにおいて算出される。当該フィンガープリントは、一般的に、当該タイムポイントにおける、又は当該タイムポイントの近くにおけるレコーディング中の特徴のセットを集約した値又は値のセットである。現在の好適な実施例においては、各フィンガープリントは、多数の特徴のハッシュ関数の一つの数値である。フィンガープリントの可能なタイプは、スペクトラルスライスフィンガープリント、マルチスライスフィンガープリント、LPC係数、そして、ケプストラル係数を含む。もちろん、ランドマークの近くの信号又は当該信号のフィーチャーを特徴付ける任意のタイプのフィンガープリントが、本発明の範囲に含まれる。フィンガープリントは、任意のタイプのデジタル信号処理又は当該信号の周波数分析によって算出される。
スペクトラルスライスのフィンガープリントを生成するため、周波数分析が、各ランドマークタイムポイントの近傍において実行されて、上位数個のスペクトラルピークが抽出される。一つのフィンガープリントの値は、ちょうど一つの最も強いスペクトラルピークの周波数の値である。そのような一つのピークを用いると、ノイズが存在する中において驚くほど良好な認識結果が得られるが、単一の周波数のスペクトラルスライスのフィンガープリントは、それらがユニークでないので、他のフィンガープリンティングスキームに比べてより多くの誤り(false positives)をもたらす傾向がある。誤りの数は、2個又は3個の最も強いスペクトラルピークの関数から構成されるフィンガープリントを用いることによって減らされる。しかし、2番目に強いスペクトラルのピークが、ノイズの存在する中で、それを比較対象と区別するほど十分に強くない場合には、ノイズに対してより強く反応してしまう。すなわち、算出されたフィンガープリントの値は、再生可能であることが信頼できるほど十分に強固ではない。これにもかかわらず、この場合のパフォーマンスは良好である。
多くのサウンドの時間的変化を利用するため、ランドマークのタイムポイントに対してタイムオフセットのセットを加えることによって、タイムスライスのセットが決定される。各々の決定されたタイムスライスにおいて、スペクトラルスライスのフィンガープリントが算出される。次に、決定されたフィンガープリント情報のセットが、一つのマルチトーン又はマルチスライスのフィンガープリントを生成するために組み合わされる。各マルチスライスのフィンガープリントは、時間的な変化を追跡するので、単一のスペクトラルスライスのフィンガープリントよりユニークであり、その結果、以下に記述されるデータベースインデックスサーチにおいて、より少ない不照合をもたらす。経験によって、ユニークさが増大するので、2つのタイムスライスのうちの各々における、最も強い一つのスペクトラルピークから算出されるマルチスライスのフィンガープリントは、連続するデータベースインデックスサーチにおいてより迅速な(約100倍速い)計算をもたらすが、大きなノイズの存在下においては、認識率の悪化をもたらす。
代替的に、マルチスライスフィンガープリントを算出するために、あるタイムスライスからの固定のオフセットを用いる替わりに、可変のオフセットが用いられ得る。選択されたスライスに対する当該可変のオフセットは、次のランドマーク、又は、当該フィンガープリントについての「アンカー(anchor)」ランドマークからのあるオフセットレンジ内のランドマークに対するオフセットである。この場合、ランドマーク間の時間的な差が、また、マルチ周波数の情報とともにフィンガープリント中にエンコードされる。当該フィンガープリントに対してより多くの次元を加えることによって、それらはよりユニークになり、不照合となる機会がより低くなる。
スペクトラルコンポーネントに加えて、他のスペクトラル特徴がフィンガープリントとして抽出され、用いられる。線形予測コーディング(LPG)分析が、スペクトラルの形状と同様に、スペクトラルピークといった、信号の線形的に予測可能な特徴を抽出する。LPCは、デジタル信号処理の分野においては周知である。本発明について、ランドマーク地点において固定された(anchored)ウェーブフォーム(waveform)スライスのLPC係数が、量子化されたLPC係数をハッシング(hashing)してインデックス値にすることによって、フィンガープリントとして用いられ得る。
ケプストライ(Cepstrai)係数が、周期の測定値として有用であり、音声又は多くの音楽的手段(musical instrument)等の、調和的な信号を特徴付けるために用いられ得る。ケプストライ分析は、デジタル信号処理の分野において周知である。本発明については、多くのケプストライ係数は、互いにハッシングされて一つのインデックスにされ、フィンガープリントとして用いられる。
例えば図1中のオーディオサーチエンジン16によって、NRAセグメントをNRAフィンガープリントと比較するための方法60の実施例全体のステップを概念的に示すブロック図が図6に示される。それぞれのステップをより詳細に以下に説明する。当該方法は、特徴的なフィンガープリントの相対的位置が、外生の(exogenous)NRAサンプルの当該同じフィンガープリントの相対的位置と最もぴったりと照合する照合NRAフィンガープリントを識別する。ステップ62において外生のサンプルが取得されると、ステップ64において、ランドマークとフィンガープリントとが算出される。ランドマークは、当該サンプルにおける特定のロケーション、例えばタイムポイントにおいて発生する。当該ランドマークのサンプル内におけるロケーションは、好ましくは、当該サンプル自体によって決定され、サンプルの質とは独立しており、再生成可能である。すなわち、当該同じランドマークが、当該プロセスが繰り返される毎に、当該同じ信号について算出される。各々のランドマークについて、当該ランドマークにおける、又は当該ランドマークの近くにおけるサンプルの1又は複数の特徴(feature)を特徴付ける一つのフィンガープリントが取得される。ランドマークに対する特徴の近さは、用いられるフィンガープリンティング方法によって決まる。ある場合には、ある特徴は、それがきれいに当該ランドマークに対応し、前又は後のランドマークに対応しないときには、そのランドマークに近いと考えられる。他の場合において、特徴は、多数の近接するランドマークに対応する。例えば、テキストのフィンガープリントは単語列であってもよく、オーディオのフィンガープリントは、スペクトラルコンポーネントであってもよく、画像のフィンガープリントは、ピクセルのRGBの値であってもよい。ステップ64の2つの一般的な実施例が以下に記述され、一つは、ランドマークとフィンガープリントが連続的に(sequentially)算出される例であり、一つは、それらが同時に算出される例である。
ステップ66において、サンプルフィンガープリントが、データベースインデックス68に記憶されている、照合するシンガープリントのセットを取得するために用いられ、当該データベースインデックス68中には、照合するフィンガープリントがNRAフィンガープリントのセットのランドマークと識別子とに関連付けられている。次に、当該取得されたファイル識別子とランドマークの値のセットが、(ステップ64において算出された)サンプルランドマークと、同じフィンガープリントが算出された、取得されたファイルランドマークとを含む、対応するペアを生成するために用いられる(ステップ70)。次に、生成された対応するペアが、識別子によってソートされ、各々の適用可能なファイルについてのサンプルランドマークとファイルランドマークとの対応のセットを生成する。各々のセットは、当該ファイルランドマークとサンプルランドマークとの間のアラインメント(alignment)を求めてスキャンされる(scanned)。すなわち、当該ランドマークのペアにおける線形的な対応が識別され、当該セットが、線形的な関係にあるペアの数に従ってスコアが付けられる。線形的な対応は、多数の対応するサンプルロケーションとファイルロケーションが、許容誤差内において実質的に同じ線形式によって記述される場合に発生する。例えば、対応のペアのセットを記述する多くの式の傾きがプラスマイナス5%だけ変化する場合、当該対応のセット全体は、線形的な関係にあると考えられる。もちろん、任意の適当な許容誤差が選択される。最もスコアの高いセットの識別子、すなわち、最も大きい数の線形関係の対応が、ステップ72においてつきとめられて返される、勝者の(winning)NRAフィンガープリントの識別子である。
以下に更に説明するように、当該データベース内のエントリの数の対数に比例するタイムコンポーネントを用いた認識が行われる。認識は、極めて大きなデータベースを用いた場合においても、本質的にリアルタイムに行われ得る。すなわち、サンプルは、それが少しのタイムラグを伴って取得される時に識別され得る。当該方法は、5〜10秒のセグメント、そして、より小さい1〜3秒のセグメントに基づいて、サウンドを識別し得る。好適な実施例においては、ステップ64におけるランドマーキング及びフィンガープリンティング分析は、ステップ62において、当該サンプルが取得される時にリアルタイムに実行される。ステップ66におけるデータベースへの問い合わせ(queries)が、サンプルフィンガープリントが利用可能となった時に実行され、当該対応付けの結果が蓄積され、定期的に線形の対応を求めてスキャンされる。その結果、当該方法の全てのステップは、図6中に示されるように連続的にではなく、同時に発生する。当該方法は、テキストサーチエンジンと部分的に類似しており、ユーザが問い合わせ(query)サンプルを提出し、当該サウンドデータベースにおいてインデックスが付けられている、照合するファイルが返されることに注意すべきである。
上述したように、当該方法は、元々提出されたオーディオサンプルの長さに依存する時間粒度(granularity)を用いて、繰り返されるマテリアルを自動的に識別する。これは、それ自体は有用であるが、上に列挙したオーディオ認識エンジンを改善すれば、その粒度は大きく改善する。候補のマテリアルの増加する時間分解能(resolution)に対する方法は、当該オーディオ認識エンジンが、あるオーディオサンプルにおける照合の位置と長さとを返し、その結果、当該システムが当該オーディオサンプルの粒度から独立し得る(特許出願「2つのメディアセグメントのオーバーラップを特徴付ける方法」を参照)こと以外は、上記と同様である。そこに開示される技術は、当該オーディオデータから抽出される、オーバーラップする時系列の(time−aligned)特徴のサポート密度(support density)に注目している。2つのオーディオサンプルの間での「照合する」オーバーラップの領域は、高い密度を持っている一方、照合しない領域は低い密度を持っている。セグメンテーションポイントの候補が、特徴の高い密度のオーバーラップと低い密度のオーバーラップとの間のトランジション(transition)を区分けする、照合するメディアのサンプルのフラグメント内のタイムオフセットにおいて選択される。この改善は、100ミリ秒〜200ミリ秒内のセグメントのエンドポイントを生む。
ここで開示されるシステム及び方法は、典型的にはコンピュータシステム上で動作するソフトウェアであって、それぞれのステップによって最も効率的に独立したソフトウェアモジュールとして実行されるソフトウェアとして実行される。異なるオブジェクトに対するコンピュータ命令コードは、1又は複数のコンピュータのメモリ内に記憶され、1又は複数のコンピュータプロセッサによって実行される。一実施例においては、当該コードのオブジェクトは、インテルベースのパーソナルコンピュータ又は他のワークステーションといった、一つのコンピュータシステム内において、互いに密集(clustered)している。好適な実施例においては、当該方法はネットワークで接続された中央処理装置(CPU)群によって実行され、演算負荷を分散するために、様々なソフトウェアオブジェクトが様々なプロセッサによって実行される。その代わりに、各CPUは、全てのソフトウェアオブジェクトのコピーを有しており、同じように構成された要素の同質的なネットワークを可能とする。この後者の構成においては、各CPUは、データベースインデックスのサブセットを有し、それ自身のメディアファイルのサブセットを検索する。
本発明とその利点が詳細に記述されたが、様々な変更、代用そして代替が、添付されるクレームによって定義される発明を逸脱することなく行われる。更に、本出願の範囲は、特定の処理、機械、製品、合成物、明細書において記述される手段、方法及びステップに限定することを意図しない。当業者が当該開示によって認識するように、ここに記述される実施例と実質的に同一の機能を果たし、又は実質的に同一の結果をもたらす、現在存在し、後に改良されるプロセス、機械、製品、合成物、手段、方法又はステップが利用される。従って、添付されるクレームは、その範囲内において、そのような処理、機械、製品、合成物、手段、方法、又はステップを含む。
本発明とその利点をより完全に理解するために、添付する図面に関連する以下の説明が参照される。
認識されていないオーディオストリームにおいて関連するアイテムのデータベースを生成するシステムの実施例のブロック図である。 繰り返されるNRAのセグメントを照合する方法の実施例のフローチャートである。 ここで記述されるフィンガープリンティング及びランドマーキングシステムを実行するコンピュータシステムの実施例のブロック図である。 サウンドファイルのデータベースインデックスを構築する方法の実施例のフローチャートである。 NRAセグメントといったサウンドサンプルについて算出されたランドマーク及びフィンガープリントを概略的に示す。 NRAセグメントを、予めフィンガープリントが付けられ、又はインデックスが付けられたNRAサンプル又はセグメントと照合する方法の実施例のフローチャートである。

Claims (20)

  1. 少なくとも一つのメディアストリームにおいて繰り返されるオーディオマテリアルを、前記繰り返されるマテリアルの性質の事前情報なしに認識する方法であって、
    非認識データが未知の内容を含む場合に、前記メディアストリ−ムから非認識データのセグメントを識別し、
    前記非認識データのセグメントが、前記メディアストリームの先行の内容に整合するかを決定し、
    前記メディアストリームから未知の内容のスクリーニングデータベースをクリエートするように、整合に基づいて、非認識データのセグメントをサーチ可能なデータベースにインデックスし、
    サーチエンジンに非認識データの所定のセグメントを提供して、前記メディアストリームの内容の多数の整合に基づいて、しきい値を越える非認識データの所定のセグメントに対する識別を行なう、
    ことを特徴とするオーディオマテリアル認識方法。
  2. 前記サーチ可能なデータベースに非認識データのセグメントをインデックスすることが、非認識データのセグメントを記述するフィンガープリント情報をインデックスすることを含む、
    ことを特徴とする請求項1に記載のオーディオマテリアル認識方法。
  3. 前記非認識データのセグメントが、前記メディアストリームの先の内容に一致するかどうかを決定することが、前記非認識データが、スクリーニングデータベースのインデックスセグメントに整合するかを決定することを含むことを特徴とする請求項1に記載のオーディオマテリアル認識方法。
  4. 非認識データの部分に対するフィンガープリントを抽出するように、メディアストリームから非認識データのセグメントを処理し、
    前記非認識データのセグメントに対するフィンガープリント情報をメディアストリームからスクリーニングデータベースへインデックスし、
    非認識データのセグメントが、メディアストリームの先のコンテントに整合するかどうかを決定することが、非認識データのセグメントのためのフィンガープリント情報と、スクリーニングデータベースのフィンガープリント情報との間の識別整合を含むことを特徴とする請求項1に記載のオーディオマテリアル認識方法。
  5. メディアストリームのオーディオのセグメントを各識別子でマークし、
    オーディオの各セグメントのためのフィンガープリント情報を抽出するようにオーディオのセグメントを処理し、
    前記オーディオのセグメントをスクリーニングデータベースにインデックスする、
    ことを特徴とする請求項1に記載のオーディオマテリアル認識方法。
  6. オーディオのセグメントをスクリーニングデータベースにインデックスすることが、メディアストリームから未知のオーディオデータのリスティングをクリエイトすることを含む請求項5に記載のオーディオマテリアル認識方法。
  7. メディアストリームが、未知のオーディオを含み、さらにオーディオデータのセグメントのためのユニークなタイムスタンプ提供すること含む請求項5に記載のオーディオマテリアル認識方法。
  8. 非認識データのセグメントが先のコンテントにマッチするかどうかを決定することが、非認識データのセグメントを、スクリーニングデータベースのオーディオのセグメントと比較することから成る請求項5に記載のオーディオマテリアル認識方法。
  9. オーディオのセグメントのタイムスタンプに基づくスクリーニングデータベースからオーディオのセグメントを除去することを含む請求項5に記載のオーディオマテリアル認識方法。
  10. 非認識データの一定のセグメントを、サーチエンジンに提供して、前記非認識データの一定のセグメントに前記メディアストリームの内容の整合の間の相関に基づく識別をする請求項1に記載のオーディオマテリアル認識方法。
  11. 非認識データのセグメントが、第2のメディアストリームの内容に整合するかを決定し、
    非認識データの一定のセグメントをサーチエンジンに提供して、前記非認識データの一定のセグメントにメディアストリームの内容の整合の回数と、
    前記非認識データの一定のセグメントに第2のメディアストリームの内容の整合の回数との合計に基づく識別をする請求項1に記載のオーディオマテリアル認識方法。
  12. 前記隣接整合非認識データが前記メディアストリームの先の内容に整合する逐次の順序で受信されるデータから成る場合に、前記しゃへいデータベースにおいて隣接整合非認識データを決定し、
    前記隣接整合非認識データに基づくデータの整合チェーンを形成し、
    識別のために前記サーチエンジンに前記非認識データの一定のセグメントを提供することが、前記データの整合チェーンを提供することを含む請求項1に記載のオーディオマテリアル認識方法。
  13. 少なくとも一つの認識されていないメディアの内容のソースにおいて繰り返される、認識されていないメディアの内容のセグメントを認識するシステムであって、
    未知の内容を含む前記認識されていないメディアを受信し、識別子を前記認識されていないメディアのサンプルに関連付ける候補マネジャーと、
    認識されていないメディアセグメントについてのフィンガープリントを生成し得るフィンガープリントジェネレータと、
    前記候補マネジャーと前記フィンガープリントジェネレータとに接続され、認識されていないメディアのフィンガープリントを予め記憶された認識されていないメディアのフィンガープリントのデータベースと比較して、前記認識されていないメディアコンテンツにおいて繰り返されるセグメントを見つけ得るメディアサーチエンジンとを備え、
    前記メディアサーチエンジンがさらに、前記データベース内への前記認識されていないフィンガープリントインデックスの整合に基づいて構成され、前記メディアサーチエンジンが、さらにしきい値を越える一定の認識されていないデータへのメディアストリーム内のコンテンツの多数の整合に基づく識別のためにサーチエンジンに一定の認識されてないメディアを提供するように構成されることを特徴とするシステム。
  14. 前記認識されていないメディアが、時間によって範囲を設定される
    ことを特徴とする請求項13に記載のシステム。
  15. 前記認識されていないメディアが、あらかじめ認識されたマテリアルのセグメントによって範囲を設定される
    ことを特徴とする請求項13に記載のシステム。
  16. 前記認識されていないメディアが、前記フィンガープリントジェネレータに付随するスクリーニングデータベース内のフラグメントに対して照合するフラグメントにマッピングされ、前記照合するフラグメントが、候補グループにグループ化される
    ことを特徴とする請求項13に記載のシステム。
  17. 前記候補グループが、発行するのに適した最良の標本を見つけるために前記候補グループを評価し、それによって、パラレルチェーンに照合する最良の標本が、認識される、繰り返されるマテリアルを構成する
    ことを特徴とする請求項16に記載のシステム。
  18. 前記候補グループの評価が、前記候補グループにおける他の全てのサンプルとの間での最も良い相互の照合に基づく
    ことを特徴とする請求項16に記載のシステム。
  19. 前記少なくとも一つのソースから受信された、認識されていないメディアセグメントを保持する参照データベースを備える
    ことを特徴とする請求項13に記載のシステム。
  20. 参照マテリアルのタイムスタンプに基づいて前記参照マテリアルを前記参照データベースから定期的に取り除く
    ことを特徴とする請求項19に記載のシステム。
JP2007554350A 2005-02-08 2006-02-08 オーディオ信号において繰り返されるマテリアルの自動識別 Active JP5150266B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US65101005P 2005-02-08 2005-02-08
US60/651,010 2005-02-08
PCT/US2006/004593 WO2006086556A2 (en) 2005-02-08 2006-02-08 Automatic identfication of repeated material in audio signals

Publications (2)

Publication Number Publication Date
JP2008530597A JP2008530597A (ja) 2008-08-07
JP5150266B2 true JP5150266B2 (ja) 2013-02-20

Family

ID=36793715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007554350A Active JP5150266B2 (ja) 2005-02-08 2006-02-08 オーディオ信号において繰り返されるマテリアルの自動識別

Country Status (8)

Country Link
US (3) US8090579B2 (ja)
EP (2) EP2437255B1 (ja)
JP (1) JP5150266B2 (ja)
CN (1) CN101189658A (ja)
CA (1) CA2595634C (ja)
ES (1) ES2569423T3 (ja)
HK (1) HK1169208A1 (ja)
WO (1) WO2006086556A2 (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
DK1504445T3 (da) * 2002-04-25 2008-12-01 Landmark Digital Services Llc Robust og invariant lydmönster-matching
CN100485399C (zh) * 2004-06-24 2009-05-06 兰德马克数字服务有限责任公司 表征两个媒体段的重叠的方法
WO2006086556A2 (en) 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US7962460B2 (en) 2006-12-01 2011-06-14 Scenera Technologies, Llc Methods, systems, and computer program products for determining availability of presentable content via a subscription service
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US7698410B2 (en) * 2007-04-27 2010-04-13 Yahoo! Inc. Context-sensitive, self-adjusting targeting models
US8213521B2 (en) * 2007-08-15 2012-07-03 The Nielsen Company (Us), Llc Methods and apparatus for audience measurement using global signature representation and matching
US8316148B2 (en) * 2008-02-22 2012-11-20 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for obtaining media over a communications network
GB2470493B (en) * 2008-02-22 2011-03-23 Ericsson Telefon Ab L M Method and apparatus for obtaining media over a communications network
US20090254933A1 (en) * 2008-03-27 2009-10-08 Vishwa Nath Gupta Media detection using acoustic recognition
US9094715B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for multi-broadcast differentiation
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US9876905B2 (en) 2010-09-29 2018-01-23 Genesys Telecommunications Laboratories, Inc. System for initiating interactive communication in response to audio codes
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
WO2012078142A1 (en) * 2010-12-07 2012-06-14 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US9480913B2 (en) 2011-01-26 2016-11-01 WhitewaterWest Industries Ltd. Interactive entertainment using a mobile device with object tagging and/or hyperlinking
CA2837725C (en) 2011-06-10 2017-07-11 Shazam Entertainment Ltd. Methods and systems for identifying content in a data stream
CN102956238B (zh) 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
US9460465B2 (en) 2011-09-21 2016-10-04 Genesys Telecommunications Laboratories, Inc. Graphical menu builder for encoding applications in an image
US9715581B1 (en) * 2011-11-04 2017-07-25 Christopher Estes Digital media reproduction and licensing
CN103137138A (zh) * 2011-11-25 2013-06-05 司法部司法鉴定科学技术研究所 一种音频重复插入的检测方法
US9116928B1 (en) * 2011-12-09 2015-08-25 Google Inc. Identifying features for media file comparison
CN103999150B (zh) * 2011-12-12 2016-10-19 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US8768003B2 (en) 2012-03-26 2014-07-01 The Nielsen Company (Us), Llc Media monitoring using multiple types of signatures
US8681950B2 (en) 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
EP2648418A1 (en) 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
US8959022B2 (en) 2012-07-03 2015-02-17 Motorola Solutions, Inc. System for media correlation based on latent evidences of audio
US9027048B2 (en) * 2012-11-14 2015-05-05 Bank Of America Corporation Automatic deal or promotion offering based on audio cues
US9106953B2 (en) 2012-11-28 2015-08-11 The Nielsen Company (Us), Llc Media monitoring based on predictive signature caching
EP2738686A1 (en) * 2012-11-29 2014-06-04 Thomson Licensing Synchronization of different versions of a multimedia content
US20140196070A1 (en) * 2013-01-07 2014-07-10 Smrtv, Inc. System and method for automated broadcast media identification
US20140278845A1 (en) 2013-03-15 2014-09-18 Shazam Investments Limited Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
US9460201B2 (en) * 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US9420349B2 (en) 2014-02-19 2016-08-16 Ensequence, Inc. Methods and systems for monitoring a media stream and selecting an action
CN104874061A (zh) * 2014-02-28 2015-09-02 北京谊安医疗系统股份有限公司 呼吸机的喇叭状态的检测方法和检测装置
US9704507B2 (en) 2014-10-31 2017-07-11 Ensequence, Inc. Methods and systems for decreasing latency of content recognition
BR112017011522A2 (pt) 2014-12-01 2018-05-15 Inscape Data Inc sistema, e, método
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
CA2973328C (en) * 2015-01-30 2019-11-26 Sharp Kabushiki Kaisha System for service usage reporting
WO2016168556A1 (en) 2015-04-17 2016-10-20 Vizio Inscape Technologies, Llc Systems and methods for reducing data density in large datasets
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
EP3323245B1 (en) 2015-07-16 2021-08-25 Inscape Data, Inc. Detection of common media segments
US9749685B2 (en) 2015-07-23 2017-08-29 Echostar Technologies L.L.C. Apparatus, systems and methods for accessing information based on an image presented on a display
US10089987B2 (en) 2015-12-21 2018-10-02 Invensense, Inc. Music detection and identification
US10785329B2 (en) * 2017-01-05 2020-09-22 The Nielsen Company (Us), Llc Methods and apparatus to facilitate meter to meter matching for media identification
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
US10885109B2 (en) * 2017-03-31 2021-01-05 Gracenote, Inc. Multiple stage indexing of audio content
US10264297B1 (en) * 2017-09-13 2019-04-16 Perfect Sense, Inc. Time-based content synchronization
US10715855B1 (en) * 2017-12-20 2020-07-14 Groupon, Inc. Method, system, and apparatus for programmatically generating a channel incrementality ratio
US11037258B2 (en) * 2018-03-02 2021-06-15 Dubset Media Holdings, Inc. Media content processing techniques using fingerprinting and heuristics
GB201810202D0 (en) 2018-06-21 2018-08-08 Magus Communications Ltd Answer machine detection method & apparatus
CN108600825B (zh) * 2018-07-12 2019-10-25 北京微播视界科技有限公司 选择背景音乐拍摄视频的方法、装置、终端设备和介质
US10911824B2 (en) 2018-11-05 2021-02-02 The Nielsen Company (Us), Llc Methods and apparatus to generate reference signatures
US10868620B2 (en) * 2018-12-26 2020-12-15 The Nielsen Company (Us), Llc Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks
US10477287B1 (en) 2019-06-18 2019-11-12 Neal C. Fairbanks Method for providing additional information associated with an object visually present in media content
US11212560B2 (en) 2019-06-24 2021-12-28 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to establish a time offset, to facilitate taking content-related action
US11234049B2 (en) * 2019-06-24 2022-01-25 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to control implementation of dynamic content modification
CN112995759A (zh) * 2019-12-13 2021-06-18 腾讯科技(北京)有限公司 互动业务处理方法、系统、装置、设备及存储介质
US11356720B2 (en) 2020-01-30 2022-06-07 Snap Inc. Video generation system to render frames on demand
US11284144B2 (en) * 2020-01-30 2022-03-22 Snap Inc. Video generation system to render frames on demand using a fleet of GPUs
KR20220133249A (ko) 2020-01-30 2022-10-04 스냅 인코포레이티드 온 디맨드로 미디어 콘텐츠 아이템들을 생성하기 위한 시스템
US11036781B1 (en) 2020-01-30 2021-06-15 Snap Inc. Video generation system to render frames on demand using a fleet of servers
GB2597334A (en) * 2020-07-17 2022-01-26 Playrcart Ltd A media player
CN112132931B (zh) * 2020-09-29 2023-12-19 新华智云科技有限公司 一种模板化视频合成的处理方法、装置及系统
US11956518B2 (en) 2020-11-23 2024-04-09 Clicktivated Video, Inc. System and method for creating interactive elements for objects contemporaneously displayed in live video
CN115103219A (zh) * 2022-07-01 2022-09-23 抖音视界(北京)有限公司 音频发布方法、装置和计算机可读存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
WO1991019989A1 (en) * 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5437050A (en) * 1992-11-09 1995-07-25 Lamb; Robert G. Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6480825B1 (en) * 1997-01-31 2002-11-12 T-Netix, Inc. System and method for detecting a recorded voice
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2001042866A (ja) * 1999-05-21 2001-02-16 Yamaha Corp ネットワークを介したコンテンツ提供方法及びシステム
GR1003625B (el) 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6748360B2 (en) * 2000-11-03 2004-06-08 International Business Machines Corporation System for selling a product utilizing audio content identification
US6483927B2 (en) * 2000-12-18 2002-11-19 Digimarc Corporation Synchronizing readers of hidden auxiliary data in quantization-based data hiding schemes
JP2003186466A (ja) * 2001-12-20 2003-07-04 Yamaha Corp 楽譜作成処理装置及びプログラム
DK1504445T3 (da) 2002-04-25 2008-12-01 Landmark Digital Services Llc Robust og invariant lydmönster-matching
US7461392B2 (en) * 2002-07-01 2008-12-02 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
US6766523B2 (en) * 2002-05-31 2004-07-20 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
EP1518409B1 (en) * 2002-07-01 2019-01-09 Microsoft Technology Licensing, LLC A system and method for providing user control over repeating objects embedded in a stream
JP4243682B2 (ja) * 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
US20040260682A1 (en) * 2003-06-19 2004-12-23 Microsoft Corporation System and method for identifying content and managing information corresponding to objects in a signal
US7451078B2 (en) * 2004-12-30 2008-11-11 All Media Guide, Llc Methods and apparatus for identifying media objects
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
WO2006086556A2 (en) 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals

Also Published As

Publication number Publication date
CN101189658A (zh) 2008-05-28
HK1169208A1 (zh) 2013-01-18
US20140052284A1 (en) 2014-02-20
US9092518B2 (en) 2015-07-28
ES2569423T3 (es) 2016-05-10
US20120076310A1 (en) 2012-03-29
EP2437255A2 (en) 2012-04-04
US8090579B2 (en) 2012-01-03
WO2006086556A3 (en) 2007-11-15
WO2006086556A2 (en) 2006-08-17
US8571864B2 (en) 2013-10-29
EP1864243A2 (en) 2007-12-12
EP2437255B1 (en) 2016-02-03
US20060277047A1 (en) 2006-12-07
EP2437255A3 (en) 2013-08-14
CA2595634C (en) 2014-12-30
EP1864243A4 (en) 2009-08-05
CA2595634A1 (en) 2006-08-17
JP2008530597A (ja) 2008-08-07

Similar Documents

Publication Publication Date Title
JP5150266B2 (ja) オーディオ信号において繰り返されるマテリアルの自動識別
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
US20140214190A1 (en) Method and System for Content Sampling and Identification
US20080154401A1 (en) Method and System For Content Sampling and Identification
EP2127400A1 (en) System and method for monitoring and recognizing broadcast data
WO2006012241A2 (en) Method of characterizing the overlap of two media segments
CN1623289A (zh) 基于特征的音频内容识别

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111027

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121203

R150 Certificate of patent or registration of utility model

Ref document number: 5150266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250