JP2012529704A - 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム - Google Patents

検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム Download PDF

Info

Publication number
JP2012529704A
JP2012529704A JP2012514967A JP2012514967A JP2012529704A JP 2012529704 A JP2012529704 A JP 2012529704A JP 2012514967 A JP2012514967 A JP 2012514967A JP 2012514967 A JP2012514967 A JP 2012514967A JP 2012529704 A JP2012529704 A JP 2012529704A
Authority
JP
Japan
Prior art keywords
fingerprint
database
partition
fingerprints
reference database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012514967A
Other languages
English (en)
Inventor
ニコラス シート
ロブ ジョンソン
ジョシュア スモールマン
アダム カーン
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2012529704A publication Critical patent/JP2012529704A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

メディア識別システムは、既知のメディアサンプルのための参照フィンガープリントを生成すると共に、参照データベースに参照フィンガープリントを保存する。メディア識別システムは、参照フィンガープリントを使用して、未知のメディアサンプルから生成されるフィンガープリントとマッチングを行い、未知のサンプルを識別する。参照データベースに新たな参照フィンガープリントを保存するときには、データベースのパーティションは、メディア識別システムが使用する際にデータベースにかかる検索負荷を平衡化するよう選択される。例えば、選択されたパーティションは、メディア識別システムによってパーティションのアクセスレートに少なくとも部分的に基づいて判定することができる。新たな参照フィンガープリントは、他のパーティションよりも相対的に低いアクセスレートを有するパーティション内に配置されるようになり、これにより、メディア識別システムによってパーティションにかかる検索負荷を平衡化するようにする。
【選択図】 図1

Description

本発明は、一般に、メディア識別システムに関し、詳細には、未知の検査サンプルとのマッチングを行うためのメディア識別システムによって使用される参照フィンガープリントのデータベースの管理に関する。
デジタルフィンガープリント法は、オーディオ又はビデオサンプルなどのような未知のデジタルメディアサンプルを識別するのに使用できる処理である。例示的なメディア識別システムでは、デジタルフィンガープリントは、幾つかの既知のメディアサンプルの各々に対して生成され、このメディアサンプルは、データファイル、放送番組、ストリーミングメディア、又は他の種々のメディアソースのうちのいずれかから取得することができる。各デジタルフィンガープリントは、デジタルフィンガープリントが生成されたメディアサンプルについての特徴情報を含むデータセグメントを含むことができる。引用により全体が本明細書に組み込まれる米国特許第7、516、074号では、データ信号から特徴的なデジタルフィンガープリントを生成する実施形態について記載している。
参照フィンガープリントは、データベース又はリポジトリに保存され、参照フィンガープリントを参照フィンガープリントの対応するメディアサンプル及び/又は該メディアサンプルに関係するメタデータと関連付けるようにしてインデックスが作成される。米国特許第7、516、074号はまた、データベース内の参照フィンガープリントのインデックスを作成する実施形態も開示している。参照フィンガープリントのデータベースを使用して、未知のメディアサンプルを識別することができる。検査フィンガープリントは、未知のメディアアイテムを識別するためにメディアアイテムのサンプルから生成される。次に、参照フィンガープリントのデータベースに照らして検査フィンガープリントのマッチングを行い、マッチングが判明した場合、未知のメディアサンプルは、マッチングする参照フィンガープリントに関連付けられたメディアサンプルであると宣言される。種々の正確なマッチング及びファジーマッチングアルゴリズム、並びに正規マッチングを宣言するための基準を使用することができる。
参照フィンガープリントは、通常、フィンガープリントのベクトル座標又はフィンガープリントに含まれるデータの他の何らかの部分などのような、フィンガープリントに共通する特徴に従ってデータベースにインデックスが作成される。この種のインデックス作成方式は、多段階マッチング処理を考慮する。例えば、検査フィンガープリントを調べ、データベース内の参照フィンガープリントの1又はそれ以上の候補セットとの予備的なマッチングをインデックス作成方式に基づいて判定することができる。次いで、識別されたそれぞれの候補を検査フィンガープリントと比較し(例えば、ビット単位で)、マッチングが存在するかどうかを判定する。この多段階マッチング処理は、より計算集約的なフィンガープリント比較を行う前に候補リストを絞り込むことによって、データベース内の各々及び全ての参照フィンガープリントにアクセスして検査フィンガープリントと各参照フィンガープリントを比較する必要性が排除される。
一部のメディアマッチングシステムのアプリケーションでは、拡大する既知のメディアサンプルセットに照らして未知のメディアサンプルをマッチングする。例えば、未知のメディアサンプルは、オンラインビデオ共有ウェブサイトからのビデオクリップであってもよく、これらのメディアサンプルを放送番組のような既知のメディアサンプルに照らして検査することができる。既知のメディアサンプルセットが増大するにつれて、新たな参照フィンガープリントが上記サンプルから生成され、その後、参照フィンガープリントデータベースに追加される。
参照フィンガープリントのデータベースが極めて大きなアプリケーションでは、データベースは、「サイロ」とも呼ばれる多数の物理パーティション及び/又は論理パーティションにわたって実装することができる。参照データベースが複数のパーティションを含む場合、参照サンプルは、通常、各パーティションに含まれるデータ量に基づいて実質的に均等にパーティションにわたって配信される。参照フィンガープリントを保存するための特定のアルゴリズムは、参照フィンガープリントが得られるメディアサンプルのソースに依存することができる。放送番組から取得する場合、例えば、サンプルは、サンプルを取得した放送チャネル又はサンプルの他のメタ特性のいずれかに応じてパーティションに追加することができる。
このアルゴリズムは、各パーティションに保存されたデータ量を平衡化しようとしているが、目的とするデータベースの使用に最適な状況をもたらすことはできない。これは、実際には、メディアサンプルのメタ特性とこれらメディアサンプルの人気との間に相関関係があることが多いことに起因する。例えば、メディアマッチングシステムの実施例では、検査サンプルは、別のソースではなく一般的にはある特定のソースに由来することが多い。これは、インデックスを作成するシステムでは、検査サンプルに対する候補をパーティションにグループ化するので、他のパーティションに比べてパーティションの一部に対してより多くのアクセス負荷(例えば、読み出しリクエスト)をもたらす傾向になる。メディアマッチングシステムによるアクセスに基づいて結果として生じる一部のパーティションに対する過負荷は、システムの最適以下の性能を生じる可能性が高い。
メディア識別システムの参照データベースに参照フィンガープリントを保存するときに、本発明の実施形態は、メディア識別システムが参照フィンガープリントを使用する際のデータベースにかかる検索負荷を平衡化する。詳細には、データベースに1又はそれ以上の新たな参照フィンガープリントを保存するときに、本発明の実施形態は、新たな参照フィンガープリントの保存対象となるデータベースの1又はそれ以上のパーティションを選択する。この選択されたパーティションは、メディア識別システムによってパーティションのアクセスレート(例えば、所与の時間期間にわたる各パーティションに対する検索回数)に少なくとも部分的に基づいて決定される。1つの実施形態では、新たな参照フィンガープリントは、その他のパーティションに比べて比較的低いアクセスレートを有するパーティションに配置されるようになる。パーティションへの参照フィンガープリントの追加により、当該パーティションに対するアクセスレートが高くなる傾向があるので、相対的に低いアクセスレートを有するデータベースのパーティションに新たな参照フィンガープリントを追加することで、メディア識別システムによってパーティションにかかる検索負荷が平衡化される傾向になる。
1つの実施形態では、本システムは、既存のパーティションの検索負荷を低減するために新たなパーティションを作成して既存のデータベースにリンクさせることができる。例えば、既存の参照データファイルを新たに作成されたパーティションに転送することによって、全てのパーティションの検索負荷が更に平衡化された状態になり、これによってデータベース全体のアクセスレートを向上させることができる。他の実施形態では、システムは、フィンガープリントのアクセスレートに応じてデータベース内の既存の参照フィンガープリントを移動することにより、パーティションにかかる負荷の再平衡化を行うことができる。パーティションは、参照データに関するメタ情報によりグループ化することができ、検索負荷の平衡化は、各新たな参照フィンガープリントに対して個々に行うのではなく、グループレベルで行うことができる。
本発明の実施形態による、メディアフィンガープリントシステムの概略図である。 本発明の実施形態による、参照フィンガープリントのデータベースの概略図である。 図2のデータベースに参照フィンガープリントを保存するデータ構造の概略図である。 本発明の実施形態による、フィンガープリントマッチングシステムで使用されるデータベースの概略図である。 本発明の実施形態による、デジタルフィンガープリントをマッチングするアプリケーションにより実行されるステップを示すフロー図である。 本発明の実施形態による、デジタルフィンガープリントをマッチングするアプリケーションにより実行されるステップを示すフロー図である。 データ構造内に保存されることになる参照フィンガープリントの候補セットを描いた、図3に示すデータ構造の実施例である。 本発明の実施形態による、参照フィンガープリントのデータベースにかかる検索負荷を平衡化する方法のフロー図である。
各図は、単に例証の目的で本発明の種々の実施形態を示している。当業者であれば、本明細書に例示された構造及び方法の代替の実施形態を本明細書に記載する発明の原理から逸脱することなく利用できることは、以下の説明から容易に認識されるであろう。
デジタルフィンガープリントアプリケーションでは、未知のオーディオ又はビデオコンテンツからサンプリングされたデジタルフィンガープリントを既知のオーディオ又はビデオプログラミングから取得されたデジタルフィンガープリントの参照データベースと比較して、未知のコンテンツを識別するようにする。未知のコンテンツのメタデータに修正を許可する場合、或いは、他の多くのメディア識別システムのアプリケーションの中で著作権のある素材の配信制御を可能にする場合には、未知のコンテンツを識別することが望ましい。
図1はデータベースシステムにおいてデジタルフィンガープリントアプリケーションを実施するための構成を示す。参照フィンガープリントのデータベース100及びデータベースサーバ125が図示されている。データベースサーバ125は、メディアサンプルから参照フィンガープリントを作成するフィンガープリント生成アルゴリズムを実行する。1つの実施形態では、データベースサーバは、放送局130により送信された放送番組140から参照フィンガープリントを生成する。他の実施形態では、データベースサーバ125は、ファイル共有ネットワーク又はインターネットウェブサイトなどのコンピュータネットワーク135からメディアコンテンツをサンプリングし、このサンプリングされたメディアコンテンツから参照フィンガープリントを作成する。データベースサーバ125は、生成された参照フィンガープリントをデータベース100上に保存し、これにより、本明細書で説明するように、これら参照フィンガープリントを使用して未知のメディアサンプルを識別することができる。
図2は、データベース100の1つの実施形態をより詳細に示す。データベース100は、データ構造110内に保存された標準サイズの複数の参照フィンガープリント105を含む。参照フィンガープリント105は、オーディオ又はビデオコンテンツの部分についてのデジタルフィンガープリントを含むことができる。また、データベース100には、各参照フィンガープリント105に関連付けられたメタデータ115が含められる。メタデータ115は、参照フィンガープリント105に帰属するデジタルメディアコンテンツに関して、タイトル、アーティスト、ジャンル、製作者、及び著作権日付などの情報を含むことができる。メタデータ115は、放送番組140から抽出するか、或いは、データベースサーバ125により取得することができる。データベース100はまた、本明細書でより詳細に説明するように、検査フィンガープリントとマッチングできるフィンガープリントの候補セットを識別するのに使用可能な幾つかのインデックス120を含む。
インデックス作成方法は、検査フィンガープリントとマッチングできる参照フィンガープリントの候補セットを識別するのに使用される。フィンガープリントの候補セットは、論理的に予め定義された「バケット」に候補セットが出現することに基づいて識別され、ここで各バケットは、当該バケットに関連付けられたテンプレートにより指定される特定のビット位置において同じビット値を共有するフィンガープリントグループを参照する。対応するテンプレート内で指定されたビット位置において検査フィンガープリントにマッチングするビット値のフィンガープリントを含むバケットがマークされる。フィンガープリントは多くの異なるバケットにおいて参照することができ、各マークされたバケットは、当該バケットによって参照されたフィンガープリントがマッチである可能性が高いことを示しているので、フィンガープリントのグループは、最も高いものとしてマークされたバケットにおけるフィンガープリントの再出現に基づいて、当該フィンガープリントの候補セットとして識別することができる。
図3は、参照フィンガープリント105が保存されるデータ構造110をより詳細に示している。データ構造110は、パーティション200と呼ばれる複数のデータリポジトリを含む。1つの実施形態では、パーティション200は、例えば、LDAPプロトコルによって論理的に定義され、各パーティション200の実際のデータコンテンツを同じ位置又は異なる位置にある幾つかの物理的記憶メディア上に保存することができる。各パーティション200のコンテンツは、参照フィンガープリント105のサブセットを含む。
図4に示す典型的なマッチングのアプリケーションでは、未知のメディアコンテンツ300は、検査フィンガープリント310を生成するためにデータベースサーバ125によりサンプリングされる。未知のコンテンツ300は、ユーザ生成のコンテンツをアップロードする許可を与えるウェブサイトのような、ウェブサイトからサンプリングされたデジタルオーディオ又はビデオデータを含むことができる。サンプリングは、データベースサーバ125にあるソフトウェアプログラムによって、或いは、検査フィンガープリント310をデータベースサーバ125に通信する遠隔プログラムによって自動的に実行することができる。このようなソフトウェアプログラムは、サンプリングするために共有にされたオーディオ又はビデオコンテンツを探してインターネットを自動的にクロールする、一般に「ロボット」又は「スパイダ」と呼ばれる自動プログラムとすることができる。未知のコンテンツ300はまた、ファイル共有ネットワークにわたって共有されるデータを含むこともできる。
検査フィンガープリント310は、未知のコンテンツ300の一部から取得したデジタルフィンガープリントであってもよい。同じオーディオ又はビデオストリームから複数のデジタルフィンガープリントを取得することができる。1つの実施例では、新たな検査フィンガープリントは、サンプリングされたコンテンツから5秒毎に生成される。検査フィンガープリント310が取得されると、データベース100に照らしてマッチングを行い、データベース100に含まれる参照フィンガープリント105が検査フィンガープリント310にマッチングするかどうかを判定することができる。マッチングが判明した場合、マッチングした参照フィンガープリント305のメタデータ115を調べて、未知のコンテンツ300を識別し、例えば、著作権所有者への通知、コンテンツ内への広告の挿入、又はコンテンツのブロックなど、適切で更なるステップを行うことができる。検査フィンガープリント310は、参照フィンガープリント105と完全にマッチングする必要はない。忠実度の損失又は未知のコンテンツ300のノイズに起因する他のひずみは、検査フィンガープリント310と対応する参照フィンガープリント105との間の相違をもたらす結果となる場合があるので、十分に高レベルの確実さで検査フィンガープリントを識別するには部分的なマッチングで十分であると考えられる。
図5Aは、参照フィンガープリント105に照らして検査フィンガープリント310をマッチングする方法の概略を示す。ブロック400に示す第1のステップでは、参照フィンガープリント500の候補セットが生成される。ブロック405に示す第2のステップでは、検査フィンガープリント310が、候補セット500の参照フィンガープリントの各々と比較され、マッチングするかどうかを判定する。
図5Bは、図5Aの識別ステップ400のある実施を示す。図5Bにおいて、参照フィンガープリントの候補セット500を識別するのにインデックス作成方法が使用される。各インデックス120は、参照フィンガープリントの特徴に従って参照フィンガープリントのインデックスを作成する。例えば、インデックスは、特定の座標に対して同じ値を有する参照フィンガープリントをグループ化することができる。ブロック410に示す第1のステップでは、検査フィンガープリント105は第1のインデックス120と比較され、検査フィンガープリントとマッチングすることができるフィンガープリントの候補セットを識別する。識別された場合、ブロック420に示すように、インデックス120に関連付けられた参照フィンガープリントがマークされる。インデックスの全てが検査フィンガープリント310と比較されて、検査フィンガープリントについて可能性のある全ての候補参照フィンガープリントが識別されるまで、インデックス120の各々に対して処理が反復される。この方法の終了時に、複数の参照フィンガープリント105がマークされることになる。参照フィンガープリントは、2つ以上のインデックス120によって定義された検査フィンガープリント310のインデックス化された特徴とマッチングする場合もあるので、参照フィンガープリント105は、候補として複数回マークすることができる。次いで、ブロック425に示すように、全ての参照フィンガープリント候補がグループ化される。
上述のステップでは、参照フィンガープリントの実際のコピーを取得する必要もなく、候補参照フィンガープリントがインデックスによって識別される。しかしながら、候補フィンガープリントが識別されると、候補参照フィンガープリントのコピーが取得され、これによって、マッチングアルゴリズムは、各識別された候補フィンガープリントを検査フィンガープリントと比較し、マッチングが存在するかどうかを判定することができる。候補フィンガープリントのコピーを参照データベースから取得するステップは、候補参照フィンガープリントが配置されたデータベース内のパーティションへの「アクセス」を含むことができ、これは読み出し動作であるので、従って、参照データベースのリソースに対するロードである。
図6は、データ構造110内の参照フィンガープリントの候補セット500が識別された実施例に関するデータ構造110を示す。図6の実施例では、4つのパーティション200が図示されており、これらの4つのパーティション200は、識別された候補フィンガープリントを合計で200個含む。左から右に図示するように、第1のパーティション200は候補セットの参照フィンガープリントを100個含み、第2のパーティション200は参照フィンガープリントを17個含み、第3のパーティション200は1個の参照フィンガープリントを含み、第4のパーティション200は参照フィンガープリントを82個含む。
候補セット500内の参照フィンガープリントのうちのいずれかが検査フィンガープリント310とマッチングするかどうかを識別するために、フィンガープリントマッチングアルゴリズムは、検査フィンガープリント310と候補セット500の参照フィンガープリントのうちの各々の参照フィンガープリントとの間でビット毎の比較を実行することができる。このビット毎の比較は、図5Aに示した比較段階405中に実行することができる。この比較を行うために、フィンガープリントマッチングシステムは、最初に、各パーティション200から候補参照フィンガープリントのコピーを取得する。この読み出し動作は、パーティション200の各々において同時に実行することができるが、しかしながら、比較段階の全体の速度は、最も低速のパーティション200からの読み出し速度によって制限され、最も低速のパーティション200は、最大数の候補フィンガープリントを保有するパーティション200である可能性が高い。この実施例では、より多くの識別候補フィンガープリントを含むパーティションは、より少数の識別候補アルゴリズムを含むパーティションよりもマッチングアルゴリズムにフィンガープリントを提供するのにより多くの時間を要する可能性が高い。なぜなら、この実施例では、候補のフィンガープリント数は均等に平衡化されておらず、全体の比較速度が最適以下となるためである。参照フィンガープリントの候補セット500がパーティション200にわたってより均等に分散されている場合には、比較段階はより迅速に進むことになる。このケースにおいて、候補セットの200個のフィンガープリントがより均等に分散されている場合には、各パーティションは候補セットに約50個のフィンガープリントを有することになり、マッチングの全体速度を大幅に迅速にすることができる。
図7は、本発明によるデータベース内の検索負荷を平衡化するためのコンピュータに実装された方法のフロー図を示す。ブロック600に示すように、各パーティション200についてアクセスレートが監視される。アクセスレートは、フィンガープリントの候補セット500に含まれる当該パーティションに関する参照フィンガープリントの平均個数として求められ、複数の検査フィンガープリント310を比較する間に測定される。アクセスレートは、限定ではないが、月当たり、週当たり、1日当たり、1時間当たり、分単位、又は秒単位を含む、複数の時間期間にわたって測定することができる。
ブロック610に示すように、データベース内のパーティションに対するアクセスレートを監視する間、データベースサーバ125は、データベース100に新たな参照フィンガープリントを追加するためのリクエストを受信することができる。このリクエストは、図1に示すような既知の放送局140のサンプリングの結果とすることができる。次いで、ブロック620に示すように、新たな参照フィンガープリントは、他のパーティション200と比べて相対的に低いアクセスレートを有する少なくとも一つのパーティション200上に保存される。
より低いアクセスレートを有するパーティション上に新たな参照フィンガープリントを継続的に保存することによって、パーティションにわたるアクセスレートがほとんどの検索に対するアクセスレートをほぼそのまま維持されるように改善され、その結果、平均検索速度を向上させることができる。また、参照フィンガープリントは、パーティションのアクセスレートの負荷平衡を行うように動的に再分配することもできる。
データベースはまた、より低いアクセスレートを有するパーティション上に新たな参照フィンガープリントの保存のみを行うのではなく、より高いアクセスレートを有するパーティションからより低いアクセスレートを有するパーティションに参照フィンガープリントを転送することによって、周期的に再平衡化することができる。この再平衡化は、継続的に、或いは指定されたスケジュールのメンテナンス時に実行することができる。
更に、参照フィンガープリントは、グループ内のパーティション上に保存することができ、参照フィンガープリントに対する最適位置の決定は、各参照フィンガープリントに対して個々に行われるのではなく、グループレベルで行われる。例えば、参照フィンガープリントが放送番組の特定のエピソードに対して生成されるときには、そのエピソードに対する参照フィンガープリントの全てを最も低いアクセスレートを有するパーティション上に保存することができる。その後、次のエピソードが放送されるときにだけ、その1つのコンテンツに対して新たに作成された参照フィンガープリントを相対的に低いアクセスレートを有する該当エピソードのためのパーティションのグループに保存することができる。或いは、参照フィンガープリントの指定個数又はデータサイズを一緒にグループ化し、データベース内でグループが保存されることになる場所に配置することができる。
1つの実施形態では、データベースが大きくなるにつれて、既存のパーティションのサイズを単に増やすのではなく、パーティションのグループにパーティションを追加することが望ましい場合がある。パーティションが追加される際に、データベースシステム内に新たなパーティションを実装する1つの方法は、既存のパーティションのうちの1又はそれ以上のパーティションから新たなパーティションに参照フィンガープリントを転送することである。このようにすることで、新たなパーティションのアクセスレートは、既存のパーティションの平均アクセスレートとほぼ同じか又はそれ未満であると予想することができる。
本発明の実施形態に関する上述の説明は、例示を目的として提示されたものであり、開示された厳密な形態のみを包含すること、又はその形態に限定することを意図するものではない。関連技術における当業者は、上記開示事項に照らして多くの修正及び変形形態が可能であることは理解することができる。
この説明の一部は、アルゴリズム及び情報に関する動作の象徴的表現に関する本発明の実施形態を記載している。これらのアルゴリズム記述及び表現は、これらの作業内容を他の当業者に効率的に伝えるためにデータ処理技術の当業者により一般的に使用されている。これらの動作は、機能的、計算的、又は論理的に説明されているが、コンピュータプログラム又は同等の電気回路、マイクロコード等によって実施されることは理解される。更にまた、一般性を失わずに、モジュールとしてこれらの動作の構成を指すのに好都合であることが分かっている。記載された動作及び関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア又はこれらのいずれかの組み合わせで具現化することができる。
本明細書に記載のステップ、動作又は処理のうちのいずれかは、1又はそれ以上のハードウェア又はソフトウェアモジュールによって単独で又は他の装置と組み合わせて実行又は実装することができる。1つの実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含むコンピュータ読み取り可能媒体を備えたコンピュータプログラム製品で実施され、コンピュータプログラムコードは、記載されるステップ、動作又は処理のうちのいずれか、或いは全てを実行するためのコンピュータプロセッサによって実行することができる。
本発明の実施形態はまた、本明細書の動作を実行するための装置に関するものであってもよい。この装置は、所要の目的のために特別に構成することができ、及び/又は、コンピュータ内に保存されたコンピュータプログラムによって選択的に作動又は再構成される汎用コンピュータデバイスを備えることができる。このようなコンピュータプログラムは、有形のコンピュータ読み取り可能記憶媒体、又はいずれかの種類の電子的な命令の保存に好適な媒体に保存され、コンピュータシステムバスに結合することができる。更に、明細書において言及されたいずれかの計算システムは、単一プロセッサを含むことができ、或いは、高い計算能力のためにマルチプロセッサ設計を採用するアーキテクチャとすることができる。
本発明の実施形態はまた、搬送波に組み込まれたコンピュータデータ信号に関するものであってもよく、ここでコンピュータデータ信号は、コンピュータプログラム製品又は本明細書に記載の他のデータの組み合わせのいずれかの実施形態を含む。コンピュータデータ信号は、有形の媒体又は搬送波内に提示されて搬送波内で変調又は符号化される製品であり、当該搬送波は有形であり、いずれかの好適な送信方法に従って送信される。
最後に、本明細書で使用される用語は、主に可読性及び指示を目的として選択されたものであり、本発明の主題を正確に説明するため、又は制限するために選択されたものではない。そのため、本発明の範囲は、この詳細な説明によって限定されるものではなく、むしろ、本明細書に基づく応用に由来する請求項のいずれかによって限定されるものとする。従って、本発明の実施形態の開示は、限定ではないが、以下の請求項に記載された本発明の範囲を例証するものとする。
100 参照フィンガープリントのデータベース
125 データベースサーバ
130 放送局
135 コンピュータネットワーク
140 放送番組

Claims (21)

  1. データベースに参照フィンガープリントを追加してメディア識別システムによってデータベースにかかる検索負荷を平衡化するためのコンピュータに実装される方法であって、
    各々が既知のメディアサンプルから生成される参照フィンガープリントのセットを保存する複数のパーティションを含む参照データベースを保持するステップと、
    前記メディア識別システムによって前記パーティションのアクセスレートを監視するステップと、
    前記参照データベース内に1又はそれ以上の新たな参照フィンガープリントを保存するリクエストを受信するステップと、
    前記パーティションのアクセスレートに少なくとも部分的に基づいて前記参照データベースのパーティションを選択するステップと、
    前記参照データベースの選択されたパーティション内に前記新たな参照フィンガープリントを保存するステップと、
    を含む、方法。
  2. 前記各パーティションが、前記参照データベースの論理的に定義されたデータリポジトリである、請求項1に記載の方法。
  3. 前記参照データベースを保持するステップが、
    前記参照フィンガープリントの特徴により前記データベースにおいて前記参照フィンガープリントのインデックスを作成するステップと、
    前記参照データベースの同じパーティション内で同じインデックスが作成された特徴を有する前記参照フィンガープリントをグループ化するステップと、
    を含む、請求項1に記載の方法。
  4. 前記参照データベースが更に、参照データベース内の参照フィンガープリントに対応する既知のメディアサンプルに関するメタデータを更に含む、請求項1に記載の方法。
  5. 前記参照データベースの特定のパーティションに対するアクセスレートが、指定された時間期間にわたって前記パーティションから参照フィンガープリントを読み出す複数のリクエストを含む、請求項1に記載の方法。
  6. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のオーディオサンプルから生成される、請求項1に記載の方法。
  7. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のビデオサンプルから生成される、請求項1に記載の方法。
  8. データベースに参照フィンガープリントを追加して、メディア識別システムによって前記データベースにかかる検索負荷を平衡化するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、
    各々が既知のメディアサンプルから生成される参照フィンガープリントのセットを保存する複数のパーティションを含む参照データベースを保持するステップと、
    前記メディア識別システムによって前記パーティションのアクセスレートを監視するステップと、
    前記参照データベース内に1又はそれ以上の新たな参照フィンガープリントを保存するリクエストを受信するステップと、
    前記パーティションのアクセスレートに少なくとも部分的に基づいて前記参照データベースのパーティションを選択するステップと、
    前記参照データベースの選択されたパーティション内に前記新たな参照フィンガープリントを保存するステップと、
    を含む動作を実行するためのコンピュータプログラムコードを含むコンピュータ読み取り可能記憶媒体を備える、コンピュータプログラム製品。
  9. 前記各パーティションが、前記参照データベースの論理的に定義されたデータリポジトリである、請求項8に記載のコンピュータプログラム製品。
  10. 前記参照データベースを保持するステップが、
    前記参照フィンガープリントの特徴により前記データベースにおいて前記参照フィンガープリントのインデックスを作成するステップと、
    前記参照データベースの同じパーティション内で同じインデックスが作成された特徴を有する前記参照フィンガープリントをグループ化するステップと、
    を含む、請求項8に記載のコンピュータプログラム製品。
  11. 前記参照データベースが更に、参照データベース内の参照フィンガープリントに対応する既知のメディアサンプルに関するメタデータを更に含む、請求項8に記載のコンピュータプログラム製品。
  12. 前記参照データベースの特定のパーティションに対するアクセスレートが、指定された時間期間にわたって前記パーティションから参照フィンガープリントを読み出す複数のリクエストを含む、請求項8に記載のコンピュータプログラム製品。
  13. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のオーディオサンプルから生成される、請求項8に記載のコンピュータプログラム製品。
  14. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のビデオサンプルから生成される、請求項8に記載のコンピュータプログラム製品。
  15. メディア識別システムにおいて、
    各々が既知のメディアサンプルから生成される参照フィンガープリントのセットを保存する複数のパーティションを含む参照データベースと、
    未知のメディアサンプルから生成された検査フィンガープリントを前記参照データベース内の1又はそれ以上参照フィンガープリントと比較することによって前記未知のメディアサンプルとマッチングするように構成されるフィンガープリントマッチングシステムと、
    前記既知のメディアサンプルから新たな参照フィンガープリントを生成するように構成され、且つ前記フィンガープリントマッチングシステムによって前記パーティションのアクセスレートに少なくとも部分的に基づいて選択される前記参照データベースのパーティション内に前記新たな参照フィンガープリントを保存するように構成されるフィンガープリント生成システムと、
    を備える、メディア識別システム。
  16. 前記各パーティションが、前記参照データベースの論理的に定義されたデータリポジトリである、請求項15に記載のシステム。
  17. 前記参照データベースを保持することは、前記参照フィンガープリントの特徴によって該参照フィンガープリントのインデックスを作成したインデックスを含み、前記同じインデックスが作成された特徴を有する前記参照フィンガープリントが、前記参照データベースの同じパーティション内でグループ化される、請求項15に記載のシステム。
  18. 前記参照データベースが更に、前記参照データベース内の参照フィンガープリントに対応する前記既知のメディアサンプルに関するメタデータを含む、請求項15に記載のシステム。
  19. 前記参照データベースの特定のパーティションに対するアクセスレートが、指定された時間期間にわたって前記パーティションから参照フィンガープリントを読み出す複数のリクエストを含む、請求項15に記載のシステム。
  20. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のオーディオサンプルから生成される、請求項15に記載のシステム。
  21. 前記参照フィンガープリントのうちの1又はそれ以上が、既知のビデオサンプルから生成される、請求項15に記載のシステム。
JP2012514967A 2009-06-11 2010-05-11 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム Pending JP2012529704A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/483,222 2009-06-11
US12/483,222 US8713068B2 (en) 2009-06-11 2009-06-11 Media identification system with fingerprint database balanced according to search loads
PCT/US2010/034449 WO2010144206A1 (en) 2009-06-11 2010-05-11 Media identification system with fingerprint database balanced according to search loads

Publications (1)

Publication Number Publication Date
JP2012529704A true JP2012529704A (ja) 2012-11-22

Family

ID=43307287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012514967A Pending JP2012529704A (ja) 2009-06-11 2010-05-11 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム

Country Status (7)

Country Link
US (2) US8713068B2 (ja)
EP (1) EP2441009B1 (ja)
JP (1) JP2012529704A (ja)
KR (2) KR20120018226A (ja)
CN (1) CN102483731B (ja)
HK (1) HK1167484A1 (ja)
WO (1) WO2010144206A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526137A (ja) * 2016-06-27 2019-09-12 フェイスブック,インク. 一致するコンテンツを特定するためのシステムおよび方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8295363B2 (en) * 2007-09-14 2012-10-23 Yahoo! Inc. Restoring program information for clips of broadcast programs shared online
US8966571B2 (en) * 2012-04-03 2015-02-24 Google Inc. Detection of potentially copyrighted content in user-initiated live streams
US9087055B2 (en) * 2013-01-28 2015-07-21 International Business Machines Corporation Segmenting documents within a full text index
US9269022B2 (en) 2013-04-11 2016-02-23 Digimarc Corporation Methods for object recognition and related arrangements
KR101456926B1 (ko) * 2013-06-14 2014-10-31 (주)엔써즈 핑거프린트에 기반한 광고 검출 시스템 및 방법
JP2015170101A (ja) 2014-03-06 2015-09-28 富士通株式会社 生体認証装置、方法及びプログラム
US9589143B2 (en) * 2014-04-17 2017-03-07 Xerox Corporation Semi-trusted Data-as-a-Service platform
KR101601707B1 (ko) 2014-09-15 2016-03-09 현대오트론 주식회사 클러치의 터치포인트 탐색 방법 및 장치
US9805099B2 (en) * 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US10503717B1 (en) 2014-12-30 2019-12-10 EMC IP Holding Company LLC Method for locating data on a deduplicated storage system using a SSD cache index
US10248677B1 (en) 2014-12-30 2019-04-02 EMC IP Holding Company LLC Scaling an SSD index on a deduplicated storage system
US11113237B1 (en) 2014-12-30 2021-09-07 EMC IP Holding Company LLC Solid state cache index for a deduplicate storage system
US10204002B1 (en) 2014-12-30 2019-02-12 EMC IP Holding Company LLC Method for maintaining a cache index on a deduplicated storage system
US10175894B1 (en) 2014-12-30 2019-01-08 EMC IP Holding Company LLC Method for populating a cache index on a deduplicated storage system
US10289307B1 (en) * 2014-12-30 2019-05-14 EMC IP Holding Company LLC Method for handling block errors on a deduplicated storage system
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
US9924222B2 (en) * 2016-02-29 2018-03-20 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on location
US10909173B2 (en) * 2016-12-09 2021-02-02 The Nielsen Company (Us), Llc Scalable architectures for reference signature matching and updating
CN106791990B (zh) * 2016-12-19 2019-09-17 尚云(广州)信息科技有限公司 一种基于媒体内容识别实现资源分配的计算机网络系统
WO2018157145A1 (en) * 2017-02-27 2018-08-30 Timescale, Inc. Scalable database system for querying time-series data
US20180285563A1 (en) * 2017-03-31 2018-10-04 Intel Corporation Techniques for service assurance using fingerprints associated with executing virtualized applications
US10721248B2 (en) * 2017-12-07 2020-07-21 Mcafee, Llc Methods, systems and apparatus to mitigate steganography-based malware attacks
US11474987B1 (en) * 2018-11-15 2022-10-18 Palantir Technologies Inc. Image analysis interface
US20210034586A1 (en) * 2019-08-02 2021-02-04 Timescale, Inc. Compressing data in database systems using hybrid row/column storage representations
US11995084B1 (en) 2023-10-05 2024-05-28 Timescale, Inc. Database system for querying time-series data stored in a tiered storage using a cloud platform

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0473251U (ja) * 1990-10-25 1992-06-26
JP2007065659A (ja) * 2005-09-01 2007-03-15 Seet Internet Ventures Inc オーディオ信号からの特徴的な指紋の抽出とマッチング
WO2009026564A1 (en) * 2007-08-22 2009-02-26 Google Inc. Detection and classification of matches between time-based media

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6181867B1 (en) * 1995-06-07 2001-01-30 Intervu, Inc. Video storage and retrieval system
US5841888A (en) * 1996-01-23 1998-11-24 Harris Corporation Method for fingerprint indexing and searching
US7174293B2 (en) 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7062504B2 (en) * 2002-04-25 2006-06-13 The Regents Of The University Of California Creating ensembles of oblique decision trees with evolutionary algorithms and sampling
US7110338B2 (en) 2002-08-06 2006-09-19 Matsushita Electric Industrial Co., Ltd. Apparatus and method for fingerprinting digital media
US7225197B2 (en) 2002-10-31 2007-05-29 Elecdecom, Inc. Data entry, cross reference database and search systems and methods thereof
US20040260682A1 (en) * 2003-06-19 2004-12-23 Microsoft Corporation System and method for identifying content and managing information corresponding to objects in a signal
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
US7444389B2 (en) * 2003-12-09 2008-10-28 Emc Corporation Methods and apparatus for generating a content address to indicate data units written to a storage system proximate in time
US20050203881A1 (en) 2004-03-09 2005-09-15 Akio Sakamoto Database user behavior monitor system and method
US20050267750A1 (en) * 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
KR100676863B1 (ko) 2004-08-31 2007-02-02 주식회사 코난테크놀로지 음악 검색 서비스 제공 시스템 및 방법
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
US7779045B2 (en) * 2007-09-27 2010-08-17 Microsoft Corporation Lazy updates to indexes in a database
CN101470896A (zh) * 2007-12-24 2009-07-01 南京理工大学 基于视频分析的机动目标飞行模式预测方法
US20090327334A1 (en) * 2008-06-30 2009-12-31 Rodriguez Arturo A Generating Measures of Video Sequences to Detect Unauthorized Use

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0473251U (ja) * 1990-10-25 1992-06-26
JP2007065659A (ja) * 2005-09-01 2007-03-15 Seet Internet Ventures Inc オーディオ信号からの特徴的な指紋の抽出とマッチング
WO2009026564A1 (en) * 2007-08-22 2009-02-26 Google Inc. Detection and classification of matches between time-based media
JP2010537585A (ja) * 2007-08-22 2010-12-02 グーグル インク. 時間ベースメディア間の一致の検出と分類

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526137A (ja) * 2016-06-27 2019-09-12 フェイスブック,インク. 一致するコンテンツを特定するためのシステムおよび方法
US11030462B2 (en) 2016-06-27 2021-06-08 Facebook, Inc. Systems and methods for storing content

Also Published As

Publication number Publication date
US20100318587A1 (en) 2010-12-16
CN102483731B (zh) 2015-11-25
US9292514B2 (en) 2016-03-22
US20140236952A1 (en) 2014-08-21
CN102483731A (zh) 2012-05-30
WO2010144206A1 (en) 2010-12-16
HK1167484A1 (zh) 2012-11-30
EP2441009A1 (en) 2012-04-18
KR20120018226A (ko) 2012-02-29
EP2441009B1 (en) 2019-07-24
KR20140121886A (ko) 2014-10-16
EP2441009A4 (en) 2016-09-07
US8713068B2 (en) 2014-04-29
KR101609088B1 (ko) 2016-04-20

Similar Documents

Publication Publication Date Title
JP2012529704A (ja) 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム
Loni et al. Bayesian personalized ranking with multi-channel user feedback
US9405746B2 (en) User behavior models based on source domain
US8977660B1 (en) Multi-level distributed hash table for data storage in a hierarchically arranged network
US8977623B2 (en) Method and system for search engine indexing and searching using the index
US8468146B2 (en) System and method for creating search index on cloud database
US20090187588A1 (en) Distributed indexing of file content
US9207964B1 (en) Distributed batch matching of videos with dynamic resource allocation based on global score and prioritized scheduling score in a heterogeneous computing environment
JP2013536491A (ja) ビデオコンテンツを管理するための方法および装置
CN108228799B (zh) 对象索引信息的存储方法及装置
US20150019680A1 (en) Systems and Methods for Consistent Hashing Using Multiple Hash Rlngs
EP2100239A1 (en) Arrangement for comparing content identifiers of files
CN108062384A (zh) 数据检索的方法和装置
US20190362010A1 (en) Epsilon-closure for frequent pattern analysis
US10147095B2 (en) Chain understanding in search
US20160085795A1 (en) Grouping equivalent content items
US11163801B2 (en) Execution of queries in relational databases
CN110909266B (zh) 深度分页的方法、装置及服务器
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
US9471663B1 (en) Classification of media in a media sharing system
Wang et al. Turbo: Dynamic and decentralized global analytics via machine learning
US11514095B2 (en) Tiered retrieval of secured documents
US20210326908A1 (en) Guiding acquisition of information in a social network
US11120054B2 (en) Hierarchical label generation for data entries
CN116049314A (zh) 一种数据获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130930