JP5341095B2 - メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント - Google Patents

メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント Download PDF

Info

Publication number
JP5341095B2
JP5341095B2 JP2010528212A JP2010528212A JP5341095B2 JP 5341095 B2 JP5341095 B2 JP 5341095B2 JP 2010528212 A JP2010528212 A JP 2010528212A JP 2010528212 A JP2010528212 A JP 2010528212A JP 5341095 B2 JP5341095 B2 JP 5341095B2
Authority
JP
Japan
Prior art keywords
representation
video
content
media
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010528212A
Other languages
English (en)
Other versions
JP2011511489A (ja
Inventor
ラダクリシュナン、レグナタン
バウアー、クラウス
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2008/005588 external-priority patent/WO2008143768A1/en
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2011511489A publication Critical patent/JP2011511489A/ja
Application granted granted Critical
Publication of JP5341095B2 publication Critical patent/JP5341095B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0051Embedding of the watermark in the spatial domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0061Embedding of the watermark in each block of the image, e.g. segmented watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、一般的にメディアに関する。より詳細には、本発明の実施の形態は、メディア・コンテンツに信頼性よく対応するメディア・フィンガープリントに関する。
メディア・コンテンツは、少なくとも1つのメディアで統合され、保管され、変換され、受信され、処理され、そして使用される情報である。たとえば、オーディオ情報コンテンツはオーディオメディアに関連し、ビデオ情報コンテンツはビデオメディアに関連する。ビデオメディアはビデオ情報コンテンツに加え、関連するオーディオ情報コンテンツを有してもよく、よって、少なくとも時々は、オーディオ/ビジュアル(AV)メディアあるいはいわゆるマルチメディア、混合メディア等の例とみなされる。本書では、用語「メディア・コンテンツ」、「情報コンテンツ」および「コンテンツ」は、同じ意味で用いられる。
メディア・コンテンツは対応する表現に関連する。メディア・コンテンツのいくつかの表現は、そのメディア・コンテンツ内の、またはその一部を備える情報から導き出される(たとえば、計算され、抽出される)。メディア・フィンガープリントは、対応するメディアの情報コンテンツのエッセンスを統合または獲得し、それで一意的に識別される。メディア・フィンガープリントは、ときにはメディア・シグネチャあるいはメディア・シグネチャのストリームとも称され、メディア・コンテンツ表現の例である。ビデオ・フィンガープリントは、ビデオメディアから導き出されるメディア・フィンガープリントである。オーディオ(音響の)フィンガープリントは、オーディオメディア・コンテンツ(ビデオメディア内のオーディオメディア・コンテンツを含んで)から導き出されるメディア・フィンガープリントである。本書では、用語「メディア・フィンガープリント」は、それが関連し、導き出されるメディア・コンテンツの低ビットレートの表現を指す。
このセクションで説明するアプローチは、たどることができるアプローチであるが、既に考えられまたはたどられたアプローチでは必ずしもない。したがって、特に示されない限り、このセクションで説明されるアプローチは、このセクションに含まれるという理由だけで、従来技術であると仮定してはならない。同様に、1つ以上のアプローチに関して識別される問題は、特に示されない限り、このセクションに基づいて先行技術で認識されていたと仮定してはならない。
本発明を、添付の図面の図で、限定の目的ではなく、例示の目的で説明し、図中、類似の参照番号は類似の要素を示す。
図1は、本発明の実施の形態による、第1の例のプロシージャを示す。 図2は、本発明の実施の形態による、切り取ったメディア・コンテンツの例を示す。 図3は、本発明の実施の形態による、第2の例のプロシージャを示す。 図4は、コンピュータシステム・プラットフォームの例を示し、本発明の実施の形態は、それで実行される。 図5は、集積回路(IC)デバイスの例を示し、本発明の実施の形態は、それで実行される。 図6は、本発明の実施の形態による、ビデオ信号の信頼性のある識別を獲得するのに用いられるビデオ・シグネチャ生成装置の概略的ブロック図である。 図7は、本発明の実施の形態による、ビデオ信号の信頼性のある識別を獲得するのに用いられるビデオ・シグネチャ生成装置の概略的ブロック図である。 図8は、イメージ・プリプロセッサで実施されるプロセスの概略的ブロック図である。 図9は、本発明の実施の形態による、空間領域プロセッサにより獲得される低解像度イメージの概略的ブロック図である。 図10は、本発明の実施の形態による、セグメントに配置されたビデオフレームの概略的ブロック図である。 図11は、本発明の実施の形態による、1セットのビデオ・シグネチャを生成するビデオコンテンツのセグメントを処理するビデオ・シグネチャ生成装置の概略的ブロック図である。 図12は、本発明の実施の形態による、ビデオコンテンツのコピー検出用のシグネチャデータベースを管理するシステムの概略的ブロック図である。 図13は、本発明の種々の態様を実施するのに用いられる装置の概略的ブロック図である。
信頼性よくメディア・コンテンツに対応するメディア・フィンガープリントに関連する実施の形態の例を、本書で説明する。以下の説明では、説明のために、本発明を十分に理解できるように多くの特定な詳細が説明される。しかし、本発明がそれらの詳細なしでも実施できることは明らかであろう。別の例では、周知の構造や装置は、不必要に本発明を隠したり、ぼかしたり、わかりにくくしたりしないように、完全に詳細には説明しない。
メディア・コンテンツに信頼性よく対応するメディア・フィンガープリントに関連する本発明の実施の形態の例を説明する。メディア・フィンガープリントを、ビデオ、グラフィカル、およびオーディオビジュアルおよび他のマルチメディアを含む1つ以上のメディアの例を参照して、本書で説明する。本説明におけるメディアの例は、単純化と簡潔な統一性のために選定され、異なると明確に述べない限り、実施の形態を特定のメディアに限定するものと解釈してはならない。本発明の実施の形態は、ビデオ、オーディオビジュアルおよび他のマルチメディア、グラフィカルおよび他のメディアによく適合する。さらに、本発明の実施の形態は、2次元空間または3次元空間で方向付けられたビデオおよびグラフィカル情報を表示するビデオメディアの機能とよく適合する。
[実施の形態の例の概要]
この概要では、本発明の実施の形態のいくつかの態様の基本を説明する。この概要は、実施の形態の態様の広範囲または包括的なまとめではないことに留意願う。さらに、この概要は、実施の形態の具体的に重要な態様や要素を識別したり、詳細に実施の形態の範囲や、概略的に本発明を説明したりする意図はないことに留意願う。この概要は、要約し単純化した形式で実施の形態の例に関連する概念を単に提供するだけであり、以下に続く実施の形態の例のより詳細な説明に対する単なる概念的な前置きであると理解すべきである。
メディア・コンテンツのシーケンスにおいてコンテンツ部分の時間的に関連するグループのメディア・コンテンツの一部の最初の表現のために、コンテンツ要素の量子化されたエネルギ値のようなピクセル値にアクセスする。量子化されたエネルギ値または他のピクセル値は、最初の表現が分割された領域のマトリックスについて評価される。最初の表現は、低解像度にダウンサンプルされ、メディア・コンテンツ部分から切り取られる。基底ベクトルのセットが、量子化されたエネルギ値または他のピクセル値から、第1次元の空間で推定される。最初の表現は、メディア・コンテンツ部分の次の表現に変換される。次の表現は第2次元の空間にある。次の表現は、推定した基底ベクトルに基づいた、最初の表現の投影を備える。次の表現は、幾何学的方向での任意の変化についてメディア・コンテンツ部分に信頼性よく対応する。最初の表現は、空間的に分散した情報についての変換関数に関する空間の情報を含む。実施の形態は、離散コサイン変換(DCT)、修正離散コサイン変換(MDCTまたはmDCT)、離散フーリエ変換(DFT)、高速フーリエ変換(FFT)および/またはウェーブレット変換を含むが、これらには限定されない変換関数で機能する。
前記パラグラフで説明したプロシージャは、少なくとも時間的に関連したコンテンツ部分のグループの第2のメディア・コンテンツ部分に対して繰り返される。すると、時間的に関連した部分のグループでの第1のコンテンツ部分と第2のコンテンツ部分を分離する時間間隔にわたり第1のコンテンツ部分と第2のコンテンツ部分の第2表現について平均値が計算される。第2表現についての平均値は、メディア・コンテンツのシーケンスの速度の任意の変化にわたる時間的に関連したコンテンツ部分のグループに信頼性よく対応する。実施の一形態では、ビデオメディア・コンテンツ部分は、コンテンツ部分の時間的に関連するグループの、少なくとも1つの次のビデオメディア・コンテンツ部分に関して、ビデオメディア・コンテンツ(の、たとえば時間的に早い部分)での時間窓を備える。よって、変換関数を時間窓に適用し、時間窓でビデオメディア・コンテンツの早い部分(または他の時間窓)と次の部分とを時間的に関連させる。変換関数を適用することにより、時間窓についてビデオコンテンツのイメージの特徴の変化を表現できる。この変換は、トレーニングデータのセットから導き出される、またはトレーニングデータのセットに関連した統計に関連し、トレーニングデータのセットは、多数のサンプルおよびフレームについて収集される。
本発明の実施の一形態により計算される(導き出される、抽出される)メディア・シグネチャは、それが導き出されるメディア・コンテンツ部分に信頼性よく対応する。よって、メディア・フィンガープリントはロバストなコンテンツ部分の識別子と考えられ、その識別子は、メディア・コンテンツに対する種々の信号処理作業に柔軟に対応する力がある。実施の一形態により計算されたメディア・シグネチャは、実質的に、種々の信号処理作業に付されるメディア・コンテンツのロバストな識別子である。そのような信号処理作業は、メディア著作権侵害行為として、おそらく権利や許可なしでコンテンツへのアクセスを実行する、メディア・コンテンツに対する攻撃である。信号処理は、また、あるいは、種々の正規の実施からも得られる(たとえば、映画の宣伝でスタジオでビデオクリップから映画の予告編を製作する)。信号処理機能は、1つ以上の方法でメディア・コンテンツを変更することがある。
たとえば、メディア・コンテンツは、引き延ばしや回転などの幾何学的ゆがみや乱れ、あるいは、圧縮、輝度調整、および、フレーム速度変換や遅い再生および/または再録音などの空間調整や時間操作に付されることにより、変更される。本書では、用語「メディア・シグネチャ」は、ビデオ信号やオーディオ信号の時間的に離散したセグメント(たとえば、塊=チャンク=)のような、コンテンツ部分の表現であるビットストリームを意味する。例示的セグメントのビデオクリップの例は、種々の状態で存在する。第1のビデオクリップの例は、オリジナルの例に関して、ありのままの、実質的に同一の、自然な、または、加工していない状態を有し、よって、本質的に圧縮していないフォーマットで存在する。追加または代替として、同じビデオクリップの第2の例は、H.264/AVC−MPEG4またはMPEG3コーデックに実質的に準拠するエンコーダからのような、オリジナルの例と比較して、圧縮した状態にある。コンテンツおよび関連する基本的信号を表現する実際のビットストリームは、非圧縮のおよび圧縮したフォーマットにより異なり、対応するビデオコンテンツは、多くの実用的目的のために本質的に同一として、自然な、実質的に普通の心理視覚的技能の人間により感知される。多くの最新式オーディオ・コーデックもまた、知覚的に機能する。
実施の一形態は、かなりの類似性を共有する同じメディア・コンテンツの非圧縮および圧縮フォーマットまたはバージョンのそれぞれからのシグネチャを計算する(導き出す、抽出する)ように機能する。そのように計算されたメディア・シグネチャは、それが対応するメディア・コンテンツの核心を信頼性よく捉え、コンテンツのデータの種々の信号処理作業(たとえば、圧縮)に本質的にロバストであり、コンテンツのデータは関連するコンテンツを維持する。さらに、実施の一形態により計算されたシグネチャは、幾何学的攻撃に対して強くロバストである。よって、実施の一形態を用いて、たとえば著作権のあるビデオクリップの修正されたバージョンを識別できる。たとえば、仮説のオリジナルの著作権のあるコンテンツを、圧縮、輝度調整、フレーム速度変換、幾何学的ゆがみなどのような種々の信号処理作業で修正することができる。しかし、計算されたシグネチャとフィンガープリントはそのような処理作業に対してロバストであり、よって、それらが存在すると、あるいは少なくとも部分的にそれらに応答すると、それらが導き出されたコンテンツと関連をなくすことに対してロバストである。よって、実施の一形態は、信号処理による修正を伴っても、オリジナルの著作権のあるコンテンツの正確で精密な識別を、信頼性よく可能にできる。
例示の実施の一形態は、インプットされたビデオ信号についてビデオ信号を時間的に小さな塊に分割するよう機能し、その塊は、オーバーラップしてもしなくてもよい。各ビデオデータの塊に対し、特徴が基本的コンテンツから導き出され、そして基本的コンテンツを表現する。シグネチャ、たとえばコンテンツの相対的に低次元のビットストリーム表現は、そこから形成される。本書では、用語「シグネチャ」は、ビデオの塊のような、メディア・コンテンツ部分に関して、ビデオデータの塊のビットストリーム表現を意味する。本書では、用語「ビデオ・フィンガープリント」は、ビデオファイルまたは他のコンテンツ部分の全シグネチャのセットを意味し、よって、本質的に全体としてのインプットされたビデオ信号に関して適用される。各ビデオの塊のシグネチャは、それぞれが導き出されたコンテンツ部分のインスタンスが種々の信号処理作業に付されるとしても、実質的に類似のままである。よって、実施の一形態は、非圧縮でも圧縮されても、与えられたメディア・コンテンツの種々のインスタンスから導き出された(サンプリングされた、抽出された、計算された)シグネチャの特徴の間に存在する類似性に、少なくとも部分的に基づいて機能する。
[名称、用語、および、プラットフォームの例]
本書では、用語「メディア」(単数および複数)は、データや他の情報の記憶または伝達のための入れ物を意味する。本書では、用語「マルチメディア」は、複数の形式の情報を含むメディアを意味する。マルチメディア情報ファイルは、たとえば、オーディオ、ビデオ、イメージ、グラフィカル、テキスト、アニメーションおよび/または他の情報、およびそれらの種々の組合せを含む。本書では、用語「関連情報」は、情報メディア・コンテンツに何らかで関係する情報を意味する。関連情報は、たとえば、予備的コンテンツを含む。
本書では、用語「導き出す」、「導き出された」、「導き出している」等は、メディア・コンテンツの信号成分をサンプリングし、および/または、サンプルから、対応するユニークなシグネチャまたはフィンガープリントを計算することを意味する。シグネチャまたはフィンガープリトを「抽出する」のような用語もまた、導き出すことを意味する。
本書では、用語「メディア・フィンガープリント」は、その特徴的成分から導き出されたメディア・コンテンツファイルの表現を意味する。メディア・フィンガープリントは、対応するメディア・コンテンツから導き出される(たとえば、計算され、抽出され、生成される等)。本書では、用語「ビデオ・フィンガープリント」は、ある程度詳細にビデオメディアに関連する(ビデオ・フィンガープリントはまた他のメディアにも関連するが)メディア・フィンガープリントを意味する。本書の実施の一形態で用いられるメディア・フィンガープリントは、ビデオ、イメージ、グラフィカル、テキスト、アニメーション・オーディオビジュアルおよび/または他のマルチメディア、他のメディア情報コンテンツ、および/またはそれらの組み合わせに対応し、ある程度詳細に関連するメディアに加え、他のメディアを参照してもよい。
ビデオ・フィンガープリントは、ユニークなデジタルビデオファイルを備え、デジタルビデオファイルの成分はビデオコンテンツの特徴的成分から導き出される(たとえば、計算され、生成され、書かれ、抽出され、そして/または、圧縮される)。導き出されたビデオコンテンツの特徴的成分は、圧縮されて対応するビデオ・フィンガープリントを形成するが、輝度値またはルマ値(luma values)、クロミナンス値またはクロマ値(chroma values)、動作の推定、予想および補償値、等を含むが、これらには限定されない。
よって、本書で説明されるメディア・フィンガープリントは、導き出されたメディア・コンテンツを表現するが、メディア・コンテンツに関連するメタデータあるいは他のタグを備えず、そして(たとえば本書の説明のためにまた説明の文書においては)メタデータあるいは他のタグと混同されるものではない。メディア・フィンガープリントは、それが導き出されたメディア・コンテンツより、低ビットレートで伝達できる。重要なこととして、本書では、「導き出す」、「生成する」、「書く」、「抽出する」および/または「備える」のような用語は、「フィンガープリントを計算する」のようなフレーズと実質的に同様に、メディア・コンテンツ部分からメディア・フィンガープリンを獲得することに関連し、また、このような状況で、同義語としてまたは互換的に用いられる。
よって、これらのおよび類似の用語は、メディア・フィンガープリントの、または、関連するソースメディア・コンテンツとメディア・フィンガープリントの関係に関連する。実施の一形態では、メディア・コンテンツ部分はメディア・フィンガープリントのソースであり、メディア・フィンガープリントは本質的にメディア・コンテンツのユニークな成分を備える。たとえば、ビデオ・フィンガープリントは、ビデオコンテンツのフレーム中のクロミナンスおよび/または輝度に関連する値から導き出される(たとえば、少なくとも部分的に備える)。ビデオ・フィンガープリントはまた(あるいは代替として)、ビデオフレーム中の動作の推定、予想または補償、たとえば動作ベクトルおよび類似の動作関連記述子に関する値を備える。よって、メディア・フィンガープリントは、それが導き出されたメディア・コンテンツ部分をユニークに表現し、識別し、言及しあるいは意味する機能を有する。付随して、本書ではこれらのおよび類似の用語は、メディア・フィンガープリントはメタデータ、タグおよび他の記述子とは区別されることが強調されるものと理解され、メタデータ、タグおよび他の記述子は、ラベル付けしたり説明するためにコンテンツに追加され、その後抽出される。派生的メディア・コンテンツに関する状況では、用語「派生的」または「導き出す」はさらに、メディア・コンテンツのオリジナルの事例以外の事例を表現しまたは備えるメディア・コンテンツに関係してもよい。
[メディア・フィンガープリントの例示的誘導 ]
メディア・シーケンス内のコンテンツは、複数のコンテンツ要素を備える。たとえば、ビデオメディアは、複数のビデオフレームを備える。たとえば一つのビデオメディアを用いる場合、図1は、本発明の一実施形態においてメディアデータのストリームからコンテンツの特徴を抽出するための例示的プロシージャ100を示す。ビデオシーケンスのフレームは、時間とともに流れ、間隔Tintに分割される。1つ以上の時間間隔Tintは、ビデオシーケンスの部分の期間継続する時間の塊Tchunkを備える。各間隔Tintは、間隔Tintの期間継続するビデオコンテンツの部分を備えるビデオフレームF、F、・・・、Fのグループに関連する。
一実施の形態では各時間間隔Tintについてメディア・フィンガープリントを導き出す(たとえば、計算する、抽出する)。間隔Tintは、最小のフレーム速度変換係数から導き出され、そのフレーム速度変換係数においてメディア・シグネチャは、メディア・シグネチャが抽出されたところのオリジナルのメディア・コンテンツのフレームに信頼性よく対応することが期待される。たとえば、オリジナルのビデオシーケンスの速度が30フレーム/秒(fps)で、そのビデオ・フィンガープリントが12fpsまでのフレーム速度変換についてオリジナルのフレームコンテンツに信頼性よく対応することが期待される場合、ビデオ・フィンガープリントは12分の1秒でそれぞれ抽出され、よって、Tint=1/12秒である。実施の一形態は、実質的に所与のメディア要素の速度(例えば、ビデオフレーム速度)やその範囲を限定をすることなく機能することが理解される。
ステップ101で、現在の間隔TintについてのフレームF、F、・・・、Fのグループが選択される。グループF、F、・・・、Fは、間隔Tintについての時間間隔で動作するビデオコンテンツ部分に対応する。よって、フレームのグループF、F、・・・、Fは、Tintの最初の瞬間に先行する1つ以上のフレームを含み得る。TintについてのグループF、F、・・・、Fはまた、Tintの最後の瞬間に後続する1つ以上のフレームを含み得る。
フレームのグループF、F、・・・、Fが所定のフレーム速度で動作する時間間隔の期間は、本書では、時間塊Tchunkと称される。たとえば、現在の間隔Tintは、時間ステップjとして参照される。時間ステップjは、瞬間j−1で始まり、瞬間jまで継続する。時間ステップjについての現在のフレームのグループF、F、・・・、Fは、j−1まで継続する間隔の間に始まり、継続時間Tchunkで瞬間j+1まで継続する間隔の間に終了する。たとえば、ステップ101は、時間塊Tchunkが時間ステップjについて2秒間動作するフレームのグループF、F、・・・、Fに対応するように実行され、フレームのグループF、F、・・・、Fは、30fpsのフレーム速度で動作するインプットされたビデオの部分またはシーケンスを備える。フレームF、F、・・・、Fの1つ以上は、複数の時間間隔Tintにオーバーラップし得る。
ステップ102では、インプットされたビデオストリームは、時間的にダウンサンプルされる。前記の例を続けると、30fpsのフレーム速度でインプットされたビデオは、フレームを落とすことで12fpsのような低フレーム速度にダウンサンプルされる。フレーム速度が15fpsでインプットされるビデオは、同様にフレームを落として12fpsにダウンサンプルすることができる。落とされるフレーム数は、異なったフレーム速度の違ったビデオストリームをダウンサンプルする点で異なる。フレームは、Tchunkに対応するグループでのフレーム数がNのままであるように、どんなフレーム速度でインプットされたビデオでも時間的にダウンサンプルして落としてよい。N=24とすると、インプットされたビデオは、選定されたフレームのグループF、F、・・・、Fが24フレームを維持するように、時間的にダウンサンプルされる。
chunkの値は、プロシージャ300により計算されたメディア・フィンガープリントが、オリジナルのメディア・コンテンツからフレーム速度変換のようなビデオ処理作業を経て導き出されるときに、オリジナルのメディア・コンテンツに対応することに対する信頼性のレベルに関係する。たとえば、時間間隔Tintは2秒の値で実行され、Tchunkは3秒の値で実行される。この例では、TchunkはTintよりかなり大きい。2つの連続したシグネチャを導き出すのに用いられる時間的に近似したフレームのグループ間で、重複の度合いが高い。時間的に近似したフレームのグループ間で高い重複の度合いは、連続したシグネチャを導き出し、それらは、フレーム速度変換についてオリジナルのフレームの対応において顕著な信頼性を示す。
ステップ103で、フレームF、F、・・・、Fのそれぞれは、空間的にダウンサンプルされる。ステップ104では、空間的にダウンサンプルされたフレームのそれぞれは、切り取られ、一部が対応する表現のイメージになる。各フレームの最初の表現のイメージは、本書では、フレームの第1表現と称される。たとえば、フレームの切り取りは、図1と図2を参照して、実行される。各フレームの最初の表現のイメージは、本書では、フレームの第1表現と称される。
図2は、本発明の実施の一形態によるメディア・コンテンツの切り取り200の例を示す。各フレームイメージFから、ビデオ・シグネチャ生成用にステップ104で領域Aが切り取られる。領域Aは、形態的に実質的に円形でよい。フレームFの幾何学的方向が任意に変化したとき、切り取られた領域Aから得られたビデオ・シグネチャは、Fに整合したままである。たとえば、フレームFは、軸方向に、たとえば領域A内のどこかのピクセル周りに回転してもよい。Fでの幾何学的方向の変化にもかかわらず、領域A内に含まれるピクセルは切り取られたサブイメージ内に留まる。よって、切り取られた領域A内のピクセルは、インプットされたイメージFの全ての回転を切り抜けて残る。
領域Cのピクセルは、幾何学的方向が変わるにつれ、回転してFに関連する表示エリアの外側になる。イメージBからのピクセルはFの幾何学的方向の変化を切り抜けて残るが、実行により領域Bを、イメージ領域のテキスト重複またはコーナー周りのグラフィックスの取り入れ等、他の使用にとっておく。よって、実行により、領域BとCからのピクセル値をゼロに設定し得る。
図1を再度参照して、ステップ105において、それぞれの表現するイメージを複数の領域のマトリックスに分割する。その領域は、表現するイメージの方向に関して水平アスペクトと垂直アスペクトで分割して得られるブロックと一致し得る。その領域はまた、ブロックとは別にまたはこれに加えて、回転面またはゆがむシートのような形状にも一致するようにすることもでき、それらはブロックとはいくらか異なって分割される。
ステップ106において、各領域内のエネルギにアクセスして合計し、合計は量子化合計Qに量子化される。各領域のエネルギは、たとえば、DCTやその変形、たとえば、mDCT、DFT、FFTおよび/またはウェーブレット変換、などのような、高速フーリエ型の変換を用いて合計される。領域のエネルギを合計するのに他の変換法を用いることもできる。量子化された合計は、フレームの第1表現のいくらか粗い表現を備える。図2を再度参照すると、ステップ105または106の1つ以上は領域Aからのピクセルについて効果的に実行される。
から切り取られたサブイメージは、F で表わされる。F はサイズではFに対応するが、Fの領域BおよびCからサンプルされたF 値は、ゼロになされる。F の粗い表現Qは、サイズW*Wのイメージ・ブロックでのピクセル強度を平均することにより求められる。図2を参照すると、表現Qは、垂直スケール120と水平スケール160で実行され、そこではイメージFはM*W=120、M*W=160となるように表示され、ここでQは(M*M)のサイズを有する。よって、たとえば、Qは、下記の式1により計算される。
Figure 0005341095
・・・式1
式1では、「m」と「n」はそれぞれ、イメージF の水平および垂直次元のインデックスを表わし、「k」と「l」は、イメージ表現Qのインデックスを表わす。粗くしたイメージ表現もまた、実行される。たとえば、Qの粗い44*60表現は、Mを値44に、Mを値60にセットすることによりなされる。
基本的に式2により平均することはまた、ダウンサンプルの形式を備え、よって、ステップ304を参照して説明したようにイメージを切り取る前に実施される。記載された例示のパラメータは説明のために選定されたもので、いかなる意味でも限定するものと解釈してはならないことに留意されたい。実施の形態は、パラメータの広く変化する範囲で機能するように適合している。この粗い表現Qは、領域内に存在する変化について領域内の平均強度を保持する。オリジナルのイメージは本質的に、切り取り後(M*M)のサイズのイメージにダウンサイズされる。よって、ステップ303〜306は、より少ない(例えば1)処理ステップで実行できる。さらに、フレームFiの基底ベクトルもまた同様に、より少ないステップで実行できる。たとえば、フレームの基底ベクトルは、オリジナルのフレームから推定され、または、たとえばその表現から、概念的に推定される。
よって、第1のメディア要素の表現Qは、本質的にダウンサンプルされ切り取られたフレームイメージからの量子化されたエネルギ値であり、グループF、F、・・・、Fのフレームのそれぞれに対しステップ106(またはより少ない処理ステップで)からのアウトプットを備える。ステップ107で、第1のメディア要素の表現Qはバッファリングされる。
ブロック108では、基底ベクトルのセットB、B、・・・、Bが、シーケンスQ、Q、・・・、Qに対して推定される。例示の実施の一形態では、基底ベクトルは、第1のメディア要素表現のシーケンスQ、Q、・・・、Qについて計算される特異値分解(SVD)に基いて推定される。別の実施の一形態では、基底ベクトルはシーケンスQ、Q、・・・、Qに対してなされる他の計算法に基いて推定されてもよい。実施の一形態では、基底ベクトルはグループF、F、・・・、Fのフレームの表現から推定することもできる。たとえば、粗い表現Fを空間領域(Q)で用いてもよい。代替としてまたは追加で、基底ベクトルは、DCT、mDCT、DFT、FFTまたはウェーブレット変換表現などの変換領域表現から推定してもよい。
ステップ109において、Qの座標は新しい空間にて得られ、新しい空間はQを各基底ベクトルに投影することによりB、B、・・・、Bにより長さを測られる。投影は、行列Qis=(Q ,1,Q ,2,・・・,Q ,N)として表現される。Qは、M*Mの次元のベクトルを備えるが、B、B、・・・、Bにより長さを測られる新しい空間ではN次元のベクトルであるQisにより表現されることに気付くであろう。よって、実施の一形態では第1のメディア要素の表現を新しい次元空間での第2のメディア要素の表現に、推定した基底ベクトルに基づいて第1のメディア要素の表現を投影することにより、変換する。新しい次元空間は、そのオリジナルの次元空間に関してユニークである。
さらに、第2のメディア要素の表現は、オリジナルのメディア・コンテンツ部分の幾何学的方向を任意に変更してもオリジナルのメディアに信頼性よく対応する。基底ベクトルB、B、・・・、Bは、Q、Q、・・・、Qから推定される。よって、オリジナルのビデオコンテンツが空間的回転、アスペクト比の変化、垂直または水平方向(または、2空間次元より大きな空間次元で表示されるメディアでは、垂直または水平方向の少なくとも1方向に垂直な第3の方向)での並進的移動、幾何学的方向のアフィン・ワープや他の変化をする場合、各メディア要素の表現Qは、そこから得られる基底ベクトルがするように、対応する変化をする。
、Q、・・・、Qから基底ベクトルB、B、・・・、Bを求めることは、行列Yを作ることで実行される。行列Yの各列(j)は、フレームQを表す。行列Yの行の数は(M*M)であり、行ごとにスキャンされたQの要素数である。行列Yの次元は、(M*M)×Nである。行列Yの階数は、最大でNに等しい値である。基底ベクトルB、B、・・・、Bは、行列Yの特異値分解(SVD)を用いて計算できる。行列YのSVDの計算は、たとえば下記の式2により、実行することができる。
Figure 0005341095
・・・式2
式2では、Uは次元(M*M)×Nであり、Sは次元N×Nであり、Vは次元N×Nである。Uの列は基底ベクトルB、B、・・・、Bを備える。基底ベクトルは、基本的に行列積YYを対角化し、Yの列の長さの変換を備える。Sは、大きさを下げるように単一の値の対角行列を備える。Vの列は、YYを対角化し、Yの列に及ぶ変換の基底ベクトルを備える。
基底ベクトルB、B、・・・、Bを求める際、たとえば、SVDの計算で、Qの座標は、たとえば、下記の式3により、新しい変換された空間QiSで計算される。
Figure 0005341095
・・・式3
次元(M*M)×1のベクトルQiVは、次元M*Mの行列Qから計算される。ベクトルQiVを計算することは、行列の全体を行ごとに調べることにより行うことができる。
積Q は、オリジナルのメディア・コンテンツの幾何学的方向の変化において対応するメディア要素の表現Qを信頼性よく表現する。よって、積Q は、第1のメディア要素の表現Qの第2表現を備える。第2表現Q は、本質的に、幾何学的メディア・コンテンツの変化に対し不変である。
ステップ110で、新しい座標Q について時間平均が計算される。時間的に平均された座標Q は、ビデオシーケンスでの速度変化について、オリジナルのメディア・コンテンツに信頼性よく対応する。よって、Q は、幾何学的変化に加え、フレーム速度変換にもロバストである。シーケンスQ 、Q 、・・・、Q の時間平均Gの計算は、たとえば下記の式4により、行うことができる。
Figure 0005341095
・・・式4
実施の一形態では、ビデオメディア・コンテンツ部分は、コンテンツ部分の時間的に関連したグループの、少なくとも1つの次のビデオメディア・コンテンツ部分に関係した、ビデオメディア・コンテンツ(の、たとえば時間的に早い部分)における時間窓を備える。よって、ビデオメディア・コンテンツの早い部分(または別の時間窓)と次の部分とが時間について関係付けられる時間窓に変換関数を適用する。変換関数を適用することで、時間窓におけるビデオコンテンツのイメージの特徴の変化の記述が可能となる。この変換の基礎は、複数のサンプルとフレームで集めたトレーニングデータのセットから導き出せ、または、トレーニングデータのセットと関連する統計に関係する。
ステップ111で、現在の時間ステップについてのN個の投影の時間平均を有する、Gの第1のL値が選定され、R×Lのサイズを有するバッファDに保存される。バッファDは、R個の最近の時間ステップについてのGの最高L値を保持する。よって、バッファDは、時間についてGの最高L値の変動を捕捉できる。Gについての値のサブセットを、R個の最近の時間ステップについての行列Dとしてバッファに保存する。
ステップ112において、シグネチャビットが行列Dについて生成される。シグネチャビットの生成は、行列Dと同じ次元を有するK個のベクトルP、P、・・・、Pの生成で行われる。行列Dは、下記の式5により、K個のベクトルのセットに投影される。
Figure 0005341095
・・・式5
シグネチャビットは、K個の投影を閾値とすることにより導き出される。図3は、本発明の実施の一形態が機能する擬似ベクトルへの投影に基づいてハッシュビットを生成するプロシージャ300を示す。K個のベクトルP、P、・・・、Pのセットに基づく投影は、行列Dの別の態様を捕捉する。たとえば、K個のベクトルのいずれか2個が類似しているならば、K個のビットからの2ビットは同一である。よって、K個の直交基底ベクトルのセットが用いられる。あるいは、K個の擬似ランダムベクトルは互いにほぼ直交すると考えられるので、K個の擬似ランダムベクトルのセットを用いてもよい。
個のハッシュビットは、K個の擬似ランダムベクトルへのアダマール積の投影(Hadamard product projections)H、H、・・・、HKに基づいてDから生成できる。1からKに至る数iについて、i番目のシグネチャビットは、HがH、H、・・・、HKのメジアンより大きいと「1」の値にセットされる。しかし、HがH、H、・・・、HKのメジアンより大きくないと、対応するシグネチャビットは「0」の値にセットされる。本質的に同様の方法で、K個のハッシュビットがV個のビットから生成される。
たとえば、対応するオリジナルのビデオコンテンツのフィンガープリントと比較したり、参照したりするのに、修正ビデオコンテンツからビデオ・フィンガープリントを再生する際に、パラメータTchunk、M、M、K、L、Rの値や擬似ランダム行列の値は、本質的に変化しない。
たとえば行列YのSVDを用いて、基底ベクトルB、B、・・・、Bを推定するステップ108は、計算的に集約されている。行列Yは、(M*M)×Nのサイズを有し、行列Yの各列はQの要素を有し、ここでiは1からNに至る値を有する。よって、各々の次の時間ステップに対し、行列Yの第1列は取り除かれ、新しい列が加えられる。前の時間ステップから得られた行列U、SおよびVの増分更新が行われる。前の時間ステップから得られた行列U、SおよびVの増分更新は、各々の現在の時間ステップに対し行列YについてSVDを計算することを不要とする。
行列YについてのSVDでの増分更新は2つの計算作業で行われる。計算作業は、Y+ABの式による行列Yの第1列の削除から始められ、ここで、「A」は(M*M)×1の次元のベクトルを備え、行列Yから削除される第1列の負数に等しく、「B」はN×1の次元のベクトルを備え、[1,0,0,・・・0]に等しい。
行列Yは、上記のようにUSVに等しかった。よって、行列YのSVDを更新して増分更新を実行することは、次のように行われる。ベクトルPは、直交基底ベクトルA−U(UA)を備える。ベクトルA−U(UA)はUに直交するAの成分である。Pの計算は、たとえば下記の式6によるグラム・シュミット直交化法を用いて、QR分解により行われる。式6では、Rは、P(A−U(UA))と等価である。
シグネチャビットを導き出すことは、K個の投影を閾値とすることにより行われる。K個のベクトルP、P、・・・Pのセットに基づく投影は、行列Dの別の態様を捕捉する。
K個の直交基底ベクトルのセットまたはK個の擬似ランダムベクトルのセットが実行される。基底ベクトルに関して直交した方向の、または、K個の擬似ランダムベクトルのセットである、K個のベクトルの実行は、たとえばK個のベクトルのうち類似した2つについて、K個のビットから2つのビットを区別できないことを回避する。K個の擬似ランダムベクトルのセットが実行される場合、K個の擬似ランダムベクトルは互いにほぼ直交していると仮定される。
行列Yは上記のようにUSVに等しかった。よって、行列YのSVDを更新して増分更新を実行することは、次のように行われる。ベクトルPは、直交基底ベクトルA−U(UA)を備える。ベクトルA−U(UA)はUに直交するAの成分である。Pの計算は、たとえば、下記の式6のような、グラム・シュミット直交化法を用いて、QR分解により行われる。式6では、Rは、P(A−U(UA))と等価である。
Figure 0005341095
・・・式6
同様に、ベクトルQは、直交基底ベクトルB−V(VB)を備える。ベクトルB−V(VB)は、Vに直交する基底ベクトルBの成分を備える。Qの計算も、QR分解で行われ、ここで、Rは、Q(B−V(VB))と等価である。
行列Yの第1列の削除は、たとえば下記の式7により、右辺(RHS)のSVDを計算して(Y+AB)のSVDを計算することにより行われる。
Figure 0005341095
・・・式7
式7は、右辺(RHS)のSVDを計算して(Y+AB)のSVDを計算することで十分なことを示唆する。式7のRHS項のSVDがUで与えられる場合、式Y+ABのSVDを更新することは、下記の式8により行われる。
Figure 0005341095
・・・式8
項Uは、式Y+ABの分解を備える。よって、SVDの更新は、式7のRHS項のような、(N+1)×(N+1)の次元を有する行列についてSVDを計算することにより行われる。式7のRHSのSVDの計算は、(M*M)×(N+1)の次元を有する式(Y+AB)のSVDのよりコストの掛かる計算を回避する。例示の実施では、Nは39の値にセットされ、1,360となるところの(34*40)の(M*M)の値と対照的である。しかし、Nについては他の値や範囲が実行できることは明らかである。
上述のように、列を取り除くと、行列YのSVDの増分更新は、行列に新たな列を追加することで行われる。行列Yへの新たな列の追加は、式Y+ABを用いて行われる。項Aは、(M*M)×1の次元を有するベクトルを備え、行列Yに追加される新しい列に基本的に等価である。項Bは、(N+1)×1の次元を有するベクトルを備え、[0,0,0,・・・1]に基本的に等価である。よって、式Y+ABについてSVDを増分更新することは、上記の式6、7、8の1つ以上により行うこともできる。
本発明の例示の実施の一形態を、メディア・コンテンツに信頼性よく対応するメディア・フィンガープリントに関連して上記に説明した。例示の実施の一形態の説明では、たとえば図1と図2を参照して、ビデオメディアを例として用いた。上記のように、ビデオメディアは上記の説明で単純化および単一性のために例示のメディアとして選定されただけであり、別のことが明記された場合を除き、実施の一形態を特定のメディアに制限すると解してはならない。本発明の実施の一形態は、ビデオメディアと同様に、オーディオメディアで機能するのにも適している。
たとえば、実施の一形態は、サウンド、音楽および音声記録のようなオーディオメディアから音響シグネチャや合成音響フィンガープリントを生成するのに適している。オーディオメディアは、ビデオメディアおよび/または他のマルチメディアフォーマットでエンコードされる、たとえば記録されたサウンドトラックのような、ビデオメディアに関連してもよい。
メディア・コンテンツ要素の説明で上記では例としてビデオフレームを用いたが、実施の一形態は、同様に、メディア・コンテンツ・クリップとしてオーディオクリップのオーディオスペクトログラムで機能するのに適している。よって、上記説明のように用いて、オーディオクリップは、時間について流れるオーディオメディア・コンテンツの一部を備える。プロシージャ300をオーディオクリップのスペクトログラムに適用して、対応する音響フィンガープリントを抽出する。全時間ステップTchunkについて、オーディオスペクトログラムに新しいスペクトル表現が加えられ、古いスペクトル表現が取り除かれる。
本実施の一形態によりオーディオスペクトログラムから抽出された音響フィンガープリントは、オーディオピッチシフトや遅いオーディオプレイなどの幾何学的方向における任意の変化についてオーディオスペクトログラムに信頼性よく対応する。たとえば、ピッチシフトの効果は、基本的に周波数次元でのオーディオスペクトログラムの非線形な引き伸ばしであると考えられる。プロシージャ300は、1セットの基底関数を用いて、オーディオデータから推定されるオーディオデータを説明する。このように、プロシージャは、スペクトログラムのゆがみに対して不変のオーディオスペクトログラムから特徴を抽出することを可能にする。
[例示の実施のプラットフォーム]
プロシージャ100や300(それぞれ図1、3)の一部のような、本発明の実施の一形態は、コンピュータシステム、電子回路や電子部品で構成されたシステム、マイクロコントローラのような集積回路(IC)デバイス、フィールド・プログラマブル・ゲート・アレイ(FPGA)、または特定用途向けIC(ASIC)、および/またはそのようなシステム、デバイスまたは部品を1つ以上含む装置で行われる。
図4は、本発明の実施の一形態が実行される例示のコンピュータシステム・プラットフォーム400を示す。コンピュータシステム400は、情報通信のためのバス402または他の通信メカニズム、および、情報処理のためのバス402に接続されたプロセッサ404を含む。コンピュータシステム400はまた、情報やプロセッサ400で実行される命令を記憶するための、ランダムアクセスメモリ(RAM)や他のダイナミック記憶装置のようなメインメモリ406を含む。メインメモリ406は、プロセッサ404で実行される命令の実行中に一時的変数や他の中間的情報を記憶するのにも用いられる。コンピュータシステム400は、静的情報やプロセッサ400用命令を記憶するための、バス402に接続された読み出し専用メモリ(ROM)408または他の静的記憶装置をさらに含む。磁気ディスクや光ディスクなどの記憶装置410が備えられ、情報や命令を記憶するためバス402に接続される。プロセッサ404は、1つ以上のデジタル信号処理機能を実行する。
コンピュータシステム400は、コンピュータユーザに情報を表示するため、バス402経由で、液晶ディスプレイ(LCD)、ブラウン管(CRT)等のようなディスプレイ412に接続される。英数字や他のキーを含む、入力装置414が、情報やコマンド選択をプロセッサ404に通信するためにバス402に接続される。ユーザ入力装置の他のタイプは、指示情報やコマンド選択をプロセッサ404に通信し、ディスプレイ412上のカーソルの動きをコントロールするための、マウス、トラックボール、カーソル指示キーなどのカーソルコントローラ416である。この入力装置は、典型的には第1軸(たとえば、x)と第2軸(たとえばy)の2軸に2自由度を有し、入力装置が平面上の位置を特定することを可能にする。
本発明は、メディア・コンテンツに信頼性よく一致するメディア・フィンガープリントを実行するためのコンピュータシステム400の使用に関する。本発明の実施の一形態によれば、遠隔オブジェクトでクエリを書き換えることが、メインメモリ406に記憶された1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ404に応答して、コンピュータシステム400により提供される。そのような命令は、記憶装置410のような別の機械可読媒体からメインメモリ406に読み込まれる。メインメモリ406に保存された命令のシーケンスを実行すると、プロセッサ404はここで述べた処理ステップを実施する。マルチタスク配置での1つ以上のプロセッサもまた、メインメモリ406に保存された命令のシーケンスを実行するのに用いられる。代替の実施の一形態では、本発明を実行するソフトウェアの命令の代わりに、または組み合わせて、固定シーケンスの回路を用いてもよい。よって、本発明の実施の一形態は、ハードウェアの回路とソフトウェアとのいかなる特定の組合せに限定されるものではない。
本書で用いる用語「機械可読媒体」は、機械を特定の方法で作動するデータを提供するのに関与するいかなる媒体をも意味する。コンピュータシステム400を用いて実行される実施の一形態では、たとえば、実行用にプロセッサ404に命令を提供するのに、種々の機械可読媒体が含まれる。そのような媒体は、多くの形をとり、不揮発性記憶媒体、揮発性媒体および伝送媒体を含むが、これらには限定されない。記憶媒体には、不揮発性媒体と揮発性媒体とを含む。不揮発性媒体には、たとえば、記憶装置410のような、光または磁気ディスクを含む。揮発性媒体には、メインメモリ406のような、ダイナミックメモリを含む。伝送媒体には、バス402を備えるワイヤを含むところの、同軸ケーブル、銅線および他の導体や光ファイバーを含む。伝送媒体は、電波および赤外線データ通信の間に生ずるもののような、音波や光波の形を取ることもできる。そのような媒体のすべては、メディアにより送られる命令が、その命令を機械に読み込む物理的メカニズムにより検知できるように、実体的でなければならない。
機械可読媒体の一般的な形には、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープまたは他の磁気媒体、CD−ROM、他の光学媒体、パンチカード、紙テープまたは孔のパターンを有する他のレガシーもしくは他の物理媒体、RAM、PROMおよびEPROM、フラッシュEPROM、他のメモリチップもしくはカートリッジ、後述する搬送波、または、コンピュータが読むことができる他の媒体を含む。
実行用にプロセッサ404に1つ以上の命令の1つ以上のシーケンスを運ぶのに、種々の形のコンピュータ可読媒体が含まれる。たとえば、初めには命令は遠隔コンピュータの磁気ディスクで送られた。遠隔コンピュータはその命令をダイナミックメモリに取り込み、モデムを用いて電話線で送信できる。コンピュータシステム400でしか使えないモデムは、電話線のデータを受信し、赤外線送信機を用いて信号を赤外線信号に変換する。バス402に接続された赤外線検出器は、赤外線信号で送られたデータを受信し、データをバス402に載せる。バス402は、データをメインメモリ406に送り、そこからプロセッサ404は命令を取り出し、実行する。オプションとして、メインメモリ406が受信した命令は、プロセッサ404での実行前もしくは後のいずれかに記憶装置410に記憶される。
コンピュータシステム400はまた、バス402に接続される通信インターフェース418を含む。通信インターフェース418は、ローカルネットワーク422に接続されたネットワークリンク420に双方向データ通信結合を提供する。たとえば、通信インターフェース418は、総合デジタル通信網(ISDN)またはデジタル加入者回線(DSL)、対応するタイプの電話回線にデータ通信接続を提供する他のモデムである。別の例として、通信インターフェース418は、互換性のあるローカルエリアネットワーク(LAN)へのデータ通信接続を提供するLANカードでもよい。無線リンクもまた、行うことができる。そのような実施において、通信インターフェース418は、種々のタイプの情報を表現するデジタルデータストリームを搬送する電気、電磁または光学信号を送受信する。
ネットワークリンク420は、典型的には、1つ以上のネットワークを通じて他のデータデバイスへのデータ通信を提供する。たとえば、ネットワークリンク420は、ローカルネットワーク422を通じて、ホストコンピュータ424またはインターネットサービスプロバイダ(ISP)426により運営されるデータ機器への接続を提供する。ISP426は順に、今一般的に「インターネット」428と呼ばれるワールドワイド・パケットデータ通信ネットワークを通じて、データ通信サービスを提供する。ローカルネットワーク422とインターネット428は共に、デジタルデータストリームを搬送する電気、電磁または光学信号を用いる。デジタルデータをコンピュータシステム400から、およびコンピュータシステム400へ運ぶ、種々のネットワークを通じての信号およびネットワークリンク420上のまた通信インターフェース418を通じての信号は、情報を運ぶ搬送波の例示的な形である。
コンピュータシステム400は、プログラムコードを含み、ネットワーク(単数および複数)、ネットワークリンク420および通信インターフェース418を通じて、メッセージを送信し、データを受信できる。インターネットの例では、サーバ430は、インターネット428、ISP426、ローカルネットワーク422および通信インターフェース418を通じて、アプリケーションプログラム用に要求されたコードを伝達してもよい。本発明によれば、そのようにダウンロードされたアプリケーションは、本書で説明するように、メディア・コンテンツに信頼性よく一致するメディア・フィンガープリントの実行を提供する。
受信したコードは、受信されるとプロセッサ404で実行され、および/または、後に実行するために記憶装置410もしくは他の不揮発性記憶装置に記憶される。この方法により、コンピュータシステム400は、搬送波の形でアプリケーションコードを獲得する。
図5は、本発明の実施の一形態を実行する例示のICデバイス500を示す。ICデバイス500は、インプット/アウトプット(I/O)機構501を有する。I/O機構501は、インプット信号を受信し、それらをルーティング構成510経由で中央処理装置(CPU)502へ送り、CPU502は記憶装置503と一緒に機能する。I/O機構501はまた、ICデバイス500の他の構成からアウトプット信号を受信し、ルーティング構成510について信号フローの一部をコントロールできる。
デジタル信号処理(DSP)機構は、少なくともデジタル信号処理に関する機能を実施する。インターフェース505は、外部信号にアクセスし、それらをI/O機構501へ送り、ICデバイス500が信号をエクスポートできるようにする。ルーティング構成510は、ICデバイス500の種々の構成間で信号と電力を送る。
論理ゲートアレイのような、設定可能な、および/または、プログラム可能な処理要素(CPPE)511は、ICデバイス500の専用機能を実施し、実施の一形態では、メディア・コンテンツに信頼性よく一致するメディア・フィンガープリントを抽出し処理することに関連する。記憶装置512は、十分なメモリセルをCPPE511専用とし、効率的に機能する。CPPEは1つ以上の専用DSP機構514を含んでもよい。
[例示のビデオ・シグネチャ生成]
図6は、信号セグメント3のビデオコンテンツを分析してそのコンテンツを識別または表現するビデオ・シグネチャ193を生成するビデオ・シグネチャ・エクストラクタ600の概略的ブロック図を示す。図示の例では、信号セグメント3は一連のビデオフレーム3a〜3dを含む。ビデオ信号が、ビデオコンテンツに加えオーディオコンテンツも搬送するなら、オーディオコンテンツを表現するオーディオシグネチャが、オーディオコンテンツを様々な方法で処理することにより得られる。
[ビデオ・シグネチャ・エクストラクタ]
ビデオ・シグネチャ・ジェネレータ600を図7に図示する。この実施では、イメージ・プリプロセッサ610は、フレーム3a、3b、3c、3dで搬送される画像用の一連のフォーマットに依存しないイメージを獲得する。空間領域プロセッサ630は、フォーマットに依存しないイメージをダウンサンプルして、フォーマットに依存しないイメージの一連の低解像度の表現を生成する。時間領域プロセッサ650は、一連の低解像度の表現の合成を表現する値を生成する。そして、ビデオ・シグネチャプロセッサ670は、ハッシュ関数を合成値に適用して信号セグメント3のコンテンツを表現し識別するビデオ・シグネチャ193を生成する。プロセッサ610、630、650、670で実施される処理は、種々の方法で実行できる。これらの処理の好適な実行を以下に説明する。
[イメージ・プリプロセッサ]
一つの例示の実行では、信号セグメント3の各ビデオフレーム3a、3b、3c、3dは、ピクセルDのアレイで表現される画像を搬送する。イメージ・プリプロセッサ610は、各フレームの画像のフォーマットに依存しないイメージを導き出す。フォーマットに依存しないイメージはピクセルFのアレイによって表現される。フォーマットに依存しないイメージの誘導は色々な方法で行われる。いくつかの例を以下に説明する。
ある用途では、ビデオ・シグネチャ・ジェネレータ600は、480×640ピクセルの標準画質(SD)解像度および1080×1920ピクセルの高画質(HD)解像度の順次走査および飛び越し走査を含む種々のフォーマットのビデオコンテンツを搬送するテレビビデオ信号用シグネチャを生成する。イメージ・プリプロセッサ610は、各フレームの画像を興味のある全ての信号フォーマットに共通のフォーマットを有するフォーマットに依存しないイメージに変換する。好適な実行では、フォーマットに依存しないイメージのピクセルFは、フレーム中のピクセルDをダウンサンプルすることにより得られ、ビデオフレームが異なったフォーマットに変換される時に生ずる変更に対する感度を低減する。
一例では、フォーマットに依存しないイメージの解像度は120×160ピクセルの解像度を有するように選定され、その解像度は、順次走査と飛び越し走査の両方のHDおよびSD解像度のイメージを搬送するテレビ信号用に便利な選択である。イメージ・プリプロセッサ610は、各フレーム画像のピクセルを4の係数でダウンサンプルすることによりSDフォーマットのビデオコンテンツをフォーマットに依存しないイメージに変換する。イメージ・プリプロセッサ610は、各フレーム画像を切り取り、左側縁から240ピクセルと右側縁から240ピクセルと除去して1080×1440ピクセルの解像度の中間イメージを得て、中間イメージのピクセルを9の係数でダウンサンプルすることにより、HDフォーマットのビデオコンテンツをフォーマットに依存しないイメージに変換する。
ビデオ信号が、ビデオのフレームが2フィールドにアレンジされた飛び越し走査フォーマットのコンテンツを搬送するなら、その信号は、フォーマットに依存しないイメージを得る前に順次走査フォーマットに変換される。あるいは、飛び越し走査フォーマットのフィールドの1つだけからフォーマットに依存しないイメージを獲得することにより、走査フォーマットの選択からより大きな独立性が得られる。たとえば、フォーマットに依存しないイメージは、各フレームの第1フィールドだけから、または、各フレームの第2フィールドだけから得ることもできる。他のフィールドのビデオコンテンツは無視される。この処理により、フォーマットに依存しないイメージを得る前に順次走査フォーマットに変換する必要性を回避する。
適切な切り取りとダウンサンプリングを用いるならば、出来たイメージは基本的にフレーム画像フォーマットに依存せず、次のシグネチャ生成プロセスは異なったフォーマットやフォーマット間の変換から生ずる変更に鈍感となる。このアプローチは、画像がフォーマット変換を受けても、一連のフォーマットに依存しないイメージから生ずるビデオ・シグネチャが一連のフレーム画像のビデオコンテンツを正しく識別する可能性を高める。
フォーマットに依存しないイメージは、意図的に変更に影響されるような画像の領域を含まないのが、好ましい。例えばテレビのようなビデオ用途では、このことは、ロゴや他のグラフィカルなオブジェクトがビデオコンテンツに挿入される、イメージの角や縁を含まないように切り取ることによりなされる。
図8は、上記の切り取りおよびダウンサンプル作業を含むイメージ・プリプロセッサ610によってなされるプロセス612によって得られる結果の概略的図を提供する。セグメント3内のフレーム3aの画像は切り取られ、画像の中心部におけるピクセルDを抽出する。この中心部のピクセルDがダウンサンプルされ、フォーマットに依存しないイメージ5aにピクセルFを得る。一連のイメージ5のフォーマットに依存しないイメージ5a、5b、5c、5dが、セグメント3の各フレーム3a、3b、3c、3dに対して得られる。このプロセスは、下記のように表わされる。
{F}=IP[{D}], 0≦m≦M (1)
ここで、{F}=フレームmについてのフォーマットに依存しないイメージのピクセルのセット
IP[ ]=フレームmの画像に適用されるイメージ・プリプロセス作業
{D} =フレームmの画像のピクセルのセット
M =セグメント中のフレームの数
フォーマット変換用に画像のサイズを変更する切り取り作業は、ロゴの挿入のような意図的変更により影響される画像の領域を含まないようにする取り作業と組み合わされ、または、別になされる。切り取り作業は、ダウンサンプル作業の前もしくは後になされる。たとえば、フォーマットに依存しないイメージは、ビデオコンテンツを切り取り、続いて切り取られたイメージをダウンサンプルすることにより得られ、また、ビデオコンテンツをダウンサンプルし、続いてダウンサンプルされたイメージを切り取ることによりなされ、また、上記の2つの切り取り作業の間に行われるダウンサンプル作業により得られる。
各ビデオフレームが、例えば赤、緑、青(RGB)で表現されるピクセルを備えるカラーイメージを搬送するなら、各フレームで赤、緑、青のそれぞれに別のフォーマットに依存しないイメージが得られる。フレームの赤、緑、青の値から導き出されるピクセルの輝度あるいは明るさから、各フレームに1つのフォーマットに依存しないイメージが得られるのが好ましい。各ビデオフレームがモノクロイメージを搬送するなら、そのフレームの個々のピクセルの強度からフォーマットに依存しないイメージが得られる。
[空間領域プロセッサ]
例示の実行では、空間領域プロセッサ630は、GXピクセル幅でGYピクセル高さである領域へフォーマットに依存しないイメージの各々のピクセルFをグループ化することにより、フォーマットに依存しないイメージのダウンサイズされた低解像度の表現を獲得する。画素Eを有する低解像度イメージは、各領域の平均強度を計算することにより、それぞれのフォーマットに依存しないイメージのピクセルFの強度から導き出される。各低解像度イメージは、K×L要素の解像度を有する。このことを、図9に概略的に示す。画素Eは、以下の式を実行するプロセスを行うことにより得られる。
Figure 0005341095
ここで、E(k,l)=フレームmの低解像度イメージでの画素
GX=ピクセルFの数で表されたピクセルグループの幅
GY=ピクセルFの数で表されたピクセルグループの高さ
K=低解像度イメージの水平解像度
L=低解像度イメージの垂直解像度
(i,j)=フレームmのフォーマットに依存しないイメージでのピクセル
グループの水平サイズGXはK・GX=RHとなるように選択され、グループの垂直サイズGYはL・GY=RVとなるように選択され、ここで、RHとRVはそれぞれフォーマットに依存しないイメージの水平および垂直解像度である。120×160ピクセルの解像度のダウンサンプルされたフォーマットに依存しないイメージの要素を生成する上記の例示の実行では、グループのための適当なサイズの一つは8×8であり、低解像度イメージに120/8×160/8=15×20画素の解像度を提供する。
あるいは、空間領域プロセッサ630によりなされるグループ化は、イメージ・プリプロセッサ610によりなされる処理と組み合わされ、または、その処理より前に行われてもよい。
ビデオ・シグネチャを生成するのに、高解像度ピクセルFではなく低解像度画素Eを用いることにより、生成されたビデオ・シグネチャは、ビデオ信号コンテンツの詳細を変更するプロセスには敏感ではなくなるが、平均強度は維持する。
[時間領域プロセッサ]
時間領域プロセッサ650の例示の実行では、一連の低解像度イメージの合成を表現する値は、各画素Eの時間平均および分散から求められる。
各画素E(K,l)の時間平均Z(k,l)は、以下の式から計算できる。
Figure 0005341095
あるいは、信号セグメント3内の選定されたセグメントのビデオコンテンツは、以下の式に示すように、画素の重み付平均から時間平均を計算することにより、より重要性が増されてもよい。
Figure 0005341095
ここで、w=フレームmのビデオコンテンツから導き出された低解像度イメージでの画素に対する重み係数
必要に応じて、式3aまたは3bで表される時間領域処理は、式2で表される空間領域処理の前に行われてもよい。
値Z(k,l)は、時間と空間の双方について各画素E(k,l)の平均強度を表す。したがって、これらの平均値は、信号セグメント3のビデオコンテンツにより表現される動きについてあまり多くの情報を搬送しない。動きの表現は、各画素E(k,l)の分散を計算することにより求められる。
各画素E(k,l)についての平均値Z(k,l)が式3aで示されるように計算されると、それぞれの画素E(k,l)の分散V(k,l)が以下の式で計算される。
Figure 0005341095
各画素の平均値が式3bに示されるように計算されると、それぞれの画素E(k,l)の分散V(k,l)が以下の式で計算される。
Figure 0005341095
好適な実行においては、一連の低解像度イメージの合成を表わす値は、時間平均Zと分散配列Vからそれぞれ導き出される2つの階数行列(rank matrix)ZとVの要素の値である。階数行列の各要素の値は、関連する配列でのそれぞれの要素の順位(rank order)を表す。たとえば、要素Z(2,3)が平均値配列の4番目に大きな要素であると、その階数行列Zでの対応する要素Z(2,3)の値は、4に等しくなる。この好適な実行について、合成値QZとQVは、以下のように表される。
QZ(k,l)=Z(k,l) 0≦k<K;0≦l<L (5)
QV(k,l)=V(k,l) 0≦k<K;0≦l<L (6)
階数行列の使用は、随意である。代替の実行では、一連の低解像度イメージの合成を表す値は、時間平均Zと分散配列Vの要素の値である。この代替の実行について、合成値QZとQVは、以下のように表される。
QZ(k,l)=Z(k,l) 0≦k<K;0≦l<L (7)
QV(k,l)=V(k,l) 0≦k<K;0≦l<L (8)
[ビデオ・シグネチャプロセッサ]
ビデオ・シグネチャプロセッサ670はハッシュ関数を合成値QZとQVのK×L配列に適用して、2セットのハッシュビットを生成する。これら2つのハッシュビットの組み合わせは、信号セグメント3のコンテンツを識別するビデオ・シグネチャを構成する。ハッシュ関数は合成値の変化には相対的に鈍感で、用いられるハッシュキーの変化にはより敏感であることが好ましい。そのインプットの単一ビットの変化にもアウトプットが大きく変化する、典型的な暗号ハッシュ関数と違って、この用途での好適なハッシュ関数は、入力された合成値の小さな変化に対してほんの僅かなしか変化しないアウトプットを提供する。このことにより、生成されたビデオ・シグネチャは、ビデオコンテンツの小さな変化でほんの僅かしか変化しなくなる。
一つの適切なハッシュ関数は、1セットのNの基本行列を用いてQZ合成値用Nのハッシュビットのセットを生成し、1セットのNの基本行列を用いてQV合成値用Nのハッシュビットのセットを生成する。各々の基本行列は、K×Lの要素配列である。これらの要素は、好ましくは互いに直交するまたはほぼ直交する1セットのベクトルを表す。以下に説明する実行では、基本行列の要素は、これらの要素は互いにほぼ直交するベクトルのセットを表すとの仮定の下で乱数発生器により生成される。
合成値QZと用いる各基本行列PZの行列要素pz(k,l)は、以下の式より生成される。
Figure 0005341095
ここで、RNG=乱数発生器のアウトプット
Figure 0005341095
合成値QVと用いる各基本行列PVの行列要素pv(k,l)は、以下の式より生成される。
Figure 0005341095
乱数発生器RNGは、範囲[0,1]に均一に分布する乱数または擬似乱数を発生する。乱数発生器の初期状態は、ハッシュキーにより初期化され、ハッシュ関数と生成されたビデオ・シグネチャを暗号法的により安全にする。
ハッシュビットBZの1セットは、Nz基本行列の各々に合成値QZを先ず投影することにより獲得され、以下のように表される。
Figure 0005341095
ここで、HZ=合成値QZの基本行列PZへの投影
すると、ハッシュビットBZのセットは、各投影を全投影のメジアンと比較し、投影が閾値と等しいか超えるならばハッシュビットを第1の値にセットし、投影が閾値より小さければハッシュビットを第2の値にセットすることにより、求められる。このプロセスの一例は以下のように表される。
Figure 0005341095
ここで、
Figure 0005341095
Figure 0005341095
ハッシュビットBVの別のセットが、次式に示すように同様に求められる。
Figure 0005341095

Figure 0005341095
ここで、HV=合成値QVの基本行列PVへの投影
Figure 0005341095
ビデオ・シグネチャはN+Nに等しい全ビット長を有する値を形成する、2セットのハッシュビットの連結により求められる。NとNの値は、最終的ビデオ・シグネチャに対するQZとQVの合成値の相対的寄与に重み付けするのに加え、所望の全ビット長を提供するようにセットされる。
[用途]
[シグネチャ・セット]
ビデオ・シグネチャ・ジェネレータ600で生成されたシグネチャは、シグネチャが生成されたセグメントのビデオコンテンツを表現する。セグメントよりかなり長い信号のインターバルにおけるビデオコンテンツの信頼性のある識別は、そのインターバルに含まれるセグメントに対しシグネチャのセットを生成することにより得られる。
図10に示す線図は、ビデオフレームのいくつかのセグメントを含む信号のインターバルの概略図である。5つのセグメントが示される。信号の第1セグメント3はビデオフレーム3a〜3dを含む。続く各セグメント4、5、6、7は、それぞれビデオフレーム4a〜4d、5a〜5d、6a〜6d、7a〜7dを含む。下記のように、ビデオ信号ジェネレータ600を用いて各セグメントのビデオフレームのコンテンツを処理することにより、これらのセグメントに対してシグネチャのセットが、生成できる。
各セグメントは、整数のビデオフレームを含む。各セグメントの1連のフレームは、公称長さLに等しいか公称長さLの1フレーム期間内の時間のインターバル間にビデオコンテンツを搬送するのが好ましい。用語「フレーム期間」は、1フレームにより搬送されるビデオコンテンツの継続時間を意味する。次のセグメントに対する公称開始時間t#は、オフセットΔTだけ互いに分離される。このオフセットは、ビデオ・シグネチャ・ジェネレータ600により処理される信号の最低フレーム速度のフレーム期間に等しく設定される。たとえば、処理される最低速度が12フレーム/秒であると、オフセットΔTは1/12秒、すなわち約83.3ミリ秒に等しく設定される。
公称長さLは、フレーム速度変換のようなコンテンツ変更に対する次に生成されるビデオ・シグネチャの感度を下げることと、ビデオ・シグネチャにより提供される表現の時間解像度を高くすることとの競合する利益をバランスするように選択される。経験的な研究によれば、ほぼ2秒のビデオコンテンツに対応する公称セグメント長さLは、多くの用途でよい結果を提供する。
セグメント長さLおよびオフセット量ΔTについて述べた特定の値は、例示に過ぎない。オフセットΔTが、整数のフレーム期間に等しくないと、次のセグメントの実際の開始時間の間のオフセットは、異なったオフセット量Δ1、Δ2により図に示されるように変化する。必要なら、実際の開始時間の間のオフセットの長さは、公称オフセットΔTの1フレーム期間内に保たれる。
図11は、セグメント3〜7のビデオコンテンツから生成されたビデオ・シグネチャ693〜697のセットを示す概略ブロック図である。図10と図11を参照すると、ビデオ・シグネチャ・ジェネレータ600は公称開始時間t1で開始するセグメント3のビデオコンテンツを獲得し、そのビデオコンテンツを処理してビデオ・シグネチャ693を生成する。つぎにビデオ・シグネチャ・ジェネレータ600は、公称開始時間t2で開始するセグメント4のビデオコンテンツを獲得し、そのビデオコンテンツを処理してビデオ・シグネチャ694を生成する。ビデオ・シグネチャ・ジェネレータ600は、公称開始時間t3、t4、t5で始まるセグメント5、6、7のビデオコンテンツを処理することにより、ビデオ・シグネチャ695、696、697を生成し続ける。シグネチャは、基本的に所望のセグメント数に対して生成される。
公称開始時間は、ビデオコンテンツに付随する特定の時間データに対応する必要はない。原則として、公称開始時間とビデオコンテンツ間の調整は、任意である。たとえば、一実行においては、公称開始時間は、処理される信号の開始からの相対的オフセットとして表される。各セグメントは、それぞれの公称開始時間に最も近い開始時間を有するビデオコンテンツを搬送するビデオフレームで始まる。あるいは、各セグメントは、そのセグメントの公称開始時間に及ぶビデオフレームで始まることもできる。基本的に、開始フレームと公称開始時間のいかなる調整を用いてもよい。
[コピーの検出]
ビデオコンテンツのセグメントから生成されたシグネチャ・セットを用いて、上記のプロセスを含む種々のプロセスでコンテンツが修正されたときにでも、コンテンツを識別することができる。修正されたときでも、特定のビデオコンテンツが参照コンテンツのコピーであるかどうかを信頼性よく判定する能力は、下記を含んで種々の方法で用いることができる。
[無許可コピーの検出]
ピアツーピアのサーバのネットワークは、コンテンツの配布を容易にできるが、ピアツーピアのサーバ間には多くのコンテンツのコピーが存在するので、所有権のあるコンテンツの無許可のあるいは海賊版のコピーを検出することの困難性を増大している。ネットワークから入手可能な全コンテンツにシグネチャ・セットを生成し、そのシグネチャ・セットを参照シグネチャ・セットのデータベースに対してチェックすることにより、無許可のコピーがネットワーク内に存在するかを、設備は自動的に判定できる。
[放送の確認]
放送網と契約して特定のコンテンツを配信するビジネスは、放送受信者で受信される信号からシグネチャ・セットを生成し、そのシグネチャ・セットを特定のコンテンツに対する参照シグネチャ・セットと比較することにより契約条件が満たされることを確認することができる。
[受信の識別]
放送網に評価を提供するビジネスは、受信された信号からシグネチャ・セットを生成し、そのシグネチャ・セットを参照シグネチャ・セットと比較することにより、受信者に受信されたコンテンツを識別できる。
図12は、前に列記されたような種々の用途を実行するのに用いられるシステムの概略ブロック図である。ビデオ・シグネチャ・ジェネレータ600は、パス31から受信した参照ビデオコンテンツのストリームから参照ビデオ・シグネチャ・セットを生成する。生成した参照ビデオ・シグネチャ・セットは、シグネチャデータベース680に記憶される。参照シグネチャ・セットは、用途の実行を容易にする他の情報と一緒に記憶されてもよい。たとえば、参照シグネチャ・セットは、基本的コンテンツそのものと一緒に、または、コンテンツの所有者、コンテンツのライセンス条件、コンテンツのタイトルもしくはコンテンツのテキスト記述などのコンテンツに関する情報と一緒に記憶されてもよい。各参照シグネチャ・セットはデータベース検索キーを有する。このキーは、所望されるどのような方法で導き出されてもよい。そのキーは、関連する参照シグネチャ・セットのシグネチャに基づき、または、導き出されるのが好ましい。
いかなる特定のビデオコンテンツも、シグネチャデータベースに保存された1つ以上のシグネチャ・セットにより表される参照コンテンツに対してチェックされる。チェックされるコンテンツを、本書では、テスト・コンテンツとする。テスト・ビデオコンテンツの同一性は、ビデオ・シグネチャ・ジェネレータ601にパス33から受信したテスト・ビデオコンテンツから1つ以上のテスト・ビデオ・シグネチャ・セットを生成させ、テスト・ビデオ・シグネチャ・セットをビデオ検索エンジン685に渡すことによりチェックされる。ビデオ検索エンジン685は、テスト・ビデオ・シグネチャ・セットに正しくまたはほぼマッチする参照ビデオ・シグネチャ・セットをシグネチャデータベース680で見つけようとする。
ある実行では、ビデオ検索エンジン685は、ビデオ・シグネチャ・ジェネレータ601から1つ以上のテスト・シグネチャ・セットを受信する。各テスト・シグネチャ・セットは、テスト・コンテンツから生成された順序で、順序付けされた一連のテスト・シグネチャSTESTを含む。ビデオ検索エンジン685は、シグネチャデータベース680からパス682経由で参照シグネチャ・セットを受信する。各参照シグネチャ・セットは、対応する参照コンテンツから生成された順序で、順序付けされた一連の参照シグネチャSREFを含む。ビデオ検索エンジン685は、テスト・コンテンツに対するテスト・シグネチャ・セットと特定の参照コンテンツに対する参照シグネチャゼットの間の相違点の大きさDSMを計算することにより、テスト・コンテンツと特定の参照コンテンツ間の類似性を判定する。この相違点の大きさDSMは、特定の参照コンテンツに対する参照シグネチャ・セットとテスト・シグネチャ・セットとに対する一連のシグネチャの対応するシグネチャ間のハミング距離から導き出される。この大きさは以下の各式を含め、多くの方法で計算できる。
Figure 0005341095
ここで、DSM=算定された相違点の大きさ
HD[x,y]=シグネチャxとy間のハミング距離
REF(s)=一連の参照シグネチャのs番目のシグネチャ
TEST(s)=一連のテスト・シグネチャのs番目のシグネチャ
ビデオ検索エンジン685は、テスト・シグネチャ・セットと最小の相違点の大きさとなる参照シグネチャ・セットを求めてシグネチャデータベース680を検索する。この参照シグネチャ・セットと関連する参照コンテンツは、テスト・コンテンツと共通起源を持つ、データベース中の最有力候補である。相違点の大きさがある分類閾値より小さいと、そのテスト・シグネチャ・セットに関連するテスト・コンテンツは、一致する参照シグネチャ・セットに関連する参照コンテンツと共通起源を持つ、または、コピーであるとみなされる。経験的な結果では、各シグネチャ・セットの一連のシグネチャが約2秒のビデオコンテンツを表現すれば、種々のビデオコンテンツについてよい結果が得られることが示される。
以下の記述で説明を簡単にするため、テスト・コンテンツと特定の参照コンテンツとは、テスト・コンテンツが特定の参照コンテンツと共通起源を有するならば、「マッチングする」と言う。
上記の分類閾値用に選ばれた値は、テスト・コンテンツと参照コンテンツが互いにマッチングするかマッチングしないかを正しく認識する可能性に影響する。また、誤った判定をする可能性にも影響する。マッチングするコンテンツがマッチングしていないコンテンツに誤って分類される「誤った否定判定」の可能性は、分類閾値の値が低下すると増加する。反対に、マッチングしていないコンテンツがマッチングしているコンテンツと誤って分類される「誤った肯定判定」の可能性は、分類閾値の値が増大すると増加する。
分類閾値は所望の方法で設定できる。分類閾値を設定するのに用いられる1つの方法は、データベース680内の参照シグネチャ・セットにより表されるオリジナルビデオコンテンツを得て、このオリジナルコンテンツのたくさんのコピーを作り出す。コピーは、フレーム速度変換や上述の他の意図的または無意識の修正のいずれかなど、種々の方法で修正される。その方法で、各コピーにテスト・シグネチャ・セットを生成し、テスト・シグネチャ・セットと参照シグネチャ・セット間の相違点の大きさDSMの第1のセットを計算する。その方法でまた、テスト・シグネチャ・セットとオリジナルコンテンツと共通起源を有さない他のビデオコンテンツのシグネチャ・セット間の相違点の大きさDSMの第2のセットを計算する。2つのセットの値の範囲はオーバーラップしなくてもよい。それらがオーバーラップするとしても、オーバーラップの量は、典型的にはそれぞれのセットの値の範囲の極僅かな部分である。分類閾値は、オーバーラップの範囲内または2つのセットがオーバーラップしないならば2つの範囲の間に設定される。この閾値の値は、用途の必要性により調整され、誤った肯定判定または誤った否定判定を引き起こすリスクをバランスする。
[実行]
本発明の種々の態様を具体化するデバイスは、コンピュータや、汎用コンピュータにあるものと類似のコンポーネントに接続されたデジタル信号プロセッサ(DSP)回路などのより特化した構成を含む他のデバイスにより実行されるソフトウェアを含み、様々な方法で実行できる。図13は、本発明の態様を実行するのに用いられるデバイス70の概略ブロック図である。プロセッサ72は、計算資源を提供する。RAM73は、処理のためにプロセッサ72で使用されるシステムランダムアクセスメモリ(RAM)である。ROM74は、デバイス70を作動するのに必要なプログラムを保存し、場合により本発明の種々の態様を実施するための読み取り専用メモリ(ROM)のような固定記憶装置のある形を表す。I/Oコントロール75は、通信チャンネル76、77により信号を受信し送信するインターフェース回路を表す。図示の実施の一形態では、すべての主要な構成はバス71に接続し、バス71は複数の物理的または論理的バスを表すが、バスアーキテクチャは本発明の実行には必要ではない。
汎用コンピュータシステムで実行される実施の一形態では、キーボードまたはマウスとディスプレイのような装置とインターフェースするのに、また、磁気テープや磁気ディスクまたは光媒体などの記憶媒体を有する記憶装置78をコントロールするのに、追加のコンポーネントを含んでもよい。記憶媒体は、オペレーティングシステム、ユティリティ、およびアプリケーションを動作するための命令のプログラムを記録するのに用いられ、本発明の種々の態様を実行するプログラムを含む。
[実施例]
実施の一形態では、方法は以下の工程を備え、命令の1つ以上のシーケンスを持っているコンピュータ可読媒体は、1つ以上のプロセッサで実行されると、その命令により1つ以上のコンピュータに以下の工程を実行させ:a)ビデオメディア・コンテンツのシーケンスにおけるコンテンツ部分の時間的に関連したグループのビデオメディア・コンテンツの部分の第1表現として、前記第1表現が分割される領域の行列についてコンテンツ要素の量子化されたエネルギ値にアクセスする工程と、b)前記量子化された第1次元空間で基底ベクトルのセットを推定する工程と、c)前記第1表現を、第2次元の空間でのビデオメディア・コンテンツ部分の第2表現に変換する工程であって、第2表現は前記推定した基底ベクトルに基づいた前記第1表現の投影を備え、メディア・フィンガープリントが、少なくとも部分的に前記第2表現に基づいて導き出される。
実施の一形態では、方法またはコンピュータ可読媒体は、前記第2表現は、幾何学的方向の任意の変化について信頼性よく前記ビデオメディア・コンテンツ部分に対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、前記ビデオメディア・コンテンツ部分に関連する解像度より低い解像度に前記第1表現をダウンサンプルすることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、前記第1表現が前記メディア・コンテンツ部分から切り取られることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、前記メディア・コンテンツ部分の前記第1表現が、次のうちの1つ以上と関連することを、さらに備える:
前記シーケンスの1つ以上のビデオフレームの少なくとも1つのセクションと関連する空間領域表現、または、前記シーケンスの1つ以上のビデオフレームの少なくとも1つのセクションと関連する変換された表現。
実施の一形態では、方法またはコンピュータ可読媒体は、空間領域表現は、前記ビデオフレームに関連する空間解像度に関する粗い特徴を備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、変換された表現は、変換関数によりビデオフレーム内の空間的に分散した情報から計算されることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、変換関数は、離散コサイン変換、修正離散コサイン変換、離散フーリエ変換、ウェーブレット変換、高速フーリエ変換の少なくとも1つを備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ビデオメディア・コンテンツ部分は、ビデオコンテンツ部分の時間的に関連するグループの第1の部分を備えることを備え、前記方法は、時間的に関連したビデオコンテンツ部分のグループの少なくとも第2のビデオメディア・コンテンツ部分に工程a)から工程c)を繰り返すことと、d)時間的に関連した部分のグループ内の第1のコンテンツ部分と第2のコンテンツ部分を分離する時間期間についての第1のコンテンツ部分と第2のコンテンツ部分の第2表現に平均値を計算する工程をさらに備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、第2表現の平均値は、メディア・コンテンツシーケンスの速度の任意の変化について時間的に関連したコンテンツ部分に信頼性よく対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、e)第2表現の平均値をランダムベクトルのセットに投影し、投影値のセットを求める工程と、f)閾値を投影値のセットに適用する工程と、g)コンテンツ部分の時間的に関連するグループのメディア・フィンガープリントを計算する工程とをさらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、メディア・フィンガープリントはコンテンツ部分の時間的に関連するグループに、その幾何学的方向の任意の変化およびメディア・コンテンツシーケンスの速度の任意の変化において信頼性よく対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ステップb)がピクセル値に基づいて特異値分解を計算する工程を備え、基底ベクトルは特異値分解に基づいて推定されることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、少なくとも第1の基底ベクトルは、ピクセル値の最大分散の軸に沿った方向であり、少なくとも第2の基底ベクトルは、第1の基底ベクトルに直交することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ピクセル値は各領域に関連する平均値の合計を備え、その平均値はその領域からのメディア・コンテンツの少なくとも1つの特質のサンプルに関連することを、さらに備える。
実施の一形態では、方法は以下の工程を備え、命令の1つ以上のシーケンスを持っているコンピュータ可読媒体は、1つ以上のプロセッサで実行されると、その命令により1つ以上のコンピュータに以下の工程を実行させ:a)ビデオメディア・コンテンツのシーケンスにおけるコンテンツ部分の時間的に関連したグループのビデオメディア・コンテンツの部分の第1表現として、前記第1表現が分割される領域の行列についてコンテンツ要素のエネルギ値を量子化する工程であって、前記第1表現が低解像度にダウンサンプルされ、メディア・コンテンツ部分から切り取られる、工程と、b)前記量子化された第1次元空間で基底ベクトルのセットを推定する工程と、c)前記第1表現を、第2次元の空間でのビデオメディア・コンテンツ部分の第2表現に変換する工程であって、第2表現は前記推定した基底ベクトルに基づいた前記第1表現の投影を備え、前記ビデオメディア・コンテンツ部分の第1表現は前記シーケンスの1つ以上のビデオフレームの少なくとも1セクション、または、前記シーケンスの1つ以上のビデオフレームの少なくとも1セクションに関連する変換された表現に関連し、メディア・フィンガープリントが、少なくとも部分的に前記第2表現に基づいて導き出される。
実施の一形態では、方法またはコンピュータ可読媒体は、第2表現がビデオコンテンツ部分に、その幾何学的方向の任意の変化においてビデオメディア・コンテンツ部分に信頼性よく対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、空間領域表現は、ビデオフレームに関連する空間解像度に関する粗い特徴を備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、変換された表現は、変換関数によりビデオフレーム内に空間的に分布された情報から計算されることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、変換関数は、離散コサイン変換、修正離散コサイン変換、離散フーリエ変換、ウェーブレット変換あるいは高速フーリエ変換の少なくとも1つを備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ビデオメディア・コンテンツ部分は、ビデオコンテンツ部分の時間的に関連するグループの第1の部分を備えることを備え、前記方法は、時間的に関連したビデオコンテンツ部分のグループの少なくとも第2のビデオメディア・コンテンツ部分に工程a)から工程c)を繰り返すことと、d)時間的に関連した部分のグループ内の第1のコンテンツ部分と第2のコンテンツ部分を分離する時間期間についての第1のコンテンツ部分と第2のコンテンツ部分の第2表現に平均値を計算する工程をさらに備えることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、第2表現の平均値は、メディア・コンテンツシーケンスの速度の任意の変化について時間的に関連したコンテンツ部分に信頼性よく対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、e)第2表現の平均値をランダムベクトルのセットに投影し、投影値のセットを求める工程と、f)閾値を投影値のセットに適用する工程と、g)コンテンツ部分の時間的に関連するグループのメディア・フィンガープリントを計算する工程とをさらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、メディア・フィンガープリントはコンテンツ部分の時間的に関連するグループに、その幾何学的方向の任意の変化およびメディア・コンテンツシーケンスの速度の任意の変化において信頼性よく対応することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ステップb)がピクセル値に基づいて特異値分解を計算する工程を備え、基底ベクトルは特異値分解に基づいて推定されることを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、少なくとも第1の基底ベクトルは、ピクセル値の最大分散の軸に沿った方向であり、少なくとも第2の基底ベクトルは、第1の基底ベクトルに直交することを、さらに備える。
実施の一形態では、方法またはコンピュータ可読媒体は、ピクセル値は各領域に関連する平均値の合計を備え、その平均値はその領域からのメディア・コンテンツの少なくとも1つの特質のサンプルに関係することを、さらに備える。
実施の一形態では、システムは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサで実行されると前記システムに上記した方法の少なくとも1工程を行わせるコード化された命令を備えるコンピュータ可読記憶媒体とを備える。
実施の一形態では、システムは、上記した方法の少なくとも1工程を行う手段を備える。
実施の一形態では、上記した方法の1つ以上の工程を行うように構成されまたはプログラムされた集積回路(IC)デバイスは、上記したシステムの1つ以上を具現化し、配置し、または、支援する。
実施の一形態では、ICデバイスは、ICが少なくとも1つのプロセッサ、プログラム可能論理回路、マイクロコントローラ、フィールド・プログラマブル・ゲート・アレイ、または、特定用途向けICの1つを備えることを、さらに備える。
[均等、拡張、代替および諸々のこと]
前述の明細書では、本発明の実施の形態を実行ごとに異なる多くの特定な詳細を参照して説明した。よって、何が本発明であるのか、また何が出願人により発明であると意図されているかの、唯一かつ排他的な示唆は、本出願により公表され、請求項が特定の形で公表された特許請求の範囲であり、その後の補正を含む。それゆえ、請求項で明確に記載されていない限定、要素、特性、特徴、利点あるいは属性は、いかなる場合でも請求項の範囲を限定しない。したがって、明細書および図面は、限定的な意味ではなく、説明的な意味としてみなされるべきである。

Claims (24)

  1. a)ビデオメディア・コンテンツのシーケンスにおける複数のビデオフレームの時間的に関連するグループのビデオフレームの第1表現について、前記第1表現が分割される領域のマトリックスに対してコンテンツ要素の量子化されたエネルギ値にアクセスする工程と;
    b)前記量子化されたエネルギ値から第1の次元空間の基底ベクトルを推定する工程と;
    c)前記第1表現を、第2の次元空間として前記ビデオフレームの第2表現に変換する工程であって、前記第2表現は前記推定した基底ベクトルに基づく前記第1表現の投影を備える、工程と;
    d)複数の前記ビデオフレームに対応する複数の前記第2表現の時間平均を計算する工程と;
    e)前記第2表現の時間平均をランダムベクトルのセットに投影して投影値のセットを得る工程と;
    f)前記投影値のセットに閾値を適用する工程と;
    g)前記投影値のセットに基づいて前記ビデオフレームの時間的に関連するグループについてメディア・フィンガープリントを計算する工程と;
    を備え、
    前記メディア・フィンガープリントは、前記ビデオフレームの時間的に関連するグループの1つ以上の幾何学的方向の任意の変化、及び前記ビデオメディア・コンテンツのシーケンスの速度の任意の変化にわたり、前記ビデオフレームの時間的に関連するグループに対応する;
    方法。
  2. 前記第2表現は、前記ビデオフレームの幾何学的方向の任意の変化にわたり、前記ビデオフレームに対応する;
    請求項1記載の方法。
  3. 前記第1表現は、前記ビデオフレームに関連する解像度より低い解像度にダウンサンプルされる;
    請求項1記載の方法。
  4. 前記第1表現は、前記ビデオフレームから切り取られる;
    請求項1記載の方法。
  5. 前記ビデオフレームの前記第1表現は:
    前記シーケンスの1つ以上のビデオフレームの少なくとも1つのセクションに関連する空間領域表現;または、
    前記シーケンスの前記1つ以上のビデオフレームの前記少なくとも1つのセクションに関連する前記第2表現;
    の1つ以上に関係する;
    請求項1記載の方法。
  6. 前記空間領域表現は、前記ビデオフレームに関連する空間解像度に関して粗い特徴を備える;
    請求項5記載の方法。
  7. 前記第2表現は、変換のための関数により前記ビデオフレーム内の空間的にダウンサンプリングされた情報から計算される;
    請求項5記載の方法。
  8. 前記変換のための関数は:
    離散コサイン変換;
    修正離散コサイン変換;
    離散フーリエ変換;
    ウェーブレット変換;または、
    高速フーリエ変換;
    の少なくとも1つを備える;
    請求項5記載の方法。
  9. 工程b)は、ピクセル値に基づき特異値分解を計算する工程を備え;
    前記基底ベクトルは、前記特異値分解に基づき推定される;
    請求項1記載の方法。
  10. 前記基底ベクトルの少なくとも第1は、前記ピクセル値の最大分散の軸に沿った方向であり、前記基底ベクトルの少なくとも第2は前記第1の基底ベクトルに直交する;
    請求項記載の方法。
  11. ピクセル値は、前記領域それぞれに関連する平均値の合計を備え;
    前記平均値は、前記領域の少なくとも1つの特質のサンプルに関係する;
    請求項1記載の方法。
  12. a)ビデオメディア・コンテンツのシーケンスにおけるビデオフレームの時間的に関連するグループのビデオフレームの第1表現について、前記第1表現が分割されてなる複数の領域のマトリックスに対してコンテンツ要素のエネルギ値を量子化する工程であって、前記第1表現は低解像度にダウンサンプルされ、前記ビデオフレームから切り取られる、工程と;
    b)前記量子化されたエネルギ値から第1の次元空間の基底ベクトルのセットを推定する工程と;
    c)前記第1表現を、第2の次元空間としてビデオフレームの第2表現に変換する工程であって、前記第2表現は前記推定した基底ベクトルに基づく前記第1表現の投影を備える、工程と;
    d)複数の前記ビデオフレームの各々に対応する複数の前記第2表現の各々の時間平均を計算する工程と;
    e)前記第2表現の時間平均をランダムベクトルのセットに投影して投影値のセットを得る工程と;
    f)前記投影値のセットに閾値を適用する工程と;
    g)前記ビデオフレームの時間的に関連するグループについてメディア・フィンガープリントを計算する工程と;
    を備え、
    前記メディア・フィンガープリントは、前記ビデオフレームの時間的に関連するグループの幾何学的方向の任意の変化、及び前記ビデオメディア・コンテンツのシーケンスの速度の任意の変化にわたり、前記ビデオフレームの時間的に関連するグループに対応する;
    方法。
  13. 前記第2表現は、前記ビデオフレームの幾何学的方向の任意の変化にわたり、前記ビデオフレームに対応する;
    請求項12記載の方法。
  14. 間領域表現は、前記ビデオフレームに関連する空間解像度に関して粗い特徴を備える;
    請求項12記載の方法。
  15. 前記第2表現は、変換のための関数により前記ビデオフレーム内の空間的にダウンサンプリングされた情報から計算される;
    請求項12記載の方法。
  16. 前記変換のための関数は:
    離散コサイン変換;
    修正離散コサイン変換;
    離散フーリエ変換;
    ウェーブレット変換;または、
    高速フーリエ変換;
    の少なくとも1つを備える;
    請求項15記載の方法。
  17. 工程b)は、ピクセル値に基づき特異値分解を計算する工程を備え;
    前記基底ベクトルは、前記特異値分解に基づき推定される;
    請求項12記載の方法。
  18. 前記基底ベクトルの少なくとも第1は、前記ピクセル値の最大分散の軸に沿った方向であり、前記基底ベクトルの少なくとも第2は前記第1の基底ベクトルに直交する;
    請求項17記載の方法。
  19. ピクセル値は、前記領域それぞれに関連する平均値の合計を備え;
    前記平均値は、前記領域の少なくとも1つの特質のサンプルに関係する;
    請求項12記載の方法。
  20. コンピュータに請求項1ないし19のうちの何れか1項記載の方法を実行させるプログラム。
  21. 請求項1ないし19のうちの何れか1項記載の方法の工程を実施する手段を備える;
    システム。
  22. 請求項20記載のプログラムを実行する;
    集積回路(IC)デバイス;
  23. 前記ICは、プロセッサ、プログラム可能論理回路、マイクロコントローラ、フィールド・プログラマブル・ゲート・アレイ、または、特定用途向けICの少なくとも1つを備える;
    請求項22記載のICデバイス。
  24. 請求項20記載のプログラムを実行する少なくとも1つ以上のプロセッサを有する;
    装置。
JP2010528212A 2007-10-05 2008-10-06 メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント Expired - Fee Related JP5341095B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US99794307P 2007-10-05 2007-10-05
US60/997,943 2007-10-05
USPCT/US2008/005588 2008-05-01
PCT/US2008/005588 WO2008143768A1 (en) 2007-05-17 2008-05-01 Deriving video signatures that are insensitive to picture modification and frame-rate conversion
US9856308P 2008-09-19 2008-09-19
US61/098,563 2008-09-19
PCT/US2008/078975 WO2009046438A1 (en) 2007-10-05 2008-10-06 Media fingerprints that reliably correspond to media content

Publications (2)

Publication Number Publication Date
JP2011511489A JP2011511489A (ja) 2011-04-07
JP5341095B2 true JP5341095B2 (ja) 2013-11-13

Family

ID=40137952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010528212A Expired - Fee Related JP5341095B2 (ja) 2007-10-05 2008-10-06 メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント

Country Status (5)

Country Link
US (1) US8351643B2 (ja)
EP (1) EP2198376B1 (ja)
JP (1) JP5341095B2 (ja)
CN (1) CN101855635B (ja)
WO (1) WO2009046438A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2455313B (en) * 2007-12-04 2012-06-13 Sony Corp Apparatus and method for estimating orientation
WO2009140819A1 (en) * 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for facilitating the search of video content
US20100215210A1 (en) * 2008-05-21 2010-08-26 Ji Zhang Method for Facilitating the Archiving of Video Content
WO2009140818A1 (en) * 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for facilitating the archiving of video content
WO2009140820A1 (en) * 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for extracting a finger print data from video/audio signals
US8548192B2 (en) * 2008-05-22 2013-10-01 Yuvad Technologies Co., Ltd. Method for extracting a fingerprint data from video/audio signals
WO2009140824A1 (en) * 2008-05-22 2009-11-26 Yuvad Technologies Co., Ltd. A system for identifying motion video/audio content
US20100169911A1 (en) * 2008-05-26 2010-07-01 Ji Zhang System for Automatically Monitoring Viewing Activities of Television Signals
CN102216945B (zh) 2008-08-21 2013-04-17 杜比实验室特许公司 通过媒体指纹进行联网
US8428301B2 (en) 2008-08-22 2013-04-23 Dolby Laboratories Licensing Corporation Content identification and quality monitoring
WO2010027847A1 (en) 2008-08-26 2010-03-11 Dolby Laboratories Licensing Corporation Robust media fingerprints
EP2366170B1 (en) 2008-11-17 2013-01-02 Dolby Laboratories Licensing Corporation Media fingerprints that reliably correspond to media content with projection of moment invariants
WO2010080857A2 (en) * 2009-01-07 2010-07-15 Dolby Laboratories Licensing Corporation Scalable media fingerprint extraction
CN102414683B (zh) 2009-05-08 2014-05-21 杜比实验室特许公司 基于媒体内容的分类来存储和检索从媒体内容中导出的指纹
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US9094715B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for multi-broadcast differentiation
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8635211B2 (en) 2009-06-11 2014-01-21 Dolby Laboratories Licensing Corporation Trend analysis in content identification based on fingerprinting
US9357221B2 (en) 2009-07-23 2016-05-31 Thomson Licensing Methods and apparatus for adaptive transform selection for video encoding and decoding
TWI501580B (zh) * 2009-08-07 2015-09-21 Dolby Int Ab 資料串流的鑑別
GB0917417D0 (en) * 2009-10-05 2009-11-18 Mitsubishi Elec R&D Ct Europe Multimedia signature coding and decoding
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US8542869B2 (en) * 2010-06-02 2013-09-24 Dolby Laboratories Licensing Corporation Projection based hashing that balances robustness and sensitivity of media fingerprints
CN103229514B (zh) * 2010-11-24 2017-03-08 Lg电子株式会社 视频显示装置及其控制方法
US20130275421A1 (en) 2010-12-30 2013-10-17 Barbara Resch Repetition Detection in Media Data
CN102129549B (zh) * 2011-01-29 2012-09-05 广西师范大学 基于缩略图和奇异值分解的图像Hash方法
CN102176208B (zh) * 2011-02-28 2012-12-26 西安电子科技大学 基于三维空时特征的鲁棒视频指纹方法
CN102214219B (zh) * 2011-06-07 2013-04-17 盛乐信息技术(上海)有限公司 音视频内容检索系统及其方法
CN103093761B (zh) * 2011-11-01 2017-02-01 深圳市世纪光速信息技术有限公司 音频指纹检索方法及装置
US10277915B2 (en) * 2011-11-07 2019-04-30 Qualcomm Incorporated Signaling quantization matrices for video coding
KR101970044B1 (ko) * 2012-12-19 2019-04-17 톰슨 라이센싱 이미지/비디오 해상도 및 컬러 서브샘플링을 자동으로 감지하기 위한 방법 및 장치
US9146990B2 (en) * 2013-01-07 2015-09-29 Gracenote, Inc. Search and identification of video content
CN103442289B (zh) * 2013-07-24 2016-08-10 北京视博数字电视科技有限公司 一种基于纹理的图层叠加指纹嵌入方法和装置
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US8977858B1 (en) * 2014-05-27 2015-03-10 Support Intelligence, Inc. Using space-filling curves to fingerprint data
US9380325B1 (en) 2014-09-12 2016-06-28 Sorenson Media, Inc. Overlay content and aggregation of viewing data
US9743153B2 (en) 2014-09-12 2017-08-22 Sorenson Media, Inc Content replacement with onscreen displays
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10410398B2 (en) * 2015-02-20 2019-09-10 Qualcomm Incorporated Systems and methods for reducing memory bandwidth using low quality tiles
EP4375952A2 (en) 2015-04-17 2024-05-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
WO2016172715A1 (en) * 2015-04-23 2016-10-27 Sorenson Media, Inc. Content replacement with onscreen displays
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CA3229617A1 (en) 2015-07-16 2017-01-19 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CA2992529C (en) 2015-07-16 2022-02-15 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
EP3323245B1 (en) 2015-07-16 2021-08-25 Inscape Data, Inc. Detection of common media segments
US20170371963A1 (en) * 2016-06-27 2017-12-28 Facebook, Inc. Systems and methods for identifying matching content
CN106231356B (zh) * 2016-08-17 2019-01-08 腾讯科技(深圳)有限公司 视频的处理方法和装置
AU2018240832B2 (en) * 2017-03-20 2022-12-08 Hyphy Usa, Inc. Transporting Sampled Signals over Multiple Electromagnetic Pathways
AU2018250286C1 (en) 2017-04-06 2022-06-02 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
US10540186B1 (en) 2017-04-18 2020-01-21 Amazon Technologies, Inc. Interception of identifier from client configurable hardware logic
GB2564878B (en) * 2017-07-25 2020-02-26 Advanced Risc Mach Ltd Parallel processing of fetch blocks of data
US10546143B1 (en) 2017-08-10 2020-01-28 Support Intelligence, Inc. System and method for clustering files and assigning a maliciousness property based on clustering
CN110569373B (zh) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
ES2901638T3 (es) * 2018-05-17 2022-03-23 Fraunhofer Ges Forschung Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
KR102600706B1 (ko) 2021-08-18 2023-11-08 네이버 주식회사 복수의 프레임을 포함하는 영상의 지문을 추출하는 방법 및 장치
US11417099B1 (en) * 2021-11-08 2022-08-16 9219-1568 Quebec Inc. System and method for digital fingerprinting of media content

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870754A (en) 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US7092914B1 (en) 1997-11-06 2006-08-15 Intertrust Technologies Corporation Methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information
US6112181A (en) 1997-11-06 2000-08-29 Intertrust Technologies Corporation Systems and methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information
US6751354B2 (en) 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US7013301B2 (en) 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US7065416B2 (en) 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US6968337B2 (en) 2001-07-10 2005-11-22 Audible Magic Corporation Method and apparatus for identifying an unknown work
WO2003009277A2 (en) 2001-07-20 2003-01-30 Gracenote, Inc. Automatic identification of sound recordings
US6823076B2 (en) * 2001-07-20 2004-11-23 Eastman Kodak Company Method for embedding digital information in a three dimensional image from a scannerless range imaging system
US6915009B2 (en) 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
US7082394B2 (en) 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
WO2004034231A2 (en) 2002-10-11 2004-04-22 Flint Hills Scientific, L.L.C. Intrinsic timescale decomposition, filtering, and automated analysis of signals of arbitrary origin or timescale
US7809154B2 (en) * 2003-03-07 2010-10-05 Technology, Patents & Licensing, Inc. Video entity recognition in compressed digital video streams
DE10313875B3 (de) 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US20040240562A1 (en) * 2003-05-28 2004-12-02 Microsoft Corporation Process and system for identifying a position in video using content-based video timelines
US7421305B2 (en) 2003-10-24 2008-09-02 Microsoft Corporation Audio duplicate detector
US7831832B2 (en) * 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
US7242810B2 (en) 2004-05-13 2007-07-10 Proximex Corporation Multimodal high-dimensional data fusion for classification and identification
US7664173B2 (en) 2004-06-07 2010-02-16 Nahava Inc. Method and apparatus for cached adaptive transforms for compressing data streams, computing similarity, and recognizing patterns
US7574451B2 (en) 2004-11-02 2009-08-11 Microsoft Corporation System and method for speeding up database lookups for multiple synchronized data streams
US20060107056A1 (en) * 2004-11-17 2006-05-18 Dhiraj Bhatt Techniques to manage digital media
US8879635B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US20090324199A1 (en) * 2006-06-20 2009-12-31 Koninklijke Philips Electronics N.V. Generating fingerprints of video signals
US8488061B2 (en) * 2007-05-17 2013-07-16 Dolby Laboratories Licensing Corporation Deriving video signatures that are insensitive to picture modification and frame-rate conversion

Also Published As

Publication number Publication date
US8351643B2 (en) 2013-01-08
CN101855635A (zh) 2010-10-06
WO2009046438A1 (en) 2009-04-09
JP2011511489A (ja) 2011-04-07
EP2198376B1 (en) 2016-01-27
US20110026761A1 (en) 2011-02-03
CN101855635B (zh) 2013-02-27
EP2198376A1 (en) 2010-06-23

Similar Documents

Publication Publication Date Title
JP5341095B2 (ja) メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント
Swaminathan et al. Digital image forensics via intrinsic fingerprints
US7194630B2 (en) Information processing apparatus, information processing system, information processing method, storage medium and program
US8406462B2 (en) Signature derivation for images
Sadek et al. Robust video steganography algorithm using adaptive skin-tone detection
EP2366170B1 (en) Media fingerprints that reliably correspond to media content with projection of moment invariants
JP2005020742A (ja) ビデオコピーの検出方法及び装置
US20080226125A1 (en) Method of Embedding Data in an Information Signal
KR101968921B1 (ko) 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법
Visentini-Scarzanella et al. Video jitter analysis for automatic bootleg detection
Bian et al. Detecting video frame-rate up-conversion based on periodic properties of inter-frame similarity
JP2002369158A (ja) 電子透かし埋め込み処理装置、および電子透かし埋め込み処理方法、並びにプログラム
Keyvanpour et al. A secure method in digital video watermarking with transform domain algorithms
Fernández et al. Digital video manipulation detection technique based on compression algorithms
Sharma et al. A review of passive forensic techniques for detection of copy-move attacks on digital videos
US20050002543A1 (en) Watermarking
Pandey et al. A passive forensic method for video: Exposing dynamic object removal and frame duplication in the digital video using sensor noise features
Vybornova A new watermarking method for video authentication with tamper localization
Lakshmi et al. Digital video watermarking tools: an overview
Ding et al. Forgery detection of motion compensation interpolated frames based on discontinuity of optical flow
JP4812291B2 (ja) 行列の不変性に基づくデジタル商品表現
Wan et al. Improved spread transform dither modulation based on robust perceptual just noticeable distortion model
Pathak et al. Video forgery detection based on variance in luminance and signal to noise ratio using LESH features and bispectral analysis
Panchal et al. Multiple forgery detection in digital video based on inconsistency in video quality assessment attributes
Almuzairai et al. Video watermarking system for copyright protection based on moving parts and silence deletion

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130604

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees