JP5634075B2 - 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品 - Google Patents

画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品 Download PDF

Info

Publication number
JP5634075B2
JP5634075B2 JP2010014279A JP2010014279A JP5634075B2 JP 5634075 B2 JP5634075 B2 JP 5634075B2 JP 2010014279 A JP2010014279 A JP 2010014279A JP 2010014279 A JP2010014279 A JP 2010014279A JP 5634075 B2 JP5634075 B2 JP 5634075B2
Authority
JP
Japan
Prior art keywords
sequence
descriptor
words
word
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010014279A
Other languages
English (en)
Other versions
JP2010191954A5 (ja
JP2010191954A (ja
Inventor
ポール・ブラスネット
スタヴロス・パシャラキス
ミロスロー・ボバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric R&D Centre Europe BV Netherlands
Original Assignee
Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric R&D Centre Europe BV Netherlands filed Critical Mitsubishi Electric R&D Centre Europe BV Netherlands
Publication of JP2010191954A publication Critical patent/JP2010191954A/ja
Publication of JP2010191954A5 publication Critical patent/JP2010191954A5/ja
Application granted granted Critical
Publication of JP5634075B2 publication Critical patent/JP5634075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Description

本発明は、一般的な編集操作(カメラ取込み、アナログ/デジタル変換、再圧縮等)に対してロバストである、高速且つ信頼できるビデオ識別のための方法、装置、及びコンピュータプログラム製品に関する。
専門家及び消費者によって記憶されているビデオの数が急速に増大している。専門家に関しては、ビデオコンテンツの作成、記憶、及び編集のコストの問題及び技術的な問題は減少してきている。消費者に関しては、セットトップボックス、パーソナルビデオレコーダ、ビデオカメラ、及びコンピュータの選択の幅が広がっていること、並びに、これらのコストが減少していることによって、ビデオコンテンツの増大に拍車がかかっている。過去数年にわたって、インターネット上で利用可能な合法及び非合法のコンテンツが共に爆発的に増大している。このコンテンツをインデックス付けし、検索し、監視する能力がますます重要な問題になってきている。MPEG−7標準規格は、コンテンツベースの検索及び取出しの領域における初期の仕事であった。この標準規格の元のバージョンにおいて欠けていた領域が、複製類似ビデオ(near-duplicate video)検出である。
複製類似ビデオ検出は、問合せビデオシーケンスが与えられると、データベース内のすべての複製を発見するものと定義することができる。複製(複製類似)の概念及び解釈はさまざまである。しかしながら、本発明に関しては、複製とは、オリジナルに対する一般的なビデオ編集/処理操作によって作成されたシーケンスであるとみなす。このような操作の例は、より多くの例の中でも、色変更、圧縮、トランスコーディング、フォーマット変更、フレームレート変更、アナログVCR再取込み、及びカメラ再取込みを含む。本発明は、複製部分が問合せシーケンスの一部のみを形成する場合がある問題にも対処する。
この領域における従来の仕事(非特許文献1)は、複数のカットを撮影し、境界を使用してビデオシーケンスのシグネチャを形成していた。これは、ビデオの非常にコンパクトな表現を提供するが、短いシーケンスに対しては非常に不満足にしか機能せず、使用されるショット検出アルゴリズムの影響を非常に受けやすい(非特許文献2)。
ビデオ内の複製(複製類似)検出に対する、特徴点を用いる一般的な当該技術水準の手法は、非特許文献3に与えられており、i)キーフレームを検出し、ii)該フレーム内のキーポイントを検出し、iii)該ポイントの周囲の領域から特徴を検出し、iv)特徴を使用してシーケンスを照合し、v)シーケンス内の物体の空間的結束性(spatial cohesion)に関する試験を適用する、というように概説することができる。この概説した手法にはいくつかの欠点がある。まず、キーフレームを使用するということは、この方法が短いクリップに対してはあまり良好に機能しない可能性があることを意味している。特徴の抽出(iii)は計算コストが高い方法であり、その結果ストレージ要求が大きくなる。ステップ(iv)に関して、データのクラスタリングから学習される視覚的語彙が使用される。これは特定のデータセットに対する過剰適合をもたらす可能性があり、これは一般化の失敗を伴う。非特許文献4のような関連方法は、使用されるハッシュテーブルに対する高メモリ要件と引き換えに高速の検索を提供する。これはいくつかのシナリオに対しては適切であり得るものの、一般的にメモリ資源が非常に限られている家庭用電化製品の環境においては適切でない。
T. Hoad及びJ. Zobel著「Video similarity detection for digital rights management」(Proceedings of Australasian Computer Science Conference, pages 237-245, Adelaide, Australia, 2003) T. Hoad及びJ. Zobel、Proceedings of the 5th ACM SIGMM international workshop on Multimedia information retrieval, pages 262-269, Berkeley, US, 2003 J. Sivic、A. Zisserman著「Efficient Visual Search for Objects in Videos」(Proceedings of the IEEE, April 2008, 96 (4), pages 548-566) Ondrej Chum、James Philbin、Michael Isard、及びAndrew Zisserman著「Scalable near identical image and shot detection」(Proceedings of the 6th ACM international conference on Image and video retrieval, pages 549-556, Amsterdam, The Netherlands, 2007)
本発明は、少なくとも、このような従来技術の方法の制限のうちの1つ又は複数に対処することを目的とする。
本発明の特定の態様を添付の特許請求の範囲に記載している。他の態様は下記の実施の形態に記載しており、当業者であれば本明細書を読むことによって理解されよう。
要約すると、本発明は、画像の第1のシーケンス及び画像の第2のシーケンスを処理して、該第1のシーケンスと該第2のシーケンスとを比較する装置であって、
該装置は、
第1のシーケンス内の複数の画像のそれぞれ、及び第2のシーケンス内の複数の画像のそれぞれを、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理することによって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成することによって処理するように構成される記述子要素生成手段であって、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
各画像の記述子要素から、複数のワード(word)であって、各ワードが記述子要素ビットの固有の組合せを含むような、複数のワードを形成するように構成されるワード生成手段であって、該ワード生成手段は、第2のシーケンスに対するワードのそれぞれを第1のシーケンスに対するワードのそれぞれと同じ組合せの記述子要素ビットから生成するように構成される、ワード生成手段と、
第1のシーケンス内の複数の画像に対して生成されるワードと、第2のシーケンス内の複数の画像に対して生成されるワードとを比較することによって、第1のシーケンスと第2のシーケンスとを比較する処理を実施するように構成されるシーケンス比較手段とを備える、装置を提供する。
シーケンス比較手段は、第1のシーケンス及び第2のシーケンス内に異なるワード値が発生する頻度を比較する処理を含む、第1のシーケンスと第2のシーケンスとを比較する処理を実施するように構成することができる。
シーケンス比較手段は、
第1のシーケンスに対する発生データを生成するために、第1のシーケンス内の各ワードに対する各可能なワード値の発生回数を求めること、
第2のシーケンスに対する発生データを生成するために、第2のシーケンス内の各ワードに対する各可能なワード値の発生回数を求めること、及び、
第1のシーケンスに対する発生データと、第2のシーケンスに対する発生データとを比較することを含む、第1のシーケンスと第2のシーケンスとを比較する処理を実施するように構成することができる。
シーケンス比較手段は、第1のシーケンスに対する発生データと、第2のシーケンスに対する発生データとを比較して、各ワードについての比較結果を生成すると共に、該それぞれの比較結果をマージして全体の比較結果を生成するように構成することができる。
本装置は、
各ワードに対して、双方のシーケンス内に発生するワード値を求める手段と、
各ワードに対して、双方のシーケンスにおけるワード値の時間的な発生順序を求める手段と、
該時間的な発生順序を比較する手段と
をさらに備えることができる。
本装置は、
一致する画像対であって、第1のシーケンスからの1つの画像と第2のシーケンスからの1つの画像とを含む画像対を特定する手段と、
少なくとも1つの特定された画像対間の類似度を求めるためにさらなる対応性試験を実施する手段と
をさらに備えることができる。
本発明はまた、画像を規定する画像データを処理して、該画像を表す少なくとも1つの値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
記述子要素から、少なくとも1つのワードであって、各ワードが、1つ又は複数の記述子要素からの1つ又は複数のビットを含むと共に、該ワードのすべてにおける総ビット数が記述子要素のすべてにおける総ビット数を下回るような、少なくとも1つのワードを形成するように構成されるワード生成手段と
を備える、装置を提供する。
本発明はまた、画像を規定する画像データを処理して、該画像を表す複数の値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
記述子要素から、複数のワードであって、各ワードが、記述子要素ビットの固有の組合せを含むような、複数のワードを形成するように構成されるワード生成手段とを備える、装置を提供する。
本装置は、各記述子要素を量子化する量子化手段をさらに備えることができ、ワード生成手段は、量子化された記述子要素から各ワードを形成するように構成することができる。
量子化器は、各記述子要素を量子化して、それぞれの1ビットの2値結果を形成するように構成することができる。
記述子要素生成手段は、複数の異なる画素解像度で画像に対する記述子要素を生成するように構成することができ、ワード生成手段は、複数の異なる画素解像度で生成された記述子要素からの1つ又は複数のビットを組み合わせることによって、少なくとも1つのワードを生成するように構成することができる。
本発明はまた、画像を規定する画像データを処理して、該画像を表す少なくとも1つの値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
各記述子要素を量子化するように構成される量子化手段と、
量子化された記述子要素から画像を表す少なくとも1つの値を形成するように構成される表現値形成手段と
を備える、装置を提供する。
量子化器は、各記述子要素を量子化して、それぞれの1ビットの2値結果を形成するように構成することができる。
本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
シーケンス内の各画像に対して、画像の記述子要素から、少なくとも1つのワードであって、各ワードが、1つ又は複数の記述子要素からの1つ又は複数のビットを含むと共に、画像の該ワードのすべてにおける総ビット数が、該画像の記述子要素のすべてにおける総ビット数を下回るような、少なくとも1つのワードを形成するように構成されるワード生成手段と、
いずれのワードが画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
シーケンス内の画像に対するヒストグラムデータ、ワード、及び記述子要素を記憶装置に書き込むように構成されるデータ書込み手段と
を備える、装置を提供する。
本装置は、各記述子要素を量子化するように構成される記述子要素量子化手段をさらに備えることができ、ワード生成手段は、量子化された記述子要素から各ワードを形成するように構成することができる。加えて、本装置は、ヒストグラムデータを量子化するように構成されるヒストグラムデータ量子化手段をさらに備えることができ、データ書込み手段は、量子化されたヒストグラムデータ、ワード、及び量子化された記述子要素を記憶装置に書き込むように構成することができる。
本装置は、ビデオシーケンスの断片を含む画像シーケンスを処理するように動作可能とすることができる。
データ書込み手段は、ヒストグラムデータ、ワード、及び記述子要素をビットストリーム内に記憶するように構成することができる。
本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、
シーケンス内の各画像に対して、画像の記述子要素から、複数のワードであって、各ワードが、記述子要素ビットの固有の組合せを含む、複数のワードを生成するように構成されるワード生成手段と、
いずれのワードが画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
シーケンス内の画像に対するヒストグラムデータ、ワード、及び記述子要素を記憶装置に書き込むように構成される、データ書込み手段とを備える、装置を提供する。
本装置は、各記述子要素を量子化するように構成される記述子要素量子化手段をさらに備えることができ、ワード生成手段は、量子化された記述子要素から各ワードを形成するように構成することができる。加えて、本装置は、ヒストグラムデータを量子化するように構成されるヒストグラムデータ量子化手段をさらに備えることができ、データ書込み手段は、量子化されたヒストグラムデータ、ワード、及び量子化された記述子要素を記憶装置に書き込むように構成することができる。
本装置は、ビデオシーケンスの断片を含む画像のシーケンスを処理するように動作可能とすることができる。
データ書込み手段は、ヒストグラムデータ、ワード、及び記述子要素をビットストリーム内に記憶するように構成することができる。
本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも1つの記述子要素を生成し、各記述子要素は1つ又は複数のビットを含む、記述子要素生成手段と、各記述子要素を量子化するように構成される記述子要素量子化手段と、
シーケンス内の各画像に対して、量子化された記述子要素から画像を表す少なくとも1つの値を形成するように構成される表現値形成手段と、画像を表すいずれの値が画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
ヒストグラムデータを量子化するように構成されるヒストグラムデータ量子化手段と、
量子化されたヒストグラムデータ、画像を表す値、及び量子化された記述子要素を記憶装置に書き込むように構成される、データ書込み手段と
を備える、装置を提供する。
本装置は、ビデオシーケンスの断片を含む画像のシーケンスを処理するように動作可能とすることができる。
データ書込み手段は、ヒストグラムデータ、画像を表す値、及び記述子要素をビットストリーム内に記憶するように構成することができる。
本発明の一実施の形態は、
‐ビデオシーケンスの非常にコンパクトな表現を提供し、
‐トレーニングデータに依存せず、
‐非常に高速の検索及び照合を提供し、
‐一般的な編集/処理操作に対してロバストであり、且つ
‐照合フレーム位置の正確な位置特定を提供する、
ビデオ識別のための新規の方法及び装置を提供する。
ここで、本発明の実施形態を、添付の図面を参照して例示としてのみ説明する。
一実施形態における、記述子要素を生成する処理を示す図である。 一実施形態における、記述子要素からワードを生成する処理を示す図である。 一実施形態における2値化を示す図である。 一実施形態における、時間シフト及びフレームレート変化の決定を示す図である。 一実施形態の処理動作を実施する処理装置の一例を示す図である。
これより、本発明の一実施形態における処理装置によって実施される方法を説明する。本方法は、いくつかの処理動作を含む。本明細書の末尾において説明するように、これらの処理動作は、ハードウェア、ファームウェア、コンピュータプログラム命令に従って動作する処理ユニット、又はそれらの組合せを使用する処理装置によって実施することができる。
複数のビデオフレームfi(c,x,y)から成るシーケンスを考える。ここで、iはフレームインデックスであり、たとえばi∈[0,T−1]であり、ここで、Tはシーケンス内のフレームの総数である。cはl(エル)個のカラーチャネルにおけるインデックスであり、たとえばl(エル)=3ではc∈{Y,U,V}である。x及びyは空間座標であり、たとえばx∈[0,M−1]、y∈[0,N−1]であり、ここでMは水平フレーム解像度であり、Nは垂直フレーム解像度である。
本発明の好ましい一実施形態では、各フレームをその画素強度(pixel intensity)及び差分に関して記述する。このような記述子は、本発明の同時継続出願である欧州特許出願第1640913号及び欧州特許出願第1640914号に記載されており、これらは参照によりその全体が本明細書に援用される。本発明の好ましい一実施形態では、空間的に再サンプリングされたm×m画素解像度のフレームを考える。ここで、mは2の累乗である。好ましくは、mは小さな値、たとえばm=16又はm=32であるが、これは限定ではない。ここで、各フレームは重複しない2×2画素近傍集合(pixel neighbourhoods)に分割され、各近傍集合において記述子要素が以下のように計算される。
Figure 0005634075
これは、図1において、m=8及びc=Yについて一般性を損なうことなく示されている。式(1)による記述子要素は平均強度であり、フレーム全体に対してとられ、そのフレームを(m/2)×(m/2)画素解像度で再サンプリングしたものを与え、これが式(1)〜(4)に従って再処理される。このプロセスは、フレーム全体に対する平均強度が計算されるまで継続する。したがって、フレームfiに対する完全な記述子は、異なる複数の画素解像度(すなわち、m×m,m/2×m/2,…,4×4,2×2)における、そのフレームに対する複数の記述子要素を含み、したがって、
Figure 0005634075
によって与えられる。本発明の好ましい一実施形態では、フレームは自身の輝度チャネルYによって表され、記述子diはこの輝度情報から抽出される。
任意選択で、記述子要素は所望のビット数に量子化される。該所望のビット数は異なるものであってもよく、要素ごとに、またはカラーチャネルごとに異なってもよい。本発明の好ましい一実施形態では、記述子要素は以下のように2値化される。
Figure 0005634075
…(5)
ここで、rはダイナミックレンジであり、たとえば8ビット画素値についてr=256である。
Figure 0005634075
…(6)
ここで、
Figure 0005634075
は式(1)による平均を示し、
Figure 0005634075
は式(2)〜(4)による差分を示す。(5)及び(6)の利点は、それらを、要素の整数部分の2値表現のMSB(最上位ビット)を維持することと等価となるように実施することができることである。
代替的な実施形態では、位置センシティブハッシング(locality sensitive hashing)のような他の量子化/2値化技法を採用することもできる。この方法は、本明細書においては検討しないが、Samet H.著「Foundations of Multidimensional and Metric Data Structures」(Morgan Kaufmann, 2006)に記載されている。
次いで、フレームに対する完全な記述子が使用されて、少なくとも1つのコンパクトなワード(word)が、記述子要素のうちの1つ又は複数の、1つ又は複数のビットに基づいて形成される。これは図2(a)に示されている。「ワード」という用語は、本明細書においては任意のビット数を有し得るワードを指すのに使用され、いくつかのコンピュータ分野の刊行物にあるような特定のビット数に具体的に限定されるわけではないことに留意されたい。より具体的には、本発明の好ましい一実施形態では、2値化された
Figure 0005634075
に含まれる要素のいくつかからなる、小さな順序集合が連結されて、1つのワードを生成する。いずれの要素が選択されるかに対する限定は存在せず、ワードは、異なる複数のカラーチャネルから、異なるレベルの(たとえば16×16又は4×4の解像度で抽出される)粗さ(coarseness)からの要素を、式(1)による平均であっても式(2)〜(4)による差分であっても混合することができる。たとえば、本発明の1つの実施形態では、要素はすべての利用可能な要素の中からランダムに選択することができる。本発明の別の実施形態では、要素は、たとえばビデオフレームの特定の空間領域のみを覆う或る幾何パターンに従って選択することができる。本発明のさらに別の実施形態では、要素はそれらのエントロピーに従って順序付けることができ、エントロピーが最も高い要素が選択されてワードを形成する。したがって、ワード形成のプロセスはΦ次元空間からΨ次元空間への射影であり、好ましくはΨ<<Φである。2つのビデオフレームに関して、2つの対応するワード(すなわち、順序を有する選択された要素からなるビットパターンのうち対応するもの)間の距離は、フレーム記述子全体の距離の近似である。
ワードを構成する、順序付けされている要素のすべての可能な値のすべての可能な組合せは、そのワードに対する語彙(vocabulary)を与える。すなわち、ワードは複数の記述子要素からなる固有の組合せであり、或るワードに対する語彙はそのワードがとることができる異なる複数の値から成る集合である。たとえば、ワードが2つの記述子要素を含み、各記述子要素が1ビット長であり、各ビットが値0又は1を自由にとることができる場合、そのワードに対する語彙は00、01、10、及び11である。
本発明の好ましい一実施形態では、図2(b)に示すように、各フレームから複数のワードが抽出され、各ワードは2値化された
Figure 0005634075
に含まれる要素のいくつかからなる、小さな順序集合から与えられる。好ましくは、各ワードの要素は任意の適切な方法(ランダム射影、幾何学的制約、エントロピー順序付け等)に従って選択される。各ワードは語彙を有し、各ワードを生成するビットの組合せは固有であるが、部分的に重複する可能性を排除するものではない。たとえば、いくつかの要素は2つ以上のワードに現れる。さらに、各ワードは任意の他のワードと同じ長さを有してもよいし、有しなくてもよい。すなわち、ΦからΨ1、Ψ2へ等の次元削減を行うことができる。
本発明の代替的な実施形態では、その元の解像度及びダイナミックレンジにおける記述子diの任意のバージョン(量子化されていても2値化されていても)からワードを形成することができる。このような実施形態では、1つの要素が1つのワードに対して2ビット以上寄与することができ、また異なるワードに対して異なるビット数寄与することができ、1つのワードはさまざまな要素からのさまざまな数のビットを含むことができる。
ビデオシーケンスは上述のように、そのフレームのうちの1つ又は複数によって記述される。次いで、1つ又は複数の語彙のそれぞれにおいて異なるワードが発生する頻度を計算する。より具体的には、本発明の好ましい実施形態では、シーケンス内の複数のフレームが処理され、各フレームfiからΦ次元の完全な記述子及び複数のワードwik(k∈[0,Q−1])が抽出され、各ワードがQ個の語彙のうちの1つに対応する。次いで、各語彙kについて、フレームシーケンス内に見られるワードのヒストグラムhkがプロットされる。簡単に言えば、このようなヒストグラムは、いずれのワードがフレームシーケンス内に現れるか、及び現れる頻度を示す。より具体的には、各ワードについて、一方の軸に、そのワードがとり得る各値(すなわち、ワードの語彙内の各値)に対するそれぞれのビンを有し、他方の軸に、各値の発生回数を記録するヒストグラムが生成される。
2つのフレームシーケンスf1 i及びf2 jについて、各語彙kに対するヒストグラムh1 kとh2 kとを比較してその結果をマージして決定に至ることによって、それらの類似度を評価することができる。この比較は、ヒストグラムインターセクションのような適切な距離測度を使用して達成することができる。本発明の好ましい一実施形態では、ヒストグラムは2値化される。ここで、このような2値化ヒストグラムは多く存在するワードを示す。2値化は、複数の適切な方法(単純な閾値化、適応的な閾値化等)のうちの任意の方法によって達成することができる。2値化ヒストグラム
Figure 0005634075
及び
Figure 0005634075
について、それらの距離は、好ましくは以下の式によって与えられるJaccard距離測度によって測定される。
Figure 0005634075
…(7)
簡単に言えば、式(7)は、所与の語彙におけるフレームシーケンスf1 i及びf2 jの距離を、それらが共通に有する各ワードと、それらが全体で含む全てのワードとの関数として測定する。
Q個の語彙について、Q個のJaccard距離
Figure 0005634075
がある。本発明の好ましい一実施形態では、以下のように、これらの距離が融合されて、複合距離
Figure 0005634075
が与えられる。
Figure 0005634075
…(8)
したがって、
Figure 0005634075
の処理(好ましくは閾値化)によって、フレームシーケンスが類似しているか否かについての決定に至ることができる。この事例において、
Figure 0005634075
が或る閾値未満である場合、シーケンスは一致すると宣言され、そうでない場合は一致しないと宣言される。
明らかに、トリム平均、メジアン、最大値等のような、式(8)に対する多くの代替物が存在する。さらに、代替的な実施形態は、距離融合ではなく、決定融合(各
Figure 0005634075
を適切な閾値を用いて個々に閾値化して、次いで個々の決定をたとえば多数決によって融合すること)によって、フレームシーケンスの類似度に対する決定に至ることができる。本発明の代替的な一実施形態では、距離融合と決定融合と組み合わせること、すなわち、複合の
Figure 0005634075
を計算し、続いて閾値化することによって決定に至ることも可能であるが、一致の決定を、少なくともある設定された数の
Figure 0005634075
距離によってサポートする必要もある。
任意選択で、各語彙に関してビデオシーケンス内の一致するワードの発生の時間的順序を考慮することによって、検出された一致が検証される。好ましい一実施形態では、各語彙kに関して、双方のビデオシーケンスf1 i及びf2 jにおいて発生するワードの集合が見つけられる。好ましくは、これらは、双方のヒストグラムh1 k及びh2 kにおいて非ゼロである要素(2値ヒストグラム
Figure 0005634075
及び
Figure 0005634075
の共通部分)を特定することによって見つけられる。各ヒストグラムの各要素が語彙からの
1つのワードに対応することを想起すると、共通部分は、z個の要素を有する、双方のフレームに共通であるワードの集合W12 k={wλk,λ∈[0,z−1]}={wα,…,wζ}を生成する。好ましくは、この集合は、語彙に従って、たとえば数値順又はアルファベット順に順序付けされる。次いで、各ビデオシーケンスについて、順序集合W12 kにおけるワードそれぞれについての最初の発生を記録したフレーム番号の集合Ωk={ωλk,λ∈[0,z−1]}={fα,…,fζ}が生成される。
フレーム番号の2つの集合Ω1 k及びΩ2 k(それぞれf1 i及びf2 jに対応する)が比較されて、それらの間の距離が求められる。好ましい実施形態では、Ω1 k及びΩ2 kは2値化され、それらの間の距離が正規化ハミング距離によって与えられる。好ましい一実施形態では、2値化は、集合
Figure 0005634075
…(9)
に含まれる互いに隣接する要素の間の差を評価することによって、図3に示されるように実施される。
2値化集合は
Figure 0005634075
と表され、正規化ハミング距離は
Figure 0005634075
と表される。簡単に言えば、このような2値化集合は、順序集合W12 k内の各ワードがビデオシーケンスにおいて最初に現れるのが、ワードの順序集合W12 k内におけるその次のワードの前であるか又は後であるかを記録する。
本発明の代替的な実施形態では、Ω1 k及びΩ2 kは2値化することなく、適切な距離測度(たとえば、一方のシーケンス内のワードの発生状況が他方のシーケンスと異なるようなフレームすべての数を与えるL1)を使用して比較することができる。
Q個の語彙について、Q個の正規化ハミング距離
Figure 0005634075
がある。本発明の好ましい一実施形態では、以下のように、これらの距離が融合されて、複合距離
Figure 0005634075
が、
Figure 0005634075
…(10)
として与えられる。
したがって、
Figure 0005634075
の処理(好ましくは閾値化)によって、フレームシーケンスが類似しているか否かについての決定に至ることができる。この事例において、
Figure 0005634075
が或る閾値未満である場合、シーケンスは一致すると宣言され、そうでない場合は一致しないと宣言される。
明らかに、トリム平均、メジアン、最大値等のような、式(10)に対する多くの代替物が存在する。さらに、代替的な実施形態は、距離融合ではなく、決定融合(すなわち、各
Figure 0005634075
を適切な閾値を用いて個々に閾値化して、次いで個々の決定をたとえば多数決によって融合すること)によって、フレームシーケンスの類似度に対する決定に至ることができる。本発明の代替的な一実施形態では、距離融合と決定融合と組み合わせること、すなわち、複合の
Figure 0005634075
を計算し、続いて閾値化することによって決定に至ることも可能であるが、一致の決定を、少なくともある設定された数の
Figure 0005634075
距離によってサポートする必要もある。
任意選択で、さらなる改良及び位置特定段階が適用されて、ビデオシーケンスが一致するか否かが非常に高いレベルの精度まで決定され、2つのシーケンスにおける対応するフレームの位置が求められる。双方のシーケンスからの一致するワードの集合が使用されて、可能性のあるフレームの対応性が求められる。次いで、シーケンス間の時間的変化を推定することができる。好ましい実施形態では、図4に示すように、シーケンス間の時間シフト及びフレームレート差が求められる。次いで、対応する可能性のある複数のフレームからの記述子を使用して、対応の妥当性を判断し且つ/又は時間変化パラメータを改良することができる。
より具体的には、各語彙kについて、共通部分W12 k={wλk,λ∈[0,z−1]}={wα,…,wζ}内のワードのそれぞれは、ビデオシーケンスのそれぞれからの1つ又は複数のフレームに対応し、ここで「1つ又は複数」とは、各シーケンスについて異なる数であり得る。たとえば、あるシーケンス内の1つのみのフレームと、第2のフレーム内の多数のフレームとによって1つのワードを生成することができる。一対のビデオシーケンスについて、また各語彙kについて、またW12 k内のz個のワードのそれぞれについて、シーケンスf1 i及びf2 j内においてそのワードに対応するフレーム番号対を含む集合を構築する。したがって、W12 k内のz個のワードのうちの1つが、f1 i及びf2 j内のフレームの単一の対によって生成される場合、そのワードに対する集合は一対のみのフレーム番号を含む。別のワードが、f1 i及びf2 j内の複数対のフレームによって生成される場合、そのワードに対する集合はこれと同じ複数の対のフレーム番号を含む。
次いで、W12 k内の各ワードについて、また各語彙kについて、そのワードに対応するフレーム番号対は、単一の2次元ヒストグラムG12 ij(ただしi∈[0,T1−1],j∈[0,T2−1])内にプロットされ、ここでT1はシーケンスf1 i内のフレームの数であり、T2はシーケンスf2 j内のフレームの数である。簡単に言えば、G12 ijにおいて、ビン値0は、検討中のフレーム対、すなわち(i,j)がQ個の語彙のいずれにおいても一致するワードを生成しなかったことを表し、k<Qのビン値は、検討中のフレーム対がQ個の語彙のうちのk個のみにおいて一致するワードを生成したことを表し、ビン値Qは、検討中のフレーム対がQ個すべての語彙において一致するワードを生成したことを表す。
1 i及びf2 j内のフレームは、1つ又は複数の語彙において同じワードを有する場合には対応しているとみなされ、これは対応性の弱試験であるとみなすことができる、すなわち、これらのフレームは弱く対応している。弱く対応しているフレーム対のそれぞれについて、それらをより詳細な記述子に従って比較することによって、対応性のより強い試験が実行される。好ましくは、上述のようにf1 i及びf2 jから抽出される2値記述子
Figure 0005634075
及び
Figure 0005634075
が使用される。このような2値記述子間の距離は好ましくは、ハミング距離
Figure 0005634075
として計算される。
本発明の代替的な実施形態では、その元の解像度及びダイナミックレンジにおける、式(1)〜(4)に記述されている記述子dの任意のバージョン(量子化されていても2値化されていても)、又はこの記述子の適切な部分集合を使用することができ、ハミング距離
Figure 0005634075
は適切な距離測度、たとえばL1に置き換えられる。
弱く対応するフレーム対が多数存在する場合、処理時間を有益に低減するために、限られた数のフレーム対のみを強く対応するフレーム対であると確認することができる。好ましくは、これらの対は共通のワードが最も多い順に試験される。すなわち、Q個の共通のワードを有する対が最初に試験され、次いで、Q−1個の共通のワードを有する対が試験され、以下同様である。共通のワードの数によるこのタイプの順序付けは、2DヒストグラムG12 ijによって容易に提供される。弱く対応するフレーム対は、フレーム記述子間の距離が特定の基準を満たす場合に(すなわち、好ましくは所定の閾値を下回る場合に)、強く対応するフレーム対として受容される。これは、残りの弱く対応する対がなくなるか、又は強く対応する対が特定数発見されるまで繰り返される。上記から、Q個よりも少ない一致ワードを有するフレーム対、又はただ1つの一致ワードしか有しないフレーム対であっても、強く対応するフレーム対であると確認される場合があり、一方で、Q個の語彙内でQ個の一致ワードを有するフレーム対が、それらの詳細な記述子によれば類似性に乏しいために、強く対応するフレーム対であると確認されない場合があることになる。このように、一般的に、より多数の弱く対応するフレーム対は、より少数の強く対応するフレーム対に低減される。
次いで、強く対応する対が使用されて、フレームシーケンス間の時間パラメータ変化が推定される。好ましい一実施形態では、時間パラメータは時間シフト及びフレームレート変化である。これらは線形特性であり、したがって2つの強く対応する対を使用して推定することができる。好ましくは、ハフ変換(Hough transform)が使用されて時間パラメータが推定される。ハフ空間内のピークは最も可能性のある時間パラメータに対応する。ハフ変換及びラドン変換(Radon transform)はここでは検討しないが、van Ginkel, M.、Hendriks, C. L.、van Vliet, L. J.著「A short introduction to the Radon and Hough transforms and how they relate to each other」(Number QI-2004-01 in the Quantitative Imaging Group Technical Report Series, Delft University of Technology)に専門的に記載されている。
ハフ変換は一般的に、パラメータの粗い推定値を得るのに使用される。これらのパラメータを使用して、2つのビデオシーケンス間のフレーム対応性が確立される。好ましい一実施形態では、フレーム対応性をより正確に求めることができる。単一の記述子は一定レベルの精度を提供するが、複数の記述子を組み合わせることによってより高いレベルの精度が達成される。好ましい一実施形態では、記述子間のハミング距離が使用され、このハミング距離は全記述子にわたって加算される。好ましくは、2つのシーケンスからの複数の対応するフレームが選択されて、該フレームからの記述子の組合せの間の距離を試験することによって、該シーケンス間の距離が求められる。好ましい一実施形態では、一群の(たとえば7つの)連続するフレームが第1のシーケンスの開始部分から選択され、第2のシーケンスからの対応するフレームと比較される。代替的に、各フレームはシーケンスの複数の部分(中央、終了部分等)からのものであってもよく、且つ/又はフレームは不連続であってもよい。好ましい一実施形態では、対応する対のうち一方のフレームを固定しておき、他方の対応するフレームの周辺領域(locality)においてより良好に対応するフレームを求めて検索することによって、フレームの対応性が改良される。
一実施形態では、効率的な記述子記憶方式が使用されて、ビデオシーケンスのコンパクトな表現が形成される。好ましい実施形態では、シーケンスは、たとえば1秒の断片に分割される。各断片について、Q個の2値ヒストグラム
Figure 0005634075
がビットストリーム内に記憶される。2値ヒストグラムに続いて、断片内のフレームのそれぞれに対する記述子
Figure 0005634075
が記憶される。シーケンス内のすべての断片が、このようにしてビットストリーム内に連続して記憶される。任意選択で、ビットストリームの先頭に、シーケンスのフレームレート、フレームの数、断片の数等のような情報を記憶することができる。
代替的な一実施形態では、シーケンスは、ビットストリーム内で複数のフレーム表現によって表現することができる。ここで、各フレームはQ個のワードと1つの2値記述子
Figure 0005634075
とによって表される。シーケンス内のフレームのすべてをこのように記憶することができる。別の代替形態では、最初に全てのフレーム内のすべてのワードを記憶し、続いてすべての記述子を記憶することが望ましい場合がある。明らかに、ヒストグラム、ワード、及び記述子の量子化されたバージョン又は元のバージョンを記憶することが可能である。
本発明の代替的な一実施形態では、ビデオフレームから抽出された記述子を、適切なフレーム記述子(たとえば色ヒストグラム又はエッジ強度ヒストグラム)に変更することができ、これらはその元の形態、量子化された形態、又は2値化された形態で記憶することができ、これらからワードを形成することができる。本発明の異なる実施形態では、さまざまな決定段階を省略することができる。たとえば、各語彙に関するビデオシーケンス内の一致ワードの発生の時間的な順序付けに基づく処理及び決定段階は、その全体を省略することができる。これは、処理を、対応するフレームの改良、位置特定、及び決定に直接進めることによってなされる。本発明の代替的な実施形態では、各ビデオシーケンス内で発見される一致ワードによる決定段階を省略することができ、処理を、ビデオシーケンス内の一致ワードの発生の時間的な順序付けに基づく処理及び決定段階に直接進めることができる。
上述の処理動作を実施するデータ処理装置1を図5に示す。装置1は、たとえば、パーソナルデスクトップコンピュータ又はポータブルコンピュータとすることができる。
装置1は、データ処理装置の従来の要素を備える。これらの要素は当業者に既知であるため、詳細な説明は必要ない。手短に、図5の装置1は、コンピュータプログラム製品(記憶媒体5又は信号7等)からコンピュータプログラム命令及び処理されるビデオデータを受信する入力データインタフェース3を備える。処理システムはたとえば、CPU9、ランダムアクセスメモリ11、及び読出し専用メモリ13(これらはバス15によって接続される)によって提供される。CPU9は動作全体を制御する。RAM11は、CPU9によって、プログラムを実行すると共にROM4(プログラム及び他のデータを記憶する)を制御するのに使用される作業メモリである。装置1の処理装置は、本明細書において上述したように画像を規定する画像データを処理する方法を実施するように構成される。この処理の結果は出力インタフェース17によって出力される。
上述の処理装置1はコンピュータプログラム命令に従って処理を実施するが、代替的な処理装置を、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの任意の適切な組合せとして、任意の適切な又は望ましい方法で実施することができる。本発明を、コンピュータプログラム(プログラム可能処理装置内にロードされ、該装置上で実行されると、上述の画像データ処理方法のうちの1つを実行するもの)として具現化することができ、また、コンピュータプログラム製品(たとえばこのようなコンピュータプログラムを記憶するデータキャリア)として具現化することもできることにさらに留意されたい。
本発明の実施形態の上記の記載は、例示及び説明を目的として提示されている。網羅的であること、又は本発明を開示されている厳密な形態に限定することは意図されていない。本発明の範囲から逸脱することなく変更、改変、及び変形を行うことができる。

Claims (15)

  1. 画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する方法であって、
    前記方法は、前記シーケンス内の各画像について複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するステップと、
    前記複数の記述子要素から複数のワードを生成するステップと
    いずれのワードが前記シーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するステップとを含み、
    各前記ワードは前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて生成され、
    前記ワードのすべてにおける総ビット数が前記記述子要素のすべてにおける総ビット数を下回ることを特徴とする方法。
  2. 画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する方法であって、
    前記方法は、前記シーケンス内の各画像について複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するステップと、
    前記複数の記述子要素から、複数のワードを生成するステップと
    いずれのワードが前記シーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するステップとを含み、
    各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成されることを特徴とする方法。
  3. 前記方法は、各前記記述子要素を量子化するステップをさらに含み、
    各前記ワードは、前記量子化された記述子要素から生成される、請求項1又は2に記載の方法。
  4. 各前記記述子要素を量子化する前記ステップは、各前記記述子要素について1ビットの2値結果を生成するために各前記記述子要素を量子化するステップを含む、請求項3に記載の方法。
  5. 前記記述子要素は、複数の異なる画素解像度で前記画像に対して生成され、
    異なる画素解像度で生成される前記記述子要素からの1つ又は複数のビットを組み合わせることによって、少なくとも1つのワードが生成される、請求項1〜4のいずれか1項に記載の方法。
  6. 前記画像のシーケンスはビデオシーケンスの断片を含む、請求項又はに記載の方法。
  7. 前記ヒストグラムデータ、前記ワード、及び前記記述子要素はビットストリーム内に記憶される、請求項のいずれか1項に記載の方法。
  8. 画像の第1のシーケンス及び画像の第2のシーケンスを処理して、前記第1のシーケンスと前記第2のシーケンスとを比較する方法であって、
    前記方法は、ステップ(a)およびステップ(b)を含み、
    前記ステップ(a)は、前記第1のシーケンス内の複数の前記画像のそれぞれ、及び前記第2のシーケンス内の複数の前記画像のそれぞれを処理するステップであり、
    前記ステップ(a)は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するサブステップと、前記記述子要素から複数のワードを生成するサブステップと、いずれのワードが前記シーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するサブステップとを含み、
    各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成され、
    前記第2のシーケンスに対する前記ワードのそれぞれは、前記第1のシーケンスに対する前記ワードのそれぞれと同じ組合せの記述子要素から生成され、
    前記ステップ(b)は、前記第1のシーケンス内の前記複数の画像に対して生成された前記2値化ヒストグラムデータと、前記第2のシーケンス内の前記複数の画像に対して生成された前記2値化ヒストグラムデータとを比較することによって、前記第1のシーケンスと前記第2のシーケンスとを比較する処理を実施するステップである、方法。
  9. 2値化ヒストグラムデータについての比較結果はマージされて全体の比較結果を生成する、請求項に記載の方法。
  10. 各前記ワードに対して、双方のシーケンス内に発生する前記ワード値を求めるステップと、
    各前記ワードに対して、双方のシーケンス内における前記ワード値の時間的な発生順序を求めるステップと、
    前記時間的な発生順序を比較するステップと、
    をさらに含む、請求項8又は9に記載の方法。
  11. 前記方法は、一致する画像対を特定するステップと、少なくとも1つの特定された画像対間の類似度を求めるために、さらなる対応性試験を実施するステップとを含み、
    前記一致する画像対は、前記第1のシーケンスからの1つの画像と前記第2のシーケンスからの1つの画像とを含む、請求項10のいずれか1項に記載の方法。
  12. 画像の第1のシーケンス及び画像の第2のシーケンスを処理して、前記第1のシーケンスと前記第2のシーケンスとを比較する装置であって、
    前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段と、シーケンス比較手段とを備え、
    前記記述子要素生成手段は、前記第1のシーケンス内の複数の前記画像のそれぞれ、及び前記第2のシーケンス内の複数の前記画像のそれぞれを、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理して、複数の記述子要素を生成することによって処理するように構成され、
    前記ワード生成手段は、各前記画像の前記記述子要素から、複数のワードを生成するように構成され、
    各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成され、
    前記ワード生成手段は、前記第2のシーケンスに対する前記ワードのそれぞれを、前記第1のシーケンスに対する前記ワードのそれぞれと同じ組合せの記述子要素から生成するように構成され、
    前記ヒストグラムデータ生成手段は、いずれのワードが前記シーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するよう構成され、
    前記シーケンス比較手段は、前記第1のシーケンス内の前記複数の画像に対して生成される前記2値化ヒストグラムデータと、前記第2のシーケンス内の前記複数の画像に対して生成される前記2値化ヒストグラムデータとを比較することによって、前記第1のシーケンスと前記第2のシーケンスとを比較する処理を実施するように構成される、装置。
  13. 画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する装置であって、
    前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段とを備え、
    前記記述子要素生成手段は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することにより、複数の記述子要素を生成するように構成され、
    前記ワード生成手段は、前記記述子要素から複数のワードを生成するように構成され、
    前記ヒストグラムデータ生成手段は、いずれのワードが前記画像のシーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するように構成され、
    各前記ワードは前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて生成され、
    前記ワードのすべてにおける総ビット数が前記記述子要素のすべてにおける総ビット数を下回ることを特徴とする装置。
  14. 画像のシーケンスの画像データを処理して、前記シーケンスを表現する値を生成する装置であって、
    前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段とを備え、
    前記記述子要素生成手段は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することにより、複数の記述子要素を生成するように構成され、
    前記ワード生成手段は、前記記述子要素から、複数のワードを生成するように構成され、
    前記ヒストグラムデータ生成手段は、いずれのワードが前記画像のシーケンス内に現れるか、その頻度を示す2値化ヒストグラムデータを生成するように構成され、
    各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成されることを特徴とする装置。
  15. 処理装置に、請求項1〜11のいずれか1項に記載の方法を実施させるコンピュータプログラム。
JP2010014279A 2009-01-26 2010-01-26 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品 Active JP5634075B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0901262.6A GB0901262D0 (en) 2009-01-26 2009-01-26 Video identification
GB0901262.6 2009-01-26

Publications (3)

Publication Number Publication Date
JP2010191954A JP2010191954A (ja) 2010-09-02
JP2010191954A5 JP2010191954A5 (ja) 2013-05-23
JP5634075B2 true JP5634075B2 (ja) 2014-12-03

Family

ID=40469100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010014279A Active JP5634075B2 (ja) 2009-01-26 2010-01-26 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品

Country Status (6)

Country Link
US (1) US8699851B2 (ja)
EP (1) EP2214106A3 (ja)
JP (1) JP5634075B2 (ja)
KR (1) KR101634395B1 (ja)
CN (1) CN101789082B (ja)
GB (1) GB0901262D0 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849044B2 (en) 2011-01-24 2014-09-30 Alcatel Lucent Method and apparatus for comparing videos
WO2012093339A2 (en) * 2011-01-07 2012-07-12 Alcatel Lucent Method and apparatus for comparing videos
US8731292B2 (en) 2011-01-07 2014-05-20 Alcatel Lucent Method and apparatus for comparing videos
KR102121534B1 (ko) * 2015-03-10 2020-06-10 삼성전자주식회사 시퀀스 간의 유사성을 결정하는 방법 및 디바이스
CN109657524B (zh) * 2017-10-11 2021-03-05 阿里巴巴(中国)有限公司 一种图像匹配方法及装置
GB2582592A (en) * 2019-03-26 2020-09-30 Sony Corp A method, apparatus and computer program product for storing images of a scene
FR3104360B1 (fr) * 2019-12-10 2021-12-03 Zodiac Data Systems Procédé de compression d’une séquence d’images montrant des éléments graphiques synthétiques d’origine non photographique

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5005154B2 (ja) * 2000-09-08 2012-08-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 記憶媒体上に記憶された情報信号を再生する装置
KR101204788B1 (ko) * 2004-06-03 2012-11-26 삼성전자주식회사 영상의 공간 예측 부호화 방법, 부호화 장치, 복호화 방법및 복호화 장치
DE602004026645D1 (de) * 2004-07-23 2010-05-27 Telecom Italia Spa Verfahren zum erzeugen und verwenden eines vektorcodebuchs, verfahren und einrichtung zum komprimieren von daten und verteiltes spracherkennungssystem
GB2418555A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
US7840081B2 (en) * 2004-09-23 2010-11-23 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
GB2418556A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
US7650039B2 (en) * 2005-03-03 2010-01-19 Canon Kabushiki Kaisha Image encoding apparatus, image decoding apparatus, control method therefor, computer program, and computer-readable storage medium
US8009861B2 (en) * 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
EP2315161A1 (en) 2006-10-11 2011-04-27 Mitsubishi Electric Information Technology Centre Europe B.V. Image descriptor for image recognition
JP4916950B2 (ja) 2007-05-14 2012-04-18 ヤフー株式会社 動画像比較装置、動画像比較方法、及び動画像比較プログラム
US8086675B2 (en) * 2007-07-12 2011-12-27 International Business Machines Corporation Generating a fingerprint of a bit sequence

Also Published As

Publication number Publication date
GB0901262D0 (en) 2009-03-11
KR101634395B1 (ko) 2016-06-28
US8699851B2 (en) 2014-04-15
EP2214106A2 (en) 2010-08-04
CN101789082A (zh) 2010-07-28
CN101789082B (zh) 2013-11-20
EP2214106A3 (en) 2013-04-10
KR20100087268A (ko) 2010-08-04
US20100189409A1 (en) 2010-07-29
JP2010191954A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
US11361017B1 (en) Method to differentiate and classify fingerprints using fingerprint neighborhood analysis
JP5634075B2 (ja) 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US8611422B1 (en) Endpoint based video fingerprinting
US9053386B2 (en) Method and apparatus of identifying similar images
US8477836B2 (en) System and method for comparing an input digital video to digital videos using extracted and candidate video features
US8457400B2 (en) Patch-based texture histogram coding for fast image similarity search
CN108881947B (zh) 一种直播流的侵权检测方法及装置
JP5878238B2 (ja) 映像を比較するための方法および装置
JP4894956B2 (ja) 時間区間代表特徴ベクトル生成装置
US9047534B2 (en) Method and apparatus for detecting near-duplicate images using content adaptive hash lookups
Steinebach et al. Efficient cropping-resistant robust image hashing
JP2010186307A (ja) 動画コンテンツ識別装置および動画コンテンツ識別方法
Nie et al. Key-frame based robust video hashing using isometric feature mapping
JP2013070158A (ja) 映像検索装置およびプログラム
Özkan et al. Visual group binary signature for video copy detection
Ibrahim et al. Image similarity using dynamic time warping of fractal features
Kaipa et al. Statistical steganalyis of images using open source software
Chaisorn et al. A fast and efficient framework for indexing and detection of modified copies in video
Purushotham et al. Picture-in-picture copy detection using spatial coding techniques
CN114925231A (zh) 盗版音频检测方法、设备和计算机程序产品
Kutluk et al. ITU MSPR TRECVID 2010 Video Copy Detection System.
KR101081459B1 (ko) 고차원 이진 데이터 검색 장치 및 방법
JP2005044211A (ja) 奥行情報を含んだ画像の分類・検索方法および装置ならびにプログラム
FR3048295A1 (fr) Procede de description de documents multimedia par traduction inter-modalites, systeme et programme d'ordinateur associes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141014

R150 Certificate of patent or registration of utility model

Ref document number: 5634075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250