JP5634075B2

JP5634075B2 - 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品

Info

Publication number: JP5634075B2
Application number: JP2010014279A
Authority: JP
Inventors: ポール・ブラスネット; スタヴロス・パシャラキス; ミロスロー・ボバー
Original assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Current assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date: 2009-01-26
Filing date: 2010-01-26
Publication date: 2014-12-03
Anticipated expiration: 2030-01-26
Also published as: GB0901262D0; KR101634395B1; US8699851B2; EP2214106A2; CN101789082A; CN101789082B; EP2214106A3; KR20100087268A; US20100189409A1; JP2010191954A

Description

本発明は、一般的な編集操作（カメラ取込み、アナログ／デジタル変換、再圧縮等）に対してロバストである、高速且つ信頼できるビデオ識別のための方法、装置、及びコンピュータプログラム製品に関する。

専門家及び消費者によって記憶されているビデオの数が急速に増大している。専門家に関しては、ビデオコンテンツの作成、記憶、及び編集のコストの問題及び技術的な問題は減少してきている。消費者に関しては、セットトップボックス、パーソナルビデオレコーダ、ビデオカメラ、及びコンピュータの選択の幅が広がっていること、並びに、これらのコストが減少していることによって、ビデオコンテンツの増大に拍車がかかっている。過去数年にわたって、インターネット上で利用可能な合法及び非合法のコンテンツが共に爆発的に増大している。このコンテンツをインデックス付けし、検索し、監視する能力がますます重要な問題になってきている。ＭＰＥＧ−７標準規格は、コンテンツベースの検索及び取出しの領域における初期の仕事であった。この標準規格の元のバージョンにおいて欠けていた領域が、複製類似ビデオ（near-duplicate video）検出である。

複製類似ビデオ検出は、問合せビデオシーケンスが与えられると、データベース内のすべての複製を発見するものと定義することができる。複製（複製類似）の概念及び解釈はさまざまである。しかしながら、本発明に関しては、複製とは、オリジナルに対する一般的なビデオ編集／処理操作によって作成されたシーケンスであるとみなす。このような操作の例は、より多くの例の中でも、色変更、圧縮、トランスコーディング、フォーマット変更、フレームレート変更、アナログＶＣＲ再取込み、及びカメラ再取込みを含む。本発明は、複製部分が問合せシーケンスの一部のみを形成する場合がある問題にも対処する。

この領域における従来の仕事（非特許文献１）は、複数のカットを撮影し、境界を使用してビデオシーケンスのシグネチャを形成していた。これは、ビデオの非常にコンパクトな表現を提供するが、短いシーケンスに対しては非常に不満足にしか機能せず、使用されるショット検出アルゴリズムの影響を非常に受けやすい（非特許文献２）。

ビデオ内の複製（複製類似）検出に対する、特徴点を用いる一般的な当該技術水準の手法は、非特許文献３に与えられており、ｉ）キーフレームを検出し、ｉｉ）該フレーム内のキーポイントを検出し、ｉｉｉ）該ポイントの周囲の領域から特徴を検出し、ｉｖ）特徴を使用してシーケンスを照合し、ｖ）シーケンス内の物体の空間的結束性（spatial cohesion）に関する試験を適用する、というように概説することができる。この概説した手法にはいくつかの欠点がある。まず、キーフレームを使用するということは、この方法が短いクリップに対してはあまり良好に機能しない可能性があることを意味している。特徴の抽出（ｉｉｉ）は計算コストが高い方法であり、その結果ストレージ要求が大きくなる。ステップ（ｉｖ）に関して、データのクラスタリングから学習される視覚的語彙が使用される。これは特定のデータセットに対する過剰適合をもたらす可能性があり、これは一般化の失敗を伴う。非特許文献４のような関連方法は、使用されるハッシュテーブルに対する高メモリ要件と引き換えに高速の検索を提供する。これはいくつかのシナリオに対しては適切であり得るものの、一般的にメモリ資源が非常に限られている家庭用電化製品の環境においては適切でない。

T. Hoad及びJ. Zobel著「Video similarity detection for digital rights management」（Proceedings of Australasian Computer Science Conference, pages 237-245, Adelaide, Australia, 2003） T. Hoad及びJ. Zobel、Proceedings of the 5th ACM SIGMM international workshop on Multimedia information retrieval, pages 262-269, Berkeley, US, 2003 J. Sivic、A. Zisserman著「Efficient Visual Search for Objects in Videos」（Proceedings of the IEEE, April 2008, 96 (4), pages 548-566） Ondrej Chum、James Philbin、Michael Isard、及びAndrew Zisserman著「Scalable near identical image and shot detection」（Proceedings of the 6th ACM international conference on Image and video retrieval, pages 549-556, Amsterdam, The Netherlands, 2007）

本発明は、少なくとも、このような従来技術の方法の制限のうちの１つ又は複数に対処することを目的とする。

本発明の特定の態様を添付の特許請求の範囲に記載している。他の態様は下記の実施の形態に記載しており、当業者であれば本明細書を読むことによって理解されよう。

要約すると、本発明は、画像の第１のシーケンス及び画像の第２のシーケンスを処理して、該第１のシーケンスと該第２のシーケンスとを比較する装置であって、
該装置は、
第１のシーケンス内の複数の画像のそれぞれ、及び第２のシーケンス内の複数の画像のそれぞれを、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理することによって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成することによって処理するように構成される記述子要素生成手段であって、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
各画像の記述子要素から、複数のワード（word）であって、各ワードが記述子要素ビットの固有の組合せを含むような、複数のワードを形成するように構成されるワード生成手段であって、該ワード生成手段は、第２のシーケンスに対するワードのそれぞれを第１のシーケンスに対するワードのそれぞれと同じ組合せの記述子要素ビットから生成するように構成される、ワード生成手段と、
第１のシーケンス内の複数の画像に対して生成されるワードと、第２のシーケンス内の複数の画像に対して生成されるワードとを比較することによって、第１のシーケンスと第２のシーケンスとを比較する処理を実施するように構成されるシーケンス比較手段とを備える、装置を提供する。

シーケンス比較手段は、第１のシーケンス及び第２のシーケンス内に異なるワード値が発生する頻度を比較する処理を含む、第１のシーケンスと第２のシーケンスとを比較する処理を実施するように構成することができる。

シーケンス比較手段は、
第１のシーケンスに対する発生データを生成するために、第１のシーケンス内の各ワードに対する各可能なワード値の発生回数を求めること、
第２のシーケンスに対する発生データを生成するために、第２のシーケンス内の各ワードに対する各可能なワード値の発生回数を求めること、及び、
第１のシーケンスに対する発生データと、第２のシーケンスに対する発生データとを比較することを含む、第１のシーケンスと第２のシーケンスとを比較する処理を実施するように構成することができる。

シーケンス比較手段は、第１のシーケンスに対する発生データと、第２のシーケンスに対する発生データとを比較して、各ワードについての比較結果を生成すると共に、該それぞれの比較結果をマージして全体の比較結果を生成するように構成することができる。

本装置は、
各ワードに対して、双方のシーケンス内に発生するワード値を求める手段と、
各ワードに対して、双方のシーケンスにおけるワード値の時間的な発生順序を求める手段と、
該時間的な発生順序を比較する手段と
をさらに備えることができる。

本装置は、
一致する画像対であって、第１のシーケンスからの１つの画像と第２のシーケンスからの１つの画像とを含む画像対を特定する手段と、
少なくとも１つの特定された画像対間の類似度を求めるためにさらなる対応性試験を実施する手段と
をさらに備えることができる。

本発明はまた、画像を規定する画像データを処理して、該画像を表す少なくとも１つの値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
記述子要素から、少なくとも１つのワードであって、各ワードが、１つ又は複数の記述子要素からの１つ又は複数のビットを含むと共に、該ワードのすべてにおける総ビット数が記述子要素のすべてにおける総ビット数を下回るような、少なくとも１つのワードを形成するように構成されるワード生成手段と
を備える、装置を提供する。

本発明はまた、画像を規定する画像データを処理して、該画像を表す複数の値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
記述子要素から、複数のワードであって、各ワードが、記述子要素ビットの固有の組合せを含むような、複数のワードを形成するように構成されるワード生成手段とを備える、装置を提供する。

本装置は、各記述子要素を量子化する量子化手段をさらに備えることができ、ワード生成手段は、量子化された記述子要素から各ワードを形成するように構成することができる。

量子化器は、各記述子要素を量子化して、それぞれの１ビットの２値結果を形成するように構成することができる。

記述子要素生成手段は、複数の異なる画素解像度で画像に対する記述子要素を生成するように構成することができ、ワード生成手段は、複数の異なる画素解像度で生成された記述子要素からの１つ又は複数のビットを組み合わせることによって、少なくとも１つのワードを生成するように構成することができる。

本発明はまた、画像を規定する画像データを処理して、該画像を表す少なくとも１つの値を生成する装置であって、
該装置は、
画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
各記述子要素を量子化するように構成される量子化手段と、
量子化された記述子要素から画像を表す少なくとも１つの値を形成するように構成される表現値形成手段と
を備える、装置を提供する。

本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
シーケンス内の各画像に対して、画像の記述子要素から、少なくとも１つのワードであって、各ワードが、１つ又は複数の記述子要素からの１つ又は複数のビットを含むと共に、画像の該ワードのすべてにおける総ビット数が、該画像の記述子要素のすべてにおける総ビット数を下回るような、少なくとも１つのワードを形成するように構成されるワード生成手段と、
いずれのワードが画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
シーケンス内の画像に対するヒストグラムデータ、ワード、及び記述子要素を記憶装置に書き込むように構成されるデータ書込み手段と
を備える、装置を提供する。

本装置は、各記述子要素を量子化するように構成される記述子要素量子化手段をさらに備えることができ、ワード生成手段は、量子化された記述子要素から各ワードを形成するように構成することができる。加えて、本装置は、ヒストグラムデータを量子化するように構成されるヒストグラムデータ量子化手段をさらに備えることができ、データ書込み手段は、量子化されたヒストグラムデータ、ワード、及び量子化された記述子要素を記憶装置に書き込むように構成することができる。

本装置は、ビデオシーケンスの断片を含む画像シーケンスを処理するように動作可能とすることができる。

データ書込み手段は、ヒストグラムデータ、ワード、及び記述子要素をビットストリーム内に記憶するように構成することができる。

本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、
シーケンス内の各画像に対して、画像の記述子要素から、複数のワードであって、各ワードが、記述子要素ビットの固有の組合せを含む、複数のワードを生成するように構成されるワード生成手段と、
いずれのワードが画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
シーケンス内の画像に対するヒストグラムデータ、ワード、及び記述子要素を記憶装置に書き込むように構成される、データ書込み手段とを備える、装置を提供する。

本装置は、ビデオシーケンスの断片を含む画像のシーケンスを処理するように動作可能とすることができる。

本発明はまた、画像のシーケンスを規定する画像データを処理して、シーケンスの表現を生成及び記憶する装置であって、
該装置は、
シーケンス内の各画像に対して、画像内の複数の画素近傍集合のそれぞれに対する画像データを処理するように構成される記述子要素生成手段であって、該画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成し、各記述子要素は１つ又は複数のビットを含む、記述子要素生成手段と、各記述子要素を量子化するように構成される記述子要素量子化手段と、
シーケンス内の各画像に対して、量子化された記述子要素から画像を表す少なくとも１つの値を形成するように構成される表現値形成手段と、画像を表すいずれの値が画像のシーケンス内に現れるか、及び現れる回数を規定するヒストグラムデータを生成するように構成されるヒストグラムデータ生成手段と、
ヒストグラムデータを量子化するように構成されるヒストグラムデータ量子化手段と、
量子化されたヒストグラムデータ、画像を表す値、及び量子化された記述子要素を記憶装置に書き込むように構成される、データ書込み手段と
を備える、装置を提供する。

データ書込み手段は、ヒストグラムデータ、画像を表す値、及び記述子要素をビットストリーム内に記憶するように構成することができる。

本発明の一実施の形態は、
‐ビデオシーケンスの非常にコンパクトな表現を提供し、
‐トレーニングデータに依存せず、
‐非常に高速の検索及び照合を提供し、
‐一般的な編集／処理操作に対してロバストであり、且つ
‐照合フレーム位置の正確な位置特定を提供する、
ビデオ識別のための新規の方法及び装置を提供する。

ここで、本発明の実施形態を、添付の図面を参照して例示としてのみ説明する。

一実施形態における、記述子要素を生成する処理を示す図である。一実施形態における、記述子要素からワードを生成する処理を示す図である。一実施形態における２値化を示す図である。一実施形態における、時間シフト及びフレームレート変化の決定を示す図である。一実施形態の処理動作を実施する処理装置の一例を示す図である。

これより、本発明の一実施形態における処理装置によって実施される方法を説明する。本方法は、いくつかの処理動作を含む。本明細書の末尾において説明するように、これらの処理動作は、ハードウェア、ファームウェア、コンピュータプログラム命令に従って動作する処理ユニット、又はそれらの組合せを使用する処理装置によって実施することができる。

複数のビデオフレームｆ_i（ｃ，ｘ，ｙ）から成るシーケンスを考える。ここで、ｉはフレームインデックスであり、たとえばｉ∈［０，Ｔ−１］であり、ここで、Ｔはシーケンス内のフレームの総数である。ｃはｌ（エル）個のカラーチャネルにおけるインデックスであり、たとえばｌ（エル）＝３ではｃ∈｛Ｙ，Ｕ，Ｖ｝である。ｘ及びｙは空間座標であり、たとえばｘ∈［０，Ｍ−１］、ｙ∈［０，Ｎ−１］であり、ここでＭは水平フレーム解像度であり、Ｎは垂直フレーム解像度である。

本発明の好ましい一実施形態では、各フレームをその画素強度(pixel intensity)及び差分に関して記述する。このような記述子は、本発明の同時継続出願である欧州特許出願第１６４０９１３号及び欧州特許出願第１６４０９１４号に記載されており、これらは参照によりその全体が本明細書に援用される。本発明の好ましい一実施形態では、空間的に再サンプリングされたｍ×ｍ画素解像度のフレームを考える。ここで、ｍは２の累乗である。好ましくは、ｍは小さな値、たとえばｍ＝１６又はｍ＝３２であるが、これは限定ではない。ここで、各フレームは重複しない２×２画素近傍集合（pixel neighbourhoods）に分割され、各近傍集合において記述子要素が以下のように計算される。

これは、図１において、ｍ＝８及びｃ＝Ｙについて一般性を損なうことなく示されている。式（１）による記述子要素は平均強度であり、フレーム全体に対してとられ、そのフレームを（ｍ／２）×（ｍ／２）画素解像度で再サンプリングしたものを与え、これが式（１）〜（４）に従って再処理される。このプロセスは、フレーム全体に対する平均強度が計算されるまで継続する。したがって、フレームｆ_iに対する完全な記述子は、異なる複数の画素解像度（すなわち、ｍ×ｍ，ｍ／２×ｍ／２，…，４×４，２×２）における、そのフレームに対する複数の記述子要素を含み、したがって、

によって与えられる。本発明の好ましい一実施形態では、フレームは自身の輝度チャネルＹによって表され、記述子ｄ_iはこの輝度情報から抽出される。

任意選択で、記述子要素は所望のビット数に量子化される。該所望のビット数は異なるものであってもよく、要素ごとに、またはカラーチャネルごとに異なってもよい。本発明の好ましい一実施形態では、記述子要素は以下のように２値化される。

…（５）
ここで、ｒはダイナミックレンジであり、たとえば８ビット画素値についてｒ＝２５６である。

…（６）
ここで、

は式（１）による平均を示し、

は式（２）〜（４）による差分を示す。（５）及び（６）の利点は、それらを、要素の整数部分の２値表現のＭＳＢ（最上位ビット）を維持することと等価となるように実施することができることである。

代替的な実施形態では、位置センシティブハッシング（locality sensitive hashing）のような他の量子化／２値化技法を採用することもできる。この方法は、本明細書においては検討しないが、Samet H.著「Foundations of Multidimensional and Metric Data Structures」（Morgan Kaufmann, 2006）に記載されている。

次いで、フレームに対する完全な記述子が使用されて、少なくとも１つのコンパクトなワード(word)が、記述子要素のうちの１つ又は複数の、１つ又は複数のビットに基づいて形成される。これは図２（ａ）に示されている。「ワード」という用語は、本明細書においては任意のビット数を有し得るワードを指すのに使用され、いくつかのコンピュータ分野の刊行物にあるような特定のビット数に具体的に限定されるわけではないことに留意されたい。より具体的には、本発明の好ましい一実施形態では、２値化された

に含まれる要素のいくつかからなる、小さな順序集合が連結されて、１つのワードを生成する。いずれの要素が選択されるかに対する限定は存在せず、ワードは、異なる複数のカラーチャネルから、異なるレベルの（たとえば１６×１６又は４×４の解像度で抽出される）粗さ（coarseness）からの要素を、式（１）による平均であっても式（２）〜（４）による差分であっても混合することができる。たとえば、本発明の１つの実施形態では、要素はすべての利用可能な要素の中からランダムに選択することができる。本発明の別の実施形態では、要素は、たとえばビデオフレームの特定の空間領域のみを覆う或る幾何パターンに従って選択することができる。本発明のさらに別の実施形態では、要素はそれらのエントロピーに従って順序付けることができ、エントロピーが最も高い要素が選択されてワードを形成する。したがって、ワード形成のプロセスはΦ次元空間からΨ次元空間への射影であり、好ましくはΨ＜＜Φである。２つのビデオフレームに関して、２つの対応するワード（すなわち、順序を有する選択された要素からなるビットパターンのうち対応するもの）間の距離は、フレーム記述子全体の距離の近似である。

ワードを構成する、順序付けされている要素のすべての可能な値のすべての可能な組合せは、そのワードに対する語彙(vocabulary)を与える。すなわち、ワードは複数の記述子要素からなる固有の組合せであり、或るワードに対する語彙はそのワードがとることができる異なる複数の値から成る集合である。たとえば、ワードが２つの記述子要素を含み、各記述子要素が１ビット長であり、各ビットが値０又は１を自由にとることができる場合、そのワードに対する語彙は００、０１、１０、及び１１である。

本発明の好ましい一実施形態では、図２（ｂ）に示すように、各フレームから複数のワードが抽出され、各ワードは２値化された

に含まれる要素のいくつかからなる、小さな順序集合から与えられる。好ましくは、各ワードの要素は任意の適切な方法（ランダム射影、幾何学的制約、エントロピー順序付け等）に従って選択される。各ワードは語彙を有し、各ワードを生成するビットの組合せは固有であるが、部分的に重複する可能性を排除するものではない。たとえば、いくつかの要素は２つ以上のワードに現れる。さらに、各ワードは任意の他のワードと同じ長さを有してもよいし、有しなくてもよい。すなわち、ΦからΨ₁、Ψ₂へ等の次元削減を行うことができる。

本発明の代替的な実施形態では、その元の解像度及びダイナミックレンジにおける記述子ｄ_iの任意のバージョン（量子化されていても２値化されていても）からワードを形成することができる。このような実施形態では、１つの要素が１つのワードに対して２ビット以上寄与することができ、また異なるワードに対して異なるビット数寄与することができ、１つのワードはさまざまな要素からのさまざまな数のビットを含むことができる。

ビデオシーケンスは上述のように、そのフレームのうちの１つ又は複数によって記述される。次いで、１つ又は複数の語彙のそれぞれにおいて異なるワードが発生する頻度を計算する。より具体的には、本発明の好ましい実施形態では、シーケンス内の複数のフレームが処理され、各フレームｆ_iからΦ次元の完全な記述子及び複数のワードｗ_ik（ｋ∈［０，Ｑ−１］）が抽出され、各ワードがＱ個の語彙のうちの１つに対応する。次いで、各語彙ｋについて、フレームシーケンス内に見られるワードのヒストグラムｈ_kがプロットされる。簡単に言えば、このようなヒストグラムは、いずれのワードがフレームシーケンス内に現れるか、及び現れる頻度を示す。より具体的には、各ワードについて、一方の軸に、そのワードがとり得る各値（すなわち、ワードの語彙内の各値）に対するそれぞれのビンを有し、他方の軸に、各値の発生回数を記録するヒストグラムが生成される。

２つのフレームシーケンスｆ¹ _i及びｆ² _jについて、各語彙ｋに対するヒストグラムｈ¹ _kとｈ² _kとを比較してその結果をマージして決定に至ることによって、それらの類似度を評価することができる。この比較は、ヒストグラムインターセクションのような適切な距離測度を使用して達成することができる。本発明の好ましい一実施形態では、ヒストグラムは２値化される。ここで、このような２値化ヒストグラムは多く存在するワードを示す。２値化は、複数の適切な方法（単純な閾値化、適応的な閾値化等）のうちの任意の方法によって達成することができる。２値化ヒストグラム

及び

について、それらの距離は、好ましくは以下の式によって与えられるJaccard距離測度によって測定される。

…（７）
簡単に言えば、式（７）は、所与の語彙におけるフレームシーケンスｆ¹ _i及びｆ² _jの距離を、それらが共通に有する各ワードと、それらが全体で含む全てのワードとの関数として測定する。

Ｑ個の語彙について、Ｑ個のJaccard距離

がある。本発明の好ましい一実施形態では、以下のように、これらの距離が融合されて、複合距離

が与えられる。

…（８）
したがって、

の処理（好ましくは閾値化）によって、フレームシーケンスが類似しているか否かについての決定に至ることができる。この事例において、

が或る閾値未満である場合、シーケンスは一致すると宣言され、そうでない場合は一致しないと宣言される。

明らかに、トリム平均、メジアン、最大値等のような、式（８）に対する多くの代替物が存在する。さらに、代替的な実施形態は、距離融合ではなく、決定融合（各

を適切な閾値を用いて個々に閾値化して、次いで個々の決定をたとえば多数決によって融合すること）によって、フレームシーケンスの類似度に対する決定に至ることができる。本発明の代替的な一実施形態では、距離融合と決定融合と組み合わせること、すなわち、複合の

を計算し、続いて閾値化することによって決定に至ることも可能であるが、一致の決定を、少なくともある設定された数の

距離によってサポートする必要もある。

任意選択で、各語彙に関してビデオシーケンス内の一致するワードの発生の時間的順序を考慮することによって、検出された一致が検証される。好ましい一実施形態では、各語彙ｋに関して、双方のビデオシーケンスｆ¹ _i及びｆ² _jにおいて発生するワードの集合が見つけられる。好ましくは、これらは、双方のヒストグラムｈ¹ _k及びｈ² _kにおいて非ゼロである要素（２値ヒストグラム

及び

の共通部分）を特定することによって見つけられる。各ヒストグラムの各要素が語彙からの
１つのワードに対応することを想起すると、共通部分は、ｚ個の要素を有する、双方のフレームに共通であるワードの集合Ｗ¹² _k＝｛ｗ_λk，λ∈［０，ｚ−１］｝＝｛ｗ_α，…，ｗ_ζ｝を生成する。好ましくは、この集合は、語彙に従って、たとえば数値順又はアルファベット順に順序付けされる。次いで、各ビデオシーケンスについて、順序集合Ｗ¹² _kにおけるワードそれぞれについての最初の発生を記録したフレーム番号の集合Ω_k＝｛ω_λk，λ∈［０，ｚ−１］｝＝｛ｆ_α，…，ｆ_ζ｝が生成される。

フレーム番号の２つの集合Ω¹ _k及びΩ² _k（それぞれｆ¹ _i及びｆ² _jに対応する）が比較されて、それらの間の距離が求められる。好ましい実施形態では、Ω¹ _k及びΩ² _kは２値化され、それらの間の距離が正規化ハミング距離によって与えられる。好ましい一実施形態では、２値化は、集合

…（９）
に含まれる互いに隣接する要素の間の差を評価することによって、図３に示されるように実施される。

２値化集合は

と表され、正規化ハミング距離は

と表される。簡単に言えば、このような２値化集合は、順序集合Ｗ¹² _k内の各ワードがビデオシーケンスにおいて最初に現れるのが、ワードの順序集合Ｗ¹² _k内におけるその次のワードの前であるか又は後であるかを記録する。

本発明の代替的な実施形態では、Ω¹ _k及びΩ² _kは２値化することなく、適切な距離測度（たとえば、一方のシーケンス内のワードの発生状況が他方のシーケンスと異なるようなフレームすべての数を与えるＬ１）を使用して比較することができる。

Ｑ個の語彙について、Ｑ個の正規化ハミング距離

が、

…（１０）
として与えられる。
したがって、

明らかに、トリム平均、メジアン、最大値等のような、式（１０）に対する多くの代替物が存在する。さらに、代替的な実施形態は、距離融合ではなく、決定融合（すなわち、各

距離によってサポートする必要もある。

任意選択で、さらなる改良及び位置特定段階が適用されて、ビデオシーケンスが一致するか否かが非常に高いレベルの精度まで決定され、２つのシーケンスにおける対応するフレームの位置が求められる。双方のシーケンスからの一致するワードの集合が使用されて、可能性のあるフレームの対応性が求められる。次いで、シーケンス間の時間的変化を推定することができる。好ましい実施形態では、図４に示すように、シーケンス間の時間シフト及びフレームレート差が求められる。次いで、対応する可能性のある複数のフレームからの記述子を使用して、対応の妥当性を判断し且つ／又は時間変化パラメータを改良することができる。

より具体的には、各語彙ｋについて、共通部分Ｗ¹² _k＝｛ｗ_λk，λ∈［０，ｚ−１］｝＝｛ｗ_α，…，ｗ_ζ｝内のワードのそれぞれは、ビデオシーケンスのそれぞれからの１つ又は複数のフレームに対応し、ここで「１つ又は複数」とは、各シーケンスについて異なる数であり得る。たとえば、あるシーケンス内の１つのみのフレームと、第２のフレーム内の多数のフレームとによって１つのワードを生成することができる。一対のビデオシーケンスについて、また各語彙ｋについて、またＷ¹² _k内のｚ個のワードのそれぞれについて、シーケンスｆ¹ _i及びｆ² _j内においてそのワードに対応するフレーム番号対を含む集合を構築する。したがって、Ｗ¹² _k内のｚ個のワードのうちの１つが、ｆ¹ _i及びｆ² _j内のフレームの単一の対によって生成される場合、そのワードに対する集合は一対のみのフレーム番号を含む。別のワードが、ｆ¹ _i及びｆ² _j内の複数対のフレームによって生成される場合、そのワードに対する集合はこれと同じ複数の対のフレーム番号を含む。

次いで、Ｗ¹² _k内の各ワードについて、また各語彙ｋについて、そのワードに対応するフレーム番号対は、単一の２次元ヒストグラムＧ¹² _ij（ただしｉ∈［０，Ｔ₁−１］，ｊ∈［０，Ｔ₂−１］）内にプロットされ、ここでＴ₁はシーケンスｆ¹ _i内のフレームの数であり、Ｔ₂はシーケンスｆ² _j内のフレームの数である。簡単に言えば、Ｇ¹² _ijにおいて、ビン値０は、検討中のフレーム対、すなわち（ｉ，ｊ）がＱ個の語彙のいずれにおいても一致するワードを生成しなかったことを表し、ｋ＜Ｑのビン値は、検討中のフレーム対がＱ個の語彙のうちのｋ個のみにおいて一致するワードを生成したことを表し、ビン値Ｑは、検討中のフレーム対がＱ個すべての語彙において一致するワードを生成したことを表す。

ｆ¹ _i及びｆ² _j内のフレームは、１つ又は複数の語彙において同じワードを有する場合には対応しているとみなされ、これは対応性の弱試験であるとみなすことができる、すなわち、これらのフレームは弱く対応している。弱く対応しているフレーム対のそれぞれについて、それらをより詳細な記述子に従って比較することによって、対応性のより強い試験が実行される。好ましくは、上述のようにｆ¹ _i及びｆ² _jから抽出される２値記述子

及び

が使用される。このような２値記述子間の距離は好ましくは、ハミング距離

として計算される。

本発明の代替的な実施形態では、その元の解像度及びダイナミックレンジにおける、式（１）〜（４）に記述されている記述子ｄの任意のバージョン（量子化されていても２値化されていても）、又はこの記述子の適切な部分集合を使用することができ、ハミング距離

は適切な距離測度、たとえばＬ１に置き換えられる。

弱く対応するフレーム対が多数存在する場合、処理時間を有益に低減するために、限られた数のフレーム対のみを強く対応するフレーム対であると確認することができる。好ましくは、これらの対は共通のワードが最も多い順に試験される。すなわち、Ｑ個の共通のワードを有する対が最初に試験され、次いで、Ｑ−１個の共通のワードを有する対が試験され、以下同様である。共通のワードの数によるこのタイプの順序付けは、２ＤヒストグラムＧ¹² _ijによって容易に提供される。弱く対応するフレーム対は、フレーム記述子間の距離が特定の基準を満たす場合に（すなわち、好ましくは所定の閾値を下回る場合に）、強く対応するフレーム対として受容される。これは、残りの弱く対応する対がなくなるか、又は強く対応する対が特定数発見されるまで繰り返される。上記から、Ｑ個よりも少ない一致ワードを有するフレーム対、又はただ１つの一致ワードしか有しないフレーム対であっても、強く対応するフレーム対であると確認される場合があり、一方で、Ｑ個の語彙内でＱ個の一致ワードを有するフレーム対が、それらの詳細な記述子によれば類似性に乏しいために、強く対応するフレーム対であると確認されない場合があることになる。このように、一般的に、より多数の弱く対応するフレーム対は、より少数の強く対応するフレーム対に低減される。

次いで、強く対応する対が使用されて、フレームシーケンス間の時間パラメータ変化が推定される。好ましい一実施形態では、時間パラメータは時間シフト及びフレームレート変化である。これらは線形特性であり、したがって２つの強く対応する対を使用して推定することができる。好ましくは、ハフ変換(Hough transform)が使用されて時間パラメータが推定される。ハフ空間内のピークは最も可能性のある時間パラメータに対応する。ハフ変換及びラドン変換(Radon transform)はここでは検討しないが、van Ginkel, M.、Hendriks, C. L.、van Vliet, L. J.著「A short introduction to the Radon and Hough transforms and how they relate to each other」（Number QI-2004-01 in the Quantitative Imaging Group Technical Report Series, Delft University of Technology）に専門的に記載されている。

ハフ変換は一般的に、パラメータの粗い推定値を得るのに使用される。これらのパラメータを使用して、２つのビデオシーケンス間のフレーム対応性が確立される。好ましい一実施形態では、フレーム対応性をより正確に求めることができる。単一の記述子は一定レベルの精度を提供するが、複数の記述子を組み合わせることによってより高いレベルの精度が達成される。好ましい一実施形態では、記述子間のハミング距離が使用され、このハミング距離は全記述子にわたって加算される。好ましくは、２つのシーケンスからの複数の対応するフレームが選択されて、該フレームからの記述子の組合せの間の距離を試験することによって、該シーケンス間の距離が求められる。好ましい一実施形態では、一群の（たとえば７つの）連続するフレームが第１のシーケンスの開始部分から選択され、第２のシーケンスからの対応するフレームと比較される。代替的に、各フレームはシーケンスの複数の部分（中央、終了部分等）からのものであってもよく、且つ／又はフレームは不連続であってもよい。好ましい一実施形態では、対応する対のうち一方のフレームを固定しておき、他方の対応するフレームの周辺領域（locality）においてより良好に対応するフレームを求めて検索することによって、フレームの対応性が改良される。

一実施形態では、効率的な記述子記憶方式が使用されて、ビデオシーケンスのコンパクトな表現が形成される。好ましい実施形態では、シーケンスは、たとえば１秒の断片に分割される。各断片について、Ｑ個の２値ヒストグラム

がビットストリーム内に記憶される。２値ヒストグラムに続いて、断片内のフレームのそれぞれに対する記述子

が記憶される。シーケンス内のすべての断片が、このようにしてビットストリーム内に連続して記憶される。任意選択で、ビットストリームの先頭に、シーケンスのフレームレート、フレームの数、断片の数等のような情報を記憶することができる。

代替的な一実施形態では、シーケンスは、ビットストリーム内で複数のフレーム表現によって表現することができる。ここで、各フレームはＱ個のワードと１つの２値記述子

とによって表される。シーケンス内のフレームのすべてをこのように記憶することができる。別の代替形態では、最初に全てのフレーム内のすべてのワードを記憶し、続いてすべての記述子を記憶することが望ましい場合がある。明らかに、ヒストグラム、ワード、及び記述子の量子化されたバージョン又は元のバージョンを記憶することが可能である。

本発明の代替的な一実施形態では、ビデオフレームから抽出された記述子を、適切なフレーム記述子（たとえば色ヒストグラム又はエッジ強度ヒストグラム）に変更することができ、これらはその元の形態、量子化された形態、又は２値化された形態で記憶することができ、これらからワードを形成することができる。本発明の異なる実施形態では、さまざまな決定段階を省略することができる。たとえば、各語彙に関するビデオシーケンス内の一致ワードの発生の時間的な順序付けに基づく処理及び決定段階は、その全体を省略することができる。これは、処理を、対応するフレームの改良、位置特定、及び決定に直接進めることによってなされる。本発明の代替的な実施形態では、各ビデオシーケンス内で発見される一致ワードによる決定段階を省略することができ、処理を、ビデオシーケンス内の一致ワードの発生の時間的な順序付けに基づく処理及び決定段階に直接進めることができる。

上述の処理動作を実施するデータ処理装置１を図５に示す。装置１は、たとえば、パーソナルデスクトップコンピュータ又はポータブルコンピュータとすることができる。

装置１は、データ処理装置の従来の要素を備える。これらの要素は当業者に既知であるため、詳細な説明は必要ない。手短に、図５の装置１は、コンピュータプログラム製品（記憶媒体５又は信号７等）からコンピュータプログラム命令及び処理されるビデオデータを受信する入力データインタフェース３を備える。処理システムはたとえば、ＣＰＵ９、ランダムアクセスメモリ１１、及び読出し専用メモリ１３（これらはバス１５によって接続される）によって提供される。ＣＰＵ９は動作全体を制御する。ＲＡＭ１１は、ＣＰＵ９によって、プログラムを実行すると共にＲＯＭ４（プログラム及び他のデータを記憶する）を制御するのに使用される作業メモリである。装置１の処理装置は、本明細書において上述したように画像を規定する画像データを処理する方法を実施するように構成される。この処理の結果は出力インタフェース１７によって出力される。

上述の処理装置１はコンピュータプログラム命令に従って処理を実施するが、代替的な処理装置を、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの任意の適切な組合せとして、任意の適切な又は望ましい方法で実施することができる。本発明を、コンピュータプログラム（プログラム可能処理装置内にロードされ、該装置上で実行されると、上述の画像データ処理方法のうちの１つを実行するもの）として具現化することができ、また、コンピュータプログラム製品（たとえばこのようなコンピュータプログラムを記憶するデータキャリア）として具現化することもできることにさらに留意されたい。

本発明の実施形態の上記の記載は、例示及び説明を目的として提示されている。網羅的であること、又は本発明を開示されている厳密な形態に限定することは意図されていない。本発明の範囲から逸脱することなく変更、改変、及び変形を行うことができる。

Claims

画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する方法であって、
前記方法は、前記シーケンス内の各画像について複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するステップと、
前記複数の記述子要素から複数のワードを生成するステップと、
いずれのワードが前記シーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するステップとを含み、
各前記ワードは前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて生成され、
前記ワードのすべてにおける総ビット数が前記記述子要素のすべてにおける総ビット数を下回ることを特徴とする方法。
画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する方法であって、
前記方法は、前記シーケンス内の各画像について複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するステップと、
前記複数の記述子要素から、複数のワードを生成するステップと、
いずれのワードが前記シーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するステップとを含み、
各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成されることを特徴とする方法。
前記方法は、各前記記述子要素を量子化するステップをさらに含み、
各前記ワードは、前記量子化された記述子要素から生成される、請求項１又は２に記載の方法。
各前記記述子要素を量子化する前記ステップは、各前記記述子要素について１ビットの２値結果を生成するために各前記記述子要素を量子化するステップを含む、請求項３に記載の方法。
前記記述子要素は、複数の異なる画素解像度で前記画像に対して生成され、
異なる画素解像度で生成される前記記述子要素からの１つ又は複数のビットを組み合わせることによって、少なくとも１つのワードが生成される、請求項１〜４のいずれか１項に記載の方法。
前記画像のシーケンスはビデオシーケンスの断片を含む、請求項１又は２に記載の方法。
前記ヒストグラムデータ、前記ワード、及び前記記述子要素はビットストリーム内に記憶される、請求項１〜５のいずれか１項に記載の方法。
画像の第１のシーケンス及び画像の第２のシーケンスを処理して、前記第１のシーケンスと前記第２のシーケンスとを比較する方法であって、
前記方法は、ステップ（ａ）およびステップ（ｂ）を含み、
前記ステップ（ａ）は、前記第１のシーケンス内の複数の前記画像のそれぞれ、及び前記第２のシーケンス内の複数の前記画像のそれぞれを処理するステップであり、
前記ステップ（ａ）は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理して複数の記述子要素を生成するサブステップと、前記記述子要素から複数のワードを生成するサブステップと、いずれのワードが前記シーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するサブステップとを含み、
各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成され、
前記第２のシーケンスに対する前記ワードのそれぞれは、前記第１のシーケンスに対する前記ワードのそれぞれと同じ組合せの記述子要素から生成され、
前記ステップ（ｂ）は、前記第１のシーケンス内の前記複数の画像に対して生成された前記２値化ヒストグラムデータと、前記第２のシーケンス内の前記複数の画像に対して生成された前記２値化ヒストグラムデータとを比較することによって、前記第１のシーケンスと前記第２のシーケンスとを比較する処理を実施するステップである、方法。
前記２値化ヒストグラムデータについての比較結果はマージされて全体の比較結果を生成する、請求項８に記載の方法。
各前記ワードに対して、双方のシーケンス内に発生する前記ワード値を求めるステップと、
各前記ワードに対して、双方のシーケンス内における前記ワード値の時間的な発生順序を求めるステップと、
前記時間的な発生順序を比較するステップと、
をさらに含む、請求項８又は９に記載の方法。
前記方法は、一致する画像対を特定するステップと、少なくとも１つの特定された画像対間の類似度を求めるために、さらなる対応性試験を実施するステップとを含み、
前記一致する画像対は、前記第１のシーケンスからの１つの画像と前記第２のシーケンスからの１つの画像とを含む、請求項８〜１０のいずれか１項に記載の方法。
画像の第１のシーケンス及び画像の第２のシーケンスを処理して、前記第１のシーケンスと前記第２のシーケンスとを比較する装置であって、
前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段と、シーケンス比較手段とを備え、
前記記述子要素生成手段は、前記第１のシーケンス内の複数の前記画像のそれぞれ、及び前記第２のシーケンス内の複数の前記画像のそれぞれを、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理して、複数の記述子要素を生成することによって処理するように構成され、
前記ワード生成手段は、各前記画像の前記記述子要素から、複数のワードを生成するように構成され、
各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成され、
前記ワード生成手段は、前記第２のシーケンスに対する前記ワードのそれぞれを、前記第１のシーケンスに対する前記ワードのそれぞれと同じ組合せの記述子要素から生成するように構成され、
前記ヒストグラムデータ生成手段は、いずれのワードが前記シーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するよう構成され、
前記シーケンス比較手段は、前記第１のシーケンス内の前記複数の画像に対して生成される前記２値化ヒストグラムデータと、前記第２のシーケンス内の前記複数の画像に対して生成される前記２値化ヒストグラムデータとを比較することによって、前記第１のシーケンスと前記第２のシーケンスとを比較する処理を実施するように構成される、装置。
画像シーケンスの画像データを処理して、前記シーケンスを表現する値を生成する装置であって、
前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段とを備え、
前記記述子要素生成手段は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することにより、複数の記述子要素を生成するように構成され、
前記ワード生成手段は、前記記述子要素から複数のワードを生成するように構成され、
前記ヒストグラムデータ生成手段は、いずれのワードが前記画像のシーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するように構成され、
各前記ワードは前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて生成され、
前記ワードのすべてにおける総ビット数が前記記述子要素のすべてにおける総ビット数を下回ることを特徴とする装置。
画像のシーケンスの画像データを処理して、前記シーケンスを表現する値を生成する装置であって、
前記装置は、記述子要素生成手段と、ワード生成手段と、ヒストグラムデータ生成手段とを備え、
前記記述子要素生成手段は、前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することにより、複数の記述子要素を生成するように構成され、
前記ワード生成手段は、前記記述子要素から、複数のワードを生成するように構成され、
前記ヒストグラムデータ生成手段は、いずれのワードが前記画像のシーケンス内に現れるか、その頻度を示す２値化ヒストグラムデータを生成するように構成され、
各前記ワードは、前記複数の記述子要素の一部である複数の記述子要素からなる順序集合が連結されて、前記記述子要素の固有の組合せとして生成されることを特徴とする装置。
処理装置に、請求項１〜１１のいずれか１項に記載の方法を実施させるコンピュータプログラム。