JP2014522065A

JP2014522065A - 映像を比較するための方法および装置

Info

Publication number: JP2014522065A
Application number: JP2014525047A
Authority: JP
Inventors: ジャン，ジョン・アール; レン，イエンソン; チャン，ファンジョー; ウッド，トーマス・エル
Original assignee: アルカテル−ルーセント
Priority date: 2011-08-10
Filing date: 2012-07-31
Publication date: 2014-08-28
Anticipated expiration: 2032-07-31
Also published as: CN103718193A; JP5878238B2; US20130039587A1; EP2742459A1; CN103718193B; KR101517750B1; US8639040B2; EP2742459B1; WO2013022645A1; KR20140033509A

Abstract

映像を比較するための方法が、映像の複数のフレームにおいて局所的特徴を検出することと、第１のフレームにおいて検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することとを含む。検出された局所的特徴の少なくとも一部について、第２のフレームにおける局所的特徴の位置に対する第１のフレームにおけるその局所的特徴の位置を表す、向きを含む動き指標を生成して複数の動き指標を取得する。動き指標は、向き範囲によってグループ分けされる。ある向き範囲のグループ分けされた動き指標の数は合計されて、その向き範囲に対する値が得られる。フレームの複数のペアについて、第１のフレームにおける検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することによって、少なくとも１つの所与の向き範囲に対する値の時系列が取得される。少なくとも１つの向き範囲について、第１の映像に対する値の第１の時系列を、第２の映像に対する値の第２の時系列と比較して、第１の映像と第２の映像の類似性を判定する。

Description

本発明は、映像を比較するための方法および装置に関する。

例えば、ＹｏｕＴｕｂｅ（登録商標）、ＧｏｏｇｌｅＶｉｄｅｏおよびＹａｈｏｏ！Ｖｉｄｅｏのような動画共有ウェブサイトでは、ユーザが映像コンテンツをサイトにアップロードして、検索エンジンを介して他者に利用できるようにすることができる。統計によれば、例えば最も人気のある動画共有サイトの１つであるＹｏｕＴｕｂｅでは、２４時間、いつでも映像がアップロードされ、現在一日に約２０億の閲覧がある。ソーシャルネットワーキングサイトの人気が高まることにより、ユーザが映像を取得し、例えばロゴまたは注釈を追加するなどによって映像を編集し、変更した映像を同じ動画共有ウェブサイトまたは他の場所にアップロードすることがいっそう容易になっている。この結果、潜在的に、ある映像の多くの類似のまたは同一のコピーが同じサイトで共有されることとなり、ユーザが実際に欲しいコンテンツを見つけることを不便にし、映像を格納し、提供するために必要とされるリソースを増大させている。

映像は、ユーザによって映像の全体的な内容および主観的印象に基づいて、「本質的に同じもの」または複製（ｄｕｐｌｉｃａｔｅ）であるとみなされる可能性がある。例えば、複製映像コンテンツは、同一のまたはほぼ同一の内容を有する映像の配列を含む可能性があるが、これらは異なるファイル形式である、異なる符号化パラメータを有する、および／または異なる長さである。他の違いは、色および／または照明の変化のような光度の変形、ならびに／あるいは、見出し、ロゴ、および／または境界の追加または変更、および／またはフレームのサイズ変更および切り取りのような、空間および／または時間領域における小さな編集操作である場合がある。これらの例は、網羅的なリストとなることを意図しておらず、他のタイプの違いも存在する可能性がある。したがって、映像のコピーが、様々な歪み、変更、および元の映像からのフォーマット変換を含み、やはり元の映像の複製とみなされる可能性がある。

複製映像の増殖により、ユーザが実際に欲しいコンテンツを発見することが困難または不便になる可能性がある。一例として、ＹｏｕＴｕｂｅ、ＧｏｏｇｌｅＶｉｄｅｏおよびＹａｈｏｏ！Ｖｉｄｅｏからのサンプルクエリに基づくと、平均して、２７％より多くの準複製（ｎｅａｒ−ｄｕｐｌｉｃａｔｅｖｉｄｅｏ）映像が検索結果にリストアップされることがわかり、人気のある映像が結果として最も複製される映像となっている。検索結果に高いパーセンテージの複製映像があることから、ユーザは、必要とする映像を探すためにかなりの時間を費やして映像を差し替えねばならず、既に見た映像の類似コピーを繰り返して見なければならない。複製の結果は、映像の検索、取り出し、および閲覧のユーザの体験を低下させる。さらに、このような複製された映像コンテンツが、ネットワーク全体に複製された映像データを格納し、送信することによって、ネットワークオーバヘッドを増大させる。

内容に基づくコピー検出（ＣＢＣＤ）手法により、クエリ映像のコピー（完全か類似）について映像のデータベースを検索することによって、映像内容に基づく検索が容易になる。ＣＢＣＤ手法の利用は、いくつかの点でユーザ、コンテンツ制作者もしくは所有者、およびネットワーク事業者にとって有益である可能性がある。例えば、複製映像を検出することによって、動画共有サイトは、格納された重複映像コピーの数を減らすことができ、ユーザは、準複製の結果を閲覧する必要がなくなれば、より良い映像検索体験を有することができ、著作権保持者は、その映像クリップの再使用をより容易に発見することができ、コンテンツ配信ネットワークは、他の場合はその存在を知られない可能性がある、近くの映像のコピーにユーザを導くことができる。

映像コピーの検出は、所与の映像が、ターゲットの映像中の部分列と知覚的に同様の部分列を含んでいるかどうかを判定する問題である。より正確には、クエリ映像Ｑおよびターゲット映像Ｔが共に一連の映像フレームとすると、複数のＱと複数のＴとの間の相違点がノイズ閾値未満である場合、映像Ｑが、ターゲット映像Ｔ中の複数のフレームＴの部分列のコピーまたは準コピーである複数のフレームＱの部分列を含む。両方の映像の長さに制限はない。クエリ映像Ｑが、ターゲット映像Ｔよりも長いまたは短い可能性がある。

様々な映像の特徴を識別し、これらにマッチング法を適用することに基づいて映像のコピーを発見するために、多様なＣＢＣＤ技術が提案されてきた。動画共有ウェブサイトは、大規模なデータベースを含んでいることが多いので、このような大規模な映像データベースから映像の類似のまたは完全なコピーを見つけ、インターネットユーザにリアルタイムの応答を提供することは困難である。

映像コピーの検出は、２つのステップ、すなわち映像の特徴記述子の生成と、記述子のマッチングとに分けることができる。

映像の特徴は、大域記述子および局所記述子によって表すことができる。大域記述子は、順序尺度（ｏｒｄｉｎａｌｍｅａｓｕｒｅ）を含み、フレームの全領域から取得される。局所記述子は、Ｈａｒｒｉｓ記述子またはスケール不変特徴変換（ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ、ＳＩＦＴ）などであり、各フレームを領域に分割し、顕著な局所領域から特徴を抽出することによって、取得することができる。Ｈａｒｒｉｓ記述子はまた、より具体的には「Ｈａｒｒｉｓコーナー検出器」として知られ、画像勾配の固有値に基づいて画像中のコーナーを検出する。

局所的特徴は、例えば、各領域からの色、テクスチャ、コーナー、および／または形状の特徴、あるいは他の特徴を含むことができるが、これは非網羅的なリストである。一般的には、大域特徴記述子が、ストレージにおける計算および圧縮に効率的であるが、局所の変化に対してあまり堅牢ではない。局所的特徴記述子は、より堅牢であるが、計算的により費用がかかり、より多くのストレージ空間を必要とする。

本発明の第１の態様によれば、映像を比較するための方法が、映像の複数のフレームにおいて局所的特徴を検出することと、第１のフレームにおいて検出された局所的特徴の位置を、第２のフレームにおけるそのそれぞれの位置と比較して判定することとを含む。検出された局所的特徴の少なくとも一部について、第２のフレームにおける局所的特徴の位置に対する第１のフレームにおけるその局所的特徴の位置を表す、向きを含む動き指標が生成されて複数の動き指標を取得する。動き指標は、向き範囲によってグループ分けされる。ある向き範囲のグループ分けされた動き指標の数は合計されて、その向き範囲に対する値が得られる。フレームの複数のペアについて、第１のフレームにおける検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することによって、少なくとも１つの所与の向き範囲に対する値の時系列が取得される。少なくとも１つの向き範囲について、第１の映像に対する値の第１の時系列を、第２の映像に対する値の第２の時系列と比較して、第１の映像と第２の映像の類似性を判定する。

本発明による一実施形態は、このように、方法が複製映像の検出に局所的特徴を使用するので、堅牢性（ｒｏｂｕｓｔｎｅｓｓ）および示差性（ｄｉｓｔｉｎｃｔｉｖｅｎｅｓｓ）を提供することができる。さらに、本発明による一実施形態は、局所的特徴記述子に基づくこれまでに知られている手法と関連するものと比べて計算効率が良く、また必要とするストレージ空間が少ないので、比較的迅速な処理を提供することができる。

第１の映像および第２の映像全体を処理し、マッチングのチェックを行うことができるが、一部の実施形態では、映像の複数区間のみを使用して、これらの間に類似性があるかどうかを検出する。

一実施形態で局所的特徴を検出するために使用することができる、いくつかの異なる特徴検出器が利用できる。特徴検出器の例には、Ｈａｒｒｉｓコーナー検出器、ＯＲＢ、ＳＩＦＴ、ＦＡＳＴ、Ｓｏｂｅｌ、ＭＳＥＲ、およびＰＣＢＲが含まれ、これらはエッジ、コーナー、ブロブ（ｂｌｏｂ）、またはいくつかの他の外観、または外観の組合せを検出することができる。いくつかの特徴検出器では、局所的特徴はキーポイントと呼ばれ、適切な場合には本明細書においてこの用語も使用される。試験においてＦＡＳＴおよびＯＲＢが特に良い結果をもたらすことがわかった。

動き指標は、例えば、局所的特徴記述子を計算し、例えばＳＩＦＴまたはＢＲＩＥＦまたはその他の好適なアルゴリズムを使用し、記述子マッチングを適用してフレームを越えて対応する局所的特徴を見つけることによって生成することができる。動きベクトルは、対応する特徴の位置から派生する。マッチが動きベクトルを生成する。したがって、例えばＢＲＩＥＦを用いて、Ｈａｍｍｉｎｇ距離を使用して、ＢＲＩＥＦ記述子をマッチングことができる。２つのマッチする特徴が見つかると、２つの特徴の相対位置によって形成されるベクトルから、向きは簡単に計算される。

１つの実施形態では、動き指標は、距離パラメータを含み、その距離パラメータが所与のサイズ範囲内である場合、動き指標は、向き範囲によるグループ分けに含まれ、その距離パラメータが上記の所与のサイズ範囲外である場合、動き指標は、向き範囲によるグループ分けに含まれない。例えば、ピクセルを使用して、動き指標の距離パラメータを特徴付ける場合、こうした動き指標が、３ピクセルから１５ピクセルのサイズを有する動き指標がグループ分けに含まれ、残りはその後の処理から切り捨てられるように、上下の閾値を設定することができる。３ピクセルから１５ピクセルのサイズは、使用する有効範囲として単に一例として言及している。しかしながら、この範囲を使用することは必須ではなく、限定的であることを意図していない。距離パラメータの適切な上下の閾値を設定することによって、誤ったマッチまたは典型的でない動きの可能性が低減される。すなわち、極めて長い動き指標は、キーポイントがフレーム間で極めて速く移動したことを暗示し、これは映像が通常のフレームレートで抽出される場合はあり得ないことである。極めて短い動きベクトルは、単に、整合性なく検出された、したがって実際には移動しなかった静止点である可能性がある。一実施形態では、距離パラメータの範囲を固定することができ、検討中の映像に対していかなる好適な範囲とすることもできる。別の実施形態では、距離パラメータの範囲は、例えば、処理を改善するために得られた、または映像の様々なタイプ、もしくは検討中の映像の特性に合わせて、またはその他の理由もしくは所望の出力のために調整される、結果に応じて調整できる変数とすることができる。

一実施形態では、動き指標は、向き範囲によって、４から１０の向き範囲の１つにグループ分けされる。したがって、例えば、それぞれが４５度の範囲を有する８つのグループまたはビン（ｂｉｎ）があって、第１のグループが、０から４５度の向きを有する動き指標用であり、第２のグループが４５度を超え９０度までの向きを有する動き指標用であり、以下同様である。４未満の向き範囲を使用することができるが、これは、複製検出プロセスのための情報が少なくなる。１０より多い向き範囲は、より多くの量の利用できる情報をもたらすが、映像編集に対する堅牢性が失われることになる。

少なくとも１つの向き範囲に対して値の時系列が生成されると、第１の映像に対する値の第１の時系列が、第２の映像に対する値の第２の時系列と比較されて、第１の映像と第２の映像の類似性を判定する。例えば８つの向き範囲またはビンがある１つの実施形態では、０度から４５度の向き範囲を有する第１のビンのみからの第１の映像の時系列が、やはり０度から４５度の向き範囲を有する第１のビンのみからの第２の映像の時系列と比較される。これは、利用できる情報のすべてが比較に使用されるわけではないことを意味する。

別の実施形態では、第１の映像の複数の時系列を結合して、第１の時系列署名を生成する。これは、時系列のすべてを含むことができ、または別の実施形態では、時系列の一部のみを含むことができる。同じプロセスを第２の映像に対して実行して、第２の時系列署名を生成する。次いで、各映像の複数の時系列からの情報を結合する時系列署名を比較するステップによって、時系列が比較される。

１つの実施形態では、第１および第２の映像が複製であるかどうかを判定するために必要とされる時間をさらに縮小するために、時系列線形分割技法を使用して、時系列、または時系列の組合せが使用される時系列署名を、直線の上下の傾き（ｌｉｎｅａｒｉｎｃｌｉｎｅｓ／ｄｅｃｌｉｎｅｓ）の離散的リストに圧縮することができる。次いで、主要な傾きのマッチング技法を実行して、比較される時系列または時系列署名の潜在的なアライメント（ａｌｉｇｎｍｅｎｔ）位置を見つけることができる。

したがって、一実施形態は、第１の時系列および第２の時系列を離散的な線分のそれぞれのセットに分けることと、これらの線分の局所配列アライメント（ｌｏｃａｌｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ）を実行することと、分けられた時系列から主要な傾き（ｉｎｃｌｉｎｅ）および主要な下方の傾き（ｄｅｃｌｉｎｅ）を選択し、第１および第２の映像の類似性を判定するためにアライメントを行う際にこの主要な傾きおよび主要な下方の傾きを使用することとを含む。別の実施形態では、これは時系列署名に対して実行される。

一実施形態では、第１の時系列の第２の時系列とのアライメントが行われる。アライメントされた第１の時系列と第２の時系列との最高の類似性距離が計算され、最高の類似性距離が、所与の閾値と比較されて、第１の映像および第２の映像が複製であるかどうかを判定する。これは、別の実施形態では、時系列署名に対して実行することができる。

第１のフレームおよび第２のフレームは、互いに直接隣接していることがある、または介在フレーム（ｉｎｔｅｒｖｅｎｉｎｇｆｒａｍｅ）が存在することがある。

一実施形態では、フレームの複数のペアは、映像を比較する際に使用するために処理されない他のフレームの間隔で分割される。間隔は、例えば一定、可変、またはランダムであることが可能である。一実施形態では、映像の処理中に、異なるタイプの間隔の間で、例えば一定からランダムに、切換えを行うことができ、または別の実施形態では、処理の間、１つのモードを続けることができる。別の実施形態では、間隔が含まれない場合がある。

本発明の第２の態様によれば、デバイスが、第１の態様による方法を行うようにプログラムされ、構成される。

本発明の第３の態様によれば、第１の態様による方法を行うための機械実行可能プログラムを格納するためのデータ記憶媒体が提供される。

次に本発明のいくつかの実施形態を、実施例にすぎないものとして、添付の図面を参照して説明する。

本発明による方法を概略的に示す図である。本発明による方法の態様を概略的に示す図である。本発明による方法の態様を概略的に示す図である。（ａ）、（ｂ）、（ｃ）、（ｄ）：時間にわたってある映像について向きビンの変化を概略的に示す図である。図１の方法を実施するための装置を概略的に示す図である。

図１を参照すると、複製映像検出方法に関係する映像が、複数のフレームを含み、１において処理のために選択される。２において後続フレームのペアが選択される。この実施形態では、フレームは、間隔あたり１０フレームの間隔でサンプリングされる。次いでサンプリングされた各フレームが、その隣接する次のフレームと比較されて、局所的特徴の動きを追跡する。２において、フレーム番号０および隣接するフレーム番号１の選択を行う。

フレームは、３において、この実施形態ではＯＲＢである局所的特徴検出器を適用される。ＯＲＢを用いてフレーム番号０を分析して局所的特徴を抽出し、同じプロセスをフレーム番号１に適用する。この結果、フレーム番号０と関連するキーポイント、およびフレーム番号１に対するキーポイントが得られる。

キーポイント情報は、４において記述子マッチングプロセッサに適用されて、２つのフレームにおけるキーポイント間の対応関係を判定する。マッチングが見つかると、５において動き指標または動きベクトルが計算される。

動きベクトルは、６においてフィルタに適用されて、指定された長さの範囲内のものだけが、次の処理中に検討されることを確保する。

７において、フィルタリングされ、保持された動きベクトルの向きが判定され、適切な向き範囲またはビンにグループ分けされる。この実施形態では、それぞれ４５度の範囲を含む８つのビンがある。

８において、各ビンのキーポイントの数の総計が、これらを合計することによって計算されて、各ビンの値を求める。

フレーム番号０および１に対してこのプロセスを実行すると、検討されるフレームの次のペアに対してステップが繰り返される。次のフレームは、フレーム番号１１（ｓａｍｐｌｅ＿ｉｎｔｅｒｖａｌ＝１０の場合）およびフレーム番号１２である。これらが処理されると、次のフレームは、フレーム番号２１およびフレーム番号２２であり、以下同様である。映像全体が処理される、または単に映像の一区間もしくは複数区間が処理される場合がある。

フレームのペア間の比較に続いて、各ビンについて値の時系列、またはヒストグラムを取得する。これらは９において結合され、時間にわたって正規化されて、映像の最終的な時系列署名が求められる。

第２の映像は、同じように処理されて、第２の映像の時系列署名が取得される。

上記のように計算された署名を有する２つの映像を考えると、映像の類似性は、時系列署名を比較することによって判定される。

比較のプロセスでは、各向きビンについて、時系列署名は、１０において、ヒストグラムの近似時間トレース（ａｐｐｒｏｘｉｍａｔｅｔｅｍｐｏｒａｌｔｒａｃｅｓ）に線形分割を使用し、比較されるヒストグラム間の潜在的なアライメントを見つけるためのガイドとして線分から主要な傾きを抽出することによって比較される。

アライメント位置における２つの映像間の正規化ユークリッド距離が計算される。最高のマッチング類似性距離が閾値未満である場合、２つの映像はコピーであるとみなされる。

図２は、検出されたキーポイントおよび前のフレームに対する動きの方向（および大きさ）を示す線と共に、映像の一フレームを示している。キーポイントは、その追跡された動きがあらかじめ定められた範囲（この場合は３ピクセルから１５ピクセル）に入る大きさを有するものだけが残されるように、フィルタリングされている。これは、誤ったキーポイントのマッチを減少させるために行われる。向きヒストグラムは、上部に視覚化され、各棒が向きのビンを示している。この場合では、動きの大部分が、特定の向き内に含まれることがわかる。

図３は、検出されたキーポイントおよび追跡された動きと共に、映像の別のフレームを示している（前の画像と同様）。しかしながら、動きの向きはより多様であって、これが視覚化されたヒストグラムに反映されていることがわかる。

図４（ａ）から４（ｂ）は、時間を越えた異なる映像に対する１つの向きビンにおける変化を視覚化したものである（値は時間にわたって正規化されている）。元の映像が左に示され（動画２１、動画２７）、その対応するクエリ（ＳＴ１クエリ１０、ＳＴ１クエリ１）が、括弧内に示された映像の変換とともに、右に示されている。映像に強固な変更が行われたにもかかわらず、左と右のヒストグラム間に、大まかな相関が見られる。

本発明による１つの方法の評価では、実験を行う際に、公に入手可能な映像データベース、ＭＵＳＣＬＥＶＣＤベンチマークを使用した。データベースは、全長８０時間の１０１の映像で構成された。データベースは、スポーツ、ドキュメンタリー、漫画、自作映画、白黒の古い映画、コマーシャルなど、様々なプログラムからの映像を提供する。ＭＵＳＣＬＥＶＣＤベンチマークは、映像コピー検出システムの性能および精度を評価するためのグランドトゥルースデータＳＴ１のセットを含む。映像のＳＴ１セットは、２時間３０分の合計時間を有する１５のクエリを含む。これらは、５分から１時間の長さの、全体の長さのコピーである。クエリ映像は、再符号化、角度のあるカムコーディング、切り取りおよび色の変更、ズーム、雑音、にじみ、サブタイトルの追加など、広範囲にわたる変換を受けた。試験したソリューションを使用する際には、ＳＴ１のすべてのクエリを検索するのに約１０分を要したが、これまでＣＩＶＲ０７チームが獲得したベストスコアの時間では４４分かかっていた。

図５は、図１の方法を実行するための装置を示す。この装置は、比較される映像を格納するための映像データベースストア１１と、ＯＲＢ特徴検出器１２と、動きベクトルプロセッサ１３と、向きビンストア１４と、時系列プロセッサ１５と、時系列署名計算機１６とを含む。２つの映像の時系列署名を使用した２つの映像の比較は、比較器１７で行われる。

「プロセッサ」と呼ぶいかなる機能ブロックも含む、図に示した様々な要素の機能は、専用のハードウェア、ならびに適切なソフトウェアと関連してソフトウェアを実行することができるハードウェアを用いて、提供することができる。プロセッサによって提供されるとき、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、またはその一部を共有することができる複数の個々のプロセッサによって、提供可能である。さらに、「プロセッサ」という用語を明示的に使用すると、排他的に、ソフトウェアを実行することができるハードウェアを指すと解釈されるべきではなく、暗黙的には、デジタル信号プロセッサ（ＤＳＰ）のハードウェア、ネットワークプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ソフトウェアを格納するためのリードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶装置を、限定することなく、含むことがある。また、従来型および／またはカスタム型の他のハードウェアを含むこともある。

本発明は、その趣旨または本質的な特徴を逸脱することなく、他の特定の形態で具体化することができる。記載した実施形態は、あらゆる点で例示であるにすぎず、限定ではないと考えられなければならない。したがって本発明の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の均等物の意味および範囲内で生じるあらゆる変更は、特許請求の範囲に含まれるものとする。

Claims

映像を比較するための方法であって、
映像の複数のフレームにおいて局所的特徴を検出するステップと、
第１のフレームにおいて検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定するステップと、
検出された局所的特徴の少なくとも一部について、第２のフレームにおける局所的特徴の位置に対する第１のフレームにおける前記局所的特徴の位置を表す、向きを含む動き指標を生成して複数の動き指標を取得するステップと、
向き範囲によって動き指標をグループ分けするステップと、
ある向き範囲のグループ分けされた動き指標の数を合計して、その向き範囲の値を取得するステップと、
フレームの複数のペアについて、第１のフレームにおける検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することによって、少なくとも１つの所与の向き範囲の複数の値の時系列を取得するステップと、
少なくとも１つの向き範囲について、第１の映像に対する値の第１の時系列を第２の映像に対する値の第２の時系列と比較して、第１の映像と第２の映像の類似性を判定するステップと
を含む、方法。
動き指標が距離パラメータを含み、その距離パラメータが所与のサイズ範囲内である場合、動き指標が向き範囲によるグループ分けに含まれ、その距離パラメータが前記所与のサイズ範囲外である場合、動き指標が向き範囲によるグループ分けに含まれない、請求項１に記載の方法。
第１の映像に対して複数のそれぞれの向き範囲に対する値の複数の第１の時系列を取得するステップと、
前記値の複数の第１の時系列を結合して第１の時系列署名を生成するステップと、
第２の映像に対して複数のそれぞれの向き範囲に対する値の複数の第２の時系列を取得するステップと、
前記値の複数の第２の時系列を結合して第２の時系列署名を生成するステップと、
第１の時系列署名と第２の時系列署名を比較して、第１の映像と第２の映像の類似性を判定するステップと
を含む、請求項１に記載の方法。
第１の時系列を第２の時系列と比較して、第１の映像と第２の映像の類似性を判定する際に、主要な傾きマッチングを使用するステップを含む、請求項１に記載の方法。
第１の時系列と第２の時系列のアライメントを行うステップと、アライメントされた第１の時系列と第２の時系列との最高類似性距離を計算するステップと、最高類似性距離を所与の閾値と比較して、第１の映像と第２の映像が複製であるかどうかを判定するステップとを含む、請求項１に記載の方法。
第２の映像が第２の映像の複製ではないと判定されるとき、第１の映像を保持する映像データベースに第２の映像を格納するステップを含む、請求項１に記載の方法。
映像の複数のフレームにおいて局所的特徴を検出するステップと、
第１のフレームにおいて検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定するステップと、
検出された局所的特徴の少なくとも一部について、第２のフレームにおける局所的特徴の位置に対する第１のフレームにおける前記局所的特徴の位置を表す、向きを含む動き指標を生成して複数の動き指標を取得するステップと、
向き範囲によって動き指標をグループ分けするステップと、
ある向き範囲のグループ分けされた動き指標の数を合計して、その向き範囲の値を取得するステップと、
フレームの複数のペアについて、第１のフレームにおける検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することによって、少なくとも１つの所与の向き範囲の複数の値の時系列を取得するステップと、
少なくとも１つの向き範囲について、第１の映像に対する値の第１の時系列を第２の映像に対する値の第２の時系列と比較して、第１の映像と第２の映像の類似性を判定するステップと
を含む、
方法を実行するようにプログラムまたは構成されたデバイス。
第１の映像に対して複数のそれぞれの向き範囲に対する値の複数の第１の時系列を取得するステップと、
前記値の複数の第１の時系列を結合して第１の時系列署名を生成するステップと、
第２の映像に対して複数のそれぞれの向き範囲に対する値の複数の第２の時系列を取得するステップと、
前記値の複数の第２の時系列を結合して第２の時系列署名を生成するステップと、
第１の時系列署名と第２の時系列署名を比較して、第１の映像と第２の映像の類似性を判定するステップと
を行うように動作する、請求項７に記載のデバイス。
局所的特徴を検出するためのＯＲＢ検出器を含む、請求項７に記載のデバイス。
映像の複数のフレームにおいて局所的特徴を検出するステップと、
第１のフレームにおいて検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定するステップと、
検出された局所的特徴の少なくとも一部について、第２のフレームにおける局所的特徴の位置に対する第１のフレームにおける前記局所的特徴の位置を表す、向きを含む動き指標を生成して複数の動き指標を取得するステップと、
向き範囲によって動き指標をグループ分けするステップと、
ある向き範囲のグループ分けされた動き指標の数を合計して、その向き範囲の値を取得するステップと、
フレームの複数のペアについて、第１のフレームにおける検出された局所的特徴の位置を、後続の第２のフレームにおけるそのそれぞれの位置と比較して判定することによって、少なくとも１つの所与の向き範囲の複数の値の時系列を取得するステップと、
少なくとも１つの向き範囲について、第１の映像に対する値の第１の時系列を第２の映像に対する値の第２の時系列と比較して、第１の映像と第２の映像の類似性を判定するステップと
を含む、映像を比較するための方法を行うための機械実行可能プログラムを格納するデータ記憶媒体。