JP2014506366A

JP2014506366A - 映像を比較する方法および装置

Info

Publication number: JP2014506366A
Application number: JP2013547935A
Authority: JP
Inventors: レン，イエンソン; チヤン，フアンジヨー; ウツド，トーマス・エル
Original assignee: アルカテル−ルーセント
Priority date: 2011-01-07
Filing date: 2012-01-04
Publication date: 2014-03-13
Anticipated expiration: 2032-01-04
Also published as: JP5685324B2; WO2012093339A2; WO2012093339A3; KR101556513B1; CN103430175B; EP2661710A2; CN103430175A; KR20130108427A

Abstract

クエリ映像と目標映像を比較する方法は、クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、各ブロックに対する平均明度値を計算するステップとを含む。クエリ映像に対する複数のクエリ時系列が生成され、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。目標映像に対する複数の目標時系列が生成され、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表し、クエリ時系列および目標時系列は、クエリ映像と目標映像の間にアラインメントが存在するかどうかの判定に用いられる。

Description

本発明は、映像を比較するための方法および装置に関する。

たとえばＹｏｕＴｕｂｅ（登録商標）、ＧｏｏｇｌｅＶｉｄｅｏ、およびＹａｈｏｏ！Ｖｉｄｅｏなどの動画共有ウェブサイトでは、映像コンテンツはユーザによってサイトにアップロードされ、検索エンジンによって他者が利用できるようにすることができる。現在のウェブ映像検索エンジンは、ユーザによって入力された特定のテキストクエリに基づいて、それらの関連するスコアに従ってランク付けされた検索結果のリストを提供すると考えられる。ユーザは次いで、関心のある１つまたは複数の映像を見つけるために結果を検討しなければならない。

ユーザがホストに映像をアップロードし、映像を取得し、何らかの修正を行って再びそれらを分配するのは容易なので、映像検索結果には潜在的に非常に多くの複製物、またはほぼ複製物のコンテンツが存在する。このような複製物は、それらの全体的なコンテンツおよび主観的印象に基づいてユーザによって「本質的に同じ」であると見なされることになる。たとえば複製物映像コンテンツは、同一またはほぼ同一のコンテンツであるが異なるファイルフォーマットである、異なる符号化パラメータを有する、および／または長さが異なる、映像シーケンスを含み得る。他の差異としては、色および／もしくは照明の変更などの光度測定的な変動、ならびに／またはキャプション、ロゴ、および／もしくは縁取りの追加または改変などの空間および時間ドメインでの軽微な編集動作の場合がある。これらの例は網羅的なリストを意図するものではく、複製物映像には他のタイプの差異も生じ得る。

複製物映像の急増により、ユーザが実際に欲しいコンテンツをユーザが見つけることが難しくまたは不便になり得る。例として、ＹｏｕＴｕｂｅ、ＧｏｏｇｌｅＶｉｄｅｏ、Ｙａｈｏｏ！Ｖｉｄｅｏからのサンプル的な照会に基づくと、検索結果にリストされた中で平均で２７％より多いほぼ複製物の映像が存在することが分かり、人気のある映像は結果内で最も複製されたものである。検索結果における高い比率の複製物映像を前提として、ユーザは検索結果をより分けてユーザが必要とする映像を見つけるのにかなりの時間をかけなければならず、すでに見た映像の類似のコピーを繰り返し視聴しなければならない。複製物の結果は、映像検索、取り出し、およびブラウジングのユーザの体験の価値を低下させる。さらにこのような複製された映像コンテンツは、ネットワークに全体にわたって複製された映像データを記憶し、伝送することによりネットワークオーバヘッドを増加させる。

１つのタイプの映像コピー検出技法はシーケンスマッチングである。シーケンスマッチングでは、複数のフレームを有するある時間間隔が、クエリ映像と目標映像の類似性を比較する基準となる。通常、これは、クエリ映像フレームおよび目標映像フレームの両方から特性のシーケンスを抽出するものであり、これはたとえば順序、動き、色、および図心をベースとする特性とすることができる。抽出された特性シーケンスは次いで、映像間の類似性距離を求めるために比較される。たとえば順序識別特性が用いられる場合は、各映像フレームは最初にＮ１×Ｎ２ブロックに分割され、各ブロックの平均の明度が計算される。次いで各フレームに対して、ブロックがそれらの平均の明度に従ってランク付けされる。ランキング順位はそのフレームの順序尺度と見なされる。一方の映像に対する順序尺度のシーケンスは、他方のそれと比較されて両者の類似性が評価される。

シーケンスマッチングは、複製物映像間での重複位置の始まりを確定することを可能にする。シーケンスマッチング手法は、ほとんど同一な映像、ならびにコーディングおよびフレーム分解能変更などのフォーマット変更を有する映像のコピー、および空間および時間ドメインでの軽微な編集を有するものを識別するのに適している。具体的には、空間的および時間的な順序識別特性を用いることにより、映像デジタル化／符号化プロセス（たとえば色、輝度、およびヒストグラム等化、符号化パラメータにおける変化）、および表示フォーマット変換（たとえばレターボックスまたはピラーボックスへの変換）、および部分的コンテンツの変更（たとえばクロッピングおよびズームイン）によって導入された映像歪みの検出が可能になる。

シーケンスマッチング技法は必要な計算が比較的容易であり、特に順序尺度を用いたときにフレームのコンパクトな表示をもたらす。シーケンスマッチングは計算の効率が良い傾向があり、ライブ映像を処理するためにリアルタイムの計算を実行することができる。たとえば１つのフレームの２×２分割を用いた順序尺度は、各フレームを表すのに４次元しか必要とせず、２つのフレーム間の必要な比較点がより少ない。

しかし、既存のシーケンスマッチングをベースとする技法は、フレームの挿入、削除、または置換などのフレームシーケンスにおける変更が存在する複製物映像クリップを検出することができない。フレームシーケンスの変更はユーザ編集によって、またはたとえば動画共有ウェブサイトによる映像へのコマーシャルの挿入によって導入される。ユーザ修正のタイプを予め推定することは実行可能ではないので、フレームシーケンス変更を検出する能力がないことにより、シーケンスマッチング技法の現実の問題への適用可能性は限定される。

フレームの挿入、削除、または置換などのフレームシーケンス改変を有する複製物映像を検出するための既存の解決策は、キーフレームマッチング技法に基づく。

キーフレームマッチング技法は、通常は、映像を表すように、映像を一連のキーフレームに区分化する。各キーフレームは次いで領域に分割され、目立った局所領域から特性が抽出される。特性はたとえば、各領域に対する色、テクスチャ、角部、または形状特性とすることができる。キーフレームマッチングは、フレームの時間的順序における変更または挿入／削除など、かなりの程度の編集を受けた近似するコピーを検出することができる。しかしキーフレーム内には全く多くの局所的特性があるので、キーフレームを識別し、各キーフレームから局所的特性を抽出し、映像クリップをデータベース内の大量の映像とマッチングさせるためにそれらの間の計量距離（ｍｅｔｒｉｃｄｉｓｔａｎｃｅ）の比較を行うのは計算法的に費用がかかる。

最近の研究は、特性ベクトルの高速指標付けにより、または統計情報を用いて特性ベクトルの次元を低くすることにより、キーフレームマッチング方法の速度を改善することに向けられている。しかし、オンライン分析の場合は、映像をキーフレームに区分化するコスト、およびクエリ映像から局所的特性を抽出するコストの両方は依然として避けられない。Ｗｅｂ２．０画像共有環境におけるオンラインリアルタイム映像複製検出を実現することが現実の課題となる。キーフレームマッチング手法は、データベース映像を集約し分類するためのきめの細かい分析を用いたオフライン映像冗長性検出に、より適している。

本発明の第１の態様によれば、クエリ映像と目標映像を比較する方法は、クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、各ブロックに対する平均明度値を計算するステップとを含む。クエリ映像に対する複数のクエリ時系列が生成され、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。目標映像に対する目標時系列が生成され、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。クエリ時系列および目標時系列は、クエリ映像と目標映像の間にアラインメントが存在するかどうかの判定に用いられる。本発明を用いることにより、類似性を求めて比較することができる時系列を生成することができる。複製物映像はそれらのそれぞれの時系列において類似性を示し、これはそれらが関係していることを識別するために用いることができる。本発明による方法は、２つの映像間の比較空間を低減することによって効率的な映像複製検出をもたらす。

一実施形態は、クエリ時系列および目標時系列をそれぞれ１組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む。線形区分化は、平均映像明度を線形上昇部／下降部の離散的なリストに圧縮することを可能にし、次いでそれらはアラインメントについて比較することができる。

複製物映像では、重複する映像領域は通常は、映像シーケンスの全体の長さに跨がることはなく、同様な領域は分離され得る。したがって線形区分の局所的アラインメントが必要になる。バイオインフォマティクスでは２つのヌクレオチドまたはタンパク質配列間での類似した領域を判定するための、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムがよく知られている。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、すべての可能な長さのストリング区分を比較し、類似性尺度を最適化する。本発明者らは、映像明度区分に対する局所的アラインメントを行うように、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを拡張できることを認識した。ストリングを比較する代わりに、映像間の局所的最適アラインメントを見出すために明度線形区分が比較される。

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、最適化された検索をもたらすための動的計画法アルゴリズムである。これは時間的およびメモリリソースの要求が相当に厳しく、計算の複雑さはＯ（ＭＮ）であり、記憶容量はＯ（ｍｉｎ（Ｍ，Ｎ））であり、ただしＭおよびＮは比較を受けるシーケンスの長さである。

検索プロセスを加速するために一実施形態では、すべての明度区分をアラインメントする代わりに、比較される映像の重要な識別特性を表すものとして、主要上昇部／下降部のシーケンスが選択される。発見的方法は、より時間のかかるＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを行う前に、成功するアラインメントを結果として生じそうもないアラインメントを削除することによって、それらの主要上昇部／主要下降部の高速なアラインメントをもたらすために適用される。これにより計算のコストが低減される。発見的方法は、非常に異なる映像を除去することにより、および類似した映像に対する潜在的にマッチする領域に絞り込むことによってマッチングアルゴリズムの実行を促進する。

本発明による一実施形態は、映像複製検出技法を適用する前に予めユーザ修正のタイプを知ることが実行可能でない場合に有利であり、シーケンスマッチング技法を用いることを可能にする。さらにこれはシーケンスマッチング手法の使用の利点を保持し、効率的な検出をもたらす。

本発明による一実施形態を用いたフレーム変更を有する複製物映像の検出は、ユーザフィーチャーとして動画共有ウェブサイトによって使用可能である、またはロイヤルティ支払いを追跡し、および可能性のある著作権侵害を検出するために映像コンテンツプロバイダによって使用可能である、または通信「パイプ」（たとえばインターネットサービスプロバイダ（ＩＳＰ）、ピアツーピア（Ｐ２Ｐ）システムプロバイダ、コンテンツ配給ネットワーク（ＣＤＮ））によってネットワークトラフィックを低減し映像コンテンツの保管を管理するために使用可能である。これは、ユーザが検索、取り出し、およびブラウジングするためのサービスを提供するように、ほぼ複製物の映像の除去または集約において動画共有ウェブサイトを支援し得る。これはまた、たとえば高品質（ＨＤ）または３Ｄを有する類似した映像を検出することによって、映像コンテンツベースの検索を容易にする。

既存の映像複製システムは、本発明による一実施形態を含めることによって、フレーム挿入、削除、または置換などのユーザ修正を取り扱う能力を向上させることができる。

本発明の第２の態様によれば、装置は第１の態様による方法を実行するようにプログラムされまたは構成される。

本発明の第３の態様によれば、第１の態様による方法を実行するための機械実行可能なプログラムを記憶したデータ記憶媒体が提供される。

次に本発明のいくつかの実施形態について、例のみとして添付の図面を参照して説明する。

比較されるべき映像、および比較処理における一段階を概略的に示す図である。本発明による方法を概略的に示す図である。１つのブロックに対する明度の時間変化を概略的に示すグラフである。線形区分化を概略的に示すグラフである。比較される映像に対する明度の変化を概略的に示す図である。図２の方法で用いられるマトリックスを概略的に示す図である。図２の方法で用いられるマッチングにおけるステップを概略的に示す図である。図２の方法で用いられるマッチングにおけるステップを概略的に示す図である。本発明による装置を概略的に示す図である。

図１を参照すると、複数のフレームを有するクエリ映像１は、それらが複製物であるかどうかを判定するために１つまたは複数の目標映像と比較される。

図２を参照すると、２ではクエリ映像１内の各フレームはＮ１×Ｎ２ブロックに分割される。３では各ブロックに対する平均明度値が計算される。各フレームを分割することにより、分割された部分領域内の明度変化の変動が保持される。４では各ブロックについて、計算された平均明度値がフレーム番号に対してプロットされてクエリ時系列が生成される。この実施形態では、映像１に関連するＮ１×Ｎ２の時系列を作成するために、すべてのブロックが処理される。他の実施形態では選択されたブロックのみが必要であり、したがって結果としてＮ１×Ｎ２より少ない時系列が生成される。

比較のために、図１に示される目標映像５はクエリ映像１に基づくが、ヒストグラム等化、輝度の追加、ならびに縁取りおよびフレーム削除によって修正済みである。目標映像５が上述と同じやり方で処理されると、６に示される目標時系列が得られる。目標映像５からのブロックに対する明度の変化は、映像１のそれと形において全体的に同様となることが分かる。たとえば４でのクエリ時系列に対するフレーム番号８０６では１つのブロックに対する平均明度が増加するが、別のブロックのそれは減少し、それによりそれらは交差する。同様な交差は、６での目標時系列に対するフレーム７３９に見ることができる。

図２の７での次のステップは、部分線形区分化技法を用いることにより、クエリおよび目標時系列における時間的変化によってもたらされる情報を捕捉することである。時系列を区分化することによって映像は圧縮され、映像明度の時間的変化における本質的な情報の大部分が捕捉される。ユーザ修正、映像歪み、およびフォーマット変換により、映像複製物検出において正確なマッチを見出すことは期待されず、時間的明度の軽微な変化を無視することにより映像複製物検出プロセスは比較的ノイズの影響を受けにくくなる。

図３ａは、図１の４または６に示されるものなどの、１つの時系列の一部の平均明度における変動を示す。図３ｂは、線形区分化が適用された後の図１ａに示される時系列の一部を示す。

時系列を区分するためにはボトムアップアルゴリズムが用いられる。ボトムアップ手法はよく知られた、時系列における近似アルゴリズムである。これはできる限り微細な近似から始めて、終了基準が満たされるまで反復的に区分をマージする。この場合は近似ラインを検出するのに線形回帰ではなく線形補間が用いられ、なぜなら線形補間は複雑さの低い計算を用いて一定の時間内に得られるからである。潜在的な区分の適合品質は残留誤差を用いて評価される。残留誤差は、最良適合ラインと実際のデータ点のすべての縦方向の差を取り、それらを平方し、次いでそれらを合計することによって計算される。

他の実施形態では時系列の高速線形区分化は、極値点としての主要極大点および主要極小点の抽出を用いた補間方法によって達成される。図４ａは極大点および極小点を用いた線形近似を示す。しかし発明者らは、これらの点のみに依存すると８に示されるものなどのジャンプ点が除外されることを認識した。ジャンプ点は、たとえば短い時間距離内の上向きまたは下向きのジャンプなど、値の急な変化に対応する。映像ブロック系列の明度曲線の場合は、これらのジャンプは通常は場面境界を示し、ハードカットまたはフェードイン／アウトによって引き起こされる。したがってこの実施形態では線形区分化技法は、ジャンプ点も含むように拡張され、それにより線形区分化方法に用いられる極値点は、図４ｂに示されるように極大点、極小点、およびジャンプ点となる。

時系列の線形区分化の後に、顕著な映像識別特性をもたらすものとして時系列内の主要上昇部／下降部が９で選択される。これにより線形区分をアラインメントするための探索空間を縮小することができる。

より長い距離およびより深みのある高さを有する線形区分は通常は、情景の顕著な変化を表す。それらはしたがって主要上昇部として選択される。連続する主要上昇部のマッチは、同じ主要な情景変化のシーケンスを有する類似の挙動に従う映像コピーを示す。これと対照的に深みのある高さであるが非常に長さの短い線形区分は通常は、ハードカットまたはフェードなどの場面境界に関連する。このような線形区分はしばしば、情景内の変化を表すものより少ない情報を含む。すべての分割されたブロックからの線形区分が、同じ時間（すなわち同じ開始フレームＩＤ）に生じる同じ短い距離内に深みのある高さを有する場合は、場面境界と判定される。場面境界を表すこれらの線形区分は、主要上昇部を選択するプロセスにおいて無視される。

１２では、図５に示されるように、成功するアラインメントに繋がりそうな、連続するマッチした上昇部／下降部を有する近似的アラインメントを検出するために、クエリ映像と目標映像の主要上昇部／下降部が比較される。図６を参照すると、Ｍ１×Ｍ２のマトリックスが発生され、ただしＭ１およびＭ２は比較を受ける主要上昇部／下降部シーケンスの長さである。ｉおよびｊでの２つの主要上昇部／下降部がマッチする場合は、値「１」がマトリックス（ｉ，ｊ）に置かれる。線形区分Ｓ_１［ｉ_１，…，ｊ_１］と区分Ｓ_２［ｉ_２，…，ｊ_２］の間の類似性をチェックするために、区分の高さと長さだけでなく、２つの区分に含まれた映像フレームの類似性も考慮する。より正確には、以下の場合には、これらの２つの区分は類似である：

すなわち２つの区分は同様な長さである。この実装形態では、ｒａｔｉｏ_Ｌ＝０．９である。

すなわち２つの区分は同様な長さである。この実装形態では、ｒａｔｉｏ_Ｈ＝０．７５である。

ｍｉｎ_ｐＤ（ｐ）≦ｄｉｓｔ言い換えれば、２つの対応するフレームシーケンス間の最小距離は、より短いシーケンスをより長いシーケンスに沿って「スライド」させたときに最大でも閾値定数ｄｉｓｔであり、ただしｐは長い方の映像内でのスライドするフレーム位置の開始点にわたる範囲である。この実施形態ではその効率性と精度により、映像類似性距離を計算するために空間的および時間的な順序識別特性アルゴリズムを選択する。

２つのフレームシーケンスをＦ_１およびＦ_２として、順序識別特性測定値は以下の２つのフレームシーケンスＦ_１とＦ_２の間の距離を計算する：

ただし、Ｌ＝ｊ_１−ｉ_１は、短い方のシーケンスの長さである。

ユーザ修正および映像処理技法は、ヒストグラム等化、フレームサイズ変更またはクロッピング、輝度／色／色相の変更、他の付加されたノイズなどの映像明度値に差違を引き起こし得るので、同様な明度の線形区分の高さは異なり得る。同様な線形区分の距離はまた、線形区分近似誤差、またはユーザによって導入された他のノイズにより異なり得る。パラメータｒａｔｉｏ_Ｈおよびｒａｔｉｏ_Ｌを用いることにより、これらのノイズに対してある程度の許容が可能になる。ここでは２つのフレームシーケンスの距離を計算するために順序識別特性をベースとする測定値Ｄ（ｐ）が用いられたが、映像フレームのマッチングは、シーケンスマッチングまたはキーフレームをベースとするマッチングアルゴリズムを用いた、他のグローバル記述子さらにはローカル記述子に基づくものとすることができる。

主要上昇部をアラインメントした後に図７に示されるように、さらにアラインメントした線形区分を検出するために潜在的な主要上昇部アラインメントは、隣接の主要でない上昇部に拡張される。このステップは、次の段階でＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを適用するのに必要な比較の数を低減するために、不要なアラインメントを除去する。

次のステップでは重要な近似的アラインメントを検出するために、発明者らは、アラインメントは、類似したＤＮＡおよびタンパク質配列の検出に用いられる高速検索アルゴリズムであるＦＡＳＴＡによってもたらされるものと同様の手法を用いて実行できることを認識した。図８（ａ）に示されるように、マトリックス内の連続する値「１」のすべての対角線が識別される。次に図８（ｂ）に示されるように、長さが予め規定された閾値より長い対角線が保持され、単一のマッチおよび短いアラインメントした区分は無視される。次いで図８（ｃ）に示されるように上位Ｋ個の最長対角線が選択される。アラインメントの全体の長さを延長するために、より長い区分を形成するように互いに近い上位Ｋ個の対角線のそれらの区分同士を結合することが試みられる。結合された、より長い区分内には、フレーム挿入、削除、および置換を考慮に入れるためにギャップが許容される。

隣接する対角線を接続するときに、対角線のマッチするラインには加点スコアが割り当てられ、ギャップすなわちミスマッチには減点スコアが与えられる。接続された対角線のそれぞれの加点スコアを加算し、ギャップ減点を減算することによってスコアが得られる。図８（ｄ）に示されるように、連結された近似的アラインメントのスコアが所与の閾値を超える場合は、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を結合して、ギャップを有する近似的アラインメントを形成できるかどうかを判定するためにチェックが行われる。最後に、閾値を超える最終スコアを有する局所的な近似的アラインメントが、さらなる審査のために選択される。

１５での次の段階は、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを適用することにより、比較される映像のすべての明度線形区分のきめの細かいアラインメントが行われる。前に検出された主要上昇部／下降部の近似的アラインメントに基づいて、成功するアラインメントに繋がり得る線形明度区分のリストを確定することができる。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、線形区分の限られた範囲を調べるだけでよい。

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、最適アラインメントを検出するために編集距離を用いる。これは以下のようにスコア付けマトリックスＨを構築する：
Ｈ（ｉ，０）＝０、０≦ｉ≦Ｍ
Ｈ（０，ｊ）＝０、０≦ｊ≦Ｎ

０≦ｉ≦Ｍ、０≦ｊ≦Ｎ
ただしｘおよびｙは、アラインメントする可能性のある線形区分のリスト、ＭおよびＮはｘおよびｙシーケンスの長さ、ω（ｘ_ｉ，ｙ_ｊ）はスコア付けスキームである。ｘ_ｉとｙ_ｊがマッチする場合はω（ｘ_ｉ，ｙ_ｊ）は正であり、それらがマッチしない場合は負である。挿入および削除に対しては、ω（ｘ_ｉ，−）およびω（−，ｙ_ｊ）は負である。

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、マトリックスＨ内の極大スコアを検索することによって局所的アラインメントを検出し、次いでマトリックスを構築するために用いられる動きの方向に応じて最適経路を遡る。これは０のスコアに達するまでこの処理を維持する。局所的最適アラインメントが得られた後に１６では、マッチする線形区分を求める既存のシーケンスマッチング技法を適用することによって映像類似性距離が計算される。この実施形態では、映像類似性距離を求めるために２×２分割を有する順序尺度が用いられる。１７で距離が閾値より小さいことが分かった場合は、２つの比較される映像は複製物であると見なされる。

次に１８では、線形区分に対して、線形区分レベルの代わりに映像フレームレベルでのアラインメントが調べられる。最適の局所的アラインメントは明度線形区分に基づくので、区分内でフレーム変化が生じる場合は、上述のようにＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いて区分全体がマッチでないと見なされる。マッチしない区分内で潜在的なマッチング位置を検出するために、フレームレベルの類似性距離を計算するためにフレーム対フレーム比較が行われる。フレーム類似性距離が、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いて得られる映像類似性距離より小さい場合は、それらのフレームはマッチすると見なされる。これは、それらのマッチしない区分内のマッチするフレームの類似性距離が残りのマッチした区分から得られる平均の映像類似性距離を超えないことを確実にする。フレーム比較は、区分の中間に向かって、マッチしない区分の始まりおよび終わりの両方から開始される。マッチングは、フレーム類似性距離が映像類似性距離より大きくなるまで続けられる。次いで映像重複位置が更新される。

したがってこの実施形態では、分割されたブロックの明度値は初めに時系列と見なされる。次いで時系列は離散的な線形表示のリストに区分化される。最適マッチング位置を検出するためにそれらの線形区分の局所的シーケンスアラインメントが行われる。次いで潜在的アラインメント位置に基づいて、映像類似性距離が計算される。最良マッチング類似性距離が所与の閾値より小さい場合は、２つの映像は複製物であると見なされる。フレームの変化を取り扱うために、線形シーケンス区分の比較時にはギャップ、フレーム挿入、削除、および置換の結果が存在することは許容される。

図９を参照すると映像管理装置は、映像ファイルを保持するデータベースまたは記憶装置１９を含む。データベース１９は、インターネットを通じてユーザがアクセス可能なもの、またはたとえばアクセスが制限されたライブラリまたは他の保管場所とすることができる。これらの可能なものの代わりにまたはそれらに加えて、他のタイプの記憶装置またはデータベースを用いることができる。

ユーザは、ユーザインターフェース２０を通じて映像Ｑを提出することによって、ユーザがデータベース１９に追加したい映像Ｑを送信する。映像Ｑは、映像データベース１９およびまた分割器２１に送られる。動作の段階１では、分割器２１は映像Ｑの各フレームをＮ１×Ｎ２ブロックに分割する。計算器２２はブロックのそれぞれに対して平均明度値を計算する。

段階２では平均明度値データが計算器２２から区分化器２３によって受け取られる。区分化器２３は、各ブロックの平均明度の変化を区分化する。ソータ２４は次いで区分開始フレームＩＤに基づいてすべてのブロックからの線形区分をソートして、ソートされたリストにする。選択器２５は、ソートされたリストを受け取り、ソートされたリストから主要上昇部／主要下降部を選択する。

次の段階の段階３では、アライナ２６は、クエリ映像の選択された主要上昇部および主要下降部と、同様な処理を受けた１つまたは複数の目標映像のそれらとの間で、近似的マッチを検出することを試みる。結果は第１の比較器２７によってテストされる。所与の閾値パラメータに対して判断されて類似性がなかった場合は、クエリ映像と１つまたは複数の目標映像は複製物ではないと見なされ、複製検出プロセスは２８で終了する。

比較器２７が近似的アラインメントを検出した場合は、段階４でバンド化されたＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムがプロセッサ２９によって適用され、結果は同様な類似性距離計算器３０に加えられる。類似性距離計算器３０の出力は、第２の比較器３１によって所与の閾値に対してチェックされる。類似性が不十分である場合は、比較された映像は複製物ではないと見なされ、プロセスは３２で終了する。

十分な類似性がある場合は段階５で、フレームマッチャー３３は、映像挿入、削除、または置換に対するマッチしないフレームの位置をチェックする。

複製物検出プロセスの結果は、記憶される映像の管理に用いるために映像データベース１９に送られる。クエリ映像が複製物ではないことが分かった場合は、映像データベース１９はそれを記憶するために受け入れる。クエリ映像が複製物であることが分かった場合は、一実施形態では次いで映像データベース１９は、ユーザにそれを通知するためのメッセージを伴ってまたは伴わずに、クエリ映像を拒絶する。

代替実施形態または代替形態では、クエリ映像が複製物であることが分かった場合は、映像データベース１９に受け入れられるが、好ましくはそれがマッチした目標映像への参照を有して、複製物として表示される。複製物映像はグループに一緒に集めることができる。データベース上で行われる検索がグループの１つを呼び出したときは、他のグループ要素は検索結果から削除することができ、またはいずれの複製物も他の非複製物の後に提示される傾向をもつように、検索結果においてそうでない場合に受け得るよりも低いランキングが与えられる。

図９の映像管理装置は、クエリ映像が提出される前に、映像データベース１９内に保持される映像が分割され、２１および２２で分割され処理されるように変更することができる。たとえば一実施形態では、複製物について調べるように映像が提出されたときに得られたデータは保持され、映像データベース１９に送って記憶することができる。その映像がその後にデータベース１９に受け入れられなかった場合はそのデータは削除される。映像がデータベースに受け入れられたときは、それに関連付けられたデータは保持され、アライナ２６での使用に利用可能となる。別の実施形態では映像データベース１９内の映像は、必ずしも複製物のテストに用いられていなくても、段階１および段階２で分割および処理することができる。たとえばデータ処理は、新しい映像を受け取るためにデータベースを開放する前の準備段階の一部として実行することができる。

「プロセッサ」として名前が付けられたいずれの機能ブロックを含む、図に示された様々な要素の機能は、専用のハードウェア、ならびに適当なソフトウェアに関連してソフトウェアを実行することができるハードウェアを用いることによって実現することができる。プロセッサによって実現されるとき、これらの機能は、単一の専用プロセッサ、単一の共有されたプロセッサ、その一部を共有することができる複数の個別のプロセッサによって実現することができる。さらに「プロセッサ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアを排他的に指すと解釈されるべきではなく、非限定的に、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、ネットワークプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ソフトウェアを記憶するためのリードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶装置を暗黙に含むことができる。従来型および／またはカスタムの他のハードウェアも含むことができる。

本発明は、その趣旨または本質的な特徴から逸脱せずに、他の特定の形で実施することができる。説明した実施形態は、すべての点で例示のみであり、限定的と見なされるべきではない。したがって本発明の範囲は上記の説明によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲と均等な意味および範囲内に含まれるすべての変更形態は、それらの範囲に包含されるものとする。

Claims

クエリ映像と目標映像を比較する方法であって、
クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
各ブロックに対する平均明度値を計算するステップと、
クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
クエリ時系列および目標時系列を用いて、クエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
を含む、方法。
クエリ時系列および目標時系列をそれぞれ１組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む、請求項１に記載の方法。
区分化された時系列から主要上昇部および主要下降部を選択するステップと、主要上昇部および主要下降部をアラインメントの実行に用いるステップとを含む、請求項２に記載の方法。
選択された主要上昇部および主要下降部が、ジャンプ上昇部およびジャンプ下降部を除外する、請求項３に記載の方法。
クエリ映像の主要上昇部および下降部を、目標映像の主要上昇部および主要下降部と比較して、連続するマッチした上昇部および下降部を有する近似的アラインメントを得るステップを含む、請求項２に記載の方法。
主要上昇部／主要下降部のクエリ映像シーケンスを、主要上昇部／主要下降部の目標映像シーケンスとマッチングさせるステップを含む、請求項５に記載の方法。
マッチングさせるステップが、主要上昇部／主要下降部のクエリ映像シーケンスを主要上昇部／主要下降部の目標映像シーケンスに対してプロットしたセルを有するマトリックスを生成し、マッチがある場合はマトリックスの適切なセル内にマーカを追加することによって実行される、請求項６に記載の方法。
主要上昇部／主要下降部をアラインメントした後に、主要上昇部／主要下降部を隣接の主要でない上昇部／主要でない下降部に延長するステップを含む、請求項７に記載の方法。
マーカを有する連続するセルの対角線を識別するステップと、追加のアラインメント処理のために所与の閾値より大きな長さを有する対角線を保持するステップとを含む、請求項８に記載の方法。
Ｋ個の最長対角線を選択するステップと、より長い区分を形成するために上位Ｋ個の対角線に含まれる近接して配置された区分同士を結合することを試みるステップとを含む、請求項９に記載の方法。
対角線のマッチするラインには加点スコアを与え、より長いライン内のギャップには減点スコアを与えるステップと、連結された近似的アラインメントの組み合わせたスコアが所与のスコア閾値を超えたときは、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を、近似的アラインメントを形成するように結合できるかどうかをチェックするステップと、さらなる審査のために、最終スコア閾値を超える最終スコアを有する局所的な近似的アラインメントを選択するステップとを含む、請求項１０に記載の方法。
区分の近似的アラインメントを取得して１組の成功する可能性があるアラインメントを選択するステップと、次いで選択した組にＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを適用するステップとを含む、請求項３に記載の方法。
選択された組に含まれない近似的にアラインメントした区分に対してフレームレベルでアラインメントを行うステップを含む、請求項１２に記載の方法。
クエリ映像が目標映像の複製物でないと判定されたときに、目標映像を保持する映像データベース内にクエリ映像を記憶するステップを含む、請求項１に記載の方法。
クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
各ブロックに対する平均明度値を計算するステップと、
クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
クエリ時系列および目標時系列を用いてクエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
を含む方法を実行するようにプログラムされまたは構成された、装置。
クエリ時系列および目標時系列をそれぞれ１組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む方法を実行するようにプログラムされまたは構成された、請求項１５に記載の装置。
区分化された時系列から主要上昇部および主要下降部を選択し、主要上昇部および主要下降部をアラインメントの実行に用いるようにプログラムされまたは構成された、請求項１６に記載の装置。
選択された主要上昇部および主要下降部が、ジャンプ区分を除外する、請求項１７に記載の装置。
クエリ映像の主要上昇部および下降部を、目標映像の主要上昇部および主要下降部と比較して、連続するマッチした上昇部および下降部を有する近似的アラインメントを得るようにプログラムされまたは構成された、請求項１５に記載の装置。
主要上昇部／主要下降部のクエリ映像シーケンスを、主要上昇部／主要下降部の目標映像シーケンスとマッチングさせるようにプログラムされまたは構成された、請求項１９に記載の装置。
主要上昇部／主要下降部のクエリ映像シーケンスを主要上昇部／主要下降部の目標映像シーケンスに対してプロットしたセルを有するマトリックスを生成することによってマッチングを行い、マッチがある場合はマトリックスの適切なセル内にマーカを追加するようにプログラムされまたは構成された、請求項２０に記載の装置。
主要上昇部／主要下降部をアラインメントした後に、主要上昇部／主要下降部を隣接の主要でない上昇部／主要でない下降部に延長するようにプログラムされまたは構成された、請求項２１に記載の装置。
マーカを有する連続するセルの対角線を識別し、追加のアラインメント処理のために所与の閾値より大きな長さを有する対角線を保持するようにプログラムされまたは構成された、請求項２２に記載の装置。
Ｋ個の最長対角線を選択し、より長い区分を形成するために上位Ｋ個の対角線に含まれる近接して配置された区分同士を結合することを試みるようにプログラムされまたは構成された、請求項２３に記載の装置。
対角線のマッチするラインには加点スコアを与え、より長いライン内のギャップには減点スコアを与え、連結された近似的アラインメントの組み合わせたスコアが所与のスコア閾値を超えたときは、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を、近似的アラインメントを形成するように結合できるかどうかをチェックし、さらなる審査のために、最終スコア閾値を超える最終スコアを有する局所的な近似的アラインメントを選択するようにプログラムされまたは構成された、請求項２４に記載の装置。
区分の近似的アラインメントを取得して１組の成功する可能性があるアラインメントを選択し、次いで選択した組にＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを適用するようにプログラムされまたは構成された、請求項１６に記載の装置。
選択された組に含まれない近似的にアラインメントした区分に対してフレームレベルでアラインメントを行うようにプログラムされまたは構成された、請求項２６に記載の装置。
クエリ映像が目標映像の複製物でないと判定されたときに、目標映像を保持する映像データベース内にクエリ映像を記憶するようにプログラムされまたは構成された、請求項１６に記載の装置。
クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
各ブロックに対する平均明度値を計算するステップと、
クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
クエリ時系列および目標時系列を用いて、クエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
を含む、映像コンテンツを管理する方法を実行する機械実行可能なプログラムを記憶したデータ記憶媒体。