JP5165743B2

JP5165743B2 - ビデオデータの同期をとる方法及び装置

Info

Publication number: JP5165743B2
Application number: JP2010252721A
Authority: JP
Inventors: フロリアン・シュヴァイガー; ミヒャエル・アイヒホルン; ゲオルク・シュロート; エッケハルト・シュタインバッハ; ミヒャエル・ファールマイアー; ヴォルフガング・ケレラー
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2009-11-13
Filing date: 2010-11-11
Publication date: 2013-03-21
Anticipated expiration: 2030-11-11
Also published as: US20110122315A1; EP2326091A1; JP2011109656A; CN102075668B; EP2326091B1; CN102075668A

Description

同じシーンについての複数のビデオを扱うほぼすべてのアプリケーションでは、複数の録画（recordings）の同期が必要になる。これらのアプリケーションは、例えばスポーツイベントのディジタルテレビ送信において見受けられる。対象のシーンを、いわゆる「ピクチャ・イン・ピクチャ（picture-in-picture）」形式で異なる視点から同時に見ることができるものである。しかし、これらのサービスは、外部クロックを用いてカメラをトリガすることにより各ビデオストリームを一時的に整合させるための複雑で較正されたインフラストラクチャを必要とする。プロの映画製作においてビデオ同期はカチンコ（clapperboard）と同じくらい古くから必要とされてきたが、カチンコは未だ映画のカットのための重要な基準として使用されている。ディジタル３Ｄアニメーションの導入により、時間の基準（time reference）はますます多くの注目を集めている。今までのところ、これらのアプリケーションはすべて、もっぱら専門的な領域における（プロ用の）複雑な同期ハードウェアによって実施されている。

しかし、同期を容易にとることができれば、プロのテレビまたは映画の製作の高度化につながるだけではなく、特に、新しいコミュニティベースのサービスも円滑になるはずである。高品質なビデオを録画することのできるカメラ付き電話機の市場占有率がますます増えるにつれて、ユーザが関心のある任意の場所のメディアを見つけることが可能になるような臨界的な量に、ユーザ生成コンテンツの量は達しよう。この場合、ＧＰＳタグを用いて問い合わせにプレフィルタを適用することができる。場所だけでなく時間においても問い合わせれば、複数のプロシューマ（prosumer）（コンテンツの制作者であると同時に消費者でもあるユーザ）によって記録されている可能性のあるイベントのサーチが可能になる。したがって、複数のビデオ記録を時間的にマッチングすることができれば、それらビデオ記録の利用可能性により、メディアが豊富になる可能性が高まる。

単なる一例を挙げるとすれば、大道芸、トークイベント、または地域スポーツイベントといったイベントを見ている間の視点の移動である。これはまた、位置がマッチングされた個々のショットから映画を生成することのできる時間的ステッチ（temporal stitching）アプリケーションも含むはずである。この場合、記録者のうちの１人のオーディオデータを他のプロシューマのビデオデータとミックスし、結果的に共同制作のシーン記録とすることもできる。

さらに、コンピュータ・ビジョンの分野においてよく知られているアルゴリズムをビデオ処理にまで拡張することにより、冗長なビデオ情報を利用して３次元映像（three-dimensional scenery）を再現したり、背景、前景を取り去ったり、あるいは異なる視点の組み合わせを作成したりすることもできる。分かりやすい例は、オクルージョン（occlusion）を除去し、妨害を受けないようにして大道芸を録画することである。しかし、環境の３次元構造についての効果的な情報を用いれば、複雑な拡張現実（augmented reality）のアプリケーションを作成することができる。加えて、空間領域と時間領域の両方での超解像ビデオを作成することもでき、スムーズなスローモーションやズームが可能になる。

ビデオシーケンスの同期は、これらすべてのアプリケーションにとって必須のものである。

近年、ビデオ同期の問題に対するいくつかの手法が提案されている。非特許文献１に記載されている手法では、特徴ベースのアルゴリズムと、強度ベースのアルゴリズムと、カメラモーションベースのアルゴリズムとを区別する。最後のカテゴリは、強固にリンクされたカメラを用いた、非常に特殊なシナリオを含むものである。明らかにこれは極めて限定的な前提である。特徴ベースの手法は同期方式の中で最大の系統である。特徴ベースの手法では、いわゆる画像の特徴、つまり高度に特徴的なポイントまたはエッジをビデオフレーム内で検出し、別のシーケンス内の対応する特徴と関連付けることができる。

基本となる考え方は、同じ３Ｄポイントに対応するフレーム特徴の動きは異なるカメラ間において相関性を有するというものである。この種のアルゴリズムの主な欠点は、シーケンス全体にわたる特徴の確実な検出とマッチングと追跡とが必要となることである。この重要な問題はまだ満足のいくようには解決できていない。最後に、強度ベースの同期アルゴリズムは、あるビデオ内のあらゆる画素から第２のビデオ内の画素へのマッピングを行うことに焦点を当てるものである。アプローチによっては、２つのビデオ間の時間的オフセットだけでなく、２つの画像間の幾何学的なひずみも推定される。しかし、ひずみに関する情報は正確な同期を行うために必要であり、それがこの方法を一層複雑にする。一般に、強度ベースの方法では移動するカメラを扱うことができない。既存の全ての手法に共通する問題は、視る角度（viewing direction）の制限である。通常、約３０°を上回るほど異なる観測方向はサポートされていない。

ハードウェアベースの同期システムは、最も高いロバスト性及び正確性を可能とするものの、これらのシステムはそのインフラストラクチャに関する複雑度及び求められる要件により、現在のところエンドユーザ機器には適用することができない。メディアコンテンツへのタイムスタンプのタグ付けは、これまではほとんど使用されておらず、この場合には、無限に差異が生じ得る個々の内部デバイスクロックに基づくこととなる。しかも、ハードウェアベースの手法及びタイム・スタンプ・ベースの手法は既存のビデオにさかのぼって適用することができない。

他方、最近のソフトウェアベースの手法も計算複雑度が高い。これは、強度ベースの方法がフレームを画素ごとに処理するものであり、それによって非常に大規模な数学演算を行うことによるものである。特徴ベースの方法は、次元そして計算時間を削減するためにフレームの関心点（interest point）を抽出するものの、その抽出に時間を要する。カメラモーションベースの手法は比較的高速である。しかし、これらの手法は、カメラの強固な取付け及びベースラインを前提とするものである。したがって、これらの手法は前述のアプリケーションには適用することができない。

しかし、強度ベースのアルゴリズム及び特徴ベースのアルゴリズムでは、いくつかの前提条件を満たすことが必要となる。従来の開発において主要な課題の１つは視る角度（viewing angle）の制約である。強度ベースの方法では付随する歪みをほとんど処理することができないが、特徴ベースの方法によれば、非常に限られた性能ではあるが、一般的には最大３０°までの角度を処理することができる。さらに、いずれのカテゴリも、焦点距離といったカメラ特性の知識を前提としており、または少なくとも同じ種類のカメラの使用を必要とする。特に強度ベースの方法におけるもう一つの非常に重要な課題は、カメラモーションに対する制限である。しかし、手動かつ軽量のカメラ付き電話機は、明らかに、画像安定化の手法を用いても視る角度（viewing direction）の変動が生じる。

特徴ベースのアルゴリズムでは、関心点の連続的な追跡（トラッキング）を行うため、衣服の上などで生じるテクスチャの変動の影響を受けやすい。さらに、シーンにおける部分的なオクルージョンも従来の特徴トラッカーにとっての課題である。

ビデオの同期は、後発のあらゆる特徴ベースの方法の基礎を作ったSteinによって先駆的に開発された（非特許文献２などを参照されたい）。以降、様々な手法が生まれている。しかし、これらの手法はすべて、同期のために用いられる制約条件を提供する「エピポーラ幾何学（Epipolar Geometry）」の概念を利用するものである。２００４年にTuytelaarsらは、視線（ray of sight）の距離を調べることによって非常に自然なやり方で時間的オフセットを見つける特徴ベースのアルゴリズムを提示している（例えば非特許文献３）。

軌跡対軌跡の位置合わせ（trajectory-to-trajectory alignment）とも呼ばれる特徴依存の方法とは異なり、強度ベースの手法は、シーケンス対シーケンスの位置合わせ（sequence-to sequence alignment）といわれている。この用語を作ったのがCaspiらである。Caspiらの時空間的な位置合わせに関する研究はこの分野における基礎を築いている（非特許文献４など）。

また、いくつかの基本的な強度ベースのアルゴリズムも提案されている。その一例が非特許文献５に記載されている。このアルゴリズムでは、ビデオ内の全体的な輝度変化が、あるフレームから次のフレームまでの強度変化を単純に足し合わせることによって得られる。これは、同じ方向から同じシーンを見ている他の（静止）カメラのものと比較することのできる、ある種の経時的な「輝度変化プロファイル（brightness change profile）」を与える。

C. Lei and Y.H. Yang, Tri-focal tensor-based multiple video synchronization with subframe optimization, IEEE Transactions on Image Processing, 15(9):2473-2480, 2006 GP Stein, Tracking from multiple view points: Self-calibration of space and time, In Computer Vision and Pattern Recognition, 1999, IEEE Computer Society Conference on., volume 1, 1999 T. Tuytelaars and L. Van Gool, Synchronizing video sequences, In Computer Vision and Pattern Recognition, 2004, CVPR 2004, Proceedings of the 2004 IEEE Computer Society Conference on, volume 1 Y. Caspi and M. Irani, A step towards sequence-to-sequence alignment, In IEEE Conference on Computer Vision and Pattern Recognition, 2000, Proceedings, volume 2, 2000 M. Ushizaki, T. Okatani, and K. Deguchi, Video synchronization based on co-occurrence of appearance changes in video sequences, In Proceedings of the 18th International Conference on Pattern Recognition-Volume 03, pages 71-74, IEEE Computer Society Washington, DC, USA, 2006

しかし、全体的にみて、従来のビデオ同期の手法は、ビデオデータの同期を基礎とした大部分のアプリケーションの大衆市場向けの利用を阻むいくつかの前提条件を伴うものである。

一実施形態によれば、第１のビデオシーケンスと第２のビデオシーケンスとの時間的な関係を決定する方法であって、
前記第１のビデオシーケンスから第１のパラメータを取得するステップであって、この第１のパラメータの経時的な変化が前記第１のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
前記第２のビデオシーケンスから第２のパラメータを取得するステップであって、この第２のパラメータの経時的な変化が前記第２のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
前記第１のパラメータの経時的な変化を前記第２のパラメータの経時的な変化とマッチングするステップであって、このステップが前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化との相関関数を計算することにより行われて、前記２つのビデオシーケンスの時間的な関係が決定されるものである、ステップと
を含む方法が提供される。

このような手法によれば、２つのビデオシーケンスのそれぞれのエントロピーまたは経時的なエントロピー変化に基づいた、これら２つビデオシーケンスの「指紋のような特徴（fingerprint）」が決定される。この特徴は、そのビデオシーケンスを符号化するために必要な情報の量を表しているか、またはこれに相当するものであり、つまり、そのビデオシーケンスの複雑さの尺度である。

結果的に得られる時間の関数であるパラメータは、そのパラメータが導出される元となったビデオシーケンスに対応している。次いで、時間の関数である２つのパラメータをマッチングしようとすることによって、２つのパラメータの時間的な関係、つまり２つのビデオシーケンスの時間的な関係を決定することができる。

このような手法によれば、ビデオシーケンスにおけるオブジェクトの動きが特にエントロピーに寄与していて、さらには、それらオブジェクトのエントロピーに対する影響はある程度まで、カメラの視線（line of sight）、さらにはカメラの動き（モーション）とさえも無関係である。したがって、この手法は、異なる角度から撮影されたビデオを用いる場合または移動するカメラを用いる場合でさえも、驚くほどうまく機能する。

したがって、一実施形態においては、パラメータの経時的な変化を表す関数を用いて、それぞれのビデオ信号に対応する２つの関数の経時的な変化を、時間的に変化する２つの関数の相関関数を計算することによりマッチングする。このように、２つの関数をマッチングしてこれらの時間的な関係を決定することができる。

一実施形態によれば、前記第１のパラメータ及び前記第２のパラメータはそれぞれ、
前記第１のビデオシーケンス及び前記第２のビデオシーケンスの個々のフレームまたはフレームグループに対して前記第１のビデオシーケンスまたは前記第２のビデオシーケンスから導かれるエントロピー、または条件付きエントロピー、またはブロックエントロピー、または関連する任意のエントロピー、またはエントロピーベースのパラメータと、
前記第１のビデオシーケンスまたは前記第２のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズと
のうちのいずれかである。

エントロピーまたは条件付きエントロピーまたはブロックエントロピーは、ビデオシーケンスのフレームグループ内のフレームの情報量（information content）の直接的な尺度である。

特に好都合な手法としては、ビデオコーデックを利用する。このビデオコーデックは、その圧縮機能及び動き推定（motion estimation）機能により、そのビットレート（またはフレームサイズ）がビデオシーケンスのエントロピーに直接的に相当する出力データストリームを生成する。シーケンスが複雑であり、多数の異なる動きをするオブジェクトが存在する場合には、エントロピーが上昇し、結果として符号器によって生成されるビットレート（またはフレームサイズ）も上昇する。他方、静止しているか、あるいはほぼ静止しているシーケンスは低エントロピーであり、したがって低ビットレートである。

結果的に、ビデオコーデックの出力は、エントロピーに関連するパラメータ及びその経時的な変化を取得するために直接的に使用することができる。あるいは、ファイルから読み取られる、すでに符号化されたビデオシーケンスを処理して、例えば、時間の関数としてのビットレートを取得し、次いでそれを別のシーケンス及びそのビットレートとマッチングするために使用することもできる。

一実施形態によれば、前記第１のビデオシーケンス及び前記第２のビデオシーケンスの経時的なエントロピーの変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
フィルタ関数を適用して平滑化を行うステップと
のうちの１つまたは複数を含む前処理が行われる。

差分値を取得することにより、連続的なカメラモーションの影響を低減し、実際のシーンの変化の影響を高める。

より大きな強度値と比べてより小さな強度値をより重視する関数を適用することによって、シーンへの新しい人物の参入といった、エントロピーに強く影響を及ぼす単一のイベントの影響を、他のより段階的な変化や経時的に発生するイベントと比べて低減することができる。

フィルタリング関数を適用することによって、平滑化（smoothing）を行うことができる。

このような前処理により、２つのビデオシーケンスのエントロピーに関連したパラメータのマッチングの全体的なロバスト性を高めることができる。

一実施形態によれば、前記方法は、前記第１のビデオシーケンスと前記第２のビデオシーケンスとの非線形（non-linear）なマッチングを行うために動的時間伸縮法を行うステップをさらに含む。

これにより、異なる速度で撮影されているか、または再生されるビデオを考慮することができる。

一実施形態によれば、前記方法は、前記第１のビデオシーケンスまたは前記第２のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるステップをさらに含む。

例えば、フレームのエッジに対応するブロックを減じる場合には、画像のエッジにある新しいテクスチャを露出させるカメラモーションの影響を低減することができる。結果として生じるエントロピー関連のパラメータは、シーン内のオブジェクトの実際の動きにより依存したものとなる。同様に、パラメータの正確性及びロバスト性をさらに向上させるために、エントロピー関連のパラメータに対するフレームの他のブロックまたは個々の画素の寄与を減じることもできる。

一実施形態によれば、前記方法は、前記第１のパラメータ及び前記第２のパラメータの変化のマッチングを、相関関数、特に相互相関を計算することによって行うステップをさらに含む。

このようにして、２つのシーケンスの時間的な関係を容易にかつ効率的に決定することができる。

一実施形態によれば前記方法は、前記第２のビデオシーケンスのある長さのすべての選択にわたって前記第１のビデオシーケンスの前記第１のパラメータの相関を反復して求め、相関の最大値の中央値または平均値といった総合的な値（combined value）を結果として用いるステップをさらに含む。

このようにして、最大となる相関を決定する際のロバスト性をさらに改善することができる。

一実施形態によれば、第１のビデオシーケンスと第２のビデオシーケンスとの時間的な関係を決定する装置であって、
前記第１のビデオシーケンスから第１のパラメータを取得するモジュールであって、前記第１のパラメータの経時的な変化が前記第１のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
前記第２のビデオシーケンスから第２のパラメータを取得するモジュールであって、前記第２のパラメータの経時的な変化が前記第２のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
前記第１のパラメータの経時的な変化を前記第２のパラメータの経時的な変化とマッチングするモジュールであって、このマッチングが前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化との相関関数を計算することにより行われて、前記２つのビデオシーケンスの時間的な関係が決定されるものである、モジュールと
を備えた装置が提供される。

このようにして、ビデオの同期をとる方法を実施する装置を実現することができる。

一実施形態によれば前記装置は、本発明の他の実施形態におけるステップを実行する１つまたは複数のモジュールをさらに備えている。

一実施形態によれば、本発明の実施形態の一つに基づく方法をコンピュータに実行させることを可能とするコンピュータ・プログラム・コードを含んだコンピュータプログラムが提供される。

あるシーンとその動き補償を示す説明図である。別のシーン及びその動き補償を示す説明図である。本発明の一実施形態を示す説明図である。本発明の一実施形態により同期がとられる２つのシーンを示す説明図である。図４に示したシーンのビットレートを示す説明図である。図４に示したシーンの相関を示す説明図である。別の２つのシーンのビットレートを示す説明図である。図７のシーンの相関を示す説明図である。本発明の一実施形態により同期がとられる２つのシーンを示す説明図である。別の２つのシーンのビットレートを示す説明図である。図１０のシーンの相関を示す説明図である。本発明の一実施形態により同期がとられる２つのシーンを示す説明図である。

従来のいくつかのビデオ同期の手法は、２つのシーケンス間の時間的な不一致を検出する人間的なやり方を模倣するために、可能な限り多くのシーンの情報を再現しようとする。しかし、本発明に係る手法は、時間的にビデオの位置合わせを行うための全く異なる高水準なものである。

本発明の一実施形態によれば、ビデオシーケンス内のフレームまたはビデオシーケンス内のフレームグループについて、エントロピーあるいはエントロピーに関連したパラメータ（またはその近似値）が計算される。このパラメータは経時的に変化する。というのは、このパラメータは、当該ビデオシーケンス内の別のフレームまたは別のフレームグループについて計算することができ、これによりこのパラメータをそのビデオシーケンスの一種の「指紋のような特徴（fingerprint）」とみなすことができるからである。マッチングあるいは同期をとるべき２つのビデオシーケンスがある場合には、このパラメータはいずれのビデオシーケンスについても計算される。その結果、第１のビデオシーケンスについてのパラメータシーケンスと、第２のビデオシーケンスについてのパラメータシーケンスという２つのパラメータシーケンスが得られる。このため、シーケンス内の１つのパラメータは、そのパラメータが対応するビデオシーケンス内の１つのビデオフレームまたは１つのビデオフレームグループに対応する。

次いで、これら２つのパラメータシーケンスを、例えば相互相関を求めるか、またはこれらの時間的な関係（「時間差」または「フレーム数」の差）を得るための他の任意の操作を行うことにより、「マッチング」させることができる。このようにして、第２のビデオシーケンスにマッチングするために第１のビデオシーケンスを時間的にどの程度シフトさせる必要があるかを決めることができる。

次に、エントロピー関連パラメータである「パラメータ」の計算または決定について説明する。ある実施形態では、単純に、次式に基づくエントロピーのよく知られた定義を用いて各ビデオフレームのエントロピーを計算することができる。
ただし、Ｉ（ｘ）は自己情報量（self-information）であり、
は期待値である。ｐ（ｘ）は値ｘが発生する確率である。

当業者であれば、この式によりシーケンス内の個々のフレームのエントロピーまたはエントロピーの近似値を計算することができるであろう。

単なる一例に過ぎないが、個々のフレームのエントロピーを計算するために、そのフレームを小さなブロックに分割して、ある値ｘがそのブロック内のある位置においてどのくらいの頻度で発生するかを調べることによって、確率分布Ｐ（ｘ）を得ることができる。次に、これを用いて、個々のフレームのエントロピー（またはエントロピー関連パラメータ）を計算することができる。これにより最終的に、フレームシーケンスに対応するパラメータシーケンスが得られる。続いて、相関を求めることによって、２つのビデオシーケンスのパラメータシーケンスをマッチングすることができる。

あるいは、複数のフレームに基づいたエントロピー関連パラメータを計算することもできる。その一例は、１フレームだけではなくそれ以前のフレームをも考慮して計算される条件付きエントロピー（あいまい量（equivocation））の計算である。これは、後続のフレームが統計的にみて独立ではなく、ある確率で相互に依存し合うことを考慮したものである。フレームｎ−１が値Ａを取るとすると、値Ｘを取るフレームｎの条件付きエントロピーは以下のように計算することができる。

２つのフレームのいくつかのシーケンスを調べることにより、フレーム内のある画素が、それ以前のフレームにおいてその画素の値がＡである場合に、値ｘを取る可能性がどの程度であるかを示す確率分布が導かれる。次いで、このように得られた確率分布を用いて、フレームごとの条件付きエントロピーをエントロピー関連パラメータとして計算することができる。続いて、２つのビデオシーケンスの２つのエントロピー関連パラメータをマッチングして、それらの時間的な関係を導くことができる。

別の実施形態では、ただ１つの先行フレームだけではなく複数の先行フレームを考慮する。この場合には、あるビデオフレームについて、このフレームとこのフレームに先行するフレームグループとに基づいたエントロピー関連パラメータとしてブロックエントロピーが得られる。

また、エントロピー関連パラメータの計算をさらに改良することもできる。例えば、動き推定（motion estimation）を考慮に入れてロバスト性をさらに向上させることができる。これにより、ある画素が以前のフレームと比べてどの程度移動しているかを考慮し、確率分布を得るために、その画素を先行フレーム内の同じ画素と比較するのではなく、動き推定を考慮してその画素に対応する先行フレーム内の画素と比較することができる。

以下、ビデオ符号器によって生成されたビットストリームを利用した実施形態を説明する。このようなビデオ符号器は、圧縮アルゴリズムによりできる限りビデオを圧縮しようとするものである。理論的に可能な最大圧縮は当該ビデオシーケンスのエントロピーに結びついているため、ビデオコーデックによって生成されるビットストリームは「エントロピー関連パラメータ」に相当する。

一実施形態では、ビデオストリームのビットレート（あるいは、ビデオストリームのバイト単位のフレームサイズやその対数値、累乗根などの、ビデオストリームから導出されたパラメータ）及びその経時的な変化を、あるビデオシーケンスを別のビデオシーケンス（またはその個々の「指紋のような特徴（fingerprint）」）と「相関」を求めるために使用することのできるビデオシーケンスの一種の「指紋のような特徴」として使用し、それらの時間における関係が特定される。つまり、２つのビデオシーケンス間の時間的シフトまたは時間的遅れが特定される。したがって、時間（またはフレーム数）の関数としてのビットレート（またはビット単位もしくはバイト単位でのフレームサイズ）は、一実施形態では、ビデオシーケンスを表すものとして使用することができる。次いで、（相互相関を計算するなどによって）異なるビデオシーケンスのこれらの表現の相関を求めて、これらの時間的関係を特定することができる。

このような手法によれば、複雑な特徴分析を行うことなく、２つのビデオシーケンス間の時間的関係（時間的遅れまたは時間的シフト）を決定することができる。その一方で、２つのシーケンス間の時間的シフトは、異なる視点から撮影されているシーケンスであっても、あるいは移動中のカメラを用いて撮影された場合であっても、非常に正確に決定することができる。

これは、一見して非常に驚くべきことかもしれない。従来技術における非常に大規模な計算量または複雑なハードウェアを必要としないこの手法が機能し、しかも視点に依存せず、またカメラモーションにさえ依存せずにうまく機能するという驚くべき事実は、以下により理解することができる。

この問題を情報理論の観点から見ると、シーンにおける変化の量、したがってビデオ信号のエントロピーは、視点とはほぼ独立しているということができる。左側または右側から移動する人物が見えるかどうかは、方向を変化させるに過ぎず、情報の量は変化させない。

しかし、シーンのエントロピーは、理論的な尺度に過ぎず、事前の情報に大きく依存する。にもかかわらず、ビデオ符号器は、データ量を必要最小限にして、ビデオの本質的な情報を節約しようとする。つまり、出力ビットレートは、ビデオを符号化するのに必要な情報の量及び複雑度を示すものである。これにより、符号化されたビデオのビットレートを、シーンにおける変化、したがって時間的に整合をとるための指紋のような特徴（fingerprint）として使用することが可能になる。

それでもなお、ビデオ内の変化、したがってビットレートは、シーン内の動きのみならず、カメラモーションによっても増加すると言うこともできる。しかし、従来のハイブリッドビデオ符号器は精度の良い動き補償を提供するため、カメラモーションによって生じる画像の変化は、シーンにおける変化の場合によくある複雑な変化よりも低いビットレートで表すことができる。一般に符号器は、ビデオフレームに含まれる情報を、画像ブロック及び対応する動きベクトル（motion vector、ＭＶ）に分割する。これらのベクトルはカメラ座標系に対する位置の変化を示す。よって、以前のフレーム内の画像ブロックが、ＭＶによって決まる位置において再利用されて、位置決めされる。したがって、カメラのパンが、画像内のブロック位置の変化を補償する動きベクトルをもたらす。この様子が図１に概略的に示されている。左側にはシーンがその動きベクトルとともに示されており、右側にはビットレートへの寄与が示されている。（図１からわかるように）多くのＭＶはほぼ同じ大きさと方向を有しているため、差分符号化（differential encoding）により低ビットレートの達成が可能となる。さらに、（図１において左側下部にある矢印で示されている）それまでには見えていなかった領域をデータストリームに追加する必要がある。その場合、これは、図１の右側に「イントラブロック（Intra-Block）」として示されているビットレートへの寄与をもたらす。その一方で、ビットレートに寄与するその他の部分は差分動きベクトル（differential motion vector）である。

他方、シーン内のオブジェクトの動きによって生じる様々な動きベクトルを符号化するために必要なビットレートは、符号化するのがはるかに難しく、より多くの情報を伴う。さらにシーンにおける変化は複雑で微細なものであるため、ブロックベースの動き推定及び動き補償における粗いセグメント化により通常は多くの小ブロックが生成され、したがって、ブロックパターン及び動きベクトルのシグナリングの速度がより高くなる。補償の精度が低く、そして画像変動が微細で複雑であることにより、送信する必要のある動き補償の残差（residual）がより大きくなる。このことは、動きベクトル場と、カバーされている背景と、カバーされていない背景とを示す図２に概略的に示されている。右側には、カメラモーションとオブジェクトのモーションが合わせたことによるビットレートの増加が示されている。図の右側にはやはり、この場合には３つの成分、すなわち、差分動きベクトルと、前述の残差と、イントラブロックとを有するビットレートへの寄与が示されている。

加えて図２の場合には、動く人物が量のより多い新しいテクスチャを露出させるために、ビットレートが著しく増加する。したがって、シーン内の変化、したがってそのエントロピーは、必要なビットレートと密接に関連している。

このことは、異なったシーケンスを「マッチングさせ」、または「相関を求める」ために使用するビデオシーケンスの「指紋のような特徴（fingerprint）」としてなぜビットレートを用いることができるのかを説明するための理論的な基礎とすることができる。

この手法は、シーンの動きが同期性（synchrony）を定めるという事実に基づくものである。この場合、独立したカメラモーションは実際には無関係である。シーン内のオブジェクトの動きは高エントロピーのビデオ信号を生じさせ、この動くオブジェクトはビデオコーデックの「予測器（predictor）」を「驚かせ（surprise）」、その結果、ビットレート（及びこれに対応する符号化フレームのフレームサイズ）の増加をもたらす。したがって、動きとビットレートは密接に関連しており、よって、ビットレートは、ビデオシーケンスのエントロピーの経時的な変化（evolvement）に相当するパラメータとして用いることができる。次いで、この時間（またはフレーム数）に応じた（フレームサイズまたはビットレート単位の）パラメータを、別のビデオシーケンスのビットレートまたはフレームサイズとマッチングさせるか、または相関を求めることができる。

したがって、時間的な整合をとるための特徴としてビットレートを用いれば、図３に概略的に示したような装置またはシステムを使用して２つのビデオのビットレートについて経時的に相互相関を求めることによって、２つのビデオを同期させることができる。異なるカメラによる２つのビデオデータは、何らかのビデオコーデックによってそれぞれ圧縮される。これにより、異なるカメラによる（対応するビットレートを有する）２つのビットストリームが生まれる。続いて、これらのビットストリームの（オプショナルな）前処理（preprocessing）が行われる。この前処理には、２つのビットストリームのビットレートの対数尺度への変換や、以下に詳細に説明するビットレートから外郭（outer block）を差し引くことといった、実際に相関を求める前に行うことのできる他の任意の前処理が含まれる。前処理の別の例として、実際のビットレート値から任意の導出値を得ること、例えば、実際のビットレートからの導出値として差分ビットレートを得ることなどがある。さらに、対数関数に代えてルート関数（root function）を適用することもでき、あるいは、ビットストリーム信号のより大きな値と比べてより小さな値を増幅し、これをより重視する任意の関数を適用することもできる。さらに、ビットストリーム信号を平滑化するためにフィルタ関数（高域フィルタ、低域フィルタ、帯域フィルタ）を適用することもできる。

次いで、前処理によりビットストリームから導かれた２つのデータストリームを「マッチング」しようとすることによって（経時的に変化する２つのデータストリームのビットレートまたはフレームサイズなどをマッチングすることによって）、ビデオ間の時間的オフセットを決定することができる。「マッチング」は例えば、相互相関などの相関を求め、最大相関値を探し出すことによって行うことができる。この相関により、結果的に生じるビットレートの変化とシーンの動きによって生じる変化とが無相関となるため、本提案のアルゴリズムはカメラモーションの影響をより一層受けにくくなる。さらに、一実施形態では、カメラモーションによって生じるビットレートの一部がある程度まで一定であると仮定して、正規化された相互相関（normalized cross correlation）を用いることができる。比較的小さいものの同程度に重要な変化を特徴づける、例えば照明の変化などによって引き起こされるビットレートの大きな変化を緩和するために、一実施形態ではビットレートへ対数尺度が適用される。

この非常に基本的なアルゴリズムは、従来の手法の要件に適合しない条件下で非常に正確にビデオの同期をとることを可能とする一方で、この手法をさらに高度化することもできる。そのような高度化の例は以下の通りである。
・一実施形態では、カメラが三脚上に取り付けられていないと想定されるため、結果的にビットレートに一定の構成比（share）を生じさせる連続的運動を受ける。差分ビットレートの相関を求めれば、これらの影響を低減して、実際のシーン変化の影響を強めることができる。例えば一実施形態によれば、ビットレートに代えて、ビットレートの第１の導出値を使用することもできる。さらに一実施形態によれば、ビットストリームの選択または部分を変更したり、最適化したりすることもできる。例えば一実施形態によれば、相関は、無作為に決定されたビットストリームの選択を用いて行われる。しかし、一実施形態によれば、ある長さのすべての可能な選択にわたって反復し、その最大相関値の中央値を結果として用いることもできる。
・わずかなカメラモーションの影響の大部分を潜在的に除くことのできる高度化として、個々のフレームの外郭（outer block）のビットレートの減算である。これらのブロックは通常、それまでは見えていなかったテクスチャの情報を含んでいる。画像の境界に沿った新しいテクスチャの露出による影響を受けないブロックに合わせてビットレートを下げることにより、カメラモーションの影響が動きベクトルの差分符号化だけに抑えられる。
・異なった、あるいは変動さえもするフレームレート及びフレーム落ちに対処するために、動的時間伸縮法（DTW: Dynamic Time Warping）と呼ばれる方法を用いることができる。この方法の背後にある考え方は、一定のオフセットではなく、２つのビデオにおける時刻の間の非線形（non-linear）なマッピングを見つけることである。したがって、ビデオシーケンス内のあらゆるフレームについてそれぞれの（しかし全体として一貫性を有する）時間的オフセットを生じる結果になるはずである。他方のビデオ再生が何らかの理由で瞬間的に減速した場合には、その瞬間のオフセットは単純に増加し、第２のビデオが回復したときに再度減少するはずである。ＤＴＷでは、ビットレート曲線を、それぞれについて最適なオフセットを探し出すことのできるより小さな断片に分割する。ＤＴＷによって解決することのできる別の問題が、後述する「Ｃｈａｒｌｙ」というデータセットのような通りすがりの人の存在である。紛らわしいオブジェクトを含むビデオの部分には、すべての「適正な（proper）」フレームとはわずかに異なるオフセットが割り当てられることになる。この場合、単純な多数決により、これらの異常値をその後排除することができる。
・後で示す結果と、前述の高度化を用いた改善により、本発明の実施形態はサブフレームの精度にまで到達することができる。ビデオフレームまたは単にビットレートを時間的に補間することにより、適用されるサンプリング係数に対する時間的整合の精度を達成することができる。
・時間的オフセットを決定するためだけではなく、時間的マッチングが本当に存在するかどうかも決定するために、最大相関値の閾値を設定することができる。そのような（最小の）閾値を超える場合に限って、マッチングが存在すると結論付けることができる。さらには、最大値の傾き（slope）を調べてマッチングのロバスト性の尺度を生成することもできる。したがって、計算が複雑な特徴抽出ステップを行わずに、時間的にマッチするビデオを特定することができる。

本提案の手法の利点を示すために、この手法を、前述した従来のアルゴリズムの課題に関して評価する。計算の複雑度に関しては、既存の圧縮ビデオデータのビットストリームを使用することも、多くのオンライン・ビデオ・プラットフォーム上で行われるように、ビデオを新しい形式に圧縮することも可能である。抽出されたビットレートのみに基づいて、単純な一次元相互相関（one-dimensional cross correlation）を求めるだけでよい。よって、符号化されたビデオデータの場合には、ごくわずかな計算時間ですむ。

前述のように、この手法は、視る角度に対して不変の時間的特徴（viewing angle invariant temporal fingerprint）に基づくものである。したがって、視点間に１８０°の角度を有し、つまり相互に向かい合う録画間でさえも、同期をとることができる。しかし、角度が厳密に９０°であり、動きがシーケンスの長さ全体にわたって１つのカメラ軸の上においてのみ起きる場合には、シーンの同期をとることはできない。しかし、この合成的なシナリオは、カメラのうちの１台においては全く変化を捕らえることができないことを意味するはずである。

カメラモーションの影響を効率的に補償し、相互相関の手法の利用を可能にするビデオコーデックの特性により、通常のパン及びブレの影響を低減することができる。

コミュニティベースの用途における利用においてはきわめて重要な、未知のソースによるビデオの同期を可能とするためには、単純にビットレートを正規化して録画の空間分解能に対して不変である比較を行うことができる。幾何学的な測度を計算しないため、これ以上の適応化が行われる必要はない。

以下、本手法のいくつかの実験結果を説明する。

［実験結果］
以下、「Ｃｈａｒｌｙ」、「ＣａｐｏＥｈａ！」、「Ｎｉｃｏｌａｓ」と呼ぶ３つのデータセットの例について前述した手法の性能を説明する。３つすべてについて、対応するシーケンスにおいてある区間が、他のシーケンスに対する時間的オフセットを見つけようとするために、選択されている。これらのシーケンスは同期をとって録画されているわけではないため、真のオフセットを確認して決定する必要がある。このオフセットは、最大２フレームまで正しいものとした。アルゴリズムの性能を評価するために、手動で決定された基礎となる事実（ground truth）に対する計算されたオフセットの偏差を調べることができる。ビットストリームは、一定の粗い量子化を用いたＨ．２６４／ＡＶＣビデオ圧縮コーデックを用いてビデオを符号化することにより生成されたものである。ＧＯＰ（group of pictures）の構造は、（Ｉ）ＰＰＰＰＰ（Ｉ）ＰＰＰＰＰ（Ｉ）ＰＰＰＰＰ…であり、ＧＯＰ長は５００であった。比較またはマッチングには正規化相互相関を使用する。

ａ）Ｃｈａｒｌｙ
「Ｃｈａｒｌｙ」という名前の第１のデータセットは、１０メートルのワイドベースラインと約７０°の角度を有する２つの視点からの録画を伴っている。シーンは人物が視野に現れるところから始まる。異なる角度から撮影された２つの（すでにマッチングされた）シーンが図４に示されている。続いてごみ置場で行われる行動は、最初の５００フレームにおいては比較的低いビットレートを生じさせる。（このビットレートに対応する）フレームサイズの経時的な変化が図５に示されている。上の部分には元のシーン（第１のビデオシーンが左、第２のビデオシーンが右）が示されており、下の部分には、対数尺度の適用とフレーム集合の選択とを含む前処理を行った後の様子が示されている。次いで、（図４には示されていないが）４人のグループがこのシーン内に現れ、（図５に示したような）ビットストリームのピークに反映する大量の新しい情報が生じる。しかし、ベースラインが大きいためにこれらの人物が個々の録画に同時には現れないことが、ピークの間の約２０フレームのオフセットにより示されている。このグループが通り過ぎた後で、最後の人物もシーンに現れ、そのシーンから去り、これはこのシーンの終わりのピークに対応する。

前述のような同期をとるために、（図５の右下に示したように）第２の録画において５００フレームの長さのビットストリームが選択される。ビットレートに対数尺度を適用することにより、人物のグループの影響がシーン内のその他のイベントと等しくなる。したがって、ワイドベースラインの悪影響を最小にすることができる。しかし、現実的なシナリオでは、カメラの視線は関心対象のオブジェクトのところで交差する。したがって、現れるオブジェクト間のオフセットはきわめて小さくなるはずである。

しかし、図４に示したような結果的に生じる同期は、さらに大きなオフセットでさえも約３フレームの高精度で処理することができることを示している。図６に、２つの録画の時間的にマッチングされたフレームを比較することによる同期の正確さを示している。図６には、選択されて、前処理がなされた「Ｃｈａｒｌｙ」のビットレート曲線の相関の結果と、推定された時間的オフセット及び真の時間的オフセットにおけるこれらの整合が示されている。

ｂ）ＣａｐｏＥｈａ！
「Ｃｈａｒｌｙ」というデータセットでは明確に区別できるイベントが発生したが、「ＣａｐｏＥＨＡ！」というデータセットでは、２人による大道芸が録画されている。この場合、ビデオにおける連続的な動作は、結果的に高頻度の変動を伴う比較的一定のビットレートを生じさせる。視点間のベースラインは２メートルであり、角度は約３０°である。この場合もやはり、（図７に示しているように）第２のビデオから選択したビットストリームと第１のビデオとの相関を求め、対数尺度を適用する。図８の結果は、手動で決定された基礎となる事実に対する時間的オフセットの偏差を用いた時間的オフセットの正確な決定を見事に示している。シーケンス内の動きを別のイベントにセグメント化することができず、第２のビデオのビットストリームから比較的短く選択したものを使用したとしても、この手法は、図９に示しているように、録画の最適な時間的整合をロバストに見つける。相関の質は、選択を増やすことによってさらに改善することもできるが、より多くの計算時間を要することになる。

ｃ）Ｎｉｃｏｌａｓ
カメラモーションに対する不変性を示すため、「Ｎｉｃｏｌａｓ」というデータセットは、第１のビデオは手動であり、第２のビデオは三脚に取り付けられている２つのビデオを含んでいる。これが図１０に示した異なる平均ビットレートに反映されている。このシナリオをさらに一層難しくするために、小さなカメラパンを適用し、約４５°の視点間の平均角度を使用する。この場合もやはり、個々のイベントにおける動きをセグメント化することができず、比較的一定のビットレートが生じる。しかしそれでもなお、図１１及び図１２に示しているように、時間的オフセットの推定を極めて正確に計算することができる。さらに、相関グラフの傾きを調べることにより、この時間的な整合のロバスト性がわかる。

これらの実験結果は、本手法が非常に厳しい条件の下でさえもうまく機能することを示している。

以上の各実施形態は、ハードウェアによっても、ソフトウェアによっても、ハードウェアとソフトウェアの組み合わせによっても実施できることを当業者は理解されたい。本発明の各実施形態と関連して示したモジュール及び機能は、その全部または一部を、本発明の各実施形態と関連して説明した方法に従って動作するように適切にプログラムされたマイクロプロセッサまたはコンピュータによって実施することもできる。本発明の一実施形態を実施する装置には、コンピュータ、ＰＤＡ、携帯電話、スマートフォン、あるいは類似の任意のものなどが含まれる。

Claims

第１のビデオシーケンスと第２のビデオシーケンスとの時間的な関係を決定する方法であって、
前記第１のビデオシーケンスから第１のパラメータを取得するステップであって、この第１のパラメータの経時的な変化が前記第１のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
前記第２のビデオシーケンスから第２のパラメータを取得するステップであって、この第２のパラメータの経時的な変化が前記第２のビデオシーケンスのエントロピーの経時的な変化に対応するものであり、前記第１のパラメータ及び前記第２のパラメータはそれぞれ、前記第１のビデオシーケンスまたは前記第２のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズである、ステップと、
前記第１のパラメータの経時的な変化を前記第２のパラメータの経時的な変化とマッチングするステップであって、前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化との前記マッチングが、前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化との相互相関関数を計算することにより行われて、前記２つのビデオシーケンスの時間的な関係が決定されるものである、ステップと
を含む方法。
前記第１のビデオシーケンス及び前記第２のビデオシーケンスの経時的なエントロピーの変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
フィルタ関数を適用して平滑化を行うステップと
のうちの１つまたは複数を含む前処理が行われる、請求項１に記載の方法。
前記第１のビデオシーケンスと前記第２のビデオシーケンスとの非線形なマッチングを行うために動的時間伸縮法を行うステップをさらに含む請求項１または２に記載の方法。
前記第１のビデオシーケンスまたは前記第２のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるステップをさらに含む請求項１〜３のいずれか一項に記載の方法。
前記第２のビデオシーケンスのある長さのすべての選択にわたって前記第１のビデオシーケンスの前記第１のパラメータの相関を反復して求め、相関の最大値の中央値または平均値を結果として用いるステップをさらに含む請求項１〜４のいずれか一項に記載の方法。
第１のビデオシーケンスと第２のビデオシーケンスとの時間的な関係を決定する装置であって、
前記第１のビデオシーケンスから第１のパラメータを取得するモジュールであって、前記第１のパラメータの経時的な変化が前記第１のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
前記第２のビデオシーケンスから第２のパラメータを取得するモジュールであって、前記第２のパラメータの経時的な変化が前記第２のビデオシーケンスのエントロピーの経時的な変化に対応するものであり、前記第１のパラメータ及び前記第２のパラメータはそれぞれ、前記第１のビデオシーケンスまたは前記第２のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズである、モジュールと、
前記第１のパラメータの経時的な変化を前記第２のパラメータの経時的な変化とマッチングするモジュールであって、前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化との相互相関関数を計算することにより、前記第１のパラメータの経時的な変化と前記第２のパラメータの経時的な変化とのマッチングが行われ、前記２つのビデオシーケンスの時間的な関係が決定されるものである、モジュールと
を備えた装置。
前記第１のビデオシーケンス及び前記第２のビデオシーケンスの経時的なエントロピー変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
フィルタ関数を適用して平滑化を行うステップと
のうちの１つまたは複数を含む前処理が行われる、請求項６に記載の装置。
前記第１のビデオシーケンスと前記第２のビデオシーケンスとの非線形なマッチングを行うために動的時間伸縮法を行うモジュールをさらに備えた請求項６または７に記載の装置。
前記第１のビデオシーケンスまたは第２のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるモジュールをさらに備えた請求項６〜８のいずれか一項に記載の装置。
前記第２のビデオシーケンスのある長さのすべての選択にわたって前記第１のビデオシーケンスの前記第１のパラメータの相関を反復して求め、相関の最大値の中央値を結果として用いるモジュールをさらに備えた請求項６〜９のいずれか一項に記載の装置。
請求項１〜５のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラム・コードを含むコンピュータプログラム。