JP5165743B2 - ビデオデータの同期をとる方法及び装置 - Google Patents

ビデオデータの同期をとる方法及び装置 Download PDF

Info

Publication number
JP5165743B2
JP5165743B2 JP2010252721A JP2010252721A JP5165743B2 JP 5165743 B2 JP5165743 B2 JP 5165743B2 JP 2010252721 A JP2010252721 A JP 2010252721A JP 2010252721 A JP2010252721 A JP 2010252721A JP 5165743 B2 JP5165743 B2 JP 5165743B2
Authority
JP
Japan
Prior art keywords
parameter
video sequence
change
video
over time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010252721A
Other languages
English (en)
Other versions
JP2011109656A (ja
Inventor
フロリアン・シュヴァイガー
ミヒャエル・アイヒホルン
ゲオルク・シュロート
エッケハルト・シュタインバッハ
ミヒャエル・ファールマイアー
ヴォルフガング・ケレラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2011109656A publication Critical patent/JP2011109656A/ja
Application granted granted Critical
Publication of JP5165743B2 publication Critical patent/JP5165743B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4347Demultiplexing of several video streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

同じシーンについての複数のビデオを扱うほぼすべてのアプリケーションでは、複数の録画(recordings)の同期が必要になる。これらのアプリケーションは、例えばスポーツイベントのディジタルテレビ送信において見受けられる。対象のシーンを、いわゆる「ピクチャ・イン・ピクチャ(picture-in-picture)」形式で異なる視点から同時に見ることができるものである。しかし、これらのサービスは、外部クロックを用いてカメラをトリガすることにより各ビデオストリームを一時的に整合させるための複雑で較正されたインフラストラクチャを必要とする。プロの映画製作においてビデオ同期はカチンコ(clapperboard)と同じくらい古くから必要とされてきたが、カチンコは未だ映画のカットのための重要な基準として使用されている。ディジタル3Dアニメーションの導入により、時間の基準(time reference)はますます多くの注目を集めている。今までのところ、これらのアプリケーションはすべて、もっぱら専門的な領域における(プロ用の)複雑な同期ハードウェアによって実施されている。
しかし、同期を容易にとることができれば、プロのテレビまたは映画の製作の高度化につながるだけではなく、特に、新しいコミュニティベースのサービスも円滑になるはずである。高品質なビデオを録画することのできるカメラ付き電話機の市場占有率がますます増えるにつれて、ユーザが関心のある任意の場所のメディアを見つけることが可能になるような臨界的な量に、ユーザ生成コンテンツの量は達しよう。この場合、GPSタグを用いて問い合わせにプレフィルタを適用することができる。場所だけでなく時間においても問い合わせれば、複数のプロシューマ(prosumer)(コンテンツの制作者であると同時に消費者でもあるユーザ)によって記録されている可能性のあるイベントのサーチが可能になる。したがって、複数のビデオ記録を時間的にマッチングすることができれば、それらビデオ記録の利用可能性により、メディアが豊富になる可能性が高まる。
単なる一例を挙げるとすれば、大道芸、トークイベント、または地域スポーツイベントといったイベントを見ている間の視点の移動である。これはまた、位置がマッチングされた個々のショットから映画を生成することのできる時間的ステッチ(temporal stitching)アプリケーションも含むはずである。この場合、記録者のうちの1人のオーディオデータを他のプロシューマのビデオデータとミックスし、結果的に共同制作のシーン記録とすることもできる。
さらに、コンピュータ・ビジョンの分野においてよく知られているアルゴリズムをビデオ処理にまで拡張することにより、冗長なビデオ情報を利用して3次元映像(three-dimensional scenery)を再現したり、背景、前景を取り去ったり、あるいは異なる視点の組み合わせを作成したりすることもできる。分かりやすい例は、オクルージョン(occlusion)を除去し、妨害を受けないようにして大道芸を録画することである。しかし、環境の3次元構造についての効果的な情報を用いれば、複雑な拡張現実(augmented reality)のアプリケーションを作成することができる。加えて、空間領域と時間領域の両方での超解像ビデオを作成することもでき、スムーズなスローモーションやズームが可能になる。
ビデオシーケンスの同期は、これらすべてのアプリケーションにとって必須のものである。
近年、ビデオ同期の問題に対するいくつかの手法が提案されている。非特許文献1に記載されている手法では、特徴ベースのアルゴリズムと、強度ベースのアルゴリズムと、カメラモーションベースのアルゴリズムとを区別する。最後のカテゴリは、強固にリンクされたカメラを用いた、非常に特殊なシナリオを含むものである。明らかにこれは極めて限定的な前提である。特徴ベースの手法は同期方式の中で最大の系統である。特徴ベースの手法では、いわゆる画像の特徴、つまり高度に特徴的なポイントまたはエッジをビデオフレーム内で検出し、別のシーケンス内の対応する特徴と関連付けることができる。
基本となる考え方は、同じ3Dポイントに対応するフレーム特徴の動きは異なるカメラ間において相関性を有するというものである。この種のアルゴリズムの主な欠点は、シーケンス全体にわたる特徴の確実な検出とマッチングと追跡とが必要となることである。この重要な問題はまだ満足のいくようには解決できていない。最後に、強度ベースの同期アルゴリズムは、あるビデオ内のあらゆる画素から第2のビデオ内の画素へのマッピングを行うことに焦点を当てるものである。アプローチによっては、2つのビデオ間の時間的オフセットだけでなく、2つの画像間の幾何学的なひずみも推定される。しかし、ひずみに関する情報は正確な同期を行うために必要であり、それがこの方法を一層複雑にする。一般に、強度ベースの方法では移動するカメラを扱うことができない。既存の全ての手法に共通する問題は、視る角度(viewing direction)の制限である。通常、約30°を上回るほど異なる観測方向はサポートされていない。
ハードウェアベースの同期システムは、最も高いロバスト性及び正確性を可能とするものの、これらのシステムはそのインフラストラクチャに関する複雑度及び求められる要件により、現在のところエンドユーザ機器には適用することができない。メディアコンテンツへのタイムスタンプのタグ付けは、これまではほとんど使用されておらず、この場合には、無限に差異が生じ得る個々の内部デバイスクロックに基づくこととなる。しかも、ハードウェアベースの手法及びタイム・スタンプ・ベースの手法は既存のビデオにさかのぼって適用することができない。
他方、最近のソフトウェアベースの手法も計算複雑度が高い。これは、強度ベースの方法がフレームを画素ごとに処理するものであり、それによって非常に大規模な数学演算を行うことによるものである。特徴ベースの方法は、次元そして計算時間を削減するためにフレームの関心点(interest point)を抽出するものの、その抽出に時間を要する。カメラモーションベースの手法は比較的高速である。しかし、これらの手法は、カメラの強固な取付け及びベースラインを前提とするものである。したがって、これらの手法は前述のアプリケーションには適用することができない。
しかし、強度ベースのアルゴリズム及び特徴ベースのアルゴリズムでは、いくつかの前提条件を満たすことが必要となる。従来の開発において主要な課題の1つは視る角度(viewing angle)の制約である。強度ベースの方法では付随する歪みをほとんど処理することができないが、特徴ベースの方法によれば、非常に限られた性能ではあるが、一般的には最大30°までの角度を処理することができる。さらに、いずれのカテゴリも、焦点距離といったカメラ特性の知識を前提としており、または少なくとも同じ種類のカメラの使用を必要とする。特に強度ベースの方法におけるもう一つの非常に重要な課題は、カメラモーションに対する制限である。しかし、手動かつ軽量のカメラ付き電話機は、明らかに、画像安定化の手法を用いても視る角度(viewing direction)の変動が生じる。
特徴ベースのアルゴリズムでは、関心点の連続的な追跡(トラッキング)を行うため、衣服の上などで生じるテクスチャの変動の影響を受けやすい。さらに、シーンにおける部分的なオクルージョンも従来の特徴トラッカーにとっての課題である。
ビデオの同期は、後発のあらゆる特徴ベースの方法の基礎を作ったSteinによって先駆的に開発された(非特許文献2などを参照されたい)。以降、様々な手法が生まれている。しかし、これらの手法はすべて、同期のために用いられる制約条件を提供する「エピポーラ幾何学(Epipolar Geometry)」の概念を利用するものである。2004年にTuytelaarsらは、視線(ray of sight)の距離を調べることによって非常に自然なやり方で時間的オフセットを見つける特徴ベースのアルゴリズムを提示している(例えば非特許文献3)。
軌跡対軌跡の位置合わせ(trajectory-to-trajectory alignment)とも呼ばれる特徴依存の方法とは異なり、強度ベースの手法は、シーケンス対シーケンスの位置合わせ(sequence-to sequence alignment)といわれている。この用語を作ったのがCaspiらである。Caspiらの時空間的な位置合わせに関する研究はこの分野における基礎を築いている(非特許文献4など)。
また、いくつかの基本的な強度ベースのアルゴリズムも提案されている。その一例が非特許文献5に記載されている。このアルゴリズムでは、ビデオ内の全体的な輝度変化が、あるフレームから次のフレームまでの強度変化を単純に足し合わせることによって得られる。これは、同じ方向から同じシーンを見ている他の(静止)カメラのものと比較することのできる、ある種の経時的な「輝度変化プロファイル(brightness change profile)」を与える。
C. Lei and Y.H. Yang, Tri-focal tensor-based multiple video synchronization with subframe optimization, IEEE Transactions on Image Processing, 15(9):2473-2480, 2006 GP Stein, Tracking from multiple view points: Self-calibration of space and time, In Computer Vision and Pattern Recognition, 1999, IEEE Computer Society Conference on., volume 1, 1999 T. Tuytelaars and L. Van Gool, Synchronizing video sequences, In Computer Vision and Pattern Recognition, 2004, CVPR 2004, Proceedings of the 2004 IEEE Computer Society Conference on, volume 1 Y. Caspi and M. Irani, A step towards sequence-to-sequence alignment, In IEEE Conference on Computer Vision and Pattern Recognition, 2000, Proceedings, volume 2, 2000 M. Ushizaki, T. Okatani, and K. Deguchi, Video synchronization based on co-occurrence of appearance changes in video sequences, In Proceedings of the 18th International Conference on Pattern Recognition-Volume 03, pages 71-74, IEEE Computer Society Washington, DC, USA, 2006
しかし、全体的にみて、従来のビデオ同期の手法は、ビデオデータの同期を基礎とした大部分のアプリケーションの大衆市場向けの利用を阻むいくつかの前提条件を伴うものである。
一実施形態によれば、第1のビデオシーケンスと第2のビデオシーケンスとの時間的な関係を決定する方法であって、
前記第1のビデオシーケンスから第1のパラメータを取得するステップであって、この第1のパラメータの経時的な変化が前記第1のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
前記第2のビデオシーケンスから第2のパラメータを取得するステップであって、この第2のパラメータの経時的な変化が前記第2のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
前記第1のパラメータの経時的な変化を前記第2のパラメータの経時的な変化とマッチングするステップであって、このステップが前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化との相関関数を計算することにより行われて、前記2つのビデオシーケンスの時間的な関係が決定されるものである、ステップと
を含む方法が提供される。
このような手法によれば、2つのビデオシーケンスのそれぞれのエントロピーまたは経時的なエントロピー変化に基づいた、これら2つビデオシーケンスの「指紋のような特徴(fingerprint)」が決定される。この特徴は、そのビデオシーケンスを符号化するために必要な情報の量を表しているか、またはこれに相当するものであり、つまり、そのビデオシーケンスの複雑さの尺度である。
結果的に得られる時間の関数であるパラメータは、そのパラメータが導出される元となったビデオシーケンスに対応している。次いで、時間の関数である2つのパラメータをマッチングしようとすることによって、2つのパラメータの時間的な関係、つまり2つのビデオシーケンスの時間的な関係を決定することができる。
このような手法によれば、ビデオシーケンスにおけるオブジェクトの動きが特にエントロピーに寄与していて、さらには、それらオブジェクトのエントロピーに対する影響はある程度まで、カメラの視線(line of sight)、さらにはカメラの動き(モーション)とさえも無関係である。したがって、この手法は、異なる角度から撮影されたビデオを用いる場合または移動するカメラを用いる場合でさえも、驚くほどうまく機能する。
したがって、一実施形態においては、パラメータの経時的な変化を表す関数を用いて、それぞれのビデオ信号に対応する2つの関数の経時的な変化を、時間的に変化する2つの関数の相関関数を計算することによりマッチングする。このように、2つの関数をマッチングしてこれらの時間的な関係を決定することができる。
一実施形態によれば、前記第1のパラメータ及び前記第2のパラメータはそれぞれ、
前記第1のビデオシーケンス及び前記第2のビデオシーケンスの個々のフレームまたはフレームグループに対して前記第1のビデオシーケンスまたは前記第2のビデオシーケンスから導かれるエントロピー、または条件付きエントロピー、またはブロックエントロピー、または関連する任意のエントロピー、またはエントロピーベースのパラメータと、
前記第1のビデオシーケンスまたは前記第2のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズと
のうちのいずれかである。
エントロピーまたは条件付きエントロピーまたはブロックエントロピーは、ビデオシーケンスのフレームグループ内のフレームの情報量(information content)の直接的な尺度である。
特に好都合な手法としては、ビデオコーデックを利用する。このビデオコーデックは、その圧縮機能及び動き推定(motion estimation)機能により、そのビットレート(またはフレームサイズ)がビデオシーケンスのエントロピーに直接的に相当する出力データストリームを生成する。シーケンスが複雑であり、多数の異なる動きをするオブジェクトが存在する場合には、エントロピーが上昇し、結果として符号器によって生成されるビットレート(またはフレームサイズ)も上昇する。他方、静止しているか、あるいはほぼ静止しているシーケンスは低エントロピーであり、したがって低ビットレートである。
結果的に、ビデオコーデックの出力は、エントロピーに関連するパラメータ及びその経時的な変化を取得するために直接的に使用することができる。あるいは、ファイルから読み取られる、すでに符号化されたビデオシーケンスを処理して、例えば、時間の関数としてのビットレートを取得し、次いでそれを別のシーケンス及びそのビットレートとマッチングするために使用することもできる。
一実施形態によれば、前記第1のビデオシーケンス及び前記第2のビデオシーケンスの経時的なエントロピーの変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
フィルタ関数を適用して平滑化を行うステップと
のうちの1つまたは複数を含む前処理が行われる。
差分値を取得することにより、連続的なカメラモーションの影響を低減し、実際のシーンの変化の影響を高める。
より大きな強度値と比べてより小さな強度値をより重視する関数を適用することによって、シーンへの新しい人物の参入といった、エントロピーに強く影響を及ぼす単一のイベントの影響を、他のより段階的な変化や経時的に発生するイベントと比べて低減することができる。
フィルタリング関数を適用することによって、平滑化(smoothing)を行うことができる。
このような前処理により、2つのビデオシーケンスのエントロピーに関連したパラメータのマッチングの全体的なロバスト性を高めることができる。
一実施形態によれば、前記方法は、前記第1のビデオシーケンスと前記第2のビデオシーケンスとの非線形(non-linear)なマッチングを行うために動的時間伸縮法を行うステップをさらに含む。
これにより、異なる速度で撮影されているか、または再生されるビデオを考慮することができる。
一実施形態によれば、前記方法は、前記第1のビデオシーケンスまたは前記第2のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるステップをさらに含む。
例えば、フレームのエッジに対応するブロックを減じる場合には、画像のエッジにある新しいテクスチャを露出させるカメラモーションの影響を低減することができる。結果として生じるエントロピー関連のパラメータは、シーン内のオブジェクトの実際の動きにより依存したものとなる。同様に、パラメータの正確性及びロバスト性をさらに向上させるために、エントロピー関連のパラメータに対するフレームの他のブロックまたは個々の画素の寄与を減じることもできる。
一実施形態によれば、前記方法は、前記第1のパラメータ及び前記第2のパラメータの変化のマッチングを、相関関数、特に相互相関を計算することによって行うステップをさらに含む。
このようにして、2つのシーケンスの時間的な関係を容易にかつ効率的に決定することができる。
一実施形態によれば前記方法は、前記第2のビデオシーケンスのある長さのすべての選択にわたって前記第1のビデオシーケンスの前記第1のパラメータの相関を反復して求め、相関の最大値の中央値または平均値といった総合的な値(combined value)を結果として用いるステップをさらに含む。
このようにして、最大となる相関を決定する際のロバスト性をさらに改善することができる。
一実施形態によれば、第1のビデオシーケンスと第2のビデオシーケンスとの時間的な関係を決定する装置であって、
前記第1のビデオシーケンスから第1のパラメータを取得するモジュールであって、前記第1のパラメータの経時的な変化が前記第1のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
前記第2のビデオシーケンスから第2のパラメータを取得するモジュールであって、前記第2のパラメータの経時的な変化が前記第2のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
前記第1のパラメータの経時的な変化を前記第2のパラメータの経時的な変化とマッチングするモジュールであって、このマッチングが前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化との相関関数を計算することにより行われて、前記2つのビデオシーケンスの時間的な関係が決定されるものである、モジュールと
を備えた装置が提供される。
このようにして、ビデオの同期をとる方法を実施する装置を実現することができる。
一実施形態によれば前記装置は、本発明の他の実施形態におけるステップを実行する1つまたは複数のモジュールをさらに備えている。
一実施形態によれば、本発明の実施形態の一つに基づく方法をコンピュータに実行させることを可能とするコンピュータ・プログラム・コードを含んだコンピュータプログラムが提供される。
あるシーンとその動き補償を示す説明図である。 別のシーン及びその動き補償を示す説明図である。 本発明の一実施形態を示す説明図である。 本発明の一実施形態により同期がとられる2つのシーンを示す説明図である。 図4に示したシーンのビットレートを示す説明図である。 図4に示したシーンの相関を示す説明図である。 別の2つのシーンのビットレートを示す説明図である。 図7のシーンの相関を示す説明図である。 本発明の一実施形態により同期がとられる2つのシーンを示す説明図である。 別の2つのシーンのビットレートを示す説明図である。 図10のシーンの相関を示す説明図である。 本発明の一実施形態により同期がとられる2つのシーンを示す説明図である。
従来のいくつかのビデオ同期の手法は、2つのシーケンス間の時間的な不一致を検出する人間的なやり方を模倣するために、可能な限り多くのシーンの情報を再現しようとする。しかし、本発明に係る手法は、時間的にビデオの位置合わせを行うための全く異なる高水準なものである。
本発明の一実施形態によれば、ビデオシーケンス内のフレームまたはビデオシーケンス内のフレームグループについて、エントロピーあるいはエントロピーに関連したパラメータ(またはその近似値)が計算される。このパラメータは経時的に変化する。というのは、このパラメータは、当該ビデオシーケンス内の別のフレームまたは別のフレームグループについて計算することができ、これによりこのパラメータをそのビデオシーケンスの一種の「指紋のような特徴(fingerprint)」とみなすことができるからである。マッチングあるいは同期をとるべき2つのビデオシーケンスがある場合には、このパラメータはいずれのビデオシーケンスについても計算される。その結果、第1のビデオシーケンスについてのパラメータシーケンスと、第2のビデオシーケンスについてのパラメータシーケンスという2つのパラメータシーケンスが得られる。このため、シーケンス内の1つのパラメータは、そのパラメータが対応するビデオシーケンス内の1つのビデオフレームまたは1つのビデオフレームグループに対応する。
次いで、これら2つのパラメータシーケンスを、例えば相互相関を求めるか、またはこれらの時間的な関係(「時間差」または「フレーム数」の差)を得るための他の任意の操作を行うことにより、「マッチング」させることができる。このようにして、第2のビデオシーケンスにマッチングするために第1のビデオシーケンスを時間的にどの程度シフトさせる必要があるかを決めることができる。
次に、エントロピー関連パラメータである「パラメータ」の計算または決定について説明する。ある実施形態では、単純に、次式に基づくエントロピーのよく知られた定義を用いて各ビデオフレームのエントロピーを計算することができる。
ただし、I(x)は自己情報量(self-information)であり、
は期待値である。p(x)は値xが発生する確率である。
当業者であれば、この式によりシーケンス内の個々のフレームのエントロピーまたはエントロピーの近似値を計算することができるであろう。
単なる一例に過ぎないが、個々のフレームのエントロピーを計算するために、そのフレームを小さなブロックに分割して、ある値xがそのブロック内のある位置においてどのくらいの頻度で発生するかを調べることによって、確率分布P(x)を得ることができる。次に、これを用いて、個々のフレームのエントロピー(またはエントロピー関連パラメータ)を計算することができる。これにより最終的に、フレームシーケンスに対応するパラメータシーケンスが得られる。続いて、相関を求めることによって、2つのビデオシーケンスのパラメータシーケンスをマッチングすることができる。
あるいは、複数のフレームに基づいたエントロピー関連パラメータを計算することもできる。その一例は、1フレームだけではなくそれ以前のフレームをも考慮して計算される条件付きエントロピー(あいまい量(equivocation))の計算である。これは、後続のフレームが統計的にみて独立ではなく、ある確率で相互に依存し合うことを考慮したものである。フレームn−1が値Aを取るとすると、値Xを取るフレームnの条件付きエントロピーは以下のように計算することができる。
2つのフレームのいくつかのシーケンスを調べることにより、フレーム内のある画素が、それ以前のフレームにおいてその画素の値がAである場合に、値xを取る可能性がどの程度であるかを示す確率分布が導かれる。次いで、このように得られた確率分布を用いて、フレームごとの条件付きエントロピーをエントロピー関連パラメータとして計算することができる。続いて、2つのビデオシーケンスの2つのエントロピー関連パラメータをマッチングして、それらの時間的な関係を導くことができる。
別の実施形態では、ただ1つの先行フレームだけではなく複数の先行フレームを考慮する。この場合には、あるビデオフレームについて、このフレームとこのフレームに先行するフレームグループとに基づいたエントロピー関連パラメータとしてブロックエントロピーが得られる。
また、エントロピー関連パラメータの計算をさらに改良することもできる。例えば、動き推定(motion estimation)を考慮に入れてロバスト性をさらに向上させることができる。これにより、ある画素が以前のフレームと比べてどの程度移動しているかを考慮し、確率分布を得るために、その画素を先行フレーム内の同じ画素と比較するのではなく、動き推定を考慮してその画素に対応する先行フレーム内の画素と比較することができる。
以下、ビデオ符号器によって生成されたビットストリームを利用した実施形態を説明する。このようなビデオ符号器は、圧縮アルゴリズムによりできる限りビデオを圧縮しようとするものである。理論的に可能な最大圧縮は当該ビデオシーケンスのエントロピーに結びついているため、ビデオコーデックによって生成されるビットストリームは「エントロピー関連パラメータ」に相当する。
一実施形態では、ビデオストリームのビットレート(あるいは、ビデオストリームのバイト単位のフレームサイズやその対数値、累乗根などの、ビデオストリームから導出されたパラメータ)及びその経時的な変化を、あるビデオシーケンスを別のビデオシーケンス(またはその個々の「指紋のような特徴(fingerprint)」)と「相関」を求めるために使用することのできるビデオシーケンスの一種の「指紋のような特徴」として使用し、それらの時間における関係が特定される。つまり、2つのビデオシーケンス間の時間的シフトまたは時間的遅れが特定される。したがって、時間(またはフレーム数)の関数としてのビットレート(またはビット単位もしくはバイト単位でのフレームサイズ)は、一実施形態では、ビデオシーケンスを表すものとして使用することができる。次いで、(相互相関を計算するなどによって)異なるビデオシーケンスのこれらの表現の相関を求めて、これらの時間的関係を特定することができる。
このような手法によれば、複雑な特徴分析を行うことなく、2つのビデオシーケンス間の時間的関係(時間的遅れまたは時間的シフト)を決定することができる。その一方で、2つのシーケンス間の時間的シフトは、異なる視点から撮影されているシーケンスであっても、あるいは移動中のカメラを用いて撮影された場合であっても、非常に正確に決定することができる。
これは、一見して非常に驚くべきことかもしれない。従来技術における非常に大規模な計算量または複雑なハードウェアを必要としないこの手法が機能し、しかも視点に依存せず、またカメラモーションにさえ依存せずにうまく機能するという驚くべき事実は、以下により理解することができる。
この問題を情報理論の観点から見ると、シーンにおける変化の量、したがってビデオ信号のエントロピーは、視点とはほぼ独立しているということができる。左側または右側から移動する人物が見えるかどうかは、方向を変化させるに過ぎず、情報の量は変化させない。
しかし、シーンのエントロピーは、理論的な尺度に過ぎず、事前の情報に大きく依存する。にもかかわらず、ビデオ符号器は、データ量を必要最小限にして、ビデオの本質的な情報を節約しようとする。つまり、出力ビットレートは、ビデオを符号化するのに必要な情報の量及び複雑度を示すものである。これにより、符号化されたビデオのビットレートを、シーンにおける変化、したがって時間的に整合をとるための指紋のような特徴(fingerprint)として使用することが可能になる。
それでもなお、ビデオ内の変化、したがってビットレートは、シーン内の動きのみならず、カメラモーションによっても増加すると言うこともできる。しかし、従来のハイブリッドビデオ符号器は精度の良い動き補償を提供するため、カメラモーションによって生じる画像の変化は、シーンにおける変化の場合によくある複雑な変化よりも低いビットレートで表すことができる。一般に符号器は、ビデオフレームに含まれる情報を、画像ブロック及び対応する動きベクトル(motion vector、MV)に分割する。これらのベクトルはカメラ座標系に対する位置の変化を示す。よって、以前のフレーム内の画像ブロックが、MVによって決まる位置において再利用されて、位置決めされる。したがって、カメラのパンが、画像内のブロック位置の変化を補償する動きベクトルをもたらす。この様子が図1に概略的に示されている。左側にはシーンがその動きベクトルとともに示されており、右側にはビットレートへの寄与が示されている。(図1からわかるように)多くのMVはほぼ同じ大きさと方向を有しているため、差分符号化(differential encoding)により低ビットレートの達成が可能となる。さらに、(図1において左側下部にある矢印で示されている)それまでには見えていなかった領域をデータストリームに追加する必要がある。その場合、これは、図1の右側に「イントラブロック(Intra-Block)」として示されているビットレートへの寄与をもたらす。その一方で、ビットレートに寄与するその他の部分は差分動きベクトル(differential motion vector)である。
他方、シーン内のオブジェクトの動きによって生じる様々な動きベクトルを符号化するために必要なビットレートは、符号化するのがはるかに難しく、より多くの情報を伴う。さらにシーンにおける変化は複雑で微細なものであるため、ブロックベースの動き推定及び動き補償における粗いセグメント化により通常は多くの小ブロックが生成され、したがって、ブロックパターン及び動きベクトルのシグナリングの速度がより高くなる。補償の精度が低く、そして画像変動が微細で複雑であることにより、送信する必要のある動き補償の残差(residual)がより大きくなる。このことは、動きベクトル場と、カバーされている背景と、カバーされていない背景とを示す図2に概略的に示されている。右側には、カメラモーションとオブジェクトのモーションが合わせたことによるビットレートの増加が示されている。図の右側にはやはり、この場合には3つの成分、すなわち、差分動きベクトルと、前述の残差と、イントラブロックとを有するビットレートへの寄与が示されている。
加えて図2の場合には、動く人物が量のより多い新しいテクスチャを露出させるために、ビットレートが著しく増加する。したがって、シーン内の変化、したがってそのエントロピーは、必要なビットレートと密接に関連している。
このことは、異なったシーケンスを「マッチングさせ」、または「相関を求める」ために使用するビデオシーケンスの「指紋のような特徴(fingerprint)」としてなぜビットレートを用いることができるのかを説明するための理論的な基礎とすることができる。
この手法は、シーンの動きが同期性(synchrony)を定めるという事実に基づくものである。この場合、独立したカメラモーションは実際には無関係である。シーン内のオブジェクトの動きは高エントロピーのビデオ信号を生じさせ、この動くオブジェクトはビデオコーデックの「予測器(predictor)」を「驚かせ(surprise)」、その結果、ビットレート(及びこれに対応する符号化フレームのフレームサイズ)の増加をもたらす。したがって、動きとビットレートは密接に関連しており、よって、ビットレートは、ビデオシーケンスのエントロピーの経時的な変化(evolvement)に相当するパラメータとして用いることができる。次いで、この時間(またはフレーム数)に応じた(フレームサイズまたはビットレート単位の)パラメータを、別のビデオシーケンスのビットレートまたはフレームサイズとマッチングさせるか、または相関を求めることができる。
したがって、時間的な整合をとるための特徴としてビットレートを用いれば、図3に概略的に示したような装置またはシステムを使用して2つのビデオのビットレートについて経時的に相互相関を求めることによって、2つのビデオを同期させることができる。異なるカメラによる2つのビデオデータは、何らかのビデオコーデックによってそれぞれ圧縮される。これにより、異なるカメラによる(対応するビットレートを有する)2つのビットストリームが生まれる。続いて、これらのビットストリームの(オプショナルな)前処理(preprocessing)が行われる。この前処理には、2つのビットストリームのビットレートの対数尺度への変換や、以下に詳細に説明するビットレートから外郭(outer block)を差し引くことといった、実際に相関を求める前に行うことのできる他の任意の前処理が含まれる。前処理の別の例として、実際のビットレート値から任意の導出値を得ること、例えば、実際のビットレートからの導出値として差分ビットレートを得ることなどがある。さらに、対数関数に代えてルート関数(root function)を適用することもでき、あるいは、ビットストリーム信号のより大きな値と比べてより小さな値を増幅し、これをより重視する任意の関数を適用することもできる。さらに、ビットストリーム信号を平滑化するためにフィルタ関数(高域フィルタ、低域フィルタ、帯域フィルタ)を適用することもできる。
次いで、前処理によりビットストリームから導かれた2つのデータストリームを「マッチング」しようとすることによって(経時的に変化する2つのデータストリームのビットレートまたはフレームサイズなどをマッチングすることによって)、ビデオ間の時間的オフセットを決定することができる。「マッチング」は例えば、相互相関などの相関を求め、最大相関値を探し出すことによって行うことができる。この相関により、結果的に生じるビットレートの変化とシーンの動きによって生じる変化とが無相関となるため、本提案のアルゴリズムはカメラモーションの影響をより一層受けにくくなる。さらに、一実施形態では、カメラモーションによって生じるビットレートの一部がある程度まで一定であると仮定して、正規化された相互相関(normalized cross correlation)を用いることができる。比較的小さいものの同程度に重要な変化を特徴づける、例えば照明の変化などによって引き起こされるビットレートの大きな変化を緩和するために、一実施形態ではビットレートへ対数尺度が適用される。
この非常に基本的なアルゴリズムは、従来の手法の要件に適合しない条件下で非常に正確にビデオの同期をとることを可能とする一方で、この手法をさらに高度化することもできる。そのような高度化の例は以下の通りである。
・一実施形態では、カメラが三脚上に取り付けられていないと想定されるため、結果的にビットレートに一定の構成比(share)を生じさせる連続的運動を受ける。差分ビットレートの相関を求めれば、これらの影響を低減して、実際のシーン変化の影響を強めることができる。例えば一実施形態によれば、ビットレートに代えて、ビットレートの第1の導出値を使用することもできる。さらに一実施形態によれば、ビットストリームの選択または部分を変更したり、最適化したりすることもできる。例えば一実施形態によれば、相関は、無作為に決定されたビットストリームの選択を用いて行われる。しかし、一実施形態によれば、ある長さのすべての可能な選択にわたって反復し、その最大相関値の中央値を結果として用いることもできる。
・わずかなカメラモーションの影響の大部分を潜在的に除くことのできる高度化として、個々のフレームの外郭(outer block)のビットレートの減算である。これらのブロックは通常、それまでは見えていなかったテクスチャの情報を含んでいる。画像の境界に沿った新しいテクスチャの露出による影響を受けないブロックに合わせてビットレートを下げることにより、カメラモーションの影響が動きベクトルの差分符号化だけに抑えられる。
・異なった、あるいは変動さえもするフレームレート及びフレーム落ちに対処するために、動的時間伸縮法(DTW: Dynamic Time Warping)と呼ばれる方法を用いることができる。この方法の背後にある考え方は、一定のオフセットではなく、2つのビデオにおける時刻の間の非線形(non-linear)なマッピングを見つけることである。したがって、ビデオシーケンス内のあらゆるフレームについてそれぞれの(しかし全体として一貫性を有する)時間的オフセットを生じる結果になるはずである。他方のビデオ再生が何らかの理由で瞬間的に減速した場合には、その瞬間のオフセットは単純に増加し、第2のビデオが回復したときに再度減少するはずである。DTWでは、ビットレート曲線を、それぞれについて最適なオフセットを探し出すことのできるより小さな断片に分割する。DTWによって解決することのできる別の問題が、後述する「Charly」というデータセットのような通りすがりの人の存在である。紛らわしいオブジェクトを含むビデオの部分には、すべての「適正な(proper)」フレームとはわずかに異なるオフセットが割り当てられることになる。この場合、単純な多数決により、これらの異常値をその後排除することができる。
・後で示す結果と、前述の高度化を用いた改善により、本発明の実施形態はサブフレームの精度にまで到達することができる。ビデオフレームまたは単にビットレートを時間的に補間することにより、適用されるサンプリング係数に対する時間的整合の精度を達成することができる。
・時間的オフセットを決定するためだけではなく、時間的マッチングが本当に存在するかどうかも決定するために、最大相関値の閾値を設定することができる。そのような(最小の)閾値を超える場合に限って、マッチングが存在すると結論付けることができる。さらには、最大値の傾き(slope)を調べてマッチングのロバスト性の尺度を生成することもできる。したがって、計算が複雑な特徴抽出ステップを行わずに、時間的にマッチするビデオを特定することができる。
本提案の手法の利点を示すために、この手法を、前述した従来のアルゴリズムの課題に関して評価する。計算の複雑度に関しては、既存の圧縮ビデオデータのビットストリームを使用することも、多くのオンライン・ビデオ・プラットフォーム上で行われるように、ビデオを新しい形式に圧縮することも可能である。抽出されたビットレートのみに基づいて、単純な一次元相互相関(one-dimensional cross correlation)を求めるだけでよい。よって、符号化されたビデオデータの場合には、ごくわずかな計算時間ですむ。
前述のように、この手法は、視る角度に対して不変の時間的特徴(viewing angle invariant temporal fingerprint)に基づくものである。したがって、視点間に180°の角度を有し、つまり相互に向かい合う録画間でさえも、同期をとることができる。しかし、角度が厳密に90°であり、動きがシーケンスの長さ全体にわたって1つのカメラ軸の上においてのみ起きる場合には、シーンの同期をとることはできない。しかし、この合成的なシナリオは、カメラのうちの1台においては全く変化を捕らえることができないことを意味するはずである。
カメラモーションの影響を効率的に補償し、相互相関の手法の利用を可能にするビデオコーデックの特性により、通常のパン及びブレの影響を低減することができる。
コミュニティベースの用途における利用においてはきわめて重要な、未知のソースによるビデオの同期を可能とするためには、単純にビットレートを正規化して録画の空間分解能に対して不変である比較を行うことができる。幾何学的な測度を計算しないため、これ以上の適応化が行われる必要はない。
以下、本手法のいくつかの実験結果を説明する。
[実験結果]
以下、「Charly」、「CapoEha!」、「Nicolas」と呼ぶ3つのデータセットの例について前述した手法の性能を説明する。3つすべてについて、対応するシーケンスにおいてある区間が、他のシーケンスに対する時間的オフセットを見つけようとするために、選択されている。これらのシーケンスは同期をとって録画されているわけではないため、真のオフセットを確認して決定する必要がある。このオフセットは、最大2フレームまで正しいものとした。アルゴリズムの性能を評価するために、手動で決定された基礎となる事実(ground truth)に対する計算されたオフセットの偏差を調べることができる。ビットストリームは、一定の粗い量子化を用いたH.264/AVCビデオ圧縮コーデックを用いてビデオを符号化することにより生成されたものである。GOP(group of pictures)の構造は、(I)PPPPP(I)PPPPP(I)PPPPP…であり、GOP長は500であった。比較またはマッチングには正規化相互相関を使用する。
a)Charly
「Charly」という名前の第1のデータセットは、10メートルのワイドベースラインと約70°の角度を有する2つの視点からの録画を伴っている。シーンは人物が視野に現れるところから始まる。異なる角度から撮影された2つの(すでにマッチングされた)シーンが図4に示されている。続いてごみ置場で行われる行動は、最初の500フレームにおいては比較的低いビットレートを生じさせる。(このビットレートに対応する)フレームサイズの経時的な変化が図5に示されている。上の部分には元のシーン(第1のビデオシーンが左、第2のビデオシーンが右)が示されており、下の部分には、対数尺度の適用とフレーム集合の選択とを含む前処理を行った後の様子が示されている。次いで、(図4には示されていないが)4人のグループがこのシーン内に現れ、(図5に示したような)ビットストリームのピークに反映する大量の新しい情報が生じる。しかし、ベースラインが大きいためにこれらの人物が個々の録画に同時には現れないことが、ピークの間の約20フレームのオフセットにより示されている。このグループが通り過ぎた後で、最後の人物もシーンに現れ、そのシーンから去り、これはこのシーンの終わりのピークに対応する。
前述のような同期をとるために、(図5の右下に示したように)第2の録画において500フレームの長さのビットストリームが選択される。ビットレートに対数尺度を適用することにより、人物のグループの影響がシーン内のその他のイベントと等しくなる。したがって、ワイドベースラインの悪影響を最小にすることができる。しかし、現実的なシナリオでは、カメラの視線は関心対象のオブジェクトのところで交差する。したがって、現れるオブジェクト間のオフセットはきわめて小さくなるはずである。
しかし、図4に示したような結果的に生じる同期は、さらに大きなオフセットでさえも約3フレームの高精度で処理することができることを示している。図6に、2つの録画の時間的にマッチングされたフレームを比較することによる同期の正確さを示している。図6には、選択されて、前処理がなされた「Charly」のビットレート曲線の相関の結果と、推定された時間的オフセット及び真の時間的オフセットにおけるこれらの整合が示されている。
b)CapoEha!
「Charly」というデータセットでは明確に区別できるイベントが発生したが、「CapoEHA!」というデータセットでは、2人による大道芸が録画されている。この場合、ビデオにおける連続的な動作は、結果的に高頻度の変動を伴う比較的一定のビットレートを生じさせる。視点間のベースラインは2メートルであり、角度は約30°である。この場合もやはり、(図7に示しているように)第2のビデオから選択したビットストリームと第1のビデオとの相関を求め、対数尺度を適用する。図8の結果は、手動で決定された基礎となる事実に対する時間的オフセットの偏差を用いた時間的オフセットの正確な決定を見事に示している。シーケンス内の動きを別のイベントにセグメント化することができず、第2のビデオのビットストリームから比較的短く選択したものを使用したとしても、この手法は、図9に示しているように、録画の最適な時間的整合をロバストに見つける。相関の質は、選択を増やすことによってさらに改善することもできるが、より多くの計算時間を要することになる。
c)Nicolas
カメラモーションに対する不変性を示すため、「Nicolas」というデータセットは、第1のビデオは手動であり、第2のビデオは三脚に取り付けられている2つのビデオを含んでいる。これが図10に示した異なる平均ビットレートに反映されている。このシナリオをさらに一層難しくするために、小さなカメラパンを適用し、約45°の視点間の平均角度を使用する。この場合もやはり、個々のイベントにおける動きをセグメント化することができず、比較的一定のビットレートが生じる。しかしそれでもなお、図11及び図12に示しているように、時間的オフセットの推定を極めて正確に計算することができる。さらに、相関グラフの傾きを調べることにより、この時間的な整合のロバスト性がわかる。
これらの実験結果は、本手法が非常に厳しい条件の下でさえもうまく機能することを示している。
以上の各実施形態は、ハードウェアによっても、ソフトウェアによっても、ハードウェアとソフトウェアの組み合わせによっても実施できることを当業者は理解されたい。本発明の各実施形態と関連して示したモジュール及び機能は、その全部または一部を、本発明の各実施形態と関連して説明した方法に従って動作するように適切にプログラムされたマイクロプロセッサまたはコンピュータによって実施することもできる。本発明の一実施形態を実施する装置には、コンピュータ、PDA、携帯電話、スマートフォン、あるいは類似の任意のものなどが含まれる。

Claims (11)

  1. 第1のビデオシーケンスと第2のビデオシーケンスとの時間的な関係を決定する方法であって、
    前記第1のビデオシーケンスから第1のパラメータを取得するステップであって、この第1のパラメータの経時的な変化が前記第1のビデオシーケンスのエントロピーの経時的な変化に対応するものである、ステップと、
    前記第2のビデオシーケンスから第2のパラメータを取得するステップであって、この第2のパラメータの経時的な変化が前記第2のビデオシーケンスのエントロピーの経時的な変化に対応するものであり、前記第1のパラメータ及び前記第2のパラメータはそれぞれ、前記第1のビデオシーケンスまたは前記第2のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズである、ステップと、
    前記第1のパラメータの経時的な変化を前記第2のパラメータの経時的な変化とマッチングするステップであって、前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化との前記マッチングが、前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化との相互相関関数を計算することにより行われて、前記2つのビデオシーケンスの時間的な関係が決定されるものである、ステップと
    を含む方法。
  2. 前記第1のビデオシーケンス及び前記第2のビデオシーケンスの経時的なエントロピーの変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
    より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
    フィルタ関数を適用して平滑化を行うステップと
    のうちの1つまたは複数を含む前処理が行われる、請求項に記載の方法。
  3. 前記第1のビデオシーケンスと前記第2のビデオシーケンスとの非線形なマッチングを行うために動的時間伸縮法を行うステップをさらに含む請求項1または2に記載の方法。
  4. 前記第1のビデオシーケンスまたは前記第2のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるステップをさらに含む請求項1〜のいずれか一項に記載の方法。
  5. 前記第2のビデオシーケンスのある長さのすべての選択にわたって前記第1のビデオシーケンスの前記第1のパラメータの相関を反復して求め、相関の最大値の中央値または平均値を結果として用いるステップをさらに含む請求項1〜のいずれか一項に記載の方法。
  6. 第1のビデオシーケンスと第2のビデオシーケンスとの時間的な関係を決定する装置であって、
    前記第1のビデオシーケンスから第1のパラメータを取得するモジュールであって、前記第1のパラメータの経時的な変化が前記第1のビデオシーケンスのエントロピーの経時的な変化に対応するものである、モジュールと、
    前記第2のビデオシーケンスから第2のパラメータを取得するモジュールであって、前記第2のパラメータの経時的な変化が前記第2のビデオシーケンスのエントロピーの経時的な変化に対応するものであり、前記第1のパラメータ及び前記第2のパラメータはそれぞれ、前記第1のビデオシーケンスまたは前記第2のビデオシーケンスを符号化または復号化するビデオコーデックから得られるビットレートまたはフレームサイズである、モジュールと、
    前記第1のパラメータの経時的な変化を前記第2のパラメータの経時的な変化とマッチングするモジュールであって、前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化との相互相関関数を計算することにより、前記第1のパラメータの経時的な変化と前記第2のパラメータの経時的な変化とのマッチングが行われ、前記2つのビデオシーケンスの時間的な関係が決定されるものである、モジュールと
    を備えた装置。
  7. 前記第1のビデオシーケンス及び前記第2のビデオシーケンスの経時的なエントロピー変化を表すのに用いられる前記パラメータの差分値を取得するステップと、
    より小さな強度値により大きな重みを与え、より大きな強度値により小さな重みを与える関数を適用するステップと、
    フィルタ関数を適用して平滑化を行うステップと
    のうちの1つまたは複数を含む前処理が行われる、請求項に記載の装置。
  8. 前記第1のビデオシーケンスと前記第2のビデオシーケンスとの非線形なマッチングを行うために動的時間伸縮法を行うモジュールをさらに備えた請求項6または7に記載の装置。
  9. 前記第1のビデオシーケンスまたは第2のビデオシーケンスのエントロピーの経時的な変化を示す前記パラメータに対する個々のフレームのブロックまたは画素のサブセットの寄与を減じるモジュールをさらに備えた請求項6〜8のいずれか一項に記載の装置。
  10. 前記第2のビデオシーケンスのある長さのすべての選択にわたって前記第1のビデオシーケンスの前記第1のパラメータの相関を反復して求め、相関の最大値の中央値を結果として用いるモジュールをさらに備えた請求項6〜9のいずれか一項に記載の装置。
  11. 請求項1〜のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラム・コードを含むコンピュータプログラム。
JP2010252721A 2009-11-13 2010-11-11 ビデオデータの同期をとる方法及び装置 Active JP5165743B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP09175917.5A EP2326091B1 (en) 2009-11-13 2009-11-13 Method and apparatus for synchronizing video data
EP09175917.5 2009-11-13

Publications (2)

Publication Number Publication Date
JP2011109656A JP2011109656A (ja) 2011-06-02
JP5165743B2 true JP5165743B2 (ja) 2013-03-21

Family

ID=42062392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010252721A Active JP5165743B2 (ja) 2009-11-13 2010-11-11 ビデオデータの同期をとる方法及び装置

Country Status (4)

Country Link
US (1) US20110122315A1 (ja)
EP (1) EP2326091B1 (ja)
JP (1) JP5165743B2 (ja)
CN (1) CN102075668B (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9936143B2 (en) 2007-10-31 2018-04-03 Google Technology Holdings LLC Imager module with electronic shutter
US8928809B2 (en) * 2010-09-15 2015-01-06 Verizon Patent And Licensing Inc. Synchronizing videos
EP2458510B1 (en) * 2010-11-29 2014-05-07 NTT DoCoMo, Inc. Method and apparatus for performing a cross-correlation
US9122877B2 (en) 2011-03-21 2015-09-01 Mcafee, Inc. System and method for malware and network reputation correlation
US9106680B2 (en) * 2011-06-27 2015-08-11 Mcafee, Inc. System and method for protocol fingerprinting and reputation correlation
EP2608546A1 (en) * 2011-12-21 2013-06-26 Thomson Licensing Video processing apparatus and method for detecting a temporal synchronization mismatch
US20130271655A1 (en) * 2012-04-12 2013-10-17 Google Inc. System, apparatus and method to facilitate live video streaming
US9392322B2 (en) 2012-05-10 2016-07-12 Google Technology Holdings LLC Method of visually synchronizing differing camera feeds with common subject
US9264584B2 (en) * 2012-09-19 2016-02-16 Tata Consultancy Services Limited Video synchronization
CN103402109B (zh) * 2013-07-31 2015-07-08 上海交通大学 3d视频中左右视点间帧同步性的检测与保证方法
WO2015032363A1 (zh) * 2013-09-09 2015-03-12 Wang Hao 伪彩控制装置和伪彩控制方法
EP2876890A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for frame accurate synchronization of video streams
TWI505113B (zh) * 2014-03-18 2015-10-21 Vivotek Inc 監視系統及其影像搜尋方法
US9357127B2 (en) 2014-03-18 2016-05-31 Google Technology Holdings LLC System for auto-HDR capture decision making
US9628702B2 (en) 2014-05-21 2017-04-18 Google Technology Holdings LLC Enhanced image capture
US9774779B2 (en) 2014-05-21 2017-09-26 Google Technology Holdings LLC Enhanced image capture
US9729784B2 (en) 2014-05-21 2017-08-08 Google Technology Holdings LLC Enhanced image capture
US9813611B2 (en) 2014-05-21 2017-11-07 Google Technology Holdings LLC Enhanced image capture
US9413947B2 (en) 2014-07-31 2016-08-09 Google Technology Holdings LLC Capturing images of active subjects according to activity profiles
US9654700B2 (en) 2014-09-16 2017-05-16 Google Technology Holdings LLC Computational camera using fusion of image sensors
EP3012777B1 (en) * 2014-10-23 2017-03-15 Axis AB Modification of at least one parameter used by a video processing algorithm for monitoring of a scene
EP3142372A1 (en) * 2015-09-08 2017-03-15 Thomson Licensing Method and device for robust temporal synchronization of two video contents
US10250941B2 (en) * 2016-12-13 2019-04-02 Nbcuniversal Media, Llc System and method for mapping affiliated graphs using video fingerprints
CN107835397B (zh) * 2017-12-22 2019-12-24 成都华栖云科技有限公司 一种多镜头视频同步的方法
US11366738B2 (en) * 2018-03-12 2022-06-21 Headspin, Inc. System to determine performance based on entropy values
US20210352341A1 (en) * 2020-05-06 2021-11-11 At&T Intellectual Property I, L.P. Scene cut-based time alignment of video streams
CN112985415B (zh) * 2021-04-15 2021-08-10 武汉光谷信息技术股份有限公司 一种室内定位方法及系统
SE545345C2 (en) 2021-06-30 2023-07-11 Tobii Ab Method and system for alignment of data
US20230328308A1 (en) * 2022-04-07 2023-10-12 Dazn Media Israel Ltd. Synchronization of multiple content streams

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
JP3263807B2 (ja) * 1996-09-09 2002-03-11 ソニー株式会社 画像符号化装置および画像符号化方法
IL119504A (en) * 1996-10-28 2000-09-28 Elop Electrooptics Ind Ltd Audio-visual content verification method and system
US6704455B1 (en) * 1997-05-29 2004-03-09 Ricoh Company, Ltd. Image processing system and image processing method
US20040179608A1 (en) * 2003-02-27 2004-09-16 Intel Corporation Multiple-description coding methods and apparatus
US8139896B1 (en) * 2005-03-28 2012-03-20 Grandeye, Ltd. Tracking moving objects accurately on a wide-angle video
US8009193B2 (en) * 2006-06-05 2011-08-30 Fuji Xerox Co., Ltd. Unusual event detection via collaborative video mining
US20090074084A1 (en) * 2007-09-18 2009-03-19 David Drezner Method and System for Adaptive Preprocessing for Video Encoder
JP5368482B2 (ja) * 2008-02-05 2013-12-18 トムソン ライセンシング ビデオ符号化および復号におけるインプリシットなブロック分割のための方法および装置

Also Published As

Publication number Publication date
US20110122315A1 (en) 2011-05-26
EP2326091A1 (en) 2011-05-25
JP2011109656A (ja) 2011-06-02
CN102075668B (zh) 2013-06-05
EP2326091B1 (en) 2015-08-12
CN102075668A (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
JP5165743B2 (ja) ビデオデータの同期をとる方法及び装置
Sitara et al. Digital video tampering detection: An overview of passive techniques
Chatzitofis et al. Human4d: A human-centric multimodal dataset for motions and immersive media
Dziembowski et al. IV-PSNR—the objective quality metric for immersive video applications
US8718404B2 (en) Method for two-step temporal video registration
Gryaditskaya et al. Motion aware exposure bracketing for HDR video
Kim et al. 3D video generation and service based on a TOF depth sensor in MPEG-4 multimedia framework
Argyriou et al. Image, video and 3D data registration: medical, satellite and video processing applications with quality metrics
Mullan et al. Residual-based forensic comparison of video sequences
Pan et al. RenderMe-360: a large digital asset library and benchmarks towards high-fidelity head avatars
JP2012238932A (ja) 3d自動色補正装置とその色補正方法と色補正プログラム
Li et al. Perceptual quality assessment of face video compression: A benchmark and an effective method
Simone et al. Omnidirectional video communications: new challenges for the quality assessment community
Sharma et al. A review of passive forensic techniques for detection of copy-move attacks on digital videos
Yao et al. Robust moving camera calibration for synthesizing free viewpoint soccer video
Zhang et al. Blind perceptual quality assessment of LFI based on angular-spatial effect modeling
McLean Structured video coding
Schroth et al. Video synchronization using bit rate profiles
CN111542858B (zh) 动态图像解析装置、系统、方法、以及存储介质
US10282633B2 (en) Cross-asset media analysis and processing
CN117956130A (zh) 视频处理方法、装置、设备、系统及可读取存储介质
Milani Compression of multiple user photo galleries
Wang Digital video forensics
Hu et al. A multi-user oriented live free-viewpoint video streaming system based on view interpolation
Wang et al. Towards space: time light field rendering

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165743

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250