JP2007519285A

JP2007519285A - 複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム

Info

Publication number: JP2007519285A
Application number: JP2006519304A
Authority: JP
Inventors: ランボレイ、エドアルド; ヴァシュビュシュ、ミヒャエル; ヴュルムリン、シュテファン; グロス、マルクス; フィスター、ハンスピーター
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-11-26
Filing date: 2004-11-26
Publication date: 2007-07-12
Also published as: WO2005053321A1; EP1579702A1; US20050117019A1; US7324594B2

Abstract

【課題】システムは、複数の固定カメラによってシーン中の移動オブジェクトから取得したビデオを符号化する。
【解決手段】各カメラのカメラ較正データが先ず決定される。各カメラのカメラ較正データは、対応するビデオと関連付けられる。各ビデオの各フレームの分割マスクが決定される。分割マスクは、オブジェクトに関連するフレーム中の前景ピクセルのみを識別する。次に、形状エンコーダが分割マスクを符号化し、位置エンコーダが各ピクセルの位置を符号化し、色エンコーダが各ピクセルの色を符号化する。符号化されたデータを合成して１つのビットストリームにし、デコーダに転送することができる。デコーダにおいて、ビットストリームは、ユーザによって選択された任意の視点を有する出力ビデオに復号化される。動的な３Ｄポイントモデルは、移動オブジェクトの幾何を規定する。

Description

本発明は、包括的にはビデオ処理に関し、特に複数の固定カメラによって移動３Ｄオブジェクトから得たビデオを符号化するとともに、このビデオを任意の視点から復号化およびレンダリングすることに関する。

ここ数年、コンピュータ支援による共同作業（ＣＳＣＷ）および娯楽を含む多くの用途においてテレプレゼンスがますます重要になってきている。

このような３Ｄビデオ処理は大きな技術的課題を投げかけている。第１に、効率的な処理、通信および記憶のために３Ｄビデオビットストリームをどのように符号化すべきかという問題がある。第２に、ビデオから実際の移動３Ｄオブジェクトを抽出および再構成するという問題がある。第３に、オブジェクトを任意の視点からレンダリングすることが望まれる。

ほとんどの従来技術の３Ｄビデオビットストリームは、オフライン後処理を容易にするようにフォーマットされるため、高度なリアルタイム３Ｄビデオ処理に対する実用性を低くする多くの制限がある。

ビデオの取得
２Ｄビデオからオブジェクトを再構成するための既知の方法には様々なものがある。これらの方法は概ね、オフライン後処理を必要とする方法と、リアルタイム方法とに分類される。後処理方法は、ポイントサンプリング表現を提供することができるが、リアルタイムではない。

３Ｄビデオ処理のための時空間コヒーレンスがVadula等著「Spatio-temporal view interpolation」（Proceedings of the Thirteenth Eurographics Workshop on Rendering, pp. 65-76, 2002）によって用いられている。この中では、時空間ビュー補間のための３Ｄシーンフローが計算されるが、リアルタイムではない。

推定される３Ｄの動きの動的なサーフェルサンプリング表現および動的な外観も知られている。しかし、このシステムは、小さな作業ボリュームにボルメトリック再構成をやはり非リアルタイムで用いる。Carceroni等著「Multi-View scene capture by surfel sampling: From video streams to non-rigid 3D motion, shape & reflectance」（Proceedings of the 7^th International Conference on Computer Vision, pp. 60-67, 2001）を参照のこと。Wurmlin等は、「3D video recorder」（Proceedings of Pacific Graphics '02, pp. 325-334, 2002）において、ユーザが自由にナビゲーションできる時空間表現を記憶する３Ｄビデオレコーダを記載している。

後処理方法と対照的に、リアルタイム方法では計算効率に関する要求が遥かに高まる。Matusik等は、「Image-based visual hulls」（Proceedings of SIGGRAPH 2000, pp. 369-374, 2000）において、オブジェクトの視覚包（visual hull）を計算する画像ベースの３Ｄ取得システムを記載している。この方法は、エピポーラ幾何を用いて、視野に依存した表現を出力する。Matusik等のシステムは、時空間コヒーレンスを使用せず、カメラの台数がスケーラブルでもない。Matusik等著「Polyhedral visual hulls for real-time rendering」（Proceedings of Twelfth Eurographics Workshop on Rendering, pp. 115-125, 2001）も参照のこと。

三角形テクスチャマッピングしたメッシュ表現、および３台ずつ重なり合うカメラからの３眼立体奥行きマップの使用も知られている。この場合も、メッシュベースの技法は、性能に限界がある傾向があり、リアルタイム用途に適さない。これらの問題のいくつかは、リアルタイムの奥行き推定専用のグラフィックハードウェアによって軽減することができる。

ビデオ規格
現時点で、動的で、視点の自由な３Ｄビデオオブジェクトのための規格は規定されていない。ＭＰＥＧ−４規格の補助コンポーネントは、奥行きマップおよびディスパリティ情報を符号化することができる。しかし、これらは完全な３Ｄ表現ではなく、ＤＣＴ符号化、無関係なテクスチャ動きフィールド、および奥行きまたはディスパリティ動きフィールドによる欠点およびアーチファクトが依然として解決される必要がある。ビデオの取得がレンダリングとは異なる場所で行われる場合、送信チャネルの帯域幅制限が実際問題となる。

ポイントサンプルレンダリング
ポイントサンプリング表現はよく知られているが、そのいずれも、動的に変化するオブジェクトまたはシーンと効率的に協働することはできない。以下のいずれかの米国特許を参照のこと。米国特許第６，５０９，９０２号「Texture filtering for surface elements」、同第６，４９８，６０７号「Method for generating graphical object represented as surface elements」、同第６，４８０，１９０号「Graphical objects represented as surface elements」、同第６，４４８，９６８号「Method for rendering graphical objects represented as surface elements」、同第６，３９６，４９６号「Method for modeling graphical objects represented as surface elements」、同第６，３４２，８８６号「Method for interactively modeling graphical objects with linked and unlinked surface elements」。この研究は拡張して、スプラッティングおよび楕円形の加重平均フィルタを用いた高品質の双方向レンダリングを含むようになっている。ハードウェア加速を用いることができるが、前処理および設定が依然として性能を制限している。

Ｑスプラット（Qsplat）は、大きなオブジェクトを表現および表示するためのプログレッシブなポイントサンプルシステムである。Ｑスプラットは、多重解像度レンダリングシステムに視野に依存したプログレッシブな送信技法を用いる。静的なオブジェクトは、バウンディング球に基づいてポイントサンプルの多重解像度階層によって表現される。スプラッティングは、ポイントサンプルをレンダリングするために用いられる。スプラットのサイズおよび形状の推定は広範囲な前処理に依存する。Rusinkiewicz等著「QSplat: A multi-resolution point rendering system for large meshes」（Proceedings of SIGGRAPH 2000, pp. 343-352, 2000）を参照のこと。

Botsch等は、ポイントサンプル幾何の記憶に八分木データ構造を用いる。「Efficient high quality rendering of point sampled geometry」（Proceedings of the 13^th Eurographics Workshop on Rendering, pp. 53-64, 2002）を参照のこと。通常のデータセットは、符号木の接続性および幾何情報に関して１ポイントにつき５ビット未満で符号化することができる。面法線および色属性を含める場合、ビット要件は２倍または３倍になる。プログレッシブ符号化方式によって、適応的八分木および表面サンプルの微細レベルの配置を用いて等値面に関して同様の圧縮性能が達成される。Lee等著「Progressive encoding of complex isosurfaces」（Proceedings of SIGGRAPH 2003, ACM SIGGRAPH, pp. 471-475, July 2003）を参照のこと。

Briceno等は、「Geometry videos」（Proceedings of ACM Symposium on Computer Animation 2003, July 2003）において、動的３Ｄオブジェクトからのデータを２Ｄ画像に再編成する。この表現は、動画化されたポリゴンメッシュにビデオ圧縮技法を適用することを可能にする。しかし、これらの技法は、後述するような制約なしの自由視点ビデオを扱うことができない。

Vedula等は、「Spatio-temporal view interpolation」（Proceedings of the 13th ACM Eurographics Workshop on Rendering, June 2002）において、３Ｄシーンフローの計算および時空間ビューの補間に基づく自由視点ビデオシステムを記載している。しかし、Vedula等は、３Ｄシーンフロー表現の符号化を扱っていない。

別の方法が、Wuermlin等著「3D video fragments: Dynamic point samples for real-time free viewpoint video」（Computers & Graphics 28(1), Special Issue on Coding, Compression and Streaming Techniques for 3D and Multimedia Data, Elsever Ltd, 2003）によって記載されている。Wurmlin他により２００３年７月２１日付で出願された米国特許出願第１０／６２４，０１８号「Differential Stream of Point Samples for Real-Time 3D Video」（参照により本明細書中に援用される）も参照のこと。この方法は、２Ｄビデオピクセルの３Ｄ空間への一般化としてポイントサンプルを用いる。ポイントサンプルは、その色に加えて、いくつかの幾何属性を保持する。幾何属性は、それぞれの２Ｄビデオ画像において３Ｄポイントサンプルと前景ピクセルの間の１対１の関係を保証する。この方法は、再構成オブジェクトの形状に関する仮定を一切行わない。この方法に伴う問題は、エンコーダとデコーダの両方が詳細な３Ｄポイントモデルを維持する必要があることである。このシステムにおいて用いられるプログレッシブサンプリングは、特にデコーダにおいてシステムの複雑性を高める。

従来技術の方法はいずれも、移動３Ｄオブジェクトの任意視点ビデオに対して効率的な圧縮フレームワークを提供しない。

したがって、固定カメラによって移動３Ｄオブジェクトから取得した複数のビデオを符号化し、符号化されたビットストリームを任意の視点に関して復号化することが依然として必要とされている。

システムは、複数の固定カメラによってシーン中の移動オブジェクトから取得したビデオを符号化する。各カメラのカメラ較正データが先ず決定される。各カメラのカメラ較正データは、対応するビデオと関連付けられる。

各ビデオの各フレームの分割マスクが決定される。分割マスクは、オブジェクトに関連するフレーム中の前景ピクセルのみを識別する。次に、形状エンコーダが分割マスクを符号化し、位置エンコーダが各ピクセルの位置を符号化し、色エンコーダが各ピクセルの色を符号化する。

符号化されたデータを合成して１つのビットストリームにし、デコーダに転送することができる。デコーダにおいて、ビットストリームは、ユーザによって選択された任意の視点を有する出力ビデオに復号化される。

動的な３Ｄポイントモデルは、移動オブジェクトの幾何を規定する。レンダリング中に用いられるスプラットのサイズおよび面法線は、エンコーダによって明示的に決定されるか、あるいはデコーダによって明示的に決定されることができる。

システム構造
図１は、本発明による、入力ビデオ２０２を符号化２００および復号化４００してビデオ１０９を出力するシステムおよび方法の一般構造１００を示す。制約付きおよび制約なし自由視点ビデオを符号化するための実施形態を図２および図５により詳細に示す。本発明による制約付きおよび制約なし自由視点ビデオを以下により詳細に説明する。

本発明の利点として、取得はローカル符号化ノードで、復号化はリモート復号化ノードで行うことができる。符号化２００は、オフライン処理として行うことができ、スピードは要求されない。しかし、復号化４００はリアルタイムで行われる。

本発明では、ビデオビットストリーム２０８を用いた。ビットストリーム２０８は、任意の従来の手段、例えばファイル転送、中間記憶媒体（ＤＶＤ）、ネットワークチャネル等を用いてエンコーダ２００からデコーダ４００へ転送することができる。

ビデオ２０２を取得する前に、同期されたカメラ１０１の外部パラメータおよび内部パラメータを推定する。較正パラメータ２０９は例えば、投影行列および投影ベクトル中心を含み得る。エンコーダ２００は、カメラ較正データ２０９をデコーダ４００に提供する。カメラ較正データは、カメラが固定されたままである限り、ビデオビットストリーム２０８を転送する前に一度送ればよい。較正データ２０９は、カメラのいずれかの再配置によりカメラパラメータが変化する場合に、定期的に必要に応じて更新されることができる。

エンコーダでは、複数の較正され同期されたカメラ１０１がオブジェクト１０２、例えば動くユーザの周囲に配置される。各カメラは、移動するオブジェクト１０２の入力画像シーケンス（入力ビデオ）２０２を取得する。例えば、本発明では１５台のカメラをオブジェクトの周囲に、１台またはそれ以上を上方に用いることができる。他の構成も可能である。各カメラはオブジェクト１０２に対して異なる視点または「姿勢」、すなわち位置および向きを有する。この情報は、カメラ較正データ２０９の一部として符号化される。全てのカメラが常にオブジェクト１０２を映す必要はない。実際には、多くの場合にカメラのサブセット、例えばオブジェクト１０２の正面の視野を提供するカメラだけで十分である。

ビデオ処理は、さらに詳細に後述する以下のステップを伴う。ビデオ２０２は処理されて、シーン中の背景部分から前景ピクセルが分割される。このために、本発明では、シルエットまたはバイナリ分割マスク２０１を用いる（図２を参照）。背景部分は、廃棄するか、あるいはデコーダ４００に単一フレームとして転送して仮想シーン１５１を形成することができる。別法として、ビデオの再構成中に用いられる仮想シーン１５１は合成的に作成することもできる。

ユーザ等のオブジェクト１０２は、カメラ１０１に対して移動できることに留意すべきである。この意味するところは以下でより詳細に説明する。

おそらくはユーザによってリアルタイムで選択される実際のレンダリング視点４０１が与えられると、本発明では、全ての利用可能なカメラ１０１の中からアクティブなカメラのセットを選択する４１０。選択されたカメラは、実際のレンダリング視点４０１に対してユーザ１０２の「最良の」視野を有する。ビットストリーム２０８がおそらくはリモート位置で、ポイントスプラッティングおよび任意のカメラ視点４０１を用いて復号化される。すなわち、任意の１時点におけるレンダリング視点はカメラ１０１の視点と異なる可能性がある。補間を用いて新たな任意の視点のピクセル値を求める。補間は、新たな視点に最も近いカメラによって取得された画像を用いる。

復号化された画像１０９は、仮想シーン１５１と合成することができる１５０。本発明では、グラフィックスハードウェアを用いて、延期したレンダリング操作、例えば手順のワーピング、爆発および光（beaming）を適用して、仮想シーン中の再構成されたオブジェクトの性能および画質を最大化することもできる。

デコーダにおけるカメラ選択
本発明では、デコーダ４００におけるカメラ選択４１０を用いる。カメラ選択により、カメラのサブセット間の滑らかな移行が可能になり、３Ｄビットストリーム２０８の復号化に必要なカメラの台数を効率的に減らす。いわゆる復号化用のアクティブなカメラの台数により、視野に依存した入力ビデオ２０２から出力ビデオ１０９のための視野に依存しないレンダリング１０３への滑らかな移行が可能になる。

所望の視点４０１に対して、本発明では、オブジェクト１０２に最も近いｋ台のカメラを選択する。最も近いカメラを復号化用のアクティブなカメラとして選択するために、本発明では、視線方向の角度を全てのカメラ１０１の角度と比較する。ｋ台の最も近いカメラを選択することによって、遮蔽によるアーチファクトが最小化される。

同期されたカメラ１０１によって取得された複数の２Ｄビデオ２０２により、エンコーダ２００への入力が提供される。さらに、本発明では、全ての入力フレームについて分割マスク２０２を自由に用いることができる（図２を参照）。マスクは、前景またはオブジェクト１０２の一部であるピクセルを示す。

各前景入力ピクセルは、位置、面法線ベクトル、スプラットサイズ、および色（テクスチャ）を含む。位置を示す最も簡単な方法は、奥行き（ｚ）値によるものである。位置は、カメラ較正データ２０９とともに、オブジェクト１０２のポイントモデル２６５の幾何を定義する。反射率および屈折情報等の付加的なデータは、オブジェクト１０２の視覚的な外観をさらに記述することができる。

制約付きおよび制約なしビデオ
出力ビデオ１０９に対して、本発明では、制約付き自由視点ビデオと制約なしの自由視点ビデオとを区別する。これは、再生中に任意の視点が選択され、この視点は、入力ビデオの取得に用いられるどのカメラ１０１の視点とも異なってよいことを意味する。

制約付き自由視点ビデオでは、ポイントモデル２６５をあらゆる可能な視点からレンダリングすることができるが、レンダリング中の視点（カメラ）は一定のままである。レンダリング中に不連続性を許容できる場合、視点の変更は、同一の符号化ビデオを用いることができる限り許可される。

制約なし自由視点ビデオでは、ポイントモデル２６５をあらゆる可能な視点からレンダリングすることができる。再生中、視点はレンダリング時刻の関数である。視点の変更によるレンダリングの不連続性はいずれも最小化される。

図３は、時空間における制約付きおよび制約なしの視点の軌跡の例を示す。図３では、時刻ｔにおけるフレーム０〜Ｍがｙ軸に示され、カメラ１〜Ｎがｘ軸に示される。制約付きの場合、軌跡３０１は、単一の視点に対応する直線またはほぼ真っ直ぐな線上に位置するが、視点は、入力ビデオの取得に用いられるいずれかのカメラ１０１の視点に一致する必要はない。制約なしの場合、軌跡３０２は任意の時空間とすることができる。

カメラの台数は多い可能性があり、復号化４００はリアルタイムであることを考慮に入れると、現在のハードウェアでは、全てのカメラからの全てのビデオを先ず復号化してから所与の視点のシーンをレンダリングすることは非現実的である。したがって、復号化されるビデオの数を減らすことが必要である。

したがって、本発明による方法では、以下の変数および関数を用いて視野に依存した復号化が提供される。
ｔ録画時刻
θ レンダリング時刻
ｖ（θ）レンダリング時刻の関数としての視点
Ｄ（ｖ（θ），ｔ）視点ｖ（θ）および時刻ｔについて復号化されたデータセット
Ｒ（ｖ（θ），ｔ）視点ｖ（θ）および時刻ｔについて復号化された、レンダリング中に可視になるデータセット

Ｄ（ｖ（θ），ｔ）は復号化後の結果であり、Ｒ（ｖ（θ），ｔ）はレンダリング後の結果である。最適な視野に依存した復号化は、Ｄ（ｖ（θ），ｔ）＝Ｒ（ｖ（θ），ｔ）であるときに達成される。これは、デコーダ４００が所与の復号化フレームについて、最終的なレンダリングにおいて可視になる、対応する記録フレーム内の情報のみを復号化することを意味する。

言い換えれば、Ｄは、復号化されるポイントモデル２６５の一部、すなわちデコーダにおけるカメラ制御によって選択されるカメラの寄与であり、Ｒは、出力装置に対してレンダリングされるポイントモデル２６５の一部、すなわち可視部分である。その意味で、Ｒは出力画像の一部である。また、ｔは録画時刻であり、これは離散時間、すなわちカメラフレーム番号である。値θは、レンダリング中の時刻、すなわち、ユーザが順方向／逆方向の高速／通常速度再生および任意の視点を選択する時刻である。

最適な視野に依存した復号化の強条件（strong condition）は、共通集合Ｄ（ｖ（θ），ｔ）∩Ｒ（ｖ（θ），ｔ）を最大化する部分最適な視野に依存した復号化に弱形式を用いて緩和することができる。これは、デコーダが所与のレンダリング画像について、対応する記録画像の復号化情報、すなわち最終的なレンダリングに用いられる復号化情報と、所与のレンダリング画像の復号化情報の合計との比を最大化することを意味する。

アプリケーションドメイン
低帯域幅のネットワークを介してビットストリーム２０８を転送する際には高い圧縮率が効率的である。しかし、高い圧縮率は復号化の複雑度を増す。広範なターゲット出力装置、例えば携帯電話、ラップトップ、ハンドヘルドコンピュータをサポートするために、比較的低い複雑度を有するデコーダを提供することが望ましい。

低帯域幅伝送の問題は、データのプログレッシブな表現に基づいて対処することができる。実際に、帯域幅およびＣＰＵ性能は関連していることが多い。例えば、ハイエンドのコンピューティングノードは一般に高帯域幅ネットワーク接続にアクセスすることができ、低帯域幅ネットワーク接続を有するコンピューティングノードは一般に処理能力が限られている。

符号化
したがって、ビットストリーム２０８のフォーマットは以下の特徴に対処する必要がある。

多重解像度：解像度に関するスケーラビリティおよび進歩性。これは、データのプログレッシブ符号化、例えば埋め込みゼロツリー符号化（ＥＺＷ）（Shapiro著「Embedded image coding using zerotrees of wavelet coefficients」（IEEE Transactions on Signal Processing, 41, pp. 3445-3462, December 1993）を参照）、プログレッシブＪＰＥＧ、またはWurmlin等によって「3D video fragments: Dynamic point samples for real-time free viewpoint video」（Computers & Graphics 28(1), Special Issue on Coding, Compression and Streaming Techniques for 3D and Multimedia data, Elsevier Ltd, 2003）に記載されているようなデータのプログレッシブサンプリングのいずれかを用いて達成することができる。

プログレッシブ符号化は、復号化の複雑度がより低いため、Wuermlin等のプログレッシブサンプリングよりも好ましい。

マルチレート：時間に関するスケーラビリティ、すなわち出力ビデオ１０９の再生は、入力ビデオ２０２の記録に用いられたフレームレートとは異なるフレームレートで行うことが可能である。逆方向（巻き戻し）再生も様々な速度で行うことが可能である（図３を参照）。

視野に依存した復号化：本発明では、視野に依存した復号化のためにデータを符号化する問題に対処する。所与のレンダリング画像フレームの視野に依存した復号化にどのカメラが必要であるかを決定するプロセスは、Wuermlin等によって記載される技法と同様である。すなわち、視野４０１およびカメラ較正データ２０９が与えられれば、寄与するカメラを決定し、それに従って復号化および補間を行うことができる。

圧縮
画像空間における相関
標準的な画像圧縮技法と同様に、ウェーブレット変換または離散コサイン変換（ＤＣＴ）のような２Ｄ変換を適用して入力画像２０２を符号化することができる。

しかし、本発明の関心の対象となるのは、マスク２０１によって示されるような、オブジェクト１０２を示す画像部分のみである。したがって、本発明では形状適応型のウェーブレットエンコーダを用いる。

図４に示すように、エンコーダ４００は、各入力画像２０２の非マスク部分４０２をラスタスキャン順にトラバースすることによって、関連するピクセルの色を線形に配置する。

本発明では次に、このリストに１次元ウェーブレット変換を適用してウェーブレット係数を得る。これを本発明ではリフティング方式を用いて行う。Sweldens「The lifting scheme: A custom-design construction of biorthogonal wavelets」（Applied and Computational Harmonic Analysis, 3(2):186-200, 1996）を参照のこと。ウェーブレット係数は、最終的にゼロツリーコーダによって符号化され、さらに算術符号化によって圧縮される。Said等著「A new fast and efficient image codec based on set partitioning in hierarchical trees」（IEEE Transaction on Circuits and Systems for Video Technology, 6:243-250, June 1996）、Shapiro著「Embedded image coding using zerotrees of wavelet coefficients」（IEEE Transactions on Signal Processing, 41:3445-3462, December 1993）、およびRissanen等著「Arithmetic coding」（IBM Journal of Research and Development, 23(2), pp. 149-162, 1979）を参照のこと。

ゼロツリーおよび算術コーダの両方のプログレッシブな挙動により、所望のビットレートまたは歪みまでの損失の多い圧縮が可能になる。さらに、エンコーダは、ビデオの再生中の符号化ビットストリーム２０８のプログレッシブな送信および部分的な復元を可能にする。デコーダ４００は、現フレームのロスレスシルエットマスク２０１も備えて、符号化中に用いられるスキャン順を再構成することができる。

時間次元における相関
本発明では先ず、制約付き自由視点ビデオの場合を検討する。多くの場合に、ビデオは、時間ｔ順に通常の再生速度で再生される。したがって本発明では、以前のフレームからの情報を用いて現フレームを構成する。セグメント中の１番目のフレームはキーフレームであり、セグメント中の以後のフレームは差分フレームとして符号化される。各差分フレームは、現フレームと以前のフレームの間の変化を示す。

カメラｉ毎に、復号化関数ｃ_ｉ（ｔ）は、時刻ｔにおける各カメラの３Ｄポイントモデルへの寄与を返す。以前のフレームからの情報を用いることによって時間的な相関が利用される場合、復号化関数は次の形式を持つ。

ｔ’＜ｔであり、ここで、Δｃ_ｉ（ｔ）はフレームｔの具体的な寄与を記述する。

２Ｄビデオ符号化方法は、式（１）によって表される形式を有することに留意されたい。この手法は、本発明による制約付き自由視点出力ビデオにも実行可能である。

制約なし自由視点ビデオの場合、時間的な相関を利用することはより難しい。デコーダは、関数ｆを実行するのに必要であり、関数ｆは、観測中の任意の瞬間θの３Ｄポイントモデルを返す。これは視点ｖ（θ）およびマッピング関数ｍ（θ）を意味し、このマッピング関数ｍ（θ）はレンダリング時刻を記録時刻にマッピングする。

視点ｖについて、重み関数ｗ（ｖ）は、３Ｄポイントモデルの可視部分に寄与するカメラを示す。一次近似において、本発明では、カメラが可視の寄与を有する場合にｗ（ｖ）は１を返し、そうでない場合は０を返すものと仮定することができる。

すると次式が得られる。

θ’＝ｍ^−１（ｔ’）かつｔ≠ｔ’であると仮定する。ｃ_ｉ（ｔ）の復号化は、ｃ_ｉ（ｔ’）の復号化を必要とする。しかし、ｗ_ｉ（θ’）＝０である場合、視野に依存した復号化の条件に違反する。したがって、最適な視野に依存した復号化は、以下のように定義されるデコーダを用いた場合にのみ実施することができる。

Ｃ_ｉは時間に依存しない基底表現を表す。

したがって、制約付き視点ビデオ用のデコーダは、ランダムな順序でアクセスされるフレームに対して一定時間で復号化を行う必要がある。

圧縮フレームワーク
図２は、本発明による、ビデオを符号化するための基本的なシステム構造２００を示す。本システムは、以下の符号化モジュール、すなわち、形状エンコーダ２１０、面法線エンコーダ２２０、位置エンコーダ２３０、スプラットサイズエンコーダ２４０、および色（テクスチャ）エンコーダ２５０を含む。本システムはまた、幾何構成モジュール２６０およびマルチプレクサ２７０も含む。

デコーダ４００はそれぞれの符号化モジュールに対して相補的な復号化モジュールを含むことに留意すべきである。各デコーダの構成は、本明細書中で詳述する対応するエンコーダの構成から自明である。

システムへの入力は、分割マスク２０１、カメラ画像２０２、およびカメラ較正データ２０３である。分割マスクは、任意の既知のバイナリ分割手順を用いてカメラ画像から得られる。分割マスク２０１は、符号化すべき前景（オブジェクト）ピクセルのみを得るために用いられる。したがって、カメラ画像毎に１つのマスクがある。カメラ画像２０２の前景ピクセルのみがシーン中のオブジェクト１０２を規定する。

本発明では、分割マスク２０１にロスレス符号化を用いて、モデルポイントとその属性の間のシフトおよび誤った関連付けを防止する。分割マスクは、エンコーダとデコーダの両方に利用可能である。

本発明のビデオフォーマットの基礎となるデータ表現は動的３Ｄポイントモデル２６５である。ポイントモデルにおいて、各ポイントは属性のセットを有する。ポイントの属性は別々に記憶および圧縮されるため、参照方式が用いられる。参照方式は、ポイントとその属性の間の一意の識別を可能にする。カメラ画像２０２は、ポイントモデル２６５を作成するために用いられる。カメラ毎に１つの識別された画像シーケンスがある。各ポイントは、画像空間におけるその２Ｄ位置および１つまたは複数のカメラの識別子によって一意に識別される。本発明では、３Ｄポイントモデルを作成するために各画像中の前景ピクセルのみを検討する。

ピクセル属性は、損失の多い圧縮方式を用いて符号化することができる。それにもかかわらず、デコーダ４００に全てのデータが利用可能である場合、ロスレスまたはほぼロスレスな復号化が可能である。

ビットストリーム２０８は最終的に、符号化されたキーフレームと、符号化された差分フレームとからなる。差分フレームは、最新のキーフレームに基づく予測に依存する。例えば、フレーム０はキーフレームであり、フレーム１はフレーム０に基づく差分フレームであり、フレーム２はフレーム１およびフレーム０に基づく差分フレームである、等となっている。

分割マスク２０１およびカメラ較正データ２０９から、シーン中の関心のオブジェクトの幾何再構成を求める。幾何再構成の出力は、面法線ベクトル２６１、３Ｄ位置２６２、および表面スプラットサイズ２６３である。

エンコーダの出力はマルチプレクサ２７０に送られる。マルチプレクサの出力は合成されて符号化ビデオビットストリーム２０８となる。カメラ較正データ２０９は、カメラ１０１が定位置に固定されたままである限り、デコーダに１度送ればよい。これらのパラメータは、ビデオ２０８のストリーミングを開始する前に送ることができる。パラメータは、任意の従来の技法を用いて、例えばビットストリーム２０８のプリアンブルの一部として、あるいはサイドチャネル上で送ることができる。

ビデオ符号化
制約付きビデオ符号化
形状
形状エンコーダ２１０は、ＭＰＥＧ−４ロスレスバイナリ形状符号化を用いることができる。Katsaggelos等著「MPEG-4 and rate/distortion-based shape-coding techniques」（Proceedings of the IEEE, 86(6), pp. 1126-1154, June 1998）を参照のこと。

面法線
面法線ベクトルは、単位球の八面体細分割（octahedron subdivision）を用いてプログレッシブ符号化される。Botsch等著「Efficient high quality rendering of point sampled geometry」（Proceedings of the 13^th Eurographics Workshop on Rendering, pp. 53-64, 2002）を参照のこと。２バイトの符号語が２つのグレイスケールＭＰＥＧビデオオブジェクトにおいて表現される。ほとんどの応用では、１バイト符号化法線の予測で十分である。

位置
各ポイントのｘおよびｙ座標は、画像ピクセルおよびカメラ較正データから本質的に既知である。したがって、奥行き（ｚ）値のみを符号化すればよい。ＭＰＥＧ−４ビデオのオブジェクト符号化を用いてディスパリティ符号化を行うことができ、奥行き値はピクセルの輝度値または強度値として量子化される。

スプラットサイズ
スプラットサイズは１バイトに量子化され、符号語はグレイスケールＭＰＥＧビデオオブジェクト中に表現される。

色
色の符号化は、従来のＭＰＥＧ−４ビデオのオブジェクト符号化を４：１：１のＹＵＶフォーマットで用いることができる。Ostermann等著「Coding of arbitrarily shaped video objects in MPEG-4」（Proceedings of the International Conference on Image Processing, pp. 496-499, 1997）を参照のこと。しかし、本発明のエンコーダ２００は、他のフォーマットのテクスチャデータを扱うこともできる。

１つの制約付きビデオフレームの完全な復号化４００は、再構成視野毎に奥行き、面法線およびスプラットサイズのグレイスケールＭＰＥＧビデオオブジェクト、ならびに１つのカラービデオオブジェクトを要求する。

制約なしのビデオ符号化
図５は、制約なし自由視点ビデオの１属性のエンコーダ５００を示す。この場合、各ビデオ２０２は、Ｎ個のフレームからなるセグメント５０１として処理される。

先ず、キーフレーム５０２を構成する。この場合、キーフレームは、制約付きの場合のような単なるセグメントの１番目のフレームではなく、各セグメント５０１中のＮ個のフレームの平均５１０である。平均は例えば平均値または中央値とすることができる。

キーフレームがプログレッシブ符号化される５２０。

次に、キーフレーム５０１とセグメント中の各フレームとの間の差分５３０を求める。差分フレーム５３１も同様に符号化される５２０。これにより、Ｎ＋１個の符号化フレーム５０３が得られる。Ｎの値が比較的大きく、例えば１００以上である場合、Ｎ個のフレームの制約付きの場合と比較して、制約なしの場合の平均化されたキーフレームを符号化する付加コストはわずかである。

よって図６に示すように、符号化されたビデオビットストリーム２０８は、平均符号化キーフレームを含む基本レイヤ６０１と、符号化差分フレームからなる上位レイヤ６０２とを含む。

図７Ａは、円状に回転する人物を示すビデオセグメントを平均することによって得られるキーフレームを示す。図７Ｂは、このセグメントの１フレームの再構成を示す。

制約なし符号化
形状符号化
形状符号化は、分割マスクのロスレスＪＢＩＧまたはＭＰＥＧ−４バイナリ形状符号化を用いて行うことができる。

キーフレーム：セグメント５０１の半分以上のフレームにおいて前景ピクセルであるピクセルは、キーフレーム５０２における前景ピクセルである。

差分フレーム：キーフレームに対する現フレームの差分。

属性
平均符号化方式５００を用いて全てのポイント属性を符号化する。すなわち、制約なしの場合におけるキーフレームの属性は、セグメント中の全てのフレームの平均から得られ、制約付きの場合におけるキーフレームの属性は、１番目のフレームのみから得られる。

キーフレーム：セグメントの平均属性。

差分フレーム：キーフレームに対する差分。

ここで、差分属性を表現する方法を説明する。

ディスパリティ符号化
色符号化：埋め込みゼロツリーウェーブレット符号化。

面法線符号化：単位球の八面体細分割を用いて面法線ベクトルをプログレッシブ符号化する。次に２バイトの符号語を、ＥＺＷを用いて個別に圧縮される２つの輝度画像で表す。

スプラットサイズ：スプラットサイズをグレイスケール画像上に量子化する。

大きなセグメント５０１の場合、キーフレームを復号化する付加的なコストは小さくなる。複雑度は、制約なしの方法の場合と略同じである。本発明では、再構成カメラ毎に１つのバイナリ形状画像と、４つのグレイスケール画像と、１つのカラー画像とがある。

多重化
全ての属性が個別にプログレッシブ符号化されるため、個々の属性ビットストリームを１つのビットストリームに多重化することによって、所与のターゲットビットレートを満たす１つのストリームを作成し、送信することができる。１つの属性ビットストリームの適切な寄与は、所望のレート歪み特性に従って決められる。

例えば、毎秒３００キロビットのビットストリームは、３０ｋｂ／ｓの形状情報と、６０ｋｂ／ｓの位置情報と、１２０ｋｂ／ｓの色情報と、４５ｋｂ／ｓの面法線情報と、４５ｋｂ／ｓのスプラットサイズ情報とを含む。

動的な３Ｄシーン全体への拡張
ここまでビデオオブジェクトについて説明してきたエンコーダは、動的なシーン全体を符号化するためにも用いることができる。シーン中の別個のオブジェクトを異なるレイヤに符号化することができる。静的なオブジェクトは１つのキーフレームによって記述される。補助情報として記憶されるシーングラフは、異なるレイヤ間の空間関係を記述する。現在の任意の視点４０１から可視であるレイヤのみを復号化することによって、視野に依存した復号化を再び有効にする。

動的なポイントサンプル処理およびレンダリング
本発明では、復号化およびレンダリングをリアルタイムで行う。合成１５０により、Ｚバッファリングを用いて復号化画像が仮想シーン１５１と合成される。また本発明では、データ構造の一貫性に影響を与えることなくリアルタイム３Ｄビデオストリームに適用可能な３Ｄ視覚効果、例えばワーピング、爆発および光のような後処理操作を行うことができる。

さらに、復号化ポイントサンプルの位置のみからスプラットサイズおよび面法線を推定することが可能である。この推定は、レンダリングプロセス中にリアルタイムで行うことができる。その場合、面法線エンコーダ２２０およびスプラットサイズエンコーダ２４０は必要なく、スプラットサイズおよび面法線の記憶あるいは転送は不要である。

ポイントサンプルのレンダリング
本発明では、２回走査プロセスを用いてポイントサンプルを、半透明のアルファテクスチャを有する多角形スプラットとしてレンダリングする。１回目の走査では、ポイントサンプル毎に不透明のポリゴンがレンダリングされ、続いて可視性スプラッティングが行われる。２回目の走査では、スプラットポリゴンがアルファテクスチャとともにレンダリングされる。スプラットにポイントサンプルの色を掛け、各ピクセルに蓄積する。１回目の走査からのＺバッファを用いた奥行きテストにより、ラスタ化中に可視性問題が解ける。

視野に依存したレンダリング
特定のポイントをレンダリングするために、本発明では、選択されたｋ台の復号化用アクティグカメラのセットを用いる。しかしこれは、視点の軌跡においてアクティブなカメラのセットが変化した場合に移行アーチファクトを生じる可能性がある。したがって、レンダリングに対する各カメラの寄与が、その視線方向と現在の視点４０１の方向との間の角度によって重み付けされる。滑らかな移行を達成するために、本発明では、最も近い非アクティブなカメラの重みを引き、アクティブなカメラのみが正の寄与を有するようにする。

現在の視点に対して、本発明では、シーンのｋ個の別個の画像を毎回、１つの異なるアクティブなカメラからのポイントのみを用いてレンダリングする。最後に、計算されたカメラの重みに応じたアルファ値を用いてポイントスプラットを混合することによって画像を合成する。

本発明を、好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応および変更を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。

本発明による、移動３Ｄオブジェクトから取得した複数のビデオを符号化および復号化するシステムおよび方法のブロック図である。図１のシステムによって用いられるエンコーダのブロック図である。制約付きおよび制約なしの自由視点軌跡のグラフである。マスク内の画像の一部を横断する走査線の図である。制約なしのビデオ用のエンコーダのブロック図である。本発明による、ビデオビットストリームとして符号化される基本レイヤおよび上位レイヤのブロック図である。本発明によるキーフレームである。図７Ａのキーフレームから再構成した画像である。

Claims

複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステムであって、
各カメラのカメラ較正データを決定する手段と、
前記各カメラのカメラ較正データを前記カメラによって取得した前記ビデオと関連付ける手段と、
各ビデオの各フレームの分割マスクであって、前記オブジェクトに関連するフレーム中のピクセルのみを識別する分割マスクを決定する手段と、
前記分割マスクを符号化するように構成された形状エンコーダと、
各ピクセルの位置を符号化するように構成された位置エンコーダと、
各ピクセルの色を符号化するように構成された色エンコーダと
を備えた、複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム。
前記形状エンコーダ、前記位置エンコーダ、及び前記色エンコーダの出力を合成して１つのビットストリームにするように構成されたマルチプレクサをさらに備える
請求項１記載のシステム。
デコーダと、
前記ビットストリームを前記デコーダに転送する手段と、
前記カメラ較正データを用いて復号化ビットストリームを任意の視点からレンダリングする手段とをさらに備える
請求項２記載のシステム。
前記任意の視点は、空間に制約される
請求項３記載のシステム。
前記任意の視点は、空間に制約されない
請求項３記載のシステム。
前記移動オブジェクトの幾何を規定する動的３Ｄポイントモデルを維持する手段をさらに備える
請求項１記載のシステム。
前記動的３Ｄポイントモデルの各ポイントは、前記複数のカメラのうちの１つまたは複数の識別子に関連付けられる
請求項６記載のシステム。
前記符号化された分割マスクは、ロスレス圧縮を用いて圧縮され、前記位置及び前記色は、損失の多い圧縮を用いて符号化される
請求項１記載のシステム。
前記カメラ較正データは、前記固定カメラのいずれかが再配置されるときには定期的に更新される
請求項１記載のシステム。
前記分割マスクは、ＭＰＥＧ−４ロスレスバイナリ形状符号化を用いて符号化され、前記位置は、量子化ピクセルの輝度値として符号化される奥行き値を含み、前記色は、ＭＰＥＧ−４ビデオのオブジェクト符号化を用いて符号化される
請求項１記載のシステム。
前記シーン全体が、前記シーンの静的部分と動的部分の間の関係を指定するシーンを用いて符号化される
請求項１記載のシステム。
前記符号化された分割マスク、前記符号化された位置、及び前記符号化された色を、前記カメラ較正データを用いて、任意の視点を有する出力ビデオとして復号化するように構成されたデコーダをさらに備える
請求項１記載のシステム。
前記任意の視点は、前記カメラのいずれの視点とも異なる
請求項１２記載のシステム。
前記出力ビデオの画像は、仮想シーンと合成される
請求項１２記載のシステム。
前記出力ビデオの再生フレームレートは、前記複数のカメラによって前記ビデオを取得するのに用いられるフレームレートとは異なる
請求項１２記載のシステム。
前記損失の多い圧縮方式は、埋め込みゼロツリーウェーブレット符号化を用いたプログレッシブ符号化である
請求項８記載のシステム。
前記形状エンコーダは、ＭＰＥＧ−４ロスレスバイナリ形状符号化を用い、前記位置エンコーダは、奥行き値を符号化し、前記色エンコーダは、ＭＰＥＧ−４ビデオのオブジェクト符号化を用いる
請求項１記載のシステム。
複数のフレームを含むセグメントであって、各ビデオを複数のセグメントに分割する手段と、
前記形状エンコーダ、前記位置エンコーダ、及び前記色エンコーダを用いて各セグメントのキーフレーム及び差分フレームを符号化して単一のビットストリームにする手段とをさらに備える
請求項１記載のシステム。
前記キーフレームは、符号化されたビデオビットストリームの基本レイヤを備え、前記差分フレームは、前記符号化されたビットストリームの上位レイヤを備える
請求項１８記載のシステム。
各セグメント中の前記フレームを平均して前記キーフレームを構成する手段と、
前記セグメント中の各フレームの前記差分フレームを前記キーフレーム及び前記フレームから求める手段とをさらに備える
請求項１８記載のシステム。
前記キーフレームは、前記セグメントの１番目のフレームであり、前記差分フレームは、前記セグメント中の現フレームと以前のフレームから求められる
請求項１８記載のシステム。
各ピクセルの面法線を符号化するように構成された面法線エンコーダと、
各ピクセルのスプラットサイズを符号化するように構成されたスプラットサイズエンコーダと、
前記面法線エンコーダと前記スプラットサイズエンコーダの出力を前記単一のビットストリームと合成する手段とをさらに備える
請求項１記載のシステム。
前記面法線のベクトルは、単位球の八面体細分割を用いてプログレッシブ符号化され、前記スプラットサイズは、グレイスケールＭＰＥＧビデオオブジェクト中に表される量子化された符号語として符号化される
請求項２２記載のシステム。
前記スプラットサイズ及び前記面法線は、前記位置から推定される
請求項２２記載のシステム。