JP2007519285A - 複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム - Google Patents

複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム Download PDF

Info

Publication number
JP2007519285A
JP2007519285A JP2006519304A JP2006519304A JP2007519285A JP 2007519285 A JP2007519285 A JP 2007519285A JP 2006519304 A JP2006519304 A JP 2006519304A JP 2006519304 A JP2006519304 A JP 2006519304A JP 2007519285 A JP2007519285 A JP 2007519285A
Authority
JP
Japan
Prior art keywords
video
frame
encoder
encoded
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006519304A
Other languages
English (en)
Inventor
ランボレイ、エドアルド
ヴァシュビュシュ、ミヒャエル
ヴュルムリン、シュテファン
グロス、マルクス
フィスター、ハンスピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2007519285A publication Critical patent/JP2007519285A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】システムは、複数の固定カメラによってシーン中の移動オブジェクトから取得したビデオを符号化する。
【解決手段】各カメラのカメラ較正データが先ず決定される。各カメラのカメラ較正データは、対応するビデオと関連付けられる。各ビデオの各フレームの分割マスクが決定される。分割マスクは、オブジェクトに関連するフレーム中の前景ピクセルのみを識別する。次に、形状エンコーダが分割マスクを符号化し、位置エンコーダが各ピクセルの位置を符号化し、色エンコーダが各ピクセルの色を符号化する。符号化されたデータを合成して1つのビットストリームにし、デコーダに転送することができる。デコーダにおいて、ビットストリームは、ユーザによって選択された任意の視点を有する出力ビデオに復号化される。動的な3Dポイントモデルは、移動オブジェクトの幾何を規定する。

Description

本発明は、包括的にはビデオ処理に関し、特に複数の固定カメラによって移動3Dオブジェクトから得たビデオを符号化するとともに、このビデオを任意の視点から復号化およびレンダリングすることに関する。
ここ数年、コンピュータ支援による共同作業(CSCW)および娯楽を含む多くの用途においてテレプレゼンスがますます重要になってきている。
このような3Dビデオ処理は大きな技術的課題を投げかけている。第1に、効率的な処理、通信および記憶のために3Dビデオビットストリームをどのように符号化すべきかという問題がある。第2に、ビデオから実際の移動3Dオブジェクトを抽出および再構成するという問題がある。第3に、オブジェクトを任意の視点からレンダリングすることが望まれる。
ほとんどの従来技術の3Dビデオビットストリームは、オフライン後処理を容易にするようにフォーマットされるため、高度なリアルタイム3Dビデオ処理に対する実用性を低くする多くの制限がある。
ビデオの取得
2Dビデオからオブジェクトを再構成するための既知の方法には様々なものがある。これらの方法は概ね、オフライン後処理を必要とする方法と、リアルタイム方法とに分類される。後処理方法は、ポイントサンプリング表現を提供することができるが、リアルタイムではない。
3Dビデオ処理のための時空間コヒーレンスがVadula等著「Spatio-temporal view interpolation」(Proceedings of the Thirteenth Eurographics Workshop on Rendering, pp. 65-76, 2002)によって用いられている。この中では、時空間ビュー補間のための3Dシーンフローが計算されるが、リアルタイムではない。
推定される3Dの動きの動的なサーフェルサンプリング表現および動的な外観も知られている。しかし、このシステムは、小さな作業ボリュームにボルメトリック再構成をやはり非リアルタイムで用いる。Carceroni等著「Multi-View scene capture by surfel sampling: From video streams to non-rigid 3D motion, shape & reflectance」(Proceedings of the 7th International Conference on Computer Vision, pp. 60-67, 2001)を参照のこと。Wurmlin等は、「3D video recorder」(Proceedings of Pacific Graphics '02, pp. 325-334, 2002)において、ユーザが自由にナビゲーションできる時空間表現を記憶する3Dビデオレコーダを記載している。
後処理方法と対照的に、リアルタイム方法では計算効率に関する要求が遥かに高まる。Matusik等は、「Image-based visual hulls」(Proceedings of SIGGRAPH 2000, pp. 369-374, 2000)において、オブジェクトの視覚包(visual hull)を計算する画像ベースの3D取得システムを記載している。この方法は、エピポーラ幾何を用いて、視野に依存した表現を出力する。Matusik等のシステムは、時空間コヒーレンスを使用せず、カメラの台数がスケーラブルでもない。Matusik等著「Polyhedral visual hulls for real-time rendering」(Proceedings of Twelfth Eurographics Workshop on Rendering, pp. 115-125, 2001)も参照のこと。
三角形テクスチャマッピングしたメッシュ表現、および3台ずつ重なり合うカメラからの3眼立体奥行きマップの使用も知られている。この場合も、メッシュベースの技法は、性能に限界がある傾向があり、リアルタイム用途に適さない。これらの問題のいくつかは、リアルタイムの奥行き推定専用のグラフィックハードウェアによって軽減することができる。
ビデオ規格
現時点で、動的で、視点の自由な3Dビデオオブジェクトのための規格は規定されていない。MPEG−4規格の補助コンポーネントは、奥行きマップおよびディスパリティ情報を符号化することができる。しかし、これらは完全な3D表現ではなく、DCT符号化、無関係なテクスチャ動きフィールド、および奥行きまたはディスパリティ動きフィールドによる欠点およびアーチファクトが依然として解決される必要がある。ビデオの取得がレンダリングとは異なる場所で行われる場合、送信チャネルの帯域幅制限が実際問題となる。
ポイントサンプルレンダリング
ポイントサンプリング表現はよく知られているが、そのいずれも、動的に変化するオブジェクトまたはシーンと効率的に協働することはできない。以下のいずれかの米国特許を参照のこと。米国特許第6,509,902号「Texture filtering for surface elements」、同第6,498,607号「Method for generating graphical object represented as surface elements」、同第6,480,190号「Graphical objects represented as surface elements」、同第6,448,968号「Method for rendering graphical objects represented as surface elements」、同第6,396,496号「Method for modeling graphical objects represented as surface elements」、同第6,342,886号「Method for interactively modeling graphical objects with linked and unlinked surface elements」。この研究は拡張して、スプラッティングおよび楕円形の加重平均フィルタを用いた高品質の双方向レンダリングを含むようになっている。ハードウェア加速を用いることができるが、前処理および設定が依然として性能を制限している。
Qスプラット(Qsplat)は、大きなオブジェクトを表現および表示するためのプログレッシブなポイントサンプルシステムである。Qスプラットは、多重解像度レンダリングシステムに視野に依存したプログレッシブな送信技法を用いる。静的なオブジェクトは、バウンディング球に基づいてポイントサンプルの多重解像度階層によって表現される。スプラッティングは、ポイントサンプルをレンダリングするために用いられる。スプラットのサイズおよび形状の推定は広範囲な前処理に依存する。Rusinkiewicz等著「QSplat: A multi-resolution point rendering system for large meshes」(Proceedings of SIGGRAPH 2000, pp. 343-352, 2000)を参照のこと。
Botsch等は、ポイントサンプル幾何の記憶に八分木データ構造を用いる。「Efficient high quality rendering of point sampled geometry」(Proceedings of the 13th Eurographics Workshop on Rendering, pp. 53-64, 2002)を参照のこと。通常のデータセットは、符号木の接続性および幾何情報に関して1ポイントにつき5ビット未満で符号化することができる。面法線および色属性を含める場合、ビット要件は2倍または3倍になる。プログレッシブ符号化方式によって、適応的八分木および表面サンプルの微細レベルの配置を用いて等値面に関して同様の圧縮性能が達成される。Lee等著「Progressive encoding of complex isosurfaces」(Proceedings of SIGGRAPH 2003, ACM SIGGRAPH, pp. 471-475, July 2003)を参照のこと。
Briceno等は、「Geometry videos」(Proceedings of ACM Symposium on Computer Animation 2003, July 2003)において、動的3Dオブジェクトからのデータを2D画像に再編成する。この表現は、動画化されたポリゴンメッシュにビデオ圧縮技法を適用することを可能にする。しかし、これらの技法は、後述するような制約なしの自由視点ビデオを扱うことができない。
Vedula等は、「Spatio-temporal view interpolation」(Proceedings of the 13th ACM Eurographics Workshop on Rendering, June 2002)において、3Dシーンフローの計算および時空間ビューの補間に基づく自由視点ビデオシステムを記載している。しかし、Vedula等は、3Dシーンフロー表現の符号化を扱っていない。
別の方法が、Wuermlin等著「3D video fragments: Dynamic point samples for real-time free viewpoint video」(Computers & Graphics 28(1), Special Issue on Coding, Compression and Streaming Techniques for 3D and Multimedia Data, Elsever Ltd, 2003)によって記載されている。Wurmlin他により2003年7月21日付で出願された米国特許出願第10/624,018号「Differential Stream of Point Samples for Real-Time 3D Video」(参照により本明細書中に援用される)も参照のこと。この方法は、2Dビデオピクセルの3D空間への一般化としてポイントサンプルを用いる。ポイントサンプルは、その色に加えて、いくつかの幾何属性を保持する。幾何属性は、それぞれの2Dビデオ画像において3Dポイントサンプルと前景ピクセルの間の1対1の関係を保証する。この方法は、再構成オブジェクトの形状に関する仮定を一切行わない。この方法に伴う問題は、エンコーダとデコーダの両方が詳細な3Dポイントモデルを維持する必要があることである。このシステムにおいて用いられるプログレッシブサンプリングは、特にデコーダにおいてシステムの複雑性を高める。
従来技術の方法はいずれも、移動3Dオブジェクトの任意視点ビデオに対して効率的な圧縮フレームワークを提供しない。
したがって、固定カメラによって移動3Dオブジェクトから取得した複数のビデオを符号化し、符号化されたビットストリームを任意の視点に関して復号化することが依然として必要とされている。
システムは、複数の固定カメラによってシーン中の移動オブジェクトから取得したビデオを符号化する。各カメラのカメラ較正データが先ず決定される。各カメラのカメラ較正データは、対応するビデオと関連付けられる。
各ビデオの各フレームの分割マスクが決定される。分割マスクは、オブジェクトに関連するフレーム中の前景ピクセルのみを識別する。次に、形状エンコーダが分割マスクを符号化し、位置エンコーダが各ピクセルの位置を符号化し、色エンコーダが各ピクセルの色を符号化する。
符号化されたデータを合成して1つのビットストリームにし、デコーダに転送することができる。デコーダにおいて、ビットストリームは、ユーザによって選択された任意の視点を有する出力ビデオに復号化される。
動的な3Dポイントモデルは、移動オブジェクトの幾何を規定する。レンダリング中に用いられるスプラットのサイズおよび面法線は、エンコーダによって明示的に決定されるか、あるいはデコーダによって明示的に決定されることができる。
システム構造
図1は、本発明による、入力ビデオ202を符号化200および復号化400してビデオ109を出力するシステムおよび方法の一般構造100を示す。制約付きおよび制約なし自由視点ビデオを符号化するための実施形態を図2および図5により詳細に示す。本発明による制約付きおよび制約なし自由視点ビデオを以下により詳細に説明する。
本発明の利点として、取得はローカル符号化ノードで、復号化はリモート復号化ノードで行うことができる。符号化200は、オフライン処理として行うことができ、スピードは要求されない。しかし、復号化400はリアルタイムで行われる。
本発明では、ビデオビットストリーム208を用いた。ビットストリーム208は、任意の従来の手段、例えばファイル転送、中間記憶媒体(DVD)、ネットワークチャネル等を用いてエンコーダ200からデコーダ400へ転送することができる。
ビデオ202を取得する前に、同期されたカメラ101の外部パラメータおよび内部パラメータを推定する。較正パラメータ209は例えば、投影行列および投影ベクトル中心を含み得る。エンコーダ200は、カメラ較正データ209をデコーダ400に提供する。カメラ較正データは、カメラが固定されたままである限り、ビデオビットストリーム208を転送する前に一度送ればよい。較正データ209は、カメラのいずれかの再配置によりカメラパラメータが変化する場合に、定期的に必要に応じて更新されることができる。
エンコーダでは、複数の較正され同期されたカメラ101がオブジェクト102、例えば動くユーザの周囲に配置される。各カメラは、移動するオブジェクト102の入力画像シーケンス(入力ビデオ)202を取得する。例えば、本発明では15台のカメラをオブジェクトの周囲に、1台またはそれ以上を上方に用いることができる。他の構成も可能である。各カメラはオブジェクト102に対して異なる視点または「姿勢」、すなわち位置および向きを有する。この情報は、カメラ較正データ209の一部として符号化される。全てのカメラが常にオブジェクト102を映す必要はない。実際には、多くの場合にカメラのサブセット、例えばオブジェクト102の正面の視野を提供するカメラだけで十分である。
ビデオ処理は、さらに詳細に後述する以下のステップを伴う。ビデオ202は処理されて、シーン中の背景部分から前景ピクセルが分割される。このために、本発明では、シルエットまたはバイナリ分割マスク201を用いる(図2を参照)。背景部分は、廃棄するか、あるいはデコーダ400に単一フレームとして転送して仮想シーン151を形成することができる。別法として、ビデオの再構成中に用いられる仮想シーン151は合成的に作成することもできる。
ユーザ等のオブジェクト102は、カメラ101に対して移動できることに留意すべきである。この意味するところは以下でより詳細に説明する。
おそらくはユーザによってリアルタイムで選択される実際のレンダリング視点401が与えられると、本発明では、全ての利用可能なカメラ101の中からアクティブなカメラのセットを選択する410。選択されたカメラは、実際のレンダリング視点401に対してユーザ102の「最良の」視野を有する。ビットストリーム208がおそらくはリモート位置で、ポイントスプラッティングおよび任意のカメラ視点401を用いて復号化される。すなわち、任意の1時点におけるレンダリング視点はカメラ101の視点と異なる可能性がある。補間を用いて新たな任意の視点のピクセル値を求める。補間は、新たな視点に最も近いカメラによって取得された画像を用いる。
復号化された画像109は、仮想シーン151と合成することができる150。本発明では、グラフィックスハードウェアを用いて、延期したレンダリング操作、例えば手順のワーピング、爆発および光(beaming)を適用して、仮想シーン中の再構成されたオブジェクトの性能および画質を最大化することもできる。
デコーダにおけるカメラ選択
本発明では、デコーダ400におけるカメラ選択410を用いる。カメラ選択により、カメラのサブセット間の滑らかな移行が可能になり、3Dビットストリーム208の復号化に必要なカメラの台数を効率的に減らす。いわゆる復号化用のアクティブなカメラの台数により、視野に依存した入力ビデオ202から出力ビデオ109のための視野に依存しないレンダリング103への滑らかな移行が可能になる。
所望の視点401に対して、本発明では、オブジェクト102に最も近いk台のカメラを選択する。最も近いカメラを復号化用のアクティブなカメラとして選択するために、本発明では、視線方向の角度を全てのカメラ101の角度と比較する。k台の最も近いカメラを選択することによって、遮蔽によるアーチファクトが最小化される。
同期されたカメラ101によって取得された複数の2Dビデオ202により、エンコーダ200への入力が提供される。さらに、本発明では、全ての入力フレームについて分割マスク202を自由に用いることができる(図2を参照)。マスクは、前景またはオブジェクト102の一部であるピクセルを示す。
各前景入力ピクセルは、位置、面法線ベクトル、スプラットサイズ、および色(テクスチャ)を含む。位置を示す最も簡単な方法は、奥行き(z)値によるものである。位置は、カメラ較正データ209とともに、オブジェクト102のポイントモデル265の幾何を定義する。反射率および屈折情報等の付加的なデータは、オブジェクト102の視覚的な外観をさらに記述することができる。
制約付きおよび制約なしビデオ
出力ビデオ109に対して、本発明では、制約付き自由視点ビデオと制約なしの自由視点ビデオとを区別する。これは、再生中に任意の視点が選択され、この視点は、入力ビデオの取得に用いられるどのカメラ101の視点とも異なってよいことを意味する。
制約付き自由視点ビデオでは、ポイントモデル265をあらゆる可能な視点からレンダリングすることができるが、レンダリング中の視点(カメラ)は一定のままである。レンダリング中に不連続性を許容できる場合、視点の変更は、同一の符号化ビデオを用いることができる限り許可される。
制約なし自由視点ビデオでは、ポイントモデル265をあらゆる可能な視点からレンダリングすることができる。再生中、視点はレンダリング時刻の関数である。視点の変更によるレンダリングの不連続性はいずれも最小化される。
図3は、時空間における制約付きおよび制約なしの視点の軌跡の例を示す。図3では、時刻tにおけるフレーム0〜Mがy軸に示され、カメラ1〜Nがx軸に示される。制約付きの場合、軌跡301は、単一の視点に対応する直線またはほぼ真っ直ぐな線上に位置するが、視点は、入力ビデオの取得に用いられるいずれかのカメラ101の視点に一致する必要はない。制約なしの場合、軌跡302は任意の時空間とすることができる。
カメラの台数は多い可能性があり、復号化400はリアルタイムであることを考慮に入れると、現在のハードウェアでは、全てのカメラからの全てのビデオを先ず復号化してから所与の視点のシーンをレンダリングすることは非現実的である。したがって、復号化されるビデオの数を減らすことが必要である。
したがって、本発明による方法では、以下の変数および関数を用いて視野に依存した復号化が提供される。
t 録画時刻
θ レンダリング時刻
v(θ) レンダリング時刻の関数としての視点
D(v(θ),t) 視点v(θ)および時刻tについて復号化されたデータセット
R(v(θ),t) 視点v(θ)および時刻tについて復号化された、レンダリング中に可視になるデータセット
D(v(θ),t)は復号化後の結果であり、R(v(θ),t)はレンダリング後の結果である。最適な視野に依存した復号化は、D(v(θ),t)=R(v(θ),t)であるときに達成される。これは、デコーダ400が所与の復号化フレームについて、最終的なレンダリングにおいて可視になる、対応する記録フレーム内の情報のみを復号化することを意味する。
言い換えれば、Dは、復号化されるポイントモデル265の一部、すなわちデコーダにおけるカメラ制御によって選択されるカメラの寄与であり、Rは、出力装置に対してレンダリングされるポイントモデル265の一部、すなわち可視部分である。その意味で、Rは出力画像の一部である。また、tは録画時刻であり、これは離散時間、すなわちカメラフレーム番号である。値θは、レンダリング中の時刻、すなわち、ユーザが順方向/逆方向の高速/通常速度再生および任意の視点を選択する時刻である。
最適な視野に依存した復号化の強条件(strong condition)は、共通集合D(v(θ),t)∩R(v(θ),t)を最大化する部分最適な視野に依存した復号化に弱形式を用いて緩和することができる。これは、デコーダが所与のレンダリング画像について、対応する記録画像の復号化情報、すなわち最終的なレンダリングに用いられる復号化情報と、所与のレンダリング画像の復号化情報の合計との比を最大化することを意味する。
アプリケーションドメイン
低帯域幅のネットワークを介してビットストリーム208を転送する際には高い圧縮率が効率的である。しかし、高い圧縮率は復号化の複雑度を増す。広範なターゲット出力装置、例えば携帯電話、ラップトップ、ハンドヘルドコンピュータをサポートするために、比較的低い複雑度を有するデコーダを提供することが望ましい。
低帯域幅伝送の問題は、データのプログレッシブな表現に基づいて対処することができる。実際に、帯域幅およびCPU性能は関連していることが多い。例えば、ハイエンドのコンピューティングノードは一般に高帯域幅ネットワーク接続にアクセスすることができ、低帯域幅ネットワーク接続を有するコンピューティングノードは一般に処理能力が限られている。
符号化
したがって、ビットストリーム208のフォーマットは以下の特徴に対処する必要がある。
多重解像度:解像度に関するスケーラビリティおよび進歩性。これは、データのプログレッシブ符号化、例えば埋め込みゼロツリー符号化(EZW)(Shapiro著「Embedded image coding using zerotrees of wavelet coefficients」(IEEE Transactions on Signal Processing, 41, pp. 3445-3462, December 1993)を参照)、プログレッシブJPEG、またはWurmlin等によって「3D video fragments: Dynamic point samples for real-time free viewpoint video」(Computers & Graphics 28(1), Special Issue on Coding, Compression and Streaming Techniques for 3D and Multimedia data, Elsevier Ltd, 2003)に記載されているようなデータのプログレッシブサンプリングのいずれかを用いて達成することができる。
プログレッシブ符号化は、復号化の複雑度がより低いため、Wuermlin等のプログレッシブサンプリングよりも好ましい。
マルチレート:時間に関するスケーラビリティ、すなわち出力ビデオ109の再生は、入力ビデオ202の記録に用いられたフレームレートとは異なるフレームレートで行うことが可能である。逆方向(巻き戻し)再生も様々な速度で行うことが可能である(図3を参照)。
視野に依存した復号化:本発明では、視野に依存した復号化のためにデータを符号化する問題に対処する。所与のレンダリング画像フレームの視野に依存した復号化にどのカメラが必要であるかを決定するプロセスは、Wuermlin等によって記載される技法と同様である。すなわち、視野401およびカメラ較正データ209が与えられれば、寄与するカメラを決定し、それに従って復号化および補間を行うことができる。
圧縮
画像空間における相関
標準的な画像圧縮技法と同様に、ウェーブレット変換または離散コサイン変換(DCT)のような2D変換を適用して入力画像202を符号化することができる。
しかし、本発明の関心の対象となるのは、マスク201によって示されるような、オブジェクト102を示す画像部分のみである。したがって、本発明では形状適応型のウェーブレットエンコーダを用いる。
図4に示すように、エンコーダ400は、各入力画像202の非マスク部分402をラスタスキャン順にトラバースすることによって、関連するピクセルの色を線形に配置する。
本発明では次に、このリストに1次元ウェーブレット変換を適用してウェーブレット係数を得る。これを本発明ではリフティング方式を用いて行う。Sweldens「The lifting scheme: A custom-design construction of biorthogonal wavelets」(Applied and Computational Harmonic Analysis, 3(2):186-200, 1996)を参照のこと。ウェーブレット係数は、最終的にゼロツリーコーダによって符号化され、さらに算術符号化によって圧縮される。Said等著「A new fast and efficient image codec based on set partitioning in hierarchical trees」(IEEE Transaction on Circuits and Systems for Video Technology, 6:243-250, June 1996)、Shapiro著「Embedded image coding using zerotrees of wavelet coefficients」(IEEE Transactions on Signal Processing, 41:3445-3462, December 1993)、およびRissanen等著「Arithmetic coding」(IBM Journal of Research and Development, 23(2), pp. 149-162, 1979)を参照のこと。
ゼロツリーおよび算術コーダの両方のプログレッシブな挙動により、所望のビットレートまたは歪みまでの損失の多い圧縮が可能になる。さらに、エンコーダは、ビデオの再生中の符号化ビットストリーム208のプログレッシブな送信および部分的な復元を可能にする。デコーダ400は、現フレームのロスレスシルエットマスク201も備えて、符号化中に用いられるスキャン順を再構成することができる。
時間次元における相関
本発明では先ず、制約付き自由視点ビデオの場合を検討する。多くの場合に、ビデオは、時間t順に通常の再生速度で再生される。したがって本発明では、以前のフレームからの情報を用いて現フレームを構成する。セグメント中の1番目のフレームはキーフレームであり、セグメント中の以後のフレームは差分フレームとして符号化される。各差分フレームは、現フレームと以前のフレームの間の変化を示す。
カメラi毎に、復号化関数c(t)は、時刻tにおける各カメラの3Dポイントモデルへの寄与を返す。以前のフレームからの情報を用いることによって時間的な相関が利用される場合、復号化関数は次の形式を持つ。
Figure 2007519285
t’<tであり、ここで、Δc(t)はフレームtの具体的な寄与を記述する。
2Dビデオ符号化方法は、式(1)によって表される形式を有することに留意されたい。この手法は、本発明による制約付き自由視点出力ビデオにも実行可能である。
制約なし自由視点ビデオの場合、時間的な相関を利用することはより難しい。デコーダは、関数fを実行するのに必要であり、関数fは、観測中の任意の瞬間θの3Dポイントモデルを返す。これは視点v(θ)およびマッピング関数m(θ)を意味し、このマッピング関数m(θ)はレンダリング時刻を記録時刻にマッピングする。
視点vについて、重み関数w(v)は、3Dポイントモデルの可視部分に寄与するカメラを示す。一次近似において、本発明では、カメラが可視の寄与を有する場合にw(v)は1を返し、そうでない場合は0を返すものと仮定することができる。
すると次式が得られる。
Figure 2007519285
θ’=m−1(t’)かつt≠t’であると仮定する。c(t)の復号化は、c(t’)の復号化を必要とする。しかし、w(θ’)=0である場合、視野に依存した復号化の条件に違反する。したがって、最適な視野に依存した復号化は、以下のように定義されるデコーダを用いた場合にのみ実施することができる。
Figure 2007519285
は時間に依存しない基底表現を表す。
したがって、制約付き視点ビデオ用のデコーダは、ランダムな順序でアクセスされるフレームに対して一定時間で復号化を行う必要がある。
圧縮フレームワーク
図2は、本発明による、ビデオを符号化するための基本的なシステム構造200を示す。本システムは、以下の符号化モジュール、すなわち、形状エンコーダ210、面法線エンコーダ220、位置エンコーダ230、スプラットサイズエンコーダ240、および色(テクスチャ)エンコーダ250を含む。本システムはまた、幾何構成モジュール260およびマルチプレクサ270も含む。
デコーダ400はそれぞれの符号化モジュールに対して相補的な復号化モジュールを含むことに留意すべきである。各デコーダの構成は、本明細書中で詳述する対応するエンコーダの構成から自明である。
システムへの入力は、分割マスク201、カメラ画像202、およびカメラ較正データ203である。分割マスクは、任意の既知のバイナリ分割手順を用いてカメラ画像から得られる。分割マスク201は、符号化すべき前景(オブジェクト)ピクセルのみを得るために用いられる。したがって、カメラ画像毎に1つのマスクがある。カメラ画像202の前景ピクセルのみがシーン中のオブジェクト102を規定する。
本発明では、分割マスク201にロスレス符号化を用いて、モデルポイントとその属性の間のシフトおよび誤った関連付けを防止する。分割マスクは、エンコーダとデコーダの両方に利用可能である。
本発明のビデオフォーマットの基礎となるデータ表現は動的3Dポイントモデル265である。ポイントモデルにおいて、各ポイントは属性のセットを有する。ポイントの属性は別々に記憶および圧縮されるため、参照方式が用いられる。参照方式は、ポイントとその属性の間の一意の識別を可能にする。カメラ画像202は、ポイントモデル265を作成するために用いられる。カメラ毎に1つの識別された画像シーケンスがある。各ポイントは、画像空間におけるその2D位置および1つまたは複数のカメラの識別子によって一意に識別される。本発明では、3Dポイントモデルを作成するために各画像中の前景ピクセルのみを検討する。
ピクセル属性は、損失の多い圧縮方式を用いて符号化することができる。それにもかかわらず、デコーダ400に全てのデータが利用可能である場合、ロスレスまたはほぼロスレスな復号化が可能である。
ビットストリーム208は最終的に、符号化されたキーフレームと、符号化された差分フレームとからなる。差分フレームは、最新のキーフレームに基づく予測に依存する。例えば、フレーム0はキーフレームであり、フレーム1はフレーム0に基づく差分フレームであり、フレーム2はフレーム1およびフレーム0に基づく差分フレームである、等となっている。
分割マスク201およびカメラ較正データ209から、シーン中の関心のオブジェクトの幾何再構成を求める。幾何再構成の出力は、面法線ベクトル261、3D位置262、および表面スプラットサイズ263である。
エンコーダの出力はマルチプレクサ270に送られる。マルチプレクサの出力は合成されて符号化ビデオビットストリーム208となる。カメラ較正データ209は、カメラ101が定位置に固定されたままである限り、デコーダに1度送ればよい。これらのパラメータは、ビデオ208のストリーミングを開始する前に送ることができる。パラメータは、任意の従来の技法を用いて、例えばビットストリーム208のプリアンブルの一部として、あるいはサイドチャネル上で送ることができる。
ビデオ符号化
制約付きビデオ符号化
形状
形状エンコーダ210は、MPEG−4ロスレスバイナリ形状符号化を用いることができる。Katsaggelos等著「MPEG-4 and rate/distortion-based shape-coding techniques」(Proceedings of the IEEE, 86(6), pp. 1126-1154, June 1998)を参照のこと。
面法線
面法線ベクトルは、単位球の八面体細分割(octahedron subdivision)を用いてプログレッシブ符号化される。Botsch等著「Efficient high quality rendering of point sampled geometry」(Proceedings of the 13th Eurographics Workshop on Rendering, pp. 53-64, 2002)を参照のこと。2バイトの符号語が2つのグレイスケールMPEGビデオオブジェクトにおいて表現される。ほとんどの応用では、1バイト符号化法線の予測で十分である。
位置
各ポイントのxおよびy座標は、画像ピクセルおよびカメラ較正データから本質的に既知である。したがって、奥行き(z)値のみを符号化すればよい。MPEG−4ビデオのオブジェクト符号化を用いてディスパリティ符号化を行うことができ、奥行き値はピクセルの輝度値または強度値として量子化される。
スプラットサイズ
スプラットサイズは1バイトに量子化され、符号語はグレイスケールMPEGビデオオブジェクト中に表現される。

色の符号化は、従来のMPEG−4ビデオのオブジェクト符号化を4:1:1のYUVフォーマットで用いることができる。Ostermann等著「Coding of arbitrarily shaped video objects in MPEG-4」(Proceedings of the International Conference on Image Processing, pp. 496-499, 1997)を参照のこと。しかし、本発明のエンコーダ200は、他のフォーマットのテクスチャデータを扱うこともできる。
1つの制約付きビデオフレームの完全な復号化400は、再構成視野毎に奥行き、面法線およびスプラットサイズのグレイスケールMPEGビデオオブジェクト、ならびに1つのカラービデオオブジェクトを要求する。
制約なしのビデオ符号化
図5は、制約なし自由視点ビデオの1属性のエンコーダ500を示す。この場合、各ビデオ202は、N個のフレームからなるセグメント501として処理される。
先ず、キーフレーム502を構成する。この場合、キーフレームは、制約付きの場合のような単なるセグメントの1番目のフレームではなく、各セグメント501中のN個のフレームの平均510である。平均は例えば平均値または中央値とすることができる。
キーフレームがプログレッシブ符号化される520。
次に、キーフレーム501とセグメント中の各フレームとの間の差分530を求める。差分フレーム531も同様に符号化される520。これにより、N+1個の符号化フレーム503が得られる。Nの値が比較的大きく、例えば100以上である場合、N個のフレームの制約付きの場合と比較して、制約なしの場合の平均化されたキーフレームを符号化する付加コストはわずかである。
よって図6に示すように、符号化されたビデオビットストリーム208は、平均符号化キーフレームを含む基本レイヤ601と、符号化差分フレームからなる上位レイヤ602とを含む。
図7Aは、円状に回転する人物を示すビデオセグメントを平均することによって得られるキーフレームを示す。図7Bは、このセグメントの1フレームの再構成を示す。
制約なし符号化
形状符号化
形状符号化は、分割マスクのロスレスJBIGまたはMPEG−4バイナリ形状符号化を用いて行うことができる。
キーフレーム:セグメント501の半分以上のフレームにおいて前景ピクセルであるピクセルは、キーフレーム502における前景ピクセルである。
差分フレーム:キーフレームに対する現フレームの差分。
属性
平均符号化方式500を用いて全てのポイント属性を符号化する。すなわち、制約なしの場合におけるキーフレームの属性は、セグメント中の全てのフレームの平均から得られ、制約付きの場合におけるキーフレームの属性は、1番目のフレームのみから得られる。
キーフレーム:セグメントの平均属性。
差分フレーム:キーフレームに対する差分。
ここで、差分属性を表現する方法を説明する。
ディスパリティ符号化
色符号化:埋め込みゼロツリーウェーブレット符号化。
面法線符号化:単位球の八面体細分割を用いて面法線ベクトルをプログレッシブ符号化する。次に2バイトの符号語を、EZWを用いて個別に圧縮される2つの輝度画像で表す。
スプラットサイズ:スプラットサイズをグレイスケール画像上に量子化する。
大きなセグメント501の場合、キーフレームを復号化する付加的なコストは小さくなる。複雑度は、制約なしの方法の場合と略同じである。本発明では、再構成カメラ毎に1つのバイナリ形状画像と、4つのグレイスケール画像と、1つのカラー画像とがある。
多重化
全ての属性が個別にプログレッシブ符号化されるため、個々の属性ビットストリームを1つのビットストリームに多重化することによって、所与のターゲットビットレートを満たす1つのストリームを作成し、送信することができる。1つの属性ビットストリームの適切な寄与は、所望のレート歪み特性に従って決められる。
例えば、毎秒300キロビットのビットストリームは、30kb/sの形状情報と、60kb/sの位置情報と、120kb/sの色情報と、45kb/sの面法線情報と、45kb/sのスプラットサイズ情報とを含む。
動的な3Dシーン全体への拡張
ここまでビデオオブジェクトについて説明してきたエンコーダは、動的なシーン全体を符号化するためにも用いることができる。シーン中の別個のオブジェクトを異なるレイヤに符号化することができる。静的なオブジェクトは1つのキーフレームによって記述される。補助情報として記憶されるシーングラフは、異なるレイヤ間の空間関係を記述する。現在の任意の視点401から可視であるレイヤのみを復号化することによって、視野に依存した復号化を再び有効にする。
動的なポイントサンプル処理およびレンダリング
本発明では、復号化およびレンダリングをリアルタイムで行う。合成150により、Zバッファリングを用いて復号化画像が仮想シーン151と合成される。また本発明では、データ構造の一貫性に影響を与えることなくリアルタイム3Dビデオストリームに適用可能な3D視覚効果、例えばワーピング、爆発および光のような後処理操作を行うことができる。
さらに、復号化ポイントサンプルの位置のみからスプラットサイズおよび面法線を推定することが可能である。この推定は、レンダリングプロセス中にリアルタイムで行うことができる。その場合、面法線エンコーダ220およびスプラットサイズエンコーダ240は必要なく、スプラットサイズおよび面法線の記憶あるいは転送は不要である。
ポイントサンプルのレンダリング
本発明では、2回走査プロセスを用いてポイントサンプルを、半透明のアルファテクスチャを有する多角形スプラットとしてレンダリングする。1回目の走査では、ポイントサンプル毎に不透明のポリゴンがレンダリングされ、続いて可視性スプラッティングが行われる。2回目の走査では、スプラットポリゴンがアルファテクスチャとともにレンダリングされる。スプラットにポイントサンプルの色を掛け、各ピクセルに蓄積する。1回目の走査からのZバッファを用いた奥行きテストにより、ラスタ化中に可視性問題が解ける。
視野に依存したレンダリング
特定のポイントをレンダリングするために、本発明では、選択されたk台の復号化用アクティグカメラのセットを用いる。しかしこれは、視点の軌跡においてアクティブなカメラのセットが変化した場合に移行アーチファクトを生じる可能性がある。したがって、レンダリングに対する各カメラの寄与が、その視線方向と現在の視点401の方向との間の角度によって重み付けされる。滑らかな移行を達成するために、本発明では、最も近い非アクティブなカメラの重みを引き、アクティブなカメラのみが正の寄与を有するようにする。
現在の視点に対して、本発明では、シーンのk個の別個の画像を毎回、1つの異なるアクティブなカメラからのポイントのみを用いてレンダリングする。最後に、計算されたカメラの重みに応じたアルファ値を用いてポイントスプラットを混合することによって画像を合成する。
本発明を、好適な実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応および変更を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るこのような変形および変更をすべて網羅することである。
本発明による、移動3Dオブジェクトから取得した複数のビデオを符号化および復号化するシステムおよび方法のブロック図である。 図1のシステムによって用いられるエンコーダのブロック図である。 制約付きおよび制約なしの自由視点軌跡のグラフである。 マスク内の画像の一部を横断する走査線の図である。 制約なしのビデオ用のエンコーダのブロック図である。 本発明による、ビデオビットストリームとして符号化される基本レイヤおよび上位レイヤのブロック図である。 本発明によるキーフレームである。 図7Aのキーフレームから再構成した画像である。

Claims (24)

  1. 複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステムであって、
    各カメラのカメラ較正データを決定する手段と、
    前記各カメラのカメラ較正データを前記カメラによって取得した前記ビデオと関連付ける手段と、
    各ビデオの各フレームの分割マスクであって、前記オブジェクトに関連するフレーム中のピクセルのみを識別する分割マスクを決定する手段と、
    前記分割マスクを符号化するように構成された形状エンコーダと、
    各ピクセルの位置を符号化するように構成された位置エンコーダと、
    各ピクセルの色を符号化するように構成された色エンコーダと
    を備えた、複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム。
  2. 前記形状エンコーダ、前記位置エンコーダ、及び前記色エンコーダの出力を合成して1つのビットストリームにするように構成されたマルチプレクサをさらに備える
    請求項1記載のシステム。
  3. デコーダと、
    前記ビットストリームを前記デコーダに転送する手段と、
    前記カメラ較正データを用いて復号化ビットストリームを任意の視点からレンダリングする手段とをさらに備える
    請求項2記載のシステム。
  4. 前記任意の視点は、空間に制約される
    請求項3記載のシステム。
  5. 前記任意の視点は、空間に制約されない
    請求項3記載のシステム。
  6. 前記移動オブジェクトの幾何を規定する動的3Dポイントモデルを維持する手段をさらに備える
    請求項1記載のシステム。
  7. 前記動的3Dポイントモデルの各ポイントは、前記複数のカメラのうちの1つまたは複数の識別子に関連付けられる
    請求項6記載のシステム。
  8. 前記符号化された分割マスクは、ロスレス圧縮を用いて圧縮され、前記位置及び前記色は、損失の多い圧縮を用いて符号化される
    請求項1記載のシステム。
  9. 前記カメラ較正データは、前記固定カメラのいずれかが再配置されるときには定期的に更新される
    請求項1記載のシステム。
  10. 前記分割マスクは、MPEG−4ロスレスバイナリ形状符号化を用いて符号化され、前記位置は、量子化ピクセルの輝度値として符号化される奥行き値を含み、前記色は、MPEG−4ビデオのオブジェクト符号化を用いて符号化される
    請求項1記載のシステム。
  11. 前記シーン全体が、前記シーンの静的部分と動的部分の間の関係を指定するシーンを用いて符号化される
    請求項1記載のシステム。
  12. 前記符号化された分割マスク、前記符号化された位置、及び前記符号化された色を、前記カメラ較正データを用いて、任意の視点を有する出力ビデオとして復号化するように構成されたデコーダをさらに備える
    請求項1記載のシステム。
  13. 前記任意の視点は、前記カメラのいずれの視点とも異なる
    請求項12記載のシステム。
  14. 前記出力ビデオの画像は、仮想シーンと合成される
    請求項12記載のシステム。
  15. 前記出力ビデオの再生フレームレートは、前記複数のカメラによって前記ビデオを取得するのに用いられるフレームレートとは異なる
    請求項12記載のシステム。
  16. 前記損失の多い圧縮方式は、埋め込みゼロツリーウェーブレット符号化を用いたプログレッシブ符号化である
    請求項8記載のシステム。
  17. 前記形状エンコーダは、MPEG−4ロスレスバイナリ形状符号化を用い、前記位置エンコーダは、奥行き値を符号化し、前記色エンコーダは、MPEG−4ビデオのオブジェクト符号化を用いる
    請求項1記載のシステム。
  18. 複数のフレームを含むセグメントであって、各ビデオを複数のセグメントに分割する手段と、
    前記形状エンコーダ、前記位置エンコーダ、及び前記色エンコーダを用いて各セグメントのキーフレーム及び差分フレームを符号化して単一のビットストリームにする手段とをさらに備える
    請求項1記載のシステム。
  19. 前記キーフレームは、符号化されたビデオビットストリームの基本レイヤを備え、前記差分フレームは、前記符号化されたビットストリームの上位レイヤを備える
    請求項18記載のシステム。
  20. 各セグメント中の前記フレームを平均して前記キーフレームを構成する手段と、
    前記セグメント中の各フレームの前記差分フレームを前記キーフレーム及び前記フレームから求める手段とをさらに備える
    請求項18記載のシステム。
  21. 前記キーフレームは、前記セグメントの1番目のフレームであり、前記差分フレームは、前記セグメント中の現フレームと以前のフレームから求められる
    請求項18記載のシステム。
  22. 各ピクセルの面法線を符号化するように構成された面法線エンコーダと、
    各ピクセルのスプラットサイズを符号化するように構成されたスプラットサイズエンコーダと、
    前記面法線エンコーダと前記スプラットサイズエンコーダの出力を前記単一のビットストリームと合成する手段とをさらに備える
    請求項1記載のシステム。
  23. 前記面法線のベクトルは、単位球の八面体細分割を用いてプログレッシブ符号化され、前記スプラットサイズは、グレイスケールMPEGビデオオブジェクト中に表される量子化された符号語として符号化される
    請求項22記載のシステム。
  24. 前記スプラットサイズ及び前記面法線は、前記位置から推定される
    請求項22記載のシステム。
JP2006519304A 2003-11-26 2004-11-26 複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム Pending JP2007519285A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/723,035 US7324594B2 (en) 2003-11-26 2003-11-26 Method for encoding and decoding free viewpoint videos
PCT/JP2004/017994 WO2005053321A1 (en) 2003-11-26 2004-11-26 System for encoding plurality of videos acquired of moving object in scene by plurality of fixed cameras

Publications (1)

Publication Number Publication Date
JP2007519285A true JP2007519285A (ja) 2007-07-12

Family

ID=34620000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006519304A Pending JP2007519285A (ja) 2003-11-26 2004-11-26 複数の固定カメラによってシーン中の移動オブジェクトから取得した複数のビデオを符号化するシステム

Country Status (4)

Country Link
US (1) US7324594B2 (ja)
EP (1) EP1579702A1 (ja)
JP (1) JP2007519285A (ja)
WO (1) WO2005053321A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101080A1 (ja) * 2016-11-30 2018-06-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元モデル配信方法及び三次元モデル配信装置

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060028476A1 (en) * 2004-08-03 2006-02-09 Irwin Sobel Method and system for providing extensive coverage of an object using virtual cameras
US7385604B1 (en) * 2004-11-04 2008-06-10 Nvidia Corporation Fragment scattering
US7672378B2 (en) * 2005-01-21 2010-03-02 Stmicroelectronics, Inc. Spatio-temporal graph-segmentation encoding for multiple video streams
US8948461B1 (en) * 2005-04-29 2015-02-03 Hewlett-Packard Development Company, L.P. Method and system for estimating the three dimensional position of an object in a three dimensional physical space
US7512279B2 (en) * 2005-06-22 2009-03-31 General Electric Company System, method and computer instructions for compression of four dimensional data
EP1919219A4 (en) * 2005-07-11 2010-12-01 Sharp Kk VIDEO ENTRY DEVICE, VIDEO DISPLAY DEVICE, VIDEO END PROCEDURE AND VIDEO DISPLAY METHOD
US7903306B2 (en) * 2005-07-22 2011-03-08 Samsung Electronics Co., Ltd. Sensor image encoding and/or decoding system, medium, and method
JP4605715B2 (ja) * 2006-06-14 2011-01-05 Kddi株式会社 多視点画像圧縮符号化方法、装置及びプログラム
US8284204B2 (en) * 2006-06-30 2012-10-09 Nokia Corporation Apparatus, method and a computer program product for providing a unified graphics pipeline for stereoscopic rendering
JP4605716B2 (ja) * 2006-07-14 2011-01-05 Kddi株式会社 多視点画像圧縮符号化方法、装置及びプログラム
US9019300B2 (en) * 2006-08-04 2015-04-28 Apple Inc. Framework for graphics animation and compositing operations
KR20080066408A (ko) * 2007-01-12 2008-07-16 삼성전자주식회사 3차원 영상 처리 장치 및 방법
US8953684B2 (en) * 2007-05-16 2015-02-10 Microsoft Corporation Multiview coding with geometry-based disparity prediction
KR100963005B1 (ko) * 2008-07-09 2010-06-10 한국전자통신연구원 자유시점 av 서비스에 따른 파일 생성 방법
US20100053310A1 (en) * 2008-08-31 2010-03-04 Maxson Brian D Transforming 3d video content to match viewer position
US8233530B2 (en) * 2008-10-28 2012-07-31 International Business Machines Corporation Video scene matching on return from virtual rendering in a consumer digital video recording device
US8760495B2 (en) * 2008-11-18 2014-06-24 Lg Electronics Inc. Method and apparatus for processing video signal
WO2010087574A2 (en) 2009-01-28 2010-08-05 Lg Electronics Inc. Broadcast receiver and video data processing method thereof
JP4764487B2 (ja) * 2009-03-02 2011-09-07 株式会社日立製作所 映像監視システム
US9648346B2 (en) * 2009-06-25 2017-05-09 Microsoft Technology Licensing, Llc Multi-view video compression and streaming based on viewpoints of remote viewer
US8948241B2 (en) * 2009-08-07 2015-02-03 Qualcomm Incorporated Signaling characteristics of an MVC operation point
US8488870B2 (en) * 2010-06-25 2013-07-16 Qualcomm Incorporated Multi-resolution, multi-window disparity estimation in 3D video processing
EP2426929A1 (en) 2010-09-06 2012-03-07 Telefonaktiebolaget L M Ericsson AB (Publ) Viewpoint navigation
EP2797327A4 (en) * 2011-11-14 2015-11-18 Nat Inst Inf & Comm Tech STEREOSCOPIC VIDEO ENCODING DEVICE, STEREOSCOPIC VIDEO DECODING DEVICE, STEREOSCOPIC VIDEO ENCODING METHOD, STEREOSCOPIC VIDEO DECODING METHOD, STEREOSCOPIC VIDEO ENCODING PROGRAM, AND STEREOSCOPIC VIDEO DECODING PROGRAM
CN103108197A (zh) * 2011-11-14 2013-05-15 辉达公司 一种用于3d视频无线显示的优先级压缩方法和系统
US9161012B2 (en) * 2011-11-17 2015-10-13 Microsoft Technology Licensing, Llc Video compression using virtual skeleton
US20130141433A1 (en) * 2011-12-02 2013-06-06 Per Astrand Methods, Systems and Computer Program Products for Creating Three Dimensional Meshes from Two Dimensional Images
US20140340404A1 (en) * 2011-12-16 2014-11-20 Thomson Licensing Method and apparatus for generating 3d free viewpoint video
US9829715B2 (en) 2012-01-23 2017-11-28 Nvidia Corporation Eyewear device for transmitting signal and communication method thereof
US9578224B2 (en) 2012-09-10 2017-02-21 Nvidia Corporation System and method for enhanced monoimaging
US10237563B2 (en) * 2012-12-11 2019-03-19 Nvidia Corporation System and method for controlling video encoding using content information
WO2015025309A1 (en) * 2013-08-20 2015-02-26 Smarter Tv Ltd. System and method for real-time processing of ultra-high resolution digital video
US20150124171A1 (en) * 2013-11-05 2015-05-07 LiveStage°, Inc. Multiple vantage point viewing platform and user interface
KR101586249B1 (ko) * 2013-12-24 2016-01-18 (주)에프엑스기어 광 시야각 영상 처리 장치 및 방법
US10935788B2 (en) 2014-01-24 2021-03-02 Nvidia Corporation Hybrid virtual 3D rendering approach to stereovision
US9906981B2 (en) 2016-02-25 2018-02-27 Nvidia Corporation Method and system for dynamic regulation and control of Wi-Fi scans
CN110114803B (zh) * 2016-12-28 2023-06-27 松下电器(美国)知识产权公司 三维模型分发方法、三维模型接收方法、三维模型分发装置以及三维模型接收装置
EP3429210A1 (en) * 2017-07-13 2019-01-16 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
JP7187182B2 (ja) * 2018-06-11 2022-12-12 キヤノン株式会社 データ生成装置、方法およびプログラム
US10834413B2 (en) * 2018-08-24 2020-11-10 Disney Enterprises, Inc. Fast and accurate block matching for computer generated content
US11164319B2 (en) 2018-12-20 2021-11-02 Smith & Nephew, Inc. Machine learning feature vector generator using depth image foreground attributes
CN110008904A (zh) * 2019-04-08 2019-07-12 万维科研有限公司 生成基于视频文件格式的形状识别列表的方法
CN110058917B (zh) * 2019-04-24 2022-04-01 广州大学 一种动态几何协同作图的协同控制方法及系统
US11240465B2 (en) 2020-02-21 2022-02-01 Alibaba Group Holding Limited System and method to use decoder information in video super resolution
US20220166976A1 (en) * 2020-11-26 2022-05-26 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding using segmentation map
CN116156184A (zh) * 2021-11-12 2023-05-23 华为技术有限公司 视频编解码方法、装置、设备、存储介质及计算机程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2000076159A (ja) * 1998-08-31 2000-03-14 Toshiba Tec Corp 端末制御装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617334A (en) * 1995-07-21 1997-04-01 The Trustees Of Columbia University In The City Of New York Multi-viewpoint digital video coder/decoder and method
US6483874B1 (en) * 1999-01-27 2002-11-19 General Instrument Corporation Efficient motion estimation for an arbitrarily-shaped object
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US7203693B2 (en) * 2001-06-12 2007-04-10 Lucent Technologies Inc. Instantly indexed databases for multimedia content analysis and retrieval
US20050017968A1 (en) 2003-07-21 2005-01-27 Stephan Wurmlin Differential stream of point samples for real-time 3D video

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2000076159A (ja) * 1998-08-31 2000-03-14 Toshiba Tec Corp 端末制御装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101080A1 (ja) * 2016-11-30 2018-06-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元モデル配信方法及び三次元モデル配信装置
JPWO2018101080A1 (ja) * 2016-11-30 2019-10-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元モデル配信方法及び三次元モデル配信装置
US10863162B2 (en) 2016-11-30 2020-12-08 Panasonic Intellectual Property Corporation Of America Three-dimensional model distribution method and three-dimensional model distribution device
JP2022002418A (ja) * 2016-11-30 2022-01-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 受信方法及び端末
US11240483B2 (en) 2016-11-30 2022-02-01 Panasonic Intellectual Property Corporation Of America Three-dimensional model distribution method and three-dimensional model distribution device
US11632532B2 (en) 2016-11-30 2023-04-18 Panasonic Intellectual Property Corporation Of America Three-dimensional model distribution method and three-dimensional model distribution device
JP7472362B2 (ja) 2016-11-30 2024-04-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 受信方法、端末及びプログラム

Also Published As

Publication number Publication date
WO2005053321A1 (en) 2005-06-09
EP1579702A1 (en) 2005-09-28
US20050117019A1 (en) 2005-06-02
US7324594B2 (en) 2008-01-29

Similar Documents

Publication Publication Date Title
US7324594B2 (en) Method for encoding and decoding free viewpoint videos
Zhang et al. A survey on image-based rendering—representation, sampling and compression
Shum et al. Survey of image-based representations and compression techniques
Magnor et al. Data compression for light-field rendering
Chang et al. Light field compression using disparity-compensated lifting and shape adaptation
Magnor et al. Multi-view coding for image-based rendering using 3-D scene geometry
US7110617B2 (en) Rebinning methods and arrangements for use in compressing image-based rendering (IBR) data
US20050017968A1 (en) Differential stream of point samples for real-time 3D video
Würmlin et al. 3D Video Recorder: a System for Recording and Playing Free‐Viewpoint Video
JP2023513564A (ja) 点群圧縮のためのティア化階層コード化の使用
Shum et al. A virtual reality system using the concentric mosaic: construction, rendering, and data compression
Xu et al. Introduction to point cloud compression
Chai et al. Depth map compression for real-time view-based rendering
Lin et al. 3d model streaming based on jpeg 2000
KR20220011180A (ko) 체적 비디오 인코딩 및 디코딩을 위한 방법, 장치 및 컴퓨터 프로그램
Yang et al. Real-time 3d video compression for tele-immersive environments
JP7440546B2 (ja) ポイントクラウドデータ処理装置及び方法
Ng et al. A multi-camera approach to image-based rendering and 3-D/multiview display of ancient chinese artifacts
Chai et al. A depth map representation for real-time transmission and view-based rendering of a dynamic 3D scene
Liu et al. Mobile Volumetric Video Streaming System through Implicit Neural Representation
Li et al. On the compression of image based rendering scene
Würmlin et al. Image-space free-viewpoint video
Kauff et al. Data format and coding for free viewpoint video
Marvie et al. Coding of dynamic 3D meshes
Smolic et al. 3D video objects for interactive applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110315