JP2012512554A

JP2012512554A - 画像ベースの３ｄビデオフォーマット

Info

Publication number: JP2012512554A
Application number: JP2011540312A
Authority: JP
Inventors: ペテル−アンドレレデルト; グンネウィークライニエルビーエムクライン; バルトロメウスダブリュディーソンネフェルド; クリスティアーンファレカムプ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-15
Filing date: 2009-12-10
Publication date: 2012-05-31
Anticipated expiration: 2029-12-10
Also published as: EP2377325A1; KR20110106367A; EP2377325B1; JP5734867B2; EP2197217A1; US8767046B2; WO2010070545A1; CN102246529B; KR101651442B1; CN102246529A; US20110242279A1

Abstract

本発明は、三次元ビデオデータを符号化する方法及び装置５８０に関し、前記装置は、異なる視点からのシーンの複数の同時ビュー５０１を符号化する第１のエンコーダ５０５と、前記シーンの深度情報を符号化する第２のエンコーダ５１０と、前記複数のビューと前記深度情報との間の関係を示す追加情報を符号化する第３のエンコーダ５１５と、前記符号化された情報を前記三次元ビデオデータの表現５１３に結合する結合器５２０とを有する。前記追加情報は、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される。本発明は、更に、三次元ビデオデータを復号する方法及び装置５８５、並びに本発明による方法を実行するプログラム命令を有するコンピュータプログラムに関する。

Description

本発明は、三次元ビデオデータを符号化する装置及び方法、三次元ビデオデータを復号する装置及び方法、並びに三次元ビデオデータを有する信号に関する。

この２０年間に、様々なステレオスコピック及びオートステレオスコピック表示システムが開発されている。これらのシステムは、静止及び／又はモーションビデオ画像の三次元（３Ｄ）印象を観察者に与えることを目的とする。一般的な（オート）ステレオスコピック装置は、観察者の人間視覚系により解釈される場合に３Ｄ印象を生じる適切な左及び右画像を観察者のそれぞれ左及び右目に与えることを目的とする。

ステレオスコピック表示システムは、シャッタ眼鏡を使用するもののようなアクティブ眼鏡ベースのシステムを有する。シャッタ眼鏡ベースのシステムにおいて、表示装置は、一般に、時分割形式で左画像及び右画像を表示する。シャッタ眼鏡は、前記表示システムと同期して動作され、それぞれ左及び右画像が観察者の対応する目に到達することを可能にする。他の眼鏡ベースのシステムは、３Ｄシネマで使用される偏光眼鏡のようなパッシブ型である。

上記のステレオスコピックシステムは、一般に納得のいく３Ｄ体験であると受け入れられているものを提供するが、ユーザは、特別な眼鏡の必要性が不愉快であると気付く傾向にある。結果として、２以上のビューが表示装置上に同時に提示されるオートステレオスコピックシステムが、開発されている。加えて、このような表示システムは、それぞれのビューを異なる観察方向に配向するバリア又はレンチキュラのような光配向手段を取り付けられる。例えば、米国特許６０６４４２４は、レンチキュラベースのオートステレオスコピック表示システムの一例を示している。

観察者が、前記オートステレオスコピック表示装置を見る場合、前記観察者は、一般に、２つの異なるビュー、左目に対するもの及び右目に対するものを受け取る。これらの画像は、人間の視覚系により３Ｄ印象に結合される。

ステレオスコピック及びオートステレオスコピック装置が高品質の３Ｄ印象を与えるためには、１より多い従来の２Ｄ画像を有するビデオ信号を提供することは、普通である。幅広い種類の代替例が、既に開示されている。ステレオスコピック表示装置は、一般に、時系列及び／又は多重化様式で左及び右画像を有する形式でコンテンツが供給されることを必要とする。

オートステレオスコピックディスプレイは、他方で、一般に、２より多いビューを必要とする。この理由のため、特定の表示装置は、時系列及び／又は多重化様式の複数のビューを必要とする。国際特許出願ＷＯ２００６／１３７０００は、三次元ビデオデータを符号化する他の方法の一例を与える。画像データを交換するこの特定の方法は、従来の２Ｄ画像、（観察方向における画素の距離を示す）対応する深度画像、及び遮蔽（occlusion）情報の交換を可能にする。このような情報は、"Layered Depth Images", by J. Shade, et al, ACM SIGGRAPH'98, pp.231-242に開示されるような技術を使用して、前記画像の１以上のビューをレンダリングするのに使用されることができる。

多くの異なるフォーマットが、三次元ビデオデータの交換に対して存在しているが、それぞれのフォーマットの特性は、一般に、表示装置の適合された１つのタイプである。

本発明の目的は、三次元ビデオデータの供給を容易化することである。

この目的は、三次元ビデオデータを符号化する方法により解決され、前記方法は、異なる視点からのシーンの複数のビューを符号化するステップと、前記シーンの深度情報を符号化するステップと、前記複数のビューと前記深度情報との間の関係を示す追加情報を符号化するステップと、前記符号化された情報を前記三次元ビデオデータの表現に結合するステップとを有し、前記追加情報は、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される。

本発明は、前記追加情報を用いて、他のビュー（すなわち前記符号化されたデータに存在しない追加のビュー）がレンダリングされるべきである場合に、処理装置又はレンダリング装置に対する前記三次元ビデオデータの使用の仕方の決定を単純化する。そうすることにより、本発明は、より多彩な三次元ビデオデータフォーマットの作成を効果的に可能にする。本発明による方法は、異なる視点からのシーンの少なくとも２つのビューを前記シーンの深度情報と一緒に符号化することを提案する。前記グループ分類子によりビュー情報を前記深度情報に関連付ける前記追加情報を含めることにより、従来のマルチビュー又は画像プラス深度表現より多彩である前記三次元ビデオデータの表現が得られる。実際に、三次元ビデオデータのこの特定の表現は、より多数のディスプレイに対する入力として使用されることができ、前記追加情報に基づいて、更に、画像レンダリングを単純化及び／又は改良することができる。

本発明は、三次元ビデオデータの表現において深度情報とステレオ又はマルチビュー画像との間に関連性が存在するかどうかを示す前記追加情報内の前記グループ分類子を提供することを提案する。結果として、三次元ビデオデータのこのような表現を受け取る処理装置は、このような関連性が存在しない場合に両方のソースを混合することによる品質の劣化を防ぐのにこの情報を使用することができる。更に、関連性が存在する場合、前記追加情報は、他のビューのレンダリング中にビュー情報及び深度情報の使用を可能にすることができる。

一実施例において、前記グループ分類子は、前記深度情報が前記複数のビューの少なくとも２つに存在する視差情報に対応するかどうかを示す情報を有する。このような情報は、複数の符号化されたビューが提供される場合にオートステレオスコピックディスプレイ上の表示に対して追加のビューを合成するか否かを決定する場合に有用でありうる。代替的には、前記深度情報は、例えばステレオ信号と一緒に提供される場合に、前記ステレオ画像におけるサブタイトル挿入に対して使用されることができる。前記深度マップが、前記ビュー情報を表す条件で、前記深度マップは、サブタイトル情報が表示されることができる前記シーン内の場所を決定する追加情報を提供するので、サブタイトル挿入又は画面表示（ＯＳＤ）生成中に使用されることができる。

前記深度情報が、前記複数のビューの少なくとも２つに存在する視差情報に対応する場合、前記深度情報から前記視差情報への実際の変換も、提供されることができる。このような情報を利用可能にすることは、更に、サブタイトル挿入に役立つことができる。

他の実施例において、前記追加情報は、前記深度情報の視点と前記複数のビューの少なくとも１つの視点との間の関係を示すビュー分類子を有する。このビュー分類子は、符号化されたマルチビュー画像を、画像プラス深度情報を使用してレンダリングされたビューと結合するのに使用されることができる。後者は、合成されたビューを使用して補足されることができるビュー情報を含むコンテンツが提供される場合に特定の値を持つ。

他の実施例において、前記追加情報は、前記複数のビューの各々及び前記深度情報に対するグループ分類子値を有し、等しいグループ分類子値は、前記深度情報の視点とそれぞれのビューとの間の対応を示す。この情報は、特にビューの視差が前記深度情報に対応するかどうかを示す情報と結合される場合、符号化されたビュー情報を置き換えるように特定のビューをレンダリングするか否かを選択するのに使用されることができる。

他の実施例において、前記追加情報は、二次元でのみ表示装置上で三次元ビデオ信号をレンダリングする好適なビューを示す情報を有する。

他の実施例において、前記追加情報は、前記複数のビュー及び前記深度ビュー内の１以上の空間領域に対する前記複数のビューと前記深度情報との間の関係を示す情報を符号化する。前記ビュー全体よりむしろ、又はこれを補完する１以上の空間領域に対する追加情報を提供することにより、本発明は、前記領域を個別に、すなわち、より細かい粒度でアドレスすることができる。

前記追加情報は、前記画像の空間領域に関連付けられたラベルとして与えられることができる。このような空間領域は、ラベルづけされたセグメントであることができ、この場合、セグメント記述も必要とされる。代替的には、前記ラベルは、基本的な圧縮スキームの要素、例えばマクロ（ブロック）のような既知の画像要素に関連付けられることができる。

より細かい粒の表現は、特に部分画像又は部分深度マップと組み合わせて使用される場合に有用でありうる。前記部分画像及び／又は部分深度マップの使用は、符号化された三次元ビデオデータに対する帯域幅要件の更なる減少を可能にすることができる。

本発明の目的は、更に、三次元ビデオデータを復号する方法において取り組まれ、前記方法は、前記三次元ビデオデータの表現から追加情報を抽出するステップを有し、前記追加情報が、異なる視点からのシーンの複数のビューと前記シーンの深度情報との間の関係を示し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、前記方法は、グループ分類子が対応関係を示す場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つを使用することにより前記追加情報に基づいて前記三次元ビデオデータをレンダリングするステップを有する。

本発明の目的は、更に、三次元ビデオデータを符号化する装置により取り組まれ、前記装置は、異なる視点からのシーンの複数のビューを符号化する第１のエンコーダと、前記シーンの深度情報を符号化する第２のエンコーダと、前記複数のビューと前記深度情報との間の関係を示す追加情報を符号化する第３のエンコーダと、前記符号化された情報を前記三次元ビデオデータの表現に結合する結合器とを有し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される。

本発明の目的は、更に、三次元ビデオデータを復号する装置により取り組まれ、前記装置は、前記三次元ビデオデータの表現から追加情報を抽出する抽出器を有し、前記追加情報が、異なる視点からのシーンの複数のビューと前記シーンの深度情報との間の関係を示し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、前記装置は、グループ分類子が対応関係を示す場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つを使用することにより前記追加情報に基づいて前記三次元ビデオデータをレンダリングするレンダリング手段を有する。

本発明の目的は、更に、三次元ビデオ信号により取り組まれ、前記信号は、異なる視点からのシーンの符号化された複数のビュー及び前記シーンの符号化された深度情報、並びに前記複数の画像と前記深度情報との間の関係を示す符号化された追加情報を有し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される。記憶装置、例えば記録担体は、前記三次元ビデオ信号を有することができる。

本発明の実施例は、図面を参照して、例としてのみ、記載される。

視差を規定する幾つかの一般的な概念及びパラメータを示す。視差と深度との間の関係を示す。５つのビューを有する視野円錐を提供するオートステレオスコピック表示装置を示す。本発明による三次元ビデオデータを符号化する方法を示す。本発明による三次元ビデオデータを復号する方法を示す。本発明による三次元ビデオデータを符号化する装置及び復号する装置を示す。

三次元ビデオ信号は、２以上の画像又はビューのいずれかを有する従来技術から既知である。前記画像又はビューは、同一のシーンの異なる観察方向から観測された画像又はビューに対応する。典型的には、このようなビューは、表示装置上で同時にレンダリングされる。しかしながら、これらは、人間の目が前記画像を実質的に同時であるように知覚するような多重化様式でレンダリングされることもできる。

例えばシャッタ眼鏡を使用する場合のような、時分割多重化コンテンツレンダリングの場合、これは、一般に、十分に高速での交互の様式で左及び右画像をインタリーブすることを意味する。

典型的には、三次元ビデオ信号は、単一の時間インスタンスにレンダリングする、又は同時と知覚される所定の時間スロット内にレンダリングする少なくとも２つのビューを符号化する。結果として生じるレンダリングされた画像は、この後に、観察者の適切な目に送られる場合に３Ｄ印象を提供する。

ステレオ画像を使用してステレオコンテンツを符号化することは、周知である。しかしながら、ステレオ画像又はより一般的に言うとマルチビュー画像の使用は、１つの重要な不利点を持ち、すなわち、それぞれの画像は、視差関係を固定する。結果として、特にディスプレイが比較的狭い視差範囲をレンダリングすることのみができる場合、これは、幅広い視差範囲を持つ表示装置に対して符号化されたコンテンツをレンダリングする場合に問題を生じうる。

コンテンツ視差を特定のディスプレイにマッチさせるためにマルチビュー画像を処理することが可能であるが、これは、一般に、追加の処理を伴う。

代替的な解決法は、いわゆる画像プラス深度フォーマットで三次元ビデオデータを符号化することである。このフォーマットは、追加のビューが、例えばシーンの前面画像及び対応する深度情報に基づいてレンダリングされることを可能にする。このような情報は、例えば遮蔽データを含むように拡張されることもできる。遮蔽データは、前記前面画像内に示されるシーンが前記符号化された前面画像のもの以外の観察方向から見られる場合に可視になる画像情報（又は深度情報）である。前記遮蔽データは、ビュー情報（例えばＲＧＢ又はＹＵＶ）のみを有することができるが、同様に追加の遮蔽深度情報を含むこともできる。

上記のフォーマットの不利点は、満足のいく３Ｄ体験を知覚することができるために、ビューがレンダリングされる必要があることである。しかしながら、そうすることの利点は、表示装置の視差範囲を考慮に入れることも可能になることである。加えて、サブタイトル、メニュー及び／又は他のＯＳＤ情報のような他の情報は、同じプロセスでレンダリングされることができる。

視差及び深度の関係
図１は、視差を規定する一般的な概念及びパラメータを示す。図１は、目距離Ｅだけ離間された両矢印Ｅの端に配置される２つの視点を示す。観察距離Ｚにおいて、点線で表される画面Ｓが、配置され、これは、三次元情報を表示するのに使用される。このような画面は、実際に、例えば、適切なアイウェアを着用した観察者の目に、それぞれの視点に対する適切な画像情報を交互に与える、時間又はスペクトル系列表示であることができる。

図１の画面Ｓは、ゼロ視差に配置される。ゼロ視差に対応する深度に配置された平面対象は、左画像及び右画像において正確に同じ位置に配置され、したがってゼロ視差である。両矢印Ｗは、前記画面の幅を示す。Ｎ（ニア）は、画面Ｓの前の最大知覚深度を表す。同様にＦ（ファー）は、画面Ｓの後ろの最大知覚深度を表す。

線ｄ_Nは、画面Ｓの前のＮに配置された対象の知覚される視差を表し、視差値ｄ_Nは、ここで負であり、交差視差（crossed disparity）とも称され、
ｄ_N＝Ｎ×Ｅ／(Ｚ−Ｎ) ［１］
と表されることができる。

線ｄ_Fは、画面Ｓの後ろのＦに配置された対象の知覚される視差を表し、視差値ｄ_Fは、ここで正であり、非交差視差とも称され、
ｄ_F＝Ｆ×Ｅ／(Ｚ＋Ｆ) ［２］
と表されることができる。

実際に、前記最大視差は、快適な観察を可能にするように目距離Ｅを下回るべきである。実際に、前記最大視差は、好ましくは、人々の間の目距離の変動を可能にするように平均目距離Ｅより下の値にセットされる。

図１は、例えば位置Ｆ又はＮに配置された対象に対して、視差に対する深度の関係を示す。式１及び２に見られるように、視差は、深度に反比例する。

図２は、更に、ステレオ画像内の視差及び深度の関係を説明し、更に、これを深度に関連付ける。ステレオ画像の対に対する視差は、典型的には、基準に対して決定される。典型的には、この基準は、前記画像の１つである。

図２は、ステレオ画像の対及び深度マップを示す。典型的には、前記ビュー情報は、ここに示される左画像及び右画像のような、複数の画像を有する。図２は、対応する深度情報を有する画像を示す。この例において、全ての画像は、同じ解像度で提示される。しかしながら、左及び／又は右画像及び／又は深度画像の１つが低い解像度であり、これにより三次元ビデオデータの要求されるフットプリントを減少させることは、珍しくない。明確性のため、ここで、全ての画像及び深度画像は、等しいサイズであると見なされる。

次に、深度と視差との間の関係は、図２の左及び右画像を使用して更に説明される。前記左画像は、ここで、視差を決定する基準画像として使用される。

画像Ｌは、２つの平面対象、暗い四角形１１０及び明るい円１０５を有する左目に対する画像を表す。前記明るい円は、前記暗い四角形を部分的に遮蔽し、前記暗い四角形の前に配置されていることを示す。画像Ｒは、同じ平面対象、暗い四角形１１０'及び明るい円１０５'を有する右目に対する画像を表す。

前記左及び右画像の両方において、暗い四角形１１０、１１０'は、同じ位置に配置される。これは、この対象が、いわゆるゼロ視差面に配置されることを意味する。白い円１０５、１０５'は、黒い四角形の前に配置される。結果として、右目画像内の前記白い円は、ｎ画素だけ左に変位したように見える。

図２の画像Ｄは、前記それぞれの画像に対する視差に基づく対応する深度マップを表す。この深度マップにおける深度は、トーンが明るいほど、前記左画像の部分が前記観察者に近いように符号化される。円１０５"は、最も明るく、前記観察者に最も近い。ゼロ視差にある部分的に遮蔽された四角形１１"は、グレイトーン上にマッピングされる。背景は、黒として符号化される。

ビュー情報及び深度情報の関係
本発明の発明者は、三次元ビデオデータに対する典型的な符号化フォーマットが、複数のビュー又は画像プラス深度データのいずれかの符号化に集中することに気がついた。しかしながら、より多彩な三次元ビデオデータ表現は、マルチビュー信号に深度情報を加え、更に、どれぐらい前記それぞれのビュー情報が前記深度情報に関係するかを示す追加情報を加えることにより得られることができる。

後者は必要とされないが、これは、前記三次元ビデオデータを復号及びレンダリングする場合に有用な情報を提供する。

以下に追加情報の一連の例が示され、論じされる。前記例において、前記追加情報は、グループ分類子及びビュー分類子を使用して符号化される。しかしながら、符号化のこの特定の様式が好適であるが、唯一の可能な符号化であると解釈されるべきでないことに注意すべきである。

以下で使用されるグループ分類子は、ビュー画像又は深度画像が同じ視差／深度ソース材料に関するか否かを示す。これに関して、マルチビューカメラを使用して記録された画像は、関連したソース材料を表すと見なされ、したがって、同じグループ分類子を受け取る。同様に、ステレオ対から得られた視差に基づく深度画像も、同じグループ分類子を受け取る。しかしながら、ユーザ分類に基づいて構築されたような手製（hand-made）深度マップは、同じグループ分類子を受け取らない。

以下で使用されるビュー分類子は、前記画像の観察方向を示す。例えば、ステレオ対を符号化する場合、前記ビュー分類子は、典型的には０及び１であり、これにより右の視点が特定の（水平）角度だけオフセットされることを示す。しかしながら、これらは、他の中心ビューに対して示されることもでき、この場合、それぞれ−１／２及び＋１／２であると示される。同様に、５ビューディスプレイに対するビューは、ビュー分類子０、１、２、３及び４又は代替的にー２、−１、０、１及び２を持つように分類されることができる。

図３は、オートステレオスコピックディスプレイによりレンダリングされる視野円錐を示す５ビューオートステレオスコピックディスプレイの上面図の概略的表現を提供する。５つのビュー２０１、２０２、２０３、２０４及び２０５の各々は、特定の観察方向内で可視である。前記ビューの各々は、特定の角度で方向的にオフセットされる。加えて、これらのビューの各々に対する前記ビュー分類子は、Ｖ＝−２からＶ＝＋２までの範囲を取るように前記画像内に示されている。

表１、ステレオプラス深度。

表１は、ステレオ及び深度情報を両方とも有する三次元ビデオデータ内のビュー及び深度情報の関係を示す追加情報エントリの一例を提供する。表１内のグループ分類子は、全ての深度情報及び視差情報が、同じソース材料に対応することを示す。表１内のビュー分類子は、この信号内の深度情報が、Ｉ₀と関連付けられることを示す。結果として、Ｉ₀は、例えば前記信号が５ビューオートステレオスコピックディスプレイ上でレンダリングされる場合に、他のビューをレンダリングするのに深度情報Ｄ₀と併せて画像情報として使用されることができる。

更に、この情報の知識は、前記それぞれのビューの符号化中に及び／又は前記深度情報を符号化する場合に使用されることもできる。

前記５ビューオートステレオスコピックディスプレイの場合に、前記ビューの２つがＩ₀及びＩ₁に対応するならば、追加のビューをレンダリングするよりこれらを使用することが好ましいことは、当業者に明らかである。

上記情報は、特にサブタイトル又は画面表示（ＯＳＤ）情報をレンダリングする場合に、ステレオスコピックディスプレイに対して有利に使用されることもできる。前記深度情報は、この場合、このようなサブタイトル又はＯＳＤ情報を収容する三次元視野空間内の場所が存在するかどうかに関する情報を提供する。

前記グループ分類子により示される対応関係は、正確に、すなわち前記深度が前記視差に反比例することを示すように使用されることができる。しかしながら、典型的には、深度値は、０ないし２５５の範囲の値のような深度範囲上にマッピングされる。この場合、前記深度値は、依然として反比例関係を保つが、効果的に係数によりスケーリングされる。この係数も、符号化されることができる。

深度マップを作成するプロセスにおいて、前記深度情報が視差との反比例関係を保たないような様式で前記深度／視差データを変換することは珍しくはないので、前記グループ分類子は、より自由な様式で使用されることもできる。最も単純な例は、例えば、実際の深度が切り取られる状況である。代替的には、シーン内の全ての情報は、サブタイトルを挿入するヘッドルームを作成するためにわずかに後ろに移動されることができる。加えて、例えば前記深度マップを"圧縮"する際に人間視覚系の特性を利用する非線形変換が、使用される。変換が使用された場合に、前記変換及び／又は逆変換を記述する情報を追加的に記憶することは有益でありうる。

表２、ステレオプラス手製深度。

表２は、ステレオプラス手製深度情報を有する三次元ビデオデータ内のビュー情報の関係を示す追加情報エントリの他の例を示す。

表２のグループ分類子は、前記信号が、視差／深度情報の２つの対応しないソースを有することを示す。実際に、前記三次元ビデオデータ内の深度情報Ｄ₀は、全体的に異なる視差／深度情報に基づきうる。しかしながら、前記ビュー分類子は、Ｄ₀のビューがＩ₀のものに対応することを示し、これは、Ｉ₀が新しいビューをレンダリングするのにＤ₀と一緒に使用されることができることを示す。

上記のフィールドを持つ三次元ビデオデータの表現が、ステレオスコピックシャッタ眼鏡ベースディスプレイにおいてレンダリングされる場合に、好ましくは、画像Ｉ₀及びＩ₁が、レンダリングプロセスにおいて使用される。しかしながら、このようなコンテンツが５ビューオートステレオスコピックディスプレイ上でレンダリングされる場合に、好ましくは、Ｉ₁が、未使用のままであり、全てのビューが、Ｉ₀及びＤ₀に基づいてレンダリングされる。異なる深度／視差情報に基づいているＩ₁は、人間視覚系により解釈される場合に合成／レンダリングされた画像内のものと相反する深度キューを提供しうる。

表３、ステレオプラス中途（half-way）深度。

表３は、ステレオプラス手製深度情報を有する三次元ビデオデータ内のビュー情報の関係を示す追加情報エントリの他の例を提供する。この例において、ステレオビューは、それぞれＩ₀及びＩ₁画像に対してコード化されるが、深度情報Ｄ₀は、それぞれ左ビューの視角と右ビューの視角との間の中心にある視角からの画像に対してコード化される。左及び右が中心画像に対して等しく変位されるという事実により、単一の深度マップが、Ｉ₀及びＩ₁画像のいずれか一方及びＤ₀に基づいて画像を合成するのに十分である。

表４、ステレオプラス視差ベース及び手製深度。

表４は、ステレオプラス視差に基づく深度情報及び手製深度情報を有する三次元ビデオデータ内のビュー情報の関係を示す追加情報エントリの例を提供する。

非慣習的な２つの深度マップが、ここで与えられるが、Ｄ₀及びＤ₁両方が、Ｉ₀のビューに関連付けられ、両方が、他のビューの合成を可能にする。２つの完全な深度マップを提供することにより、又は１つの完全な深度マップ及び１つの部分的な深度マップを提供することにより、追加の深度情報が提供されることができる。

深度情報Ｄ₁は、例えば、３Ｄ効果に関することができる。この深度情報は、この後に、ディスプレイ上の視覚化に対してＩ₀に基づいて画像を合成するのに使用されることができる。しかしながら、深度情報Ｄ₁が、Ｉ₀と同じグループの一部ではないので、前記合成された画像は、対Ｉ₀及びＩ₁に存在する深度情報とは異なる深度情報を提供しうる。

以上に示された２つの深度マップＤ₀及びＤ₁を使用する代わりに、単一のビューに対する全ての深度値を有する単一の深度マップを使用し、これを、前記深度／視差がＩ₀及びＩ₁内の深度／視差に対応するか否かを示すようにバイナリマスクと一緒に使用することが可能でありうる。

上で示されたバイナリマスクは、画素単位で（又は代替的には、より大きなスケール、例えばマクロブロックレベルで）特定の領域が同じグループ及び／又はビューに属するかどうかにフラグを立てることを可能にする。

同じ情報は、領域とグループ／ビューとの間の関連を示す他の表現で表されてもよい。例えば、ビットマップを使用する代わりに、同じ情報は、ラベルづけされた画像セグメントを使用して及び／又は例えば（マクロ）ブロックのような基本的な圧縮スキームにおいて使用されるラベルづけされた要素を使用して表されることができる。このようにして、より細かい粒の表現が、提供されることができる。

より細かい粒の表現は、部分画像又は部分深度マップと組み合わせて使用される場合に特に有用でありうる。部分画像及び／又は部分深度マップの使用は、コード化された三次元ビデオデータに対する帯域幅要件の更なる減少を可能にすることができる。更に、ＯＳＤ又はサブタイトルのようなアプリケーションは、典型的には、部分画像のみを必要とする。

上記のように、画像の部分を特定のビュー若しくはグループ分類子又は更に他の分類子と関連付ける追加情報が、提供されうる。前記画像の空間領域に対してこのような情報を提供することにより、本発明は、画像レベルより低い粒度において使用されることができる。

前記追加情報が、典型的には、三次元ビデオ信号の符号化に存在するので、前記情報は、圧縮器が、例えばＤ₀及びＩ₀に基づいてＩ₁を予測することにより、例えばＤ₀がＩ₁のデータ圧縮を改良するのに使用されることができるかどうかを決定することを可能にするので、圧縮を援助する。

表５、マルチビュープラスマルチ深度。

表５は、マルチビュー情報及び複数の深度マップを有する三次元ビデオデータ内のビュー情報の関係を示す追加情報エントリの他の例を提供する。

前記グループ分類子により示されるように、深度／視差情報が対応している。したがって、前記深度情報は、代替画像をレンダリングするのに使用されることができる。加えて、２組の深度情報が符号化され、Ｉ１及びＤ０が、同じビューを符号化し、Ｉ２及びＤ１が、同じビューを符号化する。加えて、前記追加情報は、いずれのビューが、それぞれの深度情報を使用して好適にレンダリングされるのかを示す情報を提供することができ、ここで括弧内に示される。

既に示されたように、前記複数の画像と前記深度情報との間の関係を示す前記追加情報は、上に示されたタイプ及びフォーマットに制限されない。

例えば、前記三次元ビデオデータが、左及び右ビューの少なくとも一方とともに使用するために符号化された深度情報及びステレオ信号を有する本発明の特定の単純な実施例において、前記追加情報は、前記深度情報が前記ステレオ対の左ビューと右ビューとの間の画像視差に基づくかどうかを示す単一のビットであることができる。

この単一のビットは、例えば他のビットの形式で、他の追加情報により補足されてもよく、前記他の追加情報は、前記深度情報が前記画像内の視差と所定の様式で対応するかどうかを示す。同様に、更に他のビットは、前記ステレオ対のいずれのビューが、視差を決定する基準画像として使用されるかを示してもよい。このビットは、いずれのビューが前記ビデオ信号の二次元表現をレンダリングするのに好適に使用されるかを示すのに使用されてもよい。

以上に、主として、ビュー情報及び深度情報が記載されているが、特定のビューに対して、存在する場合に、例えば遮蔽情報に関する、より多くの情報が追加されてもよい。

図４は、三次元ビデオデータを符号化する方法のブロック図を提供する。前記方法は、異なる視点からのシーンの複数のビューを符号化するステップ３０５を有する。実際に、このような符号化は、必ずではないが、圧縮を有することができる。典型的には、前記符号化の結果は、符号化されたビュー情報であり、これは、特定のコード化フォーマットに依存しうる。前記方法は、前記シーンの深度情報を符号化するステップ３１０を更に有する。前記深度情報は、前記それぞれのビューの視差情報から部分的に算出されることができるが、代替的には、例えば距離計又は（半）手動深度マップ生成のような他の入力に基づいてもよい。前記方法は、前記複数の画像と前記深度情報との間の関係を示す追加情報を符号化するステップ３１５を更に有する。

ここで、特定の好適な実施例において、この追加情報が、前記ビュー情報及び／又は深度情報の符号化に使用されてもよいことに注意する。実際に、特に圧縮を実行する場合、有利に圧縮を援助するのに前記深度情報を使用することも可能でありうる。

前記追加情報は、以上に記載された情報を有することができる。前記ブロック図に示されるように、前記方法の様々なステップは、並列に実行されてもよく、又はデータ依存の場合、例えば図４の破線により示されるように前記生成された追加情報を使用する場合、これは、順次的に実行される又はパイプライン型であることができる。

前記方法は、前記符号化された情報が前記三次元ビデオデータの表現に結合されるステップを更に有する。この表現は、例えば、２地点間リンクを使用して又はネットワーク情報の放送を用いて、他の装置に転送するための電子信号であることができる。代替的には、この表現は、コンピュータ間で画像又はビデオファイルを記憶又は交換するファイルシステム内のファイルであることができる。

前記三次元ビデオデータの表現は、記憶装置（例えば以下に記載される記憶装置５２５）に記憶されることができる。特に、前記三次元ビデオ信号は、インターネットのようなネットワークに結合されたサーバに、放送局により配信用の記憶システムに、記録装置により記憶媒体に、又はＤＶＤ又はＢｌｕ−ｒａｙディスクのような記録担体を製造するオーサリング及び／又は製造システムを介して複数のメディアに記憶されることができる。前記追加情報は、記憶プロセスの様々な段階において前記三次元ビデオ信号に及び／又は前記記憶媒体に含められることができる。前記記録担体の製造プロセスは、前記追加情報を含む前記３Ｄビデオ信号を具体化するトラック内のマークの物理的パターンを提供するステップと、少なくとも１つの記憶層に前記マークのトラックを提供するように前記記録担体の材料を成形するステップとを更に有することができる。

図５は、三次元ビデオデータを復号する方法のブロック図を示す。ここに示される前記方法は、前記三次元ビデオデータの表現から追加情報を抽出するステップ４０５を有する。前記追加情報は、異なる視点からのシーンの複数のビューと前記シーンの深度情報との間の関係を示す。前記方法は、前記追加情報及び前記複数のビューの少なくとも１つ及び前記深度情報に基づいて前記三次元ビデオデータをレンダリングするステップ４１０を更に有する。

前記復号する方法は、好ましくは、前記複数のビュー及び前記深度情報を使用してレンダリングすることを含む。本発明によって提供される前記追加情報は、左及び右画像をレンダリングする場合に有用であることもできる。例えば、シャッタ眼鏡ベースのステレオスコピック表示装置においてレンダリングするために前記三次元ビデオデータを復号する場合、前記深度情報は、三次元シーン内にＯＳＤ情報を挿入する最良の位置を決定するのに使用されることができる。

しかしながら、他の応用において、前記追加情報は、前記表現内で提供された前記複数のビューをレンダリングするか否かを決定する、又は（オプションとして）ビュー及び深度情報の両方に基づいて追加ビューをレンダリングするのに有利に使用されることができる。

図６は、本発明による三次元ビデオデータを符号化する装置５８０及び三次元ビデオデータをレンダリングする装置５８５を有するブロック図を示す。

三次元ビデオデータを符号化する装置５８０は、異なる視点からのシーンの複数のビュー５０１を符号化する第１のエンコーダ５０５と、前記シーンの深度情報を符号化する第２のエンコーダ５１０と、前記複数の画像及び前記深度情報との間の関係を示す追加情報を符号化する第３のエンコーダ５１５とを有する。オプションとして、前記第３のエンコーダは、上に記載されたように前記第１の及び／又は第２のエンコーダにおいて使用する情報５１１を出力することができることに更に注意する。

この特定の図に示された実施例において、第２のエンコーダ５１０は、複数のビュー５０１以外の入力データ５０３を受け取る。この入力は、例えば、手動深度マップ生成プロセスからの結果であることができ、代替的には、複数のビュー５０１を使用する外部深度マップ生成装置により生成された入力でありうる。

第１、第２及び第３のエンコーダ５０５、５１０及び５１５のそれぞれの出力５０５、５０７及び５０９は、この後に、結合器５２０により前記三次元ビデオデータの表現５１３に結合される。前記結合器が、前記三次元ビデオデータのファイル表現を生成する場合、前記結合器は、コンピュータの中央処理ユニット（ＣＰＵ）上で実施されることができる。代替的には、前記表現が、電子信号である場合、前記結合器は、デジタル・アナログコンバータ及び例えばラインドライバ回路を更に有することができる。

表現５１３は、記憶装置５２５に記憶されてもよく又は代替的には他の装置にネットワーク５３０上で転送されることができる。前記他の装置は、例えば、三次元ビデオデータを復号する装置５８５であることができる。装置５８５は、前記三次元ビデオデータの表現５１３から異なる視点からのシーンの複数のビューと前記シーンの深度マップとの間の関係を示す追加情報を抽出する抽出器５３５を有する。前記抽出器は、例えばコンピュータのＣＰＵ上で、又は代替的には前記コンピュータ内の他の処理ユニット上で実施されることができる。表現５１３が、特定のファイルフォーマットのファイルである場合、前記抽出器は、例えば、表現５１３から関連するフィールド又はストリームを抽出するデマルチプレクサ又はパーサを有することができる。

装置５８５は、前記追加の情報及び前記複数のビューの少なくとも１つ及び前記深度情報に基づいて前記三次元ビデオデータをレンダリングするレンダリング手段５４０を更に有する。前記レンダリング手段は、例えば画像及び深度情報に基づいてオートステレオスコピック表示装置に表示する複数のビューをレンダリングするソフトウェアレンダリングスタックを有することができる。

上記記載が、明確性のために、異なる機能ユニット及びプロセッサを参照して本発明の実施例を記載していると理解される。しかしながら、異なる機能ユニット又はプロセッサ間の機能の如何なる適切な分散も本発明から逸脱することなしに使用されることができることは、明らかである。例えば、別個のプロセッサ又はコントローラにより実行されるように示された機能は、同じプロセッサ又はコントローラにより実行されてもよい。したがって、特定の機能ユニットの参照は、厳密な論理又は物理構造又は組織を示すのではなく記載された機能を提供する適切な手段の参照と見なされるだけである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせを含む如何なる適切な形式でも実施されることができる。本発明は、オプションとして、１以上のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実施されることができる。本発明の実施例の要素及びコンポーネントは、如何なる適切な形でも物理的に、機能的に及び論理的に実施されることができる。実際に、機能は、単一のユニットにおいて、複数のユニットにおいて、又は他の機能ユニットの一部として実施されてもよい。このように、本発明は、単一のユニットで実施されてもよく、又は異なるユニット及びプロセッサ間に物理的に及び機能的に分散されてもよい。

本発明は、幾つかの実施例に関連して記載されているが、ここに記載された特定の形式に限定されること意図されない。むしろ、本発明の範囲は、添付の請求項によってのみ限定される。加えて、フィーチャは、特定の実施例に関連して記載されるよう見えるかもしれないが、当業者は、記載された実施例の様々なフィーチャが、本発明によって結合されてもよいことを認識する。請求項において、用語有するは、他の要素又はステップの存在を除外しない。

更に、個別にリストされているが、複数の手段、要素又は方法ステップは、例えば単一のユニット又はプロセッサにより実施されてもよい。加えて、個別のフィーチャは、異なる請求項に含められることができるが、これらは、有利に結合されることができ、異なる請求項における包含は、フィーチャの組み合わせが実行可能及び／又は有利ではないことを意味しない。また、請求項の１つのカテゴリにおけるフィーチャの包含は、このカテゴリに対する限定を意味せず、むしろ前記フィーチャが適切に他の請求項カテゴリに同等に適用可能であることを示す。更に、請求項内のフィーチャの順序は、前記フィーチャが動作されなくてはならない特定の順序を意味せず、特に方法請求項内の個別のステップの順序は、前記ステップがこの順序で実行されなくてはならないことを意味しない。むしろ、前記ステップは、如何なる適切な順序でも実行されることができる。加えて、単数形は、複数を除外しない。したがって、"１つの"（"a"、"an"）、"第１の"、"第２の"等は、複数を除外しない。請求項内の参照符号は、単に明確化する例として提供され、いかなる形にも請求項の範囲を限定するように解釈されるべきでない。

Claims

三次元ビデオデータを符号化する方法において、前記方法が、
異なる視点からのシーンの複数のビューを符号化するステップと、
前記シーンの深度情報を符号化するステップと、
前記複数のビューと前記深度情報との間の関係を示す追加情報を符号化するステップと、
前記符号化された情報を前記三次元ビデオデータの表現に結合するステップと、
を有し、
前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される、
方法。
前記グループ分類子は、前記深度情報が前記複数のビューの少なくとも２つに存在する視差情報に対応するかどうかを示す情報を有する、請求項１に記載の方法。
前記追加情報が、どれだけ前記深度情報が前記複数のビューの少なくとも２つに関連しているかを示す、請求項２に記載の方法。
前記追加情報が、前記複数のビューの少なくとも２つに存在する視差情報と前記深度情報との間の関係を示す変換情報を有する、請求項１ないし３のいずれか一項に記載の方法。
前記追加情報が、前記深度情報の視点と前記複数のビューの少なくとも１つの視点との間の関係を示すビュー分類子を有する、請求項１ないし４のいずれか一項に記載の方法。
前記追加情報が、前記深度情報及び前記複数のビューの各々に対するグループ分類子値を有し、等しいグループ分類子値が、それぞれの前記ビューの視点と前記深度情報の視点との間の対応を示す、請求項１に記載の方法。
前記追加情報が、二次元ディスプレイにおいて前記三次元ビデオ信号をレンダリングするための好適なビューを示す情報を有する、請求項１に記載の方法。
前記追加情報が、前記複数のビュー及び前記深度情報内の１以上の空間領域に対する前記複数のビューと前記深度情報との間の関係を示す情報を符号化する、請求項１ないし３のいずれか一項に記載の方法。
三次元ビデオデータを復号する方法において、
前記三次元ビデオデータの表現から追加情報を抽出するステップであって、前記追加情報が、異なる視点からのシーンの複数のビューと前記シーンの深度情報との間の関係を示し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有する、当該抽出するステップと、
グループ分類子が対応を示す場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つを使用することにより前記追加情報に基づいて前記三次元ビデオデータをレンダリングするステップと、
を有する方法。
前記グループ分類子が、前記深度情報が前記複数のビューの少なくとも２つに存在する視差情報に対応するかどうかを示す情報を有する、請求項９に記載の方法。
三次元ビデオデータを符号化する装置において、
異なる視点からのシーンの複数のビューを符号化する第１のエンコーダと、
前記シーンの深度情報を符号化する第２のエンコーダと、
前記複数のビューと前記深度情報との間の関係を示す追加情報を符号化する第３のエンコーダと、
前記符号化された情報を前記三次元ビデオデータの表現に結合する結合器であって、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される、当該結合器と、
を有する装置。
三次元ビデオデータを復号する装置において、
前記三次元ビデオデータの表現から追加情報を抽出する抽出器であって、前記追加情報が、異なる視点からのシーンの複数のビューと前記シーンの深度情報との間の関係を示し、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有する、当該抽出器と、
グループ識別子が対応を示す場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つを使用することにより前記追加情報に基づいて前記三次元ビデオデータをレンダリングするレンダリング手段と、
を有する装置。
異なる視点からのシーンの符号化された複数のビューと、
前記シーンの符号化された深度情報と、
前記複数の画像と前記深度情報との間の関係を示す符号化された追加情報であって、前記追加情報が、前記深度情報及び前記複数のビューの少なくとも１つが同じソース材料に対応するか否かを示すグループ分類子を有し、対応する場合に、他の異なる視点からの前記シーンの他のビューをレンダリングするのに前記深度情報及び前記複数のビューの少なくとも１つが使用される、当該符号化された追加情報と、
を有する三次元ビデオ信号。
請求項１３に記載の三次元ビデオ信号を有する記憶装置。
請求項１ないし１１のいずれか一項に記載の方法を実行するプログラム命令を有するコンピュータプログラム。