JP2023507586A

JP2023507586A - ３ｄｏｆ構成要素からの６ｄｏｆコンテンツを符号化、復号化、及びレンダリングするための方法及び装置

Info

Publication number: JP2023507586A
Application number: JP2022537568A
Authority: JP
Inventors: サーモン－レガニュール、シャルル; タイービ、シャーリーン; ルー、ジャンル; トラヴァート、セルジュ
Original assignee: インターデイジタルヴィーシーホールディングスインコーポレイテッド
Priority date: 2019-12-19
Filing date: 2020-12-18
Publication date: 2023-02-24
Also published as: MX2022007724A; CN114830668A; EP4078971A1; WO2021127419A1; US20230032599A1

Abstract

容積コンテンツは、エンコーダによってクラスタのセットとして符号化され、容積コンテンツを取得するデコーダに送信される。異なる視点に共通するクラスタが取得され、相互化される。クラスタは、２Ｄ画像上に投影され、独立したビデオストリームとして符号化される。視覚的アーチファクト、並びに記憶及びストリーミングのためのデータが低減される。【選択図】図１１

Description

本原理は、概して、三次元（three-dimensional、３Ｄ）シーン及び容積ビデオコンテンツのドメインに関する。本文書はまた、モバイルデバイス又はヘッドマウントディスプレイ（Head-Mounted Display、ＨＭＤ）などのエンドユーザデバイス上の容積コンテンツのレンダリングのための、テクスチャ及び３Ｄシーンの幾何学的形状を表すデータの符号化、フォーマット化及び復号化の文脈において理解される。

本節は、以下に説明及び／又は特許請求される本原理の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本原理の様々な態様のより良好な理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。

近年、利用可能な大きな視野コンテンツ（最大３６０°）の成長があった。そのようなコンテンツは、ヘッドマウントディスプレイ、スマートグラス、ＰＣスクリーン、タブレット、スマートフォンなどの没入型表示デバイス上のコンテンツを視聴するユーザによって完全には見えない可能性がある。これは、所与の瞬間に、ユーザがコンテンツの一部のみを視認することができることを意味する。しかしながら、ユーザは、典型的には、頭部の動き、マウスの動き、タッチスクリーン、音声などの様々な手段によって、コンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化及び復号化することが望ましい。

３６０°フラットビデオとも呼ばれる没入型ビデオにより、ユーザは、静止点の周りの頭部の回転を通じて自身の周りの全てを視聴することができる。回転は、３自由度（3 Degrees of Freedom、３ＤｏＦ）体験のみを可能にする。例えば、３ＤｏＦビデオが、ヘッドマウントディスプレイデバイス（ＨＭＤ）を使用した第１の全方向性ビデオ体験に十分である場合であっても、例えば視差を体験することによって、より多くの自由度を期待する視聴者にとって、３ＤｏＦビデオは即座に苛立たしいものになる可能性がある。更に、３ＤｏＦはまた、ユーザが頭部を回転させるだけでなく、頭部を３方向に並進させるために、３ＤｏＦビデオ体験で再現されない並進のために、めまいを誘発し得る。

大きな視野コンテンツは、とりわけ、三次元コンピュータグラフィック画像シーン（three-dimension computer graphic imagery scene、３ＤＣＧＩシーン）、点群又は没入型ビデオであり得る。そのような没入型ビデオを設計するために多くの用語が使用され得る。例えば、仮想現実（Virtual Reality、ＶＲ）、３６０、パノラマ、４πステラジアン、没入型、全方向性又は大きな視野。

容積ビデオ（６自由度（6 Degrees of Freedom、６ＤｏＦ）ビデオとしても既知である）は、３ＤｏＦビデオの代替物である。６ＤｏＦビデオを視聴するとき、回転に加えて、ユーザはまた、視聴されたコンテンツ内で頭部を、更には自身の身体を並進させ、視差及び更には容積を体験することができる。そのようなビデオは、没入の感覚及びシーン深度の知覚を大幅に増加させ、頭部並進中に一貫した視覚的フィードバックを提供することによって、めまいを防止する。コンテンツは、目的のシーンの色及び深度の同時記録を可能にする専用センサの手段によって作成される。写真測量技術と組み合わせたカラーカメラのリグの使用は、技術的な困難が残っている場合でも、そのような記録を実行する方法である。

３ＤｏＦビデオは、テクスチャ画像（例えば、緯度／経度投影マッピング又は正距円筒図法マッピングに従って符号化された球形画像）のアンマッピングから生じる一連の画像を含むが、６ＤｏＦビデオフレームは、いくつかの視点から情報を埋め込む。それらは、三次元捕捉から生じる時間的一連の点群として視認することができる。視聴条件に応じて、２種類の容積ビデオを考慮することができる。１つ目（すなわち、完全な６ＤｏＦ）は、ビデオコンテンツ内の完全な自由ナビゲーションを可能にするが、２つ目（３ＤｏＦ＋として知られる）は、ユーザ視認空間を視認境界ボックスと呼ばれる限られた容積に制限し、頭部及び視差体験の制限された並進を可能にする。この第２の文脈は、着座したオーディエンスメンバーの自由ナビゲーションと受動的視聴条件との間の貴重なトレードオフである。

しかしながら、情報が欠落しているゾーンなどのレンダリングアーチファクトが、３ＤＯＦ＋容積レンダリング体験中に現れる場合がある。レンダリングアーチファクトを低減する必要がある。

３ＤｏＦ＋レンダリング体験では、ユーザは視点を視認境界ボックス内で移動させることができる。これは、視認境界ボックス内の複数の視点から３Ｄシーンを符号化することによって達成される。視認境界ボックス内の複数の視点について、これらの視点から３６０度内に可視である点が投影されて、３Ｄシーンの２Ｄ投影を取得する。これらの２Ｄ投影は、ＨＥＶＣ（高効率ビデオコーディング）などの周知のビデオコーディング技術を使用して符号化され、ネットワーク上で送信される。

ユーザ体験の品質は、所与の視認境界ボックスの３Ｄシーンを符号化するときに考慮される視点の数に依存する。視点数を増やすことにより、アーチファクトを削減することができる。

しかしながら、視点数を増やすことによって、容積ビデオに対応するデータ負荷の量が増加し、記憶及び転送に影響を与える。

更に、ユーザが視認境界ボックスから隣接視認境界ボックスに大きな振幅の移動を行うと、隣接視認境界ボックスに関連付けられたデータをレンダリングのために取得する必要がある。データ負荷が大きい場合、コンテンツを取得してレンダリングするための待ち時間がユーザに対して知覚可能となるリスクがある。

ユーザにシームレスなナビゲーション体験を提供しながら、３ＤｏＦ＋容積ビデオに対応するデータ負荷を最小限に抑える必要がある。

以下は、本原理のいくつかの態様の基本的な理解を提供するための本原理の簡略化された概要を提示する。この概要は、本原理の広範な概要ではない。本原理の重要な又は重大な要素を特定することは意図されていない。以下の概要は、以下に提供されるより詳細な説明の前置きとして簡略化された形態で、本原理のいくつかの態様を単に提示するに過ぎない。

１つ以上の実施形態によれば、３Ｄシーンに関連する容積コンテンツを符号化するための方法及びデバイスが提供される。この方法は、
少なくとも１つのクラスタリング基準に従って、３Ｄシーン内の点を複数のクラスタにクラスタリングすることと、
投影パラメータに従ってクラスタを投影して、２Ｄ画像のセットを取得することと、
２Ｄ画像のセット及び投影パラメータをデータストリームのセットに符号化することと、を含む。

一実施形態によれば、２Ｄ画像のそれぞれが、別個のデータストリームで符号化される。別の実施形態では、視認ボックスが、３Ｄシーン内で定義され、視認ボックス内の２つの視点から可視であるクラスタを投影することによって得られた２Ｄ画像が、同じデータストリームで符号化される。別の実施形態では、２つの視認ボックスが、３Ｄシーン内で定義され、２つの視認ボックスのそれぞれ内の２つの視点から可視であるクラスタを投影することによって得られた２Ｄ画像が、同じデータストリームで符号化される。

本開示はまた、３Ｄシーンを復号化するための方法及びデバイスに関する。この方法は、
データストリームのセットから少なくとも１つの２Ｄ画像を取得することであって、２Ｄ画像が、３Ｄシーン内の点の少なくとも１つのクラスタの投影パラメータに従った投影を表し、点のクラスタ内の点が少なくとも１つのクラスタリング基準を満たす、取得することと、
投影パラメータ及び３Ｄシーン内の視点に従って、少なくとも２Ｄ画像の画素を逆投影することと、を含む。

一実施形態では、本方法は、
メタデータを取得することであって、メタデータが、
３Ｄシーンに定義された視認ボックスのリストと、
視認ボックスについて、視認ボックスの視点から可視である３Ｄ点のクラスタを表す２Ｄ画像を符号化するデータストリームの記述と、を含む、取得することと、
当該視点から可視である３Ｄ点のクラスタを含むデータストリームから２Ｄ画像を復号化することと、を更に含む。

本開示はまた、少なくとも１つのプロセッサに、少なくとも符号化方法のステップ、及び／又は復号化方法、及び／又はレンダリング方法、並びに／又は上記の受信方法を実行させるための命令を記憶する媒体に関する。

本開示は、より良好に理解され、以下の説明を読むと、他の特定の特徴及び利点が明らかになり、本明細書は、添付の図面を参照する。
本原理の非限定的な実施形態による、３Ｄモデルに対応するオブジェクト及び点群の点の三次元（３Ｄ）モデルを示す。本原理の非限定的な実施形態による、３Ｄシーンのシーケンスを表すデータの符号化、送信、及び復号化のための符号化デバイス、送信媒体、及び復号化デバイスの一例を示す。本原理の非限定的な実施形態による、図１４及び図１５に関連して説明される符号化及び／又は復号化方法を実施するように構成され得る符号化及び／又は復号化デバイスのアーキテクチャの一例を示す。本原理の非限定的な実施形態による、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の一実施形態の一例を示す。いくつかのオブジェクトを含む３Ｄシーンを示す。３ＤｏＦ＋レンダリングに関して、３Ｄシーンが行われる三次元空間における３ＤｏＦ＋視認境界ボックスの概念を示す。容積レンダリングによって可能になる視差体験を示す。視差体験及び脱遮蔽効果を示す。本原理の非限定的な実施形態による容積情報を構造化するための方法を示す。本原理の非限定的な実施形態による、３Ｄシーンを複数の点のクラスタにクラスタリングするために使用される方法の一例を示す。本原理の非限定的な実施形態による、３Ｄシーンの２Ｄパラメータ化を示す。本原理の非限定的な実施形態による、クラスタを有する３Ｄシーンの上面図の例を示す。本原理の非限定的な実施形態による、クラスタを有する３Ｄシーンの上面図の例を示す。本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツを符号化するための方法を示す。本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツを復号化するための方法を示す。本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツをレンダリングするための方法を示す。本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツを受信するための方法を示す。

本原理は、添付の図面を参照して以下により完全に説明され、本原理の例が示されている。しかしながら、本原理は、多くの代替形態で具体化され得、本明細書に記載の実施例に限定されるものとして解釈されるべきではない。したがって、本原理は、様々な修正及び代替的な形態の余地があるが、その具体的な例は、図面の例として示され、本明細書において詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、反対に、本開示は、特許請求の範囲によって定義される本原理の趣旨及び範囲内にある全ての修正、均等物及び代替物を網羅することであることを理解されたい。

本明細書で使用される用語は、特定の実施例のみを説明する目的のためであり、本原理を限定することを意図するものではない。本明細書で使用される場合、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈が別途明確に示されない限り、複数形も含むことが意図される。本明細書で使用される場合、「含む（comprises）」、「含む（comprising）」、「含む（includes）」及び／又は「含む（including）」という用語は、記載された特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素及び／又はそれらのグループの存在又は追加を排除しないことが更に理解されるであろう。更に、要素が別の要素に「応答する」又は「接続される」と称される場合、それは、他の要素に直接応答するか、又は他の要素に接続され得るか、又は介在要素が存在し得る。対照的に、要素が他の要素に「直接応答する」又は「直接接続される」と称される場合、介在要素は存在しない。本明細書で使用される場合、「及び／又は」という用語は、関連付けられた列挙された項目のうちの１つ以上の任意の及び全ての組み合わせを含み、「／」と略され得る。

本明細書では、第１、第２などの用語が様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第１の要素は、第２の要素と呼ぶことができ、同様に、第２の要素は、本原理の教示から逸脱することなく、第１の要素と呼ぶことができる。

図の一部は、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、描かれた矢印と反対方向に発生し得ることを理解されたい。

いくつかの例は、各ブロックが、指定された論理機能を実装するための１つ以上の実行可能命令を含む、回路要素、モジュール又はコードの部分を表すブロック図及び動作フローチャートに関して説明される。他の実装では、ブロックに記載された機能は、記載された順序から発生し得ることにも留意されたい。例えば、連続して示されている２つのブロックは、実際には実質的に同時に実行され得るか、又は関与する機能に応じて、ブロックが逆の順序で実行され得る。

本明細書における「一例による」又は「一例における」は、本実施例に関連して説明される特定の特徴、構造又は特性が、本原理の少なくとも１つの実装形態に含まれ得ることを意味する。本明細書の様々な場所における「一例による」又は「一例における」の句の出現は、必ずしも全てが同じ例を指しているわけではなく、別個の又は代替的な実施例では、必ずしも他の実施例と相互に排他的ではない。

特許請求の範囲に現れる参照番号は、単に例示としてのものであり、特許請求の範囲に限定的な影響を及ぼさないものとする。明示的に記載されていないが、本実施例及び変形例は、任意の組み合わせ又は部分的な組み合わせで用いられ得る。

本原理は、３Ｄシーンに関連する容積コンテンツをストリームに符号化するための方法、そのような容積コンテンツをストリームから復号化するための方法、及び言及された復号化方法に従って復号化された容積コンテンツの容積レンダリングのための方法の特定の実施形態に関して説明される。

非限定的な実施形態によれば、３Ｄシーンの点のクラスタリングに基づいて符号化される、及び／又は送信される（例えば、ストリーミングされる）、及び／又は復号化される、及び／又はレンダリングされる３Ｄシーンに関連する容積情報を構造化する方法が開示される。３Ｄシーンを捕捉するために、３Ｄ空間は、３ＤｏＦ＋視認境界ボックスと呼ばれる視認境界ボックスで編成される。異なる３ＤｏＦ＋視認境界ボックスに共通するクラスタが得られる。３ＤＯＦ＋視認境界ボックスの容積コンテンツは、クラスタを使用して符号化される。６ＤｏＦ容積レンダリング体験は、連続する３ＤｏＦ＋容積レンダリング体験によって達成される。

符号化、送信、受信、及びレンダリングのための本原理の利点は、図面を参照して以下の説明において提示される。

図１は、オブジェクト及び３Ｄモデル１０に対応する点群１１の点の三次元（３Ｄ）モデル１０を示す。３Ｄモデル１０及び点群１１は、例えば、他のオブジェクトを含む３Ｄシーンのオブジェクトの潜在的な３Ｄ表現に対応し得る。モデル１０は、３Ｄメッシュ表現であり得、点群１１の点は、メッシュの頂点であり得る。点群１１の点はまた、メッシュの面の表面上に広がった点であり得る。モデル１０はまた、点群１１のスプラッティングされたバージョンとして表すこともでき、モデル１０の表面は、点群１１の点をスプラッティングすることによって作成される。モデル１０は、ボクセル又はスプラインなどの多くの異なる表現によって表され得る。図１は、点群が３Ｄオブジェクトの表面表現と定義され得、３Ｄオブジェクトの表面表現がクラウドの点から生成され得るという事実を示す。本明細書で使用される場合、画像上の（３Ｄシーンの伸長点による）３Ｄオブジェクトの投影点は、この３Ｄオブジェクト、例えば、点群、メッシュ、スプラインモデル又はボクセルモデルの任意の表現を投影することと同等である。

点群は、例えば、ベクトルベースの構造としてメモリで表すことができ、各点は、視点の参照フレーム内の独自の座標（例えば、三次元座標ＸＹＺ、又は視点からの／視点への立体角及び距離（深度とも呼ばれる））及び成分とも呼ばれる１つ以上の属性を有する。成分の例は、様々な色空間、例えば、ＲＧＢ（赤、緑及び青）又はＹＵＶ（Ｙが輝度成分及びＵＶが２つの色差成分である）で発現され得る色成分である。点群は、オブジェクトを含む３Ｄシーンの表現である。３Ｄシーンは、所与の視点又は視点の範囲から見ることができる。点群は、多くの方法によって、例えば、
●任意選択的に深度アクティブセンシングデバイスによって補完された、カメラのリグによって撮影された実オブジェクトの捕捉から、
●モデリングツールにおける仮想カメラのリグによって撮影された仮想／合成オブジェクトの捕捉から、
●実オブジェクトと仮想オブジェクトの両方の混合物から、取得され得る。

図２は、３Ｄシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。例えば、同時に、３ＤｏＦ、３ＤｏＦ＋及び６ＤｏＦ復号化に適合することができる符号化形式。

３Ｄシーン２０のシーケンスが取得される。写真のシーケンスが２Ｄビデオであるとき、３Ｄシーンのシーケンスは３Ｄ（容積とも呼ばれる）ビデオである。３Ｄシーンのシーケンスは、３ＤｏＦ、３Ｄｏｆ＋又は６ＤｏＦレンダリング及び表示のための容積ビデオレンダリングデバイスに提供され得る。

３Ｄシーン２０のシーケンスは、エンコーダ２１に提供される。エンコーダ２１は、入力として１つの３Ｄシーン又は３Ｄシーンのシーケンスを取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ２２内及び／又は電子データ媒体上に記憶され得、ネットワーク２２を介して送信され得る。３Ｄシーンのシーケンスを表すビットストリームは、メモリ２２から読み取られ得る、及び／又はデコーダ２３によってネットワーク２２から受信され得る。デコーダ２３は、当該ビットストリームによって入力され、例えば、点群形式で３Ｄシーンのシーケンスを提供する。

エンコーダ２１は、いくつかのステップを実装するいくつかの回路を備え得る。第１のステップでは、エンコーダ２１は、各３Ｄシーンを少なくとも１つの２Ｄ写真に投影する。３Ｄ投影は、三次元点を二次元平面にマッピングする任意の方法である。グラフィックデータを表示するための最新の方法は、平面（いくつかのビット平面からの画素情報）二次元媒体に基づいているため、このタイプの投影の使用は、特にコンピュータグラフィック、操作及びドラフト化において広範囲に及ぶ。選択及び使用される投影方法は、投影パラメータのセット又はリストとして表され、符号化され得る。投影回路２１１は、シーケンス２０の３Ｄシーンのための少なくとも１つの二次元画像２１１１を提供する。画像２１１１は、画像２１１１上に投影された３Ｄシーンを表す色情報及び深度情報を含む。変形例では、色情報及び深度情報は、２つの別個の画像２１１１及び２１１２において符号化される。

メタデータ２１２は、投影回路２１１によって使用され、更新される。メタデータ２１２は、図５～図７に関連して説明したように、投影動作（例えば、投影パラメータ）並びに色及び深度情報が画像２１１１及び２１１２内で編成される方法に関する情報を含む。

ビデオ符号化回路２１３は、画像２１１１及び２１１２のシーケンスをビデオとして符号化する。３Ｄシーン２１１１及び２１１２の画像（又は３Ｄシーンの画像のシーケンス）は、ビデオエンコーダ２１３によってストリーム内で符号化される。次いで、ビデオデータ及びメタデータ２１２は、データカプセル化回路２１４によってデータストリーム内でカプセル化される。

エンコーダ２１３は、例えば、
－ＪＰＥＧ、仕様ＩＳＯ／ＣＥＩ１０９１８－１ＵＩＴ－Ｔ推奨Ｔ．８１、ｈｔｔｐｓ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｔ．８１／ｅｎ；
－ＭＰＥＧ－４ＡＶＣ又はｈ２６４とも呼ばれるＡＶＣなどのエンコーダに準拠する。ＵＩＴ－ＴＨ．２６４及びＩＳＯ／ＣＥＩＭＰＥＧ－４－Ｐａｒｔ１０（ＩＳＯ／ＣＥＩ１４４９６－１０）、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６４／ｅｎ，ＨＥＶＣ（その仕様は、ＩＴＵウェブサイト、Ｔ推奨、Ｈ系列、ｈ２６５、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６５－２０１６１２－Ｉ／ｅｎで見出される）、
－３Ｄ－ＨＥＶＣ（仕様がＩＴＵウェブサイト、Ｔ推奨、Ｈ系列、ｈ２６５、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６５－２０１６１２－Ｉ／ｅｎａｎｎｅｘＧａｎｄＩで見出されるＨＥＶＣの拡張子）、
－Ｇｏｏｇｌｅによって開発されたＶＰ９、又は
－ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａによって開発されたＡＶ１（ＡＯ媒体ビデオ１）。

データストリームは、デコーダ２３によって、例えばネットワーク２２を介してアクセス可能なメモリに記憶される。デコーダ２３は、復号化の異なるステップを実装する異なる回路を備える。デコーダ２３は、エンコーダ２１によって生成されたデータストリームを入力として取り、ヘッドマウントデバイス（ＨＭＤ）のような容積ビデオ表示デバイスによってレンダリングされ、かつ表示される３Ｄシーン２４のシーケンスを提供する。デコーダ２３は、ソース２２からストリームを取得する。例えば、ソース２２は、
－例えば、ビデオメモリ又はＲＡＭ（又はランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（又は読み取り専用メモリ）、ハードディスクなどのローカルメモリと、
－例えば、質量ストレージ、ＲＡＭ、フラッシュメモリ、ＲＯＭ、光学ディスク又は磁気サポートとのインターフェースなどのストレージインターフェースと、
－例えば、有線インターフェース（例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース）又は無線インターフェース（ＩＥＥＥ８０２．１１インターフェース又はＢｌｕｅｔｏｏｔｈ（登録商標）インターフェースなど）などの通信インターフェースと、
－ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェースと、を含むセットに属する。

デコーダ２３は、データストリーム内で符号化されたデータを抽出するための回路２３４を備える。回路２３４は、データストリームを入力として取り、ストリーム及び二次元ビデオにおいて符号化されたメタデータ２１２に対応するメタデータ２３２を提供する。ビデオは、画像のシーケンスを提供するビデオデコーダ２３３によって復号化される。復号化された画像は、色及び深度情報を含む。変形例では、ビデオデコーダ２３３は、一方が色情報を含み、他方が深度情報を含む２つの画像のシーケンスを提供する。回路２３１は、メタデータ２３２を使用して、復号化された画像からの色及び深度情報を投影せず、３Ｄシーン２４のシーケンスを提供する。３Ｄシーン２４のシーケンスは、２Ｄビデオとしての符号化に関連する精度が潜在的に低下３Ｄシーン２０のシーケンス及びビデオ圧縮に対応する。

本明細書に開示される原理は、エンコーダ２１に関し、より具体的には、投影回路２１１及びメタデータ２１２に関する。それらはまた、デコーダ２３、より具体的には、逆投影回路２３１及びメタデータ２３２に関する。

図３は、図１４及び図１５に関連して説明される方法を実施するように構成され得るデバイス３０のアーキテクチャの一例を示す。図２のエンコーダ２１及び／又はデコーダ２３は、このアーキテクチャを実装し得る。代替的に、エンコーダ２１及び／又はデコーダ２３の各回路は、例えば、それらのバス３１を介して、かつ／又はＩ／Ｏインターフェース３６を介して一緒に連結された、図３のアーキテクチャによるデバイスであり得る。

デバイス３０は、データ及びアドレスバス３１によって一緒に連結された以下の要素：
－例えば、ＤＳＰ（又はデジタル信号プロセッサ）であるマイクロプロセッサ３２（又はＣＰＵ）と、
－ＲＯＭ（又は読み取り専用メモリ）３３と、
－ＲＡＭ（又はランダムアクセスメモリ）３４と、
－ストレージインターフェース３５と、
－アプリケーションから、送信するデータを受信するためのＩ／Ｏインターフェース３６と、
－電源、例えば、バッテリと、を備える。

一例によれば、電源はデバイスの外部にある。言及されたメモリの各々において、本明細書で使用される「レジスタ」という単語は、小さな容量の領域（いくつかのビット）又は非常に大きな領域（例えば、全体のプログラム又は大量の受信された、又は復号化されたデータ）に対応し得る。ＲＯＭ３３は、少なくともプログラム及びパラメータを含む。ＲＯＭ３３は、本原理に従って技術を実行するためのアルゴリズム及び命令を記憶することができる。オンに切り替えられると、ＣＰＵ３２は、ＲＡＭ内のプログラムをアップロードし、対応する命令を実行する。

ＲＡＭ３４は、レジスタ内で、ＣＰＵ３２によって実行され、デバイス３０のスイッチオン後にアップロードされるプログラムと、レジスタ内の入力データと、レジスタ内の方法の異なる状態の中間データと、レジスタ内の方法の実行のために使用される他の変数と、を含む。

本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合（例えば、方法又はデバイスとしてのみ考察される）であっても、考察される特徴の実装形態は、他の形態（例えば、プログラム）においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（「ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

実施例によれば、デバイス３０は、図１４及び図１５に関連して説明された方法を実装するように構成されており、
－モバイルデバイスと、
－通信デバイスと、
－ゲームデバイスと、
－タブレット（又はタブレットコンピュータ）と、
－ラップトップと、
－静止画カメラと、
－ビデオカメラと、
－符号化チップと、
－サーバ（例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ又はウェブサーバ）と、を含むセットに属する。

図４は、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の実施形態の一例を示す。図４は、１つの視認境界ボックスに関する容積ビデオストリームの構造４の一例を示す。構造４は、構文の独立した要素でストリームを編成する。この例では、構造４は、構文４１、４２、及び４３の３つの要素を含む。構文４１の要素は、構造４の構文の全ての要素に共通のデータを含むヘッダである。例えば、ヘッダ４１は、構造４の構文の各要素の性質及び役割を説明するメタデータを含む。ヘッダ部分４１はまた、図２のメタデータ２１２の一部、例えば、視認境界ボックスの位置に関する情報（例えば、視認境界ボックスの中央視点）を含む。

構造４は、構文４２の要素と、構文４３の少なくとも１つの要素を含むペイロードを含む。構文４２の要素は、符号化されたビデオデータ、例えば、色及び深度画像２１１１及び２１１２を表すデータを含む。

構文４３の要素は、画像２１１１及び２１１３がどのように符号化されるかについてのメタデータ、特に、３Ｄシーンの点を画像上に投影及びパックするために使用される特定のパラメータを含む。そのようなメタデータは、ビデオの各画像又は（ビデオ圧縮標準において写真のグループ（Group of Pictures、ＧｏＰ）としても既知である）画像のグループと関連付けられ得る。

前述のように、情報が欠落しているゾーンなどのレンダリングアーチファクトは、容積レンダリング体験中に現れ得る。欠落情報の例は、視差情報である。例えば、３ＤｏＦ＋容積レンダリングの場合、視認空間は、視認境界ボックスと呼ばれる限られた容積に制限される。中心視点は、各視認境界ボックスに結び付けられる。ユーザが視認境界ボックスの中心視点から視認境界ボックス内で並進移動を行うとき、最初に隠蔽された３Ｄシーンの一部が可視になる。これは視差効果と呼ばれ、隠蔽された部分に関連付けられたデータは視差データと呼ばれる。ユーザが移動するときにこれらの隠蔽された部分をレンダリングするために、視差データが符号化及び送信されるものとする。データがどのように符号化されるかに応じて、いくつかの視差データが欠落している可能性があり、レンダリング体験を劣化させる。視差効果は、図５、図６、及び図７を参照してより詳細に説明する。

図５は、３Ｄシーンを表す画像を示す。３Ｄシーンは、任意の好適な技術を使用して捕捉することができる。図５に示される例示的な３Ｄシーンは、いくつかのオブジェクト：家５１及び５２、人物５４及び５５、及び井戸５６を備える。立方体５３は、ユーザが３Ｄシーンを観察する可能性が高い視認境界ボックスを示すために図５に示されている。視認境界ボックス５３の中心視点は、５０と称される。

図６は、図５の３Ｄシーンを、没入型レンダリングデバイス（例えば、ＣＡＶＥ又はヘッドマウントディスプレイデバイス（ＨＭＤ））上にレンダリングするときの視認境界ボックスの概念をより詳細に示す。３Ｄシーンのシーン点６４ａは、人物５４の肘に対応する。視点５０とシーン点６４ａとの間に不透明なオブジェクトが置かれていないため、シーン点は視点５０から可視である。対照的に、人物５５の肘に対応するシーン点６５ａは、人物５４の点によって遮蔽されるため、視点５０から不可視である。３ＤｏＦ＋レンダリングでは、ユーザは、前述のように、３ＤｏＦ＋視認境界ボックス内の視点を変更することができる。例えば、図７に関連して例示されるように、ユーザは、視認境界ボックス５３内で自分の視点を移動させ、視差を体験することができる。

図７は、図５の３Ｄシーンの容積レンダリングによって可能になる視差体験を示す。図７Ｂは、ユーザが中央視点５０から見ることができる３Ｄシーンの一部を示す。この観点から、人物５４及び５５は所与の空間構成にあり、例えば、人物５５の左肘は、頭部が可視である間、人物５４の身体によって隠される。ユーザが中央視点５０を中心に３つの自由度で頭部を回転させるとき、この構成は変化しない。視点が固定されている場合、人物５５の左肘（図６では６５ａで示される）は不可視である。図７Ａは、第１の周辺視点（図６では６７で示される）から視認境界ボックス５３の左側までの同じ３Ｄシーンを示す。視点６７から、視差効果により、点６５ａが可視である。これは、脱遮蔽効果と呼ばれる。例えば、視点５０から視点６７に移動することによって、点６５ａは脱遮蔽される。図７Ｃは、第２の周辺視点（図６では６８で示される）から視認境界ボックス５３の右側まで観察される同じ３Ｄシーンを示す。視点６８から、人物５５は、人物５４によってほぼ完全に隠されているが、それでも視点５０から可視である。図６を参照すると、視点５０から視点６８に移動することによって、点６５ｂが遮蔽されることが理解できる。

大抵の場合、脱遮蔽されたデータは、データの小さなパッチに対応する。図８は、容積レンダリングに必要な脱遮蔽データを示す。図８Ａは、視認境界ボックスＶに関連付けられた第１の周辺カメラＣ_１、中央カメラＣ_２、及び第２の周辺カメラＣ_３の３つの仮想カメラで撮影された２つのオブジェクトＰ_１及びＰ_２を含む３Ｄシーンの上面図である。視認境界ボックスＶは、中央カメラＣ_２の位置を中心とする。仮想カメラＣ_１、Ｃ_２、及びＣ_３から可視である点は、それぞれ線８１、線８２、及び線８３によって表される。図８Ｂ、図８Ｃ、及び図８Ｄは、図８Ａに関連して説明したように捕捉された３Ｄシーンのレンダリングを示す。図８Ｂ及び図８Ｃでは、円錐Ｆは、視野、並びにそれぞれ視点Ｏ_０及びＯ_１から可視である３Ｄシーンの部分を区切る。Ｏ_０及びＯ_１は視認境界ボックスＶに含まれる視点である。視点Ｏ_０から視点Ｏ_１に向かって移動することにより、ユーザは視差を体験する。脱遮蔽点は、バックグラウンドオブジェクト内の小さなパッチを表す。

図８Ｄでは、Ｏ_２は、視認境界ボックスＶ視点の外側の視点を表す。視点Ｏ_２からは、セグメントＤによって表される視認境界ボックスＶから不可視である新しいデータが今は可視であり、マスクされていない。これは、脱遮蔽効果である。セグメントＤは、視認境界ボックスＶに関連付けられた容積コンテンツに属していない。ユーザが視点Ｏ_０から視点Ｏ_２に進むなどの大きな振幅の動きを行い、視認境界ボックスＶの外に出るとき、３Ｄシーンの異なる領域における脱遮蔽効果が補償されなくなる可能性がある。マスクされない部分は、レンダリングデバイス上で視認性が高い大きな領域の欠落情報を表して、不十分な没入型体験をもたらすことがある。

符号化される容積コンテンツの情報を構造化する方法は、以下分かるように、符号化効率に影響を及ぼす。

図９Ａは、３Ｄシーンを表す容積情報を構造化するための第１の方法を示し、図９Ｂは、図８の３Ｄシーンについて、本原理の非限定的な実施形態による同じ容積情報を構造化するための方法を示す。

第１の方法によれば、閉鎖された点線９１０に包含される固有の要素が、視点Ｏ_０から捕捉される。実際には、アクセス可能なデータのみが、太線９１１、９１２、及び９１３によって表されるデータである。オブジェクトＰ_１によって遮蔽されたオブジェクトＰ_２の領域がアクセス可能でない、すなわち、Ｐ_２の領域が欠落していることを観察することができる。

本原理では、３Ｄシーン内の点は、クラスタリング基準に従ってクラスタリングされる。図９Ｂに示される実施形態では、クラスタリング基準は、３Ｄシーン内の点の深度範囲に関連し、したがって、３Ｄシーンを複数の深度層に分離する。これにより、例えば、シーンのバックグラウンド及びフォアグラウンドにそれぞれ関与する物理的オブジェクトの部分を含むバックグラウンドクラスタ及びフォアグラウンドクラスタを作成することが可能になる。あるいは、又は組み合わせて、クラスタリングは、例えば、点の意味分類、及び／又は移動分類、及び／又は色分割に基づく。クラスタ内の全ての点は、同じ特性を共有する。図９Ｂでは、それぞれ閉鎖した点線９２１及び９２２に包含される２つのクラスタが得られる。太線９２３及び９２４によって表される、アクセス可能なデータは、図９Ａに示されるように、第１の方法で得られたものとは異なる。図９Ｂでは、オブジェクトＰ_２に関連する全ての情報、視点Ｏ_０から見たときのオブジェクトＰ１の背後の情報でさえ利用可能である。これは、図９Ａの図に関連して説明された方法には当てはまらない。本原理によるクラスタリング点によって３Ｄシーンを表す容積情報を構造化することにより、３Ｄシーンをレンダリングするために利用可能な情報を増加させることができる。再び上述した視差体験に言及すると、上記のクラスタリング方法の１つの利点は、遮蔽された領域に関連するデータが視点にかかわらずアクセス可能なことである。

図１０は、クラスタ９２１及び９２２を取得する方法を示す。この例は、クラスタリング基準が深度フィルタリング基準である場合について言及する。クラスタを取得するための１つの方法は、異なる位置、配向、及び視野を有する仮想カメラによって点を捕捉することである。各仮想カメラは、所与のクラスタの可能な限り多くの点を捕捉するように最適化される。例えば、図１０では、クラスタ９２１は、仮想カメラＣ_Ａ＿０によって捕捉され得る。仮想カメラＣ_Ａ＿０は、近深度範囲内の全ての画素を捕捉し、近深度範囲に属しないオブジェクトＰ_２を切り抜く。クラスタ９２２は、仮想カメラＣ_Ｂ＿０によって捕捉され得る。仮想カメラＣ_Ｂ＿０は、遠深度範囲内の全ての画素を捕捉し、遠深度範囲に属していないオブジェクトＰ_１を切り抜く。有利には、バックグラウンドクラスタは、視点及び視認境界ボックスに関係なく、遠距離に位置決めされた仮想カメラで取得される一方、フォアグラウンドクラスタは、視認境界ボックス内の異なる視点に位置付けられた仮想カメラで取得される。中深度クラスタは、典型的には、フォアグラウンドクラスタと比較して、視認境界ボックス内のより少ない数の視点に位置決めされた仮想カメラで取得される。

ここで、前述のような点クラスタリング方法によって構造化された３Ｄシーンを表す容積情報を、ビデオストリームに符号化することができる方法を説明する。

図１１は、所与の視点１１６の３Ｄシーンを表す容積コンテンツを符号化するために使用される２Ｄアトラスアプローチを示す。図１１では、３Ｄシーンの上面図１００が示される。３Ｄシーンは、人物１１１、植木鉢１１２、木１１３、壁１１４を含む。画像１１７は、視点１１６から観察された３Ｄシーンを表す画像である。点クラスタリング方法では、点線の楕円１１１ｃ、１１２ｃ、１１３ｃ、及び１１４ｃで表されるクラスタは、容積コンテンツから取得され、視点１１６の方向に投影されて、２Ｄ画像のセットを作成する。次いで、２Ｄ画像のセットがパックされてアトラス１１５を形成する（アトラスは２Ｄ画像の収集である）。アトラス内の２Ｄ画像の編成は、アトラスレイアウトを定義する。一実施形態では、同一のレイアウトを有する２つのアトラスが使用され、１つは色（すなわち、テクスチャ）情報のためのものであり、１つは深度情報のためのものである。

連続する時点で、２Ｄアトラスの時系列が生成される。典型的には、２Ｄアトラスの時系列は、符号化ビデオのセットの形態で送信され、各ビデオは、特定のクラスタに対応し、ビデオ内の各画像は、視点１１６から所与の瞬間にこの特定のクラスタを投影することによって取得された２Ｄ画像に対応する。特定のクラスタの２Ｄ画像の連続は、独立したビデオを構成する。

本原理による点クラスタリング方法は、この容積情報を独立したビデオのセットとして符号化することを可能にするように、３Ｄシーンを表す容積情報を構造化することを目的としている。

本原理では、３Ｄシーンは、異なる時点で得られた一連の画像１１７に対応する単一のビデオストリームとして送信されず、２Ｄアトラスの時系列における２Ｄ画像の連続に対応するより小さい独立したビデオのセットとして送信される。各ビデオは、互いに独立して送信することができる。例えば、異なる視野を有する仮想カメラを使用することによって、異なるビデオを取得することができる。別の例では、異なるビデオは、異なる画像レート又は異なる品質レベルで符号化することができる。

例えば、頻繁な構成は、アニメーション化されたフォアグラウンドオブジェクトが、シーンのバックグラウンドと比較して多く移動する３Ｄシーンである。これらのアニメーション化されたオブジェクトは、それら自体のライフサイクルを有し、有利なことに、バックグラウンドよりも高い画像レートで符号化され得る。

また、容積コンテンツがストリーミングされると、ビデオの品質は、ビデオストリーム毎にストリーミング環境に合わせて調整することができる。例えば、フォアグラウンドに対応するビデオストリームは、シーンのバックグラウンドに対応するビデオストリームよりも高い品質で符号化され得る。

別の利点は、拡張可能な３Ｄシーンの個別化、例えば、特定のオブジェクト、例えば広告などの特定のオブジェクトの挿入によるカスタマイズを可能にすることである。カスタマイズは、モノリシックな方法で符号化される容積コンテンツと比較して最適化される。

復号化のために、３Ｄシーンは、独立したビデオストリームを組み合わせることによって取得される。２Ｄアトラス内の異なるクラスタに対応する２Ｄ画像は、視点１１６から見た３Ｄシーンを表す画像を構成するように再結合される。この画像は、２Ｄ－３Ｄ逆投影ステップを経て容積データを取得する。容積データは、３Ｄレンダリング空間内の視点１１６に対応する視点から容積レンダリング体験中にレンダリングされる。

ここで、３ＤＯＦ＋容積レンダリング体験の連続に基づく６ＤＯＦ容積レンダリング体験が、前述のように点クラスタリング方法を使用することからどのように恩恵を得るかについて以下に説明する。

３Ｄシーンは、視認境界ボックスに関連付けられた容積コンテンツを連続的にレンダリングし、３Ｄレンダリング空間内で１つの視認境界ボックスから別の視認境界ボックスに移動することによってレンダリングすることができる。例えば、データの記憶及び転送に関する利点を以下に強調する。

図１２は、図１１の３Ｄシーンの上面図であり、視認境界ボックスが点線の楕円１２１の形態で表されている。２つの点線１２２及び１２３は、視認境界ボックス１２１から可視である視野を表す。この視野は、図１１の３Ｄシーン内の点をクラスタリングすることによって取得された４つのクラスタである、植木鉢１１２に関連付けられたクラスタ１２０ａ、人物１１１に関連付けられたクラスタ１２０ｂ、木１１３に関連付けられたクラスタ１２０ｃ、及び壁１１４に関連付けられたクラスタ１２０ｄを含む。

視認境界ボックス１２１内に含まれる２つの視点１２４及び１２５は、それぞれの視野（２つの円錐１２６及び１２７によって表される）と共に表される。いくつかのクラスタ又はいくつかのクラスタの部分は、視点１２４及び１２５に共通であることが観察され得る。図１２の例では、これらの共通クラスタは、クラスタ１２０ｃ及び１２０ｄである。この特定の例では、それらは、視点１２４及び１２５から遠距離の３Ｄシーンの部分に対応する。これらの共通クラスタの３Ｄ－２Ｄ投影ステップから生じる２Ｄ画像は、２Ｄ共通画像と呼ばれる。共通クラスタ以外のクラスタの３Ｄ－２Ｄ投影ステップから生じる２Ｄ画像は、２Ｄパッチと呼ばれる。

２Ｄ共通画像は通常、大多数の非空画素を含む。例えば、深度基準が使用される場合、共通のクラスタは、多くの場合、容積コンテンツのバックグラウンド点に対応し、多数の点を含む。通常、２Ｄパッチは、それらを取り囲む領域とは異なる小さな領域である。２Ｄパッチは通常、２Ｄ共通画像よりも少ない情報を含み、よって、例えば画素数という点でより小さいサイズを有する。例えば、容積コンテンツのフォアグラウンド点に対応するクラスタは、多くの場合、例えば、大きなバックグラウンド特徴の前に配置された文字又はオブジェクトを表す限られた数の点を含む。

視点１２４及び１２５にそれぞれ関連付けられたクラスタのセットの３Ｄ－２Ｄ投影から生じる２Ｄ画像のセットを含む２つのアトラスは、共通する２Ｄ共通画像を有する。したがって、視認境界ボックス１２１内を視点１２４から視点１２５まで、又はその逆に移動する場合、２Ｄ共通画像に対応するデータは、既にレンダリングのために利用可能である。これにより、ユーザの視差体験が改善される。そうでなければ、これらのデータを取得してレンダリングするためにかかるはずであった待ち時間が排除される。もう１つの利点は、送信されるデータの量が減少することである。

再度２Ｄアトラスアプローチに言及すると、２Ｄ共通画像は１つの共通ビデオの形態で送信される一方、各２Ｄパッチは１つの特定のビデオとして送信される。各画像１１７に以前に埋め込まれた共通情報は、相互化されて、共通のビデオ内で別々に送信された。深度基準が使用される場合、共通ビデオは通常、３Ｄシーンのバックグラウンド部分を表すクラスタに対応する。共通ビデオは、図１１の壁１１４のように、ある期間にわたって非常に安定的である、又はほとんど変動しない。したがって、非常に効率的なコーデックを使用して、例えば、時間的予測により共通ビデオを符号化することができる。

図１３は、図１１の３Ｄシーンの上面図であり、２つの視認境界ボックス１３１及び１３８が表されている。視認境界ボックス１３１内の１つの視点１３４及び視認境界ボックス１３８内の１つの視点１３５が示されている。第１の視点１３４は、視認境界ボックス１３１内に位置し、第２の視点１３５は、視認境界ボックス１３８内に位置する。視点１３４及び１３５からの視野は、それぞれ、１３６及び１３７で参照される。クラスタ又はクラスタの部分は、視野１３６及び１３７の両方に共通であることが分かる。したがって、視認境界ボックス１３１及び視認境界ボックス１３８は、共通のクラスタ又はクラスタの部分を有する。

これらの共通クラスタに対応する２Ｄ共通画像は、いくつかの視認境界ボックス間で相互化することができる。それらの画像は、いくつかの視認境界ボックスに関して、記憶、符号化、送信、及びレンダリングすることができる。これにより、記憶及び送信のためのデータ負荷が更に低減される。もう１つの利点は、ユーザがレンダリング空間内で大きな移動を行い、第１から第２の視認境界ボックスに進むときの潜伏アーチファクトの低減である。

図１４は、本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツを符号化するための方法を示す。この方法は、図２のエンコーダ２１に使用されることが意図されている。

ステップ１４００では、３Ｄシーンがソースから取得される。

ステップ１４０１では、３Ｄシーン内の点は、少なくとも１つのクラスタリング基準に従って複数のクラスタにクラスタリングされる。一実施形態では、クラスタリング基準は、３Ｄシーン内の点の深度範囲に関し、その結果、３Ｄシーンを複数の深度層に分離する。これにより、例えば、シーンのバックグラウンド及びフォアグラウンドにそれぞれ関与する物理的オブジェクトの部分を含むバックグラウンドクラスタ及びフォアグラウンドクラスタを作成することが可能になる。あるいは、又は組み合わせて、クラスタリングは、例えば、点の意味分類、及び／又は移動分類、及び／又は色分割に基づく。所与の視点について、３Ｄシーンは、クラスタのセットとして説明される。

ステップ１４０２では、クラスタのセットのクラスタは、２Ｄ画像のセットを取得するために投影パラメータに従って投影される。２Ｄ画像は、アトラスに、又は同じレイアウトを有する２つのアトラスにパックされる。例えば、一方のアトラスは色データを含み、他方のアトラスは深度データを含む。

ステップ１４０３では、３Ｄシーンを表すデータを保有する容積コンテンツが生成される。３Ｄシーンを表すデータは、ステップ１４０２で得られたアトラス又はアトラスの対である。

一実施形態では、３Ｄレンダリング空間は、視認境界ボックスで編成され、各視認ボックスは、中心視点、好ましい実施形態では、周辺視点を含む。ステップ１４０１’では、異なる視認境界ボックスに共通のクラスタが取得される。

ステップ１４０１’が実施されるとき、ステップ１４０２は、２つのサブステップ１４０２Ａ及び１４０２Ｂを含む。サブステップ１４０２Ａでは、異なる視認境界ボックスに共通のクラスタが、２Ｄ共通画像を取得するために投影パラメータに従って投影される。サブステップ１００２Ｂでは、異なる視認境界ボックスに共通するクラスタ以外のクラスタが、２Ｄパッチを取得するために投影される。これは、視認ボックス毎に行われる。各視認境界ボックスについて、クラスタは、視認境界ボックスの中心点の方向に投影されて、２Ｄパッチのセットを作成する。好ましくは、クラスタは、２Ｄパッチの追加のセットが作成されるように（各周辺視点について１つずつ）、１つ以上の周辺視点の方向にも投影される。結果として、各視認境界ボックスが、２Ｄ共通画像及び２Ｄパッチのいくつかのセットに関連付けられる。

ステップ１４０２’では、３Ｄシーンの３Ｄレンダリング空間に含まれる視認境界ボックスのリストと、３Ｄレンダリング空間内の視認境界ボックスに関して、適用する２Ｄ共通画像及び２Ｄパッチのセットのリストとを含むメタデータが生成される。ステップ１４０２’で生成されたメタデータは、ステップ１４０３で生成される容積コンテンツに含まれる。例えば、図４に記載されているような構造４は、視認境界ボックスに関連する情報をパックするために使用され、３Ｄシーンの全ての構造４は、ステップ１４０２’で生成されたメタデータを含むヘッダを含むスーパー構造内に共にパックされる。

例えば、ステップ１４０２’で生成されたメタデータは、
－３Ｄレンダリング空間内の視認境界ボックスのリストと、
－３Ｄレンダリング空間の共通クラスタのリストであって、各共通クラスタが、共通のクラスタ識別子によって特徴付けられ、ソースから対応するビデオストリームを取得するために使用される一意のリソース識別子と関連付けられている、共通クラスタのリストと、
－各視認境界ボックスについて、この視認境界ボックスについての３Ｄシーンを表すクラスタのセットのリストと、
－視認境界ボックスに関連付けられたクラスタの各セットについて、
○共通クラスタの識別子と、
○ソースから対応するビデオストリームを取得するために、一意のリソース識別子を有する共通のクラスタ以外のクラスタのリストと、
を含む。

有利な実施形態では、２Ｄ画像は、同じ視点に関して２Ｄ画像のいくつかのセットが生成されるように、異なるレベルの品質又は異なる画像レートで符号化される。これにより、例えば、ストリーミング環境を考慮に入れるために、ビデオの品質又は速度を適応させることができる。

図１５は、本原理の非限定的な実施形態による、３Ｄシーンに関連する容積コンテンツを復号化するための方法を示す。この方法は、図２のデコーダ２３を使用することを意図している。

ステップ１５００では、容積コンテンツがソースから取得される。容積コンテンツは、３Ｄシーン内の点の少なくとも１つのクラスタを表す少なくとも１つの２Ｄ画像を含む。クラスタ内の点は、クラスタリング基準を満たす。一実施形態では、クラスタリング基準は、３Ｄシーン内の点の深度範囲に関連する。あるいは、又は組み合わせて、クラスタリング基準は、例えば、点の意味分類、及び／又は移動分類、及び／又は色分割に関連する。

ステップ１５０１では、少なくとも１つの２Ｄ画像は、投影パラメータに従って予測されない。

ステップ１５０２では、３Ｄシーンを表す３Ｄ点群が、逆投影２Ｄ画像から取得される。

図１６は、本原理の非限定的な実施形態による、容積表示デバイス又はレンダリングデバイスとして機能するように構成されたデバイスにおいて、３Ｄシーンに関連する容積コンテンツをレンダリングするための方法を示す。

ステップ１６００では、３Ｄレンダリング空間内の第１の視点が取得される。この第１の視点は、３Ｄレンダリング空間内の第１の視認境界ボックスに関連する。レンダリングデバイスがＨＭＤであるとき、第１の視点は、例えばＨＭＤのＩＭＵ（慣性測定ユニット）を使用して取得されたエンドユーザの位置である。ＨＭＤは、実世界（ピッチ、ヨー、及び／又はロール軸）のうち１つ、２つ、又は３つの軸に従って、ＨＭＤ、例えば、ジャイロスコープ又はＩＭＵ（慣性測定ユニット）の位置の変化（複数可）を測定するように構成された１つ以上の表示画面（例えば、ＬＣＤ（液晶ディスプレイ）、ＯＬＥＤ（有機発光ダイオード）又はＬＣＯＳ（液晶オンシリコン））を備える。

ステップ１６０１では、３Ｄシーンに関連する第１の容積コンテンツが、レンダリングデバイスによって受信される。第１の容積コンテンツは、ステップ１４０２’に関連して上述したように、３Ｄシーンと関連付けられたメタデータ（３Ｄレンダリングスペースに含まれる視認境界ボックスのリストと、各視認境界ボックスについて、２Ｄ共通画像及び２Ｄパッチのセットのリスト）、並びに第１の視認境界ボックスに関連付けられたビデオデータ及びメタデータとを含む。

ステップ１６０２では、第１の容積コンテンツは、上述の復号化方法を使用して復号され、３Ｄシーンを表す第１の３Ｄ点群を取得する。ステップ１６０１で受信されたメタデータに基づいて、第１の視点に対応する２Ｄ共通画像及び２Ｄパッチのセットが選択される。２Ｄ画像は、ストリームで送信された投影パラメータに従って投影されない。結果として、第１の３Ｄ点群が取得される。

ステップ１６０３では、第１の３Ｄ点群は、第１の視点からレンダリングされ、容積レンダリングに従って表示される。

前述のように、６ＤｏＦレンダリングは、いくつかの容積コンテンツの連続した３ＤｏＦ＋レンダリングによって可能にすることができる。これを達成するために、本原理によるレンダリング方法は、以下の追加のステップを含む。

ステップ１６０４では、ユーザは、レンダリング３Ｄ空間内の第１の視点から第２の視点に移動する。

ステップ１６０５では、第２の視点からのレンダリングに使用される２Ｄ画像のセットは、ステップ１６０１で取得されたメタデータに基づいて取得される。レンダリングにはまだ利用可能ではない２Ｄ画像は、ソースから取得される。以前に取得された２Ｄ共通の画像は、再度取得する必要はない。

ステップ１６０６では、ソースから取得された２Ｄ画像は、第２の３Ｄ点群を作成するために投影されない。この第２の３Ｄ点群は、第１の視認境界ボックスと第２の視認境界ボックスとの間で共通する２Ｄ画像に対応する第１の３Ｄ点群の点と組み合わされる。

ステップ１６０７では、この組み合わせの結果が第２の視点からレンダリングされ、３ＤｏＦ＋容積レンダリング技術に従って表示される。

ステップ１６０４～１６０７は、ユーザが３Ｄシーン内で１つの視点から別の視点に移動するときに繰り返すことができる。

上述のレンダリング方法は、本原理が、クラスタの形態の容積要素のセットを使用することによって、複数視点３ＤｏＦ＋レンダリングに基づいて６ＤｏＦ容積レンダリングをどのように可能にするかを示す。

図１７は、本原理の非限定的な実施形態により受信機として機能するように構成されたデバイスにおいて、３Ｄレンダリング空間内の３Ｄシーンに関連する容積コンテンツを受信するための方法を示す。図１７の例では、容積レンダリング体験は、適応ストリーミング環境で行われる。ビデオストリームは、異なる品質レベル又は異なる画像レートで符号化される。また、受信機は、適応ストリーミング環境の条件を検出し、送信されるビデオストリームを選択する適応ストリーミングプレーヤを備える。

ステップ１７００では、３Ｄシーンと関連付けられたメタデータが受信機によって受信される。例えば、ＤＡＳＨストリーミングプロトコルを使用するとき、メタデータは、マニフェストとも呼ばれるメディアプレゼンテーション記述（ＭＰＤ）を使用して送信される。前述のように、メタデータは、３Ｄレンダリング空間に含まれる視認境界ボックスのリストと、視覚境界ボックス／視点について、レンダリングのために使用されるクラスタに関する情報、（使用されるクラスタの識別情報及びソースからクラスタを取得するための情報）とを含む。

ステップ１７０１では、適応ストリーミングプレーヤは、例えば、利用可能な帯域幅のストリーミング環境の条件を検出する。

ステップ１７０２では、３Ｄレンダリング空間内の特定の視認境界ボックス／視点が考慮される。適応ストリーミングプレーヤは、ストリーミング環境の条件を使用して、少なくとも１つの２Ｄ共通画像及び少なくとも１つの２Ｄパッチのセットのリストからセットを選択する。例えば、高品質の２Ｄパッチが低品質の２Ｄ共通画像と共に選択されるように、フォアグラウンドクラスタに優先順位が与えられる。

ステップ１７０３では、適応ストリーミングプレーヤは、選択されたセットの要求をサーバに送信する。

ステップ１７０４では、受信機が、選択されたセットを受信する。次いで、前述の方法のうちの１つに従って、セットが復号化され、レンダリングされる。

深度以外の基準、例えば移動を、深度に加えて、又は深度の代わりに使用することができる。典型的には、高速移動クラスタを符号化する２Ｄパッチは、静止クラスタと比較して、帯域幅優先で選択される。実際、３Ｄシーンの一部は静的であってもよく、他のオブジェクトは様々な速度で移動していてもよい。この態様は、小さなアニメーション化されたオブジェクト（多くの場合、フォアグラウンドにある）について特に顕著であり、シーンの他の要素（しばしばバックグラウンドにある）とは異なる自身のライフサイクル（位置、色）を有し得る。例えば、その移動速度に関して、そのようなオブジェクトをクラスタリングすることにより、周波数レートなどの異なる送信パラメータに従ってそれらを送信することができる。したがって、利点は、コンテンツの不均一性によるストリーミングコストの低減である。

本原理の別の実装形態では、受信機は、３Ｄレンダリング空間内のユーザの次の位置を予測するための予測モジュールを含む。対応するセットは、メタデータに基づいて選択される。クラスタの数セットが利用可能である場合、それらのうちの１つが上記のように選択される。最後に、受信機は、対応するビデオストリームを取得する要求を送信する。

本原理では、いくつかのビデオストリーム、例えば、より安定しているバックグラウンドビデオストリームが必要とされる可能性が高い。有利なことに、受信機は、出現確率を考慮に入れ、非常に確度の高いビデオストリームの取得を最初にトリガする。フォアグラウンドクラスタは、より汎用性が高く、より簡単に送信できる。受信機は、最後の許容可能な瞬間まで、予測及び取得を延期することができる。その結果、誤予測のコストが低減される。

本明細書に記載の実施形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合（例えば、方法又はデバイスとしてのみ考察される）であっても、考察される特徴の実装形態は、他の形態（例えば、）においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（「personal digital assistant、ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

本明細書に記載の様々なプロセス及び特徴の実装は、様々な異なる機器又は用途、特に、例えば、データ符号化、データ復号化、ビュー生成、テクスチャ処理並びに画像及び関連するテクスチャ情報及び／又は深度情報の他の処理に関連付けられた機器又は用途において、具体化され得る。そのような機器の例としては、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、ＰＤＡ、及び他の通信デバイスが挙げられる。明確であるはずであるように、機器は、モバイルであり得、モバイル車両に設置され得る。

更に、方法は、プロセッサによって実行される命令によって実装され得、そのような命令（及び／又は実装形態によって生成されたデータ値）は、例えば、集積回路、ソフトウェアキャリア又は他の記憶デバイス、例えば、ハードディスク、コンパクトディスケット（「compact diskette、ＣＤ」）、光学ディスク（例えば、デジタル多用途ディスク又はデジタルビデオディスクと称されることが多いＤＶＤなど）、ランダムアクセスメモリ（「random access memory、ＲＡＭ」）又は読み取り専用メモリ（「read-only memory、ＲＯＭ」）などのプロセッサ可読媒体上に記憶され得る。命令は、プロセッサ可読媒体上で明白に具体化されたアプリケーションプログラムを形成し得る。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は２つの組み合わせに見出され得る。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体（記憶デバイスなど）を含むデバイスと、の両方として特徴付けられ得る。更に、プロセッサ可読媒体は、命令に加えて、又は命令の代わりに、実装形態によって生成されたデータ値を記憶することができる。

当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を担持するようにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの１つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態の構文を書き込むか、若しくは読み取るためのルールをデータとして担持するか、又は記載された実施形態によって書き込まれた実際の構文値をデータとして担持するようにフォーマット化され得る。かかる信号は、例えば、（例えば、スペクトルの無線周波数部分を使用して）電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

多くの実装形態が説明されている。それにもかかわらず、様々な修正が行われ得ることが理解されるであろう。例えば、異なる実装形態の要素は、他の実装形態を生成するために組み合わせ、補足、修正、又は削除することができる。更に、当業者は、開示されたものに対して他の構造及びプロセスを置換することができ、結果として生じる実装形態は、少なくとも実質的に同じ機能を少なくとも実質的に同じ方法で実行して、開示された実装形態と少なくとも実質的に同じ結果を達成することを理解するであろう。したがって、これら及び他の実装形態は、本出願によって企図される。

Claims

３Ｄシーンを符号化するための方法であって、
少なくとも１つのクラスタリング基準に従って、前記３Ｄシーン内の点を複数のクラスタにクラスタリングすることと、
投影パラメータに従って前記クラスタを投影して、２Ｄ画像のセットを取得することと、
２Ｄ画像のセット及び前記投影パラメータをデータストリームのセットに符号化することと、を含む、方法。
前記２Ｄ画像のそれぞれが、別個のデータストリームで符号化される、請求項１に記載の方法。
視認ボックスが、前記３Ｄシーン内で定義され、前記視認ボックス内の２つの視点から可視であるクラスタを投影することによって得られた２Ｄ画像が、同じデータストリームで符号化される、請求項１に記載の方法。
２つの視認ボックスが、前記３Ｄシーン内で定義され、前記２つの視認ボックスのそれぞれ内の２つの視点から可視であるクラスタを投影することによって得られた２Ｄ画像が、同じデータストリームで符号化される、請求項１に記載の方法。
前記データストリームが、前記少なくとも１つのクラスタリング基準に従って、異なる画像レートで符号化される、請求項１～４のいずれか一項に記載の方法。
前記少なくとも１つの基準が、前記３Ｄシーンの前記点の深度に基づく基準、前記３Ｄシーンの点に関連付けられた意味に基づく基準、前記３Ｄシーンの前記点の色に基づく基準、及び前記３Ｄシーンの点の移動に基づく基準を含むセットに属する、請求項１～５のいずれか一項に記載の方法。
メタデータを符号化することを更に含み、前記メタデータが、
前記３Ｄシーンに定義された前記視認ボックスのリストと、
視認ボックスについて、前記視認ボックスの視点から可視である３Ｄ点のクラスタを表す２Ｄ画像を符号化するデータストリームの記述と、
を含む、請求項１～６のいずれか一項に記載の方法。
３Ｄシーンを符号化するための方法であって、
データストリームのセットから少なくとも１つの２Ｄ画像を取得することであって、２Ｄ画像が、前記３Ｄシーン内の点の少なくとも１つのクラスタの投影パラメータに従った投影を表し、前記点のクラスタ内の点が少なくとも１つのクラスタリング基準を満たす、取得することと、
前記投影パラメータ及び前記３Ｄシーン内の視点に従って、前記少なくとも２Ｄ画像の画素を逆投影することと、を含む、方法。
データストリームが、点の１つのクラスタを表す２Ｄ画像を含む、請求項８に記載の方法。
前記視点を含む視認ボックスが、前記３Ｄシーン内に定義され、データストリームが、前記視認ボックス内の前記視点及び別個の視点から可視であるクラスタを投影することによって取得された２Ｄ画像を含む、請求項８に記載の方法。
２つの視認ボックスが、前記３Ｄシーン内に定義され、前記視認ボックスのうちの少なくとも１つが前記視点を含み、データストリームが、前記視点及び別個の視点から可視であるクラスタを投影することによって取得された２Ｄ画像を含み、前記視点が前記２つの視認ボックスのそれぞれ内にある、請求項８に記載の方法。
前記データストリームが、前記少なくとも１つのクラスタリング基準に従って、異なる画像レートで復号化される、請求項８～１１のいずれか一項に記載の方法。
メタデータを取得することであって、前記メタデータが、
前記３Ｄシーンに定義された前記視認ボックスのリストと、
視認ボックスについて、前記視認ボックスの視点から可視である３Ｄ点のクラスタを表す２Ｄ画像を符号化するデータストリームの記述と、を含む、取得することと、
前記視点から可視である３Ｄ点のクラスタを含むデータストリームから２Ｄ画像を復号化することと、を更に含む、請求項８～１２のいずれか一項に記載の方法。
プロセッサと関連付けられたメモリを備える３Ｄシーンを符号化するためのデバイスであって、前記プロセッサが、
少なくとも１つのクラスタリング基準に従って、前記３Ｄシーン内の点を複数のクラスタにクラスタリングすることと、
投影パラメータに従って前記クラスタを投影して、２Ｄ画像のセットを取得することと、
前記２Ｄ画像のセット及び前記投影パラメータをデータストリームのセットに符号化することと、を行うように構成されている、デバイス。
プロセッサと関連付けられたメモリを備える３Ｄシーンを復号化するためのデバイスであって、前記プロセッサが、
データストリームのセットから少なくとも１つの２Ｄ画像を取得することであって、２Ｄ画像が、前記３Ｄシーン内の点の少なくとも１つのクラスタの投影パラメータに従った投影を表し、前記点のクラスタ内の点が少なくとも１つのクラスタリング基準を満たす、取得することと、
前記投影パラメータ及び前記３Ｄシーン内の視点に従って、前記少なくとも２Ｄ画像の画素を逆投影することと、を行うように構成されている、デバイス。