JP2023506832A

JP2023506832A - 補助パッチを有する容積ビデオ

Info

Publication number: JP2023506832A
Application number: JP2022536635A
Authority: JP
Inventors: ドーレ、ルノー; シュポー、ベルトラン; トゥドール、フランク; フルーロー、ジュリアン
Original assignee: インターデジタルブイシーホールディングスフランス
Priority date: 2019-12-19
Filing date: 2020-12-17
Publication date: 2023-02-20
Also published as: CN114945946A; TW202126036A; MX2022007297A; KR20220127246A; EP4078531A1; WO2021122881A1; US20230042874A1; AU2020409674A1

Abstract

３Ｄシーンを表すデータを符号化及び復号化するための方法及びデバイスが開示される。第１のパッチのセットは、３Ｄシーンの第１の領域から取得された第１のＭＶＤコンテンツから生成される。パッチは、ＭＶＤコンテンツのビューのうちの１つの一部である。第２のパッチのセットは、３Ｄシーンの第２の領域から取得された第２のＭＶＤコンテンツから生成される。第１及び第２のパッチをパッキングするアトラスが生成され、アトラスのパッチについて、パッチが第１のパッチか第２のパッチかを示すメタデータに関連付けられる。復号化側では、第１のパッチはビューポート画像をレンダリングするために使用され、第２のパッチは、ビューポート画像を前処理又は後処理するために使用される。【選択図】図７

Description

本原理は、概して、三次元（three-dimensional、３Ｄ）シーン及び容積ビデオコンテンツのドメインに関する。本文書はまた、モバイルデバイス又はヘッドマウントディスプレイ（Head-Mounted Display、ＨＭＤ）などのエンドユーザデバイス上の容積コンテンツのレンダリングのための、テクスチャ及び３Ｄシーンの幾何学的形状を表すデータの符号化、フォーマット化及び復号化の文脈において理解される。

本節は、以下に説明及び／又は特許請求される本原理の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本原理の様々な態様のより良好な理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。

近年、利用可能な大きな視野コンテンツ（最大３６０°）の成長があった。そのようなコンテンツは、ヘッドマウントディスプレイ、スマートグラス、ＰＣスクリーン、タブレット、スマートフォンなどの没入型表示デバイス上のコンテンツを視聴するユーザによって完全には見えない可能性がある。これは、所与の瞬間に、ユーザがコンテンツの一部のみを視認することができることを意味する。しかしながら、ユーザは、典型的には、頭部の動き、マウスの動き、タッチスクリーン、音声などの様々な手段によって、コンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化及び復号化することが望ましい。

３６０°フラットビデオとも呼ばれる没入型ビデオにより、ユーザは、静止点の周りの頭部の回転を通じて自身の周りの全てを視聴することができる。回転は、３自由度（3 Degrees of Freedom、３ＤｏＦ）体験のみを可能にする。例えば、３ＤｏＦビデオが、ヘッドマウントディスプレイデバイス（ＨＭＤ）を使用した第１の全方向性ビデオ体験に十分である場合であっても、例えば視差を体験することによって、より多くの自由度を期待する視聴者にとって、３ＤｏＦビデオは即座に苛立たしいものになる可能性がある。更に、３ＤｏＦはまた、ユーザが頭部を回転させるだけでなく、頭部を３方向に並進させるために、３ＤｏＦビデオ体験で再現されない並進のために、めまいを誘発し得る。

大きな視野コンテンツは、とりわけ、三次元コンピュータグラフィック画像シーン（three-dimension computer graphic imagery scene、３ＤＣＧＩシーン）、点群又は没入型ビデオであり得る。そのような没入型ビデオを設計するために多くの用語が使用され得る。例えば、仮想現実（Virtual Reality、ＶＲ）、３６０、パノラマ、４πステラジアン、没入型、全方向性又は大きな視野。

容積ビデオ（６自由度（6 Degrees of Freedom、６ＤｏＦ）ビデオとしても既知である）は、３ＤｏＦビデオの代替物である。６ＤｏＦビデオを視聴するとき、回転に加えて、ユーザはまた、視聴されたコンテンツ内で頭部を、更には自身の身体を並進させ、視差及び更には容積を体験することができる。そのようなビデオは、没入の感覚及びシーン深度の知覚を大幅に増加させ、頭部並進中に一貫した視覚的フィードバックを提供することによって、めまいを防止する。コンテンツは、目的のシーンの色及び深度の同時記録を可能にする専用センサの手段によって作成される。写真測量技術と組み合わせたカラーカメラのリグの使用は、技術的な困難が残っている場合でも、そのような記録を実行する方法である。

３ＤｏＦビデオは、テクスチャ画像（例えば、緯度／経度投影マッピング又は正距円筒図法マッピングに従って符号化された球形画像）のアンマッピングから生じる一連の画像を含むが、６ＤｏＦビデオフレームは、いくつかの視点から情報を埋め込む。それらは、三次元捕捉から生じる時間的一連の点群として視認することができる。視聴条件に応じて、２種類の容積ビデオを考慮することができる。第１のもの（すなわち、完全な６ＤｏＦ）は、ビデオコンテンツ内の完全な自由ナビゲーションを可能にするが、第２のもの（別名３ＤｏＦ＋）は、ユーザ視認空間を視認境界ボックスと呼ばれる限られた容積に制限し、頭部及び視差体験の制限された容積を可能にする。この第２の文脈は、着座したオーディエンスメンバーの自由ナビゲーションと受動的視聴条件との間の貴重なトレードオフである。

３ＤｏＦ＋シナリオでは、アプローチは、視認境界ボックスの任意の点から３Ｄシーンを視聴するために必要な情報のみを送信することからなる。別のアプローチは、視認境界ボックスからは見えないが、再照明、衝突検出、又はハプティックインタラクションのようにデコーダ側で他のプロセスを実行するのに有用な、追加の幾何学的形状及び／又は色情報を送信することを考慮する。この追加情報は、可視点と同じ形式で伝達されてもよい。しかしながら、情報の一部はレンダリングに使用され、情報の他の部分は他の処理に使用されることをデコーダに示す形式及び方法の需要がある。

以下は、本原理のいくつかの態様の基本的な理解を提供するための本原理の簡略化された概要を提示する。この概要は、本原理の広範な概要ではない。本原理の重要な又は重大な要素を特定することは意図されていない。以下の概要は、以下に提供されるより詳細な説明の前置きとして簡略化された形態で、本原理のいくつかの態様を単に提示するに過ぎない。

本原理は、データストリーム内の３Ｄシーンを表すデータを符号化するための方法に関する。この方法は、
－３Ｄシーンのレンダリングのために取得された第１のマルチビュープラス深度（ＭＶＤ）コンテンツから第１のパッチのセットを生成すること。第１のＭＶＤは、３Ｄシーンの第１の領域から取得される。パッチは、ＭＶＤコンテンツのビューのうちの１つの一部である。
－前処理又は後処理使用のために取得された第２のＭＶＤコンテンツから第２のパッチのセットを生成すること。第２のＭＶＤは、３Ｄシーンの第２の領域から取得される。第２の領域は、第１の領域と重なっても分離していてもよい。
－第１及び第２のパッチを有するアトラスを生成すること。アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像であり、アトラスのパッチについて、パッチが第１のパッチか第２のパッチかを示すメタデータに関連付けられる。
－当該データストリーム内で当該アトラスを符号化すること
を含む。

本原理はまた、データストリームからの３Ｄシーンを表すデータを復号化するための方法にも関する。この方法は、
－アトラス及び関連付けられたメタデータを取得するためにデータストリームを復号化すること。アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像である。パッチは、３Ｄシーンの領域から取得されたＭＶＤコンテンツの１つのビューの一部である。メタデータは、アトラスのパッチについて、パッチが第１のパッチか第２のパッチかを示すデータを含み、第１のパッチは３Ｄシーンの第１の領域から取得されたＭＶＤコンテンツの一部であり、第２のパッチは３Ｄシーンの第２の領域から取得されたＭＶＤの一部である。第１及び第２の領域は、重なっても分離していてもよい。
－メタデータ内の第１のパッチとして示されるパッチを使用することによって、３Ｄシーン内の視点からビューポート画像をレンダリングすることと、
－当該ビューポート画像を前処理及び／又は後処理するために、メタデータ内の第２のパッチとして示されるパッチを使用することと
を含む。

本原理は、上記の符号化方法を実装するように構成されたプロセッサを含むデバイス、並びに上記の復号化方法を実装するように構成されたプロセッサを含むデバイスにも関する。

本原理は、３Ｄシーンを表すデータを搬送するデータストリーム及び／又は非一時的媒体にも関する。データストリーム又は非一時的媒体は、
－アトラスレイアウトに従って第１及び第２のパッチをパッキングするアトラス画像であって、第１のパッチは、３Ｄシーンのレンダリングのために取得されたＭＶＤコンテンツの１つのビューの一部であり、第２のパッチは、前処理又は後処理使用のために取得されたＭＶＤコンテンツの１つのビューの一部である、アトラス画像と、
－当該アトラスに関連付けられたメタデータであって、メタデータは、アトラスのパッチについて、パッチが第１のパッチか第２のパッチかを示すデータを含む、メタデータと
を含む。

本開示は、より良好に理解され、以下の説明を読むと、他の特定の特徴及び利点が明らかになり、本明細書は、添付の図面を参照する。
本原理の非限定的な実施形態による、３Ｄモデルに対応するオブジェクト及び点群の点の三次元（３Ｄ）モデルを示す。本原理の非限定的な実施形態による、３Ｄシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。本原理の非限定的な実施形態による、図８及び図９に関連して説明される方法を実施するように構成され得るデバイスの例示的なアーキテクチャを示す。本原理の非限定的な実施形態による、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の一実施形態の一例を示す。本原理の非限定的な実施形態による、中心視点からの球面投影を示す。本原理の非限定的な実施形態による、エンコーダによるアトラス６０及び６１の生成の一例を示す。本原理の非限定的な実施形態による、３ＤｏＦ＋レンダリングのビューと補助パッチの追加のビューとの取得を示す。本原理の非限定的な実施形態による、補助情報を含む容積ビデオコンテンツを符号化するための方法８０を示す。本原理の非限定的な実施形態による、補助情報を含む容積ビデオコンテンツを復号化するための方法９０を示す。

本原理は、添付の図面を参照して以下により完全に説明され、本原理の例が示されている。しかしながら、本原理は、多くの代替形態で具体化され得、本明細書に記載の実施例に限定されるものとして解釈されるべきではない。したがって、本原理は、様々な修正及び代替的な形態の余地があるが、その具体的な例は、図面の例として示され、本明細書において詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、反対に、本開示は、特許請求の範囲によって定義される本原理の趣旨及び範囲内にある全ての修正、均等物及び代替物を網羅することであることを理解されたい。

本明細書で使用される用語は、特定の実施例のみを説明する目的のためであり、本原理を限定することを意図するものではない。本明細書で使用される場合、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈が別途明確に示されない限り、複数形も含むことが意図される。本明細書で使用される場合、「含む（comprises）」、「含む（comprising）」、「含む（includes）」及び／又は「含む（including）」という用語は、記載された特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素及び／又はそれらのグループの存在又は追加を排除しないことが更に理解されるであろう。更に、要素が別の要素に「応答する」又は「接続される」と称される場合、それは、他の要素に直接応答するか、又は他の要素に接続され得るか、又は介在要素が存在し得る。対照的に、要素が他の要素に「直接応答する」又は「直接接続される」と称される場合、介在要素は存在しない。本明細書で使用される場合、「及び／又は」という用語は、関連付けられた列挙された項目のうちの１つ以上の任意の及び全ての組み合わせを含み、「／」と略され得る。

本明細書では、第１、第２などの用語が様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第１の要素は、第２の要素と呼ぶことができ、同様に、第２の要素は、本原理の教示から逸脱することなく、第１の要素と呼ぶことができる。

図の一部は、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、描かれた矢印と反対方向に発生し得ることを理解されたい。

いくつかの例は、各ブロックが、指定された論理機能を実装するための１つ以上の実行可能命令を含む、回路要素、モジュール又はコードの部分を表すブロック図及び動作フローチャートに関して説明される。他の実装では、ブロックに記載された機能は、記載された順序から発生し得ることにも留意されたい。例えば、連続して示されている２つのブロックは、実際には実質的に同時に実行され得るか、又は関与する機能に応じて、ブロックが逆の順序で実行され得る。

本明細書における「一例による」又は「一例における」は、本実施例に関連して説明される特定の特徴、構造又は特性が、本原理の少なくとも１つの実装形態に含まれ得ることを意味する。本明細書の様々な場所における「一例による」又は「一例における」の句の出現は、必ずしも全てが同じ例を指しているわけではなく、別個の又は代替的な実施例では、必ずしも他の実施例と相互に排他的ではない。

特許請求の範囲に現れる参照番号は、単に例示としてのものであり、特許請求の範囲に限定的な影響を及ぼさないものとする。明示的に記載されていないが、本実施例及び変形例は、任意の組み合わせ又は部分的な組み合わせで用いられ得る。

図１は、オブジェクト及び３Ｄモデル１０に対応する点群１１の点の三次元（３Ｄ）モデル１０を示す。３Ｄモデル１０及び点群１１は、例えば、他のオブジェクトを含む３Ｄシーンのオブジェクトの潜在的な３Ｄ表現に対応し得る。モデル１０は、３Ｄメッシュ表現であり得、点群１１の点は、メッシュの頂点であり得る。点群１１の点はまた、メッシュの面の表面上に広がった点であり得る。モデル１０はまた、点群１１のスプラッティングされたバージョンとして表すこともでき、モデル１０の表面は、点群１１の点をスプラッティングすることによって作成される。モデル１０は、ボクセル又はスプラインなどの多くの異なる表現によって表され得る。図１は、点群が３Ｄオブジェクトの表面表現と定義され得、３Ｄオブジェクトの表面表現がクラウドの点から生成され得るという事実を示す。本明細書で使用される場合、画像上の（３Ｄシーンの伸長点による）３Ｄオブジェクトの投影点は、この３Ｄオブジェクト、例えば、点群、メッシュ、スプラインモデル又はボクセルモデルの任意の表現を投影することと同等である。

点群は、例えば、ベクトルベースの構造としてメモリで表すことができ、各点は、視点の参照フレーム内の独自の座標（例えば、三次元座標ＸＹＺ、又は視点からの／視点への立体角及び距離（深度とも呼ばれる））及び成分とも呼ばれる１つ以上の属性を有する。成分の例は、様々な色空間、例えば、ＲＧＢ（赤、緑及び青）又はＹＵＶ（Ｙが輝度成分及びＵＶが２つの色差成分である）で発現され得る色成分である。点群は、オブジェクトを含む３Ｄシーンの表現である。３Ｄシーンは、所与の視点又は視点の範囲から見ることができる。点群は、多くの方法によって、例えば、
・任意選択的に深度アクティブセンシングデバイスによって補完された、カメラのリグによって撮影された実オブジェクトの捕捉から、
・モデリングツールにおける仮想カメラのリグによって撮影された仮想／合成オブジェクトの捕捉から、
・実オブジェクトと仮想オブジェクトの両方の混合物から、取得され得る。

図２は、３Ｄシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。例えば、同時に、３ＤｏＦ、３ＤｏＦ＋及び６ＤｏＦ復号化に適合することができる符号化形式。

３Ｄシーン２０のシーケンスが取得される。写真のシーケンスが２Ｄビデオであるとき、３Ｄシーンのシーケンスは３Ｄ（容積とも呼ばれる）ビデオである。３Ｄシーンのシーケンスは、３ＤｏＦ、３Ｄｏｆ＋又は６ＤｏＦレンダリング及び表示のための容積ビデオレンダリングデバイスに提供され得る。

３Ｄシーン２０のシーケンスは、エンコーダ２１に提供される。エンコーダ２１は、入力として１つの３Ｄシーン又は３Ｄシーンのシーケンスを取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ２２内に、かつ／又は電子データ媒体上に記憶され得、ネットワーク２２を介して送信され得る。３Ｄシーンのシーケンスを表すビットストリームは、メモリ２２から読み取られ、かつ／又はデコーダ２３によってネットワーク２２から受信され得る。デコーダ２３は、当該ビットストリームによって入力され、例えば、点群形式で３Ｄシーンのシーケンスを提供する。

エンコーダ２１は、いくつかのステップを実装するいくつかの回路を備え得る。第１のステップでは、エンコーダ２１は、各３Ｄシーンを少なくとも１つの２Ｄ写真に投影する。３Ｄ投影は、三次元点を二次元平面にマッピングする任意の方法である。グラフィックデータを表示するための最新の方法は、平面（いくつかのビット平面からの画素情報）二次元媒体に基づいているため、このタイプの投影の使用は、特にコンピュータグラフィック、操作及びドラフト化において広範囲に及ぶ。投影回路２１１は、シーケンス２０の３Ｄシーンのための少なくとも１つの二次元フレーム２１１１を提供する。フレーム２１１１は、フレーム２１１１上に投影された３Ｄシーンを表す色情報及び深度情報を含む。変形例では、色情報及び深度情報は、２つの別個のフレーム２１１１及び２１１２において符号化される。

メタデータ２１２は、投影回路２１１によって使用され、更新される。メタデータ２１２は、図５～図７に関連して説明したように、投影動作（例えば、投影パラメータ）並びに色及び深度情報がフレーム２１１１及び２１１２内で編成される方法に関する情報を含む。

ビデオ符号化回路２１３は、フレーム２１１１及び２１１２のシーケンスをビデオとして符号化する。３Ｄシーン２１１１及び２１１２の写真（又は３Ｄシーンの写真のシーケンス）は、ビデオエンコーダ２１３によってストリーム内で符号化される。次いで、ビデオデータ及びメタデータ２１２は、データカプセル化回路２１４によってデータストリーム内でカプセル化される。

エンコーダ２１３は、例えば、
－ＪＰＥＧ、仕様ＩＳＯ／ＣＥＩ１０９１８－１ＵＩＴ－Ｔ推奨Ｔ．８１、ｈｔｔｐｓ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｔ．８１／ｅｎ；
－ＭＰＥＧ－４ＡＶＣ又はｈ２６４とも呼ばれるＡＶＣなどのエンコーダに準拠する。ＵＩＴ－ＴＨ．２６４及びＩＳＯ／ＣＥＩＭＰＥＧ－４－Ｐａｒｔ１０（ＩＳＯ／ＣＥＩ１４４９６－１０）、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６４／ｅｎ，ＨＥＶＣ（その仕様は、ＩＴＵウェブサイト、Ｔ推奨、Ｈ系列、ｈ２６５、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６５－２０１６１２－Ｉ／ｅｎで見出される）、
－３Ｄ－ＨＥＶＣ（仕様がＩＴＵウェブサイト、Ｔ推奨、Ｈ系列、ｈ２６５、ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ－ＲＥＣ－Ｈ．２６５－２０１６１２－Ｉ／ｅｎａｎｎｅｘＧａｎｄＩで見出されるＨＥＶＣの拡張子）、
－Ｇｏｏｇｌｅによって開発されたＶＰ９、又は
－ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａによって開発されたＡＶ１（ＡＯ媒体ビデオ１）。

データストリームは、デコーダ２３によって、例えばネットワーク２２を介してアクセス可能なメモリに記憶される。デコーダ２３は、復号化の異なるステップを実装する異なる回路を備える。デコーダ２３は、エンコーダ２１によって生成されたデータストリームを入力として取り、ヘッドマウントデバイス（ＨＭＤ）のような容積ビデオ表示デバイスによってレンダリングされ、かつ表示される３Ｄシーン２４のシーケンスを提供する。デコーダ２３は、ソース２２からストリームを取得する。例えば、ソース２２は、
－例えば、ビデオメモリ又はＲＡＭ（又はランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（又は読み取り専用メモリ）、ハードディスクなどのローカルメモリと、
－例えば、質量ストレージ、ＲＡＭ、フラッシュメモリ、ＲＯＭ、光学ディスク又は磁気サポートとのインターフェースなどのストレージインターフェースと、
－例えば、有線インターフェース（例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース）又は無線インターフェース（ＩＥＥＥ８０２．１１インターフェース又はＢｌｕｅｔｏｏｔｈ（登録商標）インターフェースなど）などの通信インターフェースと、
－ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェースと、を含むセットに属する。

デコーダ２３は、データストリーム内で符号化されたデータを抽出するための回路２３４を備える。回路２３４は、データストリームを入力として取り、ストリーム及び二次元ビデオにおいて符号化されたメタデータ２１２に対応するメタデータ２３２を提供する。ビデオは、フレームのシーケンスを提供するビデオデコーダ２３３によって復号化される。復号化されたフレームは、色及び深度情報を含む。変形例では、ビデオデコーダ２３３は、一方が色情報を含み、他方が深度情報を含む２つのフレームのシーケンスを提供する。回路２３１は、メタデータ２３２を使用して、復号化されたフレームからの色及び深度情報を投影せず、３Ｄシーン２４のシーケンスを提供する。３Ｄシーン２４のシーケンスは、２Ｄビデオとしての符号化に関連する精度が潜在的に低下３Ｄシーン２０のシーケンス及びビデオ圧縮に対応する。

例えば、回路２３１による逆投影ステップの前、又は逆投影後の後処理ステップにおいて、他の回路及び機能が追加されてもよい。例えば、シーン内のどこかに位置する別の照明からのシーンの再照明のための回路が追加されてもよい。衝突検出は、一貫した現実的な方法で、又は経路計画のために、新しいオブジェクトを３ＤｏＦ＋シーンに追加するなど、深度合成のために実行されてもよい。このような回路は、３ＤｏＦ＋レンダリング自体のために使用されるものではない３Ｄシーンに関する幾何学的形状及び／又は色情報を必要とする場合がある。異なる種類の情報の意味は、３ＤｏＦ＋シーンを表すビットストリームによって示されなければならない。

図３は、図８及び図９に関連して説明される方法を実施するように構成され得るデバイス３０のアーキテクチャの一例を示す。図２のエンコーダ２１及び／又はデコーダ２３は、このアーキテクチャを実装し得る。代替的に、エンコーダ２１及び／又はデコーダ２３の各回路は、例えば、それらのバス３１を介して、かつ／又はＩ／Ｏインターフェース３６を介して一緒に連結された、図３のアーキテクチャによるデバイスであり得る。

デバイス３０は、データ及びアドレスバス３１によって一緒に連結された以下の要素：
－例えば、ＤＳＰ（又はデジタル信号プロセッサ）であるマイクロプロセッサ３２（又はＣＰＵ）と、
－ＲＯＭ（又は読み取り専用メモリ）３３と、
－ＲＡＭ（又はランダムアクセスメモリ）３４と、
－ストレージインターフェース３５と、
－アプリケーションから、送信するデータを受信するためのＩ／Ｏインターフェース３６と、
－電源、例えば、バッテリと、を備える。

一例によれば、電源はデバイスの外部にある。言及されたメモリの各々において、本明細書で使用される「レジスタ」という単語は、小さな容量の領域（いくつかのビット）又は非常に大きな領域（例えば、全体のプログラム又は大量の受信された、又は復号化されたデータ）に対応し得る。ＲＯＭ３３は、少なくともプログラム及びパラメータを含む。ＲＯＭ３３は、本原理に従って技術を実行するためのアルゴリズム及び命令を記憶することができる。オンに切り替えられると、ＣＰＵ３２は、ＲＡＭ内のプログラムをアップロードし、対応する命令を実行する。

ＲＡＭ３４は、レジスタ内で、ＣＰＵ３２によって実行され、デバイス３０のスイッチオン後にアップロードされるプログラムと、レジスタ内の入力データと、レジスタ内の方法の異なる状態の中間データと、レジスタ内の方法の実行のために使用される他の変数と、を含む。

本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合（例えば、方法又はデバイスとしてのみ考察される）であっても、考察される特徴の実装形態は、他の形態（例えば、プログラム）においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（「ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

実施例によれば、デバイス３０は、図８及び図９に関連して説明された方法を実装するように構成されており、
－モバイルデバイスと、
－通信デバイスと、
－ゲームデバイスと、
－タブレット（又はタブレットコンピュータ）と、
－ラップトップと、
－静止画カメラと、
－ビデオカメラと、
－符号化チップと、
－サーバ（例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ又はウェブサーバ）と、を含むセットに属する。

図４は、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の実施形態の一例を示す。図４は、容積ビデオストリームの例示的な構造４を示す。構造は、構文の独立した要素においてストリームを編成する容器からなる。構造は、ストリームの全ての構文要素に共通のデータのセットであるヘッダ部分４１を含み得る。例えば、ヘッダ部分は、構文要素に関するメタデータのいくつかを含み、それらの各々の性質及び役割を説明する。ヘッダ部分はまた、図２のメタデータ２１２の一部、例えば、３Ｄシーンの点をフレーム２１１１及び２１１２上に投影するために使用される中心視点の座標を含み得る。構造は、構文４２の要素と、構文４３の少なくとも１つの要素を含むペイロードを含む。構文要素４２は、色及び深度フレームを表すデータを含む。画像は、ビデオ圧縮方法に従って圧縮されている場合がある。

構文４３の要素は、データストリームのペイロードの一部であり、構文４２の要素のフレームがどのように符号化されるかについてのメタデータ、例えば、３Ｄシーンの点をフレーム上に投影するか、パッキングするために使用されるパラメータを含み得る。そのようなメタデータは、ビデオの各フレーム又は（ビデオ圧縮標準において写真のグループ（Group of Pictures、ＧｏＰ）としても既知である）フレームのグループと関連付けられ得る。

図５は、４つの投影中心の例を有するパッチアトラスアプローチを示す。３Ｄシーン５０は、特徴を含む。例えば、投影中心５１は、遠近投影カメラであり、カメラ５３は、正投影カメラである。カメラはまた、例えば、球形マッピング（例えば、正距円筒図法マッピング）又は立方体マッピングを有する全方向カメラであり得る。３Ｄシーンの３Ｄ点は、メタデータの投影データに記載された投影動作に従って、投影中心に位置する仮想カメラに関連付けられた２Ｄ平面上に投影される。図５の例では、カメラ５１によって捕捉された点の投影は、遠近法マッピングに従ってパッチ５２上にマッピングされ、カメラ５３によって捕捉された点の投影は、直交マッピングに従ってパッチ５４上にマッピングされる。

投影ピクセルのクラスター化により、多数の２Ｄパッチが得られ、これは長方形のアトラス５５にパッキングされる。アトラス内のパッチの組織は、アトラスレイアウトを定義する。一実施形態では、同一のレイアウトを有する２つのアトラス：１つはテクスチャ（すなわち、色）情報のためのものであり、１つは奥行き情報のためのもの。同じカメラ又は２つの別個のカメラによって捕捉された２つのパッチは、例えば、パッチ５４及び５６のような３Ｄシーンの同じ部分を表す情報を含み得る。

パッキング動作は、生成されたパッチごとにパッチデータを生成する。パッチデータは、投影データの参照（例えば、投影データのテーブル内のインデックス又は投影データへのポインタ（メモリ又はデータストリーム内のアドレス））及びアトラス内のパッチの場所及びサイズを説明する情報（例えば、ピクセルの上部左角座標、サイズ、及び幅）を説明する情報を含む。パッチデータ項目は、１つ又は２つのアトラスの圧縮データと関連付けられてデータストリーム内でカプセル化されるメタデータに追加される。

図６は、エンコーダによるアトラス６０及び６１の生成の一例を示す。アトラス６０及び６１は、本原理の非限定的な実施形態による、３Ｄシーンの点のテクスチャ情報（例えば、ＲＧＢデータ又はＹＵＶデータ）を含む。図５に関連して説明されたように、アトラスは、パッチをパッキングする画像である。例えば、エンコーダは、図６の例において３つのビュー６２、６３、及び６４を含むマルチビュー＋深度ビデオを入力として取る。エンコーダは、ビュー間冗長性を除去し（プルーニングステップ）、テクスチャ及び深度の選択されたパッチを１つ以上のアトラスにパッキングする。したがって、ビットストリームは、テクスチャ及び深度パッチのアトラスを搬送する複数のビデオストリーム（例えば、ＨＥＶＣビデオストリーム）からなり、入力ビュー及びアトラスレイアウトのカメラパラメータを記述するメタデータを伴う。

パッチアトラスは、テクスチャ及び深度のために同じ写真サイズ及び同じレイアウト（同じパッキング）を有する、テクスチャ及び深度アトラス成分のペアからなる。あるアプローチでは、アトラスは、視認境界ボックス内の任意の点からのシーンの３ＤｏＦ＋レンダリングに必要な情報のみを搬送する。別のアプローチでは、アトラスは、シーン再照明又は衝突検出などの他の処理に有用な追加の幾何学的形状及び／又は色情報を搬送してもよい。例えば、この追加情報は、３Ｄシーンのオブジェクトの背面の幾何学的形状であってもよい。このようなパッチは、補助パッチと呼ばれる。これらは、デコーダによってレンダリングされるのではなく、デコーダの前処理又は後処理回路によって使用されることになる。

図７は、３ＤｏＦ＋レンダリングのビューと補助パッチの追加のビューとの取得を示す。エンコーダ側では、補助パッチの生成は、異なる手段によって実行されてもよい。例えば、シーン７０の取得では、現実又は仮想カメラの第１のグループ７１は、シーン７０の前面を指して配置されてもよい。現実又は仮想カメラの第２のグループ７２は、容積シーンの背面及び側面を見るように配置される。一実施形態では、カメラ７２は、カメラ７１よりも低い解像度でビューを捕捉する。カメラ７２は、オブジェクトの隠れた部分の幾何学的形状及び／又は色を得る。カメラ７１によって捕捉されたビューから取得されたパッチは３ＤｏＦ＋レンダリング用のパッチであり、カメラ７２によって捕捉されたビューから取得されたパッチは、前処理又は後処理使用のための幾何学的形状及び／又は色情報の記述を完了するための補助パッチである。アトラスのパッチに関連付けられたメタデータは、各パッチの意味をシグナリングするためにフォーマットされ得る。デコーダ側では、ビューポートレンダラーは、レンダリングに無効なパッチをスキップする必要がある。メタデータは、デコーダのどのモジュールがこれらのレンダリング無効パッチを使用し得るかも示す。例えば、再照明回路は、照明の視点からその幾何学的形状マップを更新し、相応に適切な影を生成するようにシーン全体の照明テクスチャを変化させるために、この補助情報を使用する。

典型的にはより低い解像度で、オブジェクトの背面部分の幾何学的形状を記述する、背面及び側面から撮影しているカメラ７２に関連付けられた、補助パッチを生成するための手段が、エンコーダに追加される。背面及び側面からの追加の深度ビューを最初に取得する必要があるが、これは様々な方法で行うことができる。合成的に生成されたオブジェクトの場合、任意の場所に配置された仮想カメラに関連付けられた深度画像は、３Ｄモデルから直接取得される。自然な３Ｄ捕捉では、追加の色及び／又アクティブな深度カメラを撮影段階に追加することができ、深度カメラは深度ビューを直接提供し、その一方で写真測量アルゴリズムはカラービューから深度を推定する。３Ｄモデルも追加捕捉も利用可能ではないとき、前面カメラから受信した開放形態の幾何学的形状からの妥当な閉鎖形状を生成するために、凸形状完了アルゴリズムを使用することができる。次に、カメラ７１からのビューに対して実行されたのと同様の方法で、プルーニングによってビュー間冗長性が除去される。一実施形態では、プルーニングは、２つのグループのビューに対して独立して実行される。したがって、正規パッチと余分のパッチとの間の可能性のある冗長性は除去されない。結果として生じる補助深度パッチは、深度パッチアトラス内の正規パッチと一緒にパッキングされる。

別の実施形態では、補助パッチが深度のみについて定義される場合、テクスチャ及び深度アトラスに同一のレイアウトが使用されるならば、アトラス上のテクスチャ部分は空のままとなる。これらの補助パッチがより低い解像度で定義されると思われる場合でも、これはテクスチャアトラス内の余裕の損失をもたらす。このような実施形態では、深度及びテクスチャアトラスに対して異なるレイアウトを使用してもよく、この違いは、アトラスに関連付けられたメタデータに示される。

アトラスを記述するメタデータの可能な構文は、「ｅｎｔｉｔｙ＿ｉｄ」と呼ばれる高レベルの概念を含んでもよく、このｅｎｔｉｔｙ＿ｉｄにより、オブジェクトフィルタリング又は合成などの高レベルな意味的処理にパッチのグループを添付することを可能にする。アトラスパラメータのメタデータに可能な構文ａを、以下の表に示す。

本原理の一実施形態によれば、補助パッチは、補助エンティティと呼ばれる特定のエンティティとして識別される。次に、いくつかのエンティティ及びその機能（すなわち、これらが補助エンティティであるか否か）は、以下の表に示されるようにメタデータに記述される。

１に等しいａｕｘｉｌｉａｒｙ＿ｆｌａｇは、エンティティ構造ごとに補助記述が存在することを示す。

１に等しいａｕｘｉｌｉａｒｙ＿ｅｎｔｉｔｙ＿ｆｌａｇ［ｅ］は、エンティティｅに関連するパッチがビューポートレンダリング用ではないことを示す。

本原理の別の実施形態によれば、補助パッチは、以下の表に示されるようにアトラスパラメータの構文を修正することによって、パッチレベルでシグナリングされる。

１に等しいａｕｘｉｌｉａｒｙ＿ｆｌａｇは、パッチ構造ごとに補助記述が存在することを示す。

１に等しいａｕｘｉｌｉａｒｙ＿ｐａｔｃｈ＿ｆｌａｇ［ａ］［ｐ］は、アトラスａのパッチｐがビューポートレンダリング用ではないことを示す。

別の実施形態では、パッチ情報データ構文は、以下の表に示されるように補助パッチフラグを定義する。

復号化側では、ａｕｘｉｌｉａｒｙ＿ｐａｔｃｈ＿ｆｌａｇは、パッチがレンダリング用及び／又は別のモジュール用の情報を含むか否かを判定するために使用される。

図８は、本原理の非限定的な実施形態による、補助情報を含む容積ビデオコンテンツを符号化するための方法８０を示す。ステップ８１において、例えば、第１のグループのカメラによって取得されたマルチビュープラス深度コンテンツから冗長情報をプルーニングすることによって、３ＤｏＦ＋レンダリングに使用されるパッチが生成される。ステップ８２において、レンダリングされることを意図していないシーンの部分を撮影しているカメラによって捕捉されたビューから補助パッチが生成される。ステップ８１及び８２は、平行して、又は順々に実行されてもよい。補助パッチを生成するために使用されるビューは、例えば、３Ｄシーンの背面及び側面に位置する、第２のグループのカメラによって捕捉される。補助パッチは、例えば、第１及び第２のグループのカメラによって捕捉されたビューに含まれる冗長情報をプルーニングすることによって生成される。別の実施形態では、補助パッチは、例えば、第２のグループのカメラによってのみ捕捉されたビューに含まれる冗長情報をプルーニングすることによって生成される。この実施形態では、３ＤｏＦ＋パッチと補助パッチとの間に冗長性が存在し得る。ステップ８３において、アトラスは、３ＤｏＦ＋及び補助パッチを同じ画像内にパッキングすることによって生成される。一実施形態では、パッキングレイアウトは、アトラスの深度及び色成分で異なる。アトラスパラメータ及びパッチパラメータを記述するメタデータは、上記の表に記載されるような構文に従って生成される。メタデータは、パッチごとに、パッチがレンダリングされることになる３ＤｏＦ＋パッチであるか、又は前処理及び／又は後処理に使用されることになる補助パッチであるかを示す情報を含む。ステップ８４において、生成されたアトラス及び関連付けられたメタデータは、データストリーム内で符号化される。

図９は、本原理の非限定的な実施形態による、補助情報を含む容積ビデオコンテンツを復号化するための方法９０を示す。ステップ９１において、容積コンテンツを表すデータストリームが、ストリームから取得される。データストリームは、アトラス及び関連付けられたメタデータを取得するために復号化される。アトラスは、パッキングレイアウトに従って少なくとも１つのパッチをパッキングする画像である。パッチは、３Ｄシーンの一部を表す深度及び／又は色情報を含む写真である。メタデータは、パッチを逆投影し、３Ｄシーンを取得するための情報を含む。ステップ９２において、パッチはアトラスからアンパッキングされ、性質は、メタデータに含まれる情報に従って各パッチに起因する。パッチは、ステップ９３でビューポート画像をレンダリングするために使用することになる３ＤｏＦ＋パッチ、又はステップ９４で前処理又は後処理動作のために使用することになる補助パッチであってもよい。ステップ９３及び９４は、平行して、又は順々に実行されてもよい。

本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合（例えば、方法又はデバイスとしてのみ考察される）であっても、考察される特徴の実装形態は、他の形態（例えば、プログラム）においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（「personal digital assistant、ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

本明細書に記載の様々なプロセス及び特徴の実装は、様々な異なる機器又は用途、特に、例えば、データ符号化、データ復号化、ビュー生成、テクスチャ処理並びに画像及び関連するテクスチャ情報及び／又は深度情報の他の処理に関連付けられた機器又は用途において、具体化され得る。そのような機器の例としては、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、ＰＤＡ、及び他の通信デバイスが挙げられる。明確であるはずであるように、機器は、モバイルであり得、モバイル車両に設置され得る。

更に、方法は、プロセッサによって実行される命令によって実装され得、そのような命令（及び／又は実装形態によって生成されたデータ値）は、例えば、集積回路、ソフトウェアキャリア又は他の記憶デバイス、例えば、ハードディスク、コンパクトディスケット（「compact diskette、ＣＤ」）、光学ディスク（例えば、デジタル多用途ディスク又はデジタルビデオディスクと称されることが多いＤＶＤなど）、ランダムアクセスメモリ（「random access memory、ＲＡＭ」）又は読み取り専用メモリ（「read-only memory、ＲＯＭ」）などのプロセッサ可読媒体上に記憶され得る。命令は、プロセッサ可読媒体上で明白に具体化されたアプリケーションプログラムを形成し得る。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は２つの組み合わせに見出され得る。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体（記憶デバイスなど）を含むデバイスと、の両方として特徴付けられ得る。更に、プロセッサ可読媒体は、命令に加えて、又は命令の代わりに、実装形態によって生成されたデータ値を記憶することができる。

当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を担持するようにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの１つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態の構文を書き込むか、若しくは読み取るためのルールをデータとして担持するか、又は記載された実施形態によって書き込まれた実際の構文値をデータとして担持するようにフォーマット化され得る。かかる信号は、例えば、（例えば、スペクトルの無線周波数部分を使用して）電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

多くの実装形態が説明されている。それにもかかわらず、様々な修正が行われ得ることが理解されるであろう。例えば、異なる実装形態の要素は、他の実装形態を生成するために組み合わせ、補足、修正、又は削除することができる。更に、当業者は、開示されたものに対して他の構造及びプロセスを置換することができ、結果として生じる実装形態は、少なくとも実質的に同じ機能を少なくとも実質的に同じ方法で実行して、開示された実装形態と少なくとも実質的に同じ結果を達成することを理解するであろう。したがって、これら及び他の実装形態は、本出願によって企図される。

Claims

データストリーム内の３Ｄシーンを符号化するための方法であって、
－前記３Ｄシーンのレンダリングのために取得された第１のマルチビュープラス深度（ＭＶＤ）から第１のパッチのセットを生成することであって、パッチは、前記ＭＶＤコンテンツのビューのうちの１つの一部である、ことと、
－前処理又は後処理使用のために取得された第２のＭＶＤコンテンツから第２のパッチのセットを生成することと、
－前記第１及び第２のパッチのアトラスを生成することであって、アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像であり、前記アトラスのパッチについて、前記パッチが第１のパッチか第２のパッチかを示すメタデータに関連付けられている、ことと、
－前記データストリーム内で前記アトラスを符号化することと、
を含む、方法。
前記第２のＭＶＤは、前記第１のＭＶＤの解像度よりも低い解像度で取得される、請求項１に記載の方法。
パッチは、ビューとＭＶＤとの間の情報冗長性を除去することによって取得されたＭＶＤの１つのビューの一部である、請求項１又は２に記載の方法。
データストリームから３Ｄシーンを復号化するための方法であって、
－アトラス及び関連付けられたメタデータを取得するために前記データストリームを復号化することであって、アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像であり、パッチは、前記３Ｄシーンの領域から取得されたＭＶＤコンテンツの１つのビューの一部であり、前記メタデータは、前記アトラスのパッチについて、前記パッチが第１のパッチか第２のパッチかを示すデータを含む、ことと、
－前記メタデータ内の第１のパッチとして示されるパッチを使用することによって、前記３Ｄシーン内の視点からビューポート画像をレンダリングすることと、
－前記ビューポート画像を前処理及び／又は後処理するために、前記メタデータ内の第２のパッチとして示されるパッチを使用することと、
を含む、方法。
前記第２のＭＶＤは、前記第１のＭＶＤの解像度よりも低い解像度を有する、請求項４に記載の方法。
データストリーム内の３Ｄシーンを符号化するためのデバイスであって、前記デバイスは、
－前記３Ｄシーンのレンダリングのために取得された第１のマルチビュープラス深度（ＭＶＤ）から第１のパッチのセットを生成し、パッチは、前記ＭＶＤコンテンツのビューのうちの１つの一部であり、
－前処理又は後処理使用のために取得された第２のＭＶＤコンテンツから第２のパッチのセットを生成し、
－前記第１及び第２のパッチのアトラスを生成すし、アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像であり、前記アトラスのパッチについて、前記パッチが第１のパッチか第２のパッチかを示すメタデータに関連付けられており、
－前記データストリーム内で前記アトラスを符号化する、
ように構成されたプロセッサに関連付けられたメモリを含む、デバイス。
前記第２のＭＶＤは、前記第１のＭＶＤの解像度よりも低い解像度で取得される、請求項６に記載のデバイス。
パッチは、ビューとＭＶＤとの間の情報冗長性を除去することによって取得されたＭＶＤの１つのビューの一部である、請求項６又は７に記載のデバイス。
データストリームから３Ｄシーンを復号化するためのデバイスであって、
－アトラス及び関連付けられたメタデータを取得するために前記データストリームを復号化し、アトラスは、アトラスレイアウトに従ってパッチをパッキングする画像であり、パッチは、前記３Ｄシーンの領域から取得されたＭＶＤコンテンツの１つのビューの一部であり、前記メタデータは、前記アトラスのパッチについて、前記パッチが第１のパッチか第２のパッチかを示すデータを含み、
－前記メタデータ内の第１のパッチとして示されるパッチを使用することによって、前記３Ｄシーン内の視点からビューポート画像をレンダリングし、
－前記ビューポート画像を前処理及び／又は後処理するために、前記メタデータ内の第２のパッチとして示されるパッチを使用する、
ように構成されたプロセッサを含む、デバイス。
前記第２のＭＶＤは、前記第１のＭＶＤの解像度よりも低い解像度を有する、請求項９に記載のデバイス。
３Ｄシーンを表すデータストリームであって、前記データストリームは、
－アトラスレイアウトに従って第１及び第２のパッチをパッキングするアトラス画像であって、第１のパッチは、前記３Ｄシーンのレンダリングのために取得されたＭＶＤコンテンツの１つのビューの一部であり、第２のパッチは、前処理又は後処理使用のために取得されたＭＶＤコンテンツの１つのビューの一部である、アトラス画像と、
－前記アトラスに関連付けられたメタデータであって、前記メタデータは、前記アトラスのパッチについて、前記パッチが第１のパッチか第２のパッチかを示すデータを含む、メタデータと
を含む、データストリーム。
前記第２のＭＶＤは、前記第１のＭＶＤの解像度よりも低い解像度を有する、請求項１１に記載のデータストリーム。