JP2021511712A

JP2021511712A - 点群処理

Info

Publication number: JP2021511712A
Application number: JP2020538537A
Authority: JP
Inventors: シュヴェ，ジャン−クロード; ツァイ，カンイン; ピンサック，ジョアンラック
Original assignee: インターデジタルヴイシーホールディングス，インコーポレイテッド
Priority date: 2018-01-19
Filing date: 2019-01-21
Publication date: 2021-05-06
Anticipated expiration: 2039-01-21
Also published as: CN111837392A; EP3741118A1; MX2020007663A; CN118890482A; JP7476104B2; US11949889B2; US20200359035A1; CN111837392B; WO2019142163A1

Abstract

少なくとも１つの実施形態は、点群フレームのより近い点の深度値を表す第１の深度画像と、点群フレームのより遠い点の深度値を表す第２の深度画像と、をパディングするための方法に関する。この方法はまた、当該符号化された第１および第２の画像の時間インターリービングを含むビデオストリームを符号化することも含む。点群フレームのより近い点の深度値を表す第１の深度画像と、点群フレームのより遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、第１の深度画像の画素値を使用することによって、第２の深度画像の画素値をフィルタリングすることと、を含む方法も提供される。【選択図】図７

Description

本実施形態のうちの少なくとも１つは、概して、点群の処理に関する。

本節は、以下に記載および／または特許請求される本実施形態のうちの少なくとも１つの様々な態様に関連し得る技術の様々な態様を読者に紹介することが意図されている。本考察は、背景情報を読者に提供して、少なくとも１つの実施形態の様々な態様をより良く理解することを容易にすることに役立つと考えられる。

点群は、文化遺産／建造物などの様々な目的に使用することができ、そこにある彫像または建物のような対象物を３Ｄでスキャンし、対象物を送出または訪問せずに、対象物の空間的な構成を共有する。また、万が一その対象物が破壊され得る場合、例えば、地震により寺院が破壊され得る場合、点群は、その対象物の知識を確実に保全するための方法である。このような点群は、通常、静的で、色分けされ、かつ膨大である。

別の使用例としては、地形学およびマップ作成法においてであり、そこでは、３Ｄ表現を使用することにより、平面に限定されず、起伏を含み得るマップを可能にする。グーグルマップは、現在、３Ｄマップのよい例であるが、点群ではなく、メッシュを使用している。それにもかかわらず、点群は、３Ｄマップのための好適なデータ形式であり得、そのような点群は、通常、静的で、色分けされ、かつ膨大である。

自動車業界および自律運転車もまた、点群を使用することができる分野である。自律運転車は、それらの環境を「探査」し、それらの目前の近隣の現実に基づいて、良好な運転判断を行うことができる必要がある。ＬＩＤＡＲ（光検出と測距）のような典型的なセンサは、決定エンジンによって使用される動的点群を生成する。これらの点群は、人間が見ることを意図されておらず、それらは、通常、小さく、必ずしも色分けされておらず、かつ高い捕捉頻度で動的である。これらの点群は、この属性が、検知された対象物の材料に関する良好な情報を提供するときに、ＬＩＤＡＲにより提供される反射率のような他の属性を有することができ、決定を下すのに役立ち得る。

仮想現実および没入型世界が、最近、話題になっており、２Ｄ平面ビデオの未来として多くの人によって予測されている。その基本的な考え方は、視聴者を取り囲む環境内に視聴者を没入させることであり、視聴者がその視聴者の前方にある仮想世界を眺めることしかできない標準ＴＶとは対照的である。環境内の視聴者の自由に応じて、没入性には、いくつかの度合いがある。点群は、仮想現実（ＶＲ）世界を配信するための良好な形式候補である。

多くの用途において、許容可能な（または好ましくは非常によい）体験品質を維持しながら、妥当な量のビットレート（または記憶用途のための記憶空間）のみを消費することによって、動的点群をエンドユーザに配信する（または動的点群をサーバ内に格納する）ことができることが重要である。これらの動的な点群の効率的な圧縮が、多くの没入型世界の配信網を実用化するための重要なポイントである。

少なくとも１つの実施形態が、上記を念頭に置いて、考案されてきた。

以下は、本開示のいくつかの態様の基本的な理解を提供するために、本実施形態のうちの少なくとも１つの簡略化された概要を提示する。この概要は、実施形態の広範な概説ではない。実施形態の重要な要素または不可欠な要素を識別することは、意図されていない。以下の概要は、本文書内の他のところに提供されるさらに詳細な説明の序章として、簡略化された形態で、本実施形態のうちの少なくとも１つのいくつかの態様を提示するにすぎない。

少なくとも１つの実施形態の一般的な態様によれば、点群フレームのより近い点の深度値を表す第１の深度画像と、点群フレームのより遠い点の深度値を表す第２の深度画像と、をパディングすることを含む方法が提供される。この方法はまた、当該符号化される第１および第２の画像の時間インターリービングを含むビデオストリームを符号化することも含む。

点群フレームのより近い点の深度値を表す第１の深度画像と、点群フレームのより遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、
−第１の深度画像の画素値を使用することによって、第２の深度画像の画素値をフィルタリングすることと、を含む方法もまた提供される。

本実施形態のうちの少なくとも１つのうちの１つ以上はまた、上記の方法、コンピュータプログラム製品、非一時的コンピュータ可読媒体、ならびに点群フレームの点の深度値を表すデータ、および同じ投影線に沿って投影面上に投影された点群の２つの点の深度値の間の最大差を画定する表面厚さを表すデータを搬送する信号を実装するデバイスも提供する。

本実施形態のうちの少なくとも１つの特定の性質、ならびに本実施形態のうちの当該少なくとも１つの他の目的、利点、特徴、および用途は、添付図面と併せて取り入れられた以下の例の説明から明らかになるであろう。

各図面において、いくつかの実施形態の例が、説明される。図面は、以下を示す。

本実施形態のうちの少なくとも１つに従う、２層ベースの点群符号化構造の例の概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、２層ベースの点群復号化構造の例の概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、画像ベースの点群エンコーダの例の概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、画像ベースの点群デコーダの例の概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、ベース層ＢＬを表すビットストリームのシンタックスの例を概略的に示す。様々な態様および実施形態が実装されるシステムの例の概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、ステップ３２００、３３００、および３５００のサブステップの概略ブロック図を示す。本実施形態のうちの少なくとも１つに従う、ステップ４２００および４５００のサブステップの概略ブロック図を示す。

本実施形態のうちの少なくとも１つは、添付した図を参照して、これ以降さらに十分に説明され、そこでは、本実施形態のうちの少なくとも１つの例が示される。ただし、一実施形態が、多くの代替形態で具現化され得、本明細書に記述される例に限定されるものと解釈されるべきではない。したがって、実施形態を、開示された特定の形態に限定する意図はないことを理解されたい。逆に、本開示は、本明細書の精神および範囲内に含まれるすべての変更物、等価物、および代替物を網羅することを意図されている。

図がフロー図として提示されている場合、その図はまた、対応する装置のブロック図も提供することを理解されたい。同様に、図がブロック図として提示されている場合、それはまた、対応する方法／プロセスのフロー図も提供していることを理解されたい。同様または同一の要素は、同一の参照番号を使って参照される。

以下に説明および想定される態様は、多くの異なる形態で実施され得る。以下の図１〜図８は、いくつかの実施形態を提供するが、他の実施形態が想定され、図１〜図８の考察は、その実施態様の範囲を限定するものではない。

態様のうちの少なくとも１つは、一般に、点群の符号化および復号化に関するものであり、少なくとも１つの他の態様は、一般に、生成または符号化されるビットストリームを送信することに関する。

より正確には、これ以降に記載されている様々な方法および他の態様を使用して、モジュール、例えば、図３に示すように、パッチパッキングモジュールＰＰＭ、幾何形状画像生成器ＧＩＧ、パディングプロセス、図４に示すように、ビデオデコーダＶＤＥＣおよび幾何形状生成モジュールＧＧＭを修正することができる。

さらに、本態様は、点群圧縮に関係するＭＰＥＧ−Ｉパート５などのＭＰＥＧ標準規格に限定されず、例えば、既存であるかまたは将来開発されるかにかかわらず、他の標準規格および勧告、ならびに係る任意の標準規格および勧告の拡張（ＭＰＥＧ−Ｉパート５を含む）に適用され得る。他に特段の指示がない限り、または技術的に除外されない限り、本明細書に記載される態様は、個別に、または組み合わせて使用され得る。

以下では、画像データとは、データ、例えば、特定の画像／ビデオ形式における２Ｄサンプルのうちの１つまたはいくつかの配列を指す。特定の画像／ビデオ形式は、画像（またはビデオ）の画素値に関する情報を指定することができる。特定の画像／ビデオ形式はまた、情報を指定することができ、その情報は、ディスプレイおよび／または任意の他の装置によって使用されて、例えば、画像（またはビデオ）を視覚化および／または復号化することができる。画像は、一般に、２Ｄサンプルの第１の配列の形で、通常、画像の輝度（またはルーマ）を表す第１の成分を含む。画像はまた、２Ｄサンプルの他の配列の形で、通常、画像の色度（またはクロマ）を表す第２の成分および第３の成分も含むことができる。いくつかの実施形態は、従来の３色ＲＧＢ表現などの、一組の２Ｄ色サンプル配列を使用して、同じ情報を表す。

画素値は、Ｃ値のベクトルによって１つ以上の実施形態で表され、ここで、Ｃは、成分の数である。ベクトルの各値は、一般に、画素値のダイナミックレンジを規定することができるビット数を使用して表される。

画像ブロックとは、画像に属する一組の画素を意味する。画像ブロック（または画像ブロックデータ）の画素値とは、この画像ブロックに属する画素の値を指す。画像ブロックは、任意の形状を有してもよいが、長方形が一般的である。

点群は、３Ｄ容積空間内の３Ｄサンプルのデータセットによって表され得、その３Ｄサンプルのデータセットは、固有の座標を有し、１つ以上の属性も有し得る。

このデータセットの３Ｄサンプルは、その空間位置（３Ｄ空間内のＸ、Ｙ、およびＺ座標）によって定義されてもよく、場合によっては、例えば、ＲＧＢまたはＹＵＶ色空間で表される色、透明度、反射率、２つの成分法線ベクトル、またはこのサンプルの特徴を表す任意の特徴、などの１つ以上の関連付けられた属性によって定義されてもよい。例えば、３Ｄサンプルは、６成分（Ｘ，Ｙ，Ｚ，Ｒ，Ｇ，Ｂ）または言い換えると（Ｘ，Ｙ，Ｚ，ｙ，Ｕ，Ｖ）によって定義され得、ここで、（Ｘ，Ｙ，Ｚ）は、３Ｄ空間内の点の座標を定義し、（Ｒ，Ｇ，Ｂ）または（ｙ，Ｕ，Ｖ）は、この３Ｄサンプルの色を定義する。同じ種類の属性が、複数回存在してもよい。例えば、複数の色属性は、異なる視点から色情報を提供することができる。

点群は、群が時間に対して変化するか否かに応じて、静的または動的であり得る。静的点群、または動的点群のインスタンスは、普通、点群フレームとして示される。動的点群の場合、点の数は、一般的に一定ではないが、それどころか、通常時間と共に変化することに留意されたい。より一般的には、点群は、例えば、点の数、１つ以上の点の位置、または任意の点の任意の属性などの何かが時間と共に変化する場合、動的なものと見なすことができる。

例として、２Ｄサンプルは、６成分（ｕ，ｖ，Ｚ，Ｒ，Ｇ，Ｂ）、または同等に（ｕ，ｖ，Ｚ，ｙ，Ｕ，Ｖ）によって定義され得る。（ｕ，ｖ）は、投影面の２Ｄ空間内の２Ｄサンプルの座標を定義する。Ｚは、この投影面上に投影された３Ｄサンプルの深度値である。（Ｒ，Ｇ，Ｂ）または（ｙ，Ｕ，Ｖ）は、この３Ｄサンプルの色を定義する。

図１は、本実施形態のうちの少なくとも１つに従う、２層ベースの点群符号化構造１０００の例の概略ブロック図を示す。

２層ベースの点群符号化構造１０００は、入力点群フレームＩＰＣＦを表すビットストリームＢを提供することができる。場合によっては、当該入力点群フレームＩＰＣＦは、動的点群のフレームを表す。次いで、当該動的点群のフレームは、別のフレームとは独立して、２層ベースの点群符号化構造１０００によって符号化され得る。

基本的に、２層ベースの点群符号化構造１０００は、ベース層ＢＬおよびエンハンスメント層ＥＬとしてビットストリームＢを構造化する能力を提供することができる。ベース層ＢＬは、入力点群フレームＩＰＣＦの不可逆表現を提供することができ、エンハンスメント層ＥＬは、ベース層ＢＬによって表されない孤立した点を符号化することによって、可逆表現を提供することができる。可能な選択肢として、エンハンスメント層ＥＬは、ベース層ＢＬによっては表されない追加の点を符号化することによって、入力点群フレームＩＰＣＦのより高品質（ただし、不可逆）の表現を提供することができる。

ベース層ＢＬは、図３に示すように、画像ベースエンコーダ３０００によって提供され得、その画像ベースエンコーダは、入力点群フレームＩＰＣＦの３Ｄサンプルの幾何形状／属性を表す幾何形状／テクスチャ画像を提供することができ、孤立した３Ｄサンプルを廃棄するのを可能にすることができる。ベース層ＢＬは、図４に示すように、画像ベースデコーダ４０００によって復号化され得、その画像ベースデコーダは、中間の再構築された点群フレームＩＲＰＣＦを提供することができる。

次いで、図１の２層ベースの点群符号化１０００に戻ると、コンパレータＣＯＭＰが、入力点群フレームＩＰＣＦの３Ｄサンプルを中間の再構築された点群フレームＩＲＰＣＦの３Ｄサンプルと比較して、見逃した／孤立した３Ｄサンプルを検出／配置することができる。次に、エンコーダＥＮＣが、見逃した３Ｄサンプルを符号化し得、エンハンスメント層ＥＬを提供することができる。最後に、ベース層ＢＬおよびエンハンスメント層ＥＬは、多重化デバイスＭＵＸによって共に多重化されてビットストリームＢを生成することができる。

実施形態によれば、エンコーダＥＮＣは、中間の再構築された点群フレームＩＲＰＣＦの３Ｄ基準サンプルを検出し、見逃した３ＤサンプルＭに関連付け得る検出器を含み得る。エンコーダＥＮＣはまた、画像ベースエンコーダとすることもできる。

例えば、見逃した３ＤサンプルＭに関連付けられた３Ｄ基準サンプルＲは、所与のメートルに応じて、Ｍの最も近くに隣接するものであり得る。

実施形態によれば、エンコーダＥＮＣは、次いで、当該３Ｄ基準サンプルＲの空間位置および属性に従って決定される差として、見逃した３ＤサンプルＭの空間位置、およびそれらの属性を符号化することができる。

変形例では、それらの差は、別個に符号化されてもよい。

例えば、見逃した３ＤサンプルＭの場合、空間座標ｘ（Ｍ）、ｙ（Ｍ）、およびｚ（Ｍ）を用いて、ｘ−座標差Ｄｘ（Ｍ）、ｙ−座標位置差Ｄｙ（Ｍ）、ｚ−差Ｄｚ（Ｍ）、Ｒ−属性成分差Ｄｒ（Ｍ）、Ｇ−属性成分差Ｄｇ（Ｍ）、およびＢ−属性成分差Ｄｂ（Ｍ）は、以下のように、計算することができる。
Ｄｘ（Ｍ）＝ｘ（Ｍ）−ｘ（Ｒ）、
ここで、ｘ（Ｍ）は、図３により与えられる幾何形状画像における３ＤサンプルＭのｘ−座標であり、Ｒについても、それぞれ同様であり、
Ｄｙ（Ｍ）＝ｙ（Ｍ）−ｙ（Ｒ）
ここで、ｙ（Ｍ）は、図３により与えられる幾何形状画像における３ＤサンプルＭのｙ−座標であり、Ｒについても、それぞれ同様であり、
Ｄｚ（Ｍ）＝ｚ（Ｍ）−ｚ（Ｒ）
ここで、ｚ（Ｍ）は、図３により与えられる幾何形状画像における３ＤサンプルＭのｚ−座標であり、Ｒについても、それぞれ同様であり、
Ｄｒ（Ｍ）＝Ｒ（Ｍ）−Ｒ（Ｒ）。
ここで、Ｒ（Ｍ）、Ｒ（Ｒ）は、それぞれ、３ＤサンプルＭ、Ｒ、それぞれの色属性のｒ−色成分であり、
Ｄｇ（Ｍ）＝Ｇ（Ｍ）−Ｇ（Ｒ）。
ここで、Ｇ（Ｍ）、Ｇ（Ｒ）は、それぞれ、３ＤサンプルＭ、Ｒ、それぞれの色属性のｇ−色成分であり、
Ｄｂ（Ｍ）＝Ｂ（Ｍ）−Ｂ（Ｒ）。
ここで、Ｂ（Ｍ）、Ｂ（Ｒ）は、それぞれ、３ＤサンプルＭ、Ｒ、それぞれの色属性のｂ−色成分である。

図２は、本実施形態のうちの少なくとも１つに従う、２層ベースの点群復号化構造２０００の例の概略ブロック図を示す。

２層ベースの点群復号化構造２０００の動作は、その能力に依存する。

限定された能力を有する２層ベースの点群復号化構造２０００は、多重分離デバイスＤＭＵＸを使用することによって、ビットストリームＢからベース層ＢＬのみにアクセスし得、次いで、図４に示すように、点群デコーダ４０００によりベース層ＢＬを復号化することによって、入力点群フレームＩＰＣＦの忠実な（ただし、不可逆な）バージョンＲＰＣＦを提供することができる。

完全な能力を有する２層ベースの点群復号化構造２０００は、多重分離デバイスＤＭＵＸを使用することによって、ビットストリームＢからベース層ＢＬおよびエンハンスメント層ＥＬの両方にアクセスすることができる。図４に示すように、点群デコーダ４０００は、ベース層ＢＬから、再構築された点群フレームＲＰＣＦを決定することができる。デコーダＤＥＣは、エンハンスメント層ＥＬから相補形点群フレームＣＰＣＦを決定することができる。次いで、結合器ＣＯＭは、再構築された点群フレームＲＰＣＦ、および相補形点群フレームＣＰＣＦを共に結合して、したがって、入力点群フレームＩＰＣＦの可逆的な（またはより高品質な）表現（再構築）ＣＲＰＣＦを提供することができる。

図３は、本実施形態のうちの少なくとも１つに従う、画像ベースの点群エンコーダ３０００の例の概略ブロック図を示す。

画像ベースの点群エンコーダ３０００は、既存のビデオコーデックを活用し、動的点群の幾何形状およびテクスチャ（属性）情報を圧縮する。これは、点群データを一組の異なるビデオシーケンスに実質的に変換することによって達成される。

特定の実施形態では、２つのビデオ、すなわち、点群データの幾何形状情報を取り込むための一つのビデオ、およびテクスチャ情報を取り込むための別のビデオが、既存のビデオコーデックを使用して生成および圧縮され得る。既存のビデオコーデックの例としては、ＨＥＶＣメインプロファイルエンコーダ／デコーダ（ＩＴＵ−ＴＨ．２６５ＩＴＵ電気通信標準化部門（０２／２０１８）、シリーズＨ、すなわち、視聴覚およびマルチメディアシステム、視聴覚サービスのインフラストラクチャ−ビデオ動画の符号化、高効率ビデオ符号化、勧告ＩＴＵ−ＴＨ．２６５）がある。

２つのビデオを解釈するために使用される追加のメタデータもまた、通常、別個に生成および圧縮される。このような追加のメタデータは、例えば、占有率マップＯＭおよび／または補助パッチ情報ＰＩを含む。

次いで、生成されたビデオビットストリームおよびメタデータは、共に多重化されて結合されたビットストリームを生成することができる。

メタデータは、通常、情報全体のわずかな量を表すことに留意されたい。情報の大部分は、ビデオビットストリーム内にある。

係る点群符号化／復号化プロセスの例は、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ２０１８／Ｎ１８０３０、およびＮ１７９９６（２０１８年１０月、マカオ）で規定されているように、試験モデルカテゴリ２アルゴリズム（Ｖ−ＰＣＣとも表記される）によって与えられる。

ステップ３１００において、パッチ生成モジュールＰＧＭは、最善の圧縮を提供する方策を使用して、入力点群フレームＩＰＣＦを表す３Ｄサンプルのデータセットを、所与の投影面上の２Ｄサンプルに分解することによって、少なくとも１つのパッチを生成することができる。

パッチは、一組の２Ｄサンプルとして定義され得る。

例えば、Ｖ−ＰＣＣでは、例えば、Ｈｏｐｐｅらの報告（ＨｕｇｕｅｓＨｏｐｐｅ、ＴｏｎｙＤｅＲｏｓｅ、ＴｏｍＤｕｃｈａｍｐ、ＪｏｈｎＭｃＤｏｎａｌｄ、ＷｅｒｎｅｒＳｔｕｅｔｚｌｅ、Ｓｕｒｆａｃｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍｕｎｏｒｇａｎｉｚｅｄｐｏｉｎｔｓ、ＡＣＭＳＩＧＧＲＡＰＨ１９９２Ｐｒｏｃｅｅｄｉｎｇｓ、７１−７８）に記載されているように、３Ｄサンプルごとの法線は、最初に推定される。次に、入力点群フレームＩＰＣＦの初期のクラスタ化は、入力点群フレームＩＰＣＦの３Ｄサンプルを取り囲む３Ｄ境界ボックスの６つの配向面のうちの１つに各３Ｄサンプルを関連付けることによって、取得される。より正確には、各３Ｄサンプルは、クラスタ化され、最も近い法線（点法線および面法線のドット積を最大化する）を有する配向面に関連付けられる。次いで、３Ｄサンプルは、それらの関連した平面に投影される。それらの平面内で接続領域を形成する一組の３Ｄサンプルは、接続された成分と呼ばれる。接続された成分は、同様の法線および同じ関連する配向面を有する少なくとも１つの３Ｄサンプルの一組である。次いで、初期のクラスタ化は、各３Ｄサンプルに関連付けられたクラスタを、その法線、およびその最も近い隣接するサンプルのクラスタに基づいて、繰り返し更新することによって、精緻化される。最終ステップは、各接続された成分から１つのパッチを生成することからなり、それは、各接続された成分の３Ｄサンプルを、当該接続された成分に関連付けられた配向面上に投影することによって、実行される。

パッチが、補助パッチ情報ＰＩに関連付けられており、その補助パッチ情報は、各パッチが、幾何形状および／または属性情報に対応する投影された２Ｄサンプルを解釈するように定義された補助パッチ情報を表す。

Ｖ−ＰＣＣにおいて、例えば、補助パッチ情報ＰＩは、１）接続された成分の３Ｄサンプルを取り囲む、３Ｄ境界ボックスの６つの配向面のうちの１つを示す情報、２）平面法線に関する情報、３）深度、接線シフト、および両接線シフトに換算して表されたパッチに対して、接続された成分の３Ｄ位置を決定する情報、および４）パッチを取り囲む２Ｄ境界ボックスを定義する投影面における座標（ｕ０，ｖ０，ｕ１，ｖ１）などの情報を含む。

ステップ３２００において、パッチパッキングモジュールＰＰＭが、未使用空間を最小限に抑える方法で、全く重なり合うことなく、少なくとも１つの生成されたパッチを２Ｄグリッド（キャンバスとも呼ばれる）上にマッピング（配置）することができ、２ＤグリッドのＴｘＴ（例えば、１６ｘ１６）のブロックごとに、一意のパッチに関連付けられることを保証することができる。２Ｄグリッドの所与の最小ブロックサイズＴｘＴは、この２Ｄグリッド上に配置される際に、別個のパッチ間の最小距離を指定することができる。２Ｄグリッドの解像度は、入力点群サイズに依存し得、その幅Ｗおよび高さＨ、ならびにブロックサイズＴは、メタデータとしてデコーダに送信され得る。

補助パッチ情報ＰＩは、２Ｄグリッドのブロックとパッチとの間の関連付けに関する情報をさらに含むことができる。

Ｖ−ＰＣＣにおいて、補助情報ＰＩは、２Ｄグリッドのブロックとパッチインデックスとの間の関連付けを決定するパッチインデックス情報へのブロックを含む。

パッチに属する２Ｄサンプルを包含するＴｘＴブロックは、対応する占有率マップＯＭ内の占有ブロックと見なし得る。次いで、占有率マップＯＭのブロックは、ブロックが占有されているかどうか、すなわち、パッチに属する２Ｄサンプルを包含するかどうかを示すことができる。

画像生成プロセス（ステップ３３００および３４００）は、少なくとも１つの生成されたパッチの、ステップ３２００中に計算された２Ｄグリッド上へのマッピングを有効活用して、入力点群フレームＩＰＣＦの幾何形状およびテクスチャを画像として格納する。

ステップ３３００において、幾何形状画像生成器ＧＩＧは、入力点群フレームＩＰＣＦ、占有率マップＯＭ、および補助パッチ情報ＰＩから、少なくとも１つの幾何形状画像ＧＩを生成することができる。幾何形状画像生成器ＧＩＧは、占有率マップ情報を有効活用して、占有されたブロック、したがって、幾何形状画像ＧＩ内の空でない画素を検出（配置）することができる。

幾何形状画像ＧＩは、入力点群フレームＩＰＣＦの幾何形状を表すことができ、例えば、ＹＵＶ４２０−８ビット形式で表されるＷｘＨ画素の単色画像とすることができる。

複数の３Ｄサンプルが（同じ投影方向（線）に沿って）投影面の同じ２Ｄサンプルに投影（マッピング）される場合をよりうまく処理するために、層と呼ばれる複数の画像が生成され得る。したがって、パッチの２Ｄサンプルは、関連付けられる異なる深度値Ｄ１、・・・、Ｄｎを有することができ、複数の幾何形状画像が生成される。

Ｖ−ＰＣＣにおいて、パッチの２Ｄサンプルは、２層上に投影される。第１の層は、近い層とも呼ばれるが、例えば、最も低い深度を有する２Ｄサンプルに関連付けられた深度値Ｄ０を格納することができる。第２の層は、遠い層と呼ばれるが、例えば、最も高い深度を有する２Ｄサンプルに関連付けられた深度値Ｄ１と、Ｄ０との間の差を格納することができる。したがって、第２の深度画像により格納される情報は、［Ｄ０，Ｄ０＋Δ］の範囲内の深度値に対応する間隔［０，Δ］内にあり、ここで、Δは、表面厚さを表す、ユーザ定義されたパラメータである。

このようにして、第２の層は、著しい起伏状の頻度の高い特徴を含み得る。したがって、第２の深度画像は、旧来のビデオコーダを使用することによって符号化されることは、極めて難しく、それゆえに、深度値は、当該復号化される第２の深度画像から十分に再構築されず、結果として、再構築された点群フレームの幾何形状の質が悪いことが明らかに見える。

実施形態によれば、幾何形状画像生成モジュールＧＩＧは、補助パッチ情報ＰＩを使用することによって、第１および第２の層の２Ｄサンプルに関連付けられた深度値を符号化（導出）することができる。

Ｖ−ＰＣＣにおいて、対応する接続された成分を有するパッチ内の３Ｄサンプルの位置は、深度δ（ｕ，ｖ）、接線シフトｓ（ｕ，ｖ）、および両接線シフトｒ（ｕ，ｖ）に換算して、以下のように表され得る。

ここで、ｇ（ｕ、ｖ）は、幾何形状画像のルーマ成分であり、（ｕ，ｖ）は、投影面上の３Ｄサンプルに関連付けられた画素であり、（δ０，ｓ０，ｒ０）は、３Ｄサンプルが属する接続された成分の対応するパッチの３Ｄ位置であり、（ｕ０，ｖ０，ｕ１，ｖ１）は、当該接続された成分に関連付けられたパッチの投影を包含する２Ｄ境界ボックスを画定する、当該投影面内の座標である。

したがって、幾何形状画像生成モジュールＧＩＧは、ｇ（ｕ，ｖ）＝δ（ｕ，ｖ）−δ０によって与えられるルーマ成分ｇ（ｕ，ｖ）として、層（第１もしくは第２、またはその両方）の２Ｄサンプルに関連付けられた深度値を符号化（導出）することができる。この関係を用いると、付随する補助パッチ情報ＰＩを使って、再構築された幾何形状画像ｇ（ｕ，ｖ）から３Ｄサンプル位置（δ０，ｓ０，ｒ０）を再構築することができることに留意する。

実施形態によれば、投影モードを使用して、第１の幾何形状画像ＧＩ０が第１または第２の層のいずれかの２Ｄサンプルの深度値を格納し得るかどうか、また第２の幾何形状画像ＧＩ１が第２または第１の層のいずれかの２Ｄサンプルに関連付けられた深度値を格納し得るかどうかを示すことができる。

例えば、投影モードが０に等しいとき、第１の幾何形状画像ＧＩ０は、第１の層の２Ｄサンプルの深度値を格納し得、第２の幾何形状画像ＧＩ１は、第２の層の２Ｄサンプルに関連付けられた深度値を格納し得る。相反的に、投影モードが１に等しいとき、第１の幾何形状画像ＧＩ０は、第２の２Ｄサンプルの深度値を格納し得、第２の幾何形状画像ＧＩ１は、第１の層の２Ｄサンプルに関連付けられた深度値を格納し得る。

実施形態によれば、フレーム投影モードを使用して、固定投影モードがすべてのパッチに使用されているかどうか、または各パッチが異なる投影モードを使用し得る可変投影モードが使用されているかどうかを示すことができる。

投影モードおよび／またはフレーム投影モードは、メタデータとして送信され得る。

フレーム投影モード決定アルゴリズムが、例えば、Ｖ−ＰＣＣのセクション２．２．１．３．１で提供され得る。

実施形態によれば、フレーム投影が可変投影モードを使用し得ることを示すとき、パッチ投影モードを使用して、パッチを投影する（復元する）ために使用する適切なモードを示すことができる。

パッチ投影モードは、メタデータとして送信され得、場合によっては、補助パッチ情報ＰＩ内に含まれる情報であってもよい。

パッチ投影モード決定アルゴリズムが、Ｖ−ＰＣＣのセクション２．２．１．３．２内に例として提供されている。

ステップ３３００の実施形態によれば、パッチの２Ｄサンプル（ｕ，ｖ）に対応する第１の幾何形状画像、例えばＧＩ１内の画素値は、当該２Ｄサンプル（ｕ，ｖ）に対応する投影線に沿って画定された少なくとも１つの中間３Ｄサンプルに関連付けられた深度値を表し得る。当該中間３Ｄサンプルは、投影線に沿って存在し、深度値Ｄ０が第２の幾何形状画像、例えばＧＩ０内で符号化される２Ｄサンプルの同じ座標（ｕ，ｖ）を共有する。さらに、当該中間３Ｄサンプルは、深度値Ｄ０と深度値Ｄ０＋ＳＴ（表面厚さ値）との間の深度値を有することができる。指定されたビットが、各当該中間３Ｄサンプルに関連付けられ得、中間３Ｄサンプルが存在する場合は１、それ以外の場合は０に設定される。

次いで、当該投影線に沿った当該指定されたビットは、すべて連結されてコードワードを形成し得、以降ではこれは、エンハンスドデルタ深度（ＥＤＤ）コードと呼ばれる。最後に、すべてのＥＤＤコードは、画像内、例えば、第１の幾何形状画像ＧＩ１または占有率マップＯＭ内にパッキングされ得る。

ステップ３４００において、テクスチャ画像生成器ＴＩＧは、入力点群フレームＩＰＣＦからの少なくとも１つのテクスチャ画像ＴＩ、占有率マップＯＭ、補助パッチ情報ＰＩ、および少なくとも１つの復号化された幾何形状画像ＤＧＩ、すなわちビデオデコーダＶＤＥＣ（図４のステップ４２００）の出力から導出された、再構築された点群フレームの幾何形状を生成することができる。

テクスチャ画像ＴＩは、入力点群フレームＩＰＣＦのテクスチャを表し得、例えば、ＹＵＶ４２０−８ビット形式で表されるＷｘＨ画素の画像であってもよい。

テクスチャ画像生成器ＴＧは、占有率マップ情報を有効活用して、占有されたブロック、したがって、テクスチャ画像内の空でない画素を検出（配置）することができる。

テクスチャ画像生成器ＴＩＧは、テクスチャ画像ＴＩを生成し、そのテクスチャ画像を各幾何形状画像／層ＤＧＩに関連付けるように適合され得る。

実施形態によれば、テクスチャ画像生成器ＴＩＧは、第１の層の２Ｄサンプルに関連付けられたテクスチャ（属性）値Ｔ０を、第１のテクスチャ画像ＴＩ０の画素値として、また第２の層の２Ｄサンプルに関連付けられたテクスチャ値Ｔ１を、第２のテクスチャ画像ＴＩ１の画素値として、符号化（格納）することができる。

別の方法として、テクスチャ画像生成モジュールＴＩＧは、第２の層の２Ｄサンプルに関連付けられたテクスチャ値Ｔ１を、第１のテクスチャ画像ＴＩ０の画素値として、また第１の層の２Ｄサンプルに関連付けられたテクスチャ値Ｄ０を、第２の幾何形状画像ＧＩ１の画素値として、符号化（格納）することができる。

例えば、３Ｄサンプルの色は、Ｖ−ＰＣＣのセクション２．２．３、２．２．４、２．２．５、２．２．８、または２．５で説明されているように、取得され得る。

実施形態によれば、パディングプロセスが、幾何形状および／またはテクスチャ画像上で適用され得る。パッチ間の空白を埋める目的は、ビデオ圧縮に適した区分の滑らかな画像を生成することである。

画像パディングの例が、Ｖ−ＰＣＣのセクション２．２．６および２．２．７で提供されている。

ステップ３５００において、ビデオエンコーダＶＥＮＣは、生成された画像／層ＴＩおよびＧＩを符号化することができる。

ステップ３６００において、エンコーダＯＭＥＮＣは、例えば、Ｖ−ＰＣＣのセクション２．２．２に詳述されているように、占有率マップを画像として符号化することができる。不可逆的または可逆的符号化を使用することができる。

実施形態によれば、ビデオエンコーダＥＮＣおよび／またはＯＭＥＮＣは、ＨＥＶＣベースのエンコーダであってもよい。

ステップ３７００において、エンコーダＰＩＥＮＣは、補助パッチ情報ＰＩ、ならびに幾何形状／テクスチャ画像のブロックサイズＴ、幅Ｗ、および高さＨなどの、追加の可能性のあるメタデータを符号化することができる。

実施形態によれば、補助パッチ情報は、差動的に符号化されてもよい（例えば、Ｖ−ＰＣＣのセクション２．４．１で定義されているように）。

ステップ３８００において、生成されたビデオビットストリーム、すなわち、ステップ３５００、３６００、および３７００の出力を共に多重化して、ベース層ＢＬで表すビットストリームを生成することができる。メタデータ情報は、ビットストリーム全体のうちのわずかな割合を表すことに留意されたい。情報の大部分は、ビデオコーデックを使用して圧縮される。

図４は、本実施形態のうちの少なくとも１つに従う、画像ベースの点群デコーダ４０００の例の概略ブロック図を示す。

ステップ４１００において、多重分離デバイスＤＭＵＸは、ベース層ＢＬを表すビットストリームの符号化された情報にアクセスすることができる。

ステップ４２００において、ビデオデコーダＶＤＥＣは、符号化された情報を復号化して、少なくとも１つの復号化された幾何形状画像ＤＧＩ、および少なくとも１つの復号化されたテクスチャ画像ＤＴＩを導出することができる。

ステップ４３００において、デコーダＯＭＤＥＣが、符号化された情報を復号化して、復号化された占有率マップＤＯＭを導出することができる。

実施形態によれば、ビデオデコーダＶＤＥＣおよび／またはＯＭＤＥＣは、ＨＥＶＣベースのデコーダであってもよい。

ステップ４４００において、デコーダＰＩＤＥＣが、符号化された情報を復号化して、補助パッチ情報ＤＰＩを導出することができる。

場合によっては、メタデータもまた、ビットストリームＢＬから導出され得る。

ステップ４５００において、幾何形状生成モジュールＧＧＭは、少なくとも１つの復号化された幾何形状画像ＤＧＩ、復号化された占有率マップＤＯＭ、復号化された補助パッチ情報ＤＰＩ、および可能性のある追加のメタデータから、再構築された点群フレームＲＰＣＦ（またはＩＲＰＣＦ）の幾何形状ＲＧを導出することができる。

幾何形状生成モジュールＧＧＭは、復号化された占有率マップ情報ＤＯＭを有効に活用して、少なくとも１つの復号化された幾何形状画像ＤＧＩ内の空でない画素を見つけ出すことができる。次いで、空でない画素に関連付けられた再構築された３Ｄサンプルの３Ｄ座標は、当該空でない画素の座標、および当該再構築された２Ｄサンプルの値から導出され得る。

実施形態によれば、幾何形状生成モジュールＧＧＭは、空でない画素の座標から、再構築された３Ｄサンプルの３Ｄ座標を導出することができる。

実施形態によれば、幾何形状生成モジュールＧＧＭは、空でない画素の座標、少なくとも１つの復号化された幾何形状画像ＤＧＩのうちの１つの当該空でない画素の値、復号化された補助パッチ情報から、および場合によっては、追加のメタデータから、再構築された３Ｄサンプルの３Ｄ座標を導出することができる。

空でない画素の使用は、２Ｄ画素の、３Ｄサンプルとの関係に基づいている。例えば、Ｖ−ＰＣＣ内の当該投影を使って、再構築された３Ｄサンプルの３Ｄ座標は、深度δ（ｕ，ｖ）、接線シフトｓ（ｕ，ｖ）、および両接線シフトｒ（ｕ，ｖ）に換算して、以下のように表され得る。

ここで、ｇ（ｕ、ｖ）は、復号化された幾何形状画像ＤＧＩのルーマ成分であり、（ｕ，ｖ）は、再構築された３Ｄサンプルに関連付けられた画素であり、（δ０，ｓ０，ｒ０）は、再構築された３Ｄサンプルが属する接続された成分の３Ｄ位置であり、（ｕ０，ｖ０，ｕ１，ｖ１）は、当該接続された成分に関連付けられたパッチの投影を包含する２Ｄ境界ボックスを画定する、投影面内の座標である。

ステップ４６００において、テクスチャ生成モジュールＴＧＭは、幾何形状ＲＧ、および少なくとも１つの復号化されたテクスチャ画像ＤＴＩから、再構築された点群フレームＲＰＣＦ（またはＩＲＰＣＦ）のテクスチャを導出することができる。

図５は、本実施形態のうちの少なくとも１つに従う、ベース層ＢＬを表すビットストリームの例示的なシンタックスを概略的に示す。

ビットストリームは、ビットストリームヘッダＢＳＨ、および少なくとも１つのフレームストリームグループＧＯＦＳを含む。

フレームストリームグループＧＯＦＳは、ヘッダＨＳ、占有率マップＯＭを表す少なくとも１つのシンタックス要素ＯＭＳ、少なくとも１つの幾何形状画像（またはビデオ）を表す少なくとも１つのシンタックス要素ＧＶＳ、少なくとも１つのテクスチャ画像（またはビデオ）を表す少なくとも１つのシンタックス要素ＴＶＳ、および補助パッチ情報を表す少なくとも１つのシンタックス要素ＰＩＳ、ならびに他の追加のメタデータを含む。

変形例では、フレームストリームグループＧＯＦＳは、少なくとも１つのフレームストリームを含む。

図６は、様々な態様および実施形態が実装されるシステムの例を例証する概略ブロック図を示す。

システム６０００は、以下に説明されている様々なコンポーネントを含む１つ以上のデバイスとして具現化され得、本文書に記載されている態様のうちの１つ以上を実行するように構成されている。システム６０００のすべてまたは一部を形成し得る機器の例としては、パーソナルコンピュータ、ラップトップ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビジョン受信機、パーソナルビデオレコーディングシステム、接続された家庭電化製品、ヘッドマウントディスプレイデバイス（ＨＭＤ、シースルーグラス）、プロジェクタ（ビーマー）、「没入型バーチャルリアリティ体験装置（ｃａｖｅｓ）」（複数のディスプレイを含むシステム）、サーバ、ビデオエンコーダ、ビデオデコーダ、ビデオデコーダから出力されるポストプロセッサ処理、ビデオエンコーダへの入力を提供するプリプロセッサ、ウェブサーバ、セットトップボックス、および点群、ビデオ、もしくは画像を処理するための任意の他のデバイス、または他の通信デバイスが含まれる。システム６０００の要素は、単独で、または組み合わされて、単一の集積回路、複数のＩＣ、および／または個別のコンポーネントで具現化されてもよい。例えば、少なくとも１つの実施形態では、システム６０００の処理およびエンコーダ／デコーダ要素は、複数のＩＣおよび／または個別のコンポーネントにわたって分散されてもよい。様々な実施形態では、システム６０００は、例えば、通信バスを介して、または専用の入力または出力ポートを通じて、他の同様のシステムに、または他の電子デバイスに通信可能に結合されてもよい。様々な実施形態では、システム６０００は、本文書に記載された態様のうちの１つ以上を実装するように構成することができる。

システム６０００は、例えば、本文書に記載された様々な態様を実施するために、内部にロードされた命令を実行するように構成されている少なくとも１つのプロセッサ６０１０を含むことができる。プロセッサ６０１０は、埋め込み型メモリ、入力出力インターフェース、および当技術分野で既知の様々な他の回路を含むことができる。システム６０００は、少なくとも１つのメモリ６０２０（例えば、揮発性メモリデバイスおよび／または不揮発性メモリデバイス）を含むことができる。システム６０００は、記憶６０４０を含むことができ、その記憶装置は、不揮発性メモリおよび／または揮発性メモリを含むことができ、それらのメモリには、電気的消去可能型プログラマブルデバイス読み出し専用メモリ（ＥＥＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、フラッシュ、磁気ディスクデバイス、および／または光ディスクデバイスが含まれるが、これらに限定されない。記憶デバイス６０４０には、非限定的な例として、内部記憶デバイス、接続型記憶デバイス、および／またはネットワークアクセス可能型記憶デバイスが含まれ得る。

システム６０００は、例えば、データを処理して符号化されたデータ、または復号化されたデータを提供するように構成されているエンコーダ／デコーダモジュール６０３０を含むことができ、エンコーダ／デコーダモジュール６０３０は、それ自体が保有するプロセッサおよびメモリを含むことができる。エンコーダ／デコーダモジュール６０３０は、デバイス内に含まれて、符号化および／または復号化機能を実行することができるモジュール（複数可）を表し得る。知られているように、デバイスが、符号化および復号化モジュールのうちの一方または両方を含んでもよい。追加的に、エンコーダ／デコーダモジュール６０３０は、システム６０００の別個の要素として実装されてもよく、または当業者にとっては既知であるように、ハードウェアおよびソフトウェアの組み合わせとして、プロセッサ６０１０内に組み込まれてもよい。

本文書に記載された様々な態様を実行するためのプロセッサ６０１０またはエンコーダ／デコーダ６０３０にロードされるプログラムコードは、記憶デバイス６０４０内に格納され得、その後、プロセッサ６０１０による実行のためのメモリ６０２０上にロードされ得る。様々な実施形態によれば、プロセッサ６０１０、メモリ６０２０、記憶デバイス６０４０、およびエンコーダ／デコーダモジュール６０３０のうちの１つ以上が、本文書に記載されたプロセスの実行中に、様々な項目のうちの１つ以上を格納することができる。係る格納される項目には、点群フレーム、符号化／復号化された幾何形状／テクスチャビデオ／画像もしくは符号化／復号化された幾何形状／テクスチャビデオ／画像の一部、ビットストリーム、行列、変数、ならびに数式、公式、演算、および演算ロジックの処理からの中間もしくは最終結果が含まれ得るが、これらに限定されない。

いくつかの実施形態では、プロセッサ６０１０および／またはエンコーダ／デコーダモジュール６０３０内部のメモリを使用して、命令を格納し、符号化または復号化中に実行され得る処理のための作業メモリを提供することができる。

しかしながら、他の実施形態では、処理デバイス（例えば、処理デバイスは、プロセッサ６０１０またはエンコーダ／デコーダモジュール６０３０のいずれかであり得る）の外部にあるメモリは、これらの機能のうちの１つ以上に使用され得る。外部メモリは、メモリ６０２０および／または記憶デバイス６０４０、例えば、ダイナミック揮発性メモリおよび／または不揮発性フラッシュメモリであってもよい。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、テレビジョンのオペレーティングシステムを格納することができる。少なくとも１つの実施形態では、ＲＡＭなどの高速外部ダイナミック揮発性メモリは、ＭＰＥＧ−２パート２（ＩＴＵ−Ｔ勧告Ｈ．２６２およびＩＳＯ／ＩＥＣ１３８１８−２としても知られており、ＭＰＥＧ−２ビデオとしても知られている）、ＨＥＶＣ（高効率ビデオ符号化）、またはＶＶＣ（多機能ビデオ符号化）用などのビデオ符号化および復号化動作のための作業メモリとして使用することができる。

システム６０００の要素への入力は、ブロック６１３０に示されているように、様々な入力デバイスを介して提供され得る。係る入力デバイスには、（ｉ）例えば、放送局による、空中をわたって送信されるＲＦ信号を受信し得るＲＦ部分、（ｉｉ）複合入力端子、（ｉｉｉ）ＵＳＢ入力端子、および／または（ｉｖ）ＨＤＭＩ(登録商標）入力端子が含まれるが、これらに限定されない。

様々な実施形態では、ブロック６１３０の入力デバイスは、当技術分野で既知の、関連するそれぞれの入力処理要素を有してもよい。例えば、ＲＦ部分は、（ｉ）所望の周波数を選択する（信号を選択する、または信号を周波数帯域に帯域制限するとも称される）、（ｉｉ）選択された信号をダウンコンバートする、（ｉｉｉ）特定の実施形態で、（例えば）チャネルと称され得る信号周波数帯域を選択するために、再びより狭い周波数帯域に帯域制限する、（ｉｖ）ダウンコンバートおよび帯域制限された信号を復調する、（ｖ）誤り訂正を実行する、および（ｖｉ）データパケットの所望のストリームを選択するために多重分離する、ために必要な要素に関連付けられてもよい。様々な実施形態のＲＦ部分は、これらの機能を実行する１つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラーコレクタ、および多重分離デバイスを含むことができる。ＲＦ部分は、これらの様々な機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数（例えば、中間周波数または近接ベースバンド周波数）に、またはベースバンドにダウンコンバートすることが含まれる。

１つのセットトップボックスの実施形態では、ＲＦ部分およびその関連付けられた入力処理要素は、有線（例えば、ケーブル）媒体を経由して送信されるＲＦ信号を受信することができる。次いで、ＲＦ部分は、所望の周波数帯域へのフィルタリング、ダウンコンバーティング、および再度のフィルタリングによって、周波数選択を実行することができる。

様々な実施形態が、上述の（および他の）要素の順番を並べ替え、これらの要素の一部を取り除き、かつ／または同様のもしくは異なる機能を実行する他の要素を追加する。

要素を追加することには、既存の要素の間に要素を挿入すること、例えば、増幅器およびアナログデジタルコンバータを挿入することなどが含まれ得る。様々な実施形態では、ＲＦ部分は、アンテナを含むことができる。

追加的に、ＵＳＢおよび／またはＨＤＭＩ（登録商標）端末は、ＵＳＢおよび／またはＨＤＭＩ（登録商標）接続全体にわたって、システム６０００を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。例えば、リードソロモン誤り訂正の入力処理の様々な態様は、例えば、別個の入力処理ＩＣ内に、または必要に応じて、プロセッサ６０１０内に実装されてもよいことを理解されたい。同様に、ＵＳＢまたはＨＤＭＩ（登録商標）インターフェース処理の態様は、別個のインターフェースＩＣ内に、または必要に応じて、プロセッサ６０１０内に実装されてもよい。復調され、誤り訂正され、そして多重分離されたストリームは、様々な処理要素に提供され得、その要素には、例えば、プロセッサ６０１０、ならびに必要に応じて出力デバイスに提示するために、データストリームを処理するためのメモリおよび記憶要素と組み合わせて動作するエンコーダ／デコーダ６０３０が含まれる。

システム６０００の様々な要素が、統合されたハウジング内に提供され得る。統合されたハウジング内では、様々な要素が、適切な接続配置６１４０を使用して相互接続され、かつ互いの間でデータを送信することができ、その接続配置としては、例えば、当技術分野で既知の内部バスがあり、Ｉ２Ｃバス、配線、およびプリント回路基板が含まれる。

システム６０００は、通信インターフェース６０５０を含み得、その通信インターフェースは、通信チャネル６０６０を介して、他のデバイスとの通信を可能にする。通信インターフェース６０５０は、通信チャネル３０６０を介してデータを送受信するように構成された送受信機を含み得るが、これに限定されない。通信インターフェース６０５０は、モデムまたはネットワークカードを含み得るが、これに限定されず、通信チャネル６０６０は、例えば、有線および／または無線媒体内に実装され得る。

様々な実施形態において、データは、ＩＥＥＥ８０２．１１などのＷｉ−Ｆｉネットワークを使用して、システム６０００にストリーム伝送され得る。これらの実施形態のＷｉ−Ｆｉ信号は、Ｗｉ−Ｆｉ通信のために適合されている通信チャネル６０６０および通信インターフェース６０５０を介して受信され得る。これらの実施形態の通信チャネル６０６０は、通常、外部ネットワークへのアクセスを提供するアクセスポイントまたはルータに接続され得、その外部ネットワークには、ストリーミングアプリケーションおよび他のオーバーザトップ通信を可能にするためのインターネットが含まれる。

他の実施形態は、入力ブロック６１３０のＨＤＭＩ（登録商標）接続を介してデータを送達するセットトップボックスを使用して、ストリームデータをシステム６０００に提供することができる。

さらなる他の実施形態が、入力ブロック６１３０のＲＦ接続を使用して、ストリームデータをシステム６０００に提供することができる。

信号伝達は、様々な方法で達成され得ることを理解されたい。例えば、様々な実施形態において、１つ以上のシンタックス要素、フラグなどを使用して、情報を、対応するデコーダに信号伝達することができる。

システム６０００は、出力信号を、ディスプレイ６１００、スピーカー６１１０、および他の周辺デバイス６１２０を含む様々な出力デバイスに提供することができる。他の周辺デバイス６１２０には、様々な実施形態の例において、スタンドアロン型ＤＶＲ、ディスクプレーヤー、ステレオシステム、照明システム、およびシステム３０００の出力に基づいて機能を提供する他のデバイスのうちの１つ以上が含まれ得る。

様々な実施形態では、制御信号が、ＡＶリンク（オーディオ／ビデオリンク）、ＣＥＣ（家電製品制御）、またはユーザの関与の有無を問わずデバイス間制御を可能にする他の通信プロトコルなどの信号方式を使用して、システム３０００と、ディスプレイ６１００、スピーカー６１１０、または他の周辺デバイス６１２０との間で伝達され得る。

出力デバイスは、それぞれのインターフェース６０７０、６０８０、および６０９０を通じた専用接続を介して、システム６０００に通信可能に結合され得る。

別の方法として、出力デバイスは、通信インターフェース６０５０を介して、通信チャネル６０６０を使用して、システム３０００に接続され得る。ディスプレイ６１００およびスピーカー６１１０は、例えば、テレビジョンなどの電子デバイス内のシステム６０００の他のコンポーネントと共に単一ユニット内に一体化されてもよい。

様々な実施形態では、ディスプレイインターフェース６０７０は、例えば、タイミングコントローラ（ＴＣｏｎ）チップなどのディスプレイドライバを含むことができる。

ディスプレイ６１００およびスピーカー６１１０は、別の方法として、例えば、入力６１３０のＲＦ部分が別個のセットトップボックスの一部である場合、他のコンポーネントのうちの１つ以上から分離されてもよい。ディスプレイ６１００およびスピーカー６１１０が外部コンポーネントであり得る様々な実施形態では、出力信号は、例えば、ＨＤＭＩ（登録商標）ポート、ＵＳＢポート、またはＣＯＭＰ出力を含む、専用の出力接続を介して提供され得る。

図７は、本実施形態のうちの少なくとも１つに従う、ステップ３２００、３３００、および３５００のサブステップの概略ブロック図を示す。

図３を参照して上で説明したように、通常、同じ投影方向（線）に沿って２つ以上の点が存在する。再構築エラーを最小限に抑えるために、第１および第２の深度画像が生成される。

ステップ３３００の実施形態によれば、サブステップ３３１０において、幾何形状画像生成器ＧＩは、より低い深度値Ｄ０、すなわち、より低い深度を有する２Ｄサンプル（投影面からより近い、点群の点）に関連付けられた深度値、を格納する第１の深度画像ＧＩ０、およびより遠い深度値Ｄ１、すなわち、より遠い深度を有する２Ｄサンプル（投影面からより遠い、点群の点）に関連付けられた深度値、を格納する第２の深度画像ＧＩ１を生成するように適合され得る。

ステップ３３００の実施形態によれば、サブステップ３３１０において、幾何形状画像生成器ＧＩは、最小深度値Ｄ０、すなわち、最も低い深度を有する２Ｄサンプルに関連付けられた深度値、を格納する第１の深度画像ＧＩ０、および最大深度値Ｄ１、すなわち、最も遠い深度を有する２Ｄサンプルに関連付けられた深度値、を格納する第２の深度画像ＧＩ１を生成するように適合され得る。

サブステップ３３１０の変形例によれば、第１の深度画像ＧＩ０は、最大深度値Ｄ１、すなわち、最も遠い深度を有する２Ｄサンプルに関連付けられた深度値、を格納することができ、第２の深度画像ＧＩ１は、最小深度値Ｄ０、すなわち、最も低い深度を有する２Ｄサンプルに関連付けられた深度値、を格納することができる。

深度画像が、深度値の差を格納するのではなく、従来技術のように極めて顕著な輪郭状の頻度の高い特徴を格納することを回避する場合、絶対深度値を格納する。したがって、第１および第２の深度画像は、旧来型のビデオエンコーダによってより良好に符号化され、したがって、深度値は、当該復号化された第２の深度画像から十分に再構築され、その結果、再構築された点群フレームの高品質な幾何形状をもたらす。

ステップ３３００の実施形態によれば、サブステップ３３２０において、幾何形状画像生成器ＧＩＧは、第１および第２の深度画像上にパディングプロセスを適用するように適合されて、少なくとも１つの生成されたパッチ間の空スペースを埋め、したがって、第１および第２の滑らかな深度画像を生成することができる。

例えば、Ｖ−ＰＣＣのセクション２．２．６および２．２．７で提供された画像パディング例を使用してもよい。

ステップ３５００の実施形態によれば、サブステップ３５１０において、第１および第２のパディングされた深度画像ＧＩ０_１およびＧＩ１_１が第１の入力点群フレームＩＰＣＦ１から生成され得、第１および第２のパディングされた深度画像ＧＩ０_２およびＧＩ１_２が第２の入力点群フレームＩＰＣＦ２から生成され得るとき（図７のステップ３３００の出力）、エンコーダＶＥＮＣは、当該パディングされた第１および第２の深度画像をビデオストリームに時間インターリービングするように適合され得る。

例えば、当該時間インターリービングは、最初に、第１の入力点群フレームＩＰＣＦ１から生成された第１および第２のパディングされた深度画像を、次に、第２の入力点群フレームＩＰＦＣ２から生成された第１および第２のパディングされた画像、すなわち、ＧＩ０_１、ＧＩ１_１、ＧＩ０_２、およびＧＩ１_２を考慮することによって、ビデオストリームを生成するように適合されてもよい。

この時間インターリービングの例は、限定的なものではなく、読者は、係る時間インターリービングが３つ以上の入力点群フレームに適用することができることを理解するであろう。

ある変形例では、第１および第２のパディングされた深度画像を同じビットストリーム内で時間インターリービングするのではなく、第１のパディングされた深度画像が、サブストリーム内に出力されてもよく、第２のパディングされた深度画像が、別のサブストリーム内に出力されてもよい。

ステップ３５００の実施形態によれば、サブステップ３５２０において、ビデオエンコーダＶＥＮＣは、以前に符号化された入力点群フレームから生成された、それぞれ第１の、第２のパディングされた深度画像により、現在の入力点群フレームから生成された、それぞれ第１の、第２のパディングされた深度画像の予測を使用することによって、符号化された当該ビデオストリームに適合され得る。

ステップ３５００の実施形態によれば、サブステップ３５２０において、入力点群フレームから生成された第２のパディングされた深度画像は、以前に符号化された入力点群フレームから生成された第１のパディングされた深度画像によって推測され得る。

ステップ３５００の実施形態によれば、サブステップ３５２０において、現在の入力点群フレームから生成された第１のパディングされた深度画像は、以前に符号化された入力点群フレームから生成された第１のパディングされた深度画像によって予測され得、当該現在の入力点群フレームから生成された第２のパディングされた深度画像は、当該現在の入力点群フレームから生成された第１のパディングされた深度画像によって予測され得る。

図８は、本実施形態のうちの少なくとも１つに従う、ステップ４２００および４５００のサブステップの概略ブロック図を示す。

ステップ４２００において、ビデオデコーダＶＤＥＣは、ビデオストリームを復号化して、復号化されたビデオストリーム、多重分離装置ＤＭＵＸの出力（ステップ４１００）を提供し、そして当該復号化されたビデオストリームから少なくとも１つの復号化された幾何形状画像ＤＧＩを導出する。

ステップ４２００の実施形態によれば、サブステップ４２１０において、ビデオストリームを復号化することは、以前に復号化された入力点群フレームに対するそれぞれ第１の、第２の深度画像によって、現在の入力点群フレームに対するそれぞれ第１の、第２の深度画像の予測を使用することができる。

ステップ４２００の実施形態によれば、サブステップ４２１０において、入力点群フレームに対する第２の深度画像が、以前に復号化された入力点群フレームに対する第１の深度画像によって予測され得る。

ステップ４２００の実施形態によれば、サブステップ４２１０において、現在の入力点群フレームに対する第１の深度画像は、以前に復号化された入力点群フレームに対する第１の深度画像によって予測され得、当該現在の入力点群フレームに対する第２の深度画像は、当該現在の入力点群フレームに対する第１の深度画像によって予測され得る。

ステップ４２００の実施形態によれば、サブステップ４２２０において、第１および第２の復号化された深度画像ＤＧＩ０_１およびＤＧＩ１_１が、復号化されたビデオストリームから導出され得、第１および第２の復号化された深度画像ＤＧＩ０_２およびＤＧＩ１_２が、復号化されたビデオストリームから導出され得るとき、デコーダＶＤＥＣは、時間デインターリービングによって当該第１および第２の復号化された深度画像にアクセスするように適合され得る。

ステップ４２００の実施形態によれば、サブステップ４２２０において、当該時間デインターリービングは、第１の入力点群フレームＩＰＣＦ１を表す、３Ｄサンプルの深度値を表す、第１および第２の復号化された深度画像ＤＧＩ０_１およびＤＧＩ１_１、ならびに第２の入力点群フレームＩＰＣＦ２を表す、３Ｄサンプルの深度値を表す、第１および第２の復号化された深度画像ＤＧＩ０_２およびＤＧＩ１_２、を表す復号化されたビデオストリームにアクセスするように適合され得る。

例えば、当該時間デインターリービングは、最初に、第１の入力点群フレームＩＰＣＦ１を表す、３Ｄサンプルの深度値を表す、第１および第２の復号化された深度画像を表す、復号化されたビデオストリームの情報、次に、第２の入力点群フレームＩＰＦＣ２から生成された第１および第２の復号化された画像を表す、復号化されたビデオストリームの情報、すなわち、ＤＧＩ０_１、ＤＧＩ１_１、ＤＧＩ０_２、およびＤＧＩ１_２にアクセスするように適合され得る。

この時間デインターリービングの例は、限定的なものではなく、読者は、係る時間デインターリービングが３つ以上の入力点群フレームに適用することができることを理解するであろう。

ステップ４２００の実施形態によれば、第１の復号化された深度画像ＤＧＩ０は、より低い深度値を表す情報、すなわち、より低い深度を有する２Ｄサンプルに関連付けられた深度値を表す情報、を格納することができ、第２の復号化された深度画像ＤＧＩ１は、より遠い深度値を表す情報、すなわち、より遠い深度を有する２Ｄサンプルに関連付けられた深度値を表す情報、を格納することができる。

ステップ４２００の実施形態によれば、第１の復号化された深度画像ＤＧＩ０は、最小深度値を表す情報、すなわち、最も低い深度を有する２Ｄサンプルに関連付けられた深度値を表す情報、を格納することができ、第２の復号化された深度画像ＤＧＩ１は、最大深度値、すなわち、最も遠い深度を有する２Ｄサンプルに関連付けられた深度値、を表す情報を格納することができる。

ある変形例によれば、第１の復号化された深度画像ＤＧＩ０は、より遠い深度値を表す情報、すなわち、より遠い深度を有する２Ｄサンプルに関連付けられた深度値を表す情報、を格納することができ、第２の復号化された深度画像ＤＧＩ１は、より低い深度値、すなわち、より低い深度を有する２Ｄサンプルに関連付けられた深度値、を表す情報を格納することができる。

ある変形例によれば、第１の復号化された深度画像ＤＧＩ０は、最大深度値を表す情報、すなわち、最も遠い深度を有する２Ｄサンプルに関連付けられた深度値を表す情報、を格納することができ、第２の復号化された深度画像ＤＧＩ１は、最小深度値、すなわち、最も低い深度を有する２Ｄサンプルに関連付けられた深度値、を表す情報を格納することができる。

サブステップ４５１０の実施形態によれば、生成モジュールＧＧＭは、当該少なくとも１つの復号化された深度画像ＤＧＩのうちの１つをフィルタリングするように適合され得る。

少なくとも１つの復号化された深度画像をフィルタリングすることにより、再構築された３Ｄサンプルの３Ｄ座標の再構築品質を改善することができる。

サブステップ４５１０の実施形態によれば、復号化された深度画像をフィルタリングするには、別の深度画像の画素値を使用する。

ステップ４５００の実施形態によれば、サブステップ４５１０において、第１の復号化された深度画像ＤＧＩ０が最小深度値を格納し、第２の復号化された深度画像ＤＧＩ１が最大深度値を格納し、生成モジュールＧＧＭは、当該第２の深度画像ＤＧＩ１をフィルタリングするように適合され得る。次に、サブステップ４５２０において、生成モジュールＧＧＭは、空でない画素の座標、当該第１の復号化された深度画像ＤＧＩ０、および当該第２のフィルタリングされた復号化された深度画像ＤＧＩ１の当該空でない画素の値、復号化された補助パッチ情報から、ならびに場合によっては、追加のメタデータから、再構築された３Ｄサンプルの３Ｄ座標を導出することができる。

復号化された第２の深度画像の画素値をフィルタリングすることにより、第１の復号化された深度画像ＤＧＩ０の画素値と、第２のフィルタリングされた復号化された深度画像ＤＧＩ１の画素値との間の差が、所与の範囲内にあることを確実にする。

ある実施形態によれば、この所与の範囲は、０から、表面厚さＳＴを表す値まで及ぶ。

表面厚さとは、深度画像ＤＩ０の画素値と、エンコーダ側で許容される表面厚さとの間の差の最大値であり、これは、エンコーダ側で同じ画素（ｕ，ｖ）の深度Ｄ０およびＤ１を計算するために使用される仮定値である。

サブステップ４５１０の実施形態によれば、

第２のフィルタリングされた復号化された深度画像の座標（ｕ，ｖ）に位置される画素の画素値は、次式で与えられる。

ここで、

は、それぞれ、

第１の復号化された深度画像ＤＧＩ０、および第２の復号化された深度画像ＤＧＩ１の画素値である。なお、条件ａ）を満たさない場合は、条件ｂ）を点検し、条件ｂ）を満たさない場合は、条件ｃ）を点検することに留意せよ。

当該実施形態によれば、画素値をフィルタリングすることには、０から表面厚さＳＴまで及ぶ所与の範囲に応じて、第１および第２の復号化された深度画像の画素値の差をクリッピングすることが含まれる。

係るフィルタリングの複雑さは、小さい。

サブステップ４５１０の実施形態によれば、

第２のフィルタリングされた復号化された深度画像の座標（ｕ，ｖ）に位置する画素の画素値は、次式で与えられる。

当該実施形態によれば、画素値をフィルタリングすることは、第１および第２の復号化された深度画像の画素値の差を、０から表面厚さＳＴまで及ぶ所与の範囲に対して線形写像することに基づいている。

係るフィルタリングは、以前の実施形態と比較して、３Ｄ再構築された３Ｄサンプルの品質を改善するが、複雑さを増加させる。

ある実施形態によれば、所与の範囲の少なくとも１つの限界が、送信される。

所与の範囲の上限のみが送信されることが好ましい。

上限（ＳＴ）をビットストリームに送信（信号伝達）するには、複数の方法がある。

一実施形態によれば、その上限（ＳＴ）は、所与のビット数、例えば３ビットによって信号伝達され、当該上限（ＳＴ）の値を示す。

別の実施形態によれば、上限（ＳＴ）は、以下を使用することによって、信号伝達される。
●フィルタリング（サブステップ４５１０）が使用されているか否かを示す１ビット。例えば、１は、使用されていることを意味し、０は、その逆を意味する。
●第１のビットが１に等しい場合、所与のビット数、例えば、３ビットに続いて、当該上限ＳＴの値を示す。

ある実施形態によれば、上限ＳＴは、ビットストリーム全体で、例えば、図５のヘッダＢＳＨ内に一度だけ、または、例えばフレームストリームグループＧＯＦＳのヘッダＨＳ内に、または、例えば幾何形状もしくはテクスチャ画像が内部で符号化されたときに、メタデータとしてシンタックス要素ＧＶＳもしくはＴＶＳ内に複数回、信号伝達されてもよい。

上限ＳＴを複数回信号伝達させることにより、各フレームまたは各フレームグループに対して異なる値の表面厚さを選択することが可能になる。

図１〜図８において、様々な方法が、本明細書に記載されており、その方法の各々は、記載された方法を達成するための１つ以上のステップまたは動作を含む。ステップまたは動作の特定の順番が、その方法の適切な動作のために必要とされない限り、特定のステップおよび／または動作の順番および／または使用は、変更するか、または組み合わせることができる。

いくつかの例が、ブロック図および動作フローチャートに関連して説明されている。各ブロックは、特定の論理関数（複数可）を実施するための１つ以上の実行可能命令を含む、回路要素、モジュール、またはコードの一部を表す。また、他の実施態様では、ブロック内に記述された機能（複数可）は、示された順番から外れて行われてもよいことに留意されたい。例えば、連続的に示される２つのブロックは、実際には、実質的に同時に実行されてもよく、またはそれらのブロックは、場合によっては、必然的に伴う機能性に応じて、逆の順番で実行されてもよい。

本明細書に記載された実施態様および態様は、例えば、方法もしくはプロセス、装置、コンピュータプログラム、データストリーム、ビットストリーム、または信号で実施され得る。単一の形式の実施態様の文脈でのみ考察されている（例えば、方法としてのみ考察されている）場合であっても、考察された特徴の実施態様はまた、他の形式（例えば、装置またはコンピュータプログラム）でも実施され得る。

方法は、例えば、プロセッサ内で実施され得、そのプロセッサは、一般に処理デバイスを指し、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む。プロセッサはまた、通信デバイスも含む。

追加的に、方法は、プロセッサにより実行される命令によって実施され得、係る命令（および／または実施態様により生成されるデータ値）は、コンピュータ可読記憶媒体に格納され得る。コンピュータ可読記憶媒体は、コンピュータ可読プログラム製品の形式を取ることができ、このコンピュータ可読プログラム製品は、１つ以上のコンピュータ可読媒体（複数可）内で具現化され、コンピュータにより実行可能である、その媒体上で具現化されるコンピュータ可読プログラムコードを有する。本明細書で使用されるようなコンピュータ可読記憶媒体は、内部に情報を格納するための固有の能力、ならびに内部から情報を取得するための固有の能力が与えられた非一時的記憶媒体とみなされ得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または前述の任意の好適な組み合わせとすることができるが、これらに限定されない。本実施形態が適用され得るコンピュータ可読記憶媒体のより具体的な例を提供するが、当業者によって容易に理解されるように、以下のものは、単に例示的であり、かつ非網羅的なリストであることを理解されたい。すなわち、ポータブルコンピュータディスケット、ハードディスク、読み出し専用メモリ（ＲＯＭ）、消去可能型プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組み合わせ、である。

命令は、プロセッサ可読媒体上で有形的に具現化されるアプリケーションプログラムを形成し得る。

命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、または組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、またはこの２つの組み合わせに見出すことができる。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体（記憶デバイスなど）を含むデバイスとの両方として特徴付けられ得る。さらに、プロセッサ可読媒体は、命令に加えてまたは命令の代わりに、実施態様によって生成されたデータ値を格納し得る。

装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウェアで実施され得る。係る装置の例には、パーソナルコンピュータ、ラップトップ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビジョン受信機、パーソナルビデオレコーディングシステム、接続された家庭電化製品、ヘッドマウントディスプレイデバイス（ＨＭＤ、シースルーグラス）、プロジェクタ（ビーマー）、「没入型バーチャルリアリティ体験デバイス」（複数のディスプレイを含むシステム）、サーバ、ビデオエンコーダ、ビデオデコーダ、ビデオデコーダから出力されるポストプロセッサ処理、ビデオエンコーダへの入力を提供するプリプロセッサ、ウェブサーバ、セットトップボックス、および点群、ビデオ、もしくは画像を処理するための任意の他のデバイス、または他の通信デバイスが含まれる。明らかなように、機器は移動型であり、移動車両に設置されている場合さえある。

コンピュータソフトウェアは、プロセッサ６０１０によって、もしくはハードウェアによって、またはハードウェアおよびソフトウェアの組み合わせによって実装されてもよい。非制限的な例として、それらの実施形態はまた、１つ以上の集積回路によっても実施され得る。メモリ６０２０は、技術的な環境に適する任意のタイプのものであってもよく、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、および取り外し可能なメモリなどの任意の適切なデータ記憶技術を使用して実装されてもよい。プロセッサ６０１０は、技術的な環境に適する任意のタイプのものであってもよく、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づくプロセッサのうちの１つ以上を包含し得る。

当業者にとっては明らかであるように、実施態様は、例えば、格納または送信され得る情報を搬送するためにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令、または説明された実施態様のうちの１つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態のビットストリームを搬送するためにフォーマット化され得る。そのような信号は、例えば、電磁波として（例えば、スペクトルの無線周波数部分を使用して）、またはベースバンド信号としてフォーマット化され得る。フォーマット化は、例えば、データストリームを符号化すること、および符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する情報は、例えば、アナログ情報またはデジタル情報であり得る。信号は、既知のように、様々な異なる有線または無線リンクを介して送信され得る。信号は、プロセッサ可読媒体に格納され得る。

本明細書で使用される専門用語は、特定の実施形態を説明することのみを目的としており、限定することは意図されていない。本明細書で使用されるとき、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、その文脈が特段明確に示していない限り、複数形をも含むことが意図され得る。「含む／備える」および／または「含んでいる／備えている」という用語は、本明細書で使用されるとき、記述された、例えば、特徴、整数、ステップ、動作、要素、および／またはコンポーネントの存在を指定し得るが、１つ以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、および／またはそれらのグループの存在または追加を排除しないことは、さらに理解されるであろう。さらに、ある要素が、別の要素に対して「応答する」または「接続される」と称されるとき、その要素は、他の要素に対して直接応答するか、もしくは直接接続され得るか、または介在する要素が存在し得る。対照的に、ある要素が、他の要素に「直接応答する」または「直接接続される」と称されるとき、介在する要素は、存在しない。

記号／用語である「／」、「および／または」、および「のうちの少なくとも１つ」のいずれかの使用は、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡとＢのうちの少なくとも１つ」の場合、第１の列挙選択肢（Ａ）のみの選択、または第２の列挙選択肢（Ｂ）のみの選択、または両方の選択肢（ＡおよびＢ）の選択を包含することが意図され得ることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」と「Ａ、Ｂ、およびＣのうちの少なくとも１つ」の場合、そのような語法は、第１の列挙選択肢（Ａ）のみの選択、または第２の列挙選択肢（Ｂ）のみの選択、または第３の列挙選択肢（Ｃ）のみの選択、または第１および第２の列挙選択肢（ＡおよびＢ）のみの選択、または第１および第３の列挙選択肢（ＡおよびＣ）のみの選択、または第２および第３の列挙選択肢（ＢおよびＣ）のみの選択、または３つすべての選択肢（ＡおよびＢおよびＣ）の選択を包含することが意図されている。これは、本技術分野および関連技術分野の当業者には明らかなように、列挙されている項目と同じだけ拡張することができる。

様々な数値が、本出願で使用され得る。特定の値は、例えば、目的であってもよく、記載される態様は、これらの特定の値に限定されない。

第１、第２などの用語が、各種の要素を説明するために、本明細書で使用される場合があるが、これらの要素は、これらの用語によっては限定されないことが、理解されるであろう。これらの用語は、ある要素と別の要素を区別するためにのみ使用される。例えば、本出願の教示から逸脱することなく、第１の要素は、第２の要素と称され得、同様に、第２の要素は、第１の要素と称され得る。第１の要素と第２の要素との間の順序付けには、意味がない。

「一実施形態」または「ある実施形態」または「一実施態様」または「ある実施態様」、ならびにそれらの他のバリエーションへの言及を頻繁に使用して、特定の特徴、構造、特性など（実施形態／実施態様と関連して説明される）が、少なくとも１つの実施形態／実施態様に含まれることを伝えている。したがって、「一実施形態では」または「ある実施形態では」または「一実施態様では」または「ある実施態様では」、ならびに任意の他のバリエーショという成句の出現は、本出願全体を通じて様々な場所で現れ、必ずしもすべて同じ実施形態を指しているわけではない。

同様に、本明細書内の「ある実施形態／例／実施態様に従って」または「ある実施形態／例／実施態様では」、ならびにそれらの他のバリエーションへの言及を頻繁に使用して、特定の特徴、構造、または特性（実施形態／例／実施態様と関連して説明される）が、少なくとも１つの実施形態／例／実施態様に含まれ得ることを伝えている。したがって、本明細書の様々な場所での「ある実施形態／例／実施態様に従って」または「ある実施形態／例／実施態様では」という表現の出現は、必ずしもすべて同じ実施形態／例／実施態様を指すものではなく、別個または代替の実施形態／例／実施態様が、必ずしも他の実施形態／例／実施態様を相互に除外するものでもない。

特許請求の範囲に現れる参照数字は、例示のみを目的としており、特許請求の範囲を限定する影響を及ぼさないものとする。明示的には説明されていないが、本実施形態／例および変形例は、任意の組み合わせまたは部分的組み合わせで使用することができる。

図がフロー図として提示されているとき、それはまた、対応する装置のブロック図も提供していることを理解されたい。同様に、図がブロック図として提示されている場合、それはまた、対応する方法／プロセスのフロー図も提供していることを理解されたい。

いくつかの図には、通信の主要な方向を示すために通信経路上に矢印が含まれるが、通信は、図示された矢印と反対側の方向に生じる場合があることを理解されたい。

様々な実施態様が、復号化を伴う。「復号化」は、本出願で使用されるとき、例えば、受信した点群フレーム上で実行されるプロセスのすべてまたは一部を包含して、表示のために好適である最終的な出力を生成することができる。様々な実施形態では、そのようなプロセスは、一般的に、画像ベースのデコーダにより実行されるプロセスのうちの１つ以上を含む。様々な実施形態では、そのようなプロセスはまた、または代替的に、本出願に記載された様々な実施態様のデコーダによって実行されるプロセスも含む。

さらなる例として、一実施形態では、「復号化」は、エントロピー復号化のみを指し得、別の実施形態では、「復号化」は、差動復号化のみを指し得、別の実施形態では、「復号化」は、エントロピー復号化および差動復号化の組み合わせを指し得る。「復号化プロセス」という成句が、具体的に動作のサブセットを指すことが意図され得るのか、または概してより広い符号化プロセスを指すことが意図され得るのかどうかについては、具体的な説明の文脈に基づいて明確となり得、当業者によって十分理解されるものと思われる。

様々な実施態様が、符号化を伴う。「復号化」に関する上述の説明と同様に、本出願で使用されるとき、「符号化」は、符号化されたビットストリームを生成するために、例えば、入力点群フレーム上で実行されるプロセスのすべてまたは一部を包含し得る。様々な実施形態では、そのようなプロセスは、一般的に、画像ベースのデコーダにより実行されるプロセスのうちの１つ以上を含む。様々な実施形態では、そのようなプロセスはまた、または代替的に、本出願に記載された様々な実施態様のエンコーダによって実行されるプロセスを含む。

さらなる例として、一実施形態では、「符号化」はエントロピー符号化のみを指してもよく、別の実施形態では、「符号化」は差動符号化のみを指してもよく、別の実施形態では、「符号化」は差動符号化とエントロピー符号化の組み合わせを指してもよい。「符号化プロセス」という成句が、具体的に動作のサブセットを指すことが意図され得るのか、または概してより広い符号化プロセスを指すことが意図され得るのかどうかについては、具体的な説明の文脈に基づいて明確となり得、当業者によって十分理解されるものと思われる。

本明細書で使用されるときのシンタックス要素、例えばＢＳＨ、ＧＶＳ、またはＴＶＳは、説明用語であることに留意されたい。したがって、それらは、他のシンタックス要素名の使用を妨げない。

様々な実施形態では、レート歪みの最適化について言及する。特に、符号化処理中、多くの場合、計算の複雑さの制約を考慮すると、通常、レートと歪みとの間のバランスまたはトレードオフが考慮される。レート歪みの最適化は、通常、レート歪み関数を最小化するように定式化することができ、レート歪み関数は、レートと歪みとの加重和である。レート歪みの最適化問題を解決するには、異なるアプローチがある。例えば、それらのアプローチは、すべての符号化選択肢の広範なテストに基づいてもよく、その選択肢は、すべての考慮されたモードまたは符号化パラメータ値を含み、それらの符号化コスト、ならびに符号化および復号化後の再構築された信号の関連する歪みの完全な評価を伴う。また、より高速なアプローチを使用して、特に、再構築されたものではなく、予測または予測残留信号に基づくおおよその歪みの計算で、符号化の複雑さを省くことができる。また、これらの２つのアプローチは、例えば、可能な符号化選択肢のうちのいくつかのみについてのおおよその歪み、および他の符号化選択肢についての完全な歪みを使用することによって、併用されてもよい。他のアプローチでは、可能な符号化選択肢のサブセットのみを評価する。より一般的に、多くのアプローチは、様々な技術のいずれかを採用して最適化を実行するが、最適化は、必ずしも符号化コストおよび関連する歪みの両方の完全な評価である必要はない。

追加的に、本出願は、様々な断片情報を「判定する」ことについて言及することができる。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、またはメモリから情報を取得することのうちの１つ以上を含み得る。

さらに、本出願は、様々な断片情報に「アクセスする」ことについて言及することができる。情報にアクセスすることは、例えば、情報を受信すること、情報を取得すること（例えば、メモリから）、情報を格納すること、情報を移動させること、情報を複製すること、情報を計算すること、情報を判定すること、情報を予測すること、または情報を推定することのうちの１つ以上を含み得る。

追加的に、本出願は、様々な断片情報を「受信すること」について言及することができる。受信することとは、「アクセスすること」と同様に、広義の用語であることが意図されている。情報を受信することは、例えば、情報にアクセスすること、または（例えば、メモリから）情報を取得することのうちの１つ以上を含み得る。さらに、「受信すること」は、典型的には、例えば、情報を格納する、情報を処理する、情報を送信する、情報を移動させる、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、または情報を推定するなどの動作中に、何らかの方法で関与する。

また、本明細書で使用されるとき、「信号」という単語は、とりわけ、対応するデコーダに対して何かを示すことを指す。例えば、ある特定の実施形態において、エンコーダは、同じ投影線に沿って投影面上に投影される点群の２つの点の深度値間の最大差を画定する表面厚さを表す特定のデータに信号伝達する。このように、実施形態では、同じパラメータが、エンコーダ側およびデコーダ側の両方で使用され得る。したがって、例えば、エンコーダは、特定のパラメータをデコーダに送信し（明示的な信号伝達）、その結果、デコーダは、同じ特定のパラメータを使用することができる。逆に、デコーダが既に特定のパラメータ、ならびに他のパラメータを有する場合、信号伝達は、送信せずに使用されて（暗黙的な信号伝達）、単にデコーダが特定のパラメータを知り、そして選択することを可能にし得る。任意の実際の機能の送信を回避することによって、様々な実施形態においてビット節減が実現される。信号伝達は、様々な方法で達成され得ることを理解されたい。例えば、様々な実施形態では、１つ以上のシンタックス要素、フラグなどを使用して、対応するデコーダに情報を信号伝達する。直前の記述は、単語「信号」の動詞形態に関するものであるが、単語「信号」は、本明細書では、名詞としても使用され得る。

多数の実施態様が説明されてきた。それでもなお、様々な変更が行われ得ることが理解されよう。例えば、異なる実施態様の要素は、他の実施態様を生成するために、組み合わされ、補足され、変更され、または削除されてもよい。追加的に、当業者は、他の構造およびプロセスが開示されたものの代わりになり得、結果として生じる実施態様が、少なくとも実質的に同じ機能（複数可）を、少なくとも実質的に同じ方法（複数可）で実行して、開示された実施態様と少なくとも実質的に同じ結果（複数可）を達成することを理解するであろう。したがって、これらおよび他の実施態様は、本出願によって企図されている。

Claims

点群フレームのより近い点の深度値を表す第１の深度画像と、投影面の点群フレームのより遠い点の深度値を表す第２の深度画像と、をパディングすることを含む、方法。
前記方法が、前記パディングされた第１および第２の深度画像の時間インターリービングを含むビデオストリームを符号化することをさらに含む、請求項１に記載の方法。
ビデオストリームを符号化することが、別のパディングされた深度画像を基準画像として使用することによって、パディングされる深度画像を予測することを含む、請求項１または２に記載の方法。
点群フレームのより近い点の深度値を表す第１の深度画像と、投影面の点群フレームのより遠い点の深度値を表す第２の深度画像と、をパディングするように構成された少なくとも１つのプロセッサを備える、デバイス。
前記少なくとも１つのプロセッサが、前記パディングされた第１および第２の深度画像の時間インターリービングを含むビデオストリームを符号化するようにさらに構成されている、請求項４に記載のデバイス。
ビデオストリームを符号化することが、別のパディングされた深度画像を基準画像として使用することによって、パディングされた深度画像を予測することを含む、請求項４または５に記載のデバイス。
方法であって、
−点群フレームのより近い点の深度値を表す第１の深度画像と、点群フレームのより遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、
−前記第１の深度画像の画素値を使用することによって、前記第２の深度画像の画素値をフィルタリングすることと、を含む、方法。
前記第２の深度画像の画素値をフィルタリングすることが、前記第１の深度画像の前記画素値と前記第２の深度画像の前記画素値との間の差に基づく、請求項７に記載の方法。
画素値をフィルタリングすることが、前記差のクリッピングを含む、請求項８に記載の方法。
前記クリッピングが、所与の範囲に基づく、請求項９に記載の方法。
前記所与の範囲が、０から最大表面厚さまで及ぶ、請求項１０に記載の方法。
前記所与の範囲の少なくとも１つの限界が、送信される、請求項１０または１１に記載の方法。
前記第１および第２の深度画像にアクセスすることが、前記復号化されたビデオストリームを時間デインターリービングすることを含む、請求項７に記載の方法。
少なくとも１つのプロセッサを備えるデバイスであって、前記少なくとも１つのプロセッサが、
投影面の点群フレームの最も近い点の深度値を表す第１の深度画像と、前記投影面の点群フレームの最も遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、
前記第１の深度画像の画素値を使用することによって、前記第２の深度画像の画素値をフィルタリングすることと、を行うように構成されている、デバイス。
前記第２の深度画像の画素値をフィルタリングすることが、前記第１の深度画像の前記画素値と、前記第２の深度画像の前記画素値との間の差に基づく、請求項１４に記載のデバイス。
画素値をフィルタリングすることが、前記差のクリッピングを含む、請求項１５に記載のデバイス。
前記クリッピングが、所与の範囲に基づく、請求項１６に記載のデバイス。
前記所与の範囲が、０から最大表面厚さまで及ぶ、請求項１７に記載のデバイス。
前記所与の範囲の少なくとも１つの限界が、送信される、請求項１７または１８に記載のデバイス。
前記少なくとも１つのプロセッサが、前記復号化されたビデオストリームを時間デインターリービングするようにさらに構成されている、請求項１４に記載のデバイス。
点群フレームの点の深度値を表すデータを搬送する信号であって、前記信号が、同じ投影線に沿って投影面上に投影された前記点群の２つの点の前記深度値の間の最大差を画定する表面厚さを表すデータをさらに搬送する、信号。
表面厚さを表す前記データは、深度値を表す搬送されたデータから導出される再構築された深度値がフィルタリングされる必要があるか否かを示す第１のビットと、前記表面厚さの整数値を示すための少なくとも１つの他のビットと、を含む、請求項２１に記載の信号。
命令を含むコンピュータプログラム製品であって、前記命令は、前記プログラムが１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサに、
−投影面の点群フレームの最も近い点の深度値を表す第１の深度画像と、前記投影面の点群フレームの最も遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、
−前記第１の深度画像の画素値を使用することによって、前記第２の深度画像の画素値をフィルタリングすることと、を含む、方法を実行させる、コンピュータプログラム製品。
非一時的コンピュータ可読媒体であって、１つ以上のプロセッサに、
点群フレームのより近い点の深度値を表す第１の深度画像と、投影面の点群フレームのより遠い点の深度値を表す第２の深度画像と、をパディングさせることを実行させるための命令を含む、非一時的コンピュータ可読媒体。
非一時的コンピュータ可読媒体であって、１つ以上のプロセッサに、
−投影面の点群フレームの最も近い点の深度値を表す第１の深度画像と、前記投影面の点群フレームの最も遠い点の深度値を表す第２の深度画像と、を提供するようにビデオストリームを復号化することと、
−前記第１の深度画像の画素値を使用することによって、前記第２の深度画像の画素値をフィルタリングすることと、を実行させるための命令を含む、非一時的コンピュータ可読媒体。
非一時的コンピュータ可読媒体であって、
−点群フレームの点の深度値を表すデータと、
−同じ投影線に沿って投影面上に投影された前記点群の２つの点の前記深度値の間の最大差を画定する表面厚さを表すデータと、を含む、非一時的コンピュータ可読媒体。