JP7376211B2

JP7376211B2 - 点群コーディングにおけるカメラパラメータのシグナリング

Info

Publication number: JP7376211B2
Application number: JP2022541779A
Authority: JP
Inventors: モグイランスキー、ジェフリー; ザカーチェンコ、ヴラディスラヴ; チェン、ジアンレ
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2020-01-06
Filing date: 2021-01-06
Publication date: 2023-11-08
Anticipated expiration: 2041-01-06
Also published as: BR112022013389A2; CA3163862A1; JP2023509513A; US20220343547A1; KR20220122754A; EP4078530A2; EP4078530A4; CN114945945A; WO2021062447A3; WO2021062447A2

Description

本開示は、一般に、ビデオコーディングに関し、特に、ビデオ点群コーディング（Ｖ－ＰＣＣ）のためのデフォルトの視野位置および角度をシグナリングすることをサポートするための改善に関する。

比較的短いビデオであっても描写するのに必要なビデオデータの量は、かなり多くなる可能性があり、これは、データが限られた帯域幅容量を有する通信ネットワークを介してストリーミングまたは通信される場合に困難をもたらすことがある。したがって、ビデオデータは、一般に、今日の電気通信ネットワークを介して通信される前に圧縮される。メモリリソースが制限されることがあるため、ビデオが記憶装置に記憶される場合、ビデオのサイズも問題になることがある。ビデオ圧縮デバイスは、送信または記憶の前にビデオデータをコードするためにソースでソフトウェアおよび／またはハードウェアを使用することが多く、それによって、デジタルビデオ画像を表すために必要なデータの量を減少させる。その後、圧縮されたデータは、配信先において、ビデオデータをデコードするビデオ圧縮解除デバイスによって受信される。ネットワークリソースが限られており、より高いビデオ品質への要求がますます高まっているため、画質をほとんどまたはまったく犠牲にすることなく圧縮比を改善する、改善された圧縮および解凍技術が望ましい。

一実施形態において、本開示は、デコーダによって実装される方法を含み、前記方法は、前記デコーダの受信機によって、アトラスフレーム内の複数のパッチとカメラのためのカメラオフセットとを含むビットストリームを受信する段階と、前記デコーダのプロセッサによって、前記アトラスフレーム内の前記複数のパッチをデコードする段階と、前記プロセッサによって、前記複数のパッチを３次元（３Ｄ）パッチ座標系に変換して点群コンテンツを取得する段階と、前記プロセッサによって、前記カメラオフセットに基づくオフセット行列を判断する段階と、前記プロセッサによって、前記オフセット行列を前記点群コンテンツに適用する段階とを備える。

点群コーディング（ＰＣＣ）システムは、ＰＣＣ成分をデコードし、３Ｄ点群を再構成する。次に、いくつかのＰＣＣシステムは、カメラをデコーダで予め定義されたデフォルトの位置に配置する。カメラは、フラットスクリーンに表示することができる２次元（２Ｄ）画像として３Ｄ点群をレンダリングすることに用いられる。カメラ位置は、対応する瞬間においてユーザに描写された３Ｄ点群の部分を定義する。このようなシステムでは、ユーザがカメラを制御し、カメラを好みの位置に動かして、好みの角度から所望のコンテンツをレンダリングすることが必要になることがある。このため、用途によっては、ユーザが所望のコンテンツを見るのに最良の位置を認識し得ないという問題が生じる場合がある。例えば、ユーザはサッカーの試合のＰＣＣビデオを見る場合がある。デフォルトのカメラ位置は、サッカーフィールドの中央付近にあることがある。ユーザは、クォーターバックまたはストライカに近い位置からＰＣＣビデオを見たいと希望することがあるが、クォーターバックまたはストライカがフィールド上のどこに位置しているか知らないことがある。その結果、検索に時間がかかり、望ましくないユーザエクスペリエンスを生成することがある。

本実施例は、好ましい視野位置および角度をシグナリングするメカニズムを含む。例えば、コンテンツ制作者は、エンコード時に１または複数の視野位置および／または視野角度を選択することができる。次に、ユーザはＰＣＣビデオを見る際に、好ましい視野位置を選択することができる。この結果を達成するために、エンコーダは、カメラ位置を判断するための１または複数のカメラオフセットと、カメラ視野角を判断するための対応するカメラ回転とをエンコードすることができる。カメラオフセット（例えば、カメラ位置）は、ＰＣＣコンテンツを含む境界ボックスの予め定義された点からのＸ、Ｙ、Ｚオフセットを含む。カメラ回転は、カメラオフセットによって説明された位置からカメラが向いている方向（例えば、視野角度）を説明する視野ベクトルを含む。デコーダは、カメラオフセットおよびカメラ回転を読み取り、次に、それに応じてＰＣＣビデオをレンダリングすることができる。例えば、ＰＣＣビデオは、デコード時にモデル行列に配置することができる。３Ｄ点群から２Ｄ画像をレンダリングするために、カメラ情報をモデル行列に変換として適用することができる。例えば、カメラオフセットを用いてオフセット行列を生成し、カメラ回転を用いて回転行列を生成することができる。次に、オフセット行列および回転行列をモデル行列に適用することで、ＰＣＣコンテンツを所定の位置および角度から点群を表示する２Ｄ画像に変換することができる。したがって、本実施例では、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、本開示はコーディングの効率を高めるメカニズムをサポートし、したがって、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリ、および／またはネットワークリソース使用量の減少をサポートする。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記カメラオフセットは、Ｘ軸に対応する第１のオフセット、Ｙ軸に対応する第２のオフセット、およびＺ軸に対応する第３のオフセットを示す、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記オフセット行列は、４行４列を含み、前記第１のオフセットが第１行第４列に配置され、前記第２のオフセットが第２行第４列に配置され、前記第３のオフセットが第３行第４列に配置される、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記ビットストリームは、前記カメラに対するカメラ回転をさらに含み、前記方法は、前記プロセッサによって、前記カメラ回転に基づく回転行列を判断する段階と、前記プロセッサによって、前記回転行列を前記点群コンテンツに適用する段階とをさらに備える、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記カメラ回転は、四元数表現を使用する前記カメラの回転に対するＸ成分、四元数表現を使用する前記カメラの前記回転に対するＹ成分、および四元数表現を使用する前記カメラの前記回転に対するＺ成分を指定する、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記回転行列は、四元数表現を使用する前記カメラの前記回転に対する前記Ｘ成分、前記Ｙ成分、前記Ｚ成分、およびＷ成分を含む、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））によって計算され、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれ、前記Ｗ成分、前記Ｘ成分、前記Ｙ成分および前記Ｚ成分を表し、Ｓｑｒｔは平方根関数である、ことを提供する。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記アトラスフレーム内の前記複数のパッチは２Ｄパッチである、ことを提供する。

一実施形態において、本開示は、エンコーダによって実装される方法を含み、前記方法は、プロセッサによって、複数の２Ｄパッチと、点群フレームを説明するジオメトリとを点群コーディング（ＰＣＣ）ビットストリームにエンコードする段階と、前記プロセッサによって、前記点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする段階と、前記プロセッサによって、前記カメラオフセットを前記ＰＣＣビットストリームにエンコードする段階と、前記エンコーダのメモリによって、デコーダへの通信のために前記ＰＣＣビットストリームを記憶する段階とを備える、方法を含む。

ＰＣＣシステムは、ＰＣＣ成分をデコードして３Ｄ点群を再構成する。次に、いくつかのＰＣＣシステムは、デコーダで予め定義されたデフォルトの位置にカメラを配置する。カメラは、３Ｄ点群をフラットスクリーンに表示可能な２Ｄ画像としてレンダリングするために使用される。カメラ位置は、対応する瞬間においてユーザに描写される３Ｄ点群の部分を定義する。このようなシステムでは、ユーザがカメラを制御し、カメラを好みの位置に動かして、好みの角度から所望のコンテンツをレンダリングすることが必要になることがある。このため、用途によっては、ユーザが所望のコンテンツを見るのに最良の位置を認識し得ないという問題が生じる場合がある。例えば、ユーザはサッカーの試合のＰＣＣビデオを見る場合がある。デフォルトのカメラ位置は、サッカーフィールドの中央付近にあることがある。ユーザは、クォーターバックまたはストライカに近い位置からＰＣＣビデオを見たいと希望することがあるが、クォーターバックまたはストライカがフィールド上のどこに位置しているか知らないことがある。その結果、検索に時間がかかり、望ましくないユーザエクスペリエンスを生成することがある。

本実施例では、好ましい視野位置および角度をシグナリングするメカニズムを含む。例えば、コンテンツ制作者は、エンコード時に１または複数の視野位置および／または視野角度を選択することができる。次に、ユーザはＰＣＣビデオを見る際に、好ましい視野位置を選択することができる。この結果を達成するために、エンコーダは、カメラ位置を判断するための１または複数のカメラオフセットと、カメラ視野角を判断するための対応するカメラ回転とをエンコードすることができる。カメラオフセット（例えば、カメラ位置）は、ＰＣＣコンテンツを含む境界ボックスの予め定義された点からのＸ、Ｙ、Ｚオフセットを含む。カメラ回転は、カメラオフセットによって説明された位置からカメラが向いている方向（例えば、視野角度）を説明する視野ベクトルを含む。デコーダは、カメラオフセットおよびカメラ回転を読み取り、次に、それに応じてＰＣＣビデオをレンダリングすることができる。例えば、ＰＣＣビデオは、デコード時にモデル行列に配置することができる。３Ｄ点群から２Ｄ画像をレンダリングするために、カメラ情報をモデル行列に変換として適用することができる。例えば、カメラオフセットを用いてオフセット行列を生成し、カメラ回転を用いて回転行列を生成することができる。次に、オフセット行列および回転行列をモデル行列に適用することで、ＰＣＣコンテンツを所定の位置および角度から点群を表示する２Ｄ画像に変換することができる。したがって、本実施例では、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、本開示はコーディングの効率を高めるメカニズムをサポートし、したがって、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリ、および／またはネットワークリソース使用量の減少をサポートする。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、前記プロセッサによって、前記点群フレームに対する前記カメラのための視野ベクトルを説明するカメラ回転を判断して、前記点群フレームの前記カメラ視野をレンダリングするための回転行列の生成をサポートする段階と、前記プロセッサによって、前記カメラ回転を前記ＰＣＣビットストリームにエンコードする段階とをさらに備える、ことを提供する。

一実施形態において、本開示は、ビデオコーディングデバイスであって、プロセッサと、前記プロセッサに結合された受信機と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信機とを備え、前記プロセッサ、前記受信機、前記メモリ、および前記送信機は、前述の態様に記載の方法を実行するように構成されている、ビデオコーディングデバイスを含む。

一実施形態において、本開示は、ビデオコーディングデバイスによって用いるためのコンピュータプログラム製品を含む非一時的コンピュータ可読媒体であって、前記コンピュータプログラム製品は、プロセッサによって実行されたとき、前述の態様に記載の方法を前記ビデオコーディングデバイスに実行させるように、前記非一時的コンピュータ可読媒体に記憶された前記コンピュータ実施可能な命令を備える、非一時的コンピュータ可読媒体を含む。

一実施形態において、本開示は、アトラスフレーム内の複数のパッチと、カメラのためのカメラオフセットとを含むビットストリームを受信する受信手段と、前記複数のパッチをデコードするデコード手段と、前記複数のパッチを３Ｄパッチ座標系に変換して点群フレームを取得する変換手段と、前記カメラオフセットに基づいてオフセット行列を判断する判断手段と、前記オフセット行列を前記点群フレームに適用する適用手段とを備える、デコーダを含む。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、デコーダが、前述の態様のいずれかの方法を実行するようにさらに構成されていることを提供する。

一実施形態において、本開示は、点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする判断手段と、複数の２Ｄパッチと点群フレームを説明するジオメトリをＰＣＣビットストリームにエンコードすることと、前記カメラオフセットを前記ＰＣＣビットストリームにエンコードすることとを実行するエンコード手段と、デコーダへの通信のために前記ビットストリームを記憶する記憶手段とを備える、エンコーダを含む。

ＰＣＣシステムは、ＰＣＣ成分をデコードして３Ｄ点群を再構成する。次に、いくつかのＰＣＣシステムは、カメラをデコーダで予め定義されたデフォルトの位置に配置する。カメラは、３Ｄ点群をフラットスクリーンに表示可能な２Ｄ画像としてレンダリングするために使用される。カメラ位置は、対応する瞬間においてユーザに描写された３Ｄ点群の部分を定義する。このようなシステムでは、ユーザがカメラを制御し、カメラを好みの位置に動かして、好みの角度から所望のコンテンツをレンダリングすることが必要になることがある。このため、用途によっては、ユーザが所望のコンテンツを見るのに最良の位置を認識し得ないという問題が生じる場合がある。例えば、ユーザはサッカーの試合のＰＣＣビデオを見る場合ができる。デフォルトのカメラ位置は、サッカーフィールドの中央付近にあることがある。ユーザは、クォーターバックまたはストライカに近い位置からＰＣＣビデオを見たいと希望することがあるが、クォーターバックまたはストライカがフィールド上のどこに位置しているか知らないことがある。その結果、検索に時間がかかり、望ましくないユーザエクスペリエンスを生成することがある。

任意選択的に、前述の態様のいずれかにおいて、態様の別の実装態様は、エンコーダが、前述の態様のいずれかの方法を実行するようにさらに構成されていることを提供する。

明確にするために、前述の実施形態のいずれか１つを他の前述の実施形態のうちいずれか１または複数と組み合わせて、本開示の範囲内の新たな実施形態を生成することができる。

これらおよび他の特徴は、添付図面および特許請求の範囲と併せて以下の詳細な説明からより明確に理解されるであろう。

本開示をより完全に理解するために、添付の図面および詳細な説明に関連して以下の簡単な説明を参照するが、同様の参照番号は同様の部分を表す。

ビデオ信号をコードする例示的な方法のフローチャートである。

ビデオコーディングのための例示的なコーディングおよびデコード（コーデック）システムの概略図である。

例示的なビデオエンコーダを示す概略図である。

例示的なビデオデコーダを示す概略図である。

点群圧縮（ＰＣＣ）メカニズムに従ってコードされ得る点群媒体の一例である。

点群から生成されるパッチの一例である。

パッチのセットに関連付けられる例示的な占有フレームを示す図である。

パッチのセットに関連付けられる例示的なジオメトリフレームを示す図である。

パッチのセットに関連付けられる例示的なアトラスフレームを示す図である。

Ｖ－ＰＣＣフレームをレンダリングするためのカメラ位置および視野ベクトルを定義するための例示的なメカニズムである。

点群をレンダリングするためのカメラパラメータのシグナリングに使用するための例示的なＶ－ＰＣＣビットストリームを示す概略図である。

例示的なビデオコーディングデバイスの概略図である。

点群をレンダリングするためのカメラパラメータをシグナリングするためにＶ－ＰＣＣビットストリームをエンコードする例示的な方法を示すフローチャートである。

シグナリングされたカメラパラメータに基づいて点群をレンダリングするためにＶ－ＰＣＣビットストリームをデコードする例示的な方法を示すフローチャートである。

点群をレンダリングするためのカメラパラメータをシグナリングするための例示的システムを示す概略図である。

最初に、１または複数の実施形態の例示的な実装態様が以下に提供されるが、開示されたシステムおよび／または方法は、現在知られているかまたは存在しているかにかかわらず、任意の数の技術を使用して実装され得ることを理解されたい。本開示は、本明細書に示され説明される例示的な設計および実装態様を含む、以下に示される例示的な実装態様、図面、および技術に決して限定されるべきではなく、それらの均等物の全範囲と共に添付の特許請求の範囲内で修正することができる。

以下の用語は、本明細書で反対の文脈で使用されない限り、以下のように定義される。具体的には、以下の定義は、本開示をさらに明確にすることを意図している。しかしながら、用語は、異なる文脈において異なって記載され得る。したがって、以下の定義は、補足と見なされるべきであり、本明細書においてそのような用語について提供される説明の任意の他の定義を限定すると見なされるべきではない。

エンコーダは、ビデオデータをビットストリームに圧縮するためにエンコード処理を利用するように構成されているデバイスである。デコーダは、表示のためにビットストリームからビデオデータを再構成するためにデコード処理を利用するように構成されたデバイスである。点群／点群表現は、３次元（３Ｄ）空間における点（例えば、サンプル）のグループであり、各点は位置、色、および／または属性を含むことができる。ビットストリームは、エンコーダおよびデコーダの間を伝送するように圧縮されたビデオデータを含むビットシーケンスである。ＰＣＣコンテキストでは、ビットストリームは、コードされたＶ－ＰＣＣ成分および関連付けられたパラメータのビットシーケンスを含む。

Ｖ－ＰＣＣ成分（またはより一般的には、ＰＣＣ成分）は、Ｖ－ＰＣＣ点群に関連付けられた特定のタイプのアトラスデータ、占有データ、ジオメトリデータ、または属性データであってよい。アトラス／アトラスフレームは、３Ｄ境界ボックスと呼ばれる３Ｄ空間のボリュームに対応する長方形フレームに投影された２次元（２Ｄ）境界ボックス（パッチとも呼ばれる）の集合で、ボリュメトリックデータはその上にレンダリングされてよい。各２Ｄ境界ボックス／パッチは、点群のサブセットを表す。パッチとは、アトラス内のボリュメトリック情報に関連付けられた２Ｄ長方形領域のことである。投影とは、表面上に画像（例えば、パッチ）を表示することである。３Ｄ境界ボックスは、６つの長方形面を直角に配置した立方体として定義されるボリュームである。占有とは、アトラスサンプルが３Ｄ空間において関連付けられたサンプルに対応しているかどうかを示す値のセットである。占有フレームは、２Ｄアレイを構成する占有値の集合であってよく、単一のアトラスフレームの占有情報全体を表す。したがって、占有フレームは、アトラス内の各サンプル位置について、その位置が点群表現内の有効な３Ｄ点に対応するかどうかを示すことができる。ジオメトリは、ボリュメトリックフレームに関連付けられたデカルト座標のセットである。ジオメトリマップは、特定の深さに投影されたジオメトリパッチ情報を含むフレームである。属性は、色、反射率、面法線、タイムスタンプ、材料識別子（ＩＤ）など、点群のボリュメトリックフレーム内の各点に任意に関連付けられたスカラまたはベクトル特性であってもよい。点群フレームとしても知られるボリュメトリックフレームは、特定の時間インスタンスにおけるデカルト座標と０個以上の対応する属性セットとによって指定される３Ｄ点のセットである。点群コンテンツは、点群フレームに含まれた任意のデータである。特定の時間インスタンス／ボリュメトリックフレームに関連付けられたアトラスデータ、占有データ、ジオメトリマップ、または属性の完全なセットは、それぞれアトラスフレーム、占有フレーム、ジオメトリフレーム、および属性フレームと呼ばれることがある。アトラスデータ、占有データ、ジオメトリデータ、または属性データは、点群の成分である場合があり、したがって、それぞれアトラス成分、占有成分、ジオメトリ成分、および属性フレーム成分と呼ばれることがある。

カメラは、３Ｄオブジェクトの２Ｄ視野を提供する視野ポートである。カメラオブジェクトは、３Ｄ点群の２Ｄ表現を対応する瞬間においてレンダリングするために利用されることができる。カメラおよび／またはカメラオブジェクトは、カメラ位置および／またはカメラ回転を含む１または複数の行列であるカメラモデルとして実装されることができる。座標系は、空間内の点の位置を一意的に判断するための複数の数値指定を用いるメカニズムである。３Ｄ座標系は、３Ｄ空間内の位置を説明する座標系である。カメラオフセットは、カメラ位置と、点群を含む３Ｄ境界ボックスの予め定義された点との間の３Ｄ空間における距離を示すパラメータである。オフセット行列は、モデル行列内の点の３Ｄモデルを２Ｄ表現に変換することに適用されることができるカメラオフセットの行列表現である。行列の列は、行列の頂部から行列の底部まで縦方向に続く数のグループである。行列の行は、行列の左側から行列の右側まで横向きに続く数のグループである。カメラ回転は、カメラから、点群を含む３Ｄ境界ボックスに向ける視野ベクトルを示すパラメータである。回転行列は、モデル行列内の点の３Ｄモデルを２Ｄ表現に変換するために適用されることができるカメラ回転の行列表現である。四元数表現は、スカラ値および空間軸に沿う３つの単位ベクトルを用いる複素数領域におけるベクトルの表現である。

Ｖ－ＰＣＣは、様々な色の点の３Ｄ群で表現される３次元（３Ｄ）オブジェクトを効率的にコードするメカニズムである。Ｖ－ＰＣＣはＰＣＣの一種であるため、このような用語はほとんどのコンテキストで互換的に使用することができる。点群は経時的にキャプチャされ、ＰＣＣ成分に含まれる。ＰＣＣ成分は次にエンコードされる。時間インスタンスにおける群の各有効点の位置は、ジオメトリフレームにおけるジオメトリマップとして記憶される。色および輝度はパッチとして記憶される。具体的には、時間内のある瞬間におけるパッチは、アトラスフレームとしてパックされる。パッチは、一般に、アトラスフレーム全体を網羅しない。したがって、アトラスフレームのどの部分がパッチデータを含むかを示す占有フレームも生成される。任意選択で、透過率など、点の属性が属性フレームに含まれてよい。このように、各ＰＣＣフレームは、対応する瞬間における点群を説明する異なる成分を含む複数のフレームとしてエンコードすることができる。

ＰＣＣシステムは、ＰＣＣ成分をデコードして３Ｄ点群を再構成する。次に、いくつかのＰＣＣシステムは、カメラをデコーダで予め定義されたデフォルトの位置に配置する。カメラは、フラットスクリーンに表示することができる２次元（２Ｄ）画像として３Ｄ点群をレンダリングすることに用いられる。カメラ位置は、対応する瞬間においてユーザに描写された３Ｄ点群の部分を定義する。このようなシステムでは、ユーザがカメラを制御し、カメラを好みの位置に動かして、好みの角度から所望のコンテンツをレンダリングすることが必要になることがある。このため、用途によっては、ユーザが所望のコンテンツを見るのに最良の位置を認識し得ないという問題が生じる場合がある。例えば、ユーザはサッカーの試合のＰＣＣビデオを見る場合がある。デフォルトのカメラ位置は、サッカーフィールドの中央付近にあることがある。ユーザは、クォーターバックまたはストライカに近い位置からＰＣＣビデオを見たいと希望することがあるが、クォーターバックまたはストライカがフィールド上のどこに位置しているか知らないことがある。その結果、検索に時間がかかり、望ましくないユーザエクスペリエンスを生成することがある。

本明細書に開示されたのは、好ましい視野位置および角度をシグナリングするメカニズムである。例えば、コンテンツ制作者は、エンコード時に１または複数の視野位置および／または視野角度を選択することができる。次に、ユーザはＰＣＣビデオを見る際に、好ましい視野位置を選択することができる。この結果を達成するために、エンコーダは、カメラ位置を判断するための１または複数のカメラオフセットと、カメラ視野角を判断するための対応するカメラ回転とをエンコードすることができる。カメラオフセット（例えば、カメラ位置）は、ＰＣＣコンテンツを含む境界ボックスの予め定義された点からのＸ、Ｙ、Ｚオフセットを含む。カメラ回転は、カメラオフセットによって説明された位置からカメラが向いている方向（例えば、視野角度）を説明する視野ベクトルを含む。デコーダは、カメラオフセットおよびカメラ回転を読み取り、次に、それに応じてＰＣＣビデオをレンダリングすることができる。例えば、ＰＣＣビデオは、デコード時にモデル行列に配置することができる。３Ｄ点群から２Ｄ画像をレンダリングするために、カメラ情報をモデル行列に変換として適用することができる。例えば、カメラオフセットを用いてオフセット行列を生成し、カメラ回転を用いて回転行列を生成することができる。次に、オフセット行列および回転行列をモデル行列に適用することで、ＰＣＣコンテンツを所定の位置および角度から点群を表示する２Ｄ画像に変換することができる。したがって、本実施例では、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、本開示はコーディングの効率を高めるメカニズムをサポートし、したがって、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリ、および／またはネットワークリソース使用量の減少をサポートする。

図１～４は、ビデオをエンコードおよびデコードすることに用いられる様々なコーディングメカニズムを説明する。図５～７Ｃは、点群を、図１～４に説明されたメカニズムによってエンコードおよびデコードすることができるフォーマットに変換することに用いられるメカニズムを説明する。

図１は、ビデオ信号をコードする例示的な動作方法１００のフローチャートである。具体的には、ビデオ信号はエンコーダでエンコードされる。エンコード処理は、ビデオファイルサイズを縮小するための様々なメカニズムを利用することによって、ビデオ信号を圧縮する。より小さいファイルサイズは、関連付けられた帯域幅オーバヘッドを低減しながら、圧縮されたビデオファイルをユーザに向けて送信することを可能にする。次いで、デコーダは、圧縮されたビデオファイルをデコードして、エンドユーザに表示するための元のビデオ信号を再構成する。デコード処理は、一般に、デコーダがビデオ信号を一貫して再構成することを可能にするためにエンコード処理をミラーリングする。

段階１０１において、ビデオ信号がエンコーダに入力される。例えば、ビデオ信号は、メモリに記憶された非圧縮ビデオファイルであってもよい。別の例として、ビデオファイルは、ビデオカメラなどのビデオキャプチャデバイスによってキャプチャされ、ビデオのライブストリーミングをサポートするためにエンコードされ得る。ビデオファイルは、オーディオコンポーネントおよびビデオコンポーネントの両方を含み得る。ビデオコンポーネントは、シーケンスで見たときに動きの視覚的印象を与える一連の画像フレームを含む。フレームは、本明細書では輝度成分（または輝度サンプル）と呼ばれる光、およびクロマ成分（または色サンプル）と呼ばれる色に関して表現される画素を含む。いくつかの例において、フレームは、３次元視野をサポートする深度値も含み得る。

段階１０３において、ビデオがブロックに分割される。分割は、各フレーム内の画素を圧縮のために正方形および／または長方形のブロックに細分することを含む。例えば、高効率ビデオコーディング（ＨＥＶＣ）（Ｈ．２６５およびＭＰＥＧ－ＨＰａｒｔ２としても知られる）において、フレームは、最初に、予め定義されたサイズ（例えば、６４画素×６４画素）のブロックであるコーディングツリーユニット（ＣＴＵ）に分割され得る。ＣＴＵは、輝度サンプルおよびクロマサンプルの両方を含む。コーディングツリーを使用して、ＣＴＵをブロックに分割し、次いで、さらなるエンコードをサポートする構成が達成されるまでブロックを再帰的に細分することができる。例えば、フレームの輝度成分は、個々のブロックが比較的均一な照明値を含むまで細分され得る。さらに、フレームのクロマ成分は、個々のブロックが比較的均一な色値を含むまで細分され得る。したがって、分割メカニズムは、ビデオフレームのコンテンツに応じて変化する。

段階１０５において、段階１０３において分割された画像ブロックを圧縮するために様々な圧縮メカニズムが使用される。例えば、インター予測および／またはイントラ予測が使用され得る。インター予測は、共通のシーン内のオブジェクトが連続するフレームに現れる傾向があるという事実を利用するように設計される。したがって、参照フレーム内のオブジェクトを描写するブロックは、隣接フレーム内で繰り返し説明される必要はない。具体的には、テーブルなどのオブジェクトは、複数のフレームにわたって一定の位置に留まることがある。したがって、テーブルは一度説明され、隣接フレームは参照フレームを参照することができる。パターンマッチングメカニズムを使用して、複数のフレームにわたってオブジェクトをマッチングすることができる。さらに、移動するオブジェクトは、例えば、オブジェクトの移動またはカメラの動きに起因して、複数のフレームにわたって表され得る。特定の例として、ビデオは、複数のフレームにわたって画面を横切って移動する自動車を示し得る。動きベクトルを使用して、そのような動きを説明することができる。動きベクトルは、フレーム内のオブジェクトの座標から参照フレーム内のオブジェクトの座標へのオフセットを提供する２次元ベクトルである。このように、インター予測は、現在のフレーム内の画像ブロックを、参照フレーム内の対応するブロックからのオフセットを示す動きベクトルのセットとしてエンコードすることができる。

イントラ予測は、共通フレーム内のブロックをエンコードする。イントラ予測は、輝度成分およびクロマ成分がフレーム内でクラスタ化する傾向があるという事実を利用する。例えば、ツリーの一部の緑色のパッチは、同様の緑色のパッチに隣接して位置する傾向がある。イントラ予測は、複数の指向性予測モード（例えば、ＨＥＶＣでは３３）、平面モード、および直流（ＤＣ）モードを使用する。指向性モードは、現在のブロックが、対応する方向において隣接ブロックのサンプルと同様／同じであることを示す。平面モードは、行／列に沿った一連のブロック（例えば、平面）が、行の端部にある隣接ブロックに基づいて補間され得ることを示す。平面モードは、実際には、変化する値に比較的一定の傾きを使用することによって、行／列にわたる光／色の滑らかな遷移を示す。ＤＣモードは、境界平滑化に使用され、ブロックが、指向性予測モードの角度方向に関連付けられた全ての隣接ブロックのサンプルに関連付けられた平均値と同様／同じであることを示す。したがって、イントラ予測ブロックは、実際の値ではなく、様々な関係予測モード値として画像ブロックを表すことができる。さらに、インター予測ブロックは、実際の値ではなく、動きベクトル値として画像ブロックを表すことができる。いずれの場合も、予測ブロックは、場合によっては、画像ブロックを正確に表さないことがある。いかなる差分も、残差ブロックに記憶される。ファイルをさらに圧縮するために、変換が残差ブロックに適用され得る。

段階１０７において、様々なフィルタリング技術を適用することができる。ＨＥＶＣでは、フィルタは、インループフィルタリング方式に従って適用される。上述したブロックベースの予測は、デコーダにおいてブロック状画像の生成をもたらし得る。さらに、ブロックベースの予測方式は、ブロックをエンコードし、次いで、エンコードされたブロックを参照ブロックとして後で使用するために再構成することができる。インループフィルタリング方式は、ノイズ抑制フィルタ、デブロックフィルタ、適応ループフィルタ、およびサンプル適応オフセット（ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ、ＳＡＯ）フィルタをブロック／フレームに繰り返し適用する。これらのフィルタは、エンコードされたファイルを正確に再構成することができるように、そのようなブロッキングアーチファクトを軽減する。さらに、これらのフィルタは、再構成された参照ブロックにおけるアーチファクトを軽減し、その結果、アーチファクトは、再構成された参照ブロックに基づいてエンコードされる後続のブロックにおいて追加のアーチファクトを生成する可能性が低くなる。

ビデオ信号が分割、圧縮、およびフィルタリングされると、段階１０９において、結果として得られるデータがビットストリームにエンコードされる。ビットストリームは、上述したデータ、および、デコーダにおいて適切なビデオ信号再構成をサポートすることが望まれるあらゆるシグナリングデータを含む。例えば、そのようなデータは、デコーダにコーディング命令を提供する、分割データ、予測データ、残差ブロック、および様々なフラグを含み得る。ビットストリームは、要求に応じて、デコーダに向けて送信するためにメモリに記憶されてもよい。ビットストリームはまた、複数のデコーダに向けてブロードキャストおよび／またはマルチキャストされてもよい。ビットストリームの生成は、反復処理である。したがって、段階１０１、１０３、１０５、１０７、および１０９は、多くのフレームおよびブロックにわたって連続的におよび／または同時に行われ得る。図１に示す順序は、説明を明確かつ容易にするために提示されており、ビデオコーディングプロセスを特定の順序に限定することを意図していない。

デコーダは、ビットストリームを受信し、段階１１１においてデコード処理を開始する。具体的には、デコーダは、エントロピーデコード方式を使用して、ビットストリームを対応するシンタックスおよびビデオデータに変換する。デコーダは、段階１１１において、ビットストリームからのシンタックスデータを使用して、フレームの分割を判断する。分割は、段階１０３におけるブロック分割の結果と一致すべきである。ここで、段階１１１で使用されるエントロピーエンコード／デコードについて説明する。エンコーダは、圧縮処理中に、入力画像内の値の空間的位置に基づいていくつかの可能な選択からブロック分割方式を選択するなど、多くの選択を行う。正確な選択をシグナリングするには、多数のビンを使用し得る。本明細書で使用される場合、ビンは、変数（例えば、文脈に応じて変わり得るビット値）として扱われるバイナリ値である。エントロピーコーディングは、エンコーダが、特定のケースのために実行可能ではないことが明らかである任意のオプションを廃棄し、許容可能なオプションのセットを残すことを可能にする。次いで、各許容可能なオプションにコードワードが割り当てられる。コードワードの長さは、許容可能なオプションの数に基づく（例えば、２つのオプションに対して１つのビン、３～４つのオプションに対して２つのビンなど）。次いで、エンコーダは、選択されたオプションのコードワードをエンコードする。全ての可能なオプションの潜在的に大きなセットからの選択を一意に示すのとは対照的に、コードワードは許容可能なオプションの小さなサブセットからの選択を一意に示すのに所望されるくらいの大きさなので、この方式は、コードワードのサイズを小さくする。次いで、デコーダは、エンコーダと同様の方式で許容可能なオプションのセットを判断することによって選択をデコードする。許容可能なオプションのセットを判断することにより、デコーダは、コードワードを読み取り、エンコーダによって行われた選択を判断し得る。

段階１１３において、デコーダは、ブロックのデコードを実行する。具体的には、デコーダは、残差ブロックを生成するために逆変換を使用する。次いで、デコーダは、残差ブロックおよび対応する予測ブロックを使用して分割に従って画像ブロックを再構成する。予測ブロックは、段階１０５においてエンコーダで生成されるようなイントラ予測ブロックおよびインター予測ブロックの両方を含み得る。次いで、再構成された画像ブロックは、段階１１１で判断された分割データに従って再構成されたビデオ信号のフレームに配置される。段階１１３のシンタックスはまた、上述のように、エントロピーコーディングを介してビットストリーム内でシグナリングされ得る。

段階１１５において、エンコーダにおける段階１０７と同様の方式で、再構成されたビデオ信号のフレームに対してフィルタリングが実行される。例えば、ブロッキングアーチファクトを除去するために、ノイズ抑制フィルタ、デブロックフィルタ、適応ループフィルタ、およびＳＡＯフィルタをフレームに適用することができる。フレームがフィルタリングされると、ビデオ信号は、エンドユーザが見るために段階１１７でディスプレイに出力することができる。

図２は、ビデオコーディングのための例示的なコーディングおよびデコード（コーデック）システム２００の概略図である。具体的には、コーデックシステム２００は、動作方法１００の実装態様をサポートする機能を提供する。コーデックシステム２００は、エンコーダおよびデコーダの両方で使用されるコンポーネントを描写するために一般化される。コーデックシステム２００は、動作方法１００における段階１０１および１０３に関して説明したように、ビデオ信号を受信して分割し、その結果、分割されたビデオ信号２０１が得られる。次いで、コーデックシステム２００は、方法１００における段階１０５、１０７、および１０９に関して説明したように、エンコーダとして機能するときに、分割されたビデオ信号２０１を、コードされたビットストリームに圧縮する。デコーダとして動作するとき、コーデックシステム２００は、動作方法１００における段階１１１、１１３、１１５、および１１７に関して説明したように、ビットストリームから出力ビデオ信号を生成する。コーデックシステム２００は、汎用コーダ制御コンポーネント２１１、変換スケーリングおよび量子化コンポーネント２１３、イントラピクチャ推定コンポーネント２１５、イントラピクチャ予測コンポーネント２１７、動き補償コンポーネント２１９、動き推定コンポーネント２２１、スケーリングおよび逆変換コンポーネント２２９、フィルタ制御分析コンポーネント２２７、インループフィルタコンポーネント２２５、デコードされたピクチャバッファコンポーネント２２３、ならびにヘッダフォーマッティングおよびコンテキスト適応バイナリ算術コーディング（ＣＡＢＡＣ）コンポーネント２３１を含む。そのようなコンポーネントは、図示のように結合される。図２において、黒線はエンコード／デコード対象のデータの移動を示し、破線は他のコンポーネントの動作を制御する制御データの移動を示す。コーデックシステム２００のコンポーネントは、全てエンコーダに存在してもよい。デコーダは、コーデックシステム２００のコンポーネントのサブセットを含み得る。例えば、デコーダは、イントラピクチャ予測コンポーネント２１７、動き補償コンポーネント２１９、スケーリングおよび逆変換コンポーネント２２９、インループフィルタコンポーネント２２５、ならびにデコードされたピクチャバッファコンポーネント２２３を含み得る。次に、これらのコンポーネントについて説明する。

分割されたビデオ信号２０１は、コーディングツリーによって画素のブロックに分割されたキャプチャされたビデオシーケンスである。コーディングツリーは、画素のブロックをより小さい画素のブロックに細分するために様々なスプリットモードを使用する。次いで、これらのブロックをより小さいブロックにさらに細分することができる。ブロックは、コーディングツリー上のノードと呼ばれる場合がある。より大きな親ノードは、より小さな子ノードへ分割される。ノードが細分される回数は、ノード／コーディングツリーの深度と呼ばれる。分割されたブロックは、場合によっては、コーディングユニット（ＣＵ）に含まれ得る。例えば、ＣＵは、ＣＵのための対応するシンタックス命令と共に、輝度ブロック、赤色差分クロマ（Ｃｒ）ブロック、および青色差分クロマ（Ｃｂ）ブロックを含むＣＴＵのサブ部分であり得る。スプリットモードには、使用されるスプリットモードに応じて様々な形状のノードをそれぞれ２つ、３つ、または４つの子ノードに分割するために使用されるバイナリツリー（ＢＴ）、トリプルツリー（ＴＴ）、およびクワッドツリー（ＱＴ）が含まれ得る。分割されたビデオ信号２０１は、圧縮のために、汎用コーダ制御コンポーネント２１１、変換スケーリングおよび量子化コンポーネント２１３、イントラピクチャ推定コンポーネント２１５、フィルタ制御分析コンポーネント２２７、ならびに動き推定コンポーネント２２１に転送される。

汎用コーダ制御コンポーネント２１１は、アプリケーション制約に従って、ビデオシーケンスの画像のビットストリームへのコーディングに関する決定を行うように構成されている。例えば、汎用コーダ制御コンポーネント２１１は、ビットレート／ビットストリームサイズ対再構成品質の最適化を管理する。そのような決定は、記憶空間／帯域幅有効性および画像解像度要求に基づいて行うことができる。汎用コーダ制御コンポーネント２１１はまた、バッファのアンダーランおよびオーバーランの問題を軽減するために、送信速度に照らしてバッファ利用を管理する。これらの問題を管理するために、汎用コーダ制御コンポーネント２１１は、他のコンポーネントによる分割、予測、およびフィルタリングを管理する。例えば、汎用コーダ制御コンポーネント２１１は、圧縮複雑性を動的に増加させて解像度を高めて帯域幅使用量を増加させ、または圧縮複雑度を減少させて解像度および帯域幅使用量を減少させ得る。したがって、汎用コーダ制御コンポーネント２１１は、ビデオ信号再構成品質とビットレートの懸念とのバランスをとるために、コーデックシステム２００の他のコンポーネントを制御する。汎用コーダ制御コンポーネント２１１は、他のコンポーネントの動作を制御する制御データを生成する。制御データはまた、デコーダでデコードするための信号パラメータにビットストリームでエンコードされるようにヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１に転送される。

分割されたビデオ信号２０１はまた、インター予測のために動き推定コンポーネント２２１および動き補償コンポーネント２１９に送信される。分割されたビデオ信号２０１のフレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定コンポーネント２２１および動き補償コンポーネント２１９は、時間予測を提供するために、受信されたビデオブロックの、１または複数の参照フレームにおける１または複数のブロックに対するインター予測コーディングを実行する。コーデックシステム２００は、例えば、ビデオデータの各ブロックに適切なコーディングモードを選択するために、複数のコーディングパスを実行し得る。

動き推定コンポーネント２２１および動き補償コンポーネント２１９は、高度に統合されてもよいが、概念的な目的のために別々に示されている。動き推定コンポーネント２２１によって実行される動き推定は、ビデオブロックの動きを推定する動きベクトルを生成する処理である。動きベクトルは、例えば、予測ブロックに対するコードされたオブジェクトの変位を示し得る。予測ブロックは、画素差に関して、コードされるべきブロックと厳密に一致することがわかっているブロックである。予測ブロックはまた、参照ブロックと呼ばれることもある。そのような画素差は、絶対差の和（ｓｕｍｏｆａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅ、ＳＡＤ）、二乗差の和（ｓｕｍｏｆｓｑｕａｒｅｄｉｆｆｅｒｅｎｃｅ、ＳＳＤ）、または他の差メトリックによって判断され得る。ＨＥＶＣは、ＣＴＵ、コーディングツリーブロック（ＣＴＢ）、およびＣＵを含むいくつかのコードされたオブジェクトを使用する。例えば、ＣＴＵはＣＴＢに分割することができ、次いで、ＣＵに含めるためにＣＢに分割され得る。ＣＵは、予測データを含む予測ユニット（ｐｒｅｄｉｃｔｉｏｎｕｎｉｔ、ＰＵ）および／またはＣＵ用の変換された残差データを含む変換ユニット（ｔｒａｎｓｆｏｒｍｕｎｉｔ、ＴＵ）としてエンコードすることができる。動き推定コンポーネント２２１は、レート歪み最適化プロセスの一部としてレート歪み分析を使用することによって、動きベクトル、ＰＵ、およびＴＵを生成する。例えば、動き推定コンポーネント２２１は、現在のブロック／フレームについて複数の参照ブロック、複数の動きベクトルなどを判断することができ、最良のレート歪み特性を有する参照ブロック、動きベクトルなどを選択することができる。最良のレート歪み特性は、ビデオ再構成（例えば、圧縮によるデータ損失の量）の品質およびコーディング効率（例えば、最終エンコードのサイズ）の両方のバランスをとる。

いくつかの例では、コーデックシステム２００は、デコードされたピクチャバッファコンポーネント２２３に記憶された参照ピクチャのサブ整数画素位置の値を計算することができる。例えば、ビデオコーデックシステム２００は、参照ピクチャの４分の１画素位置、８分の１画素位置、または他の小数画素位置の値を補間し得る。したがって、動き推定コンポーネント２２１は、全画素位置および小数画素位置に対して動き探索を実行し、小数画素精度で動きベクトルを出力することができる。動き推定コンポーネント２２１は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコーディングスライス内のビデオブロックのＰＵに対する動きベクトルを計算する。動き推定コンポーネント２２１は、計算された動きベクトルを動きデータとしてヘッダフォーマッティングに出力し、エンコードおよび動きのためのＣＡＢＡＣコンポーネント２３１を動き補償コンポーネント２１９に出力する。

動き補償コンポーネント２１９によって実行される動き補償は、動き推定コンポーネント２２１によって判断された動きベクトルに基づいて、予測ブロックをフェッチまたは生成することを含み得る。ここでも、いくつかの例では、動き推定コンポーネント２２１および動き補償コンポーネント２１９は、機能的に統合されてもよい。現在のビデオブロックのＰＵの動きベクトルを受信すると、動き補償コンポーネント２１９は、動きベクトルが指し示す予測ブロックを特定し得る。次いで、コードされている現在のビデオブロックの画素値から予測ブロックの画素値を減算して画素差値を形成することによって、残差ビデオブロックが形成される。一般に、動き推定コンポーネント２２１は、輝度成分に対する動き推定を実行し、動き補償コンポーネント２１９は、クロマ成分および輝度成分の両方について輝度成分に基づいて計算された動きベクトルを使用する。予測ブロックおよび残差ブロックは、変換スケーリングおよび量子化コンポーネント２１３に転送される。

分割されたビデオ信号２０１はまた、イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７にも送信される。動き推定コンポーネント２２１および動き補償コンポーネント２１９と同様に、イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７は、高度に統合されてもよいが、概念的な目的のために別々に示されている。イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７は、上述したように、フレーム間で動き推定コンポーネント２２１および動き補償コンポーネント２１９によって実行されるインター予測の代替として、現在のフレーム内のブロックに対して現在のブロックをイントラ予測する。特に、イントラピクチャ推定コンポーネント２１５は、現在のブロックをエンコードするために使用するイントラ予測モードを判断する。いくつかの例では、イントラピクチャ推定コンポーネント２１５は、複数の試験されたイントラ予測モードから現在のブロックをエンコードするために適切なイントラ予測モードを選択する。次いで、選択されたイントラ予測モードは、エンコードのためにヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１に転送される。

例えば、イントラピクチャ推定コンポーネント２１５は、様々な試験されたイントラ予測モードのレート歪み分析を使用してレート歪み値を計算し、試験されたモードの中で最良のレート歪み特性を有するイントラ予測モードを選択する。レート歪み分析は、一般に、エンコードされたブロックとエンコードされたブロックを生成するためにエンコードされた元のエンコードされていないブロックとの間の歪み（またはエラー）の量、およびエンコードされたブロックを生成するために使用されるビットレート（例えば、ビット数）を判断する。イントラピクチャ推定コンポーネント２１５は、様々なエンコードされたブロックの歪みおよびレートから比率を計算して、どのイントラ予測モードがブロックの最良のレート歪み値を示すかを判断する。加えて、イントラピクチャ推定コンポーネント２１５は、レート歪み最適化（ｒａｔｅ－ｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｚａｔｉｏｎ、ＲＤＯ）に基づく深度モデリングモード（ｄｅｐｔｈｍｏｄｅｌｉｎｇｍｏｄｅ、ＤＭＭ）を使用して、深度マップの深度ブロックをコードするように構成され得る。

イントラピクチャ予測コンポーネント２１７は、エンコーダ上で実装された場合、イントラピクチャ推定コンポーネント２１５によって判断された選択されたイントラ予測モードに基づいて予測ブロックから残差ブロックを生成し得るか、またはデコーダ上で実装された場合、ビットストリームから残差ブロックを読み出し得る。残差ブロックは、行列として表される、予測ブロックと元のブロックとの間の値の差を含む。次いで、残差ブロックは、変換スケーリングおよび量子化コンポーネント２１３に転送される。イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７は、輝度成分およびクロマ成分の両方で動作し得る。

変換スケーリングおよび量子化コンポーネント２１３は、残差ブロックをさらに圧縮するように構成されている。変換スケーリングおよび量子化コンポーネント２１３は、離散コサイン変換（ｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ、ＤＣＴ）、離散サイン変換（ｄｉｓｃｒｅｔｅｓｉｎｅｔｒａｎｓｆｏｒｍ、ＤＳＴ）、または概念的に同様の変換などの変換を残差ブロックに適用し、残差変換係数値を含むビデオブロックを生成する。ウェーブレット変換、整数変換、サブバンド変換、または他のタイプの変換も使用することができる。変換は、残差情報を画素値領域から周波数領域などの変換領域に変換することができる。変換スケーリングおよび量子化コンポーネント２１３はまた、例えば、周波数に基づいて、変換された残差情報をスケーリングするように構成されている。そのようなスケーリングは、異なる周波数情報が異なる粒度で量子化されるように残差情報にスケールファクタを適用することを含み、これは、再構成されたビデオの最終的な視覚的品質に影響を及ぼし得る。変換スケーリングおよび量子化コンポーネント２１３はまた、ビットレートをさらに低減するために、変換係数を量子化するように構成されている。量子化処理は、係数の一部または全部に関連付けられたビット深度を低減することができる。量子化の程度は、量子化パラメータを調整することによって変更することができる。いくつかの例では、変換スケーリングおよび量子化コンポーネント２１３は、次いで、量子化された変換係数を含む行列のスキャンを実行することができる。量子化された変換係数は、ヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１に転送されてビットストリーム内でエンコードされる。

スケーリングおよび逆変換コンポーネント２２９は、動き推定をサポートするために、変換スケーリングおよび量子化コンポーネント２１３の逆動作を適用する。スケーリングおよび逆変換コンポーネント２２９は、例えば、別の現在のブロックの予測ブロックになり得る参照ブロックとして後で使用するために、逆スケーリング、変換、および／または量子化を適用して、画素領域内の残差ブロックを再構成する。動き推定コンポーネント２２１および／または動き補償コンポーネント２１９は、後のブロック／フレームの動き推定に使用するために、残差ブロックを対応する予測ブロックに加算し戻すことによって、参照ブロックを計算することができる。フィルタは、再構成された参照ブロックに適用され、スケーリング、量子化、および変換中に生成されるアーチファクトを軽減する。そうでなければ、このようなアーチファクトは、後続のブロックが予測されるときに不正確な予測を引き起こす（および追加のアーチファクトを生成する）場合がある。

フィルタ制御分析コンポーネント２２７およびインループフィルタコンポーネント２２５は、フィルタを、残差ブロックおよび／または再構成された画像ブロックに適用する。例えば、スケーリングおよび逆変換コンポーネント２２９からの変換された残差ブロックは、イントラピクチャ予測コンポーネント２１７および／または動き補償コンポーネント２１９からの対応する予測ブロックと組み合わされて、元の画像ブロックを再構成することができる。次いで、フィルタを再構成された画像ブロックに適用することができる。いくつかの例では、フィルタは、代わりに、残差ブロックに適用されてもよい。図２の他のコンポーネントと同様に、フィルタ制御分析コンポーネント２２７およびインループフィルタコンポーネント２２５は、高度に統合されており、一緒に実装することができるが、概念的な目的のために別々に描写されている。再構成された参照ブロックに適用されるフィルタは、特定の空間領域に適用され、そのようなフィルタがどのように適用されるかを調整するための複数のパラメータを含む。フィルタ制御分析コンポーネント２２７は、再構成された参照ブロックを分析して、そのようなフィルタが適用されるべき場所を判断し、対応するパラメータを設定する。そのようなデータは、エンコードのためのフィルタ制御データとしてヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１に転送される。インループフィルタコンポーネント２２５は、フィルタ制御データに基づいてそのようなフィルタを適用する。フィルタは、デブロッキングフィルタ、ノイズ抑制フィルタ、ＳＡＯフィルタ、および適応ループフィルタを含み得る。そのようなフィルタは、例に応じて、空間／画素領域（例えば、再構成された画素ブロック上）または周波数領域に適用することができる。

エンコーダとして動作するとき、フィルタリングされた再構成された画像ブロック、残差ブロック、および／または予測ブロックは、上述のように、動き推定に後で使用するためにデコードされたピクチャバッファコンポーネント２２３に記憶される。デコーダとして動作するとき、デコードされたピクチャバッファコンポーネント２２３は、再構成およびフィルタリングされたブロックを記憶し、出力ビデオ信号の一部としてディスプレイに向けて転送する。デコードされたピクチャバッファコンポーネント２２３は、予測ブロック、残差ブロック、および／または再構成された画像ブロックを記憶することができる任意のメモリデバイスとすることができる。

ヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１は、コーデックシステム２００の様々なコンポーネントからデータを受信し、デコーダに向けて送信するためにそのようなデータをコードされたビットストリームにエンコードする。具体的には、ヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１は、汎用制御データおよびフィルタ制御データなどの制御データをエンコードするための様々なヘッダを生成する。さらに、イントラ予測および動きデータを含む予測データ、ならびに量子化された変換係数データの形態の残差データは、全てビットストリーム内でエンコードされる。最終ビットストリームは、元の分割されたビデオ信号２０１を再構成するためにデコーダによって所望される全ての情報を含む。そのような情報はまた、イントラ予測モードインデックステーブル（コードワードマッピングテーブルとも呼ばれる）、様々なブロックのためのエンコードコンテキストの定義、最も可能性の高いイントラ予測モードの指示、分割情報の指示などを含み得る。そのようなデータは、エントロピーコーディングを使用することによって、エンコードされ得る。例えば、情報は、コンテキスト適応可変長コーディング（ｃｏｎｔｅｘｔａｄａｐｔｉｖｅｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ、ＣＡＶＬＣ）、ＣＡＢＡＣ、シンタックスベースのコンテキスト適応バイナリ算術コーディング（ｓｙｎｔａｘ－ｂａｓｅｄｃｏｎｔｅｘｔ－ａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ、ＳＢＡＣ）、確率区間分割エントロピー（ｐｒｏｂａｂｉｌｉｔｙｉｎｔｅｒｖａｌｐａｒｔｉｔｉｏｎｉｎｇｅｎｔｒｏｐｙ、ＰＩＰＥ）コーディング、または別のエントロピーコーディング技術を使用することによって、エンコードされ得る。エントロピーコーディングに続いて、コードされたビットストリームは、別のデバイス（例えば、ビデオデコーダ）へ送信され得るか、または、後の送信もしくは取得のためにアーカイブされ得る。

図３は、例示的なビデオエンコーダ３００を示すブロック図である。ビデオエンコーダ３００は、コーデックシステム２００のエンコード機能を実装するために、および／または動作方法１００の段階１０１、１０３、１０５、１０７、および／または１０９を実装するために使用され得る。エンコーダ３００は、入力されるビデオ信号を分割し、分割されたビデオ信号２０１と実質的に同様の分割されたビデオ信号３０１とする。分割されたビデオ信号３０１は、次いで、エンコーダ３００のコンポーネントによって圧縮され、ビットストリームにエンコードされる。

具体的には、分割されたビデオ信号３０１は、イントラ予測のためにイントラピクチャ予測コンポーネント３１７に転送される。イントラピクチャ予測コンポーネント３１７は、イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７と実質的に同様であってもよい。分割されたビデオ信号３０１はまた、デコードされたピクチャバッファコンポーネント３２３内の参照ブロックに基づいて、インター予測のために動き補償コンポーネント３２１に転送される。動き補償コンポーネント３２１は、動き推定コンポーネント２２１および動き補償コンポーネント２１９と実質的に同様であってもよい。イントラピクチャ予測コンポーネント３１７および動き補償コンポーネント３２１からの予測ブロックおよび残差ブロックは、残差ブロックの変換および量子化のために変換および量子化コンポーネント３１３に転送される。変換および量子化コンポーネント３１３は、変換スケーリングおよび量子化コンポーネント２１３と実質的に同様であってもよい。変換および量子化された残差ブロックならびに対応する予測ブロック（関連付けられた制御データと共に）は、ビットストリームへのコーディングのためにエントロピーコーディングコンポーネント３３１に転送される。エントロピーコーディングコンポーネント３３１は、ヘッダフォーマッティングおよびＣＡＢＡＣコンポーネント２３１と実質的に同様であってもよい。

変換および量子化された残差ブロックおよび／または対応する予測ブロックはまた、動き補償コンポーネント３２１による使用のための参照ブロックへの再構成のために、変換および量子化コンポーネント３１３から逆変換および量子化コンポーネント３２９に転送される。逆変換および量子化コンポーネント３２９は、スケーリングおよび逆変換コンポーネント２２９と実質的に同様であってもよい。インループフィルタコンポーネント３２５内のインループフィルタはまた、例に応じて、残差ブロックおよび／または再構成された参照ブロックに適用される。インループフィルタコンポーネント３２５は、フィルタ制御分析コンポーネント２２７およびインループフィルタコンポーネント２２５と実質的に同様であってもよい。インループフィルタコンポーネント３２５は、インループフィルタコンポーネント２２５に関して説明したように、複数のフィルタを含み得る。次いで、フィルタリングされたブロックは、動き補償コンポーネント３２１によって参照ブロックとして使用されるために、デコードされたピクチャバッファコンポーネント３２３に記憶される。デコードされたピクチャバッファコンポーネント３２３は、デコードされたピクチャバッファコンポーネント２２３と実質的に同様であってもよい。

図４は、例示的なビデオデコーダ４００を示すブロック図である。ビデオデコーダ４００は、コーデックシステム２００のデコード機能を実装するために、ならびに／もしくは動作方法１００の段階１１１、１１３、１１５、および／または１１７を実装するために使用され得る。デコーダ４００は、例えば、エンコーダ３００からビットストリームを受信し、エンドユーザに表示するためにビットストリームに基づいて再構成された出力ビデオ信号を生成する。

ビットストリームは、エントロピーデコードコンポーネント４３３によって受信される。エントロピーデコードコンポーネント４３３は、ＣＡＶＬＣ、ＣＡＢＡＣ、ＳＢＡＣ、ＰＩＰＥコーディング、または他のエントロピーコーディング技術などのエントロピーデコード方式を実装するように構成されている。例えば、エントロピーデコードコンポーネント４３３は、ヘッダ情報を使用して、ビットストリーム内のコードワードとしてエンコードされた追加のデータを解釈するためのコンテキストを提供することができる。デコードされた情報は、汎用制御データ、フィルタ制御データ、分割情報、動きデータ、予測データ、および残差ブロックからの量子化された変換係数など、ビデオ信号をデコードするための任意の所望の情報を含む。量子化された変換係数は、残差ブロックへの再構成のために、逆変換および量子化コンポーネント４２９に転送される。逆変換および量子化コンポーネント４２９は、逆変換および量子化コンポーネント３２９と同様であってもよい。

再構成された残差ブロックおよび／または予測ブロックは、イントラ予測動作に基づいて画像ブロックに再構成するために、イントラピクチャ予測コンポーネント４１７に転送される。イントラピクチャ予測コンポーネント４１７は、イントラピクチャ推定コンポーネント２１５およびイントラピクチャ予測コンポーネント２１７と同様であってもよい。具体的には、イントラピクチャ予測コンポーネント４１７は、予測モードを使用してフレーム内の参照ブロックを特定し、その結果に残差ブロックを適用してイントラ予測された画像ブロックを再構成する。再構成されたイントラ予測された画像ブロックおよび／または残差ブロックならびに対応するインター予測データは、それぞれ、デコードされたピクチャバッファコンポーネント２２３およびインループフィルタコンポーネント２２５と実質的に同様であり得る、インループフィルタコンポーネント４２５を介してデコードされたピクチャバッファコンポーネント４２３に転送される。インループフィルタコンポーネント４２５は、再構成された画像ブロック、残差ブロック、および／または予測ブロックをフィルタリングし、そのような情報は、デコードされたピクチャバッファコンポーネント４２３に記憶される。デコードされたピクチャバッファコンポーネント４２３からの再構成された画像ブロックは、インター予測のために動き補償コンポーネント４２１に転送される。動き補償コンポーネント４２１は、動き推定コンポーネント２２１および／または動き補償コンポーネント２１９と実質的に同様であってもよい。具体的には、動き補償コンポーネント４２１は、参照ブロックからの動きベクトルを使用して予測ブロックを生成し、残差ブロックを結果に適用して画像ブロックを再構成する。結果として得られた再構成されたブロックはまた、インループフィルタコンポーネント４２５を介してデコードされたピクチャバッファコンポーネント４２３に転送されてもよい。デコードされたピクチャバッファコンポーネント４２３は、分割情報を介してフレームに再構成することができる追加の再構成された画像ブロックを記憶し続ける。そのようなフレームはまた、シーケンス内に配置されてもよい。シーケンスは、再構成された出力ビデオ信号としてディスプレイに向けて出力される。

前述のメカニズムは、正方形／長方形フレームで表示される２Ｄビデオのエンコードおよびデコードに使用できる例示的な機械および／または処理である。しかし、ＰＣＣのビデオデータは、点を用いて不規則な３Ｄオブジェクトを表現している。以下のメカニズムは、ＰＣＣ固有のビデオコーディング処理である。これらのメカニズムは、３Ｄ点群を２Ｄ正方形／長方形フレームで表現し、その２Ｄフレームを前述のメカニズムでエンコード／デコードできるようにするために使用され得る。一般的な例として、時間内の特定の瞬間における３Ｄ点群を、各点の位置を示すジオメトリフレームで説明することができる。点の色値および光の値は、ジオメトリフレームが示すように、点に投影される２Ｄパッチとして表現することができる。時間内のある瞬間のパッチを正方形／長方形アトラスフレームにパックし、上記のようなメカニズムでエンコード／デコードすることができる。パッチはアトラスフレームを完全に網羅しない場合があるので、アトラスフレームのどの領域がパッチデータを含み、どの領域が使用可能なビデオデータの空であるかを示すために、対応する占有フレームを利用することができる。点に対する追加属性は、対応する属性フレームにコードすることができる。以下、これらのメカニズムについて詳しく説明する。

図５は、ＰＣＣメカニズムに従ってコードされ得る点群媒体５００の一例である。したがって、点群媒体５００は、方法１００を実行するとき、コーデックシステム２００および／またはエンコーダ３００などのエンコーダによってコードされてよく、コーデックシステム２００および／またはデコーダ４００などのデコーダによって再構成されてよい。

図１～４に説明されたメカニズムは、概して２Ｄフレームがコードされていると想定している。しかしながら、点群媒体５００は、経時的に変化する点の群である。具体的には、点群媒体５００はまた、点群および／または点群表現と呼ばれてもよいが、３Ｄ空間における点のグループである。点は、また、サンプルと呼ばれてよい。各点は、複数の種類のデータに関連付けられ得る。例えば、各点は、位置の観点から説明され得る。位置は、デカルト座標のセットとして説明され得る３Ｄ空間における位置である。さらに、各点は色を含み得る。色は、輝度（例えば、光）およびクロミナンス（例えば、色）の観点で説明され得る。色は、赤（Ｒ）、緑（Ｇ）、青（Ｂ）の値、または輝度（Ｙ）、青色差（Ｕ）、赤色差（Ｖ）で説明することができ、それぞれ（Ｒ、Ｇ、Ｂ）または（Ｙ、Ｕ、Ｖ）と説明される。点はまた、他の属性を含み得る。属性は、点群における各点に関連付けられ得る、オプションのスカラまたはベクトル特性である。属性は、反射率、透過率、面法線、タイムスタンプ、材料識別子（ＩＤ）、などを含み得る。

点群媒体５００の各点が複数の種類のデータに関連付けられ得るので、図１～４に説明されたメカニズムに従って圧縮のために点群媒体５００を準備するように、いくつかのサポートメカニズムが使用される。例えば、点群媒体５００はフレームにソートされることができ、各フレームは、特定の状態または時間内のある瞬間における、点群に関する全てのデータを含む。このように、図５は、点群媒体５００のシングルフレームを描写する。点群媒体５００は次に、フレームごとにコードされる。点群媒体５００は、３Ｄ境界ボックス５０１によって取り囲まれ得る。３Ｄ境界ボックス５０１は、対応するフレームに関する点群媒体５００の点の全てを取り囲むようにサイズ決めされた３Ｄ長方形角柱である。３Ｄ境界ボックス５０１は、形式的には、直角に配置された６つの長方形面を有する立方体として定義されるボリュームとして定義され得る。点群媒体５００が互いに素なセット（ｄｉｓｊｏｉｎｔｓｅｔ）を含む場合には、複数の３Ｄ境界ボックス５０１が使用され得ることに留意されるべきである。例えば、点群媒体５００は、接続されていない２つの図を描写できる場合があり、この場合、３Ｄ境界ボックス５０１は各図の周りに配置される。３Ｄ境界ボックス５０１における点は、以下に説明されるように処理される。

図６は、点群６００から生成されたパッチ６０３の一例である。点群６００は、点群媒体５００のシングルフレームである。さらに、点群６００は、３Ｄ境界ボックス５０１と実質的に同様である３Ｄ境界ボックス６０１によって取り囲まれる。したがって、方法１００を実行するとき、点群６００は、コーデックシステム２００および／またはエンコーダ３００などのエンコーダによってコードされてよく、コーデックシステム２００および／またはデコーダ４００などのデコーダによって再構成されてよい。

３Ｄ境界ボックス６０１は６つの面を含み、したがって、３Ｄ境界ボックス６０１の面にそれぞれ位置する６つの２Ｄ長方形フレーム６０２（例えば、頂部、底部、左、右、前、および後）を含む。点群６００は、点群６００を、対応する２Ｄ長方形フレーム６０２上に投影することによって、３Ｄデータから２Ｄデータに変換され得る。これは、パッチ６０３の生成をもたらす。なお、２Ｄ長方形フレーム６０２は、（例えば、３Ｄ境界ボックス６０１の）２Ｄ境界ボックスと呼ばれることもある。パッチ６０３は、３Ｄ点群６００の一部の２Ｄ表現であり、パッチ６０３は、対応する２Ｄ長方形フレーム６０２から見える点群６００の部分の表現を含む。パッチ６０３は、ボリュメトリック情報に関連付けられたアトラス内の２Ｄ長方形領域として形式的に定義され得る。２Ｄ長方形フレーム６０２からの点群６００の表現は、複数の互いに素な成分を含み得ることに留意すべきである。このように、２Ｄ長方形フレーム６０２は、複数のパッチ６０３を含み得る。したがって、点群６００は、６個より多いパッチ６０３によって表現される場合がある。パッチ６０３はまた、アトラス、アトラスデータ、アトラス情報、および／またはアトラス成分と呼ばれることがある。３Ｄデータを２Ｄフォーマットに変換することにより、点群６００のパッチ６０３は、インター予測および／またはイントラ予測などのビデオコーディングメカニズムに従ってコードすることができる。

図７Ａ～７Ｃは、図６に説明されたように２Ｄ情報に変換された３Ｄ点群をエンコードするメカニズムを示す。具体的には、図７Ａは、パッチ６０３などのパッチのセットに関連付けられた、例示的な占有フレーム７１０を示す。占有フレーム７１０は、値がバイナリ形式でコードされた占有７１３および７１５を含む。占有７１３および７１５は、アトラスサンプルが３Ｄ空間において関連付けられたサンプルに対応しているかどうかを示す値である。例えば、占有７１５として描写される占有値０は、境界ボックス６０１の一部がパッチ６０３の１つによって占有されていないことを表す。０によって表された境界ボックス６０１のそれらの部分は、ボリュメトリック表現（例えば、点群６００）の再構成に関与しない。一方、占有７１３として描写される占有値１は、境界ボックス６０１の一部がパッチ６０３の１つによって占有されていることを表す。１によって表された境界ボックス６０１のそれらの部分は、ボリュメトリック表現（例えば、点群６００）の再構成に関与する。占有フレーム７１０は、２Ｄアレイを構成する占有値の集合として形式的に定義されてよく、単一のアトラスフレームの占有情報全体を表す。したがって、占有フレーム７１０は、アトラス内の各サンプル位置について、その位置が点群表現内の有効な３Ｄ点に対応するかどうかを示すことができる。

３Ｄ情報を２Ｄ平面上に投影することによって生成される様々なパッチが、長方形（または正方形）ビデオフレームにパックされ得る。ＡＶＣ、ＨＥＶＣおよびＶＶＣなどの様々なビデオコーデックが、そのようなビデオフレームをコードするように予め構成されているので、このアプローチは有利であり得る。このように、ＰＣＣコーデックは、パッチをコードするために、他のビデオコーデックを使用し得る。図７Ａに示されるように、パッチはフレームにパックされ得る。パッチは任意のアルゴリズムによってパックされ得る。例えば、パッチは、サイズに基づいてフレームにパックされ得る。特定の例において、パッチは最大から最小までを含む。最大のパッチは、任意の開放空間に最初に配置され得、一度サイズ閾値が交差されると、より小さいパッチ隙間を埋めるように配置され得る。例えば、最大のパッチはフレームの左上方向に配置され得、漸進的により小さいパッチは、右下方向に、かつ一度サイズ閾値が交差されると隙間を埋めるように、配置され得る。図７Ａに示されるように、そのようなパッキング方式は、パッチデータを含まない空白をもたらす。空白のエンコーディングを回避するために、占有フレーム７１０が使用される。占有フレーム７１０は、時間内の特定の瞬間における点群の全ての占有データを含む。具体的には、占有フレーム７１０は、１または複数の占有値（占有データ、占有情報、および／または占有成分とも呼ばれる）を含む。占有７１３および／または７１５は、アトラス７３３（パッチのグループ）に対応する２Ｄアレイとして実装することができ、その値は、アトラス７３３内の各サンプル位置について、その位置が点群表現内の有効な３Ｄ点に対応するか否かを示す。図７Ａに示すように、占有フレーム７１０は、占有７１３として描写された有効データの領域を含む。有効データの領域は、占有フレーム７１０の対応する位置にアトラス７３３／パッチデータが存在することを示す。また、占有フレーム７１０には、占有７１５として描写された無効データの領域が含まれる。無効データの領域は、占有フレーム７１０の対応する位置にアトラス７３３／パッチデータが存在しないことを示す。

図７Ｂは、パッチ６０３などのパッチのセットに関連付けられた例示的なジオメトリフレーム７２０を示す。ジオメトリフレーム７２０は、ジオメトリマップとしても知られ、パッチ６０３の各々の輪郭または地形を提供または描写する。具体的には、ジオメトリフレーム７２０は、パッチ６０３における各点が境界ボックス６０１の平面（例えば、２Ｄ長方形フレーム６０２）から離れる距離を示す。ジオメトリフレーム７２０は、ジオメトリ７２３を含む。ジオメトリ７２３は、ボリュメトリックフレームに関連付けられたデカルト座標のセットとして定義することができる。ボリュメトリックフレームは、特定の時間インスタンスにおけるデカルト座標および０個以上の対応する属性セットによって指定される３Ｄ点のセットである。したがって、ボリュメトリックフレームは、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０、およびオプションとして、指定された瞬間における点群を説明する任意の１または複数の属性フレームの組み合わせである。例えば、ジオメトリ７２３は、時間内の対応する瞬間における３Ｄ境界ボックス内の各点の位置を説明することができる。

上述のように、ジオメトリフレーム７２０は、時間内の特定の瞬間における点群に対するジオメトリ７２３（ジオメトリマップ、ジオメトリデータ、ジオメトリ情報、および／またはジオメトリ成分としても知られる）を含む。ジオメトリ７２３は、各パッチに関連付けられたジオメトリ情報の集約によって生成される２Ｄアレイとして実装されてもよく、ジオメトリ情報／データは点群フレームに関連付けられたデカルト座標のセットである。具体的には、パッチは全て３Ｄ空間における点から投影される。そのような投影は、パッチから３Ｄ情報を除去する効果を有する。ジオメトリ７２３は、パッチから除去された３Ｄ情報を維持する。例えば、パッチにおける各サンプルが、３Ｄ空間における点から取得される。したがって、ジオメトリフレーム７２０は、各パッチ内の各サンプルに関連付けられた３Ｄ座標を含んでもよい。したがって、ジオメトリフレーム７２０／ジオメトリ７２３は、２Ｄパッチを３Ｄ空間にマッピング／変換して３Ｄ点群を再構成するために、デコーダによって使用されることができる。具体的には、デコーダは各パッチサンプルを適切な３Ｄ座標上にマッピングして、点群を再構成し得る。

図７Ｃは、パッチ６０３などのパッチのセットに関連付けられた例示的なアトラスフレーム７３０を示す。アトラスフレーム７３０は、境界ボックス６０１におけるパッチ６０３のサンプルを提供または描写する。アトラスフレーム７３０は、３Ｄ境界ボックスとして知られる３Ｄ空間のボリュームに対応する長方形フレームに投影された２次元（２Ｄ）境界ボックス（パッチおよび／またはアトラス７３３としても知られる）の集合として形式的に定義されており、ボリュメトリックデータはその上にレンダリングされてよい。アトラスフレーム７３０は、例えば、パッチ６０３の点の、色成分および／または輝度成分を含んでもよい。色成分は、ＲＧＢ色モデル、ＹＵＶ色モデルに基づいてよく、または別の知られている色モデルに基づいてよい。占有フレーム７１０、ジオメトリフレーム７２０、およびアトラスフレーム７３０は、点群６００および／または点群媒体５００をコードするために使用され得る。このように、方法１００を実行するとき、占有フレーム７１０、ジオメトリフレーム７２０、およびアトラスフレーム７３０は、コーデックシステム２００および／またはエンコーダ３００などのエンコーダによってコードされてよく、コーデックシステム２００および／またはデコーダ４００などのデコーダによって再構成されてよい。

上述のように、アトラスフレーム７３０は、時間内の特定の瞬間における点群に対する１または複数のアトラス７３３（アトラスデータ、アトラス情報、アトラス成分、および／またはパッチとしても知られる）を含む。アトラス７３３は、３Ｄ空間における３Ｄ境界ボックスに対応する長方形フレームに投影された２Ｄ境界ボックスの集合であり、各２Ｄ境界ボックス／パッチは、点群のサブセットを表す。具体的には、アトラス７３３は、図６に関して説明されたように、３Ｄ点群が２Ｄ空間に投影されたときに生成されたパッチを含む。このように、アトラス７３３／パッチは、時間内の対応する瞬間における点群に関連付けられた画像データ（例えば、色および光の値）を含む。アトラス７３３は、図７Ａの占有フレーム７１０と図７Ｂのジオメトリフレーム７２０とに対応する。具体的には、アトラス７３３は、占有率７１３に応じた有効データの領域にはデータを含み、占有率７１５に応じた無効データの領域にはデータを含まない。さらに、ジオメトリ７２３は、アトラス７３３内のサンプルの３Ｄ情報を含む。

点群が属性（属性データ、属性情報、および／または属性成分としてもまた知られる）を含み得ることもまた留意すべきである。そのような属性は、属性フレームに含まれ得る。属性は、時間内の特定の瞬間における点群の対応する属性に関する全てのデータを含み得る。属性は幅広い異なるデータを含み得るので、属性フレームの一例は図示しない。具体的には、反射率、面法線、タイムスタンプ、素材ＩＤなど、属性は点群における各点に関連付けられた任意のスカラまたはベクトル特性であり得る。さらに、属性は任意選択（例えば、ユーザ定義）であり、用途に基づいて変わり得る。しかしながら、使用される場合、点群属性は、アトラス７３３、ジオメトリ７２３および占有と同様な方式で属性フレームに含まれ得る。

したがって、エンコーダは、点群フレームを、アトラス７３３のアトラスフレーム７３０、ジオメトリ７２３のジオメトリフレーム７２０、占有７１３および７１５の占有フレーム７１０、ならびにオプションとして属性の属性フレーム（集合的に、ボリュメトリックフレーム）に圧縮することができる。アトラスフレーム７３０、ジオメトリフレーム７２０、占有フレーム７１０、および／または属性フレームは、デコーダへの伝送のために、例えば異なるエンコーダによってさらに圧縮され得る。デコーダは、アトラスフレーム７３０、ジオメトリフレーム７２０、占有フレーム７１０、および／または属性フレームを解凍し得る。デコーダは次に、点群フレームを再構成して、対応する瞬間において再構成された点群を判断するために、アトラスフレーム７３０、ジオメトリフレーム７２０、占有フレーム７１０、および／または属性フレームを使用する。再構成された点群フレームは次に、元の点群シーケンスを再構成するように（例えば、表示のために、および／または、データ分析における使用のために）、シーケンスで含まれてよい。特定の例として、アトラスフレーム７３０および／またはアトラス７３３は、図１～４に関して説明された技術を使用することによって、例えば、ＶＶＣ、ＨＥＶＣ、および／またはＡＶＣコーデックを使用することによって、エンコードおよびデコードされ得る。

図８は、Ｖ－ＰＣＣフレーム、例えば、３Ｄ境界ボックス８０１に含まれるものをレンダリングするためのカメラ位置８１１および視野ベクトル８１５を定義するための例示的なメカニズム８００を示す図。１つの例において、点群媒体５００などの点群を、３Ｄ境界ボックス５０１および／または６０１と実質的に同様であり得る３Ｄ境界ボックス８０１において再構成することができる。具体例として、パッチ６０３のセットを、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０および／または属性フレームからデコードすることができる。パッチを、３Ｄ境界ボックス８０１内の点に投影して、点群を再構成することができる。カメラ位置８１１のカメラは、３Ｄ境界ボックス８０１内の再構成された点群をレンダリングするために使用することができる。このように、メカニズム８００は、方法１００、１１００および／または１２００を実装するときに使用されることができる。さらに、メカニズム８００は、例えば、エンコーダでのエラーテストのために、またはデコーダでの表示のために点群を再構成するときに、コーデックシステム２００、エンコーダ３００、デコーダ４００、ビデオコーディングデバイス１０００、および／またはシステム１３００によって使用されることができる。さらに、メカニズム８００を説明するデータを、Ｖ－ＰＣＣビットストリーム９００などのＰＣＣビットストリームによってシグナリングすることができる。

上述のように、点群を３Ｄ境界ボックス５０１および／または６０１と実質的に同様であり得る３Ｄ境界ボックス８０１において再構成することができる。具体的には、ジオメトリを使用して、３Ｄ境界ボックス８０１内の点群の点を配置することができる。次に、パッチおよび／または属性を、３Ｄ境界ボックス８０１内の点に投影して、点群のフレームを再構成することができる。３Ｄ境界ボックス８０１は、頂部８０１ａ、底部８０１ｂ、右側８０１ｃ、左側８０１ｄ、近傍部８０１ｆ、および遠方部８０１ｅを含むように説明されてよい。このような呼称は、他のコンポーネントに関する説明を明確にするために使用される。例えば、３Ｄ境界ボックス８０１は、予め定められた座標である原点８０２の周りに配置されてもよい。
したがって、頂部８０１ａは原点８０２の上にあり、底部８０１ｂは原点８０２の下にあり、右側８０１ｃは原点８０２の右にあり、左側８０１ｄは原点８０２の左にあり、近傍部８０１ｆは原点８０２の前にあり、遠方部８０１ｅは原点８０２の後にある。

３Ｄ境界ボックス８０１は３Ｄオブジェクトであり、３Ｄデータを含む。カメラ８１０を使用して、３Ｄデータを、２Ｄスクリーンに表示することができる形態に変換することができる。カメラ８１０は、３Ｄオブジェクトの２Ｄ視野を提供する視野ポートである。別の言い方をすれば、カメラ８１０は、視野ベクトル８１５によって定義される角度でカメラ位置８１１から３Ｄ境界ボックス８０１のコンテンツの２Ｄ視野を提供することができる。カメラ位置８１１は、カメラ８１０の視野ポートの中心を説明する座標である。視野ベクトル８１５は、カメラ８１０の視野ポートの正面から９０度の角度で延びるベクトルであり、したがって、カメラ位置８１１から視野ポートが向けられる方向を定義する。いくつかのＰＣＣシステムでは、デコーダは、３Ｄ境界ボックス８０１に含まれるコンテンツにかかわらず、カメラ８１０を予め定義されたカメラ位置８１１に配置し、予め定義された視野ベクトル８１５を使用する。このようなシステムでは、ユーザがカメラ８１０を制御し、カメラ８１０を好みの位置に動かして、好みの角度から所望のコンテンツをレンダリングすることが必要になることがある。このため、用途によっては、ユーザが所望のコンテンツを見るのに３Ｄ境界ボックス８０１での最良の位置を認識し得ないという問題が生じる場合がある。例えば、ユーザはサッカーの試合のＰＣＣビデオを見る場合がある。デフォルトのカメラ位置８１１は、３Ｄ境界ボックス８０１内のサッカーフィールドの中心に近く、および／または、その中心に向けられることがある。ユーザは、クォーターバックまたはストライカに近い位置からＰＣＣビデオを見たいと希望することがあるが、クォーターバックまたはストライカが３Ｄ境界ボックス８０１内のフィールド上のどこに位置しているか知らないことがある。その結果、検索に時間がかかり、望ましくないユーザエクスペリエンスを生成することがある。

本開示では、コンテンツ制作者が、提案されたカメラ位置８１１および提案された視野ベクトル８１５を選択し、提供することが可能である。これにより、コンテンツ制作者は、どの視野ポートが興味深い素材を含む可能性が高いかをユーザに示すことができる。さらに、これにより、コンテンツ制作者がユーザのエクスペリエンスを誘導することが可能になる。複数のカメラ８１０を使用することができ、したがって、複数のカメラ位置８１１および視野ベクトル８１５が、選択のためにユーザに提案されることができる。各カメラ８１０について、カメラ位置８１１は、カメラオフセット８１３によって示すことができる。カメラオフセット８１３は、カメラ位置８１１と、点群を含む３Ｄ境界ボックス８０１の予め定義された点との間の３Ｄ空間における距離を示すパラメータである。いくつかのシステムでは、カメラオフセット８１３は、３Ｄ境界ボックス８０１の底部８０１ｂ、左側８０１ｄ、近傍部８０１ｆコーナからの測定値として示される。このように、カメラオフセット８１３は、カメラ位置８１１と３Ｄ境界ボックス８０１の底部８０１ｂ、左側８０１ｄ、近傍部８０１ｆコーナとのＸ軸、Ｙ軸およびＺ軸方向の差を示している。このように、カメラオフセット８１３は、そのような差異を説明するＸ成分、Ｙ成分、およびＺ成分を含む。カメラオフセット８１３は、ＰＣＣビットストリームにエンコードすることができ、カメラ８１０をカメラ位置８１１に配置するために十分なデータを提供する。

各カメラ８１０の視野ベクトル８１５は、カメラ回転８１７によって示すことができる。このように、カメラ回転８１７は、カメラ８１０から、点群を含む３Ｄ境界ボックス８０１に向ける視野ベクトル８１５を示すパラメータである。いくつかの例では、カメラ回転８１７は、四元数表現で説明される。四元数表現は、スカラ値、および空間軸に沿う３つの単位ベクトルを使用する複素数領域におけるベクトルの表現である。四元数表現は、３Ｄ空間の任意のベクトルを説明するために使用することができる。デコーダは、ＰＣＣビットストリームに示されるカメラオフセット８１３およびカメラ回転８１７に基づいて、カメラ８１０の視野ポートを配置することができる。次いで、この視野ポートを使用して、３Ｄ境界ボックス８０１内のＰＣＣコンテンツの２Ｄ表現を、提案された位置および角度からレンダリングすることができる。

具体的な実装態様において、行列乗算を使用してそのようなレンダリングを遂行することができる。例えば、ＰＣＣコンテンツを、３Ｄ境界ボックス８０１を表すモデル行列を初期化することで再構成することができる。ジオメトリを、点を表す値をモデル行列に配置することで定義することができる。パッチおよび属性を、モデル行列におけるそのような点との相関によって、ジオメトリに投影することもできる。次に、モデル行列に様々な変換を適用することができる。例えば、３Ｄ点群から２Ｄ画像をレンダリングするために、カメラ８１０の情報をモデル行列に変換として適用することができる。例えば、カメラオフセット８１３をオフセット行列として適用し、カメラ回転８１７を回転行列として適用することができる。オフセット行列は、モデル行列内の点の３Ｄモデルを２Ｄ表現に変換するために適用されることができるカメラオフセット８１３の行列表現である。具体例において、オフセット行列を以下のように表すことができる：

ここで、Ｏｆｆｓｅｔ［０］、Ｏｆｆｓｅｔ［１］、Ｏｆｆｓｅｔ［２］はそれぞれ、カメラオフセット８１３のＸ成分、Ｙ成分およびＺ成分を含む。また、１つの値をスケーリングファクタに置き換えて、ＰＣＣコンテンツをスケーリングすることができる。

回転行列は、モデル行列内の点の３Ｄモデルを２Ｄ表現に変換することに適用されることができるカメラ回転８１７の行列表現である。回転行列は、モデル行列に適用するために、カメラ回転８１７の四元数値を含んでもよい。具体例において、回転行列は以下のように表すことができる：

ここで、ｑＸはカメラ回転８１７のＸ成分を指定し、ｑＹはカメラ回転８１７のＹ成分を指定し、ｑＺはカメラ回転８１７のＺ成分を指定し、ｑＷはカメラ回転８１７のスカラ成分を指定する。ｑＷを以下のように計算することができる：
ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））

このように、エンコーダは、ｑＸ、ｑＹおよびｑＺをエンコードすることによってカメラ回転８１７をシグナリングすることができる。次に、デコーダは、ｑＸ、ｑＹおよびｑＺに基づいてｑＷを計算することができる。次に、デコーダは、カメラ位置８１１および視野ベクトル８１５によって定義される視野ポートから３Ｄ境界ボックス８０１内のＰＣＣコンテンツの２Ｄレンダリングを取得するために、モデル行列にオフセット行列および回転行列を乗算することができる。その結果、ユーザによる指示されたカメラ８１０の選択、またはデフォルトでの選択により、ユーザは、コンテンツ制作者が意図した通りの位置および角度から３Ｄ境界ボックス８０１内のコンテンツを見ることができるようになる。以下でそのようなデータのシグナリングをより詳しく説明する。したがって、本実施例では、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、そのようなデータを最小限の方法でシグナリングすることによって本開示はコーディングの効率を高めるメカニズムをサポートし、したがって、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリ、および／またはネットワークリソース使用量の減少をサポートする。

図９は、点群をレンダリングするためのカメラパラメータのシグナリングに使用する例示的なＶ－ＰＣＣビットストリーム９００を示す概略図である。例えば、Ｖ－ＰＣＣビットストリーム９００を、コーデックシステム２００、デコーダ４００および／またはビデオコーディングデバイス１０００によってデコードするためのコーデックシステム２００、エンコーダ３００、および／またはビデオコーディングデバイス１０００により、方法１００、１１００および／または１２００に従って生成することができる。さらに、Ｖ－ＰＣＣビットストリーム９００を使用して、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０および／または属性フレームとして点群媒体５００からパッチ６０３のセットをエンコードすることができる。さらに、Ｖ－ＰＣＣビットストリーム９００は、カメラオフセット８１３および／またはカメラ回転８１７をエンコードして、デコーダとしたシグナリングされたカメラ視点からのレンダリングをサポートすることができる。

Ｖ－ＰＣＣビットストリーム９００は、一連のＶ－ＰＣＣユニット９１０を含む。Ｖ－ＰＣＣユニット９１０は、デコーダに向けて伝送するためのデータパケットに配置されるようにサイズ決めされたデータコンテナである。具体的には、Ｖ－ＰＣＣユニット９１０は、Ｖ－ＰＣＣビデオシーケンス内の対応する瞬間における点群を表す１または複数のボリュメトリックフレームに関連するＶ－ＰＣＣ成分および／または対応するパラメータセットを含む。具体例として、Ｖ－ＰＣＣユニット９１０は、多角的ビデオコーディング（ＶＶＣ）規格に対応するネットワーク抽象化層（ＮＡＬ）ユニットとして構成されてもよい。ＮＡＬユニットは、パケットサイズのデータコンテナである。例えば、単一のＮＡＬユニットは、概して、ネットワーク伝送が可能であるようにサイズ決めされる。ＮＡＬユニットは、ＮＡＬユニットタイプを示すヘッダおよび関連データを含むペイロードを含んでよい。Ｖ－ＰＣＣユニット９１０はＶ－ＰＣＣユニットペイロード９１４およびＶ－ＰＣＣユニットヘッダ９１２を含む。Ｖ－ＰＣＣユニットペイロード９１４は、ボリュメトリックフレームに関連するビデオデータの対応するタイプを含む。Ｖ－ＰＣＣユニットヘッダ９１２は、Ｖ－ＰＣＣユニットペイロード９１４に含まれたデータのタイプを示すヘッダである。

Ｖ－ＰＣＣユニットペイロード９１４は、例に応じて、Ｖ－ＰＣＣパラメータセット９１１、アトラスフレーム９１３、占有フレーム９１５、ジオメトリフレーム９１７および／または属性フレーム９１９を含んでよい。Ｖ－ＰＣＣパラメータセット９１１は、１または複数の対応するボリュメトリックフレームをコードするために使用される設定を説明するパラメータのグループである。一例として、Ｖ－ＰＣＣパラメータセット９１１は、アトラス適応パラメータセット（ＡＰＳ）９２１を含み得る。アトラスＡＰＳ９２１は、アトラスフレーム９１３に含まれる１または複数のパッチに適用されるシンタックス要素／パラメータを含むシンタックス構造である。例えば、アトラスＡＰＳ９２１のパラメータは、ＰＣＣフレームに関連付けられた全ての１または複数の（例えば、全ての）パッチに適用されてもよい。Ｖ－ＰＣＣパラメータセット９１１は、アトラスフレームパラメータセット、アトラスシーケンスパラメータセット、ビデオに基づく視覚的ボリュメトリックコーディング（Ｖ３Ｃ）パラメータセットなどの他のパラメータセットも含むことができる。パラメータセット間の主要な区別は、含まれるパラメータが、ビデオレベル（例えば、Ｖ３Ｃパラメータセット）、シーケンスレベル（例えば、アトラスシーケンスパラメータセット）、フレームレベル（例えば、アトラスフレームパラメータセット）、および／またはパッチレベル（例えば、アトラスＡＰＳ）でＶ－ＰＣＣに関連するかどうかということである。また、特定の目的のために他のパラメータセットを使用することも可能であり、前述のものは完全なリストとして意図されたものではない。

アトラスフレーム９１３は、３Ｄ境界ボックス５０１、６０１、および／または８０１などの３Ｄ空間内のボリュームに対応する長方形フレームに投影された２Ｄ境界ボックス／パッチ／アトラスの集合であり、その上にボリュメトリックデータがレンダリングされる。アトラスフレーム９１３は、実質的にアトラスフレーム７３０と同様である。占有フレーム９１５は、２Ｄアレイを構成する占有値の集合であり、単一のアトラスフレームのための占有情報全体を表す。占有は、アトラスサンプルが３Ｄ空間内の関連付けられたサンプルに対応するかどうかを示す値である。占有フレーム９１５は、実質的に占有フレーム７１０と同様であってよい。ジオメトリマップとしても知られるジオメトリフレーム９１７は、特定の深さに投影されたジオメトリパッチ情報を含むフレームである。ジオメトリは、ボリュメトリックフレームに関連付けられたデカルト座標のセットである。ジオメトリフレーム９１７は、実質的にジオメトリフレーム７２０と同様である。属性フレーム９１９は、色、反射率、面法線、タイムスタンプ、材料識別子（ＩＤ）など、点群のボリュメトリックフレーム内の各点に任意に関連付けられたスカラまたはベクトル特性を含むフレームであってよい。ボリュメトリックフレームは、特定の時間インスタンスにおけるデカルト座標と０個以上の対応する属性セットによって指定される３Ｄ点のセットである。点群のビデオは一連のボリュメトリックフレームを含む。このように、Ｖ－ＰＣＣパラメータセット９１１は、１または複数のボリュメトリックフレームをどのようにデコードすべきかを示すパラメータセットを含み、アトラスフレーム９１３、占有フレーム９１５、ジオメトリフレーム９１７、および属性フレーム９１９は、ボリュメトリックフレームを再構成するためのビデオデータを含む。

上述のように、いくつかのＶ－ＰＣＣシステムは常に、デフォルトの位置における３Ｄ点群の２Ｄ視野をレンダリングするようにカメラを配置する。このようなシステムにおいて、アトラスフレーム９１３、占有フレーム９１５、ジオメトリフレーム９１７、および属性フレーム９１９からのデータは、ボリュメトリックフレームを再構成するために使用される。次に、ボリュメトリックフレームは、デフォルトの位置におけるカメラによってレンダリングされる。このアプローチは、ビデオごとにデフォルトの位置が変わらず、したがって、有用な情報が特に表示されない可能性が高いボリュメトリックフレームの視野を提供するため、多くの状況で有益でないことがある。

本開示では、コンテンツ制作者が、提案されたカメラ位置および提案された視野ベクトルを選択し、提供することが可能である。これにより、コンテンツ制作者は、どの視野ポートがボリュメトリックフレームの興味深い視野を含む可能性が高いかをユーザに示すことができる。さらに、これにより、コンテンツ制作者がユーザのエクスペリエンスを誘導することが可能になる。具体例において、アトラスＡＰＳ９２１を使用して、提案されたカメラ位置および提案された視野ベクトルをコードすることができる。例えば、アトラスＡＰＳ９２１は、１または複数のアトラスカメラパラメータ（ＡＣＰ）シンタックス構造を含むことができる。各ＡＣＰシンタックス構造は、レンダリングに使用するためのカメラを説明するデータを含むことができる。例えば、アトラスＡＰＳ９２１は、カメラオフセット８１３などのカメラオフセットとしてカメラ位置をコードするＡＣＰシンタックス構造をエンコードすることができる。さらに、ＡＣＰシンタックス構造は、例えば、四元数表現でのカメラ回転８１７としてカメラ視野ベクトルをコードすることができる。

具体的な実装態様において、カメラオフセットを、軸ｄのＡＣＰオフセット（Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］）９３３としてコードすることができる。例えば、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３は、カメラオフセットのＸ成分、Ｙ成分およびＺ成分を含んでよく、ここで、ｄは、どのオフセット成分が示されたかを示すカウンタ変数である。例えば、ｄは、それぞれＸ成分、Ｙ成分またはＺ成分を示す、０、１、または２に設定されることができる。具体的な実装態様において、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３を以下のように定義することができる。Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３は、現在のカメラモデルの軸ｄに沿って、Ｏｆｆｓｅｔ［ｄ］と表記されるオフセットの値を２^－１６のインクリメントで示す。Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３の値は、－２^３１から２^３１－１の範囲（両端を含む）内にある必要があり、ここで、ｄは０から２の範囲（両端を含む）内にある。０、１および２に等しいｄの値はそれぞれ、Ｘ軸、Ｙ軸およびＺ軸に対応する。存在しない場合、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］は０に等しいことを推測することができる。Ｏｆｆｓｅｔ［ｄ］を、Ｏｆｆｓｅｔ［ｄ］＝Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］÷２^１６によって判断することができる。デコーダは、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３内のデータに基づいてオフセット行列を生成することができる。オフセット行列を以下のように表すことができる。

ここで、Ｏｆｆｓｅｔ［０］、Ｏｆｆｓｅｔ［１］、Ｏｆｆｓｅｔ［２］はカメラのＸ、Ｙ、Ｚ変位であり、１はスケーリングファクタを用いて所望されるように置き換えることができる。

さらに、カメラ回転の単位ベクトル四元数成分は、ＡＣＰ回転ｑｘ（Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ）９３５、ＡＣＰ回転ｑｙ（Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ）９３７、ＡＣＰ回転ｑｚ（Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ）９３９としてエンコードされることができる。カメラ回転のスカラ成分を、単位ベクトル成分に基づいてデコーダによって判断することができる。具体例において、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９を以下のように定義することができる。Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５は、四元数表現を使用する現在のカメラモデルの回転に対して、Ｘ成分ｑＸを指定する。Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘの値は、－２^１４から２^１４の範囲（両端を含む）内にある必要がある。存在しない場合、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５は０に等しいと推測することができる。ｑＸの値を、ｑＸ＝Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ÷２^１４によって判断することができる。

さらに、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７は、四元数表現を使用する現在のカメラモデルの回転に対して、Ｙ成分ｑＹを指定する。Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７の値は、－２^１４から２^１４の範囲（両端を含む）内にある必要がある。存在しない場合、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７は０に等しいと推測することができる。ｑＹの値を、ｑＹ＝ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ÷２^１４によって判断することができる。

さらに、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９は、四元数表現を使用して、現在のカメラモデルの回転に対して、Ｚ成分ｑＺを指定する。Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９の値は、－２^１４から２^１４の範囲（両端を含む）内にある必要がある。存在しない場合、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９は０に等しいと推測することができる。ｑＺの値を、ｑＺ＝ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ÷２^１４によって判断することができる。

四元数表現を使用する現在のカメラモデルの回転に対する第４／スカラ成分ｑＷは、以下のように計算することができる。ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））。デコーダは、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９からのデータに基づいて回転行列を生成することができる。例えば、単位四元数を以下のように回転行列として表すことができる。

このように、エンコーダは、Ｖ－ＰＣＣビットストリーム９００内のカメラオフセットをＡｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３として、カメラ回転をＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９としてコードすることができる。デコーダは、対応するＰＣＣビデオデータをモデル行列に含めることによって３Ｄ境界ボックス内の点群を再構成することができる。次に、デコーダは、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３に基づいて、カメラオフセットを説明するオフセット行列と、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９に基づいて、カメラ回転を説明する回転行列とを生成することができる。次に、デコーダは、例えば、行列乗算を介して、オフセット行列および回転行列をモデル行列に適用することによって、示された視野ポートからの３Ｄ点群の２Ｄ視野をレンダリングすることができる。したがって、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７、およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９は、３Ｄボリュメトリック表現から、エンドユーザが見るために２Ｄスクリーンに表示され得る、示されたカメラ位置および視野角からの２Ｄ表現に再構成された点群を変換するための変換として使用できるデータを含む。このように、Ａｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、Ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７およびＡｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９は、好ましい視野位置および角度を示すためにコンテンツ制作者によって使用されることができ、したがって、Ｖ－ＰＣＣビットストリーム９００によってコードされた３ＤＶ－ＰＣＣコンテンツのユーザのエクスペリエンスを誘導するためにエンコーダによって使用されることができる。

ここで、前述の情報の具体的な実装態様を本明細書において以下のようにより詳しく説明する。３Ｄ再構成された情報は、オブジェクトのボリュームおよび形状の説明を提供する。しかしながら、空間内の方向および位置を含む外部カメラパラメータなどのいくつかのさらなるパラメータも存在する。さらに、スケーリングパラメータは、点のサイズおよび物理空間における空間に関する情報を提供する。しかし、いくつかのＰＣＣシステムは、没入型オブジェクトに対するディレクタのデフォルト視野を定義するような情報を利用しない。カメラを定義するために、２セットのパラメータが使用される。これらは、３Ｄ空間における位置を含み、点群フレーム原点に対する並進として定義されることがある。カメラパラメータはさらに、点群フレームの座標系に関する回転を含む。カメラに対して回転および並進パラメータを提供すべく、ＰＣＣビットストリームにおけるメッセージは、対応するパラメータのリストを含むように修正される。

３Ｄレンダリングパイプラインにおける外部カメラパラメータは、以下のように定義してよい。具体的に、ワールド座標におけるカメラの定義には、２つのファクタが含まれる。１つ目は、ワールド座標系に対するカメラのＸ変位、Ｙ変位およびＺ変位であるオフセットパラメータである。Ｔと表記されたオフセット行列を、以下のように定義することができる。

ここで、Ｘ、ＹおよびＺは、カメラのＸ変位、Ｙ変位およびＺ変位であり、１は、スケーリングファクタを用いて所望されるように置き換えることができる。

第２のパラメータは、ワールド座標系に対するカメラ回転を定義するＲと表記される配向行列で、その一例を以下に説明する。

ここで、α、β、γはそれぞれ、ワールド座標のｘ、ｙおよびｚ軸に対する回転角である。得られた変換は、シーングラフで使用され、再構成された点群を含む境界ボックスに適用することができる。これらのパラメータを使用することによって、いくつかの予め定義されたカメラ位置がコンテンツ制作者によって提案され得る。このようなカメラ位置は、ディレクタの視野と呼ばれることがある。

例示的な実装態様において、補足拡張情報（ＳＥＩ）メッセージは、ジオメトリ変換パラメータを保持してよく、以下に挙げる情報を追加することによって修正されてよい。例えば、１または複数のカメラは、ボリュメトリックシーン内の特定の動作に視聴者の注意を向けるために使用される予め定義されたまたはディレクタの視野を示すためにモデルに関連付けられることができる。各カメラを、グローバルシーン座標系における各軸に沿ってオフセットで示すことができる。各カメラを、各軸に沿って特定の回転で特徴付けることができる。別の例において、各カメラ回転を、四元数ｘ、ｙ、ｚおよびｗ^２＝１－（ｘ^２＋ｙ^２＋ｚ^２）で特徴付けてよい。

上記パラメータを含むジオメトリ変換パラメータＳＥＩメッセージシンタックスを以下のように説明することができる。

ジオメトリ変換パラメータＳＥＩメッセージセマンティクスに対する例示的なセマンティクス変更は以下の通りである。ｇｔｐ＿ｎｕｍ＿ｃａｍｅｒａ＿ｉｎｆｏは予め定義されたカメラ事前設定の数を示す。０に等しいｇｔｐ＿ｎｕｍ＿ｃａｍｅｒａ＿ｉｎｆｏが、カメラ情報が存在しないことを指定する。存在しない場合、ｇｔｐ＿ｎｕｍ＿ｃａｍｅｒａ＿ｉｎｆｏの値は０に等しいと推測してよい。ｇｔｐ＿ｃａｍｅｒａ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］は、軸ｄに沿ったｉ番目のカメラオフセットの値を示す。ｇｔｐ＿ｇｅｏｍｅｔｒｙ＿ｓｃａｌｅ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］の値は、０から２^３２－１の範囲（両端を含む）内にあり、ここで、ｄは０から２の範囲（両端を含む）内にある。０、１および２に等しいｄの値はそれぞれ、Ｘ軸、Ｙ軸およびＺ軸に対応する。存在しない場合、ｇｔｐ＿ｇｅｏｍｅｔｒｙ＿ｓｃａｌｅ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］が０に等しいと推測してよい。ｇｔｐ＿ｃａｍｅｒａ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］は、ｉ番目のカメラ方向に対するｄ番目の成分、Ｏｒｉｅｎｔａｔｉｏｎ［ｉ］［ｄ］を指定する。ｇｔｐ＿ｃａｍｅｒａ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］の値は、－２^１５から２^１５－１の範囲（両端を含む）内にあってよい。０、１および２に等しいｄの値はそれぞれ、Ｘ回転成分、Ｙ回転成分およびＺ回転成分に対応する。存在しない場合、ｇｔｐ＿ｃａｍｅｒａ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］は０に等しいと推測すべきである。Ｏｒｉｅｎｔａｔｉｏｎ［ｉ］［ｄ］の値を以下のように計算してよい：
Ｏｒｉｅｎｔａｔｉｏｎ［ｉ］［ｄ］＝ｇｔｐ＿ｃａｍｅｒａ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｏｎ＿ａｘｉｓ［ｉ］［ｄ］÷２^１５

また、四元数アプローチをカメラ回転のコーディングに使用してよい。３つのベクトルを使用してカメラを定義してよい。上記３つのベクトルは、位置、視野および上方を含む。代わりに、視野ベクトルを回転することによって一人称カメラを定義してよい。四元数を用いて、ベクトルを任意の軸を中心に回転することができる。これを実現するために、視野ベクトルを四元数に変換することができる。次に、回転四元数を定義することができる。次に、回転四元数を視野四元数に適用して、回転を行うことができる。視野四元数（Ｖ）を生成するために、ｘ値、ｙ値およびｚ値を視野ベクトルから取得して、０をスカラ成分（ｗ）として追加することができる。したがって、Ｖ＝［０，ｖｉｅｗ］である。次に、四元数は生成され、回転を表すことができる。これを達成するように、回転の中心（Ａ）および回転の角度（ｔｈｅｔａ）として作用するベクトルを取得することができる。回転四元数（Ｒ）を構築する式は以下のようである：ベクトルＡ＝Ａ．ｘ＊ｓｉｎ（ｔｈｅｔａ／２）Ｒ．ｙ＝Ａ．ｙ＊ｓｉｎ（ｔｈｅｔａ／２）Ｒ．ｚ＝Ａ．ｚ＊ｓｉｎ（ｔｈｅｔａ／２）Ｒ．ｗ＝ｃｏｓ（ｔｈｅｔａ／２）。回転四元数Ｒはこの回転を定義する。回転後、Ｗと表記された、視野を表す四元数が使用される。回転動作を、Ｗ＝Ｒ＊Ｖ＊Ｒ'のように説明する。ここで、Ｒ'はＲのコンジュゲートである。四元数表現を使用する現在の点群画像のジオメトリ回転に対する第４の成分である回転Ｗを、以下のように計算することができる：
ＲｏｔａｔｉｏｎＸ＝Ｏｒｉｅｎｔａｔｉｏｎ［０］
ＲｏｔａｔｉｏｎＹ＝Ｏｒｉｅｎｔａｔｉｏｎ［１］
ＲｏｔａｔｉｏｎＺ＝Ｏｒｉｅｎｔａｔｉｏｎ［２］
ＲｏｔａｔｉｏｎＷ＝Ｓｑｒｔ（１－（Ｏｒｉｅｎｔａｔｉｏｎ［０］２＋Ｏｒｉｅｎｔａｔｉｏｎ［１］２＋Ｏｒｉｅｎｔａｔｉｏｎ［２］２））

以上、点群フレーム原点に対して、シーンで使用するためのカメラ変位パラメータのセットを提供する例示的なＶ－ＰＣＣメッセージを説明した。カメラ位置は、シーン内のｘ、ｙ、ｚ方向の軸のオフセットで示すことができる。Ｖ－ＰＣＣメッセージは、シーン内のカメラの向きに関するパラメータのセットも提供することもできる。カメラの向きは、ｘ、ｙおよびｚ軸のオイラー回転を表すα、β、γ回転角で示すことができる。あるいは、カメラの向きは、四元数表記で回転を表すＲｏｔａｔｉｏｎＸ、ＲｏｔａｔｉｏｎＹ、ｒ＿ｚ、およびｒ＿ｗによって示すことができ、ここで、ｒ＿ｗ回転は導出される。

図１０は、例示的なビデオコーディングデバイス１０００を示す概略図である。ビデオコーディングデバイス１０００は、本明細書に記載の開示された例／実施形態を実装するのに好適である。ビデオコーディングデバイス１０００は、下流ポート１０２０、上流ポート１０５０、ならびに／または、ネットワークを介して上流および／もしくは下流にデータを通信するための送信機および／もしくは受信機を含むトランシーバユニット（Ｔｘ／Ｒｘ）１０１０を備える。ビデオコーディングデバイス１０００はまた、データを処理するための論理ユニットおよび／または中央処理デバイス（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含むプロセッサ１０３０と、データを記憶するためのメモリ１０３２とを含む。ビデオコーディングデバイス１０００はまた、電気、光、または無線通信ネットワークを介したデータの通信のために、上流ポート１０５０および／または下流ポート１０２０に結合された、電気、光－電気（ＯＥ）コンポーネント、電気－光（ＥＯ）コンポーネント、および／または無線通信コンポーネントを備え得る。ビデオコーディングデバイス１０００はまた、ユーザとの間でデータを通信するための入力および／または出力（Ｉ／Ｏ）デバイス１０６０を含み得る。Ｉ／Ｏデバイス１０６０は、ビデオデータを表示するためのディスプレイ、音声データを出力するためのスピーカなどの出力デバイスを含み得る。Ｉ／Ｏデバイス１０６０はまた、キーボード、マウス、トラックボールなどの入力デバイス、および／またはこのような出力デバイスと対話するための対応するインタフェースを含み得る。

プロセッサ１０３０は、ハードウェアおよびソフトウェアによって実装される。プロセッサ１０３０は、１または複数のＣＰＵチップ、コア（例えば、マルチコアプロセッサとして）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、およびデジタル信号プロセッサ（ＤＳＰ）として実装され得る。プロセッサ１０３０は、下流ポート１０２０、Ｔｘ／Ｒｘ１０１０、上流ポート１０５０、およびメモリ１０３２と通信する。プロセッサ１０３０は、コーディングモジュール１０１４を含む。コーディングモジュール１０１４は、パッチ６０３のセットに分離され、Ｖ－ＰＣＣビットストリーム９００において占有フレーム７１０、ジオメトリフレーム７２０およびアトラスフレーム７３０にエンコードされた点群媒体５００を使用し得る、方法１００、１１００および１２００などの本明細書に説明した開示される実施形態を実装する。コーディングモジュール１０１４はまた、メカニズム８００、および本明細書に説明した任意の他の方法／メカニズムを実装してよい。さらに、コーディングモジュール１０１４は、コーデックシステム２００、エンコーダ３００、および／またはデコーダ４００を実装し得る。例えば、エンコーダでのコーディングモジュール１０１４は、ＰＣＣビットストリームでカメラオフセットおよび／またはカメラ回転をエンコードすることができる。さらに、デコーダでのコーディングモジュール１０１４は次に、カメラオフセットを使用してオフセット行列を生成し、および／またはカメラ回転を使用して回転行列を生成することができる。次に、デコーダは、オフセット行列および回転行列を再構成された点群を含むモデル行列に適用して、示された位置および角度からの点群フレームをレンダリングする。これにより、ユーザに対して再構成された点群を表示する１または複数の予め定義されたカメラ位置および角度を、エンコーダが指定する、およびデコーダが使用することが可能である。したがって、コーディングモジュール１０１４は、ビデオデータをコーディングするときに、ビデオコーディングデバイス１０００に追加の機能性および／またはコーディング効率を提供させる。このように、コーディングモジュール１０１４は、ビデオコーディングデバイス１０００の機能性を改善し、ビデオコーディング技術に特有の問題に対処する。さらに、コーディングモジュール１０１４は、ビデオコーディングデバイス１０００が異なる状態に変換することをもたらす。あるいは、コーディングモジュール１０１４は、（例えば、非一時的媒体に記憶されたコンピュータプログラム製品として）メモリ１０３２に記憶され、プロセッサ１０３０によって実行される命令として実装されることができる。

メモリ１０３２は、ディスク、テープドライブ、ソリッドステートドライブ、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、三値連想メモリ（ＴＣＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などの１または複数のメモリタイプを含む。メモリ１０３２は、オーバーフローデータ記憶装置として使用されて、そのようなプログラムが実行のために選択されたときにプログラムを記憶し、プログラム実行中に読み出される命令およびデータを記憶することができる。

図１１は、例えばメカニズム８００に基づいて、点群をレンダリングするためのカメラパラメータをシグナリングするために、Ｖ－ＰＣＣビットストリーム９００などのＶ－ＰＣＣビットストリームをエンコードする例示的な方法１１００を示すフローチャートである。方法１１００は、方法１００を実行するときに、コーデックシステム２００、エンコーダ３００、および／またはビデオコーディングデバイス１０００などのエンコーダによって使用され得る。このように、方法１１００は、パッチ６０３のセットに分離され、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０、および／または属性フレームにエンコードされた点群媒体５００で動作してもよい。

方法１１００は、コンテンツ制作者が、ＰＣＣメカニズムに従って３Ｄ点群としてビデオをエンコードすることを判断したときに開始されてもよい。例えば、エンコーダは、コンテンツ制作者からの入力に基づいて、複数のフレームに対してＰＣＣコンテンツをエンコードすることを開始してよい。段階１１０１において、エンコーダは、点群フレームを説明する複数の２Ｄパッチ、ジオメトリ、占有、および／または属性をエンコードする。エンコーダは、これらの項目をＶ－ＰＣＣビットストリーム９００（例えば、アトラスフレーム９１３、ジオメトリフレーム９１７、占有フレーム９１５および属性フレーム９１９）などのＰＣＣビットストリームにエンコードすることができる。そのようなデータは、デコーダでボリュメトリック／点群フレームを再構成するのに十分であり得る。例えば、占有を使用して、実際のビデオデータではないアトラスフレーム内の特定の圧縮関連コーディングアーチファクトを除去することができる。３Ｄ境界ボックス内の３Ｄ点群を再生成するために、ジオメトリをモデル行列に含めることができ、２Ｄパッチおよび／または属性をジオメトリに投影することができる。

段階１１０３において、エンコーダは、点群フレームに関するカメラの位置を説明するカメラオフセットを判断することができる。カメラオフセットは、ユーザ入力に基づいて判断することができる。例えば、コンテンツ制作者は、ビデオコンテンツの視聴者の視野を誘導するために、様々なカメラの１または複数の好ましい位置を示すことができる。カメラオフセットは、そのような好ましいカメラ位置を示し、点群がデコーダで再構成された後に（例えば、段階１１０１からのデータに基づいて）点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートするためにデコーダによって使用され得る。例えば、カメラオフセットは、Ｘ軸に対応する第１のオフセットと、Ｙ軸に対応する第２のオフセットと、Ｚ軸に対応する第３のオフセットとを示してよい。具体的な実装態様において、カメラオフセットは、アトラスＡＰＳ９２１におけるＡＣＰシンタックス構造内のＡｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３に含まれることができる。これによって、３Ｄ点群の２Ｄ視野をレンダリングするためのオフセット行列をデコーダが生成するのに十分な情報が提供される。一例において、オフセット行列は、４行４列で構成されている。第１のオフセット（例えば、Ｘ成分）を第１行第４列に配置し、第２のオフセット（例えば、Ｙ成分）を第２行第４列に配置し、第３のオフセット（例えば、Ｚ成分）を第３行第４列に配置することができる。一例において、このようなオフセット行列を以下のように表ことができる。

段階１１０５において、エンコーダは、点群フレームに関するカメラの視野ベクトルを説明するカメラ回転を判断することができる。カメラ回転をユーザ入力に基づいて判断することができる。例えば、コンテンツ制作者は、ビデオコンテンツの視聴者の視野を誘導するために、様々なカメラの１または複数の好ましい視野角を示すことができる。カメラ回転は、そのような好ましいカメラ視野を示し、点群がデコーダで再構成された後に（例えば、段階１１０１からのデータに基づいて）点群フレームのカメラ視野をレンダリングするための回転行列の生成をサポートするためにデコーダによって使用され得る。上述したように、視野角は、カメラに関連付けられた視野ポートを説明する平面から９０度の角度で延びる視野ベクトルによって説明され得る。このように、カメラ位置および視野角は、ユーザに対して選択された視野ポートの位置および向きを説明している。視野ベクトルは、四元数表現のカメラ回転として説明することができる。例えば、カメラ回転は、四元数表現を使用するカメラの回転のＸ成分、四元数表現を使用するカメラの回転のＹ成分、および四元数表現を使用するカメラの回転のＺ成分を指定する。カメラ回転はまた、Ｘ成分、Ｙ成分およびＺ成分から計算できるＷ成分を含む。例えば、Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））により計算することができ、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれＷ成分、Ｘ成分、Ｙ成分、Ｚ成分を表し、Ｓｑｒｔは平方根関数である。

具体的な実装態様では、カメラ回転のｑＸ成分、ｑＹ成分およびｑＺ成分は、アトラスＡＰＳ９２１におけるＡＣＰシンタックス構造内のａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７、およびａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９にそれぞれ含めることが可能である。また、ｑＷはコードせず、代わりに、上述したｑＸ成分、ｑＹ成分およびｑＺ成分に基づいてデコーダで計算されてもよい。これによって、３Ｄ点群の２Ｄ視野をレンダリングするための回転行列をデコーダが生成するのに十分な情報が提供される。一例において、回転行列は４行４列で構成され、以下のようにｑＷ成分、ｑＸ成分、ｑＹ成分およびｑＺ成分の様々な組み合わせを含むことができる。

このように、回転行列は、四元数表現を使用するカメラの回転のためのＸ成分、Ｙ成分、Ｚ成分およびＷ成分を含む。

段階１１０７において、エンコーダは、カメラオフセットおよびカメラ回転をＰＣＣビットストリームにエンコードする。また、段階１１０９において、ＰＣＣビットストリームを、デコーダに向けた通信のために記憶することができる。ＰＣＣビットストリームは、要求に応じて、長期記憶のためにコンテンツサーバに転送され、および／またはデコーダ／エンドユーザに伝送されてよい。このように、コンテンツ制作者は、デコーダでの再構成されたＶ－ＰＣＣコンテンツを視聴する際に視聴者の視点を誘導するために、Ｖ－ＰＣＣビットストリームでの１または複数のカメラ位置および視野角を選択し、エンコードすることができる。したがって、方法１１００は、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、方法１１００は、例えば、Ｖ－ＰＣＣビットストリームからｑＷを省略することによって、コーディング効率を高めるメカニズムをサポートする。したがって、方法１１００は、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリおよび／またはネットワークリソース使用量の減少をサポートする。

図１２は、シグナリングされたカメラパラメータに基づいて、例えば、メカニズム８００に基づいて、点群をレンダリングするために、Ｖ－ＰＣＣビットストリーム９００などのＶ－ＰＣＣビットストリームをデコードする例示的な方法のフローチャートである。方法１２００は、方法１００を実行するときに、コーデックシステム２００、デコーダ４００、および／またはビデオコーディングデバイス１０００などのデコーダによって使用され得る。このように、方法１２００は、パッチ６０３のセットに分離され、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０、および／または属性フレームにエンコードされた点群媒体５００で動作してもよい。

方法１２００は、例えば方法１１００の結果として、デコーダが点群のビデオシーケンスを表すコードされたデータのＶ－ＰＣＣビットストリームの受信を開始するときに開始することができる。段階１２０１において、デコーダは、ＰＣＣ成分を含むＰＣＣビットストリームを受信する。具体的には、ビットストリームは、アトラスフレームにおける複数の２Ｄパッチ、ジオメトリフレームにおけるジオメトリ、占有フレームにおける占有および／または属性フレームにおける属性を含んでよい。ビットストリームはまた、１または複数のカメラに対する１または複数のカメラオフセットおよび１または複数のカメラ回転を含んでよい。カメラオフセットおよびカメラ回転は、コンテンツ制作者によって示されたように、Ｖ－ＰＣＣコンテンツを視聴する視野ポートを定義する。

段階１２０３において、デコーダは、３Ｄ境界ボックスを表すモデル行列を初期化し、モデル行列におけるジオメトリを含め得る。次に、デコーダは、パッチをデコードし、３Ｄ境界ボックス／モデル行列における点にパッチを投影することによってパッチを３Ｄパッチ座標系に変換して、点群コンテンツの点群フレームを取得することができる。属性が存在する場合、属性をジオメトリに投影し、再構成された点群フレーム／ボリュメトリックフレームも生成し得る。

段階１２０５において、デコーダは、カメラに関するカメラオフセットに基づいてオフセット行列を判断することができる。例えば、カメラオフセットは、Ｘ軸に対応する第１のオフセットと、Ｙ軸に対応する第２のオフセットと、Ｚ軸に対応する第３のオフセットとを示してよい。このようなオフセットは、カメラ位置と３Ｄ境界ボックスの所定点（３Ｄ境界ボックスの底部、左側、角付近など）との間の各軸の変位を示す。具体的な実装態様において、カメラオフセットは、アトラスＡＰＳ９２１におけるＡＣＰシンタックス構造内のＡｃｐ＿ｏｆｆｓｅｔ＿ｏｎ＿ａｘｉｓ［ｄ］９３３に含まれることができる。これによって、３Ｄ点群の２Ｄ視野をレンダリングするためのオフセット行列をデコーダが生成／判断するのに十分な情報が提供される。一例において、オフセット行列は、４行４列で構成されている。第１のオフセット（例えば、Ｘ成分）を第１行第４列に配置し、第２のオフセット（例えば、Ｙ成分）を第２行第４列に配置し、第３のオフセット（例えば、Ｚ成分）を第３行第４列に配置することができる。一例において、このようなオフセット行列を以下のように表ことができる。

段階１２０７において、デコーダは、カメラに関するカメラ回転に基づいて回転行列を判断することができる。上述したように、カメラの視野角は、カメラに関連付けられた視野ポートを説明する平面から９０度の角度で延びる視野ベクトルによって説明され得る。このように、カメラ位置および視野角は、ユーザに対してコンテンツ制作者によって選択された視野ポートの位置および向きを説明している。視野ベクトルは、四元数表現でのカメラ回転として説明することができる。例えば、カメラ回転は、四元数表現を使用するカメラの回転のＸ成分、四元数表現を使用するカメラの回転のＹ成分、および四元数表現を使用するカメラの回転のＺ成分を指定してよい。カメラ回転はまた、Ｘ成分、Ｙ成分およびＺ成分から計算できるＷ成分を含む。例えば、Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ２＋ｑＹ２＋ｑＺ２））により計算することができ、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれＷ成分、Ｘ成分、Ｙ成分、Ｚ成分を示し、Ｓｑｒｔは平方根関数である。

具体的な実装態様では、カメラ回転のｑＸ成分、ｑＹ成分およびｑＺ成分は、アトラスＡＰＳ９２１におけるＡＣＰシンタックス構造内のａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｘ９３５、ａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｙ９３７、およびａｃｐ＿ｒｏｔａｔｉｏｎ＿ｑｚ９３９にそれぞれ含めることが可能である。また、ｑＷはコードせず、代わりに、上述したｑＸ成分、ｑＹ成分およびｑＺ成分に基づいてデコーダで計算されてもよい。デコーダは、Ｖ－ＰＣＣビットストリームからｑＸ成分、ｑＹ成分およびｑＺ成分を取得し、ｑＸ成分、ｑＹ成分およびｑＺ成分に基づいてｑＷ成分を計算することができる。次に、デコーダは、ｑＷ成分、ｑＸ成分、ｑＹ成分およびｑＺ成分に基づいて、段階１２０７において回転行列を生成することができる。一例において、回転行列は４行４列で構成されており、以下のようにｑＷ成分、ｑＸ成分、ｑＹ成分およびｑＺ成分の様々な組み合わせを含むことができる。

次に、デコーダは、カメラによって定義された視野ポートを使用して３Ｄ点群の２Ｄ視野をレンダリングすることができる。段階１２０９において、デコーダは、オフセット行列および回転行列を適用して、例えば行列乗算を介して、モデル行列における点／データを変換することができる。このように、デコーダは、オフセット行列および回転行列を点群コンテンツに適用することによって、３Ｄ点群の２Ｄ視野をレンダリングすることができる。このアプローチは、３Ｄ座標系からのデータを、フラットスクリーン上に表示され得る２Ｄ座標系に変換する。このように、このアプローチにより、コンテンツ制作者によって定義された視野ポートの視点からの３Ｄコンテンツの視野が得られる。次に、レンダリングされた点群コンテンツは、段階１２１１において、ディスプレイに転送される。したがって、方法１２００は、ＰＣＣビデオコンテンツの所定のかつ選択可能な視野位置および角度を生成することで、エンコーダおよびデコーダの双方で機能性を向上させることができる。さらに、方法１２００は、例えば、Ｖ－ＰＣＣビットストリームからｑＷを省略することによって、コーディング効率を高めるメカニズムをサポートする。したがって、方法１２００は、エンコーダおよび／またはデコーダにおけるプロセッサ、メモリおよび／またはネットワークリソース使用量の減少をサポートする。

図１３は、例えば、メカニズム８００に従って点群をレンダリングするための、例えば、Ｖ－ＰＣＣビットストリーム９００におけるカメラパラメータをシグナリングするための例示的なシステムの概略図である。システム１３００は、コーデックシステム２００、エンコーダ３００、デコーダ４００、および／またはビデオコーディングデバイス１０００などのエンコーダおよびデコーダによって実装され得る。このように、システム１３００は、パッチ６０３のセットに分離され、占有フレーム７１０、ジオメトリフレーム７２０、アトラスフレーム７３０、および／または属性フレームにエンコードされた点群媒体５００で動作してもよい。さらに、システム１３００は、方法１００、１１００および／または１２００を実装するときに使用され得る。

システム１３００は、ビデオエンコーダ１３０２を含む。ビデオエンコーダ１３０２は、点群フレームに関するカメラの位置を説明するカメラオフセットを判断して、点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートするための判断モジュール１３０３を含む。ビデオエンコーダ１３０２はさらに、複数の２Ｄパッチ、および点群フレームをＰＣＣビットストリームに説明するジオメトリをエンコードするためのエンコーディングモジュール１３０５を含む。エンコーディングモジュール１３０５はさらに、カメラオフセットをＰＣＣビットストリームにエンコードするためのものである。ビデオエンコーダ１３０２はさらに、デコーダに向けて通信するためにビットストリームを記憶するための記憶モジュール１３０６を備える。ビデオエンコーダ１３０２はさらに、ビットストリームをビデオデコーダ１３１０に向けて送信するための送信モジュール１３０７を備える。ビデオエンコーダ１３０２はさらに、方法１１００の段階のうちのいずれかを実行するように構成され得る。

システム１３００はまた、ビデオデコーダ１３１０を含む。ビデオデコーダ１３１０は、アトラスフレームにおける複数の２Ｄパッチおよびカメラのカメラオフセットを含むビットストリームを受信するための受信モジュール１３１１を含む。ビデオデコーダ１３１０はさらに、パッチをデコードするためのデコードモジュール１３１３を含む。ビデオデコーダ１３１０はさらに、３Ｄ境界ボックスでの投影を介して、パッチを３Ｄパッチ座標系に変換して、点群フレームを取得する変換モジュール１３１５を含む。ビデオデコーダ１３１０はさらに、カメラオフセットに基づいてオフセット行列を判断する判断モジュール１３１７を含む。ビデオデコーダ１３１０はさらに、オフセット行列を点群フレームに適用するための適用モジュール１３１８を含む。ビデオデコーダ１３１０はさらに、表示するための点群フレームを転送する転送モジュール１３１９を含む。ビデオデコーダ１３１０はさらに、方法１２００の段階のうちのいずれかを実行するように構成され得る。

第１のコンポーネントと第２のコンポーネントとの間にライン、トレース、または別の媒体を除いて、介在する成分がない場合、第１のコンポーネントは第２のコンポーネントに直接結合される。第１のコンポーネントと第２のコンポーネントとの間にライン、トレース、または別の媒体以外の介在する成分がある場合、第１のコンポーネントは第２のコンポーネントに間接的に結合される。「結合された」という用語およびその変形は、直接結合されたものおよび間接的に結合されたものの両方を含む。「約」という用語の使用は、特に明記しない限り、後続の数の±１０％を含む範囲を意味する。

本明細書に記載される例示的な方法の段階は、必ずしも記載された順序で実行される必要はなく、かかる方法の段階の順序は単なる例示であると理解されるべきであることも理解されるべきである。同様に、本開示の様々な実施形態と一致する方法では、そのような方法に追加の段階を含めることができ、特定の段階を省略または組み合わせることができる。

本開示ではいくつかの実施形態が提供されたが、開示されたシステムおよび方法は、本開示の趣旨または範囲から逸脱することなく、多くの他の特定の形態で具現化され得ることが理解されよう。本実施例は、例示的であり、限定的ではないと考えられるべきであり、その意図は本明細書に与えられた詳細に限定されるべきではない。例えば、様々な要素またはコンポーネントは、別のシステムに組み合わされ、もしくは統合されてもよく、または特定の特徴は、省略され、もしくは実装されなくてもよい。

加えて、本開示の範囲から逸脱することなく、様々な実施形態において個別のまたは別個のものとして説明および図示された技術、システム、サブシステム、および方法は、他のシステム、コンポーネント、技術、または方法と組み合わされても、または統合されてもよい。変更、置換、および代替の他の例は、当業者によって確認可能であり、本明細書に開示される精神および範囲から逸脱することなく行われ得る。
［他の可能な項目］
［項目１］
デコーダによって実装される方法であって、前記方法は、
前記デコーダの受信機によって、アトラスフレーム内の複数のパッチとカメラのためのカメラオフセットとを含むビットストリームを受信する段階と、
前記デコーダのプロセッサによって、前記アトラスフレーム内の前記複数のパッチをデコードする段階と、
前記プロセッサによって、前記複数のパッチを３次元（３Ｄ）パッチ座標系に変換して点群コンテンツを取得する段階と、
前記プロセッサによって、前記カメラオフセットに基づくオフセット行列を判断する段階と、
前記プロセッサによって、前記オフセット行列を前記点群コンテンツに適用する段階と
を備える、方法。
［項目２］
前記カメラオフセットは、Ｘ軸に対応する第１のオフセット、Ｙ軸に対応する第２のオフセット、およびＺ軸に対応する第３のオフセットを示す、項目１に記載の方法。
［項目３］
前記オフセット行列は、４行４列を含み、前記第１のオフセットが第１行第４列に配置され、前記第２のオフセットが第２行第４列に配置され、前記第３のオフセットが第３行第４列に配置される、項目１または２に記載の方法。
［項目４］
前記ビットストリームは、前記カメラに対するカメラ回転をさらに含み、前記方法は、
前記プロセッサによって、前記カメラ回転に基づく回転行列を判断する段階と、
前記プロセッサによって、前記回転行列を前記点群コンテンツに適用する段階と
をさらに備える、項目１から３のいずれか一項に記載の方法。
［項目５］
前記カメラ回転は、四元数表現を使用する前記カメラの回転に対するＸ成分、四元数表現を使用する前記カメラの前記回転に対するＹ成分、および四元数表現を使用する前記カメラの前記回転に対するＺ成分を指定する、項目１から４のいずれか一項に記載の方法。
［項目６］
前記回転行列は、四元数表現を使用する前記カメラの前記回転に対する前記Ｘ成分、前記Ｙ成分、前記Ｚ成分、およびＷ成分を含む、項目１から５のいずれか一項に記載の方法。
［項目７］
前記Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））によって計算され、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれ、前記Ｗ成分、前記Ｘ成分、前記Ｙ成分および前記Ｚ成分を表し、Ｓｑｒｔは平方根関数である、項目１から６のいずれか一項に記載の方法。
［項目８］
前記アトラスフレーム内の前記複数のパッチは２次元（２Ｄ）パッチである、項目１から７のいずれか一項に記載の方法。
［項目９］
エンコーダによって実装される方法であって、前記方法は、
プロセッサによって、複数の２次元（２Ｄ）パッチと、点群フレームを説明するジオメトリとを点群コーディング（ＰＣＣ）ビットストリームにエンコードする段階と、
前記プロセッサによって、前記点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする段階と、
前記プロセッサによって、カメラオフセットを前記ＰＣＣビットストリームにエンコードする段階と、
前記エンコーダのメモリによって、デコーダへの通信のために前記ＰＣＣビットストリームを記憶する段階と
を備える、方法。
［項目１０］
前記カメラオフセットは、Ｘ軸に対応する第１のオフセット、Ｙ軸に対応する第２のオフセット、およびＺ軸に対応する第３のオフセットを示す、項目９に記載の方法。
［項目１１］
前記オフセット行列は、４行４列を含み、前記第１のオフセットが第１行第４列に配置され、前記第２のオフセットが第２行第４列に配置され、前記第３のオフセットが第３行第４列に配置される、項目９または１０に記載の方法。
［項目１２］
前記プロセッサによって、前記点群フレームに対する前記カメラのための視野ベクトルを説明するカメラ回転を判断して、前記点群フレームの前記カメラ視野をレンダリングするための回転行列の生成をサポートする段階と、
前記プロセッサによって、前記カメラ回転を前記ＰＣＣビットストリームにエンコードする段階と
をさらに備える、項目９から１１のいずれか一項に記載の方法。
［項目１３］
前記カメラ回転は、四元数表現を使用する前記カメラの回転に対するＸ成分、四元数表現を使用する前記カメラの前記回転に対するＹ成分、および四元数表現を使用する前記カメラの前記回転に対するＺ成分を指定する、項目９から１２のいずれか一項に記載の方法。
［項目１４］
前記回転行列は、四元数表現を使用する前記カメラの前記回転に対する前記Ｘ成分、前記Ｙ成分、前記Ｚ成分、およびＷ成分を含む、項目９から１３のいずれか一項に記載の方法。
［項目１５］
前記Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））によって計算され、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれ、前記Ｗ成分、前記Ｘ成分、前記Ｙ成分および前記Ｚ成分を表し、Ｓｑｒｔは平方根関数である、項目９から１４のいずれか一項に記載の方法。
［項目１６］
ビデオコーディングデバイスであって、
プロセッサと、前記プロセッサに結合された受信機と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信機とを備え、前記プロセッサ、前記受信機、前記メモリ、および前記送信機は、項目１から１５のいずれか一項に記載の方法を実行するように構成されている、ビデオコーディングデバイス。
［項目１７］
ビデオコーディングデバイスによって用いるためのコンピュータプログラム製品を含む非一時的コンピュータ可読媒体であって、前記コンピュータプログラム製品は、プロセッサによって実行されたとき、項目１から１５のいずれか一項に記載の方法を前記ビデオコーディングデバイスに実行させるように、前記非一時的コンピュータ可読媒体に記憶された前記コンピュータ実施可能な命令を含む、非一時的コンピュータ可読媒体。
［項目１８］
アトラスフレーム内の複数の２次元（２Ｄ）パッチと、カメラのためのカメラオフセットとを含むビットストリームを受信する受信手段と、
前記複数のパッチをデコードするデコード手段と、
前記複数のパッチを３次元（３Ｄ）パッチ座標系に変換して点群フレームを取得する変換手段と、
前記カメラオフセットに基づいてオフセット行列を判断する判断手段と、
前記オフセット行列を前記点群フレームに適用する適用手段と
を備える、デコーダ。
［項目１９］
前記デコーダはさらに、項目１から８のいずれか一項に記載の方法を実行するように構成されている、項目１８に記載のデコーダ。
［項目２０］
点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする判断手段と、
複数の２次元（２Ｄ）パッチと点群フレームを説明するジオメトリを点群コーディング（ＰＣＣ）ビットストリームにエンコードすることと、
前記カメラオフセットを前記ＰＣＣビットストリームにエンコードすることと
を実行するエンコード手段と、
デコーダへの通信のために前記ビットストリームを記憶する記憶手段と
を備える、エンコーダ。
［項目２１］
前記エンコーダはさらに、項目９から１５のいずれか一項に記載の方法を実行するように構成されている、項目２０に記載のエンコーダ。

Claims

デコーダによって実装される方法であって、前記方法は、
前記デコーダの受信機によって、アトラスフレーム内の複数のパッチとカメラのためのカメラオフセットとを含むビットストリームを受信する段階と、
前記デコーダのプロセッサによって、前記アトラスフレーム内の前記複数のパッチをデコードする段階と、
前記プロセッサによって、前記複数のパッチを３次元（３Ｄ）パッチ座標系に変換して点群コンテンツを取得する段階と、
前記プロセッサによって、前記カメラオフセットに基づくオフセット行列を判断する段階と、
前記プロセッサによって、前記オフセット行列を前記点群コンテンツに適用する段階と
を備える、方法。
前記カメラオフセットは、Ｘ軸に対応する第１のオフセット、Ｙ軸に対応する第２のオフセット、およびＺ軸に対応する第３のオフセットを示す、請求項１に記載の方法。
前記オフセット行列は、４行４列を含み、前記第１のオフセットが第１行第４列に配置され、前記第２のオフセットが第２行第４列に配置され、前記第３のオフセットが第３行第４列に配置される、請求項２に記載の方法。
前記ビットストリームは、前記カメラに対するカメラ回転をさらに含み、前記方法は、
前記プロセッサによって、前記カメラ回転に基づく回転行列を判断する段階と、
前記プロセッサによって、前記回転行列を前記点群コンテンツに適用する段階と
をさらに備える、請求項１から３のいずれか一項に記載の方法。
前記カメラ回転は、四元数表現を使用する前記カメラの回転に対するＸ成分、四元数表現を使用する前記カメラの前記回転に対するＹ成分、および四元数表現を使用する前記カメラの前記回転に対するＺ成分を指定する、請求項４に記載の方法。
前記回転行列は、四元数表現を使用する前記カメラの前記回転に対する前記Ｘ成分、前記Ｙ成分、前記Ｚ成分、およびＷ成分を含む、請求項５に記載の方法。
前記Ｗ成分は、ｑＷ＝Ｓｑｒｔ（１－（ｑＸ^２＋ｑＹ^２＋ｑＺ^２））によって計算され、ｑＷ、ｑＸ、ｑＹおよびｑＺはそれぞれ、前記Ｗ成分、前記Ｘ成分、前記Ｙ成分および前記Ｚ成分を表し、Ｓｑｒｔは平方根関数である、請求項６に記載の方法。
前記アトラスフレーム内の前記複数のパッチは複数の２次元（２Ｄ）パッチである、請求項１から７のいずれか一項に記載の方法。
エンコーダによって実装される方法であって、前記方法は、
プロセッサによって、複数の２次元（２Ｄ）パッチと、点群フレームを説明するジオメトリとを点群コーディング（ＰＣＣ）ビットストリームにエンコードする段階と、
前記プロセッサによって、前記点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする段階と、
前記プロセッサによって、前記カメラオフセットを前記ＰＣＣビットストリームにエンコードする段階と、
前記エンコーダのメモリによって、デコーダへの通信のために前記ＰＣＣビットストリームを記憶する段階と
を備える、方法。
前記カメラオフセットは、Ｘ軸に対応する第１のオフセット、Ｙ軸に対応する第２のオフセット、およびＺ軸に対応する第３のオフセットを示す、請求項９に記載の方法。
前記オフセット行列は、４行４列を含み、前記第１のオフセットが第１行第４列に配置され、前記第２のオフセットが第２行第４列に配置され、前記第３のオフセットが第３行第４列に配置される、請求項１０に記載の方法。
前記プロセッサによって、前記点群フレームに対する前記カメラのための視野ベクトルを説明するカメラ回転を判断して、前記点群フレームの前記カメラ視野をレンダリングするための回転行列の生成をサポートする段階と、
前記プロセッサによって、前記カメラ回転を前記ＰＣＣビットストリームにエンコードする段階と
をさらに備える、請求項９から１１のいずれか一項に記載の方法。
前記カメラ回転は、四元数表現を使用する前記カメラの回転に対するＸ成分、四元数表現を使用する前記カメラの前記回転に対するＹ成分、および四元数表現を使用する前記カメラの前記回転に対するＺ成分を指定する、請求項１２に記載の方法。
前記回転行列は、四元数表現を使用する前記カメラの前記回転に対する前記Ｘ成分、前記Ｙ成分、前記Ｚ成分、およびＷ成分を含む、請求項１３に記載の方法。
ビデオコーディングデバイスであって、
プロセッサと、前記プロセッサに結合された受信機と、前記プロセッサに結合されたメモリと、前記プロセッサに結合された送信機とを備え、前記プロセッサ、前記受信機、前記メモリ、および前記送信機は、請求項１から１４のいずれか一項に記載の方法を実行するように構成されている、ビデオコーディングデバイス。
ビデオコーディングデバイスに、請求項１から１４のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
アトラスフレーム内の複数の２次元（２Ｄ）パッチと、カメラのためのカメラオフセットとを含むビットストリームを受信する受信手段と、
前記複数の２Ｄパッチをデコードするデコード手段と、
前記複数の２Ｄパッチを３次元（３Ｄ）パッチ座標系に変換して点群フレームを取得する変換手段と、
前記カメラオフセットに基づいてオフセット行列を判断する判断手段と、
前記オフセット行列を前記点群フレームに適用する適用手段と
を備える、デコーダ。
前記デコーダはさらに、請求項１から８のいずれか一項に記載の方法を実行するように構成されている、請求項１７に記載のデコーダ。
点群フレームに対するカメラの位置を説明するカメラオフセットを判断して、前記点群フレームのカメラ視野をレンダリングするためのオフセット行列の生成をサポートする判断手段と、
複数の２次元（２Ｄ）パッチと点群フレームを説明するジオメトリを点群コーディング（ＰＣＣ）ビットストリームにエンコードすることと、
前記カメラオフセットを前記ＰＣＣビットストリームにエンコードすることと
を実行するエンコード手段と、
デコーダへの通信のために前記ビットストリームを記憶する記憶手段と
を備える、エンコーダ。
前記エンコーダはさらに、請求項９から１４のいずれか一項に記載の方法を実行するように構成されている、請求項１９に記載のエンコーダ。