JP7383171B2

JP7383171B2 - 点群コーディングのための方法および装置

Info

Publication number: JP7383171B2
Application number: JP2022552148A
Authority: JP
Inventors: ガオ，ウェン; ジャン，シァン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-04
Filing date: 2021-09-22
Publication date: 2023-11-17
Anticipated expiration: 2041-09-22
Also published as: EP4066161A4; JP2023515602A; WO2022119616A1; EP4066161A1; CN115176279A; US20220180567A1; KR102650334B1; KR20220113783A

Description

［参照による援用］
本出願は、２０２１年９月３日に出願された米国特許出願第１７／４６６，７２９号「METHOD AND APPARATUS FOR POINT CLOUD CODING」に対する優先権の利益を主張し、これは、２０２０年１２月４日に出願された米国仮出願第６３／１２１，８３５号「UPDATE ON NODE-BASED GEOMETRY AND ATTRIBUTE CODING FOR A POINT CLOUD」に対する優先権の利益を主張するものである。先行出願の開示内容は、その全体が参照により本明細書に組み込まれる。

［技術分野］
本開示は一般に、点群のためのノードベースのジオメトリおよび属性コーディングを含む、点群コーディングに関連する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としたものである。現在挙げられている発明者らの研究は、その研究がこの背景技術のセクションに記載されている限りにおいて、出願時に従来技術として適格でない可能性がある説明の態様と同様に、本開示に対する従来技術として明示的にも暗示的にも認められるものではない。

３次元（３Ｄ）空間世界において、世界中の物体、世界中の環境などの世界をキャプチャして表現するための様々な技術が開発されている。世界の３Ｄ表現により、より没入型の対話およびコミュニケーションが可能になる。点群は、世界の３Ｄ表現として使用され得る。点群は、３Ｄ空間における点の集合であり、各々が、関連する属性、例えば、色、材料特性、テクスチャ情報、強度属性、反射率属性、動き関連属性、モダリティ属性、および／または様々な他の属性を有する。そのような点群は、大量のデータを含み得、記憶および送信に費用と時間がかかり得る。

本開示の態様は、点群の圧縮および復元のための方法および装置を提供する。本開示の一態様によれば、点群エンコーダにおける点群ジオメトリ符号化の方法が提供される。この方法では、第１の区分深度において点群に対してジオメトリコーディングが実行され得る。さらに、第２の区分深度において点群の複数の最大コーディング単位（ＬＣＵ）が決定され得る。第２の区分深度において点群の複数のＬＣＵのうちのＬＣＵのコーディング状態が設定され得る。第２の区分深度におけるＬＣＵのコーディング状態に基づいて、第２の区分深度において点群の複数のＬＣＵに対してジオメトリコーディングが実行され得る。

いくつかの実施形態では、ジオメトリコーディングは、八分木ベースのジオメトリコーディングおよび予測ツリーベースのコーディングのうちの１つを含むことができる。

一実施形態では、ＬＣＵのコーディング状態は、点群の初期状態を用いて設定され得、ここで、点群の初期状態は、ジオメトリコーディングに基づいて点群がコーディングされる前に取得され得る。

別の実施形態では、ＬＣＵが第２の区分深度における点群の複数のＬＣＵのうちの第１のＬＣＵであるとき、コーディング状態は、点群が第１の区分深度におけるジオメトリコーディングに基づいてコーディングされた後に取得され、記憶され得る。

さらに別の実施形態では、ＬＣＵが第２の区分深度における点群の複数のＬＣＵのうちの第１のＬＣＵでないとき、ＬＣＵのコーディング状態は、記憶されたコーディング状態を用いて設定され得る。記憶されたコーディング状態は、（ｉ）点群が第１の区分深度におけるジオメトリコーディングに基づいてコーディングされた後に取得されるか、または（ｉｉ）点群の複数のＬＣＵのうちの第１のＬＣＵが第２の区分深度におけるジオメトリコーディングに基づいてコーディングされる前に記憶され得る。

いくつかの実施形態では、コーディング状態は、ＬＣＵに関連付けられたエントロピーコーディングのためのコンテキストまたはＬＣＵに関連付けられたジオメトリ占有履歴情報のうちの少なくとも１つを含むことができる。

いくつかの実施形態では、複数のＬＣＵの各々は、第２の区分深度においてそれぞれのノードを含むことができる。

本開示の別の態様によれば、点群エンコーダにおける点群ジオメトリ符号化の方法が提供される。この方法では、点群の最大コーディング単位（ＬＣＵ）の密度が決定され得る。ＬＣＵの密度は、ＬＣＵ内の点の数とＬＣＵのボリュームの比であり得る。ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度と第１の閾値とに基づいて決定され得る。ジオメトリコーディングモード情報は、ビットストリームでさらにシグナリングされ得、ここで、ジオメトリコーディングモード情報は、ＬＣＵの密度と第１の閾値とに基づくＬＣＵの決定されたジオメトリコーディングモードを示すことができる。

一例では、ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度が第１の閾値以下であることに基づいて、予測ツリージオメトリコーディングとして決定され得る。別の例では、ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度が第１の閾値よりも大きいことに基づいて、八分木ベースのジオメトリコーディングとして決定され得る。

一例では、ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度が第１の閾値以上第２の閾値以下であることに基づいて、予測ツリージオメトリコーディングとして決定され得、ここで、第２の閾値は第１の閾値よりも大きいとする。さらに別の例では、ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度が第１の閾値よりも小さいかまたは第２の閾値よりも大きいかのいずれかであることに基づいて、八分木ベースのジオメトリコーディングとして決定され得る。

一例では、ＬＣＵのジオメトリコーディングモードは、（ｉ）ＬＣＵの密度が第１の閾値以上第２の閾値以下であり、かつ、（ｉｉ）ＬＣＵ内の点の数が点数閾値以上であることに基づいて、予測ツリージオメトリコーディングとして決定され得る。別の例では、ＬＣＵのジオメトリコーディングモードは、（ｉ）ＬＣＵの密度が第１の閾値よりも小さいかまたは第２の閾値よりも大きいかのいずれかであること、および（ｉｉ）ＬＣＵ内の点の数が点数閾値よりも小さいことのうちの１つに基づいて、八分木ベースのジオメトリコーディングとして決定され得る。

いくつかの実施形態では、ジオメトリコーディングモード情報は、ジオメトリコーディングモードが第１のジオメトリコーディングモードであることに基づいて、第１の値を用いてシグナリングされ得る。ジオメトリコーディングモード情報は、ジオメトリコーディングモードが第２のジオメトリコーディングモードであることに基づいて、第２の値を用いてシグナリングされ得る。

この方法では、ジオメトリコーディングモード情報は、コンテキストでエントロピーコーディングされ得るか、またはバイパスコーディングでコーディングされ得る。

一実施形態では、ジオメトリコーディングモード情報は、ジオメトリコーディングモードが第１のジオメトリコーディングモードであることに基づいて、第１の値を用いてシグナリングされ得る。別の実施形態では、ジオメトリコーディングモード情報は、ジオメトリコーディングモードが第２のジオメトリコーディングモードであることに基づいて、第２の値を用いてシグナリングされ得る。さらに別の例では、ジオメトリコーディングモード情報は、ジオメトリコーディングモードが第３のジオメトリコーディングモードであることに基づいて、第３の値を用いてシグナリングされ得る。

いくつかの実施形態では、二値化情報は、第１のビンのみにおける第１の値を用いてシグナリングされ得、ここで、第１の値を有する二値化情報は、第１のジオメトリコーディングモードを示し得る。いくつかの実施形態では、二値化情報は、第１のビンにおける第２の値および後続の第２のビンにおける第１の値を用いてシグナリングされ得、ここで、第１のビンにおける第２の値および第２のビンにおける第１の値を有する二値化情報は、第２のジオメトリコーディングモードを示し得る。いくつかの実施形態では、二値化情報は、第１のビンにおける第２の値および第２のビンにおける第２の値を用いてシグナリングされ得、ここで、第１のビンおよび第２のビンにおける第２の値を有する二値化情報は、第３のジオメトリコーディングモードを示し得る。

いくつかの実施形態では、第１のビンにおける二値化情報は第１のコンテキストでエントロピーコーディングされ得、第２のビンにおける二値化情報は第２のコンテキストでエントロピーコーディングされ得る。

いくつかの例では、点群データを処理するための装置は、上述した方法のうちの１つまたは複数を実行するように構成された処理回路を含む。例えば、装置は、第１の区分深度において点群に対してジオメトリコーディングを実行するように構成された処理回路を含むことができる。処理回路はまた、第２の区分深度において点群の複数の最大コーディング単位（ＬＣＵ）を決定するように構成され得る。処理回路は、第２の区分深度において点群の複数のＬＣＵのうちのＬＣＵのコーディング状態を設定するように構成され得る。処理回路は、第２の区分深度におけるＬＣＵのコーディング状態に基づいて、第２の区分深度において点群の複数のＬＣＵに対してジオメトリコーディングを実行するように構成され得る。

別の例では、処理回路は、点群の最大コーディング単位（ＬＣＵ）の密度を決定するように構成され得る。ＬＣＵの密度は、ＬＣＵ内の点の数とＬＣＵのボリュームの比であり得る。処理回路は、ＬＣＵの密度と第１の閾値とに基づいてＬＣＵのジオメトリコーディングモードを決定するように構成され得る。処理回路は、ビットストリームでジオメトリコーディングモード情報をシグナリングするようにさらに構成され得、ここで、ジオメトリコーディングモード情報は、ＬＣＵの密度と第１の閾値とに基づくＬＣＵの決定されたジオメトリコーディングモードを示すことができる。

本開示のさらに別の態様によれば、非一時的コンピュータ可読記憶媒体が提供される。非一時的コンピュータ可読記憶媒体は、少なくとも１つのプロセッサによって実行されたときに、少なくとも１つのプロセッサに、上述した方法のうちの１つまたは複数を実行させる命令を記憶する。例えば、この方法では、第１の区分深度において点群に対してジオメトリコーディングが実行され得る。さらに、第２の区分深度において点群の複数の最大コーディング単位（ＬＣＵ）が決定され得る。第２の区分深度において点群の複数のＬＣＵのうちのＬＣＵのコーディング状態が設定され得る。第２の区分深度におけるＬＣＵのコーディング状態に基づいて、第２の区分深度において点群の複数のＬＣＵに対してジオメトリコーディングが実行され得る。

別の例では、この方法において、点群の最大コーディング単位（ＬＣＵ）の密度が決定され得る。ＬＣＵの密度は、ＬＣＵ内の点の数とＬＣＵのボリュームの比であり得る。ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度と第１の閾値とに基づいて決定され得る。ジオメトリコーディングモード情報は、ビットストリームでさらにシグナリングされ得、ここで、ジオメトリコーディングモード情報は、ＬＣＵの密度と第１の閾値とに基づくＬＣＵの決定されたジオメトリコーディングモードを示すことができる。

開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
一実施形態による通信システムの簡略化されたブロック図の概略図である。一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。いくつかの実施形態による、点群フレームを符号化するためのエンコーダのブロック図を示す。いくつかの実施形態による、点群フレームに対応する圧縮ビットストリームを復号するためのデコーダのブロック図を示す。いくつかの実施形態による、点群フレームを符号化するためのエンコーダのブロック図を示す。いくつかの実施形態による、点群フレームに対応する圧縮ビットストリームを復号するためのデコーダのブロック図を示す。本開示のいくつかの実施形態による、八分木区分技法に基づく立方体の区分を示す図を示す。本開示のいくつかの実施形態による、ｘ－ｙ軸、ｘ－ｚ軸、およびｙ－ｚ軸に沿った四分木区分技法に基づく立方体の区分を示す図を示す。本開示のいくつかの実施形態による、ｘ軸、ｙ軸、およびｚ軸に沿った二分木区分技法に基づく立方体の区分を示す図を示す。本開示のいくつかの実施形態による、八分木区分技法における幅優先走査順序（breadth-first traversal order）を示す図を示す。本開示のいくつかの実施形態による、八分木区分技法における深度優先走査順序（depth-first traversal order）を示す図を示す。本開示のいくつかの実施形態による、予測ツリーベースのジオメトリコーディングの概略図である。いくつかの実施形態による、リフティングベースの属性コーディングにおける順方向変換のブロック図を示す。いくつかの実施形態による、リフティングベースの属性コーディングにおける逆方向変換のブロック図を示す。本開示のいくつかの実施形態による、領域適応型階層的変換（ＲＡＨＴ）ベースの属性コーディングにおける順方向変換の図を示す。本開示のいくつかの実施形態による、領域適応型階層的変換（ＲＡＨＴ）ベースの属性コーディングにおける逆方向変換の図を示す。本開示のいくつかの実施形態による、八分木区分および八分木区分に対応する八分木構造の一例を示す。本開示のいくつかの実施形態による、ノードベースの（ＬＣＵベースの）ジオメトリおよび属性コーディングの図を示す。本開示のいくつかの実施形態による、並列ノードベース（ＬＣＵベース）のコーディングを概説するフローチャートを示す。いくつかの実施形態による、第１の例示的な復号プロセスを概説するフローチャートを示す。いくつかの実施形態による、第２の例示的な復号プロセスを概説するフローチャートを示す。一実施形態によるコンピュータシステムの概略図である。

点群は、近年、より広く使用されるようになってきた。例えば、点群は、物体検出および位置特定のために自律走行車両で使用され得る。点群はまた、地図作製のために地理情報システム（ＧＩＳ）で使用され、文化財およびコレクションなどを視覚化およびアーカイブするために文化遺産で使用され得る。

点群は、典型的には３次元（３Ｄ）の高次元点の集合を含むことができる。高次元点の各々が、３Ｄ位置情報と、色、反射率などの追加属性とを含むことができる。高次元点は、様々なセットアップにおいて、複数のカメラおよび深度センサ、またはライダーを使用してキャプチャされ得、元のシーンを写実的に表現するために数千から数十億の点で形成され得る。

したがって、より高速な送信またはストレージの低減のために、点群を表すのに必要とされるデータの量を低減する圧縮技術が必要とされる。ＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、静的または動的な点群のための圧縮技術を標準化するためにアドホックグループ（ＭＰＥＧ－ＰＣＣ）を作成した。加えて、中国のオーディオビデオコーディング規格ワークグループもまた、点群の圧縮を標準化するためにアドホックグループ（ＡＶＳ－ＰＣＣ）を作成した。

図１は、本開示の一実施形態による通信システム（１００）の簡略化されたブロック図を示す。通信システム（１００）は、例えば、ネットワーク（１５０）を介して互いに通信可能な複数の端末デバイスを含む。例えば、通信システム（１００）は、ネットワーク（１５０）を介して相互接続された一対の端末デバイス（１１０）および（１２０）を含む。図１の例では、第１の対の端末デバイス（１１０）および（１２０）は、点群データの単方向送信を実行し得る。例えば、端末デバイス（１１０）は、端末デバイス（１１０）に接続されたセンサ（１０５）によってキャプチャされた点群（例えば、構造を表す点）を圧縮し得る。圧縮された点群は、例えばビットストリームの形態で、ネットワーク（１５０）を介して他方の端末デバイス（１２０）に送信され得る。端末デバイス（１２０）は、ネットワーク（１５０）から圧縮された点群を受信し、ビットストリームを復元して点群を再構成し、再構成された点群を適切に表示し得る。単方向データ送信は、メディアサービングアプリケーションなどでは一般的であり得る。

図１の例では、端末デバイス（１１０）および（１２０）は、サーバおよびパーソナルコンピュータとして示され得るが、本開示の原理はそのように限定されないであろう。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲーム端末、メディアプレーヤ、および／または専用の３次元（３Ｄ）機器に応用される。ネットワーク（１５０）は、圧縮された点群を端末デバイス（１１０）と端末デバイス（１２０）との間で送信する任意の数のネットワークを表す。ネットワーク（１５０）は、例えば、ワイヤライン（有線）および／またはワイヤレス通信ネットワークを含むことができる。ネットワーク（１５０）は、回線交換チャネルおよび／またはパケット交換チャネルでデータを交換し得る。代表的なネットワークとしては、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットが挙げられる。本議論の目的のために、ネットワーク（１５０）のアーキテクチャおよびトポロジーは、本明細書において以下に説明されない限り、本開示の動作に対して重要でない場合がある。

図２は、一実施形態によるストリーミングシステム（２００）の簡略化されたブロック図を示す。図２の例は、点群のための開示される主題のアプリケーションである。開示される主題は、３Ｄテレプレゼンスアプリケーション、バーチャルリアリティアプリケーションなどの他の点群対応アプリケーションにも同じように当てはまる。

ストリーミングシステム（２００）は、キャプチャサブシステム（２１３）を含み得る。キャプチャサブシステム（２１３）は、点群源（２０１）、例えば、光検出および測距（ＬＩＤＡＲ）システム、３Ｄカメラ、３Ｄスキャナ、ソフトウェアで非圧縮の点群を生成するグラフィック生成構成要素、および例えば、圧縮されていない点群（２０２）を生成する同様のものを含むことができる。一例では、点群（２０２）は、３Ｄカメラによってキャプチャされた点を含む。点群（２０２）は、圧縮された点群（２０４）（圧縮された点群のビットストリーム）と比べて高いデータ量であることを強調するために、太線で示されている。圧縮された点群（２０４）は、点群源（２０１）に結合されたエンコーダ（２０３）を含む電子デバイス（２２０）によって生成され得る。エンコーダ（２０３）は、以下でより詳細に説明されるように、開示される主題の態様を可能にするまたは実装するためのハードウェア、ソフトウェア、またはそれらの組合せを含むことができる。圧縮された点群（２０４）（または圧縮された点群（２０４）のビットストリーム）は、点群（２０２）のストリームと比べて低いデータ量であることを強調するために細い線で示されており、将来の使用のためにストリーミングサーバ（２０５）に記憶され得る。図２のクライアントサブシステム（２０６）および（２０８）などの１つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（２０５）にアクセスして、圧縮された点群（２０４）のコピー（２０７）および（２０９）を取り出すことができる。クライアントサブシステム（２０６）は、例えば電子デバイス（２３０）内にデコーダ（２１０）を含むことができる。デコーダ（２１０）は、圧縮された点群の入力コピー（２０７）を復号し、レンダリングデバイス（２１２）上でレンダリングされ得る再構成された点群（２１１）の出力ストリームを作成する。

電子デバイス（２２０）および（２３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子デバイス（２２０）はデコーダ（図示せず）を含むことができ、同様に電子デバイス（２３０）はエンコーダ（図示せず）も含むことができる。

いくつかのストリーミングシステムでは、圧縮された点群（２０４）、（２０７）、および（２０９）（例えば、圧縮された点群のビットストリーム）は、いくつかの規格にしたがって圧縮され得る。いくつかの例では、ビデオコーディング規格が点群の圧縮で使用される。それらの規格の例としては、高効率ビデオコーディング（ＨＥＶＣ）、汎用ビデオコーディング（ＶＶＣ）などが挙げられる。

図３は、いくつかの実施形態による、点群フレームを符号化するためのＶ－ＰＣＣエンコーダ（３００）のブロック図を示す。いくつかの実施形態では、Ｖ－ＰＣＣエンコーダ（３００）は、通信システム（１００）およびストリーミングシステム（２００）において使用され得る。例えば、エンコーダ（２０３）は、Ｖ－ＰＣＣエンコーダ（３００）と同様に構成され、動作することができる。

Ｖ－ＰＣＣエンコーダ（３００）は、点群フレームを非圧縮入力として受け取り、圧縮された点群フレームに対応するビットストリームを生成する。いくつかの実施形態では、Ｖ－ＰＣＣエンコーダ（３００）は、点群源（２０１）などの点群源から点群フレームを受け取り得る。

図３の例では、Ｖ－ＰＣＣエンコーダ（３００）は、パッチ生成モジュール（３０６）と、パッチパッキングモジュール（３０８）と、ジオメトリ画像生成モジュール（３１０）と、テクスチャ画像生成モジュール（３１２）と、パッチ情報モジュール（３０４）と、占有マップモジュール（３１４）と、平滑化モジュール（３３６）と、画像パディングモジュール（３１６）および（３１８）と、グループ拡張モジュール（３２０）と、ビデオ圧縮モジュール（３２２）、（３２３）および（３３２）と、補助パッチ情報圧縮モジュール（３３８）と、エントロピー圧縮モジュール（３３４）と、マルチプレクサ（３２４）とを含む。

本開示の一態様によれば、Ｖ－ＰＣＣエンコーダ（３００）は、圧縮された点群を復元された点群に変換し戻すために使用されるいくつかのメタデータ（例えば、占有マップおよびパッチ情報）とともに、３Ｄ点群フレームを画像ベースの表現に変換する。いくつかの例では、Ｖ－ＰＣＣエンコーダ（３００）は、３Ｄ点群フレームを、ジオメトリ画像、テクスチャ画像および占有マップに変換し、次いで、ビデオコーディング技法を使用して、ジオメトリ画像、テクスチャ画像および占有マップをビットストリームに符号化することができる。一般に、ジオメトリ画像は、ピクセルに投影された点に関連付けられたジオメトリ値でピクセルが充填されている２Ｄ画像であり、ジオメトリ値で充填されたピクセルはジオメトリサンプルと呼ばれ得る。テクスチャ画像は、ピクセルに投影された点に関連付けられたテクスチャ値でピクセルが充填されている２Ｄ画像であり、テクスチャ値で充填されたピクセルはテクスチャサンプルと呼ばれ得る。占有マップは、パッチによって占有されているか占有されていないかを示す値でピクセルが充填されている２Ｄ画像である。

パッチは、一般に、点群によって記述される表面の連続的な部分集合を指し得る。一例では、パッチは、閾値量未満で互いから逸れる表面法線ベクトルを有する点を含む。パッチ生成モジュール（３０６）は、各パッチが２Ｄ空間の平面に対する深度フィールドによって記述され得るように、点群を、重複していても重複していなくてもよいパッチの集合にセグメント化する。いくつかの実施形態では、パッチ生成モジュール（３０６）は、再構成誤差を最低限に抑えつつ、点群を、滑らかな境界を有する最小数のパッチに分解することを目的とする。

パッチ情報モジュール（３０４）は、パッチのサイズおよび形状を示すパッチ情報を収集することができる。いくつかの例では、パッチ情報は、画像フレームにパッキングされ、次いで、圧縮された補助パッチ情報を生成するために補助パッチ情報圧縮モジュール（３３８）によって符号化され得る。

パッチパッキングモジュール（３０８）は、未使用空間を最低限に抑えつつ、抽出されたパッチを２次元（２Ｄ）グリッド上にマッピングし、グリッドのすべてのＭ×Ｍ（例えば、１６×１６）ブロックが一意のパッチに関連付けられることを保証するように構成される。効率的なパッチパッキングは、未使用空間を最小限に抑えるか、または時間的一貫性を保証することのいずれかによって、圧縮効率に直接影響を与えることができる。

ジオメトリ画像生成モジュール（３１０）は、所与のパッチロケーションにおける点群のジオメトリに関連付けられた２Ｄジオメトリ画像を生成することができる。テクスチャ画像生成モジュール（３１２）は、所与のパッチロケーションにおける点群のテクスチャに関連付けられた２Ｄテクスチャ画像を生成することができる。ジオメトリ画像生成モジュール（３１０）およびテクスチャ画像生成モジュール（３１２）は、パッキングプロセス中に計算された３Ｄから２Ｄへのマッピングを利用して、点群のジオメトリおよびテクスチャを画像として記憶する。複数の点が同じサンプルに投影される状況により良好に対処するために、各パッチは、層と呼ばれる２つの画像上に投影される。一例では、ジオメトリ画像は、ＹＵＶ４２０－８ビットフォーマットのＷｘＨの単色フレームによって表される。テクスチャ画像を生成するために、テクスチャ生成手順は、再構成された／平滑化されたジオメトリを利用して、再サンプリングされた点に関連付けられる色を計算する。

占有マップモジュール（３１４）は、各ユニットにおけるパディング情報を記述する占有マップを生成することができる。例えば、占有画像は、グリッドの各セルについて、そのセルが空の空間に属するか点群に属するかを示すバイナリマップを含む。一例では、占有マップは、各ピクセルについて、ピクセルがパディングされているか否かを記述するバイナリ情報を使用する。別の例では、占有マップは、ピクセルの各ブロックについて、ピクセルのブロックがパディングされているか否かを記述するバイナリ情報を使用する。

占有マップモジュール（３１４）によって生成された占有マップは、ロスレスコーディングまたはロッシーコーディングを使用して圧縮され得る。ロスレスコーディングが使用される場合、エントロピー圧縮モジュール（３３４）を使用して占有マップを圧縮する。ロッシーコーディングが使用される場合、ビデオ圧縮モジュール（３３２）を使用して占有マップを圧縮する。

パッチパッキングモジュール（３０８）は、画像フレーム内にパッキングされた２Ｄパッチ間にいくらかの空き空間を残し得ることに留意されたい。画像パディングモジュール（３１６）および（３１８）は、２Ｄビデオおよび画像コーデックに適し得る画像フレームを生成するために、空き空間を充填することができる（パディングと呼ばれる）。画像パディングは、バックグラウンドフィリング（background filling）とも呼ばれ、未使用空間を冗長な情報で充填することができる。いくつかの例では、良好なバックグラウンドフィリングは、ビットレートの増加を最小限に抑え、パッチ境界の周囲に深刻なコーディング歪みを発生させない。

ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、ＨＥＶＣ、ＶＶＣなどの適切なビデオコーディング規格に基づいて、パディングされたジオメトリ画像、パディングされたテクスチャ画像、および占有マップなどの２Ｄ画像を符号化することができる。一例では、ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、別々に動作する個々の構成要素である。ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、別の例では単一の構成要素として実装され得ることに留意されたい。

いくつかの例では、平滑化モジュール（３３６）は、再構成されたジオメトリ画像の平滑化された画像を生成するように構成される。平滑化された画像は、テクスチャ画像生成（３１２）に提供され得る。次いで、テクスチャ画像生成（３１２）は、再構成されたジオメトリ画像に基づいてテクスチャ画像の生成を調整し得る。例えば、符号化および復号中にパッチ形状（例えば、ジオメトリ）がわずかに歪んだ場合、テクスチャ画像を生成するときに歪みを考慮に入れて、パッチ形状の歪みを補正することができる。

いくつかの実施形態では、グループ拡張（３２０）は、コーディング利得ならびに再構成された点群の視覚的品質を改善するために、オブジェクト境界の周りのピクセルを冗長な低周波数コンテンツでパディングするように構成される。

マルチプレクサ（３２４）は、圧縮されたジオメトリ画像、圧縮されたテクスチャ画像、圧縮された占有マップ、および／または圧縮された補助パッチ情報を圧縮ビットストリームに多重化することができる。

図４は、いくつかの実施形態による、点群フレームに対応する圧縮ビットストリームを復号するためのＶ－ＰＣＣデコーダ（４００）のブロック図を示す。いくつかの実施形態では、Ｖ－ＰＣＣデコーダ（４００）は、通信システム（１００）およびストリーミングシステム（２００）において使用され得る。例えば、デコーダ（２１０）は、Ｖ－ＰＣＣデコーダ（４００）と同様に動作するように構成され得る。Ｖ－ＰＣＣデコーダ（４００）は、圧縮ビットストリームを受け取り、圧縮ビットストリームに基づいて、再構成された点群を生成する。

図４の例では、Ｖ－ＰＣＣデコーダ（４００）は、デマルチプレクサ（４３２）と、ビデオ復元モジュール（４３４）および（４３６）と、占有マップ復元モジュール（４３８）と、補助パッチ情報復元モジュール（４４２）と、ジオメトリ再構成モジュール（４４４）と、平滑化モジュール（４４６）と、テクスチャ再構成モジュール（４４８）と、色平滑化モジュール（４５２）とを含む。

デマルチプレクサ（４３２）は、圧縮ビットストリームを受け取り、圧縮されたテクスチャ画像、圧縮されたジオメトリ画像、圧縮された占有マップ、および圧縮された補助パッチ情報に分離することができる。

ビデオ復元モジュール（４３４）および（４３６）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）にしたがって圧縮画像を復号し、復元画像を出力することができる。例えば、ビデオ復元モジュール（４３４）は、圧縮されたテクスチャ画像を復号し、復元されたテクスチャ画像を出力し、ビデオ復元モジュール（４３６）は、圧縮されたジオメトリ画像を復号し、復元されたジオメトリ画像を出力する。

占有マップ復元モジュール（４３８）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）にしたがって、圧縮された占有マップを復号し、復元された占有マップを出力することができる。

補助パッチ情報復元モジュール（４４２）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）にしたがって、圧縮された補助パッチ情報を復号し、復元された補助パッチ情報を出力することができる。

ジオメトリ再構成モジュール（４４４）は、復元されたジオメトリ画像を受け取り、復元された占有マップと復元された補助パッチ情報とに基づいて、再構成された点群ジオメトリを生成することができる。

平滑化モジュール（４４６）は、パッチのエッジにおける不一致を平滑化することができる。平滑化手順は、圧縮アーチファクトによりパッチ境界で生じ得る潜在的な不連続性を軽減することを目的とする。いくつかの実施形態では、圧縮／復元によって引き起こされ得る歪みを軽減するために、パッチ境界上に位置するピクセルに平滑化フィルタが適用され得る。

テクスチャ再構成モジュール（４４８）は、復元されたテクスチャ画像と平滑化ジオメトリとに基づいて、点群内の点に関するテクスチャ情報を決定することができる。

色平滑化モジュール（４５２）は、着色の不一致を平滑化することができる。３Ｄ空間内の非隣接パッチは、２Ｄビデオでは互いに隣り合ってパッキングされることが多い。いくつかの例では、非隣接パッチからのピクセル値は、ブロックベースのビデオコーデックによって混合され得る。色平滑化の目標は、パッチ境界に現れる目に見えるアーチファクトを低減することである。

図５は、いくつかの実施形態による、Ｇ－ＰＰＣエンコーダ（５００）のブロック図を示す。エンコーダ（５００）は、点群データを受け取り、点群データを圧縮して、圧縮された点群データを搬送するビットストリームを生成するように構成され得る。一実施形態では、エンコーダ（５００）は、位置量子化モジュール（５１０）と、重複点除去モジュール（５１２）と、八分木符号化モジュール（５３０）と、属性転送モジュール（５２０）と、詳細レベル（ＬＯＤ）生成モジュール（５４０）と、属性予測モジュール（５５０）と、残差量子化モジュール（５６０）と、算術コーディングモジュール（５７０）と、逆残差量子化モジュール（５８０）と、加算モジュール（５８１）と、再構成された属性値を記憶するメモリ（５９０）とを含むことができる。

示されるように、入力点群（５０１）がエンコーダ（５００）で受け取られ得る。点群（５０１）の位置（例えば、３Ｄ座標）は、量子化モジュール（５１０）に提供される。量子化モジュール（５１０）は、座標を量子化して量子化された位置を生成するように構成される。重複点除去モジュール（５１２）は、量子化された位置を受け取り、フィルタ処理を実行して、重複点を識別して除去するように構成される。八分木符号化モジュール（５３０）は、重複点除去モジュール（５１２）からフィルタ処理された位置を受け取り、八分木ベースの符号化プロセスを実行して、ボクセルの３Ｄグリッドを記述する占有コードのシーケンスを生成するように構成される。占有コードは算術コーディングモジュール（５７０）に提供される。

属性転送モジュール（５２０）は、入力点群の属性を受け取り、複数の属性値がそれぞれのボクセルに関連付けられている場合、属性転送プロセスを実行して各ボクセルの属性値を決定するように構成される。属性転送プロセスは、八分木符号化モジュール（５３０）から出力された再順序付けされた点に対して実行され得る。転送動作後の属性は、属性予測モジュール（５５０）に提供される。ＬＯＤ生成モジュール（５４０）は、八分木符号化モジュール（５３０）から出力された再順序付けされた点に対して動作し、点を異なるＬＯＤに再組成するように構成される。ＬＯＤ情報は、属性予測モジュール（５５０）に供給される。

属性予測モジュール（５５０）は、ＬＯＤ生成モジュール（５４０）からのＬＯＤ情報によって示されたＬＯＤベースの順序にしたがって点を処理する。属性予測モジュール（５５０）は、メモリ（５９０）に記憶された現在の点の隣接点の集合の再構成された属性に基づいて、現在の点についての属性予測を生成する。予測残差は、その後、属性転送モジュール（５２０）から受け取った元の属性値と局所的に生成された属性予測とに基づいて取得され得る。候補インデックスがそれぞれの属性予測プロセスにおいて使用されるとき、選択された予測候補に対応するインデックスが算術コーディングモジュール（５７０）に提供され得る。

残差量子化モジュール（５６０）は、属性予測モジュール（５５０）から予測残差を受け取り、量子化を実行して、量子化された残差を生成するように構成される。量子化された残差は、算術コーディングモジュール（５７０）に提供される。

逆残差量子化モジュール（５８０）は、量子化された残差を残差量子化モジュール（５６０）から受け取り、残差量子化モジュール（５６０）において実行された量子化演算の逆を実行することによって再構成された予測残差を生成するように構成される。加算モジュール（５８１）は、再構成された予測残差を逆残差量子化モジュール（５８０）から受け取り、それぞれの属性予測を属性予測モジュール（５５０）から受け取るように構成される。再構成された予測残差と属性予測とを組み合わせることで、再構成された属性値が生成され、メモリに記憶される（５９０）。

算術コーディングモジュール（５７０）は、占有コード、候補インデックス（使用される場合）、量子化された残差（生成される場合）、および他の情報を受け取り、受け取った値または情報をさらに圧縮するためにエントロピー符号化を実行するように構成される。結果として、圧縮された情報を搬送する圧縮ビットストリーム（５０２）が生成され得る。ビットストリーム（５０２）は、圧縮ビットストリームを復号するデコーダに送信されるかもしくは別様に提供され得、または記憶デバイスに記憶され得る。

図６は、一実施形態によるＧ－ＰＣＣデコーダ（６００）のブロック図を示す。デコーダ（６００）は、圧縮ビットストリームを受け取り、点群データ復元を実行して、ビットストリームを復元し、復号された点群データを生成するように構成され得る。一実施形態では、デコーダ（６００）は、算術復号モジュール（６１０）と、逆残差量子化モジュール（６２０）と、八分木復号モジュール（６３０）と、ＬＯＤ生成モジュール（６４０）と、属性予測モジュール（６５０）と、再構成された属性値を記憶するメモリ（６６０）とを含むことができる。

示されるように、圧縮ビットストリーム（６０１）が算術復号モジュール（６１０）で受け取られ得る。算術復号モジュール（６１０）は、圧縮ビットストリーム（６０１）を復号して、点群の量子化された残差（生成される場合）および占有コードを取得するように構成される。八分木復号モジュール（６３０）は、占有コードにしたがって点群内の点の再構成位置を決定するように構成される。ＬＯＤ生成モジュール（６４０）は、再構成された位置に基づいて、点を異なるＬＯＤに再組成し、ＬＯＤベースの順序を決定するように構成される。逆残差量子化モジュール（６２０）は、算術復号モジュール（６１０）から受け取った量子化された残差に基づいて、再構成された残差を生成するように構成される。

属性予測モジュール（６５０）は、ＬＯＤベースの順序にしたがって、点についての属性予測を決定するために属性予測プロセスを実行するように構成される。例えば、現在の点の属性予測は、メモリ（６６０）に記憶された現在の点の隣接点の再構成された属性値に基づいて決定され得る。いくつかの例では、属性予測は、それぞれの再構成された残差と組み合わされ、現在の点についての再構成された属性が生成され得る。

一例では、属性予測モジュール（６５０）から生成された再構成された属性のシーケンスは、八分木復号モジュール（６３０）から生成された再構成された位置と共に、デコーダ（６００）から出力される復号された点群（６０２）に対応する。加えて、再構成された属性もメモリ（６６０）に記憶され、その後、後続の点についての属性予測を導出するために使用され得る。

様々な実施形態では、エンコーダ（３００）、デコーダ（４００）、エンコーダ（５００）、および／またはデコーダ（６００）は、ハードウェア、ソフトウェア、またはそれらの組合せで実装され得る。例えば、エンコーダ（３００）、デコーダ（４００）、エンコーダ（５００）、および／またはデコーダ（６００）は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのソフトウェアを用いてまたは用いずに動作する１つまたは複数の集積回路（ＩＣ）などの処理回路で実装され得る。別の例では、エンコーダ（３００）、デコーダ（４００）、エンコーダ（５００）、および／またはデコーダ（６００）は、不揮発性（または非一時的）コンピュータ可読記憶媒体に記憶された命令を含むソフトウェアまたはファームウェアとして実装され得る。命令は、１つまたは複数のプロセッサなどの処理回路によって実行されると、処理回路に、エンコーダ（３００）、デコーダ（４００）、エンコーダ（５００）、および／またはデコーダ（６００）の機能を実行させる。

本明細書で開示される属性予測技法を実装するように構成された属性予測モジュール（５５０）および（６５０）は、図５および図６に示されているものと同様のまたは異なる構造を有し得る他のデコーダまたはエンコーダに含まれ得ることに留意されたい。加えて、エンコーダ（５００）およびデコーダ（６００）は、様々な例において、同じデバイスまたは別個のデバイスに含まれ得る。

ＭＰＥＧジオメトリベースの点群コーディング（Ｇ－ＰＣＣ）ソフトウェアテストモデル、すなわちＴＭＣ１３では、ジオメトリ情報と、色または反射率などの点群の関連する属性とを別々に圧縮することができる。点群の３Ｄ座標であるジオメトリ情報は、点群の占有情報を用いて八分木区分、四分木区分、および二分木区分によってコーディングされ得る。ジオメトリ情報がコーディングされた後、予測、リフティング、および領域適応型階層的変換技法を使用して、再構成されたジオメトリに基づいて、点群の属性が圧縮され得る。ジオメトリコーディングの場合、２つのアプローチを適用することができる。第１のアプローチは、八分木ベースのアプローチ（または八分木ベースのジオメトリコーディング）であり得、第２のアプローチは、予測ツリーベースのアプローチ（または予測ツリーベースのジオメトリコーディング）であり得る。

八分木ベースのジオメトリコーディングでは、点群は、八分木、四分木、またはバイナリ区分によって区分され得、それは次のように説明され得る。

点群について、点群のバウンディングボックスＢは、すべての方向において同じサイズを有するようには制限されないことがある。代わりに、バウンディングボックスＢは、３Ｄシーンまたはオブジェクトの形状により良く適合するように、任意のサイズの直方体であり得る。一例では、バウンディングボックスＢのサイズは、

のように２の累乗として表すことができる。ｄ_ｘ、ｄ_ｙ、ｄ_ｚは等しくなくてもよいことに留意されたい。

バウンディングボックスＢを区分するために、八分木区分、四分木区分、または二分木区分が利用され得る。図７は、八分木区分でバウンディングボックス７００を区分したものを示し、ここでは、バウンディングボックス７００のｘ、ｙ、およびｚ次元は半分に分割され得、これにより、同じサイズの８つのサブボックスが得られ得る。図８は、四分木区分でバウンディングボックスを区分したものを示し、ここでは、ｘ、ｙ、およびｚ次元などのバウンディングボックスの３つの次元のうちの２つが半分に分割され得、これにより、同じサイズの４つのサブボックスが得られ得る。例えば、図８に示されるように、バウンディングボックス８０１はｘ－ｙ軸に沿って４つのサブボックスに区分され得、バウンディングボックス８０２はｘ－ｚ軸に沿って４つのサブボックスに区分され得、バウンディングボックス８０３はｙ－ｚ軸に沿って４つのサブボックスに区分され得る。

図９は、二分木区分でバウンディングボックスを区分したものを示し、ここでは、３つの次元（例えば、ｘ、ｙ、およびｚ次元）のうちの１つのみが半分に分割され得、これにより、同じサイズの２つのサブボックスが得られ得る。例えば、図９に示されるように、バウンディングボックス９０１はｘ軸に沿って２つのサブボックスに区分され得、バウンディングボックス９０２はｙ軸に沿って２つのサブボックスに区分され得、バウンディングボックス９０３はｚ軸に沿って２つのサブボックスに区分され得る。

したがって、点群は、それぞれ八分木区分、四分木区分、および二分木区分を有する一般的なツリー構造によって表され得る。そのようなツリーを走査（traverse）するために、ＭＰＥＧＴＭＣ１３モデルでは幅優先アプローチが採用され得る。一方で、深度優先アプローチを利用することもでき、これらは、図１０Ａおよび図１０Ｂに示され得る。

図１０Ａおよび図１０Ｂでは、影付きの円はツリー内の占有されたノードを示し、空白の円は占有されていないノードを示す。円の中の数字は走査順序を示す。図１０Ａは、深度０から開始して、次に深度１、２、以下同様にノードが訪問／処理される幅優先走査順序を示す。図１０Ｂは、ルートノード（例えば、ノード０）から開始して、次に、ルートノードの第１の占有された子ノード（例えば、ノード１）、次いで、ルートノードの第１の占有された子ノードの占有された子ノード（例えば、ノード３、４および５）へと、リーフノードに到達するまで、ノードが訪問／処理される深度優先走査順序を示す。次いで、訪問／処理は、ルートノードの第２の占有された子ノード（例えば、ノード２）から開始して、次に、ルートノードの第２の占有された子ノードの占有された子ノード（例えば、ノード６、７、および８）へと、リーフノードに到達するまで行われる。

予測ツリーベースのジオメトリコーディングでは、点群内のすべての点にわたるスパニングツリーなどの予測ツリーが構成され得る。点の予測に、点のすべての先祖を使用することができる。例えば、点の位置は、その親点の位置から、またはその親点およびその祖父母点の位置から予測され得る。図１１は、ウサギの表面を表す点群内のすべての点に及ぶ予測ツリー１１００を示し、拡大ブロック１１０２は、予測ツリーの一部を示す。

ｔｒｉｓｏｕｐベースのジオメトリコーディングは、オブジェクトの表面を一連の三角形メッシュとして表すことができる別のジオメトリコーディングアプローチである。ｔｒｉｓｏｕｐベースのジオメトリコーディングは、高密度の表面点群に適用することができる。ｔｒｉｓｏｕｐデコーダは、再構成された点群の密度が保証されるように、指定されたボクセル粒度でメッシュ表面から点群を生成することができる。一般に、ｔｒｉｓｏｕｐベースのジオメトリコーディングは、低減されたビットストリームサイズという利益はあるが、元の点群に歪みを発生させる可能性がある。

点群に対する予測ベースの属性コーディングは、次のように説明され得る。簡潔さのために、予測ベースの属性コーディングにおいて１つの詳細レベル（ＬｏＤ）を仮定することができる。

（Ｐ_ｉ）_{ｉ＝１．．．Ｎ}を点群の点に関連付けられた位置の集合とし、（Ｍ_ｉ）_{ｉ＝１．．．Ｎ}を（Ｐ_ｉ）_{ｉ＝１．．．Ｎ}に関連付けられたモートンコードとする。まず、点の関連付けられたモートンコードにしたがって点が昇順にソートされ得る。Ｉを、昇順にしたがって順序付けられた点インデックスの配列とする。エンコーダ／デコーダは、それぞれ、Ｉによって定義された順序にしたがって点を圧縮／復元することができる。各反復ｉにおいて、点Ｐ_ｉを選択することができる。Ｐ_ｉからｓ個（例えば、ｓ＝６４）の前の点までの距離を分析することができ、Ｐ_ｉのｋ個（例えば、ｋ＝３）の最近傍を選択して予測に使用することができる。より正確には、点ｉの最近傍の距離に基づいて線形補間プロセスを使用することによって属性値（ａ_ｉ）_{ｉ∈１．．．Ｎ}を予測することができる。

を現在の点ｉのｋ個の最近傍の集合とし、

をｋ個の最近傍の集合の復号／再構成された属性値とし、

をｋ個の最近傍の集合から現在の点ｉまでの距離とする。予測属性値

は、以下の式（１）で与えられ得る：

リフティングベースの属性コーディングは、予測ベースの属性コーディングの上に構築され得る。予測ベースの属性コーディングと比較して、リフティングベースの属性コーディングには、（ａ）更新演算子の導入、および（ｂ）適応量子化戦略の使用という２つの追加ステップが導入される。

例示のために、リフティングベースの属性コーディングの動作が図１２および図１３に示され得る。図１２は、リフティングベースの属性コーディングにおける順方向変換１２００のブロック図を示し、図１３は、リフティングベースの属性コーディングにおける逆方向変換１３００のブロック図を示す。

図１２に示されるように、レベルＮの属性信号は、ハイパス信号Ｈ（Ｎ）とローパス信号Ｌ（Ｎ）とに分割され得る。Ｌ（Ｎ）は、予測プロセス１２０２に基づいて予測信号Ｐ（Ｎ）を生成することができる。差分信号Ｄ（Ｎ）は、Ｈ（Ｎ）とＬ（Ｎ）との差分に基づいて生成され得る。差分信号Ｄ（Ｎ）をさらに更新して、更新された信号Ｕ（Ｎ）を生成し得る。Ｕ（Ｎ）とＬ（Ｎ）との和により、更新されたローパス信号Ｌ’（Ｎ）を生成することができる。Ｌ’（Ｎ）はさらに、次のレベル（Ｎ－１）のハイパス信号Ｈ（Ｎ－１）とローパス信号Ｌ（Ｎ－１）とに分割され得る。Ｌ（Ｎ－１）は、レベルＮ－１の予測信号Ｐ（Ｎ－１）を生成することができる。Ｈ（Ｎ－１）とＬ（Ｎ－１）との差分に基づいて、レベルＮ－１の差分信号Ｄ（Ｎ－１）が生成され得る。差分信号Ｄ（Ｎ－１）をさらに更新して、レベルＮ－１の更新された信号Ｕ（Ｎ－１）を生成し得る。Ｕ（Ｎ－１）とＬ（Ｎ－１）との和により、レベルＮ－１の更新されたローパス信号Ｌ’（Ｎ－１）を生成することができる。

更新されたローパス信号Ｌ’（Ｎ－１）は、Ｄ（Ｎ－２）とＬ’（Ｎ－２）とにさらに分解され得る。分ベースレイヤの更新されたローパス信号Ｌ’（０）が得られるまで分割ステップを繰り返し適用することができる。

図１３では、リフティングベースの属性コーディングの逆方向変換１３００が提供される。図１３に示されるように、更新されたローパス信号Ｌ’（０）と更新された信号Ｕ（０）との差に基づいて、レベル０のローパス信号Ｌ（０）が生成され得る。更新された信号Ｕ（０）は、差分信号Ｄ（０）を更新することで得られる。Ｌ（０）はさらに、予測プロセス１３０２に基づいて予測信号Ｐ（０）を生成することができる。Ｐ（０）がさらにＤ（０）と加算されて、ハイパス信号Ｈ（０）が生成される。Ｈ（０）およびＬ（０）をマージして、レベル１の更新されたローパスＬ’（１）を生成することができる。ハイパス信号Ｈ（Ｎ）およびローパス信号Ｌ（Ｎ）がレベルＮで生成されるまでマージステップが繰り返し適用され得る。Ｈ（Ｎ）およびＬ（Ｎ）がさらにマージされて、再構成された属性信号が形成され得る。

図１４Ａは、ＲＡＨＴベースの属性コーディングのための順方向変換１４００Ａを示し、図１４Ｂは、ＲＡＨＴベースの属性コーディングのための逆方向変換１４００Ｂを示す。図１４Ａおよび図１４Ｂでは、

であり、ｗ_０は入力係数Ｆ_{ｌ＋１，２ｎ}の重みの表記であり、ｗ_１は入力係数Ｆ_{ｌ＋１，２ｎ＋１}の重みの表記である。

点群に対するノードベースのジオメトリおよび属性コーディングは、ツリーベースのジオメトリおよび属性コーディングであり得、点群は、八分木区分だけでなく四分木および二分木区分も含む一般的なツリー構造として表される。ツリーのルートは点群の全ボリュームを含み、ツリーの中間ノードは点群のサブボリューム（またはサブツリー）を含む。

簡潔さおよび明瞭さのために、ノードベースのジオメトリおよび属性コーディングにおいて以下の表記が適用され得る：（ａ）ルートノードはツリーの深度０にあり得る；（ｂ）１レベルの区分の後、結果として生じるノードはツリーの深度１となる；（ｃ）ｋレベルの区分の後、結果として生じるノードは、すべてのノードが単位ノードになるまで、例えば３つすべての次元におけるノードのサイズが１になるまで、ツリーの深度ｋとなる。

図１５は、本開示のいくつかの実施形態による、八分木区分（１５１０）、および八分木区分（１５１０）に対応する八分木構造（１５２０）の一例を示す。図１５は、八分木区分（１５１０）における区分の２つのレベルを示す。八分木構造（１５２０）は、八分木区分のための立方体ボックス（１５１０）に対応するノード（Ｎ０）を含む。第１のレベルでは、立方体ボックスは、図７に示された番号付け技法にしたがって０～７の番号が付けられた８つのサブ立方体ボックスに区分される。ノードＮ０の区分に対する占有コードは二進数で「１００００００１」であり、これは、ノードＮ０－０によって表される第１のサブ立方体ボックスおよびノードＮ０－７によって表される第８のサブ立方体ボックスが点群内の点を含み、他のサブ立方体ボックスが空であることを示す。

次いで、区分の第２のレベルにおいて、第１のサブ立方体ボックス（ノードＮ０－０によって表される）および第８のサブ立方体ボックス（ノードＮ０－７によって表される）が、それぞれ８つのオクタントにさらに細分される。例えば、第１のサブ立方体ボックス（ノードＮ０～０によって表される）は、図７に示された番号付け技法にしたがって０～７の番号が付けられた８つのより小さいサブ立方体ボックスに区分される。ノードＮ０－０の区分に対する占有コードは、二進数で「０００１１０００」であり、これは、第４のより小さいサブ立方体ボックス（ノードＮ０－０－３によって表される）および第５のより小さいサブ立方体ボックス（ノードＮ０－０－４によって表される）が点群内の点を含み、他のより小さいサブ立方体ボックスが空であることを示す。第２のレベルにおいて、第７のサブ立方体ボックス（ノードＮ０－７によって表される）は、図１５に示されるように、８つのより小さいサブ立方体ボックスに同様に区分される。

本開示では、ジオメトリコーディングが完了した後に属性をコーディングする代わりに、深度ｋに達するまで最初に点群のジオメトリが符号化され得、ここで、ｋはエンコーダによって指定され、ビットストリームで送信され得る。点群のサブボリューム（またはサブツリー）とみなされ得る、深度ｋにおける各占有されたノードについて、ジオメトリ情報は、最初にノード（サブツリー）内のすべての点について符号化され、その後、ノード内のすべての点の属性コーディングが続く。別の実施形態では、ノード（サブツリー）内のすべての点に対するジオメトリコーディングおよび属性コーディングは、インターリーブ方式で符号化され得る。いずれのアプローチにおいても、深度ｋにおけるノード（サブツリー）は、最上位レベルのコーディング単位として扱われ得る。そのような概念は、ＨＥＶＣビデオコーディング規格で使用されるＬＣＵと同様であり得る。点群コーディングの概念では、深度ｋにおける各ノードは、別個のツリーを形成することができ、ＬＣＵと見なされることができ、これは図１６に示され得る。

図１６に示されるように、深度ｋ＝０におけるルートノードは、四分木区分によって、深度ｋ＝１における４つのノードに区分され得、ここで、深度ｋ＝１における４つのノードのうちの２つのノード（例えば、ノード「１」およびノード「６」）は占有されたノードであり得る。深度ｋ＝１における２つの占有されたノードは、それぞれ深度ｋ＝２および深度ｋ＝３などの後続の深度においてさらに区分され、それぞれ別個のツリーを形成することができる。したがって、深度ｋ＝１における占有されたノードの各々は、個々のＬＣＵとして扱われ得る。例えば、深度ｋ＝１におけるノード「１」は第１のＬＣＵ１６０２として扱われ得、深度ｋ＝１におけるノード「６」は第２のＬＣＵ１６０４として扱われ得る。簡潔さおよび明確さのために、深度ｋにおけるノードは、ＬＣＵと命名され得る。したがって、ノードおよびＬＣＵは、本開示において適用される交換可能な用語であり得る。

各ノードのジオメトリと属性の両方についての生成されたビットストリームは、点群全体のジオメトリコーディングの完了を待つことなく送信され得る。一方、デコーダは、点群全体のジオメトリの復号の完了を待たずに、ノードのすべての点を復号してノードのすべての点を表示することができる。このようにして、低レイテンシの符号化および復号が達成され得る。

一実施形態では、深度ｋ（またはＬＣＵ）における占有されたノードは、モートン順序でコーディングされ得る。別の実施形態では、深度ｋにおける占有されたノードは、モートンコード（またはモートン順序）以外の他の空間充填順序でコーディングされ得る。

ＬＣＵのジオメトリ情報および属性情報のコーディングは、ＬＣＵの隣接ＬＣＵの情報に依拠することができる。一実施形態では、ＬＣＵのジオメトリ情報および属性情報のコーディングは、このＬＣＵの隣接ＬＣＵの情報に依拠しなくてもよい。したがって、ＬＣＵ境界を越えた予測／参照は無効になり得、コンテキストおよび履歴情報も、各ＬＣＵについて再初期化される必要があり得る。したがって、ＬＣＵレベルの並列符号化および復号など、最大の並列性が深度ｋにおいて可能にされ得る。

別の実施形態では、ＬＣＵのジオメトリ情報および属性情報のコーディングは、ＬＣＵのすでにコーディングされた隣接ノード、およびすでにコーディングされた隣接ノードのコーディングされた子ノードの情報に依拠することができる。したがって、より良好な圧縮効率を得ることができる。

本開示では、並列ノードベースのコーディングと、各ノードレベルにおいてジオメトリコーディングモードを決定するための方法とを含む、ノードベースのジオメトリコーディングに対する更新が提供される。

前述のように、並列ノードベース（またはＬＣＵベース）のコーディングを達成するために、ＬＣＵのジオメトリ情報および属性情報のコーディングは、このＬＣＵの隣接ＬＣＵの情報に依拠しなくてもよい。したがって、ＬＣＵ境界を越えた予測／参照は無効になり得、コンテキストおよび履歴情報も、各ＬＣＵについて再初期化される必要があり得る。

本開示の一実施形態では、各ＬＣＵにおいて、エントロピーコーディングのためのコンテキストおよびジオメトリ占有履歴情報などのコーディング状態、ならびに／または

ＬＣＵベースのコーディング（またはノードベースのコーディング）の他の必要な状態情報が、点群のコーディングが開始するときの状態であり得る初期状態として設定され得る。

別の実施形態では、初期状態を使用する代わりに、八分木深度Ｋにおける第１のＬＣＵに達する直前に、例えば八分木深度ｋ－１における点群の符号化が完了したときに、エントロピーコーディングのためのコンテキストおよびジオメトリ占有履歴情報などのコーディング状態が記憶され得、ここで、八分木深度ｋにおけるノードはＬＣＵとして扱われ得る。八分木深度ｋにおけるＬＣＵの各ＬＣＵを符号化するとき、コーディング状態は、前述した記憶された符号化状態（または記憶されたコーディング状態）で設定され得る。このようにして、並列ノードベース（またはＬＣＵベース）のコーディングが達成され得る。加えて、記憶されたコーディング状態は、コーディングプロセスの開始前に取得される初期コーディング状態と比較して、コーディング性能の向上に役立ち得る。

図１７は、記憶されたコーディング状態を使用する例示的な並列ノードベース（ＬＣＵベース）のコーディングを示すフローチャートを示す。図１７では、八分木深度ｋにＮ個のＬＣＵ（ノード）を設けることができ、ここでＮは正の整数である。関連する例と比較して、コーディング状態は、八分木深度ｋにおけるＮ個のＬＣＵのいずれかを符号化する前に記憶され得る。八分木深度ｋにおけるＬＣＵのコーディングの開始時に、記憶された状態を使用してコーディング状態を回復または設定することができる。

図１７に示されるように、ノードベースのコーディングプロセス（１７００）（またはプロセス（１７００））は、八分木深度ｋ－１で点群が符号化され得る（Ｓ１７１０）から開始し得る。次いで、プロセス（１７００）は、八分木深度Ｋにおいて（Ｓ１７２０）に進み、八分木深度ｋにおいて複数のＬＣＵが決定され得るいくつかの実施形態では、複数のＬＣＵはさらに、例えば、モートン順序または他の空間充填順序に基づいて、ソートされ得る。八分木深度ｋにおける複数のＬＣＵの数は、正の整数Ｎに等しくてもよい。加えて、八分木深度Ｋにおける複数のＬＣＵのソートされた順序を示すインデックスｉを適用することができる。インデックスｉは、０～Ｎ－１の範囲内であり得る。（Ｓ１７２０）において、インデックスｉは、八分木深度ｋにおける複数のＬＣＵのうちの第１のＬＣＵを示す０として設定され得る。

（Ｓ１７３０）において、インデックスｉがＮより小さいかどうかを決定するために、第１の決定プロセスが行われ得る。インデックスｉがＮ以上であると決定されたことに応答して、プロセス（１７００）は、八分木深度ｋにおけるすべてのＬＣＵがコーディングされたことを示す（Ｓ１７９０）に進むことができ、プロセス（１７００）は完了する。インデックスｉがＮより小さいと決定されたことに応答して、プロセス（１７００）は（Ｓ１７４０）に進み、インデックスｉが０に等しいかどうかを決定するために第２の決定プロセスが行われ得る。インデックスｉが０に等しいとき、それは、複数のＬＣＵのうちの第１のＬＣＵがコーディングされるべきであることを示す。インデックスｉが０に等しくないとき、それは、第１のＬＣＵ以外の複数のＬＣＵのうちのＬＣＵがコーディングされるべきであることを示す。

（Ｓ１７４０）においてインデックスｉが０に等しいと決定されると、プロセス（１７００）は（Ｓ１７５０）に進み、コーディング状態が記憶され得る。前述のように、コーディング状態は、八分木深度ｋ－１において点群がコーディングされた後に取得され、点群の複数のＬＣＵのうちの第１のＬＣＵがコーディングされる前に記憶され得る。次いで、プロセス（１７００）は（Ｓ１７７０）に進み、第１のＬＣＵがコーディングされ得る。プロセス（１７００）はさらに（Ｓ１７８０）に進み、インデックスｉが１だけ増分され得る。したがって、（Ｓ１７７０）においてコーディングされたばかりのＬＣＵ（例えば、第１のＬＣＵ）に後続するＬＣＵが、コーディングのために選択され得る。次いで、プロセス（１７００）は（Ｓ１７３０）に進んで、第１の決定プロセスを再び実行することができる。

さらに（Ｓ１７４０）を参照すると、インデックスｉが０に等しくないと決定されると、プロセス（１７００）は（Ｓ１７６０）に進むことができる。（Ｓ１７６０）において、コーディング状態は、（Ｓ１７５０）において前述された記憶されたコーディング状態を用いて設定され得るか、または別様に決定され得る。次いで、プロセス（１７００）は（１７７０）に進み、インデックスｉを有するＬＣＵが、（Ｓ１７６０）において記憶されたコーディング状態を用いて設定されたコーディング状態に基づいてコーディングされ得る。したがって、複数のＬＣＵの各々がコーディングされるとき、最初に、記憶されたコーディング状態を用いてコーディング状態を設定することができる。したがって、並列ノードベース（ＬＣＵベース）のコーディングが達成され得る。

上記の説明では、複数のＬＣＵが、八分木ベースのジオメトリコーディングに基づいてコーディングされ得る。しかしながら、プロセス（１７００）では他のジオメトリコーディング方法も適用され得る。例えば、予測ツリーベースのコーディングも、複数のＬＣＵをコーディングするために適用され得る。

関連する例では、ＬＣＵについて、ジオメトリコーディングモードは、ヒューリスティックに基づいて決定され得る。例えば、比較的高密度の点群をコーディングするためには八分木ベースのジオメトリコーディングが適用され得、自律走行車両からライダーによって生成され得る疎な点群をコーディングするためには予測ツリーベースのジオメトリコーディングが適用され得る。

一実施形態では、ジオメトリコーディングモードを決定するためにＬＣＵの密度が使用され得る。一般性を失うことなく、説明のための例として、八分木ベースのジオメトリコーディングおよび予測ツリーベースのジオメトリコーディングを使用することができる。当然ながら、他のタイプのジオメトリコーディングモードを適用することもできる。

ジオメトリコーディングモードを決定するために最初に、ＬＣＵの密度が以下の式（２）のように計算され得る：
LCU_density＝ＬＣＵ内の点の数／ＬＣＵのボリューム式（２）

ＬＣＵのボリュームを計算するために、ＬＣＵの公称バウンディングボックスが適用され得る。ＬＣＵの公称バウンディングボックスは、八分木区分深度、八分木区分タイプ、および点群のバウンディングボックスに基づいて決定され得る。例えば、点群のバウンディングボックスが

であり、八分木区分深度ｋであると仮定すると、八分木区分深度ｋにおける各ノード（ＬＣＵ）の公称バウンディングボックスは、

となり得、ここで、八分木区分タイプ（八分木、直交木または二分木区分）に基づいて、ｎ_ｘ≦ｄ_ｘ、ｎ_ｙ≦ｄ_ｙ、ｎ_ｚ≦ｄ_ｚである。したがって、ＬＣＵのボリュームは、以下の式（３）のように計算され得る：

別の実施形態では、ＬＣＵの実際のバウンディングボックスは、ＬＣＵ内の点に基づいて計算され得る。ＬＣＵ内のすべての点の３Ｄ座標は、ｉ＝０、１、．．．、Ｎ－１のとき（ｘ_ｉ、ｙ_ｉ、ｚ_ｉ）と示すことができ、ここで、Ｎは、ＬＣＵ内の点の数である。ｘ、ｙ、およびｚ次元に沿った最小値および最大値は、式（４）～（９）で計算され得る：
ｘ_ｍｉｎ＝ｍｉｎ（ｘ_０，ｘ_１，．．．，ｘ_Ｎ－１）式（４）
ｘ_ｍａｘ＝ｍａｘ（ｘ_０，ｘ_１，．．．，ｘ_Ｎ－１）式（５）
ｙ_ｍｉｎ＝ｍｉｎ（ｙ_０，ｙ_１，．．．，ｙ_Ｎ－１）式（６）
ｙ_ｍａｘ＝ｍａｘ（ｙ_０，ｙ_１，．．．，ｙ_Ｎ－１）式（７）
ｚ_ｍｉｎ＝ｍｉｎ（ｚ_０，ｚ_１，．．．，ｚ_Ｎ－１）式（８）
ｚ_ｍａｘ＝ｍａｘ（ｚ_０，ｚ_１，．．．，ｚ_Ｎ－１）式（９）
ＬＣＵのボリュームは、以下の式（１０）のように計算され得る：
ＬＣＵのボリューム＝（ｘ_ｍａｘ＋１－ｘ_ｍｉｎ）（（ｙ_ｍａｘ＋１－ｙ_ｍｉｎ）（ｚ_ｍａｘ＋１－ｚ_ｍｉｎ）式（１０）

ＬＣＵの密度および１つの閾値Ｄ_ｔｈが与えられると、ジオメトリコーディングモードは、次のように決定され得る：
ＬＣＵ＿Ｄｅｎｓｉｔｙ≦Ｄ_ｔｈである場合、予測ツリーベースのジオメトリコーディングがＬＣＵに対して使用され得る。
そうではなく、ＬＣＵ＿Ｄｅｎｓｉｔｙ≧Ｄ_ｔｈである場合、八分木ベースのジオメトリコーディングがＬＣＵに対して使用され得る。

別の実施形態では、２つの閾値Ｄ_{ｔｈ＿ｌｏｗ}およびＤ_{ｔｈ＿ｈｉｇｈ}が定義され得、ここで、Ｄ_{ｔｈ＿ｌｏｗ}＜Ｄ_{ｔｈ＿ｈｉｇｈ}である。ジオメトリコーディングモードは、次のように決定され得る：
Ｄ_{ｔｈ＿ｌｏｗ}≦ＬＣＵ＿Ｄｅｎｓｉｔｙ≦Ｄ_{ｔｈ＿ｈｉｇｈ}である場合、予測ツリーベースのジオメトリコーディングがＬＣＵに対して使用され得る。
そうではなく、Ｄ_{ｔｈ＿ｌｏｗ}＞ＬＣＵ_{Ｄｅｎｓｉｔｙ}またはＬＣＵ_{Ｄｅｎｓｉｔｙ}＞Ｄ_{ｔｈ＿ｈｉｇｈ}である場合、八分木ベースのジオメトリコーディングがＬＣＵに対して使用され得る。

さらに別の実施形態では、２つの密度閾値Ｄ_{ｔｈ＿ｌｏｗ}とＤ_{ｔｈ＿ｈｉｇｈ}および別の点数閾値Ｎ_ｔｈが定義され得る。ジオメトリコーディングモードは、次のように決定され得る：
Ｄ_{ｔｈ＿ｌｏｗ}≦ＬＣＵ＿Ｄｅｎｓｉｔｙ≦Ｄ_{ｔｈ＿ｈｉｇｈ}かつＮ≧Ｎ_ｔｈである場合、予測ツリーベースのジオメトリコーディングがＬＣＵに対して使用され得る。
そうではなく、Ｄ_{ｔｈ＿ｌｏｗ}＞ＬＣＵ＿ＤｅｎｓｉｔｙもしくはＬＣＵ＿Ｄｅｎｓｉｔｙ＞Ｄ_{ｔｈ＿ｈｉｇｈ}またはＮ＜Ｎ_ｔｈである場合、八分木コーディングがＬＣＵに対して使用され得る。

同様に、複数の密度閾値および点数閾値が定義され、２つ以上の候補の中からジオメトリコーディングモードを決定するために使用され得る。同様の方法を使用して、２つ以上の候補の中から属性コーディングモードが決定され得る。

ＬＣＵに対するジオメトリコーディングモードは異なり得るので、どのジオメトリコーディングモードが使用されるかをデコーダに示すために、シグナリング情報がビットストリームで送られる必要がある。対応するシンタックスは、次のように表１において指定され得る：

表１に示されるように、ジオメトリコーディングモードフラグ（例えば、geometry_coding_mode）は、ＬＣＵをコーディングするために使用されるジオメトリコーディングモードを指定することができる。ジオメトリコーディングモードフラグが０に設定されると、八分木ベースのジオメトリコーディングが適用され得る。ジオメトリコーディングモードフラグが１に設定されると、予測ツリーベースのジオメトリコーディングが使用され得る。したがって、ジオメトリコーディングモードフラグが０に等しいとき、八分木ベースのジオメトリコーディングの使用を指定するために、表１に基づいて第１のシグナリング情報（例えば、octree_lcu_coding()）がシグナリングされ得る。ジオメトリコーディングモードフラグが１に等しいとき、予測ツリーベースのジオメトリコーディングの使用を指定するために、表１に基づいて第２のシグナリング情報（例えば、preditve_tree_lcu_coding()）がシグナリングされ得る。ジオメトリコーディングモードフラグは、コンテキストでエントロピーコーディングされ得ることに留意されたい。別の実施形態では、ジオメトリコーディングモードフラグは、バイパスコーディングでコーディングされてもよい。

別の実施形態では、３つのモードが使用され得る。一般性を失うことなく、３つのジオメトリコーディングモードは、first_mode、second_mode、およびthird_modeとして示され得る。対応するシンタックス表は、次のように表２において指定され得る：

表２に示されるように、ジオメトリコーディングモードフラグ（例えば、geometry_coding_mode）は、ＬＣＵのために使用されるジオメトリコーディングモードを指定することができる。ジオメトリコーディングモードフラグが０に設定されると、first_modeジオメトリコーディングが使用され得る。ジオメトリコーディングモードフラグが１に設定されると、second_modeジオメトリコーディングが使用され得る。そうではなく、ジオメトリコーディングモードフラグが０でも１でもないように設定されると、third_modeジオメトリコーディングが使用され得る。したがって、ジオメトリコーディングモードフラグが０に等しいとき、first_modeジオメトリコーディングの使用を指定するために、表２に基づいて第１のシグナリング情報（例えば、first_mode_lcu_coding()）がシグナリングされ得る。ジオメトリコーディングモードフラグが１に等しいとき、second_modeジオメトリコーディングの使用を指定するために、表２に基づいて第２のシグナリング情報（例えば、second_mode_lcu_coding()）がシグナリングされ得る。ジオメトリコーディングモードフラグが０または１以外の値に設定されているとき、third_modeジオメトリコーディングの使用を指定するために、表２に基づいて第３のシグナリング情報（例えば、third_mode_lcu_coding()）がシグナリングされる。

一般性を失うことなく、第１のモードが最も頻繁に適用され得る。したがって、ジオメトリコーディングモードフラグ（例えば、geometry_coding_mode）は次のように二値化され得る：（ａ）Ｂｉｎ０＝１はfirst_modeを示すことができる、（２）Ｂｉｎ０＝０およびＢｉｎ１＝１はsecond_modｅを示すことができる、ならびに（ｃ）Ｂｉｎ０＝０およびＢｉｎ１＝０はthird_modeを示すことができる、ここで、Ｂｉｎ０およびＢｉｎ１は、別個のコンテキストでエントロピーコーディングされ得る。

提案される方法は、別々に使用されてもよく、または任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダの各々は、処理回路（例えば、１つもしくは複数のプロセッサまたは１つもしくは複数の集積回路）によって実装され得る。一例では、１つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行することができる。

本開示は、ＴＭＣ１３ソフトウェア、ＭＰＥＧ－ＰＣＣ、またはＡＶＳ－ＰＣＣ規格に限定されないことに留意されたい。本開示は、ＰＣＣシステムなどの他のシステムのための一般的な解決策を提供する。

図１８および図１９は、本開示の実施形態によるプロセス（１８００）およびプロセス（１９００）を概説するフローチャートを示す。プロセス（１８００）および（１９００）は、点群に対する符号化および／または復号プロセス中に使用され得る。様々な実施形態では、プロセス（１８００）および（１９００）は、端末デバイス（１１０）内の処理回路、エンコーダ（２０３）および／またはデコーダ（２０１）の機能を実行する処理回路、エンコーダ（３００）、デコーダ（４００）、エンコーダ（５００）、および／またはデコーダ（６００）の機能を実行する処理回路などの処理回路によって実行され得る。いくつかの実施形態では、プロセス（１８００）および（１９００）は、ソフトウェア命令において実装され得、したがって、処理回路がソフトウェア命令を実行するとき、処理回路は、プロセス（１８００）および（１９００）をそれぞれ実行する。

図１８に示されるように、プロセス（１８００）は（Ｓ１８０１）から開始し、（Ｓ１８１０）に進む。

（Ｓ１８１０）において、第１の区分深度において点群に対してジオメトリコーディングが実行され得る。

（Ｓ１８２０）において、第２の区分深度において点群の複数のＬＣＵを決定することができる。

（Ｓ１８３０）において、第２の区分深度において点群の複数のＬＣＵのうちのＬＣＵのコーディング状態が設定され得る。

（Ｓ１８４０）において、第２の区分深度におけるＬＣＵのコーディング状態に基づいて、第２の区分深度において点群の複数のＬＣＵに対してジオメトリコーディングが実行され得る。

一実施形態では、ＬＣＵのコーディング状態は、点群の初期状態を用いて設定され得、ここで、点群の初期状態は、ジオメトリコーディングに基づいて点群から区分されたルートノードにおいて点群がコーディングされる前に取得され得る。

図１９に示されるように、プロセス（１９００）は（Ｓ１９０１）から開始し、（Ｓ１９１０）に進む。

（Ｓ１９１０）において、点群のＬＣＵの密度が決定され得る。ＬＣＵの密度は、ＬＣＵ内の点の数とＬＣＵのボリュームの比であり得る。

（Ｓ１９２０）において、ＬＣＵのジオメトリコーディングモードは、ＬＣＵの密度と第１の閾値とに基づいて決定され得る。

（Ｓ１９３０）において、ジオメトリコーディングモード情報はさらに、ビットストリームでシグナリングされ得る。ジオメトリコーディングモード情報は、ＬＣＵの密度と第１の閾値とに基づくＬＣＵの決定されたジオメトリコーディングモードを示すことができる。

プロセス（１９００）では、ジオメトリコーディングモード情報は、コンテキストでエントロピーコーディングされ得るか、またはバイパスコーディングでコーディングされ得る。

上記のとおり、上述した技法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、１つまたは複数のコンピュータ可読媒体に物理的に記憶され得る。例えば、図２０は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（２０００）を示す。

コンピュータソフトウェアは、１つまたは複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって、直接、または解釈、マイクロコード実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様の機構に従うことができる（subject to）任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム（２０００）について図２０に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定も示唆することを意図するものではない。構成要素の構成は、コンピュータシステム（２０００）の例示的な実施形態に示される構成要素のいずれか１つまたは組合せに関して、依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（２０００）は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（音声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を通して１人または複数の人間ユーザによる入力に反応するものであり得る。ヒューマンインターフェースデバイスはまた、音声（発話、音楽、周囲音など）、画像（走査画像、静止画カメラから得られる写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）のような、人間による意識的入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード（２００１）、マウス（２００２）、トラックパッド（２００３）、タッチスクリーン（２０１０）、データグローブ（図示せず）、ジョイスティック（２００５）、マイクロフォン（２００６）、スキャナ（２００７）、カメラ（２００８）のうちの１つまたは複数（それぞれ１つのみ図示）を含み得る。

コンピュータシステム（２０００）はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触知出力、音、光、および匂い／味を通して、１人または複数の人間ユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（２０１０）、データグローブ（図示せず）、またはジョイスティック（２００５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、音声出力デバイス（スピーカ（２００９）、ヘッドホン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（２０１０）などであり、それぞれタッチスクリーン入力機能を有しても有さなくてもよく、それぞれ触覚フィードバック機能を有しても有さなくてもよく、そのいくつかは、ステレオグラフィック出力などの手段を介して２次元視覚出力または３次元以上の出力を出力することが可能であり得る）、仮想現実メガネ（図示せず）、ホログラフィックディスプレイおよび煙タンク（図示せず）、ならびにプリンタ（図示せず）を含み得る。

コンピュータシステム（２０００）はまた、ＣＤ／ＤＶＤまたは同様の媒体（２０２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（２０２０）を含む光学媒体、サムドライブ（２０２２）、リムーバブルハードドライブまたはソリッドステートドライブ（２０２３）、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなど、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含むことができる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（２０００）はまた、１つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光であり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネットなどのローカルエリアネットワーク、ワイヤレスＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上波放送ＴＶを含むＴＶワイヤラインまたはワイヤレスワイドエリアデジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業用などが挙げられる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（２０４９）（例えば、コンピュータシステム（２０００）のＵＳＢポートなど）に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下で説明するようにシステムバスへの取付けによってコンピュータシステム（２０００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（２０００）は他のエンティティと通信することができる。そのような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、双方向、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへのものであり得る。特定のプロトコルおよびプロトコルスタックは、上述したようなネットワークおよびネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（２０００）のコア（２０４０）に取り付けられ得る。

コア（２０４０）は、１つまたは複数の中央処理装置（ＣＰＵ）（２０４１）、グラフィックス処理装置（ＧＰＵ）（２０４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）の形態の専用プログラマブル処理装置（２０４３）、特定のタスクのためのハードウェアアクセラレータ（２０４４）などを含むことができる。これらのデバイスは、読取り専用メモリ（ＲＯＭ）（２０４５）、ランダムアクセスメモリ（２０４６）、ユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量ストレージ（２０４７）と共に、システムバス（２０４８）を通して接続され得る。いくつかのコンピュータシステムでは、システムバス（２０４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス（２０４８）に直接、または周辺バス（２０４９）を通して取り付けられ得る。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどがある。

ＣＰＵ（２０４１）、ＧＰＵ（２０４２）、ＦＰＧＡ（２０４３）、およびアクセラレータ（２０４４）は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。コンピュータコードは、ＲＯＭ（２０４５）またはＲＡＭ（２０４６）に記憶され得る。遷移データもＲＡＭ（２０４６）に記憶され得、永久データは、例えば、内部大容量ストレージ（２０４７）に記憶され得る。任意のメモリデバイスへの高速記憶および取出しは、１つまたは複数のＣＰＵ（２０４１）、ＧＰＵ（２０４２）、大容量ストレージ（２０４７）、ＲＯＭ（２０４５）、ＲＡＭ（２０４６）などと密接に関連付けられ得る、キャッシュメモリを用いて可能にされ得る。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計され構築されたものであってもよく、またはコンピュータソフトウェア分野の当業者に周知であり利用可能な種類のものであってもよい。

限定ではなく一例として、アーキテクチャ（２０００）、具体的にはコア（２０４０）を有するコンピュータシステムは、プロセッサ（複数可）（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つまたは複数の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようなユーザがアクセス可能な大容量ストレージに関連付けられた媒体だけでなく、コア部大容量ストレージ（２０４７）またはＲＯＭ（２０４５）などの非一時的な性質であるコア（２０４０）の特定のストレージであってもよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア（２０４０）によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（２０４０）および具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（２０４６）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスにしたがってそのようなデータ構造を修正することを含む、本明細書で説明される特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書で説明される特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、またはそれとともに動作することができる、回路（例えば、アクセラレータ（２０４４））においてハードワイヤードまたは別様に具現化されたロジックの結果として機能を提供することができる。ソフトウェアへの言及は、適切な場合、ロジックを包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組合せを包含する。

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替同等物がある。したがって、当業者であれば、本明細書で明示的に示されていないまたは説明されてないが、本開示の原理を具現化し、したがって本開示の精神および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

Claims

点群エンコーダにおける点群ジオメトリ符号化の方法であって、
第１の区分深度において点群に対してジオメトリコーディングを実行するステップと、
第２の区分深度において前記点群の複数の最大コーディング単位（ＬＣＵ）を決定するステップと、
前記第２の区分深度において前記点群の前記複数のＬＣＵのうちのＬＣＵのコーディング状態を設定するステップと、
前記第２の区分深度における前記ＬＣＵの前記コーディング状態に基づいて、前記第２の区分深度において前記点群の前記複数のＬＣＵに対して前記ジオメトリコーディングを実行するステップと
を含む方法。
前記ジオメトリコーディングは、八分木ベースのジオメトリコーディングおよび予測ツリーベースのコーディングのうちの１つを含む、請求項１に記載の方法。
前記ＬＣＵの前記コーディング状態を設定する前記ステップは、
前記点群の初期状態を用いて前記ＬＣＵの前記コーディング状態を設定するステップを含み、前記点群の前記初期状態は、前記ジオメトリコーディングに基づいて前記点群がコーディングされる前に取得される、
請求項１に記載の方法。
前記ＬＣＵの前記コーディング状態を設定する前記ステップは、
前記ＬＣＵが前記第２の区分深度における前記点群の前記複数のＬＣＵのうちの第１のＬＣＵであることに基づいて、前記点群が前記第１の区分深度における前記ジオメトリコーディングに基づいてコーディングされた後に取得された前記コーディング状態を記憶するステップ
を含む、請求項１に記載の方法。
前記ＬＣＵの前記コーディング状態を設定する前記ステップは、
前記ＬＣＵが前記第２の区分深度における前記点群の前記複数のＬＣＵのうちの第１のＬＣＵではないことに基づいて、（ｉ）前記点群が前記第１の区分深度における前記ジオメトリコーディングに基づいてコーディングされた後に取得されるか、または（ｉｉ）前記点群の前記複数のＬＣＵのうちの前記第１のＬＣＵが前記第２の区分深度における前記ジオメトリコーディングに基づいてコーディングされる前に記憶されるか記憶されたコーディング状態を用いて前記ＬＣＵの前記コーディング状態を設定するステップ
を含む、請求項１に記載の方法。
前記コーディング状態は、前記ＬＣＵに関連付けられたエントロピーコーディングのためのコンテキストまたは前記ＬＣＵに関連付けられたジオメトリ占有履歴情報のうちの少なくとも１つを備える、請求項１に記載の方法。
前記複数のＬＣＵの各々は、前記第２の区分深度においてそれぞれのノードを含む、請求項１に記載の方法。
点群エンコーダにおける点群ジオメトリ符号化の方法であって、
点群の最大コーディング単位（ＬＣＵ）の密度を決定するステップと、ここで、前記ＬＣＵの前記密度は、前記ＬＣＵにおける点の数と前記ＬＣＵのボリュームの比であり、
前記ＬＣＵの前記密度と第１の閾値とに基づいて前記ＬＣＵのジオメトリコーディングモードを決定するステップと、
ビットストリームでジオメトリコーディングモード情報をシグナリングするステップと、ここで、前記ジオメトリコーディングモード情報は、前記ＬＣＵの前記密度と前記第１の閾値とに基づく前記ＬＣＵの前記決定されたジオメトリコーディングモードを示す、
方法。
前記ＬＣＵの前記ジオメトリコーディングモードを決定する前記ステップは、
前記ＬＣＵの前記密度が前記第１の閾値以下であることに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが予測ツリージオメトリコーディングであると決定するステップと、
前記ＬＣＵの前記密度が前記第１の閾値よりも大きいことに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが八分木ベースのジオメトリコーディングであると決定するステップとをさらに含む、請求項８に記載の方法。
前記ＬＣＵの前記ジオメトリコーディングモードを決定する前記ステップは、
前記ＬＣＵの前記密度が前記第１の閾値以上第２の閾値以下であることに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが予測ツリージオメトリコーディングであると決定するステップと、ここで、前記第２の閾値は、前記第１の閾値よりも大きい、
前記ＬＣＵの前記密度が前記第１の閾値よりも小さいかまたは前記第２の閾値よりも大きいかのいずれかであることに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが八分木ベースのジオメトリコーディングであると決定するステップと
をさらに含む、請求項８に記載の方法。
前記ＬＣＵの前記ジオメトリコーディングモードを決定する前記ステップは、
（ｉ）前記ＬＣＵの前記密度が前記第１の閾値以上第２の閾値以下であり、かつ、（ｉｉ）前記ＬＣＵ内の点の数が点数閾値以上であることに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが予測ツリージオメトリコーディングであると決定するステップと、
（ｉ）前記ＬＣＵの前記密度が前記第１の閾値よりも小さいかまたは前記第２の閾値よりも大きいかのいずれかであること、および（ｉｉ）前記ＬＣＵ内の前記点の数が前記点数閾値よりも小さいことのうちの１つに基づいて、前記ＬＣＵの前記ジオメトリコーディングモードが八分木ベースのジオメトリコーディングであると決定するステップと
をさらに含む、請求項８に記載の方法。
前記ジオメトリコーディングモード情報をシグナリングする前記ステップは、
前記ジオメトリコーディングモードが第１のジオメトリコーディングモードであることに基づいて、第１の値を用いて前記ジオメトリコーディングモード情報をシグナリングするステップと、
前記ジオメトリコーディングモードが第２のジオメトリコーディングモードであることに基づいて、第２の値を用いて前記ジオメトリコーディングモード情報をシグナリングするステップと
をさらに含む、請求項８に記載の方法。
前記ジオメトリコーディングモード情報は、コンテキストでエントロピーコーディングされるか、またはバイパスコーディングでコーディングされる、請求項８に記載の方法。
前記ジオメトリコーディングモード情報をシグナリングする前記ステップは、
前記ジオメトリコーディングモードが第１のジオメトリコーディングモードであることに基づいて、第１の値を用いて前記ジオメトリコーディングモード情報をシグナリングするステップと、
前記ジオメトリコーディングモードが第２のジオメトリコーディングモードであることに基づいて、第２の値を用いて前記ジオメトリコーディングモード情報をシグナリングするステップと、
前記ジオメトリコーディングモードが第３のジオメトリコーディングモードであることに基づいて、第３の値を用いて前記ジオメトリコーディングモード情報をシグナリングするステップと
をさらに含む、請求項８に記載の方法。
前記ジオメトリコーディングモード情報をシグナリングする前記ステップは、
第１のビンのみにおける第１の値を有する二値化情報が第１のジオメトリコーディングモードを示すことに基づいて、前記第１の値を用いて前記二値化情報をシグナリングするステップと、
前記第１のビンにおける第２の値および続の第２のビンにおける前記第１の値を有する前記二値化情報が第２のジオメトリコーディングモードを示すことに基づいて、前記第１のビンにおける前記第２の値および前記第２のビンにおける前記第１の値を用いて情報をシグナリングするステップと、
前記第１のビンにおける前記第２の値および前記第２のビンにおける前記第２の値を有する前記二値化情報が前記第３のジオメトリコーディングモードを示すことに基づいて、前記第１のビンおよび前記第２のビンにおける前記第２の値を有する前記二値化情報をシグナリングすることと
をさらに含む、請求項１４に記載の方法。
前記第１のビンにおける前記二値化情報は、第１のコンテキストでエントロピーコーディングされ、前記第２のビンにおける前記二値化情報は、第２のコンテキストでエントロピーコーディングされる、請求項１５に記載の方法。
点群データを処理するための装置であって、
請求項１から７のいずれか一項に記載の方法の各ステップを実行する手段を含む処理回路を備える、装置。