JP7118278B2

JP7118278B2 - 符号化された点群データの分割

Info

Publication number: JP7118278B2
Application number: JP2021534783A
Authority: JP
Inventors: ビョンドゥ・チェ; アーラシュ・ヴォソウギ; セフン・ヤ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-03-15
Filing date: 2020-03-12
Publication date: 2022-08-15
Anticipated expiration: 2040-03-12
Also published as: CN113557729A; WO2020190619A1; US11159811B2; US11683513B2; JP2022512509A; US20210400292A1; US20200296394A1; EP3939293A4; EP3939293A1; CN113557729B

Description

本出願は、２０１９年３月１５日に出願された米国仮出願第６２／８１９，５０４号及び２０２０年３月１０日に出願された米国出願第１６／８１４，３５０号の優先権を主張し、両者の全ての開示内容は、参照により本明細書に組み込まれるものとする。

本開示は、一連の高度なビデオ符号化技術、より具体的には、ビデオベースの点群圧縮に関する。

世界の高度な３次元（３Ｄ）表現により、より没入型の対話とコミュニケーションが可能になる。また、マシンが我々の世界を理解し、解釈し、ナビゲートすることが可能になる。点群は、世界の３Ｄ表現として広く使用されている。点群データに関連するいくつかの使用例が特定されており、点群の表現と圧縮に対応するいくつかの要件が開発されている。

本開示のいくつかの実施形態は、符号化された点群ビットストリームにおける分割情報のシグナリングのための技術を提供する。本開示のＶ－ＰＣＣ（ｖｉｄｅｏ－ｂａｓｅｄｐｏｉｎｔｃｌｏｕｄｃｏｍｐｒｅｓｓｉｏｎ）スキームは、点群圧縮のために一般的なビデオコーデックを利用することができる。本開示のいくつかの実施形態は、部分的な符号化、配信、及び符号化された点群ビットストリームの復号を可能にする機能を提供する。

いくつかの実施形態では、少なくとも１つのプロセッサを用いてビデオストリームを復号する方法を提供する。前記方法は、前記ビデオストリームを受信するステップを含み、前記ビデオストリームは、複数の２次元（２Ｄ）ピクチャのフレームであって、前記複数の２次元（２Ｄ）ピクチャが前記フレームの複数の層であり、前記複数の２Ｄピクチャの各々が同じ３次元（３Ｄ）表現のそれぞれの属性を有するものである、フレームと、前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の２Ｄピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームの１つのサブフレームに対応する３Ｄ位置を特定する３Ｄバウンディングボックス情報とを含む。前記方法は、前記フレーム分割情報を使用して前記サブフレームを識別するステップと、識別された前記サブフレームを復号するステップと、をさらに含む。

一実施形態では、受信された前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも１つを特定する２Ｄバウンディングボックス情報を含む。

一実施形態では、前記３Ｄバウンディングボックス情報は、前記２Ｄバウンディングボックス情報で特定された２Ｄバウンディングボックスの３Ｄ位置を特定して、前記方法は、識別された前記サブフレームを復号した後に、前記３Ｄバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む。

一実施形態では、前記複数の２Ｄピクチャは、第１のピクチャ、第２のピクチャ及び第３のピクチャを含み、前記第１のピクチャがテクスチャ画像であり、前記第２のピクチャが幾何学的な画像であり、前記第３のピクチャが占有マップである。

一実施形態では、前記方法は、識別された前記サブフレームを復号した後に、前記３Ｄバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む。

一実施形態では、前記方法は、前記サブフレームが個別に符号化されているか否かを判定するステップをさらに含み、前記サブフレームが個別に符号化されていると判定された場合に、前記サブフレームを復号する前記ステップでは、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号する。

一実施形態では、受信された前記ビデオストリームは、前記フレーム分割情報及び前記３Ｄバウンディングボックス情報を含むフレームパラメータセットを含む。

一実施形態では、前記ビデオストリームは、複数の２Ｄピクチャの追加フレームであって、前記複数の２Ｄピクチャが前記追加フレームの複数の層であり、前記追加フレームの前記複数の２Ｄピクチャの各々が同じ追加の３Ｄ表現のそれぞれの属性を有する、追加フレームをさらに含み、前記方法は、前記フレームの前記サブフレームを識別するための前記フレーム分割情報を使用して、前記追加フレームのサブフレームを識別するステップと、識別された前記追加フレームの前記サブフレームを復号するステップと、をさらに含む。

いくつかの実施形態では、ビデオストリームを復号するシステムを提供する。前記システムは、コンピュータプログラムコードを記憶するメモリと、前記ビデオストリームを受信し、前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの命令通りに動作する少なくとも１つのプロセッサと、を備え、前記ビデオストリームは、複数の２次元（２Ｄ）ピクチャのフレームであって、前記複数の２次元（２Ｄ）ピクチャが前記フレームの複数の層であり、前記複数の２Ｄピクチャの各々が同じ３次元（３Ｄ）表現のそれぞれの属性を有するものである、フレームと、前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の２Ｄピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームの１つのサブフレームに対応する３Ｄ位置を特定する３Ｄバウンディングボックス情報とを含み、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、前記フレーム分割情報を使用して前記サブフレームを識別させる識別コードと、前記少なくとも１つのプロセッサに、識別された前記サブフレームを復号させる復号コードとを含む。

一実施形態では、前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも１つを特定する２Ｄバウンディングボックス情報を含む。

一実施形態では、前記３Ｄバウンディングボックス情報は、前記２Ｄバウンディングボックス情報で特定された２Ｄバウンディングボックスの３Ｄ位置を特定するものであり、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、前記３Ｄバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得させるように構成される取得コードをさらに含む。

一実施形態では、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、識別された前記サブフレームを復号した後、前記３Ｄバウンディングボックス情報を使用して前記ビデオストリームから点群を取得させる取得コードをさらに含む。

一実施形態では、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、前記サブフレームが個別に符号化されているか否かを判定させる判定コードをさらに含み、前記サブフレームが個別に符号化されていると判定された場合に、前記復号コードは、前記少なくとも１つのプロセッサに、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号させる。

一実施形態では、前記ビデオストリームは、前記フレーム分割情報及び前記３Ｄバウンディングボックス情報を含むフレームパラメータセットを含む。

いくつかの実施形態では、コンピュータ命令を記憶する非一時的なコンピュータ読取可能な媒体を提供する。前記コンピュータ命令は、少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、フレーム分割情報を使用して、前記少なくとも１つのプロセッサによって受信されたビデオストリームからサブフレームを識別させ、識別された前記サブフレームを復号させ、そして、識別された前記サブフレームを復号した後、３Ｄバウンディングボックス情報を使用して前記ビデオストリームから点群を取得させ、前記ビデオストリームは、複数の２次元（２Ｄ）ピクチャのフレームであって、前記複数の２次元（２Ｄ）ピクチャが前記フレームの複数の層であり、前記複数の２Ｄピクチャの各々が同じ３次元（３Ｄ）表現のそれぞれの属性を有するものである、フレームと、前記フレームが前記サブフレームを含む複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の２Ｄピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームのうちの前記サブフレームに対応する３Ｄ位置を特定する３Ｄバウンディングボックス情報とを含む。

開示された主題のさらなる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

一実施形態による通信システムの簡略化されたブロック図の概略図である。一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。一実施形態によるビデオエンコーダの簡略化されたブロック図の概略図である。一実施形態によるビデオデコーダの簡略化されたブロック図の概略図である。一実施形態による幾何学的な画像の例を示す。一実施形態によるテクスチャ画像の例を示す。一実施形態による、３Ｄ点群フレーム及び該３Ｄ点群フレームに対応するフレームを示す図である。一実施形態によるフレームの構成要素を示す図である。一実施形態によって実行されるプロセスを示す流れ図である。一実施形態によるデバイスを示す図である。実施形態を実施することに適するコンピュータシステムの図である。

点群は、各々が関連付けられた属性、例えば、色、材料特性などを有する３Ｄ空間内の点のセットである。複数の点群は、そのような点の合成としてオブジェクト又はシーンを再構築するために使用することができる。それらは、様々なセットアップで複数のカメラと深度センサを使用して取り込むことができ、再構築されたシーンをリアルに表現するために、数千から数十億の点で構成されてもよい。

点群を表現することに必要なデータの量を低減するために、圧縮技術が必要になる。そのため、リアルタイム通信及び６ＤｏＦ（ＤｅｇｒｅｅｓｏｆＦｒｅｅｄｏｍ）仮想現実に使用される点群の非可逆圧縮の技術が必要になる場合がある。また、自動運転及び文化遺産の用途などのための動的マッピングにおいて、可逆点群圧縮の技術的機器が求められている。ＭＰＥＧは、色及び反射率などの幾何学的形状と属性の圧縮、スケーラブル・プログレッシブ符号化、経時的に取り込まれた点群のシーケンスの符号化、及び点群のサブセットへのランダムアクセスに対処するための標準に取り組み始めている。

Ｖ－ＰＣＣ（ｖｉｄｅｏ－ｂａｓｅｄｐｏｉｎｔｃｌｏｕｄｃｏｍｐｒｅｓｓｉｏｎ）に係る主な原理は、既存のビデオコーデックを利用して、動的点群の幾何学的形状、占有率及びテクスチャを３つの別個のビデオシーケンスとして圧縮することである。３つのビデオシーケンスを解釈することに必要な追加のメタデータは、別々に圧縮されてもよい。ビットストリーム全体のごく一部は、ソフトウェア実装を使用して効率的に符号化／復号できるメタデータである。情報の大部分は、ビデオコーデックによって処理することができる。

図１～４を参照すると、本開示の符号化／復号構造を実施するための本開示の実施形態が記載されている。本開示の符号化／復号構造は、上記Ｖ－ＰＣＣの態様を実施してもよい。

図１は、本開示の一実施形態による通信システム１００の簡略化されたブロック図を示す。システム１００は、ネットワーク１５０を介して相互接続された少なくとも２つの端末１１０、１２０を含んでもよい。データの単方向送信の場合、第１の端末１１０は、ネットワーク１５０を介して他方の端末１２０に送信するために、ローカル位置でビデオデータを符号化することができる。第２の端末１２０は、ネットワーク１５０から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータを表示することができる。単方向データ送信は、媒体供給用途などで一般的である可能性がある。

図１は、例えばビデオ会議中に発生する符号化されたビデオの双方向送信をサポートするために設けられる第２の対の端末１３０、１４０を示す。データの双方向送信の場合、各端末１３０、１４０は、ネットワーク１５０を介して他の端末に送信するために、ローカル位置で取り込まれたビデオデータを符号化することができる。各端末１３０、１４０は、さらに、他の端末によって送信された符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータをローカル表示デバイスに表示することができる。

図１において、上記の端末１１０～１４０は、例えば、サーバ、パーソナルコンピュータ、及びスマートフォン、及び／又はいずれかのタイプの端末であってもよい。例えば、端末１１０～１４０は、ラップトップコンピュータ、タブレットコンピュータ、媒体プレーヤー、及び／又は専用のビデオ会議機器であってもよい。ネットワーク１５０は、例えば有線及び／又は無線通信ネットワークを含む、端末１１０～１４０の間で符号化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク１５０は、回線交換及び／又はパケット交換チャネルにおいてデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／又はインターネットを含む。本議論の目的のために、ネットワーク１５０のアーキテクチャ及びトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない可能性がある。

図２は、開示された主題の用途の例として、ストリーミング環境におけるビデオエンコーダ及びデコーダの配置を示す。開示された主題は、例えばビデオ会議、デジタルＴＶ、及びＣＤ、ＤＶＤ、及びメモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶を含む、他のビデオ利用可能な用途と共に使用することができる。

図２に示されるように、ストリーミングシステム２００は、ビデオソース２０１及びエンコーダ２０３を有するサブシステム２１３を含んでもよい。ストリーミングシステム２００は、少なくとも１つのストリーミングサーバ２０５及び／又は少なくとも１つのストリーミングクライアント２０６をさらに含んでもよい。

ビデオソース２０１は、例えば、３Ｄビデオに対応する３Ｄ点群を含むストリーム２０２を作成することができる。ビデオソース２０１は、例えば、３Ｄセンサ（例えば、深度センサ）又は３Ｄイメージングの技術的機器（例えば、デジタルカメラ）と、３Ｄセンサ又は３Ｄイメージングの技術的機器から受信されたデータを使用して３Ｄ点群を生成するように構成されたコンピューティングデバイスとを含んでもよい。符号化されたビデオビットストリームと比較すると、大きいデータ量を有する可能性があるサンプルストリーム２０２は、ビデオソース２０１に結合されたエンコーダ２０３によって処理されることができる。エンコーダ２０３は、以下でより詳細に説明されるように、開示された主題の態様を可能にするか又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。エンコーダ２０３は、さらに、符号化されたビデオビットストリーム２０４を生成することができる。非圧縮ストリーム２０２と比較すると、小さいデータ量を有する可能性がある符号化されたビデオビットストリーム２０４は、将来の使用のためにストリーミングサーバ２０５に記憶することができる。１つ以上のストリーミングクライアント２０６は、ストリーミングサーバ２０５にアクセスして、符号化されたビデオビットストリーム２０４のコピーであるビデオビットストリーム２０９を検索することができる。

ストリーミングクライアント２０６は、ビデオデコーダ２１０及び表示装置２１２を含むことができる。ビデオデコーダ２１０は、例えば、符号化されたビデオビットストリーム２０４の着信コピーであるビデオビットストリーム２０９を復号し、表示装置２１２又は別のレンダリングデバイス（図示せず）上でレンダリングすることができる発信ビデオサンプルストリーム２１１を作成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム２０４、２０９は、特定のビデオ符号化／圧縮標準に従って符号化することができる。このような標準の例は、ＩＴＵ－Ｔ勧告Ｈ．２６５、ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）、及びＭＰＥＧ／Ｖ－ＰＣＣを含むが、これらに限定されない。

図３～４を参照すると、以下には、本開示の実施形態によって実行できるＶ－ＰＣＣのいくつかの態様が記載されている。

図３は、本開示の実施形態によるビデオエンコーダ２０３の例示的な機能ブロック図を示す。

図３に示されるように、ビデオエンコーダ２０３は、点群フレーム３５０を受信し、点群フレーム３５０に基づいて、幾何学的な画像３５２、テクスチャ画像３５６及び占有マップ３３４を生成することができる。ビデオエンコーダ２０３は、幾何学的な画像３５２を圧縮された幾何学的な画像３６２に、テクスチャ画像３５６を圧縮されたテクスチャ画像３６４に、占有マップ３３４を圧縮された占有マップ３７２に圧縮することができる。ビデオエンコーダ２０３のマルチプレクサ３２８は、圧縮された幾何学的な画像３６２、圧縮されたテクスチャ画像３６４及び圧縮された占有マップ３７２を含む圧縮されたビットストリーム３７４を形成することができる。

より具体的には、実施形態では、ビデオエンコーダ２０３は、点群フレーム３５０をパッチにセグメント化するパッチ生成モジュール３０２を含んでもよい。パッチは、Ｖ－ＰＣＣの有用なエンティティである。パッチ生成プロセスは、再構築エラーを最小限に抑えながら、点群フレーム３５０を、滑らかな境界を有する最小数のパッチに分解することを含む。本開示のエンコーダは、そのような分解を生成するための様々な方法を実施することができる。

ビデオエンコーダ２０３は、パッキングプロセスを実行するパッチパッキングモジュール３０４を含んでもよい。パッキングプロセスは、未使用の空間を最小限に抑えながら、抽出されたパッチを２Ｄグリッドにマッピングし、グリッドのすべてのＭ×Ｍ（例えば、１６×１６）ブロックが一意のパッチに関連付けられることを確保することを含む。効率的なパッチパッキングは、未使用の空間を最小限に抑えるか又は時間的整合性を保証することにより、直接的に圧縮効率に影響を与える。パッチパッキングモジュール３０４は、占有マップ３３４を生成することができる。

ビデオエンコーダ２０３は、幾何学的な画像生成モジュール３０６及びテクスチャ画像生成モジュール３０８を含んでもよい。複数の点が同じサンプルに投影されることをより良く取り扱うために、各パッチは、２つの画像（層と呼ばれる）に投影されてもよい。例えば、幾何学的な画像生成モジュール３０６及びテクスチャ画像生成モジュール３０８は、パッチパッキングモジュール３０４のパッキングプロセス中に計算された３Ｄから２Ｄへのマッピングを利用して、点群の幾何学的形状及びテクスチャを画像（層ともいう）として記憶することができる。生成された複数の画像や層は、ビデオフレームとして記憶され、パラメータとして提供される構成に従って、ビデオコーデック（例えば、ＨＭビデオコーデック）を使用して圧縮されてもよい。

実施形態では、入力された点群フレーム３５０及び占有マップ３３４に基づいて、幾何学的な画像生成モジュール３０６は、幾何学的な画像３５２を生成し、テクスチャ画像生成モジュール３０８は、テクスチャ画像３５６を生成する。幾何学的な画像３５２の例が図５に示され、テクスチャ画像３５６の例が図６に示される。一実施形態では、幾何学的な画像３５２は、ＹＵＶ４２０－８ビットフォーマットのＷｘＨの単色フレームによって表現されてもよい。一実施形態では、占有マップ３３４の画像は、グリッドの各セルが空き空間に属するか又は点群に属するかを示すバイナリマップからなる。テクスチャ画像３５６を生成するために、テクスチャ画像生成モジュール３０８は、再構築／平滑化された幾何学的形状３５８を利用して、再サンプリングされた点に関連付けられる色を計算することができる。

ビデオエンコーダ２０３は、それぞれ幾何学的な画像３５２及びテクスチャ画像３５６をパディングして、パディングされた幾何学的な画像３５４及びパディングされたテクスチャ画像３６０を形成するための画像パディングモジュール３１４及び画像パディングモジュール３１６を含んでもよい。画像のパディング（背景充填ともいう）は、画像の未使用の空間を冗長な情報で充填するだけである。優れた背景充填は、パッチ境界の周囲に大きな符号化歪みを導入せずにビットレートの増加を最小限に抑えることである。画像パディングモジュール３１４及び画像パディングモジュール３１６は、占有マップ３３４を使用して、それぞれパディングされた幾何学的な画像３５４及びパディングされたテクスチャ画像３６０を形成することができる。一実施形態では、ビデオエンコーダ２０３は、パディングされたテクスチャ画像３６０を形成するためのグループ拡張モジュール３２０を含んでもよい。

ビデオエンコーダ２０３は、パディングされた幾何学的な画像３５４及びパディングされたテクスチャ画像３６０をそれぞれ圧縮された幾何学的な画像３６２及び圧縮されたテクスチャ画像３６４に圧縮するためのビデオ圧縮モジュール３２２及びビデオ圧縮モジュール３２４を含んでもよい。

ビデオエンコーダ２０３は、占有マップ３３４の可逆符号化３６６のためのエントロピー圧縮モジュール３１８と、占有マップ３３４の非可逆符号化３６８のためのビデオ圧縮モジュール３２６とを含んでもよい。

実施形態では、ビデオエンコーダ２０３は、ビデオ圧縮モジュール３２２によって提供される再構築された幾何学的な画像３６５と、パッチ情報３３２とを使用することによって平滑化された幾何学的形状３５８を生成するための平滑化モジュール３１０を含んでもよい。平滑化モジュール３１０の平滑化手順は、圧縮アーチファクトによりパッチ境界で生じる可能性がある潜在的な不連続性を軽減することを目的としてもよい。平滑化された幾何学的形状３５８をテクスチャ画像生成モジュール３０８によって使用して、テクスチャ画像３５６を生成することができる。

ビデオエンコーダ２０３は、マルチプレクサ３２８によって得られた圧縮されたビットストリーム３７４で提供される圧縮された補助パッチ情報３７０を形成するための補助パッチ情報圧縮モジュール３１２を含んでもよい。

図４は、本開示の実施形態によるビデオデコーダ２１０の例示的な機能ブロック図を示す。

図４に示されるように、ビデオデコーダ２１０は、ビデオエンコーダ２０３から符号化されたビットストリーム３７４を受信して、圧縮されたテクスチャ画像３６２と、圧縮された幾何学的な画像３６４と、圧縮された占有マップ３７２と、圧縮された補助パッチ情報３７０とを取得することができる。ビデオデコーダ２１０は、圧縮されたテクスチャ画像３６２、圧縮された幾何学的な画像３６４、圧縮された占有マップ３７２及び圧縮された補助パッチ情報３７０を復号して、それぞれ解凍されたテクスチャ画像４６０、解凍された幾何学的な画像４６２、解凍された占有マップ４６４、及び解凍された補助パッチ情報４６６を取得することができる。続いて、ビデオデコーダ２１０は、解凍されたテクスチャ画像４６０、解凍された幾何学的な画像４６２、解凍された占有マップ４６４、及び解凍された補助パッチ情報４６６に基づいて、再構築された点群４７４を生成することができる。

実施形態では、ビデオデコーダ２１０は、圧縮されたテクスチャ画像３６２、圧縮された幾何学的な画像３６４、圧縮された占有マップ３７２、及び受信された圧縮されたビットストリーム３７４の圧縮された補助パッチ情報３７０を分離するデマルチプレクサ４０２を含んでもよい。

ビデオデコーダ２１０は、圧縮されたテクスチャ画像３６２、圧縮された幾何学的な画像３６４、圧縮された占有マップ３７２、及び圧縮された補助パッチ情報３７０をそれぞれ復号するビデオ解凍モジュール４０４、ビデオ解凍モジュール４０６、占有マップ解凍モジュール４０８、及び補助パッチ情報解凍モジュール４１０を含んでもよい。

ビデオデコーダ２１０は、解凍された幾何学的な画像４６２、解凍された占有マップ４６４、及び解凍された補助パッチ情報４６６に基づいて、再構築された（３次元）幾何学的形状４６８を取得する幾何学的形状再構築モジュール４１２を含んでもよい。

ビデオデコーダ２１０は、再構築された幾何学的形状４６８を平滑化して、平滑化された幾何学的形状４７０を取得する平滑化モジュール４１４を含んでもよい。平滑化手順は、圧縮アーチファクトによりパッチ境界で生じる可能性がある潜在的な不連続性を軽減することを目的としてもよい。

ビデオデコーダ２１０は、解凍されたテクスチャ画像４６０及び平滑化された幾何学的形状４７０に基づいて、再構築されたテクスチャ４７２を取得するためのテクスチャ再構築モジュール４１６を含んでもよい。

ビデオデコーダ２１０は、再構築されたテクスチャ４７２の色を平滑化して、再構築された点群４７４を取得する色平滑化モジュール４１８を含んでもよい。３Ｄ空間内の隣接していないパッチは、２Ｄビデオにおいて互いに隣接してパッキングされる場合が多い。これは、隣接していないパッチのピクセル値がブロックベースのビデオコーデックによって混同される可能性があることを意味する。色平滑化モジュール４１８の色平滑化は、パッチ境界に現れる可視アーチファクトを低減することを目的としてもよい。

上記のように、入力された群は、いくつかのパッチにセグメント化され、占有マップ、幾何学的な画像及びテクスチャ画像などの３つの２Ｄ画像にパッキングされてもよい。次に、これらの画像は、例えば、ＨＥＶＣなどの符号化標準によって圧縮される。

点群圧縮システムが３Ｄバウンディングボックスの形で関心領域（ＲＯＩ）を使用することは有利である。したがって、コンテンツ認識点群圧縮システムが以下の機能（１）～（４）のすべて（又は一部）を満たすことは有利である。（１）ＲＯＩは、点群の他の部分よりも高品質で符号化され、（２）ＲＯＩは、完全に復号せずに空間ランダムアクセスを容易にするために、点群の他の部分から個別に符号化され、（３）ＲＯＩの独立した符号化は、独立した（並列）符号化／復号に関するシステム要件と調和し、（４）複数のＲＯＩがサポートされる。

本開示のいくつかの実施形態は、上記機能のうちの１つ以上を含んでもよい。本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わせて使用されてもよい。さらに、方法、エンコーダ及びデコーダを含む本開示の各実施形態は、処理回路（例えば、１つ以上のプロセッサ又は１つ以上の集積回路）によって実施されてもよい。実施形態では、１つ以上のプロセッサは、非一時的なコンピュータ可読媒体に記憶されているプログラムを実行して、本開示の方法、エンコーダ及びデコーダの機能を実行することができる。

本開示の実施形態は、例えば、以下の点群圧縮機能（1）及び（２）を達成することができる。（１）並列符号化及び復号。本開示の実施形態は、ビットレートオーバーヘッドに関して低コストで並列処理の実装を提供することができる。（２）空間ランダムアクセス。本開示の実施形態は、ビデオストリームのビットストリーム全体を復号する必要がなく、領域に対応する点群を復号することができる。

いくつかの実施形態によれば、上記機能のうちの１つ以上は、以下に説明するようなサブフレーム設計で達成することもできる。

図７を参照すると、ビデオストリームは、複数のフレーム５２０の符号化されたバージョンを備えてもよく、フレーム５２０は、例えばビデオソース２０１によって取得されてもよく、例えば表示装置２１２によって視認可能である３Ｄ点群フレーム５１０にそれぞれ対応する。フレーム５２０の各々は、フレームの複数の層である複数の２次元ピクチャを含んでもよく、フレームの各ピクチャは、対応する３Ｄ点群フレーム５１０の特定の属性を示す。例えば、単一のフレーム５２０を示す図８を参照すると、複数の２次元ピクチャは、例えば、幾何学的な画像５２２、テクスチャ画像５２４、及び占有マップ５２６などの３つのピクチャを含んでもよい。そのようなピクチャは、上記幾何学的な画像３５２、テクスチャ画像３５６、及び占有マップ３３４と同じであってもよく、類似性を共有してもよい。

各フレーム５２０は、複数のサブフレームに分割されてもよく、各サブフレームは、複数の２次元ピクチャの各々の一部（例えば、幾何学的な画像の一部、テクスチャ画像の一部、及び占有マップの一部）を含んでもよい。１つ以上のサブフレームは、ＲＯＩに対応してもよい。例えば、図８を参照すると、フレーム５２０は、サブフレームＡ、サブフレームＢ、サブフレームＣ、サブフレームＤ及びサブフレームＥを含んでもよい。サブフレームＡ～Ｅの各々は、幾何学的な画像５２２、テクスチャ画像５２４及び占有マップ５２６の一部を含む。１つ以上のサブフレームＡ～Ｅは、ＲＯＩに対応してもよい。

いくつかの実施形態では、サブフレーム（例えば、サブフレームＡ～Ｅのいずれか）は、矩形領域又はタイルのグループであってもよい。サブフレームが複数のタイルを備える場合、サブフレームは、矩形又は非矩形の形状を有してもよい。一実施形態では、サブフレームは、複数のタイルに分割されてもよく、分割されなくてもよい。サブフレームが複数のタイルに分割されている場合、サブフレームの各構成要素（例えば、ＹＵＶ、ＸＹＺ、占有マップ）は、同一のタイルパーティションを有してもよい。

いくつかの実施形態では、サブフレーム内のタイルを矩形又は非矩形のタイルグループに組み合わせることができるが、異なるサブフレームに属するタイルをグループ化することができない。一実施形態では、タイルグループは、ＶＶＣのタイルグループ設計を使用してもよい。

いくつかの実施形態では、サブフレームに対応する３Ｄバウンディングボックス情報は、シグナリングされてもよく、シグナリングされなくてもよい。上記の３Ｄバウンディングボックス情報は、例えば、点群内のサブフレームの３Ｄ位置を特定することができる。例えば、図７～８を参照すると、３Ｄ点群フレーム５１０の複数のエリア５１２のいずれか１つは、３Ｄバウンディングボックスと、３Ｄ点群フレーム５１０内のフレーム５２０のサブフレームＡ～Ｅのうちの１つの対応する位置とに対応してもよい。

いくつかの実施形態では、サブピクチャ境界にわたる任意の復号又はレンダリングプロセス（例えば、インループフィルタリング、動き補償）は、許可されなくてもよく、許可されてもよい。サブピクチャは、ピクチャのサブ部分（例えば、図８に示されるピクチャ５２２、５２５又は５２６のエリアＡ、Ｂ、Ｃ、Ｄ又はＥ）を参照することができる。いくつかの実施形態では、サブフレームの境界は、動き補償のために延長され、パディングされてもよい。いくつかの実施形態では、境界が拡張されているか否かを示すフラグは、ビデオビットストリームのシーケンスパラメータセット（ＳＰＳ）でシグナリングされる。

いくつかの実施形態では、復号されたサブフレームは、出力されるように再サンプリングされてもよく、再サンプリングされなくてもよい。いくつかの実施形態では、復号されたサブフレームサイズと出力されたサブフレームサイズとの間の空間率は、ＳＰＳでシグナリングされてもよく、再サンプリング率を計算するために使用されてもよい。いくつかの実施形態では、再サンプリング動作（例えば、適応解像度の変更）が適用されてもよく、適用されなくてもよい。

いくつかの実施形態では、分割情報は、フレームによってアクティブにされ得るビデオビットストリームのフレームパラメータセットでシグナリングされる。分割情報は、例えば、フレームが複数のサブフレームに分割されるか否か、及びどのように分割されるかを示してもよい。いくつかの実施形態では、分割情報は、符号化されたビデオシーケンス内で更新することができる。いくつかの実施形態では、同じ分割情報は、異なる構成要素を有する複数のフレーム、ピクチャ、スライス、タイルグループ及びＶＣＬＮＡＬユニットによって共有して使用されてもよい。

以下、例えばＹ－ＰＣＣで実施されてもよい本開示の実施形態の例示的なコードを提供する。以下に示すように、コードは、フレームパラメータセットで提供されてもよい。一実施形態では、フレームパラメータセットは、符号化されたビデオストリームにおいて、エンコーダによってデコーダに提供されてもよい。

上記コードのセマンティクスを以下に説明する。

１に等しい「frame_partitioning_enabled_flag」は、フレームが複数のサブ領域（例えば、サブフレーム）に分割されることを特定する。各サブ領域に対応するサブビットストリームは、ビットストリーム全体にアクセス可能で、かつそれから抽出可能である。各領域は、個別に復号できるべきである。０に等しい「frame_partitioning_enabled_flag」は、フレームが複数のサブ領域（例えば、サブフレーム）に分割されてもよく、分割されなくてもよいことを特定する。

１に等しい「tile_info_present_flag」は、各構成要素のビットストリームが、空間ランダムアクセス及び並列処理のためのバウンディングボックス情報と整合するタイル情報を含むことを特定する。０に等しい「tile_info_present_flag」は、各２次元バウンディングボックスがピクセルレベルで明示的にシグナリングされることを特定する。

「num_tile_columns_minus1」プラス１は、フレームを分割するタイル列の数を特定する。

「num_tile_rows_minus1」プラス１は、フレームを分割するタイル行の数を特定する。

１に等しい「uniform_spacing_flag」は、タイル列の境界がフレームにわたって均一に分散され、タイル行の境界についても同様であることを特定する。０に等しい「uniform_spacing_flag」は、タイル列の境界がフレームにわたって均一に分散されておらず、タイル行の境界についても同様であるが、構文要素「column_width_minus1[i]」と「row_height_minus1[i]」を使用して明示的にシグナリングされることを特定する。

「column_width_minus1[i]」プラス１は、ＣＴＢの単位でi番目のタイル列の幅を特定する。

「row_height_minus1[i]」プラス１は、ＣＴＢの単位でi番目のタイル列の高さを特定する。

１に等しい「single_tile_per_sub_frame_flag」は、このフレームパラメータセットで示される各２Ｄバウンディングボックスが１つのタイルを含むことを特定する。０に等しい「single_tile_per_sub_frame_flag」は、このフレームパラメータセットで示される各２Ｄバウンディングボックスが１つ以上のタイルを含んでもよいことを特定する。

「num_sub_frame_in_frame_minus1」プラス１は、フレームパラメータセットを参照する各フレームの２次元バウンディングボックスの数を特定する。

１に等しい「3D_bounding_box_info_present_flag」は、３Ｄバウンディングボックス情報が存在することを特定する。０に等しい「3D bounding_box_info_present_flag」は、３Ｄバウンディングボックス情報が存在しないことを特定する。

０に等しい「rect_sub_frame_flag」は、各サブフレーム内のタイルがラスタスキャン順序であることを特定する。１に等しい「rect_tile_group_flag」は、各サブフレーム内のタイルがフレームの矩形領域をカバーすることを特定する。

「num_tiles_in_sub_frame_minus1」プラス１は、存在する場合、非矩形のサブピクチャ内のタイルの数を特定する。

「top_left_tile_idx[i]」は、i番目の２Ｄバウンディングボックスの左上隅に位置するタイルのタイルインデックスを特定する。

「bottom_right_tile_idx[i]」は、i番目の２Ｄバウンディングボックスの右下隅に位置するタイルのタイルインデックスを特定する。

「3D_bounding_box_x[i]」、「3D_bounding_box_y[i]」及び「3D_bounding_box_z[i]」は、点群データの体積表現に使用される、i番目の２次元バウンディングボックスに対応するi番目の３次元バウンディングボックスの３次元位置を特定する。

「3D_bounding_box_dx[i]」、「3D_bounding_box_dy[i]」及び「3D_bounding_box_dz[i]」は、ｘ、ｙ、ｚドメイン内の特定の３Ｄバウンディングボックスの長さをそれぞれ特定する。

「sub_frame_x[i]」及び「sub_frame_y[i]」は、i番目の２次元バウンディングボックスの２次元位置を特定する。

「sub_frame_dx[i]」及び「sub_frame_dy[i]」は、特定の２Ｄバウンディングボックスの幅及び高さをそれぞれ特定する。

１に等しい「signalled_bounding_box_id_flag」は、各バウンディングボックスのバウンディングボックスＩＤがシグナリングされることを特定する。０に等しい「signalled_bounding_box_index_flag」は、バウンディングボックスＩＤがシグナリングされないことを特定する。

「signalled_bounding_box_id_length_minus1」プラス１は、構文要素bounding_box_id[i]を表現するために使用されるビット数を特定する。「signalled_bounding_box_id_length_minus1」の値は、０～１５の範囲内（両端値を含む）でなければならない。

「bounding_box_id[i]」は、i番目のバウンディングボックスのバウンディングボックスＩＤのを特定する。構文要素「bounding_box_id[i]」の長さは、「bounding_box_id_length_minus1」＋１ビットである。

１に等しい「Independent_decoding_sub_frame_enabled_flag」は、各サブフレームがサブフレーム間動作なしで個別に復号されてもよく、復号されなくてもよいことを特定する。０に等しい「Independent_decoding_sub_frame_enabled_flag」は、各サブフレームがサブフレーム間動作なしで個別に復号することができないことを特定する。サブフレーム間動作は、サブフレームの境界にわたる動き補償とインループフィルタリングを含む。「Independent_decoding_sub_frame_enabled_flag」の値は、存在しない場合、０に等しいと推測される。

１に等しい「post_processing_across_bounding_box_enabled_flag」は、ビデオビットストリームを復号した後の任意の後処理がサブフレームの境界にわたって有効になることを特定する。０に等しい「post_processing_across_bounding_box_enabled_flag」は、ビデオビットストリームを復号した後の任意の後処理がサブフレームの境界にわたって無効になることを特定する。後処理は、復号されたビデオシーケンスから点群データを生成するための任意の動作を含んでもよい。

図９を参照すると、本開示の実施形態は、サブフレーム分割を有する符号化された点群データの復号プロセスを実行してもよい。

ビデオストリームの少なくとも一部を受信した後に、フレームパラメータを解析する（６０１）。次に、個々のサブフレーム分割を識別する。１つ以上のサブフレームに関して、サブフレームが個別に符号化されているか否かを判定することができる（６０３）。個々のサブフレームが個別に符号化されていると判定された場合に、個々のサブフレームを個別に復号することができる（６０４）。個別に符号化されているサブフレームがない場合、フレーム全体を復号することができる（６０５）。実施形態では、サブフレーム又はフレームの復号は、図４に示されるデコーダ２１０によって実行されてもよい。

実施形態では、デバイス７００は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに上記デコーダ及びエンコーダの機能を実行させることができるコンピュータプログラムコードを記憶するメモリを備えてもよい。

例えば、図１０を参照すると、デバイス７００のコンピュータプログラムコードは、識別コード７１０、復号コード７３０、取得コード７４０及び表示コード７５０を備えてもよい。

識別コード７１０は、少なくとも１つのプロセッサに、デバイス７００に提供されるフレーム分割情報を使用して１つ以上のサブフレームを識別させるように構成されてもよい。フレーム分割情報は、例えば、フレーム内のサブフレームの特性（例えば、数、サイズ、形状及び符号化依存性）を示す任意の上記情報であってもよい。

復号コード７３０は、少なくとも１つのプロセッサに、識別されたサブフレームを復号させるように構成されてもよい。実施形態では、復号コード７３０は、図４に示されるデコーダ２１０の解凍モジュールの機能を実行して、サブフレームを復号するように構成されてもよい。

取得コード７４０は、少なくとも１つのプロセッサに、識別されたサブフレームを復号した後に、識別されたサブフレームに対応する３Ｄバウンディングボックス情報を使用して点群を取得させるように構成されてもよい。実施形態では、取得コード７４０は、図４に示されるデコーダ２１０の幾何学的形状再構築モジュール４１２、平滑化モジュール４１４、テクスチャ再構築モジュール４１６及び色平滑化モジュール４１８の機能を実行して、点群を取得するように構成されてもよい。

表示コード７５０は、少なくとも１つのプロセッサに、表示装置上で点群に対応する３Ｄ画像を表示させるように構成されてもよい。

いくつかの実施形態では、コンピュータプログラムコードはまた、判定コード７２０を含んでもよい。判定コード７２０は、少なくとも１つのプロセッサに、サブフレームが個別に符号化されているか否かを判定させるように構成されてもよく、サブフレームが個別に符号化されていると判定された場合に、復号コード７３０は、少なくとも１つのプロセッサに、該サブフレームを複数のサブフレームの他のサブフレームから個別に復号させるように構成されてもよい。

上記技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実施され、１つ以上のコンピュータ可読媒体に物理的に記憶することができる。例えば、図１１は、本開示のある実施形態を実施することに適するコンピュータシステム９００を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって、アセンブリ、コンパイル、リンクの対象となり得る任意の適切な機械コード若しくはコンピュータ言語、又は同様のメカニズムを使用して符号化されて、直接実行できるか又は解釈、マイクロコード実行などを介して実行できる命令を備えるコードを作成することができる。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータ又はその構成要素上で実行することができる。

コンピュータシステム９００について、図１１に示される構成要素は、例であり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能範囲に関する限定を示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム９００の非限定的な実施形態に示される構成要素のいずれか１つ又は組み合わせに関連する任意の依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム９００は、特定のヒューマンインタフェース入力デバイスを含んでもよい。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（音声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）を通じて、１人以上の人間ユーザによる入力に応答することができる。ヒューマンインタフェースデバイスは、音声（スピーチ、音楽、環境音など）、画像（スキャンされた画像、静止画像カメラから取得した写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連しない特定の媒体を取り込むために使用することもできる。

入力ヒューマンインタフェースデバイスは、キーボード９０１、マウス９０２、トラックパッド９０３、タッチスクリーン９１０、データグローブ、ジョイスティック９０５、マイクロフォン９０６、スキャナ９０７、カメラ９０８のうちの１つ以上（それぞれ１つのみが図示されている）を含んでもよい。

コンピュータシステム９００はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音、光、及び嗅覚／味覚を通じて、１人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイスを含んでもよい（例えば、タッチスクリーン９１０、データグローブ又はジョイスティック９０５が触覚フィードバックを行い、しかし入力デバイスとして機能しない触覚フィードバックデバイスを有する可能性もある）。例えば、そのようなデバイスは、音声出力デバイス（スピーカー９０９、ヘッドホン（図示せず）など）、視覚出力デバイス（各々がタッチスクリーン入力機能を有するか又は有さず、各々が触覚フィードバック機能を有するか又は有さず、いくつかがステレオグラフィック出力などの手段を介して２次元の視覚出力又は３次元以上の出力を出力できるＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン９１０、仮想現実眼鏡（図示せず）、ホログラフィック表示装置、及びスモークタンク（図示せず））、及びプリンタ（図示せず）であってもよい。

コンピュータシステム９００はまた、ヒューマンアクセス可能な記憶デバイスと、それらに関連する媒体、例えば、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ９２０若しくは同様な媒体９２１、サムドライブ９２２、及びリムーバブルハードドライブ若しくはソリッドステートドライブ９２３を含む光媒体、テープやフロッピー（登録商標）ディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどとを含むことができる。

当業者はまた、ここに開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、又は他の一時的な信号を含まないことを理解するはずである。

コンピュータシステム９００はまた、１つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光ネットワークにすることができる。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワークなどにすることができる。ネットワークの例は、イーサネット（登録商標）、無線ＬＡＮなどのローカルエリアネットワークと、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワークと、ケーブルＴＶ、衛星ＴＶ、地上波放送ＴＶを含むＴＶ有線又は無線ワイドエリアデジタルネットワークと、ＣＡＮＢｕｓなどを含む車両用及び産業用ネットワークとを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス９４９（例えば、コンピュータシステム９００のＵＳＢポート、以下に説明するように一般にシステムバスに接続することによってコンピュータシステム９００のコアに集積されるもの（例えば、ＰＣコンピュータシステムへのイーサネット（登録商標）インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース））に接続された外部ネットワークインタフェースアダプタを必要とする。これらのネットワークのいずれかを使用して、コンピュータシステム９００は、他のエンティティと通信することができる。このような通信は、例えば、ローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対して、単方向、受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、ＣＡＮｂｕｓから特定のＣＡＮｂｕｓデバイスへ）、又は双方向であってもよい。そのような通信は、クラウドコンピューティング環境９５５への通信を含むことができる。上記のように、特定のプロトコルとプロトコルスタックをこれらのネットワークとネットワークインタフェースの各々に使用することができる。

前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能な記憶デバイス、及びネットワークインタフェース９５４は、コンピュータシステム９００のコア９４０に接続することができる。

コア９４０は、１つ以上の中央処理装置（ＣＰＵ）９４１、グラフィックス処理装置（ＧＰＵ）９４２、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）９４３の形態の専用プログラマブル処理装置、及び特定のタスクのためのハードウェアアクセラレータ９４４などを含むことができる。これらのデバイスは、リードオンリメモリ（ＲＯＭ）９４５、ランダムアクセスメモリ９４６、及びユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量記憶装置９４７に、システムバス９４８を介して接続されてもよい。一部のコンピュータシステムでは、システムバス９４８は、１つ以上の物理プラグの形でアクセス可能であり、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス９４８に直接接続されてもよく、周辺バス９４９を介して接続されてもよい。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどを含む。グラフィックアダプタ９５０は、コア９４０に含まれてもよい。

ＣＰＵ９４１、ＧＰＵ９４２、ＦＰＧＡ９４３及びアクセラレータ９４４は、組み合わせて、前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ９４５又はＲＡＭ９４６に記憶することができる。過渡的なデータは、ＲＡＭ９４６に記憶することもできるが、恒久的なデータは、例えば内部大容量記憶装置９４７に記憶することができる。ＣＰＵ９４１、ＧＰＵ９４２、大容量記憶装置９４７、ＲＯＭ９４５、ＲＡＭ９４６などのうちの１つ以上と密接に関連付けることができるキャッシュメモリを使用して、任意のメモリデバイスに対する高速記憶及び検索を可能にすることができる。

コンピュータ可読媒体には、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、コンピュータソフトウェア分野の当業者によく知られている利用可能な種類のものであってもよい。

限定ではなくあくまでも一例として、アーキテクチャ９００、具体的にはコア９４０を有するコンピュータシステムは、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、コア内部大容量記憶装置９４７又はＲＯＭ９４５などの、非一時的な性質のコア９４０の特定の記憶装置以外に、以上に説明したようにユーザがアクセス可能な大容量記憶装置に関連付けられる媒体であってもよい。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶でき、コア９４０によって実行することができる。コンピュータ可読媒体は、特定の需要に応じて、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア９４０、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ９４６に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。加えて又は代替として、コンピュータシステムは、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに又はソフトウェアと一緒に動作することができる回路（例えば、アクセラレータ９４４）に配線されるか又は他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照は、必要に応じて、ロジックを含むことができ、その逆も同様である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具体化する回路、又はそれらの両方を含むことができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。

本開示は、いくつかの非限定的な実施形態を記載しているが、本開示の範囲内に入る代替、置換及び様々な代替等価物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、開示の原理を具体化するため、その精神及び範囲内にある多数のシステム及び方法を考案することができることが理解されたい。

１００通信システム
１１０，１２０，１３０，１４０端末
１５０ネットワーク
２００ストリーミングシステム
２０１ビデオソース
２０２サンプルストリーム
２０３ビデオエンコーダ
２０４符号化されたビデオビットストリーム
２０５ストリーミングサーバ
２０６ストリーミングクライアント
２０９ビデオビットストリーム
２１０ビデオデコーダ
２１１発信ビデオサンプルストリーム
２１２表示装置
２１３サブシステム
３０２パッチ生成モジュール
３０４パッチパッキングモジュール
３０６幾何学的な画像生成モジュール
３０８テクスチャ画像生成モジュール
３１０平滑化モジュール
３１２補助パッチ情報圧縮モジュール
３１４，３１６画像パディングモジュール
３１８エントロピー圧縮モジュール
３２０グループ拡張モジュール
３２２，３２４，３２６ビデオ圧縮モジュール
３２８マルチプレクサ
３３２パッチ情報
３３４占有マップ
３５０点群フレーム
３５２幾何学的な画像
３５４パディングされた幾何学的な画像
３５６テクスチャ画像
３５８再構築／平滑化された幾何学的形状
３６０パディングされたテクスチャ画像
３６２圧縮された幾何学的な画像
３６４圧縮されたテクスチャ画像
３６５再構築された幾何学的な画像
３６６可逆符号化
３６８非可逆符号化
３７０圧縮された補助パッチ情報
３７２圧縮された占有マップ
３７４圧縮されたビットストリーム
４０２デマルチプレクサ
４０４，４０６ビデオ解凍モジュール
４０８占有マップ解凍モジュール
４１０補助パッチ情報解凍モジュール
４１２幾何学的な形状再構築モジュール
４１４平滑化モジュール
４１６テクスチャ再構築モジュール
４１８色平滑化モジュール
４６０解凍されたテクスチャ画像
４６２解凍された幾何学的な画像
４６４解凍された占有マップ
４６６解凍された補助パッチ
４６８再構築された（３次元）幾何学的形状
４７０平滑化された幾何学的形状
４７２再構築されたテクスチャ
４７４再構築された点群
５１０３Ｄ点群フレーム
５１２エリア
５２０フレーム
５２２幾何学的な画像
５２４テクスチャ画像
５２６占有マップ
７００デバイス
７１０識別コード
７２０判定コード
７３０復号コード
７４０取得コード
７５０表示コード
９００コンピュータシステム
９０１キーボード
９０２マウス
９０３トラックパッド
９０５ジョイスティック
９０６マイクロフォン
９０７スキャナ
９０８カメラ
９０９スピーカー
９１０タッチスクリーン
９２０ＣＤ／ＤＶＤＲＯＭ／ＲＷ
９２１媒体
９２２サムドライブ
９２３リムーバブルハードドライブ又はソリッドステートドライブ
９４０コア
９４１中央処理装置（ＣＰＵ）
９４２グラフィックス処理装置（ＧＰＵ）
９４３ＦＰＧＡ
９４４アクセラレータ
９４５リードオンリメモリ（ＲＯＭ）
９４６ランダムアクセスメモリ（ＲＡＭ）
９４７内部大容量記憶装置
９４８システムバス
９４９周辺バス
９５０グラフィックアダプタ
９５４ネットワークインタフェース
９５５クラウドコンピューティング環境

Claims

少なくとも１つのプロセッサが実行する、ビデオストリームを復号する方法であって、
前記ビデオストリームを受信するステップであって、前記ビデオストリームは、
複数の２次元（２Ｄ）ピクチャのフレームであって、前記複数の２Ｄピクチャが前記フレームの複数の層であり、前記複数の２Ｄピクチャの各々が同じ３次元（３Ｄ）表現のそれぞれの属性を有するものである、フレームと、
前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の２Ｄピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、
前記複数のサブフレームの１つのサブフレームに対応する３Ｄ位置を特定する３Ｄバウンディングボックス情報とを含む、ステップと、
前記フレーム分割情報を使用して前記サブフレームを識別するステップと、
識別された前記サブフレームを復号するステップと、を含む方法。
受信された前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも１つを特定する２Ｄバウンディングボックス情報を含む、請求項１に記載の方法。
前記３Ｄバウンディングボックス情報は、前記２Ｄバウンディングボックス情報で特定された２Ｄバウンディングボックスの３Ｄ位置を特定し、
前記方法は、識別された前記サブフレームを復号した後、前記３Ｄバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む、請求項２に記載の方法。
前記複数の２Ｄピクチャは、第１のピクチャ、第２のピクチャ及び第３のピクチャを含み、
前記第１のピクチャがテクスチャ画像であり、前記第２のピクチャが幾何学的な画像であり、前記第３のピクチャが占有マップである、請求項３に記載の方法。
識別された前記サブフレームを復号した後、前記３Ｄバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む、請求項１に記載の方法。
前記複数の２Ｄピクチャは、第１のピクチャ、第２のピクチャ及び第３のピクチャを含み、
前記第１のピクチャがテクスチャ画像であり、前記第２のピクチャが幾何学的な画像であり、前記第３のピクチャが占有マップである、請求項５に記載の方法。
前記サブフレームが個別に符号化されているか否かを判定するステップをさらに含み、
前記サブフレームが個別に符号化されていると判定された場合に、前記サブフレームを復号する前記ステップでは、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号する、請求項１に記載の方法。
受信された前記ビデオストリームは、前記フレーム分割情報及び前記３Ｄバウンディングボックス情報を含むフレームパラメータセットを含む、請求項１に記載の方法。
前記複数の２Ｄピクチャは、第１のピクチャ、第２のピクチャ及び第３のピクチャを含み、
前記第１のピクチャがテクスチャ画像であり、前記第２のピクチャが幾何学的な画像であり、前記第３のピクチャが占有マップである、請求項１に記載の方法。
前記ビデオストリームは、複数の２Ｄピクチャの追加フレームであって、前記複数の２Ｄピクチャが前記追加フレームの複数の層であり、前記追加フレームの前記複数の２Ｄピクチャの各々が同じ追加の３Ｄ表現のそれぞれの属性を有するものである、追加フレームをさらに含み、
前記方法は、
前記フレームの前記サブフレームを識別するための前記フレーム分割情報を使用して、前記追加フレームのサブフレームを識別するステップと、
識別された前記追加フレームの前記サブフレームを復号するステップと、をさらに含む、請求項１に記載の方法。
ビデオストリームを復号するシステムであって、
コンピュータプログラムコードを記憶するメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの命令通りに請求項１から１０のいずれか一項に記載の方法を実行する少なくとも１つのプロセッサと、を備えるシステム。
少なくとも１つのプロセッサに、請求項１から１０のいずれか一項に記載の方法を実行させるコンピュータプログラム。