JP7434667B2

JP7434667B2 - ビデオベースの点群コーディングのためのグループオブピクチャベースのパッチパッキング

Info

Publication number: JP7434667B2
Application number: JP2023523277A
Authority: JP
Inventors: シャン・ジャン; ウェン・ガオ; シャオジョン・シュ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-07-07
Filing date: 2021-10-12
Publication date: 2024-02-20
Anticipated expiration: 2041-10-12
Also published as: US11683523B2; EP4193591A4; EP4193591A1; JP2023546441A; KR20230054434A; WO2023282926A1; US20230011096A1; CN116648904A

Description

関連出願の相互参照
本出願は、2021年7月7日に出願された米国仮特許出願第63/219,237号および2021年10月8日に出願された米国特許出願第17/497,326号の優先権を主張し、これらの開示はその全体が参照により本明細書に組み込まれる。

本開示は、本開示は、高度なビデオコーディング技術のセット、より具体的には、グループオブピクチャ（GoP）ベースのパッチパッキングを含むビデオベースの点群（ポイントクラウド）圧縮に関する。

世界の高度な三次元（3D）表現は、より没入型のインタラクションおよびコミュニケーションを可能にしている。これにより、機械がわれわれの住む世界を理解し、解釈し、ナビゲートすることも可能になっている。点群は、世界の3D表現として広く使用されている。例えば、これらは、地図作成のための地理情報システム（GIS）、および文化遺産のオブジェクトおよびコレクションなどを視覚化およびアーカイブするための文化遺産における物体検出および位置特定のための自動運転車両で使用され得る。点群データに関連するいくつかのユースケースが識別されており、点群の表現および圧縮のためのいくつかの対応する要件が開発されている。

点群は、例えば三次元（3D）などの高次元点の集合を含み、それぞれが3D位置情報および色、反射率などの追加の属性を含む。これらは、複数のカメラおよび深度センサ、または様々な設定のLidarを使用してキャプチャすることができ、元のシーンを現実的に表現するために数千から数十億の点で構成され得る。

より高速なデータ伝送、または記憶装置の削減を目的として、点群を表すために必要なデータ量を削減するために、圧縮技術が必要とされる。ISO/IEC MPEG（JTC 1/SC 29/WG 11）は、静的または動的なクラウドのための圧縮技術を標準化するためのアドホックグループ（MPEG-PCC）を作成した。

実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化する方法は、少なくとも1つのプロセッサによって実行され、第1のフレームおよび残りのフレームを含む複数のフレームを取得するステップであって、複数のフレームの各フレームは、対応する複数のパッチでパッキングされる、ステップと、残りのフレームを第1のグループおよび第2のグループにグループ化するステップであって、同じグループにグループ化されたフレームは時間的に隣接する、ステップと、第1のフレームを処理するステップと、第1のフレームが処理された後に、第1のグループ内のフレームを並列処理するステップと、第1のグループ内の処理された第1のフレームおよび処理されたフレームに基づいて符号化ビデオストリームを生成するステップとを含み、第1のグループの少なくとも1つのフレームは、第1のフレームに依存する。

実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化するための装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって命令されたとおりに動作するように構成された少なくとも1つのプロセッサとを含み、プログラムコードは、少なくとも1つのプロセッサに、第1のフレームおよび残りのフレームを含む複数のフレームを取得させるように構成された取得コードであって、複数のフレームの各フレームは、対応する複数のパッチでパッキングされる、取得コードと、少なくとも1つのプロセッサに、残りのフレームを第1のグループおよび第2のグループにグループ化させるように構成されたグループ化コードであって、同じグループにグループ化されたフレームは時間的に隣接している、グループ化コードと、少なくとも1つのプロセッサに、第1のフレームを処理させるように構成された処理コードと、第1のフレームが処理された後に、少なくとも1つのプロセッサに、第1のグループ内のフレームを並列処理させるように構成された第1の並列処理コードと、少なくとも1つのプロセッサに、第1のグループ内の処理された第1のフレームおよび処理されたフレームに基づいて符号化ビデオストリームを生成させるように構成された生成コードとを含み、第1のグループの少なくとも1つのフレームは、第1のフレームに依存する。

実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化するためのコンピュータ命令を記憶した非一時的コンピュータ可読媒体において、コンピュータ命令は、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、第1のフレームおよび残りのフレームを含む複数のフレームを取得することであって、複数のフレームの各フレームは、対応する複数のパッチでパッキングされる、ことと、残りのフレームを第1のグループおよび第2のグループにグループ化することであって、同じグループにグループ化されたフレームは時間的に隣接している、ことと、第1のフレームを処理することと、第1のフレームが処理された後に、第1のグループ内のフレームを並列処理することと、第1のグループ内の処理された第1のフレームおよび処理されたフレームに基づいて符号化ビデオストリームを生成することとを行わせ、第1のグループの少なくとも1つのフレームは、第1のフレームに依存する。

本開示の主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明、および添付の図面でより明らかになるであろう。

一実施形態による通信システムの簡略化されたブロック図の概略図である。一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。一実施形態によるビデオエンコーダの簡略化されたブロック図の概略図である。一実施形態によるビデオデコーダの簡略化されたブロック図の概略図である。一実施形態によるグローバルパッチ割り当て（GPA）設計におけるフレーム間依存性の例を示す図である。一実施形態によるグローバルパッチ割り当て（GPA）設計におけるフレーム間依存性の例を示す図である。一実施形態による、2つのフレームに等しいグループサイズを有する例示的なGoPベースのパッチパッキングを示す図である。一実施形態による、4つのフレームに等しいグループサイズを有する例示的なGoPベースのパッチパッキングを示す図である。一実施形態による、最も近い隣接フレームへの例示的なパッチ相関伝播を示す図である。一実施形態による、最も近い隣接フレームへの例示的なパッチ相関伝播を示す図である。一実施形態によって実行されるプロセスを示すフロー図である。一実施形態によるデバイスを示す図である。実施形態を実施するのに適したコンピュータシステムの図である。

ビデオベースの点群圧縮（V-PCC）の背後にある考慮事項は、既存のビデオコーデックを活用して、動的点群の形状、占有率、およびテクスチャを3つの別々のビデオシーケンスとして圧縮することである。3つのビデオシーケンスの解釈に必要な余分なメタデータは、個別に圧縮されてもよい。ビットストリーム全体の一部分がメタデータであり、ソフトウェア実装形態を使用して効率的に符号化／復号することができる。ビデオコーデックによって、大量の情報が処理され得る。

本開示の実施形態は、反復平滑化フレームワークにおける過剰平滑化を回避するためのアニーリング反復形状平滑化に関する。本開示の実施形態は、純粋な中央値を使用する計算の複雑さを低減することを目的として、平均統計値と中央値統計値との組合せを使用して基準点を導出することに関する。

図1～図4を参照すると、本開示の符号化および復号の構造を実施するための、本開示の実施形態が説明されている。本開示の符号化および復号の構造は、上述したV-PCCの態様を実施してもよい。

図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を例示する。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含み得る。データの単方向伝送の場合、第1の端末110は、ネットワーク150を介して他の端末120に伝送するために、ローカルロケーションでビデオデータをコーディングすることができる。第2の端末120は、ネットワーク150から他の端末のコーディング済ビデオデータを受信し、コーディング済データを復号し、復元ビデオデータを表示し得る。単方向データ伝送は、メディアサービング用途などで一般的であり得る。

図1は、例えばビデオ会議中に発生し得るコーディング済ビデオの双方向伝送をサポートするために設けられた端末130、140の第2のペアを示す。データの双方向伝送の場合、各端末130、140は、ネットワーク150を介して他の端末に伝送するために、ローカルロケーションでキャプチャされたビデオデータをコーディングすることができる。各端末130、140はまた、他の端末によって送信されたコーディング済ビデオデータを受信し、コーディング済データを復号し、復元ビデオデータをローカルディスプレイデバイスに表示することができる。

図1では、端末110～140は、例えば、サーバ、パーソナルコンピュータ、およびスマートフォン、および／または任意の他のタイプの端末であってもよい。例えば、端末（110～140）は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、および／または専用のビデオ会議機器であってもよい。ネットワーク150は、例えば、有線および／または無線通信ネットワークを含む、端末110～140間でコーディング済ビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク150は、回線交換および／またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットを含む。本解説の目的のために、ネットワーク150のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。

図2は、開示された主題の用途の一例として、ストリーミング環境でのビデオエンコーダおよびデコーダの配置を示している。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶を含む、他のビデオ対応アプリケーションで使用され得る。

図2に示すように、ストリーミングシステム200は、ビデオソース201およびエンコーダ203を含むキャプチャサブシステム213を含むことができる。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205および／または少なくとも1つのストリーミングクライアント206をさらに含んでもよい。

ビデオソース201は、例えば、3Dビデオに対応する3D点群を含むストリーム202を生成することができる。ビデオソース201は、例えば、3Dセンサ（例えば、深度センサ）、または3D撮像技術（例えば、（1つまたは複数の）デジタルカメラ）、および3Dセンサまたは3D撮像技術から受信したデータを使用して3D点群を生成するように構成されたコンピューティングデバイスを含んでもよい。符号化ビデオビットストリームと比較してデータ量が大きくてもよいサンプルストリーム202は、ビデオソース201に結合されたエンコーダ203によって処理され得る。以下でより詳細に説明するように、エンコーダ203は、開示された主題の態様を可能にする、または実施するために、ハードウェア、ソフトウェア、またはこれらの組合せを含むことができる。エンコーダ203は、符号化ビデオビットストリーム204も生成し得る。圧縮されていないストリーム202と比較して、データボリュームが小さくてもよい符号化ビデオビットストリーム204は、後で使用するためにストリーミングサーバ205に記憶することができる。1つ以上のストリーミングクライアント206は、符号化ビデオビットストリーム204のコピーであってもよいビデオビットストリーム209を取得するために、ストリーミングサーバ205にアクセスすることができる。

ストリーミングクライアント206は、ビデオデコーダ210およびディスプレイ212を含むことができる。ビデオデコーダ210は、例えば、符号化ビデオビットストリーム204の着信コピーであるビデオビットストリーム209を復号し、ディスプレイ212または別のレンダリングデバイス（図示せず）上にレンダリングされ得る発信ビデオサンプルストリーム211を生成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム204、209は、特定のビデオコーディング／圧縮規格により符号化され得る。このような規格の例は、ITU-T勧告H.265、汎用ビデオコーディング（VVC）、およびMPEG/V-PCCを含むが、これらに限定されない。

図3～図4を参照しながら、本開示の実施形態によって実行され得るV-PCCのいくつかの態様について、以下で説明する。

図3は、本開示の実施形態による、ビデオエンコーダ203の例示的な機能ブロック図である。

図3に示すように、ビデオエンコーダ203は、（1つまたは複数の）点群フレーム350を受信し、点群フレーム350に基づいて、形状画像352、テクスチャ画像356、および占有マップ334を生成してもよい。ビデオエンコーダ203は、形状画像352を圧縮して圧縮形状画像362にし、テクスチャ画像356を圧縮して圧縮テクスチャ画像364にし、占有マップ334を圧縮して圧縮占有マップ372にしてもよい。ビデオエンコーダ203のマルチプレクサ328は、圧縮形状画像362、圧縮テクスチャ画像364、および圧縮占有マップ372を含む、圧縮ビットストリーム374を形成してもよい。

より具体的には、実施形態において、ビデオエンコーダ203は、点群フレーム350をパッチに分割する、パッチ生成モジュール302を含んでもよい。パッチはV-PCCの有用なエンティティである。パッチ生成プロセスは、点群フレーム350を分解して、平滑な境界を有する最小の数のパッチにし、その一方で再構築誤差を最小にすることを含む。本開示のエンコーダは、このような分解を生じさせるために、様々な方法を実施し得る。

ビデオエンコーダ203は、パッキングプロセスを実行するパッチパッキングモジュール304を含んでもよい。パッキングプロセスは、未使用の空間を最小にしながら、抽出したパッチを2Dグリッドにマッピングすること、およびグリッドのM×M（例えば、16x16）のブロックがいずれも、一意のパッチに関連付けられるように保証することを含む。効率的なパッチパッキングは、未使用空間を最小化すること、または時間的整合性を確保することによって、圧縮効率に直接的な影響を及ぼす。パッチパッキングモジュール304は、占有マップ334を生成し得る。

ビデオエンコーダ203は、形状画像生成モジュール306、およびテクスチャ画像生成モジュール308を含んでもよい。同一サンプルに複数の点が投影される事例に対処するために、各パッチをレイヤと呼ばれる2つの画像に投影してもよい。例えば、形状画像生成モジュール306およびテクスチャ画像生成モジュール308は、点群の形状およびテクスチャを画像（レイヤとも呼ばれる）として記憶するために、パッチパッキングモジュール304のパッキングプロセス中に計算された、3Dから2Dへのマッピングを利用してもよい。生成された画像／レイヤは、（1つまたは複数の）ビデオフレームとして記憶され、パラメータとして提供される構成に従って、ビデオコーデック（例えば、HMビデオコーデック）を使用して圧縮されてもよい。

実施形態では、入力点群フレーム350および占有マップ334に基づいて、形状画像生成モジュール306は形状画像352を形成し、テクスチャ画像生成モジュール308はテクスチャ画像356を生成する。一実施形態では、形状画像352はYUV420-8ビット形式で、WxHの単色フレームで表されてもよい。一実施形態では、占有マップ334画像は、グリッドの各セルが空間に属するか、または点群に属するかを示すバイナリマップからなる。テクスチャ画像356を生成するために、テクスチャ画像生成モジュール308は、再サンプリングされた点に関連する色を計算する目的で、再構築／平滑化形状358を使用してもよい。

ビデオエンコーダ203はまた、パディングされた形状画像354およびパディングされたテクスチャ画像360を形成するために、それぞれ形状画像352をパディングする画像パディングモジュール314、およびテクスチャ画像356をパディングする画像パディングモジュール316を含んでもよい。画像パディング（背景の充填とも呼ばれる）は単に、画像の使用されていない空間を冗長情報で埋める。良好な背景の充填とは、パッチ境界の周囲に著しいコーディング歪みを導入しないようにしながら、ビットレートを最小限に増加させるものである。画像パディングモジュール314および画像パディングモジュール316は、パディングされた形状画像354、およびパディングされたテクスチャ画像360をそれぞれ形成するために、占有マップ334を使用してもよい。一実施形態では、ビデオエンコーダ203は、パディングされたテクスチャ画像360を形成するために、グループ拡大モジュール320を含んでもよい。

ビデオエンコーダ203は、それぞれパディングされた形状画像354を圧縮して圧縮形状画像362にするビデオ圧縮モジュール322、およびパディングされたテクスチャ画像360を圧縮して圧縮テクスチャ画像364にするビデオ圧縮モジュール324を含んでもよい。

ビデオエンコーダ203は、占有マップ334の可逆符号化366用のエントロピー圧縮モジュール318、および占有マップ334の非可逆符号化368用のビデオ圧縮モジュール326を含んでもよい。

実施形態では、ビデオエンコーダ203は、ビデオ圧縮モジュール322によって提供される再構築形状画像365と、パッチ情報332とを使用して平滑化形状358を生成する、平滑化モジュール310を含んでもよい。平滑化モジュール310の平滑化手順は、圧縮アーティファクトによってパッチ境界に生じ得る、潜在的な不連続性を緩和することを目的としてもよい。平滑化形状358は、テクスチャ画像356を生成するために、テクスチャ画像生成モジュール308によって使用されてもよい。

ビデオエンコーダ203はまた、マルチプレクサ328によって圧縮ビットストリーム374で提供される圧縮補助パッチ情報370を形成するための補助パッチ情報圧縮モジュール312を含んでもよい。

図4は、本開示の実施形態による、ビデオデコーダ210の例示的な機能ブロック図である。

図4に示すように、ビデオデコーダ210は、ビデオエンコーダ203からコーディング済ビットストリーム374を受信して、圧縮テクスチャ画像362、圧縮形状画像364、圧縮占有マップ372、および圧縮補助パッチ情報370を取得してもよい。ビデオデコーダ210は、圧縮テクスチャ画像362、圧縮形状画像364、圧縮占有マップ372、および圧縮補助パッチ情報370を復号して、復元テクスチャ画像460、復元形状画像462、復元占有マップ464、および復元補助パッチ情報466をそれぞれ取得してもよい。続いて、ビデオデコーダ210は、復元テクスチャ画像460、復元形状画像462、復元占有マップ464、および復元補助パッチ情報466に基づいて、再構築点群474を生成してもよい。

実施形態では、ビデオデコーダ210は、受信した圧縮ビットストリーム374の、圧縮テクスチャ画像362、圧縮形状画像364、圧縮占有マップ372、および圧縮補助パッチ情報370を分配する、デマルチプレクサ402を含んでもよい。

ビデオデコーダ210は、それぞれ、圧縮テクスチャ画像362を復号するビデオ復元モジュール404、圧縮形状画像364を復号するビデオ復元モジュール406、圧縮占有マップ372を復号する占有マップ復元モジュール408、および圧縮補助パッチ情報370を復号する補助パッチ情報復元モジュール410を含んでもよい。

ビデオデコーダ210は、復元形状画像462、復元占有マップ464、および復元補助パッチ情報466に基づいて再構築（三次元）形状468を取得する、形状再構築モジュール412を含んでもよい。

ビデオデコーダ210は、再構築形状468を平滑化して平滑化形状470を取得する、平滑化モジュール414を含んでもよい。平滑化手順は、圧縮アーティファクトによってパッチ境界に生じ得る、潜在的な不連続性を緩和することを目的とし得る。

ビデオデコーダ210は、復元テクスチャ画像460および平滑化形状470に基づいて再構築テクスチャ472を取得する、テクスチャ再構築モジュール416を含んでもよい。

ビデオデコーダ210は、再構築テクスチャ472の色を平滑化して再構築点群474を取得する、色平滑化モジュール418を含んでもよい。3D空間内の隣接していないパッチは、2Dビデオ内で互いに隣接してパッキングされることが多い。これは、隣接していないパッチの画素値が、ブロックベースのビデオコーデックによって混合する場合があることを意味する。色平滑化モジュール418の色平滑化は、パッチ境界に現れる、目に見えるアーティファクトを削減することを目的としてもよい。

ビデオベースの点群圧縮（V-PCC）におけるパッチパッキング
V-PCCに対応し得る、MPEG PCCテストモデルカテゴリ2（TMC2）モデルでは、パッチパッキングプロセスは、各生成されたパッチに対応する形状またはテクスチャデータをサイズWxHの2Dグリッド上に効率的に配置することによって、形状およびテクスチャマップを生成しようと試みる。このような配置はまた、この2Dグリッド上に配置された異なるパッチ間の最小距離を指定する、ユーザ定義の最小サイズブロックTxTを占めることができる。対応する値（T）は、符号化されてデコーダに送信され得る。

TMC 2におけるパッキング方法は、以下のように網羅的な検索アルゴリズムを使用することができる。
・最初に、重複しない挿入を保証するように、2Dグリッド上にパッチが配置される。パッチに属するサンプル（Tの倍数である値に丸められる）は、占有されたブロックと見なされる。
・加えて、隣り合うパッチ間のセーフガードは、Tの倍数である少なくとも1つのブロックの距離に強制される。
・パッチは、パッチインデックスリストに基づいて順序正しく処理される。リストからの各パッチは、グリッド上に反復的に配置される。グリッド解像度は、元の点群サイズに依存し、その幅（W）および高さ（H）はデコーダに伝送される。
・次のパッチに利用可能な空いた空間がない場合、グリッドの高さ値が最初に2倍され、このパッチの挿入が再度評価される。すべてのパッチの挿入が成功した場合には、高さは必要最小値にトリミングされる。しかしながら、この値は、エンコーダにおいて最初に指定された値よりも低く設定することはできない。
・WおよびHの最終値は、適切なビデオコーデックを使用してテクスチャおよび形状ビデオ信号を符号化するために使用されるフレーム解像度に対応する。

ビデオ圧縮に適したパッキング結果を生成するために、投影段階の後に生成されたフレーム内のパッチを並べ替えるための、一時的に一貫したパッチ順序調整方法が使用され得る。フレームのグループ内の時間的に一貫したパッキングを改善するために、グローバルパッチ割り当て（GPA）パッキング方法が使用されてもよい。

しかしながら、GPAは、時間的相関が最も近いフレームからであると仮定する。例えば図6では、フレームT内のパッチは、フレームT－1および／またはT＋1内でそれらの一致するパッチを見つけることになる。図5A～図5Bは、一実施形態によるグローバルパッチ割り当て（GPA）設計におけるフレーム間依存性の例を示す。図5Aに示すように、現在のフレームはその前のフレームのみに依存してもよく、または図5Bに示すように、現在のフレームは、その前のフレームおよび次のフレームの両方に依存してもよい。したがって、フレームT－1が処理されるまで、フレームTを処理することはできない。言い換えると、現在のフレームは、その前のフレームを待たなければならない。この制限は、複数のフレームを用いた並列処理の可能性を妨げる。

実施形態は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダの各々は、処理回路（例えば、1つ以上のプロセッサまたは1つ以上の集積回路）によって実施されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

実施形態は、複数のフレームを用いた並列処理を可能にし得るグループオブピクチャ（GoP）ベースのパッチパッキング方法に関することができる。

例示的な実施形態は、以下のように進行することができる。
・フレームをグループに分割することができ、時間的に隣接するフレームを同じグループに入れることができる。
o実施形態では、各グループのサイズを等しく設定することができる。サイズは、エンコーダおよびデコーダの両方によって仮定されるか、またはサイズはビットストリームでシグナリングされることが可能である。
o実施形態では、各グループのサイズは異なっていてもよい。例えば、パッチされたフレームの変化が少ないとき、より大きいサイズを使用することができる。後続のグループのサイズを示すために、GoPレベルシグナリングを使用することができる。前のサイズ情報に対するデルタサイズのみをシグナリングするために、予測シグナリング方法を使用することができる。
・同じグループ内のフレームは、グループ内になく、既に処理されているフレームに依存し得る。この場合、同じグループ内のフレームは、並列で処理されてもよい。
・実施形態では、GoPベースのパッチパッキングの使用は、最も近いフレーム内のパッチの元の相関を破る可能性がある。しかしながら、（図5A～図5Bに示すように）最も近いフレームからの端方向／双方向相関は、特定の伝播規則によって復元することができる。

実施形態では、シーケンスの第1のフレームを除くフレームは、図6に示すように、2つの隣接フレームごとにグループ化されてもよい。F0は、最初に独立して処理することができる。F1およびF2は同じグループであり、これらは同じフレームF0に依存している。この場合、F0はグループ外であり、このグループよりも前に既に処理されている。同様に、F3およびF4は同じグループであり、これらは同じフレームF2に依存している。F2はグループ外であり、このグループよりも前に既に処理されている。したがって、F1およびF2は、F0が処理された後に並列で処理されることが可能であり、F3およびF4は、F2が処理された後に並列で処理されることが可能である。

実施形態では、シーケンスの第1のフレームを除くフレームは、図7に示すように、4つの隣接フレームごとにグループ化されてもよい。F0は、最初に独立して処理することができる。F1からF4のフレームは同じグループであり、これらは同じフレームF0に依存している。F0はグループ外であり、このグループよりも前に既に処理されている。同様に、F5からF8のフレームは同じグループであり、これらは同じフレームF4に依存している。F4はグループ外であり、このグループよりも前に既に処理されている。したがって、F1からF4のフレームは、F0が処理された後に並列で処理されることが可能であり、F5からF8のフレームは、F4が処理された後に並列で処理されることが可能である。

GoPベースのパッチパッキングの実施形態は、図5A～図5Bに示すように、時間的相関が最も近いフレームからであるという現在のGPAにおける仮定を破る可能性がある。したがって、提案されたGoPベースのパッチパッキングにおける導出されたパッチ相関に基づいて最も近い隣接フレーム間のパッチ相関を復元するために、伝播方法を適用することができる。図8A～図8Bは、一実施形態による、最も近い隣接フレームへの例示的なパッチ相関伝播を示す。具体的には、図8Aは、パッチ追跡伝播が実行される前のパッチ相関を示し、図8Bは、パッチ追跡伝播が実行された後のパッチ相関を示す。

GoPベースのパッチパッキングが有効化されている一例が、図8Aに示されている。F1およびF2は同じグループであり、これらは両方ともF0に依存している。各フレームは4つのパッチ、すなわちP0からP3を有すると仮定する。GoPベースのパッチパッキングによって導出されたパッチ相関は図8Aに示すことができ、F1におけるパッチはF0との対応関係を見つけ、F2におけるパッチもまたF0との対応関係を見つける。

伝播を実行することにより、図8Bに示すように、F1とF2との間のパッチ対応関係を見つけることができる。例えば、F2におけるP0およびF1におけるP0は、両方ともF0におけるP0に対応するので、関連している。別の例では、F2におけるP1およびF1におけるP2は、両方ともF0におけるP1に対応するので、関連している。第3の例では、F2におけるP2およびF1におけるP1は、両方ともF0におけるP2に対応するので、関連している。第4の例では、F2におけるP3およびF1におけるP3は、F0において同じ対応関係を見つけることができないので、関連していない。このようにして、必要に応じて、GoPベースのパッチパッキングから隣接フレーム間のパッチ対応関係を予測することができる。

図9は、ビデオ点群コーディングを使用してビデオストリームを符号化する方法900のフローチャートである。いくつかの実装形態では、図9の1つ以上のプロセスブロックは、エンコーダ203によって実行されてもよい。いくつかの実装形態では、図9の1つ以上のプロセスブロックは、デコーダ210などの、エンコーダ203とは別個のもしくはエンコーダ203を含む別の装置または装置のグループによって実行されてもよい。

図9に示すように、動作910において、方法900は、第1のフレームおよび残りのフレームを含む複数のフレームを取得するステップであって、複数のフレームの各フレームは、対応する複数のパッチでパッキングされる、ステップを含むことができる。実施形態では、第1のフレームは、上述されたF0に対応してもよい。

動作920において、方法900は、残りのフレームを第1のグループおよび第2のグループにグループ化するステップであって、同じグループにグループ化されたフレームは時間的に隣接し得る、ステップを含むことができる。実施形態では、第1のグループは、上述されたグループ0に対応してもよく、第2のグループは、上述されたグループ1に対応してもよい。実施形態では、残りのフレームは、第1のグループの少なくとも1つのフレームが第1のフレームに依存することができ、第2のグループの少なくとも1つのフレームが第1のグループのフレームに依存することができ、第2のグループのフレームは第1のフレームに依存することができないように、グループ化され得る。

動作930において、方法900は、第1のフレームを処理するステップを含むことができる。

動作940において、方法900は、第1のフレームが処理された後に、第1のグループ内のフレームを並列処理するステップを含むことができる。実施形態では、並列処理は、第1のグループの1つ以上のフレームを互いに並列に処理するステップを含むことができる。

動作950において、方法900は、処理された第1のフレーム、処理された第1のグループおよび処理された第2のグループに基づいて、符号化ビデオストリームを生成するステップを含むことができる。

実施形態では、方法900は、第1のグループが処理された後に、第2のグループ内のフレームを並列処理するステップを含むことができ、符号化ビデオストリームは、第2のグループ内の処理されたフレームに基づいてさらに生成されてもよい。実施形態では、並列処理は、第2のグループの1つ以上のフレームを互いに並列に処理するステップを含むことができる。

実施形態では、第1のグループのサイズと第2のグループのサイズとは等しいサイズであってもよい。

実施形態では、等しいサイズは、符号化ビデオストリームでシグナリングされてもよい。

実施形態では、第1のグループのサイズは、第2のグループのサイズと異なっていてもよい。

実施形態では、第1のグループのサイズは、符号化ビデオストリームでシグナリングされてもよく、第1のグループのサイズと第2のグループのサイズとの差は、符号化ビデオストリームでシグナリングされてもよい。

実施形態では、方法は、第1のグループに含まれるパッチ間の第1のパッチ対応関係、および第2のグループに含まれるパッチ間の第2のパッチ対応関係のうちの少なくとも1つを決定するステップをさらに含むことができ、符号化ビデオストリームは、第1のパッチ対応関係および第2のパッチ対応関係のうちの少なくとも1つに基づいて生成することができる。

図9は、方法900の例示的なブロックを示しているが、いくつかの実装形態では、方法900は、図9に示すものとは異なる追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加的に、または代替的に、方法900のブロックのうちの2つ以上が並列に実行されてもよい。

図10は、実施形態による、ビデオ点群コーディングを使用してビデオストリームを符号化するための装置1000の図である。図10に示すように、装置800は、取得コード1010、グループ化コード1020、処理コード1030、第1の並列処理コード1040、および生成コード1050を含む。

取得コード1010は、少なくとも1つのプロセッサに、第1のフレームおよび残りのフレームを含む複数のフレームを取得させるように構成されてもよく、複数のフレームの各フレームは対応する複数のパッチでパッキングされる。実施形態では、第1のフレームは、上述されたF0に対応してもよい。

グループ化コード1020は、少なくとも1つのプロセッサに、残りのフレームを第1のグループおよび第2のグループにグループ化させるように構成されてもよく、同じグループにグループ化されたフレームは時間的に隣接し得る。実施形態では、第1のグループは、上述されたグループ0に対応してもよく、第2のグループは、上述されたグループ1に対応してもよい。実施形態では、残りのフレームは、第1のグループの少なくとも1つのフレームが第1のフレームに依存することができ、第2のグループの少なくとも1つのフレームが第1のグループのフレームに依存することができ、第2のグループのフレームは第1のフレームに依存することができないように、グループ化され得る。

処理コード1030は、少なくとも1つのプロセッサに第1のフレームを処理させるように構成されてもよい。

第1の並列処理コード1040は、第1のフレームが処理された後に、少なくとも1つのプロセッサに第1のグループを並列処理させるように構成されてもよい。実施形態では、並列処理は、第1のグループの1つ以上のフレームを互いに並列に処理するステップを含むことができる。

生成コード1050は、少なくとも1つのプロセッサに、処理された第1のフレーム、処理された第1のグループ、および処理された第2のグループに基づいて符号化ビデオストリームを生成させるように構成されてもよい。

実施形態では、デバイス1000は、第1のグループが処理された後に、少なくとも1つのプロセッサに第2のグループを並列処理させるように構成されたコードをさらに含むことができ、符号化ビデオストリームは、第2のグループ内の処理されたフレームに基づいて生成されてもよい。実施形態では、並列処理は、第2のグループの1つ以上のフレームを互いに並列に処理するステップを含むことができる。

上述した技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、1つ以上のコンピュータ可読媒体に物理的に記憶されることが可能である。例えば、図11は、本開示の特定の実施形態を実施するのに適したコンピュータシステム1100を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（CPU）、グラフィックス処理装置（GPU）などによって、直接、または解釈、マイクロコードの実行などを通して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行することができる。

コンピュータシステム1100について図11に示される構成要素は、例であり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性に関する制限を示唆することを意図するものではない。構成要素の構成は、コンピュータシステム1100の非限定的な実施形態に示されている構成要素のいずれか1つ、または構成要素の組合せに関して、依存性を有するものとも要件を有するものとも解釈されてはならない。

コンピュータシステム1100は、特定のヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を通して1人以上の人間のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスは、（音声、音楽、周囲の音などの）オーディオ、（走査画像、静止画カメラから取得された写真画像などの）画像、（二次元ビデオ、立体ビデオを含む三次元ビデオなどの）ビデオなどの、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするために使用することもできる。

入力ヒューマンインターフェースデバイスは、キーボード1101、マウス1102、トラックパッド1103、タッチスクリーン1110、データグローブ、ジョイスティック1105、マイクロフォン1106、スキャナ1107、カメラ1108のうちの1つ以上（各々のうちの1つのみを図示）を含むことができる。

コンピュータシステム1100はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い／味を通じて、1人以上の人間のユーザの感覚を刺激し得る。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン1110、データグローブ、またはジョイスティック1105による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）を含むことができる。例えば、このようなデバイスは、（スピーカ1109、ヘッドフォン（描写せず）などの）オーディオ出力デバイス、（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1110など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡（描写せず）、ホログラフィックディスプレイおよびスモークタンク（描写せず）などの手段を介して二次元視覚出力または三次元以上の出力を出力することが可能な場合がある）視覚出力デバイス、ならびにプリンタ（描写せず）であってもよい。

コンピュータシステム1100はまた、人間がアクセス可能な記憶装置、およびCD／DVDなどの媒体1121を有するCD／DVD ROM／RW1120を含む光学媒体、サムドライブ1122、リムーバブルハードドライブまたはソリッドステートドライブ1123、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用ROM／ASIC／PLDベースの装置などのそれらの関連媒体を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するはずである。

コンピュータシステム1100はまた、1つ以上の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例は、イーサネット、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワークなどのローカルエリアネットワーク、ケーブルテレビ、衛星テレビ、地上波放送テレビを含むTV有線または無線広域デジタルネットワーク、車両用、CANBusを含む産業用などを含む。特定のネットワークは通常、特定の汎用データポートまたは周辺バス1149（例えば、コンピュータシステム1100のUSBポート）に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明するように、システムバスに接続することによってコンピュータシステム1100のコアに統合される（例えば、PCコンピュータシステムに対するイーサネットインターフェース、またはスマートフォンコンピュータシステムに対するセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム1100は他のエンティティと通信することができる。このような通信は、単方向受信のみ（例えば、ブロードキャストTV）、単方向送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または、例えば、ローカルもしくは広域のデジタルネットワークを使用する他のコンピュータシステムとの双方向であり得る。このような通信は、クラウドコンピューティング環境1155への通信を含むことができる。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、およびネットワークインターフェース1154は、コンピュータシステム1100のコア1140に取り付けることができる。

コア1140は、1つ以上の中央処理装置（CPU）1141、グラフィックス処理装置（GPU）1142、フィールドプログラマブルゲートエリア（FPGA）1143の形式の特殊なプログラム可能な処理装置、特定のタスクのためのハードウェアアクセラレータ1144などを含み得る。これらのデバイスは、読み取り専用メモリ（ROM）1145、ランダムアクセスメモリ1146、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置1147と共に、システムバス1148を介して接続することができる。いくつかのコンピュータシステムでは、システムバス1148は、追加のCPU、GPUなどによる拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス1148に直接接続することも、周辺バス1149を介して接続することもできる。周辺バスのアーキテクチャは、PCI、USBなどを含む。グラフィックスアダプタ1150は、コア1140に含まれてもよい。

CPU1141、GPU1142、FPGA1143、およびアクセラレータ1144は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行できる。そのコンピュータコードは、ROM1145またはRAM1146に記憶され得る。移行データもRAM1146に記憶され得るが、永続データは、例えば内部大容量記憶装置1147に記憶され得る。メモリデバイスのいずれかへの高速な記憶および読み出しは、1つ以上のCPU1141、GPU1142、大容量記憶装置1147、ROM1145、RAM1146などに密接に関連するキャッシュメモリを使用することで可能になり得る。

コンピュータ可読媒体は、様々なコンピュータ実施操作を行うためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。

限定ではなく例として、アーキテクチャ1100、特にコア1140を有するコンピュータシステムは、1つ以上の有形のコンピュータ可読媒体で実現されたソフトウェアを実行する1つ以上のプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として、機能性を提供することができる。このようなコンピュータ可読媒体は、上記で紹介したユーザアクセス可能な大容量記憶装置、ならびにコア内部大容量記憶装置1147またはROM1145などの非一時的な性質のコア1140の特定の記憶装置に関連する媒体であり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア1140によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイスまたはチップを含み得る。ソフトウェアは、コア1140および具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM1146に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載した特定のプロセスを、または特定のプロセスの特定の部分を実行させ得る。加えて、または代替として、コンピュータシステムは、回路（例えば、アクセラレータ1144）にハードワイヤードまたはその他の方法で具現化されたロジックの結果として機能性を提供することができ、それは、本明細書に記載した特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと共に動作することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（IC）など）、実行のための論理を具体化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。

本開示は、いくつかの非限定的な実施形態を説明しているが、本開示の範囲内にある変更、順列、および様々な代替的な同等物が存在する。したがって、当業者は、本明細書では明示的に示されていないか、または説明されていないが、本開示の原理を具現化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。

100 通信システム
110 第1の端末
120 第2の端末
130 端末
140 端末
150 通信ネットワーク
200 ストリーミングシステム
201 ビデオソース
202 ストリーム
203 エンコーダ
204 符号化ビデオビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
209 ビデオビットストリーム
210 ビデオデコーダ
211 発信ビデオサンプルストリーム
212 ディスプレイ
213 キャプチャサブシステム
302 パッチ生成モジュール
304 パッチパッキングモジュール
306 形状画像生成モジュール
308 テクスチャ画像生成モジュール
310 平滑化モジュール
312 補助パッチ情報圧縮モジュール
314 画像パディングモジュール
316 画像パディングモジュール
318 エントロピー圧縮モジュール
320 グループ拡大モジュール
322 ビデオ圧縮モジュール
324 ビデオ圧縮モジュール
326 ビデオ圧縮モジュール
328 マルチプレクサ
332 パッチ情報
334 占有マップ
350 点群フレーム
352 形状画像
354 パディングされた形状画像
356 テクスチャ画像
358 再構築／平滑化形状
360 パディングされたテクスチャ画像
362 圧縮形状画像、圧縮テクスチャ画像
364 圧縮テクスチャ画像、圧縮形状画像
365 再構築形状画像
366 可逆符号化
368 非可逆符号化
370 圧縮補助パッチ情報
372 圧縮占有マップ
374 圧縮ビットストリーム
402 デマルチプレクサ
404 ビデオ復元モジュール
406 ビデオ復元モジュール
408 占有マップ復元モジュール
410 補助パッチ情報復元モジュール
412 形状再構築モジュール
414 平滑化モジュール
416 テクスチャ再構築モジュール
418 色平滑化モジュール
460 復元テクスチャ画像
462 復元形状画像
464 復元占有マップ
466 復元補助パッチ情報
468 再構築形状
470 平滑化形状
472 再構築テクスチャ
474 再構築点群
1000 装置
1010 取得コード
1020 グループ化コード
1030 処理コード
1040 第1の並列処理コード
1050 生成コード
1100 コンピュータシステム
1101 キーボード
1102 マウス
1103 トラックパッド
1105 ジョイスティック
1106 マイクロフォン
1107 スキャナ
1108 カメラ
1109 スピーカ
1110 タッチスクリーン
1120 CD／DVD ROM／RW
1121 媒体
1122 サムドライブ
1123 リムーバブルハードドライブまたはソリッドステートドライブ
1140 コア
1141 中央処理装置（CPU）
1142 グラフィックス処理装置（GPU）
1143 フィールドプログラマブルゲートエリア（FPGA）
1144 ハードウェアアクセラレータ
1145 読み取り専用メモリ（ROM）
1146 ランダムアクセスメモリ
1147 内部大容量記憶装置
1148 システムバス
1149 周辺バス
1150 グラフィックスアダプタ
1155 クラウドコンピューティング環境

Claims

ビデオ点群コーディングを使用してビデオストリームを符号化する方法であって、前記方法は、少なくとも1つのプロセッサによって実行され、
第1のフレームおよび残りのフレームを含む複数のフレームを取得するステップであって、前記複数のフレームの各フレームは、対応する複数のパッチでパッキングされる、ステップと、
前記残りのフレームを第1のグループおよび第2のグループにグループ化するステップであって、同じグループにグループ化されたフレームは時間的に隣接している、ステップと、
前記第1のフレームを処理するステップと、
前記第1のフレームが処理された後に、前記第1のグループ内のフレームを並列処理するステップと、
前記第1のグループ内の前記処理された第1のフレームおよび前記処理されたフレームに基づいて符号化ビデオストリームを生成するステップと
を含み、
前記第1のグループの少なくとも1つのフレームは、前記第1のフレームに依存する、方法。
前記第1のグループが処理された後に、前記第2のグループ内のフレームを並列処理するステップをさらに含み、
前記第2のグループの少なくとも1つのフレームは、前記第1のグループのフレームに依存し、
前記第2のグループのフレームは、前記第1のフレームに依存せず、
前記符号化ビデオストリームは、前記第2のグループの前記処理されたフレームに基づいて生成される、請求項1に記載の方法。
前記第1のグループのサイズと前記第2のグループのサイズとは等しいサイズである、請求項1に記載の方法。
前記等しいサイズは、前記符号化ビデオストリームでシグナリングされる、請求項3に記載の方法。
前記第1のグループのサイズは、前記第2のグループのサイズと異なっている、請求項1に記載の方法。
前記第1のグループの前記サイズは、前記符号化ビデオストリームでシグナリングされ、
前記第1のグループの前記サイズと前記第2のグループの前記サイズとの差は、前記符号化ビデオストリームでシグナリングされる、請求項5に記載の方法。
前記第1のグループに含まれるパッチ間の第1のパッチ対応関係、および前記第2のグループに含まれるパッチ間の第2のパッチ対応関係のうちの少なくとも1つを決定するステップをさらに含み、
前記符号化ビデオストリームは、前記第1のパッチ対応関係および前記第2のパッチ対応関係のうちの前記少なくとも1つに基づいて生成される、請求項1に記載の方法。
ビデオ点群コーディングを使用してビデオストリームを符号化するための装置であって、
プログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって命令されたとおりに動作するように構成された少なくとも1つのプロセッサと
を備え、
前記プログラムコードは、前記少なくとも1つのプロセッサに、請求項1から7のいずれか一項に記載の方法を行わせる、装置。
コンピュータに、請求項1から7のいずれか一項に記載の方法を行わせる、コンピュータプログラム。