JP2023533423A

JP2023533423A - ビデオベースの点群コーディングのための非バイナリ占有マップ

Info

Publication number: JP2023533423A
Application number: JP2022570214A
Authority: JP
Inventors: シャン・ジャン; ウェイウェイ・フェン; ウェン・ガオ; シャン・リュウ; ビン・ジアン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-06-04
Filing date: 2021-10-12
Publication date: 2023-08-03
Also published as: EP4128749A4; US20220394294A1; WO2022256031A1; KR20230010258A; CN115918070A; EP4128749A1

Abstract

ビデオ点群コーディングを使用してエンコードされたビデオストリームをエンコードする方法および装置は、ソース点群を取得するステップと、ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成するステップであって、各画素に関連する占有値が非バイナリ値である、ステップと、エンコード済占有マップを生成するために占有マップをエンコードするステップであって、エンコード済占有マップのブロックが占有マップの1つまたは複数の画素に対応する、ステップと、1つまたは複数の画素に基づいてブロックの占有値を選択するステップと、選択された占有値に基づいてエンコード済ビデオストリームを生成するステップと、を含む。

Description

関連出願の相互参照
本出願は、2021年6月4日に出願された米国仮特許出願第63／197，274号および2021年10月7日に出願された米国特許出願第17／496，270号の優先権を主張し、これらの開示はその全体が参照により本明細書に組み込まれる。

本開示は、高度なビデオコーディング技術のセット、より具体的には、非バイナリ占有マップ表現を含むビデオベースの点群圧縮に関する。

先進的な3次元（3D）の世界表現によって、より没入的な形態の相互作用および通信が可能になっている。これにより、機械がわれわれの住む世界を理解し、解釈し、ナビゲートすることも可能になっている。点群は、世界の3D表現として広く使用されている。例えば、それらは、物体検出および位置特定のための自動運転車両、地図作成のための地理情報システム（GIS）、ならびに、文化的伝統のオブジェクトおよびコレクションを視覚化しかつアーカイブするための文化的伝統などで使用することができる。点群データに関連するいくつかの使用事例が特定されており、点群の表現および圧縮に対する対応要件がいくつか開発されている。

点群は、例えば3次元（3D）などの高次元点のセットを含み、それぞれが3D位置情報および色、反射率などの追加の属性を含む。これらの点群は、複数のカメラおよび深度センサ、またはライダを様々な設定で使用して取り込むことができ、また元の情景を、臨場感をもって表すために、数千から最大数十億のポイントで構成されている場合がある。

より高速なデータ送信、または記憶装置の削減を目的として、点群を表すために必要なデータ量を削減するために、圧縮技術が必要とされる。ISO／IEC MPEG（JTC 1／SC 29／WG 11）は、静的または動的なクラウドのための圧縮技術を標準化するためのアドホックグループ（MPEG－PCC）を作成した。

実施形態では、ビデオ点群コーディングを使用してエンコードされたビデオストリームをエンコードする方法は、少なくとも1つのプロセッサによって実行され、ソース点群を取得するステップと、ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成するステップであって、各画素に関連する占有値が非バイナリ値である、ステップと、エンコード済占有マップを生成するために占有マップをエンコードするステップであって、エンコード済占有マップのブロックが占有マップの1つまたは複数の画素に対応する、ステップと、1つまたは複数の画素に基づいてブロックの占有値を選択するステップと、選択された占有値に基づいてエンコード済ビデオストリームを生成するステップと、を含む。

実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化するための装置は、プログラムコードを格納するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサと、を備え、プログラムコードは、少なくとも1つのプロセッサに、ソース点群を取得させるように構成された第1の取得コードと、少なくとも1つのプロセッサに、ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成させるように構成された第1の生成コードであって、各画素に関連する占有値が非バイナリ値である、第1の生成コードと、少なくとも1つのプロセッサに、エンコード済占有マップを生成するために占有マップをエンコードさせるように構成されたエンコーディングコードであって、エンコード済占有マップのブロックが、占有マップの1つまたは複数の画素に対応する、エンコーディングコードと、少なくとも1つのプロセッサに、1つまたは複数の画素に基づいてブロックの占有値を選択させるように構成された選択コードと、少なくとも1つのプロセッサに、選択された占有値に基づいてエンコード済ビデオストリームを生成させるように構成された第2の生成コードと、を含む。

実施形態では、ビデオ点群コーディングを使用してビデオストリームをエンコードし、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、ソース点群を取得させ、ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成させ、各画素に関連する占有値が非バイナリ値であり、エンコード済占有マップを生成するために占有マップをエンコードさせ、エンコード済占有マップのブロックが占有マップの1つまたは複数の画素に対応し、1つまたは複数の画素に基づいてブロックの占有値を選択させ、選択された占有値に基づいてエンコード済ビデオストリームを生成させる、コンピュータ命令を格納する、非一時的コンピュータ可読媒体。

本開示の主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明、および添付の図面でより明らかになるであろう。

一実施形態による通信システムの簡略化されたブロック図の概略図である。一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。一実施形態によるビデオエンコーダの簡略化されたブロック図の概略図である。一実施形態によるビデオデコーダの簡略化されたブロック図の概略図である。一実施形態による、B×B部分占有ブロックの一例を示す図である。一実施形態による、4×4ブロックの16ビット占有表現の例を示す図である。一実施形態による、4×4ブロックの8ビット占有表現の例を示す図である。一実施形態による、4×4ブロックの4ビット占有表現の例を示す図である。一実施形態によって実行されるプロセスを示す流れ図である。一実施形態による装置を示す図である。実施形態を実施するのに適したコンピュータシステムの図である。

ビデオベースの点群圧縮（V－PCC）の背後にある考慮事項は、既存のビデオコーデックを活用して、動的点群の形状、占有率、およびテクスチャを3つの別々のビデオシーケンスとして圧縮することである。3つのビデオシーケンスの解釈に必要な余分なメタデータは、個別に圧縮されてもよい。ビットストリーム全体の小部分がメタデータであり、ソフトウェア実装を使用して効率的にエンコード／デコードすることができる。ビデオコーデックによって、大量の情報が処理され得る。

本開示の実施形態は、反復平滑化フレームワークにおける過剰平滑化を回避するためのアニーリング反復形状平滑化に関する。本開示の実施形態は、純粋な中央値を使用する計算の複雑さを低減することを目的として、平均統計値と中央値統計値との組み合わせを使用して基準点を導出することに関する。

図1～図4を参照すると、本開示のエンコーディングおよびデコーディングの構造を実施するための、本開示の実施形態が説明されている。本開示のエンコーディングおよびデコーディングの構造は、上述したV－PCCの態様を実施してもよい。

図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を例示する。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含み得る。データの単方向伝送の場合、第1の端末110は、ネットワーク150を介して他の端末120に伝送するために、ローカルロケーションでビデオデータをコーディングすることができる。第2の端末120は、ネットワーク150から他の端末のコーディング済ビデオデータを受信し、コーディング済データをデコードし、復元されたビデオデータを表示し得る。単方向データ伝送は、メディアサービング用途などで一般的であり得る。

図1は、例えばビデオ会議中に発生し得るコーディング済ビデオの双方向伝送をサポートするために設けられた端末130、140の第2のペアを示す。データの双方向伝送の場合、各端末130、140は、ネットワーク150を介して他の端末に伝送するために、ローカルロケーションでキャプチャされたビデオデータをコーディングすることができる。各端末130、140はまた、他の端末によって送信されたコーディング済ビデオデータを受信し、コーディング済データをデコードし、復元されたビデオデータをローカルディスプレイデバイスに表示し得る。

図1では、端末110～140は、例えば、サーバ、パーソナルコンピュータ、およびスマートフォン、ならびに／または任意の他のタイプの端末であってもよい。例えば、端末（110～140）は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および／または専用ビデオ会議機器であり得る。ネットワーク150は、例えば、有線および／または無線通信ネットワークを含む、端末110～140間でコーディング済ビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク150は、回線交換および／またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットを含む。本解説の目的のために、ネットワーク150のアーキテクチャおよびトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。

図2は、開示された主題の用途の一例として、ストリーミング環境でのビデオエンコーダおよびデコーダの配置を示している。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの格納を含む、他のビデオ対応アプリケーションで使用され得る。

図2に示すように、ストリーミングシステム200は、ビデオソース201およびエンコーダ203を含むキャプチャサブシステム213を含むことができる。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205および／または少なくとも1つのストリーミングクライアント206をさらに含んでもよい。

ビデオソース201は、例えば、3Dビデオに対応する3D点群を含むストリーム202を生成することができる。ビデオソース201は、例えば、3Dセンサ（例えば、深度センサ）、または3D撮像技術（例えば、デジタルカメラ）、および3Dセンサまたは3D撮像技術から受信したデータを使用して3D点群を生成するように構成されたコンピューティングデバイスを含んでもよい。エンコード済ビデオビットストリームと比較してデータボリュームが大きくてもよいサンプルストリーム202は、ビデオソース201に結合されたエンコーダ203によって処理することができる。以下でより詳細に説明するように、エンコーダ203は、開示される主題の態様を可能にする、または実施するために、ハードウェア、ソフトウェア、またはこれらの組み合わせを含むことができる。エンコーダ203は、エンコード済ビデオビットストリーム204をさらに生成してもよい。圧縮されていないストリーム202と比較して、データボリュームが小さくてもよいエンコード済ビデオビットストリーム204は、後で使用するためにストリーミングサーバ205に記憶することができる。1つまたは複数のストリーミングクライアント206は、ストリーミングサーバ205にアクセスして、エンコード済ビデオビットストリーム204のコピーであり得るビデオビットストリーム209を取得することができる。

ストリーミングクライアント206は、ビデオデコーダ210およびディスプレイ212を含むことができる。ビデオデコーダ210は、例えば、エンコード済ビデオビットストリーム204の着信コピーである、ビデオビットストリーム209をデコードし、ディスプレイ212または別のレンダリングデバイス（図示せず）上にレンダリングされ得る発信ビデオサンプルストリーム211を生成することができる。一部のストリーミングシステムでは、ビデオビットストリーム204、209は、いくつかのビデオコーディング／圧縮標準規格に従ってエンコードすることができる。そのような標準規格の例には、ITU－T勧告H．265、多用途ビデオコーディング（VVC）、およびMPEG／V－PCCが含まれるが、これらに限定されない。

図3および図4を参照しながら、本開示の実施形態によって実行され得るV－PCCのいくつかの態様について、以下で説明する。

図3は、本開示の実施形態による、ビデオエンコーダ203の例示的な機能ブロック図である。

図3に示すように、ビデオエンコーダ203は、点群フレーム350を受信して、点群フレーム350に基づいて、形状画像352、テクスチャ画像356、および占有マップ334を生成してもよい。ビデオエンコーダ203は、形状画像352を圧縮して圧縮された形状画像362にし、テクスチャ画像356を圧縮して圧縮されたテクスチャ画像364にし、かつ占有マップ334を圧縮して圧縮された占有マップ372にしてもよい。ビデオエンコーダ203のマルチプレクサ328は、圧縮された形状画像362、圧縮されたテクスチャ画像364、および圧縮された占有マップ372を含む、圧縮されたビットストリーム374を形成してもよい。

より具体的には、実施形態において、ビデオエンコーダ203は、点群フレーム350をパッチに分割する、パッチ生成モジュール302を含んでもよい。パッチはV－PCCの有用なエンティティである。パッチ生成プロセスは、点群フレーム350を分解して、平滑な境界を有する最小の数のパッチにすることを含み、その一方で、再構築誤差を最小にすることをさらに含む。本開示のエンコーダは、このような分解を生じさせるために、様々な方法を実施し得る。

ビデオエンコーダ203は、パッキングプロセスを実行するパッチパッキングモジュール304を含んでもよい。パッキングのプロセスは、未使用の空間を最小にしながら、抽出したパッチを2Dグリッドにマッピングすること、およびグリッドのM×M（例えば、16x16）のブロックがいずれも、一意のパッチに関連付けられるように保証することを含む。効率的なパッチパッキングは、未使用空間を最小化することによって、或いは時間的整合性を確保することによって、圧縮効率に直接的な影響を及ぼす。パッチパッキングモジュール304は、占有マップ334を生成し得る。

ビデオエンコーダ203は、形状画像生成モジュール306、およびテクスチャ画像生成モジュール308を含んでもよい。同一サンプルに複数の点が投影される事例に対処するために、各パッチをレイヤと呼ばれる2つの画像に投影してもよい。例えば、形状画像生成モジュール306およびテクスチャ画像生成モジュール308は、点群の形状およびテクスチャを画像（レイヤとも呼ばれる）として記憶するために、パッチパッキングモジュール304のパッキングプロセス中に計算された、3Dから2Dへのマッピングを使用してもよい。生成された画像／レイヤは、ビデオフレームとして記憶され、パラメータとして提供される構成に従って、ビデオコーデック（例えば、HMビデオコーデック）を使用して圧縮されてもよい。

実施形態では、入力点群フレーム350および占有マップ334に基づいて、形状画像生成モジュール306は形状画像352を形成し、テクスチャ画像生成モジュール308はテクスチャ画像356を生成する。一実施形態では、形状画像352はYUV420－8ビット形式で、WxHの単色フレームで表されてもよい。一実施形態では、占有マップ334画像は、グリッドの各セルが空間に属するか、それとも点群に属するかを示すバイナリマップからなるテクスチャ画像356を生成するために、テクスチャ画像生成モジュール308は、リサンプルされた点に関連する色を計算する目的で、再構築された／平滑化された形状358を使用してもよい。

ビデオエンコーダ203はさらに、パディングされた形状画像354およびパディングされたテクスチャ画像360を形成するために、形状画像352をパディングする画像パディングモジュール314、およびテクスチャ画像356をパディングする画像パディングモジュール316を含んでもよい。画像パディング（背景の充填とも呼ばれる）とは単に、画像の使用されていない空間を冗長情報で埋める。良好な背景の充填とは、パッチ境界の周囲に著しいコーディング歪みを導入しないようにしながら、ビットレートの増加を最小化するものである。画像パディングモジュール314および画像パディングモジュール316は、パディングされた形状画像354、およびパディングされたテクスチャ画像360をそれぞれ形成するために、占有マップ334を使用してもよい。一実施形態では、ビデオエンコーダ203は、パディングされたテクスチャ画像360を形成するために、グループ拡大モジュール320を含んでもよい。

ビデオエンコーダ203は、パディングされた形状画像354を圧縮して圧縮された形状画像362にするビデオ圧縮モジュール322、およびパディングされたテクスチャ画像360を圧縮して圧縮されたテクスチャ画像364にするビデオ圧縮モジュール324を含んでもよい。

ビデオエンコーダ203は、占有マップ334の可逆エンコーディング366用のエントロピー圧縮モジュール318、および占有マップ334の非可逆エンコーディング368用のビデオ圧縮モジュール326を含んでもよい。

実施形態では、ビデオエンコーダ203は、ビデオ圧縮モジュール322によって提供される再構築された形状画像365と、パッチ情報332とを使用して平滑化された形状358を生成する、平滑化モジュール310を含んでもよい。平滑化モジュール310の平滑化手順は、圧縮アーティファクトによってパッチ境界に生じ得る、潜在的な不連続性を緩和することを目的としてもよい。平滑化された形状358は、テクスチャ画像356を生成するために、テクスチャ画像生成モジュール308によって使用されてもよい。

ビデオエンコーダ203は、圧縮された補助パッチ情報370を形成する、補助パッチ情報圧縮モジュール312をさらに含んでもよく、圧縮された補助パッチ情報370は、マルチプレクサ328によって圧縮されたビットストリーム374として提供される。

図4は、本開示の実施形態による、ビデオデコーダ210の例示的な機能ブロック図である。

図4に示すように、ビデオデコーダ210は、ビデオエンコーダ203からコーディング済ビットストリーム374を受信して、圧縮されたテクスチャ画像362、圧縮された形状画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を取得してもよい。ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮された形状画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370をデコードして、復元されたテクスチャ画像460、復元された形状画像462、復元された占有マップ464、および復元された補助パッチ情報466をそれぞれ取得してもよい。続いて、ビデオデコーダ210は、復元されたテクスチャ画像460、復元された形状画像462、復元された占有マップ464、および復元された補助パッチ情報466に基づいて、再構築された点群474を生成してもよい。

実施形態では、ビデオデコーダ210は、受信した圧縮されたビットストリーム374の、圧縮されたテクスチャ画像362、圧縮された形状画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を分配する、デマルチプレクサ402を含んでもよい。

ビデオデコーダ210は、圧縮されたテクスチャ画像362をデコードするビデオ復元モジュール404、圧縮された形状画像364をデコードするビデオ復元モジュール406、圧縮された占有マップ372をデコードする占有マップ復元モジュール408、および圧縮された補助パッチ情報370をデコードする補助パッチ情報復元モジュール410を含んでもよい。

ビデオデコーダ210は、復元された形状画像462、復元された占有マップ464、および復元された補助パッチ情報466に基づいて再構築された（3次元の）形状468を取得する、形状再構築モジュール412を含んでもよい。

ビデオデコーダ210は、再構築された形状468を平滑化して平滑化された形状470を取得する、平滑化モジュール414を含んでもよい。平滑化手順は、圧縮アーティファクトによってパッチ境界に生じ得る、潜在的な不連続性を緩和することを目的とし得る。

ビデオデコーダ210は、復元されたテクスチャ画像460および平滑化された形状470に基づいて，再構築されたテクスチャ472を取得する、テクスチャ再構築モジュール416を含んでもよい。

ビデオデコーダ210は、再構築されたテクスチャ472の色を平滑化して再構築された点群474を取得する、色平滑化モジュール418を含んでもよい。3D空間内で隣接していないパッチが、2Dビデオ内で互いに隣接してパッキングされることがしばしばある。これは、隣接していないパッチの画素値が、ブロックに基づくビデオコーデックによって混合する場合があることを意味する。色平滑化モジュール418の色平滑化は、パッチ境界に現れる、目に見えるアーティファクトを削減することを目的としてもよい。
ビデオベースの点群圧縮（V－PCC）における占有マップ

V－PCCに対応し得るMPEG PCCテストモデルカテゴリ2（TMC2）モデルでは、占有マップはバイナリ画像であり得、画像内の各バイナリ画素は、それに投影された少なくとも3D点があるか否かを示す。

占有マップは、B×Bブロックの精度でエンコードすることができる。Bはユーザ定義のパラメータである。可逆エンコーディングを実現するためには、B0を1に設定する必要がある。実際には、B＝2またはB＝4は、占有マップをエンコードするのに必要なビット数を大幅に削減しながら、視覚的に許容可能な結果をもたらす。

占有マップブロックが占有されている場合、部分的にしか占有されていなくても、ブロック内のすべての点がデコーディングプロセス中に再構成され、占有精度は4に等しく、ブロック当たりの再構成された点の数は16である。最も極端な場合、単一の占有位置は、対応する占有マップブロックをマークするのに十分である。その結果、デコーディングプロセス中に、（占有精度が4に等しいと仮定して）ただ1つではなく16ポイントが生成される。

V－PCCでは、占有マップはバイナリに制約される。これは、占有精度Bが1より大きい場合、形状歪みを引き起こす可能性がある。例えば、図5において、B＝4である場合、ブロックは、「X」としてマークされた画素によって部分的に占有される。しかしながら、再構築された占有マップ内の16個の画素はすべて占有される。

本明細書に開示する実施形態は、別々に使用されてもよく、任意の順序で組み合わされ得る。さらに、各実施形態、例えばエンコーダおよびデコーダは、処理回路（例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。

実施形態では、占有マップは非バイナリであってもよく、すなわち、その画素値は1より大きくてもよい。例えば、占有マップが8ビットで表される場合、その値は0、1、2、．．．、255とすることができる。

非バイナリ占有マップ内のすべての値は、対応するB×Bブロックの占有状態の特定のパターンを表すことができる。占有マップのビット深度は、ビットストリームの高レベルシンタックスでシグナリングされ得る。非バイナリ占有値の占有状態へのマッピング戦略は、ビットストリームの高レベルシンタックスでもシグナリングされ得る。

一実施形態では、B＝4であり、16ビットを使用して、4×4ブロックの占有パターンのすべての組み合わせを表すことができる。一例として、16ビットの最上位ビット（MSB）を使用して、ブロック内の左上画素の占有状態を表すことができ、16ビットの最下位ビット（LSB）を使用して、ブロック内の右下画素の占有状況を表すことができ、MSBとLSBとの間のビットを使用して、ラスタ走査順で残りの画素の占有状態を表すことができる。図6に示すように、16ビット占有表現および対応するパターンのいくつかの例が視覚化される。しかしながら、実施形態では、任意のマッピング戦略を使用することができる。

別の実施形態では、B＝4であり、8ビットのみが4×4ブロックの占有パターンを表すことができる。したがって、これはすべての占有パターンのサブセットの表現である。例えば、各ビットを使用して、2つの画素ごとの占有状態を表すことができる。例えば、ビットが1に等しい場合、これは、ビットに対応する2つの画素が両方とも占有されていることを示すことができる。そうでない場合、2つの画素はどちらも空である。例を図7に示す。しかしながら、実施形態では、任意のマッピング戦略を使用することができる。

別の実施形態では、B＝4であり、4×4ブロックの占有パターンを表すことができるのは4ビットのみである。したがって、これはすべての占有パターンのサブセットの表現である。例えば、各ビットを使用して、4画素ごとの占有状態を表すことができる。例えば、ビットが1に等しい場合、これは4つの画素がすべて占有されていることを示すことができる。そうでない場合、4つの画素はすべて空である。例を図8に示す。しかしながら、実施形態では、任意のマッピング戦略を使用することができる。

実施形態では、非バイナリ占有マップは、非可逆または可逆コーディングによってコーディングすることができる。

図9は、？？？の方法900のフローチャートである。いくつかの実施態様では、図9の1つまたは複数のプロセスブロックは、エンコーダ203によって実行されてもよい。いくつかの実施態様では、図9の1つまたは複数のプロセスブロックは、デコーダ210などの、エンコーダ203とは別個のもしくはエンコーダ203を含む別の装置または装置のグループによって実行されてもよい。

図9に示すように、操作910において、方法900は、ソース点群を取得するステップを含むことができる。

操作920において、方法900は、ソース点群に基づいて、1つまたは複数の画素を含む占有マップを生成するステップを含むことができる。実施形態では、各画素に関連する占有値は、非バイナリ値であってもよい。

操作930において、方法900は、エンコード済占有マップを生成するために占有マップをエンコードするステップを含むことができ、エンコード済占有マップのブロックは、占有マップの1つまたは複数の画素に対応する。

操作940において、方法900は、1つまたは複数の画素に基づいてブロックの占有値を選択するステップを含むことができる。

操作950において、方法900は、選択された占有値に基づいてエンコード済ビデオストリームを生成するステップを含むことができる。

実施形態では、1つまたは複数の画素の数は16であってもよく、占有値は16ビット値であってもよい。

実施形態では、16ビット値の各ビットを使用して、1つまたは複数の画素の対応する画素の占有率をシグナリングすることができる。

実施形態では、占有値の最上位ビットを使用して、1つまたは複数の画素の左上画素の占有をシグナリングすることができ、占有値の最下位ビットを使用して、1つまたは複数の画素の右下画素の占有をシグナリングすることができ、占有値の残りのビットを使用して、ラスタ走査順で1つまたは複数の画素の残りの画素をシグナリングすることができる。

実施形態では、1つまたは複数の画素の数は16であってもよく、占有値は8ビット値であってもよい。

実施形態では、8ビット値の各ビットを使用して、1つまたは複数の画素の2つの対応する画素の占有をシグナリングすることができる。

実施形態では、1つまたは複数の画素の数は16であってもよく、占有値は4ビット値であってもよい。

実施形態では、4ビット値の各ビットを使用して、1つまたは複数の画素の4つの対応する画素の占有をシグナリングすることができる。

実施形態では、エンコード済占有マップは、非可逆または可逆コーディングを使用してエンコードされ得る。

図9は、方法900の例示的なブロックを示しているが、いくつかの実施態様では、方法900は、図9に示すものとは異なる追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加的に、または代替的に、方法900のブロックのうちの2つ以上が並列に実行されてもよい。

図10は、実施形態による、ビデオ点群コーディングを使用してビデオストリームをエンコードするための装置1000の図である。図10に示すように、装置800は、第1の取得コード1010と、第1の生成コード1020と、エンコーディングコード1030と、選択コード1040と、第2の生成コード1050と、を備える。

第1の取得コード1010は、少なくとも1つのプロセッサにソース点群を取得させるように構成されてもよい。

第1の生成コード1020は、少なくとも1つのプロセッサに、ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成させるように構成されてもよい。実施形態では、各画素に関連する占有値は、非バイナリ値であってもよい。

エンコーディングコード1030は、エンコード済占有マップを生成するために占有マップをエンコードすることを少なくとも1つのプロセッサに行わせるように構成されてもよく、エンコード済占有マップのブロックは占有マップの1つまたは複数の画素に対応する。

選択コード1040は、少なくとも1つのプロセッサに、1つもしくは複数の画素に基づいてブロックの占有値を選択させるように構成されてもよい。

第2の生成コード1050は、少なくとも1つのプロセッサに、選択された占有値に基づいてエンコード済ビデオストリームを生成させるように構成されてもよい。

上述した技術は、コンピュータ可読命令を使用し、1つまたは複数のコンピュータ可読媒体に物理的に格納されたコンピュータソフトウェアとして実装され得る。例えば、図11は、本開示の特定の実施形態を実施するのに適したコンピュータシステム1100を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（CPU）、グラフィック処理装置（GPU）などによって、直接、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、およびモノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム1100について図11に示す構成要素は例であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する制限を示唆することを意図していない。構成要素の構成は、コンピュータシステム1100の非限定的な実施形態に示す構成要素のいずれか1つまたは組み合わせに関する依存関係または要件を有すると解釈されるべきではない。

コンピュータシステム1100は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きなどの）触覚入力、（音声、拍手などの）オーディオ入力、（ジェスチャなどの）視覚入力、（描写されていない）嗅覚入力を介して、1人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、オーディオ（音声、音楽、環境音など）、画像（走査画像、写真画像は静止画像カメラから取得など）、ビデオ（2次元ビデオ、立体ビデオを含む3次元ビデオなど）などの、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むためにも使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード1101、マウス1102、トラックパッド1103、タッチスクリーン1110、データグローブ、ジョイスティック1105、マイクロフォン1106、スキャナ1107、カメラ1108のうちの1つまたは複数（各々のうちのただ1つを示す）を含むことができる。

コンピュータシステム1100はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い／味を通じて、1人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン1110、データグローブ、またはジョイスティック1105による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）を含むことができる。例えば、そのようなデバイスは、（スピーカ1109、ヘッドフォン（描写せず）などの）オーディオ出力デバイス、（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1110など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡（描写せず）、ホログラフィックディスプレイおよびスモークタンク（描写せず）などの手段を介して2次元視覚出力または3次元以上の出力を出力することが可能な場合がある）視覚出力デバイス、ならびにプリンタ（描写せず）であってもよい。

コンピュータシステム1100はまた、人間がアクセス可能な記憶装置、およびCD／DVDなどの媒体1121を有するCD／DVD ROM／RW1120を含む光学媒体、サムドライブ1122、リムーバブルハードドライブまたはソリッドステートドライブ1123、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用ROM／ASIC／PLDベースの装置などのそれらの関連媒体を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。

コンピュータシステム1100はまた、1つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット、ワイヤレスLANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波ブロードキャストTVを含むTVの有線またはワイヤレスの広域デジタルネットワーク、CANBusを含む車両および産業用などが含まれる。特定のネットワークは一般に、特定の汎用データポートまたは周辺バス1149（例えば、コンピュータシステム1100のUSBポートなど）に接続された外部ネットワーク・インターフェース・アダプタを必要とし、他のものは、一般に、以下に説明するようにシステムバスに接続することにより、コンピュータシステム1100のコアに統合される（例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォン・コンピュータ・システムへのセルラー・ネットワーク・インターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム1100は他のエンティティと通信することができる。そのような通信は、単方向受信のみ（例えば、ブロードキャストTV）、単方向送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または、例えば、ローカルもしくは広域のデジタルネットワークを使用する他のコンピュータシステムとの双方向であり得る。そのような通信は、クラウドコンピューティング環境1155への通信を含むことができる。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、およびネットワークインターフェース1154は、コンピュータシステム1100のコア1140に取り付けることができる。

コア1140には、1つまたは複数の中央処理装置（CPU）1141、グラフィックス処理装置（GPU）1142、フィールド・プログラマブル・ゲート・エリア（FPGA）1143、ある特定のタスクのハードウェアアクセラレータ1144などの形式の特殊なプログラマブル処理装置を含めることができる。これらのデバイスは、読み取り専用メモリ（ROM）1145、ランダムアクセスメモリ1146、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置1147と共に、システムバス1148を介して接続することができる。いくつかのコンピュータシステムでは、システムバス1148は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺装置は、コアのシステムバス1148に直接取り付けることも、周辺バス1149を介して取り付けることもできる。周辺バスのアーキテクチャは、PCI、USBなどを含む。グラフィックスアダプタ1150は、コア1140に含まれてもよい。

CPU1141、GPU1142、FPGA1143、およびアクセラレータ1144は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行できる。そのコンピュータコードは、ROM1145またはRAM1146に格納され得る。一時データも同様にRAM1146に格納され得るが、永続データは、例えば内部大容量記憶装置1147に格納され得る。キャッシュメモリを使用することによって、任意のメモリ装置に素早く格納し検索することが可能になり、1つまたは複数のCPU1141、GPU1142、大容量記憶装置1147、ROM1145、RAM1146などに密接に関連付けることができる。

コンピュータ可読媒体は、様々なコンピュータ実施操作を行うためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよいし、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。

限定ではなく、例として、アーキテクチャ1100、特にコア1140を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で実現されたソフトウェアを実行する1つまたは複数のプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上で紹介したユーザがアクセス可能な大容量記憶装置、およびコア内部大容量記憶装置1147やROM1145などの非一時的な性質をもつコア1140の特定の記憶装置に関連する媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納され、コア1140によって実行され得る。コンピュータ可読媒体は、特定のニーズに応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア1140および特にその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM1146に格納されたデータ構造の定義やソフトウェアで定義されたプロセスに従ってそのようなデータ構造を変更することを含む、ここで説明する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ここで説明する特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはソフトウェアと一緒に動作することができる回路（例えばアクセラレータ1144）にハードワイヤードまたは別の方法で組み込まれたロジックの結果として機能を提供できる。必要に応じて、ソフトウェアへの参照はロジックを包含することができ、その逆も同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを格納する回路（集積回路（IC）など）、実行のためのロジックを具体化する回路、またはこれらの両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの非限定的な実施形態を説明しているが、本開示の範囲内にある変更、順列、および様々な代替的な同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

100 通信システム
110 第1の端末
120 第2の端末
130 端末
140 端末
150 ネットワーク
200 ストリーミングシステム
201 ビデオソース
202 ストリーム
203 ビデオエンコーダ
204 エンコード済ビデオビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
209 ビデオビットストリーム
210 ビデオデコーダ
211 発信ビデオサンプルストリーム
212 ディスプレイ
213 キャプチャサブシステム
302 パッチ生成モジュール
304 パッチパッキングモジュール
306 形状画像生成モジュール
308 テクスチャ画像生成モジュール
310 平滑化モジュール
312 補助パッチ情報圧縮モジュール
314 画像パディングモジュール
316 画像パディングモジュール
318 エントロピー圧縮モジュール
320 グループ拡大モジュール
322 ビデオ圧縮モジュール
324 ビデオ圧縮モジュール
326 ビデオ圧縮モジュール
328 マルチプレクサ
332 パッチ情報
334 占有マップ
350 点群フレーム
352 形状画像
354 パディングされた形状画像
356 テクスチャ画像
358 再構築された／平滑化された形状
360 パディングされたテクスチャ画像
362 圧縮された形状画像
364 圧縮されたテクスチャ画像
365 再構築された形状画像
366 可逆エンコーディング
368 非可逆エンコーディング
370 圧縮された補助パッチ情報
372 圧縮された占有マップ
374 圧縮されたビットストリーム
402 デマルチプレクサ
404 ビデオ復元モジュール
406 ビデオ復元モジュール
408 占有マップ復元モジュール
410 補助パッチ情報復元モジュール
412 形状再構築モジュール
414 平滑化モジュール
416 テクスチャ再構築モジュール
418 色平滑化モジュール
460 復元されたテクスチャ画像
462 復元された形状画像
464 復元された占有マップ
466 復元された補助パッチ情報
468 再構築された形状
470 平滑化された形状
472 再構築されたテクスチャ
474 再構築された点群
800 装置
900 方法
1000 装置
1010 第1の取得コード
1020 第1の生成コード
1030 エンコーディングコード
1040 選択コード
1050 第2の生成コード
1100 コンピュータシステム
1101 キーボード
1102 マウス
1103 トラックパッド
1105 ジョイスティック
1106 マイクロフォン
1107 スキャナ
1108 カメラ
1109 スピーカ
1110 タッチスクリーン
1121 媒体
1122 サムドライブ
1123 ソリッドステートドライブ
1140 コア
1143 フィールド・プログラマブル・ゲート・エリア（FPGA）
1144 ハードウェアアクセラレータ
1145 読み取り専用メモリ（ROM）
1146 ランダムアクセスメモリ
1147 大容量記憶装置
1148 システムバス
1149 周辺バス
1150 グラフィックスアダプタ
1154 ネットワークインターフェース
1155 クラウドコンピューティング環境

図4に示すように、ビデオデコーダ210は、ビデオエンコーダ203からコーディング済ビットストリーム374を受信して、圧縮された形状画像362、圧縮されたテクスチャ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を取得してもよい。ビデオデコーダ210は、圧縮された形状画像362、圧縮されたテクスチャ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370をデコードして、復元されたテクスチャ画像460、復元された形状画像462、復元された占有マップ464、および復元された補助パッチ情報466をそれぞれ取得してもよい。続いて、ビデオデコーダ210は、復元されたテクスチャ画像460、復元された形状画像462、復元された占有マップ464、および復元された補助パッチ情報466に基づいて、再構築された点群474を生成してもよい。

実施形態では、ビデオデコーダ210は、受信した圧縮されたビットストリーム374の、圧縮された形状画像362、圧縮されたテクスチャ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を分配する、デマルチプレクサ402を含んでもよい。

ビデオデコーダ210は、圧縮された形状画像362をデコードするビデオ復元モジュール404、圧縮されたテクスチャ画像364をデコードするビデオ復元モジュール406、圧縮された占有マップ372をデコードする占有マップ復元モジュール408、および圧縮された補助パッチ情報370をデコードする補助パッチ情報復元モジュール410を含んでもよい。

図9は、方法900のフローチャートである。いくつかの実施態様では、図9の1つまたは複数のプロセスブロックは、エンコーダ203によって実行されてもよい。いくつかの実施態様では、図9の1つまたは複数のプロセスブロックは、デコーダ210などの、エンコーダ203とは別個のもしくはエンコーダ203を含む別の装置または装置のグループによって実行されてもよい。

Claims

ビデオ点群コーディングを使用してエンコードされたビデオストリームをエンコードする方法であって、前記方法は、少なくとも1つのプロセッサによって実行され、
ソース点群を取得するステップと、
前記ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成するステップであって、各画素に関連する占有値が非バイナリ値である、ステップと、
エンコード済占有マップを生成するために前記占有マップをエンコードするステップであって、前記エンコード済占有マップのブロックが前記占有マップの前記1つまたは複数の画素に対応する、ステップと、
前記1つまたは複数の画素に基づいて前記ブロックの占有値を選択するステップと、
前記選択された占有値に基づいてエンコード済ビデオストリームを生成するステップと、を含む、方法。
前記1つまたは複数の画素の数は16であり、前記占有値は16ビット値である、請求項1に記載の方法。
前記16ビット値の各ビットは、前記1つまたは複数の画素の対応する画素の占有をシグナリングするために使用される、請求項2に記載の方法。
前記占有値の最上位ビットは、前記1つまたは複数の画素の左上画素の占有をシグナリングするために使用され、
前記占有値の最下位ビットは、前記1つまたは複数の画素の右下画素の占有をシグナリングするために使用され、
前記占有値の残りのビットは、ラスタ走査順で前記1つまたは複数の画素の残りの画素をシグナリングするために使用される、請求項2に記載の方法。
前記1つまたは複数の画素の数は16であり、前記占有値は8ビット値である、請求項1に記載の方法。
前記8ビット値の各ビットは、前記1つまたは複数の画素の2つの対応する画素の占有をシグナリングするために使用される、請求項5に記載の方法。
前記1つまたは複数の画素の数は16であり、前記占有値は4ビット値である、請求項1に記載の方法。
前記4ビット値の各ビットは、前記1つまたは複数の画素の4つの対応する画素の占有をシグナリングするために使用される、請求項7に記載の方法。
前記エンコード済占有マップは、非可逆コーディングを使用してエンコードされる、請求項1に記載の方法。
前記エンコード済占有マップは、可逆コーディングを使用してエンコードされる、請求項1に記載の方法。
ビデオ点群コーディングを使用してビデオストリームをエンコードするための装置であって、前記装置は、
プログラムコードを格納するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、前記プログラムコードは、
前記少なくとも1つのプロセッサに、ソース点群を取得させるように構成された第1の取得コードと、
前記少なくとも1つのプロセッサに、前記ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成させるように構成された第1の生成コードであって、各画素に関連する占有値が非バイナリ値である、第1の生成コードと、
前記少なくとも1つのプロセッサに、エンコード済占有マップを生成するために前記占有マップをエンコードさせるように構成されたエンコーディングコードであって、前記エンコード済占有マップのブロックが、前記占有マップの前記1つまたは複数の画素に対応する、エンコーディングコードと、
前記少なくとも1つのプロセッサに、前記1つまたは複数の画素に基づいて前記ブロックの占有値を選択させるように構成された選択コードと、
前記少なくとも1つのプロセッサに、前記選択された占有値に基づいてエンコード済ビデオストリームを生成させるように構成された第2の生成コードと、を含む、
少なくとも1つのプロセッサと、を備える、装置。
前記1つまたは複数の画素の数は16であり、前記占有値は16ビット値である、請求項11に記載の装置。
前記16ビット値の各ビットは、前記1つまたは複数の画素の対応する画素の占有をシグナリングするために使用される、請求項12に記載の装置。
前記1つまたは複数の画素の数は16であり、前記占有値は8ビット値である、請求項11に記載の装置。
前記8ビット値の各ビットは、前記1つまたは複数の画素の2つの対応する画素の占有をシグナリングするために使用される、請求項14に記載の装置。
前記1つまたは複数の画素の数は16であり、前記占有値は4ビット値である、請求項11に記載の装置。
前記4ビット値の各ビットは、前記1つまたは複数の画素の4つの対応する画素の占有をシグナリングするために使用される、請求項16に記載の装置。
前記エンコード済占有マップは、非可逆コーディングを使用してエンコードされる、請求項11に記載の装置。
前記エンコード済占有マップは、可逆コーディングを使用してエンコードされる、請求項11に記載の装置。
ビデオ点群コーディングを使用してビデオストリームをエンコードし、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
ソース点群を取得させ、
前記ソース点群に基づいて1つまたは複数の画素を含む占有マップを生成させ、各画素に関連する占有値が非バイナリ値であり、
エンコード済占有マップを生成するために前記占有マップをエンコードさせ、前記エンコード済占有マップのブロックが前記占有マップの前記1つまたは複数の画素に対応し、
前記1つまたは複数の画素に基づいて前記ブロックの占有値を選択させ、
前記選択された占有値に基づいてエンコード済ビデオストリームを生成させる、
コンピュータ命令を格納する、非一時的コンピュータ可読媒体。