JP2023533416A - ビデオベースの点群コーディングのための条件付き再着色 - Google Patents

ビデオベースの点群コーディングのための条件付き再着色 Download PDF

Info

Publication number
JP2023533416A
JP2023533416A JP2022567066A JP2022567066A JP2023533416A JP 2023533416 A JP2023533416 A JP 2023533416A JP 2022567066 A JP2022567066 A JP 2022567066A JP 2022567066 A JP2022567066 A JP 2022567066A JP 2023533416 A JP2023533416 A JP 2023533416A
Authority
JP
Japan
Prior art keywords
map
texture
reconstructed
geometry
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022567066A
Other languages
English (en)
Inventor
ジャン,シアン
ガオ,ウエン
リィウ,シャン
フェン,ウエイウエイ
ジエン,ビン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023533416A publication Critical patent/JP2023533416A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビデオ点群コーディングを使用してビデオストリームを符号化する方法および装置は、ソース点群を取得するステップと、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成するステップと、ロッシーコーディングを使用し、再着色を使用せずに、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成するステップであって、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである、ステップと、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得するステップと、取得された点の色に基づいてテクスチャピクセルの色を選択するステップと、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成するステップとを含む。

Description

[関連出願の相互参照]
本出願は、2021年6月4日に出願された米国仮出願第63/197,196号および2021年10月6日に出願された米国出願第17/495,301号の優先権を主張するものであり、これらの出願の開示は、その全体が参照により本明細書に組み込まれる。
[技術分野]
本開示は、一連の高度ビデオコーディング技術、より具体的には、条件付き再着色色転写を含むビデオベースの点群圧縮を対象とする。
世界の高度な3次元(3D)表現は、より没入型の対話および通信を可能にしている。それらはまた、機械が我々の世界を理解し、解釈し、ナビゲートすることを可能にする。点群は、世界の3D表現として広く使用されてきた。例えば、物体検出および位置特定のために自律走行車において、地図作成のための地理情報システム(GIS)において、ならびに文化遺産の文化財およびコレクションなどを視覚化およびアーカイブするために文化遺産において、使用され得る。点群データに関連付けられたいくつかのユースケースが特定されており、点群表現および圧縮に対するいくつかの対応する要件が開発された。
点群は、それぞれが3D位置情報と、色、反射率などの追加の属性とを含む、高次元点、例えば3次元(3D)の集合を含む。それらは、複数のカメラおよび深度センサ、または様々なセットアップにおいてライダーを使用してキャプチャすることができ、元のシーンをリアルに表現するために数千から数十億の点で構成され得る。
より高速な送信またはストレージの低減のために、点群を表すのに必要なデータ量を低減するための圧縮技術が必要とされる。ISO/IEC MPEG(JTC 1/SC 29/WG 11)は、静的クラウドまたは動的クラウドのための圧縮技法を標準化するためにアドホックグループ(MPEG-PCC)を設立した。
諸実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化する方法は、少なくとも1つのプロセッサによって実行され、ソース点群を取得するステップと、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成するステップと、ロッシーコーディングを使用し、再着色を使用せずに、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成するステップであって、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである、ステップと、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得するステップと、取得された点の色に基づいてテクスチャピクセルの色を選択するステップと、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成するステップとを含む。
諸実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化するための装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによる命令通りに動作するように構成された少なくとも1つのプロセッサとを含み、プログラムコードは、少なくとも1つのプロセッサに、ソース点群を取得させるように構成された第1の取得コードと、少なくとも1つのプロセッサに、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成させるように構成された第1の生成コードと、少なくとも1つのプロセッサに、ロッシーコーディングを使用し、再着色を使用せずに、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成させるように構成された第2の生成コードであって、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである、第2の生成コードと、少なくとも1つのプロセッサに、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得させるように構成された第2の取得コードと、少なくとも1つのプロセッサに、取得された点の色に基づいてテクスチャピクセルの色を選択させるように構成された選択コードと、少なくとも1つのプロセッサに、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成させるように構成された第3の生成コードとを含む。
諸実施形態では、ビデオ点群コーディングを使用してビデオストリームを符号化するコンピュータ命令を記憶する非一時的コンピュータ可読媒体であって、コンピュータ命令は、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、ソース点群を取得することと、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成することと、ロッシーコーディングを使用し、再着色を使用せずに、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成することであって、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである、生成させることと、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得することと、取得された点の色に基づいてテクスチャピクセルの色を選択することと、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成することとを行わせる、非一時的コンピュータ可読媒体。
開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
一実施形態による通信システムの簡略ブロック図の概略図である。 一実施形態によるストリーミングシステムの簡略ブロック図の概略図である。 一実施形態によるビデオエンコーダの簡略ブロック図の概略図である。 一実施形態によるビデオデコーダの簡略ブロック図の概略図である。 一実施形態による、ソース点群と再構成された点群との間の順方向探索の一例を示す。 一実施形態による、ソース点群と再構成された点群との間の逆方向探索の一例を示す。 一実施形態による、再着色ありのエンコーダパイプラインの一例を示す。 一実施形態による、再着色なしのエンコーダパイプラインの一例を示す。 一実施形態による、部分的に占有されたブロックの一例を示す。 一実施形態によって実行されるプロセスを示すフロー図である。 一実施形態によって実行されるプロセスを示すフロー図である。 一実施形態によるデバイスを示す図である。 実施形態を実装するのに適したコンピュータシステムの図である。
ビデオベースの点群圧縮(V-PCC)の背後にある考慮事項は、既存のビデオコーデックを活用して、動的点群のジオメトリ、占有、およびテクスチャを3つの別個のビデオシーケンスとして圧縮することである。3つのビデオシーケンスを解釈するために必要とされる余分なメタデータは、別々に圧縮され得る。全体のビットストリームのほんの一部がメタデータであり、これは、ソフトウェア実装を使用して効率的に符号化/復号され得る。情報の大部分は、ビデオコーデックによって処理され得る。
本開示の実施形態は、反復平滑化フレームワークにおける過剰平滑化を回避するためのアニーリング反復ジオメトリ平滑化に関する。本開示の実施形態は、純粋な中央値を使用した場合の計算の複雑さを低減することを目的として、平均統計値と中央値統計値との組合せを使用して基準点を導出することに関する。
図1~図4を参照して、本開示の符号化構造および復号構造を実装するための本開示の実施形態が説明される。本開示の符号化構造および復号構造は、上記で説明したV-PCCの態様を実装し得る。
図1は、本開示の一実施形態による通信システム100の簡略ブロック図を示す。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含み得る。データの単方向送信の場合、第1の端末110は、ネットワーク150を介して他の端末120に送信するために、ローカルロケーションにおいてビデオデータをコード化し得る。第2の端末120は、ネットワーク150から他の端末のコード化ビデオデータを受信し、コード化データを復号し、復元されたビデオデータを表示し得る。単方向データ送信は、メディアサービングアプリケーションなどにおいて一般的であり得る。
図1は、例えば、テレビ会議中に起こり得るコード化ビデオの双方向送信をサポートするために設けられた端末130、140の第2のペアを示す。データの双方向送信の場合、各端末130、140は、ネットワーク150を介して他の端末に送信するために、ローカルロケーションにおいてキャプチャされたビデオデータをコード化し得る。各端末130、140はまた、他の端末によって送信されたコード化ビデオデータを受信し得、コード化データを復号し得、復元されたビデオデータをローカルディスプレイデバイスに表示し得る。
図1において、端末110~140は、例えば、サーバ、パーソナルコンピュータ、およびスマートフォン、ならびに/または任意の他のタイプの端末であり得る。例えば、端末(110~140)は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および/または専用ビデオ会議機器であり得る。ネットワーク150は、例えば、ワイヤラインおよび/またはワイヤレスの通信ネットワークを含む、端末110~140の間でコード化ビデオデータを搬送する任意の数のネットワークを表す。通信ネットワーク150は、回線交換チャネルおよび/またはパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークとしては、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットが挙げられる。本議論の目的のために、ネットワーク150のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。
図2は、開示された主題のためのアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示す。開示される主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶などを含む、他のビデオ対応アプリケーションで使用され得る。
図2に示すように、ストリーミングシステム200は、ビデオソース201とエンコーダ203とを含むキャプチャサブシステム213を含み得る。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205および/または少なくとも1つのストリーミングクライアント206をさらに含み得る。
ビデオソース201は、例えば、3Dビデオに対応する3D点群を含むストリーム202を作成することができる。ビデオソース201は、例えば、3Dセンサ(例えば、深度センサ)または3D撮像技術(例えば、デジタルカメラ(複数可))と、3Dセンサまたは3D撮像技術から受信したデータを使用して3D点群を生成するように構成されたコンピューティングデバイスとを含み得る。符号化されたビデオビットストリームと比較して高いデータ量を有し得るサンプルストリーム202は、ビデオソース201に結合されたエンコーダ203によって処理され得る。エンコーダ203は、以下でより詳細に説明するように、開示される主題の態様を可能にするかまたは実装するために、ハードウェア、ソフトウェア、またはそれらの組合せを含むことができる。エンコーダ203はまた、符号化されたビデオビットストリーム204を生成し得る。圧縮されていないストリーム202と比較してより低いデータ量を有し得る符号化されたビデオビットストリーム204は、将来の使用のためにストリーミングサーバ205に記憶され得る。1つまたは複数のストリーミングクライアント206は、ストリーミングサーバ205にアクセスして、符号化されたビデオビットストリーム204のコピーであり得るビデオビットストリーム209を取り出すことができる。
ストリーミングクライアント206は、ビデオデコーダ210およびディスプレイ212を含むことができる。ビデオデコーダ210は、例えば、入ってきた、符号化されたビデオビットストリーム204の受信コピーであるビデオビットストリーム209を復号し、ディスプレイ212または別のレンダリングデバイス(図示せず)上でレンダリングされ得る発信ビデオサンプルストリーム211を作成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム204、209は、特定のビデオコーディング/圧縮規格にしたがって符号化され得る。そのような規格の例としは、ITU-T Recommendation H.265、Versatile Video Coding(VVC)、およびMPEG/V-PCCが挙げられるが、これらに限定されない。
図3~図4を参照して、本開示の実施形態によって実行され得るV-PCCのいくつかの態様が以下で説明される。
図3は、本開示の一実施形態によるビデオエンコーダ203の例示的な機能ブロック図を示す。
図3に示されているように、ビデオエンコーダ203は、点群フレーム(複数可)350を受信し、点群フレーム350に基づいて、ジオメトリ画像352、テクスチャ画像356、および占有マップ334を生成し得る。ビデオエンコーダ203は、ジオメトリ画像352を圧縮されたジオメトリ画像362に、テクスチャ画像356を圧縮されたテクスチャ画像364に、占有マップ334を圧縮された占有マップ372に圧縮し得る。ビデオエンコーダ203のマルチプレクサ328は、圧縮されたジオメトリ画像362、圧縮されたテクスチャ画像364、および圧縮された占有マップ372を含む圧縮ビットストリーム374を形成し得る。
より具体的には、諸実施形態では、ビデオエンコーダ203は、点群フレーム350をパッチにセグメント化するパッチ生成モジュール302を含み得る。パッチは、V-PCCの有用なエンティティである。パッチ生成プロセスは、再構成誤差を最小限に抑えつつ、点群フレーム350を、滑らかな境界を有する最小数のパッチに分解することを含む。本開示のエンコーダは、そのような分解を生成するために様々な方法を実装し得る。
ビデオエンコーダ203は、パッキングプロセスを実行するパッチパッキングモジュール304を含み得る。パッキングプロセスは、未使用空間を最小限に抑えるとともに、グリッドのすべてのM×M(例えば、16×16)ブロックが固有のパッチに関連付けられることを保証しつつ、抽出されたパッチを2Dグリッド上にマッピングすることを含む。効率的なパッチパッキングは、未使用空間を最小限に抑えるか、または時間的一貫性を保証することによって、圧縮効率に直接影響を与える。パッチパッキングモジュール304は、占有マップ334を生成し得る。
ビデオエンコーダ203は、ジオメトリ画像生成モジュール306およびテクスチャ画像生成モジュール308を含み得る。複数の点が同じサンプルに投影される場合により良く対処するために、各パッチは、レイヤと呼ばれる2つの画像に投影され得る。例えば、ジオメトリ画像生成モジュール306およびテクスチャ画像生成モジュール308は、パッチパッキングモジュール304のパッキングプロセス中に計算された3Dから2Dへのマッピングを活用して、点群のジオメトリおよびテクスチャを画像(レイヤとしても知られる)として記憶し得る。生成された画像/レイヤは、ビデオフレーム(複数可)として記憶され、パラメータとして提供される構成にしたがってビデオコーデック(例えば、HMビデオコーデック)を使用して圧縮され得る。
諸実施形態では、入力点群フレーム350および占有マップ334に基づいて、ジオメトリ画像生成モジュール306がジオメトリ画像352を生成し、テクスチャ画像生成モジュール308がテクスチャ画像356を生成する。一実施形態では、ジオメトリ画像352は、YUV420-8ビットフォーマットのW×Hの単色フレームによって表され得る。一実施形態では、占有マップ334の画像は、グリッドの各セルについて、それが空き空間に属するか点群に属するかを示すバイナリマップから構成される。テクスチャ画像356を生成するために、テクスチャ画像生成モジュール308は、再構成された/平滑化されたジオメトリ358を活用して、再サンプリングされる点に関連付けられるべき色を計算し得る。
ビデオエンコーダ203はまた、パディングされたジオメトリ画像354およびパディングされたテクスチャ画像360を形成するためにそれぞれジオメトリ画像352およびテクスチャ画像356をパディングするための画像パディングモジュール314および画像パディングモジュール316を含み得る。画像パディング(背景充填としても知られる)は、単に、画像の未使用空間を冗長情報で充填する。良好な背景充填とは、ビットレートの増加が最小限であり、パッチ境界の周りに著しいコーディング歪みを発生させないものである。画像パディングモジュール314および画像パディングモジュール316は、占有マップ334を使用して、それぞれ、パディングされたジオメトリ画像354およびパディングされたテクスチャ画像360を形成し得る。一実施形態では、ビデオエンコーダ203は、パディングされたテクスチャ画像360を形成するためのグループ拡張モジュール320を含み得る。
ビデオエンコーダ203は、パディングされたジオメトリ画像354およびパディングされたテクスチャ画像360を、それぞれ圧縮されたジオメトリ画像362および圧縮されたテクスチャ画像364に圧縮するためのビデオ圧縮モジュール322およびビデオ圧縮モジュール324を含み得る。
ビデオエンコーダ203は、占有マップ334のロスレス符号化366のためのエントロピー圧縮モジュール318と、占有マップ334のロッシー符号化368のためのビデオ圧縮モジュール326とを含み得る。
諸実施形態では、ビデオエンコーダ203は、ビデオ圧縮モジュール322によって提供される再構成されたジオメトリ画像365とパッチ情報332とを使用することによって、平滑化されたジオメトリ358を生成するための平滑化モジュール310を含み得る。平滑化モジュール310の平滑化手順は、圧縮アーチファクトに起因してパッチ境界において生じ得る潜在的な不連続性を軽減することを目的とし得る。平滑化されたジオメトリ358は、テクスチャ画像356を生成するためにテクスチャ画像生成モジュール308によって使用され得る。
ビデオエンコーダ203はまた、マルチプレクサ328によって圧縮ビットストリーム374中で提供される圧縮された補助パッチ情報370を形成するための補助パッチ情報圧縮モジュール312を含み得る。
図4は、本開示の一実施形態によるビデオデコーダ210の例示的な機能ブロック図を示す。
図4に示されているように、ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮されたジオメトリ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を取得するために、ビデオエンコーダ203からコード化ビットストリーム374を受信し得る。ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮されたジオメトリ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を復号して、それぞれ、解凍されたテクスチャ画像460、解凍されたジオメトリ画像462、解凍された占有マップ464、および解凍された補助パッチ情報466を取得し得る。続いて、ビデオデコーダ210は、解凍されたテクスチャ画像460、解凍されたジオメトリ画像462、解凍された占有マップ464、および解凍された補助パッチ情報466に基づいて、再構成された点群474を生成し得る。
諸実施形態では、ビデオデコーダ210は、受信された圧縮ビットストリーム374の圧縮されたテクスチャ画像362、圧縮されたジオメトリ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を分離するデマルチプレクサ402を含み得る。
ビデオデコーダ210は、それぞれ、圧縮されたテクスチャ画像362、圧縮されたジオメトリ画像364、圧縮された占有マップ372、および圧縮された補助パッチ情報370を復号する、ビデオ解凍モジュール404、ビデオ解凍モジュール406、占有マップ解凍モジュール408、および補助パッチ情報解凍モジュール410を含み得る。
ビデオデコーダ210は、解凍されたジオメトリ画像462、解凍された占有マップ464、および解凍された補助パッチ情報466に基づいて、再構成された(3次元)ジオメトリ468を取得するジオメトリ再構成モジュール412を含み得る。
ビデオデコーダ210は、平滑化されたジオメトリ470を取得するために、再構成されたジオメトリ468を平滑化する平滑化モジュール414を含み得る。平滑化手順は、圧縮アーチファクトに起因してパッチ境界において生じ得る潜在的な不連続性を軽減することを目的とし得る。
ビデオデコーダ210は、解凍されたテクスチャ画像460および平滑化されたジオメトリ470に基づいて、再構成されたテクスチャ472を取得するためのテクスチャ再構成モジュール416を含み得る。
ビデオデコーダ210は、再構成された点群474を取得するために、再構成されたテクスチャ472の色を平滑化する色平滑化モジュール418を含み得る。3D空間における隣接しないパッチは、2Dビデオにおいて互いに隣接してパックされることが多い。これは、隣接しないパッチからのピクセル値がブロックベースのビデオコーデックによって混合され得ることを暗示する。色平滑化モジュール418の色平滑化は、パッチ境界に現れる可視アーチファクトを軽減することを目的とし得る。
ビデオベースの点群圧縮(V-PCC)における再着色
V-PCCに対応し得るMPEG PCCテストモデルカテゴリ2(TMC2)モデルでは、ジオメトリがロッシーコード化され、複製された位置がマージされるとき、色転写と呼ばれることがある再着色プロセスがエンコーダ側で適用され得る。再着色アルゴリズムの一例を、図5および図6を参照して以下に示す。
ソース点群502、属性、および再構成された点群504に含まれるターゲット点pが与えられると、色転写手順、すなわち、再着色プロセスは、属性歪みを最小限に抑える再構成された点群の属性値を決定し得る。この手法は、以下のように実施され得る:
各ターゲット点pについて、
1 - ソース点群502においてpまでの最近傍点をN(1<N)個見つけ、Ψで表される点の集合を作成する。これは、図5に示されるような順方向探索に対応し得る。
2 - pが、再構成された点群504内のN個の最近傍点の集合に属するようなソース点群502内の点の集合を見つける。この点の集合をΨで表す。これは、図6に示されるような順方向探索に対応し得る。
3 - ΨおよびΨ内の点の距離加重平均を、次式によって計算する:
Figure 2023533416000002
ここで、Δ(a,b)は点aと点bとの間のユークリッド距離を表し、c(q)は点qの色を表す。
Figure 2023533416000003
5 - いくつかの実施形態では、重心点からの逆方向探索は、重心色に対するそれらの絶対差がしきい値thよりも大きい場合、点を除外するために使用され得る。
Figure 2023533416000004
TMC2の現在の設計では、最近傍探索にK次元(KD)ツリーデータ構造が利用され、再構成された点群中のすべての点に再着色動作が適用されるので、再着色プロセスはかなり複雑であり得る。
諸実施形態では、元の点群からテクスチャマップを直接生成することによって、再着色プロセス全体をバイパスすることができる。諸実施形態では、再着色プロセスは、条件付きで適用されてもよい。例えば、再着色プロセスは、ロッシージオメトリ圧縮に起因するジオメトリ歪みがより大きい領域に適用されてもよい。
本明細書に開示される実施形態は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、実施形態の各々、例えばエンコーダおよびデコーダは、処理回路(例えば、1つまたは複数のプロセッサまたは1つまたは複数の集積回路)によって実装されてもよい。一例では、1つまたは複数のプロセッサが、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
バイパス再着色
図7Aに示されているように、V-PCCでは、ジオメトリがロッシーコード化されるときに再着色が適用され得、再構成された点群中の色は、再構成されたジオメトリに基づいて再計算されるか、または例えば補間される。次いで、再着色された点群に基づいてテクスチャマップが生成される。
例えば、図7Aから分かるように、再着色が使用されるプロセス700Aでは、占有マップ711およびジオメトリマップ712は、入力点群710から生成され得る。次いで、ロッシーコーディングを使用して、再構成された占有マップ713および再構成されたジオメトリマップ714が生成され得、再構成された占有マップ713および再構成されたジオメトリマップ714に基づいて、ジオメトリ再構成された点群715が生成され得る。このジオメトリ再構成された点群715は、入力点群710を使用して再着色されて、再着色された点群716が生成され得、この再着色された点群716を占有マップ711とともに使用して、テクスチャマップ717を生成し得る。ロッシーコーディングを使用して再構成されたテクスチャマップ718が生成され得、再構成されたテクスチャマップ718およびジオメトリ再構成された点群715を使用して再構成された点群719が生成され得る。
諸実施形態では、テクスチャマップは、ジオメトリマップを生成するときに、入力点群から直接生成され得、次いで、生成された占有マップ、ジオメトリマップ、およびテクスチャマップがコード化および再構成され得る。この例が図7Bに示されており、ここでは、再着色プロセスを完全に除去することができており、全体的なワークフローが大幅に簡略化されている。
例えば、図7Bから分かるように、再着色が使用されないプロセス700Bでは、占有マップ721、ジオメトリマップ722、およびテクスチャマップ723は、入力点群710から直接生成され得、ロッシーコーディングを使用して、再構成された占有マップ721、再構成されたジオメトリマップ722、および再構成されたテクスチャマップ723が生成され得る。次いで、再構成された占有マップ721、再構成されたジオメトリマップ722、および再構成されたテクスチャマップ723を使用して再構成された点群727が生成され得る。
諸実施形態では、ジオメトリマップを使用してテクスチャマップが生成され得る。テクスチャマップは、ジオメトリマップと同じ解像度を有し得、それらは同じアトラス情報を共有する。Tx,yがテクスチャマップ内の占有ピクセルであり、Gx,yがジオメトリマップ内の対応するピクセルであり、それらが3D空間内の同じ点Pに対応すると仮定する。次いで、Pの元の色値をTx,yの値として割り当てることができる。
占有マップがロッシーコード化される場合、バイパス再着色によって生成されたテクスチャマップは、再構成された占有マップに基づいてさらに処理され得る。したがって、再構成されたフルサイズ占有マップでは占有されているが、元のフルサイズ占有マップでは占有されていない「半占有」ピクセルは、いくつかの値で充填され得る。
占有マップの歪みは、2つの主要因、すなわち、占有マップダウンサンプリングおよび占有マップのロッシー圧縮によって引き起こされ得る。占有マップがB×Bブロックの精度でロスレスコード化され、B>1が整数であると仮定する。この場合では、占有マップブロックが少なくとも1つの点によって占有されるとき、再構成された占有マップ内のブロックのすべての点が占有されることとなる。
B=4である例を検討する。図8に示すように、4×4ブロックは部分的に占有されており、ここでは、「X」とマークされたピクセルが占有されており、テクスチャマップ内の対応するピクセルが有効である。残りのピクセルは、元の占有マップでは占有されていないが、再構成された占有マップでは占有されているので、「半占有」と定義される。したがって、再構成されたブロックでは、「半占有」ピクセルは占有されていると見なされるであろう。諸実施形態では、「半占有」ピクセルは、再構成品質を改善するために適切な値で充填され得る。充填された値は、画像内の占有ピクセルによって決定することができる。
諸実施形態では、「半占有」ピクセルの充填プロセスは、B×B非重複ブロックベースで実行される。各B×Bブロックについて、「半占有」ピクセルは、同じブロック内の占有ピクセルの平均値で充填される。
諸実施形態では、「半占有」ピクセルの充填プロセスは、B×B非重複ブロックベースで実行される。各B×Bブロックについて、「半占有」ピクセルは、同じブロック内で占有される最近傍ピクセルの数の平均値で充填される。平均化は、充填されたピクセルまでの距離によって重み付けすることができる。
諸実施形態では、「半占有」ピクセルの充填プロセスは、画像全体にわたって実行される。各「半占有」ピクセルについて、画像内で占有されている最近傍ピクセルの数の平均値で充填することができる。平均化は、充填されたピクセルまでの距離によって重み付けすることができる。
条件付き再着色
条件付き再着色は、通常の再着色方式とバイパス再着色方式(bypass
recolor scheme)との間のトレードオフを伴い得る。諸実施形態では、テクスチャマップ内のピクセルの一部は、バイパス再着色方式によって元の点群から直接導出することができ、ピクセルの残りは、通常の再着色アルゴリズムによって再構成された点群から導出することができる。ピクセルに適用される方法に関する決定は、3Dにおける対応する点のジオメトリ歪みに依存し得る。例えば、ジオメトリ歪みが大きい場合には、通常の再着色が適用され、そうでない場合には、バイパス再着色が適用される。ジオメトリ歪みは、ジオメトリマップの歪みおよび占有マップの歪みから構成されることに留意されたい。
諸実施形態では、ジオメトリ、例えば、ジオメトリマップおよび占有マップがロスレスコード化される場合、バイパス再着色がテクスチャマップのすべてのピクセルに適用され得、通常の再着色方式は省略され得る。
諸実施形態では、「半占有」ピクセルは、通常の再着色方式によって処理され得る。
諸実施形態では、少なくとも「半占有」ピクセルを含んでいるB×Bブロックのすべてのピクセルが、通常の再着色方式によって処理され得る。
諸実施形態では、元のジオメトリマップと、圧縮後の対応する再構成されたジオメトリマップとが比較され得る。所与の2D位置について、ジオメトリマップ内の対応するピクセル値が圧縮によって大きく異なる場合、テクスチャマップ内の対応するピクセルは、通常の再着色方式によって処理され得、そうでない場合、バイパス再着色方式によって処理され得る。しきい値は、ジオメトリ変化が大きいか否かを決定するために定義され得る。しきい値は、すべてのシーケンスに対して固定され得るか、またはシーケンスごとに変更され得るか、またはシーケンスごとに適応的に更新され得る。しきい値は、ハイレベルシンタックス情報またはメタデータとしてビットストリーム中で送られ得る。
本明細書に開示される実施形態における条件の任意の組合せが適用され得ることに留意されたい。
したがって、諸実施形態では、テクスチャマップは、再構成された点群からの再着色なしに入力点群から直接生成され得、これはバイパス再着色方式と呼ばれることがある。占有マップがロッシーコード化される場合、バイパス再着色によって生成されたテクスチャマップは、再構成された占有マップに基づいてさらに処理され得る。目標は、再構成されたフルサイズ占有マップでは占有されているが、元のフルサイズ占有マップでは占有されていない「半占有」ピクセルをいくつかの値で充填することであり得る。充填される値は、画像内の占有ピクセルによって決定され得る。「半占有」ピクセルの充填プロセスは、B×B非重複ブロックベースで実行することができる。「半占有」ピクセルの充填プロセスは、画像全体にわたって実行することができる。
諸実施形態では、テクスチャマップ内のピクセルの一部は、バイパス再着色方式によって元の点群から直接導出することができ、ピクセルの残りは、通常の再着色アルゴリズムによって再構成された点群から導出され、これは、条件付き再着色方式と呼ばれることがある。ピクセルに適用される方法に関する決定は、3Dにおける対応する点のジオメトリ歪みに依存することができる。ジオメトリ歪みが大きい場合には、、通常の再着色が適用され得、そうでない場合には、、バイパス再着色が適用され得る。なお、ジオメトリ歪みには、ジオメトリマップの歪みおよび占有マップの歪みが含まれ得る。
図9Aは、ビデオ点群コーディングを使用してビデオストリームを符号化する方法900Aのフローチャートである。いくつかの実装形態では、図9Aの1つまたは複数のプロセスブロックは、エンコーダ203によって実行され得る。いくつかの実装形態では、図9Aの1つまたは複数のプロセスブロックは、デコーダ210など、エンコーダ203とは別個のまたはそれを含む別のデバイスまたはデバイスのグループによって実行され得る。
図9Aに示されるように、動作911において、方法900Aは、ソース点群を取得することを含み得る。
動作912において、方法900Aは、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成することを含み得る。
動作913において、方法900Aは、ロッシーコーディングを使用して、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成することを含み得、ここにおいて、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである。諸実施形態では、再構成されたジオメトリマップおよび再構成されたテクスチャマップは、再着色を使用せずに生成され得る。
動作914において、方法900Aは、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得することを含み得る。
動作915において、方法900Aは、取得された点の色に基づいてテクスチャピクセルの色を選択することを含み得る。
動作916において、方法900Aは、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成することを含み得る。
図9Bは、ビデオ点群コーディングを使用してビデオストリームを符号化する方法900Bのフローチャートである。いくつかの実装形態では、図9Bの1つまたは複数のプロセスブロックは、エンコーダ203によって実行され得る。いくつかの実装形態では、図9Bの1つまたは複数のプロセスブロックは、デコーダ210など、エンコーダ203とは別個のまたはそれを含む別のデバイスまたはデバイスのグループによって実行され得る。
図9Bに示されるように、動作921において、方法900Bは、ソース点群に基づいて占有マップを生成することを含み得る。
動作922において、方法900Bは、ロッシーコーディングを使用して、再構成された占有マップを生成することを含み得、ここにおいて、再構成された占有マップの解像度は、再構成されたジオメトリマップの解像度および再構成されたテクスチャマップの解像度と同じである。諸実施形態では、再構成された占有マップは、再着色を使用せずに生成され得る。
諸実施形態では、テクスチャピクセルの色は、占有マップに基づいて選択され得る。
諸実施形態では、テクスチャピクセルは、占有マップでは占有されておらず、再構成された占有マップでは占有されている半占有ピクセルに対応し得、テクスチャピクセルの色は、同一ブロック内の複数の占有ピクセルの平均値に基づいて選択され得る。
諸実施形態では、テクスチャピクセルは、占有マップでは占有されておらず、再構成された占有マップでは占有されている半占有ピクセルに対応し得、テクスチャピクセルの色は、複数の最近傍占有ピクセルの距離加重平均値に基づいて選択され得る。
諸実施形態では、テクスチャピクセルは、占有マップで占有され、再構成された占有マップで占有される占有ピクセルに対応し得、占有マップでは占有されておらず、再構成された占有マップでは占有されている半占有ピクセルの色値は、再着色を使用して決定され得る。
諸実施形態では、半占有ピクセルを含むブロックに含まれる複数のピクセルの複数の色値は、再着色を利用して決定され得る。
諸実施形態では、点は、ジオメトリマップと再構成されたジオメトリマップとの間の比較に基づいて取得され得る。
図9A~図9Bは、方法900Aおよび900Bの例示的なブロックを示すが、いくつかの実装形態では、方法900Aおよび900Bは、図9A~図9Bに示されたブロックと比べて、追加のブロック、より少ないブロック、異なるブロック、または異なるように配置されたブロックを含み得る。追加的に、または代替的に、方法900Aのブロックのうちの2つ以上が並列に実行され得る。諸実施形態では、図9A~図9Bの任意のブロックは、必要に応じて、図9A~図9Bの任意の他の1つまたは複数のブロックと任意の順序または量で組み合わせられ得る。
図10は、実施形態による、ビデオ点群コーディングを使用してビデオストリームを符号化するための装置1000の図である。図10に示すように、装置800は、第1の取得コード1010と、第1の生成コード1020と、第2の生成コード1030と、第2の取得コード1040と、選択コード1050と、第3の生成コード1060とを含む。
第1の取得コード1010は、少なくとも1つのプロセッサに、ソース点群を取得させるように構成され得る。
第1の生成コード1020は、少なくとも1つのプロセッサに、ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成させるように構成され得る。
第2の生成コード1030は、少なくとも1つのプロセッサに、ロッシーコーディングを使用して、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成させるように構成され得、ここにおいて、再構成されたジオメトリマップの解像度は、再構成されたテクスチャマップの解像度と同じである。
第2の取得コード1040は、少なくとも1つのプロセッサに、ジオメトリマップのジオメトリピクセルおよびテクスチャマップのテクスチャピクセルに対応するソース点群の点を取得させるように構成され得る。
選択コード1050は、少なくとも1つのプロセッサに、取得された点の色に基づいてテクスチャピクセルの色を選択させるように構成され得る。
第3の生成コード1060は、少なくとも1つのプロセッサに、選択された色、ジオメトリマップ、およびテクスチャマップに基づいて、符号化されたビデオストリームを生成させるように構成され得る。
上記で説明した技法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶され得る。例えば、図11は、本開示の特定の実施形態を実装するのに適したコンピュータシステム1100を示す。
コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)などによって、直接、または解釈、マイクロコード実行などを通して実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様の機構に従い得る任意の適切な機械コードまたはコンピュータ言語を使用してコード化することができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素で実行することができる。
コンピュータシステム1100について図11に示される構成要素は例であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定も示唆することを意図していない。また、構成要素の構成は、コンピュータシステム1100の非限定的な実施形態に示される構成要素のいずれか1つまたは組合せに関して何らかの依存性または要件を有するものとして解釈されるべきではない。
コンピュータシステム1100は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブ移動など)、オーディオ入力(音声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を通して、1人以上の人間のユーザによる入力に応答し得る。また、ヒューマンインターフェースデバイスは、オーディオ(スピーチ、音楽、周囲音など)、画像(走査画像、静止画像カメラから得られる写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用することもできる。
入力ヒューマンインターフェースデバイスには、キーボード1101、マウス1102、トラックパッド1103、タッチスクリーン1110、データグローブ、ジョイスティック1105、マイクロフォン1106、スキャナ1107、カメラ1108のうちの1つまたは複数(それぞれ1つのみ図示)が含まれ得る。
コンピュータシステム1100はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い/味を通して、1人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン1110、データグローブ、またはジョイスティック1105による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)を含み得る。例えば、そのようなデバイスは、オーディオ出力デバイス(スピーカ1109、ヘッドフォン(図示せず)など)、視覚出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1110などであり、タッチスクリーン入力能力が付いている場合も付いていない場合もあり、触覚フィードバック能力が付いている場合も付いていない場合もあり、そのうちのいくつかは、ステレオグラフィック出力(仮想現実メガネ(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず))などの手段を通して2次元視覚出力または3次元以上の出力を出力することが可能であり得る)、ならびにプリンタ(図示せず)であり得る。
コンピュータシステム1100はまた、人間がアクセス可能な記憶デバイスと、CD/DVDまたは同様の媒体1121を有するCD/DVD ROM/RW1120を含む光媒体、サムドライブ1122、リムーバブルハードドライブまたはソリッドステートドライブ1123、テープおよびフロッピー(登録商標)ディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用ROM/ASIC/PLDベースのデバイスなどの関連媒体とを含むことができる。
本開示の主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、または他の一時的信号を包含しないことも当業者は理解すべきである。
コンピュータシステム1100はまた、1つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光であり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット(登録商標)などのローカルエリアネットワーク、ワイヤレスLAN、GSM(登録商標)、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むTVワイヤラインまたはワイヤレスワイドエリアデジタルネットワーク、CANBusを含む車両用および産業用ネットワークなどを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス1149(例えば、コンピュータシステム1100のUSBポートなど)に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のものは、一般に、以下で説明するように、システムバスへの取り付けによってコンピュータシステム1100のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム1100は、他のエンティティと通信することができる。そのような通信は、単方向、受信専用(例えば、放送TV)、単方向送信専用(例えば、特定のCANbusデバイスへのCANbus)、または例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの双方向であり得る。そのような通信は、クラウドコンピューティング環境1155への通信を含むことができる。いくつかのプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースの各々において使用され得る。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェース1154は、コンピュータシステム1100のコア1140に取り付けることができる。
コア1140は、1つまたは複数の中央処理装置(CPU)1141、グラフィックス処理装置(GPU)1142、フィールドプログラマブルゲートエリア(FPGA)1143の形態の専用プログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ1144などを含むことができる。これらのデバイスは、読取専用メモリ(ROM)1145、ランダムアクセスメモリ1146、内部非ユーザアクセスハードドライブ、SSDなどの内部大容量記憶装置1147とともに、システムバス1148を通して接続され得る。いくつかのコンピュータシステムでは、システムバス1148は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、直接、または周辺バス1149を通して、コアのシステムバス1148に取り付けることができる。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。グラフィックスアダプタ1150は、コア1140に含まれ得る。
CPU1141、GPU1142、FPGA1143、およびアクセラレータ1144は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。このコンピュータコードは、ROM1145またはRAM1146に記憶することができる。RAM1146には遷移データも記憶することができ、永久データは例えば内部大容量記憶装置1147に記憶することができる。メモリデバイスのいずれかへの高速ストレージおよび取出しは、1つまたは複数のCPU1141、GPU1142、大容量記憶装置1147、ROM1145、RAM1146などに密接に関連付けることができるキャッシュメモリの使用により可能になり得る。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア分野の当業者に周知かつ利用可能な種類のものであってもよい。
限定ではなく例として、アーキテクチャ、具体的にはコア1140を有するコンピュータシステム1100はるプロセッサ(複数可)(CPU、GPU、FPGA、アクセラレータなどを含む)が、1つまたは複数の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようなユーザアクセス可能な大容量記憶装置、ならびにコア内部大容量記憶装置1147またはROM1145などの非一時的な性質のコア1140の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア1140によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア1140および具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM1146に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスにしたがってそのようなデータ構造を修正することを含む、本明細書で説明される特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに、またはソフトウェアとともに動作することができる、回路(例えば、アクセラレータ1144)内にハードワイヤードまたは他の方法で具現化された論理の結果として、機能性を提供することができる。ソフトウェアへの言及は、適切な場合、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組合せを包含する。
本開示は、いくつかの非限定的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の同等物がある。したがって、当業者であれば、本明細書で明示的に図示または説明されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されたい。

Claims (9)

  1. ビデオ点群コーディングを使用してビデオストリームを符号化する方法であって、前記方法は、少なくとも1つのプロセッサによって実行され、
    ソース点群を取得するステップと、
    前記ソース点群に基づいてジオメトリマップおよびテクスチャマップを生成するステップと、
    ロッシーコーディングを使用し、再着色を使用せずに、再構成されたジオメトリマップおよび再構成されたテクスチャマップを生成するステップであって、前記再構成されたジオメトリマップの解像度は、前記再構成されたテクスチャマップの解像度と同じである、ステップと、
    前記ジオメトリマップのジオメトリピクセルおよび前記テクスチャマップのテクスチャピクセルに対応する前記ソース点群の点を取得するステップと、
    前記取得された点の色に基づいて前記テクスチャピクセルの色を選択するステップと、
    前記選択された色、前記ジオメトリマップ、および前記テクスチャマップに基づいて、符号化されたビデオストリームを生成するステップと
    を含む方法。
  2. 前記ソース点群に基づいて占有マップを生成するステップと、
    前記ロッシーコーディングを使用し、前記再着色を使用せずに、再構成された占有マップを生成するステップであって、前記再構成された占有マップの解像度は、前記再構成されたジオメトリマップの解像度および前記再構成されたテクスチャマップの解像度と同じである、ステップと
    をさらに含み、
    前記テクスチャピクセルの前記色は、前記占有マップに基づいて選択される、
    請求項1に記載の方法。
  3. 前記テクスチャピクセルは、前記占有マップでは占有されておらず、前記再構成された占有マップでは占有されている半占有ピクセルに対応し、
    前記テクスチャピクセルの前記色は、同一ブロック内の複数の占有ピクセルの平均値に基づいて選択される、
    請求項2に記載の方法。
  4. 前記テクスチャピクセルは、前記占有マップでは占有されておらず、前記再構成された占有マップでは占有されている半占有ピクセルに対応し、
    前記テクスチャピクセルの前記色は、複数の最近傍占有ピクセルの距離加重平均値に基づいて選択される、
    請求項2に記載の方法。
  5. 前記テクスチャピクセルは、前記占有マップで占有され、前記再構成された占有マップで占有される占有ピクセルに対応し、
    前記占有マップでは占有されておらず、前記再構成された占有マップでは占有されている半占有ピクセルの色値は、前記再着色を使用して決定される、
    請求項2に記載の方法。
  6. 前記半占有ピクセルを含むブロックに含まれる複数のピクセルの複数の色値は、前記再着色を利用して決定される、請求項5に記載の方法。
  7. 前記点は、前記ジオメトリマップと前記再構成されたジオメトリマップとの間の比較に基づいて取得される、請求項1に記載の方法。
  8. ビデオ点群コーディングを使用してビデオストリームを符号化するための装置であって、
    プログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記プログラムコードを読み取り、前記プログラムコードによる命令通りに動作するように構成された少なくとも1つのプロセッサと
    を備え、前記プログラムコードは、前記少なくとも1つのプロセッサに、請求項1から7のいずれか一項に記載の方法を実行させる、装置。
  9. コンピュータに、請求項1から7のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2022567066A 2021-06-04 2021-10-12 ビデオベースの点群コーディングのための条件付き再着色 Pending JP2023533416A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163197196P 2021-06-04 2021-06-04
US63/197,196 2021-06-04
US17/495,301 US11979606B2 (en) 2021-06-04 2021-10-06 Conditional recolor for video based point cloud coding
US17/495,301 2021-10-06
PCT/US2021/054559 WO2022256032A1 (en) 2021-06-04 2021-10-12 Conditional recolor for video based point cloud coding

Publications (1)

Publication Number Publication Date
JP2023533416A true JP2023533416A (ja) 2023-08-03

Family

ID=84284495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022567066A Pending JP2023533416A (ja) 2021-06-04 2021-10-12 ビデオベースの点群コーディングのための条件付き再着色

Country Status (6)

Country Link
US (1) US11979606B2 (ja)
EP (1) EP4128750A4 (ja)
JP (1) JP2023533416A (ja)
KR (1) KR20230011406A (ja)
CN (1) CN115997380A (ja)
WO (1) WO2022256032A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110892453B (zh) * 2017-07-10 2024-02-13 三星电子株式会社 使用图像/视频编解码器的点云和网格压缩
WO2019158821A1 (en) * 2018-02-19 2019-08-22 Nokia Technologies Oy An apparatus, a method and a computer program for volumetric video
US10939129B2 (en) * 2018-04-10 2021-03-02 Apple Inc. Point cloud compression
KR20210155386A (ko) 2019-05-14 2021-12-22 인텔 코포레이션 3DoF+/MIV 및 V-PCC에 대한 몰입형 비디오 코딩 기술
US11627314B2 (en) 2019-09-27 2023-04-11 Apple Inc. Video-based point cloud compression with non-normative smoothing
CN116684666A (zh) * 2020-01-09 2023-09-01 Lg电子株式会社 点云数据发送装置和方法、点云数据接收装置和方法

Also Published As

Publication number Publication date
WO2022256032A1 (en) 2022-12-08
EP4128750A4 (en) 2023-07-19
KR20230011406A (ko) 2023-01-20
EP4128750A1 (en) 2023-02-08
CN115997380A (zh) 2023-04-21
US20220394293A1 (en) 2022-12-08
US11979606B2 (en) 2024-05-07

Similar Documents

Publication Publication Date Title
CN112188209B (zh) 视频流解码方法、装置、计算机设备和存储介质
US11451836B2 (en) Techniques and apparatus for PCM patch creation using Morton codes
CN113170154B (zh) 采用退火迭代几何平滑的点云编解码方法、装置和介质
JP7118501B2 (ja) 符号化された映像ストリームを映像点群符号化を使用して復号するための方法、装置、媒体、およびプログラム
CN113170155B (zh) 点云编解码方法和装置
JP7434667B2 (ja) ビデオベースの点群コーディングのためのグループオブピクチャベースのパッチパッキング
JP2023533416A (ja) ビデオベースの点群コーディングのための条件付き再着色
KR102677403B1 (ko) 비디오 기반 포인트 클라우드 코딩을 위한 고속 패치 생성
CN113228050B (zh) 使用视频点云编解码对视频流进行编码的方法和装置
US12101505B2 (en) Fast recolor for video based point cloud coding
CN112188201B (zh) 对视频流进行编码的方法、装置、电子设备及存储介质
JP2023533423A (ja) ビデオベースの点群コーディングのための非バイナリ占有マップ
WO2023086258A1 (en) Grid-based patch generation for video-based point cloud coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20241008