JP2024518765A - メッシュ圧縮のための境界uv情報の予測コーディング - Google Patents

メッシュ圧縮のための境界uv情報の予測コーディング Download PDF

Info

Publication number
JP2024518765A
JP2024518765A JP2023565405A JP2023565405A JP2024518765A JP 2024518765 A JP2024518765 A JP 2024518765A JP 2023565405 A JP2023565405 A JP 2023565405A JP 2023565405 A JP2023565405 A JP 2023565405A JP 2024518765 A JP2024518765 A JP 2024518765A
Authority
JP
Japan
Prior art keywords
coded
sampled
coordinates
mesh
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023565405A
Other languages
English (en)
Inventor
シャン・ジャン
チャオ・フアン
ジュン・ティアン
シャオジョン・シュ
シャン・リュウ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2024518765A publication Critical patent/JP2024518765A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

デコーダ内の少なくとも1つのプロセッサによって行われる方法は、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信するステップを含む。方法は、圧縮されたメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測するステップを含む。方法は、サンプリングされた2D座標と関連付けられた予測残差を導出するステップを含む。方法は、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成するステップをさらに含む。

Description

関連出願の相互参照
本出願は、2022年3月25日に出願された米国仮特許出願第63/323,880号および2023年3月16日に出願された米国特許出願第18/122,393号の優先権を主張し、これらの開示は参照によりその全体が本明細書に組み込まれる。
本開示は、高度なビデオコーディング技術のセットを対象とする。より具体的には、本開示は、ビデオベースのメッシュ圧縮を対象とする。
世界の高度な3次元(3D)表現は、より没入型のインタラクションおよび通信を可能にしている。3D表現における臨場感を実現するために、3Dモデルはこれまで以上に洗練されてきており、かなりの量のデータがこれらの3Dモデルの作成および消費に結び付けられる。3Dメッシュは、3Dモデル没入型コンテンツに広く使用される。
3Dメッシュは、ボリュームオブジェクトの表面を記述するいくつかのポリゴンから構成されうる。動的メッシュシーケンスは、メッシュシーケンスが経時的に変化するかなりの量の情報を有しうるので、大量のデータを必要としうる。したがって、そのようなコンテンツを記憶および伝送するために効率的な圧縮技術が必要とされる。
メッシュ圧縮規格IC、MESHGRID、FAMCは、常時接続性および時変ジオメトリおよび頂点属性を有する動的メッシュに対処するために以前に開発された。しかしながら、これらの規格は、時変属性マップおよび接続性情報を考慮に入れない。
さらに、特にリアルタイム制約下で、ボリューム取得技術が常時接続性動的メッシュを生成することも困難である。このタイプの動的メッシュコンテンツは、既存の規格によってサポートされていない。
1つまたは複数の実施形態によれば、デコーダ内の少なくとも1つのプロセッサによって行われる方法は、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信するステップを含む。方法は、圧縮されたメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測するステップをさらに含む。方法は、サンプリングされた2D座標と関連付けられた予測残差を導出するステップをさらに含む。方法は、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成するステップをさらに含む。
1つまたは複数の実施形態によれば、デコーダは、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサと、を含む。プログラムコードは、少なくとも1つのプロセッサに、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信させるように構成された受信コードを含む。プログラムコードは、少なくとも1つのプロセッサに、圧縮されたメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測させるように構成された予測コードをさらに含む。プログラムコードは、少なくとも1つのプロセッサに、サンプリングされた2D座標と関連付けられた予測残差を導出させるように構成された導出コードをさらに含む。プログラムコードは、少なくとも1つのプロセッサに、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成させるように構成された再構成コードをさらに含む。
1つまたは複数の実施形態によれば、デコーダ内のプロセッサによって実行されると、プロセッサに、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信するステップを含む方法を実行させる命令を記憶している非一時的コンピュータ可読媒体。方法は、圧縮されたメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測するステップをさらに含む。方法は、サンプリングされた2D座標と関連付けられた予測残差を導出するステップをさらに含む。方法は、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成するステップをさらに含む。
開示の主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
本開示の実施形態による、通信システムのブロック図の概略図である。 本開示の実施形態による、ストリーミングシステムのブロック図の概略図である。 本開示の実施形態による、ビデオエンコーダおよびビデオデコーダのブロック図の概略図である。 本開示の実施形態による、3Dメッシュセグメントから2Dチャート上へのUVパラメータ化マッピングの一例を示す。 3Dメッシュセグメントが複数の別々のチャートにマッピングされる異なるUVパラメータ化の一例を示す。 本開示の実施形態による、複数のチャートを有する例示的な2D UVアトラスを示す。 本開示の実施形態による、2Dパッチにおける境界頂点の一例を示す。 本開示の実施形態による、UV平面上のサンプリングされた座標の一例を示す。 本開示の実施形態による、メッシュをデコードするための例示的なプロセスを示す。 本開示の実施形態を実装するのに適したコンピュータシステムの図である。
例示的な実施形態の以下の詳細な説明は、添付の図面を参照する。異なる図面における同じ参照番号は、同じかまたは類似の要素を識別しうる。
前述の開示は、例示および説明を提供しているが、網羅的であることも、実装形態を開示される厳密な形態に限定することも意図されていない。修正形態および変形形態が上記の開示に照らして可能であるか、または実装形態の実施により取得されうる。さらに、ある実施形態の1つまたは複数の特徴または構成要素が、別の実施形態(または別の実施形態の1つもしくは複数の特徴)に組み込まれるか、またはそれと組み合わされてもよい。加えて、以下に提供される動作のフローチャートおよび説明では、1つまたは複数の動作が省略されてもよく、1つまたは複数の動作が追加されてもよく、1つまたは複数の動作が同時に(少なくとも部分的に)行われてもよく、1つまたは複数の動作の順序が入れ替えられてもよいことが理解される。
本明細書に記載されるシステムおよび/または方法は、異なる形態のハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装されてもよいことは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。よって、システムおよび/または方法の動作ならびに挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび/または方法を実装するように設計されうることが理解される。
特徴の特定の組み合わせが、特許請求の範囲に記載され、かつ/または本明細書に開示されていても、これらの組み合わせは、可能な実装形態の開示を限定することを意図されたものではない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されておらず、かつ/または本明細書に開示されていないやり方で組み合わされてもよい。以下に列挙されている各従属請求項は1つの請求項のみに直接従属しうるが、可能な実装形態の開示は、請求項セット内の他のすべての請求項との組み合わせにおいて各従属請求項を含む。
本明細書で使用される要素、動作、または命令は、そのように明示的に記載されていない限り、重要または必須であると解釈されるべきではない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数の項目を含むことを意図されており、「1つまたは複数」と交換可能に使用されてもよい。1つの項目のみが意図されている場合、「1つ」という用語または同様の表現が使用される。また、本明細書で使用される場合、「有する(has)」、「有する(have)」、「有する(having)」、「含む(include)」、「含む(including)」などの用語は、オープンエンドの用語であることが意図されている。さらに、「に基づいて」という句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味することが意図されている。さらに、「[A]および[B]の少なくとも一方」や「[A]または[B]の少なくとも一方」などの表現は、Aのみ、Bのみ、またはAとBの両方を含むと理解されるべきである。
本明細書を通して、「ある実施形態」、「一実施形態」、または同様の表現への言及は、指示される実施形態に関連して記載される特定の特徴、構造、または特性が、本解決策の少なくとも1つの実施形態に含まれることを意味する。よって、「ある実施形態では」、「一実施形態では」という句、および類似の表現は、本明細書全体を通して、必ずしもそうとは限らないが、すべて同じ実施形態を指す場合がある。
さらに、記載される本開示の特徴、利点、および特性は、1つまたは複数の実施形態において任意の適切なやり方で組み合わされてもよい。当業者は、本明細書の説明に照らして、本開示が、特定の実施形態の特定の特徴または利点のうちの1つまたは複数なしでも実施されうることを認めるであろう。他の例では、本開示のすべての実施形態には存在しない場合がある付加的な特徴および利点が、特定の実施形態において認められうる。
本開示の実施形態は、メッシュを圧縮することを対象とする。メッシュは、ボリュームオブジェクトの表面を記述するいくつかのポリゴンから構成されうる。3D空間内のメッシュの頂点および頂点がどのように接続されているかの情報は各ポリゴンを定義し、接続性情報と呼ばれうる。任意選択で、色、法線などといった頂点属性が、メッシュ頂点と関連付けられてもよい。属性はまた、メッシュを2D属性マップでパラメータ化するマッピング情報を利用することによって、メッシュの表面と関連付けられてもよい。そのようなマッピングは、UV座標またはテクスチャ座標と呼ばれるパラメトリック座標のセットを使用して定義され、メッシュ頂点と関連付けられうる。2D属性マップは、テクスチャ、法線、変位などといった高解像度属性情報を記憶するために使用されうる。高解像度属性情報は、テクスチャマッピングやシェーディングなどの様々な目的に使用されうる。
上記のように、3Dメッシュまたは動的メッシュは、経時的に変化するかなりの量の情報からなりうるので、大量のデータを必要としうる。既存の規格は、時変属性マップおよび接続性情報を考慮に入れない。既存の規格はまた、特にリアルタイム条件下で、常時接続性動的メッシュを生成するボリューム取得技術もサポートしていない。
したがって、時変接続性情報および任意選択で時変属性マップを有する動的メッシュを直接扱うための新たなメッシュ圧縮規格が必要である。本開示の実施形態は、そのような動的メッシュを記憶および伝送するための効率的な圧縮技術を可能にする。本開示の実施形態は、リアルタイム通信、記憶、自由視点ビデオ、ARおよびVRなどの様々な用途のための不可逆圧縮および/または可逆圧縮を可能にする。
本開示の1つまたは複数の実施形態によれば、動的メッシュ圧縮のための方法、システム、および非一時的記憶媒体が提供される。本開示の実施形態はまた、メッシュのただ1つのフレームまたはメッシュコンテンツが経時的に変化しない静的メッシュにも適用されうる。
図1~図2を参照すると、本開示のエンコーディングおよびデコーディングの構造を実装するための本開示の1つまたは複数の実施形態が記載されている。
図1は、本開示の一実施形態による通信システム100の簡略ブロック図を例示している。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含みうる。データの単方向伝送の場合、第1の端末110は、メッシュデータを含みうるビデオデータを、ネットワーク150を介して他方の端末120に送信するためにローカル位置においてコーディングしうる。第2の端末120は、ネットワーク150から他方の端末のコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、復元されたビデオデータを表示しうる。単方向データ伝送は、メディアサービング用途などにおいて一般的でありうる。
図1は、例えばビデオ会議中に発生しうるコーディングされたビデオの双方向伝送をサポートするために設けられた端末130、140の第2のペアを例示している。データの双方向伝送の場合、各端末130、140は、ネットワーク150を介して他方の端末に送信するためにローカル位置で取り込まれたビデオデータをコーディングしうる。各端末130、140はまた、他方の端末によって送信されたコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、復元されたビデオデータをローカルディスプレイデバイスにおいて表示しうる。
図1において、端末110~140は、例えば、サーバ、パーソナルコンピュータ、およびスマートフォン、ならびに/または任意の他のタイプの端末であってもよい。例えば、端末(110~140)は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤおよび/または専用のビデオ会議機器であってもよい。ネットワーク150は、例えば、有線および/または無線通信ネットワークを含む、端末110~140間デコードされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク150は、回線交換チャネルおよび/またはパケット交換チャネルでデータを交換しうる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットを含む。本考察の目的では、ネットワーク150のアーキテクチャおよびトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。
図2は、開示の主題についての用途の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダを例示している。開示の主題は、例えば、ビデオ会議、デジタルテレビ、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶などを含む他のビデオ対応用途で使用されてもよい。
図2に例示されるように、ストリーミングシステム200は、ビデオソース201およびエンコーダ203を含むキャプチャサブシステム213を含みうる。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205および/または少なくとも1つのストリーミングクライアント206をさらに含んでもよい。
ビデオソース201は、例えば、3Dメッシュおよび3Dメッシュと関連付けられたメタデータを含むストリーム202を作成しうる。ビデオソース201は、例えば、3Dセンサ(例えば、深度センサ)または3Dイメージング技術(例えば、(1つもしくは複数の)デジタルカメラ)と、3Dセンサまたは3Dイメージング技術から受信されたデータを使用して3Dメッシュを生成するように構成されたコンピューティングデバイスとを含んでもよい。サンプルストリーム202は、エンコードされたビデオビットストリームと比較して高いデータ量を有する可能性があり、ビデオソース201に結合されたエンコーダ203によって処理されうる。エンコーダ203は、以下でより詳細に説明されるように、開示の主題の態様を可能にするかまたは実装するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含んでもよい。エンコーダ203はまた、エンコードされたビデオビットストリーム204をさらに生成しうる。エンコードされたビデオビットストリーム204は、圧縮されていないストリーム202と比較して低いデータ量を有する可能性があり、後で使用するためにストリーミングサーバ205上に記憶されうる。1つまたは複数のストリーミングクライアント206は、ストリーミングサーバ205にアクセスして、エンコードされたビデオビットストリーム204のコピーでありうるビデオビットストリーム209を取り出しうる。
ストリーミングクライアント206は、ビデオデコーダ210およびディスプレイ212を含みうる。ビデオデコーダ210は、例えば、入力されるエンコードされたビデオビットストリーム204のコピーである、ビデオビットストリーム209をデコードし、ディスプレイ212または別のレンダリングデバイス(図示せず)上にレンダリングされうる、出力されるビデオサンプルストリーム211を作成してもよい。いくつかのストリーミングシステムでは、ビデオビットストリーム204、209は、特定のビデオコーディング/圧縮規格に従ってエンコードされうる。
図3は、エンコーダおよびデコーダを使用した動的メッシュ圧縮およびメッシュ再構成のためのフレームワーク300の例示的な図である。
図3に見られるように、フレームワーク300は、エンコーダ301およびデコーダ351を含みうる。エンコーダ301は、1つまたは複数の入力メッシュ305、1つまたは複数のUVアトラスを伴うメッシュ310、占有マップ315、ジオメトリマップ320、属性マップ325、およびメタデータ330を含んでもよい。デコーダ351は、デコードされた占有マップ335、デコードされたジオメトリマップ340、デコードされた属性マップ345、デコードされたメタデータ350、および再構成されたメッシュ360を含んでもよい。
本開示の1つまたは複数の実施形態によれば、入力メッシュ305は、1つまたは複数のフレームを含んでもよく、1つまたは複数のフレームの各々は、一連の動作によって前処理され、UVアトラスを伴うメッシュ310を生成するために使用されうる。一例として、前処理動作は、トラッキング、パラメータ化、再メッシュ化、ボクセル化などを含みうるが、これらに限定されなくてもよい。いくつかの実施形態では、前処理動作は、エンコーダ側でのみ行われ、デコーダ側では行われなくてもよい。
UVアトラスを伴うメッシュ310は2Dメッシュでありうる。2Dメッシュは、2D空間内の座標(例えば2D座標)と各々関連付けられた頂点のチャートでありうる。2Dメッシュ内の各頂点は3Dメッシュ内の対応する頂点と関連付けられてもよく、3Dメッシュ内の頂点は3D空間内の座標と関連付けられている。圧縮された2Dメッシュは、圧縮されていない2Dメッシュと比較して情報が減少した2Dメッシュのバージョンでありうる。例えば、2Dメッシュは、圧縮された2Dメッシュがサンプリングされた点を含むサンプリングレートでサンプリングされてもよい。UVアトラスを伴う2Dメッシュは、メッシュの各頂点が2Dアトラス上のUV座標と関連付けられうるメッシュでありうる。UVアトラスを伴うメッシュ310は、サンプリングに基づいて処理され、複数のマップに変換されうる。一例として、UVアトラス310は、UVアトラスを伴う2Dメッシュのサンプリングに基づいて処理され、占有マップ、ジオメトリマップ、および属性マップに変換されてもよい。生成された占有マップ335、ジオメトリマップ340、および属性マップ345は、適切なコーデック(例えば、HVEC、VVC、AV1、AVS3など)を使用してエンコードされ、デコーダに送信されうる。いくつかの実施形態では、メタデータ(例えば、接続性情報など)もデコーダに送信されうる。
いくつかの実施形態では、デコーダ側で、デコードされた2Dマップからメッシュが再構成されうる。再構成されたメッシュに対して後処理およびフィルタリングも適用されうる。いくつかの例では、メタデータは、3Dメッシュ再構成を目的としてデコーダ側にシグナリングされてもよい。占有マップは、各パッチの境界頂点がシグナリングされる場合にデコーダ側から推測されうる。
一態様によれば、デコーダ351は、エンコーダからエンコードされた占有マップ、ジオメトリマップ、および属性マップを受信しうる。デコーダ315は、本明細書に記載される実施形態に加えて、適切な技術および方法を使用して、占有マップ、ジオメトリマップ、および属性マップをデコードしてもよい。いくつかの実施形態では、デコーダ351は、デコードされた占有マップ335、デコードされたジオメトリマップ340、デコードされた属性マップ345、およびデコードされたメタデータ350を生成しうる。入力メッシュ305は、1つまたは複数の再構成フィルタおよび技術を使用して、デコードされた占有マップ335、デコードされたジオメトリマップ340、デコードされた属性マップ345、およびデコードされたメタデータ350に基づいて再構成されたメッシュ360に再構成されうる。いくつかの実施形態では、メタデータ330はデコーダ351に直接送信されてもよく、デコーダ351は、メタデータを使用して、デコードされた占有マップ335、デコードされたジオメトリマップ340、およびデコードされた属性マップ345に基づいて再構成されたメッシュ360を生成しうる。再メッシュ化、パラメータ化、トラッキング、ボクセル化などを含むがこれらに限定されない、ポストフィルタリング技術もまた、再構成されたメッシュ360に対して適用されうる。
いくつかの実施形態によれば、3Dメッシュは、いくつかのセグメント(またはパッチ/チャート)に分割されうる。各セグメントは、それらのジオメトリ、属性、および接続性情報と関連付けられた接続頂点のセットから構成されうる。図4に例示されるように、UVパラメータ化プロセスは、メッシュセグメント400を2D UVアトラス内の2Dチャート(402、404)上にマッピングする。メッシュセグメント内の各頂点には、2D UVアトラス内の2D UV座標が割り当てられうる。2Dチャート内の頂点は、それらの3D対応頂点として接続構成要素を形成しうる。各頂点のジオメトリ、属性、および接続性情報もまた、それらの3D対応ジオメトリ、属性、および接続性情報から継承されうる。
いくつかの実施形態によれば、3Dメッシュセグメントはまた、複数の別々の2Dチャートにもマッピングさされうる。3Dメッシュセグメントが別々の2Dチャートにマッピングされる場合、3Dメッシュセグメント内の頂点は、2D UVアトラス内の複数の頂点に対応してもよい。図5に例示されるように、3Dメッシュセグメント400に対応しうる、3Dメッシュセグメント500は、2D UVアトラスにおいて、単一のチャートの代わりに、2つの2Dチャート(502A、502B)にマッピングされてもよい。図5に例示されるように、3D頂点v1およびv4は、それぞれ、2つの2D対応頂点v1’およびv4’を有する。
図6は、複数のチャートを含む3Dメッシュの一般的な2D UVアトラス600の例を示しており、各チャートは、それらの3Dジオメトリ、属性、および接続性情報と関連付けられた複数の(例えば、3つ以上の)頂点を含みうる。
境界頂点は、2D UV空間内で定義されうる。図7に示されるように、塗りつぶされた頂点は、接続構成要素(パッチ/チャート)の境界エッジ上にあるため、境界頂点である。境界エッジは、そのエッジが1つの三角形にのみ現れるかどうかをチェックすることによって決定されうる。ジオメトリ情報(例えば、3D xyz座標)および2D UV座標は、ビットストリームでシグナリングされうる。
動的メッシュシーケンスは、メッシュシーケンスが経時的に変化するかなりの量の情報から構成されうるので、大量のデータを必要としうる。特に、境界情報は、メッシュ全体のかなりの部分を表す。したがって、境界情報を効率的に圧縮するためには効率的な圧縮技術が必要である。
本開示の実施形態は、別々に使用されても、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)、エンコーダ、およびデコーダの各々は、処理回路(例えば、1つまたは複数のプロセッサや1つまたは複数の集積回路)によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
本開示の実施形態によれば、メッシュ圧縮におけるパッチ境界のUV座標のコーディングのためのいくつかの方法が提案される。方法は、個別に適用されても、任意の形態の組み合わせによって適用されてもよいことに留意されたい。方法は、メッシュのただ1つのフレームがあるか、またはメッシュコンテンツが経時的に変化しない静的メッシュに適用されてもよいことにも留意されたい。さらに、同様の方法は、深度画像/属性画像/テクスチャ画像などのコーディングに拡張されてもよい。
いくつかの実施形態によれば、2D UVアトラスを伴う入力メッシュは頂点を有しえ、メッシュの各頂点は、2Dアトラス上の関連付けられたUV座標を有しうる。占有マップ、ジオメトリマップ、および属性マップは、UVアトラス上の1つまたは複数の点/位置をサンプリングすることによって生成されうる。各サンプル位置は、その位置がメッシュ頂点によって定義されたポリゴンの内側にある場合、占有される場合も占有されない場合もある。各占有サンプルについて、関連付けられたポリゴン頂点から補間することによって、そのサンプルの対応する3Dジオメトリ座標および属性を計算しうる。
本開示の一態様によれば、サンプリングレートは、2Dアトラス全体にわたって一貫していてもよい。いくつかの実施形態では、u軸およびv軸のサンプリングレートは異なっていてもよく、異方性再メッシュ化を可能にする。いくつかの実施形態では、2Dアトラス全体が、スライスやタイルなどの複数の領域に分割されてもよく、そのような各領域が異なるサンプリングレートを有してもよい。
本開示の1つまたは複数の実施形態によれば、各領域(または2Dアトラス全体)のサンプリングレートは、シーケンスヘッダ、フレームヘッダ、スライスヘッダなどを含むがこれらに限定されない、ハイレベル構文でシグナリングされうる。いくつかの実施形態では、各領域(または2Dアトラス全体)のサンプリングレートは、エンコーダとデコーダの両方によって想定されている予め確立されたレートのセットから選択されうる。予め確立されたレートのセットはエンコーダとデコーダの両方によって既知でありうるため、1つの特定のサンプリングレートのシグナリングは、予め確立されたレートセット内のインデックスをシグナリングしさえすればよい。そのような予め確立されたセットの例は、2ピクセルごと、4ピクセルごと、8ピクセルごとなどでありうる。いくつかの実施形態では、メッシュフレームの各領域(または2Dアトラス全体)のサンプリングレートは、予め確立されたレートセットから、同じフレームの他のすでにコーディングされた領域内の以前に使用されたサンプリングレートから、または他のすでにコーディングされたメッシュフレーム内での以前に使用されたサンプリングレートから予測されうる。
いくつかの実施形態では、各領域(または2Dアトラス全体)のサンプリングレートは、各領域(または2Dアトラス全体)の何らかの特性に基づくものでありうる。一例として、サンプルレートはアクティビティに基づいてもよく、リッチテクスチャ領域(もしくは2Dアトラス全体)、または高アクティビティの領域(もしくな2Dアトラス全体)の場合、サンプルレートは高く設定されうる。別の例として、滑らかな領域(もしくは2Dアトラス全体)、または低アクティビティの領域(もしくは2Dアトラス全体)の場合、サンプルレートは低く設定されうる。
いくつかの実施形態では、メッシュフレームの各領域(または2Dアトラス全体)のサンプリングレートは、予測と直接シグナリングとの組み合わせが可能とされうるやり方でシグナリングされうる。構文は、サンプリングレートが予測されるかそれとも直接シグナリングされるかを指示するように構造化されうる。予測される場合、どの予測子サンプリングレートが使用されるべきかがさらにシグナリングされうる。直接シグナリングされる場合、レートの値を表す構文がシグナリングされうる。
図8は、UV平面800上のサンプリングされた座標の例を示しており、テクスチャ点V1、V2、およびV3は境界頂点のUV座標である。UV平面全体は、一定のサンプル間隔でサンプリングされうる。図8の2つの隣接サンプル間の距離(例えば、元のサンプル数を単位ちする)は、サンプリングステップ(またはサンプリングレート)と呼ばれうる。これらの頂点の元のUV座標は、V1の元の位置など、UV平面上のサンプリング位置に厳密には当てはまらない場合がある。最も近いサンプリングされた座標V1’は、圧縮における予測子として使用されうる。
境界頂点のUV座標は、例えば、サンプリングされた座標およびオフセットを含む2つの部分にコーディングされうる。図8では、座標(ui,vi)は、パッチの境界頂点の元のUV座標であってもよく、i=0、1、…、N-1、Nは、チャート内の境界頂点の数である。チャートのサンプリングレートはSで表されうる。UV平面800をサンプリングした後、境界頂点のサンプリングされた座標
は、(ui,vi)をサンプリングレートで除算し、続いて丸めを行うことによって計算されうる。例えば、丸めは、以下のように行われうる。
1つまたは複数の例では、床演算または天井演算などの様々な丸め演算もまた、サンプリングされた座標を計算するときに除算後に適用されうる。境界頂点のUV座標のオフセット
は、以下のように計算されうる。
したがって、図8の境界頂点V1のオフセットは、以下のように計算されうる。
1つまたは複数の例では、サンプリングされた座標とオフセットの両方が、可逆または不可逆コーディングによってコーディングされうる。再構成されたサンプリングされた座標およびオフセットは、それぞれ、
および
と表されうる。デコーダ側では、境界頂点の再構成されたUV座標(例えば、
)は、以下のように導出されうる。
いくつかの実施形態によれば、前のコーディングされたサンプリングされた座標が、現在のサンプリングされた座標を予測するために使用されうる。1つまたは複数の実施形態では、同じ境界ループ上の頂点のUV座標は、順番に一緒にコーディングされうる。デコード順序で現在の頂点より前にある1つの頂点のUV座標は、現在のUV座標の予測子として使用されうる。現在の境界頂点の予測されるサンプリングされた座標は、
と表されうる。この目的で異なる予測技術が適用されてもよい。
1つまたは複数の実施形態では、以前にコーディングされたサンプリングされた座標が、以下のように現在の座標の予測に使用されうる。
1つまたは複数の実施形態では、2つの以前にコーディングされたサンプリングされた座標が、現在の座標を予測するために使用されうる。例えば、現在の座標は、以下のように線形予測を用いて2つの以前にコーディングされたサンプリングされた座標を使用して予測されうる。
1つまたは複数の例では、より高次の多項式による予測も採用されうる。
1つまたは複数の実施形態によれば、現在の座標が予測された後、サンプリングされた座標の予測残差は、以下のように導出されうる。
予測残差は、1つまたは複数の異なる方法によってコーディングされてもよい。1つまたは複数の実施形態では、予測残差は固定長コーディングによってコーディングされうる。ビット長は、すべてのパッチに対してハイレベル構文テーブルにおいてコーディングされてもよいし、各パッチに対して異なるようにコーディングされてもよい。1つまたは複数の実施形態では、予測残差は指数ゴロムコーディングによってコーディングされうる。
1つまたは複数の実施形態では、予測残差は、単項コーディングによってコーディングされうる。1つまたは複数の実施形態では、予測残差は、表1に示される構文要素によってコーディングされうる。
1つまたは複数の例では、変数prediction_residual_signは、バイパスコーディングによってコーディングされうる。1つまたは複数の例では、変数prediction_residual_eq0は、予測残差が0に等しいか否かを指定しうる。1つまたは複数の例では、変数prediction_residual_signは、予測残差の符号ビットを指定しうる。1つまたは複数の例では、変数prediction_residual_abs_eq1は、予測残差の絶対値が1であるか否かを指定しうる。1つまたは複数の例では、変数prediction_residual_abs_eq2は、予測残差の絶対値が2であるか否かを指定しうる。1つまたは複数の例では、変数prediction_residual_abs_minus3は、予測残差-3の絶対値を指定しうる。
1つまたは複数の実施形態によれば、予測残差は、表2に示される構文要素によってコーディングされうる。
1つまたは複数の例では、変数prediction_residual_signは、算術コーディングによってコーディングされてもよく、異なるコンテキストが使用されてもよい。例えば、前のコーディングされた境界頂点の予測残差の符号がコンテキストとして使用されてもよい。1つまたは複数の例では、変数prediction_residual_eq0は、予測残差が0に等しいか否かを指定しうる。1つまたは複数の例では、変数prediction_residual_signは、予測残差の符号ビットを指定しうる。1つまたは複数の例では、変数prediction_residual_abs_eq1は、予測残差の絶対値が1であるか否かを指定しうる。1つまたは複数の例では、変数prediction_residual_abs_eq2は、予測残差の絶対値が2であるか否かを指定しうる。1つまたは複数の例では、prediction_residual_abs_minus3は、予測残差-3の絶対値を指定しうる。
1つまたは複数の実施形態によれば、デコーダ側では、サンプリングされたUV座標の予測残差は、上述の構文要素から導出されうる。例えば、U座標は、以下のステップによって復元されうる。
if(prediction_residual_eq0){

}else{
if(prediction_residual_abs_eq1){

}else if(prediction_residual_abs_eq2){

}else{


当業者によって理解されるように、V座標は、U座標を復元するための上述されたのと同じかまたは同様のステップを使用して復元されうる。
1つまたは複数の実施形態によれば、UV境界座標の予測は、以前にコーディングされたメッシュフレームからももたらされうる。現在のメッシュフレームに適用されるものと前のメッシュフレーム内のものとの間で異なるサンプリングレートの場合には、予測子はその元の値に逆量子化され、次いで現在のサンプリングレートに従って量子化されうる。1つまたは複数の例では、UV境界座標の予測残差は、エントロピーコーディングされる前に変換されてもよい。例えば、離散コサイン/サイン変換、ウェーブレット変換、(高速)フーリエ変換、スプライン変換など、様々な変換関数が採用されてもよい。
1つまたは複数の実施形態によれば、UVオフセット(例えば、
)は、Qの量子化ステップサイズでの量子化によってコーディングされうる。1つまたは複数の例では、量子化ステップサイズQは、シーケンスヘッダ、フレームヘッダ、またはスライスヘッダなどといったハイレベル構文でコーディングされうる。量子化されたUVオフセット(例えば、
)は、以下のように計算されうる。
1つまたは複数の例では、UVオフセットは量子化される前に変換されてもよい。例えば、離散コサイン/サイン変換、ウェーブレット変換、(高速)フーリエ変換、スプライン変換など、様々な変換関数が採用されてもよい。
量子化されたオフセットは、1つまたは複数の異なる方法によってコーディングされてもよい。1つまたは複数の実施形態では、量子化されたオフセットは指数ゴロムコーディングによってコーディングされうる。1つまたは複数の実施形態では、量子化されたオフセットは、単項コーディングによってコーディングされうる。1つまたは複数の例では、量子化されたオフセットは、固定長コーディングによってコーディングされうる。ビット長は、すべてのパッチに対してハイレベル構文テーブルにおいてコーディングされてもよいし、各パッチに対して異なるようにコーディングされてもよい。
1つまたは複数の実施形態では、量子化されたオフセットは、固定長コーディングによってコーディングされうる。ビット長は、以下のようにサンプリングレートSおよび量子化ステップサイズQから導出されうる。
1つまたは複数の例では、量子化されたオフセットは、表3に示されるような構文要素によってコーディングされうる。
1つまたは複数の例では、変数quantized_offset_signは、量子化されたオフセットの符号ビットを指定しうる。1つまたは複数の例では、quantized_offset_absは、量子化されたオフセットの絶対値を指定する。
1つまたは複数の実施形態によれば、量子化されたオフセットは、固定長コーディングによってコーディングされうる。ビット長は、以下のようにサンプリングレートSおよび量子化ステップサイズQから導出されうる。
1つまたは複数の例では、量子化されたオフセットは、以下の表4に示されるような構文要素によってコーディングされうる。
表3と表4との違いは、UVオフセットがコーディングされるか否かを指示するためにフラグ(uv_offset_flag)が導入されることである。UVオフセットがコーディングされない場合、UVオフセットはデコーダ側でゼロとして推測されうる。1つまたは複数の実施形態では、このフラグは、シーケンスヘッダ、フレームヘッダ、スライスヘッダなどといったハイレベル構文でシグナリングされうる。
1つまたは複数の実施形態によれば、デコーダ側では、量子化されたUVオフセットは、上記の構文要素から導出されうる。例えば、U座標は、以下のステップによって復元されうる。
if(uv_offset_flag==0){

}else{

図9は、デコーダ351などのビデオデコーダで行われる例示的なプロセス900のフローチャートを示している。プロセスは、圧縮された2Dメッシュを含むコーディングされたビデオビットストリームが受信される動作S902から開始しうる。圧縮された2Dメッシュは、サンプリングされたUV平面800(図8)の圧縮に対応しうる。
プロセスは動作S904に進み、そこで、圧縮されたメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標が予測される。例えば、サンプル2D座標は、上記の式(9)~式(12)のいずれか1つに従って予測されてもよい。
プロセスは動作S906に進み、そこで、サンプリングされた2D座標と関連付けられた予測残差が導出される。例えば、予測残差は、式(3)~式(6)のいずれか1つに従って、または表1もしくは表2のいずれか1つに指定された構文要素に従って導出されてもよい。
プロセスは動作S908に進み、そこで、予測されたサンプリングされた2D座標および導出された予測残差に基づいて2D座標が再構成される。例えば、図8を参照すると、図9のプロセスは、サンプリングされた2D座標V1’(u1’,v1’)を予測し、対応するオフセットを導出して、デコーダ側で元の2D座標V1を再構成しうる。
上述された技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶されてもよい。例えば、図10は、本開示の特定の実施形態を実装するのに適したコンピュータシステム1000を示している。
コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)などによって直接、または解釈、マイクロコード実行などを介して実行されうる命令を含むコードを作成するためにアセンブリ、コンパイル、リンクなどのメカニズムを施されうる、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされうる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行されうる。
コンピュータシステム1000について図10に示される構成要素は、例であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図されていない。構成要素の構成は、コンピュータシステム1000の非限定的な実施形態に例示される構成要素のいずれか1つまたは組み合わせに関連するいかなる依存性も要件も有すると解釈されるべきではない。
コンピュータシステム1000は、特定のヒューマンインターフェース入力デバイスを含んでもよい。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を介した、1人または複数の人間ユーザによる入力に応答してもよい。ヒューマンインターフェースデバイスはまた、オーディオ(音声、音楽、環境音など)、画像(スキャンされた画像、静止画像カメラから取得された写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)といった、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むためにも使用されてもよい。
入力ヒューマンインターフェースデバイスは、キーボード1001、マウス1002、トラックパッド1003、タッチスクリーン1010、データグローブ、ジョイスティック1005、マイクロフォン1006、スキャナ1007、カメラ1008のうちの1つまたは複数(各々の1つのみを図示)を含んでもよい。
コンピュータシステム1000はまた、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い/味によって1人または複数の人間ユーザの感覚を刺激してもよい。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン1010、データグローブ、またはジョイスティック1005による触覚フィードバック、ただし、入力デバイスとして機能しない触覚フィードバックデバイスがあってもよい)を含んでもよい。例えば、そのようなデバイスは、オーディオ出力デバイス(スピーカ1009、ヘッドホン(図示せず)など)、視覚出力デバイス(各々タッチスクリーン入力能力を有するかまたは有さず、各々触覚フィードバック能力を有するかまたは有さず、その一部は2次元視覚出力または立体出力などの手段による3次元を超える出力を出力することが可能でありうる、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1010、仮想現実メガネ(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)など)、ならびにプリンタ(図示せず)であってもよい。
コンピュータシステム1000はまた、CD/DVDまたは同様の媒体1021を有するCD/DVD ROM/RW1020を含む光媒体、サムドライブ1022、リムーバブルハードドライブまたはソリッドステートドライブ1023、テープやフロッピーディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用のROM/ASIC/PLDベースのデバイスなどといった人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含んでもよい。
当業者はまた、本開示の主題と関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことも理解するはずである。
コンピュータシステム1000はまた、1つまたは複数の通信ネットワークへのインターフェースを含んでもよい。ネットワークは、無線、有線、光であってもよい。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用および産業用、リアルタイム、遅延耐性などであってもよい。ネットワークの例は、イーサネットなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星テレビおよび地上波テレビ放送を含むテレビの有線または無線広域デジタルネットワーク、CANBusを含む車両用および産業用などを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス1049(例えば、コンピュータシステム1000のUSBポートなど)に接続された外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下で説明されるように、システムバスへの接続によってコンピュータシステム1000のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースや、スマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム1000は他のエンティティと通信しうる。そのような通信は、単方向受信のみ(例えば、テレビ放送)であっても、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)であっても、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの双方向であってもよい。そのような通信は、クラウドコンピューティング環境1055への通信を含んでもよい。特定のプロトコルおよびプロトコルスタックが、上述されたようなネットワークおよびネットワークインターフェースの各々で使用されてもよい。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェース1054は、コンピュータシステム1000のコア1040に取り付けられてもよい。
コア1040は、1つまたは複数の中央処理装置(CPU)1041、グラフィックスプロセッシングユニット(GPU)1042、フィールドプログラマブルゲートエリア(FPGA)1043の形式の専用プログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ1044などを含んでもよい。これらのデバイスは、読み出し専用メモリ(ROM)1045、ランダムアクセスメモリ1046、内部のユーザがアクセスできないハードドライブ、SSDなどの内部大容量ストレージ1047と共に、システムバス1048を介して接続されうる。いくつかのコンピュータシステムでは、システムバス1048は、追加のCPU、GPUなどによる拡張を可能にするために1つまたは複数の物理プラグの形式でアクセス可能であってもよい。周辺デバイスは、コアのシステムバス1048に直接取り付けられても、周辺バス1049を介して取り付けられてもよい。周辺バスのアーキテクチャは、PCI、USBなどを含む。グラフィックスアダプタ1050がコア1040に含まれてもよい。
CPU1041、GPU1042、FPGA1043、およびアクセラレータ1044は、組み合わさって、前述のコンピュータコードを構成しうる特定の命令を実行してもよい。そのコンピュータコードは、ROM1045またはRAM1046に記憶されてもよい。RAM1046には暫定的なデータも記憶されうるが、永続データは、例えば、内部大容量ストレージ1047に記憶されうる。メモリデバイスのいずれかへの高速記憶および取り出しは、1つまたは複数のCPU1041、GPU1042、大容量ストレージ1047、ROM1045、RAM1046などと密接に関連付けられうるキャッシュメモリの使用によって可能とされてもよい。
コンピュータ可読媒体は、様々なコンピュータ実装動作を行うためのコンピュータコードを有しうる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよいし、コンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。
限定ではなく例として、アーキテクチャを有するコンピュータシステム1000、具体的にはコア1040は、(CPU、GPU、FPGA、アクセラレータなどを含む)(1つまたは複数の)プロセッサが、1つまたは複数の有形のコンピュータ可読媒体において具体化されたソフトウェアを実行した結果として機能を提供してもよい。そのようなコンピュータ可読媒体は、上記で紹介されたようなユーザアクセス可能な大容量ストレージ、ならびにコア内部の大容量ストレージ1047やROM1045などの非一時的な性質のものであるコア1040の特定のストレージと関連付けられた媒体であってもよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア1040によって実行されてもよい。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含んでもよい。ソフトウェアは、コア1040、具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM1046に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書で説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させうる。加えて、または代替として、コンピュータシステムは、ソフトウェアの代わりに、またはソフトウェアと共に本明細書で説明された特定のプロセスまたは特定のプロセスの特定の部分を実行するように動作しうる回路(例えば、アクセラレータ1044)に配線されるかまたは他の方法で具体化されたロジックの結果として機能を提供してもよい。ソフトウェアへの言及は、必要に応じて、ロジックを包含する場合もあり、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のためのロジックを具体化する回路、またはその両方を包含する場合もある。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
本開示はいくつかの非限定的な実施形態を説明しているが、変更形態、置換形態、および様々な代替の均等物が存在し、それらは本開示の範囲内に入る。よって、当業者は、本明細書に明示的に図示または記載されていないが、本開示の原理を具体化する、よって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
上記の開示は、以下に列挙される実施形態も包含する。
(1)デコーダ内の少なくとも1つのプロセッサによって行われる方法であって、方法は、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信するステップと、圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測するステップと、サンプリングされた2D座標と関連付けられた予測残差を導出するステップと、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成するステップと、を含む、方法。
(2)少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、特徴(1)に記載の方法。
(3)予測残差は固定長コーディングによってコーディングされる、特徴(1)または(2)に記載の方法。
(4)予測残差は指数ゴロムコーディングによってコーディングされる、特徴(1)または(2)に記載の方法。
(5)予測残差は単項コーディングによってコーディングされる、特徴(1)または(2)に記載の方法。
(6)予測残差は、予測残差の大きさおよび符号を指定するコーディングされたビデオビットストリームに含まれる1つまたは複数の構文要素によってコーディングされる、特徴(1)~(5)のいずれか1つに記載の方法。
(7)予測残差は量子化プロセスに従ってコーディングされる、特徴(1)~(6)のいずれか1つに記載の方法。
(8)量子化ステップサイズは、コーディングされたビデオビットストリームに含まれる構文要素に含まれる、特徴(7)に記載の方法。
(9)コーディングされたビデオビットストリームは、量子化されたオフセットの符号および量子化されたオフセットの大きさを指定する1つまたは複数の構文要素を含む、特徴(7)または(8)に記載の方法。
(10)プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、プログラムコードが、少なくとも1つのプロセッサに、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信させるように構成された受信コードと、少なくとも1つのプロセッサに、圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測させるように構成された予測コードと、少なくとも1つのプロセッサに、サンプリングされた2D座標と関連付けられた予測残差を導出させるように構成された導出コードと、少なくとも1つのプロセッサに、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成させるように構成された再構成コードと、を含む、少なくとも1つのプロセッサと、を含むデコーダ。
(11)少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、特徴(10)に記載のデコーダ。
(12)予測残差は固定長コーディングによってコーディングされる、特徴(10)または(11)に記載のデコーダ。
(13)予測残差は指数ゴロムコーディングによってコーディングされる、特徴(10)または(11)に記載のデコーダ。
(14)予測残差は単項コーディングによってコーディングされる、特徴(10)または(11)に記載のデコーダ。
(15)予測残差は、予測残差の大きさおよび符号を指定するコーディングされたビデオビットストリームに含まれる1つまたは複数の構文要素によってコーディングされる、特徴(10)~(14)のいずれか1つに記載のデコーダ。
(16)予測残差は量子化プロセスに従ってコーディングされる、特徴(10)~(15)のいずれか1つに記載のデコーダ。
(17)量子化ステップサイズは、コーディングされたビデオビットストリームに含まれる構文要素に含まれる、特徴(16)に記載のデコーダ。
(18)コーディングされたビデオビットストリームは、量子化されたオフセットの符号および量子化されたオフセットの大きさを指定する1つまたは複数の構文要素を含む、特徴(16)または(17)に記載のデコーダ。
(19)デコーダ内の少なくとも1つのプロセッサによって実行されると、デコーダに、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信することと、圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測することと、サンプリングされた2D座標と関連付けられた予測残差を導出することと、予測されたサンプリングされた2D座標および導出された予測残差に基づいて境界頂点に対応する2D座標を再構成することと、を実行させる命令を記憶している非一時的コンピュータ可読媒体。
(20)少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、特徴(19)に記載の非一時的コンピュータ可読媒体。
100 通信システム
110 端末
120 端末
130 端末
140 端末
150 ネットワーク
200 ストリーミングシステム
201 ビデオソース
202 ストリーム
203 エンコーダ
204 エンコードされたビデオビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
209 ビデオビットストリーム
210 ビデオデコーダ
211 出力ビデオサンプルストリーム
212 ディスプレイ
213 キャプチャサブシステム
300 動的メッシュ圧縮およびメッシュ再構成のためのフレームワーク
301 エンコーダ
305 入力メッシュ
310 UVアトラスを伴うメッシュ
315 占有マップ
320 ジオメトリマップ
325 属性マップ
330 メタデータ
335 デコードされた占有マップ
340 デコードされたジオメトリマップ
345 デコードされた属性マップ
350 デコードされたメタデータ
351 デコーダ
360 再構成されたメッシュ
400 メッシュセグメント
402 2Dチャート
404 2Dチャート
500 3Dメッシュセグメント
502A 2Dチャート
502B 2Dチャート
600 2D UVアトラス
800 UV平面
900 ビデオデコーダで行われるプロセス
1000 コンピュータシステム
1001 キーボード
1002 マウス
1003 トラックパッド
1005 ジョイスティック
1006 マイクロフォン
1007 スキャナ
1008 カメラ
1009 スピーカ
1010 タッチスクリーン
1020 CD/DVD ROM/RW
1021 CD/DVDまたは同様の媒体
1022 サムドライブ
1023 リムーバブルハードドライブまたはソリッドステートドライブ
1040 コンピュータシステムのコア
1041 中央処理装置(CPU)
1042 グラフィックスプロセッシングユニット(GPU)
1043 フィールドプログラマブルゲートエリア(FPGA)
1044 ハードウェアアクセラレータ
1045 読み出し専用メモリ(ROM)
1046 ランダムアクセスメモリ(RAM)
1047 内部大容量ストレージ
1048 システムバス
1049 周辺バス
1050 グラフィックスアダプタ
1054 ネットワークインターフェース
1055 クラウドコンピューティング環境

Claims (20)

  1. デコーダ内の少なくとも1つのプロセッサによって行われる方法であって、前記方法は、
    3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信するステップと、
    前記圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測するステップと、
    前記サンプリングされた2D座標と関連付けられた予測残差を導出するステップと、
    前記予測されたサンプリングされた2D座標および前記導出された予測残差に基づいて境界頂点に対応する2D座標を再構成するステップとを含む、方法。
  2. 前記少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、請求項1に記載の方法。
  3. 前記予測残差は固定長コーディングによってコーディングされる、請求項1に記載の方法。
  4. 前記予測残差は指数ゴロムコーディングによってコーディングされる、請求項1に記載の方法。
  5. 前記予測残差は単項コーディングによってコーディングされる、請求項1に記載の方法。
  6. 前記予測残差は、前記予測残差の大きさおよび符号を指定する前記コーディングされたビデオビットストリームに含まれる1つまたは複数の構文要素によってコーディングされる、請求項1に記載の方法。
  7. 前記予測残差は量子化プロセスに従ってコーディングされる、請求項1に記載の方法。
  8. 量子化ステップサイズは、前記コーディングされたビデオビットストリームに含まれる構文要素に含まれる、請求項7に記載の方法。
  9. 前記コーディングされたビデオビットストリームは、量子化されたオフセットの符号および前記量子化されたオフセットの大きさを指定する1つまたは複数の構文要素を含む、請求項7に記載の方法。
  10. プログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記プログラムコードを読み出し、前記プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、前記プログラムコードは、
    前記少なくとも1つのプロセッサに、3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信させるように構成された受信コードと、
    前記少なくとも1つのプロセッサに、前記圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測させるように構成された予測コードと、
    前記少なくとも1つのプロセッサに、前記サンプリングされた2D座標と関連付けられた予測残差を導出させるように構成された導出コードと、
    前記少なくとも1つのプロセッサに、前記予測されたサンプリングされた2D座標および前記導出された予測残差に基づいて境界頂点に対応する2D座標を再構成させるように構成された再構成コードとを含む、少なくとも1つのプロセッサと
    を含む、デコーダ。
  11. 前記少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、請求項10に記載のデコーダ。
  12. 前記予測残差は固定長コーディングによってコーディングされる、請求項10に記載のデコーダ。
  13. 前記予測残差は指数ゴロムコーディングによってコーディングされる、請求項10に記載のデコーダ。
  14. 前記予測残差は単項コーディングによってコーディングされる、請求項10に記載のデコーダ。
  15. 前記予測残差は、前記予測残差の大きさおよび符号を指定する前記コーディングされたビデオビットストリームに含まれる1つまたは複数の構文要素によってコーディングされる、請求項10に記載のデコーダ。
  16. 前記予測残差は量子化プロセスに従ってコーディングされる、請求項10に記載のデコーダ。
  17. 量子化ステップサイズは、前記コーディングされたビデオビットストリームに含まれる構文要素に含まれる、請求項16に記載のデコーダ。
  18. 前記コーディングされたビデオビットストリームは、量子化されたオフセットの符号および前記量子化されたオフセットの大きさを指定する1つまたは複数の構文要素を含む、請求項16に記載のデコーダ。
  19. デコーダ内の少なくとも1つのプロセッサによって実行されると、前記デコーダに、
    3次元(3D)ボリュームオブジェクトの表面に対応する圧縮された2次元(2D)メッシュを含むコーディングされたビデオビットストリームを受信することと、
    前記圧縮された2Dメッシュに含まれる少なくとも1つの以前にコーディングされたサンプリングされた2D座標から、サンプリングされた2D座標を予測することと、
    前記サンプリングされた2D座標と関連付けられた予測残差を導出することと、
    前記予測されたサンプリングされた2D座標および前記導出された予測残差に基づいて境界頂点に対応する2D座標を再構成することとを実行させる命令を記憶している、非一時的コンピュータ可読媒体。
  20. 前記少なくとも1つの以前にコーディングされたサンプリングされた2D座標は、第1の以前にコーディングされたサンプリングされた2D座標および第2の以前にコーディングされたサンプリングされた2D座標を含む、請求項19に記載の非一時的コンピュータ可読媒体。
JP2023565405A 2022-03-25 2023-03-17 メッシュ圧縮のための境界uv情報の予測コーディング Pending JP2024518765A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202263323880P 2022-03-25 2022-03-25
US63/323,880 2022-03-25
US18/122,393 2023-03-16
US18/122,393 US20230308669A1 (en) 2022-03-25 2023-03-16 Predictive coding of boundary uv information for mesh compression
PCT/US2023/015448 WO2023183189A1 (en) 2022-03-25 2023-03-17 Predictive coding of boundary uv information for mesh compression

Publications (1)

Publication Number Publication Date
JP2024518765A true JP2024518765A (ja) 2024-05-02

Family

ID=88096806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023565405A Pending JP2024518765A (ja) 2022-03-25 2023-03-17 メッシュ圧縮のための境界uv情報の予測コーディング

Country Status (5)

Country Link
US (1) US20230308669A1 (ja)
JP (1) JP2024518765A (ja)
KR (1) KR20230169289A (ja)
CN (1) CN117203673A (ja)
WO (1) WO2023183189A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012017138A2 (pt) * 2010-01-25 2018-06-19 Thomson Licensing método para codificação de vetores normais de um modelo 3d, método para decodificação de vetores normais de um modelo de malha 3d, codificador e decodificador.
EP2833326B1 (en) * 2013-07-30 2016-04-06 Dassault Systèmes Lossless compression of a 3D mesh including transforming of the mesh to a image
US11798196B2 (en) * 2020-01-08 2023-10-24 Apple Inc. Video-based point cloud compression with predicted patches

Also Published As

Publication number Publication date
KR20230169289A (ko) 2023-12-15
US20230308669A1 (en) 2023-09-28
CN117203673A (zh) 2023-12-08
WO2023183189A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
JP2024515737A (ja) 動的メッシュアライメントへの並列アプローチ
JP2024518765A (ja) メッシュ圧縮のための境界uv情報の予測コーディング
US20230334714A1 (en) Coding of boundary uv2xyz index for mesh compression
US20230306649A1 (en) Predictive coding of boundary uv2xyz index for mesh compression
JP7508709B2 (ja) 動的メッシュ圧縮のための2d uvアトラスサンプリングベースの方法、装置及びプログラム
US20230334713A1 (en) On coding of boundary uv2xyz index for mesh compression
US20240007670A1 (en) Dynamic mesh vertex displacements coding
US20240078713A1 (en) Texture coordinate prediction in mesh compression
US20240185471A1 (en) Texture coordinate compression using chart partition
US20230319293A1 (en) Triangulation methods with boundary information for dynamic mesh compression
US20230306647A1 (en) Geometry filtering for mesh compression
US20240135594A1 (en) Adaptive geometry filtering for mesh compression
US20230334712A1 (en) Chart based mesh compression
KR20240110024A (ko) 차트 파티션을 사용한 텍스처 좌표 압축
KR20240089239A (ko) 메시 압축에서의 텍스처 좌표 예측
JP2024514979A (ja) 時間的に相関するuvアトラスを生成するための方法、デバイスおよびコンピュータプログラム
KR20240066268A (ko) 일반적인 토폴로지의 차트를 사용한 atlas 샘플링 기반 메시 압축
KR20240090790A (ko) 메시 압축을 위한 적응형 지오메트리 필터링
JP2023533423A (ja) ビデオベースの点群コーディングのための非バイナリ占有マップ
KR20230052944A (ko) 동적 메시 압축을 위한 2d uv 아틀라스 샘플링 기반 방법
KR20240067924A (ko) 대칭 메시의 uv 속성 코딩 방법 및 장치
CN116250009A (zh) 基于视频的点云译码的快速块生成

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231024