JP7118278B2 - 符号化された点群データの分割 - Google Patents

符号化された点群データの分割 Download PDF

Info

Publication number
JP7118278B2
JP7118278B2 JP2021534783A JP2021534783A JP7118278B2 JP 7118278 B2 JP7118278 B2 JP 7118278B2 JP 2021534783 A JP2021534783 A JP 2021534783A JP 2021534783 A JP2021534783 A JP 2021534783A JP 7118278 B2 JP7118278 B2 JP 7118278B2
Authority
JP
Japan
Prior art keywords
frame
picture
sub
subframes
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534783A
Other languages
English (en)
Other versions
JP2022512509A (ja
Inventor
ビョンドゥ・チェ
アーラシュ・ヴォソウギ
セフン・ヤ
シャン・リュウ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022512509A publication Critical patent/JP2022512509A/ja
Application granted granted Critical
Publication of JP7118278B2 publication Critical patent/JP7118278B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本出願は、2019年3月15日に出願された米国仮出願第62/819,504号及び2020年3月10日に出願された米国出願第16/814,350号の優先権を主張し、両者の全ての開示内容は、参照により本明細書に組み込まれるものとする。
本開示は、一連の高度なビデオ符号化技術、より具体的には、ビデオベースの点群圧縮に関する。
世界の高度な3次元(3D)表現により、より没入型の対話とコミュニケーションが可能になる。また、マシンが我々の世界を理解し、解釈し、ナビゲートすることが可能になる。点群は、世界の3D表現として広く使用されている。点群データに関連するいくつかの使用例が特定されており、点群の表現と圧縮に対応するいくつかの要件が開発されている。
本開示のいくつかの実施形態は、符号化された点群ビットストリームにおける分割情報のシグナリングのための技術を提供する。本開示のV-PCC(video-based point cloud compression)スキームは、点群圧縮のために一般的なビデオコーデックを利用することができる。本開示のいくつかの実施形態は、部分的な符号化、配信、及び符号化された点群ビットストリームの復号を可能にする機能を提供する。
いくつかの実施形態では、少なくとも1つのプロセッサを用いてビデオストリームを復号する方法を提供する。前記方法は、前記ビデオストリームを受信するステップを含み、前記ビデオストリームは、複数の2次元(2D)ピクチャのフレームであって、前記複数の2次元(2D)ピクチャが前記フレームの複数の層であり、前記複数の2Dピクチャの各々が同じ3次元(3D)表現のそれぞれの属性を有するものである、フレームと、前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の2Dピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームの1つのサブフレームに対応する3D位置を特定する3Dバウンディングボックス情報とを含む。前記方法は、前記フレーム分割情報を使用して前記サブフレームを識別するステップと、識別された前記サブフレームを復号するステップと、をさらに含む。
一実施形態では、受信された前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも1つを特定する2Dバウンディングボックス情報を含む。
一実施形態では、前記3Dバウンディングボックス情報は、前記2Dバウンディングボックス情報で特定された2Dバウンディングボックスの3D位置を特定して、前記方法は、識別された前記サブフレームを復号した後に、前記3Dバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む。
一実施形態では、前記複数の2Dピクチャは、第1のピクチャ、第2のピクチャ及び第3のピクチャを含み、前記第1のピクチャがテクスチャ画像であり、前記第2のピクチャが幾何学的な画像であり、前記第3のピクチャが占有マップである。
一実施形態では、前記方法は、識別された前記サブフレームを復号した後に、前記3Dバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む。
一実施形態では、前記方法は、前記サブフレームが個別に符号化されているか否かを判定するステップをさらに含み、前記サブフレームが個別に符号化されていると判定された場合に、前記サブフレームを復号する前記ステップでは、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号する。
一実施形態では、受信された前記ビデオストリームは、前記フレーム分割情報及び前記3Dバウンディングボックス情報を含むフレームパラメータセットを含む。
一実施形態では、前記ビデオストリームは、複数の2Dピクチャの追加フレームであって、前記複数の2Dピクチャが前記追加フレームの複数の層であり、前記追加フレームの前記複数の2Dピクチャの各々が同じ追加の3D表現のそれぞれの属性を有する、追加フレームをさらに含み、前記方法は、前記フレームの前記サブフレームを識別するための前記フレーム分割情報を使用して、前記追加フレームのサブフレームを識別するステップと、識別された前記追加フレームの前記サブフレームを復号するステップと、をさらに含む。
いくつかの実施形態では、ビデオストリームを復号するシステムを提供する。前記システムは、コンピュータプログラムコードを記憶するメモリと、前記ビデオストリームを受信し、前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの命令通りに動作する少なくとも1つのプロセッサと、を備え、前記ビデオストリームは、複数の2次元(2D)ピクチャのフレームであって、前記複数の2次元(2D)ピクチャが前記フレームの複数の層であり、前記複数の2Dピクチャの各々が同じ3次元(3D)表現のそれぞれの属性を有するものである、フレームと、前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の2Dピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームの1つのサブフレームに対応する3D位置を特定する3Dバウンディングボックス情報とを含み、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、前記フレーム分割情報を使用して前記サブフレームを識別させる識別コードと、前記少なくとも1つのプロセッサに、識別された前記サブフレームを復号させる復号コードとを含む。
一実施形態では、前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも1つを特定する2Dバウンディングボックス情報を含む。
一実施形態では、前記3Dバウンディングボックス情報は、前記2Dバウンディングボックス情報で特定された2Dバウンディングボックスの3D位置を特定するものであり、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、前記3Dバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得させるように構成される取得コードをさらに含む。
一実施形態では、前記複数の2Dピクチャは、第1のピクチャ、第2のピクチャ及び第3のピクチャを含み、前記第1のピクチャがテクスチャ画像であり、前記第2のピクチャが幾何学的な画像であり、前記第3のピクチャが占有マップである。
一実施形態では、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、識別された前記サブフレームを復号した後、前記3Dバウンディングボックス情報を使用して前記ビデオストリームから点群を取得させる取得コードをさらに含む。
一実施形態では、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、前記サブフレームが個別に符号化されているか否かを判定させる判定コードをさらに含み、前記サブフレームが個別に符号化されていると判定された場合に、前記復号コードは、前記少なくとも1つのプロセッサに、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号させる。
一実施形態では、前記ビデオストリームは、前記フレーム分割情報及び前記3Dバウンディングボックス情報を含むフレームパラメータセットを含む。
いくつかの実施形態では、コンピュータ命令を記憶する非一時的なコンピュータ読取可能な媒体を提供する。前記コンピュータ命令は、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、フレーム分割情報を使用して、前記少なくとも1つのプロセッサによって受信されたビデオストリームからサブフレームを識別させ、識別された前記サブフレームを復号させ、そして、識別された前記サブフレームを復号した後、3Dバウンディングボックス情報を使用して前記ビデオストリームから点群を取得させ、前記ビデオストリームは、複数の2次元(2D)ピクチャのフレームであって、前記複数の2次元(2D)ピクチャが前記フレームの複数の層であり、前記複数の2Dピクチャの各々が同じ3次元(3D)表現のそれぞれの属性を有するものである、フレームと、前記フレームが前記サブフレームを含む複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の2Dピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、前記複数のサブフレームのうちの前記サブフレームに対応する3D位置を特定する3Dバウンディングボックス情報とを含む。
開示された主題のさらなる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
一実施形態による通信システムの簡略化されたブロック図の概略図である。 一実施形態によるストリーミングシステムの簡略化されたブロック図の概略図である。 一実施形態によるビデオエンコーダの簡略化されたブロック図の概略図である。 一実施形態によるビデオデコーダの簡略化されたブロック図の概略図である。 一実施形態による幾何学的な画像の例を示す。 一実施形態によるテクスチャ画像の例を示す。 一実施形態による、3D点群フレーム及び該3D点群フレームに対応するフレームを示す図である。 一実施形態によるフレームの構成要素を示す図である。 一実施形態によって実行されるプロセスを示す流れ図である。 一実施形態によるデバイスを示す図である。 実施形態を実施することに適するコンピュータシステムの図である。
点群は、各々が関連付けられた属性、例えば、色、材料特性などを有する3D空間内の点のセットである。複数の点群は、そのような点の合成としてオブジェクト又はシーンを再構築するために使用することができる。それらは、様々なセットアップで複数のカメラと深度センサを使用して取り込むことができ、再構築されたシーンをリアルに表現するために、数千から数十億の点で構成されてもよい。
点群を表現することに必要なデータの量を低減するために、圧縮技術が必要になる。そのため、リアルタイム通信及び6DoF(Degrees of Freedom)仮想現実に使用される点群の非可逆圧縮の技術が必要になる場合がある。また、自動運転及び文化遺産の用途などのための動的マッピングにおいて、可逆点群圧縮の技術的機器が求められている。MPEGは、色及び反射率などの幾何学的形状と属性の圧縮、スケーラブル・プログレッシブ符号化、経時的に取り込まれた点群のシーケンスの符号化、及び点群のサブセットへのランダムアクセスに対処するための標準に取り組み始めている。
V-PCC(video-based point cloud compression)に係る主な原理は、既存のビデオコーデックを利用して、動的点群の幾何学的形状、占有率及びテクスチャを3つの別個のビデオシーケンスとして圧縮することである。3つのビデオシーケンスを解釈することに必要な追加のメタデータは、別々に圧縮されてもよい。ビットストリーム全体のごく一部は、ソフトウェア実装を使用して効率的に符号化/復号できるメタデータである。情報の大部分は、ビデオコーデックによって処理することができる。
図1~4を参照すると、本開示の符号化/復号構造を実施するための本開示の実施形態が記載されている。本開示の符号化/復号構造は、上記V-PCCの態様を実施してもよい。
図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を示す。システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含んでもよい。データの単方向送信の場合、第1の端末110は、ネットワーク150を介して他方の端末120に送信するために、ローカル位置でビデオデータを符号化することができる。第2の端末120は、ネットワーク150から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータを表示することができる。単方向データ送信は、媒体供給用途などで一般的である可能性がある。
図1は、例えばビデオ会議中に発生する符号化されたビデオの双方向送信をサポートするために設けられる第2の対の端末130、140を示す。データの双方向送信の場合、各端末130、140は、ネットワーク150を介して他の端末に送信するために、ローカル位置で取り込まれたビデオデータを符号化することができる。各端末130、140は、さらに、他の端末によって送信された符号化されたビデオデータを受信し、符号化されたデータを復号し、復元されたビデオデータをローカル表示デバイスに表示することができる。
図1において、上記の端末110~140は、例えば、サーバ、パーソナルコンピュータ、及びスマートフォン、及び/又はいずれかのタイプの端末であってもよい。例えば、端末110~140は、ラップトップコンピュータ、タブレットコンピュータ、媒体プレーヤー、及び/又は専用のビデオ会議機器であってもよい。ネットワーク150は、例えば有線及び/又は無線通信ネットワークを含む、端末110~140の間で符号化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク150は、回線交換及び/又はパケット交換チャネルにおいてデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又はインターネットを含む。本議論の目的のために、ネットワーク150のアーキテクチャ及びトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない可能性がある。
図2は、開示された主題の用途の例として、ストリーミング環境におけるビデオエンコーダ及びデコーダの配置を示す。開示された主題は、例えばビデオ会議、デジタルTV、及びCD、DVD、及びメモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶を含む、他のビデオ利用可能な用途と共に使用することができる。
図2に示されるように、ストリーミングシステム200は、ビデオソース201及びエンコーダ203を有するサブシステム213を含んでもよい。ストリーミングシステム200は、少なくとも1つのストリーミングサーバ205及び/又は少なくとも1つのストリーミングクライアント206をさらに含んでもよい。
ビデオソース201は、例えば、3Dビデオに対応する3D点群を含むストリーム202を作成することができる。ビデオソース201は、例えば、3Dセンサ(例えば、深度センサ)又は3Dイメージングの技術的機器(例えば、デジタルカメラ)と、3Dセンサ又は3Dイメージングの技術的機器から受信されたデータを使用して3D点群を生成するように構成されたコンピューティングデバイスとを含んでもよい。符号化されたビデオビットストリームと比較すると、大きいデータ量を有する可能性があるサンプルストリーム202は、ビデオソース201に結合されたエンコーダ203によって処理されることができる。エンコーダ203は、以下でより詳細に説明されるように、開示された主題の態様を可能にするか又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。エンコーダ203は、さらに、符号化されたビデオビットストリーム204を生成することができる。非圧縮ストリーム202と比較すると、小さいデータ量を有する可能性がある符号化されたビデオビットストリーム204は、将来の使用のためにストリーミングサーバ205に記憶することができる。1つ以上のストリーミングクライアント206は、ストリーミングサーバ205にアクセスして、符号化されたビデオビットストリーム204のコピーであるビデオビットストリーム209を検索することができる。
ストリーミングクライアント206は、ビデオデコーダ210及び表示装置212を含むことができる。ビデオデコーダ210は、例えば、符号化されたビデオビットストリーム204の着信コピーであるビデオビットストリーム209を復号し、表示装置212又は別のレンダリングデバイス(図示せず)上でレンダリングすることができる発信ビデオサンプルストリーム211を作成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム204、209は、特定のビデオ符号化/圧縮標準に従って符号化することができる。このような標準の例は、ITU-T勧告H.265、VVC(Versatile Video Coding)、及びMPEG/V-PCCを含むが、これらに限定されない。
図3~4を参照すると、以下には、本開示の実施形態によって実行できるV-PCCのいくつかの態様が記載されている。
図3は、本開示の実施形態によるビデオエンコーダ203の例示的な機能ブロック図を示す。
図3に示されるように、ビデオエンコーダ203は、点群フレーム350を受信し、点群フレーム350に基づいて、幾何学的な画像352、テクスチャ画像356及び占有マップ334を生成することができる。ビデオエンコーダ203は、幾何学的な画像352を圧縮された幾何学的な画像362に、テクスチャ画像356を圧縮されたテクスチャ画像364に、占有マップ334を圧縮された占有マップ372に圧縮することができる。ビデオエンコーダ203のマルチプレクサ328は、圧縮された幾何学的な画像362、圧縮されたテクスチャ画像364及び圧縮された占有マップ372を含む圧縮されたビットストリーム374を形成することができる。
より具体的には、実施形態では、ビデオエンコーダ203は、点群フレーム350をパッチにセグメント化するパッチ生成モジュール302を含んでもよい。パッチは、V-PCCの有用なエンティティである。パッチ生成プロセスは、再構築エラーを最小限に抑えながら、点群フレーム350を、滑らかな境界を有する最小数のパッチに分解することを含む。本開示のエンコーダは、そのような分解を生成するための様々な方法を実施することができる。
ビデオエンコーダ203は、パッキングプロセスを実行するパッチパッキングモジュール304を含んでもよい。パッキングプロセスは、未使用の空間を最小限に抑えながら、抽出されたパッチを2Dグリッドにマッピングし、グリッドのすべてのM×M(例えば、16×16)ブロックが一意のパッチに関連付けられることを確保することを含む。効率的なパッチパッキングは、未使用の空間を最小限に抑えるか又は時間的整合性を保証することにより、直接的に圧縮効率に影響を与える。パッチパッキングモジュール304は、占有マップ334を生成することができる。
ビデオエンコーダ203は、幾何学的な画像生成モジュール306及びテクスチャ画像生成モジュール308を含んでもよい。複数の点が同じサンプルに投影されることをより良く取り扱うために、各パッチは、2つの画像(層と呼ばれる)に投影されてもよい。例えば、幾何学的な画像生成モジュール306及びテクスチャ画像生成モジュール308は、パッチパッキングモジュール304のパッキングプロセス中に計算された3Dから2Dへのマッピングを利用して、点群の幾何学的形状及びテクスチャを画像(層ともいう)として記憶することができる。生成された複数の画像や層は、ビデオフレームとして記憶され、パラメータとして提供される構成に従って、ビデオコーデック(例えば、HMビデオコーデック)を使用して圧縮されてもよい。
実施形態では、入力された点群フレーム350及び占有マップ334に基づいて、幾何学的な画像生成モジュール306は、幾何学的な画像352を生成し、テクスチャ画像生成モジュール308は、テクスチャ画像356を生成する。幾何学的な画像352の例が図5に示され、テクスチャ画像356の例が図6に示される。一実施形態では、幾何学的な画像352は、YUV420-8ビットフォーマットのWxHの単色フレームによって表現されてもよい。一実施形態では、占有マップ334の画像は、グリッドの各セルが空き空間に属するか又は点群に属するかを示すバイナリマップからなる。テクスチャ画像356を生成するために、テクスチャ画像生成モジュール308は、再構築/平滑化された幾何学的形状358を利用して、再サンプリングされた点に関連付けられる色を計算することができる。
ビデオエンコーダ203は、それぞれ幾何学的な画像352及びテクスチャ画像356をパディングして、パディングされた幾何学的な画像354及びパディングされたテクスチャ画像360を形成するための画像パディングモジュール314及び画像パディングモジュール316を含んでもよい。画像のパディング(背景充填ともいう)は、画像の未使用の空間を冗長な情報で充填するだけである。優れた背景充填は、パッチ境界の周囲に大きな符号化歪みを導入せずにビットレートの増加を最小限に抑えることである。画像パディングモジュール314及び画像パディングモジュール316は、占有マップ334を使用して、それぞれパディングされた幾何学的な画像354及びパディングされたテクスチャ画像360を形成することができる。一実施形態では、ビデオエンコーダ203は、パディングされたテクスチャ画像360を形成するためのグループ拡張モジュール320を含んでもよい。
ビデオエンコーダ203は、パディングされた幾何学的な画像354及びパディングされたテクスチャ画像360をそれぞれ圧縮された幾何学的な画像362及び圧縮されたテクスチャ画像364に圧縮するためのビデオ圧縮モジュール322及びビデオ圧縮モジュール324を含んでもよい。
ビデオエンコーダ203は、占有マップ334の可逆符号化366のためのエントロピー圧縮モジュール318と、占有マップ334の非可逆符号化368のためのビデオ圧縮モジュール326とを含んでもよい。
実施形態では、ビデオエンコーダ203は、ビデオ圧縮モジュール322によって提供される再構築された幾何学的な画像365と、パッチ情報332とを使用することによって平滑化された幾何学的形状358を生成するための平滑化モジュール310を含んでもよい。平滑化モジュール310の平滑化手順は、圧縮アーチファクトによりパッチ境界で生じる可能性がある潜在的な不連続性を軽減することを目的としてもよい。平滑化された幾何学的形状358をテクスチャ画像生成モジュール308によって使用して、テクスチャ画像356を生成することができる。
ビデオエンコーダ203は、マルチプレクサ328によって得られた圧縮されたビットストリーム374で提供される圧縮された補助パッチ情報370を形成するための補助パッチ情報圧縮モジュール312を含んでもよい。
図4は、本開示の実施形態によるビデオデコーダ210の例示的な機能ブロック図を示す。
図4に示されるように、ビデオデコーダ210は、ビデオエンコーダ203から符号化されたビットストリーム374を受信して、圧縮されたテクスチャ画像362と、圧縮された幾何学的な画像364と、圧縮された占有マップ372と、圧縮された補助パッチ情報370とを取得することができる。ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮された幾何学的な画像364、圧縮された占有マップ372及び圧縮された補助パッチ情報370を復号して、それぞれ解凍されたテクスチャ画像460、解凍された幾何学的な画像462、解凍された占有マップ464、及び解凍された補助パッチ情報466を取得することができる。続いて、ビデオデコーダ210は、解凍されたテクスチャ画像460、解凍された幾何学的な画像462、解凍された占有マップ464、及び解凍された補助パッチ情報466に基づいて、再構築された点群474を生成することができる。
実施形態では、ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮された幾何学的な画像364、圧縮された占有マップ372、及び受信された圧縮されたビットストリーム374の圧縮された補助パッチ情報370を分離するデマルチプレクサ402を含んでもよい。
ビデオデコーダ210は、圧縮されたテクスチャ画像362、圧縮された幾何学的な画像364、圧縮された占有マップ372、及び圧縮された補助パッチ情報370をそれぞれ復号するビデオ解凍モジュール404、ビデオ解凍モジュール406、占有マップ解凍モジュール408、及び補助パッチ情報解凍モジュール410を含んでもよい。
ビデオデコーダ210は、解凍された幾何学的な画像462、解凍された占有マップ464、及び解凍された補助パッチ情報466に基づいて、再構築された(3次元)幾何学的形状468を取得する幾何学的形状再構築モジュール412を含んでもよい。
ビデオデコーダ210は、再構築された幾何学的形状468を平滑化して、平滑化された幾何学的形状470を取得する平滑化モジュール414を含んでもよい。平滑化手順は、圧縮アーチファクトによりパッチ境界で生じる可能性がある潜在的な不連続性を軽減することを目的としてもよい。
ビデオデコーダ210は、解凍されたテクスチャ画像460及び平滑化された幾何学的形状470に基づいて、再構築されたテクスチャ472を取得するためのテクスチャ再構築モジュール416を含んでもよい。
ビデオデコーダ210は、再構築されたテクスチャ472の色を平滑化して、再構築された点群474を取得する色平滑化モジュール418を含んでもよい。3D空間内の隣接していないパッチは、2Dビデオにおいて互いに隣接してパッキングされる場合が多い。これは、隣接していないパッチのピクセル値がブロックベースのビデオコーデックによって混同される可能性があることを意味する。色平滑化モジュール418の色平滑化は、パッチ境界に現れる可視アーチファクトを低減することを目的としてもよい。
上記のように、入力された群は、いくつかのパッチにセグメント化され、占有マップ、幾何学的な画像及びテクスチャ画像などの3つの2D画像にパッキングされてもよい。次に、これらの画像は、例えば、HEVCなどの符号化標準によって圧縮される。
点群圧縮システムが3Dバウンディングボックスの形で関心領域(ROI)を使用することは有利である。したがって、コンテンツ認識点群圧縮システムが以下の機能(1)~(4)のすべて(又は一部)を満たすことは有利である。(1)ROIは、点群の他の部分よりも高品質で符号化され、(2)ROIは、完全に復号せずに空間ランダムアクセスを容易にするために、点群の他の部分から個別に符号化され、(3)ROIの独立した符号化は、独立した(並列)符号化/復号に関するシステム要件と調和し、(4)複数のROIがサポートされる。
本開示のいくつかの実施形態は、上記機能のうちの1つ以上を含んでもよい。本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わせて使用されてもよい。さらに、方法、エンコーダ及びデコーダを含む本開示の各実施形態は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実施されてもよい。実施形態では、1つ以上のプロセッサは、非一時的なコンピュータ可読媒体に記憶されているプログラムを実行して、本開示の方法、エンコーダ及びデコーダの機能を実行することができる。
本開示の実施形態は、例えば、以下の点群圧縮機能(1)及び(2)を達成することができる。(1)並列符号化及び復号。本開示の実施形態は、ビットレートオーバーヘッドに関して低コストで並列処理の実装を提供することができる。(2)空間ランダムアクセス。本開示の実施形態は、ビデオストリームのビットストリーム全体を復号する必要がなく、領域に対応する点群を復号することができる。
いくつかの実施形態によれば、上記機能のうちの1つ以上は、以下に説明するようなサブフレーム設計で達成することもできる。
図7を参照すると、ビデオストリームは、複数のフレーム520の符号化されたバージョンを備えてもよく、フレーム520は、例えばビデオソース201によって取得されてもよく、例えば表示装置212によって視認可能である3D点群フレーム510にそれぞれ対応する。フレーム520の各々は、フレームの複数の層である複数の2次元ピクチャを含んでもよく、フレームの各ピクチャは、対応する3D点群フレーム510の特定の属性を示す。例えば、単一のフレーム520を示す図8を参照すると、複数の2次元ピクチャは、例えば、幾何学的な画像522、テクスチャ画像524、及び占有マップ526などの3つのピクチャを含んでもよい。そのようなピクチャは、上記幾何学的な画像352、テクスチャ画像356、及び占有マップ334と同じであってもよく、類似性を共有してもよい。
各フレーム520は、複数のサブフレームに分割されてもよく、各サブフレームは、複数の2次元ピクチャの各々の一部(例えば、幾何学的な画像の一部、テクスチャ画像の一部、及び占有マップの一部)を含んでもよい。1つ以上のサブフレームは、ROIに対応してもよい。例えば、図8を参照すると、フレーム520は、サブフレームA、サブフレームB、サブフレームC、サブフレームD及びサブフレームEを含んでもよい。サブフレームA~Eの各々は、幾何学的な画像522、テクスチャ画像524及び占有マップ526の一部を含む。1つ以上のサブフレームA~Eは、ROIに対応してもよい。
いくつかの実施形態では、サブフレーム(例えば、サブフレームA~Eのいずれか)は、矩形領域又はタイルのグループであってもよい。サブフレームが複数のタイルを備える場合、サブフレームは、矩形又は非矩形の形状を有してもよい。一実施形態では、サブフレームは、複数のタイルに分割されてもよく、分割されなくてもよい。サブフレームが複数のタイルに分割されている場合、サブフレームの各構成要素(例えば、YUV、XYZ、占有マップ)は、同一のタイルパーティションを有してもよい。
いくつかの実施形態では、サブフレーム内のタイルを矩形又は非矩形のタイルグループに組み合わせることができるが、異なるサブフレームに属するタイルをグループ化することができない。一実施形態では、タイルグループは、VVCのタイルグループ設計を使用してもよい。
いくつかの実施形態では、サブフレームに対応する3Dバウンディングボックス情報は、シグナリングされてもよく、シグナリングされなくてもよい。上記の3Dバウンディングボックス情報は、例えば、点群内のサブフレームの3D位置を特定することができる。例えば、図7~8を参照すると、3D点群フレーム510の複数のエリア512のいずれか1つは、3Dバウンディングボックスと、3D点群フレーム510内のフレーム520のサブフレームA~Eのうちの1つの対応する位置とに対応してもよい。
いくつかの実施形態では、サブピクチャ境界にわたる任意の復号又はレンダリングプロセス(例えば、インループフィルタリング、動き補償)は、許可されなくてもよく、許可されてもよい。サブピクチャは、ピクチャのサブ部分(例えば、図8に示されるピクチャ522、525又は526のエリアA、B、C、D又はE)を参照することができる。いくつかの実施形態では、サブフレームの境界は、動き補償のために延長され、パディングされてもよい。いくつかの実施形態では、境界が拡張されているか否かを示すフラグは、ビデオビットストリームのシーケンスパラメータセット(SPS)でシグナリングされる。
いくつかの実施形態では、復号されたサブフレームは、出力されるように再サンプリングされてもよく、再サンプリングされなくてもよい。いくつかの実施形態では、復号されたサブフレームサイズと出力されたサブフレームサイズとの間の空間率は、SPSでシグナリングされてもよく、再サンプリング率を計算するために使用されてもよい。いくつかの実施形態では、再サンプリング動作(例えば、適応解像度の変更)が適用されてもよく、適用されなくてもよい。
いくつかの実施形態では、分割情報は、フレームによってアクティブにされ得るビデオビットストリームのフレームパラメータセットでシグナリングされる。分割情報は、例えば、フレームが複数のサブフレームに分割されるか否か、及びどのように分割されるかを示してもよい。いくつかの実施形態では、分割情報は、符号化されたビデオシーケンス内で更新することができる。いくつかの実施形態では、同じ分割情報は、異なる構成要素を有する複数のフレーム、ピクチャ、スライス、タイルグループ及びVCL NALユニットによって共有して使用されてもよい。
以下、例えばY-PCCで実施されてもよい本開示の実施形態の例示的なコードを提供する。以下に示すように、コードは、フレームパラメータセットで提供されてもよい。一実施形態では、フレームパラメータセットは、符号化されたビデオストリームにおいて、エンコーダによってデコーダに提供されてもよい。
Figure 0007118278000001
Figure 0007118278000002
上記コードのセマンティクスを以下に説明する。
1に等しい「frame_partitioning_enabled_flag」は、フレームが複数のサブ領域(例えば、サブフレーム)に分割されることを特定する。各サブ領域に対応するサブビットストリームは、ビットストリーム全体にアクセス可能で、かつそれから抽出可能である。各領域は、個別に復号できるべきである。0に等しい「frame_partitioning_enabled_flag」は、フレームが複数のサブ領域(例えば、サブフレーム)に分割されてもよく、分割されなくてもよいことを特定する。
1に等しい「tile_info_present_flag」は、各構成要素のビットストリームが、空間ランダムアクセス及び並列処理のためのバウンディングボックス情報と整合するタイル情報を含むことを特定する。0に等しい「tile_info_present_flag」は、各2次元バウンディングボックスがピクセルレベルで明示的にシグナリングされることを特定する。
「num_tile_columns_minus1」プラス1は、フレームを分割するタイル列の数を特定する。
「num_tile_rows_minus1」プラス1は、フレームを分割するタイル行の数を特定する。
1に等しい「uniform_spacing_flag」は、タイル列の境界がフレームにわたって均一に分散され、タイル行の境界についても同様であることを特定する。0に等しい「uniform_spacing_flag」は、タイル列の境界がフレームにわたって均一に分散されておらず、タイル行の境界についても同様であるが、構文要素「column_width_minus1[i]」と「row_height_minus1[i]」を使用して明示的にシグナリングされることを特定する。
「column_width_minus1[i]」プラス1は、CTBの単位でi番目のタイル列の幅を特定する。
「row_height_minus1[i]」プラス1は、CTBの単位でi番目のタイル列の高さを特定する。
1に等しい「single_tile_per_sub_frame_flag」は、このフレームパラメータセットで示される各2Dバウンディングボックスが1つのタイルを含むことを特定する。0に等しい「single_tile_per_sub_frame_flag」は、このフレームパラメータセットで示される各2Dバウンディングボックスが1つ以上のタイルを含んでもよいことを特定する。
「num_sub_frame_in_frame_minus1」プラス1は、フレームパラメータセットを参照する各フレームの2次元バウンディングボックスの数を特定する。
1に等しい「3D_bounding_box_info_present_flag」は、3Dバウンディングボックス情報が存在することを特定する。0に等しい「3D bounding_box_info_present_flag」は、3Dバウンディングボックス情報が存在しないことを特定する。
0に等しい「rect_sub_frame_flag」は、各サブフレーム内のタイルがラスタスキャン順序であることを特定する。1に等しい「rect_tile_group_flag」は、各サブフレーム内のタイルがフレームの矩形領域をカバーすることを特定する。
「num_tiles_in_sub_frame_minus1」プラス1は、存在する場合、非矩形のサブピクチャ内のタイルの数を特定する。
「top_left_tile_idx[i]」は、i番目の2Dバウンディングボックスの左上隅に位置するタイルのタイルインデックスを特定する。
「bottom_right_tile_idx[i]」は、i番目の2Dバウンディングボックスの右下隅に位置するタイルのタイルインデックスを特定する。
「3D_bounding_box_x[i]」、「3D_bounding_box_y[i]」及び「3D_bounding_box_z[i]」は、点群データの体積表現に使用される、i番目の2次元バウンディングボックスに対応するi番目の3次元バウンディングボックスの3次元位置を特定する。
「3D_bounding_box_dx[i]」、「3D_bounding_box_dy[i]」及び「3D_bounding_box_dz[i]」は、x、y、zドメイン内の特定の3Dバウンディングボックスの長さをそれぞれ特定する。
「sub_frame_x[i]」及び「sub_frame_y[i]」は、i番目の2次元バウンディングボックスの2次元位置を特定する。
「sub_frame_dx[i]」及び「sub_frame_dy[i]」は、特定の2Dバウンディングボックスの幅及び高さをそれぞれ特定する。
1に等しい「signalled_bounding_box_id_flag」は、各バウンディングボックスのバウンディングボックスIDがシグナリングされることを特定する。0に等しい「signalled_bounding_box_index_flag」は、バウンディングボックスIDがシグナリングされないことを特定する。
「signalled_bounding_box_id_length_minus1」プラス1は、構文要素bounding_box_id[i]を表現するために使用されるビット数を特定する。「signalled_bounding_box_id_length_minus1」の値は、0~15の範囲内(両端値を含む)でなければならない。
「bounding_box_id[i]」は、i番目のバウンディングボックスのバウンディングボックスIDのを特定する。構文要素「bounding_box_id[i]」の長さは、「bounding_box_id_length_minus1」+1ビットである。
1に等しい「Independent_decoding_sub_frame_enabled_flag」は、各サブフレームがサブフレーム間動作なしで個別に復号されてもよく、復号されなくてもよいことを特定する。0に等しい「Independent_decoding_sub_frame_enabled_flag」は、各サブフレームがサブフレーム間動作なしで個別に復号することができないことを特定する。サブフレーム間動作は、サブフレームの境界にわたる動き補償とインループフィルタリングを含む。「Independent_decoding_sub_frame_enabled_flag」の値は、存在しない場合、0に等しいと推測される。
1に等しい「post_processing_across_bounding_box_enabled_flag」は、ビデオビットストリームを復号した後の任意の後処理がサブフレームの境界にわたって有効になることを特定する。0に等しい「post_processing_across_bounding_box_enabled_flag」は、ビデオビットストリームを復号した後の任意の後処理がサブフレームの境界にわたって無効になることを特定する。後処理は、復号されたビデオシーケンスから点群データを生成するための任意の動作を含んでもよい。
図9を参照すると、本開示の実施形態は、サブフレーム分割を有する符号化された点群データの復号プロセスを実行してもよい。
ビデオストリームの少なくとも一部を受信した後に、フレームパラメータを解析する(601)。次に、個々のサブフレーム分割を識別する。1つ以上のサブフレームに関して、サブフレームが個別に符号化されているか否かを判定することができる(603)。個々のサブフレームが個別に符号化されていると判定された場合に、個々のサブフレームを個別に復号することができる(604)。個別に符号化されているサブフレームがない場合、フレーム全体を復号することができる(605)。実施形態では、サブフレーム又はフレームの復号は、図4に示されるデコーダ210によって実行されてもよい。
実施形態では、デバイス700は、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに上記デコーダ及びエンコーダの機能を実行させることができるコンピュータプログラムコードを記憶するメモリを備えてもよい。
例えば、図10を参照すると、デバイス700のコンピュータプログラムコードは、識別コード710、復号コード730、取得コード740及び表示コード750を備えてもよい。
識別コード710は、少なくとも1つのプロセッサに、デバイス700に提供されるフレーム分割情報を使用して1つ以上のサブフレームを識別させるように構成されてもよい。フレーム分割情報は、例えば、フレーム内のサブフレームの特性(例えば、数、サイズ、形状及び符号化依存性)を示す任意の上記情報であってもよい。
復号コード730は、少なくとも1つのプロセッサに、識別されたサブフレームを復号させるように構成されてもよい。実施形態では、復号コード730は、図4に示されるデコーダ210の解凍モジュールの機能を実行して、サブフレームを復号するように構成されてもよい。
取得コード740は、少なくとも1つのプロセッサに、識別されたサブフレームを復号した後に、識別されたサブフレームに対応する3Dバウンディングボックス情報を使用して点群を取得させるように構成されてもよい。実施形態では、取得コード740は、図4に示されるデコーダ210の幾何学的形状再構築モジュール412、平滑化モジュール414、テクスチャ再構築モジュール416及び色平滑化モジュール418の機能を実行して、点群を取得するように構成されてもよい。
表示コード750は、少なくとも1つのプロセッサに、表示装置上で点群に対応する3D画像を表示させるように構成されてもよい。
いくつかの実施形態では、コンピュータプログラムコードはまた、判定コード720を含んでもよい。判定コード720は、少なくとも1つのプロセッサに、サブフレームが個別に符号化されているか否かを判定させるように構成されてもよく、サブフレームが個別に符号化されていると判定された場合に、復号コード730は、少なくとも1つのプロセッサに、該サブフレームを複数のサブフレームの他のサブフレームから個別に復号させるように構成されてもよい。
上記技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実施され、1つ以上のコンピュータ可読媒体に物理的に記憶することができる。例えば、図11は、本開示のある実施形態を実施することに適するコンピュータシステム900を示す。
コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)などによって、アセンブリ、コンパイル、リンクの対象となり得る任意の適切な機械コード若しくはコンピュータ言語、又は同様のメカニズムを使用して符号化されて、直接実行できるか又は解釈、マイクロコード実行などを介して実行できる命令を備えるコードを作成することができる。
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータ又はその構成要素上で実行することができる。
コンピュータシステム900について、図11に示される構成要素は、例であり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能範囲に関する限定を示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム900の非限定的な実施形態に示される構成要素のいずれか1つ又は組み合わせに関連する任意の依存性又は要件を有すると解釈されるべきではない。
コンピュータシステム900は、特定のヒューマンインタフェース入力デバイスを含んでもよい。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(音声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)を通じて、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインタフェースデバイスは、音声(スピーチ、音楽、環境音など)、画像(スキャンされた画像、静止画像カメラから取得した写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)などの、人間による意識的な入力に必ずしも直接関連しない特定の媒体を取り込むために使用することもできる。
入力ヒューマンインタフェースデバイスは、キーボード901、マウス902、トラックパッド903、タッチスクリーン910、データグローブ、ジョイスティック905、マイクロフォン906、スキャナ907、カメラ908のうちの1つ以上(それぞれ1つのみが図示されている)を含んでもよい。
コンピュータシステム900はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音、光、及び嗅覚/味覚を通じて、1人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイスを含んでもよい(例えば、タッチスクリーン910、データグローブ又はジョイスティック905が触覚フィードバックを行い、しかし入力デバイスとして機能しない触覚フィードバックデバイスを有する可能性もある)。例えば、そのようなデバイスは、音声出力デバイス(スピーカー909、ヘッドホン(図示せず)など)、視覚出力デバイス(各々がタッチスクリーン入力機能を有するか又は有さず、各々が触覚フィードバック機能を有するか又は有さず、いくつかがステレオグラフィック出力などの手段を介して2次元の視覚出力又は3次元以上の出力を出力できるCRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン910、仮想現実眼鏡(図示せず)、ホログラフィック表示装置、及びスモークタンク(図示せず))、及びプリンタ(図示せず)であってもよい。
コンピュータシステム900はまた、ヒューマンアクセス可能な記憶デバイスと、それらに関連する媒体、例えば、CD/DVDを有するCD/DVD ROM/RW920若しくは同様な媒体921、サムドライブ922、及びリムーバブルハードドライブ若しくはソリッドステートドライブ923を含む光媒体、テープやフロッピー(登録商標)ディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用ROM/ASIC/PLDベースのデバイスなどとを含むことができる。
当業者はまた、ここに開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、又は他の一時的な信号を含まないことを理解するはずである。
コンピュータシステム900はまた、1つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光ネットワークにすることができる。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワークなどにすることができる。ネットワークの例は、イーサネット(登録商標)、無線LANなどのローカルエリアネットワークと、GSM、3G、4G、5G、LTEなどを含むセルラーネットワークと、ケーブルTV、衛星TV、地上波放送TVを含むTV有線又は無線ワイドエリアデジタルネットワークと、CANBusなどを含む車両用及び産業用ネットワークとを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス949(例えば、コンピュータシステム900のUSBポート、以下に説明するように一般にシステムバスに接続することによってコンピュータシステム900のコアに集積されるもの(例えば、PCコンピュータシステムへのイーサネット(登録商標)インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース))に接続された外部ネットワークインタフェースアダプタを必要とする。これらのネットワークのいずれかを使用して、コンピュータシステム900は、他のエンティティと通信することができる。このような通信は、例えば、ローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対して、単方向、受信のみ(例えば、放送TV)、単方向の送信のみ(例えば、CANbusから特定のCANbusデバイスへ)、又は双方向であってもよい。そのような通信は、クラウドコンピューティング環境955への通信を含むことができる。上記のように、特定のプロトコルとプロトコルスタックをこれらのネットワークとネットワークインタフェースの各々に使用することができる。
前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能な記憶デバイス、及びネットワークインタフェース954は、コンピュータシステム900のコア940に接続することができる。
コア940は、1つ以上の中央処理装置(CPU)941、グラフィックス処理装置(GPU)942、FPGA(Field Programmable Gate Array)943の形態の専用プログラマブル処理装置、及び特定のタスクのためのハードウェアアクセラレータ944などを含むことができる。これらのデバイスは、リードオンリメモリ(ROM)945、ランダムアクセスメモリ946、及びユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置947に、システムバス948を介して接続されてもよい。一部のコンピュータシステムでは、システムバス948は、1つ以上の物理プラグの形でアクセス可能であり、追加のCPU、GPUなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス948に直接接続されてもよく、周辺バス949を介して接続されてもよい。周辺バスのアーキテクチャには、PCI、USBなどを含む。グラフィックアダプタ950は、コア940に含まれてもよい。
CPU941、GPU942、FPGA943及びアクセラレータ944は、組み合わせて、前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードは、ROM945又はRAM946に記憶することができる。過渡的なデータは、RAM946に記憶することもできるが、恒久的なデータは、例えば内部大容量記憶装置947に記憶することができる。CPU941、GPU942、大容量記憶装置947、ROM945、RAM946などのうちの1つ以上と密接に関連付けることができるキャッシュメモリを使用して、任意のメモリデバイスに対する高速記憶及び検索を可能にすることができる。
コンピュータ可読媒体には、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、コンピュータソフトウェア分野の当業者によく知られている利用可能な種類のものであってもよい。
限定ではなくあくまでも一例として、アーキテクチャ900、具体的にはコア940を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、コア内部大容量記憶装置947又はROM945などの、非一時的な性質のコア940の特定の記憶装置以外に、以上に説明したようにユーザがアクセス可能な大容量記憶装置に関連付けられる媒体であってもよい。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶でき、コア940によって実行することができる。コンピュータ可読媒体は、特定の需要に応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア940、具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM946に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。加えて又は代替として、コンピュータシステムは、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに又はソフトウェアと一緒に動作することができる回路(例えば、アクセラレータ944)に配線されるか又は他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照は、必要に応じて、ロジックを含むことができ、その逆も同様である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のためのロジックを具体化する回路、又はそれらの両方を含むことができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。
本開示は、いくつかの非限定的な実施形態を記載しているが、本開示の範囲内に入る代替、置換及び様々な代替等価物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、開示の原理を具体化するため、その精神及び範囲内にある多数のシステム及び方法を考案することができることが理解されたい。
100 通信システム
110,120,130,140 端末
150 ネットワーク
200 ストリーミングシステム
201 ビデオソース
202 サンプルストリーム
203 ビデオエンコーダ
204 符号化されたビデオビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
209 ビデオビットストリーム
210 ビデオデコーダ
211 発信ビデオサンプルストリーム
212 表示装置
213 サブシステム
302 パッチ生成モジュール
304 パッチパッキングモジュール
306 幾何学的な画像生成モジュール
308 テクスチャ画像生成モジュール
310 平滑化モジュール
312 補助パッチ情報圧縮モジュール
314,316 画像パディングモジュール
318 エントロピー圧縮モジュール
320 グループ拡張モジュール
322,324,326 ビデオ圧縮モジュール
328 マルチプレクサ
332 パッチ情報
334 占有マップ
350 点群フレーム
352 幾何学的な画像
354 パディングされた幾何学的な画像
356 テクスチャ画像
358 再構築/平滑化された幾何学的形状
360 パディングされたテクスチャ画像
362 圧縮された幾何学的な画像
364 圧縮されたテクスチャ画像
365 再構築された幾何学的な画像
366 可逆符号化
368 非可逆符号化
370 圧縮された補助パッチ情報
372 圧縮された占有マップ
374 圧縮されたビットストリーム
402 デマルチプレクサ
404,406 ビデオ解凍モジュール
408 占有マップ解凍モジュール
410 補助パッチ情報解凍モジュール
412 幾何学的な形状再構築モジュール
414 平滑化モジュール
416 テクスチャ再構築モジュール
418 色平滑化モジュール
460 解凍されたテクスチャ画像
462 解凍された幾何学的な画像
464 解凍された占有マップ
466 解凍された補助パッチ
468 再構築された(3次元)幾何学的形状
470 平滑化された幾何学的形状
472 再構築されたテクスチャ
474 再構築された点群
510 3D点群フレーム
512 エリア
520 フレーム
522 幾何学的な画像
524 テクスチャ画像
526 占有マップ
700 デバイス
710 識別コード
720 判定コード
730 復号コード
740 取得コード
750 表示コード
900 コンピュータシステム
901 キーボード
902 マウス
903 トラックパッド
905 ジョイスティック
906 マイクロフォン
907 スキャナ
908 カメラ
909 スピーカー
910 タッチスクリーン
920 CD/DVD ROM/RW
921 媒体
922 サムドライブ
923 リムーバブルハードドライブ又はソリッドステートドライブ
940 コア
941 中央処理装置(CPU)
942 グラフィックス処理装置(GPU)
943 FPGA
944 アクセラレータ
945 リードオンリメモリ(ROM)
946 ランダムアクセスメモリ(RAM)
947 内部大容量記憶装置
948 システムバス
949 周辺バス
950 グラフィックアダプタ
954 ネットワークインタフェース
955 クラウドコンピューティング環境

Claims (12)

  1. 少なくとも1つのプロセッサが実行する、ビデオストリームを復号する方法であって、
    前記ビデオストリームを受信するステップであって、前記ビデオストリームは、
    複数の2次元(2D)ピクチャのフレームであって、前記複数の2Dピクチャが前記フレームの複数の層であり、前記複数の2Dピクチャの各々が同じ3次元(3D)表現のそれぞれの属性を有するものである、フレームと、
    前記フレームが複数のサブフレームに分割されていることを示すフレーム分割情報であって、前記複数のサブフレームの各々が前記複数の2Dピクチャの各ピクチャのサブ領域のそれぞれの組み合わせである、フレーム分割情報と、
    前記複数のサブフレームの1つのサブフレームに対応する3D位置を特定する3Dバウンディングボックス情報とを含む、ステップと、
    前記フレーム分割情報を使用して前記サブフレームを識別するステップと、
    識別された前記サブフレームを復号するステップと、を含む方法。
  2. 受信された前記ビデオストリームの前記フレーム分割情報は、前記フレームにおける前記サブフレームの位置および境界のうちの少なくとも1つを特定する2Dバウンディングボックス情報を含む、請求項1に記載の方法。
  3. 前記3Dバウンディングボックス情報は、前記2Dバウンディングボックス情報で特定された2Dバウンディングボックスの3D位置を特定し、
    前記方法は、識別された前記サブフレームを復号した後、前記3Dバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む、請求項2に記載の方法。
  4. 前記複数の2Dピクチャは、第1のピクチャ、第2のピクチャ及び第3のピクチャを含み、
    前記第1のピクチャがテクスチャ画像であり、前記第2のピクチャが幾何学的な画像であり、前記第3のピクチャが占有マップである、請求項3に記載の方法。
  5. 識別された前記サブフレームを復号した後、前記3Dバウンディングボックス情報を使用して、前記ビデオストリームから点群を取得するステップをさらに含む、請求項1に記載の方法。
  6. 前記複数の2Dピクチャは、第1のピクチャ、第2のピクチャ及び第3のピクチャを含み、
    前記第1のピクチャがテクスチャ画像であり、前記第2のピクチャが幾何学的な画像であり、前記第3のピクチャが占有マップである、請求項5に記載の方法。
  7. 前記サブフレームが個別に符号化されているか否かを判定するステップをさらに含み、
    前記サブフレームが個別に符号化されていると判定された場合に、前記サブフレームを復号する前記ステップでは、前記サブフレームを前記複数のサブフレームの他のサブフレームから個別に復号する、請求項1に記載の方法。
  8. 受信された前記ビデオストリームは、前記フレーム分割情報及び前記3Dバウンディングボックス情報を含むフレームパラメータセットを含む、請求項1に記載の方法。
  9. 前記複数の2Dピクチャは、第1のピクチャ、第2のピクチャ及び第3のピクチャを含み、
    前記第1のピクチャがテクスチャ画像であり、前記第2のピクチャが幾何学的な画像であり、前記第3のピクチャが占有マップである、請求項1に記載の方法。
  10. 前記ビデオストリームは、複数の2Dピクチャの追加フレームであって、前記複数の2Dピクチャが前記追加フレームの複数の層であり、前記追加フレームの前記複数の2Dピクチャの各々が同じ追加の3D表現のそれぞれの属性を有するものである、追加フレームをさらに含み、
    前記方法は、
    前記フレームの前記サブフレームを識別するための前記フレーム分割情報を使用して、前記追加フレームのサブフレームを識別するステップと、
    識別された前記追加フレームの前記サブフレームを復号するステップと、をさらに含む、請求項1に記載の方法。
  11. ビデオストリームを復号するシステムであって、
    コンピュータプログラムコードを記憶するメモリと、
    記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの命令通りに請求項1から10のいずれか一項に記載の方法を実行する少なくとも1つのプロセッサと、を備えシステム。
  12. なくとも1つのプロセッサに、請求項1から10のいずれか一項に記載の方法を実行させるコンピュータプログラム
JP2021534783A 2019-03-15 2020-03-12 符号化された点群データの分割 Active JP7118278B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962819504P 2019-03-15 2019-03-15
US62/819,504 2019-03-15
US16/814,350 2020-03-10
US16/814,350 US11159811B2 (en) 2019-03-15 2020-03-10 Partitioning of coded point cloud data
PCT/US2020/022270 WO2020190619A1 (en) 2019-03-15 2020-03-12 Partitioning of coded point cloud data

Publications (2)

Publication Number Publication Date
JP2022512509A JP2022512509A (ja) 2022-02-04
JP7118278B2 true JP7118278B2 (ja) 2022-08-15

Family

ID=72423620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534783A Active JP7118278B2 (ja) 2019-03-15 2020-03-12 符号化された点群データの分割

Country Status (5)

Country Link
US (2) US11159811B2 (ja)
EP (1) EP3939293A4 (ja)
JP (1) JP7118278B2 (ja)
CN (1) CN113557729B (ja)
WO (1) WO2020190619A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107257490B (zh) 2012-01-27 2019-12-17 太阳专利托管公司 图像编码方法及图像编码装置
US11457231B2 (en) * 2019-03-15 2022-09-27 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US11245926B2 (en) 2019-03-19 2022-02-08 Mediatek Singapore Pte. Ltd. Methods and apparatus for track derivation for immersive media data tracks
US11770562B2 (en) * 2020-06-23 2023-09-26 Qualcomm Incorporated High-level syntax for geometry-based point cloud compression
EP3979644A1 (en) * 2020-10-02 2022-04-06 Koninklijke Philips N.V. A method and apparatus for encoding and decoding one or more views of a scene
GB2613853B (en) * 2021-12-16 2024-01-24 Canon Kk Method, device, and computer program for optimizing encapsulation of point cloud data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268570A1 (en) 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
WO2019012975A1 (ja) 2017-07-10 2019-01-17 ソニー株式会社 情報処理装置および方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110310976A1 (en) 2010-06-17 2011-12-22 Qualcomm Incorporated Joint Coding of Partition Information in Video Coding
JP5454444B2 (ja) 2010-10-01 2014-03-26 ソニー株式会社 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
US20120121166A1 (en) * 2010-11-12 2012-05-17 Texas Instruments Incorporated Method and apparatus for three dimensional parallel object segmentation
EP3349182A1 (en) * 2017-01-13 2018-07-18 Thomson Licensing Method, apparatus and stream for immersive video format
EP3642800A4 (en) 2017-07-10 2020-05-20 Samsung Electronics Co., Ltd. POINT CLOUD AND NETWORK COMPRESSION WITH IMAGE / VIDEO CODECS
CN108198145B (zh) * 2017-12-29 2020-08-28 百度在线网络技术(北京)有限公司 用于点云数据修复的方法和装置
US11010977B2 (en) * 2018-05-31 2021-05-18 Jido, Inc. Method for establishing a common reference frame amongst devices for an augmented reality session
CN110826357B (zh) * 2018-08-07 2022-07-26 北京市商汤科技开发有限公司 对象三维检测及智能驾驶控制的方法、装置、介质及设备
US10885721B2 (en) * 2018-09-28 2021-01-05 Jido Inc. Method for detecting objects and localizing a mobile computing device within an augmented reality experience
US20200202608A1 (en) * 2018-12-21 2020-06-25 Point Cloud Compression, B.V. Method and apparatus for receiving a volumetric video stream
US11284091B2 (en) * 2019-03-25 2022-03-22 Apple Inc. Video based point cloud compression-patch alignment and size determination in bounding box
WO2021013790A1 (en) * 2019-07-19 2021-01-28 Five AI Limited Structure annotation
US11503323B2 (en) * 2020-09-24 2022-11-15 Tencent America LLC Method and apparatus for inter-picture prediction with virtual reference picture for video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268570A1 (en) 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
WO2019012975A1 (ja) 2017-07-10 2019-01-17 ソニー株式会社 情報処理装置および方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qualcomm Incorporated (Rapporteur),"FS_XR5G: Permanent document, v0.3",S4-190226,[online], 3GPP TSG-SA4 Meeting 102,2019年02月01日,Pages 1-3,10,11,18-23,[令和4年7月7日検索], インターネット, <URL: https://www.3gpp.org/ftp/TSG_SA/WG4_CODEC/TSGS4_102_Bruges/Docs/S4-190226.zip>, (Sections 2, 4.2.3, and 5.6).
Sebastian Schwarz, et al.,"Emerging MPEG Standards for Point Cloud Compression",IEEE Journal on Emerging and Selected Topics in Circuits and Systems,IEEE,2019年03月11日,Vol.9, No.1,Pages 133-148,ISSN: 2156-3357, <DOI: 10.1109/JETCAS.2018.2885981>.

Also Published As

Publication number Publication date
CN113557729A (zh) 2021-10-26
WO2020190619A1 (en) 2020-09-24
US11159811B2 (en) 2021-10-26
US11683513B2 (en) 2023-06-20
JP2022512509A (ja) 2022-02-04
US20210400292A1 (en) 2021-12-23
US20200296394A1 (en) 2020-09-17
EP3939293A4 (en) 2022-07-20
EP3939293A1 (en) 2022-01-19
CN113557729B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
JP7118278B2 (ja) 符号化された点群データの分割
US10798389B2 (en) Method and apparatus for content-aware point cloud compression using HEVC tiles
CN113748681B (zh) 动态点云分区打包方法、装置和电子设备
JP2022514548A (ja) 点群解凍用方法、点群圧縮用方法及び装置
CN112188209B (zh) 视频流解码方法、装置、计算机设备和存储介质
US11451836B2 (en) Techniques and apparatus for PCM patch creation using Morton codes
US11587263B2 (en) Method and apparatus for enhanced patch boundary identification for point cloud compression
CN113170154A (zh) 用于退火迭代几何平滑的方法和装置
CN113170155A (zh) 通过局部几何投影进行几何平滑的方法和装置
JP7434667B2 (ja) ビデオベースの点群コーディングのためのグループオブピクチャベースのパッチパッキング
CN112188201B (zh) 对视频流进行编码的方法、装置、电子设备及存储介质
CN113228050B (zh) 使用视频点云编解码对视频流进行编码的方法和装置
JP2023533416A (ja) ビデオベースの点群コーディングのための条件付き再着色
JP2023533423A (ja) ビデオベースの点群コーディングのための非バイナリ占有マップ
CN118215941A (zh) 基于实例的网格编码的自适应量化
CN116368523A (zh) Uv坐标编码

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220802

R150 Certificate of patent or registration of utility model

Ref document number: 7118278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150