JP7476104B2 - 点群処理 - Google Patents

点群処理 Download PDF

Info

Publication number
JP7476104B2
JP7476104B2 JP2020538537A JP2020538537A JP7476104B2 JP 7476104 B2 JP7476104 B2 JP 7476104B2 JP 2020538537 A JP2020538537 A JP 2020538537A JP 2020538537 A JP2020538537 A JP 2020538537A JP 7476104 B2 JP7476104 B2 JP 7476104B2
Authority
JP
Japan
Prior art keywords
depth
depth image
point cloud
point
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020538537A
Other languages
English (en)
Other versions
JPWO2019142163A5 (ja
JP2021511712A (ja
Inventor
シュヴェ,ジャン-クロード
ツァイ,カンイン
ピンサック,ジョアン ラック
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2021511712A publication Critical patent/JP2021511712A/ja
Publication of JPWO2019142163A5 publication Critical patent/JPWO2019142163A5/ja
Application granted granted Critical
Publication of JP7476104B2 publication Critical patent/JP7476104B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本実施形態のうちの少なくとも1つは、概して、点群の処理に関する。
本節は、以下に記載および/または特許請求される本実施形態のうちの少なくとも1つの様々な態様に関連し得る技術の様々な態様を読者に紹介することが意図されている。本考察は、背景情報を読者に提供して、少なくとも1つの実施形態の様々な態様をより良く理解することを容易にすることに役立つと考えられる。
点群は、文化遺産/建造物などの様々な目的に使用することができ、そこにある彫像または建物のような対象物を3Dでスキャンし、対象物を送出または訪問せずに、対象物の空間的な構成を共有する。また、万が一その対象物が破壊され得る場合、例えば、地震により寺院が破壊され得る場合、点群は、その対象物の知識を確実に保全するための方法である。このような点群は、通常、静的で、色分けされ、かつ膨大である。
別の使用例としては、地形学およびマップ作成法においてであり、そこでは、3D表現を使用することにより、平面に限定されず、起伏を含み得るマップを可能にする。グーグルマップは、現在、3Dマップのよい例であるが、点群ではなく、メッシュを使用している。それにもかかわらず、点群は、3Dマップのための好適なデータ形式であり得、そのような点群は、通常、静的で、色分けされ、かつ膨大である。
自動車業界および自律運転車もまた、点群を使用することができる分野である。自律運転車は、それらの環境を「探査」し、それらの目前の近隣の現実に基づいて、良好な運転判断を行うことができる必要がある。LIDAR(光検出と測距)のような典型的なセンサは、決定エンジンによって使用される動的点群を生成する。これらの点群は、人間が見ることを意図されておらず、それらは、通常、小さく、必ずしも色分けされておらず、かつ高い捕捉頻度で動的である。これらの点群は、この属性が、検知された対象物の材料に関する良好な情報を提供するときに、LIDARにより提供される反射率のような他の属性を有することができ、決定を下すのに役立ち得る。
仮想現実および没入型世界が、最近、話題になっており、2D平面ビデオの未来として多くの人によって予測されている。その基本的な考え方は、視聴者を取り囲む環境内に視聴者を没入させることであり、視聴者がその視聴者の前方にある仮想世界を眺めることしかできない標準TVとは対照的である。環境内の視聴者の自由に応じて、没入性には、いくつかの度合いがある。点群は、仮想現実(VR)世界を配信するための良好な形式候補である。
多くの用途において、許容可能な(または好ましくは非常によい)体験品質を維持しながら、妥当な量のビットレート(または記憶用途のための記憶空間)のみを消費することによって、動的点群をエンドユーザに配信する(または動的点群をサーバ内に格納する)ことができることが重要である。これらの動的な点群の効率的な圧縮が、多くの没入型世界の配信網を実用化するための重要なポイントである。
少なくとも1つの実施形態が、上記を念頭に置いて、考案されてきた。
以下は、本開示のいくつかの態様の基本的な理解を提供するために、本実施形態のうちの少なくとも1つの簡略化された概要を提示する。この概要は、実施形態の広範な概説ではない。実施形態の重要な要素または不可欠な要素を識別することは、意図されていない。以下の概要は、本文書内の他のところに提供されるさらに詳細な説明の序章として、簡略化された形態で、本実施形態のうちの少なくとも1つのいくつかの態様を提示するにすぎない。
少なくとも1つの実施形態の一般的な態様によれば、点群フレームのより近い点の深度値を表す第1の深度画像と、点群フレームのより遠い点の深度値を表す第2の深度画像と、をパディングすることを含む方法が提供される。この方法はまた、当該符号化される第1および第2の画像の時間インターリービングを含むビデオストリームを符号化することも含む。
点群フレームのより近い点の深度値を表す第1の深度画像と、点群フレームのより遠い点の深度値を表す第2の深度画像と、を提供するようにビデオストリームを復号化することと、
-第1の深度画像の画素値を使用することによって、第2の深度画像の画素値をフィルタリングすることと、を含む方法もまた提供される。
本実施形態のうちの少なくとも1つのうちの1つ以上はまた、上記の方法、コンピュータプログラム製品、非一時的コンピュータ可読媒体、ならびに点群フレームの点の深度値を表すデータ、および同じ投影線に沿って投影面上に投影された点群の2つの点の深度値の間の最大差を画定する表面厚さを表すデータを搬送する信号を実装するデバイスも提供する。
本実施形態のうちの少なくとも1つの特定の性質、ならびに本実施形態のうちの当該少なくとも1つの他の目的、利点、特徴、および用途は、添付図面と併せて取り入れられた以下の例の説明から明らかになるであろう。
各図面において、いくつかの実施形態の例が、説明される。図面は、以下を示す。
本実施形態のうちの少なくとも1つに従う、2層ベースの点群符号化構造の例の概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、2層ベースの点群復号化構造の例の概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、画像ベースの点群エンコーダの例の概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、画像ベースの点群デコーダの例の概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、ベース層BLを表すビットストリームのシンタックスの例を概略的に示す。 様々な態様および実施形態が実装されるシステムの例の概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、ステップ3200、3300、および3500のサブステップの概略ブロック図を示す。 本実施形態のうちの少なくとも1つに従う、ステップ4200および4500のサブステップの概略ブロック図を示す。
本実施形態のうちの少なくとも1つは、添付した図を参照して、これ以降さらに十分に説明され、そこでは、本実施形態のうちの少なくとも1つの例が示される。ただし、一実施形態が、多くの代替形態で具現化され得、本明細書に記述される例に限定されるものと解釈されるべきではない。したがって、実施形態を、開示された特定の形態に限定する意図はないことを理解されたい。逆に、本開示は、本明細書の精神および範囲内に含まれるすべての変更物、等価物、および代替物を網羅することを意図されている。
図がフロー図として提示されている場合、その図はまた、対応する装置のブロック図も提供することを理解されたい。同様に、図がブロック図として提示されている場合、それはまた、対応する方法/プロセスのフロー図も提供していることを理解されたい。同様または同一の要素は、同一の参照番号を使って参照される。
以下に説明および想定される態様は、多くの異なる形態で実施され得る。以下の図1~図8は、いくつかの実施形態を提供するが、他の実施形態が想定され、図1~図8の考察は、その実施態様の範囲を限定するものではない。
態様のうちの少なくとも1つは、一般に、点群の符号化および復号化に関するものであり、少なくとも1つの他の態様は、一般に、生成または符号化されるビットストリームを送信することに関する。
より正確には、これ以降に記載されている様々な方法および他の態様を使用して、モジュール、例えば、図3に示すように、パッチパッキングモジュールPPM、幾何形状画像生成器GIG、パディングプロセス、図4に示すように、ビデオデコーダVDECおよび幾何形状生成モジュールGGMを修正することができる。
さらに、本態様は、点群圧縮に関係するMPEG-Iパート5などのMPEG標準規格に限定されず、例えば、既存であるかまたは将来開発されるかにかかわらず、他の標準規格および勧告、ならびに係る任意の標準規格および勧告の拡張(MPEG-Iパート5を含む)に適用され得る。他に特段の指示がない限り、または技術的に除外されない限り、本明細書に記載される態様は、個別に、または組み合わせて使用され得る。
以下では、画像データとは、データ、例えば、特定の画像/ビデオ形式における2Dサンプルのうちの1つまたはいくつかの配列を指す。特定の画像/ビデオ形式は、画像(またはビデオ)の画素値に関する情報を指定することができる。特定の画像/ビデオ形式はまた、情報を指定することができ、その情報は、ディスプレイおよび/または任意の他の装置によって使用されて、例えば、画像(またはビデオ)を視覚化および/または復号化することができる。画像は、一般に、2Dサンプルの第1の配列の形で、通常、画像の輝度(またはルーマ)を表す第1の成分を含む。画像はまた、2Dサンプルの他の配列の形で、通常、画像の色度(またはクロマ)を表す第2の成分および第3の成分も含むことができる。いくつかの実施形態は、従来の3色RGB表現などの、一組の2D色サンプル配列を使用して、同じ情報を表す。
画素値は、C値のベクトルによって1つ以上の実施形態で表され、ここで、Cは、成分の数である。ベクトルの各値は、一般に、画素値のダイナミックレンジを規定することができるビット数を使用して表される。
画像ブロックとは、画像に属する一組の画素を意味する。画像ブロック(または画像ブロックデータ)の画素値とは、この画像ブロックに属する画素の値を指す。画像ブロックは、任意の形状を有してもよいが、長方形が一般的である。
点群は、3D容積空間内の3Dサンプルのデータセットによって表され得、その3Dサンプルのデータセットは、固有の座標を有し、1つ以上の属性も有し得る。
このデータセットの3Dサンプルは、その空間位置(3D空間内のX、Y、およびZ座標)によって定義されてもよく、場合によっては、例えば、RGBまたはYUV色空間で表される色、透明度、反射率、2つの成分法線ベクトル、またはこのサンプルの特徴を表す任意の特徴、などの1つ以上の関連付けられた属性によって定義されてもよい。例えば、3Dサンプルは、6成分(X,Y,Z,R,G,B)または言い換えると(X,Y,Z,y,U,V)によって定義され得、ここで、(X,Y,Z)は、3D空間内の点の座標を定義し、(R,G,B)または(y,U,V)は、この3Dサンプルの色を定義する。同じ種類の属性が、複数回存在してもよい。例えば、複数の色属性は、異なる視点から色情報を提供することができる。
点群は、群が時間に対して変化するか否かに応じて、静的または動的であり得る。静的点群、または動的点群のインスタンスは、普通、点群フレームとして示される。動的点群の場合、点の数は、一般的に一定ではないが、それどころか、通常時間と共に変化することに留意されたい。より一般的には、点群は、例えば、点の数、1つ以上の点の位置、または任意の点の任意の属性などの何かが時間と共に変化する場合、動的なものと見なすことができる。
例として、2Dサンプルは、6成分(u,v,Z,R,G,B)、または同等に(u,v,Z,y,U,V)によって定義され得る。(u,v)は、投影面の2D空間内の2Dサンプルの座標を定義する。Zは、この投影面上に投影された3Dサンプルの深度値である。(R,G,B)または(y,U,V)は、この3Dサンプルの色を定義する。
図1は、本実施形態のうちの少なくとも1つに従う、2層ベースの点群符号化構造1000の例の概略ブロック図を示す。
2層ベースの点群符号化構造1000は、入力点群フレームIPCFを表すビットストリームBを提供することができる。場合によっては、当該入力点群フレームIPCFは、動的点群のフレームを表す。次いで、当該動的点群のフレームは、別のフレームとは独立して、2層ベースの点群符号化構造1000によって符号化され得る。
基本的に、2層ベースの点群符号化構造1000は、ベース層BLおよびエンハンスメント層ELとしてビットストリームBを構造化する能力を提供することができる。ベース層BLは、入力点群フレームIPCFの不可逆表現を提供することができ、エンハンスメント層ELは、ベース層BLによって表されない孤立した点を符号化することによって、可逆表現を提供することができる。可能な選択肢として、エンハンスメント層ELは、ベース層BLによっては表されない追加の点を符号化することによって、入力点群フレームIPCFのより高品質(ただし、不可逆)の表現を提供することができる。
ベース層BLは、図3に示すように、画像ベースエンコーダ3000によって提供され得、その画像ベースエンコーダは、入力点群フレームIPCFの3Dサンプルの幾何形状/属性を表す幾何形状/テクスチャ画像を提供することができ、孤立した3Dサンプルを廃棄するのを可能にすることができる。ベース層BLは、図4に示すように、画像ベースデコーダ4000によって復号化され得、その画像ベースデコーダは、中間の再構築された点群フレームIRPCFを提供することができる。
次いで、図1の2層ベースの点群符号化1000に戻ると、コンパレータCOMPが、入力点群フレームIPCFの3Dサンプルを中間の再構築された点群フレームIRPCFの3Dサンプルと比較して、見逃した/孤立した3Dサンプルを検出/配置することができる。次に、エンコーダENCが、見逃した3Dサンプルを符号化し得、エンハンスメント層ELを提供することができる。最後に、ベース層BLおよびエンハンスメント層ELは、多重化デバイスMUXによって共に多重化されてビットストリームBを生成することができる。
実施形態によれば、エンコーダENCは、中間の再構築された点群フレームIRPCFの3D基準サンプルを検出し、見逃した3DサンプルMに関連付け得る検出器を含み得る。エンコーダENCはまた、画像ベースエンコーダとすることもできる。
例えば、見逃した3DサンプルMに関連付けられた3D基準サンプルRは、所与のメートルに応じて、Mの最も近くに隣接するものであり得る。
実施形態によれば、エンコーダENCは、次いで、当該3D基準サンプルRの空間位置および属性に従って決定される差として、見逃した3DサンプルMの空間位置、およびそれらの属性を符号化することができる。
変形例では、それらの差は、別個に符号化されてもよい。
例えば、見逃した3DサンプルMの場合、空間座標x(M)、y(M)、およびz(M)を用いて、x-座標差Dx(M)、y-座標位置差Dy(M)、z-差Dz(M)、R-属性成分差Dr(M)、G-属性成分差Dg(M)、およびB-属性成分差Db(M)は、以下のように、計算することができる。
Dx(M)=x(M)-x(R)、
ここで、x(M)は、図3により与えられる幾何形状画像における3DサンプルMのx-座標であり、Rについても、それぞれ同様であり、
Dy(M)=y(M)-y(R)
ここで、y(M)は、図3により与えられる幾何形状画像における3DサンプルMのy-座標であり、Rについても、それぞれ同様であり、
Dz(M)=z(M)-z(R)
ここで、z(M)は、図3により与えられる幾何形状画像における3DサンプルMのz-座標であり、Rについても、それぞれ同様であり、
Dr(M)=R(M)-R(R)。
ここで、R(M)、R(R)は、それぞれ、3DサンプルM、R、それぞれの色属性のr-色成分であり、
Dg(M)=G(M)-G(R)。
ここで、G(M)、G(R)は、それぞれ、3DサンプルM、R、それぞれの色属性のg-色成分であり、
Db(M)=B(M)-B(R)。
ここで、B(M)、B(R)は、それぞれ、3DサンプルM、R、それぞれの色属性のb-色成分である。
図2は、本実施形態のうちの少なくとも1つに従う、2層ベースの点群復号化構造2000の例の概略ブロック図を示す。
2層ベースの点群復号化構造2000の動作は、その能力に依存する。
限定された能力を有する2層ベースの点群復号化構造2000は、多重分離デバイスDMUXを使用することによって、ビットストリームBからベース層BLのみにアクセスし得、次いで、図4に示すように、点群デコーダ4000によりベース層BLを復号化することによって、入力点群フレームIPCFの忠実な(ただし、不可逆な)バージョンRPCFを提供することができる。
完全な能力を有する2層ベースの点群復号化構造2000は、多重分離デバイスDMUXを使用することによって、ビットストリームBからベース層BLおよびエンハンスメント層ELの両方にアクセスすることができる。図4に示すように、点群デコーダ4000は、ベース層BLから、再構築された点群フレームRPCFを決定することができる。デコーダDECは、エンハンスメント層ELから相補形点群フレームCPCFを決定することができる。次いで、結合器COMは、再構築された点群フレームRPCF、および相補形点群フレームCPCFを共に結合して、したがって、入力点群フレームIPCFの可逆的な(またはより高品質な)表現(再構築)CRPCFを提供することができる。
図3は、本実施形態のうちの少なくとも1つに従う、画像ベースの点群エンコーダ3000の例の概略ブロック図を示す。
画像ベースの点群エンコーダ3000は、既存のビデオコーデックを活用し、動的点群の幾何形状およびテクスチャ(属性)情報を圧縮する。これは、点群データを一組の異なるビデオシーケンスに実質的に変換することによって達成される。
特定の実施形態では、2つのビデオ、すなわち、点群データの幾何形状情報を取り込むための一つのビデオ、およびテクスチャ情報を取り込むための別のビデオが、既存のビデオコーデックを使用して生成および圧縮され得る。既存のビデオコーデックの例としては、HEVCメインプロファイルエンコーダ/デコーダ(ITU-T H.265 ITU電気通信標準化部門(02/2018)、シリーズH、すなわち、視聴覚およびマルチメディアシステム、視聴覚サービスのインフラストラクチャ-ビデオ動画の符号化、高効率ビデオ符号化、勧告ITU-T H.265)がある。
2つのビデオを解釈するために使用される追加のメタデータもまた、通常、別個に生成および圧縮される。このような追加のメタデータは、例えば、占有率マップOMおよび/または補助パッチ情報PIを含む。
次いで、生成されたビデオビットストリームおよびメタデータは、共に多重化されて結合されたビットストリームを生成することができる。
メタデータは、通常、情報全体のわずかな量を表すことに留意されたい。情報の大部分は、ビデオビットストリーム内にある。
係る点群符号化/復号化プロセスの例は、ISO/IECJTC1/SC29/WG11MPEG2018/N18030、およびN17996(2018年10月、マカオ)で規定されているように、試験モデルカテゴリ2アルゴリズム(V-PCCとも表記される)によって与えられる。
ステップ3100において、パッチ生成モジュールPGMは、最善の圧縮を提供する方策を使用して、入力点群フレームIPCFを表す3Dサンプルのデータセットを、所与の投影面上の2Dサンプルに分解することによって、少なくとも1つのパッチを生成することができる。
パッチは、一組の2Dサンプルとして定義され得る。
例えば、V-PCCでは、例えば、Hoppeらの報告(Hugues Hoppe、Tony DeRose、Tom Duchamp、John McDonald、Werner Stuetzle、Surface reconstruction from unorganized points、ACMSIGGRAPH 1992 Proceedings、71-78)に記載されているように、3Dサンプルごとの法線は、最初に推定される。次に、入力点群フレームIPCFの初期のクラスタ化は、入力点群フレームIPCFの3Dサンプルを取り囲む3D境界ボックスの6つの配向面のうちの1つに各3Dサンプルを関連付けることによって、取得される。より正確には、各3Dサンプルは、クラスタ化され、最も近い法線(点法線および面法線のドット積を最大化する)を有する配向面に関連付けられる。次いで、3Dサンプルは、それらの関連した平面に投影される。それらの平面内で接続領域を形成する一組の3Dサンプルは、接続された成分と呼ばれる。接続された成分は、同様の法線および同じ関連する配向面を有する少なくとも1つの3Dサンプルの一組である。次いで、初期のクラスタ化は、各3Dサンプルに関連付けられたクラスタを、その法線、およびその最も近い隣接するサンプルのクラスタに基づいて、繰り返し更新することによって、精緻化される。最終ステップは、各接続された成分から1つのパッチを生成することからなり、それは、各接続された成分の3Dサンプルを、当該接続された成分に関連付けられた配向面上に投影することによって、実行される。
パッチが、補助パッチ情報PIに関連付けられており、その補助パッチ情報は、各パッチが、幾何形状および/または属性情報に対応する投影された2Dサンプルを解釈するように定義された補助パッチ情報を表す。
V-PCCにおいて、例えば、補助パッチ情報PIは、1)接続された成分の3Dサンプルを取り囲む、3D境界ボックスの6つの配向面のうちの1つを示す情報、2)平面法線に関する情報、3)深度、接線シフト、および両接線シフトに換算して表されたパッチに対して、接続された成分の3D位置を決定する情報、および4)パッチを取り囲む2D境界ボックスを定義する投影面における座標(u0,v0,u1,v1)などの情報を含む。
ステップ3200において、パッチパッキングモジュールPPMが、未使用空間を最小限に抑える方法で、全く重なり合うことなく、少なくとも1つの生成されたパッチを2Dグリッド(キャンバスとも呼ばれる)上にマッピング(配置)することができ、2DグリッドのTxT(例えば、16x16)のブロックごとに、一意のパッチに関連付けられることを保証することができる。2Dグリッドの所与の最小ブロックサイズTxTは、この2Dグリッド上に配置される際に、別個のパッチ間の最小距離を指定することができる。2Dグリッドの解像度は、入力点群サイズに依存し得、その幅Wおよび高さH、ならびにブロックサイズTは、メタデータとしてデコーダに送信され得る。
補助パッチ情報PIは、2Dグリッドのブロックとパッチとの間の関連付けに関する情報をさらに含むことができる。
V-PCCにおいて、補助情報PIは、2Dグリッドのブロックとパッチインデックスとの間の関連付けを決定するパッチインデックス情報へのブロックを含む。
パッチに属する2Dサンプルを包含するTxTブロックは、対応する占有率マップOM内の占有ブロックと見なし得る。次いで、占有率マップOMのブロックは、ブロックが占有されているかどうか、すなわち、パッチに属する2Dサンプルを包含するかどうかを示すことができる。
画像生成プロセス(ステップ3300および3400)は、少なくとも1つの生成されたパッチの、ステップ3200中に計算された2Dグリッド上へのマッピングを有効活用して、入力点群フレームIPCFの幾何形状およびテクスチャを画像として格納する。
ステップ3300において、幾何形状画像生成器GIGは、入力点群フレームIPCF、占有率マップOM、および補助パッチ情報PIから、少なくとも1つの幾何形状画像GIを生成することができる。幾何形状画像生成器GIGは、占有率マップ情報を有効活用して、占有されたブロック、したがって、幾何形状画像GI内の空でない画素を検出(配置)することができる。
幾何形状画像GIは、入力点群フレームIPCFの幾何形状を表すことができ、例えば、YUV420-8ビット形式で表されるWxH画素の単色画像とすることができる。
複数の3Dサンプルが(同じ投影方向(線)に沿って)投影面の同じ2Dサンプルに投影(マッピング)される場合をよりうまく処理するために、層と呼ばれる複数の画像が生成され得る。したがって、パッチの2Dサンプルは、関連付けられる異なる深度値D1、・・・、Dnを有することができ、複数の幾何形状画像が生成される。
V-PCCにおいて、パッチの2Dサンプルは、2層上に投影される。第1の層は、近い層とも呼ばれるが、例えば、最も低い深度を有する2Dサンプルに関連付けられた深度値D0を格納することができる。第2の層は、遠い層と呼ばれるが、例えば、最も高い深度を有する2Dサンプルに関連付けられた深度値D1と、D0との間の差を格納することができる。したがって、第2の深度画像により格納される情報は、[D0,D0+Δ]の範囲内の深度値に対応する間隔[0,Δ]内にあり、ここで、Δは、表面厚さを表す、ユーザ定義されたパラメータである。
このようにして、第2の層は、著しい起伏状の頻度の高い特徴を含み得る。したがって、第2の深度画像は、旧来のビデオコーダを使用することによって符号化されることは、極めて難しく、それゆえに、深度値は、当該復号化される第2の深度画像から十分に再構築されず、結果として、再構築された点群フレームの幾何形状の質が悪いことが明らかに見える。
実施形態によれば、幾何形状画像生成モジュールGIGは、補助パッチ情報PIを使用することによって、第1および第2の層の2Dサンプルに関連付けられた深度値を符号化(導出)することができる。
V-PCCにおいて、対応する接続された成分を有するパッチ内の3Dサンプルの位置は、深度δ(u,v)、接線シフトs(u,v)、および両接線シフトr(u,v)に換算して、以下のように表され得る。
ここで、g(u、v)は、幾何形状画像のルーマ成分であり、(u,v)は、投影面上の3Dサンプルに関連付けられた画素であり、(δ0,s0,r0)は、3Dサンプルが属する接続された成分の対応するパッチの3D位置であり、(u0,v0,u1,v1)は、当該接続された成分に関連付けられたパッチの投影を包含する2D境界ボックスを画定する、当該投影面内の座標である。
したがって、幾何形状画像生成モジュールGIGは、g(u,v)=δ(u,v)-δ0によって与えられるルーマ成分g(u,v)として、層(第1もしくは第2、またはその両方)の2Dサンプルに関連付けられた深度値を符号化(導出)することができる。この関係を用いると、付随する補助パッチ情報PIを使って、再構築された幾何形状画像g(u,v)から3Dサンプル位置(δ0,s0,r0)を再構築することができることに留意する。
実施形態によれば、投影モードを使用して、第1の幾何形状画像GI0が第1または第2の層のいずれかの2Dサンプルの深度値を格納し得るかどうか、また第2の幾何形状画像GI1が第2または第1の層のいずれかの2Dサンプルに関連付けられた深度値を格納し得るかどうかを示すことができる。
例えば、投影モードが0に等しいとき、第1の幾何形状画像GI0は、第1の層の2Dサンプルの深度値を格納し得、第2の幾何形状画像GI1は、第2の層の2Dサンプルに関連付けられた深度値を格納し得る。相反的に、投影モードが1に等しいとき、第1の幾何形状画像GI0は、第2の2Dサンプルの深度値を格納し得、第2の幾何形状画像GI1は、第1の層の2Dサンプルに関連付けられた深度値を格納し得る。
実施形態によれば、フレーム投影モードを使用して、固定投影モードがすべてのパッチに使用されているかどうか、または各パッチが異なる投影モードを使用し得る可変投影モードが使用されているかどうかを示すことができる。
投影モードおよび/またはフレーム投影モードは、メタデータとして送信され得る。
フレーム投影モード決定アルゴリズムが、例えば、V-PCCのセクション2.2.1.3.1で提供され得る。
実施形態によれば、フレーム投影が可変投影モードを使用し得ることを示すとき、パッチ投影モードを使用して、パッチを投影する(復元する)ために使用する適切なモードを示すことができる。
パッチ投影モードは、メタデータとして送信され得、場合によっては、補助パッチ情報PI内に含まれる情報であってもよい。
パッチ投影モード決定アルゴリズムが、V-PCCのセクション2.2.1.3.2内に例として提供されている。
ステップ3300の実施形態によれば、パッチの2Dサンプル(u,v)に対応する第1の幾何形状画像、例えばGI1内の画素値は、当該2Dサンプル(u,v)に対応する投影線に沿って画定された少なくとも1つの中間3Dサンプルに関連付けられた深度値を表し得る。当該中間3Dサンプルは、投影線に沿って存在し、深度値D0が第2の幾何形状画像、例えばGI0内で符号化される2Dサンプルの同じ座標(u,v)を共有する。さらに、当該中間3Dサンプルは、深度値D0と深度値D0+ST(表面厚さ値)との間の深度値を有することができる。指定されたビットが、各当該中間3Dサンプルに関連付けられ得、中間3Dサンプルが存在する場合は1、それ以外の場合は0に設定される。
次いで、当該投影線に沿った当該指定されたビットは、すべて連結されてコードワードを形成し得、以降ではこれは、エンハンスドデルタ深度(EDD)コードと呼ばれる。最後に、すべてのEDDコードは、画像内、例えば、第1の幾何形状画像GI1または占有率マップOM内にパッキングされ得る。
ステップ3400において、テクスチャ画像生成器TIGは、入力点群フレームIPCFからの少なくとも1つのテクスチャ画像TI、占有率マップOM、補助パッチ情報PI、および少なくとも1つの復号化された幾何形状画像DGI、すなわちビデオデコーダVDEC(図4のステップ4200)の出力から導出された、再構築された点群フレームの幾何形状を生成することができる。
テクスチャ画像TIは、入力点群フレームIPCFのテクスチャを表し得、例えば、YUV420-8ビット形式で表されるWxH画素の画像であってもよい。
テクスチャ画像生成器TGは、占有率マップ情報を有効活用して、占有されたブロック、したがって、テクスチャ画像内の空でない画素を検出(配置)することができる。
テクスチャ画像生成器TIGは、テクスチャ画像TIを生成し、そのテクスチャ画像を各幾何形状画像/層DGIに関連付けるように適合され得る。
実施形態によれば、テクスチャ画像生成器TIGは、第1の層の2Dサンプルに関連付けられたテクスチャ(属性)値T0を、第1のテクスチャ画像TI0の画素値として、また第2の層の2Dサンプルに関連付けられたテクスチャ値T1を、第2のテクスチャ画像TI1の画素値として、符号化(格納)することができる。
別の方法として、テクスチャ画像生成モジュールTIGは、第2の層の2Dサンプルに関連付けられたテクスチャ値T1を、第1のテクスチャ画像TI0の画素値として、また第1の層の2Dサンプルに関連付けられたテクスチャ値D0を、第2の幾何形状画像GI1の画素値として、符号化(格納)することができる。
例えば、3Dサンプルの色は、V-PCCのセクション2.2.3、2.2.4、2.2.5、2.2.8、または2.5で説明されているように、取得され得る。
実施形態によれば、パディングプロセスが、幾何形状および/またはテクスチャ画像上で適用され得る。パッチ間の空白を埋める目的は、ビデオ圧縮に適した区分の滑らかな画像を生成することである。
画像パディングの例が、V-PCCのセクション2.2.6および2.2.7で提供されている。
ステップ3500において、ビデオエンコーダVENCは、生成された画像/層TIおよびGIを符号化することができる。
ステップ3600において、エンコーダOMENCは、例えば、V-PCCのセクション2.2.2に詳述されているように、占有率マップを画像として符号化することができる。不可逆的または可逆的符号化を使用することができる。
実施形態によれば、ビデオエンコーダENCおよび/またはOMENCは、HEVCベースのエンコーダであってもよい。
ステップ3700において、エンコーダPIENCは、補助パッチ情報PI、ならびに幾何形状/テクスチャ画像のブロックサイズT、幅W、および高さHなどの、追加の可能性のあるメタデータを符号化することができる。
実施形態によれば、補助パッチ情報は、差動的に符号化されてもよい(例えば、V-PCCのセクション2.4.1で定義されているように)。
ステップ3800において、生成されたビデオビットストリーム、すなわち、ステップ3500、3600、および3700の出力を共に多重化して、ベース層BLで表すビットストリームを生成することができる。メタデータ情報は、ビットストリーム全体のうちのわずかな割合を表すことに留意されたい。情報の大部分は、ビデオコーデックを使用して圧縮される。
図4は、本実施形態のうちの少なくとも1つに従う、画像ベースの点群デコーダ4000の例の概略ブロック図を示す。
ステップ4100において、多重分離デバイスDMUXは、ベース層BLを表すビットストリームの符号化された情報にアクセスすることができる。
ステップ4200において、ビデオデコーダVDECは、符号化された情報を復号化して、少なくとも1つの復号化された幾何形状画像DGI、および少なくとも1つの復号化されたテクスチャ画像DTIを導出することができる。
ステップ4300において、デコーダOMDECが、符号化された情報を復号化して、復号化された占有率マップDOMを導出することができる。
実施形態によれば、ビデオデコーダVDECおよび/またはOMDECは、HEVCベースのデコーダであってもよい。
ステップ4400において、デコーダPIDECが、符号化された情報を復号化して、補助パッチ情報DPIを導出することができる。
場合によっては、メタデータもまた、ビットストリームBLから導出され得る。
ステップ4500において、幾何形状生成モジュールGGMは、少なくとも1つの復号化された幾何形状画像DGI、復号化された占有率マップDOM、復号化された補助パッチ情報DPI、および可能性のある追加のメタデータから、再構築された点群フレームRPCF(またはIRPCF)の幾何形状RGを導出することができる。
幾何形状生成モジュールGGMは、復号化された占有率マップ情報DOMを有効に活用して、少なくとも1つの復号化された幾何形状画像DGI内の空でない画素を見つけ出すことができる。次いで、空でない画素に関連付けられた再構築された3Dサンプルの3D座標は、当該空でない画素の座標、および当該再構築された2Dサンプルの値から導出され得る。
実施形態によれば、幾何形状生成モジュールGGMは、空でない画素の座標から、再構築された3Dサンプルの3D座標を導出することができる。
実施形態によれば、幾何形状生成モジュールGGMは、空でない画素の座標、少なくとも1つの復号化された幾何形状画像DGIのうちの1つの当該空でない画素の値、復号化された補助パッチ情報から、および場合によっては、追加のメタデータから、再構築された3Dサンプルの3D座標を導出することができる。
空でない画素の使用は、2D画素の、3Dサンプルとの関係に基づいている。例えば、V-PCC内の当該投影を使って、再構築された3Dサンプルの3D座標は、深度δ(u,v)、接線シフトs(u,v)、および両接線シフトr(u,v)に換算して、以下のように表され得る。
ここで、g(u、v)は、復号化された幾何形状画像DGIのルーマ成分であり、(u,v)は、再構築された3Dサンプルに関連付けられた画素であり、(δ0,s0,r0)は、再構築された3Dサンプルが属する接続された成分の3D位置であり、(u0,v0,u1,v1)は、当該接続された成分に関連付けられたパッチの投影を包含する2D境界ボックスを画定する、投影面内の座標である。
ステップ4600において、テクスチャ生成モジュールTGMは、幾何形状RG、および少なくとも1つの復号化されたテクスチャ画像DTIから、再構築された点群フレームRPCF(またはIRPCF)のテクスチャを導出することができる。
図5は、本実施形態のうちの少なくとも1つに従う、ベース層BLを表すビットストリームの例示的なシンタックスを概略的に示す。
ビットストリームは、ビットストリームヘッダBSH、および少なくとも1つのフレームストリームグループGOFSを含む。
フレームストリームグループGOFSは、ヘッダHS、占有率マップOMを表す少なくとも1つのシンタックス要素OMS、少なくとも1つの幾何形状画像(またはビデオ)を表す少なくとも1つのシンタックス要素GVS、少なくとも1つのテクスチャ画像(またはビデオ)を表す少なくとも1つのシンタックス要素TVS、および補助パッチ情報を表す少なくとも1つのシンタックス要素PIS、ならびに他の追加のメタデータを含む。
変形例では、フレームストリームグループGOFSは、少なくとも1つのフレームストリームを含む。
図6は、様々な態様および実施形態が実装されるシステムの例を例証する概略ブロック図を示す。
システム6000は、以下に説明されている様々なコンポーネントを含む1つ以上のデバイスとして具現化され得、本文書に記載されている態様のうちの1つ以上を実行するように構成されている。システム6000のすべてまたは一部を形成し得る機器の例としては、パーソナルコンピュータ、ラップトップ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビジョン受信機、パーソナルビデオレコーディングシステム、接続された家庭電化製品、ヘッドマウントディスプレイデバイス(HMD、シースルーグラス)、プロジェクタ(ビーマー)、「没入型バーチャルリアリティ体験装置(caves)」(複数のディスプレイを含むシステム)、サーバ、ビデオエンコーダ、ビデオデコーダ、ビデオデコーダから出力されるポストプロセッサ処理、ビデオエンコーダへの入力を提供するプリプロセッサ、ウェブサーバ、セットトップボックス、および点群、ビデオ、もしくは画像を処理するための任意の他のデバイス、または他の通信デバイスが含まれる。システム6000の要素は、単独で、または組み合わされて、単一の集積回路、複数のIC、および/または個別のコンポーネントで具現化されてもよい。例えば、少なくとも1つの実施形態では、システム6000の処理およびエンコーダ/デコーダ要素は、複数のICおよび/または個別のコンポーネントにわたって分散されてもよい。様々な実施形態では、システム6000は、例えば、通信バスを介して、または専用の入力または出力ポートを通じて、他の同様のシステムに、または他の電子デバイスに通信可能に結合されてもよい。様々な実施形態では、システム6000は、本文書に記載された態様のうちの1つ以上を実装するように構成することができる。
システム6000は、例えば、本文書に記載された様々な態様を実施するために、内部にロードされた命令を実行するように構成されている少なくとも1つのプロセッサ6010を含むことができる。プロセッサ6010は、埋め込み型メモリ、入力出力インターフェース、および当技術分野で既知の様々な他の回路を含むことができる。システム6000は、少なくとも1つのメモリ6020(例えば、揮発性メモリデバイスおよび/または不揮発性メモリデバイス)を含むことができる。システム6000は、記憶6040を含むことができ、その記憶装置は、不揮発性メモリおよび/または揮発性メモリを含むことができ、それらのメモリには、電気的消去可能型プログラマブルデバイス読み出し専用メモリ(EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、フラッシュ、磁気ディスクデバイス、および/または光ディスクデバイスが含まれるが、これらに限定されない。記憶デバイス6040には、非限定的な例として、内部記憶デバイス、接続型記憶デバイス、および/またはネットワークアクセス可能型記憶デバイスが含まれ得る。
システム6000は、例えば、データを処理して符号化されたデータ、または復号化されたデータを提供するように構成されているエンコーダ/デコーダモジュール6030を含むことができ、エンコーダ/デコーダモジュール6030は、それ自体が保有するプロセッサおよびメモリを含むことができる。エンコーダ/デコーダモジュール6030は、デバイス内に含まれて、符号化および/または復号化機能を実行することができるモジュール(複数可)を表し得る。知られているように、デバイスが、符号化および復号化モジュールのうちの一方または両方を含んでもよい。追加的に、エンコーダ/デコーダモジュール6030は、システム6000の別個の要素として実装されてもよく、または当業者にとっては既知であるように、ハードウェアおよびソフトウェアの組み合わせとして、プロセッサ6010内に組み込まれてもよい。
本文書に記載された様々な態様を実行するためのプロセッサ6010またはエンコーダ/デコーダ6030にロードされるプログラムコードは、記憶デバイス6040内に格納され得、その後、プロセッサ6010による実行のためのメモリ6020上にロードされ得る。様々な実施形態によれば、プロセッサ6010、メモリ6020、記憶デバイス6040、およびエンコーダ/デコーダモジュール6030のうちの1つ以上が、本文書に記載されたプロセスの実行中に、様々な項目のうちの1つ以上を格納することができる。係る格納される項目には、点群フレーム、符号化/復号化された幾何形状/テクスチャビデオ/画像もしくは符号化/復号化された幾何形状/テクスチャビデオ/画像の一部、ビットストリーム、行列、変数、ならびに数式、公式、演算、および演算ロジックの処理からの中間もしくは最終結果が含まれ得るが、これらに限定されない。
いくつかの実施形態では、プロセッサ6010および/またはエンコーダ/デコーダモジュール6030内部のメモリを使用して、命令を格納し、符号化または復号化中に実行され得る処理のための作業メモリを提供することができる。
しかしながら、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ6010またはエンコーダ/デコーダモジュール6030のいずれかであり得る)の外部にあるメモリは、これらの機能のうちの1つ以上に使用され得る。外部メモリは、メモリ6020および/または記憶デバイス6040、例えば、ダイナミック揮発性メモリおよび/または不揮発性フラッシュメモリであってもよい。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、テレビジョンのオペレーティングシステムを格納することができる。少なくとも1つの実施形態では、RAMなどの高速外部ダイナミック揮発性メモリは、MPEG-2パート2(ITU-T勧告H.262およびISO/IEC13818-2としても知られており、MPEG-2ビデオとしても知られている)、HEVC(高効率ビデオ符号化)、またはVVC(多機能ビデオ符号化)用などのビデオ符号化および復号化動作のための作業メモリとして使用することができる。
システム6000の要素への入力は、ブロック6130に示されているように、様々な入力デバイスを介して提供され得る。係る入力デバイスには、(i)例えば、放送局による、空中をわたって送信されるRF信号を受信し得るRF部分、(ii)複合入力端子、(iii)USB入力端子、および/または(iv)HDMI(登録商標)入力端子が含まれるが、これらに限定されない。
様々な実施形態では、ブロック6130の入力デバイスは、当技術分野で既知の、関連するそれぞれの入力処理要素を有してもよい。例えば、RF部分は、(i)所望の周波数を選択する(信号を選択する、または信号を周波数帯域に帯域制限するとも称される)、(ii)選択された信号をダウンコンバートする、(iii)特定の実施形態で、(例えば)チャネルと称され得る信号周波数帯域を選択するために、再びより狭い周波数帯域に帯域制限する、(iv)ダウンコンバートおよび帯域制限された信号を復調する、(v)誤り訂正を実行する、および(vi)データパケットの所望のストリームを選択するために多重分離する、ために必要な要素に関連付けられてもよい。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラーコレクタ、および多重分離デバイスを含むことができる。RF部分は、これらの様々な機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数または近接ベースバンド周波数)に、またはベースバンドにダウンコンバートすることが含まれる。
1つのセットトップボックスの実施形態では、RF部分およびその関連付けられた入力処理要素は、有線(例えば、ケーブル)媒体を経由して送信されるRF信号を受信することができる。次いで、RF部分は、所望の周波数帯域へのフィルタリング、ダウンコンバーティング、および再度のフィルタリングによって、周波数選択を実行することができる。
様々な実施形態が、上述の(および他の)要素の順番を並べ替え、これらの要素の一部を取り除き、かつ/または同様のもしくは異なる機能を実行する他の要素を追加する。
要素を追加することには、既存の要素の間に要素を挿入すること、例えば、増幅器およびアナログデジタルコンバータを挿入することなどが含まれ得る。様々な実施形態では、RF部分は、アンテナを含むことができる。
追加的に、USBおよび/またはHDMI(登録商標)端末は、USBおよび/またはHDMI(登録商標)接続全体にわたって、システム6000を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。例えば、リードソロモン誤り訂正の入力処理の様々な態様は、例えば、別個の入力処理IC内に、または必要に応じて、プロセッサ6010内に実装されてもよいことを理解されたい。同様に、USBまたはHDMI(登録商標)インターフェース処理の態様は、別個のインターフェースIC内に、または必要に応じて、プロセッサ6010内に実装されてもよい。復調され、誤り訂正され、そして多重分離されたストリームは、様々な処理要素に提供され得、その要素には、例えば、プロセッサ6010、ならびに必要に応じて出力デバイスに提示するために、データストリームを処理するためのメモリおよび記憶要素と組み合わせて動作するエンコーダ/デコーダ6030が含まれる。
システム6000の様々な要素が、統合されたハウジング内に提供され得る。統合されたハウジング内では、様々な要素が、適切な接続配置6140を使用して相互接続され、かつ互いの間でデータを送信することができ、その接続配置としては、例えば、当技術分野で既知の内部バスがあり、I2Cバス、配線、およびプリント回路基板が含まれる。
システム6000は、通信インターフェース6050を含み得、その通信インターフェースは、通信チャネル6060を介して、他のデバイスとの通信を可能にする。通信インターフェース6050は、通信チャネル3060を介してデータを送受信するように構成された送受信機を含み得るが、これに限定されない。通信インターフェース6050は、モデムまたはネットワークカードを含み得るが、これに限定されず、通信チャネル6060は、例えば、有線および/または無線媒体内に実装され得る。
様々な実施形態において、データは、IEEE802.11などのWi-Fiネットワークを使用して、システム6000にストリーム伝送され得る。これらの実施形態のWi-Fi信号は、Wi-Fi通信のために適合されている通信チャネル6060および通信インターフェース6050を介して受信され得る。これらの実施形態の通信チャネル6060は、通常、外部ネットワークへのアクセスを提供するアクセスポイントまたはルータに接続され得、その外部ネットワークには、ストリーミングアプリケーションおよび他のオーバーザトップ通信を可能にするためのインターネットが含まれる。
他の実施形態は、入力ブロック6130のHDMI(登録商標)接続を介してデータを送達するセットトップボックスを使用して、ストリームデータをシステム6000に提供することができる。
さらなる他の実施形態が、入力ブロック6130のRF接続を使用して、ストリームデータをシステム6000に提供することができる。
信号伝達は、様々な方法で達成され得ることを理解されたい。例えば、様々な実施形態において、1つ以上のシンタックス要素、フラグなどを使用して、情報を、対応するデコーダに信号伝達することができる。
システム6000は、出力信号を、ディスプレイ6100、スピーカー6110、および他の周辺デバイス6120を含む様々な出力デバイスに提供することができる。他の周辺デバイス6120には、様々な実施形態の例において、スタンドアロン型DVR、ディスクプレーヤー、ステレオシステム、照明システム、およびシステム3000の出力に基づいて機能を提供する他のデバイスのうちの1つ以上が含まれ得る。
様々な実施形態では、制御信号が、AVリンク(オーディオ/ビデオリンク)、CEC(家電製品制御)、またはユーザの関与の有無を問わずデバイス間制御を可能にする他の通信プロトコルなどの信号方式を使用して、システム3000と、ディスプレイ6100、スピーカー6110、または他の周辺デバイス6120との間で伝達され得る。
出力デバイスは、それぞれのインターフェース6070、6080、および6090を通じた専用接続を介して、システム6000に通信可能に結合され得る。
別の方法として、出力デバイスは、通信インターフェース6050を介して、通信チャネル6060を使用して、システム3000に接続され得る。ディスプレイ6100およびスピーカー6110は、例えば、テレビジョンなどの電子デバイス内のシステム6000の他のコンポーネントと共に単一ユニット内に一体化されてもよい。
様々な実施形態では、ディスプレイインターフェース6070は、例えば、タイミングコントローラ(TCon)チップなどのディスプレイドライバを含むことができる。
ディスプレイ6100およびスピーカー6110は、別の方法として、例えば、入力6130のRF部分が別個のセットトップボックスの一部である場合、他のコンポーネントのうちの1つ以上から分離されてもよい。ディスプレイ6100およびスピーカー6110が外部コンポーネントであり得る様々な実施形態では、出力信号は、例えば、HDMI(登録商標)ポート、USBポート、またはCOMP出力を含む、専用の出力接続を介して提供され得る。
図7は、本実施形態のうちの少なくとも1つに従う、ステップ3200、3300、および3500のサブステップの概略ブロック図を示す。
図3を参照して上で説明したように、通常、同じ投影方向(線)に沿って2つ以上の点が存在する。再構築エラーを最小限に抑えるために、第1および第2の深度画像が生成される。
ステップ3300の実施形態によれば、サブステップ3310において、幾何形状画像生成器GIは、より低い深度値D0、すなわち、より低い深度を有する2Dサンプル(投影面からより近い、点群の点)に関連付けられた深度値、を格納する第1の深度画像GI0、およびより遠い深度値D1、すなわち、より遠い深度を有する2Dサンプル(投影面からより遠い、点群の点)に関連付けられた深度値、を格納する第2の深度画像GI1を生成するように適合され得る。
ステップ3300の実施形態によれば、サブステップ3310において、幾何形状画像生成器GIは、最小深度値D0、すなわち、最も低い深度を有する2Dサンプルに関連付けられた深度値、を格納する第1の深度画像GI0、および最大深度値D1、すなわち、最も遠い深度を有する2Dサンプルに関連付けられた深度値、を格納する第2の深度画像GI1を生成するように適合され得る。
サブステップ3310の変形例によれば、第1の深度画像GI0は、最大深度値D1、すなわち、最も遠い深度を有する2Dサンプルに関連付けられた深度値、を格納することができ、第2の深度画像GI1は、最小深度値D0、すなわち、最も低い深度を有する2Dサンプルに関連付けられた深度値、を格納することができる。
深度画像が、深度値の差を格納するのではなく、従来技術のように極めて顕著な輪郭状の頻度の高い特徴を格納することを回避する場合、絶対深度値を格納する。したがって、第1および第2の深度画像は、旧来型のビデオエンコーダによってより良好に符号化され、したがって、深度値は、当該復号化された第2の深度画像から十分に再構築され、その結果、再構築された点群フレームの高品質な幾何形状をもたらす。
ステップ3300の実施形態によれば、サブステップ3320において、幾何形状画像生成器GIGは、第1および第2の深度画像上にパディングプロセスを適用するように適合されて、少なくとも1つの生成されたパッチ間の空スペースを埋め、したがって、第1および第2の滑らかな深度画像を生成することができる。
例えば、V-PCCのセクション2.2.6および2.2.7で提供された画像パディング例を使用してもよい。
ステップ3500の実施形態によれば、サブステップ3510において、第1および第2のパディングされた深度画像GI0およびGI1が第1の入力点群フレームIPCF1から生成され得、第1および第2のパディングされた深度画像GI0およびGI1が第2の入力点群フレームIPCF2から生成され得るとき(図7のステップ3300の出力)、エンコーダVENCは、当該パディングされた第1および第2の深度画像をビデオストリームに時間インターリービングするように適合され得る。
例えば、当該時間インターリービングは、最初に、第1の入力点群フレームIPCF1から生成された第1および第2のパディングされた深度画像を、次に、第2の入力点群フレームIPFC2から生成された第1および第2のパディングされた画像、すなわち、GI0、GI1、GI0、およびGI1を考慮することによって、ビデオストリームを生成するように適合されてもよい。
この時間インターリービングの例は、限定的なものではなく、読者は、係る時間インターリービングが3つ以上の入力点群フレームに適用することができることを理解するであろう。
ある変形例では、第1および第2のパディングされた深度画像を同じビットストリーム内で時間インターリービングするのではなく、第1のパディングされた深度画像が、サブストリーム内に出力されてもよく、第2のパディングされた深度画像が、別のサブストリーム内に出力されてもよい。
ステップ3500の実施形態によれば、サブステップ3520において、ビデオエンコーダVENCは、以前に符号化された入力点群フレームから生成された、それぞれ第1の、第2のパディングされた深度画像により、現在の入力点群フレームから生成された、それぞれ第1の、第2のパディングされた深度画像の予測を使用することによって、符号化された当該ビデオストリームに適合され得る。
ステップ3500の実施形態によれば、サブステップ3520において、入力点群フレームから生成された第2のパディングされた深度画像は、以前に符号化された入力点群フレームから生成された第1のパディングされた深度画像によって推測され得る。
ステップ3500の実施形態によれば、サブステップ3520において、現在の入力点群フレームから生成された第1のパディングされた深度画像は、以前に符号化された入力点群フレームから生成された第1のパディングされた深度画像によって予測され得、当該現在の入力点群フレームから生成された第2のパディングされた深度画像は、当該現在の入力点群フレームから生成された第1のパディングされた深度画像によって予測され得る。
図8は、本実施形態のうちの少なくとも1つに従う、ステップ4200および4500のサブステップの概略ブロック図を示す。
ステップ4200において、ビデオデコーダVDECは、ビデオストリームを復号化して、復号化されたビデオストリーム、多重分離装置DMUXの出力(ステップ4100)を提供し、そして当該復号化されたビデオストリームから少なくとも1つの復号化された幾何形状画像DGIを導出する。
ステップ4200の実施形態によれば、サブステップ4210において、ビデオストリームを復号化することは、以前に復号化された入力点群フレームに対するそれぞれ第1の、第2の深度画像によって、現在の入力点群フレームに対するそれぞれ第1の、第2の深度画像の予測を使用することができる。
ステップ4200の実施形態によれば、サブステップ4210において、入力点群フレームに対する第2の深度画像が、以前に復号化された入力点群フレームに対する第1の深度画像によって予測され得る。
ステップ4200の実施形態によれば、サブステップ4210において、現在の入力点群フレームに対する第1の深度画像は、以前に復号化された入力点群フレームに対する第1の深度画像によって予測され得、当該現在の入力点群フレームに対する第2の深度画像は、当該現在の入力点群フレームに対する第1の深度画像によって予測され得る。
ステップ4200の実施形態によれば、サブステップ4220において、第1および第2の復号化された深度画像DGI0およびDGI1が、復号化されたビデオストリームから導出され得、第1および第2の復号化された深度画像DGI0およびDGI1が、復号化されたビデオストリームから導出され得るとき、デコーダVDECは、時間デインターリービングによって当該第1および第2の復号化された深度画像にアクセスするように適合され得る。
ステップ4200の実施形態によれば、サブステップ4220において、当該時間デインターリービングは、第1の入力点群フレームIPCF1を表す、3Dサンプルの深度値を表す、第1および第2の復号化された深度画像DGI0およびDGI1、ならびに第2の入力点群フレームIPCF2を表す、3Dサンプルの深度値を表す、第1および第2の復号化された深度画像DGI0およびDGI1、を表す復号化されたビデオストリームにアクセスするように適合され得る。
例えば、当該時間デインターリービングは、最初に、第1の入力点群フレームIPCF1を表す、3Dサンプルの深度値を表す、第1および第2の復号化された深度画像を表す、復号化されたビデオストリームの情報、次に、第2の入力点群フレームIPFC2から生成された第1および第2の復号化された画像を表す、復号化されたビデオストリームの情報、すなわち、DGI0、DGI1、DGI0、およびDGI1にアクセスするように適合され得る。
この時間デインターリービングの例は、限定的なものではなく、読者は、係る時間デインターリービングが3つ以上の入力点群フレームに適用することができることを理解するであろう。
ステップ4200の実施形態によれば、第1の復号化された深度画像DGI0は、より低い深度値を表す情報、すなわち、より低い深度を有する2Dサンプルに関連付けられた深度値を表す情報、を格納することができ、第2の復号化された深度画像DGI1は、より遠い深度値を表す情報、すなわち、より遠い深度を有する2Dサンプルに関連付けられた深度値を表す情報、を格納することができる。
ステップ4200の実施形態によれば、第1の復号化された深度画像DGI0は、最小深度値を表す情報、すなわち、最も低い深度を有する2Dサンプルに関連付けられた深度値を表す情報、を格納することができ、第2の復号化された深度画像DGI1は、最大深度値、すなわち、最も遠い深度を有する2Dサンプルに関連付けられた深度値、を表す情報を格納することができる。
ある変形例によれば、第1の復号化された深度画像DGI0は、より遠い深度値を表す情報、すなわち、より遠い深度を有する2Dサンプルに関連付けられた深度値を表す情報、を格納することができ、第2の復号化された深度画像DGI1は、より低い深度値、すなわち、より低い深度を有する2Dサンプルに関連付けられた深度値、を表す情報を格納することができる。
ある変形例によれば、第1の復号化された深度画像DGI0は、最大深度値を表す情報、すなわち、最も遠い深度を有する2Dサンプルに関連付けられた深度値を表す情報、を格納することができ、第2の復号化された深度画像DGI1は、最小深度値、すなわち、最も低い深度を有する2Dサンプルに関連付けられた深度値、を表す情報を格納することができる。
サブステップ4510の実施形態によれば、生成モジュールGGMは、当該少なくとも1つの復号化された深度画像DGIのうちの1つをフィルタリングするように適合され得る。
少なくとも1つの復号化された深度画像をフィルタリングすることにより、再構築された3Dサンプルの3D座標の再構築品質を改善することができる。
サブステップ4510の実施形態によれば、復号化された深度画像をフィルタリングするには、別の深度画像の画素値を使用する。
ステップ4500の実施形態によれば、サブステップ4510において、第1の復号化された深度画像DGI0が最小深度値を格納し、第2の復号化された深度画像DGI1が最大深度値を格納し、生成モジュールGGMは、当該第2の深度画像DGI1をフィルタリングするように適合され得る。次に、サブステップ4520において、生成モジュールGGMは、空でない画素の座標、当該第1の復号化された深度画像DGI0、および当該第2のフィルタリングされた復号化された深度画像DGI1の当該空でない画素の値、復号化された補助パッチ情報から、ならびに場合によっては、追加のメタデータから、再構築された3Dサンプルの3D座標を導出することができる。
復号化された第2の深度画像の画素値をフィルタリングすることにより、第1の復号化された深度画像DGI0の画素値と、第2のフィルタリングされた復号化された深度画像DGI1の画素値との間の差が、所与の範囲内にあることを確実にする。
ある実施形態によれば、この所与の範囲は、0から、表面厚さSTを表す値まで及ぶ。
表面厚さとは、深度画像DI0の画素値と、エンコーダ側で許容される表面厚さとの間の差の最大値であり、これは、エンコーダ側で同じ画素(u,v)の深度D0およびD1を計算するために使用される仮定値である。
サブステップ4510の実施形態によれば、
第2のフィルタリングされた復号化された深度画像の座標(u,v)に位置される画素の画素値は、次式で与えられる。
ここで、
は、それぞれ、
第1の復号化された深度画像DGI0、および第2の復号化された深度画像DGI1の画素値である。なお、条件a)を満たさない場合は、条件b)を点検し、条件b)を満たさない場合は、条件c)を点検することに留意せよ。
当該実施形態によれば、画素値をフィルタリングすることには、0から表面厚さSTまで及ぶ所与の範囲に応じて、第1および第2の復号化された深度画像の画素値の差をクリッピングすることが含まれる。
係るフィルタリングの複雑さは、小さい。
サブステップ4510の実施形態によれば、
第2のフィルタリングされた復号化された深度画像の座標(u,v)に位置する画素の画素値は、次式で与えられる。
当該実施形態によれば、画素値をフィルタリングすることは、第1および第2の復号化された深度画像の画素値の差を、0から表面厚さSTまで及ぶ所与の範囲に対して線形写像することに基づいている。
係るフィルタリングは、以前の実施形態と比較して、3D再構築された3Dサンプルの品質を改善するが、複雑さを増加させる。
ある実施形態によれば、所与の範囲の少なくとも1つの限界が、送信される。
所与の範囲の上限のみが送信されることが好ましい。
上限(ST)をビットストリームに送信(信号伝達)するには、複数の方法がある。
一実施形態によれば、その上限(ST)は、所与のビット数、例えば3ビットによって信号伝達され、当該上限(ST)の値を示す。
別の実施形態によれば、上限(ST)は、以下を使用することによって、信号伝達される。
●フィルタリング(サブステップ4510)が使用されているか否かを示す1ビット。例えば、1は、使用されていることを意味し、0は、その逆を意味する。
●第1のビットが1に等しい場合、所与のビット数、例えば、3ビットに続いて、当該上限STの値を示す。
ある実施形態によれば、上限STは、ビットストリーム全体で、例えば、図5のヘッダBSH内に一度だけ、または、例えばフレームストリームグループGOFSのヘッダHS内に、または、例えば幾何形状もしくはテクスチャ画像が内部で符号化されたときに、メタデータとしてシンタックス要素GVSもしくはTVS内に複数回、信号伝達されてもよい。
上限STを複数回信号伝達させることにより、各フレームまたは各フレームグループに対して異なる値の表面厚さを選択することが可能になる。
図1~図8において、様々な方法が、本明細書に記載されており、その方法の各々は、記載された方法を達成するための1つ以上のステップまたは動作を含む。ステップまたは動作の特定の順番が、その方法の適切な動作のために必要とされない限り、特定のステップおよび/または動作の順番および/または使用は、変更するか、または組み合わせることができる。
いくつかの例が、ブロック図および動作フローチャートに関連して説明されている。各ブロックは、特定の論理関数(複数可)を実施するための1つ以上の実行可能命令を含む、回路要素、モジュール、またはコードの一部を表す。また、他の実施態様では、ブロック内に記述された機能(複数可)は、示された順番から外れて行われてもよいことに留意されたい。例えば、連続的に示される2つのブロックは、実際には、実質的に同時に実行されてもよく、またはそれらのブロックは、場合によっては、必然的に伴う機能性に応じて、逆の順番で実行されてもよい。
本明細書に記載された実施態様および態様は、例えば、方法もしくはプロセス、装置、コンピュータプログラム、データストリーム、ビットストリーム、または信号で実施され得る。単一の形式の実施態様の文脈でのみ考察されている(例えば、方法としてのみ考察されている)場合であっても、考察された特徴の実施態様はまた、他の形式(例えば、装置またはコンピュータプログラム)でも実施され得る。
方法は、例えば、プロセッサ内で実施され得、そのプロセッサは、一般に処理デバイスを指し、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む。プロセッサはまた、通信デバイスも含む。
追加的に、方法は、プロセッサにより実行される命令によって実施され得、係る命令(および/または実施態様により生成されるデータ値)は、コンピュータ可読記憶媒体に格納され得る。コンピュータ可読記憶媒体は、コンピュータ可読プログラム製品の形式を取ることができ、このコンピュータ可読プログラム製品は、1つ以上のコンピュータ可読媒体(複数可)内で具現化され、コンピュータにより実行可能である、その媒体上で具現化されるコンピュータ可読プログラムコードを有する。本明細書で使用されるようなコンピュータ可読記憶媒体は、内部に情報を格納するための固有の能力、ならびに内部から情報を取得するための固有の能力が与えられた非一時的記憶媒体とみなされ得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または前述の任意の好適な組み合わせとすることができるが、これらに限定されない。本実施形態が適用され得るコンピュータ可読記憶媒体のより具体的な例を提供するが、当業者によって容易に理解されるように、以下のものは、単に例示的であり、かつ非網羅的なリストであることを理解されたい。すなわち、ポータブルコンピュータディスケット、ハードディスク、読み出し専用メモリ(ROM)、消去可能型プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組み合わせ、である。
命令は、プロセッサ可読媒体上で有形的に具現化されるアプリケーションプログラムを形成し得る。
命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、または組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、またはこの2つの組み合わせに見出すことができる。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体(記憶デバイスなど)を含むデバイスとの両方として特徴付けられ得る。さらに、プロセッサ可読媒体は、命令に加えてまたは命令の代わりに、実施態様によって生成されたデータ値を格納し得る。
装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウェアで実施され得る。係る装置の例には、パーソナルコンピュータ、ラップトップ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビジョン受信機、パーソナルビデオレコーディングシステム、接続された家庭電化製品、ヘッドマウントディスプレイデバイス(HMD、シースルーグラス)、プロジェクタ(ビーマー)、「没入型バーチャルリアリティ体験デバイス」(複数のディスプレイを含むシステム)、サーバ、ビデオエンコーダ、ビデオデコーダ、ビデオデコーダから出力されるポストプロセッサ処理、ビデオエンコーダへの入力を提供するプリプロセッサ、ウェブサーバ、セットトップボックス、および点群、ビデオ、もしくは画像を処理するための任意の他のデバイス、または他の通信デバイスが含まれる。明らかなように、機器は移動型であり、移動車両に設置されている場合さえある。
コンピュータソフトウェアは、プロセッサ6010によって、もしくはハードウェアによって、またはハードウェアおよびソフトウェアの組み合わせによって実装されてもよい。非制限的な例として、それらの実施形態はまた、1つ以上の集積回路によっても実施され得る。メモリ6020は、技術的な環境に適する任意のタイプのものであってもよく、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、および取り外し可能なメモリなどの任意の適切なデータ記憶技術を使用して実装されてもよい。プロセッサ6010は、技術的な環境に適する任意のタイプのものであってもよく、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含し得る。
当業者にとっては明らかであるように、実施態様は、例えば、格納または送信され得る情報を搬送するためにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令、または説明された実施態様のうちの1つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態のビットストリームを搬送するためにフォーマット化され得る。そのような信号は、例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、またはベースバンド信号としてフォーマット化され得る。フォーマット化は、例えば、データストリームを符号化すること、および符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する情報は、例えば、アナログ情報またはデジタル情報であり得る。信号は、既知のように、様々な異なる有線または無線リンクを介して送信され得る。信号は、プロセッサ可読媒体に格納され得る。
本明細書で使用される専門用語は、特定の実施形態を説明することのみを目的としており、限定することは意図されていない。本明細書で使用されるとき、単数形「a」、「an」、および「the」は、その文脈が特段明確に示していない限り、複数形をも含むことが意図され得る。「含む/備える」および/または「含んでいる/備えている」という用語は、本明細書で使用されるとき、記述された、例えば、特徴、整数、ステップ、動作、要素、および/またはコンポーネントの存在を指定し得るが、1つ以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、および/またはそれらのグループの存在または追加を排除しないことは、さらに理解されるであろう。さらに、ある要素が、別の要素に対して「応答する」または「接続される」と称されるとき、その要素は、他の要素に対して直接応答するか、もしくは直接接続され得るか、または介在する要素が存在し得る。対照的に、ある要素が、他の要素に「直接応答する」または「直接接続される」と称されるとき、介在する要素は、存在しない。
記号/用語である「/」、「および/または」、および「のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「Aおよび/またはB」、および「AとBのうちの少なくとも1つ」の場合、第1の列挙選択肢(A)のみの選択、または第2の列挙選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含することが意図され得ることを理解されたい。さらなる例として、「A、B、および/またはC」と「A、B、およびCのうちの少なくとも1つ」の場合、そのような語法は、第1の列挙選択肢(A)のみの選択、または第2の列挙選択肢(B)のみの選択、または第3の列挙選択肢(C)のみの選択、または第1および第2の列挙選択肢(AおよびB)のみの選択、または第1および第3の列挙選択肢(AおよびC)のみの選択、または第2および第3の列挙選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含することが意図されている。これは、本技術分野および関連技術分野の当業者には明らかなように、列挙されている項目と同じだけ拡張することができる。
様々な数値が、本出願で使用され得る。特定の値は、例えば、目的であってもよく、記載される態様は、これらの特定の値に限定されない。
第1、第2などの用語が、各種の要素を説明するために、本明細書で使用される場合があるが、これらの要素は、これらの用語によっては限定されないことが、理解されるであろう。これらの用語は、ある要素と別の要素を区別するためにのみ使用される。例えば、本出願の教示から逸脱することなく、第1の要素は、第2の要素と称され得、同様に、第2の要素は、第1の要素と称され得る。第1の要素と第2の要素との間の順序付けには、意味がない。
「一実施形態」または「ある実施形態」または「一実施態様」または「ある実施態様」、ならびにそれらの他のバリエーションへの言及を頻繁に使用して、特定の特徴、構造、特性など(実施形態/実施態様と関連して説明される)が、少なくとも1つの実施形態/実施態様に含まれることを伝えている。したがって、「一実施形態では」または「ある実施形態では」または「一実施態様では」または「ある実施態様では」、ならびに任意の他のバリエーショという成句の出現は、本出願全体を通じて様々な場所で現れ、必ずしもすべて同じ実施形態を指しているわけではない。
同様に、本明細書内の「ある実施形態/例/実施態様に従って」または「ある実施形態/例/実施態様では」、ならびにそれらの他のバリエーションへの言及を頻繁に使用して、特定の特徴、構造、または特性(実施形態/例/実施態様と関連して説明される)が、少なくとも1つの実施形態/例/実施態様に含まれ得ることを伝えている。したがって、本明細書の様々な場所での「ある実施形態/例/実施態様に従って」または「ある実施形態/例/実施態様では」という表現の出現は、必ずしもすべて同じ実施形態/例/実施態様を指すものではなく、別個または代替の実施形態/例/実施態様が、必ずしも他の実施形態/例/実施態様を相互に除外するものでもない。
特許請求の範囲に現れる参照数字は、例示のみを目的としており、特許請求の範囲を限定する影響を及ぼさないものとする。明示的には説明されていないが、本実施形態/例および変形例は、任意の組み合わせまたは部分的組み合わせで使用することができる。
図がフロー図として提示されているとき、それはまた、対応する装置のブロック図も提供していることを理解されたい。同様に、図がブロック図として提示されている場合、それはまた、対応する方法/プロセスのフロー図も提供していることを理解されたい。
いくつかの図には、通信の主要な方向を示すために通信経路上に矢印が含まれるが、通信は、図示された矢印と反対側の方向に生じる場合があることを理解されたい。
様々な実施態様が、復号化を伴う。「復号化」は、本出願で使用されるとき、例えば、受信した点群フレーム上で実行されるプロセスのすべてまたは一部を包含して、表示のために好適である最終的な出力を生成することができる。様々な実施形態では、そのようなプロセスは、一般的に、画像ベースのデコーダにより実行されるプロセスのうちの1つ以上を含む。様々な実施形態では、そのようなプロセスはまた、または代替的に、本出願に記載された様々な実施態様のデコーダによって実行されるプロセスも含む。
さらなる例として、一実施形態では、「復号化」は、エントロピー復号化のみを指し得、別の実施形態では、「復号化」は、差動復号化のみを指し得、別の実施形態では、「復号化」は、エントロピー復号化および差動復号化の組み合わせを指し得る。「復号化プロセス」という成句が、具体的に動作のサブセットを指すことが意図され得るのか、または概してより広い符号化プロセスを指すことが意図され得るのかどうかについては、具体的な説明の文脈に基づいて明確となり得、当業者によって十分理解されるものと思われる。
様々な実施態様が、符号化を伴う。「復号化」に関する上述の説明と同様に、本出願で使用されるとき、「符号化」は、符号化されたビットストリームを生成するために、例えば、入力点群フレーム上で実行されるプロセスのすべてまたは一部を包含し得る。様々な実施形態では、そのようなプロセスは、一般的に、画像ベースのデコーダにより実行されるプロセスのうちの1つ以上を含む。様々な実施形態では、そのようなプロセスはまた、または代替的に、本出願に記載された様々な実施態様のエンコーダによって実行されるプロセスを含む。
さらなる例として、一実施形態では、「符号化」はエントロピー符号化のみを指してもよく、別の実施形態では、「符号化」は差動符号化のみを指してもよく、別の実施形態では、「符号化」は差動符号化とエントロピー符号化の組み合わせを指してもよい。「符号化プロセス」という成句が、具体的に動作のサブセットを指すことが意図され得るのか、または概してより広い符号化プロセスを指すことが意図され得るのかどうかについては、具体的な説明の文脈に基づいて明確となり得、当業者によって十分理解されるものと思われる。
本明細書で使用されるときのシンタックス要素、例えばBSH、GVS、またはTVSは、説明用語であることに留意されたい。したがって、それらは、他のシンタックス要素名の使用を妨げない。
様々な実施形態では、レート歪みの最適化について言及する。特に、符号化処理中、多くの場合、計算の複雑さの制約を考慮すると、通常、レートと歪みとの間のバランスまたはトレードオフが考慮される。レート歪みの最適化は、通常、レート歪み関数を最小化するように定式化することができ、レート歪み関数は、レートと歪みとの加重和である。レート歪みの最適化問題を解決するには、異なるアプローチがある。例えば、それらのアプローチは、すべての符号化選択肢の広範なテストに基づいてもよく、その選択肢は、すべての考慮されたモードまたは符号化パラメータ値を含み、それらの符号化コスト、ならびに符号化および復号化後の再構築された信号の関連する歪みの完全な評価を伴う。また、より高速なアプローチを使用して、特に、再構築されたものではなく、予測または予測残留信号に基づくおおよその歪みの計算で、符号化の複雑さを省くことができる。また、これらの2つのアプローチは、例えば、可能な符号化選択肢のうちのいくつかのみについてのおおよその歪み、および他の符号化選択肢についての完全な歪みを使用することによって、併用されてもよい。他のアプローチでは、可能な符号化選択肢のサブセットのみを評価する。より一般的に、多くのアプローチは、様々な技術のいずれかを採用して最適化を実行するが、最適化は、必ずしも符号化コストおよび関連する歪みの両方の完全な評価である必要はない。
追加的に、本出願は、様々な断片情報を「判定する」ことについて言及することができる。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、またはメモリから情報を取得することのうちの1つ以上を含み得る。
さらに、本出願は、様々な断片情報に「アクセスする」ことについて言及することができる。情報にアクセスすることは、例えば、情報を受信すること、情報を取得すること(例えば、メモリから)、情報を格納すること、情報を移動させること、情報を複製すること、情報を計算すること、情報を判定すること、情報を予測すること、または情報を推定することのうちの1つ以上を含み得る。
追加的に、本出願は、様々な断片情報を「受信すること」について言及することができる。受信することとは、「アクセスすること」と同様に、広義の用語であることが意図されている。情報を受信することは、例えば、情報にアクセスすること、または(例えば、メモリから)情報を取得することのうちの1つ以上を含み得る。さらに、「受信すること」は、典型的には、例えば、情報を格納する、情報を処理する、情報を送信する、情報を移動させる、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、または情報を推定するなどの動作中に、何らかの方法で関与する。
また、本明細書で使用されるとき、「信号」という単語は、とりわけ、対応するデコーダに対して何かを示すことを指す。例えば、ある特定の実施形態において、エンコーダは、同じ投影線に沿って投影面上に投影される点群の2つの点の深度値間の最大差を画定する表面厚さを表す特定のデータに信号伝達する。このように、実施形態では、同じパラメータが、エンコーダ側およびデコーダ側の両方で使用され得る。したがって、例えば、エンコーダは、特定のパラメータをデコーダに送信し(明示的な信号伝達)、その結果、デコーダは、同じ特定のパラメータを使用することができる。逆に、デコーダが既に特定のパラメータ、ならびに他のパラメータを有する場合、信号伝達は、送信せずに使用されて(暗黙的な信号伝達)、単にデコーダが特定のパラメータを知り、そして選択することを可能にし得る。任意の実際の機能の送信を回避することによって、様々な実施形態においてビット節減が実現される。信号伝達は、様々な方法で達成され得ることを理解されたい。例えば、様々な実施形態では、1つ以上のシンタックス要素、フラグなどを使用して、対応するデコーダに情報を信号伝達する。直前の記述は、単語「信号」の動詞形態に関するものであるが、単語「信号」は、本明細書では、名詞としても使用され得る。
多数の実施態様が説明されてきた。それでもなお、様々な変更が行われ得ることが理解されよう。例えば、異なる実施態様の要素は、他の実施態様を生成するために、組み合わされ、補足され、変更され、または削除されてもよい。追加的に、当業者は、他の構造およびプロセスが開示されたものの代わりになり得、結果として生じる実施態様が、少なくとも実質的に同じ機能(複数可)を、少なくとも実質的に同じ方法(複数可)で実行して、開示された実施態様と少なくとも実質的に同じ結果(複数可)を達成することを理解するであろう。したがって、これらおよび他の実施態様は、本出願によって企図されている。

Claims (18)

  1. 少なくとも1つのプロセッサを備えるデバイスであって、前記少なくとも1つのプロセッサが、
    点群の第1の点の深度値の第1のセットを表す第1の深度画像をパディングすることであって、前記第1の点が、投影面から前記点群のより近い点である、パディングすることと、
    前記点群の第2の点の深度値の第2のセットを表す第2の深度画像をパディングすることであって、前記第2の点が、前記投影面から前記点群のより遠い点であり、前記パディングされた第1の深度画像、または前記パディングされた第2の深度画像のうちの一方が、前記パディングされた第1の深度画像、または前記パディングされた第2の深度画像のうちの他方を基準画像として使用することによって予測される、パディングすることと、
    前記点群の、前記パディングされた第1の深度画像の深度値の第1のセットと、前記パディングされた第2の深度画像の深度値の第2のセットとのインターリービングを含むビデオストリームを符号化することと、を行うように構成されている、デバイス。
  2. 方法であって、
    点群の第1の点の深度値の第1のセットを表す第1の深度画像をパディングすることであって、前記第1の点が、投影面から前記点群のより近い点である、パディングすることと、
    前記点群の第2の点の深度値の第2のセットを表す第2の深度画像をパディングすることであって、前記第2の点が、前記投影面から前記点群のより遠い点であり、前記パディングされた第1の深度画像、または前記パディングされた第2の深度画像のうちの一方が、前記パディングされた第1の深度画像、または前記パディングされた第2の深度画像のうちの他方を基準画像として使用することによって予測される、パディングすることと、
    前記点群の、前記パディングされた第1の深度画像の深度値の第1のセットと、前記パディングされた第2の深度画像の深度値の第2のセットとのインターリービングを含むビデオストリームを符号化することと、を含む、方法。
  3. 少なくとも1つのプロセッサを備えるデバイスであって、前記少なくとも1つのプロセッサが、
    第2の深度画像とインターリービングされた第1の深度画像を含むビデオストリームを受信することであって、前記第1の深度画像は、点群フレームに関連付けられた第1の点の深度値の第1のセットを表し、前記第1の点が、投影面から点群のより近い点であり、前記第2の深度画像は、前記点群フレームに関連付けられた第2の点の深度値の第2のセットを表し、前記第2の点が、前記投影面から前記点群のより遠い点である、受信することと、
    前記点群フレームに関連付けられた、前記第1の深度画像の深度値の前記第1のセット及び前記第2の深度画像の深度値の前記第2のセットをデインターリービングすることと、
    前記第1の深度画像の画素値及び表面厚さを使用することによって、前記第2の深度画像の画素値をフィルタリングすることと、を行うように構成されている、デバイス。
  4. 方法であって、
    第2の深度画像とインターリービングされた第1の深度画像を含むビデオストリームを受信することであって、前記第1の深度画像は、点群フレームに関連付けられた第1の点の深度値の第1のセットを表し、前記第1の点が、投影面から点群のより近い点であり、前記第2の深度画像は、前記点群フレームに関連付けられた第2の点の深度値の第2のセットを表し、前記第2の点が、前記投影面から前記点群のより遠い点である、受信することと、
    前記点群フレームに関連付けられた、前記第1の深度画像の深度値の前記第1のセット及び前記第2の深度画像の深度値の前記第2のセットをデインターリービングすることと、
    前記第1の深度画像の画素値及び表面厚さを使用することによって、前記第2の深度画像の画素値をフィルタリングすることと、を含む、方法。
  5. 前記第2の深度画像の画素値をフィルタリングすることが、前記第1の深度画像の前記画素値と前記第2の深度画像の前記画素値との間の差に基づく、請求項3に記載のデバイス。
  6. 画素値をフィルタリングすることが、前記差のクリッピングを含む、請求項5に記載のデバイス。
  7. 前記クリッピングが、所与の範囲に基づく、請求項6に記載のデバイス。
  8. 前記所与の範囲が、0から前記表面厚さまで及ぶ、請求項7に記載のデバイス。
  9. 前記所与の範囲の少なくとも1つの限界が、送信される、請求項7または8に記載のデバイス。
  10. 前記第2の深度画像の画素値をフィルタリングすることが、前記第1の深度画像の前記画素値と前記第2の深度画像の前記画素値との間の差に基づく、請求項4に記載の方法。
  11. 画素値をフィルタリングすることが、前記差のクリッピングを含む、請求項10に記載の方法。
  12. 前記クリッピングが、所与の範囲に基づく、請求項11に記載の方法。
  13. 前記所与の範囲が、0から前記表面厚さまで及ぶ、請求項12に記載の方法。
  14. 前記所与の範囲の少なくとも1つの限界が、送信される、請求項12または13に記載の方法。
  15. 命令を含むコンピュータプログラムであって、前記命令は、前記コンピュータプログラムが1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに、請求項4、または10~14のいずれかに記載の方法を実行させる、コンピュータプログラム。
  16. 非一時的コンピュータ可読媒体であって、1つ以上のプロセッサに、請求項4、または10~14のいずれかに記載の方法を実行させるための命令を含む、非一時的コンピュータ可読媒体。
  17. 命令を含むコンピュータプログラムであって、前記命令は、前記コンピュータプログラムが1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに、請求項2に記載の方法を実行させる、コンピュータプログラム。
  18. 非一時的コンピュータ可読媒体であって、1つ以上のプロセッサに、請求項2に記載の方法を実行させるための命令を含む、非一時的コンピュータ可読媒体。
JP2020538537A 2018-01-19 2019-01-21 点群処理 Active JP7476104B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18305050 2018-01-19
EP18305050.9 2018-01-19
EP18305282 2018-03-15
EP18305282.8 2018-03-15
PCT/IB2019/050490 WO2019142163A1 (en) 2018-01-19 2019-01-21 Processing a point cloud

Publications (3)

Publication Number Publication Date
JP2021511712A JP2021511712A (ja) 2021-05-06
JPWO2019142163A5 JPWO2019142163A5 (ja) 2022-01-27
JP7476104B2 true JP7476104B2 (ja) 2024-04-30

Family

ID=65520343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020538537A Active JP7476104B2 (ja) 2018-01-19 2019-01-21 点群処理

Country Status (6)

Country Link
US (1) US11949889B2 (ja)
EP (1) EP3741118A1 (ja)
JP (1) JP7476104B2 (ja)
CN (1) CN111837392B (ja)
MX (1) MX2020007663A (ja)
WO (1) WO2019142163A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10897269B2 (en) 2017-09-14 2021-01-19 Apple Inc. Hierarchical point cloud compression
US10861196B2 (en) 2017-09-14 2020-12-08 Apple Inc. Point cloud compression
US11818401B2 (en) 2017-09-14 2023-11-14 Apple Inc. Point cloud geometry compression using octrees and binary arithmetic encoding with adaptive look-up tables
US10909725B2 (en) 2017-09-18 2021-02-02 Apple Inc. Point cloud compression
US11113845B2 (en) 2017-09-18 2021-09-07 Apple Inc. Point cloud compression using non-cubic projections and masks
US10607373B2 (en) 2017-11-22 2020-03-31 Apple Inc. Point cloud compression with closed-loop color conversion
US11010928B2 (en) 2018-04-10 2021-05-18 Apple Inc. Adaptive distance based point cloud compression
US10867414B2 (en) 2018-04-10 2020-12-15 Apple Inc. Point cloud attribute transfer algorithm
US10939129B2 (en) 2018-04-10 2021-03-02 Apple Inc. Point cloud compression
US10909726B2 (en) 2018-04-10 2021-02-02 Apple Inc. Point cloud compression
US10909727B2 (en) 2018-04-10 2021-02-02 Apple Inc. Hierarchical point cloud compression with smoothing
CN112042201B (zh) 2018-04-11 2024-06-25 交互数字Vc控股公司 用于编码/解码表示3d对象的点云的方法和装置
CN110662087B (zh) 2018-06-30 2021-05-11 华为技术有限公司 点云编解码方法和编解码器
US11017566B1 (en) 2018-07-02 2021-05-25 Apple Inc. Point cloud compression with adaptive filtering
US11202098B2 (en) 2018-07-05 2021-12-14 Apple Inc. Point cloud compression with multi-resolution video encoding
US11012713B2 (en) 2018-07-12 2021-05-18 Apple Inc. Bit stream structure for compressed point cloud data
CN112771850B (zh) * 2018-10-02 2022-05-24 华为技术有限公司 使用3d辅助数据的运动补偿方法、系统以及存储介质
US11367224B2 (en) 2018-10-02 2022-06-21 Apple Inc. Occupancy map block-to-patch information compression
US11430155B2 (en) 2018-10-05 2022-08-30 Apple Inc. Quantized depths for projection point cloud compression
US11284091B2 (en) * 2019-03-25 2022-03-22 Apple Inc. Video based point cloud compression-patch alignment and size determination in bounding box
US11057564B2 (en) 2019-03-28 2021-07-06 Apple Inc. Multiple layer flexure for supporting a moving image sensor
JP7560451B2 (ja) * 2019-05-10 2024-10-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置
US11711544B2 (en) 2019-07-02 2023-07-25 Apple Inc. Point cloud compression with supplemental information messages
US11627314B2 (en) 2019-09-27 2023-04-11 Apple Inc. Video-based point cloud compression with non-normative smoothing
US11562507B2 (en) 2019-09-27 2023-01-24 Apple Inc. Point cloud compression using video encoding with time consistent patches
US11538196B2 (en) 2019-10-02 2022-12-27 Apple Inc. Predictive coding for point cloud compression
US11895307B2 (en) 2019-10-04 2024-02-06 Apple Inc. Block-based predictive coding for point cloud compression
CN114391259B (zh) * 2019-11-06 2024-05-31 Oppo广东移动通信有限公司 信息处理方法、终端设备及存储介质
US11798196B2 (en) 2020-01-08 2023-10-24 Apple Inc. Video-based point cloud compression with predicted patches
US11475605B2 (en) 2020-01-09 2022-10-18 Apple Inc. Geometry encoding of duplicate points
GB202001839D0 (en) * 2020-02-11 2020-03-25 V Nova Int Ltd Use of tiered hierarchical coding for point cloud compression
US11615557B2 (en) 2020-06-24 2023-03-28 Apple Inc. Point cloud compression using octrees with slicing
US11620768B2 (en) 2020-06-24 2023-04-04 Apple Inc. Point cloud geometry compression using octrees with multiple scan orders
US11948338B1 (en) 2021-03-29 2024-04-02 Apple Inc. 3D volumetric content encoding using 2D videos and simplified 3D meshes

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110038418A1 (en) 2008-04-25 2011-02-17 Thomson Licensing Code of depth signal
US20140055560A1 (en) 2012-08-24 2014-02-27 Microsoft Corporation Depth Data Processing and Compression
JP2017126890A (ja) 2016-01-14 2017-07-20 キヤノン株式会社 符号化装置及びその制御方法
US20170347120A1 (en) 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Motion-compensated compression of dynamic voxelized point clouds
WO2019142666A1 (ja) 2018-01-16 2019-07-25 ソニー株式会社 画像処理装置および方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285779B1 (en) 1999-08-02 2001-09-04 Trident Microsystems Floating-point complementary depth buffer
JP3957620B2 (ja) * 2001-11-27 2007-08-15 三星電子株式会社 深さイメージ基盤3次元客体を表現するための装置及び方法
RU2011120192A (ru) 2009-09-22 2013-10-27 Панасоник Корпорэйшн Устройство кодирования изображения, устройство декодирования изображения, способ кодирования изображения и способ декодирования изображения
US9503757B2 (en) * 2010-02-01 2016-11-22 Dolby Laboratories Licensing Corporation Filtering for image and video enhancement using asymmetric samples
KR101931675B1 (ko) * 2011-06-23 2018-12-21 후아웨이 테크놀러지 컴퍼니 리미티드 오프셋 복호 장치, 오프셋 부호화 장치, 화상 필터 장치 및 데이터 구조
US9191646B2 (en) * 2011-08-29 2015-11-17 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
CN103314393B (zh) 2012-01-13 2016-06-15 松下知识产权经营株式会社 图像生成装置、图像生成方法及集成电路
JP6266761B2 (ja) * 2013-05-10 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. マルチビューレンダリング装置とともに使用するためのビデオデータ信号の符号化方法
US9524582B2 (en) * 2014-01-28 2016-12-20 Siemens Healthcare Gmbh Method and system for constructing personalized avatars using a parameterized deformable mesh
KR20180094835A (ko) * 2015-08-03 2018-08-24 모하메드 엠. 헤피다 2d에서 3d로의 비디오 프레임 변환
US10477247B2 (en) * 2015-11-18 2019-11-12 Electronics And Telecommunications Research Institute Method for decoding video using in-loop filter, and device therefor
CN109417635B (zh) 2016-06-17 2021-03-30 华为技术有限公司 3d视频编码设备和方法
GB2554633B (en) * 2016-06-24 2020-01-22 Imperial College Sci Tech & Medicine Detecting objects in video data
KR101798041B1 (ko) 2016-06-29 2017-11-17 성균관대학교산학협력단 3차원 물체 인식 및 자세 추정 장치 및 그 방법
GB2552648B (en) * 2016-07-22 2020-09-16 Imperial College Sci Tech & Medicine Estimating dimensions for an enclosed space using a multi-directional camera

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110038418A1 (en) 2008-04-25 2011-02-17 Thomson Licensing Code of depth signal
US20140055560A1 (en) 2012-08-24 2014-02-27 Microsoft Corporation Depth Data Processing and Compression
JP2017126890A (ja) 2016-01-14 2017-07-20 キヤノン株式会社 符号化装置及びその制御方法
US20170347120A1 (en) 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Motion-compensated compression of dynamic voxelized point clouds
WO2019142666A1 (ja) 2018-01-16 2019-07-25 ソニー株式会社 画像処理装置および方法

Also Published As

Publication number Publication date
EP3741118A1 (en) 2020-11-25
WO2019142163A1 (en) 2019-07-25
CN111837392B (zh) 2024-07-23
JP2021511712A (ja) 2021-05-06
US20200359035A1 (en) 2020-11-12
MX2020007663A (es) 2020-09-14
CN111837392A (zh) 2020-10-27
US11949889B2 (en) 2024-04-02

Similar Documents

Publication Publication Date Title
JP7476104B2 (ja) 点群処理
US20240114143A1 (en) Encoding and decoding a point cloud using patches for in-between samples
JP7541025B2 (ja) 点群の欠落した点の処理
CN113475093B (zh) 用于处理点云的方法和装置
US12094177B2 (en) Processing a point cloud
US20220385928A1 (en) Processing a point cloud
JP7541024B2 (ja) ポイントクラウドの処理
RU2767775C1 (ru) Обработка облака точек
US20220405975A1 (en) Transporting format of a coded point cloud
EP3713240A1 (en) Processing a point cloud

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230323

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476104

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150