JP2024514066A - 光効果をサポートする容積ビデオ - Google Patents

光効果をサポートする容積ビデオ Download PDF

Info

Publication number
JP2024514066A
JP2024514066A JP2023558965A JP2023558965A JP2024514066A JP 2024514066 A JP2024514066 A JP 2024514066A JP 2023558965 A JP2023558965 A JP 2023558965A JP 2023558965 A JP2023558965 A JP 2023558965A JP 2024514066 A JP2024514066 A JP 2024514066A
Authority
JP
Japan
Prior art keywords
reflectance
atlas
patches
scene
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023558965A
Other languages
English (en)
Inventor
シュポー,ベルトラン
ドレ,ルノー
ジュリアン フルーロー,
スーダー,フランク
Original Assignee
インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ filed Critical インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ
Publication of JP2024514066A publication Critical patent/JP2024514066A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • H04N13/351Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking for displaying simultaneously
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Generation (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

3D容積ビデオを符号化、トランスポート、及び復号するための方法、デバイス、及びデータストリームが提案される。実施形態は、光線追跡ベースのレンダリングエンジンが光効果に関して視覚的に現実的な仮想ビューを合成することを可能にするように、非ランバートパッチのシグナリングをそれらの光反射特性と共に包含する。従来のレンダリングエンジンが、そのように説明された3Dシーンをレンダリングすることを可能にするが、高度な光効果を伴わない、レトロ互換性のあるソリューションも説明される。【選択図】 図9

Description

本原理は、概して、三次元(three-dimensional、3D)シーン及び容積ビデオコンテンツのドメインに関する。本文書はまた、モバイルデバイス又はヘッドマウントディスプレイ(Head-Mounted Display、HMD)などのエンドユーザデバイス上の容積コンテンツのレンダリングのための、テクスチャ及び3Dシーンの幾何学的形状を表すデータの符号化、フォーマット化及び復号の文脈において理解される。特に、本文書は、様々な視点からの鏡面反射及び他の複雑な光効果を扱うことができるレンダリングを可能にする方法での容積シーンの符号化に関する。
本節は、以下に説明及び/又は特許請求される本原理の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本原理の様々な態様のより良好な理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。
近年、利用可能な大きな視野コンテンツ(最大360°)の成長があった。そのようなコンテンツは、ヘッドマウントディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォンなどの没入型表示デバイス上のコンテンツを視聴するユーザによって完全には見えない可能性がある。これは、所与の瞬間に、ユーザがコンテンツの一部のみを視認することができることを意味する。しかしながら、ユーザは、典型的には、頭部の動き、マウスの動き、タッチスクリーン、音声などの様々な手段によって、コンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化及び復号することが望ましい。
360°フラットビデオとも呼ばれる没入型ビデオにより、ユーザは、静止点の周りの頭部の回転を通じて自身の周りの全てを視聴することができる。回転は、3自由度(3 Degrees of Freedom、3DoF)体験のみを可能にする。例えば、3DoFビデオが、ヘッドマウントディスプレイデバイス(HMD)を使用した第1の全方向性ビデオ体験に十分である場合であっても、例えば視差を体験することによって、より多くの自由度を期待する視聴者にとって、3DoFビデオは即座に苛立たしいものになる可能性がある。更に、3DoFはまた、ユーザが頭部を回転させるだけでなく、頭部を3方向に並進させるために、3DoFビデオ体験で再現されない並進のために、めまいを誘発し得る。
大きな視野コンテンツは、とりわけ、三次元コンピュータグラフィック画像シーン(three-dimension computer graphic imagery scene、3D CGIシーン)、点群又は没入型ビデオであり得る。そのような没入型ビデオを設計するために多くの用語が使用され得る。例えば、仮想現実(Virtual Reality、VR)、360、パノラマ、4πステラジアン、没入型、全方向性又は大きな視野。
容積ビデオ(6自由度(6 Degrees of Freedom、6DoF)ビデオとしても既知である)は、3DoFビデオの代替物である。6DoFビデオを視聴するとき、回転に加えて、ユーザはまた、視聴されたコンテンツ内で頭部を、更には自身の身体を並進させ、視差及び更には容積を体験することができる。そのようなビデオは、没入の感覚及びシーン深度の知覚を大幅に増加させ、頭部並進中に一貫した視覚的フィードバックを提供することによって、めまいを防止する。コンテンツは、目的のシーンの色及び深度の同時記録を可能にする専用センサの手段によって作成される。写真測量技術と組み合わせたカラーカメラのリグの使用は、技術的な困難が残っている場合でも、そのような記録を実行する方法である。
3DoFビデオは、テクスチャ画像(例えば、緯度/経度投影マッピング又は正距円筒図法マッピングに従って符号化された球形画像)のアンマッピングから生じる一連の画像を含むが、6DoFビデオフレームは、いくつかの視点から情報を埋め込む。それらは、三次元捕捉から生じる時間的一連の点群として視認することができる。視聴条件に応じて、2種類の容積ビデオを考慮することができる。第1のもの(すなわち、完全な6DoF)は、ビデオコンテンツ内の完全な自由ナビゲーションを可能にするが、第2のもの(別名3DoF+)は、ユーザ視認空間を視認境界ボックスと呼ばれる限られた容積に制限し、頭部及び視差体験の制限された容積を可能にする。この第2の文脈は、着座したオーディエンスメンバーの自由ナビゲーションと受動的視聴条件との間の貴重なトレードオフである。
そのようなビデオでは、ユーザが見ているビューポート画像は、合成された視野、すなわち、カメラによって捕捉されていないシーン上の視野である。既存の3DoF+ビデオフォーマットは、鏡面反射及び他の複雑な光効果を扱うことができず、3Dシーンがランバート面(すなわち、拡散反射のみを伴う)から構成されると仮定する。しかしながら、鏡面反射が取得リグの1つのカメラによって捕捉されるとき、このカメラの視点から観察されるように、異なる仮想視点からの3Dシーンをレンダリングすることは、新しい視点に従って反射されたコンテンツの位置及び外観を修正することを必要とする。更に、レンダリングされた仮想ビューは、いくつかの入力ビューから生じるパッチを混合することによって生成されるので、各入力ビューは、フレーム内の異なる位置で所与の反射を捕捉している。反射されたオブジェクトの複製をレンダリング時に観察することができる。したがって、レンダリング時に複雑な光効果をサポートする3DoF+ビデオフォーマットが欠如している。
以下は、本原理のいくつかの態様の基本的な理解を提供するための本原理の簡略化された概要を提示する。この概要は、本原理の広範な概要ではない。本原理の重要な又は重大な要素を特定することは意図されていない。以下の概要は、以下に提供されるより詳細な説明の前置きとして簡略化された形態で、本原理のいくつかの態様を単に提示するに過ぎない。
本原理は、3Dシーンを符号化するための方法に関する。この方法は、
-3Dシーンの部分について、第1の色パッチ、反射率パッチ、及び第1の深度パッチを取得することと、
-3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分について、第2の色パッチ及び第2の深度パッチを取得することと、
-第1及び第2の深度パッチをパッキングすることによって、深度アトラスを生成することと、
-第2の色パッチと第1の色パッチのサブセットとをパッキングすることによって、色アトラスを生成することと、
-反射率パッチのサブセットをパッキングすることによって、反射率アトラスを生成することと、
-反射率アトラスにパッキングされた各反射率パッチについて、
反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報を生成すること、及び
反射率パッチに反射された色パッチのリストを示す第2の情報を生成することと、
-データストリーム中で、
・深度アトラス、色アトラス、反射率アトラス、並びに第1及び
データストリーム中の第2の情報を符号化することと、を含む。
第1の実施形態では、色アトラスにパッキングされた第1の色パッチのサブセットは空であり、反射率アトラスにパッキングされた反射率パッチのサブセットは全ての反射率パッチを含む。第2の実施形態では、色アトラスにパッキングされた第1の色パッチのサブセットは、3Dシーンのランバート部分に対応し、反射率アトラスにパッキングされた反射率パッチのサブセットは、3Dシーンの非拡散反射部分に対応する。第3の実施形態では、色アトラスにパッキングされた第1の色パッチのサブセットは、全ての第1の色パッチを含み、反射率アトラスにパッキングされた反射率パッチのサブセットは、3Dシーンの非拡散反射部分に対応する。変形例では、方法は、反射率アトラス内の反射率パッチのサブセットに対応する表面法線パッチをパッキングすることによって、表面法線アトラスを生成することを更に含む。
本原理はまた、メモリに関連付けられたプロセッサを備えるデバイスに関し、このプロセッサは、上記の方法を実行するように構成されている。
本原理はまた、3Dシーンを符号化するデータストリームであって、
-3Dシーンの部分に対応する第1の深度パッチと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する第2の深度パッチとをパッキングする深度アトラスと、
-3Dシーンの部分に対応する第1の色パッチと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する第2の色パッチとをパッキングする色アトラスと、
-3Dシーンの部分に対応する反射率パッチをパッキングする反射率アトラスと、
-反射率アトラスにパッキングされた各反射率パッチについて、
・反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報、及び
・反射率パッチに反射された色パッチのリストを示す第2の情報と、を含む、データストリーム。
本原理は、3Dシーンをレンダリングする方法にも関する。この方法は、
データストリームから、
-3Dシーンの部分に対応する第1の深度パッチと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する第2の深度パッチとをパッキングする深度アトラスと、
-3Dシーンの部分に対応する第1の色パッチと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する第2の色パッチとをパッキングする色アトラスと、
-3Dシーンの部分に対応する反射率パッチをパッキングする反射率アトラスと、
-第1の色パッチ及び反射率パッチに従って決定されたレンダリングモードをシグナリングする情報と、
-反射率アトラスにパッキングされた各反射率パッチについて、
・反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報、及び
・反射率パッチに反射された色パッチのリストを示す第2の情報とを復号することと、
第1及び第2の深度パッチに従って第1及び第2の色パッチを逆投影することによって、かつ第1及び第2の情報と関連する色パッチとに従って反射率パッチのための光線追跡を使用することによって、3Dシーンをレンダリングすることと、を含む。
本開示は、以下の説明を読むと、より良好に理解され、他の特定の特徴及び利点が明らかになり、本明細書は、添付の図面を参照する。
本原理の非限定的な実施形態による、オブジェクト及び3Dモデルに対応する点群の点の三次元(3D)モデルを示す。 本原理の非限定的な実施形態による、3Dシーンのシーケンスを表すデータの符号化、送信及び復号の非限定的な例を示す。 本原理の非限定的な実施形態による、図13及び図14に関連して説明される方法を実施するように構成され得るデバイスの例示的なアーキテクチャを示す。 本原理の非限定的な実施形態による、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の一実施形態の一例を示す。 本原理の非限定的な実施形態による、4つの投影中心の例を有するパッチアトラスアプローチを示す。 本原理の非限定的な実施形態による、3Dシーンの点のテクスチャ情報を含むアトラスの例を示す。 本原理の非限定的な実施形態による、図6の3Dシーンの点の深度情報を含むアトラスの例を示す。 カメラアレイによって捕捉された3Dシーンのビューのうちの2つを示す。 捕捉される単純なシーンを示す。 本原理の第1の実施形態による、深度アトラス、反射率アトラス、及び色アトラスにおける図9の3Dシーンを符号化する第1の例を示す。 本原理の第2の実施形態による、深度アトラス、反射率アトラス、及び色アトラスにおける図9の3Dシーンを符号化する第2の例を示す。 本原理の第3の実施形態による、深度アトラス、反射率アトラス、及び色アトラスにおける図9の3Dシーンを符号化する第3の例を示す。 複雑な光効果を用いて3Dシーンを符号化するための方法を例示する。 複雑な光効果を用いて3Dシーンをレンダリングするための方法を例示する。
本原理は、本原理の例が示される、添付の図面を参照して以下により完全に説明される。しかしながら、本原理は、多くの代替形態で具体化され得、本明細書に記載の実施例に限定されるものとして解釈されるべきではない。したがって、本原理は、様々な修正及び代替的な形態の余地があるが、その具体的な例は、図面の例として示され、本明細書において詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、反対に、本開示は、特許請求の範囲によって定義される本原理の趣旨及び範囲内にある全ての修正、均等物及び代替物を網羅することであることを理解されたい。
本明細書で使用される用語は、特定の実施例のみを説明する目的のためであり、本原理を限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が別途明確に示されない限り、複数形も含むことが意図される。本明細書で使用される場合、「含む(comprises)」、「含む(comprising)」、「含む(includes)」及び/又は「含む(including)」という用語は、記載された特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素及び/又はそれらのグループの存在又は追加を排除しないことが更に理解されるであろう。更に、要素が別の要素に「応答する」又は「接続される」と称される場合、それは、他の要素に直接応答するか、又は他の要素に接続され得るか、又は介在要素が存在し得る。対照的に、要素が他の要素に「直接応答する」又は「直接接続される」と称される場合、介在要素は存在しない。本明細書で使用される場合、「及び/又は」という用語は、関連付けられた列挙された項目のうちの1つ以上の任意の及び全ての組み合わせを含み、「/」と略され得る。
本明細書では、第1、第2などの用語が様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第1の要素は、第2の要素と呼ぶことができ、同様に、第2の要素は、本原理の教示から逸脱することなく、第1の要素と呼ぶことができる。
図の一部は、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、描かれた矢印と反対方向に発生し得ることを理解されたい。
いくつかの例は、各ブロックが、指定された論理機能を実装するための1つ以上の実行可能命令を含む、回路要素、モジュール又はコードの部分を表すブロック図及び動作フローチャートに関して説明される。他の実装形態では、ブロックに記載された機能は、記載された順序から起こり得ることにも留意されたい。例えば、連続して示されている2つのブロックは、実際には実質的に同時に実行され得るか、又は関与する機能に応じて、ブロックが逆の順序で実行され得る。
本明細書における「一例による」又は「一例における」は、本実施例に関連して説明される特定の特徴、構造又は特性が、本原理の少なくとも1つの実装形態に含まれ得ることを意味する。本明細書の様々な場所における「一例による」又は「一例における」の句の出現は、必ずしも全てが同じ例を指しているわけではなく、別個の又は代替的な実施例では、必ずしも他の実施例と相互に排他的ではない。
特許請求の範囲に現れる参照番号は、単に例示としてのものであり、特許請求の範囲の範囲に限定的な影響を及ぼさないものとする。明示的に記載されていないが、本実施例及び変形例は、任意の組み合わせ又は部分的な組み合わせで用いられ得る。
図1は、オブジェクト及び3Dモデル10に対応する点群11の点の三次元(3D)モデル10を示す。3Dモデル10及び点群11は、例えば、他のオブジェクトを含む3Dシーンのオブジェクトの潜在的な3D表現に対応し得る。モデル10は、3Dメッシュ表現であり得、点群11の点は、メッシュの頂点であり得る。点群11の点はまた、メッシュの面の表面上に広がった点であり得る。モデル10はまた、点群11のスプラッティングされたバージョンとして表すこともでき、モデル10の表面は、点群11の点をスプラッティングすることによって作成される。モデル10は、ボクセル又はスプラインなどの多くの異なる表現によって表され得る。図1は、点群が3Dオブジェクトの表面表現と定義され得、3Dオブジェクトの表面表現がクラウドの点から生成され得るという事実を示す。本明細書で使用される場合、画像上の(3Dシーンの伸長点による)3Dオブジェクトの投影点は、この3Dオブジェクト、例えば、点群、メッシュ、スプラインモデル又はボクセルモデルの任意の表現を投影することと同等である。
点群は、例えば、ベクトルベースの構造としてメモリで表すことができ、各点は、視点の参照フレーム内の独自の座標(例えば、三次元座標XYZ、又は視点からの/視点への立体角及び距離(深度とも呼ばれる))及び成分とも呼ばれる1つ以上の属性を有する。成分の例は、様々な色空間、例えば、RGB(赤、緑及び青)又はYUV(Yが輝度成分及びUVが2つの色差成分である)で発現され得る色成分である。点群は、オブジェクトを含む3Dシーンの表現である。3Dシーンは、所与の視点又は視点の範囲から見ることができる。点群は、多くの方法によって、例えば、
・任意選択的に深度アクティブセンシングデバイスによって補完された、カメラのリグによって撮影された実オブジェクトの捕捉から、
・モデリングツールにおける仮想カメラのリグによって撮影された仮想/合成オブジェクトの捕捉から、
・実オブジェクトと仮想オブジェクトの両方の混合物から、取得され得る。
3Dシーンは、実際の(又は仮想の)シーンの一部である捕捉されたシーンに対応する。第1に、捕捉されるべきいくつかの部分又はシーンは、全てのカメラから見えない(隠されているため)。これらの部分は、3Dシーン外にある。第2に、カメラのリグの視野は、360°よりも低い場合がある。その場合、実際のシーンの一部は、捕捉された3Dシーン外のままである。それにもかかわらず、3Dシーン外のいくつかの部分は、3Dシーンの部分に反射され得る。
図2は、3Dシーンのシーケンスを表すデータの符号化、送信及び復号の非限定的な例を示す。例えば、同時に、3DoF、3DoF+及び6DoF復号に適合することができる符号化形式。
3Dシーン20のシーケンスが取得される。写真のシーケンスが2Dビデオであるとき、3Dシーンのシーケンスは3D(容積とも呼ばれる)ビデオである。3Dシーンのシーケンスは、3DoF、3Dof+又は6DoFレンダリング及び表示のための容積ビデオレンダリングデバイスに提供され得る。
3Dシーン20のシーケンスは、エンコーダ21に提供される。エンコーダ21は、入力として1つの3Dシーン又は3Dシーンのシーケンスを取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ22内に、かつ/又は電子データ媒体上に記憶され得、ネットワーク22を介して送信され得る。3Dシーンのシーケンスを表すビットストリームは、メモリ22から読み取られ、かつ/又はデコーダ23によってネットワーク22から受信され得る。デコーダ23は、当該ビットストリームによって入力され、例えば、点群形式で3Dシーンのシーケンスを提供する。
エンコーダ21は、いくつかのステップを実装するいくつかの回路を備え得る。第1のステップでは、エンコーダ21は、各3Dシーンを少なくとも1つの2D写真に投影する。3D投影は、三次元点を二次元平面にマッピングする任意の方法である。グラフィックデータを表示するための最新の方法は、平面(いくつかのビット平面からの画素情報)二次元媒体に基づいているため、このタイプの投影の使用は、特にコンピュータグラフィック、操作及びドラフト化において広範囲に及ぶ。投影回路211は、3Dシーン20のシーケンスの3Dシーンのための少なくとも1つの二次元フレーム2111を提供する。フレーム2111は、フレーム2111上に投影された3Dシーンを表す深度情報を含む。変形例では、フレーム2111は、他の属性を含む。本原理によれば、投影された属性は、フレーム上に投影される3Dシーンのテクスチャ(すなわち、色属性)、熱、反射率、又は他の属性を表すことができる。変形例では、情報は、別々のフレーム、例えば2つの別々のフレーム2111及び2112において、又は属性ごとに1つのフレームにおいて符号化される。
メタデータ212は、投影回路211によって使用され、更新される。メタデータ212は、図5~図7に関連して説明したように、投影動作(例えば、投影パラメータ)並びに色及び深度情報がフレーム2111及び2112内で編成される方法に関する情報を含む。
ビデオ符号化回路213は、フレーム2111及び2112のシーケンスをビデオとして符号化する。3Dシーン2111及び2112の写真(又は3Dシーンの写真のシーケンス)は、ビデオエンコーダ213によってストリーム内で符号化される。次いで、ビデオデータ及びメタデータ212は、データカプセル化回路214によってデータストリーム内でカプセル化される。
エンコーダ213は、例えば、
-JPEG、仕様ISO/CEI10918-1UIT-T推奨T.81、https://www.itu.int/rec/T-REC-T.81/en;
-MPEG-4AVC又はh264とも呼ばれるAVCなどのエンコーダに準拠する。UIT-TH.264及びISO/CEI MPEG-4-Part 10(ISO/CEI14496-10)、http://www.itu.int/rec/T-REC-H.264/en,HEVC(その仕様は、ITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/enで見出される)、
-3D-HEVC(仕様がITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and Iで見出されるHEVCの拡張子)、
-Googleによって開発されたVP9、又は
-Alliance for Open Mediaによって開発されたAV1(AO媒体ビデオ1)。
データストリームは、デコーダ23によって、例えばネットワーク22を介してアクセス可能なメモリに記憶される。デコーダ23は、復号の異なるステップを実装する異なる回路を備える。デコーダ23は、エンコーダ21によって生成されたデータストリームを入力として取り、ヘッドマウントデバイス(HMD)のような容積ビデオ表示デバイスによってレンダリングされ、かつ表示される3Dシーン24のシーケンスを提供する。デコーダ23は、ソース22からストリームを取得する。例えば、ソース22は、
-例えば、ビデオメモリ又はRAM(又はランダムアクセスメモリ)、フラッシュメモリ、ROM(又は読み取り専用メモリ)、ハードディスクなどのローカルメモリと、
-例えば、質量ストレージ、RAM、フラッシュメモリ、ROM、光学ディスク又は磁気サポートとのインターフェースなどのストレージインターフェースと、
-例えば、有線インターフェース(例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース)又は無線インターフェース(IEEE802.11インターフェース又はBluetooth(登録商標)インターフェースなど)などの通信インターフェースと、
-ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェースと、を含むセットに属する。
デコーダ23は、データストリームに符号化されたデータを抽出するための回路234を備える。回路234は、データストリームを入力として取り、ストリーム及び二次元ビデオにおいて符号化されたメタデータ212に対応するメタデータ232を提供する。ビデオは、フレームのシーケンスを提供するビデオデコーダ233によって復号される。復号されたフレームは、色及び深度情報を含む。変形例では、ビデオデコーダ233は、一方が色情報を含み、他方が深度情報を含む2つのフレームのシーケンスを提供する。回路231は、メタデータ232を使用して、復号されたフレームからの色及び深度情報を投影せず、3Dシーン24のシーケンスを提供する。3Dシーン24のシーケンスは、2Dビデオとしての符号化に関連する精度が潜在的に低下3Dシーン20のシーケンス及びビデオ圧縮に対応する。
レンダリングにおいて、ユーザが見ているビューポート画像は、合成されたビュー、すなわち、カメラによって捕捉されていないシーン上のビューである。鏡面反射が、このカメラの視点から観察されるように、取得リグの1つのカメラによって捕捉される場合、異なる仮想視点からの3Dシーンをレンダリングすることは、新しい視点に従って反射されたコンテンツの位置及び外観を修正することを必要とする。本原理によれば、複雑な光効果のレンダリングのための情報は、データストリームにおいて運ばれる。
図3は、図13及び図14に関連して説明される方法を実施するように構成され得るデバイス30の例示的なアーキテクチャを示す。図2のエンコーダ21及び/又はデコーダ23は、このアーキテクチャを実装し得る。代替的に、エンコーダ21及び/又はデコーダ23の各回路は、例えば、それらのバス31を介して、かつ/又はI/Oインターフェース36を介して一緒に連結された、図3のアーキテクチャによるデバイスであり得る。
デバイス30は、データ及びアドレスバス31によって一緒に連結された以下の要素:
-例えば、DSP(Digital Signal Processor、又はデジタル信号プロセッサ)であるマイクロプロセッサ32(又はCPU)と、
-ROM(Read Only Memory、又は読み取り専用メモリ)33と、
-RAM(Random Access Memory、又はランダムアクセスメモリ)34と、
-ストレージインターフェース35と、
-アプリケーションから、送信するデータを受信するためのI/Oインターフェース36と、
-電源、例えば、バッテリと、を備える。
一例によれば、電源はデバイスの外部にある。言及されたメモリの各々において、本明細書で使用される「レジスタ」という単語は、小さな容量の領域(いくつかのビット)又は非常に大きな領域(例えば、全体のプログラム又は大量の受信された、又は復号されたデータ)に対応し得る。ROM33は、少なくともプログラム及びパラメータを含む。ROM33は、本原理に従って技術を実行するためのアルゴリズム及び命令を記憶することができる。オンに切り替えられると、CPU32は、RAM内のプログラムをアップロードし、対応する命令を実行する。
RAM34は、レジスタ内で、CPU32によって実行され、デバイス30のスイッチオン後にアップロードされるプログラムと、レジスタ内の入力データと、レジスタ内の方法の異なる状態の中間データと、レジスタ内の方法の実行のために使用される他の変数と、を含む。
本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察された)であっても、考察された特徴の実装形態は、他の形態(例えば、プログラム)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサには、例えば、エンドユーザ間の情報の通信を容易にする、コンピュータ、携帯電話、ポータブル/携帯情報端末(Personal Digital Assistant、「PDA」)などのデバイスなどの通信デバイスも含まれる。
実施例によれば、デバイス30は、図13及び図14に関連して説明された方法を実装するように構成されており、
-モバイルデバイスと、
-通信デバイスと、
-ゲームデバイスと、
-タブレット(又はタブレットコンピュータ)と、
-ラップトップと、
-静止画カメラと、
-ビデオカメラと、
-符号化チップと、
-サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ又はウェブサーバ)と、を含むセットに属する。
図4は、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の実施形態の一例を示す。図4は、容積ビデオストリームの例示的な構造4を示す。構造は、構文の独立した要素においてストリームを編成する容器からなる。構造は、ストリームの全ての構文要素に共通のデータのセットであるヘッダ部分41を含み得る。例えば、ヘッダ部分は、構文要素に関するメタデータのいくつかを含み、それらの各々の性質及び役割を説明する。ヘッダ部分はまた、図2のメタデータ212の一部、例えば、3Dシーンの点をフレーム2111及び2112上に投影するために使用される中心視点の座標を含み得る。構造は、構文42の要素と、構文43の少なくとも1つの要素を含むペイロードを含む。構文要素42は、色及び深度フレームを表すデータを含む。画像は、ビデオ圧縮方法に従って圧縮されている場合がある。
構文43の要素は、データストリームのペイロードの一部であり、構文42の要素のフレームがどのように符号化されるかについてのメタデータ、例えば、3Dシーンの点をフレーム上に投影するか、パッキングするために使用されるパラメータを含み得る。そのようなメタデータは、ビデオの各フレーム又は(ビデオ圧縮標準において写真のグループ(Group of Pictures、GoP)としても既知である)フレームのグループと関連付けられ得る。
図5は、4つの投影中心の例を有するパッチアトラスアプローチを示す。3Dシーン50は、特徴を含む。例えば、投影中心51は、遠近投影カメラであり、カメラ53は、正投影カメラである。カメラはまた、例えば、球形マッピング(例えば、正距円筒図法マッピング)又は立方体マッピングを有する全方向カメラであり得る。3Dシーンの3D点は、メタデータの投影データに記載された投影動作に従って、投影中心に位置する仮想カメラに関連付けられた2D平面上に投影される。図5の例では、カメラ51によって捕捉された点の投影は、遠近法マッピングに従ってパッチ52上にマッピングされ、カメラ53によって捕捉された点の投影は、直交マッピングに従ってパッチ54上にマッピングされる。
投影ピクセルのクラスター化により、多数の2Dパッチが得られ、これは長方形のアトラス55にパッキングされる。アトラス内のパッチの組織は、アトラスレイアウトを定義する。一実施形態では、同一のレイアウトを有する2つのアトラス:1つはテクスチャ(すなわち、色)情報のためのものであり、1つは奥行き情報のためのもの。同じカメラ又は2つの別個のカメラによって捕捉された2つのパッチは、例えば、パッチ54及び56のような3Dシーンの同じ部分を表す情報を含み得る。
パッキング動作は、生成されたパッチごとにパッチデータを生成する。パッチデータは、投影データの参照(例えば、投影データのテーブル内のインデックス又は投影データへのポインタ(メモリ又はデータストリーム内のアドレス))及びアトラス内のパッチの場所及びサイズを説明する情報(例えば、ピクセルの上部左角座標、サイズ、及び幅)を説明する情報を含む。パッチデータ項目は、1つ又は2つのアトラスの圧縮データと関連付けられてデータストリーム内でカプセル化されるメタデータに追加される。
図6は、本原理の非限定的な実施形態による、属性情報、例えば、3Dシーンの点のテクスチャ(色とも呼ばれる)情報(例えば、RGBデータ又はYUVデータ)を含むアトラス60の例を示す。図5に関連して説明したように、アトラスは、画像パッキングパッチであり、パッチは、3Dシーンの点の一部を投影することによって取得される写真である。
図6の例では、アトラス60は、視点から見える3Dシーンの点のテクスチャ情報及び1つ以上の第2の部分62を含む第1の部分61を含む。第1の部分61のテクスチャ情報は、例えば、正距円筒投影マッピングに従って取得され得、正距円筒図法マッピングは、球形投影マッピングの一例である。図6の例では、第2の部分62は、第1の部分61の左右の境界に配置されるが、第2の部分は、異なって配置され得る。第2の部分62は、視点から見える部分に相補的である3Dシーンの部分のテクスチャ情報を含む。第2の部分は、第1の視点から見える点(第1の部分に記憶されているテクスチャ)3Dシーンから除去することによって、及び同じ視点に従って残りの点を投影することによって、取得することができる。後者のプロセスは、3Dシーンの隠れた部分が各々の時点で取得されるように反復的に繰り返され得る。変形例によれば、第2の部分は、視点、例えば、中心視点(第1の部分に記憶されているテクスチャ)から見える点を3Dシーンから除去することによって、及び、第1の視点とは異なる視点に従って、例えば、中心視点上に中心を置いたビューの空間(例えば、3DoFレンダリングの視認空間)の1つ以上の第2の視点から、残りの点を投影することによって、取得され得る。
第1の部分61は、(3Dシーンの第1の部分に対応する)第1の大きなテクスチャパッチとして見ることができ、第2の部分62は、(第1の部分に相補的である3Dシーンの第2の部分に対応する)より小さなテクスチャパッチを含む。そのようなアトラスは、(第1の部分61のみをレンダリングするとき)3DoFレンダリング及び3DoF+/6DoFレンダリングと同時に互換性があるという利点を有する。
図7は、本原理の非限定的な実施形態による、図6の3Dシーンの点の奥行き情報を含むアトラス70の例を示す。アトラス70は、図6のテクスチャ画像60に対応する奥行き画像として見ることができる。
アトラス70は、中心視点から見える3Dシーンの点の奥行き情報を含む第1の部分71及び1つ以上の第2の部分72を含む。アトラス70は、アトラス60と同じ方法で取得され得るが、テクスチャ情報の代わりに3Dシーンの点に関連付けられた奥行き情報を含む。
3Dシーンの3DoFレンダリングの場合、1つの視点のみ、典型的には中心視点が考慮される。ユーザは、第1の視点の周りで3自由度で頭部を回転させて、3Dシーンの様々な部分を視聴することができるが、ユーザはこの固有の視点を移動させることができない。符号化されるシーンの点は、この固有のビューから見える点であり、3DoFレンダリングのために符号化/復号されるためにテクスチャ情報のみが必要である。ユーザがそれらにアクセスできないときに、3DoFレンダリングのためのこの固有の視点から見えないシーンの点を符号化する必要はない。
6DoFレンダリングに関して、ユーザは、シーン内の視点を全て移動させることができる。この場合、全ての点が自身の視点を移動させることができるユーザによって潜在的にアクセス可能であるため、ビットストリーム内のシーンの全ての点(奥行き及びテクスチャ)を符号化する必要がある。符号化段階では、どの視点からからユーザが3Dシーンを観察するかを先験的に知る手段はない。
3DoF+レンダリングに関して、ユーザは、中心視点の周りの限られた空間内で視点を移動させることができる。これにより、視差を体験することが可能になる。ビューの空間の任意の点から見えるシーンの一部を表すデータは、中心視点(すなわち、第1の部分61及び71)に従って見える3Dシーンを表すデータを含むストリームに符号化されるべきである。ビューの空間のサイズ及び形状は、例えば、符号化ステップで決められ、かつ決定され、ビットストリーム内で符号化され得る。デコーダは、ビットストリームからこの情報を取得することができ、レンダラは、ビューの空間を取得された情報によって決定された空間に制限する。別の例によれば、レンダラは、例えば、ユーザの動きを検出するセンサの能力に関連して、ハードウェア制約に従ってビューの空間を決定する。そのような場合、符号化段階で、レンダラのビューの空間内の点から見える点がビットストリーム内で符号化されていない場合、この点はレンダリングされない。更なる例によれば、3Dシーンの全ての点を表すデータ(例えば、テクスチャ及び/又は幾何学的形状)は、ビューのレンダリング空間を考慮せずにストリーム内で符号化される。ストリームのサイズを最適化するために、シーンの点のサブセットのみ、例えば、ビューのレンダリング空間に従って見ることができる点のサブセットを符号化することができる。
本原理によれば、容積ビデオ送信フォーマットが提案される。このフォーマットは、光線追跡ベースのレンダリングエンジンが光効果に関して視覚的に現実的な仮想ビューを合成することを可能にするために、非ランバートパッチのシグナリングをそれらの光反射特性と共に含む。
本原理によるフォーマットのシンタックスは、以下を含む。
-各非ランバートパッチについての:
パッチサンプルの反射率属性、
パッチ材料の光反射特性(双方向反射率分布関数)、及び
現在のパッチ内に反射された他のパッチのリスト。
-シーン視錐台から見出された反射されたパッチは、それらのジオメトリ及びテクスチャ成分と共に、光源として考慮される。
-他の定刻光源又は拡散光源のパラメータ。
既存のレンダリングエンジンがそのような説明された3Dシーンをレンダリングすることを可能にするが、高度な光効果を用いない、レトロ互換性のある実施形態も説明される。
図8は、カメラアレイによって捕捉された3Dシーンのビューのうちの2つを示す。ビュー811は、上から見たシーンのビューであり、ビュー835より左側にある。3Dシーンは、反射オブジェクト81及び82を含む(オーブンドアは、床に巨大な蜘蛛を反射する)。ビュー811及び835は、3Dシーンの同じ点に対応する情報を含む。しかしながら、シーンの照明及び異なる取得位置のために、これらの点に関連付けられた色情報は、ビューごとに異なり得る。ビュー811はまた、ビュー835の視点から見ることができない3Dシーンの点に関する情報を含み、その逆も含む。
レンダリングにおけるスティッチングを助けるために、冗長情報を取り除き、3D空間の取り除かれた領域間のいくらかの重複を保存することによって、捕捉されたマルチビュー+深度(MVD)画像から3Dシーンを符号化するために、少なくとも1つのアトラスが生成される。アトラスは、ユーザが移動し得る3DoF+ビューイング空間内の任意の視点から任意のビューポート画像を再構成/合成するのに十分であると想定される。そうするために、アトラスからの全てのパッチをスティッチして所望のビューポート画像を復元する合成プロセスが実行される。しかしながら、このスティッチングステップは、アトラスにおいて表されたシーンが図8に例示されるような鏡面/反射成分又は透過成分を含むとき、強いアーチファクトにさらされ得る。そのような光効果は、見る位置に依存し、したがって、関係する空間部分の知覚される色は、1つの視点から他の視点に変化し得る。
図9は、説明のために簡略化された、捕捉されるシーンを示す。このシーンは、拡散反射を有する2つの平面(「壁」及び「床」)と、鏡面反射特性及び拡散反射特性の両方を有する1つの非平面91(「鏡」)とから構成される。カメラ92の視錐台の外(すなわち、捕捉された3Dシーンの外)に位置する2つのオブジェクト93は、ミラー91に反射される。
図10は、本原理の第1の実施形態による、深度アトラス100a、反射率アトラス100b、及び色アトラス100cにおける図9の3Dシーンを符号化する例を示す。3Dシーンの部分と、3Dシーンの少なくとも1つの部分の上に反射された3Dシーン外の部分とは、図5に関連して説明されるようにパッチの上に投影される。各パッチサンプルについて、深度値及び異なる属性値が取得される。本原理によれば、深度パッチ、色パッチ及び反射率パッチは、これらの部分の各々について取得される。
本原理の第1の実施形態では、深度アトラス100aは、全ての深度パッチ101a~107a(すなわち、図1に関連して説明したような捕捉された3Dシーンの部分を投影することによって取得されるパッチ101a~105a、並びに3Dシーンの少なくとも1つの部分に反射された捕捉された3Dシーン外の部分を投影することによって取得されるパッチ106a及び107a)をパッキングすることによって生成される。図9の例では、鏡及び鏡に映る2つのオブジェクトは平面ではない。次いで、対応する深度パッチ101a、106a及び107aは、図10においてグレーの勾配で表される異なる深度値を記憶する。
色アトラス100cは、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分(図9の例では、非平面ミラーに反射された2つのオブジェクト)の色パッチ106c、107cをパッキングすることによって生成される。
反射率アトラス100bは、3Dシーンの部分の投影に対応する反射率パッチ101b~105bをパッキングすることによって生成される。パッチサンプルのスペクトル反射率特性を記述する反射率属性は、例えば、アトラスフレームのR、G及びBチャネルにおいて3次元で指定することができる。図9のミラーに対応する反射率パッチ101bは、ミラーに対応する点の投影の反射率属性のみを含む。したがって、反射されたオブジェクト93は、このパッチでは見えない。本原理のあらゆる実施形態において、各反射率パッチは、双方向反射率分布関数(BRDF)としても知られる、光がその表面でどのように反射されるかを定義するパラメータ化モデルを表す情報に関連付けられる。いくつかのBRDFパラメトリックモデルが存在し、その中で、経験的フォンモデルが当技術分野で非常に使用されている。フォンモデルは、以下の4つのパラメータによって定義される。
・ks、入射光の鏡面項の反射率。
・kd、入射光の拡散項の反射率(ランバート反射率)。
・ka、レンダリングされたシーン内の全ての点に存在する周囲項の反射率。
・α、この材料の光沢定数であり、より滑らかでより鏡面状の表面ではより大きい。
レンダリングにおいて、表面のBRDFからの光反射及び入射光を導出することは、各サンプルにおける表面法線の知識を必要とする。そのような法線値は、レンダリング側で深度マップから計算され得るか、又は本原理の全ての実施形態の変形例では、追加の法線属性パッチアトラスが、深度アトラス、反射率アトラス、及び色アトラスと共に送信される。この変形例は、レンダリング側における帯域幅とコンピューティングリソースとの間のトレードオフである。
本原理のあらゆる実施形態では、反射率アトラスの各パッチについて、現在のパッチに反射される色パッチのリストが、パッチパラメータ(すなわち、パッチに関連付けられたメタデータ)に追加される。図10の例では、反射率パッチ101aのパラメータは、色アトラス100c内の反射率パッチ106c及び107cが反射率パッチ101aに反射されることを示す。そのような情報がなければ、レンダラは、この情報を取り出すために3Dシーンジオメトリ全体を再構成及び分析しなければならない。
光線追跡技法に基づくレンダラは、伝送された表面特性を活用し、現実的な視点依存光効果を合成する。
図11は、本原理の第2の実施形態による、深度アトラス100a、反射率アトラス110b、及び色アトラス110cにおける図9の3Dシーンの符号化の例を示す。3Dシーンの部分と、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分とについて、同じ深度、色及び反射率パッチが取得される。第2の実施形態では、深度アトラス100aは、深度パッチ101a~107aごとにパッキングすることによって生成される。
色アトラス110cは、3Dシーンのランバート部分(すなわち、非反射部分)に対応する色パッチ102c~105cと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する色パッチ106c及び107cとをパッキングすることによって生成される。
反射率アトラス110bは、3Dシーンの反射部分(すなわち、3Dシーンの非ランバート部分)に対応する反射率パッチ101bをパッキングすることによって生成される。パッチアトラス110bの各反射率パッチについて、BRDF情報及び現在のパッチに反射される色パッチのリストが、メタデータ内のパッチに関連付けられる。
変形例では、3Dシーンの反射部分に対応する法線パッチをパッキングする法線アトラスが、深度アトラス100a、反射率アトラス110b、及び色アトラス110cに関連付けられる。
図12は、本原理の第3の実施形態による、深度アトラス100a、反射率アトラス110b、及び色アトラス120cにおける図9の3Dシーンを符号化する例を示す。3Dシーンの部分と、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分とについて、同じ深度、色及び反射率パッチが取得される。第2の実施形態では、深度アトラス100aは、深度パッチ101a~107aごとにパッキングすることによって生成される。
色アトラス120cは、3Dシーンの部分(すなわち、ランバート部分及び反射部分)に対応する色パッチ101c~105cと、3Dシーンの少なくとも1つの部分に反射された3Dシーン外の部分に対応する色パッチ106c及び107cとをパッキングすることによって生成される。図12において、カメラ視点から見られるような反射を運ぶテクスチャパッチ101cは、色アトラスにパッキングされ、レトロ互換性のあるレンダラにのみ有用である。そのようなレンダリングモードでは、深度パッチ101a~105a及び色パッチ101c~105cのみが復号され、レンダラに供給される。
反射率アトラス110bは、3Dシーンの反射部分(すなわち、3Dシーンの非ランバート部分)に対応する反射率パッチ101bをパッキングすることによって生成される。パッチアトラス110bの各反射率パッチについて、BRDF情報及び現在のパッチに反射される色パッチのリストが、メタデータ内のパッチに関連付けられる。
変形例では、3Dシーンの反射部分に対応する法線パッチをパッキングする法線アトラスが、深度アトラス100a、反射率アトラス110b、及び色アトラス120cに関連付けられる。
メタデータは、3Dシーンを符号化するアトラスに関連付けられる。本原理によれば、メタデータは、属性ごとに別々のパッキング(すなわち、アトラス内のパッチの位置及び向き)を可能にし、パッチが全ての属性アトラスフレーム内に常に存在するわけではない可能性も可能にする。メタデータのための可能なシンタックスは、以下のようなMIV規格のシンタックスに基づき得る。
アトラスシーケンスパラメータは、太字のシンタックス要素で拡張され得る。
Figure 2024514066000002
パッチデータユニットは、太字の要素で拡張されてもよい。
Figure 2024514066000003
Figure 2024514066000004
ここで、
1に等しいpdu_light_source_flag[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチが、シーンの視錐台の外部の光源であり、テクスチャアトラスフレーム内に存在し、反射率アトラスフレーム内に存在しないことを示す。
1に等しいpdu_reflection_parameters_present_flag[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのためのシンタックス構造内に反射モデルパラメータが存在することを示し、これは、反射率アトラスフレーム内に存在するものとする。
pdu_reflection_model_id[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのための反射モデルのIDを指定する。1に等しいpdu_reflection_model_id[tileID][p]は、フォンモデルを示す。
pdu_specular_reflection_constant[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのためのフォンモデルの鏡面反射定数を指定する。
pdu_diffuse_reflection_constant[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのためのフォンモデルの拡散反射定数を指定する。
pdu_ambient_reflection_constant[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのためのフォンモデルの周囲反射定数を指定する。
pdu_diffuse_reflection_constant[tileID][p]は、ID tileIDを有するタイル内のインデックスpを有するパッチのためのフォンモデルの輝き定数を指定する。
pdu_num_reflected_patches_minus1[tileID][p]+1は、ID tileIDを有するタイル内のインデックスpを有するパッチに反射されるテクスチャパッチの数を指定する。
pdu_reflected_patch_idx[tileID][p]][i]は、ID tileIDを有するタイル内のインデックスpを有するパッチ内に反射されたi番目のテクスチャパッチのテクスチャアトラスフレーム内のインデックスを指定する。
代替的に、パッチ反射特性は、「材料反射特性」(例えば、「金属」、「木」、「草」など)のセットに相互化され得、pdu_entity_id[tileID][p]シンタックス要素は、各非ランバートパッチを1つの材料IDに関連付けるために使用され得る。その場合、反射モデルパラメータに関連するシンタックス要素は、(登録された材料の各々について)外部手段を介してレンダラに提供され、反射されたパッチのリストのみがパッチデータユニットMIV拡張にシグナリングされる。
MIVの共通アトラスシーケンスパラメータセットは、以下のように拡張され得る。
Figure 2024514066000005
casme_miv_v1_rendering_compatible_flagは、アトラスジオメトリ及びテクスチャフレームが、ISO/IEC 23090-12(1E)の仮想レンダリングプロセスを用いたレンダリングに対して互換性があることを指定する。casme_MIV_v1_rendering_compatible_flagが1に等しいとき、アトラスのジオメトリフレーム及びテクスチャフレーム中のパッチの少なくとも1つのサブセットが、ISO/IEC 23090-12(1E)の仮想レンダリングプロセスを用いてレンダリングするために互換性があることが、ビットストリーム適合性の要件である。存在しない場合、casme_MIV_v1_rendering_compatible_flagの値は0に等しいと推論される。
図13は、複雑な光効果を用いて3Dシーンを符号化するための方法130を例示する。ステップ131において、捕捉された3Dシーンの部分を投影することによって、第1の深度パッチ、第1の色パッチ、及び反射率パッチが取得される。第2の深度パッチ及び第2の色パッチはまた、3Dシーンの少なくとも1つの部分に反射された捕捉された3Dシーン外の部分を投影することによって取得される。ステップ132において、深度アトラスは、第1及び第2の深度パッチをパッキングすることによって生成され、色アトラスは、第2の色パッチ及び第1の色パッチのサブセットをパッキングすることによって生成される。第1の実施形態によれば、色アトラスにパッキングされた第1の色パッチのサブセットは空である。第2の実施形態では、色アトラスにパッキングされた第1の色パッチのサブセットは、3Dシーンのランバート部分に対応する。第3の実施形態では、色アトラスにパッキングされた第1の色パッチのサブセットは、全ての第1の色パッチを含む。ステップ133において、反射率アトラスは、反射率パッチのサブセットをパッキングすることによって生成される。第1の実施形態では、反射率アトラスにパッキングされた反射率パッチのサブセットは、全ての反射率パッチを含む。第2の実施形態では、反射率アトラスにパッキングされた反射率パッチのサブセットは、3Dシーンの非拡散反射部分に対応する。第3の実施形態では、反射率アトラスにパッキングされた反射率パッチのサブセットは、3Dシーンの非拡散反射部分に対応する。全ての実施形態において、反射率アトラスは、反射率アトラスにパッキングされた各反射率パッチについて、反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報と、反射率パッチに反射された色パッチのリストを示す第2の情報とを含むメタデータに関連付けられる。任意選択のステップ134において、法線アトラスは、反射率アトラス内の反射率パッチのサブセットに対応する法線パッチをパッキングすることによって生成される。ステップ135では、生成されたアトラス及び関連付けられたメタデータは、データストリーム内で符号化される。
図14は、複雑な光効果を用いて3Dシーンをレンダリングするための方法140を例示する。ステップ141では、3Dシーンを表すデータを保有するデータストリームが取得される。ステップ142では、深度パッチをパッキングする深度アトラス及び色パッチをパッキングする色アトラスが、データストリームから復号される。ステップ143では、反射率パッチをパッキングする反射率アトラスが、データストリームから復号される。反射率アトラスに関連付けられたメタデータも復号される。メタデータは、反射率アトラスにパッキングされた各反射率パッチについて、反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報と、反射率パッチに反射された色パッチのリストを示す第2の情報とを含む。任意選択のステップ144において、反射率アトラス内の反射率パッチのサブセットに対応する法線パッチをパッキングする法線アトラスが、データストリームから復号される。
ステップ145では、色パッチのピクセルは、3Dシーンのポイントを取り出すために、対応する深度パッチのピクセルに従って逆投影される。ステップ146では、光効果は、反射率パッチ及び関連するメタデータ、並びにメタデータに列挙された深度パッチ及び色パッチのピクセルに基づいて、光線追跡法を使用することによって取り出される。変形例では、法線パッチは、光線追跡を容易にするために使用されてもよい。
本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察された)であっても、考察された特徴の実装形態は、他の形態(例えば、プログラム)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(「personal digital assistant、PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
本明細書に記載の様々なプロセス及び特徴の実装形態は、様々な異なる機器又はアプリケーション、特に、例えば、データ符号化、データ復号、ビュー生成、テクスチャ処理並びに画像及び関連するテクスチャ情報及び/又は深度情報の他の処理と関連付けられた機器又はアプリケーションにおいて、具体化され得る。そのような機器の例としては、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、及び他の通信デバイスが挙げられる。明確であるはずであるように、機器は、モバイルであり得、モバイル車両に設置され得る。
加えて、方法は、プロセッサによって実行される命令によって実装され得、そのような命令(及び/又は実装形態によって生じたデータ値)は、例えば、集積回路、ソフトウェアキャリア又は他の記憶デバイス、例えば、ハードディスク、コンパクトディスケット(「compact diskette、CD」)、光学ディスク(例えば、デジタル多用途ディスク又はデジタルビデオディスクと称されることが多いDVDなど)、ランダムアクセスメモリ(「RAM」)又は読み取り専用メモリ(「ROM」)などのプロセッサ可読媒体上に記憶され得る。命令は、プロセッサ可読媒体上で明白に具体化されたアプリケーションプログラムを形成し得る。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は2つの組み合わせに見出され得る。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体(記憶デバイスなど)を含むデバイスと、の両方として特徴付けられ得る。更に、プロセッサ可読媒体は、命令に加えて、又は命令の代わりに、実装形態によって生じたデータ値を記憶することができる。
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を担持するようにフォーマット化された様々な信号を生じ得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態の構文を書き込むか、若しくは読み取るためのルールをデータとして担持するか、又は記載された実施形態によって書き込まれた実際の構文値をデータとして担持するようにフォーマット化され得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。
多くの実装形態が説明されている。それにもかかわらず、様々な修正が行われ得ることが理解されるであろう。例えば、異なる実装形態の要素は、他の実装形態を作り出すために組み合わせ、補足、修正、又は削除することができる。加えて、当業者は、開示されたものに対して他の構造及びプロセスを置換することができ、結果として生じる実装形態は、少なくとも実質的に同じ機能を少なくとも実質的に同じ方式で実行して、開示された実装形態と少なくとも実質的に同じ結果を達成することを理解するであろう。したがって、これら及び他の実装形態は、本出願によって企図される。

Claims (21)

  1. 方法であって、
    -3Dシーンの部分について、第1の色パッチ、反射率パッチ、及び第1の深度パッチを取得することと、
    -前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分について、第2の色パッチ及び第2の深度パッチを取得することと、
    -第1及び第2の深度パッチをパッキングすることによって、深度アトラスを生成することと、
    -前記第2の色パッチと前記第1の色パッチのサブセットとをパッキングすることによって、色アトラスを生成することと、
    -前記反射率パッチのサブセットをパッキングすることによって、反射率アトラスを生成することと、
    -前記反射率アトラスにパッキングされた各反射率パッチについて、
    前記反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報を生成すること、及び
    前記反射率パッチに反射された色パッチのリストを示す第2の情報を生成することと、
    -データストリームに前記深度アトラスと、前記色アトラスと、前記反射率アトラスと、前記第1の情報及び前記第2の情報とを符号化することと、を含む、方法。
  2. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、空であり、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、全ての反射率パッチを含む、請求項1に記載の方法。
  3. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、前記3Dシーンのランバート部分に対応し、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、前記3Dシーンの非拡散反射部分に対応する、請求項1に記載の方法。
  4. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、全ての第1の色パッチを含み、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、前記3Dシーンの非拡散反射部分に対応する、請求項1に記載の方法。
  5. 前記双方向反射率分布関数モデルは、フォンモデルである、請求項1から4のいずれか一項に記載の方法。
  6. 前記反射率アトラス内の前記反射率パッチの前記サブセットに対応する表面法線パッチをパッキングすることによって、表面法線アトラスを生成することを更に含む、請求項1から5のいずれか一項に記載の方法。
  7. デバイスであって、
    プロセッサと、
    命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行されると、
    -3Dシーンの部分について、第1の色パッチ、反射率パッチ、及び第1の深度パッチを取得し、
    -前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分について、第2の色パッチ及び第2の深度パッチを取得し、
    -第1及び第2の深度パッチをパッキングすることによって、深度アトラスを生成し、
    -前記第2の色パッチと前記第1の色パッチのサブセットとをパッキングすることによって、色アトラスを生成し、
    -前記反射率パッチのサブセットをパッキングすることによって、反射率アトラスを生成し、
    -前記反射率アトラスにパッキングされた各反射率パッチについて、
    前記反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報を生成し、かつ
    前記反射率パッチに反射された色パッチのリストを示す第2の情報を生成し、並びに
    -データストリームに前記深度アトラスと、前記色アトラスと、前記反射率アトラスと、前記第1の情報と、前記第2の情報とを符号化するように動作する、非一時的コンピュータ可読媒体と、を備える、デバイス。
  8. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、空であり、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、全ての反射率パッチを含む、請求項7に記載のデバイス。
  9. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、前記3Dシーンのランバート部分に対応し、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、前記3Dシーンの非拡散反射部分に対応する、請求項7に記載のデバイス。
  10. -前記色アトラスにパッキングされた前記第1の色パッチの前記サブセットは、全ての第1の色パッチを含み、
    -前記反射率アトラスにパッキングされた前記反射率パッチの前記サブセットは、前記3Dシーンの非拡散反射部分に対応する、請求項7に記載のデバイス。
  11. 前記双方向反射率分布関数モデルは、フォンモデルである、請求項7から10のいずれか一項に記載のデバイス。
  12. 前記非一時的コンピュータ可読媒体は、前記反射率アトラス内の前記反射率パッチの前記サブセットに対応する表面法線パッチをパッキングすることによって、表面法線アトラスを生成するように動作する命令を更に記憶する、請求項7から11のいずれか一項に記載のデバイス。
  13. 3Dシーンを符号化するデータストリームであって、
    -前記3Dシーンの部分に対応する第1の深度パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の深度パッチとをパッキングする深度アトラスと、
    -前記3Dシーンの部分に対応する第1の色パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の色パッチとをパッキングする色アトラスと、
    -前記3Dシーンの部分に対応する反射率パッチをパッキングする反射率アトラスと、
    -前記反射率アトラスにパッキングされた各反射率パッチについて、
    ・前記反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報、及び
    ・前記反射率パッチに反射された色パッチのリストを示す第2の情報と、を含む、データストリーム。
  14. 前記双方向反射率分布関数モデルは、フォンモデルである、請求項13に記載のデータストリーム。
  15. 前記反射率アトラス内の前記反射率パッチのサブセットに対応する表面法線パッチをパッキングする表面法線アトラスを更に含む、請求項13又は14に記載のデータストリーム。
  16. 3Dシーンをレンダリングする方法であって、前記方法は、
    データストリームから、
    -前記3Dシーンの部分に対応する第1の深度パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の深度パッチとをパッキングする深度アトラスと、
    -前記3Dシーンの部分に対応する第1の色パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の色パッチとをパッキングする色アトラスと、
    -前記3Dシーンの部分に対応する反射率パッチをパッキングする反射率アトラスと、
    -前記第1の色パッチ及び前記反射率パッチに従って決定されたレンダリングモードをシグナリングする情報と、
    -前記反射率アトラスにパッキングされた各反射率パッチについて、
    ・前記反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報、及び
    ・前記反射率パッチに反射された色パッチのリストを示す第2の情報とを復号することと、
    前記第1及び第2の深度パッチに従って前記第1及び第2の色パッチを逆投影することによって、かつ第1及び第2の情報と関連する色パッチとに従って反射率パッチのための光線追跡を使用することによって、前記3Dシーンをレンダリングすることと、を含む、方法。
  17. 前記双方向反射率分布関数モデルは、フォンモデルである、請求項16に記載の方法。
  18. 前記データストリームから、前記反射率アトラス内の前記反射率パッチのサブセットに対応する表面法線パッチをパッキングする表面法線アトラスを復号し、かつ光線追跡のために表面法線パッチを使用することを更に含む、請求項16又は17に記載の方法。
  19. デバイスであって、
    プロセッサと、
    命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行されると、
    データストリームから、
    -3Dシーンの部分に対応する第1の深度パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の深度パッチとをパッキングする深度アトラスと、
    -前記3Dシーンの部分に対応する第1の色パッチと、前記3Dシーンの少なくとも1つの部分に反射された前記3Dシーン外の部分に対応する第2の色パッチとをパッキングする色アトラスと、
    -前記3Dシーンの部分に対応する反射率パッチをパッキングする反射率アトラスと、
    -前記第1の色パッチ及び前記反射率パッチに従って決定されたレンダリングモードをシグナリングする情報と、
    -前記反射率アトラスにパッキングされた各反射率パッチについて、
    ・前記反射率パッチ上の光反射の双方向反射率分布関数モデルのパラメータを符号化する第1の情報、及び
    ・前記反射率パッチに反射された色パッチのリストを示す第2の情報とを復号し、
    並びに
    前記第1及び第2の深度パッチに従って前記第1及び第2の色パッチを逆投影することによって、かつ第1及び第2の情報と関連する色パッチとに従って反射率パッチのための光線追跡を使用することによって、前記3Dシーンをレンダリングするように動作する、非一時的コンピュータ可読媒体と、を備える、デバイス。
  20. 前記双方向反射率分布関数モデルは、フォンモデルである、請求項19に記載のデバイス。
  21. 前記プロセッサは、前記データストリームから、前記反射率アトラス内の前記反射率パッチのサブセットに対応する表面法線パッチをパッキングする表面法線アトラスを復号し、かつ光線追跡のために表面法線パッチを使用するように更に構成されている、請求項19又は20に記載のデバイス。
JP2023558965A 2021-04-07 2022-04-04 光効果をサポートする容積ビデオ Pending JP2024514066A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21305440 2021-04-07
EP21305440.6 2021-04-07
PCT/EP2022/058896 WO2022214435A1 (en) 2021-04-07 2022-04-04 Volumetric video supporting light effects

Publications (1)

Publication Number Publication Date
JP2024514066A true JP2024514066A (ja) 2024-03-28

Family

ID=75625518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023558965A Pending JP2024514066A (ja) 2021-04-07 2022-04-04 光効果をサポートする容積ビデオ

Country Status (6)

Country Link
US (1) US20240249462A1 (ja)
EP (1) EP4320596A1 (ja)
JP (1) JP2024514066A (ja)
CN (1) CN117121059A (ja)
MX (1) MX2023011296A (ja)
WO (1) WO2022214435A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220159298A1 (en) * 2019-05-14 2022-05-19 Intel Corporation IMMERSIVE VIDEO CODING TECHNIQUES FOR THREE DEGREE OF FREEDOM PLUS/METADATA FOR IMMERSIVE VIDEO (3DoF+/MIV) AND VIDEO-POINT CLOUD CODING (V-PCC)
US11432009B2 (en) * 2019-07-02 2022-08-30 Intel Corporation Techniques for encoding and decoding immersive video

Also Published As

Publication number Publication date
US20240249462A1 (en) 2024-07-25
CN117121059A (zh) 2023-11-24
WO2022214435A1 (en) 2022-10-13
EP4320596A1 (en) 2024-02-14
MX2023011296A (es) 2023-12-14

Similar Documents

Publication Publication Date Title
KR102600011B1 (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
KR20200065076A (ko) 볼류메트릭 비디오 포맷을 위한 방법, 장치 및 스트림
JP7499182B2 (ja) ボリュメトリックビデオフォーマット用の方法、装置及びストリーム
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
CN114051734A (zh) 一种解码三维场景的方法和装置
CN114868396A (zh) 用于多视点3DoF+内容的编码和解码的方法和装置
US20230224501A1 (en) Different atlas packings for volumetric video
US20220377302A1 (en) A method and apparatus for coding and decoding volumetric video with view-driven specularity
CN115443654A (zh) 用于对体积视频进行编码和解码的方法和装置
KR102607709B1 (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
JP2022541908A (ja) ボリュメトリックビデオコンテンツを配信するための方法および装置
US20220343546A1 (en) Haptic atlas coding and decoding format
US20230217006A1 (en) A method and apparatuses for delivering a volumetric video content
JP2023506832A (ja) 補助パッチを有する容積ビデオ
JP2022549431A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
EP3709659A1 (en) A method and apparatus for encoding and decoding volumetric video
JP2024514066A (ja) 光効果をサポートする容積ビデオ
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置