JP2023507586A - 3dof構成要素からの6dofコンテンツを符号化、復号化、及びレンダリングするための方法及び装置 - Google Patents

3dof構成要素からの6dofコンテンツを符号化、復号化、及びレンダリングするための方法及び装置 Download PDF

Info

Publication number
JP2023507586A
JP2023507586A JP2022537568A JP2022537568A JP2023507586A JP 2023507586 A JP2023507586 A JP 2023507586A JP 2022537568 A JP2022537568 A JP 2022537568A JP 2022537568 A JP2022537568 A JP 2022537568A JP 2023507586 A JP2023507586 A JP 2023507586A
Authority
JP
Japan
Prior art keywords
scene
viewpoint
clusters
points
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022537568A
Other languages
English (en)
Other versions
JPWO2021127419A5 (ja
Inventor
サーモン-レガニュール、シャルル
タイービ、シャーリーン
ルー、ジャン ル
トラヴァート、セルジュ
Original Assignee
インターデイジタル ヴィーシー ホールディングス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデイジタル ヴィーシー ホールディングス インコーポレイテッド filed Critical インターデイジタル ヴィーシー ホールディングス インコーポレイテッド
Publication of JP2023507586A publication Critical patent/JP2023507586A/ja
Publication of JPWO2021127419A5 publication Critical patent/JPWO2021127419A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/028Multiple view windows (top-side-front-sagittal-orthogonal)

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

容積コンテンツは、エンコーダによってクラスタのセットとして符号化され、容積コンテンツを取得するデコーダに送信される。異なる視点に共通するクラスタが取得され、相互化される。クラスタは、2D画像上に投影され、独立したビデオストリームとして符号化される。視覚的アーチファクト、並びに記憶及びストリーミングのためのデータが低減される。【選択図】図11

Description

本原理は、概して、三次元(three-dimensional、3D)シーン及び容積ビデオコンテンツのドメインに関する。本文書はまた、モバイルデバイス又はヘッドマウントディスプレイ(Head-Mounted Display、HMD)などのエンドユーザデバイス上の容積コンテンツのレンダリングのための、テクスチャ及び3Dシーンの幾何学的形状を表すデータの符号化、フォーマット化及び復号化の文脈において理解される。
本節は、以下に説明及び/又は特許請求される本原理の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本原理の様々な態様のより良好な理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。
近年、利用可能な大きな視野コンテンツ(最大360°)の成長があった。そのようなコンテンツは、ヘッドマウントディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォンなどの没入型表示デバイス上のコンテンツを視聴するユーザによって完全には見えない可能性がある。これは、所与の瞬間に、ユーザがコンテンツの一部のみを視認することができることを意味する。しかしながら、ユーザは、典型的には、頭部の動き、マウスの動き、タッチスクリーン、音声などの様々な手段によって、コンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化及び復号化することが望ましい。
360°フラットビデオとも呼ばれる没入型ビデオにより、ユーザは、静止点の周りの頭部の回転を通じて自身の周りの全てを視聴することができる。回転は、3自由度(3 Degrees of Freedom、3DoF)体験のみを可能にする。例えば、3DoFビデオが、ヘッドマウントディスプレイデバイス(HMD)を使用した第1の全方向性ビデオ体験に十分である場合であっても、例えば視差を体験することによって、より多くの自由度を期待する視聴者にとって、3DoFビデオは即座に苛立たしいものになる可能性がある。更に、3DoFはまた、ユーザが頭部を回転させるだけでなく、頭部を3方向に並進させるために、3DoFビデオ体験で再現されない並進のために、めまいを誘発し得る。
大きな視野コンテンツは、とりわけ、三次元コンピュータグラフィック画像シーン(three-dimension computer graphic imagery scene、3D CGIシーン)、点群又は没入型ビデオであり得る。そのような没入型ビデオを設計するために多くの用語が使用され得る。例えば、仮想現実(Virtual Reality、VR)、360、パノラマ、4πステラジアン、没入型、全方向性又は大きな視野。
容積ビデオ(6自由度(6 Degrees of Freedom、6DoF)ビデオとしても既知である)は、3DoFビデオの代替物である。6DoFビデオを視聴するとき、回転に加えて、ユーザはまた、視聴されたコンテンツ内で頭部を、更には自身の身体を並進させ、視差及び更には容積を体験することができる。そのようなビデオは、没入の感覚及びシーン深度の知覚を大幅に増加させ、頭部並進中に一貫した視覚的フィードバックを提供することによって、めまいを防止する。コンテンツは、目的のシーンの色及び深度の同時記録を可能にする専用センサの手段によって作成される。写真測量技術と組み合わせたカラーカメラのリグの使用は、技術的な困難が残っている場合でも、そのような記録を実行する方法である。
3DoFビデオは、テクスチャ画像(例えば、緯度/経度投影マッピング又は正距円筒図法マッピングに従って符号化された球形画像)のアンマッピングから生じる一連の画像を含むが、6DoFビデオフレームは、いくつかの視点から情報を埋め込む。それらは、三次元捕捉から生じる時間的一連の点群として視認することができる。視聴条件に応じて、2種類の容積ビデオを考慮することができる。1つ目(すなわち、完全な6DoF)は、ビデオコンテンツ内の完全な自由ナビゲーションを可能にするが、2つ目(3DoF+として知られる)は、ユーザ視認空間を視認境界ボックスと呼ばれる限られた容積に制限し、頭部及び視差体験の制限された並進を可能にする。この第2の文脈は、着座したオーディエンスメンバーの自由ナビゲーションと受動的視聴条件との間の貴重なトレードオフである。
しかしながら、情報が欠落しているゾーンなどのレンダリングアーチファクトが、3DOF+容積レンダリング体験中に現れる場合がある。レンダリングアーチファクトを低減する必要がある。
3DoF+レンダリング体験では、ユーザは視点を視認境界ボックス内で移動させることができる。これは、視認境界ボックス内の複数の視点から3Dシーンを符号化することによって達成される。視認境界ボックス内の複数の視点について、これらの視点から360度内に可視である点が投影されて、3Dシーンの2D投影を取得する。これらの2D投影は、HEVC(高効率ビデオコーディング)などの周知のビデオコーディング技術を使用して符号化され、ネットワーク上で送信される。
ユーザ体験の品質は、所与の視認境界ボックスの3Dシーンを符号化するときに考慮される視点の数に依存する。視点数を増やすことにより、アーチファクトを削減することができる。
しかしながら、視点数を増やすことによって、容積ビデオに対応するデータ負荷の量が増加し、記憶及び転送に影響を与える。
更に、ユーザが視認境界ボックスから隣接視認境界ボックスに大きな振幅の移動を行うと、隣接視認境界ボックスに関連付けられたデータをレンダリングのために取得する必要がある。データ負荷が大きい場合、コンテンツを取得してレンダリングするための待ち時間がユーザに対して知覚可能となるリスクがある。
ユーザにシームレスなナビゲーション体験を提供しながら、3DoF+容積ビデオに対応するデータ負荷を最小限に抑える必要がある。
以下は、本原理のいくつかの態様の基本的な理解を提供するための本原理の簡略化された概要を提示する。この概要は、本原理の広範な概要ではない。本原理の重要な又は重大な要素を特定することは意図されていない。以下の概要は、以下に提供されるより詳細な説明の前置きとして簡略化された形態で、本原理のいくつかの態様を単に提示するに過ぎない。
1つ以上の実施形態によれば、3Dシーンに関連する容積コンテンツを符号化するための方法及びデバイスが提供される。この方法は、
少なくとも1つのクラスタリング基準に従って、3Dシーン内の点を複数のクラスタにクラスタリングすることと、
投影パラメータに従ってクラスタを投影して、2D画像のセットを取得することと、
2D画像のセット及び投影パラメータをデータストリームのセットに符号化することと、を含む。
一実施形態によれば、2D画像のそれぞれが、別個のデータストリームで符号化される。別の実施形態では、視認ボックスが、3Dシーン内で定義され、視認ボックス内の2つの視点から可視であるクラスタを投影することによって得られた2D画像が、同じデータストリームで符号化される。別の実施形態では、2つの視認ボックスが、3Dシーン内で定義され、2つの視認ボックスのそれぞれ内の2つの視点から可視であるクラスタを投影することによって得られた2D画像が、同じデータストリームで符号化される。
本開示はまた、3Dシーンを復号化するための方法及びデバイスに関する。この方法は、
データストリームのセットから少なくとも1つの2D画像を取得することであって、2D画像が、3Dシーン内の点の少なくとも1つのクラスタの投影パラメータに従った投影を表し、点のクラスタ内の点が少なくとも1つのクラスタリング基準を満たす、取得することと、
投影パラメータ及び3Dシーン内の視点に従って、少なくとも2D画像の画素を逆投影することと、を含む。
一実施形態では、本方法は、
メタデータを取得することであって、メタデータが、
3Dシーンに定義された視認ボックスのリストと、
視認ボックスについて、視認ボックスの視点から可視である3D点のクラスタを表す2D画像を符号化するデータストリームの記述と、を含む、取得することと、
当該視点から可視である3D点のクラスタを含むデータストリームから2D画像を復号化することと、を更に含む。
本開示はまた、少なくとも1つのプロセッサに、少なくとも符号化方法のステップ、及び/又は復号化方法、及び/又はレンダリング方法、並びに/又は上記の受信方法を実行させるための命令を記憶する媒体に関する。
本開示は、より良好に理解され、以下の説明を読むと、他の特定の特徴及び利点が明らかになり、本明細書は、添付の図面を参照する。
本原理の非限定的な実施形態による、3Dモデルに対応するオブジェクト及び点群の点の三次元(3D)モデルを示す。 本原理の非限定的な実施形態による、3Dシーンのシーケンスを表すデータの符号化、送信、及び復号化のための符号化デバイス、送信媒体、及び復号化デバイスの一例を示す。 本原理の非限定的な実施形態による、図14及び図15に関連して説明される符号化及び/又は復号化方法を実施するように構成され得る符号化及び/又は復号化デバイスのアーキテクチャの一例を示す。 本原理の非限定的な実施形態による、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の一実施形態の一例を示す。 いくつかのオブジェクトを含む3Dシーンを示す。 3DoF+レンダリングに関して、3Dシーンが行われる三次元空間における3DoF+視認境界ボックスの概念を示す。 容積レンダリングによって可能になる視差体験を示す。 視差体験及び脱遮蔽効果を示す。 本原理の非限定的な実施形態による容積情報を構造化するための方法を示す。 本原理の非限定的な実施形態による、3Dシーンを複数の点のクラスタにクラスタリングするために使用される方法の一例を示す。 本原理の非限定的な実施形態による、3Dシーンの2Dパラメータ化を示す。 本原理の非限定的な実施形態による、クラスタを有する3Dシーンの上面図の例を示す。 本原理の非限定的な実施形態による、クラスタを有する3Dシーンの上面図の例を示す。 本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツを符号化するための方法を示す。 本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツを復号化するための方法を示す。 本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツをレンダリングするための方法を示す。 本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツを受信するための方法を示す。
本原理は、添付の図面を参照して以下により完全に説明され、本原理の例が示されている。しかしながら、本原理は、多くの代替形態で具体化され得、本明細書に記載の実施例に限定されるものとして解釈されるべきではない。したがって、本原理は、様々な修正及び代替的な形態の余地があるが、その具体的な例は、図面の例として示され、本明細書において詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、反対に、本開示は、特許請求の範囲によって定義される本原理の趣旨及び範囲内にある全ての修正、均等物及び代替物を網羅することであることを理解されたい。
本明細書で使用される用語は、特定の実施例のみを説明する目的のためであり、本原理を限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が別途明確に示されない限り、複数形も含むことが意図される。本明細書で使用される場合、「含む(comprises)」、「含む(comprising)」、「含む(includes)」及び/又は「含む(including)」という用語は、記載された特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素及び/又はそれらのグループの存在又は追加を排除しないことが更に理解されるであろう。更に、要素が別の要素に「応答する」又は「接続される」と称される場合、それは、他の要素に直接応答するか、又は他の要素に接続され得るか、又は介在要素が存在し得る。対照的に、要素が他の要素に「直接応答する」又は「直接接続される」と称される場合、介在要素は存在しない。本明細書で使用される場合、「及び/又は」という用語は、関連付けられた列挙された項目のうちの1つ以上の任意の及び全ての組み合わせを含み、「/」と略され得る。
本明細書では、第1、第2などの用語が様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第1の要素は、第2の要素と呼ぶことができ、同様に、第2の要素は、本原理の教示から逸脱することなく、第1の要素と呼ぶことができる。
図の一部は、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、描かれた矢印と反対方向に発生し得ることを理解されたい。
いくつかの例は、各ブロックが、指定された論理機能を実装するための1つ以上の実行可能命令を含む、回路要素、モジュール又はコードの部分を表すブロック図及び動作フローチャートに関して説明される。他の実装では、ブロックに記載された機能は、記載された順序から発生し得ることにも留意されたい。例えば、連続して示されている2つのブロックは、実際には実質的に同時に実行され得るか、又は関与する機能に応じて、ブロックが逆の順序で実行され得る。
本明細書における「一例による」又は「一例における」は、本実施例に関連して説明される特定の特徴、構造又は特性が、本原理の少なくとも1つの実装形態に含まれ得ることを意味する。本明細書の様々な場所における「一例による」又は「一例における」の句の出現は、必ずしも全てが同じ例を指しているわけではなく、別個の又は代替的な実施例では、必ずしも他の実施例と相互に排他的ではない。
特許請求の範囲に現れる参照番号は、単に例示としてのものであり、特許請求の範囲に限定的な影響を及ぼさないものとする。明示的に記載されていないが、本実施例及び変形例は、任意の組み合わせ又は部分的な組み合わせで用いられ得る。
本原理は、3Dシーンに関連する容積コンテンツをストリームに符号化するための方法、そのような容積コンテンツをストリームから復号化するための方法、及び言及された復号化方法に従って復号化された容積コンテンツの容積レンダリングのための方法の特定の実施形態に関して説明される。
非限定的な実施形態によれば、3Dシーンの点のクラスタリングに基づいて符号化される、及び/又は送信される(例えば、ストリーミングされる)、及び/又は復号化される、及び/又はレンダリングされる3Dシーンに関連する容積情報を構造化する方法が開示される。3Dシーンを捕捉するために、3D空間は、3DoF+視認境界ボックスと呼ばれる視認境界ボックスで編成される。異なる3DoF+視認境界ボックスに共通するクラスタが得られる。3DOF+視認境界ボックスの容積コンテンツは、クラスタを使用して符号化される。6DoF容積レンダリング体験は、連続する3DoF+容積レンダリング体験によって達成される。
符号化、送信、受信、及びレンダリングのための本原理の利点は、図面を参照して以下の説明において提示される。
図1は、オブジェクト及び3Dモデル10に対応する点群11の点の三次元(3D)モデル10を示す。3Dモデル10及び点群11は、例えば、他のオブジェクトを含む3Dシーンのオブジェクトの潜在的な3D表現に対応し得る。モデル10は、3Dメッシュ表現であり得、点群11の点は、メッシュの頂点であり得る。点群11の点はまた、メッシュの面の表面上に広がった点であり得る。モデル10はまた、点群11のスプラッティングされたバージョンとして表すこともでき、モデル10の表面は、点群11の点をスプラッティングすることによって作成される。モデル10は、ボクセル又はスプラインなどの多くの異なる表現によって表され得る。図1は、点群が3Dオブジェクトの表面表現と定義され得、3Dオブジェクトの表面表現がクラウドの点から生成され得るという事実を示す。本明細書で使用される場合、画像上の(3Dシーンの伸長点による)3Dオブジェクトの投影点は、この3Dオブジェクト、例えば、点群、メッシュ、スプラインモデル又はボクセルモデルの任意の表現を投影することと同等である。
点群は、例えば、ベクトルベースの構造としてメモリで表すことができ、各点は、視点の参照フレーム内の独自の座標(例えば、三次元座標XYZ、又は視点からの/視点への立体角及び距離(深度とも呼ばれる))及び成分とも呼ばれる1つ以上の属性を有する。成分の例は、様々な色空間、例えば、RGB(赤、緑及び青)又はYUV(Yが輝度成分及びUVが2つの色差成分である)で発現され得る色成分である。点群は、オブジェクトを含む3Dシーンの表現である。3Dシーンは、所与の視点又は視点の範囲から見ることができる。点群は、多くの方法によって、例えば、
●任意選択的に深度アクティブセンシングデバイスによって補完された、カメラのリグによって撮影された実オブジェクトの捕捉から、
●モデリングツールにおける仮想カメラのリグによって撮影された仮想/合成オブジェクトの捕捉から、
●実オブジェクトと仮想オブジェクトの両方の混合物から、取得され得る。
図2は、3Dシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。例えば、同時に、3DoF、3DoF+及び6DoF復号化に適合することができる符号化形式。
3Dシーン20のシーケンスが取得される。写真のシーケンスが2Dビデオであるとき、3Dシーンのシーケンスは3D(容積とも呼ばれる)ビデオである。3Dシーンのシーケンスは、3DoF、3Dof+又は6DoFレンダリング及び表示のための容積ビデオレンダリングデバイスに提供され得る。
3Dシーン20のシーケンスは、エンコーダ21に提供される。エンコーダ21は、入力として1つの3Dシーン又は3Dシーンのシーケンスを取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ22内及び/又は電子データ媒体上に記憶され得、ネットワーク22を介して送信され得る。3Dシーンのシーケンスを表すビットストリームは、メモリ22から読み取られ得る、及び/又はデコーダ23によってネットワーク22から受信され得る。デコーダ23は、当該ビットストリームによって入力され、例えば、点群形式で3Dシーンのシーケンスを提供する。
エンコーダ21は、いくつかのステップを実装するいくつかの回路を備え得る。第1のステップでは、エンコーダ21は、各3Dシーンを少なくとも1つの2D写真に投影する。3D投影は、三次元点を二次元平面にマッピングする任意の方法である。グラフィックデータを表示するための最新の方法は、平面(いくつかのビット平面からの画素情報)二次元媒体に基づいているため、このタイプの投影の使用は、特にコンピュータグラフィック、操作及びドラフト化において広範囲に及ぶ。選択及び使用される投影方法は、投影パラメータのセット又はリストとして表され、符号化され得る。投影回路211は、シーケンス20の3Dシーンのための少なくとも1つの二次元画像2111を提供する。画像2111は、画像2111上に投影された3Dシーンを表す色情報及び深度情報を含む。変形例では、色情報及び深度情報は、2つの別個の画像2111及び2112において符号化される。
メタデータ212は、投影回路211によって使用され、更新される。メタデータ212は、図5~図7に関連して説明したように、投影動作(例えば、投影パラメータ)並びに色及び深度情報が画像2111及び2112内で編成される方法に関する情報を含む。
ビデオ符号化回路213は、画像2111及び2112のシーケンスをビデオとして符号化する。3Dシーン2111及び2112の画像(又は3Dシーンの画像のシーケンス)は、ビデオエンコーダ213によってストリーム内で符号化される。次いで、ビデオデータ及びメタデータ212は、データカプセル化回路214によってデータストリーム内でカプセル化される。
エンコーダ213は、例えば、
-JPEG、仕様ISO/CEI10918-1UIT-T推奨T.81、https://www.itu.int/rec/T-REC-T.81/en;
-MPEG-4AVC又はh264とも呼ばれるAVCなどのエンコーダに準拠する。UIT-TH.264及びISO/CEI MPEG-4-Part 10(ISO/CEI14496-10)、http://www.itu.int/rec/T-REC-H.264/en,HEVC(その仕様は、ITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/enで見出される)、
-3D-HEVC(仕様がITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and Iで見出されるHEVCの拡張子)、
-Googleによって開発されたVP9、又は
-Alliance for Open Mediaによって開発されたAV1(AO媒体ビデオ1)。
データストリームは、デコーダ23によって、例えばネットワーク22を介してアクセス可能なメモリに記憶される。デコーダ23は、復号化の異なるステップを実装する異なる回路を備える。デコーダ23は、エンコーダ21によって生成されたデータストリームを入力として取り、ヘッドマウントデバイス(HMD)のような容積ビデオ表示デバイスによってレンダリングされ、かつ表示される3Dシーン24のシーケンスを提供する。デコーダ23は、ソース22からストリームを取得する。例えば、ソース22は、
-例えば、ビデオメモリ又はRAM(又はランダムアクセスメモリ)、フラッシュメモリ、ROM(又は読み取り専用メモリ)、ハードディスクなどのローカルメモリと、
-例えば、質量ストレージ、RAM、フラッシュメモリ、ROM、光学ディスク又は磁気サポートとのインターフェースなどのストレージインターフェースと、
-例えば、有線インターフェース(例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース)又は無線インターフェース(IEEE802.11インターフェース又はBluetooth(登録商標)インターフェースなど)などの通信インターフェースと、
-ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェースと、を含むセットに属する。
デコーダ23は、データストリーム内で符号化されたデータを抽出するための回路234を備える。回路234は、データストリームを入力として取り、ストリーム及び二次元ビデオにおいて符号化されたメタデータ212に対応するメタデータ232を提供する。ビデオは、画像のシーケンスを提供するビデオデコーダ233によって復号化される。復号化された画像は、色及び深度情報を含む。変形例では、ビデオデコーダ233は、一方が色情報を含み、他方が深度情報を含む2つの画像のシーケンスを提供する。回路231は、メタデータ232を使用して、復号化された画像からの色及び深度情報を投影せず、3Dシーン24のシーケンスを提供する。3Dシーン24のシーケンスは、2Dビデオとしての符号化に関連する精度が潜在的に低下3Dシーン20のシーケンス及びビデオ圧縮に対応する。
本明細書に開示される原理は、エンコーダ21に関し、より具体的には、投影回路211及びメタデータ212に関する。それらはまた、デコーダ23、より具体的には、逆投影回路231及びメタデータ232に関する。
図3は、図14及び図15に関連して説明される方法を実施するように構成され得るデバイス30のアーキテクチャの一例を示す。図2のエンコーダ21及び/又はデコーダ23は、このアーキテクチャを実装し得る。代替的に、エンコーダ21及び/又はデコーダ23の各回路は、例えば、それらのバス31を介して、かつ/又はI/Oインターフェース36を介して一緒に連結された、図3のアーキテクチャによるデバイスであり得る。
デバイス30は、データ及びアドレスバス31によって一緒に連結された以下の要素:
-例えば、DSP(又はデジタル信号プロセッサ)であるマイクロプロセッサ32(又はCPU)と、
-ROM(又は読み取り専用メモリ)33と、
-RAM(又はランダムアクセスメモリ)34と、
-ストレージインターフェース35と、
-アプリケーションから、送信するデータを受信するためのI/Oインターフェース36と、
-電源、例えば、バッテリと、を備える。
一例によれば、電源はデバイスの外部にある。言及されたメモリの各々において、本明細書で使用される「レジスタ」という単語は、小さな容量の領域(いくつかのビット)又は非常に大きな領域(例えば、全体のプログラム又は大量の受信された、又は復号化されたデータ)に対応し得る。ROM33は、少なくともプログラム及びパラメータを含む。ROM33は、本原理に従って技術を実行するためのアルゴリズム及び命令を記憶することができる。オンに切り替えられると、CPU32は、RAM内のプログラムをアップロードし、対応する命令を実行する。
RAM34は、レジスタ内で、CPU32によって実行され、デバイス30のスイッチオン後にアップロードされるプログラムと、レジスタ内の入力データと、レジスタ内の方法の異なる状態の中間データと、レジスタ内の方法の実行のために使用される他の変数と、を含む。
本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察される)であっても、考察される特徴の実装形態は、他の形態(例えば、プログラム)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
実施例によれば、デバイス30は、図14及び図15に関連して説明された方法を実装するように構成されており、
-モバイルデバイスと、
-通信デバイスと、
-ゲームデバイスと、
-タブレット(又はタブレットコンピュータ)と、
-ラップトップと、
-静止画カメラと、
-ビデオカメラと、
-符号化チップと、
-サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ又はウェブサーバ)と、を含むセットに属する。
図4は、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の実施形態の一例を示す。図4は、1つの視認境界ボックスに関する容積ビデオストリームの構造4の一例を示す。構造4は、構文の独立した要素でストリームを編成する。この例では、構造4は、構文41、42、及び43の3つの要素を含む。構文41の要素は、構造4の構文の全ての要素に共通のデータを含むヘッダである。例えば、ヘッダ41は、構造4の構文の各要素の性質及び役割を説明するメタデータを含む。ヘッダ部分41はまた、図2のメタデータ212の一部、例えば、視認境界ボックスの位置に関する情報(例えば、視認境界ボックスの中央視点)を含む。
構造4は、構文42の要素と、構文43の少なくとも1つの要素を含むペイロードを含む。構文42の要素は、符号化されたビデオデータ、例えば、色及び深度画像2111及び2112を表すデータを含む。
構文43の要素は、画像2111及び2113がどのように符号化されるかについてのメタデータ、特に、3Dシーンの点を画像上に投影及びパックするために使用される特定のパラメータを含む。そのようなメタデータは、ビデオの各画像又は(ビデオ圧縮標準において写真のグループ(Group of Pictures、GoP)としても既知である)画像のグループと関連付けられ得る。
前述のように、情報が欠落しているゾーンなどのレンダリングアーチファクトは、容積レンダリング体験中に現れ得る。欠落情報の例は、視差情報である。例えば、3DoF+容積レンダリングの場合、視認空間は、視認境界ボックスと呼ばれる限られた容積に制限される。中心視点は、各視認境界ボックスに結び付けられる。ユーザが視認境界ボックスの中心視点から視認境界ボックス内で並進移動を行うとき、最初に隠蔽された3Dシーンの一部が可視になる。これは視差効果と呼ばれ、隠蔽された部分に関連付けられたデータは視差データと呼ばれる。ユーザが移動するときにこれらの隠蔽された部分をレンダリングするために、視差データが符号化及び送信されるものとする。データがどのように符号化されるかに応じて、いくつかの視差データが欠落している可能性があり、レンダリング体験を劣化させる。視差効果は、図5、図6、及び図7を参照してより詳細に説明する。
図5は、3Dシーンを表す画像を示す。3Dシーンは、任意の好適な技術を使用して捕捉することができる。図5に示される例示的な3Dシーンは、いくつかのオブジェクト:家51及び52、人物54及び55、及び井戸56を備える。立方体53は、ユーザが3Dシーンを観察する可能性が高い視認境界ボックスを示すために図5に示されている。視認境界ボックス53の中心視点は、50と称される。
図6は、図5の3Dシーンを、没入型レンダリングデバイス(例えば、CAVE又はヘッドマウントディスプレイデバイス(HMD))上にレンダリングするときの視認境界ボックスの概念をより詳細に示す。3Dシーンのシーン点64aは、人物54の肘に対応する。視点50とシーン点64aとの間に不透明なオブジェクトが置かれていないため、シーン点は視点50から可視である。対照的に、人物55の肘に対応するシーン点65aは、人物54の点によって遮蔽されるため、視点50から不可視である。3DoF+レンダリングでは、ユーザは、前述のように、3DoF+視認境界ボックス内の視点を変更することができる。例えば、図7に関連して例示されるように、ユーザは、視認境界ボックス53内で自分の視点を移動させ、視差を体験することができる。
図7は、図5の3Dシーンの容積レンダリングによって可能になる視差体験を示す。図7Bは、ユーザが中央視点50から見ることができる3Dシーンの一部を示す。この観点から、人物54及び55は所与の空間構成にあり、例えば、人物55の左肘は、頭部が可視である間、人物54の身体によって隠される。ユーザが中央視点50を中心に3つの自由度で頭部を回転させるとき、この構成は変化しない。視点が固定されている場合、人物55の左肘(図6では65aで示される)は不可視である。図7Aは、第1の周辺視点(図6では67で示される)から視認境界ボックス53の左側までの同じ3Dシーンを示す。視点67から、視差効果により、点65aが可視である。これは、脱遮蔽効果と呼ばれる。例えば、視点50から視点67に移動することによって、点65aは脱遮蔽される。図7Cは、第2の周辺視点(図6では68で示される)から視認境界ボックス53の右側まで観察される同じ3Dシーンを示す。視点68から、人物55は、人物54によってほぼ完全に隠されているが、それでも視点50から可視である。図6を参照すると、視点50から視点68に移動することによって、点65bが遮蔽されることが理解できる。
大抵の場合、脱遮蔽されたデータは、データの小さなパッチに対応する。図8は、容積レンダリングに必要な脱遮蔽データを示す。図8Aは、視認境界ボックスVに関連付けられた第1の周辺カメラC、中央カメラC、及び第2の周辺カメラCの3つの仮想カメラで撮影された2つのオブジェクトP及びPを含む3Dシーンの上面図である。視認境界ボックスVは、中央カメラCの位置を中心とする。仮想カメラC、C、及びCから可視である点は、それぞれ線81、線82、及び線83によって表される。図8B、図8C、及び図8Dは、図8Aに関連して説明したように捕捉された3Dシーンのレンダリングを示す。図8B及び図8Cでは、円錐Fは、視野、並びにそれぞれ視点O及びOから可視である3Dシーンの部分を区切る。O及びOは視認境界ボックスVに含まれる視点である。視点Oから視点Oに向かって移動することにより、ユーザは視差を体験する。脱遮蔽点は、バックグラウンドオブジェクト内の小さなパッチを表す。
図8Dでは、Oは、視認境界ボックスV視点の外側の視点を表す。視点Oからは、セグメントDによって表される視認境界ボックスVから不可視である新しいデータが今は可視であり、マスクされていない。これは、脱遮蔽効果である。セグメントDは、視認境界ボックスVに関連付けられた容積コンテンツに属していない。ユーザが視点Oから視点Oに進むなどの大きな振幅の動きを行い、視認境界ボックスVの外に出るとき、3Dシーンの異なる領域における脱遮蔽効果が補償されなくなる可能性がある。マスクされない部分は、レンダリングデバイス上で視認性が高い大きな領域の欠落情報を表して、不十分な没入型体験をもたらすことがある。
符号化される容積コンテンツの情報を構造化する方法は、以下分かるように、符号化効率に影響を及ぼす。
図9Aは、3Dシーンを表す容積情報を構造化するための第1の方法を示し、図9Bは、図8の3Dシーンについて、本原理の非限定的な実施形態による同じ容積情報を構造化するための方法を示す。
第1の方法によれば、閉鎖された点線910に包含される固有の要素が、視点Oから捕捉される。実際には、アクセス可能なデータのみが、太線911、912、及び913によって表されるデータである。オブジェクトPによって遮蔽されたオブジェクトPの領域がアクセス可能でない、すなわち、Pの領域が欠落していることを観察することができる。
本原理では、3Dシーン内の点は、クラスタリング基準に従ってクラスタリングされる。図9Bに示される実施形態では、クラスタリング基準は、3Dシーン内の点の深度範囲に関連し、したがって、3Dシーンを複数の深度層に分離する。これにより、例えば、シーンのバックグラウンド及びフォアグラウンドにそれぞれ関与する物理的オブジェクトの部分を含むバックグラウンドクラスタ及びフォアグラウンドクラスタを作成することが可能になる。あるいは、又は組み合わせて、クラスタリングは、例えば、点の意味分類、及び/又は移動分類、及び/又は色分割に基づく。クラスタ内の全ての点は、同じ特性を共有する。図9Bでは、それぞれ閉鎖した点線921及び922に包含される2つのクラスタが得られる。太線923及び924によって表される、アクセス可能なデータは、図9Aに示されるように、第1の方法で得られたものとは異なる。図9Bでは、オブジェクトPに関連する全ての情報、視点Oから見たときのオブジェクトP1の背後の情報でさえ利用可能である。これは、図9Aの図に関連して説明された方法には当てはまらない。本原理によるクラスタリング点によって3Dシーンを表す容積情報を構造化することにより、3Dシーンをレンダリングするために利用可能な情報を増加させることができる。再び上述した視差体験に言及すると、上記のクラスタリング方法の1つの利点は、遮蔽された領域に関連するデータが視点にかかわらずアクセス可能なことである。
図10は、クラスタ921及び922を取得する方法を示す。この例は、クラスタリング基準が深度フィルタリング基準である場合について言及する。クラスタを取得するための1つの方法は、異なる位置、配向、及び視野を有する仮想カメラによって点を捕捉することである。各仮想カメラは、所与のクラスタの可能な限り多くの点を捕捉するように最適化される。例えば、図10では、クラスタ921は、仮想カメラCA_0によって捕捉され得る。仮想カメラCA_0は、近深度範囲内の全ての画素を捕捉し、近深度範囲に属しないオブジェクトPを切り抜く。クラスタ922は、仮想カメラCB_0によって捕捉され得る。仮想カメラCB_0は、遠深度範囲内の全ての画素を捕捉し、遠深度範囲に属していないオブジェクトPを切り抜く。有利には、バックグラウンドクラスタは、視点及び視認境界ボックスに関係なく、遠距離に位置決めされた仮想カメラで取得される一方、フォアグラウンドクラスタは、視認境界ボックス内の異なる視点に位置付けられた仮想カメラで取得される。中深度クラスタは、典型的には、フォアグラウンドクラスタと比較して、視認境界ボックス内のより少ない数の視点に位置決めされた仮想カメラで取得される。
ここで、前述のような点クラスタリング方法によって構造化された3Dシーンを表す容積情報を、ビデオストリームに符号化することができる方法を説明する。
図11は、所与の視点116の3Dシーンを表す容積コンテンツを符号化するために使用される2Dアトラスアプローチを示す。図11では、3Dシーンの上面図100が示される。3Dシーンは、人物111、植木鉢112、木113、壁114を含む。画像117は、視点116から観察された3Dシーンを表す画像である。点クラスタリング方法では、点線の楕円111c、112c、113c、及び114cで表されるクラスタは、容積コンテンツから取得され、視点116の方向に投影されて、2D画像のセットを作成する。次いで、2D画像のセットがパックされてアトラス115を形成する(アトラスは2D画像の収集である)。アトラス内の2D画像の編成は、アトラスレイアウトを定義する。一実施形態では、同一のレイアウトを有する2つのアトラスが使用され、1つは色(すなわち、テクスチャ)情報のためのものであり、1つは深度情報のためのものである。
連続する時点で、2Dアトラスの時系列が生成される。典型的には、2Dアトラスの時系列は、符号化ビデオのセットの形態で送信され、各ビデオは、特定のクラスタに対応し、ビデオ内の各画像は、視点116から所与の瞬間にこの特定のクラスタを投影することによって取得された2D画像に対応する。特定のクラスタの2D画像の連続は、独立したビデオを構成する。
本原理による点クラスタリング方法は、この容積情報を独立したビデオのセットとして符号化することを可能にするように、3Dシーンを表す容積情報を構造化することを目的としている。
本原理では、3Dシーンは、異なる時点で得られた一連の画像117に対応する単一のビデオストリームとして送信されず、2Dアトラスの時系列における2D画像の連続に対応するより小さい独立したビデオのセットとして送信される。各ビデオは、互いに独立して送信することができる。例えば、異なる視野を有する仮想カメラを使用することによって、異なるビデオを取得することができる。別の例では、異なるビデオは、異なる画像レート又は異なる品質レベルで符号化することができる。
例えば、頻繁な構成は、アニメーション化されたフォアグラウンドオブジェクトが、シーンのバックグラウンドと比較して多く移動する3Dシーンである。これらのアニメーション化されたオブジェクトは、それら自体のライフサイクルを有し、有利なことに、バックグラウンドよりも高い画像レートで符号化され得る。
また、容積コンテンツがストリーミングされると、ビデオの品質は、ビデオストリーム毎にストリーミング環境に合わせて調整することができる。例えば、フォアグラウンドに対応するビデオストリームは、シーンのバックグラウンドに対応するビデオストリームよりも高い品質で符号化され得る。
別の利点は、拡張可能な3Dシーンの個別化、例えば、特定のオブジェクト、例えば広告などの特定のオブジェクトの挿入によるカスタマイズを可能にすることである。カスタマイズは、モノリシックな方法で符号化される容積コンテンツと比較して最適化される。
復号化のために、3Dシーンは、独立したビデオストリームを組み合わせることによって取得される。2Dアトラス内の異なるクラスタに対応する2D画像は、視点116から見た3Dシーンを表す画像を構成するように再結合される。この画像は、2D-3D逆投影ステップを経て容積データを取得する。容積データは、3Dレンダリング空間内の視点116に対応する視点から容積レンダリング体験中にレンダリングされる。
ここで、3DOF+容積レンダリング体験の連続に基づく6DOF容積レンダリング体験が、前述のように点クラスタリング方法を使用することからどのように恩恵を得るかについて以下に説明する。
3Dシーンは、視認境界ボックスに関連付けられた容積コンテンツを連続的にレンダリングし、3Dレンダリング空間内で1つの視認境界ボックスから別の視認境界ボックスに移動することによってレンダリングすることができる。例えば、データの記憶及び転送に関する利点を以下に強調する。
図12は、図11の3Dシーンの上面図であり、視認境界ボックスが点線の楕円121の形態で表されている。2つの点線122及び123は、視認境界ボックス121から可視である視野を表す。この視野は、図11の3Dシーン内の点をクラスタリングすることによって取得された4つのクラスタである、植木鉢112に関連付けられたクラスタ120a、人物111に関連付けられたクラスタ120b、木113に関連付けられたクラスタ120c、及び壁114に関連付けられたクラスタ120dを含む。
視認境界ボックス121内に含まれる2つの視点124及び125は、それぞれの視野(2つの円錐126及び127によって表される)と共に表される。いくつかのクラスタ又はいくつかのクラスタの部分は、視点124及び125に共通であることが観察され得る。図12の例では、これらの共通クラスタは、クラスタ120c及び120dである。この特定の例では、それらは、視点124及び125から遠距離の3Dシーンの部分に対応する。これらの共通クラスタの3D-2D投影ステップから生じる2D画像は、2D共通画像と呼ばれる。共通クラスタ以外のクラスタの3D-2D投影ステップから生じる2D画像は、2Dパッチと呼ばれる。
2D共通画像は通常、大多数の非空画素を含む。例えば、深度基準が使用される場合、共通のクラスタは、多くの場合、容積コンテンツのバックグラウンド点に対応し、多数の点を含む。通常、2Dパッチは、それらを取り囲む領域とは異なる小さな領域である。2Dパッチは通常、2D共通画像よりも少ない情報を含み、よって、例えば画素数という点でより小さいサイズを有する。例えば、容積コンテンツのフォアグラウンド点に対応するクラスタは、多くの場合、例えば、大きなバックグラウンド特徴の前に配置された文字又はオブジェクトを表す限られた数の点を含む。
視点124及び125にそれぞれ関連付けられたクラスタのセットの3D-2D投影から生じる2D画像のセットを含む2つのアトラスは、共通する2D共通画像を有する。したがって、視認境界ボックス121内を視点124から視点125まで、又はその逆に移動する場合、2D共通画像に対応するデータは、既にレンダリングのために利用可能である。これにより、ユーザの視差体験が改善される。そうでなければ、これらのデータを取得してレンダリングするためにかかるはずであった待ち時間が排除される。もう1つの利点は、送信されるデータの量が減少することである。
再度2Dアトラスアプローチに言及すると、2D共通画像は1つの共通ビデオの形態で送信される一方、各2Dパッチは1つの特定のビデオとして送信される。各画像117に以前に埋め込まれた共通情報は、相互化されて、共通のビデオ内で別々に送信された。深度基準が使用される場合、共通ビデオは通常、3Dシーンのバックグラウンド部分を表すクラスタに対応する。共通ビデオは、図11の壁114のように、ある期間にわたって非常に安定的である、又はほとんど変動しない。したがって、非常に効率的なコーデックを使用して、例えば、時間的予測により共通ビデオを符号化することができる。
図13は、図11の3Dシーンの上面図であり、2つの視認境界ボックス131及び138が表されている。視認境界ボックス131内の1つの視点134及び視認境界ボックス138内の1つの視点135が示されている。第1の視点134は、視認境界ボックス131内に位置し、第2の視点135は、視認境界ボックス138内に位置する。視点134及び135からの視野は、それぞれ、136及び137で参照される。クラスタ又はクラスタの部分は、視野136及び137の両方に共通であることが分かる。したがって、視認境界ボックス131及び視認境界ボックス138は、共通のクラスタ又はクラスタの部分を有する。
これらの共通クラスタに対応する2D共通画像は、いくつかの視認境界ボックス間で相互化することができる。それらの画像は、いくつかの視認境界ボックスに関して、記憶、符号化、送信、及びレンダリングすることができる。これにより、記憶及び送信のためのデータ負荷が更に低減される。もう1つの利点は、ユーザがレンダリング空間内で大きな移動を行い、第1から第2の視認境界ボックスに進むときの潜伏アーチファクトの低減である。
図14は、本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツを符号化するための方法を示す。この方法は、図2のエンコーダ21に使用されることが意図されている。
ステップ1400では、3Dシーンがソースから取得される。
ステップ1401では、3Dシーン内の点は、少なくとも1つのクラスタリング基準に従って複数のクラスタにクラスタリングされる。一実施形態では、クラスタリング基準は、3Dシーン内の点の深度範囲に関し、その結果、3Dシーンを複数の深度層に分離する。これにより、例えば、シーンのバックグラウンド及びフォアグラウンドにそれぞれ関与する物理的オブジェクトの部分を含むバックグラウンドクラスタ及びフォアグラウンドクラスタを作成することが可能になる。あるいは、又は組み合わせて、クラスタリングは、例えば、点の意味分類、及び/又は移動分類、及び/又は色分割に基づく。所与の視点について、3Dシーンは、クラスタのセットとして説明される。
ステップ1402では、クラスタのセットのクラスタは、2D画像のセットを取得するために投影パラメータに従って投影される。2D画像は、アトラスに、又は同じレイアウトを有する2つのアトラスにパックされる。例えば、一方のアトラスは色データを含み、他方のアトラスは深度データを含む。
ステップ1403では、3Dシーンを表すデータを保有する容積コンテンツが生成される。3Dシーンを表すデータは、ステップ1402で得られたアトラス又はアトラスの対である。
一実施形態では、3Dレンダリング空間は、視認境界ボックスで編成され、各視認ボックスは、中心視点、好ましい実施形態では、周辺視点を含む。ステップ1401’では、異なる視認境界ボックスに共通のクラスタが取得される。
ステップ1401’が実施されるとき、ステップ1402は、2つのサブステップ1402A及び1402Bを含む。サブステップ1402Aでは、異なる視認境界ボックスに共通のクラスタが、2D共通画像を取得するために投影パラメータに従って投影される。サブステップ1002Bでは、異なる視認境界ボックスに共通するクラスタ以外のクラスタが、2Dパッチを取得するために投影される。これは、視認ボックス毎に行われる。各視認境界ボックスについて、クラスタは、視認境界ボックスの中心点の方向に投影されて、2Dパッチのセットを作成する。好ましくは、クラスタは、2Dパッチの追加のセットが作成されるように(各周辺視点について1つずつ)、1つ以上の周辺視点の方向にも投影される。結果として、各視認境界ボックスが、2D共通画像及び2Dパッチのいくつかのセットに関連付けられる。
ステップ1402’では、3Dシーンの3Dレンダリング空間に含まれる視認境界ボックスのリストと、3Dレンダリング空間内の視認境界ボックスに関して、適用する2D共通画像及び2Dパッチのセットのリストとを含むメタデータが生成される。ステップ1402’で生成されたメタデータは、ステップ1403で生成される容積コンテンツに含まれる。例えば、図4に記載されているような構造4は、視認境界ボックスに関連する情報をパックするために使用され、3Dシーンの全ての構造4は、ステップ1402’で生成されたメタデータを含むヘッダを含むスーパー構造内に共にパックされる。
例えば、ステップ1402’で生成されたメタデータは、
-3Dレンダリング空間内の視認境界ボックスのリストと、
-3Dレンダリング空間の共通クラスタのリストであって、各共通クラスタが、共通のクラスタ識別子によって特徴付けられ、ソースから対応するビデオストリームを取得するために使用される一意のリソース識別子と関連付けられている、共通クラスタのリストと、
-各視認境界ボックスについて、この視認境界ボックスについての3Dシーンを表すクラスタのセットのリストと、
-視認境界ボックスに関連付けられたクラスタの各セットについて、
○共通クラスタの識別子と、
○ソースから対応するビデオストリームを取得するために、一意のリソース識別子を有する共通のクラスタ以外のクラスタのリストと、
を含む。
有利な実施形態では、2D画像は、同じ視点に関して2D画像のいくつかのセットが生成されるように、異なるレベルの品質又は異なる画像レートで符号化される。これにより、例えば、ストリーミング環境を考慮に入れるために、ビデオの品質又は速度を適応させることができる。
図15は、本原理の非限定的な実施形態による、3Dシーンに関連する容積コンテンツを復号化するための方法を示す。この方法は、図2のデコーダ23を使用することを意図している。
ステップ1500では、容積コンテンツがソースから取得される。容積コンテンツは、3Dシーン内の点の少なくとも1つのクラスタを表す少なくとも1つの2D画像を含む。クラスタ内の点は、クラスタリング基準を満たす。一実施形態では、クラスタリング基準は、3Dシーン内の点の深度範囲に関連する。あるいは、又は組み合わせて、クラスタリング基準は、例えば、点の意味分類、及び/又は移動分類、及び/又は色分割に関連する。
ステップ1501では、少なくとも1つの2D画像は、投影パラメータに従って予測されない。
ステップ1502では、3Dシーンを表す3D点群が、逆投影2D画像から取得される。
図16は、本原理の非限定的な実施形態による、容積表示デバイス又はレンダリングデバイスとして機能するように構成されたデバイスにおいて、3Dシーンに関連する容積コンテンツをレンダリングするための方法を示す。
ステップ1600では、3Dレンダリング空間内の第1の視点が取得される。この第1の視点は、3Dレンダリング空間内の第1の視認境界ボックスに関連する。レンダリングデバイスがHMDであるとき、第1の視点は、例えばHMDのIMU(慣性測定ユニット)を使用して取得されたエンドユーザの位置である。HMDは、実世界(ピッチ、ヨー、及び/又はロール軸)のうち1つ、2つ、又は3つの軸に従って、HMD、例えば、ジャイロスコープ又はIMU(慣性測定ユニット)の位置の変化(複数可)を測定するように構成された1つ以上の表示画面(例えば、LCD(液晶ディスプレイ)、OLED(有機発光ダイオード)又はLCOS(液晶オンシリコン))を備える。
ステップ1601では、3Dシーンに関連する第1の容積コンテンツが、レンダリングデバイスによって受信される。第1の容積コンテンツは、ステップ1402’に関連して上述したように、3Dシーンと関連付けられたメタデータ(3Dレンダリングスペースに含まれる視認境界ボックスのリストと、各視認境界ボックスについて、2D共通画像及び2Dパッチのセットのリスト)、並びに第1の視認境界ボックスに関連付けられたビデオデータ及びメタデータとを含む。
ステップ1602では、第1の容積コンテンツは、上述の復号化方法を使用して復号され、3Dシーンを表す第1の3D点群を取得する。ステップ1601で受信されたメタデータに基づいて、第1の視点に対応する2D共通画像及び2Dパッチのセットが選択される。2D画像は、ストリームで送信された投影パラメータに従って投影されない。結果として、第1の3D点群が取得される。
ステップ1603では、第1の3D点群は、第1の視点からレンダリングされ、容積レンダリングに従って表示される。
前述のように、6DoFレンダリングは、いくつかの容積コンテンツの連続した3DoF+レンダリングによって可能にすることができる。これを達成するために、本原理によるレンダリング方法は、以下の追加のステップを含む。
ステップ1604では、ユーザは、レンダリング3D空間内の第1の視点から第2の視点に移動する。
ステップ1605では、第2の視点からのレンダリングに使用される2D画像のセットは、ステップ1601で取得されたメタデータに基づいて取得される。レンダリングにはまだ利用可能ではない2D画像は、ソースから取得される。以前に取得された2D共通の画像は、再度取得する必要はない。
ステップ1606では、ソースから取得された2D画像は、第2の3D点群を作成するために投影されない。この第2の3D点群は、第1の視認境界ボックスと第2の視認境界ボックスとの間で共通する2D画像に対応する第1の3D点群の点と組み合わされる。
ステップ1607では、この組み合わせの結果が第2の視点からレンダリングされ、3DoF+容積レンダリング技術に従って表示される。
ステップ1604~1607は、ユーザが3Dシーン内で1つの視点から別の視点に移動するときに繰り返すことができる。
上述のレンダリング方法は、本原理が、クラスタの形態の容積要素のセットを使用することによって、複数視点3DoF+レンダリングに基づいて6DoF容積レンダリングをどのように可能にするかを示す。
図17は、本原理の非限定的な実施形態により受信機として機能するように構成されたデバイスにおいて、3Dレンダリング空間内の3Dシーンに関連する容積コンテンツを受信するための方法を示す。図17の例では、容積レンダリング体験は、適応ストリーミング環境で行われる。ビデオストリームは、異なる品質レベル又は異なる画像レートで符号化される。また、受信機は、適応ストリーミング環境の条件を検出し、送信されるビデオストリームを選択する適応ストリーミングプレーヤを備える。
ステップ1700では、3Dシーンと関連付けられたメタデータが受信機によって受信される。例えば、DASHストリーミングプロトコルを使用するとき、メタデータは、マニフェストとも呼ばれるメディアプレゼンテーション記述(MPD)を使用して送信される。前述のように、メタデータは、3Dレンダリング空間に含まれる視認境界ボックスのリストと、視覚境界ボックス/視点について、レンダリングのために使用されるクラスタに関する情報、(使用されるクラスタの識別情報及びソースからクラスタを取得するための情報)とを含む。
ステップ1701では、適応ストリーミングプレーヤは、例えば、利用可能な帯域幅のストリーミング環境の条件を検出する。
ステップ1702では、3Dレンダリング空間内の特定の視認境界ボックス/視点が考慮される。適応ストリーミングプレーヤは、ストリーミング環境の条件を使用して、少なくとも1つの2D共通画像及び少なくとも1つの2Dパッチのセットのリストからセットを選択する。例えば、高品質の2Dパッチが低品質の2D共通画像と共に選択されるように、フォアグラウンドクラスタに優先順位が与えられる。
ステップ1703では、適応ストリーミングプレーヤは、選択されたセットの要求をサーバに送信する。
ステップ1704では、受信機が、選択されたセットを受信する。次いで、前述の方法のうちの1つに従って、セットが復号化され、レンダリングされる。
深度以外の基準、例えば移動を、深度に加えて、又は深度の代わりに使用することができる。典型的には、高速移動クラスタを符号化する2Dパッチは、静止クラスタと比較して、帯域幅優先で選択される。実際、3Dシーンの一部は静的であってもよく、他のオブジェクトは様々な速度で移動していてもよい。この態様は、小さなアニメーション化されたオブジェクト(多くの場合、フォアグラウンドにある)について特に顕著であり、シーンの他の要素(しばしばバックグラウンドにある)とは異なる自身のライフサイクル(位置、色)を有し得る。例えば、その移動速度に関して、そのようなオブジェクトをクラスタリングすることにより、周波数レートなどの異なる送信パラメータに従ってそれらを送信することができる。したがって、利点は、コンテンツの不均一性によるストリーミングコストの低減である。
本原理の別の実装形態では、受信機は、3Dレンダリング空間内のユーザの次の位置を予測するための予測モジュールを含む。対応するセットは、メタデータに基づいて選択される。クラスタの数セットが利用可能である場合、それらのうちの1つが上記のように選択される。最後に、受信機は、対応するビデオストリームを取得する要求を送信する。
本原理では、いくつかのビデオストリーム、例えば、より安定しているバックグラウンドビデオストリームが必要とされる可能性が高い。有利なことに、受信機は、出現確率を考慮に入れ、非常に確度の高いビデオストリームの取得を最初にトリガする。フォアグラウンドクラスタは、より汎用性が高く、より簡単に送信できる。受信機は、最後の許容可能な瞬間まで、予測及び取得を延期することができる。その結果、誤予測のコストが低減される。
本明細書に記載の実施形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察される)であっても、考察される特徴の実装形態は、他の形態(例えば、)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(「personal digital assistant、PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
本明細書に記載の様々なプロセス及び特徴の実装は、様々な異なる機器又は用途、特に、例えば、データ符号化、データ復号化、ビュー生成、テクスチャ処理並びに画像及び関連するテクスチャ情報及び/又は深度情報の他の処理に関連付けられた機器又は用途において、具体化され得る。そのような機器の例としては、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、及び他の通信デバイスが挙げられる。明確であるはずであるように、機器は、モバイルであり得、モバイル車両に設置され得る。
更に、方法は、プロセッサによって実行される命令によって実装され得、そのような命令(及び/又は実装形態によって生成されたデータ値)は、例えば、集積回路、ソフトウェアキャリア又は他の記憶デバイス、例えば、ハードディスク、コンパクトディスケット(「compact diskette、CD」)、光学ディスク(例えば、デジタル多用途ディスク又はデジタルビデオディスクと称されることが多いDVDなど)、ランダムアクセスメモリ(「random access memory、RAM」)又は読み取り専用メモリ(「read-only memory、ROM」)などのプロセッサ可読媒体上に記憶され得る。命令は、プロセッサ可読媒体上で明白に具体化されたアプリケーションプログラムを形成し得る。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は2つの組み合わせに見出され得る。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体(記憶デバイスなど)を含むデバイスと、の両方として特徴付けられ得る。更に、プロセッサ可読媒体は、命令に加えて、又は命令の代わりに、実装形態によって生成されたデータ値を記憶することができる。
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を担持するようにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態の構文を書き込むか、若しくは読み取るためのルールをデータとして担持するか、又は記載された実施形態によって書き込まれた実際の構文値をデータとして担持するようにフォーマット化され得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。
多くの実装形態が説明されている。それにもかかわらず、様々な修正が行われ得ることが理解されるであろう。例えば、異なる実装形態の要素は、他の実装形態を生成するために組み合わせ、補足、修正、又は削除することができる。更に、当業者は、開示されたものに対して他の構造及びプロセスを置換することができ、結果として生じる実装形態は、少なくとも実質的に同じ機能を少なくとも実質的に同じ方法で実行して、開示された実装形態と少なくとも実質的に同じ結果を達成することを理解するであろう。したがって、これら及び他の実装形態は、本出願によって企図される。

Claims (15)

  1. 3Dシーンを符号化するための方法であって、
    少なくとも1つのクラスタリング基準に従って、前記3Dシーン内の点を複数のクラスタにクラスタリングすることと、
    投影パラメータに従って前記クラスタを投影して、2D画像のセットを取得することと、
    2D画像のセット及び前記投影パラメータをデータストリームのセットに符号化することと、を含む、方法。
  2. 前記2D画像のそれぞれが、別個のデータストリームで符号化される、請求項1に記載の方法。
  3. 視認ボックスが、前記3Dシーン内で定義され、前記視認ボックス内の2つの視点から可視であるクラスタを投影することによって得られた2D画像が、同じデータストリームで符号化される、請求項1に記載の方法。
  4. 2つの視認ボックスが、前記3Dシーン内で定義され、前記2つの視認ボックスのそれぞれ内の2つの視点から可視であるクラスタを投影することによって得られた2D画像が、同じデータストリームで符号化される、請求項1に記載の方法。
  5. 前記データストリームが、前記少なくとも1つのクラスタリング基準に従って、異なる画像レートで符号化される、請求項1~4のいずれか一項に記載の方法。
  6. 前記少なくとも1つの基準が、前記3Dシーンの前記点の深度に基づく基準、前記3Dシーンの点に関連付けられた意味に基づく基準、前記3Dシーンの前記点の色に基づく基準、及び前記3Dシーンの点の移動に基づく基準を含むセットに属する、請求項1~5のいずれか一項に記載の方法。
  7. メタデータを符号化することを更に含み、前記メタデータが、
    前記3Dシーンに定義された前記視認ボックスのリストと、
    視認ボックスについて、前記視認ボックスの視点から可視である3D点のクラスタを表す2D画像を符号化するデータストリームの記述と、
    を含む、請求項1~6のいずれか一項に記載の方法。
  8. 3Dシーンを符号化するための方法であって、
    データストリームのセットから少なくとも1つの2D画像を取得することであって、2D画像が、前記3Dシーン内の点の少なくとも1つのクラスタの投影パラメータに従った投影を表し、前記点のクラスタ内の点が少なくとも1つのクラスタリング基準を満たす、取得することと、
    前記投影パラメータ及び前記3Dシーン内の視点に従って、前記少なくとも2D画像の画素を逆投影することと、を含む、方法。
  9. データストリームが、点の1つのクラスタを表す2D画像を含む、請求項8に記載の方法。
  10. 前記視点を含む視認ボックスが、前記3Dシーン内に定義され、データストリームが、前記視認ボックス内の前記視点及び別個の視点から可視であるクラスタを投影することによって取得された2D画像を含む、請求項8に記載の方法。
  11. 2つの視認ボックスが、前記3Dシーン内に定義され、前記視認ボックスのうちの少なくとも1つが前記視点を含み、データストリームが、前記視点及び別個の視点から可視であるクラスタを投影することによって取得された2D画像を含み、前記視点が前記2つの視認ボックスのそれぞれ内にある、請求項8に記載の方法。
  12. 前記データストリームが、前記少なくとも1つのクラスタリング基準に従って、異なる画像レートで復号化される、請求項8~11のいずれか一項に記載の方法。
  13. メタデータを取得することであって、前記メタデータが、
    前記3Dシーンに定義された前記視認ボックスのリストと、
    視認ボックスについて、前記視認ボックスの視点から可視である3D点のクラスタを表す2D画像を符号化するデータストリームの記述と、を含む、取得することと、
    前記視点から可視である3D点のクラスタを含むデータストリームから2D画像を復号化することと、を更に含む、請求項8~12のいずれか一項に記載の方法。
  14. プロセッサと関連付けられたメモリを備える3Dシーンを符号化するためのデバイスであって、前記プロセッサが、
    少なくとも1つのクラスタリング基準に従って、前記3Dシーン内の点を複数のクラスタにクラスタリングすることと、
    投影パラメータに従って前記クラスタを投影して、2D画像のセットを取得することと、
    前記2D画像のセット及び前記投影パラメータをデータストリームのセットに符号化することと、を行うように構成されている、デバイス。
  15. プロセッサと関連付けられたメモリを備える3Dシーンを復号化するためのデバイスであって、前記プロセッサが、
    データストリームのセットから少なくとも1つの2D画像を取得することであって、2D画像が、前記3Dシーン内の点の少なくとも1つのクラスタの投影パラメータに従った投影を表し、前記点のクラスタ内の点が少なくとも1つのクラスタリング基準を満たす、取得することと、
    前記投影パラメータ及び前記3Dシーン内の視点に従って、前記少なくとも2D画像の画素を逆投影することと、を行うように構成されている、デバイス。

JP2022537568A 2019-12-19 2020-12-18 3dof構成要素からの6dofコンテンツを符号化、復号化、及びレンダリングするための方法及び装置 Pending JP2023507586A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306692.5 2019-12-19
EP19306692 2019-12-19
PCT/US2020/065990 WO2021127419A1 (en) 2019-12-19 2020-12-18 Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements

Publications (2)

Publication Number Publication Date
JP2023507586A true JP2023507586A (ja) 2023-02-24
JPWO2021127419A5 JPWO2021127419A5 (ja) 2023-12-27

Family

ID=69185201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022537568A Pending JP2023507586A (ja) 2019-12-19 2020-12-18 3dof構成要素からの6dofコンテンツを符号化、復号化、及びレンダリングするための方法及び装置

Country Status (6)

Country Link
US (1) US20230032599A1 (ja)
EP (1) EP4078971A1 (ja)
JP (1) JP2023507586A (ja)
CN (1) CN114830668A (ja)
MX (1) MX2022007724A (ja)
WO (1) WO2021127419A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3429210A1 (en) * 2017-07-13 2019-01-16 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
EP3547703A1 (en) * 2018-03-30 2019-10-02 Thomson Licensing Method, apparatus and stream for volumetric video format
EP3562159A1 (en) * 2018-04-24 2019-10-30 InterDigital VC Holdings, Inc. Method, apparatus and stream for volumetric video format

Also Published As

Publication number Publication date
MX2022007724A (es) 2022-07-19
CN114830668A (zh) 2022-07-29
EP4078971A1 (en) 2022-10-26
WO2021127419A1 (en) 2021-06-24
US20230032599A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
KR102468178B1 (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
CN112425177B (zh) 用于体积视频传输的方法和装置
US11647177B2 (en) Method, apparatus and stream for volumetric video format
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
WO2021063887A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
CN114868396A (zh) 用于多视点3DoF+内容的编码和解码的方法和装置
CN114930812B (zh) 用于解码3d视频的方法和装置
US20230042874A1 (en) Volumetric video with auxiliary patches
WO2019191202A1 (en) Method, apparatus and stream for volumetric video format
EP4128765A1 (en) A method and apparatus for encoding and decoding volumetric video
CN115023739A (zh) 用于对具有视图驱动的镜面反射的体积视频进行编码和解码的方法和装置
CN114503554B (zh) 用于传送体积视频内容的方法和装置
WO2018069215A1 (en) Method, apparatus and stream for coding transparency and shadow information of immersive video format
JP2022549431A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
JP2023507586A (ja) 3dof構成要素からの6dofコンテンツを符号化、復号化、及びレンダリングするための方法及び装置
EP3310053A1 (en) Method and apparatus for coding transparency information of immersive video format
RU2807582C2 (ru) Способ, устройство и поток для формата объемного видео
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
WO2023202897A1 (en) A method and apparatus for encoding/decoding a 3d scene

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220621

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220629

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20221017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231218