JP2022551064A - 容積ビデオを符号化、送信、及び復号化するための方法及び装置 - Google Patents

容積ビデオを符号化、送信、及び復号化するための方法及び装置 Download PDF

Info

Publication number
JP2022551064A
JP2022551064A JP2022519816A JP2022519816A JP2022551064A JP 2022551064 A JP2022551064 A JP 2022551064A JP 2022519816 A JP2022519816 A JP 2022519816A JP 2022519816 A JP2022519816 A JP 2022519816A JP 2022551064 A JP2022551064 A JP 2022551064A
Authority
JP
Japan
Prior art keywords
view
fidelity
depth
depth information
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022519816A
Other languages
English (en)
Inventor
フルーロー、ジュリアン
シュポー、ベルトラン
タピ、ティエリー
ブリアン、ジェラール
Original Assignee
インターデジタル ブイシー ホールディングス フランス,エスアーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ブイシー ホールディングス フランス,エスアーエス filed Critical インターデジタル ブイシー ホールディングス フランス,エスアーエス
Publication of JP2022551064A publication Critical patent/JP2022551064A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

マルチビューフレームを符号化し、復号化し、かつ送信するための方法、デバイス及びストリームが開示される。マルチビューフレームでは、ビューのいくつかが他のビューよりも信頼可能である。マルチビューフレームは、ビューのうちの少なくとも1つについて、このビューによって担持される情報における信頼度を示すパラメータを含むメタデータに関連付けられるデータストリーム内で符号化される。この情報は、3D空間内の所与の視野のビューポートフレームのピクセルを合成するときに、ビューの寄与を判定するために、復号化側で使用される。【選択図】図6

Description

本原理は、概して、三次元(three-dimensional、3D)シーン及び容積ビデオコンテンツのドメインに関する。本文書はまた、モバイルデバイス又はヘッドマウントディスプレイ(Head-Mounted Display、HMD)などのエンドユーザデバイス上の容積コンテンツのレンダリングのための、テクスチャ及び3Dシーンの幾何学的形状を表すデータの符号化、フォーマット化及び復号化の文脈において理解される。他のテーマの中でも、本原理は、最適なビットストリーム及びレンダリング品質を保証するためのマルチビュー画像のピクセルを枝刈りすることに関する。
本節は、以下に説明及び/又は特許請求される本原理の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本原理の様々な態様のより良好な理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。
近年、利用可能な大きな視野コンテンツ(最大360°)の成長があった。そのようなコンテンツは、ヘッドマウントディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォンなどの没入型表示デバイス上のコンテンツを視聴するユーザによって完全には見えない可能性がある。これは、所与の瞬間に、ユーザがコンテンツの一部のみを視認することができることを意味する。しかしながら、ユーザは、典型的には、頭部の動き、マウスの動き、タッチスクリーン、音声などの様々な手段によって、コンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化及び復号化することが望ましい。
360°フラットビデオとも呼ばれる没入型ビデオにより、ユーザは、静止点の周りの頭部の回転を通じて自身の周りのすべてを視聴することができる。回転は、3自由度(3 Degrees of Freedom、3DoF)体験のみを可能にする。例えば、3DoFビデオが、ヘッドマウントディスプレイデバイス(HMD)を使用した第1の全方向性ビデオ体験に十分である場合であっても、例えば視差を体験することによって、より多くの自由度を期待する視聴者にとって、3DoFビデオは即座に苛立たしいものになる可能性がある。更に、3DoFはまた、ユーザが頭部を回転させるだけでなく、頭部を3方向に並進させるために、3DoFビデオ体験で再現されない並進のために、めまいを誘発し得る。
大きな視野コンテンツは、とりわけ、三次元コンピュータグラフィック画像シーン(three-dimension computer graphic imagery scene、3D CGIシーン)、点群又は没入型ビデオであり得る。そのような没入型ビデオを設計するために多くの用語が使用され得る。例えば、仮想現実(Virtual Reality、VR)、360、パノラマ、4πステラジアン、没入型、全方向性又は大きな視野。
容積ビデオ(6自由度(6 Degrees of Freedom、6DoF)ビデオとしても既知である)は、3DoFビデオの代替物である。6DoFビデオを視聴するとき、回転に加えて、ユーザはまた、視聴されたコンテンツ内で頭部を、更には自身の身体を並進させ、視差及び更には容積を体験することができる。そのようなビデオは、没入の感覚及びシーン深度の知覚を大幅に増加させ、頭部並進中に一貫した視覚的フィードバックを提供することによって、めまいを防止する。コンテンツは、目的のシーンの色及び深度の同時記録を可能にする専用センサの手段によって作成される。写真測量技術と組み合わせたカラーカメラのリグの使用は、技術的な困難が残っている場合でも、そのような記録を実行する方法である。
3DoFビデオは、テクスチャ画像(例えば、緯度/経度投影マッピング又は正距円筒図法マッピングに従って符号化された球形画像)のアンマッピングから生じる一連の画像を含むが、6DoFビデオフレームは、いくつかの視点から情報を埋め込む。それらは、三次元捕捉から生じる時間的一連の点群として視認することができる。視聴条件に応じて、2種類の容積ビデオを考慮することができる。第1のもの(すなわち、完全な6DoF)は、ビデオコンテンツ内の完全な自由ナビゲーションを可能にするが、第2のもの(別名3DoF+)は、ユーザ視認空間を視認境界ボックスと呼ばれる限られた容積に制限し、頭部及び視差体験の制限された容積を可能にする。この第2の文脈は、着座したオーディエンスメンバーの自由ナビゲーションと受動的視聴条件との間の貴重なトレードオフである。
3DoF+コンテンツは、Multi-View+Depth(MVD)フレームのセットとして提供され得る。そのようなコンテンツは、専用のカメラによって捕捉された場合があるか、又は専用の(潜在的に写実的な)レンダリングによって、既存のコンピュータグラフィック(computer graphic、CG)コンテンツから生成され得る。容積情報は、対応する色及び深度アトラスに記憶された色及び深度パッチの組み合わせとして伝達され、それらは、コーデック(例えば、HEVC)を使用してビデオ符号化される。色及び深度パッチの各組み合わせは、MVD入力ビューの部分を表し、すべてのパッチのセットは、全体をカバーするように、符号化段階で設計される。
MVDフレームの異なるビューによって担持される情報は、可変である。ビューポートフレームの合成のためのMVDのビューによって担持される情報の信頼度を取る方法の欠如がある。
以下は、本原理のいくつかの態様の基本的な理解を提供するための本原理の簡略化された概要を提示する。この概要は、本原理の広範な概要ではない。本原理の重要な又は重大な要素を特定することは意図されていない。以下の概要は、以下に提供されるより詳細な説明の前置きとして簡略化された形態で、本原理のいくつかの態様を単に提示するに過ぎない。
本原理は、マルチビューフレームを符号化するための方法に関する。この方法は、
-当該マルチビューフレームのビューについて、当該ビューによって担持される深度情報の忠実度を表すパラメータを取得することと、
-当該パラメータを含むメタデータと関連して、データストリーム内の当該マルチビューフレームを符号化することと、を含む。
特定の実施形態では、ビューの深度情報の忠実度を表すパラメータは、ビューを捕捉したカメラの内部パラメータ及び外部パラメータに従って判定される。別の実施形態では、メタデータは、マルチビューフレームのビューごとにパラメータが提供されるかどうかを示す情報と、そうである場合、ビューごとに、ビューに関連付けられたパラメータと、を含む。本原理の第1の実施形態では、ビューの深度情報の忠実度を表すパラメータは、深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である。本原理の第2の実施形態では、ビューの深度情報の忠実度を表すパラメータは、ビューの深度忠実度の信頼度を示す数値である。
本原理はまた、この方法を実施するように構成されたプロセッサを備えるデバイスに関する。
本原理はまた、データストリームから枝刈りされたマルチビューフレームを復号化する方法に関する。この方法は、
-当該マルチビューフレーム及び関連付けられたメタデータをデータストリームから復号化することと、
-メタデータから、当該マルチビューフレームのビューによって担持される深度情報の忠実度を表すパラメータが提供されるかどうかを示す情報を取得することと、そうである場合、ビューごとにパラメータを取得することと、
-ビューに関連付けられたパラメータの関数として、当該マルチビューフレームの各ビューの寄与を判定することによって、視認姿勢に従って、ビューポートフレームを生成することと、を含む。
一実施形態では、ビューの深度情報の忠実度を表すパラメータは、深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である。この実施形態の変形例では、部分的に信頼可能なビューの寄与は、無視される。更なる変形例では、複数のビューが完全に信頼可能であるという条件で、最低深度情報を有する完全に信頼可能なビューが使用される。別の実施形態では、ビューの深度情報の忠実度を表すパラメータは、ビューの深度忠実度の信頼度を示す数値である。この実施形態の変形例では、ビュー合成中の各ビューの寄与は、パラメータの数値に比例する。
本原理はまた、この方法を実施するように構成されたプロセッサを備えるデバイスに関する。
本原理はまた、データストリームであって、
-マルチビューフレームを表すデータと、
-当該データに関連付けられたメタデータであって、メタデータが、マルチビューフレームのビューごとに、当該ビューによって担持される深度情報の忠実度を表すパラメータを含む、メタデータと、を含む、データストリームに関する。
本開示は、より良好に理解され、以下の説明を読むと、他の特定の特徴及び利点が明らかになり、本明細書は、添付の図面を参照する。
本原理の非限定的な実施形態による、3Dモデルに対応するオブジェクト及び点群の点の三次元(3D)モデルを示す。 本原理の非限定的な実施形態による、3Dシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。 本原理の非限定的な実施形態による、図7及び図8に関連して説明される方法を実施するように構成され得るデバイスの例示的なアーキテクチャを示す。 本原理の非限定的な実施形態による、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の一実施形態の一例を示す。 本原理の非限定的な実施形態による、非枝刈りMVDフレームから所与のビューポートのための画像を生成するときに、ビュー合成装置によって使用されるプロセスを示す。 本原理の非限定的な実施形態による、3D空間の不均一なサンプリングを有するカメラのセットのためのビュー合成を示す。 本原理の非限定的な実施形態による、データストリーム内のマルチビューフレームを符号化するための方法70を示す。 本原理の非限定的な実施形態による、データストリームからマルチビューフレームを復号化するための方法を示す。
本原理は、添付の図面を参照して以下により完全に説明され、本原理の例が示されている。しかしながら、本原理は、多くの代替形態で具体化され得、本明細書に記載の実施例に限定されるものとして解釈されるべきではない。したがって、本原理は、様々な修正及び代替的な形態の余地があるが、その具体的な例は、図面の例として示され、本明細書において詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、反対に、本開示は、特許請求の範囲によって定義される本原理の趣旨及び範囲内にあるすべての修正、均等物及び代替物を網羅することであることを理解されたい。
本明細書で使用される用語は、特定の実施例のみを説明する目的のためであり、本原理を限定することを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「the」は、文脈が別途明確に示されない限り、複数形も含むことが意図される。本明細書で使用される場合、「含む(comprises)」、「含む(comprising)」、「含む(includes)」及び/又は「含む(including)」という用語は、記載された特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素及び/又はそれらのグループの存在又は追加を排除しないことが更に理解されるであろう。更に、要素が別の要素に「応答する」又は「接続される」と称される場合、それは、他の要素に直接応答するか、又は他の要素に接続され得るか、又は介在要素が存在し得る。対照的に、要素が他の要素に「直接応答する」又は「直接接続される」と称される場合、介在要素は存在しない。本明細書で使用される場合、「及び/又は」という用語は、関連付けられた列挙された項目のうちの1つ以上の任意の及びすべての組み合わせを含み、「/」と略され得る。
本明細書では、第1、第2などの用語が様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第1の要素は、第2の要素と呼ぶことができ、同様に、第2の要素は、本原理の教示から逸脱することなく、第1の要素と呼ぶことができる。
図の一部は、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、描かれた矢印と反対方向に発生し得ることを理解されたい。
いくつかの例は、各ブロックが、指定された論理機能を実装するための1つ以上の実行可能命令を含む、回路要素、モジュール又はコードの部分を表すブロック図及び動作フローチャートに関して説明される。他の実装では、ブロックに記載された機能は、記載された順序から発生し得ることにも留意されたい。例えば、連続して示されている2つのブロックは、実際には実質的に同時に実行され得るか、又は関与する機能に応じて、ブロックが逆の順序で実行され得る。
本明細書における「一例による」又は「一例における」は、本実施例に関連して説明される特定の特徴、構造又は特性が、本原理の少なくとも1つの実装形態に含まれ得ることを意味する。本明細書の様々な場所における「一例による」又は「一例における」の句の出現は、必ずしもすべてが同じ例を指しているわけではなく、別個の又は代替的な実施例では、必ずしも他の実施例と相互に排他的ではない。
特許請求の範囲に現れる参照番号は、単に例示としてのものであり、特許請求の範囲に限定的な影響を及ぼさないものとする。明示的に記載されていないが、本実施例及び変形例は、任意の組み合わせ又は部分的な組み合わせで用いられ得る。
図1は、オブジェクト及び3Dモデル10に対応する点群11の点の三次元(3D)モデル10を示す。3Dモデル10及び点群11は、例えば、他のオブジェクトを含む3Dシーンのオブジェクトの潜在的な3D表現に対応し得る。モデル10は、3Dメッシュ表現であり得、点群11の点は、メッシュの頂点であり得る。点群11の点はまた、メッシュの面の表面上に広がった点であり得る。モデル10はまた、点群11のスプラッティングされたバージョンとして表すこともでき、モデル10の表面は、点群11の点をスプラッティングすることによって作成される。モデル10は、ボクセル又はスプラインなどの多くの異なる表現によって表され得る。図1は、点群が3Dオブジェクトの表面表現と定義され得、3Dオブジェクトの表面表現がクラウドの点から生成され得るという事実を示す。本明細書で使用される場合、画像上の(3Dシーンの伸長点による)3Dオブジェクトの投影点は、この3Dオブジェクト、例えば、点群、メッシュ、スプラインモデル又はボクセルモデルの任意の表現を投影することと同等である。
点群は、例えば、ベクトルベースの構造としてメモリで表すことができ、各点は、視点の参照フレーム内の独自の座標(例えば、三次元座標XYZ、又は視点からの/視点への立体角及び距離(深度とも呼ばれる))及び成分とも呼ばれる1つ以上の属性を有する。成分の例は、様々な色空間、例えば、RGB(赤、緑及び青)又はYUV(Yが輝度成分及びUV2つの色差成分である)で発現され得る色成分である。点群は、オブジェクトを含む3Dシーンの表現である。3Dシーンは、所与の視点又は視点の範囲から見ることができる。点群は、多くの方法によって、例えば、
・任意選択的に深度アクティブセンシングデバイスによって補完された、カメラのリグによって撮影された実オブジェクトの捕捉から、
・モデリングツールにおける仮想カメラのリグによって撮影された仮想/合成オブジェクトの捕捉から、
・実オブジェクトと仮想オブジェクトの両方の混合物から、取得され得る。
特に3DoFレンダリングのために準備されたときの3Dシーンは、Multi-View+Depth(MVD)フレームによって表され得る。次いで、容積ビデオは、MVDフレームのシーケンスである。このアプローチでは、容積情報は、対応する色及び深度アトラスに記憶された色及び深度パッチの組み合わせとして伝達され、それらは次いで、コーデック(典型的には、HEVC)を使用してビデオ符号化される。色及び深度パッチの各組み合わせは、典型的には、MVD入力ビューの部分を表し、すべてのパッチのセットは、可能な限り冗長性を少なくしながら、シーン全体をカバーするように、符号化段階で設計される。復号化段階では、アトラスは最初にビデオ復号化され、パッチはビュー合成プロセスでレンダリングされて、所望の視認位置に関連付けられたビューポートを回復する。
図2は、3Dシーンのシーケンスを表すデータの符号化、送信及び復号化の非限定的な例を示す。例えば、同時に、3DoF、3DoF+及び6DoF復号化に適合することができる符号化形式。
3Dシーン20のシーケンスが取得される。写真のシーケンスが2Dビデオであるとき、3Dシーンのシーケンスは3D(容積とも呼ばれる)ビデオである。3Dシーンのシーケンスは、3DoF、3Dof+又は6DoFレンダリング及び表示のための容積ビデオレンダリングデバイスに提供され得る。
3Dシーン20のシーケンスは、エンコーダ21に提供される。エンコーダ21は、入力として1つの3Dシーン又は3Dシーンのシーケンスを取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ22内に、かつ/又は電子データ媒体上に記憶され得、ネットワーク22を介して送信され得る。3Dシーンのシーケンスを表すビットストリームは、メモリ22から読み取られ、かつ/又はデコーダ23によってネットワーク22から受信され得る。デコーダ23は、当該ビットストリームによって入力され、例えば、点群形式で3Dシーンのシーケンスを提供する。
エンコーダ21は、いくつかのステップを実装するいくつかの回路を備え得る。第1のステップでは、エンコーダ21は、各3Dシーンを少なくとも1つの2D写真に投影する。3D投影は、三次元点を二次元平面にマッピングする任意の方法である。グラフィックデータを表示するための最新の方法は、平面(いくつかのビット平面からのピクセル情報)二次元媒体に基づいているため、このタイプの投影の使用は、特にコンピュータグラフィック、操作及びドラフト化において広範囲に及ぶ。投影回路211は、シーケンス20の3Dシーンのための少なくとも1つの二次元フレーム2111を提供する。フレーム2111は、フレーム2111上に投影された3Dシーンを表す色情報及び深度情報を含む。変形例では、色情報及び深度情報は、2つの別個のフレーム2111及び2112において符号化される。
メタデータ212は、投影回路211によって使用され、更新される。メタデータ212は、図5~図7に関連して説明したように、投影動作(例えば、投影パラメータ)並びに色及び深度情報がフレーム2111及び2112内で編成される方法に関する情報を含む。
ビデオ符号化回路213は、フレーム2111及び2112のシーケンスをビデオとして符号化する。3Dシーン2111及び2112の写真(又は3Dシーンの写真のシーケンス)は、ビデオエンコーダ213によってストリーム内で符号化される。次いで、ビデオデータ及びメタデータ212は、データカプセル化回路214によってデータストリーム内でカプセル化される。
エンコーダ213は、例えば、
-JPEG、仕様ISO/CEI10918-1UIT-T推奨T.81、https://www.itu.int/rec/T-REC-T.81/en;
-MPEG-4AVC又はh264とも呼ばれるAVCなどのエンコーダに準拠する。UIT-TH.264及びISO/CEI MPEG-4-Part 10(ISO/CEI14496-10)、http://www.itu.int/rec/T-REC-H.264/en,HEVC(その仕様は、ITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/enで見出される)、
-3D-HEVC(仕様がITUウェブサイト、T推奨、H系列、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and Iで見出されるHEVCの拡張子)、
-Googleによって開発されたVP9、
-Alliance for Open Mediaによって開発されたAV1(AO媒体ビデオ1)又は
-Versatile Video Coder又はMPEG-I又はMPEG-V の将来のバージョンのような将来の標準などのエンコーダに適合する。
データストリームは、デコーダ23によって、例えばネットワーク22を介してアクセス可能なメモリに記憶される。デコーダ23は、復号化の異なるステップを実装する異なる回路を備える。デコーダ23は、エンコーダ21によって生成されたデータストリームを入力として取り、ヘッドマウントデバイス(HMD)のような容積ビデオ表示デバイスによってレンダリングされ、かつ表示される3Dシーン24のシーケンスを提供する。デコーダ23は、ソース22からストリームを取得する。例えば、ソース22は、
-例えば、ビデオメモリ又はRAM(又はランダムアクセスメモリ)、フラッシュメモリ、ROM(又は読み取り専用メモリ)、ハードディスクなどのローカルメモリと、
-例えば、質量ストレージ、RAM、フラッシュメモリ、ROM、光学ディスク又は磁気サポートとのインターフェースなどのストレージインターフェースと、
-例えば、有線インターフェース(例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース)又は無線インターフェース(IEEE802.11インターフェース又はBluetooth(登録商標)インターフェースなど)などの通信インターフェースと、
-ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェースと、を含むセットに属する。
デコーダ23は、データストリーム内で符号化されたデータを抽出するための回路234を備える。回路234は、データストリームを入力として取り、ストリーム及び二次元ビデオにおいて符号化されたメタデータ212に対応するメタデータ232を提供する。ビデオは、フレームのシーケンスを提供するビデオデコーダ233によって復号化される。復号化されたフレームは、色及び深度情報を含む。変形例では、ビデオデコーダ233は、一方が色情報を含み、他方が深度情報を含む2つのフレームのシーケンスを提供する。回路231は、メタデータ232を使用して、復号化されたフレームからの色及び深度情報を投影せず、3Dシーン24のシーケンスを提供する。3Dシーン24のシーケンスは、2Dビデオとしての符号化に関連する精度が潜在的に低下3Dシーン20のシーケンス及びビデオ圧縮に対応する。
図3は、図7及び図8に関連して説明される方法を実施するように構成され得るデバイス30の例示的なアーキテクチャを示す。図2のエンコーダ21及び/又はデコーダ23は、このアーキテクチャを実装し得る。代替的に、エンコーダ21及び/又はデコーダ23の各回路は、例えば、それらのバス31を介して、かつ/又はI/Oインターフェース36を介して一緒に連結された、図3のアーキテクチャによるデバイスであり得る。
デバイス30は、データ及びアドレスバス31によって一緒に連結された以下の要素:
-例えば、DSP(又はデジタル信号プロセッサ)であるマイクロプロセッサ32(又はCPU)と、
-ROM(又は読み取り専用メモリ)33と、
-RAM(又はランダムアクセスメモリ)34と、
-ストレージインターフェース35と、
-アプリケーションから、送信するデータを受信するためのI/Oインターフェース36と、
-電源、例えば、バッテリと、を備える。
一例によれば、電源はデバイスの外部にある。言及されたメモリの各々において、本明細書で使用される「レジスタ」という単語は、小さな容量の領域(いくつかのビット)又は非常に大きな領域(例えば、全体のプログラム又は大量の受信された、又は復号化されたデータ)に対応し得る。ROM33は、少なくともプログラム及びパラメータを含む。ROM33は、本原理に従って技術を実行するためのアルゴリズム及び命令を記憶することができる。オンに切り替えられると、CPU32は、RAM内のプログラムをアップロードし、対応する命令を実行する。
RAM34は、レジスタ内で、CPU32によって実行され、デバイス30のスイッチオン後にアップロードされるプログラムと、レジスタ内の入力データと、レジスタ内の方法の異なる状態の中間データと、レジスタ内の方法の実行のために使用される他の変数と、を含む。
本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察される)であっても、考察される特徴の実装形態はまた、他の形態(例えば、プログラム)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
実施例によれば、デバイス30は、図7及び図8に関連して説明された方法を実装するように構成されており、
-モバイルデバイスと、
-通信デバイスと、
-ゲームデバイスと、
-タブレット(又はタブレットコンピュータ)と、
-ラップトップと、
-静止画カメラと、
-ビデオカメラと、
-符号化チップと、
-サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ又はウェブサーバ)と、を含むセットに属する。
図4は、データがパケットベースの送信プロトコルを介して送信されるときのストリームの構文の実施形態の例を示す。図4は、容積ビデオストリームの例示的な構造4を示す。構造は、構文の独立した要素においてストリームを編成する容器からなる。構造は、ストリームのすべての構文要素に共通のデータのセットであるヘッダ部分41を含み得る。例えば、ヘッダ部分は、構文要素に関するメタデータのいくつかを含み、それらの各々の性質及び役割を説明する。ヘッダ部分はまた、図2のメタデータ212の一部、例えば、3Dシーンの点をフレーム2111及び2112上に投影するために使用される中心視点の座標を含み得る。構造は、構文42の要素と、構文43の少なくとも1つの要素を含むペイロードを含む。構文要素42は、色及び深度フレームを表すデータを含む。画像は、ビデオ圧縮方法に従って圧縮されている場合がある。
構文43の要素は、データストリームのペイロードの一部であり、構文42の要素のフレームがどのように符号化されるかについてのメタデータ、例えば、3Dシーンの点をフレーム上に投影するか、パッキングするために使用されるパラメータを含み得る。そのようなメタデータは、ビデオの各フレーム又は(ビデオ圧縮標準において写真のグループ(Group of Pictures、GoP)としても既知である)フレームのグループと関連付けられ得る。
3DoF+コンテンツは、Multi-View+Depth(MVD)フレームのセットとして提供され得る。そのようなコンテンツは、専用のカメラによって捕捉された場合があるか、又は専用の(潜在的に写実的な)レンダリングによって、既存のコンピュータグラフィック(CG)コンテンツから生成され得る。
図5は、MVDフレームから所与のビューポートのための画像を生成するときに、図2のビュー合成装置231によって使用されるプロセスを示す。合成するためにビューポート50のためのピクセル51を合成しようとするときに、合成装置(例えば、図2の回路231)は、この所与のピクセルを通過する光線(例えば、光線52及び53)を投影せず、この光線に沿って各ソースカメラ54~57の寄与をチェックする。図5に示すように、シーン内のいくつかのオブジェクトが、あるカメラから別のカメラへの閉塞を作成するときに、又はカメラ設定のために可視性を確保することができないときに、合成に対するピクセルの特性に関するすべてのソースカメラ54~57間のコンセンサスが見つからない場合がある。図5の例では、3つのカメラ54~56インチの第1のグループは、前景オブジェクト58の色を使用して、合成するためにそれらすべてが光線に沿ってこのオブジェクトを「見る」ときに、ピクセル51を合成するように「投票」する。1つの単一のカメラ57の第2のグループは、そのビューポートの外側にあるため、このオブジェクトを見ることができない。したがって、カメラ57は、ピクセル51を合成するように、後景オブジェクト59に「投票」する。そのような状況の曖昧さを解消するための戦略は、合成するためのビューポートまでの距離に応じて、重みによる各カメラの寄与をブレンド及び/又はマージすることである。図5の例では、カメラ54~56の第1のグループは、それらがより多くのものであるときに、及び合成するためにビューポートからより近いときに、最大の寄与をもたらす。最後に、ピクセル51は、予想どおり、前景オブジェクト68の特性を使用することによって合成される。
図6は、3D空間の不均一なサンプリングを有するカメラのセットのビュー合成を示す。ソースカメラリグの構成に応じて、特に、得るべき容積シーンが最適にサンプリングされないときに、この加重戦略は、図6で観察され得るように、失敗する可能性がある。このような状況では、リグは、入力カメラのほとんどが見ることができず、単純な加重戦略が予想される結果を与えないため、オブジェクトを捕捉するために明確に不良にサンプリングされる。図6の例では、前景オブジェクト68は、カメラ64によってのみ捕捉される。合成するためにビューポート60のためのピクセル61を合成しようとするときに、合成装置は、この所与のピクセルを通過する光線(例えば、光線62及び63)を投影せず、この光線に沿って各ソースカメラ64、66及び67の寄与をチェックする。図6の例では、カメラ64は、前景オブジェクト68の色を使用して、ピクセル61を合成する一方で、カメラ66及び67のグループが、後景オブジェクト69のために投票してピクセル61を合成する。最後に、後景オブジェクト69の色の寄与は、前景オブジェクト68の色の寄与よりも大きく、視覚的アーチファクトをもたらす。
カメラの空間構成を適合させることによって、得るべきシーンの不良なサンプリングが捕捉段階で克服され得る場合でも、シーンの幾何学的形状を予測することができないシナリオは、例えば、ライブストリーミングにおいて起こり得る。更に、複雑な運動及び多数の潜在的な閉塞を有する自然なシーンの場合、完全なリグ設定を見つけることはほとんど不可能である。
しかしながら、いくつかの特定のシナリオでは、特にカメラの仮想リジスがコンピュータ生成(computer generated、CG)3Dシーンを捕捉するために使用される場合、仮想カメラが「完全」であり、かつそれらが完全に信頼され得るとして以前に提示されたもの以外の他の加重戦略を想定し得る。実際、実際の(非CG)文脈では、深度情報が直接捕捉されず、例えば、写真測量法によって事前に計算される必要があるため、容積シーンの入力として機能するMVDを推定する必要がある。この後者のステップは、多くのアーチファクト(特に遠隔カメラの幾何学的情報間の不一致)のソースであり、これらは、次いで、図5に記載されるものと同様の加重/投票戦略によって軽減されている/軽減される必要がある。逆に、コンピュータ生成シナリオでは、得るべきシーンは、完全にモデル化され、そのようなアーチファクトは、深度情報が完全な様式でモデルによって直接与えられるために起こり得ない。合成装置が、ソース(View+Depth)によって与えられる情報を完全に信頼するべきであることを事前に知っている場合、次いで、そのプロセスを大幅に早め、図6に記載されるもののように加重問題を防止することができる。
本原理によれば、これらの欠点を克服するための方法が提案される。情報は、デコーダに送信された、挿入されたメタデータであり、合成に使用されるカメラが信頼可能であり、代替的な加重が想定されるべきであることを合成器に示す。マルチビューフレームの各ビューによって担持される情報の信頼度は、マルチビューフレームと関連付けられたメタデータに符号化される。信頼度は、得られた際の深度情報の忠実度に関連している。上で詳述されるように、仮想カメラによって捕捉されたビューについて、深度情報の忠実度は最大であり、実カメラによって捕捉されたビューについて、深度情報の忠実度は、実カメラの内部パラメータ及び外部パラメータに依存する。
そのような特徴の実装は、表1に記載されるように、メタデータ内のカメラパラメータリストにフラグを挿入することによって行われ得る。このフラグは、先で説明されるように、所与のカメラが完全なものであり、その情報が完全に信頼可能であると見なすべきであると考えることができる、ビュー合成器の特別なプロファイルを可能にするカメラごとのブール値であり得る。
一般フラグ「source_confidence_params_equal_flag」が、設定される。このフラグは、特徴を(真の場合)有効化することか、又は(偽の場合)無効化することを表し、ii)後者のフラグが有効化された場合、各成分がカメラごとに完全に信頼できる(真の場合)か、又はそうでない(偽の場合)と見なす必要があるかどうかを示すブール値のアレイ「source_confidence」が、メタデータに挿入される。

Figure 2022551064000002

レンダリング段階では、カメラが完全に信頼可能であると識別される(source_confidenceの関連付けられた成分が真に設定される)場合、次いで、その幾何学的情報(深度値)は、他の「信頼可能ではない」(すなわち、通常の)カメラによって担持されるすべての幾何学情報を上書きする。その場合、加重スキームは、信頼できるように識別されたカメラの幾何学的形状(例えば、深度)情報の単純な選択によって有利に置き換えることができる。言い換えれば、図5及び図6で提案された加重/投票スキームでは、所与のピクセルの合成のために保持されるべき点の位置(前景又は背景)のコンセンサスを、そのsource_confidence特性が真であるカメラと、そのsource_confidence特性が偽であるものとの間に見出すことができない場合、次いで、そのsource_confidenceが有効化されているものが好ましい。
合成すべき所与のピクセルに対して、複数のカメラのこの特性が有効化されている(source_confidenceの関連付けられた成分が真に設定されている)場合、通常のラスタライゼーションエンジンの深度バッファで実行され得るため、深度情報が最小であるカメラが選択される。そのような選択は、所与の信頼できるカメラが、合成すべき所与のピクセルに対して、他のカメラよりも近いオブジェクトを見た場合、必ずしもそれが、必然的に、他のカメラのための閉塞を作成し、したがって、閉塞された更なるオブジェクトの情報を担持するという事実によって動機化される。図6では、そのような戦略は、ピクセル61の合成に使用するためのものとしてカメラ64によって担持される情報を選択するようになる。
別の実施形態では、非バイナリ値は、カメラがレンダリングスキームにおいてどれほど「信頼可能」であると見なされるべきかを示す、0~1の正規化された浮動点などのソース信頼度に使用される。
現実世界環境では、カメラは、典型的には、完全に信頼可能かつ完全であると見なされない。「完全に信頼可能」及び「完全な」という用語は、一般に深度情報を指す。CG環境では、深度情報は、モデルに従って生成されるため、既知である。したがって、深度は、仮想カメラのすべてに対して、すべてのオブジェクトについて既知である。そのような仮想カメラは、CG環境の内側に生成される仮想リグの一部としてモデル化される。したがって、仮想カメラは、完全に信頼可能かつ完全である。
図6の例では、カメラが現実世界システムの一部であり、深度が推定される場合、カメラは完全に信頼可能かつ完全であると予想されない。したがって、多大な加重スキームがビューポートカメラ60のピクセル61に使用される場合、次いで、生成された回答は、ピクセル61の背景色であろう。同様に、カメラが仮想リグの一部であり、完全に信頼可能かつ完全である場合、大部分の加重スキームが依然として使用され、次いで、後景色は、依然としてピクセル61のために選択される。しかしながら、カメラが仮想リグの一部であり、完全に信頼可能な状態が使用される場合、その結果、完全に信頼可能なカメラの最低深度が選択され、次いで(カメラ64からの)前景色がピクセル61のために選択される。
CG映画は、記載された実施形態から利益を得ることができる。例えば、CG映画(例えば、ライオンキング)は、複数の仮想カメラが複数のビューを提供する仮想リグを使用して再撮影することができる。得られた出力は、ユーザが映画に没入型体験を有し、視認位置を選択することを可能にする。異なる視認位置をレンダリングすることは、典型的には時間がかかる。しかしながら、仮想カメラが完全に信頼可能かつ完全であることを考えると(深度に関して)、例えば、最低深度カメラが所与のピクセルの色を提供すること、又は代替的に、より近い深度値の色の平均値を提供することによって、レンダリング時間を削減することができる。これは、加重動作を実行するために典型的に必要な処理を排除する。
信頼の概念は、現実世界のカメラに拡張され得る。しかしながら、推定深度に基づく単一の現実世界のカメラに依存すると、任意の所与のピクセルに対して間違った色が選択されるリスクがある。しかしながら、所与のカメラについて特定の深度情報がより信頼できる場合、次いで、この情報は、レンダリング時間を短縮するために利用され得るが、「最良の」カメラに依存し、したがって、可能性のあるアーチファクトを回避することによって最終品質を改善することもできる。
相補的に、完全な幾何学的情報に加えて、「完全に信頼可能な」カメラもまた、リグの異なるカメラ間の色情報の信頼性を担持するために使用され得る。色情報に関して異なるカメラを較正することは、必ずしも達成が容易ではないことが周知である。したがって、また、「完全に信頼可能な」カメラ概念を使用して、カメラを色の参照として識別して、色加重レンダリング段階でより多く信頼することができる。
図7は、本原理の非限定的な実施形態による、データストリーム内のマルチビュー(MV)フレームを符号化するための方法70を示す。ステップ71において、マルチビューフレームがソースから取得される。ステップ72において、マルチビューフレームの所与のビューによって担持される情報の信頼度を表すパラメータが取得される。一実施形態では、MVフレームのすべてのビューに対してパラメータが取得される。このパラメータは、ビューの情報が完全に信頼可能であるか、又は「非完全に」信頼可能であるかを示す、ブール値であり得る。変形例では、パラメータは、例えば、-100~100又は0~255又は実数の間の整数、例えば、-1.0~1.0又は0.0~1.0の範囲の度の信頼度である。ステップ73において、MVフレームは、メタデータと関連付けられたデータストリーム内で符号化される。メタデータは、ビュー、例えばインデックスを、そのパラメータと関連付けるデータの対を含む。
図8は、本原理の非限定的な実施形態による、データストリームからのマルチビューフレームを復号化するための方法80を示す。ステップ81において、マルチビューフレームがソースから復号化される。このMVフレームに関連付けられたメタデータもまた、ストリームから復号化される。ステップ82において、データの対がメタデータから取得され、これらのデータは、MVフレームのビューを、このビューによって担持される情報の信頼度を表すパラメータと関連付ける。ステップ73において、ビューポートフレームが、視認姿勢(すなわち、レンダラの3D空間内の場所及び配向)のために生成される。ビューポートフレームのピクセルについて、各ビュー(本出願においては「カメラ」とも呼ばれる)の寄与の重みは、各ビューに関連付けられた信頼度に従って判定される。
本明細書に記載の実装形態は、例えば、方法又はプロセス、装置、コンピュータプログラム製品、データストリーム、又は信号において実装され得る。実装形態の単一の形態の文脈でのみ考察された場合(例えば、方法又はデバイスとしてのみ考察される)であっても、考察される特徴の実装形態は、他の形態(例えば、プログラム)においても実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア及びファームウェアにおいて実装され得る。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(「personal digital assistant、PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
本明細書に記載の様々なプロセス及び特徴の実装は、様々な異なる機器又は用途、特に、例えば、データ符号化、データ復号化、ビュー生成、テクスチャ処理並びに画像及び関連するテクスチャ情報及び/又は深度情報の他の処理に関連付けられた機器又は用途において、具体化され得る。そのような機器の例としては、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、及び他の通信デバイスが挙げられる。明確であるはずであるように、機器は、モバイルであり得、モバイル車両に設置され得る。
更に、方法は、プロセッサによって実行される命令によって実装され得、そのような命令(及び/又は実装形態によって生成されたデータ値)は、例えば、集積回路、ソフトウェアキャリア又は他の記憶デバイス、例えば、ハードディスク、コンパクトディスケット(「compact diskette、CD」)、光学ディスク(例えば、デジタル多用途ディスク又はデジタルビデオディスクと称されることが多いDVDなど)、ランダムアクセスメモリ(「random access memory、RAM」)又は読み取り専用メモリ(「read-only memory、ROM」)などのプロセッサ可読媒体上に記憶され得る。命令は、プロセッサ可読媒体上で明白に具体化されたアプリケーションプログラムを形成し得る。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又は2つの組み合わせに見出され得る。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行するための命令を有するプロセッサ可読媒体(記憶デバイスなど)を含むデバイスと、の両方として特徴付けられ得る。更に、プロセッサ可読媒体は、命令に加えて、又は命令の代わりに、実装形態によって生成されたデータ値を記憶することができる。
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を担持するようにフォーマット化された様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態の構文を書き込むか、若しくは読み取るためのルールをデータとして担持するか、又は記載された実施形態によって書き込まれた実際の構文値をデータとして担持するようにフォーマット化され得る。そのような信号は、例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、又はベースバンド信号としてフォーマット化され得る。フォーマット化は、例えば、データストリームを符号化し、符号化されたデータストリームでキャリアを変調することを含み得る。信号が担持する情報は、例えば、アナログ情報又はデジタル情報であり得る。信号は、既知のように、様々な異なる有線又は無線リンクを介して送信され得る。信号は、プロセッサ可読媒体上に記憶され得る。
多くの実装形態が説明されている。それにもかかわらず、様々な修正が行われ得ることが理解されるであろう。例えば、異なる実装形態の要素は、他の実装形態を生成するために組み合わせ、補足、修正、又は削除することができる。更に、当業者は、開示されたものに対して他の構造及びプロセスを置換することができ、結果として生じる実装形態は、少なくとも実質的に同じ機能を少なくとも実質的に同じ方法で実行して、開示された実装形態と少なくとも実質的に同じ結果を達成することを理解するであろう。したがって、これら及び他の実装形態は、本出願によって企図される。

Claims (26)

  1. マルチビューフレームを符号化するための方法であって、
    -前記マルチビューフレームのビューについて、前記ビューによって担持される深度情報の忠実度を表すパラメータを取得することと、
    -前記パラメータを含むメタデータと関連して、データストリーム内の前記マルチビューフレームを符号化することと、を含む、方法。
  2. ビューの深度情報の忠実度を表す前記パラメータが、前記ビューを捕捉したカメラの内部パラメータ及び外部パラメータに従って判定される、請求項1に記載の方法。
  3. 前記メタデータが、前記マルチビューフレームのビューごとにパラメータが提供されるかどうかを示す情報と、そうである場合、ビューごとに、前記ビューに関連付けられた前記パラメータと、を含む、請求項1又は2に記載の方法。
  4. ビューの深度情報の忠実度を表すパラメータが、前記深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である、請求項1~3のいずれか一項に記載の方法。
  5. ビューの深度情報の忠実度を表すパラメータが、前記ビューの前記深度忠実度の信頼度を示す数値である、請求項1~3のいずれか一項に記載の方法。
  6. マルチビューフレームを符号化するためのデバイスであって、
    -前記マルチビューフレームのビューについて、前記ビューによって担持される深度情報の忠実度を表すパラメータを取得することと、
    -前記パラメータを含むメタデータと関連して、データストリーム内の前記マルチビューフレームを符号化することと、を行うように構成されたプロセッサを備える、デバイス。
  7. 前記プロセッサが、前記ビューを捕捉したカメラの内部パラメータ及び外部パラメータに従って、ビューの深度情報の忠実度を表す前記パラメータを判定するように構成されている、請求項6に記載のデバイス。
  8. 前記プロセッサが、前記マルチビューフレームのビューごとにパラメータが提供されるかどうかを示す情報と、そうである場合、ビューごとに、前記ビューに関連付けられた前記パラメータと、を含む、メタデータを符号化するように構成されている、請求項6又は7に記載のデバイス。
  9. ビューの深度情報の忠実度を表すパラメータが、前記深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である、請求項6~8のいずれか一項に記載のデバイス。
  10. ビューの深度情報の忠実度を表すパラメータが、前記ビューの前記深度忠実度の信頼度を示す数値である、請求項6~8のいずれか一項に記載のデバイス。
  11. データストリームからマルチビューフレームを復号化する方法であって、
    -前記マルチビューフレーム及び関連付けられたメタデータを前記データストリームから復号化することと、
    -前記メタデータから、前記マルチビューフレームのビューによって担持される深度情報の忠実度を表すパラメータが提供されるかどうかを示す情報を取得することと、そうである場合、ビューごとにパラメータを取得することと、
    -前記ビューに関連付けられた前記パラメータの関数として、前記マルチビューフレームの各ビューの寄与を判定することによって、視認姿勢に従って、ビューポートフレームを生成することと、を含む、方法。
  12. ビューの深度情報の忠実度を表すパラメータが、前記深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である、請求項11に記載の方法。
  13. 部分的に信頼可能なビューの前記寄与が、無視される、請求項12に記載の方法。
  14. 複数のビューが完全に信頼可能であるという条件で、最低深度情報を有する前記完全に信頼可能なビューが使用される、請求項12又は13に記載の方法。
  15. ビューの深度情報の忠実度を表すパラメータが、前記ビューの前記深度忠実度の信頼度を示す数値である、請求項11に記載の方法。
  16. 各ビューの前記寄与が、前記ビューと関連付けられた前記数値に比例する、請求項15に記載の方法。
  17. データストリームからマルチビューフレームを復号化するためのデバイスであって、
    -前記マルチビューフレーム及び関連付けられたメタデータを前記データストリームから復号化することと、
    -前記メタデータから、前記マルチビューフレームのビューによって担持される深度情報の忠実度を表すパラメータが提供されるかどうかを示す情報を取得することと、そうである場合、ビューごとにパラメータを取得することと、
    -前記ビューに関連付けられた前記パラメータの関数として、前記マルチビューフレームの各ビューの寄与を判定することによって、視認姿勢に従って、ビューポートフレームを生成することと、を行うように構成されたプロセッサを備える、デバイス。
  18. ビューの深度情報の忠実度を表すパラメータが、前記深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である、請求項17に記載のデバイス。
  19. 部分的に信頼可能なビューの前記寄与が、無視される、請求項18に記載のデバイス。
  20. 複数のビューが完全に信頼可能であるという条件で、最低深度情報を有する前記完全に信頼可能なビューが使用される、請求項18又は19に記載のデバイス。
  21. ビューの深度情報の忠実度を表すパラメータが、前記ビューの前記深度忠実度の信頼度を示す数値である、請求項17に記載のデバイス。
  22. 各ビューの前記寄与が、前記ビューと関連付けられた前記数値に比例する、請求項21に記載のデバイス。
  23. データストリームであって、
    -マルチビューフレームを表すデータと、
    -前記データに関連付けられたメタデータであって、前記メタデータが、前記マルチビューフレームのビューごとに、前記ビューによって担持される深度情報の忠実度を表すパラメータを含む、メタデータと、を含む、データストリーム。
  24. 前記メタデータが、前記マルチビューフレームのビューごとにパラメータが提供されるかどうかを示す情報と、そうである場合、ビューごとに、前記ビューに関連付けられた前記パラメータと、を含む、請求項23に記載のデータストリーム。
  25. ビューの深度情報の忠実度を表すパラメータが、前記深度忠実度が完全に信頼可能であるか、又は部分的に信頼可能であるかを示すブール値である、請求項23又は24に記載のデータストリーム。
  26. ビューの深度情報の忠実度を表すパラメータが、前記ビューの前記深度忠実度の信頼度を示す数値である、請求項23又は24に記載のデータストリーム。

JP2022519816A 2019-10-02 2020-10-01 容積ビデオを符号化、送信、及び復号化するための方法及び装置 Pending JP2022551064A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306269.2 2019-10-02
EP19306269 2019-10-02
PCT/EP2020/077588 WO2021064138A1 (en) 2019-10-02 2020-10-01 A method and apparatus for encoding, transmitting and decoding volumetric video

Publications (1)

Publication Number Publication Date
JP2022551064A true JP2022551064A (ja) 2022-12-07

Family

ID=68296416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519816A Pending JP2022551064A (ja) 2019-10-02 2020-10-01 容積ビデオを符号化、送信、及び復号化するための方法及び装置

Country Status (7)

Country Link
US (1) US20220345681A1 (ja)
EP (1) EP4038884A1 (ja)
JP (1) JP2022551064A (ja)
KR (1) KR20220069040A (ja)
CN (1) CN114731424A (ja)
IL (1) IL291491A (ja)
WO (1) WO2021064138A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013025149A1 (en) * 2011-08-15 2013-02-21 Telefonaktiebolaget L M Ericsson (Publ) Encoder, method in an encoder, decoder and method in a decoder for providing information concerning a spatial validity range
KR20130074383A (ko) * 2011-12-26 2013-07-04 삼성전자주식회사 다중-레이어 표현을 사용하는 영상 처리 방법 및 장치
EP3762901A4 (en) * 2018-03-08 2021-11-17 Simile Inc. METHODS AND SYSTEMS FOR THE PRODUCTION OF CONTENT IN ENVIRONMENTS WITH MULTIPLE REALITIES

Also Published As

Publication number Publication date
EP4038884A1 (en) 2022-08-10
CN114731424A (zh) 2022-07-08
KR20220069040A (ko) 2022-05-26
WO2021064138A1 (en) 2021-04-08
US20220345681A1 (en) 2022-10-27
IL291491A (en) 2022-05-01

Similar Documents

Publication Publication Date Title
KR20200051784A (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
US11979546B2 (en) Method and apparatus for encoding and rendering a 3D scene with inpainting patches
US11968349B2 (en) Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content
US20230042874A1 (en) Volumetric video with auxiliary patches
KR102607709B1 (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
US20220377302A1 (en) A method and apparatus for coding and decoding volumetric video with view-driven specularity
US20220368879A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
US20230224501A1 (en) Different atlas packings for volumetric video
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
JP2024514066A (ja) 光効果をサポートする容積ビデオ
WO2023202897A1 (en) A method and apparatus for encoding/decoding a 3d scene

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220624

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220727

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230926

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231110