JP2022525100A - 深度の符号化および復号の方法および装置 - Google Patents

深度の符号化および復号の方法および装置 Download PDF

Info

Publication number
JP2022525100A
JP2022525100A JP2021554675A JP2021554675A JP2022525100A JP 2022525100 A JP2022525100 A JP 2022525100A JP 2021554675 A JP2021554675 A JP 2021554675A JP 2021554675 A JP2021554675 A JP 2021554675A JP 2022525100 A JP2022525100 A JP 2022525100A
Authority
JP
Japan
Prior art keywords
point
value
quantization
function
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021554675A
Other languages
English (en)
Other versions
JPWO2020190898A5 (ja
Inventor
フリュールー,ジュリアン
ドレ,ルノー
チュードル,フランク
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2022525100A publication Critical patent/JP2022525100A/ja
Publication of JPWO2020190898A5 publication Critical patent/JPWO2020190898A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

3Dシーンを表す深度情報の符号化、フォーマッティング、および復号の方法、デバイス、およびデータストリームのフォーマットが本文書に開示される。ビデオコーデックによる量子化値の圧縮および解凍は、値の誤差をもたらす。値に関するこの誤差は、深度の符号化では特にセンシティブである。本発明は、量子化された深度の値誤差が射影点と逆射影点との間の位置デルタを作成するときの角度誤差を最小化する量子化関数を用いて深度を符号化および復号することを提案する。このような量子化関数の逆関数は、このような関数は扱いにくいため、復号において取り出されるために、例えば、LUTとして、3Dシーンに関連付けられたメタデータにおいて符号化される必要がある。

Description

1.技術分野
本原理は、概して、3次元(3D)シーンおよびボリュメトリックビデオコンテンツの領域に関する。本文書はまた、例えば、モバイルデバイスまたはヘッドマウントディスプレイ(HMD)などのエンドユーザデバイスにボリュメトリックコンテンツをレンダリングするための、3Dシーンのジオメトリを表すデータの符号化、フォーマッティング、および復号との関連においても理解される。
2.背景技術
本節では、読者に当技術分野の様々な態様を紹介することを意図しており、これらの態様は、以下に説明および/または特許請求される本原理の様々な態様に関連し得る。この議論は、読者に背景情報を提供して、本原理の様々な態様のより良好な理解を容易にするのに役立つと考えられる。したがって、これらの記述は、この観点から読み取られるべきであり、先行技術を容認したものとして読み取られるべきではないということを理解されたい。
近年、利用可能な広視野コンテンツ(最大360°)が増えてきている。このようなコンテンツは、ユーザがコンテンツを、ヘッドマウントディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォンなどのような没入型表示デバイスで見ることにより全部を目で見るということができない可能性がある。これは、所定の瞬間に、ユーザがコンテンツの一部のみを閲覧している可能性があることを意味している。しかしながら、ユーザは通常、頭部の移動、マウスの移動、タッチスクリーン、音声などのような様々な手段によりコンテンツ内をナビゲートすることができる。通常、このコンテンツを符号化および復号することが望ましい。
360°フラットビデオとも呼ばれる没入型ビデオによりユーザは、ユーザ自身の周りのあらゆるものを、ユーザの頭部を注視点の周りに回転させることにより見ることを可能にする。回転により、3自由度(3DoF)の体験のみが可能になる。例えばヘッドマウントディスプレイデバイス(HMD)を使用するなど、最初の全方向ビデオ体験のために3DoFビデオが十分であったとしても、3DoFビデオは、例えば視差を体験することにより、より多くの自由度を期待するビューアをすぐにイライラさせてしまう可能性がある。さらに、3DoFはまた、ユーザがユーザの頭部を回転させるだけでなく、ユーザの頭部を3つの方向に並進移動させ、並進移動が3DoFビデオ体験では再現されることがないので、めまいを引き起こす可能性もある。
広視野コンテンツは、とりわけ、3次元コンピュータグラフィックイメージシーン(3D CGIシーン)、ポイントクラウド、または没入型ビデオとすることができる。多くの条件を使用して、このような没入型ビデオ:例えば、仮想現実(VR)ビデオ、360ビデオ、パノラマビデオ、4π立体視ビデオ、没入型ビデオ、全方向性ビデオ、または広視野ビデオを設計することができる。
ボリュメトリックビデオ(6自由度(6DoF)ビデオとしても知られている)は、3DoFビデオの代替である。6DoFビデオを見る場合、回転に加えて、ユーザは見つめているコンテンツ内で頭部や身体を並進移動させることができ、視差やボリュームさえも体験することができる。このようなビデオは、没入感およびシーンの奥行き感をかなり深めることができ、着実な視覚的フィードバックを頭部の並進移動中に与えることによりめまいを防止することができる。コンテンツを専用センサにより作成して、注目シーンのカラーおよび奥行きを同時に記録することが可能になる。写真測量技術と組み合わせたカラーカメラ装置の使用は、技術的困難が残るとしても、このような記録を実行する方法である。
3DoFビデオは、テクスチャ画像(例えば、緯度/経度射影マッピングまたは正距円筒射影マッピングに従って符号化される球面画像)のマッピング解除から得られる画像列を含むが、6DoFビデオフレームには、いくつかの視点からの情報が埋め込まれる。これらのビデオフレームは、3次元撮影から得られる一時的な一連のポイントクラウドとして表示できる。ビューイング状態に応じて、2種類のボリュメトリックビデオが考えられ得る。第1の種類(すなわち、全6DoF)が、ビデオコンテンツ内の完全に自由なナビゲーションを可能にするのに対し、第2の種類(別名、3DoF+)は、ユーザビューイング空間を、ビューイングバウンディングボックスと呼ばれる限定されたボリュームに制限して、頭部の限定された並進移動、および視差体験を可能にする。この第2のコンテキストは、着座視聴者の自由なナビゲーション状態と受動ビューイング状態との間の貴重なトレードオフである。
ボリュメトリックビデオの特定のケース以外に、3Dシーンまたはボリュメトリックコンテンツの深度情報の符号化および復号は、特に符号化される深度値の範囲が大きく、符号化に使用できるビット深度が十分な量の符号化値とともに提供されない場合には、問題になる可能性がある。
3.発明の概要
以下に、本原理のいくつかの態様の基本的な理解を提供するために、本原理の簡略化された概要を提示する。この概要は、本原理の網羅的な要約ではない。本原理の主要なまたは重要な要素を特定することを意図していない。以下の概要は、以下に提供されるより詳細な説明への前置きとして、本原理のいくつかの態様を単純化した形で提示しているにすぎない。
本原理は、ポイントクラウドの点とポイントクラウド内に位置する第1の点との間の距離を表すデータを符号化する方法に関連する。この方法は、第3の点、所与の角度、および誤差値によって定義される量子化関数を使用することにより、第1の点と第2の点との間の距離を表す値を量子化することを含む。量子化関数は、量子化値と誤差値との合計の逆量子化が第4の点を生成するように、角度第4の点、第3の点、第2の点が所与の角度以下になるように定義され得る。値が量子化されると、この方法は、量子化関数を表すメタデータに関連付けられて、この量子化値をデータストリーム内に符号化する。一実施形態では、量子化関数は、エンコーダとデコーダの両方によって知られているパラメータ化された関数であり、したがって、メタデータは、所与の角度および/または誤差値および/または第3の点の座標、もしくは変形態では、第1の点と第3の点の間の距離を含む。別の実施形態では、メタデータは、量子化関数の逆関数に応答するルックアップテーブルからなる。
本原理はまた、そのような方法を実装するデバイスによって生成されるデータストリームに関連する。データストリームは、ポイントクラウドの点とポイントクラウド内に位置する第1の点との間の距離を表す量子化値を表すデータを含み、この距離は、第3の点、所与の角度、および誤差値によって定義される量子化関数を使用して量子化されている。
本原理はまた、ポイントクラウドの点とポイントクラウド内の第1の点との間の距離を表すデータを復号する方法に関連する。この方法は、データストリームから量子化値および関連するメタデータを復号することを含む。メタデータは、第3の点、所与の角度、および誤差値によって定義される量子化関数を表すデータを含む。この方法は、この量子化関数の逆関数を使用して、抽出された量子化値をさらに逆量子化する。一実施形態では、逆量子化関数は、エンコーダとデコーダの両方によって知られているパラメータ化された関数であり、したがって、メタデータは、所与の角度および/または誤差値および/または第3の点の座標、もしくは変形態では、第1の点と第3の点の間の距離を含む。この実施形態では、復号側において、逆量子化関数は、これらのパラメータによって初期化される。変形態では、これらのパラメータのうちの1つにデフォルト値が設定されている場合、これらのパラメータの一部は任意選択である。別の実施形態では、メタデータは、量子化関数の逆関数に応答するルックアップテーブルを含む。距離の実数値は、量子化値をテーブル内で調べることによって取得される。
本原理はまた、そのような方法を実装するために構成されたプロセッサを備えるデバイスに関連する。
4.図面の簡単な説明
以下の説明を読み取ると、本開示が、より良好に理解され、他の特定の特徴および利点が明らかになり、この説明は、添付の図面を参照している。
本原理の非限定的な実施形態による、オブジェクトの3次元(3D)モデル、および3Dモデルに対応するポイントクラウドの点を示す。 本原理の非限定的な実施形態による、一連の3Dシーンを表すデータの符号化、送信、および復号の非限定的な例を示す。 本原理の非限定的な実施形態による、図8および9に関連して説明される方法を実装するように構成され得るデバイスの例示的なアーキテクチャを示す。 本原理の非限定的な実施形態による、データがパケットベース送信プロトコルを介して送信されるときのストリームのシンタックスの一実施形態の例を示す。 本原理の非限定的な実施形態による、中心の視点からの球形射影を示す。 本原理の非限定的な実施形態による、射影の中心(別名、第1の点)から見える3Dシーンの点の深度情報を含む射影マップの例を示す。 本原理の非限定的な実施形態による、3Dシーン内の第2の視点に従って量子化誤差がどのように知覚されるかを示す。 本原理の非限定的な実施形態による、3Dシーンの点の深度を表すデータを符号化する方法を示す。 本原理の非限定的な実施形態による、3Dシーンの点と3Dシーン内の第1の点との間の距離を表すデータを復号する方法を示す。
5.実施形態の詳細な説明
本原理は、本原理の例が示される添付の図面を参照して以下でより完全に説明される。しかしながら、本原理は、多くの代替形態で具体化されてもよく、本明細書に明示される例に限定されるものとして解釈されるべきではない。したがって、本原理は様々な修正形態および代替形態を受け入れる余地があるが、その特定の例は、図面に例として示され、本明細書で詳細に説明される。しかしながら、本原理を開示された特定の形態に限定する意図はないが、むしろ、本開示は、特許請求の範囲で定義されているように本原理の精神および範囲に含まれるすべての修正物、等価物、および代替物を網羅すると理解されたい。
本明細書で使用される専門用語は、特定の例を説明することのみを目的とし、本原理を限定することを意図していない。本明細書で使用される場合、単数形「a」、「an」、および「the」は、特にコンテキストが明示しない限り、複数形も含むことが意図される。本明細書で使用される場合、「備える」、「備えている」、「含む」、および/または「含んでいる」という用語は、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を特定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことがさらに理解されよう。さらに、要素が別の要素に「応答する」または「接続される」と言及される場合、それは他の要素に直接応答するか、もしくは接続され得るか、または介在する要素が存在し得る。対照的に、要素が他の要素に「直接応答する」または「直接接続される」と言及される場合、介在する要素は存在しない。本明細書で使用される場合、「および/または」という用語は、関連する列挙された項目のうちの1つ以上のありとあらゆる組み合わせを含み、「/」と略記することができる。
本明細書では、第1、第2などの用語を使用して様々な要素を説明する場合があるが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本原理の教示から逸脱することなく、第1の要素を第2の要素と呼ぶことができ、同様に、第2の要素を第1の要素と呼ぶことができる。
一部の図は、通信の主要な方向を示すために通信経路上に矢印を含んでいるが、通信は、描かれた矢印と反対の方向で発生することがあることを理解されたい。
一部の例は、ブロック図および動作フローチャートに関して説明されており、各ブロックは、指定された論理機能(複数可)を実装するための1つ以上の実行可能な命令を含む回路要素、モジュール、またはコードの一部を表す。他の実装形態では、ブロックに記載されている機能(複数可)が記載されている順序とは異なる順序で発生し得ることにも留意されたい。例えば、連続して示されている2つのブロックは、実際、実質的に同時に実行されることがあるか、またはブロックは、伴う機能に応じて、時には逆の順序で実行されることがある。
本明細書における「一例による」または「一例における」への言及は、例に関して説明される特定の特徴、構造、または特性が、本原理の少なくとも1つの実装形態に含まれ得ることを意味する。本明細書の様々な場所での一例による」または「一例における」という語句の出現は、必ずしも全て同じ例を指しているわけではなく、別個のまたは代替的な例が他の例を必ずしも相互に排除しているわけでもない。
特許請求の範囲に現れる参照番号は、例示としてのみであり、特許請求の範囲の範囲に限定的な影響を与えないものとする。明示的には説明されていないが、本例および変形態は、任意の組み合わせまたは部分的な組み合わせで用いられてもよい。
本開示の非限定的な実施形態によれば、3Dシーンの点の深度を表すデータを符号化および復号する方法およびデバイスが本明細書に提示される。本原理によれば、3Dシーン内の点の深度は、この点と、本明細書では第1の点または射影の中心と呼ばれる所与の点との間の距離(例えば、デカルト基準フレームにおけるユークリッド距離)である。符号化する3Dシーンの一部が、射影の中心に対して画像平面に射影される。中心射影演算は、マッピング演算、例えば、球体マッピング射影(正距円筒射影(ERP)もしくはカッシーニ射影もしくは正弦曲線射影)または(立方体の面の様々なレイアウトによる)キューブマッピング射影またはピラミッド形マッピング射影に関連して使用される。本開示のコンテキストでは、深度データは、量子化され、画像データとして、すなわち、2D行列、ピクセルの配列として記憶される。このような画像は圧縮され、デコーダに送信されて解凍される。
点P0が、画像平面に射影され、その深度が、(すなわち、浮動小数点値で表される)実数として記憶される。量子化は、入力を、値の連続するまたは他の大きいセット(実数など)から、典型的には0とnとの間の整数の区間などの離散セットに制約するプロセスである。したがって、量子化する値の数がnよりも大きい場合、量子化によって精度が失われる。符号化時に、距離d0は、量子化関数に従って値v0として量子化され、復号時に、値v0は、逆量子化関数に従って距離d1に逆量子化される。次に、点P1が、射影の中心から距離D1において逆射影される。
圧縮-解凍演算により、量子化値にいくつかの誤差が発生する。量子化値v0は、圧縮-解凍後に、v0-δとv0+δとの間の値v2をボールト(vault)する場合があり、ここで、例えば、δ=1または2または10である。この値v2は、逆量子化関数に従って距離d2において逆量子化される。したがって、点P1の代わりに、点P2は、射影の中心のそばを通る同じ線上で、射影の中心から距離d2において逆射影される。誤差(d1-d2)は、量子化関数に依存する。また、P1とP2との間の位置の誤差は、それらがそこから観察される視点Aの位置に応じて異なって知覚される。実際、角度
Figure 2022525100000002
は、Aから見られたP1とP2との間の位置の差を決定する。例えば、人間の視力と呼ばれる角度γ=0.5’(0.5分角)未満では、人間の目は、3D空間内の2つの異なる点を区別できないことが知られている。
本原理の非限定的な実施形態によれば、3Dシーンの点と3Dシーン内の第1の点との間の距離を表すデータが、データストリーム内に符号化される。これらの深度データは、第2の点、所与の角度、および誤差値に従って定義される量子化関数を使用することによって量子化され、その結果、2つの量子化値間の誤差値の差は、上記第2の点において上記所与の角度よりも低い誤差角度につながる。深度データは、点P1と射影の中心との間の距離を表す。圧縮前の点Pの深度データの量子化値と、解凍後の同じデータの量子化値との間の誤差値の差(例えば、1、3、または7の差)は、異なる距離におけるこのデータの逆射影につながり、点P2を射影の中心に対してより遠くにまたはより近くに設定する。所与の点Aにおける誤差角度は、量子化値の誤差値のために、この所与の点において形成される角度
Figure 2022525100000003
である。本原理によれば、量子化関数は、3Dシーン内の所与の第2の点について、量子化値の誤差が、誤差値と呼ばれる所与レベルであるとき、誤差角度が、(予想される精度に従って選択された)所与の角度を超えないことを保証するように決定される。
図1は、オブジェクトの3次元(3D)モデル10、および3Dモデル10に対応するポイントクラウド11の点を示す。3Dモデル10およびポイントクラウド11は、例えば、他のオブジェクトを含む3Dシーンのオブジェクトの可能な3D表現に対応し得る。モデル10は3Dメッシュ表現であり得、ポイントクラウド11の点はメッシュの頂点であり得る。ポイントクラウド11の点はまた、メッシュの面の表面上に分散する点でもあり得る。モデル10は、ポイントクラウド11のスプラッティングバージョンとしても表され得、モデル10の表面は、ポイントクラウド11の点をスプラッティングすることによって作成される。モデル10は、ボクセルまたはスプラインなど、多数の様々な表現で表すことができる。図1は、ポイントクラウドが3Dオブジェクトの表面表現で定義され得、3Dオブジェクトの表面表現がクラウドの点から生成され得ることを示している。本明細書で使用される場合、(3Dシーンの拡張点により)3Dオブジェクトの点を画像に射影することは、この3Dオブジェクトの任意の表現、例えばポイントクラウド、メッシュ、スプラインモデルまたはボクセルモデルを射影することと同等である。
ポイントクラウドは、例えば、ベクトルベースの構造としてメモリ内で表すことができ、各点は、視点の基準フレーム内のそれ自体の座標(例えば、3次元座標XYZ、または視点から/への立体角および距離(深度と呼ばれる))と、成分とも呼ばれる1つ以上の属性とを有する。成分の例は、様々な色空間内で、例えばRGB(赤、緑、および青)またはYUV(Yはルマ成分であり、UVは2つのクロミナンス成分である)で表すことができる色成分である。ポイントクラウドは、オブジェクトを含む3Dシーンの表現である。3Dシーンは、所与の視点または視点の範囲から見ることができる。ポイントクラウドは、次のような様々な方法によって取得することができる。
・任意選択で深度能動感知デバイスによって補完された、カメラ装置によって撮影される実際のオブジェクトのキャプチャから、
・モデル化ツール内の仮想カメラ装置によって撮影される仮想/合成オブジェクトのキャプチャから、
・実際のオブジェクトと仮想オブジェクトの両方の混合から。
図2は、一連の3Dシーンを表すデータの符号化、送信、および復号の非限定的な例を示す。符号化フォーマットは、例えば、同時に、3DoF、3DoF+、および6DoF復号と互換性があり得る。
一連の3Dシーン20が取得される。一連のピクチャは2Dビデオであるため、一連の3Dシーンは、3D(ボリュメトリックとも呼ばれる)ビデオである。一連の3Dシーンは、3DoF、3DoF+、または6DoFのレンダリングおよび表示のために、ボリュメトリックビデオレンダリングデバイスに提供され得る。
一連の3Dシーン20は、エンコーダ21に提供される。エンコーダ21は、1つの3Dシーンまたは一連の3Dシーンを入力として受け取り、入力を表すビットストリームを提供する。ビットストリームは、メモリ22および/または電子データ媒体に記憶され得、ネットワーク22を介して送信され得る。一連の3Dシーンを表すビットストリームは、メモリ22から読み取られ、および/またはデコーダ23によってネットワーク22から受信され得る。デコーダ23は、上記ビットストリームによって入力され、例えばポイントクラウドフォーマットで、一連の3Dシーンを提供する。
エンコーダ21は、いくつかのステップを実装するいくつかの回路を備え得る。第1のステップでは、エンコーダ21が、各3Dシーンを少なくとも1つの2Dピクチャに射影する。3D射影は、3次元の点を2次元の平面にマッピングする任意の方法である。グラフィカルデータを表示するための現在のほとんどの方法は、平面(複数のビットプレーンからのピクセル情報)の2次元媒体に基づいているため、このタイプの射影の使用は、特にコンピュータグラフィックス、エンジニアリング、および製図において広く使用されている。射影回路211は、一連の3Dシーン20のために少なくとも1つの2次元フレーム2111を提供する。フレーム2111は、フレーム2111に射影された3Dシーンを表す深度情報を含む。変形態では、3Dシーンの点の色情報を表す色情報も射影され、フレーム2111のピクセルに記憶される。別の変形態では、色および深度の情報は、2つの別個のフレーム2111および2112内に符号化される。例えば、図1の3Dシーン10の点は、深度情報のみを含む。モデルにテクスチャは添付されておらず、3Dシーンの点には色成分がない。いずれの場合も、深度情報は、3Dシーンの表現で符号化される必要がある。
メタデータ212は、射影回路211によって使用および更新される。メタデータ212は、図5~7に関連して説明されるように、射影演算に関する情報(例えば、射影パラメータ)、ならびに色および深度情報がフレーム2111および2112内で編成される方法に関する情報を含む。本原理によれば、メタデータは、深度情報を符号化するために使用される逆量子化関数を表す情報を含む。
ビデオ符号化回路213は、一連のフレーム2111および2112をビデオとして符号化する。3Dシーン2111および2112のピクチャ(または3Dシーンの一連のピクチャ)は、ビデオエンコーダ213によってストリーム内に符号化される。次に、ビデオデータおよびメタデータ212は、データカプセル化回路214によってデータストリーム内にカプセル化される。
エンコーダ213は、例えば、以下のようなエンコーダに準拠している。
-JPEG、仕様ISO/CEI 10918-1 UIT-T勧告T.81、https://www.itu.int/rec/T-REC-T.81/en、
-AVC、別名MPEG-4 AVCまたはh264。UIT-T H.264とISO/CEI MPEG-4 Part 10(ISO/CEI 14496-10)の両方において指定、http://www.itu.int/rec/T-REC-H.264/en、HEVC(その仕様は、ITU Webサイト、T勧告、Hシリーズ、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/enに見出される)、
-3D-HEVC(HEVCの拡張であり、この仕様は、ITUウェブサイト、T勧告、Hシリーズ、h265、http://www.itu.int/rec/T-REC-H.265-201612-I/en附属書GおよびIに見出される)、
-Googleによって開発されたVP9、あるいは
-Alliance for Open Mediaによって開発されたAV1(AOMedia Video 1)。
データストリームは、デコーダ23によって、例えばネットワーク22を介してアクセス可能なメモリに記憶される。デコーダ23は、復号の様々なステップを実装する様々な回路を備える。デコーダ23は、エンコーダ21によって生成されたデータストリームを入力として受け取り、ヘッドマウントデバイス(HMD)のようなボリュメトリックビデオ表示デバイスによってレンダリングおよび表示される一連の3Dシーン24を提供する。デコーダ23は、ソース22からストリームを取得する。例えば、ソース22は、以下を含むセットに属する。
-ローカルメモリ、例えばビデオメモリまたはRAM(もしくは、ランダムアクセスメモリ)、フラッシュメモリ、ROM(または、読み取り専用メモリ)、ハードディスク、
-ストレージインターフェース、例えば大容量ストレージ、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、
-通信インターフェース、例えば有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)またはワイヤレスインターフェース(IEEE802.11インターフェースもしくはBluetooth(登録商標)インターフェースなど)、および
-ユーザがデータを入力することを可能にするグラフィカルユーザインターフェースなどのユーザインターフェース。
デコーダ23は、データストリーム内に符号化されたデータを抽出するための回路234を備える。回路234は、データストリームを入力として受け取り、ストリーム内に符号化されたメタデータ212に対応するメタデータ232および2次元ビデオを提供する。本原理によれば、メタデータ232は、3Dシーンの点の深度を取り出すために使用する逆量子化関数を表す情報を含む。本開示のコンテキストでは、点の深度は、逆射影する点と射影の中心との間の距離に対応する。射影の中心の座標は、メタデータ232に含まれるか、またはデフォルトで、例えば、3Dシーンの3D空間の基準フレームの原点において定義される。ビデオは、ビデオデコーダ233によって復号され、ビデオデコーダ233は一連のフレームを提供する。復号されたフレームは深度情報を含む。圧縮-解凍プロセスにより、復号後の深度の量子化値は、符号化時の深度の量子化値と異なる場合がある。変形態では、復号されたフレームは、深度情報および色情報を含む。別の変形態では、ビデオデコーダ233は、フレームの2つのシーケンスを提供し、1つは色情報を含み、もう1つは深度情報を含む。回路231は、メタデータ232を使用して、逆量子化関数を取り出し、深度情報を逆射影し、最終的に、復号されたフレームから色情報を逆射影して、一連の3Dシーン24を提供する。一連の3Dシーン24は、一連の3Dシーン20に対応し、2Dビデオとしての符号化およびビデオ圧縮に関連して精度が失われる可能性がある。復号されたシーケンス24の3Dシーンは、3Dシーンをビューポートの画像平面に射影することによって、現在の視点からレンダリングされる。
図3は、図8および9に関連して説明される方法を実装するように構成することができるデバイス30の例示的なアーキテクチャを示す。図2のエンコーダ21および/またはデコーダ23は、このアーキテクチャを実装することができる。あるいは、エンコーダ21および/またはデコーダ23の各回路は、例えば、それらのバス31を介しておよび/またはI/Oインターフェース36を介して互いにリンクされた、図3のアーキテクチャによるデバイスであり得る。
デバイス30は、データおよびアドレスバス31によって互いにリンクされた以下の要素を備える。
-例えば、DSP(またはデジタル信号プロセッサ)である、マイクロプロセッサ32(またはCPU)、
-ROM(または読み取り専用メモリ)33、
-RAM(またはランダムアクセスメモリ)34、
-ストレージインターフェース35、
-アプリケーションから送信されるデータを受信するI/Oインターフェース36、および
-電源、例えばバッテリ。
一例によれば、電源はデバイスの外部にある。上記メモリの各メモリでは、本明細書において使用される単語「register(レジスタ)」は、小容量のエリア(いくつかのビット)または非常に大きいエリア(例えば、プログラム全体もしくは大量の受信データもしくは復号データ)に対応することができる。ROM33は、少なくともプログラムおよびパラメータを含む。ROM33は、本原理による技術を実行するためのアルゴリズムおよび命令を記憶し得る。オンに切り替わると、CPU32は、RAM内にプログラムをアップロードして、対応する命令を実行する。
RAM34は、レジスタに、CPU32により実行され、デバイス30がオンに切り替わった後にアップロードされるプログラムを含み、入力データをレジスタに含み、方法の異なる状態の中間データをレジスタに含み、方法を実行するために使用される他の変数をレジスタに含む。
本明細書で説明される実装形態は、例えば、方法もしくはプロセス、装置、コンピュータプログラム製品、データストリーム、または信号で実装することができる。(例えば、方法またはデバイスとしてのみ考察された)単一の形態の実装形態の場合でのみ考察されたとしても、考察された機能の実装形態は他の形態(例えば、プログラム)でも実装され得る。装置は、例えば適切なハードウェア、ソフトウェア、およびファームウェアで実装することができる。これらの方法は、例えば、装置に実装することができ、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む、一般に、処理デバイスを指す、例えば、プロセッサなどに実装することができる。プロセッサは、通信デバイス、例えば、コンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタンス(「PDA」)、およびエンドユーザ間の情報の通信を容易にする他のデバイスなども含む。
例によれば、デバイス30は、図8および9に関連して説明される方法を実装するように構成され、以下を含むセットに属する。
--モバイルデバイス、
--通信デバイス、
--ゲームデバイス、
--タブレット(または、タブレットコンピュータ)、
--ラップトップ、
--静止画カメラ、
--ビデオカメラ、
--符号化チップ、
--サーバ(例えば、ブロードキャストサーバ、ビデオオンデマンドサーバ、またはウェブサーバ)。
図4は、データがパケットベース送信プロトコルを介して送信されるときのストリームのシンタックスの一実施形態の例を示す。図4は、ボリュメトリックビデオストリームの例示的な構造4を示している。構造は、ストリームを個別のシンタックス要素に編成するコンテナ内に存在する。この構造は、ストリームのあらゆるシンタックス要素に共通するデータのセットであるヘッダ部41を含むことができる。例えば、ヘッダ部は、シンタックス要素に関するメタデータの一部を含み、それらの各々の性質および役割を記述している。ヘッダ部分はまた、図2のメタデータ212の一部、例えば、3Dシーンの点をフレーム2111および2112に射影するために使用される中心視点の座標を含み得る。構造は、シンタックス42の要素とシンタックス43の少なくとも1つの要素とを含むペイロードを含む。シンタックス要素42は、色および深度フレームを表すデータを含む。画像は、ビデオ圧縮方法に従って圧縮されている可能性がある。
シンタックス43の要素は、データストリームのペイロードの一部であり、シンタックス42の要素のフレームがどのように符号化されるかに関するメタデータ、例えば、3Dシーンの点をフレームに射影およびパッキングするために使用されるパラメータを含み得る。このようなメタデータは、ビデオの各フレームに、またはフレームのグループ(ビデオ圧縮規格ではピクチャのグループ(GoP)としても知られている)に関連付けることができる。
図5は、中心の視点50からの球形射影を示している。図5の例では、3Dシーンは、3つのオブジェクト52、53、および54を含む。オブジェクト52の点は、視点50に従って、前側および裏側を備えた表面を形成する。オブジェクト42の裏側の点は、視点50からは見えない。オブジェクト53および54の点は、視点50に従って、前面を備えた表面を形成する。オブジェクト53の点は、視点50から見えるが、オブジェクト53の表面による掩蔽のために、オブジェクト54の点の一部のみが視点から見える。したがって、球面射影(正距円筒射影ERP)は、3Dシーンのあらゆる点をフレームに射影するわけではない。透視射影や正射影のような、他の多くのタイプの射影を使用できる。例えば、視点50から見えるポイントクラウドの点は、射影方法に従って射影マップ51に射影される。図5の例では、射影方法は球形射影、例えば緯度/経度の射影または正距円筒射影(別名ERP)であるため、射影マップは、図5では球体51として表される。変形態では、射影方法は、キューブ射影方法、ピラミッド形射影方法、または視点50を中心とする任意の射影方法である。オブジェクト52の前側の点は、射影マップの領域55内に射影される。オブジェクト52の裏側の点は、視点50からは見えないので、射影されていない。オブジェクト53のあらゆる点が、視点50から見ることができる。それらは、射影方法に従って、射影マップ51の領域56に射影される。一実施形態では、オブジェクト54の点の一部のみが、視点50から見える。オブジェクト54の見える点は、射影マップ51の領域57に射影される。射影マップ51のピクセルに記憶された情報は、3Dシーン内の射影された点と射影の中心50との間の距離に対応する。変形態では、射影された点の色成分も、射影マップ51のピクセルに記憶される。
図6は、本原理の非限定的な実施形態による、射影の中心(別名、第1の点)から見える3Dシーンの点の深度情報を含む射影マップ60の例を示す。図6の例では、3Dシーンの点が射影の中心から遠いほど、画像60内のピクセルはより明るくなる。画像60のピクセルに記憶される距離は、灰色のレベル、すなわち、0とN=2n-1との間の区間に属する整数で量子化され、nは、符号化ビット深度(すなわち、整数値の符号化に使用されるビット数であり、典型的にはHEVCコーデックの場合は8、10、または12)である。図6の例では、深度は10ビットでコード化されているため、ピクセルには0と1023との間の値が記憶される。深度情報は、例えば図6の例では、zmin=0.5メートルからzmax=28メートルになる。1024個を超える異なる距離があり、実数値を離散値に変換するには量子化関数を使用する必要がある。以下のアフィン変換の式1または逆関数の式2は、深度の実数値zを量子化するための可能な量子化関数である。
Figure 2022525100000004
Figure 2022525100000005
しかしながら、そのような量子化は、知覚的に一貫しておらず、むしろ、zminおよびzmaxに本質的に依存してシーン駆動される。
図7は、3Dシーン内の第2の視点に従って量子化誤差がどのように認識されるかを示す。図7の例では、点71が射影マップの画像平面に射影されている。球体72は、3DoF+シナリオのコンテキストにおいてユーザが3Dシーンをそれから見ることができる、ビューイングバウンディングボックスとも呼ばれるビューイングゾーンを表す。球体72はまた、射影マップを表し得る。点71と第1の点73(すなわち、射影の中心)との間の距離74(我々はzと呼ぶ)は、量子化関数fによって量子化され、量子化値vが、射影マップのピクセルに記憶される。射影マップは、図2に示すように、画像コーデックによって圧縮され、復号側において解凍される。値vは、この圧縮-解凍プロセスによって、例えば+または-1、5、または8だけ、値v’へとシフトされている可能性がある。第1の点73と逆射影された点76との間の距離は、値ν’に逆量子化関数を適用することによって決定される。距離74と、点76と点73との間の距離との間のデルタ75は、圧縮誤差によるものである。デルタ75は、逆量子化関数に依存しているため、量子化関数に依存する。第1の点73から観察すると、デルタ75は、点76と、逆射影された点を囲んでいるその隣接点との関係においてのみ知覚できる。しかしながら、別の視点ゾーン、例えば点77から観察すると、デルタ75は、点71の位置と点76の位置との間のこのデルタが、点77を指す角度78を形成するので、それ自体で知覚される。角度78が大きいほど、圧縮誤差によって生成される視覚的アーティファクトはより大きくなる。角度78は、点77における誤差角度と呼ばれる。
本原理によれば、量子化関数は、3D空間内の第2の点について角度78を事前決定角度γよりも低く保つために選択され、パラメータ化される。例えば、第2の点77または79が、3Dシーンの所与の3DoF+レンダリング用に定義されたビューイングゾーン内で選択される。例えば、角度γは、約0.5分角の既知の人間の視力に対応する値に設定される。角度γは、予想される圧縮誤差レベルに対する量子化の予想されるロバスト性に応じて、任意の角度値に設定され得る。このコンテキストでは、ビューイングゾーン内のユーザの場所に応じて、本明細書ではΦ(z)と呼ばれる、関連する誤差角度78は、ユーザが射影の中心に立つときはヌルになる可能性があるが、彼が点Aに立つときはより大幅に大きくなる可能性がある。図7の例では、ビューイングゾーンは球体であり、Φ(z)の最大値は、バウンディング球体の前縁上の点において取得されることが示され得る。このプロパティは、ゾーンに制約のあるビューイング点の場合(すなわち3DoF+レンダリング)、ユーザがビューイングゾーン内で視覚的アーティファクトを経験するのを防ぐ専用の深度量子化法則(すなわち関数)を設計するために重要である。我々が、ビューイングゾーン上でΦmax(z)、Φ(z)の最大値を呼び出した場合、量子化法則は、関連する量子化誤差がΦmax(z)=γを強制することを保証するはずであり、ここで、γは、圧縮誤差レベルに対する量子化関数の予想されるロバスト性、例えば、前述の人間の視力のために事前決定された角度である。このような方法を行うことにより、関連する誤差角度が、知覚可能なしきい値よりも低いままであるため、圧縮-解凍プロセスによる量子化誤差がビューイングゾーンから知覚されなくなることが保証される。結果として得られる量子化法則は、事前決定された角度γと、例えばビューイングゾーン内にある、第2の点の座標とにのみ依存する。変形態では、第2の点の座標の代わりに、量子化関数は、第1の点からの距離に依存し得る。これは、第1の点を中心とする球体上の任意の点、例えば図7の点79に従って量子化関数を定義することと同等である。
そのような量子化法則は、最適な位置(Φ(z)=Φmax(z))において分析的に扱いにくいが、量子化離散テーブルが数値的に取得され得る。例えば、点79における誤差角度が、1の値誤差の場合に事前決定された角度γよりも小さくなる(すなわち、値vの解凍された値がv+1またはv-1になる)ように強制する量子化関数のための良好な近似は、射影73の中心から距離Rにある点79について、式3によって取得できる。
Figure 2022525100000006
ここで、Kは、事前決定された最大深度値に対してqP(z)=0となるように設定された定数である。これらの基準に従う量子化関数の定義は、コンテキストに依存する。第2の点のための良い候補を見つけることは、ビューイングゾーンの形状およびサイズに依存する。選択された関数は、図7の例におけるように、常に扱いやすいとは限らない。言い換えると、パラメータ化可能な関数は、エンコーダおよびデコーダによって知られている必要があり、エンコーダにおける選択されたパラメータは、復号側において取り出されるために、フォーマッティングされたストリーム内の3Dシーンに関連付けられたメタデータ内に符号化される必要がある。別の実施形態では、逆量子化関数に応答するルックアップテーブル(LUT)が、エンコーダにおいて構築され、3Dシーンを表す画像に関連付けられたメタデータ内に符号化される。ルックアップテーブルは、量子化値の区間のあらゆる値を距離の実数値に関連付ける情報である。この実施形態は、逆量子化関数がデコーダによって事前に知られる必要がないという利点を有する。デコーダは、ストリームからLUTを抽出し、このLUTを使用して、量子化された深度から実数の深度を取り出す。量子化関数は、(上記で定義した)第2の点における誤差角度が、値誤差eの場合に事前決定された角度γよりも小さくなることを強制するように決定されているため、LUTとして符号化された逆量子化関数も、同じ基準を強制する。
3DoF+レンダリングシナリオのための3Dシーンまたは一連の3Dシーンの符号化および復号のコンテキストでは、本原理は、シナリオのビューイングゾーン内のビューの任意の視点に対して、事前決定されたレベルよりも低い、例えば、人間の視力よりも低い知覚量子化誤差を保証するという利点を有する。
図8は、本原理の非限定的な実施形態による3Dシーンの点の深度を表すデータを符号化する方法を示す。ステップ81において、深度データをソースから取得し、第2の点、所与の角度、および誤差値に従って決定される量子化関数を使用することによって量子化し、その結果、2つの量子化値間の上記誤差値の差は、第2の点において所与の角度よりも低い誤差角度につながる。深度データを、量子化し、画像またはビデオコーデックで圧縮された画像のピクセルに記憶する。ステップ82において、圧縮された画像を、量子化関数の逆関数を表すメタデータに関連してデータストリーム内に符号化する。一実施形態では、逆量子化関数は、エンコーダとデコーダの両方によって知られているパラメータ化された関数である。この実施形態では、メタデータは、角度および/または誤差値および/または第2の点の座標、もしくは第1の点と第2の点との間の距離を含む。これらのメタデータは、デコーダによって事前決定され、事前に認識されている場合は任意選択である。別の実施形態では、あらゆる可能な量子化値を、量子化関数によって決定された距離に関連付けるルックアップテーブルが生成され、圧縮された画像に関連してデータストリーム内に符号化される。
図9は、3Dシーンの点と3Dシーン内の第1の点との間の距離を表すデータを復号する方法を示す。ステップ91において、3Dシーンのジオメトリを表すデータを符号化するデータストリームをストリームから取得する。圧縮画像と、逆量子化関数を表すメタデータとを、データストリームから抽出する。画像を解凍する。ステップ92において、量子化値を逆量子化関数に適用することによって、解凍された画像のピクセルに含まれる深度情報の実数値を取り出す。3Dシーンの点は逆射影され、すなわち、画像内のピクセルの座標と、画像の生成に使用される射影演算とに従って決定された方向において、第1の点からの逆量子化された距離に設定される。一実施形態では、逆量子化関数は、エンコーダとデコーダの両方によって知られているパラメータ化された関数である。メタデータは、関数を初期化するために必要なパラメータ、すなわち、角度および/または誤差値および/または第2の点の座標、もしくは第1の点と第2の点との間の距離を含む。これらのメタデータは、デコーダによって事前決定され、事前に認識されている場合は任意選択である。別の実施形態では、逆量子化関数は、メタデータ内にルックアップテーブルとして符号化される。距離の実数値は、ピクセルに記憶された量子化値に従って、このルックアップテーブルから直接取り出される。
本明細書で説明される実装形態は、例えば、方法もしくはプロセス、装置、コンピュータプログラム製品、データストリーム、または信号で実装することができる。(例えば、方法またはデバイスとしてのみ考察された)単一の形態の実装形態の場合でのみ考察されたとしても、考察された機能の実装形態は他の形態(例えば、プログラム)でも実装され得る。装置は、例えば適切なハードウェア、ソフトウェア、およびファームウェアで実装することができる。これらの方法は、例えば、装置に実装することができ、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む、一般に、処理デバイスを指す、例えば、プロセッサなどに実装することができる。プロセッサは、例えばスマートフォン、タブレット、コンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタント(「PDA」)、およびエンドユーザ間の情報の伝達を容易にする他のデバイスのような通信デバイスも含む。
本明細書で説明される様々なプロセスおよび特徴の実装形態は、多種多様な異なる機器または用途において具体化することができる、具体的には、例えばデータ符号化、データ復号、ビュー生成、テクスチャ処理、および他の画像処理、ならびに関連するテクスチャ情報および/または深度情報に関連付けられる機器または用途において具体化することができる。このような機器の例は、符号化器、復号器、復号器からの出力を処理するポストプロセッサ、入力を符号化器に供給するプリプロセッサ、ビデオ符号化器、ビデオ復号器、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、および他の通信デバイスを含む。明らかであるはずであるように、機器は、可搬式とすることができ、移動車両にさえ搭載することができる。
また、方法は、プロセッサにより実行される命令で実装することができ、このような命令(および/または、実装形態により生成されるデータ値)は、例えば集積回路、ソフトウェア担体のようなプロセッサ可読媒体に記憶する、または例えば、ハードディスク、コンパクトディスケット(「CD」)、光ディスク(例えば、デジタル多用途ディスク(digital versatile disc)またはデジタルビデオディスク(digital video disc)と表記される場合が多いDVDのような)、ランダムアクセスメモリ(「RAM」)、またはリードオンリーメモリ(「ROM」)のような他のストレージデバイスに記憶することができる。命令は、プロセッサ可読媒体に有形に具現化されるアプリケーションプログラムを形成することができる。命令は、例えばハードウェア、ファームウェア、ソフトウェア、または組み合わせで行うことができる。命令は、例えば、オペレーティングシステム、個別アプリケーション、または2つの組み合わせに見出すことができる。したがって、プロセッサは、例えば、処理を実行するように構成されたデバイス、および処理を実行する命令を有するプロセッサ可読媒体(記憶デバイスなど)を含むデバイスの両方として特徴付けることができる。さらに、プロセッサ可読媒体は、命令に加えて、または命令の代わりに、実装形態により生成されるデータ値を記憶することができる。
当業者には明らかであるように、実装形態は、情報を搬送するようにフォーマット化される多種多様な信号を生成することができ、この情報は、例えば、記憶または送信することができる。情報は、例えば、方法を実行する命令、または説明される実装形態のうちの1つにより生成されるデータを含むことができる。例えば、信号は、データとして、説明される実施形態のシンタックスを書き込む、または読み出すルールを伝達するようにフォーマットすることができる、またはデータとして、説明される実施形態より記述された実際のシンタックス値を伝達するようにフォーマットすることができる。このような信号は、例えば電磁波としてフォーマットする(例えば、スペクトルの無線周波数部分を使用して)ことができる、またはベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、搬送波を符号化データストリームで変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報またはデジタル情報とすることができる。信号は、既知のように、多種多様な異なる有線リンクまたは無線リンクを介して送信され得る。信号は、プロセッサ可読媒体に記憶されてもよい。
多数の実装形態が説明されてきた。それにもかかわらず、様々な変更を行うことができることが理解されよう。例えば、異なる実装形態の要素は、他の実装形態を生成するために組み合わせる、補足する、変更する、または削除することができる。また、当業者であれば、他の構造および処理を、開示される構造および処理に替えて用いることができ、結果として得られる実装形態が、少なくとも実質的に同じ機能(複数可)を、少なくとも実質的に同じ方法(複数可)で実行して、開示される実装形態として少なくとも実質的に同じ結果(複数可)を達成することを理解するであろう。したがって、これらの実装形態および他の実装形態は、本出願により想到される。

Claims (23)

  1. 第3の点(77、79)、所与の角度、および誤差値によって定義される量子化関数を使用することにより、第1の点と第2の点との間の距離を表す値を量子化することと、
    前記量子化関数を表すメタデータ(43)に関連付けられた量子化値(42)を、データストリーム(4)において符号化することと、を含む方法。
  2. 前記量子化関数は、前記量子化値と前記誤差値との合計の逆量子化が第4の点を生成するように、かつ角度第4の点、前記第3の点、前記第2の点が前記所与の角度以下になるように定義される、請求項1に記載の方法。
  3. 前記メタデータが、前記所与の角度および前記第3の点の座標、または前記第1の点と前記第3の点との間の距離を含む、請求項1または2に記載の方法。
  4. 前記メタデータが、前記量子化関数の逆関数に応答するルックアップテーブルを含む、請求項1または2に記載の方法。
  5. 前記第1の点および前記第3の点が、所与のゾーンに属し、前記第3の点が、前記所与の角度を最大化するように選択される、請求項2~4の一項に記載の方法。
  6. 前記所与の角度が人間の視力の測度に対応する、および/または前記誤差値が1に等しい、請求項1~5の一項に記載の方法。
  7. プロセッサ(32)を備えるデバイス(30)であって、前記プロセッサ(32)が、
    第3の点(77、79)、所与の角度、および誤差値によって定義される量子化関数を使用することにより、第1の点と第2の点との間の距離を表す値を量子化することと、
    前記量子化関数を表すメタデータ(43)に関連付けられた量子化値(42)を、データストリーム(4)において符号化することと、を行うように構成された、デバイス。
  8. 前記量子化関数は、前記量子化値と前記誤差値との合計の逆量子化が第4の点を生成するように、かつ角度第4の点、前記第3の点、前記第2の点が前記所与の角度以下になるように定義される、請求項7に記載のデバイス。
  9. 前記メタデータが、前記所与の角度および前記第3の点の座標、または前記第1の点と前記第3の点との間の距離を含む、請求項7または8に記載のデバイス。
  10. 前記メタデータが、前記量子化関数の逆関数に応答するルックアップテーブルを含む、請求項7または8に記載のデバイス。
  11. 前記第1の点および前記第3の点が、所与のゾーンに属し、前記第3の点が、前記所与の角度を最大化するように選択される、請求項8~10の一項に記載のデバイス。
  12. 前記所与の角度が人間の視力の測度に対応する、および/または前記誤差値が1に等しい、請求項7~11の一項に記載のデバイス。
  13. データストリーム(4)から、量子化値(42)と、量子化関数を表す関連するメタデータ(43)とを復号することであって、前記量子化関数が、第3の点(77、79)、所与の角度、および誤差値によって定義される、復号することと、
    前記量子化関数の逆関数に従って、前記量子化値を逆量子化することと、を含む、方法。
  14. 前記量子化関数は、前記量子化値と前記誤差値との合計の逆量子化が第4の点を生成するように、かつ角度第4の点、前記第3の点、第2の点が前記所与の角度以下になるように定義される、請求項13に記載の方法。
  15. 前記メタデータが、前記所与の角度および前記第3の点の座標、または第1の点と前記第3の点との間の距離を含む、請求項13または14に記載の方法。
  16. 前記メタデータが、前記量子化関数の逆関数に応答するルックアップテーブルを含む、請求項13または14に記載の方法。
  17. プロセッサを備えるデバイスであって、前記プロセッサが、
    データストリーム(4)から、量子化値(42)と、量子化関数を表す関連するメタデータ(43)とを復号することであって、前記量子化関数が、第3の点(77、79)、所与の角度、および誤差値によって定義される、復号することと、
    前記量子化関数の逆関数に従って、前記量子化値を逆量子化することと、を行うように構成された、デバイス。
  18. 前記量子化関数は、前記量子化値と前記誤差値との合計の逆量子化が第4の点を生成するように、かつ角度第4の点、前記第3の点、第2の点が前記所与の角度以下になるように定義される、請求項17に記載のデバイス。
  19. 前記メタデータが、前記所与の角度および前記第3の点の座標、または第1の点と前記第3の点との間の距離を含む、請求項17または18に記載のデバイス。
  20. 前記メタデータが、前記量子化関数の逆関数に応答するルックアップテーブルを含む、請求項17または18に記載のデバイス。
  21. 第1の点と第2の点との間の距離を表す値であって、前記値が、第3の点(77、79)、所与の角度、および誤差値によって定義される量子化関数によって量子化される、値と、
    前記量子化関数を表すメタデータと、を含むデータストリーム。
  22. 前記メタデータが、前記所与の角度および前記第3の点の座標、または前記第1の点と前記第3の点との間の距離を含む、請求項21に記載のデータストリーム。
  23. 前記メタデータが、前記量子化関数の逆関数に応答するルックアップテーブルを含む、請求項21に記載のデータストリーム。
JP2021554675A 2019-03-20 2020-03-17 深度の符号化および復号の方法および装置 Pending JP2022525100A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19305338.6 2019-03-20
EP19305338.6A EP3713237A1 (en) 2019-03-20 2019-03-20 A method and apparatus for depth encoding and decoding
PCT/US2020/023060 WO2020190898A1 (en) 2019-03-20 2020-03-17 A method and apparatus for depth encoding and decoding

Publications (2)

Publication Number Publication Date
JP2022525100A true JP2022525100A (ja) 2022-05-11
JPWO2020190898A5 JPWO2020190898A5 (ja) 2023-03-24

Family

ID=66041381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021554675A Pending JP2022525100A (ja) 2019-03-20 2020-03-17 深度の符号化および復号の方法および装置

Country Status (5)

Country Link
US (1) US20220150543A1 (ja)
EP (2) EP3713237A1 (ja)
JP (1) JP2022525100A (ja)
CN (1) CN113785591A (ja)
WO (1) WO2020190898A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023072296A (ja) * 2021-11-12 2023-05-24 ソニーグループ株式会社 情報処理装置および方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1591963B1 (en) * 2004-04-29 2008-07-09 Mitsubishi Electric Information Technology Centre Europe B.V. Adaptive quantisation of a depth map
US9661328B2 (en) * 2013-03-15 2017-05-23 Arris Enterprises, Inc. Method of bit allocation for image and video compression using perceptual guidance
CN104820981B (zh) * 2015-04-22 2017-10-31 上海交通大学 一种基于视差分层分割的图像立体表示方法及系统
US10553015B2 (en) * 2017-03-31 2020-02-04 Google Llc Implicit view-dependent quantization
EP3432581A1 (en) * 2017-07-21 2019-01-23 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
EP3554074A1 (en) * 2018-04-13 2019-10-16 Thomson Licensing Methods and apparatus for depth encoding and decoding

Also Published As

Publication number Publication date
EP3713237A1 (en) 2020-09-23
US20220150543A1 (en) 2022-05-12
WO2020190898A1 (en) 2020-09-24
EP3942829A1 (en) 2022-01-26
CN113785591A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
US20210195162A1 (en) Method, apparatus and stream for volumetric video format
EP3777154A1 (en) Methods and apparatus for depth encoding and decoding
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
US11968349B2 (en) Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content
KR20220069086A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
US11979546B2 (en) Method and apparatus for encoding and rendering a 3D scene with inpainting patches
US20230042874A1 (en) Volumetric video with auxiliary patches
EP4005202B1 (en) A method and apparatus for delivering a volumetric video content
JP2022525100A (ja) 深度の符号化および復号の方法および装置
KR20220127258A (ko) 뷰-유도 스펙큘러리티를 갖는 볼류메트릭 비디오를 코딩 및 디코딩하기 위한 방법 및 장치
JP2022549431A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
RU2809180C2 (ru) Способ и аппаратура для кодирования и декодирования глубины
US20230224501A1 (en) Different atlas packings for volumetric video
US20220345681A1 (en) Method and apparatus for encoding, transmitting and decoding volumetric video
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
US20220343546A1 (en) Haptic atlas coding and decoding format

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240417