JP7447266B2 - ボリュメトリック画像データに関するビューの符号化及び復号 - Google Patents

ボリュメトリック画像データに関するビューの符号化及び復号 Download PDF

Info

Publication number
JP7447266B2
JP7447266B2 JP2022533618A JP2022533618A JP7447266B2 JP 7447266 B2 JP7447266 B2 JP 7447266B2 JP 2022533618 A JP2022533618 A JP 2022533618A JP 2022533618 A JP2022533618 A JP 2022533618A JP 7447266 B2 JP7447266 B2 JP 7447266B2
Authority
JP
Japan
Prior art keywords
image data
views
volumetric image
available
viewpoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022533618A
Other languages
English (en)
Other versions
JP2023504846A (ja
Inventor
ダイクストラ-ソウダリッサネン,シルヴィー
ヒンドリックス,ヘンドリクス・ナサニエル
トーマス,エマニュエル
Original Assignee
コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
ネダーランゼ・オルガニサティ・フォーア・トゥーゲパスト-ナトゥールヴェテンシャッペリーク・オンデルゾエク・ティーエヌオー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ, ネダーランゼ・オルガニサティ・フォーア・トゥーゲパスト-ナトゥールヴェテンシャッペリーク・オンデルゾエク・ティーエヌオー filed Critical コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
Publication of JP2023504846A publication Critical patent/JP2023504846A/ja
Application granted granted Critical
Publication of JP7447266B2 publication Critical patent/JP7447266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明はボリュメトリック画像データ、例えば点群を符号化するための符号器システム、及び符号化済みのボリュメトリック画像データを復号するための復号器システムに関する。
本発明は、ボリュメトリック画像データを符号化する方法及び符号化済みのボリュメトリック画像データを復号する方法に更に関する。
本発明は、コンピュータシステムがかかる方法を実行することを可能にするコンピュータプログラム製品にも関する。
拡張現実(AR)及び仮想現実(VR)は、生で行われているスポーツのリモート観戦、共有VR及びソーシャルVR、(真剣な)ゲーム及び訓練及び教育等の人を惹きつける、一連の使用事例を提供する。かかる体験は、視聴者が長距離にわたってつながることを可能にする。AR及びVRの両方における真に没入型の体験を得るために、視聴者は6自由度(6DoF)を必要とする。つまり、頭部搭載型のARゴーグル又はVRディスプレイを装着しているとき、視聴者は、自分の頭部を四方八方に動かすときに、即ち、相対的な横(ヨー)軸、交差(ピッチ)軸、及び縦(ロール)軸に沿って回転させることによる向きの変化と組み合わせて、頭部位置を前後(サージ)、上下(ヒーブ)、及び左右(スウェイ)に変えるときに、より一般的には自分の頭部を自分の身体に対してじっとしたままにしておきながらも、自分の頭部を動かすときに環境の変化を体験する。
視聴者が6DoFの体験を得ることができる環境を表し、それによりその環境のレンダリングを可能にするために、ボリュメトリック形式が必要とされる。かかるボリュメトリック形式の一態様は、所与の時間にわたって動的に変化するボリュメトリック環境を表すために作成される、ボリュメトリックビデオ形式である。AR及びVR業界は、その形式に向かって進んでいる。例えば上述の使用事例では、ボリュメトリック捕捉モデルを使用することによって、ユーザの画像をより現実的にすることができる。
ボリュメトリック画像データは、例えば点群(PC)、ボクセル、又はボリュメトリック(多角形)メッシュを含み得る。メッシュは例えばゲーム内の3Dモデルを表すために使用される。点群はボリュメトリックオブジェクトを1組の点として表すために使用することができ、それらの点は、仮想シーン内で使用され得る。点群は(通常非常に大きい)1組の3次元(x,y,z)∈Rの点を使用して3Dデータを表すための方法であり、ここではx,y,zはデカルト座標を通常指すが、他の形式も存在し得る(例えば半径zの球上の角度x、yを有する3D基準点(例えば[0,0,0]))。表されているデータの種類に応じて、それぞれの点は自らに割り当てられる追加の属性(例えば色、反射、表面配向、タイムスタンプ、動き)を有し得る。
点群内の点は、ゼロのボリュームを有すると通常見なされる(換言すれば定められたサイズ/寸法を有さないと通常見なされる)。かかる点を意味があるようにレンダリングするために、複数の技法が文献に記載されている。より自明な方法の1つでは、レンダリングの前に又はレンダリング中に厚さの値が各点に割り当てられる。この厚さを使用し、3Dオブジェクト(例えば非常に小さい球、ボクセル、六角形又は他の形)と共に各点を表すことができ、それによりその点が見えるようになり、背後にある他の点を隠す場合がある。
点群は、一連の測定及び捕捉装置からの出力のための記憶形式としてよく適している。具体的には、赤外線飛行時間(ToF)センサと組み合わせられ同期されるRGBカメラ(例えばMicrosoft Kinect)が、点群として組み合わせられ表現され得る奥行き及び色情報を感知するために一般に使用される。点群の使用をもたらした別の技術はLiDARであり、LiDARは自動運転車及び遠隔感知で主に知られている技術である。
メッシュは、接続された複数の点又は頂点で構成される3D構造である。(平)面を形成するために頂点を接続し閉じることができる。グラフィックスカード(GPU)は、3面又は4面で構成される大きいメッシュの組をレンダリングするために概して最適化される。頂点の数を増やすことによってオブジェクトをよりよく概算することができる。メッシュはプログラムで構築することができ、及び/又は3Dモデリングソフトウェアを使用して定めることができる。メッシュデータを一義的に記憶するための多くの方法もあり、そのため例えば3DS、OBJ、GLTF、及びPLY形式等、この目的のための多くの公開された及び独自仕様の形式がある。
ボクセル又は「ボリュメトリックピクセル」は、ボリュメトリックデータを表すために使用されるデータ構造である。一般に、ボクセルは同様のサイズのセルで構成される3D「ボクセルグリッド」上に定められる。実際には、ボクセルは医療分野、地理空間分野、並びにより広くはコンピュータグラフィックスにおけるアプリケーションを用いて様々なボリュメトリック測定及びサンプリングを表すために使用される。そのため、ボクセルは、MRI、CT、及び超音波スキャン、衛星による測定、及び地形高度マップの表現において一般に見られる。
3Dシーンをレンダリングするとき、通常はユーザが最終的に見ることができる内容(例えばビュー)よりも多く(例えば全シーン)が表される。このことは、ユーザのビューに影響を及ぼさないオブジェクト(の一部)を最初に検出し、次いでそれを無視することによってレンダリング機能を最適化するためにグラフィックスパイプライン内で概して使用される。概してこの種の操作は「カリング」(例えば不所望のオブジェクトの除去)として知られる。カリングの2つの重要な種類は「視錐台カリング」及び「オクルージョンカリング」である。
最も簡単な形のカリングである視錐台カリングは、仮想カメラオブジェクトのビューボリューム内にないオブジェクトを除去する。実際には、(仮想スクリーンが正方形なので)かかるカメラオブジェクトは「近い」面及び「遠い」面(最小及び最大描画距離)を切り落とした四角錐を使用してしばしばモデリングされ、結果として生じるオブジェクトは「錐台」として知られる。視錐台カリングアルゴリズムは、錐台ボリューム内にあるオブジェクトを検出し、他の全てのオブジェクト(の一部)を見ることができないので除去する、つまりカリングすることを含む。
加えて「オクルージョンカリング」は、所与の視点から見えるコンテンツだけを選択するために一般に使用される別の技法である。視聴者の見通し線内の他のオブジェクトによって遮られる全てのオブジェクト(の部分)はレンダリングに関して検討されない。一定の視点からのシーン内のオクルージョンの検出はコンピュータグラフィックスにおいてよく知られている問題であり、一定の視点を所与としてシーン内のどの面(の部分)が見えないのか(従ってレンダリングアルゴリズムの出力に影響を及ぼすことなしに除去できるのか)を突き止める問題である、より一般的な「隠面問題」(及びその類似物である「可視表面問題」)を解決しようと試みる多くのアルゴリズムが開発されている。このトピックに関して膨大な数の文献が入手可能であり、かかるアルゴリズムの実装が現在の最新式のシステム内に存在する。
レンダリングエンジン(Unity及びUnrealゲームエンジン等)は、レンダリング段階の前にオクルージョンカリングメカニズムをしばしば提供する。オクルージョンカリングプロセスは1組の仮想カメラによってシーンに目を通し、各仮想カメラの視点からのシーンの可視部分を明らかにする。可視オブジェクトだけが最終的にレンダリングされる。オクルージョンカリングプロセスは、コンテンツレンダリング中の計算時間の殆どを占める。
レンダリングのためにレンダリングシステムに与えられるボリュメトリック画像データ、例えば点群が大きければ大きいほど、(カリングを含む)より多くの処理を行う必要がある。このことは、レンダリングシステムにおいて多くの計算時間が取られることを引き起こす。従って、レンダリングのためにレンダリングシステムに与えられるボリュメトリック画像データのサイズを、可能な限り減らすことが望ましい。
CesiumJS及びCesium ionを含む3D地理空間データ用のCesiumプラットフォームがCesiumと呼ばれる会社によって開発されている。このプラットフォームは、レンダリングのためにレンダリングシステムに与えられるボリュメトリック画像データのサイズをやはり減らす技法を提供する。これを実現するためにCesiumプラットフォームは3Dタイルを使用する。Cesiumタイルは文字通りの空間(例えば地理的)分割を使用し、広い領域から点群を効率的にストリーミングする(及び表示する)ことを目標として有する。広い領域は多くの点群で構成されるが、3Dタイルを使用することは所望のデータだけを要求することを可能にする。Cesiumプラットフォームの欠点は、それが3D地理空間データ用に設計されており、拡張現実及び/又は仮想現実コンテンツ用には設計されていないことである。更なる欠点は、Cesiumタイルが任意の観察位置から分離される3D空間の任意の分割によって定められることである。その結果、Cesiumタイル内のデータは一定の観察位置から見える場合も見えない場合もあり、そのことは、大きい点群をレンダリングしているクライアントが、このレンダリングされる観察位置に関して遮られたデータを含むCesiumタイルをダウンロードしなければならないことを意味する。
本発明の第1の目的は、伝送されるボリュメトリック画像データの量を限定する符号器システムを提供することである。
本発明の第2の目的は、ボリュメトリック画像データをレンダリングするために限られたハードウェア資源を使用する復号器システムを提供することである。
本発明の第3の目的は、伝送されるボリュメトリック画像データの量を限定するボリュメトリック画像データを符号化する方法を提供することである。
本発明の第4の目的は、ボリュメトリック画像データをレンダリングするために限られたハードウェア資源を必要とする符号化済みのボリュメトリック画像データを復号する方法を提供することである。
本発明の第1の態様では、符号器システムが、ボリュメトリック画像データの入力セットを得ること、前述のボリュメトリック画像データに対する複数のビューのそれぞれについて前述のボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からの前述のデータの可視性に基づいて選択することであって、それにより複数の前述のビューが前述のボリュメトリック画像データの一部しか含まない、選択すること、ボリュメトリック画像データの別個の出力セットとして前述のビューのそれぞれを符号化すること、及び前述の複数の視点を示すメタデータを生成することを行うように構成される、少なくとも1つのプロセッサを含む。
ボリュメトリック画像データの入力セットを、例えば錐台、四角錐、又は円錐形のビューにセグメント化することにより、及びそれらの入力セットに対して視錐台カリング(及び典型的には部分的に遮られたデータではなく完全に遮られたデータを除去するために任意選択的にオクルージョンカリング)を行うことにより、符号器システムが復号器システムに限られた量のコンテンツを伝送することが可能になる。このことは、復号器システムが入力セットの一部だけ、即ち所望のユーザ視点から入力セットをレンダリングするために十分なボリュメトリック画像データを復号するのに必要な部分だけを得ることを可能にする。このことは、コンテンツ、例えば拡張現実コンテンツ及び/又は仮想現実コンテンツをレンダリングするために復号器システムが必要とするボリュメトリック画像データの量を(このボリュメトリック画像データの量を一定の最大値に限定するための或る特定のアクションを必要とせずに)限定する。ボリュメトリック画像データのサイズが限定される結果、ボリュメトリック画像データの全入力セット、例えば全点群又は部分セットであるがレンダリングに無用な遮られたデータを含む部分セット、例えばCesiumによってタイルとして伝送される点の任意の「立方体」を伝送するシステムと比較して、復号器システムが見えない点のレンダリング又は錐台カリング及びオクルージョンカリングに、限られた/より少ない計算資源(及び典型的には限られた/より少ないメモリ及び記憶域)を費やす必要があり、帯域幅等のネットワーク資源の使用も限定/低減され得る。
前述のビューは、例えば錐台、四角錐、又は円錐のように形成され得る。例えば2つの目のビューを同時にレンダリングするために、(例えば錐台形の)単一のワイドビューを使用することができる。前述のメタデータは前述の複数の視点に関連し、3D位置情報を含む。前述のメタデータは各ビューの他の特性、例えば観察方向及び/又は視野を表すことができる。ビューが全て同じ観察方向及び/又は視野を有さない場合、例えば視点の1つ又は複数が点群内にあり、視点が既定の観察方向に関連しない場合、観察方向及び/又は視野をメタデータに含めることは有益である。例えば複数の出力セットが同じコンテンツの複数の特質を表す場合、複数の出力セットが同じメタデータ/視点に関連し得る。どの視点及び/又は観察方向及び/又は視野を使用すべきかを指定する情報は入力データから、例えば入力セットを含む同じ入力データの一部として又はそれとは別に得ることができる。或いは観察方向及び/又は視野は、例えば既定の観察方向及び/又は既定の視野であり得る。本明細書では、たとえ間接的に(即ち復号によって)ボリュメトリックに過ぎないとしても、符号化済みのボリュメトリックデータも「ボリュメトリックデータ」と呼ぶ。
既定の観察方向及び/又は視野は、実行時に知られており信号情報内で与えられない観察方向及び/又は視野である。異なる使用事例が異なる既定値を使用してもよい。既定値は別の既定値に動的に依存し得る(しかし静的既定パラメータの任意の組について1組の(静的+動的)既定パラメータしか通常は存在しない)。復号器システム及び符号器は、例えば既定値をソフトウェア内にコンパイルすることによって、既定値をどのように計算/決定できるのかの規則を(例えば標準内で)指定することによって、又は別のコンポーネントに値を決定させ、その値を符号器システム及び復号器システムへの入力として与えることによって既定値を得ることを可能にされ得る。
前述の少なくとも1つのプロセッサは、前述の対応する観察方向において及び/又は前述の対応する視野内で前述の対応する視点から見える前述のボリュメトリック画像データの全てをそれぞれのビューごとに前述のボリュメトリック画像データから選択することにより、前述の複数のビューのそれぞれについて前述のボリュメトリック画像データから前述のデータを選択するように構成され得る。或いは、それぞれの観察方向においてそれぞれの視点から見える一部のデータを、例えばそのデータがレンダリングにさほど有益でない場合、ボリュメトリック画像データの総量を更に限定するために、又は符号化の作業/時間を単に減らすために省くことができる。例えば一定の観察方向において、点群内で重複しない2つの点がレンダリング時に著しく重複する場合があり(及びその一方が殆ど見えない場合があり)、その結果それらの点の両方をレンダリングしなくてもよい場合がある。
前述の少なくとも1つのプロセッサは、1つ又は複数のそれぞれの更なる視点からの更なるデータの可視性に基づいて前述の複数のビューの前述の更なるデータを選択するように構成することができ、前述の1つ又は複数のそれぞれの更なる視点は前述のそれぞれの視点に関係する。データ及び更なるデータは、例えば隣接する又は部分的に重複するビューに対応し得る。所望のユーザ視点はしばしば利用可能な視点の1つと同じではないので、復号済みのビューを所望のユーザ視点に合わせて調節するために幾らかの調節が典型的には復号器システムによって必要とされる。典型的には、選択された利用可能な視点から見える一部のデータは所望のユーザ視点から見えず、従ってレンダリングされるビュー内で省かれる。更に、所望のユーザ視点から見える一部のデータは選択された利用可能な視点から見えない。それぞれの観察方向において及び/又はそれぞれの視野内でそれぞれの視点から見えるデータだけよりも多くのデータをビュー内に与えることにより、所望のユーザ視点から見え、利用可能な視点からは見えないデータを依然としてレンダリングすることができる。
或いは、復号器システムは複数のビューを得てそれらのビューを融合することができる。どちらの場合にも、錐台カリング及びオクルージョンカリング及び/又は見えないデータをレンダリングするのに必要な計算時間は、レンダリングのために全入力セットを復号器システムに与える場合よりも通常短くなる。一定の視点のための更なるデータは、この一定の視点を仮想的に移動することによって又はビューのために既に選択されているデータ付近のデータを選択することによって選択され得る。前者は最良の結果(例えば省かれるデータがないこと)をもたらすが、後者の方が素早く実行することができる。
前述の少なくとも1つのプロセッサは、前述のボリュメトリック画像データの出力セット又は前述のボリュメトリック画像データの出力セットの一部を何処で得るのかを前述のメタデータ内で指定するように構成され得る。このことは、どの出力セット/ビューを得るのかに関する完全な制御を復号器システムに与える。前述のメタデータはマニフェストファイル、例えばMPEG-DASHに関するメディアプレゼンテーションの説明(MPD)(ISO/IEC 23009-1)内で指定され得る。別の実施形態では、前述のメタデータがISOベースメディアファイル形式(ISOBMFF)のデータ形式で指定されてもよく、ISOBMFFではボリュメトリック画像データの各出力セットが同じISOBMFF(ISO/IEC14496-12)ファイル内への異なるトラックへとカプセル化され得る。
前述のボリュメトリック画像データの入力セットは1つ又は複数の点群を含み得る。点群はビューへとセグメント化するのが相対的に容易であり、例えば点群のサブセットは更なる処理なしに有効である。ボリュメトリック画像データが複数の点群を含む場合、それらの点群は単一のシーンを構成し、即ち空間内で関係する。例えば或る点群は部屋の中のテーブルを表すことができ、別の点群は同じ部屋の中の椅子を表し得る。ボリュメトリック画像データが複数の点群を含む場合、それらの複数の点群のサブセットに対してのみカリングを行うことが可能であり得る。3Dメッシュもビューへとセグメント化することができるが、かかるセグメント化は元の多角形を置換するための新たな多角形の作成を必要とする場合があり、その理由はそれらの元の多角形の一部が一定のビュー内で遮られるからである。ボリュメトリック画像データの他の例はRGB+D画像データ及びボクセルである。前述のボリュメトリック画像データの入力セットは経時変化する場合があり、前述の少なくとも1つのプロセッサは前述のビューのそれぞれについて前述のボリュメトリック画像データから前述のデータを繰り返し選択し、別個のビットストリームとして前述のビューのそれぞれを符号化するように構成され得る。
前述の複数のビューは、前述のボリュメトリック画像データの全てを集合的に含み得る。これにより、ユーザはユーザ視点を変えることによってボリュメトリック画像データの全てを見ることが可能になる。或いは、例えば全ての視点から隠れるので、データの一部がビューのどの中にもなくてもよい。
本発明の第2の態様では、復号器システムが、所望のユーザ視点を決定すること、符号化済みのボリュメトリック画像データに関連するメタデータを得ることであって、前述のメタデータは利用可能な視点を示し、前述の利用可能な視点のそれぞれは利用可能なビューに対応する、得ること、前述の所望のユーザ視点に基づいて前述の利用可能な視点の1つ又は複数を選択すること、前述の選択した1つ又は複数の視点に基づき、前述の選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データを得ること、前述の1組又は複数組のボリュメトリック画像データから前述の1つ又は複数の利用可能なビューの少なくとも1つを復号すること、及び前述の復号済みの1つ又は複数の利用可能なビュー(又はその一部)の前述の少なくとも1つを任意選択的にレンダリングすることを行うように構成される少なくとも1つのプロセッサを含む。視点という用語は位置を指す。例えば観察方向に応じて、一定の視点から複数のビューが可能である。
前述の復号器システムは、例えばモバイル装置又はモバイル装置の一部であり得る。前述の復号器システムは1つ又は複数の装置を含み得る。前述のビューは、例えば錐台、四角錐、又は円錐のように形成され得る。前述のメタデータは前述の複数の視点に関連し、3D位置情報を含む。前述のメタデータは各ビューの他の特性、例えば観察方向及び/又は視野を表すことができる。ビューが全て同じ観察方向及び/又は視野を有さない場合、例えば視点の1つ又は複数が点群内にあり、視点が既定の観察方向に関連しない場合、観察方向及び/又は視野をメタデータに含めることは有益である。
好ましくは、対応する少なくとも1つの利用可能なビューが利用可能なビューのうちで(所望のユーザ視点に対応する)所望のユーザビューと最も類似するように1つ又は複数の利用可能な視点の少なくとも1つが選択される。復号器システムは、最も高い品質を実現するために1つ又は複数のビューをこのやり方で最初に選択し、次いでボリュメトリック画像に最も近いビューを更に選択することができる。レンダリングは復号と並列に行うことができる(例えば部分的に復号された点群が既にレンダリングされていてもよい)。複数のビューの事例では、各ビューを個々にレンダリングすることができる。
所望のユーザ視点はしばしば利用可能な視点の1つと厳密に同じではないので、復号済みのビューを所望のユーザ視点に合わせて調節するために幾らかの調節が典型的には復号器システムによって必要とされる。見えないデータがレンダリングされることを防ぐために又はレンダリングされる見えないデータの量を減らすために、復号器システムはオクルージョンカリング及び/又は錐台カリングを実行して調節済みのビューを得ることができる。
一実施形態では、復号器システムがCPUと、所望の視点の生成器(例えばHMD、マウス、又は他の入力装置)と、GPUと、任意選択的にディスプレイとを含む。この実施形態では、レンダリングがGPU上で行われるが、CPUが所望の視点を受信し、レンダリングするようにGPUに命令する。復号済みの画像がメモリ内に記憶され、それを必要とする何らかのシステム、例えばGPU、システムバス、及び/又はネットワークインタフェースに送信され得る。
前述の少なくとも1つのプロセッサは、更なる所望のユーザ視点を決定すること、前述の更なる所望のユーザ視点に基づいて前述の利用可能な視点から更なる利用可能な視点を選択すること、前述の更なる利用可能な視点に対応する更なる利用可能なビューが符号化されている更なる1組のボリュメトリック画像データを得ること、前述の更なる1組のボリュメトリック画像データから前述の更なる利用可能なビューを復号すること、前述の復号済みの更なる利用可能なビューを前述の少なくとも1つの復号済みの利用可能なビューと融合すること、及び前述の少なくとも1つの復号済みの利用可能なビューをレンダリングした後で又はレンダリングする代わりに、前述の融合済みの更なる利用可能なビューを任意選択的にレンダリングすることを行うように構成され得る。
融合は、視点を切り替えるときのレンダリングにおける不整合を防ぐために使用され得る。融合は、不可逆的圧縮アーティファクト及び/又はビュー間の重複によって生じ得る様々な視点の様々なビュー間の「シーム」を隠すために知られている技法を使用してビューを平滑化することを概して含む。所望のユーザ視点が瞬間ごとに変わり得るだけでなく、利用可能な視点もフレームごとに又はフレームのシーケンスごとに変わり得る。どちらも事例でも利用可能な視点から新たな選択を行う必要がある。
前述の少なくとも1つのプロセッサは、1つ又は複数の関係するビューからのデータが符号化されている更なる1組のボリュメトリック画像データを得ることであって、前述の1つ又は複数の関係するビューは前述の1つ又は複数の利用可能なビューに関係している、得ること、前述の更なる1組のボリュメトリック画像データから前述の1つ又は複数の関係するビューの少なくとも1つを復号すること、前述の復号済みの少なくとも1つの関係するビューを前述の復号済みの少なくとも1つの利用可能なビューと融合すること、及び任意選択的に前述の融合済みのビューをレンダリングすることを行うように構成され得る。
前述の1つ又は複数の関係するビューは、以下のときに前述の1つ又は複数の利用可能なビューに関係すると見なされ得る:
・(例えばビュー群を作成する)コンテンツクリエータによってそのように定められる。これは1組の限られたユーザ位置を有するシナリオにおいて有用である。かかるシナリオは、シーンのグラフ又は1つ若しくは複数のシーン内の位置として一般に定められる。
・幾らか共通の属性を有する(例えば観察方向の差が定数c未満であり、又はその相対距離が定数d未満である)。
・自動生成されるビューが符号器システムによってグループ化され得る。例えば符号器システムが1組の「アンカ」ビューから開始するが、シーンの更に多くをカバーするために更に多くのビューを必要とする場合、符号器システムは既に知られているビューに関係する追加のビューを定め得る。
前述の1つ又は複数の関係するビューは、例えば隣接し、隔てられ、又は重複し得る。関係するビューは前述の利用可能なビューと部分的に重複することができ、又はそれらの2つのビューの1つが他方のビュー内に完全に含まれ得る。所望のユーザ視点はしばしば利用可能な視点の1つと同じではないので、利用可能な1つのビューが所望のユーザ視点から見える全てのデータを含まない場合がある。関係するビューを取得しそれらの関係するビューを融合することにより、所望の視点から見える全てのデータを取得しレンダリングすることができる。この事例では、融合が行われるのは視点を切り替えるときだけではない。融合済みのビューに対して視錐台カリング及び/又はオクルージョンカリングが行われ得る。
一定の状況では、例えば最初の1組の画像データは(例えばことによるとより多くの点を含むので又は圧縮がより難しいので)更なる組よりもフェッチに時間がかかるので、最初の組を得る前に更なる組(即ち関係するビュー)が得られる場合がある。この事例では、最初の組が(まだ)復号されレンダリングされていない場合、更なる組を復号しレンダリングすることができる。例えば最初の組が到着するのが遅過ぎる場合があり、利用できるのは更なる組だけである場合がある。このことは、全く何も示さないよりもユーザにとってより関連し得る少なくとも何かを示すことを可能にする。(完全には)リアルタイムでないコンテンツについて更なる組が例えば推定されるユーザの動きに基づいて予めフェッチされている場合、最初の組を得る前に更なる組を得ることもできる。
前述の少なくとも1つのプロセッサは、前述の利用可能な視点を示し、前述の利用可能な視点に対応する利用可能なビューが符号化されているボリュメトリック画像データの組又は前述の組の一部を何処で得るのかを指定するメタデータを得るように構成され得る。
前述のメタデータは、前述の利用可能な視点のそれぞれについて観察方向及び/又は視野及び/又は更なる視点の構成を更に示し得る。更なる視点の構成の例は、カメラの投影の種類、カメラの向き、近くの/遠くのクリッピング面、ズームレベル、レンズの形状、速度、加速度、アンチエイリアスのレベル、アンチエイリアスの種類、異方性フィルタリングのレベル、ガンマ補正、コントラスト、及び明度である。
本発明の第3の態様では、ボリュメトリック画像データを符号化する方法が、ボリュメトリック画像データの入力セットを得ること、前述のボリュメトリック画像データに対する複数のビューのそれぞれについて前述のボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からの前述のデータの可視性に基づいて選択することであって、それにより複数の前述のビューが前述のボリュメトリック画像データの一部しか含まない、選択すること、ボリュメトリック画像データの別個の出力セットとして前述のビューのそれぞれを符号化すること、及び前述の複数の視点を示すメタデータを生成することを含む。前述の方法はプログラム可能装置上で実行されるソフトウェアによって実行され得る。そのソフトウェアはコンピュータプログラム製品として提供され得る。
複数のビューに加えて、ボリュメトリック画像データの全入力セットもボリュメトリック画像データの別個の出力セットとして符号化され得る。これは任意の時点においてボリュメトリック画像データの全入力セットの低品質版を提供し、それによりシーンの一部に対応するデータを表示することができない「エンプティボイド(empty void)」効果を回避するために使用され得る。クライアントが低品質版のダウンロード後に十分な帯域幅及び計算資源を有する場合、そのクライアントは低品質のものを置換するために高品質の利用可能なボリュメトリック画像データをフェッチすることに決めることができる。このようにして、ユーザの素早い動作及び高いネットワーク遅延においてもシーンを常にレンダリングすることができる。
本発明の第4の態様では、符号化済みのボリュメトリック画像データを復号する方法が、所望のユーザ視点を決定すること、前述の符号化済みのボリュメトリック画像データに関連するメタデータを得ることであって、前述のメタデータは利用可能な視点を示し、前述の利用可能な視点のそれぞれは利用可能なビューに対応する、得ること、前述の所望のユーザ視点に基づいて前述の利用可能な視点の1つ又は複数を選択すること、前述の選択した1つ又は複数の視点に基づき、前述の選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データを得ること、前述の1組又は複数組のボリュメトリック画像データから前述の1つ又は複数の利用可能なビューの少なくとも1つを復号すること、及び前述の復号済みの1つ又は複数の利用可能なビュー(又はその一部)の前述の少なくとも1つを任意選択的にレンダリングすることを含む。前述の方法はプログラム可能装置上で実行されるソフトウェアによって実行され得る。そのソフトウェアはコンピュータプログラム製品として提供され得る。
メタデータはメタデータに関連するコンテンツアイテムがレンダリングされる前に受信されてもよく、又はコンテンツアイテムを選択しメタデータを受信することは例えば並列に行うことができる。コンテンツアイテムは所望のユーザ視点が決定された後で選択され得る。例えば同様のコンテンツを有する複数のコンテンツアイテムがある場合、コンテンツアイテムは所望のユーザ視点に基づいて選択され得る。
更に、本明細書に記載の方法を実行するためのコンピュータプログラム、並びにそのコンピュータプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。コンピュータプログラムは、例えば既存の装置によってダウンロードされ又は既存の装置にアップロードされてもよく、又はこれらのシステムの製造時に記憶され得る。
非一時的コンピュータ可読記憶媒体は少なくとも第1のソフトウェアコード部分を記憶し、第1のソフトウェアコード部分はコンピュータによって実行され又は処理されるとき、ボリュメトリック画像データの入力セットを得ること、前述のボリュメトリック画像データに対する複数のビューのそれぞれについて前述のボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からの前述のデータの可視性に基づいて選択することであって、それにより複数の前述のビューが前述のボリュメトリック画像データの一部しか含まない、選択すること、ボリュメトリック画像データの別個の出力セットとして前述のビューのそれぞれを符号化すること、及び前述の複数の視点を示すメタデータを生成することを含む実行可能操作を行うように構成される。
非一時的コンピュータ可読記憶媒体は少なくとも第2のソフトウェアコード部分を記憶し、第2のソフトウェアコード部分はコンピュータによって実行され又は処理されるとき、所望のユーザ視点を決定すること、前述の符号化済みのボリュメトリック画像データに関連するメタデータを得ることであって、前述のメタデータは利用可能な視点を示し、前述の利用可能な視点のそれぞれは利用可能なビューに対応する、得ること、前述の所望のユーザ視点に基づいて前述の利用可能な視点の1つ又は複数を選択すること、前述の選択した1つ又は複数の視点に基づき、前述の選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データを得ること、前述の1組又は複数組のボリュメトリック画像データから前述の1つ又は複数の利用可能なビューの少なくとも1つを復号すること、及び前述の復号済みの1つ又は複数の利用可能なビュー(又はその一部)の前述の少なくとも1つを任意選択的にレンダリングすることを含む実行可能操作を行うように構成される。2つのソフトウェア部分は独立に実行することができ、典型的には互いに独立に機能することを必要としない。
当業者なら理解するように、本発明の態様は装置、方法、又はコンピュータプログラム製品として具体化され得る。従って、本発明の態様は完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、又は「回路」、「モジュール」、若しくは「システム」として本明細書で全て広く呼ばれ得るソフトウェアの側面とハードウェアの側面とを組み合わせた実施形態の形を取り得る。本開示に記載する機能はコンピュータのプロセッサ/マイクロプロセッサによって実行されるアルゴリズムとして実装され得る。更に、本発明の態様は、コンピュータ可読プログラムコードが実装された、例えば記憶された1つ又は複数のコンピュータ可読媒体内に具体化されるコンピュータプログラム製品の形を取り得る。
1つ又は複数のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、これだけに限定されないが例えば電子、磁気、光学、電磁、赤外線、又は半導体システム、機器、若しくは装置、又は上記のものの任意の適切な組み合わせとすることができる。コンピュータ可読記憶媒体のより具体的な例は、これだけに限定されないが1つ又は複数の配線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去プログラム可能読取専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記のものの任意の適切な組み合わせを含み得る。本発明の脈絡では、コンピュータ可読記憶媒体は命令実行システム、機器、又は装置によって使用するための又はそれらに関連するプログラムを含み得る又は記憶し得る任意の有形媒体とすることができる。
コンピュータ可読信号媒体は、例えばベースバンド内に又は搬送波の一部としてコンピュータ可読プログラムコードが実装された伝搬データ信号を含み得る。かかる伝搬信号は、これだけに限定されないが電磁、光学、又はその任意の適切な組み合わせを含む様々な形式の何れかを取り得る。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、機器、又は装置によって使用するための又はそれらに関連するプログラムを伝達し、伝搬し、又は搬送することができる任意のコンピュータ可読媒体であり得る。
コンピュータ可読媒体上に具体化されるプログラムコードは、これだけに限定されないが、無線、電線、光ファイバ、ケーブル、RF等、又は上記のものの任意の適切な組み合わせを含む任意の適切な媒体を使用して伝送され得る。本発明の態様の操作を実行するためのコンピュータプログラムコードは、Java(商標)、Smalltalk、C++等のオブジェクト指向プログラミング言語、関数型プログラミング言語、ハードウェア記述言語、及び「C」プログラミング言語等の従来の手続き型プログラミング言語又は同様のプログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせによって書くことができる。プログラムコードは、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、独立型のソフトウェアパッケージとして、ユーザのコンピュータ上で部分的に且つリモートコンピュータ上で部分的に、又はリモートコンピュータ若しくはサーバ上で完全に実行され得る。後者のシナリオでは、リモートコンピュータはローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークによってユーザのコンピュータに接続することができ、又は接続は(例えばインターネットサービスプロバイダを使用してインターネットによって)外部のコンピュータに対して行われ得る。
本発明の実施形態による方法、機器(システム)、及びコンピュータプログラム製品の流れ図及び/又はブロック図に関して本発明の態様を以下に記載する。流れ図及び/又はブロック図の各ブロック、並びに流れ図及び/又はブロック図内のブロックの組み合わせはコンピュータプログラム命令によって実装され得ることが理解されよう。それらのコンピュータプログラム命令はマシンをもたらすために汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理機器のプロセッサ、具体的にはマイクロプロセッサ又は中央処理装置(CPU)に与えることができ、それによりコンピュータ、他のプログラム可能データ処理機器、又は他の装置のプロセッサによって実行される命令が流れ図及び/又はブロック図のブロックの中で指定される機能/動作を実装するための手段を作り出す。
これらのコンピュータプログラム命令は、特定の方法で機能するようにコンピュータ、他のプログラム可能データ処理機器、又は他の装置に指示することができるコンピュータ可読媒体の中に記憶されてもよく、それによりコンピュータ可読媒体の中に記憶される命令が流れ図及び/又はブロック図のブロック内で指定される機能/動作を実装する命令を含む製品をもたらす。
コンピュータによって実装されるプロセスをもたらすためにコンピュータ、他のプログラム可能機器、又は他の装置上で一連の操作上のステップを実行させるために、コンピュータ、他のプログラム可能データ処理機器、又は他の装置上にコンピュータプログラム命令をロードすることもでき、それによりコンピュータ又は他のプログラム可能機器上で実行される命令が、流れ図及び/又はブロック図のブロック内で指定される機能/動作を実装するためのプロセスを提供する。
図中の流れ図及びブロック図は、本発明の様々な実施形態による装置、方法、及びコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能、及び動作を示す。この点に関して、流れ図又はブロック図内の各ブロックは指定の論理機能を実装するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部を表し得る。一部の代替的実装形態では、ブロック内に示す機能が図中に示す順序から外れて生じ得ることにも留意すべきである。例えば連続して示す2つのブロックが実際にはほぼ同時に実行されてもよく、又は関与する機能にもよるがブロックを逆の順序で実行できる場合もある。ブロック図及び/又は流れ図の各ブロック並びにブロック図及び/又は流れ図内のブロックの組み合わせは、指定の機能又は動作を実行する専用のハードウェアベースのシステムによって、又は専用ハードウェアとコンピュータ命令との組み合わせによって実装され得ることも指摘しておく。
図面の簡単な説明
本発明のこれらの及び他の態様が、例として以下の図面を参照して明らかになり更に解明される。
図中の対応する要素は同じ参照番号で示す。
符号器システムの一実施形態及び復号器システムの一実施形態のブロック図である。 符号化方法の一実施形態及び復号方法の第1の実施形態の流れ図である。 視錐台カリングの一例を示す。 視錐台カリング及びオクルージョンカリングの一例を示す。 ステレオ視錐台の一例を示す。 点群及び3つの視点の一例を示す。 図6の視点の1つに対応するビューを示す。 ユーザ視点の一例を示す。 復号方法の第2の実施形態の流れ図である。 復号方法の第3の実施形態の流れ図である。 本発明の方法を実行するための例示的なデータ処理システムのブロック図である。
図面の詳細な説明
図1は、符号器システムの一実施形態であるコンピュータ21、及び復号器システムの一実施形態であるモバイル装置1を示す。コンピュータ21は、受信機23、送信機24、プロセッサ25、及び記憶手段27を含む。プロセッサ25は、例えば1つ又は複数の点群を含むボリュメトリック画像データの入力セットを得ること、及びボリュメトリック画像データに対する複数のビューのそれぞれについてボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からのデータの可視性に基づいて選択することであって、それにより複数のビュー、例えばビューのそれぞれがボリュメトリック画像データの一部しか含まない、選択することを行うように構成される。視点という用語は位置を指す。例えば観察方向に応じて、一定の視点から複数のビューが可能である。
プロセッサ25は、ボリュメトリック画像データの別個の出力セットとしてビューのそれぞれを符号化すること、及び複数の視点を示すメタデータを生成することを行うように更に構成される。メタデータは複数の視点に関連し、3D位置情報を含み得る。メタデータは各ビューの他の特性、例えば観察方向及び/又は視野を表すことができる。例えば複数の出力セットが同じコンテンツの複数の特質を表す場合、複数の出力セットが同じメタデータ/視点に関連し得る。どの視点及び/又は観察方向及び/又は視野を使用すべきかを指定する情報は入力データから、例えば入力セットを含む同じ入力データから得ることができる。或いは観察方向及び/又は視野は、例えば既定の観察方向及び/又は既定の視野であり得る。図1の例では、コンピュータ21が出力セット及びメタデータをサーバコンピュータ13に与える。
既定の観察方向及び/又は視野は、実行時に知られており信号情報内で与えられない観察方向及び/又は視野である。異なる使用事例が異なる既定値を使用してもよい。既定値は別の既定値に動的に依存し得る(しかし静的既定パラメータの任意の組について1組の(静的+動的)既定パラメータしか通常は存在しない)。復号器システム及び符号器は、例えば既定値をソフトウェア内にコンパイルすることによって、既定値をどのように計算/決定できるのかの規則を(例えば標準内で)指定することによって、又は別のコンポーネントに値を決定させ、その値を符号器システム及び復号器システムへの入力として与えることによって既定値を得ることができる。
モバイル装置1は、トランシーバ3、送信機4、プロセッサ5、メモリ7、カメラ8、及びディスプレイ9を含む。プロセッサ5は、例えばカメラ8を使用して所望のユーザ視点を決定し、符号化済みのボリュメトリック画像データに関連するメタデータを媒体11、例えばインターネット等のコンピュータネットワークを介してサーバコンピュータ13から得るように構成される。メタデータは利用可能な視点を示し、利用可能な視点のそれぞれは利用可能なビューに対応する。プロセッサ5は、所望のユーザ視点に基づいて利用可能な視点の1つ又は複数を選択し、選択した1つ又は複数の視点に基づき、選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データをサーバコンピュータ13から取得し、1組又は複数組のボリュメトリック画像データから1つ又は複数の利用可能なビューの少なくとも1つを復号するように更に構成される。
モバイル装置1は、対応するビューが利用可能なビューのうちで(所望のユーザ視点に対応する)所望のユーザビューと最も類似するように利用可能な視点を選択することができる。或いはモバイル装置1は、最も高い品質を実現するために1つ又は複数のビューをこのやり方で最初に選択し、次いでオブジェクトに最も近いビューを更に選択することができる。レンダリングは復号と並列に行うことができる(例えば部分的に復号された点群が既にレンダリングされていてもよい)。複数のビューの事例では、各ビューを個々にレンダリングすることができる。
図1の実施形態では、復号器システムがモバイル装置であり、復号済みの1つ又は複数の利用可能なビューの少なくとも1つをレンダリングする。代替的実施形態では、復号器システムが異なる装置、例えばPCであり、装置、例えばモバイル装置の一部であり、又は複数の装置を含む。図1の例では、モバイル装置1がサーバコンピュータ13からメタデータ及びボリュメトリック画像データを得る。或いは、モバイル装置はメモリ7からメタデータ及びボリュメトリック画像データを得ることができる。
図1に示すモバイル装置1の実施形態では、モバイル装置1が1つのプロセッサ5を含む。代替的実施形態では、モバイル装置1が複数のプロセッサを含む。モバイル装置1のプロセッサ5は、例えばARM又はQualcommの汎用プロセッサ又は特定用途向けプロセッサであり得る。モバイル装置1のプロセッサ5は、例えばアンドロイド(登録商標)又はiOSオペレーティングシステムを実行することができる。ディスプレイ9は、例えばLCD又はOLEDディスプレイパネルを含み得る。ディスプレイ9は例えばタッチスクリーンとすることができる。プロセッサ5は、例えばユーザインタフェースを提供するためにこのタッチスクリーンを使用することができる。メモリ7は1つ又は複数のメモリユニットを含み得る。メモリ7は例えばソリッドステートメモリを含み得る。カメラ8は例えばCCD又はCMOSセンサを含み得る。
受信機3及び送信機4は、例えば他の装置と通信するために1つ又は複数の無線通信技術、例えばWi-Fi(IEEE 802.11)を使用することができる。代替的実施形態では、単一の受信機及び単一の送信機の代わりに複数の受信機及び/又は複数の送信器が使用される。図1に示す実施形態では、別個の受信機及び別個の送信機が使用される。代替的実施形態では、受信機3と送信機4とがトランシーバへと組み合わせられる。モバイル装置1は、電池及び電源コネクタ等のモバイル装置にとって典型的な他のコンポーネントを含み得る。本発明は1つ又は複数のプロセッサ上で実行されるコンピュータプログラムを使用して実装され得る。
図1に示すコンピュータ21の実施形態では、コンピュータ21が1つのプロセッサ25を含む。代替的実施形態では、コンピュータ21が複数のプロセッサを含む。コンピュータ21のプロセッサ25は、例えばIntel又はAMDの汎用プロセッサ又は特定用途向けプロセッサであり得る。コンピュータ21のプロセッサ25は、例えばWindows又はUnixベースのオペレーティングシステムを実行することができる。記憶手段27は1つ又は複数のメモリユニットを含み得る。記憶手段27は、例えば1つ又は複数のハードディスク及び/又はソリッドステートメモリを含み得る。記憶手段27は、例えばオペレーティングシステム、アプリケーション、及びアプリケーションデータを記憶するために使用することができる。
受信機23及び送信機24は、例えば他の装置と通信するためにイーサネット及び/又はWi-Fi(IEEE 802.11)等の1つ又は複数の有線及び/又は無線通信技術を使用することができる。代替的実施形態では、単一の受信機及び単一の送信機の代わりに複数の受信機及び/又は複数の送信器が使用される。図1に示す実施形態では、別個の受信機及び別個の送信機が使用される。代替的実施形態では、受信機23と送信機24とがトランシーバへと組み合わせられる。コンピュータ21は、電源コネクタ等のコンピュータにとって典型的な他のコンポーネントを含み得る。本発明は1つ又は複数のプロセッサ上で実行されるコンピュータプログラムを使用して実装され得る。
ボリュメトリック画像データを符号化する方法の一実施形態、及び符号化済みのボリュメトリック画像データを復号する方法の第1の実施形態を図2に示す。ステップ101は、ボリュメトリック画像データの入力セットを得ることを含む。ボリュメトリック画像データの入力セットは、例えば1つ又は複数の点群を含むことができ、又は3Dメッシュ、RGB+D画像データ若しくはボクセルを含み得る。点群は1組の3Dの点であり、そのうちの各点は関連する特性(例えば色、輝度)を有しても有さなくてもよい。点群の点は関連する3D法線ベクトルを有し得る。
点群は、例えば「.ply」ファイルとして提供され得る。このファイルは知られている技法を使用して構文解析し、RAMメモリ内に記憶することができる。記憶される点群は、例えばGPUアルゴリズムの一部としてRAMからGPUメモリにコピーされ得る。点群は(例えばRGB+Dセンサによって捕捉される)1組の1つ又は複数のRGB+D入力から生成され得る。1つよりも多くのRGB+D入力がある場合、点群の平滑さを改善するために点を融合することができる。
ボリュメトリック画像データが複数の点群を含む場合、それらの点群は単一のシーンを構成し、即ち空間内で関係する。例えば或る点群は部屋の中のテーブルを表すことができ、別の点群は同じ部屋の中の椅子を表し得る。ボリュメトリック画像データが複数の点群を含む場合、それらの複数の点群のサブセットに対してのみカリングを行うことが可能であり得る。
ボリュメトリック画像データの入力セットは経時変化する場合があり、少なくとも1つのプロセッサはビューのそれぞれについてボリュメトリック画像データからデータを繰り返し選択し、別個のビットストリームとしてビューのそれぞれを符号化するように構成され得る。
ステップ103は、ボリュメトリック画像データに対する複数のビューのそれぞれについてボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からのデータの可視性に基づいて選択することを含み、それにより複数のビュー、例えばビューのそれぞれがボリュメトリック画像データの一部しか含まない。図2の実施形態では、ステップ103がサブステップ111及び113を含む。
ステップ111は、入力セットについて複数の視点を定め、それらの視点に対応するビューのための初期データ選択を行うことを含む。視点は、対応するビューがボリュメトリック画像データの全てを集合的に含むように選択され得る。これにより、ユーザはユーザ視点を変えることによってボリュメトリック画像データの全てを見ることが可能になる。或いは、例えば全ての視点から隠れるので又は符号化の作業/時間を単に減らすために、データ、例えば点の一部をビューのどれにも含めなくてもよい。
1組の視点を入力として受信することができる。例えば以下のJSONスキーマは、それらの視点を指定するために使用可能なデータ構造を指定する:
この例では、入力される点群と同じ単位で位置が指定される。向きはラジアン単位のTait-Bryan角度として指定される。投影の種類は一覧から選択される(例えば直角、透視、円筒、球面、又は国際公開第2018/215502 A1号パンフレットで開示されている投影の種類)。カメラの視野は度を単位として指定される。近くの及び遠くのクリッピング面は入力点群と同じ単位及び座標空間内で指定される。スーパーサンプリングレートはピクセル当たりのサブサンプル数として指定される。
ボリュメトリック画像データからの対応する観察方向において及び/又は対応する視野内で対応する視点から見えるボリュメトリック画像データの全てをビューごとに最初に選択することができる。
或いは、それぞれの観察方向においてそれぞれの視点から見える一部のデータを、例えばそのデータがレンダリングにさほど有益でない場合又は符号化の作業/時間を単に減らすために省くことができる。例えば一定の観察方向において、点群内で重複しない2つの点がレンダリング時に著しく重複する場合があり(及びその一方が殆ど見えない場合があり)、その結果それらの点の両方をレンダリングしなくてもよい場合がある。
このステップの第1の実装形態では、視点及びビューを以下のように決定する。まず、点群空間内の点cにおいて半径rの仮想的な球を構築する(例えば点cは全ての点の重心であり得る)。所望のカバレッジレベルに応じて、この球上の位置を視点として選択する。視点が点c(例えば仮想的な球の中心)を見るようにビューの回転が選択される。カバレッジを増やすために、このプロセスを{r,c}の様々な値について繰り返すことができる。
「カバレッジレベル」は何個の点が含まれるのかの抽象的なメトリクとして、例えば以下のように定めることができる:
1.含まれる点対除外される点の比率(例えば全ての点の80%の最低カバレッジを定めることができる)。
2.含まれる点の絶対数(例えば100.000個の点の最低カバレッジレベルを定めることができる)。
3.上記のものの組み合わせ、例えば40%又は100.000個の点のうちの低い方。
定義2)は特定の標的帯域幅に到達すべき場合、所望のカバレッジレベルをこの値に設定することができるのでとりわけ有用である(点の量が帯域幅の使用と相関する)。しかし、定義2)はかかる表現が一体どの程度正確であり得るのかを考慮に入れない(例えば境界は相対的な情報消失を考慮に入れない)。
この第1の実装形態の第1の改変形態、即ち第2の実装形態では、cが一定のままであり、rが幾つかの一定のステップn内で一定量e段階的に低減される。
この第1の実装形態の第2の改変形態、即ち第3の実装形態では、1組の適切な視点及びビューを生成するとき、最低カバレッジレベルcに達するように1組の大規模なビューVをまず生成する。次に、特定の所望のカバレッジレベルdに達するビューのサブセットV’⊆Vを決定することができる(ここではc=dが成立し得る)。|V’|≦|V|なので、結果はより効率的であり得る。
この第2の改変形態の利点は、一部のシナリオでは(例えば帯域幅の制限により)必要とする/望むよりも多くの精度を与える1組の大きいビューを最初に生成した方が安価なことである。この第2の改変形態では、カバレッジレベルへの寄与度に基づいて視点を削除する(例えば2つのビューが非常に重複している(同様の点をカバーしている)場合、一方又は他方を除去することはカバレッジレベルをさほど低減しないが、全ビューの符号化/伝送を節約する)。
このステップの第4の実装形態では、カメラの特性が視点ごとに指定される。
任意選択的に、ステップ111は、それぞれの視点に関係する1つ又は複数のそれぞれの更なる視点からの更なるデータの可視性に基づき、複数のビューのための更なるデータを選択することを含む。データ及び更なるデータは、例えば隣接する又は部分的に重複するビューに対応し得る。
所望のユーザ視点はしばしば利用可能な視点の1つと同じではないので、復号済みのビューを所望のユーザ視点に合わせて調節するために幾らかの調節が典型的には復号器システムによって必要とされる。それぞれの観察方向において及び/又はそれぞれの視野内でそれぞれの視点から見えるデータだけよりも多くのデータをビュー内に与えることにより、この調節を取得済みのデータセットから決定することができ、即ち所望のユーザ視点から見え、利用可能な視点から見えないデータを取得済みのデータセットから明らかにすることができる。
一定の視点のための更なるデータは、この一定の視点を仮想的に移動することによって又はビューのために既に選択されているデータ付近のデータを選択することによって選択され得る。前者は最良の結果(例えば省かれるデータがないこと)をもたらすが、後者の方が素早く実行することができる。代替的実施形態では、この更なるデータが更なるデータセットとして(ビューに関連するが)ビューとは別個に与えられる。
ステップ113は、ビューのための初期データ選択をカリングすることを含む。ビューは、例えば錐台、四角錐、又は円錐のように形成され得る。図3は、視錐台カリングの一例を示す。この例では、視錐台43を有する視点41からのビューをカリングする。図3では点群の5個の点、つまり点51~54及び56が示されている。これらの5個の点のうち、点53及び54だけが錐台43内に位置する。点51は視錐台43の左側に位置し、点52は視錐台43の右側に位置し、点56は視錐台43の背後に位置する。従って点51、52、及び56を初期選択からカリング、即ち除去する。
図4は、視錐台カリング及びオクルージョンカリングの一例を示す。図4の例では、追加の遮られた点55が示されている。この点55は視点41から見えず、従って初期選択からカリング、即ち除去する。先に説明したように、オクルージョンカリング及び視錐台カリングは知られている技法である。
2つの目のビューを同時にレンダリングするために、(例えば錐台形の)単一のワイドビューを使用することができる。これを図5に示す。図5の例では第2の視錐台45が示されており、第2の視錐台45は図3及び図4の視錐台43と共にステレオ視錐台を形成する。
カリングは、例えばラスタ化又はレイトレーシングを使用して行うことができる。このステップの第1の実装形態では、オクルージョン検出のための設定済みの点のサイズを使用して点群がレンダリングされ、カリング済みの点群がカラー及びデプスバッファに基づいてその後再構築される。
或いは点群を点ごとにレンダリングすることができ、含める点の一覧又は除外する点の一覧を維持することができる。このステップの第2の実装形態では、含める点の一覧を初期設定した後、ラスタ化を使用して点群をレンダリングする。点が見えないとレンダリング中に判定される場合、その点は除外一覧に含められる。点が見えると判定される場合、その点は除外一覧に含められない。カリング済みの点群は、除外一覧内にある点を除く元の点群の全ての点で構成される。
このステップの第3の実装形態では、含める点の一覧を初期設定した後、レイトレーシングを使用して点群を点ごとにレンダリングする。点が見えるとレイトレーシング中に判定される場合、その点は含まれる、出力一覧に含める。点が見えないと判定される場合、その点は出力一覧に含められない。カリング済みの点群は出力一覧内の全ての点で構成される。レイトレーシングの利点は、レイトレーシングアルゴリズムの可視性検出の一環としてオクルージョンを「ただで」得ることができることであり、これはGPU内の最近のレイトレーシング指向のハードウェア加速技術、例えばNvidia GPU内のRTXによってことによると相対的に高速である。
図6は、点群71及び3つの視点73~75の一例を示す。この例では点群71が人を表す。視点73の視野及び観察方向を図6に示す。ビュー83(図7参照)は、この視野内で視点73から見えるデータ、つまり点群71の(厳密な)サブセット81を含む。
ステップ105は、ボリュメトリック画像データの別個の出力セットとしてビューのそれぞれを符号化することを含む。結果として生じる出力セット31は、例えばサーバコンピュータに与えることができる。符号化は単純に出力セットごとのファイルを作成し、被選択データをファイル内に含めることを含むことができ、又は被選択データを圧縮することを含み得る。点群を圧縮するための技法は、IEEE Journal on Emerging and Selected Topics in Circuits and Systems,volume 9,issue 1,March 2019の中で発表されているSebastian Schwarzらによる「Emerging MPEG Standards for Point Cloud Compression」の中で記載されている。かかる技法の一例は、動的コンテンツを対象としたMPEGビデオベースの点群圧縮(V-PCC)である。複数の点群が並列に符号化されてもよい。
複数のビューに加えて、ボリュメトリック画像データの全入力セットもボリュメトリック画像データの別個の出力セットとして符号化され得る。これは任意の時点においてボリュメトリック画像データの全入力セットの低品質版を提供し、それによりシーンの一部に対応するデータを表示することができない「エンプティボイド」効果を回避するために使用され得る。クライアントがボリュメトリック画像の低品質版のダウンロード後に十分な帯域幅及び計算資源を有する場合、そのクライアントは低品質のものを置換するために高品質の利用可能なボリュメトリック画像データをフェッチすることに決めることができる。このようにして、ユーザの素早い動作及び高いネットワーク遅延においてもボリュメトリック画像を常にレンダリングすることができる。
ステップ107は、メタデータ33を生成することを含む。メタデータは複数の視点を示す。図2の実施形態では、ステップ107がステップ111の後に実行される。代替的実施形態では、ステップ107がステップ111と並列に実行される。メタデータは視点の位置を指定し得るが、ボリュメトリック画像データの出力セット又はボリュメトリック画像データの出力セットの一部を何処で得るのかも指定し得る。このことは、どの出力セット/ビューを得るのかに関する完全な制御を復号器システムに与える。メタデータはマニフェストファイル、例えばMPEG-DASHに関するメディアプレゼンテーションの説明(MPD)(ISO/IEC 23009-1)内で指定され得る。別の実施形態では、メタデータがISOベースメディアファイル形式(ISOBMFF)のデータ形式で指定されてもよく、ISOBMFFではボリュメトリック画像データの各出力セットが同じISOBMFF(ISO/IEC14496-12)ファイル内への異なるトラックへとカプセル化され得る。
MPDマニフェストの一例を以下に示す:
この例では、同じ点群の異なるパースペクティブが別個の適応セットとして符号化される(3番目の適応セットは同期された音声トラックである)。クライアントはこのMPDを構文解析し、ストリーミングのために所望の適応セットを選択することができる。適応セット内の表現内のURLに基づき、クライアントは選択した点群をレンダリングのためにHTTP上でダウンロードすることができる。所与の間隔にわたってパラメータを変更できるようにするために、複数の期間が使用され得る。
この例では「CameraLocation」タグは視点に対応するカメラの位置を定め、「CameraOrientation」タグはカメラの回転を定める。ビューが独立に符号化され記憶されることを所与とし、ビューはレンダリング前に融合しなければならない可能性がある。そのために、レンダリング前にその特定のビューに適用すべき変換行列を指定する「Offset」タグが含められている。
ステップ121は、符号化済みのボリュメトリック画像データに関連するメタデータ33を得ることを含む。図2の実施形態では、メタデータがコンテンツアイテム(例えばX対Yのサッカーの試合)に関連し、ステップ121は、関連するメタデータが得られる前に例えばユーザ入力に応答してコンテンツアイテムを選択することを含む。代替的実施形態では、コンテンツアイテムが選択される前にメタデータが受信されてもよく、又はコンテンツアイテムの選択が要求されなくてもよい。
ステップ107に関して記載したように、メタデータ33は利用可能な視点を示し、利用可能な視点のそれぞれは利用可能なビューに対応する。メタデータは、利用可能な視点のそれぞれについて観察方向及び/又は視野及び/又は更なる視点の構成を更に示し得る。更なる視点の構成の例は、カメラの投影の種類、カメラの向き、近くの/遠くのクリッピング面、ズームレベル、レンズの形状、速度、加速度、アンチエイリアスのレベル、アンチエイリアスの種類、異方性フィルタリングのレベル、ガンマ補正、コントラスト、及び明度である。
ステップ123は、所望のユーザ視点を決定することを含む。ユーザは、(例えば仮想現実の場合は)コントローラを使用することにより、又は(例えば拡張現実の場合は)自分の頭部若しくはモバイル装置の方向を変えること若しくは動き回ることによって新たな視点からのビューを要求可能であり得る。この所望の視点は、利用可能な視点の1つと必ずしも一致しない。
代替的実施形態では、ステップ121及び123が異なる順序で実行される。図2の実施形態では、所望のユーザ視点が決定される前にコンテンツアイテムが選択される。代替的実施形態では、所望のユーザ視点が決定された後でコンテンツアイテムが選択され得る。例えば同様のコンテンツを有する複数のコンテンツアイテムがある場合、コンテンツアイテムは所望のユーザ視点に基づいて選択され得る。この代替的実施形態では、ステップ123が通常はステップ121の前に実行される。
ステップ125は、所望のユーザ視点に基づいて利用可能な視点の1つ又は複数を選択することを含む。図8は所望のユーザ視点の一例、つまりユーザ視点91を示す。図8は、3つの利用可能な視点73~75を更に示す。
このステップの第1の実装形態では、ステップ125が、ユーザ視点91に対応するビュー及び利用可能な視点73~75に対応するビューを決定すること、ユーザビューと利用可能なビューのそれぞれとの間の重複を比較すること、及び最大の重複を有する利用可能なビューに対応する利用可能な視点を選択することを含む。
このステップの第2の実装形態では、ステップ125が、ユーザ視点91と利用可能な視点73~75のそれぞれとの間の距離を求めること、及び最も近い利用可能な視点を選択することを含む。従って観察方向は無視される。この第2の実装形態は、全ての視点が点群の方を向いていることが分かっている場合に有益である。両方の実装形態により、図8の例において利用可能な視点73が選択される。
これらの2つの実装形態の拡張として、優先順位付けした視点の一覧を作成し、望ましさによってランク付けすることができる。一覧のうちの最も一致する視点に対応するビューが最初に得られるが、時間が残っている場合は更に多くの(例えば2番目に優れた、3番目に優れた等の)利用可能なビューを優先順位付けした視点の一覧に従って得ることができる。
ステップ127は、選択した1つ又は複数の視点に基づき、選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データ31を得ることを含む。
このステップの第1の実装形態では、ボリュメトリック画像データの組はMPEG DASHを使用してサーバコンピュータによって公開されるファイルである。各ファイルは点群のサブセットを含むことができ、ファイルは複数のクライアント/復号器システムにストリーミングされ得る。
このステップの第2の実装形態では、サーバコンピュータがボリュメトリック画像データ、例えばビューを含むファイルをメディアストリーミングプロトコル(RTP等)上でストリーミングする。かかるストリーミングシナリオでよくあるように、ストリーミングが開始する前に、ストリームの転送をネゴシエートするためにSIPを使用することができる。これを実装するために、様々な視点をシグナリングするために使用可能な新たなSDPメッセージ部分を定める必要があり得る。この新たなSDPメッセージは、それぞれステップ107及び121において既にそれぞれ伝送及び受信されていることになる。例えば点群に関するビューのストリーミングのために以下のメッセージ部分を定めることができ、このメッセージ部分は視点ごとに含まれ得る:
この例では「viewpoint id」は、視点「x」、「y」、及び「z」が視点の位置を示す浮動小数点数である一方、「yaw」、「pitch」、及び「roll」が関連するカメラのそれぞれの回転を示す浮動小数点数であることを識別するセッション固有の整数である。
完全なSDPメッセージの一例を以下に示す。SDPメッセージは点群に関するビューのストリーミングをネゴシエートするために使用される。この例では、点群のためのRTPペイロードタイプを「2019」だと仮定する。
Aliceが、3つの視点を有する点群の送信を申し出る:

Bobが、id1を有する視点を受信するための要求で応える。
SIPプロトコルによれば、ネゴシエーションがこれで完了し、Aliceは対応するビューをBobに伝送し始めることができる。Bobが異なる視点に対応するビューを受信したくなると、SDP再ネゴシエーションを使用してそれを実現することができる。
このステップの第3の実装形態では、第2の実装形態にあるのと同じ種類のシグナリングを有するWebRTCを使用するが、その後JavaScriptセッション確立プロトコル(JSEP)を使用してストリーミングが実現される。
このステップの第4の実装形態では、ビューがISOBMFFコンテナ内に含まれる。ISOBMFFコンテナは例えば1つ又は複数の点群を含み得る。
目標はステップ127で少なくとも1つのビューを得ることだが、十分な時間がある場合は複数のビューを得ることができる。ストリーミングの間、クライアントは更に多くのデータをフェッチするのに十分な時間があるかどうかを判定するための期限を使用することができる。これらのビューは、元の画像データのより優れた概算を与えるために使用され得る。どの追加のビューを厳密にフェッチするのかは、ステップ125に関して説明したように選択アルゴリズムの拡張版を使用して決定することができる(例えば視点が類似度によってランク付けされる場合、クライアントは2番目に類似する視点、3番目に類似する視点等をフェッチすることができる)。
例えばクライアントが次のフレームを表示しなければならず、新たなフレームデータが利用できない場合、無作為の追加の視点をフェッチすることは後の処理にも有用であり得る。現在の点群が1組の複数の連続した点群(例えば動画の点群)の中の1つであり、クライアントが次の点群の期限を逃す場合、最初にフェッチされたビューと異なる角度から現在の点群を表示するために追加でフェッチしたビューを使用することができる。現在の点群及び次の点群は点群の現在のフレーム及び次のフレームと呼ぶこともできる。
追加のビューは一次ビューと異なる品質を有し得る。DASHのようなクライアントベースの品質選択メカニズム、例えばABR又はBOLAアルゴリズムを使用することができる。ユーザが複数の、例えば目ごとに1つの視点を有する場合、複数のパースペクティブを(例えば単一のストリーム/ビデオ内で)同時にストリーミングすることができる。一部の点群について、このことはコード化効率の改善をもたらし得る。これらのストリームは1つ又は複数の画像のシーケンスとして空間的に(例えばキルトパターン又は隣り合わせで)構成することができ、そのためホログラフィックディスプレイ及び/又はライトフィールドディスプレイによって直接使用可能である。
ステップ129は、1組又は複数組のボリュメトリック画像データから1つ又は複数の利用可能なビューの少なくとも1つを復号することを含む。クライアントは、取得したビューをその形式に従って復号するために典型的には最新式の復号器を使用する。例えばV-PCCを使用して点群が符号化される実施形態では、ビューを復号するために最新式のV-PCC復号器が典型的には使用される。複数のビュー/点群が並列に復号されてもよい。
任意選択的なステップ131は、復号済みの1つ又は複数の利用可能なビューの少なくとも1つをレンダリングすることを含む。ビューをレンダリングするために知られている技法、例えば点群レンダリング技法を使用することができる。視錐台カリングが既に実行されているので、殆どの事例でデータのサイズが既に著しく低減されている。従って通常の最新式のレンダリングでも、これらの方法を使用するとき必要とされる総作業量は低減される。しかし、得られる利用可能なビューが所望のユーザビューよりも大きい場合、ステップ131で追加の視錐台カリングを行うことができる。
所望のユーザ視点はしばしば利用可能な視点の1つと同じではないので、復号済みのビューを所望のユーザ視点に合わせて調節するために幾らかの調節が典型的には復号器システムによって必要とされる。従ってステップ131でオクルージョンカリングを行うことが有益である。図2の実施形態では、ステップ103のサブステップであるステップ113でオクルージョンカリングが符号器システムによっても行われる。代替的実施形態では、ステップ103でオクルージョンカリングが符号器システムによって行われない。
オクルージョンカリングが行われない場合、復号器システムによる一般的なオーバードローアルゴリズムの使用が、見えるオブジェクトの前に遮られたオブジェクト、例えば点がレンダリングされないことを確実にする。例えばオーバードローアルゴリズムは全てのオブジェクトを取ることによって実行されてもよく、オブジェクトごとにカメラまでのオブジェクトの相対距離が計算される。その結果生じる距離の一覧をソートし、最遠から最近の順にオブジェクトが描かれる。ステップ121又は123はステップ131の後で繰り返され、その後この方法は図2に示すように続く。ステップ123の次の反復では、更なる所望のユーザ視点を決定する。
図2に関して記載した実装形態は点群の使用を含むが、点群だけに制限されない。同じ又は同様の実装形態が異なる種類のボリュメトリックデータの使用を含み得る。
利用可能な視点から逸脱する所望のユーザ視点における所望のユーザ視野を埋めるために十分なデータが得られることを確実にする、以下を含む幾つかの選択肢が存在する:
・利用可能なビューの視野をユーザの視野よりも広くすることができる。これについてはステップ111に関して説明しており、図10に関しても説明する。
・1つ又は複数の関係するビューを取得し、一次ビューと融合することができる。これについては図9に関して説明する。
符号化済みのボリュメトリック画像データを復号する方法の第2の実施形態を図9に示す。この第2の実施形態では、1つ又は複数の関係するビューが取得され、一次ビューと融合される。
ステップ121は、符号化済みのボリュメトリック画像データに関連するメタデータを得ることを含む。ステップ123は、所望のユーザ視点を決定することを含む。ステップ125は、所望のユーザ視点に基づいて利用可能な視点を選択することを含む。
ステップ127はステップ125の後に実行される。ステップ127は、選択した視点に基づき、選択した利用可能な視点に対応する利用可能なビューが符号化されている1組のボリュメトリック画像データを得ることを含む。ステップ129は、1組のボリュメトリック画像データから利用可能なビューを復号することを含む。
ステップ127に加え、ステップ125の後にステップ141が実行される。ステップ141は、1つ又は複数の関係するビューからのデータが符号化されている更なる1組のボリュメトリック画像データを得ることを含む。1つ又は複数の関係するビューは利用可能なビューに関係する。1つ又は複数の関係するビューは、例えば隣接し、隔てられ、又は重複し得る。
1つ又は複数の関係するビューは、以下のときに1つ又は複数の利用可能なビューに関係すると見なされ得る:
・(例えばビュー群を作成する)コンテンツクリエータによってそのように定められる。これは1組の限られたユーザ位置を有するシナリオにおいて有用である。かかるシナリオは、シーンのグラフ又は1つ若しくは複数のシーン内の位置として一般に定められる。
・幾らか共通の属性を有する(例えば観察方向の差が定数c未満であり、又はその相対距離が定数d未満である)。
・自動生成されるビューが符号器システムによってグループ化され得る。例えば符号器システムが1組の「アンカ」ビューから開始するが、シーンの更に多くをカバーするために更に多くのビューを必要とする場合、符号器システムは既に知られているビューに関係する追加のビューを定め得る。
関係するビューは利用可能なビューと部分的に重複することができ、又はそれらの2つのビューの1つが他方のビュー内に完全に含まれ得る。ステップ143はステップ141の後に実行される。ステップ143は、更なる1組のボリュメトリック画像データから1つ又は複数の関係するビューの少なくとも1つを復号することを含む。
ステップ145は、ステップ129及び143の後に実行される。ステップ145は、復号済みの少なくとも1つの関係するビューを復号済みの利用可能なビューと融合することを含む。図2のステップ131(図9には不図示)はステップ145の後に実行され得る。その場合、融合済みのビューをステップ131でレンダリングする。融合済みのビューに対して視錐台カリング及び/又はオクルージョンカリングが行われ得る。
符号化済みのボリュメトリック画像データを復号する方法の第3の実施形態を図10に示す。図9の実施形態では、常に(或いは殆ど常に)複数のビューが融合される。図10の実施形態ではかかる融合は通常不要であり、その理由は取得済みのビューを所望のユーザ視点に合わせて調節できるようにするために利用可能なビューの視野がユーザの視野よりも広くされているからである。しかしユーザが自らの所望の視点を例えば自分の頭部を動かすことによって、動き回ることによって、又はコントローラを使用することによって変える場合、別の(例えばより近くの)視点が現在のものよりも好ましくなり得る。
その場合、利用可能なビューのうちの別のものに移行することが望ましい。この移行を可能にするために、この移行中に2つのビューを一緒にレンダリングすることが有益であり得る。これらの2つのビューは通常同じアルゴリズムによって同時にレンダリングされる。複数の視点からの複数のビューをレンダリングする場合、複数のビュー間の平滑な移行を確実にするために点を融合する(ノイズ除去、平均化、平滑化、重複除去、及び/又は除去する)ことができる。
ステップ121は、符号化済みのボリュメトリック画像データに関連するメタデータを得ることを含む。ステップ123は、所望のユーザ視点を決定することを含む。ステップ125は、所望のユーザ視点に基づいて1つ又は複数の利用可能な視点を選択することを含む。
所望のユーザ視点が一定の利用可能な視点と同一である、又は一定の利用可能な視点に対応する利用可能なビューが所望のユーザ視点から見える全てのデータを含む場合、その一定の視点だけが選択される。従って、複数のビューを(完全に)得ることを必要とせずに所望のユーザ視点から見える全てのデータが得られる。ステップ125の後にステップ171が実行される。
ステップ171は、選択した視点のうちの少なくとも1つのビューデータがまだ得られていないかどうかを確認することを含む。該当する場合、選択した視点の1つについてステップ127及び129を実行する。ステップ127は、選択した視点に基づき、この選択した利用可能な視点に対応する利用可能なビューが符号化されている1組のボリュメトリック画像データを得ることを含む。ステップ129は、1組のボリュメトリック画像データからこの利用可能なビューを復号することを含む。
全ての選択した視点に対応するビューが得られているとステップ171で判定される場合、次にステップ175を実行する。ステップ173がステップ127及び129の後に実行される。ステップ173は、そのビューデータがまだ得られていない選択した視点が依然としてあるかどうかを確認することを含む。該当する場合はステップ171を繰り返す。該当しない場合は次にステップ175を実行する。
ステップ175は、複数の視点が選択されているかどうか、及び複数のビューが得られ復号されているかどうかを確認することを含む。該当しない場合はステップ177を実行する。任意選択的なステップ177は、単一の復号済みのビューをレンダリングすることを含む。更なる所望のユーザ視点に関してステップ177の後でステップ123を繰り返し、その後この方法は図10に示すように続く。
複数の視点が選択されており、複数のビューが得られ復号されているとステップ175で判定される場合、ステップ181を次に実行する。ステップ181は、複数の復号済みの利用可能なビューを融合することを含む。任意選択的なステップ183は、融合済みの利用可能なビューをレンダリングすることを含む。更なる所望のユーザ視点に関してステップ183の後でステップ123を繰り返し、その後この方法は図10に示すように続く。代替的実施形態では、複数の視点が選択されており、複数のビューが得られていても、それらのサブセットだけが使用されてもよく、選択されたビューの1つしか使用されない場合はステップ177を実行することができる。
ステップ181の融合は、(不可逆的圧縮アーティファクト及び/又はビュー間の重複によって生じ得る)様々な視点の様々なビュー間の「シーム」を隠すために知られている技法を使用してビューを平滑化することを概して含む。所望のユーザ視点が瞬間ごとに変わり得るだけでなく、利用可能な視点もフレームごとに又はフレームのシーケンスごとに変わり得る。どちらも事例でも利用可能な視点から新たな選択を行う必要がある。
見えないデータがレンダリングされることを防ぐために又はレンダリングされる見えないデータの量を減らすために、ステップ177及び183でオクルージョンカリング及び/又は錐台カリングを実行することができ、このことは既存のレンダリングパイプラインを不変のままにしておくことができる利点を有する。錐台カリングは既に符号器システム内で実行されているので、錐台カリングは技術的現状においてよりも速く生じる可能性がある。符号器システム内でオクルージョンカリングが行われた場合、同じことがオクルージョンカリングに当てはまる。
図11は、図2、図9、及び図10に関して説明した方法を実行することができる例示的なデータ処理システムを示すブロック図を示す。
図11に示すように、データ処理システム400は、システムバス406によってメモリ要素404に結合される少なくとも1つのプロセッサ402を含み得る。そのため、データ処理システムはメモリ要素404内にプログラムコードを記憶することができる。更にプロセッサ402は、システムバス406によってメモリ要素404からアクセスされるプログラムコードを実行することができる。一態様では、データ処理システムがプログラムコードを記憶し及び/又は実行するのに適したコンピュータとして実装され得る。但し、データ処理システム400は、本明細書の中で記載した機能を実行可能なプロセッサ及びメモリを含む任意のシステム形式で実装できることを理解すべきである。
メモリ要素404は、例えばローカルメモリ408及び1つ又は複数の大容量記憶装置410等の1つ又は複数の物理メモリ装置を含み得る。ローカルメモリは、プログラムコードを実際に実行する間に一般に使用されるランダムアクセスメモリ又は他の非永続的メモリ装置を指し得る。大容量記憶装置は、ハードドライブ又は他の永続的データ記憶装置として実装され得る。処理システム400は、実行中に大容量記憶装置410からプログラムコードを取り出さなければならない回数を減らすために、少なくとも一部のプログラムコードの一時記憶域を提供する1つ又は複数のキャッシュメモリ(不図示)も含み得る。
入力装置412及び出力装置414として示す入出力(I/O)装置は、任意選択的にデータ処理システムに結合され得る。入力装置の例は、これだけに限定されないがキーボード、マウス等のポインティングデバイス、3DoF又は6DoF追跡コントローラ等を含み得る。出力装置の例は、これだけに限定されないがモニタ又はディスプレイ(例えばHMD又はARステレオディスプレイ)、スピーカ等を含み得る。入出力装置はデータ処理システムに直接、又は介在するI/Oコントローラによって結合され得る。
一実施形態では、入力装置及び出力装置が複合入出力装置として実装され得る(入力装置412及び出力装置414を取り囲む破線によって図11に示す)。かかる複合装置の一例は、「タッチスクリーンディスプレイ」又は単純に「タッチスクリーン」と呼ばれることもあるタッチセンスディスプレイである。かかる実施形態では、装置への入力が例えばタッチスクリーンディスプレイ上の又はその近くのスタイラス又は人の指等の物理的物体の動きによって与えられ得る。
データ処理システムが介在する私設ネットワーク又は公衆ネットワークによって他のシステム、コンピュータシステム、リモートネットワーク装置、及び/又はリモート記憶装置に結合することを可能にするために、ネットワークアダプタ416もデータ処理システムに結合され得る。ネットワークアダプタは、前述のシステム、装置、及び/又はネットワークによってデータ処理システム400に伝送されるデータを受信するためのデータ受信機、及びデータ処理システム400から前述のシステム、装置、及び/又はネットワークにデータを伝送するためのデータ送信機を含み得る。モデム、ケーブルモデム、及びイーサネットカードはデータ処理システム400と共に使用することができる様々な種類のネットワークアダプタの例である。
図11に図示するように、メモリ要素404がアプリケーション418を記憶することができる。様々な実施形態において、アプリケーション418がローカルメモリ408内に、彼1つ又は複数の大容量記憶装置410内に、又はローカルメモリ及び大容量記憶装置から離して記憶され得る。データ処理システム400は、アプリケーション418の実行を助けることができるオペレーティングシステム(図11には不図示)を更に実行できることを理解すべきである。実行可能プログラムコード形式で実装されているアプリケーション418は、データ処理システム400によって、例えばプロセッサ402によって実行され得る。アプリケーションを実行することに応答し、データ処理システム400は本明細書に記載した1つ又は複数の操作又は方法ステップを実行するように構成され得る。
コンピュータシステムと共に使用するためのプログラム製品として本発明の様々な実施形態を実装することができ、プログラム製品のプログラムは(本明細書に記載した方法を含む)実施形態の機能を定める。一実施形態では、プログラムが様々な非一時的コンピュータ可読記憶媒体上に含まれてもよく、本明細書で使用するとき「非一時的コンピュータ可読記憶媒体」という表現は、唯一の例外が一時的な伝搬信号である、全てのコンピュータ可読媒体を含む。別の実施形態では、プログラムが様々な一時的コンピュータ可読記憶媒体上に含まれ得る。例示的なコンピュータ可読記憶媒体は、これだけに限定されないが(i)情報が永続的に記憶される書込み不能記憶媒体(例えばCD-ROMドライブによって読み取り可能なCD-ROMディスク、ROMチップ、又は任意の種類のソリッドステート不揮発性半導体メモリ等のコンピュータ内の読取専用メモリ装置)、及び(ii)可変情報が記憶される書込み可能記憶媒体(例えばフラッシュメモリ、ディスケットドライブ又はハードディスクドライブ内のフロッピディスク、又は任意の種類のソリッドステートランダムアクセス半導体メモリ)を含む。コンピュータプログラムは本明細書に記載のプロセッサ402上で実行され得る。
本明細書で使用した用語は特定の実施形態を説明することを目的とするに過ぎず、本発明の限定であることは意図しない。本明細書で使用するとき、文脈上明白に他の意味を示す場合を除いて単数形「a」、「an」、及び「the」は複数形も含むことを意図する。本明細書で使用するとき「含む」及び/又は「含んでいる」という用語は、述べられた特徴、完全体、ステップ、操作、要素、及び/又はコンポーネントの存在を規定するが、1つ又は複数の他の特徴、完全体、ステップ、操作、要素、コンポーネント、及び/又はそのグループの存在又は追加を除外しないことが更に理解されよう。
添付の特許請求の範囲の中の全てのミーンズ又はステッププラスファンクション要素の対応する構造、材料、行為、及び等価物は、具体的に主張する特許請求の範囲の他の要素と組み合わせて機能を実行するための任意の構造、材料、又は行為を含むことを意図する。本発明の実施形態の説明は解説目的で示してきたが、網羅的であることも開示した形の実装形態に限定されることも意図しない。本発明の範囲及び趣旨から逸脱することなしに多くの修正形態及び改変形態が当業者に明らかになる。本発明の原理及び一部の実用的応用を最も良好に説明するために、及び予期される特定の使用法に適した様々な修正形態を有する様々な実施形態について当業者が本発明を理解できるようにするために実施形態を選択し且つ記載した。

Claims (15)

  1. - ボリュメトリック画像データ(71)の入力セットを得るステップと、
    - 前記ボリュメトリック画像データ(71)に対する複数のビューのそれぞれについて前記ボリュメトリック画像データ(71)からデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からの前記データの可視性に基づいて選択するステップであって、それにより前記複数のビューのそれぞれが前記ボリュメトリック画像データ(71)の一部しか含まない、ステップと、
    - ボリュメトリック画像データの別個の出力セットとして前記ビューのそれぞれを符号化するステップ
    - 前記複数の視点を示すメタデータを生成するステップ
    を行うように構成される少なくとも1つのプロセッサ(25)を含む、符号器システム(21)。
  2. 前記少なくとも1つのプロセッサ(25)が、
    - 1つ又は複数のそれぞれの更なる視点からの更なるデータの可視性に基づいて前記複数のビューのそれぞれの前記更なるデータを選択するように構成され、前記1つ又は複数のそれぞれの更なる視点は、前記それぞれの視点に関係している、
    請求項1に記載の符号器システム(21)。
  3. 前記少なくとも1つのプロセッサ(25)が、前記ボリュメトリック画像データの出力セット又は前記ボリュメトリック画像データの出力セットの一部を何処で得るのかを前記メタデータ内で指定するように構成される、請求項1又は2に記載の符号器システム(21)。
  4. 前記メタデータが、前記複数の観察方向及び/又は前記複数の視野及び/又は更なる視点の構成を更に示す、請求項1乃至3の何れか一項に記載の符号器システム(21)。
  5. 前記ボリュメトリック画像データ(71)の入力セットが1つ又は複数の点群を含む、請求項1乃至4の何れか一項に記載の符号器システム(21)。
  6. 前記少なくとも1つのプロセッサ(25)が、前記対応する観察方向において及び/又は前記対応する視野内で前記対応する視点から見える前記ボリュメトリック画像データの全てをそれぞれのビューごとに前記ボリュメトリック画像データから選択することにより、前記複数のビューのそれぞれについて前記ボリュメトリック画像データ(71)から前記データを選択するように構成される、請求項1乃至5の何れか一項に記載の符号器システム(21)。
  7. 前記複数のビューが集合的に前記ボリュメトリック画像データ(71)の全てを含む、請求項1乃至6の何れか一項に記載の符号器システム(21)。
  8. - 所望のユーザ視点(91)を決定するステップと、
    - 符号化済みのボリュメトリック画像データに関連するメタデータを得るステップであって、前記メタデータは利用可能な視点(73~75)を示し、前記利用可能な視点(73~75)のそれぞれは利用可能なビューに対応する、ステップ
    - 前記所望のユーザ視点(91)に基づいて前記利用可能な視点(73~75)の1つ又は複数を選択するステップと、
    - 前記選択した1つ又は複数の視点に基づき、前記選択した1つ又は複数の視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データを得るステップ
    - 前記1組又は複数組のボリュメトリック画像データから前記1つ又は複数の利用可能なビューの少なくとも1つを復号するステップ
    を行うように構成される少なくとも1つのプロセッサ(5)を含む、復号器システム(1)。
  9. 前記少なくとも1つのプロセッサ(5)が、
    - 更なる所望のユーザ視点を決定するステップと、
    - 前記更なる所望のユーザ視点に基づいて前記利用可能な視点(73~75)から更なる利用可能な視点を選択するステップと、
    - 前記更なる利用可能な視点に対応する更なる利用可能なビューが符号化されている更なる1組のボリュメトリック画像データを得るステップと、
    - 前記更なる1組のボリュメトリック画像データから前記更なる利用可能なビューを復号するステップ
    - 前記復号済みの更なる利用可能なビューを少なくとも1つの前記復号済みの利用可能なビューと融合するステップ
    を行うように構成される、請求項8に記載の復号器システム(1)。
  10. 前記少なくとも1つのプロセッサ(5)が、
    - 1つ又は複数の関係するビューからのデータが符号化されている更なる1組のボリュメトリック画像データを得るステップであって、前記1つ又は複数の関係するビューは前記利用可能な1つ又は複数の利用可能なビューに関係している、ステップと、
    - 前記更なる1組のボリュメトリック画像データから前記1つ又は複数の関係するビューの少なくとも1つを復号するステップと、
    - 前記復号済みの少なくとも1つの関係するビューを前記復号済みの少なくとも1つの利用可能なビューと融合するステップ
    を行うように構成される、請求項8に記載の復号器システム(1)。
  11. 前記少なくとも1つのプロセッサ(5)が、前記利用可能な視点(73~75)を示し、前記利用可能な視点(73~75)に対応する利用可能なビューが符号化されているボリュメトリック画像データの組又は前記組の一部を何処で得るのかを指定するメタデータを得るように構成される、請求項8乃至10の何れか一項に記載の復号器システム(1)。
  12. 前記メタデータが、前記利用可能な視点(73~75)のそれぞれについて観察方向及び/又は視野及び/又は更なる視点の構成を更に示す、請求項11に記載の復号器システム(1)。
  13. - ボリュメトリック画像データの入力セットを得るステップと(101)、
    - 前記ボリュメトリック画像データに対する複数のビューのそれぞれについて前記ボリュメトリック画像データからデータをそれぞれの観察方向における及び/又はそれぞれの視野内のそれぞれの視点からの前記データの可視性に基づいて選択するステップ(103)であって、それにより前記複数のビューのそれぞれが前記ボリュメトリック画像データの一部しか含まない、ステップと(103)、
    - ボリュメトリック画像データの別個の出力セットとして前記ビューのそれぞれを符号化するステップと(105)
    - 前記複数の視点を示すメタデータを生成するステップと(107)
    を含む、ボリュメトリック画像データを符号化する方法。
  14. - 所望のユーザ視点を決定するステップと(121)、
    - 符号化済みのボリュメトリック画像データに関連するメタデータを得るステップと(123)であって、前記メタデータは利用可能な視点を示し、前記利用可能な視点のそれぞれは利用可能なビューに対応する、ステップと(123)、
    - 前記所望のユーザ視点に基づいて前記利用可能な視点の1つ又は複数を選択するステップと(125)、
    - 前記選択した1つ又は複数の視点に基づき、前記選択した1つ又は複数の利用可能な視点に対応する1つ又は複数の利用可能なビューが符号化されている1組又は複数組のボリュメトリック画像データを得るステップと(127)
    - 前記1組又は複数組のボリュメトリック画像データから前記1つ又は複数の利用可能なビューの少なくとも1つを復号するステップと(129)
    を含む、符号化済みのボリュメトリック画像データを復号する方法。
  15. ソフトウェアコード部分がコンピュータシステム上で実行されるとき請求項13又は14に記載の方法を実行するように構成される、少なくとも1つのソフトウェアコード部分を含むコンピュータプログラム。
JP2022533618A 2019-12-06 2020-12-04 ボリュメトリック画像データに関するビューの符号化及び復号 Active JP7447266B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19214048 2019-12-06
EP19214048.1 2019-12-06
PCT/EP2020/084685 WO2021110940A1 (en) 2019-12-06 2020-12-04 Encoding and decoding views on volumetric image data

Publications (2)

Publication Number Publication Date
JP2023504846A JP2023504846A (ja) 2023-02-07
JP7447266B2 true JP7447266B2 (ja) 2024-03-11

Family

ID=68834953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022533618A Active JP7447266B2 (ja) 2019-12-06 2020-12-04 ボリュメトリック画像データに関するビューの符号化及び復号

Country Status (5)

Country Link
US (1) US20230042078A1 (ja)
EP (1) EP4070553A1 (ja)
JP (1) JP7447266B2 (ja)
CN (1) CN114788287A (ja)
WO (1) WO2021110940A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023099809A1 (en) * 2021-12-03 2023-06-08 Nokia Technologies Oy A method, an apparatus and a computer program product for video encoding and video decoding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079032A1 (en) 2017-10-20 2019-04-25 Interdigital Vc Holdings, Inc. METHOD, APPARATUS AND FLOW FOR VOLUMETRIC VIDEO FORMAT
WO2019226865A1 (en) 2018-05-25 2019-11-28 Magic Leap, Inc. Compression of dynamic unstructured point clouds

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110663068B (zh) 2017-05-23 2024-02-02 皇家Kpn公司 用于渲染全景场景的坐标映射

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079032A1 (en) 2017-10-20 2019-04-25 Interdigital Vc Holdings, Inc. METHOD, APPARATUS AND FLOW FOR VOLUMETRIC VIDEO FORMAT
WO2019226865A1 (en) 2018-05-25 2019-11-28 Magic Leap, Inc. Compression of dynamic unstructured point clouds

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Edouard Lamboray et al.,Dynamic point cloud compression for free viewpoint video,ETH CS Technical Report,2003年12月10日,p.1-7,https://doi.org/10.3929/ethz-a-006731956

Also Published As

Publication number Publication date
CN114788287A (zh) 2022-07-22
EP4070553A1 (en) 2022-10-12
JP2023504846A (ja) 2023-02-07
WO2021110940A1 (en) 2021-06-10
US20230042078A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
US10636220B2 (en) Methods and systems for generating a merged reality scene based on a real-world object and a virtual object
US11508125B1 (en) Navigating a virtual environment of a media content item
EP3695383B1 (en) Method and apparatus for rendering three-dimensional content
US20180115743A1 (en) Predictive virtual reality content streaming techniques
US10750213B2 (en) Methods and systems for customizing virtual reality data
US10891781B2 (en) Methods and systems for rendering frames based on virtual entity description frames
US20130321586A1 (en) Cloud based free viewpoint video streaming
JP2018139102A (ja) 没入型コンテンツ内の関心地点を決定する方法及び装置
US10699749B2 (en) Methods and systems for customizing virtual reality data
CN110663067B (zh) 用于生成现实世界场景的定制视图的虚拟化投影以包括在虚拟现实媒体内容中的方法和系统
JP7447266B2 (ja) ボリュメトリック画像データに関するビューの符号化及び復号
EP3540696A1 (en) A method and an apparatus for volumetric video rendering
CN111200759B (zh) 一种全景视频的播放控制方法、装置、终端及存储介质
WO2023280623A1 (en) Augmenting video or external environment with 3d graphics
CN116208725A (zh) 视频处理方法、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240228

R150 Certificate of patent or registration of utility model

Ref document number: 7447266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150