JP7479386B2 - シーンを表す画像信号 - Google Patents

シーンを表す画像信号 Download PDF

Info

Publication number
JP7479386B2
JP7479386B2 JP2021543209A JP2021543209A JP7479386B2 JP 7479386 B2 JP7479386 B2 JP 7479386B2 JP 2021543209 A JP2021543209 A JP 2021543209A JP 2021543209 A JP2021543209 A JP 2021543209A JP 7479386 B2 JP7479386 B2 JP 7479386B2
Authority
JP
Japan
Prior art keywords
image
ray
images
pixel
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543209A
Other languages
English (en)
Other versions
JPWO2020156827A5 (ja
JP2022518285A (ja
Inventor
ウィルヘルムス ヘンドリクス アルフォンサス ブリュル
クリスティアン ヴァーエカンプ
バート クルーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022518285A publication Critical patent/JP2022518285A/ja
Publication of JPWO2020156827A5 publication Critical patent/JPWO2020156827A5/ja
Application granted granted Critical
Publication of JP7479386B2 publication Critical patent/JP7479386B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Description

本発明は、シーンを表す画像信号に関し、特に、限定されないが、シーンを表す画像信号の生成、及び、仮想現実アプリケーションの一部としてのこの画像信号からの画像のレンダリングに関する。
ビデオを使用及び消費する新しいサービス及び手法が継続的に開発され、及び導入されることに伴って、画像及びビデオアプリケーションの多様性及び範囲が近年大幅に増加している。
例えば、人気の高まっている1つのサービスは、視認者がレンダリングのパラメータを変えるためにシステムと能動的に、及び動的に相互作用することができる手法による画像シーケンスの提供である。多くのアプリケーションにおける非常に魅力的な特徴は、視認者の効果的な視認位置及び視認方向を変える能力であり、例えば視認者が提示されているシーンにおいて動くこと、及び「見て回る」ことを可能にする。
このような特徴は、特に仮想現実体験がユーザーに提供されることを可能にし得る。これは、ユーザーが例えば仮想環境において(比較的)自由に動き回ること、及び、ユーザーの位置及びユーザーが視認している場所を動的に変えることを可能にする。典型的には、このような仮想現実アプリケーションは、モデルが特定の要求されたビューを提供するために動的に評価されることを伴うシーンの三次元モデルに基づく。このアプローチは、例えば、コンピュータ及びコンソールのための例えば一人称シューティングゲームのカテゴリにおけるゲームアプリケーションにおいてよく知られている。
特に仮想現実アプリケーションに対して、提示される画像が三次元画像であることが更に望ましい。実際、視認者の没入感を最適化するために、典型的にはユーザーにとって、三次元シーンとして提示されたシーンを体験することが好ましい。実際、仮想現実体験は好ましくは、仮想世界に対するユーザー自身の位置、カメラビューポイント、及び時点をユーザーが選択することを可能にしなければならない。
典型的には、仮想現実アプリケーションがシーンの所定のモデル、及び典型的には仮想世界の人工モデルに基づくという点で、仮想現実アプリケーションは本質的に制限される。仮想現実体験が現実世界のキャプチャに基づいて提供されることが多くの場合望ましい。しかし、多くの場合、このようなアプローチは制限されるか、又は、現実世界の仮想モデルが現実世界のキャプチャにより構築されることを必要とする傾向がある。したがって、仮想現実体験はこのモデルを評価することにより生成される。
しかし、現在のアプローチは最適ではない傾向があり、多くの場合、高い演算又は通信リソース要求を伴い、及び/又は、例えばより低い品質又は制限された自由度を伴う最適ではないユーザー体験を提供する傾向がある。
多くの、例えば仮想現実アプリケーションでは、シーンは、例えばシーンに対する特定のビューポーズを表す1つ又は複数の画像により画像表現により表される。幾つかの例において、このような画像はシーンの広角ビューを提供し、例えば完全な360°ビューをカバーし、又は完全ビュー球体をカバーする。
360°ビデオストリーミングに基づいて仮想現実体験を提供することが提案されており、ここで、シーンの完全な360°ビューが所与の視認者位置に対してサーバーにより提供され、以て、クライアントが異なる方向に対するビューを生成することを可能にする。特に、仮想現実(VR)の有望なアプリケーションのうちの1つは、全方向ビデオ(例えばVR360又はVR180)である。本アプローチは、高データレートをもたらす傾向を示し、したがって、完全な360°ビュー球体が提供される対象のビューポイントの数は、典型的には少ない数に制限される。
特定の例として、仮想現実眼鏡が市場に参入している。これらの眼鏡は、視認者がキャプチャされた360°(パノラマ)ビデオを体験することを可能にする。これらの360°ビデオは多くの場合、カメラリグを使用して事前にキャプチャされ、この場合、個々の画像は1つの球形マッピングへと一緒に連結される。幾つかのこのような実施形態では、所与のビューポイントからの完全な球形ビューを表す画像が生成され、ユーザーの現在のビューに対応した眼鏡に対する画像を生成するように構成されたドライバに送信される。
多くのシステムにおいて、画像表現がシーンにおける1つ又は複数のキャプチャポイント/ビューポイントに対する画像を含み、及び多くの場合、深さを含むように、シーンの画像表現が提供される。多くのこのようなシステムにおいて、レンダラーは、現在のローカルな視認者ポーズに整合したビューを動的に生成するように構成される。例えば、視認者ポーズは動的に特定され、ビューがこの視認者ポーズに整合するように動的に生成される。
ローカルレンダラーが異なるビューポーズに対するビュー画像を動的に合成することを可能にするために画像表現が通信されるシステムでは、画像表現の特定の特徴及び特性が、最適な動作のために重要である。画像表現が、十分に低いデータレートを維持しながら、レンダリングされた画像の高い画像品質を可能にする情報を提供することが可能であることが所望される。更に、画像表現の生成と使用との両方に対して複雑さ及びリソース使用の少ないことが望ましい。
画像データによりシーンを表すための多くの異なる形式が提案されており、これらの多くが様々な標準化団体により標準化されている。完全な360°画像をサポートする1つの特定の形式が、全方向ステレオとして知られる。この形式では、ある画像が右目に対して提供され、別の画像が左目に対して提供され、各画像が、眼球の中心点の周りで360°回転させられたときの視認者の眼球に対応したビュー円の接線に沿ったビューを含む。
しかし、従来の画像表現及び形式の多くが、多くのアプリケーション及びサービスにおいて良いパフォーマンスを提供するのに対し、従来の画像表現及び形式の多くは、少なくとも幾つかの状況では最適ではない傾向がある。
したがって、シーンの画像表現を含む画像信号を処理するための、及び生成するための改善されたアプローチが有益である。特に、改善された動作、改善された柔軟性、改善された仮想現実体験、より低いデータレート、より高い効率、円滑化された配布、より低い複雑さ、円滑化された実施、低減されたストレージ要求、より高い画像品質、改善されたレンダリング、改善されたユーザー体験、及び/又は、改善されたパフォーマンス及び/又は動作を可能にするシステム及び/又はアプローチが有益である。
したがって、本発明は、好ましくは、単独で、又は任意の組み合わせにより、上述の欠点のうちの1つ又は複数を緩和、軽減、又は、除去することを目的とする。
本発明の一態様によると、シーンを表す画像信号から画像をレンダリングするための装置であって、装置は、画像信号を受信するための受信部であって、画像信号が、画像データとメタデータとを含み、画像データが、幾つかの画像を含み、各画像が、ピクセルを含み、各ピクセルが、半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表し、半直線始点が、少なくとも幾つかのピクセルに対して異なる位置であり、メタデータが、ピクセル画像位置の関数としてピクセルに対する半直線始点と半直線方向とのうちの少なくとも1つの変動を表す複数のパラメータを含む、受信部と、幾つかの画像から、及び複数のパラメータに応じて画像をレンダリングするためのレンダラーとを備える、装置が提供される。
本発明は、シーンの改善された表現を提供し、多くの実施形態及びシナリオにおいて、画像信号のデータレートに対する、レンダリングされた画像改善された画像品質を提供する。多くの実施形態において、シーンのより効率的な表現が提供され、例えば、より低いデータレートにより所与の品質が達成されることを可能にする。本アプローチは、シーンの画像をレンダリングするためのより柔軟な、及び効率的なアプローチを提供し、例えばシーン特性に対する改善された適応を可能にする。
本アプローチは、多くの実施形態において、柔軟な、効率的な、及び高パフォーマンスの仮想現実(VR)アプリケーションに適したシーンの画像表現を使用する。多くの実施形態において、本アプローチは、画像品質とデータレートとの間の大幅に改善されたトレードオフを伴うVRアプリケーションを可能にし、又はできるようにする。多くの実施形態において、本アプローチは、改善された知覚される画像品質及び/又はより低いデータレートを可能にする。
本アプローチは、例えば、受信側における動き及び頭部の回転への適応をサポートするブロードキャストビデオサービスに適する。
幾つかの画像は、特に、光強度画像、深さマップ、及び/又は透明度マップである。画像特性は、深さ特性、透明度特性、又は光強度特性(例えば色チャンネル値)である。
多くの実施形態において、各ピクセルは、参照テーブル、又はパラメータを介して表された関数(直線、余弦、又は正弦など)を介して提供され得る異なる始点及び方向をもつ。
画像データは、幾つかの画像、すなわち、1つ又は複数の画像/少なくとも1つの画像を含む。メタデータは、複数のパラメータ、すなわち2つ以上のパラメータ/少なくとも2つのパラメータを含む。
本発明の任意選択的な特徴によると、幾つかの画像のうちの少なくとも1つの画像のピクセルの水平行の半直線位置が、シーンの水平面における曲線に写像され、複数のパラメータが、曲線の特性を表す。
これは、多くの実施形態において特に効率的な表現を提供する。それは複雑さを減らし、多くの例において、通信させられる必要があるパラメータ情報の量を減らす。したがって、それは、これに必要なメタデータの量を減らし、したがって、オーバーヘッドを減らす。
本発明の任意選択的な特徴によると、曲線は楕円であり、複数のパラメータは楕円の特性を表す。
これは、特に、多くの実施形態において効率的なアプローチであり、複雑さ、データレート、特定の状態への適応可能性、自由度、及びレンダリングされた画像のもち得る画像品質の間の特に望ましいトレードオフを提供する。
特性は、特に、サイズ及び偏心率の標示である。
本発明の任意選択的な特徴によると、曲線は閉曲線である。
これは、多くの実施形態において特に有益である。
本発明の任意選択的な特徴によると、閉曲線は長円形であり、複数のパラメータは長円形の特性を表す。
これは、特に、多くの実施形態において効率的なアプローチであり、複雑さ、データレート、特定の状態への適応可能性、自由度、及びレンダリングされた画像のもち得る画像品質の間の特に望ましいトレードオフを提供する。
本発明の任意選択的な特徴によると、複数のパラメータが、幾つかの画像のうちの画像に結び付けられた、及び画像より低い分解能をもつマップにより提供され、マップは、マップにおけるピクセル値の位置に対応した画像における位置に対する半直線始点と半直線方向とのうちの少なくとも1つを示すピクセル値をもち、レンダラーは、マップのピクセル値から補間により画像における幾つかの位置に対する半直線始点と半直線方向とのうちの少なくとも1つを特定するように構成される。
これは、特に、多くの実施形態において効率的なアプローチであり、複雑さ、データレート、特定の状態への適応可能性、自由度、及びレンダリングされた画像のもち得る画像品質の間の特に望ましいトレードオフを提供する。
本アプローチは、特に、半直線位置及び/又は半直線方向に対する高い程度の柔軟性及び適応可能性を可能にしながら、これの情報を通信するために必要なメタデータの低オーバーヘッドを維持する。
本発明の任意選択的な特徴によると、画像位置から半直線始点と半直線方向とのうちの少なくとも1つへの写像は、連続関数である。
これは、多くの実施形態において特に有益である。
本発明の任意選択的な特徴によると、画像データは複数の画像を含み、複数のパラメータは複数の画像のうちの少なくとも2つの画像に対するピクセル画像位置を半直線始点と半直線方向とのうちの1つに写像するための異なる関数を表す。
これは、半直線始点/方向を適応させることにおいて、より高い自由度を可能にし、したがって、改善された画像品質を可能にする。画像データに含まれる幾つかの画像は複数の画像であり、複数のパラメータはこれらののうちの少なくとも2つに対する異なる関数を表す。
幾つかの実施形態において、複数のパラメータは、少なくとも2つの画像に対する半直線始点間の異なるオフセットを表す。
本発明の任意選択的な特徴によると、複数の画像のうちの少なくとも2つの画像は部分的視野を表し、部分的視野は、少なくとも2つの画像に対して異なる。
これは、多くの実施形態において特に有益である。
本発明の任意選択的な特徴によると、半直線始点と半直線方向とのうちの少なくとも1つの変動は、半直線方向の変動である(しかし、場合によっては半直線始点ではない)。
本発明の任意選択的な特徴によると、半直線始点と半直線方向とのうちの少なくとも1つの変動は、半直線始点の変動である(しかし、場合によっては半直線方向ではない)。
幾つかの実施形態において、複数のパラメータは、ピクセル画像位置の関数として、ピクセルに対する半直線方向の変動を表す。
幾つかの実施形態において、複数のパラメータは、ピクセル画像位置の関数として、ピクセルに対する半直線始点の変動を表す。
本発明の任意選択的な特徴によると、幾つかの画像は、第1の光強度画像と第1の光強度画像に対する深さ値画像とを含み、第1の深さ値画像は、第1の光強度画像のピクセルに対する深さ値をもち、第1の光強度画像の第1のピクセルに対する深さ値は、半直線方向に沿った第1のピクセルに対する半直線始点から第1のピクセルにより表されたオブジェクトまでの距離を示し、レンダラーは、第1の光強度画像と第1の深さ値画像とに応じて画像をレンダリングするように構成される。
本発明の任意選択的な特徴によると、レンダラーは、深さ値画像に応じて第1の光強度画像の画像オブジェクトに対するシーン位置を特定するように、及び、シーン位置に応じて画像をレンダリングするように構成される。
本発明の一態様によると、シーンを表す画像信号を生成するための装置であって、装置が、幾つかの画像を含む画像データを生成するための第1の生成器であって、各画像が、ピクセルを含み、各ピクセルが、半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表し、半直線始点が、少なくとも幾つかのピクセルに対して異なる位置である、第1の生成器と、ピクセル画像位置の関数としてピクセルに対する半直線始点と半直線方向とのうちの少なくとも1つの変動を表す複数のパラメータを含むメタデータを生成するための第2の生成器と、画像信号を生成するための信号生成器であって、信号生成器が、画像信号に画像データとメタデータとを含めるように構成された、信号生成器とを備える、装置が提供される。
画像信号は、幾つかの画像のうちの少なくとも第1の画像に対する少なくとも第1の深さマップを更に含み、第1の深さマップは、第1の画像のピクセルに対する深さ値をもち、第1の画像の第1のピクセルに対する深さ値は、半直線方向に沿った第1のピクセルに対する半直線始点から第1のピクセルにより表されたオブジェクトまでの距離を示す。
幾つかの画像は、第1の光強度画像と第1の光強度画像に対する深さ値画像とを含み、第1の深さ値画像が、第1の光強度画像のピクセルに対する深さ値をもち、第1の光強度画像の第1のピクセルに対する深さ値が、半直線方向に沿った第1のピクセルに対する半直線始点から第1のピクセルにより表されたオブジェクトまでの距離を示す。
本発明の一態様によると、シーンを表す画像信号から画像をレンダリングする方法であって、方法が、画像信号を受信するステップであって、画像信号が、画像データとメタデータとを含み、画像データが、幾つかの画像を含み、各画像が、ピクセルを含み、各ピクセルが、半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表し、半直線始点が、少なくとも幾つかのピクセルに対して異なる位置であり、メタデータが、ピクセル画像位置の関数としてピクセルに対する半直線始点と半直線方向とのうちの少なくとも1つの変動を表す複数のパラメータを含む、受信するステップと、幾つかの画像から、及び複数のパラメータに応じて画像をレンダリングするステップとを有する、方法が提供される。
本発明の一態様によると、シーンを表す画像信号を生成する方法であって、方法が、幾つかの画像を含む画像データを生成するステップであって、各画像が、ピクセルを含み、各ピクセルが、半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表し、半直線始点が、少なくとも幾つかのピクセルに対して異なる位置である、生成するステップと、ピクセル画像位置の関数としてピクセルに対する半直線始点と半直線方向とのうちの少なくとも1つの変動を表す複数のパラメータを含むメタデータを生成するステップと、画像信号を生成するステップであって、信号生成器が、画像信号に画像データとメタデータとを含めるように構成される、生成するステップとを有する、方法が提供される。
本発明の一態様によると、幾つかの画像を含む画像データであって、各画像が、ピクセルを含み、各ピクセルが、半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表し、半直線始点が、少なくとも幾つかのピクセルに対して異なる位置である、画像データと、ピクセル画像位置の関数としてピクセルに対する半直線始点と半直線方向とのうちの少なくとも1つの変動を表す複数のパラメータを含むメタデータとを含む、画像信号が提供される。
本発明のこれらの、及び、他の態様、特徴及び利点が、以下で説明される実施形態から明らかとなり、以下で説明される実施形態を参照しながら説明される。
本発明の実施形態が、図面を参照しながら、単なる例示として説明される。
仮想現実体験を提供するための構成体の例を示す図である。 本発明の幾つかの実施形態による、装置の要素の例を示す図である。 本発明の幾つかの実施形態による、装置の要素の例を示す図である。 シーンの全方向ステレオ画像表現の例を示す図である。 シーンの全方向ステレオ画像表現の例を示す図である。 深さマップを伴う全方向ステレオ画像の例を示す図である。 本発明の幾つかの実施形態による、画像表現に対する半直線始点及び半直線方向の例を示す図である。 本発明の幾つかの実施形態による、画像表現に対する半直線始点及び半直線方向の例を示す図である。 本発明の幾つかの実施形態による、画像表現に対する半直線始点及び半直線方向の例を示す図である。 本発明の幾つかの実施形態による、画像表現に対する半直線始点及び半直線方向の例を示す図である。
ユーザーが仮想世界において動き回ることを可能にする仮想体験は、益々一般的になりつつあり、このような需要を満たすためのサービスが開発されている。しかし、特に、体験が完全に仮想的に生成された人工的な世界ではなく、現実世界環境のキャプチャに基づく場合、効率的な仮想現実サービスの提供は非常に困難を伴う。
多くの仮想現実アプリケーションにおいて、視認者ポーズ入力はシーンにおける仮想視認者のポーズを反映して特定される。したがって、仮想現実装置/システム/アプリケーションは、視認者ポーズに対応した視認者に対するシーンのビュー及びビューポートに対応した1つ又は複数の画像を生成する。
典型的には、仮想現実アプリケーションは、左目及び右目に対する別々のビュー画像の形態をとる三次元出力を生成する。次に、これらのビュー画像は、例えば典型的にはVRヘッドセットの個々の左目ディスプレイ及び右目ディスプレイといった適切な手段によりユーザーに提示される。他の実施形態において、画像は、例えば裸眼立体視ディスプレイに提示され(この場合、より多くのビュー画像が視認者ポーズに対して生成される)、又は、実際に幾つかの実施形態において、(例えば従来の二次元ディスプレイを使用して)1つの二次元画像のみが生成される。
視認者ポーズ入力は、異なるアプリケーションにおいて異なる手法により特定されてもよい。多くの実施形態において、ユーザーの物理的動きが直接追跡される。例えば、ユーザーエリアを見渡すカメラが、ユーザーの頭部(又は更には眼球)を検出及び追跡する。多くの実施形態において、ユーザーは、外部手段及び/又は内部手段により追跡され得るVRヘッドセットを装着する。例えば、ヘッドセットは、ヘッドセットの、ひいては頭部の動き及び回転に関する情報を提供する加速度計とジャイロスコープとを備える。幾つかの例において、VRヘッドセットは信号を送信し、又は、外部センサーがVRヘッドセットの動きを特定することを可能にする(例えば視覚的)識別体を備える。
幾つかのシステムにおいて、視認者ポーズは、例えばユーザーがジョイスティックを手動で制御すること、又は同様の手動入力といった手動の手段により提供される。例えば、ユーザーは、一方の手で第1のアナログジョイスティックを制御すること、及び、他方の手で第2のアナログジョイスティックを手動で動かすことにより仮想視認者が視認する方向を手動で制御することにより、シーンにおいて仮想視認者を手動で動き回らせる。
幾つかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせが、入力視認者ポーズを生成するために使用される。例えば、ヘッドセットは頭部の配向を追跡し、シーンにおける視認者の動き/位置が、ジョイスティックを使用してユーザーにより制御される。
画像の生成は、仮想世界/環境/シーンの適切な表現に基づく。幾つかの用途では、完全な三次元モデルがシーンに対して提供され、特定の視認者ポーズからのシーンのビューが、このモデルを評価することにより特定され得る。
多くの実用的なシステムにおいて、シーンは、画像データを含む画像表現により表される。画像データは、典型的には、1つ又は複数のキャプチャ又はアンカーポーズに関連した1つ又は複数の画像を含み、特に、画像は1つ又は複数のビューポートに対して含まれ、各ビューポートが特定のポーズに対応する。1つ又は複数の画像を含む画像表現が使用され、各画像が所与のビューポーズに対する所与のビューポートのビューを表す。(画像データは、典型的には、キャプチャポーズに対応した位置及び配向をもつシーンに配置されたカメラによりキャプチャされる、又は、される可能性のある画像に対応するので)画像データが提供される対象のこのようなビューポーズ又は位置は、多くの場合、アンカーポーズ又は位置又はキャプチャポーズ又は位置と呼ばれる。
多くの典型的なVRアプリケーションは、このような画像表現に基づいて、現在の視認者ポーズに対するシーンに対するビューポートに対応したビュー画像を提供することを行い、画像が視認者ポーズの変化を反映するように動的に更新され、画像が(場合によっては)仮想シーン/環境/世界を表す画像データに基づいて生成される。アプリケーションは、当業者に理解可能であるように、ビュー合成及びビューシフトアルゴリズムを実施することによりこれを行う。
本分野において、配置及びポーズという用語は、位置及び/又は方向/配向に対する共通用語として使用される。例えば物体、カメラ、頭部、又はビューの位置及び方向/配向の組み合わせは、ポーズ又は配置と呼ばれる。したがって、配置又はポーズ標示は6つの値/成分/自由度を含み、各値/成分は、典型的には、対応する物体の配置/位置又は配向/方向の個々の特性を表す。もちろん、多くの状況において、例えば、1つ又は複数の成分が固定されている、又は関連しないと考えられる場合、配置又はポーズはより少ない成分をもつと考えられ、又はより少ない成分により表される(例えば、すべての物体が同じ高さにあり、水平配向であると考えられる場合、4つの成分が物体のポーズの完全な表現を提供する)。以下で、ポーズという用語は、(最大の取り得る自由度に対応した)1つから6つの値により表される位置及び/又は配向を表すために使用される。
多くのVRアプリケーションは、最大自由度、すなわち、位置及び配向の各々の3つの自由度をもつポーズに基づき、全部で6つの自由度をもたらす。したがって、ポーズは、6つの自由度を表す6つの値の集合又はベクトルにより表され、したがって、ポーズベクトルは、三次元位置及び/又は三次元方向の標示を提供する。しかし、他の実施形態において、ポーズがより少ない値により表されることが理解される。
ポーズは、配向及び位置のうちの少なくとも1つである。ポーズ値は、配向値及び位置値のうちの少なくとも1つを表す。
視認者に対する最大自由度を提供することに基づくシステム又は実体は、典型的には、6つの自由度(6DoF)をもつものとして参照される。多くのシステム及び実体が配向又は位置のみを提供し、これらは典型的には、3つの自由度(3DoF)をもつものとして知られる。
幾つかのシステムにおいて、VRアプリケーションは、例えば、リモートVRデータ又は処理を全く使用しない、又は更には任意のリモートVRデータ又は処理への任意のアクセスを含む独立型デバイスにより、視認者に対してローカルに提供される。例えば、デバイス、例えばゲームコンソールは、シーンデータを記憶するための記憶部、視認者ポーズを受信/生成するための入力、及び、シーンデータから対応する画像を生成するためのプロセッサを備える。
他のシステムにおいて、VRアプリケーションは、視認者からリモートに実現され、及び実施される。例えば、ユーザーにとってローカルなデバイスは、視認者ポーズを生成するためにデータを処理するリモートデバイスに送信された動き/ポーズデータを検出/受信する。リモートデバイスは、次に、シーンを表すシーンデータに基づいて、視認者ポーズに対する適切なビュー画像を生成する。次に、ビュー画像が提示される視認者にとってローカルなデバイスに、ビュー画像が送信される。例えば、リモートデバイスは、ローカルデバイスにより直接提示されるビデオストリーム(典型的にはステレオ/3Dビデオストリーム)を直接生成する。したがって、このような例において、ローカルデバイスは、動きデータを送信することと、受信されたビデオデータを提示することとを除く任意のVR処理を実施しない場合がある。
多くのシステムにおいて、機能は、ローカルデバイス及びリモートデバイスにわたって分散される。例えば、ローカルデバイスが、受信された入力及びセンサーデータを処理して、リモートVRデバイスに連続的に送信される視認者ポーズを生成する。次に、リモートVRデバイスが対応するビュー画像を生成し、提示するためにローカルデバイスにこれらの対応するビュー画像を送信する。他のシステムにおいて、リモートVRデバイスはビュー画像を直接生成しないが、関連するシーンデータを選択してローカルデバイスにこれを送信し、次に、ローカルデバイスが提示されたビュー画像を生成する。例えば、リモートVRデバイスは最も近いキャプチャポイントを識別し、対応するシーンデータ(例えば、キャプチャポイントからの球形画像及び深さデータ)を抽出し、ローカルデバイスにこれを送信する。次に、ローカルデバイスが受信されたシーンデータを処理して、特定の現在のビューポーズに対する画像を生成する。ビューポーズは典型的には頭部ポーズに対応し、ビューポーズに対する基準は、典型的には同様に、頭部ポーズに対する基準に対応すると考えられる。
特にブロードキャストサービスのための多くのアプリケーションにおいて、源は、視認者ポーズに依存しないシーンの(ビデオを包含する)画像表現の形態によりシーンデータを送信する。例えば、1つのキャプチャ位置に対する1つのビュー球体に対する画像表現が、複数のクライアントに送信される。次に、個々のクライアントは、現在の視認者ポーズに対応したビュー画像をローカルに合成する。
特定の関心を引くアプリケーションは、小さい頭部の動き及び頭部の回転のみをもたらす非常に静的な視認者に対応した小さい動き及び回転に従うように提示されたビューが更新されるように、限られた動き量がサポートされる場合である。例えば、座っている視認者は、視認者の頭部を回転させ、及び頭部をわずかに動かし得、提示されたビュー/画像がこれらのポーズ変化に沿うように適応される。このようなアプローチは、非常に没入させる、例えばビデオ体験を提供する。例えば、スポーツイベントを見ている視認者は、視認者がアリーナにおける特定のスポットに存在していると感じる。
このような限られた自由度のアプリケーションは、多くの異なる位置からのシーンの正確な表現を必要とせずに、改善された体験を提供し、以てキャプチャ要求を大幅に低減するという利点をもつ。同様に、レンダラーに提供される必要があるデータの量は大幅に少なくされ得る。実際、多くのシナリオにおいて、1つのビューポイントに対する画像、及び典型的には深さデータしか提供される必要がなく、ローカルレンダラーがここから所望のビューを生成することができる。
本アプローチは、特に、データが、例えばブロードキャスト又はクライアントサーバーアプリケーションのために、帯域制限のある通信チャンネルを介して源から宛先に通信させられる必要があるアプリケーションに非常に適する。
図1は、リモートVRクライアントデバイス101が例えばインターネットなどのネットワーク105を介してVRサーバー103と連携するこのようなVRシステムの例を示す。サーバー103は、場合によっては多数のクライアントデバイス101を同時にサポートするように構成される。
VRサーバー103は、例えば、適切なポーズに対応したビュー画像をローカルに合成するためにクライアントデバイスにより使用され得る画像データの形態をとる画像表現を含む画像信号を送信することによりブロードキャスト体験をサポートする。
図2は、VRサーバー103の例示的な実施態様の例示的な要素を示す。
本装置は、1つ又は複数の画像の形態をとるシーンの画像表現を生成するように構成された第1の生成器201を備える。画像は、例えば、シーンのモデルを評価することに基づいて、又は、例えば場合によっては多数のカメラによる現実世界のキャプチャに基づいて生成される。
本装置は、画像表現を含む画像信号を生成する出力プロセッサ203を更に備え、したがって、画像信号は、特に、1つ又は複数の画像の画像データを含む。多くの実施形態において、出力プロセッサ207は、画像を符号化するように、及び、例えば適切な規格に従って生成されたデータストリームといった適切なデータストリームにそれらを含むように構成される。
出力プロセッサ207は、リモートクライアント/デバイスに画像信号を送信するように、又はブロードキャストするように更に構成され、特に、画像信号はクライアントデバイス101に通信される。
図3は、本発明の幾つかの実施形態による画像をレンダリングするための装置の幾つかの要素の例を示す。本装置は図1のシステムに関するコンテキストにおいて説明され、特に、本装置はクライアントデバイス101である。
クライアントデバイス101は、サーバー103から画像信号を受信するように構成されたデータ受信器301を備える。本発明を損なわない限り、通信のための任意の適切なアプローチ及び形式が使用されてよいことが理解される。したがって、データ受信器は、幾つかの、すなわち1つ又は複数の画像に対する画像データを受信する。
データ受信器301は、異なるビューポート/視認者ポーズに対するビュー画像を生成するように構成されたレンダラー303に結合される。
クライアントデバイス101は、現在の視認者ポーズを動的に特定するように構成されたビューポーズ特定部305を更に備える。特に、ビューポーズ特定部305は、ヘッドセットの動きを反映したヘッドセットからのデータを受信する。ビューポーズ特定部305は、受信されたデータに基づいてビューポーズを決定するように構成される。幾つかの実施形態において、ビューポーズ特定部305は、例えばセンサー情報(例えば、加速器及びジャイロデータ)を受信し、センサー情報からビューポーズを特定する。他の実施形態において、ヘッドセットはビューポーズデータを直接提供する。
ビューポーズはレンダラー303に供給され、レンダラー303が、現在の視認者ポーズにおける視認者の2つの眼球からのシーンのビューに対応したビュー画像を生成することを行う。ビュー画像は、任意の適切な画像生成及び合成アルゴリズムを使用して、受信された画像データから生成される。特定のアルゴリズムは、特定の画像表現、及び、個々の実施形態の設定及び要求に依存する。
本アプローチが、特に、検出された視認者運動に対応したビュー画像を動的に生成するために使用されるが、本アプローチは他の手法により使用されてもよいことが理解される。例えば、所定のポーズ集合が、レンダラー303においてローカルに記憶され、視認者は対応するビューを連続して提供され、以て、「筋書きに沿った」体験を提供する。
レンダラー303は、受信された画像表現に基づいて現在のビューポーズに対するビュー画像を生成するように構成される。特に、右目画像及び左目画像が立体ディスプレイ(例えばヘッドセット)のために生成され、又は、複数のビュー画像が裸眼立体視ディスプレイのビューのために生成される。シーンの提供された画像からビュー画像を生成するための多くの異なるアルゴリズム及び技術が知られていること、及び、任意の適切なアルゴリズムが特定の実施形態に応じて使用されることが理解される。
既存の3D画像形式は、全方向ステレオ(ODS)として知られる。ODSに対して、画像は、視認者の左目及び右目に対して提供される。しかし、1つの左目位置からのビューポートを表す左目画像、及び、1つの右目位置からのビューポートを表す右目画像ではなく、ピクセルは、眼球の真っ直ぐ前方における、及び実質的に視野をもたないシーンのみを表す。画像は、(視認者が眼球位置の中心点の周りで視認者の頭部を回転させることに対応した)眼球が眼球位置の中心点の周りで回転したときの真っ直ぐ前方のビューを表すピクセルにより形成される。したがって、眼球間の中心点の周りでの回転は本質的に円を形成し、眼球はこの円上に留まる。ODSの画像は、円上の異なる位置に対してこの円からのビューを反映するように生成される。特に、円上の所与の位置に対するピクセル値は、この点における円に対する接線に沿ったビューを反映するように生成される。
したがって、ODSに対して、左目画像及び右目画像に対する半直線が、典型的には例えば約6.3cmの瞳孔間距離に等しい直径をもつ円上にそれらの半直線の原点をもつように、左目画像及び右目画像に対する半直線が生成される。ODSに対して、狭角度画像セクションが、ビュー円の接線に対応した逆方向に対して、及びビュー円の周囲における規則的な角距離においてキャプチャされる(図4を参照されたい)。
したがって、ODSに対して、画像が左目に対して生成され、ここで、各ピクセル列が単位円上の1つの位置に対応し、この位置におけるODSビュー円に対する接線である方向に半直線を反射する。ODSビュー円上の位置は各列に対して異なり、典型的には、ODSビュー円上における比較的多数の等距離の位置が、360°の視野の全体をカバーするように規定され、各列が1つの位置に対応する。したがって、1つのODS画像は完全な360°の視野をキャプチャし、各列がODSビュー円上の異なる位置に対応し、及び異なる半直線方向に対応する。
ODSは、右目に対する画像と左目に対する画像とを含む。図6に示されるように、これらの画像における所与の列に対して、左目画像と右目画像とはODSビュー円上の反対側の位置の半直線を反映する。したがって、ODS画像形式は、360°ビューと、2つの画像のみに基づく立体情報との両方を提供する。
所与の配向(視認角度)に対して、所与の配向に対するビューポート内におけるビュー方向に整合した方向に対する狭角度画像セクションを組み合わせることにより、画像が生成される。したがって、異なる方向におけるキャプチャに対応した狭角度画像セクションを組み合わせるが、異なる狭角度画像セクションが円上の異なる位置からのものとすることにより、所与のビュー画像が形成される。したがって、ビュー画像は、1つのビューポイントのみからではなく、ビュー円上の異なる位置からのキャプチャを含む。しかし、ODS表現のビュー円が(シーンのコンテンツに対して)十分に小さい場合、この影響は、許容可能なレベルまで低減され得る。更に、所与の方向に沿ったキャプチャが多くの異なる視認配向に対して再使用され得るので、必要な画像データ量の大幅な減少が実現される。視認者の2つの眼球に対するビュー画像は、典型的には、適切な接線に対して逆方向にキャプチャすることにより生成される。
ODSによりサポートされ得る理想的な頭部の回転の例が図5に示される。本例において、両目が瞳孔間距離に等しい直径をもつ円に沿って動くように、頭部が回転する。これがODSビュー円の幅に対応すると仮定すると、異なる配向に対するビュー画像は、異なるビュー配向に対応した適切な狭角度画像セクションを選択することにより簡単に特定され得る。
しかし、標準的なODSに対して、観測者は立体視を知覚するが、運動視差を知覚しない。運動視差のないことは、(数センチメートル程度の)少しの観測者の運動に対しても不快な体験を提供する傾向がある。例えば、眼球がもはや厳密にODSビュー円上に位置しないように視認者が動く場合、単に適切な狭角度画像セクションを選択して組み合わせることに基づいてビュー画像を生成することは、生成されたビュー画像が、ユーザーの眼球がビュー円上に留まっている場合と同じになることをもたらし、したがって、ユーザーがユーザーの頭部を動かすことによりもたらされなければならない視差が表されず、これは、知覚が現実世界に対して動くことができないということをもたらす。
これを解決するために、及び、ODSデータに基づく運動視差の生成を可能にするために、ODS形式は、深さ情報を含むように拡張される。1つの狭角度深さマップセクションが、各狭角度画像セクションに対して追加される。関連する深さマップを伴うODS画像の例が図6に示される。この深さ情報は、生成された画像がビュー円の外部(又は内部)の新しい位置に対応するようにビューポイントシフトを実施するために使用される(例えば、各ビュー画像又は狭角度画像セクションは、知られた画像と深さベースのビューポイントシフトアルゴリズムとを使用して処理される)。例えば、3Dメッシュが各眼球に対して生成され、左目及び右目に対するメッシュ及びテクスチャに基づくODSデータのレンダリングが、運動視差を導入するために使用され得る。
しかし、画像表現が、例えば、異なるキャプチャポーズに対する多くの画像に、又はODSデータに基づくか否かに関わらず、画像データが提供される対象のアンカーポーズと異なるポーズに対するビュー画像を生成することは、生じ得る画像の劣化をもたらすアーティファクト及び誤差を導入する傾向を示す。
図1~図3のシステムのアプローチでは異なるアプローチが使用され、特に、異なる画像表現が使用される。本アプローチは、眼球の回転に基づいておらず、実際、人間のステレオ的知覚及び顔つきと画像表現との間に近い相関が存在しなければならないという基本的な従来の前提を捨てている。本アプローチは、代替的に、多くのシナリオにおいて大幅に良いパフォーマンス、及び特に大幅に改善された画像品質対データレートのトレードオフを提供する非常に柔軟な、及び非常に適応性のあるアプローチを提供する。
本アプローチは、画像がピクセルを含み、各ピクセルが半直線始点からの半直線方向をもつ半直線に沿ったシーンの画像特性を表す画像表現に基づいている。したがって、各ピクセルは、半直線/直線の始点である位置に結び付けられる。各ピクセル始点からの半直線/直線の方向である方向に更に結び付けられる。したがって、各ピクセルは、位置/始点とこの位置/始点からの方向とにより規定された半直線/直線に結び付けられる。ピクセル値は、ピクセルに対する半直線と(背景を含む)シーンオブジェクトとの第1の交差部におけるシーンに対する適切な特性により与えられる。したがって、ピクセル値は、半直線始点位置から延びた、及びピクセルに関連した半直線方向をもつ半直線/直線の遠端におけるシーンの特性を表す。
多くの場合、画像特性は光強度特性であり、ピクセル値は、始点の位置から半直線の方向におけるシーンオブジェクト(又は背景)に対する光強度である。特に、ピクセル値は、半直線始点からの、及び半直線方向におけるシーンに対する光強度値である。このような場合におけるピクセル値は、半直線方向により示される方向から原点位置において受光された光線の光強度の尺度である。光強度は、ある色チャンネルにおける、又は、例えば限られた帯域幅における光強度である。
画像特性が、例えば深さ特性である場合、ピクセル値は、半直線始点から半直線方向における第1の画像オブジェクトまでの距離を表す。画像特性が透明度である例の場合、ピクセル値は、半直線始点から半直線方向の方向における画像オブジェクトの透明度を反映する。
多くの実施形態において、光強度画像と典型的には深さマップと呼ばれる深さ値画像との整合したペアが提供される。このような場合において、(光強度画像及び深さマップにおける同じ位置における)所与のピクセルに対して、光強度画像値は、半直線始点から半直線の方向におけるシーンオブジェクト(又は背景)に対する光強度を示し、深さ値は、半直線方向における半直線始点からシーン/画像オブジェクトまでの距離を示す。したがって、光強度画像における各ピクセルに対して、深さマップは、ピクセルにより表された物体までの距離を示す深さ値をもつ。距離を示すことに適した任意のパラメータ/尺度が使用されてもよく、例えば、深さ値は、距離、視差、Z値、1/Z値などとして与えられる。
更に、すべてのピクセルが同じ位置からのビューを表す従来の画像とは対照的に、説明されているアプローチの画像表現は、異なる始点/位置を表す(少なくとも幾つかの)ピクセルを含む。典型的には、(少なくとも幾つかの)ピクセルは、異なる方向を更に表す。
本アプローチは、半直線始点及び/又は半直線方向が柔軟に、及び適応的に選択されることを可能にすることに基づいている。特に、多くの実施形態において、所与の画像のピクセルに対する半直線方向及び半直線始点は、所与の条件に対して、例えばシーンの特徴に応じて適応され、及び少なくとも部分的に最適化される。この適応及び最適化は源において、すなわち特にVRサーバー103において実施され、メタデータがシンク、特にクライアントデバイス101に通信され、レンダリング処理において使用される。
例えば、所与の画像に対して位置の集合が特定され、画像のピクセル値は、これらの位置に始点をもった、及び、例えば曲線に対する所定の方向をもった、例えばその位置における曲線の勾配に直交した半直線を表す。このような例は図7に示されており、図において、矢印は曲線上の所与の半直線始点からの半直線方向を示す。各列が1つの矢印に対するピクセル値を提供する、すなわち、各列が所与の水平の半直線方向及び半直線始点に対する縦ビューを表す画像が生成される。したがって、画像は曲線の全体に対するビュー情報を表し、各列が異なる方向における、及び曲線に沿った異なる始点からの非常に狭いビューを表す。
別の例として、所与の画像に対して、方向の集合が特定され、画像のピクセル値は、例えば線上における等距離の点などの所定の始点をもつ半直線を表す。このような例は図8に示されており、図において、矢印は所与の所定の半直線始点からの半直線方向を示す。各列が1つの矢印に対するピクセル値を提供する、すなわち各列が所与の水平の半直線方向及び半直線始点に対する縦ビューを表す画像が生成される。したがって、画像は、異なる半直線方向及び半直線始点の集合からのシーンのビュー情報を表し、各列は、異なる方向における、及び線に沿った異なる始点からの非常に狭いビューを表す。
幾つかの例において、適応は、半直線方向と半直線始点との両方を含み、例えば、半直線方向と半直線始点との両方が、例えばシーンに応じて柔軟に選択される。
本アプローチは、多くの実施形態において改善された画像品質を可能にし、例えば、半直線が特定の重要性をもつシーンオブジェクト又は領域(例えば顔)に、又は、キャプチャすることがより困難な物体又は領域(例えば非常に詳細なオブジェクト)に集束することを可能にする。しかし、シーンのこの改善された表現は、低データレートを依然として維持しながら、及び、特に、例えば単一画像(又は、例えば少ない数の単一又はステレオ画像。例えば、2~6個の単一画像又は1~3個のステレオ画像)における情報を依然として表すことにより実現され得る。したがって、所与のデータレートに対して高い画像品質のレンダリングされた画像を可能にする極めて効率的な画像信号が生成され得る。
柔軟で動的な適応及び最適化をサポートするために、VRサーバー101は、ピクセル画像位置の関数としてピクセルに対する半直線始点及び/又は半直線方向の変動を表す2つ以上のパラメータ(自由度)を含むメタデータを生成するように構成されたメタデータ生成器205を更に備える。したがって、パラメータは、画像表現の画像のピクセルと対応する半直線始点及び半直線方向との間の写像又は結び付きの説明を提供する。
メタデータ生成器205は、パラメータを表すメタデータを画像信号に含めるように構成された出力プロセッサ203に結合されている。本発明を損なわない限り、メタデータによりパラメータを表すための、及び、画像信号へのこのメタデータのエンコード及び包含のための任意の適切なアプローチが使用されてもよいことが理解される。
クライアントデバイス101は、画像信号からのメタデータをデータ受信部301から供給されるメタデータプロセッサ307を更に備える。メタデータプロセッサ307は、メタデータからパラメータを抽出するように、及びレンダラーにこれらを供給するように構成されている。パラメータは、受信された画像の所与のピクセルに対する半直線始点と半直線方向とを特定するためにレンダラー303により使用される。したがって、レンダラーは、画像とパラメータとに応じてレンダリングを実施するように構成される。
レンダラー303は、ピクセル位置と半直線始点と半直線方向とのうちの少なくとも1つとの間の写像を特定するように、及び、写像に基づいて、受信された幾つかの画像のピクセルに対する半直線始点と半直線方向とを特定するように構成されている。次に、レンダラー303は、受信された画像と、受信された画像のピクセルに対して特定された、特定された半直線方向及び半直線始点とに基づいて、1つ又は複数の出力画像を合成する。
任意の適切なレンダリングアプローチ及びアルゴリズムが使用されてもよいことが理解される。幾つかの実施形態において、レンダラー303は、単に、画像に対応したビューポートに対する適切な半直線始点と半直線方向とを含むピクセルを選択することにより画像を生成する。任意のギャップ又は穴が、例えば補間/外挿により埋められる。
多くの実施形態において、レンダリングは、光強度画像と関連する深さとの両方に基づく。特に、上述のように、画像データ信号は、光強度画像と深さ値画像との両方を含む。典型的には、画像は、ピクセルが表すシーンオブジェクトに対する深さの標示を光強度画像における各ピクセルに対して提供する関連する深さ値画像を伴う光強度画像を含む。したがって、半直線始点及び半直線方向は、光強度ピクセルと対応する深さ値ピクセルとに対して同じであり、特に、光強度値は、半直線方向における半直線始点からのオブジェクトの光強度を示し、深さ値は、半直線方向に沿った半直線位置から物体までの距離を示す。
このようなシナリオにおいて、レンダラー303は、光強度値と深さ値との両方に基づいて画像をレンダリングする。これは、例えば、深さと半直線始点及び半直線方向とに基づく、ビューシフトに関連して知られた技術を使用し、画像が生成される対象のビューポートに対応した画像における所与のピクセルの位置が、基本形状を使用して計算される。次に、結果として得られる画像は、例えば、画像が生成される対象の視認者ポーズに最も近くなるように値が特定される選択組み合わせを使用して、重なった位置をもつ値を組み合わせる。同様に、任意のギャップが、例えば補間により満たされる。
多くの実施形態において、レンダラー303は、ピクセルを世界/シーン位置に射影するために、深さ値画像(深さマップ)を使用するように構成される。ピクセルは、特に、半直線始点に半直線方向を加えたもの(単位ベクトルとして与えられる)に、ピクセルに対する深さ値により示される距離を乗じたものに等しい世界/シーン位置を含むように特定される。これは、すべてのピクセルに対して実行され、以て3Dモデルを構築する。実際、本アプローチは、例えば頂点としてのピクセルを含むメッシュを生成するために使用される。したがって、対応するピクセルに対する光強度値は、モデルに対する視覚表現を提供する。
次に、このような生成されたモデルは、特定のビューポーズに対する画像を生成するときに、レンダラー303により評価される。このような評価/処理はビューシフトを含み、本アプローチは、ビューポーズの範囲に対する画像の有効な生成を可能にする。本アプローチは、特に、視差が視認者運動に整合するようにレンダリングされ得るアプリケーション及びサービスをサポートする。
特定の例として、レンダラー303は、浮動小数点画像座標マップを計算することと、入力カメラが基準フレームである状態で、画像座標を世界座標にアンプロジェクションすることと、仮想カメラを基準フレームにするために1つのアフィン変換x→Rx+tを適用することと、世界座標を仮想画像に射影することと、三角ラスタライゼーションを使用して結果として得られるマップに従って画像をワーピングすることとにより、特定のビューポーズに対する画像を合成する。アンプロジェクション演算は、半直線始点及び半直線方向、並びに、最後に半直線の端部におけるシーン点を計算する。射影演算は逆演算である。射影の種類が与えられたとき射影部がシーン点に対応した画像位置を導出する。更なる詳細については、(例えば、https://mpeg.chiariglione.org/standards/exploration/immersive-video/reference-view-synthesizer-rvs-manualにおいて入手可能な)Reference View Synthesizer(RVS)manual、ISO/IEC JTC1/SC29/WG11 MPEG/N18068、2018年10月、Macau SAR、CNを参照されたい。
RVSソフトウェアは、通常の正距円筒及び透視投影図からの/への合成をサポートするソフトウェアの例である。多くの実施形態において、幾つかの制約又は制限が、半直線方向又は半直線始点に課せられる。例えば、多くの実施形態において、半直線始点の情報が内在的に半直線方向を表すように、半直線方向が半直線始点と所定の関連性をもつ。例えば、半直線は、上述のように半直線始点を規定する曲線の勾配/接線に直交するように方向付けされる。
図9は、水平画像軸に対して変わる半直線始点及び半直線方向の特定の例を示す。本例は、発散する半直線方向901、903の2つの領域と、集束する半直線方向905の1つの領域とを含む。図9は、仮想/合成ビューに対するターゲット半直線907を生成するために半直線がどのように使用されるかを更に示す。図は(異なる球により指定された)異なる始点をもつ半直線がどのように単一画像に組み合わされるかの例を示す。
画像はシーンの表現であり、シーン座標から画像座標への射影を表すことに留意されなければならない。半直線始点及び半直線方向はこの射影を反映し、すなわち、シーン座標から画像座標への射影は、各ピクセルが三次元である特定のシーン座標を表す/に対応する/の射影であることをもたらす。半直線始点及び半直線方向はこのシーン座標を反映し/示し、したがって、ピクセルに対する半直線始点及び半直線方向は、ピクセルにより表されたシーン座標、及び、ピクセルに対するシーン座標から画像位置への射影を示す。
より詳細には、連続的画像位置はu=(u,v)により表され、例えば、行インデックスi及び列インデックスjに対してピクセル中心は(0.5+j,0.5+i)にある。画像位置/座標に対する射影は、パラメータ的に規定され得る射影によるものである。射影パラメータ集合はΘにより表記される。この射影及びパラメータ集合は、(半直線始点及び半直線方向がシーン座標を表すので)半直線始点及び半直線方向に関する情報を提供する。半直線始点は、シーン座標における3Dベクトルであるr=(x,y,z)により表記され、半直線方向は、同様にシーン座標における3Dベクトルである
Figure 0007479386000001
により表記される(及び、特に、本3Dベクトルは単位ベクトルである)。
射影を表す半直線角度/半直線始点写像は、
Figure 0007479386000002
という関数により与えられ、関数は画像射影により与えられる。
関数fは、特に、連続関数であり、及び/又は、画像内における不連続部を一切含まないものである。
したがって、各ピクセルに対して、ピクセルに対するシーン座標と画像座標との間の射影を反映した半直線始点及び半直線方向が提供される。従来の全方向ビデオアプリケーションを含む従来のアプローチでは、シーン座標からの射影は、画像に対する1つのビューポイント(ひいては1つの半直線始点)に、及び、所定の、及び固定の半直線方向に基づく(例えば、全方向画像は中心点を囲むビュー球体における射影に基づく)。現在のアプローチの利点は、現在のアプローチが柔軟な、及び適応的な変動を可能にすることであり、このことは、使用され得る射影に高い程度の柔軟性が存在することを意味する。したがって、本アプローチは、大幅に改善された適応、及び特に品質最適化を可能にする。例えば、より多くのピクセルが、特定の関心があると考えられる、又は場合によっては特にひずみに敏感なシーンの領域に割り当てられる。
提供された画像の各々が、したがって、適応された、又は最適化された射影を表す。これらは、すべての画像に対して同じであってもよく、又は異なっていてもよい。各画像は、シーン又はオブジェクトを表すピクセルの(典型的には長方形の)アレイである。各画像に対して、射影は、アレイ/画像内における近さがシーンにおける空間的近さを示すようにされる。近接したピクセルは、典型的には同様の半直線始点及び半直線方向をもつ。特に、近接したピクセルは、多くの場合、(典型的には、オブジェクトなどのエッジ、すなわち深さの跳躍が存在する場所を除いて)シーンにおいて同様の空間位置をもつ。
画像におけるピクセルは(一般化された)射影を共有し、このことは、ピクセル(アレイ)位置を半直線角度及び始点に写像するパラメータ化が存在することを意味する。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、射影は連続関数である。
多くの実施形態において、各画像は、シーン座標から画像座標への連続射影を表す。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、射影は不連続部を一切含まない。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、射影は、各シーン座標がただ1つの画像座標に射影されるようにされている。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、射影は単射関数である。
各画像は、シーン座標から画像座標への射影を表す。多くの実施形態において、各々が1対1の関数である。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、射影は、画像における近さがシーンにおける近さを示すようにされている。
多くの実施形態において、各画像は、シーン座標から画像座標への射影を表し、第1のピクセルに対する半直線始点及び半直線方向は、シーン座標が第1のピクセルに投影されることを示す。第1のピクセルに対する半直線始点、半直線方向、及び深さ値は、シーンにおける三次元位置を表す。
多くの実施形態において、半直線始点へのピクセル位置の写像は、連続写像である。例えば、関数は、画像におけるx位置(水平位置)からシーンの水平面における二次元位置への写像を規定する。関数は、二次元位置の成分の各々に対して連続関数である。図7は、このようなアプローチの例を示す。
したがって、幾つかの例において、ピクセルの水平行の半直線位置は、シーンの水平面における曲線に写像される。写像は、例えば、成分に対して別々の関数によるものであり、例えば、水平シーン平面における位置の2つの成分x,yは、
x=f(x
y=f(x
により規定され、ここで、xは、画像におけるピクセルのx位置を表し、f(x)及びf(y)は適切な滑らかな関数であり、このことは、関数の定義域内において大きい変動(導関数値)が存在しないことを意味する。
ピクセル位置は離散的であるので、関数も離散的であると考えられる。この場合において、近接した値間の絶対差が関数の値域に比べて小さい場合、関数は連続と考えられる。より詳細には、絶対差は、同じ値域をもつ線形関数の絶対差の10倍未満でなければならない。
実際、補間関数を使用して離散関数を変換することにより、離散関数が連続関数に拡張され得る。近接した値間の大きい差は大きい導関数値をもたらす。
多くの実施形態において、曲線の形状特性又は制約は、VRサーバー103とクライアントデバイス101との両方により知られている。例えば、曲線の全体的な形状は予め規定され、パラメータは、例えば、サイズ、曲率の大きさ、特定の事象(例えば方向の変化)の位置などの、この曲線の幾つかの変数パラメータを表す。これは、多くの実施形態において、曲線を表すために必要とされるメタデータの量を大幅に減らす。
閉じていないパラメトリック曲線の例は、螺旋である。螺旋は、例えば4cmの半径から始まり、12cmの半径で終了する。ODS形式と同様に、半直線は、螺旋位置に接する方向に記憶される。ODS形式に比べると、螺旋は、ユーザーの頭部をわずかに側方に動かして運動視差を知覚し、以て、螺旋から異なる画像セクションを選択する能力をユーザーに与える。
多くの実施形態において、曲線は閉曲線である。このような実施形態において、最左部のピクセル位置に対する半直線始点は、最右部のピクセル位置に対する半直線始点に近接している。閉曲線は、多くの実施形態において、長円形であり、又は、特に、水平シーン平面における楕円である。このような形状は、改善された画像表現を可能にしながら、更に同時に低複雑度の処理を可能にし、及び、ピクセル位置と半直線始点との間の写像を表すために数少ないパラメータしか必要としない高い程度の柔軟性及び適応可能性を提供するので、このような形状が多くの実施形態において特に有益であることが見出された。
図10は、曲線が閉曲線であり、特に曲線が楕円である例を示す。本例において、半直線始点は、楕円を回る等距離の位置として特定され、半直線方向は、半直線始点における楕円に対する接線に沿っている。図は8つの半直線を示しているが、ほとんどの実施形態において、はるかに多くの半直線が規定されることが理解される。例えば1024個のピクセルの画像の水平分解能に対応した1024個の半直線が、多くの実施形態に対して典型的である。
楕円は、楕円のサイズ及び形状を表す2つ(以上)のパラメータにより規定される。例えば、半直線始点が楕円上に等距離で位置すること、及び、半直線方向が楕円の接線に沿っていることがクライアントデバイス101により知られている場合、必要とされるパラメータは、例えば楕円の幅dx及び長さdyだけである。したがって、最小のオーバーヘッドしか伴わない非常に高効率の通信が実現され得る。したがって、値dx及びdyは、楕円の形状(例えば偏心率)及びサイズを示す。
多くの実施形態において、楕円以外の他の閉曲線が使用されてもよいことが理解される。例えば、より概括的には、曲線は長円形であり、特に、曲線はデカルト長円形である。
ほとんどの実施形態において、曲線は単純である(その曲線自体と交差しない)、凸である、及び/又は微分可能である。曲線は、多くの場合、1つ又は2つの対称軸に対して対称な閉曲線である。
多くの実施形態において、曲線は滑らかであり、及び例えば1cm、2cm、又は5cmの半径より小さい曲率をもたない。
多くの実施形態における適切な曲線の他の例は、カッシーニの卵形線、モスの卵形曲線、スーパー楕円、及び/又はスタジアムを包含する。
幾つかの実施形態において、クライアントデバイス101は複数の可能な曲線の事前知識情報をもち、メタデータのパラメータのうちの1つがこれらの曲線のうちの1つを示し、他のパラメータが選択された曲線の特性を示す。
一例として、曲線は、極座標(r,θ)により関数f:θ->rにより表され、fのフーリエ変換は、より低い高調波(cos2θ、sin4θなど)においてほとんどのエネルギーをもつ。
例えば、楕円はr(θ)=l/(1-ecosθ)として与えられ、eは偏心率であり、lは半通径である。e=0の場合、これは半径lをもつ円まで縮小する。このような場合において、e及びlのパラメータは、メタデータにより提供される。
幾つかの実施形態において、複数のパラメータを提供するための特に有益なアプローチは、マップの使用により、画像のうちの1つ又は複数に結び付けられる。マップは、画像より低い分解能をもつ。特に、画像のピクセルの部分集合に対してパラメータ値が提供されるパラメータマップが提供される。パラメータ値は、特に、例えば水平面における二次元座標などの、半直線始点の標示である。代替的に、又は追加的に、パラメータ値は、(例えば角度標示としての)半直線方向である。
マップにおいてパラメータ値が提供される対象の画像におけるピクセルに対して、レンダラー403は、パラメータマップに記憶された値として対応する半直線始点及び/又は半直線方向を直接特定する。しかし、パラメータマップが値を含まない対象の画像のピクセルに対して、レンダラー403は、マップに存在する値間を補間する。例えば、水平ピクセル位置のみを考慮する場合、パラメータマップがピクセル10に対する、及びピクセル20に対する半直線始点を含むとき、ピクセル11から19に対する半直線始点は、ピクセル10及びピクセル20に対する半直線始点間の補間により導出され得る。異なる補間が使用され得ることが理解されるが、多くの実施形態において、単純な線形補間が、高い画像品質をもたらす半直線始点を生成するのに十分であることが見出された。
本アプローチは、多くの実施形態において、所望の任意の写像を効果的に表し得る、パラメータデータの特に効率的な、及び柔軟な提供を提供する。本アプローチは、写像のクライアントデバイス101における所定の知識情報を一切必要としない。本アプローチは、更に特に、複数の方向における写像情報を提供することに適している。
実際、ここまでの説明は、写像がx(水平)ピクセル位置のみに依存し、したがって同じ写像がすべてのピクセル行に適用される実施形態に注目してきたが、写像は、幾つかの実施形態において、更にy(縦)ピクセル位置にする。例えば、画像の上縁部又は下縁部に向かうピクセル行に対して、画像の中心にある行に対するものとは異なる写像又は閉曲線が使用される。
このような柔軟な、及び変化する写像は、値として記憶された半直線始点/方向を含む、より低い分解能の二次元マップを使用して効果的に通信される。このような場合において、補間は、水平方向と縦方向との両方に適用される。
したがって、幾つかの実施形態において、パラメータは、値のアレイ(場合によってはアレイは一次元である)であるダウンサンプリングされたマップとして提供される。次に、補間は、間のピクセルに対する半直線始点/方向を生成するために使用される。
一例として、360°ビデオ(全方向画像)に対して、補間は水平画像縁部に沿って循環的に作用する(したがって、画像行が循環されるとき、同じ循環的な並進移動は別として、補間された結果は同じである)。
補間は、多くの場合、単に、値のグリッドが与えられたとき、間の値を特定するタスクとして考えられる。しかし、離散的マップを補間する処理は、補間関数が連続である場合、連続表面をもたらす。微分可能などの場合、微分可能である。
可能な補間の例は、
・不連続関数であるゼロ次(矩形)補間
・連続だが微分可能でない1次(バイリニア)補間
・微分可能だが二次に対してではない二次(バイキュービック)
・滑らかな例えばLanczosといった他の関数
を包含する。
多くの実施形態において、画像データは複数の画像を含む。幾つかの例において、異なる画像に対して、画像位置から半直線始点/方向に同じ写像が使用される。これは、例えば、幾つかの実施形態において、左目画像と右目画像との両方に同じ関数が適用されるステレオ画像が送信されるシナリオに有用である。
幾つかの実施形態において、複数の画像に対して同じ写像が適用されるが、結果として得られる位置にオフセットが適用される。例えば、1メートル離れているが画像とキャプチャ方向との間に同じ関連性をもつシーンキャプチャ位置から画像が提供される場合、1メートルのオフセットが後から追加されて、同じ関数が使用され得る。このような実施形態において、オフセットは、例えば、予め規定されており、及びクライアントデバイス101において知られており、又は、オフセットはメタデータの一部として通信される。したがって、幾つかの実施形態において、パラメータは、少なくとも2つの画像に対して半直線始点間の異なるオフセットを表す。
幾つかの実施形態において、ピクセル画像位置を半直線始点及び/又は方向に写像するための異なる関数が、画像のうちの少なくとも2つに対して使用される。これらの異なる関数/写像は、メタデータに含まれる異なるパラメータにより表される。
したがって、1つの曲線が1つの画像に適用される場合についてここまでに説明されている処理は、複数の曲線及び画像に別々に適用されてもよい。
このようなアプローチは、更なる柔軟性、及び適応可能性を提供し、改善された品質をもたらす。
多くの実施形態において、例えば上述の特定の例において、画像は全方向画像であり、完全に360°画像である。しかし、幾つかの実施形態において、画像のうちの少なくとも2つは部分的視野のみを表し、したがって、完全に全方向ではない。このような場合において、2つの画像は異なる視野を特に表す。これも、柔軟性及び適応可能性を改善する。
本発明を損なわない限り、ピクセル位置と半直線始点/半直線との間の適切な写像を特定するための任意の適切なアプローチが使用されてもよいことが理解される。幾つかの実施形態において、VRサーバー103は、単に、常に使用される(しかし、異なるサーバーは異なる写像を使用するのでクライアントデバイス101に知られていない)一定の写像を適用するように構成される。例えば、VRサーバー103の設計者は、所与のサイズ及び偏心率をもつ楕円がVRサーバー103によりサポートされたほとんどのシーンに適しており、及び、VRサーバー103がこのような写像を使用して画像を生成すると考えている可能性がある。
他の実施形態において、VRサーバーは、シーンの特徴に応じて異なる写像間で選択するための機能を備える。例えば、VRサーバーは、例えば、サッカースタジアムに対応したシーンに対して1つの曲線を選択するように、及び、コンサートホールに対応したシーンに対して異なる曲線を選択するように構成される。
例えば、始点/方向、又は、特定の例えば一次元関数又は二次元関数を規定するパラメータの写像を提供する、パラメータによるピクセル画像位置の関数としての半直線始点/半直線方向の変動の任意の適切な表現が使用されてもよいことが更に理解される。厳密な関連性及び関係性を表すパラメータは、個々の実施形態に対する設定及び要求に依存する。
幾つかの実施形態において、VRサーバー103は、例えば、最適化処理を実施して、写像、ひいてはパラメータを特定するように構成される。例えば、所与のシーンモデル及びビューポイントに対して、画像表現が、候補パラメータ値を使用して複数の可能な候補曲線に対して生成される。したがって、本アルゴリズムは、これらの画像に基づいて異なるビューポイントに対するビュー画像を合成し、それらを、モデルを評価することから直接生成されたこのようなビュー画像と比較する。最低差をもたらす候補曲線及びパラメータが選択される。
上述の説明は明確となるように、異なる機能回路、ユニット、及びプロセッサを参照しながら本発明の実施形態を説明していることが理解される。しかし、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサの間における機能の任意の適切な分散が使用されてもよいことが明らかである。例えば、独立したプロセッサ又は制御装置により実施されるように示されている機能は、同じプロセッサ又は制御装置により実施されてもよい。したがって、特定の機能ユニット又は回路についての言及は、厳密な理論的な、又は物理的な構造又は組織を表すわけではなく、説明される機能を提供する適切な手段への言及と考えられるにすぎない。
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む任意の適切な形態で実現され得る。本発明は、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサにおいて動作するコンピュータソフトウェアとして少なくとも部分的に任意選択的に実現されてもよい。本発明の実施形態の要素及びコンポーネントは、任意の適切な手法により物理的に、機能的に、及び論理的に実現されてもよい。実際、機能が1つのユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として実現されてもよい。したがって、本発明は、1つのユニットにおいて実現されてもよく、又は、異なるユニット、回路、及びプロセッサ間において物理的に、及び機能的に分散されてもよい。
本発明は幾つかの実施形態との関連において説明されているが、本発明は本明細書に記載されている特定の形態に限定されることを意図したものではない。むしろ、本発明の範囲は、添付の特許請求の範囲のみにより限定される。更に、機能が特定の実施形態に関連して説明されるように見受けられるが、説明される実施形態の様々な特徴が本発明により組み合わされてもよいことを当業者は認識する。特許請求の範囲において、備える(含む、有する、もつ)という表現は、他の要素又はステップの存在を否定するわけではない。
更に、独立して列記されている場合でも、複数の手段、要素、回路、又は方法のステップが、例えば1つの回路、ユニット、又はプロセッサにより実現されてもよい。更に、個々の機能が異なる請求項に含まれる場合があるが、場合によってはこれらが有益に組み合わされてもよく、異なる請求項に含まれていることは、特徴の組み合わせが実行可能でないこと、及び/又は、有益でないことを意味するわけではない。更に、請求項のあるカテゴリにおける機能の包含は、このカテゴリへの限定を意味するわけではなく、むしろ、機能が必要に応じて他の請求項のカテゴリに同様に適用可能であることを示す。更に、特許請求の範囲における機能の順序は、機能が実行されなければならない何らかの特定の順序を意味しているわけではなく、特に、方法の請求項における個々のステップの順序は、ステップがこの順序で実施されなければならないことを意味するわけではない。むしろ、ステップは、任意の適切な順序で実施されてもよい。加えて、単数形による記載は複数を排除しない。したがって、単数形の表現、「第1の」、「第2の」などの表現は複数を除外しない。特許請求の範囲における参照符号は明確にするための例として提供されるにすぎず、いかなる手法によっても請求項の範囲を限定すると解釈されない。

Claims (17)

  1. シーンを表す画像信号から画像をレンダリングするための装置であって、前記装置が、
    前記画像信号を受信するための受信部であって、前記画像信号が、画像データとメタデータとを含み、前記画像データが、幾つかの画像を含み、各前記画像が、ピクセルを含み、各前記ピクセルが、半直線始点からの半直線方向をもつ半直線に沿った前記シーンの画像特性を表し、前記半直線始点が、少なくとも幾つかの前記ピクセルに対して異なる位置であり、前記メタデータが、ピクセル位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つの間の写像提供する複数のパラメータを含む、受信部と、
    前記複数のパラメータに応じて、前記ピクセルの位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つとの間の写像を特定し、特定した写像に基づき前記幾つかの画像の前記ピクセルに対する前記半直線始点と前記半直線方向とを特定し、前記幾つかの画像と、特定した前記半直線始点及び前記半直線方向とに基づいて画像をレンダリングするためのレンダラーと、
    を備える、装置。
  2. 前記幾つかの画像のうちの少なくとも1つの前記画像の前記ピクセルの水平行の半直線位置が、前記シーンの水平面における曲線に写像され、前記複数のパラメータが、前記曲線の特性を表す、
    請求項1に記載の装置。
  3. 前記曲線が、閉曲線である、
    請求項2に記載の装置。
  4. 前記閉曲線が、長円形であり、前記複数のパラメータが、前記長円形の特性を表す、
    請求項3に記載の装置。
  5. 前記曲線が、楕円であり、前記複数のパラメータが、前記楕円の特性を表す、
    請求項3に記載の装置。
  6. 前記複数のパラメータが、前記幾つかの画像のうちの前記画像に結び付けられ及び前記画像より低い分解能をもつマップにより提供され、前記マップが、前記マップにおけるピクセル値の位置に対応した前記画像における位置に対する半直線始点と半直線方向とのうちの少なくとも1つを示す前記ピクセル値をもち、前記レンダラーが、前記マップの前記ピクセル値から補間により前記画像における幾つかの位置に対する前記半直線始点と前記半直線方向とのうちの少なくとも1つを特定する、
    請求項1から請求項5のいずれか一項に記載の装置。
  7. ピクセルの位置から前記半直線始点と前記半直線方向とのうちの少なくとも1つへの写像が、連続関数である、
    請求項1から請求項6のいずれか一項に記載の装置。
  8. 前記画像データが、複数の画像を含み、前記複数のパラメータが、ピクセル位置を、前記複数の画像のうちの少なくとも2つの前記画像に対する前記半直線始点と前記半直線方向とのうちの1つに写像するための異なる関数を表す、
    請求項1から請求項7のいずれか一項に記載の装置。
  9. 複数の前記画像のうちの少なくとも2つの画像が、部分的視野を表し、前記部分的視野が、前記少なくとも2つの画像に対して異なる、
    請求項1から請求項8のいずれか一項に記載の装置。
  10. 前記ピクセルの位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つ間の前記写像が、前記ピクセルの位置と、前記半直線方向との間写像である、
    請求項1から請求項9のいずれか一項に記載の装置。
  11. 前記ピクセルの位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つ間の前記写像が、前記ピクセルの位置と、前記半直線始点との間写像である、
    請求項1から請求項10のいずれか一項に記載の装置。
  12. 前記幾つかの画像が、第1の光強度画像と前記第1の光強度画像に対する深さ値画像とを含み、第1の深さ値画像が、前記第1の光強度画像の前記ピクセルに対する深さ値をもち、
    前記第1の光強度画像の第1のピクセルに対する前記深さ値が、前記半直線方向に沿った前記第1のピクセルに対する前記半直線始点から前記第1のピクセルにより表されたオブジェクトまでの距離を示し、前記レンダラーが、前記第1の光強度画像と前記第1の深さ値画像とに応じて画像をレンダリングする、
    請求項1から請求項11のいずれか一項に記載の装置。
  13. 前記レンダラーが、前記深さ値画像に応じて前記第1の光強度画像の画像オブジェクトに対するシーン位置を特定し、前記シーン位置に応じて前記画像をレンダリングする、
    請求項12に記載の装置。
  14. シーンを表す画像信号を生成するための装置であって、前記装置が、
    幾つかの画像を含む画像データを生成するための第1の生成器であって、各前記画像が、ピクセルを含み、各前記ピクセルが、半直線始点からの半直線方向をもつ半直線に沿った前記シーンの画像特性を表し、前記半直線始点が、少なくとも幾つかの前記ピクセルに対して異なる位置である、第1の生成器と、
    ピクセル位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つ間の写像提供する複数のパラメータを含むメタデータを生成するための第2の生成器と、
    前記画像信号に前記画像データと前記メタデータとを含めるように、前記画像信号を生成する信号生成器と、
    を備える、装置。
  15. シーンを表す画像信号から画像をレンダリングする方法であって、前記方法が、
    前記画像信号を受信するステップであって、前記画像信号が、画像データとメタデータとを含み、前記画像データが、幾つかの画像を含み、各前記画像が、ピクセルを含み、各前記ピクセルが、半直線始点からの半直線方向をもつ半直線に沿った前記シーンの画像特性を表し、前記半直線始点が、少なくとも幾つかの前記ピクセルに対して異なる位置であり、前記メタデータが、ピクセル位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つ間の写像提供する複数のパラメータを含む、受信するステップと、
    前記複数のパラメータに応じて、前記ピクセルの位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つとの間の写像を特定し、特定した写像に基づき前記幾つかの画像の前記ピクセルに対する前記半直線始点と前記半直線方向とを特定し、前記幾つかの画像と、特定した前記半直線始点及び前記半直線方向とに基づいて画像をレンダリングするステップと、
    を有する、方法。
  16. シーンを表す画像信号を生成する方法であって、前記方法が、
    幾つかの画像を含む画像データを生成するステップであって、各前記画像が、ピクセルを含み、各前記ピクセルが、半直線始点からの半直線方向をもつ半直線に沿った前記シーンの画像特性を表し、前記半直線始点が、少なくとも幾つかの前記ピクセルに対して異なる位置である、生成するステップと、
    ピクセル位置と、前記半直線始点及び前記半直線方向のうちの少なくとも1つ間の写像提供する複数のパラメータを含むメタデータを生成するステップと、
    信号生成器が、前記画像信号に前記画像データと前記メタデータとを含めるように、前記画像信号を生成するステップと、
    を有する、方法。
  17. コンピュータにおいて実行されたときに請求項15又は請求項16に記載の方法のすべてのステップを実施するコンピュータプログラムコード手段を含む、
    コンピュータプログラム。
JP2021543209A 2019-01-29 2020-01-17 シーンを表す画像信号 Active JP7479386B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19154195.2A EP3691249A1 (en) 2019-01-29 2019-01-29 Image signal representing a scene
EP19154195.2 2019-01-29
PCT/EP2020/051075 WO2020156827A1 (en) 2019-01-29 2020-01-17 Image signal representing a scene

Publications (3)

Publication Number Publication Date
JP2022518285A JP2022518285A (ja) 2022-03-14
JPWO2020156827A5 JPWO2020156827A5 (ja) 2023-01-26
JP7479386B2 true JP7479386B2 (ja) 2024-05-08

Family

ID=65268744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543209A Active JP7479386B2 (ja) 2019-01-29 2020-01-17 シーンを表す画像信号

Country Status (11)

Country Link
US (1) US20220165015A1 (ja)
EP (2) EP3691249A1 (ja)
JP (1) JP7479386B2 (ja)
KR (1) KR20210118458A (ja)
CN (1) CN113366825B (ja)
BR (1) BR112021014627A2 (ja)
CA (1) CA3127847A1 (ja)
MX (1) MX2021008953A (ja)
TW (1) TWI846808B (ja)
WO (1) WO2020156827A1 (ja)
ZA (1) ZA202106244B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12002146B2 (en) * 2022-03-28 2024-06-04 Snap Inc. 3D modeling based on neural light field
EP4297400A1 (en) * 2022-06-22 2023-12-27 Koninklijke Philips N.V. Data signal comprising a representation of a three dimensional scene

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102068A (ja) 2005-10-07 2007-04-19 Univ Of Tokyo 全周囲ステレオ画像撮影装置
US20160088287A1 (en) 2014-09-22 2016-03-24 Samsung Electronics Company, Ltd. Image stitching for three-dimensional video
US20170295309A1 (en) 2016-04-06 2017-10-12 Facebook, Inc. Three-dimensional, 360-degree virtual reality exposure control
US20180181196A1 (en) 2016-12-22 2018-06-28 Samsung Electronics Co., Ltd. Method for displaying image, storage medium, and electronic device
JP2018522429A (ja) 2015-05-27 2018-08-09 グーグル エルエルシー パノラマバーチャルリアリティコンテンツのキャプチャおよびレンダリング

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442306B2 (en) * 2010-08-13 2013-05-14 Mitsubishi Electric Research Laboratories, Inc. Volume-based coverage analysis for sensor placement in 3D environments
CN104299258A (zh) * 2013-07-15 2015-01-21 超威半导体(上海)有限公司 立体图形处理方法和设备
JP5920897B2 (ja) * 2014-07-03 2016-05-18 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置および画像生成方法
US10341632B2 (en) * 2015-04-15 2019-07-02 Google Llc. Spatial random access enabled video system with a three-dimensional viewing volume
TR201902244T4 (tr) * 2015-05-05 2019-03-21 Koninklijke Philips Nv Bir oto-stereoskopik gösterim ekranı için görüntünün oluşturulması.
US20170363949A1 (en) * 2015-05-27 2017-12-21 Google Inc Multi-tier camera rig for stereoscopic image capture
WO2017142355A1 (ko) * 2016-02-17 2017-08-24 삼성전자 주식회사 전방향성 영상의 메타데이터를 송수신하는 기법
CN109691094B (zh) * 2016-08-25 2021-10-22 Lg电子株式会社 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
WO2018201048A1 (en) * 2017-04-27 2018-11-01 Google Llc Synthetic stereoscopic content capture
US10373362B2 (en) * 2017-07-06 2019-08-06 Humaneyes Technologies Ltd. Systems and methods for adaptive stitching of digital images
US11178377B2 (en) * 2017-07-12 2021-11-16 Mediatek Singapore Pte. Ltd. Methods and apparatus for spherical region presentation
US10950043B1 (en) * 2018-04-03 2021-03-16 A9.Com, Inc. Rendering three-dimensional models on mobile devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102068A (ja) 2005-10-07 2007-04-19 Univ Of Tokyo 全周囲ステレオ画像撮影装置
US20160088287A1 (en) 2014-09-22 2016-03-24 Samsung Electronics Company, Ltd. Image stitching for three-dimensional video
JP2018522429A (ja) 2015-05-27 2018-08-09 グーグル エルエルシー パノラマバーチャルリアリティコンテンツのキャプチャおよびレンダリング
JP2018524832A (ja) 2015-05-27 2018-08-30 グーグル エルエルシー パノラマバーチャルリアリティコンテンツの全方位ステレオキャプチャおよびレンダリング
US20170295309A1 (en) 2016-04-06 2017-10-12 Facebook, Inc. Three-dimensional, 360-degree virtual reality exposure control
US20180181196A1 (en) 2016-12-22 2018-06-28 Samsung Electronics Co., Ltd. Method for displaying image, storage medium, and electronic device

Also Published As

Publication number Publication date
CN113366825A (zh) 2021-09-07
TWI846808B (zh) 2024-07-01
WO2020156827A1 (en) 2020-08-06
TW202034688A (zh) 2020-09-16
CA3127847A1 (en) 2020-08-06
MX2021008953A (es) 2021-08-24
CN113366825B (zh) 2024-06-14
BR112021014627A2 (pt) 2021-10-05
ZA202106244B (en) 2023-04-26
US20220165015A1 (en) 2022-05-26
EP3918782A1 (en) 2021-12-08
JP2022518285A (ja) 2022-03-14
EP3691249A1 (en) 2020-08-05
KR20210118458A (ko) 2021-09-30

Similar Documents

Publication Publication Date Title
JP7191079B2 (ja) シーンのタイル化3次元画像表現を生成する装置及び方法
US11694390B2 (en) Apparatus and method for generating images of a scene
EP3676794A1 (en) Zooming an omnidirectional image or video
TW202101374A (zh) 影像的深度圖之處理
JP7479386B2 (ja) シーンを表す画像信号
JP7471307B2 (ja) シーンの画像表現
EP3404522A1 (en) A method for viewing panoramic content and a head mounted device
JP7556352B2 (ja) 画像特性画素構造の生成および処理
US20220174259A1 (en) Image signal representing a scene
TWI850320B (zh) 場景的影像表示
RU2817803C2 (ru) Сигнал изображения, представляющий сцену

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240423

R150 Certificate of patent or registration of utility model

Ref document number: 7479386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150