JP2022517499A - 画像特性画素構造の生成および処理 - Google Patents

画像特性画素構造の生成および処理 Download PDF

Info

Publication number
JP2022517499A
JP2022517499A JP2021530193A JP2021530193A JP2022517499A JP 2022517499 A JP2022517499 A JP 2022517499A JP 2021530193 A JP2021530193 A JP 2021530193A JP 2021530193 A JP2021530193 A JP 2021530193A JP 2022517499 A JP2022517499 A JP 2022517499A
Authority
JP
Japan
Prior art keywords
pixel structure
image characteristic
region
characteristic pixel
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021530193A
Other languages
English (en)
Inventor
ウィルヘルムス ヘンドリクス アルフォンスス ブルルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022517499A publication Critical patent/JP2022517499A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • G06T3/073Transforming surfaces of revolution to planar images, e.g. cylindrical surfaces to planar images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • G06T3/147Transformations for image registration, e.g. adjusting or mapping for alignment of images using affine transformations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本発明は、画像信号を生成又は処理する装置に関する。第1画像特性画素構造は、視点に対するビュー球の表面を表す二次元で非矩形の画素構造である。第2画像特性画素構造は、二次元で矩形の画素構造であり、プロセッサ305によって生成され、第1画像特性画素構造の中央領域から導出された中央領域と、第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する。第1境界領域は、第1画像特性画素構造の上側境界および下側境界のうちの一方の近傍の領域である。画像信号は第2画像特性画素構造を含むように生成され、画像信号は受信機によって処理されて、第1画像特性画素構造が復元される。

Description

本発明は、画像特性画素構造を生成及び/又は処理するための装置及び方法に関し、特に、シーンの深さ又は光強度を表す矩形画素構造の生成及び/又は処理に関するが、これに限定されるものではない。
近年、画像およびビデオアプリケーションの多様性および範囲が大幅に増加しており、ビデオを利用し消費する新しいサービスおよび方法が、継続的に開発され、導入されている。
例えば、人気が高まっている1つのサービスは、観察者が能動的にシステムと対話してレンダリングのパラメータを変更できるような方法で画像シーケンスを提供することである。多くのアプリケーションにおいて非常に魅力的な特徴は、例えば、観察者が、提示されているシーン内で動き回って「見回る」ことを可能にするなど、観察者の有効な視聴位置および視聴方向を変更する能力である。
そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは、例えば、(比較的)自由に仮想環境内で動き回ることができ、自分の位置および自分が見ている場所を動的に変更することができる。典型的にはこのような仮想現実アプリケーションがシーンの3次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは例えば、コンピュータ及びコンソール用の一人称シューティングゲームのカテゴリにおけるようなゲームアプリケーションから周知である。
また、特に仮想現実アプリケーションでは、提示される画像が三次元画像であることが望ましい。実際、観察者の没入感を最適化するために、ユーザは、典型的には提示されたシーンを三次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間の瞬間を選択することを可能にするはずである。
典型的には、仮想現実アプリケーションがシーンの所定のモデル、典型的には仮想世界の人工モデルに基づくという点で本質的に制限される。多くの場合、仮想現実体験は、現実世界のキャプチャに基づいて提供されることが望ましい。しかしながら、多くの場合、そのようなアプローチは、現実世界の仮想モデルが現実世界のキャプチャから構築されることを要求する傾向がある。次いで、このモデルを評価することによって、仮想現実体験が生成される。
しかしながら、現在のアプローチは最適以下に限定される傾向があり、しばしば、高い計算リソースまたは通信リソース要件を有する傾向があり、および/または、例えば、低減された品質または制限された自由度で、最適以下のユーザ体験を提供する傾向がある。
例えば多くの仮想現実アプリケーションでは、シーンは、例えば、シーンの特定のビューポーズを表す1つ又は複数の画像などの画像表現によって表されることができる。場合によっては、そのような画像は、シーンの広角視界を提供し、例えば、完全な360°視界をカバーするか、または完全な視界の球面をカバーし得る。
多くのアプリケーション、特に仮想現実アプリケーションでは、画像データストリームがシーン内のユーザの(仮想)位置を反映するように、シーンを表すデータから画像データストリームが生成される。このような画像データストリームは典型的には仮想シーン内でのユーザの動きを反映するように、動的かつリアルタイムで生成される。画像データストリームは、画像データストリームの画像データからユーザに画像をレンダリングするレンダラに提供されてもよい。多くのアプリケーションでは、レンダラへの画像データストリームの提供は、帯域幅が制限された通信リンクを介して行われる。例えば、画像データストリームは、遠隔サーバによって生成され、例えば通信ネットワークを介してレンダリング装置に送信される場合がある。しかしながら、ほとんどのこのようなアプリケーションでは、効率的な通信を可能にするために妥当なデータレートを維持することが重要である。
360°ビデオストリーミングに基づく仮想現実体験を提供することが提案されており、この場合、所与の視聴者位置についてサーバによってシーンの完全な360°ビューが提供され、それによって、クライアントが異なる方向についてのビューを生成することが可能になる。具体的には、仮想現実(VR)の有望なアプリケーションの1つは全方向性ビデオ(例えば、VR360またはVR180)である。このアプローチは、高いデータレートにつながる傾向があり、したがって、完全な360°視界球面が提供されるビューポイントの数は、典型的には少ない数に制限される。
具体的な例として、仮想現実眼鏡が市場に参入している。これらの眼鏡は、観察者がキャプチャされた360度(パノラマ)のビデオを体験することを可能にする。これらの360度ビデオは、多くの場合、個々の画像が単一の球面マッピングへとつなぎ合わされるカメラリグを使用して事前にキャプチャされる。いくつかのそのような実施形態では、所与の視点からの完全な球面ビューを表す画像を生成し、ドライバに送信することができ、ドライバは、ユーザの現在のビューに対応する眼鏡のための画像を生成するように構成される。
多くのアプリケーションでは、シーンは、おそらく関連付けられた奥行きを有する単一ビュー球面画像によって表されることができる。次いで、現在の観察者ポーズのための適切な画像が、完全な画像の適切な部分を選択することによって生成され得る。さらに、観察者の位置の十分に小さな変化に対して、ビューシフトアルゴリズムおよび技術を使用して対応する画像を生成するために奥行き情報が使用されることができる。
このようなシステム及びアプリケーションに対する重要な考慮事項は、画像フォーマット及び大きなビューを効果的に表現する方法である。例えば、適度に高い解像度によって表される完全な球面ビューは、高いデータ要件をもたらす。
完全な(または部分的な)球面情報が提供される視点の数は好ましくは低く保たれるので(多くの場合、データは少数の視点または1つの視点しか提供しない)、画質劣化が見えるようになる前に、最適なポーズからのポーズの変化は、しばしば比較的制限される。このアプローチの特に魅力的なアプリケーションは、大きな変化はサポートされないが小さなポーズ変化はサポートされる没入型ビデオのようなアプリケーションである。例えば、頭を回転させるかまたは僅かに頭部を動かすユーザに正しいステレオキュー(例えば、視差)が提供され、大幅に位置が動くユーザには提供されない、ユーザにシーンを提示するビデオサービスを提供することができる。そのようなアプリケーションは、多くの状況において非常に有利なユーザ体験を提供することができるが、(シーン内の自由な動きがサポートされなければならない場合と比較して)提供される比較的少量のデータに基づく。具体的な例として、それは、スポーツの非常に没入的な体験を提供することができ、観察者がイベントの座席にいる観客であることに似た体験をすることができる。
このような画像またはビデオデータに基づくシステムにとって非常に重要な問題は、与えられた視点からのビューデータの効率的な表現をどのように提供するか、特にビュー球がどのように表現されるかということである。
そのようなビュー球を表すために使用される1つの一般的なフォーマットはキューブマップフォーマットとして知られている(例えば、https://en.wikipedia.org/wiki/cube_mappingを参照されたい)。このフォーマットでは、6つの画像がビュー位置の周りに立方体を形成する。次いで、ビュー球は立方体の面に投影され、各面が平坦で正方形の(部分)画像を提供する。別の一般的なフォーマットはERPフォーマットとして知られており、ビュー球の表面は、正距投影(equirectangular projection:例えば、https://en.wikipedia.org/wiki/equirectangular_projectionを参照)を使用して矩形画像上に投影される。
しかしながら、これらのフォーマットの欠点は、これらのフォーマットが比較的非効率的である傾向があり、比較的大量のデータが提供されることを必要とすることである。例えば、ビュー球が均一な解像度を有する画素に分割され、同じ解像度がERP/キューブマップフォーマット表現のための最小解像度と考えられる場合、これらは球に必要とされるよりも50%多くの画素を必要とする。したがって、必要な画素数の大幅な増加が結果として生じる。現在使用されているフォーマットは、必要とされるデータレート/容量、複雑さなどの点で最適以下である傾向があり、これらのフォーマットを使用すると最適以下のシステムにつながる傾向がある。
したがって、改善されたアプローチが有利であろう。特に、改善された動作、増加された柔軟性、改善された仮想現実体験、減少されたデータレート、増加された効率、促進された配信、減少された複雑さ、促進された実施、減少された記憶要求、増加された画像品質、並びに/又は改善された性能及び/若しくは動作を可能にするシステム及び/又は画像特性フォーマットが有利である。
したがって、本発明は、好ましくは上記の欠点の1つ以上を単独でまたは任意の組み合わせで軽減、低減または排除しようとするものである。
本発明の一側面によれば、ある視点からのシーンの特性を表す画像特性画素構造を生成する装置が提供され、当該装置は、前記視点のためのビュー球の表面の少なくとも一部を表す二次元の非矩形の画素構造である第1画像特性画素構造を提供する第1プロセッサと、二次元の矩形の画素構造であり、前記第1画像特性画素構造の中央の領域から導出される中央領域及び前記第1画像特性画素構造の第1境界領域から導出される少なくとも第1コーナー領域を有する第2画像特性画素構造を生成する第2プロセッサとを有し、前記第1境界領域は、前記第1画像特性画素構造の上側境界及び下側境界のうちの一方の近傍の領域であり、前記少なくとも1つのコーナー領域は、前記第2画像特性特性構造の前記中央領域と重ならず、前記第1画像特性画素構造の前記中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線と、前記第2画像特性画素構造の下端に対応する下側水平線との少なくとも一方によって限定され、前記第1画像特性画素構造の前記第1境界領域は、前記上側水平線および前記下側水平線の少なくとも一方よりも周辺に位置している。
本発明は、シーンの改善された表現を提供することができる。多くの実施形態では、シーンのより効率的な表現を提供することができ、例えば、低減されたデータレートによって所与の品質を達成することができる。このアプローチは、矩形画像のために設計された多くの従来のプロセス、演算、およびアルゴリズムによる処理に適した、改良された矩形の画像特性画素構造を提供することができる。具体的には、第2画像特性画素構造は、多くの標準化されたビデオまたは画像符号化アルゴリズムを含む、多くの既知の符号化アルゴリズムを使用する符号化に適し得る。
このアプローチは、多くの実施形態において、柔軟性があり、効率的で、高性能の仮想現実(VR)アプリケーションに適したシーンの画像特性画素表現を提供することができる。多くの実施形態では、それは画質とデータレートとの間の実質的に改善されたトレードオフを有するVRアプリケーションを可能にすることができる。多くの実施形態では、それは改善された知覚される画像品質および/または低減されたデータレートを可能にし得る。
このアプローチは、例えば、受信端における動き及び頭部回転への適応をサポートする放送ビデオサービスに特に適している。
所与のビューに対するビュー球上の点(画素)は、ビュー球の原点を有し、その点においてビュー球と交差する光線の方向において、最初に遭遇したシーンオブジェクトの画像特性(典型的には、光強度、奥行き、透明度)の値を反映する値を有し得る。これは、原則として、点が拡張されていないので、ビュー球のサイズとは無関係であることが理解されるであろう。さらに、画素化されたビュー球の場合、画素値は画素のサイズのみに依存するため、均一な解像度の場合、ビュー球が分割される画素の数のみに依存し、ビュー球自体のサイズには依存しない。
画像特性画素構造は、多くの実施形態において、ある形状を埋める画素の規則的なグリッドであり得、各画素は画像特性の値を表す。第1画像特性画素構造に対する形状は非矩形であり、第2画像特性画素構造に対する形状は矩形である。
画像特性画素構造は、具体的には、例えば光強度画像、奥行きマップ及び/又は透明度マップなどの画像又はマップであってもよい。画像特性は、奥行き特性、透明度特性、または光強度特性(例えば、カラーチャネル値など)であることができる。
第1画像特性画素構造は、平面上への表面の少なくとも一部の等面積投影であってもよい。等面積投影は、ビュー球の表面と当該表面が投影される平面との間で、画素面積などの領域の面積の割合を維持する投影である。
第1画像特性画素構造は、表面の少なくとも一部の正弦波投影であってもよい。
第2プロセッサは、第1画像特性画素構造と第2画像特性画素構造との間に画素位置マッピングを適用することにより、第2画像特性画素構造を生成するように構成されてもよい。マッピングは、中央領域および(各)境界領域に対して異なっていてもよい。
本発明の任意選択の特徴によれば、第1画像特性画素構造は、表面の少なくとも一部に対して均一な解像度を有する。
これは、多くの実施形態において有利な表現および動作を提供することができる。
本発明の任意選択の特徴によれば、画像特性画素構造の中央領域と第1境界領域とは、重複しない。
これは、多くの実施形態において有利な表現および動作を提供することができる。これは、多くの実施形態において、特に効率的な表現を可能にし、特に、所与の品質のために必要とされるデータレートを低減することができる。
第1画像特性画素構造の各画素は、中央領域および境界領域のうちの一方の領域のみに属してもよい。第2画像特性画素構造の各画素は、中央領域およびコーナー領域のうちの一方の領域にのみ属してもよい。
本発明の任意の特徴によれば、第2プロセッサは、前記第1画像特性画素構造の第2境界領域から導出される第2コーナー領域を有するように前記第2画像特性画素構造を生成するように構成され、前記第2コーナー領域は前記第2画像特性画素構造の中央領域と重ならず、前記第2境界領域は前記上側境界および前記下側境界のうちの一方の近傍の領域であり、前記第1境界領域および前記第2境界領域は、前記第1画像特性画素構造の仮想垂直線の異なる側にある。
これは、多くの実施形態において有利な表現および動作を提供することができる。これは、多くの実施形態において、特に効率的な表現を可能にし、特に、所与の品質のために必要とされるデータレートを低減することができる。仮想垂直線は、第1画像特性画素構造上の任意の垂直線であってよい。仮想垂直線は、第1画像特性画素構造を左側領域および右側領域に分割する任意の垂直線であってよい。
仮想垂直線は、中心線であってもよい
本発明の任意選択の特徴によれば、仮想垂直線は第1境界領域と第2境界領域とを分離し、第1境界領域と第2境界領域とは、仮想垂直線に対して鏡面対称である。
これは、多くの態様において特に有利である可能性がある。
本発明の任意選択の特徴によれば、第1境界領域から第2境界領域への水平方向は、第1コーナ領域から第2コーナ領域への水平方向と反対である。
これは、多くの態様において特に有利である可能性がある。それは、多くの実施形態において、コーナー領域に配置されたときに、中央領域と境界領域との間の改善された及び/又はより密接なフィットを提供することができる。第1境界領域から第2境界領域への水平方向が左から右である場合、第1コーナー領域から第2コーナー領域への水平方向は、右から左であってもよく、その逆であってもよい。
本発明の任意選択の特徴によれば、第1コーナー領域は、第1境界領域の反対側の境界の近傍である。
これは、多くの態様において特に有利である可能性がある。多くの実施形態において、第1境界領域が第1画像特性画素構造の上側境界により近い(すなわち上半分にある)場合、第1コーナー領域は、第2画像特性画素構造の下側境界により近くなり(すなわち下半分にある)、逆も同様である。
いくつかの実施態様において、第1垂直境界領域に対する水平方向の画素順序は、第1コーナー領域に対する水平方向の画素順序と反対である。
本発明の任意選択の特徴によれば、第2プロセッサは、第2画像特性画素構造の第1コーナー領域および中央領域のうちの少なくとも一方の画素を、第1コーナー領域および中央領域のうちの少なくとも一方の近傍の第2画像特性画素構造の充填されていない領域に外挿するように構成される。
これは、多くの実施形態においてより効率的な表現を提供することができ、特に、第2画像特性画素構造を符号化するときに符号化効率を改善することができる。
本発明の任意選択の特徴によれば、第2プロセッサは、第1境界領域の画素値のシフト、並進、ミラーリングおよび回転のうちの少なくとも1つによって、第1コーナー領域の画素値を決定するように構成される。
これは、多くの態様において特に有利である可能性がある。
本発明の任意選択の特徴によれば、第1プロセッサは、正距投影による、表面の少なくとも一部を表す矩形の画像特性画素構造のワーピングによって、第1画像特性画素構造を生成するように構成される。
これは、多くの態様において特に有利である可能性がある。
本発明の一側面によれば、出力画像特性画素構造を生成するための装置が提供され、当該装置は、二次元の矩形の画素構造であり、第1画像特性画素構造の中央の領域から導出された中央領域と、第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有する画像信号を受信する受信機であって、前記第1画像特性画素構造は視点のビュー球の表面の少なくとも一部を表す二次元の非矩形の画素構造であり、前記第1境界領域は前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は前記第2画像特性画素構造の中央領域と重ならず、前記第1画像特性画素構造の中央領域は前記第2画像特性画素構造の上端に対応する上側水平線と、前記第2画像特性画素構造の下端に対応する下側水平線との少なくとも一方によって限定され、前記第1画像特性画素構造の第1境界領域が、前記上側水平線および前記下側水平線の少なくとも一方よりも周辺部に位置する、受信機と、前記視点のためのビュー球の表面の少なくとも一部を表す非矩形の出力画像特性画素構造を生成するプロセッサであって、前記非矩形の出力画像特性画素構造は、前記第2画像特性画素構造の中央領域から導出される中央領域と、前記第2画像特性画素構造の第1コーナー領域から導出される出力画像特性画素構造の上側境界および下側境界の一方の近傍の領域である境界領域とを有する、プロセッサと、を有する。
本発明の一側面によれば、ある視点からのシーンの特性を表す画像特性画素構造を生成する方法が提供され、当該方法は、二次元の非矩形の画素構造であり、前記視点のビュー球の表面の少なくとも一部を表す第1画像特性画素構造を提供するステップと、二次元の矩形の画素構造であり、前記第1画像特性画素構造の中央の領域から導出される中央領域と、前記第1画像特性画素構造の第1境界領域から導出される少なくとも第1コーナー領域とを有する第2画像特性画素構造を生成するステップと、を有し、前記第1境界領域は、前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は、前記第2画像特性画素構造の中央領域と重ならず、前記第1画像特性画素構造の中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線と、前記第2画像特性画素構造の下端に対応する下側水平線との少なくとも一方によって限定され、前記第1画像特性画素構造の第1境界領域は、前記上側水平線および前記下側水平線の少なくとも一方よりも周辺部に位置している。
本発明の一側面によれば、出力画像特性画素構造を生成するための方法が提供され、当該方法は、二次元の矩形の画素構造であり、第1画像特性画素構造の中央の領域から導出された中央領域と、第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有する画像信号を受信するステップであって、前記第1画像特性画素構造は視点のビュー球の表面の少なくとも一部を表す二次元の非矩形の画素構造であり、前記第1境界領域は前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は前記第2画像特性画素構造の中央領域と重ならず、前記第1画像特性画素構造の中央領域は前記第2画像特性画素構造の上端に対応する上側水平線と、前記第2画像特性画素構造の下端に対応する下側水平線との少なくとも一方によって限定され、前記第1画像特性画素構造の第1境界領域が、前記上側水平線および前記下側水平線の少なくとも一方よりも周辺部に位置する、ステップと、前記視点のためのビュー球の表面の少なくとも一部を表す非矩形の出力画像特性画素構造を生成するステップであって、前記非矩形の出力画像特性画素構造は、前記第2画像特性画素構造の中央の領域から導出される中央領域と、前記第2画像特性画素構造の第1コーナー領域から導出される出力画像特性画素構造の上側境界および下側境界の一方の近傍の領域である境界領域とを有する、ステップとを有する。
本発明の一態様によれば、画像信号が提供され、当該画像信号は、二次元の矩形の画素構造であり、第1画像特性画素構造の中央領域から導出された中央領域と、第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有し、前記第1画像特性画素構造は、視点のビュー球の表面の少なくとも一部を表す二次元の非矩形の画素構造であり、前記第1境界領域は、前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は、前記第2画像特性画素構造の中央領域と重複しない。
本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。
本発明の実施形態は単なる例として、図面を参照して説明される。
仮想現実体験を提供するための構成の例を示す図。 ビュー球のための球面画像のERP投影の一例を示す図。 本発明のいくつかの実施形態による装置の要素の例を示す図。 ビュー球のための球面画像の正弦投影の例を示す図。 本発明のいくつかの実施態様よるビュー球のための球面画像の正弦投影からビュー球を表す矩形画像へのマッピングの一例を示す図。 本発明のいくつかの実施態様によるビュー球のための球面画像の正弦投影から、ビュー球を表す矩形画像へのマッピングの一例を示す図。 本発明のいくつかの実施形態によるビュー球を表す矩形画像の一例を示す図。 本発明のいくつかの実施形態によるビュー球を表す矩形画像の一例を示す図。 本発明のいくつかの実施形態による2つのビュー球を表す矩形画像の例を示す図。 本発明のいくつかの実施形態による装置の要素の例を示す図。
ユーザが仮想世界で動き回ることを可能にする仮想体験はますます人気が高まっており、そのような要求を満たすためにサービスが開発されている。しかしながら、効率的な仮想現実サービスの提供は、特に、体験が完全に仮想的に生成された人工世界ではなく、現実世界環境のキャプチャに基づくものである場合には、非常に困難である。
多くの仮想現実アプリケーションでは、観察者ポーズ入力がシーン内のバーチャル観察者のポーズを反映して決定される。次に、仮想現実装置/システム/アプリケーションは、観察者ポーズに対応する観察者のために、シーンのビューとビューポートに対応する1つ以上の画像を生成する。
典型的には、仮想現実アプリケーションは、左目及び右目のための別々のビュー画像の形で三次元出力を生成する。次いで、これらは、典型的にはVRヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、画像が例えば、自動立体ディスプレイ上で提示されてもよく(この場合、より多数のビュー画像が観察者ポーズのために生成されてもよい)、または実際に、いくつかの実施形態では、単一の2次元画像のみが生成されてもよい(例えば、従来の2次元ディスプレイを使用して)。
観察者ポーズ入力は、異なるアプリケーションで異なる方法で決定される場合がある。多くの実施形態では、ユーザの物理的な動きを直接追跡することができる。例えば、ユーザエリアを測量するカメラがユーザの頭部(または目)を検出し、追跡することができる。多くの実施形態では、ユーザは、外部および/または内部手段によって追跡することができるVRヘッドセットを装着することができる。例えば、ヘッドセットは、ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備えることができる。いくつかの例では、VRヘッドセットは、信号を送信することができ、または外部センサがVRヘッドセットの動きを決定することを可能にする(例えば視覚的な)識別子を備えることができる。
いくつかのシステムでは、観察者ポーズは、マニュアルの手段によって、例えば、ユーザがジョイスティックまたは同様のマニュアル入力を手動で制御することによって、提供されてもよい。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することによってシーン内で仮想観察者を手動で動かし、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想観察者が見ている方向を手動で制御することができる。
いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力される観察者ポーズを生成することができる。例えば、ヘッドセットが頭部の向きを追跡することができ、シーン内の観察者の動き/位置は、ジョイスティックを使用してユーザによって制御されることができる。
画像の生成は、仮想世界/環境/シーンの適切な表現に基づく。いくつかのアプリケーションでは、シーンについて完全な三次元モデルを提供することができ、特定の観察者ポーズからのシーンのビューを、このモデルを評価することによって決定することができる。他のシステムでは、シーンが異なるキャプチャポーズからキャプチャされたビューに対応する画像データによって表されてもよい。例えば、1つ以上のキャプチャポーズについて、完全な球面画像が、三次元(奥行きデータ)と一緒に記憶されてもよい。そのようなアプローチでは、キャプチャポーズ以外の他のポーズのためのビュー画像は、特にビューシフトアルゴリズムを使用するなど、三次元画像処理によって生成され得る。シーンが別個のビューポイント/位置/ポーズについて格納されたビューデータによって記述/参照されるシステムでは、これらはアンカービューポイント/位置/ポーズとも呼ばれ得る。典型的には実世界環境が異なる地点/位置/ポーズから画像をキャプチャすることによってキャプチャされたとき、これらのキャプチャ地点/位置/ポーズはアンカー地点/位置/ポーズでもある。
典型的なVRアプリケーションは、それに応じて、観察者ポーズの変化を反映するように動的に更新される画像、および、仮想シーン/環境/世界を表現するデータに基づいて生成される画像と共に、現在の観察者ポーズのためのビューポートに対応する画像を(少なくとも)提供する。
この分野では、配置およびポーズという用語は、位置および/または方向/向きに関する一般的な用語として使用される。例えばオブジェクト、カメラ、頭部またはビューの位置および方向/向きの組み合わせを、ポーズまたは配置と呼ぶ場合がある。したがって、配置またはポーズ表示は、通常、対応するオブジェクトの位置/場所または方向/向きの個々の特性を記述する各値/成分を有する6つの値/成分/自由度を含み得る。もちろん、多くの状況において、例えば、1つ以上の成分が固定または無関係であると考えられる場合(例えば、全てのオブジェクトが同じ高さにあり、水平方向を有すると考えられる場合、4つの成分がオブジェクトのポーズの完全な表現を提供することができる)、配置またはポーズはより少ない成分で考慮または表現されてもよい。以下では、ポーズという用語は、1乃至6つの値(可能な最大自由度に対応する)によって表すことができる位置および/または向きを指すために使用される。
多くのVRアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの3つの自由度を有するポーズに基づいており、その結果、合計6つの自由度が得られる。したがって、ポーズは6つの自由度を表す6つの値のセットまたはベクトルによって表すことができ、したがって、ポーズベクトルは、三次元位置および/または三次元方向表示を与えることができる。しかしながら、他の実施形態では、ポーズがより少ない値によって表されてもよいことが理解されるのであろう。
ポーズは、方位および位置のうちの少なくとも1つとすることができる。ポーズ値は、方位値および位置値のうちの少なくとも1つを示すことができる。
観察者に最大自由度を提供することに基づくシステムまたはエンティティは、通常、6自由度(6DoF)を有すると呼ばれる。多くのシステムおよびエンティティは、方向または位置のみを提供し、これらは、典型的には3自由度(3DoF)を有するものとして知られている。
システムによっては、VRアプリケーションは、例えば、いかなる遠隔のVRデータまたは処理をも使用しない、あるいはそれらに何らアクセスしない、スタンドアロン装置によって、観察者にローカルに提供されることができる。例えば、ゲームコンソールのような装置が、シーンデータを記憶するための記憶装置と、観察者ポーズを受信/生成するための入力と、シーンデータから対応する画像を生成するためのプロセッサとを備えることができる。
他のシステムでは、VRアプリケーションは、観察者から遠隔で実装され、実行されることができる。例えば、ユーザにローカルな装置は、観察者ポーズを生成するためにデータを処理する遠隔装置に送信される動き/ポーズデータを検出/受信することができる。次いで、遠隔装置は、シーンを記述するシーンデータに基づいて、観察者ポーズのための適切なビュー画像を生成することができる。次に、ビュー画像は、それらが提示される観察者に対してローカルな装置に送信される。例えば、遠隔装置は、ローカル装置によって直接提示されるビデオストリーム(典型的にはステレオ/3Dビデオストリーム)を直接生成することができる。したがって、このような例では、ローカル装置は、移動データを送信し、受信したビデオデータを提示することを除いて、いかなるVR処理も実行しないことがある。
多くのシステムでは、機能がローカル装置および遠隔装置にわたって分散され得る。例えば、ローカル装置は、受信した入力およびセンサデータを処理して、遠隔VR装置に連続的に送信される観察者ポーズを生成することができる。次いで、遠隔VR装置は、対応するビュー画像を生成し、これらを提示のためにローカル装置に送信することができる。他のシステムでは、遠隔VR装置がビュー画像を直接生成しなくてもよいが、関連するシーンデータを選択し、これをローカル装置に送信してもよく、そしてローカル装置が、提示されるビュー画像を生成してもよい。例えば、リモートVR装置は最も近いキャプチャポイントを識別し、対応するシーンデータ(例えば、キャプチャポイントからの球面画像および奥行きデータ)を抽出し、これをローカル装置に送信することができる。次いで、ローカル装置は、受信したシーンデータを処理して、特定の現在のビューポーズのための画像を生成することができる。ビューポーズは典型的には頭部ポーズに対応し、ビューポーズへの参照は、典型的には頭部ポーズへの参照に対応すると同等に考えることができる。
多くのアプリケーション、特に放送サービスの場合、ソースは、観察者ポーズに依存しないシーンの画像(ビデオを含む)表現の形でシーンデータを送信してもよい。例えば、単一のキャプチャ位置に対する単一のビュー球に対する画像表現が複数のクライアントに送信されることができる。次に、個々のクライアントは、現在の観察者ポーズに対応するビュー画像をローカルで合成することができる。
特に興味を引いている特定のアプリケーションは、限定された量の動きがサポートされ、頭部の小さな動きおよび回転のみを行う実質的に静的な観察者に対応する小さな動きおよび回転に追従するように提示されるビューが更新される場合である。例えば、座っている観察者は頭を回し、それをわずかに動かすことができ、提示されたビュー/画像は、これらのポーズ変化に追従するように適合される。そのようなアプローチは、非常に没入型の、例えばビデオ体験を提供することができる。たとえば、スポーツイベントを見ている観察者は、自分がアリーナの特定のスポットにいると感じることができる。
このような制限された自由度のアプリケーションは、多くの異なる位置からのシーンの正確な表現を必要とせずに、改善された経験を提供し、それによってキャプチャ要件を大幅に低減するという利点を有する。同様に、レンダラに提供される必要があるデータの量を大幅に低減することができる。実際、多くのシナリオでは、単一の視点のための画像及び典型的には奥行きデータのみが、これから所望のビューを生成することができるローカルレンダラに提供される必要がある。頭部の回転をサポートするために、視点からのビューの広い領域が提供されたデータによって表され、好ましくは、視点を中心とするビュー球の表面全体が提供された画像および奥行きデータによってカバーされることが、典型的には望ましい。
このアプローチは例えば、ブロードキャストまたはクライアント・サーバ・アプリケーションのような、データが、帯域制限された通信チャネルを介してソースから宛先へ通信される必要があるアプリケーションに特に適している。
図1は、遠隔VRクライアント装置101が例えばインターネットのようなネットワーク105を介してVRサーバ103と連携するVRシステムのこのような例を示す。サーバ103は、潜在的に多数のクライアント装置101を同時にサポートするように構成されてもよい。
VRサーバ103は、例えば、特定のビュー画像データと奥行きをクライアント装置と送信し、この情報を処理して現在のポーズに対応するビュー画像をローカルで合成するように構成されることによって、放送体験をサポートすることができる。
したがって、多くのアプリケーションは、従来の小さなビューポートが比較的小さい左目画像および右眼画像を提供するよりもはるかに大きいビューポートに対応するビュー位置のための画像情報を送信することに基づく。特に、多くのアプリケーションにおいて、1つ以上のビュー/キャプチャ位置のビュー球全体についての画像特性情報(例えば、光強度及び奥行き)を伝達することが望ましい。例えば、VR360ビデオアプリケーションでは、光強度及び奥行き値がビュー球全体に対して送信される。しかしながら、そのようなアプリケーションの重大な問題は、特に、効率的な通信が達成され得るように、情報をどのように表現するかである。
例えば、画像特性情報の符号化とフォーマット化のための既存のアルゴリズムと関数を使用できることが望ましい。しかしながら、そのような関数は、もっぱら平面矩形画像フォーマット用として設計される傾向があり、一方、三次元表面の表面は、本質的に二次元矩形には対応しない。これに対処するために、多くのアプローチは、立方体がビュー球の周りに配置され、球の表面が立方体の正方形の面上に投影される立方体マップフォーマットを使用する。これらの各々は平面であり、したがって、従来の技術によって処理されることができる。しかしながら、欠点は、キューブマップの解像度が、(解像度の損失を生じさせないために)キューブマップがビュー球に接触する点でのビュー球の解像度と同じである場合、キューブマップにはビュー球よりもはるかに多数の画素が必要である(各面の周辺領域へのビュー球の投影は、各ビュー球画素が単一画素よりも大きな領域(具体的には比較的多数の画素に潜在的に対応する領域)に投影されることになる)。球面表現と比較して、所与の均一サイズの約50%多い画素がキューブマップ表現に必要であることを示すことができる。
頻繁に使用される別のフォーマットは、正距投影(ERP)を使用してシーンの表面を二次元矩形上に投影することである。このような画像の例を図2に示す。このように、投影による歪みによって、幾つかの領域の投影面積が他の領域に対して大幅に増加する(具体的には、ビューポーズの上(または下)の一点が矩形の幅全体に渡って引き伸ばされることを反映して、投影面積は垂直方向のエッジに向かって増加する)。従って、中央における解像度を低減させずに必要とされる(一定のサイズの)必要な画素数は大幅に増加するであろう。与えられた均一なサイズの約50%多くの画素が球面表現と比較してERP表現にも必要であることを示すことができる。
この増加した画素数は、処理の複雑さを増加させ、データ要求を増加させる。具体的には、画像情報を送信するために、より高いデータレートが必要とされ得る。
図3は、ビュー球の表面(の少なくとも一部)の表現を生成することができる装置の要素を示す。
装置は、ビュー球の表面の少なくとも一部を表す二次元(フラット、ユークリッド)非矩形の画素構造である第1画像特性画素構造を提供するように構成された第1プロセッサ301を備える。以下の例では、第1プロセッサ301は、(光強度画像)および奥行きマップの両方を処理するように構成され、第1画像特性画素構造は画像または奥行きマップに対応するか、あるいは実際には両方に同時に対応すると考えることができる(画素値は画像画素値および奥行きマップ画素値の組合せである)。
この例では、第1プロセッサ301は第1画像特性画素構造のためのソース303に結合され、具体的には、ソースが入力画像および奥行きマップを提供することができる。ソース303は、具体的には、画像情報を記憶するローカルメモリであってもよく、または、例えば、完全な球面カメラおよび/または奥行きセンサなどの適切なキャプチャユニットであってもよい。
或る視点のビュー球とは、当該視点を囲む(名目上の)球体であり、その表面の各点は、視点から表面上の点を通る方向にあるシーンの画像特性値を表す。光強度画像特性値については、表面のある点の値は、その点の方向から視点に到達する光線の光強度に相当する。これに対応して、奥行きまたは距離画像特性値の場合、ビュー球の表面の所与の点に対する奥行き値は、視点から表面上の点への(それを通る)方向における視点からシーンの最初のオブジェクトまでの距離に対応する。
第1画像特性画素構造は、ビュー画像を生成するために画像レンダリングプロセスによって使用され得る、シーンの特性を表す画像特性を表す。このように、画像特性は(例えば、異なるビューポーズに対応する、1つまたは複数のビューポートのための)シーンの画像を生成するための画像生成/合成機能をサポートすることができる特性であり得る。画像特性は、具体的には、光強度特性、奥行き特性、または透明度特性のうちの少なくとも1つの特性とすることができる。
画像特性は、いくつかの実施形態では、組み合わされた特性であってもよく、例えば、画像特性は、複数のカラーチャネルの光強度値(例えば、赤、緑および青の値)を含んでもよく、場合によっては奥行き値も含んでもよい。例えば、第1画像特性画素構造の各画素は、各値に対して複数の値を含んでもよく、画素値は多成分ベクトル値であってもよい。同様に、第1プロセッサ301は、複数の単一値画像特性画素構造を提供し、これらの各々が以下に説明するように処理されると考えることができる。
以下の説明では、光強度と奥行きの特性に焦点を当てる。したがって、画像特性画素構造は、簡潔さおよび明確さのために、それぞれ(光強度)画像および奥行きマップのより一般的な用語によっても参照される。
画像特性画素構造は、具体的には、複数の画素に分割された平面区域または領域であってもよい。各画素は、その画素によってカバーされる領域に対する画像特性の値を示す一つ以上の値を含む。典型的には、画素は全て同じサイズを有し、すなわち、解像度は均一である。通常、画素は正方形、または少なくとも長方形であり、等距離のグリッドに配置される。したがって、従来の画像または奥行きマップは、画像特性画素構造の例である。
しかしながら、第1画像特性画素構造は、矩形の画像特性画素構造ではなく、むしろ二次元で非矩形の画素構造である。第1画像特性画素構造はさらに、ビュー球の表面の少なくとも一部、およびしばしばビュー球の表面全体を表す。球体の表面は三次元曲面特性を有するので、対応する平面表現は一般に長方形ではないであろう。
具体的には、球の表面は所与の数の等しい面積の画素に分割されると考えられ得、1つの画素によって覆われる領域が典型的に(実質的に)正方形である。その代わりに、これらの画素が平坦な平面上で再配置される場合、結果としてカバーされる領域は矩形または二次式にはならない。具体的には、正方形画素について得られた領域が図4に示されている。
この場合、第1画像特性画素構造は、具体的には、ビュー球の表面の正弦投影であってもよい。表面全体についての第1画像特性画素構造によってカバーされる領域は、図4に示されるようになる。図示するように、ビュー球表面は幅/水平方向の伸長が垂直位置の正弦関数である領域として表され、垂直位置は0~π(180°)の範囲の値で表され、中央垂直位置はπ/2(90°)に対応する。従って、この例では、0とπ(180°)の垂直位置は視点の直下と直上の方向に対応し、π/2(90°)の垂直位置は視点からの水平方向に対応する。
いくつかの実施形態では、ビュー球の表面の一部のみが、第1画像特性画素構造によって表されてもよいことが理解されるであろう。例えば、いくつかの実施形態では、第1画像特性画素構造が上半球(例えば、グラウンドレベルに配置され、グラウンドレベルより上のシーンのみを捕捉するカメラに対応する)、または、(例えば、1つの方向のみを見るユーザのための)所与の方向の半球のみを表すことができる。このような例では第1画像特性画素構造は矩形ではなく、図4の例には直接対応しないであろう。一部の実施形態では。第1画像特性画素構造が依然として正弦投影であってもよいが、表面の一部の投影であってもよい。例えば、半球について得られる第1画像特性画素構造は、図4の上半分または左(または右)半分のみに対応し得る。
第1画像特性画素構造は、従って、非矩形の構造であり、例えば、画像エンコーダまたはビデオエンコーダを含む多くの既存のプロセスでの処理には適さない。さらに、それは、矩形画像表現に基づく多くの既存の規格およびフォーマットと矛盾する傾向がある。従って、非矩形の第1画像特性画素構造を矩形である第2画像特性画素構造に変換することが望ましい。上述したように、これは従来、典型的にはERPを使用して球の表面を矩形上に投影することによって、または立方体の面上に投影することによって行われる(立方体マップ表現)。
しかしながら、対照的に、図3の装置は、より効率的な構造、具体的には必要な画素の大幅な増加を必要とせずに解像度を維持することができる構造に導くアプローチを用いて二次元で矩形の画素構造である第2画像特性画素構造を生成するように構成された第2プロセッサ305を備える。
したがって、第2プロセッサ305の出力は矩形の画像構造であり、具体的には、矩形画像および/または奥行きマップとすることができる。この第2画像特性画素構造は出力生成器307に供給されることができ、この出力生成器は、遠隔装置に送信され得る出力データストリームの形成で画像信号を生成するように構成される。具体的には、出力生成器307は、矩形画像用に設計された技術を使用して第2画像特性画素構造を符号化し、符号化されたデータを出力データストリームに含めるように構成されることができる。例えば、画像またはビデオ符号化は、遠隔クライアントに送信され得る対応する符号化ビデオデータストリームを生成するために、第2プロセッサ305によって提供される矩形画像に適用され得る。
第2プロセッサ305は、具体的には、第1画像特性画素構造内のそれぞれの領域を決定し、第2画像特性画素構造の矩形領域内でこれらの領域を別々にかつ個々に位置決めするように構成される。具体的には、第1画像特性画素構造における中央領域から第2画像特性画素構造における中央領域を導出するように構成される。さらに、垂直方向の1つ以上の境界領域、具体的には、第1画像特性画素構造の上端/上側境界または下端/下側境界に近い1つ以上の境界領域から、1つ以上のコーナー領域を導出することができる。したがって、このアプローチでは、第2プロセッサ305は、非矩形画像の中央領域の画像データに基づいて矩形出力画像の中央領域を埋め、(入力画像の上部または下部に近い)垂直方向における入力画像の周辺領域の画像データからコーナー領域を埋めることができる。
第2プロセッサ305によるアプローチの一例を図5-7を参照して示すことができ、図6および図7は、図5の原理が適用された図3に対応する特定の画像の例を示す。
この例では、画像の形の第1画像特性画素構造が正弦投影によってビュー球の表面を表し、したがって、図示のように、正弦波周期の半分とその鏡像によって形成される形状に対応する平坦領域501に対応する。この例では、4つの境界領域、すなわち、左上領域p1、右上領域p2、左下領域p3、および右下領域p4が決定される。
次に、第2プロセッサ305は、矩形画像に対応する第2画像特性画素構造を生成する。従って、この画像は矩形領域503に対応する。この画像は、入力画像の中央部分を維持し、境界領域p1~p4を反対側のコーナーに対角方向に移動させることによって生成される。この例では、入力画像がW×H0の寸法を有し、出力画像はHの低減された高さを有することができる。
図6は、図4の入力画像と同じ高さおよび幅を有する長方形の中間画像が境界領域を中間画像のコーナー領域にコピーすることによって最初にどのように生成され得るかの例を示す。この画像は、多くの冗長な画素を含むので、入力画像よりも大幅に大きい場合がある。しかしながら、出力画像は、高さが低減されて冗長な画素が除去されるように、垂直方向でクロッピングすることによって生成されることができる。具体的には、高さは冗長画素の数が最小となるレベルまで低減されることができる。実際、多くの実施形態では、高さは、余分な画素が含まれないようにクロッピングすることによって低減されることができる。
このアプローチは、矩形画像によるシーンの非常に効率的なビュー球表現を提供し得る。このアプローチは、ビュー球の投影の特性が矩形領域内にぴったりとフィットすることができるそれぞれの領域への分割に適しているという本発明者の認識に基づいている。実際、図5、図6および図7の例から分かるように、境界領域にぴったりと密接に適合することができる境界領域を決定することが可能である。実際、図7の例から分かるように、わずかな余分な画素(図7の黒色領域によって表される)のみを含む矩形画像を生成することができる。実際、この例において、解像度の損失のないビュー球面の矩形表現は、わずか約5%の画素増加で達成できることが示される。
したがって、ERPまたはキューブマップ表現よりもはるかに効率的な表現を、説明したアプローチによって達成することができる。
上述の例では、画像特性画素構造は(光強度)画像であったが、このアプローチは、奥行きまたは透明度マップなどの他の特性に適用され得ることが理解されよう。例えば、上記の例の画像は、例えば、画像の各画素について奥行き値及び透明度値をそれぞれ提供することができる奥行きマップ及び/又は透明度マップによって補足されることができる。次いで、これらのマップは、光強度画像について説明したのと同じ方法で処理することができ、それによって、より適切な、または、例えば従来の技術を使用した符号化である正方形マップが得られる。
上記の例では、第2プロセッサ305は、第1画像特性画素構造内の4つの境界領域(p1、p2、p3、p4)を決定するように構成され、境界構造は、第1画像特性画素構造の上側境界または画像特性画素構造の下側境界のいずれかに近い。したがって、実施例では、境界領域は上下の境界領域であり、具体的にはそれらの境界の一部も第1画像特性画素構造自体の境界である(連続した)領域である。
第2プロセッサ305は、この例では、第2画像特性画素構造内の中央領域を識別し、これを第1画像特性画素構造の中央領域によって埋めた。第2画像特性画素構造の四隅の領域が特定され、これらは、第1画像特性画素構造の四つの境界領域により埋められる。従って、効果的に、第1画像特性画素構造の識別された4つの境界領域は、第2画像特性画素構造におけるコーナー領域に移動されると考えることができる。
例では、中央領域を埋めるために使用される第1画像特性画素構造の中央領域は、第2画像特性画素構造の上下の端に対応する上下の水平線によって限定される。第1画像特性画素構造の境界領域は、これらの線よりも外側であり、すなわち、それらはそれぞれ分割水平線の上下にある。従って、第2画像特性画素構造の中央領域の画素位置に対する第1画像特性画素構造の中央領域の画素位置への位置マッピングが適用される。同じ画素位置マッピングが境界領域に適用される場合は、それは第二画像特性画素構造の外側にある位置をもたらす。
第2画像特性画素構造は、具体的には矩形構造であり、上側/トップ(水平)端と下側/ボトム(水平)端を有する。第2画像特性画素構造の中央領域は、これらの端によって限定されてもよく、第2画像特性画素構造内の中央領域は第2画像特性画素構造の端まで伸びることができる。
第2画像特性画素構造の上端は、第1画像特性画素構造における上側/トップ水平線に対応してもよく、第2画像特性画素構造における下端は第1画像特性画素構造における下側/ボトム水平線に対応してもよい。
第1画像特性画素構造の中央領域は、これら2本の水平線の間に入る第1画像特性画素構造の一部として選択されることができる。
第1画像特性画素構造の1つ、複数および典型的には全ての境界領域は、水平線のうちの少なくとも1つよりも周辺である領域である。したがって、境界領域は、上側の水平線の上方であっても、下側の水平線の下方であることができる。
いくつかの実施態様において、記載されるアプローチは、潜在的に、第1画像特性画素構造の上部または下部のみに適用されてもよく、したがって、いくつかの実施態様において、上部および下部水平線のうちの1つのみが考慮されてもよく、または同等に、上部および下部水平線のうちの1つは、第1画像特性画素構造の端に対応すると考えられる。しかしながら、大部分の実施態様において、このアプローチは、第1画像特性画素構造の上部および下部に対称的に適用されるであろう。また、ほとんどの実施形態では、このアプローチは、第1画像特性画素構造の上部および下部に対称的に適用されるのであろう。
多くの実施形態において、複数の境界領域を決定し、第2画像特性画素構造内のコーナー領域に割り当てることができる。これらの境界領域の各々は、水平線よりも周辺であってもよく、すなわち、上部水平線よりも上にあっても、水平線よりも下にあってもよい。
多くの実施形態では、境界領域は、水平線よりも周辺/外側/外部/外である第1画像特性画素構造の全ての領域を含むことができる。従って、いくつかの実施態様において、上側水平線より上方にあり、下側水平線より下方にある全ての画素は、境界領域内に含まれてもよい。
このアプローチは、具体的には、第1画像特性画素構造を包含するであろう矩形構造よりも小さい第2画像特性画素構造を生成することを可能にする。第2画像特性画素構造の行の数は第1画像特性画素構造の行の数よりも少なくてもよく、典型的には少なくとも5%、10%、または20%少なくてもよい。
第2画像特性画素構造の高さ(垂直方向の広がり)は第1画像特性画素構造の高さ(垂直方向の広がり)よりも大幅に低くてもよく、典型的には少なくとも5%、10%、または20%低くてもよい。
さらに、これは典型的には、列の数/幅/水平方向の広がりを維持しながら達成され得、したがって、矩形画像に必要な画素の数は著しく減少し得る。
多くの実施形態では、各境界領域は、比較的多数の画素を含む連続領域であることができる。多くの実施形態では、少なくとも1つの境界領域が1000画素以上、またはさらには5000画素を含むことができる。多くの実施形態では、境界領域は、第1画像特性画素構造内の画素の総数の5%以上又は10%以上を含むことができる。
いくつかの実施形態では、第2画像特性画素構造の符号化は、例えば、MPEG符号化から知られるマクロブロックなどの画像ブロックに基づく符号化アルゴリズムを使用することができる。そのような実施形態では、各境界領域は整数のマクロブロックを含むことができ、すなわち、各境界領域は符号化ブロックの部分を含まなくてもよい。さらに、多くの実施形態では、各境界領域が複数の符号化ブロックを含むことができる。
各境界領域はブロックとしての境界領域に再割り当てされてもよく、すなわち、画素間の相対位置は変化しない。
多くの実施形態では、各セクションは、第2画像特性画素構造のコーナーまで延在するセクションであってもよい。境界領域は、それが第2画像特性画素構造のコーナーに当接するように、第2画像特性画素構造に含まれてもよい。境界領域は、それが、第2画像特性画素構造の端と共通の端を有するように、第2画像特性画素構造内に含まれてもよく、第2画像特性画素構造と共通の2つの端を有することも可能である。
多くの実施形態において、境界領域は、境界領域から第2画像特性画素構造の中央領域までの距離があるように、すなわち、これらの間にガードバンドがあるように、第2画像特性画素構造に含まれてもよい。そのような距離は例えば、1、2、5、10または50画素以上であってもよい。
多くの実施形態では、境界領域は、境界領域の画素が第1画像特性画素構造とは異なる垂直方向の位置を第2画像特性画素構造において有するように、境界領域を第2画像特性画素構造に含まれてもよい。境界領域の画素の垂直方向の位置は、具体的には、上および/または下の垂直線の垂直方向の位置よりも周辺部に位置するものから、上および/または下の垂直線の垂直方向の位置よりも中央に位置する/周辺部に位置しないものへと変化する。
具体例では、各境界領域は、対角のコーナー領域に移動され、すなわち、左上の境界領域が右下のコーナー領域に移動され、右上の境界領域が左下のコーナー領域に移動され、左下の境界領域が右上のコーナー領域に移動され、右下の境界領域が左上のコーナー領域に移動される。
したがって、この例では、第1画像特性画素構造における2つの境界領域と、これらが第2画像特性画素構造においてマッピングされる2つのコーナー領域との間の水平関係が逆になる。したがって、第2境界領域の左側にある第1境界領域は、第2境界領域が移動される第2コーナー領域の右側にある第1コーナー領域に移動される。このアプローチでは、第1境界領域から第2境界領域への水平方向は、第1コーナー領域から第2コーナー領域への水平方向とは反対である。
同様に、この例では、第1画像特性画素構造内の2つの境界領域と、第2画像特性画素構造内でこれらがマッピングされる2つのコーナー領域との垂直関係が逆になっている。したがって、第2境界領域の上にある第1境界領域(第1領域は上側の境界領域であり、第2領域は下側の境界領域である)は第2境界領域が移動される第2コーナー領域の下にある第1コーナー領域に移動される(第1コーナー領域は下側のコーナー領域であり、第2コーナー領域は上側のコーナー領域である)。このアプローチでは、第1境界領域から第2境界領域への垂直方向は、第1コーナー領域から第2コーナー領域への垂直方向とは反対である。
上述のような多くの実施形態では、第1および第2コーナー領域は、2つの境界領域が同じ上側または下側境界の近傍である(すなわち、両方の境界領域が上側境界または下側境界にある)第1画像特性画素構造内の第1および第2境界領域からそれぞれ導出された画素データを含むことができる。例えば、2つの境界領域は、図の領域p1およびp2(またはp3およびp4)であってもよい。2つの境界領域は互いに対して水平方向に変位され、具体的には、これらの領域の一方の全体が、他方の領域の全体の完全に右側にあってもよい。したがって、2つの境界領域は、具体的には第1画像特性画素構造の中心線であってもよい仮想垂直線の異なる側にあってもよい。図の例では、この仮想垂直線は中心線である(すなわち、p1およびp2は、p3およびp4とは垂直中心線の異なる側にある)。
図5から図7の具体例では、仮想垂直線は第1画像特性画素構造の中心線である。 また、この例では、仮想垂直線は、第1境界領域と第2境界領域とを分離する線である。実際、第1および第2境界領域は、仮想垂直線によって第1および第2境界領域に細分される連続領域を共に形成する。また、本具体例では、第1および第2境界領域は、仮想垂直線を中心として鏡面対称である。この例では、上側(および/または)下側境界領域は、所与の垂直座標の上側(または下側)(したがって、この水平線に対応する所与の水平線の上側(または下側))の領域として識別される。したがって、この領域は、垂直中心線によって2つの対応する領域に分割される。特定の例では、これは2つの同一ではあるが鏡面対称の境界領域をもたらす。
さらに、特定の例では、上側境界領域と下側境界領域の両方が識別され、これらは水平中心線に対して鏡面対称である。具体的には、例において、4つの境界領域が見出され、これらは水平方向及び垂直方向の中心線の周りでペアをなす鏡面対称である。
このような水平および/または垂直方向に変位および分離された領域への第1画像特性画素構造の分離は、多くの実施形態において、第2画像特性画素構造の非使用部分の量が低減され、したがって、オーバーヘッド/浪費が低減された、第2画像特性画素構造における比較的低複雑性であるが効率的な再編成を可能にする、効率的かつ有利な分割を提供し得る。上述のように、2つの境界領域は、多くの実施形態では、水平方向の順序が逆にされ、かつ/または垂直方向の順序が逆にされるように、コーナー領域にリンクされてもよいが、これは必須ではなく、いくつかの実施形態はそのような逆転を採用しなくてもよいことが理解されるであろう。
具体的に、このアプローチは、矩形表現のための大きなオーバヘッドを必要とせずに均一な解像度を維持することを可能にする、効率的な矩形形および平面画像構造を生成することを可能にする。
多くの実施形態では、第1画像特性画素構造は、ビュー球の表面(または表面の一部)に対して均一な解像度を有する。したがって、ビュー球の解像度はすべての方向で同じであり、すべての方向は、同じ品質で表される。第1画像特性画素構造の矩形である第2画像特性画素構造への変換は、画素の直接再配置によって行うことができ、従って、画素解像度は変わらない。ERPまたはキューブマップフォーマットとは対照的に、記載されたアプローチは、ビュー球の解像度が変化しない矩形画像を生成し、したがってビュー球の均一な解像度も表す。また、これは、わずかなオーバヘッドおよび画素数の増加のみで達成される。
記載されたアプローチの特別な利点は、境界領域が選択された境界領域内にぴったりと適合するアプローチを提供することである。境界領域は、中心部分を第2画像特性画素構造にコピーした後に残るコーナー領域に密接に一致する形状および輪郭を有する。さらに、コーナー領域への境界領域の割り当ては、特定の例では、いかなる追加の操作も導入せずに形状が互いに一致するように行われる(具体的には並進/シフトのみが必要とされる)。
多くの実施形態では、第1画像特性画素構造の画素が第2画像特性画素構造の画素に直接マッピングされてもよく、具体的には、第2画像特性画素構造の各画素が第1画像特性画素構造の画素のコピーであってもよい。従って、第2プロセッサ305の処理は、第1の画像特性画素構造内の画素(画素位置)の、第2画像特性画素構造内の画素(画素位置)へのマッピングとして見ることができる。しかし、いくつかの実施形態では、第2プロセッサ305は、画素値のいくつかの処理を含むこともでき、例えば、この処置は、輝度調整、奥行き調整、フィルタリングなどを含むことができることが理解されよう。
図示の例では、コーナー領域は、境界領域の直接シフト/オフセット/並進によって埋められる。各境界領域の画素間の内部空間関係は、コーナー領域において維持される。
しかしながら、他の実施形態では、第2プロセッサ305は、代替的に又は追加的に、例えば、境界領域のミラーリング及び/又は回転を含むように構成されてもよい。これは、特に、境界領域の形状と、境界領域が配置されるコーナー領域の形状との間のより密接なフィットを確実にすることができる。
これは、例えば、境界領域とコーナー領域との間の異なるマッピングを適用するために使用されてもよい。例えば、境界領域を対角線上に対向するコーナー領域(すなわち、左上の境界領域から右下のコーナー領域)にリンクするのではなく、所与の境界領域を近傍のコーナー領域にマッピングすることができ、境界領域の形状をコーナー領域の形状に適合させるために回転(および/またはミラーリング)を使用することができる。例えば、図の例では、左上の境界領域p1を180°回転させ、左上のコーナー領域にシフトさせることができる。このように、境界領域の中央部が横部となるように回転させてもよい。
単なる並進ではなく並進および/またはミラーリングを使用するこのようなアプローチは、特に、ビュー球の一部のみが第1および第2画像特性画素構造によって表される多くの実施形態において有利であり得る。例えば、ビュー球の上半分のみが表される例(例示された図の画像の上半分のみに対応する)では、2つの境界領域p1およびp2が2つのコーナー領域に適合させることができる。例えば、p1およびp2は、180°の回転に続いて左上および右上のコーナー領域にそれぞれ、または水平線の周りのミラーリングに続いて右上および左上のコーナー領域にそれぞれ入れられることができる。
いくつかの実施形態では、第1プロセッサ201は、正距投影によって表面を表す画像特性画素構造として、ビュー球の表面の表現を受け取るように構成される。例えば、第1プロセッサ201は、図2に示すような表現を受信することができる。
このような実施形態では、第1プロセッサ201は、そのような矩形画像特性画素構造を、非矩形の画像特性画素構造に曲げるように構成されてもよく、その後、上述のように第1画像特性画素構造として処理することができる。このような実施形態では、第1プロセッサ201は、特に、受信された画像特性画素構造を正距投影であることから正弦投影に対応する画像特性画素構造に変換するように構成されてもよい。
第1プロセッサ201は、例えば、コサインワーピングに従って座標を変換することによってこれを行うように構成されてもよい。matlabにおける実装の例は、以下の通りであり得る:
W0=4000
H0=2000

W=W0*4
W2=W/2
H=H0
H2=H/2

AA=imread('in1.png');
BB=zeros(size(AA));

for x = 1:W
for y = 1:H

sc=abs(cos(3.14/2*(y-H2)/H2));
%sc=0;
x1=x-W2;
i=floor(x1*sc)+W2;

BB(y,x,1)=AA(y,i,1);
BB(y,x,2)=AA(y,i,2);
BB(y,x,3)=AA(y,i,3);

end
end

imwrite(uint8([BB]),['out.png']);
前の例では、第1画像特性画素構造の中央領域および一つ以上の境界領域からそれぞれ生成された中央領域および一つ以上のコーナー領域を含む第2画像特性画素構造が生成される。このアプローチは、具体的には、第1画像特性画素構造の幾何学的特性を利用して、第1画像特性画素構造の中央領域から第2画像特性画素構造の中央領域を埋めることから生じるコーナー領域が境界領域の幾何学的特性(具体的には形状)と比較的密接に一致する幾何学的特性(具体的には形状)を有するように、中央領域と境界領域を生成してもよい。これにより、第1画像特性画素構造全体が、わずかなギャップのみを有する重なり合わない中央領域およびコーナー領域内に密に配置される構成が可能となる。したがって、有効な表現が、第1画像特性画素構造の画素を表さない第2画像特性画素構造のわずかな数の画素のみで達成される。
これは、図7において、コーナー領域と中央領域との間の黒い画素によって示されている。見て分かるように、このアプローチは、第1画像特性画素構造の幾何学的形状を利用することができ、第1画像特性画素構造の非非矩形表現に関して、矩形表現内のわずかな追加画素だけで有効な矩形表現を保証する。図4のものような正弦投影の例では、矩形表現は、画素数のわずか5%の増加で生成されることができる。
したがって、第2画像特性画素構造は1つ以上の未充填の領域を伴って生成されるが、それは極めて小さな領域に保たれる。(例えば、ERPまたはキューブマップ表現と比較して)小さなオーバーヘッドは、結果として、符号化データ速度を大幅に低減し得る画像特性画素構造のための、低減された画素数をもたらす。
いくつかの実施形態では、第2プロセッサ305は、埋められていない領域のうちの1つまたは複数の充填を実行するようにさらに構成され得る。充填は、特に、充填された領域内の近傍の画素の画素値に基づいて、充填されていない領域の画素についての画素値を生成することによって実行されてもよく、具体的には、中央領域の画素値および第1画像特性画素構造から充填された最も近いコーナー領域の画素についての画素値に基づいて実行されてもよい。
多くの実施形態に於いて、第1画像特性画素構造から生成された1つ以上の画素値が充填されていない領域に外挿されてもよい。ビュー合成技術の一部であるデオクルージョンプロセスから、多数の充填技術が知られており、任意のそのような適切なアルゴリズムを使用することができることが理解されよう。
いくつかの実施形態では、この充填は、第1画像特性画素構造が周囲領域に外挿される、第1画像特性画素構造からの中間画像特性画素構造を生成することによって実行されてもよい。この例において、第1画像特性画素構造の境界領域を、第2画像特性画素構造のコーナー領域に単に移動するのではなく(境界領域の形状がコーナー領域の形状と直接一致しない場合に、未充填領域を生じる)、未充填領域に対応する中間画像の領域も移動され、それによって、未充填領域内に充填される。
図8は、第1画像特性画素構造を矩形画像に外挿することによって生成される中間画像の一例を示す。そして、第2プロセッサ305は、中央領域を第2画像特性画素構造の中央領域にコピーし、各境界領域の領域を第2画像特性画素構造のコーナー領域にコピーすることにより、第2画像特性画素構造を生成することができ、コピーされる領域の形状はコーナー領域の形状に正確に一致するように選択される。
領域を充填するアプローチの利点は、異なる領域間で分割にわたる変動が少ない、より一貫性のある画素値を有する傾向がある第2画像特性画素構造を提供することである。これは、より効率的な符号化をもたらし、所与の品質レベルに対して低減されたデータレートをもたらすことができる。
上記の例は、単一の画像の処理に焦点を当てている。しかしながら、このアプローチは、ビデオシーケンスの個々のフレームのような複数の画像に等しく適用され得ることが理解されるであろう。
また、いくつかの実施形態では、このアプローチは、例えば、シーンのステレオ画像表現の左目画像および右目画像などの並列画像に適用されてもよい。そのような場合、第2プロセッサ305は、2つの矩形画像特性画素構造を生成し、次いで、これを符号化することができる。いくつかの実施態様に於いて、矩形画像特性画素構造は、符号化の前に結合可能である。例えば、図9に示すように、第2プロセッサ305によって生成された2つの個々の画像特性画素構造を並置することによって、単一の矩形画像特性画素構造を生成することができ、結果として得られる全体画像を単一の画像として符号化することができる。
従って、上述の装置は、上述の第2画像特性画素構造を含む非常に効率的な画像信号を生成することができる。いくつかの実施形態では、画像信号は、符号化されていない画像信号(例えば、図3の例における第2プロセッサ305の出力に対応する)であってもよいが、多くの実施形態では、符号化された画像信号(例えば、図3の例におけるエンコーダ307の出力に対応する)である。
シンク/クライアント/デコーダ側は、前の例で説明したように、第2画像特性画素構造を含む画像信号を受け取り、これを処理して、元の第1画像特性画素構造に対応する、すなわち、ビュー球の非矩形表現に対応する画像特性画素構造を再作成することができることが理解されよう。
このような装置の一例を図10に示す。この装置は、第2画像特性画素構造について説明したように、所与の視点からのビュー球を表す画像特性画素構造の形で、シーンの画像表現を含む画像信号を受信するように構成された受信機1001を備える。
この第2画像特性画素構造は、図3の第2プロセッサによって実行されるのとは逆の動作を実行することによって、非矩形の画像特性画素構造を生成するように構成された反転プロセッサ1003に供給される。具体的には、生成される画像特性画素構造の中央部分に、受信された第2画像特性画素構造の中央領域をマッピングし、第2画像特性画素構造のコーナー領域を生成される画像特性画素構造の境界領域にマッピングするように、逆の画素(位置)マッピングを行うことができる。
このローカルで生成された非矩形の画像特性画素構造は、その後、さらなる処理のために他の関数へと出力されることができる。例えば、図10では、生成された画像特性画素構造は、当業者に知られているように、現在の観察者ポーズに対応する視聴画像を合成することに進むことができるローカルレンダラに供給される。
明確にするための上記の説明は、異なる機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニットまたはプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的構造または編成を示すのではなく、説明された機能を提供するための適切な手段への言及としてのみ見なされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の要素およびコンポーネントは、任意の適切な方法で物理的、機能的および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路およびプロセッサの間で物理的および機能的に分散されてもよい。
本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、或る特徴が特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する(comprising)」という用語は、他の要素又はステップの存在を排除するものではない。
さらに、個別に列挙されているが、複数の手段、素子、回路または方法ステップが、例えば単一の回路、ユニットまたはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれている場合があるが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではない及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリにも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、当該特徴が動作しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、当該ステップがこの順序で実行されなければならないことを意味するものではない。むしろ、ステップは任意の適切な順序で実行されることができる。さらに、単数への言及は複数を除外しない。従って、「a」、「an」、「第1」、「第2」等への言及は複数を排除するものではない。請求項中の参照符号は、単に明確な例として提供されているにすぎず、請求項の範囲を何らかの態様で限定するものと解釈してはならない。

Claims (17)

  1. 視点からのシーンの特性を表す画像特性画素構造を生成する装置であって、
    前記視点のためのビュー球の表面の少なくとも一部を表す二次元で非矩形の画素構造である第1画像特性画素構造を提供する第1プロセッサと、
    二次元で矩形の画素構造であり、前記第1画像特性画素構造の中央領域から導出された中央領域、及び、前記第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域を有する第2画像特性画素構造を生成する第2プロセッサと、を有し、
    前記第1境界領域は、前記第1画像特性画素構造の上側境界及び下側境界の一方の近傍の領域であり、
    前記少なくとも1つのコーナー領域は、前記第2画像特性画素構造の前記中央領域と重なり合わず、
    前記第1画像特性画素構造の前記中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線及び前記第2画像特性画素構造の下端に対応する下側水平線の少なくとも一方により限定され、
    前記第1画像特性画素構造の前記第1境界領域は、前記上側水平線及び前記下側水平線の少なくとも一方よりも周辺にある、装置。
  2. 前記第1画像特性画素構造が、前記表面の前記少なくとも一部に対して均一な解像度を有する、請求項1に記載の装置。
  3. 前記画像特性画素構造の前記中央領域と前記第1境界領域とは重なり合わない、請求項1または2に記載の装置。
  4. 前記第2プロセッサが、前記第1画像特性画素の第2境界領域から導出される第2コーナー領域を有するように前記第2画像特性画素構造を生成するように構成され、前記第2コーナー領域は、前記第2画像特性画素構造の前記中央領域と重なり合わず、前記第2境界領域は、前記上側境界及び前記下側境界の前記一方の近傍の領域であり、前記第1境界領域と前記第2境界領域とは、前記第1画像特性画素構造の仮想的な垂直線の異なる側にある、請求項1から3のいずれか一項に記載の装置。
  5. 前記仮想的な垂直線が前記第1境界領域及び前記第2境界領域を区切り、前記第1境界領域及び前記第2境界領域は、前記仮想的な垂直線に関して鏡面対称である、請求項4に記載の装置。
  6. 前記第1境界領域から前記第2境界領域への水平方向が、前記第1コーナ―領域から前記第2コーナー領域への水平方向と逆である、請求項4または5に記載の装置。
  7. 前記第1コーナー領域が前記第1境界領域の反対側の境界の近傍である、請求項1から請求項6のいずれか一項に記載の装置。
  8. 前記第2プロセッサが、前記第2画像特性画素構造の前記第1コーナー領域及び前記中央領域の少なくとも一方の画素を、前記第1コーナー領域及び前記中央領域の少なくとも一方の近傍の前記第2画像特性画素構造の未充填領域に外挿するように構成される、請求項1から7のいずれか一項に記載の装置。
  9. 前記第2プロセッサが、前記第1境界領域の画素値のシフト、並進、ミラーリング及び回転のうちの少なくとも1つにより前記第1コーナー領域の画素値を決定するように構成される、請求項1から8のいずれか一項に記載の装置。
  10. 前記第1プロセッサが、正距投影による前記表面の前記少なくとも一部の表す矩形の画像特性画素構造のワーピングにより前記第1画像特性画素構造を生成するように構成される、請求項1に記載の装置。
  11. 前記画像特性画素構造が奥行きマップである、請求項1から10のいずれか一項に記載の装置。
  12. 前記画像特性画素構造が光強度画像である、請求項1から10のいずれか一項に記載の装置。
  13. 出力画像特性画素構造を生成する装置であって、
    二次元で矩形の画素構造であり、第1画像特性画素構造の中央領域から導出された中央領域と、前記第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有する画像信号を受信する受信機であって、前記第1画像特性画素構造は視点のビュー球の表面の少なくとも一部を表す二次元で非矩形の画素構造であり、前記第1境界領域は前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は前記第2画像特性画素構造の中央領域と重ならず、前記第1画像特性画素構造の中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線および前記第2画像特性画素構造の下端に対応する下側水平線の少なくとも一方によって限定され、前記第1画像特性画素構造の前記第1境界領域は、前記上側水平線および前記下側水平線の前記少なくとも一方よりも周辺部に位置する、受信機と、
    前記視点のための前記ビュー球の前記表面の前記少なくとも一部を表す非矩形の出力画像特性画素構造を生成するプロセッサであって、前記非矩形の出力画像特性画素構造は、前記第2画像特性画素構造の中央領域から導出される中央領域と、前記第2画像特性画素構造の第1コーナー領域から導出される出力画像特性画素構造の上側境界および下側境界の一方の近傍の領域である境界領域とを有する、プロセッサと、を有する装置。
  14. 視点からのシーンの特性を表す画像特性画素構造を生成する方法であって、
    前記視点のためのビュー球の表面の少なくとも一部を表す二次元で非矩形の画素構造である第1画像特性画素構造を提供するステップと、
    二次元で矩形の画素構造であり、前記第1画像特性画素構造の中央領域から導出された中央領域、及び、前記第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域を有する第2画像特性画素構造を生成するステップと、を有し、
    前記第1境界領域は、前記第1画像特性画素構造の上側境界及び下側境界の一方の近傍の領域であり、
    前記少なくとも1つのコーナー領域は、前記第2画像特性画素構造の前記中央領域と重なり合わず、
    前記第1画像特性画素構造の前記中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線及び前記第2画像特性画素構造の下端に対応する下側水平線の少なくとも一方により限定され、
    前記第1画像特性画素構造の前記第1境界領域は、前記上側水平線及び前記下側水平線の少なくとも一方よりも周辺にある、方法。
  15. 出力画像特性画素構造を生成する方法であって、
    二次元で矩形の画素構造であり、第1画像特性画素構造の中央領域から導出された中央領域と、前記第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有する画像信号を受信するステップであって、前記第1画像特性画素構造は視点のビュー球の表面の少なくとも一部を表す二次元で非矩形の画素構造であり、前記第1境界領域は前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は前記第2画像特性画素構造の中央領域と重ならず、前記第1画像特性画素構造の中央領域は、前記第2画像特性画素構造の上端に対応する上側水平線および前記第2画像特性画素構造の下端に対応する下側水平線の少なくとも一方によって限定され、前記第1画像特性画素構造の前記第1境界領域は、前記上側水平線および前記下側水平線の前記少なくとも一方よりも周辺部に位置する、ステップと、
    前記視点のための前記ビュー球の前記表面の前記少なくとも一部を表す非矩形の出力画像特性画素構造を生成するステップであって、前記非矩形の出力画像特性画素構造は、前記第2画像特性画素構造の中央領域から導出される中央領域と、前記第2画像特性画素構造の第1コーナー領域から導出される出力画像特性画素構造の上側境界および下側境界の一方の近傍の領域である境界領域とを有する、ステップと、を有する方法。
  16. コンピュータにより実行されて、当該コンピュータに請求項14または15に記載の方法の全てのステップを実行させる、コンピュータプログラム。
  17. 二次元で矩形の画素構造であり、第1画像特性画素構造の中央領域から導出された中央領域と、前記第1画像特性画素構造の第1境界領域から導出された少なくとも第1コーナー領域とを有する第2画像特性画素構造を有する画像信号であって、前記第1画像特性画素構造は視点のビュー球の表面の少なくとも一部を表す二次元で非矩形の画素構造であり、前記第1境界領域は前記第1画像特性画素構造の上側境界および下側境界の一方の近傍の領域であり、前記少なくとも1つのコーナー領域は前記第2画像特性画素構造の中央領域と重ならない、画像信号。
JP2021530193A 2019-01-24 2020-01-16 画像特性画素構造の生成および処理 Pending JP2022517499A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19153580.6A EP3686833A1 (en) 2019-01-24 2019-01-24 Generating and processing an image property pixel structure
EP19153580.6 2019-01-24
PCT/EP2020/051072 WO2020152033A1 (en) 2019-01-24 2020-01-16 Generating and processing an image property pixel structure

Publications (1)

Publication Number Publication Date
JP2022517499A true JP2022517499A (ja) 2022-03-09

Family

ID=65268734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021530193A Pending JP2022517499A (ja) 2019-01-24 2020-01-16 画像特性画素構造の生成および処理

Country Status (9)

Country Link
US (1) US20220122216A1 (ja)
EP (2) EP3686833A1 (ja)
JP (1) JP2022517499A (ja)
KR (1) KR20210119476A (ja)
CN (1) CN113330479A (ja)
BR (1) BR112021014351A2 (ja)
CA (1) CA3127405A1 (ja)
TW (1) TW202101373A (ja)
WO (1) WO2020152033A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2548358A (en) * 2016-03-15 2017-09-20 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic images and video
CN106375760B (zh) * 2016-10-11 2019-04-19 上海国茂数字技术有限公司 一种全景视频多边形采样方法及装置
GB2555788A (en) * 2016-11-08 2018-05-16 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US10460509B2 (en) * 2017-11-07 2019-10-29 Dolby Laboratories Licensing Corporation Parameterizing 3D scenes for volumetric viewing
US10735765B2 (en) * 2018-06-07 2020-08-04 Hong Kong Applied Science and Technology Research Institute Company, Limited Modified pseudo-cylindrical mapping of spherical video using linear interpolation of empty areas for compression of streamed images

Also Published As

Publication number Publication date
US20220122216A1 (en) 2022-04-21
CA3127405A1 (en) 2020-07-30
TW202101373A (zh) 2021-01-01
KR20210119476A (ko) 2021-10-05
EP3686833A1 (en) 2020-07-29
CN113330479A (zh) 2021-08-31
BR112021014351A2 (pt) 2021-11-23
WO2020152033A1 (en) 2020-07-30
EP3915086A1 (en) 2021-12-01

Similar Documents

Publication Publication Date Title
US11599968B2 (en) Apparatus, a method and a computer program for volumetric video
US10645369B2 (en) Stereo viewing
EP3437319A1 (en) Multi-camera image coding
JP2020528619A (ja) シーンのタイル化3次元画像表現を生成する装置及び方法
JP7479386B2 (ja) シーンを表す画像信号
WO2009109804A1 (en) Method and apparatus for image processing
JP2022517499A (ja) 画像特性画素構造の生成および処理
US20220174259A1 (en) Image signal representing a scene
KR102658474B1 (ko) 가상 시점 합성을 위한 영상 부호화/복호화 방법 및 장치
JP2022522364A (ja) 画像信号を生成する装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240502