JP7401472B2 - シーンの画像を生成するための装置および方法 - Google Patents

シーンの画像を生成するための装置および方法 Download PDF

Info

Publication number
JP7401472B2
JP7401472B2 JP2020572436A JP2020572436A JP7401472B2 JP 7401472 B2 JP7401472 B2 JP 7401472B2 JP 2020572436 A JP2020572436 A JP 2020572436A JP 2020572436 A JP2020572436 A JP 2020572436A JP 7401472 B2 JP7401472 B2 JP 7401472B2
Authority
JP
Japan
Prior art keywords
pose
anchor
viewer
poses
rendering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020572436A
Other languages
English (en)
Other versions
JP2022501685A (ja
Inventor
クリスティアーン ヴァレカンプ
パトリック ルク エルス バンドワール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022501685A publication Critical patent/JP2022501685A/ja
Application granted granted Critical
Publication of JP7401472B2 publication Critical patent/JP7401472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0088Synthesising a monoscopic image signal from stereoscopic images, e.g. synthesising a panoramic or high resolution monoscopic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、シーンの画像を生成するための装置および方法に関し、限定はされないが、特に仮想的なシーンにアクセスする仮想現実アプリケーションのための画像生成に関する。
近年、画像および動画アプリケーションの多様性および範囲が大きく増大しており、動画を利用および消費する新しいサービスや方法が絶えず開発および導入されている。
例えば、益々人気が高まっているサービスの1つとして、視聴者がシステムとアクティブかつ動的にインタラクトしてレンダリングのパラメータを変更することができるように画像シーケンスを提供することが挙げられる。多くのアプリケーションにおいて、視聴者の事実上の視点および視線を変更する機能、例えば、提示されているシーン内で視聴者が移動して「見回す」ことを可能にする等の機能は非常に魅力的である。
このような機能により、特に、仮想現実体験をユーザに提供することができる。これは、ユーザが仮想環境内を(比較的)自由に動き回ったり、自分の位置および視線を動的に変更することを可能にし得る。通常、このような仮想現実アプリケーションはシーンの3次元モデルに基づいている。特定の要求されるビューを提供するために、モデルは動的に評価される。この手法は、例えば、コンピュータやコンソール向けの一人称シューティングゲームのジャンルなどのゲームアプリケーションでよく知られている。
また、特に仮想現実アプリケーションの場合、提示される画像が3次元画像であることが望ましい。実際には、視聴者の没入感を最適化するために、通常は、ユーザが提示されたシーンを3次元シーンとして体験することが好ましい。実際には、仮想現実体験は好ましくは、ユーザが仮想世界に対する自身の位置、カメラの視点、および時点/時刻を選択することを可能にする。
通常、仮想現実アプリケーションはシーンの所定のモデルに基づいている(典型的には、仮想世界の人工モデルに基づいている)という点で、仮想現実アプリケーションは本質的に制限を受ける。現実世界のキャプチャに基づいて仮想現実体験を提供することができれば望ましいであろう。しかし、多くの場合、そのような手法は大きな制約を受けるか、または現実世界の複数のキャプチャから現実世界の仮想モデルを構築しなければならない傾向がある。その後、このモデルを評価することによって仮想現実体験が生成される。
ただし、現存する手法は最適ではない傾向があり、また多くの場合、計算または通信リソースの要件が高く、かつ/または、例えば品質の低下や自由度の制限など、最適ではないユーザエクスペリエンスを提供する傾向がある。
1つの適用例として、VRゴーグルが市場に参入した。これらのゴーグルを使用すると、視聴者はキャプチャされた360度(パノラマ)または180度のビデオを体験することができる。これらの360度のビデオは、多くの場合、カメラリグを使用して事前キャプチャされ、個々の画像が1つの球面マッピングにつなぎ合わされる。180度または360度のビデオの一般的なステレオ形式は上/下および左/右である。非パノラマのステレオビデオと同様に、左目の画像と右目の画像とが単一のH.264ビデオストリームの一部として圧縮される。単一のフレームをデコードした後、視聴者は頭を回転させて自身の周囲の世界を見る。一例として、視聴者が360度の見回し効果を体験でき、異なる位置から記録された複数のビデオストリームを切り替えることができる記録が挙げられる。切り替えが行われると別のビデオストリームが読み込まれ、体験が中断される。
ステレオパノラマビデオ手法の欠点の1つは、視聴者が仮想世界で位置を変更できないことである。パノラマステレオビデオに加えてパノラマ深度マップをエンコードおよび伝送することにより、クライアント側の視聴者の小さな並進運動を補償することが可能になる。しかし、そのような補償は本質的に小さな変化および動きに限定され、没入型の自由な仮想現実体験を提供することはできない。
関連技術は自由視点ビデオであり、この技術では複数の視点が深度マップとともにエンコードされ、単一のビデオストリーム内で伝送される。よく知られた時間的予測スキームに加えて視点間の角度依存性を利用することによって、ビデオストリームのビットレートを減らすことができる。しかし、依然として高いビットレートが要求され、生成可能な画像が制限される。3次元仮想現実世界で完全に自由な動きの体験を提供することは実質的に不可能である。
残念ながら、いずれの先行技術も理想的な体験を提供することはできず、多くの場合、位置や視線の変更の自由度において制約を受ける傾向がある。さらに、これらの技術は非常に高いデータレートを必要とし、かつ個々の画像/ビューの生成に必要なデータよりも多くのデータを含むデータストリームを供給する傾向がある。
仮想現実サービスおよびアプリケーションの数およびバリエーションは増加しているが、依然としてユーザエクスペリエンスを改善することが望ましいであろう。特に、より柔軟で直感的なユーザエクスペリエンスを提供することが望ましいであろう。とりわけ、高品質の視覚的レスポンスを提供するだけでなく、ユーザによる制御および入力が直感的で、自然で、柔軟で、かつ使いやすいことがアプリケーションに望まれる。
したがって、シーン(特に仮想現実体験/アプリケーション)の画像を生成するための改善された手法は有益であろう。特に、動作の改善、柔軟性の向上、データレートの低下、配信の容易化、複雑さの低減、実装の容易化、ストレージ要件の低減、画質の向上、ユーザ制御の向上および/または促進、仮想現実体験の向上、並びに/または性能および/または動作の改善を可能にする手法は有益であろう。
したがって、本発明は、上記欠点の1つ以上を単独で、または任意の組み合わせで好適に緩和、低減、または排除することを目的とする。
本発明の一側面によれば、シーンの画像を生成するための装置が提供され、前記装置は、前記シーンのためのアンカーポーズのセットを保存するための記憶部と、視聴者の視聴者ポーズを受け取るための受信部と、前記アンカーポーズのセットから基準アンカーポーズを選択するための選択部と、前記視聴者ポーズのうち、現在の視聴者ポーズのための前記シーン内の第1のレンダリングポーズを決定するためのレンダリングポーズプロセッサと、前記基準アンカーポーズのための第1の3次元画像データを取り出す取得部と、前記第1の3次元画像データに応答して、前記レンダリングポーズのための画像を合成する合成部とを備え、前記選択部は、前記視聴者ポーズの変化が基準を満たすと、前記基準アンカーポーズを、前記アンカーポーズのセットのうちの第1のアンカーポーズから前記アンカーポーズのセットのうちの第2のアンカーポーズに切り替え、前記レンダリングポーズプロセッサは、視聴者ポーズからレンダリングポーズへのマッピングによって前記第1のレンダリングポーズを決定し、前記マッピングは、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに依存する。
本発明は、視聴者の視聴者ポーズに応答してのシーンの画像生成を改善および/またはより有用にし得る。この手法は、多くの実施形態において、柔軟かつ効率的で高性能の仮想現実(VR)用途に非常に適した画像データを提供し得る。多くの実施形態において、上記手法は改善されたVRユーザエクスペリエンスを可能にし得る。多くの例において、上記手法は、ユーザが小さな動きに関しては自然な視差を体験することができるが、一方で、例えば物を避けて見るために視界をより急激に変更することも可能であるようなユーザエクスペリエンスを提供し得る。例えば、ユーザはほとんどの動きについては自然な視差を体験し得るが、別の視点が必要な場合は別の視点にテレポートすることができる。さらに、上記手法は多くの実施形態において有利で直感的なユーザ制御を提供し得る。例えば、ユーザは自然で単純な頭の動きに基づいて様々な体験や機能を制御可能であり得る。
上記手法は、望ましい仮想現実体験を提供するのに必要とされる機能の複雑さを低減し得る。例えば、シーンをキャプチャするカメラの数が非常に少なくても柔軟な体験を提供し得る。上記手法は、例えば現実世界のイベントの配信または放送(例えば、スポーツイベントのリアルタイム配信または放送)に非常に有利である可能性がある。
生成される画像は、頭のポーズのビューポート画像に対応し得る。画像は、連続データストリームを形成するように生成され、例えば、複数のビュー画像に対応する複数のステレオフレームのストリームであり得る。
シーンは仮想シーンであってもよく、具体的には人工仮想シーンであったり、または例えば撮影された現実世界のシーン、もしくは拡張現実シーンであってもよい。視聴者ポーズは、現実世界における視聴者のポーズを表し、具体的には、例えばVRヘッドセットによって検出された視聴者の頭のポーズに対応することができる。視聴者ポーズは現実世界の座標系で表され得る。レンダリングポーズおよびアンカーポーズはシーン座標系で表され得る。
一部の実施形態では、視聴者ポーズ、レンダリングポーズ、および/またはアンカーポーズはそれぞれ視聴者位置、レンダリング位置、および/またはアンカー位置であり得る。アンカーポーズは、シーンを表す3次元画像データが利用可能であるポーズであり得る。具体的には、アンカーポーズはシーンのためのキャプチャポーズであってもよい(具体的には、シーンをキャプチャする実際のまたは仮想のカメラのためのポーズ)。
選択部は、視聴者ポーズ(現在の視聴者ポーズ)が切り替え基準を満たす場合、基準アンカーポーズを、アンカーポーズのセットのうちの第1のアンカーポーズからアンカーポーズのセットのうちの第2のアンカーポーズに切り替えるように構成され得る。一部の実施形態では、選択部は、視聴者ポーズの変化が基準を満たすと、基準アンカーポーズを、アンカーポーズのセットのうちの第1のアンカーポーズからアンカーポーズのセットのうちの第2のアンカーポーズに切り替えるように構成され得る。
使用される具体的な基準は個々の実施形態の具体的な要件および優先事項、ならびに達成されるべき所望の効果に依存する。同様に、マッピングの特性、およびマッピングがアンカーポーズによってどのように変化するかも個々の実施形態の具体的な要件および優先事項、ならびに達成されるべき所望の効果に依存する。
多くの実施形態では、マッピングは現在の視聴者ポーズ以外の視聴者ポーズは考慮しない可能性があり、一方、基準は、現在の視聴者ポーズではない少なくとも1つの視聴者ポーズを考慮し得る(そのような視聴者ポーズに関する要件を含み得る)。典型的には、マッピングは現在の視聴者のポーズのみを含み、一方、基準アンカーポーズを切り替えるための基準は過去の視聴者ポーズを考慮に入れてもよい。基準は、具体的には基準アンカーポーズの選択のためのヒステリシスを含み得る。アンカーポーズの選択は視聴者ポーズの履歴に依存し得るが、マッピングは現在の視聴者ポーズのみを考慮してもよい。
マッピングは1対1マッピングであってもよい。アンカーポーズを切り替える際のマッピングの変化は、一部の実施形態では瞬間的であり、他の実施形態では段階的であり得る。一部の実施形態では、複数の異なるアンカーポーズのための相対的マッピングは、視聴者ポーズのある相対的変化が、互いに異なる基準アンカーポーズのためのレンダリングポーズにおける同じ相対的変化にマッピングされるようなものであり得る(すなわち、基準アンカーポーズの変更がない場合)。
本発明の任意選択的な特徴によれば、前記レンダリングポーズプロセッサは、前記第1のアンカーポーズが前記基準アンカーポーズとして選択されている場合と、前記第2のアンカーポーズが前記基準アンカーポーズとして選択されている場合とで、視聴者ポーズ値を異なるレンダリングポーズ値にマッピングする。
これは多くの実施形態において体験および/またはパフォーマンスの向上をもたらし得る。
本発明の任意選択的な特徴によれば、前記マッピングは、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに応じて、前記レンダリングポーズに対して異なるオフセットを適用することを含む。
これは多くの実施形態において、特に有利な動作を提供し得る。多くの実施形態では、同じ相対的/差分マッピングが各アンカーポーズに適用され、アンカーポーズの変更により、レンダリングポーズのポーズオフセットが変更され得る。
本発明の任意選択的な特徴によれば、前記レンダリングポーズプロセッサは、前記視聴者ポーズの第1の方向における変化が、前記レンダリングポーズの前記第1の方向における変化にマッピングされるように、同じ基準アンカーポーズについて視聴者ポーズをレンダリングポーズにマッピングする。
これは多くの実施形態において、特に有利な動作を提供し得る。
本発明の任意選択的な特徴によれば、前記レンダリングポーズから前記基準アンカーポーズまでの距離が閾値を超えない場合、前記マッピングは一定の線形マッピングである。
これは多くの実施形態において、特に有利な動作を提供し、特に、視聴者ポーズが比較的小さく変化する場合に自然な視聴体験を可能とし得る。
一部の実施形態では、前記レンダリングポーズから前記基準アンカーポーズまでの距離が閾値を超えない場合、前記マッピングは一定の線形マッピングであり得る。
本発明の任意選択的な特徴によれば、前記線形マッピングは50%以上かつ150%以下のスケールファクタを有する。
これにより体験が改善し、特に、自然な体験を提供するとともに、動作をある程度調整することが可能になり得る。多くの実施形態では、スケールファクタは100%であり、その場合は自然視差がより自然に体験される。スケールファクタは、視聴者ポーズのポーズ距離と、レンダリングポーズの対応する(マッピングされる)ポーズ距離との間の比率を反映し得る。
本発明の任意選択的な特徴によれば、前記選択部は、第1の視聴者ポーズと基準視聴者ポーズとの間の第1の距離が閾値を上回るという要件を含む基準を前記第1の視聴者ポーズが満たすことが検出されると、前記基準アンカーポーズを切り替える。
これにより、要求される複雑さが低いにも関わらず効率的で直感的な体験が提供され得る。基準視聴者ポーズは、具体的には、基準アンカーポーズにマッピングされるポーズであり得る。
本発明の任意選択的な特徴によれば、前記選択部は、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに応じて、前記基準視聴者ポーズを調整する。
これは多くの実施形態において体験の向上をもたらし得る。特に、基準アンカーポーズを切り替えるタイミングの制御が改良され得る。それにより、例えば、視聴者ポーズの異なるポーズ領域が異なる基準アンカーポーズにマッピングされる手法が可能となり、制御が容易になり得る。
本発明の任意選択的な特徴によれば、前記第1の距離は、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに依存する。
これは多くの実施形態においてパフォーマンスの向上をもたらし得る。
本発明の任意選択的な特徴によれば、前記第1の距離は、前記第1の視聴者ポーズの位置と前記基準視聴者ポーズの位置との間の距離であり、前記選択部は、前記視聴者ポーズの向きと基準向きとの間の差に基づき前記閾値を調整する。
これは体験の向上をもたらし得る。特に、多くの実施形態において、ユーザが顔を横に向けているのか、それとも例えば前景の物体を避けて見るために頭を動かしているのかへの改善された適合および推定を可能にし得る。
本発明の任意選択的な特徴によれば、閾値は差の単調増加関数である。
これは体験の向上をもたらし得る。
本発明の任意選択的な特徴によれば、前記選択部は、前記視聴者ポーズの変化率に応じて前記基準アンカーポーズを切り替える。
これにより多くのシナリオにおいてユーザエクスペリエンスが向上し得る。例えば、視聴者ポーズの向きの変化率が増加すると、アンカーポーズ切り替えに要求される閾値距離は減少し得る。
本発明の任意選択的な特徴によれば、前記取得部はさらに、前記アンカーポーズのセットのうちの第2のアンカーポーズのための第2の3次元画像データを取り出し、前記合成部は、前記第2の3次元データを使用して前記画像を合成し、前記第1の3次元データは前記第2の3次元データよりも高い品質レベルを有する。
これにより多くの用途において、データレートを望ましくないほど高くすることなく画質を向上させることができる。
本発明の一側面によれば、シーンの画像を生成する方法が提供され、前記方法は、前記シーンのためのアンカーポーズのセットを保存するステップと、視聴者の視聴者ポーズを受け取るステップと、前記アンカーポーズのセットから基準アンカーポーズを選択するステップと、前記視聴者ポーズのうち、現在の視聴者ポーズのための前記シーン内の第1のレンダリングポーズを決定するステップであって、前記第1のレンダリングポーズは前記基準アンカーポーズに対して決定される、ステップと、前記基準アンカーポーズのための第1の3次元画像データを取り出すステップと、前記第1の3次元画像データに応答して、前記レンダリングポーズのための画像を合成するステップとを含み、前記選択するステップは、前記視聴者ポーズの変化が基準を満たすと、前記基準アンカーポーズを、前記アンカーポーズのセットのうちの第1のアンカーポーズから前記アンカーポーズのセットのうちの第2のアンカーポーズに切り替えることを含む。
本発明の上記および他の側面、特徴、および利点は、以下に記載される実施形態を参照しながら説明され、明らかになるであろう。
以下、本発明の単なる例に過ぎない実施形態について、以下の図面を参照しながら説明する。
図1は、仮想現実体験を提供するためのクライアントサーバー構成の例を示す。 図2は、本発明の一部の実施形態に係る装置の要素の例を示す。 図3は、図2の装置の一部の例示的な実装による視聴者ポーズのレンダリングポーズへのマッピングの例を示す。 図4は、図2の装置の一部の例示的な実装による視聴者ポーズのレンダリングポーズへのマッピングの例を示す。 図5は、図2の装置の一部の例示的な実装による視聴者ポーズのレンダリングポーズへのマッピングの例を示す。 図6は視聴者の動きの例を示す。 図7は視聴者の動きの例を示す。 図8は視聴者の動きの例を示す。 図9は視聴者の動きの例を示す。 図10は、図2の装置の一部の例示的な実装が用いる判定境界の例を示す。 図11は、図2の装置の一部の例示的な実装が用いる3D画像データの例を示す。
ユーザが仮想世界内で動き回ることができる仮想体験は益々人気を増しており、そのような需要を満たすためのサービスが開発されている。しかし、効率的な仮想現実サービスの提供は非常に困難であり、特に、完全に仮想的に生成された人工世界ではなく、現実世界の環境のキャプチャに基づいて体験する場合はなおさらである。
多くの仮想現実アプリケーションにおいて、仮想シーン内の仮想視聴者のポーズを反映して視聴者ポーズ入力が決定される。その後、仮想現実装置/システム/アプリケーションは、視聴者のポーズに対応する視聴者のための仮想シーンのビューおよびビューポートに対応する1つまたは複数の画像を生成する。
通常、仮想現実アプリケーションは、左目および右目に対する別々のビュー画像という形式で3次元出力を生成する。その後、これらの画像は適切な手段、例えばVRヘッドセットの(通常は個別である)左目ディスプレイおよび右目ディスプレイによってユーザに提示され得る。他の実施形態では、1つまたは複数のビュー画像は、例えば裸眼立体ディスプレイ上に提示されてもよいし、または一部の実施形態では、1つの二次元画像のみが生成されてもよい(例えば、従来の二次元ディスプレイを使用して)。
視聴者ポーズ入力は、様々なアプリケーションにおいて様々なやり方で決定され得る。多くの実施形態において、ユーザの物理的な動きが直接トラッキングされ得る。例えば、ユーザ領域を調査するカメラがユーザの頭部(または目)を検出して追跡し得る。多くの実施形態において、ユーザは、外部および/または内部手段によって追跡可能なVRヘッドセットを着用し得る。例えば、ヘッドセットは、ヘッドセットの(よって頭部の)動きおよび回転に関する情報を提供する加速度計およびジャイロスコープを備え得る。一部の実施例では、VRヘッドセットは信号を送信してもよいし、または外部センサがVRヘッドセットの位置を決定することを可能にする(例えば、視覚的な)識別子を含み得る。
一部のシステムでは、視聴者のポーズは手動の手段によって提供されてもよく、例えば、ユーザがジョイスティックまたは同様の手動入力手段を手動で制御することによって提供され得る。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することによって仮想シーン内で仮想視聴者を手動で動かし、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想視聴者が見ている方向を手動で制御してもよい。
一部のアプリケーションでは、手動の手法と自動の手法の組み合わせを使用して入力視聴者ポーズが生成されてもよい。例えば、ヘッドセットが頭の向きを追跡する一方、シーン内の視聴者の動き/位置はジョイスティックを使用してユーザによって制御されてもよい。
画像生成は仮想世界/環境/シーンの適切な表現に基づく。一部のアプリケーションでは、シーンのための完全な三次元モデルが提供され、このモデルを評価することによって特定の視聴者ポーズからのシーンのビューが決定され得る。他のシステムでは、仮想シーンは、複数の異なるキャプチャポーズからキャプチャされた複数のビューに対応する画像データによって表現され得る。例えば、複数のキャプチャポーズの場合、完全な球面画像が三次元(深度データ)とともに記憶され得る。そのような手法では、キャプチャポーズ以外のポーズのビュー画像が三次元画像処理によって、例えば、具体的にはビューシフト(view shifting)アルゴリズムを使用することによって生成され得る。個別の視点/位置/ポーズについて記憶されたビューデータによってシーンが記述/参照されるシステムでは、これらはアンカー視点/位置/ポーズと呼ばれることがある。通常、様々なポイント/位置/ポーズから画像をキャプチャすることによって現実世界の環境がキャプチャされた場合、これらのキャプチャポイント/位置/ポーズも同様にアンカーポイント/位置/ポーズである。
したがって、典型的なVRアプリケーションは、現在の視聴者ポーズのための仮想シーンのためのビューポートに対応する画像を(少なくとも)提供する。画像は視聴者ポーズの変化を反映するように動的に更新され、また、画像は仮想シーン/環境/世界を表すデータに基づいて生成される。
当該技術分野では、配置およびポーズという用語が、位置および/または方向/向きを表す一般的な用語として使用される。例えば物体、カメラ、頭部、またはビューの位置および方向/向きの組み合わせがポーズまたは配置と呼ばれ得る。したがって、配置またはポーズの指標は6つの値/成分/自由度を備え得る。各値/成分は典型的には、対応する物体の位置/場所または方向/向きの個々の特性を記述する。当然ながら、多くの状況において、配置またはポーズはより少ない成分で考慮または表現され、例えば、1つまたは複数の成分が一定または無関係であると見なされる場合が該当する(例えば、全ての物体が同じ高さを有し、かつ向きが水平であると見なされる場合、4つの成分で物体のポーズを完全に表現することが可能であり得る)。以下、ポーズという用語は1~6個(可能な最大自由度に対応)の値で表すことができる位置および/または向きを指すために使用される。
多くのVRアプリケーションは、最大自由度(すなわち、位置および向きでそれぞれ3つの自由度、計6つの自由度)を有するポーズに基づいている。したがって、ポーズは6つの自由度を表す6つの値のセットまたはベクトルによって表され、よって、ポーズベクトルが三次元位置および/または三次元向きの指標を提供し得る。しかし、他の実施形態ではポーズがより少ない数の値によって表現され得ることを理解されたい。
視聴者に最大自由度を提供することに基づくシステムまたはエンティティは、通常、6自由度(6DoF)を有すると言われる。多くのシステムおよびエンティティは向きまたは位置のみを提供し、これらは通常、3自由度(3DoF)を有すると言われる。
一部のシステムでは、VRアプリケーションは例えば、リモートVRデータや処理を一切使用しない(または、場合によってはこれらへのアクセスすら有さない)スタンドアロンデバイスによって視聴者にローカルに提供され得る。例えば、ゲームコンソールなどのデバイスは、シーンデータを保存するための記憶部、視聴者ポーズを受け取る/生成するための入力装置、およびシーンデータから対応する画像を生成するためのプロセッサを備え得る。
他のシステムでは、VRアプリケーションは、ビューアから離れた場所でリモート実装および実行され得る。例えば、ユーザにローカルなデバイスは動き/ポーズデータを検出/受信し、動き/ポーズデータは、データを処理して視聴者ポーズを生成するリモートデバイスに送信される。その後、リモートデバイスは、シーンデータを記述するシーンデータに基づいて、視聴者ポーズに適したビュー画像を生成し得る。そして、ビュー画像が視聴者にローカルなデバイスに送信され、提示される。例えば、リモートデバイスは、ローカルデバイスによって直接提示されるビデオストリーム(通常、ステレオ/3Dビデオストリーム)を直接生成し得る。したがって、そのような例では、ローカルデバイスは動きデータの送信、および受信したビデオデータの提示以外のVR処理を一切実行しない可能性がある。
多くのシステムにおいて、機能はローカルデバイスとリモートデバイスの間で分散されていてもよい。例えば、ローカルデバイスは、受信した入力およびセンサデータを処理することで視聴者ポーズを生成し、視聴者ポーズは連続的にリモートVRデバイスに送信され得る。その後、リモートVRデバイスは対応するビュー画像を生成し、これらを提示のためにローカルデバイスに送信し得る。他のシステムでは、リモートVRデバイスはビュー画像を直接生成せず、代わりに適切なシーンデータを選択し、これをローカルデバイスに送信してもよい。ローカルデバイスはその後、提示されるべきビュー画像を生成し得る。例えば、リモートVRデバイスは最も近いキャプチャポイントを特定し、対応するシーンデータ(例えば、キャプチャポイントからの球面画像および深度データ)を抽出してローカルデバイスに送信し得る。その後、ローカルデバイスは受信したシーンデータを処理して現在のビューポーズのための画像を生成することができる。
図1は、リモートVRサーバ103が、例えばインターネットなどのネットワーク105を介してクライアントVRデバイス101と連絡するVRシステムの例を示す。リモートVRサーバ103は、多数である可能性があるクライアントVRデバイス101を同時にサポートするように構成され得る。
そのような手法は多くの状況において、例えば、様々なデバイスや通信等の複雑さとリソース要求との間の改善されたトレードオフを提供し得る。例えば、リアルタイムの遅延が少ない体験を提供するために、視聴者ポーズおよび対応するシーンデータは長い間隔で送信されて、ローカルデバイスが視聴者ポーズおよび受信されたデータをローカルで処理してもよい。これは、例えば、遅延が少ない体験を提供し、かつシーンデータを一元的に保存、生成、および管理することを可能にしつつ、要求される通信帯域幅を大幅に削減し得る。例えば、VR体験が複数のリモートデバイスに提供されるアプリケーションに適している可能性がある。
図2は、本発明の一部の実施形態に係る、視聴者ポーズに応じて仮想シーンの画像を生成するための装置を示す。この手法は特に、例えば、比較的少数の撮影デバイス(典型的には3Dカメラ)によって撮影されたライブイベントのための仮想現実体験が提供される実施形態に適している可能性がある。
明確にするための説明的な例として、いくつかの空間的にずらされた3Dカメラ(例えば、画像および関連付けられた深度マップ、またはステレオ画像および関連付けられた3Dマップを提供し得るステレオカメラまたは測距(ranging)カメラ)によってバスケットボールの試合などのスポーツイベントが撮影されるアプリケーションが考えられる。例えば、50cm間隔で一列に並んでいる3台の3Dカメラによってイベントが撮影され得る。カメラは、例えば、バスケットボールの試合の最前列の3つの連続した座席に対応して配置され得る。
そのようなシナリオにおいて、図2の装置が、例えば実際に最前列に座っているような感覚をユーザに与えるユーザエクスペリエンスを提供するために使用され得る。装置は、例えばユーザが周りを見回すと、頭の動きに応じて景色が変わることをサポートし得る。後述されるように、この手法はまた、例えば物体を見て回るために、ユーザが自身の視点をより変更することを可能にし得る。
具体的には、この例の装置は、視聴者が座っている際には頭を少し動かして対応する小さな視点の変化(視差シフト)を見ることができるように、視聴者に限られた量の動きの自由度を提供するVR体験を提供し得る。没入感のレベルをさらに上げるために、この手法は、視聴者が、遮っている前景の物体を迂回して見ることに対応し得る。例えば、バスケットボールの試合中にボールや重要なアクションを遮る選手を迂回して見たり、または、テニスの試合中にテニスプレーヤーを迂回してボールの行く末を見ることを可能にし得る。
図2の装置は、視聴者の視聴者ポーズを受信するように構成された受信部201を備える。装置は、ビューポーズに対応する1つまたは複数のビュー画像を生成し得る。
一部の実施形態では、受信部201は、例えばVRヘッドセットから、またはセンサ入力データに基づいてビューポーズを決定および計算するように構成された内部プロセッサから、ビューポーズを定めるビューポーズデータを直接受信することができる。例えば、装置は、ビューアまたはビューアに関連付けられた機器の動きを検出するセンサからデータを受信するように構成されたセンサ入力プロセッサ(図示せず)を備え得る。センサ入力は、視聴者の頭部のポーズを示すデータを受信するように構成される。センサ入力に応答して、センサ入力プロセッサは、当業者に知られているような方法で視聴者の現在の頭部のポーズを決定/推定するように構成される。例えば、ヘッドセットからの加速度、ジャイロ、およびカメラセンサデータに基づいて、センサ入力プロセッサは、ヘッドセット(よって、視聴者の頭)の位置および向きを推定および追跡することができる。あるいは、またはさらに、例えば、視聴環境を撮影するためにカメラが使用されてもよく、カメラからの画像を使用して視聴者の頭の位置および向きが推定および追跡されてもよい。以下の説明では頭部のポーズが6自由度で決定される実施形態に焦点を当てるが、他の実施形態ではより少ない自由度が考慮され得ることが理解されるであろう。その後、センサ入力プロセッサ201は、視聴者ポーズとして使用するために頭部のポーズを受信部201に供給し得る。
受信部は、視聴者ポーズからレンダリングポーズを生成するように構成されたレンダリングポーズプロセッサ203に結合されている。視聴者ポーズは現実世界でのユーザのポーズを反映し、具体的には、現実世界の座標参照系を反映するベクトルパラメータ値のセットとして提供され得る。具体的には、ビューポーズは、現実世界におけるユーザの頭の位置の変化を示し得る。
レンダリングポーズは、仮想シーンにおける視聴ポーズ、具体的には視点および視線方向を指すために生成される。レンダリングポーズは、具体的には仮想シーンの座標系におけるポーズを示す。レンダリングポーズは、ビュー画像生成の対象となる仮想シーン/世界内の所望のポーズを反映する。したがって、ビュー画像をレンダリングするための所望の基本ポーズがレンダリングポーズによって反映される。レンダリングポーズは、具体的には仮想シーン/世界の座標参照系を反映するベクトルパラメータ値のセットとして提供され得る。
レンダリングポーズプロセッサ203は、具体的には視聴者ポーズをレンダリングポーズにマッピングし、したがって、現実世界参照/座標系における頭部/視聴者ポーズを、仮想シーン/世界参照/座標系におけるレンダリングポーズにマッピングし得る。したがって、レンダリングポーズプロセッサ203は、視聴者の動きに基づいて、視聴者の仮想視聴ポーズに対応する仮想シーン内の対応するレンダリングポーズを決定し得る。レンダリングポーズプロセッサ203は、現在の視聴者ポーズから、現在の視聴者ポーズ以外の全ての視聴者ポーズから独立している(具体的には、過去および未来の視聴者ポーズから独立している)レンダリングポーズへのマッピングを実行するように構成され得る。
レンダリングポーズプロセッサ203は、レンダリングポーズのための複数の画像を合成するように構成された画像合成部205に結合されている。画像合成部205は、具体的には所与のレンダリングポーズのための仮想シーン内のビューポートに対応するビュー画像を生成し得る。ビュー画像は、具体的には左眼ビューポートおよび右眼ビューポートに対応するステレオ画像であり得る。したがって、例えばVRヘッドセット内でこれらの画像を提示されたユーザには、レンダリングポーズによって与えられる仮想世界内の位置および向きの視聴者が体験するであろうビューが提供される。レンダリングポーズプロセッサ203は、シーンを記述する三次元(3D)画像データに基づいて画像を生成するように構成される。3D画像データは取得部207によって取り出される。一部の実施形態では、取得部207は内部ソースから適切な3D画像データを取り出すように構成され得る。
例えば、3つのカメラフィード全てを含むバスケットボールの試合の録画がBlu-ray(登録商標)ディスク上で提供されたり、またはダウンロードを経てローカルメモリに保存されてもよい。次に、取得部207は、例えば中央のカメラの3D画像データストリームを取り出し、これを画像合成部205に供給し得る。そして、画像合成部は現在のレンダリングポーズに適したビュー画像を生成することができる。
他の実施形態では、取得部207はリモートソースから3D画像データを取り出すように構成されてもよい。例えば、リモートソースは、ライブイベントのためにリアルタイムでカメラフィードを配信し、取得部207は、ストリームを受信し、適切なストリームを画像合成部205に供給するように構成された受信部を含み得る。画像合成部はストリームを処理して適切なビュー画像を生成する。
さらに他の実施形態では、クライアントからの明示的なリクエストに応じて3D画像データがリモートサーバ(例えば、図1のリモートVRサーバ103)によって提供されてもよい。そのような実施形態では、取得部207は(例えば定期的に)3D画像データのリクエストを生成し、リクエストされた3D画像データを提供するサーバに送信し得る。多くの実施形態において、より柔軟な手法が用いられてもよく、リクエストが、提供されるべきデータストリームに対するものであって、その後、新しいリクエストが送信されるまでリクエストされたストリームが継続的に提供されるような手法であってもよい。例えば、リクエストの後、1つのカメラからのデータストリームという形式の3D画像データが、新しいリクエストが送信されるまで(例えば、サーバが別のカメラからのデータストリームを提供するために)、サーバから取得部207に提供されてもよい。
提供される具体的な3D画像データ、および画像を生成するために画像合成部205によって使用される具体的なアルゴリズムは個々の実施形態の優先事項および要件に依存することが理解されよう。3D画像データに基づいて特定のレンダリングポーズのビュー画像を生成するための様々な手法が知られており、本発明を損なうことなく任意の適切な手法を使用することができる。
例えば、多くの実施形態において、3D画像データは、カメラ位置(すなわち、撮影位置)のためのステレオ画像または画像+深度の形式で提供され得る。次に、画像合成部205は、当業者によく知られている従来のビュー・シフト・アルゴリズムを利用して、このデータを使用してビュー合成を実行することで現在のレンダリングポーズの特定のビューポートのためのビュー画像を生成することができる。
一部の実施形態では、3D画像データはステレオ画像の形式で提供され、各ステレオ画像(すなわち、左眼および右眼の両方)がさらに深度マップに関連付けられていてもよい。
図2の装置では、レンダリングポーズの生成および3D画像データの取り出しは単に視聴者のポーズまたは視聴者の動きに基づくものでなく、シーン内のアンカーポイントをさらに考慮したものであり、特に、シーンのための現在選択されている基準アンカーポーズに依存するものである。
装置は、アンカーポーズのセットを保存するアンカーポーズ記憶部209を備える。各アンカーポーズは向きおよび位置で表されてもよく、または、例えば、一部の実施形態では向きのみまたは位置のみで表されてもよい。さらに、各アンカーポーズについて定められるパラメータの数は個々の実施形態に依存し、典型的にはキャプチャポーズの自由度に依存し得る。例えば、バスケットボールの試合の例では、3台のステレオカメラがコートに対して固定された向きを有し、既知の方向で直線上に並んでいることが知られている場合がある。したがって、この例では、(ステレオ)カメラごとのアンカーポーズが単一の位置座標(以下ではx座標と呼ばれる)で表され得る。
アンカーポーズは通常、3D画像データを入手可能なシーン内のポーズに対応する。したがって、複数のアンカーポーズのための3D画像データによってシーンを表すことができ、アンカーポーズ記憶部209に保存されているアンカーポーズのセットは、これらのアンカーポーズのうちの少なくとも2つを含み得る。多くの実施形態において、アンカーポーズは、シーンのためのカメラポーズまたはキャプチャポーズ(可能な仮想カメラ/キャプチャポーズを含む)に対応し得る。
装置は、受信部201およびアンカーポーズ記憶部209に結合された選択部211を備える。選択部211は、ある基準アンカーポーズを基準ポーズのセットから選択し、選択されたポーズをレンダリングポーズプロセッサ203に供給するように構成される。次に、レンダリングポーズプロセッサ203は、レンダリングポーズが現在選択されている基準アンカーポーズと視聴者ポーズの両方に依存するように、このレンダリングポーズに関連するレンダリングポーズを決定する。したがって、レンダリングポーズは、視聴者ポーズに反映される視聴者の動きと、基準アンカーポーズの選択の両方に依存する。基準アンカーポーズが変更されるとレンダリングポーズが変化し、基準アンカーポーズとして選択されているアンカーポーズが異なる場合、同じ視聴者ポーズであってもレンダリングポーズが異なり得る。
基準アンカーポーズの選択は視聴者ポーズに基づいており、選択部211は具体的には、視聴者ポーズに応じて(具体的には、視聴者ポーズが基準を満たす場合)、基準アンカーポーズを、アンカーポーズのセットのうちの第1のアンカーポーズからアンカーポーズのセットのうちの第2のアンカーポーズに切り替えるように構成される。基準は、現在の視聴者ポーズ以外の視聴者ポーズに依存するか、またはそれを考慮し、具体的には、他の視聴者ポーズを考慮することによって直接的に、または現在もしくは以前に選択された(以前の視聴者ポーズに基づいて選択された)基準アンカーポーズを考慮することによって以前の視聴者ポーズに依存し得る。
したがって、選択部211が現在、基準アンカーポーズとして第1のアンカーポーズを選択している場合、選択部211は視聴者ポーズを継続的に監視し得る。視聴者ポーズが所与の選択基準(典型的には、現在のアンカーポーズまたは以前の視聴者ポーズを考慮し得る)を満たすことが検出された場合、選択部211は、基準アンカーポーズの選択を第1のアンカーポーズから第2のアンカーポーズに変更し得る。
この手法は、50cmの間隔で直線上に配置された3台のステレオカメラがバスケットボールの試合を撮影する上記具体例に対応するアプリケーションによって説明することができる。そのような実施形態では、公称中央配置ステレオペアを中心とした小さな動きが仮想世界での対応する動きに直接マッピングされ得る。例えば、ユーザは最初、所与の視聴者ポーズによって表される標準/公称位置に位置している可能性がある。装置はまず、中央ステレオカメラの基準アンカーポーズとなるべき基準アンカーポーズを選択し、現在の視聴者ポーズがその基準アンカーポーズにマッピングされ得る。したがって、装置は、この視聴者ポーズについて、シーン内の中央ステレオカメラの位置にいる視聴者に対応するビュー画像を生成する。
小さな動きに対して、装置は、レンダリングポーズによって表される仮想世界における視聴者の動きが、視聴者ポーズによって表される現実世界における視聴者の動きに追従するようにして、視聴者ポーズに追従するようにレンダリングポーズを生成し得る。これにより、視差が頭の動きに追従して自然な体験がユーザに提供される、完全に自然な体験がもたらされ得る。
しかし、ユーザが所定の量(例えば5cm)を上回る横移動(頭をx方向に横に動かす)をした場合、選択部211は、視聴者ポーズが所与の閾値を上回る変化をしたことを検出して、選択された基準アンカーポーズを変更し得る。例えば、ユーザの頭の左への動きが所定の量を超える場合、選択部211は、基準アンカーポーズを中央カメラに対応するアンカーポーズから左側カメラに対応するアンカーポーズに切り替えることができる。この基準アンカーポーズの変更はレンダリングポーズプロセッサ203に供給され、レンダリングポーズプロセッサは、レンダリングポーズが例えば左側ステレオカメラの右5cmの位置にあると決定する。ユーザが左への動きを続けると、ユーザはその動きに追従し、左側ステレオカメラの位置に対して正しい視差を提供する。
したがって、動きが比較的小さい限り、3つの異なる位置から位置ごとに正しい視差でバスケットボールの試合を見ることができる状況がユーザによって経験される。さらに、ユーザは頭をより大きく動かすことで複数の異なる視点を切り替えることができ、大きな頭の動きは実質的に、ある視点から別の視点への(例えば、具体的にはあるカメラ位置から別のカメラ位置への)仮想的なテレポーテーションを引き起こす。
この手法は、互いに50cmの間隔で配置された仮想世界内の3つのカメラ/キャプチャ/アンカー位置301を示す図3によって説明することができる。この図はさらに、現実世界での頭の位置の3つの10cm間隔303を示す。3つの間隔303は、装置の動作によってアンカー位置301の周囲に3つの10cm間隔でマッピングされたものであり、間隔の中心点がアンカー位置にマッピングされている。したがって、この例では、30cm間隔内のユーザの横方向の動きは3つの異なる間隔内の仮想的な動きにマッピングされる。各間隔内での動きは、ユーザの動きと仮想的な動きの間で互いに直接対応し、それにより正しい視差が提供される。現実世界の各間隔をまたぐ横移動は、仮想世界内の異なる離散した間隔間でのテレポーテーションをもたらす。
この例はまた、視聴者ポーズによって表される視聴者の動き/位置からレンダリングポーズによって表される仮想的な動き/位置へのマッピングを示す図4によっても説明され得る。この例では、現実世界/視聴者ポーズ座標系内でのx位置が仮想世界/レンダリングポーズ座標系内のx位置にマッピングされている。公称視聴者位置から左に0~5cm以内の位置は中央アンカー位置から左に0~5cm以内の位置に1-1マッピングされ、公称視聴者位置から左に5~10cm以内の位置は左側アンカー位置から右に0~5cm以内の位置に1ー1マッピングされる。したがって、視聴者ポーズ座標系内の[0;0.05]の間隔401はレンダリングポーズ座標系内の間隔[0;0.05]に線形マッピングされ、視聴者ポーズ座標系内の[0.05;0.1]の間隔403はレンダリングポーズ座標系内の間隔[0.45;0.5]に線形マッピングされる。したがって、仮想シーン内には使用されず、視聴者位置がマッピングされない[0.05;0.45]の間隔405が存在する。
したがって、視聴者ポーズだけでなくアンカーポーズも考慮するという複合手法は、多くの実施形態で非常に望ましいことが認められる改善された効果を提供する。具体的には、小さな動きの場合、ユーザは真の運動視差を経験するが、より大きい動きの場合、ユーザは異なる位置/ポーズにテレポートする。これにより、大半の場合は自然な視差を提供することが可能でありながら、例えばユーザが自分の位置を変えることによって前景にある物体を避けて視聴することを可能にするという効果が提供され得る。さらに、テレポート効果及び自然な視差の動きはともにユーザの動きに依存するので、直感的でユーザフレンドリーな制御が提供される。さらに、3D画像データが利用可能であるアンカーポーズに比較的近いレンダリングポーズに対してビュー画像が生成され得るため、この手法は高品質を保証し得る。多くのシステムで知られている位置に依存した画像の大幅な劣化を回避する、または少なくとも大幅に低減することができる。
一例として、知覚される効果は、ユーザが普通の状態で椅子に座っているとき、中心位置を中心とした小さな視点の変化を、例えば自然視差によって体験することができるというものであり得る。視聴者が物体を右側に避けて見る必要がある場合、視聴者は頭をさらに右側に動かすことができる。すると視聴者の動きは誇張され、視聴者は素早く自身の右側にある新しい仮想視聴位置にテレポートされ、そこで停止する。素早いテレポートをビューブレンディング(view-blending)と組み合わせることでビュー補間アーティファクト(view-interpolation artifacts)を隠すことができる。
上記手法の別の利点は、少数のキャプチャ位置/カメラだけで非常に好ましく柔軟な体験を提供できることである。視聴者により多くの動きの自由を提供することの問題は、3Dシーン情報の処理のより高度な要求、および/またはシーンを撮影/表現するために使用されるカメラの数に関するより高度な要求に直結することである。上記手法は多数のカメラの必要性を回避し、他の手法では非実用的な応用の提供を可能にする可能性さえある。カメラフィード/撮影ポイントデータの必要性が低減することで、エンコード、伝送、レンダリングも大幅に容易になる。
上記手法の重要な特徴は、システムが単純に現在の視聴者ポーズに対応する画像を生成するのではなく、選択されたアンカーポーズに依存して視聴者ポーズがレンダリングポーズにマッピングされることである。現在のレンダリングポーズの決定は、現在の視聴者ポーズにマッピングを適用することによって行われる。しかし、マッピングは一定のマッピングではなく、選択されたアンカーポーズに依存する。システムは視聴者ポーズに応じてアンカーポーズを選択し、レンダリングポーズのための画像生成は、このアンカーポーズに関して提供された3D画像データに基づく。さらに、選択されたアンカーポーズの変更はマッピングの変更ももたらし、つまり、マッピングは選択されたアンカーポーズに依存する。したがって、同じ視聴者ポーズが選択されても、選択されたアンカーポーズに応じてレンダリングポーズが異なる可能性がある。レンダリングポーズは現在の視聴者ポーズおよび(同様に視聴者ポーズに依存する)選択されたアンカーポーズの両方に依存する。
この手法は、個々のアンカーポーズのためのマッピングの具体的選択、およびアンカーポーズ切り替えの基準に基づき様々な効果を可能にする。また、上記具体的手法は、レンダリングポーズを決定するために単に視聴者ポーズにより複雑なマッピングを提供することとは同じではないことに留意されたい。そうではなく、マッピングの選択および調整が、レンダリング位置のための画像生成にどの画像データが使用されるかに密接に関連する。上記手法は、例えば、別のレンダリングポーズにジャンプするのに十分遠くへ動くまでレンダリングポーズが(高品質で)1つのアンカーポーズの近くに留まり、ジャンプ後は新しいポーズの近くに留まるという効果を奏する。しかし、当然ながら、他の多くの効果や適用例が考えられ、適用されるマッピング、およびアンカーポーズ切り替えに使用される基準を選択することによって具体的な用途のために設計され得る。しかし、全てに共通するのは、マッピングが視聴者ポーズだけでなく、合成用の3D画像データを提供するために現在使用されるアンカーポーズにも依存することである。
使用される具体的マッピングおよびアンカーポイントの選択基準は個々の実施形態および用途の具体的要件に応じて選択され、無数のアルゴリズム、マッピング、基準、および効果が使用/達成され得ることが理解されよう。上記手法はより柔軟な手法を提供し、特に多くの実施形態において、アンカーポーズに向けての(または必要に応じて、アンカーポーズから離れる)バイアスが実現され得る。上記手法は現在のアンカーポーズ構成に適合し、様々なアンカーポーズ構成に有利な性能を提供することができる。
上記手法の1つの顕著な利点は、一貫して高い画質を提供できることである。特に、手法は、3D画像データが提供されているアンカーポーズに非常に近い地点に視点を制限し得る。したがって、例えば、当該視点について明示的なデータが3D画像データに含まれていない視点からの画像を生成するためにビューシフトが使用され得るが、必要とされるビューシフトは通常小さく、よって、大きな劣化を伴うことなく実行することができる。実際には、ほとんどの場合、視聴者はアンカー位置からシーンを観察し得るので、ビューシフトは必要ない可能性がある。例えば、3D画像データがキャプチャポーズのためのステレオ画像という形式である場合、これらのステレオ画像は3D処理によって劣化することなく直接提示され得る。
したがって、多くの実施形態において、レンダリングポーズプロセッサ203は、視聴者ポーズをレンダリングポーズにマッピングすることでレンダリングポーズを決定するように構成され、ここで、マッピングはアンカーポーズのセットのうちのどのアンカーポーズが基準アンカーポーズとして選択されるかに依存する。
選択されたアンカーポーズに依存するオフセットを視聴者位置に加えたものとしてレンダリングポーズが決定される図3および図4を参照して、視聴者ポーズとレンダリングポーズの間のマッピングの例を説明した。これらの例では、視聴者ポーズとレンダリングポーズの間のマッピングは1対1対応(全単射)を用いた1対1マッピングであり、アンカーポーズの変更を用いて出力範囲内のギャップが導入される。上記例では、マッピングは、アンカーポーズのセットのうちのどのアンカーポーズが基準アンカーポーズとして選択されるかに応じて、レンダリングポーズに対して異なるオフセットを適用することを含む。具体的には、図3の例については、中央アンカーポーズが選択される場合はゼロのオフセットが適用され、左側アンカーポーズが選択される場合は-40cmのオフセットが適用され、右側アンカーポーズが選択される場合は+40cmのオフセットが適用される(カメラ間の距離が50cmで、x方向が左から右である(すなわち、正の値が増加すると位置がさらに右になる)と仮定する)。
他の実施形態では他のマッピングを使用することができる。実際には、任意の適切なマッピングおよびアンカーポーズ依存性が適用され、具体的なマッピングは所望の効果、例えばアンカーポーズに近づけるおよび/またはアンカーポーズから遠ざける所望のバイアスを提供するために選択される。多くのマッピングにおいて、同じ視聴者ポーズが、選択されるアンカーポーズに依存して異なる位置にマッピングされ得る(少なくとも一部の視聴者ポーズに関して)。これの例が図5に示されており、この例も同様に、基準アンカーポーズとして選択されるアンカーポーズに依存してレンダリングポーズを決定するために異なるオフセットを適用するレンダリングポーズプロセッサ203に基づく。この例は図3の例に対応するが、オフセットが異なり、また、アンカーポーズの選択が視聴者ポーズだけでなく、現在、基準アンカーポーズとして選択されているアンカーポーズにも依存する点で異なる。
この例でも中央アンカーポーズが選択されている場合のオフセットはゼロであるが、左側アンカーポーズが選択されている場合は-43cm、右側アンカーポーズが選択されている場合は+43cmである。
中央アンカーポーズから左側アンカーポーズに切り替えるための閾値は変わらず-5cmであり、中央アンカーポーズから右側アンカーポーズに切り替えるための閾値は変わらず+5cmである。しかし、この例では左側アンカーポーズから中央アンカーポーズへの切り替えの閾値は-2cmであり、右側アンカーポーズから中央アンカーポーズへの切り替えの閾値は+2cmである。
この場合、-5cm~-2cmの範囲および+2cm~+5cmの範囲内の視聴者ポーズに対して決定されるレンダリングポーズは、現在/前に基準アンカーポーズとして選択されている/選択されていたアンカーポーズに応じて異なる。左側アンカーポーズが選択される場合、[-0.05;-0.02]の範囲は[-0.48;-0.45]にマッピングされ、中央アンカーポーズが選択される場合は[-0.05;-0.02]にマッピングされる。同様に、右側アンカーポーズが選択される場合、[0.02;0.05]の範囲は[0.45;0.48]にマッピングされ、中央アンカーポーズが選択される場合は[0.02;0.05]にマッピングされる。また、視聴者ポーズがこれらの範囲を超えない限り基準アンカーポーズの変更は生じない。
このような手法は多くの場合、ビューシフト/テレポートがより少ない、より安定した体験を提供する。これによりヒステリシス効果が導入され、ユーザエクスペリエンスが向上し得る。
上記例を含む多くの実施形態において、レンダリングポーズプロセッサ203は、同じ基準アンカーポーズについて、視聴者ポーズをレンダリングポーズに単調マッピングするように構成されている。したがって、基準アンカーポーズに変更が生じない限り、特定の方向への視聴者の動きが同じ方向のレンダリングポーズの変化/動きにマッピングされるよう、視聴者ポーズがレンダリングポーズにマッピングされる。
また、多くの実施形態において、レンダリングポーズから基準アンカーポーズまでの距離が閾値を超えない場合、マッピングは一定の線形マッピングである。したがって、多くの実施形態において、基準アンカーポーズまでの距離が閾値を超えないレンダリングポーズをもたらすマッピングは線形マッピングである。一部の実施形態では、基準アンカーポーズまでの距離が閾値を超えるポーズをもたらすマッピングも線形マッピングであり得る(マッピング全体が線形マッピングであってもよい)が、多くの実施形態では非線形要素(例えば、ステップ関数)を含み得る。一定のマッピングは時不変であり得る。多くの実施形態において、線形マッピングは、一定のマッピング係数を有するという意味で一定であり得る。
マッピング関数は1対1の関数であり、具体的には、視聴者ポーズから、基準アンカーポーズに対応する視聴者基準ポーズまでの距離と、レンダリングポーズから基準アンカーポーズまでの距離との間で1対1の関数であり得る。マッピング関数は単調関数であり、具体的には、視聴者ポーズから、基準アンカーポーズに対応する視聴者基準ポーズまでの距離と、レンダリングポーズから基準アンカーポーズまでの距離との間で単調関数であり得る。そのような実施形態では、基準アンカーポーズまでの距離が閾値を超えないレンダリングポーズ範囲/セットは、視聴者アンカーポーズまでの距離が第2の閾値を超えない視聴者ポーズ範囲/セットのマッピングであり得る。
したがって、レンダリングポーズと基準アンカーポーズの間の差が十分に小さい場合、マッピングは線形であり、視聴者ポーズ領域内での(具体的には、現実世界内での)同じ相対的移動は、視聴者の絶対位置に関わらず、仮想領域内での同じ相対的移動をもたらす。その結果、実際の観客が体験する体験に対応することになるため、より現実的な体験がユーザに提供され得る。
多くの場合、所与の基準アンカーポーズについての全ての可能な位置に対して線形マッピングが提供され得る。例えば、図3~図5の例では、1つのアンカーポーズに対応する視聴者ポーズ間隔内の所与の位置間隔の全範囲がレンダリングポーズ間隔に線形マッピングされる。しかし、一部の実施形態では、線形マッピングは、アンカーポーズに近い位置範囲については線形マッピングが実行され得る一方、アンカーポーズからより離れた位置には異なるマッピング(例えば、非線形マッピング)が適用され得ることが理解されよう。これにより、例えば、間隔の端部に向かうにつれて位置変化が増加するという効果が提供され、テレポートアクションの接近をユーザに示すことができる。
多くの実施形態において、線形マッピングは50%以上かつ150%以下のスケールファクタを有し得る。したがって、そのような実施形態では、視聴者ポーズにおける所与の方向の相対的位置変化は、このオリジナルの変化の50%以上かつ150%以下であるレンダリングポーズの相対的変化をもたらし得る。これにより、知覚される動きが実際の動きに密接に対応するという効果が提供され、自然なエフェクトを提供することができる。多くの実施形態において、実際の視聴者の体験に対応する体験を提供するために、スケールファクタはちょうど100%に設定されてもよい(図3~図5の例のように)。しかし、一部の実施形態では、移動を減衰または誇張して増強された効果を提供することが有利であると考えられ得る。
前述のように、選択部211は多くの実施形態において、公称位置からの視聴者ポーズのずれが所与の量であることを検出すると、基準アンカーポーズを異なるアンカーポーズに切り替えるように構成され得る。
したがって、一部の実施形態では、選択部211は、視聴者ポーズと基準視聴者ポーズとの間の距離が閾値を上回るという要件を含む、またはそのような要件からなる基準を現在の視聴者ポーズが満たすことが検出されると、基準アンカーポーズを異なるアンカーポーズに切り替えるように構成され得る。基準視聴者ポーズは公称視聴者ポーズであり、公称視聴者ポーズは一部の実施形態では所定の固定ポーズであり得る。例えば図3において、視聴者ポーズが公称位置305から5cm以内の位置を示す場合、選択部211は基準アンカーポーズを中央アンカーポーズとして維持する一方、5cmを超える場合は別のアンカーポーズ(左側または右側アンカーポーズ)に切り替え得る。
多くの実施形態において、選択部211は、基準アンカーポーズとして選択されているアンカーポーズに応じて、基準視聴者ポーズを変更するように構成される。例えば、各アンカーポーズについて、視聴者ポーズの座標系内に対応する基準視聴者ポーズが存在し得る。例えば、図5の例では、各アンカーポーズについて基準視聴者ポーズ501が決定される。この例では、選択部211はそれに従い、現在の視聴者ポーズを、現在選択されているアンカーポーズの基準視聴者ポーズ501と比較し得る。結果として得られた距離が所与の閾値(例えば5cm)を超える場合、選択部211は別のアンカーポーズに進む。これにより新しい基準視聴者ポーズが比較に使用されるが、この具体例では同じ基準が使用されてもよく、具体的には距離が5cmを超えるか否かが判定され得る。
多くの実施形態において、基準視聴者ポーズは、レンダリングポーズの座標系内のアンカーポーズの位置に対応する視聴者ポーズの座標系内の位置に設定され得る。具体的には、現在のアンカーポーズのための基準視聴者ポーズは、現在のアンカーポーズにマッピングされる視聴者ポーズの値になるように設定され得る。しかし、他の実施形態では、達成されることが望まれる効果に応じて異なる態様で基準視聴者ポーズが設定されてもよい。例えば、ユーザが手動で設定してもよい。
上記の選択例は、現実世界/視聴者ポーズの座標系内で行われる比較を参照して説明されているが、仮想シーン/レンダリングポーズの座標系内で同様に要件が実行されてもよいことが理解されるであろう。具体的には、現在の視聴者ポーズのレンダリングポーズへのマッピングがアンカーポーズと比較され、例えば、これらの間の距離が閾値と比較され得る。
多くの実施形態において、距離閾値は、アンカーポーズのセットのうちのどのアンカーポーズが基準アンカーポーズとして選択されるかに依存し得る。例えば、中央アンカーポーズの距離閾値はそれ以外のアンカーポーズよりも高くてもよい。例えば、対応する基準視聴者ポーズから視聴者ポーズへの距離が例えば10cmを超えない限り、中央アンカーポーズが選択されるように図1の例が変更されてもよく、一方、切り替えが生じる距離は左右のアンカーポーズについては5cmに保たれてもよい。そのような手法は中央ビューに向かってのより強いバイアスを提供し得る。これは多くの実施形態において有利である可能性があり、例えば、中央アンカーポーズについて(例えば、いくらかのデオクルージョン(de-occlusion)データを含む)3D画像データの品質がより高い状況などで有利であり得る。
また、多くの実施形態において、少なくとも一部のアンカーポーズの距離閾値は差の方向に依存し得る。例えば図3の側方アンカーポーズの場合、距離閾値は中央に向かっては5cmである一方、中央から離れる方向には無限であってもよい。
上記の例では、基準アンカーポーズの選択は位置のみに依存するものとして説明されたが、他の実施形態では向きのみが考慮されてもよいし、または位置と向きの両方が考慮され得ることが理解されよう。
一例として、多くの実施形態において、選択基準は、例えば上記のように、視聴者ポーズの位置と基準視聴者ポーズ/基準アンカーポーズの位置との間の距離を考慮し得る。しかし、アンカーポーズ切り替えを判定するための閾値は視聴者ポーズの向きに依存してもよい。具体的には、視聴者ポーズの向きと基準向きとの差が考慮され、距離閾値を調整するために使用されもよい。このようにすると、アンカーポーズをいつ切り替えるかの決定はユーザの位置(具体的には横方向位置)だけでなく、視聴者の向き(例えば角度方向)にも依存する。したがって、選択は視聴者の位置と視聴者が見ている場所の両方に依存し得る。
具体的には、距離閾値は、現在の視聴者のポーズと基準向きとの間の差の単調増加関数であり得る。例えば、バスケットボールの用途の場合、閾値は、視聴者の向きと、コートに向かって真っ直ぐ前を見ている状態に対応する方向との間の角度差の増加関数として増加し得る。したがって、アンカーポーズの切り替えに必要な横移動は視聴者が頭を横に向けるほど増加し得る。
したがって、図3~図5の例は、視聴者の横方向x位置によってレンダリングが完全に決定される状況に焦点を当てていたが、別の視点への切り替え(つまり、別のアンカーポーズへの基準アンカーポーズの切り替え)を判定するために視聴者のより多くの特性を考慮に入れることができる。一例として、図6および図7に示される実験的な位置および向きデータを考えることができる。図6は、シーンの異なる方向にある異なる部分を見るために頭を回転させるユーザを反映するデータを示し、図7は、視界を遮っている前景の物体を避けて見ようと頭を横に動かしているユーザを反映するデータを示す。これらの図は、視聴者の横方向のx位置、およびアンカーポーズの視線方向に対する向きの角度θの両方を考慮すると、視聴者の意図する動きについて、すなわちユーザが単に顔を横に向けている(図6)のか、または物体を避けて見ようとしている(図7)のかについてより良い推定が可能となることを明確に示している。
一部の実施形態では、装置は位置および向きに基づき、頭の動きによって引き起こされる高速横移動を開始するために視聴者が新しい視聴位置に切り替えることを望んでいること、すなわち、ユーザが新しい視点へのテレポートを求めていることを検出しようとしてもよい。
この例では、選択部211は視聴者ポーズの横方向x位置および視聴方向に対する向き角度θの両方を考慮し得る。図8に示されるように、見回すとき、視聴者の目は通常、向きの変化と合わせて小さな横移動をする。遮蔽物を避けて見ようとする視聴者は、図9に示されるように、(通常はより大きくより速い)横方向の動きと合わせて同じ向きで見続ける傾向がある。(中央アンカーポーズ/カメラの)判定境界は、図10に示されるように、横方向x位置および向き角度θの関数として作成されてもよい。横方向位置(距離、y軸)が向き角度(x軸)の関数を超える場合、選択部211は基準アンカーポーズを切り替え、そうでない場合は基準アンカーポーズの変更を行わずに維持する。この例は横方向x位置が向き角度θの単調増加関数である判定境界を示す。判定境界より下ではレンダリングは元の位置(未変更の基準アンカーポーズ)から実行されるが、決定境界より上では、ユーザは現在の位置から右(または場合によっては左)の新しい視聴位置に「切り替わる」(つまり、新しいアンカーポーズが基準アンカーポーズとして選択される。他のアンカーポーズ/カメラについて対応する判定境界が決定されてもよい。
一部の実施形態では、選択部211は、視聴者ポーズの変化率に応じて基準アンカーポーズを切り替えるように構成され得る。例えば、一部の実施形態では、ユーザは、例えば所望の方向に素早い頭の動きを実行することによって、または例えば頭を素早く回すことによってアンカーポーズを切り替えることが可能であってもよい。求められた視聴者ポーズ変化率が所定の閾値を超える場合、その動きは、落ち着いてシーンを見るときの自然な動きではないと見なされ、よって、異なる視聴位置に切り替えるためのアンカーポーズ切り替えの入力命令として解釈され得る。
他の実施形態ではより控えめな変更が、例えば適用され得る。例えば、アンカーポーズ切り替えが生じる前に要求される公称位置からの距離は位置変化の速度に依存してもよい。ユーザがゆっくりと頭を動かす場合、単に自然な視聴体験の一部として頭を動かしている可能性が高いと考えられるため、切り替えの前に比較的長い距離が要求される。しかし、ユーザが頭を素早く動かす場合、ユーザが前景の物体を避けて見ようとしている可能性を示唆していると解釈され、距離が短縮され、結果として視点のシフト/テレポートが早まり得る。
上記したように、取得部207は選択された基準アンカーポーズのための3D画像データを取り出し、画像合成部205はレンダリングポーズのための画像生成にあたりこれを使用する。一部の実施形態では、取得部207はさらに、第2のアンカーポーズのための3D画像データを取り出すように構成され、この第2の3D画像データも画像合成部205に供給され、レンダリングポーズのための画像生成に使用され得る。
この第2の3D画像データは、レンダリングの品質を改善して、改善されたビュー画像を生成するために使用され得る。例えば、第2のアンカーポーズの追加の3D画像データを使用して、基準アンカーポーズからレンダリングポーズへの第1の3D画像データのシフトによってデオクルージョンされ得る領域の充填が改善され得る。第2のアンカーポーズからの3D画像データは異なる位置からのシーンを表し、よって、基準アンカーポーズから遮られるシーンの部分に関する情報を有し得る。
しかし、そのような実施形態の多くにおいて、第2の3D画像データの品質レベルは第1の3D画像データの品質レベルよりも低く、すなわち、取り出される3D画像データの品質レベルは第2のアンカーポーズよりも基準アンカーポーズの方が高い。より高い品質レベルとは、具体的にはより高いデータレート(空間的または時間的)であり得る。
例えば、取得部207がサーバから3D画像データを明示的にリクエストする実施形態では、サーバは、基準アンカーポーズのための高品質の3D画像データ、および1つまたは複数の隣接するアンカーポーズのための低品質の3D画像データを有するデータストリームを供給し得る。
3つのカメラを使用するバスケットボールの試合の例に関する具体例として、サーバは図11に示されるように、選択されたアンカーポーズについては高画質画像および深度を提供し、隣接するアンカーポーズについては低画質を提供し得る(この例では、画像および深度マップの品質は、(例えば空間分解能の差を反映する)対応する物体のサイズによって示されている。
したがって、この例では、供給されるデータストリームはさらに、例えば、隣接するアンカーポーズのための3D画像データの低解像度バージョンを含み、このデータはアンカー間のビュー合成およびブレンドに使用される。視聴者が中央位置の近くにいる間、視聴者は、中央画像(ペア)および深度(ペア)から生成されたビューを見る。視聴者が大きな動きをしたことが検出されると、基準アンカーポーズ選択における変化によって次の位置への切り替えが開始される。その結果、送信されるコンテンツはフル解像度で新しい位置に変更され、やはり低解像度で隣接する位置を伴う。
他の実施形態では他の実装が使用され得ることを理解されたい。上記手法は、1つまたは複数のプロセッサが、例えば1つのサブルーチンがルックアップテーブルを使用して(典型的には相対的な)視聴者ポーズから(典型的には相対的な)レンダリングポーズにマッピングする方法を実行することによって実装され得る。所定の頻度でレンダリングポーズを更新するために、このサブルーチンは所定の繰り返し頻度で実行されてもよい。第2のサブルーチンが、アンカーポーズ変更の基準を満たしているか否かを調べるために視聴者ポーズを評価してもよい。基準を満たしている場合はアンカーポーズが変更され、結果として合成部に別の画像データが提供され得る。アンカーポーズの変更は、マッピングサブルーチンに別のマッピングが適用されることにも関連付けられ、これは例えば、単純にメモリ内のLUTを新しいアンカーポーズに結び付けられたもので上書きすることによって行われる。この第2のサブルーチンの繰り返し頻度は通常、第1のサブルーチンの繰り返し頻度よりも低い(しばしば著しく低い)傾向にある。しかし、同じ頻度であってもよいし、または場合によっては第1のサブルーチンの繰り返し頻度よりも高くてもよい。2つのサブルーチンは互いに同期させられてもよい(つまり、順次実行される)が、これは必須ではなく、2つの並列で同期させられていないプロセスであってもよい。
明瞭さのために、上記の説明は、異なる機能的回路、ユニット、およびプロセッサに関連して本発明の実施形態を説明している。しかしながら、本発明を損なうことなく、異なる機能的回路、ユニット、またはプロセッサ間で、機能が任意に適切に分配され得ることが理解されよう。例えば、複数の別々のプロセッサまたはコントローラによって実行されるように示された機能が、同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または構成を示すものではなく、説明される機能を提供するための適切な手段への言及であると考えられたい。
本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせを含む任意の適切な形態で実施することができる。本発明は、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の実施形態の要素および構成要素は、任意の適切な態様で物理的、機能的、および論理的に実装され得る。実際には、機能は、単一のユニット、複数のユニット、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニット内に実装されてもよく、または異なる複数のユニット、回路、およびプロセッサの間で物理的および機能的に分配されてもよい。
いくつかの実施形態に関連して本発明を説明したが、本発明は、明細書に記載される具体的形態に限定されない。そうではなく、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、ある特徴が、特定の実施形態に関連して記載されているように見えたとしても、当業者は、上記実施形態の様々な特徴が本発明に従って組み合わせられ得ることを認識するであろう。請求項において、備える等の用語は、他の要素またはステップの存在を排除するものではない。
さらに、個別にリストされていたとしても、複数の手段、要素、回路、または方法ステップは、例えば、単一の回路、ユニット、またはプロセッサによって実施され得る。さらに、個々の特徴が異なる請求項に含まれていたとしても、これらは好適に組み合わされ、異なる請求項に含まれていることは、特徴の組み合わせが実現不可能であるおよび/または有利でないことを意味するものではない。また、1つのクレームカテゴリー内にある特徴が含まれているからといって、特徴がこのカテゴリーに限定されるとは限らず、特徴は適宜、他のクレームカテゴリーに等しく適用され得る。さらに、請求項における特徴の順序は、特徴が作用すべき特定の順序を指すものではなく、特に、方法クレームにおける個々のステップの順序は、ステップをその順序で実行しなければならないことを意味しない。むしろ、ステップは、任意の適切な順序で実行され得る。また、単数形の表現は複数形を排除するものではない。したがって、「第1の」、「第2の」などの表現は、複数を排除するものではない。特許請求の範囲内の参照符号は、明瞭さのための例に過ぎず、請求項の範囲を如何ようにも限定するものではない。

Claims (13)

  1. シーンの画像を生成するための装置であって、前記装置は、
    前記シーンのためのアンカーポーズのセットを保存するための記憶部と、
    視聴者の視聴者ポーズを受け取るための受信部と、
    前記アンカーポーズのセットから基準アンカーポーズを選択するための選択部と、
    前記視聴者ポーズのうち、現在の視聴者ポーズのための前記シーン内の第1のレンダリングポーズを決定するためのレンダリングポーズプロセッサと、
    前記基準アンカーポーズのための第1の3次元画像データを取り出す取得部と、
    前記第1の3次元画像データに応答して、前記第1のレンダリングポーズのための画像を合成する合成部とを備え、
    前記選択部は、前記視聴者ポーズが前記視聴者ポーズの向きと前記基準アンカーポーズの向きとの差を考慮した基準を満たすと、前記基準アンカーポーズを、前記アンカーポーズのセットのうちの第1のアンカーポーズから前記アンカーポーズのセットのうちの第2のアンカーポーズに切り替え、前記レンダリングポーズプロセッサは、視聴者ポーズからレンダリングポーズへのマッピングによって前記第1のレンダリングポーズを決定し、前記マッピングは、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに依存する、装置。
  2. 前記マッピングは、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに応じて、前記レンダリングポーズに対して異なるオフセットを適用することを含む、請求項1に記載の装置。
  3. 前記レンダリングポーズプロセッサは、前記視聴者ポーズの第1の方向における変化が、前記レンダリングポーズの前記第1の方向における変化にマッピングされるように、同じ基準アンカーポーズについて視聴者ポーズをレンダリングポーズにマッピングする、請求項1または2に記載の装置。
  4. 前記レンダリングポーズから前記基準アンカーポーズまでの距離が閾値を超えない場合、前記マッピングは一定の線形マッピングである、請求項1からのいずれか一項に記載の装置。
  5. 前記線形マッピングは50%以上かつ150%以下のスケールファクタを有する、請求項に記載の装置。
  6. 前記選択部は、第1の視聴者ポーズと基準視聴者ポーズとの間の第1の距離が前記閾値を上回るという要件を含む基準を前記第1の視聴者ポーズが満たすことが検出されると、前記基準アンカーポーズを切り替える、請求項に記載の装置。
  7. 前記選択部は、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに応じて、前記基準視聴者ポーズを調整する、請求項に記載の装置。
  8. 前記第1の距離は、前記アンカーポーズのセットのうちのどのアンカーポーズが前記基準アンカーポーズとして選択されるかに依存する、請求項またはに記載の装置。
  9. 前記第1の距離は、前記第1の視聴者ポーズの位置と前記基準視聴者ポーズの位置との間の距離であり、前記選択部は、前記視聴者ポーズの向きと基準向きとの間の差に基づき前記閾値を調整する、請求項からのいずれか一項に記載の装置。
  10. 前記閾値は前記差の単調増加関数である、請求項に記載の装置。
  11. 前記取得部はさらに、前記アンカーポーズのセットのうちの第2のアンカーポーズのための第2の3次元画像データを取り出し、前記合成部は、前記第2の3次元画像データを使用して前記画像を合成し、前記第1の3次元画像データは前記第2の3次元画像データよりも高い品質レベルを有する、請求項1から10のいずれか一項に記載の装置。
  12. シーンの画像を生成する方法であって、前記方法は、
    前記シーンのためのアンカーポーズのセットを保存するステップと、
    視聴者の視聴者ポーズを受け取るステップと、
    前記アンカーポーズのセットから基準アンカーポーズを選択するステップと、
    前記視聴者ポーズのうち、現在の視聴者ポーズのための前記シーン内の第1のレンダリングポーズを決定するステップであって、前記第1のレンダリングポーズは前記基準アンカーポーズに対して決定される、ステップと、
    前記基準アンカーポーズのための第1の3次元画像データを取り出すステップと、
    前記第1の3次元画像データに応答して、前記第1のレンダリングポーズのための画像を合成するステップとを含み、
    前記選択するステップは、前記視聴者ポーズが前記視聴者ポーズの向きと前記基準アンカーポーズの向きとの差を考慮した基準を満たすと、前記基準アンカーポーズを、前記アンカーポーズのセットのうちの第1のアンカーポーズから前記アンカーポーズのセットのうちの第2のアンカーポーズに切り替えることを含む、方法。
  13. プログラムがコンピュータ上で実行されると、請求項12に記載の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。
JP2020572436A 2018-06-26 2019-06-20 シーンの画像を生成するための装置および方法 Active JP7401472B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18179841.4 2018-06-25
EP18179841.4A EP3588249A1 (en) 2018-06-26 2018-06-26 Apparatus and method for generating images of a scene
PCT/EP2019/066311 WO2020002115A1 (en) 2018-06-25 2019-06-20 Apparatus and method for generating images of a scene

Publications (2)

Publication Number Publication Date
JP2022501685A JP2022501685A (ja) 2022-01-06
JP7401472B2 true JP7401472B2 (ja) 2023-12-19

Family

ID=62814818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020572436A Active JP7401472B2 (ja) 2018-06-26 2019-06-20 シーンの画像を生成するための装置および方法

Country Status (9)

Country Link
US (1) US11694390B2 (ja)
EP (2) EP3588249A1 (ja)
JP (1) JP7401472B2 (ja)
KR (1) KR20210024071A (ja)
CN (1) CN112602042B (ja)
BR (1) BR112021000289A2 (ja)
CA (1) CA3105400A1 (ja)
TW (1) TWI831796B (ja)
WO (1) WO2020002115A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111659117B (zh) * 2020-07-08 2023-03-21 腾讯科技(深圳)有限公司 虚拟对象展示方法、装置、计算机设备及存储介质
BR112023020905A2 (pt) * 2021-04-20 2023-12-12 Qualcomm Inc Ancorando uma descrição de cena a um ambiente de usuário para transmissão contínua de conteúdo de mídia imersivo
KR20220153396A (ko) * 2021-05-11 2022-11-18 삼성전자주식회사 Ar 원격 렌더링 프로세스를 위한 방법 및 장치
CN117716700A (zh) 2021-08-23 2024-03-15 三星电子株式会社 场景自动聚焦的方法及电子装置
CN114173139B (zh) * 2021-11-08 2023-11-24 北京有竹居网络技术有限公司 一种直播互动方法、系统及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013187129A1 (ja) 2012-06-12 2013-12-19 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
WO2017094607A1 (ja) 2015-12-02 2017-06-08 株式会社ソニー・インタラクティブエンタテインメント 表示制御装置及び表示制御方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4533895B2 (ja) 2003-09-30 2010-09-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 画像レンダリングのための動き制御
US7990394B2 (en) * 2007-05-25 2011-08-02 Google Inc. Viewing and navigating within panoramic images, and applications thereof
WO2010013171A1 (en) 2008-07-28 2010-02-04 Koninklijke Philips Electronics N.V. Use of inpainting techniques for image correction
US20100259595A1 (en) * 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video
US8896631B2 (en) 2010-10-25 2014-11-25 Hewlett-Packard Development Company, L.P. Hyper parallax transformation matrix based on user eye positions
TR201819457T4 (tr) 2011-06-22 2019-01-21 Koninklijke Philips Nv Bir sunum ekranı için bir sinyal oluşturmak üzere yöntem ve cihaz.
US9786097B2 (en) 2012-06-22 2017-10-10 Matterport, Inc. Multi-modal method for interacting with 3D models
CA2977113A1 (en) * 2015-03-01 2016-09-09 Nextvr Inc. Methods and apparatus for making environmental measurements and/or using such measurements in 3d image rendering
US10210844B2 (en) * 2015-06-29 2019-02-19 Microsoft Technology Licensing, Llc Holographic near-eye display
CN106919248A (zh) * 2015-12-26 2017-07-04 华为技术有限公司 应用于虚拟现实的内容传输方法以及设备
US10163251B2 (en) * 2016-03-25 2018-12-25 Outward, Inc. Arbitrary view generation
TWI597625B (zh) * 2016-06-20 2017-09-01 國立中興大學 影像導覽系統之互動結合方法
CN106101741B (zh) * 2016-07-26 2020-12-15 武汉斗鱼网络科技有限公司 在网络视频直播平台上观看全景视频的方法及系统
KR102376593B1 (ko) * 2016-09-29 2022-03-21 코닌클리케 필립스 엔.브이. 이미지 처리
EP3422708A1 (en) 2017-06-29 2019-01-02 Koninklijke Philips N.V. Apparatus and method for generating an image
EP3511910A1 (en) 2018-01-12 2019-07-17 Koninklijke Philips N.V. Apparatus and method for generating view images
US10403047B1 (en) * 2018-03-01 2019-09-03 Dell Products L.P. Information handling system augmented reality through a virtual object anchor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013187129A1 (ja) 2012-06-12 2013-12-19 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
WO2017094607A1 (ja) 2015-12-02 2017-06-08 株式会社ソニー・インタラクティブエンタテインメント 表示制御装置及び表示制御方法

Also Published As

Publication number Publication date
TWI831796B (zh) 2024-02-11
KR20210024071A (ko) 2021-03-04
EP3811185A1 (en) 2021-04-28
US20210264658A1 (en) 2021-08-26
TW202016692A (zh) 2020-05-01
BR112021000289A2 (pt) 2021-04-06
US11694390B2 (en) 2023-07-04
CN112602042A (zh) 2021-04-02
EP3588249A1 (en) 2020-01-01
CN112602042B (zh) 2024-04-05
JP2022501685A (ja) 2022-01-06
WO2020002115A1 (en) 2020-01-02
CA3105400A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
JP7401472B2 (ja) シーンの画像を生成するための装置および方法
TWI818899B (zh) 影像處理設備及用於提供一影像之方法
JP7480065B2 (ja) 画像データストリームを生成するための装置および方法
JP7480163B2 (ja) 画像の奥行きマップの処理
JP6915165B2 (ja) ビュー画像を生成するための装置および方法
JP7471307B2 (ja) シーンの画像表現
EP3707580A1 (en) Content generation apparatus and method
JP7377861B2 (ja) 画像生成装置及び方法
CN117616760A (zh) 图像生成

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231207

R150 Certificate of patent or registration of utility model

Ref document number: 7401472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150