JP2021527974A

JP2021527974A - 画像データストリームを生成するための装置および方法

Info

Publication number: JP2021527974A
Application number: JP2020567865A
Authority: JP
Inventors: ウィルヘルムスヘンドリクスアルフォンススブリュルス; バールトクルーン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-06-22
Filing date: 2019-06-17
Publication date: 2021-10-14
Anticipated expiration: 2039-06-17
Also published as: BR112020025897A2; EP3811631A1; CN112585987B; TW202015399A; CN112585987A; US20210258554A1; JP7480065B2; EP3588970A1; KR20210024567A; TWI828711B; WO2019243215A1

Abstract

例えば、仮想現実アプリケーションのための、シーンのビューを表す画像データストリームを生成するための装置が提供される。この装置は、観察者の頭部ポーズと相対的眼球ポーズの両方を示す注視表示を受信する受信機203を備える。頭部ポーズは頭部の位置を含み、相対的眼球ポーズは頭部ポーズに対する眼のポーズを示す。決定器205は、注視表示に対応する、シーン内の、典型的には小さい/狭い視覚的注意領域を決定する。具体的には、注視点の周囲の領域が特定されることができる。生成器209は、視覚的注意領域の外側よりも、視覚的注意領域のためのより高い品質レベル/データレートを有する、シーンのための画像データを含むように画像データストリームを生成する。

Description

本発明は画像データストリームを生成する装置及び方法に関し、特に、シーンにアクセスする仮想現実アプリケーションのための画像データストリームの生成に関する（但し、これに限定されるものではない）。

近年、画像およびビデオアプリケーションの多様性および範囲が大幅に増加しており、ビデオを利用し消費する新しいサービスおよび方法が、継続的に開発され、導入されている。

例えば、人気が高まっている1つのサービスは、観察者が能動的にシステムと対話してレンダリングのパラメータを変更できるような方法で画像シーケンスを提供することである。多くのアプリケーションにおいて非常に魅力的な特徴は、例えば、観察者が、提示されているシーン内で動き回って「見回る」ことを可能にするなど、観察者の有効な視聴位置および視聴方向を変更する能力である。

そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは仮想環境内で（比較的）自由に動き回ることができ、ユーザの位置およびユーザが見ている場所を動的に変更することができる。典型的にはこのような仮想現実アプリケーションがシーンの3次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは例えば、コンピュータ及びコンソール用の一人称シューティングゲーム（FPS)のカテゴリにおけるようなゲームアプリケーションから周知である。

また、特に仮想現実アプリケーションでは、提示される画像が三次元画像であることが望ましい。実際、観察者の没入感を最適化するために、ユーザは、典型的には提示されたシーンを三次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間の瞬間を選択することを可能にするはずである。

典型的には、仮想現実アプリケーションがシーンの所定のモデル、典型的には仮想世界の人工モデルに基づくという点で本質的に制限される。現実世界のキャプチャに基づいて仮想現実体験を提供することができれば望ましいであろう。しかしながら、多くの場合、そのようなアプローチは非常に制限され、現実世界の仮想モデルが現実世界のキャプチャから構築されることを必要とする傾向がある。次いで、このモデルを評価することによって、仮想現実体験が生成される。

しかしながら、現在のアプローチは最適以下に限定される傾向があり、しばしば、高い計算リソースまたは通信リソース要件を有する傾向があり、および/または、例えば、低減された品質または制限された自由度で、最適以下のユーザ体験を提供する傾向がある。

アプリケーションの一例として、仮想現実眼鏡が市場に参入している。これらの眼鏡は、観察者がキャプチャされた360度（パノラマ）のビデオを体験することを可能にする。これらの360度ビデオは、多くの場合、個々の画像が単一の球面マッピングへとつなぎ合わされるカメラリグを使用して事前にキャプチャされる。360ビデオのための一般的なステレオフォーマットは、トップ/ボトム及び左/右である。非パノラマステレオビデオと同様に、左目および右目ピクチャは、単一のH.264ビデオストリームの一部として圧縮される。1つのフレームをデコードした後は、観察者は自分の頭部を回転させて自分の周囲の世界を見る。一例は、観察者が360度のルックアラウンド効果を体験することができ、異なる位置から記録されたビデオストリームを個別に切り替えることができる記録である。切り替え時に、別のビデオストリームがロードされ、これが体験を中断する。

ステレオ・パノラマ・ビデオ・アプローチの1つの欠点は、観察者が仮想世界内の位置を変えることができないことである。パノラマステレオビデオ以外のパノラマ奥行きマップの符号化および伝送はクライアント側での観察者の小さな並進運動の補償を可能にすることができるが、そのような補償は本質的に小さな変動および運動に限定され、没入型で自由な仮想現実体験を提供することができない。

関連技術は、奥行きマップと共に複数の視点が符号化され、単一のビデオストリームで送信される自由視点ビデオである。ビデオストリームのビットレートは、周知の時間予測スキームに加えて、ビュー間の角度依存性を利用することによって低減されることができる。しかしながら、このアプローチは依然として高いビットレートを必要とし、生成され得る画像に関して制限的である。これは、実際には三次元仮想現実世界における完全に自由な動きの経験を提供することができない。

残念ながら、従来技術のいずれも理想的な経験を提供することはできず、位置および視線方向の変化の自由度が制限される傾向があることが多い。さらに、これらの技術は非常に高いデータレートを必要とし、個々の画像/ビューの生成に必要なデータよりも多くのデータを含むデータストリームを提供する傾向がある。

多くのアプリケーション、特に仮想現実アプリケーションでは、画像データストリームがシーン内のユーザの（仮想）位置を反映するように、シーンを表すデータから画像データストリームが生成される。このような画像データストリームは典型的には仮想シーン内でのユーザの動きを反映するように、動的かつリアルタイムで生成される。画像データストリームは、画像データストリームの画像データからユーザに画像をレンダリングするレンダラに提供されてもよい。多くのアプリケーションでは、レンダラへの画像データストリームの提供は、帯域幅が制限された通信リンクを介して行われる。例えば、画像データストリームは、遠隔サーバによって生成され、例えば通信ネットワークを介してレンダリング装置に送信される場合がある。

しかしながら、例えば、このようなアプリケーションの問題は、ほとんどの実用的なアプリケーションに対して非常に高いデータレートを必要とすることである。例えば、360°ビデオストリーミングに基づく仮想現実体験を提供することが提案されており、この場合、所与の観察者位置に対してサーバによってシーンの完全な360°ビューが提供され、それによってクライアントが異なる方向に対するビューを生成することが可能になる。しかしながら、これは、大部分の実用的なアプリケーションにおいて望ましくない、または利用可能でない、極めて高いデータレートをもたらす。

具体的には、仮想現実（VR）の有望なアプリケーションの1つは全方向性ビデオ（例えば、VR360またはVR180）である。ここで、特定の視点からの完全なビデオは（例えば、ERP投影を使用して）1つ（または複数）の矩形ウィンドウにマッピングされる。MPEGはこのアプローチを標準化しており、最終的には非常に高いデータレートにつながることも予測している。

ビュー球体をいくつかの所定のタイルに分割し、次いでこれらを異なる品質レベルでクライアントに送信することが提案されている。しかしながら、これは、典型的には非常に高いデータレートをもたらし、さらに、ユーザに提示されるレンダリングされた画像において達成される品質を低下させる傾向がある。MPEG VR360およびVR180の場合、フル解像度および品質で（その時点で）見ている部分（「タイル」）だけを要求し、残り（周囲）の部分を低解像度で要求することが可能である。しかしながら、これにはまだ高いデータレートが必要であり、典型的な仮想現実ゴーグル/ヘッドセットの視野角が、例えばHDTV(水平に約30度）と比較して、かなり大きい（水平に約100度）ので、ビデオデータレートも、HDTVの場合よりもはるかに高くなる（例えば10倍）。

したがって、改善されたアプローチが有利であろう。特に、改善された動作、増加された柔軟性、改善された仮想現実体験、減少されたデータレート、促進された分散、減少された複雑さ、促進された実装、減少された記憶要求、増加された画像品質、および/または改善された性能および/または動作を可能にするアプローチは有利である。

したがって、本発明は、好ましくは上記の欠点の1つ以上を単独でまたは任意の組み合わせで軽減、低減または排除しようとするものである。

本発明の一側面によれば、三次元シーンのビューを表す画像データストリームを生成するための装置が提供され、当該装置は、観察者の頭部ポーズと相対的眼球ポーズの両方を示す注視表示を受信するための受信機であって、頭部ポーズは頭部の位置を含み、前記相対的眼球ポーズは前記頭部ポーズに対する眼球の姿勢を示す、受信機と、前記注視表示に対応する三次元シーン内の三次元位置を有する視覚的注意領域を決定するための決定器と、シーンのための画像データからなる画像データストリームを生成するための生成器とを有し、前記画像データは、前記視覚的注意領域のための第１画像データと、前記視覚的注意領域外のシーンのための第２画像データとを少なくとも含むように生成され、前記生成器は、前記第１画像データが前記第２画像データよりも高い品質レベルを有するように前記画像データを生成するように構成され、前記決定器は、前記注視表示の注視距離表示に応答して、前記視覚的注意領域を決定するように構成される。

本発明は、多くの実施形態において、シーンのための改善された及び/又はより実用的な画像データを提供することができる。このアプローチは、多くの実施形態において、フレキシブルで、効率的で、高性能の仮想現実（VR）アプリケーションに非常に適した画像データを提供することができる。多くの実施形態では、それは画質とデータレートとの間の実質的に改善されたトレードオフを有するVRアプリケーションを可能にすることができる。多くの実施形態では、それは改善された知覚される画像品質および/または低減されたデータレートを可能にし得る。このアプローチは例えば、シーンを表すデータが集中保管され、潜在的に複数のリモートVRクライアントをサポートするVRアプリケーションに特に適している。

注視表示は、観察者の注視点を示すことができる。頭部ポーズおよび相対的眼球ポーズは組み合わせて、注視点に対応することができ、注視表示は例えば、この注視点に対応するシーン内の位置を示すことができる。

多くの実施形態では、視覚的注意領域が注視点に対応する領域であってもよい。特に、視覚的注意領域は、注視表示によって示される注視点に関する基準を満たすシーンの領域として決定されてもよい。この基準は例えば、近接要件であってもよい。

画像データストリームは、頭部ポーズに対応するビューポートのためのビデオデータを含んでもよい。第1及び第2画像データは、このビューポートのための画像データであってもよい。第2データは、頭部ポーズからの観察領域に対応する画像の少なくとも一部の画像データであってもよい。

画像データストリームは連続データストリームであってもよく、例えば、ビュー画像のストリーム及び/又は三次元データのストリームであってもよい。画像品質レベルは、多くの実施形態では（空間的および/または時間的）データレートに等しくてもよい。具体的には、生成器は、第2画像データよりも第1画像データの方が高いデータレートを有するように画像データを生成するように構成されることができるという意味で、第2画像データよりも第1画像データの方が高い品質レベルを有するように画像データを生成するように、構成されることができる。

視覚的注意領域は、シーン内の三次元領域であってもよい。注視表示は、頭部ポーズの位置から注視点までの距離の表示を含むことができる。決定器は、（観察者位置からの）視覚的注意領域までの距離を決定するように構成されてもよく、生成器は、この距離に応じて第1データを決定するように構成されることができる

注視表示の注視距離表示は、頭部ポーズ/観察者ポーズから注視点までの距離を示すことができる。決定器は、注視表示に対応するシーンの内容に応じて視覚的注意領域を決定するように構成されてもよい。

シーンは仮想シーンであってもよく、具体的には人工仮想シーンであってもよく、または例えば、捕捉された現実世界シーン、または拡張現実シーンであってもよい。

本発明の任意選択の特徴によれば、決定器は、頭部ポーズに対して10度以下の少なくとも1つの方向に広がる視覚的注意領域を決定するように構成される。

これは、多くの実施形態において改善された性能を提供することができる。視覚的注意領域は、非常に小さい広がりを有するように、具体的には、ユーザの視野角よりもはるかに小さく、シーンの画像をユーザに提示するために使用される場合の典型的なディスプレイ視野角よりもはるかに小さいように決定され得る。例えば、VRヘッドセットは、典型的には約100°の視野角を提供する。本発明者らは、知覚される画質は、狭い視野角の外側では、低減された画質レベルによって（著しく、または典型的に顕著に）影響を受けないことを認識した。

いくつかの実施形態では、決定器は、頭部ポーズに対して10度以下の水平方向の広がりを有するように視覚的注意領域を決定するように構成されてもよい。いくつかの実施形態では、決定器は、頭部ポーズに対して10度以下の垂直の広がりを有するように視覚的注意領域を決定するように構成されてもよい。

本発明の任意の特徴によれば、視覚的注意領域はシーンオブジェクトに対応する。

これは、多くの実施形態において改善された性能を提供することができる。

本発明の任意選択の特徴によれば、決定器は、シーン内のシーンオブジェクトの動きを追跡するように構成され、決定器は、追跡された動きに応じて視覚的注意領域を決定するように構成される。

これは、多くの実施形態において改善された性能を提供することができ、特に、ユーザの実際の現在の焦点により密接に対応する視覚的注意領域が決定されることを典型的に可能にすることができる。

本発明の任意選択の特徴によれば、決定器は、シーンに対する記憶されたユーザ観察挙動に応じて視覚的注意領域を決定するように構成される。

これは多くの実施形態において改善された性能を提供することができ、特に、典型的にはユーザの実際の現在の焦点により密接に対応する視覚的注意領域が決定されることを可能にする。

本発明の任意選択の特徴によれば、決定器は、記憶されたユーザ観察挙動がより高い観察頻度を示すシーンの領域に向けて視覚的注意領域を偏らせるように構成される。

これは、典型的には、視覚的注意領域の改善された決定を提供することができ、改善された性能を提供することができる。

決定器は、記憶されたユーザ観察挙動がより低い観察頻度を示すシーンの領域よりも、記憶されたユーザ観察挙動がより高い観察頻度を示すシーンの領域に向けて視覚的注意領域を偏らせるように構成されてもよい。

領域/オブジェクトに対するより高い観察頻度は、観察頻度がより低い領域/オブジェクトに対するよりも、領域/オブジェクトがユーザの視覚的注意の対象であったことを反映するだろう。

本発明の任意選択の特徴によれば、決定器は、シーンの異なる領域間の以前の観察挙動関係を示す関係データに応じて予測される視覚的注意領域を決定するように構成され、生成器は、画像データストリーム内に、予測される視覚的注意領域のための第3画像データを含めるように構成され、生成器は、予測される視覚的注意領域の外側の第2画像データよりも第3画像データの方が高い品質レベルを有するように画像データを生成するように構成される。

これは、多くの実施形態において改善された性能を提供することができる。具体的には、多くの実施形態において、多くの典型的なユーザ挙動に対する中断または遅れなしに、知覚される画質を改善することができる。

決定器は、現在の視覚的注意領域のビューと予測される視覚的注意領域のビューとの間の高いビュー相関を示す関係データに応じて、予測される視覚的注意領域を決定するように構成されてもよい。

本発明の任意選択の特徴によれば、関係データは少なくとも1人の観察者による以前の注視シフトを示し、決定器は、視覚的注意領域から第1領域への閾値を超える注視シフトの頻度を関係データが示すシーンの当該第1領域として、予測される視覚的注意領域を決定するように構成される。

本発明の任意選択の特徴によれば、決定器は、視覚的注意領域に対応するシーンオブジェクトの動きデータに応じて予測される視覚的注意領域を決定するように構成され、生成器は、予測される視覚的注意領域のための第3画像データを含むように構成され、生成器は、予測される視覚的注意領域の外側の第2画像データよりも第3画像データの方が高い品質レベルを有するように画像データを生成するように構成される。

本発明の任意選択の特徴によれば、生成器は、観察ポーズのビューポートに対応する画像を含むビデオデータストリームとして画像データストリームを生成するように構成される。

これは、VR体験がリモートサーバから提供される多くの実施形態を含む、多くの実施形態において特に有利なアプローチを提供することができる。それは、例えば、比較的低いデータレート要件を依然として維持しながら、VRクライアントにおける複雑さを低減することができる。

本発明の任意選択の特徴によれば、決定器は、シーン内の視覚的注意領域の動きと注視表示の変化との間の相関に応じて、視覚的注意領域の信頼度を決定するように構成され、生成器は、この信頼度に応じて、第1画像データの品質を決定するように構成される。

本発明の任意の特徴によれば、装置は、仮想シーンのための仮想現実アプリケーションを実行するように構成された仮想現実プロセッサを有し、仮想現実アプリケーションは、注視表示を生成し、画像データストリームから観察者のためのビューポートに対応する画像をレンダリングするように構成される。

本発明の任意選択の特徴によれば、装置は、遠隔クライアントから注視表示を受信し、画像データストリームを遠隔クライアントに送信するようにさらに構成される。

本発明の任意選択の特徴によれば、生成器は、頭部ポーズに応じて画像データのビューポートを決定し、ビューポートに応じて第1のデータを決定するように構成される。

本発明の一側面によれば、三次元シーンのビューを表す画像データストリームを生成する方法が提供され、当該方法は、観察者の頭部ポーズと相対的眼球ポーズの両方を示す注視表示を受信するステップであって、前記頭部ポーズは頭部の位置を含み、前記相対的眼球ポーズは、前記頭部ポーズに対する眼球のポーズを示す、ステップと、注視表示に対応する三次元シーン内の三次元位置を有する視覚的注意領域を決定するステップと、シーンのための画像データを有する画像データストリームを生成するステップを有し、前記画像データは、前記視覚的注意領域のための第１画像データと、前記視覚的注意領域外のシーンのための第２画像データとを少なくとも含むように生成され、前記第１画像データの品質レベルが前記第２画像データの品質レベルよりも高く、前記視覚的注意領域を決定するステップは、注視表示の注視距離表示に応じて視覚的注意領域を決定することを含む。

本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。

本発明の実施形態は単なる例として、図面を参照して説明される。
仮想現実体験を提供するためのクライアントサーバ構成の例を示す図。本発明のいくつかの実施形態による装置の要素の例を示す図。図2の装置のいくつかの実施形態によって生成され得るビュー画像の例を示す図。

ユーザが仮想世界で動き回ることを可能にする仮想体験はますます人気が高まっており、そのような要求を満たすためにサービスが開発されている。しかしながら、効率的な仮想現実サービスの提供は、特に、経験が完全にバーチャルに生成された人工世界ではなく、現実世界環境のキャプチャに基づくものである場合には、非常に困難である。

多くの仮想現実アプリケーションでは、観察者ポーズ入力がシーン内のバーチャル観察者のポーズを反映して決定される。次に、仮想現実装置/システム/アプリケーションは、観察者ポーズに対応する観察者のために、シーンのビューとビューポートに対応する1つ以上の画像を生成する。

典型的には、仮想現実アプリケーションは、左目及び右目のための別々のビュー画像の形で三次元出力を生成する。次いで、これらは、典型的にはVRヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、画像が例えば、自動立体ディスプレイ上で提示されてもよく（この場合、より多数のビュー画像が観察者ポーズのために生成されてもよい）、または実際に、いくつかの実施形態では、単一の2次元画像のみが生成されてもよい（例えば、従来の2次元ディスプレイを使用して）。

観察者ポーズ入力は、異なるアプリケーションで異なる方法で決定される場合がある。多くの実施形態では、ユーザの物理的な動きを直接追跡することができる。例えば、ユーザエリアを測量するカメラがユーザの頭部（または目）を検出し、追跡することができる。多くの実施形態では、ユーザは、外部および/または内部手段によって追跡することができるVRヘッドセットを装着することができる。例えば、ヘッドセットは、ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備えることができる。いくつかの例では、VRヘッドセットは、信号を送信することができ、または外部センサがVRヘッドセットの動きを決定することを可能にする（例えば視覚的な）識別子を備えることができる。

いくつかのシステムでは、観察者ポーズは、マニュアルの手段によって、例えば、ユーザがジョイスティックまたは同様のマニュアル入力を手動で制御することによって、提供されてもよい。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することによってシーン内で仮想観察者を手動で動かし、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想観察者が見ている方向を手動で制御することができる。

いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力される観察者ポーズを生成することができる。例えば、ヘッドセットが頭部の向きを追跡することができ、シーン内の観察者の動き/位置は、ジョイスティックを使用してユーザによって制御されることができる。

画像の生成は、仮想世界/環境/シーンの適切な表現に基づく。いくつかのアプリケーションでは、シーンについて完全な三次元モデルを提供することができ、特定の観察者ポーズからのシーンのビューを、このモデルを評価することによって決定することができる。他のシステムでは、シーンが異なるキャプチャポーズからキャプチャされたビューに対応する画像データによって表されてもよい。例えば、複数のキャプチャポーズについて、完全な球面画像が、三次元（奥行きデータ）と一緒に記憶されてもよい。そのようなアプローチでは、キャプチャポーズ以外の他のポーズのビュー画像は、特にビューシフトアルゴリズムを使用するなど、三次元画像処理によって生成され得る。シーンが別個の視点/位置/ポーズについて格納されたビューデータによって記述/参照されるシステムでは、これらはアンカー視点/位置/ポーズとも呼ばれ得る。典型的には実世界環境が異なる地点/位置/ポーズから画像をキャプチャすることによってキャプチャされたとき、これらのキャプチャ地点/位置/ポーズはアンカー地点/位置/ポーズでもある。

典型的なVRアプリケーションは、それに応じて、観察者ポーズの変化を反映するように動的に更新される画像、および、仮想シーン/環境/世界を表現するデータに基づいて生成される画像と共に、現在の観察者ポーズのためのビューポートに対応する画像を（少なくとも）提供する。

この分野では、配置およびポーズという用語は、位置および/または方向/向きに関する一般的な用語として使用される。例えばオブジェクト、カメラ、頭部またはビューの位置および方向/向きの組み合わせを、ポーズまたは配置と呼ぶ場合がある。したがって、配置またはポーズ表示は、通常、対応するオブジェクトの位置/場所または方向/向きの個々の特性を記述する各値/成分を有する6つの値/成分/自由度を含み得る。もちろん、多くの状況において、例えば、1つ以上の成分が固定または無関係であると考えられる場合（例えば、全てのオブジェクトが同じ高さにあり、水平方向を有すると考えられる場合、4つの成分がオブジェクトのポーズの完全な表現を提供することができる）、配置またはポーズはより少ない成分で考慮または表現されてもよい。以下では、ポーズという用語は、1乃至6つの値（可能な最大自由度に対応する）によって表すことができる位置および/または向きを指すために使用される。

多くのVRアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの3つの自由度を有するポーズに基づいており、その結果、合計6つの自由度が得られる。したがって、ポーズは6つの自由度を表す6つの値のセットまたはベクトルによって表すことができ、したがって、ポーズベクトルは、三次元位置および/または三次元方向表示を与えることができる。しかしながら、他の実施形態では、ポーズがより少ない値によって表されてもよいことが理解されるのであろう。

観察者に最大自由度を提供することに基づくシステムまたはエンティティは、通常、6自由度（6DoF）を有すると呼ばれる。多くのシステムおよびエンティティは、方向または位置のみを提供し、これらは、典型的には3自由度（3DoF）を有するものとして知られている。

システムによっては、VRアプリケーションは、例えば、いかなる遠隔のVRデータまたは処理をも使用しない、あるいはそれらに何らアクセスしない、スタンドアロン装置によって、観察者にローカルに提供されることができる。例えば、ゲームコンソールのような装置が、シーンデータを記憶するための記憶装置と、観察者ポーズを受信/生成するための入力と、シーンデータから対応する画像を生成するためのプロセッサとを備えることができる。

他のシステムでは、VRアプリケーションは、観察者から遠隔で実装され、実行されることができる。例えば、ユーザにローカルな装置は、観察者ポーズを生成するためにデータを処理する遠隔装置に送信される動き/ポーズデータを検出/受信することができる。次いで、遠隔装置は、シーンを記述するシーンデータに基づいて、観察者ポーズのための適切なビュー画像を生成することができる。次に、ビュー画像は、それらが提示される観察者に対してローカルな装置に送信される。例えば、遠隔装置は、ローカル装置によって直接提示されるビデオストリーム（典型的にはステレオ/3Dビデオストリーム）を直接生成することができる。したがって、このような例では、ローカル装置は、移動データを送信し、受信したビデオデータを提示することを除いて、いかなるVR処理も実行しないことがある。

シーンデータは、具体的には3Dシーンを記述する3D（三次元）シーンデータであってもよい。3Dシーンは、（典型的には3つの直交軸を有する）シーン座標系を参照して3Dシーンのコンテンツを記述する3Dシーンデータによって表されてもよい。

多くのシステムでは、機能がローカル装置および遠隔装置にわたって分散され得る。例えば、ローカル装置は、受信した入力およびセンサデータを処理して、遠隔VR装置に連続的に送信される観察者ポーズを生成することができる。次いで、遠隔VR装置は、対応するビュー画像を生成し、これらを提示のためにローカル装置に送信することができる。他のシステムでは、リモートVR装置がビュー画像を直接生成しなくてもよいが、関連するシーンデータを選択し、これをローカル装置に送信してもよく、そしてローカル装置が、提示されるビュー画像を生成してもよい。例えば、リモートVR装置は最も近いキャプチャポイントを識別し、対応するシーンデータ（例えば、キャプチャポイントからの球面画像および奥行きデータ）を抽出し、これをローカル装置に送信することができる。次いで、ローカル装置は、受信したシーンデータを処理して、特定の現在のビューポーズのための画像を生成することができる。ビューポーズは典型的には頭部ポーズに対応し、ビューポーズへの参照は、典型的には頭部ポーズへの参照に対応すると同等に考えることができる。

図1は、リモートVRサーバ101が例えばインターネットのようなネットワーク105を介してクライアントVRサーバ103と連携するVRシステムのこのような例を示す。サーバ103は、潜在的に多数のクライアント装置101を同時にサポートするように構成されてもよい。

そのようなアプローチは、多くのシナリオにおいて、例えば、異なる装置に対する複雑さとリソース要求、通信要求などの間の改善されたトレードオフを提供することができる。例えば、観察者ポーズおよび対応するシーンデータは、リアルタイムの低遅延体験を提供するために、観察者ポーズおよび受信されたシーンデータをローカルに処理するローカル装置を用いて、より大きな間隔で送信されてもよい。これは、例えば、必要とされる通信帯域幅を大幅に減少させる一方で、低遅延体験を提供し、シーンデータが集中的に記憶され、生成され、維持されることを可能にする。これは、例えば、VR体験が複数のリモート装置に提供されるアプリケーションに適し得る。

図2は、本発明のいくつかの実施形態による、多くのシナリオにおいて改善された仮想現実体験を提供することができる装置の要素を示す。この装置は、シーンを特徴付けるデータに基づいて、観察者ポーズに対応する画像データストリームを生成することができる。

いくつかの実施形態では、装置は、観察者または観察者に関連する機器の動きを検出するセンサからデータを受信するように構成されたセンサ入力プロセッサ201を備える。センサ入力は特に、観察者の頭の姿勢を示すデータを受信するように構成される。センサ入力に応じて、センサ入力プロセッサ201は、当業者によって知られるように、観察者のための現在の頭部ポーズを決定/推定するように構成される。例えば、ヘッドセットからの加速度およびジャイロセンサデータに基づいて、センサ入力プロセッサ201は、ヘッドセット、したがって観察者の頭部の位置および向きを推定し、追跡することができる。これに代えて又は付加的に、例えば、カメラを使用して、観察環境を捕捉し、カメラからの画像を使用して、観察者の頭部の位置及び向きを推定し、追跡することができる。以下の説明は頭部ポーズが6自由度で決定される実施形態に焦点を当てるが、他の実施形態ではより少ない自由度が考慮されてもよいことが理解されるのであろう。

頭部ポーズ関連データに加えて、センサ入力プロセッサ201はさらに、観察者の眼の相対的眼球ポーズに依存する入力センサデータを受け取る。このデータから、センサ入力プロセッサ201は、頭部に対する観察者の眼球ポーズの推定値を生成することができる。例えば、VRヘッドセットは、VRヘッドセットに対する、したがって頭部ポーズに対するユーザの目のそれぞれの向きを検出する瞳孔追跡装置を含むことができる。眼球センサ入力データに基づいて、センサ入力プロセッサ201は、頭部ポーズに対する観察者の目の眼球ポーズを示す相対的眼球ポーズ表示を決定することができる。多くの実施形態では相対的眼球ポーズは6自由度で決定されてもよいが、他の実施形態ではより少ない自由度が考慮されてもよいことが理解されるのであろう。特に、眼球ポーズ表示は、頭部、したがって頭部ポーズに対する眼球の向きのみを反映するように生成されてもよい。これは、特に、頭部に対する眼/瞳孔の位置変化が比較的無視できる傾向にあることを反映することができる。

具体例として、ユーザは、ゴーグル/ヘッドセットに対する眼球運動を検出することができる赤外線アイ・トラッカ・センサを備えるVRゴーグルまたはVRヘッドセットを装着することができる。

センサ入力プロセッサ201は、頭部ポーズインジケータと眼球ポーズインジケータとを組み合わせて注視表示を生成するように構成される。目の光軸が出会う点は注視点として知られ、注視表示はこの注視点を示す。注視表示は、現在の観察者位置から注視点までの方向を具体的に示すことができ、典型的には、注視点までの方向および距離の両方を示すことができる。したがって、多くの実施形態では、注視インジケータは、（観察者位置に対する）注視点までの距離を示す。

この例では、注視表示は、眼のポーズを追跡し、したがって、眼の光軸の収束を決定することに基づいて、注視点の少なくとも1つの方向として、典型的には位置として、決定されてもよい。

シーンは、典型的には関連する3D座標系を有する3Dシーンであってもよい。シーンは、シーンの内容の3D記述を提供する3Dデータによって表現されてもよい。3Dデータは、3Dシーン座標系に関連付けられてもよい。

注視表示は、3Dシーン内の注視点を示し、具体的には、シーン座標で表される注視点を示すことができる。

凝視点表示は、3Dシーン内の3D位置を示すことができ、特に、3Dシーン内の3D位置を定義する3つの座標パラメータを示すことができ、または含むことができる（3つの座標パラメータは特に、シーン座標を表すことができる）。したがって、注視点表示は、ディスプレイまたはビューポート上の位置の単なる表示ではなく、3Dシーン座標系内の位置を定義または記述することができる。

したがって、注視表示は、観察者のポーズに関する方位角および仰角情報だけでなく、距離も含むことができる。上記のコメントは、注視点自体について準用される。

図2の装置は、センサ入力プロセッサ201から注視表示を受信するように配置された受信機203を更に備える。上述のように、注視表示は頭のポーズを示すだけでなく、注視点を示し、頭の位置と相対的な眼のポーズの両方を反映する。

受信機203は、視線表示に対応するシーン内の視覚的注意領域を決定するように構成された視覚的注意プロセッサ205に結合される。視覚的注意領域は、注視表示によって示されるように、観察者の視覚的注意または焦点を反映し、すなわち、観察者が「見ている」、視覚的注意を向けている場所を反映すると考えられる。視覚的注意領域は、観察者が現在注意を払っているシーン内の領域であると考えることができる。

視覚的注意プロセッサ205は、領域が注視表示に関する基準を満たすように、シーン内の領域を決定することができる。この基準は、具体的には、近接基準を含むことができ、この近接基準は、領域の部分と、注視表示によって示される注視点との間の距離メトリックが閾値未満であることを必要とする場合がある。決定された領域は、注視表示を考慮して決定された領域であるので、ユーザがこの領域に注意を集中させている確率の増加を示すとシステムによって仮定される。したがって、注視表示を考慮して決定される領域のおかげで、それは、おそらくユーザの視覚的注意の表示として有用であると考えられ、したがって、視覚的注意領域である。

視覚的注意領域は3Dシーンの領域であり、3Dシーン内の位置/ロケーションに関連付けられる。視覚的注意領域は、3Dシーンの少なくとも1つの位置と関連付けられ、又は定義されている可能性があり、また、その位置はシーン座標系で表されてもよい。位置は、典型的には3つのシーン座標によって表される3Dシーン内の少なくとも1つの3D位置によって表され得る。

多くの実施形態では、視覚的注意領域が3Dシーンにおける3D領域であってもよく、3Dシーン座標系において記述/決定/定義されてもよい。視覚的注意領域は、多くの場合、例えばシーンオブジェクトに対応する連続した3D領域である。

従って、視覚的注意領域は、典型的には距離表示を含む観察者位置に対する3D関係を有する。その結果、観察者の変化は観察者の姿勢と注視点との間の空間関係、したがって視覚的注意領域の変化をもたらし、これは、注視点および視覚的注意領域が、投影面が平坦であるかまたは湾曲している（例えば、投影面など）2D投影面上の点/領域であった場合とは異なる。

視覚的注意領域は、典型的には注視点を含む領域として生成されることができ、典型的には注視点を含む領域として、またはこれに非常に近い領域として生成される。注視点に対応する視覚的注意領域を決定するために、異なるアプローチおよび基準を使用することができることが理解されるのであろう。後により詳細に説明するように、視覚的注意領域は、例えば、注視表示によって示されるように、注視点に近いシーン内のオブジェクトとして決定されてもよい。例えば、シーンオブジェクトと注視点との間の推定距離が所与の閾値未満であり、シーンオブジェクトがこの注視点に最も近いシーンオブジェクトである場合、このシーンオブジェクトを視覚的注意領域として決定することができる。

したがって、視覚的注意領域は、シーン内の領域であり、世界またはシーンを指す。視覚的注意領域は、単に観察者のためのビューポートの所与の領域として決定されるだけでなく、むしろシーン自体の中の領域を定義する。いくつかの実施形態では、視覚的注意領域が2次元領域として決定されてもよいが、大部分の実施形態では、視覚的注意領域は例えば、観察位置に関する方位角間隔および仰角間隔によって定義されるだけでなく、しばしば距離/深度値または間隔を含む。例えば、視覚的注意領域は、方位範囲、仰角範囲、および距離範囲をそれぞれ規定する3つの間隔によって形成される領域として決定されてもよい。別の例として、視覚的注意領域は、3つの空間成分の範囲として、シーン/ワールド座標系において決定されてもよい（例えば、視覚的注意領域は、x成分範囲、y成分範囲、およびz成分範囲によって定義される矩形プリズムまたは立方体として決定されてもよい）。いくつかの実施形態では、視覚的注意領域は、注視点に十分に近い（またはそれを含む）シーンオブジェクトの3次元形状として決定されてもよい。

視覚的注意領域は、典型的には、観察者のポーズに対する三次元関係を有する領域として決定される。言い換えれば、視覚的注意領域は、観察者ポーズに関して、例えば、ビューポーズからのビューポート又は球の領域として決定されるだけでなく、ビューポーズまでの距離を有することになる。したがって、視覚的注意プロセッサ205は、注視表示の注視距離表示に応じて視覚的注意領域を決定するように構成される。したがって、視覚的注意領域を決定する際に考慮されるのは注視の方向だけでなく、視覚的注意領域は、ビューポーズから注視点までの距離に依存しても決定される。

いくつかの実施形態では、視覚的注意領域は、注視表示のみに依存してもよいが、多くの実施形態では例えば、どのシーンオブジェクトが現在の注視点に対応するかなど、シーンの内容を考慮することによって、さらに決定されてもよい。したがって、視覚的注意プロセッサ205は、シーン/世界を記述するシーンデータを含むシーンストア207に結合される。このシーンデータは、例えば、三次元モデルとして記憶されてもよいが、多くの実施形態では、いくつかのキャプチャ/アンカー位置についての三次元ビュー画像データの形である。

シーンデータは、具体的には、シーンの3D記述を提供する3Dシーンデータである。シーンデータは、シーン座標系を参照してシーンを記述することができる。

この装置は、視覚的注意プロセッサ205、シーンストア207、およびこの例ではセンサ入力プロセッサ201にも結合された画像データ生成器209をさらに備える。画像データ生成器209は、シーンのビューを表す画像データストリームを生成するように構成される。図2の例では、画像データ生成部209は、センサ入力プロセッサ201から観察者ポーズを受け取る。この例では観察者ポーズは頭部ポーズを示し、画像データ生成器209は、観察者ポーズに対応するビューをレンダリングするための画像データを生成するように構成される。このように、本具体例では、画像データ生成部209は、観察者の頭部ポーズに応じた画像データを生成する。

いくつかの実施形態では、画像データ生成器209は、ビューポーズのビューポートに対応するビュー画像を直接生成することができる。したがって、このような実施形態では、画像データ生成器209が適切なVR装置によって直接レンダリングすることができるビュー画像を直接合成することができる。例えば、画像データ生成器209は、所与の視点位置に対する観察者の左目及び右目に対応するステレオ画像を含むビデオストリームを生成することができる。ビデオストリームは例えば、VRヘッドセットを直接フィードまたは制御するレンダラに提供されてもよく、ビュー画像ビデオストリームは直接提示されてもよい。

しかしながら、図2の例では、画像データ生成器209は、観察者ポーズ（特に頭部ポーズ）のためのビュー画像を合成するための画像データを含む画像データストリームを生成するように構成される。

具体的には、この例では、画像データ生成器209は、画像データ生成器209から受信された画像データストリームに応じて、ビューアポーズのためのビュー画像を合成するように構成された画像合成器211に結合される。画像データストリームは特に、観察者のポーズに近いか、または直接対応する三次元画像データを含むように選択されてもよい。次いで、画像合成器211は、これを処理して、ユーザに提示することができる観察者ポーズのためのビュー画像を合成することができる。

このアプローチは例えば、画像データ生成器209及び画像合成器211が異なるレートで動作することを可能にする。例えば、画像データ生成器209は例えば、毎秒1回などの低頻度で新しい観察者ポーズを評価するように構成されてもよい。したがって、画像データストリームは、この観察者ポーズに対応する三次元画像データを有するように生成されてもよく、したがって、現在の観察者ポーズのための三次元画像データは毎秒1回更新されてもよい。

対照的に、画像合成器211は、現在のビューポーズのビューポートのためのビュー画像をはるかに速く合成することができ、例えば、例えば毎秒30回、新しい画像を生成してユーザに提供することができる。従って、観察者は、毎秒30フレームのフレームレートを経験する。ユーザの動きに起因して、個々のビュー画像/フレームのビューポーズは画像データ生成器209が画像データを生成した基準ビューポーズから逸脱することがあり、したがって、画像合成器211は、何らかのビューシフトなどを実行することがある。

したがって、このアプローチは、画像データ生成器209がはるかに遅く動作することを可能にし、本質的にリアルタイム動作は画像合成器211に制限され得る。これにより、画像データ生成器209の複雑さおよびリソース要求を低減することができる。更に、典型的にはビューシフトが比較的小さくなる傾向があり、従って、低複雑さのアルゴリズムでさえも十分に高い品質をもたらす傾向があるので、画像合成器211に対する複雑さ及びリソース要件は比較的低い。また、このアプローチは、画像データ生成器209と画像合成器211との間の接続/リンクに必要な帯域幅を大幅に低減することができる。これは、特に、画像データ生成器209及び画像合成器211が例えば、それぞれ図1のVRサーバ101及びVRクライアント103のように、互いに離れて配置される実施形態において、重要な特徴であり得る。

画像データ生成部209は、シーンストア207から抽出されたシーンデータに基づいて画像データを生成する。特定の例として、シーンストア207は、潜在的に多数のキャプチャまたはアンカーポイントからのシーンの画像データを含むことができる。例えば、シーン内の多数の位置について、シーンストア207は、関連付けられた奥行きデータを有する完全な球面画像を記憶することができる。このような状況では、画像データ生成器209は、センサ入力プロセッサ201から受け取った現在の観察者ポーズに最も近いアンカーポイントを決定することができる。そして、対応する球面画像及び奥行きデータを抽出し、これらを画像合成器211に送信することができる。しかしながら、典型的には、画像データ生成器209は、球面画像（及び奥行きデータ）全体を送信するのではなく、これの適切な部分を送信のために選択する。このようなフラクションは、タイルと呼ぶことができる。タイルは、典型的には例えば、領域の1/16と1/64との間のような、球面画像の非常に本質的な部分を反映する。実際、タイルは、典型的には現在のビューポーズのビューポートよりも大きい。選択されるタイルは、ビューポーズの向きから決定されることができる。

いくつかの実施形態では、画像合成器２１１は画像データ生成器２０９に含まれていると考えられ、画像データ生成器２０９は、（例えば、図２の画像合成器２１１の出力に対応する）ユーザのビューポートのためのビュー画像からなる画像データストリームを直接生成してもよい。言い換えれば、いくつかの実施形態では、図２を参照して説明した画像ストリーム生成器１２０７および画像合成器２１１の機能は、他の実施形態における結合された実装にも同様に適用され得、画像データ生成器209と画像合成器211の機能は、観察者/ユーザのための直接ビュー画像からなる出力データストリームを直接生成する単一の機能エンティティに統合される。

図2の装置では、画像データ生成器209はさらに、視覚的注意プロセッサ205に結合され、そこから決定された視覚的注意領域の情報を受け取る。画像データ生成器209は、視覚的注意領域に応じて、生成される画像データのそれぞれの部分の品質を適応させるように構成される。具体的には、画像データ生成器209は、視覚的注意領域に対して、視覚的注意領域の外側（の少なくとも一部）よりも品質が高くなるように品質を設定するように構成される。このように、画像データ生成部209は、生成される視覚注目領域の画像データの画質が視覚注意領域外を表す画像データ（の少なくとも一部）よりも高くなるように、画質が変化する画像データを生成してもよい。

視覚的注意領域は3Dシーン内の領域であり、観察者ポーズに対する奥行き/距離パラメータ/特性を有するので、視覚的注意領域と画像データとの間の関係は、観察者ポーズを変化させると変化する。具体的には画像データのどの部分が視覚的注意領域に対応するか、したがって、画像データのどの部分がより高品質で提供されるべきかは、距離に依存する。したがって、画像データ生成器209は、観察者ポーズから視覚的注意領域までの距離に応じて、視覚的注意領域に対応する第1画像データを決定するように構成される。

これは、例えば、ディスプレイ上または画像内の注視点を決定し、次いで、これに応じて中心窩画像を生成することとは異なることに留意されたい。このようなアプローチでは、注視点が（同じ焦点を有する）観察者位置の変化に対して変化せず、中心窩画像は変化しない。しかしながら、観察者位置から視覚的注意領域までの距離が変化する3Dシーンにおける3D視覚的注意領域については、視覚的注意領域に対応する画像データは、例えば同じシーンオブジェクト上で焦点が一定に保たれている場合であっても、観察者ポーズが変化することにつれて変化する。

画像データ生成器209は、このような変化を考慮するように構成されてもよい。例えば、画像データ生成器209は、画像データが提供されるビューポート上に視覚的注意領域を投影し、次いで、この投影に応答して第1データを決定するように構成されてもよい。具体的には、（より高品質で提供される）第1画像データは、ビューポートへの視覚的注意領域の投影の周りのビューポートのセクションの画像データとして決定されてもよい。

一例として、受信した観察者ポーズに基づいて、画像データ生成器209は最も近いキャプチャ位置を特定し、その位置に関する球面画像および奥行きデータを取り出すことができる。次いで、画像データ生成器209は、タイル（例えば、観察者ポーズを含む120°方位角及び90°仰角タイル）を決定することに進むことができる。次に、視覚的注意領域に対応するタイル内の領域を決定する。これは、特に、観察者のポーズに基づいて球面画像によって表される表面上への視覚的注意領域の線形投影を追跡することによって行うことができる。例えば、具体的には、直線を観察者位置から視覚的注意領域の点に投影することができ、視覚的注意領域に対応するタイル/画像の面積を、これらの線と球面/画像ビューポートとの交差面積として決定することができる。

したがって、画像データ生成器209は、視覚的注意領域を表すタイルの部分を特定することができる。例えば、視覚的注意領域がシーンオブジェクトに対応する場合、画像データ生成器209は、シーンオブジェクトを含むタイル内の領域を特定することができる。次いで、画像データ生成器209は、特定された領域の画像データの品質がタイルの残りの部分の品質よりも高くなるように、タイルのための画像データの生成に進むことができる。得られた画像データは、画像データストリームに含められて、画像合成器211に供給される。

タイルを使用する利点は、通常、事前にエンコードされたビデオ（DASHでは「トラック」と呼ばれる）によって表され、クライアントごとのエンコードやトランスコーディングを必要とせずに送信用に選択できることである。記載されたアプローチは、そのようなタイルと共に使用するのに適している。特に、多くの実施形態では、画像データ生成器209は、所与のタイルについて、処理が視覚的注意領域に対応する特定のエリアを除いてタイルのデータレートを低減するように、送信前にタイルを処理することができる。したがって、結果として得られるタイルは、観察者の視覚的注意を有すると現在推定されている特定のエリアに対して高い品質（データレート）を有し、タイルの残りの部分に対して低い品質（データレート）を有するように生成され、送信される。

他の実施形態では、より多数のより小さいタイルを異なる品質で記憶することができる。例えば、各タイルは、10°以下の視野角に対応することができる。次いで、視覚的注意領域に対応する領域に対して高品質タイルを選択し、結合されたタイルの残りの部分に対して低品質タイルを選択することによって、より大きな結合されたタイルを形成することができる。

画像データ生成器209がユーザに提示するためのビューポート画像を直接生成する実施形態では、視覚的注意領域に対応するビューポート画像内の領域は、視覚的注意領域の外側のビューポートの領域よりも高品質（空間的および/または時間的データレート）で生成され得る（例えば、上記のコメントが適用可能であると考えられ、タイルは頭部ポーズのビューポートに対応するように選択される）。

画像データの画質を変更するための様々なアプローチが当業者に知られており、任意の適切なアプローチを使用することができることが理解されるのであろう。多くの実施形態では、データレートの変動（空間的及び/又は時間的）が画質の変動に対応することができる。したがって、多くの実施形態では、画像データ生成器209は、第2画像データよりも第1画像データの方が高いデータ/ビットレートを有するように画像データを生成するように構成されることができる。データ/ビットレートの変動は、空間的および/または時間的データ/ビットレートであってもよい。具体的には、画像データ生成部209は、第2画像データよりも第1画像データの方が面積当たりのビット数が多く、かつ/または秒当たりのビット数が多くなるように画像データを生成するように構成されてもよい。

画像データ生成器209は、例えば、視覚的注意領域外の領域について、シーンストア207から取り出されたデータをより低い品質レベルに再符号化（トランスコード）し、次いで、より低い品質のバージョンを送信することができる。他の実施形態では、シーンストア207は、それぞれのキャプチャポイントのための2つの異なる符号化バージョンの画像を含むことができ、画像データ生成器209は、視覚的注意領域の領域及びタイルの残りの部分のそれぞれについて異なるバージョンからデータを選択することによって、異なる品質を生成することができる。

当然のことながら、画像データ生成器209は、空間解像度、時間解像度、圧縮レベル、量子化レベル（ワード長）などの異なるパラメータを調整することによって品質レベルを変化させることができる。例えば、より高い品質レベルは、より高いフレームレート、より高い解像度、より長いワード長、および低減された画像圧縮レベルのうちの少なくとも1つによって達成される。

これにより、画像データ生成部209は、視覚的注意領域の画質が外部よりも高い画像データストリームを生成する。したがって、シーンの特定の部分が注視点に基づいて特定され、したがって、頭部ポーズおよび相対的眼球ポーズの両方を反映し、この部分はより高い品質で表される。従って、高品質は、観察者が焦点を合わせている可能性が高いシーン部分、及び典型的にはシーンオブジェクトに対して提供される。

このアプローチは、視覚的注意領域が観察者のためのビューポートの小さな領域に対応することができ、ビューポート全体よりも実質的に高い品質レベルで提示される可能性がある、差別化されたアプローチを提供することができる。このアプローチの重要な特徴は、視覚的注意領域に対応する高品質のエリア/領域がビューポート/領域全体のうちの非常に小さい部分を形成し得ることである。実際、多くの実施形態では、視覚的注意プロセッサ205は、観察者の観察者位置に対して10°以下（またはいくつかの実施形態では5°以下）の水平の広がりを有するように視覚的注意領域を決定するように構成される。したがって、視覚的注意領域は、観察者のビュー（およびビューポート）の10°（または5°）未満に対応することができ、したがって、増大した品質は、非常に小さい領域に限定される。同様に、多くの実施形態では、視覚的注意プロセッサ205は、観察者の観察者位置に対して10°以下（またはいくつかの実施形態では5°以下）の垂直の広がりを有するように視覚的注意領域を決定するように構成される。

実際に、本発明者らは人間の画質知覚が非常に限定されており、特異的なものであり、シーン内の観察者の現在の注視点におけるシーンコンテンツに対応する特定の小さなビュー間隔において高品質を提供することによって、観察者は、ビューポート全体が高品質で提示されていると知覚することに気付いた。本発明者らはさらに、これを使用して、シーン内のユーザの注視を追跡し、それに応じて品質レベルを適応させることによって、VRアプリケーション内のデータレートを実質的に低減することができることを理解した。

実際、多くのシナリオでは、人間が鮮鋭度/品質を完全に知覚する角度は非常に小さく、多くの場合、1度または数度の範囲である。しかしながら、改善された品質を有するより大きな領域を決定することによって、関連領域の更新の必要性が少なくなり、それによって、より高い品質の領域の適応および送信を容易にすることが達成され得る。実際には、多くの実施形態において、5乃至10°のオーダーの広がりが非常に有利なトレードオフを提供することが見出されている。

このアプローチの効果は、上側の写真が視点全体に対して同じ（高）品質の可能なビューイメージを示す、図3の写真によって例示することができる。下側の写真は、図2の装置によって生成され得る可能なビュー画像の一例である。この例では、ユーザの現在の注視に対応する視覚的注意領域が右側の3人の人々の周りに特定されている。この例ではこれら3人の人々の周りの対応する領域の品質（この例では全領域の約1/3×1/3）が上側の写真と同じ高レベルに維持されているが、残りの画像の品質は（例えば、より高い圧縮レベルでトランスコードすることによって）低減されている。2つの写真を見ると、品質の違いが見えることは明らかである。しかしながら、右側の3人に視覚的に焦点を当てているユーザにとっては、典型的には、品質の違いは注目されない。実際、表示が空間的変動なしに写真間を迅速に切り替えることができるように2つの写真がディスプレイ上にオーバーレイされるテストが実施された。検査対象が視覚的注意領域に対応する領域（すなわち、右側の3人）に焦点を合わせた場合、2つの画像の間に品質差は知覚されなかった。

多くの実施形態では、画像データ生成器209は、注視表示及び/又は頭部ポーズに応じて画像データのビューポートを決定し、ビューポートに応じて第1データを決定するように構成されてもよい。

具体的には、ビューポートは、例えばヘッドセットのディスプレイに対応することができ、ユーザはヘッドセットのディスプレイを通して、したがってディスプレイに対応するビューポートを通してシーンを効果的に観察することができる。しかしながら、ユーザが動き回るか、または頭の方向を変更するなどすると、ユーザは、シーンが観察されているビューポートに事実上対応するシーンの異なる部分を見ることになる。したがって、ビューポートは、3Dシーン内で動き回り、実際、3Dシーン内の位置および向きを変化させる。

多くの実施形態では、画像データ生成器209はこれをさらに考慮に入れることができる。画像データ生成器209は、具体的には、2段階アプローチでこれを行うことができる。第1に、頭部ポーズは、そのポーズに対する観察者のビューに対応するビューポートのポーズを決定するために使用されることができる。例えば、ビューポートは、頭の位置から頭の方向への所定のサイズおよび距離のビューポートとして決定されてもよい。それから、例えば3Dシーンデータからビューポートに対応する画像を生成することによって、このビューポートを表現するために必要な画像データを決定することに進むことができる。次いで、画像データ生成器209は、視覚的注意領域を考慮し、観察者のポーズに基づいてこれをビューポート上に投影することに進むことができる。次いで、ビューポートの対応する領域を決定し、対応する画像データを特定することができる。この画像データは、この領域の外側のビューポートの画像データよりも高品質で生成されてもよい。

多くの実施形態では、このアプローチは、複数のビューポートについて、特に各々の眼のビューポートについて繰り返されてもよい。

図2の装置は、多くの実施形態において、観察者にローカルな、例えばゲームコンソールのような単一の装置で実施されてもよい。しかしながら、多くの他の実施形態では、装置の要素は、観察者から離れていてもよい。例えば、多くの実施形態では、図1のようなクライアント/サーバアプローチが使用されることができ、図2のいくつかの要素がクライアント装置内に配置され、いくつかの要素がサーバ内に配置される。

例えば、多くの実施形態では、受信機203、視覚的注意プロセッサ205、シーンストア207、および画像データ生成器209はサーバ103内に配置されることができる。これらの要素は、複数のサーバ間で共有されてもよく、したがって、集中化されたシーンデータに基づいて、複数の同時VRアプリケーションをサポートすることができる。

多くの実施形態では、画像データ生成器209はサーバ103に配置され、画像合成器211はクライアントに配置される。これにより、サーバ103は、現在のビューポーズに対応するビュー画像を正確に生成するために（わずかな）調整を行うためにローカルで使用されることができる3D画像データを連続的に提供することができる。これにより、必要なデータレートを低減することができる。しかしながら、他の実施形態では、画像合成器211がサーバ103内に配置されることができ（実際には画像データ生成器209及び画像合成器211の機能が組み合わされてもよい）、サーバ103がユーザに直接提示することができるビュー画像を直接生成することができる。したがって、サーバ103に送信される画像データストリームは、場合によっては、ビュー画像を生成するためにローカルで処理されることができる3D画像データを含み、他の場合には、ユーザに提示するためのビュー画像を直接含むことができる。

多くの実施形態では、センサ入力プロセッサ201はクライアント101に含まれ、受信機203はサーバ103に含まれてもよい。したがって、クライアント101は、例えばVRヘッドセットから入力データを受信し、処理して、単一の結合された注視表示を生成し、次いで、これは受信機203に送信されることができる。いくつかの実施形態では、クライアント101は、（おそらく部分的に処理された）センサ入力または個々の眼球ポーズおよび頭部ポーズデータをサーバ103に直接転送することができ、それによって、サーバ103は結合された注視表示を決定することができる。実際、注視表示は、例えばシーン内の位置を示す単一の値またはベクトルとして生成されることができ、または、例えば、頭部ポーズおよび相対的眼球ポーズの別個の表現などの別個のパラメータの組合せによって表されることができる。

視覚的注意プロセッサ205は、それぞれの実施形態において、視覚的注意領域を選択するために、異なるアルゴリズムおよび基準を使用することができる。いくつかの例では、それは、シーン内の三次元の視覚的注意領域を定義することができ、具体的には、注視表示によって示される注視点の位置を含むか、またはそれを中心とする、シーン内の所定の領域として視覚注意領域を決定することができる。

例えば、注視表示は例えば、直交座標（x, y, z）または極座標（方位角、仰角、距離）として与えられる、シーン内の点を直接示すことができる。次いで、視覚的注意領域は、注視点を中心とする所定のサイズのプリズムとして決定されてもよい。

しかしながら、多くの実施形態では、視覚的注意プロセッサ205は、注視表示に対応するシーンの内容に応じて視覚的注意領域を決定するように構成される。

視覚的注意プロセッサ205は、多くの実施形態では、注視点の周りのシーンを評価することができる。例えば、視覚的注意プロセッサ205は、例えば、同じ色及び/又は強度のような同じ視覚的特性を有する注視点の周りの領域を特定することができる。そして、この領域を視覚的注意領域と見なすことができる。具体例として、注視点は、現在の視点位置（例えば、頭部ポーズによって示される頭部位置）に対する三次元ベクトルとして提供されてもよい。視覚的注意プロセッサ205は、頭部ポーズに基づいてキャプチャされた3D画像を選択し、3D画像のキャプチャ点に対する注視点を決定することができる。そして、決定された注視点に対応する3D画像の一部を決定し、これが視覚的に均一な領域の一部であるかどうかを評価することができる。その場合、この領域は、例えば最大サイズを受ける視覚的注意領域として決定されることができる。

多くの実施形態では、視覚的注意プロセッサ205は、シーンオブジェクトに対応する視覚的注意領域を決定することができる。例えば、注視点がそのようなオブジェクトに十分に近い場合、またはそのようなオブジェクトの位置に直接一致する場合、視覚注意プロセッサ205は、視覚注意領域をそのオブジェクトに対応するように設定してもよい。

いくつかの実施形態では、システムは例えば、人物のシーン内の位置の明示的な情報など、シーンオブジェクトの明示的な情報を有する場合がある。注視点が人物に十分に近いことが検出された場合、観察者はこの人物を事実上見ていると仮定することができ、したがって、視覚的注意プロセッサ205は、視覚的注意領域を人物に対応するように設定することができる。例えば、人物の大まかな輪郭が（例えば、モデルベースのアプローチを使用するVRシステムによって）知られている場合、視覚的注意プロセッサ205は、人物を含む境界ボックスとして視覚的注意領域を決定することができる。そのようなボックスのサイズは人物全体がボックス内にあることを保証するように選択されることができ、例えば、所望の視角（例えば、5°）に対応するように決定されてもよい。

別の例として、シーンデータが異なるキャプチャポイントからの3D画像データから構成される場合、視覚的注意プロセッサ205は、例えば、注視点に対応し、均一な色を有し、狭い/制限された奥行き範囲内にある領域として、シーンオブジェクトを動的に決定することができる。例えば、視覚的注意プロセッサ205は、キャプチャされた画像データ内の顔を自動的に検出することができる顔検出を含むことができる。次いで、視覚的注意領域は、この動的に検出されたシーンオブジェクトに対応するように設定されることができる。

多くの実施形態では、視覚的注意プロセッサ205は、シーン内のシーンオブジェクトの動きを追跡するように構成されたトラッカをさらに備えることができ、視覚的注意領域は追跡された動きに応じて決定されることができる。これは、適切な視覚的注意領域のより正確な決定を提供し得る。例えば、オブジェクトがシーン内で動いている（例えば、自動車が走っている、ボールが動いているなど）ことが知られるか、または推定され得る。この運動の特性は、既知であってもよく、推定されてもよい。具体的には、シーン内のオブジェクトの方向および速度が決定されることができる。視覚的注意プロセッサ205がこの移動するオブジェクトに対応する視覚的注意領域を決定した場合、視覚的注意プロセッサ205は次に、その動きを追跡して、これが注視表示の変化に一致するかどうかを確認することができる。一致する場合には、観察者がそのオブジェクトを見ていて、その動きを目で追い、オブジェクトを追跡していると仮定され、視覚的注意領域はオブジェクトに対応するように維持される。しかしながら、注視表示がオブジェクトの動きに従わない場合、視覚的注意プロセッサ205はオブジェクトが視覚注意領域として適していないと判断し、したがって、異なる視覚的注意領域を選択することに進むことができ、又は現在維持されている視覚的注意がないと判定し、従って、視覚注意領域を決定することが適切でないと判断することができる（その場合、高品質の視覚的注意領域の画像データ及び低品質の視覚的注意領域ではない画像データが送信されるときに対応する総データレートでタイル全体を中間解像度で送信することができる）。

このアプローチは、追加の時間的一貫性を提供することができ、視覚的注意プロセッサ205が、ユーザの注意をより厳密に反映する視覚的注意領域を決定することを可能にすることができる。

多くの実施形態では、視覚的注意プロセッサ205は、以前の注視表示および/または観察者ポーズについて決定された視覚的注意領域を考慮することによって、視覚的注意領域を決定するように構成されてもよい。例えば、現在の視覚的注意領域は、以前の注意領域と一致するように決定されてもよい。特定の場合として、視覚的注意領域の決定は、典型的にはローパスフィルタリング効果を受けてもよく、すなわち、以前の注視表示とあまり異ならない限り、以降の注視表示のための視覚的注意領域として同じシーン領域が選択されてもよい。

システムは、注視点の変化とオブジェクトの動きとの間の相関が（適切な基準に従って）十分に密接に一致する限り、視覚的注意領域が例えばシーンオブジェクトにリンクされる「スナップ」効果を提供することができる。視覚的注意領域としてのシーンオブジェクトのこの選択は、例えば、注視点が別のオブジェクトにより近いことが検出された場合であっても、続行することができる。しかしながら、注視点がシーンオブジェクトの動きに関する相関要件を満たさない場合、視覚的注意プロセッサ205は、視覚的注意領域を別のシーンオブジェクト（典型的には最も近いシーンオブジェクト）に対応するように変更することができ、または視覚的注意領域を現在の注視点の周りの所定の領域に設定することができる（または実際に、特定の視覚的注意領域が現在存在しない（例えば、ユーザがシーン/ビューポートを迅速にスキャンしていることに対応する）と判定することができる）。

いくつかの実施形態では、視覚的注意プロセッサ205は、視覚的注意領域の動きと注視表示の変化との間の相関に応じて、視覚的注意領域の信頼度を決定するように構成されてもよい。具体的には、注視表示によって示される注視点の変化を検出し、これらを、観察者が視覚的注意領域（例えば、視覚的注意領域に対応するオブジェクト）の動きを追跡している場合に生じるのであろう注視点の変化と比較することによって、観察者が実際にこのオブジェクト/領域に視覚的注意を集中させている可能性がどの程度あるかを示す尺度を決定することができる。相関が高い場合、例えば、ビューポーズから見たときのオブジェクト位置の変化が、注視点における対応する動きと一致する場合、観察者が実際に対応するオブジェクトに注意を集中させている可能性が高く、視覚的注意領域信頼値を高く設定することができる。相関が低い場合、信頼値はより低く設定されることができる。実際に、多くの実施形態では、相関度を決定し、信頼度として直接使用することができる（または例えば、信頼度は相関度の単調増加関数として決定することができる）。

そのような実施形態では、画像データ生成器209は、決定された信頼度に基づいて、視覚的注意領域に対して、例えばデータレートによって表されるような品質レベルを設定するように配置されてもよい。具体的には、増加する信頼度に対して品質レベルを高めることができる（例えば、単調関数を使用して、視覚的注意領域の画像データの空間データレートおよび/または時間データレートを決定することができる）。

これは、観察者が特定の領域/オブジェクトに焦点を合わせている可能性が高いと装置が判定した場合に、これが非常に高品質で表示され、通常はビュー画像/ビューポートのほとんどが実質的に低品質である動作を提供することができる。しかしながら、代わりに、ユーザが検出された領域/オブジェクトに現在焦点を合わせている確率が低いと考えられる場合、領域/オブジェクトと画像/ビューポートの残りの部分との間の品質差は、大幅に低減され得る。実際には、信頼度が十分に低い場合、画像データ生成器209は、視覚的注意領域のためのデータと生成されたデータの残りの部分との品質レベルが実質的に同じになるように設定することができる。これは、観察者が検出された視覚的注意領域に焦点を制限していない場合に生じ得る知覚される品質「ちらつき」を低減し得る。また、一定のデータレート制限がある場合には、例えば、視覚的注意領域のデータレートを低減して、タイル/ビューポートの残りの部分のデータレートを増大させることができる。

多くの実施形態では、画像データ生成器209は、例えば、視覚的注意領域の画像データに関連する高品質レベルと、視覚的注意領域ではない画像データに関連する低品質レベルとの間など、信頼度に応じて２つの品質レベル間で切り替えるように構成されてもよい。しかしながら、多くの実施形態では、画像データ生成器209は、信頼度に応じて多くの異なる品質レベル間を切り替えるように構成されてもよい。

多くの実施形態では、視覚的注意プロセッサ205は、シーンに対する記憶されたユーザ観察挙動に応じて視覚的注意領域を決定するように構成されてもよい。記憶されたユーザ観察挙動は、シーンの以前のビューについての頻度/分布を反映することができ、具体的には、シーンの以前のビューについての注視点の空間頻度分布を反映することができる。注視点は例えば、完全な三次元位置、方向、または例えば距離などの１つまたは複数のパラメータによって反映され得る。

いくつかの実施形態では、装置は、シーン内のユーザの注視点を監視および追跡し、ユーザが最も頻繁に見ている場所を決定するように構成されることができる。一例として、視覚的注意プロセッサ205は、注視点が個々のオブジェクトに十分に近い時間を決定することによって評価される、ユーザが特定のシーンオブジェクトを見ていると考えられる頻度を追跡することができる。具体的には、個々のシーンオブジェクトが視覚的注意領域としてどのくらいの頻度で選択されるかを監視することができる。視覚的注意プロセッサ205は、そのような実施形態では例えば、各シーンオブジェクトについて、個々のシーンオブジェクトが視覚的注意領域として選択された回数の現在の合計を保持することができる。

視覚的注意領域を決定するとき、視覚的注意プロセッサ205は、記憶されたユーザ観察挙動を考慮することができ、視覚的注意領域の選択/決定を、より高い視聴頻度を有する領域/オブジェクトに向けて特にバイアスすることができる。例えば、所与の観察者ポーズおよび注視点に対して、視覚的注意プロセッサ205は、適切なビューポートを決定し、このビューポート内のいくつかの潜在的な候補シーンオブジェクトを特定することができる。次に、注視点が個々のシーンオブジェクトにどれだけ近いか、およびシーンオブジェクトが視覚的注意領域として以前にどれだけ頻繁に選択されたかに応じて、オブジェクトのうちの1つを視覚的注意領域として選択することができる。「人気のある」シーンオブジェクトへのバイアスは、注視点に最も近いオブジェクトではないが、最も近いオブジェクトよりも可能性の高い候補であるシーンオブジェクトが選択される結果となり得る。

異なるアプローチおよびアルゴリズムを使用して、異なる実施形態における以前のユーザ挙動を考慮することができる。例えば、注視点までの距離と以前の観察挙動を示す頻度尺度との両方に依存し、具体的には、シーンオブジェクトが視覚的注意領域として以前にどれくらいの頻度で選択されたかに依存する、各シーンオブジェクトについてのコスト尺度を決定することができる。次いで、視覚的注意プロセッサ205は、最も低いコスト尺度を有するシーンオブジェクトを視覚的注意領域として選択することができる。

したがって、視覚的注意プロセッサ205は、記憶されたユーザ観察挙動がより低い観察頻度を示すシーンの領域よりも、記憶されたユーザ観察挙動がより高い観察頻度を示すシーンの領域に向けて、視覚的注意領域を偏らせることができる。そのようなアプローチは、改善されたユーザ体験と、ユーザの実際の視覚的焦点に対応する可能性がより高い視覚的注意領域の選択とをもたらすことができる。

ユーザの観察動作は、同じVRセッション中および同じユーザの観察動作を反映している場合がある。したがって、視覚的注意プロセッサ205は、例えば、どのシーンオブジェクトが視覚的注意領域として選択されるかを示すデータを記憶することができる。次いで、視覚的注意領域の後続の選択は、後続の選択のために個々のシーンオブジェクトの選択の頻度を考慮に入れることができる。

いくつかの実施形態では、観察挙動は、以前のVRセッションの挙動を反映することができ、実際には、複数のユーザの観察挙動を反映することができる。例えば、視覚的注意ロセッサ205は、図1のサーバ103に実装され、したがって多くの異なるユーザに役立つ実施形態では、すべてのユーザおよびすべてのVRセッションのための個々のシーンオブジェクト（またはより一般的には領域）の選択が、記憶される観察挙動データに反映されてもよい。したがって、視覚的注意領域の選択は、例えば、シーンデータにアクセスするときの以前の統計的ユーザ挙動に応じてもよい。

多くの実施形態では、視覚的注意プロセッサ205は、予測される視覚的注意領域をさらに決定するように構成されてもよい。予測される視覚注意領域は、観察者の推定される将来の視覚的注意を示し、したがって、現在の注視点に特に対応せず、代わりに、予想される将来の注視点に対応することができる。したがって、予測される視覚的注意領域は、将来選択される可能性がある視覚的注意領域の指示/推定であり得る。

視覚的注意プロセッサ205は、シーンの異なる領域間、具体的には異なるシーンオブジェクト間の以前の観察挙動関係を示す関係データに応じて、予測される視覚的注意領域を決定することができる。

本発明者らは、多くのアプリケーションにおいて、コンテンツの異なる部分の間に典型的な又はより頻繁なシフトが存在し、そのようなユーザ挙動を記録し、改善された性能を提供するために使用することができることを認識した。

視覚的注意プロセッサ205は、具体的には、予測される視覚的注意領域のための追加の画像データを含めることができ、この場合、この画像データは、予測される視覚的注意領域の外側よりも高い品質レベルである。特に、現在の視覚的注意領域のための画像データを提供するための前述のアプローチが、予測される視覚的注意領域のための画像データを提供するために適用されてもよい。したがって、いくつかの実施形態では、画像データ生成器209は、品質レベルが実質的により高くなり得る現在および予測される視覚的注意領域に対応するエリアを除いて、所与のタイルについて所与の品質の画像データを含むデータストリームを生成することができる。

視覚的注意プロセッサ205は、現在の視覚的注意領域のビューと予測される視覚的注意領域のビューとの間の高い観察相関を示す関係データに応じて、予測される視覚的注意領域を決定することができる。

関係データは、典型的には、シーンにアクセスする観察者による以前の注視シフトを示すことができ、視覚的注意プロセッサ205は、視覚的注意領域から基準を満たす第1の領域への注視シフトの注視シフト頻度を関係データが示す領域として、予測される視覚的注意領域を決定することができる。基準は、典型的には、注視シフト頻度が、閾値を超えること、または、例えば、視覚的注意領域から近いシーンオブジェクトへの注視シフト頻度の組の最高頻度であることを必要とし得る。

一例として、多数のVRセッション中に、視覚的注意プロセッサ205は、ユーザが自分の焦点をどのように変化させるかを反映するデータを収集してもよい。これは、例えば、どのシーンオブジェクトが視覚的注意領域として選択され、特にどの選択変更が発生するかを記憶することによって行われ得る。所与のシーンオブジェクトに対して、視覚的注意プロセッサ205は、所与の距離内の互いのシーンオブジェクトについて、当該所与のシーンオブジェクトからそのシーンオブジェクトへの選択の変化が生じたときはいつでも、記録することができる。この所与のシーンオブジェクトが現在の視覚的注意領域として選択されると、視覚的注意プロセッサ205は、次に最も頻繁に選択されるシーンオブジェクトである、すなわちユーザの視覚的注意が典型的に切り替えられる第２のシーンオブジェクトを特定するために、記憶されたデータの評価に進むことができる。

次いで、視覚的注意プロセッサ205は、現在の視覚的注意領域および予測される視覚的注意領域の両方について、特に高品質のデータを送信することに進むことができる。その結果、ユーザの現在の視覚的焦点、ならびにユーザの予測される/予想される次の視覚的焦点に対して、特定の高品質を有するビュー画像が、ユーザのために生成され得る。実際に、ユーザが視覚的焦点の予想される変化を行う場合、ユーザは、画像全体の高品質を、いかなるラグ又は遅延もなく、直接的に知覚する。

具体的な例として、ユーザがスタンドに座っている観客であるという経験を提供される、テニス試合の没入型および埋め込み型の観客経験の形態のVR経験を考えることができる。このシナリオでは、ユーザが自分の位置または頭の向きを変更して、例えば、見回したり、異なる位置に移動したりすることができる。この例では、シーンオブジェクトが2人のプレーヤ、アンパイア、ネット、ボールボーイまたはガールなどに対応することができる。

そのようなアプリケーションでは、観察挙動データを生成することは、2人のプレーヤに対応するシーンオブジェクトが視覚的注意領域として非常に頻繁に選択されること、すなわち、ユーザフォーカスが主にプレーヤにあることを示すことになる可能性が高い。したがって、視覚的注意プロセッサ205は、注視点が例えばネットまたはボールボーイにより近いことを注視表示が示す場合であっても、プレーヤオブジェクトのうちの1つを視覚的注意領域として選択する可能性がより高くなり得る。

さらに、関係挙動は、視覚的注意領域がしばしば第1のプレーヤから第2のプレーヤに、およびその逆に切り替えられることを反映することができる。したがって、視覚的注意プロセッサ205は、第1のプレーヤオブジェクトが現在の視覚的注意領域として選択された場合、第2のプレーヤオブジェクトを予測される視覚的注意として決定することができ、その逆も同様である。次いで、画像データ生成器209は、現在のビューポーズに対応するタイルに対して所与の品質を有するが、小さな領域に対しては実質的により高い品質を有するように画像データを生成することができる。同様に、画像合成器211は、品質が実質的に高いプレーヤの周りの非常に小さい領域（例えば、第1のプレーヤ及び第2のプレーヤの周りで5°未満）を除いて、所与の品質を有するビュー画像を生成することができる。従って、ユーザの注視が異なるプレーヤ間で切り替わるときに、一貫して高い品質がユーザによって知覚される。

このアプローチは、観察者のポーズの変化と一致することにも留意されたい。具体的には、観察者ポーズがある位置から別の位置に変更される場合、例えば、ユーザがゲームを見るスタンド内の異なる位置を選択することに対応する場合、視覚的注意領域を選択することに関するデータは依然として有用である。具体的にはユーザが一方のプレーヤから他方のプレーヤへ、すなわちプレーヤシーンオブジェクト間で頻繁に注視を変更することを示す関係データと同様に、プレーヤに対応するシーンオブジェクトが視覚的注意領域の強力な候補であることを示す以前のデータは依然として重要である。もちろん、特定のビュー画像への視覚的注意領域の投影は、ビューポートの変化に従って変化する。

いくつかの実施形態では、視覚的注意プロセッサ205が視覚的注意領域に対応するシーンオブジェクトの動きデータに応じて予測される視覚的注意領域を決定するように構成されてもよい。予測される視覚注意領域は、例えば、シーンオブジェクトが移動していく領域として決定されてもよく、すなわち、それは、シーンオブジェクトの推定されるまたは予測されされる将来の位置に対応してもよい。このアプローチは、例えば現在の視覚的注意領域を連続的に更新して対応する高品質データを送信することが遅延または許容できない遅れをもたらす可能性があるほど速く移動している可能性がある高速移動オブジェクトをユーザが追跡している場合に、改善された性能を提供することができる。例えば、ユーザがフットボールゲームでボールを追跡している場合、ボールがゆっくりと動いている（例えば、パスしている）場合には、対応するオブジェクトを連続的に追跡し、小さな周囲領域について高品質データを送信するアプローチが適切であり得るが、ボールが速く動いている（例えば、シュートまたはゴールキック）場合には、適切ではないだろう。後者の場合、システムは例えば、ボールがゴールに当たることを予測することができ、その結果、ゴールエリアについての高品質データを、ボールがゴールに到達する前に送信することができる。

前の例は、所与のより高い画質が視覚的注意領域（または予測される視覚的注意領域）に対応する領域に対して選択され、所与のより低い画質が（例えば、ビューポートの）他の領域に対して選択される実施形態に焦点を当てた。しかしながら、多くの実施形態では、品質の漸進的な変化を適用することができる。

例えば、視覚的注意領域に対応するビュー画像内の焦点を特定することができ、ビュー画像内の画像領域の品質は、画像領域が焦点に近いほど高くすることができる。例えば、ビュー画像の符号化は、MPEGのような多くの符号化スキームから知られているようなマクロブロックに基づいてもよい。各マクロブロックに割り当てられるビットの数（したがって、マクロブロックの品質）は、マクロブロックと焦点との間の距離の関数として決定され得る。この関数は、距離の増加に伴って単調に減少し、したがって、品質は、マクロブロックが焦点に近いほど確実に増加する。関数の特性は、所望の漸進的な品質分布を提供するように選択されることができることが理解されよう。例えば、関数は、ガウス品質/ビット割り当て分布を提供するように選択することができる。

いくつかの実施形態では、以下が提供される：

シーンのビューを表す画像データストリームを生成する装置であって、当該装置は、
観察者の頭部ポーズおよび相対的眼球ポーズの両方を示す注視表示を受信するための受信機（203）であって、頭部ポーズは頭部の位置を示し、相対的眼球ポーズは頭部ポーズに対する眼のポーズを示す、受信機と、
注視表示に対応するシーン内の視覚的注意領域を決定するための決定器（205）と、
シーンの画像データを構成する画像データストリームを生成するための生成器（２０９）とを有し、前記画像データは、前記視覚的注意領域のための第１画像データと、前記視覚的注意領域外のシーンのための第２画像データとを少なくとも含むように生成され、生成器（２０９）は、第１画像データの品質レベルが第２画像データの品質レベルよりも高くなるように画像データを生成するように構成されている。

シーンのビューを表す画像データストリームを生成する方法であって、当該方法は、
観察者の頭部ポーズと相対的眼球ポーズとの両方を示す注視表示を受信するステップであって、頭部ポーズは頭部の位置を含み、相対的眼球ポーズは頭部ポーズに対する眼のポーズを示す、ステップと、
注視表示に対応するシーン内の視覚的注意領域を決定するステップと、
シーンの画像データを有するように画像データストリームを生成するステップとを有し、前記画像データは、前記視覚的注意領域のための第１画像データと、前記視覚的注意領域外のシーンのための第２画像データとを少なくとも含むように生成され、前記画像データは、前記第１画像データの品質レベルが前記第２画像データの品質レベルよりも高いことを特徴とする。

明確にするための上記の説明は、異なる機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニットまたはプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的構造または編成を示すのではなく、説明された機能を提供するための適切な手段への言及としてのみ見なされるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の要素およびコンポーネントは、任意の適切な方法で物理的、機能的および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路およびプロセッサの間で物理的および機能的に分散されてもよい。

本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、或る特徴が特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する（comprising）」という用語は、他の要素又はステップの存在を排除するものではない。

さらに、個別に列挙されているが、複数の手段、素子、回路または方法ステップが、例えば単一の回路、ユニットまたはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれている場合があるが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではない及び/又は有利ではないことを意味しない。また、或る特徴を請求項の1つのカテゴリに含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリに等しく適用可能であることを示す。さらに、請求項における特徴の順序は、当該特徴が動作しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、当該ステップがこの順序で実行されなければならないことを意味するものではない。むしろ、ステップは任意の適切な順序で実行されることができる。さらに、単数への言及は複数を除外しない。従って、「a」、「an」、「第1」、「第2」等への言及は複数を排除するものではない。請求項中の参照符号は、単に明確な例として提供されているにすぎず、請求項の範囲を何らかの態様で限定するものと解釈してはならない。

Claims

三次元シーンのビューを表す画像データストリームを生成するための装置であって、
観察者の頭部ポーズ及び相対的眼球ポーズの両方を示す注視表示を受信するための受信機であって、前記頭部ポーズが頭部位置を含み、前記相対的眼球ポーズが前記頭部ポーズに対する眼球のポーズを示す、受信機と、
前記注視表示に対応する前記三次元シーンの三次元位置を持つ視覚的注意領域を決定するための決定器と、
前記シーンのための画像データを含む前記画像データストリームを生成するための生成器と、
を有し、
前記画像データは、前記視覚的注意領域のための第1画像データと、前記視覚的注意領域の外の前記シーンのための第2画像データとを少なくとも含むように生成され、前記生成器は、前記第１画像データが前記第2画像データよりも高い品質レベルを持つように前記画像データを生成するように構成され、
前記決定器が、前記注視表示の注視距離表示に応じて前記視覚的注意領域を決定するように構成される、装置。
前記決定器が、少なくとも１つの方向において前記頭部ポーズに対して１０°以下の広がりを持つように前記視覚的注意領域を決定するように構成される、請求項１に記載の装置。
前記視覚的注意領域がシーンオブジェクトに対応する、請求項１又は請求項２に記載の装置。
前記決定器が前記シーン中の前記シーンオブジェクトの動きを追跡し、追跡された前記動きに応じて前記視覚的注意領域を決定するように構成される、請求項３に記載の装置。
前記決定器が、前記シーンのために記憶された観察者の観察挙動に応じて前記視覚的注意領域を決定するように構成される、請求項１乃至請求項４のいずれか一項に記載の装置。
前記決定器が、前記記憶された観察者の観察挙動が高い観察頻度を示す前記シーンの領域に向けて前記視覚的注意領域をバイアスするように構成される、請求項５に記載の装置。
前記決定器が、前記シーンのそれぞれの領域間の前の観察挙動関係を示す関係データに応じて、予測される視覚的注意領域を決定するように構成され、前記生成器が、前記予測される視覚的注意領域のための第３画像データを前記画像データストリームに含めるように構成され、前記生成器が、前記予測される視覚的注意領域の外の前記第２画像データよりも前記第３画像データが高い品質レベルを持つように前記画像データを生成するように構成される、請求項１乃至請求項６のいずれか一項に記載の装置。
前記関係データが少なくとも１人の観察者による以前の注視シフトを示し、前記決定器が、前記シーンの第１領域として前記予測される視覚的注意領域を決定するように構成され、前記第１領域は、前記視覚的注意領域から当該第１領域への注視シフトの頻度が閾値を超えることを前記関係データが示す領域である、請求項７に記載の装置。
前記決定器が、前記視覚的注意領域に対応するシーンオブジェクトの動きデータに応じて予測される視覚的注意領域を決定するように構成され、前記生成器が、前記予測される視覚的注意領域のための第３画像データを含めるように構成され、前記生成器が、前記予測される視覚的注意領域の外の前記第２画像データよりも前記第３画像データが高い品質レベルを持つように前記画像データを生成するように構成される、請求項１乃至請求項８のいずれか一項に記載の装置。
前記生成器が、前記頭部ポーズのためのビューポートに対応する画像を有するビデオデータストリームとして前記画像データストリームを生成するように構成される、請求項１乃至請求項９のいずれか一項に記載の装置。
前記決定器が、前記シーン中の前記視覚的注意領域の動きと前記注視表示の変化との間の相関に応じて前記視覚的注意領域の信頼度を決定するように構成され、前記生成器が、前記信頼度に応じて前記第１画像データの品質を決定するように構成される、請求項１乃至請求項１０のいずれか一項に記載の装置。
前記シーンのためのアプリケーションを実行するように構成されたプロセッサをさらに有し、前記アプリケーションは、前記注視表示を生成し、前記画像注視表示からの前記観察者のビューポートに対応する画像をレンダリングするように構成される、請求項１乃至請求項１１のいずれか一項に記載の装置。
遠隔クライアントから前記注視表示を受信し、前記遠隔クライアントに前記画像データストリームを送信するように構成される、請求項１乃至請求項１２のいずれか一項に記載の装置。
前記生成器が、前記頭部ポーズに応じて前記画像データのためのビューポートを決定し、前記ビューポートに応じて前記第１画像データを決定するように構成される、請求項１に記載の装置。
三次元シーンのビューを表す画像データストリームを生成する方法であって、
観察者の頭部ポーズ及び相対的眼球ポーズの両方を示す注視表示を受信するステップであって、前記頭部ポーズが頭部位置を含み、前記相対的眼球ポーズが前記頭部ポーズに対する眼球のポーズを示す、ステップと、
前記注視表示に対応する前記三次元シーンの三次元位置を持つ視覚的注意領域を決定するステップと、
前記シーンのための画像データを含む前記画像データストリームを生成するステップと、
を有し、
前記画像データは、前記視覚的注意領域のための第1画像データと、前記視覚的注意領域の外の前記シーンのための第2画像データとを少なくとも含むように生成され、前記第１画像データが前記第2画像データよりも高い品質レベルを持ち、
前記視覚的注意領域の決定が、前記注視表示の注視距離表示に応じて前記視覚的注意領域を決定することを含む、方法。