JP7465067B2

JP7465067B2 - 仮想オブジェクトを表示するための方法およびシステム

Info

Publication number: JP7465067B2
Application number: JP2019115531A
Authority: JP
Inventors: エルワンダミエンウベルティデイビッド
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-06-22
Filing date: 2019-06-21
Publication date: 2024-04-10
Anticipated expiration: 2039-06-21
Also published as: JP2020004407A; US20190392642A1; CN110633009A; EP3588448A1; GB201810270D0; CN110633009B; GB2574882A; EP3588448B1; GB2574882B; US10902681B2

Description

本開示は、仮想オブジェクトを表示するための方法およびシステムに関する。

多くのディスプレイ装置が、ユーザが拡張現実を体験することを可能にする。典型的には、これらの装置は、スマートフォンまたはヘッドマウントディスプレイ（ＨＭＤ）の形態であり、ユーザの物理的な現実世界の環境のライブビューをキャプチャするためにカメラを使用する。このビューに仮想オブジェクトを重ね合わせることによって、ユーザは、それらの仮想オブジェクトがユーザの現実世界の環境に存在しているかのように見える迫真性を体験することができる。

さらに最近では、拡張現実は、いわゆる「複合現実」の形態へとさらなる一歩を進めている。複合現実は、ユーザの物理的な環境の物理的な境界または表面が、その環境内に仮想オブジェクトを表示するときに考慮される点で、拡張現実と異なる。例えば、単に仮想オブジェクトがユーザのビューに重ねられるのではなく、仮想オブジェクトが、あたかも現実世界の物理的な表面に載っており、現実世界の環境においてその表面の位置に対応する深度を有しているかのように現れることができる。

複合現実のいくつかのバージョンにおいては、ユーザの現実世界のビューが、仮想現実のビューによって完全に見えなくなる可能性があるが、仮想現実自体は、現実世界の環境内の１つ以上の物理的な境界または表面の表現を含むことができる。

一般に、拡張現実または複合現実において仮想オブジェクトを表示する場合、それらのオブジェクトの見え方の現実感は、ユーザの現実世界の環境のさまざまな側面に依存する。これらは、例えば、現実世界の環境の照明条件、何らかの（現実の）物理的物体、表面、または境界の存在を含むことができる。環境についてのユーザのビューが変化するとき、環境のこれらの側面も変化する可能性があり、したがって仮想オブジェクトをレンダリングするときに考慮される必要がある。

既知のシステムにおいては、環境についてのユーザの視点の変化を検出するために、通常は、リアルタイムでビデオ画像を処理することが必要である。これは、必要とされる処理に関して、いささか過酷になる可能性がある。多くの場合、変化の検出と、それらの変化を考慮に入れた仮想オブジェクトのレンダリングとの間に、遅延が存在する。この遅延が、現実世界の環境に同期していないように見える仮想オブジェクトの表示として現れることがある。例えば、仮想オブジェクトが、誤った照明で表示される可能性があり、あるいはユーザのビュー内に存在する他の物体に対して誤った深度で現れる可能性がある。全体として、これは、ユーザのエクスペリエンスの没入を損なう可能性があり、ユーザにとって最適でないエクスペリエンスにつながる。

本発明は、これらの問題を軽減または少なくとも緩和しようと試みる。

本明細書に開示される第１の態様によれば、請求項１に記載のシステムが提供される。

本明細書に開示される第２の態様によれば、請求項１３に記載の仮想オブジェクトの表示方法が提供される。

本開示の理解を助け、実施形態をどのように実施できるかを示すために、添付の図面を、あくまでも例として参照する。
本発明によるＨＭＤの一例を概略的に示している。本発明によるモバイルデバイスの一例を概略的に示している。単一のビデオカメラを使用するディスプレイ装置を概略的に示している。２つのビデオカメラを使用するディスプレイ装置を概略的に示している。本発明のディスプレイ装置によってキャプチャされた画像の一例を概略的に示している。拡張現実画像の一例を概略的に示している。本発明によるシステムの一例を示している。仮想オブジェクトを表示する方法のフロー図を示している。

図１は、本発明によるディスプレイ装置２０の一例を概略的に示している。

図１において、ディスプレイ装置２０は、ユーザの頭部３０に装着されたヘッドマウントディスプレイ（ＨＭＤ）として示されている。ＨＭＤは、ＨＭＤをユーザの頭部に固定するためのストラップ４０と、画像をユーザへと表示するための表示部５０とを備える。画像は、例えば、仮想オブジェクトまたは仮想環境に対応し得る。

図１では、表示部５０は、周囲の環境についてのユーザのビューを完全に見えなくするものとして示されている。この例において、ユーザは、（表示部５０において）ＨＭＤ内に表示された１対の画像だけを見ることが可能であってよい。他の例においては、外部環境についてのユーザのビューが、表示部５０によって完全には見えなくされていなくてもよい。例えば、画像を、（ユーザの視点から）外部環境へと重ね合わせられるように配置することができる。これは、厳密な仮想現実とは対照的に、ユーザに「拡張」現実の体験をもたらすことができる。

図１において、フレーム４０は、後部ストラップおよび上部ストラップを備えるものとして図示されている。他の例において、フレーム４０は、従来からの眼鏡に関するフレームに、より類似していてもよい。例えば、フレーム４０は、表示部５０からユーザの耳の上部後方まで延び、おそらくは耳の後ろへと下方に曲がる実質的に水平なレッグを有することができる。これは、例えば、ユーザが表示部５０を介して外部環境の少なくとも一部を見ることができる場合であってよい。換言すると、表示部５０が、画像が投影される透明または部分的に透明な表面を含む場合である。

いくつかの例において、ＨＭＤは、別個のコンピューティングデバイスと通信することができる。別個のコンピューティングデバイスは、ビデオ信号源として機能することができ、ビデオ信号をＨＭＤへと送信するように構成されてよい。これらの例において、ＨＭＤを、別個のビデオ信号源からビデオ信号を受信して表示するように構成することができる。外部のビデオ信号源は、例えば、ゲーム機であってよい。他の例において、ＨＭＤは、別個のコンピューティングデバイスから表示用の画像を受信するのではなく、表示用の画像を生成するように動作可能であってよい。

さらに、図１において、ＨＭＤは、ユーザの左右の耳７０にフィットするヘッドホンイヤピース６０を含むものとして示されている。イヤピース６０は、内部または外部の供給源からもたらされるオーディオ信号を再生する。例えば、ＨＭＤは、ゲーム機などの他のコンピューティングデバイスと通信でき、イヤピースを、ゲーム機から受信したオーディオ信号を出力するように構成することができる。他の例においては、ＨＭＤ自体を、オーディオ信号の外部の供給源から受信するのではなく、オーディオ信号を生成するように構成することができる。いくつかの例において、ＨＭＤは、オーディオ信号をキャプチャするための１つ以上のマイクロフォン（図示せず）を含むことができる。

さらに、図１に示されるＨＭＤは、ビデオカメラ９０を備えるものとして示されている。図１において、ビデオカメラ９０は、ＨＭＤに取り付けられ、ユーザの目の上方かつ（ほぼ）ユーザの額の中心に位置するように図示されている。いくつかの例においては、ビデオカメラ９０を、ビデオカメラ９０のレンズをＨＭＤの外面に露出させつつ、ＨＭＤと一体的に形成することができる。一般に、ビデオカメラ９０は、環境のうち、本来であればユーザの視野内に入ると考えられる環境の範囲を含み、かつそれよりも大きい領域を、キャプチャするように配置される。

ビデオカメラ９０によってキャプチャされたビデオ画像を、表示部５０に表示することができる。例えば、外部環境についてのユーザのビューは、環境についてキャプチャされたビデオ画像に対応することができる。これは、例えば、環境についてのユーザのビューが表示部５０によって完全に見えなくされている場合であってよい。他の例においては、ユーザが、（ディスプレイ要素の透明性ゆえに）ディスプレイ要素を通して環境を見ることが可能であり、キャプチャされたビデオ画像を表示部５０に表示する必要がなくてよい。（両方の例における）ビデオ画像の使用は、図３Ａおよび図３Ｂに関連して後で説明される。

いくつかの例において、ＨＭＤは、２つのビデオカメラを備えることができる。これらの例において、各々のビデオカメラ９０は、環境の異なる領域をキャプチャするように配置される。すなわち、各々のカメラ９０を、環境の異なる領域が各々のビデオカメラ９０の視野内に入るように、ＨＭＤ上またはＨＭＤ内に配置することができる。ビデオカメラのうちの１つを、ユーザの視野をカバーするビデオ画像をキャプチャするように、ＨＭＤ上またはＨＭＤ内の中心位置に配置することができる。他方のビデオカメラ９０（図示せず）を、まだユーザの視野内にない環境の領域をキャプチャするように、第１のビデオカメラ９０の側方に配置することができる。いくつかの例においては、２つのカメラを、外部環境の３６０度（水平方向および／または垂直方向）のビューをもたらすように配置することができる。

図２が、本発明によるディスプレイ装置２０の第２の例を概略的に示している。図２において、ディスプレイ装置は、スマートフォンの形態のモバイルデバイスを含む。スマートフォンは、前面２０Ａと後面２０Ｂとから形成されるものとして図示されている。前面２０Ａは、画面の形態の表示部５０を含み、後面は、ビデオ画像をキャプチャするための少なくとも１つのビデオカメラ９０Ａを備える。図示の例において、ビデオカメラ９０Ａは、モバイルデバイスの後面に埋め込まれ、後面の上部中央に向かって位置するものとして図示されている。

すでに述べたように、ビデオカメラ９０Ａは、環境のうちのビデオカメラの視野内にある領域のビデオ画像をキャプチャするように構成される。モバイルデバイスを、ビデオカメラによってキャプチャされたビデオ画像をモバイルデバイスの画面に表示するように構成することができる。これは、例えば、拡張現実画像がモバイルデバイスに表示される場合であってよい。ビデオ画像を使用して、ユーザの環境のビューを、１つ以上の仮想オブジェクトをそのビューの上に（あるいは、それらのオブジェクトのオクルージョンによっては、中に）重ねて提供することができる。ビデオカメラ９０Ａが、モバイルデバイスの後面の他の場所に位置してもよいことを、理解できるであろう。

いくつかの実施形態において、モバイルデバイスは、環境の別の領域のビデオ画像をキャプチャするための第２のビデオカメラ９０Ｂを含むことができる。図２に見られるように、第２のビデオカメラは、第１のビデオカメラ９０Ａの右側に配置されているが、それ以外の点では、最上端および最下端において第１のビデオカメラ９０Ａに整列している。一般に、第２のビデオカメラ９０Ｂは、環境のうちの（現時点においては）モバイルデバイスの画面において見ることができない領域のビデオ画像をキャプチャするように配置される。

図２に示したものとは異なるビデオカメラ９０Ａ、９０Ｂの配置が本発明において採用されてもよいことを、理解できるであろう。一般に、ビデオカメラのうちの少なくとも１つは、外部環境のユーザのビューに対応するように配置され、他のビデオカメラは、環境の隣接するビューをキャプチャするように配置される。いくつかの例においては、各々のビデオカメラの視野が、部分的に重なってもよい。

図３Ａは、ディスプレイ装置２０およびディスプレイ装置２０によって使用されるビデオカメラ（図示せず）の視野の上面図を概略的に示している。

図３Ａにおいて、ディスプレイ装置２０は、方向３０４を向いているものとして図示されている。ディスプレイ装置２０は、すでに述べたように、ＨＭＤまたはモバイルデバイスに相当することができる。ディスプレイ装置２０によって使用されるビデオカメラの視野が、２つの部分を含むものとして図示されている。第１の部分３０２Ａは、環境のうち、ディスプレイ装置２０の表示部５０において（あるいは、ディスプレイ装置２０の表示部５０を通して）見ることができる／ディスプレイ装置２０の表示部５０によって提示される領域に対応する。第２の周辺部分３０２Ｂは、環境のうち、ディスプレイ装置２０において（あるいは、ディスプレイ装置２０を通して）見ることができない／ディスプレイ装置２０によって提示されない領域に対応する。したがって、図３Ａにおいて、ビデオ画像にキャプチャされた領域の全体サイズが、ディスプレイ装置２０において（あるいは、ディスプレイ装置２０を通して）見ることができる／ディスプレイ装置２０によって提示される領域のサイズよりも大きいことを、見て取ることができる。

図３Ｂは、２つのビデオカメラ９０Ａ、９０Ｂを使用するディスプレイ装置２０の上面図を概略的に示している。第１のビデオカメラ９０Ａが、視野３０２Ａを有して図示されており、第２のビデオカメラ９０Ｂが、視野３０２Ｂを有して図示されている。視野３０２Ｂは、視野３０２Ａからオフセットされており、随意により、より広くてもよい（図３Ｂには示されていない）。ディスプレイ装置２０は、すでに述べたＨＭＤまたはモバイルデバイスに相当することができる。

図３Ｂに見られるように、各々のビデオカメラ９０Ａ、９０Ｂは、環境の異なる領域（それにもかかわらず、互いに重なり合ってよいが、少なくとも一方向には異なる広がりを有する）をキャプチャするように配置される。第１のビデオカメラ９０Ａによってキャプチャされた領域は、環境のうちのディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される領域に相当することができる。第２のビデオカメラ９０Ｂによってキャプチャされた領域は、少なくとも部分的に、環境のうちのディスプレイ装置２０においては見ることができない領域に相当することができる。ビデオ画像の組み合わせは、環境のうち、ディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される環境の領域よりも大きい領域をカバーする。

図３Ｂにおいて、ビデオカメラ９０Ａ、９０Ｂは、ディスプレイ装置２０の両端に配置されているものとして図示されている。これは、２つのビデオカメラ９０Ａ、９０Ｂの異なる視野３０２Ａ、３０２Ｂを強調するためのものである。実際には、ビデオカメラのうちの１つを（図１および図２に示されるように）ディスプレイ装置２０内（または、ディスプレイ装置２０上）の中央位置に配置でき、他のビデオカメラ９０Ｂを第１のビデオカメラ９０Ａの片側に配置できることを、理解できるであろう。いくつかの例において、ビデオカメラ９０Ａ、９０Ｂは、各々のカメラによってキャプチャされたビデオ画像をつなぎ合わせてパノラマ画像を形成することができるように、ディスプレイ装置２０内（または、ディスプレイ装置２０上）に配置される。

図３Ｂの例において、ディスプレイ装置２０の時計方向の回転は、環境のうちの回転前に第２のビデオカメラ９０Ｂによってのみキャプチャされていた領域を指すように第１のビデオカメラ９０Ａを移動させることに相当できる。同様に、例えば左側から右側への方向へのディスプレイ装置２０の並進運動は、環境のうちの並進運動前に第２のビデオカメラ９０Ｂによってのみキャプチャされていた領域をより多く含むように第１のビデオカメラ９０Ａを移動させることに相当できる。一般に、後述の実施形態から明らかになるように、これらの種類の動きを予測できることが望ましい。

しかしながら、この例において、ディスプレイ装置２０の回転が反時計方向であり、あるいは右から左の方向に並進運動する場合、第１のビデオカメラは、以前には第２のカメラによってカバーされていなかった領域へと移動する。

この状況に対応するために、随意により、第２のカメラは、第１のカメラのＦＯＶの左側／反時計方向の領域もキャプチャするように、第１のカメラよりも広い視野を有することができ、あるいはこれに代え、もしくはこれに加えて、環境のうちのディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される領域が、２つのカメラの間の重なり合いの領域３０２Ｃに相当し、両方のカメラは、環境のうちのディスプレイ装置２０において見ることができない／ディスプレイ装置２０によって提示されない領域を画像化するように動作でき、現時点において観察中のシーンの各側をカバーする。

また、ビデオカメラ９０Ａ（随意により、ビデオカメラ９０Ｂも）が、環境のうちのディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される環境の領域の垂直上方および／または下方に広がる視野を有することができ、したがって本明細書に開示される原理を、垂直方向および水平方向に、個別または組み合わせのいずれにおいても適用できることを、理解できるであろう。

また、必要に応じて、単数形の用語「ビデオ画像」は、２つのカメラからの２つのビデオ画像であって、環境の連続的かつ典型的には重なり合うビューを画像間に提供する２つのビデオ画像を包含できることも、理解できるであろう。

図３Ｂにおいて、第１および第２のビデオカメラ９０Ａ、９０Ｂは、それぞれ方向３０４Ａおよび３０４Ｂを向いているものとして図示されている。図３Ｂにおいて、両方のビデオカメラ９０Ａ、９０Ｂは、同じ方向を向いているものとして図示されている。しかしながら、いくつかの例において、カメラは、（例えば、各々のカメラの視野、および環境のうちのビデオカメラによってキャプチャされるべき範囲に応じて）異なる方向を向いていてもよい。

図４は、本発明のディスプレイ装置２０のカメラによってキャプチャされたビデオ画像４００の一例を概略的に示している。画像４００は、第１の領域４０２Ａおよび第２の領域４０２Ｂという２つの領域から形成されるものとして図示されている。第１の領域４０２Ａは、環境のうちのディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される部分に対応することができる。第２の領域４０２Ｂは、環境のうち、ディスプレイ装置２０において見ることはできないが、ディスプレイ装置２０によって使用されるビデオカメラの視野内にある部分に対応することができる。２つのビデオカメラが使用される場合、第２の部分４０２Ｂは、環境のうちの第２のビデオカメラ９０Ｂの視野内にある部分に対応することができる。

図４において、ビデオ画像４００は、２人のプレーヤ４０４Ａ、４０４Ｂがバスケットボールをしているシーンを描いている。バスケットボールフープ４０６と、２人のプレーヤがバスケットボールをしている領域を画定する壁４０８とが示されている。２人のプレーヤは、バスケットボールコートでプレーしているところが示されており、バスケットボールコートの床／地面が、物理的な表面４１０によって表されている。

画像４００の第１の部分４０２Ａに、第１のプレーヤ４０４Ａおよびバスケットボールフープ４０６が示されている。画像４００の第２の部分４０２Ｂに、第２のプレーヤ４０４Ｂがボールを渡すように呼びかけている様子が示されている。この状況において、第２のプレーヤ４０４Ｂがユーザの視野内に入るように、ユーザ１０がディスプレイ装置２０を動かすことが予想され得る。これは、第２のプレーヤ４０４Ｂがキャプチャされたビデオ画像４００においてより中央の位置を占めるようにディスプレイ装置２０を移動させることに対応し得る。移動は、例えば、ユーザが例えばＨＭＤを装着した状態で頭部を回転および／または移動させ、あるいはモバイルデバイスの向き／位置を変えることによる結果としてのディスプレイ装置２０の回転および／または並進に対応し得る。

図５は、図４のシーンと同様のシーンの例を示しており、この場合にはティラノサウルス・レックス（Ｔ－Ｒｅｘ）である仮想オブジェクト５０２が、ユーザの物理的な現実世界の環境に存在するものとして示されている。図５において、ディスプレイ装置２０は、スマートフォンとして示されており、環境についてのユーザのビューは、スマートフォンに表示されるビデオ画像によって定められる。

Ｔ－Ｒｅｘが現実世界の環境についてのユーザのビュー内に本物らしく現れるためには、仮想オブジェクト５０２を表示のためにレンダリングする前に、いくつかの要因が考慮される必要があるかもしれない。第１に、プレーヤがプレー中の物理的な表面を、Ｔ－Ｒｅｘがこの表面上を歩いているように描かれることを保証するために、検出する必要がある。これは、仮想オブジェクトの仮想の影５０４が正しく表示されることを保証するためにも、検出される必要があるかもしれない。同様に、壁またはフェンスなどの物理的な境界も、Ｔ－Ｒｅｘがこれらの境界の内側にとどまり、あるいはこれらの境界と適切に相互作用することを保証するために、検出される必要があるかもしれない。図５には、フェンスの形態の物理的な境界４０８が図示されている。

いくつかの例においては、環境内の１つ以上の物理的な物体の存在も、検出される必要があるかもしれない。これは、例えば、シーン内の１名以上のプレーヤ、バスケットボール、およびバスケットボールフープの相対位置および深度（距離）を検出することを含むことができる。これらの物体の相対的な位置および深度の両方を検出することによって、Ｔ－Ｒｅｘは、或る物体が（ユーザの視点から）Ｔ－Ｒｅｘの前方に位置する場合に、その物体によって遮られているように現れることができる。これは、Ｔ－Ｒｅｘをそれらの物体と相互作用するようにアニメーションさせることも可能にできる。例えば、Ｔ－Ｒｅｘをプレーヤのうちの１人を食べるようにアニメーションさせることができ、したがって、そのプレーヤをシーンからデジタル的に取り除く必要があるかもしれない。

いくつかの例において、物理的な物体の検出は、物理的な物体を所定の（すなわち、既知の）物体に対応するものとして認識することを含むことができる。これは、例えば、物理的な物体がバスケットボールフープに対応すると認識することを含むことができる。さらなる例または代替の例において、これは、個々のプレーヤのアイデンティティを識別および／または認識し、特定のプレーヤに向けられるようにＴ－Ｒｅｘの行動を制御することを含むことができる。やはり、これは、特定の物理的な物体を認識することによって、仮想オブジェクトを物理的な物体と相互作用しているように見せる方法を制御するために使用することができる。

いくつかの例においては、シーン内の照明条件を、Ｔ－Ｒｅｘがあたかもそれらの照明条件の下にあるかのように表示されるように決定することができる。例えば、バスケットボールの試合が夕方に行われている場合、Ｔ－Ｒｅｘを、例えばバスケットボールの試合が正午に行われている場合よりも薄暗く表示することが、望ましいかもしれない。いくつかの場合、照明条件はユーザの環境内の種々の場所においてさまざまである可能性があり、したがって、環境についてのユーザのビューが変化するとき、仮想オブジェクトが照明に曝されているとして表示されるか、照明を調節することが必要かもしれない。さらに、Ｔ－Ｒｅｘの仮想の影をシーン内にどのように表示すべきかを決定するために、照明条件を検出する必要がある。

さらなる例においては、シーン内で発生している特定のイベントを追跡することも望まれるかもしれない。図５において、これは、例えばバスケットボールがフープに入るとき、または２人のプレーヤが互いに衝突するときを追跡することに対応できる。これらのイベントを追跡することによって、仮想オブジェクトのアニメーションを、検出されたイベントに反応するように制御することができる。

理解できるとおり、表示された環境のこれらの特徴のうちの任意の１つは、表示された環境のビューが変化するにつれて変化し得る。既知のシステムにおいて、これらの変化は、典型的には、新たな特徴または変化する特徴をキャプチャすべくディスプレイ装置（または、ディスプレイ装置のビデオカメラ）が動かされたときに検出される。しかしながら、このやり方での変化の検出には問題がある。例えば、依然として検出中のユーザの環境の特徴が存在する場合、仮想オブジェクトをユーザの環境にリアルタイムで反応するように表示することは、不可能かもしれない。ユーザがディスプレイ装置をさらに動かす場合、検出される必要がある環境のさらに多くの特徴が存在するかもしれない。結果として、仮想オブジェクトがユーザの環境に同期していないように見える可能性がある。全体として、ユーザが、説得力のない拡張現実または複合現実を体験することになり得る。

図６は、本明細書で論じられる技術を実施することによってこの問題を軽減または少なくとも緩和するためのシステム６００の一例を概略的に示している。そのようなシステムを、本明細書において、本発明によるシステムと称する。図６に示される構成要素はすべて、すでに述べたディスプレイ装置２０の構成要素であってよい。他の実施形態においては、以下で説明されるように、構成要素の少なくともいくつかが、別個のコンピューティングデバイスに実装されてよい。

システム６００は、ユーザの外部環境の一領域のビデオ画像をキャプチャするためのビデオカメラユニット６０２を備える。ビデオカメラユニット６０２は、図３Ａおよび図３Ｂに関連してすでに述べたように、ただ１つのビデオカメラまたは２つのビデオカメラを備えることができる。ビデオカメラユニット６０２によってキャプチャされたビデオ画像（または、ビデオ画像の組み合わせ）は、ディスプレイ装置２０において見ることができる／ディスプレイ装置２０によって提示される環境の領域のサイズよりも大きい環境の領域をカバーする。

さらに、システム６００は、カメラの動きを、例えば代理としてのディスプレイ装置２０の動きを予測することによって予測するように構成された動き予測器６０４の形態の１つ以上のプロセッサをさらに備える。予測されるディスプレイ装置２０の動きを使用して、動きが実行されたときに結果としてディスプレイ装置２０において視認可能になる可能性が高い環境の領域を決定することができる。

いくつかの例において、動き予測器６０４を、ディスプレイ装置の以前の姿勢に基づいてディスプレイ装置２０の姿勢（すなわち、位置および／または向き）を予測するように構成することができる。例えば、ディスプレイ装置２０は、ディスプレイ装置２０の姿勢を検出するように構成された動き検出器（図示せず）を備えることができる。ディスプレイ装置２０の姿勢を継続的に監視し、ディスプレイ装置２０の次の姿勢を予測するために使用することができる。これは、例えば、ディスプレイ装置２０の速度を決定することを含むことができる。このやり方でディスプレイ装置２０の動きを予測することが、短い時間枠において充分に信頼可能であり得ることに、注意すべきである。より長い時間枠、または例えば方向の急激な変化を含む複雑な動きにおいて、この動きの予測の方法は、あまり正確でないかもしれない。このような動きの予測の単純な例は、動きの方向および程度を予測可能であると考えることができるテニスまたはフットボールの試合あるいは飛び込み競技の観戦に関連し得る。

さらなる例、または代案の例において、動き予測器６０４は、ユーザの視線の方向の変化を検出するための視線方向検出器を備えることができる。視線方向検出器は、例えば、ユーザの目（または、両目）の画像をキャプチャするように構成された赤外線カメラを含むことができ、視線方向検出器を、キャプチャされた画像におけるユーザの瞳孔の位置を識別および追跡するように構成することができる。動き予測器６０４を、検出されたユーザの視線方向の変化に基づいてディスプレイ装置２０の動きを予測するように構成することができる。例えば、ユーザの瞳孔が例えば左側に動いていると検出された場合、ユーザが装置２０を対応する方向に動かすことが予想される。

またさらなる例、または代替の例においては、動き予測器６０４を、ビデオカメラユニット６０２によってキャプチャされたビデオ画像内の１つ以上の物理的な（すなわち、現実の）物体の検出に基づいてディスプレイ装置２０の動きを予測するように構成することができる。いくつかの例において、これは、１つ以上の物理的な物体の動きを検出することを含むことができる。例えば、ユーザ１０が移動する物体を環境についてのユーザの視野内に保持するようにディスプレイ装置２０を移動させると予想することができる。いくつかの例において、これは、物理的な物体が、ユーザ１０がその物体の方を向く（あるいは、その物体の方に装置２０を向ける）可能性が高い動きまたは動作を実行していることを、検出することを含むことができる。物体は、例えば、特定の人、またはボール、あるいは（例えば、スポットライトが当てられているがゆえに）シーン全体に対して著しい明るさまたはコントラストの差を有する物体であってよい。

動き予測器６０４は、カメラのパンまたは回転による画像内の特徴の全体的な動きであるいわゆる「オプティカルフロー」を検出することができる。

動き予測器６０４は、例えば、ビデオ画像内の種々の物理的な物体を検出するために、コンピュータビジョンまたは機械学習を使用することができる。同様に、動き予測器６０４は、ユーザが見守り、さらには／あるいは視線を集中させる可能性が高い行動に対応するものとして、ビデオ画像内の特定の動きを認識するための機械学習を使用することができる。

さらなる例においては、動き予測器６０４を、音源に関連付けられているとして検出された環境内の位置に基づいてディスプレイ装置２０の動きを予測するように構成することができる。例えば、一般に、ユーザ１０が、話している人などの物理的な物体に目を向ける（そして、そのようにする際に装置を物理的な物体に面するように向ける）と期待することができる。そのような場合、動き予測器６０４を、ディスプレイ装置２０が検出された音源の方向に移動（例えば、回転）させられる可能性が高いと判断するように構成することができる。ディスプレイ装置２０は、例えば、ユーザに対する音源の方向を検出するための２つ以上のマイクロフォンを含むことができる。

またさらなる例においては、動き予測器６０４を、ディスプレイ装置２０に表示された仮想オブジェクト、または表示される仮想オブジェクトの位置に基づいて、ディスプレイ装置２０の動きを予測するように構成することができる。例えば、ユーザ１０が、仮想オブジェクトをよりよく眺めるために、ディスプレイ装置２０を仮想オブジェクトへと向けると期待することができる。したがって、動き予測器６０４を、ユーザの環境内の仮想オブジェクトの位置を取得し、それに応じて、ディスプレイ装置２０が被る可能性が高い対応する動きを決定するように構成することができる。位置（または、最後の位置）は、仮想オブジェクトを用いてシーンの拡張を実行するプロセッサ（例えば、画像生成器６０８）から取得することができ、あるいは画像解析などから取得することができる。

好ましい実施形態においては、機械学習アルゴリズムを使用してディスプレイ装置２０の動き（あるいは、それどころか、後続の姿勢）を予測する。

機械学習アルゴリズムを、ディスプレイ装置２０の動きを示すデータと、動きの前にディスプレイ装置２０によってキャプチャされた対応するビデオデータとによって訓練することができる。訓練は、ディスプレイ装置２０によってキャプチャされたビデオデータ（環境についてのユーザのビューに対応する）をその後のディスプレイ装置２０の動きにマッピングする関数を決定することを含み得る。関数を、１つ以上のパラメータに関して定めることができ、これらのパラメータを、関数が充分な精度でディスプレイ装置２０の動きを予測できるまで調整することができる。一例においては、これらのパラメータを、逆伝播を使用して調整することができ、すなわち機械学習アルゴリズムの出力（予測されたディスプレイ装置２０の動き）を元の入力（ディスプレイ装置２０の実際の動き）と比較することができ、ディスプレイ装置２０の動きを充分な精度で予測することができるまでパラメータを調整することができる。技術的に知られているように、アルゴリズムは、ひとたび初見のテストデータのセットに対して正確な結果を生みだすと、充分に訓練されたと言うことができる。訓練において使用される他のパラメータとして、上述のように、ビデオデータ内の１つ以上の物体を識別／区別するメタデータ、ビデオに含まれており、もしくはビデオに含まれる拡張オブジェクトの位置、姿勢、および／または種類に関する情報、オーディオデータまたはそれらの抽象化（例えば、音量レベル、または音声アクティビティフラグ）を挙げることができる。例えばＧＰＳ座標、あるいはシナリオ、したがって予測可能な挙動（例えば、テニスコートにおける挙動など）を示すことができる記述的なキーワードなど、他のパラメータが当業者にとって明らかであろう。

いくつかの例においては、機械学習アルゴリズムの訓練を、例えばサーバにおいて行うことができる。サーバを、動きデータ、ビデオデータ、および他の随意によるパラメータを複数の異なるディスプレイ装置２０から受信し、上述のやり方で機械学習アルゴリズムを訓練するように構成することができる。ひとたび機械学習アルゴリズムが充分に訓練されると、アルゴリズムの訓練後のバージョンを、ディスプレイ装置２０へとエクスポートすることができる。これを、例えば、通信ネットワークを介してディスプレイ装置へとダウンロードされるソフトウェア更新の一部として実行することができる。

機械学習アルゴリズムは、「深層学習」ネットワークなどのニューラルネットワーク、またはベイジアンエキスパートシステム６００、あるいは遺伝的アルゴリズム、決定木学習アルゴリズム、関連ルール学習方式、などの第１組のデータポイントと第２組のデータポイントとの間の相関を学習するように動作することができる任意の適切な仕組みを採用することができる。

そのような相関の例として、ボールの動きとディスプレイ装置の動き、可視的に表示された領域の周辺または周辺付近における１つ以上の所定の種類の実際の物体または仮想オブジェクトの全体または一部分の出現と、それらを中央に移動させる動き、可視の物体に関する音源と、それを中央に移動させる動き、などが挙げられる。

図６に示されるシステム６００は、ビデオカメラユニット６０２によってキャプチャされたビデオ画像の一部を処理するように構成されたシーンプロセッサ６０６をさらに備える。図６において見て取ることができるとおり、シーンプロセッサ６０６は、図６に示されるように、動き予測器６０４およびビデオカメラユニット６０２から入力を受け取る。シーンプロセッサ６０６は、ディスプレイ装置２０が予測されたやり方で移動したときに結果としてユーザの視野内に入ると予想される環境の領域に対応するビデオ画像の部分を識別するように構成される。

図４に示した例において、これは、キャプチャされたビデオ画像の第２の部分４０２Ｂが後の時点においてユーザのビューの範囲内に入る可能性が高いことを検出することに対応し得る。したがって、シーンプロセッサ６０６は、キャプチャされたビデオ画像のこの部分を識別し、処理することができる。すでに述べたように、ビデオカメラユニット６０２は、２つのビデオカメラを備えることができ、環境についてのユーザのビューは、一方のカメラによってキャプチャされたビデオ画像に対応し得る。この場合、シーンプロセッサ６０６は、他方のカメラによってキャプチャされた画像を処理するように構成されてよい。

図６に戻ると、シーンプロセッサ６０６を、キャプチャされたビデオ画像の識別された部分に存在する照明条件を処理するように構成することができる。例えば、一部の環境においては、例えば各々の場所が光源にどれだけ近いか遠いかに応じて、照明が環境内の種々の場所において異なる可能性がある。シーンプロセッサ６０６を、例えば、ビデオ画像の識別された部分の露出レベル、色温度、ホワイトバランス、優勢なシーン色、などを検出することによって照明条件を検出するように構成することができる。

さらなる実施形態または代案の実施形態においては、シーンプロセッサ６０６を、キャプチャされたビデオ画像の識別された部分における任意の物理的な（すなわち、現実の）物体、あるいは物理的な表面または境界の存在を検出するように構成することができる。図４の例において、これは、キャプチャされたビデオ画像内の第２のプレーヤの位置を検出し、シーンプロセッサ６０６において受信される後続のビデオ画像におけるこのプレーヤの位置を追跡することを含み得る。

いくつかの例においては、シーンプロセッサ６０６は、検出された物理的な物体を、予め定められた物体に対応するものとして識別するように構成され得る。図４の例において、これは、第２の部分における第２のプレーヤ４０４Ｂの存在を検出し、このプレーヤを人として（さらに、随意により、システム６００にとって身元が既知である人として）認識することに対応し得る。キャプチャされたビデオ画像内の物体の検出および／または認識は、例えばコンピュータビジョンまたは機械学習によって達成することができる。他の例においては、ディスプレイ装置２０にとってアクセス可能なデータベースを介して、検出および／または認識を達成することができる。例えば、データベースは、複数の異なる物体の各々についての画像特徴を定義することができ、キャプチャされた画像内の物体を、データベースに格納されている画像特徴との比較に基づいて認識することができる。

さらに、好ましい例において、シーンプロセッサ６０６は、環境についてのユーザの後のビューの範囲内に入ると予想される物理的な物体の深度（距離）を決定するように構成される。例えば、ディスプレイ装置２０は、ユーザの環境の深度データを取り込むための深度カメラまたは３Ｄスキャナを含むことができる。シーンプロセッサ６０６を、キャプチャされたビデオ画像の識別された部分に存在するとして検出された任意の物理的な物体の深度を決定するように構成することができる。２つのビデオカメラが使用される例においては、技術的に知られているとおり、物理的な物体の深度を、２ビュー深度推定によって決定することができる。そのような物体が、最初は１つのカメラにとってのみ視認可能であり、したがって２ビュー深度推定に適さない可能性があることを、理解できるであろう。この場合、随意により、シーン内の現時点において既知の物体とのサイズ比較を使用して、物理的な物体の距離を概算することができる。同様に、随意により、シーン内の物理的な物体に関するサイズデータを、画像および深度データ（利用可能な場合）から確立させ、所定の期間にわたって記憶することができ、したがって、その物体に再度遭遇した場合に、その距離を単一の画像内の見かけのサイズから推定することができる。一般に、物理的な物体の深度の検出は、仮想オブジェクトを適切なオクルージョン（存在する場合）で表示することを可能にするため、有用である。

いくつかの例において、ディスプレイ装置２０は、シーンプロセッサ６０６を備える。他の例において、シーンプロセッサ６０６は、ディスプレイ装置と通信する別個のコンピューティングデバイスに実装されてよい。例えば、シーンプロセッサ６０６は、例えばゲーム機において実行されてよく、あるいは、例えばディスプレイ装置が通信ネットワークを介して通信するサーバにおいて実行されてよい。

図６において見て取ることができるとおり、シーンプロセッサ６０６は、画像生成器６０８に入力を提供するものとして示されている。入力は、検出された照明条件、ならびにユーザが（使用されるディスプレイ装置の種類に応じて、直接的または間接的に）見ることが予想される環境の領域内の任意の物理的な物体、表面、または境界の存在のうちの少なくとも１つを示すデータを含むことができる。

画像生成器６０８は、シーンプロセッサ６０６からの入力の受信に応答して、ディスプレイ装置に表示するための仮想オブジェクト５０２を生成するように構成される。画像生成器６０８は、照明条件、ならびにユーザがディスプレイ装置において予測された動きを実行したときに結果としてユーザのビューの範囲内に入ると予想される任意の物理的な物体、表面、または境界を考慮に入れる仮想オブジェクト５０２を生成するように構成される。画像生成器６０８は、生成した仮想オブジェクト５０２を、予測された動きの検出に応答して出力するように構成される。これにより、検出された照明条件、物理的な物体、物理的な表面、または境界がユーザに見えるようになったときにのみ、仮想オブジェクト５０２がユーザに表示されることが保証される。図６において、画像生成器６０８は、ディスプレイ装置２０に表示するために仮想オブジェクト５０２を出力するように示されている。

図６において、画像生成器６０８は、破線の矢印の形態で、追加の入力を受け取るように示されている。この入力は、ゲーム機などの別個のコンピューティングデバイスから受信される画像データに対応し得る。例えば、ゲーム機が、仮想オブジェクト５０２を生成するように構成されてよく、画像生成器６０８が、シーンプロセッサ６０６によって実行される処理に基づいて、仮想オブジェクト５０２の１つ以上の特性を調整するように構成されてよい。

いくつかの例において、画像生成器６０８は、ディスプレイ装置２０から分離していてもよい。例えば、シーンの処理および画像の生成の両方が、ディスプレイ装置２０と通信する別個のコンピューティングデバイスで実行されてよい。したがって、ディスプレイ装置２０は、別個のコンピューティングデバイスで生成された仮想オブジェクト５０２を表示するだけでよい。

次に、図６のシステム６００の使用例を、図５に関連して説明する。

図５において、環境についてのユーザの現在のビュー（すなわち、ユーザのスマートフォンの画面において見ることができる）は、第１のプレーヤ４０４Ａおよび第２のプレーヤ４０４Ｂ、ならびにバスケットボールフープ４０６、およびＴ－Ｒｅｘを含む。Ｔ－Ｒｅｘは、画像生成器６０８によって生成された仮想オブジェクト５０２に相当する。

図５においては、第２のプレーヤ４０４Ｂが第１のプレーヤを呼んでいるかもしれず、あるいは第１のプレーヤ４０４Ａがおおむね第２のプレーヤ４０４Ｂの方向に移動しているかもしれない。そのような場合、ユーザ１０が、第１のプレーヤ４０４Ａを追うようにスマートフォンを回転させ、あるいは第２のプレーヤ４０４Ｂをより中央に位置させるビューを得るようにスマートフォンを回転させることが予想され得る。したがって、動き予測器６０４は、ユーザ１０がスマートフォンで対応する動き、すなわち回転（矢印５０６によって示される）を実行すると予測することができる。これに応答して、シーンプロセッサ６０６は、ユーザの次の視野の範囲内に入ると予想されるシーンの部分を識別し、処理する。すでに述べたように、これは、シーンのその部分を含むビデオ画像の一部を処理すること、またはシーンのその領域よりも多くを含むビデオ画像を処理することを含むことができる。

画像生成器６０８は、シーンプロセッサ６０６によって実行される処理に基づいて、Ｔ－Ｒｅｘの画像を生成するように構成される。これは、例えば、環境のうちのユーザが見ると予想される領域の照明条件に曝されるＴ－Ｒｅｘの画像を生成することを含み得る。図示されていないが、例えば、バスケットボールコートのうちの第２のプレーヤ４０４Ｂによって占められている部分が、バスケットボールコートのうちの第１のプレーヤ４０４Ａによって占められている部分よりも暗く、あるいは明るいかもしれない。いくつかの例において、画像生成器６０８は、例えば第２のプレーヤ４０４Ｂとの相互作用に対応するＴ－Ｒｅｘのアニメーションを生成するように構成され得る。

図５に示されているＴ－Ｒｅｘが、表示された画像の右側の方に位置している一方で、画像生成器６０８を、例えばバスケットボールを追いかけるようにＴ－Ｒｅｘをアニメーションさせるように構成できることを、理解できるであろう。そのような場合、Ｔ－Ｒｅｘが第２のプレーヤに向かって移動しているように描かれることが予想され得る。そのような場合、画像生成器６０８は、ユーザのビューが変化するときに、Ｔ－Ｒｅｘが正しい照明で出現し、環境についてのユーザのビューに含まれるあらゆる物理的な物体、境界、または表面を尊重するように、Ｔ－Ｒｅｘの表示を調整するように構成される。

図７が、本発明による方法の一例を示している。

ステップＳ７０２において、環境のビューが、ディスプレイ装置に提示される。ビューは、現実世界のビュー（例えば、拡張現実）または仮想世界のビュー（例えば、複合現実）に対応し得る。一例において、環境は、図４および図５に関連してすでに説明したバスケットボールコートであり得る。

ステップＳ７０４において、環境のビデオ画像が、ビデオカメラでキャプチャされる。ビデオ画像にキャプチャされた環境の領域は、ディスプレイ装置において見ることができる環境の領域よりも大きい。すでに説明したように、ビデオカメラは、ディスプレイ装置自体の一部を形成してもよく、あるいはディスプレイ装置から分離していてもよい（しかしながら、ディスプレイ装置と通信する）。ビデオ画像を、すでに述べたように、２つのビデオカメラまたは単一のビデオカメラによってキャプチャすることができる。

ステップＳ７０６において、ビデオカメラの動きが予測される。ビデオカメラの動きを、すでに述べた方法のいずれかに基づいて予測することができる。例えば、動きを、キャプチャされたビデオ画像のコンテンツ、ユーザの視線方向の変化、および現在の時点より前のディスプレイ装置の動き（例えば、ビデオカメラの現在の軌跡）のうちの少なくとも１つに基づいて予測することができる。すでに述べたように、機械学習を使用して、ビデオコンテンツとビデオカメラの後の動きとの間の関係を識別することができる。いくつかの例においては、ビデオカメラの動きを、キャプチャされたビデオ画像内の１つ以上の物理的な物体（人など）の検出された動きに基づいて予測することができる。

ステップＳ７０８において、環境のうちのディスプレイ装置において見えるようにされると予想される領域が識別される。この領域は、予測されたビデオカメラの動きに基づいて識別される。

ステップ７１０において、ディスプレイ装置において見えるようにされるべき環境の部分に対応するキャプチャされたビデオ画像の部分が処理される。処理は、キャプチャされたビデオ画像の部分に存在する照明条件を決定すること、およびキャプチャされた画像の部分内の１つ以上の物理的な物体を検出することのうちの少なくとも１つを含むことができる。１つ以上の物理的な物体の検出は、キャプチャされたビデオ画像内の物体の相対位置および深度の検出を含むことができる。１つ以上の物理的な物体を、例えばコンピュータビジョンまたは機械学習を使用して検出することができる。

ステップＳ７１２において、ステップＳ７１０において実行された処理に基づいて、仮想オブジェクトの画像が生成される。仮想オブジェクトは、ディスプレイ装置に提示される環境のビュー内に表示されるように生成される。すでに述べたように、仮想オブジェクトを、ステップＳ７１０の処理の一部として検出された照明条件に曝されるように生成することができる。さらなる例においては、仮想オブジェクトを、１つ以上の検出された物理的な物体に基づいて生成することができる。これは、ステップＳ７１０において識別された１つ以上の物理的な物体の相対位置および深度に依存するオクルージョンを有するように仮想オブジェクトを生成することを含み得る。これは、環境内の１つ以上の検出された物理的な物体と相互作用するように仮想オブジェクトをアニメーションさせることも含み得る。仮想オブジェクトは、例えば、図５に関してすでに述べたＴ－Ｒｅｘであってよい。

ステップＳ７１４において、予測された動きに対応するビデオカメラの動きが検出される。いくつかの例において、これは完全な一致である必要はなく、むしろ予測された動きに充分に類似した動きである。

ステップＳ７１６において、生成された仮想オブジェクトはディスプレイ装置に表示される。仮想オブジェクトを、ディスプレイ装置に提示された環境のビューの上に重ね合わせることができ、あるいは現実世界の環境に（少なくとも部分的に）対応する仮想環境内に埋め込むことができる。表示された仮想オブジェクトは、すでに述べたように、例えばシーン内の適切な位置、深度、相互作用、および照明を有するＴ－Ｒｅｘに相当することができる。

本明細書に記載の実施形態に従って仮想オブジェクトを生成することによって、ディスプレイ装置は、周囲の環境についてのユーザのビューの変化を先取りし、それに応じて仮想オブジェクトの表示を調整することができる。これにより、環境のうちのその部分がユーザのビュー内に入る前に処理の大部分がすでに実行されているため、仮想オブジェクトをリアルタイムで環境と相互作用しているように描くことができる。

したがって、本発明の利点は、ディスプレイ装置の視野の変化を予測し、したがって現実世界の環境のどの部分が見えるようになり得るのかを予測することにより、拡張現実の目的のための現実世界の環境の少なくとも一部分の特徴付け（表面、境界、物体、照明条件、などの識別など）を、そのような拡張の発生（典型的には、毎秒３０または６０フレームの速度を有する）を先取りして実行することができ、したがって最初の可視フレーム内で環境を特徴付けなければならない処理のボトルネックまたはピークを回避できることである。

対応する利点は、随意により、システムが、現実世界の環境のどの部分がもはや見えなくなるかを同じように予測することもでき、したがって計算リソースを削減できることである。例えば、その部分の特徴付けデータを外し、あるいは予測が正しいかどうかが明確になるまでその部分の相互作用や拡張の計算を延期することができる。

やはり同様に、見えるようになると予測される現実世界の環境の少なくとも一部の事前の特徴付けに加えて、随意により、環境のその部分に対応する任意の増強に関連する資産を事前に準備する（例えば、バスケットボールフープが今にも見えるようになろうとしていると予測される場合にフープを点滅光で拡張するために、関連のテクスチャを解凍し、あるいは関連のシェーダをロードする）こともできる。

以上の説明は、大部分において、ＨＭＤまたはモバイルデバイスなどのディスプレイ装置２０がカメラおよびディスプレイを同じ装置の一部として備え、随意により処理の一部またはすべてがビデオゲーム機またはサーバなどの遠方の装置で実行されると仮定している。しかしながら、本明細書の技術が、第１のユーザが（例えば、スポーツイベントに出向いて）カメラまたは各カメラを制御し、ビューを遠方のディスプレイ装置（例えば、家族あるいはストリーミング／ブロードキャストの契約者のディスプレイ装置）へとストリーミング／ブロードキャストするテレプレゼンスシステムにも適用可能であることを、理解できるであろう。この場合、モジュール６０４および６０６は、カメラ、ディスプレイユニット、あるいはビデオゲーム機またはサーバなどのさらなる遠方の装置に位置することができる。

したがって、上述の構成のいずれも、本明細書に記載の技術に従って仮想オブジェクトを表示するためのシステムとして機能できることを、理解できるであろう。

上述の技術は、ハードウェア、ソフトウェア、または両者の組み合わせにて実施可能である。実施形態の１つ以上の特徴を実施するためにソフトウェアによって制御されるデータ処理装置が使用される場合、そのようなソフトウェア、ならびにそのようなソフトウェアを提供するための非一時的な機械可読記憶媒体などの記憶媒体または伝送媒体も、本発明の実施形態と見なされることを理解できるであろう。

Claims

仮想オブジェクトを表示するためのシステムであって、
環境を表示するためのディスプレイ装置と、
ユーザの環境の一領域のビデオ画像をキャプチャするように動作することができ、前記ビデオ画像における前記領域のサイズは、前記ディスプレイ装置において見ることができる前記環境の前記領域のサイズよりも大きいビデオカメラと、
前記ビデオカメラの動きを予測するように動作することができる動き予測器と、
前記環境のうちの前記予測された動きの結果として前記ディスプレイ装置において見ることができるようになると期待される領域、に対応する前記キャプチャされたビデオ画像の一部分を識別して処理するように動作することができるシーンプロセッサと、
前記シーンプロセッサからの入力を受け取り、該入力に応答して前記ディスプレイ装置における表示用の仮想オブジェクトを生成するように構成された画像生成器と
を備えており、
前記画像生成器は、前記予測された動きの検出に応答して、前記表示用の仮想オブジェクトを出力するように構成されており、
前記動き予測器は、前記キャプチャされたビデオ画像内の１つ以上の物理的な物体を検出するように構成され、
前記動き予測器は、前記検出された１つ以上の物理的な物体の動きに基づいて前記ディスプレイ装置の動きを予測するように構成されている、システム。
２つのビデオカメラを備えており、各々のビデオカメラが、前記環境の少なくとも部分的に異なる領域の画像をキャプチャするように構成されており、
前記ディスプレイ装置において見ることができる前記環境の前記領域は、前記２つのビデオカメラによってキャプチャされた前記領域よりも小さく、
前記シーンプロセッサは、前記ディスプレイ装置において見ることができる前記環境の領域の外側の領域についてのビデオ画像データを処理するように構成されている、請求項１に記載のシステム。
前記シーンプロセッサは、前記キャプチャされたビデオ画像の前記一部分における照明条件を明らかにするように構成され、
前記画像生成器は、前記仮想オブジェクトをあたかも前記照明条件に曝されているかのように生成するように構成されている、請求項１または２に記載のシステム。
前記シーンプロセッサは、前記キャプチャされたビデオ画像の前記一部分における少なくとも１つの物理的な物体を検出するように構成され、
前記画像生成器は、前記検出された少なくとも１つの物理的な物体に応じて仮想オブジェクトを生成するように構成されている、請求項１～３のいずれか一項に記載のシステム。
前記シーンプロセッサは、前記少なくとも１つの物理的な物体の相対位置および深度を明らかにするように構成され、
前記画像生成器は、前記少なくとも１つの物理的な物体の前記相対位置および深度に応じたオクルージョンにて前記仮想オブジェクトを生成するように構成されている、請求項４に記載のシステム。
前記画像生成器は、アニメーションによる仮想オブジェクトを生成するように構成されており、前記アニメーションは、前記仮想オブジェクトと前記少なくとも１つの物理的な物体との間の仮想の相互作用に対応する、請求項４または５に記載のシステム。
前記動き予測器は、前記ユーザの視線の方向を検出するように動作することができる視線方向検出器を備え、
前記動き予測器は、前記検出された前記ユーザの視線の方向の変化に基づいて前記ディスプレイ装置の動きを予測するように構成されている、請求項１～６のいずれか一項に記載のシステム。
前記ディスプレイ装置の動きを検出するように動作することができる動き検出器を備えており、
前記動き予測器は、前記動き検出器によって検出された前記ディスプレイ装置の動きに基づいて前記ディスプレイ装置の前記動きを予測するように構成されている、請求項１～７のいずれか一項に記載のシステム。
前記動き予測器は、コンピュータビジョンまたは機械学習によって前記１つ以上の物理的な物体を検出するように構成されている、請求項１に記載のシステム。
前記動き予測器は、前記ディスプレイ装置の動きを示す動きデータと、前記キャプチャされたビデオ画像のコンテンツを示す画像データとを受け取るように構成され、
前記動き予測器は、前記キャプチャされたビデオ画像のコンテンツに基づいて前記ディスプレイ装置の動きを予測するように訓練される機械学習アルゴリズムを備える、請求項１～９のいずれか一項に記載のシステム。
前記機械学習アルゴリズムを訓練するように動作することができる訓練ユニットを備えており、前記訓練ユニットは、複数の異なるディスプレイ装置からの動きデータと、前記ディスプレイ装置によってキャプチャされたビデオデータとを受け取るように構成され、
前記訓練ユニットは、前記キャプチャされたビデオ画像のコンテンツと前記ディスプレイ装置の動きとの間の関係を割り出すように構成されている、請求項１０に記載のシステム。
仮想オブジェクトを表示する方法であって、
ディスプレイ装置において環境のビューを提示するステップと、
前記環境のビデオ画像をキャプチャするステップであって、前記ビデオ画像にキャプチャされる前記環境の領域は、前記環境のうちの前記ディスプレイ装置において見ることができる前記領域よりも大きいステップと、
カメラの動きを予測するステップと、
前記環境のうちの前記カメラの前記予測された動きの結果として前記ディスプレイ装置において見ることができるようになると期待される領域を識別するステップと、
前記環境のうちの前記ディスプレイ装置において見ることができるようになると期待される前記領域に対応する前記キャプチャされたビデオ画像の一部分を処理するステップと、
前記ディスプレイ装置における表示用の仮想オブジェクトの画像を生成するステップであって、前記画像は、前記ビデオ画像の前記一部分の前記処理に基づいて生成されるステップと、
前記ディスプレイ装置の前記予測された動きが実行された旨の検出に応答して、前記仮想オブジェクトを表示するステップと、
前記キャプチャされたビデオ画像内の１つ以上の物理的な物体を検出するステップと、
前記検出された１つ以上の物理的な物体の動きに基づいて前記ディスプレイ装置の動きを予測するステップと
を含む方法。
前記キャプチャされたビデオ画像の前記一部分を処理するステップは、
ｉ．前記キャプチャされたビデオ画像の前記一部分に存在する照明条件を明らかにすること、および
ｉｉ．前記キャプチャされたビデオ画像の前記一部分における１つ以上の物理的な物体を検出すること
の少なくとも一方を含む、請求項１２に記載の方法。
前記ディスプレイ装置の動きを予測するステップは、
ｉ．前記キャプチャされたビデオ画像のコンテンツ、
ｉｉ．ユーザの視線の方向の変化、および
ｉｉｉ．現時点よりも前の前記カメラの動き
のうちの少なくとも１つを検出することを含む、請求項１２または１３に記載の方法。