JP2023512166A

JP2023512166A - 仮想及び拡張現実ｈｍｄシステムにおける高速予測追跡及びレイテンシ補償のための光強度ベースのｃｍｏｓ及びイベント検出センサの組み合わせ

Info

Publication number: JP2023512166A
Application number: JP2022542462A
Authority: JP
Inventors: アール．スタフォード、ジェフリー; イエ、シャオヨン; 裕横川
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-01-13
Filing date: 2021-01-08
Publication date: 2023-03-24
Anticipated expiration: 2041-01-08
Also published as: EP4091015A1; US20210216133A1; WO2021146113A1; CN114981706A; EP4091015A4; US11635802B2; JP7356596B2

Abstract

【課題】ＡＲＨＭＤ（４６、２００）の制御を容易にするために、カメラセンサシステム（２０２、２１０、２１４）のカメラユニットは、ＲＧＢ／ＩＲ画像を生成し、そのうえ、システムは、ＨＭＤポーズトラッキング、ハンドトラッキング、及びアイトラッキングのために、イベント検出センサ（ＥＤＳ）（２０４、２１２、２１６）からの光強度変化信号に基づいて将来時刻の画像を外挿する。【解決手段】将来時刻は、将来時刻を定義する（４０２）ＨＭＤアプリケーション（３１０）によって提供され、ＲＧＢ／ＩＲ画像及び外挿された画像は、アプリケーションに送り返される（５０６）。このようにして、カメラセンサシステムは、より低い帯域幅及び消費電力で改善されたパフォーマンスの追跡（非常に高速なカメラを使用するのと同等）を可能にする。【選択図】図１

Description

本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。

拡張現実（ＡＲ）ヘッドマウントディスプレイ（ＨＭＤ）は、透明または半透明のディスプレイ上に画像を提示することで、ＨＭＤの着用者は、ディスプレイを通した実世界とディスプレイ上の画像との両方を見ることができる。本明細書で理解されるように、ＨＭＤ上に仮想現実（ＶＲ）画像を適切に提示するために、また他の理由のために、現在のＡＲＨＭＤシステムは、ＨＭＤのポーズ、ＨＭＤの着用者の目、及び着用者の手を追跡する必要がある。これを行うには、ＨＭＤは、赤－緑－青（ＲＧＢ）及び赤外線（ＩＲ）のカメラセンサの組み合わせを使用する。この組み合わせは、シーン画像の位置推定とマッピングの同時実行（ＳＬＡＭ）処理を用いて、ハンドトラッキングコンピュータビジョン技法を使用するＨＭＤユーザの手の画像を処理することでＨＭＤユーザの手部認識及び６自由度（６ＤＯＦ）ポーズを用いて、そして視線追跡方法を使用するＨＭＤユーザの目の位置及び視線を用いて、６ＤＯＦでのＨＭＤのポーズの追跡を実行する。

これによってもたらされる技術的な課題は、より良い操作のために、レイテンシを短縮し、追跡パフォーマンスを改善するためには、カメラデータのフレームレートを上げることが必要であるうえ、そのようにフレームレートが高いほど、帯域幅が大きくなることが必要であり、高度な処理が必要であるので、ＨＭＤでの消費電力及び発熱が比較的大きくなるため、高速度カメラが必要であり得ることである。

本明細書に述べられている課題に対処するために、カメラセンサシステムは、提供され、ＲＧＢ及びＩＲ画像をキャプチャするためにカラーフィルタ及び赤外線フィルタの下で両方の光強度フォトダイオードを備えたセンサセルだけでなく、イベント検出センサ（ＥＤＳ）の原理によって動きを検出するＥＤＳ感知セルも含む。ＥＤＳは、１つ以上のカメラピクセルによって感知された光強度の変化を動きのインジケーションとして使用する。

カメラセンサシステムは、ＲＧＢ／ＩＲフレームを中速、例えば毎秒２００フレーム（２００ＦＰＳ）で、また比較的高速、例えば毎秒２０００フレーム（２０００ＦＰＳ）超でキャプチャするように構成されることができる。

スマート画像信号プロセッサ（ＩＳＰ）は、アルゴリズムプロセスを使用して、中速ＲＧＢ／ＩＲ画像を取得し、ＥＤＳセルから取得されたピクセルモーションイベントのコレクションから決定された動きに基づいて予測画像を作成する。このＩＳＰプロセスは、オプティカルモーションフローを外挿するアルゴリズムを用いてもよい、または１つ以上のニューラルネットワークで具現化された機械学習アルゴリズムを使用してもよい。既存のカメラセンサとは異なり、組み合わされたＲＧＢ／ＩＲ／ＥＤＳセンサシステムは、将来の予測カメラ画像フレームを要求するために使用されるデジタル時間値Ｄ（例えば、マイクロ秒単位）を入力として受け入れる。それに応じて、カメラセンサシステムは、２つのカメラ画像フレーム出力、すなわち、現在のタイムスタンプを有する最新のＲＧＢ／ＩＲカメラフレームと、現在のタイムスタンプ足す時間値Ｄに等しいタイムスタンプを有する、要求された予測ＲＧＢ／ＩＲカメラフレームとを提供する。

カメラセンサシステムは、ポーリングモード（画像データを絶えず送信する）ではなく、要求モード（要求に応じた画像データのみを送信する）で機能することができる。ＥＤＳの使用により、カメラシステムは、ダイナミックレンジが比較的広いことで、弱い光または強い逆光のシーン内でキャプチャすることができる、予測画像フレームを提供することができる。いかなる場合でも、カメラセンサシステムは、より低い帯域幅及び消費電力で改善されたパフォーマンスの追跡（非常に高速なカメラを使用するのと同等）を可能にする。

例示的なアプリケーションでは、ＡＲＨＭＤ上で実行しているＡＲアプリケーションは、ユーザがＡＲＨＭＤのディスプレイ内に新しい仮想画像を見るであろう予測時刻を計算する。この予測時刻は、所与の画像フレームに対してすべてのＨＭＤアプリケーション処理（追跡、レンダリングなど）が完了するのにかかる時間、及び画像フレームをディスプレイに転送してユーザの目に光を発するまでの時間に基づいている。この合計予測時刻は、ＨＭＤ６ＤＯＦポーズＳＬＡＭＲＧＢ／ＩＲシステム、ハンドトラッキングＲＧＢ／ＩＲセンサ、及びアイトラッキングＲＧＢ／ＩＲセンサを含むカメラセンサシステムへの入力として使用され得ることで、ヘッドビューからのシーンの将来の予測カメラ画像、手が存在しているシーンの将来の予測カメラ画像、及びユーザの目の画像が導出され得る。

追跡の改善に加えて、ＲＧＢ／ＩＲ＋ＥＤＳカメラが将来画像フレーム予測を備えることで、超低レイテンシのビデオの実世界画像（拡張現実システムを通して見る）が提供され得る。

したがって、システムは、少なくとも１つの拡張現実（ＡＲ）ヘッドマウントディスプレイ（ＨＭＤ）を含み、このＡＲＨＭＤは、赤－緑－青（ＲＧＢ）画像を生成するように構成される少なくとも１つのカメラユニットを含む。このシステムは、少なくとも１つの画像信号プロセッサ（ＩＳＰ）及び少なくとも１つのイベント検出センサ（ＥＤＳ）を含み、少なくとも１つのＥＤＳは、照明強度における変化を表す信号をＩＳＰに出力して、ＩＳＰがカメラユニットを制御し、現在時刻＝ｔでの第一ＲＧＢ画像を生成し、このＲＧＢ画像から、将来時刻＝ｔ＋Ｄの予測画像を外挿することを可能にするように構成される。

例では、カメラユニットは、赤外線（ＩＲ）画像を生成するように構成され得る。

非限定的な実施形態では、カメラユニット、ＩＳＰ、及びＥＤＳは、単一のチップに配置され得る。これらのコンポーネントによって行われる処理は、デジタルシグナルプロセッサ（ＤＳＰ）によって実装され得る。

実装例では、ＩＳＰは、ＨＭＤに関連する少なくとも１つのアプリケーションから時間値Ｄを受信し、第一画像及び予測画像をアプリケーションに返すように構成される。

いくつかの実施形態では、ＩＳＰは、ＩＳＰによって実行可能な、時刻ｔ＋Ｄで第二ＲＧＢ画像を生成する命令で構成され得る。それらのような実施形態では、ＩＳＰは、ＩＳＰによって実行可能な、少なくとも１つのニューラルネットワーク（ＮＮ）を実行して予測画像を生成し、第二画像をＮＮにフィードバックしてＮＮをトレーニングする命令で構成され得る。具体的な実施形態では、第一（非予測）画像と早期の第二（予測）画像との間の差分は、第二画像に関連するタイムスタンプにマッチングする第一画像に関連するタイムスタンプに少なくとも部分的に基づいて、ＮＮにフィードバックされる。

時刻ｔ＋Ｄでの第二ＲＧＢ画像が、時間内の早期に以前に格納された、履歴バッファから取得されることができることに留意されたい。また、ＥＤＳデータは、時間内の早期に以前に格納された、履歴バッファから取得され得、第二ＲＧＢ画像全体を再作成するために使用され得る。

別の態様では、システムは、赤－緑－青（ＲＧＢ）画像及び／または赤外線（ＩＲ）画像を生成するように構成される少なくとも１つのカメラユニット、少なくとも１つの画像信号プロセッサ（ＩＳＰ）、及び少なくとも１つのイベント検出センサ（ＥＤＳ）を含み、少なくとも１つのＥＤＳは、ＩＳＰがカメラユニットを制御して現在時刻＝ｔでの第一ＲＧＢ及び／またはＩＲ画像を生成し、ＲＧＢ及び／またはＩＲ画像から、将来時刻＝ｔ＋Ｄの予測画像を外挿することを可能にする信号を出力するように構成される。

別の態様では、方法は、時間値Ｄを受信すること、現在時刻で第一画像を生成すること、及び光強度における変化を表す信号を受信することを含む。光強度における変化を表す信号を使用して、この方法は、現在時刻足す時間値Ｄに等しい将来時刻の予測画像を生成することを含む。

本願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。

本原理に従った例を含む例示的なシステムのブロック図である。拡張現実（ＡＲ）ヘッドマウントデバイス（ＨＭＤ）の概略図である。例示的な環境でのカメラセンサシステムのブロック図である。ＨＭＤアプリケーションの例示的なロジックのフローチャートである。カメラセンサシステムの例示的なロジックのフローチャートである。

本開示は、概して、限定ではないが、コンピュータゲームネットワークのようなコンピュータシミュレーションネットワークなどの家電製品（ＣＥ）デバイスネットワークだけでなく、スタンドアロンコンピュータシミュレーションシステムの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを備え得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機またはＭｉｃｒｏｓｏｆｔ（登録商標）もしくはＮｉｎｔｅｎｄｏ（登録商標）もしくは他の製造者らによって作成されたゲーム機、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加の例を含む他のモバイルデバイスを含む、１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、またはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標）コンピュータもしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の１つ以上の閲覧プログラムを実行し得る。また、１つ以上のコンピュータゲームプログラムを実行するために、本原理による動作環境が用いられ得る。

サーバ及び／またはゲートウェイは、インターネット等のネットワークを介してデータの受信及び送信を行うようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続することができる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピュータ等によってインスタンス化され得る。

情報は、クライアントとサーバとの間のネットワークを介して交換され得る。この目的のために及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。

本明細書で使用される場合、命令は、システムにおいて情報を処理するためにコンピュータにより実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェア内に実装され得、システムのコンポーネントによって実行される任意のタイプのプログラムされたステップを含み得る。

プロセッサは、アドレスライン、データライン、及び制御ラインなどの様々なライン、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、任意の従来の汎用のシングルチッププロセッサまたはマルチチッププロセッサであり得る。

本明細書のフローチャート及びユーザインタフェースによって説明されるソフトウェアモジュールは、様々なサブルーチン、プロシージャなどを含むことができる。本開示を制限することなく、特定のモジュールによって実行されると述べられているロジックは、他のソフトウェアモジュールに再配信され得る、及び／または単一のモジュール内に一緒に組み合わされ得る、及び／または共有可能なライブラリで利用可能になり得る。

本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明されている。

さらに上記に指摘したものについて、下記に説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは特定用途向け集積回路（ＡＳＩＣ）等の他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェアコンポーネント、または本明細書に説明される機能を行うように設計されたそれらのいずれかの組み合わせによって実装できるまたは行うことができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下で説明される機能及び方法は、ソフトウェアにおいて実装されるとき、限定ではないが、Ｊａｖａ（登録商標）、Ｃ＃、またはＣ＋＋等の適切な言語において記述することができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、またはデジタル多用途ディスク（ＤＶＤ）等の他の光ディスクストレージ、磁気ディスクストレージもしくは着脱可能サムドライブ等を含む他の磁気記憶装置等のコンピュータ可読記憶媒体に記憶することができ、またはそれらを通して伝送することができる。接続は、コンピュータ可読媒体を確立し得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線（ＤＳＬ）、及びツイストペアワイヤを含む有線ケーブルを含み得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。

ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び／または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。

「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａを単独で、Ｂを単独で、Ｃを単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、及び／またはＡ、Ｂ、及びＣを一緒に有するシステム等を含む。

ここで具体的に図１を参照すると、例示的なシステム１０は、示されており、本発明の原理による、上述されており、さらに以下で説明される、例示的なデバイスのうちの１つ以上を含み得る。システム１０に含まれる例示的な第一デバイスは、限定されないがＴＶチューナ（同等に、ＴＶを制御するセットトップボックス）を備えたインターネット対応ＴＶなど、オーディオビデオデバイス（ＡＶＤ）１２などの家電製品（ＣＥ）デバイスである。しかし、ＡＶＤ１２は、代わりに、電気器具または家庭用品、例えば、コンピュータ制御でインターネット対応の冷蔵庫、洗濯機、または乾燥機であってよい。あるいは、ＡＶＤ１２はまた、コンピュータ制御型インターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型インターネット対応のインプラント可能なデバイス等であってよい。いずれにしても、ＡＶＤ１２は、本原理を実施する（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ように構成されることを理解されたい。

したがって、このような原理を実施するために、ＡＶＤ１２は、図１に示すコンポーネントの一部または全てによって確立され得る。例えば、ＡＶＤ１２は、高解像度フラットスクリーンまたは「４Ｋ」以上の超高解像度フラットスクリーンによって実装してもよく、ユーザ入力信号をディスプレイ上のタッチを介して受け取るためのタッチ対応であってもよい、１つ以上のディスプレイ１４を含むことが可能である。ＡＶＤ１２は、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６と、例えば、可聴コマンドをＡＶＤ１２に入力して、ＡＶＤ１２を制御するための、例えば、オーディオ受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス１８とを備え得る。例示的ＡＶＤ１２は、また、１つ以上のプロセッサ２４の制御の下、インターネット、ＷＡＮ、ＬＡＮ等の少なくとも１つのネットワーク２２を通じて通信するための１つ以上のネットワークインタフェース２０を含み得る。グラフィックプロセッサ２４Ａを含んでいてもよい。従って、インタフェース２０は、Ｗｉ－Ｆｉ（登録商標）送受信器であり得るが、これに限定されず、Ｗｉ－Ｆｉ（登録商標）送受信器は、非限定的にメッシュネットワーク送受信器などの無線コンピュータネットワークインターフェースの例である。プロセッサ２４は、例えば、画像を提示するようにディスプレイ１４を制御することや、ディスプレイ１４から入力を受信すること等の本明細書に説明されるＡＶＤ１２の他の要素を含むＡＶＤ１２が本原理を実施するように制御することが理解されよう。更に、ネットワークインタフェース２０は、例えば、有線もしくは無線モデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ（登録商標）送受信機などの他の適切なインタフェースであってもよい。

上記のものに加えて、ＡＶＤ１２はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続する高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通してＡＶＤ１２からユーザにオーディオを提供するためにＡＶＤ１２にヘッドフォンを接続するヘッドフォンポート等の１つまたは複数の入力ポート２６を備えてよい。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルソースまたは衛星ソース２６ａに、有線または無線を介して接続され得る。従って、ソース２６ａは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信器であり得る。あるいは、ソース２６ａは、さらに以下で説明される、チャネル割り当て目的でユーザがお気に入りとみなし得るコンテンツを含むゲームコンソールまたはディスクプレーヤであってもよい。ソース２６ａは、ゲームコンソールとして実装されるとき、ＣＥデバイス４４に関連して以下で説明される構成要素のいくつかまたは全てを含んでもよい。

ＡＶＤ１２は、ディスクベースまたはソリッドステートストレージ等の１つ以上のコンピュータメモリ２８であって、一時的信号でなく、場合により、スタンドアロンデバイスとしてＡＶＤのシャーシに具現化され、またはＡＶＤのシャーシの内部もしくは外部のいずれかでＡＶプログラムを再生するためのパーソナルビデオレコーディングデバイス（ＰＶＲ）もしくはビデオディスクプレイヤとして具現化され、またはリムーバブルメモリ媒体として具現化されるコンピュータメモリ２８をさらに含んでもよい。また、いくつかの実施形態では、ＡＶＤ１２は、限定されるものではないが、例えば、少なくとも１つの衛星または携帯電話塔から地理的位置情報を受信し、その情報をプロセッサ２４に提供するように構成され、及び／またはＡＶＤ１２がプロセッサ２４と併せて配置される高度を判定するように構成される携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置または場所の受信機を含み得る。しかし、例えば全３次元において、例えば、ＡＶＤ１２の場所を判定するために、本原理に従って、携帯電話受信機、ＧＰＳ受信機、及び／または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。

ＡＶＤ１２の説明を続けると、ある実施形態では、ＡＶＤ１２は、１つまたは複数のカメラ３２を備えてよく、１つまたは複数のカメラ３２は、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、及び／またはＡＶＤ１２に統合され、本原理に従って写真／画像及び／またはビデオを収集するようプロセッサ２４によって制御可能なカメラであってよい。ＡＶＤ１２にはまた、ブルートゥース（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース（登録商標）送受信機３４及び他のＮＦＣ素子３６が含まれ得る。例示のＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であってもよい。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３７（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ等）を含み得る。ＡＶＤ１２は、プロセッサ２４への入力をもたらすＯＴＡ（無線経由）ＴＶ放送を受信するための無線経由ＴＶ放送ポート３８を含み得る。上述したものに加え、ＡＶＤ１２は、赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／または赤外線データアソシエーション（ＩＲＤＡ）デバイスなどのＩＲ送受信機４２も備えてよいことに留意されよう。ＡＶＤ１２に給電するためのバッテリ（図示せず）が備えられてよい。

さらに図１を参照して、ＡＶＤ１２に加えて、システム１０は、１つまたは複数の他のＣＥデバイスタイプを含んでもよい。一実施例では、コンピュータゲームのオーディオ及びビデオを、ＡＶＤ１２に直接送信されるコマンドを介して、及び／または後述のサーバを通じて、ＡＶＤ１２に送信するために、第一ＣＥデバイス４４が使用され得、第一ＣＥデバイス４４と同様のコンポーネントを第二ＣＥデバイス４６が含み得る。示される例では、第二ＣＥデバイス４６は、示されるようにプレイヤ４７が装着するＡＲヘッドセットとして構成され得る。図示の例では、２つのＣＥデバイス４４、４６のみが示されるが、より少ないまたはより多くのデバイスが使用されてよいことは理解されよう。

図示の例では、本原理を示すために、３つのデバイス１２、４４、４６は全て、例えば家庭のエンターテインメントネットワークのメンバーであること、または少なくとも、住宅等の場所において相互に近接して存在していることが想定される。しかし、本原理は、他に明確に主張されない限り、破線４８によって示される特定の場所に限定されない。

例示的な非限定的な第一ＣＥデバイス４４は、上述のデバイス、例えば、ポータブル無線ラップトップコンピュータまたはノートブックコンピュータまたはゲームコントローラのいずれか１つによって確立されてもよく、したがって、以下で説明される１つ以上のコンポーネントを有してもよい。第一ＣＥデバイス４４は、例えば、ＡＶ再生コマンド及び一時停止コマンドをＡＶＤ１２に発行するためのリモート制御（ＲＣ）であってもよく、またはタブレットコンピュータ、有線もしくは無線リンクを介してＡＶＤ１２と通信するゲームコントローラ及び／またはゲームコンソール、パーソナルコンピュータ、無線電話等のより高性能のデバイスであってもよい。

従って、第一ＣＥデバイス４４は、ディスプレイをタッチしてユーザ入力信号を受信するためにタッチ対応であってよい１つまたは複数のディスプレイ５０を備えてよい。第一ＣＥデバイス４４は、本原理に従って音声を出力するための１つまたは複数のスピーカ５２と、例えば、デバイス４４を制御するために可聴コマンドを第一ＣＥデバイス４４に入力するための、例えば、音声受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス５４とを備えてよい。例示の第一ＣＥデバイス４４はまた、１つ以上のＣＥデバイスプロセッサ５８の制御下で、ネットワーク２２を介して通信するための１つ以上のネットワークインタフェース５６を含み得る。グラフィックプロセッサ５８Ａを含んでいてもよい。従って、インタフェース５６は、Ｗｉ－Ｆｉ送受信器であり得るが、これに限定されず、Ｗｉ－Ｆｉ（登録商標）送受信器は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ５８は、例えば、ディスプレイ５０を画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明される第一ＣＥデバイス４４の他の要素を含む、本原理を実施するように第一ＣＥデバイス４４を制御することが理解されよう。更に、ネットワークインタフェース５６は、例えば、有線もしくは無線モデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機などの他の適切なインタフェースであってもよい。

上記のものに加えて、第一ＣＥデバイス４４はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続するＨＤＭＩ（登録商標）ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通して第一ＣＥデバイス４４からユーザにオーディオを提供するために第一ＣＥデバイス４４にヘッドフォンを接続するヘッドフォンポート等の１つまたは複数の入力ポート６０を備えてよい。第一ＣＥデバイス４４はさらに、ディスクベースストレージまたはソリッドステートストレージなどの１つ以上の有形コンピュータ可読記憶媒体６２を含み得る。また、ある実施形態では、第一ＣＥデバイス４４は、限定ではないが、携帯電話及び／またはＧＰＳ受信機及び／または高度計６４など、位置または場所の受信機を備えることができ、位置または場所の受信機は、例えば、三角測量を使用して、少なくとも１つの衛星タワー及び／または携帯電話タワーから地理的位置情報を受信し、その情報をＣＥデバイスプロセッサ５８に提供し、及び／または第一ＣＥデバイス４４がＣＥデバイスプロセッサ５８と共に配置される高度を決定するように構成される。しかしながら、本原理に従って、例えば、全ての３つの次元において第一ＣＥデバイス４４の位置を決定するために、携帯電話及び／またはＧＰＳ受信機及び／または高度計以外の他の適切な位置受信機が使用されてもよいことを理解されたい。

第一ＣＥデバイス４４の説明を続けると、ある実施形態では、第一ＣＥデバイス４４は、１つまたは複数のカメラ６６を備えてよく、１つまたは複数のカメラ６６は、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、及び／または第一ＣＥデバイス４４に統合され、本原理に従って写真／画像及び／またはビデオを収集するようにＣＥデバイスプロセッサ５８によって制御可能であるカメラであってよい。また、第一ＣＥデバイス４４は、ブルートゥース（登録商標）送受信器６８と他の近距離無線通信（ＮＦＣ）素子７０とを含み得、これらは、ブルートゥース（登録商標）及び／またはＮＦＣ技術をそれぞれ使用して、他のデバイスと通信する。例示のＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であってもよい。

さらにまた、第一ＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の補助センサ７２（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ）等）を含み得る。第一ＣＥデバイス４４は、例えば、１つ以上の気候センサ７４（例えば、気圧計、湿度センサ、ウィンドセンサ、光センサ、温度センサなど）及び／または入力をＣＥデバイスプロセッサ５８に提供する１つ以上のバイオメトリックセンサ７６などのさらに他のセンサを含み得る。前述に加えて、いくつかの実施形態では、第一ＣＥデバイス４４はまた、赤外線データ協会（ＩＲＤＡ）デバイス等の赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機７８を含み得ることに留意されたい。第一ＣＥデバイス４４に給電するためのバッテリ（図示せず）が備えられてよい。ＣＥデバイス４４は、上記の通信モード及び関連コンポーネントのいずれかを介してＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４について示したコンポーネントの一部または全部を含むことができる。一方または両方のＣＥデバイスは、１つ以上のバッテリにより電力供給され得る。

次に、上記の少なくとも１つのサーバ８０についてであるが、このサーバ８０は、少なくとも１つのサーバプロセッサ８２と、ディスクベースまたはソリッドステートストレージ等の少なくとも１つの有形コンピュータ可読記憶媒体８４と、サーバプロセッサ８２の制御下で、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を促進し得る少なくとも１つのネットワークインタフェース８６とを含む。ネットワークインタフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。

したがって、いくつかの実施形態では、サーバ８０は、インターネットサーバまたはサーバ「ファーム」全体であってもよく、「クラウド」機能を含んでもよく、「クラウド」機能を実行してもよく、その結果、システム１０のデバイスは、例えば、ネットワークゲーミングアプリケーションについての例示的な実施形態においてサーバ８０を介して「クラウド」環境にアクセスすることができる。あるいは、サーバ８０は、図１に示す他のデバイスと同じ部屋かまたはその近くにある１つ以上のゲームコンソールまたは他のコンピュータによって実装されてもよい。

本明細書における方法は、当業者によって認識されるように、プロセッサ、適切に構成された特定用途向け集積回路（ＡＳＩＣ）もしくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）モジュール、またはいずれかの他の便利な方式によって実行されるソフトウェア命令として実装されてもよい。採用される場合、ソフトウェア命令は、ＣＤＲＯＭまたはフラッシュドライブ等の非一時的デバイスにおいて具体化されてもよい。代わりに、ソフトウェアコード命令は、無線信号もしくは光信号などの一時的構成で、またはインターネットを通したダウンロードを介して具体化されてよい。

ここで図２を参照すると、拡張現実（ＡＲ）ヘッドマウントディスプレイ２００は、示されており、図１の適切に構成されたＣＥデバイス４６によって実装されることができ、人間４７が着用して、ＨＭＤ２００を通して実世界オブジェクトを見ることができ、ＨＭＤ２００に提示される仮想オブジェクトを見ることができる。ＨＭＤ２００は、１つ以上のカメラセンサシステム（ＣＳＳ）２０２を含むことができる。ＣＳＳ２０２は、赤－緑－青（ＲＧＢ）画像だけでなく赤外線（ＩＲ）画像をも生成することができる。また、ＨＭＤ２００は、イベント検出センサ（ＥＤＳ）２０４を含んでもよい、またはその他の方法で関連付けられてもよい。ＵＳＰＮ７，７２８，２６９と、スイスのチューリッヒにあるｉｎｉＶａｔｉｏｎＡＧのモノクロ強度及びＤＶＳセンサ複合カメラをｈｔｔｐｓ：／／ｉｎｉｖａｔｉｏｎ．ｃｏｍ／ｄｖｐで開示している「ＤｙｎａｍｉｃＶｉｓｉｏｎＰｌａｔｆｏｒｍ」との両方は、参照により本明細書に援用されており、これらのセンサを実装する際に参照されることができる。

本開示と一致するＥＤＳは、光感知アレイの少なくとも１つのピクセルによって感知される光強度における変化を示す出力を提供する。例えば、ピクセルによって感知される光が減少している場合、ＥＤＳの出力は－１であり得、増加している場合、ＥＤＳの出力は＋１であり得る。特定の閾値を下回る光強度における変化がないことは、０の出力バイナリ信号によって示され得る。

また、図２は、ＨＭＤ２００を装着している人間４７の両目２０６及び人間４７の片手または両手２０８を追跡することができることを示す。これは、ＨＭＤ２００に使用されているものと同じＣＳＳ２０２及びＥＤＳ２０４を使用して行われ得る。ただし、示される例では、別個のＣＳＳ２１０及びＥＤＳ２１２は両目２０６を追跡するために使用され、別個のＣＳＳ２１４及びＥＤＳ２１６は手２０８を追跡するために使用される。

図２のＣＳＳ及びＥＤＳからの画像は、ＨＭＤ２００を装着している人間４７の手及び両目を追跡するためにも、ＳＬＡＭ情報を取得してＨＭＤ２００の６ＤＯＦポーズ情報を導出するためにも使用され得る。

図３は、ＨＭＤ２００のＣＳＳ２０２及びＥＤＳ２０４を一例として使用した実装例を示す。示される例では、ＥＤＳ２０４は、その信号を画像信号プロセッサ（ＩＳＰ）パラメータ調整ブロック（ＰＡＢ）３００に送信し、このＩＳＰＰＡＢは、ＣＳＳ２０２によって生成された画像のピクセル値に調整信号を生成して、以下の開示と一致している予測画像をレンダリングする。ＩＳＰＰＡＢ３００は、１つ以上のニューラルネットワーク（ＮＮ）３０４などのアルゴリズムを実行するＩＳＰ３０２によって制御され得る。また、非機械学習アルゴリズムは、ＰＡＢ３００で調整を生成して予測画像をレンダリングするために実行され得る。

示されている例では、ＣＳＳ２０２、ＥＤＳ２０４、及びＩＳＰ３０２はすべて、ＥＤＳ生成画像及びＣＳＳ生成画像を含む画像を格納するためのローカルメモリを含み得る単一のチップ３０６に実装される。コンポーネントの処理は、単一のデジタルシグナルプロセッサ（ＤＳＰ）によって実行されることができる。いずれの場合も、ＩＳＰ３０２は、ＣＳＳ２０２からＲＧＢ／ＩＲを、そしてＮＮ３０４からデータによって生成された予測画像を画像２０８として、６ＤＯＦポーズアプリケーション、ＶＲオブジェクト生成アルゴリズムなどの１つ以上の外部アプリケーション３１０に出力する。

図４は、図３でのアプリケーション３１０が実行することができるロジックを示し、図５は、ＣＳＳ２０２／ＥＤＳ２０４／ＩＳＰ３０２が実行することができるロジックを示す。ブロック４００は、追跡しようとしているオブジェクトのそれぞれに対して、すなわち、ＨＭＤポーズ、またはＨＭＤの着用者の目もしくは手を追跡するために、ロジックが実行され得ることを示す。ブロック４０２では、アプリケーションは、追跡しようとしているオブジェクトの予測画像を知りたいと望む将来への本質的に時間差分であるものを決定する。本明細書では「Ｄ」と称されるこの時間差分は、長さが数ミリ秒であり得、システム内のさまざまなレイテンシに依存している。例えば、ＡＲＨＭＤ２００上で実行しているＡＲアプリケーション３１０は、ユーザがＡＲＨＭＤのディスプレイ内に新しい仮想画像を見るであろう予測時刻を計算することができる。この予測時刻は、所与の画像フレームに対してすべてのＨＭＤアプリケーション処理（追跡、レンダリングなど）が完了するのにかかる時間、及び画像フレームをディスプレイに転送してユーザの目に光を発するまでの時間に基づいている。アプリケーションは、追跡しようとしているオブジェクトの予測された位置またはポーズ、例えば、シーン内のＨＭＤのポーズ、または着用者の目もしくは手がわかっている場合、仮想画像をより適切にレンダリングすることができる。

ブロック４０４に移ると、時間差分「Ｄ」は、カメラシステム、例えば、ＩＳＰ３０２に送信される。それに応答して、ブロック４０６では、アプリケーション３１０は、ＥＤＳ２０４からの光強度変化情報に基づいている将来時刻ｔ＋Ｄの予測画像に加えて、現在時刻「ｔ」でＣＳＳ２０２によって生成された現在のＲＧＢ／ＩＲ画像を返信する。ブロック４０８は、予測された（ＥＤＳ）フレーム及び現在のＲＧＢ／ＩＲフレームを使用して、例えば、ＶＲオブジェクトのエミュレートされた実世界位置とユーザの手が同位置にあるであろうなど、例えば、ＶＲオブジェクトがイベント内に提示され得るＨＭＤ２００上の位置を変更することを示す。ブロック４０６では、受信した画像も、目２０６の視線方向、手２０８のポーズ、及びＨＭＤ２００のポーズを決定するために使用され得る。

ここで図５を参照すると、ブロック５００では、ＩＳＰ３０２は、現在時刻の画像及び現在時刻＋Ｄでの予測画像の要求に加えて、またはその要求を構成する、時間値「Ｄ」をアプリケーション３１０から受信する。次に、ＲＧＢ／ＩＲ画像はＣＳＳ２０２によって現在時刻「ｔ」で取得され、差分光強度値はＥＤＳ２０４から受信される。これらの値は、ブロック５０４で、ＩＳＰパラメータ調整ブロック３００によるＲＧＢ／ＩＲ画像のコピーでの将来時刻＝ｔ＋Ｄのピクセル値を変更し、時刻ｔ＋Ｄの予測画像を生成するために使用される。そうすることで、ＥＤＳ２０４によってピクセルごとに示される光強度における変化が、ＲＧＢ画像が時刻ｔ＋Ｄによってどのように変化すると予想され得るかと相関し、この相関がＮＮ３０４によって学習され得ることに留意されたい。初期に、ＮＮ３０４は、グラウンドトゥルース画像対ＥＤＳ値のトレーニングセットに関してトレーニングされてから、以下で議論されるようにさらにトレーニングされることができる。

ブロック５０６では、現在時刻ｔのＲＧＢ／ＩＲ画像、及び予測画像は、アプリケーション３１０に返される。予測画像を生成する際に、新しいＲＧＢ／ＩＲ画像が実際にすぐに取得されるのではなく、現在のＲＧＢ／ＩＲ画像のコピーのみが変更されることで、電力が節約され、カメラ速度の１秒あたりのフレーム数（ＦＰＳ）を多くする必要性が軽減されることに留意されたい。

ブロック５０６から、ロジックはブロック５０８に移り、時間Ｄで、すなわち、「Ｄ」が時間デルタを表すとき、新しい現在時刻がブロック５０２で画像を生成した「古い」現在時刻足すＤに等しいとき、ＣＳＳ２０２を使用して新しいＲＧＢ／ＩＲ画像を取得する。この第二ＲＧＢ／ＩＲ画像がグラウンドトゥルースとして機能し得ることで、ブロック５１０では、ブロック５０８で生成された第二ＲＧＢ／ＩＲ画像と、ブロック５０４でレンダリングされた予測画像との間の差分を使用して、ＮＮ３０４がさらにトレーニングされ得る。それは、それらの画像の両方が本質的にマッチングするタイムスタンプを有することで、例えば、ローカルにメモリに保存されてからトレーニングのために取得されるときに、それらのデータ構造が伴われることができるため、ＮＮがトレーニングされることができる。トレーニングは、処理能力を節約するために、ブロック５０４で生成されたＥＤＳ変更画像ごとに、またはそれらの画像のサブセットのみに行われ得る。

いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことが理解されよう。

Claims

少なくとも１つの仮想現実または拡張現実（ＡＲ）ヘッドマウントディスプレイ（ＨＭＤ）を含むシステムであって、
前記少なくとも１つの仮想現実またはＡＲＨＭＤは、
赤－緑－青（ＲＧＢ）画像を生成するように構成される少なくとも１つのカメラユニットと、
少なくとも１つの画像信号プロセッサ（ＩＳＰ）と、
少なくとも１つのイベント検出センサ（ＥＤＳ）と、
を含み、
前記少なくとも１つのＥＤＳは、
照明強度における変化を表す信号を前記ＩＳＰに出力し、前記ＩＳＰが前記カメラユニットを制御して現在時刻＝ｔでの第一ＲＧＢ画像を生成し、前記ＲＧＢ画像から、将来時刻＝ｔ＋Ｄの予測画像を外挿するように構成され、Ｄは時間値である、
前記システム。
前記カメラユニットは赤外線（ＩＲ）画像を生成するように構成される、請求項１に記載のシステム。
前記カメラユニット、前記ＩＳＰ、及び前記ＥＤＳは、単一のチップに配置される、請求項１に記載のシステム。
前記カメラユニット、前記ＩＳＰ、及び前記ＥＤＳの処理は、デジタルシグナルプロセッサ（ＤＳＰ）によって実施される、請求項１に記載のシステム。
前記ＩＳＰは、前記ＨＭＤに関連する少なくとも１つのアプリケーションから前記時間値Ｄを受信するように構成される、請求項１に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な、前記第一画像及び前記予測画像を前記アプリケーションに返す命令で構成される、請求項５に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な、前記時刻ｔ＋Ｄに第二ＲＧＢ画像を生成する命令で構成される、請求項１に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な命令で構成され、前記命令は、
少なくとも１つのニューラルネットワーク（ＮＮ）を実行して前記予測画像を生成することと、
前記第一画像と早期の第二画像との間の差分を、前記第二画像に関連するタイムスタンプにマッチングする前記第一画像に関連するタイムスタンプに少なくとも部分的に基づいて、前記ＮＮにフィードバックすることと、
のためのものである、請求項７に記載のシステム。
赤－緑－青（ＲＧＢ）画像及び／または赤外線（ＩＲ）画像を生成するように構成される少なくとも１つのカメラユニットと、
少なくとも１つの画像信号プロセッサ（ＩＳＰ）と、
少なくとも１つのイベント検出センサ（ＥＤＳ）と、
を含み、
前記少なくとも１つのＥＤＳは、
前記ＩＳＰが前記カメラユニットを制御して、現在時刻＝ｔでの第一ＲＧＢ及び／またはＩＲ画像を生成し、前記ＲＧＢ及び／またはＩＲ画像から、将来時刻＝ｔ＋Ｄの予測画像を外挿することを可能にする信号を出力するように構成される、
システム。
前記カメラユニットはＲＧＢ画像を生成するように構成される、請求項９に記載のシステム。
前記カメラユニット、前記ＩＳＰ、及び前記ＥＤＳは、単一のチップに配置される、請求項９に記載のシステム。
前記カメラユニット、前記ＩＳＰ、及び前記ＥＤＳは、デジタルシグナルプロセッサ（ＤＳＰ）に実装される、請求項９に記載のシステム。
前記ＩＳＰは、ヘッドマウントディスプレイ（ＨＭＤ）に関連する少なくとも１つのアプリケーションからＤを受信するように構成される、請求項９に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な、前記第一画像及び前記予測画像を前記アプリケーションに返す命令で構成される、請求項１３に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な、前記時刻ｔ＋Ｄに第二画像を生成する命令で構成される、請求項１に記載のシステム。
前記ＩＳＰは、前記ＩＳＰによって実行可能な命令で構成され、前記命令は、
少なくとも１つのニューラルネットワーク（ＮＮ）を実行して前記予測画像を生成することと、
前記第二画像を前記ＮＮにフィードバックして前記ＮＮをトレーニングすることと、
のためのものである、請求項１５に記載のシステム。
前記ＥＤＳによって出力される前記信号は、照明強度における変化を表す、請求項９に記載のシステム。
時間Ｄを受信することと、
現在時刻で第一画像を生成することと、
光強度における変化を表す信号を受信することと、
前記光強度における変化を表す前記信号を使用して、前記現在時刻足すＤに等しい将来時刻の予測画像を生成することと、
を含む、方法。
前記第一画像及び前記予測画像を、ヘッドマウントディスプレイ（ＨＭＤ）に関連する少なくとも１つのアプリケーションに返すことを含む、請求項１８に記載の方法。
少なくとも１つのニューラルネットワーク（ＮＮ）を使用して前記予測画像を生成することと、
前記第一画像が生成された前記現在時刻足すＤに等しい時刻での第二画像を生成することと、
前記第二画像を前記ＮＮに提供して、前記ＮＮをトレーニングすることと、
を含む、請求項１８に記載の方法。