JP6961007B2

JP6961007B2 - 複合現実デバイスにおける仮想および実オブジェクトの記録

Info

Publication number: JP6961007B2
Application number: JP2019546368A
Authority: JP
Inventors: ジチャンフアン，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2017-02-28
Filing date: 2018-02-27
Publication date: 2021-11-05
Anticipated expiration: 2038-02-27
Also published as: IL288137B1; IL311069A; EP4270166A3; IL288137B2; AU2018227710A1; CA3052834A1; US11669298B2; EP3590097A1; IL288137A; US20220057985A1; JP2020509492A; JP2023095956A; AU2018227710B2; KR20210119589A; AU2022204210B2; KR20220101210A; WO2018160593A1; AU2022204210A1; US20200310748A1; IL301932A

Description

本発明は、概して、仮想現実および拡張現実システムに関する。

現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」または「拡張現実」体験のための複合現実システムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える、またはそのように知覚され得る様式でユーザに提示される。仮想現実または「ＶＲ」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実または「ＡＲ」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う（すなわち、他の実際の実世界視覚的入力に対して透過性である）。故に、ＡＲシナリオは、他の実際の実世界視覚的入力に対する透過性を伴って、デジタルまたは仮想画像情報の提示を伴う。

例えば、図１を参照すると、拡張現実場面４が、描写されており、ＡＲ技術のユーザには、人々、木々、背景における建物、およびコンクリートプラットフォーム８を特徴とする、実世界公園状設定６が見える。これらのアイテムに加え、ＡＲ技術のエンドユーザはまた、実世界プラットフォーム８上に立っているロボット像１０、およびマルハナバチの擬人化のように見える、飛んでいる漫画のようなアバタキャラクタ１２を「見ている」と知覚するが、これらの要素１０、１２は、実世界には存在しない。結論から述べると、ヒトの視知覚系は、非常に複雑であって、他の仮想または実世界画像要素間における仮想画像要素の快適で、自然のような感覚で、かつ豊かな提示を促進する、ＶＲまたはＡＲ技術の生産は、困難である。

ＶＲおよびＡＲシステムは、典型的には、少なくともユーザの頭部に緩く結合され、したがって、エンドユーザの頭部が移動すると移動する、頭部装着型ディスプレイ（またはヘルメット搭載型ディスプレイ、またはスマートグラス）を採用する。エンドユーザの頭部運動が、ディスプレイシステムによって検出される場合、表示されているデータは、頭部姿勢（すなわち、ユーザの頭部の配向および／または場所）の変化を考慮するように更新されることができる。ＡＲ（すなわち、仮想および実オブジェクトの同時視認）を有効にする、頭部装着型ディスプレイは、いくつかの異なるタイプの構成を有することができる。多くの場合、「ビデオシースルー」ディスプレイと称される、１つのそのような構成では、カメラが、実場面の要素を捕捉し、コンピューティングシステムが、仮想要素を捕捉された実場面上に重畳し、不透明ディスプレイが、合成画像を眼に提示する。別の構成は、多くの場合、「光学シースルー」ディスプレイと称され、エンドユーザには、ディスプレイシステム内の透明（または半透明）要素を通して、環境内の実オブジェクトからの光が透けて見え、それを直接視認することができる。多くの場合、「コンバイナ」と称される、透明要素は、ディスプレイからの光を実世界のエンドユーザのビューにわたって重畳する。

多くの場合、ＶＲ／ＡＲシステムのユーザは、後にオンラインで公開するために、体験をＶＲ／ＡＲシステム上に記録および保存することによって、その体験を他者と共有することを所望し得る（例えば、ゲームをプレーする、テレビ会議を行う、または映画を鑑賞するとき）。しかしながら、典型的には、雑音環境に起因して、雑音および他の望ましくないまたは予期しない音が記録内に存在し得る、またはそれ以外の体験に対して注意が逸らされる、非常に多くの音源が存在し得る。そのような望ましくない／予期しない音は、実オブジェクトから、例えば、ＶＲ／ＡＲシステムの近傍で遊んでいる子供から、または仮想オブジェクトから、例えば、ＶＲ／ＡＲシステムのコンテキストにおいて再生中の仮想テレビから生じ得る。

したがって、ユーザが関心がある仮想または実オブジェクトのみからの音を記録するための単純および効率的手段を提供する必要が残ったままである。

本発明の第１の側面によると、エンドユーザによる使用のための仮想画像生成システムは、メモリと、ディスプレイサブシステムと、入力をエンドユーザから受信し、エンドユーザ入力に応答して、少なくとも１つのオブジェクト（例えば、実オブジェクトおよび／または仮想オブジェクト）を持続的に選択するために構成される、オブジェクト選択デバイスとを備える。一実施形態では、ディスプレイサブシステムは、視野を有し、オブジェクト選択デバイスは、視野内のオブジェクトを持続的に選択するために構成される。この場合、オブジェクト選択デバイスは、エンドユーザ入力の受信に応答して、３次元カーソルをディスプレイサブシステムの視野内で移動させ、オブジェクトを選択するために構成されてもよい。別の実施形態では、エンドユーザ入力は、１つ以上の音声コマンドを備え、オブジェクト選択デバイスは、音声コマンドを感知するために構成される、１つ以上のマイクロホンを備える。さらに別の実施形態では、エンドユーザ入力は、１つ以上の手のジェスチャを備え、その場合、オブジェクト選択デバイスは、手のジェスチャを感知するために構成される、１つ以上のカメラを備えてもよい。

複数のオブジェクトが選択される場合、オブジェクト選択デバイスは、エンドユーザ入力に応答して、オブジェクトを個々に選択および／または大域的に選択するために構成されてもよい。大域的に選択される場合、オブジェクト選択デバイスは、エンドユーザ入力に応答して、視野の角度範囲（視野の角度範囲全体未満であってもよい、または視野の角度範囲全体であってもよい）内の全てのオブジェクトを大域的に選択するために構成されてもよい。一実施形態では、オブジェクト選択デバイスはさらに、他のエンドユーザ入力に応答して、別の入力をエンドユーザから受信し、以前に選択されたオブジェクトを持続的に選択解除するために構成される。

仮想画像生成システムはさらに、少なくとも１つの選択されたオブジェクトから生じるビデオデータを生成し、複数の画像フレームをビデオデータからの３次元場面内にレンダリングし、画像フレームをディスプレイサブシステムに伝達するために構成される、制御サブシステムを備える。一実施形態では、ディスプレイサブシステムは、エンドユーザの眼の正面に位置付けられるために構成される。別の実施形態では、ディスプレイサブシステムは、投影サブシステムおよび部分的に透明なディスプレイ表面を含む。この場合、投影サブシステムは、画像フレームを部分的に透明なディスプレイ表面上に投影させるために構成されてもよく、部分的に透明なディスプレイ表面は、エンドユーザの眼と周囲環境との間の視野内に位置付けられるために構成されてもよい。仮想画像生成システムはさらに、エンドユーザによって装着されるために構成され、ディスプレイサブシステムの少なくとも一部を担持する、フレーム構造を備えてもよい。

制御サブシステムはさらに、選択されたオブジェクトから生じるオーディオデータを生成することと、オーディオデータをメモリ内に記憶することとのために構成される。仮想画像生成システムはさらに、複数のスピーカを備えてもよく、その場合、制御サブシステムはさらに、生成されたオーディオデータをスピーカに伝達するために構成されてもよい。随意の実施形態では、制御サブシステムはさらに、オーディオデータと同期するビデオデータをメモリ内に記憶するために構成される。さらに別の実施形態では、仮想画像生成システムはさらに、ディスプレイサブシステムの視野に対する選択されたオブジェクトの場所を追跡するために構成される、少なくとも１つのセンサを備える。この場合、制御サブシステムは、選択されたオブジェクトの追跡された場所がディスプレイサブシステムの視野外に移動すると、オーディオデータをメモリ内に記憶することを中止するために構成される、または代替として、選択されたオブジェクトの追跡された場所がディスプレイサブシステムの視野外に移動すると、オーディオデータをメモリ内に記憶することを継続するために構成されてもよい。

選択されたオブジェクトが、実オブジェクトを含む場合、仮想画像生成システムはさらに、オーディオ出力を生成するために構成される、マイクロホンアセンブリを備えてもよく、その場合、制御サブシステムはさらに、オーディオ出力の方向を修正し、選択された実オブジェクトから生じる音を優先的に感知するために構成されてもよい。オーディオデータは、修正されたオーディオ出力から導出されてもよい。仮想画像生成システムはさらに、選択された実オブジェクトから生じるビデオデータを捕捉するために構成される、１つ以上のカメラを備えてもよく、その場合、制御サブシステムはさらに、オーディオデータと同期するビデオデータをメモリ内に記憶するために構成されてもよい。制御サブシステムは、捕捉されたビデオデータを選択された実オブジェクトのための仮想コンテンツデータに変換し、仮想コンテンツをメモリ内に記憶するために構成されてもよい。

選択されたオブジェクトが、仮想オブジェクトを含む場合、仮想画像生成システムはさらに、複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶するために構成される、データベースを備えてもよく、その場合、制御サブシステムはさらに、選択された仮想オブジェクトに対応するコンテンツデータをデータベースから入手するために構成されてもよく、メモリ内に記憶されるオーディオデータは、入手されたコンテンツデータを含む。制御サブシステムはさらに、選択された仮想オブジェクトに対応するメタデータ（例えば、選択された仮想オブジェクトのための位置、配向、および音量データ）を生成するために構成されてもよく、その場合、メモリ内に記憶されるオーディオデータは、入手されたコンテンツデータおよび生成されたメタデータを含んでもよい。一実施形態では、仮想画像生成システムはさらに、エンドユーザの頭部姿勢を追跡するために構成される、１つ以上のセンサを備え、その場合、データベースは、複数の仮想オブジェクトのための絶対メタデータを記憶するために構成されてもよく、制御サブシステムはさらに、選択された仮想オブジェクトに対応する絶対メタデータを入手し、エンドユーザの追跡された頭部姿勢に基づいて、絶対メタデータをエンドユーザに対して局所化することによって、メタデータを生成するために構成されてもよい。

仮想画像生成システムはさらに、少なくとも１つのスピーカを備えてもよく、その場合、制御サブシステムはさらに、記憶されたオーディオデータをメモリから読み出し、オーディオを読み出されたオーディオデータから導出し、オーディオをスピーカに伝達するために構成されてもよい。メモリ内に記憶されるオーディオデータは、コンテンツデータおよびメタデータを含んでもよく、その場合、制御サブシステムはさらに、記憶されたコンテンツデータおよびメタデータをメモリから読み出し、読み出されたコンテンツデータおよびメタデータに基づいて、空間化オーディオをレンダリングし、レンダリングされた空間化オーディオをスピーカに伝達するために構成されてもよい。

本発明の第２の側面によると、エンドユーザによって仮想画像生成システムを動作させる方法が、提供される。本方法は、少なくとも１つのオブジェクト（例えば、実オブジェクトおよび／または仮想オブジェクト）を持続的に選択するステップを含む。１つの方法では、オブジェクトを選択するステップは、３次元カーソルをエンドユーザの視野内で移動させ、３次元カーソルを用いてオブジェクトを選択するステップを含む。別の方法では、オブジェクトを選択するステップは、１つ以上の音声コマンドを発行するステップを含む。さらに別の方法では、少なくとも１つのオブジェクトを選択するステップは、１つ以上の手のジェスチャを行うステップを含む。複数のオブジェクトが、選択される場合、複数のオブジェクトを選択するステップは、オブジェクトを個々に選択するステップおよび／またはオブジェクトを大域的に選択するステップを含んでもよい。大域的に選択される場合、オブジェクトは、エンドユーザの視野の角度範囲を定義し（視野の角度範囲全体未満であってもよい、または視野の角度範囲全体であってもよい）、エンドユーザの視野の定義された角度範囲内のオブジェクトの全てを選択することによって、選択されてもよい。随意の方法はさらに、以前に選択されたオブジェクトを持続的に選択解除するステップを含んでもよい。

本方法はさらに、選択されたオブジェクトから生じるビデオデータを生成するステップと、複数の画像フレームを生成されたビデオデータからの３次元場面内にレンダリングするステップと、画像フレームをエンドユーザに表示するステップと、少なくとも１つの選択されたオブジェクトから生じるオーディオデータを生成するステップと、少なくとも１つの選択されたオブジェクトから生じるオーディオデータをメモリ内に記憶するステップとを含む。１つの方法はさらに、選択されたオブジェクトから生じるオーディオデータをエンドユーザによる知覚のための音に変換するステップを含んでもよい。本方法は、随意に、オーディオデータと同期するビデオデータをメモリ内に記憶するステップを含んでもよい。さらに別の方法はさらに、エンドユーザの視野に対する選択されたオブジェクトの場所を追跡するステップを含んでもよい。この場合、本方法はさらに、選択されたオブジェクトの追跡された場所がエンドユーザの視野外に移動すると、オーディオデータをメモリ内に記憶することを中止するステップ、または代替として、選択されたオブジェクトの追跡された場所がエンドユーザの視野外に移動すると、オーディオデータをメモリ内に記憶することを継続するステップを含んでもよい。

選択されたオブジェクトが、実オブジェクトを含む場合、本方法はさらに、他の実オブジェクトから生じる音と比較して、選択された実オブジェクトから生じる音を優先的に感知するステップを含んでもよく、その場合、オーディオデータは、優先的に感知される音から導出されてもよい。本方法はさらに、選択された実オブジェクトから生じるビデオデータを捕捉し、オーディオデータと同期するビデオデータをメモリ内に記憶するステップを含んでもよい。捕捉されたビデオデータは、メモリ内への記憶のために、仮想コンテンツデータに変換されてもよい。

選択されたオブジェクトが、仮想オブジェクトを含む場合、本方法はさらに、複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶し、選択された仮想オブジェクトに対応するコンテンツデータを入手するステップを含んでもよく、その場合、メモリ内に記憶されるオーディオデータは、入手されたコンテンツデータを含んでもよい。本方法はさらに、選択された仮想オブジェクトに対応するメタデータ（例えば、選択された仮想オブジェクトのための位置、配向、および音量データ）を生成するステップを含んでもよく、その場合、メモリ内に記憶されるオーディオデータは、入手されたコンテンツデータおよび生成されたメタデータを含んでもよい。本方法はさらに、エンドユーザの頭部姿勢を追跡するステップと、複数の仮想オブジェクトのための絶対メタデータを記憶するステップとを含んでもよい。この場合、メタデータを生成するステップは、選択された仮想オブジェクトに対応する絶対メタデータを読み出し、エンドユーザの追跡された頭部姿勢に基づいて、絶対メタデータをエンドユーザに対して局所化するステップを含んでもよい。

本方法はさらに、記憶されたオーディオデータを読み出すステップと、オーディオを読み出されたオーディオデータから導出するステップと、オーディオをエンドユーザによる知覚のための音に変換するステップとを含んでもよい。記憶されたオーディオデータは、コンテンツデータおよびメタデータを含んでもよく、その場合、本方法はさらに、記憶されたコンテンツデータおよびメタデータをメモリから読み出すステップと、読み出されたコンテンツデータおよびメタデータに基づいて、空間化オーディオをレンダリングするステップと、空間化オーディオをエンドユーザによる知覚のための音に変換するステップとを含んでもよい。

本発明の第３の側面によると、再生ユーザによる使用のための仮想画像生成システムが、提供される。仮想画像生成システムは、オリジナル空間環境内の少なくとも１つのオブジェクト（例えば、実オブジェクトおよび／または仮想オブジェクト）から生じるオーディオコンテンツデータおよびビデオコンテンツデータを記憶するために構成される、メモリと、複数のスピーカと、ディスプレイサブシステムとを備える。一実施形態では、ディスプレイサブシステムは、エンドユーザの眼の正面に位置付けられるために構成される。別の実施形態では、ディスプレイサブシステムは、投影サブシステムおよび部分的に透明なディスプレイ表面を含む。この場合、投影サブシステムは、画像フレームを部分的に透明なディスプレイ表面上に投影させるために構成されてもよく、部分的に透明なディスプレイ表面は、エンドユーザの眼と周囲環境との間の視野内に位置付けられるために構成されてもよい。仮想画像生成システムはさらに、エンドユーザによって装着されるために構成され、ディスプレイサブシステムの少なくとも一部を担持する、フレーム構造を備えてもよい。

仮想画像生成システムはさらに、オーディオコンテンツデータおよびビデオコンテンツデータをメモリから読み出し、読み出されたオーディオコンテンツデータおよびビデオコンテンツデータからそれぞれオーディオおよびビデオをオリジナル空間環境と異なる新しい空間環境内にレンダリングし、レンダリングされたオーディオをスピーカに、生成されたビデオデータをディスプレイサブシステムに同期して伝達するために構成される、制御サブシステムを備える。

一実施形態では、制御サブシステムは、オーディオコンテンツデータおよびビデオコンテンツデータをメモリ内に記憶するために構成される。仮想画像生成システムはさらに、入力をエンドユーザから受信し、メモリ内へのオーディオコンテンツデータおよびビデオコンテンツデータの記憶に先立って、エンドユーザ入力に応答して、オリジナル空間環境内のオブジェクトを持続的に選択するために構成される、オブジェクト選択デバイスを備えてもよい。

オブジェクトが、実オブジェクトを含む場合、仮想画像生成システムはさらに、オーディオコンテンツデータをオリジナル空間環境内の実オブジェクトから捕捉するために構成される、マイクロホンアセンブリを備えてもよい。マイクロホンアセンブリは、オーディオ出力を生成するために構成されてもよく、その場合、制御サブシステムはさらに、オーディオ出力の方向を修正し、選択された実オブジェクトから生じる音を優先的に感知するために構成されてもよい。オーディオコンテンツデータは、修正されたオーディオ出力から導出されてもよい。仮想画像生成システムはさらに、ビデオデータをオリジナル空間環境内の選択された実オブジェクトから捕捉するために構成される、１つ以上のカメラを備えてもよい。随意の実施形態では、制御サブシステムは、捕捉されたビデオデータを選択された実オブジェクトのための仮想コンテンツデータに変換し、仮想コンテンツデータをビデオコンテンツデータとしてメモリ内に記憶するために構成されてもよい。

オブジェクトが、仮想オブジェクトを含む場合、仮想画像生成システムはさらに、複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶するために構成される、データベースを備えてもよく、その場合、制御サブシステムはさらに、仮想オブジェクトに対応するコンテンツデータをデータベースから入手するために構成されてもよく、メモリ内に記憶されるオーディオデータは、入手されたコンテンツデータを含んでもよい。

一実施形態では、制御サブシステムは、新しい空間環境内の少なくとも１つのオブジェクトに対応する絶対メタデータを入手し、読み出されたオーディオコンテンツデータおよび絶対メタデータからのオーディオを新しい空間環境内にレンダリングするために構成される。新しい空間環境内のオブジェクトに対応する絶対メタデータを入手することは、オブジェクトを新しい空間環境内に位置付けることを含んでもよい。この場合、仮想画像生成システムはさらに、入力を再生ユーザから受信するために構成される、ユーザ入力デバイスを備えてもよく、その場合、制御サブシステムは、再生ユーザからの入力に応答して、オブジェクトを新しい空間環境内に位置付けるために構成されてもよい。仮想画像生成システムはさらに、再生ユーザの頭部姿勢を追跡するために構成される、１つ以上のセンサを備えてもよく、その場合、制御サブシステムはさらに、レンダリングされたオーディオが空間化されるように、再生ユーザの追跡された頭部姿勢に基づいて、絶対メタデータを再生ユーザに対して局所化するために構成されてもよい。

本発明の第４の側面によると、オリジナル空間環境内でオーディオコンテンツデータおよびビデオコンテンツデータとして以前に記録された少なくとも１つのオブジェクト（例えば、実オブジェクトおよび／または仮想オブジェクト）のオーディオおよびビデオを再生するために、再生ユーザによって仮想画像生成システムを動作させる方法が、提供される。本方法は、オーディオコンテンツデータおよびビデオコンテンツデータをメモリから読み出すステップを含む。１つの方法はさらに、オーディオコンテンツデータおよびビデオコンテンツデータをメモリ内に記憶するステップを含む。この場合、本方法はさらに、メモリ内へのオーディオコンテンツデータおよびビデオコンテンツデータの記憶に先立って、オリジナル空間環境内のオブジェクトを持続的に選択するステップを含んでもよい。

オブジェクトが、実オブジェクトを含む場合、本方法はさらに、オーディオコンテンツデータを実オブジェクトから捕捉するステップを含んでもよい。この場合、本方法はさらに、他の実オブジェクトから生じる音と比較して、選択された実オブジェクトから生じる音を優先的に感知するステップを含んでもよい。オーディオコンテンツデータは、優先的に感知される音から導出される。本方法はさらに、ビデオデータを選択された実オブジェクトから捕捉するステップと、捕捉されたビデオデータを仮想コンテンツデータに変換するステップとを含んでもよい。オブジェクトが、仮想オブジェクトを含む場合、本方法はさらに、複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶するステップと、仮想オブジェクトに対応するコンテンツデータをデータベースから入手するステップとを含んでもよい。メモリ内に記憶されるオーディオコンテンツデータは、入手されたコンテンツデータを含んでもよい。

本方法はさらに、読み出されたオーディオコンテンツデータおよびビデオコンテンツデータからそれぞれオーディオおよびビデオをオリジナル空間環境と異なる新しい空間環境内にレンダリングし、オーディオおよびビデオをそれぞれ音および画像フレームに変換するステップと、音および画像フレームを再生ユーザに同期して伝達するステップとを含む。１つの方法はさらに、新しい空間環境内のオブジェクトに対応する絶対メタデータを入手するステップを含み、その場合、オーディオは、読み出されたオーディオコンテンツデータおよび絶対メタデータから新しい空間環境内にレンダリングされる。本方法はさらに、再生ユーザの頭部姿勢を追跡するステップと、再生ユーザの追跡された頭部姿勢に基づいて、絶対メタデータを再生ユーザに対して局所化するステップとを含んでもよく、その場合、オーディオは、レンダリングされたオーディオが空間化されるように、読み出されたオーディオコンテンツデータおよび局所的メタデータから新しい空間環境内にレンダリングされてもよい。新しい空間環境内のオブジェクトに対応する絶対メタデータを入手するステップは、例えば、再生ユーザからの入力に応答して、オブジェクトを新しい空間環境内に位置付けるステップを含んでもよい。

本発明の付加的および他の目的、特徴、および利点は、詳細な説明、図、および請求項に説明される。
本発明は、例えば、以下を提供する。
（項目１）
エンドユーザによる使用のための仮想画像生成システムであって、
メモリと、
ディスプレイサブシステムと、
オブジェクト選択デバイスであって、前記オブジェクト選択デバイスは、入力を前記エンドユーザから受信し、エンドユーザ入力に応答して、少なくとも１つのオブジェクトを持続的に選択するために構成される、オブジェクト選択デバイスと、
制御サブシステムであって、前記制御サブシステムは、少なくとも１つの選択されたオブジェクトから生じるビデオデータを生成し、複数の画像フレームを前記ビデオデータからの３次元場面内にレンダリングし、前記画像フレームを前記ディスプレイサブシステムに伝達し、前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータを生成することと、前記オーディオデータを前記メモリ内に記憶することとのために構成される、制御サブシステムと
を備える、仮想画像生成システム。
（項目２）
前記制御サブシステムはさらに、前記オーディオデータと同期する前記ビデオデータを前記メモリ内に記憶するために構成される、項目１に記載の仮想画像生成システム。
（項目３）
複数のスピーカをさらに備え、前記制御サブシステムはさらに、前記生成されたオーディオデータを前記スピーカに伝達するために構成される、項目１に記載の仮想画像生成システム。
（項目４）
前記ディスプレイサブシステムは、視野を有し、前記オブジェクト選択デバイスは、前記視野内の前記少なくとも１つのオブジェクトを持続的に選択するために構成される、項目１に記載の仮想画像生成システム。
（項目５）
前記オブジェクト選択デバイスは、３次元カーソルを前記ディスプレイサブシステムの視野内で移動させ、前記エンドユーザ入力の受信に応答して、前記少なくとも１つのオブジェクトを選択するために構成される、項目４に記載の仮想画像生成システム。
（項目６）
前記エンドユーザ入力は、１つ以上の音声コマンドを含み、前記オブジェクト選択デバイスは、前記１つ以上の音声コマンドを感知するために構成される１つ以上のマイクロホンを備える、項目１に記載の仮想画像生成システム。
（項目７）
前記エンドユーザ入力は、１つ以上の手のジェスチャを含み、前記オブジェクト選択デバイスは、前記１つ以上の手のジェスチャを感知するために構成される１つ以上のカメラを備える、項目１に記載の仮想画像生成システム。
（項目８）
前記少なくとも１つのオブジェクトは、複数のオブジェクトを含み、前記オブジェクト選択デバイスは、前記エンドユーザ入力に応答して、前記オブジェクトを個々に選択するために構成される、項目１に記載の仮想画像生成システム。
（項目９）
前記少なくとも１つのオブジェクトは、複数のオブジェクトを含み、前記オブジェクト選択デバイスは、前記エンドユーザ入力に応答して、前記オブジェクトを大域的に選択するために構成される、項目１に記載の仮想画像生成システム。
（項目１０）
前記オブジェクト選択デバイスは、前記エンドユーザ入力に応答して、前記視野の角度範囲内の全てのオブジェクトを大域的に選択するために構成される、項目９に記載の仮想画像生成システム。
（項目１１）
前記角度範囲は、前記視野の角度範囲全体未満である、項目１０に記載の仮想画像生成システム。
（項目１２）
前記角度範囲は、前記視野の角度範囲全体である、項目１０に記載の仮想画像生成システム。
（項目１３）
前記オブジェクト選択デバイスはさらに、別の入力を前記エンドユーザから受信し、他のエンドユーザ入力に応答して、少なくとも１つの以前に選択されたオブジェクトを持続的に選択解除するために構成される、項目１に記載の仮想画像生成システム。
（項目１４）
前記ディスプレイサブシステムの視野に対する前記少なくとも１つの選択されたオブジェクトの場所を追跡するために構成される少なくとも１つのセンサをさらに備える、項目１に記載の仮想画像生成システム。
（項目１５）
前記制御サブシステムは、前記少なくとも１つの選択されたオブジェクトの追跡された場所が前記ディスプレイサブシステムの視野外に移動すると、前記オーディオデータを前記メモリ内に記憶することを中止するために構成される、項目１４に記載の仮想画像生成システム。
（項目１６）
前記制御サブシステムは、前記少なくとも１つの選択されたオブジェクトの追跡された場所が前記ディスプレイサブシステムの視野外に移動すると、前記オーディオデータを前記メモリ内に記憶することを継続するために構成される、項目１４に記載の仮想画像生成システム。
（項目１７）
前記少なくとも１つの選択されたオブジェクトは、実オブジェクトを含む、項目１に記載の仮想画像生成システム。
（項目１８）
オーディオ出力を生成するために構成されるマイクロホンアセンブリをさらに備え、前記制御サブシステムはさらに、オーディオ出力の方向を修正し、前記選択された実オブジェクトから生じる音を優先的に感知するために構成され、前記オーディオデータは、前記修正されたオーディオ出力から導出される、項目１７に記載の仮想画像生成システム。
（項目１９）
前記選択された実オブジェクトから生じるビデオデータを捕捉するために構成される１つ以上のカメラをさらに備え、前記制御サブシステムはさらに、前記オーディオデータと同期する前記ビデオデータを前記メモリ内に記憶するために構成される、項目１７に記載の仮想画像生成システム。
（項目２０）
前記制御サブシステムは、前記捕捉されたビデオデータを前記選択された実オブジェクトのための仮想コンテンツデータに変換し、前記仮想コンテンツを前記メモリ内に記憶するために構成される、項目１９に記載の仮想画像生成システム。
（項目２１）
前記少なくとも１つの選択されたオブジェクトは、仮想オブジェクトを含む、項目１に記載の仮想画像生成システム。
（項目２２）
複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶するために構成されるデータベースをさらに備え、前記制御サブシステムはさらに、前記選択された仮想オブジェクトに対応するコンテンツデータを前記データベースから入手するために構成され、前記メモリ内に記憶されるオーディオデータは、前記入手されたコンテンツデータを含む、項目２１に記載の仮想画像生成システム。
（項目２３）
前記制御サブシステムはさらに、前記選択された仮想オブジェクトに対応するメタデータを生成するために構成され、前記メモリ内に記憶されるオーディオデータは、前記入手されたコンテンツデータおよび生成されたメタデータを含む、項目２２に記載の仮想画像生成システム。
（項目２４）
前記メタデータは、前記選択された仮想オブジェクトのための位置、配向、および音量データを含む、項目２３に記載の仮想画像生成システム。
（項目２５）
前記エンドユーザの頭部姿勢を追跡するために構成される１つ以上のセンサをさらに備え、前記データベースは、前記複数の仮想オブジェクトのための絶対メタデータを記憶するために構成され、前記制御サブシステムはさらに、前記選択された仮想オブジェクトに対応する絶対メタデータを入手し、前記エンドユーザの追跡された頭部姿勢に基づいて、前記絶対メタデータを前記エンドユーザに対して局所化することによって、前記メタデータを生成するために構成される、項目２３に記載の仮想画像生成システム。
（項目２６）
少なくとも１つのスピーカをさらに備え、前記制御サブシステムはさらに、前記記憶されたオーディオデータを前記メモリから読み出し、オーディオを前記読み出されたオーディオデータから導出し、前記オーディオを前記少なくとも１つのスピーカに伝達するために構成される、項目１に記載の仮想画像生成システム。
（項目２７）
前記メモリ内に記憶されるオーディオデータは、コンテンツデータおよびメタデータを含み、前記制御サブシステムはさらに、前記記憶されたコンテンツデータおよびメタデータを前記メモリから読み出し、前記読み出されたコンテンツデータおよびメタデータに基づいて、空間化オーディオをレンダリングし、前記レンダリングされた空間化オーディオを前記少なくとも１つのスピーカに伝達するために構成される、項目２６に記載の仮想画像生成システム。
（項目２８）
前記ディスプレイサブシステムは、前記エンドユーザの眼の正面に位置付けられるために構成される、項目１に記載の仮想画像生成システム。
（項目２９）
前記ディスプレイサブシステムは、投影サブシステムおよび部分的に透明なディスプレイ表面を含み、前記投影サブシステムは、前記画像フレームを前記部分的に透明なディスプレイ表面上に投影させるために構成され、前記部分的に透明なディスプレイ表面は、前記エンドユーザの眼と周囲環境との間の視野内に位置付けられるために構成される、項目２８に記載の仮想画像生成システム。
（項目３０）
前記エンドユーザによって装着されるために構成されるフレーム構造をさらに備え、前記フレーム構造は、前記ディスプレイサブシステムの少なくとも一部を担持する、項目２８に記載の仮想画像生成システム。
（項目３１）
エンドユーザによって仮想画像生成システムを動作させる方法であって、
少なくとも１つのオブジェクトを持続的に選択することと、
少なくとも１つの選択されたオブジェクトから生じるビデオデータを生成することと、
複数の画像フレームを前記生成されたビデオデータからの３次元場面内にレンダリングすることと、
前記画像フレームを前記エンドユーザに表示することと、
前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータを生成することと、
前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータをメモリ内に記憶することと
を含む、方法。
（項目３２）
前記オーディオデータと同期する前記ビデオデータを前記メモリ内に記憶することをさらに含む、項目３１に記載の方法。
（項目３３）
前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータを前記エンドユーザによる知覚のための音に変換することをさらに含む、項目３１に記載の方法。
（項目３４）
前記少なくとも１つのオブジェクトは、前記エンドユーザの視野内で選択される、項目３１に記載の方法。
（項目３５）
前記少なくとも１つのオブジェクトを選択することは、３次元カーソルを前記エンドユーザの視野内で移動させ、前記３次元カーソルを用いて前記少なくとも１つのオブジェクトを選択することを含む、項目３４に記載の方法。
（項目３６）
前記少なくとも１つのオブジェクトを選択することは、１つ以上の音声コマンドを発行することを含む、項目３１に記載の方法。
（項目３７）
前記少なくとも１つのオブジェクトを選択することは、１つ以上の手のジェスチャを行うことを含む、項目３１に記載の方法。
（項目３８）
前記少なくとも１つのオブジェクトは、複数のオブジェクトを含み、前記複数のオブジェクトを選択することは、前記オブジェクトを個々に選択することを含む、項目３１に記載の方法。
（項目３９）
前記少なくとも１つのオブジェクトは、複数のオブジェクトを含み、前記複数のオブジェクトを選択することは、前記オブジェクトを大域的に選択することを含む、項目３１に記載の方法。
（項目４０）
前記オブジェクトを大域的に選択することは、前記エンドユーザの視野の角度範囲を定義し、前記エンドユーザの視野の定義された角度範囲内の前記オブジェクトの全てを選択することを含む、項目３９に記載の方法。
（項目４１）
前記定義された角度範囲は、前記エンドユーザの視野の角度範囲全体未満である、項目４０に記載の方法。
（項目４２）
前記定義された角度範囲は、前記エンドユーザの視野の角度範囲全体である、項目４０に記載の方法。
（項目４３）
少なくとも１つの以前に選択されたオブジェクトを持続的に選択解除することをさらに含む、項目３１に記載の方法。
（項目４４）
前記エンドユーザの視野に対する前記少なくとも１つの選択されたオブジェクトの場所を追跡することをさらに含む、項目３１に記載の方法。
（項目４５）
前記少なくとも１つの選択されたオブジェクトの追跡された場所が前記エンドユーザの視野外に移動すると、前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータを前記メモリ内に記憶することを中止することをさらに含む、項目４４に記載の方法。
（項目４６）
前記少なくとも１つの選択されたオブジェクトの追跡された場所が前記エンドユーザの視野外に移動すると、前記少なくとも１つの選択されたオブジェクトから生じるオーディオデータを前記メモリ内に記憶することを継続することをさらに含む、項目４４に記載の方法。
（項目４７）
前記少なくとも１つの選択されたオブジェクトは、実オブジェクトを含む、項目３１に記載の方法。
（項目４８）
他の実オブジェクトから生じる音と比較して、前記選択された実オブジェクトから生じる音を優先的に感知することをさらに含み、前記オーディオデータは、前記優先的に感知される音から導出される、項目４７に記載の方法。
（項目４９）
前記選択された実オブジェクトから生じるビデオデータを捕捉することと、
前記オーディオデータと同期する前記ビデオデータを前記メモリ内に記憶することと
をさらに含む、項目４７に記載の方法。
（項目５０）
前記捕捉されたビデオデータを仮想コンテンツデータに変換し、前記仮想コンテンツデータを前記メモリ内に記憶することをさらに含む、項目４９に記載の方法。
（項目５１）
前記少なくとも１つの選択されたオブジェクトは、仮想オブジェクトを含む、項目３１に記載の方法。
（項目５２）
複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶することと、
前記選択された仮想オブジェクトに対応するコンテンツデータを入手することであって、前記メモリ内に記憶されるオーディオデータは、前記入手されたコンテンツデータを含む、ことと
をさらに含む、項目５１に記載の方法。
（項目５３）
前記選択された仮想オブジェクトに対応するメタデータを生成することであって、前記メモリ内に記憶されるオーディオデータは、前記入手されたコンテンツデータおよび前記生成されたメタデータを含む、こと
をさらに含む、項目５２に記載の方法。
（項目５４）
前記メタデータは、前記選択された仮想オブジェクトのための位置、配向、および音量データを含む、項目５３に記載の方法。
（項目５５）
前記エンドユーザの頭部姿勢を追跡することと、
前記複数の仮想オブジェクトのための絶対メタデータを記憶することと
をさらに含み、
前記メタデータを生成することは、前記選択された仮想オブジェクトに対応する絶対メタデータを読み出し、前記エンドユーザの追跡された頭部姿勢に基づいて、前記絶対メタデータを前記エンドユーザに対して局所化することを含む、項目５３に記載の方法。
（項目５６）
前記記憶されたオーディオデータを読み出し、オーディオを前記読み出されたオーディオデータから導出し、前記オーディオを前記エンドユーザによる知覚のための音に変換することをさらに含む、項目３１に記載の方法。
（項目５７）
前記記憶されたオーディオデータは、コンテンツデータおよびメタデータを含み、前記方法はさらに、
前記記憶されたコンテンツデータおよびメタデータを前記メモリから読み出すことと、
前記読み出されたコンテンツデータおよびメタデータに基づいて、空間化オーディオをレンダリングすることと、
前記空間化オーディオを前記エンドユーザによる知覚のための音に変換することと
を含む、項目３１に記載の方法。
（項目５８）
再生ユーザによる使用のための仮想画像生成システムであって、
メモリであって、前記メモリは、オリジナル空間環境内の少なくとも１つのオブジェクトから生じるオーディオコンテンツデータおよびビデオコンテンツデータを記憶するために構成される、メモリと、
複数のスピーカと、
ディスプレイサブシステムと、
制御サブシステムであって、前記制御サブシステムは、前記オーディオコンテンツデータおよびビデオコンテンツデータを前記メモリから読み出し、前記読み出されたオーディオコンテンツデータおよびビデオコンテンツデータからそれぞれオーディオおよびビデオを前記オリジナル空間環境と異なる新しい空間環境内にレンダリングし、前記レンダリングされたオーディオを前記スピーカに、前記生成されたビデオデータを前記ディスプレイサブシステムに同期して伝達するために構成される、制御サブシステムと
を備える、仮想画像生成システム。
（項目５９）
前記制御サブシステムは、前記オーディオコンテンツデータおよびビデオコンテンツデータを前記メモリ内に記憶するために構成される、項目５８に記載の仮想画像生成システム。
（項目６０）
前記メモリ内への前記オーディオコンテンツデータおよびビデオコンテンツデータの記憶に先立って、入力をエンドユーザから受信し、エンドユーザ入力に応答して、前記オリジナル空間環境内の前記少なくとも１つのオブジェクトを持続的に選択するために構成されるオブジェクト選択デバイスをさらに備える、項目５９に記載の仮想画像生成システム。
（項目６１）
前記少なくとも１つのオブジェクトは、実オブジェクトを含む、項目５９に記載の仮想画像生成システム。
（項目６２）
前記オーディオコンテンツデータを前記オリジナル空間環境内の実オブジェクトから捕捉するために構成されるマイクロホンアセンブリをさらに備える、項目６１に記載の仮想画像生成システム。
（項目６３）
前記マイクロホンアセンブリは、オーディオ出力を生成するために構成され、前記制御サブシステムはさらに、前記オーディオ出力の方向を修正し、選択された実オブジェクトから生じる音を優先的に感知するために構成され、前記オーディオコンテンツデータは、前記修正されたオーディオ出力から導出される、項目６２に記載の仮想画像生成システム。
（項目６４）
前記ビデオデータを前記オリジナル空間環境内の選択された実オブジェクトから捕捉するために構成される１つ以上のカメラをさらに備える、項目６１に記載の仮想画像生成システム。
（項目６５）
前記制御サブシステムは、前記捕捉されたビデオデータを前記選択された実オブジェクトのための仮想コンテンツデータに変換し、前記仮想コンテンツデータを前記ビデオコンテンツデータとして前記メモリ内に記憶するために構成される、項目６４に記載の仮想画像生成システム。
（項目６６）
前記少なくとも１つのオブジェクトは、仮想オブジェクトを含む、項目５８に記載の仮想画像生成システム。
（項目６７）
複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶するために構成されるデータベースをさらに備え、前記制御サブシステムはさらに、前記仮想オブジェクトに対応するコンテンツデータを前記データベースから入手するために構成され、前記メモリ内に記憶されるオーディオデータは、前記入手されたコンテンツデータを含む、項目６６に記載の仮想画像生成システム。
（項目６８）
前記制御サブシステムは、前記新しい空間環境内の前記少なくとも１つのオブジェクトに対応する絶対メタデータを入手し、前記読み出されたオーディオコンテンツデータおよび前記絶対メタデータからのオーディオを前記新しい空間環境内にレンダリングするために構成される、項目５８に記載の仮想画像生成システム。
（項目６９）
前記再生ユーザの頭部姿勢を追跡するために構成される１つ以上のセンサをさらに備え、前記制御サブシステムはさらに、前記レンダリングされたオーディオが空間化されるように、前記再生ユーザの追跡された頭部姿勢に基づいて、前記絶対メタデータを前記再生ユーザに対して局所化するために構成される、項目６８に記載の仮想画像生成システム。
（項目７０）
前記新しい空間環境内の少なくとも１つのオブジェクトに対応する絶対メタデータを入手することは、前記少なくとも１つのオブジェクトを前記新しい空間環境内に位置付けることを含む、項目６８に記載の仮想画像生成システム。
（項目７１）
入力を前記再生ユーザから受信するために構成されるユーザ入力デバイスをさらに備え、前記制御サブシステムは、前記再生ユーザからの入力に応答して、前記少なくとも１つのオブジェクトを前記新しい空間環境内に位置付けるために構成される、項目７０に記載の仮想画像生成システム。
（項目７２）
前記ディスプレイサブシステムは、前記再生ユーザの眼の正面に位置付けられるために構成される、項目５８に記載の仮想画像生成システム。
（項目７３）
前記ディスプレイサブシステムは、投影サブシステムおよび部分的に透明なディスプレイ表面を含み、前記投影サブシステムは、前記ビデオデータに応答して、画像フレームを前記部分的に透明なディスプレイ表面上に投影させるために構成され、前記部分的に透明なディスプレイ表面は、前記再生ユーザの眼と前記新しい空間環境との間の視野内に位置付けられるために構成される、項目７２に記載の仮想画像生成システム。
（項目７４）
前記再生ユーザによって装着されるために構成されるフレーム構造をさらに備え、前記フレーム構造は、前記ディスプレイサブシステムの少なくとも一部を担持する、項目７２に記載の仮想画像生成システム。
（項目７５）
オリジナル空間環境内にオーディオコンテンツデータおよびビデオコンテンツデータとして以前に記録された少なくとも１つのオブジェクトのオーディオおよびビデオを再生するために、再生ユーザによって仮想画像生成システムを動作させる方法であって、前記方法は、
前記オーディオコンテンツデータおよびビデオコンテンツデータをメモリから読み出すことと、
前記読み出されたオーディオコンテンツデータおよびビデオコンテンツデータからそれぞれオーディオおよびビデオを前記オリジナル空間環境と異なる新しい空間環境内にレンダリングすることと、
前記オーディオおよびビデオをそれぞれ音および画像フレームに変換することと、
前記音および画像フレームを前記再生ユーザに同期して伝達することと
を含む、方法。
（項目７６）
前記オーディオコンテンツデータおよびビデオコンテンツデータを前記メモリ内に記憶することをさらに含む、項目７５に記載の方法。
（項目７７）
前記メモリ内への前記オーディオコンテンツデータおよびビデオコンテンツデータの記憶に先立って、前記オリジナル空間環境内の前記少なくとも１つのオブジェクトを持続的に選択することをさらに含む、項目７６に記載の方法。
（項目７８）
前記少なくとも１つのオブジェクトは、実オブジェクトを含む、項目７６に記載の方法。
（項目７９）
前記オーディオコンテンツデータを前記実オブジェクトから捕捉することをさらに含む、項目７８に記載の方法。
（項目８０）
他の実オブジェクトから生じる音と比較して、選択された実オブジェクトから生じる音を優先的に感知することであって、前記オーディオコンテンツデータは、前記優先的に感知される音から導出される、ことをさらに含む、項目７９に記載の方法。
（項目８１）
ビデオデータを前記選択された実オブジェクトから捕捉することと、
前記捕捉されたビデオデータを前記仮想コンテンツデータに変換することと
をさらに含む、項目７８に記載の方法。
（項目８２）
前記少なくとも１つのオブジェクトは、仮想オブジェクトを含む、項目７６に記載の方法。
（項目８３）
複数の仮想オブジェクトのための音に対応するコンテンツデータを記憶し、前記仮想オブジェクトに対応するコンテンツデータを前記データベースから入手することであって、前記メモリ内に記憶されるオーディオコンテンツデータは、前記入手されたコンテンツデータを含む、こと
をさらに含む、項目８２に記載の方法。
（項目８４）
前記新しい空間環境内の前記少なくとも１つのオブジェクトに対応する絶対メタデータを入手することであって、前記オーディオは、前記読み出されたオーディオコンテンツデータおよび前記絶対メタデータから前記新しい空間環境内にレンダリングされる、こと
をさらに含む、項目７５に記載の方法。
（項目８５）
前記再生ユーザの頭部姿勢を追跡することと、
前記再生ユーザの追跡された頭部姿勢に基づいて、前記絶対メタデータを前記再生ユーザに対して局所化することであって、前記オーディオは、前記レンダリングされたオーディオが空間化されるように、前記読み出されたオーディオコンテンツデータおよび前記局所的メタデータから前記新しい空間環境内にレンダリングされる、ことと
をさらに含む、項目８４に記載の方法。
（項目８６）
前記新しい空間環境内の少なくとも１つのオブジェクトに対応する絶対メタデータを入手することは、前記少なくとも１つのオブジェクトを前記新しい空間環境内に位置付けることを含む、項目８４に記載の方法。
（項目８７）
入力を前記再生ユーザから受信することであって、前記少なくとも１つのオブジェクトは、前記再生ユーザからの入力に応答して、前記新しい空間環境内に位置付けられる、こと
をさらに含む、項目８６に記載の方法。

図面は、本発明の好ましい実施形態の設計および有用性を図示し、類似要素は、共通参照番号によって参照される。本発明の上記および他の利点および目的が取得される方法をより深く理解するために、上記に簡単に説明された本発明のより具体的説明が、付随の図面に図示される、その具体的実施形態を参照することによって与えられるであろう。これらの図面は、本発明の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされるべきではないことを理解した上で、本発明は、付随の図面の使用を通して、付加的特異性および詳細とともに、説明および解説されるであろう。

図１は、先行技術の拡張現実生成デバイスによってエンドユーザに表示され得る、３次元拡張現実場面の図である。

図２は、本発明の一実施形態に従って構築された、拡張現実システムの斜視図である。

図３は、図２の拡張現実システムのブロック図である。

図４は、図２の拡張現実システム内で使用される空間化スピーカシステムの一実施形態の平面図である。

図５は、エンドユーザがオブジェクトを個々に選択することを可能にするために図２の拡張現実システムによって使用される、１つの技法を図示する、平面図である。

図６は、エンドユーザがオブジェクトを個々に選択することを可能にするために図２の拡張現実システムによって使用される、別の技法を図示する、平面図である。

図７は、エンドユーザがオブジェクトを個々に選択することを可能にするために図２の拡張現実システムによって使用される、さらに別の技法を図示する、平面図である。

図８は、エンドユーザが複数のオブジェクトを大域的に選択することを可能にするために図２の拡張現実システムによって使用される、技法を図示する、平面図である。

図９は、エンドユーザが複数のオブジェクトを大域的に選択することを可能にするために図２の拡張現実システムによって使用される、別の技法を図示する、平面図である。

図１０ａは、図２の拡張現実システムを装着するために使用され得る、１つの技法の平面図である。

図１０ｂは、図２の拡張現実システムを装着するために使用され得る、別の技法の平面図である。

図１０ｃは、図２の拡張現実システムを装着するために使用され得る、さらに別の技法の平面図である。

図１０ｄは、図２の拡張現実システムを装着するために使用され得る、さらに別の技法の平面図である。

図１１は、種々の例示的な種々の仮想音および実音と相互作用する、図２の拡張現実システムを図示する、ブロック図である。

図１２は、図２の拡張現実システム内で使用されるオーディオプロセッサの一実施形態を図示する、ブロック図である。

図１３は、図２の拡張現実システムによって選択された仮想および実オブジェクトに対応するコンテンツデータおよびメタデータを記録する、メモリの略図である。

図１４は、音を実オブジェクトから優先的に受信するために図２の拡張現実システム内で使用される、マイクロホンアセンブリおよび対応するオーディオ処理モジュールの概略である。

図１５ａは、音をエンドユーザに対して第１の配向を有する２つのオブジェクトから優先的に受信するために図２の拡張現実システムのオーディオプロセッサによって生成された、指向性パターンの平面図である。

図１５ｂは、音をエンドユーザに対して第２の配向を有する２つのオブジェクトから優先的に受信するために図２の拡張現実システムのオーディオプロセッサによって生成された、指向性パターンの平面図である。

図１６ａは、エンドユーザに対してオリジナル空間環境内で分散されたオブジェクトのブロック図である。

図１６ｂは、エンドユーザに対して新しい空間環境内で分散された図１７ａのオブジェクトのブロック図である。

図１７は、図２の拡張現実システムを動作させ、仮想および実オブジェクトのオーディオおよびビデオを選択および記録する１つの方法を図示する、フロー図である。

図１８は、図２の拡張現実システムを動作させ、図１７において記録されたオーディオおよびビデオを新しい空間環境内で再生する１つの方法を図示する、フロー図である。

続く説明は、拡張現実システム内で使用されるべきディスプレイシステムおよび方法に関する。しかしながら、本発明は、拡張現実システムにおける用途に非常に適しているが、本発明は、その最も広い側面において、そのように限定され得ないことを理解されたい。例えば、本発明は、仮想現実システムに適用されることができる。したがって、多くの場合、拡張現実システムの観点から本明細書に説明されるが、本教示は、そのような使用のそのようなシステムに限定されるべきではない。拡張現実システムは、例えば、ビデオゲーム、仮想および実人物の組み合わせとのビデオ会議、または映画の鑑賞のコンテキストにおいて動作されてもよい。

本明細書に説明される拡張現実システムは、エンドユーザが、エンドユーザによって持続的に選択される少なくとも１つのオブジェクト（仮想または実際のいずれか）から生じるオーディオデータを記録することを可能にする。そのような記録されたオーディオデータは、続いて、同一または異なるエンドユーザによって再生されることができる。記録されたオーディオデータから生じる音は、オーディオデータが元々記録された実環境内の同一または異なるエンドユーザに再生されてもよい。オーディオデータのコンテンツを記録することに加え、オーディオコンテンツが元々記録された環境を特徴付けるメタデータおよびエンドユーザの頭部姿勢が、再生の間、オーディオは、再レンダリングされ、エンドユーザがオリジナル記録の間に空間化音を聴覚的に体験したものと同一様式において聴覚的に体験される、空間化音に変換され得るように、そのようなオーディオデータと関連付けて記録されてもよい。随意に、オーディオは、同一または異なるエンドユーザが新しい環境に適切な聴覚的体験を有し得るように、再レンダリングされ、新しい仮想または実環境内の同一または異なるエンドユーザによる知覚のための空間化音に変換されてもよい。オーディオデータは、周囲環境内の仮想オブジェクトおよび実オブジェクトから生じるビデオデータと同期して記録されてもよい。

本明細書に説明される拡張現実システムは、エンドユーザの視野内の実（または物理的）オブジェクトと混合された仮想オブジェクトの画像を提供し、かつ（視野内または外のいずれかの）実（または物理的）源から生じる実音と混合された（視野内または外のいずれかの）仮想源から生じる仮想音を提供するように動作されてもよい。この目的を達成するために、本発明に従って構築された拡張現実システム１００の一実施形態が、ここで、図２および３を参照して説明されるであろう。拡張現実システム１００は、ディスプレイサブシステム１０２を備え、これは、ディスプレイ画面１０４と、画像をディスプレイ画面１０４上に投影する、投影サブシステム（図示せず）とを含む。

図示される実施形態では、ディスプレイ画面１０４は、部分的に透明なディスプレイ画面であって、それを通して、周囲環境内の実オブジェクトが、エンドユーザ５０によって見られることができ、その上に、仮想オブジェクトの画像が、表示されてもよい。拡張現実システム１００はさらに、ディスプレイ画面１０４が、エンドユーザ５０の眼５２の正面、特に、エンドユーザ５０の眼５２と周囲環境との間のエンドユーザ５０の視野内に位置付けられるように、部分的に透明なディスプレイ画面１０４を担持する、エンドユーザ５０によって装着される、フレーム構造１０６を備える。

ディスプレイサブシステム１０２は、エンドユーザ５０の眼５２に、高レベルの画質および３次元知覚を伴って、かつ２次元コンテンツを提示することも可能である、物理的現実に対する拡張として快適に知覚され得る、光ベースの放射パターンを提示するように設計される。ディスプレイサブシステム１０２は、単一コヒーレント場面の知覚を提供する、フレームのシーケンスを高周波数で提示する。

代替実施形態では、拡張現実システム１００は、１つ以上の結像機（例えば、カメラ）を採用し、周囲環境の画像を捕捉し、それをビデオデータに変換してもよく、これは、次いで、仮想オブジェクトを表すビデオデータと混合されることができ、その場合、拡張現実システム１００は、混合されたビデオデータを表す画像をエンドユーザ５０に不透明ディスプレイ表面上で表示してもよい。

ディスプレイサブシステムを説明するさらなる詳細は、「ＤｉｓｐｌａｙＳｕｂｓｙｓｔｅｍａｎｄＭｅｔｈｏｄ」と題された米国仮特許出願第１４／２１２，９６１号および「ＰｌａｎａｒＷａｖｅｇｕｉｄｅＡｐｐａｒａｔｕｓＷｉｔｈＤｉｆｆｒａｃｔｉｏｎＥｌｅｍｅｎｔ（ｓ）ａｎｄＳｕｂｓｙｓｔｅｍＥｍｐｌｏｙｉｎｇＳａｍｅ」と題された米国仮特許出願第１４／３３１，２１６号（参照することによって明示的に本明細書に組み込まれる）に提供される。

拡張現実システム１００はさらに、仮想オブジェクトから音のみをエンドユーザ５０に提示しながら、エンドユーザ５０が、直接、実オブジェクトからの音を聞くことを可能にするための１つ以上のスピーカ１０８を備える。代替実施形態では、拡張現実システム１００は、１つ以上のマイクロホン（図示せず）を備え、周囲環境から生じる実音を捕捉し、それをオーディオデータに変換してもよく、これは、仮想音からオーディオデータと混合されることができ、その場合、スピーカ１０８は、混合されたオーディオデータを表す音をエンドユーザ５０に伝達してもよい。

いずれの場合も、スピーカ１０８は、スピーカ１０８が、例えば、イヤーバッドまたはヘッドホンとして、エンドユーザ５０の外耳道に隣接して（その中または周囲に）位置付けられるように、フレーム構造１０６によって担持される。スピーカ１０８は、ステレオ／調節可能音制御を提供してもよい。スピーカ１０８は、外耳道に隣接して位置付けられるように説明されるが、外耳道に隣接して位置しない、他のタイプのスピーカも、音をエンドユーザ５０に伝達するために使用されることができる。例えば、スピーカは、例えば、骨伝導技術を使用して、外耳道からある距離に設置されてもよい。図４に図示される随意の実施形態では、複数の空間化スピーカ１０８（例えば、４つのスピーカ１０８−１、１０８−２、１０８−３、および１０８−４）が、エンドユーザ５０の頭部５４を中心として位置し、音を頭部５４の左、右、正面、および背面から受信するために構成され、エンドユーザ５０の左および右耳５６に向かって向けられてもよい。拡張現実システムのために使用され得る、空間化スピーカに関するさらなる詳細は、「ＭｉｘｅｄＲｅａｌｉｔｙＳｙｓｔｅｍｗｉｔｈＳｐａｔｉａｌｉｚｅｄＡｕｄｉｏ」と題された米国仮特許出願第６２／３６９，５６１号（参照することによって明示的に本明細書に組み込まれる）に説明される。

重要なこととして、拡張現実システム１００は、エンドユーザ５０が、これらの選択されたオブジェクトからのみの音の記録のために、（仮想または実際のいずれかの）１つ、いくつか、または全てのオブジェクトを選択することを可能にするために構成される。この目的を達成するために、拡張現実システム１００はさらに、エンドユーザ５０からの入力に応答して、そこからの音を記録するために、１つ以上の実オブジェクト（すなわち、そこから実音が生じる、実オブジェクト）および仮想オブジェクト（すなわち、そこから仮想音が生じる、仮想オブジェクト）を選択するために構成される、オブジェクト選択デバイス１１０を備える。オブジェクト選択デバイス１１０は、エンドユーザ５０の視野内の実オブジェクトまたは仮想オブジェクトを個々に選択する、および／または、エンドユーザ５０の視野内の実オブジェクトまたは仮想オブジェクトのサブセットまたは全てを大域的に選択するように設計されてもよい。オブジェクト選択デバイス１１０はまた、エンドユーザ５０からの付加的入力に応答して、１つ以上の以前に選択された実オブジェクトまたは仮想オブジェクトを選択解除するために構成されてもよい。この場合、オブジェクト選択デバイス１１０は、それらが以前に選択されたものと同一様式において、実オブジェクトまたは仮想オブジェクトを選択解除するように設計されてもよい。いずれの場合も、具体的オブジェクトは、持続的に選択され、意図的に選択解除されるまで、具体的オブジェクトが選択された状態のままであることを意味する。

一実施形態では、ディスプレイサブシステム１０２は、３次元カーソルをエンドユーザ５０の視野内に表示してもよく、これは、オブジェクト選択デバイス１１０への入力に応答して、拡張現実場面内の具体的実オブジェクトまたは仮想オブジェクトを選択する目的のために、エンドユーザ５０の視野内で変位され得る。

例えば、図５に示されるように、４つの仮想オブジェクト（Ｖ１−Ｖ４）および２つの実オブジェクト（Ｒ１〜Ｒ２）が、ディスプレイ画面１０４の視野６０内に位置する。ディスプレイサブシステム１０２は、３Ｄカーソル６２を視野６０内に表示してもよく、これは、円形の形態をとるように図示される。３Ｄカーソル６２は、オブジェクト選択デバイス１１０へのエンドユーザ５０による入力に応答して、オブジェクトのうちの１つにわたって、この場合は、仮想オブジェクトＶ３にわたって移動され、それによって、３Ｄカーソル６２とそのオブジェクトを関連付けてもよい。関連付けられたオブジェクトは、次いで、オブジェクト選択デバイス１１０へのエンドユーザ５０による付加的入力に応答して、選択されることができる。具体的オブジェクト（この場合、仮想オブジェクトＶ３）が、３Ｄカーソル６２と関連付けられ、選択の準備ができたことの視覚的フィードバックを提供するために、関連付けられたオブジェクトまたはさらに３Ｄカーソル６２自体が、ハイライトされてもよい（例えば、色または陰影の変化）。いったん選択されると、オブジェクトは、選択解除されるまで、ハイライトされたままであってもよい。当然ながら、仮想オブジェクトＶ３の代わりに、または仮想オブジェクトＶ３に加え、実オブジェクトを含む、拡張現実場面４内の他のオブジェクトも、３Ｄカーソル６２をこれらの他のオブジェクトのいずれかにわたって設置し、３Ｄカーソル６２内でオブジェクトを選択することによって、選択されることができる。また、図５における３Ｄカーソル６２は、円形の形態をとるが、３Ｄカーソル６２は、具体的オブジェクトを指し示すためにエンドユーザ５０によって使用され得る、矢印を含む、任意の形状であることができることを理解されたい。視野６０内の以前に選択されたオブジェクトのいずれかは、３Ｄカーソル６２をその以前に選択されたオブジェクトにわたって移動させ、それを選択解除することによって、選択解除されることができる。

オブジェクト選択デバイス１１０は、エンドユーザ５０が、３Ｄカーソル６２を具体的オブジェクトにわたって移動させ、続いて、その具体的オブジェクトを選択することを可能にする、任意のデバイスの形態をとることができる。一実施形態では、オブジェクト選択デバイス１１０は、物理的に操作され、３Ｄカーソル６２を具体的オブジェクトにわたって移動させ、「クリック」し、具体的オブジェクトを選択し得る、マウス、タッチパッド、ジョイスティック、指向性ボタン等の従来の物理的コントローラの形態をとる。

別の実施形態では、オブジェクト選択デバイス１１０は、音声コマンドに応答して、３Ｄカーソル６２を具体的オブジェクトにわたって移動させ、次いで、具体的オブジェクトを選択し得る、マイクロホンおよび対応する音声解釈モジュールを備えてもよい。例えば、エンドユーザ５０は、指向性コマンド、例えば、「左に移動」または「右に移動」を発し、３Ｄカーソル６２を具体的オブジェクトにわたって漸次的に移動させ、次いで、「選択」等のコマンドを発し、具体的オブジェクトを選択してもよい。

さらに別の実施形態では、オブジェクト選択デバイス１１０は、フレーム構造１０６に搭載される、１つ以上のカメラ（例えば、前向きに面したカメラ１１２）と、具体的オブジェクトの選択のために、対応して、３Ｄカーソル６２を具体的オブジェクトにわたって移動させる、エンドユーザ５０による物理的ジェスチャ（例えば、指移動）を追跡することが可能な対応するプロセッサ（図示せず）とを備えてもよい。例えば、エンドユーザ５０は、指を使用して、視野６０内の３Ｄカーソル６２を具体的オブジェクトにわたって「ドラッグ」し、次いで、３Ｄカーソル６２を「タップ」し、具体的オブジェクトを選択してもよい。または、前向きに面したカメラ１１２が、例えば、少なくとも部分的に、具体的オブジェクトの選択のために、対応して、３Ｄカーソル６２を具体的オブジェクトにわたって移動させる、エンドユーザ５０の頭部５４の配向に基づいて、例えば、エンドユーザ５０の注意の中心を検出または推測するために採用されてもよい。例えば、エンドユーザ５０は、その頭部５０を移動させ、視野６０内の３Ｄカーソル６２を具体的オブジェクトにわたって「ドラッグ」し、次いで、その頭部５０を素早く点頭させ、具体的オブジェクトを選択してもよい。

さらに別の実施形態では、オブジェクト選択デバイス１１０は、１つ以上のカメラ（例えば、後ろ向きに面したカメラ１１４（図２に示される））と、エンドユーザ５０の眼５２、特に、その具体的オブジェクトの選択のために、対応して、３Ｄカーソル６２を具体的オブジェクトにわたって移動させる、エンドユーザ５０が合焦している方向および／または距離を追跡する、対応するプロセッサとを備えてもよい。後ろ向きに面したカメラ１１４は、エンドユーザ５０の眼５２の角位置（片眼または両眼が向いている方向）、瞬目、および焦点深度を追跡してもよい（眼収束を検出することによって）。例えば、エンドユーザ５０は、その眼５４を視野内で移動させ、３Ｄカーソルを具体的オブジェクトにわたって「ドラッグ」し、次いで、瞬目し、具体的オブジェクトを選択してもよい。そのような眼追跡情報は、例えば、光をエンドユーザの眼に投影させ、その投影された光の少なくとも一部の戻りまたは反射を検出することによって、判別されてもよい。眼追跡デバイスについて議論するさらなる詳細は、「ＤｉｓｐｌａｙＳｕｂｓｙｓｔｅｍａｎｄＭｅｔｈｏｄ」と題された米国仮特許出願第１４／２１２，９６１号、「ＭｅｔｈｏｄｓａｎｄＳｕｂｓｙｓｔｅｍｆｏｒＣｒｅａｔｉｎｇＦｏｃａｌＰｌａｎｅｓｉｎＶｉｒｔｕａｌａｎｄＡｕｇｕｍｅｎｔｅｄＲｅａｌｉｔｙ」と題された米国特許出願第１４／７２６，４２９号、および「ＳｕｂｓｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＡｕｇｕｍｅｎｔｅｄａｎｄＶｉｒｔｕａｌＲｅａｌｉｔｙ」と題された米国特許出願第１４／２０５，１２６号（参照することによって明示的に本明細書に組み込まれる）に提供される。

代替実施形態では、オブジェクト選択デバイス１１０は、従来の物理的コントローラ、マイクロホン／音声解釈モジュール、および／またはカメラを組み合わせて、３Ｄカーソル６２を移動させ、使用し、オブジェクトを選択してもよい。例えば、物理的コントローラ、指ジェスチャ、または眼移動が、３Ｄカーソル６２を具体的オブジェクトにわたって移動させるために使用されることができ、音声コマンドが、その具体的オブジェクトを選択するために使用されることができる。

３Ｄカーソル６２を使用して、エンドユーザ５０の視野内のオブジェクトを選択するのではなく、具体的オブジェクトが、その具体的オブジェクトを意味論的に識別すること、またはエンドユーザ５０に表示されるメニューを介してオブジェクトを選択することによって、選択されてもよく、その場合、オブジェクトは、エンドユーザ５０の視野内にある必要はない。この場合、オブジェクト選択デバイス１１０は、具体的オブジェクトが、エンドユーザ５０によって提供される口頭コマンドを変換するように意味論的に識別される場合、マイクロホンおよび音声解釈モジュールの形態をとる。例えば、仮想オブジェクトＶ３が、ドラムに対応する場合、エンドユーザ５０は、「ドラムを選択」と発してもよく、それに応答して、ドラムＶ３が、選択されるであろう。口頭コマンドに対応するオブジェクトの選択を促進するために、視野内の全ての関連オブジェクトを識別する意味論情報が、好ましくは、エンドユーザ５０によって口頭で表されるオブジェクトの説明が、データベース内に記憶されるオブジェクトの説明に合致され得るように、データベース内に記憶される。意味論情報を含む、メタデータが、データベース内の仮想オブジェクトと事前に関連付けられることができる一方、視野内の実オブジェクトは、「ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍｆｏｒＩｎｓｅｒｔｉｎｇＲｅｃｏｇｎｉｚｅｄＯｂｊｅｃｔＤａｔａｉｎｔｏａＶｉｒｔｕａｌＷｏｒｌｄ」と題された米国特許出願第１４／７０４，８００号（参照することによって明示的に本明細書に組み込まれる）に説明される様式において、意味論情報と事前にマッピングされ、関連付けられてもよい。

代替として、具体的オブジェクトは、３Ｄカーソル６２を使用せずに、単に、指ジェスチャを使用してそれを指差すまたは「クリック」することによって、選択されてもよい。この場合、オブジェクト選択デバイス１１０は、１つ以上のカメラ（例えば、前向きに面したカメラ１１４）と、具体的オブジェクトの選択のための指ジェスチャを追跡する、対応するプロセッサとを備えてもよい。例えば、エンドユーザ５０は、単に、図６に示されるように、それを指差すことによって、具体的オブジェクト（この場合、仮想オブジェクトＶ３）を選択してもよい。別の実施形態では、具体的オブジェクトは、３Ｄカーソル６２を使用せずに、図７に示されるように、少なくとも２本の指（例えば、人差し指および親指）を使用して円形または部分的円形を形成することによって、選択されてもよい。

３Ｄカーソル６２は、一度に１つのみのオブジェクトを選択するために使用されるように説明されたが、その代替または随意の実施形態では、３Ｄカーソル６２は、一度に複数のオブジェクトを選択するために使用されてもよい。例えば、図８に図示されるように、線６４が、３Ｄカーソル６２を使用して、あるグループのオブジェクトの周囲に、例えば、実オブジェクトＲ１および仮想オブジェクトＶ３およびＶ４の周囲に描かれ、それによって、これらのグループのオブジェクトを選択することができる。３Ｄカーソル６２は、例えば、オブジェクトを個々に選択するために、上記に説明されるものと同一手段を使用して制御されることができる。代替として、線が、３Ｄカーソル６２を使用せずに、例えば、指ジェスチャを使用することによって、あるグループのオブジェクトの周囲に描かれることができる。

代替実施形態では、エンドユーザ５０の事前に定義された視野の角度範囲内のオブジェクトのグループが、選択されてもよく、その場合、オブジェクト選択デバイス１１０は、例えば、エンドユーザ５０によって作動され、これらのオブジェクトを選択し得る、単一物理的または仮想選択ボタンの形態をとることができる。視野の角度範囲は、エンドユーザ５０によって事前に定義されてもよい、または拡張現実システム１００の中に事前にプログラムされてもよい。例えば、図９に示されるように、６０度（視野の中心から±３０度）の角度範囲６６が、１２０度視野６０のコンテキストに示される。視野６０の角度範囲６４内の全てのオブジェクト（この場合、仮想オブジェクトＶ１、Ｖ２、およびＶ３）が、選択ボタンの作動に応じて、大域的に選択されることができる一方、視野６０の角度範囲６４外の全てのオブジェクト（この場合、実オブジェクトＲ１およびＲ２および仮想オブジェクトＶ４）は、選択ボタンの作動に応じて、選択されないであろう。一実施形態では、エンドユーザ５０は、例えば、視野６０の中心線に向かってまたはそこから離れる角度範囲を定義する縁の一方または両方をドラッグすることによって、角度範囲を修正してもよい（矢印によって示される）。エンドユーザ５０は、例えば、角度範囲を最小の０度から視野全体（例えば、１２０度）まで調節してもよい。代替として、視野６０の角度範囲６４は、エンドユーザ５０がそれを調節する能力を伴わずに、事前にプログラムされてもよい。例えば、視野６０の全体内の全てのオブジェクトが、選択ボタンの作動に応答して、選択されてもよい。

拡張現実システム１００はさらに、周囲環境内の実オブジェクトからの音をオーディオ信号に変換するために構成される、１つ以上のマイクロホンを備える。特に、拡張現実システム１００は、オブジェクト選択デバイス１１０を介してエンドユーザ５０によって選択された１つ以上の実オブジェクトの方向および距離に対応する、特定の方向および／または特定の距離における音を優先的に受信するために構成される、マイクロホンアセンブリ１１６を備える。マイクロホンアセンブリ１１６は、図２に図示されるように（２つのみが示される）、フレーム構造１０６に搭載される、マイクロホン要素１１８のアレイ（例えば、４つのマイクロホン）を備える。マイクロホンアセンブリ１１６に関する詳細は、下記にさらに詳細に説明されるであろう。拡張現実システム１００はさらに、例えば、コマンドまたは叙述をエンドユーザ５０から受信するために、エンドユーザ５０の発話をオーディオ信号に変換するために構成される、専用マイクロホン１２２を備える。

拡張現実システム１００は、拡張現実システムに対する選択された実オブジェクトの位置または配向が変化しても、これらの実オブジェクトから生じる音が、マイクロホンアセンブリ１１６によって選択されていない実オブジェクトと比較して、優先的かつ継続的に感知され得るように、既知の座標系内の選択された実オブジェクトの位置および配向を追跡する。既知の座標系内の全ての仮想オブジェクトの位置および場所は、典型的には、拡張現実システム１００に対して「既知」であって（すなわち、その中に記録される）、したがって、概して、能動的に追跡される必要がない。

図示される実施形態では、拡張現実システム１００は、仮想オブジェクトに対応する空間化オーディオを実および物理的３次元（３Ｄ）空間内の既知の仮想場所および配向でレンダリングおよび提示し、音の明確性または現実性に影響を及ぼすように、音が実オブジェクトの仮想場所から生じるようにエンドユーザ５０に現れさせる、空間化オーディオシステムを採用する。拡張現実システム１００は、種々の仮想オブジェクトと関連付けられたオーディオがその仮想位置から生じるように現れるように、エンドユーザ５０の位置を追跡し、空間化オーディオをより正確にレンダリングする。さらに、拡張現実システム１００は、種々の仮想オブジェクトと関連付けられた指向性オーディオが個別の仮想オブジェクトに適切な仮想方向に（例えば、仮想キャラクタの頭部の背後からではなく、仮想キャラクタの口から）伝搬するように現れるように、エンドユーザ５０の頭部姿勢を追跡し、空間化オーディオをより正確にレンダリングする。さらに、拡張現実システム１００は、種々の仮想オブジェクトと関連付けられたオーディオが、実際の物理的および仮想オブジェクトから適切に反射する、またはそれによってオクルードまたは妨害されるように現れるように、空間化オーディオをレンダリングする際、他の実際の物理的および仮想オブジェクトを考慮する。

この目的を達成するために、拡張現実システム１００はさらに、仮想３次元場面に対するエンドユーザ５０の頭部５４の位置および配向を追跡し、かつエンドユーザ５０の頭部５４に対する実オブジェクトの位置および配向を追跡するための頭部／オブジェクト追跡サブシステム１２０を備える。例えば、頭部／オブジェクト追跡サブシステム１２０は、エンドユーザ５０の頭部姿勢データ（位置および配向）を収集するために構成される、１つ以上のセンサと、センサ１２０によって収集された頭部姿勢データに基づいて、既知の座標系内のエンドユーザ５０の頭部姿勢を決定するために構成される、プロセッサ（図示せず）とを備えてもよい。センサは、画像捕捉デバイス（可視および赤外線光カメラ等）、慣性測定ユニット（加速度計およびジャイロスコープを含む）、コンパス、マイクロホン、ＧＰＳユニット、または無線デバイスのうちの１つ以上のものを含んでもよい。図示される実施形態では、センサは、前向きに面したカメラ１１２（図２に示される）を備える。このように頭部に装着されると、前向きに面したカメラ１２０は、特に、エンドユーザ５０が位置する環境に対するエンドユーザ５０の頭部５４の距離および角位置（すなわち、頭部が向けられている方向）を示す情報を捕捉するために好適である。頭部配向は、任意の方向（例えば、エンドユーザ５０の基準フレームに対して上／下、左、右）において検出されてもよい。下記にさらに詳細に説明されるであろうように、前向きに面したカメラ１１４はまた、周囲環境内の実オブジェクトのビデオデータを入手し、拡張現実システム１００のビデオ記録機能を促進するために構成される。カメラはまた、周囲環境内の実オブジェクトを追跡するために提供されてもよい。フレーム構造１０６は、カメラがフレーム構造１０６の正面および背面上に搭載され得るように、設計されてもよい。このように、カメラのアレイは、エンドユーザ５０の頭部５４を包囲し、関連オブジェクトの全ての方向を網羅してもよい。

拡張現実システム１００はさらに、仮想３次元場面を記憶するために構成される、３次元データベース１２４を備え、これは、仮想オブジェクト（仮想オブジェクトのコンテンツデータと、これらの仮想オブジェクトと関連付けられた絶対メタデータ、例えば、３Ｄ場面内のこれらの仮想オブジェクトの絶対位置および配向との両方）と、仮想オブジェクト（仮想オブジェクトのコンテンツデータと、これらの仮想オブジェクトと関連付けられた絶対メタデータ、例えば、３Ｄ場面内のこれらの仮想オブジェクトの音量および絶対位置および配向、および仮想源の近傍の任意の仮想または実オブジェクトを含む、各仮想オブジェクトを囲繞する空間音響、部屋寸法、壁／床材料等との両方）とを備える。

拡張現実システム１００はさらに、視野内に現れる仮想オブジェクトおよび実オブジェクトから生じるビデオデータを記録することに加え、エンドユーザ５０がオブジェクト選択デバイス１１０を介して選択したそれらの仮想オブジェクトおよび実オブジェクトからのみ生じるオーディオデータを記録する、制御サブシステムを備える。拡張現実システム１００はまた、同期されたビデオおよびオーディオが、再生の間、正確に再レンダリングされ得るように、ビデオデータおよびオーディオデータと関連付けられたメタデータを記録してもよい。

この目的を達成するために、制御サブシステムは、仮想オブジェクトと関連付けられたビデオコンテンツおよび絶対メタデータを３次元データベース１２４から入手し、エンドユーザ５０の頭部姿勢データ（下記にさらに詳細に説明されるように、ビデオのための絶対メタデータをエンドユーザ５０の頭部５４に対して局所化するために使用されるであろう）を頭部／オブジェクト追跡サブシステム１２０から入手し、次いで、エンドユーザ５０の視野内の周囲環境内の実オブジェクトから生じる画像と混合された画像への変換のために、ディスプレイサブシステム１０２に伝達される、そこからのビデオをレンダリングするために構成される、ビデオプロセッサ１２６を備える。ビデオプロセッサ１２６はまた、下記にさらに説明されるであろうように、仮想オブジェクトから生じるビデオデータとともに、続いて記録されるであろう、周囲環境の実オブジェクトから生じるビデオデータを前向きに面したカメラ１１２から入手するために構成される。

同様に、オーディオプロセッサ１２８は、仮想オブジェクトと関連付けられたオーディオコンテンツおよびメタデータを３次元データベース１２４から入手し、エンドユーザ５０の頭部姿勢データ（下記にさらに詳細に説明されるように、オーディオのための絶対メタデータをエンドユーザ５０の頭部５４に対して局所化するために使用されるであろう）を頭部／オブジェクト追跡サブシステム１２０から入手し、次いで、周囲環境内の実オブジェクトから生じる音と混合された空間化音への変換のために、スピーカ１０８に伝達される、そこからの空間化オーディオをレンダリングするために構成される。

オーディオプロセッサ１２８はまた、下記にさらに説明されるであろうように、選択された仮想オブジェクトからの空間化オーディオデータとともに、仮想オブジェクト毎のエンドユーザ５０の頭部５４に対して局所化された任意の結果として生じるメタデータ（例えば、位置、配向、および音量データ）とともに、および、大域的メタデータ（例えば、拡張現実システム１００またはエンドユーザ５０によって大域的に設定された音量データ）とともに、続いて記録されるであろう、周囲環境内の選択された実オブジェクトからのみ生じるオーディオデータをマイクロホンアセンブリ１１６から入手するために構成される。

拡張現実システム１００はさらに、メモリ１３０と、ビデオおよびオーディオをメモリ１３０内に記憶するために構成される、レコーダ１３２と、エンドユーザ５０または他のエンドユーザへの後続再生のために、ビデオおよびオーディオをメモリ１３０から読み出すために構成される、プレーヤ１３４とを備える。レコーダ１３２は、選択された仮想および実オブジェクトに対応する、空間化オーディオデータ（オーディオコンテンツオーディオデータとメタデータの両方）をオーディオプロセッサ１２８から入手し、本オーディオデータをメモリ１３０内に記憶し、選択された仮想および実オブジェクトと一致する仮想および実オブジェクトに対応する、ビデオデータ（ビデオコンテンツデータとメタデータの両方）をさらに入手する。プレーヤ１３４は、レコーダ１３２およびメモリ１３０が位置する同一ＡＲシステム１００に位置するように図示されるが、プレーヤは、サードパーティＡＲシステム内に、またはさらにＡＲシステム１００によって以前に記録されたビデオおよびオーディオを再生する、スマートフォンまたはコンピュータ上に位置してもよいことを理解されたい。

ビデオプロセッサ１２６、オーディオプロセッサ１２８、レコーダ１３２、およびプレーヤ１３４の機能を実施する、制御サブシステムは、多種多様な形態のいずれかをとってもよく、いくつかのコントローラ、例えば１つ以上のマイクロコントローラ、マイクロプロセッサまたは中央処理ユニット（ＣＰＵ）、デジタル信号プロセッサ、グラフィック処理ユニット（ＧＰＵ）、他の集積回路コントローラ、例えば、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルゲートアレイ（ＰＧＡ）、例えば、フィールドＰＧＡ（ＦＰＧＡ）、および／またはプログラマブル論理コントローラ（ＰＬＵ）を含んでもよい。

ビデオプロセッサ１２６、オーディオプロセッサ１２８、レコーダ１３２、およびプレーヤ１３４の機能は、それぞれ、単一の統合されたデバイスによって実施されてもよく、ビデオプロセッサ１２６、オーディオプロセッサ１２８、レコーダ１３２、および／またはプレーヤ１３４の機能のうちの少なくともいくつかは、単一の統合されたデバイスの中に組み合わせられてもよい、またはビデオプロセッサ１２６、オーディオプロセッサ１２８、レコーダ１３２、またはプレーヤ１３４のそれぞれの機能は、いくつかのデバイス間に分散されてもよい。例えば、ビデオプロセッサ１２６は、仮想オブジェクトのビデオデータを３次元データベース１２４から入手し、そこからの合成ビデオフレームをレンダリングする、グラフィック処理ユニット（ＧＰＵ）と、実オブジェクトのビデオフレームを前向きに面したカメラ１１２から入手する、中央処理ユニット（ＣＰＵ）とを備えてもよい。同様に、オーディオプロセッサ１２８は、マイクロホンアセンブリ１１６およびユーザマイクロホン１２２から入手されたオーディオデータを処理する、デジタル信号プロセッサ（ＤＳＰ）と、３次元データベース１２４から入手されたオーディオデータを処理する、ＣＰＵとを備えてもよい。レコーダ１３２の記録機能およびプレーヤ１３４の再生機能は、ＣＰＵによって実施されてもよい。

さらに、拡張現実システム１００の種々の処理コンポーネントは、分散型サブシステム内に物理的に含有されてもよい。例えば、図１０ａ〜１０ｄに図示されるように、拡張現実システム１００は、有線導線または無線コネクティビティ１５２等によって、エンドユーザ５０の頭部５４に搭載されるコンポーネント（例えば、ディスプレイサブシステム１０２の投影サブシステム、マイクロホンアセンブリ１１６、スピーカ１０４、およびカメラ１１４、１１８）に動作可能に結合される、ローカル処理およびデータモジュール１５０を備える。ローカル処理およびデータモジュール１５０は、フレーム構造１０６（図１０ａ）に固定して取り付けられる、ヘルメットまたは帽子１０６ａ（図１０ｂ）に固定して取り付けられる、ヘッドホンに内蔵される、エンドユーザ５０の胴体５８に除去可能に取り付けられる（図１０ｃ）、またはベルト結合式構成においてエンドユーザ５０の腰部５９に除去可能に取り付けられる（図１０ｄ）等、種々の構成において搭載されてもよい。拡張現実システム１００はさらに、遠隔モジュール１５４、１５６が、相互に動作可能に結合され、ローカル処理およびデータモジュール１５０へのリソースとして利用可能であるように、有線導線または無線コネクティビティ１５８、１６０等によって、ローカル処理およびデータモジュール１５０に動作可能に結合される、遠隔処理モジュール１５４および遠隔データリポジトリ１５６を備える。

ローカル処理およびデータモジュール１５０は、電力効率的プロセッサまたはコントローラと、フラッシュメモリ等のデジタルメモリとを備えてもよく、両方とも、可能性として、処理または読出後、ディスプレイサブシステム１０２への通過のために、センサから捕捉された、および／または遠隔処理モジュール１５４４および／または遠隔データリポジトリ１５６を使用して入手および／または処理されたデータの処理、キャッシュ、および記憶を補助するために利用されてもよい。遠隔処理モジュール１５４は、データおよび／または画像情報を分析および処理するように構成される、１つ以上の比較的に強力なプロセッサまたはコントローラを備えてもよい。遠隔データリポジトリ１５６は、比較的に大規模デジタルデータ記憶設備を備えてもよく、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。一実施形態では、全てのデータは、記憶され、全ての算出は、ローカル処理およびデータモジュール１５０内で実施され、任意の遠隔モジュールから完全に自律的使用を可能にする。

上記に説明される種々のコンポーネント間の結合１５２、１５８、１６０は、有線または光学通信を提供するための１つ以上の有線インターフェースまたはポート、または無線通信を提供するためのＲＦ、マイクロ波、およびＩＲ等を介した１つ以上の無線インターフェースまたはポートを含んでもよい。いくつかの実装では、全ての通信は、有線であってもよい一方、他の実装では、全ての通信は、ディスプレイサブシステム１０２内で使用される光ファイバを除き、無線であってもよい。なおもさらなる実装では、有線および無線通信の選択肢は、図１０ａ〜１０ｄに図示されるものと異なり得る。したがって、有線または無線通信の特定の選択肢は、限定と見なされるべきではない。

図示される実施形態では、ディスプレイサブシステム１０２の光源および駆動電子機器（図示せず）、オブジェクト追跡サブシステム１２０およびオブジェクト選択デバイス１１０の処理コンポーネント、およびオーディオプロセッサ１２８のＤＳＰは、ローカル処理およびデータモジュール１５０内に含有されてもよい。ビデオプロセッサ１２６のＧＰＵおよびビデオプロセッサ１２６およびオーディオプロセッサ１２８のＣＰＵは、遠隔処理モジュール１５４内に含有されてもよいが、代替実施形態では、これらのコンポーネントまたはその一部は、ローカル処理およびデータモジュール１５０内に含有されてもよい。３次元データベース１２４およびメモリ１３０は、遠隔データリポジトリ１５６と関連付けられることができる。

図３に図示されるオーディオプロセッサ１２８は、エンドユーザ５０によって選択された仮想および実オブジェクトからのオーディオデータを処理および記録することにおいてさらに詳細に説明されるであろう。図１１に示される例示的シナリオでは、エンドユーザ５０（例えば、両親）が、仮想ドラマーＶ２オブジェクトと、実際のボーカルＲ２、例えば、子供と、仮想ギタリストＶ３と、仮想ベーシストＶ４とを含む、４人組バンドからの音を記録することを所望し、仮想テレビからの音を記録せずに、仮想テレビＶ１上のニュースまたはスポーツを監視することを所望し、さらに、例えば、誰かが料理をしている実際の台所Ｒ１からの音を記録することを所望していないとする。

図１２に図示される実施形態では、オーディオプロセッサ１２８の機能は、仮想オブジェクトから生じるオーディオを処理する、ＣＰＵ１８０と、実オブジェクトから生じるオーディオを処理する、ＤＳＰ１８２との間に分散される。ＣＰＵ１８０は、個々の仮想オブジェクトＶ１−Ｖｎに対応する空間化オーディオデータＥＦＸ−Ｖ１〜ＥＦＸ−Ｖｎを生成するために構成される、１つ以上の特殊効果モジュール１８４（この場合、特殊効果モジュール１−ｎ）を備える。この目的を達成するために、特殊効果モジュール１８４は、仮想オブジェクトＶ１−Ｖｎに対応するオーディオコンテンツデータＡＵＤ−Ｖ１〜ＡＵＤ−Ｖｎおよび絶対メタデータＭＤ_ａ−Ｖ１〜ＭＤ_ａ−Ｖｎを３Ｄデータベース１２４から、および頭部姿勢データを頭部／オブジェクト追跡サブシステム１２０から入手し、頭部姿勢データに基づいて、絶対メタデータＭＤ_ａ−Ｖ１〜ＭＤ_ａ−Ｖｎをエンドユーザ５０の頭部５４に対して局所化し、局所的メタデータ（例えば、位置、配向、および音量データ）をオーディオコンテンツデータに適用し、仮想オブジェクトＶ１−Ｖｎのための空間化オーディオデータを生成する。

ＣＰＵ１８０はさらに、個別の特殊効果モジュール１８４から受信された空間化オーディオデータＥＦＸ−Ｖ１〜ＥＦＸ−Ｖｎを混合し、混合されたオーディオデータＥＦＸを取得するために構成される、ミキサ１８６と、大域的メタデータＭＤ−ＯＵＴ（例えば、大域的音量）を混合された空間化オーディオデータに適用し、複数の音チャネルを通してスピーカ１０８に出力される、最終空間化オーディオＡＵＤ−ＯＵＴＥＦＸを取得するために構成される、大域的特殊効果モジュール１８８とを備える。

重要なこととして、特殊効果モジュール１８４は、メモリ１３０（図２に示される）内への記憶のために、オブジェクト選択デバイス１１０を介してエンドユーザ５０によって選択された仮想オブジェクトから生じるオーディオコンテンツデータと、これらの選択された仮想オブジェクトに対応するメタデータ（局所的および／または絶対）とをレコーダ１３２に送信するために構成され、大域的特殊効果モジュール１８８は、メモリ１３０内への記憶のために、大域的メタデータＭＤ−ＯＵＴをレコーダ１３２に送信するために構成される。例示的実施形態では、仮想オーディオコンテンツデータＡＵＤ−Ｖ２（すなわち、仮想ドラマー）、ＡＵＤ−Ｖ３（すなわち、仮想ギタリスト）、ＡＵＤ−Ｖ４（すなわち、仮想ベーシスト）は、記録のために選択される一方、オーディオコンテンツデータＡＵＤ−Ｖ１（すなわち、仮想テレビ）は、記録のために選択されない。したがって、オーディオコンテンツデータＡＵＤ−Ｖ２、ＡＵＤ−Ｖ３、およびＡＵＤ−Ｖ４および対応する局所的メタデータＭＤ−Ｖ２、ＭＤ−Ｖ３、およびＭＤ−Ｖ４は、図１３に示されるように、メモリ１３０内に記憶される。

代替実施形態では、選択された仮想オブジェクトからのオーディオコンテンツデータおよび対応する局所的／絶対メタデータおよび大域的メタデータをメモリ１３０内に個々に記憶する代わりに、またはそれに加え、ＣＰＵ１８０は、加えて、選択された仮想オブジェクトＡＵＤ−Ｖ２、ＡＵＤ−Ｖ３、およびＡＵＤ−Ｖ４のみに対応する空間化オーディオデータＥＦＸ−Ｖ２、ＥＦＸ−Ｖ３、ＥＦＸ−Ｖ４を混合し、大域的メタデータＭＤ−ＯＵＴを本混合された空間化オーディオデータに適用し、選択された仮想オブジェクトＡＵＤ−Ｖ２、ＡＵＤ−Ｖ３、およびＡＵＤ−Ｖ４からのみのオーディオを含む、空間化オーディオを取得することによって生成される、空間化オーディオを出力する。しかしながら、この場合、付加的オーディオ混合機能が、ＣＰＵ１８０の中に組み込まれる必要があるであろう。

ＤＳＰ１８２は、特定の方向から、この場合、オブジェクト選択デバイス１１０を介して、エンドユーザ５０によって選択された各実オブジェクトの方向から、マイクロホンアセンブリ１１６によって受信された音を優先的に表す、マイクロホンアセンブリ１１６から入手されたオーディオ信号を処理し、オーディオ信号を出力するために構成される。実オブジェクトの位置および／または配向は、エンドユーザ５０の頭部５４に対して移動し得るため、実オブジェクト追跡データは、エンドユーザ５０の頭部５４に対する実オブジェクトの位置および／または配向の任意の変化が考慮され得、ＤＳＰ１８２が、オーディオ出力を動的に修正し、比較的に移動する実オブジェクトの方向からマイクロホンアセンブリ１１６によって受信された音を優先的に表し得るように、頭部／オブジェクト追跡サブシステム１２０から受信されてもよい。例えば、実オブジェクトが選択されたとき、エンドユーザ５０が、その頭部５４を頭部５４の配向に対して反時計回りに９０度移動させる場合、ＤＳＰ１８２から出力されたオーディオの優先的方向は、時計回りに９０度動的に偏移されることができる。

図１４を参照すると、マイクロホンアセンブリ１１６のマイクロホン要素１１８は、それぞれ、周囲音信号を検出し、オーディオ信号に変換するために構成される、マイクロホン要素の位相アレイ（この場合、マイクロホン要素Ｍ１〜Ｍｎ）の形態をとる。図示される実施形態では、マイクロホン要素１１８は、性質上、デジタルであって、したがって、周囲音信号をデジタルオーディオ信号、この場合、パルス密度変調（ＰＤＭ）信号に変換する。好ましくは、マイクロホン要素１１８は、相互から離間され、オーディオ出力の指向性を最大限にする。例えば、図２に示されるように、マイクロホン要素１１８のうちの２つが、フレーム構造１０６の各アームに搭載されてもよいが、４つ等の２つを上回るマイクロホン要素１１８が、フレーム構造１０６の各アームに搭載されてもよい。代替として、フレーム構造１０６は、マイクロホン要素１１８がフレーム構造１０６の正面および背面上に搭載され得るように、設計されてもよい。このように、マイクロホン要素１１８のアレイは、エンドユーザ５０の頭部５４を包囲し、音の潜在的源の全ての方向を網羅し得る。

マイクロホンアセンブリ１１６はさらに、それぞれ、個別のデジタルオーディオ信号を対応するマイクロホン要素１１８から受信し、「デシメーション」と称されるデジタルフィルタ動作を実施し、デジタルオーディオ信号をＰＤＭフォーマットからより容易に操作可能なパルスコード変調（ＰＣＭ）に変換するために構成される、複数のデジタルマイクロホンインターフェース（ＤＭＩＣ）１９０（この場合、マイクロホン要素Ｍ毎に１つずつのＤＭＩＣ１〜ＤＭＩＣｎ）を備える。ＤＭＩＣ１９０はそれぞれまた、固定利得制御をデジタルオーディオ信号上で実施する。

ＤＳＰ１８２は、それぞれ、マイクロホンアセンブリ１１６によって出力されるデジタルオーディオ信号を処理し、選択された実オブジェクト（Ｒ１〜Ｒｍのうちの１つ）の方向にマイクロホンアセンブリ１１６によって受信された音を優先的に表す、指向性オーディオ信号ＡＵＤ−Ｒ（指向性オーディオ信号ＡＵＤ−Ｒ１〜ＡＵＤ−Ｒｍのうちの１つ）を出力するために構成される、複数のオーディオ処理モジュール２００を備える。個別のオーディオ処理モジュール２００によって出力される指向性オーディオ信号ＡＵＤ−Ｒ１〜ＡＵＤ−Ｒｍは、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣの中に組み合わせられ、これは、全ての選択された実オブジェクトから生じる音を優先的に表す。図示される実施形態では、ＤＳＰ１８２は、オブジェクト選択デバイス１１０を介してエンドユーザ５０によって選択された実オブジェクト毎に、オーディオ処理モジュール２００の１つのインスタンスを作成する。

この目的を達成するために、オーディオ処理モジュール２００はそれぞれ、複数の遅延要素１９４（この場合、マイクロホン要素Ｍ毎に１つずつの遅延要素Ｄ１〜Ｄｎ）、複数の利得要素１９６（この場合、マイクロホン要素Ｍ毎に１つずつの利得要素Ｇ１〜Ｇｎ）、および総和器１９８の形態における、処理パラメータを備える。遅延要素１９４は、それぞれ、遅延係数をマイクロホンアセンブリ１１６の対応する利得増幅器１９２から受信された増幅されたデジタル信号に適用し、利得要素１９６は、それぞれ、利得係数を遅延されたデジタル信号に適用する。総和器１９８（Ｓ）は、利得調節および遅延された信号を加算し、それぞれ、個別の指向性オーディオ信号ＡＵＤ−Ｒを生成する。

マイクロホン要素１１８は、空間的に配列され、各オーディオ処理モジュール２００の遅延要素１９４および利得要素１９６は、指向性極性パターンに従って周囲音の受信をもたらす様式において、マイクロホンアセンブリ１１６から受信されたデジタルオーディオ信号に適用される（すなわち、特定の角度方向または複数の方向から到着した音は、他の角度方向から到着した音より強調されるであろう）。ＤＳＰ１８２は、遅延要素１９４の遅延係数および利得要素１９６の利得係数を変化させることによって、指向性オーディオ信号ＡＵＤ−Ｒ１〜ＡＵＤ−Ｒｍ、したがって、組み合わせられた指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣの指向性を修正するために構成される。

したがって、オーディオ出力ＡＵＤ−ＯＵＴＭＩＣの指向性は、選択された実オブジェクトに基づいて修正される、例えば、音が優先的に受信される方向または複数の方向は、選択された実オブジェクトまたは源の方向に沿って設定されてもよいことが理解され得る。

例えば、図１５ａを参照すると、それぞれ、２つの特定の方向Ｄ_ａおよびＤ_ｂに沿った２つの実オブジェクトＲ_ａおよびＲ_ｂが、選択される場合、ＤＳＰ１８２は、オーディオ処理モジュール２００の２つのインスタンスを生成し、これらのオーディオ処理モジュール２００のそれぞれ内において、実オブジェクトＲ_ａおよびＲ_ｂの方向Ｄ_ａおよびＤ_ｂと整合される２つのローブを有する、受信利得パターンが、生成されるように、各オーディオ処理モジュール２００内の遅延要素１９４および利得要素１９６の全てのための個別の遅延係数および利得係数を選択するであろう。エンドユーザ５０の頭部５４に対する実オブジェクトＲ_ａおよびＲ_ｂの配向が、変化する場合、実オブジェクトＲ_ａおよびＲ_ｂの特定の方向は、変化し得、その場合、ＤＳＰ１８２は、受信利得パターンが、図１５ｂに図示されるように、方向Ｄ_ｃおよびＤ_ｄと整合される２つのローブを有するように、各オーディオ処理モジュール２００内の遅延要素１９４および利得要素１９６の全てのための異なる遅延係数および利得係数を選択してもよい。

オーディオ出力ＡＵＤ−ＯＵＴＭＩＣの指向性のそのような動的修正を促進するために、遅延／利得値の異なるセットおよび対応する優先的方向が、ＤＳＰ１８２によるアクセスのために、メモリ１３０内に記憶されてもよい。すなわち、ＤＳＰ１８２は、各選択された実オブジェクトＲの方向とメモリ１３０内に記憶される最も近い指向性値を合致させ、その選択された方向のための遅延／利得係数の対応するセットを選択する。

マイクロホン要素１１８は、デジタルとして説明されるが、マイクロホン要素１１８は、代替として、アナログであってもよいことに留意されたい。さらに、遅延要素１９４、利得要素１９６、および総和器１９８は、ＤＳＰ１８２内に常駐するソフトウェアコンポーネントとして開示および図示されるが、遅延要素１９４、利得要素１９６、および総和器１９８のうちの任意の１つ以上のものは、ＤＳＰ１８２外に常駐するが、その制御下にある、アナログハードウェアコンポーネントを備えてもよい。しかしながら、ソフトウェアベースのオーディオ処理モジュール２００の使用は、いくつかの明確に異なる実オブジェクトからの音が、同時に、優先的に受信および処理されることを可能にする。

図１２に戻って参照すると、ＤＳＰ１８２はまた、音声データをユーザマイクロホン１２２から受信し、それと指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣを組み合わせる。随意の実施形態では、ＤＳＰ１８２は、音響エコーキャンセル（ＡＥＣ）および雑音抑制（ＮＳ）機能を仮想オブジェクトから生じるスピーカ１０８からの音に対して実施するために構成される。すなわち、マイクロホンアセンブリ１１６は、音が優先的に受信される方向がスピーカ１０８と一致し得ない場合でも、スピーカ１０８によって放出される音を感知し得る。この目的を達成するために、大域的特殊効果モジュール１８８によってスピーカ１０８に出力される空間化オーディオデータはまた、ＤＳＰ１８２の中に入力され、これは、空間化オーディオデータを使用して、スピーカ１０８によってマイクロホンアセンブリ１１６に出力される結果として生じる音（雑音と見なされる）を抑制し、スピーカ１０８からマイクロホンアセンブリ１１６へのフィードバックから生じる任意のエコーをキャンセルする。

重要なこととして、ＤＳＰ１８２はさらに、オーディオコンテンツデータとしてのメモリ１３０（図２に示される）内への記憶のために、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣおよび局所的メタデータ（例えば、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣが生じた実オブジェクトの場所および配向）をレコーダ１３２に送信するために構成される。図１１に図示される例示的実施形態では、局所的メタデータは、実オブジェクトＡＵＤ−Ｒ２（すなわち、実際のボーカル）に対応する。したがって、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣ（実オブジェクトＡＵＤ−Ｒ２に優先的に対応する）および対応する局所的メタデータＭＤ−Ｒ２は、図１３に示されるように、メモリ１３０内に記憶される。

随意の実施形態では、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣ（空間化されてもよい）は、エンドユーザ５０への再生のために、スピーカ１０８または他のスピーカの中に入力されてもよい。指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣは、音の明確性または現実性に影響を及ぼすように、音が実オブジェクトの場所から生じるように、仮想源から生じる空間化オーディオデータがエンドユーザ５０に現れるものと同一様式で空間化されてもよい。すなわち、局所的メタデータ（例えば、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣが優先的に生じた実オブジェクトの場所および配向）は、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣに適用され、空間化オーディオデータを取得してもよい。

別の随意の実施形態では、実オブジェクトまたはさらにエンドユーザ５０によって選択された仮想オブジェクトから生じる音は、プロファイル化されてもよい。特に、ＤＳＰ１８２は、標的音のタイプを決定するために、選択されたオブジェクトからの音の特性と他の実オブジェクトから生じる音の特性を分析および比較してもよい。ＤＳＰ１８２は、次いで、所望に応じて、レコーダ１３２によってメモリ１３０（図２に示される）の中に記録するために、これらの実オブジェクトから生じる全てのオーディオデータを指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣ内に含めることができる。例えば、エンドユーザ５０が、音楽オブジェクト（ＡＵＤ−Ｖ２、ＡＵＤ−Ｖ３、ＡＵＤ−Ｖ４、ＡＵＤ−Ｒ２）のいずれかを選択した場合、ＤＳＰ１８２は、マイクロホンアセンブリ１１６を制御し、全ての音楽実オブジェクトを優先的に感知することができる。

図示される実施形態では、ＤＳＰ１８２は、エンドユーザ５０によって選択された実オブジェクト１９８が、ディスプレイサブシステム１０２の視野外に移動した場合でも（頭部／オブジェクト追跡サブシステム１２０から受信された実オブジェクト追跡データによって示されるように）、メモリ１３０内への記録のために、指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣをレコーダ１３０に出力することを継続する。代替実施形態では、ＤＳＰ１８２は、エンドユーザ５０によって選択された実オブジェクト１９８が、ディスプレイサブシステム１０２の視野外に移動するとすぐに、メモリ１３０内への記録のために指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣをレコーダ１３０に出力することを中止し、エンドユーザ５０によって選択された実オブジェクト１９８が、ディスプレイサブシステム１０２の視野の中に戻るとすぐに、メモリ１３０内への記録のために指向性オーディオ出力ＡＵＤ−ＯＵＴＭＩＣをレコーダ１３０に出力することを再開する。

オーディオプロセッサ１２８（図示される実施形態では、ＣＰＵ１８０およびＤＳＰ１８２）が、メモリ１３０内への記憶のために、選択された仮想オブジェクトおよび実オブジェクトから生じるオーディオコンテンツデータ（例示的場合では、オーディオコンテンツデータＡＵＤ−Ｖ２、ＡＵＤ−Ｖ３、およびＡＵＤ−Ｖ４、およびＡＵＤ−ＭＩＣ）および局所的メタデータ（例示的場合では、ＭＤ−Ｖ２、ＭＤ−Ｖ３、ＭＤ−Ｖ４、およびＭＤ−Ｒ２）および大域的メタデータ（ＭＤ−ＯＵＴ）をレコーダ１３２に送信するものと同様に、ビデオプロセッサ１２６は、図１３に図示されるように、仮想オブジェクトおよび実オブジェクトから生じるビデオコンテンツデータ（例示的場合では、ビデオコンテンツデータＶＩＤ−Ｖ２、ＶＩＤ−Ｖ３、ＶＩＤ−Ｖ４、およびＶＩＤ−Ｒ２）を送信してもよい。仮想オブジェクトの場合、ビデオプロセッサ１２６は、単に、さらなる処理を伴わずに、仮想オブジェクトを３Ｄデータベース１２４から入手し、メモリ１３０内への記憶のために、これらの仮想オブジェクトをレコーダ１３２に送信する。実オブジェクトの場合、ビデオプロセッサ１２６は、選択された実オブジェクトのいずれかをカメラ１１２から入手されたビデオから抽出または「切り取り」、これらの実オブジェクトを仮想オブジェクトとしてメモリ１３０内に記憶してもよい。図１１に図示される例示的場合では、実際のボーカルＲ２のためのビデオは、仮想オブジェクトＶＩＤ−Ｒ２として記録されてもよい。随意の実施形態では、ビデオプロセッサ１２６は、メモリ１３０内への記憶のために、カメラ１１２から入手されたビデオ全体（選択されていない仮想および実オブジェクトに対応するビデオを含む）をレコーダ１３２に送信する。

プレーヤ１３４は、メモリ１３０内に記録されたビデオおよび／またはオーディオを、ビデオ／オーディオを記録したオリジナルエンドユーザ５０またはサードパーティユーザであり得る、再生ユーザ５０’（図１６ａに示される）に再生するために構成される。オーディオ／ビデオは、再生ユーザ５０’によって与えられるコマンド、例えば、ユーザマイクロホン１２２を介した音声コマンドに応答して、プレーヤ１３４によって選択的に再生されてもよい。例えば、再生ユーザ５０’は、「仮想オーディオオン／オフ」コマンドを使用して、仮想オーディオ再生をオンまたはオフにする、または「ディスプレイオン／オフ」コマンドを使用して、仮想ビデオ再生をオンまたはオフにする、または「実オーディオオン／オフ」コマンドを使用して、実オーディオ再生をオンまたはオフにしてもよい。

図示される実施形態では、オーディオプロセッサ１２８は、オーディオコンテンツデータおよびメタデータ（選択された仮想および実オブジェクトに対応する）をメモリ１３０から読み出し、オーディオコンテンツデータおよびメタデータからの空間化オーディオをレンダリングし、再生スピーカ１０８を介したユーザ５０’への再生のために、空間化オーディオをプレーヤ１３４に伝達する。混合空間化オーディオデータ（コンテンツおよびメタデータの代わりに）が記憶される、代替実施形態では、プレーヤ１３４は、単に、オーディオデータを再レンダリングせずに、または別様にさらに処理せずに、再生ユーザ５０’に再生するために、オーディオデータをメモリ１３０から入手してもよい。

さらに、図示される実施形態では、ビデオプロセッサ１２６は、ビデオコンテンツデータおよびメタデータ（選択された仮想および実オブジェクトに対応する）を読み出し、ビデオコンテンツデータおよびメタデータからのビデオをレンダリングし、スピーカ１０８を介したオーディオの再生と同期したディスプレイサブシステム１０２を介した再生ユーザ５０’への再生のために、ビデオをプレーヤ１３４に伝達する。随意に、カメラ１１２によって捕捉されたビデオデータの全てが記憶される場合、プレーヤ１３４は、単に、ビデオデータをレンダリングせずに、または別様にさらに処理せずに、再生ユーザ５０’に再生するために、ビデオデータをメモリ１３０から入手してもよい。拡張現実システム１０は、再生ユーザ５０’に、選択された仮想および実オブジェクトに対応するビデオのみの再生またはカメラ１１２によって捕捉されたビデオ全体の再生のいずれかのオプションを提供してもよい。

一実施形態では、再生ユーザ５０’の現在の頭部姿勢は、ビデオ／オーディオの再生の間、考慮されない。代わりに、ビデオ／オーディオは、ビデオ／オーディオデータの記録の間に元々検出された頭部姿勢を使用して、再生ユーザ５０’に再生され、これは、オーディオ／ビデオコンテンツデータとともにメモリ１３０内に記憶される局所的メタデータ内に反映されるであろう、または混合空間化オーディオが、メタデータを伴わずに記録される場合、頭部姿勢は、メモリ１３０内に記憶される混合空間化オーディオ内に反映されるであろう。この場合、再生ユーザ５０’は、オリジナルエンドユーザ５０がビデオ／オーディオを体験したものと同一様式において、ビデオ／オーディオを体験するであろうが、但し、オリジナルエンドユーザ５０によって選択された仮想および実オブジェクトから生じるオーディオのみおよび随意にビデオのみが、再生されるであろう。この場合、再生ユーザ５０’は、再生ユーザ５０’の頭部姿勢が考慮されるであろうため、拡張現実に没入し得ない。むしろ、再生ユーザ５０’は、ヘッドセットを使用して、オーディオ再生を体験してもよい（したがって、オーディオは、環境によって影響されないであろう）、または再生ユーザ５０’は、静かな部屋内でオーディオ再生を体験してもよい。

代替実施形態では、再生ユーザ５０’の現在の頭部姿勢は、ビデオ／オーディオの再生の間、考慮されてもよい。この場合、ビデオ／オーディオの記録の間の再生ユーザ５０’の頭部姿勢は、再生の間に検出された再生ユーザ５０’の現在の頭部姿勢が、ビデオ／オーディオデータを再レンダリングするために使用されるであろうため、ビデオ／オーディオコンテンツデータとともにメモリ１３０内に記憶されるメタデータの中に組み込まれる必要はない。代わりに、メモリ１３０内に記憶される絶対メタデータ（例えば、３Ｄ場面内のこれらの仮想オブジェクトの音量および絶対位置および配向、および仮想源の近傍の任意の仮想または実オブジェクトを含む、各仮想オブジェクトを囲繞する空間音響、部屋寸法、壁／床材料等）が、再生ユーザ５０’の現在の頭部姿勢を使用して、再生ユーザ５０’の頭部姿勢に対して局所化され、次いで、オーディオ／ビデオをレンダリングするために使用されるであろう。したがって、再生ユーザ５０’は、ビデオ／オーディオの再生の間、拡張現実に没入するであろう。

再生ユーザ５０’は、ビデオ／オーディオが記録された（例えば、「同一物理的部屋」）オリジナル空間環境内で拡張現実を体験してもよい、または新しい物理的または仮想空間環境（例えば、「異なる物理的または仮想部屋」）内で拡張現実を体験してもよい。

拡張現実が、ビデオ／オーディオが記録されたオリジナル空間環境内で再生ユーザ５０’によって体験される場合、選択されたオブジェクトと関連付けられた絶対メタデータは、空間化オーディオの正確な再生のために修正される必要はない。対照的に、拡張現実が、新しい空間環境内で再生ユーザ５０’によって体験される場合、オブジェクトと関連付けられた絶対メタデータは、新しい空間環境内でのオーディオ／ビデオの正確なレンダリングのために修正される必要があり得る。

例えば、例示的実施形態では、仮想オブジェクトＡＵＤ−Ｖ２（すなわち、仮想ドラマー）、ＡＵＤ−Ｖ３（すなわち、仮想ギタリスト）、ＡＵＤ−Ｖ４（すなわち、仮想ベーシスト）、および実オブジェクト（すなわち、実際のボーカル）からのオーディオ／ビデオコンテンツは、図１６ａに図示されるように、小部屋２５０内で記録されてもよい。仮想オブジェクトＡＵＤ−Ｖ２（すなわち、仮想ドラマー）、ＡＵＤ−Ｖ３（すなわち、仮想ギタリスト）、ＡＵＤ−Ｖ４（すなわち、仮想ベーシスト）、および実オブジェクト（すなわち、実際のボーカル）から以前に記録されたオーディオは、図１６ｂに図示されるように、コンサートホール２５２で再生されてもよい。拡張現実システム１０は、オブジェクトをコンサートホール２５２内の任意の場所に再位置付けしてもよく、コンサートホール２５２内の各オブジェクトの新しい位置およびコンサートホール２５２内の各オブジェクトを囲繞する空間音響を含む、絶対メタデータが、生成または別様に入手されてもよい。本絶対メタデータは、次いで、再生ユーザ５０’の現在の頭部姿勢を使用して、局所化され、次いで、再生ユーザ５０’への再生のために、オーディオおよびビデオをコンサートホール２５２内にレンダリングするために使用されることができる。

拡張現実システム１００の配列および機能を説明したので、拡張現実システム１００を使用して、少なくとも１つのオブジェクトを選択し、これらの選択されたオブジェクトからのオーディオおよびビデオを記録する１つの方法３００が、ここで、図１７に関して説明されるであろう。

最初に、エンドユーザ５０が、オブジェクト選択デバイス１１０を介して、空間環境内の少なくとも１つのオブジェクト（例えば、実際および／または仮想）を持続的に選択する（ステップ３０２）。オブジェクトは、例えば、３次元カーソル６２（図５に示される）をエンドユーザ５０の視野６０内で移動させ、３次元カーソル６２を用いて、オブジェクトを選択することによって、エンドユーザ５０の視野６０内で選択されることができる。または、オブジェクトは、手のジェスチャ（図６または７に示される）を使用して、または音声コマンドを使用して、選択されることができる。複数のオブジェクトは、個々に選択されてもよい、または、例えば、線６４をオブジェクトの周囲に引くことによって（図８に示される）、またはエンドユーザ５０の視野６０の角度範囲６６（エンドユーザ５０の視野６０の角度範囲全体未満であってもよい）（図９に示される）を定義し、エンドユーザ５０の視野６０の定義された角度範囲６６内のオブジェクトの全てを選択することによって、大域的に選択されてもよい。

次に、空間環境内の全ての仮想オブジェクトのためのオーディオおよびビデオコンテンツ、および仮想オブジェクトと関連付けられた絶対メタデータが、入手される（ステップ３０４）。次に、エンドユーザ５０の現在の頭部姿勢が、追跡され（ステップ３０６）、絶対メタデータが、現在の頭部姿勢データを使用して、エンドユーザ５０の頭部５４に対して局所化され（ステップ３０８）、仮想オブジェクトのオーディオおよびビデオコンテンツに適用され、個別の仮想オブジェクトの全てのためのビデオデータおよび空間化オーディオデータを取得する（ステップ３１０）。３Ｄ場面内の個別の仮想オブジェクトの全てのための空間化オーディオデータは、混合され（ステップ３１２）、大域的メタデータは、混合空間化オーディオデータに適用され、３Ｄ場面内の全ての仮想オブジェクトのための最終空間化オーディオを取得し（ステップ３１４）、これは、次いで、エンドユーザ５０による知覚のための音に変換される（ステップ３１６）。次に、ステップ３１０において取得されたビデオデータは、エンドユーザ５０による知覚のための画像フレームに変換される（ステップ３１８）。次に、ステップ３０２においてエンドユーザ５０によって選択された全ての仮想オブジェクトのためのオーディオ／ビデオコンテンツおよび全ての関連付けられたメタデータ（絶対および局所的メタデータの両方）が、記録される（ステップ３２０）。

ステップ３０４〜３２０と並行して、エンドユーザ５０の頭部５４に対する選択された実オブジェクトの位置および／または配向が、追跡され（ステップ３２２）、選択された実オブジェクトから生じる音は、実オブジェクトの追跡された位置および配向に基づいて、優先的に感知される（ステップ３２４）。次に、選択された実オブジェクトの画像が、捕捉され（ステップ３２６）、随意に、仮想ビデオコンテンツに変換される。次に、選択された実オブジェクトからの優先的に感知された音と関連付けられたオーディオコンテンツおよび選択された実オブジェクトの捕捉された画像と関連付けられたビデオコンテンツ、および選択された実オブジェクト毎の全ての関連付けられたメタデータ（実オブジェクトの場所および配向）が、記録される（ステップ３２８）。

再生ユーザ５０’のために、拡張現実システム１００を使用して、少なくとも１つのオブジェクトの以前に記録されたオーディオおよびビデオを再生する１つの方法４００が、ここで、図１８に関して説明されるであろう。そのようなオーディオおよびビデオは、上記の図１７の方法３００に説明される様式において、オーディオコンテンツデータおよびビデオコンテンツデータとして事前に記録されていてもよい。オブジェクトは、実際および／または仮想のものであってもよく、エンドユーザ５０によって持続的に選択されていてもよい。例示的方法４００では、オーディオおよびビデオは、図１６ａおよび１６ｂに関して説明されるように、小部屋２５０等のオリジナル空間環境内で事前に記録され、コンサートホール２５２等のオリジナル空間環境と異なる新しい空間環境内で再生されてもよい。

最初に、以前に記録されたオーディオコンテンツデータおよびビデオコンテンツデータが、入手される（ステップ４０２）。新しい空間環境が、少なくとも部分的に仮想である場合、新しい空間環境と関連付けられた付加的仮想コンテンツ（オーディオまたはビデオのいずれか）もまた、入手されてもよい。次いで、オブジェクトは、新しい空間環境内に再位置付けられ、これは、再生ユーザ５０’からの入力に応答してもよい（ステップ４０４）。次いで、新しい空間環境内に位置付けられるオブジェクトに対応する絶対メタデータが、入手され（ステップ４０６）、再生ユーザ５０’の頭部姿勢が、新しい空間環境内で追跡され（ステップ４０８）、絶対メタデータが、再生ユーザ５０’の追跡された頭部姿勢に基づいて、再生ユーザ５０’に対して局所化される（ステップ４１０）。次に、オーディオおよびビデオが、新しい空間環境内の局所的メタデータに基づいて、読み出されたオーディオコンテンツデータおよびビデオコンテンツデータからレンダリングされる（ステップ４１２）。レンダリングされたオーディオおよびビデオは、次いで、再生ユーザ５０’による同期知覚のために、それぞれ、音および画像フレームに変換される（ステップ４１４）。

前述の明細書では、本発明は、その具体的実施形態を参照して説明された。しかしながら、種々の修正および変更が、本発明のより広義の精神および範囲から逸脱することなく、そこに成されてもよいことは、明白であろう。例えば、上記に説明されるプロセスフローは、プロセスアクションの特定の順序を参照して説明されている。しかしながら、説明されるプロセスアクションの多くの順序は、本発明の範囲または動作に影響を及ぼすことなく、変更されてもよい。明細書および図面は、故に、限定的意味ではなく、例証的意味と見なされるべきである。

Claims

ユーザによる使用のための仮想画像生成システムであって、
メモリと、
ディスプレイサブシステムと、
オブジェクト選択デバイスであって、前記オブジェクト選択デバイスは、入力を前記ユーザから受信し、前記ユーザ入力に応答して、３次元場面内の複数のオブジェクトから少なくとも１つのオブジェクトを選択するために構成され、前記少なくとも１つの選択されたオブジェクトは、実オブジェクトを含む、オブジェクト選択デバイスと、
制御サブシステムであって、前記制御サブシステムは、少なくとも、
オーディオ捕捉デバイスを用いて、前記複数のオブジェクトのうちの少なくとも１つの選択されていないオブジェクトよりも前記少なくとも１つの選択されたオブジェクトから出るオーディオデータを優先的に入手することと、
少なくとも、第２のメタデータに少なくとも部分的に基づいて第１のメタデータを前記ユーザに対して局所化することによって、前記オーディオデータから空間化オーディオをレンダリングすることであって、前記第１のメタデータは、前記ユーザに対して局所化されて第１の局所化メタデータになり、少なくとも１つの選択されたオブジェクトと関連付けられ、前記仮想画像生成システムによってまたは前記オーディオ捕捉デバイスを有する異なる仮想画像生成システムによって前記オーディオデータとともに生成され、前記第２のメタデータは、前記ユーザのための、前記仮想画像生成システムによって検出される位置特性または配向特性に関連する、ことと、
前記第１のメタデータと前記第２のメタデータとに少なくとも部分的に基づいて、レンダリングされた前記空間化オーディオと、前記ユーザに同期する前記少なくとも１つの選択されたオブジェクトを表す少なくとも１つの仮想オブジェクトとを提示することと
のために構成される、制御サブシステムと
を備える、仮想画像生成システム。
少なくとも画像捕捉デバイスを用いて、前記少なくとも１つの選択されたオブジェクトのための画像データを入手することと、
少なくとも、前記第２のメタデータに部分的にまたは全体的に基づいて前記ユーザに対して前記第１のメタデータを局所化することによって、前記少なくとも１つの選択されたオブジェクトを３次元場面内の前記仮想オブジェクトとして表す、前記少なくとも１つの選択されたオブジェクトの前記画像データを複数の画像フレームとしてレンダリングすることと
をさらに含み、
前記第１のメタデータは、前記第２のメタデータに部分的にまたは全体的に基づいて局所化されて前記第１の局所化メタデータになり、前記仮想画像生成システムによってまたは前記画像捕捉デバイスを有する異なる仮想画像生成システムによって検出される異なる位置特性または配向特性に関連する、請求項１に記載の仮想画像生成システム。
前記空間化オーディオおよび前記画像データは、前記空間化オーディオおよび前記仮想オブジェクトが生成される空間環境と異なる空間環境において、少なくとも、前記異なる空間環境において前記少なくとも１つの選択されたオブジェクトを再位置付けされたオブジェクトとして再位置付けすることによって、再生される、請求項２に記載の仮想画像生成システム。
前記空間化オーディオおよび前記画像データは、さらに少なくとも、前記再位置付けされたオブジェクトに対応する絶対メタデータを入手することによって、異なる空間環境において再生される、請求項３に記載の仮想画像生成システム。
前記空間化オーディオおよび前記画像データは、さらに少なくとも、前記絶対メタデータを局所化して局所化絶対メタデータになることによって、異なる空間環境において再生され、前記絶対メタデータは、前記少なくとも１つの選択されたオブジェクトに、再生ユーザに対応する、請求項４に記載の仮想画像生成システム。
前記空間化オーディオおよび前記画像データは、さらに少なくとも、前記局所化絶対メタデータに少なくとも部分的に基づいて前記空間化オーディオおよび前記画像データをレンダリングすることによって、異なる空間環境において再生される、請求項５に記載の仮想画像生成システム。
前記ユーザの頭部姿勢を追跡する１つ以上のセンサをさらに備え、前記ユーザの前記頭部姿勢は、前記第１のメタデータおよび前記オーディオデータに沿って、前記第２のメタデータとしてデータベース内に記憶され、前記少なくとも１つの選択されたオブジェクトに対応する前記第１のメタデータは、前記ユーザの前記頭部姿勢を備える前記第２のメタデータに少なくとも部分的に基づいて前記ユーザに前記空間化オーディオをレンダリングするためにおよび前記画像データをレンダリングするために前記ユーザに対して局所化される、請求項２に記載の仮想画像生成システム。
ビデオプロセッサをさらに備え、前記ビデオプロセッサは、データベース内に記憶される前記少なくとも１つの選択されたオブジェクトの前記画像データを入手し、前記画像データを処理することなく前記画像データをレコーダに送信し、前記レコーダは、処理された画像を前記メモリ内に記憶し、前記ディスプレイサブシステムは、投影サブシステムおよび部分的に透明なディスプレイ表面を含み、前記投影サブシステムは、前記複数の画像フレームを前記部分的に透明なディスプレイ表面上へ投影し、前記部分的に透明なディスプレイ表面は、エンドユーザの眼と周囲環境との間の視野内に位置付けられるために構成される、請求項２に記載の仮想画像生成システム。
ビデオプロセッサおよびフレーム構造をさらに備え、前記フレーム構造は、前記ユーザによって装着されるために、および、前記ディスプレイサブシステムの少なくとも一部を担持するために構成され、前記ビデオプロセッサは、前記画像捕捉デバイスによって捕捉されたビデオデータから前記少なくとも１つの選択されたオブジェクトの前記画像データを抽出し、前記ビデオデータから抽出された前記画像データを前記少なくとも１つの仮想オブジェクトとして前記メモリ内に記憶し、前記画像データをレコーダに送信し、前記レコーダは、前記画像データを前記少なくとも１つの仮想オブジェクトとしてデータベース内に記録する、請求項２に記載の仮想画像生成システム。
複数のスピーカをさらに備え、前記制御サブシステムは、前記空間化オーディオを前記複数のスピーカにさらに伝達する、請求項１に記載の仮想画像生成システム。
前記ディスプレイサブシステムは、視野を有し、前記オブジェクト選択デバイスは、前記ユーザ入力に応答して、前記視野内の前記少なくとも１つのオブジェクトを選択するための第１の命令を受信する、請求項１に記載の仮想画像生成システム。
前記オブジェクト選択デバイスは、前記ユーザ入力に応答して、３次元カーソルを前記ディスプレイサブシステムの前記視野内で移動させるための第２の命令を受信する、請求項１１に記載の仮想画像生成システム。
前記ユーザ入力は、１つ以上の音声コマンドまたは１つ以上の手のジェスチャを含み、前記オブジェクト選択デバイスは、前記１つ以上の音声コマンドまたは前記１つ以上の手のジェスチャを捕捉する１つ以上のデバイスを備える、請求項１に記載の仮想画像生成システム。
前記仮想画像生成システムは、前記オーディオデータのタイプに少なくとも部分的に基づいて、前記少なくとも１つの選択されたオブジェクトをプロファイル化し、前記オーディオデータのタイプは、少なくとも、１つ以上の実オブジェクトからそれぞれ出る前記オーディオデータの１つ以上の特性に少なくとも部分的に基づいて前記オーディオデータの特性を分析することによって、決定される、請求項１に記載の仮想画像生成システム。
前記少なくとも１つのオブジェクトは、複数のオブジェクトを含み、前記オブジェクト選択デバイスは、前記複数のオブジェクトのうちの１つのオブジェクトを個々に選択する第１の機能を前記ユーザに提供し、前記ユーザ入力に応答する範囲内で前記複数のオブジェクトのうちの複数のオブジェクトを大域的に選択する第２の機能を前記ユーザに提供し、前記ディスプレイサブシステムによって前記ユーザに提供された視野は、前記範囲を備える、請求項１に記載の仮想画像生成システム。
前記オブジェクト選択デバイスは、前記ユーザから別の入力を受信し、前記別の入力に応答して、前記少なくとも１つの選択されたオブジェクトを選択解除する、請求項１に記載の仮想画像生成システム。
前記ディスプレイサブシステムによって前記ユーザに提供された視野に対する前記少なくとも１つの選択されたオブジェクトの場所を追跡する少なくとも１つのセンサをさらに備える、請求項１に記載の仮想画像生成システム。
前記制御サブシステムは、前記少なくとも１つのセンサによって追跡される前記少なくとも１つの選択されたオブジェクトの場所が、前記ディスプレイサブシステムによって前記ユーザに提供される前記視野外に移動すると、前記オーディオデータを前記メモリ内に記憶することを引き起こす、請求項１７に記載の仮想画像生成システム。
前記制御サブシステムは、前記少なくとも１つのセンサによって追跡される前記少なくとも１つの選択されたオブジェクトの場所が、前記ディスプレイサブシステムによって前記ユーザに提供される前記視野外に移動すると、前記オーディオデータを前記メモリ内に記憶することを継続する、請求項１７に記載の仮想画像生成システム。
オーディオ捕捉デバイスは、指向性オーディオ出力を生成し、前記制御サブシステムは、前記少なくとも１つの選択されていないオブジェクトよりも前記少なくとも１つの選択されたオブジェクトの方向に、前記オーディオ捕捉デバイスによって受信された前記オーディオデータを優先的に表すように、前記指向性オーディオ出力をさらに修正し、前記空間化オーディオは、前記制御サブシステムによって修正された前記指向性オーディオ出力から導出される、請求項１に記載の仮想画像生成システム。
前記少なくとも１つの選択されたオブジェクトに関連する画像データを捕捉する１つ以上の画像捕捉デバイスをさらに備え、前記制御サブシステムは、前記オーディオデータと同期する前記画像データを前記メモリ内に記憶し、前記少なくとも１つの選択されたオブジェクトは、カーソルを使用することなく前記ユーザによって選択される、請求項１に記載の仮想画像生成システム。
前記制御サブシステムは、前記メモリ内に記憶された前記画像データを前記少なくとも１つの選択されたオブジェクトのための仮想コンテンツデータに変換し、前記仮想コンテンツデータを前記メモリ内にさらに記憶する、請求項２１に記載の仮想画像生成システム。
前記少なくとも１つの選択されたオブジェクトは、前記仮想画像生成システムによってレンダリングされた仮想オブジェクトを含む、請求項１に記載の仮想画像生成システム。
複数の仮想オブジェクトによって生成された前記オーディオデータを記憶するデータベースをさらに備え、前記制御サブシステムは、選択されていない仮想オブジェクトよりも選択された仮想オブジェクトに対応する前記オーディオデータを前記データベースから優先的に入手するための命令を受信し、前記データベースは、前記仮想オブジェクトの説明を記憶し、前記データベースに記憶される前記仮想オブジェクトの前記説明は、前記ユーザによって表される前記仮想オブジェクトの口頭説明に合致される、請求項１に記載の仮想画像生成システム。
前記制御サブシステムは、前記少なくとも１つの選択されたオブジェクトに対応する前記第１のメタデータをさらに生成し、前記メモリ内に記憶される前記オーディオデータは、前記オーディオデータ内のコンテンツおよび前記第１のメタデータを含む、請求項１に記載の仮想画像生成システム。
前記第１のメタデータは、前記少なくとも１つの選択されたオブジェクトのための絶対位置および絶対配向に関するデータを含む、請求項１に記載の仮想画像生成システム。
少なくとも１つのスピーカをさらに備え、前記仮想画像生成システムは、前記空間化オーディオをレンダリングすることによって、前記少なくとも１つの選択されたオブジェクトのみから入手された前記オーディオデータを前記空間化オーディオにさらに変換し、前記オーディオデータを前記空間化オーディオに変換することは、前記メモリ内に記憶された前記オーディオデータを読み出すことと、前記メモリから読み出された前記オーディオデータから空間化オーディオを導出することと、前記空間化オーディオを前記少なくとも１つのスピーカに伝達することと、前記実オブジェクトから生じる音と前記空間化オーディオを混合することとを含む、請求項１に記載の仮想画像生成システム。
レコーダをさらに備え、前記レコーダは、第１のオーディオデータを入手し、前記第１のオーディオデータは、前記空間化オーディオ、および、前記少なくとも１つの選択されたオブジェクトに対応する前記第１のメタデータまたは前記第２のメタデータを含み、前記レコーダは、第１のビデオデータをさらに入手し、前記第１のビデオデータは、前記第１のビデオデータの画像フレーム、および、少なくとも前記少なくとも１つの選択されたオブジェクトに関連する対応するメタデータを含み、前記レコーダは、異なるコンピューティングデバイス上のプレーヤにおける後続再生のために前記第１のオーディオデータおよび前記第１のビデオデータをさらに記憶する、請求項２７に記載の仮想画像生成システム。
前記レコーダは、記録し、第１の仮想オブジェクトからの第１のオーディオおよび第１の実オブジェクトからの第２のオーディオを記録しないように構成され、前記空間化オーディオは、少なくとも、前記第１の局所化メタデータおよび大域的メタデータを前記ユーザのために前記オーディオデータに適用することによって、前記オーディオデータからレンダリングされる、請求項２８に記載の仮想画像生成システム。
少なくとも、前記第２のメタデータに少なくとも部分的に基づいて前記ユーザに対して前記第１のメタデータではなく絶対メタデータを局所化することによって、前記仮想オブジェクトとして前記少なくとも１つの選択されたオブジェクトを表す複数の画像フレームとして、前記少なくとも１つの選択されたオブジェクトのための少なくとも画像捕捉デバイスによって入手された画像データをレンダリングすることをさらに含み、前記少なくとも１つの選択されたオブジェクトは、前記仮想画像生成システムの前記ユーザまたは前記異なる仮想画像生成システムの異なるユーザが注視する方向にかかわらず、持続的に選択されたままである、請求項１に記載の仮想画像生成システム。