JP7446420B2

JP7446420B2 - 反響フィンガプリント推定

Info

Publication number: JP7446420B2
Application number: JP2022523600A
Authority: JP
Inventors: マチューパルヴェ，; ジャン－マルクジョット，; コルビーネルソンライダー，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-10-25
Filing date: 2020-10-23
Publication date: 2024-03-08
Anticipated expiration: 2040-10-23
Also published as: US11540072B2; JP2024019645A; US20230403524A1; JP2022553333A; EP4049466A1; US20220272469A1; US20230077524A1; WO2021081435A1; US11304017B2; EP4049466A4; US20210127220A1; US11778398B2; CN114586382A

Description

（関連出願の相互参照）
本願は、その開示全体が、あらゆる目的のために、参照することによって本明細書に組み込まれる、２０１９年１０月２５日に出願された、米国仮出願第６２／９２６，３３０号の利益を主張する。

本開示は、一般に、オーディオ情報を決定および処理するためのシステムおよび方法に関し、特に、複合現実環境内でオーディオ情報を決定および処理するためのシステムおよび方法に関する。

仮想環境は、コンピューティング環境において普遍的であって、ビデオゲーム（仮想環境が、ゲーム世界を表し得る）、マップ（仮想環境が、ナビゲートされるべき地形を表し得る）、シミュレーション（仮想環境が、実環境をシミュレートし得る）、デジタルストーリーテリング（仮想キャラクタが、仮想環境内で相互に相互作用し得る）、および多くの他の用途において使用を見出している。現代のコンピュータユーザは、概して、快適に仮想環境を知覚し、それと相互作用する。しかしながら、仮想環境を伴うユーザの体験は、仮想環境を提示するための技術によって限定され得る。例えば、従来のディスプレイ（例えば、２Ｄディスプレイ画面）およびオーディオシステム（例えば、固定スピーカ）は、人を引き付け、現実的で、かつ没入型の体験を作成するように、仮想環境を実現することが不可能であり得る。

仮想現実（「ＶＲ」）、拡張現実（「ＡＲ」）、複合現実（「ＭＲ」）、および関連技術（集合的に、「ＸＲ」）は、ＸＲシステムのユーザにコンピュータシステム内のデータによって表される仮想環境に対応する感覚情報を提示する能力を共有する。本開示は、ＶＲ、ＡＲ、およびＭＲシステム間の特異性を考慮する（但し、いくつかのシステムは、一側面（例えば、視覚的側面）では、ＶＲとしてカテゴリ化され、同時に、別の側面（例えば、オーディオ側面）では、ＡＲまたはＭＲとしてカテゴリ化され得る）。本明細書で使用されるように、ＶＲシステムは、少なくとも１つの側面においてユーザの実環境を置換する、仮想環境を提示する。例えば、ＶＲシステムは、ユーザに、仮想環境のビューを提示し得る一方、同時に、光遮断頭部搭載型ディスプレイ等を用いて、実環境のそのビューを不明瞭にする。同様に、ＶＲシステムは、ユーザに、仮想環境に対応するオーディオを提示し得る一方、同時に、実環境からのオーディオを遮断する（減衰させる）。

ＶＲシステムは、ユーザの実環境を仮想環境と置換することから生じる、種々の短所を被り得る。１つの短所は、仮想環境内のユーザの視野が、（仮想環境ではなく）実環境内におけるその平衡および配向を検出する、その内耳の状態にもはや対応しなくなるときに生じ得る、乗り物酔いを感じることである。同様に、ユーザは、自身の身体および四肢（そのビューは、ユーザが実環境内において「地に足が着いている」と感じるために依拠するものである）が直接可視ではない場合、ＶＲ環境内において失見当識を被り得る。別の短所は、特に、ユーザを仮想環境内に没入させようとする、リアルタイム用途において、完全３Ｄ仮想環境を提示しなければならない、ＶＲシステムに課される算出負担（例えば、記憶、処理力）である。同様に、そのような環境は、ユーザが、仮想環境内のわずかな不完全性にさえ敏感である傾向にあって、そのいずれも、仮想環境内のユーザの没入感を破壊し得るため、没入していると見なされるために、非常に高水準の現実性に到達する必要があり得る。さらに、ＶＲシステムの別の短所は、システムのそのような用途が、実世界内で体験する、種々の光景および音等の実環境内の広範囲の感覚データを利用することができないことである。関連短所は、実環境内の物理的空間を共有するユーザが、仮想環境内で直接見る、または相互に相互作用することが不可能であり得るため、ＶＲシステムが、複数のユーザが相互作用し得る、共有環境を作成することに苦戦し得ることである。

本明細書で使用されるように、ＡＲシステムは、少なくとも１つの側面において実環境に重複またはオーバーレイする、仮想環境を提示する。例えば、ＡＲシステムは、表示される画像を提示する一方、光が、ディスプレイを通してユーザの眼の中に通過することを可能にする、透過性頭部搭載型ディスプレイ等を用いて、ユーザに、実環境のユーザのビュー上にオーバーレイされる仮想環境のビューを提示し得る。同様に、ＡＲシステムは、ユーザに、仮想環境に対応するオーディオを提示し得る一方、同時に、実環境からのオーディオを混合させる。同様に、本明細書で使用されるように、ＭＲシステムは、ＡＲシステムと同様に、少なくとも１つの側面において実環境に重複またはオーバーレイする、仮想環境を提示し、加えて、ＭＲシステム内の仮想環境が、少なくとも１つの側面において実環境と相互作用し得ることを可能にし得る。例えば、仮想環境内の仮想キャラクタが、実環境内の照明スイッチを切り替え、実環境内の対応する電球をオンまたはオフにさせてもよい。別の実施例として、仮想キャラクタが、実環境内のオーディオ信号に反応してもよい（顔の表情等を用いて）。実環境の提示を維持することによって、ＡＲおよびＭＲシステムは、ＶＲシステムの前述の短所のうちのいくつかを回避し得る。例えば、ユーザにおける乗り物酔いは、実環境からの視覚的キュー（ユーザ自身の身体を含む）が、可視のままであり得、そのようなシステムが、没入型であるために、ユーザに、完全に実現された３Ｄ環境を提示する必要がないため、低減される。さらに、ＡＲおよびＭＲシステムは、実世界感覚入力（例えば、景色、オブジェクト、および他のユーザのビューおよび音）を利用して、その入力を拡張させる、新しい用途を作成することができる。

ＭＲシステムは、ユーザのための没入型の複合現実環境を作成するために、可能な限り多くのヒト感覚とインターフェースをとることが望ましくあり得る。仮想コンテンツの視覚的ディスプレイは、複合現実体験にとって重要であり得るが、オーディオ信号もまた、複合現実環境内で没入感を作成する際に有用であり得る。視覚的に表示される仮想コンテンツと同様に、仮想オーディオコンテンツもまた、実環境からの音をシミュレートするように適合されることができる。例えば、エコーを伴って実環境に提示される仮想オーディオコンテンツはまた、仮想オーディオコンテンツが、実際には、実環境内でエコーではあり得ない場合でも、エコーとしてレンダリングされてもよい。本適合は、仮想コンテンツと実コンテンツを、２つの間の区別が、明白ではない、またはさらに、エンドユーザに知覚不能であるように、混成することに役立ち得る。仮想オーディオコンテンツと実オーディオコンテンツを効果的に混成するために、仮想オーディオコンテンツが実オーディオコンテンツの特性をシミュレートし得るように、実環境の音響性質を理解することが望ましくあり得る。

本開示の実施例は、環境の音響性質を推定するためのシステムおよび方法を説明する。例示的方法では、第１のオーディオ信号が、ウェアラブル頭部デバイスのマイクロホンを介して受信される。第１のオーディオ信号のエンベロープが、決定され、第１の反響時間が、第１のオーディオ信号のエンベロープに基づいて推定される。第１の反響時間と第２の反響時間との間の差異が、決定される。環境の変化が、第１の反響時間と第２の反響時間との間の差異に基づいて決定される。第２のオーディオ信号が、ウェアラブル頭部デバイスのスピーカを介して提示され、第２のオーディオ信号は、第２の反響時間に基づく。
本発明は、例えば、以下を提供する。
（項目１）
方法であって、
ウェアラブル頭部デバイスのマイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
ウェアラブル頭部デバイスのスピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第１の反響時間に基づく、ことと
を含む、方法。
（項目２）
前記第１の反響時間を推定することは、前記第１のオーディオ信号のエンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、項目１に記載の方法。
（項目３）
前記第１の反響時間を推定することは、
前記第１のオーディオ信号のエンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、項目１に記載の方法。
（項目４）
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
をさらに含み、
前記第１の反響時間と前記第２の反響時間との間の差異を決定すること、前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、前記環境の変化を決定すること、および前記ウェアラブル頭部デバイスのスピーカを介して、前記第２のオーディオ信号を提示することは、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、項目１に記載の方法。
（項目５）
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、項目１に記載の方法。
（項目６）
前記第１の反響利得を推定することは、ユーザに手を叩くようにプロンプトすることを含む、項目５に記載の方法。
（項目７）
前記第１の反響利得を推定することは、前記ウェアラブル頭部デバイスのスピーカを介して、インパルス音を提示することを含む、項目５に記載の方法。
（項目８）
前記第１の反響利得は、直接音エネルギーと反響音エネルギーの比率を含む、項目５に記載の方法。
（項目９）
システムであって、
ウェアラブル頭部デバイスのマイクロホンと、
ウェアラブル頭部デバイスのスピーカと、
１つまたはそれを上回るプロセッサであって、
前記ウェアラブル頭部デバイスのマイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
前記ウェアラブル頭部デバイスのスピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第１の反響時間に基づく、ことと
を含む方法を実行するように構成される、１つまたはそれを上回るプロセッサと
を備える、システム。
（項目１０）
前記第１の反響時間を推定することは、前記第１のオーディオ信号のエンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、項目９に記載のシステム。
（項目１１）
前記第１の反響時間を推定することは、
前記第１のオーディオ信号のエンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、項目９に記載のシステム。
（項目１２）
前記方法はさらに、
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
を含み、
前記第１の反響時間と前記第２の反響時間との間の差異を決定すること、前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、前記環境の変化を決定すること、および前記ウェアラブル頭部デバイスのスピーカを介して、前記第２のオーディオ信号を提示することは、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、項目９に記載のシステム。
（項目１３）
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、項目９に記載のシステム。
（項目１４）
前記第１の反響利得を推定することは、前記ウェアラブル頭部デバイスのスピーカを介して、インパルス音を提示することを含む、項目１３に記載のシステム。
（項目１５）
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を記憶しており、前記命令は、１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
ウェアラブル頭部デバイスのマイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
ウェアラブル頭部デバイスのスピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第１の反響時間に基づく、ことと
を含む方法を実行させる、非一過性コンピュータ可読媒体。
（項目１６）
前記第１の反響時間を推定することは、前記第１のオーディオ信号のエンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、項目１５に記載の非一過性コンピュータ可読媒体。
（項目１７）
前記第１の反響時間を推定することは、
前記第１のオーディオ信号のエンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、項目１５に記載の非一過性コンピュータ可読媒体。
（項目１８）
前記方法はさらに、
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
を含み、
前記第１の反響時間と前記第２の反響時間との間の差異を決定すること、前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、前記環境の変化を決定すること、および前記ウェアラブル頭部デバイスのスピーカを介して、前記第２のオーディオ信号を提示することは、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、項目１５に記載の非一過性コンピュータ可読媒体。
（項目１９）
前記第１のオーディオ信号のエンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、項目１５に記載の非一過性コンピュータ可読媒体。
（項目２０）
前記第１の反響利得を推定することは、前記ウェアラブル頭部デバイスのスピーカを介して、インパルス音を提示することを含む、項目１９に記載の非一過性コンピュータ可読媒体。

図１Ａ－１Ｃは、本開示の１つまたはそれを上回る実施形態による、例示的複合現実環境を図示する。図１Ａ－１Ｃは、本開示の１つまたはそれを上回る実施形態による、例示的複合現実環境を図示する。図１Ａ－１Ｃは、本開示の１つまたはそれを上回る実施形態による、例示的複合現実環境を図示する。

図２Ａ－２Ｄは、本開示の１つまたはそれを上回る実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。図２Ａ－２Ｄは、本開示の１つまたはそれを上回る実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。図２Ａ－２Ｄは、本開示の１つまたはそれを上回る実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。図２Ａ－２Ｄは、本開示の１つまたはそれを上回る実施形態による、複合現実環境を生成し、それと相互作用するために使用され得る、例示的複合現実システムのコンポーネントを図示する。

図３Ａは、本開示の１つまたはそれを上回る実施形態による、入力を複合現実環境に提供するために使用され得る、例示的複合現実ハンドヘルドコントローラを図示する。

図３Ｂは、本開示の１つまたはそれを上回る実施形態による、例示的複合現実システムと併用され得る、例示的補助ユニットを図示する。

図４は、本開示の１つまたはそれを上回る実施形態による、例示的複合現実システムのための例示的機能ブロック図を図示する。

図５は、本開示の１つまたはそれを上回る実施形態による、反響フィンガプリントを推定するステップの実施例を図示する。

図６は、本開示の１つまたはそれを上回る実施形態による、反響時間を推定するステップ実施例を図示する。

図７は、本開示の１つまたはそれを上回る実施形態による、反響時間を推定するステップの実施例を図示する。

詳細な説明
実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面を参照する。他の実施例も、使用されることができ、構造変更が、開示される実施例の範囲から逸脱することなく、行われることができることを理解されたい。

複合現実環境

全ての人々と同様に、複合現実システムのユーザは、実環境内に存在する、すなわち、「実世界」の３次元部分と、そのコンテンツの全てとが、ユーザによって知覚可能である。例えば、ユーザは、通常の人間の感覚、すなわち、視覚、聴覚、触覚、味覚、嗅覚を使用して、実環境を知覚し、実環境内で自身の身体を移動させることによって、実環境と相互作用する。実環境内の場所は、座標空間内の座標として説明されることができる。例えば、座標は、緯度、経度、および海抜に対する高度、基準点から３つの直交次元における距離、または他の好適な値を含むことができる。同様に、ベクトルは、座標空間内の方向および大きさを有する、量を説明することができる。

コンピューティングデバイスは、例えば、デバイスと関連付けられるメモリ内に、仮想環境の表現を維持することができる。本明細書で使用されるように、仮想環境は、３次元空間の算出表現である。仮想環境は、任意のオブジェクトの表現、アクション、信号、パラメータ、座標、ベクトル、またはその空間と関連付けられる他の特性を含むことができる。いくつかの実施例では、コンピューティングデバイスの回路（例えば、プロセッサ）は、仮想環境の状態を維持および更新することができる。すなわち、プロセッサは、第１の時間ｔ０において、仮想環境と関連付けられるデータおよび／またはユーザによって提供される入力に基づいて、第２の時間ｔ１における仮想環境の状態を決定することができる。例えば、仮想環境内のオブジェクトが、時間ｔ０において、第１の座標に位置し、あるプログラムされた物理的パラメータ（例えば、質量、摩擦係数）を有し、ユーザから受信された入力が、力がある方向ベクトルにおいてオブジェクトに印加されるべきであることを示す場合、プロセッサは、運動学の法則を適用し、基本力学を使用して、時間ｔ１におけるオブジェクトの場所を決定することができる。プロセッサは、仮想環境について既知の任意の好適な情報および／または任意の好適な入力を使用して、時間ｔ１における仮想環境の状態を決定することができる。仮想環境の状態を維持および更新する際、プロセッサは、仮想環境内の仮想オブジェクトの作成および削除に関連するソフトウェア、仮想環境内の仮想オブジェクトまたはキャラクタの挙動を定義するためのソフトウェア（例えば、スクリプト）、仮想環境内の信号（例えば、オーディオ信号）の挙動を定義するためのソフトウェア、仮想環境と関連付けられるパラメータを作成および更新するためのソフトウェア、仮想環境内のオーディオ信号を生成するためのソフトウェア、入力および出力をハンドリングするためのソフトウェア、ネットワーク動作を実装するためのソフトウェア、アセットデータ（例えば、仮想オブジェクトを経時的に移動させるためのアニメーションデータ）を適用するためのソフトウェア、または多くの他の可能性を含む、任意の好適なソフトウェアを実行することができる。

ディスプレイまたはスピーカ等の出力デバイスは、仮想環境のいずれかまたは全ての側面をユーザに提示することができる。例えば、仮想環境は、ユーザに提示され得る、仮想オブジェクト（無有生オブジェクト、人々、動物、光等の表現を含み得る）を含んでもよい。プロセッサは、仮想環境のビュー（例えば、原点座標、視軸、および錐台を伴う、「カメラ」に対応する）を決定し、ディスプレイに、そのビューに対応する仮想環境の視認可能場面をレンダリングすることができる。任意の好適なレンダリング技術が、本目的のために使用されてもよい。いくつかの実施例では、視認可能場面は、仮想環境内のいくつかの仮想オブジェクトのみを含み、ある他の仮想オブジェクトを除外してもよい。同様に、仮想環境は、ユーザに１つまたはそれを上回るオーディオ信号として提示され得る、オーディオ側面を含んでもよい。例えば、仮想環境内の仮想オブジェクトは、オブジェクトの場所座標から生じる音を生成してもよい（例えば、仮想キャラクタが、発話する、または音効果を生じさせ得る）、または仮想環境は、特定の場所と関連付けられる場合とそうではない場合がある、音楽キューまたは周囲音と関連付けられてもよい。プロセッサは、「聴取者」座標に対応するオーディオ信号、例えば、仮想環境内の音の合成に対応し、聴取者座標において聴取者によって聞こえるであろうオーディオ信号をシミュレートするように混合および処理される、オーディオ信号を決定し、ユーザに、１つまたはそれを上回るスピーカを介して、オーディオ信号を提示することができる。

仮想環境は、算出構造としてのみ存在するため、ユーザは、直接、通常の感覚を使用して、仮想環境を知覚することができない。代わりに、ユーザは、例えば、ディスプレイ、スピーカ、触覚的出力デバイス等によって、ユーザに提示されるように、間接的にのみ、仮想環境を知覚することができる。同様に、ユーザは、直接、仮想環境に触れる、それを操作する、または別様に、それと相互作用することができないが、入力データを、入力デバイスまたはセンサを介して、デバイスまたはセンサデータを使用して、仮想環境を更新し得る、プロセッサに提供することができる。例えば、カメラセンサは、ユーザが仮想環境のオブジェクトを移動させようとしていることを示す、光学データを提供することができ、プロセッサは、そのデータを使用して、仮想環境内において、適宜、オブジェクトを応答させることができる。

複合現実システムは、ユーザに、例えば、透過型ディスプレイおよび／または１つまたはそれを上回るスピーカ（例えば、ウェアラブル頭部デバイスの中に組み込まれ得る）を使用して、実環境および仮想環境の側面を組み合わせる、複合現実環境（「ＭＲＥ」）を提示することができる。いくつかの実施形態では、１つまたはそれを上回るスピーカは、頭部搭載型ウェアラブルユニットの外部にあってもよい。本明細書で使用されるように、ＭＲＥは、実環境および対応する仮想環境の同時表現である。いくつかの実施例では、対応する実および仮想環境は、単一座標空間を共有する。いくつかの実施例では、実座標空間および対応する仮想座標空間は、変換行列（または他の好適な表現）によって相互に関連する。故に、単一座標（いくつかの実施例では、変換行列とともに）は、実環境内の第１の場所と、また、仮想環境内の第２の対応する場所とを定義し得、その逆も同様である。

ＭＲＥでは、（例えば、ＭＲＥと関連付けられる仮想環境内の）仮想オブジェクトは、（例えば、ＭＲＥと関連付けられる実環境内の）実オブジェクトに対応し得る。例えば、ＭＲＥの実環境が、実街灯柱（実オブジェクト）をある場所座標に含む場合、ＭＲＥの仮想環境は、仮想街灯柱（仮想オブジェクト）を対応する場所座標に含んでもよい。本明細書で使用されるように、実オブジェクトは、その対応する仮想オブジェクトとともに組み合わせて、「複合現実オブジェクト」を構成する。仮想オブジェクトが対応する実オブジェクトに完璧に合致または整合することは、必要ではない。いくつかの実施例では、仮想オブジェクトは、対応する実オブジェクトの簡略化されたバージョンであることができる。例えば、実環境が、実街灯柱を含む場合、対応する仮想オブジェクトは、実街灯柱と概ね同一高さおよび半径の円筒形を含んでもよい（街灯柱が略円筒形形状であり得ることを反映する）。仮想オブジェクトをこのように簡略化することは、算出効率を可能にすることができ、そのような仮想オブジェクト上で実施されるための計算を簡略化することができる。さらに、ＭＲＥのいくつかの実施例では、実環境内の全ての実オブジェクトが、対応する仮想オブジェクトと関連付けられなくてもよい。同様に、ＭＲＥのいくつかの実施例では、仮想環境内の全ての仮想オブジェクトが、対応する実オブジェクトと関連付けられなくてもよい。すなわち、いくつかの仮想オブジェクトが、任意の実世界対応物を伴わずに、ＭＲＥの仮想環境内にのみ存在し得る。

いくつかの実施例では、仮想オブジェクトは、時として著しく、対応する実オブジェクトのものと異なる、特性を有してもよい。例えば、ＭＲＥ内の実環境は、緑色の２本の枝が延びたサボテン、すなわち、とげだらけの無有生オブジェクトを含み得るが、ＭＲＥ内の対応する仮想オブジェクトは、人間の顔特徴および無愛想な態度を伴う、緑色の２本の腕の仮想キャラクタの特性を有してもよい。本実施例では、仮想オブジェクトは、ある特性（色、腕の数）において、その対応する実オブジェクトに類似するが、他の特性（顔特徴、性格）において、実オブジェクトと異なる。このように、仮想オブジェクトは、創造的、抽象的、誇張された、または架空の様式において、実オブジェクトを表す、または挙動（例えば、人間の性格）をそうでなければ無生物である実オブジェクトに付与する潜在性を有する。いくつかの実施例では、仮想オブジェクトは、実世界対応物を伴わない、純粋に架空の創造物（例えば、おそらく、実環境内の虚空に対応する場所における、仮想環境内の仮想モンスタ）であってもよい。

ユーザに、実環境を不明瞭にしながら、仮想環境を提示する、ＶＲシステムと比較して、ＭＲＥを提示する、複合現実システムは、仮想環境が提示される間、実環境が知覚可能なままであるであるという利点をもたらす。故に、複合現実システムのユーザは、実環境と関連付けられる視覚的およびオーディオキューを使用して、対応する仮想環境を体験し、それと相互作用することが可能である。実施例として、ＶＲシステムのユーザは、上記に述べられたように、ユーザは、直接、仮想環境を知覚する、またはそれと相互作用することができないため、仮想環境内に表示される仮想オブジェクトを知覚する、またはそれと相互作用することに苦戦し得るが、ＭＲシステムのユーザは、その自身の実環境内の対応する実オブジェクトが見え、聞こえ、触れることによって、仮想オブジェクトと相互作用することが直感的および自然であると見出し得る。本レベルの相互作用は、ユーザの仮想環境との没入感、つながり、および関与の感覚を向上させ得る。同様に、実環境および仮想環境を同時に提示することによって、複合現実システムは、ＶＲシステムと関連付けられる負の心理学的感覚（例えば、認知的不協和）および負の物理的感覚（例えば、乗り物酔い）を低減させることができる。複合現実システムはさらに、実世界の我々の体験を拡張または改変し得る用途に関する多くの可能性をもたらす。

図１Ａは、ユーザ１１０が複合現実システム１１２を使用する、例示的実環境１００を図示する。複合現実システム１１２は、ディスプレイ（例えば、透過型ディスプレイ）および１つまたはそれを上回るスピーカと、例えば、下記に説明されるような１つまたはそれを上回るセンサ（例えば、カメラ）とを備えてもよい。示される実環境１００は、その中にユーザ１１０が立っている、長方形の部屋１０４Ａと、実オブジェクト１２２Ａ（ランプ）、１２４Ａ（テーブル）、１２６Ａ（ソファ）、および１２８Ａ（絵画）とを備える。部屋１０４Ａはさらに、場所座標１０６を備え、これは、実環境１００の原点と見なされ得る。図１Ａに示されるように、その原点を点１０６（世界座標）に伴う、環境／世界座標系１０８（ｘ－軸１０８Ｘ、ｙ－軸１０８Ｙ、およびｚ－軸１０８Ｚを備える）は、実環境１００のための座標空間を定義し得る。いくつかの実施形態では、環境／世界座標系１０８の原点１０６は、複合現実システム１１２の電源がオンにされた場所に対応してもよい。いくつかの実施形態では、環境／世界座標系１０８の原点１０６は、動作の間、リセットされてもよい。いくつかの実施例では、ユーザ１１０は、実環境１００内の実オブジェクトと見なされ得る。同様に、ユーザ１１０の身体部分（例えば、手、足）は、実環境１００内の実オブジェクトと見なされ得る。いくつかの実施例では、その原点を点１１５（例えば、ユーザ／聴取者／頭部座標）に伴う、ユーザ／聴取者／頭部座標系１１４（ｘ－軸１１４Ｘ、ｙ－軸１１４Ｙ、およびｚ－軸１１４Ｚを備える）は、その上に複合現実システム１１２が位置する、ユーザ／聴取者／頭部のための座標空間を定義し得る。ユーザ／聴取者／頭部座標系１１４の原点１１５は、複合現実システム１１２の１つまたはそれを上回るコンポーネントに対して定義されてもよい。例えば、ユーザ／聴取者／頭部座標系１１４の原点１１５は、複合現実システム１１２の初期較正等の間、複合現実システム１１２のディスプレイに対して定義されてもよい。行列（平行移動行列および四元数行列または他の回転行列を含み得る）または他の好適な表現が、ユーザ／聴取者／頭部座標系１１４空間と環境／世界座標系１０８空間との間の変換を特性評価することができる。いくつかの実施形態では、左耳座標１１６および右耳座標１１７が、ユーザ／聴取者／頭部座標系１１４の原点１１５に対して定義されてもよい。行列（平行移動行列および四元数行列または他の回転行列を含み得る）または他の好適な表現が、左耳座標１１６および右耳座標１１７とユーザ／聴取者／頭部座標系１１４空間との間の変換を特性評価することができる。ユーザ／聴取者／頭部座標系１１４は、ユーザの頭部または頭部搭載型デバイスに対する、例えば、環境／世界座標系１０８に対する場所の表現を簡略化することができる。同時位置特定およびマッピング（ＳＬＡＭ）、ビジュアルオドメトリ、または他の技法を使用して、ユーザ座標系１１４と環境座標系１０８との間の変換が、リアルタイムで決定および更新されることができる。

図１Ｂは、実環境１００に対応する、例示的仮想環境１３０を図示する。示される仮想環境１３０は、実長方形部屋１０４Ａに対応する仮想長方形部屋１０４Ｂと、実オブジェクト１２２Ａに対応する仮想オブジェクト１２２Ｂと、実オブジェクト１２４Ａに対応する仮想オブジェクト１２４Ｂと、実オブジェクト１２６Ａに対応する仮想オブジェクト１２６Ｂとを備える。仮想オブジェクト１２２Ｂ、１２４Ｂ、１２６Ｂと関連付けられるメタデータは、対応する実オブジェクト１２２Ａ、１２４Ａ、１２６Ａから導出される情報を含むことができる。仮想環境１３０は、加えて、仮想モンスタ１３２を備え、これは、実環境１００内の任意の実オブジェクトに対応しない。実環境１００内の実オブジェクト１２８Ａは、仮想環境１３０内の任意の仮想オブジェクトに対応しない。その原点を点１３４（持続的座標）に伴う、持続的座標系１３３（ｘ－軸１３３Ｘ、ｙ－軸１３３Ｙ、およびｚ－軸１３３Ｚを備える）は、仮想コンテンツのための座標空間を定義し得る。持続的座標系１３３の原点１３４は、実オブジェクト１２６Ａ等の１つまたはそれを上回る実オブジェクトと相対的に／それに対して定義されてもよい。行列（平行移動行列および四元数行列または他の回転行列を含み得る）または他の好適な表現は、持続的座標系１３３空間と環境／世界座標系１０８空間との間の変換を特性評価することができる。いくつかの実施形態では、仮想オブジェクト１２２Ｂ、１２４Ｂ、１２６Ｂ、および１３２はそれぞれ、持続的座標系１３３の原点１３４に対するその自身の持続的座標点を有してもよい。いくつかの実施形態では、複数の持続的座標系が存在してもよく、仮想オブジェクト１２２Ｂ、１２４Ｂ、１２６Ｂ、および１３２はそれぞれ、１つまたはそれを上回る持続的座標系に対するその自身の持続的座標点を有してもよい。

図１Ａおよび１Ｂに関して、環境／世界座標系１０８は、実環境１００および仮想環境１３０の両方のための共有座標空間を定義する。示される実施例では、座標空間は、その原点を点１０６に有する。さらに、座標空間は、同一の３つの直交軸（１０８Ｘ、１０８Ｙ、１０８Ｚ）によって定義される。故に、実環境１００内の第１の場所および仮想環境１３０内の第２の対応する場所は、同一座標空間に関して説明されることができる。これは、同一座標が両方の場所を識別するために使用され得るため、実および仮想環境内の対応する場所を識別および表示するステップを簡略化する。しかしながら、いくつかの実施例では、対応する実および仮想環境は、共有座標空間を使用する必要がない。例えば、いくつかの実施例では（図示せず）、行列（平行移動行列および四元数行列または他の回転行列を含み得る）または他の好適な表現は、実環境座標空間と仮想環境座標空間との間の変換を特性評価することができる。

図１Ｃは、同時に、実環境１００および仮想環境１３０の側面をユーザ１１０に複合現実システム１１２を介して提示する、例示的ＭＲＥ１５０を図示する。示される実施例では、ＭＲＥ１５０は、同時に、ユーザ１１０に、実環境１００からの実オブジェクト１２２Ａ、１２４Ａ、１２６Ａ、および１２８Ａ（例えば、複合現実システム１１２のディスプレイの透過性部分を介して）と、仮想環境１３０からの仮想オブジェクト１２２Ｂ、１２４Ｂ、１２６Ｂ、および１３２（例えば、複合現実システム１１２のディスプレイアクティブディスプレイ部分を介して）とを提示する。上記のように、原点１０６は、ＭＲＥ１５０に対応する座標空間のための原点として作用し、座標系１０８は、座標空間のためのｘ－軸、ｙ－軸、およびｚ－軸を定義する。

示される実施例では、複合現実オブジェクトは、座標空間１０８内の対応する場所を占有する、対応する対の実オブジェクトおよび仮想オブジェクト（すなわち、１２２Ａ／１２２Ｂ、１２４Ａ／１２４Ｂ、１２６Ａ／１２６Ｂ）を備える。いくつかの実施例では、実オブジェクトおよび仮想オブジェクトは両方とも、同時に、ユーザ１１０に可視であってもよい。これは、例えば、仮想オブジェクトが対応する実オブジェクトのビューを拡張させるように設計される情報を提示する、インスタンスにおいて望ましくあり得る（仮想オブジェクトが古代の損傷された彫像の欠けた部分を提示する、博物館用途等）。いくつかの実施例では、仮想オブジェクト（１２２Ｂ、１２４Ｂ、および／または１２６Ｂ）は、対応する実オブジェクト（１２２Ａ、１２４Ａ、および／または１２６Ａ）をオクルードするように、表示されてもよい（例えば、ピクセル化オクルージョンシャッタを使用する、アクティブピクセル化オクルージョンを介して）。これは、例えば、仮想オブジェクトが対応する実オブジェクトのための視覚的置換として作用する、インスタンスにおいて望ましくあり得る（無生物実オブジェクトが「生きている」キャラクタとなる、双方向ストーリーテリング用途等）。

いくつかの実施例では、実オブジェクト（例えば、１２２Ａ、１２４Ａ、１２６Ａ）は、必ずしも、仮想オブジェクトを構成するとは限らない、仮想コンテンツまたはヘルパデータと関連付けられてもよい。仮想コンテンツまたはヘルパデータは、複合現実環境内の仮想オブジェクトの処理またはハンドリングを促進することができる。例えば、そのような仮想コンテンツは、対応する実オブジェクトの２次元表現、対応する実オブジェクトと関連付けられるカスタムアセットタイプ、または対応する実オブジェクトと関連付けられる統計的データを含み得る。本情報は、不必要な算出オーバーヘッドを被ることなく、実オブジェクトに関わる計算を可能にする、または促進することができる。

いくつかの実施例では、上記に説明される提示はまた、オーディオ側面を組み込んでもよい。例えば、ＭＲＥ１５０では、仮想モンスタ１３２は、モンスタがＭＲＥ１５０の周囲を歩き回るにつれて生成される、足音効果等の１つまたはそれを上回るオーディオ信号と関連付けられ得る。下記にさらに説明されるように、複合現実システム１１２のプロセッサは、ＭＲＥ１５０内の全てのそのような音の混合および処理された合成に対応するオーディオ信号を算出し、複合現実システム１１２内に含まれる１つまたはそれを上回るスピーカおよび／または１つまたはそれを上回る外部スピーカを介して、オーディオ信号をユーザ１１０に提示することができる。

例示的複合現実システム

例示的複合現実システム１１２は、ディスプレイ（接眼ディスプレイであり得る、左および右透過型ディスプレイと、ディスプレイからの光をユーザの眼に結合するための関連付けられるコンポーネントとを備え得る）と、左および右スピーカ（例えば、それぞれ、ユーザの左および右耳に隣接して位置付けられる）と、慣性測定ユニット（ＩＭＵ）（例えば、頭部デバイスのつるのアームに搭載される）と、直交コイル電磁受信機（例えば、左つる部品に搭載される）と、ユーザから離れるように配向される、左および右カメラ（例えば、深度（飛行時間）カメラ）と、ユーザに向かって配向される、左および右眼カメラ（例えば、ユーザの眼移動を検出するため）とを備える、ウェアラブル頭部デバイス（例えば、ウェアラブル拡張現実または複合現実頭部デバイス）を含むことができる。しかしながら、複合現実システム１１２は、任意の好適なディスプレイ技術および任意の好適なセンサ（例えば、光学、赤外線、音響、ＬＩＤＡＲ、ＥＯＧ、ＧＰＳ、磁気）を組み込むことができる。加えて、複合現実システム１１２は、ネットワーキング特徴（例えば、Ｗｉ－Ｆｉ能力）を組み込み、他の複合現実システムを含む、他のデバイスおよびシステムと通信してもよい。複合現実システム１１２はさらに、バッテリ（ユーザの腰部の周囲に装着されるように設計されるベルトパック等の補助ユニット内に搭載されてもよい）と、プロセッサと、メモリとを含んでもよい。複合現実システム１１２のウェアラブル頭部デバイスは、ユーザの環境に対するウェアラブル頭部デバイスの座標セットを出力するように構成される、ＩＭＵまたは他の好適なセンサ等の追跡コンポーネントを含んでもよい。いくつかの実施例では、追跡コンポーネントは、入力をプロセッサに提供し、同時位置特定およびマッピング（ＳＬＡＭ）および／またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、複合現実システム１１２はまた、ハンドヘルドコントローラ３００、および／または下記にさらに説明されるように、ウェアラブルベルトパックであり得る補助ユニット３２０を含んでもよい。

図２Ａ－２Ｄは、ＭＲＥ（ＭＲＥ１５０に対応し得る）または他の仮想環境をユーザに提示するために使用され得る、例示的複合現実システム２００（複合現実システム１１２に対応し得る）のコンポーネントを図示する。図２Ａは、例示的複合現実システム２００内に含まれるウェアラブル頭部デバイス２１０２の斜視図を図示する。図２Ｂは、ユーザの頭部２２０２上に装着されるウェアラブル頭部デバイス２１０２の上面図を図示する。図２Ｃは、ウェアラブル頭部デバイス２１０２の正面図を図示する。図２Ｄは、ウェアラブル頭部デバイス２１０２の例示的接眼レンズ２１１０の縁視図を図示する。図２Ａ－２Ｃに示されるように、例示的ウェアラブル頭部デバイス２１０２は、例示的左接眼レンズ（例えば、左透明導波管セット接眼レンズ）２１０８と、例示的右接眼レンズ（例えば、右透明導波管セット接眼レンズ）２１１０とを含む。各接眼レンズ２１０８および２１１０は、それを通して実環境が可視となる、透過性要素と、実環境に重複するディスプレイ（例えば、画像毎に変調された光を介して）を提示するためのディスプレイ要素とを含むことができる。いくつかの実施例では、そのようなディスプレイ要素は、画像毎に変調された光の流動を制御するための表面回折光学要素を含むことができる。例えば、左接眼レンズ２１０８は、左内部結合格子セット２１１２と、左直交瞳拡張（ＯＰＥ）格子セット２１２０と、左出射（出力）瞳拡張（ＥＰＥ）格子セット２１２２とを含むことができる。同様に、右接眼レンズ２１１０は、右内部結合格子セット２１１８と、右ＯＰＥ格子セット２１１４と、右ＥＰＥ格子セット２１１６とを含むことができる。画像毎に変調された光は、内部結合格子２１１２および２１１８、ＯＰＥ２１１４および２１２０、およびＥＰＥ２１１６および２１２２を介して、ユーザの眼に転送されることができる。各内部結合格子セット２１１２、２１１８は、光をその対応するＯＰＥ格子セット２１２０、２１１４に向かって偏向させるように構成されることができる。各ＯＰＥ格子セット２１２０、２１１４は、光をその関連付けられるＥＰＥ２１２２、２１１６に向かって下方に漸次的に偏向させ、それによって、形成されている射出瞳を水平に延在させるように設計されることができる。各ＥＰＥ２１２２、２１１６は、その対応するＯＰＥ格子セット２１２０、２１１４から受信された光の少なくとも一部を、接眼レンズ２１０８、２１１０の背後に定義される、ユーザアイボックス位置（図示せず）に外向きに漸次的に再指向し、アイボックスに形成される射出瞳を垂直に延在させるように構成されることができる。代替として、内部結合格子セット２１１２および２１１８、ＯＰＥ格子セット２１１４および２１２０、およびＥＰＥ格子セット２１１６および２１２２の代わりに、接眼レンズ２１０８および２１１０は、ユーザの眼への画像毎に変調された光の結合を制御するための格子および／または屈折および反射性特徴の他の配列を含むことができる。

いくつかの実施例では、ウェアラブル頭部デバイス２１０２は、左つるのアーム２１３０と、右つるのアーム２１３２とを含むことができ、左つるのアーム２１３０は、左スピーカ２１３４を含み、右つるのアーム２１３２は、右スピーカ２１３６を含む。直交コイル電磁受信機２１３８は、左こめかみ部品またはウェアラブル頭部ユニット２１０２内の別の好適な場所に位置することができる。慣性測定ユニット（ＩＭＵ）２１４０は、右つるのアーム２１３２またはウェアラブル頭部デバイス２１０２内の別の好適な場所に位置することができる。ウェアラブル頭部デバイス２１０２はまた、左深度（例えば、飛行時間）カメラ２１４２と、右深度カメラ２１４４とを含むことができる。深度カメラ２１４２、２１４４は、好適には、ともにより広い視野を網羅するように、異なる方向に配向されることができる。

図２Ａ－２Ｄに示される実施例では、画像毎に変調された光２１２４の左源は、左内部結合格子セット２１１２を通して、左接眼レンズ２１０８の中に光学的に結合されることができ、画像毎に変調された光２１２６の右源は、右内部結合格子セット２１１８を通して、右接眼レンズ２１１０の中に光学的に結合されることができる。画像毎に変調された光２１２４、２１２６の源は、例えば、光ファイバスキャナ、デジタル光処理（ＤＬＰ）チップまたはシリコン上液晶（ＬＣｏＳ）変調器等の電子光変調器を含む、プロジェクタ、または側面あたり１つまたはそれを上回るレンズを使用して、内部結合格子セット２１１２、２１１８の中に結合される、マイクロ発光ダイオード（μＬＥＤ）またはマイクロ有機発光ダイオード（μＯＬＥＤ）パネル等の発光型ディスプレイを含むことができる。入力結合格子セット２１１２、２１１８は、画像毎に変調された光２１２４、２１２６の源からの光を、接眼レンズ２１０８、２１１０のための全内部反射（ＴＩＲ）に関する臨界角を上回る角度に偏向させることができる。ＯＰＥ格子セット２１１４、２１２０は、伝搬する光をＴＩＲによってＥＰＥ格子セット２１１６、２１２２に向かって下方に漸次的に偏向させる。ＥＰＥ格子セット２１１６、２１２２は、ユーザの眼の瞳孔を含む、ユーザの顔に向かって、光を漸次的に結合する。

いくつかの実施例では、図２Ｄに示されるように、左接眼レンズ２１０８および右接眼レンズ２１１０はそれぞれ、複数の導波管２４０２を含む。例えば、各接眼レンズ２１０８、２１１０は、複数の個々の導波管を含むことができ、それぞれ、個別の色チャネル（例えば、赤色、青色、および緑色）専用である。いくつかの実施例では、各接眼レンズ２１０８、２１１０は、複数のセットのそのような導波管を含むことができ、各セットは、異なる波面曲率を放出される光に付与するように構成される。波面曲率は、例えば、ユーザの正面のある距離（例えば、波面曲率の逆数に対応する距離）に位置付けられる仮想オブジェクトを提示するように、ユーザの眼に対して凸面であってもよい。いくつかの実施例では、ＥＰＥ格子セット２１１６、２１２２は、各ＥＰＥを横断して出射する光のＰｏｙｎｔｉｎｇベクトルを改変することによって凸面波面曲率をもたらすために、湾曲格子溝を含むことができる。

いくつかの実施例では、表示されるコンテンツが３次元である知覚を作成するために、立体視的に調節される左および右眼画像は、画像毎に光変調器２１２４、２１２６および接眼レンズ２１０８、２１１０を通して、ユーザに提示されることができる。３次元仮想オブジェクトの提示の知覚される現実性は、仮想オブジェクトが立体視左および右画像によって示される距離に近似する距離に表示されるように、導波管（したがって、対応する波面曲率）を選択することによって向上されることができる。本技法はまた、立体視左および右眼画像によって提供される深度知覚キューと人間の眼の自動遠近調節（例えば、オブジェクト距離依存焦点）との間の差異によって生じ得る、一部のユーザによって被られる乗り物酔いを低減させ得る。

図２Ｄは、例示的ウェアラブル頭部デバイス２１０２の右接眼レンズ２１１０の上部からの縁視図を図示する。図２Ｄに示されるように、複数の導波管２４０２は、３つの導波管２４０４の第１のサブセットと、３つの導波管２４０６の第２のサブセットとを含むことができる。導波管２４０４、２４０６の２つのサブセットは、異なる波面曲率を出射する光に付与するために異なる格子線曲率を特徴とする、異なるＥＰＥ格子によって区別されることができる。導波管２４０４、２４０６のサブセットのそれぞれ内において、各導波管は、異なるスペクトルチャネル（例えば、赤色、緑色、および青色スペクトルチャネルのうちの１つ）をユーザの右眼２２０６に結合するために使用されることができる。（図２Ｄには図示されないが、左接眼レンズ２１０８の構造は、右接眼レンズ２１１０の構造に類似する。）

図３Ａは、複合現実システム２００の例示的ハンドヘルドコントローラコンポーネント３００を図示する。いくつかの実施例では、ハンドヘルドコントローラ３００は、把持部分３４６と、上部表面３４８に沿って配置される、１つまたはそれを上回るボタン３５０とを含む。いくつかの実施例では、ボタン３５０は、例えば、カメラまたは他の光学センサ（複合現実システム２００の頭部ユニット（例えば、ウェアラブル頭部デバイス２１０２）内に搭載され得る）と併せて、ハンドヘルドコントローラ３００の６自由度（６ＤＯＦ）運動を追跡するための光学追跡標的として使用するために構成されてもよい。いくつかの実施例では、ハンドヘルドコントローラ３００は、ウェアラブル頭部デバイス２１０２に対する位置または配向等の位置または配向を検出するための追跡コンポーネント（例えば、ＩＭＵまたは他の好適なセンサ）を含む。いくつかの実施例では、そのような追跡コンポーネントは、ハンドヘルドコントローラ３００のハンドル内に位置付けられてもよく、および／またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ３００は、ボタンの押下状態、またはハンドヘルドコントローラ３００の位置、配向、および／または運動（例えば、ＩＭＵを介して）のうちの１つまたはそれを上回るものに対応する、１つまたはそれを上回る出力信号を提供するように構成されることができる。そのような出力信号は、複合現実システム２００のプロセッサへの入力として使用されてもよい。そのような入力は、ハンドヘルドコントローラの位置、配向、および／または移動（さらに言うと、コントローラを保持するユーザの手の位置、配向、および／または移動）に対応し得る。そのような入力はまた、ユーザがボタン３５０を押下したことに対応し得る。

図３Ｂは、複合現実システム２００の例示的補助ユニット３２０を図示する。補助ユニット３２０は、エネルギーを提供し、システム２００を動作するためのバッテリを含むことができ、プログラムを実行し、システム２００を動作させるためのプロセッサを含むことができる。示されるように、例示的補助ユニット３２０は、補助ユニット３２０をユーザのベルトに取り付ける等のためのクリップ２１２８を含む。他の形状因子も、補助ユニット３２０のために好適であって、ユニットをユーザのベルトに搭載することを伴わない、形状因子を含むことも明白となるであろう。いくつかの実施例では、補助ユニット３２０は、例えば、電気ワイヤおよび光ファイバを含み得る、多管式ケーブルを通して、ウェアラブル頭部デバイス２１０２に結合される。補助ユニット３２０とウェアラブル頭部デバイス２１０２との間の無線接続もまた、使用されることができる。

いくつかの実施例では、複合現実システム２００は、１つまたはそれを上回るマイクロホンを含み、音を検出し、対応する信号を複合現実システムに提供することができる。いくつかの実施例では、マイクロホンは、ウェアラブル頭部デバイス２１０２に取り付けられる、またはそれと統合されてもよく、ユーザの音声を検出するように構成されてもよい。いくつかの実施例では、マイクロホンは、ハンドヘルドコントローラ３００および／または補助ユニット３２０に取り付けられる、またはそれと統合されてもよい。そのようなマイクロホンは、環境音、周囲雑音、ユーザまたは第三者の音声、または他の音を検出するように構成されてもよい。

図４は、上記に説明される複合現実システム２００（図１に関する複合現実システム１１２に対応し得る）等の例示的複合現実システムに対応し得る、例示的機能ブロック図を示す。図４に示されるように、例示的ハンドヘルドコントローラ４００Ｂ（ハンドヘルドコントローラ３００（「トーテム」）に対応し得る）は、トーテム／ウェアラブル頭部デバイス６自由度（６ＤＯＦ）トーテムサブシステム４０４Ａを含み、例示的ウェアラブル頭部デバイス４００Ａ（ウェアラブル頭部デバイス２１０２に対応し得る）は、トーテム／ウェアラブル頭部デバイス６ＤＯＦサブシステム４０４Ｂを含む。実施例では、６ＤＯＦトーテムサブシステム４０４Ａおよび６ＤＯＦサブシステム４０４Ｂは、協働し、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６つの座標（例えば、３つの平行移動方向におけるオフセットおよび３つの軸に沿った回転）を決定する。６自由度は、ウェアラブル頭部デバイス４００Ａの座標系に対して表されてもよい。３つの平行移動オフセットは、そのような座標系内におけるＸ、Ｙ、およびＺオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンスとして、回転行列として、四元数として、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａ、ウェアラブル頭部デバイス４００Ａ内に含まれる、１つまたはそれを上回る深度カメラ４４４（および／または１つまたはそれを上回る非深度カメラ）、および／または１つまたはそれを上回る光学標的（例えば、上記に説明されるようなハンドヘルドコントローラ４００Ｂのボタン３５０またはハンドヘルドコントローラ４００Ｂ内に含まれる専用光学標的）は、６ＤＯＦ追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ４００Ｂは、上記に説明されるようなカメラを含むことができ、ウェアラブル頭部デバイス４００Ａは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａおよびハンドヘルドコントローラ４００Ｂはそれぞれ、３つの直交して配向されるソレノイドのセットを含み、これは、３つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれ内で受信される３つの区別可能な信号の相対的大きさを測定することによって、ハンドヘルドコントローラ４００Ｂに対するウェアラブル頭部デバイス４００Ａの６ＤＯＦが、決定され得る。加えて、６ＤＯＦトーテムサブシステム４０４Ａは、改良された正確度および／またはハンドヘルドコントローラ４００Ｂの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット（ＩＭＵ）を含むことができる。

いくつかの実施例では、例えば、座標系１０８に対するウェアラブル頭部デバイス４００Ａの移動を補償するために、座標をローカル座標空間（例えば、ウェアラブル頭部デバイス４００Ａに対して固定される座標空間）から慣性座標空間（例えば、実環境に対して固定される座標空間）に変換することが必要になり得る。例えば、そのような変換は、ウェアラブル頭部デバイス４００Ａのディスプレイが、ディスプレイ上の固定位置および配向（例えば、ディスプレイの右下角における同一位置）ではなく仮想オブジェクトを実環境に対する予期される位置および配向に提示し（例えば、ウェアラブル頭部デバイスの位置および配向にかかわらず、前方に面した実椅子に着座している仮想人物）、仮想オブジェクトが実環境内に存在する（かつ、例えば、ウェアラブル頭部デバイス４００Ａが偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない）という錯覚を保存するために必要であり得る。いくつかの実施例では、座標空間間の補償変換が、座標系１０８に対するウェアラブル頭部デバイス４００Ａの変換を決定するために、ＳＬＡＭおよび／またはビジュアルオドメトリプロシージャを使用して、深度カメラ４４４からの画像を処理することによって決定されることができる。図４に示される実施例では、深度カメラ４４４は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６に結合され、画像をブロック４０６に提供することができる。ＳＬＡＭ／ビジュアルオドメトリブロック４０６実装は、本画像を処理し、次いで、頭部座標空間と別の座標空間（例えば、慣性座標空間）との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ＩＭＵ４０９から取得される。ＩＭＵ４０９からの情報は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６からの情報と統合され、改良された正確度および／またはユーザの頭部姿勢および位置の高速調節に関する情報をよりタイムリーに提供することができる。

いくつかの実施例では、深度カメラ４４４は、ウェアラブル頭部デバイス４００Ａのプロセッサ内に実装され得る、手のジェスチャトラッカ４１１に、３Ｄ画像を供給することができる。手のジェスチャトラッカ４１１は、例えば、深度カメラ４４４から受信された３Ｄ画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。

いくつかの実施例では、１つまたはそれを上回るプロセッサ４１６は、ウェアラブル頭部デバイスの６ＤＯＦヘッドギヤサブシステム４０４Ｂ、ＩＭＵ４０９、ＳＬＡＭ／ビジュアルオドメトリブロック４０６、深度カメラ４４４、および／または手のジェスチャトラッカ４１１からのデータを受信するように構成されてもよい。プロセッサ４１６はまた、制御信号を６ＤＯＦトーテムシステム４０４Ａに送信し、そこから受信することができる。プロセッサ４１６は、ハンドヘルドコントローラ４００Ｂがテザリングされない実施例等では、無線で、６ＤＯＦトーテムシステム４０４Ａに結合されてもよい。プロセッサ４１６はさらに、オーディオ／視覚的コンテンツメモリ４１８、グラフィカル処理ユニット（ＧＰＵ）４２０、および／またはデジタル信号プロセッサ（ＤＳＰ）オーディオ空間化装置４２２等の付加的コンポーネントと通信してもよい。ＤＳＰオーディオ空間化装置４２２は、頭部関連伝達関数（ＨＲＴＦ）メモリ４２５に結合されてもよい。ＧＰＵ４２０は、画像毎に変調された光の左源４２４に結合される、左チャネル出力と、画像毎に変調された光の右源４２６に結合される、右チャネル出力とを含むことができる。ＧＰＵ４２０は、例えば、図２Ａ－２Ｄに関して上記に説明されるように、立体視画像データを画像毎に変調された光の源４２４、４２６に出力することができる。ＤＳＰオーディオ空間化装置４２２は、オーディオを左スピーカ４１２および／または右スピーカ４１４に出力することができる。ＤＳＰオーディオ空間化装置４２２は、プロセッサ４１９から、ユーザから仮想音源（例えば、ハンドヘルドコントローラ３２０を介して、ユーザによって移動され得る）への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、ＤＳＰオーディオ空間化装置４２２は、対応するＨＲＴＦを決定することができる（例えば、ＨＲＴＦにアクセスすることによって、または複数のＨＲＴＦを補間することによって）。ＤＳＰオーディオ空間化装置４２２は、次いで、決定されたＨＲＴＦを仮想オブジェクトによって生成された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。

図４に示されるようないくつかの実施例では、プロセッサ４１６、ＧＰＵ４２０、ＤＳＰオーディオ空間化装置４２２、ＨＲＴＦメモリ４２５、およびオーディオ／視覚的コンテンツメモリ４１８のうちの１つまたはそれを上回るものは、補助ユニット４００Ｃ（上記に説明される補助ユニット３２０に対応し得る）内に含まれてもよい。補助ユニット４００Ｃは、バッテリ４２７を含み、そのコンポーネントを給電し、および／または電力をウェアラブル頭部デバイス４００Ａまたはハンドヘルドコントローラ４００Ｂに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス４００Ａのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。

図４は、例示的複合現実システムの種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット４００Ｃと関連付けられているような図４に提示される要素は、代わりに、ウェアラブル頭部デバイス４００Ａまたはハンドヘルドコントローラ４００Ｂと関連付けられ得る。さらに、いくつかの複合現実システムは、ハンドヘルドコントローラ４００Ｂまたは補助ユニット４００Ｃを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるべきである。

反響フィンガプリント推定

仮想オーディオコンテンツをユーザに提示することは、没入型の拡張／複合現実体験を作成する際に有利であり得る。没入型の拡張／複合現実体験はさらに、説得力のあるビデオに加え、説得力のあるオーディオが提示されるとき、実コンテンツと仮想コンテンツを混成することができる。説得力のある仮想ビデオコンテンツ（例えば、実コンテンツと整合され、および／またはそこから不可分である）を表示することは、実際の、時として、未知の環境をマッピングしながら、同時に、実環境内のＭＲシステムの場所および配向を推定し、仮想ビデオコンテンツを実環境内に正確に表示することを含み得る。説得力のある仮想ビデオコンテンツを表示することはさらに、立体視画像が、ユーザに提示され、３次元仮想ビデオコンテンツをシミュレートし得るように、２つのセットの同一仮想ビデオコンテンツを２つの異なる目線からレンダリングすることを含み得る。説得力のある仮想ビデオコンテンツを表示することと同様に、仮想オーディオコンテンツを説得力のある様式において提示することはまた、実環境の複雑な分析を含み得る。例えば、仮想オーディオコンテンツが、実オーディオコンテンツをシミュレートするような方法において、レンダリングされ得るように、その中でＭＲシステムが使用されている、実環境の音響性質を理解することが望ましくあり得る。実環境の音響性質は、ＭＲシステム（例えば、ＭＲシステム１１２、２００）によって、それが実環境から生じる、または別様にその中に属するかのように、仮想オーディオコンテンツが聞こえるように、レンダリングアルゴリズムを修正するために使用されることができる。例えば、硬質床材および暴露された壁を伴う部屋内で使用される、ＭＲシステムは、実オーディオコンテンツが有し得る、エコーを模倣する、仮想オーディオコンテンツを生産してもよい。ユーザが実環境を変化させる（異なる音響性質を有し得る）につれて、仮想オーディオコンテンツを静的様式において再生することは、体験の没入感を損なわせ得る。特に、実オーディオコンテンツおよび仮想オーディオコンテンツが、相互に相互作用し得る（例えば、ユーザが、仮想コンパニオンに話し掛け得、仮想コンパニオンが、ユーザに話し返し得る）場合、実オーディオコンテンツの特性を模倣するように、仮想オーディオコンテンツをレンダリングすることが有益であり得る。そのために、ＭＲシステムは、実環境の音響特性を決定し、それらの音響特性を仮想オーディオコンテンツに適用してもよい（例えば、仮想オーディオコンテンツのためのレンダリングアルゴリズムを改変することによって）。付加的詳細は、米国特許出願第１６／１６３，５２９号（その内容は、その全体として本明細書に組み込まれる）に見出され得る。

実環境の音響性質を特性評価し得る、１つのパラメータは、反響時間（例えば、Ｔ６０時間）であることができる。反響時間は、ある量だけ（例えば、６０デシベルだけ）、音が減衰するために要求される時間の長さを含むことができる。音減衰は、音が、例えば、幾何学的拡散に起因して、エネルギーを喪失しながら、実環境内の表面（例えば、壁、床、家具等）から反射する結果であり得る。反響時間は、環境要因によって影響され得る。例えば、吸収性表面（例えば、クッション）は、幾何学的拡散に加え、音を吸収し得、反響時間は、結果として、低減され得る。いくつかの実施形態では、環境の反響時間を推定するために、オリジナル源についての情報を有することは必要ではない場合がある。

実環境の音響性質を特性評価し得る、別のパラメータは、反響利得であることができる。反響利得は、音の直接／源／オリジナルエネルギーと音の反響エネルギー（例えば、直接／源／オリジナル音から生じる反響のエネルギー）の比率を含むことができ、聴取者および源は、実質的に同じ場所に存在する（例えば、ユーザが、その手を叩き、頭部装着型ＭＲシステム上に搭載される１つまたはそれを上回るマイクロホンと実質的に同じ場所に存在すると見なされ得る、源音を生産し得る）。例えば、インパルス（例えば、叩音）は、インパルスと関連付けられる、エネルギーを有し得、インパルスからの反響音は、インパルスの反響と関連付けられる、エネルギーを有し得る。オリジナル／源エネルギーと反響エネルギーの比率は、反響利得であり得る。実環境の反響利得は、例えば、音を吸収し、それによって、反響エネルギーを低減させ得る、吸収性表面によって影響され得る。

反響時間および反響利得は、集合的に、反響フィンガプリントと称され得る。いくつかの実施形態では、反響フィンガプリントは、１つまたはそれを上回る入力パラメータとして、オーディオレンダリングアルゴリズムに通過されることができ、これは、オーディオレンダリングアルゴリズムが、実環境内の実オーディオコンテンツと同一または類似特性を伴う、仮想オーディオコンテンツを提示することを可能にし得る。

反響フィンガプリントは、実環境内の音源の位置および／または配向から独立して、実環境の音響性質を特性評価し得るため、有用であり得る。例えば、４つの壁、床、および天井を伴う、標準的室内は、源が、部屋の角、部屋の中心、または部屋の壁／縁のいずれかに沿って位置するかどうかにかかわらず、同一（または実質的に同一）反響時間および／または反響利得を呈し得る。別の実施例として、直接、部屋の角、部屋の中心、または部屋内の壁に面した、音源は全て、実環境の反響フィンガプリントに従って、同一（または実質的に同一）に挙動し得る。反響フィンガプリントはまた、音源の特性から独立して、実環境の音響性質を特性評価し得るため、有用であり得る。例えば、低周波数、中間周波数、または高周波数における、音源（例えば、話している人物）は全て、実環境の反響時間および／または反響利得に従って、同一（または実質的に同一）に挙動し得る。同様に、インパルス音源（例えば、叩音）および非インパルス音源は、実環境の反響フィンガプリント（例えば、反響時間および／または反響利得）に従って、同一（または実質的に同一）に挙動し得る。別の実施例として、高音音源および静音音源（例えば、振幅の観点から）は、実環境の反響フィンガプリント（例えば、反響時間および／または反響利得）に従って、同一（または実質的に同一）に挙動し得る。音源の特性および／または場所からの反響フィンガプリントの非依存性は、反響フィンガプリントを、算出上効率的様式において、仮想オーディオコンテンツをレンダリングするための有用なツールにすることができる（例えば、レンダリングアルゴリズムは、例えば、異なる部屋に移動することによって、ユーザが環境を変化させない限り、同一であることができる）。いくつかの実施形態では、反響フィンガプリントは、「正常に動作する」部屋（例えば、４つの壁、床、および天井を伴う、標準的室内）に適用されてもよく、特殊音響性質を有し得る、「正常に動作しない」部屋（例えば、長い廊下）に適用されなくてもよい。

いくつかの実施形態では、実環境の反響フィンガプリントの「盲目的」推定を実施することが望ましくあり得る。盲目的推定は、音源についての情報が要求され得ない、反響フィンガプリントの推定であり得る。例えば、反響フィンガプリントは、単に、ヒトの会話に基づいて、推定されてもよく、オリジナル発話に関する情報は、推定アルゴリズムに提供されなくてもよい。ヒトの発話の間の一時停止は、反響フィンガプリントが盲目的推定を使用して推定されるために十分な時間を提供することができる。そのような推定が、長期設定プロセスおよび／またはユーザ相互作用を要求せずに行われ得るため、盲目的推定を実施することが有益であり得る。いくつかの実施形態では、反響時間は、盲目的に推定されることができ、オリジナル音源についての情報を要求し得ない。いくつかの実施形態では、盲目的推定は、反響利得上で実施されなくてもよく、これは、オリジナル音源についての情報を含んでもよい。

図５は、いくつかの実施形態による、反響フィンガプリントを推定する例示的プロセス５００を図示する。示される例示的プロセスは、上記に説明される、例示的複合現実システム２００のウェアラブル頭部デバイス２１０２、ハンドヘルドコントローラ３００、および補助ユニット３２０のうちの１つまたはそれを上回るもの等の複合現実システムの１つまたはそれを上回るコンポーネントを使用して、または複合現実システム２００と通信する、システム（例えば、クラウドサーバを備える、システム）によって、実装されることができる。プロセス５００のステップ５０２では、入力５０１は、１つまたはそれを上回るフィルタリングされた成分に分裂されることができ、これは、次いで、個々に処理されてもよい。例えば、ステップ５０２では、帯域通過フィルタが、１つまたはそれを上回るマイクロホン（例えば、ＭＲシステム上に搭載される１つまたはそれを上回るマイクロホン）からのオーディオ信号であり得る、入力５０１に適用されることができる。帯域通過フィルタは、優先的に、ある周波数範囲をフィルタに通過させ、および／またはその周波数範囲外の周波数を抑制することができる。帯域通過フィルタは、信号を、算出効率性のために、処理することをより容易にし得る、より小さい成分断片に分割することができる。帯域通過フィルタはまた、周波数範囲外の周波数における望ましくない雑音を除去することによって、信号の信号対雑音比を改良することができる。いくつかの実施形態では、帯域通過フィルタは、オーディオ信号を６つの周波数範囲に分離するために使用されることができる。反響フィンガプリント（例えば、反響時間および反響利得）は、周波数範囲毎に、推定されることができる。これは、各周波数が、関連付けられる反響時間および／または反響利得を有し得るように、持続的周波数応答曲線を作成するために使用されることができる（例えば、反響時間および／または反響利得は、帯域通過フィルタによって分離される周波数範囲を中心とし得る、計算された値から補間されてもよい）。６つの周波数範囲が、議論されるが、オーディオ信号は、任意の数の周波数範囲（例えば、任意の数の帯域通過フィルタを使用して）に分離されてもよい。いくつかの実施形態では、オクターブフィルタが、入力信号に適用されることができる。いくつかの実施形態では、１／３オクターブフィルタが、入力信号に適用されることができる。いくつかの実施形態では、低すぎる（例えば、１００Ｈｚ未満）、周波数を伴う信号は、反響フィンガプリントのために分析されなくてもよい（例えば、低周波数が反響フィンガプリント分析を行うために十分に反響し得ないため）。

ステップ５０４では、周波数帯域ブースティングが、随意に、適用されることができる。周波数帯域ブースティングは、低信号対雑音比を有し得るが、信号対雑音比が、依然として、反響フィンガプリントを決定するために十分に高くあり得る（例えば、信号対雑音比が、周波数１００Ｈｚ未満の周波数に関する信号対雑音比より高くあり得る）、低周波数（例えば、５００Ｈｚ未満）に適用されてもよい。周波数帯域ブースティングは、他の周波数帯域に適用されてもよい、または全く適用されなくてもよい。

ステップ５０６では、定常的エネルギー推定が、信号上で実施されることができる。定常的エネルギー推定は、周波数ドメイン、時間ドメイン、スペクトルドメイン、および／または任意の他の好適なドメイン内で実施されることができる。信号エネルギーは、時間ドメイン内の信号の二乗の大きさ下の面積を決定することによって、または他の適切な方法を使用することによって、推定されてもよい。

ステップ５０８では、エンベロープ検出が、信号上で起動されることができ、信号の定常的エネルギー（推定）に基づいてもよい。信号エンベロープは、信号ピークおよび／またはトラフの特性評価であることができ、信号（例えば、発振信号）の上側および／または下側境界を定義し得る。エンベロープ検出は、Ｈｉｌｂｅｒｔ変換、漏洩積分器ベースの二乗平均平方根検出器、および／または他の好適な方法を使用して、実施されることができる。

ステップ５１０では、ピーク選別が、信号エンベロープ上で起動されることができる。ピーク選別は、以前に検出されたピークの振幅に基づいて、および／または極大値に基づいて、信号エンベロープ内の局所ピークを識別することができる。

ステップ５１２では、自由減衰領域推定が、信号エンベロープ上で起動されることができる。自由減衰領域は、エンベロープが減少する（例えば、局所ピーク後）、信号エンベロープの領域であり得る。これは、新しい音が検出され得ず、前の音のみが実環境内で反響し続ける、信号エンベロープ内に減少をもたらす、反響の結果であり得る。ステップ５１２では、線形適合が、信号内の１つまたはそれを上回る自由減衰領域毎に、決定されることができる。線形適合は、信号エンベロープが、音エネルギーの指数関数的減衰に起因して、デジベルスケールで測定され、対数スケールにおけるデジベルスケール測定値である場合、適切であり得る。

ステップ５１４では、反響時間が、推定されることができる。反響時間は、自由減衰領域（または自由減衰領域の一部）毎に決定される、線形適合から決定され得る、最速減衰傾きを伴う、自由減衰領域または自由減衰領域の一部に基づいて、推定されてもよい。いくつかの実施形態では、局所ピーク後の閾値時間量（例えば、５０ｍｓ）は、線形適合を決定する際に無視されてもよい。これは、短期反響（異なるように挙動し得る）を回避し、および／または回帰が、源音ではなく、反響音に排他的に適合することを確実にすることに役立てるために有益であり得る。線形に適合された傾きは、信号エンベロープが時間の単位あたり（例えば、１秒あたり）のデシベル単位で減少する、量を表し得る。

いくつかの実施形態では、複数の線形適合が、単一自由減衰領域に適用されることができる。例えば、線形回帰は、回帰が十分に正確である（例えば、９７％またはそれを上回る相関）、時間範囲内にのみ適用されてもよい。線形回帰が、もはや自由減衰領域の持続時間の残りに適合しない場合、１つまたはそれを上回る付加的／代替線形回帰が、適用されてもよい。反響時間推定における正確度は、自由減衰領域の関連付けられる部分が反響音のみを最も正確に表し得るため、自由減衰領域内の最速減衰傾きのみを使用することによって、増加されることができる。例えば、より低速の減衰傾きを伴う、自由減衰領域の一部は、測定された減衰率を人工的に減速させ得る、少量の非反響（例えば、オリジナル／源）音を捕捉し得る。最速減衰線形適合傾きに基づいて、反響時間（信号が６０デジベル減衰するために要求される時間であり得る）が、外挿されることができる。

図６は、反響時間を推定するための例示的プロセス６００を図示する。例示的プロセス６００は、上記に説明される、例示的プロセス５００のステップ５１４に対応し得る。例示的プロセス６００は、上記に説明される、例示的複合現実システム２００のウェアラブル頭部デバイス２１０２、ハンドヘルドコントローラ３００、および補助ユニット３２０のうちの１つまたはそれを上回るもの等の複合現実システムの１つまたはそれを上回るコンポーネントを使用して、または複合現実システム２００と通信する、システム（例えば、クラウドサーバを備える、システム）によって、実装されることができる。例示的プロセス６００のステップ６０２では、局所ピーク（例えば、信号エンベロープからの局所ピーク）が、決定され得る。ステップ６０４では、線形回帰が、自由減衰領域の一部または全部に適合されることができる。自由減衰領域は、エンベロープが減少する（例えば、局所ピーク後）、信号エンベロープの領域であり得る。いくつかの実施形態では、線形回帰は、局所ピーク後の時の一部間（例えば、局所ピーク後の５０ｍｓ）を考慮しなくてもよい。ステップ６０８では、線形適合が十分に正確である（例えば、十分に低二乗平均平方根誤差を有する）かどうかを決定されることができる。線形適合が十分に正確ではないことが決定される場合、ステップ６０９では、次の自由減衰領域または自由減衰領域の一部が、検査されてもよい。線形適合が十分に正確であることが決定される場合、ステップ６１０では、減衰領域が十分に長い期間（例えば、＞４００ｍｓ）にわたって生じるかどうかが決定され得る。減衰領域が十分に長期間にわたって生じていないことが決定される場合、次の自由減衰領域または自由減衰領域の一部が、ステップ６０９において、検査されてもよい。減衰領域が十分に長期間にわたって生じていることが決定される場合、ステップ６１２において、線形回帰からの減衰傾きが自由減衰領域全体にわたる最速減衰傾きであるかどうかが決定され得る。減衰傾きが自由減衰領域全体にわたる最速減衰傾きではないことが決定される場合、次の自由減衰領域または自由減衰領域の一部が、ステップ６０９において、検査され得る。減衰傾きが、自由減衰領域全体にわたる最速減衰傾きであることが決定される場合、反響時間が、ステップ６１４において、最速減衰傾きに基づいて外挿され得る。

いくつかの実施形態では、反響時間が、収束（または近似収束）測定を使用して、推定されることができる。例えば、反響時間は、閾値数の連続自由減衰領域が減衰傾きを相互の閾値内に有した後、宣言されることができる。平均減衰傾きが、次いで、決定され、反響時間として宣言され得る。いくつかの実施形態では、自由減衰領域と関連付けられる、減衰傾きは、測定された減衰傾き毎の品質推定に従って、加重されることができる。いくつかの実施形態では、減衰傾きは、自由減衰領域の関連付けられる部分が、閾値時間量（例えば、４００ｍｓ）にわたって続くとき、より正確であると決定され得、これは、減衰傾き推定の正確度を増加させることができる。いくつかの実施形態では、減衰傾きは、比較的に正確な線形適合（例えば、低二乗平均平方根誤差）を有する場合、より正確であると決定され得る。より正確である、減衰傾きは、反響時間を決定するために、加重平均において、より高い加重を割り当てられることができる。いくつかの実施形態では、最も正確であると決定される、単一減衰傾き（例えば、減衰長さおよび／または線形適合正確度に基づいて）が、反響時間を決定するために使用されることができ、これは、所与の周波数範囲（例えば、ステップ５０２における帯域通過フィルタによって選択された周波数範囲）にわたる反響時間であり得る。

図５およびプロセス５００に戻って参照すると、ステップ５１４では、信頼度値が、決定され、反響時間と関連付けられ得る。信頼度値は、種々の要因に基づいて決定されてもよい。例えば、信頼度値は、いくつかの収束性減衰傾き、利用される減衰傾きの線形適合正確度、利用される減衰傾きの減衰長、新しい反響時間推定と前の反響時間推定との間の差異、またはこれらおよび／または他の要因の任意の組み合わせに基づくことができる。いくつかの実施形態では、関連付けられる信頼度を伴う、反響時間推定は、信頼度値が閾値を下回る場合（例えば、不十分な自由減衰領域が収束のために検出されたため）、宣言されなくてもよい。反響時間推定が、宣言されない場合、他の周波数範囲（例えば、帯域通過フィルタを使用して、ステップ５０２において分離された周波数範囲）にわたる他の反響時間推定が、依然として、宣言されてもよい（例えば、それらの反響時間推定が、十分に高信頼度値を有する場合）。欠測周波数範囲にわたる反響時間推定は、他の周波数範囲における宣言された反響時間から補間されてもよい。

ステップ５１６では、直接音エネルギー推定が、実施されることができる。直接音エネルギー推定は、直接／源音に関する情報を利用してもよい。例えば、直接／源音が、既知である場合、直接音エネルギー推定は、直接／源音のエネルギーを推定することができる（例えば、直接／源音を含む、信号エンベロープピーク下の面積を積分することによって）。これは、インパルス音を使用することによって、達成されることができ、これは、直接／源音を反響音から分離するためにより容易であり得る。いくつかの実施形態では、ユーザは、その手を叩き、インパルス音を生産するようにプロンプトされてもよい（例えば、ＭＲシステムによって）。いくつかの実施形態では、スピーカ、例えば、ＭＲシステム上に搭載されるものが、インパルス音を再生してもよい。いくつかの実施形態では、インパルス音は、直接音エネルギーおよび反響時間推定の両方を推定するために使用されることができる。いくつかの実施形態では、直接音推定は、盲目的に推定されることができる（例えば、盲目的推定が、直接／源音の以前の知識を伴わずに、直接／源音を反響音から分離し得る場合）。

ステップ５１８では、反響音エネルギーが、推定され得る。反響音エネルギーは、直接／源音の終了から、反響音がもはや検出されない、および／または反響音がある利得閾値（例えば、－９０ｄＢ）を下回って降下するまで、信号エンベロープを積分することによって推定されることができる。

ステップ５２０では、反響利得が、直接音エネルギー推定および反響エネルギー推定に基づいて、推定され得る。いくつかの実施形態では、反響利得は、反響エネルギーと直接音エネルギーの比率を求めることによって計算される。いくつかの実施形態では、反響利得は、直接音エネルギーと反響エネルギーの比率を求めることによって計算される。反響利得推定が、宣言される（例えば、オーディオレンダリングアルゴリズムに通過される）ことができる。いくつかの実施形態では、信頼度レベルが、反響利得推定と関連付けられ得る。例えば、ピークが、反響エネルギー推定内で検出される場合、新しい直接／源音が導入されたことを示し得、反響利得推定は、もはや正確ではなくなり得る。いくつかの実施形態では、反響利得推定は、信頼度レベルがある閾値またはそれを上回る場合にのみ宣言され得る。

反響フィンガプリントを使用して、より現実的に仮想オーディオコンテンツをレンダリングすることに加え、反響フィンガプリントはまた、実環境を識別し、および／または実環境の変化を識別するために使用されることができる。例えば、ユーザが、第１の部屋（例えば、第１の音響環境）内でＭＲシステムを較正し、次いで、第２の部屋に移動し得る。第２の部屋は、第１の部屋と異なる音響性質（例えば、異なる反響時間および／または異なる反響利得）を有し得る。ＭＲシステムは、第２の部屋内の反響時間を盲目的に推定し、反響時間が以前に宣言された反響時間と十分に異なることを決定し、ユーザが部屋を変更したと結論付けてもよい。ＭＲシステムは、次いで、新しい反響時間および／または新しい反響利得を宣言してもよい（例えば、ユーザに、再び手を叩くように求めることによって、外部スピーカを通してインパルスを再生する、および／または反響利得の盲目的推定を行うことによってことによって）。別の実施例として、ユーザは、ある部屋内のＭＲシステムを較正してもよく、ＭＲシステムは、その部屋の反響フィンガプリントを決定してもよい。ＭＲシステムは、次いで、反響フィンガプリントおよび／または他の要因（例えば、例示的複合現実システム２００に関して上記に説明されるように、ＧＰＳおよび／またはＷｉＦｉネットワークを通して、または１つまたはそれを上回るセンサを介して決定された場所）に基づいて、部屋を識別してもよい。ＭＲシステムは、以前にマッピングされた部屋の遠隔データベースにアクセスし、反響フィンガプリントおよび／または他の要因を使用して、以前にマッピングされたものとして部屋を識別してもよい。ＭＲシステムは、部屋に関連するアセット（例えば、部屋の以前に生成された３次元マップ）をダウンロードしてもよい。

図７は、実環境の音響性質の変化を識別するための例示的プロセスを図示する。示される例示的プロセスは、上記に説明される、例示的複合現実システム２００のウェアラブル頭部デバイス２１０２、ハンドヘルドコントローラ３００、および補助ユニット３２０のうちの１つまたはそれを上回るもの等の複合現実システムの１つまたはそれを上回るコンポーネントを使用して、または複合現実システム２００と通信する、システム（例えば、クラウドサーバを備える、システム）によって、実装されることができる。例示的プロセスのステップ７０２では、新しい反響時間が、決定され得る（例えば、プロセス５００および／またはプロセス６００を使用して）。ステップ７０４では、新しい反響時間は、以前に宣言された反響時間と比較され得る。ステップ７０６では、新しい反響時間が以前に宣言された反響時間と十分に異なるかどうかが決定され得る。差異が、任意の数の方法において評価されることができる。例えば、差異は、ある周波数範囲にわたる新しい反響時間が、規定された閾値（例えば、ヒト聴取者が差異を知覚するために十分な差異であり得る、１０％）を上回って、その周波数範囲にわたる宣言された反響時間と差異を有する場合、十分であり得る。別の実施例として、十分な差異が、所与の周波数範囲にわたる閾値数の反響時間が、それらの周波数範囲にわたる閾値数の宣言された反響時間と異なる場合、決定され得る。別の実施例として、新しい周波数応答曲線（試験された周波数範囲にわたる宣言された反響時間間の補間された点を含むことができる）と宣言された周波数応答曲線との間の差異の絶対値は、積分されることができる。積分された面積が、ある閾値を上回る場合、新しい反響時間が宣言された反響時間と十分に異なることが決定され得る。

新しい反響時間が、宣言された反響時間と不十分に異なると決定される場合、ＭＲシステムは、ステップ７０２において、新しい反響時間を決定し続け得る。新しい反響時間が、ステップ７０８において、宣言されたる反響時間と十分に異なると決定される場合、十分な数の十分に異なる反響時間が検出されていると決定され得る。例えば、全て、所与の周波数範囲にわたる宣言される反響アイテムと十分に異なる、３つの連続反響時間推定は、十分な数の十分に異なる反響時間であり得る。他の閾値もまた、使用されてもよい（例えば、５つの直近の反響時間推定のうちの３つ）。十分な数の十分に異なる反響時間が検出されていないことが決定される場合、ＭＲシステムは、ステップ７０２において、新しい反響時間を決定し続け得る。十分な数の十分に異なる反響時間が検出されていることが決定される場合、新しい反響時間が、ステップ７１０において、宣言され得る。いくつかの実施形態では、ステップ７１０はまた、新しい反響利得推定を開始するステップを含むことができ、これは、ユーザに、手を叩くようにプロンプトする、またはインパルス音を外部スピーカから再生し得る。いくつかの実施形態では、ステップ７１０はまた、遠隔データベースにアクセスし、新しい反響フィンガプリントおよび／またはＭＲシステムに利用可能な他の情報（例えば、例示的複合現実システム２００に関して上記に説明されるように、ＧＰＳおよび／またはＷｉＦｉ接続から、または１つまたはそれを上回るセンサを介して決定された場所）に基づいて、新しい実環境を識別するステップを含むことができる。

開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、１つまたはそれを上回る実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付の請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるべきである。

Claims

方法であって、
ウェアラブル頭部デバイスのマイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
前記環境の前記決定された変化に従って、前記ウェアラブル頭部デバイスのスピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第２の反響時間に基づく、ことと
を含む、方法。
前記第１の反響時間の前記推定は、前記第１のオーディオ信号の前記エンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、請求項１に記載の方法。
前記第１の反響時間の前記推定は、
前記第１のオーディオ信号の前記エンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、請求項１に記載の方法。
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
をさらに含み、
前記第１の反響時間と前記第２の反響時間との間の差異の前記決定、前記第１の反響時間と前記第２の反響時間との間の差異に基づく前記環境の変化の前記決定、および前記ウェアラブル頭部デバイスの前記スピーカを介した前記第２のオーディオ信号の前記提示は、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、請求項１に記載の方法。
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、請求項１に記載の方法。
前記第１の反響利得の前記推定は、ユーザに手を叩くようにプロンプトすることを含む、請求項５に記載の方法。
前記第１の反響利得の前記推定は、前記ウェアラブル頭部デバイスの前記スピーカを介して、インパルス音を提示することを含む、請求項５に記載の方法。
前記第１の反響利得は、直接音エネルギーと反響音エネルギーの比率を含む、請求項５に記載の方法。
システムであって、
ウェアラブル頭部デバイスのマイクロホンと、
前記ウェアラブル頭部デバイスのスピーカと、
１つまたはそれを上回るプロセッサであって、
前記ウェアラブル頭部デバイスの前記マイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
前記環境の前記決定された変化に従って、前記ウェアラブル頭部デバイスの前記スピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第２の反響時間に基づく、ことと
を含む方法を実行するように構成される、１つまたはそれを上回るプロセッサと
を備える、システム。
前記第１の反響時間の前記推定は、前記第１のオーディオ信号の前記エンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、請求項９に記載のシステム。
前記第１の反響時間の前記推定は、
前記第１のオーディオ信号の前記エンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、請求項９に記載のシステム。
前記方法は、
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
をさらに含み、
前記第１の反響時間と前記第２の反響時間との間の差異の前記決定、前記第１の反響時間と前記第２の反響時間との間の差異に基づく前記環境の変化の前記決定、および前記ウェアラブル頭部デバイスの前記スピーカを介した前記第２のオーディオ信号の前記提示は、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、請求項９に記載のシステム。
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、請求項９に記載のシステム。
前記第１の反響利得の前記推定は、前記ウェアラブル頭部デバイスの前記スピーカを介して、インパルス音を提示することを含む、請求項１３に記載のシステム。
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を記憶しており、前記命令は、１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
ウェアラブル頭部デバイスのマイクロホンを介して、第１のオーディオ信号を受信することと、
前記第１のオーディオ信号のエンベロープを決定することと、
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響時間を推定することと、
前記第１の反響時間と第２の反響時間との間の差異を決定することと、
前記第１の反響時間と前記第２の反響時間との間の差異に基づいて、環境の変化を決定することと、
前記環境の前記決定された変化に従って、前記ウェアラブル頭部デバイスのスピーカを介して、第２のオーディオ信号を提示することであって、前記第２のオーディオ信号は、前記第２の反響時間に基づく、ことと
を含む方法を実行させる、非一過性コンピュータ可読媒体。
前記第１の反響時間の前記推定は、前記第１のオーディオ信号の前記エンベロープが閾値時間量を上回る時間にわたって減衰しているかどうかを決定することを含む、請求項１５に記載の非一過性コンピュータ可読媒体。
前記第１の反響時間の前記推定は、
前記第１のオーディオ信号の前記エンベロープ内の減衰領域の線形適合を決定することと、
前記線形適合が閾値相関を上回る相関を有するかどうかを決定することと
を含む、請求項１５に記載の非一過性コンピュータ可読媒体。
前記方法は、
前記第１の反響時間内の信頼度が信頼度の閾値量を超えるかどうかを決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って、前記第１の反響時間を決定することと、
前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えないことの決定に従って、前記第１の反響時間を決定しないことと
をさらに含み、
前記第１の反響時間と前記第２の反響時間との間の差異の前記決定、前記第１の反響時間と前記第２の反響時間との間の差異に基づく前記環境の変化の前記決定、および前記ウェアラブル頭部デバイスの前記スピーカを介した前記第２のオーディオ信号の前記提示は、前記第１の反響時間内の信頼度が前記信頼度の閾値量を超えることの決定に従って実施される、請求項１５に記載の非一過性コンピュータ可読媒体。
前記第１のオーディオ信号の前記エンベロープに基づいて、第１の反響利得を推定することをさらに含み、前記第２のオーディオ信号は、前記第１の反響利得に基づく、請求項１５に記載の非一過性コンピュータ可読媒体。
前記第１の反響利得の前記推定は、前記ウェアラブル頭部デバイスの前記スピーカを介して、インパルス音を提示することを含む、請求項１９に記載の非一過性コンピュータ可読媒体。