JP2022526061A

JP2022526061A - マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定

Info

Publication number: JP2022526061A
Application number: JP2021533833A
Authority: JP
Inventors: フィリップロビンソン，; カールシスラー，; ピーターヘンリーマレシュ，; アンドリューロビット，; ガリ，セバスチアヴァイセンスアメンガル
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-03-27
Filing date: 2020-03-17
Publication date: 2022-05-23
Also published as: EP3949447A1; US20200314583A1; CN113597778A; US11122385B2; WO2020197839A8; KR20210141707A; US10674307B1; US11523247B2; WO2020197839A1; US20210377690A1

Abstract

ヘッドセットのための音響パラメータのセットの決定が本明細書に提示される。音響パラメータのセットは、マッピングサーバに記憶される物理的な位置の仮想モデルに基づいて決定され得る。仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ヘッドセットの物理的な位置に対応する。ヘッドセットの仮想モデル内の位置は、ヘッドセットから受信されるローカルエリアの少なくとも一部分を説明する情報に基づいて決定される。ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットは、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて決定される。ヘッドセットは、マッピングサーバから受信される音響パラメータのセットを使用して音声コンテンツを提示する。【選択図】図４

Description

関連出願への相互参照
本出願は、２０１９年３月２７日に提出された米国出願第１６／３６６，４８４号の優先権を主張するものであり、その内容は、あらゆる目的のため、参照によりその全体が本明細書に組み込まれる。

本開示は、概して、ヘッドセットにおける音声の提示に関し、および詳細には、マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定に関する。

２人のユーザの耳で知覚される音は、各ユーザに対する音源の方向および位置、ならびに、音が知覚される部屋の周囲環境によって、異なる場合がある。人間は、左右の耳で知覚される音を比較することによって、音源の位置を決定することができる。人工現実環境では、物体から聴取者までの音伝搬をシミュレートするのに、部屋の音響パラメータ、例えば、残響時間または最大早期反射率の方向、に関する知識を使用し得る。部屋の音響パラメータを決定するための１つの技法は、所望の音源位置に拡声器を置くこと、制御されたテスト信号を再生すること、および聴取者位置で記録されるものからテスト信号をデコンボリューションすることを含む。しかしながら、そのような技法は、一般的には、測定研究室を、または現場に専用設備を必要とする。

ある環境に仮想音源をシームレスに置くために、各耳への音声信号は、音源から、環境を通り、聴取者（受信者）までの音伝搬経路に基づいて決定される。様々な音伝搬経路は、受信者（ヘッドセットのユーザ）に音声コンテンツを提示するためのヘッドセットにおいて使用される周波数依存音響パラメータのセットに基づいて表され得る。周波数依存音響パラメータのセットは、典型的には、固有の音響特性を有する局所環境（部屋）の特定の音響構成に固有である。しかしながら、局所環境のすべての潜在的な音響構成についてヘッドセットにおいて様々な音響パラメータのセットを記憶および更新することは、非現実的である。音源と受信者との間の室内の様々な音伝搬経路は、室内インパルス応答を表し、これは、音源および受信者の特定の位置に依存する。しかしながら、空間内のすべての潜在的な音源および受信者位置の濃密なネットワークについて、あるいは最もよく見られる構成の比較的小さいサブセットでさえ、測定またはシミュレートされた室内インパルス応答を記憶することは、メモリ負荷が高い。したがって、リアルタイムでの室内インパルス応答の決定は、要求される精度が増大するにつれて計算負荷が高い。

本開示の実施形態は、ヘッドセットにおいて音声コンテンツを提示するための音響パラメータのセットを決定するための方法、コンピュータ可読媒体、および装置を支援する。いくつかの実施形態において、音響パラメータのセットは、ネットワークを介してヘッドセットと接続されるマッピングサーバに記憶される物理的な位置の仮想モデルに基づいて決定される。仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ヘッドセットの物理的な位置に対応する。マッピングサーバは、ヘッドセットから受信されるローカルエリアの少なくとも一部分を説明する情報に基づいて、ヘッドセットの仮想モデル内の位置を決定する。マッピングサーバは、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに少なくとも部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定する。ヘッドセットは、マッピングサーバから受信される音響パラメータのセットを使用して聴取者に音声コンテンツを提示する。

本発明に従う実施形態は、特に、方法、装置、および記憶媒体を対象とする添付の特許請求の範囲に開示され、１つの請求項カテゴリ、例えば方法、に記載される任意の特徴は、別の請求項カテゴリ、例えば装置、記憶媒体、システム、およびコンピュータプログラム製品においても同様に特許請求され得る。添付の特許請求の範囲に遡った従属関係または参照は、単に形式的理由で選択される。しかしながら、請求項の任意の組み合わせおよびその特徴が、添付の特許請求の範囲において選択される従属関係に関係なく、開示され、また特許請求され得るように、任意の前の請求項に遡った意図的な参照から生じる任意の主題（特に複数の従属関係）も同様に特許請求され得る。特許請求され得る主題は、添付の特許請求の範囲に明記されるような特徴の組み合わせだけでなく、請求項内の特徴の任意の他の組み合わせも含み、請求項に記載される各特徴は、請求項内の任意の他の特徴または他の特徴の組み合わせと組み合わされ得る。さらに、本明細書に説明または描写される実施形態および特徴のうちのいずれかは、別個の請求項において、および／あるいは、本明細書に説明もしくは描写される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組み合わせで特許請求され得る。

一実施形態において、方法は、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を含み得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。

一実施形態において、方法は、
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信することであって、情報が、ローカルエリアの少なくとも一部分に関する視覚情報を含む、情報を受信することを含み得る。

複数の空間は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームを含み得る。

音声コンテンツは、ローカルエリア内の物体から生じているように思われるように提示され得る。

音響パラメータのセットは、
複数の周波数帯の各々についての音源からヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの音源からヘッドセットまでの直接音の方向、
周波数帯ごとの直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも１つを含み得る。

一実施形態において、方法は、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも１つの音響パラメータを決定することと、
少なくとも１つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を含み得る。

音声ストリームは、経時的なローカルエリアの音響状態の変化が閾値変化を上回るというヘッドセットにおける決定に応答して、ヘッドセットから提供され得る。

一実施形態において、方法は、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて音響パラメータのセットを更新することと、を含み得、
ヘッドセットによって提示される音声コンテンツは、更新された音響パラメータのセットに少なくとも部分的に基づいて調節される。

一実施形態において、方法は、
１つまたは複数の音響パラメータを獲得することと、
１つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも１つの音響パラメータを１つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を含み得る。

一実施形態において、方法は、
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送することを含み得る。

一実施形態において、装置は、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定するように構成されるマッピングモジュールであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、マッピングモジュールと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定するように構成される音響モジュールと、を備え得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。

一実施形態において、装置は、
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信するように構成される通信モジュールであって、該情報が、ヘッドセットの１つまたは複数のカメラアセンブリにより捕捉されるローカルエリアの少なくとも一部分に関する視覚情報を含む、通信モジュールを備え得る。

音声コンテンツは、ローカルエリア内の仮想物体から生じているように思われるように提示され得る。

一実施形態において、装置は、
ヘッドセットから音声ストリームを受信するように構成される通信モジュールを備え得、音響モジュールは、受信した音声ストリームに基づいて少なくとも１つの音響パラメータを決定するようにさらに構成され、本装置は、
少なくとも１つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶するように構成される非一時的コンピュータ可読媒体をさらに備える。

音響モジュールは、
１つまたは複数の音響パラメータを獲得し、
１つまたは複数の音響パラメータを音響パラメータのセットと比較するように構成され得、本装置は、
比較に基づいて、セット内の少なくとも１つの音響パラメータを１つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新するように構成される非一時的コンピュータ可読記憶媒体をさらに備える。

一実施形態において、装置は、
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送するように構成される通信モジュールを備え得る。

一実施形態において、非一時的コンピュータ可読記憶媒体は、符号化された命令を有し得、この命令は、プロセッサにより実行されるとき、プロセッサに、本明細書内の実施形態のうちのいずれかに従う方法を実施させるか、または
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を行わせ、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。

命令は、プロセッサに、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも１つの音響パラメータを決定することと、
少なくとも１つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を行わせることができ、仮想モデルが、非一時的コンピュータ可読記憶媒体に記憶される。

命令は、プロセッサに、
１つまたは複数の音響パラメータを獲得することと、
１つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも１つの音響パラメータを１つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を行わせることができる。

一実施形態において、１つまたは複数のコンピュータ可読非一時的記憶媒体は、実行されるとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能であるソフトウェアを具現化し得る。

一実施形態において、システムは、１つまたは複数のプロセッサ、およびプロセッサに結合され、プロセッサによって実行可能な命令を含む少なくとも１つのメモリを備え得、プロセッサは、命令を実行するとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能である。

一実施形態において、好ましくはコンピュータ可読非一時的記憶媒体を備えるコンピュータプログラム製品は、データ処理システム上で実行されるとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能であり得る。

１つまたは複数の実施形態に従う、ヘッドセットのためのシステム環境のブロック図である。１つまたは複数の実施形態に従う、音源とヘッドセットのユーザとの間の音の伝搬に対する部屋の中の表面の効果を例証する図である。１つまたは複数の実施形態に従う、マッピングサーバのブロック図である。１つまたは複数の実施形態に従う、ヘッドセットの音声システムのブロック図である。１つまたは複数の実施形態に従う、物理的空間およびその物理的空間の音響特性を説明する仮想モデルの例を示す図である。１つまたは複数の実施形態に従う、音声システムを含むヘッドセットの透視図である。１つまたは複数の実施形態に従う、ヘッドセットの物理的な位置のための音響パラメータを決定するためのプロセスを例証するフローチャートである。１つまたは複数の実施形態に従う、マッピングサーバから音響パラメータを獲得するためのプロセスを例証するフローチャートである。１つまたは複数の実施形態に従う、ヘッドセットにおいて室内インパルス応答を再構築するためのプロセスを例証するフローチャートである。１つまたは複数の実施形態に従う、ヘッドセットおよびマッピングサーバを含むシステム環境のブロック図である。

図は、単に例証の目的で本開示の実施形態を描写する。当業者は、本明細書に例証される構造および方法の代替の実施形態が、本明細書に説明される本開示の、原則、またはうたわれる利益から逸脱することなく、用いられ得ることを容易に理解するものとする。

本開示の実施形態は、人工現実システムを含み得るか、またはこれと併せて実施され得る。人工現実は、ユーザへの提示前に何らかの様式で調節されている現実の形態であり、これは、例えば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、またはそれらの何らかの組み合わせおよび／もしくは派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、または捕捉した（例えば、現実世界）コンテンツと組み合わせた生成されたコンテンツを含み得る。人工現実コンテンツは、映像、音声、触覚フィードバック、またはそれらの何らかの組み合わせを含み得、それらのいずれも、単一のチャネルまたは複数のチャネル（視聴者に対して三次元効果を生み出すステレオ映像）で提示され得る。加えて、いくつかの実施形態において、人工現実はまた、例えば人工現実においてコンテンツを作成するために使用される、および／または人工現実において別途使用される（例えば、活動を実施する）、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組み合わせと関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ヘッドセット、ホストコンピュータシステムに接続されるヘッドマウントディスプレイ（ＨＭＤ）、スタンドアローンＨＭＤ、ニアアイディスプレイ（ＮＥＤ）、モバイルデバイスもしくはコンピューティングシステム、または人工現実コンテンツを１つまたは複数の視聴者に提供することができる任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上で実施され得る。

室内音響整合のための通信システムが本明細書に提示される。通信システムは、マッピングサーバと通信可能に結合された音声システムを有するヘッドセットを含む。音声システムは、スピーカ、音響センサのアレイ、複数の撮像センサ（カメラ）、および音声コントローラを含み得るヘッドセットに実装される。撮像センサは、ローカルエリアの少なくとも一部分に関連した視覚情報（例えば、深さ情報、色情報など）を決定する。ヘッドセットは、視覚情報を（例えば、ネットワークを介して）マッピングサーバに通信する。マッピングサーバは、現実世界内の空間についての音響特性を含む世界の仮想モデルを維持する。マッピングサーバは、ヘッドセットからの視覚情報、例えば、ローカルエリアの少なくとも一部分の画像を使用して、ヘッドセットの物理的な位置に対応する仮想モデル内の位置を決定する。マッピングサーバは、決定された位置と関連付けられた音響パラメータのセット（例えば、残響時間、残響レベルなど）を決定し、音響パラメータをヘッドセットに提供する。ヘッドセットは、音声コンテンツをヘッドセットのユーザに提示するために、（例えば、音声コントローラを介して）音響パラメータのセットを使用する。ヘッドセットに取り付けられた音響センサのアレイは、ローカルエリア内の音をモニタする。ヘッドセットは、室内構成における変化（例えば、人間の占有レベルの変化、閉じていた窓が開かれる、閉じていたカーテンが開かれるなど）が発生したことを決定することに応答して、モニタした音の一部またはすべてを音声ストリームとしてマッピングサーバに選択的に提供することができる。マッピングサーバは、ヘッドセットから受信される音声ストリームに基づいて音響パラメータを再計算することによって仮想モデルを更新し得る。

いくつかの実施形態において、ヘッドセットは、ヘッドセットが位置するローカルエリアについてのインパルス応答をパラメータ化する音響パラメータのセットに関する情報を獲得する。ヘッドセットは、マッピングサーバから音響パラメータのセットを獲得し得る。代替的に、音響パラメータのセットは、ヘッドセットにおいて記憶される。ヘッドセットは、音響パラメータのセットを外挿することによって、ヘッドセットおよび音源（例えば、仮想物体）の特定の空間的配置についてのインパルス応答を再構築し得る。再構築されたインパルス応答は、調節された音響パラメータのセットによって表され得、調節されたセットからの１つまたは複数の音響パラメータは、元のセットから１つまたは複数の対応する音響パラメータを動的に調節することによって獲得される。ヘッドセットは、再構築されたインパルス応答、すなわち、調節された音響パラメータのセットを使用して、（例えば、音声コントローラを介して）音声コンテンツを提示する。

ヘッドセットは、例えば、ＮＥＤ、ＨＭＤ、または何らかの他のタイプのヘッドセットであり得る。ヘッドセットは、人工現実システムの部分であり得る。ヘッドセットは、ディスプレイおよび光アセンブリをさらに含む。ヘッドセットのディスプレイは、画像光を放出するように構成される。ヘッドセットの光アセンブリは、着用者の目の位置に対応するヘッドセットのアイボックスに画像光を向けるように構成される。いくつかの実施形態において、画像光は、ヘッドセットの周りのローカルエリアについての深さ情報を含み得る。

図１は、１つまたは複数の実施形態に従う、ヘッドセット１１０のためのシステム１００のブロック図である。システム１００は、部屋１０２内のユーザ１０６によって着用され得るヘッドセット１１０を含む。ヘッドセット１１０は、ネットワーク１２０を介してマッピングサーバ１３０に接続される。

ネットワーク１２０は、ヘッドセット１１０をマッピングサーバ１３０に接続する。ネットワーク１２０は、共にワイヤレスおよび／または有線通信システムを使用するローカルエリアおよび／または広域ネットワークの任意の組み合わせを含み得る。例えば、ネットワーク１２０は、インターネット、ならびに携帯電話ネットワークを含み得る。１つの実施形態において、ネットワーク１２０は、標準通信技術および／またはプロトコルを使用する。故に、ネットワーク１２０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、インフィニバンド、ＰＣＩエキスプレスアドバンスドスイッチングなどの技術を使用したリンクを含み得る。同様に、ネットワーク１２０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含み得る。ネットワーク１２０を介して交換されるデータは、２値形式の画像データ（例えば、ポータブルネットワークグラフィックス（ＰＮＧ））、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張マークアップ言語（ＸＭＬ）などを含む技術および／または形式を使用して表され得る。加えて、リンクのすべてまたは一部は、セキュアソケット層（ＳＳＬ）、トランスポート層セキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）などの慣用暗号技術を使用して暗号化され得る。ネットワーク１２０はまた、同じまたは異なる室内に位置する複数のヘッドセットを同じマッピングサーバ１３０に接続し得る。

ヘッドセット１１０は、メディアをユーザに提示する。１つの実施形態において、ヘッドセット１１０は、ＮＥＤであり得る。別の実施形態において、ヘッドセット１１０は、ＨＭＤであり得る。一般に、ヘッドセット１１０は、コンテンツ（例えば、メディアコンテンツ）がヘッドセットの片方または両方のレンズを使用して提示されるように、ユーザの顔に着用され得る。しかしながら、ヘッドセット１１０はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット１１０によって提示されるメディアコンテンツの例としては、１つまたは複数の画像、映像、音声、またはそれらの何らかの組み合わせが挙げられる。

ヘッドセット１１０は、部屋１０２の少なくとも一部分を説明する視覚情報を決定し、その視覚情報をマッピングサーバ１３０に提供し得る。例えば、ヘッドセット１１０は、部屋１０２の少なくとも一部分についての深さ画像データを生成する少なくとも１つの深さカメラアセンブリ（ＤＣＡ）を含み得る。ヘッドセット１１０は、部屋１０２の少なくとも一部分についてのカラー画像データを生成する少なくとも１つのパッシブカメラアセンブリ（ＰＣＡ）を含み得る。いくつかの実施形態において、ヘッドセット１１０のＤＣＡおよびＰＣＡは、部屋１０２の視覚情報を決定するための、ヘッドセット１１０に取り付けられた同時位置決め地図作成（ＳＬＡＭ）センサの部分である。故に、少なくとも１つのＤＣＡによって捕捉される深さ画像データおよび／または少なくとも１つのＰＣＡによって捕捉されるカラー画像データは、ヘッドセット１１０のＳＬＡＭセンサによって決定される視覚情報と見なされ得る。

ヘッドセット１１０は、部屋１０２についての音響パラメータのセットを決定するため、視覚情報を、ネットワーク１２０を介してマッピングサーバ１３０に通信し得る。別の実施形態において、ヘッドセット１１０は、音響パラメータのセットを決定するため、視覚情報に加えて、その位置情報（例えば、部屋１０２の全地球測位システム（ＧＰＳ）位置）をマッピングサーバ１３０に提供する。代替的に、ヘッドセット１１０は、音響パラメータのセットを決定するため、位置情報のみをマッピングサーバ１３０に提供する。音響パラメータのセットは、部屋１０２の中の音響状態を一緒に規定する部屋１０２の中の特定の構成の様々な音響特性を表すために使用され得る。部屋１０２の中の構成は、故に、部屋１０２の中の固有の音響状態と関連付けられる。部屋１０２の中の構成および関連付けられた音響状態は、部屋１０２の窓を開閉することによって、カーテンを開閉することによって、部屋１０２のドアを開閉することによってなど、例えば、部屋１０２の中のヘッドセット１１０の位置における変化、部屋１０２の中の音源の位置における変化、部屋１０２の中の人間の占有レベルの変化、部屋１０２の中の表面の１つまたは複数の音響材の変化のうちの少なくとも１つに基づいて変化し得る。

音響パラメータのセットは、複数の周波数帯の各々についての音源からヘッドセット１１０までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット１１０までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置などのうちの一部またはすべてを含み得る。いくつかの実施形態において、上述した音響パラメータのうちの一部の周波数依存性は、４つの周波数帯にクラスタリングされ得る。いくつかの他の実施形態において、音響パラメータのうちの一部は、４超または４未満の周波数帯にクラスタリングされ得る。ヘッドセット１１０は、マッピングサーバ１３０から獲得される音響パラメータのセットを使用してユーザ１０６に音声コンテンツを提示する。音声コンテンツは、部屋１０２の中の物体（すなわち、実物体または仮想物体）から生じているように思われるように提示される。

ヘッドセット１１０は、部屋１０２の中の音をモニタするための音響センサのアレイをさらに含み得る。ヘッドセット１１０は、モニタされた音に基づいて音声ストリームを生成し得る。ヘッドセット１１０は、部屋１０２の中の構成における変化が発生して、部屋１０２の中の音響状態が変化したことを引き起こしているという決定に応答して、マッピングサーバ１３０において部屋１０２のための１つまたは複数の音響パラメータを更新するために、（例えば、ネットワーク１２０を介して）マッピングサーバ１３０に音声ストリームを選択的に提供し得る。ヘッドセット１１０は、マッピングサーバ１３０から獲得される更新された音響パラメータのセットを使用してユーザ１０６に音声コンテンツを提示する。

いくつかの実施形態において、ヘッドセット１１０は、マッピングサーバ１３０、またはヘッドセット１１０における非一時的コンピュータ可読記憶デバイス（すなわち、メモリ）のいずれかから、部屋１０２についてのインパルス応答をパラメータ化する音響パラメータのセットを獲得する。ヘッドセット１１０は、音響パラメータのセットを、獲得された音響パラメータのセットと関連付けられた構成とは異なる部屋１０２の特定の構成についての再構築された室内インパルス応答を表す調節された音響パラメータのセットに選択的に外挿し得る。ヘッドセット１１０は、再構築された室内インパルス応答を使用してヘッドセット１１０のユーザに音声コンテンツを提示する。さらには、ヘッドセット１１０は、室内のヘッドセット１１０の位置（例えば、場所および姿勢）を追跡する位置センサまたは内部測定ユニット（ＩＭＵ）を含み得る。ヘッドセット１１０の動作および構成要素に関するさらなる詳細は、図３Ｂ、図４、図５Ｂ～５Ｃ、および図６に関連して以下に論じられる。

マッピングサーバ１３０は、ヘッドセット１１０のための音声コンテンツの作成を促進する。マッピングサーバ１３０は、複数の空間およびそれらの空間の音響特性を説明する仮想モデルを記憶するデータベースを含み、仮想モデル内の１つの位置は、部屋１０２の現在の構成に対応する。マッピングサーバ１３０は、ネットワーク１２０を介してヘッドセット１１０から、部屋１０２の少なくとも一部分を説明する視覚情報、および／または部屋１０２の位置情報を受信する。マッピングサーバ１３０は、受信した視覚情報および／または位置情報に基づいて、部屋１０２の現在の構成と関連付けられる仮想モデル内の位置を決定する。マッピングサーバ１３０は、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、部屋１０２の現在の構成と関連付けられた音響パラメータのセットを決定（例えば、取得）する。マッピングサーバ１３０は、ヘッドセット１１０において音声コンテンツを生成するため、（例えば、ネットワーク１２０を介して）ヘッドセット１１０に音響パラメータのセットに関する情報を提供し得る。代替的に、マッピングサーバ１３０は、音響パラメータのセットを使用して音声信号を生成し、その音声信号をレンダリングのためにヘッドセット１１０に提供し得る。いくつかの実施形態において、マッピングサーバ１３０の構成要素のうちの一部は、有線接続を介してヘッドセット１１０に接続される別のデバイス（例えば、コンソール）と統合され得る（図１では示されない）。マッピングサーバ１３０の動作および構成要素に関するさらなる詳細は、図３Ａ、図３Ｃ、図５Ａに関連して以下に論じられる。

図２は、１つまたは複数の実施形態に従う、音源とヘッドセットのユーザとの間の音の伝搬に対する部屋２００の中の表面の効果を例証する。音響パラメータのセット（例えば、室内インパルス応答をパラメータ化する）は、音が、音源からユーザ（受信者）まで部屋２００の中を進行するときにどのように変換されるかを表し、直接音経路および音が行き交う反射音経路の影響を含み得る。例えば、ヘッドセット１１０を着用しているユーザ１０６は、部屋２００の中にいる。部屋２００は、壁２０２および２０４などの壁を含み、これが、物体２０６（例えば、仮想音源）からの音２０８を反射するための表面を提供する。物体２０６が音２０８を放出するとき、音２０８は、複数の経路を通ってヘッドセット１１０へ進行する。音２０８の一部は、直接音経路２１０に沿って、反射なしにユーザ１０６の（例えば、右）耳へと進行する。直接音経路２１０は、物体２０６とユーザ１０６との間の距離わたって伝搬媒質（例えば、空気）によって引き起こされる音の減衰、フィルタリング、および時間遅延を結果としてもたらし得る。

音２０８の他の部分は、ユーザ１０６に到達する前に反射され、反射音を表す。例えば、音２０８の別の部分は、反射音経路２１２に沿って進行し、この場合、音は、壁２０２によってユーザ１０６へと反射される。反射音経路２１２は、物体２０６と壁２０２との間の距離にわたって伝搬媒質によって引き起こされる音２０８の減衰、フィルタリング、および時間遅延、壁２０２からの反射によって引き起こされる別の減衰またはフィルタリング、ならびに壁２０２とユーザ１０６との間の距離にわたって伝搬媒質によって引き起こされる別の減衰、フィルタリング、および時間遅延を結果としてもたらし得る。壁２０２における減衰の量は、壁２０２の音響吸収に依存し、これは、壁２０２の材料に基づいて様々であり得る。別の例では、音２０８の別の部分は、反射音経路２１４に沿って進行し、この場合、音２０８は、物体２１６（例えば、テーブル）によって、ユーザ１０６の方へ反射される。

部屋２００の中の様々な音伝搬経路２１０、２１２、２１４は、音源（すなわち、物体２０６）および受信者（例えば、ヘッドセット１０６）の特定の位置に依存する室内インパルス応答を表す。室内インパルス応答は、低周波数モード、回折経路、壁による伝送、表面の音響材特性などの、部屋に関する多種多様な情報を含む。室内インパルス応答は、音響パラメータのセットを使用してパラメータ化され得る。反射音経路２１２および２１４は、単一の表面における反射によって引き起こされる一次反射の例であるが、音響パラメータのセット（例えば、室内インパルス応答）は、複数の表面または物体におけるより高次の反射からの影響を組み込み得る。音響パラメータのセットを使用して物体２０６の音声信号を変換することにより、ヘッドセット１１０は、音が直接音経路２１０および反射音経路２１２、２１４に沿って部屋２００の中を通る際に音声信号の伝搬をシミュレートするユーザ１０６のための音声コンテンツを生成する。

部屋２００の中での物体２０６（音源）からユーザ１０６（受信者）までの伝搬経路は、一般的には、直接音経路２１０、近くの表面からの一次音響反射に対応する早期反射（例えば、反射音経路２１４によって運ばれる）、および、より遠い表面からの一次音響反射、または高次の音響反射に対応する後期残響（例えば、反射音経路２１２によって運ばれる）という３つの部分に分割され得るということに留意されたい。各音経路は、対応する音響パラメータを更新する比率に影響を及ぼす異なる知覚要件を有する。例えば、ユーザ１０６は、直接音経路２１０におけるレイテンシに対して非常に不寛容であり得、したがって、直接音経路２１０と関連付けられた１つまたは複数の音響パラメータは、最高比率で更新され得る。しかしながら、ユーザ１０６は、早期反射におけるレイテンシについてはより寛容であり得る。後期残響は、頭部回転における変化に対して最も感受性が低いが、これは、多くの場合、後期残響が、室内で等方性および均一であり、故に後期残響は、回転または並進運動により耳で変化しないためである。また、後期残響に関連したすべての知覚的に重要な音響パラメータを計算するのは計算コストが非常に高い。この理由から、早期反射および後期残響と関連付けられた音響パラメータは、例えば、ヘッドセット１１０ほど厳しいエネルギーおよび計算制限を有さないが、かなりのレイテンシを有するマッピングサーバ１３０において、閑散時に効率的に計算され得る。音響パラメータを決定するためのマッピングサーバ１３０の動作に関する詳細は、図３Ａおよび図５Ａと関連して以下に論じられる。

図３Ａは、１つまたは複数の実施形態に従う、マッピングサーバ１３０のブロック図である。マッピングサーバ１３０は、ヘッドセット１１０が位置する物理的空間（部屋）のための音響パラメータのセットを決定する。決定された音響パラメータのセットは、部屋の中の物体（例えば、仮想または実物体）と関連付けられた音声信号を変換するために、ヘッドセット１１０において使用され得る。説得力のある音源を物体に追加するため、ヘッドセット１１０から出力される音声信号は、それが物体の場所から聴取者まで、同じ位置の自然の音源の場合と同じように伝搬されていたように聞こえなければならない。音響パラメータのセットは、直接経路および部屋の表面からの様々な反射経路に沿った伝搬を含む、室内の物体から聴取者（すなわち、室内のヘッドセットの位置）までの音の伝搬によって引き起こされる変換を規定する。マッピングサーバ１３０は、仮想モデルデータベース３０５、通信モジュール３１０、マッピングモジュール３１５、および音響解析モジュール３２０を含む。他の実施形態において、マッピングサーバ１３０は、列挙されたモジュールと任意の追加のモジュールとの任意の組み合わせを有し得る。いくつかの他の実施形態において、マッピングサーバ１３０は、図３Ａに例証されるモジュールの機能を組み合わせる１つまたは複数のモジュールを含む。マッピングサーバ１３０のプロセッサ（図３Ａでは示されない）は、仮想モデルデータベース３０５、通信モジュール３１０、マッピングモジュール３１５、音響解析モジュール３２０、図３Ａに示されるモジュールの機能を組み合わせる１つまたは複数の他のモジュールのうちの一部またはすべてを実行し得る。

仮想モデルデータベース３０５は、複数の物理的空間およびそれらの物理的空間の音響特性を説明する仮想モデルを記憶する。仮想モデル内の各位置は、固有の音響状態と関連付けられた特有の構成を有するローカルエリア内のヘッドセット１１０の物理的な位置に対応する。固有の音響状態は、音響パラメータの固有のセットで表される音響特性の固有のセットを有するローカルエリアの状態を表す。仮想モデル内の特定の位置は、部屋１０２の中のヘッドセット１１０の現在の物理的な位置に対応し得る。仮想モデル内の各位置は、ローカルエリアの１つの構成を表す対応する物理的空間のための音響パラメータのセットと関連付けられる。音響パラメータのセットは、ローカルエリアのその１つの特定の構成の様々な音響特性を説明する。音響特性が仮想モデル内で説明される物理的空間としては、限定されるものではないが、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームが挙げられる。故に、図１の部屋１０２は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、またはリビングルームであり得る。いくつかの実施形態において、物理的空間は、特定の屋外空間（例えば、パティオ、庭など）または様々な室内および屋外空間の組み合わせであり得る。仮想モデルの構造に関するさらなる詳細は、図３Ｃに関連して以下に論じられる。

通信モジュール３１０は、ネットワーク１２０を介してヘッドセット１３０と通信するモジュールである。通信モジュール３１０は、ヘッドセット１３０から、部屋１０２の少なくとも一部分を説明する視覚情報を受信する。１つまたは複数の実施形態において、視覚情報は、部屋１０２の少なくとも一部分についての画像データを含む。例えば、通信モジュール３１０は、部屋１０２の壁、床、および天井の表面などの部屋１０２の表面によって規定される部屋１０２の形状に関する情報と共に、ヘッドセット１１０のＤＣＡによって捕捉される深さ画像データを受信する。通信モジュール３１０はまた、ヘッドセット１１０のＰＣＡによって捕捉されるカラー画像データを受信し得る。マッピングサーバ１３０は、異なる音響材を部屋１０２の表面と関連付けるためにカラー画像データを使用し得る。通信モジュール３１０は、ヘッドセット１３０から受信される視覚情報（例えば、深さ画像データおよびカラー画像データ）をマッピングモジュール３１５に提供し得る。

マッピングモジュール３１５は、ヘッドセット１１０から受信される視覚情報を仮想モデルの位置にマッピングする。マッピングモジュール３１５は、ヘッドセット１１０が位置する現在の物理的空間に対応する仮想モデルの位置、すなわち、部屋１０２の現在の構成を決定する。マッピングモジュール３１５は、（ｉ）例えば、物理的空間の表面の幾何学的形状に関する情報および表面の音響材に関する情報を少なくとも含む、視覚情報と、（ｉｉ）仮想モデル内の物理的空間の対応する構成とのマッピングを見つけ出すために、仮想モデルを検索する。マッピングは、受信した視覚情報の幾何学的形状および／または音響材情報を、仮想モデル内の物理的空間の構成の部分として記憶される幾何学的形状および／または音響材情報と一致させることによって実施される。仮想モデル内の物理的空間の対応する構成は、ヘッドセット１１０が現在位置する物理的空間のモデルに対応する。一致が見つからない場合、これは、物理的空間の現在の構成が仮想モデル内でまだモデル化されていないことを示すものである。そのような場合、マッピングモジュール３１５は、一致が見つからないことを音響解析モジュール３２０に通知し得、音響解析モジュール３２０は、受信した視覚情報に少なくとも部分的に基づいて、音響パラメータのセットを決定する。

音響解析モジュール３２０は、マッピングモジュール３１５から獲得される仮想モデル内の決定された位置、および決定された位置と関連付けられた仮想モデル内の任意の音響パラメータに少なくとも部分的に基づいて、ヘッドセット１１０の物理的な位置と関連付けられた音響パラメータのセットを決定する。いくつかの実施形態において、音響解析モジュール３２０は、音響パラメータのセットが、特定の空間構成と関連付けられる仮想モデル内の決定された位置に記憶されるため、仮想モデルから音響パラメータのセットを取得する。いくつかの他の実施形態において、音響解析モジュール３２０は、ヘッドセット１１０から受信される視覚情報に少なくとも部分的に基づいて、仮想モデル内の特定の空間構成のための以前に決定された音響パラメータのセットを調節することによって音響パラメータのセットを決定する。例えば、音響解析モジュール３２０は、音響パラメータのセットを決定するために、受信した視覚情報を使用してオフライン音響シミュレーションを実行し得る。

いくつかの実施形態において、音響解析モジュール３２０は、例えば、ヘッドセット１１０から捕捉および獲得される周囲音を解析することによって、以前に生成された音響パラメータがヘッドセット１１０の現在の物理的な位置の音響状態と一貫しないことを決定する。検出された不一致は、マッピングサーバ１３０における音響パラメータの新規セットの再生成をトリガし得る。一旦再計算されると、音響パラメータのこの新規セットは、以前の音響パラメータのセットの代わりとして、または同じ物理的空間についての追加の状態として、マッピングサーバ１３０の仮想モデルに入力され得る。いくつかの実施形態において、音響解析モジュール３２０は、ヘッドセット１１０から受信される周囲音（例えば、会話）を解析することによって、音響パラメータのセットを推定する。いくつかの他の実施形態において、音響解析モジュール３２０は、部屋の幾何学的形状を含み得るヘッドセット１１０から受信される視覚情報を使用して音響シミュレーション（例えば、波ベースの音響シミュレーションまたはレイトレーシング音響シミュレーション）を実行することによって、音響パラメータのセットを導出し、音響材特性を推定する。音響解析モジュール３２０は、導出した音響パラメータのセットを通信モジュール３１０に提供し、この通信モジュール３１０が、例えば、ネットワーク１２０を介して、音響パラメータのセットをマッピングサーバ１３０からヘッドセット１１０へ通信する。

いくつかの実施形態において、論じられるように、通信モジュール３１０は、ヘッドセット１１０から音声ストリームを受信し、これは、部屋１０２の中の音を使用してヘッドセット１１０において生成され得る。音響解析モジュール３２０は、受信した音声ストリームに基づいて、部屋１０２の特定の構成のための１つまたは複数の音響パラメータを（例えば、サーバベースの計算アルゴリズムを適用することによって）決定し得る。いくつかの実施形態において、音響解析モジュール３２０は、例えば、最尤推定量を用いる、音声ストリームにおける音ディケイのための統計モデルに基づいて、１つまたは複数の音響パラメータ（例えば、残響時間）を推定する。いくつかの他の実施形態において、音響解析モジュール３２０は、例えば、受信した音声ストリームから抽出される時間領域情報および／または周波数領域情報に基づいて、１つまたは複数の音響パラメータを推定する。

いくつかの実施形態において、音響解析モジュール３２０によって決定される１つまたは複数の音響パラメータは、部屋１０２の現在の構成として仮想モデルの部分ではなかった、および部屋１０２の対応する音響状態が仮想モデルによってモデル化されていなかった音響パラメータの新規セットを表す。そのような場合、仮想モデルデータベース３０５は、部屋１０２の現在の音響状態をモデル化する部屋１０２の現在の構成と関連付けられる仮想モデル内の位置に音響パラメータの新規セットを記憶する。１つまたは複数の音響パラメータ（例えば、周波数依存性の残響時間、周波数依存性の直間比など）のうちの一部またはすべては、音響パラメータのうちの一部を再計算するために使用され得る、音響パラメータと関連付けられた信頼度（重み）および絶対時間スタンプと一緒に、仮想モデル内に記憶され得る。

いくつかの実施形態において、部屋１０２の現在の構成は、仮想モデルによってすでにモデル化されており、音響解析モジュール３２０は、受信した音声ストリームに基づいて音響パラメータのセットを再計算する。代替的に、再計算されたセット内の１つまたは複数の音響パラメータは、例えば、少なくとも、ヘッドセット１１０においてモニタされるローカルエリア内の音に基づいて、ヘッドセット１１０において決定され、マッピングサーバ１３０へ通信され得る。仮想モデルデータベース３０５は、音響パラメータのセットを再計算された音響パラメータのセットと置き換えることによって、仮想モデルを更新し得る。１つまたは複数の実施形態において、音響解析モジュール３２０は、再計算された音響パラメータのセットを以前に決定された音響パラメータのセットと比較する。比較に基づいて、再計算された音響パラメータのうちのいずれかと以前に決定された音響パラメータのうちのいずれかとの間の差が、閾値差分を上回るとき、仮想モデルは、再計算された音響パラメータのセットを使用して更新される。

いくつかの実施形態において、音響解析モジュール３２０は、再計算された音響パラメータのうちのいずれかを、同じローカルエリア構成についての対応する音響パラメータの過去の推定値と、過去の推定値が再計算された音響パラメータからの閾値以内である場合に、組み合わせる。過去の推定値は、ローカルエリアの対応する構成と関連付けられた仮想モデルの位置において仮想モデルデータベース３０５に記憶され得る。１つまたは複数の実施形態において、音響解析モジュール３２０は、過去の推定値が再計算された音響パラメータからの閾値以内でない場合、過去の推定値に重み（例えば、過去の推定値と関連付けられた時間スタンプに基づいた重み、または記憶された重み）を適用する。いくつかの実施形態において、音響解析モジュール３２０は、少なくとも１つの音響パラメータのための推定値をもたらす異なる音響材を決定するために、少なくとも１つの音響パラメータ（例えば、残響時間）の推定値およびヘッドセット１１０が位置する物理的空間についての幾何学的形状情報に対して材料最適化アルゴリズムを適用する。音響材に関する情報は、幾何学的形状情報と一緒に、同じ物理的空間の異なる構成および音響状態をモデル化する仮想モデルの異なる位置に記憶され得る。

いくつかの実施形態において、音響解析モジュール３２０は、空間依存する予め計算された音響パラメータ（例えば、空間依存する残響時間、空間依存する直間比など）を生成するために音響シミュレーションを実施し得る。空間依存する予め計算された音響パラメータは、仮想モデルデータベース３０５において仮想モデルの適切な位置に記憶され得る。音響解析モジュール３２０は、物理的空間の幾何学的形状および／または音響材が変化するときはいつでも、予め計算された音響パラメータを使用して、空間依存する音響パラメータを再計算し得る。音響解析モジュール３２０は、限定されるものではないが、部屋の幾何学的形状に関する情報、音響材特性推定値、および／または人間の占有レベルに関する情報（例えば、無人、部分的に満員、満員）などの音響シミュレーションのための様々な入力を使用し得る。音響パラメータは、様々な占有レベル、および様々な部屋の状態（例えば、開いた窓、閉じた窓、開いたカーテン、閉じたカーテンなど）についてシミュレートされ得る。部屋の状態が変化する場合、マッピングサーバ１３０は、音声コンテンツをユーザに提示するための適切な音響パラメータのセットを決定して、ヘッドセット１１０に通信し得る。そうでなく、適切な音響パラメータのセットが利用可能でない場合、マッピングサーバ１３０は（例えば、音響解析モジュール３２０を介して）、音響パラメータの新規セットを（例えば、音響シミュレーションを介して）計算し、音響パラメータの新規セットをヘッドセット１１０に通信する。

いくつかの実施形態において、マッピングサーバ１３０は、ローカルエリアの所与の構成についての完全な（測定またはシミュレートされた）室内インパルス応答を記憶する。例えば、ローカルエリアの構成は、ヘッドセット１１０および音源の特定の空間的配置に基づき得る。マッピングサーバ１３０は、室内インパルス応答を、ネットワーク伝送の規定の帯域幅（例えば、ネットワーク１２０の帯域幅）に好適な音響パラメータのセットへと低減し得る。完全なインパルス応答のパラメータ化されたバージョンを表す音響パラメータのセットは、例えば、仮想モードの部分として仮想モデルデータベース３０５に、またはマッピングサーバ１３０の別個の非一時的コンピュータ可読記憶媒体（図３Ａでは示されない）に記憶され得る。

図３Ｂは、１つまたは複数の実施形態に従う、ヘッドセット１１０の音声システム３３０のブロック図である。音声システム３３０は、トランスデューサアセンブリ３３５、音響アセンブリ３４０、音声コントローラ３５０、および通信モジュール３５５を含む。１つの実施形態において、音声システム３３０は、例えば、音声システム３３０の異なる構成要素の動作を制御するための、入力インターフェース（図３Ｂでは示されない）をさらに備える。他の実施形態において、音声システム３３０は、列挙された構成要素と任意の追加の構成要素との任意の組み合わせを有し得る。

トランスデューサアセンブリ３３５は、例えば、音声コントローラ３５０からの音声命令に基づいて、ユーザの耳のための音を生み出す。いくつかの実施形態において、トランスデューサアセンブリ３３５は、例えば、音声コントローラ３５０からの音声命令に従って、ユーザの耳の中に空気伝達音響圧力波を生成することによって音を生み出す空気伝導トランスデューサの対（例えば、各耳に１つ）として実装される。トランスデューサアセンブリ３３５の各空気伝導トランスデューサは、周波数範囲の異なる部分を網羅するために、１つまたは複数のトランスデューサを含み得る。例えば、圧電トランスデューサが、周波数範囲の第１の部分を網羅するために使用され得、可動コイル型トランスデューサが、周波数範囲の第２の部分を網羅するために使用され得る。いくつかの他の実施形態において、トランスデューサアセンブリ３３５の各トランスデューサは、ユーザの頭部内の対応する骨を振動させることによって音を生み出す骨伝導トランスデューサとして実装される。骨伝導トランスデューサとして実装される各トランスデューサは、ユーザの蝸牛に向かって伝搬する組織伝達音響圧力波を生成するユーザの骨の一部分を振動させるためにユーザの骨の一部分に結合される外耳の裏に置かれ得、これにより鼓膜を迂回する。

音響アセンブリ３４０は、複数の音響センサ、例えば、各耳に１つの音響センサを含み得る。代替的に、音響アセンブリ３４０は、ヘッドセット１１０の様々な位置に取り付けられる音響センサのアレイ（例えば、マイク）を含む。音響アセンブリ３４０の音響センサは、耳の入口において音響圧力波を検出する。音響アセンブリ３４０の１つまたは複数の音響センサは、各耳の入口に位置付けられ得る。１つまたは複数の音響センサは、耳の入口に形成される空気伝達音響圧力波を検出するように構成される。１つの実施形態において、音響アセンブリ３４０は、生み出された音に関する情報を音声コントローラ３５０に提供する。別の実施形態において、音響アセンブリ３４０は、検出した音響圧力波のフィードバック情報を音声コントローラ３５０に伝送し、フィードバック情報は、トランスデューサアセンブリ３３５の校正のために音声コントローラ３５０によって使用され得る。

１つの実施形態において、音響アセンブリ３４０は、着用者の各耳の入口に位置付けられるマイクを含む。マイクは、圧力を電気信号に変換するトランスデューサである。マイクの周波数応答は、周波数範囲のいくつかの部分においては比較的平坦であり得、周波数範囲の他の部分においては線形であり得る。マイクは、トランスデューサアセンブリ３３５に提供される音声命令に基づいてマイクからの検出信号をスケーリングするために、音声コントローラ３５０から信号を受信するように構成され得る。例えば、信号は、検出信号のクリッピングを回避するために、または検出信号における信号対雑音比を改善するため、音声命令に基づいて調節され得る。

別の実施形態において、音響アセンブリ３４０は、振動センサを含む。振動センサは、耳の一部分に結合される。いくつかの実施形態において、振動センサおよびトランスデューサアセンブリ３３５は、耳の異なる部分に結合する。振動センサは、信号が逆に流れることを除き、トランスデューサアセンブリ３３５において使用される空気トランスデューサに類似する。電気信号がトランスデューサ内に機械的振動を生み出す代わりに、機械的振動が、振動センサ内に電気信号を生成している。振動センサは、圧電材料で作製され得、この圧電材料は、圧電材料が変形されるときに電気信号を生成することができる。圧電材料は、ポリマー（例えば、ＰＶＣ、ＰＶＤＦ）、ポリマーベースの複合物、セラミック、または結晶（例えば、ＳｉＯ_２、ＰＺＴ）であり得る。圧電材料に圧力を印加することによって、圧電材料は、極性が変化し、電気信号を生み出す。圧電センサは、耳の後ろによく付着する材料（例えば、シリコーン）に結合され得る。振動センサはまた、加速度計であり得る。加速度計は、圧電型または容量型であり得る。１つの実施形態において、振動センサは、着用者の耳の裏との良好な表面接触を維持し、耳への安定した量の作動力（例えば、１ニュートン）を維持する。振動センサは、ＩＭＵ集積回路内に統合され得る。ＩＭＵは、図６に関連してさらに説明される。

音声コントローラ３５０は、音響パラメータのセット（例えば、室内インパルス応答）を使用して音声コンテンツを生成することによって音を生成するため、トランスデューサアセンブリ３３５に音声命令を提供する。音声コントローラ３５０は、音声コンテンツを、ヘッドセット１１０のローカルエリア内の物体（例えば、仮想物体または実物体）から生じていると思われるように提示する。一実施形態において、音声コントローラ３５０は、ローカルエリアの現在の構成についての室内インパルス応答をパラメータ化し得るローカルエリアの現在の構成のための音響パラメータのセットを使用して音源音声信号を変換することによって、音声コンテンツを、仮想音源から生じていると思われるように提示する。

音声コントローラ３５０は、例えば、ヘッドセット１１０の１つまたは複数のカメラから、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。情報は、深さ画像データ、カラー画像データ、ローカルエリアの場所情報、またはそれらの組み合わせを含み得る。深さ画像データは、ローカルエリアの壁、床、および天井の表面などのローカルエリアの表面によって規定されるローカルエリアの形状に関する幾何学的形状情報を含み得る。カラー画像データは、ローカルエリアの表面と関連付けられた音響材に関する情報を含み得る。場所情報は、ＧＰＳ座標、またはローカルエリアのいくつかの他の位置情報を含み得る。

いくつかの実施形態において、音声コントローラ３５０は、音響アセンブリ３４０によってモニタされるローカルエリア内の音に基づいて音声ストリームを生成し、その音声ストリームを、マッピングサーバ１３０へ選択的に通信されるように通信モジュール３５５に提供する。いくつかの実施形態において、音声コントローラ３５０は、１つまたは複数の音響パラメータ（例えば、早期反射、直接音咬合など）を決定するために、リアルタイム音響レイトレーシングシミュレーションを実行する。リアルタイム音響レイトレーシングシミュレーションを実行することができるように、音声コントローラ３５０は、例えば、マッピングサーバ１３０において記憶される仮想モデルから、ヘッドセット１１０が現在位置するローカルエリアの構成についての幾何学的形状および／または音響パラメータに関する情報を要求および獲得する。いくつかの実施形態において、音声コントローラ３５０は、音響アセンブリ３４０によってモニタされるローカルエリア内の音、および／または、例えば、ヘッドセット１１０に取り付けられたＳＬＡＭセンサのうちの１つもしくは複数によって、ヘッドセット１１０において決定される視覚情報を使用して、ローカルエリアの現在の構成についての１つまたは複数の音響パラメータを決定する。

通信モジュール３５５（例えば、トランシーバ）は、音声コントローラ３５０に結合され、音声コントローラ３５０の部分として統合され得る。通信モジュール３５５は、マッピングサーバ１３０における音響パラメータのセットの決定のため、ローカルエリアの少なくとも一部分を説明する情報をマッピングサーバ１３０に通信し得る。通信モジュール３５５は、マッピングサーバ１３０において物理的空間の視覚モデルを更新するため、音声コントローラ３５０から獲得される音声ストリームをマッピングサーバ１３０に選択的に通信し得る。例えば、通信モジュール３５５は、経時的なローカルエリアの音響状態の変化が、ローカルエリアの構成の変化に起因して、閾値変化を上回るという決定（例えば、モニタされた音に基づいて音声コントローラ３５０によって）に応答して、音声ストリームをマッピングサーバ１３０に通信し、これは、新規または更新された音響パラメータのセットを必要とする。いくつかの実施形態において、音声コントローラ３５０は、周囲音声ストリームを定期的に解析することによって、例えば、経時的に変化している音声ストリームからの残響時間を定期的に推定することによって、ローカルエリアの音響状態の変化が、閾値変化を上回ることを決定する。例えば、音響状態の変化は、部屋１０２の中の人間の占有レベル（例えば、無人、部分的に満員、満員）を変化させることによって、部屋１０２の中の窓を開閉すること、部屋１０２のドアを開閉すること、窓のカーテンを開閉すること、部屋１０２におけるヘッドセット１１０の場所を変化させること、部屋１０２における音源の場所を変化させること、部屋１０２における何らかの他の特徴を変化させること、またはこれらの組み合わせによって、引き起こされ得る。いくつかの実施形態において、通信モジュール３５５は、ローカルエリアの現在の構成と関連付けられた以前に決定された音響パラメータのセットと比較して、マッピングサーバ１３０において仮想モデルをおそらくは更新するため、音声コントローラ３５０によって決定される１つまたは複数の音響パラメータをマッピングサーバ１３０に通信する。

１つの実施形態において、通信モジュール３５５は、マッピングサーバ１３０からローカルエリアの現在の構成についての音響パラメータのセットを受信する。別の実施形態において、音声コントローラ３５０は、例えば、ヘッドセット１１０に取り付けられたＳＬＡＭセンサのうちの１つまたは複数によって決定されるローカルエリアの視覚情報、音響アセンブリ３４０によってモニタされるローカルエリア内の音、位置センサ４４０によって決定されるローカルエリア内のヘッドセット１１０の位置に関する情報、ローカルエリア内の音源の位置に関する情報などに基づいて、ローカルエリアの現在の構成についての音響パラメータのセットを決定する。さらに別の実施形態において、音声コントローラ３５０は、音声コントローラ３５０に結合されるコンピュータ可読データストレージ（すなわち、メモリ）（図３Ｂでは示されない）から音響パラメータのセットを獲得する。メモリは、物理的空間の限られた数の構成についての音響パラメータの異なるセット（室内インパルス応答）を記憶し得る。音響パラメータのセットは、ローカルエリアの現在の構成についての室内インパルス応答のパラメータ化形式を表し得る。

音声コントローラ３５０は、ローカルエリアの音響状態における変化を引き起こすローカルエリアの構成における経時的な変化に応答して、音響パラメータのセットを、調節された音響パラメータのセット（すなわち、再構築された室内インパルス応答）に選択的に外挿し得る。経時的なローカルエリアの音響状態の変化は、例えば、ローカルエリアの視覚情報、ローカルエリア内のモニタされた音、ローカルエリア内のヘッドセット１１０の位置における変化に関する情報、ローカルエリア内の音源の位置における変化に関する情報などに基づいて、音声コントローラ３５０によって決定され得る。セット内の一部の音響パラメータは、ローカルエリアの構成が変化するとき（例えば、ローカルエリア内のヘッドセット１１０および／または音源の移動に起因して）体系的様式で変化しているため、音声コントローラ３５０は、音響パラメータのうちの一部を動的に調節するために外挿スキームを提供し得る。

１つの実施形態において、音声コントローラ３５０は、部屋の幾何学的形状に関する情報および予め計算された虚音源（例えば、１つの反復における）に基づいて、例えば、直接音の振幅および方向、直接音と早期反射との間の遅延、ならびに／または早期反射の方向および振幅を、外挿スキームを使用して動的に調節する。別の実施形態において、音声コントローラ３５０は、例えば、データ駆動手法に基づいて、音響パラメータのうちの一部を動的に調節する。そのような場合、音声コントローラ３５０は、規定の数の部屋および音源／受信者位置の測定値でモデルを訓練し得、音声コントローラ３５０は、演繹的知識に基づいて、特定の新規の部屋および音源／受信者配置についてのインパルス応答を予測し得る。さらに別の実施形態において、音声コントローラ３５０は、聴取者が２つの部屋の間の連結部に近づくと、２つの部屋と関連付けられた音響パラメータを内挿することによって音響パラメータのうちの一部を動的に調節する。したがって、音響パラメータのセットで表される室内インパルス応答のパラメータ化された表現は、動的に適合され得る。音声コントローラ３５０は、動的に適合された室内インパルス応答に少なくとも部分的に基づいて、トランスデューサアセンブリ３３５のための音声命令を生成し得る。

音声コントローラ３５０は、マッピングサーバ１３０から受信される音響パラメータのセットに外挿スキームを適用することによって、ローカルエリアの特定の構成についての室内インパルス応答を再構築し得る。室内インパルス応答のパラメータ化形式を表し、知覚的に関連のある室内インパルス応答特徴に関連した音響パラメータは、複数の周波数帯の各々についての音源からヘッドセット１１０までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット１１０までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置、１つもしくは複数の他の音響パラメータ、またはそれらの組み合わせのうちの一部またはすべてを含み得る。

音声コントローラ３５０は、ローカルエリアの現在の構成についての再構築された室内インパルス応答を表す調節された音響パラメータのセットを獲得するために、受信した音響パラメータのセットに対して空間的外挿を実施し得る。空間的外挿を実施するとき、音声コントローラ３５０は、直接音の方向、残響に対する直接音の振幅、音源指向性に従う直接音等化、早期反射のタイミング、早期反射の振幅、早期反射の方向など、複数の音響パラメータを調節し得る。残響時間は、室内で一定のままであり得、また部屋同士の交線において調節される必要があり得るということに留意されたい。

１つの実施形態において、早期反射タイミング／振幅／方向を調節するため、音声コントローラ３５０は、サンプルまたは反射あたりの到来方向（ＤＯＡ）に基づいて外挿を実施する。そのような場合、音声コントローラ３５０は、ＤＯＡベクトル全体にオフセットを適用し得る。早期反射のＤＯＡは、ヘッドセット１１０に取り付けられたマイクのアレイによって獲得される音声データを処理することによって決定され得るということに留意されたい。早期反射のＤＯＡは、例えば、部屋１０２の中のユーザの位置および部屋の幾何学的形状に関する情報に基づいて調節され得る。

別の実施形態において、部屋の幾何学的形状および音源／聴取者位置が知られているとき、音声コントローラ３５０は、虚音源モデル（ＩＳＭ）に基づいて低次反射を識別し得る。聴取者が動くと、識別された反射のタイミングおよび方向が、ＩＳＭを実行することにより修正される。そのような場合、振幅が調節され得るが、カラレーションは操作されなくてもよい。ＩＳＭは、早期反射の音源位置を聴取者の位置とは独立して決定するシミュレーションモデルを表すということに留意されたい。次いで、早期反射方向が、虚音源から聴取者までトレースすることによって計算され得る。所与の音源のための虚音源を記憶および利用することが、部屋１０２の中の任意の聴取者位置についての早期反射方向を産出する。

さらに別の実施形態において、音声コントローラ３５０は、早期反射タイミング／振幅／方向に関連した音響パラメータを外挿するために、部屋１０２の「Ｓｈｏｅｂｏｘモデル」を適用し得る。「Ｓｈｏｅｂｏｘモデル」は、実際の空間とほぼ同じサイズの長方形の箱に基づいた部屋音響の近似である。「Ｓｈｏｅｂｏｘモデル」は、例えば、Ｓａｂｉｎｅの式に基づいて、反射または残響時間を近似するために使用され得る。元の室内インパルス応答の最も強い反射（例えば、所与の音源／受信者配置について測定またはシミュレートされる）は、ラベル付けされ、除去される。次いで、最も強い反射が、「Ｓｈｏｅｂｏｘモデル」の低次ＩＳＭを使用して再導入されて、外挿された室内インパルス応答を獲得する。

図３Ｃは、１つまたは複数の実施形態に従う、物理的空間およびその物理的空間の音響特性を説明する仮想モデル３６０の例である。仮想モデル３６０は、仮想モデルデータベース３０５に記憶され得る。仮想モデル３６０は、世界中のすべての空間についての地理的に結びつけられた３つの情報（すなわち、物理的空間識別子（ＩＤ）３６５、空間構成ＩＤ３７０、および音響パラメータのセット３７５）を記憶する仮想記憶データベース３０５内の地理情報記憶領域を表し得る。

仮想モデル３６０は、各々が固有の物理的空間ＩＤ３６５により識別される、潜在的な物理的空間Ｓ１、Ｓ２、…、Ｓｎのリストを含む。物理的空間ＩＤ３６５は、特定のタイプの物理的空間を一意的に識別する。物理的空間ＩＤ３６５は、例えば、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルーム、何らかの他のタイプの物理的空間、またはそれらの何らかの組み合わせを含み得る。故に、各物理的空間ＩＤ３６５は、１つの特定のタイプの物理的空間に対応する。

各物理的空間ＩＤ３６５は、１つまたは複数の空間構成ＩＤ３７０と関連付けられる。各空間構成ＩＤ３７０は、特定の音響状態を有する物理的空間ＩＤ３３５によって識別される物理的空間の構成に対応する。空間構成ＩＤ３７０は、例えば、物理的空間における人間の占有レベルに関する識別、物理的空間の構成要素の状態に関する識別（例えば、開いた／閉じた窓、開いた／閉じたドアなど）、物理的空間内の物体および／または表面の音響材に関する表示、同じ空間内の音源および受信者の位置に関する表示、何らかの他のタイプの構成表示、またはそれらの何らかの組み合わせを含み得る。いくつかの実施形態において、同じ物理的空間の異なる構成は、物理的空間における様々な異なる状態に起因し得る。同じ物理的空間の異なる構成は、例えば、同じ物理的空間の異なる占有度、同じ物理的空間の構成要素の異なる状態（例えば、開いた／閉じた窓、開いた／閉じたドアなど）、同じ物理的空間内の物体および／または表面の異なる音響材、同じ物理的空間内の音源／受信者の異なる位置、物理的空間の何らかの他の特徴、またはそれらの何らかの組み合わせに関連し得る。各空間構成ＩＤ３７０は、物理的空間ＩＤ３６５の構成を識別する固有コードＩＤ（例えば、バイナリコード）として表され得る。例えば、図３Ｃに例証されるように、物理的空間Ｓ１は、各々が同じ物理的空間Ｓ１の異なる音響状態を表すｐ個の異なる空間構成Ｓ１Ｃ１、Ｓ１Ｃ２、…、Ｓ１Ｃｐと関連付けられ得、物理的空間Ｓ２は、各々が同じ物理的空間Ｓ２の異なる音響状態を表すｑ個の異なる空間構成Ｓ２Ｃ１、Ｓ２Ｃ２、…、Ｓ２Ｃｑと関連付けられ得、物理的空間Ｓｎは、各々が同じ物理的空間Ｓｎの異なる音響状態を表すｒ個の異なる空間構成ＳｎＣ１、ＳｎＣ２、…、ＳｎＣｒと関連付けられ得る。マッピングモジュール３１５は、ヘッドセット１１０から受信される物理的空間の視覚情報に基づいて適切な空間構成ＩＤ３７０を見つけ出すために仮想モデル３６０を検索し得る。

各空間構成ＩＤ３７０は、仮想モデル３６０の対応する位置に記憶される音響パラメータのセット３７５と関連付けられる特定の音響状態を有する。図３Ｃに例証されるように、同じ物理的空間Ｓ１のｐ個の異なる空間構成Ｓ１Ｃ１、Ｓ１Ｃ２、…、Ｓ１Ｃｐは、ｐ個の異なる音響パラメータのセット｛ＡＰ１１｝、｛ＡＰ１２｝、…、｛ＡＰ１ｐ｝と関連付けられる。同様に、図３Ｃにさらに例証されるように、同じ物理的空間Ｓ２のｑ個の異なる空間構成Ｓ２Ｃ１、Ｓ２Ｃ２、…、Ｓ２Ｃｑは、ｑ個の異なる音響パラメータのセット｛ＡＰ２１｝、｛ＡＰ２２｝、…、｛ＡＰ２ｑ｝と関連付けられ、同じ物理的空間Ｓｎのｒ個の異なる空間構成ＳｎＣ１、ＳｎＣ２、…、ＳｎＣｒは、ｒ個の異なる音響パラメータのセット｛ＡＰｎ１｝、｛ＡＰｎ２｝、…、｛ＡＰｎｒ｝と関連付けられる。音響解析モジュール３２０は、マッピングモジュール３１５が、ヘッドセット１１０が位置する物理的空間の現在の位置に対応する空間構成ＩＤ３７０を見つけ出すと、仮想モデル３６０から対応する音響パラメータのセット３７５を取り出し得る。

図４は、１つまたは複数の実施形態に従う、音声システムを含むヘッドセット１１０の透視図である。いくつかの実施形態において（図１に示されるように）、ヘッドセット１１０は、ＮＥＤとして実装される。代替の実施形態において（図１では示されない）、ヘッドセット１００は、ＨＭＤとして実装される。一般に、ヘッドセット１１０は、コンテンツ（例えば、メディアコンテンツ）がヘッドセット１１０の片方または両方のレンズ４１０を使用して提示されるように、ユーザの顔に着用され得る。しかしながら、ヘッドセット１１０はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット１１０によって提示されるメディアコンテンツの例としては、１つまたは複数の画像、映像、音声、またはそれらの何らかの組み合わせが挙げられる。ヘッドセット１１０は、いくつかある構成要素の中でも特に、フレーム４０５、レンズ４１０、ＤＣＡ４２５、ＰＣＡ４３０、位置センサ４４０、および音声システムを含み得る。ヘッドセット１１０の音声システムは、例えば、左スピーカ４１５ａ、右スピーカ４１５ｂ、音響センサのアレイ４３５、音声コントローラ４２０、１つまたは複数の他の構成要素、またはそれらの組み合わせを含む。ヘッドセット１１０の音声システムは、図３Ｂと併せて上に説明される音声システム３３０の実施形態である。ＤＣＡ４２５およびＰＣＡ４３０は、ヘッドセット１１０の一部またはすべてを取り囲むローカルエリアの視覚情報を捕捉するための、ヘッドセット１１０に取り付けられたＳＬＡＭセンサの部分であり得る。図４は、ヘッドセット１１０における例示的な位置にヘッドセット１１０の構成要素を例証するが、構成要素は、ヘッドセット１１０の他の場所、ヘッドセット１１０とペアリングされた周辺デバイス、またはそれらの何らかの組み合わせに位置してもよい。

ヘッドセット１１０は、ユーザの視力を補正もしくは強化するか、ユーザの目を保護するか、またはユーザに画像を提供し得る。ヘッドセット１１０は、ユーザの視覚における欠陥を補正する眼鏡であり得る。ヘッドセット１１０は、ユーザの目を太陽から守るサングラスであり得る。ヘッドセット１１０は、ユーザの目を衝撃から守る安全眼鏡であり得る。ヘッドセット１１０は、夜間にユーザの視力を強化するための暗視装置または赤外線ゴーグルであり得る。ヘッドセット１１０は、ユーザのために人工現実コンテンツを生み出すニアアイディスプレイであり得る。代替的に、ヘッドセット１１０は、レンズ４１０を含まなくてもよく、音声コンテンツ（例えば、音楽、ラジオ、ポッドキャスト）をユーザに提供する音声システムを伴ったフレーム４０５であり得る。

フレーム４０５は、ヘッドセット１１０の構成要素を保持する。フレーム４０５は、レンズ４１０を保持する前部、およびユーザの頭部に装着するための末端部を含む。フレーム４０５の前部は、ユーザの鼻の上部に架かる。末端部（例えば、テンプル）は、ユーザのこめかみに装着されるフレーム４０５の部分である。末端部の長さは、異なるユーザにフィットするように調節可能であり得る（例えば、調節可能なテンプル長さ）。末端部はまた、ユーザの耳の裏に巻き付く部分を含み得る（例えば、テンプル先端、つる）。

レンズ４１０は、ヘッドセット１１０を着用しているユーザへ光を提供するか、または透過させる。レンズ４１０は、ユーザの視覚における欠陥を補正するのを助けるための度付きレンズ（例えば、単焦点、二焦点、および三焦点、または累進焦点）であり得る。度付きレンズは、ヘッドセット１１０を着用しているユーザへ周囲光を透過させる。透過された周囲光は、ユーザの視覚における欠陥を補正するために度付きレンズによって変更され得る。レンズ４１０は、ユーザの目を太陽から守るための偏光レンズまたは着色レンズであり得る。レンズ４１０は、画像光が導波路の端または縁を通じてユーザの目に結合される導波路ディスプレイの一部としての１つまたは複数の導波路であり得る。レンズ４１０は、画像光を提供するための電子ディスプレイを含み得、また、電子ディスプレイからの画像光を拡大するための光学ブロックを含み得る。

スピーカ４１５ａおよび４１５ｂは、ユーザの耳のために音を生み出す。スピーカ４１５ａ、４１５ｂは、図３Ｂ内のトランスデューサアセンブリ３３５のトランスデューサの実施形態である。スピーカ４１５ａおよび４１５ｂは、音を生成するために、音声コントローラ４２０から音声命令を受信する。左スピーカ４１５ａは、音声コントローラ４２０から左音声チャネルを獲得し得、右スピーカ４１５ｂは、音声コントローラ４２０から右音声チャネルを獲得する。図４に例証されるように、各スピーカ４１５ａ、４１５ｂは、フレーム４０５の末端部に結合され、ユーザの対応する耳への入口の前に置かれる。スピーカ４１５ａおよび４１５ｂは、フレーム４０５の外側に示されるが、スピーカ４１５ａおよび４１５ｂは、フレーム４０５に囲まれてもよい。いくつかの実施形態において、各耳用の個別のスピーカ４１５ａおよび４１５ｂの代わりに、ヘッドセット１１０は、例えば、提示された音声コンテンツの指向性を改善するためにフレーム４０５の末端部に統合されるスピーカアレイ（図４では示されない）を含む。

ＤＣＡ４２５は、部屋などの、ヘッドセット１１０を取り囲むローカルエリアについての深さ情報を説明する深さ画像データを捕捉する。いくつかの実施形態において、ＤＣＡ４２５は、投光器（例えば、構造化光および／または飛行時間のためのフラッシュ照明）、撮像デバイス、およびコントローラ（図４では示されない）を含み得る。捕捉データは、投光器によってローカルエリアに投影される光の撮像デバイスによって捕捉される画像であり得る。１つの実施形態において、ＤＣＡ４２５は、コントローラ、およびステレオでローカルエリアの捕捉部分へ配向される２つ以上のカメラを含み得る。捕捉データは、ステレオでローカルエリアの２つ以上のカメラによって捕捉される画像であり得る。ＤＣＡ４２５のコントローラは、捕捉データおよび深さ決定技法（例えば、構造化光、飛行時間、ステレオ撮像など）を使用して、ローカルエリアの深さ情報を計算する。深さ情報に基づいて、ＤＣＡ４２５のコントローラは、ローカルエリア内のヘッドセット１１０の絶対位置情報を決定する。ＤＣＡ４２５のコントローラはまた、ローカルエリアのモデルを生成し得る。ＤＣＡ４２５は、ヘッドセット１１０と統合され得るか、またはヘッドセット１１０の外側にローカルエリア内に位置付けられ得る。いくつかの実施形態において、ＤＣＡ４２５のコントローラは、例えば、さらなる処理およびマッピングサーバ１３０への通信のため、ヘッドセット１１０の音声コントローラ４２０に深さ画像データを伝送し得る。

ＰＣＡ４３０は、カラー（例えば、ＲＧＢ）画像データを生成する１つまたは複数のパッシブカメラを含む。能動的な光放出および反射を使用するＤＣＡ４２５とは異なり、ＰＣＡ４３０は、カラー画像データを生成するためにローカルエリアの環境から光を捕捉する。撮像デバイスからの深さまたは距離を規定する画素値ではなく、カラー画像データの画素値は、画像データ内で捕捉される物体の可視色を規定し得る。いくつかの実施形態においてＰＣＡ４３０は、パッシブ撮像デバイスによって捕捉される光に基づいてカラー画像データを生成するコントローラを含む。ＰＣＡ４３０は、例えば、さらなる処理およびマッピングサーバ１３０への通信のため、音声コントローラ４２０にカラー画像データを提供し得る。

音響センサのアレイ４３５は、ヘッドセット１１０の一部またはすべてを取り囲むローカルエリア内の音をモニタおよび記録する。音響センサのアレイ４３５は、図３Ｂの音響アセンブリ３４０の実施形態である。図４に例証されるように、音響センサのアレイ４３５は、ヘッドセット１１０上に位置付けられる複数の音響検出場所を伴う複数の音響センサを含む。音響センサのアレイ４３５は、記録した音を音声ストリームとして音声コントローラ４２０に提供し得る。

位置センサ４４０は、ヘッドセット１１０の動きに応答して１つまたは複数の測定信号を生成する。位置センサ４４０は、ヘッドセット１１０のフレーム４０５の一部分に位置し得る。位置センサ４４０は、位置センサ、内部測定ユニット（ＩＭＵ）、または両方を含み得る。ヘッドセット１１０のいくつかの実施形態は、位置センサ４４０を含んでも含まなくてもよく、または２つ以上の位置センサ４４０を含んでもよい。位置センサ４４０がＩＭＵを含む実施形態において、ＩＭＵは、位置センサ４４０からの測定信号に基づいてＩＭＵデータを生成する。位置センサ４４０の例としては、１つもしくは複数の加速度計、１つもしくは複数のジャイロスコープ、１つもしくは複数の磁力計、動きを検出する別の好適なタイプのセンサ、ＩＭＵの誤り訂正のために使用されるタイプのセンサ、またはそれらの何らかの組み合わせが挙げられる。位置センサ４４０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組み合わせで位置し得る。

１つまたは複数の測定信号に基づいて、位置センサ４４０は、ヘッドセット１１０の初期位置に対するヘッドセット１１０の現在の位置を推定する。推定位置は、ヘッドセット１１０の場所、および／またはヘッドセット１１０もしくはヘッドセット１１０を着用しているユーザの頭部の配向、あるいはそれらの何らかの組み合わせを含み得る。配向は、基準点に対する各耳の位置に対応し得る。いくつかの実施形態において、位置センサ４４０は、ヘッドセット１１０の現在の位置を推定するために、ＤＣＡ４２５からの深さ情報および／または絶対位置情報を使用する。位置センサ４４０は、並進運動（前後、上下、左右）を測定するために複数の加速度計、および回転運動（例えば、ピッチ、ヨウ、ロール）を測定するために複数のジャイロスコープを含み得る。いくつかの実施形態において、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングしたデータからヘッドセット１１０の推定位置を計算する。例えば、ＩＭＵは、加速度計から受信される測定信号を経時的に統合して、速度ベクトルを推定し、この速度ベクトルを経時的に統合して、ヘッドセット１１０上の基準点の推定値を決定する。基準点は、ヘッドセット１１０の位置を説明するために使用され得る点である。基準点は、一般的には、空間内の点として規定され得るが、実際には、基準点は、ヘッドセット１１０内の点として規定される。

音声コントローラ４２０は、音響パラメータのセット（例えば、室内インパルス応答）を使用して音声コンテンツを生成することによって音を生成するため、スピーカ４１５ａ、４１５ｂに音声命令を提供する。音声コントローラ４２０は、図３Ｂの音声コントローラ３５０の実施形態である。音声コントローラ４２０は、例えば、ローカルエリアの現在の構成についての音響パラメータのセットを使用して音源音声信号を変換することによって、ローカルエリア内の物体（例えば、仮想物体または実物体）から生じているように思えるように音声コンテンツを提示する。

音声コントローラ４２０は、例えば、ＤＣＡ４２５および／またはＰＣＡ４３０から、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。音声コントローラ４２０において獲得される視覚情報は、ＤＣＡ４２５によって捕捉される深さ画像データを含み得る。音声コントローラ４２０において獲得される視覚情報は、ＰＣＡ４３０によって捕捉されるカラー画像データをさらに含み得る。音声コントローラ４２０は、深さ画像データをカラー画像データと組み合わせて、音響パラメータのセットの決定のためにマッピングサーバ１３０に（例えば、図４では示されない、音声コントローラ４２０に結合される通信モジュールを介して）通信される視覚情報にし得る。１つの実施形態において、通信モジュール（例えば、トランシーバ）は、音声コントローラ４２０内に統合され得る。別の実施形態において、通信モジュールは、音声コントローラ４２０の外側にあり、音声コントローラ４２０に結合される別個のモジュール、例えば、図３Ｂの通信モジュール３５５として、フレーム４０５内に統合され得る。いくつかの実施形態において、音声コントローラ４２０は、例えば、音響センサのアレイ４３５によってモニタされるローカルエリア内の音に基づいて、音声ストリームを生成する。音声コントローラ４２０に結合される通信モジュールは、マッピングサーバ１３０において物理的空間の視覚モデルを更新するため、音声ストリームをマッピングサーバ１３０に選択的に通信し得る。

図５Ａは、１つまたは複数の実施形態に従う、ヘッドセットの物理的な位置のための音響パラメータを決定するためのプロセス５００を例証するフローチャートである。図５Ａのプロセス５００は、装置の構成要素、例えば、図３Ａのマッピングサーバ１３０によって実施され得る。他のエンティティ（例えば、図４のヘッドセット１１０の構成要素および／または図６に示される構成要素）が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび／もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。

マッピングサーバ１３０は、ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア（例えば、部屋１０２）内のヘッドセット（例えば、ヘッドセット１１０）のための仮想モデル内の位置を（例えば、マッピングモジュール３１５を介して）決定する５０５。記憶された仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する。ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの表面（例えば、壁、床、および天井の表面）によって規定されるローカルエリアの少なくとも一部分の形状、ならびにローカルエリア内の１つまたは複数の物体（実および／または仮想）に関する情報を伴う深さ画像データを含み得る。ローカルエリアの少なくとも一部分を説明する情報は、音響材を、ローカルエリアの表面および１つまたは複数の物体の表面と関連付けるためのカラー画像データをさらに含み得る。いくつかの実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの位置情報、例えば、ローカルエリアの住所、ローカルエリアのＧＰＳ位置、ローカルエリアの緯度および経度に関する情報などを含み得る。いくつかの他の実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、深さ画像データ、カラー画像データ、ローカルエリアの少なくとも一部分についての音響材に関する情報、ローカルエリアの位置情報、何らかの他の情報、またはそれらの組み合わせを含む。

マッピングサーバ１３０は、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを（例えば、音響解析モジュール３２０を介して）決定する５１０。いくつかの実施形態において、マッピングサーバ１３０は、ヘッドセット１１０が現在位置する空間構成と関連付けられた仮想モデル内の決定された位置から、仮想モデルからの音響パラメータのセットを取得する。いくつかの他の実施形態において、マッピングサーバ１３０は、ヘッドセット１１０から受信されるローカルエリアの少なくとも一部分を説明する情報に少なくとも部分的に基づいて、仮想モデル内の以前に決定された音響パラメータのセットを調節することによって、音響パラメータのセットを決定する。マッピングサーバ１３０は、ヘッドセット１１０から受信される音声ストリームを解析して、既存の音響パラメータのセット（利用可能な場合）が音声解析と一貫するか、または再計算される必要があるかを決定し得る。既存の音響パラメータが音声解析と一貫しない場合、マッピングサーバ１３０は、音響パラメータの新規セットを決定するために、ローカルエリアの少なくとも一部分を説明する情報（例えば、部屋の幾何学的形状、音響材特性の推定値）を使用して、音響シミュレーション（例えば、波ベースの音響シミュレーション、またはレイトレーシング音響シミュレーション）を実行し得る。

マッピングサーバ１３０は、音響パラメータのセットを使用してユーザに音声コンテンツを提示するため、決定した音響パラメータのセットをヘッドセットに通信する。マッピングサーバ１３０は、ヘッドセット１１０から音声ストリームを（例えば、通信モジュール３１０を介して）さらに受信する。マッピングサーバ１３０は、受信した音声ストリームを解析することに基づいて、１つまたは複数の音響パラメータを（例えば、音響解析モジュール３２０を介して）決定する。マッピングサーバ１３０は、１つまたは複数の音響パラメータを、ヘッドセット１１０が位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶し得、故に、物理的空間の現在の音響構成がまだモデル化されていない場合、仮想モデル内に新規エントリを作成する。マッピングサーバ１３０は、１つまたは複数の音響パラメータを以前に決定された音響パラメータのセットと（例えば、音響解析モジュール３２０を介して）比較し得る。マッピングサーバ１３０は、比較に基づいて、音響パラメータのセット内の少なくとも１つの音響パラメータを１つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新し得る。いくつかの実施形態において、マッピングサーバ１３０は、例えば、サーバベースのシミュレーションアルゴリズム、ヘッドセット１１０からの制御測定、または２つ以上のヘッドセット間の測定に基づいて、音響パラメータのセットを再決定する。

図５Ｂは、１つまたは複数の実施形態に従う、マッピングサーバから音響パラメータのセットを獲得するためのプロセス５２０を例証するフローチャートである。図５Ｂのプロセス５２０は、装置の構成要素、例えば、図４のヘッドセット１１０によって実施され得る。他のエンティティ（例えば、図３Ｂの音声システム３３０の構成要素および／または図６に示される構成要素）が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび／もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。

ヘッドセット１１０は、ローカルエリア（例えば、部屋１０２）の少なくとも一部分を説明する情報を決定する５２５。情報は、ローカルエリアの表面（例えば、壁、床、および天井の表面）によって規定されるローカルエリアの少なくとも一部分の形状、ならびにローカルエリア内の１つまたは複数の物体（実および／または仮想）に関する情報を伴う深さ画像データ（例えば、ヘッドセット１１０のＤＣＡ４２５によって生成される）を含み得る。情報はまた、ローカルエリアの少なくとも一部分についてのカラー画像データ（例えば、ヘッドセット１１０のＰＣＡ４３０によって生成される）を含み得る。いくつかの実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの位置情報、例えば、ローカルエリアの住所、ローカルエリアのＧＰＳ位置、ローカルエリアの緯度および経度に関する情報などを含み得る。いくつかの他の実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、深さ画像データ、カラー画像データ、ローカルエリアの少なくとも一部分についての音響材に関する情報、ローカルエリアの位置情報、何らかの他の情報、またはそれらの組み合わせを含む。

ヘッドセット１１０は、ローカルエリア内のヘッドセットの仮想モデル内の位置、および仮想モデル内の位置と関連付けられた音響パラメータのセットを決定するため、情報をマッピングサーバ１３０に（例えば、通信モジュール３５５を介して）通信する５３０。仮想モデル内の各位置は、ローカルエリア内のヘッドセット１１０の特定の物理的な位置に対応し、仮想モデルは、複数の空間およびそれらの空間の音響特性を説明する。ヘッドセット１１０はさらに、経時的なローカルエリアの音響状態の変化が閾値変化を上回るというヘッドセット１１０における決定に応答して音響パラメータのセットを更新するため、音声ストリームをマッピングサーバ１３０に（例えば、通信モジュール３５５を介して）選択的に通信し得る。ヘッドセット１１０は、ローカルエリア内の音をモニタすることによって音声ストリームを生成する。

ヘッドセット１１０は、マッピングサーバ１３０から音響パラメータのセットに関する情報を（例えば、通信モジュール３５５を介して）受信する５３５。例えば、受信した情報は、複数の周波数帯の各々についての音源からヘッドセット１１０までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット１１０までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置などに関する情報を含む。

ヘッドセット１１０は、例えば、適切な音響命令を生成して、音声コントローラ４２０からスピーカ４１５ａ、４１５ｂへ（すなわち、音声コントローラ３５０からトランスデューサアセンブリ３４０）へ提供することによって、音響パラメータのセットを使用して音声コンテンツをヘッドセット１１０のユーザに提示する５４０。ローカルエリア（部屋環境）に変化が発生して、ローカルエリア内の音響状態において変化を引き起こすとき、ヘッドセット１１０は、マッピングサーバ１３０から、更新された音響パラメータのセットを要求および獲得し得る。そのような場合、ヘッドセット１１０は、更新された音響パラメータのセットを使用して、更新された音声コンテンツをユーザに提示する。代替的に、音響パラメータのセットは、マッピングサーバ１３０との通信なしに、ヘッドセット１１０においてローカルで決定され得る。ヘッドセット１１０は、ローカルエリアに関する入力情報、例えば、ローカルエリアの幾何学的形状に関する情報、ローカルエリア内の音響材特性の推定値などを使用して、音響シミュレーション（例えば、波ベースの音響シミュレーションまたはレイトレーシング音響シミュレーション）を実行することによって、音響パラメータのセットを（例えば、音声コントローラ３５０を介して）決定し得る。

図５Ｃは、１つまたは複数の実施形態に従う、ローカルエリアについてのインパルス応答を再構築するためのプロセス５５０を例証するフローチャートである。図５Ｃのプロセス５５０は、装置の構成要素、例えば、ヘッドセット１１０の音声システム３３０によって実施され得る。他のエンティティ（図６に示される構成要素）が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび／もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。

ヘッドセット１１０は、ヘッドセット１１０の一部またはすべてを取り囲むローカルエリア（例えば、部屋１０２）についての音響パラメータのセットを獲得する５５５。１つの実施形態において、ヘッドセット１３０は、マッピングサーバ１３０から音響パラメータのセットを（例えば、通信モジュール３５５を介して）獲得する。別の実施形態において、ヘッドセット１１０は、深さ画像データ（例えば、ヘッドセット１１０のＤＣＡ４２５から）、カラー画像データ（例えば、ヘッドセット１１０のＰＣＡ４３０から）、ローカルエリア内の音（例えば、音響アセンブリ３４０によってモニタされる）、ローカルエリア内のヘッドセット１１０の位置（例えば、位置センサ４４０によって決定される）に関する情報、ローカルエリア内の音源の位置に関する情報などに基づいて、音響パラメータのセットを（例えば、音声コントローラ３５０を介して）決定する。別の実施形態において、ヘッドセット１１０は、音声コントローラ３５０に結合されたコンピュータ可読データストレージ（すなわち、メモリ）から音響パラメータのセットを（例えば、音声コントローラ３５０を介して）獲得する。音響パラメータのセットは、ローカルエリアの１つの固有の音響状態を特徴付けるローカルエリアの１つの構成についての室内インパルス応答のパラメータ化形式を表し得る。

ヘッドセット１１０は、ローカルエリアの構成における変化に応答して、音響パラメータのセットを外挿することによって、音響パラメータのセットを、調節された音響パラメータのセットへと（例えば、音声コントローラ４２０を介して）動的に調節する５６０。例えば、ローカルエリアの構成における変化は、ヘッドセットおよび音源（例えば、仮想音源）の空間的配置における変化に起因し得る。調節された音響パラメータのセットは、ローカルエリアの現在の（変化した）構成についての再構築された室内インパルス応答のパラメータ化形式を表し得る。例えば、早期反射の方向、タイミング、および振幅が、ローカルエリアの現在の構成についての再構築された室内インパルス応答を生成するために調節され得る。

ヘッドセット１１０は、再構築された室内インパルス応答を使用して音声コンテンツをヘッドセット１１０のユーザに提示する５６５。ヘッドセット１１０は、ユーザへの提示のために変換された音声信号を獲得するために、再構築された室内インパルス応答で音声信号を畳み込み得る（例えば、音声コントローラ３５０を介して）。ヘッドセット１１０は、変換された音声信号に対応する音を生成するため、適切な音響命令を生成して、トランスデューサアセンブリ３３５（例えば、スピーカ４１５ａ、４１５ｂ）に提供し得る（例えば、音声コントローラ３５０を介して）。

システム環境
図６は、１つまたは複数の実施形態に従う、ヘッドセットのシステム環境６００である。システム６００は、人工現実環境、例えば、仮想現実、拡張現実、複合現実環境、またはそれらの何らかの組み合わせにおいて動作し得る。図６に示されるシステム６００は、ヘッドセット１１０、マッピングサーバ１３０、およびコンソール６４５に結合される入力／出力（Ｉ／Ｏ）インターフェース６４０を含む。図６は、１つのヘッドセット１１０および１つのＩ／Ｏインターフェース６４０を含む例示的なシステム６００を示すが、他の実施形態においては、任意の数のこれらの構成要素がシステム６００に含まれ得る。例えば、各々が関連付けられたＩ／Ｏインターフェース６４０を有する複数のヘッドセット１１０が存在してもよく、各ヘッドセット１１０およびＩ／Ｏインターフェース６４０は、コンソール６４５と通信している。代替の構成において、異なるおよび／または追加の構成要素が、システム６００に含まれ得る。追加的に、図６に示される構成要素のうちの１つまたは複数と併せて説明される機能性は、いくつかの実施形態において、図６と併せて説明されるものとは異なる様式で、構成要素間で分散され得る。例えば、コンソール６４５の機能性のうちの一部またはすべては、ヘッドセット１１０によって提供され得る。

ヘッドセット１１０は、レンズ４１０、光学ブロック６１０、１つまたは複数の位置センサ４４０、ＤＣＡ４２５、内部測定ユニット（ＩＭＵ）６１５、ＰＣＡ４３０、および音声システム３３０を含む。ヘッドセット１１０のいくつかの実施形態は、図６と併せて説明されるものとは異なる構成要素を有する。加えて、図６と併せて説明される様々な構成要素によって提供される機能性は、他の実施形態において、ヘッドセット１１０の構成要素間で異なって分散され得るか、またはヘッドセット１１０から離れた別個のアセンブリにおいて捕捉され得る。

レンズ４１０は、コンソール６４５から受信されるデータに従って２Ｄまたは３Ｄ画像をユーザに表示する電子ディスプレイを含み得る。様々な実施形態において、レンズ４１０は、単一の電子ディスプレイまたは複数の電子ディスプレイ（例えば、ユーザのそれぞれの目のためのディスプレイ）を備える。電子ディスプレイの例としては、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリクス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、何らかの他のディスプレイ、またはそれらの何らかの組み合わせが挙げられる。

光学ブロック６１０は、電子ディスプレイから受信される画像光を拡大し、画像光と関連付けられた光学誤差を補正し、補正された画像光をヘッドセット１１０のユーザに提示する。様々な実施形態において、光学ブロック６１０は、１つまたは複数の光学素子を含む。光学ブロック６１０に含まれる例示的な光学素子としては、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学素子が挙げられる。さらには、光学ブロック６１０は、異なる光学素子の組み合わせを含み得る。いくつかの実施形態において、光学ブロック６１０内の光学素子のうちの１つまたは複数は、部分的に反射性のコーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック６１０による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的に小さくなること、軽くなること、および少ない電力を消費することを可能にする。加えて、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増大させ得る。例えば、表示されたコンテンツの視野は、表示されたコンテンツが、ユーザの視野の、ほぼすべて（例えば、およそ１１０度対角）、および場合によってはすべてを使用して提示されるようなものである。加えて、いくつかの実施形態において、拡大の量は、光学素子を追加または除去することによって調節され得る。

いくつかの実施形態において、光学ブロック６１０は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例としては、たる型もしくは糸巻き型の歪み、軸上色収差、または倍率色収差が挙げられる。他のタイプの光学誤差としては、球面収差、色収差、またはレンズ像面湾曲に起因する誤差、非点収差、または任意の他のタイプの光学誤差をさらに挙げることができる。いくつかの実施形態において、表示のために電子ディスプレイに提供されるコンテンツは、予め歪められ、光学ブロック６１０は、それが、コンテンツに基づいて生成された、電子ディスプレイからの画像光を受信するとき、歪みを補正する。

ＩＭＵ６１５は、位置センサ４４０のうちの１つまたは複数から受信される測定信号に基づいてヘッドセット１１０の位置を示すデータを生成する電子デバイスである。位置センサ４４０は、ヘッドセット１１０の動きに応答して１つまたは複数の測定信号を生成する。位置センサ４４０の例としては、１つもしくは複数の加速度計、１つもしくは複数のジャイロスコープ、１つもしくは複数の磁力計、動きを検出する別の好適なタイプのセンサ、ＩＭＵ６１５の誤り訂正のために使用されるタイプのセンサ、またはそれらの何らかの組み合わせが挙げられる。位置センサ４４０は、ＩＭＵ６１５の外部に、ＩＭＵ６１５の内部に、またはそれらの何らかの組み合わせで位置し得る。

ＤＣＡ４２５は、部屋などのローカルエリアの深さ画像データを生成する。深さ画像データは、撮像デバイスからの距離を規定する画素値を含み、故に、深さ画像データ内で捕捉される位置の（例えば、３Ｄ）マッピングを提供する。ＤＣＡ４２５は、投光器６２０、１つまたは複数の撮像デバイス６２５、およびコントローラ６３０を含む。投光器６２０は、ローカルエリア内の物体から反射され、深さ画像データを生成するために撮像デバイス６２５によって捕捉される、構造化光パターンまたは他の光を投影し得る。

例えば、投光器６２０は、ヘッドセット１１０を取り囲むローカルエリアの一部分に、異なるタイプ（例えば、線、格子、または点）の複数の構造化光（ＳＬ）要素を投影し得る。様々な実施形態において、投光器６２０は、エミッタおよびパターンプレートを備える。エミッタは、パターンプレートを光（例えば、赤外光）で照明するように構成される。照明されたパターンプレートは、複数のＳＬ要素を含むＳＬパターンをローカルエリア内に投影する。例えば、照明されたパターンプレートによって投影されるＳＬ要素の各々は、パターンプレート上の特定の位置と関連付けられた点である。

ＤＣＡ４２５によって投影される各ＳＬ要素は、電磁スペクトルの赤外光部分に光を含む。いくつかの実施形態において、照明源は、それが人間の目に見えるように赤外光でパターンプレートを照明するように構成されるレーザである。いくつかの実施形態において、照明源は、パルス化され得る。いくつかの実施形態において、照明源は、可視であり、光が目に見えないようにパルス化され得る。

ＤＣＡ４２５によってローカルエリア内に投影されるＳＬパターンは、それがローカルエリア内の様々な表面および物体に遭遇すると、変形する。１つまたは複数の撮像デバイス６２５は各々、ローカルエリアの１つまたは複数の画像を捕捉するように構成される。捕捉される１つまたは複数の画像の各々は、投光器６２０によって投影され、ローカルエリア内の物体によって反射される複数のＳＬ要素（例えば、点）を含み得る。１つまたは複数の撮像デバイス６２５の各々は、検出器アレイ、カメラ、またはビデオカメラであり得る。

コントローラ６３０は、撮像デバイス６２５によって捕捉される光に基づいて深さ画像データを生成する。コントローラ６３０は、コンソール６４５、音声コントローラ４２０、または何らかの他の構成要素に深さ画像データをさらに提供し得る。

ＰＣＡ４３０は、カラー（例えば、ＲＧＢ）画像データを生成する１つまたは複数のパッシブカメラを含む。能動的な光放出および反射を使用するＤＣＡ４２５とは異なり、ＰＣＡ４３０は、画像データを生成するためにローカルエリアの環境から光を捕捉する。撮像デバイスからの深さまたは距離を規定する画素値ではなく、画像データの画素値は、撮像データ内で捕捉される物体の可視色を規定し得る。いくつかの実施形態においてＰＣＡ４３０は、パッシブ撮像デバイスによって捕捉される光に基づいてカラー画像データを生成するコントローラを含む。いくつかの実施形態において、ＤＣＡ４２５およびＰＣＡ４３０は、共通のコントローラを共有する。例えば、共通のコントローラは、可視スペクトル（例えば、画像データ）および赤外スペクトル（例えば、深さ画像データ）で捕捉される１つまたは複数の画像の各々を互いとマッピングし得る。１つまたは複数の実施形態において、共通のコントローラは、追加的または代替的に、ローカルエリアの１つまたは複数の画像を音声コントローラ４２０またはコンソール６４５に提供するように構成される。

音声システム３３０は、ヘッドセット１１０が位置するローカルエリアの音響特性を表す音響パラメータのセットを使用して、音声コンテンツをヘッドセット１１０のユーザに提示する。音声システム３３０は、音声コンテンツを、ローカルエリア内の物体（例えば、仮想物体または実物体）から生じていると思われるように提示する。音声システム３３０は、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。音声システム３３０は、マッピングサーバ１３０における音響パラメータのセットの決定のため、情報をマッピングサーバ１３０に通信し得る。音声システム３３０はまた、マッピングサーバ１３０から音響パラメータのセットを受信し得る。

いくつかの実施形態において、音声システム３３０は、ローカルエリアの音響状態の変化が閾値変化を上回ることに応答して、音響パラメータのセットを、ローカルエリアの特定の構成についての再構築されたインパルス応答を表す調節された音響パラメータのセットに選択的に外挿する。音声システム３３０は、再構築されたインパルス応答に少なくとも部分的に基づいて、音声コンテンツをヘッドセット１１０のユーザに提示し得る。

いくつかの実施形態において、音声システム３３０は、ローカルエリア内の音をモニタし、対応する音声ストリームを生成する。音声システム３３０は、音声ストリームに少なくとも部分的に基づいて、音響パラメータのセットを調節し得る。音声システム３３０はまた、経時的なローカルエリアの音響特性の変化が閾値変化を上回るという決定に応答して、様々な物理的空間およびそれらの空間の音響特性を説明する仮想モデルを更新するため、音声ストリームをマッピングサーバ１３０に選択的に通信し得る。ヘッドセット１１０の音声システム３３０およびマッピングサーバ１３０は、有線またはワイヤレス通信リンク（例えば、図１のネットワーク１２０）を介して通信し得る。

Ｉ／Ｏインターフェース６４０は、ユーザがアクション要求を送信し、コンソール６４５から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。例えば、アクション要求は、画像もしくは映像データの捕捉を開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース６４０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスとしては、キーボード、マウス、ゲームコントローラ、または、アクション要求を受信し、コンソール６４５にアクション要求を通信するための任意の他の好適なデバイスが挙げられる。Ｉ／Ｏインターフェース６４０によって受信されるアクション要求は、コンソール６４５に通信され、コンソール６４５がアクション要求に対応するアクションを実施する。いくつかの実施形態において、Ｉ／Ｏインターフェース６４０は、上にさらに説明されるように、ＩＭＵ６１５を含み、ＩＭＵ６１５が、Ｉ／Ｏインターフェース６４０の初期位置に対するＩ／Ｏインターフェース６４０の推定位置を示す校正データを捕捉する。いくつかの実施形態において、Ｉ／Ｏインターフェース６４０は、コンソール６４５から受信した命令に従ってユーザに触覚フィードバックを提供し得る。例えば、触覚フィードバックは、アクション要求が受信されるときに提供されるか、またはコンソール６４５は、Ｉ／Ｏインターフェース６４０に命令を通信して、コンソール６４５がアクションを実施するときにＩ／Ｏインターフェース６４０に触覚フィードバックを生成させる。

コンソール６４５は、ＤＣＡ４２５、ＰＣＡ４３０、ヘッドセット１１０、およびＩ／Ｏインターフェース６４０のうちの１つまたは複数から受信される情報に従って処理するため、コンテンツをヘッドセット１１０に提供する。図６に示される例では、コンソール６４５は、アプリケーションストア６５０、トラッキングモジュール６５５、およびエンジン６６０を含む。コンソール６４５のいくつかの実施形態は、図６と併せて説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下にさらに説明される機能は、図６と併せて説明されるものとは異なる様式で、コンソール６４５の構成要素間で分散され得る。いくつかの実施形態において、コンソール６４５に関して本明細書で論じられる機能性は、ヘッドセット１１０、またはリモートシステムに実装され得る。

アプリケーションストア６５０は、コンソール６４５による実行のための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されるとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット１１０の運動またはＩ／Ｏインターフェース６４０を介してユーザから受信される入力に応答し得る。アプリケーションの例としては、ゲームアプリケーション、会議アプリケーション、映像再生アプリケーション、または他の好適なアプリケーションが挙げられる。

トラッキングモジュール６５５は、１つまたは複数の校正パラメータを使用してシステム６００のローカルエリアを校正し、ヘッドセット１１０の位置またはＩ／Ｏインターフェース６４０の位置の決定における誤差を低減するために１つまたは複数の校正パラメータを調節し得る。例えば、トラッキングモジュール６５５は、ＤＣＡ４２５の焦点を調節して、ＤＣＡ４２５によって捕捉されるＳＬ要素の位置をより正確に決定するために、校正パラメータをＤＣＡ４２５に通信する。トラッキングモジュール６５５によって実施される校正はまた、ヘッドセット１１０内のＩＭＵ６１５および／またはＩ／Ｏインターフェース６４０に含まれるＩＭＵ６１５から受信される情報を考慮する。加えて、ヘッドセット１１０のトラッキングが失われる（例えば、ＤＣＡ４２５が少なくとも閾値数の投影されたＳＬ要素の視線を失う）場合、トラッキングモジュール６５５は、システム６００の一部またはすべてを再校正し得る。

トラッキングモジュール６５５は、ＤＣＡ４２５、ＰＣＡ４３０、１つもしくは複数の位置センサ４４０、ＩＭＵ６１５、またはそれらの何らかの組み合わせからの情報を使用してヘッドセット１１０またはＩ／Ｏインターフェース６４０の運動を追跡する。例えば、トラッキングモジュール６５５は、ヘッドセット１１０からの情報に基づいて、ローカルエリアのマッピング内のヘッドセット１１０の基準点の位置を決定する。トラッキングモジュール６５５はまた、物体または仮想物体の位置を決定し得る。加えて、いくつかの実施形態において、トラッキングモジュール６５５は、ＩＭＵ６１５からのヘッドセット１１０の位置を示すデータの部分、ならびにＤＣＡ４２５からのローカルエリアの表現を使用して、ヘッドセット１１０の将来の位置を予測し得る。トラッキングモジュール６５５は、ヘッドセット１１０またはＩ／Ｏインターフェース６４０の推定または予測した将来の位置をエンジン６６０に提供する。

エンジン６６０は、アプリケーションを実行し、ヘッドセット１１０の位置情報、加速情報、速度情報、予測した将来の位置、またはそれらの何らかの組み合わせをトラッキングモジュール６５５から受信する。受信した情報に基づいて、エンジン６６０は、ユーザへの提示のため、ヘッドセット１１０に提供するためのコンテンツを決定する。例えば、受信した情報が、ユーザが左を見たことを示す場合、エンジン６６０は、仮想ローカルエリア内または追加コンテンツでローカルエリアを拡張するローカルエリア内でのユーザの運動をミラーリングするヘッドセット１１０のためのコンテンツを生成する。加えて、エンジン６６０は、Ｉ／Ｏインターフェース６４０から受信されるアクション要求に応答してコンソール６４５に対して実行するアプリケーション内のアクションを実施し、アクションが実行されたというフィードバックをユーザに提供する。提供されたフィードバックは、ヘッドセット１１０を介した視覚もしくは聴覚フィードバック、またはＩ／Ｏインターフェース６４０を介した触覚フィードバックであり得る。

追加の構成情報
本開示の実施形態の前述の説明は、例証の目的のために提示されており、徹底的であること、または本開示を開示される正確な形態に制限することは意図されない。当業者は、多くの修正形態および変異形が上記開示に照らして可能であるということを理解するものとする。

本説明のいくつかの部分は、情報に対する動作のアルゴリズムおよび象徴的表現に関して本開示の実施形態を説明する。これらのアルゴリズム的な説明および表現は、データ処理技術における当業者によって、他の当業者に自らの作業の要旨を効率的に伝えるために共通して使用される。これらの動作は、機能的、計算的、論理的に説明されるが、コンピュータプログラムもしくは等価の電気回路、マイクロコード、または同様のものによって実装されることが理解される。さらには、これらの動作の構成を、一般性を失うことなく、モジュールと称することが時として簡便であることも証明されている。説明される動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化され得る。

本明細書に説明されるステップ、動作、プロセスのいずれかは、１つまたは複数のハードウェアまたはソフトウェアモジュールにより、単独で、または他のデバイスと共同して、実施または実装され得る。１つの実施形態において、ソフトウェアモジュールは、説明されるステップ、動作、またはプロセスのうちのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得るコンピュータプログラムコードを含むコンピュータ可読媒体を備えるコンピュータプログラム製品により実装される。

本開示の実施形態はまた、本明細書内の動作を実施するための装置に関し得る。本装置は、必要な目的のために特別に構築され得、および／または、本装置は、コンピュータに記憶されるコンピュータプログラムによって選択的に作動または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的な有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得る。さらには、本明細書内で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または、増大したコンピューティング能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本開示の実施形態はまた、本明細書に説明されるコンピューティングプロセスによって生成される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を含み得、この情報は、非一時的な有形コンピュータ可読記憶媒体に記憶され、本明細書に説明されるコンピュータプログラム製品または他のデータ組み合わせの任意の実施形態を含み得る。

最後に、本明細書で使用される言語は、原則的に、読みやすさおよび指導の目的のために選択されており、それは、発明の主題を叙述する、または制限するために選択されているものではない。したがって、本開示の範囲は、この詳細な説明によって制限されるのではなく、むしろこれに基づいた出願において発行する任意の請求項によって制限されるということが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に明記される本開示の範囲の例証であり、制限ではないということが意図される。

Claims

ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定することとを、を含み、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、方法。
ａ）前記方法が、前記ヘッドセットから、前記ローカルエリアの少なくとも前記一部分を説明する情報を受信することであって、前記情報が、前記ローカルエリアの少なくとも前記一部分に関する視覚情報を含む、情報を受信することをさらに含むこと、または
ｂ）前記複数の空間は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームを含むこと、または
ｃ）前記音声コンテンツは、前記ローカルエリア内の物体から生じているように思われるように提示されること、または
ｄ）前記音響パラメータのセットは、
複数の周波数帯の各々についての音源から前記ヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの前記音源から前記ヘッドセットまでの直接音の方向、
周波数帯ごとの前記直接音の振幅、
前記音源から前記ヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置、のうちの少なくとも１つを含むこと、
のうちの任意の１つまたは複数である、請求項１に記載の方法。
前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて、少なくとも１つの音響パラメータを決定することと、
前記少なくとも１つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶することと、をさらに含む、請求項１または２に記載の方法。
前記音声ストリームは、経時的な前記ローカルエリアの音響状態の変化が閾値変化を上回るという前記ヘッドセットにおける決定に応答して、前記ヘッドセットから提供される、請求項３に記載の方法。
ａ）前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて前記音響パラメータのセットを更新することと、をさらに含み、
前記ヘッドセットによって提示される前記音声コンテンツは、更新された前記音響パラメータのセットに部分的に基づいて調節されること、または
ｂ）１つまたは複数の音響パラメータを獲得することと、
前記１つまたは複数の音響パラメータを前記音響パラメータのセットと比較することと、
前記比較に基づいて、前記セット内の少なくとも１つの音響パラメータを前記１つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新することと、をさらに含むこと、または
ｃ）前記ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、前記音響パラメータのセットを前記ヘッドセットに伝送することをさらに含むこと
のうちの任意の１つまたは複数である、請求項１から４のいずれか一項に記載の方法。
ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定するように構成されるマッピングモジュールであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、マッピングモジュールと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに少なくとも部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定するように構成される音響モジュールと、を備え、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、装置。
前記ヘッドセットから、前記ローカルエリアの少なくとも前記一部分を説明する情報を受信するように構成される通信モジュールであって、前記情報が、前記ヘッドセットの１つまたは複数のカメラアセンブリにより捕捉される前記ローカルエリアの少なくとも前記一部分に関する視覚情報を含む、通信モジュールをさらに備える、請求項６に記載の装置。
前記音声コンテンツは、前記ローカルエリア内の仮想物体から生じているように思われるように提示される、請求項６または７に記載の装置。
前記音響パラメータのセットは、
複数の周波数帯の各々についての音源から前記ヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの前記音源から前記ヘッドセットまでの直接音の方向、
周波数帯ごとの前記直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも１つを含む、請求項６から８のいずれか一項に記載の装置。
ａ）前記ヘッドセットから音声ストリームを受信するように構成される通信モジュールをさらに備え、
前記音響モジュールは、受信した前記音声ストリームに基づいて少なくとも１つの音響パラメータを決定するようにさらに構成され、前記装置は、
前記少なくとも１つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶するように構成される非一時的コンピュータ可読媒体をさらに備えること、または
ｂ）前記音響モジュールは、
１つまたは複数の音響パラメータを獲得し、
前記１つまたは複数の音響パラメータを前記音響パラメータのセットと比較するようにさらに構成され、前記装置は、
前記比較に基づいて、前記セット内の少なくとも１つの音響パラメータを前記１つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新するように構成される非一時的コンピュータ可読記憶媒体をさらに備えること
のうちの任意の１つまたは複数である、請求項６から９のいずれか一項に記載の装置。
前記ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、前記音響パラメータのセットを前記ヘッドセットに伝送するように構成される通信モジュールをさらに備える、請求項６から１０のいずれか一項に記載の装置。
符号化された命令を有する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサにより実行されるとき、前記プロセッサに、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定することと、を行わせ、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、非一時的コンピュータ可読記憶媒体。
前記命令がさらに、前記プロセッサに、
前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて、少なくとも１つの音響パラメータを決定することと、
前記少なくとも１つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶することと
を行わせ、前記仮想モデルが、前記非一時的コンピュータ可読記憶媒体に記憶される、請求項１２に記載のコンピュータ可読媒体。
前記命令がさらに、前記プロセッサに、
１つまたは複数の音響パラメータを獲得することと、
前記１つまたは複数の音響パラメータを前記音響パラメータのセットと比較することと、
前記比較に基づいて、前記セット内の少なくとも１つの音響パラメータを前記１つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新することと
を行わせる、請求項１２または１３に記載のコンピュータ可読媒体。