JP2022546161A

JP2022546161A - 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること

Info

Publication number: JP2022546161A
Application number: JP2021573611A
Authority: JP
Inventors: ジェイコブライアンドンリー，; ファウンデス，パブロフランシスコホフマン
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-08-28
Filing date: 2020-08-06
Publication date: 2022-11-04
Also published as: CN114026880A; KR20220050215A; EP4022943A1; US10812929B1; WO2021040981A1

Abstract

オーディオシステムが、ユーザのために個別に較正される、空間化されたオーディオコンテンツをユーザに提示する。オーディオシステムはユーザに音を提示し、その音がユーザの耳から反射する。オーディオシステムの音響センサーのアレイが、提示された音からオーディオデータを生成する。オーディオシステムは、ビームフォーミングされた信号を生成するために、耳のそれぞれの部分を各々ポイントするビームフォーマを使用してオーディオデータを処理する。オーディオシステムは、ビームフォーミングされた信号を使用して、ユーザの耳からの反射によって引き起こされる音の変化を定義する伝達関数を決定する。オーディオシステムは、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成する。【選択図】図４

Description

本開示は、一般に、個人ユーザのための空間化されたオーディオコンテンツを生成することに関する。

空間化されたオーディオコンテンツは、ユーザの耳の形状および他の音響特性に基づいて、異なるユーザでは異なって聞こえ得る。各耳に対して、音源からの音は、耳道に到来する前に、耳の耳殻（ｐｉｎｎａ）からの反射を介して変化させられる。耳に到来する音をキャプチャするために耳に置かれたマイクロフォンを使用し、各耳が音をどのように変化させるかについてフィルタを算出して、ユーザの耳による音の変化（ｔｒａｎｓｆｏｒｍａｔｉｏｎ）を考慮するオーディオコンテンツをカスタマイズすることが可能である。しかしながら、バイノーラルマイクロフォンは、ユーザの正常な聴覚を損ない、ユーザがユーザの周囲に気づくことを制限し得る。さらに、バイノーラルマイクロフォンは、社会的に許容できず、審美的に魅力に欠けることがある。

したがって、本発明は、添付の特許請求の範囲による、空間化されたオーディオコンテンツを提示するための方法、システム、および空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体を開示する。

実施形態は、ユーザの耳から遠くに位置する音響センサーのセンサーアレイによってキャプチャされるオーディオデータに基づいてユーザのために個別化された、空間化されたオーディオコンテンツを生成することに関する。いくつかの実施形態は、耳のためのオーディオコンテンツを生成するための方法を含む。方法は、音響センサーによって受信される１つまたは複数の音からオーディオデータを生成するセンサーアレイの音響センサーを含む。オーディオデータは、ビームフォーミングされた信号を生成するために、ユーザの耳のそれぞれの部分（たとえば、耳の耳殻上の別のロケーション）を各々ポイントするビームフォーマを使用して処理される。耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数が、ビームフォーミングされた信号を使用して決定される。耳のための空間化されたオーディオコンテンツが、伝達関数を使用して生成される。たとえば、アトジイヤ等化フィルタ（ａｔ－ｔｈｅ－ｅａｒｅｑｕａｌｉｚａｔｉｏｎｆｉｌｔｅｒ）が伝達関数を使用して決定され得、空間化されたオーディオコンテンツは、アトジイヤ等化フィルタを使用して耳のためのオーディオコンテンツを変化させることによって生成され得る。同様のプロセスが、ユーザのために個別化された、左耳と右耳の両方のための空間化されたオーディオコンテンツを生成するために、ユーザの他方の耳について実施され得る。

いくつかの実施形態は、センサーアレイとオーディオコントローラとを含むオーディオシステムを含む。センサーアレイは、音響センサーによって受信される１つまたは複数の音からオーディオデータを生成するように構成された音響センサーを含む。オーディオコントローラは、音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成し、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする。オーディオコントローラは、ビームフォーミングされた信号を使用して耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定し、伝達関数を使用して耳のためのオーディオコンテンツを生成する。

本発明は、センサーアレイの音響センサーによって、音響センサーによって受信される１つまたは複数の音からオーディオデータを生成することと、ビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを含む方法を対象とする。

本発明による方法の一実施形態では、伝達関数に基づいて、空間化されたオーディオコンテンツを生成することは、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してユーザのためにオーディオコンテンツを調整することとを含み得る。

本発明による方法の別の実施形態では、アトジイヤ等化フィルタを決定することは、基準アトジイヤ等化フィルタのデータベースを参照することを含み得る。

本発明による方法のまた別の実施形態では、アトジイヤ等化フィルタを決定することは、伝達関数をユーザのために較正されたフィルタに相関させることを含み得る。

本発明による方法のさらなる実施形態では、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することは、センサーアレイの音響センサーによって、耳の部分からの反射なしに音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーマを使用して他のオーディオデータを処理することによって較正信号を生成することと、ビームフォーミングされた信号および較正信号を使用して伝達関数を決定することとを含み得る。

本発明による方法の別の実施形態では、センサーアレイの少なくとも１つの音響センサーが、ユーザの耳の耳道の入口に配置され得、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することは、センサーアレイの少なくとも１つの音響センサーによって、少なくとも１つの音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーミングされた信号および他のオーディオデータを使用して伝達関数を決定することとを含み得る。

本発明による方法のまた別の実施形態では、ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。

本発明による方法のさらなる実施形態では、本方法は、音響センサーによって受信される１つまたは複数の音を、少なくとも１つのトランスデューサによって生成することをさらに含み得る。

本発明による方法の別の実施形態では、各ビームフォーマは耳の耳殻の別の部分をポイントし得る。

本発明による方法のまた別の実施形態では、本方法は、耳の第１の部分をポイントする、ビームフォーマの第１のビームフォーマを生成することと、１つまたは複数の音のうちの第１の音から、センサーアレイの音響センサーによってオーディオコンテンツの第１のオーディオデータを生成することと、ビームフォーミングされた信号の第１のビームフォーミングされた信号を生成するために第１のビームフォーマを使用して第１のオーディオデータを処理することとをさらに含み得る。

本発明は、音響センサーを含むセンサーアレイであって、音響センサーが、音響センサーによって受信される１つまたは複数の音からオーディオデータを生成するように構成された、センサーアレイと、センサーアレイの音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを行うように構成されたオーディオコントローラとを備える、オーディオシステムをさらに開示する。

本発明によるシステムの一実施形態では、オーディオコントローラは、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してオーディオコンテンツを調整することとを行うようにさらに構成され得る。

本発明によるシステムの別の実施形態では、オーディオコントローラは、基準アトジイヤ等化フィルタのデータベースを参照するようにさらに構成され得る。

本発明によるシステムのまた別の実施形態では、オーディオコントローラは、伝達関数をユーザのために較正されたフィルタに相関させるようにさらに構成され得る。

本発明によるシステムのさらなる実施形態では、オーディオコントローラは、センサーアレイの音響センサーによって、耳の部分からの反射なしに音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーマを使用して他のオーディオデータを処理することによって較正信号を生成することと、ビームフォーミングされた信号および較正信号を使用して伝達関数を決定することとを行うようにさらに構成され得る。

本発明によるシステムの別の実施形態では、センサーアレイの少なくとも１つの音響センサーが、ユーザの耳の耳道の入口に配置され得、オーディオコントローラは、センサーアレイの少なくとも１つの音響センサーによって、少なくとも１つの音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーミングされた信号および他のオーディオデータを使用して伝達関数を決定することとを行うようにさらに構成され得る。

本発明によるシステムのまた別の実施形態では、ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。

本発明によるシステムのさらなる実施形態では、各ビームフォーマは耳の耳殻の別の部分をポイントし得る。

本発明は、空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体であって、命令が、プロセッサによって実行されたとき、プロセッサに、センサーアレイの音響センサーによって、音響センサーによって受信される１つまたは複数の音からオーディオデータを生成することと、ビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを含むステップを実施させる、コンピュータ可読非一時的記憶媒体をさらに開示する。

本発明によるコンピュータ可読非一時的記憶媒体の一実施形態では、命令は、プロセッサに、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してユーザのためにオーディオコンテンツを調整することとを含むステップをさらに実施させる。

１つまたは複数の実施形態による、ヘッドセットの斜視図である。１つまたは複数の実施形態による、ヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。１つまたは複数の実施形態による、耳の部分上の反射ポイントを示すユーザの耳の断面図である。１つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。１つまたは複数の実施形態による、ユーザの耳のために個別化された、空間化されたオーディオコンテンツを作り出すためのプロセスのフローチャートである。１つまたは複数の実施形態による、例示的な人工現実システムのブロック図である。

図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

オーディオシステムが、ユーザのために個別化された、空間化されたオーディオコンテンツをユーザに提示する。各耳のために、オーディオシステムは、ユーザの耳から遠くに位置する音響センサーを用いてオーディオデータをキャプチャすることと、耳の耳殻の複数のロケーションをポイントするビームフォーマを使用してオーディオデータを処理することとを介して決定される、アトイヤ等化フィルタ（ａｔ－ｅａｒ－ｅｑｕａｌｉｚａｔｉｏｎｆｉｌｔｅｒ）を用いてオーディオコンテンツを修正する。空間化されたオーディオコンテンツは、左耳と右耳とについて異なることによって空間キューを提供するオーディオデータを含む。空間化されたオーディオコンテンツが方向性および他の空間キューを含むので、ユーザは、空間化されたオーディオコンテンツが、そのオーディオコンテンツを作り出す音源の近くに物理的に位置するかのように知覚する。

ユーザの耳によって変化させられたバイノーラルオーディオをキャプチャするために、オーディオシステムは、ユーザの各耳に置かれたバイノーラル音響センサーを使用することができる。ユーザの各耳における音と音源における音との間の差が、ユーザの特定の耳からの反射の後に音源の方向から発生するように思われるオーディオコンテンツを生成するためのフィルタを決定するために使用され得る。しかしながら、バイノーラルマイクロフォンは、マイクロフォンがユーザの耳道への入口を部分的にまたは完全に閉塞するので、ユーザがユーザの周囲に完全に気づくことを妨げ得る。

実施形態は、バイノーラルマイクロフォンを使用せずにアトイヤ等化フィルタを決定することによって、空間化されたオーディオコンテンツを生成するオーディオシステムを含む。オーディオシステムは、ユーザの耳の耳殻の特定の部分をポイントするビームフォーマを使用する。オーディオシステムは、耳殻の部分から反射されるときに、音源からの音がどのように変化させられるかを監視し、音変化を特徴づける伝達関数を決定する。耳殻の部分からの反射に対応する伝達関数を決定することによって、システムは、音源によって作り出された音への耳殻の効果をより正確に決定する。システムは、図１Ａのスピーカー１６０などの音源からの音がユーザの耳道への入口においてどのように知覚されるかを定義するアトジイヤ等化フィルタに伝達関数を相関させる。事実上、アトジイヤ等化フィルタは、耳殻が音の反射を引き起こさなかった場合にユーザの耳道への入口によって知覚されるようになるように、音を表現する。システムは、アトジイヤ等化フィルタを使用してオーディオコンテンツを調整し得、したがって、調整されたオーディオコンテンツは、ユーザの特定の耳による反射の後に音源の方向から到来するように思われる。したがって、オーディオシステムは、オーディオコンテンツ中の空間キューに対するひずみを最小限に抑え、ユーザのために個別化された、空間化されたオーディオコンテンツを提供する。

いくつかの実施形態では、システムは、アトジイヤ等化フィルタデータベースを参照することによって、耳からの反射の伝達関数に最も良く対応するアトジイヤ等化フィルタを決定する。データベースは、音響伝達関数とアトイヤ等化フィルタとの間の関連付けを含み得る。

システムは、センサーアレイの音響センサーを使用して音をキャプチャし、ユーザの耳殻からの反射によって引き起こされる耳道における音の変化に対応する伝達関数を決定する。システムは、伝達関数をデータベースに記憶されたものに相関させて、伝達関数に対応するかまたは最も良く対応するアトジイヤ等化フィルタを決定する。異なるユーザの耳の音響特性は異なり、それにより、異なる伝達関数および異なるアトジイヤ等化フィルタを生じ得る。したがって、アトジイヤ等化フィルタを使用してオーディオコンテンツを変化させることは、オーディオコンテンツのための個々の空間キューおよび個々の等化を維持する。

いくつかの実施形態では、データベース中のアトジイヤ等化フィルタの各々は、内耳音響センサー、たとえば、音響センサーを、ユーザの耳の耳道への入口に置き、音源からの音をキャプチャし、キャプチャされた音と音源における音との間の変化を決定することによって、生成され得る。内耳音響センサーは、耳道への入口における音の知覚を示すオーディオデータを生成する。アトジイヤ等化フィルタの各々は、ユーザの耳の耳殻がどのように音を変化させるかを決定する伝達関数のセットに相関され得る。異なる到来方向は、各耳のための異なるアトジイヤ等化フィルタと伝達関数とに対応し得る。データベースは、複数の個人に対応するアトジイヤ等化フィルタおよび伝達関数をも記憶し得る。いくつかの実施形態では、データベースは、単一の個人のための複数のアトジイヤ等化フィルタおよび伝達関数を含み得る。

本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において別様に使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

システムの全体像
図１Ａは、１つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット１００の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ（ＮＥＤ）である。概して、ヘッドセット１００は、コンテンツ（たとえば、メディアコンテンツ）が、ディスプレイアセンブリおよび／またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット１００はまた、メディアコンテンツが別の様式でユーザに提示されるように使用され得る。ヘッドセット１００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット１００は、フレームを含み、構成要素の中でも、１つまたは複数のディスプレイ要素１２０を含むディスプレイアセンブリと、深度カメラアセンブリ（ＤＣＡ）と、オーディオシステムと、位置センサー１９０とを含み得る。図１Ａは、ヘッドセット１００上の例示的なロケーションにおけるヘッドセット１００の構成要素を示すが、構成要素は、ヘッドセット１００上の他の場所に、ヘッドセット１００とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せに、位置し得る。同様に、図１Ａに示されているものよりも多いまたは少ない構成要素がヘッドセット１００上にあり得る。

フレーム１１０は、ヘッドセット１００の他の構成要素を保持する。フレーム１１０は、１つまたは複数のディスプレイ要素１２０を保持する前面部と、ユーザの頭部に付けるためのエンドピース（たとえば、テンプル）とを含む。フレーム１１０の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能（たとえば、調整可能なテンプルの長さ）であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分（たとえば、テンプルの先端、イヤピース）を含み得る。

１つまたは複数のディスプレイ要素１２０は、ヘッドセット１００を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素１２０を含む。いくつかの実施形態では、ディスプレイ要素１２０は、ヘッドセット１００のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット１００を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素１２０は導波路ディスプレイであり得る。導波路ディスプレイは、光源（たとえば、２次元光源、１つまたは複数の線光源、１つまたは複数の点光源など）と、１つまたは複数の導波路とを含む。光源からの光は、１つまたは複数の導波路中に内部結合され（ｉｎ－ｃｏｕｐｌｅｄ）、１つまたは複数の導波路は、ヘッドセット１００のアイボックス中に瞳複製（ｐｕｐｉｌｒｅｐｌｉｃａｔｉｏｎ）があるような様式で光を出力する。１つまたは複数の導波路からの光の内部結合（ｉｎ－ｃｏｕｐｌｉｎｇ）および／または外部結合（ｏｕｔｃｏｕｐｌｉｎｇ）が、１つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が１つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素（たとえば、導波路、ミラーなど）を含む。いくつかの実施形態では、ディスプレイ要素１２０の一方または両方が不透明であり、ヘッドセット１００の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット１００の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット１００を装着しているユーザが中にいる部屋であり得、または、ヘッドセット１００を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット１００はＶＲコンテンツを生成する。代替的に、いくつかの実施形態では、ＡＲおよび／またはＭＲコンテンツを作り出すために、ローカルエリアからの光が１つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素１２０の一方または両方は少なくとも部分的に透明である。

いくつかの実施形態では、ディスプレイ要素１２０は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素１２０の一方または両方は、補正なしのレンズ（非処方）であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ（たとえば、単焦点、二焦点、および三焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））であり得る。いくつかの実施形態では、ディスプレイ要素１２０は、太陽からユーザの眼を保護するために、偏光および／または色付けされ得る。

いくつかの実施形態では、ディスプレイ要素１２０は追加の光学ブロック（図示せず）を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素１２０からの光をアイボックスに向ける１つまたは複数の光学要素（たとえば、レンズ、フレネルレンズなど）を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。

ＤＣＡは、ヘッドセット１００の周囲のローカルエリアの一部分についての深度情報を決定する。ＤＣＡは、１つまたは複数のイメージングデバイス１３０と、ＤＣＡコントローラ（図１Ａに図示せず）とを含み、照明器１４０をも含み得る。いくつかの実施形態では、照明器１４０は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線（ＩＲ）における構造化光（たとえば、ドットパターン、バーなど）、飛行時間についてのＩＲフラッシュなどであり得る。いくつかの実施形態では、１つまたは複数のイメージングデバイス１３０は、照明器１４０からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、図１Ａは、単一の照明器１４０と２つのイメージングデバイス１３０とを示す。代替実施形態では、照明器１４０がなく、少なくとも２つのイメージングデバイス１３０がある。

ＤＣＡコントローラは、キャプチャされた画像と１つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間（ＴｏＦ）深度検知、間接ＴｏＦ深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析（照明器１４０からの光によってシーンに追加されたテクスチャを使用する）、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。

オーディオシステムは、空間化されたオーディオコンテンツをユーザに提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ１５０とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび／または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。

トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー１６０または組織トランスデューサ１７０（たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ）であり得る。スピーカー１６０は、フレーム１１０に囲まれ得る。いくつかの実施形態では、ヘッドセット１００は、提示されたオーディオコンテンツの方向性を改善するためにフレーム１１０に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。いくつかの実施形態では、スピーカー１６０は、各々、ユーザの耳道内に置かれ得る。スピーカー１６０は、ヘッドセット１００の他のロケーションに配置され得る。組織トランスデューサ１７０は、ユーザの頭部に結合し、ユーザの組織（たとえば、骨または軟骨）を直接振動させて、音を生成する。トランスデューサの数および／またはロケーションは、図１Ａに示されているものとは異なり得る。

センサーアレイは、ヘッドセット１００のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー１８０を含む。音響センサー１８０は、ローカルエリア（たとえば、部屋）における１つまたは複数の音源から発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換するように構成される。音響センサー１８０は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。

いくつかの実施形態では、１つまたは複数の音響センサー１８０は、各耳の耳道中に置かれ得る（たとえば、バイノーラルマイクロフォンとして働く）。いくつかの実施形態では、音響センサー１８０は、ヘッドセット１００の外面上に置かれるか、ヘッドセット１００の内面上に置かれるか、ヘッドセット１００とは別個（たとえば、何らかの他のデバイスの一部）であるか、またはそれらの何らかの組合せであり得る。音響センサー１８０の数および／またはロケーションは、図１Ａに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および／または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット１００を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。

オーディオコントローラ１５０は、オーディオコンテンツを調整し、トランスデューサアレイに、空間化されたオーディオコンテンツをユーザに提示するように命令する。オーディオコントローラ１５０は、オーディオ信号に対するユーザの耳の耳殻の応答をキャプチャするアトジイヤ等化フィルタに従って、オーディオコンテンツを調整する。オーディオコントローラ１５０は、ビームフォーマを使用して、耳殻の特定のロケーションからの音の反射を検出し、反射による音の変化を伝達関数として特徴づける。伝達関数は、オーディオコントローラ１５０が、ユーザのために個別化された、空間化されたオーディオコンテンツをレンダリングする際に使用する、アトジイヤ等化フィルタにマッピングする。

オーディオコントローラ１５０は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ１５０は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ１５０は、到来方向（ＤＯＡ）推定値を生成するか、音響伝達関数（たとえば、アレイ伝達関数および／または頭部伝達関数）を生成するか、音源のロケーションを追跡するか、音源の方向にビームを形成するか、音源を分類するか、スピーカー１６０のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。

位置センサー１９０は、ヘッドセット１００の運動に応答して１つまたは複数の測定信号を生成する。位置センサー１９０は、ヘッドセット１００のフレーム１１０の一部分に位置し得る。位置センサー１９０は、慣性測定ユニット（ＩＭＵ）を含み得る。位置センサー１９０の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー１９０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで位置し得る。

いくつかの実施形態では、ヘッドセット１００は、ヘッドセット１００の位置のための同時位置特定およびマッピング（ＳＬＡＭ）と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット１００は、カラー画像データを生成するパッシブカメラアセンブリ（ＰＣＡ）を含み得る。ＰＣＡは、ローカルエリアの一部または全部の画像をキャプチャする１つまたは複数のＲＧＢカメラを含み得る。いくつかの実施形態では、ＤＣＡのイメージングデバイス１３０の一部または全部が、ＰＣＡとしても機能し得る。ＰＣＡによってキャプチャされた画像と、ＤＣＡによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー１９０は、部屋内のヘッドセット１００の位置（たとえば、ロケーションおよび姿勢）を追跡する。ヘッドセット１００の構成要素に関する追加の詳細は、図２～図５に関して以下で説明される。

図１Ｂは、１つまたは複数の実施形態による、ＨＭＤとして実装されるヘッドセット１０５の斜視図である。ＡＲシステムおよび／またはＭＲシステムについて説明する実施形態では、ＨＭＤの前側の部分は、可視帯域（約３８０ｎｍ～７５０ｎｍ）内で少なくとも部分的に透明であり、ＨＭＤの前側とユーザの眼との間にあるＨＭＤの部分は、少なくとも部分的に透明である（たとえば、部分的に透明な電子ディスプレイ）。ＨＭＤは、前面剛体１１５とバンド１７５とを含む。ヘッドセット１０５は、図１Ａを参照しながら上記で説明された同じ構成要素の多くを含むが、ＨＭＤフォームファクタと一体化するように修正される。たとえば、ＨＭＤは、ディスプレイアセンブリと、ＤＣＡと、オーディオシステムと、位置センサー１９０とを含む。図１Ｂは、照明器１４０と、複数のスピーカー１６０と、複数のイメージングデバイス１３０と、複数の音響センサー１８０と、位置センサー１９０とを示す。

図２は、１つまたは複数の実施形態による、耳の部分上の反射ポイントを示すユーザの耳の断面図２００である。耳は、耳殻２１０と、耳道２２０と、鼓膜２３０とを備える。いくつかの反射ポイント２４０Ａ～Ｆが、耳殻の様々な部分上に配置される。

ヘッドセット１００および／またはヘッドセット１０５など、ヘッドセットは、ユーザの耳の耳殻２１０の一部をポイントするように各々構成された、ビームフォーマを作り出す。ビームフォーマは、ロケーションに固有のオーディオ信号を分離するように構成されたオーディオシステムの一部である。いくつかの実施形態では、ビームフォーマは、音源に固有のオーディオ信号を分離し得る。ビームフォーマの各々は、反射ポイント２４０Ａ～Ｆの各々に対応する耳殻２１０の一部分をポイントし得る。ヘッドセットのコントローラが、ビームフォーマを生成し得る。

ヘッドセットまたは何らかの他の音源のトランスデューサアレイが、反射ポイント２４０Ａ～Ｆから、ユーザの耳殻から反射する音を作り出す。反射された音は、各ビームフォーミングされた信号のロケーションに関連付けられた伝達関数によって特徴づけられ得る。コントローラは、ユーザの耳殻からの反射に関連付けられた複数の伝達関数から、ヘッドセットの位置に対して、音がユーザの耳の中心においてどのように知覚され得るかを決定し得る。ユーザの耳の中心は、耳道２２０への入口であり得る。コントローラは、「アトジイヤ」等化フィルタに相関された伝達関数のデータベースを照会して、ユーザに最も良く一致し得るアトジイヤ等化フィルタを見つけ得る。アトジイヤ等化フィルタは、音が耳道２２０への入口においてどのように知覚されるかを特徴づける。アトジイヤ等化フィルタの決定は、図３～図４に関してさらに説明される。コントローラは、それに応じて、オーディオコンテンツをユーザに対して調整および提示し得る。各耳について、音についての異なる到来方向が、反射ポイント２４０の各々のための異なる伝達関数と異なるアトジイヤ等化フィルタとを含み得る。いくつかの実施形態では、ユーザの耳殻からの反射が、反射ポイント２４０の各々のための異なる伝達関数と、異なるアトジイヤ等化フィルタとを生じ得る。

図３は、１つまたは複数の実施形態による、例示的なオーディオシステム３００のブロック図である。図１Ａまたは図１Ｂ中のオーディオシステムは、オーディオシステム３００の一実施形態であり得る。オーディオシステム３００は、ユーザの耳から遠くに位置するセンサーアレイ３２０の音響センサーを用いてオーディオデータをキャプチャすることを介して決定されたアトイヤ等化フィルタを用いてオーディオコンテンツを修正することによって、ユーザのための個別化および空間化されたオーディオコンテンツを提供する。センサーアレイ３２０のセンサーは、ユーザの耳殻のいくつかの部分（たとえば、図２に示されている反射ポイント）から反射する音を、耳殻の部分の各々をポイントするビームフォーマを使用してキャプチャする。オーディオシステム３００は、反射ポイントの各々に対応する音響伝達関数を生成し、その音響伝達関数から、音源からユーザの耳の中心までの音の変化を定義するアトジイヤ等化フィルタを決定する。アトジイヤ等化フィルタに基づいて、オーディオシステム３００は、ユーザの耳のためにオーディオコンテンツを調整する。オーディオシステム３００は、ユーザの耳の特定の形状および他の音響特性のために個別化された、空間化されたオーディオコンテンツを生成するために、両方の耳について同様のプロセスを実施し得る。図３の実施形態では、オーディオシステム３００は、トランスデューサアレイ３１０と、センサーアレイ３２０と、オーディオコントローラ３３０とを含む。オーディオシステム３００のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。

トランスデューサアレイ３１０は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ３１０によって作り出された音の少なくとも一部分は、センサーアレイ３２０中の音響センサーによって受信され得る。トランスデューサアレイ３１０は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー（たとえば、スピーカー１６０）、組織トランスデューサ（たとえば、組織トランスデューサ１７０）、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ３１０は、空気伝導を介して（たとえば、１つまたは複数のスピーカーを介して）、骨伝導を介して（１つまたは複数の骨伝導トランスデューサを介して）、軟骨伝導オーディオシステムを介して（１つまたは複数の軟骨伝導トランスデューサを介して）、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ３１０は、周波数範囲の異なる部分をカバーするための１つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第１の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第２の部分をカバーするために可動コイルトランスデューサが使用され得る。

骨伝導トランスデューサは、ユーザの頭部における骨／組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介（ａｕｒｉｃｌｅ）の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ３３０から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。

軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨（ａｕｒｉｃｕｌａｒｃａｒｔｉｌａｇｅ）の１つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の１つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか（たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ）に位置し得る。耳介軟骨の１つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。

トランスデューサアレイ３１０は、オーディオコントローラ３３０からの命令に従って音を生成する。たとえば、オーディオコンテンツは、線形掃引、対数掃引、白色雑音、ピンク雑音、最大長信号、任意の信号、またはそれらの何らかの組合せであり得る。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化されたオーディオコンテンツは、特定の方向および／またはターゲット領域（たとえば、ローカルエリアにおけるオブジェクトおよび／または仮想オブジェクト）から発生するように思われるオーディオコンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム３００のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ３１０は、ウェアラブルデバイス（たとえば、ヘッドセット１００またはヘッドセット１０５）に結合され得る。代替実施形態では、トランスデューサアレイ３１０は、ウェアラブルデバイスとは別個である（たとえば、外部コンソールに結合された）複数のスピーカーであり得る。

センサーアレイ３２０は音を検出する。音は、ヘッドセットのユーザの周囲のローカルエリア内からのものであるか、ヘッドセットのトランスデューサアレイ３１０によって作り出されるか、またはそれらの何らかの組合せであり得る。センサーアレイ３２０は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット（アナログまたはデジタル）での音響コンテンツに変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット（たとえば、ヘッドセット１００および／またはヘッドセット１０５）上に、ユーザ上に（たとえば、ユーザの耳道中に）、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。いくつかの実施形態では、センサーアレイの音響センサーは、ユーザの耳道から遠い位置に位置する。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ３２０は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ３１０によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ３１０によって作り出された音場および／またはローカルエリアからの音を表す情報（たとえば、方向性）の精度を改善し得る。

オーディオコントローラ３３０は、オーディオシステム３００の動作を制御する。特に、オーディオコントローラ３３０は、音に対するユーザの耳殻の応答を特徴づける伝達関数を決定し、空間化されたオーディオコンテンツを作り出すのを助けることになるアトジイヤ等化機能を決定する。図３の実施形態では、オーディオコントローラ３３０は、データストア３３５と、ＤＯＡ推定モジュール３４０と、伝達関数モジュール３５０と、追跡モジュール３６０と、ビームフォーミングモジュール３７０と、等化フィルタモジュール３８０とを含む。オーディオコントローラ３３０は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ３３０のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。

データストア３３５は、オーディオシステム３００による使用のためのデータを記憶する。データストア３３５中のデータは、オーディオシステム３００のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数（ＨＲＴＦ）、１つまたは複数のセンサーのための伝達関数、音響センサーのうちの１つまたは複数のためのアレイ伝達関数（ＡＴＦ）、音源ロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、およびオーディオシステム３００による使用のために関連する他のデータ、またはそれらの任意の組合せを含み得る。データストア３３５は、アトジイヤ等化フィルタが決定されると、関連付けられた伝達関数のセットとともに、アトジイヤ等化フィルタのデータベースに、アトジイヤ等化フィルタをも記憶し得る。記憶されたアトジイヤ等化フィルタの各々は、ユーザの耳殻の形状、ユーザのロケーション、音源、またはそれらの組合せに関連付けられ得る。データストア３３５は、音に対するユーザの耳殻の応答を特徴づける伝達関数をも記憶し得る。いくつかの実施形態では、各ＤＯＡ推定のために、および各耳のために、データストア３３５は、ユーザの耳殻上のロケーションに各々対応する複数の伝達関数と、アトイヤ等化フィルタとを記憶する。

ＤＯＡ推定モジュール３４０は、センサーアレイ３２０からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム３００のユーザに対して音源がどこに位置するかを決定するプロセスである。ＤＯＡ推定モジュール３４０は、ローカルエリア内の１つまたは複数の音源の位置を特定するためにＤＯＡ分析を実施する。ＤＯＡ分析は、音が発生した方向を決定するために、センサーアレイ３２０において、各音の強度、スペクトル、および／または到来時間を分析することを含み得る。いくつかの場合には、ＤＯＡ分析は、オーディオシステム３００が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。

たとえば、ＤＯＡ分析は、センサーアレイ３２０から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、ＤＯＡを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小２乗平均（ＬＭＳ：ｌｅａｓｔｍｅａｎｓｑｕａｒｅｄ）アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、ＤＯＡを推定するために使用され得る。別の実施形態では、ＤＯＡは、入力信号を周波数ドメインに変換し、処理すべき時間周波数（ＴＦ）ドメイン内の特定のビンを選択することによって決定され得る。各選択されたＴＦビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ３２０が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのＤＯＡを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、ＤＯＡを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。

いくつかの実施形態では、ＤＯＡ推定モジュール３４０は、ローカルエリア内のオーディオシステム３００の絶対位置に関するＤＯＡをも決定し得る。センサーアレイ３２０の位置は、外部システム（たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー（たとえば、位置センサー１９０）などの何らかの他の構成要素）から受信され得る。外部システムは、ローカルエリアとオーディオシステム３００の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム３００の一部または全部（たとえば、センサーアレイ３２０）のロケーションおよび／または配向を含み得る。ＤＯＡ推定モジュール３４０は、受信された位置情報に基づいて、推定されたＤＯＡを更新し得る。

伝達関数モジュール３５０は、１つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール３５０は、オーディオシステムに関連付けられた１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ＡＴＦは、マイクロフォンが、ユーザの耳の耳殻から反射される音をどのように受信するか、すなわち、ユーザの耳殻の部分からの反射によって引き起こされる音の変化を特徴づける。

ＡＴＦは、音源とセンサーアレイ３２０中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ３２０中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはＡＴＦと呼ばれる。したがって、各音源について、対応するＡＴＦがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ３１０の１つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ３２０に対する特定の音源ロケーションについてのＡＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、ユーザによって異なり得る。したがって、センサーアレイ３２０のＡＴＦは、オーディオシステム３００の各ユーザのために個人化される。センサーアレイ３２０のＡＴＦは、ユーザの耳道への入口においてなど、ユーザの耳の中心において音圧の測度を決定する際に使用され得る。

伝達関数モジュール３５０は、耳からの反射がある場合とない場合との、センサーアレイ３２０中の音響センサーによって生成されたオーディオデータを比較することによって音の変化を特徴づける、ＡＴＦを決定し得る。伝達関数モジュール３５０は、ユーザがヘッドセットを装着している間、トランスデューサアレイ３１０に音を提示するように命令する。ビームフォーミングモジュールに関してさらに詳細に説明される、ビームフォーマは、ユーザの耳殻の部分から反射される音を拡張する。センサーアレイ３２０の音響センサーは、ビームフォーミングされた信号を介して、ビームフォーマによって検出された音に対応するオーディオデータを生成する。伝達関数モジュール３５０はまた、ユーザがヘッドセットを装着していない間、トランスデューサアレイ３１０に音を提示するように命令する。ビームフォーマは同じロケーションをポイントするが、ユーザがヘッドセットを装着していないので、音はユーザの耳殻から反射しない。センサーアレイは、ユーザの耳からの反射なしに音をキャプチャするオーディオデータを生成する。伝達関数モジュール３５０は、反射なしに検出されたオーディオデータに対応する、ビームフォーミングされた信号を使用して、較正信号を生成する。伝達関数モジュール３５０は、ビームフォーミングされた信号と較正信号とを比較することによって、ＡＴＦを決定する。いくつかの実施形態では、較正、すなわち、ユーザの耳からの反射なしに音をキャプチャすることが、無響室中で行われ得る。いくつかの実施形態では、ユーザの耳殻から反射する音をキャプチャする音響データが、頭部および／または胴シミュレータを使用して決定され得る。

追跡モジュール３６０は、１つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール３６０は、現在のＤＯＡ推定値を比較し、それらを、前のＤＯＡ推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム３００は、１秒当たり１回、または１ミリ秒当たり１回など、周期的スケジュールでＤＯＡ推定値を再計算し得る。追跡モジュールは、現在のＤＯＡ推定値を前のＤＯＡ推定値と比較し得、音源についてのＤＯＡ推定値の変更（ｃｈａｎｇｅ）に応答して、追跡モジュール３６０は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール３６０は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変更を検出し得る。追跡モジュール３６０は、経時的に１つまたは複数の音源の移動を追跡し得る。追跡モジュール３６０は、各時点において音源の数と各音源のロケーションとについての値を記憶し得る。音源の数またはロケーションの値の変更に応答して、追跡モジュール３６０は、音源が移動したと決定し得る。追跡モジュール３６０は、位置特定分散（ｌｏｃａｌｉｚａｔｉｏｎｖａｒｉａｎｃｅ）の推定値を計算し得る。位置特定分散は、移動の変更の各決定についての信頼性レベルとして使用され得る。

ビームフォーミングモジュール３７０は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、１つまたは複数のＡＴＦを処理するように構成される。センサーアレイ３２０によって検出された音を分析する際に、ビームフォーミングモジュール３７０は、ローカルエリアの特定の領域からの関連付けられた音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール３７０は、たとえば、ＤＯＡ推定モジュール３４０および追跡モジュール３６０からの異なるＤＯＡ推定値に基づいて、ローカルエリアにおける他の音源から、特定の音源からの音に関連付けられたオーディオ信号を分離し得る。したがって、ビームフォーミングモジュール３７０は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール３７０は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール３７０は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を除去する、音フィルタを適用し得る。信号拡張は、センサーアレイ３２０によって検出された他の音に対して所与の識別された音源に関連付けられた音を拡張するように働く。

ビームフォーミングモジュール３７０は、ユーザの耳殻（たとえば、反射ポイント２４０）の一部を各々ポイントするビームフォーマを生成し得る。いくつかの実施形態では、ビームフォーマは、耳殻の周りまたはユーザの耳の全体の周りを掃引するように構成され得る。ビームフォーミングされた信号は、センサーアレイ３２０の音響センサーによって検出される、耳殻の部分から反射される音を拡張し得る。ビームフォーミングモジュール３７０は、最大指向性、最小分散無ひずみ応答、線形制約最小分散、またはそれらの何らかの組合せに基づいて、ビームフォーマを生成し得る。

等化フィルタモジュール３８０は、アトジイヤ等化フィルタを決定し、それに応じてオーディオコンテンツを調整する。調整されたオーディオコンテンツは、個人ユーザのためにカスタマイズされた、空間化されたオーディオコンテンツであり得る。一実施形態では、ユーザに固有のアトジイヤ等化フィルタは、ユーザの耳の耳道への入口、すなわち、耳の中心に、インイヤ音響センサー（ｉｎ－ｅａｒａｃｏｕｓｔｉｃｓｅｎｓｏｒ）を置くことによって決定され得る。インイヤ音響センサーは、センサーアレイ３２０の一部であり得る。インイヤ音響センサーによって生成されたオーディオデータは、ソースにおける音に対する耳の中心における応答を特徴づける変化を決定するために使用され得る。アトジイヤ等化フィルタは、アトジイヤ等化フィルタのデータベース中のデータストア３３５に記憶され得る。アトジイヤ等化フィルタの各々は、音がユーザの耳殻によってどのように変化させられるかを特徴づける伝達関数のセットに対応する。アトジイヤ等化フィルタおよび伝達関数のデータベースは、複数のユーザから決定される。いくつかの実施形態では、単一のユーザが、データベースに記憶されたいくつかのアトジイヤ等化フィルタおよび関連付けられた伝達関数を有し得る。

いくつかの実施形態では、ユーザの耳のためのアトジイヤ等化フィルタが、データストア３３５に記憶されたアトジイヤ等化フィルタのデータベースを参照することによって決定され得る。伝達関数モジュール３５０は耳殻の各反射ポイントにおける音の変化を特徴づけるＡＴＦを決定し得、等化フィルタモジュール３８０はその後、ＡＴＦをデータベースに記憶された基準アトジイヤ等化フィルタに相関させる。アトジイヤ等化フィルタに関連付けられた伝達関数は、ＡＴＦに正確におよび／または厳密に一致し得る。アトジイヤ等化フィルタは、ユーザの耳によって受信された音のタイプ、ユーザの耳殻の形状、ユーザのロケーション、またはそれらの何らかの組合せに基づいて、変動し得る。アトジイヤ等化フィルタのデータベースを参照することは、インイヤ音響センサーの必要をなくす。むしろ、ユーザの耳の中心における応答は、ユーザの耳の中心の周囲のユーザの耳殻からの反射からの音の変化を検出することによって、遠くで検出され得る。厳密に一致するアトジイヤ等化フィルタを見つけることは、入力としてＡＴＦを取り、適切なアトジイヤ等化フィルタを出力する、トレーニングされたニューラルネットワークの使用によって自動化され得る。

いくつかの実施形態では、アトジイヤ等化フィルタは、オーディオコンテンツがターゲット領域または到来方向から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。等価フィルタモジュール３８０は、音フィルタを生成するためにＨＲＴＦおよび／または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響特性を表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、等化フィルタモジュール３８０は、音響パラメータのうちの１つまたは複数を計算する。いくつかの実施形態では、等化フィルタモジュール３８０は、（たとえば、図５に関して以下で説明されるように）マッピングサーバに音響パラメータを要求する。

等化フィルタモジュール３８０は、アトジイヤ等化フィルタを使用して生成された、空間化されたオーディオコンテンツをトランスデューサアレイ３１０に提供し得、トランスデューサアレイ３１０は、それに応じて、空間化されたオーディオコンテンツをユーザに提示する。空間化されたオーディオコンテンツは、左耳と右耳とについて異なるオーディオコンテンツを含み、それにより空間キューを提供し得る。

図４は、１つまたは複数の実施形態による、ユーザの耳のために個別化された、空間化されたオーディオコンテンツを作り出すためのプロセス４００のフローチャートである。プロセスは、ヘッドセット（たとえば、ヘッドセット１００および／またはヘッドセット１０５）に結合されたオーディオシステム、たとえば、オーディオシステム３００によって実行され得る。他の実施形態では、他のエンティティ（たとえば、コンソール）がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオシステムは、センサーアレイの音響センサーを使用してオーディオデータを生成する４１０。たとえば、音響センサーは、１つまたは複数の音を電気信号に変換することによって、オーディオデータを生成する。１つまたは複数の音は、音源によって生成され、特定の到来方向から音響センサーに到来し得る。１つまたは複数の音は、オーディオシステム（たとえば、トランスデューサアレイ３１０の１つまたは複数のトランスデューサ）によって生成され得るか、またはオーディオシステムとは別個の１つまたは複数の音源によって生成され得る。

オーディオシステムは、センサーアレイの音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成する４２０。ビームフォーマの各々はユーザの耳の耳殻の別の部分を、ビームフォーミングされた信号が耳殻の部分からの音の反射に対応するように、ポイントする。ビームフォーミングされた信号は、１つまたは複数の音から生成され得る。たとえば、オーディオシステムは音を生成し得、それに応答して、オーディオシステムはビームフォーマの各々を適用し得る。他の実施形態では、オーディオシステムは複数の音を生成し得、ビームフォーマが、耳殻の異なる部分を系統的にカバーするために各音に適用される。ビームフォーマは、ビームフォーマがユーザの耳にわたって掃引するように、連続的におよび系統的に耳殻の異なる部分をカバーし得る。たとえば、オーディオシステムは第１の音を生成し得、それに応答して、センサーアレイの音響センサーは対応する第１のオーディオデータを生成し得る。第１のビームフォーマは、オーディオシステムが、第１のオーディオデータを処理して第１のビームフォーミングされた信号を生成する際に使用し得る、耳の第１の部分をポイントし得る。このプロセスは、耳殻の大部分からのビームフォーミングされた信号がカバーされるまで、複数の音とビームフォーマとについて繰り返され得る。ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。

いくつかの実施形態では、オーディオシステムによって作り出された音は、組織伝導を介してユーザに提示され得る。そのような場合、ビームフォーミングされた信号は、耳殻の異なる部分の振動による音の変化に対応する。

オーディオシステムは、ビームフォーミングされた信号を使用して伝達関数を決定する４３０。伝達関数は、ユーザの耳の耳殻の異なる部分からの反射によって引き起こされる音の変化を定義する。耳殻の各部分およびビームフォーミングされた信号は、異なる伝達関数に対応し得る。いくつかの実施形態では、伝達関数は、ビームフォーミングされた信号と、耳の耳殻の部分からの反射なしに音源からの音を定義する較正信号との比較によって決定され得る。オーディオシステムは、ヘッドセットを装着しているユーザなしに同じビームフォーマが使用される、較正信号を生成し得る。オーディオシステムは、音響センサーによって生成されたオーディオデータをこのようにして処理して、較正信号を決定し得る。伝達関数は、以下でより詳細に説明されるように、耳のための空間化されたオーディオコンテンツを生成するために使用される。いくつかの実施形態では、オーディオシステムは、耳の耳殻の部分から反射する音を作り出し得る。耳殻からの音の反射は、オーディオデータを生成するために、音響センサーによって処理される。耳殻の各部分からの反射のための伝達関数は、オーディオシステムによって作り出された音を用いて、耳の部分のための反射に対応するオーディオデータをデコンボルブすることによって決定され得る。

オーディオシステムは、伝達関数に基づいて、耳のためのアトジイヤ等化フィルタを決定する４４０。アトジイヤ等化フィルタは、ユーザのために個別化された、ユーザの耳の中心（たとえば、耳道）における音の変化を定義する。いくつかの実施形態では、オーディオシステムは、基準アトジイヤ等化フィルタのデータベースをルックアップするために伝達関数を使用し、決定された伝達関数のために一致するまたは最も良く一致するアトジイヤ等化フィルタを決定し得る。データベース内に記憶される基準アトジイヤ等化フィルタの各々は、伝達関数の異なるセットに関連付けられ得る。

オーディオシステムは、ユーザの耳内に配置されたセンサーアレイの少なくとも１つの音響センサーを使用することによって、データベースに記憶された伝達関数のセットを決定し得る。音響センサーは、ユーザの耳の耳道の入口に置かれ得る。音源は、１つまたは複数の音を生成する。ユーザの耳の耳殻は、音を反射する。ユーザの耳道の入口にある音響センサーは、音がユーザの耳の中心においてどのように知覚されるかをキャプチャするオーディオデータを作り出し、耳から離れたセンサーアレイの音響センサーは、耳殻からの音の反射をキャプチャする。オーディオシステムは、耳殻からの反射による音の変化を特徴づける伝達関数のセットを決定する。オーディオシステムは、伝達関数のセットのためのアトイヤ等化フィルタを決定するために、伝達関数を耳の中心における応答に相関させる。オーディオシステムは、将来の参照のために、アトイヤ等化フィルタと、関連付けられた伝達関数とをデータベースに記憶する。

オーディオシステムは、アトジイヤ等化フィルタを使用して耳のための空間化されたオーディオコンテンツを生成する４５０。さらに、オーディオシステムは、空間化されたオーディオコンテンツを、耳に位置するトランスデューサになど、耳に提示し得る。プロセス４００は、ユーザの他方の耳についてなど、繰り返され得る。一例では、プロセス４００は、両方の耳のための空間化されたオーディオコンテンツを生成するために、左耳と右耳とについて並行して実施される。異なる耳は、異なるビームフォーミングされた信号および伝達関数を含み、したがって各耳について異なるアトイヤ等化フィルタを生じ得る。

図５は、１つまたは複数の実施形態による、例示的な人工現実システム５００のブロック図である。システム５００は、１つまたは複数の実施形態による、ヘッドセット５０５を含む。いくつかの実施形態では、ヘッドセット５０５は、図１Ａのヘッドセット１００または図１Ｂのヘッドセット１０５であり得る。システム５００は、人工現実環境（たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ）において動作し得る。図５によって示されているシステム５００は、ヘッドセット５０５と、コンソール５１５に結合された入出力（Ｉ／Ｏ）インターフェース５１０と、ネットワーク５２０と、マッピングサーバ５２５とを含む。図５は、１つのヘッドセット５０５と１つのＩ／Ｏインターフェース５１０とを含む例示的なシステム５００を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム５００中に含まれ得る。たとえば、各々が、関連付けられたＩ／Ｏインターフェース５１０を有する、複数のヘッドセットがあり得、各ヘッドセットおよびＩ／Ｏインターフェース５１０はコンソール５１５と通信する。代替構成では、異なるおよび／または追加の構成要素が、システム５００中に含まれ得る。さらに、図５に示されている構成要素のうちの１つまたは複数に関して説明される機能性は、いくつかの実施形態では、図５に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール５１５の機能性の一部または全部がヘッドセット５０５によって提供され得る。

ヘッドセット５０５は、ディスプレイアセンブリ５３０と、光学ブロック５３５と、１つまたは複数の位置センサー５４０と、ＤＣＡ５４５とを含む。ヘッドセット５０５のいくつかの実施形態は、図５に関して説明されるものとは異なる構成要素を有する。さらに、図５に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット５０５の構成要素の間で別様に分散されるか、またはヘッドセット５０５から遠い、別個のアセンブリにおいて取り込まれ得る。

ディスプレイアセンブリ５３０は、コンソール５１５から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ５３０は、１つまたは複数のディスプレイ要素（たとえば、ディスプレイ要素１２０）を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ５３０は、単一のディスプレイ要素または複数のディスプレイ要素（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイの例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素１２０は光学ブロック５３５の機能性の一部または全部をも含み得ることに留意されたい。

光学ブロック５３５は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連付けられた光学誤差を補正し、補正された画像光をヘッドセット５０５の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック５３５は、１つまたは複数の光学要素を含む。光学ブロック５３５中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック５３５は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック５３５中の光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック５３５による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。

いくつかの実施形態では、光学ブロック５３５は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック５３５が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック５３５はそのひずみを補正する。

位置センサー５４０は、ヘッドセット５０５の位置を示すデータを生成する電子デバイスである。位置センサー５４０は、ヘッドセット５０５の運動に応答して１つまたは複数の測定信号を生成する。位置センサー１９０は、位置センサー５４０の一実施形態である。位置センサー５４０の例は、１つまたは複数のＩＭＵ、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー５４０は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット５０５の推定位置を計算する。たとえば、ＩＭＵは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット５０５上の基準ポイントの推定位置を決定する。基準ポイントは、ヘッドセット５０５の位置を表すために使用され得るポイントである。基準ポイントは、概して空間中のポイントとして定義され得るが、実際には、基準ポイントは、ヘッドセット５０５内のポイントとして定義される。

ＤＣＡ５４５は、ローカルエリアの一部分についての深度情報を生成する。ＤＣＡは、１つまたは複数のイメージングデバイスとＤＣＡコントローラとを含む。ＤＣＡ５４５は照明器をも含み得る。ＤＣＡ５４５の動作および構造は、図１Ａに関して上記で説明された。

オーディオシステム５５０は、ヘッドセット５０５のユーザに空間化されたオーディオコンテンツを提供する。オーディオシステム５５０は、上記で説明されたオーディオシステム３００と実質的に同じである。オーディオシステム５５０は、１つまたは複数の音響センサーと、１つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。オーディオシステム５５０は、ユーザの耳から遠くに位置するセンサーアレイの音響センサーによってキャプチャされたオーディオデータを使用してユーザの耳の中心におけるオーディオコンテンツの応答を推論することによって、空間化されたオーディオコンテンツをユーザに提供し得る。オーディオシステム５５０は、ユーザの耳殻からの音の反射に基づいて伝達関数を決定し、伝達関数をアトジイヤ等化フィルタに相関させ、それに応じて、ユーザに提示される空間オーディオコンテンツを生成し得る。

いくつかの実施形態では、オーディオシステム５５０は、ネットワーク５２０を介してマッピングサーバ５２５に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの１つまたは複数の音響特性（たとえば、室内インパルス応答、残響時間、残響レベルなど）を表す。オーディオシステム５５０は、たとえば、ＤＣＡ５４５からのローカルエリアの少なくとも一部分を表す情報、および／または位置センサー５４０からのヘッドセット５０５についてのロケーション情報を提供し得る。オーディオシステム５５０は、マッピングサーバ５２５から受信された音響パラメータのうちの１つまたは複数を使用して、１つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。

Ｉ／Ｏインターフェース５１０は、ユーザがアクション要求を送り、コンソール５１５から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース５１０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール５１５に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース５１０によって受信されたアクション要求は、コンソール５１５に通信され、コンソール５１５は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース５１０は、Ｉ／Ｏインターフェース５１０の初期位置に対するＩ／Ｏインターフェース５１０の推定位置を示す較正データをキャプチャするＩＭＵを含む。いくつかの実施形態では、Ｉ／Ｏインターフェース５１０は、コンソール５１５から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、またはコンソール５１５がアクションを実施するときに、コンソール５１５が、Ｉ／Ｏインターフェース５１０に命令を通信して、Ｉ／Ｏインターフェース５１０が触覚フィードバックを生成することを引き起こす。

コンソール５１５は、ＤＣＡ５４５とヘッドセット５０５とＩ／Ｏインターフェース５１０とのうちの１つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット５０５に提供する。図５に示されている例では、コンソール５１５は、アプリケーションストア５５５と、追跡モジュール５６０と、エンジン５６５とを含む。コンソール５１５のいくつかの実施形態は、図５に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図５に関して説明されるものとは異なる様式でコンソール５１５の構成要素の間で分散され得る。いくつかの実施形態では、コンソール５１５に関して本明細書で説明される機能性は、ヘッドセット５０５、またはリモートシステムにおいて実装され得る。

アプリケーションストア５５５は、コンソール５１５が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。

追跡モジュール５６０は、ＤＣＡ５４５からの情報、１つまたは複数の位置センサー５４０からの情報、またはそれらの何らかの組合せを使用して、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の移動を追跡する。たとえば、追跡モジュール５６０は、ヘッドセット５０５からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット５０５の基準ポイントの位置を決定する。追跡モジュール５６０は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール５６０は、ヘッドセット５０５の将来のロケーションを予測するために、位置センサー５４０からのヘッドセット５０５の位置を示すデータの部分ならびにＤＣＡ５４５からのローカルエリアの表現を使用し得る。追跡モジュール５６０は、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の推定または予測された将来の位置をエンジン５６５に提供する。

エンジン５６５は、アプリケーションを実行し、追跡モジュール５６０から、ヘッドセット５０５の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン５６５は、ユーザへの提示のためにヘッドセット５０５に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン５６５は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット５０５のためのコンテンツを生成する。さらに、エンジン５６５は、Ｉ／Ｏインターフェース５１０から受信されたアクション要求に応答して、コンソール５１５上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット５０５を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース５１０を介した触覚フィードバックであり得る。

ネットワーク５２０は、ヘッドセット５０５および／またはコンソール５１５をマッピングサーバ５２５に結合する。ネットワーク５２０は、ワイヤレス通信システムおよび／またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク５２０は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク５２０は、標準通信技術および／またはプロトコルを使用する。したがって、ネットワーク５２０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩＥｘｐｒｅｓｓアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク５２０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク５２０を介して交換されるデータは、２進形式（たとえばポータブルネットワークグラフィックス（ＰＮＧ））の画像データ、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などを含む、技術および／またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）など、従来の暗号化技術を使用して暗号化され得る。

マッピングサーバ５２５は、複数の空間を表す仮想モデルを記憶するデータベースを含み得、仮想モデル中の１つのロケーションが、ヘッドセット５０５のローカルエリアの現在の構成に対応する。マッピングサーバ５２５は、ヘッドセット５０５からネットワーク５２０を介して、ローカルエリアおよび／またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。マッピングサーバ５２５は、受信された情報および／またはロケーション情報に基づいて、ヘッドセット５０５のローカルエリアに関連付けられた仮想モデル中のロケーションを決定する。マッピングサーバ５２５は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連付けられた任意の音響パラメータに部分的に基づいて、ローカルエリアに関連付けられた１つまたは複数の音響パラメータを決定する（たとえば、取り出す）。マッピングサーバ５２５は、ローカルエリアのロケーションおよびローカルエリアに関連付けられた音響パラメータの任意の値をヘッドセット５０５に送信し得る。

追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、製造プロセスに関して、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、（たとえば、製造プロセスに関して）説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。

本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。

Claims

センサーアレイの音響センサーによって、前記音響センサーによって受信される１つまたは複数の音からオーディオデータを生成することと、
ビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
を含む、方法。
前記伝達関数に基づいて、前記空間化されたオーディオコンテンツを生成することが、
前記伝達関数に基づいてアトジイヤ等化フィルタを決定することと、
前記アトジイヤ等化フィルタを使用して前記ユーザのためにオーディオコンテンツを調整することと
を含む、請求項１に記載の方法。
前記アトジイヤ等化フィルタを決定することが、基準アトジイヤ等化フィルタのデータベースを参照することを含む、請求項２に記載の方法。
前記アトジイヤ等化フィルタを決定することが、前記伝達関数を前記ユーザのために較正されたフィルタに相関させることを含む、請求項２に記載の方法。
前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する前記伝達関数を決定することが、
前記センサーアレイの前記音響センサーによって、前記耳の前記部分からの反射なしに前記音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、
前記ビームフォーマを使用して前記他のオーディオデータを処理することによって較正信号を生成することと、
前記ビームフォーミングされた信号および前記較正信号を使用して前記伝達関数を決定することと
を含む、請求項１に記載の方法。
前記センサーアレイの少なくとも１つの音響センサーが、前記ユーザの前記耳の耳道の入口に配置され、
前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する前記伝達関数を決定することが、
前記センサーアレイの前記少なくとも１つの音響センサーによって、前記少なくとも１つの音響センサーによって受信される１つまたは複数の他の音から他のオーディオデータを生成することと、
前記ビームフォーミングされた信号および前記他のオーディオデータを使用して前記伝達関数を決定することと
を含む、請求項１に記載の方法。
前記ビームフォーミングされた信号が、前記ユーザの前記耳の中心における音圧の測度をまとめて示す、請求項５に記載の方法。
前記音響センサーによって受信される前記１つまたは複数の音を、少なくとも１つのトランスデューサによって生成することをさらに含む、請求項１に記載の方法。
各ビームフォーマが前記耳の耳殻の別の部分をポイントする、請求項１に記載の方法。
前記耳の第１の部分をポイントする、前記ビームフォーマの第１のビームフォーマを生成することと、
前記１つまたは複数の音のうちの第１の音から、前記センサーアレイの前記音響センサーによって前記オーディオコンテンツの第１のオーディオデータを生成することと、
前記ビームフォーミングされた信号の第１のビームフォーミングされた信号を生成するために前記第１のビームフォーマを使用して前記第１のオーディオデータを処理することと
をさらに含む、請求項１に記載の方法。
音響センサーを含むセンサーアレイとオーディオコントローラと
を備えるオーディオシステムであって、前記システムが請求項１から１０のいずれか一項に記載の方法を実施するように構成され、または前記音響センサーが、
前記音響センサーによって受信される１つまたは複数の音からオーディオデータを生成するように構成され、
前記オーディオコントローラが、
前記センサーアレイの前記音響センサーのためにビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
を行うように構成されている、オーディオシステム。
空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、請求項１から１０のいずれか一項に記載の方法を実施させるか、または
センサーアレイの音響センサーによって、前記音響センサーによって受信される１つまたは複数の音からオーディオデータを生成することと、
ビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
を含むステップを実施させる、コンピュータ可読非一時的記憶媒体。
前記命令が、前記プロセッサに、
前記伝達関数に基づいてアトジイヤ等化フィルタを決定することと、
前記アトジイヤ等化フィルタを使用して前記ユーザのためにオーディオコンテンツを調整することと
を含むステップをさらに実施させる、請求項１２に記載のコンピュータ可読非一時的記憶媒体。