JP2022529202A

JP2022529202A - ヘッドセットのユーザについての頭部伝達関数の決定のための音周波数のリモート推論

Info

Publication number: JP2022529202A
Application number: JP2021540496A
Authority: JP
Inventors: モルテザカレギメーボディ，; ホフマン，パブロフランシスコファウンデス
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-04-22
Filing date: 2020-04-21
Publication date: 2022-06-20
Also published as: WO2020219460A1; EP3959900A1; CN113711626A; US20200336856A1; US11234092B2; KR20210153671A; US20210029484A1; US10848891B2

Abstract

ヘッドセットが、フレーム（１０５）とオーディオシステムとを備える。
オーディオシステムは、検出領域（１２５）においてフレーム（１０５）上に配置されたマイクロフォンアセンブリ（１２０）であって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、耳の耳道からしきい値距離内にあり、マイクロフォンアセンブリ（１２０）が、オーディオソースから発せられたオーディオ信号を検出するように構成され、検出領域（１２５）において検出されたオーディオ信号が、ユーザの耳道における音圧波のしきい類似度内にある、マイクロフォンアセンブリ（１２０）と、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定するように構成されたオーディオコントローラとを含む。
【選択図】図１

Description

関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、２０１９年４月２２日に出願された米国出願第１６／３９０，４０５号からの優先権を主張する。

本開示は、一般に、頭部伝達関数（ＨＲＴＦ：ｈｅａｄ－ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）の決定に関し、詳細には、ヘッドセットのユーザについてのＨＲＴＦの決定のための音周波数のリモート推論（ｒｅｍｏｔｅｉｎｆｅｒｅｎｃｅ）に関する。

２つの耳において知覚された音は、音の方向、各耳に関する音ソースのロケーション、およびユーザの頭部および／または身体の解剖学的構造のうちの少なくとも１つ、ならびに音が知覚された部屋の周囲の状況に応じて、異なり得る。人間は、各耳において知覚された音を比較することによって音ソースのロケーションを決定することができる。あるタイプの「空間音」システムでは、複数のスピーカーが、ＨＲＴＦを使用して音の方向性側面（ｄｉｒｅｃｔｉｏｎａｌａｓｐｅｃｔ）を再生する。ＨＲＴＦは、自由場における音ソースから人の耳への音伝達（ｓｏｕｎｄｔｒａｎｓｍｉｓｓｉｏｎ）を表現する。ＨＲＴＦは、それらの両耳間時間差および強度差において、ならびにそれらのオーディオ周波数応答において、音ソースの方向性情報を符号化する。ＨＲＴＦは人によって変動し、ユーザについての個人化されたＨＲＴＦは、オーディオコンテンツをユーザに配信するとき、ユーザが優れた空間音品質を経験することを可能にする。

ＨＲＴＦを決定するための較正システムは、一般に、ユーザの耳道内に置かれるマイクロフォンを含み得る。ローカルエリア中の音ソースに応答して耳道においてオーディオ信号を測定することによって、ＨＲＴＦが、ユーザについて決定され、カスタマイズされ得る。しかしながら、これは、快適または好都合なユーザ経験でない。

ヘッドセットの装着者についてのＨＲＴＦの決定のための低い音周波数のリモート推論のためのオーディオシステム。オーディオシステムは、ヘッドセットのユーザについてのＨＲＴＦのセットを生成し、および／またはカスタマイズするように構成される。ＨＲＴＦは、ヘッドセットのユーザのためのオーディオコンテンツを生成するために使用され得る。いくつかの実施形態によれば、ヘッドセットは、人工現実ヘッドセットである。

オーディオシステムは、検出領域において（ヘッドセットの）フレーム上に配置されたマイクロフォンアセンブリを含む。検出領域は、ヘッドセットを装着しているユーザの耳の外部にあり、耳の耳道からしきい値距離内にある。マイクロフォンアセンブリは、オーディオソースから発せられたオーディオ信号を検出するように構成される。検出領域において検出されたオーディオ信号は、ユーザの耳道における音圧波のしきい類似度内にある。さらに、オーディオシステムは、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定するように構成されたオーディオコントローラをも含む。

いくつかの実施形態では、オーディオシステムは方法を実施する。本方法は、ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、オーディオソースから発せられたオーディオ信号を検出することを含む。検出領域は、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にあり、検出領域において検出されたオーディオ信号は、耳道における音圧波のしきい類似度内にある。本方法は、オーディオコントローラを介して、検出されたオーディオ信号に部分的に基づいてＨＲＴＦのセットを決定することをさらに含む。

いくつかの実施形態では、好ましくは、フレームと、オーディオシステムとを備えるヘッドセットが提供され、オーディオシステムは、検出領域においてフレーム上に配置されたマイクロフォンアセンブリであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、耳の耳道からしきい値距離内にあり、マイクロフォンアセンブリが、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出するように構成され、検出領域において検出されたオーディオ信号が、ユーザの耳道における音圧波のしきい類似度内にある、マイクロフォンアセンブリと、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定するように構成されたオーディオコントローラとを含む。

マイクロフォンアセンブリは複数のマイクロフォンを備え得る。

いくつかの実施形態では、複数のマイクロフォンのうちの少なくとも１つのマイクロフォンが、検出領域以外のロケーションにおいてフレーム上に配置される。

いくつかの実施形態では、しきい値距離は最大でも３インチである。

いくつかの実施形態では、オーディオソースは、オーディオシステムの一部であるスピーカーである。

いくつかの実施形態では、スピーカーはヘッドセットのフレーム上に配置される。

いくつかの実施形態では、オーディオソースは軟骨伝導システムのトランスデューサである。

オーディオソースは、ヘッドセットの外部にあり、ヘッドセットとは別個であり得、オーディオ信号はヘッドセットのローカルエリアにおける周辺音を表す。

いくつかの実施形態では、オーディオ信号の周波数は２ｋＨｚ以下である。

いくつかの実施形態では、オーディオコントローラは、ローカルエリア内のヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連するＨＲＴＦを更新することとを行うように構成される。

ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にあり、検出領域において検出されたオーディオ信号が、耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、オーディオコントローラを介して、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することとを含む方法が提供され得る。

いくつかの実施形態では、ヘッドセットはオーディオシステムを備え、オーディオソースは、オーディオシステムの一部であるスピーカーである。

オーディオソースは軟骨伝導システムのトランスデューサであり得る。

いくつかの実施形態では、オーディオ信号はユーザのローカルエリアにおける周辺音を表す。

いくつかの実施形態では、本方法は、好ましくは、ローカルエリア内のヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連するＨＲＴＦを更新することとをさらに含む。

いくつかの実施形態では、好ましくは、命令を記憶する非一時的コンピュータ可読媒体が提供され、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にあり、検出領域において検出されたオーディオ信号が、耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、オーディオコントローラを介して、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することとを含む動作を実施させる。

いくつかの実施形態では、マイクロフォンアセンブリは複数のマイクロフォンを備える。

いくつかの実施形態では、オーディオコントローラは、好ましくは、ローカルエリア内のヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連するＨＲＴＦを更新することとを行うように構成される。

１つまたは複数の実施形態への組込みに好適であるものとして本明細書で説明される特徴は、本開示の教示にわたって一般化され、したがって本発明の任意の実施形態への組込みに好適であるものとして、諒解される。

１つまたは複数の実施形態による、オーディオシステムを含むヘッドセットを示す一例の図である。１つまたは複数の実施形態による、音響センサーを含むヘッドセットの一部分を示す一例の図である。１つまたは複数の実施形態による、オーディオシステムのブロック図である。１つまたは複数の実施形態による、方向および周波数に応じた、耳道の入口における音圧と検出領域における音圧との類似度比を示すグラフである。１つまたは複数の実施形態による、ヘッドセットを使用するユーザについての頭部伝達関数（ＨＲＴＦ）のセットをカスタマイズするためのプロセスを示すフローチャートである。１つまたは複数の実施形態による、オーディオシステムを含むヘッドセットのシステム環境の図である。

図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

概観
人間の耳介は、個別化された音響フィルタのように働き、これは、音方向に応じて入来音の周波数応答を整形する。人間の場合、この機能は、３Ｄ音像定位において重要である。したがって、すべての定位キューが正確にキャプチャされ得る、耳道の入口における音圧を収集することが重要である。しかし、たとえば、工業デザインの問題により、耳道の入口においてマイクロフォンを有することは、しばしば望ましくない。本明細書では、耳道への入口からリモートにあるロケーションにおいて検出された音圧に基づいて、耳道への入口における音圧を推論するオーディオシステムの様々な実施形態が説明される。オーディオシステムは、ヘッドセットの装着者についての頭部伝達関数（ＨＲＴＦ）の決定のために、検出された音圧を使用する。オーディオシステムは、決定されたＨＲＴＦを使用してオーディオコンテンツをユーザに提示する。

オーディオシステムは、ユーザについての１つまたは複数の頭部伝達関数（ＨＲＴＦ）を生成するために音（すなわち、音圧）を検出する。いくつかの実施形態では、オーディオシステムは、複数の音響センサーを含むマイクロフォンアセンブリとコントローラとを含む。各音響センサーは、マイクロフォンアセンブリの周囲のローカルエリア内の音を検出するように構成される。複数の音響センサーのうちの少なくともいくつかが、ユーザによって装着されるように構成されたヘッドセットに結合され、ユーザの各耳のための少なくとも１つの音響センサーが、対応する耳の耳道の入口からしきい値距離内にある検出領域内のヘッドセットのフレーム上に位置する。ローカルエリア内の１つまたは複数のオーディオソースが、ヘッドセット上の音響センサーによって検出されるオーディオ信号を発する。各検出領域について、検出領域において音響センサーによって検出されたオーディオ信号の第１の周波数帯域（たとえば、２ｋＨｚ以下）が、第１の周波数帯域について検出領域において耳道の入口における音圧を推論するために使用される。第１の周波数帯域は、概して、比較的低い／中間オーディオ周波数（たとえば、２ｋＨｚ以下）に対応する。検出領域において検出された、第１の周波数帯域におけるオーディオ信号は、ユーザの耳道への入口における第１の周波数帯域の音圧波に対してしきい類似度内にある（たとえば、実質的に同じである）。この関係は、たとえば、低い／中間周波数音圧波がより高い周波数における音圧波よりも小さい方向依存性を有するので、発生する。第１の周波数帯域の外のオーディオ信号（たとえば、２ｋＨｚ超）の場合、方向依存性は増加し、音響センサーにおける検出されたオーディオ信号と耳道への入口における対応する圧力波との間の類似度がより小さくなる（すなわち、誤差が増加する）。コントローラは、たとえば、較正、より高い周波数のＨＲＴＦのためのテンプレートなどを使用して、第１の周波数帯域の外の周波数についての増加された誤差を考慮し得る。コントローラは、検出されたオーディオ信号を使用して１つまたは複数のＨＲＴＦを生成し得る。コントローラは、次いで、生成されたＨＲＴＦを使用してオーディオコンテンツをユーザに提示するように、スピーカーアセンブリに命令し得る。

本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において別様に使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドセット、独立型ヘッドセット、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

ヘッドセットデバイス構成
図１は、１つまたは複数の実施形態による、オーディオシステムを含むヘッドセット１００を示す一例である。ヘッドセット１００は、ユーザにメディアを提示する。一実施形態では、ヘッドセット１００はニアアイディスプレイ（ＮＥＤ）であり得る。ヘッドセット１００によって提示されるメディアの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット１００は、他の構成要素の中でも、フレーム１０５と、１つまたは複数のレンズ１１０と、センサーデバイス１１５と、オーディオシステムとを含み得る。図１は、ヘッドセット１００の構成要素をヘッドセット１００上の例示的なロケーションに示すが、構成要素は、ヘッドセット１００上の他の場所に、ヘッドセット１００とペアにされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。

ヘッドセット１００は、ユーザの視覚を補正または増強するか、ユーザの眼を保護するか、あるいはユーザに画像を提供し得る。ヘッドセット１００は、ユーザの視力の欠損を補正する眼鏡であり得る。ヘッドセット１００は、太陽からユーザの眼を保護するサングラスであり得る。ヘッドセット１００は、衝撃からユーザの眼を保護する保護眼鏡であり得る。ヘッドセット１００は、夜間にユーザの視覚を増強するための暗視デバイスまたは赤外線ゴーグルであり得る。ヘッドセット１００は、ユーザのためのＶＲ、ＡＲ、またはＭＲコンテンツを作り出すニアアイディスプレイであり得る。代替的に、ヘッドセット１００は、レンズ１１０を含まないことがあり、ユーザにオーディオ（たとえば、音楽、ラジオ、ポッドキャスト）を提供するオーディオシステムをもつフレーム１０５であり得る。

フレーム１０５は、１つまたは複数のレンズ１１０を保持する前面部分と、ユーザに付けるためのエンドピースとを含む。フレーム１０５の前面部分は、ユーザの鼻の上をまたいでいる。エンドピース（たとえば、テンプル）は、ユーザ上の所定の位置にヘッドセット１００を保持するフレーム１０５の部分である（たとえば、各エンドピースは、ユーザの対応する耳にわたって延びる）。エンドピースの長さは、異なるユーザにフィットするように調整可能であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分（たとえば、テンプルの先端、イヤピース）を含み得る。

１つまたは複数のレンズ１１０は、ヘッドセット１００を装着しているユーザに対して光を提供するかまたは透過する。レンズ１１０は、ユーザの視力の欠損を補正するのを助けるための処方レンズ（たとえば、単焦点、二焦点、および三焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））であり得る。処方レンズは、ヘッドセット１００を装着しているユーザに対して周辺光を透過する。透過された周辺光は、ユーザの視力の欠損を補正するように処方レンズによって変えられ得る。１つまたは複数のレンズ１１０は、太陽からユーザの眼を保護するための偏光レンズまたは色付きレンズであり得る。１つまたは複数のレンズ１１０は、ユーザの眼に向かって導波路の端部または縁部を通って画像光が結合された導波路ディスプレイの一部としての１つまたは複数の導波路であり得る。１つまたは複数のレンズ１１０は、画像光を提供するための電子ディスプレイを含み得、電子ディスプレイからの画像光を拡大するための光学ブロックをも含み得る。１つまたは複数のレンズ１１０は、ヘッドセット１００のフレーム１０５の前面部分によって保持される。

いくつかの実施形態では、ヘッドセット１００は、ヘッドセット１００の周囲のローカルエリアについての深度情報を表すデータをキャプチャする深度カメラアセンブリ（ＤＣＡ）を含み得る。一実施形態では、ＤＣＡは、構造化光プロジェクタと、イメージングデバイスと、コントローラとを含み得る。キャプチャされたデータは、構造化光プロジェクタによってローカルエリア上に投影された構造化光の、イメージングデバイスによってキャプチャされた画像であり得る。一実施形態では、ＤＣＡは、ローカルエリアの部分をステレオでキャプチャするために配向される２つまたはそれ以上のカメラと、コントローラとを含み得る。キャプチャされたデータは、ローカルエリアの２つまたはそれ以上のカメラによってステレオでキャプチャされた画像であり得る。コントローラは、キャプチャされたデータを使用してローカルエリアの深度情報を算出する。深度情報に基づいて、コントローラは、ローカルエリア内のヘッドセット１００の絶対位置情報を決定する。ＤＣＡは、ヘッドセット１００と統合され得るか、またはヘッドセット１００の外部のローカルエリア内に配置され得る。後者の実施形態では、ＤＣＡのコントローラは、オーディオシステムに深度情報を送信し得る。

センサーデバイス１１５は、ヘッドセット１００の運動に応答して１つまたは複数の測定信号を生成する。センサーデバイス１１５は、ヘッドセット１００のフレーム１０５の一部分に位置し得る。センサーデバイス１１５は、位置センサー、慣性測定ユニット（ＩＭＵ）、またはその両方を含み得る。ヘッドセット１００のいくつかの実施形態は、センサーデバイス１１５を含むことも含まないこともあり、または２つ以上のセンサーデバイス１１５を含み得る。センサーデバイス１１５がＩＭＵを含む実施形態では、ＩＭＵは、センサーデバイス１１５からの測定信号に基づいてＩＭＵデータを生成する。センサーデバイス１１５の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。センサーデバイス１１５は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで位置し得る。

１つまたは複数の測定信号に基づいて、センサーデバイス１１５は、ヘッドセット１００の初期位置に対するヘッドセット１００の現在位置を推定する。推定位置は、ヘッドセット１００のロケーションおよび／あるいはヘッドセット１００またはヘッドセット１００を装着しているユーザの頭部の配向、あるいはそれらの何らかの組合せを含み得る。配向は、基準点に対する各耳の位置に対応し得る。いくつかの実施形態では、センサーデバイス１１５は、ヘッドセット１００の現在位置を推定するために、ＤＣＡからの深度情報および／または絶対位置情報を使用する。センサーデバイス１１５は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット１００の推定位置を計算する。たとえば、ＩＭＵは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット１００上の基準点の推定位置を決定する。代替的に、ＩＭＵは、サンプリングされた測定信号をコンソールに提供し、コンソールはＩＭＵデータを決定する。基準点は、ヘッドセット１００の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット１００内の点として定義される。

オーディオシステムは、ユーザについての１つまたは複数のＨＲＴＦを生成するために音を検出する。ＨＲＴＦは、音が空間中の点からユーザによってどのように受信されるかを特徴づける。１つまたは複数のＨＲＴＦは、ヘッドセット１００を装着しているユーザに関連し得る。ヘッドセット１００のオーディオシステムは、マイクロフォンアセンブリと、スピーカーアセンブリと、コントローラ１３５とを含む。オーディオシステムに関する追加の詳細が、図３に関して説明される。

マイクロフォンアセンブリは、マイクロフォンアセンブリの周囲のローカルエリア内の音を検出する。マイクロフォンアセンブリは、複数の音響センサー１２０を含む。音響センサー１２０は、音波による空気圧力変動を検出するセンサーである。各音響センサー１２０は、音を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換するように構成される。音響センサー１２０は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。マイクロフォンアセンブリは、フレーム１０５上のそれぞれの検出領域１２５内に各々配置された少なくとも２つの音響センサー１２０を含む。各検出領域１２５は、ユーザの耳道の対応する入口からしきい値距離内にある。示されているように、検出領域１２５はフレーム１０５上にあるが、他の実施形態では、検出領域１２５はフレーム１０５上にないエリアを含む。２つの音響センサー１２０のみが示されているが、他の実施形態では、マイクロフォンアレイは追加の音響センサーを含む。追加の音響センサーは、オーディオ信号についてのより良い到来方向（ＤｏＡ）推定を提供するために使用され得る。さらに、マイクロフォンアセンブリの各追加の音響センサーの位置は変動し得る。追加の音響センサーは、一方または両方の検出領域１２５内に、フレーム１０５上の他の場所に、またはそれらの何らかの組合せで位置し得る。たとえば、追加の音響センサーは、テンプルの長さに沿って、ブリッジにわたって、レンズ１１０の上方または下方に、あるいはそれらの何らかの組合せで配置され得る。マイクロフォンアレイの音響センサーは、マイクロフォンアセンブリが、ヘッドセット１００を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。

マイクロフォンアセンブリは、マイクロフォンアセンブリの周囲のローカルエリア内の音を検出する。ローカルエリアは、ヘッドセット１００を囲む環境である。たとえば、ローカルエリアは、ヘッドセット１００を装着しているユーザが中にいる部屋であり得、またはヘッドセット１００を装着しているユーザは外にいることがあり、ローカルエリアは、マイクロフォンアセンブリが音を検出することが可能である、外のエリアである。検出された音は、制御されない音または制御される音であり得る。制御されない音は、オーディオシステムによって制御されず、ローカルエリア中で生じる音である。制御されない音の例は、自然発生的周辺雑音であり得る。この構成では、オーディオシステムは、オーディオシステムによって検出された制御されない音を使用してヘッドセット１００を較正することが可能であり得る。制御される音は、オーディオシステムによって制御される音である。制御される音の例は、スピーカー、スピーカーアセンブリ、較正システム、またはそれらの何らかの組合せなど、外部システムによって出力された１つまたは複数の信号であり得る。ヘッドセット１００は、制御されない音を使用して較正され得るが、いくつかの実施形態では、外部システムは、較正プロセス中にヘッドセット１００を較正するために使用され得る。各検出された音（制御されないおよび制御される）は、周波数、振幅、持続時間、またはそれらの何らかの組合せに関連し得る。

検出されたオーディオ信号は、概して、第１の周波数帯域および１つまたは複数の高周波数帯域に分割され得る。第１の周波数帯域は、概して、比較的低い音響周波数および可能な中域音響周波数に対応する。たとえば、第１の周波数帯域は０～２ｋＨｚであり得、２ｋＨｚを超える周波数をカバーする１つまたは複数の高周波数帯域。各検出領域１２５について、検出領域１２５において音響センサー１２０によって検出されたオーディオ信号の第１の周波数帯域は、第１の周波数帯域について耳道への対応する入口における音圧を推論するために使用される。検出領域において検出された、第１の周波数帯域におけるオーディオ信号は、ユーザの耳道への入口における第１の周波数帯域の音圧波に対してしきい類似度内にある。しきい類似度は、それらが、第１の周波数帯域にわたって実質的に同等の圧力波形（たとえば、１ｄＢよりも小さい差、および／または、知覚が考慮される場合、丁度可知差（ＪＮＤ）しきい値内）であるようなものであり得る。この関係は、たとえば、低い／中間周波数音圧波がより高い周波数における音圧波よりも小さい方向依存性を有するので、発生する。

コントローラ１３５は、マイクロフォンアセンブリによって検出された音を表す、マイクロフォンアセンブリからの情報を処理する。各検出された音に関連する情報は、検出された音の周波数、振幅、および／または持続時間を含み得る。各検出された音について、コントローラ１３５はＤｏＡ推定を実施する。ＤｏＡ推定は、検出された音がマイクロフォンアセンブリの音響センサー１２０および／または音響センサー１２５に到来した推定方向である。音がマイクロフォンアセンブリの少なくとも２つの音響センサーによって検出された場合、コントローラ１３５は、たとえば、三角測量を介して、検出された音のソースロケーションを推定するために、音響センサーの知られている位置関係と、各音響センサーからのＤｏＡ推定とを使用することができる。ソースロケーション推定の精度は、音を検出した音響センサーの数が増加するにつれて、および／または、音を検出した音響センサー間の距離が増加するにつれて、増加し得る。

いくつかの実施形態では、コントローラ１３５は、オーディオデータセットを情報でポピュレートする。情報は、検出された音と、各検出された音に関連するパラメータとを含み得る。例示的なパラメータは、周波数、振幅、持続時間、ＤｏＡ推定、ソースロケーション、またはそれらの何らかの組合せを含み得る。各オーディオデータセットは、ヘッドセットに対する異なるソースロケーションに対応し、そのソースロケーションを有する１つまたは複数の音を含み得る。このオーディオデータセットは、そのソースロケーションについての１つまたは複数のＨＲＴＦに関連し得る。１つまたは複数のＨＲＴＦは、データセットに記憶され得る。代替実施形態では、各オーディオデータセットは、ヘッドセット１００に対するいくつかのソースロケーションに対応し、各ソースロケーションについての１つまたは複数の音を含み得る。たとえば、比較的互いの近くに位置するソースロケーションは、一緒にグループ化され得る。コントローラ１３５は、音がマイクロフォンアセンブリによって検出されたとき、オーディオデータセットを情報でポピュレートし得る。コントローラ１３５は、さらに、各検出された音についてＤｏＡ推定が実施されたかまたはソースロケーションが決定されたとき、各検出された音についてのオーディオデータセットをポピュレートし得る。

いくつかの実施形態では、コントローラ１３５は、コントローラ１３５がＤｏＡ推定を実施する検出された音を選択する。コントローラ１３５は、オーディオデータセットに記憶された各検出された音に関連するパラメータに基づいて、検出された音を選択し得る。コントローラ１３５は、各検出された音に関連する記憶されたパラメータを評価し、１つまたは複数の記憶されたパラメータが対応するパラメータ条件を満たすかどうかを決定し得る。たとえば、パラメータがしきい値を上回るまたは下回る、あるいはターゲット範囲内に入る場合、パラメータ条件は満たされ得る。パラメータ条件が満たされた場合、コントローラ１３５は、検出された音についてＤｏＡ推定を実施する。たとえば、コントローラ１３５は、周波数範囲内の周波数、しきい値振幅を上回る振幅、しきい値持続時間を下回る持続時間、他の同様の変形態、またはそれらの何らかの組合せを有する検出された音について、ＤｏＡ推定を実施し得る。パラメータ条件は、履歴データに基づいて、オーディオデータセット中の情報の分析（たとえば、パラメータの収集された情報を評価し、平均を設定すること）に基づいて、またはそれらの何らかの組合せで、オーディオシステムのユーザによって設定され得る。コントローラ１３５は、検出された音のＤｏＡ推定および／またはソースロケーションを記憶するための、オーディオセット中の要素を作成し得る。いくつかの実施形態では、コントローラ１３５は、データがすでに存在する場合、オーディオセット中の要素を更新し得る。

いくつかの実施形態では、コントローラ１３５は、ヘッドセット１００の外部のシステムからヘッドセット１００の位置情報を受信し得る。位置情報は、ヘッドセット１００のロケーションと、ヘッドセット１００またはヘッドセット１００を装着しているユーザの頭部の配向とを含む。位置情報は、基準点に対して定義され得る。位置情報は、ローカルエリア中の音ソースの相対ロケーションを決定することを含む、ユーザについてのＨＲＴＦを生成すること、および／またはカスタマイズすることにおいて、使用され得る。外部システムの例は、イメージングアセンブリ、（たとえば、図６で説明されるような）コンソール、同時位置特定およびマッピング（ＳＬＡＭ：ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）システム、深度カメラアセンブリ、構造化光システム、または他の好適なシステムを含む。いくつかの実施形態では、ヘッドセット１００は、ＳＬＡＭ計算のために使用され得るセンサーを含み得、ＳＬＡＭ計算は、コントローラ１３５によって全体的にまたは部分的に行われ得る。コントローラ１３５は、連続的に、またはランダムに、または指定された間隔で、システムから位置情報を受信し得る。他の実施形態では、コントローラ１３５は、ヘッドセット１００に結合されたシステムを使用してヘッドセット１００の位置情報を受信する。たとえば、ヘッドセット１００に結合された深度カメラアセンブリが、コントローラ１３５に位置情報を提供するために使用され得る。

検出された音のパラメータに基づいて、コントローラ１３５は、オーディオシステムに関連する１つまたは複数のＨＲＴＦを生成する。ＨＲＴＦは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのＨＲＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳の形状、肩など）により、人の各耳に固有である（および人に固有である）。たとえば、図１では、コントローラ１３５は、各耳について少なくとも１つのＨＲＴＦを生成する。ＨＲＴＦは、第１の周波数帯域におけるオーディオ信号の部分を使用して生成されるＨＲＴＦを含み、これらのＨＲＴＦは第１の周波数帯域における周波数に対応する。より高い周波数のＨＲＴＦは、方向性情報を提供する（音響センサー１２０を含み得る）複数の音響センサーを使用して、ユーザの耳道に置かれた音響センサーを使用して、図１に示されているような音響センサー１２０のロケーション以外の他のロケーションにおいてフレーム上に置かれた音響センサーを使用して、テンプレートのより高い周波数のＨＲＴＦを使用して、またはそれらの何らかの組合せで、生成され得る。このようにして、コントローラ１３５は、ユーザについてのＨＲＴＦのカスタマイズされたセットを生成し、および／または更新する。コントローラ１３５は、オーディオコンテンツをユーザに提示するために、ＨＲＴＦのカスタマイズされたセットを使用する。たとえば、カスタマイズされたＨＲＴＦは、空間中の特定の点から来たように思われる音を含むオーディオコンテンツを作成するために使用され得る。いくつかの実施形態では、コントローラ１３５は、各検出された音のＤｏＡ推定に基づいて１つまたは複数の既存のＨＲＴＦを更新し得る。ヘッドセット１００の位置がローカルエリア内で変化するにつれて、コントローラ１３５は、１つまたは複数の新しいＨＲＴＦを生成するか、または、それに応じて１つまたは複数の既存のＨＲＴＦを更新し得る。

図２は、１つまたは複数の実施形態による、音響センサーを含むヘッドセットの一部分を示す一例である。ヘッドセット２００は、ヘッドセット１００の一実施形態であり得る。ヘッドセット２００は、音響センサー１２０の一実施形態であり得る音響センサー２１０を含む。いくつかの実施形態によれば、音響センサー２１０は、検出領域２３０においてヘッドセット２００のフレーム２２０の一部分上に各々配置されたマイクロフォンであり、検出領域２３０は検出領域１２５の一実施形態である。１つの耳２４０のみが図２に示されているが、いくつかの実施形態によれば、ユーザのもう１つの耳２４０に対応するヘッドセット２００の一部分も、図２に示されている同じ構成を含む。ヘッドセット２００は、図２に示されているものとは異なる、音響センサーの構成を有し得る。たとえば、いくつかの実施形態では、検出領域２３０中に位置する、より多くの音響センサー２１０がある。図２に示されているように、ヘッドセット２００のフレーム２２０の一部分は、ヘッドセット２００をユーザに固定するために各耳２４０の耳介の後ろに配置される。

音響センサー２１０は、ユーザの耳道の入口２５０の外部の検出領域２３０において配置される。検出領域において音響センサー２１０によって検出されたオーディオ信号の第１の周波数帯域（たとえば、２ｋＨｚ以下）が、耳道の入口２５０における音圧波を推論するために使用される。検出領域２３０において検出された、第１の周波数帯域におけるオーディオ信号は、耳道への入口２５０における第１の周波数帯域の音圧波に対してしきい類似度内にある（たとえば、実質的に同じである）。この関係は、たとえば、低い／中間周波数音圧波がより高い周波数における音圧波よりも小さい方向依存性を有するので、発生する。第１の周波数帯域の外のオーディオ信号（たとえば、２ｋＨｚ超）の場合、方向依存性は増加し、音響センサーにおける検出されたオーディオ信号と耳道への入口における対応する圧力波との間の類似度がより小さくなる（すなわち、誤差が増加する）。簡単のために、検出領域２３０はフレーム２２０上に示されているが、検出領域２３０は、しきい値距離内にある（たとえば、耳道の入口２５０により近い）、フレーム２２０上にないエリアに延び得る。いくつかの実施形態では、検出領域２３０は、耳２４０の耳輪の前面部分からしきい値距離内に位置する。

上述のように、しきい値距離（たとえば、３インチ以下）は、検出領域内で測定された低周波数オーディオ信号が、耳道の入口２５０における低周波数音圧波のしきい類似度内にある距離であり得る。このしきい類似度により、ユーザの耳道にマイクロフォンを置くことなしに、耳道の入口２５０における低周波数圧力波の推論が可能になる。しきい類似度は、それらが、第１の周波数帯域にわたって実質的に同等の圧力波形（たとえば、１ｄＢよりも小さい差、および／または、ＪＮＤしきい値内）であるようなものであり得る。

第１の周波数帯域におけるオーディオ信号の部分は、耳道の入口２５０における音圧を正確におよびリモートで推論するために使用され得る。ユーザの耳道の入口２５０における推論された音圧波は、第１の周波数帯域における周波数について、ユーザの各耳についての固有のＨＲＴＦを生成し、および／またはカスタマイズするために使用される。

マイクロフォンアセンブリの音響センサー２１０の構成は変動し得る。ヘッドセット２００は、ユーザの各耳２４０について１つの音響センサー２１０を有するものとして図２に示されているが、音響センサー２１０の数は増加され得る。音響センサー２１０の数を増加させることは、収集されるオーディオ情報の量ならびにオーディオ情報の感度および／または精度を増加させ得る。たとえば、検出領域２５０中の音響センサー２１０の数を増加させることは、耳道の入口２５０における第１の周波数帯域内の音圧波の推論に基づいてユーザについてのＨＲＴＦを生成し、および／またはカスタマイズすることを伴う較正を改善し得る。検出領域２５０の外のフレーム２２０上に位置する追加の音響センサー２１０は、いくつかの実施形態によれば、ユーザについてのより高い周波数のＨＲＴＦを生成し、および／またはカスタマイズするために使用される。さらなる実施形態では、追加の音響センサー２１０は、より高い周波数のＨＲＴＦを生成し、および／またはカスタマイズするためのＤｏＡ推定を実施するために使用される音響センサーアレイの一部である。

他の実施形態では、音響センサー２１０によって検出されたオーディオ信号の部分はまた、第１の周波数帯域を上回る周波数についての情報を収集するために使用され得る。たとえば、第１の周波数帯域を上回る周波数は、２ｋＨｚを上回ることがある。上述のように、第１の周波数帯域よりも高い周波数の場合、方向依存性は増加し、音響センサー２１０における検出されたオーディオ信号と耳道への入口２５０における対応する圧力波との間の類似度がより小さくなる（すなわち、誤差が増加する）。いくつかの実施形態では、誤差の増加は、追加の音響センサーからのデータを使用することによってオフセットされ得る。追加の音響センサーは、フレーム２２０上のどこにでも置かれ得、いくつかの実施形態では、同じく検出領域２３０内にあり得る。より多数の音響センサーはＤＯＡ分析における精度の増加を可能にし、これは、より高い周波数に関連する方向依存性をオフセットするのを助けることができる。

オーディオシステムの概観
図３は、１つまたは複数の実施形態による、オーディオシステム３００のブロック図である。図１および図３におけるオーディオシステムは、オーディオシステム３００の実施形態であり得る。オーディオシステム３００は、ユーザについての１つまたは複数のＨＲＴＦを生成するために音を検出する。オーディオシステム３００は、次いで、ユーザのためのオーディオコンテンツを生成するために１つまたは複数のＨＲＴＦを使用し得る。図３の実施形態では、オーディオシステム３００は、マイクロフォンアセンブリ３１０と、コントローラ３２０と、スピーカーアセンブリ３３０とを含む。オーディオシステム３００のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラ３２０の一部または全部は、ヘッドセットからリモートにあるサーバまたはコンソール上に位置し得る。

マイクロフォンアセンブリ３１０は、マイクロフォンアセンブリ３１０の周囲のローカルエリア内の音を検出する。マイクロフォンアセンブリ３１０は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ユーザの各耳に関連する各検出領域中の少なくとも１つの音響センサーを含む。複数の音響センサーは、音響センサー１２０の実施形態を含み得る。複数の音響センサーは、ヘッドセット、たとえばヘッドセット１００上に、ユーザ上に、またはそれらの何らかの組合せで配置され得る。上記で説明されたように、検出された音は、制御されない音または制御される音であり得る。各検出された音は、周波数、振幅、持続時間、またはそれらの何らかの組合せなど、オーディオ情報に関連し得る。

スピーカーアセンブリ３３０は、コントローラ３２０からの命令に従ってオーディオコンテンツをプレイする。スピーカーアセンブリ３３０は、図１に示されているスピーカー１３０の実施形態を含み得る。スピーカーは、たとえば、可動コイルトランスデューサ、圧電トランスデューサ、電気信号を使用して音響圧力波を生成する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。いくつかの実施形態では、スピーカーアセンブリ３３０は、各耳を覆うスピーカー（たとえば、ヘッドフォン、イヤバッドなど）をも含む。他の実施形態では、スピーカーアセンブリ３３０は、ユーザの耳を閉塞するスピーカーを含まない。いくつかの実施形態では、スピーカーアセンブリ３３０は、空気伝導、たとえば骨伝導、軟骨伝導または耳珠伝導以外の伝導方法を使用してユーザにオーディオコンテンツを送信するスピーカーを含む。空気伝導以外の伝導方法を使用するオーディオソースに関する追加の詳細は、そのすべての全体が参照により本明細書に組み込まれる、米国特許出願第１５／６８０，８３６号、１５／７０２，６８０号、および１５／９６７，９２４号において見つけられ得る。

コントローラ３２０は、オーディオシステム３００の構成要素を制御する。コントローラ３２０は、ユーザに対してカスタマイズされるＨＲＴＦのセットを決定するためにマイクロフォンアセンブリ３１０からの情報を処理する。コントローラ３２０は、ＨＲＴＦのセットを使用してオーディオコンテンツを提示するように、スピーカーアセンブリ３３０に命令し得る。コントローラ３２０は、コントローラ１３５の一実施形態であり得る。図３の実施形態では、コントローラ３２０は、ＨＲＴＦカスタマイゼーションモジュール３４０と、較正モジュール３４５と、データストア３５０と、オーディオコンテンツエンジン３６０とを含む。ただし、他の実施形態では、コントローラ３２０は、異なるおよび／または追加の構成要素を含み得る。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラ３２０の機能性の一部または全部が、（たとえば、図６に示されているような）コンソールによって実施され得る。

データストア３５０は、コントローラ３２０によって生成および／または使用されるデータを記憶する。データは、いくつかの実施形態によれば、マイクロフォンアセンブリ３１０による検出されたオーディオ信号、スピーカーアセンブリ３３０によってプレイされるべきオーディオコンテンツ、ＨＲＴＦカスタマイゼーションモジュール３４０によって生成および／またはカスタマイズされるＨＲＴＦ、オーディオシステム３００に関連のある他のデータ、あるいはそれらの何らかの組合せを含み得る。データストア３５０は、データ記憶デバイスを含み得る。いくつかの実施形態では、データ記憶デバイスは、ヘッドセットのフレームに結合され得る。他の実施形態では、データ記憶デバイスは、ヘッドセットの外部にある。いくつかの実施形態では、データストア３５０は、ネットワーク通信を介してコントローラ３２０によってアクセスされるリモートデータベースの一部である。

ＨＲＴＦカスタマイゼーションモジュール３４０は、いくつかの実施形態によれば、第１の周波数帯域よりも高い周波数（たとえば、２ｋＨｚ超）における検出された音についてＤｏＡ推定を実施する。ＤｏＡ推定は、検出された音がマイクロフォンアセンブリ３１０の音響センサーに到来した推定方向である。音がマイクロフォンアセンブリの少なくとも２つの音響センサーによって検出された場合、コントローラ３２０は、たとえば、三角測量を介して、検出された音のソースロケーションを推定するために、音響センサーの位置関係と、各音響センサーからのＤｏＡ推定とを使用することができる。各検出された音のＤｏＡ推定は、検出された音の推定ソースロケーションとローカルエリア内のマイクロフォンアセンブリ３１０の位置との間のベクトルとして表現され得る。推定ソースロケーションは、マイクロフォンアセンブリ３１０の位置に対するローカルエリア中のソースロケーションの相対位置であり得る。ＤｏＡ推定の追加の詳細は、たとえば、その全体が参照により本明細書に組み込まれる、米国特許出願第１６／０１５，８７９号において見つけられ得る。

マイクロフォンアセンブリ３１０の位置は、マイクロフォンアセンブリ３１０を有するヘッドセット上の１つまたは複数のセンサーによって決定され得る。いくつかの実施形態では、コントローラ３２０は、マイクロフォンアセンブリ３１０の絶対位置がローカルエリア中で知られている場合、ソースロケーションの絶対位置を決定し得る。マイクロフォンアセンブリ３１０の位置は、外部システム（たとえば、イメージングアセンブリ、ＡＲまたはＶＲコンソール、ＳＬＡＭシステム、深度カメラアセンブリ、構造化光システムなど）から受信され得る。外部システムは、ローカルエリアとマイクロフォンアセンブリ３１０の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、マッピングされたローカルエリア中のマイクロフォンアセンブリのロケーションおよび／または配向を含み得る。コントローラ１３５は、検出された音の決定されたソースロケーションを用いてローカルエリアのマッピングを更新し得る。コントローラ３２０は、連続的に、またはランダムに、または指定された間隔で、外部システムから位置情報を受信し得る。いくつかの実施形態では、コントローラ３２０は、コントローラ３２０がＤｏＡ推定を実施する検出された音を選択する。

ＨＲＴＦカスタマイゼーションモジュール３４０は、１つまたは複数のＨＲＴＦを生成し、および／またはカスタマイズする。ＨＲＴＦは、人の耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのＨＲＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳の形状、肩など）により、人の各耳に固有である（および人に固有である）。ＨＲＴＦカスタマイゼーションモジュール３４０は、検出領域において音響センサーによって検出されたオーディオ信号の部分を使用して、第１の周波数帯域における周波数に関連するＨＲＴＦを生成し、および／または更新し得る。ＨＲＴＦカスタマイゼーションモジュール３４０は、マイクロフォンアセンブリによってキャプチャされるオーディオ信号、第１の周波数帯域よりも高い周波数についてのＨＲＴＦに関連するテンプレート、またはそれらの何らかの組合せを使用して、第１の周波数帯域よりも高い周波数に関連するＨＲＴＦを生成し、および／または更新し得る。いくつかの実施形態では、ＨＲＴＦカスタマイゼーションモジュール３４０は、図２に示されているような音響センサー２１０の位置以外の位置に位置するマイクロフォンアセンブリ３１０のマイクロフォンによってキャプチャされるオーディオ信号を使用して、第１の周波数帯域よりも高い周波数に関連するＨＲＴＦを生成し、および／または更新する。いくつかの実施形態では、ＨＲＴＦカスタマイゼーションモジュール３４０は、ユーザについての個人化されたＨＲＴＦを生成し、および／またはカスタマイズするために、機械学習技法を使用する。たとえば、機械学習モデルは、マイクロフォンアセンブリ３１０によって検出されたオーディオ信号に基づいて音ソースの方向を決定するようにトレーニングされ得る。他の実施形態では、機械学習モデルは、マイクロフォンアセンブリ３１０によって検出されたオーディオ信号に基づいて、第１の周波数帯域よりも高い周波数において音を生成する音ソースの方向を決定するようにトレーニングされる。いくつかの実施形態では、機械学習モデルは、マイクロフォンアセンブリ３１０によってキャプチャされたオーディオ信号と、ユーザの耳道に置かれたマイクロフォンを用いてオーディオ信号を測定することによって生成されたトレーニングＨＲＴＦとに関して、トレーニングされる。

機械学習モデルは、任意の数の機械学習アルゴリズムを含むことができる。採用され得るいくつかの他の機械学習モデルは、線形および／またはロジスティック回帰、分類および回帰ツリー、ｋ－ｍｅａｎｓクラスタリング、ベクトル量子化などである。いくつかの実施形態では、機械学習モデルは、強化学習を用いてトレーニングされた決定論的方法を含む（それにより強化学習モデルを作成する）。

ＨＲＴＦカスタマイゼーションモジュール３４０は、単一の人について複数のＨＲＴＦを生成し得、各ＨＲＴＦは、異なるソースロケーション、マイクロフォンアセンブリ３１０を装着している人の異なる位置、またはそれらの何らかの組合せに関連し得る。一例として、ＨＲＴＦカスタマイゼーションモジュール３４０は、単一のソースロケーションに対する、ローカルエリア中のユーザの頭部の特定のロケーションおよび配向において、ユーザについての２つのＨＲＴＦを生成し得る。ユーザが異なる方向にユーザの頭部の向きを変える場合、ＨＲＴＦカスタマイゼーションモジュール３４０は、特定のロケーションおよび新しい配向においてユーザについての２つの新しいＨＲＴＦを生成し得るか、または、ＨＲＴＦカスタマイゼーションモジュール３４０は、２つの既存のＨＲＴＦを更新し得る。したがって、ＨＲＴＦカスタマイゼーションモジュール３４０は、異なるソースロケーション、ローカルエリア中のマイクロフォンアセンブリ３１０の異なる位置、またはそれらの何らかの組合せについて、ＨＲＴＦを生成する。

較正モジュール３４５は、カスタマイズされたＨＲＴＦの生成（および／または更新）のためにオーディオシステム３００を較正する。較正ステップは、マイクロフォンアセンブリ３３０に対する異なる配向において発生する制御される音を所定のタイミングで生成するように、スピーカーアセンブリ３３０および／または外部スピーカーに命令することを含み得る。較正モジュール３４５は、スピーカーアセンブリ３３０および／または外部スピーカーによって発せられたオーディオ信号、ローカルエリア中のオーディオソースによって発せられた制御されないオーディオ信号、またはそれらの何らかの組合せを検出するように、マイクロフォンアセンブリ３１０に命令し得る。オーディオ信号は、特定の周波数のものであり、マイクロフォンアセンブリ３２０に対する異なる相対位置においてオーディオソースによって発せられ得る。いくつかの実施形態では、較正プロセス中にマイクロフォンアセンブリ３１０によって検出されたオーディオ信号に基づいて、１つまたは複数のテンプレートＨＲＴＦがカスタマイズされる。

いくつかの実施形態では、較正システム３４５は、スピーカーアセンブリ３３０によって発せられたオーディオ信号と、マイクロフォンアセンブリ３１０によって検出された、測定されたオーディオ信号との間のコヒーレンス度が、しきいコヒーレンス度を上回ることに応答して、オーディオシステム３００を較正する。第１の周波数帯域内の周波数を有する発せられたオーディオ信号の場合、較正システム３４５は、発せられたオーディオ信号と対応する測定されたオーディオ信号との間のコヒーレンス度がしきいコヒーレンス度を上回ることに応答して、第１の周波数帯域についてオーディオシステム３００を較正する。より高い周波数を有する発せられたオーディオ信号の場合、較正システム３４５は、発せられたオーディオ信号と測定されたオーディオ信号との間のコヒーレンス度がしきいコヒーレンス度を上回ることに応答して、オーディオシステム３００を較正する。この場合、較正システム３４５は、スピーカーアセンブリ３３０とマイクロフォンアセンブリ３１０との間の伝達関数のみを較正する。

オーディオコンテンツエンジン３６０は、カスタマイズされたＨＲＴＦを使用してオーディオ特徴づけ構成を生成する。オーディオ特徴づけ構成は、空間中の特定の点から来たように思われるバイノーラル音を合成するためにオーディオシステム３００が使用する関数である。オーディオコンテンツエンジン３６０は、たとえば、補間関数（ｉｎｔｅｒｐｏｌａｔｉｎｇｆｕｎｃｔｉｏｎ）をＨＲＴＦ（たとえば、球面調和関数のセット）に適合させ得、それにより、空間中の所与の方向がＨＲＴＦにマッピングする。代替的に、オーディオコンテンツエンジン３６０は、空間中の異なる方向を最も近いＨＲＴＦにマッピングするルックアップテーブルを生成し得る。オーディオ特徴づけ構成は、オーディオコンテンツ（たとえば、サラウンド音）を提示するためにスピーカーアセンブリ３３０によって使用され得る。いくつかの実施形態では、オーディオコンテンツエンジン３６０は、オーディオ特徴づけ構成に従ってオーディオコンテンツを提示するように、スピーカーアセンブリ３３０に命令する。

例示的なデータ
図４は、１つまたは複数の実施形態による、方向および周波数に応じた、耳道の入口における音圧と検出領域における音圧との類似度比を示すグラフ４００である。グラフは、曲線４１０、曲線４２０、曲線４３０、および曲線４４０を含む。曲線４１０は、ユーザの前面に対応する、球面座標系を使用する０°の方位角および０°の仰角に対応する位置におけるオーディオソースの記録に対応する。曲線４２０は、４５°の方位角および０°の仰角に対応する位置におけるオーディオソースに対応する。曲線４３０は、９０°の方位角および４５°の仰角に対応する位置におけるオーディオソースにおけるオーディオソースに対応する。曲線４４０は、１８０°の方位角および０°の仰角に対応する位置におけるオーディオソースに対応する。水平軸は周波数（Ｈｚ）の単位であり、垂直軸はデシベル（ｄＢ）の単位である。したがって、耳道の開口における音圧が検出領域における音圧と実質的に同じである場合、２つの値の比は約１であり、これは、０ｄＢの値を生じる（１の対数は０である）。

図４に示されているように、第１の周波数帯域（たとえば、０～２ｋＨｚ）における周波数について音響センサーによって検出されたオーディオ信号は、オーディオソースの異なる位置についての耳道中の検出されたオーディオ信号に対してしきい類似度内にある。したがって、検出領域において音響センサーによって検出された第１の周波数帯域におけるオーディオ信号の部分は、ユーザの耳道の入口における音圧波を推論するために使用され得る。第１の周波数帯域におけるオーディオ信号の波長は大きいので、検出領域において測定された、第１の周波数帯域におけるオーディオ信号の部分は、耳輪の小さい特徴および／または耳の解剖学的構造の他の部分によって著しく影響を及ぼされない。したがって、検出領域において測定された、第１の周波数帯域におけるオーディオ信号の部分は、ユーザの耳道中の音圧波に対してしきい類似度内にある。

図４に示されているように、曲線４１０、４２０、４３０、および４４０は、約２ｋＨｚを上回る周波数について、互いから実質的に離れ始める（各曲線が異なる方向に関連することを想起する）。離れる曲線は、方向依存性が周波数とともに増加することによるものである。

頭部伝達関数（ＨＲＴＦ）個人化
図５は、１つまたは複数の実施形態による、ヘッドセットを使用するユーザについての頭部伝達関数（ＨＲＴＦ）のセットをカスタマイズするためのプロセスを示すフローチャートである。一実施形態では、図５のプロセスは、オーディオシステム３００の構成要素によって実施される。他の実施形態では、他のエンティティ（たとえば、コンソール）がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオシステム３００は、オーディオソースから発せられたオーディオ信号を検出する５１０。オーディオシステム３００は、ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを使用して、オーディオ信号を検出する。検出領域は、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にある。検出された信号の一部または全部は、第１の周波数帯域（たとえば、０～２ｋＨｚ）内にある。検出領域において検出された、第１の周波数帯域内のオーディオ信号の部分は、同じ周波数帯域にわたって耳道における音圧波のしきい類似度内にある。

オーディオシステム３００は、検出されたオーディオ信号に部分的に基づいてＨＲＴＦのセットを決定する５２０。ＨＲＴＦのセットは、コントローラを使用して決定され得る。ＨＲＴＦのうちの少なくともいくつかは、第１の周波数帯域についての耳道への入口における推論された音圧を使用して決定される。第１の周波数帯域よりも高い周波数に関連するＨＲＴＦの場合、オーディオシステム３００は、たとえば、テンプレートＨＲＴＦ、マイクロフォンアレイの追加の音響センサーによってキャプチャされたオーディオ信号、音場分解、機械学習などを使用し得る。いくつかの実施形態では、オーディオシステム３００は、第１の周波数帯域よりも高い周波数に関連するＨＲＴＦを決定することにおいて、ＤｏＡ推定を使用する。

オーディオシステム３００は、ＨＲＴＦのセットを使用してオーディオコンテンツを提示する５３０。図３に関して上記で説明されたように、オーディオシステム３００は、決定されたＨＲＴＦを使用してオーディオ特徴づけ構成を生成する。オーディオシステム３００は、オーディオ特徴づけ構成とスピーカーアセンブリ３３０とを使用してオーディオコンテンツをユーザに提示する。

ローカルエリア内のヘッドセットを装着しているユーザの位置の場合、オーディオシステムは、１つまたは複数の新しいＨＲＴＦを生成するか、または、それに応じて１つまたは複数の既存の音響伝達関数を更新し得る。プロセス５００は、ヘッドセットを装着しているユーザがローカルエリア中を移動するとき連続的に繰り返され得るか、または、プロセス５００は、マイクロフォンアセンブリを介して音を検出すると始動され得る。

例示的なシステム環境
図６は、１つまたは複数の実施形態による、オーディオシステムを含むヘッドセットのシステム環境である。システム６００は、人工現実環境において動作し得る。図６に示されているシステム６００は、ヘッドセット６０５と、コンソール６１５に結合された入出力（Ｉ／Ｏ）インターフェース６１０とを含む。ヘッドセット６０５は、ヘッドセット１００の一実施形態であり得る。図６は、１つのヘッドセット６０５と１つのＩ／Ｏインターフェース６１０とを含む例示的なシステム６００を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム６００中に含まれ得る。たとえば、各々が、関連するＩ／Ｏインターフェース６１０を有する、複数のヘッドセット６０５があり得、各ヘッドセット６０５およびＩ／Ｏインターフェース６１０はコンソール６１５と通信する。代替構成では、異なるおよび／または追加の構成要素が、システム６００中に含まれ得る。さらに、図６に示されている構成要素のうちの１つまたは複数に関して説明される機能性は、いくつかの実施形態では、図６に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール６１５の機能性の一部または全部がヘッドセット６０５によって提供される。

いくつかの実施形態では、ヘッドセット６０５は、ユーザの視覚を補正または増強するか、ユーザの眼を保護するか、あるいはユーザに画像を提供し得る。ヘッドセット６０５は、ユーザの視力の欠損を補正する眼鏡であり得る。ヘッドセット６０５は、太陽からユーザの眼を保護するサングラスであり得る。ヘッドセット６０５は、衝撃からユーザの眼を保護する保護眼鏡であり得る。ヘッドセット６０５は、夜間にユーザの視覚を増強するための暗視デバイスまたは赤外線ゴーグルであり得る。代替的に、ヘッドセット６０５は、レンズを含まないことがあり、ただ、ユーザにオーディオ（たとえば、音楽、ラジオ、ポッドキャスト）を提供するオーディオシステム６２０をもつフレームであり得る。

いくつかの実施形態では、ヘッドセット６０５は、コンピュータ生成された要素（たとえば、２次元（２Ｄ）または３次元（３Ｄ）画像、２Ｄまたは３Ｄビデオ、音など）を用いた物理的な現実世界環境の拡張ビューを備えるコンテンツをユーザに提示するヘッドマウントディスプレイであり得る。いくつかの実施形態では、提示されるコンテンツは、オーディオシステム６２０を介して提示されるオーディオを含み、オーディオシステム６２０は、ヘッドセット６０５、コンソール６１５、またはその両方からオーディオ情報を受信し、そのオーディオ情報に基づいてオーディオデータを提示する。いくつかの実施形態では、ヘッドセット６０５は、ユーザの周囲の実際の環境に部分的に基づく仮想コンテンツをユーザに提示する。たとえば、仮想コンテンツは、アイウェアデバイスのユーザに提示され得る。ユーザは、物理的に部屋の中にいることがあり、その部屋の仮想壁および仮想床が、仮想コンテンツの一部としてレンダリングされる。図６の実施形態では、ヘッドセット６０５は、オーディオシステム６２０と、電子ディスプレイ６２５と、光学ブロック６３０と、位置センサー６３５と、深度カメラアセンブリ（ＤＣＡ）６４０と、慣性測定（ＩＭＵ）ユニット６４５とを含む。ヘッドセット６０５のいくつかの実施形態は、図６に関して説明されるものとは異なる構成要素を有する。さらに、図６に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット６０５の構成要素の間で別様に分散されるか、またはヘッドセット６０５からリモートにある別個のアセンブリにおいて取り込まれ得る。

オーディオシステム６２０は、ユーザについての１つまたは複数のＨＲＴＦを生成するために音を検出する。オーディオシステム６２０は、次いで、ユーザのためのオーディオコンテンツを生成するために１つまたは複数のＨＲＴＦを使用し得る。オーディオシステム６２０は、オーディオシステム３００の一実施形態であり得る。図３に関して上記で説明されたように、オーディオシステム６２０は、構成要素の中でも、マイクロフォンアセンブリと、コントローラと、スピーカーアセンブリとを含み得る。マイクロフォンアセンブリは、マイクロフォンアセンブリの周囲のローカルエリア内の音を検出する。複数の音響センサーは、ヘッドセット（たとえば、ヘッドセット１００）上に、ユーザ上に（たとえば、ユーザの耳道中に）、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーのうちの少なくとも２つは、各々、いくつかの実施形態によれば、ユーザの各耳道の入口からしきい値距離内の検出領域において配置される。検出された音は、制御されない音または制御される音であり得る。コントローラは、マイクロフォンアセンブリによって検出された、より高い周波数、すなわち２ｋＨｚ超の音について、ＤｏＡ推定を実施し得る。いくつかの実施形態では、検出されたより高い周波数の音のＤｏＡ推定と、検出された音に関連するパラメータとに部分的に基づいて、コントローラは、検出された音のソースロケーションに関連する１つまたは複数のＨＲＴＦを生成し、および／または更新する。コントローラはまた、低周波数オーディオセンサーによって検出領域において測定された、検出された低周波数オーディオ信号に少なくとも部分的に基づいて、１つまたは複数のＨＲＴＦを生成し、および／または更新する。コントローラは、空間中のいくつかの異なる点から来たように思われるオーディオコンテンツを発するようにとの、スピーカーアセンブリのための命令を生成し得る。いくつかの実施形態では、コントローラの一部または全部がコンソール６１５上の部分であることに留意されたい。

電子ディスプレイ６２５は、コンソール６１５から受信されたデータに従ってユーザに２Ｄ画像または３Ｄ画像を表示する。様々な実施形態では、電子ディスプレイ６２５は、単一の電子ディスプレイまたは複数の電子ディスプレイ（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイ６２５の例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。

光学ブロック６３０は、電子ディスプレイ６２５から受光された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット６０５のユーザに提示する。電子ディスプレイ６２５と光学ブロック６３０とは、レンズ１１０の一実施形態であり得る。様々な実施形態では、光学ブロック６３０は、１つまたは複数の光学要素を含む。光学ブロック６３０中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック６３０は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック６３０中の光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック６３０による画像光の拡大および集束は、電子ディスプレイ６２５が、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイ６２５によって提示されるコンテンツの視野を増大させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらにいくつかの実施形態では、拡大量は、光学要素を追加することまたは取り外すことによって調整され得る。

いくつかの実施形態では、光学ブロック６３０は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイ６２５に提供されるコンテンツは予歪され、光学ブロック６３０が、そのコンテンツに基づいて生成された画像光を電子ディスプレイ６２５から受光したとき、光学ブロック６３０はそのひずみを補正する。

ＤＣＡ６４０は、ヘッドセット６０５の周囲のローカルエリアについての深度情報を表すデータをキャプチャする。一実施形態では、ＤＣＡ６４０は、構造化光プロジェクタと、イメージングデバイスと、コントローラとを含み得る。キャプチャされたデータは、構造化光プロジェクタによってローカルエリア上に投影された構造化光の、イメージングデバイスによってキャプチャされた画像であり得る。一実施形態では、ＤＣＡ６４０は、ローカルエリアの部分をステレオでキャプチャするために配向される２つまたはそれ以上のカメラと、コントローラとを含み得る。キャプチャされたデータは、ローカルエリアの２つまたはそれ以上のカメラによってステレオでキャプチャされた画像であり得る。コントローラは、キャプチャされたデータを使用してローカルエリアの深度情報を算出する。深度情報に基づいて、コントローラは、ローカルエリア内のヘッドセット６０５の絶対位置情報を決定する。ＤＣＡ６４０は、ヘッドセット６０５と統合され得るか、またはヘッドセット６０５の外部のローカルエリア内に配置され得る。後者の実施形態では、ＤＣＡ６４０のコントローラは、オーディオシステム６２０のコントローラに深度情報を送信し得る。

ＩＭＵ６４５は、１つまたは複数の位置センサー６３５から受信された測定信号に基づいて、ヘッドセット６０５の位置を指示するデータを生成する電子デバイスである。１つまたは複数の位置センサー６３５は、センサーデバイス１１５の一実施形態であり得る。位置センサー６３５は、ヘッドセット６０５の運動に応答して１つまたは複数の測定信号を生成する。位置センサー６３５の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵ６４５の誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー６３５は、ＩＭＵ６４５の外部に、ＩＭＵ６４５の内部に、またはそれらの何らかの組合せで位置し得る。

１つまたは複数の位置センサー６３５からの１つまたは複数の測定信号に基づいて、ＩＭＵ６４５は、ヘッドセット６０５の初期位置に対するヘッドセット６０５の推定現在位置を指示するデータを生成する。たとえば、位置センサー６３５は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえばピッチ、ヨー、およびロール）を測定するための複数のジャイロスコープとを含む。いくつかの実施形態では、ＩＭＵ６４５は、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット６０５の推定現在位置を計算する。たとえば、ＩＭＵ６４５は、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット６０５上の基準点の推定現在位置を決定する。代替的に、ＩＭＵ６４５は、サンプリングされた測定信号をコンソール６１５に提供し、コンソール６１５は、誤差を低減するようにデータを解釈する。基準点は、ヘッドセット６０５の位置を表すために使用され得る点である。基準点は、一般に、アイウェアデバイス６０５の配向および位置に関係する空間中の点、または位置として定義され得る。

ＩＭＵ６４５は、コンソール６１５から１つまたは複数のパラメータを受信する。以下でさらに説明されるように、１つまたは複数のパラメータは、ヘッドセット６０５の追跡を維持するために使用される。受信されたパラメータに基づいて、ＩＭＵ６４５は、１つまたは複数のＩＭＵパラメータ（たとえば、サンプルレート）を調整し得る。いくつかの実施形態では、ＤＣＡ６４０からのデータは、ＩＭＵ６４５が基準点の初期位置を更新することを引き起こし、したがって、その初期位置は、基準点の次の位置に対応する。基準点の初期位置を基準点の次の較正された位置として更新することは、ＩＭＵ６４５によって推定された現在位置に関連する累積誤差を低減するのを助ける。ドリフト誤差とも呼ばれる累積誤差は、基準点の推定位置が経時的に基準点の実際の位置から離れて「ドリフト」することを引き起こす。ヘッドセット６０５のいくつかの実施形態では、ＩＭＵ６４５は、専用ハードウェア構成要素であり得る。他の実施形態では、ＩＭＵ６４５は、１つまたは複数のプロセッサにおいて実装されるソフトウェア構成要素であり得る。

Ｉ／Ｏインターフェース６１０は、ユーザがアクション要求を送り、コンソール６１５から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、音を作り出すことからオーディオシステム６２０を開始または終了するための命令、ヘッドセット６０５の較正プロセスを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース６１０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール６１５に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース６１０によって受信されたアクション要求は、コンソール６１５に通信され、コンソール６１５は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース６１５は、上記でさらに説明されたように、Ｉ／Ｏインターフェース６１０の初期位置に対するＩ／Ｏインターフェース６１０の推定位置を指示する較正データをキャプチャするＩＭＵ６４５を含む。いくつかの実施形態では、Ｉ／Ｏインターフェース６１０は、コンソール６１５から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、またはコンソール６１５がアクションを実施するときに、コンソール６１５が、Ｉ／Ｏインターフェース６１０に命令を通信して、Ｉ／Ｏインターフェース６１０が触覚フィードバックを生成することを引き起こす。

コンソール６１５は、ヘッドセット６０５とＩ／Ｏインターフェース６１０とのうちの１つまたは複数から受信された情報に従って、処理するためのコンテンツをヘッドセット６０５に提供する。図６に示されている例では、コンソール６１５は、アプリケーションストア６５０と、追跡モジュール６５５と、エンジン６６０とを含む。コンソール６１５のいくつかの実施形態は、図６に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図６に関して説明されるものとは異なる様式でコンソール６１５の構成要素の間で分散され得る。

アプリケーションストア６５０は、コンソール６１５が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット６０５またはＩ／Ｏインターフェース６１０の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオプレイバックアプリケーション、較正プロセス、または他の好適なアプリケーションを含む。

追跡モジュール６５５は、１つまたは複数の較正パラメータを使用してシステム環境６００を較正し、ヘッドセット６０５またはＩ／Ｏインターフェース６１０の位置を決定する際の誤差を低減するように、１つまたは複数の較正パラメータを調整し得る。また、追跡モジュール６５５によって実施される較正は、ヘッドセット６０５中のＩＭＵ６４５および／またはＩ／Ｏインターフェース６１０中に含まれるＩＭＵ６４５から受信された情報を考慮する。さらに、ヘッドセット６０５の追跡が失われた場合、追跡モジュール６５５は、システム環境６００の一部または全部を再較正し得る。

追跡モジュール６５５は、１つまたは複数のセンサーデバイス６３５、ＩＭＵ６４５、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット６０５またはＩ／Ｏインターフェース６１０の移動を追跡する。たとえば、追跡モジュール６５５は、ヘッドセット６０５からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット６０５の基準点の位置を決定する。追跡モジュール６５５はまた、ヘッドセット６０５の基準点の位置、またはＩ／Ｏインターフェース６１０の基準点の位置を、それぞれ、ヘッドセット６０５の位置を指示するＩＭＵ６４５からのデータを使用して、またはＩ／Ｏインターフェース６１０の位置を指示するＩ／Ｏインターフェース６１０中に含まれるＩＭＵ６４５からのデータを使用して決定し得る。さらに、いくつかの実施形態では、追跡モジュール６５５は、位置またはヘッドセット６０５を指示するＩＭＵ６４５からのデータの部分を使用して、ヘッドセット６０５の将来のロケーションを予測し得る。追跡モジュール６５５は、ヘッドセット６０５またはＩ／Ｏインターフェース６１０の推定または予測された将来の位置をエンジン６６０に提供する。

エンジン６６０はまた、システム環境６００内でアプリケーションを実行し、追跡モジュール６５５から、ヘッドセット６０５の位置情報、加速度情報、速度情報、予測された将来の位置、オーディオ情報、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン６６０は、ユーザへの提示のためにヘッドセット６０５に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン６６０は、仮想環境において、またはローカルエリアを追加のコンテンツで拡張する環境において、ユーザの移動を反映する、ヘッドセット６０５のためのコンテンツを生成する。さらに、エンジン６６０は、Ｉ／Ｏインターフェース６１０から受信されたアクション要求に応答して、コンソール６１５上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット６０５を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース６１０を介した触覚フィードバックであり得る。

追加の構成情報
本発明による実施形態は、特に、ヘッドセット、方法、および記憶媒体を対象とする添付の特許請求の範囲で開示され、１つの請求項カテゴリー、たとえば、ヘッドセットにおいて述べられた任意の特徴は、別の請求項カテゴリー、たとえば、方法、記憶媒体、システムおよびコンピュータプログラム製品においても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式的理由で選定されるにすぎない。ただし、前の請求項への意図的な参照（特に複数の従属関係）から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれかは、別個の請求項において、ならびに／あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。

一実施形態では、ヘッドセットは、フレームと、オーディオシステムとを備え得、オーディオシステムは、検出領域においてフレーム上に配置されたマイクロフォンアセンブリであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、耳の耳道からしきい値距離内にあり、マイクロフォンアセンブリが、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出するように構成され、検出領域において検出されたオーディオ信号が、ユーザの耳道における音圧波のしきい類似度内にある、マイクロフォンアセンブリと、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定するように構成されたオーディオコントローラとを含む。

一実施形態では、ヘッドセットは、検出領域以外のロケーションにおいてフレーム上に配置された、複数のマイクロフォンのうちの少なくとも１つのマイクロフォンを備え得る。

しきい値距離は最大でも３インチであり得る。

オーディオソースは、オーディオシステムの一部であるスピーカーであり得る。

スピーカーはヘッドセットのフレーム上に配置され得る。

オーディオソースは、ヘッドセットの外部にあり、ヘッドセットとは別個であり得、オーディオ信号はヘッドセットのローカルエリアにおける周辺音を表し得る。

オーディオ信号の周波数は２ｋＨｚ以下であることがある。

オーディオコントローラは、
ローカルエリア内のヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、
ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連するＨＲＴＦを更新することと
を行うように構成され得る。

一実施形態では、方法は、
ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にあり、検出領域において検出されたオーディオ信号が、耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、
オーディオコントローラを介して、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することと
を含み得る。

ヘッドセットはオーディオシステムを備え得、オーディオソースは、オーディオシステムの一部であるスピーカーであり得る。

オーディオ信号はユーザのローカルエリアにおける周辺音を表し得る。

一実施形態では、方法は、
ローカルエリア内のヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、
ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連するＨＲＴＦを更新することと
を含み得る。

一実施形態では、非一時的コンピュータ可読媒体が命令を記憶し得、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、
ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、検出領域が、ヘッドセットを装着しているユーザの耳の外部にあり、ユーザの耳道からしきい値距離内にあり、検出領域において検出されたオーディオ信号が、耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、
オーディオコントローラを介して、検出されたオーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することと
を含む動作を実施させる。

一実施形態では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、実行されたとき、上述の実施形態のいずれかによる方法または上述の実施形態のいずれか内の方法を実施するように動作可能であるソフトウェアを具現し得る。

一実施形態では、システムは、１つまたは複数のプロセッサと、プロセッサに結合され、プロセッサによって実行可能な命令を備える少なくとも１つのメモリとを備え得、プロセッサは、命令を実行したとき、上述の実施形態のいずれかによる方法または上述の実施形態のいずれか内の方法を実施するように動作可能である。

一実施形態では、好ましくはコンピュータ可読非一時的記憶媒体を備えるコンピュータプログラム製品は、データ処理システム上で実行されたとき、上述の実施形態のいずれかによる方法または上述の実施形態のいずれか内の方法を実施するように動作可能であり得る。

本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。

本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本開示の実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。

Claims

フレームと、
オーディオシステムと
を備えるヘッドセットであって、前記オーディオシステムは、
検出領域において前記フレーム上に配置されたマイクロフォンアセンブリであって、前記検出領域が、前記ヘッドセットを装着しているユーザの耳の外部にあり、前記耳の耳道からしきい値距離内にあり、前記マイクロフォンアセンブリが、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出するように構成され、前記検出領域において検出された前記オーディオ信号が、前記ユーザの前記耳道における音圧波のしきい類似度内にある、マイクロフォンアセンブリと、
検出された前記オーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定するように構成されたオーディオコントローラと
を含む、ヘッドセット。
前記マイクロフォンアセンブリが複数のマイクロフォンを備え、好ましくは、前記複数のマイクロフォンのうちの少なくとも１つのマイクロフォンが、前記検出領域以外のロケーションにおいて前記フレーム上に配置される、請求項１に記載のヘッドセット。
前記しきい値距離が、最大でも３インチである、請求項１または２に記載のヘッドセット。
前記オーディオソースが、前記オーディオシステムの一部であるスピーカーであり、好ましくは、前記スピーカーが前記ヘッドセットの前記フレーム上に配置される、請求項１から３のいずれか一項に記載のヘッドセット。
前記オーディオソースが軟骨伝導システムのトランスデューサであり、および／または、前記オーディオソースが、前記ヘッドセットの外部にあり、前記ヘッドセットとは別個であり、前記オーディオ信号が前記ヘッドセットのローカルエリアにおける周辺音を表す、請求項１から４のいずれか一項に記載のヘッドセット。
前記オーディオ信号の周波数が２ｋＨｚ以下である、請求項１から５のいずれか一項に記載のヘッドセット。
前記オーディオコントローラが、
前記ローカルエリア内の前記ヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、
ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、前記オーディオシステムに関連する前記ＨＲＴＦを更新することと
を行うように構成されている、請求項１から６のいずれか一項に記載のヘッドセット。
ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、前記検出領域が、前記ヘッドセットを装着しているユーザの耳の外部にあり、前記ユーザの耳道からしきい値距離内にあり、前記検出領域において検出された前記オーディオ信号が、前記耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、
オーディオコントローラを介して、検出された前記オーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することと
を含む、方法。
前記ヘッドセットがオーディオシステムを備え、前記オーディオソースが、前記オーディオシステムの一部であるスピーカーである、請求項８に記載の方法。
前記オーディオ信号の周波数が２ｋＨｚ以下であり、および／あるいは、前記オーディオソースが軟骨伝導システムのトランスデューサである、請求項８または９に記載の方法。
前記オーディオ信号が前記ユーザのローカルエリアにおける周辺音を表す、請求項８から１０のいずれか一項に記載の方法。
前記ローカルエリア内の前記ヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、
ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、前記オーディオシステムに関連する前記ＨＲＴＦを更新することと
をさらに含む、請求項８から１１のいずれか一項に記載の方法。
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
ヘッドセットのフレーム上の検出領域内に配置されたマイクロフォンアセンブリを介して、ローカルエリア中のオーディオソースから発せられたオーディオ信号を検出することであって、前記検出領域が、前記ヘッドセットを装着しているユーザの耳の外部にあり、前記ユーザの耳道からしきい値距離内にあり、前記検出領域において検出された前記オーディオ信号が、前記耳道における音圧波のしきい類似度内にある、オーディオ信号を検出することと、
オーディオコントローラを介して、検出された前記オーディオ信号に部分的に基づいて頭部伝達関数（ＨＲＴＦ）のセットを決定することと
を含む動作を実施させる、非一時的コンピュータ可読媒体。
前記オーディオ信号の周波数が２ｋＨｚ以下であり、および／または、前記マイクロフォンアセンブリが複数のマイクロフォンを備える、請求項１３に記載の非一時的コンピュータ可読媒体。
前記オーディオコントローラが、
前記ローカルエリア内の前記ヘッドセットの位置に対する検出された音の到来方向（ＤｏＡ）を推定することと、
ＤｏＡ推定に基づいて、２ｋＨｚを上回る周波数について、オーディオシステムに関連する前記ＨＲＴＦを更新することと
を行うように構成されている、請求項１３または１４に記載の非一時的コンピュータ可読媒体。