JP2022546176A

JP2022546176A - ユーザの耳の識別された特徴を使用した音声出力の個人化された等化

Info

Publication number: JP2022546176A
Application number: JP2022500134A
Authority: JP
Inventors: ヴァムシクリシュナイサプ，; サンイクテリーチョ，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-09-04
Filing date: 2020-08-15
Publication date: 2022-11-04
Also published as: KR20220060535A; CN114303388A; WO2021045892A1; US10823960B1; EP4026350A1

Abstract

機械学習モデルを使用したヘッドセットのための個人化された音声出力応答を生成するための方法。少なくともユーザの耳を含むユーザの頭部の一部分の１つまたは複数の画像が受信される。１つまたは複数の画像に基づいて、ユーザの耳を記述する１つまたは複数の特徴が識別される。特徴はモデルに入力され、モデルは、識別された１つまたは複数の特徴に基づいてユーザのための音声出力応答を決定するように構成される。音声出力応答は、ユーザによって知覚される１つまたは複数の音響パラメータを記述する。音声出力応答に基づいて、ユーザのために個人化された音声出力応答が生成され、個人化された音声出力応答は、ヘッドセットによってユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成される。【選択図】図７

Description

本開示は、一般に人工現実システムに関し、より詳細には、ユーザのための個別化された等化フィルタを生成することに関する。

人工現実（ＡＲ）および仮想現実（ＶＲ）ヘッドセットなど、既存のヘッドセットは、しばしば、複数のトランスデューサを使用して音声コンテンツをユーザに与える。しかしながら、トランスデューサからユーザの耳への音伝搬は、ユーザの耳および／または頭部の解剖学的特徴に基づいて変動し得る。たとえば、ユーザごとの耳のサイズおよび形状の差は、ヘッドセットによって生成され、ユーザによって知覚される音に影響を及ぼし得、そのことはユーザの音声エクスペリエンスに悪影響を及ぼし得る。現在の音声システムは、ユーザごとの解剖学的特徴のばらつき、およびユーザごとのヘッドセットのフィットメント（ｆｉｔｍｅｎｔ）の不一致を考慮しないことがあるので、現在の音声システムは高忠実度音声コンテンツを供給するのに不十分である。したがって、ヘッドセットによって与えられる音声コンテンツがユーザに対してカスタマイズされるように、解剖学的特徴のばらつきおよびフィットメントの不一致を補償する、音声出力を調整するための方法が必要とされる。

機械学習モデルを使用した、ユーザの音声エクスペリエンスを向上させるための、個人化された等化フィルタを生成するためのシステムおよび方法が開示されている。少なくともユーザの耳を含む、ユーザの頭部の一部分の１つまたは複数の画像が受信される。画像は、ユーザの（たとえば、ユーザの頭部の、ユーザの耳の）画像、および／またはヘッドセットを着用しているユーザの画像を含み得る。ヘッドセットは、ユーザに音声コンテンツを与える複数のトランスデューサを含むことができる。ユーザの耳を記述する特徴が１つまたは複数の画像から抽出され、その特徴はモデルに入力される。モデルは、音声出力がユーザの耳においてどのように聞こえるかを予測するように構成される。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の１つまたは複数の音響パラメータ（たとえば、波長、周波数、音量、ピッチ、バランスなど）を調整する。等化フィルタは、ユーザに音声コンテンツを与えるためにヘッドセット中で使用され得る。等化フィルタはまた、ユーザのソーシャルネットワーキングプロファイルに付加され得る。

本発明の一実施形態によれば、ユーザの耳を含む１つまたは複数の画像を受信することと、１つまたは複数の画像からユーザの耳の１つまたは複数の特徴を識別することと、識別された１つまたは複数の特徴に基づいて、ユーザの耳の１つまたは複数の特徴を、ユーザの耳における音声出力を予測するように構成されたモデルに与えることと、ユーザの耳における音声出力に基づいて等化フィルタを生成することであって、等化フィルタが、ユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することとを含む方法が提供される。

いくつかの実施形態では、本方法は、生成された等化フィルタを、ユーザに音声コンテンツを与えるときに等化フィルタを使用するように構成されたヘッドセットに与えることをさらに含む。

いくつかの実施形態では、等化フィルタは、ユーザに与えられる音声コンテンツに適用されたとき、ユーザの耳における予測された音声出力に基づいてユーザのための音声コンテンツの１つまたは複数の音響パラメータを調整する。

いくつかの実施形態では、本方法は、ユーザユーザのプロファイルに関連する記憶のためのオンラインシステムに等化フィルタを与えることであって、等化フィルタが、ユーザにコンテンツを与える際に使用するためのユーザプロファイルへのアクセスを有するユーザに関連付けられた１つまたは複数のヘッドセットによって取出し可能である、等化フィルタを与えることをさらに含む。

いくつかの実施形態では、本方法は、複数のラベリングされた画像を使用してモデルをトレーニングすることであって、ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、耳における音声出力が追加のユーザにとって既知である、モデルをトレーニングすることをさらに含む。

いくつかの実施形態では、１つまたは複数の画像中のユーザはヘッドセットを着用しており、１つまたは複数の特徴は、ユーザの耳に対するヘッドセットの位置に少なくとも部分的に基づいて識別される。

いくつかの実施形態では、ヘッドセットは、それぞれ眼鏡本体に結合した２つのアームをもつ眼鏡フレームを含み、１つまたは複数の画像は、複数のトランスデューサのうちの１つのトランスデューサを含む２つのアームのうちの１つの少なくとも一部分を含む。

いくつかの実施形態では、モデルは、ユーザの耳に対する複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて音声出力応答を決定するように構成される。

いくつかの実施形態では、１つまたは複数の画像は、深度カメラアセンブリを使用してキャプチャされた深度画像である。

いくつかの実施形態では、識別された１つまたは複数の特徴は、ユーザの耳の寸法またはユーザの耳の形状を記述する人体測定的（ａｎｔｈｒｏｐｏｍｅｔｒｉｃ）特徴である。

いくつかの実施形態では、本方法は、ユーザの耳における決定された音声出力をユーザの耳における測定された音声出力と比較することと、比較に基づいてモデルを更新することとをさらに含む。

いくつかの実施形態では、測定された音声出力応答は、ヘッドセットを介してユーザに音声コンテンツを与えることと、ユーザの耳の近くに配置された１つまたは複数のマイクロフォンを使用してユーザの耳における音声出力を分析することとによって測定される。

本発明のいくつかの実施形態によれば、命令をその上に記憶する非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサによって実行されたとき、プロセッサに、ユーザの耳を含む１つまたは複数の画像を受信することと、１つまたは複数の画像に基づいてユーザの耳の１つまたは複数の特徴を識別することと、識別された１つまたは複数の特徴に基づいて、１つまたは複数の特徴を、ユーザの耳における音声出力を決定するように構成されたモデルに与えることと、ユーザの耳における音声出力に基づいて等化フィルタを生成することであって、等化フィルタが、ユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することとを含むステップを実行させる命令である、非一時的コンピュータ可読記憶媒体が提供される。

いくつかの実施形態では、命令は、プロセッサによって実行されたとき、プロセッサに、複数のラベリングされた画像を使用してモデルをトレーニングすることであって、ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、音声出力応答が追加のユーザにとって既知である、モデルをトレーニングすることを含むステップをさらに実行させる。

いくつかの実施形態では、１つまたは複数の画像中のユーザはヘッドセットを着用しており、１つまたは複数の特徴が、ユーザの耳に対するヘッドセットの位置に少なくとも部分的に基づいて識別される。

いくつかの実施形態では、識別された１つまたは複数の特徴は、ユーザの耳の寸法またはユーザの耳の形状を記述する人体測定的特徴である。

いくつかの実施形態では、モデルは、ユーザの耳に対する複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいてユーザの耳における音声出力を決定するように構成される。

１つまたは複数の実施形態による、ヘッドセットの第１の実施形態の斜視図である。１つまたは複数の実施形態による、ヘッドセットの第２の実施形態の斜視図である。１つまたは複数の実施形態による、デバイスに音声コンテンツを与えるためのシステム環境を示す図である。１つまたは複数の実施形態による、等化システムを示す図である。１つまたは複数の実施形態による、ユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。１つまたは複数の実施形態による、図４Ａにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。１つまたは複数の実施形態による、ヘッドセットを着用しているユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。１つまたは複数の実施形態による、図５Ａにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。１つまたは複数の実施形態による、視覚マーカーをもつヘッドセットを着用しているユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。１つまたは複数の実施形態による、図６Ａにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。１つまたは複数の実施形態による、シミュレーションに基づいてユーザのための個別化された等化フィルタを生成する方法を示す図である。１つまたは複数の実施形態による、機械学習モデルを使用してユーザの耳の表現を生成する例示的なフローを示す図である。１つまたは複数の実施形態による、ＰＣＡモデルを決定することの流れ図である。１つまたは複数の実施形態による、ユーザの耳における音声出力を予測するための機械学習モデルを示す図である。１つまたは複数の実施形態による、機械学習モデルを使用して個別化された等化フィルタを生成する方法を示す図である。１つまたは複数の実施形態による、音声システムのブロック図である。一実施形態による、ユーザに音声コンテンツを与えるためのシステム環境である。

図は、単に例示の目的で様々な実施形態を示す。本明細書で示す構造および方法の代替実施形態が、本明細書で説明する原理から逸脱することなく採用され得ることを当業者は以下の説明から容易に認識しよう。

概観
人工現実（ＡＲ）ヘッドセットなど、ヘッドセットは、ユーザに音声コンテンツを与えるための１つまたは複数のトランスデューサ（たとえば、スピーカー）を含む。トランスデューサからユーザの耳への音伝搬は、しかしながら、ユーザごとおよびデバイスごとに変動し得る。特に、ユーザの耳における音声出力は、ユーザの耳および／または頭部の人体測定的特徴に基づいて変動し得る。人体測定的特徴はユーザの物理的特性（たとえば、耳の形状、耳のサイズ、頭部に対する耳の向き／位置、頭部のサイズなど）。さらに、ヘッドセットのフィット感は、人体測定的特徴に基づいて変動し得、音声出力応答にも影響を及ぼす。したがって、ユーザエクスペリエンスを向上させ、ユーザに高い品質のコンテンツを与えるために、ユーザが個人化された音声出力応答を体験するように、ヘッドセットによってユーザに与えられる音声コンテンツを調整することは有用であり得る。したがって、音声出力の１つまたは複数の音響パラメータ（たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など）を調整する等化フィルタがユーザの耳に基づいて生成される。等化フィルタは、音声コンテンツに適用されたとき、音声コンテンツの作成者が音声コンテンツが聞かれることを意図したようにユーザが音声コンテンツを知覚するように、音声コンテンツをユーザの耳におけるターゲット応答に対して調整する。一実施形態では、ターゲット応答は、音響パラメータのセットの各々についての所定の値（または許容できる値の範囲）に関連付けられる。音響パラメータのセットの各々についての所定の値（または許容できる値の範囲）は、コンテンツ作成者が、音声コンテンツがユーザによって知覚されることを意図した、音質の比較的高い許容できるしきい値に対応する。

一実施形態では、撮像システム（たとえば、ユーザのモバイルデバイスなど）が、ユーザに関連付けられた人体測定情報を収集するためにヘッドセットのユーザの１つまたは複数の画像をキャプチャする。撮像システムは、ユーザの耳、ユーザの頭部、および／またはヘッドセットを着用しているユーザの画像データ（たとえば、静止画像データまたはビデオ画像データ）をキャプチャし得る。一実施形態では、１つまたは複数の画像はそれぞれ、ユーザの耳、ユーザの頭部、および／またはヘッドセットを着用しているユーザのキャプチャされたビデオからのフレームである。ヘッドセットは、ユーザに音声コンテンツを与えるように構成された仮想現実（ＶＲ）ヘッドセット、ＡＲヘッドセット、またはいくつかの他のヘッドセットであり得る。ヘッドセットは、音声コンテンツを与えるための複数のトランスデューサを含むことができ、トランスデューサの位置は既知であり得る。ヘッドセットの寸法も既知であり得る。いくつかの実施形態では、ヘッドセットは、ユーザの頭部に対する位置情報を決定するための１つまたは複数の視覚マーカーを含む。たとえば、ヘッドセットは、ヘッドセットのフレームに沿って（たとえば、各テンプルアームに沿って）配置されたマーカーを含むことができる。他のマーカーとヘッドセットとに対する各マーカーの位置は既知である。いくつかの実施形態では、各マーカーは一意のサイズおよび／または形状である。

等化システムは、ユーザのためのカスタマイズされた等化フィルタを生成するために（たとえば、撮像システムから、ヘッドセットからなど）ユーザの１つまたは複数の画像を受信する。一実施形態では、撮像システムは１つまたは複数の画像をヘッドセットに与え、ヘッドセットは１つまたは複数の画像を等化システムに与える。等化システムは、受信された画像に基づいてユーザの耳の特徴（たとえば、形状、寸法）を識別する。いくつかの実施形態では、等化システムは、画像に関連付けられた深度情報を抽出し、抽出された深度情報と識別された特徴とに基づいてユーザの耳の３Ｄ表現を生成する。等化システムは、機械学習されたモデルを使用して３Ｄ表現を生成することができ、いくつかの実施形態では、３Ｄ表現はヘッドセットの表現を含む。等化システムは、音声ソース（たとえば、ヘッドセットのトランスデューサアレイ）からユーザの耳の３Ｄ表現への音声伝搬のシミュレーションを実行する。シミュレーションに基づいて、等化システムはユーザの耳における音声出力を予測することができる。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。一実施形態では、等化フィルタは、２つの複素周波数応答（すなわち、ターゲット応答と予測された応答と）の間の比としての伝達関数に基づいて生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の１つまたは複数の音響パラメータ（たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など）を調整する。いくつかの実施形態では、等化システムは、等化フィルタに基づいて１つまたは複数の音響パラメータの補償の量を規定する、ユーザのための音声プロファイルを生成する。

別の実施形態では、等化システムは、ユーザの耳における音声出力を予測するために機械学習モデルを使用する。等化システムは、（たとえば、撮像システムから）１つまたは複数の画像を受信し、画像に基づいてユーザの耳を記述する１つまたは複数の特徴を抽出する。等化システムは、画像に基づいてユーザの耳の特徴を抽出するための、機械学習技法、撮像技法、アルゴリズム、または任意の他のモデルを使用することができる。等化システムは、抽出された１つまたは複数の特徴に基づいてユーザの耳における音声出力を決定するために、機械学習されたモデルを使用する。一実施形態では、モデルは、前に識別された（たとえば、モデルによって、人間によって識別された）特徴と、各ユーザについての耳における既知の音声出力とを用いて、他のユーザの耳／頭部の画像を使用してトレーニングされる。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の１つまたは複数の音響パラメータ（たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など）を調整する。

等化システムは、生成された個人化された等化フィルタをヘッドセットに与えることができる。したがって、個人化された等化フィルタは、ヘッドセットによってユーザに与えられる音声コンテンツがユーザに対してカスタマイズされるように、音声コンテンツの１つまたは複数の音響パラメータを修正することができる。個人化された等化フィルタは、ユーザごとおよびデバイスごとの差による音声出力における変動を低減することによって音声エクスペリエンスを改善する。さらに、ユーザが後続の使用中にデバイスの較正を再実行する必要がないように、個人化された等化フィルタは、ユーザのプロファイル（たとえば、ソーシャルネットワーキングプロファイル）に付加され得る。

本発明の実施形態は、人工現実システムを含み得るか、または人工現実システムとともに実装される。人工現実は、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、混合現実（ＭＲ）、ハイブリッド現実、またはそれらの何らかの組合せおよび／または派生物を含み得る、ユーザへの提示の前に何らかの様式で調整された現実の形態である。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、音声、ハプティックフィードバック、またはそれらの何らかの組合せを含み得、それらのいずれかは、単一のチャネルで、または（閲覧者に対して３次元効果を生成するステレオビデオなど）複数のチャネルで提示され得る。さらに、いくつかの実施形態では、人工現実はまた、人工現実においてコンテンツを作成するために使用される、および／または、さもなければ人工現実において使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連付けられ得る。人工現実コンテンツを与える人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス（たとえば、ヘッドセット）、スタンドアロンウェアラブルデバイス（たとえば、ヘッドセット）、モバイルデバイスまたは計算システム、あるいは１人または複数の閲覧者に人工現実コンテンツを与えることが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上で実装され得る。

例示的なヘッドセット
図１Ａは、１つまたは複数の実施形態による、ヘッドセットの第１の実施形態の斜視図である。いくつかの実施形態では、ヘッドセットはニアアイディスプレイ（ｎｅａｒｅｙｅｄｉｓｐｌａｙ）（ＮＥＤ）またはアイウェアデバイスである。一般に、ヘッドセット１００は、コンテンツ（たとえば、メディアコンテンツ）がディスプレイアセンブリおよび／または音声システムを使用して提示されるように、ユーザの顔面に着用され得る。しかしながら、ヘッドセット１００は、メディアコンテンツが異なる様式でユーザに提示されるようにも使用され得る。ヘッドセット１００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、音声、またはそれらの何らかの組合せを含む。ヘッドセット１００は、フレームを含み、構成要素の中でも、１つまたは複数のディスプレイ要素１２０を含むディスプレイアセンブリと、深度カメラアセンブリ（ＤＣＡ）と、音声システムと、位置センサー１９０とを含み得る。図１Ａは、ヘッドセット１００上の例示的な場所にあるヘッドセット１００の構成要素を示すが、構成要素は、ヘッドセット１００上、ヘッドセット１００と対にされた周辺デバイス上、またはそれらの何らかの組合せの、他の場所に配置され得る。同様に、ヘッドセット１００上には、図１Ａに示されているものよりも多いまたは少ない構成要素があり得る。

フレーム１１０はヘッドセット１００の他の構成要素を保持する。フレーム１１０は、１つまたは複数のディスプレイ要素１２０を保持する前部と、ユーザの頭部に取り付けるエンドピース（たとえば、テンプル）とを含む。フレーム１１０の前部はユーザの鼻の上部をまたぐ。エンドピースの長さは、異なるユーザにフィットするように調整可能であり得る（たとえば、調整可能なテンプルの長さ）。エンドピースは、ユーザの耳の後ろの丸くなっている部分（たとえば、テンプル先端、イヤホン）をも含み得る。いくつかの実施形態では、フレーム１１０は、図６Ａ～図６Ｂに関して以下でより詳細に説明する１つまたは複数の視覚マーカーを含む。

１つまたは複数のディスプレイ要素１２０は、ヘッドセット１００を着用しているユーザに光を与える。図示のように、ヘッドセットはユーザの各目のためのディスプレイ要素１２０を含む。いくつかの実施形態では、ディスプレイ要素１２０は、ヘッドセット１００のアイボックス（ｅｙｅｂｏｘ）に与えられる画像光を生成する。アイボックスは、ヘッドセット１００を着用している間にユーザの目が占有する空間における場所である。たとえば、ディスプレイ要素１２０は導波路ディスプレイであり得る。導波路ディスプレイは、光源（たとえば、２次元光源、１つまたは複数の線光源、１つまたは複数の点光源など）と、１つまたは複数の導波路とを含む。光源からの光は、ヘッドセット１００のアイボックス中に瞳孔複製があるような様式で光を出力する、１つまたは複数の導波路に内結合（ｉｎ－ｃｏｕｐｌｅ）される。１つまたは複数の導波路からの光の内結合（ｉｎ－ｃｏｕｐｌｉｎｇ）および／または外結合（ｏｕｔｃｏｕｐｌｉｎｇ）は、１つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が１つまたは複数の導波路に内結合された際に光源からの光を走査する走査要素（たとえば、導波路、ミラーなど）を含む。いくつかの実施形態では、ディスプレイ要素１２０の一方または両方は不透明であり、ヘッドセット１００の周りの局所領域からの光を透過しないことに留意されたい。局所領域は、ヘッドセット１００を囲む領域である。たとえば、局所領域は、ヘッドセット１００を着用しているユーザが内側にいる室内であることがあるか、またはヘッドセット１００を着用しているユーザは外側にいることがあり、局所領域は外側領域である。このコンテキストにおいて、ヘッドセット１００はＶＲコンテンツを生成する。代替的に、いくつかの実施形態では、ＡＲコンテンツおよび／またはＭＲコンテンツを生成するために、局所領域からの光が１つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素１２０の一方または両方は少なくとも部分的に透明である。

いくつかの実施形態では、ディスプレイ要素１２０は画像光を生成せず、代わりに、局所領域からの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素１２０の一方または両方は、補正なし（非処方）のレンズ、またはユーザの視力の障害を補正するのを助ける（たとえば、単焦点、２焦点および３焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））処方レンズであり得る。いくつかの実施形態では、ディスプレイ要素１２０は、太陽からユーザの目を保護するために偏光および／または着色され得る。

いくつかの実施形態では、ディスプレイ要素１２０は追加の光学ブロック（図示せず）を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素１２０からの光をアイボックスに導く１つまたは複数の光学要素（たとえば、レンズ、フレネルレンズなど）を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、またはそれらの何らかの組合せであり得る。

ＤＣＡは、ヘッドセット１００を囲む局所領域の一部分についての深度情報を決定する。ＤＣＡは、１つまたは複数の撮像デバイス１３０と、（図１Ａに示されていない）ＤＣＡコントローラとを含み、照明器１４０をも含み得る。いくつかの実施形態では、照明器１４０は局所領域の一部分を光で照明する。光は、たとえば、赤外（ＩＲ）における構造化光（たとえば、ドットパターン、バーなど）、飛行時間のためのＩＲフラッシュなどであり得る。いくつかの実施形態では、１つまたは複数の撮像デバイス１３０は、照明器１４０からの光を含む、局所領域の部分の画像をキャプチャする。図示のように、図１Ａは単一の照明器１４０と２つの撮像デバイス１３０とを示す。代替実施形態では、照明器１４０はなく、少なくとも２つの撮像デバイス１３０がある。

ＤＣＡコントローラは、キャプチャされた画像と、１つまたは複数の深度決定技法とを使用して局所領域の部分についての深度情報を計算する。深度決定技法は、たとえば、直接飛行時間（ＴｏＦ）深度検知、間接ＴｏＦ深度検知、構造化光、受動的立体解析、能動的立体解析（照明器１４０からの光によってシーンに追加されるテクスチャを使用する）、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。

音声システムは音声コンテンツを与える。音声システムは、トランスデューサアレイと、センサーアレイと、音声コントローラ１５０とを含む。しかしながら、他の実施形態では、音声システムは異なる構成要素および／または追加の構成要素を含み得る。同様に、場合によっては、音声システムの構成要素に関して説明した機能は、ここで説明する様式とは異なる様式で構成要素間に配分され得る。たとえば、音声コントローラの機能のいくつかまたはすべてはリモートサーバによって実行され得る。

トランスデューサアレイはユーザに音を提示する。トランスデューサアレイは複数のトランスデューサを含む。トランスデューサはスピーカー１６０または組織トランスデューサ１７０（たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ）であり得る。スピーカー１６０はフレーム１１０の外側に示されているが、スピーカー１６０はフレーム１１０中に収納され得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット１００は、提示された音声コンテンツの指向性を改善するために、フレーム１１０に一体化された複数のスピーカーを含むスピーカーアレイを含む。組織トランスデューサ１７０は、ユーザの頭部に結合し、音を生成するためにユーザの組織（たとえば、骨または軟骨）を直接振動させる。トランスデューサの数および／または場所は、図１Ａに示されているものとは異なり得る。

センサーアレイはヘッドセット１００の局所領域内で音を検出する。センサーアレイは複数の音響センサー１８０を含む。音響センサー１８０は、局所領域（たとえば、室内）における１つまたは複数の音源から放出される音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換するように構成される。音響センサー１８０は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するために好適である同様のセンサーであり得る。

いくつかの実施形態では、１つまたは複数の音響センサー１８０が各耳の外耳道に配置され得る（たとえば、バイノーラルマイクロフォンとして働く）。いくつかの実施形態では、音響センサー１８０は、ヘッドセット１００の外面に配置されるか、ヘッドセット１００の内面に配置されるか、ヘッドセット１００とは別個（たとえば、何らかの他のデバイスの一部）であるか、またはそれらの何らかの組合せであり得る。音響センサー１８０の数および／または場所は、図１Ａに示されているものとは異なり得る。たとえば、音響検出場所の数は、収集される音声情報の量を増加させ、情報の感度および／または正確さを高めるために増加させられ得る。音響検出場所は、マイクロフォンが、ヘッドセット１００を着用しているユーザを囲む広範囲な方向における音を検出することが可能であるように配向させられ得る。

音声コントローラ１５０は、センサーアレイによって検出された音を記述する、センサーアレイからの情報を処理する。音声コントローラ１５０はプロセッサとコンピュータ可読記憶媒体とを備え得る。音声コントローラ１５０は、到来方向（ＤＯＡ）推定値を生成すること、音響伝達関数（たとえば、アレイ伝達関数および／または頭部伝達関数）を生成すること、音源の場所を追跡する、音源の方向にビームを形成すること、音源を分類すること、スピーカー１６０のための音フィルタを生成すること、またはそれらの何らかの組合せを行うように構成され得る。

位置センサー１９０は、ヘッドセット１００の動きに応答して１つまたは複数の測定信号を生成する。位置センサー１９０はヘッドセット１００のフレーム１１０の一部分上に位置し得る。位置センサー１９０は慣性測定ユニット（ＩＭＵ）を含み得る。位置センサー１９０の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、動きを検出する別の好適なタイプのセンサー、ＩＭＵの誤り訂正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー１９０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せに位置し得る。

いくつかの実施形態では、ヘッドセット１００は、ヘッドセット１００の位置に対する同時位置特定およびマッピング（ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）（ＳＬＡＭ）と、局所領域のモデルの更新とを行い得る。たとえば、ヘッドセット１００は、カラー画像データを生成するパッシブカメラアセンブリ（ＰＣＡ）を含み得る。ＰＣＡは、局所領域のいくつかのまたはすべての画像をキャプチャする１つまたは複数の赤、緑、青（ＲＧＢ）カメラを含み得る。いくつかの実施形態では、ＤＣＡの撮像デバイス１３０のいくつかのまたはすべてはＰＣＡとしても機能し得る。ＰＣＡによってキャプチャされた画像およびＤＣＡによって決定された深度情報は、局所領域のパラメータを決定すること、局所領域のモデルを生成すること、局所領域のモデルを更新すること、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー１９０は室内のヘッドセット１００の位置（たとえば、場所および姿勢）を追跡する。ヘッドセット１００の構成要素に関する追加の詳細について以下で図１０とともに説明する。

図１Ｂは、１つまたは複数の実施形態による、ヘッドマウントディスプレイ（ＨＭＤ）として実装されたヘッドセットの第２の実施形態の斜視図である。ＡＲシステムおよび／またはＭＲシステムについて説明する実施形態では、ＨＭＤの前側の部分は可視帯域（約３８０ｎｍ～７５０ｎｍ）において少なくとも部分的に透明であり、ＨＭＤの前側とユーザの目との間にあるＨＭＤの部分は少なくとも部分的に透明である（たとえば、部分的に透明な電子ディスプレイ）。ＨＭＤは前面剛体１１５とバンド１７５とを含む。ヘッドセット１０５は、図１Ａを参照しながら上記で説明した同じ構成要素の多くを含むが、ＨＭＤフォームファクタと一体化するために改変される。たとえば、ＨＭＤは、ディスプレイアセンブリと、ＤＣＡと、音声システムと、位置センサー１９０とを含む。図１Ｂは、照明器１４０と、複数のスピーカー１６０と、複数の撮像デバイス１３０と、複数の音響センサー１８０と、位置センサー１９０とを示す。

個人化された音声コンテンツを与えるためのシステム環境
図２は、１つまたは複数の実施形態による、ヘッドセットを介してユーザに個人化された音声コンテンツを与えるためのシステム環境を示す。システム環境２００は、ネットワーク２５０を介して接続された、ヘッドセット２１０と、撮像システム２２０と、等化システム２３０と、オンラインシステム２４０とを含む。システム環境２００は、本明細書で説明するよりも少ないまたは追加の構成要素を含むことができる。さらに、構成要素の構造および／または機能は、本明細書で説明するものとは異なり得る。

ヘッドセット２１０は、ユーザの頭部領域においてユーザによって着用されるように構成されたデバイス（たとえば、ヘッドセット１００、ヘッドセット１０５）である。ヘッドセット２１０は、ヘッドセット２１０を着用しているユーザに音声コンテンツを送信するように構成された音声システム２１５を含む。音声システム２１５は、ユーザに音声コンテンツを与えるための１つまたは複数のトランスデューサ（たとえば、スピーカー）を含むことができる。音声システム２１５については図１０に関して以下でより詳細に説明する。いくつかの実施形態では、ヘッドセット２１０は、ユーザに他のタイプのコンテンツ（たとえば、デジタルコンテンツ、ハプティックコンテンツ）を与えるための追加の構成要素（たとえば、ディスプレイシステム、ハプティックフィードバックシステム）を含む。さらに、ヘッドセット２１０は、デバイスを着用しているユーザに対するヘッドセット２１０の位置を決定するための１つまたは複数の視覚マーカーを含むことができる。マーカーはヘッドセット２１０のフレーム（たとえば、フレーム１１０）に沿って配置され得る。他のマーカーとヘッドセット２１０とに対するマーカーの位置は既知である。マーカーについては図６Ａ～図６Ｂに関して以下でより詳細に説明する。

撮像システム２２０は、ユーザの頭部の少なくとも一部分、ヘッドセット２１０、および／またはヘッドセット２１０を着用しているユーザの１つまたは複数の画像をキャプチャするように構成された撮像デバイス２２５を含む。撮像デバイス２２５は、マルチスペクトルカメラ、ステレオカメラ、ＣＣＤカメラ、単レンズカメラ、ハイパースペクトル撮像システム、ＬＩＤＡＲシステム（光検出および測距システム）、ＤＣＡ、動力計（ｄｙａｎｍｏｍｅｔｅｒ）、ＩＲカメラ、いくつかの他の撮像デバイス、またはそれらの何らかの組合せなど、任意の好適なタイプのセンサーであり得る。したがって、撮像デバイス２２５は、ＲＧＢ画像、深度画像（たとえば、構造化光カメラ、立体カメラなどを使用してキャプチャされた３Ｄ画像）、または何らかの他の好適なタイプの画像をキャプチャすることができる。一実施形態では、撮像デバイス２２５は、画像キャプチャ機能をもつユーザデバイス（たとえば、スマートフォン、タブレット、ラップトップ）である。撮像デバイス２２５は、追加または代替として、ビデオをキャプチャすることができる。図２では、撮像システム２２０はヘッドセット２１０とは別個として示されているが、代替実施形態では、撮像システム２２０はヘッドセット２１０中に含まれる。たとえば、撮像デバイス２２５は、ヘッドセット２１０に結合されたカメラ、またはヘッドセット２１０中に組み込まれたカメラ（たとえば、撮像デバイス１３０）であり得る。

いくつかの実施形態では、撮像システム２２０は、撮像デバイス２２５によってキャプチャされた画像に関連付けられた深度情報を決定するために、１つまたは複数の撮像技法（たとえば、ステレオ三角測量、シートオブライト（ｓｈｅｅｔｏｆｌｉｇｈｔ）三角測量、構造化光解析、飛行時間解析、干渉法）を適用することができる。特定の実施形態では、撮像システム２２０は、ユーザの画像をキャプチャするＤＣＡを含み、ＤＣＡは、キャプチャされた画像を使用してユーザの頭部についての深度情報を決定する。深度情報は、キャプチャされた画像中の面とＤＣＡとの間の距離を記述する。ＤＣＡは、立体視と、フォトメトリック（ｐｈｏｔｏｍｅｔｒｉｃ）ステレオと、飛行時間（ＴｏＦ）と、構造化光（ＳＬ）とのうちの１つまたは複数を使用して深度情報を決定し得る。ＤＣＡは、キャプチャされた画像から深度情報を計算するか、または深度情報を抽出するためにキャプチャされた画像を別の構成要素（たとえば、等化システム２３０）に送ることができる。撮像システム２２０がＤＣＡを含まない実施形態では、撮像システム２２０は、深度情報を決定するために、キャプチャされた画像を等化システム２３０または何らかの他のデバイスおよび／またはコンソールに与え得る。

等化システム２３０は、ヘッドセット２１０の音声出力がユーザの耳におけるターゲット応答に一致するように、ヘッドセット２１０を介してユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整する、ユーザのための等化フィルタを生成する。一実施形態では、等化フィルタは、耳入口点（ｅａｒｅｎｔｒａｎｃｅｐｏｉｎｔ）（ＥＥＰ）または鼓膜基準点（ｄｒｕｍｒｅｆｅｒｅｎｃｅｐｏｉｎｔ）（ＤＲＰ）における音声出力とターゲット応答との間の差に基づいて生成される。この実施形態では、ＥＥＰは外耳道の入口位置を指し、ＤＲＰは鼓膜の場所を指す。ターゲット応答、およびターゲット応答がどこで物理的に定義されるかは、提示された音声材料のタイプによって異なり得る。一実施形態では、ターゲット応答は、ＥＥＰにおいて測定されるフラットな周波数応答であり得る。一実施形態では、等化フィルタは、２つの複素周波数応答（すなわち、ターゲット応答と予測された応答と）の間の比としての伝達関数に基づいて生成される。

したがって、等化フィルタは、コンテンツ作成者が音声出力が聞かれることを意図したようにユーザが音声出力を聞くように、ユーザの耳に基づいて音声出力を調整する。図２では、等化システム２３０はヘッドセット２１０とは別個として示されているが、いくつかの実施形態では、等化システム２３０はヘッドセット２１０中に含まれ得る。いくつかの実施形態では、等化システム２３０は、撮像システム２２０から受信された画像および／またはビデオに基づいてユーザの頭部（たとえば、耳）の少なくとも一部分の表現を生成する。等化システム２３０は、表現に基づいてユーザの耳における（たとえば、ヘッドセット２１０からの）音声出力をシミュレートし、ユーザの耳における音声出力とターゲット応答との間の差に基づいてユーザのための等化フィルタを決定することができる。ターゲット応答は、耳の形状とフィットメントとにおける差がなければ標準となるであろう、コンテンツ作成者が音がユーザによって聞かれることをどのように意図するかである。ターゲット応答は、その場合、最も高い達成可能な音質の音声出力の理想的なバージョンである。したがって、ユーザが、合理的に可能な限りターゲット応答に近い音声出力のバージョンを聞くように、等化フィルタは、耳の形状とフィットメントとにおける差を考慮するために、ヘッドセット２１０を介してユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータの補償の量を規定する。等化システム２３０については図３に関して以下でより詳細に説明する。

オンラインシステム２４０は、ユーザプロファイル情報と、ユーザに提示されるべきコンテンツとを維持する。たとえば、オンラインシステム２４０はソーシャルネットワーキングシステムであり得る。いくつかの実施形態では、オンラインシステム２４０はヘッドセット２１０のユーザのプロファイルを記憶する。したがって、等化システム２３０は、１つまたは複数の等化フィルタを含む音声プロファイルをオンラインシステム２４０に送信することができ、オンラインシステム２４０は、ユーザのオンラインプロファイルとともに等化フィルタをもつ音声プロファイルを記憶することができる。オンラインシステム１４０は、シングルユーザのための１つまたは複数のデバイスに対応する個人化された等化フィルタを記憶することができる。たとえば、オンラインシステム１４０は、ヘッドセット１００のための個人化された等化フィルタと、ユーザのためのヘッドセット１０５のための別の個人化された等化フィルタとを記憶することができる。したがって、各デバイスのための等化フィルタは、ユーザにコンテンツを与えるときに等化フィルタを取り出し、使用することができる、ヘッドセット１００とヘッドセット１０５とによって取出し可能である。したがって、ユーザは、個人化された等化フィルタを生成するためのプロセスを再実行することなしにヘッドセット２１０を使用することができる。

ネットワーク２５０は、データ送信のための好適な任意の通信ネットワークであり得る。ネットワーク２５０は、一般に、インターネットであるが、限定はしないが、ローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、モバイルワイヤードまたはワイヤレスネットワーク、プライベートネットワーク、または仮想プライベートネットワークを含む、任意のネットワークであり得る。いくつかの例示的な実施形態では、ネットワーク２５０は、インターネットであり、標準の通信技術および／またはプロトコルを使用する。したがって、ネットワーク２５０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、３Ｇ、４Ｇ、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩｅｘｐｒｅｓｓＡｄｖａｎｃｅｄＳｗｉｔｃｈｉｎｇなどの技術を使用するリンクを含むことができる。いくつかの例示的な実施形態では、それらのエンティティは、上記で説明した技術の代わりにまたはそれらに加えてカスタムおよび／または専用データ通信技術を使用する。

等化システム
上記で説明したように、等化システム２３０は、ヘッドセット２１０のユーザのための個人化された等化フィルタを生成するように構成される。等化システム２３０は画像分析モジュール３０５と音声カスタマイズモデル３２５とを含む。他の実施形態では、等化システム２３０は、本明細書で説明するよりも少ないまたは大きい構成要素を含むことができる。さらに、構成要素の機能は、以下で説明するものとは異なって配分され得る。

画像分析モジュール３０５は、ユーザの頭部および／または耳の、ユーザによってキャプチャされた１つまたは複数の画像から情報を抽出するように構成された特徴抽出モジュール３１０を含む。特徴抽出モジュール３１０は、システム環境２００の１つまたは複数の構成要素（たとえば、ヘッドセット２１０、撮像システム２２０）から画像を受信する。画像は、ユーザの頭部の一部分（たとえば、耳）、ユーザがヘッドセット（たとえば、ヘッドセット１００）またはヘッドマウントディスプレイ（たとえば、ヘッドセット１０５）を着用している間のユーザの頭部の一部分であり得る。特徴抽出モジュール３１０は、画像から情報（たとえば、深度情報、色情報）を抽出し、ユーザの耳および／または頭部を記述する特徴（たとえば、寸法、形状）を決定するために１つまたは複数の技法および／またはモデルを適用することができる。例としては、範囲撮像技法、機械学習モデル（たとえば、特徴識別モデル）、アルゴリズムなどがある。一実施形態では、特徴抽出モジュール３１０は、ユーザの物理的特性を記述する人体測定的特徴（たとえば、耳の寸法、耳の形状、頭部のサイズなど）を抽出する。

いくつかの実施形態では、特徴抽出モジュール３１０は、機械学習モデルを使用してトレーニングされる。特徴抽出モジュール３１０は、前に識別された特徴をもつ他のユーザの画像を使用してトレーニングされ得る。たとえば、複数の画像は、ユーザの耳および／または頭部の識別された特徴（たとえば、耳たぶのサイズおよび形状、頭部上の耳の位置など）を用いて（たとえば、人間によって、別のモデルによって）ラベリングされ得る。画像分析モジュール３０５は、特徴抽出モジュール３１０をトレーニングするために、画像と、関連付けられた特徴とを使用することができる。

画像分析モジュール３０５は、特徴抽出モジュール３１０によって抽出された情報（たとえば、深度情報）に基づいて１つまたは複数の深度マップを生成するように構成された深度マップ生成器３１５をさらに含む。深度マップ生成器３１５は、ユーザの頭部の少なくとも一部分の深度マップを作成し、ユーザの特徴の相対位置を識別することができる。深度マップは、ユーザの頭部の画像からの当該の特徴（たとえば、耳）間の位置または空間関係を示す。たとえば、深度マップは、ユーザの左耳と右耳との間の距離、または目および肩など、他の特徴に対するユーザの耳の位置を示し得る。同様に、深度マップ生成器３１５は、ヘッドセットを着用している頭部の画像から、ヘッドセットを着用しているユーザの頭部の深度マップを作成するために使用され得る。いくつかの実施形態では、深度マップ生成器３１５は、単独の（すなわち、ユーザによって着用されていない）ヘッドセットの受信された画像を使用してヘッドセットの深度マップを作成するために使用され得る。

再構成モジュール３２０は、特徴抽出モジュール３１０によって抽出された特徴、および／または深度マップ生成器３１５によって生成された深度マップに基づいて、ユーザの頭部の少なくとも一部分の３Ｄ表現を生成する。より詳細には、再構成モジュール３２０はユーザの耳の一方または両方の表現を生成し得る。一例では、再構成モジュール３２０は、一方の耳（たとえば、左耳）の表現を生成し、他方の耳（たとえば、右耳）の鏡像表現を生成する。さらに、または代替的に、再構成モジュール３２０は、たとえば、目、耳、首、および肩など、ユーザの頭部の特徴の位置を記述する、ユーザの頭部の３次元メッシュ表現を生成することができる。再構成モジュール３２０は、ヘッドセットを着用しているユーザの頭部の表現を取得するためにユーザの頭部の特徴をヘッドセット２１０の特徴と組み合わせ得る。いくつかの実施形態では、ユーザによって着用されているヘッドセット２１０は、デバイスを識別するための一意の既知の識別子を有し得るので、ヘッドセット２１０の表現は事前決定され得る。いくつかの実施形態では、ユーザによって着用されているヘッドセット２１０は、着用されているときに撮像デバイス２２５を使用して撮影されたデバイスの画像から識別され得る。

いくつかの実施形態では、再構成モジュール３２０は、テストヘッドセットを着用している被験者の頭部画像と、被験者の耳における測定された音声出力とに基づいて、ユーザのＰＣＡベースの表現を生成する。ＰＣＡベース表現では、ユーザの頭部またはユーザの頭部の特徴（たとえば、耳の形状）は、主成分と対応するＰＣＡ係数との積の線形結合として表される。この目的で、再構成モジュール３２０は、データベースから、たとえば、テストトランスデューサのセット（たとえば、スピーカーアレイ）から画像とユーザの耳における測定された音声出力とを受信する。被験者（たとえば、５００－２１５被験者）の受信された画像に基づいて、再構成モジュール３２０は、線形無相関主成分のセットを決定するために直交変換を使用する主成分分析（ＰＣＡ）を実行する。たとえば、被験者の耳の上のヘッドセットの向きはＰＣＡの焦点であり得る。

再構成モジュール３２０は、図８Ａ～図８Ｂに関して以下で説明するＰＣＡベースのジオメトリを決定するためにＰＣＡモデルを生成することができる。ＰＣＡモデルは、等化システム２３０において生成され、実行されるとして説明したが、ＰＣＡモデルは別個の計算デバイス上で実行され得る。そのようなケースでは、ＰＣＡの結果は、処理され、ユーザのＰＣＡベース表現を処理するために再構成モジュール３２０に与えられる。

音声カスタマイズモデル３２５は、ユーザのための耳における音声出力を予測し、耳における音声出力とターゲット応答との間の差に基づいてユーザのための個別化された等化フィルタを生成するように構成される。音声カスタマイズモデル３２５は、音シミュレーションモジュール３３０と、音声予測モジュール３３５と、等化フィルタ生成器３４５とを含む。他の実施形態では、音声カスタマイズモデル３２５は、本明細書で説明しない追加の構成要素を含むことができる。

音シミュレーションモジュール３３０は、再構成モジュール３２０によって生成された表現を使用して、ユーザの耳における音声ソース（たとえば、スピーカー、スピーカーアレイ、ヘッドセットのトランスデューサなど）からの音声出力をシミュレートする。一例では、音シミュレーションモジュール３３０は、ユーザの頭部の少なくとも一部分の表現に基づいて、ユーザの耳におけるシミュレートされた音声出力を生成する。別の例では、音シミュレーションモジュール３３０は、ヘッドセット２１０（たとえば、ヘッドセット１００、ヘッドセット１０５）を着用しているユーザの頭部の少なくとも一部分の表現に基づいて、ユーザの耳におけるシミュレートされた音声出力を生成する。さらに、表現中のヘッドセット２１０は複数のトランスデューサ（たとえば、スピーカー）を含み得、表現中のトランスデューサ（またはそれの何らかのサブセット）について、音シミュレーションモジュール３３０はトランスデューサからユーザの耳への音の伝搬をシミュレートする。音シミュレーションモジュール３３０はまた、ユーザの耳の一方または両方における音声出力をシミュレートし得る。

一実施形態では、音シミュレーションモジュール３３０は数値シミュレーションエンジンである。耳におけるシミュレートされた音声出力を取得するために、音シミュレーションモジュール３３０は、（ｉ）たとえば、ＣａｒｌｏｓＡ．Ｂｒｅｂｂｉａら、「ＢｏｕｎｄａｒｙＥｌｅｍｅｎｔＭｅｔｈｏｄｓｉｎＡｃｏｕｓｔｉｃｓ」、Ｓｐｒｉｎｇｅｒ；１ｅｄ．，ＩＳＢＮ１８５１６６６７９６（１９９１）、およびＧｕｍｅｒｏｖＮ．Ａ．ら、「ＡｂｒｏａｄｂａｎｄｆａｓｔｍｕｌｔｉｐｏｌｅａｃｃｅｌｅｒａｔｅｄｂｏｕｎｄａｒｙｅｌｅｍｅｎｔｍｅｔｈｏｄｆｏｒｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌＨｅｌｍｈｏｌｔｚｅｑｕａｔｉｏｎ」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１２５，ｉｓｓｕｅ１，１９１～２０５ページ（２００９）に記載されている境界要素法（ＢＥＭ）、（ｉｉ）たとえば、Ｔｈｏｍｐｓｏｎ、Ｌ．Ｌ．、「Ａｒｅｖｉｅｗｏｆｆｉｎｉｔｅ－ｅｌｅｍｅｎｔｍｅｔｈｏｄｓｆｏｒｔｉｍｅ－ｈａｒｍｏｎｉｃａｃｏｕｓｔｉｃｓ」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１１９，ｉｓｓｕｅ３，１３１５～１３３０ページ（２００６）に記載されている有限要素法（ＦＥＭ）、（ｉｉｉ）たとえば、Ｔａｆｌｏｖｅ、Ａら「ＣｏｍｐｕｔａｔｉｏｎａｌＥｌｅｃｔｒｏｄｙｎａｍｉｃｓ：ＴｈｅＦｉｎｉｔｅ－ＤｉｆｆｅｒｅｎｃｅＴｉｍｅ－ＤｏｍａｉｎＭｅｔｈｏｄ」、ＴｈｉｒｄＥｄｉｔｉｏｎ；ｃｈａｐ．１，４．，ＡｒｔｅｃｈＨｏｕｓｅＰｕｂｌｉｓｈｅｒｓ（２００５）、およびＹｅｅ、Ｋ．、「ＮｕｍｅｒｉｃａｌｓｏｌｕｔｉｏｎｏｆｉｎｉｔｉａｌｂｏｕｎｄａｒｙｖａｌｕｅｐｒｏｂｌｅｍｓｉｎｖｏｌｖｉｎｇＭａｘｗｅｌｌ’ｓｅｑｕａｔｉｏｎｓｉｎｉｓｏｔｒｏｐｉｃｍｅｄｉａ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ，ｖｏｌ．１４，ｉｓｓｕｅ３，３０２～３０７ページ（１９６６）に記載されている有限差時間領域（ＦＤＴＤ）方法、（ｉｖ）たとえば、Ｓａｋａｍｏｔｏ、Ｓ．ら「Ｎｕｍｅｒｉｃａｌａｎａｌｙｓｉｓｏｆｓｏｕｎｄｐｒｏｐａｇａｔｉｏｎｉｎｒｏｏｍｓｕｓｉｎｇｔｈｅｆｉｎｉｔｅｄｉｆｆｅｒｅｎｃｅｔｉｍｅｄｏｍａｉｎｍｅｔｈｏｄ」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、ｖｏｌ．１２０、ｉｓｓｕｅ５、３００８（２００６）、およびＳａｋａｍｏｔｏ、Ｓ．ら「Ｃａｌｃｕｌａｔｉｏｎｏｆｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅｓａｎｄａｃｏｕｓｔｉｃｐａｒａｍｅｔｅｒｓｉｎａｈａｌｌｂｙｆｉｎｉｔｅ－ｄｉｆｆｅｒｅｎｃｅｔｉｍｅ－ｄｏｍａｉｎｍｅｔｈｏｄ」、ＡｃｏｕｓｔｉｃａｌＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ｖｏｌ．２９，ｉｓｓｕｅ４（２００８）に記載されているフーリエ擬スペクトル時間領域（ＰＳＴＤ）方法など、様々なシミュレーション方式を使用し得る。

音声予測モジュール３３５は、スペクトル成分および音響群遅延など、ヘッドセット２１０のユーザの耳における音声出力の特徴を予測するように構成される。音声予測モジュール３３５は、特徴抽出モジュール３１０によって抽出された特徴、再構成モジュール３２０によって生成されたユーザの頭部の少なくとも一部分の表現、および／または音シミュレーションモジュール３３０によって実行されたシミュレーションに基づいて、耳における予測された音声出力を決定することができる。耳における予測された音声出力は、音シミュレーションモジュール３３０によって生成された、耳におけるシミュレートされた音声出力であり得る。代替的に、音声予測モジュール３３５は、図９Ａ～図９Ｂに関して以下でより詳細に説明する、機械学習モデルを使用して耳における予測された音声出力を決定する。たとえば、音声予測モジュール３３５は、特徴抽出モジュール３１０によって抽出された特徴を、特徴に基づいて耳における音声出力を決定するように構成された機械学習モデルに入力することができる。

音声予測モジュール３３５は、頭部と耳のジオメトリとの画像とビデオとの入力データから直接、１つまたは複数の機械学習技法を使用してトレーニングされ得る。一実施形態では、音声予測モジュール３３５は、決定された頻度で定期的に再トレーニングされる。音声予測モジュール３３５は、入力として働く正のトレーニングセットと負のトレーニングセットとの特徴ベクトルを使用してトレーニングされ得る。線形サポートベクターマシン（線形ＳＶＭ）、他のアルゴリズムのためのブースティング（たとえば、ＡｄａＢｏｏｓｔ）、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ（ｎａｉｖｅＢａｙｅｓ）、メモリベース学習、ランダムフォレスト、バッギング木、決定木、ブースト木、ブーストスタンプ（ｂｏｏｓｔｅｄｓｔｕｍｐ）、近傍法、ｋ近傍法、カーネルマシン、確率モデル、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ）、マルコフ確率場、マニホールド学習、一般化線形モデル、一般化インデックスモデル、カーネル回帰、またはベイジアン回帰など、異なる機械学習技法が異なる実施形態において使用され得る。音声予測モジュール３３５をトレーニングすることについては図９Ａに関して以下でより詳細に説明する。

等化フィルタ生成器３４５は、ユーザに対してカスタマイズされた等化フィルタを生成する。一実施形態では、等化フィルタ生成器３４５は、音声予測モジュール３３５によって予測されたユーザの耳における予測された音声出力に基づいて等化フィルタを生成する。別の実施形態では、等化フィルタ生成器３４５は、音シミュレーションモジュール３３０によってシミュレートされたユーザの耳における音声出力に基づいて等化フィルタを生成する。本明細書の他の箇所で説明したように、等化フィルタは、ヘッドセット２１０によって音声出力に適用されたとき、ユーザのために音声出力の１つまたは複数の音響パラメータを調整するように構成される。たとえば、等化フィルタは、ピッチ、ダイナミクス、音色など、他の音響パラメータを調整するように構成され得る。等化フィルタは、ハイパスフィルタ、ローパスフィルタ、パラメトリック個別化等化フィルタ、グラフィック等化フィルタ、または任意の他の好適なタイプの個別化された等化フィルタであり得る。いくつかの実施形態では、等化フィルタ生成器３４５は、既存の等化フィルタのグループから等化フィルタを選択するか、既存の等化フィルタのパラメータを調整するか、新しい等化フィルタを生成するか、またはユーザの耳における予測された音声出力に基づいて等化フィルタ生成器３４５によって前に生成された等化フィルタを調整する。等化フィルタ生成器３４５は等化フィルタをヘッドセット２１０に与えることができ、ヘッドセット２１０は、ユーザに個別化された音声コンテンツを与えるために等化フィルタを採用することができる。さらに、または代替的に、等化フィルタ生成器３４５は、オンラインシステム２４０のユーザのプロファイルに関連する等化フィルタを記憶するためにオンラインシステム２４０に等化フィルタを与えることができる。

例示的な方法
図４Ａは、１つまたは複数の実施形態による、ユーザ４０５の頭部の画像をキャプチャする撮像デバイス２２５の例示的なビューである。図４Ａの実施形態では、撮像デバイス２２５は、少なくともユーザの耳を含む画像をキャプチャする。撮像デバイス２２５は、さらに、異なる角度と向きにおいてユーザの頭部の画像をキャプチャすることができる。たとえば、ユーザ４０５（または何らかの他の当事者）は、キャプチャされた画像がユーザ４０５の頭部の異なる部分をカバーするように、撮像デバイス２２５を彼／彼女の頭部に対する異なるロケーションに配置することができる。さらに、ユーザ４０５は、撮像デバイス２２５をユーザ４０５に対して異なる角度および／または距離に保持し得る。たとえば、ユーザ４０５は、ユーザ４０５の顔の正面の腕を伸ばした距離に撮像デバイス２２５を保持し、ユーザ４０５の顔の画像をキャプチャするために撮像デバイス２２５を使用し得る。ユーザ４０５はまた、ユーザ４０５の耳および／または肩の画像をキャプチャするために、撮像デバイス２２５がユーザ４０５の頭部の側面のほうに向けられた状態で、撮像デバイス２２５を腕を伸ばした距離よりも短い距離に保持し得る。いくつかの実施形態では、撮像デバイス２２５は、ユーザの左耳の画像とユーザの右耳の両方をキャプチャするように配置される。代替的に、撮像デバイス２２５は、両方の耳が単一の画像またはビデオ中にキャプチャされるように、ユーザの頭部の１８０度パノラマビューをキャプチャすることができる。

いくつかの実施形態では、撮像デバイス２２５は、特徴認識ソフトウェアを使用し、当該の特徴（たとえば、耳、肩）が認識されたときに画像を自動的にキャプチャする。さらに、または代替的に、撮像デバイス２２５は、当該の特徴が撮像デバイス２２５の視界中にあるときに、画像をキャプチャするようにユーザにプロンプトすることができる。いくつかの実施形態では、撮像デバイス２２５は、ユーザ４０５に対する特定の角度および／または距離からユーザ４０５の頭部の複数の画像をキャプチャするようにユーザ４０５を導くグラフィカルユーザインターフェース（ＧＵＩ）を有するアプリケーションを含む。たとえば、ＧＵＩは、ユーザ４０５の顔の前向き画像と、ユーザ４０５の右耳の画像と、ユーザ４０５の左耳の画像とを要求し得る。撮像デバイス２２５はまた、（たとえば、画像品質、画像中にキャプチャされた特徴に基づいて）画像が等化システム２３０による使用のために好適であるかどうかを決定することができる。

図４Ｂは、１つまたは複数の実施形態による、図４Ａにおける撮像デバイス２２５によってキャプチャされたユーザ４０５の画像の側面図を示す。キャプチャされた画像の焦点はユーザの耳４０７である。いくつかの実施形態では、等化システム２３０は、ユーザの耳４０７および／またはユーザの頭部に関連付けられた特徴を決定するために、図４Ｂに示された画像を使用することができる。撮像デバイス２２５は、ユーザの頭部に関連付けられた追加の特徴を決定するために追加の画像をキャプチャすることができる。

図４Ａは、ユーザ４０５の頭部の画像をキャプチャする撮像デバイス２２５を示すが、撮像デバイス２２５は、ヘッドセット（たとえば、ヘッドセット１００、ヘッドセット１０５）を着用しているユーザの画像をキャプチャすることもできる。

図５Ａは、１つまたは複数の実施形態による、ヘッドセット５１０を着用しているユーザ４０５の画像をキャプチャしている撮像デバイス２２５の例示的なビューである。ヘッドセット５１０は、ヘッドセット２１０、音声出力（たとえば、スピーカー）を含む何らかのニアアイディスプレイ、または音声出力を含む何らかの他のヘッドマウントディスプレイの実施形態であり得る。

図５Ｂは、１つまたは複数の実施形態による、図５Ａにおける撮像デバイス２２５によってキャプチャされた、ヘッドセット５１０を着用しているユーザ４０５の画像の側面図を示す。等化システム２３０は、以下でより詳細に説明する、ヘッドセット５１０の位置に対するユーザの耳４０７に関連付けられた特徴を決定することができる。一実施形態では、ヘッドセット５１０は１つまたは複数のトランスデューサを含み、１つまたは複数のトランスデューサのうちの少なくとも１つが、図５Ａに示された画像においてキャプチャされている。したがって、等化システム２３０はユーザの耳４０７と１つまたは複数のトランスデューサとの間の距離を決定することができる。

視覚モデルは、動作するためのスケールおよび向き情報から利益を得る。スケールまたは向き情報が符号化され得るいくつかのシナリオがあるが、これらのシナリオは、通常、自明でない。したがって、別の実施形態では、ヘッドセット（たとえば、ヘッドセット２１０）は、ユーザがヘッドセットを着用しているときの、ユーザの耳に対するヘッドセットの位置を決定するための１つまたは複数の視覚マーカーを含む。上記でおよび本明細書の他の箇所で説明したように、機械学習ベース予測エンジンは、ユーザの耳において測定されるヘッドセットからの個人化された音響伝達関数を予測するために、人間の頭部と耳との画像とビデオとを使用する。したがって、視覚的にキャプチャされた人体測定的特徴のサイズと向きとの正確な情報が、画像とビデオとがモデルのために有用であるための重要な要件である。この情報を与えるために、特徴の相対的距離がキャプチャされた画像およびビデオ中でルーラーを用いて測定される、耳および眼鏡フレームなどの当該の特徴上に描かれた既知の寸法をもつ基準視覚物体（たとえばコイン）またはマーカー（たとえば複数のドット）を含めることなど、様々な方法が考案され得る。しかしながら、これらの方法は、製品アプリケーションのために適切であるためには厄介であり、および／または信頼できない。

人体測定的特徴のサイズおよび向きの曖昧さを取り除くための１つの方法は、データ中に視覚的基準を与える明確な目的のためにヘッドセット中にデザインされたマーカーを使用することである。したがって、一実施形態では、画像および／またはビデオは、ヘッドセットが通常ユーザにフィットするようにユーザがヘッドセットを着用している間に撮影される。これらのマーカーの寸法は設計によって知られており、頭部と耳とに対するマーカーの向きは、各ユーザで変わらないことが予想されるので、マーカーは、画像の内側の信頼できる視覚的基準のための所望の特性を達成することができる。また、各ヘッドセットモデルの工業デザインの厳密な情報がそれから推測され得る画像中の製品モデルを識別するために、一意の寸法の各ヘッドセットモデルに関連付けられた一意のマーカー設計が使用され得る。

図６Ａは、１つまたは複数の実施形態による、複数のマーカー６１５を含むヘッドセット６１０を着用しているユーザ４０５の画像をキャプチャする撮像デバイス２２５の例示的なビューである。ヘッドセット６１０は、ヘッドセット２１０、音声出力（たとえば、スピーカー）を含む何らかのニアアイディスプレイ、または音声出力を含む何らかのヘッドマウントディスプレイの実施形態であり得る。

図６Ｂは、１つまたは複数の実施形態による、図６Ａにおける撮像デバイス２２５によってキャプチャされたユーザの頭部の一部分の画像を示す。画像中でキャプチャされたヘッドセット６１０は、それの右テンプルアーム６１２に沿って４つのマーカー６１５ａ、６１５ｂ、６１５ｃ、および６１５ｄを含む。ヘッドセット６１０は、ヘッドセット６１０が、左テンプルアーム（図示せず）上の対応する位置に同等のマーカーを含むように対称であり得る。他の実施形態では、ヘッドセット６１０は、右テンプルアーム、左テンプルアーム、および／またはフレームの前部に沿って任意の他の好適な数（たとえば、１つ、３つ、１０個）のマーカーを含み得る。図６Ｂの実施形態では、各マーカー６１５が等化システム２３０によって容易に識別され得るように、マーカー６１５はそれぞれ一意の形状およびサイズを有する。代替的に、マーカー６１５は実質的に同じサイズおよび／または形状であり得る。さらに、ヘッドセット６１０の寸法、およびヘッドセット６１０に対するマーカー６１５の位置は既知である。等化システム２３０は、ヘッドセット６１０に対するユーザの耳４０７に関する情報を決定するために、図６Ｂに示された画像を使用することができる。たとえば、等化システム２３０は各マーカーとユーザの耳４０７上の点との間の距離を決定することができる。

撮像システム２２０は、ユーザ４０５のための等化フィルタを生成するために、図４Ｂ、図５Ｂおよび図６Ｂに示された画像など、１つまたは複数の画像をキャプチャし、等化システム２３０に与えることができる。等化システム２３０はまた、ユーザの耳および／または頭部の他のビューの撮像デバイス２２５から追加の画像を受信することができる。等化システム２３０は、画像に基づいてユーザの耳における音声出力を決定することができる。さらに、画像は、以下でより詳細に説明する、等化システム２３０の１つまたは複数の構成要素をトレーニングするために使用され得る。

シミュレーションに基づいて等化フィルタを決定すること
ヘッドセットからの高忠実度音声エクスペリエンスは、音声出力のスペクトル成分と音響時間遅延とに関して、ヘッドセットの音声出力がユーザの耳における一貫したターゲット応答に一致することを必要とする。デバイスフレームにビルトインされた出力モジュールの場合、各ユーザによって聞かれる音声は、ユーザの人体測定的特徴（たとえば耳介サイズおよび形状）、フィットメントの不一致、環境要因に対するトランスデューサ構成要素感度、製造許容差など、変動の複数のソースの影響を受けるので、マネキンおよび／または耳カプラ上で調整された静的な非個人化されたＥＱは、この高忠実度音声出力を供給するためには不十分である。これらのうち、人ごとおよびフィット感ごとの変動は、音声出力の変動性の最も大きい部分の原因であり、ユーザの頭部および／または耳の形状と、ヘッドセット上の音声出力モジュールとユーザの耳との間の相対位置とによって決定される。

テンプルアームに埋め込まれたスピーカーモジュールをもつフレームからなるオープンイヤー音声出力をもつヘッドセットの場合、ユーザのフィッティング状態がデバイスの通常使用全体にわたって再現可能で、安定しており、それによって音声出力のフィット感ごとの変動を最小にするように、工業デザイン業務が採用され得る。しかしながら、人ごとの変動を除去するには、本明細書で説明するように、個別化された逆等化フィルタを適用することによって変動を補償するために使用され得る、ユーザの耳における音声出力の知識が必要である。この知識を取得するための１つの方法は、音声出力の未加工応答を測定するために、外耳道ロケーションへの入口にマイクロフォンを配置することである。この手法の実際の適用は、快適さと審美性に関する工業デザインにおいて、また、使いやすさに関するユーザエクスペリエンスにおいて課題をもたらす。したがって、着用者の耳における音声出力を測定または予測するための代替方法が望まれる。

一実施形態では、そのような目標を達成するための方法は、ヘッドセットを着用している被験者の画像とビデオとからなるデータセットと、対応するユーザの頭部および耳の高品質３Ｄ走査メッシュとを用いてトレーニングされた、ビデオと画像とに基づいてヘッドセットを着用している人間の頭部および／または耳の３Ｄジオメトリを再構成することが可能な、機械学習モデルを構築することを含む。再構成された３Ｄジオメトリは、次いで、ユーザの耳において観測される音声出力を予測する、ヘッドセット出力の耳への音響伝搬のための数値シミュレーションエンジンへの入力として使用される。この予測された応答は、ユーザの音声のためのデバイス固有の個人化された等化フィルタを生成するために使用され得る。

図７は、一実施形態による、ユーザの耳の表現に基づいてユーザのための等化フィルタを生成する例示的な方法を示す。ステップは、図２に示されたシステム２００の１つまたは複数の構成要素（たとえば等化システム２３０）によって実行され得る。他の実施形態では、ステップは、本明細書で説明する順序とは異なる順序で実行され得る。

等化システム２３０は、ユーザの頭部の少なくとも一部分の１つまたは複数の画像を受信する７１０。一実施形態では、等化システム２３０は、ユーザの耳、ユーザの頭部、および／またはヘッドセット２１０を着用しているユーザの１つまたは複数の画像を受信する。たとえば、等化システム２３０は、図４Ｂに示された画像を受信する。画像は、ユーザデバイス（たとえばセルフォン）に関連付けられた撮像デバイス２２５を使用してキャプチャされ得る。

等化システム２３０は、１つまたは複数の画像に基づいてユーザの頭部の少なくとも一部分の表現を生成する７２０。いくつかの実施形態では、等化システム２３０はユーザの耳の一方または両方の表現を生成する。代替的に、等化システム２３０は、ユーザの耳の一方または両方を含むユーザの頭部の表現を生成することができる。生成された表現は、ユーザの耳および／もしくは頭部を表す３Ｄメッシュ、または図８Ａ～８Ｂに関して以下でより詳細に説明するＰＣＡベースの表現であり得る。

等化システム２３０は、ユーザの耳の表現に基づいて、ヘッドセット中に含まれる音声システムからユーザの耳への音声伝搬のシミュレーションを実行する７３０。音声システムは、ヘッドセット２１０の左側および／または右側テンプルアーム（ｔｅｍｐｌｅａｒｍ）に結合されたトランスデューサのアレイであり得る。等化システム２３０は、シミュレーションに基づいて、予測される音声出力応答を決定する。たとえば、等化システム２３０は、シミュレーションに基づいて、ユーザによって知覚される１つまたは複数の音響パラメータ（たとえば、ピッチ、周波数、音量、バランスなど）を決定することができる。

等化システム２３０は、予測される音声出力応答に基づいて等化フィルタを生成する７４０。したがって、ユーザは、ヘッドセット２１０によって与えられるカスタム音声環境を経験することができる。たとえば、予測される音声出力応答は、ユーザの人体測定的特徴により、平均よりも高い周波数を有し得、等化システム２３０は、ユーザに与えられる音声コンテンツの周波数を低減する等化フィルタを生成する。いくつかの実施形態では、等化システム２３０は、ヘッドセット２１０が、ユーザに与えられる音声コンテンツを調整するために等化フィルタを使用することができるように、ヘッドセット２１０に等化フィルタを与える。さらに、等化システム２３０はオンラインシステム２４０に等化フィルタを与えることができ、オンラインシステム２４０は、オンラインシステム２４０に関連付けられたユーザのプロファイル（たとえばソーシャルネットワーキングプロファイル）に対する等化フィルタを記憶することができる。

いくつかの実施形態では、上記で説明したユーザの耳の表現は、トレーニングされたモデル（たとえばＰＣＡモデル）を使用して生成される。機械学習技法を採用することにより、再構成モジュール３２０はユーザの耳および／または頭部のより正確な表現を生成することが可能になる。図８Ａは、１つまたは複数の実施形態による、ＰＣＡモデル８６０のトレーニングのブロック図である。機械学習プロセスは、ユーザの耳のＰＣＡベースの表現を生成し、ユーザのための音声出力応答を決定するために使用され得る。

再構成モジュール３２０は、特徴抽出モジュール３１０および／または深度マップ生成器３１５からの情報（たとえば、ユーザの頭部の画像からの特徴）を受信する。その情報に基づいて、再構成モジュール３２０は、ＰＣＡモデル８６０を使用してユーザの頭部のＰＣＡベースの表現を生成する。一実施形態では、ＰＣＡベースの表現はヘッドセットの表現をも含む。したがって、再構成モジュール３２０は、ヘッドセットを着用している人間の頭部または人間の頭部の形状（たとえば耳形状）が、ヘッドセットを着用している代表的なテスト対象の頭部または頭部特徴の３次元形状の線形結合として表される、ＰＣＡベースの表現を生成するようにトレーニングされたＰＣＡモデル８６０を使用することができる。他の実施形態では、ＰＣＡモデル８６０は、ヘッドセットの代表的な画像の３次元形状の線形結合として表される、ヘッドセット（たとえばヘッドセット２１０）のＰＣＡベースの表現を生成するようにトレーニングされる。ＰＣＡモデル８６０はまた、人間の頭部または人間の頭部特徴の形状（たとえば耳形状）が、代表的なテスト対象の頭部または頭部特徴の３次元形状の線形結合として表される、ＰＣＡベースの表現を生成するようにトレーニングされ得る。他の実施形態では、ＰＣＡモデル８６０は、ヘッドセットを着用している頭部のＰＣＡベースの表現を取得するために、頭部のＰＣＡベースの表現をヘッドセットのＰＣＡベースの表現と組み合わせ得る。代替的に、ＰＣＡモデル８６０は、ヘッドセット（たとえばヘッドセット２１０）を着用している人間の頭部または人間の頭部特徴の形状（たとえば耳形状）が、ヘッドセットを着用している間の代表的なテスト対象の頭部または頭部特徴の３次元形状の線形結合として表される、ＰＣＡベースの表現を生成するようにトレーニングされ得る。

ヘッドセットを着用している頭部の耳の形状に関するＰＣＡ分析を使用する一例を挙げると、ランダムな耳形状の３次元形状Ｅは以下のように表され得る。
Ｅ＝Σ（α_ｉ×ε_ｉ）（１）
ここで、α_ｉはｉ番目の主成分（すなわち、３次元のｉ番目の代表的な耳形状）を表し、ε_ｉはｉ番目の主成分のＰＣＡ係数を表す。主成分の数（「ｉ」の数）は、その数が、それらの測定された音声出力応答を与えられたテスト対象の総数よりも小さくなるように選択される。一例では、主成分の数は５～１０個である。

いくつかの実施形態では、ＰＣＡベースの表現は、ヘッドセットを着用している同じユーザの頭部の３次元メッシュジオメトリに関するシミュレーションを実行することと比較して、ＰＣＡモデル８６０から取得されたＰＣＡベースの表現の使用がシミュレーションによってより正確な等化フィルタをもたらし得るように、ヘッドセットを着用しているテスト対象の頭部形状の表現と、それらの測定された音声出力応答とを使用して生成される。本明細書で説明するテスト対象は、それらの頭部形状ジオメトリ（または頭部形状画像）および音声出力応答がすでに知られている（すなわち「測定された音声出力応答」である）、人間、または人間の物理モデルを指す。音声出力応答を取得するために、テスト対象は、無響室（ａｎｅｃｈｏｉｃｃｈａｍｂｅｒ）中に配置され、テスト対象の耳に配置されたマイクロフォンを用いて１つまたは複数のトランスデューサからの音にさらされ得る。いくつかの実施形態では、テスト対象によって着用された（テストトランスデューサアレイを含む）テストヘッドセットについて音声出力応答が測定される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じである。

図８Ａに示されているように、ＰＣＡモデル８６０は音シミュレーションモジュール３３０にＰＣＡベースの表現を与え、音シミュレーションモジュール３３０は、ＰＣＡベースの表現を使用して、シミュレートされた音声出力応答を実行する。等化システム２３０は、図８Ｂに関して以下でより詳細に説明する、ＰＣＡモデル８６０を更新するために、テスト対象の測定された音声出力応答とシミュレートされた音声出力応答とを比較することができる。ＰＣＡモデルが決定および／または更新された後に、ＰＣＡモデル８６０は、ＰＣＡモデル８６０に従って、ヘッドセットを着用しているテスト対象の頭部の画像と、それらのＰＣＡベースの表現とを使用してトレーニングされる。トレーニングされたＰＣＡモデル８６０は、ヘッドセットを着用しているユーザの頭部の画像から、ヘッドセットを着用しているユーザの頭部のＰＣＡベースの表現を予測または推論することができる。いくつかの実施形態では、トレーニングされたＰＣＡモデル８６０は、ユーザの頭部の画像およびヘッドセットの他の画像から、ヘッドセットを着用しているユーザの頭部のＰＣＡベースの表現を予測または推論することができる。

いくつかの実施形態では、ＰＣＡモデル８６０の生成およびＰＣＡモデル８６０のトレーニングはオフラインで実行され得る。その場合、トレーニングされたＰＣＡモデル８６０は等化システム２３０の再構成モジュール３２０中に配備され得る。トレーニングされたＰＣＡモデル８６０を使用することにより、再構成モジュール３２０は、ロバストで効率的な様式でユーザのＰＣＡベースの表現を生成することが可能になる。

図８Ｂは、１つまたは複数の実施形態による、ＰＣＡモデル８６０を生成し、更新することの流れ図である。一実施形態では、図８Ｂのプロセスは等化システム２３０の構成要素によって実行される。他のエンティティは、他の実施形態におけるプロセスのいくつかまたはすべてのステップを実行し得る。同様に、実施形態は、異なるステップおよび／もしくは追加のステップを含むか、または異なる順序でステップを実行し得る。

等化システム２３０は初期ＰＣＡモデルを決定する８１０。いくつかの実施形態では、等化システム２３０は、ランダムな頭部形状またはその頭部形状の特徴を表すための主成分としてテスト対象の頭部のサブセット（またはそれの一部分）を選択することによって、初期ＰＣＡモデルを決定する。

等化システム２３０は、現在のＰＣＡモデルを使用してテスト画像のＰＣＡベースの表現を決定する８２０。たとえば、初期ＰＣＡモデルは、テストヘッドセットを着用している間のテスト対象の頭部またはテスト対象の頭部の部分（たとえば耳）のＰＣＡベースの表現を決定するために、テストトランスデューサアレイを含むテストヘッドセットを着用しているテスト対象の頭部の画像を処理する。すなわち、ヘッドセットを着用しているすべてのテスト対象の頭部形状（または頭部の部分の形状）が、式（１）を参照しながら上記で説明したように、テスト対象の頭部形状のサブセットの線形結合と対応するＰＣ係数との積として表される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じであることに留意されたい。

等化システム２３０は、シミュレートされた音声出力応答を生成するために、ＰＣＡベースの表現を使用して１つまたは複数のシミュレーションを実行する８３０。１つまたは複数のシミュレーションは、図３を参照しながら上記で説明したように、ＢＥＭ、ＦＥＭ、ＦＤＴＤ方法、またはＰＳＴＤ方法のうちの１つまたは複数を使用して、ＰＣＡベースの表現に対して実行される。シミュレーションの結果として、等化システム２３０は、現在のＰＣＡモデルに基づくテスト対象のシミュレートされた音声出力応答を取得する。

等化システム２３０は、テスト対象の測定された音声出力応答とシミュレートされた音声出力応答との間の差がしきい値よりも大きいかどうかを決定する８４０。差は、テスト対象の各々についての測定された音声出力応答とシミュレートされた音声出力応答との間の差の大きさの和であり得る。

差がしきい値よりも大きい場合、等化システム２３０はＰＣＡモデルを新しい現在のＰＣＡモデルに更新する８５０。ＰＣＡモデルの更新は、主成分の数を加算または減算すること、ＰＣ係数値を更新すること、または代表的な形状を更新することを含み得る。次いで、プロセスは、更新された現在のＰＣＡモデルに基づいてＰＣＡベースの表現の新しいセットを決定すること８２０に戻り、後続のステップを繰り返す。

等化システム２３０が、差がしきい値以下であることを決定した８４０場合、現在のＰＣＡモデルが、配備のための（すなわち、図７に関して上記で説明した等化システム２３０による使用のための）ＰＣＡモデルとして確定される８６０。

トレーニングされたモデルを使用して音声出力応答を決定する
別の実施形態では、等化システム２３０は、機械学習モデルを使用して音声出力応答を決定する。機械学習モデルは、ヘッドセットを着用している被験者（ｈｕｍａｎｓｕｂｊｅｃｔ）の画像およびビデオと、対応する対象の耳において測定された音声出力応答とからなるデータセットを用いてトレーニングされ得、それにより、それらの頭部および耳のジオメトリの画像およびビデオに基づいて新しいユーザへの音声出力応答を予測することが可能になる。したがって、この実施形態では、機械学習モデルは、画像およびビデオから視覚的に抽出された人体測定的特徴から直接、等化フィルタを計算する。

図９Ａは、一実施形態による、音声出力応答を予測するための機械学習プロセスを示す。特徴抽出モジュール３１０は、少なくともユーザの耳を含む、ユーザの頭部の画像を受信する。特徴抽出モジュール３１０は、ユーザの耳を記述する特徴を抽出し、抽出された特徴を音声予測モジュール３３５に与える。音声予測モジュール３３５は、応答モデル９７０（すなわち機械学習モデル）を使用してユーザの耳の特徴に基づいて音声出力応答を予測する。応答モデル９７０は、追加のユーザの画像と、それらの関連付けられた特徴と、測定された音声応答プロファイルとを使用して生成され、トレーニングされる。いくつかの実施形態では、応答モデル９７０は、追加のユーザの予測された音声出力応答を追加のユーザの測定された音声出力応答と比較することによって更新され得る。本明細書で説明する追加のユーザは、それらの人体測定的特徴および音声出力応答がすでに知られている、人間、または人間の物理モデルを指す。人体測定的特徴は、人間、または別のモデルによって決定され得る。音声出力応答を取得するために、追加のユーザは、無響室中に配置され、追加のユーザの耳に配置されたマイクロフォンを用いて１つまたは複数のトランスデューサからの音にさらされ得る。いくつかの実施形態では、追加のユーザによって着用された（テストトランスデューサアレイを含む）テストヘッドセットについて音声出力応答が測定される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じである。トレーニングされた応答モデル９７０は、図９Ｂに関して以下でより詳細に説明する、音声出力応答を予測するために使用され得る。

図９Ｂは、一実施形態による、応答モデル９７０を使用して決定されたユーザの耳における音声出力に基づいて等化フィルタを生成する方法を示す。ステップは、図２に示されたシステム環境２００の１つまたは複数の構成要素（たとえば等化システム２３０）によって実行され得る。一実施形態では、プロセスは、図９Ａに関して上記で説明した機械学習応答モデル９７０を使用して実行される。方法９００は、本明細書で説明するステップよりも少ないまたは多いステップを含むことができる。

等化システム２３０はユーザの耳および／または頭部の１つまたは複数の画像を受信する９１０。一実施形態では、等化システム２３０は、ユーザの耳、ユーザの頭部、および／またはヘッドセット２１０を着用しているユーザの１つまたは複数の画像（たとえば、図４Ｂ、図５Ｂ、および図６Ｂに示された画像）を受信する。画像は、撮像デバイス２２５（たとえばセルフォン）を使用してキャプチャされ得る。

等化システム２３０は、ユーザの耳を記述する画像から１つまたは複数の特徴を識別する９２０。特徴は、ユーザの耳および／または頭部に関係する人体測定的情報（たとえば、寸法、位置、形状）を記述し得る。特徴は、画像からの抽出された情報（たとえば、深度情報、色情報）に基づき得る。いくつかの実施形態では、特徴はヘッドセットに対して識別され得る。たとえば、図６Ｂの実施形態では、等化システムは、耳の特徴を決定するために、マーカー６１５に基づいてユーザの耳４０７に対するヘッドセット５１０の位置に関係する情報を抽出する。

等化システム２３０は特徴をモデル（たとえば応答モデル９７０）に入力として与える９３０。モデルは、特徴に基づいて音声出力応答を決定するように構成される。モデルは、各追加のユーザの音声出力応答が既知である、追加のユーザの耳の画像と、それらの画像から抽出された特徴とを使用してトレーニングされる。等化システム２３０は、ユーザのための音声出力応答を予測するために、モデルを周期的に再トレーニングし、トレーニングされたモデルを使用することができる。

等化システム２３０は、ユーザの耳における予測された音声出力に基づいて等化フィルタを生成する９４０。等化フィルタは、ヘッドセットによってユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成される。等化システム２３０は、ヘッドセット（たとえばヘッドセット６１０）が、ユーザに音声コンテンツを与えるために等化フィルタを使用することができるように、ヘッドセットに等化フィルタを与えることができる。さらに、等化システム２３０は、等化フィルタをユーザのオンラインプロファイルに関連付けるために、オンラインシステム２４０に等化フィルタを与えることができる。

トレーニングされた応答モデル９７０により、等化システム２３０は、ユーザの画像に基づいてユーザの耳における音声出力を迅速に効率的に予測することが可能になる。したがって、等化システム２３０は、ユーザのために音声コンテンツをカスタマイズし、それによりユーザの音声エクスペリエンスを向上させるように構成された、等化フィルタを生成することができる。いくつかの実施形態では、応答モデル９７０は複数のユーザおよび複数のデバイスのために使用され得る。代替的に、応答モデル９７０は、ユーザとデバイスとの特定の組合せについての音声出力を調整するための特定のデバイスに対してカスタマイズされ得る。たとえば、等化フィルタ生成器３４５は、それぞれのデバイスを着用しているユーザの画像と、そのデバイスについてのユーザの耳におけるユーザの測定された音声出力とに基づいて生成される、ヘッドセットデバイス１００のためのモデルと、ヘッドセットデバイス１０５のための別のモデルとを生成することができる。等化システム２３０は、このようにして、ユーザの各デバイスに固有の個別化された等化フィルタを生成することができる。

いくつかの実施形態では、図７および図８Ａ～図８Ｂに示されたプロセスの態様は、ユーザ音声エクスペリエンスを向上させるために、図９Ａ～図９Ｂに示されたプロセスの態様と組み合わせられ得る。たとえば、図９Ｂの実施形態では、等化システム２３０は、さらに、図７に関して説明したように、ユーザの耳の３Ｄ表現を生成することができ、３Ｄ表現は、シミュレーションを実行することなしに、予測される音声出力応答を生成するためにモデルに入力され得る。等化システム２３０は、さらに、モデルおよび／またはプロセスの組合せに基づいて等化フィルタを生成することができる。等化システム２３０は、以下でより詳細に説明する、ヘッドセット２１０の音声システム２１５に等化システム２３０を与えることができる。

音声システム
図１０は、１つまたは複数の実施形態による、音声システム２１５のブロック図である。図１Ａ中または図１Ｂ中の音声システムは音声システム２１５の一実施形態であり得る。いくつかの実施形態では、音声システム２１５は、ユーザのための音声コンテンツを生成および／または修正するために、等化システム２３０によって生成された個別化された音声出力応答を採用する。図２の実施形態では、音声システム２１５は、トランスデューサアレイ１０１０と、センサーアレイ１０２０と、音声コントローラ１０３０とを含む。音声システム２１５のいくつかの実施形態は、本明細書で説明する構成要素とは異なる構成要素を有する。同様に、場合によっては、機能は、本明細書で説明する様式とは異なる様式で構成要素間に配分され得る。

トランスデューサアレイ１０１０は、音声コンテンツを提示するように構成される。トランスデューサアレイ１０１０は複数のトランスデューサを含む。トランスデューサは、音声コンテンツを与えるデバイスである。トランスデューサは、たとえば、スピーカー（たとえばスピーカー１６０）、組織トランスデューサ（たとえば組織トランスデューサ１７０）、音声コンテンツを与える何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ１０１０は、気導（ａｉｒｃｏｎｄｕｃｔｉｏｎ）を介して（たとえば１つまたは複数のスピーカーを介して）、骨伝導を介して（１つまたは複数の骨伝導トランスデューサを介して）、軟骨伝導音声システムを介して（１つまたは複数の軟骨伝導トランスデューサを介して）、またはそれらの何らかの組合せを介して音声コンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ１０１０は、周波数範囲の異なる一部をカバーするために１つまたは複数のトランスデューサを含み得る。たとえば、圧電トランスデューサは、周波数範囲の第１の一部をカバーするために使用され得、可動コイルトランスデューサは、周波数範囲の第２の一部をカバーするために使用され得る。

骨伝導トランスデューサは、ユーザの頭部中の骨／組織を振動させることによって音圧波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、ユーザの頭蓋骨の一部分に外耳の後方で結合されるように構成され得る。骨伝導トランスデューサは、音声コントローラ１０３０からの振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回してユーザの蝸牛（ｃｏｃｈｌｅａ）に向かって伝搬する、組織伝搬（ｔｉｓｓｕｅ－ｂｏｒｎｅ）音圧波を生成する。

軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨（ａｕｒｉｃｕｌａｒｃａｒｔｉｌａｇｅ）の１つまたは複数の部分を振動させることによって音圧波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の１つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサはユーザの耳の外耳の後部に結合し得る。軟骨伝導トランスデューサは、外耳（たとえば、耳介、耳珠（ｔｒａｇｕｓ）、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ）の周囲の耳介軟骨に沿ってどこにでも位置し得る。耳介軟骨の１つまたは複数の部分を振動させることにより、外耳道の外側の空中音圧波、外耳道のいくつかの部分を振動させ、それにより外耳道内に空中音圧波を発生させる組織伝搬音圧波、またはそれらの何らかの組合せが生成され得る。発生した空中音圧波は鼓膜に向かって外耳道を伝搬する。

トランスデューサアレイ１０１０は音声コントローラ１０３０からの命令に従って音声コンテンツを生成する。いくつかの実施形態では、音声コンテンツは空間化（ｓｐａｔｉａｌｉｚｅ）される。空間化された音声コンテンツは、特定の方向および／またはターゲット領域（たとえば、局所領域中の対象および／または仮想対象）から発生するように思われる音声コンテンツである。たとえば、空間化された音声コンテンツは、音が、音声システム２１５のユーザから見て部屋の向こう側の仮想の歌手から発生しているように思わせることができる。トランスデューサアレイ１０１０はウェアラブルデバイス（たとえばヘッドセット１００またはヘッドセット１０５）に結合され得る。代替実施形態では、トランスデューサアレイ１０１０は、（たとえば、外部コンソールに結合された）ウェアラブルデバイスとは別個の複数のスピーカーであり得る。

一実施形態では、トランスデューサアレイ１０１０は、ユーザに音声コンテンツを与えるために、等化システム２３０によって生成された１つまたは複数の個別化された音声出力応答を使用する。トランスデューサアレイ１０１０中のトランスデューサの各々は、同じ個別化された音声出力応答を使用することができるか、または各トランスデューサは一意の個別化された音声出力応答に対応し得る。１つまたは複数の個別化された音声出力応答が等化システム２３０および／または音フィルタモジュール１０８０から受信され得る。

センサーアレイ１０２０は、センサーアレイ１０２０の周囲の局所領域内で音を検出する。センサーアレイ１０２０は、それぞれ、音波の空気圧変動を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット（たとえばヘッドセット１００および／またはヘッドセット１０５）上、ユーザ上（たとえば、ユーザの外耳道中）、ネックバンド上、またはそれらの何らかの組合せに配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ１０２０は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ１０１０によって生成された音声コンテンツを監視するように構成される。センサーの数を増加させることにより、トランスデューサアレイ１０１０によって生成される音場および／または局所領域からの音を記述する情報（たとえば指向性（ｄｉｒｅｃｔｉｏｎａｌｉｔｙ））の精度が改善され得る。

音声コントローラ１０３０は音声システム２１５の動作を制御する。図１０の実施形態では、音声コントローラ１０３０は、データストア１０３５と、ＤＯＡ推定モジュール１０４０と、伝達関数モジュール１０５０と、追跡モジュール１０６０と、ビームフォーミングモジュール１０７０と、音フィルタモジュール１０８０とを含む。音声コントローラ１０３０は、いくつかの実施形態では、ヘッドセットの内部に位置し得る。音声コントローラ１０３０のいくつかの実施形態は、本明細書で説明する構成要素とは異なる構成要素を有する。同様に、機能は、本明細書で説明する様式とは異なる様式で構成要素間に配分され得る。たとえば、コントローラのいくつかの機能はヘッドセットの外部で実行され得る。

データストア１０３５は、音声システム２１５による使用のための等化フィルタおよび他のデータを記憶する。データストア１０３５中のデータは、音声システム２１５の局所領域中に記録された音、音声コンテンツ、頭部伝達関数（ＨＲＴＦ）、１つまたは複数のセンサーのための伝達関数、１つまたは複数の音響センサーのためのアレイ伝達関数（ＡＴＦ）、個別化された音声出力応答、音声プロファイル、音源ロケーション、局所領域の仮想モデル、到来方向推定値、音フィルタ、および音声システム２１５による使用に関連がある他のデータ、またはそれらの任意の組合せを含み得る。

ＤＯＡ推定モジュール１０４０は、センサーアレイ１０２０からの情報に部分的に基づいて局所領域中の音源の位置を特定するように構成される。位置特定は、音源が音声システム２１５のユーザに対してどこに位置するかを決定するプロセスである。ＤＯＡ推定モジュール１０４０は、局所領域内の１つまたは複数の音源の位置を特定するためにＤＯＡ分析を実行する。ＤＯＡ分析は、音がそこから発生した方向を決定するために、センサーアレイ１０２０における各音の強度、スペクトル、および／または到着時間を分析することを含み得る。場合によっては、ＤＯＡ分析は、音声システム２１５がそれの中に位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。

たとえば、ＤＯＡ分析は、センサーアレイ１０２０からの入力信号を受信し、到来方向を推定するために入力信号にデジタル信号処理アルゴリズムを適用するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がそこでサンプリングされる、遅延アルゴリズムおよび加算アルゴリズムを含み得、サンプリングされた信号の得られた加重バージョンおよび遅延バージョンは、ＤＯＡを決定するためにまとめて平均化される。最小２乗平均（ＬＭＳ）アルゴリズムも、適応フィルタを作成するために実装され得る。この適応フィルタは、その場合、たとえば信号強度の差、または到着時間の差を識別するために使用され得る。これらの差は、次いで、ＤＯＡを推定するために使用され得る。別の実施形態では、ＤＯＡは、入力信号を周波数領域に変換し、処理すべき時間周波数（ＴＦ）領域内の特定のビンを選択することによって決定され得る。各選択されたＴＦビンは、そのビンが、直接経路音声信号をもつ音声スペクトルの一部分を含むかどうかを決定するために処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ１０２０が直接経路音声信号を受信した際の角度を識別するために分析され得る。決定された角度は、次いで、受信された入力信号についてのＤＯＡを識別するために使用され得る。上記に記載していない他のアルゴリズムも、ＤＯＡを決定するために、単独で、または上記のアルゴリズムと組み合わせて使用され得る。

いくつかの実施形態では、ＤＯＡ推定モジュール１０４０はまた、局所領域内の音声システム２１５の絶対位置に対するＤＯＡを決定し得る。センサーアレイ１０２０の位置は、外部システム（たとえば、ヘッドセットの何らかの他の構成要素、人工現実コンソール、マッピングサーバ、位置センサー（たとえば位置センサー１９０）など）から受信され得る。外部システムは、音声システム２１５の局所領域および位置がそれの中でマッピングされる、局所領域の仮想モデルを作成し得る。受信された位置情報は、（たとえばセンサーアレイ１０２０の）音声システム２１５の一部または全部のロケーションおよび／または方位を含み得る。ＤＯＡ推定モジュール１０４０は、受信された位置情報に基づいて、推定されたＤＯＡを更新し得る。

伝達関数モジュール１０５０は、１つまたは複数の音響伝達関数を生成するように構成される。一般に、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール１０５０は、音声システムに関連付けられた１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ＡＴＦは、マイクロフォンが空間中のポイントからの音をどのように受信するかを特徴づける。

ＡＴＦは、音音とセンサーアレイ１０２０中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、１つの音源について、センサーアレイ１０２０中の音響センサーの各々についての対応する伝達関数がある。総じて、伝達関数のセットはＡＴＦと呼ばれる。したがって、各音源について、対応するＡＴＦがある。音源は、たとえば、局所領域中で音を発生する誰かまたは何か、ユーザ、またはトランスデューサアレイ１０１０のうちの１つもしくは複数のトランスデューサであり得ることに留意されたい。センサーアレイ１０２０に対する特定の音源ロケーションのためのＡＴＦは、音が人間の耳に向かって進行する際にその音に影響を及ぼす人間の解剖学的構造（たとえば、耳形状、肩など）により、ユーザごとに異なり得る。したがって、センサーアレイ１０２０のＡＴＦは、音声システム２１５の各ユーザについて個人化される。

いくつかの実施形態では、伝達関数モジュール１０５０は音声システム２１５のユーザのための１つまたは複数のＨＲＴＦを決定する。ＨＲＴＦは、耳が空間中のポイントからの音をどのように受け取るかを特徴づける。人間に対する特定のソースロケーションのためのＨＲＴＦは、音が人間の耳に向かって進行する際にその音に影響を及ぼす人間の解剖学的構造（たとえば、耳形状、肩など）により、その人間の各耳に対して一意である（また、その人間に対して一意である）。いくつかの実施形態では、伝達関数モジュール１０５０は、較正プロセスを使用してユーザのためのＨＲＴＦを決定し得る。いくつかの実施形態では、伝達関数モジュール１０５０はユーザについての情報をリモートシステムに与え得る。リモートシステムは、たとえば、機械学習を使用してユーザに対してカスタマイズされたＨＲＴＦのセットを決定し、ＨＲＴＦのカスタマイズされたセットを音声システム２１５に与える。

追跡モジュール１０６０は、１つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール１０６０は、現在のＤＯＡ推定値を比較し、それらを前のＤＯＡ推定値の記憶された履歴と比較し得る。いくつかの実施形態では、音声システム２１５は、１秒に１回、または１ミリ秒に１回など、周期的なスケジュールでＤＯＡ推定値を再計算し得る。追跡モジュールは現在のＤＯＡ推定値を前のＤＯＡ推定値と比較し得、音源についてのＤＯＡ推定値の変化に応答して、追跡モジュール１０６０は、音源が移動したことを決定し得る。いくつかの実施形態では、追跡モジュール１０６０は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール１０６０は経時的な１つまたは複数の音源の動きを追跡し得る。追跡モジュール１０６０は、各時点における音源の数および各音源のロケーションについての値を記憶し得る。音源の数またはロケーションの値の変化に応答して、追跡モジュール１０６０は、音源が移動したことを決定し得る。追跡モジュール１０６０は位置特定分散の推定値を計算し得る。位置特定分散は動きの変化の各決定についての信頼水準として使用され得る。

ビームフォーミングモジュール１０７０は、他のエリアからの音をデエンファサイズしながら、あるエリア内の音源からの音を選択的にエンファサイズするために１つまたは複数のＡＴＦを処理するように構成される。センサーアレイ１０２０によって検出された音を分析する際に、ビームフォーミングモジュール１０７０は、局所領域の特定の領域の外側からのものである音をデエンファサイズしながら、その領域からの関連付けられた音をエンファサイズするために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール１０７０は、たとえば、ＤＯＡ推定モジュール１０４０および追跡モジュール１０６０からの異なるＤＯＡ推定値に基づいて、特定の音源からの音に関連付けられた音声信号を局所領域中の他の音源から分離し得る。ビームフォーミングモジュール１０７０は、このようにして、局所領域中の個別音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール１０７０は音源からの信号を増強し得る。たとえば、ビームフォーミングモジュール１０７０は、一定の周波数を上回る信号、一定の周波数を下回る信号、または一定の周波数間の信号を消去する、音フィルタを適用し得る。信号増強は、センサーアレイ１０２０によって検出された他の音に対して、所与の識別された音源に関連付けられた音を増強するように作用する。

音フィルタモジュール１０８０は、トランスデューサアレイ１０１０のための等化フィルタなど、音フィルタを決定する。いくつかの実施形態では、音フィルタは、音声コンテンツがターゲット領域から発生するように思われるように、音声コンテンツを空間化させる。音フィルタモジュール１０８０は、音フィルタを生成するためにＨＲＴＦおよび／または音響パラメータを使用し得る。音響パラメータは局所領域の音響特性を記述する。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール１０８０は音響パラメータのうちの１つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール１０８０は、（たとえば、図１１に関して以下で説明するように）マッピングサーバに音響パラメータを要求する。ある実施形態では、音フィルタモジュール１０８０は、１つまたは複数の等化フィルタ、等化システム２３０からの個別化された等化フィルタを受信する。音フィルタモジュール１０８０は音フィルタ（たとえば個別化された等化フィルタ）をトランスデューサアレイ１０１０に与える。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を生じさせ得る。

図１１は、１つまたは複数の実施形態による、ヘッドセット１１０５を含むシステム１１００である。いくつかの実施形態では、ヘッドセット１１０５は図１Ａのヘッドセット１００または図１Ｂのヘッドセット１０５であり得る。システム１１００は、人工現実環境（たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ）中で動作し得る。図１１によって示されているシステム１１００は、ヘッドセット１１０５と、コンソール１１１５に結合された入出力（Ｉ／Ｏ）インターフェース１１１０と、ネットワーク１１２０と、マッピングサーバ１１２５とを含む。図１１は、１つのヘッドセット１１０５と１つのＩ／Ｏインターフェース１１１０とを含む例示的なシステム１１００を示しているが、他の実施形態では、任意の数のこれらの構成要素がシステム１１００中に含まれ得る。たとえば、それぞれ、関連付けられたＩ／Ｏインターフェース１１１０を有する複数のヘッドセットがあり得、各ヘッドセットおよびＩ／Ｏインターフェース１１１０はコンソール１１１５と通信している。代替構成では、異なる構成要素および／または追加の構成要素がシステム１１００中に含まれ得る。さらに、図１１に示された構成要素のうちの１つまたは複数に関して説明した機能は、いくつかの実施形態では、図１１に関して説明した様式とは異なる様式で構成要素間に配分され得る。たとえば、コンソール１１１５の機能の一部または全部がヘッドセット１１０５によって与えられ得る。

ヘッドセット１１０５は、ディスプレイアセンブリ１１３０と、光学ブロック１１３５と、１つまたは複数の位置センサー１１４０と、ＤＣＡ１１４５とを含む。ヘッドセット１１０５のいくつかの実施形態は、図１１に関して説明した構成要素とは異なる構成要素を有する。さらに、図１１に関して説明した様々な構成要素によって与えられる機能は、他の実施形態におけるヘッドセット１１０５の構成要素間に異なって配分されるか、またはヘッドセット１１０５から離れた別個のアセンブリ中に取り込まれ得る。

ディスプレイアセンブリ１１３０は、コンソール１１１５から受信されたデータに従って、ユーザにコンテンツを表示する。ディスプレイアセンブリ１１３０は、１つまたは複数の表示要素（たとえば表示要素１２０）を使用してコンテンツを表示する。表示要素は、たとえば電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ１１３０は、単一のディスプレイ要素、または複数のディスプレイ要素（たとえば、ユーザの各目のためのディスプレイ）を含む。電子ディスプレイの例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、表示要素１２０は光学ブロック１１３５の機能の一部または全部をも含み得ることに留意されたい。

光学ブロック１１３５は、電子ディスプレイから受信された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット１１０５の一方または両方のアイボックスに提示し得る。様々な実施形態では、光学ブロック１１３５は１つまたは複数の光学要素を含む。光学ブロック１１３５中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック１１３５は異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック１１３５中の光学要素のうちの１つまたは複数は、部分反射または反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック１１３５による画像光の拡大および集束により、電子ディスプレイは、より大きいディスプレイよりも物理的に小さく、重量が軽く、消費する電力が少なくなることが可能になる。さらに、拡大により、電子ディスプレイによって提示されるコンテンツの視界が増加し得る。たとえば、表示されたコンテンツの視界は、表示されたコンテンツが、ユーザの視界のほとんど全部（たとえば対角約１１０度）、場合によっては全部を使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加または除去することによって調整され得る。

いくつかの実施形態では、光学ブロック１１３５は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、樽型歪みまたは糸巻き形歪み、縦色収差、または横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲（ｆｉｅｌｄｃｕｒｖａｔｕｒｅ）による誤差、非点収差、またはいずれかの他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに与えられるコンテンツは予歪され、光学ブロック１１３５が、コンテンツに基づいて生成された電子ディスプレイからの画像光を受信したとき、光学ブロック１１３５はその歪みを補正する。

位置センサー１１４０は、ヘッドセット１１０５の位置を示すデータを生成する電子デバイスである。位置センサー１１４０は、ヘッドセット１１０５の動きに応答して１つまたは複数の測定信号を生成する。位置センサー１９０は位置センサー１１４０の一実施形態である。位置センサー１１４０の例は、１つまたは複数のＩＭＵ、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、動きを検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー１１４０は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、迅速に測定信号をサンプリングし、サンプリングされたデータからヘッドセット１１０５の推定位置を計算する。たとえば、ＩＭＵは、速度ベクトルを推定するために、加速度計から受信された測定信号を時間の経過につれて積分し、ヘッドセット１１０５上の基準点の推定位置を決定するために、速度ベクトルを時間の経過につれて積分する。基準点は、ヘッドセット１１０５の位置を記述するために使用され得る点である。基準点は、一般に、空間中の点として定義され得るが、しかしながら、実際には、基準点はヘッドセット１１０５内の点として定義される。

ＤＣＡ１１４５は局所領域の一部分についての深度情報を生成する。ＤＣＡは、１つまたは複数の撮像デバイスと、ＤＣＡコントローラとを含む。ＤＣＡ１１４５は照明器をも含み得る。ＤＣＡ１１４５の動作および構造は図１Ａに関して上記で説明した。

音声システム１１５０はヘッドセット１１０５のユーザに音声コンテンツを与える。音声システム１１５０は、上記で説明した音声システム２１５と実質的に同じである。音声システム１１５０は、１つまたは複数の音響センサーと、１つまたは複数のトランスデューサと、音声コントローラとを備え得る。ある実施形態では、音声システム１１５０は、等化システム２３０から１つまたは複数の等化フィルタを受信し、等化フィルタを１つまたは複数のトランスデューサに適用する。音声システム１１５０は、ユーザに空間化された音声コンテンツを与え得る。いくつかの実施形態では、音声システム１１５０は、ネットワーク１１２０を介してマッピングサーバ１１２５に音響パラメータを要求し得る。音響パラメータは、局所領域の１つまたは複数の音響特性（たとえば、室内インパルス応答、残響時間、残響レベルなど）を記述する。音声システム１１５０は、たとえば、ＤＣ１１４５からの局所領域の少なくとも一部分を記述する情報、および／または位置センサー１１４０からのヘッドセット１１０５についてのロケーション情報を与え得る。音声システム１１５０は、マッピングサーバ１１２５から受信された音響パラメータのうちの１つまたは複数を使用して１つまたは複数の音フィルタを生成し、ユーザに音声コンテンツを与えるために音フィルタを使用し得る。

Ｉ／Ｏインターフェース１１１０は、ユーザが、アクション要求を送り、コンソール１１１５からの応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行する要求である。たとえば、アクション要求は、画像もしくはビデオデータのキャプチャを開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実行するための命令であり得る。Ｉ／Ｏインターフェース１１１０は１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、または、アクション要求を受信し、そのアクション要求をコンソール１１１５に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース１１１０によって受信されたアクション要求はコンソール１１１５に通信され、コンソール１１１５は、そのアクション要求に対応するアクションを実行する。いくつかの実施形態では、Ｉ／Ｏインターフェース１１１０は、Ｉ／Ｏインターフェース１１１０の初期位置に対するＩ／Ｏインターフェース１１１０の推定位置を示す較正データをキャプチャするＩＭＵを含む。いくつかの実施形態では、Ｉ／Ｏインターフェース１１１０は、コンソール１１１５から受信された命令に従ってユーザに触覚フィードバックを与え得る。たとえば、触覚フィードバックは、アクション要求が受信されたときに与えられるか、または、コンソール１１１５は、コンソール１１１５がアクションを実行したときにＩ／Ｏインターフェース１１１０に触覚フィードバックを生成させる命令をＩ／Ｏインターフェース１１１０に通信する。

コンソール１１１５は、ＤＣＡ１１４５、ヘッドセット１１０５、およびＩ／Ｏインターフェース１１１０のうちの１つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット１１０５に与える。図１１に示された例では、コンソール１１１５は、アプリケーションストア１１５５と、追跡モジュール１１６０と、エンジン１１６５とを含む。コンソール１１１５のいくつかの実施形態は、図１１に関して説明したモジュールまたは構成要素とは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明する機能は、図１１に関して説明した様式とは異なる様式でコンソール１１１５の構成要素間に配分され得る。いくつかの実施形態では、コンソール１１１５に関して本明細書で説明した機能はヘッドセット１１０５またはリモートシステムにおいて実装され得る。

アプリケーションストア１１５５は、コンソール１１１５による実行のための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット１１０５またはＩ／Ｏインターフェース１１１０の動きを介してユーザから受信された入力に応答するものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。

追跡モジュール１１６０は、ＤＣＡ１１４５、１つまたは複数の位置センサー１１４０、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット１１０５またはＩ／Ｏインターフェース１１１０の動きを追跡する。たとえば、追跡モジュール１１６０は、ヘッドセット１１０５からの情報に基づいて局所領域のマッピングにおけるヘッドセット１１０５の基準点の位置を決定する。追跡モジュール１１６０はまた、対象または仮想対象の位置を決定し得る。さらに、いくつかの実施形態では、追跡モジュール１１６０は、ヘッドセット１１０５の将来のロケーションを予測するために、位置センサー１１４０からのヘッドセット１１０５の位置を示すデータの部分、ならびにＤＣＡ１１４５からの局所領域の表現を使用し得る。追跡モジュール１１６０は、ヘッドセット１１０５またはＩ／Ｏインターフェース１１１０の推定または予測された将来の位置をエンジン１１６５に与える。

エンジン１１６５は、アプリケーションを実行し、追跡モジュール１１６０からのヘッドセット１１０５の位置情報、加速度情報、速度情報、予測される将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン１１６５は、ユーザへの提示のためにヘッドセット１１０５に与えるためのコンテンツを決定する。たとえば、受信された情報が、ユーザが左を向いたことを示す場合、エンジン１１６５は、仮想局所領域中または局所領域中のユーザの動きを反映するヘッドセット１１０５のためのコンテンツを生成し、それにより、追加のコンテンツを用いて局所領域を拡大する。さらに、エンジン１１６５は、Ｉ／Ｏインターフェース１１１０から受信されたアクション要求に応答して、コンソール１１１５上で実行しているアプリケーション内でアクションを実行し、そのアクションが実行されたというフィードバックをユーザに与える。与えられるフィードバックは、ヘッドセット１１０５を介した視覚または聴覚フィードバックであるか、またはＩ／Ｏインターフェース１１１０を介した触覚フィードバックであり得る。

ネットワーク１１２０はヘッドセット１１０５および／またはコンソール１１１５をマッピングサーバ１１２５に結合する。ネットワーク１１２０は、両方のワイヤレス通信システムおよび／またはワイヤード通信システムを使用するローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク１１２０はインターネットならびに携帯電話ネットワークを含み得る。一実施形態では、ネットワーク１１２０は標準的な通信技術および／またはプロトコルを使用する。したがって、ネットワーク１１２０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩエクスプレスアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク１１２０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク１１２０を介して交換されるデータは、バイナリ形式（たとえばポータブルネットワークグラフィックス（ＰＮＧ））、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などでの画像データを含む、技術および／またはフォーマットを使用して表され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）など、従来の暗号化技術を使用して暗号化され得る。

マッピングサーバ１１２５は、複数の空間を記述する仮想モデルを記憶するデータベースを含み得、仮想モデル中の１つのロケーションがヘッドセット１１０５の局所領域の現在の構成に対応する。マッピングサーバ１１２５は、ネットワーク１１２０を介してヘッドセット１１０５から、局所領域の少なくとも一部分を記述する情報、および／または局所領域についてのロケーション情報を受信する。マッピングサーバ１１２５は、受信された情報および／またはロケーション情報に基づいて、ヘッドセット１１０５の局所領域に関連付けられた仮想モデル中のロケーションを決定する。マッピングサーバ１１２５は、仮想モデル中の決定されたロケーション、および決定されたロケーションに関連付けられた任意の音響パラメータに部分的に基づいて、局所領域に関連付けられる１つまたは複数の音響パラメータを決定する（たとえば取り出す）。マッピングサーバ１１２５は、局所領域のロケーションと、局所領域に関連付けられた音響パラメータの任意の値とをヘッドセット１１０５に送信し得る。

追加の構成情報
実施形態の上記説明は例示のために提示したが、実施形態の上記説明は、網羅的なものでも、特許権を開示されている厳密な形態に限定するものでもない。当業者は、上記の開示を検討して、多くの改変および変形が可能であることを諒解し得る。

この説明のいくつかの部分では、情報に対する動作のアルゴリズムと記号表現とに関して実施形態について説明した。これらのアルゴリズムの説明および表現は、データ処理分野における当業者の仕事の本質を他の当業者に効果的に伝達するために、それらの当業者によって共通に使用される。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの構成をモジュールと呼ぶことが時々便利であることも証明されている。説明した動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて実施され得る。

本明細書で説明したステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールを用いて、単独で、または他のデバイスと組み合わせて実行または実装され得る。一実施形態では、ソフトウェアモジュールは、いずれかまたはすべての説明したステップ、動作、またはプロセスを実行するためにコンピュータプロセッサによって実行され得る、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を含むコンピュータプログラム製品を用いて実装される。

実施形態はまた、本明細書中の動作を実行するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／または、この装置は、コンピュータ中に記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを備え得る。そのようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するために好適な任意のタイプの媒体に記憶され得る。さらに、本明細書中で言及したいずれの計算システムも、単一のプロセッサを含み得るか、または、計算能力の向上のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

実施形態はまた、本明細書で説明した計算プロセスによって生成される生成物に関し得る。そのような生成物は、計算プロセスから得られる情報を含み得、その情報は非一時的有形コンピュータ可読記憶媒体上に記憶され、本明細書で説明したコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最後に、本明細書で使用した文言は、主に、読みやすさおよび教示目的のために選択されており、文言は、特許権を詳述または限定するためには選択されていないことがある。したがって、特許権の範囲は、この発明を実施するための形態によってではなく、むしろ、本明細書に基づく出願時に発行されるいずれかの請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載されている特許権の範囲を例示するものであるが、限定するものではない。

Claims

ユーザの耳を含む１つまたは複数の画像を受信することと、
前記１つまたは複数の画像から前記ユーザの前記耳の１つまたは複数の特徴を識別することと、
前記識別された１つまたは複数の特徴に基づいて、前記ユーザの前記耳の前記１つまたは複数の特徴を、前記ユーザの前記耳における音声出力を予測するように構成されたモデルに与えることと、
前記ユーザの前記耳における前記音声出力に基づいて等化フィルタを生成することであって、前記等化フィルタが、前記ユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することと
を含む方法。
前記生成された等化フィルタを、前記ユーザに音声コンテンツを与えるときに前記等化フィルタを使用するように構成されたヘッドセットに与えること
をさらに含む、請求項１に記載の方法。
前記等化フィルタが、前記ユーザに与えられる音声コンテンツに適用されたとき、前記ユーザの前記耳における前記予測された音声出力に基づいて前記ユーザのための前記音声コンテンツの１つまたは複数の音響パラメータを調整する、請求項１または請求項２に記載の方法。
前記ユーザのユーザプロファイルに関連する記憶のためのオンラインシステムに前記等化フィルタを与えることであって、前記等化フィルタが、前記ユーザにコンテンツを与える際に使用するための前記ユーザプロファイルへのアクセスを有する前記ユーザに関連付けられた１つまたは複数のヘッドセットによって取出し可能である、前記等化フィルタを与えること
をさらに含む、請求項１から３のいずれか一項に記載の方法。
複数のラベリングされた画像を使用して前記モデルをトレーニングすることであって、前記ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、前記耳における前記音声出力が前記追加のユーザにとって既知である、前記モデルをトレーニングすること
をさらに含む、請求項１から４のいずれか一項に記載の方法。
前記１つまたは複数の画像中の前記ユーザがヘッドセットを着用しており、前記１つまたは複数の特徴が、前記ユーザの前記耳に対する前記ヘッドセットの位置に少なくとも部分的に基づいて識別され、好ましくは、前記ヘッドセットが、眼鏡本体にそれぞれ結合した２つのアームをもつ眼鏡フレームを含み、前記１つまたは複数の画像が、複数のトランスデューサのうちの１つのトランスデューサを含む前記２つのアームのうちの１つの少なくとも一部分を含み、かつ／または、好ましくは、前記モデルが、前記ユーザの前記耳に対する前記複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて音声出力応答を決定するように構成された、請求項１から５のいずれか一項に記載の方法。
前記１つまたは複数の画像が、深度カメラアセンブリを使用してキャプチャされた深度画像である、請求項１から６のいずれか一項に記載の方法。
前記識別された１つまたは複数の特徴が、前記ユーザの前記耳の寸法または前記ユーザの前記耳の形状を記述する人体測定的特徴である、請求項１から７のいずれか一項に記載の方法。
前記ユーザの前記耳における前記決定された音声出力を前記ユーザの前記耳における測定された音声出力と比較することと、
前記比較に基づいて前記モデルを更新することと
をさらに含み、好ましくは、前記測定された音声出力応答が、
ヘッドセットを介して前記ユーザに音声コンテンツを与えることと、
前記ユーザの前記耳の近くに配置された１つまたは複数のマイクロフォンを使用して前記ユーザの前記耳における前記音声出力を分析することと
によって測定される、
請求項１から８のいずれか一項に記載の方法。
命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
ユーザの耳を含む１つまたは複数の画像を受信するステップと、
前記１つまたは複数の画像に基づいて前記ユーザの前記耳の１つまたは複数の特徴を識別するステップと、
前記識別された１つまたは複数の特徴に基づいて、前記１つまたは複数の特徴を、前記ユーザの前記耳における音声出力を決定するように構成されたモデルに与えるステップと、
前記ユーザの前記耳における前記音声出力に基づいて等化フィルタを生成することであって、前記等化フィルタが、前記ユーザに与えられる音声コンテンツの１つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成するステップと
を含むステップを実行させる、非一時的コンピュータ可読記憶媒体。
前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
複数のラベリングされた画像を使用して前記モデルをトレーニングすることであって、前記ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、音声出力応答が前記追加のユーザにとって既知である、前記モデルをトレーニングするステップを含むステップをさらに実行させる、請求項１０に記載の非一時的コンピュータ可読記憶媒体。
前記等化フィルタが、前記ユーザに与えられる音声コンテンツに適用されたとき、前記ユーザの前記耳における予測された音声出力に基づいて前記ユーザのための前記音声コンテンツの１つまたは複数の音響パラメータを調整し、かつ／または、好ましくは、前記１つまたは複数の画像が、深度カメラアセンブリを使用してキャプチャされた深度画像である、請求項１０または請求項１１に記載の非一時的コンピュータ可読記憶媒体。
前記１つまたは複数の画像中の前記ユーザがヘッドセットを着用しており、前記１つまたは複数の特徴が、前記ユーザの前記耳に対する前記ヘッドセットの位置に少なくとも部分的に基づいて識別される、請求項１０から１２のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
前記識別された１つまたは複数の特徴が、前記ユーザの前記耳の寸法または前記ユーザの前記耳の形状を記述する人体測定的特徴である、請求項１３に記載の非一時的コンピュータ可読記憶媒体。
前記ヘッドセットが、眼鏡本体にそれぞれ結合した２つのアームをもつ眼鏡フレームを含み、前記１つまたは複数の画像が、複数のトランスデューサのうちの１つのトランスデューサを含む前記２つのアームのうちの１つの少なくとも一部分を含み、好ましくは、前記モデルが、前記ユーザの前記耳に対する前記複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて前記ユーザの前記耳における前記音声出力を決定するように構成された、請求項１３または請求項１４に記載の非一時的コンピュータ可読記憶媒体。