JP2022542755A

JP2022542755A - センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム

Info

Publication number: JP2022542755A
Application number: JP2021572865A
Authority: JP
Inventors: アンドリューロビット，; ジェイコブライアンドンリー，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-26
Filing date: 2020-07-17
Publication date: 2022-10-07
Also published as: US10979838B2; WO2021021468A1; US20210029479A1; KR20220043164A; EP4005244A1; CN114080820A

Abstract

システムが、ローカルエリアの環境パラメータに基づいてセンサーアレイの音響センサーの選択を最適化することによって電力消費を低減する。本システムは、ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、処理回路とを含む。処理回路は、ローカルエリアの環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行うように構成される。【選択図】図３

Description

本開示は、一般に音響センサーアレイに関し、詳細には、環境インテリジェンスを使用したセンサーアレイ使用の最適化に関する。

エネルギー制限および熱放散は、ウェアラブルデバイスについての課題であり、ウェアラブルデバイス上でいくつかのタイプの機能性を実装することを困難にすることがある。たとえば、マイクロフォンアレイ処理は、オーディオデータをキャプチャするために電力を消費するセンサーアレイと、オーディオデータを処理するためのリアルタイムプロセスの重いアルゴリズムとを使用する。性能の十分なレベルを達成しながら、電力消費および処理要件を低減することが望ましい。

本発明によれば、センサーアレイを含むオーディオシステムによって、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することであって、オーディオシステムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく、オーディオデータを処理することとを含む、方法が提供される。

好ましくは、本方法は、音響センサーのサブセットをアクティブ化することをさらに含む。

好都合なことに、本方法は、サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化することをさらに含む。

好ましくは、センサーアレイの第１の音響センサーが、サブセットの外部にあり、第１の音響センサーはアクティブであり、本方法は、サブセットのオーディオデータを形成するために、センサーアレイによって生成されたオーディオデータから第１の音響センサーによって作り出されたオーディオデータを除去することをさらに含む。

好都合なことに、環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。

好ましくは、環境パラメータは、音響音源の数、音源のロケーション、音源の到来方向、または背景雑音のラウドネス、または背景雑音の空間特性のうちの１つを含む。

好都合なことに、オーディオデータを処理することは、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張（ｓｉｇｎａｌｅｎｈａｎｃｅｍｅｎｔ）、または空間フィルタ処理のうちの少なくとも１つを実施することを含む。

好ましくは、性能メトリックは、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力（ｌｉｓｔｅｎｉｎｇｅｆｆｏｒｔ）のうちの１つを含む。

好都合なことに、環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することは、環境パラメータと性能メトリックとを含む入力と、センサーアレイの音響センサーのサブセットを含む出力との間の関係を定義するニューラルネットワークを使用することをさらに含む。

好ましくは、方法は、センサーアレイに関連するロケーションに基づいてサーバから環境パラメータを受信することをさらに含む。

好都合なことに、本方法は、別のセンサーアレイを含むヘッドセットから性能メトリックを受信することをさらに含む。

好ましくは、本方法は、環境パラメータの変化に基づいて音響センサーのサブセットを更新することをさらに含む。

本発明のさらなる態様によれば、ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、処理回路とを備えるシステムであって、処理回路は、ローカルエリアの環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することであって、システムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく、オーディオデータを処理することとを行うように構成された、システムが提供される。

好ましくは、処理回路は、音響センサーのサブセットをアクティブ化するようにさらに構成される。

好都合なことに、処理回路は、サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化するようにさらに構成される。

好ましくは、センサーアレイの第１の音響センサーが、サブセットの外部にあり、第１の音響センサーはアクティブであり、処理回路は、サブセットのオーディオデータを形成するために、センサーアレイによって生成されたオーディオデータから第１の音響センサーによって作り出されたオーディオデータを除去するようにさらに構成される。

好ましくは、環境パラメータは、音響音源の数、音源のロケーション、音源の到来方向、背景雑音のラウドネス、または背景雑音の空間特性のうちの１つを含み、オーディオデータを処理するように構成された処理回路は、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張、または空間フィルタ処理のうちの少なくとも１つを実施するように構成されているオーディオコントローラを含む。

好都合なことに、性能メトリックは、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力を含む。

本発明のさらなる態様によれば、命令を記憶する非一時的コンピュータ可読媒体であって、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行わせる、非一時的コンピュータ可読媒体が提供される。

実施形態は、センサーアレイまたはオーディオ処理に関係する性能メトリックを満たすことに関してなど、高性能を維持しながら、電力消費を低減するために、センサーアレイからの音響センサーの最適サブセットを選択するための基礎として環境パラメータを使用することに関する。いくつかの実施形態は、センサーアレイの周囲のローカルエリアの環境パラメータを決定する、オーディオシステムによって実施される、方法を含む。センサーアレイは、ローカルエリアにおける音を検出するように構成された音響センサーを含む。センサーアレイについての性能メトリックが決定され、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択が決定される。センサーアレイの音響センサーのサブセットからのオーディオデータが処理される。オーディオシステムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく。

いくつかの実施形態は、センサーアレイとオーディオコントローラとを含むシステムを含む。センサーアレイは、ローカルエリアにおける音を検出するように構成された音響センサーを含む。オーディオコントローラは、ローカルエリアの環境パラメータを決定し、センサーアレイについての性能メトリックを決定する。オーディオコントローラは、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定し、センサーアレイの音響センサーのサブセットからのオーディオデータを処理する。システムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく。

いくつかの実施形態は、命令を記憶する非一時的コンピュータ可読媒体であって、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することとを行わせる、非一時的コンピュータ可読媒体を含む。命令は、さらに、１つまたは複数のプロセッサに、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行わせる。

１つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセットの斜視図である。１つまたは複数の実施形態による、ヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。１つまたは複数の実施形態による、オーディオシステムのブロック図である。１つまたは複数の実施形態による、ヘッドセット上の音響センサーを最適化するプロセスを示すフローチャートである。１つまたは複数の実施形態による、異なる残響時間についてのアレイ利得と音響センサーの数との間の関係を示すグラフである。１つまたは複数の実施形態による、ヘッドセットを含むシステム環境の図である。

図は、単に例示の目的で本開示の実施形態を図示する。本明細書で説明される開示の原理またはうたわれている利益から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

実施形態は、環境インテリジェンスを使用して空間音アプリケーションにおいて採用されるセンサーアレイについての電力消費を低減することに関する。環境インテリジェンスは、様々なタイプのセンサーによってキャプチャされた環境パラメータによって定義され得るような、環境に関する情報を指す。たとえば、センサーアレイの周囲のローカルエリアの環境パラメータとターゲット性能メトリックとが、決定され、センサーアレイから音響センサーの最適サブセットを選択するための基礎として使用される。環境パラメータは、音響センサーまたは他のタイプのセンサーによってキャプチャされたデータに基づいて決定され得る。選択は、音響センサーをアクティブ化または非アクティブ化すること、あるいは音響センサーのサブセットのみからデータを処理することを含み得る。したがって、ターゲット（たとえば、高い）性能を維持しながら、電力消費が低減される。一例では、ローカルエリアの環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。ターゲットアレイ利得を達成するために、より長い残響時間が、より多数のアクティブ化された音響センサーと対応する。ターゲットアレイ利得を達成するセンサーアレイの音響センサーのサブセットの選択が、ローカルエリアの残響時間に基づいて決定される。

本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において別様に使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドセット、独立型ヘッドセット、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

アイウェアデバイス構成
図１Ａは、１つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット１００の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ（ＮＥＤ）である。概して、ヘッドセット１００は、コンテンツ（たとえば、メディアコンテンツ）が、ディスプレイアセンブリおよび／またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット１００はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット１００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット１００は、フレームを含み、構成要素の中でも、１つまたは複数のディスプレイ要素１２０を含むディスプレイアセンブリと、深度カメラアセンブリ（ＤＣＡ）と、オーディオシステムと、位置センサー１９０とを含み得る。図１Ａは、ヘッドセット１００上の例示的なロケーションにおけるヘッドセット１００の構成要素を示すが、構成要素は、ヘッドセット１００上の他の場所に、ヘッドセット１００とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、図１Ａに示されているものよりも多いまたは少ない構成要素がヘッドセット１００上にあり得る。

フレーム１１０は、ヘッドセット１００の他の構成要素を保持する。フレーム１１０は、１つまたは複数のディスプレイ要素１２０を保持する前面部と、ユーザの頭部に付けるためのエンドピース（たとえば、テンプル）とを含む。フレーム１１０の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能（たとえば、調整可能なテンプルの長さ）であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分（たとえば、テンプルの先端、イヤピース）を含み得る。

１つまたは複数のディスプレイ要素１２０は、ヘッドセット１００を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素１２０を含む。いくつかの実施形態では、ディスプレイ要素１２０は、ヘッドセット１００のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット１００を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素１２０は導波路ディスプレイであり得る。導波路ディスプレイは、光源（たとえば、２次元光源、１つまたは複数の線光源、１つまたは複数の点光源など）と、１つまたは複数の導波路とを含む。光源からの光は、１つまたは複数の導波路中に内部結合され（ｉｎ－ｃｏｕｐｌｅｄ）、１つまたは複数の導波路は、ヘッドセット１００のアイボックス中に瞳複製（ｐｕｐｉｌｒｅｐｌｉｃａｔｉｏｎ）があるような様式で光を出力する。１つまたは複数の導波路からの光の内部結合（ｉｎ－ｃｏｕｐｌｉｎｇ）および／または外部結合（ｏｕｔｃｏｕｐｌｉｎｇ）が、１つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が１つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素（たとえば、導波路、ミラーなど）を含む。いくつかの実施形態では、ディスプレイ要素１２０の一方または両方が不透明であり、ヘッドセット１００の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット１００の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット１００を装着しているユーザが中にいる部屋であり得、または、ヘッドセット１００を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット１００はＶＲコンテンツを生成する。代替的に、いくつかの実施形態では、ＡＲおよび／またはＭＲコンテンツを作り出すために、ローカルエリアからの光が１つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素１２０の一方または両方は少なくとも部分的に透明である。

いくつかの実施形態では、ディスプレイ要素１２０は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素１２０の一方または両方は、補正なしのレンズ（非処方）であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ（たとえば、単焦点、二焦点、および三焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））であり得る。いくつかの実施形態では、ディスプレイ要素１２０は、太陽からユーザの眼を保護するために、偏光および／または色付けされ得る。

いくつかの実施形態では、ディスプレイ要素１２０は追加の光学ブロック（図示せず）を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素１２０からの光をアイボックスに向ける１つまたは複数の光学要素（たとえば、レンズ、フレネルレンズなど）を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。

ＤＣＡは、ヘッドセット１００の周囲のローカルエリアの一部分についての深度情報を決定する。ＤＣＡは、１つまたは複数のイメージングデバイス１３０と、ＤＣＡコントローラ（図１Ａに図示せず）とを含み、照明器１４０をも含み得る。いくつかの実施形態では、照明器１４０は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線（ＩＲ）における構造化光（たとえば、ドットパターン、バーなど）、飛行時間についてのＩＲフラッシュなどであり得る。いくつかの実施形態では、１つまたは複数のイメージングデバイス１３０は、照明器１４０からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、図１Ａは、単一の照明器１４０と２つのイメージングデバイス１３０とを示す。代替実施形態では、照明器１４０がなく、少なくとも２つのイメージングデバイス１３０がある。

ＤＣＡコントローラは、キャプチャされた画像と１つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間（ＴｏＦ）深度検知、間接ＴｏＦ深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析（照明器１４０からの光によってシーンに追加されたテクスチャを使用する）、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。

オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ１５０とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび／または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。

トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー１６０（たとえば、音響トランスデューサ）または組織トランスデューサ１７０（たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ）であり得る。スピーカー１６０はフレーム１１０の外部に示されているが、スピーカー１６０はフレーム１１０に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット１００は、提示されたオーディオコンテンツの方向性を改善するためにフレーム１１０に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ１７０は、ユーザの頭部に結合し、ユーザの組織（たとえば、骨または軟骨）を直接振動させて、音を生成する。トランスデューサの数および／またはロケーションは、図１Ａに示されているものとは異なり得る。

センサーアレイは、ヘッドセット１００のローカルエリア内の音を検出する。センサーアレイは、（各々、音響センサー１８０と呼ばれる）複数の音響センサー１８０ａ～ｈを含む。音響センサー１８０は、ローカルエリア（たとえば、部屋）中の１つまたは複数の音源から発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット（アナログまたはデジタル）にコンバートするように構成される。音響センサー１８０は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。センサーアレイは、オーディオコントローラ１５０からの命令に従って、各音響センサー１８０を動的にアクティブ化または非アクティブ化し得る。音響センサー１８０をアクティブ化することにより、音響センサー１８０がアクティブ状態になり、音響センサー１８０を非アクティブ化することにより、音響センサー１０が非アクティブ状態になる。いくつかの実施形態では、音響センサー１８０は、アクティブ状態において電源投入され、非アクティブ状態において電源切断される。

いくつかの実施形態では、１つまたは複数の音響センサー１８０は、各耳の耳道中に置かれ得る（たとえば、バイノーラルマイクロフォンとして働く）。音響センサー１８０は、トランスデューサとともに耳道中に置かれ得る。いくつかの実施形態では、音響センサー１８０は、ヘッドセット１００の外面上に置かれるか、ヘッドセット１００の内面上に置かれるか、ヘッドセット１００とは別個（たとえば、何らかの他のデバイスの一部）であるか、またはそれらの何らかの組合せであり得る。音響センサー１８０の数および／またはロケーションは、図１Ａに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および／または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット１００を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。

オーディオコントローラ１５０は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ１５０は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ１５０は、到来方向（ＤＯＡ）推定値を生成するか、音響伝達関数（たとえば、アレイ伝達関数および／または頭部伝達関数）を生成するか、音源のロケーションを追跡するか、音源の方向にビームを形成するか、音源を分類するか、スピーカー１６０のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。

オーディオコントローラ１５０は、ユーザのための１つまたは複数の音響伝達関数を生成するために音を検出する。音響伝達関数は、音が空間中の点からどのように受信されるかを特徴づける。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。１つまたは複数の音響伝達関数は、ヘッドセット１００、ヘッドセット１００を装着しているユーザ、またはその両方に関連し得る。オーディオコントローラ１５０は、次いで、ユーザのためのオーディオコンテンツを生成するために１つまたは複数の音響伝達関数を使用し得る。

オーディオコントローラ１５０は、センサーアレイの様々な音響センサー１８０をアクティブ化および非アクティブ化するための命令を生成する。命令は、ヘッドセット１００のセンサーアレイまたは他のセンサー（たとえば、イメージングデバイス１３０、位置センサー１９０など）によってキャプチャされた環境パラメータと、ターゲット性能メトリックとに基づいて生成され得る。

センサーアレイの音響センサー１８０の構成は変動し得る。ヘッドセット１００は、８つの音響センサー１８０を有するものとして図１Ａに示されているが、音響センサー１８０の数は増加または減少され得る。音響センサー１８０の数を増加させることは、収集されるオーディオ情報の量ならびにオーディオ情報の感度および／または精度を増加させ得る。音響センサー１８０の数を減少させることは、収集されるオーディオ情報を処理するためにオーディオコントローラ１５０によって必要とされる算出電力を減少させるか、またはヘッドセット１００の電力消費を減少させ得る。さらに、センサーアレイの各音響センサー１８０の位置は変動し得る。音響センサー１８０の位置は、ユーザ上の画定された位置、フレーム１１０上の画定された座標、各音響センサーに関連する配向、またはそれらの何らかの組合せを含み得る。たとえば、音響センサー１８０ａ、１８０ｂは、耳殻の後ろまたは耳介内もしくは窩内など、ユーザの耳の異なる部分上に配置され得るか、あるいは耳道内の音響センサー１８０に加えて耳上にまたは耳の周囲に追加の音響センサーがあり得る。ユーザの耳道の隣に音響センサー（たとえば、音響センサー１８０ａ、１８０ｂ）が配置されると、センサーアレイは、音がどのように耳道に到来するかに関する情報を収集することが可能になる。フレーム１１０上の音響センサー１８０は、テンプルの長さに沿って、ブリッジにわたって、ディスプレイ要素１２０の上方にまたは下方に、あるいはそれらの何らかの組合せで配置され得る。音響センサー１８０は、センサーアレイが、ヘッドセット１００を装着しているユーザの周囲の広範囲の方向における音波を検出することが可能であるように、配向され得る。

オーディオコントローラ１５０は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。各検出された音に関連する情報は、検出された音の周波数、振幅、および／または持続時間を含み得る。検出された音について、オーディオコントローラ１５０はＤｏＡ推定を実施し得る。ＤｏＡ推定は、検出された音がセンサーアレイの音響センサー１８０に到来した推定方向である。音がセンサーアレイの少なくとも２つの音響センサー１８０によって検出された場合、オーディオコントローラ１５０は、たとえば、三角測量を介して、検出された音の音源ロケーションまたは方向を推定するために、音響センサー１８０の知られている位置関係と、各音響センサーからのＤｏＡ推定とを使用することができる。音源ロケーション推定の精度は、音を検出した音響センサー１８０の数が増加するにつれて、および／または、音を検出した音響センサー１８０間の距離が増加するにつれて、増加し得る。

いくつかの実施形態では、オーディオコントローラ１５０は、オーディオデータセットを情報でポピュレートする。情報は、検出された音と、各検出された音に関連するパラメータとを含み得る。例示的なパラメータは、周波数、振幅、持続時間、ＤｏＡ推定、音源ロケーション、またはそれらの何らかの組合せを含み得る。各オーディオデータセットは、ヘッドセット１１０に対する異なる音源ロケーションに対応し、その音源ロケーションを有する１つまたは複数の音を含み得る。このオーディオデータセットは、その音源ロケーションについての１つまたは複数の音響伝達関数に関連し得る。１つまたは複数の音響伝達関数は、データセットに記憶され得る。代替実施形態では、各オーディオデータセットは、ヘッドセット１１０に対するいくつかの音源ロケーションに対応し、各音源ロケーションについての１つまたは複数の音を含み得る。たとえば、比較的互いの近くに位置する音源ロケーションは、一緒にグループ化され得る。オーディオコントローラ１５０は、音がセンサーアレイによって検出されたとき、オーディオデータセットを情報でポピュレートし得る。オーディオコントローラ１５０は、さらに、各検出された音についてＤｏＡ推定が実施されたかまたは音源ロケーションが決定されたとき、各検出された音についてのオーディオデータセットをポピュレートし得る。

いくつかの実施形態では、オーディオコントローラ１５０は、オーディオコントローラ１５０がＤｏＡ推定を実施する検出された音を選択する。オーディオコントローラ１５０は、オーディオデータセットに記憶された各検出された音に関連するパラメータに基づいて、検出された音を選択し得る。オーディオコントローラ１５０は、各検出された音に関連する記憶されたパラメータを評価し、１つまたは複数の記憶されたパラメータが対応するパラメータ条件を満たすかどうかを決定し得る。たとえば、パラメータがしきい値を上回るまたは下回る、あるいはターゲット範囲内に入る場合、パラメータ条件は満たされ得る。パラメータ条件が満たされた場合、オーディオコントローラ１５０は、検出された音についてＤｏＡ推定を実施する。たとえば、オーディオコントローラ１５０は、周波数範囲内の周波数、しきい値振幅を上回る振幅、しきい値持続時間を下回る持続時間、他の同様の変形態、またはそれらの何らかの組合せを有する検出された音について、ＤｏＡ推定を実施し得る。パラメータ条件は、履歴データに基づいて、オーディオデータセット中の情報の分析（たとえば、パラメータの収集された情報を評価し、平均を設定すること）に基づいて、またはそれらの何らかの組合せで、オーディオシステムのユーザによって設定され得る。オーディオコントローラ１５０は、検出された音のＤｏＡ推定および／または音源ロケーションを記憶するための、オーディオセット中の要素を作成し得る。いくつかの実施形態では、オーディオコントローラ１５０は、データがすでに存在する場合、オーディオセット中の要素を更新し得る。

いくつかの実施形態では、オーディオコントローラ１５０は、ヘッドセット１００の外部のシステムからヘッドセット１００の位置情報を受信し得る。位置情報は、ヘッドセット１００のロケーション、ヘッドセット１００またはヘッドセット１００を装着しているユーザの頭部の配向、あるいはそれらの何らかの組合せを含み得る。位置情報は、基準点に対して定義され得る。配向は、基準点に対する各耳の位置に対応し得る。システムの例は、イメージングアセンブリ、（たとえば、図７で説明されるような）コンソール、同時位置特定およびマッピング（ＳＬＡＭ：ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）システム、深度カメラアセンブリ、構造化光システム、または他の好適なシステムを含む。いくつかの実施形態では、ヘッドセット１００は、ＳＬＡＭ計算のために使用され得るセンサーを含み得、ＳＬＡＭ計算は、オーディオコントローラ１５０によって全体的にまたは部分的に行われ得る。オーディオコントローラ１５０は、連続的に、またはランダムに、または指定された間隔で、システムから位置情報を受信し得る。

一実施形態では、検出された音のパラメータに基づいて、オーディオコントローラ１５０は、１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ＡＴＦは、センサーアレイが空間中の点からどのように音を受信するかを特徴づける。詳細には、ＡＴＦは、その音源ロケーションにおける音のパラメータと、センサーアレイが音を検出したパラメータとの間の関係を定義する。音に関連するパラメータは、周波数、振幅、持続時間、ＤｏＡ推定などを含み得る。いくつかの実施形態では、センサーアレイの音響センサーのうちの少なくともいくつかが、ユーザによって装着されているヘッドセット１００に結合される。センサーアレイに対する特定の音源ロケーションについてのＡＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、ユーザによって異なり得る。したがって、センサーアレイのＡＴＦは、ヘッドセット１００を装着している各ユーザのために個人化される。ＡＴＦが生成されると、ＡＴＦは、ローカルメモリまたは外部メモリに記憶され得る。

ＨＲＴＦは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定の音源ロケーションについてのＨＲＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、人の各耳に固有である（および人に固有である）。たとえば、図１では、オーディオコントローラ１５０は、各耳について１つずつ、ユーザのための２つのＨＲＴＦを生成し得る。ＨＲＴＦまたはＨＲＴＦのペアが、空間中の特定の点から来たように思われる音を含むオーディオコンテンツを作成するために使用され得る。いくつかのＨＲＴＦは、オーディオコンテンツが空間中のいくつかの異なる点から来たように思われるように、各ＨＲＴＦまたはＨＲＴＦの各ペアが、空間中の異なる点に対応する、（たとえば、家庭用娯楽システム、劇場スピーカーシステム、没入型環境などのための）サラウンド音オーディオコンテンツを作成するために、使用され得る。いくつかの実施形態では、オーディオコントローラ１５０は、各検出された音のＤｏＡ推定に基づいて１つまたは複数の既存の音響伝達関数を更新し得る。既存の音響伝達関数は、ローカルメモリまたは外部メモリから取得されるか、あるいは外部システムから取得され得る。ヘッドセット１００の位置がローカルエリア内で変化するにつれて、オーディオコントローラ１５０は、新しい音響伝達関数を生成するか、または、それに応じて既存の音響伝達関数を更新し得る。ＨＲＴＦが生成されると、ＨＲＴＦは、ローカルメモリまたは外部メモリに記憶され得る。

位置センサー１９０は、ヘッドセット１００の運動に応答して１つまたは複数の測定信号を生成する。位置センサー１９０は、ヘッドセット１００のフレーム１１０の一部分に位置し得る。位置センサー１９０は、慣性測定ユニット（ＩＭＵ）を含み得る。位置センサー１９０の例は、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、ＩＭＵの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー１９０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで位置し得る。

いくつかの実施形態では、ヘッドセット１００は、ヘッドセット１００の位置のための同時位置特定およびマッピング（ＳＬＡＭ）と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット１００は、カラー画像データを生成するパッシブカメラアセンブリ（ＰＣＡ）を含み得る。ＰＣＡは、ローカルエリアの一部または全部の画像をキャプチャする１つまたは複数のＲＧＢカメラを含み得る。いくつかの実施形態では、ＤＣＡのイメージングデバイス１３０の一部または全部が、ＰＣＡとしても機能し得る。ＰＣＡによってキャプチャされた画像と、ＤＣＡによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー１９０は、部屋内のヘッドセット１００の位置（たとえば、ロケーションおよび姿勢）を追跡する。ヘッドセット１００の構成要素に関する追加の詳細は、図５に関して以下で説明される。

図１Ｂは、１つまたは複数の実施形態による、ＨＭＤとして実装されるヘッドセット１０５の斜視図である。ＡＲシステムおよび／またはＭＲシステムについて説明する実施形態では、ＨＭＤの前側の部分は、可視帯域（約３８０ｎｍ～７５０ｎｍ）内で少なくとも部分的に透明であり、ＨＭＤの前側とユーザの眼との間にあるＨＭＤの部分は、少なくとも部分的に透明である（たとえば、部分的に透明な電子ディスプレイ）。ＨＭＤは、前面剛体１１５とバンド１７５とを含む。ヘッドセット１０５は、図１Ａを参照しながら上記で説明された同じ構成要素の多くを含むが、ＨＭＤフォームファクタと一体化するように修正される。たとえば、ＨＭＤは、ディスプレイアセンブリと、ＤＣＡと、オーディオシステムと、位置センサー１９０とを含む。図１Ｂは、照明器１４０と、複数のスピーカー１６０と、複数のイメージングデバイス１３０と、複数の音響センサー１８０と、位置センサー１９０とを示す。

オーディオシステムの概観
図２は、１つまたは複数の実施形態による、オーディオシステム２００のブロック図である。図１Ａまたは図１Ｂ中のオーディオシステムは、オーディオシステム２００の一実施形態であり得る。オーディオシステム２００は、ユーザのための１つまたは複数の音響伝達関数を生成する。オーディオシステム２００は、次いで、ユーザのためのオーディオコンテンツを生成するために１つまたは複数の音響伝達関数を使用し得る。図２の実施形態では、オーディオシステム２００は、トランスデューサアレイ２１０と、センサーアレイ２２０と、オーディオコントローラ２３０とを含む。オーディオシステム２００のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。

トランスデューサアレイ２１０は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ２１０は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー（たとえば、スピーカー１６０）、組織トランスデューサ（たとえば、組織トランスデューサ１７０）、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ２１０は、空気伝導を介して（たとえば、１つまたは複数のスピーカーを介して）、骨伝導を介して（１つまたは複数の骨伝導トランスデューサを介して）、軟骨伝導オーディオシステムを介して（１つまたは複数の軟骨伝導トランスデューサを介して）、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ２１０は、周波数範囲の異なる部分をカバーするための１つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第１の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第２の部分をカバーするために可動コイルトランスデューサが使用され得る。

骨伝導トランスデューサは、ユーザの頭部における骨／組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ２３０から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。

軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の１つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の１つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか（たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ）に位置し得る。耳介軟骨の１つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。

トランスデューサアレイ２１０は、オーディオコントローラ２３０からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化されたオーディオコンテンツは、特定の方向および／またはターゲット領域（たとえば、ローカルエリアにおけるオブジェクトおよび／または仮想オブジェクト）から発生するように思われるオーディオコンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム２００のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ２１０は、ウェアラブルデバイス（たとえば、ヘッドセット１００またはヘッドセット１０５）に結合され得る。代替実施形態では、トランスデューサアレイ２１０は、ウェアラブルデバイスとは別個である（たとえば、外部コンソールに結合された）複数のスピーカーであり得る。

センサーアレイ２２０は、センサーアレイ２２０の周囲のローカルエリア内の音を検出する。センサーアレイ２２０は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット（アナログまたはデジタル）にコンバートする、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット（たとえば、ヘッドセット１００および／またはヘッドセット１０５）上に、ユーザ上に（たとえば、ユーザの耳道中に）、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ２２０は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ２１０によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ２１０によって作り出された音場および／またはローカルエリアからの音を表す情報（たとえば、方向性）の精度を改善し得る。センサーアレイ２２０は、オーディオコントローラ２３０からの命令に従って、各音響センサーを動的にアクティブ化または非アクティブ化し得る。

オーディオコントローラ２３０は、オーディオシステム２００の動作を制御する処理回路を含む。図２の実施形態では、オーディオコントローラ２３０は、データストア２３５と、ＤＯＡ推定モジュール２４０と、伝達関数処理モジュール２５０と、追跡モジュール２６０と、ビームフォーミングモジュール２７０と、アレイ最適化モジュール２７５と、ニューラルネットワークモジュール２８０と、音フィルタモジュール２８５とを含む。オーディオコントローラ２３０は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ２３０のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。

データストア２３５は、オーディオシステム２００による使用のためのデータを記憶する。データストア２３５中のデータは、ローカルエリアの環境パラメータ、オーディオシステムのターゲット性能メトリック、センサーアレイ２３０のアクティブ化および非アクティブ化された音響センサー、オーディオシステム２００のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数（ＨＲＴＦ）、１つまたは複数のセンサーのための伝達関数、音響センサーのうちの１つまたは複数のためのアレイ伝達関数（ＡＴＦ）、音源ロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、ならびにオーディオシステム２００による使用のための関連する他のデータ、センサーアレイ２２０の周囲のローカルエリアの環境パラメータ、選択されたまたは場合によっては決定された性能メトリック、アクティブ化および非アクティブ化された音響センサーの最適化されたサブセット、あるいはそれらの任意の組合せを含み得る。

ＤＯＡ推定モジュール２４０は、センサーアレイ２２０からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム２００のユーザに対して音源がどこに位置するかを決定するプロセスである。ＤＯＡ推定モジュール２４０は、ローカルエリア内の１つまたは複数の音源の位置を特定するためにＤＯＡ分析を実施する。ＤＯＡ分析は、音が発生した方向を決定するために、センサーアレイ２２０において、各音の強度、スペクトル、および／または到来時間を分析することを含み得る。いくつかの場合には、ＤＯＡ分析は、オーディオシステム２００が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。

たとえば、ＤＯＡ分析は、センサーアレイ２２０から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、ＤＯＡを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小２乗平均（ＬＭＳ：ｌｅａｓｔｍｅａｎｓｑｕａｒｅｄ）アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、ＤＯＡを推定するために使用され得る。別の実施形態では、ＤＯＡは、入力信号を周波数ドメインにコンバートし、処理すべき時間周波数（ＴＦ）ドメイン内の特定のビンを選択することによって決定され得る。各選択されたＴＦビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ２２０が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのＤＯＡを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、ＤＯＡを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。

いくつかの実施形態では、ＤＯＡ推定モジュール２４０は、ローカルエリア内のオーディオシステム２００の絶対位置に関するＤＯＡをも決定し得る。センサーアレイ２２０の位置は、外部システム（たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー（たとえば、位置センサー１９０）などの何らかの他の構成要素）から受信され得る。外部システムは、ローカルエリアとオーディオシステム２００の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム２００の一部または全部（たとえば、センサーアレイ２２０）のロケーションおよび／または配向を含み得る。ＤＯＡ推定モジュール２４０は、受信された位置情報に基づいて、推定されたＤＯＡを更新し得る。

伝達関数処理モジュール２５０は、１つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数処理モジュール２５０は、オーディオシステムに関連する１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ＡＴＦは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。

ＡＴＦは、音の音とセンサーアレイ２２０中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ２２０中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはＡＴＦと呼ばれる。したがって、各音源について、対応するＡＴＦがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ２１０の１つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ２２０に対する特定の音源ロケーションについてのＡＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、ユーザによって異なり得る。したがって、センサーアレイ２２０のＡＴＦは、オーディオシステム２００の各ユーザのために個人化される。

いくつかの実施形態では、伝達関数処理モジュール２５０は、オーディオシステム２００のユーザのための１つまたは複数のＨＲＴＦを決定する。ＨＲＴＦは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定の音源ロケーションについてのＨＲＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、人の各耳に固有である（および人に固有である）。いくつかの実施形態では、伝達関数処理モジュール２５０は、較正プロセスを使用してユーザのためのＨＲＴＦを決定し得る。いくつかの実施形態では、伝達関数処理モジュール２５０は、ユーザに関する情報をリモートシステムに提供し得る。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたＨＲＴＦのセットを決定し、ＨＲＴＦのカスタマイズされたセットをオーディオシステム２００に提供する。

追跡モジュール２６０は、１つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール２６０は、現在のＤＯＡ推定値を比較し、それらを、前のＤＯＡ推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム２００は、１秒当たり１回、または１ミリ秒当たり１回など、周期的スケジュールでＤＯＡ推定値を再計算し得る。追跡モジュールは、現在のＤＯＡ推定値を前のＤＯＡ推定値と比較し得、音源についてのＤＯＡ推定値の変化に応答して、追跡モジュール２６０は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール２６０は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール２６０は、経時的に１つまたは複数の音源の移動を追跡し得る。追跡モジュール２６０は、各時点において音源の数と各音源のロケーションとについての値を記憶し得る。音源の数またはロケーションの値の変化に応答して、追跡モジュール２６０は、音源が移動したと決定し得る。追跡モジュール２６０は、位置特定分散（ｌｏｃａｌｉｚａｔｉｏｎｖａｒｉａｎｃｅ）の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。

ビームフォーミングモジュール２７０は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、１つまたは複数のＡＴＦを処理するように構成される。センサーアレイ２２０によって検出された音を分析する際に、ビームフォーミングモジュール２７０は、ローカルエリアの特定の領域からの関連する音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール２７０は、たとえば、ＤＯＡ推定モジュール２４０および追跡モジュール２６０からの異なるＤＯＡ推定値に基づいて、ローカルエリアにおける他の音源から、特定の音源からの音に関連するオーディオ信号を切り離し得る。したがって、ビームフォーミングモジュール２７０は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール２７０は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール２７０は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を排除する、音フィルタを適用し得る。信号拡張は、センサーアレイ２２０によって検出された他の音に対して所与の識別された音源に関連する音を拡張するように働く。

アレイ最適化モジュール２７５は、センサーアレイ２２０中の音響センサーのアクティブセットを最適化する。センサーアレイ２０５中の音響センサーのすべてまたはサブセットが、音を検出するためにアクティブであり得る。アレイ最適化モジュール２７５は、センサーアレイ２２０の周囲のローカルエリアの環境パラメータを決定し、センサーアレイ２２０の性能メトリックを決定し得る。アレイ最適化モジュール２７５は、環境パラメータに基づいて、性能メトリックを満たすセンサーアレイ２２０の音響センサーからの音響センサーのサブセットの選択を決定する。一例では、ローカルエリアの環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。アレイ最適化モジュール２７５は、ローカルエリアの残響時間に基づいて、ターゲットアレイ利得を達成するセンサーアレイ２２０の音響センサーからの音響センサーのサブセットの選択を決定する。概して、ターゲットアレイ利得を達成するために、より長い残響時間が、より多数のアクティブ化された音響センサーを必要とする。

電力消費を最適化するために、アレイ最適化モジュール２７５は、ローカルエリアのパラメータが与えられれば、性能メトリックを満たすために使用され得る音響センサーの最小数を決定し得る。センサーアレイ２２０の選択された音響センサーは、オーディオデータを生成し、オーディオデータは、次いで、オーディオコントローラ２３０によって処理される。音響センサーの選択的アクティブ化および非アクティブ化は、図３に関して説明される。

１つまたは複数の環境パラメータを決定するために、センサーアレイ２２０は、ローカルエリアにおいて生じる制御されない音または制御される音など、音を検出し得る。制御される音は、ヘッドセットの１つまたは複数のトランスデューサ、あるいは制御下にあるまたは場合によってはオーディオコントローラ２３０と協調する何らかの他のデバイスによって生成された音を含み、制御されない音は、環境からの音を指す。いくつかの実施形態では、ローカルエリアの環境パラメータは残響時間を含み得る。残響時間は、６０ｄＢだけなど、音が減衰するのにかかる時間として定義される（たとえば、ＲＴ６０）。残響時間は、様々なやり方で測定され得る。一例では、ローカルエリアは、ローカルエリアのモデルを生成するためのＳＬＡＭ計算に基づいて決定され、残響時間を決定するために、ローカルエリアにおける音伝搬のシミュレーションが実施される。別の例では、残響時間は、センサーアレイの１つまたは複数の音響センサーによる音の測定に基づいて決定され得る。

他のタイプの環境パラメータも使用され得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、ローカルエリアにおいて音源から宛先（たとえば、センサーアレイ）に伝搬するときに音がどのように変換されるかを定義するインパルス応答を含み得る。インパルス応答は、直接音、初期反射、および後期残響を含み得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、ローカルエリアにおける音源に関連するパラメータを含み得る。たとえば、パラメータは、ローカルエリアにおける音源の数、音源のロケーションまたは到来方向、あるいは音源の信号対雑音比を含み得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、背景雑音のラウドネス、背景雑音の空間特性、ローカルエリアの雑音フロア、ローカルエリアの表面の材料および吸音、ある方向における周波数応答などを含み得る。

ローカルエリアの環境パラメータは、センサーアレイ２２０の音響センサーまたは他のタイプのセンサーからデータを受信することと、アレイ最適化モジュール２７５において計算を実施することとに基づいてなど、オーディオシステム２００によって決定され得る。別の例では、オーディオシステム２００は、リモートシステムから環境パラメータのうちの１つまたは複数を受信（たとえば、ダウンロード）し得る。たとえば、リモートシステム（たとえば、図５に示されているマッピングサーバ５２５）が、ローカルエリアと環境パラメータとの間の関連付けを記憶し得る。オーディオシステム２００は、ヘッドセットのロケーションを決定し、環境パラメータについてのリモートシステムへの要求を生成し得る。応答して、サーバは、ロケーションに基づいて環境パラメータを決定し、環境パラメータをオーディオシステム２００に提供する。

性能メトリックが、センサーアレイ２２０によって生成されたオーディオデータについて満たされるべきである性能または知覚される性能のレベルを定義し得る。性能メトリックのいくつかの例は、信号対雑音比（ＳＮＲ）、アレイ利得、単語誤り率、ひずみしきい値レベル、音ピックアップのための距離、白色雑音利得、ビームフォーマの信号対雑音比、音声品質、音声明瞭度、または聴取努力を含み得る。ＳＮＲは、ターゲット信号のレベルと背景雑音のレベルとの比を定義する。アレイ利得は、出力ＳＮＲと入力ＳＮＲとの間の比を定義する。単語誤り率は、音声認識または機械翻訳アルゴリズムの精度を定義する。ひずみは、オーディオソースの波形の変形を指し、ひずみしきい値レベルは、許容されるひずみのしきい値量を定義し得る。音ピックアップのための距離は、センサーアレイによってピックアップされるべきである音源のための最大距離を定義する。白色雑音利得または信号対雑音比は、空間的に無相関の雑音を抑圧する能力を測定する。音声品質は、音声の知覚される品質の測度または推定値を指す。音声明瞭度は、人によって理解される単語の数の測度または推定値を指す。聴取努力は、会話における単語を理解することを試みるときにユーザが受ける認知負荷の量を指す。

いくつかの実施形態では、性能メトリックは、オーディオシステム２００を含むヘッドセットとは別個のデバイスによって指定され得る。たとえば、複数のユーザが、各々、ローカルエリアにおいてヘッドセットを装着し得る。第１のヘッドセットが、性能メトリックを決定し、性能メトリックを別のヘッドセットに提供し得、別のヘッドセットは、受信された性能メトリックに基づいて、音響センサーのサブセットを選択する。

センサーアレイ２２０の音響センサーのすべてを利用する代わりに音響センサーの最適サブセットを選択することによって、アレイ最適化モジュール２７５は、性能メトリックを満たすことに関して高性能を維持しながら、電力消費を低減する。電力消費は、音響センサーの選択的アクティブ化または非アクティブ化によって、音響センサーからオーディオシステム２００のオーディオコントローラ２３０に送信されるオーディオデータの量を低減することによって、および／または処理のためにオーディオコントローラ２３０によって使用されるオーディオデータの量を低減することによって、低減され得る。アレイ最適化モジュール２７５は、使用される音響センサーの数、ならびにヘッドセットおよび／またはネックバンド上のセンサーアレイの音響センサーのうちの、使用されるおよび使用されないものがどの音響センサーかを決定する。電力消費を最適化するために、アレイ最適化モジュール２７５は、ローカルエリアのパラメータが与えられれば、性能メトリックを満たすために使用され得る音響センサーの最小数を決定し得る。概して、より離間した音響センサーによってキャプチャされた音が、ＤＯＡ推定または他のタイプの空間オーディオ処理を容易にするためにより区別されたオーディオデータを生じる。したがって、音響センサーの選択は、アクティブ化された音響センサー間の距離を最適化することを含み得る。

ニューラルネットワークモジュール２８０は、センサーアレイ２２０の音響センサーのサブセットの選択を決定し得る。ニューラルネットワークモジュール２８０は、グラフィックス処理ユニット（ＧＰＵ）または特定用途向け集積回路（ＡＳＩＣ）など、処理回路を含み得る。いくつかの実施形態では、処理回路は、オーディオシステム２００の構成要素である。他の実施形態では、処理回路は、ネットワークを介してオーディオシステム２００に接続されたリモートシステムにおけるまたはコンソールにおいてなど、オーディオシステム２００とは別個である。ここで、オーディオシステム２００は、ニューラルネットワーク入力をリモートシステムに提供し、リモートシステムから音響センサーの選択されたサブセットを受信する。ニューラルネットワークモジュール２８０は、ローカルエリアの環境パラメータと性能メトリックとを含む入力と、センサーアレイの音響センサーのサブセットを含む出力との間の関係を定義する、ニューラルネットワーク層と相互接続とを含むニューラルネットワークを実装する。ニューラルネットワークは、オーディオシステム２００の動作を制御するために、入力を受信し、出力を生成する。

いくつかの実施形態では、音響センサーのサブセットを決定するために、ヒューリスティックとニューラルネットワークとの組合せが使用され得る。たとえば、ローカルエリアタイプを決定するためにヒューリスティックが使用され得る。ローカルエリアタイプが、同様のまたは同じ環境パラメータを含むローカルエリアのカテゴリーを定義する。屋内、屋外、室内タイプなど、異なるタイプのローカルエリアが、異なるパラメータ（たとえば、残響時間）を有し得、したがって、ローカルエリアタイプの決定が、音響センサーのサブセットを選択するためのクラスタリングを提供する。ローカルエリアタイプは、ＳＬＡＭシステムによって生成されたローカルエリアのモデル、音響センサーのうちの１つまたは複数からのオーディオデータ、ユーザ入力などに基づいて決定され得る。ローカルエリアタイプは、１つまたは複数の環境パラメータおよび１つまたは複数の性能メトリックのうちの少なくとも１つとともにニューラルネットワークへの入力として使用され得る。ニューラルネットワークは、１つまたは複数の性能メトリックを満たしながら電力消費を最適化する音響パラメータのサブセットを出力する。いくつかの実施形態では、ニューラルネットワークによって決定された音響センサーのサブセットを調整するために別のヒューリスティックが適用され得る。たとえば、１つまたは複数の特定の音響センサーが、ターゲット音源の方向に基づいてアクティブ化されるか、または不要な音源の方向に基づいて非アクティブ化され得る。

音フィルタモジュール２８５は、トランスデューサアレイ２１０のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。音フィルタモジュール２８５は、音フィルタを生成するためにＨＲＴＦおよび／または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響特性を表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール２８５は、音響パラメータのうちの１つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール２８５は、（たとえば、図５に関して以下で説明されるように）マッピングサーバに音響パラメータを要求する。

音フィルタモジュール２８５は、トランスデューサアレイ２１０に音フィルタを提供する。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。

センサーアレイ最適化
図３は、１つまたは複数の実施形態による、オーディオシステム（たとえば、オーディオシステム２００）を含むヘッドセット上の音響センサーを最適化するプロセス３００を示すフローチャートである。一実施形態では、図３のプロセスは、オーディオシステムの構成要素によって実施される。他の実施形態では、他のエンティティ（たとえば、コンソール）がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオシステムは、３１０において、音響センサーを含むセンサーアレイの周囲のローカルエリアの１つまたは複数の環境パラメータを決定する。１つまたは複数の環境パラメータは、センサーアレイの音響センサー、ヘッドセットの他のタイプのセンサーによって決定されるか、またはサーバから受信され得る。

オーディオシステムは、３２０において、センサーアレイの１つまたは複数の性能メトリックを決定する。１つまたは複数の性能メトリックは、オーディオシステムによってまたはユーザによって定義され得る。

オーディオシステムは、３３０において、１つまたは複数の環境パラメータに基づいて、１つまたは複数の性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定する。オーディオシステムは、入力としての性能メトリックおよび環境パラメータと出力としての音響センサーのサブセットとの間の関係を関連付けし、その関係に基づいてサブセットのための音響センサーを選択し得る。センサーアレイの音響センサーのすべてを利用する代わりに音響センサーの最適サブセットを選択することによって、オーディオシステムは、性能メトリックを満たすことに関して高性能を維持しながら、電力消費を低減する。音響センサーの選択されたセットは、センサーアレイの音響センサーのすべてを含み得る。

一例では、残響時間の環境パラメータは、アレイ利得性能メトリックを満たしながら電力消費を低減する音響センサーのサブセットを選択するために使用される。いくつかの実施形態では、音響センサーのサブセットの選択は、ニューラルネットワークによって決定される。

オーディオシステムは、３４０において、センサーアレイの音響センサーのサブセットを使用してオーディオデータを生成する。オーディオデータは、キャプチャされた音からの音響センサーの選択されたサブセットによって生成されたデータを指す。いくつかの実施形態では、オーディオシステムは、音響センサーの選択されたサブセットが電源投入され、選択されていない他の音響センサーが電源切断されるように、音響センサーを選択的にアクティブ化および非アクティブ化する。音響センサーのうちのいくつかを電源切断することは、電力消費を低減する。いくつかの実施形態では、選択されなかった音響センサーが、電源投入され、オーディオデータを生成するが、オーディオデータをコントローラに送信しない。いくつかの実施形態では、選択されなかった音響センサーからのオーディオデータは、コントローラに送信されるが、コントローラによって処理されない。これらの場合の各々において、オーディオシステムの電力消費が低減され得る。

オーディオシステムは、３５０において、音響センサーのサブセットからのオーディオデータを処理する。オーディオシステムによって（たとえば、トランスデューサアレイ２１０によって）提示されるオーディオコンテンツは、処理されたオーディオデータに部分的に基づき得る。処理は、音響伝達関数（たとえば、ＡＴＦまたはＨＲＴＦ）の適用、ビームフォーミング、ＤｏＡ推定、信号拡張、空間フィルタ処理、または空間化されたオーディオコンテンツのための他のタイプの処理を実施することを含み得る。

プロセス３００は、環境パラメータの変化を追跡すること、性能メトリックを決定すること、および環境パラメータまたは性能メトリックの変化に基づいて音響センサーの異なるサブセットを選択することなどによって、繰り返され得る。プロセス３００は、ヘッドセットを装着しているユーザが、ローカルエリアにおける別のロケーションにまたは別のローカルエリアになど移動するとき、あるいはオブジェクトがユーザに対して移動するとき、連続的に繰り返され得る。

図４は、１つまたは複数の実施形態による、異なる残響時間についてのアレイ利得と音響センサーの数との間の関係を示すグラフである。線４０２は、５００ｍｓの残響時間（「ＲＴ６０」）をもつローカルエリアについてのアレイ利得（ｄＢ単位）と音響センサー（「マイクロフォン」）の数との間の関係を示す。線４０４は、１００ｍｓの残響時間（「ＲＴ６０」）をもつローカルエリアについてのアレイ利得と音響センサーの数との間の関係を示す。同じ量のアレイ利得を達成するために、より長い残響時間が、概して、より多数の音響センサーと相関する。したがって、アレイ利得のターゲット性能メトリックを達成するための音響センサーの数は、残響時間パラメータに依存する。たとえば、４つのマイクロフォンを使用することが、５００ｍｓの残響時間について約１１．２ｄＢのアレイ利得を生じ、１００ｍｓの残響時間について約２３．５ｄＢのアレイ利得を生じる。他のタイプの、ローカルエリアの環境パラメータおよび性能メトリックが、センサーアレイの音響センサーの選択を知らせることができる同様の関係を含む。

例示的なシステム環境
図５は、１つまたは複数の実施形態による、ヘッドセット５０５を含むシステム５００である。いくつかの実施形態では、ヘッドセット５０５は、図１Ａのヘッドセット１００または図１Ｂのヘッドセット１０５であり得る。システム５００は、人工現実環境（たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ）において動作し得る。図５によって示されているシステム５００は、ヘッドセット５０５と、コンソール５１５に結合された入出力（Ｉ／Ｏ）インターフェース５１０と、ネットワーク５２０と、マッピングサーバ５２５とを含む。図５は、１つのヘッドセット５０５と１つのＩ／Ｏインターフェース５１０とを含む例示的なシステム５００を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム５００中に含まれ得る。たとえば、各々が、関連するＩ／Ｏインターフェース５１０を有する、複数のヘッドセットがあり得、各ヘッドセットおよびＩ／Ｏインターフェース５１０はコンソール５１５と通信する。代替構成では、異なるおよび／または追加の構成要素が、システム５００中に含まれ得る。さらに、図５に示されている構成要素のうちの１つまたは複数に関して説明される機能性は、いくつかの実施形態では、図５に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール５１５の機能性の一部または全部がヘッドセット５０５によって提供され得る。

ヘッドセット５０５は、ディスプレイアセンブリ５３０と、光学ブロック５３５と、１つまたは複数の位置センサー５４０と、ＤＣＡ５４５とを含む。ヘッドセット５０５のいくつかの実施形態は、図５に関して説明されるものとは異なる構成要素を有する。さらに、図５に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット５０５の構成要素の間で別様に分散されるか、またはヘッドセット５０５からリモートにある別個のアセンブリにおいて取り込まれ得る。

ディスプレイアセンブリ５３０は、コンソール５１５から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ５３０は、１つまたは複数のディスプレイ要素（たとえば、ディスプレイ要素１２０）を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ５３０は、単一のディスプレイ要素または複数のディスプレイ要素（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイの例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素１２０は光学ブロック５３５の機能性の一部または全部をも含み得ることに留意されたい。

光学ブロック５３５は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット５０５の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック５３５は、１つまたは複数の光学要素を含む。光学ブロック５３５中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック５３５は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック５３５中の光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック５３５による画像光の拡大および集束は、電子ディスプレイが、物理的により小さくなり、重さが減じ、より大きいディスプレイよりも少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。

いくつかの実施形態では、光学ブロック５３５は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック５３５が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック５３５はそのひずみを補正する。

位置センサー５４０は、ヘッドセット５０５の位置を示すデータを生成する電子デバイスである。位置センサー５４０は、ヘッドセット５０５の運動に応答して１つまたは複数の測定信号を生成する。位置センサー１９０は、位置センサー５４０の一実施形態である。位置センサー５４０の例は、１つまたは複数のＩＭＵ、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー５４０は、並進運動（前／後、上／下、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット５０５の推定位置を計算する。たとえば、ＩＭＵは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット５０５上の基準点の推定位置を決定する。基準点は、ヘッドセット５０５の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット５０５内の点として定義される。

ＤＣＡ５４５は、ローカルエリアの一部分についての深度情報を生成する。ＤＣＡは、１つまたは複数のイメージングデバイスとＤＣＡコントローラとを含む。ＤＣＡ５４５は照明器をも含み得る。ＤＣＡ５４５の動作および構造は、図１Ａに関して上記で説明された。

オーディオシステム５５０は、ヘッドセット５０５のユーザにオーディオコンテンツを提供する。オーディオシステム５５０は、上記で説明されたオーディオシステム２００と実質的に同じである。たとえば、オーディオシステム５５０は、環境パラメータとターゲット性能メトリックとに基づいてセンサーアレイの音響センサーの選択を最適化する。オーディオシステム５５０は、１つまたは音響センサーと、１つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。オーディオシステム５５０は、空間化されたオーディオコンテンツをユーザに提供し得る。いくつかの実施形態では、オーディオシステム５５０は、ネットワーク５２０を介してマッピングサーバ５２５に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの１つまたは複数の音響特性（たとえば、室内インパルス応答、残響時間、残響レベルなど）を表す。オーディオシステム５５０は、たとえば、ＤＣＡ５４５からのローカルエリアの少なくとも一部分を表す情報、および／または位置センサー５４０からのヘッドセット５０５についてのロケーション情報を提供し得る。オーディオシステム５５０は、マッピングサーバ５２５から受信された音響パラメータのうちの１つまたは複数を使用して、１つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。

Ｉ／Ｏインターフェース５１０は、ユーザがアクション要求を送り、コンソール５１５から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。Ｉ／Ｏインターフェース５１０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール５１５に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース５１０によって受信されたアクション要求は、コンソール５１５に通信され、コンソール５１５は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース５１０は、Ｉ／Ｏインターフェース５１０の初期位置に対するＩ／Ｏインターフェース５１０の推定位置を示す較正データをキャプチャするＩＭＵを含む。いくつかの実施形態では、Ｉ／Ｏインターフェース５１０は、コンソール５１５から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール５１５がアクションを実施するときに、コンソール５１５が、Ｉ／Ｏインターフェース５１０に命令を通信して、Ｉ／Ｏインターフェース５１０が触覚フィードバックを生成することを引き起こす。

コンソール５１５は、ＤＣＡ５４５とヘッドセット５０５とＩ／Ｏインターフェース５１０とのうちの１つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット５０５に提供する。図５に示されている例では、コンソール５１５は、アプリケーションストア５５５と、追跡モジュール５６０と、エンジン５６５とを含む。コンソール５１５のいくつかの実施形態は、図５に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図５に関して説明されるものとは異なる様式でコンソール５１５の構成要素の間で分散され得る。いくつかの実施形態では、コンソール５１５に関して本明細書で説明される機能性は、ヘッドセット５０５、またはリモートシステムにおいて実装され得る。

アプリケーションストア５５５は、コンソール５１５が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。

追跡モジュール５６０は、ＤＣＡ５４５からの情報、１つまたは複数の位置センサー５４０からの情報、またはそれらの何らかの組合せを使用して、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の移動を追跡する。たとえば、追跡モジュール５６０は、ヘッドセット５０５からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット５０５の基準点の位置を決定する。追跡モジュール５６０は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール５６０は、ヘッドセット５０５の将来のロケーションを予測するために、位置センサー５４０からのヘッドセット５０５の位置を示すデータの部分ならびにＤＣＡ５４５からのローカルエリアの表現を使用し得る。追跡モジュール５６０は、ヘッドセット５０５またはＩ／Ｏインターフェース５１０の推定または予測された将来の位置をエンジン５６５に提供する。

エンジン５６５は、アプリケーションを実行し、追跡モジュール５６０から、ヘッドセット５０５の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン５６５は、ユーザへの提示のためにヘッドセット５０５に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン５６５は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット５０５のためのコンテンツを生成する。さらに、エンジン５６５は、Ｉ／Ｏインターフェース５１０から受信されたアクション要求に応答して、コンソール５１５上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット５０５を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース５１０を介した触覚フィードバックであり得る。

ネットワーク５２０は、ヘッドセット５０５および／またはコンソール５１５をマッピングサーバ５２５に結合する。ネットワーク５２０は、ワイヤレス通信システムおよび／またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク５２０は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク５２０は、標準通信技術および／またはプロトコルを使用する。したがって、ネットワーク５２０は、イーサネット、８０２．１１、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩＥｘｐｒｅｓｓアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク５２０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク５２０を介して交換されるデータは、２進形式（たとえばポータブルネットワークグラフィックス（ＰＮＧ））の画像データ、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などを含む、技術および／またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）など、従来の暗号化技術を使用して暗号化され得る。

マッピングサーバ５２５は、複数の空間を表す仮想モデルを記憶するデータベースを含み得、仮想モデル中の１つのロケーションが、ヘッドセット５０５のローカルエリアの現在の構成に対応する。マッピングサーバ５２５は、ヘッドセット５０５からネットワーク５２０を介して、ローカルエリアおよび／またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。マッピングサーバ５２５は、受信された情報および／またはロケーション情報に基づいて、ヘッドセット５０５のローカルエリアに関連する仮想モデル中のロケーションを決定する。マッピングサーバ５２５は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響パラメータに部分的に基づいて、ローカルエリアに関連する１つまたは複数の音響パラメータを決定する（たとえば、取り出す）。マッピングサーバ５２５は、ローカルエリアのロケーションおよびローカルエリアに関連する音響パラメータの任意の値をヘッドセット５０５に送信し得る。いくつかの実施形態では、マッピングサーバ５２５は、センサーアレイに関連する電力消費を最適化するためにオーディオシステム５５０によって使用される１つまたは複数の環境パラメータをヘッドセット５０５に提供する。

追加の構成情報
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して、多くの修正および変形が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明される任意のまたはすべてのステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。

実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。

Claims

センサーアレイを含むオーディオシステムによって、
前記センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、前記センサーアレイが、前記ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することであって、前記オーディオシステムによって提示されるオーディオコンテンツが、処理された前記オーディオデータに部分的に基づく、オーディオデータを処理することと
を含む、方法。
音響センサーの前記サブセットをアクティブ化することをさらに含む、請求項１に記載の方法。
前記サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化することをさらに含む、請求項２に記載の方法。
前記センサーアレイの第１の音響センサーが、前記サブセットの外部にあり、前記第１の音響センサーがアクティブであり、前記方法が、
前記サブセットの前記オーディオデータを形成するために、前記センサーアレイによって生成されたオーディオデータから前記第１の音響センサーによって作り出されたオーディオデータを除去すること
をさらに含む、請求項２に記載の方法。
前記環境パラメータが残響時間を含み、
前記性能メトリックがアレイ利得を含む、
請求項１に記載の方法。
前記環境パラメータが、
音響音源の数、
音源のロケーション、
音源の到来方向、または
背景雑音のラウドネス、または
背景雑音の空間特性
のうちの１つを含む、請求項１に記載の方法。
前記オーディオデータを処理することが、
音響伝達関数の適用、
ビームフォーミング、
到来方向推定、
信号拡張、または
空間フィルタ処理
のうちの少なくとも１つを実施することを含む、請求項１に記載の方法。
前記性能メトリックが、
単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力
のうちの１つを含む、請求項１に記載の方法。
前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーの前記サブセットの前記選択を決定することが、
環境パラメータと性能メトリックとを含む入力と、前記センサーアレイの前記音響センサーのサブセットを含む出力との間の関係を定義するニューラルネットワークを使用すること
をさらに含む、請求項１に記載の方法。
ａ）前記センサーアレイに関連するロケーションに基づいてサーバから前記環境パラメータを受信することをさらに含む、または
ｂ）別のセンサーアレイを含むヘッドセットから前記性能メトリックを受信することをさらに含む、または
ｃ）前記環境パラメータの変化に基づいて音響センサーの前記サブセットを更新することをさらに含む
のうちのいずれか１つである、請求項１に記載の方法。
ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、
処理回路と
を備えるシステムであって、前記処理回路は、
前記ローカルエリアの環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することであって、前記システムによって提示されるオーディオコンテンツが、処理された前記オーディオデータに部分的に基づく、オーディオデータを処理することと
を行うように構成された、システム。
前記処理回路が、音響センサーの前記サブセットをアクティブ化するようにさらに構成された、請求項１１に記載のシステム。
ａ）処理回路が、前記サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化するようにさらに構成された、または
ｂ）前記センサーアレイの第１の音響センサーが、前記サブセットの外部にあり、前記第１の音響センサーがアクティブであり、前記処理回路が、
前記サブセットの前記オーディオデータを形成するために、前記センサーアレイによって生成されたオーディオデータから前記第１の音響センサーによって作り出されたオーディオデータを除去するようにさらに構成された
のうちのいずれか１つである、請求項１に記載のシステム。
ａ）前記環境パラメータが残響時間を含み、
前記性能メトリックがアレイ利得を含む、あるいは
ｂ）前記環境パラメータが、音響音源の数、音源のロケーション、音源の到来方向、背景雑音のラウドネス、または背景雑音の空間特性のうちの１つを含み、
前記オーディオデータを処理するように構成された処理回路は、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張、または空間フィルタ処理のうちの少なくとも１つを実施するように構成されているオーディオコントローラを含む、あるいは
ｃ）前記性能メトリックが、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力を含む
のうちのいずれか１つである、請求項１に記載のシステム。
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、前記センサーアレイが、前記ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することと
を行わせる、非一時的コンピュータ可読媒体。