JP2022521886A

JP2022521886A - サウンドシーン分析とビームフォーミングとを使用する音響伝達関数のパーソナライゼーション

Info

Publication number: JP2022521886A
Application number: JP2021540813A
Authority: JP
Inventors: ウラジミルトゥールバビン，; ジェイコブライアンドンリー，; アントニオジョンミラー，; ラビッシュメーラ，
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-04-09
Filing date: 2020-03-31
Publication date: 2022-04-13
Also published as: KR20210148327A; US20210183352A1; US11361744B2; CN113692750A; US20200327877A1; US10957299B2; EP3954136A1; WO2020210084A1

Abstract

ウェアラブルデバイスのためのオーディオシステムが、音響伝達関数を動的に更新する。オーディオシステムは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向（ＤｏＡ）を推定するように構成されている。オーディオシステムは、それぞれの音源の移動を追跡することが可能である。オーディオシステムは、それぞれの音源の方向においてビームを形成することが可能である。オーディオシステムは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。ＤｏＡの推定、移動の追跡、およびビームフォーミングに基づいて、オーディオシステムは、音源に関する音響伝達関数を生成または更新する。【選択図】図４

Description

関連出願に対する相互参照
本出願は、２０１９年４月９日に出願された米国特許出願第１６／３７９，４５０号からの優先権を主張するものであり、その内容の全体は、すべての目的のために参照により本明細書に組み込まれている。

本開示は、全般的にはサウンドシーン分析に関し、詳細には、システムフィードバックを使用してサウンドシーン分析を改善することに関する。

２つの耳において知覚される音は、それぞれの耳に対する音源の方向および場所に、ならびにその音が知覚される部屋の環境に応じて、異なることがある。人間は、それぞれの耳において知覚される音を比較することによって、音源の場所を特定することが可能である。「サラウンドサウンド」システムにおいては、複数のスピーカーが、音響伝達関数を使用して音の方向性を再現する。音響伝達関数は、音源場所における音と、どのようにしてその音が検知されているか、たとえばマイクロフォンアレイによってか、または人によってかとの間における関係を表す。単一のマイクロフォンアレイ（またはマイクロフォンアレイを装着している人）は、そのマイクロフォンアレイを取り巻く（またはそのマイクロフォンアレイを装着している人を取り巻く）ローカルエリアにおけるいくつかの異なる音源場所に関するいくつかの関連付けられている音響伝達関数を有する場合がある。加えて、マイクロフォンアレイのための音響伝達関数は、ローカルエリアにおけるマイクロフォンアレイの位置および／または向きに基づいて異なる場合がある。さらに、マイクロフォンアレイの音響センサは、多くの可能な組合せで配置されることが可能であり、したがって、関連付けられている音響伝達関数は、そのマイクロフォンアレイに固有のものである。結果として、それぞれのマイクロフォンアレイのための音響伝達関数を特定することは、直接の評価を必要とすることがあり、これは、必要とされる時間およびリソースの点で長ったらしい高価なプロセスであることがある。

ウェアラブルデバイスのためのオーディオシステムが、音響伝達関数を動的に更新する。オーディオシステムは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向（ＤｏＡ）を推定するように構成されている。オーディオシステムは、それぞれの音源の移動を追跡することが可能である。オーディオシステムは、それぞれの音源からの信号を分離することが可能である。オーディオシステムは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。ＤｏＡの推定、移動の追跡、および信号の分離に基づいて、オーディオシステムは、音源に関する音響伝達関数を生成または更新する。

音響伝達関数を動的に更新するためのシステム、方法、および製品が開示され、添付の特許請求の範囲において特許請求されている。

いくつかの実施形態においては、列挙されているコンポーネントは、ウェアラブルデバイスのマイクロフォンアレイを介して、ウェアラブルデバイスのローカルエリアにおける１つまたは複数の音源からの音を検知することと、それらの音に関連付けられている音響伝達関数を推定することと、１つまたは複数の音源のうちの１つの音源の到来方向（ＤｏＡ）を推定することと、音源の移動を追跡することと、音源の移動に基づいて音響伝達関数を更新することとを含むアクションを実行することが可能である。

さまざまな実施形態においては、音源は、分類ライブラリに基づいて分類されることが可能である。

音源からの信号は、ウェアラブルデバイスのローカルエリアにおけるその他の音源から分離されることが可能である。

追跡することに関する第１の信頼水準、分類することに関する第２の信頼水準、およびビームフォーミングプロセスに関する第３の信頼水準が計算されることが可能である。

音響伝達関数は、第１の信頼水準、第２の信頼水準、または第３の信頼水準のうちの少なくとも１つに基づいて更新されることが可能である。

追跡することは、経時的に、１つまたは複数の音源の数および場所についての値を格納することと、数または場所のうちの少なくとも１つにおける変化を検知することとを含むことが可能である。

このシステムは、更新された音響伝達関数に基づいてサウンドフィルタを更新することが可能である。

このシステムは、更新されたサウンドフィルタに基づいてオーディオコンテンツを提示することが可能である。

１つまたは複数の実施形態による、ウェアラブルデバイスの図である。１つまたは複数の実施形態による、ローカルエリア内のサウンドシーンを分析するウェアラブルデバイスを示す図である。１つまたは複数の実施形態による、音源の移動後のローカルエリア内のサウンドシーンを分析するウェアラブルデバイスを示す図である。１つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。１つまたは複数の実施形態による、サウンドシーンを分析するためのプロセスを示す図である。１つまたは複数の実施形態による、オーディオシステムを含むウェアラブルデバイスのシステム環境を示す図である。

これらの図は、例示という目的のためにのみ本発明のさまざまな実施形態を示している。本明細書において記述されている本発明の原理から逸脱することなく、本明細書において示されている構造および方法の代替実施形態が採用されることが可能であるということを当業者なら以降の論考から容易に認識するであろう。

ウェアラブルデバイスは、パーソナライズされた音響伝達関数を特定することが可能である。特定された音響伝達関数は次いで、サウンドシーンを分析するために、または人のためのサラウンドサウンド体験を生成するためになど、多くの目的のために使用されることが可能である。精度を改善するために、ウェアラブルデバイスにおけるそれぞれのスピーカーの場所（すなわち、それぞれのスピーカーが複数の個別の音を生成している）に関して複数の音響伝達関数が特定されることが可能である。

ウェアラブルデバイスにおけるオーディオシステムは、音源を検知してユーザのための１つまたは複数の音響伝達関数を生成する。一実施形態においては、オーディオシステムは、複数の音響センサとコントローラとを含むマイクロフォンアレイを含む。それぞれの音響センサは、マイクロフォンアレイを取り巻くローカルエリア内の音を検知するように構成されている。複数の音響センサのうちの少なくともいくつかは、ユーザによって装着されるように構成されているニアアイディスプレイ（ＮＥＤ）など、ウェアラブルデバイスに結合されている。

コントローラは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向（ＤｏＡ）を推定するように構成されている。コントローラは、それぞれの音源の移動を追跡することが可能である。コントローラは、それぞれの音源に関するビームを形成することが可能である。コントローラは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。ＤｏＡの推定、移動の追跡、およびビームフォーミングに基づいて、コントローラは、音源に関する音響伝達関数を生成または更新する。

音響伝達関数は、音が空間におけるある点からどのようにして受信されているかを特徴付ける。具体的には、音響伝達関数は、音源場所における音のパラメータと、その音が、たとえば、マイクロフォンアレイまたはユーザの耳によって検知される際のパラメータとの間における関係を定義する。音響伝達関数は、たとえば、アレイ伝達関数（ＡＴＦ）および／または頭部伝達関数（ＨＲＴＦ）であることが可能である。それぞれの音響伝達関数は、ローカルエリア内の特定の音源場所およびウェアラブルデバイスの特定の位置に関連付けられており、それによってコントローラは、ローカルエリア内で音源の位置が変わるにつれて新たな音響伝達関数を更新または生成することが可能である。いくつかの実施形態においては、オーディオシステムは、１つまたは複数の音響伝達関数を使用して、ウェアラブルデバイスを装着しているユーザのためのオーディオコンテンツ（たとえば、サラウンドサウンド）を生成する。

本発明の実施形態は、人工現実システムを含むこと、または人工現実システムとともに実施されることが可能である。人工現実とは、ユーザへの提示の前に何らかの様式で調整された現実の一形態であり、この形態は、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、またはそれらの何らかの組合せおよび／もしくは派生物を含むことが可能である。人工現実コンテンツは、完全に生成されたコンテンツ、または取り込まれた（たとえば、現実世界の）コンテンツと組み合わされた生成されたコンテンツを含むことが可能である。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含むことが可能であり、それらのいずれも、単一のチャネルにおいて、または複数のチャネル（視聴者に対する３次元効果をもたらすステレオビデオなど）において提示されることが可能である。加えて、いくつかの実施形態においては、たとえば、人工現実においてコンテンツを作成するために使用される、および／または人工現実においてその他の形で使用される（たとえば、人工現実においてアクティビティーを実行する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに人工現実が関連付けられることも可能である。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されているウェアラブルデバイス、スタンドアロンのウェアラブルデバイス、モバイルデバイスもしくはコンピューティングシステム、または、１人もしくは複数の視聴者に人工現実コンテンツを提供することが可能なその他の任意のハードウェアプラットフォームを含む、さまざまなプラットフォーム上で実施されることが可能である。

図１は、１つまたは複数の実施形態による、オーディオシステムを含むウェアラブルデバイス１００を示す例である。示されているように、ウェアラブルデバイス１００は、ユーザの頭に装着されるように設計されているアイウェアデバイスであることが可能である。その他の実施形態においては、ウェアラブルデバイス１００は、ヘッドセット、ネックレス、ブレスレット、クリップオンデバイス、または、ユーザによって装着もしくは携帯されることが可能であるその他の任意の適切なデバイスであることが可能である。ウェアラブルデバイス１００は、メディアをユーザに提示する。一実施形態においては、ウェアラブルデバイス１００は、ニアアイディスプレイ（ＮＥＤ）を含むことが可能である。別の実施形態においては、ウェアラブルデバイス１００は、ヘッドマウントディスプレイ（ＨＭＤ）を含むことが可能である。いくつかの実施形態においては、ウェアラブルデバイス１００は、ユーザの顔に装着されることが可能であり、それによってコンテンツ（たとえば、メディアコンテンツ）が、ウェアラブルデバイス１００の一方または両方のレンズ１１０を使用して提示される。しかしながら、ウェアラブルデバイス１００は、異なる様式でメディアコンテンツがユーザに提示されるように使用されることも可能である。ウェアラブルデバイス１００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ウェアラブルデバイス１００は、オーディオシステムを含み、その他のコンポーネントのうちでも、フレーム１０５、レンズ１１０、およびセンサデバイス１１５を含むことが可能である。図１は、ウェアラブルデバイス１００上の例示的な場所におけるウェアラブルデバイス１００のコンポーネントを示しているが、それらのコンポーネントは、ウェアラブルデバイス１００上のほかのどこかに、ウェアラブルデバイス１００とペアにされている周辺デバイス上に、またはそれらの何らかの組合せで配置されることが可能である。

ウェアラブルデバイス１００は、ユーザの視力を補正もしくは強化すること、ユーザの目を保護すること、またはユーザに画像を提供することが可能である。ウェアラブルデバイス１００は、ユーザの視力における欠陥を補正する眼鏡であることが可能である。ウェアラブルデバイス１００は、太陽からユーザの目を保護するサングラスであることが可能である。ウェアラブルデバイス１００は、衝撃からユーザの目を保護する保護眼鏡であることが可能である。ウェアラブルデバイス１００は、夜間のユーザの視力を強化するための暗視デバイスまたは赤外線ゴーグルであることが可能である。ウェアラブルデバイス１００は、ユーザのための人工現実コンテンツを生成するニアアイディスプレイであることが可能である。あるいは、ウェアラブルデバイス１００は、レンズ１１０を含まないことが可能であり、オーディオコンテンツ（たとえば、音楽、ラジオ、ポッドキャスト）をユーザに提供するオーディオシステムを備えたフレーム１０５であることが可能である。

レンズ１１０は、ウェアラブルデバイス１００を装着しているユーザへ光を提供または透過する。レンズ１１０は、ユーザの視力における欠陥を補正するのを助けるために度付きレンズ（たとえば、単焦点、二焦点および三焦点、または累進多焦点）であることが可能である。度付きレンズは、ウェアラブルデバイス１００を装着しているユーザへ周囲光を透過する。透過される周囲光は、ユーザの視力における欠陥を補正するために度付きレンズによって変更されることが可能である。レンズ１１０は、太陽からユーザの目を保護するために偏光レンズまたは色付きレンズであることが可能である。レンズ１１０は、導波管ディスプレイの一部としての１つまたは複数の導波管であることが可能であり、導波管ディスプレイにおいては、画像光が、導波管の端部または縁部を通じてユーザの目に結像される。レンズ１１０は、画像光を提供するための電子ディスプレイを含むことが可能であり、電子ディスプレイからの画像光を拡大するための光学ブロックを含むことも可能である。レンズ１１０に関するさらなる詳細は、図５に関して論じられている。

いくつかの実施形態においては、ウェアラブルデバイス１００は、ウェアラブルデバイス１００を取り巻くローカルエリアに関する奥行き情報を記述するデータを取り込む奥行きカメラアセンブリ（ＤＣＡ）（図示せず）を含むことが可能である。いくつかの実施形態においては、ＤＣＡは、光プロジェクタ（たとえば、飛行時間に関する構造化光および／またはフラッシュ照明）、撮像デバイス、およびコントローラを含むことが可能である。取り込まれたデータは、光プロジェクタによってローカルエリア上へ投射された光の、撮像デバイスによって取り込まれた画像であることが可能である。一実施形態においては、ＤＣＡは、ローカルエリアの部分をステレオで取り込むように向けられている２つ以上のカメラと、コントローラとを含むことが可能である。取り込まれたデータは、ステレオでのローカルエリアの、２つ以上のカメラによって取り込まれた画像であることが可能である。コントローラは、取り込まれたデータと、奥行き特定技術（たとえば、構造化光、飛行時間、立体画像生成など）とを使用してローカルエリアの奥行き情報を算出する。奥行き情報に基づいて、コントローラは、ローカルエリア内のウェアラブルデバイス１００の絶対位置情報を特定する。ＤＣＡは、ウェアラブルデバイス１００と統合されることが可能であり、またはウェアラブルデバイス１００の外部のローカルエリア内に配置されることが可能である。後者の実施形態においては、ＤＣＡのコントローラは、奥行き情報をウェアラブルデバイス１００のコントローラ１３５へ送信することが可能である。

センサデバイス１１５は、ウェアラブルデバイス１００の動きに応答して１つまたは複数の測定信号を生成する。センサデバイス１１５は、ウェアラブルデバイス１００のフレーム１０５の一部分に配置されることが可能である。センサデバイス１１５は、位置センサ、慣性測定ユニット（ＩＭＵ）、または両方を含むことが可能である。ウェアラブルデバイス１００のいくつかの実施形態は、センサデバイス１１５を含むことが可能であり、もしくは含まないことが可能であり、または複数のセンサデバイス１１５を含むことが可能である。センサデバイス１１５がＩＭＵを含む実施形態においては、ＩＭＵは、センサデバイス１１５からの測定信号に基づいてＩＭＵデータを生成する。センサデバイス１１５の例は、１つもしくは複数の加速度計、１つもしくは複数のジャイロスコープ、１つもしくは複数の磁力計、動きを検知する別の適切なタイプのセンサ、ＩＭＵのエラー補正のために使用されるタイプのセンサ、またはそれらの何らかの組合せを含む。センサデバイス１１５は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで配置されることが可能である。

１つまたは複数の測定信号に基づいて、センサデバイス１１５は、ウェアラブルデバイス１００の初期位置に対するウェアラブルデバイス１００の現在の位置を推定する。推定位置は、ウェアラブルデバイス１００の場所、および／またはウェアラブルデバイス１００もしくはウェアラブルデバイス１００を装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。向きは、基準点に対するそれぞれの耳の位置に対応することが可能である。いくつかの実施形態においては、センサデバイス１１５は、ＤＣＡからの奥行き情報および／または絶対位置情報を使用して、ウェアラブルデバイス１００の現在の位置を推定する。センサデバイス１１５は、並進運動（前方／後方、上方／下方、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含むことが可能である。いくつかの実施形態においては、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからウェアラブルデバイス１００の推定位置を計算する。たとえば、ＩＭＵは、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、経時的に速度ベクトルを統合してウェアラブルデバイス１００上の基準点の推定位置を特定する。基準点とは、ウェアラブルデバイス１００の位置を記述するために使用されることが可能である点である。基準点は、空間における点として一般的に定義されることが可能であるが、実際には基準点は、ウェアラブルデバイス１００内の点として定義される。

オーディオシステムは、音源の動きを追跡し、音響伝達関数を動的に更新する。オーディオシステムは、マイクロフォンアレイ、コントローラ、およびスピーカーアレイを含む。しかしながら、その他の実施形態においては、オーディオシステムは、異なるおよび／または追加のコンポーネントを含むことが可能である。同様に、いくつかのケースにおいては、オーディオシステムのコンポーネントに関連して記述されている機能性は、ここで記述されているのとは異なる様式でコンポーネント間において分散されることが可能である。たとえば、コントローラの機能のうちのいくつかまたはすべてがリモートサーバによって実行されることが可能である。

マイクロフォンアレイは、ウェアラブルデバイス１００のローカルエリア内の音を録音する。ローカルエリアとは、ウェアラブルデバイス１００を取り巻く環境である。たとえば、ローカルエリアは、ウェアラブルデバイス１００を装着しているユーザが内部にいる部屋である場合があり、またはウェアラブルデバイス１００を装着しているユーザが外部にいる場合があり、ローカルエリアは、マイクロフォンアレイが音を検知することが可能である外部のエリアである。マイクロフォンアレイは、ウェアラブルデバイス１００上に配置されている複数の音響検知場所を含む。音響検知場所は、音響センサまたはポートのいずれかを含む。ポートとは、ウェアラブルデバイス１００のフレーム１０５における開口である。音響検知場所のケースにおいては、ポートは、ローカルエリアから音響導波管への音に関する結合点を提供し、音響導波管は、音を音響センサへ導く。音響センサは、ローカルエリア（たとえば、部屋）における１つまたは複数の音源から放出される音を取り込む。それぞれの音響センサは、音を検知して、検知された音を電子フォーマット（アナログまたはデジタル）へと変換するように構成されている。音響センサは、音響波センサ、マイクロフォン、音響変換器、または、音を検知するのに適している類似のセンサであることが可能である。

示されている構成においては、マイクロフォンアレイは、ウェアラブルデバイス１００上の複数の音響検知場所、たとえば、音響検知場所１２０ａ、１２０ｂ、１２０ｃ、１２０ｄ、１２０ｅ、および１２０ｆを含む。音響検知場所は、ウェアラブルデバイス１００の外面に配置されること、ウェアラブルデバイス１００の内面に、ウェアラブルデバイス１００とは別個に（たとえば、その他の何らかのデバイスの部分に）、またはそれらの何らかの組合せで配置されることが可能である。いくつかの実施形態においては、音響検知場所１２０ａ～ｆのうちの１つまたは複数は、それぞれの耳の外耳道に配置されることも可能である。マイクロフォンアレイの音響検知場所の構成は、図１を参照しながら記述されている構成とは異なることが可能である。音響検知場所の数および／または場所は、図１において示されているものとは異なることが可能である。たとえば、音響検知場所の数を増やして、収集されるオーディオ情報の量ならびにその情報の感度および／または精度を高めることが可能である。音響検知場所は、ウェアラブルデバイス１００を装着しているユーザを取り巻く広範囲の方向における音をマイクロフォンアレイが検知することが可能であるように向けられることが可能である。それぞれの検知された音は、周波数、振幅、位相、時間、持続時間、またはそれらの何らかの組合せに関連付けられることが可能である。

スピーカーアレイは、ＡＴＦに基づいてオーディオコンテンツを提示する。スピーカーアレイは、ウェアラブルデバイス１００上の複数の音響放出場所を含む。音響放出場所は、ウェアラブルデバイス１００のフレーム１０５におけるスピーカーまたはポートの場所である。音響放出場所のケースにおいては、ポートは、音響導波管からの音の取り出し点を提供し、音響導波管は、スピーカーアレイのスピーカーをポートから切り離す。スピーカーから放出された音は、音響導波管を通って伝わり、次いでポートによってローカルエリアへと放出される。

示されている実施形態においては、スピーカーアレイは、音響放出場所１２５ａ、１２５ｂ、１２５ｃ、１２５ｄ、１２５ｅ、および１２５ｆを含む。その他の実施形態においては、スピーカーアレイは、異なる数の音響放出場所（より多くのまたはより少ない）を含むことが可能であり、それらは、フレーム１０５上の異なる場所に配置されることが可能である。たとえば、スピーカーアレイは、ユーザの耳を覆うスピーカー（たとえば、ヘッドフォンまたはイヤフォン）を含むことが可能である。示されている実施形態においては、音響放出場所１２５ａ～１２５ｆは、フレーム１０５の外面（すなわち、ユーザに面していない表面）に配置されている。代替実施形態においては、音響放出場所のうちのいくつかまたはすべては、フレーム１０５の内面（ユーザに面している面）に配置されることが可能である。音響放出場所の数を増やすと、オーディオコンテンツに関連付けられているサウンドシーン分析の精度（たとえば、どこに音源が位置しているか）および／または解像度（たとえば、個別の音源間の最小距離）を改善することが可能である。

いくつかの実施形態においては、それぞれの音響検知場所は、対応する音響放出場所と実質的に併置されている。実質的に併置されているとは、それぞれの音響検知場所が、対応する音響放出場所から４分の１波長未満離れていることを指す。音響検知場所および対応する音響放出場所の数および／または場所は、図１において示されているものとは異なることが可能である。たとえば、音響検知場所および対応する音響放出場所の数を増やして、サウンドシーン分析の精度を高めることが可能である。

コントローラ１３５は、マイクロフォンアレイによって検知された音について記述するマイクロフォンアレイからの情報を処理する。それぞれの検知された音ごとに、コントローラ１３５は、ＤｏＡ推定を実行する。ＤｏＡ推定は、検知された音がどこからマイクロフォンアレイの音響センサに到達したかの推定方向である。音がマイクロフォンアレイの少なくとも２つの音響センサによって検知された場合には、コントローラ１３５は、それらの音響センサの既知の位置関係と、それぞれの音響センサからのＤｏＡ推定とを使用して、たとえば三角測量を介して、検知された音の音源場所を推定することが可能である。コントローラ１３５は、音響伝達関数を使用して、ＤｏＡ推定を実行することが可能である。音を検知した音響センサの数が増えるにつれて、および／または音を検知した音響センサ間の距離が増大するにつれて、音源場所推定の精度が高まることが可能である。

いくつかの実施形態においては、コントローラ１３５は、ウェアラブルデバイス１００の外部のシステムからウェアラブルデバイス１００の位置情報を受信することが可能である。位置情報は、ウェアラブルデバイス１００の場所、ウェアラブルデバイス１００もしくはウェアラブルデバイス１００を装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。位置情報は、基準点に対して定義されることが可能である。向きは、基準点に対するそれぞれの耳の位置に対応することが可能である。システムの例は、撮像アセンブリ、コンソール（たとえば、図５において記述されているような）、同時位置特定およびマッピング（ＳＬＡＭ）システム、奥行きカメラアセンブリ、構造化照明システム、またはその他の適切なシステムを含む。いくつかの実施形態においては、ウェアラブルデバイス１００は、ＳＬＡＭ計算のために使用されることが可能であるセンサを含むことが可能であり、ＳＬＡＭ計算は、コントローラ１３５によって全体的にまたは部分的に実行されることが可能である。コントローラ１３５は、システムから位置情報を継続的にまたはランダムなもしくは指定された間隔で受信することが可能である。

検知された音のパラメータに基づいて、コントローラ１３５は、オーディオシステムに関連付けられている１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、その他のタイプの音響伝達関数、またはそれらの何らかの組合せであることが可能である。ＡＴＦは、マイクロフォンアレイが空間におけるある点から音をどのようにして受信しているかを特徴付ける。具体的には、ＡＴＦは、音源場所における音のパラメータと、マイクロフォンアレイがその音を検知した際のパラメータとの間における関係を定義する。音に関連付けられるパラメータは、周波数、振幅、持続時間、ＤｏＡ推定などを含むことが可能である。いくつかの実施形態においては、マイクロフォンアレイの音響センサのうちの少なくともいくつかは、ユーザによって装着されているＮＥＤに結合されている。マイクロフォンアレイに対する特定の音源場所に関するＡＴＦは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造（たとえば、耳の形状、肩など）に起因してユーザごとに異なる場合がある。したがって、マイクロフォンアレイのＡＴＦは、ＮＥＤを装着しているそれぞれのユーザごとにパーソナライズされる。

ＨＲＴＦは、耳が空間におけるある点から音をどのようにして受信しているかを特徴付ける。人に対する特定の音源場所に関するＨＲＴＦは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造（たとえば、耳の形状、肩など）に起因して人のそれぞれの耳に固有である（そして人に固有である）。たとえば、図１において、コントローラ１３５は、ユーザに関する２つのＨＲＴＦを、それぞれの耳ごとに１つずつ生成することが可能である。ＨＲＴＦまたはＨＲＴＦのペアを使用して、空間における特定の点から来ているように感じられる音を含むオーディオコンテンツを作成することが可能である。いくつかのＨＲＴＦを使用して、（たとえば、ホームエンターテイメントシステム、シアタースピーカーシステム、没入型環境などのための）サラウンドサウンドオーディオコンテンツを作成することが可能であり、この場合、それぞれのＨＲＴＦまたはＨＲＴＦのそれぞれのペアは、空間における別々の点に対応し、それによってオーディオコンテンツは、空間におけるいくつかの異なる点から来ているように感じられる。いくつかの実施形態においては、コントローラ１３５は、それぞれの検知された音のＤｏＡ推定に基づいて既存の音響伝達関数を更新することが可能である。ウェアラブルデバイス１００の位置がローカルエリア内で変わるにつれて、コントローラ１３５は、新たな音響伝達関数を生成すること、またはそれに応じて既存の音響伝達関数を更新することが可能である。

いくつかの実施形態においては、コントローラは、ＤｏＡ推定を実行すること、音源の移動を追跡すること、別々の音源からの信号を分離すること、および音源を分類することが可能である。コントローラのオペレーションは、以降で図３および図４に関して詳細に記述されている。

示されている構成においては、オーディオシステムは、ユーザによって装着されるＮＥＤへと埋め込まれている。代替実施形態においては、オーディオシステムは、ユーザによって装着されるヘッドマウントディスプレイ（ＨＭＤ）へと埋め込まれることが可能である。上記の説明は、ユーザによって装着されるヘッドセットへと埋め込まれるものとしてオーディオアセンブリについて論じているが、オーディオアセンブリは、ユーザによってほかのどこかに装着されること、または装着されることなくユーザによって操作されることが可能である異なるウェアラブルデバイスへと埋め込まれることが可能であるということは、当業者にとって明らかであろう。

図２Ａは、１つまたは複数の実施形態による、ローカルエリア２０５内のサウンドシーン２３５を分析するウェアラブルデバイス２００を示している。ウェアラブルデバイス２００は、ユーザ２１０によって装着され、オーディオシステム（たとえば、図１および図３～図５において記述されているような）を含む。ローカルエリア２０５は、複数の音源、具体的には、人２１５、人２２０、人２２５、およびファン２３０を含む。ウェアラブルデバイス２００は、サウンドシーン分析を実行する。サウンドシーンは、たとえば、音源に関連付けられている音響伝達関数、音源の数、音源の場所、音源の移動、音源の分類、またはそれらの何らかの組合せを記述する。

ウェアラブルデバイス２００は、それぞれの音源に関するＤｏＡを推定する。ウェアラブルデバイス２００の解像度と、音源の相対的な場所とに応じて、複数の音源が、ウェアラブルデバイス２００による分析のために単一の音源としてともにグループ化されることが可能である。たとえば、人２１５および人２２０は、互いに隣り合って位置しており、ウェアラブルデバイス２００は、少なくとも最初は、人２１５および人２２０を単一の音源として識別することが可能である。

ＤｏＡ推定に基づいて、ウェアラブルデバイス２００は、図３に関してさらに記述されているように、それぞれの検知された音源の方向において１つまたは複数のビームを形成する。ビームを形成すること（ビームフォーミングとも呼ばれる）は、ウェアラブルデバイス２００が、ローカルエリアにおけるある音源によって生成された音をローカルエリア内のその他の音源から分離するおよび／または切り離すために使用する処理技術である。たとえば、ウェアラブルデバイス２００は、ファン２３０の周りにビーム２４１を、人２１５および人２２０の周りにビーム２４２を、そして人２２５の周りにビーム２４３を形成する。それぞれの音源に関してビームを形成することによって、ウェアラブルデバイスは、それぞれの音源に関してマイクロフォンアレイによって受信されたデータを別々に処理することが可能である。ウェアラブルデバイス２００は、ローカルエリア２０５におけるその他の音と比較して、ビーム内から受信されたオーディオ信号の相対的な差を増大させることが可能である。たとえば、ウェアラブルデバイス２００は、ビーム内から受信されるオーディオ信号の振幅を増大させることが可能であり、ビームの外側から受信されるオーディオ信号を抑制することが可能であり、またはそれらの何らかの組合せである。

ウェアラブルデバイス２００は、それぞれの音源を分類するように構成されている。たとえば、音源の特徴に基づいて、ウェアラブルデバイス２００は、音源を人間、動物、器具、車両などとして分類することが可能である。異なる分類は、マイクロフォンアレイによって受信されてスピーカーアレイによって出力される音をウェアラブルデバイス２００がどのようにして処理するかに影響を与える場合がある。トラッキング、ビームフォーミング、サウンド分類、またはそれらの何らかの組合せに基づいて、オーディオシステムは、サウンドフィルタを生成および／または更新し、それらのサウンドフィルタをスピーカーアレイに提供する。スピーカーアレイは、サウンドフィルタを使用してオーディオコンテンツを提示する。いくつかの実施形態においては、ユーザが会話を聞く能力を高めるために、ウェアラブルデバイス２００は、サウンドフィルタを適用して、人間として分類されている音源を伴うビームからのオーディオ信号を増大させることが可能であり、ウェアラブルデバイス２００は、サウンドフィルタを適用して、非人間として分類されている音源を伴うビームからのオーディオ信号を抑制することが可能である。

図２Ｂは、人２２５がウェアラブルデバイス２００に対して移動した後のサウンドシーン２３５を分析するウェアラブルデバイス２００を示している。ウェアラブルデバイス２００は、経時的にサウンドシーン２３５をモニタおよび分析するように構成されている。人２２５が移動するにつれて、ウェアラブルデバイス２００は、人２２５の移動を追跡することが可能である。いくつかの実施形態においては、ウェアラブルデバイス２００は、音源の変化するＤｏＡ、ウェアラブルデバイス２００によって受信された視覚情報、または外部データソースから受信された情報に基づいて、移動を検知することが可能である。ウェアラブルデバイス２００と、人２１５、２２０、２２５のうちの１人または複数との間における相対的な位置付けが変わるにつれて、オーディオシステムは、人２１５、２２０、２２５を含み続けるようにビームの場所を動的に調整する。たとえば、人２２５が人２１５、２２５に向かって歩くにつれて、ウェアラブルデバイス２００は、ビーム２４３が人２２５とともに移動するようにサウンドシーン分析を動的に更新する。ウェアラブルデバイス２００は、音源のトラッキング、ビームフォーミング、および分類の結果をフィードバックとして利用して、ウェアラブルデバイス２００によって生成される音響伝達関数の精度を評価することが可能である。ウェアラブルデバイス２００は、フィードバックに基づいて音響伝達関数を更新することが可能である。更新された音響伝達関数を使用して、ＤｏＡ推定、トラッキング、ビームフォーミング、および分類の精度を改善することが可能である。更新された音響伝達関数を使用して、スピーカーアレイに提供されるサウンドフィルタを更新することが可能である。

図３は、１つまたは複数の実施形態による、オーディオシステム３００のブロック図である。図１、図２Ａ、および図２Ｂにおけるオーディオシステムは、オーディオシステム３００の実施形態であることが可能である。オーディオシステム３００は、音を検知して、ユーザのための１つまたは複数の音響伝達関数を生成する。オーディオシステム３００は次いで、１つまたは複数の音響伝達関数を使用して、ユーザのためのオーディオコンテンツを生成することが可能である。図３の実施形態においては、オーディオシステム３００は、マイクロフォンアレイ３１０、スピーカーアレイ３２０、およびコントローラ３３０を含む。オーディオシステム３００のいくつかの実施形態は、ここで記述されているものとは異なるコンポーネントを有する。同様に、いくつかのケースにおいては、ここで記述されているのとは異なる様式でコンポーネント間において機能が分散されることが可能である。

マイクロフォンアレイ３１０は、マイクロフォンアレイ３１０を取り巻くローカルエリア内の音を検知する。マイクロフォンアレイ３１０は、複数の音響センサを含むことが可能であり、それらの音響センサは、音波の気圧変動をそれぞれ検知して、検知された音を電子フォーマット（アナログまたはデジタル）へと変換する。複数の音響センサは、アイウェアデバイス（たとえば、ウェアラブルデバイス１００）に、ユーザに（たとえば、ユーザの外耳道に）、ネックバンドに、またはそれらの何らかの組合せで配置されることが可能である。マイクロフォンアレイ３１０のそれぞれの音響センサは、アクティブであること（電源がオンにされていること）または非アクティブであること（電源がオフにされていること）が可能である。音響センサは、コントローラ３３０からの命令に従ってアクティブ化または非アクティブ化される。いくつかの実施形態においては、マイクロフォンアレイ３１０における音響センサのうちのすべてが、音を検知するためにアクティブであることが可能であり、または複数の音響センサのサブセットがアクティブであることが可能である。アクティブなサブセットは、複数の音響センサのうちの少なくとも２つの音響センサを含む。アクティブなサブセットは、たとえば、１つおきの音響センサ、事前にプログラムされた初期サブセット、ランダムなサブセット、またはそれらの何らかの組合せを含むことが可能である。

スピーカーアレイ３２０は、ユーザとの間で音を送信するように構成されている。スピーカーアレイ３２０は、コントローラ３３０からのコマンドに従って、および／またはコントローラ３３０からのオーディオ特性化構成に基づいて動作することが可能である。オーディオ特性化構成に基づいて、スピーカーアレイ３２０は、空間における特定の点から来ているように感じられるバイノーラルサウンドを生成することが可能である。スピーカーアレイ３２０は、音のシーケンスおよび／またはサラウンドサウンドをユーザに提供することが可能である。いくつかの実施形態においては、スピーカーアレイ３２０およびマイクロフォンアレイ３１０をともに使用して、ユーザに音を提供することが可能である。いくつかの実施形態においては、スピーカーアレイ３２０は、サウンドシーンにおける特定の場所へ音を投射することが可能であり、またはスピーカーアレイ３２０は、サウンドシーンにおける特定の場所へ音が投射されるのを防止することが可能である。スピーカーアレイ３２０は、コントローラ３３０によって利用されるサウンドフィルタに従って音を提示することが可能である。

スピーカーアレイ３２０は、マイクロフォンアレイ３１０が結合されているウェアラブルデバイスに結合されることが可能である。代替実施形態においては、スピーカーアレイ３２０は、マイクロフォンアレイ３１０を装着しているユーザを取り囲む複数のスピーカーであることが可能である。一実施形態においては、スピーカーアレイ３２０は、マイクロフォンアレイ３１０の較正プロセス中にテスト音を送信する。コントローラ３３０は、テスト音を生成するようにスピーカーアレイ３２０に指示することが可能であり、次いで、マイクロフォンアレイ３１０によって受信されたテスト音を分析して、ウェアラブルデバイスのための音響伝達関数を生成することが可能である。さまざまな周波数、振幅、持続時間、またはシーケンスを有する複数のテスト音がスピーカーアレイ３２０によって生成されることが可能である。

コントローラ３３０は、マイクロフォンアレイ３１０からの情報を処理する。加えて、コントローラ３３０は、オーディオシステム３００のその他のモジュールおよびデバイスを制御する。図３の実施形態においては、コントローラ３３０は、ＤｏＡ推定モジュール３４０、伝達関数モジュール３５０、トラッキングモジュール３６０、ビームフォーミングモジュール３７０、分類モジュール３８０、サウンドフィルタモジュール３８５、およびパーソナルアシスタントモジュール３９０を含む。

ＤｏＡ推定モジュール３４０は、検知された音に関してＤｏＡ推定を実行するように構成されている。音がマイクロフォンアレイの少なくとも２つの音響センサによって検知された場合には、コントローラ３３０は、それらの音響センサの位置関係と、それぞれの音響センサからのＤｏＡ推定とを使用して、たとえば三角測量を介して、検知された音の音源場所を推定することが可能である。推定された音源場所は、マイクロフォンアレイ３１０の位置に対するローカルエリアにおける音源場所の相対的な位置であることが可能である。マイクロフォンアレイ３１０の位置は、マイクロフォンアレイ３１０を有しているウェアラブルデバイス上の１つまたは複数のセンサによって特定されることが可能である。いくつかの実施形態においては、コントローラ３３０は、マイクロフォンアレイ３１０の絶対位置がローカルエリアにおいて既知である場合には、音源場所の絶対位置を特定することが可能である。マイクロフォンアレイ３１０の位置は、外部システム（たとえば、撮像アセンブリ、ＡＲまたはＶＲコンソール、ＳＬＡＭシステム、奥行きカメラアセンブリ、構造化照明システムなど）から受信されることが可能である。外部システムは、ローカルエリアの仮想モデルを作成することが可能であり、その仮想モデルにおいては、ローカルエリアと、マイクロフォンアレイ３１０の位置とがマップされる。受信された位置情報は、マップされたローカルエリアにおけるマイクロフォンアレイの場所および／または向きを含むことが可能である。コントローラ３３０は、検知された音の特定された音源場所を用いてローカルエリアのマッピングを更新することが可能である。コントローラ３３０は、外部システムから位置情報を継続的にまたはランダムなもしくは指定された間隔で受信することが可能である。

ＤｏＡ推定モジュール３４０は、自分がＤｏＡ推定を実行する対象の検知された音を選択する。ＤｏＡ推定モジュール３４０は、オーディオデータセットに情報を投入する。その情報は、検知された音と、それぞれの検知された音に関連付けられているパラメータとを含むことが可能である。例示的なパラメータは、周波数、振幅、持続時間、ＤｏＡ推定、音源場所、測定の時刻、またはそれらの何らかの組合せを含むことが可能である。それぞれのオーディオデータセットは、マイクロフォンアレイ３１０に対する別々の音源場所に対応すること、およびその音源場所を有している１つまたは複数の音を含むことが可能である。ＤｏＡ推定モジュール３４０は、音がマイクロフォンアレイ３１０によって検知される際にオーディオデータセットへの投入を行うことが可能である。ＤｏＡ推定モジュール３４０は、それぞれの検知された音に関連付けられている格納されているパラメータを評価すること、および１つまたは複数の格納されているパラメータが、対応するパラメータ条件を満たしているかどうかを特定することが可能である。たとえば、パラメータがしきい値を上回っている、もしくは下回っている、または目標範囲内にある場合には、パラメータ条件が満たされることが可能である。パラメータ条件が満たされている場合には、ＤｏＡ推定モジュール３４０は、検知された音に関してＤｏＡ推定を実行する。たとえば、ＤｏＡ推定モジュール３４０は、ある周波数範囲内の周波数、あるしきい値振幅を上回っている振幅、あるしきい値持続時間範囲を下回っている持続時間、その他の類似のバリエーション、またはそれらの何らかの組合せを有する検知された音に関してＤｏＡ推定を実行することが可能である。パラメータ条件は、履歴データに基づいて、オーディオデータセットにおける情報の分析（たとえば、収集された情報をパラメータに関して評価し、平均を設定すること）に基づいて、またはそれらの何らかの組合せでオーディオシステム３００のユーザによって設定されることが可能である。ＤｏＡ推定モジュール３４０は、検知された音に関するＤｏＡ推定を実行する際に、オーディオデータセットに対するさらなる投入または更新を行うことが可能である。ＤｏＡ推定モジュール３４０は、それぞれのＤｏＡ推定に関する信頼水準を計算することが可能である。信頼水準は、基礎となる空間スペクトルにおけるピークの鋭さに基づいて測定されることが可能である。到着ベースのアルゴリズムの時間差が採用されているいくつかの実施形態においては、信頼水準は、相互相関関数の鋭さに基づいて測定されることが可能である。ＤｏＡ推定に関する信頼水準は、ＤｏＡ推定モジュール３４０によって推定された場所に音源が位置している可能性を表すことが可能である。たとえば、信頼水準は、１～１００の範囲であることが可能であり、この場合、１００という理論上の信頼水準は、ＤｏＡ推定において不確実性がゼロであるということを表し、１という信頼水準は、ＤｏＡ推定における高い水準の不確実性を表す。

伝達関数モジュール３５０は、マイクロフォンアレイ３１０によって検知された音の音源場所に関連付けられている１つまたは複数の音響伝達関数を生成するように構成されている。一般には、伝達関数は、それぞれの可能な入力値ごとに、対応する出力値を与える数学関数である。それぞれの音響伝達関数は、マイクロフォンアレイまたは人の位置（すなわち、場所および／または向き）に関連付けられることが可能であり、その位置に固有であることが可能である。たとえば、音源の場所、および／またはマイクロフォンアレイもしくは人の頭の場所もしくは向きが変わるにつれて、音は、周波数、振幅などの点で異なって検知される場合がある。図３の実施形態においては、伝達関数モジュール３５０は、オーディオデータセットにおける情報を使用して、１つまたは複数の音響伝達関数を生成する。その情報は、検知された音と、それぞれの検知された音に関連付けられているパラメータとを含むことが可能である。ＤｏＡ推定モジュール３４０からのＤｏＡ推定およびそれらのそれぞれの信頼水準を伝達関数モジュール３５０への入力として使用して、音響伝達関数の精度を改善することが可能である。加えて、伝達関数モジュール３５０は、音響伝達関数を更新するために、トラッキングモジュール３６０、ビームフォーミングモジュール３７０、および分類モジュール３８０からフィードバックを受信することが可能である。

いくつかの実施形態においては、ＤｏＡ推定モジュール３４０は、直接音のみを事前に選択し、反射音を除去することが可能である。直接音を使用して、音響伝達関数を抽出することが可能である。音響伝達関数を抽出することに関するさらなる情報に関しては、２０１８年６月２２日に出願された「ＡＵＤＩＯＳＹＳＴＥＭＦＯＲＤＹＮＡＭＩＣＤＥＴＥＲＭＩＮＡＴＩＯＮＯＦＰＥＲＳＯＮＡＬＩＺＥＤＡＣＯＵＳＴＩＣＴＲＡＮＳＦＥＲＦＵＮＣＴＩＯＮＳ」と題されている米国特許出願第１６／０１５，８７９号を参照されたい。その内容は、それらの全体が参照によって本明細書に組み込まれている。フィードバックを使用して、適応プロセスを制御することが可能である。

ＤｏＡ推定モジュール３４０、トラッキングモジュール３６０、ビームフォーミングモジュール３７０、および分類モジュール３８０からのフィードバックを使用して、音響伝達関数を更新することが可能である。それぞれのモジュールは、別々に重み付けされることが可能である。いくつかの実施形態においては、重みは、処理チェーンにおける順序に基づくことが可能である。たとえば、ＤｏＡ推定モジュール３４０からのフィードバックは、０．４の重みを受け取ることが可能であり、トラッキングモジュール３６０からのフィードバックは、０．３の重みを受け取ることが可能であり、ビームフォーミングモジュール３７０からのフィードバックは、０．２の重みを受け取ることが可能であり、分類モジュール３８０からのフィードバックは、０．１の重みを受け取ることが可能である。しかしながら、これは単なる一例であり、多くの異なる重み付けスキームが使用されることが可能であり、いくつかの実施形態においては、重みは、試行錯誤によって、または実験データを使用して統計分析を実行することによって推測されることが可能であるということを当業者なら認識するであろう。

音響伝達関数は、以降でさらに詳細に論じられているさまざまな目的のために使用されることが可能である。いくつかの実施形態においては、伝達関数モジュール３５０は、検知された音のＤｏＡ推定に基づいて１つまたは複数の既存の音響伝達関数を更新することが可能である。音源またはマイクロフォンアレイ３１０の位置（すなわち、場所および／または向き）がローカルエリア内で変わるにつれて、コントローラ３３０は、新たな音響伝達関数を生成すること、またはそれに応じてそれぞれの位置に関連付けられるように既存の音響伝達関数を更新することが可能である。

いくつかの実施形態においては、伝達関数モジュール３５０は、アレイ伝達関数（ＡＴＦ）を生成する。ＡＴＦは、マイクロフォンアレイ３１０が空間におけるある点から音をどのようにして受信しているかを特徴付ける。具体的には、ＡＴＦは、音源場所における音のパラメータと、マイクロフォンアレイ３１０がその音を検知した際のパラメータとの間における関係を定義する。伝達関数モジュール３５０は、検知された音の特定の音源場所、ローカルエリアにおけるマイクロフォンアレイ３１０の位置、またはそれらの何らかの組合せに関して１つまたは複数のＡＴＦを生成することが可能である。音がマイクロフォンアレイ３１０によってどのようにして受信されるかに影響を与える可能性があるファクタは、マイクロフォンアレイ３１０における音響センサの配置および／もしくは向き、音源とマイクロフォンアレイ３１０との間にある何らかの物体、マイクロフォンアレイ３１０を備えたウェアラブルデバイスを装着しているユーザの解剖学的構造、またはローカルエリアにおけるその他の物体を含むことが可能である。たとえば、マイクロフォンアレイ３１０を含むウェアラブルデバイスをユーザが装着している場合には、その人の解剖学的構造（たとえば、耳の形状、肩など）は、音波がマイクロフォンアレイ３１０に伝わる際にそれらの音波に影響を与える場合がある。別の例においては、マイクロフォンアレイ３１０を含むウェアラブルデバイスをユーザが装着していて、マイクロフォンアレイ３１０を取り巻くローカルエリアが、建物、木々、茂み、水域などを含む外部環境である場合には、それらの物体は、そのローカルエリアにおける音の振幅を減衰または増幅する場合がある。ＡＴＦを生成および／または更新することは、マイクロフォンアレイ３１０によって取り込まれるオーディオ情報の精度を改善する。

一実施形態においては、伝達関数モジュール３５０は、１つまたは複数のＨＲＴＦを生成する。ＨＲＴＦは、人の耳が空間におけるある点から音をどのようにして受信しているかを特徴付ける。人に対する特定の音源場所に関するＨＲＴＦは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造（たとえば、耳の形状、肩など）に起因して人のそれぞれの耳に固有である（そして人に固有である）。伝達関数モジュール３５０は、単一の人のために複数のＨＲＴＦを生成することが可能であり、この場合、それぞれのＨＲＴＦは、別々の音源場所、マイクロフォンアレイ３１０を装着している人の別々の位置、またはそれらの何らかの組合せに関連付けられることが可能である。加えて、それぞれの音源場所および／または人の位置に関して、伝達関数モジュール３５０は、２つのＨＲＴＦを、人のそれぞれの耳ごとに１つずつ生成することが可能である。一例として、伝達関数モジュール３５０は、単一の音源場所に対してローカルエリアにおいて特定の場所およびユーザの頭の特定の向きにあるユーザのために２つのＨＲＴＦを生成することが可能である。ユーザが自分の頭を異なる方向に向けた場合には、伝達関数モジュール３５０は、特定の場所および新たな向きにあるユーザのために２つの新たなＨＲＴＦを生成することが可能であり、または伝達関数モジュール３５０は、２つの既存のＨＲＴＦを更新することが可能である。したがって、伝達関数モジュール３５０は、別々の音源場所、ローカルエリアにおけるマイクロフォンアレイ３１０の別々の位置、またはそれらの何らかの組合せに関していくつかのＨＲＴＦを生成する。

いくつかの実施形態においては、伝達関数モジュール３５０は、ユーザのための複数のＨＲＴＦおよび／またはＡＴＦを使用して、ユーザのためのオーディオコンテンツを提供することが可能である。伝達関数モジュール３５０は、音（たとえば、ステレオサウンドまたはサラウンドサウンド）を生成するためにスピーカーアレイ３２０によって使用されることが可能であるオーディオ特性化構成を生成することが可能である。オーディオ特性化構成は、空間における特定の点から来ているように感じられるバイノーラルサウンドを合成するためにオーディオシステム３００が使用することが可能である機能である。したがって、ユーザに固有のオーディオ特性評価構成は、オーディオシステム３００が、音および／またはサラウンドサウンドをユーザに提供すること、またはサウンドシーンにおけるさまざまな場所に音を投射することを可能にする。オーディオシステム３００は、スピーカーアレイ３２０を使用して音を提供することが可能である。いくつかの実施形態においては、オーディオシステム３００は、スピーカーアレイ３２０とともに、またはスピーカーアレイ３２０の代わりにマイクロフォンアレイ３１０を使用することが可能である。一実施形態においては、複数のＡＴＦ、複数のＨＲＴＦ、および／またはオーディオ特性化構成は、コントローラ３３０上に格納されている。トラッキングモジュール３６０は、１つまたは複数の音源の場所を追跡するように構成されている。トラッキングモジュール３６０は、現在のＤｏＡ推定またはサウンドパラメータを比較すること、およびそれらを以前のＤｏＡ推定またはサウンドパラメータの格納されている履歴と比較することが可能である。いくつかの実施形態においては、オーディオシステム３００は、１秒に１回、または１ミリ秒に１回など、周期的なスケジュールでＤｏＡ推定を再計算することが可能である。トラッキングモジュールは、現在のＤｏＡ推定を以前のＤｏＡ推定と比較することが可能であり、音源に関するＤｏＡ推定における変化に応答して、トラッキングモジュール３６０は、その音源が移動したということを特定することが可能である。いくつかの実施形態においては、トラッキングモジュール３６０は、ウェアラブルデバイスによって受信された視覚情報、または外部データソースから受信された情報に基づいて、場所における変化を検知することが可能である。トラッキングモジュール３６０は、経時的に１つまたは複数の音源の移動を追跡することが可能である。トラッキングモジュール３６０は、それぞれの時点における音源の数およびそれぞれの音源の場所を表す値を格納することが可能である。音源の数または場所の値における変化に応答して、トラッキングモジュール３６０は、音源が移動したということを特定することが可能である。トラッキングモジュール３６０は、局在化分散の推定を計算することが可能である。局在化分散は、移動における変化のそれぞれの特定のための信頼水準として使用されることが可能である。

ビームフォーミングモジュール３７０は、個別の音源からマイクロフォンアレイ３１０において受信された音の方向においてビームを形成するように構成されている。ビームフォーミングモジュール３７０は、ＤｏＡ推定モジュール３４０およびトラッキングモジュール３６０からの別々のＤｏＡ推定に基づいて、ビーム内から受信されたオーディオ信号をローカルエリアにおけるその他の音源から分離することが可能である。ビームフォーミングは、空間フィルタリングとも呼ばれ、指向性受信のためのセンサアレイにおいて使用される信号処理技術である。ビームフォーミングモジュール３７０は、特定の角度から受信された信号が建設的な干渉を経験する一方でその他の信号が破壊的な干渉を経験するような方法でマイクロフォンアレイ３１０またはスピーカーアレイ３２０における要素を組み合わせることが可能である。アレイの方向性を変更するために、ビームフォーミングモジュールは、波面において建設的なおよび破壊的な干渉のパターンを作成する目的で、それぞれのマイクロフォンまたはスピーカーにおける信号の位相および相対振幅を制御することが可能である。マイクロフォンアレイ３１０によって検知された音を分析する際に、ビームフォーミングモジュール３７０は、予想される放射パターンが優先的に観察される方法で別々のマイクロフォンからの情報を組み合わせることが可能である。したがってビームフォーミングモジュール３７０は、ローカルエリアにおける個別の音源を選択的に分析することが可能である。いくつかの実施形態においては、ビームフォーミングモジュール３７０は、音源からの信号を強化することが可能である。たとえば、ビームフォーミングモジュール３７０は、特定の周波数を上回る、下回る、または特定の周波数間にある信号を除去するサウンドフィルタを適用することが可能である。信号強化は、所与の識別された音源に関連付けられている音を、マイクロフォンアレイ３１０によって検知されたその他の音と比較して強化するように作用する。

ビームフォーミングモジュール３７０は、ビームの場所またはその他の側面の精度に関する信頼水準を計算することが可能である。いくつかの実施形態においては、ビームフォーミングモジュール３７０は、信頼水準としてアレイゲイン計算を使用することが可能である。アレイゲインは、出力信号対雑音比（ＳＮＲ）と入力ＳＮＲとの間における比率である。相対的に高いアレイゲインは、より高い信頼水準を表す。ビームフォーミングモジュール３７０は、音源からの分離された信号およびそれらのそれぞれの信頼水準を、音響伝達関数の精度を改善するための入力として使用されるように伝達関数モジュール３５０に提供することが可能である。

分類モジュール３８０は、検知された音源を分類するように構成されている。いくつかの実施形態においては、分類モジュール３８０は、識別された音源を、人間型または非人間型のいずれかであるものとして分類する。人間型の音源とは、人および／または人によって制御されるデバイス（たとえば、電話、会議デバイス、在宅勤務ロボット）である。非人間型の音源とは、人間型の音源として分類されない任意の音源である。非人間型の音源は、たとえば、テレビ、ラジオ、空調ユニット、ファン、人間型の音源として分類されない任意の音源、またはそれらの何らかの組合せを含むことが可能である。いくつかの実施形態においては、分類モジュール３８０は、音源を、男性、女性、犬、テレビ、車両等など、より狭いカテゴリーへと分類する。分類モジュール３８０は、分類ライブラリを格納することが可能である。分類ライブラリは、音源分類のリスト、ならびに音源が特定の分類を満たしているということを示すパラメータを格納することが可能である。たとえば、音源分類は、人間、動物、機械、デジタル、機器、車両などを含むことが可能である。いくつかの実施形態においては、音源分類は、サブ分類を含むことが可能である。たとえば、人間の分類は、男性、女性、大人、子供、話している、笑っている、叫んでいるなどのサブ分類を含むことが可能である。パラメータは、周波数、振幅、持続時間等などのカテゴリーを含むことが可能である。それぞれの分類またはサブ分類は、その分類を表すパラメータに関連付けられている。分類モジュール３８０は、音源のパラメータを分類ライブラリにおけるパラメータと比較して、音源を分類することが可能である。

加えて、いくつかの実施形態においては、ユーザは、ローカルエリアにおける物体および／または人々を手動で分類することが可能である。たとえば、ユーザは、ウェアラブルデバイス上のインターフェースを使用して、人を人間として識別することが可能である。音源が分類されると、分類モジュール３８０は、その音源に関連付けられている音響伝達関数を、同じタイプのものであるとして関連付ける。

分類モジュール３８０は、識別された音源に関連付けられている音響伝達関数、および／またはマイクロフォンアレイ３１０によって検知された音を分析することによって、音源のタイプを特定する。いくつかの実施形態においては、分類モジュール３８０は、ビームフォーミングモジュール３７０によって提供された分離された信号を分析して、音源を分類することが可能である。

分類モジュール３８０は、音源の分類に関する信頼水準を計算することが可能である。分類モジュールは、入力オーディオサンプルが所与のクラスに属する確率を表す数値を出力することが可能である。確率数値は、信頼水準として使用されることが可能である。分類モジュール３８０は、音源の分類およびそれらのそれぞれの信頼水準を、音響伝達関数の精度を改善するための入力として使用されるように伝達関数モジュール３５０に提供することが可能である。

オーディオシステム３００は、マイクロフォンアレイ３１０から音を継続的に受信している。したがって、コントローラ３３０は、ウェアラブルデバイスと、ローカルエリア内のいずれかの音源との間において相対的な場所が変わるにつれて、音響伝達関数およびサウンドシーン分析を（たとえば、コントローラ３３０内のモジュールを介して）動的に更新することが可能である。更新された音響伝達関数は、ＤｏＡ推定モジュール３４０、トラッキングモジュール３６０、ビームフォーミングモジュール３７０、および分類モジュール３８０によって使用されて、それぞれのモジュールのそれぞれの計算の精度を高めることが可能である。

サウンドフィルタモジュール３８５は、スピーカーアレイ３２０のためのサウンドフィルタを特定する。いくつかの実施形態においては、サウンドフィルタモジュール３８５およびビームフォーミングモジュール３７０は、バイノーラルビームフォーミングを利用することが可能であり、バイノーラルビームフォーミングは、音響伝達関数を使用してビームフォーミングおよび再生を単一のステップへと組み合わせる。そのようなケースにおいては、サウンドフィルタモジュール３８５およびビームフォーミングモジュール３７０は、最適化アルゴリズムを音響伝達関数に適用することによってサウンドフィルタを特定する。しかしながら、いくつかの実施形態においては、ビームフォーミングモジュール３７０は、サウンドフィルタモジュール３８５がサウンドフィルタを特定する前に、最適化アルゴリズムを音響伝達関数に適用する。最適化アルゴリズムは、１つまたは複数の制約を課される。制約とは、最適化アルゴリズムの結果に影響を与える可能性がある要件である。たとえば、制約は、たとえば、音源の分類、スピーカーアレイ３２０によって出力されたオーディオコンテンツがユーザの耳に提供されること、人間型として分類された音響伝達関数の合計のエネルギーおよび／もしくはパワーが最小化もしくは最大化されること、スピーカーアレイ３２０によって出力されたオーディオコンテンツがユーザの耳においてしきい値量未満の歪みを有すること、最適化アルゴリズムの結果に影響を与える可能性があるその他の何らかの要件、またはそれらの何らかの組合せであることが可能である。最適化アルゴリズムは、たとえば、線形制約付き最小分散（ＬＣＭＶ）アルゴリズム、最小分散歪みなし応答（ＭＶＤＲ）、または、サウンドフィルタを特定するその他の何らかの適応ビームフォーミングアルゴリズムであることが可能である。いくつかの実施形態においては、最適化アルゴリズムは、識別された音源からの音の到来方向、および／またはヘッドセットに対する１つもしくは複数の音源の相対的な場所を利用して、サウンドフィルタを特定することも可能である。最適化アルゴリズムは、サウンドフィルタを出力することが可能である。サウンドフィルタモジュール３８５は、サウンドフィルタをスピーカーアレイ３２０に提供する。サウンドフィルタは、オーディオ信号に適用された場合には、音源を増幅または減衰するオーディオコンテンツを提示することをスピーカーアレイ３２０に行わせる。いくつかの実施形態においては、サウンドフィルタは、人間の音源を増幅すること、および非人間の音源を減衰することをスピーカーアレイ３２０に行わせることが可能である。いくつかの実施形態においては、サウンドフィルタは、音源によって占められている１つまたは複数の減衰領域における低減された振幅を有する音場を生成することをスピーカーアレイ３２０に行わせることが可能である。

上述されているように、最適化アルゴリズムは、音源の分類タイプによって制約されることが可能である。たとえば、サウンドフィルタモジュール３８５および／またはビームフォーミングモジュール３７０は、人間型として分類された音響伝達関数のエネルギーの合計のエネルギーが最小化されるような様式で、最適化アルゴリズムを音響伝達関数に適用することが可能である。この様式で制約された最適化アルゴリズムは、減衰エリアが、人間型として分類された音源が存在している場所に配置されることになる一方で、非人間型として分類された音源が存在している場所には配置されないようにサウンドフィルタを生成することが可能である。分類の１つの利点として、分類は、音場内の減衰領域の数を潜在的に低減し、それによって音場およびスピーカーアレイ３２０に関するハードウェア仕様の複雑さ（たとえば、音響放出場所および音響検知場所の数）を低減することが可能である。減衰領域の数における低減は、使用される減衰領域の抑制を高めることも可能である。

伝達関数モジュール３５０が音響伝達関数を更新したことに応答して、サウンドフィルタモジュール３８５は、更新された音響伝達関数に最適化アルゴリズムを適用することが可能である。サウンドフィルタモジュール３８５は、更新されたサウンドフィルタをスピーカーアレイ３２０に提供することが可能である。サウンドシーンにおけるいくつかのまたはすべての音源を分類したら、サウンドフィルタを適用して、選択された音源を強調または抑制することが可能である。選択される音源は、所与のシナリオ、ユーザの入力、または、本明細書において記述されているようにデバイスによって採用されるさまざまなアルゴリズムに基づいて決定されることが可能である。

パーソナルアシスタントモジュール３９０は、サウンドシーン分析に関する有用な情報をユーザに提供するように構成されている。パーソナルアシスタントモジュール３９０は、スピーカーアレイ３２０、またはウェアラブルデバイス上の視覚的ディスプレイを介してユーザに情報を提供することが可能である。たとえば、パーソナルアシスタントモジュール３９０は、さまざまな音源の数、場所、および分類をユーザに提供することが可能である。パーソナルアシスタントモジュール３９０は、人間の音源からの発話を文字に起こすことが可能である。パーソナルアシスタントモジュール３９０は、特定の人が分類ライブラリにおいてリストアップされている場合のその人に関する情報、または機械的音源の型式およびモデルなど、音源に関する記述的な情報を提供することが可能である。

加えて、パーソナルアシスタントモジュール３９０は、サウンドシーンの予測分析を提供することが可能である。たとえば、パーソナルアシスタントモジュール３９０は、トラッキングモジュール３６０によって提供された空間情報に基づいて、分類モジュール３８０によって車両として識別された音源がユーザの方向に急速に移動しているということを特定することが可能であり、パーソナルアシスタントモジュール３９０は、その車両の移動についての通知を生成して、ユーザがその車両によって衝突される危険があるということを、スピーカーアレイ３２０または視覚的ディスプレイを介してユーザに警告することが可能である。いくつかの実施形態においては、パーソナルアシスタントモジュール３９０は、どの音源が増幅されるべきであり、どの音源が減衰されるべきであるかに関して、ユーザからの入力を予測または要求することが可能である。たとえば、パーソナルアシスタントモジュール３９０は、ユーザとの、またはその他のユーザとの以前に格納された対話に基づいて、ユーザにとって最も近い人間の音源からの音が増幅されるべきであり、その他のすべての音源が減衰されるべきであるということを特定することが可能である。これは、うるさい環境において会話をする際にユーザを支援することが可能である。上記の特定の例は、パーソナルアシスタントモジュール３９０およびオーディオシステム３００に関する多くの利用可能な使用のうちのわずかな部分を表しているということを当業者なら認識するであろう。

図４は、１つまたは複数の実施形態による、オーディオシステム（たとえば、オーディオシステム３００）を含むウェアラブルデバイス（たとえば、ウェアラブルデバイス１００）のための音響伝達関数を生成および更新するプロセス４００を示すフローチャートである。一実施形態においては、図４のプロセスは、オーディオシステムのコンポーネントによって実行される。その他のエンティティーが、このプロセスのステップのうちのいくつかまたはすべてをその他の実施形態において実行することが可能である（たとえば、コンソールまたはリモートサーバ）。同様に、実施形態は、異なるおよび／もしくは追加のステップを含むこと、またはステップを異なる順序で実行することが可能である。

オーディオシステムは、ウェアラブルデバイスを取り巻くローカルエリアにおける１つまたは複数の音源からの音を４１０で検知する。いくつかの実施形態においては、オーディオシステムは、それぞれの検知された音に関連付けられている情報をオーディオデータセットに格納する。

いくつかの実施形態においては、オーディオシステムは、ローカルエリアにおけるウェアラブルデバイスの位置を推定する。推定位置は、ウェアラブルデバイスの場所、および／またはウェアラブルデバイスもしくはウェアラブルデバイスを装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。一実施形態においては、ウェアラブルデバイスは、ウェアラブルデバイスの動きに応答して１つまたは複数の測定信号を生成する１つまたは複数のセンサを含むことが可能である。オーディオシステムは、ウェアラブルデバイスの初期位置に対するウェアラブルデバイスの現在の位置を推定することが可能である。別の実施形態においては、オーディオシステムは、外部システム（たとえば、撮像アセンブリ、ＡＲまたはＶＲコンソール、ＳＬＡＭシステム、奥行きカメラアセンブリ、構造化照明システムなど）からウェアラブルデバイスの位置情報を受信することが可能である。

オーディオシステムは、検知された音に関連付けられている１つまたは複数の音響伝達関数を４２０で推定する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）または頭部伝達関数（ＨＲＴＦ）であることが可能である。したがって、それぞれの音響伝達関数は、検知された音の別々の音源場所、マイクロフォンアレイの別々の位置、またはそれらの何らかの組合せに関連付けられている。結果として、オーディオシステムは、ローカルエリアにおける特定の音源場所および／またはマイクロフォンアレイの位置に関して複数の音響伝達関数を推定することが可能である。

オーディオシステムは、ウェアラブルデバイスの位置に対して、それぞれの検知された音に関する到来方向（ＤｏＡ）推定を４３０で実行する。ＤｏＡ推定は、検知された音の推定音源場所と、ローカルエリア内のウェアラブルデバイスの位置との間におけるベクトルとして表されることが可能である。いくつかの実施形態においては、オーディオシステムは、パラメータ条件を満たしているパラメータに関連付けられている検知された音に関してＤｏＡ推定を実行することが可能である。たとえば、パラメータがしきい値を上回っている、もしくは下回っている、または目標範囲内にある場合には、パラメータ条件が満たされることが可能である。ウェアラブルデバイスは、それぞれのＤｏＡ推定に関する信頼水準を計算することが可能である。たとえば、信頼水準は、１～１００の範囲であることが可能であり、この場合、１００という理論上の信頼水準は、ＤｏＡ推定において不確実性がゼロであるということを表し、１という信頼水準は、ＤｏＡ推定における高い水準の不確実性を表す。ＤｏＡ推定と、それらのＤｏＡ推定に関する信頼水準とに基づいて、オーディオシステムは、音響伝達関数を更新することが可能である。

オーディオシステムは、１つまたは複数の音源の場所における変化を４４０で検知する。オーディオシステムは、以前に推定されたＤｏＡの履歴を格納することが可能である。いくつかの実施形態においては、オーディオシステムは、１秒に１回、または１ミリ秒に１回など、周期的なスケジュールでＤｏＡ推定を再計算することが可能である。オーディオシステムは、現在のＤｏＡを以前のＤｏＡと比較することが可能であり、音源に関するＤｏＡにおける変化に応答して、オーディオシステムは、その音源が移動したということを特定することが可能である。いくつかの実施形態においては、ウェアラブルデバイスは、ウェアラブルデバイスによって受信された視覚情報、または外部データソースから受信された情報に基づいて、場所における変化を検知することが可能である。オーディオシステムは、経時的に１つまたは複数の音源の移動を追跡することが可能である。ウェアラブルデバイスは、移動における変化のそれぞれの特定のための信頼水準を計算することが可能である。音源のトラッキングと、場所における変化に関する信頼水準とに基づいて、オーディオシステムは、音響伝達関数を更新することが可能である。

マイクロフォンアレイの位置がローカルエリア内で変わった場合には、オーディオシステムは、１つもしくは複数の新たな音響伝達関数を生成すること、またはそれに応じて１つもしくは複数の既存の音響伝達関数を更新することが可能である。

オーディオシステムは、別々の音源の方向において４５０でビームを形成する。たとえば、オーディオシステムは、さらなる分析のために別々の音源からの信号を切り離すためにビームフォーミングプロセスを利用することが可能である。オーディオシステムは、それぞれのビームから受信された音を独立して分析および処理することが可能である。オーディオシステムは、それぞれのビームから受信された信号を強化することが可能である。オーディオシステムは、ビームフォーミングプロセスに関する信頼水準を計算し、音源からの分離された信号およびそれらのそれぞれの信頼水準を使用して、音響伝達関数を更新することが可能である。

オーディオシステムは、音源を４６０で分類することが可能である。オーディオシステムは、音源から受信された信号を、既知の分類に関連付けられている信号と比較することが可能である。たとえば、オーディオシステムは、分類ライブラリにおける人間の分類の特徴との類似性に基づいて、音源を人間として分類することが可能である。オーディオシステムは、分類に関する信頼水準を計算し、音源の分類およびそれらのそれぞれの信頼水準を使用して、音響伝達関数を更新することが可能である。

オーディオシステムは、スピーカーアレイを使用してサウンドコンテンツを４７０で提示することが可能である。トラッキング、ビームフォーミング、およびサウンド分類に基づいて、オーディオシステムは、サウンドフィルタを生成および／または更新し、それらのサウンドフィルタをスピーカーアレイに提供する。スピーカーアレイは、サウンドフィルタを使用してオーディオコンテンツを提示する。サウンドフィルタは、いくつかの音を増幅して、その他の音を抑制することをスピーカーアレイに行わせることが可能である。増幅および抑制に関する特定の使用は、任意の所望の目的をカバーすることが可能である。たとえば、サウンドフィルタは、人間の音源として識別されている音源からの音を増幅させる一方で、ファンなど、迷惑な音源として識別された音源からの音を抑制することをスピーカーアレイに行わせることが可能であり、サウンドフィルタは、発話を抑制し、ホワイトノイズを増幅して、作業の間の注意散漫を低減することが可能であり、サウンドフィルタは、接近する車両の音を増幅して、ユーザに警告することが可能であり、サウンドフィルタは、泣いている赤ん坊の音を増幅して、注意を引くことが可能である、といった具合である。

オーディオシステムは、音響伝達関数を４８０で調整することが可能である。オーディオシステムは、ＤｏＡ推定、音源の場所における変化、音源の分離、または音源の分類のうちの少なくとも１つに基づいて音響伝達関数を調整することが可能である。加えて、オーディオシステムは、それぞれの入力に関する信頼水準を使用して、音響伝達関数を調整することが可能である。伝達関数モジュールは、現在の／既知の音響伝達関数を、オーディオ信号の最新の断片から抽出された新たな／新鮮な音響伝達関数と組み合わせることによって、音響伝達関数を調整する。音響伝達関数は、特定の重みと組み合わされ、それらの重みは、さまざまなモジュールからの信頼水準に基づいて選択されることが可能である。重みは、その他のすべてのモジュールから受け取られた全体的な信頼度に正比例することが可能である。たとえば、高い信頼度は、現在の音響伝達関数が正確であるということを意味し、したがって、適応が遅くなる、または停止される可能性があり、つまり、高い重み（たとえば、０．５よりも大きい）が、既知の音響伝達関数コンポーネントに割り振られることが可能であり、低い重み（たとえば、０．５未満）が、新たなデータに割り振られることが可能である。対照的に、組み合わされた信頼度が現在の音響伝達関数にとって低い場合には、迅速な適応が必要とされる可能性があり、そのケースにおいては、高い重みが、最近のオーディオデータから抽出された音響伝達関数に割り振られることが可能である。

いくつかの実施形態においては、オーディオシステムは、プロセス４００全体の任意の時点で音響伝達関数を更新することが可能である。更新された音響関数を使用して、ＤｏＡ推定を実行すること、音源を追跡すること、音源に関するビームを形成すること、音源を識別すること、サウンドフィルタをスピーカーアレイに提供すること、およびオーディオコンテンツを提示することが可能である。

プロセス４００は、（たとえば、ＮＥＤに結合されている）マイクロフォンアレイを装着しているユーザがローカルエリアの中を移動するにつれて継続的に繰り返されることが可能であり、またはプロセス４００は、マイクロフォンアレイを介して音を検知したときに開始されることが可能である。プロセス４００のステップの結果を、音響伝達関数の推定のための入力であることが可能であるフィードバックとして使用することによって、音響伝達関数、ならびにオーディオシステムおよびウェアラブルデバイスの全体的なパフォーマンスが継続的に改善されることが可能である。

人工現実システムの例
図５は、１つまたは複数の実施形態による、オーディオシステム５１０を含むウェアラブルデバイス５０５のシステム環境である。システム５００は、人工現実環境において動作することが可能である。図５によって示されているシステム５００は、ウェアラブルデバイス５０５と、コンソール５０１に結合されている入力／出力（Ｉ／Ｏ）インターフェース５１５とを含む。ウェアラブルデバイス５０５は、ウェアラブルデバイス１００の一実施形態であることが可能である。図５は、１つのウェアラブルデバイス５０５と、１つのＩ／Ｏインターフェース５１５とを含む例示的なシステム５００を示しているが、その他の実施形態においては、任意の数のこれらのコンポーネントがシステム５００に含まれることが可能である。たとえば、複数のウェアラブルデバイス５０５があることが可能であり、それらのそれぞれが、関連付けられているＩ／Ｏインターフェース５１５を有し、それぞれのウェアラブルデバイス５０５およびＩ／Ｏインターフェース５１５が、コンソール５０１と通信する。代替構成においては、異なるおよび／または追加のコンポーネントがシステム５００に含まれることが可能である。加えて、図５において示されているコンポーネントのうちの１つまたは複数と関連して記述されている機能性は、いくつかの実施形態においては、図５と関連して記述されているのとは異なる様式でコンポーネント間において分散されることが可能である。たとえば、コンソール５０１の機能性のいくつかまたはすべては、ウェアラブルデバイス５０５によって提供される。

ウェアラブルデバイス５０５は、コンピュータによって生成された要素（たとえば、２次元（２Ｄ）または３次元（３Ｄ）画像、２Ｄまたは３Ｄビデオ、サウンドなど）を伴う物理的な現実世界環境の拡張ビューを含むコンテンツをユーザに提示する。ウェアラブルデバイス５０５は、アイウェアデバイスまたはヘッドマウントディスプレイであることが可能である。いくつかの実施形態においては、提示されるコンテンツは、オーディオシステム３００を介して提示されるオーディオコンテンツを含み、オーディオシステム３００は、ウェアラブルデバイス５０５、コンソール５０１、または両方からオーディオ情報（たとえば、オーディオ信号）を受信し、そのオーディオ情報に基づいてオーディオコンテンツを提示する。

ウェアラブルデバイス５０５は、オーディオシステム５１０、奥行きカメラアセンブリ（ＤＣＡ）５２０、電子ディスプレイ５２５、光学ブロック５３０、１つまたは複数の位置センサ５３５、および慣性測定ユニット（ＩＭＵ）５４０を含む。電子ディスプレイ５２５および光学ブロック５３０は、図１のレンズ１１０の一実施形態である。位置センサ５３５およびＩＭＵ５４０は、図１のセンサデバイス１１５の一実施形態である。ウェアラブルデバイス５０５のいくつかの実施形態は、図５と関連して記述されているものとは異なるコンポーネントを有する。加えて、図５と関連して記述されているさまざまなコンポーネントによって提供される機能性は、その他の実施形態においてはウェアラブルデバイス５０５のコンポーネント間で異なって分散されること、またはウェアラブルデバイス５０５から離れている別個のアセンブリに取り込まれることが可能である。

オーディオシステム５１０は、音を検知して、ユーザのための１つまたは複数の音響伝達関数を生成する。オーディオシステム５１０は次いで、１つまたは複数の音響伝達関数を使用して、ユーザのためのオーディオコンテンツを生成することが可能である。オーディオシステム５１０は、オーディオシステム３００の一実施形態であることが可能である。図３に関連して記述されているように、オーディオシステム５１０は、その他のコンポーネントのうちでも、マイクロフォンアレイ、コントローラ、およびスピーカーアレイを含むことが可能である。マイクロフォンアレイは、マイクロフォンアレイを取り巻くローカルエリア内の音を検知する。マイクロフォンアレイは、複数の音響センサを含むことが可能であり、それらの音響センサは、音波の気圧変動をそれぞれ検知して、検知された音を電子フォーマット（アナログまたはデジタル）へと変換する。コントローラは、マイクロフォンアレイによって検知された音に関してＤｏＡ推定を実行する。検知された音のＤｏＡ推定と、検知された音に関連付けられているパラメータとに部分的に基づいて、コントローラは、検知された音の音源場所に関連付けられている１つまたは複数の音響伝達関数を生成する。音響伝達関数は、ＡＴＦ、ＨＲＴＦ、その他のタイプの音響伝達関数、またはそれらの何らかの組合せであることが可能である。コントローラは、空間におけるいくつかの異なる点から来ているように感じられるオーディオコンテンツをスピーカーアレイが放出するための命令を生成することが可能である。オーディオシステム５１０は、音の場所を追跡すること、音の場所の周りにビームを形成すること、および音を分類することが可能である。トラッキング、ビームフォーミング、および分類の結果、ならびにあらゆる関連付けられている信頼水準をコントローラに入力して、音響伝達関数を更新することが可能である。

ＤＣＡ５２０は、ウェアラブルデバイス５０５のうちのいくつかまたはすべてを取り巻くローカル環境の奥行き情報を記述するデータを取り込む。ＤＣＡ５２０は、光発生器（たとえば、飛行時間に関する構造化光および／またはフラッシュ）と、撮像デバイスと、光発生器および撮像デバイスの両方に結合されることが可能であるＤＣＡコントローラとを含むことが可能である。光発生器は、たとえば、ＤＣＡコントローラによって生成された放出命令に従って、照明光でローカルエリアを照明する。ＤＣＡコントローラは、放出命令に基づいて、光発生器の特定のコンポーネントのオペレーションを制御するように、たとえば、ローカルエリアを照明する照明光の強度およびパターンを調整するように構成されている。いくつかの実施形態においては、照明光は、構造化光パターン、たとえば、ドットパターン、ラインパターンなどを含むことが可能である。撮像デバイスは、照明光で照らされているローカルエリアにおける１つまたは複数の物体の１つまたは複数の画像を取り込む。ＤＣＡ５２０は、撮像デバイスによって取り込まれたデータを使用して奥行き情報を算出することが可能であり、またはＤＣＡ５２０は、ＤＣＡ５２０からのデータを使用して奥行き情報を特定することが可能であるコンソール５０１などの別のデバイスへこの情報を送ることが可能である。

いくつかの実施形態においては、オーディオシステム５１０は、１つもしくは複数の潜在的な音源の方向、１つもしくは複数の音源の奥行き、１つもしくは複数の音源の移動、１つもしくは複数の音源の周りの音の活動、またはそれらの任意の組合せを識別する際に助けとなることが可能である奥行き情報を利用することが可能である。

電子ディスプレイ５２５は、コンソール５０１から受信されたデータに従って２Ｄまたは３Ｄ画像をユーザに表示する。さまざまな実施形態においては、電子ディスプレイ５２５は、単一の電子ディスプレイまたは複数の電子ディスプレイ（たとえば、ユーザのそれぞれの目のためのディスプレイ）を含む。電子ディスプレイ５２５の例は、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波管ディスプレイ、その他の何らかのディスプレイ、またはそれらの何らかの組合せを含む。

いくつかの実施形態においては、光学ブロック５３０は、電子ディスプレイ５２５から受信された画像光を拡大し、その画像光に関連付けられている光学エラーを補正し、補正された画像光をウェアラブルデバイス５０５のユーザに提示する。さまざまな実施形態においては、光学ブロック５３０は、１つまたは複数の光学要素を含む。光学ブロック５３０に含まれる例示的な光学要素は、導波管、アパーチャー、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または、画像光に影響を与えるその他の任意の適切な光学要素を含む。その上、光学ブロック５３０は、さまざまな光学要素の組合せを含むことが可能である。いくつかの実施形態においては、光学ブロック５３０における光学要素のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有することが可能である。

光学ブロック５３０による画像光の拡大および集束は、電子ディスプレイ５２５が、より大きなディスプレイよりも物理的に小さいこと、軽量であること、およびより少ない電力を消費することを可能にする。加えて、拡大は、電子ディスプレイ５２５によって提示されるコンテンツの視野を広げることが可能である。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角およそ１１０度）を、そしていくつかのケースにおいては、すべてを使用して提示されるようになっている。加えて、いくつかの実施形態においては、拡大の量は、光学要素を追加または除去することによって調整されることが可能である。

いくつかの実施形態においては、光学ブロック５３０は、１つまたは複数のタイプの光学エラーを補正するように設計されることが可能である。光学エラーの例は、たる形もしくは糸巻型歪み、縦色収差、または横色収差を含む。その他のタイプの光学エラーはさらに、球面収差、色収差、または、像面湾曲、非点収差、もしくはその他の任意のタイプの光学エラーに起因するエラーを含むことが可能である。いくつかの実施形態においては、表示のために電子ディスプレイ５２５に提供されるコンテンツは、事前に歪められており、光学ブロック５３０は、そのコンテンツに基づいて生成された電子ディスプレイ５２５からの画像光を受信する際に歪みを補正する。

ＩＭＵ５４０は、位置センサ５３５のうちの１つまたは複数から受信された測定信号に基づいてウェアラブルデバイス５０５の位置を示すデータを生成する電子デバイスである。位置センサ５３５は、ウェアラブルデバイス５０５の動きに応答して１つまたは複数の測定信号を生成する。位置センサ５３５の例は、１つもしくは複数の加速度計、１つもしくは複数のジャイロスコープ、１つもしくは複数の磁力計、動きを検知する別の適切なタイプのセンサ、ＩＭＵ５４０のエラー補正のために使用されるタイプのセンサ、またはそれらの何らかの組合せを含む。位置センサ５３５は、ＩＭＵ５４０の外部に、ＩＭＵ５４０の内部に、またはそれらの何らかの組合せで配置されることが可能である。１つまたは複数の実施形態においては、ＩＭＵ５４０および／または位置センサ５３５は、オーディオシステム３００によって提供されるオーディオコンテンツに対するユーザの応答をモニタすることが可能なモニタリングデバイスであることが可能である。

１つまたは複数の位置センサ５３５からの１つまたは複数の測定信号に基づいて、ＩＭＵ５４０は、ウェアラブルデバイス５０５の初期位置に対するウェアラブルデバイス５０５の推定現在位置を示すデータを生成する。たとえば、位置センサ５３５は、並進運動（前方／後方、上方／下方、左／右）を測定するための複数の加速度計と、回転運動（たとえば、ピッチ、ヨー、およびロール）を測定するための複数のジャイロスコープとを含む。いくつかの実施形態においては、ＩＭＵ５４０は、測定信号を迅速にサンプリングし、サンプリングされたデータからウェアラブルデバイス５０５の推定現在位置を計算する。たとえば、ＩＭＵ５４０は、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、経時的に速度ベクトルを統合してウェアラブルデバイス５０５上の基準点の推定現在位置を特定する。あるいは、ＩＭＵ５４０は、サンプリングされた測定信号をコンソール５０１に提供し、コンソール５０１は、そのデータを解釈してエラーを低減する。基準点とは、ウェアラブルデバイス５０５の位置を記述するために使用されることが可能である点である。基準点は一般に、空間における点、またはアイウェアデバイス５０５の向きおよび位置に関連した位置として定義されることが可能である。

Ｉ／Ｏインターフェース５１５は、ユーザがアクション要求を送ってコンソール５０１から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行するための要求である。たとえば、アクション要求は、画像もしくはビデオデータの取り込みを開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実行するための命令であることが可能である。Ｉ／Ｏインターフェース５１５は、１つまたは複数の入力デバイスを含むことが可能である。例示的な入力デバイスは、キーボード、マウス、ハンドコントローラ、またはアクション要求を受信してそれらのアクション要求をコンソール５０１に通信するためのその他の任意の適切なデバイスを含む。Ｉ／Ｏインターフェース５１５によって受信されたアクション要求は、コンソール５０１に通信され、コンソール５０１は、そのアクション要求に対応するアクションを実行する。いくつかの実施形態においては、Ｉ／Ｏインターフェース５１５は、上でさらに記述されているＩＭＵ５４０を含み、ＩＭＵ５４０は、Ｉ／Ｏインターフェース５１５の初期位置に対するＩ／Ｏインターフェース５１５の推定位置を示す較正データを取り込む。いくつかの実施形態においては、Ｉ／Ｏインターフェース５１５は、コンソール５０１から受信された命令に従って触覚フィードバックをユーザに提供することが可能である。たとえば、アクション要求が受信されたときに触覚フィードバックが提供され、またはコンソール５０１が命令をＩ／Ｏインターフェース５１５に通信して、コンソール５０１がアクションを実行するときにＩ／Ｏインターフェース５１５に触覚フィードバックを生成させる。Ｉ／Ｏインターフェース５１５は、オーディオコンテンツの知覚された起点方向および／または知覚された起点場所を特定する際に使用するために、ユーザからの１つまたは複数の入力応答をモニタすることが可能である。

コンソール５０１は、ウェアラブルデバイス５０５およびＩ／Ｏインターフェース５１５のうちの１つまたは複数から受信された情報に従って処理するために、ウェアラブルデバイス５０５にコンテンツを提供する。図５において示されている例においては、コンソール５０１は、アプリケーションストア５５０、トラッキングモジュール５５５、およびエンジン５４５を含む。コンソール５０１のいくつかの実施形態は、図５と関連して記述されているものとは異なるモジュールまたはコンポーネントを有する。同様に、以降でさらに記述されている機能は、図５と関連して記述されているのとは異なる様式でコンソール５０１のコンポーネント間において分散されることが可能である。

アプリケーションストア５５０は、コンソール５０１による実行のための１つまたは複数のアプリケーションを格納する。アプリケーションは、命令のグループであり、このグループは、プロセッサによって実行されたときに、ユーザへの提示のためのコンテンツを生成する。アプリケーションによって生成されるコンテンツは、ウェアラブルデバイス５０５またはＩ／Ｏインターフェース５１５の動きを介してユーザから受信された入力に応答していることが可能である。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、またはその他の適切なアプリケーションを含む。

トラッキングモジュール５５５は、１つまたは複数の較正パラメータを使用してシステム環境５００を較正し、１つまたは複数の較正パラメータを調整して、ウェアラブルデバイス５０５の、またはＩ／Ｏインターフェース５１５の位置の特定におけるエラーを低減することが可能である。トラッキングモジュール５５５によって実行される較正はまた、ウェアラブルデバイス５０５におけるＩＭＵ５４０、および／またはＩ／Ｏインターフェース５１５に含まれているＩＭＵ５４０から受信された情報を考慮する。加えて、ウェアラブルデバイス５０５のトラッキングが失われた場合には、トラッキングモジュール５５５は、システム環境５００の一部または全部を再較正することが可能である。

トラッキングモジュール５５５は、１つまたは複数の位置センサ５３５、ＩＭＵ５４０、ＤＣＡ５２０、またはそれらの何らかの組合せからの情報を使用して、ウェアラブルデバイス５０５の、またはＩ／Ｏインターフェース５１５の移動を追跡する。たとえば、トラッキングモジュール５５５は、ウェアラブルデバイス５０５からの情報に基づいてローカルエリアのマッピングにおけるウェアラブルデバイス５０５の基準点の位置を特定する。トラッキングモジュール５５５は、それぞれ、ＩＭＵ５４０からのウェアラブルデバイス５０５の位置を示すデータを使用して、またはＩ／Ｏインターフェース５１５に含まれているＩＭＵ５４０からのＩ／Ｏインターフェース５１５の位置を示すデータを使用して、ウェアラブルデバイス５０５の基準点またはＩ／Ｏインターフェース５１５の基準点の位置を特定することも可能である。加えて、いくつかの実施形態においては、トラッキングモジュール５５５は、ＩＭＵ５４０からの位置またはウェアラブルデバイス５０５を示すデータの部分を使用して、ウェアラブルデバイス５０５の今後の位置を予測することが可能である。トラッキングモジュール５５５は、ウェアラブルデバイス５０５またはＩ／Ｏインターフェース５１５の推定または予測された今後の位置をエンジン５４５に提供する。いくつかの実施形態においては、トラッキングモジュール５５５は、サウンドフィルタを生成する際に使用するためにトラッキング情報をオーディオシステム３００に提供することが可能である。

エンジン５４５はまた、システム環境５００内でアプリケーションを実行し、トラッキングモジュール５５５からウェアラブルデバイス５０５の位置情報、加速度情報、速度情報、予測される今後の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン５４５は、ユーザへの提示のためにウェアラブルデバイス５０５に提供するためのコンテンツを特定する。たとえば、受信された情報が、ユーザが左を見たということを示している場合には、エンジン５４５は、仮想環境において、または追加のコンテンツを用いてローカルエリアを拡張する環境においてユーザの移動を反映するウェアラブルデバイス５０５のためのコンテンツを生成する。加えて、エンジン５４５は、Ｉ／Ｏインターフェース５１５から受信されたアクション要求に応答して、コンソール５０１上で実行しているアプリケーション内でアクションを実行し、そのアクションが実行されたというフィードバックをユーザに提供する。提供されるフィードバックは、ウェアラブルデバイス５０５を介した視覚フィードバックもしくは可聴式フィードバック、またはＩ／Ｏインターフェース５１５を介した触覚フィードバックであることが可能である。

さらなる構成情報
本開示の実施形態についての前述の記述は、例示の目的のために提示されており、網羅的であること、または開示されている厳密な形態に本開示を限定することを意図されているものではない。関連技術分野における技術者なら、上記の開示に照らせば多くの修正および変形が可能であるということを理解することが可能である。

この記述のいくつかの部分は、情報上でのオペレーションのアルゴリズムおよびシンボル表示という点から本開示の実施形態について記述している。これらのアルゴリズム的な記述および表示は一般に、データ処理技術分野における技術者たちによって、それらの技術者たちの作業の実体を他の当業者たちに効果的に伝達するために使用されている。これらのオペレーションは、機能的に、計算処理的に、または論理的に記述されているが、コンピュータプログラムまたは均等な電気回路、マイクロコードなどによって実施されるということが理解される。さらに、一般性を失うことなく、モジュールとしてオペレーションのこれらのアレンジに言及することが時として好都合であることもわかっている。記述されているオペレーションおよびそれらの関連付けられているモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せで具体化されることが可能である。

本明細書において記述されているステップ、オペレーション、またはプロセスのうちのいずれも、１つもしくは複数のハードウェアモジュールもしくはソフトウェアモジュールを用いて、単独で、またはその他のデバイスと組み合わせて実行または実施されることが可能である。一実施形態においては、ソフトウェアモジュールは、記述されているステップ、オペレーション、またはプロセスのうちのいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されることが可能であるコンピュータプログラムコードを含むコンピュータ可読メディアを含むコンピュータプログラム製品とともに実装される。

本開示の実施形態は、本明細書におけるオペレーションを実行するための装置に関連することも可能である。この装置は、求められている目的のために特別に構築されることが可能であり、および／または、コンピュータに格納されているコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用コンピューティングデバイスを含むことが可能である。そのようなコンピュータプログラムは、コンピュータシステムバスへ結合されることが可能である、非一時的な有形のコンピュータ可読記憶媒体、または電子命令を格納するのに適している任意のタイプのメディアに格納されることが可能である。さらに、本明細書において言及されているあらゆるコンピューティングシステムは、シングルプロセッサを含むことが可能であり、またはコンピューティング機能を高めるためにマルチプロセッサ設計を採用しているアーキテクチャーであることが可能である。

本開示の実施形態は、本明細書において記述されているコンピューティングプロセスによって製造される製品に関連することも可能である。そのような製品は、コンピューティングプロセスから生じる情報を含むことが可能であり、それらの情報は、非一時的な有形のコンピュータ可読記憶媒体上に格納され、本明細書において記述されているコンピュータプログラム製品またはその他のデータの組合せの任意の実施形態を含むことが可能である。

最後に、本明細書において使用されている言葉は、主として読みやすさおよび教示上の目的で選択されており、本発明の主題の線引きまたは画定を行うために選択されてはいない場合がある。したがって、本開示の範囲は、この詳細な記述によってではなく、むしろ本明細書に基づく出願上で生じるあらゆる請求項によって限定されるということが意図されている。したがって、実施形態の開示は、本開示の範囲を例示するものであり、本開示の範囲を限定するものではないということが意図されており、本開示の範囲は、添付の特許請求の範囲において示されている。

Claims

ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける１つまたは複数の音源からの音を検知することと、
前記音に関連付けられている音響伝達関数を推定することと、
前記１つまたは複数の音源のうちの１つの音源の到来方向（ＤｏＡ）を推定することと、
前記音源の移動を追跡することと、
前記音源の前記移動に基づいて前記音響伝達関数を更新することと
を含む、方法。
分類ライブラリに基づいて前記音源を分類することをさらに含む、請求項１に記載の方法。
前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離することをさらに含む、請求項１に記載の方法。
前記追跡することに関する第１の信頼水準、前記分類することに関する第２の信頼水準、およびビームフォーミングプロセスに関する第３の信頼水準を計算することをさらに含み、そのケースにおいては、任意選択で、前記第１の信頼水準、前記第２の信頼水準、または前記第３の信頼水準のうちの少なくとも１つに基づいて前記音響伝達関数を更新することをさらに含む、請求項２に記載の方法。
ａ）前記追跡することが、
経時的に、１つもしくは複数の前記音源の数および場所についての値を格納することと、
前記数もしくは前記場所のうちの少なくとも１つにおける変化を検知することとを含むか、または
ｂ）更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することと
をさらに含むか、
のうちのいずれか１つまたは複数である、請求項１に記載の方法。
オーディオシステムであって、
前記オーディオシステムのローカルエリアにおける１つまたは複数の音源からの音を検知するように構成されているマイクロフォンアレイと、
コントローラとを備え、前記コントローラが、
ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける１つまたは複数の音源からの音を検知すること、
前記音に関連付けられている音響伝達関数を推定すること、
前記１つまたは複数の音源のうちの１つの音源の到来方向（ＤｏＡ）を推定すること、
前記音源の移動を追跡すること、および
前記音源の前記移動に基づいて前記音響伝達関数を更新すること
を行うように構成されている、オーディオシステム。
前記コントローラがさらに、分類ライブラリに基づいて前記音源を分類するように構成されている、請求項６に記載のオーディオシステム。
前記コントローラがさらに、前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離するように構成されている、請求項６に記載のオーディオシステム。
前記コントローラがさらに、前記追跡することに関する第１の信頼水準、分類することに関する第２の信頼水準、およびビームフォーミングプロセスに関する第３の信頼水準を計算するように構成されており、そのケースにおいては、任意選択で、前記コントローラがさらに、前記第１の信頼水準、前記第２の信頼水準、または前記第３の信頼水準のうちの少なくとも１つに基づいて前記音響伝達関数を更新するように構成されている、請求項７に記載のオーディオシステム。
ａ）前記移動の前記追跡が、
経時的に、１つもしくは複数の前記音源の数および場所についての値を格納することと、
前記数もしくは前記場所のうちの少なくとも１つにおける変化を検知することとを含むか、または
ｂ）前記コントローラがさらに、
更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することとを行うように構成されているか、または、
ｃ）前記コントローラがさらに、前記音源の前記移動の通知を生成するように構成されているか、
のうちのいずれか１つである、請求項６に記載のオーディオシステム。
プロセッサによって実行可能な命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、実行されたときに、
ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける１つまたは複数の音源からの音を検知することと、
前記音に関連付けられている音響伝達関数を推定することと、
前記１つまたは複数の音源のうちの１つの音源の到来方向（ＤｏＡ）を推定することと、
前記音源の移動を追跡することと、
前記音源の前記移動に基づいて前記音響伝達関数を更新することとを含むアクションを前記プロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
前記アクションがさらに、分類ライブラリに基づいて前記音源を分類することを含む、請求項１１に記載の非一時的コンピュータ可読記憶媒体。
前記アクションがさらに、前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離することを含む、請求項１１に記載の非一時的コンピュータ可読記憶媒体。
前記アクションがさらに、前記追跡することに関する第１の信頼水準、前記分類することに関する第２の信頼水準、およびビームフォーミングプロセスに関する第３の信頼水準を計算することを含む、請求項１２に記載の非一時的コンピュータ可読記憶媒体。
前記アクションがさらに、
更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することとを含む、請求項１２に記載の非一時的コンピュータ可読記憶媒体。