JP2023554646A

JP2023554646A - 光学マイクロフォンを用いるオーディオシステム

Info

Publication number: JP2023554646A
Application number: JP2023537149A
Authority: JP
Inventors: アントニオジョンミラー，; リリアナルイスディアス，; アンドリュージョンアウダーカーク，; マイクアンドレシェラー，; モルテザカレギメーボディ，; ロビンシャーマ，; クオホアウェイ，; モハメドタレクアフマドエル－ハダド，; ギゼムタバク，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2020-12-17
Filing date: 2021-12-16
Publication date: 2023-12-28
Also published as: WO2022133086A1; EP4264960A1

Abstract

光学マイクロフォンとオーディオコントローラとを含むオーディオシステム。光学マイクロフォンは、光源と検出器とを含む。いくつかの実施形態では、光源がユーザの皮膚を照射する。あるいは、光学マイクロフォンが膜も含み、光源が膜の一部を照射する。ローカルエリアからの音は、皮膚の振動（または膜の振動）を引き起こす。検出器は、光源との干渉形態または非干渉形態であってもよい。オーディオコントローラは、検出器から出力される信号を使用して皮膚（または膜）の振動を監視し、監視された振動を使用して音を測定する。【選択図】図３

Description

関連出願の相互参照
この出願は、その全体が参照により組み込まれる、２０２０年１２月１７日に出願された米国仮出願第６３／１２６，６６９号の利益を主張する。

この開示は、一般に、オーディオシステムに関し、より具体的には、光学マイクロフォンを使用するオーディオシステムに関する。

ノイズの多い環境（例えば、騒がしいレストラン）では、従来のオーディオシステムが目的の音源（例えば、話者、ユーザ自身の音声など）からの音を選択的に取り込むことは困難であり得る。音声の選択的な取り込みは、ユーザが話しているか否かによって影響を受ける。しかし、ノイズの多い環境において、オーディオシステムは、ユーザの発話と環境からのノイズとを区別できないことが多い。従来のオーディオシステムは、これを、着用者の音声（たとえば、従来のマイクロフォンを介して検出される）が干渉音にわたって聞こえるという時間的特性およびスペクトル的特性に依存する音声活動検出器を使用して緩和しようとする。しかし、低音響信号対雑音比（ＳＮＲ）環境（すなわち、ノイズが多い環境）では、着用者の音声がノイズによって完全に隠されるため、この方法はしばしば失敗する。

したがって、本発明は、添付の特許請求の範囲に係るオーディオシステム、方法、コンピュータ可読媒体、およびコンピュータプログラムを開示する。光学マイクロフォンを用いるオーディオシステム。オーディオシステムは、オーディオコントローラを含み、マイクロフォンアレイも含んでもよい。いくつかの実施形態において、オーディオシステムは、ヘッドセット、ネックレス、時計、ヒアラブルデバイスなどの一部であってもよい。光学マイクロフォンは、光源および検出器を含む。光源は、光を発するように構成される。光は、基準ビームおよび感知ビームを含み、光源は、感知ビームをユーザの皮膚に照射するように構成される。ローカルエリア（たとえば、ユーザの音声、他の人など）からの音は、ユーザの皮膚に振動を引き起こす。検出器は、それが混合信号を検出するべく構成されるように、光源との干渉形態（たとえば、自己混合、低コヒーレンス干渉法など）にある。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。オーディオコントローラは、信号を使用してローカルエリアの音を測定するように構成される。

本発明に係るオーディオシステムの実施形態において、オーディオシステムは光学マイクロフォンを備え、該光学マイクロフォンは、基準ビームおよび感知ビームを含む光を発するように構成されるとともに、感知ビームをユーザの皮膚に照射するように構成され、ローカルエリアからの音が皮膚に振動を引き起こす、光源と、検出器であって、該検出器が混合信号を検出するべく構成されるように光源との干渉形態にあり、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、検出器とを備え、オーディオシステムはさらに、混合信号を用いて音を測定するオーディオコントローラとを備える。

本発明に係るオーディオシステムの実施形態において、干渉形態は、光源および検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも１つを形成するような形態であってもよい。

本発明に係るオーディオシステムの実施形態では、光源が検出器と当接してもよく、光学マイクロフォンは、光源に結合されるレンズであって、光源から発せられた光を基準ビームと感知ビームとに分割し、感知ビームを皮膚に方向付けるとともに基準ビームを検出器に向けて反射するように構成される、レンズをさらに備えてもよい。

本発明に係るオーディオシステムの実施形態では、システムが第２の光学マイクロフォンをさらに備えてもよく、該第２の光学マイクロフォンは、第２の基準ビームおよび第２の感知ビームを含む光を発するように構成されるとともに、感知ビームをユーザの皮膚を照射するように構成される第２の光源と、第２の検出器であって、該第２の検出器が第２の混合信号を検出するべく構成されるように第２の光源との干渉形態にあり、第２の混合信号が、皮膚によって反射される第２の感知ビームの一部と混合される第２の基準ビームに対応する、第２の検出器と、第１の側面および第２の側面を含み、第１の側面が光学マイクロフォンに結合され、第２の側面が第２の光学マイクロフォンに結合されるブロックと、光源、ブロック、および第２の光源に結合されるレンズであって、光源から発せられた光を基準ビームと感知ビームとに分割し、第２の光源から発せられた光を第２の基準ビームと第２の感知ビームとに分割し、感知ビームおよび第２の感知ビームを皮膚へ方向付け、基準ビームを検出器に向けて反射させ、第２の基準ビームを第２の検出器に向けて反射させるように構成される、レンズとを備える。

本発明に係るオーディオシステムの実施形態では、検出器および光源が、しきい値距離だけ互いから離されてもよい。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンが鼻パッドを含むヘッドセット上にあってもよく、光学マイクロフォンが鼻パッドに組み込まれてもよく、光源は、感知ビームをユーザの鼻の皮膚に照射するように構成されてもよい。

本発明に係るオーディオシステムの実施形態において、光学マイクロフォンは、フレームを含むヘッドセット上にあってもよく、光学マイクロフォンはフレームに組み込まれてもよく、光源は、感知ビームをユーザの顔の皮膚に照射するように構成されてもよい。これに加えて、オーディオシステムは、第１の光学マイクロフォンとは異なるフレーム上の位置に組み込まれ得る第２の光学マイクロフォンをさらに備えてもよく、第２の光学マイクロフォンは、光学マイクロフォンとは異なるユーザの顔の皮膚の部分に第２の感知ビームを照射するように構成されてもよい。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイであって、ローカルエリアからの音を検出するように構成される、マイクロフォンアレイをさらに備えてもよく、オーディオコントローラは、検出された音を使用して光学マイクロフォンを較正するようにさらに構成される。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイであって、ローカルエリアからの音を検出するように構成される、マイクロフォンアレイをさらに備えてもよく、オーディオコントローラは、検出された音に部分的に基づいて測定された音を強調するようにさらに構成されてもよい。

本発明に係るオーディオシステムの実施形態において、オーディオコントローラは、測定された音に部分的に基づいてユーザの顔の表情を決定するようにさらに構成されてもよい。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオコントローラは、
測定された音のノイズを識別し、識別されたノイズを抑制するための音フィルタを生成し、
オーディオコンテンツに対応するオーディオ信号を修正するために音フィルタを適用する、
ようにさらに構成されてもよく、オーディオシステムは、ヘッドセットに組み込まれるトランスデューサアレイをさらに備えてもよく、トランスデューサアレイは、修正されたオーディオ信号を修正されたオーディオコンテンツとしてユーザに提示するように構成され、修正されたオーディオコンテンツは、オーディオコンテンツと、ノイズを抑制する抑制コンポーネントとを含む。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイをさらに備えてもよく、マイクロフォンアレイは、ローカルエリアからの音を検出するように構成されてもよく、ローカルエリアからの音がオーディオシステムのユーザの音声を含んでもよく、オーディオコントローラは、
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するようにさらに構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも１つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声をさらに強調してもよく、オーディオコントローラは、更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツを第２のオーディオシステムに提供し、第２のオーディオシステムが修正されたオーディオコンテンツを提示する、ようにさらに構成されてもよい。

本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイをさらに備えてもよく、マイクロフォンアレイは、ローカルエリアからの音を検出するように構成されてもよく、ローカルエリアからの音がオーディオシステムのユーザの音声を含んでもよく、オーディオコントローラは、
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するように更に構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも１つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声を強調してもよく、オーディオコントローラは、
更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツがコマンドを含むと決定し、コマンドに従ってアクションを実行する、ようにさらに構成されてもよい。

いくつかの実施形態では、オーディオシステムの一部である光学マイクロフォンを使用するための方法が記載される。光学マイクロフォンの光源から光が発せられる。発せられた光は、基準ビームおよび感知ビームを含む。ローカルエリア（たとえば、ユーザの音声、他の人など）からの音は、ユーザの皮膚に振動を引き起こす。ユーザの皮膚（例えば、顔の一部）には感知ビームが照射される。光源との干渉形態における検出器は、混合信号を検出する。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。音声は、混合信号を用いて測定される。

本発明に係る方法の実施形態において、方法は、光学マイクロフォンの光源から光を発することであって、光が基準ビームおよび感知ビームを含む、光を発することと、ユーザの皮膚に感知ビームを照射することであって、ローカルエリアからの音が皮膚に振動を引き起こす、感知ビームを照射することと、光源との干渉形態にある検出器を介して、混合信号を検出することであって、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、混合信号を検出すること、混合信号を使用して音を測定することとを含む。

本発明に係る方法の実施形態において、皮膚の振動は、ユーザの音声によって部分的に引き起こされ、方法は、マイクロフォンアレイを介して、ローカルエリアからの音を検出することと、測定された音を使用して検出された音におけるユーザの音声を識別することと、識別されたユーザの音声に基づいて音フィルタを更新することとをさらに含んでもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも１つのオーディオシステムによって提示されてもよい。

本発明に係る方法の実施形態において、干渉形態は、光源および検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも１つを形成するような形態であってもよい。

本発明に係る方法の実施形態において、測定された音がユーザの音声を含み、音声の高周波成分は、音声の低周波に対して減衰されてもよく、方法は、
音声の高周波成分を再構成することと、再構成された高周波成分を用いて音声の測定された音を更新することとをさらに含んでもよい。

いくつかの実施形態では、プログラムコード命令を記憶するように構成される非一時的コンピュータ可読媒体が記載される。命令は、オーディオシステムのプロセッサによって実行されるときに、前述の方法のステップおよび／または本明細書に記載の他の方法をオーディオシステムに実行させる。

本発明に係るコンピュータ可読媒体の実施形態において、非一時的コンピュータ可読媒体は、オーディオシステムのプロセッサによって実行されるときにオーディオシステムにステップを実行させるプログラムコード命令を記憶するように構成され、ステップは、光学マイクロフォンの光源から光を発するステップあって、光が基準ビームおよび感知ビームを含む、ステップと、ユーザの皮膚に感知ビームを照射するステップあって、ローカルエリアからの音が皮膚に振動を引き起こす、ステップと、光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、ステップと、混合信号を使用して音を測定するステップとを含む。

いくつかの実施形態では、コンピュータプログラムが記載される。コンピュータプログラムは、オーディオシステムのプロセッサによって実行されるときにオーディオシステムに前述の方法のステップおよび／または本明細書に記載の他の方法を実行させる命令を含む。

いくつかの実施形態では、検出器および光源が干渉形態になく、光学マイクロフォンは、皮膚から反射および／または散乱された光の強度変調（非干渉）に基づいて局所の音を測定する。

いくつかの実施形態では、光学マイクロフォンが膜も含み、皮膚を照射する代わりに、光源は感知ビーム（またはより一般的には光源からの光）で膜および／またはダイアフラムの一部を照射することに留意されたい。これらの実施形態では、ローカルエリアからの音が膜を振動させる。このように、光学マイクロフォンは、ローカルエリアからの音によって引き起こされる膜の振動を監視することによってローカルエリア内の音を測定する。この実施形態では、光源および検出器が干渉形態または非干渉形態であってもよい。

１つまたは複数の実施形態に係る、少なくとも１つの光学マイクロフォンを含むアイウェアデバイスとして実装されるヘッドセットの斜視図である。１つまたは複数の実施形態に係る、少なくとも１つの光学マイクロフォンを含むヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。１つまたは複数の実施形態に係る、オーディオシステムのブロック図である。１つまたは複数の実施形態に係る、鼻パッド内の異なる位置に位置された光源および検出器を有する光学マイクロフォンを含む鼻パッドの一例である。１つまたは複数の実施形態に係る、自己混合干渉計として構成される光学マイクロフォンの一例である。１つまたは複数の実施形態に係る、その構成要素が直列構成を成す自己混合干渉計として構成される光学マイクロフォンである。１つまたは複数の実施形態に係る、その構成要素が並列構成を成す自己混合干渉計として構成される光学マイクロフォンである。１つまたは複数の環境に係る、２つの自己混合干渉計を含む対にされた光学マイクロフォンの一例である。１つまたは複数の実施形態に係る、レーザドップラー振動計として構成される光学マイクロフォンの一例である。１つまたは複数の実施形態に係る、光コヒーレンストモグラフィを使用するように構成される光学マイクロフォンの一例である。１つまたは複数の実施形態に係る、干渉形態において光学接触トランスデューサを使用するためのプロセスを示すフローチャートである。１つまたは複数の実施形態に係る、ヘッドセットを含むシステムである。

図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。

オーディオシステムは、１つまたは複数の光学マイクロフォンと、オーディオコントローラとを含む。いくつかの実施形態では、オーディオシステムはヘッドセットの一部であり、１つまたは複数の光学マイクロフォンは、ヘッドセットのローカルエリア内の音（たとえば、ユーザの音声、他人、ノイズ源など）によって引き起こされるヘッドセットのユーザの皮膚の振動を監視するように配置される。１つまたは複数の光学マイクロフォンは、ヘッドセット上の１つまたは複数の位置（例えば、鼻パッド、フレームなど）に配置されてもよい。オーディオシステムは、監視された振動を使用してローカルエリア内の音を測定し、測定された音に基づいて様々なアクションを実行することができる（たとえば、アクティブノイズキャンセル、ユーザ音声強化、音声アクティビティ検出としての機能など）。上記は、ヘッドセット上に配置されている１つまたは複数の光学マイクロフォンに関連していることに留意されたい。他の実施形態では、１つまたは複数の光学マイクロフォンおよび／またはオーディオシステムは、他のデバイス（たとえば、ネックレス、スマートウォッチなど）上にあってもよい。

光学マイクロフォンは、ユーザの皮膚の振動を監視する。光学マイクロフォンは、光源と検出器とを含む。光源（たとえば、垂直共振器面発光レーザ－ＶＣＳＥＬ）は、光を発するように構成される。発せられる光の光学帯域は、皮膚が主に光を反射するような帯域である（たとえば、それ以外の帯域では、主に光を吸収する、２５０から１８００ｎｍの間）。いくつかの実施形態では、発せられる光は連続波であり、基準ビームおよび感知ビームを含む。オーディオシステムのローカルエリアからの音は、ユーザの皮膚に振動を引き起こす。光源は、感知ビームをユーザの皮膚（例えば、面の一部）を照射するように構成される。

検出器は、検出器が混合信号を検出するべく構成されるように、光源と干渉形態にある。干渉形態では、光学マイクロフォンは、レーザからの光と反射光との間の建設的または破壊的な干渉が距離の変化に応じて変化する信号を与える干渉計ベースのシステムになる。たとえば、８５０ｎｍの波長は、１０ｎｍ以下の範囲までの精度を与えることができる。干渉形態は、光源および検出器が干渉測定システム（たとえば、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計（ＬＣＩ）、レーザドップラー振動計（ＬＤＶ）など）を形成するような形態である。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。

オーディオコントローラは、検出器からの情報を処理する。オーディオコントローラは、混合信号を使用して音を測定するように構成される。オーディオコントローラは、混合信号を分析して、ユーザの皮膚の振動を引き起こす音の一部または全部を測定する。音は、たとえば、ユーザの音声および／またはローカルエリア内の他の音源（たとえば、他の人々、ノイズ源（例えば、ファン）など）を含むことができる。

いくつかの実施形態では、オーディオシステムがマイクロフォンアレイも含んでもよい。マイクロフォンアレイは、ローカルエリアからの音を検出するように構成される。ローカルエリアからの音は、たとえば、オーディオシステムのユーザの音声、ローカルエリア内の他の音源からの音、またはそれらの何らかの組合せを含むことができる。

オーディオシステムは、１つまたは複数の光学マイクロフォンによって測定された音、マイクロフォンアレイによって検出された音、またはそれらの何らかの組合せに部分的に基づいて様々なアクションを実行することができる。アクションは、たとえば、ユーザの音声を強化すること、音声アクティビティ検出（ＶＡＤ）のために１つまたは複数の光学マイクロフォンを使用すること、アクティブノイズキャンセリングを実行すること、ユーザの微細表現を識別するための情報をキャプチャすること、ヘッドセットの位置を監視することなどを含むことができる。いくつかの実施形態では、各光学マイクロフォンの一部またはすべてが、ヘッドセットに結合された振動減衰構造に結合されてもよいことに留意されたい。振動減衰構造は、ヘッドセット（またはより一般的には光学マイクロフォンが結合されているデバイス）から光学マイクロフォンに伝わる振動を緩和する。

いくつかの実施形態では、ユーザの皮膚の振動を監視する代わりに、光学素子が膜を含み、膜の振動を監視することによってローカルエリアからの音を監視することに留意されたい。ローカルエリアからの音は、膜を振動させる。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および／または反射する。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、散乱および／または反射光を検出する。オーディオコントローラは、検出器からの信号を使用してローカルエリアからの音を測定する。

従来のＶＡＤは、低音響ＳＮＲ環境（例えば、騒がしい混雑したレストラン）ではうまく機能しない。これらのシステムは、マイクロフォンを使用してローカルエリアからの音を検出し、次いで、低音響ＳＮＲ環境内からユーザの音声を分離しようとする。しかし、低音響ＳＮＲ環境では、着用者の音声が他の音（たとえば、混雑したレストランで話している他の人々）によって完全に隠されるため、この方法は失敗することが多い。対照的に、本明細書に記載のオーディオシステムは、１つまたは複数の接触光学マイクロフォンを使用してユーザの皮膚上の振動を監視し、これらの振動を使用して音を測定する。検出された信号のノイズは、従来の信号よりもはるかに低く、ユーザが話しているときの信頼できる識別を可能にする。さらに、相対的な距離の変化のみが干渉計システムにおいて観察されるので、検出器が光源との干渉形態にある実施形態では、距離の変化（例えば、動く眼鏡）の場合に絶対的な距離または位置合わせの較正は必要とされない。さらに、従来のＶＡＤ（たとえば、振動膜を有する骨伝導マイクロフォン）は共振周波数を有し、それらを共振周波数の前後で使用することは困難かつ不正確であり得る。対照的に、光学マイクロフォンは、従来のＶＡＤにおける前述のような制限が光学接触マイクロフォンにとって問題ではないように、移動要素または振動要素を有さない。

本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（たとえば、現実世界の）コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において別様に使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス（たとえば、ヘッドセット）、独立型ウェアラブルデバイス（たとえば、ヘッドセット）、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

図１Ａは、１つまたは複数の実施形態に係るアイウェアデバイスとして実装されるヘッドセット１００の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ（ＮＥＤ）である。概して、ヘッドセット１００は、コンテンツ（たとえば、メディアコンテンツ）が、ディスプレイアセンブリおよび／またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット１００はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット１００によって提示されるメディアコンテンツの例は、１つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット１００は、フレームを含み、構成要素の中でも、１つまたは複数のディスプレイ要素１２０を含むディスプレイアセンブリと、深度カメラアセンブリ（ＤＣＡ）と、オーディオシステムと、位置センサー１９０とを含み得る。図１Ａは、ヘッドセット１００上の例示的な位置におけるヘッドセット１００の構成要素を示すが、構成要素は、ヘッドセット１００上の他の場所に、ヘッドセット１００と対にされた周辺デバイス上に、またはそれらの何らかの組合せで位置され得る。同様に、図１Ａに示されているものよりも多いまたは少ない構成要素がヘッドセット１００上にあってもよい。

フレーム１１０は、ヘッドセット１００の他の構成要素を保持する。フレーム１１０は、１つまたは複数のディスプレイ要素１２０を保持する前面部と、ユーザの頭部に付けるためのエンドピース（たとえば、テンプル）とを含む。フレーム１１０の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能（たとえば、調整可能なテンプルの長さ）であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分（たとえば、テンプルの先端、イヤピース）を含み得る。

１つまたは複数のディスプレイ要素１２０は、ヘッドセット１００を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素１２０を含む。いくつかの実施形態では、ディスプレイ要素１２０は、ヘッドセット１００のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット１００を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素１２０は導波路ディスプレイであり得る。導波路ディスプレイは、光ソース（たとえば、２次元ソース、１つまたは複数の線ソース、１つまたは複数の点ソースなど）と、１つまたは複数の導波路とを含む。光ソースからの光は、１つまたは複数の導波路中に内部結合され、１つまたは複数の導波路は、ヘッドセット１００のアイボックス中に瞳複製（ｐｕｐｉｌｒｅｐｌｉｃａｔｉｏｎ）があるような様式で光を出力する。１つまたは複数の導波路からの光の内部結合および／または外部結合が、１つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光ソースからの光が１つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素（たとえば、導波路、ミラーなど）を含む。いくつかの実施形態では、ディスプレイ要素１２０の一方または両方が不透明であり、ヘッドセット１００の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット１００の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット１００を装着しているユーザが中にいる部屋であり得、または、ヘッドセット１００を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット１００はＶＲコンテンツを生成する。代替的に、いくつかの実施形態では、ＡＲおよび／またはＭＲコンテンツを作り出すために、ローカルエリアからの光が１つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素１２０の一方または両方は少なくとも部分的に透明である。

いくつかの実施形態では、ディスプレイ要素１２０は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素１２０の一方または両方は、補正なしのレンズ（非処方）であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ（たとえば、単焦点、二焦点、および三焦点、または累進多焦点（ｐｒｏｇｒｅｓｓｉｖｅ））であり得る。いくつかの実施形態では、ディスプレイ要素１２０は、太陽からユーザの眼を保護するために、偏光および／または色付けされ得る。

いくつかの実施形態では、ディスプレイ要素１２０は追加の光学ブロック（図示せず）を含み得る。光学ブロックは、ディスプレイ要素１２０からの光をアイボックスに向ける１つまたは複数の光学要素（たとえば、レンズ、フレネルレンズなど）を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。

ＤＣＡは、ヘッドセット１００の周囲のローカルエリアの一部分についての深度情報を決定する。ＤＣＡは、１つまたは複数のイメージングデバイス１３０と、ＤＣＡコントローラ（図１Ａに図示せず）とを含み、照明器１４０をも含み得る。いくつかの実施形態では、照明器１４０は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線（ＩＲ）、飛行時間型のＩＲフラッシュなどの構造化光（例えば、ドットパターン、バーなど）であってもよい。いくつかの実施形態では、１つまたは複数のイメージングデバイス１３０は、照明器１４０からの光を含むローカルエリアの一部の画像をキャプチャする。図示のように、図１Ａは、単一の照明器１４０と２つのイメージングデバイス１３０とを示す。代替実施形態では、照明器１４０がなく、少なくとも２つのイメージングデバイス１３０がある。

ＤＣＡコントローラは、キャプチャされた画像と１つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間（ＴｏＦ）深度検知、間接ＴｏＦ深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析（照明器１４０からの光によってシーンに追加されたテクスチャを使用する）、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。

オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、１つまたは複数の光学マイクロフォン１４５と、オーディオコントローラ１５０とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび／または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、音声コントローラの機能のいくつかまたはすべてはリモートサーバによって実行され得る。

トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー１６０または組織トランスデューサ１７０（たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ）であり得る。スピーカー１６０はフレーム１１０の外部に示されているが、スピーカー１６０はフレーム１１０に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット１００は、提示されたオーディオコンテンツの方向性を改善するためにフレーム１１０に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ１７０は、ユーザの頭部に結合し、ユーザの組織（たとえば、骨または軟骨）を直接振動させて、音を生成する。トランスデューサの数および／または位置は、図１Ａに示されているものとは異なり得る。

センサーアレイは、ヘッドセット１００のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー１８０を含む。音響センサー１８０は、ローカルエリア（たとえば、部屋）中の１つまたは複数の音ソースから発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換するように構成される。音響センサー１８０は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。

いくつかの実施形態では、１つまたは複数の音響センサー１８０は、各耳の耳道中に置かれ得る（たとえば、バイノーラルマイクロフォンとして働く）。いくつかの実施形態では、音響センサー１８０は、ヘッドセット１００の外面上に置かれるか、ヘッドセット１００の内面上に置かれるか、ヘッドセット１００とは別個（たとえば、何らかの他のデバイスの一部）であるか、またはそれらの何らかの組合せであり得る。音響センサー１８０の数および／または位置は、図１Ａに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および／または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット１００を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。

いくつかの実施形態において、１つまたは複数の光学マイクロフォン１４５は、ローカルエリア内の音から生じる皮膚の組織ベースの振動を検出する。音は、たとえば、ユーザの発話、およびローカルエリア内の他の音源からの音を含むことができる。たとえば、ユーザが発話するとき、発話の一部は、組織伝導を介してユーザの組織を介して実際に伝達される。この発話部分は、わずかな組織ベースの振動としてユーザの頭部の皮膚に現れる。１つまたは複数の光学マイクロフォン１４５は、これらの組織ベースの振動を検出する。同様に、ユーザの外部の音源（例えば、ファン、他のスピーカなど）は、ユーザの皮膚上の振動としても現れる可能性がある音を生成する。光学マイクロフォン１４５は、少なくとも一つの光源および少なくとも一つの検出器を含み、任意選択的に１つまたは複数の光学素子を含んでもよい。光学マイクロフォン１４５は、様々な方法で構成することができる。たとえば、光源および検出器は、直列または並列構成で（たとえば、図５Ａおよび図５Ｂに関して以下に説明するように）構成されてもよい。場合によっては、光学マイクロフォンは、（たとえば、図５Ｃに関して以下で説明するように）少なくとも２つの自己混合干渉計を含む対にされた光学マイクロフォンであってもよい。場合によっては、光学マイクロフォンの光源および検出器は、ヘッドセット１００上の異なる位置（たとえば、鼻パッド内、フレーム１１０上などの異なる位置）に配置されてもよい。検出器および光源は、たとえば、それらが二重経路干渉計であるか共通経路干渉計であるかに応じて、異なるダイまたは同じダイ上に配置されてもよく、そのような場合、それらの間の閾値距離は干渉計アーム長によって決定される。

光源は、光を発するように構成される。光源は、たとえば、垂直共振器面発光レーザ（ＶＣＳＥＬ）、エッジ発光レーザ、波長可変レーザ、他のコヒーレント光源、またはそれらの組合せであってもよい。発せられる光の光学帯域は、皮膚が主に光を反射するような帯域である（これ以外の帯域では、たとえば、主に光を吸収する）。１つまたは複数の光学マイクロフォン１４５は、たとえば８５０ｎｍ、９４０ｎｍ、１３００ｎｍ、１０５０ｎｍ等で光を発してもよい。発せられた光は連続波であり、いくつかの実施形態では、基準ビームおよび感知ビームを含む。いくつかの実施形態では、光源は、（たとえば、感知ビームを）ユーザの皮膚（たとえば、顔の１つまたは複数の同じまたは異なる部分）に照射するように構成される。

検出器は、光源によって発せられた光の帯域の光を監視する。検出器は、たとえば、１つまたは複数の光検出器であってもよい。いくつかの実施形態では、検出器および光源は、干渉計システム（たとえば、自己混合干渉計、マイケルソン干渉計、ＬＣＩ（たとえば、光コヒーレンストモグラフィ）、ＬＤＶなど）を形成するように構成される。したがって、検出器は、皮膚によって反射される感知ビームの一部と（たとえば、フレネル反射および／または散乱反射を介して）混合される基準ビームに対応する混合信号を検出するように構成される。他の実施形態では、光源および検出器は非干渉形態にある。この構成では、検出器は、皮膚からの反射光および／または散乱光の強度の変調を測定する。

代替の実施形態では、光学マイクロフォン１４５は、膜を含み、ユーザの皮膚の振動を監視する代わりに、膜の振動を監視する。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および／または反射する。いくつかの実施形態では、光源によって照射される膜の少なくとも一部は、光源によって発せられる光の帯域において高度に反射性である。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、膜からの散乱および／または反射光を検出し、信号出力（例えば、混合信号、変調強度）を使用してローカルエリア内の音を監視することができる。

図１Ａに示される例において、光学マイクロフォン１４５は、ヘッドセット１００を着用しているユーザの鼻の一部と接触するフレーム１１０の領域に配置される。たとえば、光学マイクロフォン１４５は、眼鏡のセットの鼻パッドの一方または両方に組み込むことができる。他の実施形態では、光学マイクロフォン１４５のうちの１つまたは複数は、これに代えてまたは加えて、ヘッドセット１００上の他の場所に配置されてもよく、および／またはヘッドセット１００上に１つまたは複数の追加の光学マイクロフォン１４５が存在してもよい。たとえば、１つまたは複数の光学マイクロフォン１４５の一部またはすべては、側面発射位置１４７Ａ、１４７Ｂ、１４７Ｃ、１４７Ｄおよび／またはブリッジ位置１４８の一部またはすべてにおいてフレーム１１０の内向きの側面に配置することができる。以下、光学マイクロフォン１４５の様々な実施形態を、図２、図３、図４、および図５Ａ～図５Ｃに関連して説明する。

オーディオコントローラ１５０は、ローカルエリアからの音を測定するために、１つまたは複数の光学マイクロフォン１４５の検出器からの検出された１つまたは複数の混合信号を処理する。オーディオコントローラ１５０は、それぞれの光学マイクロフォン１４５の一部または全部からの混合信号を分析して、ユーザの皮膚の振動を引き起こす音の一部または全部を測定することができる。音は、たとえば、ユーザの音声および／またはローカルエリア内の他の音源（たとえば、他の人々、ノイズ源（例えば、ファン）など）を含むことができる。

オーディオコントローラ１５０は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ１５０は、到来方向（ＤＯＡ）推定値を生成し、音響伝達関数（たとえば、アレイ伝達関数および／または頭部伝達関数）を生成し、音源の位置を追跡し、音源の方向にビームを形成し、音源を分類し、トランスデューサアレイの音フィルタを生成し、アクティブノイズキャンセルを実行するようにトランスデューサアレイに命令し、ユーザの音声を識別し、識別されたユーザの音声に基づいてコマンドを識別および実行し、ユーザの微細な表情を識別するために使用され得る情報をキャプチャし、またはそれらの何らかの組合せを行なうように構成され得る。オーディオコントローラ１５０が検出された組織振動をどのように使用することができるかに関するさらなる詳細は、以下に説明する図に関して詳細に説明される。

位置センサー１９０は、ヘッドセット１００の動作に応じて１つまたは複数の測定信号を生成する。位置センサー１９０は、ヘッドセット１００のフレーム１１０の一部分に位置し得る。位置センサー１９０は、慣性測定ユニット（ＩＭＵ）を含み得る。位置センサー１９０の例としては、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、動作を検出する他の適したタイプのセンサー、ＩＭＵの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せが挙げられる。位置センサー１９０は、ＩＭＵの外部に、ＩＭＵの内部に、またはそれらの何らかの組合せで位置し得る。

いくつかの実施形態では、ヘッドセット１００は、ヘッドセット１００の位置のための同時位置特定およびマッピング（ＳＬＡＭ）と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット１００は、カラー画像データを生成するパッシブカメラアセンブリ（ＰＣＡ）を含み得る。ＰＣＡは、ローカルエリアの一部または全部の画像を検出する１つまたは複数のＲＧＢカメラを含み得る。いくつかの実施形態では、ＤＣＡのイメージングデバイス１３０の一部または全部が、ＰＣＡとしても機能し得る。ＰＣＡによって検出された画像と、ＤＣＡによって決定された深度情報とは、ローカルエリアのパラメータを決定するため、ローカルエリアのモデルを生成するため、ローカルエリアのモデルを更新するため、またはそれらの何らかの組合せを行なうために使用され得る。さらに、位置センサー１９０は、部屋内のヘッドセット１００の位置（たとえば、ロケーションおよび姿勢）を追跡する。ヘッドセット１００の構成要素に関するさらなる詳細は、図４に関して以下で説明される。

図１Ｂは、１つまたは複数の実施形態に係る、ＨＭＤとして実装されるヘッドセット１０５の斜視図である。ＡＲシステムおよび／またはＭＲシステムについて説明する実施形態では、ＨＭＤの前側の部分は、可視帯域（約３８０ｎｍ～７５０ｎｍ）内で少なくとも部分的に透明であり、ＨＭＤの前側とユーザの眼との間にあるＨＭＤの部分は、少なくとも部分的に透明である（たとえば、部分的に透明な電子ディスプレイ）。ＨＭＤは、前面剛体１１５とバンド１７５とを含む。ヘッドセット１０５は、図１Ａに関連して上記で説明された同じ構成要素の多くを含むが、ＨＭＤフォームファクタと一体化するように修正される。たとえば、ＨＭＤは、ディスプレイアセンブリ、ＤＣＡ、オーディオシステム（１つまたは複数の光学マイクロフォン１４５を含む）、および位置センサー１９０を含む。図１Ｂは、照明器１４０と、複数のスピーカー１６０と、複数のイメージングデバイス１３０と、複数の音響センサー１８０と、位置センサー１９０とを示す。スピーカー１６０は、（図示のように）バンド１７５に結合される、前面剛体１１５に結合されるなど、様々なロケーションにあり得、またはユーザの耳道内に挿入されるように構成され得る。

図２は、１つまたは複数の実施形態に係る、オーディオシステム２００のブロック図である。図１Ａまたは図１Ｂにおけるオーディオシステムは、オーディオシステム２００の一実施形態であり得る。オーディオシステム２００は、ユーザのための１つまたは複数の音響伝達関数を生成する。オーディオシステム２００は、次いで、ユーザのためのオーディオコンテンツを生成するために１つまたは複数の音響伝達関数を使用し得る。図２の実施形態において、オーディオシステム２００は、トランスデューサアレイ２１０と、センサーアレイ２２０と、光学マイクロフォンアセンブリ２２２と、オーディオコントローラ２３０とを含む。オーディオシステム２００のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。

トランスデューサアレイ２１０は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ２１０は複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー（たとえば、スピーカー１６０）、組織トランスデューサ（たとえば、組織トランスデューサ１７０）、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ２１０は、空気伝導を介して（たとえば、１つまたは複数のスピーカーを介して）、骨伝導を介して（１つまたは複数の骨伝導トランスデューサを介して）、軟骨伝導オーディオシステムを介して（１つまたは複数の軟骨伝導トランスデューサを介して）、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ２１０は、周波数範囲の異なる部分をカバーするための１つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第１の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第２の部分をカバーするために可動コイルトランスデューサが使用され得る。

骨伝導トランスデューサは、ユーザの頭部における骨／組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ２３０から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。

軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の１つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の１つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか（たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ）に位置し得る。耳介軟骨の１つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させることによって耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。

トランスデューサアレイ２１０は、オーディオコントローラ２３０からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、音声コンテンツは空間化（ｓｐａｔｉａｌｉｚｅ）される。空間化された音声コンテンツは、特定の方向および／またはターゲット領域（たとえば、局所領域中の対象および／または仮想対象）から発生するように思われる音声コンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム２００のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ２１０は、ウェアラブルデバイス（たとえば、ヘッドセット１００またはヘッドセット１０５）に結合され得る。代替実施形態では、トランスデューサアレイ２１０は、ウェアラブルデバイスとは別個である（たとえば、外部コンソールに結合された）複数のスピーカーであり得る。

センサーアレイ２２０は、センサーアレイ２２０の周囲のローカルエリア内の音を検出する。検出された音は、たとえば、オーディオシステム２００のユーザからの音（例えば、ユーザの音声）および／またはローカルエリア内の他の音源からの音（例えば、他の人々）であってもよい。センサーアレイ２２０は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット（アナログまたはデジタル）に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット（たとえば、ヘッドセット１００および／またはヘッドセット１０５）上に、ユーザ上に（たとえば、ユーザの耳道中に）、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ２２０は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ２１０によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ２１０によって作り出された音場および／またはローカルエリアからの音を表す情報（たとえば、方向性）の精度を改善し得る。

いくつかの実施形態では、光学マイクロフォンアセンブリ２２２は、ローカルエリア内の音から生じる皮膚の組織に基づく（すなわち、時間的）振動を検出するように構成される。光学マイクロフォンアセンブリ２２２は、光学マイクロフォン１４５のうちの１つまたは複数を含む。図１Ａに関して前述したように、光学マイクロフォン１４５は、少なくとも１つの光源および少なくとも１つの検出器を含み、任意選択的に１つまたは複数の光学素子（例えば、レンズ）を含むことができる。光学マイクロフォン１４５は、様々な方法（たとえば、図３－図５Ｃに関連して以下に記載されるように）で構成することができる。各光学マイクロフォン１４５から出力される信号（例えば、混合信号、変調強度）は、ローカルエリアの音の監視に用いられてもよい。

いくつかの実施形態において、１つまたは複数の光学マイクロフォン１４５は、それぞれ膜を含み、ユーザの皮膚の振動を監視する代わりに、膜の振動を監視することに留意されたい。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および／または反射する。いくつかの実施形態において、光源によって照射される膜の少なくとも一部は、高反射性である。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、膜からの散乱および／または反射光を検出し、信号出力（例えば、混合信号、変調強度）を使用してローカルエリア内の音を監視することができる。

オーディオコントローラ２３０は、オーディオシステム２００の動作を制御する。図２の実施形態において、オーディオコントローラ２３０は、データストア２３５と、ＤＯＡ推定モジュール２４０と、伝達関数モジュール２５０と、追跡モジュール２６０と、ビームフォーミングモジュール２７０と、処理モジュール２７５と、音フィルタモジュール２８０とを含む。オーディオコントローラ２３０は、いくつかの実施形態では、ヘッドセット内に位置され得る。オーディオコントローラ２３０のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。ユーザは、オーディオコントローラ２３０が、ヘッドセットによって検出されたデータをヘッドセットの外部のシステムに送信できるようにするべくオプトインしてもよく、ユーザは、任意のそのようなデータへのアクセスを制御するプライバシー設定を選択してもよい。

データストア２３５は、オーディオシステム２００による使用のためのデータを記憶する。データストア２３５内のデータは、オーディオシステム２００のローカルエリアに記録された音、オーディオコンテンツ、頭部関連伝達関数（ＨＲＴＦ）、１つまたは複数のセンサーの伝達関数、音響センサーのうちの１つまたは複数におけるアレイ伝達関数（ＡＴＦ）、音源位置、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、１つまたは複数の光学マイクロフォン１４５によって検出された組織振動、センサーアレイ２２０によって検出された音、光振幅を光学マイクロフォン１４５の検出器からの距離にマッピングするモデル、およびオーディオシステム２００による使用に関連する他のデータ、またはそれらの任意の組合せを含むことができる。

ユーザは、データストア２３５がセンサーアレイ２２０および／または１つまたは複数の光学マイクロフォン１４５によって検出されたデータを記録できるようにするべくオプトインし得る。いくつかの実施形態において、オーディオシステム２００は、オーディオシステム２００がセンサーアレイ２２０および／または光学マイクロフォンアセンブリ２２２によって検出されたすべての音を録音する常時録音を使用してもよい。ユーザは、オーディオシステム２００が記録されたデータを他のエンティティに記録、記憶、または送信できるようにするまたはそれを防止するようにオプトインまたはオプトアウトすることができる。

ＤＯＡ推定モジュール２４０は、センサーアレイ２２０からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム２００のユーザに対して音源がどこに位置するかを決定するプロセスである。ＤＯＡ推定モジュール２４０は、ローカルエリア内の１つまたは複数の音源の位置を特定するためにＤＯＡ分析を実施する。ＤＯＡ分析は、音が発生した方向を決定するために、センサーアレイ２２０において、各音の強度、スペクトル、および／または到来時間を分析することを含み得る。いくつかの場合には、ＤＯＡ分析は、オーディオシステム２００が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。

たとえば、ＤＯＡ分析は、センサーアレイ２２０から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、ＤＯＡを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小２乗平均（ＬＭＳ：ｌｅａｓｔｍｅａｎｓｑｕａｒｅｄ）アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、ＤＯＡを推定するために使用され得る。別の実施形態では、ＤＯＡは、入力信号を周波数ドメインに変換し、処理すべき時間周波数（ＴＦ）ドメイン内の特定のビンを選択することによって決定され得る。各選択されたＴＦビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ２２０が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのＤＯＡを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、ＤＯＡを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。

いくつかの実施形態では、ＤＯＡ推定モジュール２４０は、ローカルエリア内のオーディオシステム２００の絶対位置に関するＤＯＡをも決定し得る。センサーアレイ２２０の位置は、外部システム（たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー（たとえば、位置センサー１９０）などの何らかの他の構成要素）から受信され得る。外部システムは、ローカルエリアとオーディオシステム２００の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム２００の一部または全部（たとえば、センサーアレイ２２０）の位置および／または配向を含み得る。ＤＯＡ推定モジュール２４０は、受信された位置情報に基づいて、推定されたＤＯＡを更新し得る。

伝達関数モジュール２５０は、１つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール２５０は、オーディオシステムに関連する１つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数（ＡＴＦ）、頭部伝達関数（ＨＲＴＦ）、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ＡＴＦは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。

ＡＴＦは、音源とセンサーアレイ２２０中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ２２０中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはＡＴＦと呼ばれる。したがって、各音ソースについて、対応するＡＴＦがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ２１０の１つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ２２０に対する特定の音源位置についてのＡＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、ユーザによって異なり得る。したがって、センサーアレイ２２０のＡＴＦは、オーディオシステム２００の各ユーザのために個人化される。

いくつかの実施形態では、伝達関数モジュール２５０は、オーディオシステム２００のユーザのための１つまたは複数のＨＲＴＦを決定する。ＨＲＴＦは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのＨＲＴＦは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造（たとえば、耳形状、肩など）により、人の各耳に固有である（および人に固有である）。いくつかの実施形態では、伝達関数モジュール２５０は、較正プロセスを使用してユーザのためのＨＲＴＦを決定し得る。いくつかの実施形態では、伝達関数モジュール２５０は、ユーザに関する情報をリモートシステムに提供し得る。ユーザは、プライバシー設定を調整して、伝達関数モジュール２５０がユーザに関する情報を任意の遠隔システムに提供することを許可または防止することができる。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたＨＲＴＦのセットを決定し、ＨＲＴＦのカスタマイズされたセットをオーディオシステム２００に提供する。

追跡モジュール２６０は、１つまたは複数の音源の位置を追跡するように構成される。追跡モジュール２６０は、現在のＤＯＡ推定値を比較し、それらを、前のＤＯＡ推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム２００は、１秒当たり１回、または１ミリ秒当たり１回など、周期的スケジュールでＤＯＡ推定値を再計算し得る。追跡モジュールは、現在のＤＯＡ推定値を前のＤＯＡ推定値と比較し得、音源についてのＤＯＡ推定値の変化に応答して、追跡モジュール２６０は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール２６０は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいて位置の変化を検出し得る。追跡モジュール２６０は、経時的に１つまたは複数の音源の移動を追跡し得る。追跡モジュール２６０は、各時点において音源の数と各音源の位置とについての値を記憶し得る。音源の数または位置の値の変化に応答して、追跡モジュール２６０は、音源が移動したと決定し得る。追跡モジュール２６０は、位置特定分散（ｌｏｃａｌｉｚａｔｉｏｎｖａｒｉａｎｃｅ）の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。

ビームフォーミングモジュール２７０は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、１つまたは複数のＡＴＦを処理し、それによって適応ビームフォーマとして機能するように構成される。センサーアレイ２２０によって、および場合によっては光学マイクロフォン１４５によって検出された音を分析する際に、ビームフォーミングモジュール２７０は、ローカルエリアの特定のエリアからの関連する音を強調するが、エリアの外側からのものである音を強調しないように、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール２７０は、たとえば、ＤＯＡ推定モジュール２４０および追跡モジュール２６０からの異なるＤＯＡ推定値に基づいて、ローカルエリアにおける他の音ソースから、特定の音ソースからの音に関連するオーディオ信号を切り離し得る。したがって、ビームフォーミングモジュール２７０は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール２７０は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール２７０は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を除去する、音フィルタを適用し得る。信号拡張は、センサーアレイ２２０によって検出された他の音に対して所与の識別された音ソースに関連する音を拡張するように働く。

処理モジュール２７５は、光学マイクロフォンアセンブリ２２２からの出力信号を使用してローカルエリア内の音を測定する。出力信号は、たとえば、皮膚から反射された光の一部の振幅に対応する信号であってもよい。たとえば、オーディオコントローラは、検出された光を、光振幅を検出器（すなわち、皮膚位置）からの距離にマッピングするモデルに入力することができる。これについては、図３に関して以下でさらに説明する。

１つまたは複数の光学マイクロフォン１４５が干渉形態にある場合、出力信号は、たとえば混合信号であってもよい。検出された混合信号は、動的高周波成分と変調成分とを含む。動的高周波成分は、皮膚の照射部分と検出器との間の距離の関数として変化する（周波数のシフト）。測定される振動の振幅は、たとえば、５０ｎｍ（例えば、ユーザのささやき）～１．５ミクロン（たとえば、ユーザの呼びかけ、ローカルエリアにおける何らかの他の大きな騒音）であり得ることに留意されたい。したがって、ローカルエリアの音に起因する皮膚の振動は、動的高周波成分の変化をもたらす。処理モジュールは、動的高周波成分から、ユーザの皮膚の振動を引き起こしたであろう対応する音を推測することによって音を測定する。さらに、音によって引き起こされるユーザの皮膚の振動は、たとえば、動作ノイズと呼ばれるユーザの動き（たとえば、歩行、走行）によって引き起こされる振動とははるかに異なる周波数にある。処理モジュール２７５は、動きノイズに対応する動的高周波成分の部分を分離および／または除去することができる。

音声駆動組織振動の大きさは、より高い可聴周波数で減少することに留意されたい。これは、音声駆動振動が骨および軟組織を伝播するときの骨伝導音声の低域通過性に起因し得る。この解剖学的ローパスフィルタの特徴は、光学マイクロフォンがより高い周波数で音声コンテンツ情報をどれだけ良好に感知できるかに影響を及ぼし得る。したがって、いくつかの例では、（たとえば、ユーザの）音声の高周波成分が減衰され得る。高周波成分は、たとえば、２ｋＨｚを超える周波数を有するオーディオコンテンツであってもよい。

処理モジュール２７５は、感知された音声コンテンツ（例えば、より高い周波数の場合）を増強および／または再構築することができる。処理モジュール２７５は、たとえば、行列因子分解ベースの帯域幅拡張方法を使用して、感知された音声の高周波数コンテンツを再構成することができる。１つまたは複数の音響マイクロフォンを使用して得られたきれいな音声記録を使用して、ユーザの広帯域スペクトルベースを学習する。これらの広帯域ベースは、音声の低周波コンテンツおよび高周波コンテンツの両方を含む。そして、それらの低周波数コンテンツは、広帯域音声を取得するために広帯域ベースをどのように組み合わせるべきかを学習するために（光学マイクロフォンで取得された）狭帯域音声で使用される。

別の実施形態では、処理モジュール２７５は、ニューラルネットワークベースのオーディオ超分解能方法を使用して、高周波数コンテンツを再構築することができる。ネットワークがスペクトル領域で訓練されている場合、オーディオ超分解能は、低周波数コンテンツから高周波数コンテンツを外挿する（インペインティングする）ことを可能にする。ネットワークが時間領域で訓練されている場合、ネットワークは、狭帯域波形を時間領域で補間して、高周波数コンテンツを有する広帯域音声を取得する。あるいは、一方が時間領域にあり、他方が周波数領域にある２つのネットワークを一緒に訓練することも可能である。２つのネットワークの結果は、融合層と組み合わせることができ、または２つのネットワークをカスケード接続することができる。１つまたは複数の光学マイクロフォンおよび音響マイクロフォンの同時記録を、これらのニューラルネットワークの訓練に使用することができる。次いで、学習されたネットワークを使用して、１つまたは複数の光学マイクロフォンで得られた音声の高周波数コンテンツを再構成することができる。

狭帯域電話信号から広帯域音声を再構成するために、同様の方法が文献で首尾よく使用されていることに留意されたい。電話アプリケーションでは、狭帯域および広帯域音声の低周波数コンテンツは同じである。しかしながら、光学マイクロフォンで捕捉された音声の低周波数コンテンツは、音響マイクロフォンで捕捉されたものとは異なり得る。この違いを説明するために、光学マイクロフォンから得られた基底を音響マイクロフォンにマッピングする重み行列を、因数分解ベースの方法に含めることができる。この行列は、訓練中に学習することができる。オーディオ超分解能ネットワークを訓練するとき、１つまたは複数の畳み込み層を入力層として挿入することができる。適切な訓練により、追加の層は、光学マイクロフォンの低周波数コンテンツの音響マイクロフォンへのマッピングを学習するのを助けることができる。

処理モジュール２７５は、再構築された高周波成分で音声の測定された音を更新することができる。再構成された高周波成分は、高周波成分の減衰を緩和する。

処理モジュール２７５は、光学マイクロフォンアセンブリ２２２から出力された信号（例えば、混合信号）を使用して、検出された音におけるユーザの音声を識別してもよい。出力信号は、たとえば、ユーザが話すとき、および／またはローカルエリアからの音が皮膚を振動させるときに、ユーザの皮膚に生じる振動である。いくつかの実施形態では、１つまたは複数の光学マイクロフォン１４５はＶＡＤとして機能してもよい。このように、処理モジュール２７５は、１つまたは複数の光学マイクロフォンアセンブリ２２２からの出力信号およびローカルエリアからの音を、入力を使用してローカルエリアからの検出音におけるユーザの音声を識別するモデルに入力することができる。

いくつかの実施形態では、処理モジュール２７５は、ユーザの識別された音声がコマンドを含むと決定することができる。そして、オーディオシステム２００および／またはヘッドセット１００は、コマンドに従ってアクションを実行することができる。アクションは、オーディオシステム２００および／またはヘッドセット１００のいくつかの動作を制御することができる。アクションは、たとえば、音源、音量の減少／増加、オーディオシステム２００および／またはヘッドセット１００の動作を制御する何らかの他のアクション、またはそれらの何らかの組合せを指すことができる。

処理モジュール２７５は、光学マイクロフォンアセンブリ２２２からの検出された組織振動（すなわち、出力信号）およびセンサーアレイ２２０からの検出された音を多くの方法で使用する。いくつかの実施形態では、処理モジュール２７５は、センサーアレイ２２０から検出された音を使用して、１つまたは複数の光学マイクロフォン１４５を較正する。

いくつかの実施形態では、処理モジュール２７５は、光学マイクロフォン１４５および／またはセンサーアレイ２２０からの測定された音のうちの抑制用の１つまたは複数の音（例えば、バックグラウンドノイズ）を識別する。次いで、処理モジュール２７５は、アクティブノイズキャンセルプロセスの一部としてこの情報を音フィルタモジュール２８０に提供することができる。音フィルタは、オーディオコンテンツに対応するオーディオ信号を修正するために適用されてもよい。そして、トランスデューサアレイ２１０は、修正されたオーディオ信号を修正されたオーディオコンテンツとしてユーザに提示することができ、修正されたオーディオコンテンツは、オーディオコンテンツと、ノイズを抑制する抑制コンポーネントとを含む。

いくつかの実施形態では、処理モジュール２７５は、光学マイクロフォンアセンブリ２２２からの出力信号を使用して、ユーザの頭部上のヘッドセットの滑りを監視してもよい。たとえば、ヘッドセットがユーザの頭部上の新しい静止位置に移動すると、距離にオフセットが生じる。処理モジュール２７５は、出力信号内のオフセットを識別して、ユーザ上のヘッドセットの位置を識別および／または監視することができる。新しい位置情報は、より正確な音フィルタを生成するために、たとえば音フィルタモジュール２８０によって使用されてもよい。

音フィルタモジュール２８０は、トランスデューサアレイ２１０のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。音フィルタモジュール２８０は、音フィルタを生成するためにＨＲＴＦおよび／または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響プロパティを表す。音響パラメータは、たとえば、残響時間、残響レベル、ルームインパルス応答などを含むことができる。いくつかの実施形態では、音フィルタモジュール２８０は、音響パラメータのうちの１つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール２８０は、（たとえば、図９に関して以下で説明するように）マッピングサーバに音響パラメータを要求する。

音フィルタモジュール２８０は、検出された音声におけるユーザの識別された音声に基づいて、１つまたは複数の音フィルタを更新することができる。１つまたは複数の更新された音フィルタは、オーディオコンテンツに適用されて、修正されたオーディオコンテンツを生成することができる。たとえば、音フィルタモジュール２８０は、オーディオコンテンツに適用されると、修正されたオーディオコンテンツがユーザの識別された音声を強調するように、音フィルタを更新することができる。いくつかの実施形態では、音フィルタモジュール２８０は、音フィルタを更新して、１つまたは複数の光学マイクロフォン１４５および／またはセンサーアレイ２２０によって検出された１つまたは複数の音を抑制することができる（すなわち、アクティブノイズキャンセルを実行する）。いくつかの実施形態では、音フィルタモジュール２８０は、音響フィルタおよび／または修正されたオーディオコンテンツをトランスデューサアレイ２１０および／またはローカルエリア内の１つまたは複数の他のオーディオシステムに提供する。音フィルタモジュール２８０は、たとえばローカル無線ネットワーク（たとえば、ＷＩＦＩ、ＢＬＵＥＴＯＯＴＨなど）を介して、１つまたは複数の更新された音フィルタおよび／または変更されたオーディオコンテンツを１つまたは複数の他のオーディオシステムへ提供してもよい。このようにして、ユーザの音声を他のオーディオシステムのユーザにリアルタイムで提示することができ、これは、他のユーザがユーザの音声を聞くことが困難な騒音環境において（たとえば、サッカーの試合の群衆または他の何らかの低音響ＳＮＲ環境において）特に有用であり得る。

図３は、一実施形態または複数の実施形態に係る、鼻パッド３１０内の異なる位置に配置された光源３３０および検出器３４０を有する光学マイクロフォン３２０を含む例示的な鼻パッド３１０である。鼻パッド３１０は、ヘッドセット（例えば、ヘッドセット１００）の鼻パッドの一例である。光学マイクロフォン３２０は、光学マイクロフォン１４５の一実施形態であり、光源３３０および検出器３４０は、鼻パッド３１０内の異なる位置に配置され、しきい値距離だけ互いから離される。検出器３４０および光源３３０は、それらが二重経路干渉計であるか共通経路干渉計であるかに応じて、異なるダイまたは同じダイ上に配置され、そのような場合、しきい値距離は干渉計アーム長によって決定される。図３に示すように、光源３３０は、鼻の一部に光を照射する。そして、検出器３４０は、鼻によって散乱および反射された光の一部を検出する。

皮膚の振動は、発せられた光のうちどれだけの光がユーザの皮膚から反射および／または散乱されるかに影響を及ぼし得る。いくつかの実施形態では、オーディオコントローラは、検出された光を処理して、検出された光の変調強度に基づいてローカルエリアからの音を測定する。たとえば、オーディオコントローラは、検出された光を、光振幅を検出器３４０からの距離（すなわち、皮膚位置）にマッピングするモデルに入力することができる。たとえば、第１の時間において、検出された光は、比較的低い振幅信号を有することができ、第２の時間において、検出された光は、増大された振幅信号を有することができる。したがって、皮膚は、第１の時間の間、第２の時間よりも遠くに離れている。このようにして、オーディオコントローラは、検出された信号の振幅を使用して皮膚の振動を監視することができる。

いくつかの実施形態では、光源３３０から発せられた光は、基準ビームと感知ビームとに分割される。基準ビームは、検出器３４０に供給される。これらの実施形態では、検出器３４０は、検出器３４０が混合信号を検出するべく構成されるように、光源３３０と干渉形態にある。たとえば、基準ビームを検出器３４０に供給する光導波路（例えば、繊維）があってもよい。基準ビームは、鼻から反射および散乱された感知ビームの一部と混合して混合ビームを生成し、混合ビームは混合信号として検出器によって検出される。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。

図４は、一実施形態または複数の実施形態に係る、自己混合干渉計として構成された例示的な光学マイクロフォン４００である。光学マイクロフォン４００は、光源（図示せず）と、検出器（図示せず）と、光学素子とを備える。光学マイクロフォン４００は光学マイクロフォン１４５の一実施形態であり、光源および検出器は、同じ装置の一部であり、自己混合干渉計として構成されるように機能するべく構成される。光学マイクロフォン４００は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい（たとえば、側部発射位置において）。光学マイクロフォン４００の様々な実施形態は、図５Ａ、図５Ｂ、および図５Ｃに関して以下で詳述される。

光学マイクロフォン４００は、自己混合干渉計として構成されている。自己混合干渉法に基づくシステムは、反射光がレーザキャビティ内でフィードバックされてレーザのパワーを変調し、レーザキャビティがロックイン増幅器として作用してマイクロフォンＳＮＲを増加させるシステムである。自己混合干渉計システムでは、検出器（例えば、フォトダイオード）は、レーザ強度を測定するために横方向または垂直方向に変位されてレーザダイ上に配置されてもよい。いくつかの実施形態では、光源は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを検出器に供給する。これに加えてまたは代えて、光源から発せられた光の一部は、光学素子によって反射されて検出器に向かって戻ることができ、反射光の一部は基準ビームである。検出器は、光源との干渉形態（自己混合干渉計として機能する）にあり、混合信号を検出するように構成される。混合信号は、鼻から反射および散乱された感知ビームの一部と混合する基準ビームから形成された混合ビームに対応する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。

図５Ａは、一実施形態または複数の実施形態に係る、その構成要素が直列構成の自己混合干渉計として構成された光学マイクロフォン５００である。光学マイクロフォン５００は、光源５１０と、光学素子５２０と、検出器５３０とを備える。いくつかの実施形態では、光源５１０および検出器５３０は同じダイに結合される。光学マイクロフォン５００は、光学マイクロフォン４００の一実施形態である。

図示のように、光源５１０（例えば、ＶＣＳＥＬ）は光を発する。発せられた光は光学素子５２０（例えば、レンズ）に入射し、放射光の一部は感知ビームとして光学素子５２０によって透過され、発せられた光の一部は基準ビームとして検出器５３０に向かって反射される。いくつかの実施形態（図示せず）では、光源５１０は、感知ビームとして光学素子に向かって、および基準ビームとして検出器５３０に向かって光を発することができることに留意されたい。感知ビームの一部は、ユーザの皮膚から散乱および／または反射し、次いで光学素子５２０および光源５１０を通過して、検出器５３０で基準ビームと混合して混合ビームを形成する。検出器５３０は、この混合光を混合信号として検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。

図５Ｂは、一実施形態または複数の実施形態に係る、その構成要素が並列構成にある自己混合干渉計として構成された光学マイクロフォン５４０である。光学マイクロフォン５４０は、光源５４５と、光学素子５２０と、検出器５５０とを備える。いくつかの実施形態では、光源５１０および検出器５３０は同じダイに結合される。光源５４５および検出器５５０は、平行な構成に配置されていることを除いて、光源５１０および検出器５３０と実質的に同じであり、検出器５５０もここで光学素子５２０に結合される。光学マイクロフォン５００は、光学マイクロフォン４００の一実施形態である。

図示のように、光源５４５（例えば、ＶＣＳＥＬ）は光を発する。発せられた光は光学素子５２０（例えば、レンズ）に入射し、発せられた光の一部は感知ビームとして光学素子５２０によって透過され、発せられた光の一部は基準ビームとして検出器５５０に向かって反射される。感知ビームの一部は、ユーザの皮膚から散乱および／または反射し、次いで光学素子５２０を通過して検出器５５０で基準ビームと混合して混合ビームを形成する。検出器５５０は、この混合光を混合信号として検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。

図５Ｃは、１つまたは複数の環境に応じた二つの自己混合干渉計を含む対にされた光学マイクロフォン５６０の一例である。光学マイクロフォン５６０は、光源５１０ａと、光源５１０ｂと、光学素子５７０と、検出器５３０ａと、検出器５３０ｂと、ブロック５８０とを備える。いくつかの実施形態では、光源５１０ａ、光源５１０ｂ、検出器５３０ａ、検出器５３０ｂ、およびブロック５８０は、同じダイに結合される。光源５１０ａおよび５１０ｂは、光源５１０と実質的に同じであり、検出器５３０ａおよび検出器５３０ｂは、検出器５３０と実質的に同じである。光学素子５７０は、複数の光源に結合されることを除いて、光学素子５２０と実質的に同じである。光学マイクロフォン５６０は、光学マイクロフォン４００の一実施形態である。

対にされた光学マイクロフォン５６０は、１つまたは複数の光学素子と、複数の光源と、複数の対応する検出器とを含む。そして、各光源は、それぞれの光学マイクロフォンを形成するためにその対応する検出器と並列または直列構成のいずれかである。たとえば、図示のように、光源５１０ａは、対応する検出器５３０ａと直列構成にあり、光源５１０ｂは、対応する検出器５３０ｂと直列構成にある。いくつかの実施形態では、光源５１０ａおよび光源５１０ｂは同じ波長で発光する。代替の実施形態では、光源５１０ａおよび光源５１０ｂは、異なる波長で発光する。たとえば、光源５１０ａは７８０ｎｍで発光し、光源５１０ｂは８５０ｎｍで発光してもよい。したがって、光源５１０ａ、検出器５２０ａ、および光学素子５７０は、自己混合干渉計として構成され、その構成要素が直列構成（例えば、図５Ａに示すように、）である第１の光学マイクロフォンを形成する。光源５１０ｂ、検出器５２０ｂ、および光学素子５７０は、その構成要素が直列構成の自己混合干渉計として構成される第２の光学マイクロフォンを形成する。図示の例では２つの光学マイクロフォンが示されているが、他の実施形態では、光学素子５７０にも結合される追加の光学マイクロフォンが形成されてもよいことに留意されたい。

ブロック５８０を介して、二つの光学マイクロフォン間のクロストークが緩和される。ブロック５８０は、光源５１０ａ，５１０ｂによって発せられる光を透過しない材料（例えば、吸収性または反射性）からなる。いくつかの実施形態では、ブロック５８０は、エミッタと共に単一チップを形成するための半導体ダイの一部であってもよい。いくつかの実施形態では、ブロック５８０は、トウ個々のチップを互いに接合するために使用される金属である。なお、光学素子５７０に対する２つの光学素子の位置を異ならせることで、各光学マイクロフォンの出射角を異ならせることができる。たとえば、光源５１０ａおよび検出器５３０ａを用いて形成された光学マイクロフォンは、感知ビーム５８５を発し、光源５１０ａおよび検出器５３０ａを用いて形成された光学マイクロフォンは、感知ビーム５９０を発する。そして、感知ビーム５８５および５９０は、異なる角度で光学素子５７０から発せられる。

対にされた光学マイクロフォン５６０は、同時に２つの異なる位置を監視することができる。対照的に、光学マイクロフォン５００，５４０は単一の位置を監視する。なお、光学マイクロフォン５４０は、フルウェハ処理よりも二素子のパッケージング技術を用いたほうが実現が容易であり得る。

図６は、一実施形態または複数の実施形態に係る、ＬＤＶとして構成される光学マイクロフォン６００の一例である。光学マイクロフォン６００は、光源６１０（たとえば、エッジ発光レーザ）、検出器６２０（たとえば、フォトダイオード）、導波路構造６３０、および光学アンテナ６４０を含み、これらはすべてフォトニック集積回路の一部として基板６５０上にある。いくつかの実施形態では、光学マイクロフォン６００は、追加の構成要素を含むことができる。光学マイクロフォン６００は、ＬＤＶ構成を使用する光学マイクロフォン１４５の一実施形態である。光学マイクロフォン６００は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい（たとえば、側部発射位置において）。

導波路構造６３０は、光学マイクロフォン６００の各種部品に光を導波する光導波路である。導波路構造６３０は、たとえば、光源６１０、光スプリッタ６９２、１つまたは複数の光学アンテナ６４０、光コンバイナ６９５、検出器６２０、１つまたは複数の光増幅器、またはそれらの何らかの組合せを、様々なセクションを介して互いに結合することができる。セクションは、放射セクション６６０、基準セクション６７０、送信感知セクション６８０、受信感知セクション６８５、および混合セクション６９０を含む。導波路構造はまた、光スプリッタ６９２と、光コンバイナ６９４とを含み、レーザ増幅器を含んでもよい。光スプリッタ６９２は、放射セクション６６０からの光の一部（例えば、５０％）を送信感知セクション６８０に分離し、放射セクション６６０からの光の残りの部分を基準セクション６７０に分離する。いくつかの実施形態では、光パワーの他の一部（例えば、８０％）は、基準セクション６７０よりも送信感知セクション６８０に分割される。同様に、光コンバイナは、受信した感知セクション６８５からの光を基準セクション６７０からの光と混合セクション６９０に結合する。光学マイクロフォン６００は、光を増幅する１つまたは複数の光増幅器を含んでもよい。たとえば、光学アンテナ６４０によって出力される前の光を増幅し、および／または光学アンテナ６４０によって結合された光を増幅するように配置されてもよい。

光学アンテナ６４０は、光学マイクロフォン６００に光を出力して取り込む。光学アンテナ６４０は、たとえばグレーティングカプラであってもよい。図示の実施形態は、光学アンテナ６４０を介した光の共通入出力経路を含むことに留意されたい。他の実施形態（図示せず）では、感知ビームをアウトカップリングするための光学アンテナと、ユーザの皮膚から反射および／または散乱された感知ビームの一部を受信するための別個の光学アンテナとがあってもよい。

光源６１０は、導波路構造６３０の放射セクション６６０に結合される光を発する。光スプリッタ６９２は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを基準セクション６７０に供給し、感知ビームを送信感知セクション６８０に供給する。送信感知セクション６８０は感知ビームを光学アンテナ６４０に提供し、光をローカルエリアにアウトカップリングする（たとえば、ユーザの皮膚を照らすために）。いくつかの実施形態では、光は、光学アンテナ６４０によって発せられる前に光増幅器を使用して増幅されてもよいことに留意されたい。感知ビームの一部は、ユーザの皮膚によって反射および／または散乱され、光学アンテナ６４０を介して導波路構造６３０に結合される。受信感知セクション６８５はこの光を光コンバイナ６９５に提供する。いくつかの実施形態では、光は、光コンバイナ６９５に渡される前に光増幅器を使用して増幅されてもよいことに留意されたい。光コンバイナ６９５は、感知ビームの受信部分を基準ビームと結合して、混合セクション６９０に結合される混合ビームを生成する。検出器６２０は、混合ビームを受信し、対応する混合信号を検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。

基板６５０は、半導体材料、シリコン、シリコン・オン・インシュレータ、ガリウムヒ素、アルミニウムガリウムヒ素、シリコン・オン・サファイアなどの任意の標準チップ基板材料から形成されてもよい。基板６５０はまた、ガラス、プラスチック、ポリマー、ＰＭＭＡ、シリカ、および任意の形態の結晶（たとえば、ニオブ酸リチウム、二酸化テルルなど）などの可視スペクトル帯域（４００ｎｍ～７００ｎｍ）の任意の透明材料から形成されてもよい。基板６５０の表面は、ヘッドセット（例えば、ヘッドセット１００）に接合されてもよい。光学マイクロフォン６００の構成要素は、任意の標準的な接合技術によって基板６５０に接合されてもよく、および／または任意の標準的なエッチングもしくはエピタキシャル成長技術によって基板上に形成されてもよい。

図７は、一実施形態または複数の実施形態に係る、光コヒーレンストモグラフィ（ＯＣＴ）を使用するように構成された光学マイクロフォン７００の一例である。ＯＣＴはＬＣＩの一形態である。光学マイクロフォン７００は、光源７１０、検出器７２０、導波路構造７３０、および光学アンテナ７４０を含み、これらはすべてフォトニック集積回路の一部である。いくつかの実施形態では、光学マイクロフォン７００は、追加の構成要素を含むことができる。光学マイクロフォン７００は、ＯＣＴ構成の光学マイクロフォン１４５の一実施形態である。光学マイクロフォン７００は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい（たとえば、側部発射位置において）。いくつかの実施形態では、光学マイクロフォン７００の構成要素の一部またはすべては、基板（例えば、基板６５０）に結合および／または形成されてもよい。

導波路構造７３０は、光学マイクロフォン７００の各種部品に光を導波する光導波路である。導波路構造７３０は、たとえば、光源７１０（たとえば、波長可変レーザ源）、１つまたは複数の光スプリッタ、１つまたは複数のコンバイナ、１つまたは複数の光学アンテナ７４０、検出器７２０、１つまたは複数の光増幅器、またはそれらの何らかの組合せを、様々なセクションを介して互いに結合することができる。セクションは、放射セクション７６０、基準セクション７７０、送信／受信セクション７８０、感知セクション７８５、および混合セクション７９０を含む。

導波路構造はまた、光スプリッタ７９２と、光スプリッタ７９４と、光スプリッタ７９６とを含み、レーザ増幅器も含み得る。光スプリッタ７９４は、放射セクション７６０からの光の一部をＫクロックに分岐する。光スプリッタ７９４は、放射セクション７６０からの光の一部（例えば、５０％）を送信／受信セクション７８０に分離し、放射セクション７６０からの光の残りの一部（例えば、残りの５０％）を基準セクション７７０に分離する。いくつかの実施形態では、光パワーの他の一部は、基準セクション７７０よりも送信／受信セクション７８０に分割される。なお、光スプリッタ７９２は、送信／受信セクション７８０から反対方向に進行する光（すなわち、光学アンテナ７４０から結合された光）の一部（例えば、５０％）も感知セクション７８５に分岐する。光スプリッタ７９６は、感知セクション７８５からの光の第１の部分（例えば、５０％）および基準セクション７７０からの光の第１の部分（例えば、５０％）を混合セクション７９０の第１の導波路に結合し、感知セクション７８５および基準セクション７７０の両方における光の残りの部分を混合セクション７９０の第２のチャネルに結合する。光学マイクロフォン７００は、光を増幅する１つまたは複数の光増幅器を含んでもよい。たとえば、光学アンテナ７４０によって出力される前の光を増幅し、および／または光学アンテナ７４０によって結合された光を増幅するように配置されてもよい。

光源７１０（例えば、波長可変レーザ源）は、導波路構造７３０の放射セクション７６０に結合される光を発する。光スプリッタ７９４は、放射セクション７６０からの光の一部を分割し、その後Ｋクロックに結合される。Ｋクロックは、出力波長が直線的に掃引されるように光源７１０を同期させ、それにより、検出器７２０によって検出された混合信号を処理してデジタル信号に変換するアナログデジタル変換器（図示せず、ただし、その機能はオーディオコントローラによって実行されてもよい）における波数の間隔が等しくなる。残りの光は、放射セクション７６０によって光スプリッタ７９２に透過される。光スプリッタ７９２は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを基準セクション７７０に供給し、感知ビームを送信／受信セクション７８０に供給する。送信／受信セクション７８０は、感知ビームを、光をローカルエリアにアウトカップリングする光学アンテナ７４０に導く（たとえば、ユーザの皮膚を照らすために）。いくつかの実施形態では、光は、光学アンテナ７４０によって発せられる前に光増幅器を使用して増幅されてもよいことに留意されたい。

感知ビームの一部は、ユーザの皮膚によって反射および／または散乱され、光学アンテナ７４０を介して送信受信セクション７８０に結合される。送信／受信セクション７８０は、光スプリッタ７９２に入射光を導く。光スプリッタ７９２は、光の一部を感知セクション７８５に分割する。感知セクション７８５は、光を光スプリッタ７９６に導く。いくつかの実施形態では、光は、光スプリッタ７９６に送られる前に光増幅器を使用して増幅されてもよいことに留意されたい。光スプリッタ７９６は、感知セクション７８５からの光の第１の部分（例えば、５０％）および基準セクション７７０からの光の第１の部分（例えば、５０％）を混合セクション７９０の第１の導波路に結合し、感知セクション７８５および基準セクション７７０の両方における光の残りの部分を混合セクション７９０の第２のチャネルに結合する。検出器７２０は、混合ビームを受信し、一対の平衡光検出器を介して対応する混合信号を検出する。

オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。ＯＣＴ構成では、検出された干渉パターン（混合信号として表される）は、波長／波数の関数であり、フリンジ周波数が皮膚の深さに対応するとともにその振幅が皮膚の反射率に対応する、ビーム軸に沿った皮膚の軸方向プロファイルを提供する。ＯＣＴには様々な形態があり、他の実施形態では、光学マイクロフォン７００は、これらの他の形態のうちの一方（例えば、位相感受性ＯＣＴ）で動作するように構成されてもよいことに留意されたい。

図８は、１つまたは複数の実施形態に係る、干渉形態において光学接触トランスデューサを使用するためのプロセスを示すフローチャートである。図８に示されるプロセスは、オーディオシステム（たとえば、オーディオシステム２００）の構成要素によって実施され得る。他のエンティティが、他の実施形態において図８中のステップの一部または全部を実施し得る。実施形態は、異なるおよび／または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。

オーディオシステムは、光学マイクロフォンの光源から、基準ビームおよび感知ビームを含む光を発する（８１０）。光学マイクロフォンは、光学マイクロフォン１４５の一実施形態であり、図３、図４、図５Ａ、図５Ｂ、および図５Ｃに関連して前述したように構成することができる。光学マイクロフォンは、ヘッドセットに組み込まれてもよい。発せられた光は連続波であり、その駆動電流は変調され得る（たとえば、１０ｋＨｚ）。光学マイクロフォンは、オーディオシステムのローカルエリア内の音（たとえば、ユーザの音声、他人、ノイズ源など）によって引き起こされるユーザの皮膚の振動を監視するように配置される。

オーディオシステムは、感知ビームをユーザの皮膚（たとえば、顔の１つまたは複数の異なる部分または同じ部分）に照射する（８２０）。たとえば、感知ビームは、ユーザの皮膚を照らすために光学マイクロフォンの光学素子を介して屈折されてもよい。

感知ビームの一部は、ユーザの皮膚から散乱および／または反射して、検出器で基準ビームと混合して混合ビームを形成する。

オーディオシステムは、光源との干渉形態にある検出器を介して、混合信号（検出された混合ビーム）を検出する（８３０）。干渉形態は、光源および検出器が干渉計システム（たとえば、自己混合干渉計、マイケルソン干渉計、ＯＣＴ、ＬＤＶなど）を形成するようなものである。

オーディオシステムは、混合信号を使用してローカルエリア内の音を測定する（８４０）。検出された混合信号は、動的高周波成分と変調成分とを含む。動的高周波成分は、皮膚の照射部分と検出器との間の距離の関数として変化する（周波数のシフト）。振動測定の振幅は、たとえば、５０ｎｍ（例えば、ユーザのささやき）～１．５ミクロン（例えば、ユーザの呼びかけ）であってもよいことに留意されたい。したがって、ローカルエリアの音に起因する皮膚の振動は、動的高周波成分の変化をもたらす。オーディオシステムは、動的高周波成分から、ユーザの皮膚の振動を引き起こしたであろう対応する音を推測することによって音を測定する（６４０）。さらに、音によって引き起こされるユーザの皮膚の振動は、たとえば、ユーザの動き（たとえば、歩行、走行）によって引き起こされる振動とははるかに異なる周波数にあるので、オーディオシステムは、ローカルエリアからの音に対応する動的高周波成分の部分を分離および／または除去することができる。

いくつかの実施形態では、測定された音はユーザの音声を含み、音声の高周波成分は音声の低周波に対して減衰される。オーディオシステムは、たとえば、行列因子分解ベースの帯域幅拡張、ニューラルネットワークベースのオーディオ超分解能などを介して音声の高周波成分を再構築することができる。オーディオシステムは、次に、再構築された高周波成分を用いて音声の測定された音を更新することができる。

オーディオシステムは、光学マイクロフォンによって測定された音に部分的に基づいて様々なアクションを実行することができる。また、実施形態では、オーディオシステムは、マイクロフォンアレイ、マイクロフォンアレイによって検出された音、またはそれらの何らかの組合せも含む。アクションは、たとえば、ユーザの音声を強化すること、音声アクティビティ検出（ＶＡＤ）のために１つまたは複数の光学マイクロフォンを使用すること、アクティブノイズキャンセリングを実行することなどを含むことができる。

図９は、１つまたは複数の実施形態に係る、ヘッドセット９０５を含むシステム９００である。いくつかの実施形態において、ヘッドセット９０５は、図１Ａのヘッドセット１００または図１Ｂのヘッドセット１０５であり得る。システム９００は、人工現実環境（たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ）において動作し得る。図９によって示されるシステム９００は、ヘッドセット９０５と、コンソール９１５に結合される入力／出力（Ｉ／Ｏ）インターフェース９１０と、ネットワーク９２０と、マッピングサーバ９２５とを含む。図９は、１つのヘッドセット９０５と１つのＩ／Ｏインターフェース９１０とを含む例示的なシステム９００を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム９００中に含まれ得る。たとえば、各々が関連するＩ／Ｏインターフェース９１０を有する複数のヘッドセットがあってもよく、各ヘッドセットおよびＩ／Ｏインターフェース９１０はコンソール９１５と通信する。代替構成では、異なるおよび／または追加の構成要素がシステム９００中に含まれ得る。さらに、図９に示される構成要素のうちの１つまたは複数に関して説明される機能性は、いくつかの実施形態では、図９に関して説明されるものとは異なる様式で構成要素間で分散され得る。たとえば、コンソール９１５の機能性の一部または全部がヘッドセット９０５によって提供され得る。

ヘッドセット９０５は、ディスプレイアセンブリ９３０と、光学ブロック９３５と、１つまたは複数の位置センサー９９０と、ＤＣＡ９４５とを含む。ヘッドセット９０５のいくつかの実施形態は、図９に関して説明されるものとは異なる構成要素を有する。さらに、図９に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット９０５の構成要素間で異なって分散されるか、またはヘッドセット９０５から離れた別個のアセンブリにおいて検出され得る。

ディスプレイアセンブリ９３０は、コンソール９１５から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ９３０は、１つまたは複数のディスプレイ要素（たとえば、ディスプレイ要素１２０）を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ９３０は、単一のディスプレイ要素または複数のディスプレイ要素（たとえば、ユーザの各眼のためのディスプレイ）を備える。電子ディスプレイの例としては、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せが挙げられる。いくつかの実施形態では、ディスプレイ要素１２０は光学ブロック９３５の機能性の一部または全部をも含み得ることに留意されたい。

光学ブロック９３５は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット９０５の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック９３５は、１つまたは複数の光学素子を含む。光学ブロック９３５中に含まれる例示的な光学素子は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学素子を含む。その上、光学ブロック９３５は、異なる光学素子の組合せを含み得る。いくつかの実施形態では、光学ブロック９３５中の光学素子のうちの１つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、１つまたは複数のコーティングを有し得る。

光学ブロック９３５による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて（たとえば、対角約１１０度）、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。

いくつかの実施形態では、光学ブロック９３５は、１つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック９３５が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック９３５はそのひずみを補正する。

位置センサー９４０は、ヘッドセット９０５の位置を示すデータを生成する電子デバイスである。位置センサー９４０は、ヘッドセット９０５の動作に応答して１つまたは複数の測定信号を生成する。位置センサー１９０は、位置センサー９４０の一実施形態である。位置センサー９４０の例は、１つまたは複数のＩＭＵ、１つまたは複数の加速度計、１つまたは複数のジャイロスコープ、１つまたは複数の磁力計、動作を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー９４０は、並進動作（前／後、上／下、左／右）を測定するための複数の加速度計と、回転動作（たとえば、ピッチ、ヨー、ロール）を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、ＩＭＵは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット９０５の推定位置を計算する。たとえば、ＩＭＵは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット９０５上の基準点の推定位置を決定する。基準点は、ヘッドセット９０５の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット９０５内の点として定義される。

ＤＣＡ９４５はローカルエリアの一部分についての深度情報を生成する。ＤＣＡは、１つまたは複数のイメージングデバイスとＤＣＡコントローラとを含む。ＤＣＡ９４５は照明器をも含み得る。ＤＣＡ９４５の動作および構造は、図１Ａに関して上記で説明された。

オーディオシステム９５０は、ヘッドセット９０５のユーザにオーディオコンテンツを提供する。オーディオシステム９５０は、上記で説明するオーディオシステム２００と実質的に同じである。オーディオシステム９５０は、１つまたは複数の音響センサー（例えば、センサーアレイの一部として）と、１つまたは複数のトランスデューサ（たとえば、トランスデューサアレイの一部として）と、１つまたは複数の光学マイクロフォンと、オーディオコントローラとを備えてもよい。たとえば、図１～図６に関して前述したように、１つまたは複数の光学マイクロフォンからの出力信号は、オーディオシステム９５０が低音響ＳＮＲ環境において良好に機能することを容易にする。いくつかの実施形態では、１つまたは複数の光学マイクロフォンからの出力信号を使用して、たとえば、センサーアレイを較正し、アクティブノイズキャンセル、ＶＡＤなどに使用することができる。オーディオシステム９５０は、空間化されたオーディオコンテンツをユーザに提供することができる。いくつかの実施形態において、オーディオシステム９５０は、ネットワーク９２０を介してマッピングサーバ９２５に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの１つまたは複数の音響プロパティ（たとえば、室内インパルス応答、残響時間、残響レベルなど）を表す。オーディオシステム９５０は、たとえば、ＤＣＡ９４５からのローカルエリアの少なくとも一部分を表す情報、および／または位置センサー９４０からのヘッドセット９０５についての位置情報を提供し得る。オーディオシステム９５０は、マッピングサーバ９２５から受信された音響パラメータの１つまたは複数を使用して、１つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。

Ｉ／Ｏインターフェース９１０は、ユーザがアクション要求を送り、コンソール９１５から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行するための要求である。たとえば、アクション要求は、画像データまたはビデオデータの検出を開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であってもよい。Ｉ／Ｏインターフェース９１０は、１つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール９１５に通信するための任意の他の好適なデバイスを含む。Ｉ／Ｏインターフェース９１０によって受信されたアクション要求は、コンソール９１５に通信され、コンソール９１５は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、Ｉ／Ｏインターフェース９１０は、Ｉ／Ｏインターフェース９１０の初期位置に対するＩ／Ｏインターフェース９１０の推定位置を示す較正データを検出するＩＭＵを含む。いくつかの実施形態では、Ｉ／Ｏインターフェース９１０は、コンソール９１５から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール９１５がアクションを実施するときに、コンソール９１５が、Ｉ／Ｏインターフェース９１０に命令を通信して、Ｉ／Ｏインターフェース９１０が触覚フィードバックを生成することを引き起こす。

コンソール９１５は、ＤＣＡ９４５、ヘッドセット９０５、およびＩ／Ｏインターフェース９１０のうちの１つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット９０５に与える。図９に示される例において、コンソール９１５は、アプリケーションストア９５５と、追跡モジュール９６０と、エンジン９６５とを含む。コンソール９１５のいくつかの実施形態は、図９に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図９に関して説明されるものとは異なる様式でコンソール９１５の構成要素間で分散され得る。いくつかの実施形態では、コンソール９１５に関して本明細書で説明される機能性は、ヘッドセット９０５、またはリモートシステムにおいて実装され得る。

アプリケーションストア９５５は、コンソール９１５が実行するための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット９０５またはＩ／Ｏインターフェース９１０の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例としては、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の適したアプリケーションが挙げられる。

追跡モジュール９６０は、ＤＣＡ９４５、１つまたは複数の位置センサー９４０、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット９０５またはＩ／Ｏインターフェース９１０の動きを追跡する。たとえば、追跡モジュール９６０は、ヘッドセット９０５からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット９０５の基準点の位置を決定する。追跡モジュール９６０は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール９６０は、ヘッドセット９０５の将来の位置を予測するために、位置センサー９４０からのヘッドセット９０５の位置を示すデータの部分ならびにＤＣＡ９４５からのローカルエリアの表現を使用し得る。追跡モジュール９６０は、ヘッドセット９０５またはＩ／Ｏインターフェース９１０の推定または予測された将来の位置をエンジン９６５に提供する。

エンジン９６５は、アプリケーションを実行し、追跡モジュール９６０から、ヘッドセット９０５の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン９６５は、ユーザへの提示のためにヘッドセット９０５に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン９６５は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット９０５のためのコンテンツを生成する。さらに、エンジン９６５は、Ｉ／Ｏインターフェース９１０から受信されたアクション要求に応答して、コンソール９１５上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット９０５を介した視覚または可聴フィードバック、あるいはＩ／Ｏインターフェース９１０を介した触覚フィードバックであり得る。

ネットワーク９２０は、ヘッドセット９０５および／またはコンソール９１５をマッピングサーバ９２５に結合する。ネットワーク９２０は、ワイヤレス通信システムおよび／またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク９２０は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク９２０は、標準通信技術および／またはプロトコルを使用する。したがって、ネットワーク９２０は、イーサネット、８０２．１１、ワールドワイド・インタオペラビリティ・フォー・マイクロウェーブ・アクセス（ＷｉＭＡＸ）、２Ｇ／３Ｇ／９Ｇモバイル通信プロトコル、デジタル加入者回線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩエクスプレス高度スイッチングなどの技術を使用するリンクを含むことができる。同様に、ネットワーク９２０上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク９２０を介して交換されるデータは、バイナリ形式（たとえば、ポータブルネットワークグラフィックス（ＰＮＧ））、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などの画像データを含む技術および／またはフォーマットを使用して表すことができる。さらに、リンクの全部または一部は、セキュアレイヤソケット（ＳＳＬ）、トランスポート層セキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）などの従来の暗号化を使用して暗号化することができる。

マッピングサーバ９２５は、複数の空間を表す仮想モデルを記憶するデータベースを含んでもよく、仮想モデル中の１つの位置は、ヘッドセット９０５のローカルエリアの現在の構成に対応する。マッピングサーバ９２５は、ヘッドセット９０５からネットワーク９２０を介して、ローカルエリアおよび／またはローカルエリアについての位置情報の少なくとも一部分を表す情報を受信する。ユーザは、ヘッドセット９０５が情報をマッピングサーバ９２５に送信するのを可能にするまたは防ぐようにプライバシー設定を調整し得る。マッピングサーバ９２５は、受信された情報および／または位置情報に基づいて、ヘッドセット９０５のローカルエリアに関連する仮想モデル中の位置を決定する。マッピングサーバ９２５は、仮想モデル中の決定された位置および決定された位置に関連する任意の音響パラメータに部分的に基づいて、ローカルエリアに関連する１つまたは複数の音響パラメータを決定する（たとえば、取り出す）。マッピングサーバ９２５は、ローカルエリアの位置およびローカルエリアに関連する音響パラメータの任意の値をヘッドセット９０５に送信し得る。

システム９００の１つまたは複数の構成要素は、ユーザデータ要素についての１つまたは複数のプライバシー設定を記憶するプライバシーモジュールを含んでいることがある。ユーザデータ要素は、ユーザまたはヘッドセット９０５を表す。たとえば、ユーザデータ要素は、ユーザの物理的特性、ユーザによって実行されたアクション、ヘッドセット９０５のユーザの位置、ヘッドセット９０５の位置、ユーザのＨＲＴＦなどを表すことができる。ユーザデータ要素におけるプライバシー設定（または「アクセス設定」）は、たとえば、ユーザデータ要素に関連して、認証サーバ上のインデックス内に、別の適切な様式で、またはそれらの任意の適切な組合せなど、任意の適切な様式で記憶され得る。

ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素（またはユーザデータ要素に関連付けられた特定の情報）がどのようにアクセスされ、記憶され、または場合によっては使用され（たとえば、観察、共有、修正、コピー、実行、表面化、または識別され）得るかを指定する。いくつかの実施形態では、ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素に関連付けられたある情報にアクセスしてはいけないエンティティの「ブロックリスト（ｂｌｏｃｋｅｄｌｉｓｔ）」を指定し得る。ユーザデータ要素に関連付けられたプライバシー設定は、許諾されるアクセスまたはアクセスの拒否の任意の好適なグラニュラリティを指定し得る。たとえば、一部のエンティティは、特定のユーザデータ要素が存在することを確かめるための許諾を有し得、一部のエンティティは、特定のユーザデータ要素のコンテンツを観察するための許諾を有し得、一部のエンティティは、特定のユーザデータ要素を修正するための許諾を有し得る。プライバシー設定は、他のエンティティが、有限時間期間の間、ユーザデータ要素にアクセスするかまたはユーザデータ要素を記憶することを可能にすることを、ユーザが可能にし得る。

プライバシー設定は、ユーザデータ要素がアクセスされ得る１つまたは複数の地理的ロケーションを、ユーザが指定することを可能にし得る。ユーザデータ要素へのアクセスまたはアクセスの拒否は、ユーザデータ要素にアクセスすることを試みているエンティティの地理的ロケーションに依存し得る。たとえば、ユーザは、ユーザデータ要素へのアクセスを可能にし、ユーザが特定のロケーションにいる間のみ、ユーザデータ要素がエンティティにとってアクセス可能であることを指定し得る。ユーザが特定のロケーションを離れた場合、ユーザデータ要素はエンティティにとって、もはやアクセス可能でないことがある。別の例として、ユーザは、ユーザデータ要素が、ユーザと同じローカルエリア内のヘッドセットの別のユーザなど、ユーザからしきい値距離内のエンティティのみにとってアクセス可能であることを指定し得る。その後、ユーザがロケーションを変更した場合、ユーザデータ要素へのアクセスをもつエンティティはアクセスを失い得るが、エンティティの新しいグループが、ユーザのしきい値距離内に自身が入るので、アクセスを獲得し得る。

システム９００は、プライバシー設定を施行するための１つまたは複数の許可／プライバシーサーバを含み得る。特定のユーザデータ要素についてのエンティティからの要求が、要求に関連付けられたエンティティを識別し得、ユーザデータ要素は、ユーザデータ要素に関連付けられたプライバシー設定に基づいてエンティティがユーザデータ要素にアクセスすることを許可されると許可サーバが決定した場合、そのエンティティのみに送られ得る。要求元エンティティがユーザデータ要素にアクセスすることを許可されない場合、許可サーバは、要求されたユーザデータ要素が取り出されるのを防ぎ得るか、または要求されたユーザデータ要素がエンティティに送られるのを防ぎ得る。本開示は、特定の様式でプライバシー設定を施行することについて説明するが、本開示は、任意の好適な様式でプライバシー設定を施行することを企図する。

追加の構成情報
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して多くの修正および変形が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、それはまた、一般性を失うことなく、動作のこれらの配置をモジュールとして参照するために、時には便利であることが証明されている。記載された動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現化される場合がある。

本明細書で説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、いずれかまたはすべての説明されるステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。

実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および／あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、またはコンピュータシステムバスに結合され得る、電子命令を記憶することに適した任意のタイプの媒体に記憶される場合がある。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。

実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、詳細な説明に基づく適用例に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。

Claims

光学マイクロフォンであって、
基準ビームおよび感知ビームを含む光を発するように構成されるとともに、前記感知ビームをユーザの皮膚に照射するように構成され、ローカルエリアからの音が前記皮膚に振動を引き起こす、光源と、
検出器であって、該検出器が混合信号を検出するべく構成されるように前記光源との干渉形態にあり、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、検出器と、を備える光学マイクロフォン、および
前記混合信号を用いて前記音を測定するように構成されたオーディオコントローラ、
を備える、オーディオシステム。
前記干渉形態は、前記光源および前記検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも１つを形成するような形態である、請求項１に記載のオーディオシステム。
前記光源が前記検出器と当接し、前記光学マイクロフォンは、
前記光源に結合されるレンズであって、
前記光源から発せられた光を前記基準ビームと前記感知ビームとに分割し、
前記感知ビームを皮膚に方向付けるとともに前記基準ビームを前記検出器に向けて反射する、
ように構成される、レンズ、
をさらに備える、請求項１に記載のオーディオシステム。
第２の光学マイクロフォンをさらに備え、該第２の光学マイクロフォンは、
第２の基準ビームおよび第２の感知ビームを含む光を発するように構成されるとともに、前記感知ビームを前記ユーザの皮膚を照射するように構成される第２の光源と、
第２の検出器であって、該第２の検出器が第２の混合信号を検出するべく構成されるように前記第２の光源との干渉形態にあり、前記第２の混合信号が、前記皮膚によって反射される前記第２の感知ビームの一部と混合される前記第２の基準ビームに対応する、第２の検出器と、
第１の側面および第２の側面を含み、前記第１の側面が前記光学マイクロフォンに結合され、前記第２の側面が前記第２の光学マイクロフォンに結合されるブロックと、
前記光源、前記ブロック、および前記第２の光源に結合されるレンズであって、
前記光源から発せられた光を前記基準ビームと前記感知ビームとに分割し、前記第２の光源から発せられた光を前記第２の基準ビームと前記第２の感知ビームとに分割し、
前記感知ビームおよび前記第２の感知ビームを前記皮膚へ方向付け、
前記基準ビームを前記検出器に向けて反射し、
前記第２の基準ビームを前記第２の検出器に向けて反射する、
ように構成される、レンズと、
を備える、請求項１に記載のオーディオシステム。
前記検出器および前記光源は、しきい値距離だけ互いから離される、請求項１に記載のオーディオシステム。
前記光学マイクロフォンが鼻パッドを含むヘッドセット上にあり、前記光学マイクロフォンが前記鼻パッドに組み込まれ、前記光源は、前記感知ビームを前記ユーザの鼻の皮膚に照射するように構成される、請求項１に記載のオーディオシステム。
前記光学マイクロフォンがフレームを含むヘッドセット上にあり、前記光学マイクロフォンが前記フレームに組み込まれ、前記光源は、前記感知ビームを前記ユーザの顔の皮膚に照射するように構成され、任意選択的に、前記オーディオシステムは、前記第１の光学マイクロフォンとは異なる前記フレーム上の位置に組み込まれる第２の光学マイクロフォンをさらに備え、前記第２の光学マイクロフォンは、前記光学マイクロフォンとは異なる前記ユーザの顔の皮膚の部分に第２の感知ビームを照射するように構成される、請求項１に記載のオーディオシステム。
前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイであって、前記ローカルエリアからの音を検出するように構成される、マイクロフォンアレイ、
をさらに備え、
前記オーディオコントローラは、検出された音を使用して前記光学マイクロフォンを較正するようにさらに構成される、請求項１に記載のオーディオシステム。
前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイであって、前記ローカルエリアからの音を検出するように構成される、マイクロフォンアレイ、
をさらに備え、
前記オーディオコントローラは、検出された音に部分的に基づいて前記測定された音を強調するようにさらに構成される、請求項１に記載のオーディオシステム。
前記オーディオコントローラは、前記測定された音に部分的に基づいて前記ユーザの顔の表情を決定するようにさらに構成される、請求項１に記載のオーディオシステム。
前記光学マイクロフォンがヘッドセット上にあり、前記オーディオコントローラは、
前記測定された音のノイズを識別し、
前記識別されたノイズを抑制するための音フィルタを生成し、
オーディオコンテンツに対応するオーディオ信号を修正するために前記音フィルタを適用する、
ようにさらに構成され、
前記オーディオシステムは、
前記ヘッドセットに組み込まれるトランスデューサアレイをさらに備え、前記トランスデューサアレイは、前記修正されたオーディオ信号を修正されたオーディオコンテンツとして前記ユーザに提示するように構成され、前記修正されたオーディオコンテンツは、前記オーディオコンテンツと、前記ノイズを抑制する抑制コンポーネントとを含む、
請求項１に記載のオーディオシステム。
前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイをさらに備え、前記マイクロフォンアレイは、前記ローカルエリアからの音を検出するように構成され、前記ローカルエリアからの音が前記オーディオシステムのユーザの音声を含み、
前記オーディオコントローラは、
前記測定された音を使用して検出された音における前記ユーザの音声を識別し、
前記識別されたユーザの音声に基づいて音フィルタを更新する、
ようにさらに構成され、
前記更新された音フィルタを使用してオーディオコンテンツが修正され、前記修正されたオーディオコンテンツが少なくとも１つのオーディオシステムによって提示される、
請求項１に記載のオーディオシステム。
前記更新された音フィルタが前記ユーザの音声を強調し、前記オーディオコントローラは、
前記更新されたフィルタを用いて前記オーディオコンテンツを修正することであって、前記修正されたオーディオコンテンツが前記ユーザの音声を強調する、前記オーディオコンテンツを修正することと、
第２のオーディオシステムに前記修正されたオーディオコンテンツを提供することであって、前記第２のオーディオシステムが前記修正されたオーディオコンテンツを提示する、前記修正されたオーディオコンテンツを提供することと、
を行うようにさらに構成される、請求項１２に記載のオーディオシステム。
前記更新された音フィルタが前記ユーザの音声を強調し、前記オーディオコントローラは、
前記更新されたフィルタを用いて前記オーディオコンテンツを修正することであって、前記修正されたオーディオコンテンツが前記ユーザの音声を強調する、前記オーディオコンテンツを修正することと、
前記修正されたオーディオコンテンツがコマンドを含むと決定することと、
前記コマンドに従ってアクションを実行することと、
を行うようにさらに構成される、請求項１２に記載のオーディオシステム。
光学マイクロフォンの光源から光を発することであって、前記光が基準ビームおよび感知ビームを含む、光を発することと、
ユーザの皮膚に前記感知ビームを照射することであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、前記感知ビームを照射することと、
前記光源との干渉形態にある検出器を介して、混合信号を検出することであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、混合信号を検出すること、
前記混合信号を使用して前記音を測定することと、
を含む方法。
前記皮膚の振動は、前記ユーザの音声によって部分的に引き起こされ、前記方法は、
マイクロフォンアレイを介して、前記ローカルエリアからの音を検出することと、
前記測定された音を使用して検出された音における前記ユーザの音声を識別することと、
前記識別されたユーザの音声に基づいて音フィルタを更新することと、
をさらに含み、
前記更新された音フィルタを使用してオーディオコンテンツが修正され、前記修正されたオーディオコンテンツが少なくとも１つのオーディオシステムによって提示される、
請求項１５に記載の方法。
前記干渉形態は、前記光源および前記検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも１つを形成するような形態である、請求項１５に記載の方法。
前記測定された音がユーザの音声を含み、前記音声の高周波成分は、前記音声の低周波に対して減衰され、前記方法は、
前記音声の高周波成分を再構成することと、
前記再構成された高周波成分を用いて前記音声の前記測定された音を更新することと、
をさらに含む、請求項１５に記載の方法。
プログラムコード命令を記憶するように構成される非一時的コンピュータ可読媒体であって、前記プログラムコード命令は、オーディオシステムのプロセッサによって実行されるときに、前記オーディオシステムに請求項１５から１８のいずれか一項に記載の方法、またはステップであって、
光学マイクロフォンの光源から光を発するステップであって、前記光が基準ビームおよび感知ビームを含む、ステップと、
ユーザの皮膚に前記感知ビームを照射するステップであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、ステップと、
前記光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、ステップと、
前記混合信号を使用して前記音を測定するステップと、
を含むステップを実行させる、非一時的コンピュータ可読媒体。
命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがオーディオシステムのプロセッサによって実行されるときに、前記オーディオシステムに請求項１５から１８のいずれか一項に記載の方法、またはステップであって、
光学マイクロフォンの光源から光を発するステップであって、前記光が基準ビームおよび感知ビームを含む、ステップと、
ユーザの皮膚に前記感知ビームを照射するステップであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、ステップと、
前記光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、ステップと、
前記混合信号を使用して前記音を測定するステップと、
を含むステップを実行させる、コンピュータプログラム。