JP2022546161A - 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること - Google Patents

個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること Download PDF

Info

Publication number
JP2022546161A
JP2022546161A JP2021573611A JP2021573611A JP2022546161A JP 2022546161 A JP2022546161 A JP 2022546161A JP 2021573611 A JP2021573611 A JP 2021573611A JP 2021573611 A JP2021573611 A JP 2021573611A JP 2022546161 A JP2022546161 A JP 2022546161A
Authority
JP
Japan
Prior art keywords
ear
user
audio
transfer function
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021573611A
Other languages
English (en)
Inventor
ジェイコブ ライアン ドンリー,
ファウンデス, パブロ フランシスコ ホフマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of JP2022546161A publication Critical patent/JP2022546161A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

オーディオシステムが、ユーザのために個別に較正される、空間化されたオーディオコンテンツをユーザに提示する。オーディオシステムはユーザに音を提示し、その音がユーザの耳から反射する。オーディオシステムの音響センサーのアレイが、提示された音からオーディオデータを生成する。オーディオシステムは、ビームフォーミングされた信号を生成するために、耳のそれぞれの部分を各々ポイントするビームフォーマを使用してオーディオデータを処理する。オーディオシステムは、ビームフォーミングされた信号を使用して、ユーザの耳からの反射によって引き起こされる音の変化を定義する伝達関数を決定する。オーディオシステムは、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成する。【選択図】図4

Description

本開示は、一般に、個人ユーザのための空間化されたオーディオコンテンツを生成することに関する。
空間化されたオーディオコンテンツは、ユーザの耳の形状および他の音響特性に基づいて、異なるユーザでは異なって聞こえ得る。各耳に対して、音源からの音は、耳道に到来する前に、耳の耳殻(pinna)からの反射を介して変化させられる。耳に到来する音をキャプチャするために耳に置かれたマイクロフォンを使用し、各耳が音をどのように変化させるかについてフィルタを算出して、ユーザの耳による音の変化(transformation)を考慮するオーディオコンテンツをカスタマイズすることが可能である。しかしながら、バイノーラルマイクロフォンは、ユーザの正常な聴覚を損ない、ユーザがユーザの周囲に気づくことを制限し得る。さらに、バイノーラルマイクロフォンは、社会的に許容できず、審美的に魅力に欠けることがある。
したがって、本発明は、添付の特許請求の範囲による、空間化されたオーディオコンテンツを提示するための方法、システム、および空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体を開示する。
実施形態は、ユーザの耳から遠くに位置する音響センサーのセンサーアレイによってキャプチャされるオーディオデータに基づいてユーザのために個別化された、空間化されたオーディオコンテンツを生成することに関する。いくつかの実施形態は、耳のためのオーディオコンテンツを生成するための方法を含む。方法は、音響センサーによって受信される1つまたは複数の音からオーディオデータを生成するセンサーアレイの音響センサーを含む。オーディオデータは、ビームフォーミングされた信号を生成するために、ユーザの耳のそれぞれの部分(たとえば、耳の耳殻上の別のロケーション)を各々ポイントするビームフォーマを使用して処理される。耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数が、ビームフォーミングされた信号を使用して決定される。耳のための空間化されたオーディオコンテンツが、伝達関数を使用して生成される。たとえば、アトジイヤ等化フィルタ(at-the-ear equalization filter)が伝達関数を使用して決定され得、空間化されたオーディオコンテンツは、アトジイヤ等化フィルタを使用して耳のためのオーディオコンテンツを変化させることによって生成され得る。同様のプロセスが、ユーザのために個別化された、左耳と右耳の両方のための空間化されたオーディオコンテンツを生成するために、ユーザの他方の耳について実施され得る。
いくつかの実施形態は、センサーアレイとオーディオコントローラとを含むオーディオシステムを含む。センサーアレイは、音響センサーによって受信される1つまたは複数の音からオーディオデータを生成するように構成された音響センサーを含む。オーディオコントローラは、音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成し、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする。オーディオコントローラは、ビームフォーミングされた信号を使用して耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定し、伝達関数を使用して耳のためのオーディオコンテンツを生成する。
本発明は、センサーアレイの音響センサーによって、音響センサーによって受信される1つまたは複数の音からオーディオデータを生成することと、ビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを含む方法を対象とする。
本発明による方法の一実施形態では、伝達関数に基づいて、空間化されたオーディオコンテンツを生成することは、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してユーザのためにオーディオコンテンツを調整することとを含み得る。
本発明による方法の別の実施形態では、アトジイヤ等化フィルタを決定することは、基準アトジイヤ等化フィルタのデータベースを参照することを含み得る。
本発明による方法のまた別の実施形態では、アトジイヤ等化フィルタを決定することは、伝達関数をユーザのために較正されたフィルタに相関させることを含み得る。
本発明による方法のさらなる実施形態では、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することは、センサーアレイの音響センサーによって、耳の部分からの反射なしに音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーマを使用して他のオーディオデータを処理することによって較正信号を生成することと、ビームフォーミングされた信号および較正信号を使用して伝達関数を決定することとを含み得る。
本発明による方法の別の実施形態では、センサーアレイの少なくとも1つの音響センサーが、ユーザの耳の耳道の入口に配置され得、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することは、センサーアレイの少なくとも1つの音響センサーによって、少なくとも1つの音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーミングされた信号および他のオーディオデータを使用して伝達関数を決定することとを含み得る。
本発明による方法のまた別の実施形態では、ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。
本発明による方法のさらなる実施形態では、本方法は、音響センサーによって受信される1つまたは複数の音を、少なくとも1つのトランスデューサによって生成することをさらに含み得る。
本発明による方法の別の実施形態では、各ビームフォーマは耳の耳殻の別の部分をポイントし得る。
本発明による方法のまた別の実施形態では、本方法は、耳の第1の部分をポイントする、ビームフォーマの第1のビームフォーマを生成することと、1つまたは複数の音のうちの第1の音から、センサーアレイの音響センサーによってオーディオコンテンツの第1のオーディオデータを生成することと、ビームフォーミングされた信号の第1のビームフォーミングされた信号を生成するために第1のビームフォーマを使用して第1のオーディオデータを処理することとをさらに含み得る。
本発明は、音響センサーを含むセンサーアレイであって、音響センサーが、音響センサーによって受信される1つまたは複数の音からオーディオデータを生成するように構成された、センサーアレイと、センサーアレイの音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを行うように構成されたオーディオコントローラとを備える、オーディオシステムをさらに開示する。
本発明によるシステムの一実施形態では、オーディオコントローラは、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してオーディオコンテンツを調整することとを行うようにさらに構成され得る。
本発明によるシステムの別の実施形態では、オーディオコントローラは、基準アトジイヤ等化フィルタのデータベースを参照するようにさらに構成され得る。
本発明によるシステムのまた別の実施形態では、オーディオコントローラは、伝達関数をユーザのために較正されたフィルタに相関させるようにさらに構成され得る。
本発明によるシステムのさらなる実施形態では、オーディオコントローラは、センサーアレイの音響センサーによって、耳の部分からの反射なしに音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーマを使用して他のオーディオデータを処理することによって較正信号を生成することと、ビームフォーミングされた信号および較正信号を使用して伝達関数を決定することとを行うようにさらに構成され得る。
本発明によるシステムの別の実施形態では、センサーアレイの少なくとも1つの音響センサーが、ユーザの耳の耳道の入口に配置され得、オーディオコントローラは、センサーアレイの少なくとも1つの音響センサーによって、少なくとも1つの音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、ビームフォーミングされた信号および他のオーディオデータを使用して伝達関数を決定することとを行うようにさらに構成され得る。
本発明によるシステムのまた別の実施形態では、ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。
本発明によるシステムのさらなる実施形態では、各ビームフォーマは耳の耳殻の別の部分をポイントし得る。
本発明は、空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体であって、命令が、プロセッサによって実行されたとき、プロセッサに、センサーアレイの音響センサーによって、音響センサーによって受信される1つまたは複数の音からオーディオデータを生成することと、ビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、ビームフォーミングされた信号を使用して、耳の部分からの反射によって引き起こされる音の変化を定義する伝達関数を決定することと、伝達関数に基づいて耳のための空間化されたオーディオコンテンツを生成することとを含むステップを実施させる、コンピュータ可読非一時的記憶媒体をさらに開示する。
本発明によるコンピュータ可読非一時的記憶媒体の一実施形態では、命令は、プロセッサに、伝達関数に基づいてアトジイヤ等化フィルタを決定することと、アトジイヤ等化フィルタを使用してユーザのためにオーディオコンテンツを調整することとを含むステップをさらに実施させる。
1つまたは複数の実施形態による、ヘッドセットの斜視図である。 1つまたは複数の実施形態による、ヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。 1つまたは複数の実施形態による、耳の部分上の反射ポイントを示すユーザの耳の断面図である。 1つまたは複数の実施形態による、例示的なオーディオシステムのブロック図である。 1つまたは複数の実施形態による、ユーザの耳のために個別化された、空間化されたオーディオコンテンツを作り出すためのプロセスのフローチャートである。 1つまたは複数の実施形態による、例示的な人工現実システムのブロック図である。
図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
オーディオシステムが、ユーザのために個別化された、空間化されたオーディオコンテンツをユーザに提示する。各耳のために、オーディオシステムは、ユーザの耳から遠くに位置する音響センサーを用いてオーディオデータをキャプチャすることと、耳の耳殻の複数のロケーションをポイントするビームフォーマを使用してオーディオデータを処理することとを介して決定される、アトイヤ等化フィルタ(at-ear-equalization filter)を用いてオーディオコンテンツを修正する。空間化されたオーディオコンテンツは、左耳と右耳とについて異なることによって空間キューを提供するオーディオデータを含む。空間化されたオーディオコンテンツが方向性および他の空間キューを含むので、ユーザは、空間化されたオーディオコンテンツが、そのオーディオコンテンツを作り出す音源の近くに物理的に位置するかのように知覚する。
ユーザの耳によって変化させられたバイノーラルオーディオをキャプチャするために、オーディオシステムは、ユーザの各耳に置かれたバイノーラル音響センサーを使用することができる。ユーザの各耳における音と音源における音との間の差が、ユーザの特定の耳からの反射の後に音源の方向から発生するように思われるオーディオコンテンツを生成するためのフィルタを決定するために使用され得る。しかしながら、バイノーラルマイクロフォンは、マイクロフォンがユーザの耳道への入口を部分的にまたは完全に閉塞するので、ユーザがユーザの周囲に完全に気づくことを妨げ得る。
実施形態は、バイノーラルマイクロフォンを使用せずにアトイヤ等化フィルタを決定することによって、空間化されたオーディオコンテンツを生成するオーディオシステムを含む。オーディオシステムは、ユーザの耳の耳殻の特定の部分をポイントするビームフォーマを使用する。オーディオシステムは、耳殻の部分から反射されるときに、音源からの音がどのように変化させられるかを監視し、音変化を特徴づける伝達関数を決定する。耳殻の部分からの反射に対応する伝達関数を決定することによって、システムは、音源によって作り出された音への耳殻の効果をより正確に決定する。システムは、図1Aのスピーカー160などの音源からの音がユーザの耳道への入口においてどのように知覚されるかを定義するアトジイヤ等化フィルタに伝達関数を相関させる。事実上、アトジイヤ等化フィルタは、耳殻が音の反射を引き起こさなかった場合にユーザの耳道への入口によって知覚されるようになるように、音を表現する。システムは、アトジイヤ等化フィルタを使用してオーディオコンテンツを調整し得、したがって、調整されたオーディオコンテンツは、ユーザの特定の耳による反射の後に音源の方向から到来するように思われる。したがって、オーディオシステムは、オーディオコンテンツ中の空間キューに対するひずみを最小限に抑え、ユーザのために個別化された、空間化されたオーディオコンテンツを提供する。
いくつかの実施形態では、システムは、アトジイヤ等化フィルタデータベースを参照することによって、耳からの反射の伝達関数に最も良く対応するアトジイヤ等化フィルタを決定する。データベースは、音響伝達関数とアトイヤ等化フィルタとの間の関連付けを含み得る。
システムは、センサーアレイの音響センサーを使用して音をキャプチャし、ユーザの耳殻からの反射によって引き起こされる耳道における音の変化に対応する伝達関数を決定する。システムは、伝達関数をデータベースに記憶されたものに相関させて、伝達関数に対応するかまたは最も良く対応するアトジイヤ等化フィルタを決定する。異なるユーザの耳の音響特性は異なり、それにより、異なる伝達関数および異なるアトジイヤ等化フィルタを生じ得る。したがって、アトジイヤ等化フィルタを使用してオーディオコンテンツを変化させることは、オーディオコンテンツのための個々の空間キューおよび個々の等化を維持する。
いくつかの実施形態では、データベース中のアトジイヤ等化フィルタの各々は、内耳音響センサー、たとえば、音響センサーを、ユーザの耳の耳道への入口に置き、音源からの音をキャプチャし、キャプチャされた音と音源における音との間の変化を決定することによって、生成され得る。内耳音響センサーは、耳道への入口における音の知覚を示すオーディオデータを生成する。アトジイヤ等化フィルタの各々は、ユーザの耳の耳殻がどのように音を変化させるかを決定する伝達関数のセットに相関され得る。異なる到来方向は、各耳のための異なるアトジイヤ等化フィルタと伝達関数とに対応し得る。データベースは、複数の個人に対応するアトジイヤ等化フィルタおよび伝達関数をも記憶し得る。いくつかの実施形態では、データベースは、単一の個人のための複数のアトジイヤ等化フィルタおよび伝達関数を含み得る。
本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ(HMD)、スタンドアロンHMD、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
システムの全体像
図1Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが別の様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的なロケーションにおけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せに、位置し得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあり得る。
フレーム110は、ヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前面部と、ユーザの頭部に付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム110の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
1つまたは複数のディスプレイ要素120は、ヘッドセット100を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット100を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光源(たとえば、2次元光源、1つまたは複数の線光源、1つまたは複数の点光源など)と、1つまたは複数の導波路とを含む。光源からの光は、1つまたは複数の導波路中に内部結合され(in-coupled)、1つまたは複数の導波路は、ヘッドセット100のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合(in-coupling)および/または外部結合(outcoupling)が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方が不透明であり、ヘッドセット100の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット100の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット100を装着しているユーザが中にいる部屋であり得、または、ヘッドセット100を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
いくつかの実施形態では、ディスプレイ要素120は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素120からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
DCAは、ヘッドセット100の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス130と、DCAコントローラ(図1Aに図示せず)とを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間についてのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数のイメージングデバイス130は、照明器140からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、図1Aは、単一の照明器140と2つのイメージングデバイス130とを示す。代替実施形態では、照明器140がなく、少なくとも2つのイメージングデバイス130がある。
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器140からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
オーディオシステムは、空間化されたオーディオコンテンツをユーザに提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ150とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。
トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー160または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160は、フレーム110に囲まれ得る。いくつかの実施形態では、ヘッドセット100は、提示されたオーディオコンテンツの方向性を改善するためにフレーム110に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。いくつかの実施形態では、スピーカー160は、各々、ユーザの耳道内に置かれ得る。スピーカー160は、ヘッドセット100の他のロケーションに配置され得る。組織トランスデューサ170は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。トランスデューサの数および/またはロケーションは、図1Aに示されているものとは異なり得る。
センサーアレイは、ヘッドセット100のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー180を含む。音響センサー180は、ローカルエリア(たとえば、部屋)における1つまたは複数の音源から発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサー180は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。
いくつかの実施形態では、1つまたは複数の音響センサー180は、各耳の耳道中に置かれ得る(たとえば、バイノーラルマイクロフォンとして働く)。いくつかの実施形態では、音響センサー180は、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー180の数および/またはロケーションは、図1Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。
オーディオコントローラ150は、オーディオコンテンツを調整し、トランスデューサアレイに、空間化されたオーディオコンテンツをユーザに提示するように命令する。オーディオコントローラ150は、オーディオ信号に対するユーザの耳の耳殻の応答をキャプチャするアトジイヤ等化フィルタに従って、オーディオコンテンツを調整する。オーディオコントローラ150は、ビームフォーマを使用して、耳殻の特定のロケーションからの音の反射を検出し、反射による音の変化を伝達関数として特徴づける。伝達関数は、オーディオコントローラ150が、ユーザのために個別化された、空間化されたオーディオコンテンツをレンダリングする際に使用する、アトジイヤ等化フィルタにマッピングする。
オーディオコントローラ150は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ150は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ150は、到来方向(DOA)推定値を生成するか、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成するか、音源のロケーションを追跡するか、音源の方向にビームを形成するか、音源を分類するか、スピーカー160のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。
位置センサー190は、ヘッドセット100の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、ヘッドセット100のフレーム110の一部分に位置し得る。位置センサー190は、慣性測定ユニット(IMU)を含み得る。位置センサー190の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のRGBカメラを含み得る。いくつかの実施形態では、DCAのイメージングデバイス130の一部または全部が、PCAとしても機能し得る。PCAによってキャプチャされた画像と、DCAによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー190は、部屋内のヘッドセット100の位置(たとえば、ロケーションおよび姿勢)を追跡する。ヘッドセット100の構成要素に関する追加の詳細は、図2~図5に関して以下で説明される。
図1Bは、1つまたは複数の実施形態による、HMDとして実装されるヘッドセット105の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aを参照しながら上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、ディスプレイアセンブリと、DCAと、オーディオシステムと、位置センサー190とを含む。図1Bは、照明器140と、複数のスピーカー160と、複数のイメージングデバイス130と、複数の音響センサー180と、位置センサー190とを示す。
図2は、1つまたは複数の実施形態による、耳の部分上の反射ポイントを示すユーザの耳の断面図200である。耳は、耳殻210と、耳道220と、鼓膜230とを備える。いくつかの反射ポイント240A~Fが、耳殻の様々な部分上に配置される。
ヘッドセット100および/またはヘッドセット105など、ヘッドセットは、ユーザの耳の耳殻210の一部をポイントするように各々構成された、ビームフォーマを作り出す。ビームフォーマは、ロケーションに固有のオーディオ信号を分離するように構成されたオーディオシステムの一部である。いくつかの実施形態では、ビームフォーマは、音源に固有のオーディオ信号を分離し得る。ビームフォーマの各々は、反射ポイント240A~Fの各々に対応する耳殻210の一部分をポイントし得る。ヘッドセットのコントローラが、ビームフォーマを生成し得る。
ヘッドセットまたは何らかの他の音源のトランスデューサアレイが、反射ポイント240A~Fから、ユーザの耳殻から反射する音を作り出す。反射された音は、各ビームフォーミングされた信号のロケーションに関連付けられた伝達関数によって特徴づけられ得る。コントローラは、ユーザの耳殻からの反射に関連付けられた複数の伝達関数から、ヘッドセットの位置に対して、音がユーザの耳の中心においてどのように知覚され得るかを決定し得る。ユーザの耳の中心は、耳道220への入口であり得る。コントローラは、「アトジイヤ」等化フィルタに相関された伝達関数のデータベースを照会して、ユーザに最も良く一致し得るアトジイヤ等化フィルタを見つけ得る。アトジイヤ等化フィルタは、音が耳道220への入口においてどのように知覚されるかを特徴づける。アトジイヤ等化フィルタの決定は、図3~図4に関してさらに説明される。コントローラは、それに応じて、オーディオコンテンツをユーザに対して調整および提示し得る。各耳について、音についての異なる到来方向が、反射ポイント240の各々のための異なる伝達関数と異なるアトジイヤ等化フィルタとを含み得る。いくつかの実施形態では、ユーザの耳殻からの反射が、反射ポイント240の各々のための異なる伝達関数と、異なるアトジイヤ等化フィルタとを生じ得る。
図3は、1つまたは複数の実施形態による、例示的なオーディオシステム300のブロック図である。図1Aまたは図1B中のオーディオシステムは、オーディオシステム300の一実施形態であり得る。オーディオシステム300は、ユーザの耳から遠くに位置するセンサーアレイ320の音響センサーを用いてオーディオデータをキャプチャすることを介して決定されたアトイヤ等化フィルタを用いてオーディオコンテンツを修正することによって、ユーザのための個別化および空間化されたオーディオコンテンツを提供する。センサーアレイ320のセンサーは、ユーザの耳殻のいくつかの部分(たとえば、図2に示されている反射ポイント)から反射する音を、耳殻の部分の各々をポイントするビームフォーマを使用してキャプチャする。オーディオシステム300は、反射ポイントの各々に対応する音響伝達関数を生成し、その音響伝達関数から、音源からユーザの耳の中心までの音の変化を定義するアトジイヤ等化フィルタを決定する。アトジイヤ等化フィルタに基づいて、オーディオシステム300は、ユーザの耳のためにオーディオコンテンツを調整する。オーディオシステム300は、ユーザの耳の特定の形状および他の音響特性のために個別化された、空間化されたオーディオコンテンツを生成するために、両方の耳について同様のプロセスを実施し得る。図3の実施形態では、オーディオシステム300は、トランスデューサアレイ310と、センサーアレイ320と、オーディオコントローラ330とを含む。オーディオシステム300のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
トランスデューサアレイ310は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ310によって作り出された音の少なくとも一部分は、センサーアレイ320中の音響センサーによって受信され得る。トランスデューサアレイ310は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー160)、組織トランスデューサ(たとえば、組織トランスデューサ170)、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ310は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ310は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介(auricle)の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ330から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨(auricular cartilage)の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
トランスデューサアレイ310は、オーディオコントローラ330からの命令に従って音を生成する。たとえば、オーディオコンテンツは、線形掃引、対数掃引、白色雑音、ピンク雑音、最大長信号、任意の信号、またはそれらの何らかの組合せであり得る。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化されたオーディオコンテンツは、特定の方向および/またはターゲット領域(たとえば、ローカルエリアにおけるオブジェクトおよび/または仮想オブジェクト)から発生するように思われるオーディオコンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム300のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ310は、ウェアラブルデバイス(たとえば、ヘッドセット100またはヘッドセット105)に結合され得る。代替実施形態では、トランスデューサアレイ310は、ウェアラブルデバイスとは別個である(たとえば、外部コンソールに結合された)複数のスピーカーであり得る。
センサーアレイ320は音を検出する。音は、ヘッドセットのユーザの周囲のローカルエリア内からのものであるか、ヘッドセットのトランスデューサアレイ310によって作り出されるか、またはそれらの何らかの組合せであり得る。センサーアレイ320は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)での音響コンテンツに変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)上に、ユーザ上に(たとえば、ユーザの耳道中に)、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。いくつかの実施形態では、センサーアレイの音響センサーは、ユーザの耳道から遠い位置に位置する。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ320は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ310によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ310によって作り出された音場および/またはローカルエリアからの音を表す情報(たとえば、方向性)の精度を改善し得る。
オーディオコントローラ330は、オーディオシステム300の動作を制御する。特に、オーディオコントローラ330は、音に対するユーザの耳殻の応答を特徴づける伝達関数を決定し、空間化されたオーディオコンテンツを作り出すのを助けることになるアトジイヤ等化機能を決定する。図3の実施形態では、オーディオコントローラ330は、データストア335と、DOA推定モジュール340と、伝達関数モジュール350と、追跡モジュール360と、ビームフォーミングモジュール370と、等化フィルタモジュール380とを含む。オーディオコントローラ330は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ330のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。
データストア335は、オーディオシステム300による使用のためのデータを記憶する。データストア335中のデータは、オーディオシステム300のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、音響センサーのうちの1つまたは複数のためのアレイ伝達関数(ATF)、音源ロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、およびオーディオシステム300による使用のために関連する他のデータ、またはそれらの任意の組合せを含み得る。データストア335は、アトジイヤ等化フィルタが決定されると、関連付けられた伝達関数のセットとともに、アトジイヤ等化フィルタのデータベースに、アトジイヤ等化フィルタをも記憶し得る。記憶されたアトジイヤ等化フィルタの各々は、ユーザの耳殻の形状、ユーザのロケーション、音源、またはそれらの組合せに関連付けられ得る。データストア335は、音に対するユーザの耳殻の応答を特徴づける伝達関数をも記憶し得る。いくつかの実施形態では、各DOA推定のために、および各耳のために、データストア335は、ユーザの耳殻上のロケーションに各々対応する複数の伝達関数と、アトイヤ等化フィルタとを記憶する。
DOA推定モジュール340は、センサーアレイ320からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム300のユーザに対して音源がどこに位置するかを決定するプロセスである。DOA推定モジュール340は、ローカルエリア内の1つまたは複数の音源の位置を特定するためにDOA分析を実施する。DOA分析は、音が発生した方向を決定するために、センサーアレイ320において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム300が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、センサーアレイ320から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインに変換し、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ320が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、DOA推定モジュール340は、ローカルエリア内のオーディオシステム300の絶対位置に関するDOAをも決定し得る。センサーアレイ320の位置は、外部システム(たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー(たとえば、位置センサー190)などの何らかの他の構成要素)から受信され得る。外部システムは、ローカルエリアとオーディオシステム300の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム300の一部または全部(たとえば、センサーアレイ320)のロケーションおよび/または配向を含み得る。DOA推定モジュール340は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
伝達関数モジュール350は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール350は、オーディオシステムに関連付けられた1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが、ユーザの耳の耳殻から反射される音をどのように受信するか、すなわち、ユーザの耳殻の部分からの反射によって引き起こされる音の変化を特徴づける。
ATFは、音源とセンサーアレイ320中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ320中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音源について、対応するATFがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ310の1つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ320に対する特定の音源ロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイ320のATFは、オーディオシステム300の各ユーザのために個人化される。センサーアレイ320のATFは、ユーザの耳道への入口においてなど、ユーザの耳の中心において音圧の測度を決定する際に使用され得る。
伝達関数モジュール350は、耳からの反射がある場合とない場合との、センサーアレイ320中の音響センサーによって生成されたオーディオデータを比較することによって音の変化を特徴づける、ATFを決定し得る。伝達関数モジュール350は、ユーザがヘッドセットを装着している間、トランスデューサアレイ310に音を提示するように命令する。ビームフォーミングモジュールに関してさらに詳細に説明される、ビームフォーマは、ユーザの耳殻の部分から反射される音を拡張する。センサーアレイ320の音響センサーは、ビームフォーミングされた信号を介して、ビームフォーマによって検出された音に対応するオーディオデータを生成する。伝達関数モジュール350はまた、ユーザがヘッドセットを装着していない間、トランスデューサアレイ310に音を提示するように命令する。ビームフォーマは同じロケーションをポイントするが、ユーザがヘッドセットを装着していないので、音はユーザの耳殻から反射しない。センサーアレイは、ユーザの耳からの反射なしに音をキャプチャするオーディオデータを生成する。伝達関数モジュール350は、反射なしに検出されたオーディオデータに対応する、ビームフォーミングされた信号を使用して、較正信号を生成する。伝達関数モジュール350は、ビームフォーミングされた信号と較正信号とを比較することによって、ATFを決定する。いくつかの実施形態では、較正、すなわち、ユーザの耳からの反射なしに音をキャプチャすることが、無響室中で行われ得る。いくつかの実施形態では、ユーザの耳殻から反射する音をキャプチャする音響データが、頭部および/または胴シミュレータを使用して決定され得る。
追跡モジュール360は、1つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール360は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム300は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュールは、現在のDOA推定値を前のDOA推定値と比較し得、音源についてのDOA推定値の変更(change)に応答して、追跡モジュール360は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール360は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変更を検出し得る。追跡モジュール360は、経時的に1つまたは複数の音源の移動を追跡し得る。追跡モジュール360は、各時点において音源の数と各音源のロケーションとについての値を記憶し得る。音源の数またはロケーションの値の変更に応答して、追跡モジュール360は、音源が移動したと決定し得る。追跡モジュール360は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変更の各決定についての信頼性レベルとして使用され得る。
ビームフォーミングモジュール370は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、1つまたは複数のATFを処理するように構成される。センサーアレイ320によって検出された音を分析する際に、ビームフォーミングモジュール370は、ローカルエリアの特定の領域からの関連付けられた音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール370は、たとえば、DOA推定モジュール340および追跡モジュール360からの異なるDOA推定値に基づいて、ローカルエリアにおける他の音源から、特定の音源からの音に関連付けられたオーディオ信号を分離し得る。したがって、ビームフォーミングモジュール370は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール370は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール370は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を除去する、音フィルタを適用し得る。信号拡張は、センサーアレイ320によって検出された他の音に対して所与の識別された音源に関連付けられた音を拡張するように働く。
ビームフォーミングモジュール370は、ユーザの耳殻(たとえば、反射ポイント240)の一部を各々ポイントするビームフォーマを生成し得る。いくつかの実施形態では、ビームフォーマは、耳殻の周りまたはユーザの耳の全体の周りを掃引するように構成され得る。ビームフォーミングされた信号は、センサーアレイ320の音響センサーによって検出される、耳殻の部分から反射される音を拡張し得る。ビームフォーミングモジュール370は、最大指向性、最小分散無ひずみ応答、線形制約最小分散、またはそれらの何らかの組合せに基づいて、ビームフォーマを生成し得る。
等化フィルタモジュール380は、アトジイヤ等化フィルタを決定し、それに応じてオーディオコンテンツを調整する。調整されたオーディオコンテンツは、個人ユーザのためにカスタマイズされた、空間化されたオーディオコンテンツであり得る。一実施形態では、ユーザに固有のアトジイヤ等化フィルタは、ユーザの耳の耳道への入口、すなわち、耳の中心に、インイヤ音響センサー(in-ear acoustic sensor)を置くことによって決定され得る。インイヤ音響センサーは、センサーアレイ320の一部であり得る。インイヤ音響センサーによって生成されたオーディオデータは、ソースにおける音に対する耳の中心における応答を特徴づける変化を決定するために使用され得る。アトジイヤ等化フィルタは、アトジイヤ等化フィルタのデータベース中のデータストア335に記憶され得る。アトジイヤ等化フィルタの各々は、音がユーザの耳殻によってどのように変化させられるかを特徴づける伝達関数のセットに対応する。アトジイヤ等化フィルタおよび伝達関数のデータベースは、複数のユーザから決定される。いくつかの実施形態では、単一のユーザが、データベースに記憶されたいくつかのアトジイヤ等化フィルタおよび関連付けられた伝達関数を有し得る。
いくつかの実施形態では、ユーザの耳のためのアトジイヤ等化フィルタが、データストア335に記憶されたアトジイヤ等化フィルタのデータベースを参照することによって決定され得る。伝達関数モジュール350は耳殻の各反射ポイントにおける音の変化を特徴づけるATFを決定し得、等化フィルタモジュール380はその後、ATFをデータベースに記憶された基準アトジイヤ等化フィルタに相関させる。アトジイヤ等化フィルタに関連付けられた伝達関数は、ATFに正確におよび/または厳密に一致し得る。アトジイヤ等化フィルタは、ユーザの耳によって受信された音のタイプ、ユーザの耳殻の形状、ユーザのロケーション、またはそれらの何らかの組合せに基づいて、変動し得る。アトジイヤ等化フィルタのデータベースを参照することは、インイヤ音響センサーの必要をなくす。むしろ、ユーザの耳の中心における応答は、ユーザの耳の中心の周囲のユーザの耳殻からの反射からの音の変化を検出することによって、遠くで検出され得る。厳密に一致するアトジイヤ等化フィルタを見つけることは、入力としてATFを取り、適切なアトジイヤ等化フィルタを出力する、トレーニングされたニューラルネットワークの使用によって自動化され得る。
いくつかの実施形態では、アトジイヤ等化フィルタは、オーディオコンテンツがターゲット領域または到来方向から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。等価フィルタモジュール380は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響特性を表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、等化フィルタモジュール380は、音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、等化フィルタモジュール380は、(たとえば、図5に関して以下で説明されるように)マッピングサーバに音響パラメータを要求する。
等化フィルタモジュール380は、アトジイヤ等化フィルタを使用して生成された、空間化されたオーディオコンテンツをトランスデューサアレイ310に提供し得、トランスデューサアレイ310は、それに応じて、空間化されたオーディオコンテンツをユーザに提示する。空間化されたオーディオコンテンツは、左耳と右耳とについて異なるオーディオコンテンツを含み、それにより空間キューを提供し得る。
図4は、1つまたは複数の実施形態による、ユーザの耳のために個別化された、空間化されたオーディオコンテンツを作り出すためのプロセス400のフローチャートである。プロセスは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)に結合されたオーディオシステム、たとえば、オーディオシステム300によって実行され得る。他の実施形態では、他のエンティティ(たとえば、コンソール)がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
オーディオシステムは、センサーアレイの音響センサーを使用してオーディオデータを生成する410。たとえば、音響センサーは、1つまたは複数の音を電気信号に変換することによって、オーディオデータを生成する。1つまたは複数の音は、音源によって生成され、特定の到来方向から音響センサーに到来し得る。1つまたは複数の音は、オーディオシステム(たとえば、トランスデューサアレイ310の1つまたは複数のトランスデューサ)によって生成され得るか、またはオーディオシステムとは別個の1つまたは複数の音源によって生成され得る。
オーディオシステムは、センサーアレイの音響センサーのためにビームフォーマを使用してオーディオデータを処理することによって、ビームフォーミングされた信号を生成する420。ビームフォーマの各々はユーザの耳の耳殻の別の部分を、ビームフォーミングされた信号が耳殻の部分からの音の反射に対応するように、ポイントする。ビームフォーミングされた信号は、1つまたは複数の音から生成され得る。たとえば、オーディオシステムは音を生成し得、それに応答して、オーディオシステムはビームフォーマの各々を適用し得る。他の実施形態では、オーディオシステムは複数の音を生成し得、ビームフォーマが、耳殻の異なる部分を系統的にカバーするために各音に適用される。ビームフォーマは、ビームフォーマがユーザの耳にわたって掃引するように、連続的におよび系統的に耳殻の異なる部分をカバーし得る。たとえば、オーディオシステムは第1の音を生成し得、それに応答して、センサーアレイの音響センサーは対応する第1のオーディオデータを生成し得る。第1のビームフォーマは、オーディオシステムが、第1のオーディオデータを処理して第1のビームフォーミングされた信号を生成する際に使用し得る、耳の第1の部分をポイントし得る。このプロセスは、耳殻の大部分からのビームフォーミングされた信号がカバーされるまで、複数の音とビームフォーマとについて繰り返され得る。ビームフォーミングされた信号は、ユーザの耳の中心における音圧の測度をまとめて示し得る。
いくつかの実施形態では、オーディオシステムによって作り出された音は、組織伝導を介してユーザに提示され得る。そのような場合、ビームフォーミングされた信号は、耳殻の異なる部分の振動による音の変化に対応する。
オーディオシステムは、ビームフォーミングされた信号を使用して伝達関数を決定する430。伝達関数は、ユーザの耳の耳殻の異なる部分からの反射によって引き起こされる音の変化を定義する。耳殻の各部分およびビームフォーミングされた信号は、異なる伝達関数に対応し得る。いくつかの実施形態では、伝達関数は、ビームフォーミングされた信号と、耳の耳殻の部分からの反射なしに音源からの音を定義する較正信号との比較によって決定され得る。オーディオシステムは、ヘッドセットを装着しているユーザなしに同じビームフォーマが使用される、較正信号を生成し得る。オーディオシステムは、音響センサーによって生成されたオーディオデータをこのようにして処理して、較正信号を決定し得る。伝達関数は、以下でより詳細に説明されるように、耳のための空間化されたオーディオコンテンツを生成するために使用される。いくつかの実施形態では、オーディオシステムは、耳の耳殻の部分から反射する音を作り出し得る。耳殻からの音の反射は、オーディオデータを生成するために、音響センサーによって処理される。耳殻の各部分からの反射のための伝達関数は、オーディオシステムによって作り出された音を用いて、耳の部分のための反射に対応するオーディオデータをデコンボルブすることによって決定され得る。
オーディオシステムは、伝達関数に基づいて、耳のためのアトジイヤ等化フィルタを決定する440。アトジイヤ等化フィルタは、ユーザのために個別化された、ユーザの耳の中心(たとえば、耳道)における音の変化を定義する。いくつかの実施形態では、オーディオシステムは、基準アトジイヤ等化フィルタのデータベースをルックアップするために伝達関数を使用し、決定された伝達関数のために一致するまたは最も良く一致するアトジイヤ等化フィルタを決定し得る。データベース内に記憶される基準アトジイヤ等化フィルタの各々は、伝達関数の異なるセットに関連付けられ得る。
オーディオシステムは、ユーザの耳内に配置されたセンサーアレイの少なくとも1つの音響センサーを使用することによって、データベースに記憶された伝達関数のセットを決定し得る。音響センサーは、ユーザの耳の耳道の入口に置かれ得る。音源は、1つまたは複数の音を生成する。ユーザの耳の耳殻は、音を反射する。ユーザの耳道の入口にある音響センサーは、音がユーザの耳の中心においてどのように知覚されるかをキャプチャするオーディオデータを作り出し、耳から離れたセンサーアレイの音響センサーは、耳殻からの音の反射をキャプチャする。オーディオシステムは、耳殻からの反射による音の変化を特徴づける伝達関数のセットを決定する。オーディオシステムは、伝達関数のセットのためのアトイヤ等化フィルタを決定するために、伝達関数を耳の中心における応答に相関させる。オーディオシステムは、将来の参照のために、アトイヤ等化フィルタと、関連付けられた伝達関数とをデータベースに記憶する。
オーディオシステムは、アトジイヤ等化フィルタを使用して耳のための空間化されたオーディオコンテンツを生成する450。さらに、オーディオシステムは、空間化されたオーディオコンテンツを、耳に位置するトランスデューサになど、耳に提示し得る。プロセス400は、ユーザの他方の耳についてなど、繰り返され得る。一例では、プロセス400は、両方の耳のための空間化されたオーディオコンテンツを生成するために、左耳と右耳とについて並行して実施される。異なる耳は、異なるビームフォーミングされた信号および伝達関数を含み、したがって各耳について異なるアトイヤ等化フィルタを生じ得る。
図5は、1つまたは複数の実施形態による、例示的な人工現実システム500のブロック図である。システム500は、1つまたは複数の実施形態による、ヘッドセット505を含む。いくつかの実施形態では、ヘッドセット505は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム500は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)において動作し得る。図5によって示されているシステム500は、ヘッドセット505と、コンソール515に結合された入出力(I/O)インターフェース510と、ネットワーク520と、マッピングサーバ525とを含む。図5は、1つのヘッドセット505と1つのI/Oインターフェース510とを含む例示的なシステム500を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。たとえば、各々が、関連付けられたI/Oインターフェース510を有する、複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース510はコンソール515と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム500中に含まれ得る。さらに、図5に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図5に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール515の機能性の一部または全部がヘッドセット505によって提供され得る。
ヘッドセット505は、ディスプレイアセンブリ530と、光学ブロック535と、1つまたは複数の位置センサー540と、DCA545とを含む。ヘッドセット505のいくつかの実施形態は、図5に関して説明されるものとは異なる構成要素を有する。さらに、図5に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット505の構成要素の間で別様に分散されるか、またはヘッドセット505から遠い、別個のアセンブリにおいて取り込まれ得る。
ディスプレイアセンブリ530は、コンソール515から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ530は、1つまたは複数のディスプレイ要素(たとえば、ディスプレイ要素120)を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ530は、単一のディスプレイ要素または複数のディスプレイ要素(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素120は光学ブロック535の機能性の一部または全部をも含み得ることに留意されたい。
光学ブロック535は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連付けられた光学誤差を補正し、補正された画像光をヘッドセット505の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック535は、1つまたは複数の光学要素を含む。光学ブロック535中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック535は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック535中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック535による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。
いくつかの実施形態では、光学ブロック535は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック535が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック535はそのひずみを補正する。
位置センサー540は、ヘッドセット505の位置を示すデータを生成する電子デバイスである。位置センサー540は、ヘッドセット505の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、位置センサー540の一実施形態である。位置センサー540の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー540は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット505の推定位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット505上の基準ポイントの推定位置を決定する。基準ポイントは、ヘッドセット505の位置を表すために使用され得るポイントである。基準ポイントは、概して空間中のポイントとして定義され得るが、実際には、基準ポイントは、ヘッドセット505内のポイントとして定義される。
DCA545は、ローカルエリアの一部分についての深度情報を生成する。DCAは、1つまたは複数のイメージングデバイスとDCAコントローラとを含む。DCA545は照明器をも含み得る。DCA545の動作および構造は、図1Aに関して上記で説明された。
オーディオシステム550は、ヘッドセット505のユーザに空間化されたオーディオコンテンツを提供する。オーディオシステム550は、上記で説明されたオーディオシステム300と実質的に同じである。オーディオシステム550は、1つまたは複数の音響センサーと、1つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。オーディオシステム550は、ユーザの耳から遠くに位置するセンサーアレイの音響センサーによってキャプチャされたオーディオデータを使用してユーザの耳の中心におけるオーディオコンテンツの応答を推論することによって、空間化されたオーディオコンテンツをユーザに提供し得る。オーディオシステム550は、ユーザの耳殻からの音の反射に基づいて伝達関数を決定し、伝達関数をアトジイヤ等化フィルタに相関させ、それに応じて、ユーザに提示される空間オーディオコンテンツを生成し得る。
いくつかの実施形態では、オーディオシステム550は、ネットワーク520を介してマッピングサーバ525に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの1つまたは複数の音響特性(たとえば、室内インパルス応答、残響時間、残響レベルなど)を表す。オーディオシステム550は、たとえば、DCA545からのローカルエリアの少なくとも一部分を表す情報、および/または位置センサー540からのヘッドセット505についてのロケーション情報を提供し得る。オーディオシステム550は、マッピングサーバ525から受信された音響パラメータのうちの1つまたは複数を使用して、1つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。
I/Oインターフェース510は、ユーザがアクション要求を送り、コンソール515から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース510は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール515に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース510によって受信されたアクション要求は、コンソール515に通信され、コンソール515は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース510は、I/Oインターフェース510の初期位置に対するI/Oインターフェース510の推定位置を示す較正データをキャプチャするIMUを含む。いくつかの実施形態では、I/Oインターフェース510は、コンソール515から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、またはコンソール515がアクションを実施するときに、コンソール515が、I/Oインターフェース510に命令を通信して、I/Oインターフェース510が触覚フィードバックを生成することを引き起こす。
コンソール515は、DCA545とヘッドセット505とI/Oインターフェース510とのうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット505に提供する。図5に示されている例では、コンソール515は、アプリケーションストア555と、追跡モジュール560と、エンジン565とを含む。コンソール515のいくつかの実施形態は、図5に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図5に関して説明されるものとは異なる様式でコンソール515の構成要素の間で分散され得る。いくつかの実施形態では、コンソール515に関して本明細書で説明される機能性は、ヘッドセット505、またはリモートシステムにおいて実装され得る。
アプリケーションストア555は、コンソール515が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット505またはI/Oインターフェース510の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
追跡モジュール560は、DCA545からの情報、1つまたは複数の位置センサー540からの情報、またはそれらの何らかの組合せを使用して、ヘッドセット505またはI/Oインターフェース510の移動を追跡する。たとえば、追跡モジュール560は、ヘッドセット505からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット505の基準ポイントの位置を決定する。追跡モジュール560は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール560は、ヘッドセット505の将来のロケーションを予測するために、位置センサー540からのヘッドセット505の位置を示すデータの部分ならびにDCA545からのローカルエリアの表現を使用し得る。追跡モジュール560は、ヘッドセット505またはI/Oインターフェース510の推定または予測された将来の位置をエンジン565に提供する。
エンジン565は、アプリケーションを実行し、追跡モジュール560から、ヘッドセット505の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン565は、ユーザへの提示のためにヘッドセット505に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン565は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット505のためのコンテンツを生成する。さらに、エンジン565は、I/Oインターフェース510から受信されたアクション要求に応答して、コンソール515上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット505を介した視覚または可聴フィードバック、あるいはI/Oインターフェース510を介した触覚フィードバックであり得る。
ネットワーク520は、ヘッドセット505および/またはコンソール515をマッピングサーバ525に結合する。ネットワーク520は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク520は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク520は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク520は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク520上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク520を介して交換されるデータは、2進形式(たとえばポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。
マッピングサーバ525は、複数の空間を表す仮想モデルを記憶するデータベースを含み得、仮想モデル中の1つのロケーションが、ヘッドセット505のローカルエリアの現在の構成に対応する。マッピングサーバ525は、ヘッドセット505からネットワーク520を介して、ローカルエリアおよび/またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。マッピングサーバ525は、受信された情報および/またはロケーション情報に基づいて、ヘッドセット505のローカルエリアに関連付けられた仮想モデル中のロケーションを決定する。マッピングサーバ525は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連付けられた任意の音響パラメータに部分的に基づいて、ローカルエリアに関連付けられた1つまたは複数の音響パラメータを決定する(たとえば、取り出す)。マッピングサーバ525は、ローカルエリアのロケーションおよびローカルエリアに関連付けられた音響パラメータの任意の値をヘッドセット505に送信し得る。
追加の構成情報
本開示の実施形態の上記の説明は、説明の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することは意図されない。当業者は、上記の開示に照らして多くの修正および変形が可能であることを諒解することができる。
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して本開示の実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、製造プロセスに関して、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、(たとえば、製造プロセスに関して)説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得る。
本開示の実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、本発明の主題を定めるかまたは制限するように選択されていないことがある。したがって、本開示の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される本開示の範囲を例示するものであり、限定するものではない。

Claims (13)

  1. センサーアレイの音響センサーによって、前記音響センサーによって受信される1つまたは複数の音からオーディオデータを生成することと、
    ビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
    前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
    前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
    を含む、方法。
  2. 前記伝達関数に基づいて、前記空間化されたオーディオコンテンツを生成することが、
    前記伝達関数に基づいてアトジイヤ等化フィルタを決定することと、
    前記アトジイヤ等化フィルタを使用して前記ユーザのためにオーディオコンテンツを調整することと
    を含む、請求項1に記載の方法。
  3. 前記アトジイヤ等化フィルタを決定することが、基準アトジイヤ等化フィルタのデータベースを参照することを含む、請求項2に記載の方法。
  4. 前記アトジイヤ等化フィルタを決定することが、前記伝達関数を前記ユーザのために較正されたフィルタに相関させることを含む、請求項2に記載の方法。
  5. 前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する前記伝達関数を決定することが、
    前記センサーアレイの前記音響センサーによって、前記耳の前記部分からの反射なしに前記音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、
    前記ビームフォーマを使用して前記他のオーディオデータを処理することによって較正信号を生成することと、
    前記ビームフォーミングされた信号および前記較正信号を使用して前記伝達関数を決定することと
    を含む、請求項1に記載の方法。
  6. 前記センサーアレイの少なくとも1つの音響センサーが、前記ユーザの前記耳の耳道の入口に配置され、
    前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する前記伝達関数を決定することが、
    前記センサーアレイの前記少なくとも1つの音響センサーによって、前記少なくとも1つの音響センサーによって受信される1つまたは複数の他の音から他のオーディオデータを生成することと、
    前記ビームフォーミングされた信号および前記他のオーディオデータを使用して前記伝達関数を決定することと
    を含む、請求項1に記載の方法。
  7. 前記ビームフォーミングされた信号が、前記ユーザの前記耳の中心における音圧の測度をまとめて示す、請求項5に記載の方法。
  8. 前記音響センサーによって受信される前記1つまたは複数の音を、少なくとも1つのトランスデューサによって生成することをさらに含む、請求項1に記載の方法。
  9. 各ビームフォーマが前記耳の耳殻の別の部分をポイントする、請求項1に記載の方法。
  10. 前記耳の第1の部分をポイントする、前記ビームフォーマの第1のビームフォーマを生成することと、
    前記1つまたは複数の音のうちの第1の音から、前記センサーアレイの前記音響センサーによって前記オーディオコンテンツの第1のオーディオデータを生成することと、
    前記ビームフォーミングされた信号の第1のビームフォーミングされた信号を生成するために前記第1のビームフォーマを使用して前記第1のオーディオデータを処理することと
    をさらに含む、請求項1に記載の方法。
  11. 音響センサーを含むセンサーアレイとオーディオコントローラと
    を備えるオーディオシステムであって、前記システムが請求項1から10のいずれか一項に記載の方法を実施するように構成され、または前記音響センサーが、
    前記音響センサーによって受信される1つまたは複数の音からオーディオデータを生成するように構成され、
    前記オーディオコントローラが、
    前記センサーアレイの前記音響センサーのためにビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
    前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
    前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
    を行うように構成されている、オーディオシステム。
  12. 空間化されたオーディオコンテンツを提示するための命令を記憶するコンピュータ可読非一時的記憶媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、請求項1から10のいずれか一項に記載の方法を実施させるか、または
    センサーアレイの音響センサーによって、前記音響センサーによって受信される1つまたは複数の音からオーディオデータを生成することと、
    ビームフォーマを使用して前記オーディオデータを処理することによって、ビームフォーミングされた信号を生成することであって、各ビームフォーマが、ユーザの耳のそれぞれの部分をポイントする、ビームフォーミングされた信号を生成することと、
    前記ビームフォーミングされた信号を使用して、前記耳の前記部分からの反射によって引き起こされる前記音の変化を定義する伝達関数を決定することと、
    前記伝達関数に基づいて前記耳のための空間化されたオーディオコンテンツを生成することと
    を含むステップを実施させる、コンピュータ可読非一時的記憶媒体。
  13. 前記命令が、前記プロセッサに、
    前記伝達関数に基づいてアトジイヤ等化フィルタを決定することと、
    前記アトジイヤ等化フィルタを使用して前記ユーザのためにオーディオコンテンツを調整することと
    を含むステップをさらに実施させる、請求項12に記載のコンピュータ可読非一時的記憶媒体。
JP2021573611A 2019-08-28 2020-08-06 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること Pending JP2022546161A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/554,401 US10812929B1 (en) 2019-08-28 2019-08-28 Inferring pinnae information via beam forming to produce individualized spatial audio
US16/554,401 2019-08-28
PCT/US2020/045082 WO2021040981A1 (en) 2019-08-28 2020-08-06 Inferring pinnae information via beam forming to produce individualized spatial audio

Publications (1)

Publication Number Publication Date
JP2022546161A true JP2022546161A (ja) 2022-11-04

Family

ID=72145519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021573611A Pending JP2022546161A (ja) 2019-08-28 2020-08-06 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること

Country Status (6)

Country Link
US (1) US10812929B1 (ja)
EP (1) EP4022943A1 (ja)
JP (1) JP2022546161A (ja)
KR (1) KR20220050215A (ja)
CN (1) CN114026880A (ja)
WO (1) WO2021040981A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023141127A1 (en) * 2022-01-19 2023-07-27 Meta Platforms Technologies, Llc Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device
CN116473754B (zh) * 2023-04-27 2024-03-08 广东蕾特恩科技发展有限公司 一种用于美容仪的骨传导装置及控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206421B1 (en) * 2000-07-14 2007-04-17 Gn Resound North America Corporation Hearing system beamformer
WO2012068174A2 (en) * 2010-11-15 2012-05-24 The Regents Of The University Of California Method for controlling a speaker array to provide spatialized, localized, and binaural virtual surround sound
KR101627650B1 (ko) * 2014-12-04 2016-06-07 가우디오디오랩 주식회사 개인 특징을 반영한 바이노럴 오디오 신호 처리 방법 및 장치
US9609436B2 (en) * 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
JP6569945B2 (ja) * 2016-02-10 2019-09-04 日本電信電話株式会社 バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム
US10362432B2 (en) * 2016-11-13 2019-07-23 EmbodyVR, Inc. Spatially ambient aware personal audio delivery device

Also Published As

Publication number Publication date
CN114026880A (zh) 2022-02-08
KR20220050215A (ko) 2022-04-22
EP4022943A1 (en) 2022-07-06
US10812929B1 (en) 2020-10-20
WO2021040981A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
US10880668B1 (en) Scaling of virtual audio content using reverberent energy
US10893357B1 (en) Speaker assembly for mitigation of leakage
JP2022534833A (ja) 個人化されたオーディオ拡張のためのオーディオプロファイル
US11082765B2 (en) Adjustment mechanism for tissue transducer
US11638110B1 (en) Determination of composite acoustic parameter value for presentation of audio content
KR20220069044A (ko) 오디오 콘텐트를 제공하기 위한 머리 관련 전달 함수의 동적 맞춤화
JP2022548462A (ja) オーディオ個人化のための空間ロケーションを選択すること
JP2023534154A (ja) 個別化された音プロファイルを使用するオーディオシステム
JP2022542755A (ja) センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
US11445318B2 (en) Head-related transfer function determination using cartilage conduction
CN117981347A (zh) 用于对虚拟声源进行空间化的音频系统
US11012804B1 (en) Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation
US11171621B2 (en) Personalized equalization of audio output based on ambient noise detection
US12003949B2 (en) Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device
US20230232178A1 (en) Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device
US20220030369A1 (en) Virtual microphone calibration based on displacement of the outer ear
TW202348043A (zh) 用於緩和風切聲之麥克風埠口架構
WO2023043770A1 (en) Audio system with tissue transducer driven by air conduction transducer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240524