JP2023554646A - 光学マイクロフォンを用いるオーディオシステム - Google Patents
光学マイクロフォンを用いるオーディオシステム Download PDFInfo
- Publication number
- JP2023554646A JP2023554646A JP2023537149A JP2023537149A JP2023554646A JP 2023554646 A JP2023554646 A JP 2023554646A JP 2023537149 A JP2023537149 A JP 2023537149A JP 2023537149 A JP2023537149 A JP 2023537149A JP 2023554646 A JP2023554646 A JP 2023554646A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- user
- audio
- light source
- audio system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 300
- 238000000034 method Methods 0.000 claims description 60
- 238000002156 mixing Methods 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000001678 irradiating effect Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000008921 facial expression Effects 0.000 claims description 3
- 239000012528 membrane Substances 0.000 abstract description 24
- 238000010586 diagram Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 38
- 238000012546 transfer Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 21
- 210000001519 tissue Anatomy 0.000 description 18
- 238000013507 mapping Methods 0.000 description 15
- 230000033001 locomotion Effects 0.000 description 14
- 210000000988 bone and bone Anatomy 0.000 description 12
- 238000012014 optical coherence tomography Methods 0.000 description 10
- 210000000845 cartilage Anatomy 0.000 description 9
- 210000003128 head Anatomy 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 239000000758 substrate Substances 0.000 description 9
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 210000001508 eye Anatomy 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000004075 alteration Effects 0.000 description 5
- 210000000613 ear canal Anatomy 0.000 description 5
- 210000004728 ear cartilage Anatomy 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010304 firing Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005305 interferometry Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102000005869 Activating Transcription Factors Human genes 0.000 description 1
- 108010005254 Activating Transcription Factors Proteins 0.000 description 1
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- JBRZTFJDHDCESZ-UHFFFAOYSA-N AsGa Chemical compound [As]#[Ga] JBRZTFJDHDCESZ-UHFFFAOYSA-N 0.000 description 1
- 229910001218 Gallium arsenide Inorganic materials 0.000 description 1
- 241001183191 Sclerophthora macrospora Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- FTWRSWRBSVXQPI-UHFFFAOYSA-N alumanylidynearsane;gallanylidynearsane Chemical compound [As]#[Al].[As]#[Ga] FTWRSWRBSVXQPI-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000006117 anti-reflective coating Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- GQYHUHYESMUTHG-UHFFFAOYSA-N lithium niobate Chemical compound [Li+].[O-][Nb](=O)=O GQYHUHYESMUTHG-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012536 packaging technology Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 229920003229 poly(methyl methacrylate) Polymers 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000004926 polymethyl methacrylate Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 229910052594 sapphire Inorganic materials 0.000 description 1
- 239000010980 sapphire Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- LAJZODKXOMJMPK-UHFFFAOYSA-N tellurium dioxide Chemical compound O=[Te]=O LAJZODKXOMJMPK-UHFFFAOYSA-N 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000012780 transparent material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R23/00—Transducers other than those covered by groups H04R9/00 - H04R21/00
- H04R23/008—Transducers other than those covered by groups H04R9/00 - H04R21/00 using optical signals for detecting or generating sound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
Abstract
光学マイクロフォンとオーディオコントローラとを含むオーディオシステム。光学マイクロフォンは、光源と検出器とを含む。いくつかの実施形態では、光源がユーザの皮膚を照射する。あるいは、光学マイクロフォンが膜も含み、光源が膜の一部を照射する。ローカルエリアからの音は、皮膚の振動(または膜の振動)を引き起こす。検出器は、光源との干渉形態または非干渉形態であってもよい。オーディオコントローラは、検出器から出力される信号を使用して皮膚(または膜)の振動を監視し、監視された振動を使用して音を測定する。【選択図】図3
Description
関連出願の相互参照
この出願は、その全体が参照により組み込まれる、2020年12月17日に出願された米国仮出願第63/126,669号の利益を主張する。
この出願は、その全体が参照により組み込まれる、2020年12月17日に出願された米国仮出願第63/126,669号の利益を主張する。
この開示は、一般に、オーディオシステムに関し、より具体的には、光学マイクロフォンを使用するオーディオシステムに関する。
ノイズの多い環境(例えば、騒がしいレストラン)では、従来のオーディオシステムが目的の音源(例えば、話者、ユーザ自身の音声など)からの音を選択的に取り込むことは困難であり得る。音声の選択的な取り込みは、ユーザが話しているか否かによって影響を受ける。しかし、ノイズの多い環境において、オーディオシステムは、ユーザの発話と環境からのノイズとを区別できないことが多い。従来のオーディオシステムは、これを、着用者の音声(たとえば、従来のマイクロフォンを介して検出される)が干渉音にわたって聞こえるという時間的特性およびスペクトル的特性に依存する音声活動検出器を使用して緩和しようとする。しかし、低音響信号対雑音比(SNR)環境(すなわち、ノイズが多い環境)では、着用者の音声がノイズによって完全に隠されるため、この方法はしばしば失敗する。
したがって、本発明は、添付の特許請求の範囲に係るオーディオシステム、方法、コンピュータ可読媒体、およびコンピュータプログラムを開示する。光学マイクロフォンを用いるオーディオシステム。オーディオシステムは、オーディオコントローラを含み、マイクロフォンアレイも含んでもよい。いくつかの実施形態において、オーディオシステムは、ヘッドセット、ネックレス、時計、ヒアラブルデバイスなどの一部であってもよい。光学マイクロフォンは、光源および検出器を含む。光源は、光を発するように構成される。光は、基準ビームおよび感知ビームを含み、光源は、感知ビームをユーザの皮膚に照射するように構成される。ローカルエリア(たとえば、ユーザの音声、他の人など)からの音は、ユーザの皮膚に振動を引き起こす。検出器は、それが混合信号を検出するべく構成されるように、光源との干渉形態(たとえば、自己混合、低コヒーレンス干渉法など)にある。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。オーディオコントローラは、信号を使用してローカルエリアの音を測定するように構成される。
本発明に係るオーディオシステムの実施形態において、オーディオシステムは光学マイクロフォンを備え、該光学マイクロフォンは、基準ビームおよび感知ビームを含む光を発するように構成されるとともに、感知ビームをユーザの皮膚に照射するように構成され、ローカルエリアからの音が皮膚に振動を引き起こす、光源と、検出器であって、該検出器が混合信号を検出するべく構成されるように光源との干渉形態にあり、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、検出器とを備え、オーディオシステムはさらに、混合信号を用いて音を測定するオーディオコントローラとを備える。
本発明に係るオーディオシステムの実施形態において、干渉形態は、光源および検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも1つを形成するような形態であってもよい。
本発明に係るオーディオシステムの実施形態では、光源が検出器と当接してもよく、光学マイクロフォンは、光源に結合されるレンズであって、光源から発せられた光を基準ビームと感知ビームとに分割し、感知ビームを皮膚に方向付けるとともに基準ビームを検出器に向けて反射するように構成される、レンズをさらに備えてもよい。
本発明に係るオーディオシステムの実施形態では、システムが第2の光学マイクロフォンをさらに備えてもよく、該第2の光学マイクロフォンは、第2の基準ビームおよび第2の感知ビームを含む光を発するように構成されるとともに、感知ビームをユーザの皮膚を照射するように構成される第2の光源と、第2の検出器であって、該第2の検出器が第2の混合信号を検出するべく構成されるように第2の光源との干渉形態にあり、第2の混合信号が、皮膚によって反射される第2の感知ビームの一部と混合される第2の基準ビームに対応する、第2の検出器と、第1の側面および第2の側面を含み、第1の側面が光学マイクロフォンに結合され、第2の側面が第2の光学マイクロフォンに結合されるブロックと、光源、ブロック、および第2の光源に結合されるレンズであって、光源から発せられた光を基準ビームと感知ビームとに分割し、第2の光源から発せられた光を第2の基準ビームと第2の感知ビームとに分割し、感知ビームおよび第2の感知ビームを皮膚へ方向付け、基準ビームを検出器に向けて反射させ、第2の基準ビームを第2の検出器に向けて反射させるように構成される、レンズとを備える。
本発明に係るオーディオシステムの実施形態では、検出器および光源が、しきい値距離だけ互いから離されてもよい。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンが鼻パッドを含むヘッドセット上にあってもよく、光学マイクロフォンが鼻パッドに組み込まれてもよく、光源は、感知ビームをユーザの鼻の皮膚に照射するように構成されてもよい。
本発明に係るオーディオシステムの実施形態において、光学マイクロフォンは、フレームを含むヘッドセット上にあってもよく、光学マイクロフォンはフレームに組み込まれてもよく、光源は、感知ビームをユーザの顔の皮膚に照射するように構成されてもよい。これに加えて、オーディオシステムは、第1の光学マイクロフォンとは異なるフレーム上の位置に組み込まれ得る第2の光学マイクロフォンをさらに備えてもよく、第2の光学マイクロフォンは、光学マイクロフォンとは異なるユーザの顔の皮膚の部分に第2の感知ビームを照射するように構成されてもよい。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイであって、ローカルエリアからの音を検出するように構成される、マイクロフォンアレイをさらに備えてもよく、オーディオコントローラは、検出された音を使用して光学マイクロフォンを較正するようにさらに構成される。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイであって、ローカルエリアからの音を検出するように構成される、マイクロフォンアレイをさらに備えてもよく、オーディオコントローラは、検出された音に部分的に基づいて測定された音を強調するようにさらに構成されてもよい。
本発明に係るオーディオシステムの実施形態において、オーディオコントローラは、測定された音に部分的に基づいてユーザの顔の表情を決定するようにさらに構成されてもよい。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオコントローラは、
測定された音のノイズを識別し、識別されたノイズを抑制するための音フィルタを生成し、
オーディオコンテンツに対応するオーディオ信号を修正するために音フィルタを適用する、
ようにさらに構成されてもよく、オーディオシステムは、ヘッドセットに組み込まれるトランスデューサアレイをさらに備えてもよく、トランスデューサアレイは、修正されたオーディオ信号を修正されたオーディオコンテンツとしてユーザに提示するように構成され、修正されたオーディオコンテンツは、オーディオコンテンツと、ノイズを抑制する抑制コンポーネントとを含む。
測定された音のノイズを識別し、識別されたノイズを抑制するための音フィルタを生成し、
オーディオコンテンツに対応するオーディオ信号を修正するために音フィルタを適用する、
ようにさらに構成されてもよく、オーディオシステムは、ヘッドセットに組み込まれるトランスデューサアレイをさらに備えてもよく、トランスデューサアレイは、修正されたオーディオ信号を修正されたオーディオコンテンツとしてユーザに提示するように構成され、修正されたオーディオコンテンツは、オーディオコンテンツと、ノイズを抑制する抑制コンポーネントとを含む。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイをさらに備えてもよく、マイクロフォンアレイは、ローカルエリアからの音を検出するように構成されてもよく、ローカルエリアからの音がオーディオシステムのユーザの音声を含んでもよく、オーディオコントローラは、
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するようにさらに構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声をさらに強調してもよく、オーディオコントローラは、更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツを第2のオーディオシステムに提供し、第2のオーディオシステムが修正されたオーディオコンテンツを提示する、ようにさらに構成されてもよい。
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するようにさらに構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声をさらに強調してもよく、オーディオコントローラは、更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツを第2のオーディオシステムに提供し、第2のオーディオシステムが修正されたオーディオコンテンツを提示する、ようにさらに構成されてもよい。
本発明に係るオーディオシステムの実施形態では、光学マイクロフォンがヘッドセット上にあってもよく、オーディオシステムは、ヘッドセット上のマイクロフォンアレイをさらに備えてもよく、マイクロフォンアレイは、ローカルエリアからの音を検出するように構成されてもよく、ローカルエリアからの音がオーディオシステムのユーザの音声を含んでもよく、オーディオコントローラは、
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するように更に構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声を強調してもよく、オーディオコントローラは、
更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツがコマンドを含むと決定し、コマンドに従ってアクションを実行する、ようにさらに構成されてもよい。
測定された音を使用して検出された音におけるユーザの音声を識別し、識別されたユーザの音声に基づいて音フィルタを更新するように更に構成されてもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示されてもよい。これに加えて、更新された音フィルタがユーザの音声を強調してもよく、オーディオコントローラは、
更新されたフィルタを用いてオーディオコンテンツを修正し、修正されたオーディオコンテンツがユーザの音声を強調し、修正されたオーディオコンテンツがコマンドを含むと決定し、コマンドに従ってアクションを実行する、ようにさらに構成されてもよい。
いくつかの実施形態では、オーディオシステムの一部である光学マイクロフォンを使用するための方法が記載される。光学マイクロフォンの光源から光が発せられる。発せられた光は、基準ビームおよび感知ビームを含む。ローカルエリア(たとえば、ユーザの音声、他の人など)からの音は、ユーザの皮膚に振動を引き起こす。ユーザの皮膚(例えば、顔の一部)には感知ビームが照射される。光源との干渉形態における検出器は、混合信号を検出する。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。音声は、混合信号を用いて測定される。
本発明に係る方法の実施形態において、方法は、光学マイクロフォンの光源から光を発することであって、光が基準ビームおよび感知ビームを含む、光を発することと、ユーザの皮膚に感知ビームを照射することであって、ローカルエリアからの音が皮膚に振動を引き起こす、感知ビームを照射することと、光源との干渉形態にある検出器を介して、混合信号を検出することであって、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、混合信号を検出すること、混合信号を使用して音を測定することとを含む。
本発明に係る方法の実施形態において、皮膚の振動は、ユーザの音声によって部分的に引き起こされ、方法は、マイクロフォンアレイを介して、ローカルエリアからの音を検出することと、測定された音を使用して検出された音におけるユーザの音声を識別することと、識別されたユーザの音声に基づいて音フィルタを更新することとをさらに含んでもよく、更新された音フィルタを使用してオーディオコンテンツが修正されてもよく、修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示されてもよい。
本発明に係る方法の実施形態において、干渉形態は、光源および検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも1つを形成するような形態であってもよい。
本発明に係る方法の実施形態において、測定された音がユーザの音声を含み、音声の高周波成分は、音声の低周波に対して減衰されてもよく、方法は、
音声の高周波成分を再構成することと、再構成された高周波成分を用いて音声の測定された音を更新することとをさらに含んでもよい。
音声の高周波成分を再構成することと、再構成された高周波成分を用いて音声の測定された音を更新することとをさらに含んでもよい。
いくつかの実施形態では、プログラムコード命令を記憶するように構成される非一時的コンピュータ可読媒体が記載される。命令は、オーディオシステムのプロセッサによって実行されるときに、前述の方法のステップおよび/または本明細書に記載の他の方法をオーディオシステムに実行させる。
本発明に係るコンピュータ可読媒体の実施形態において、非一時的コンピュータ可読媒体は、オーディオシステムのプロセッサによって実行されるときにオーディオシステムにステップを実行させるプログラムコード命令を記憶するように構成され、ステップは、光学マイクロフォンの光源から光を発するステップあって、光が基準ビームおよび感知ビームを含む、ステップと、ユーザの皮膚に感知ビームを照射するステップあって、ローカルエリアからの音が皮膚に振動を引き起こす、ステップと、光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、混合信号が、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する、ステップと、混合信号を使用して音を測定するステップとを含む。
いくつかの実施形態では、コンピュータプログラムが記載される。コンピュータプログラムは、オーディオシステムのプロセッサによって実行されるときにオーディオシステムに前述の方法のステップおよび/または本明細書に記載の他の方法を実行させる命令を含む。
いくつかの実施形態では、検出器および光源が干渉形態になく、光学マイクロフォンは、皮膚から反射および/または散乱された光の強度変調(非干渉)に基づいて局所の音を測定する。
いくつかの実施形態では、光学マイクロフォンが膜も含み、皮膚を照射する代わりに、光源は感知ビーム(またはより一般的には光源からの光)で膜および/またはダイアフラムの一部を照射することに留意されたい。これらの実施形態では、ローカルエリアからの音が膜を振動させる。このように、光学マイクロフォンは、ローカルエリアからの音によって引き起こされる膜の振動を監視することによってローカルエリア内の音を測定する。この実施形態では、光源および検出器が干渉形態または非干渉形態であってもよい。
図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
オーディオシステムは、1つまたは複数の光学マイクロフォンと、オーディオコントローラとを含む。いくつかの実施形態では、オーディオシステムはヘッドセットの一部であり、1つまたは複数の光学マイクロフォンは、ヘッドセットのローカルエリア内の音(たとえば、ユーザの音声、他人、ノイズ源など)によって引き起こされるヘッドセットのユーザの皮膚の振動を監視するように配置される。1つまたは複数の光学マイクロフォンは、ヘッドセット上の1つまたは複数の位置(例えば、鼻パッド、フレームなど)に配置されてもよい。オーディオシステムは、監視された振動を使用してローカルエリア内の音を測定し、測定された音に基づいて様々なアクションを実行することができる(たとえば、アクティブノイズキャンセル、ユーザ音声強化、音声アクティビティ検出としての機能など)。上記は、ヘッドセット上に配置されている1つまたは複数の光学マイクロフォンに関連していることに留意されたい。他の実施形態では、1つまたは複数の光学マイクロフォンおよび/またはオーディオシステムは、他のデバイス(たとえば、ネックレス、スマートウォッチなど)上にあってもよい。
光学マイクロフォンは、ユーザの皮膚の振動を監視する。光学マイクロフォンは、光源と検出器とを含む。光源(たとえば、垂直共振器面発光レーザ-VCSEL)は、光を発するように構成される。発せられる光の光学帯域は、皮膚が主に光を反射するような帯域である(たとえば、それ以外の帯域では、主に光を吸収する、250から1800nmの間)。いくつかの実施形態では、発せられる光は連続波であり、基準ビームおよび感知ビームを含む。オーディオシステムのローカルエリアからの音は、ユーザの皮膚に振動を引き起こす。光源は、感知ビームをユーザの皮膚(例えば、面の一部)を照射するように構成される。
検出器は、検出器が混合信号を検出するべく構成されるように、光源と干渉形態にある。干渉形態では、光学マイクロフォンは、レーザからの光と反射光との間の建設的または破壊的な干渉が距離の変化に応じて変化する信号を与える干渉計ベースのシステムになる。たとえば、850nmの波長は、10nm以下の範囲までの精度を与えることができる。干渉形態は、光源および検出器が干渉測定システム(たとえば、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計(LCI)、レーザドップラー振動計(LDV)など)を形成するような形態である。混合信号は、皮膚によって反射される感知ビームの一部と混合される基準ビームに対応する。
オーディオコントローラは、検出器からの情報を処理する。オーディオコントローラは、混合信号を使用して音を測定するように構成される。オーディオコントローラは、混合信号を分析して、ユーザの皮膚の振動を引き起こす音の一部または全部を測定する。音は、たとえば、ユーザの音声および/またはローカルエリア内の他の音源(たとえば、他の人々、ノイズ源(例えば、ファン)など)を含むことができる。
いくつかの実施形態では、オーディオシステムがマイクロフォンアレイも含んでもよい。マイクロフォンアレイは、ローカルエリアからの音を検出するように構成される。ローカルエリアからの音は、たとえば、オーディオシステムのユーザの音声、ローカルエリア内の他の音源からの音、またはそれらの何らかの組合せを含むことができる。
オーディオシステムは、1つまたは複数の光学マイクロフォンによって測定された音、マイクロフォンアレイによって検出された音、またはそれらの何らかの組合せに部分的に基づいて様々なアクションを実行することができる。アクションは、たとえば、ユーザの音声を強化すること、音声アクティビティ検出(VAD)のために1つまたは複数の光学マイクロフォンを使用すること、アクティブノイズキャンセリングを実行すること、ユーザの微細表現を識別するための情報をキャプチャすること、ヘッドセットの位置を監視することなどを含むことができる。いくつかの実施形態では、各光学マイクロフォンの一部またはすべてが、ヘッドセットに結合された振動減衰構造に結合されてもよいことに留意されたい。振動減衰構造は、ヘッドセット(またはより一般的には光学マイクロフォンが結合されているデバイス)から光学マイクロフォンに伝わる振動を緩和する。
いくつかの実施形態では、ユーザの皮膚の振動を監視する代わりに、光学素子が膜を含み、膜の振動を監視することによってローカルエリアからの音を監視することに留意されたい。ローカルエリアからの音は、膜を振動させる。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および/または反射する。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、散乱および/または反射光を検出する。オーディオコントローラは、検出器からの信号を使用してローカルエリアからの音を測定する。
従来のVADは、低音響SNR環境(例えば、騒がしい混雑したレストラン)ではうまく機能しない。これらのシステムは、マイクロフォンを使用してローカルエリアからの音を検出し、次いで、低音響SNR環境内からユーザの音声を分離しようとする。しかし、低音響SNR環境では、着用者の音声が他の音(たとえば、混雑したレストランで話している他の人々)によって完全に隠されるため、この方法は失敗することが多い。対照的に、本明細書に記載のオーディオシステムは、1つまたは複数の接触光学マイクロフォンを使用してユーザの皮膚上の振動を監視し、これらの振動を使用して音を測定する。検出された信号のノイズは、従来の信号よりもはるかに低く、ユーザが話しているときの信頼できる識別を可能にする。さらに、相対的な距離の変化のみが干渉計システムにおいて観察されるので、検出器が光源との干渉形態にある実施形態では、距離の変化(例えば、動く眼鏡)の場合に絶対的な距離または位置合わせの較正は必要とされない。さらに、従来のVAD(たとえば、振動膜を有する骨伝導マイクロフォン)は共振周波数を有し、それらを共振周波数の前後で使用することは困難かつ不正確であり得る。対照的に、光学マイクロフォンは、従来のVADにおける前述のような制限が光学接触マイクロフォンにとって問題ではないように、移動要素または振動要素を有さない。
本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス(たとえば、ヘッドセット)、独立型ウェアラブルデバイス(たとえば、ヘッドセット)、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
図1Aは、1つまたは複数の実施形態に係るアイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的な位置におけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100と対にされた周辺デバイス上に、またはそれらの何らかの組合せで位置され得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあってもよい。
フレーム110は、ヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前面部と、ユーザの頭部に付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム110の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
1つまたは複数のディスプレイ要素120は、ヘッドセット100を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット100を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光ソース(たとえば、2次元ソース、1つまたは複数の線ソース、1つまたは複数の点ソースなど)と、1つまたは複数の導波路とを含む。光ソースからの光は、1つまたは複数の導波路中に内部結合され、1つまたは複数の導波路は、ヘッドセット100のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合および/または外部結合が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光ソースからの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方が不透明であり、ヘッドセット100の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット100の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット100を装着しているユーザが中にいる部屋であり得、または、ヘッドセット100を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
いくつかの実施形態では、ディスプレイ要素120は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得る。光学ブロックは、ディスプレイ要素120からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
DCAは、ヘッドセット100の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス130と、DCAコントローラ(図1Aに図示せず)とを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線(IR)、飛行時間型のIRフラッシュなどの構造化光(例えば、ドットパターン、バーなど)であってもよい。いくつかの実施形態では、1つまたは複数のイメージングデバイス130は、照明器140からの光を含むローカルエリアの一部の画像をキャプチャする。図示のように、図1Aは、単一の照明器140と2つのイメージングデバイス130とを示す。代替実施形態では、照明器140がなく、少なくとも2つのイメージングデバイス130がある。
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器140からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、1つまたは複数の光学マイクロフォン145と、オーディオコントローラ150とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、音声コントローラの機能のいくつかまたはすべてはリモートサーバによって実行され得る。
トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー160または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160はフレーム110の外部に示されているが、スピーカー160はフレーム110に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット100は、提示されたオーディオコンテンツの方向性を改善するためにフレーム110に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ170は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。トランスデューサの数および/または位置は、図1Aに示されているものとは異なり得る。
センサーアレイは、ヘッドセット100のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー180を含む。音響センサー180は、ローカルエリア(たとえば、部屋)中の1つまたは複数の音ソースから発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサー180は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。
いくつかの実施形態では、1つまたは複数の音響センサー180は、各耳の耳道中に置かれ得る(たとえば、バイノーラルマイクロフォンとして働く)。いくつかの実施形態では、音響センサー180は、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー180の数および/または位置は、図1Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。
いくつかの実施形態において、1つまたは複数の光学マイクロフォン145は、ローカルエリア内の音から生じる皮膚の組織ベースの振動を検出する。音は、たとえば、ユーザの発話、およびローカルエリア内の他の音源からの音を含むことができる。たとえば、ユーザが発話するとき、発話の一部は、組織伝導を介してユーザの組織を介して実際に伝達される。この発話部分は、わずかな組織ベースの振動としてユーザの頭部の皮膚に現れる。1つまたは複数の光学マイクロフォン145は、これらの組織ベースの振動を検出する。同様に、ユーザの外部の音源(例えば、ファン、他のスピーカなど)は、ユーザの皮膚上の振動としても現れる可能性がある音を生成する。光学マイクロフォン145は、少なくとも一つの光源および少なくとも一つの検出器を含み、任意選択的に1つまたは複数の光学素子を含んでもよい。光学マイクロフォン145は、様々な方法で構成することができる。たとえば、光源および検出器は、直列または並列構成で(たとえば、図5Aおよび図5Bに関して以下に説明するように)構成されてもよい。場合によっては、光学マイクロフォンは、(たとえば、図5Cに関して以下で説明するように)少なくとも2つの自己混合干渉計を含む対にされた光学マイクロフォンであってもよい。場合によっては、光学マイクロフォンの光源および検出器は、ヘッドセット100上の異なる位置(たとえば、鼻パッド内、フレーム110上などの異なる位置)に配置されてもよい。検出器および光源は、たとえば、それらが二重経路干渉計であるか共通経路干渉計であるかに応じて、異なるダイまたは同じダイ上に配置されてもよく、そのような場合、それらの間の閾値距離は干渉計アーム長によって決定される。
光源は、光を発するように構成される。光源は、たとえば、垂直共振器面発光レーザ(VCSEL)、エッジ発光レーザ、波長可変レーザ、他のコヒーレント光源、またはそれらの組合せであってもよい。発せられる光の光学帯域は、皮膚が主に光を反射するような帯域である(これ以外の帯域では、たとえば、主に光を吸収する)。1つまたは複数の光学マイクロフォン145は、たとえば850nm、940nm、1300nm、1050nm等で光を発してもよい。発せられた光は連続波であり、いくつかの実施形態では、基準ビームおよび感知ビームを含む。いくつかの実施形態では、光源は、(たとえば、感知ビームを)ユーザの皮膚(たとえば、顔の1つまたは複数の同じまたは異なる部分)に照射するように構成される。
検出器は、光源によって発せられた光の帯域の光を監視する。検出器は、たとえば、1つまたは複数の光検出器であってもよい。いくつかの実施形態では、検出器および光源は、干渉計システム(たとえば、自己混合干渉計、マイケルソン干渉計、LCI(たとえば、光コヒーレンストモグラフィ)、LDVなど)を形成するように構成される。したがって、検出器は、皮膚によって反射される感知ビームの一部と(たとえば、フレネル反射および/または散乱反射を介して)混合される基準ビームに対応する混合信号を検出するように構成される。他の実施形態では、光源および検出器は非干渉形態にある。この構成では、検出器は、皮膚からの反射光および/または散乱光の強度の変調を測定する。
代替の実施形態では、光学マイクロフォン145は、膜を含み、ユーザの皮膚の振動を監視する代わりに、膜の振動を監視する。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および/または反射する。いくつかの実施形態では、光源によって照射される膜の少なくとも一部は、光源によって発せられる光の帯域において高度に反射性である。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、膜からの散乱および/または反射光を検出し、信号出力(例えば、混合信号、変調強度)を使用してローカルエリア内の音を監視することができる。
図1Aに示される例において、光学マイクロフォン145は、ヘッドセット100を着用しているユーザの鼻の一部と接触するフレーム110の領域に配置される。たとえば、光学マイクロフォン145は、眼鏡のセットの鼻パッドの一方または両方に組み込むことができる。他の実施形態では、光学マイクロフォン145のうちの1つまたは複数は、これに代えてまたは加えて、ヘッドセット100上の他の場所に配置されてもよく、および/またはヘッドセット100上に1つまたは複数の追加の光学マイクロフォン145が存在してもよい。たとえば、1つまたは複数の光学マイクロフォン145の一部またはすべては、側面発射位置147A、147B、147C、147Dおよび/またはブリッジ位置148の一部またはすべてにおいてフレーム110の内向きの側面に配置することができる。以下、光学マイクロフォン145の様々な実施形態を、図2、図3、図4、および図5A~図5Cに関連して説明する。
オーディオコントローラ150は、ローカルエリアからの音を測定するために、1つまたは複数の光学マイクロフォン145の検出器からの検出された1つまたは複数の混合信号を処理する。オーディオコントローラ150は、それぞれの光学マイクロフォン145の一部または全部からの混合信号を分析して、ユーザの皮膚の振動を引き起こす音の一部または全部を測定することができる。音は、たとえば、ユーザの音声および/またはローカルエリア内の他の音源(たとえば、他の人々、ノイズ源(例えば、ファン)など)を含むことができる。
オーディオコントローラ150は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ150は、到来方向(DOA)推定値を生成し、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成し、音源の位置を追跡し、音源の方向にビームを形成し、音源を分類し、トランスデューサアレイの音フィルタを生成し、アクティブノイズキャンセルを実行するようにトランスデューサアレイに命令し、ユーザの音声を識別し、識別されたユーザの音声に基づいてコマンドを識別および実行し、ユーザの微細な表情を識別するために使用され得る情報をキャプチャし、またはそれらの何らかの組合せを行なうように構成され得る。オーディオコントローラ150が検出された組織振動をどのように使用することができるかに関するさらなる詳細は、以下に説明する図に関して詳細に説明される。
位置センサー190は、ヘッドセット100の動作に応じて1つまたは複数の測定信号を生成する。位置センサー190は、ヘッドセット100のフレーム110の一部分に位置し得る。位置センサー190は、慣性測定ユニット(IMU)を含み得る。位置センサー190の例としては、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、動作を検出する他の適したタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せが挙げられる。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像を検出する1つまたは複数のRGBカメラを含み得る。いくつかの実施形態では、DCAのイメージングデバイス130の一部または全部が、PCAとしても機能し得る。PCAによって検出された画像と、DCAによって決定された深度情報とは、ローカルエリアのパラメータを決定するため、ローカルエリアのモデルを生成するため、ローカルエリアのモデルを更新するため、またはそれらの何らかの組合せを行なうために使用され得る。さらに、位置センサー190は、部屋内のヘッドセット100の位置(たとえば、ロケーションおよび姿勢)を追跡する。ヘッドセット100の構成要素に関するさらなる詳細は、図4に関して以下で説明される。
図1Bは、1つまたは複数の実施形態に係る、HMDとして実装されるヘッドセット105の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aに関連して上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、ディスプレイアセンブリ、DCA、オーディオシステム(1つまたは複数の光学マイクロフォン145を含む)、および位置センサー190を含む。図1Bは、照明器140と、複数のスピーカー160と、複数のイメージングデバイス130と、複数の音響センサー180と、位置センサー190とを示す。スピーカー160は、(図示のように)バンド175に結合される、前面剛体115に結合されるなど、様々なロケーションにあり得、またはユーザの耳道内に挿入されるように構成され得る。
図2は、1つまたは複数の実施形態に係る、オーディオシステム200のブロック図である。図1Aまたは図1Bにおけるオーディオシステムは、オーディオシステム200の一実施形態であり得る。オーディオシステム200は、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム200は、次いで、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。図2の実施形態において、オーディオシステム200は、トランスデューサアレイ210と、センサーアレイ220と、光学マイクロフォンアセンブリ222と、オーディオコントローラ230とを含む。オーディオシステム200のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
トランスデューサアレイ210は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ210は複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー160)、組織トランスデューサ(たとえば、組織トランスデューサ170)、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ210は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ210は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ230から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させることによって耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
トランスデューサアレイ210は、オーディオコントローラ230からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、音声コンテンツは空間化(spatialize)される。空間化された音声コンテンツは、特定の方向および/またはターゲット領域(たとえば、局所領域中の対象および/または仮想対象)から発生するように思われる音声コンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム200のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ210は、ウェアラブルデバイス(たとえば、ヘッドセット100またはヘッドセット105)に結合され得る。代替実施形態では、トランスデューサアレイ210は、ウェアラブルデバイスとは別個である(たとえば、外部コンソールに結合された)複数のスピーカーであり得る。
センサーアレイ220は、センサーアレイ220の周囲のローカルエリア内の音を検出する。検出された音は、たとえば、オーディオシステム200のユーザからの音(例えば、ユーザの音声)および/またはローカルエリア内の他の音源からの音(例えば、他の人々)であってもよい。センサーアレイ220は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)上に、ユーザ上に(たとえば、ユーザの耳道中に)、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ220は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ210によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ210によって作り出された音場および/またはローカルエリアからの音を表す情報(たとえば、方向性)の精度を改善し得る。
いくつかの実施形態では、光学マイクロフォンアセンブリ222は、ローカルエリア内の音から生じる皮膚の組織に基づく(すなわち、時間的)振動を検出するように構成される。光学マイクロフォンアセンブリ222は、光学マイクロフォン145のうちの1つまたは複数を含む。図1Aに関して前述したように、光学マイクロフォン145は、少なくとも1つの光源および少なくとも1つの検出器を含み、任意選択的に1つまたは複数の光学素子(例えば、レンズ)を含むことができる。光学マイクロフォン145は、様々な方法(たとえば、図3-図5Cに関連して以下に記載されるように)で構成することができる。各光学マイクロフォン145から出力される信号(例えば、混合信号、変調強度)は、ローカルエリアの音の監視に用いられてもよい。
いくつかの実施形態において、1つまたは複数の光学マイクロフォン145は、それぞれ膜を含み、ユーザの皮膚の振動を監視する代わりに、膜の振動を監視することに留意されたい。この実施形態では、光源は膜の一部を照らすように構成され、膜は光の一部を散乱および/または反射する。いくつかの実施形態において、光源によって照射される膜の少なくとも一部は、高反射性である。光源および検出器は、干渉形態または非干渉形態であってもよい。検出器は、膜からの散乱および/または反射光を検出し、信号出力(例えば、混合信号、変調強度)を使用してローカルエリア内の音を監視することができる。
オーディオコントローラ230は、オーディオシステム200の動作を制御する。図2の実施形態において、オーディオコントローラ230は、データストア235と、DOA推定モジュール240と、伝達関数モジュール250と、追跡モジュール260と、ビームフォーミングモジュール270と、処理モジュール275と、音フィルタモジュール280とを含む。オーディオコントローラ230は、いくつかの実施形態では、ヘッドセット内に位置され得る。オーディオコントローラ230のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。ユーザは、オーディオコントローラ230が、ヘッドセットによって検出されたデータをヘッドセットの外部のシステムに送信できるようにするべくオプトインしてもよく、ユーザは、任意のそのようなデータへのアクセスを制御するプライバシー設定を選択してもよい。
データストア235は、オーディオシステム200による使用のためのデータを記憶する。データストア235内のデータは、オーディオシステム200のローカルエリアに記録された音、オーディオコンテンツ、頭部関連伝達関数(HRTF)、1つまたは複数のセンサーの伝達関数、音響センサーのうちの1つまたは複数におけるアレイ伝達関数(ATF)、音源位置、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、1つまたは複数の光学マイクロフォン145によって検出された組織振動、センサーアレイ220によって検出された音、光振幅を光学マイクロフォン145の検出器からの距離にマッピングするモデル、およびオーディオシステム200による使用に関連する他のデータ、またはそれらの任意の組合せを含むことができる。
ユーザは、データストア235がセンサーアレイ220および/または1つまたは複数の光学マイクロフォン145によって検出されたデータを記録できるようにするべくオプトインし得る。いくつかの実施形態において、オーディオシステム200は、オーディオシステム200がセンサーアレイ220および/または光学マイクロフォンアセンブリ222によって検出されたすべての音を録音する常時録音を使用してもよい。ユーザは、オーディオシステム200が記録されたデータを他のエンティティに記録、記憶、または送信できるようにするまたはそれを防止するようにオプトインまたはオプトアウトすることができる。
DOA推定モジュール240は、センサーアレイ220からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム200のユーザに対して音源がどこに位置するかを決定するプロセスである。DOA推定モジュール240は、ローカルエリア内の1つまたは複数の音源の位置を特定するためにDOA分析を実施する。DOA分析は、音が発生した方向を決定するために、センサーアレイ220において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム200が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、センサーアレイ220から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインに変換し、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ220が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、DOA推定モジュール240は、ローカルエリア内のオーディオシステム200の絶対位置に関するDOAをも決定し得る。センサーアレイ220の位置は、外部システム(たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー(たとえば、位置センサー190)などの何らかの他の構成要素)から受信され得る。外部システムは、ローカルエリアとオーディオシステム200の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム200の一部または全部(たとえば、センサーアレイ220)の位置および/または配向を含み得る。DOA推定モジュール240は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
伝達関数モジュール250は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール250は、オーディオシステムに関連する1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。
ATFは、音源とセンサーアレイ220中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ220中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音ソースについて、対応するATFがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ210の1つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ220に対する特定の音源位置についてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイ220のATFは、オーディオシステム200の各ユーザのために個人化される。
いくつかの実施形態では、伝達関数モジュール250は、オーディオシステム200のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、人の各耳に固有である(および人に固有である)。いくつかの実施形態では、伝達関数モジュール250は、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数モジュール250は、ユーザに関する情報をリモートシステムに提供し得る。ユーザは、プライバシー設定を調整して、伝達関数モジュール250がユーザに関する情報を任意の遠隔システムに提供することを許可または防止することができる。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットをオーディオシステム200に提供する。
追跡モジュール260は、1つまたは複数の音源の位置を追跡するように構成される。追跡モジュール260は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム200は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュールは、現在のDOA推定値を前のDOA推定値と比較し得、音源についてのDOA推定値の変化に応答して、追跡モジュール260は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール260は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいて位置の変化を検出し得る。追跡モジュール260は、経時的に1つまたは複数の音源の移動を追跡し得る。追跡モジュール260は、各時点において音源の数と各音源の位置とについての値を記憶し得る。音源の数または位置の値の変化に応答して、追跡モジュール260は、音源が移動したと決定し得る。追跡モジュール260は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。
ビームフォーミングモジュール270は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、1つまたは複数のATFを処理し、それによって適応ビームフォーマとして機能するように構成される。センサーアレイ220によって、および場合によっては光学マイクロフォン145によって検出された音を分析する際に、ビームフォーミングモジュール270は、ローカルエリアの特定のエリアからの関連する音を強調するが、エリアの外側からのものである音を強調しないように、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール270は、たとえば、DOA推定モジュール240および追跡モジュール260からの異なるDOA推定値に基づいて、ローカルエリアにおける他の音ソースから、特定の音ソースからの音に関連するオーディオ信号を切り離し得る。したがって、ビームフォーミングモジュール270は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール270は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール270は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を除去する、音フィルタを適用し得る。信号拡張は、センサーアレイ220によって検出された他の音に対して所与の識別された音ソースに関連する音を拡張するように働く。
処理モジュール275は、光学マイクロフォンアセンブリ222からの出力信号を使用してローカルエリア内の音を測定する。出力信号は、たとえば、皮膚から反射された光の一部の振幅に対応する信号であってもよい。たとえば、オーディオコントローラは、検出された光を、光振幅を検出器(すなわち、皮膚位置)からの距離にマッピングするモデルに入力することができる。これについては、図3に関して以下でさらに説明する。
1つまたは複数の光学マイクロフォン145が干渉形態にある場合、出力信号は、たとえば混合信号であってもよい。検出された混合信号は、動的高周波成分と変調成分とを含む。動的高周波成分は、皮膚の照射部分と検出器との間の距離の関数として変化する(周波数のシフト)。測定される振動の振幅は、たとえば、50nm(例えば、ユーザのささやき)~1.5ミクロン(たとえば、ユーザの呼びかけ、ローカルエリアにおける何らかの他の大きな騒音)であり得ることに留意されたい。したがって、ローカルエリアの音に起因する皮膚の振動は、動的高周波成分の変化をもたらす。処理モジュールは、動的高周波成分から、ユーザの皮膚の振動を引き起こしたであろう対応する音を推測することによって音を測定する。さらに、音によって引き起こされるユーザの皮膚の振動は、たとえば、動作ノイズと呼ばれるユーザの動き(たとえば、歩行、走行)によって引き起こされる振動とははるかに異なる周波数にある。処理モジュール275は、動きノイズに対応する動的高周波成分の部分を分離および/または除去することができる。
音声駆動組織振動の大きさは、より高い可聴周波数で減少することに留意されたい。これは、音声駆動振動が骨および軟組織を伝播するときの骨伝導音声の低域通過性に起因し得る。この解剖学的ローパスフィルタの特徴は、光学マイクロフォンがより高い周波数で音声コンテンツ情報をどれだけ良好に感知できるかに影響を及ぼし得る。したがって、いくつかの例では、(たとえば、ユーザの)音声の高周波成分が減衰され得る。高周波成分は、たとえば、2kHzを超える周波数を有するオーディオコンテンツであってもよい。
処理モジュール275は、感知された音声コンテンツ(例えば、より高い周波数の場合)を増強および/または再構築することができる。処理モジュール275は、たとえば、行列因子分解ベースの帯域幅拡張方法を使用して、感知された音声の高周波数コンテンツを再構成することができる。1つまたは複数の音響マイクロフォンを使用して得られたきれいな音声記録を使用して、ユーザの広帯域スペクトルベースを学習する。これらの広帯域ベースは、音声の低周波コンテンツおよび高周波コンテンツの両方を含む。そして、それらの低周波数コンテンツは、広帯域音声を取得するために広帯域ベースをどのように組み合わせるべきかを学習するために(光学マイクロフォンで取得された)狭帯域音声で使用される。
別の実施形態では、処理モジュール275は、ニューラルネットワークベースのオーディオ超分解能方法を使用して、高周波数コンテンツを再構築することができる。ネットワークがスペクトル領域で訓練されている場合、オーディオ超分解能は、低周波数コンテンツから高周波数コンテンツを外挿する(インペインティングする)ことを可能にする。ネットワークが時間領域で訓練されている場合、ネットワークは、狭帯域波形を時間領域で補間して、高周波数コンテンツを有する広帯域音声を取得する。あるいは、一方が時間領域にあり、他方が周波数領域にある2つのネットワークを一緒に訓練することも可能である。2つのネットワークの結果は、融合層と組み合わせることができ、または2つのネットワークをカスケード接続することができる。1つまたは複数の光学マイクロフォンおよび音響マイクロフォンの同時記録を、これらのニューラルネットワークの訓練に使用することができる。次いで、学習されたネットワークを使用して、1つまたは複数の光学マイクロフォンで得られた音声の高周波数コンテンツを再構成することができる。
狭帯域電話信号から広帯域音声を再構成するために、同様の方法が文献で首尾よく使用されていることに留意されたい。電話アプリケーションでは、狭帯域および広帯域音声の低周波数コンテンツは同じである。しかしながら、光学マイクロフォンで捕捉された音声の低周波数コンテンツは、音響マイクロフォンで捕捉されたものとは異なり得る。この違いを説明するために、光学マイクロフォンから得られた基底を音響マイクロフォンにマッピングする重み行列を、因数分解ベースの方法に含めることができる。この行列は、訓練中に学習することができる。オーディオ超分解能ネットワークを訓練するとき、1つまたは複数の畳み込み層を入力層として挿入することができる。適切な訓練により、追加の層は、光学マイクロフォンの低周波数コンテンツの音響マイクロフォンへのマッピングを学習するのを助けることができる。
処理モジュール275は、再構築された高周波成分で音声の測定された音を更新することができる。再構成された高周波成分は、高周波成分の減衰を緩和する。
処理モジュール275は、光学マイクロフォンアセンブリ222から出力された信号(例えば、混合信号)を使用して、検出された音におけるユーザの音声を識別してもよい。出力信号は、たとえば、ユーザが話すとき、および/またはローカルエリアからの音が皮膚を振動させるときに、ユーザの皮膚に生じる振動である。いくつかの実施形態では、1つまたは複数の光学マイクロフォン145はVADとして機能してもよい。このように、処理モジュール275は、1つまたは複数の光学マイクロフォンアセンブリ222からの出力信号およびローカルエリアからの音を、入力を使用してローカルエリアからの検出音におけるユーザの音声を識別するモデルに入力することができる。
いくつかの実施形態では、処理モジュール275は、ユーザの識別された音声がコマンドを含むと決定することができる。そして、オーディオシステム200および/またはヘッドセット100は、コマンドに従ってアクションを実行することができる。アクションは、オーディオシステム200および/またはヘッドセット100のいくつかの動作を制御することができる。アクションは、たとえば、音源、音量の減少/増加、オーディオシステム200および/またはヘッドセット100の動作を制御する何らかの他のアクション、またはそれらの何らかの組合せを指すことができる。
処理モジュール275は、光学マイクロフォンアセンブリ222からの検出された組織振動(すなわち、出力信号)およびセンサーアレイ220からの検出された音を多くの方法で使用する。いくつかの実施形態では、処理モジュール275は、センサーアレイ220から検出された音を使用して、1つまたは複数の光学マイクロフォン145を較正する。
いくつかの実施形態では、処理モジュール275は、光学マイクロフォン145および/またはセンサーアレイ220からの測定された音のうちの抑制用の1つまたは複数の音(例えば、バックグラウンドノイズ)を識別する。次いで、処理モジュール275は、アクティブノイズキャンセルプロセスの一部としてこの情報を音フィルタモジュール280に提供することができる。音フィルタは、オーディオコンテンツに対応するオーディオ信号を修正するために適用されてもよい。そして、トランスデューサアレイ210は、修正されたオーディオ信号を修正されたオーディオコンテンツとしてユーザに提示することができ、修正されたオーディオコンテンツは、オーディオコンテンツと、ノイズを抑制する抑制コンポーネントとを含む。
いくつかの実施形態では、処理モジュール275は、光学マイクロフォンアセンブリ222からの出力信号を使用して、ユーザの頭部上のヘッドセットの滑りを監視してもよい。たとえば、ヘッドセットがユーザの頭部上の新しい静止位置に移動すると、距離にオフセットが生じる。処理モジュール275は、出力信号内のオフセットを識別して、ユーザ上のヘッドセットの位置を識別および/または監視することができる。新しい位置情報は、より正確な音フィルタを生成するために、たとえば音フィルタモジュール280によって使用されてもよい。
音フィルタモジュール280は、トランスデューサアレイ210のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。音フィルタモジュール280は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響プロパティを表す。音響パラメータは、たとえば、残響時間、残響レベル、ルームインパルス応答などを含むことができる。いくつかの実施形態では、音フィルタモジュール280は、音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール280は、(たとえば、図9に関して以下で説明するように)マッピングサーバに音響パラメータを要求する。
音フィルタモジュール280は、検出された音声におけるユーザの識別された音声に基づいて、1つまたは複数の音フィルタを更新することができる。1つまたは複数の更新された音フィルタは、オーディオコンテンツに適用されて、修正されたオーディオコンテンツを生成することができる。たとえば、音フィルタモジュール280は、オーディオコンテンツに適用されると、修正されたオーディオコンテンツがユーザの識別された音声を強調するように、音フィルタを更新することができる。いくつかの実施形態では、音フィルタモジュール280は、音フィルタを更新して、1つまたは複数の光学マイクロフォン145および/またはセンサーアレイ220によって検出された1つまたは複数の音を抑制することができる(すなわち、アクティブノイズキャンセルを実行する)。いくつかの実施形態では、音フィルタモジュール280は、音響フィルタおよび/または修正されたオーディオコンテンツをトランスデューサアレイ210および/またはローカルエリア内の1つまたは複数の他のオーディオシステムに提供する。音フィルタモジュール280は、たとえばローカル無線ネットワーク(たとえば、WIFI、BLUETOOTHなど)を介して、1つまたは複数の更新された音フィルタおよび/または変更されたオーディオコンテンツを1つまたは複数の他のオーディオシステムへ提供してもよい。このようにして、ユーザの音声を他のオーディオシステムのユーザにリアルタイムで提示することができ、これは、他のユーザがユーザの音声を聞くことが困難な騒音環境において(たとえば、サッカーの試合の群衆または他の何らかの低音響SNR環境において)特に有用であり得る。
図3は、一実施形態または複数の実施形態に係る、鼻パッド310内の異なる位置に配置された光源330および検出器340を有する光学マイクロフォン320を含む例示的な鼻パッド310である。鼻パッド310は、ヘッドセット(例えば、ヘッドセット100)の鼻パッドの一例である。光学マイクロフォン320は、光学マイクロフォン145の一実施形態であり、光源330および検出器340は、鼻パッド310内の異なる位置に配置され、しきい値距離だけ互いから離される。検出器340および光源330は、それらが二重経路干渉計であるか共通経路干渉計であるかに応じて、異なるダイまたは同じダイ上に配置され、そのような場合、しきい値距離は干渉計アーム長によって決定される。図3に示すように、光源330は、鼻の一部に光を照射する。そして、検出器340は、鼻によって散乱および反射された光の一部を検出する。
皮膚の振動は、発せられた光のうちどれだけの光がユーザの皮膚から反射および/または散乱されるかに影響を及ぼし得る。いくつかの実施形態では、オーディオコントローラは、検出された光を処理して、検出された光の変調強度に基づいてローカルエリアからの音を測定する。たとえば、オーディオコントローラは、検出された光を、光振幅を検出器340からの距離(すなわち、皮膚位置)にマッピングするモデルに入力することができる。たとえば、第1の時間において、検出された光は、比較的低い振幅信号を有することができ、第2の時間において、検出された光は、増大された振幅信号を有することができる。したがって、皮膚は、第1の時間の間、第2の時間よりも遠くに離れている。このようにして、オーディオコントローラは、検出された信号の振幅を使用して皮膚の振動を監視することができる。
いくつかの実施形態では、光源330から発せられた光は、基準ビームと感知ビームとに分割される。基準ビームは、検出器340に供給される。これらの実施形態では、検出器340は、検出器340が混合信号を検出するべく構成されるように、光源330と干渉形態にある。たとえば、基準ビームを検出器340に供給する光導波路(例えば、繊維)があってもよい。基準ビームは、鼻から反射および散乱された感知ビームの一部と混合して混合ビームを生成し、混合ビームは混合信号として検出器によって検出される。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。
図4は、一実施形態または複数の実施形態に係る、自己混合干渉計として構成された例示的な光学マイクロフォン400である。光学マイクロフォン400は、光源(図示せず)と、検出器(図示せず)と、光学素子とを備える。光学マイクロフォン400は光学マイクロフォン145の一実施形態であり、光源および検出器は、同じ装置の一部であり、自己混合干渉計として構成されるように機能するべく構成される。光学マイクロフォン400は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい(たとえば、側部発射位置において)。光学マイクロフォン400の様々な実施形態は、図5A、図5B、および図5Cに関して以下で詳述される。
光学マイクロフォン400は、自己混合干渉計として構成されている。自己混合干渉法に基づくシステムは、反射光がレーザキャビティ内でフィードバックされてレーザのパワーを変調し、レーザキャビティがロックイン増幅器として作用してマイクロフォンSNRを増加させるシステムである。自己混合干渉計システムでは、検出器(例えば、フォトダイオード)は、レーザ強度を測定するために横方向または垂直方向に変位されてレーザダイ上に配置されてもよい。いくつかの実施形態では、光源は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを検出器に供給する。これに加えてまたは代えて、光源から発せられた光の一部は、光学素子によって反射されて検出器に向かって戻ることができ、反射光の一部は基準ビームである。検出器は、光源との干渉形態(自己混合干渉計として機能する)にあり、混合信号を検出するように構成される。混合信号は、鼻から反射および散乱された感知ビームの一部と混合する基準ビームから形成された混合ビームに対応する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。
図5Aは、一実施形態または複数の実施形態に係る、その構成要素が直列構成の自己混合干渉計として構成された光学マイクロフォン500である。光学マイクロフォン500は、光源510と、光学素子520と、検出器530とを備える。いくつかの実施形態では、光源510および検出器530は同じダイに結合される。光学マイクロフォン500は、光学マイクロフォン400の一実施形態である。
図示のように、光源510(例えば、VCSEL)は光を発する。発せられた光は光学素子520(例えば、レンズ)に入射し、放射光の一部は感知ビームとして光学素子520によって透過され、発せられた光の一部は基準ビームとして検出器530に向かって反射される。いくつかの実施形態(図示せず)では、光源510は、感知ビームとして光学素子に向かって、および基準ビームとして検出器530に向かって光を発することができることに留意されたい。感知ビームの一部は、ユーザの皮膚から散乱および/または反射し、次いで光学素子520および光源510を通過して、検出器530で基準ビームと混合して混合ビームを形成する。検出器530は、この混合光を混合信号として検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。
図5Bは、一実施形態または複数の実施形態に係る、その構成要素が並列構成にある自己混合干渉計として構成された光学マイクロフォン540である。光学マイクロフォン540は、光源545と、光学素子520と、検出器550とを備える。いくつかの実施形態では、光源510および検出器530は同じダイに結合される。光源545および検出器550は、平行な構成に配置されていることを除いて、光源510および検出器530と実質的に同じであり、検出器550もここで光学素子520に結合される。光学マイクロフォン500は、光学マイクロフォン400の一実施形態である。
図示のように、光源545(例えば、VCSEL)は光を発する。発せられた光は光学素子520(例えば、レンズ)に入射し、発せられた光の一部は感知ビームとして光学素子520によって透過され、発せられた光の一部は基準ビームとして検出器550に向かって反射される。感知ビームの一部は、ユーザの皮膚から散乱および/または反射し、次いで光学素子520を通過して検出器550で基準ビームと混合して混合ビームを形成する。検出器550は、この混合光を混合信号として検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。
図5Cは、1つまたは複数の環境に応じた二つの自己混合干渉計を含む対にされた光学マイクロフォン560の一例である。光学マイクロフォン560は、光源510aと、光源510bと、光学素子570と、検出器530aと、検出器530bと、ブロック580とを備える。いくつかの実施形態では、光源510a、光源510b、検出器530a、検出器530b、およびブロック580は、同じダイに結合される。光源510aおよび510bは、光源510と実質的に同じであり、検出器530aおよび検出器530bは、検出器530と実質的に同じである。光学素子570は、複数の光源に結合されることを除いて、光学素子520と実質的に同じである。光学マイクロフォン560は、光学マイクロフォン400の一実施形態である。
対にされた光学マイクロフォン560は、1つまたは複数の光学素子と、複数の光源と、複数の対応する検出器とを含む。そして、各光源は、それぞれの光学マイクロフォンを形成するためにその対応する検出器と並列または直列構成のいずれかである。たとえば、図示のように、光源510aは、対応する検出器530aと直列構成にあり、光源510bは、対応する検出器530bと直列構成にある。いくつかの実施形態では、光源510aおよび光源510bは同じ波長で発光する。代替の実施形態では、光源510aおよび光源510bは、異なる波長で発光する。たとえば、光源510aは780nmで発光し、光源510bは850nmで発光してもよい。したがって、光源510a、検出器520a、および光学素子570は、自己混合干渉計として構成され、その構成要素が直列構成(例えば、図5Aに示すように、)である第1の光学マイクロフォンを形成する。光源510b、検出器520b、および光学素子570は、その構成要素が直列構成の自己混合干渉計として構成される第2の光学マイクロフォンを形成する。図示の例では2つの光学マイクロフォンが示されているが、他の実施形態では、光学素子570にも結合される追加の光学マイクロフォンが形成されてもよいことに留意されたい。
ブロック580を介して、二つの光学マイクロフォン間のクロストークが緩和される。ブロック580は、光源510a,510bによって発せられる光を透過しない材料(例えば、吸収性または反射性)からなる。いくつかの実施形態では、ブロック580は、エミッタと共に単一チップを形成するための半導体ダイの一部であってもよい。いくつかの実施形態では、ブロック580は、トウ個々のチップを互いに接合するために使用される金属である。なお、光学素子570に対する2つの光学素子の位置を異ならせることで、各光学マイクロフォンの出射角を異ならせることができる。たとえば、光源510aおよび検出器530aを用いて形成された光学マイクロフォンは、感知ビーム585を発し、光源510aおよび検出器530aを用いて形成された光学マイクロフォンは、感知ビーム590を発する。そして、感知ビーム585および590は、異なる角度で光学素子570から発せられる。
対にされた光学マイクロフォン560は、同時に2つの異なる位置を監視することができる。対照的に、光学マイクロフォン500,540は単一の位置を監視する。なお、光学マイクロフォン540は、フルウェハ処理よりも二素子のパッケージング技術を用いたほうが実現が容易であり得る。
図6は、一実施形態または複数の実施形態に係る、LDVとして構成される光学マイクロフォン600の一例である。光学マイクロフォン600は、光源610(たとえば、エッジ発光レーザ)、検出器620(たとえば、フォトダイオード)、導波路構造630、および光学アンテナ640を含み、これらはすべてフォトニック集積回路の一部として基板650上にある。いくつかの実施形態では、光学マイクロフォン600は、追加の構成要素を含むことができる。光学マイクロフォン600は、LDV構成を使用する光学マイクロフォン145の一実施形態である。光学マイクロフォン600は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい(たとえば、側部発射位置において)。
導波路構造630は、光学マイクロフォン600の各種部品に光を導波する光導波路である。導波路構造630は、たとえば、光源610、光スプリッタ692、1つまたは複数の光学アンテナ640、光コンバイナ695、検出器620、1つまたは複数の光増幅器、またはそれらの何らかの組合せを、様々なセクションを介して互いに結合することができる。セクションは、放射セクション660、基準セクション670、送信感知セクション680、受信感知セクション685、および混合セクション690を含む。導波路構造はまた、光スプリッタ692と、光コンバイナ694とを含み、レーザ増幅器を含んでもよい。光スプリッタ692は、放射セクション660からの光の一部(例えば、50%)を送信感知セクション680に分離し、放射セクション660からの光の残りの部分を基準セクション670に分離する。いくつかの実施形態では、光パワーの他の一部(例えば、80%)は、基準セクション670よりも送信感知セクション680に分割される。同様に、光コンバイナは、受信した感知セクション685からの光を基準セクション670からの光と混合セクション690に結合する。光学マイクロフォン600は、光を増幅する1つまたは複数の光増幅器を含んでもよい。たとえば、光学アンテナ640によって出力される前の光を増幅し、および/または光学アンテナ640によって結合された光を増幅するように配置されてもよい。
光学アンテナ640は、光学マイクロフォン600に光を出力して取り込む。光学アンテナ640は、たとえばグレーティングカプラであってもよい。図示の実施形態は、光学アンテナ640を介した光の共通入出力経路を含むことに留意されたい。他の実施形態(図示せず)では、感知ビームをアウトカップリングするための光学アンテナと、ユーザの皮膚から反射および/または散乱された感知ビームの一部を受信するための別個の光学アンテナとがあってもよい。
光源610は、導波路構造630の放射セクション660に結合される光を発する。光スプリッタ692は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを基準セクション670に供給し、感知ビームを送信感知セクション680に供給する。送信感知セクション680は感知ビームを光学アンテナ640に提供し、光をローカルエリアにアウトカップリングする(たとえば、ユーザの皮膚を照らすために)。いくつかの実施形態では、光は、光学アンテナ640によって発せられる前に光増幅器を使用して増幅されてもよいことに留意されたい。感知ビームの一部は、ユーザの皮膚によって反射および/または散乱され、光学アンテナ640を介して導波路構造630に結合される。受信感知セクション685はこの光を光コンバイナ695に提供する。いくつかの実施形態では、光は、光コンバイナ695に渡される前に光増幅器を使用して増幅されてもよいことに留意されたい。光コンバイナ695は、感知ビームの受信部分を基準ビームと結合して、混合セクション690に結合される混合ビームを生成する。検出器620は、混合ビームを受信し、対応する混合信号を検出する。オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。
基板650は、半導体材料、シリコン、シリコン・オン・インシュレータ、ガリウムヒ素、アルミニウムガリウムヒ素、シリコン・オン・サファイアなどの任意の標準チップ基板材料から形成されてもよい。基板650はまた、ガラス、プラスチック、ポリマー、PMMA、シリカ、および任意の形態の結晶(たとえば、ニオブ酸リチウム、二酸化テルルなど)などの可視スペクトル帯域(400nm~700nm)の任意の透明材料から形成されてもよい。基板650の表面は、ヘッドセット(例えば、ヘッドセット100)に接合されてもよい。光学マイクロフォン600の構成要素は、任意の標準的な接合技術によって基板650に接合されてもよく、および/または任意の標準的なエッチングもしくはエピタキシャル成長技術によって基板上に形成されてもよい。
図7は、一実施形態または複数の実施形態に係る、光コヒーレンストモグラフィ(OCT)を使用するように構成された光学マイクロフォン700の一例である。OCTはLCIの一形態である。光学マイクロフォン700は、光源710、検出器720、導波路構造730、および光学アンテナ740を含み、これらはすべてフォトニック集積回路の一部である。いくつかの実施形態では、光学マイクロフォン700は、追加の構成要素を含むことができる。光学マイクロフォン700は、OCT構成の光学マイクロフォン145の一実施形態である。光学マイクロフォン700は、たとえば、ヘッドセットの鼻パッドに埋め込まれてもよく、ヘッドセットのフレームに結合されてもよい(たとえば、側部発射位置において)。いくつかの実施形態では、光学マイクロフォン700の構成要素の一部またはすべては、基板(例えば、基板650)に結合および/または形成されてもよい。
導波路構造730は、光学マイクロフォン700の各種部品に光を導波する光導波路である。導波路構造730は、たとえば、光源710(たとえば、波長可変レーザ源)、1つまたは複数の光スプリッタ、1つまたは複数のコンバイナ、1つまたは複数の光学アンテナ740、検出器720、1つまたは複数の光増幅器、またはそれらの何らかの組合せを、様々なセクションを介して互いに結合することができる。セクションは、放射セクション760、基準セクション770、送信/受信セクション780、感知セクション785、および混合セクション790を含む。
導波路構造はまた、光スプリッタ792と、光スプリッタ794と、光スプリッタ796とを含み、レーザ増幅器も含み得る。光スプリッタ794は、放射セクション760からの光の一部をKクロックに分岐する。光スプリッタ794は、放射セクション760からの光の一部(例えば、50%)を送信/受信セクション780に分離し、放射セクション760からの光の残りの一部(例えば、残りの50%)を基準セクション770に分離する。いくつかの実施形態では、光パワーの他の一部は、基準セクション770よりも送信/受信セクション780に分割される。なお、光スプリッタ792は、送信/受信セクション780から反対方向に進行する光(すなわち、光学アンテナ740から結合された光)の一部(例えば、50%)も感知セクション785に分岐する。光スプリッタ796は、感知セクション785からの光の第1の部分(例えば、50%)および基準セクション770からの光の第1の部分(例えば、50%)を混合セクション790の第1の導波路に結合し、感知セクション785および基準セクション770の両方における光の残りの部分を混合セクション790の第2のチャネルに結合する。光学マイクロフォン700は、光を増幅する1つまたは複数の光増幅器を含んでもよい。たとえば、光学アンテナ740によって出力される前の光を増幅し、および/または光学アンテナ740によって結合された光を増幅するように配置されてもよい。
光源710(例えば、波長可変レーザ源)は、導波路構造730の放射セクション760に結合される光を発する。光スプリッタ794は、放射セクション760からの光の一部を分割し、その後Kクロックに結合される。Kクロックは、出力波長が直線的に掃引されるように光源710を同期させ、それにより、検出器720によって検出された混合信号を処理してデジタル信号に変換するアナログデジタル変換器(図示せず、ただし、その機能はオーディオコントローラによって実行されてもよい)における波数の間隔が等しくなる。残りの光は、放射セクション760によって光スプリッタ792に透過される。光スプリッタ792は、発せられた光を基準ビームと感知ビームとに分割し、基準ビームを基準セクション770に供給し、感知ビームを送信/受信セクション780に供給する。送信/受信セクション780は、感知ビームを、光をローカルエリアにアウトカップリングする光学アンテナ740に導く(たとえば、ユーザの皮膚を照らすために)。いくつかの実施形態では、光は、光学アンテナ740によって発せられる前に光増幅器を使用して増幅されてもよいことに留意されたい。
感知ビームの一部は、ユーザの皮膚によって反射および/または散乱され、光学アンテナ740を介して送信受信セクション780に結合される。送信/受信セクション780は、光スプリッタ792に入射光を導く。光スプリッタ792は、光の一部を感知セクション785に分割する。感知セクション785は、光を光スプリッタ796に導く。いくつかの実施形態では、光は、光スプリッタ796に送られる前に光増幅器を使用して増幅されてもよいことに留意されたい。光スプリッタ796は、感知セクション785からの光の第1の部分(例えば、50%)および基準セクション770からの光の第1の部分(例えば、50%)を混合セクション790の第1の導波路に結合し、感知セクション785および基準セクション770の両方における光の残りの部分を混合セクション790の第2のチャネルに結合する。検出器720は、混合ビームを受信し、一対の平衡光検出器を介して対応する混合信号を検出する。
オーディオコントローラは、検出された混合信号を処理してローカルエリアからの音を測定する。OCT構成では、検出された干渉パターン(混合信号として表される)は、波長/波数の関数であり、フリンジ周波数が皮膚の深さに対応するとともにその振幅が皮膚の反射率に対応する、ビーム軸に沿った皮膚の軸方向プロファイルを提供する。OCTには様々な形態があり、他の実施形態では、光学マイクロフォン700は、これらの他の形態のうちの一方(例えば、位相感受性OCT)で動作するように構成されてもよいことに留意されたい。
図8は、1つまたは複数の実施形態に係る、干渉形態において光学接触トランスデューサを使用するためのプロセスを示すフローチャートである。図8に示されるプロセスは、オーディオシステム(たとえば、オーディオシステム200)の構成要素によって実施され得る。他のエンティティが、他の実施形態において図8中のステップの一部または全部を実施し得る。実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
オーディオシステムは、光学マイクロフォンの光源から、基準ビームおよび感知ビームを含む光を発する(810)。光学マイクロフォンは、光学マイクロフォン145の一実施形態であり、図3、図4、図5A、図5B、および図5Cに関連して前述したように構成することができる。光学マイクロフォンは、ヘッドセットに組み込まれてもよい。発せられた光は連続波であり、その駆動電流は変調され得る(たとえば、10kHz)。光学マイクロフォンは、オーディオシステムのローカルエリア内の音(たとえば、ユーザの音声、他人、ノイズ源など)によって引き起こされるユーザの皮膚の振動を監視するように配置される。
オーディオシステムは、感知ビームをユーザの皮膚(たとえば、顔の1つまたは複数の異なる部分または同じ部分)に照射する(820)。たとえば、感知ビームは、ユーザの皮膚を照らすために光学マイクロフォンの光学素子を介して屈折されてもよい。
感知ビームの一部は、ユーザの皮膚から散乱および/または反射して、検出器で基準ビームと混合して混合ビームを形成する。
オーディオシステムは、光源との干渉形態にある検出器を介して、混合信号(検出された混合ビーム)を検出する(830)。干渉形態は、光源および検出器が干渉計システム(たとえば、自己混合干渉計、マイケルソン干渉計、OCT、LDVなど)を形成するようなものである。
オーディオシステムは、混合信号を使用してローカルエリア内の音を測定する(840)。検出された混合信号は、動的高周波成分と変調成分とを含む。動的高周波成分は、皮膚の照射部分と検出器との間の距離の関数として変化する(周波数のシフト)。振動測定の振幅は、たとえば、50nm(例えば、ユーザのささやき)~1.5ミクロン(例えば、ユーザの呼びかけ)であってもよいことに留意されたい。したがって、ローカルエリアの音に起因する皮膚の振動は、動的高周波成分の変化をもたらす。オーディオシステムは、動的高周波成分から、ユーザの皮膚の振動を引き起こしたであろう対応する音を推測することによって音を測定する(640)。さらに、音によって引き起こされるユーザの皮膚の振動は、たとえば、ユーザの動き(たとえば、歩行、走行)によって引き起こされる振動とははるかに異なる周波数にあるので、オーディオシステムは、ローカルエリアからの音に対応する動的高周波成分の部分を分離および/または除去することができる。
いくつかの実施形態では、測定された音はユーザの音声を含み、音声の高周波成分は音声の低周波に対して減衰される。オーディオシステムは、たとえば、行列因子分解ベースの帯域幅拡張、ニューラルネットワークベースのオーディオ超分解能などを介して音声の高周波成分を再構築することができる。オーディオシステムは、次に、再構築された高周波成分を用いて音声の測定された音を更新することができる。
オーディオシステムは、光学マイクロフォンによって測定された音に部分的に基づいて様々なアクションを実行することができる。また、実施形態では、オーディオシステムは、マイクロフォンアレイ、マイクロフォンアレイによって検出された音、またはそれらの何らかの組合せも含む。アクションは、たとえば、ユーザの音声を強化すること、音声アクティビティ検出(VAD)のために1つまたは複数の光学マイクロフォンを使用すること、アクティブノイズキャンセリングを実行することなどを含むことができる。
図9は、1つまたは複数の実施形態に係る、ヘッドセット905を含むシステム900である。いくつかの実施形態において、ヘッドセット905は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム900は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)において動作し得る。図9によって示されるシステム900は、ヘッドセット905と、コンソール915に結合される入力/出力(I/O)インターフェース910と、ネットワーク920と、マッピングサーバ925とを含む。図9は、1つのヘッドセット905と1つのI/Oインターフェース910とを含む例示的なシステム900を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム900中に含まれ得る。たとえば、各々が関連するI/Oインターフェース910を有する複数のヘッドセットがあってもよく、各ヘッドセットおよびI/Oインターフェース910はコンソール915と通信する。代替構成では、異なるおよび/または追加の構成要素がシステム900中に含まれ得る。さらに、図9に示される構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図9に関して説明されるものとは異なる様式で構成要素間で分散され得る。たとえば、コンソール915の機能性の一部または全部がヘッドセット905によって提供され得る。
ヘッドセット905は、ディスプレイアセンブリ930と、光学ブロック935と、1つまたは複数の位置センサー990と、DCA945とを含む。ヘッドセット905のいくつかの実施形態は、図9に関して説明されるものとは異なる構成要素を有する。さらに、図9に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット905の構成要素間で異なって分散されるか、またはヘッドセット905から離れた別個のアセンブリにおいて検出され得る。
ディスプレイアセンブリ930は、コンソール915から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ930は、1つまたは複数のディスプレイ要素(たとえば、ディスプレイ要素120)を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ930は、単一のディスプレイ要素または複数のディスプレイ要素(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例としては、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せが挙げられる。いくつかの実施形態では、ディスプレイ要素120は光学ブロック935の機能性の一部または全部をも含み得ることに留意されたい。
光学ブロック935は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット905の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック935は、1つまたは複数の光学素子を含む。光学ブロック935中に含まれる例示的な光学素子は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学素子を含む。その上、光学ブロック935は、異なる光学素子の組合せを含み得る。いくつかの実施形態では、光学ブロック935中の光学素子のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック935による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。
いくつかの実施形態では、光学ブロック935は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック935が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック935はそのひずみを補正する。
位置センサー940は、ヘッドセット905の位置を示すデータを生成する電子デバイスである。位置センサー940は、ヘッドセット905の動作に応答して1つまたは複数の測定信号を生成する。位置センサー190は、位置センサー940の一実施形態である。位置センサー940の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、動作を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー940は、並進動作(前/後、上/下、左/右)を測定するための複数の加速度計と、回転動作(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット905の推定位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット905上の基準点の推定位置を決定する。基準点は、ヘッドセット905の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット905内の点として定義される。
DCA945はローカルエリアの一部分についての深度情報を生成する。DCAは、1つまたは複数のイメージングデバイスとDCAコントローラとを含む。DCA945は照明器をも含み得る。DCA945の動作および構造は、図1Aに関して上記で説明された。
オーディオシステム950は、ヘッドセット905のユーザにオーディオコンテンツを提供する。オーディオシステム950は、上記で説明するオーディオシステム200と実質的に同じである。オーディオシステム950は、1つまたは複数の音響センサー(例えば、センサーアレイの一部として)と、1つまたは複数のトランスデューサ(たとえば、トランスデューサアレイの一部として)と、1つまたは複数の光学マイクロフォンと、オーディオコントローラとを備えてもよい。たとえば、図1~図6に関して前述したように、1つまたは複数の光学マイクロフォンからの出力信号は、オーディオシステム950が低音響SNR環境において良好に機能することを容易にする。いくつかの実施形態では、1つまたは複数の光学マイクロフォンからの出力信号を使用して、たとえば、センサーアレイを較正し、アクティブノイズキャンセル、VADなどに使用することができる。オーディオシステム950は、空間化されたオーディオコンテンツをユーザに提供することができる。いくつかの実施形態において、オーディオシステム950は、ネットワーク920を介してマッピングサーバ925に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの1つまたは複数の音響プロパティ(たとえば、室内インパルス応答、残響時間、残響レベルなど)を表す。オーディオシステム950は、たとえば、DCA945からのローカルエリアの少なくとも一部分を表す情報、および/または位置センサー940からのヘッドセット905についての位置情報を提供し得る。オーディオシステム950は、マッピングサーバ925から受信された音響パラメータの1つまたは複数を使用して、1つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。
I/Oインターフェース910は、ユーザがアクション要求を送り、コンソール915から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行するための要求である。たとえば、アクション要求は、画像データまたはビデオデータの検出を開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であってもよい。I/Oインターフェース910は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール915に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース910によって受信されたアクション要求は、コンソール915に通信され、コンソール915は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース910は、I/Oインターフェース910の初期位置に対するI/Oインターフェース910の推定位置を示す較正データを検出するIMUを含む。いくつかの実施形態では、I/Oインターフェース910は、コンソール915から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール915がアクションを実施するときに、コンソール915が、I/Oインターフェース910に命令を通信して、I/Oインターフェース910が触覚フィードバックを生成することを引き起こす。
コンソール915は、DCA945、ヘッドセット905、およびI/Oインターフェース910のうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット905に与える。図9に示される例において、コンソール915は、アプリケーションストア955と、追跡モジュール960と、エンジン965とを含む。コンソール915のいくつかの実施形態は、図9に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図9に関して説明されるものとは異なる様式でコンソール915の構成要素間で分散され得る。いくつかの実施形態では、コンソール915に関して本明細書で説明される機能性は、ヘッドセット905、またはリモートシステムにおいて実装され得る。
アプリケーションストア955は、コンソール915が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット905またはI/Oインターフェース910の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例としては、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の適したアプリケーションが挙げられる。
追跡モジュール960は、DCA945、1つまたは複数の位置センサー940、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット905またはI/Oインターフェース910の動きを追跡する。たとえば、追跡モジュール960は、ヘッドセット905からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット905の基準点の位置を決定する。追跡モジュール960は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール960は、ヘッドセット905の将来の位置を予測するために、位置センサー940からのヘッドセット905の位置を示すデータの部分ならびにDCA945からのローカルエリアの表現を使用し得る。追跡モジュール960は、ヘッドセット905またはI/Oインターフェース910の推定または予測された将来の位置をエンジン965に提供する。
エンジン965は、アプリケーションを実行し、追跡モジュール960から、ヘッドセット905の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン965は、ユーザへの提示のためにヘッドセット905に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン965は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット905のためのコンテンツを生成する。さらに、エンジン965は、I/Oインターフェース910から受信されたアクション要求に応答して、コンソール915上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット905を介した視覚または可聴フィードバック、あるいはI/Oインターフェース910を介した触覚フィードバックであり得る。
ネットワーク920は、ヘッドセット905および/またはコンソール915をマッピングサーバ925に結合する。ネットワーク920は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク920は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク920は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク920は、イーサネット、802.11、ワールドワイド・インタオペラビリティ・フォー・マイクロウェーブ・アクセス(WiMAX)、2G/3G/9Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCIエクスプレス高度スイッチングなどの技術を使用するリンクを含むことができる。同様に、ネットワーク920上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク920を介して交換されるデータは、バイナリ形式(たとえば、ポータブルネットワークグラフィックス(PNG))、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などの画像データを含む技術および/またはフォーマットを使用して表すことができる。さらに、リンクの全部または一部は、セキュアレイヤソケット(SSL)、トランスポート層セキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)などの従来の暗号化を使用して暗号化することができる。
マッピングサーバ925は、複数の空間を表す仮想モデルを記憶するデータベースを含んでもよく、仮想モデル中の1つの位置は、ヘッドセット905のローカルエリアの現在の構成に対応する。マッピングサーバ925は、ヘッドセット905からネットワーク920を介して、ローカルエリアおよび/またはローカルエリアについての位置情報の少なくとも一部分を表す情報を受信する。ユーザは、ヘッドセット905が情報をマッピングサーバ925に送信するのを可能にするまたは防ぐようにプライバシー設定を調整し得る。マッピングサーバ925は、受信された情報および/または位置情報に基づいて、ヘッドセット905のローカルエリアに関連する仮想モデル中の位置を決定する。マッピングサーバ925は、仮想モデル中の決定された位置および決定された位置に関連する任意の音響パラメータに部分的に基づいて、ローカルエリアに関連する1つまたは複数の音響パラメータを決定する(たとえば、取り出す)。マッピングサーバ925は、ローカルエリアの位置およびローカルエリアに関連する音響パラメータの任意の値をヘッドセット905に送信し得る。
システム900の1つまたは複数の構成要素は、ユーザデータ要素についての1つまたは複数のプライバシー設定を記憶するプライバシーモジュールを含んでいることがある。ユーザデータ要素は、ユーザまたはヘッドセット905を表す。たとえば、ユーザデータ要素は、ユーザの物理的特性、ユーザによって実行されたアクション、ヘッドセット905のユーザの位置、ヘッドセット905の位置、ユーザのHRTFなどを表すことができる。ユーザデータ要素におけるプライバシー設定(または「アクセス設定」)は、たとえば、ユーザデータ要素に関連して、認証サーバ上のインデックス内に、別の適切な様式で、またはそれらの任意の適切な組合せなど、任意の適切な様式で記憶され得る。
ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素(またはユーザデータ要素に関連付けられた特定の情報)がどのようにアクセスされ、記憶され、または場合によっては使用され(たとえば、観察、共有、修正、コピー、実行、表面化、または識別され)得るかを指定する。いくつかの実施形態では、ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素に関連付けられたある情報にアクセスしてはいけないエンティティの「ブロックリスト(blocked list)」を指定し得る。ユーザデータ要素に関連付けられたプライバシー設定は、許諾されるアクセスまたはアクセスの拒否の任意の好適なグラニュラリティを指定し得る。たとえば、一部のエンティティは、特定のユーザデータ要素が存在することを確かめるための許諾を有し得、一部のエンティティは、特定のユーザデータ要素のコンテンツを観察するための許諾を有し得、一部のエンティティは、特定のユーザデータ要素を修正するための許諾を有し得る。プライバシー設定は、他のエンティティが、有限時間期間の間、ユーザデータ要素にアクセスするかまたはユーザデータ要素を記憶することを可能にすることを、ユーザが可能にし得る。
プライバシー設定は、ユーザデータ要素がアクセスされ得る1つまたは複数の地理的ロケーションを、ユーザが指定することを可能にし得る。ユーザデータ要素へのアクセスまたはアクセスの拒否は、ユーザデータ要素にアクセスすることを試みているエンティティの地理的ロケーションに依存し得る。たとえば、ユーザは、ユーザデータ要素へのアクセスを可能にし、ユーザが特定のロケーションにいる間のみ、ユーザデータ要素がエンティティにとってアクセス可能であることを指定し得る。ユーザが特定のロケーションを離れた場合、ユーザデータ要素はエンティティにとって、もはやアクセス可能でないことがある。別の例として、ユーザは、ユーザデータ要素が、ユーザと同じローカルエリア内のヘッドセットの別のユーザなど、ユーザからしきい値距離内のエンティティのみにとってアクセス可能であることを指定し得る。その後、ユーザがロケーションを変更した場合、ユーザデータ要素へのアクセスをもつエンティティはアクセスを失い得るが、エンティティの新しいグループが、ユーザのしきい値距離内に自身が入るので、アクセスを獲得し得る。
システム900は、プライバシー設定を施行するための1つまたは複数の許可/プライバシーサーバを含み得る。特定のユーザデータ要素についてのエンティティからの要求が、要求に関連付けられたエンティティを識別し得、ユーザデータ要素は、ユーザデータ要素に関連付けられたプライバシー設定に基づいてエンティティがユーザデータ要素にアクセスすることを許可されると許可サーバが決定した場合、そのエンティティのみに送られ得る。要求元エンティティがユーザデータ要素にアクセスすることを許可されない場合、許可サーバは、要求されたユーザデータ要素が取り出されるのを防ぎ得るか、または要求されたユーザデータ要素がエンティティに送られるのを防ぎ得る。本開示は、特定の様式でプライバシー設定を施行することについて説明するが、本開示は、任意の好適な様式でプライバシー設定を施行することを企図する。
追加の構成情報
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して多くの修正および変形が可能であることを諒解することができる。
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して多くの修正および変形が可能であることを諒解することができる。
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、それはまた、一般性を失うことなく、動作のこれらの配置をモジュールとして参照するために、時には便利であることが証明されている。記載された動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現化される場合がある。
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、いずれかまたはすべての説明されるステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。
実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、またはコンピュータシステムバスに結合され得る、電子命令を記憶することに適した任意のタイプの媒体に記憶される場合がある。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、詳細な説明に基づく適用例に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。
Claims (20)
- 光学マイクロフォンであって、
基準ビームおよび感知ビームを含む光を発するように構成されるとともに、前記感知ビームをユーザの皮膚に照射するように構成され、ローカルエリアからの音が前記皮膚に振動を引き起こす、光源と、
検出器であって、該検出器が混合信号を検出するべく構成されるように前記光源との干渉形態にあり、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、検出器と、を備える光学マイクロフォン、および
前記混合信号を用いて前記音を測定するように構成されたオーディオコントローラ、
を備える、オーディオシステム。 - 前記干渉形態は、前記光源および前記検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも1つを形成するような形態である、請求項1に記載のオーディオシステム。
- 前記光源が前記検出器と当接し、前記光学マイクロフォンは、
前記光源に結合されるレンズであって、
前記光源から発せられた光を前記基準ビームと前記感知ビームとに分割し、
前記感知ビームを皮膚に方向付けるとともに前記基準ビームを前記検出器に向けて反射する、
ように構成される、レンズ、
をさらに備える、請求項1に記載のオーディオシステム。 - 第2の光学マイクロフォンをさらに備え、該第2の光学マイクロフォンは、
第2の基準ビームおよび第2の感知ビームを含む光を発するように構成されるとともに、前記感知ビームを前記ユーザの皮膚を照射するように構成される第2の光源と、
第2の検出器であって、該第2の検出器が第2の混合信号を検出するべく構成されるように前記第2の光源との干渉形態にあり、前記第2の混合信号が、前記皮膚によって反射される前記第2の感知ビームの一部と混合される前記第2の基準ビームに対応する、第2の検出器と、
第1の側面および第2の側面を含み、前記第1の側面が前記光学マイクロフォンに結合され、前記第2の側面が前記第2の光学マイクロフォンに結合されるブロックと、
前記光源、前記ブロック、および前記第2の光源に結合されるレンズであって、
前記光源から発せられた光を前記基準ビームと前記感知ビームとに分割し、前記第2の光源から発せられた光を前記第2の基準ビームと前記第2の感知ビームとに分割し、
前記感知ビームおよび前記第2の感知ビームを前記皮膚へ方向付け、
前記基準ビームを前記検出器に向けて反射し、
前記第2の基準ビームを前記第2の検出器に向けて反射する、
ように構成される、レンズと、
を備える、請求項1に記載のオーディオシステム。 - 前記検出器および前記光源は、しきい値距離だけ互いから離される、請求項1に記載のオーディオシステム。
- 前記光学マイクロフォンが鼻パッドを含むヘッドセット上にあり、前記光学マイクロフォンが前記鼻パッドに組み込まれ、前記光源は、前記感知ビームを前記ユーザの鼻の皮膚に照射するように構成される、請求項1に記載のオーディオシステム。
- 前記光学マイクロフォンがフレームを含むヘッドセット上にあり、前記光学マイクロフォンが前記フレームに組み込まれ、前記光源は、前記感知ビームを前記ユーザの顔の皮膚に照射するように構成され、任意選択的に、前記オーディオシステムは、前記第1の光学マイクロフォンとは異なる前記フレーム上の位置に組み込まれる第2の光学マイクロフォンをさらに備え、前記第2の光学マイクロフォンは、前記光学マイクロフォンとは異なる前記ユーザの顔の皮膚の部分に第2の感知ビームを照射するように構成される、請求項1に記載のオーディオシステム。
- 前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイであって、前記ローカルエリアからの音を検出するように構成される、マイクロフォンアレイ、
をさらに備え、
前記オーディオコントローラは、検出された音を使用して前記光学マイクロフォンを較正するようにさらに構成される、請求項1に記載のオーディオシステム。 - 前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイであって、前記ローカルエリアからの音を検出するように構成される、マイクロフォンアレイ、
をさらに備え、
前記オーディオコントローラは、検出された音に部分的に基づいて前記測定された音を強調するようにさらに構成される、請求項1に記載のオーディオシステム。 - 前記オーディオコントローラは、前記測定された音に部分的に基づいて前記ユーザの顔の表情を決定するようにさらに構成される、請求項1に記載のオーディオシステム。
- 前記光学マイクロフォンがヘッドセット上にあり、前記オーディオコントローラは、
前記測定された音のノイズを識別し、
前記識別されたノイズを抑制するための音フィルタを生成し、
オーディオコンテンツに対応するオーディオ信号を修正するために前記音フィルタを適用する、
ようにさらに構成され、
前記オーディオシステムは、
前記ヘッドセットに組み込まれるトランスデューサアレイをさらに備え、前記トランスデューサアレイは、前記修正されたオーディオ信号を修正されたオーディオコンテンツとして前記ユーザに提示するように構成され、前記修正されたオーディオコンテンツは、前記オーディオコンテンツと、前記ノイズを抑制する抑制コンポーネントとを含む、
請求項1に記載のオーディオシステム。 - 前記光学マイクロフォンがヘッドセット上にあり、前記オーディオシステムは、
前記ヘッドセット上のマイクロフォンアレイをさらに備え、前記マイクロフォンアレイは、前記ローカルエリアからの音を検出するように構成され、前記ローカルエリアからの音が前記オーディオシステムのユーザの音声を含み、
前記オーディオコントローラは、
前記測定された音を使用して検出された音における前記ユーザの音声を識別し、
前記識別されたユーザの音声に基づいて音フィルタを更新する、
ようにさらに構成され、
前記更新された音フィルタを使用してオーディオコンテンツが修正され、前記修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示される、
請求項1に記載のオーディオシステム。 - 前記更新された音フィルタが前記ユーザの音声を強調し、前記オーディオコントローラは、
前記更新されたフィルタを用いて前記オーディオコンテンツを修正することであって、前記修正されたオーディオコンテンツが前記ユーザの音声を強調する、前記オーディオコンテンツを修正することと、
第2のオーディオシステムに前記修正されたオーディオコンテンツを提供することであって、前記第2のオーディオシステムが前記修正されたオーディオコンテンツを提示する、前記修正されたオーディオコンテンツを提供することと、
を行うようにさらに構成される、請求項12に記載のオーディオシステム。 - 前記更新された音フィルタが前記ユーザの音声を強調し、前記オーディオコントローラは、
前記更新されたフィルタを用いて前記オーディオコンテンツを修正することであって、前記修正されたオーディオコンテンツが前記ユーザの音声を強調する、前記オーディオコンテンツを修正することと、
前記修正されたオーディオコンテンツがコマンドを含むと決定することと、
前記コマンドに従ってアクションを実行することと、
を行うようにさらに構成される、請求項12に記載のオーディオシステム。 - 光学マイクロフォンの光源から光を発することであって、前記光が基準ビームおよび感知ビームを含む、光を発することと、
ユーザの皮膚に前記感知ビームを照射することであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、前記感知ビームを照射することと、
前記光源との干渉形態にある検出器を介して、混合信号を検出することであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、混合信号を検出すること、
前記混合信号を使用して前記音を測定することと、
を含む方法。 - 前記皮膚の振動は、前記ユーザの音声によって部分的に引き起こされ、前記方法は、
マイクロフォンアレイを介して、前記ローカルエリアからの音を検出することと、
前記測定された音を使用して検出された音における前記ユーザの音声を識別することと、
前記識別されたユーザの音声に基づいて音フィルタを更新することと、
をさらに含み、
前記更新された音フィルタを使用してオーディオコンテンツが修正され、前記修正されたオーディオコンテンツが少なくとも1つのオーディオシステムによって提示される、
請求項15に記載の方法。 - 前記干渉形態は、前記光源および前記検出器が、自己混合干渉計、マイケルソン干渉計、低コヒーレンス干渉計システム、レーザドップラー振動計、または何らかの他のタイプの干渉計システムのうちの少なくとも1つを形成するような形態である、請求項15に記載の方法。
- 前記測定された音がユーザの音声を含み、前記音声の高周波成分は、前記音声の低周波に対して減衰され、前記方法は、
前記音声の高周波成分を再構成することと、
前記再構成された高周波成分を用いて前記音声の前記測定された音を更新することと、
をさらに含む、請求項15に記載の方法。 - プログラムコード命令を記憶するように構成される非一時的コンピュータ可読媒体であって、前記プログラムコード命令は、オーディオシステムのプロセッサによって実行されるときに、前記オーディオシステムに請求項15から18のいずれか一項に記載の方法、またはステップであって、
光学マイクロフォンの光源から光を発するステップであって、前記光が基準ビームおよび感知ビームを含む、ステップと、
ユーザの皮膚に前記感知ビームを照射するステップであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、ステップと、
前記光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、ステップと、
前記混合信号を使用して前記音を測定するステップと、
を含むステップを実行させる、非一時的コンピュータ可読媒体。 - 命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがオーディオシステムのプロセッサによって実行されるときに、前記オーディオシステムに請求項15から18のいずれか一項に記載の方法、またはステップであって、
光学マイクロフォンの光源から光を発するステップであって、前記光が基準ビームおよび感知ビームを含む、ステップと、
ユーザの皮膚に前記感知ビームを照射するステップであって、ローカルエリアからの音が前記皮膚に振動を引き起こす、ステップと、
前記光源との干渉形態にある検出器を介して、混合信号を検出するステップであって、前記混合信号が、前記皮膚によって反射される前記感知ビームの一部と混合される前記基準ビームに対応する、ステップと、
前記混合信号を使用して前記音を測定するステップと、
を含むステップを実行させる、コンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063126669P | 2020-12-17 | 2020-12-17 | |
US63/126,669 | 2020-12-17 | ||
US17/525,155 | 2021-11-12 | ||
US17/525,155 US20220201403A1 (en) | 2020-12-17 | 2021-11-12 | Audio system that uses an optical microphone |
PCT/US2021/063805 WO2022133086A1 (en) | 2020-12-17 | 2021-12-16 | Audio system that uses an optical microphone |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023554646A true JP2023554646A (ja) | 2023-12-28 |
Family
ID=79687014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023537149A Pending JP2023554646A (ja) | 2020-12-17 | 2021-12-16 | 光学マイクロフォンを用いるオーディオシステム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4264960A1 (ja) |
JP (1) | JP2023554646A (ja) |
WO (1) | WO2022133086A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170150254A1 (en) * | 2015-11-19 | 2017-05-25 | Vocalzoom Systems Ltd. | System, device, and method of sound isolation and signal enhancement |
US10635800B2 (en) * | 2016-06-07 | 2020-04-28 | Vocalzoom Systems Ltd. | System, device, and method of voice-based user authentication utilizing a challenge |
-
2021
- 2021-12-16 EP EP21844473.5A patent/EP4264960A1/en active Pending
- 2021-12-16 WO PCT/US2021/063805 patent/WO2022133086A1/en active Application Filing
- 2021-12-16 JP JP2023537149A patent/JP2023554646A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022133086A1 (en) | 2022-06-23 |
EP4264960A1 (en) | 2023-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10971130B1 (en) | Sound level reduction and amplification | |
US11622223B2 (en) | Dynamic customization of head related transfer functions for presentation of audio content | |
US11638110B1 (en) | Determination of composite acoustic parameter value for presentation of audio content | |
US11843922B1 (en) | Calibrating an audio system using a user's auditory steady state response | |
US11605191B1 (en) | Spatial audio and avatar control at headset using audio signals | |
JP2022519153A (ja) | 頭部伝達関数へのヘッドセットの影響を補償すること | |
KR20220042183A (ko) | 개인화된 음향 전달 함수에 기초한 착용자 식별 | |
JP2023534154A (ja) | 個別化された音プロファイルを使用するオーディオシステム | |
US11290837B1 (en) | Audio system using persistent sound source selection for audio enhancement | |
US20220201403A1 (en) | Audio system that uses an optical microphone | |
JP2022546161A (ja) | 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること | |
US10979838B2 (en) | Power reduction via smart microphone selection using environmental intelligence | |
US20230093585A1 (en) | Audio system for spatializing virtual sound sources | |
US11470439B1 (en) | Adjustment of acoustic map and presented sound in artificial reality systems | |
US11012804B1 (en) | Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation | |
JP2023554646A (ja) | 光学マイクロフォンを用いるオーディオシステム | |
CN116965060A (zh) | 使用光学传声器的音频系统 | |
US20220180885A1 (en) | Audio system including for near field and far field enhancement that uses a contact transducer | |
US11598962B1 (en) | Estimation of acoustic parameters for audio system based on stored information about acoustic model | |
US11758319B2 (en) | Microphone port architecture for mitigating wind noise | |
US11678103B2 (en) | Audio system with tissue transducer driven by air conduction transducer | |
US11564038B1 (en) | Spherical harmonic decomposition of a sound field detected by an equatorial acoustic sensor array | |
US20220322028A1 (en) | Head-related transfer function determination using reflected ultrasonic signal | |
TW202310618A (zh) | 在穿戴裝置中使用嵌入式電極之眼睛追蹤 | |
KR20230041755A (ko) | 외이의 변위에 기초한 가상 마이크 교정 |