JP2022542755A - センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム - Google Patents
センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム Download PDFInfo
- Publication number
- JP2022542755A JP2022542755A JP2021572865A JP2021572865A JP2022542755A JP 2022542755 A JP2022542755 A JP 2022542755A JP 2021572865 A JP2021572865 A JP 2021572865A JP 2021572865 A JP2021572865 A JP 2021572865A JP 2022542755 A JP2022542755 A JP 2022542755A
- Authority
- JP
- Japan
- Prior art keywords
- sensor array
- acoustic
- acoustic sensors
- subset
- local area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000007613 environmental effect Effects 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012546 transfer Methods 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 4
- 230000001953 sensory effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 49
- 230000003287 optical effect Effects 0.000 description 21
- 238000013507 mapping Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 11
- 238000005457 optimization Methods 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 210000000845 cartilage Anatomy 0.000 description 9
- 210000003128 head Anatomy 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 210000001519 tissue Anatomy 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000004075 alteration Effects 0.000 description 5
- 210000000613 ear canal Anatomy 0.000 description 5
- 210000004728 ear cartilage Anatomy 0.000 description 5
- 210000001508 eye Anatomy 0.000 description 5
- 230000004807 localization Effects 0.000 description 5
- 210000003484 anatomy Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241001183191 Sclerophthora macrospora Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102000005869 Activating Transcription Factors Human genes 0.000 description 1
- 108010005254 Activating Transcription Factors Proteins 0.000 description 1
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000006117 anti-reflective coating Substances 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
システムが、ローカルエリアの環境パラメータに基づいてセンサーアレイの音響センサーの選択を最適化することによって電力消費を低減する。本システムは、ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、処理回路とを含む。処理回路は、ローカルエリアの環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行うように構成される。【選択図】図3
Description
本開示は、一般に音響センサーアレイに関し、詳細には、環境インテリジェンスを使用したセンサーアレイ使用の最適化に関する。
エネルギー制限および熱放散は、ウェアラブルデバイスについての課題であり、ウェアラブルデバイス上でいくつかのタイプの機能性を実装することを困難にすることがある。たとえば、マイクロフォンアレイ処理は、オーディオデータをキャプチャするために電力を消費するセンサーアレイと、オーディオデータを処理するためのリアルタイムプロセスの重いアルゴリズムとを使用する。性能の十分なレベルを達成しながら、電力消費および処理要件を低減することが望ましい。
本発明によれば、センサーアレイを含むオーディオシステムによって、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することであって、オーディオシステムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく、オーディオデータを処理することとを含む、方法が提供される。
好ましくは、本方法は、音響センサーのサブセットをアクティブ化することをさらに含む。
好都合なことに、本方法は、サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化することをさらに含む。
好ましくは、センサーアレイの第1の音響センサーが、サブセットの外部にあり、第1の音響センサーはアクティブであり、本方法は、サブセットのオーディオデータを形成するために、センサーアレイによって生成されたオーディオデータから第1の音響センサーによって作り出されたオーディオデータを除去することをさらに含む。
好都合なことに、環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。
好ましくは、環境パラメータは、音響音源の数、音源のロケーション、音源の到来方向、または背景雑音のラウドネス、または背景雑音の空間特性のうちの1つを含む。
好都合なことに、オーディオデータを処理することは、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張(signal enhancement)、または空間フィルタ処理のうちの少なくとも1つを実施することを含む。
好ましくは、性能メトリックは、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力(listening effort)のうちの1つを含む。
好都合なことに、環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することは、環境パラメータと性能メトリックとを含む入力と、センサーアレイの音響センサーのサブセットを含む出力との間の関係を定義するニューラルネットワークを使用することをさらに含む。
好ましくは、方法は、センサーアレイに関連するロケーションに基づいてサーバから環境パラメータを受信することをさらに含む。
好都合なことに、本方法は、別のセンサーアレイを含むヘッドセットから性能メトリックを受信することをさらに含む。
好ましくは、本方法は、環境パラメータの変化に基づいて音響センサーのサブセットを更新することをさらに含む。
本発明のさらなる態様によれば、ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、処理回路とを備えるシステムであって、処理回路は、ローカルエリアの環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することであって、システムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく、オーディオデータを処理することとを行うように構成された、システムが提供される。
好ましくは、処理回路は、音響センサーのサブセットをアクティブ化するようにさらに構成される。
好都合なことに、処理回路は、サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化するようにさらに構成される。
好ましくは、センサーアレイの第1の音響センサーが、サブセットの外部にあり、第1の音響センサーはアクティブであり、処理回路は、サブセットのオーディオデータを形成するために、センサーアレイによって生成されたオーディオデータから第1の音響センサーによって作り出されたオーディオデータを除去するようにさらに構成される。
好都合なことに、環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。
好ましくは、環境パラメータは、音響音源の数、音源のロケーション、音源の到来方向、背景雑音のラウドネス、または背景雑音の空間特性のうちの1つを含み、オーディオデータを処理するように構成された処理回路は、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張、または空間フィルタ処理のうちの少なくとも1つを実施するように構成されているオーディオコントローラを含む。
好都合なことに、性能メトリックは、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力を含む。
本発明のさらなる態様によれば、命令を記憶する非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することと、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行わせる、非一時的コンピュータ可読媒体が提供される。
実施形態は、センサーアレイまたはオーディオ処理に関係する性能メトリックを満たすことに関してなど、高性能を維持しながら、電力消費を低減するために、センサーアレイからの音響センサーの最適サブセットを選択するための基礎として環境パラメータを使用することに関する。いくつかの実施形態は、センサーアレイの周囲のローカルエリアの環境パラメータを決定する、オーディオシステムによって実施される、方法を含む。センサーアレイは、ローカルエリアにおける音を検出するように構成された音響センサーを含む。センサーアレイについての性能メトリックが決定され、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択が決定される。センサーアレイの音響センサーのサブセットからのオーディオデータが処理される。オーディオシステムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく。
いくつかの実施形態は、センサーアレイとオーディオコントローラとを含むシステムを含む。センサーアレイは、ローカルエリアにおける音を検出するように構成された音響センサーを含む。オーディオコントローラは、ローカルエリアの環境パラメータを決定し、センサーアレイについての性能メトリックを決定する。オーディオコントローラは、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定し、センサーアレイの音響センサーのサブセットからのオーディオデータを処理する。システムによって提示されるオーディオコンテンツが、処理されたオーディオデータに部分的に基づく。
いくつかの実施形態は、命令を記憶する非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、センサーアレイが、ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、センサーアレイについての性能メトリックを決定することとを行わせる、非一時的コンピュータ可読媒体を含む。命令は、さらに、1つまたは複数のプロセッサに、ローカルエリアの環境パラメータに基づいて、性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定することと、センサーアレイの音響センサーのサブセットからのオーディオデータを処理することとを行わせる。
図は、単に例示の目的で本開示の実施形態を図示する。本明細書で説明される開示の原理またはうたわれている利益から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
実施形態は、環境インテリジェンスを使用して空間音アプリケーションにおいて採用されるセンサーアレイについての電力消費を低減することに関する。環境インテリジェンスは、様々なタイプのセンサーによってキャプチャされた環境パラメータによって定義され得るような、環境に関する情報を指す。たとえば、センサーアレイの周囲のローカルエリアの環境パラメータとターゲット性能メトリックとが、決定され、センサーアレイから音響センサーの最適サブセットを選択するための基礎として使用される。環境パラメータは、音響センサーまたは他のタイプのセンサーによってキャプチャされたデータに基づいて決定され得る。選択は、音響センサーをアクティブ化または非アクティブ化すること、あるいは音響センサーのサブセットのみからデータを処理することを含み得る。したがって、ターゲット(たとえば、高い)性能を維持しながら、電力消費が低減される。一例では、ローカルエリアの環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。ターゲットアレイ利得を達成するために、より長い残響時間が、より多数のアクティブ化された音響センサーと対応する。ターゲットアレイ利得を達成するセンサーアレイの音響センサーのサブセットの選択が、ローカルエリアの残響時間に基づいて決定される。
本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドセット、独立型ヘッドセット、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
アイウェアデバイス構成
図1Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的なロケーションにおけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあり得る。
図1Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的なロケーションにおけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあり得る。
フレーム110は、ヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前面部と、ユーザの頭部に付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム110の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
1つまたは複数のディスプレイ要素120は、ヘッドセット100を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット100を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光源(たとえば、2次元光源、1つまたは複数の線光源、1つまたは複数の点光源など)と、1つまたは複数の導波路とを含む。光源からの光は、1つまたは複数の導波路中に内部結合され(in-coupled)、1つまたは複数の導波路は、ヘッドセット100のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合(in-coupling)および/または外部結合(outcoupling)が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方が不透明であり、ヘッドセット100の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット100の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット100を装着しているユーザが中にいる部屋であり得、または、ヘッドセット100を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
いくつかの実施形態では、ディスプレイ要素120は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素120からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
DCAは、ヘッドセット100の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス130と、DCAコントローラ(図1Aに図示せず)とを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間についてのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数のイメージングデバイス130は、照明器140からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、図1Aは、単一の照明器140と2つのイメージングデバイス130とを示す。代替実施形態では、照明器140がなく、少なくとも2つのイメージングデバイス130がある。
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器140からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ150とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。
トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー160(たとえば、音響トランスデューサ)または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160はフレーム110の外部に示されているが、スピーカー160はフレーム110に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット100は、提示されたオーディオコンテンツの方向性を改善するためにフレーム110に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ170は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。トランスデューサの数および/またはロケーションは、図1Aに示されているものとは異なり得る。
センサーアレイは、ヘッドセット100のローカルエリア内の音を検出する。センサーアレイは、(各々、音響センサー180と呼ばれる)複数の音響センサー180a~hを含む。音響センサー180は、ローカルエリア(たとえば、部屋)中の1つまたは複数の音源から発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)にコンバートするように構成される。音響センサー180は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。センサーアレイは、オーディオコントローラ150からの命令に従って、各音響センサー180を動的にアクティブ化または非アクティブ化し得る。音響センサー180をアクティブ化することにより、音響センサー180がアクティブ状態になり、音響センサー180を非アクティブ化することにより、音響センサー10が非アクティブ状態になる。いくつかの実施形態では、音響センサー180は、アクティブ状態において電源投入され、非アクティブ状態において電源切断される。
いくつかの実施形態では、1つまたは複数の音響センサー180は、各耳の耳道中に置かれ得る(たとえば、バイノーラルマイクロフォンとして働く)。音響センサー180は、トランスデューサとともに耳道中に置かれ得る。いくつかの実施形態では、音響センサー180は、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー180の数および/またはロケーションは、図1Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。
オーディオコントローラ150は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ150は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ150は、到来方向(DOA)推定値を生成するか、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成するか、音源のロケーションを追跡するか、音源の方向にビームを形成するか、音源を分類するか、スピーカー160のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。
オーディオコントローラ150は、ユーザのための1つまたは複数の音響伝達関数を生成するために音を検出する。音響伝達関数は、音が空間中の点からどのように受信されるかを特徴づける。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。1つまたは複数の音響伝達関数は、ヘッドセット100、ヘッドセット100を装着しているユーザ、またはその両方に関連し得る。オーディオコントローラ150は、次いで、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。
オーディオコントローラ150は、センサーアレイの様々な音響センサー180をアクティブ化および非アクティブ化するための命令を生成する。命令は、ヘッドセット100のセンサーアレイまたは他のセンサー(たとえば、イメージングデバイス130、位置センサー190など)によってキャプチャされた環境パラメータと、ターゲット性能メトリックとに基づいて生成され得る。
センサーアレイの音響センサー180の構成は変動し得る。ヘッドセット100は、8つの音響センサー180を有するものとして図1Aに示されているが、音響センサー180の数は増加または減少され得る。音響センサー180の数を増加させることは、収集されるオーディオ情報の量ならびにオーディオ情報の感度および/または精度を増加させ得る。音響センサー180の数を減少させることは、収集されるオーディオ情報を処理するためにオーディオコントローラ150によって必要とされる算出電力を減少させるか、またはヘッドセット100の電力消費を減少させ得る。さらに、センサーアレイの各音響センサー180の位置は変動し得る。音響センサー180の位置は、ユーザ上の画定された位置、フレーム110上の画定された座標、各音響センサーに関連する配向、またはそれらの何らかの組合せを含み得る。たとえば、音響センサー180a、180bは、耳殻の後ろまたは耳介内もしくは窩内など、ユーザの耳の異なる部分上に配置され得るか、あるいは耳道内の音響センサー180に加えて耳上にまたは耳の周囲に追加の音響センサーがあり得る。ユーザの耳道の隣に音響センサー(たとえば、音響センサー180a、180b)が配置されると、センサーアレイは、音がどのように耳道に到来するかに関する情報を収集することが可能になる。フレーム110上の音響センサー180は、テンプルの長さに沿って、ブリッジにわたって、ディスプレイ要素120の上方にまたは下方に、あるいはそれらの何らかの組合せで配置され得る。音響センサー180は、センサーアレイが、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音波を検出することが可能であるように、配向され得る。
オーディオコントローラ150は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。各検出された音に関連する情報は、検出された音の周波数、振幅、および/または持続時間を含み得る。検出された音について、オーディオコントローラ150はDoA推定を実施し得る。DoA推定は、検出された音がセンサーアレイの音響センサー180に到来した推定方向である。音がセンサーアレイの少なくとも2つの音響センサー180によって検出された場合、オーディオコントローラ150は、たとえば、三角測量を介して、検出された音の音源ロケーションまたは方向を推定するために、音響センサー180の知られている位置関係と、各音響センサーからのDoA推定とを使用することができる。音源ロケーション推定の精度は、音を検出した音響センサー180の数が増加するにつれて、および/または、音を検出した音響センサー180間の距離が増加するにつれて、増加し得る。
いくつかの実施形態では、オーディオコントローラ150は、オーディオデータセットを情報でポピュレートする。情報は、検出された音と、各検出された音に関連するパラメータとを含み得る。例示的なパラメータは、周波数、振幅、持続時間、DoA推定、音源ロケーション、またはそれらの何らかの組合せを含み得る。各オーディオデータセットは、ヘッドセット110に対する異なる音源ロケーションに対応し、その音源ロケーションを有する1つまたは複数の音を含み得る。このオーディオデータセットは、その音源ロケーションについての1つまたは複数の音響伝達関数に関連し得る。1つまたは複数の音響伝達関数は、データセットに記憶され得る。代替実施形態では、各オーディオデータセットは、ヘッドセット110に対するいくつかの音源ロケーションに対応し、各音源ロケーションについての1つまたは複数の音を含み得る。たとえば、比較的互いの近くに位置する音源ロケーションは、一緒にグループ化され得る。オーディオコントローラ150は、音がセンサーアレイによって検出されたとき、オーディオデータセットを情報でポピュレートし得る。オーディオコントローラ150は、さらに、各検出された音についてDoA推定が実施されたかまたは音源ロケーションが決定されたとき、各検出された音についてのオーディオデータセットをポピュレートし得る。
いくつかの実施形態では、オーディオコントローラ150は、オーディオコントローラ150がDoA推定を実施する検出された音を選択する。オーディオコントローラ150は、オーディオデータセットに記憶された各検出された音に関連するパラメータに基づいて、検出された音を選択し得る。オーディオコントローラ150は、各検出された音に関連する記憶されたパラメータを評価し、1つまたは複数の記憶されたパラメータが対応するパラメータ条件を満たすかどうかを決定し得る。たとえば、パラメータがしきい値を上回るまたは下回る、あるいはターゲット範囲内に入る場合、パラメータ条件は満たされ得る。パラメータ条件が満たされた場合、オーディオコントローラ150は、検出された音についてDoA推定を実施する。たとえば、オーディオコントローラ150は、周波数範囲内の周波数、しきい値振幅を上回る振幅、しきい値持続時間を下回る持続時間、他の同様の変形態、またはそれらの何らかの組合せを有する検出された音について、DoA推定を実施し得る。パラメータ条件は、履歴データに基づいて、オーディオデータセット中の情報の分析(たとえば、パラメータの収集された情報を評価し、平均を設定すること)に基づいて、またはそれらの何らかの組合せで、オーディオシステムのユーザによって設定され得る。オーディオコントローラ150は、検出された音のDoA推定および/または音源ロケーションを記憶するための、オーディオセット中の要素を作成し得る。いくつかの実施形態では、オーディオコントローラ150は、データがすでに存在する場合、オーディオセット中の要素を更新し得る。
いくつかの実施形態では、オーディオコントローラ150は、ヘッドセット100の外部のシステムからヘッドセット100の位置情報を受信し得る。位置情報は、ヘッドセット100のロケーション、ヘッドセット100またはヘッドセット100を装着しているユーザの頭部の配向、あるいはそれらの何らかの組合せを含み得る。位置情報は、基準点に対して定義され得る。配向は、基準点に対する各耳の位置に対応し得る。システムの例は、イメージングアセンブリ、(たとえば、図7で説明されるような)コンソール、同時位置特定およびマッピング(SLAM:simultaneous localization and mapping)システム、深度カメラアセンブリ、構造化光システム、または他の好適なシステムを含む。いくつかの実施形態では、ヘッドセット100は、SLAM計算のために使用され得るセンサーを含み得、SLAM計算は、オーディオコントローラ150によって全体的にまたは部分的に行われ得る。オーディオコントローラ150は、連続的に、またはランダムに、または指定された間隔で、システムから位置情報を受信し得る。
一実施形態では、検出された音のパラメータに基づいて、オーディオコントローラ150は、1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、センサーアレイが空間中の点からどのように音を受信するかを特徴づける。詳細には、ATFは、その音源ロケーションにおける音のパラメータと、センサーアレイが音を検出したパラメータとの間の関係を定義する。音に関連するパラメータは、周波数、振幅、持続時間、DoA推定などを含み得る。いくつかの実施形態では、センサーアレイの音響センサーのうちの少なくともいくつかが、ユーザによって装着されているヘッドセット100に結合される。センサーアレイに対する特定の音源ロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイのATFは、ヘッドセット100を装着している各ユーザのために個人化される。ATFが生成されると、ATFは、ローカルメモリまたは外部メモリに記憶され得る。
HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定の音源ロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、人の各耳に固有である(および人に固有である)。たとえば、図1では、オーディオコントローラ150は、各耳について1つずつ、ユーザのための2つのHRTFを生成し得る。HRTFまたはHRTFのペアが、空間中の特定の点から来たように思われる音を含むオーディオコンテンツを作成するために使用され得る。いくつかのHRTFは、オーディオコンテンツが空間中のいくつかの異なる点から来たように思われるように、各HRTFまたはHRTFの各ペアが、空間中の異なる点に対応する、(たとえば、家庭用娯楽システム、劇場スピーカーシステム、没入型環境などのための)サラウンド音オーディオコンテンツを作成するために、使用され得る。いくつかの実施形態では、オーディオコントローラ150は、各検出された音のDoA推定に基づいて1つまたは複数の既存の音響伝達関数を更新し得る。既存の音響伝達関数は、ローカルメモリまたは外部メモリから取得されるか、あるいは外部システムから取得され得る。ヘッドセット100の位置がローカルエリア内で変化するにつれて、オーディオコントローラ150は、新しい音響伝達関数を生成するか、または、それに応じて既存の音響伝達関数を更新し得る。HRTFが生成されると、HRTFは、ローカルメモリまたは外部メモリに記憶され得る。
位置センサー190は、ヘッドセット100の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、ヘッドセット100のフレーム110の一部分に位置し得る。位置センサー190は、慣性測定ユニット(IMU)を含み得る。位置センサー190の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のRGBカメラを含み得る。いくつかの実施形態では、DCAのイメージングデバイス130の一部または全部が、PCAとしても機能し得る。PCAによってキャプチャされた画像と、DCAによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー190は、部屋内のヘッドセット100の位置(たとえば、ロケーションおよび姿勢)を追跡する。ヘッドセット100の構成要素に関する追加の詳細は、図5に関して以下で説明される。
図1Bは、1つまたは複数の実施形態による、HMDとして実装されるヘッドセット105の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aを参照しながら上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、ディスプレイアセンブリと、DCAと、オーディオシステムと、位置センサー190とを含む。図1Bは、照明器140と、複数のスピーカー160と、複数のイメージングデバイス130と、複数の音響センサー180と、位置センサー190とを示す。
オーディオシステムの概観
図2は、1つまたは複数の実施形態による、オーディオシステム200のブロック図である。図1Aまたは図1B中のオーディオシステムは、オーディオシステム200の一実施形態であり得る。オーディオシステム200は、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム200は、次いで、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。図2の実施形態では、オーディオシステム200は、トランスデューサアレイ210と、センサーアレイ220と、オーディオコントローラ230とを含む。オーディオシステム200のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
図2は、1つまたは複数の実施形態による、オーディオシステム200のブロック図である。図1Aまたは図1B中のオーディオシステムは、オーディオシステム200の一実施形態であり得る。オーディオシステム200は、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム200は、次いで、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。図2の実施形態では、オーディオシステム200は、トランスデューサアレイ210と、センサーアレイ220と、オーディオコントローラ230とを含む。オーディオシステム200のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
トランスデューサアレイ210は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ210は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー160)、組織トランスデューサ(たとえば、組織トランスデューサ170)、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ210は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ210は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ230から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
トランスデューサアレイ210は、オーディオコントローラ230からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化されたオーディオコンテンツは、特定の方向および/またはターゲット領域(たとえば、ローカルエリアにおけるオブジェクトおよび/または仮想オブジェクト)から発生するように思われるオーディオコンテンツである。たとえば、空間化されたオーディオコンテンツは、オーディオシステム200のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ210は、ウェアラブルデバイス(たとえば、ヘッドセット100またはヘッドセット105)に結合され得る。代替実施形態では、トランスデューサアレイ210は、ウェアラブルデバイスとは別個である(たとえば、外部コンソールに結合された)複数のスピーカーであり得る。
センサーアレイ220は、センサーアレイ220の周囲のローカルエリア内の音を検出する。センサーアレイ220は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)にコンバートする、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)上に、ユーザ上に(たとえば、ユーザの耳道中に)、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ220は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ210によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ210によって作り出された音場および/またはローカルエリアからの音を表す情報(たとえば、方向性)の精度を改善し得る。センサーアレイ220は、オーディオコントローラ230からの命令に従って、各音響センサーを動的にアクティブ化または非アクティブ化し得る。
オーディオコントローラ230は、オーディオシステム200の動作を制御する処理回路を含む。図2の実施形態では、オーディオコントローラ230は、データストア235と、DOA推定モジュール240と、伝達関数処理モジュール250と、追跡モジュール260と、ビームフォーミングモジュール270と、アレイ最適化モジュール275と、ニューラルネットワークモジュール280と、音フィルタモジュール285とを含む。オーディオコントローラ230は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ230のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。
データストア235は、オーディオシステム200による使用のためのデータを記憶する。データストア235中のデータは、ローカルエリアの環境パラメータ、オーディオシステムのターゲット性能メトリック、センサーアレイ230のアクティブ化および非アクティブ化された音響センサー、オーディオシステム200のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、音響センサーのうちの1つまたは複数のためのアレイ伝達関数(ATF)、音源ロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、ならびにオーディオシステム200による使用のための関連する他のデータ、センサーアレイ220の周囲のローカルエリアの環境パラメータ、選択されたまたは場合によっては決定された性能メトリック、アクティブ化および非アクティブ化された音響センサーの最適化されたサブセット、あるいはそれらの任意の組合せを含み得る。
DOA推定モジュール240は、センサーアレイ220からの情報に部分的に基づいて、ローカルエリアにおける音源の位置を特定するように構成される。位置特定は、オーディオシステム200のユーザに対して音源がどこに位置するかを決定するプロセスである。DOA推定モジュール240は、ローカルエリア内の1つまたは複数の音源の位置を特定するためにDOA分析を実施する。DOA分析は、音が発生した方向を決定するために、センサーアレイ220において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム200が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、センサーアレイ220から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインにコンバートし、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ220が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、DOA推定モジュール240は、ローカルエリア内のオーディオシステム200の絶対位置に関するDOAをも決定し得る。センサーアレイ220の位置は、外部システム(たとえば、ヘッドセット、人工現実コンソール、マッピングサーバ、位置センサー(たとえば、位置センサー190)などの何らかの他の構成要素)から受信され得る。外部システムは、ローカルエリアとオーディオシステム200の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム200の一部または全部(たとえば、センサーアレイ220)のロケーションおよび/または配向を含み得る。DOA推定モジュール240は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
伝達関数処理モジュール250は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数処理モジュール250は、オーディオシステムに関連する1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。
ATFは、音の音とセンサーアレイ220中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音源について、センサーアレイ220中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音源について、対応するATFがある。音源は、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ210の1つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ220に対する特定の音源ロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイ220のATFは、オーディオシステム200の各ユーザのために個人化される。
いくつかの実施形態では、伝達関数処理モジュール250は、オーディオシステム200のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定の音源ロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、人の各耳に固有である(および人に固有である)。いくつかの実施形態では、伝達関数処理モジュール250は、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数処理モジュール250は、ユーザに関する情報をリモートシステムに提供し得る。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットをオーディオシステム200に提供する。
追跡モジュール260は、1つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール260は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム200は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュールは、現在のDOA推定値を前のDOA推定値と比較し得、音源についてのDOA推定値の変化に応答して、追跡モジュール260は、音源が移動したと決定し得る。いくつかの実施形態では、追跡モジュール260は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール260は、経時的に1つまたは複数の音源の移動を追跡し得る。追跡モジュール260は、各時点において音源の数と各音源のロケーションとについての値を記憶し得る。音源の数またはロケーションの値の変化に応答して、追跡モジュール260は、音源が移動したと決定し得る。追跡モジュール260は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。
ビームフォーミングモジュール270は、あるエリア内の音源からの音を選択的に強調するが、他のエリアからの音を強調しないように、1つまたは複数のATFを処理するように構成される。センサーアレイ220によって検出された音を分析する際に、ビームフォーミングモジュール270は、ローカルエリアの特定の領域からの関連する音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール270は、たとえば、DOA推定モジュール240および追跡モジュール260からの異なるDOA推定値に基づいて、ローカルエリアにおける他の音源から、特定の音源からの音に関連するオーディオ信号を切り離し得る。したがって、ビームフォーミングモジュール270は、ローカルエリアにおける個別の音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール270は、音源からの信号を拡張し得る。たとえば、ビームフォーミングモジュール270は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を排除する、音フィルタを適用し得る。信号拡張は、センサーアレイ220によって検出された他の音に対して所与の識別された音源に関連する音を拡張するように働く。
アレイ最適化モジュール275は、センサーアレイ220中の音響センサーのアクティブセットを最適化する。センサーアレイ205中の音響センサーのすべてまたはサブセットが、音を検出するためにアクティブであり得る。アレイ最適化モジュール275は、センサーアレイ220の周囲のローカルエリアの環境パラメータを決定し、センサーアレイ220の性能メトリックを決定し得る。アレイ最適化モジュール275は、環境パラメータに基づいて、性能メトリックを満たすセンサーアレイ220の音響センサーからの音響センサーのサブセットの選択を決定する。一例では、ローカルエリアの環境パラメータは残響時間を含み、性能メトリックはアレイ利得を含む。アレイ最適化モジュール275は、ローカルエリアの残響時間に基づいて、ターゲットアレイ利得を達成するセンサーアレイ220の音響センサーからの音響センサーのサブセットの選択を決定する。概して、ターゲットアレイ利得を達成するために、より長い残響時間が、より多数のアクティブ化された音響センサーを必要とする。
電力消費を最適化するために、アレイ最適化モジュール275は、ローカルエリアのパラメータが与えられれば、性能メトリックを満たすために使用され得る音響センサーの最小数を決定し得る。センサーアレイ220の選択された音響センサーは、オーディオデータを生成し、オーディオデータは、次いで、オーディオコントローラ230によって処理される。音響センサーの選択的アクティブ化および非アクティブ化は、図3に関して説明される。
1つまたは複数の環境パラメータを決定するために、センサーアレイ220は、ローカルエリアにおいて生じる制御されない音または制御される音など、音を検出し得る。制御される音は、ヘッドセットの1つまたは複数のトランスデューサ、あるいは制御下にあるまたは場合によってはオーディオコントローラ230と協調する何らかの他のデバイスによって生成された音を含み、制御されない音は、環境からの音を指す。いくつかの実施形態では、ローカルエリアの環境パラメータは残響時間を含み得る。残響時間は、60dBだけなど、音が減衰するのにかかる時間として定義される(たとえば、RT60)。残響時間は、様々なやり方で測定され得る。一例では、ローカルエリアは、ローカルエリアのモデルを生成するためのSLAM計算に基づいて決定され、残響時間を決定するために、ローカルエリアにおける音伝搬のシミュレーションが実施される。別の例では、残響時間は、センサーアレイの1つまたは複数の音響センサーによる音の測定に基づいて決定され得る。
他のタイプの環境パラメータも使用され得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、ローカルエリアにおいて音源から宛先(たとえば、センサーアレイ)に伝搬するときに音がどのように変換されるかを定義するインパルス応答を含み得る。インパルス応答は、直接音、初期反射、および後期残響を含み得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、ローカルエリアにおける音源に関連するパラメータを含み得る。たとえば、パラメータは、ローカルエリアにおける音源の数、音源のロケーションまたは到来方向、あるいは音源の信号対雑音比を含み得る。いくつかの実施形態では、ローカルエリアの環境パラメータは、背景雑音のラウドネス、背景雑音の空間特性、ローカルエリアの雑音フロア、ローカルエリアの表面の材料および吸音、ある方向における周波数応答などを含み得る。
ローカルエリアの環境パラメータは、センサーアレイ220の音響センサーまたは他のタイプのセンサーからデータを受信することと、アレイ最適化モジュール275において計算を実施することとに基づいてなど、オーディオシステム200によって決定され得る。別の例では、オーディオシステム200は、リモートシステムから環境パラメータのうちの1つまたは複数を受信(たとえば、ダウンロード)し得る。たとえば、リモートシステム(たとえば、図5に示されているマッピングサーバ525)が、ローカルエリアと環境パラメータとの間の関連付けを記憶し得る。オーディオシステム200は、ヘッドセットのロケーションを決定し、環境パラメータについてのリモートシステムへの要求を生成し得る。応答して、サーバは、ロケーションに基づいて環境パラメータを決定し、環境パラメータをオーディオシステム200に提供する。
性能メトリックが、センサーアレイ220によって生成されたオーディオデータについて満たされるべきである性能または知覚される性能のレベルを定義し得る。性能メトリックのいくつかの例は、信号対雑音比(SNR)、アレイ利得、単語誤り率、ひずみしきい値レベル、音ピックアップのための距離、白色雑音利得、ビームフォーマの信号対雑音比、音声品質、音声明瞭度、または聴取努力を含み得る。SNRは、ターゲット信号のレベルと背景雑音のレベルとの比を定義する。アレイ利得は、出力SNRと入力SNRとの間の比を定義する。単語誤り率は、音声認識または機械翻訳アルゴリズムの精度を定義する。ひずみは、オーディオソースの波形の変形を指し、ひずみしきい値レベルは、許容されるひずみのしきい値量を定義し得る。音ピックアップのための距離は、センサーアレイによってピックアップされるべきである音源のための最大距離を定義する。白色雑音利得または信号対雑音比は、空間的に無相関の雑音を抑圧する能力を測定する。音声品質は、音声の知覚される品質の測度または推定値を指す。音声明瞭度は、人によって理解される単語の数の測度または推定値を指す。聴取努力は、会話における単語を理解することを試みるときにユーザが受ける認知負荷の量を指す。
いくつかの実施形態では、性能メトリックは、オーディオシステム200を含むヘッドセットとは別個のデバイスによって指定され得る。たとえば、複数のユーザが、各々、ローカルエリアにおいてヘッドセットを装着し得る。第1のヘッドセットが、性能メトリックを決定し、性能メトリックを別のヘッドセットに提供し得、別のヘッドセットは、受信された性能メトリックに基づいて、音響センサーのサブセットを選択する。
センサーアレイ220の音響センサーのすべてを利用する代わりに音響センサーの最適サブセットを選択することによって、アレイ最適化モジュール275は、性能メトリックを満たすことに関して高性能を維持しながら、電力消費を低減する。電力消費は、音響センサーの選択的アクティブ化または非アクティブ化によって、音響センサーからオーディオシステム200のオーディオコントローラ230に送信されるオーディオデータの量を低減することによって、および/または処理のためにオーディオコントローラ230によって使用されるオーディオデータの量を低減することによって、低減され得る。アレイ最適化モジュール275は、使用される音響センサーの数、ならびにヘッドセットおよび/またはネックバンド上のセンサーアレイの音響センサーのうちの、使用されるおよび使用されないものがどの音響センサーかを決定する。電力消費を最適化するために、アレイ最適化モジュール275は、ローカルエリアのパラメータが与えられれば、性能メトリックを満たすために使用され得る音響センサーの最小数を決定し得る。概して、より離間した音響センサーによってキャプチャされた音が、DOA推定または他のタイプの空間オーディオ処理を容易にするためにより区別されたオーディオデータを生じる。したがって、音響センサーの選択は、アクティブ化された音響センサー間の距離を最適化することを含み得る。
ニューラルネットワークモジュール280は、センサーアレイ220の音響センサーのサブセットの選択を決定し得る。ニューラルネットワークモジュール280は、グラフィックス処理ユニット(GPU)または特定用途向け集積回路(ASIC)など、処理回路を含み得る。いくつかの実施形態では、処理回路は、オーディオシステム200の構成要素である。他の実施形態では、処理回路は、ネットワークを介してオーディオシステム200に接続されたリモートシステムにおけるまたはコンソールにおいてなど、オーディオシステム200とは別個である。ここで、オーディオシステム200は、ニューラルネットワーク入力をリモートシステムに提供し、リモートシステムから音響センサーの選択されたサブセットを受信する。ニューラルネットワークモジュール280は、ローカルエリアの環境パラメータと性能メトリックとを含む入力と、センサーアレイの音響センサーのサブセットを含む出力との間の関係を定義する、ニューラルネットワーク層と相互接続とを含むニューラルネットワークを実装する。ニューラルネットワークは、オーディオシステム200の動作を制御するために、入力を受信し、出力を生成する。
いくつかの実施形態では、音響センサーのサブセットを決定するために、ヒューリスティックとニューラルネットワークとの組合せが使用され得る。たとえば、ローカルエリアタイプを決定するためにヒューリスティックが使用され得る。ローカルエリアタイプが、同様のまたは同じ環境パラメータを含むローカルエリアのカテゴリーを定義する。屋内、屋外、室内タイプなど、異なるタイプのローカルエリアが、異なるパラメータ(たとえば、残響時間)を有し得、したがって、ローカルエリアタイプの決定が、音響センサーのサブセットを選択するためのクラスタリングを提供する。ローカルエリアタイプは、SLAMシステムによって生成されたローカルエリアのモデル、音響センサーのうちの1つまたは複数からのオーディオデータ、ユーザ入力などに基づいて決定され得る。ローカルエリアタイプは、1つまたは複数の環境パラメータおよび1つまたは複数の性能メトリックのうちの少なくとも1つとともにニューラルネットワークへの入力として使用され得る。ニューラルネットワークは、1つまたは複数の性能メトリックを満たしながら電力消費を最適化する音響パラメータのサブセットを出力する。いくつかの実施形態では、ニューラルネットワークによって決定された音響センサーのサブセットを調整するために別のヒューリスティックが適用され得る。たとえば、1つまたは複数の特定の音響センサーが、ターゲット音源の方向に基づいてアクティブ化されるか、または不要な音源の方向に基づいて非アクティブ化され得る。
音フィルタモジュール285は、トランスデューサアレイ210のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。音フィルタモジュール285は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響特性を表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール285は、音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール285は、(たとえば、図5に関して以下で説明されるように)マッピングサーバに音響パラメータを要求する。
音フィルタモジュール285は、トランスデューサアレイ210に音フィルタを提供する。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。
センサーアレイ最適化
図3は、1つまたは複数の実施形態による、オーディオシステム(たとえば、オーディオシステム200)を含むヘッドセット上の音響センサーを最適化するプロセス300を示すフローチャートである。一実施形態では、図3のプロセスは、オーディオシステムの構成要素によって実施される。他の実施形態では、他のエンティティ(たとえば、コンソール)がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
図3は、1つまたは複数の実施形態による、オーディオシステム(たとえば、オーディオシステム200)を含むヘッドセット上の音響センサーを最適化するプロセス300を示すフローチャートである。一実施形態では、図3のプロセスは、オーディオシステムの構成要素によって実施される。他の実施形態では、他のエンティティ(たとえば、コンソール)がプロセスのステップの一部または全部を実施し得る。同様に、実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
オーディオシステムは、310において、音響センサーを含むセンサーアレイの周囲のローカルエリアの1つまたは複数の環境パラメータを決定する。1つまたは複数の環境パラメータは、センサーアレイの音響センサー、ヘッドセットの他のタイプのセンサーによって決定されるか、またはサーバから受信され得る。
オーディオシステムは、320において、センサーアレイの1つまたは複数の性能メトリックを決定する。1つまたは複数の性能メトリックは、オーディオシステムによってまたはユーザによって定義され得る。
オーディオシステムは、330において、1つまたは複数の環境パラメータに基づいて、1つまたは複数の性能メトリックを満たすセンサーアレイの音響センサーからの音響センサーのサブセットの選択を決定する。オーディオシステムは、入力としての性能メトリックおよび環境パラメータと出力としての音響センサーのサブセットとの間の関係を関連付けし、その関係に基づいてサブセットのための音響センサーを選択し得る。センサーアレイの音響センサーのすべてを利用する代わりに音響センサーの最適サブセットを選択することによって、オーディオシステムは、性能メトリックを満たすことに関して高性能を維持しながら、電力消費を低減する。音響センサーの選択されたセットは、センサーアレイの音響センサーのすべてを含み得る。
一例では、残響時間の環境パラメータは、アレイ利得性能メトリックを満たしながら電力消費を低減する音響センサーのサブセットを選択するために使用される。いくつかの実施形態では、音響センサーのサブセットの選択は、ニューラルネットワークによって決定される。
オーディオシステムは、340において、センサーアレイの音響センサーのサブセットを使用してオーディオデータを生成する。オーディオデータは、キャプチャされた音からの音響センサーの選択されたサブセットによって生成されたデータを指す。いくつかの実施形態では、オーディオシステムは、音響センサーの選択されたサブセットが電源投入され、選択されていない他の音響センサーが電源切断されるように、音響センサーを選択的にアクティブ化および非アクティブ化する。音響センサーのうちのいくつかを電源切断することは、電力消費を低減する。いくつかの実施形態では、選択されなかった音響センサーが、電源投入され、オーディオデータを生成するが、オーディオデータをコントローラに送信しない。いくつかの実施形態では、選択されなかった音響センサーからのオーディオデータは、コントローラに送信されるが、コントローラによって処理されない。これらの場合の各々において、オーディオシステムの電力消費が低減され得る。
オーディオシステムは、350において、音響センサーのサブセットからのオーディオデータを処理する。オーディオシステムによって(たとえば、トランスデューサアレイ210によって)提示されるオーディオコンテンツは、処理されたオーディオデータに部分的に基づき得る。処理は、音響伝達関数(たとえば、ATFまたはHRTF)の適用、ビームフォーミング、DoA推定、信号拡張、空間フィルタ処理、または空間化されたオーディオコンテンツのための他のタイプの処理を実施することを含み得る。
プロセス300は、環境パラメータの変化を追跡すること、性能メトリックを決定すること、および環境パラメータまたは性能メトリックの変化に基づいて音響センサーの異なるサブセットを選択することなどによって、繰り返され得る。プロセス300は、ヘッドセットを装着しているユーザが、ローカルエリアにおける別のロケーションにまたは別のローカルエリアになど移動するとき、あるいはオブジェクトがユーザに対して移動するとき、連続的に繰り返され得る。
図4は、1つまたは複数の実施形態による、異なる残響時間についてのアレイ利得と音響センサーの数との間の関係を示すグラフである。線402は、500msの残響時間(「RT60」)をもつローカルエリアについてのアレイ利得(dB単位)と音響センサー(「マイクロフォン」)の数との間の関係を示す。線404は、100msの残響時間(「RT60」)をもつローカルエリアについてのアレイ利得と音響センサーの数との間の関係を示す。同じ量のアレイ利得を達成するために、より長い残響時間が、概して、より多数の音響センサーと相関する。したがって、アレイ利得のターゲット性能メトリックを達成するための音響センサーの数は、残響時間パラメータに依存する。たとえば、4つのマイクロフォンを使用することが、500msの残響時間について約11.2dBのアレイ利得を生じ、100msの残響時間について約23.5dBのアレイ利得を生じる。他のタイプの、ローカルエリアの環境パラメータおよび性能メトリックが、センサーアレイの音響センサーの選択を知らせることができる同様の関係を含む。
例示的なシステム環境
図5は、1つまたは複数の実施形態による、ヘッドセット505を含むシステム500である。いくつかの実施形態では、ヘッドセット505は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム500は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)において動作し得る。図5によって示されているシステム500は、ヘッドセット505と、コンソール515に結合された入出力(I/O)インターフェース510と、ネットワーク520と、マッピングサーバ525とを含む。図5は、1つのヘッドセット505と1つのI/Oインターフェース510とを含む例示的なシステム500を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。たとえば、各々が、関連するI/Oインターフェース510を有する、複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース510はコンソール515と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム500中に含まれ得る。さらに、図5に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図5に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール515の機能性の一部または全部がヘッドセット505によって提供され得る。
図5は、1つまたは複数の実施形態による、ヘッドセット505を含むシステム500である。いくつかの実施形態では、ヘッドセット505は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム500は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)において動作し得る。図5によって示されているシステム500は、ヘッドセット505と、コンソール515に結合された入出力(I/O)インターフェース510と、ネットワーク520と、マッピングサーバ525とを含む。図5は、1つのヘッドセット505と1つのI/Oインターフェース510とを含む例示的なシステム500を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。たとえば、各々が、関連するI/Oインターフェース510を有する、複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース510はコンソール515と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム500中に含まれ得る。さらに、図5に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図5に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール515の機能性の一部または全部がヘッドセット505によって提供され得る。
ヘッドセット505は、ディスプレイアセンブリ530と、光学ブロック535と、1つまたは複数の位置センサー540と、DCA545とを含む。ヘッドセット505のいくつかの実施形態は、図5に関して説明されるものとは異なる構成要素を有する。さらに、図5に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット505の構成要素の間で別様に分散されるか、またはヘッドセット505からリモートにある別個のアセンブリにおいて取り込まれ得る。
ディスプレイアセンブリ530は、コンソール515から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ530は、1つまたは複数のディスプレイ要素(たとえば、ディスプレイ要素120)を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ530は、単一のディスプレイ要素または複数のディスプレイ要素(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素120は光学ブロック535の機能性の一部または全部をも含み得ることに留意されたい。
光学ブロック535は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット505の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック535は、1つまたは複数の光学要素を含む。光学ブロック535中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック535は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック535中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック535による画像光の拡大および集束は、電子ディスプレイが、物理的により小さくなり、重さが減じ、より大きいディスプレイよりも少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。
いくつかの実施形態では、光学ブロック535は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック535が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック535はそのひずみを補正する。
位置センサー540は、ヘッドセット505の位置を示すデータを生成する電子デバイスである。位置センサー540は、ヘッドセット505の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、位置センサー540の一実施形態である。位置センサー540の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー540は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット505の推定位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット505上の基準点の推定位置を決定する。基準点は、ヘッドセット505の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット505内の点として定義される。
DCA545は、ローカルエリアの一部分についての深度情報を生成する。DCAは、1つまたは複数のイメージングデバイスとDCAコントローラとを含む。DCA545は照明器をも含み得る。DCA545の動作および構造は、図1Aに関して上記で説明された。
オーディオシステム550は、ヘッドセット505のユーザにオーディオコンテンツを提供する。オーディオシステム550は、上記で説明されたオーディオシステム200と実質的に同じである。たとえば、オーディオシステム550は、環境パラメータとターゲット性能メトリックとに基づいてセンサーアレイの音響センサーの選択を最適化する。オーディオシステム550は、1つまたは音響センサーと、1つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。オーディオシステム550は、空間化されたオーディオコンテンツをユーザに提供し得る。いくつかの実施形態では、オーディオシステム550は、ネットワーク520を介してマッピングサーバ525に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの1つまたは複数の音響特性(たとえば、室内インパルス応答、残響時間、残響レベルなど)を表す。オーディオシステム550は、たとえば、DCA545からのローカルエリアの少なくとも一部分を表す情報、および/または位置センサー540からのヘッドセット505についてのロケーション情報を提供し得る。オーディオシステム550は、マッピングサーバ525から受信された音響パラメータのうちの1つまたは複数を使用して、1つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。
I/Oインターフェース510は、ユーザがアクション要求を送り、コンソール515から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース510は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール515に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース510によって受信されたアクション要求は、コンソール515に通信され、コンソール515は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース510は、I/Oインターフェース510の初期位置に対するI/Oインターフェース510の推定位置を示す較正データをキャプチャするIMUを含む。いくつかの実施形態では、I/Oインターフェース510は、コンソール515から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール515がアクションを実施するときに、コンソール515が、I/Oインターフェース510に命令を通信して、I/Oインターフェース510が触覚フィードバックを生成することを引き起こす。
コンソール515は、DCA545とヘッドセット505とI/Oインターフェース510とのうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット505に提供する。図5に示されている例では、コンソール515は、アプリケーションストア555と、追跡モジュール560と、エンジン565とを含む。コンソール515のいくつかの実施形態は、図5に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図5に関して説明されるものとは異なる様式でコンソール515の構成要素の間で分散され得る。いくつかの実施形態では、コンソール515に関して本明細書で説明される機能性は、ヘッドセット505、またはリモートシステムにおいて実装され得る。
アプリケーションストア555は、コンソール515が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット505またはI/Oインターフェース510の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
追跡モジュール560は、DCA545からの情報、1つまたは複数の位置センサー540からの情報、またはそれらの何らかの組合せを使用して、ヘッドセット505またはI/Oインターフェース510の移動を追跡する。たとえば、追跡モジュール560は、ヘッドセット505からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット505の基準点の位置を決定する。追跡モジュール560は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール560は、ヘッドセット505の将来のロケーションを予測するために、位置センサー540からのヘッドセット505の位置を示すデータの部分ならびにDCA545からのローカルエリアの表現を使用し得る。追跡モジュール560は、ヘッドセット505またはI/Oインターフェース510の推定または予測された将来の位置をエンジン565に提供する。
エンジン565は、アプリケーションを実行し、追跡モジュール560から、ヘッドセット505の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン565は、ユーザへの提示のためにヘッドセット505に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン565は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット505のためのコンテンツを生成する。さらに、エンジン565は、I/Oインターフェース510から受信されたアクション要求に応答して、コンソール515上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット505を介した視覚または可聴フィードバック、あるいはI/Oインターフェース510を介した触覚フィードバックであり得る。
ネットワーク520は、ヘッドセット505および/またはコンソール515をマッピングサーバ525に結合する。ネットワーク520は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク520は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク520は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク520は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク520上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク520を介して交換されるデータは、2進形式(たとえばポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。
マッピングサーバ525は、複数の空間を表す仮想モデルを記憶するデータベースを含み得、仮想モデル中の1つのロケーションが、ヘッドセット505のローカルエリアの現在の構成に対応する。マッピングサーバ525は、ヘッドセット505からネットワーク520を介して、ローカルエリアおよび/またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。マッピングサーバ525は、受信された情報および/またはロケーション情報に基づいて、ヘッドセット505のローカルエリアに関連する仮想モデル中のロケーションを決定する。マッピングサーバ525は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響パラメータに部分的に基づいて、ローカルエリアに関連する1つまたは複数の音響パラメータを決定する(たとえば、取り出す)。マッピングサーバ525は、ローカルエリアのロケーションおよびローカルエリアに関連する音響パラメータの任意の値をヘッドセット505に送信し得る。いくつかの実施形態では、マッピングサーバ525は、センサーアレイに関連する電力消費を最適化するためにオーディオシステム550によって使用される1つまたは複数の環境パラメータをヘッドセット505に提供する。
追加の構成情報
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して、多くの修正および変形が可能であることを諒解することができる。
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して、多くの修正および変形が可能であることを諒解することができる。
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明される任意のまたはすべてのステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。
実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
実施形態はまた、本明細書で説明されるコンピューティングプロセスによって製造される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。
Claims (15)
- センサーアレイを含むオーディオシステムによって、
前記センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、前記センサーアレイが、前記ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することであって、前記オーディオシステムによって提示されるオーディオコンテンツが、処理された前記オーディオデータに部分的に基づく、オーディオデータを処理することと
を含む、方法。 - 音響センサーの前記サブセットをアクティブ化することをさらに含む、請求項1に記載の方法。
- 前記サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化することをさらに含む、請求項2に記載の方法。
- 前記センサーアレイの第1の音響センサーが、前記サブセットの外部にあり、前記第1の音響センサーがアクティブであり、前記方法が、
前記サブセットの前記オーディオデータを形成するために、前記センサーアレイによって生成されたオーディオデータから前記第1の音響センサーによって作り出されたオーディオデータを除去すること
をさらに含む、請求項2に記載の方法。 - 前記環境パラメータが残響時間を含み、
前記性能メトリックがアレイ利得を含む、
請求項1に記載の方法。 - 前記環境パラメータが、
音響音源の数、
音源のロケーション、
音源の到来方向、または
背景雑音のラウドネス、または
背景雑音の空間特性
のうちの1つを含む、請求項1に記載の方法。 - 前記オーディオデータを処理することが、
音響伝達関数の適用、
ビームフォーミング、
到来方向推定、
信号拡張、または
空間フィルタ処理
のうちの少なくとも1つを実施することを含む、請求項1に記載の方法。 - 前記性能メトリックが、
単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力
のうちの1つを含む、請求項1に記載の方法。 - 前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーの前記サブセットの前記選択を決定することが、
環境パラメータと性能メトリックとを含む入力と、前記センサーアレイの前記音響センサーのサブセットを含む出力との間の関係を定義するニューラルネットワークを使用すること
をさらに含む、請求項1に記載の方法。 - a)前記センサーアレイに関連するロケーションに基づいてサーバから前記環境パラメータを受信することをさらに含む、または
b)別のセンサーアレイを含むヘッドセットから前記性能メトリックを受信することをさらに含む、または
c)前記環境パラメータの変化に基づいて音響センサーの前記サブセットを更新することをさらに含む
のうちのいずれか1つである、請求項1に記載の方法。 - ローカルエリアにおける音を検出するように構成された音響センサーを含むセンサーアレイと、
処理回路と
を備えるシステムであって、前記処理回路は、
前記ローカルエリアの環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することであって、前記システムによって提示されるオーディオコンテンツが、処理された前記オーディオデータに部分的に基づく、オーディオデータを処理することと
を行うように構成された、システム。 - 前記処理回路が、音響センサーの前記サブセットをアクティブ化するようにさらに構成された、請求項11に記載のシステム。
- a)処理回路が、前記サブセットの外部にあるセンサリーアレイの音響センサーを非アクティブ化するようにさらに構成された、または
b)前記センサーアレイの第1の音響センサーが、前記サブセットの外部にあり、前記第1の音響センサーがアクティブであり、前記処理回路が、
前記サブセットの前記オーディオデータを形成するために、前記センサーアレイによって生成されたオーディオデータから前記第1の音響センサーによって作り出されたオーディオデータを除去するようにさらに構成された
のうちのいずれか1つである、請求項1に記載のシステム。 - a)前記環境パラメータが残響時間を含み、
前記性能メトリックがアレイ利得を含む、あるいは
b)前記環境パラメータが、音響音源の数、音源のロケーション、音源の到来方向、背景雑音のラウドネス、または背景雑音の空間特性のうちの1つを含み、
前記オーディオデータを処理するように構成された処理回路は、音響伝達関数の適用、ビームフォーミング、到来方向推定、信号拡張、または空間フィルタ処理のうちの少なくとも1つを実施するように構成されているオーディオコントローラを含む、あるいは
c)前記性能メトリックが、単語誤り率、アレイ利得、ひずみしきい値レベル、信号対雑音比、白色雑音利得、ビームフォーマの信号対雑音比、音ピックアップのための距離、音声品質、音声明瞭度、または聴取努力を含む
のうちのいずれか1つである、請求項1に記載のシステム。 - 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
センサーアレイの周囲のローカルエリアの環境パラメータを決定することであって、前記センサーアレイが、前記ローカルエリアにおける音を検出するように構成された音響センサーを含む、環境パラメータを決定することと、
前記センサーアレイについての性能メトリックを決定することと、
前記ローカルエリアの前記環境パラメータに基づいて、前記性能メトリックを満たす前記センサーアレイの前記音響センサーからの音響センサーのサブセットの選択を決定することと、
前記センサーアレイの前記音響センサーの前記サブセットからのオーディオデータを処理することと
を行わせる、非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/523,825 | 2019-07-26 | ||
US16/523,825 US10979838B2 (en) | 2019-07-26 | 2019-07-26 | Power reduction via smart microphone selection using environmental intelligence |
PCT/US2020/042595 WO2021021468A1 (en) | 2019-07-26 | 2020-07-17 | Method for selecting a subset of acoustic sensors of a sensor array and system therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022542755A true JP2022542755A (ja) | 2022-10-07 |
Family
ID=71944428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021572865A Pending JP2022542755A (ja) | 2019-07-26 | 2020-07-17 | センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10979838B2 (ja) |
EP (1) | EP4005244A1 (ja) |
JP (1) | JP2022542755A (ja) |
KR (1) | KR20220043164A (ja) |
CN (1) | CN114080820A (ja) |
WO (1) | WO2021021468A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409360B1 (en) * | 2020-01-28 | 2022-08-09 | Meta Platforms Technologies, Llc | Biologically-constrained drift correction of an inertial measurement unit |
GB2600831B (en) * | 2020-11-05 | 2023-02-22 | Audio Technica Us | Microphone with advanced functionalities |
US11997454B1 (en) * | 2021-07-06 | 2024-05-28 | Meta Platforms Technologies, Llc | Power efficient acoustic tracking of sound sources |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938254B (zh) * | 2012-10-24 | 2014-12-10 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CA2949929A1 (en) * | 2014-05-26 | 2015-12-03 | Vladimir Sherman | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals |
CN104991573A (zh) * | 2015-06-25 | 2015-10-21 | 北京品创汇通科技有限公司 | 一种基于声源阵列的定位跟踪方法及其装置 |
US10455321B2 (en) | 2017-04-28 | 2019-10-22 | Qualcomm Incorporated | Microphone configurations |
-
2019
- 2019-07-26 US US16/523,825 patent/US10979838B2/en active Active
-
2020
- 2020-07-17 EP EP20751035.5A patent/EP4005244A1/en not_active Withdrawn
- 2020-07-17 KR KR1020227006474A patent/KR20220043164A/ko unknown
- 2020-07-17 WO PCT/US2020/042595 patent/WO2021021468A1/en unknown
- 2020-07-17 CN CN202080049038.1A patent/CN114080820A/zh active Pending
- 2020-07-17 JP JP2021572865A patent/JP2022542755A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US10979838B2 (en) | 2021-04-13 |
WO2021021468A1 (en) | 2021-02-04 |
US20210029479A1 (en) | 2021-01-28 |
KR20220043164A (ko) | 2022-04-05 |
EP4005244A1 (en) | 2022-06-01 |
CN114080820A (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022534833A (ja) | 個人化されたオーディオ拡張のためのオーディオプロファイル | |
US11622223B2 (en) | Dynamic customization of head related transfer functions for presentation of audio content | |
JP2022542755A (ja) | センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム | |
US11638110B1 (en) | Determination of composite acoustic parameter value for presentation of audio content | |
KR20220042183A (ko) | 개인화된 음향 전달 함수에 기초한 착용자 식별 | |
JP2022549548A (ja) | オーディオコンテンツを提示するときに触覚コンテンツのレベルを調整するための方法およびシステム | |
JP2023534154A (ja) | 個別化された音プロファイルを使用するオーディオシステム | |
US20220342213A1 (en) | Miscellaneous audio system applications | |
US11470439B1 (en) | Adjustment of acoustic map and presented sound in artificial reality systems | |
US11290837B1 (en) | Audio system using persistent sound source selection for audio enhancement | |
JP2022546161A (ja) | 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること | |
US20230093585A1 (en) | Audio system for spatializing virtual sound sources | |
US11012804B1 (en) | Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation | |
US11445318B2 (en) | Head-related transfer function determination using cartilage conduction | |
US11171621B2 (en) | Personalized equalization of audio output based on ambient noise detection | |
JP2022548811A (ja) | 触覚コンテンツを制御するための方法およびシステム | |
US20220180885A1 (en) | Audio system including for near field and far field enhancement that uses a contact transducer | |
KR20230041755A (ko) | 외이의 변위에 기초한 가상 마이크 교정 | |
TW202348043A (zh) | 用於緩和風切聲之麥克風埠口架構 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240514 |