JP2022526061A - マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定 - Google Patents
マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定 Download PDFInfo
- Publication number
- JP2022526061A JP2022526061A JP2021533833A JP2021533833A JP2022526061A JP 2022526061 A JP2022526061 A JP 2022526061A JP 2021533833 A JP2021533833 A JP 2021533833A JP 2021533833 A JP2021533833 A JP 2021533833A JP 2022526061 A JP2022526061 A JP 2022526061A
- Authority
- JP
- Japan
- Prior art keywords
- headset
- acoustic
- local area
- acoustic parameters
- virtual model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 121
- 230000004044 response Effects 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 42
- 230000000007 visual effect Effects 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 32
- 230000011514 reflex Effects 0.000 claims description 11
- 238000013213 extrapolation Methods 0.000 claims description 10
- 230000000712 assembly Effects 0.000 claims description 3
- 238000000429 assembly Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000003287 optical effect Effects 0.000 description 21
- 239000012814 acoustic material Substances 0.000 description 19
- 238000003384 imaging method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000004088 simulation Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 15
- 238000005259 measurement Methods 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 210000001508 eye Anatomy 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 210000003128 head Anatomy 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000004438 eyesight Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000004075 alteration Effects 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000001902 propagating effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000576 coating method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 101100454361 Arabidopsis thaliana LCB1 gene Proteins 0.000 description 1
- OXSYGCRLQCGSAQ-UHFFFAOYSA-N CC1CCC2N(C1)CC3C4(O)CC5C(CCC6C(O)C(O)CCC56C)C4(O)CC(O)C3(O)C2(C)O Chemical compound CC1CCC2N(C1)CC3C4(O)CC5C(CCC6C(O)C(O)CCC56C)C4(O)CC(O)C3(O)C2(C)O OXSYGCRLQCGSAQ-UHFFFAOYSA-N 0.000 description 1
- 101100435066 Caenorhabditis elegans apn-1 gene Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100171146 Oryza sativa subsp. japonica DREB2C gene Proteins 0.000 description 1
- 239000002033 PVDF binder Substances 0.000 description 1
- 229910004298 SiO 2 Inorganic materials 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 229920002981 polyvinylidene fluoride Polymers 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000005336 safety glass Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- User Interface Of Digital Computer (AREA)
- General Health & Medical Sciences (AREA)
Abstract
ヘッドセットのための音響パラメータのセットの決定が本明細書に提示される。音響パラメータのセットは、マッピングサーバに記憶される物理的な位置の仮想モデルに基づいて決定され得る。仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ヘッドセットの物理的な位置に対応する。ヘッドセットの仮想モデル内の位置は、ヘッドセットから受信されるローカルエリアの少なくとも一部分を説明する情報に基づいて決定される。ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットは、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて決定される。ヘッドセットは、マッピングサーバから受信される音響パラメータのセットを使用して音声コンテンツを提示する。【選択図】図4
Description
関連出願への相互参照
本出願は、2019年3月27日に提出された米国出願第16/366,484号の優先権を主張するものであり、その内容は、あらゆる目的のため、参照によりその全体が本明細書に組み込まれる。
本出願は、2019年3月27日に提出された米国出願第16/366,484号の優先権を主張するものであり、その内容は、あらゆる目的のため、参照によりその全体が本明細書に組み込まれる。
本開示は、概して、ヘッドセットにおける音声の提示に関し、および詳細には、マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定に関する。
2人のユーザの耳で知覚される音は、各ユーザに対する音源の方向および位置、ならびに、音が知覚される部屋の周囲環境によって、異なる場合がある。人間は、左右の耳で知覚される音を比較することによって、音源の位置を決定することができる。人工現実環境では、物体から聴取者までの音伝搬をシミュレートするのに、部屋の音響パラメータ、例えば、残響時間または最大早期反射率の方向、に関する知識を使用し得る。部屋の音響パラメータを決定するための1つの技法は、所望の音源位置に拡声器を置くこと、制御されたテスト信号を再生すること、および聴取者位置で記録されるものからテスト信号をデコンボリューションすることを含む。しかしながら、そのような技法は、一般的には、測定研究室を、または現場に専用設備を必要とする。
ある環境に仮想音源をシームレスに置くために、各耳への音声信号は、音源から、環境を通り、聴取者(受信者)までの音伝搬経路に基づいて決定される。様々な音伝搬経路は、受信者(ヘッドセットのユーザ)に音声コンテンツを提示するためのヘッドセットにおいて使用される周波数依存音響パラメータのセットに基づいて表され得る。周波数依存音響パラメータのセットは、典型的には、固有の音響特性を有する局所環境(部屋)の特定の音響構成に固有である。しかしながら、局所環境のすべての潜在的な音響構成についてヘッドセットにおいて様々な音響パラメータのセットを記憶および更新することは、非現実的である。音源と受信者との間の室内の様々な音伝搬経路は、室内インパルス応答を表し、これは、音源および受信者の特定の位置に依存する。しかしながら、空間内のすべての潜在的な音源および受信者位置の濃密なネットワークについて、あるいは最もよく見られる構成の比較的小さいサブセットでさえ、測定またはシミュレートされた室内インパルス応答を記憶することは、メモリ負荷が高い。したがって、リアルタイムでの室内インパルス応答の決定は、要求される精度が増大するにつれて計算負荷が高い。
本開示の実施形態は、ヘッドセットにおいて音声コンテンツを提示するための音響パラメータのセットを決定するための方法、コンピュータ可読媒体、および装置を支援する。いくつかの実施形態において、音響パラメータのセットは、ネットワークを介してヘッドセットと接続されるマッピングサーバに記憶される物理的な位置の仮想モデルに基づいて決定される。仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ヘッドセットの物理的な位置に対応する。マッピングサーバは、ヘッドセットから受信されるローカルエリアの少なくとも一部分を説明する情報に基づいて、ヘッドセットの仮想モデル内の位置を決定する。マッピングサーバは、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに少なくとも部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定する。ヘッドセットは、マッピングサーバから受信される音響パラメータのセットを使用して聴取者に音声コンテンツを提示する。
本発明に従う実施形態は、特に、方法、装置、および記憶媒体を対象とする添付の特許請求の範囲に開示され、1つの請求項カテゴリ、例えば方法、に記載される任意の特徴は、別の請求項カテゴリ、例えば装置、記憶媒体、システム、およびコンピュータプログラム製品においても同様に特許請求され得る。添付の特許請求の範囲に遡った従属関係または参照は、単に形式的理由で選択される。しかしながら、請求項の任意の組み合わせおよびその特徴が、添付の特許請求の範囲において選択される従属関係に関係なく、開示され、また特許請求され得るように、任意の前の請求項に遡った意図的な参照から生じる任意の主題(特に複数の従属関係)も同様に特許請求され得る。特許請求され得る主題は、添付の特許請求の範囲に明記されるような特徴の組み合わせだけでなく、請求項内の特徴の任意の他の組み合わせも含み、請求項に記載される各特徴は、請求項内の任意の他の特徴または他の特徴の組み合わせと組み合わされ得る。さらに、本明細書に説明または描写される実施形態および特徴のうちのいずれかは、別個の請求項において、および/あるいは、本明細書に説明もしくは描写される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組み合わせで特許請求され得る。
一実施形態において、方法は、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を含み得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を含み得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
一実施形態において、方法は、
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信することであって、情報が、ローカルエリアの少なくとも一部分に関する視覚情報を含む、情報を受信することを含み得る。
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信することであって、情報が、ローカルエリアの少なくとも一部分に関する視覚情報を含む、情報を受信することを含み得る。
複数の空間は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームを含み得る。
音声コンテンツは、ローカルエリア内の物体から生じているように思われるように提示され得る。
音響パラメータのセットは、
複数の周波数帯の各々についての音源からヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの音源からヘッドセットまでの直接音の方向、
周波数帯ごとの直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも1つを含み得る。
複数の周波数帯の各々についての音源からヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの音源からヘッドセットまでの直接音の方向、
周波数帯ごとの直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも1つを含み得る。
一実施形態において、方法は、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を含み得る。
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を含み得る。
音声ストリームは、経時的なローカルエリアの音響状態の変化が閾値変化を上回るというヘッドセットにおける決定に応答して、ヘッドセットから提供され得る。
一実施形態において、方法は、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて音響パラメータのセットを更新することと、を含み得、
ヘッドセットによって提示される音声コンテンツは、更新された音響パラメータのセットに少なくとも部分的に基づいて調節される。
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて音響パラメータのセットを更新することと、を含み得、
ヘッドセットによって提示される音声コンテンツは、更新された音響パラメータのセットに少なくとも部分的に基づいて調節される。
一実施形態において、方法は、
1つまたは複数の音響パラメータを獲得することと、
1つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を含み得る。
1つまたは複数の音響パラメータを獲得することと、
1つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を含み得る。
一実施形態において、方法は、
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送することを含み得る。
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送することを含み得る。
一実施形態において、装置は、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定するように構成されるマッピングモジュールであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、マッピングモジュールと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定するように構成される音響モジュールと、を備え得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定するように構成されるマッピングモジュールであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、マッピングモジュールと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定するように構成される音響モジュールと、を備え得、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
一実施形態において、装置は、
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信するように構成される通信モジュールであって、該情報が、ヘッドセットの1つまたは複数のカメラアセンブリにより捕捉されるローカルエリアの少なくとも一部分に関する視覚情報を含む、通信モジュールを備え得る。
ヘッドセットから、ローカルエリアの少なくとも一部分を説明する情報を受信するように構成される通信モジュールであって、該情報が、ヘッドセットの1つまたは複数のカメラアセンブリにより捕捉されるローカルエリアの少なくとも一部分に関する視覚情報を含む、通信モジュールを備え得る。
音声コンテンツは、ローカルエリア内の仮想物体から生じているように思われるように提示され得る。
音響パラメータのセットは、
複数の周波数帯の各々についての音源からヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの音源からヘッドセットまでの直接音の方向、
周波数帯ごとの直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも1つを含み得る。
複数の周波数帯の各々についての音源からヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの音源からヘッドセットまでの直接音の方向、
周波数帯ごとの直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも1つを含み得る。
一実施形態において、装置は、
ヘッドセットから音声ストリームを受信するように構成される通信モジュールを備え得、音響モジュールは、受信した音声ストリームに基づいて少なくとも1つの音響パラメータを決定するようにさらに構成され、本装置は、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶するように構成される非一時的コンピュータ可読媒体をさらに備える。
ヘッドセットから音声ストリームを受信するように構成される通信モジュールを備え得、音響モジュールは、受信した音声ストリームに基づいて少なくとも1つの音響パラメータを決定するようにさらに構成され、本装置は、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶するように構成される非一時的コンピュータ可読媒体をさらに備える。
音響モジュールは、
1つまたは複数の音響パラメータを獲得し、
1つまたは複数の音響パラメータを音響パラメータのセットと比較するように構成され得、本装置は、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新するように構成される非一時的コンピュータ可読記憶媒体をさらに備える。
1つまたは複数の音響パラメータを獲得し、
1つまたは複数の音響パラメータを音響パラメータのセットと比較するように構成され得、本装置は、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新するように構成される非一時的コンピュータ可読記憶媒体をさらに備える。
一実施形態において、装置は、
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送するように構成される通信モジュールを備え得る。
ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、音響パラメータのセットをヘッドセットに伝送するように構成される通信モジュールを備え得る。
一実施形態において、非一時的コンピュータ可読記憶媒体は、符号化された命令を有し得、この命令は、プロセッサにより実行されるとき、プロセッサに、本明細書内の実施形態のうちのいずれかに従う方法を実施させるか、または
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を行わせ、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する、ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを決定することと、を行わせ、
音声コンテンツは、音響パラメータのセットを使用してヘッドセットによって提示される。
命令は、プロセッサに、
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を行わせることができ、仮想モデルが、非一時的コンピュータ可読記憶媒体に記憶される。
ヘッドセットから音声ストリームを受信することと、
受信した音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
少なくとも1つの音響パラメータを、ヘッドセットが位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶することと、を行わせることができ、仮想モデルが、非一時的コンピュータ可読記憶媒体に記憶される。
命令は、プロセッサに、
1つまたは複数の音響パラメータを獲得することと、
1つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を行わせることができる。
1つまたは複数の音響パラメータを獲得することと、
1つまたは複数の音響パラメータを音響パラメータのセットと比較することと、
比較に基づいて、セット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新することと、を行わせることができる。
一実施形態において、1つまたは複数のコンピュータ可読非一時的記憶媒体は、実行されるとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能であるソフトウェアを具現化し得る。
一実施形態において、システムは、1つまたは複数のプロセッサ、およびプロセッサに結合され、プロセッサによって実行可能な命令を含む少なくとも1つのメモリを備え得、プロセッサは、命令を実行するとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能である。
一実施形態において、好ましくはコンピュータ可読非一時的記憶媒体を備えるコンピュータプログラム製品は、データ処理システム上で実行されるとき、上記実施形態のうちのいずれかに従う、またはこの範囲内の方法を実施するように動作可能であり得る。
図は、単に例証の目的で本開示の実施形態を描写する。当業者は、本明細書に例証される構造および方法の代替の実施形態が、本明細書に説明される本開示の、原則、またはうたわれる利益から逸脱することなく、用いられ得ることを容易に理解するものとする。
本開示の実施形態は、人工現実システムを含み得るか、またはこれと併せて実施され得る。人工現実は、ユーザへの提示前に何らかの様式で調節されている現実の形態であり、これは、例えば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、またはそれらの何らかの組み合わせおよび/もしくは派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、または捕捉した(例えば、現実世界)コンテンツと組み合わせた生成されたコンテンツを含み得る。人工現実コンテンツは、映像、音声、触覚フィードバック、またはそれらの何らかの組み合わせを含み得、それらのいずれも、単一のチャネルまたは複数のチャネル(視聴者に対して三次元効果を生み出すステレオ映像)で提示され得る。加えて、いくつかの実施形態において、人工現実はまた、例えば人工現実においてコンテンツを作成するために使用される、および/または人工現実において別途使用される(例えば、活動を実施する)、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組み合わせと関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ヘッドセット、ホストコンピュータシステムに接続されるヘッドマウントディスプレイ(HMD)、スタンドアローンHMD、ニアアイディスプレイ(NED)、モバイルデバイスもしくはコンピューティングシステム、または人工現実コンテンツを1つまたは複数の視聴者に提供することができる任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上で実施され得る。
室内音響整合のための通信システムが本明細書に提示される。通信システムは、マッピングサーバと通信可能に結合された音声システムを有するヘッドセットを含む。音声システムは、スピーカ、音響センサのアレイ、複数の撮像センサ(カメラ)、および音声コントローラを含み得るヘッドセットに実装される。撮像センサは、ローカルエリアの少なくとも一部分に関連した視覚情報(例えば、深さ情報、色情報など)を決定する。ヘッドセットは、視覚情報を(例えば、ネットワークを介して)マッピングサーバに通信する。マッピングサーバは、現実世界内の空間についての音響特性を含む世界の仮想モデルを維持する。マッピングサーバは、ヘッドセットからの視覚情報、例えば、ローカルエリアの少なくとも一部分の画像を使用して、ヘッドセットの物理的な位置に対応する仮想モデル内の位置を決定する。マッピングサーバは、決定された位置と関連付けられた音響パラメータのセット(例えば、残響時間、残響レベルなど)を決定し、音響パラメータをヘッドセットに提供する。ヘッドセットは、音声コンテンツをヘッドセットのユーザに提示するために、(例えば、音声コントローラを介して)音響パラメータのセットを使用する。ヘッドセットに取り付けられた音響センサのアレイは、ローカルエリア内の音をモニタする。ヘッドセットは、室内構成における変化(例えば、人間の占有レベルの変化、閉じていた窓が開かれる、閉じていたカーテンが開かれるなど)が発生したことを決定することに応答して、モニタした音の一部またはすべてを音声ストリームとしてマッピングサーバに選択的に提供することができる。マッピングサーバは、ヘッドセットから受信される音声ストリームに基づいて音響パラメータを再計算することによって仮想モデルを更新し得る。
いくつかの実施形態において、ヘッドセットは、ヘッドセットが位置するローカルエリアについてのインパルス応答をパラメータ化する音響パラメータのセットに関する情報を獲得する。ヘッドセットは、マッピングサーバから音響パラメータのセットを獲得し得る。代替的に、音響パラメータのセットは、ヘッドセットにおいて記憶される。ヘッドセットは、音響パラメータのセットを外挿することによって、ヘッドセットおよび音源(例えば、仮想物体)の特定の空間的配置についてのインパルス応答を再構築し得る。再構築されたインパルス応答は、調節された音響パラメータのセットによって表され得、調節されたセットからの1つまたは複数の音響パラメータは、元のセットから1つまたは複数の対応する音響パラメータを動的に調節することによって獲得される。ヘッドセットは、再構築されたインパルス応答、すなわち、調節された音響パラメータのセットを使用して、(例えば、音声コントローラを介して)音声コンテンツを提示する。
ヘッドセットは、例えば、NED、HMD、または何らかの他のタイプのヘッドセットであり得る。ヘッドセットは、人工現実システムの部分であり得る。ヘッドセットは、ディスプレイおよび光アセンブリをさらに含む。ヘッドセットのディスプレイは、画像光を放出するように構成される。ヘッドセットの光アセンブリは、着用者の目の位置に対応するヘッドセットのアイボックスに画像光を向けるように構成される。いくつかの実施形態において、画像光は、ヘッドセットの周りのローカルエリアについての深さ情報を含み得る。
図1は、1つまたは複数の実施形態に従う、ヘッドセット110のためのシステム100のブロック図である。システム100は、部屋102内のユーザ106によって着用され得るヘッドセット110を含む。ヘッドセット110は、ネットワーク120を介してマッピングサーバ130に接続される。
ネットワーク120は、ヘッドセット110をマッピングサーバ130に接続する。ネットワーク120は、共にワイヤレスおよび/または有線通信システムを使用するローカルエリアおよび/または広域ネットワークの任意の組み合わせを含み得る。例えば、ネットワーク120は、インターネット、ならびに携帯電話ネットワークを含み得る。1つの実施形態において、ネットワーク120は、標準通信技術および/またはプロトコルを使用する。故に、ネットワーク120は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者線(DSL)、非同期転送モード(ATM)、インフィニバンド、PCIエキスプレスアドバンスドスイッチングなどの技術を使用したリンクを含み得る。同様に、ネットワーク120上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含み得る。ネットワーク120を介して交換されるデータは、2値形式の画像データ(例えば、ポータブルネットワークグラフィックス(PNG))、ハイパーテキストマークアップ言語(HTML)、拡張マークアップ言語(XML)などを含む技術および/または形式を使用して表され得る。加えて、リンクのすべてまたは一部は、セキュアソケット層(SSL)、トランスポート層セキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)などの慣用暗号技術を使用して暗号化され得る。ネットワーク120はまた、同じまたは異なる室内に位置する複数のヘッドセットを同じマッピングサーバ130に接続し得る。
ヘッドセット110は、メディアをユーザに提示する。1つの実施形態において、ヘッドセット110は、NEDであり得る。別の実施形態において、ヘッドセット110は、HMDであり得る。一般に、ヘッドセット110は、コンテンツ(例えば、メディアコンテンツ)がヘッドセットの片方または両方のレンズを使用して提示されるように、ユーザの顔に着用され得る。しかしながら、ヘッドセット110はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット110によって提示されるメディアコンテンツの例としては、1つまたは複数の画像、映像、音声、またはそれらの何らかの組み合わせが挙げられる。
ヘッドセット110は、部屋102の少なくとも一部分を説明する視覚情報を決定し、その視覚情報をマッピングサーバ130に提供し得る。例えば、ヘッドセット110は、部屋102の少なくとも一部分についての深さ画像データを生成する少なくとも1つの深さカメラアセンブリ(DCA)を含み得る。ヘッドセット110は、部屋102の少なくとも一部分についてのカラー画像データを生成する少なくとも1つのパッシブカメラアセンブリ(PCA)を含み得る。いくつかの実施形態において、ヘッドセット110のDCAおよびPCAは、部屋102の視覚情報を決定するための、ヘッドセット110に取り付けられた同時位置決め地図作成(SLAM)センサの部分である。故に、少なくとも1つのDCAによって捕捉される深さ画像データおよび/または少なくとも1つのPCAによって捕捉されるカラー画像データは、ヘッドセット110のSLAMセンサによって決定される視覚情報と見なされ得る。
ヘッドセット110は、部屋102についての音響パラメータのセットを決定するため、視覚情報を、ネットワーク120を介してマッピングサーバ130に通信し得る。別の実施形態において、ヘッドセット110は、音響パラメータのセットを決定するため、視覚情報に加えて、その位置情報(例えば、部屋102の全地球測位システム(GPS)位置)をマッピングサーバ130に提供する。代替的に、ヘッドセット110は、音響パラメータのセットを決定するため、位置情報のみをマッピングサーバ130に提供する。音響パラメータのセットは、部屋102の中の音響状態を一緒に規定する部屋102の中の特定の構成の様々な音響特性を表すために使用され得る。部屋102の中の構成は、故に、部屋102の中の固有の音響状態と関連付けられる。部屋102の中の構成および関連付けられた音響状態は、部屋102の窓を開閉することによって、カーテンを開閉することによって、部屋102のドアを開閉することによってなど、例えば、部屋102の中のヘッドセット110の位置における変化、部屋102の中の音源の位置における変化、部屋102の中の人間の占有レベルの変化、部屋102の中の表面の1つまたは複数の音響材の変化のうちの少なくとも1つに基づいて変化し得る。
音響パラメータのセットは、複数の周波数帯の各々についての音源からヘッドセット110までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット110までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置などのうちの一部またはすべてを含み得る。いくつかの実施形態において、上述した音響パラメータのうちの一部の周波数依存性は、4つの周波数帯にクラスタリングされ得る。いくつかの他の実施形態において、音響パラメータのうちの一部は、4超または4未満の周波数帯にクラスタリングされ得る。ヘッドセット110は、マッピングサーバ130から獲得される音響パラメータのセットを使用してユーザ106に音声コンテンツを提示する。音声コンテンツは、部屋102の中の物体(すなわち、実物体または仮想物体)から生じているように思われるように提示される。
ヘッドセット110は、部屋102の中の音をモニタするための音響センサのアレイをさらに含み得る。ヘッドセット110は、モニタされた音に基づいて音声ストリームを生成し得る。ヘッドセット110は、部屋102の中の構成における変化が発生して、部屋102の中の音響状態が変化したことを引き起こしているという決定に応答して、マッピングサーバ130において部屋102のための1つまたは複数の音響パラメータを更新するために、(例えば、ネットワーク120を介して)マッピングサーバ130に音声ストリームを選択的に提供し得る。ヘッドセット110は、マッピングサーバ130から獲得される更新された音響パラメータのセットを使用してユーザ106に音声コンテンツを提示する。
いくつかの実施形態において、ヘッドセット110は、マッピングサーバ130、またはヘッドセット110における非一時的コンピュータ可読記憶デバイス(すなわち、メモリ)のいずれかから、部屋102についてのインパルス応答をパラメータ化する音響パラメータのセットを獲得する。ヘッドセット110は、音響パラメータのセットを、獲得された音響パラメータのセットと関連付けられた構成とは異なる部屋102の特定の構成についての再構築された室内インパルス応答を表す調節された音響パラメータのセットに選択的に外挿し得る。ヘッドセット110は、再構築された室内インパルス応答を使用してヘッドセット110のユーザに音声コンテンツを提示する。さらには、ヘッドセット110は、室内のヘッドセット110の位置(例えば、場所および姿勢)を追跡する位置センサまたは内部測定ユニット(IMU)を含み得る。ヘッドセット110の動作および構成要素に関するさらなる詳細は、図3B、図4、図5B~5C、および図6に関連して以下に論じられる。
マッピングサーバ130は、ヘッドセット110のための音声コンテンツの作成を促進する。マッピングサーバ130は、複数の空間およびそれらの空間の音響特性を説明する仮想モデルを記憶するデータベースを含み、仮想モデル内の1つの位置は、部屋102の現在の構成に対応する。マッピングサーバ130は、ネットワーク120を介してヘッドセット110から、部屋102の少なくとも一部分を説明する視覚情報、および/または部屋102の位置情報を受信する。マッピングサーバ130は、受信した視覚情報および/または位置情報に基づいて、部屋102の現在の構成と関連付けられる仮想モデル内の位置を決定する。マッピングサーバ130は、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、部屋102の現在の構成と関連付けられた音響パラメータのセットを決定(例えば、取得)する。マッピングサーバ130は、ヘッドセット110において音声コンテンツを生成するため、(例えば、ネットワーク120を介して)ヘッドセット110に音響パラメータのセットに関する情報を提供し得る。代替的に、マッピングサーバ130は、音響パラメータのセットを使用して音声信号を生成し、その音声信号をレンダリングのためにヘッドセット110に提供し得る。いくつかの実施形態において、マッピングサーバ130の構成要素のうちの一部は、有線接続を介してヘッドセット110に接続される別のデバイス(例えば、コンソール)と統合され得る(図1では示されない)。マッピングサーバ130の動作および構成要素に関するさらなる詳細は、図3A、図3C、図5Aに関連して以下に論じられる。
図2は、1つまたは複数の実施形態に従う、音源とヘッドセットのユーザとの間の音の伝搬に対する部屋200の中の表面の効果を例証する。音響パラメータのセット(例えば、室内インパルス応答をパラメータ化する)は、音が、音源からユーザ(受信者)まで部屋200の中を進行するときにどのように変換されるかを表し、直接音経路および音が行き交う反射音経路の影響を含み得る。例えば、ヘッドセット110を着用しているユーザ106は、部屋200の中にいる。部屋200は、壁202および204などの壁を含み、これが、物体206(例えば、仮想音源)からの音208を反射するための表面を提供する。物体206が音208を放出するとき、音208は、複数の経路を通ってヘッドセット110へ進行する。音208の一部は、直接音経路210に沿って、反射なしにユーザ106の(例えば、右)耳へと進行する。直接音経路210は、物体206とユーザ106との間の距離わたって伝搬媒質(例えば、空気)によって引き起こされる音の減衰、フィルタリング、および時間遅延を結果としてもたらし得る。
音208の他の部分は、ユーザ106に到達する前に反射され、反射音を表す。例えば、音208の別の部分は、反射音経路212に沿って進行し、この場合、音は、壁202によってユーザ106へと反射される。反射音経路212は、物体206と壁202との間の距離にわたって伝搬媒質によって引き起こされる音208の減衰、フィルタリング、および時間遅延、壁202からの反射によって引き起こされる別の減衰またはフィルタリング、ならびに壁202とユーザ106との間の距離にわたって伝搬媒質によって引き起こされる別の減衰、フィルタリング、および時間遅延を結果としてもたらし得る。壁202における減衰の量は、壁202の音響吸収に依存し、これは、壁202の材料に基づいて様々であり得る。別の例では、音208の別の部分は、反射音経路214に沿って進行し、この場合、音208は、物体216(例えば、テーブル)によって、ユーザ106の方へ反射される。
部屋200の中の様々な音伝搬経路210、212、214は、音源(すなわち、物体206)および受信者(例えば、ヘッドセット106)の特定の位置に依存する室内インパルス応答を表す。室内インパルス応答は、低周波数モード、回折経路、壁による伝送、表面の音響材特性などの、部屋に関する多種多様な情報を含む。室内インパルス応答は、音響パラメータのセットを使用してパラメータ化され得る。反射音経路212および214は、単一の表面における反射によって引き起こされる一次反射の例であるが、音響パラメータのセット(例えば、室内インパルス応答)は、複数の表面または物体におけるより高次の反射からの影響を組み込み得る。音響パラメータのセットを使用して物体206の音声信号を変換することにより、ヘッドセット110は、音が直接音経路210および反射音経路212、214に沿って部屋200の中を通る際に音声信号の伝搬をシミュレートするユーザ106のための音声コンテンツを生成する。
部屋200の中での物体206(音源)からユーザ106(受信者)までの伝搬経路は、一般的には、直接音経路210、近くの表面からの一次音響反射に対応する早期反射(例えば、反射音経路214によって運ばれる)、および、より遠い表面からの一次音響反射、または高次の音響反射に対応する後期残響(例えば、反射音経路212によって運ばれる)という3つの部分に分割され得るということに留意されたい。各音経路は、対応する音響パラメータを更新する比率に影響を及ぼす異なる知覚要件を有する。例えば、ユーザ106は、直接音経路210におけるレイテンシに対して非常に不寛容であり得、したがって、直接音経路210と関連付けられた1つまたは複数の音響パラメータは、最高比率で更新され得る。しかしながら、ユーザ106は、早期反射におけるレイテンシについてはより寛容であり得る。後期残響は、頭部回転における変化に対して最も感受性が低いが、これは、多くの場合、後期残響が、室内で等方性および均一であり、故に後期残響は、回転または並進運動により耳で変化しないためである。また、後期残響に関連したすべての知覚的に重要な音響パラメータを計算するのは計算コストが非常に高い。この理由から、早期反射および後期残響と関連付けられた音響パラメータは、例えば、ヘッドセット110ほど厳しいエネルギーおよび計算制限を有さないが、かなりのレイテンシを有するマッピングサーバ130において、閑散時に効率的に計算され得る。音響パラメータを決定するためのマッピングサーバ130の動作に関する詳細は、図3Aおよび図5Aと関連して以下に論じられる。
図3Aは、1つまたは複数の実施形態に従う、マッピングサーバ130のブロック図である。マッピングサーバ130は、ヘッドセット110が位置する物理的空間(部屋)のための音響パラメータのセットを決定する。決定された音響パラメータのセットは、部屋の中の物体(例えば、仮想または実物体)と関連付けられた音声信号を変換するために、ヘッドセット110において使用され得る。説得力のある音源を物体に追加するため、ヘッドセット110から出力される音声信号は、それが物体の場所から聴取者まで、同じ位置の自然の音源の場合と同じように伝搬されていたように聞こえなければならない。音響パラメータのセットは、直接経路および部屋の表面からの様々な反射経路に沿った伝搬を含む、室内の物体から聴取者(すなわち、室内のヘッドセットの位置)までの音の伝搬によって引き起こされる変換を規定する。マッピングサーバ130は、仮想モデルデータベース305、通信モジュール310、マッピングモジュール315、および音響解析モジュール320を含む。他の実施形態において、マッピングサーバ130は、列挙されたモジュールと任意の追加のモジュールとの任意の組み合わせを有し得る。いくつかの他の実施形態において、マッピングサーバ130は、図3Aに例証されるモジュールの機能を組み合わせる1つまたは複数のモジュールを含む。マッピングサーバ130のプロセッサ(図3Aでは示されない)は、仮想モデルデータベース305、通信モジュール310、マッピングモジュール315、音響解析モジュール320、図3Aに示されるモジュールの機能を組み合わせる1つまたは複数の他のモジュールのうちの一部またはすべてを実行し得る。
仮想モデルデータベース305は、複数の物理的空間およびそれらの物理的空間の音響特性を説明する仮想モデルを記憶する。仮想モデル内の各位置は、固有の音響状態と関連付けられた特有の構成を有するローカルエリア内のヘッドセット110の物理的な位置に対応する。固有の音響状態は、音響パラメータの固有のセットで表される音響特性の固有のセットを有するローカルエリアの状態を表す。仮想モデル内の特定の位置は、部屋102の中のヘッドセット110の現在の物理的な位置に対応し得る。仮想モデル内の各位置は、ローカルエリアの1つの構成を表す対応する物理的空間のための音響パラメータのセットと関連付けられる。音響パラメータのセットは、ローカルエリアのその1つの特定の構成の様々な音響特性を説明する。音響特性が仮想モデル内で説明される物理的空間としては、限定されるものではないが、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームが挙げられる。故に、図1の部屋102は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、またはリビングルームであり得る。いくつかの実施形態において、物理的空間は、特定の屋外空間(例えば、パティオ、庭など)または様々な室内および屋外空間の組み合わせであり得る。仮想モデルの構造に関するさらなる詳細は、図3Cに関連して以下に論じられる。
通信モジュール310は、ネットワーク120を介してヘッドセット130と通信するモジュールである。通信モジュール310は、ヘッドセット130から、部屋102の少なくとも一部分を説明する視覚情報を受信する。1つまたは複数の実施形態において、視覚情報は、部屋102の少なくとも一部分についての画像データを含む。例えば、通信モジュール310は、部屋102の壁、床、および天井の表面などの部屋102の表面によって規定される部屋102の形状に関する情報と共に、ヘッドセット110のDCAによって捕捉される深さ画像データを受信する。通信モジュール310はまた、ヘッドセット110のPCAによって捕捉されるカラー画像データを受信し得る。マッピングサーバ130は、異なる音響材を部屋102の表面と関連付けるためにカラー画像データを使用し得る。通信モジュール310は、ヘッドセット130から受信される視覚情報(例えば、深さ画像データおよびカラー画像データ)をマッピングモジュール315に提供し得る。
マッピングモジュール315は、ヘッドセット110から受信される視覚情報を仮想モデルの位置にマッピングする。マッピングモジュール315は、ヘッドセット110が位置する現在の物理的空間に対応する仮想モデルの位置、すなわち、部屋102の現在の構成を決定する。マッピングモジュール315は、(i)例えば、物理的空間の表面の幾何学的形状に関する情報および表面の音響材に関する情報を少なくとも含む、視覚情報と、(ii)仮想モデル内の物理的空間の対応する構成とのマッピングを見つけ出すために、仮想モデルを検索する。マッピングは、受信した視覚情報の幾何学的形状および/または音響材情報を、仮想モデル内の物理的空間の構成の部分として記憶される幾何学的形状および/または音響材情報と一致させることによって実施される。仮想モデル内の物理的空間の対応する構成は、ヘッドセット110が現在位置する物理的空間のモデルに対応する。一致が見つからない場合、これは、物理的空間の現在の構成が仮想モデル内でまだモデル化されていないことを示すものである。そのような場合、マッピングモジュール315は、一致が見つからないことを音響解析モジュール320に通知し得、音響解析モジュール320は、受信した視覚情報に少なくとも部分的に基づいて、音響パラメータのセットを決定する。
音響解析モジュール320は、マッピングモジュール315から獲得される仮想モデル内の決定された位置、および決定された位置と関連付けられた仮想モデル内の任意の音響パラメータに少なくとも部分的に基づいて、ヘッドセット110の物理的な位置と関連付けられた音響パラメータのセットを決定する。いくつかの実施形態において、音響解析モジュール320は、音響パラメータのセットが、特定の空間構成と関連付けられる仮想モデル内の決定された位置に記憶されるため、仮想モデルから音響パラメータのセットを取得する。いくつかの他の実施形態において、音響解析モジュール320は、ヘッドセット110から受信される視覚情報に少なくとも部分的に基づいて、仮想モデル内の特定の空間構成のための以前に決定された音響パラメータのセットを調節することによって音響パラメータのセットを決定する。例えば、音響解析モジュール320は、音響パラメータのセットを決定するために、受信した視覚情報を使用してオフライン音響シミュレーションを実行し得る。
いくつかの実施形態において、音響解析モジュール320は、例えば、ヘッドセット110から捕捉および獲得される周囲音を解析することによって、以前に生成された音響パラメータがヘッドセット110の現在の物理的な位置の音響状態と一貫しないことを決定する。検出された不一致は、マッピングサーバ130における音響パラメータの新規セットの再生成をトリガし得る。一旦再計算されると、音響パラメータのこの新規セットは、以前の音響パラメータのセットの代わりとして、または同じ物理的空間についての追加の状態として、マッピングサーバ130の仮想モデルに入力され得る。いくつかの実施形態において、音響解析モジュール320は、ヘッドセット110から受信される周囲音(例えば、会話)を解析することによって、音響パラメータのセットを推定する。いくつかの他の実施形態において、音響解析モジュール320は、部屋の幾何学的形状を含み得るヘッドセット110から受信される視覚情報を使用して音響シミュレーション(例えば、波ベースの音響シミュレーションまたはレイトレーシング音響シミュレーション)を実行することによって、音響パラメータのセットを導出し、音響材特性を推定する。音響解析モジュール320は、導出した音響パラメータのセットを通信モジュール310に提供し、この通信モジュール310が、例えば、ネットワーク120を介して、音響パラメータのセットをマッピングサーバ130からヘッドセット110へ通信する。
いくつかの実施形態において、論じられるように、通信モジュール310は、ヘッドセット110から音声ストリームを受信し、これは、部屋102の中の音を使用してヘッドセット110において生成され得る。音響解析モジュール320は、受信した音声ストリームに基づいて、部屋102の特定の構成のための1つまたは複数の音響パラメータを(例えば、サーバベースの計算アルゴリズムを適用することによって)決定し得る。いくつかの実施形態において、音響解析モジュール320は、例えば、最尤推定量を用いる、音声ストリームにおける音ディケイのための統計モデルに基づいて、1つまたは複数の音響パラメータ(例えば、残響時間)を推定する。いくつかの他の実施形態において、音響解析モジュール320は、例えば、受信した音声ストリームから抽出される時間領域情報および/または周波数領域情報に基づいて、1つまたは複数の音響パラメータを推定する。
いくつかの実施形態において、音響解析モジュール320によって決定される1つまたは複数の音響パラメータは、部屋102の現在の構成として仮想モデルの部分ではなかった、および部屋102の対応する音響状態が仮想モデルによってモデル化されていなかった音響パラメータの新規セットを表す。そのような場合、仮想モデルデータベース305は、部屋102の現在の音響状態をモデル化する部屋102の現在の構成と関連付けられる仮想モデル内の位置に音響パラメータの新規セットを記憶する。1つまたは複数の音響パラメータ(例えば、周波数依存性の残響時間、周波数依存性の直間比など)のうちの一部またはすべては、音響パラメータのうちの一部を再計算するために使用され得る、音響パラメータと関連付けられた信頼度(重み)および絶対時間スタンプと一緒に、仮想モデル内に記憶され得る。
いくつかの実施形態において、部屋102の現在の構成は、仮想モデルによってすでにモデル化されており、音響解析モジュール320は、受信した音声ストリームに基づいて音響パラメータのセットを再計算する。代替的に、再計算されたセット内の1つまたは複数の音響パラメータは、例えば、少なくとも、ヘッドセット110においてモニタされるローカルエリア内の音に基づいて、ヘッドセット110において決定され、マッピングサーバ130へ通信され得る。仮想モデルデータベース305は、音響パラメータのセットを再計算された音響パラメータのセットと置き換えることによって、仮想モデルを更新し得る。1つまたは複数の実施形態において、音響解析モジュール320は、再計算された音響パラメータのセットを以前に決定された音響パラメータのセットと比較する。比較に基づいて、再計算された音響パラメータのうちのいずれかと以前に決定された音響パラメータのうちのいずれかとの間の差が、閾値差分を上回るとき、仮想モデルは、再計算された音響パラメータのセットを使用して更新される。
いくつかの実施形態において、音響解析モジュール320は、再計算された音響パラメータのうちのいずれかを、同じローカルエリア構成についての対応する音響パラメータの過去の推定値と、過去の推定値が再計算された音響パラメータからの閾値以内である場合に、組み合わせる。過去の推定値は、ローカルエリアの対応する構成と関連付けられた仮想モデルの位置において仮想モデルデータベース305に記憶され得る。1つまたは複数の実施形態において、音響解析モジュール320は、過去の推定値が再計算された音響パラメータからの閾値以内でない場合、過去の推定値に重み(例えば、過去の推定値と関連付けられた時間スタンプに基づいた重み、または記憶された重み)を適用する。いくつかの実施形態において、音響解析モジュール320は、少なくとも1つの音響パラメータのための推定値をもたらす異なる音響材を決定するために、少なくとも1つの音響パラメータ(例えば、残響時間)の推定値およびヘッドセット110が位置する物理的空間についての幾何学的形状情報に対して材料最適化アルゴリズムを適用する。音響材に関する情報は、幾何学的形状情報と一緒に、同じ物理的空間の異なる構成および音響状態をモデル化する仮想モデルの異なる位置に記憶され得る。
いくつかの実施形態において、音響解析モジュール320は、空間依存する予め計算された音響パラメータ(例えば、空間依存する残響時間、空間依存する直間比など)を生成するために音響シミュレーションを実施し得る。空間依存する予め計算された音響パラメータは、仮想モデルデータベース305において仮想モデルの適切な位置に記憶され得る。音響解析モジュール320は、物理的空間の幾何学的形状および/または音響材が変化するときはいつでも、予め計算された音響パラメータを使用して、空間依存する音響パラメータを再計算し得る。音響解析モジュール320は、限定されるものではないが、部屋の幾何学的形状に関する情報、音響材特性推定値、および/または人間の占有レベルに関する情報(例えば、無人、部分的に満員、満員)などの音響シミュレーションのための様々な入力を使用し得る。音響パラメータは、様々な占有レベル、および様々な部屋の状態(例えば、開いた窓、閉じた窓、開いたカーテン、閉じたカーテンなど)についてシミュレートされ得る。部屋の状態が変化する場合、マッピングサーバ130は、音声コンテンツをユーザに提示するための適切な音響パラメータのセットを決定して、ヘッドセット110に通信し得る。そうでなく、適切な音響パラメータのセットが利用可能でない場合、マッピングサーバ130は(例えば、音響解析モジュール320を介して)、音響パラメータの新規セットを(例えば、音響シミュレーションを介して)計算し、音響パラメータの新規セットをヘッドセット110に通信する。
いくつかの実施形態において、マッピングサーバ130は、ローカルエリアの所与の構成についての完全な(測定またはシミュレートされた)室内インパルス応答を記憶する。例えば、ローカルエリアの構成は、ヘッドセット110および音源の特定の空間的配置に基づき得る。マッピングサーバ130は、室内インパルス応答を、ネットワーク伝送の規定の帯域幅(例えば、ネットワーク120の帯域幅)に好適な音響パラメータのセットへと低減し得る。完全なインパルス応答のパラメータ化されたバージョンを表す音響パラメータのセットは、例えば、仮想モードの部分として仮想モデルデータベース305に、またはマッピングサーバ130の別個の非一時的コンピュータ可読記憶媒体(図3Aでは示されない)に記憶され得る。
図3Bは、1つまたは複数の実施形態に従う、ヘッドセット110の音声システム330のブロック図である。音声システム330は、トランスデューサアセンブリ335、音響アセンブリ340、音声コントローラ350、および通信モジュール355を含む。1つの実施形態において、音声システム330は、例えば、音声システム330の異なる構成要素の動作を制御するための、入力インターフェース(図3Bでは示されない)をさらに備える。他の実施形態において、音声システム330は、列挙された構成要素と任意の追加の構成要素との任意の組み合わせを有し得る。
トランスデューサアセンブリ335は、例えば、音声コントローラ350からの音声命令に基づいて、ユーザの耳のための音を生み出す。いくつかの実施形態において、トランスデューサアセンブリ335は、例えば、音声コントローラ350からの音声命令に従って、ユーザの耳の中に空気伝達音響圧力波を生成することによって音を生み出す空気伝導トランスデューサの対(例えば、各耳に1つ)として実装される。トランスデューサアセンブリ335の各空気伝導トランスデューサは、周波数範囲の異なる部分を網羅するために、1つまたは複数のトランスデューサを含み得る。例えば、圧電トランスデューサが、周波数範囲の第1の部分を網羅するために使用され得、可動コイル型トランスデューサが、周波数範囲の第2の部分を網羅するために使用され得る。いくつかの他の実施形態において、トランスデューサアセンブリ335の各トランスデューサは、ユーザの頭部内の対応する骨を振動させることによって音を生み出す骨伝導トランスデューサとして実装される。骨伝導トランスデューサとして実装される各トランスデューサは、ユーザの蝸牛に向かって伝搬する組織伝達音響圧力波を生成するユーザの骨の一部分を振動させるためにユーザの骨の一部分に結合される外耳の裏に置かれ得、これにより鼓膜を迂回する。
音響アセンブリ340は、複数の音響センサ、例えば、各耳に1つの音響センサを含み得る。代替的に、音響アセンブリ340は、ヘッドセット110の様々な位置に取り付けられる音響センサのアレイ(例えば、マイク)を含む。音響アセンブリ340の音響センサは、耳の入口において音響圧力波を検出する。音響アセンブリ340の1つまたは複数の音響センサは、各耳の入口に位置付けられ得る。1つまたは複数の音響センサは、耳の入口に形成される空気伝達音響圧力波を検出するように構成される。1つの実施形態において、音響アセンブリ340は、生み出された音に関する情報を音声コントローラ350に提供する。別の実施形態において、音響アセンブリ340は、検出した音響圧力波のフィードバック情報を音声コントローラ350に伝送し、フィードバック情報は、トランスデューサアセンブリ335の校正のために音声コントローラ350によって使用され得る。
1つの実施形態において、音響アセンブリ340は、着用者の各耳の入口に位置付けられるマイクを含む。マイクは、圧力を電気信号に変換するトランスデューサである。マイクの周波数応答は、周波数範囲のいくつかの部分においては比較的平坦であり得、周波数範囲の他の部分においては線形であり得る。マイクは、トランスデューサアセンブリ335に提供される音声命令に基づいてマイクからの検出信号をスケーリングするために、音声コントローラ350から信号を受信するように構成され得る。例えば、信号は、検出信号のクリッピングを回避するために、または検出信号における信号対雑音比を改善するため、音声命令に基づいて調節され得る。
別の実施形態において、音響アセンブリ340は、振動センサを含む。振動センサは、耳の一部分に結合される。いくつかの実施形態において、振動センサおよびトランスデューサアセンブリ335は、耳の異なる部分に結合する。振動センサは、信号が逆に流れることを除き、トランスデューサアセンブリ335において使用される空気トランスデューサに類似する。電気信号がトランスデューサ内に機械的振動を生み出す代わりに、機械的振動が、振動センサ内に電気信号を生成している。振動センサは、圧電材料で作製され得、この圧電材料は、圧電材料が変形されるときに電気信号を生成することができる。圧電材料は、ポリマー(例えば、PVC、PVDF)、ポリマーベースの複合物、セラミック、または結晶(例えば、SiO2、PZT)であり得る。圧電材料に圧力を印加することによって、圧電材料は、極性が変化し、電気信号を生み出す。圧電センサは、耳の後ろによく付着する材料(例えば、シリコーン)に結合され得る。振動センサはまた、加速度計であり得る。加速度計は、圧電型または容量型であり得る。1つの実施形態において、振動センサは、着用者の耳の裏との良好な表面接触を維持し、耳への安定した量の作動力(例えば、1ニュートン)を維持する。振動センサは、IMU集積回路内に統合され得る。IMUは、図6に関連してさらに説明される。
音声コントローラ350は、音響パラメータのセット(例えば、室内インパルス応答)を使用して音声コンテンツを生成することによって音を生成するため、トランスデューサアセンブリ335に音声命令を提供する。音声コントローラ350は、音声コンテンツを、ヘッドセット110のローカルエリア内の物体(例えば、仮想物体または実物体)から生じていると思われるように提示する。一実施形態において、音声コントローラ350は、ローカルエリアの現在の構成についての室内インパルス応答をパラメータ化し得るローカルエリアの現在の構成のための音響パラメータのセットを使用して音源音声信号を変換することによって、音声コンテンツを、仮想音源から生じていると思われるように提示する。
音声コントローラ350は、例えば、ヘッドセット110の1つまたは複数のカメラから、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。情報は、深さ画像データ、カラー画像データ、ローカルエリアの場所情報、またはそれらの組み合わせを含み得る。深さ画像データは、ローカルエリアの壁、床、および天井の表面などのローカルエリアの表面によって規定されるローカルエリアの形状に関する幾何学的形状情報を含み得る。カラー画像データは、ローカルエリアの表面と関連付けられた音響材に関する情報を含み得る。場所情報は、GPS座標、またはローカルエリアのいくつかの他の位置情報を含み得る。
いくつかの実施形態において、音声コントローラ350は、音響アセンブリ340によってモニタされるローカルエリア内の音に基づいて音声ストリームを生成し、その音声ストリームを、マッピングサーバ130へ選択的に通信されるように通信モジュール355に提供する。いくつかの実施形態において、音声コントローラ350は、1つまたは複数の音響パラメータ(例えば、早期反射、直接音咬合など)を決定するために、リアルタイム音響レイトレーシングシミュレーションを実行する。リアルタイム音響レイトレーシングシミュレーションを実行することができるように、音声コントローラ350は、例えば、マッピングサーバ130において記憶される仮想モデルから、ヘッドセット110が現在位置するローカルエリアの構成についての幾何学的形状および/または音響パラメータに関する情報を要求および獲得する。いくつかの実施形態において、音声コントローラ350は、音響アセンブリ340によってモニタされるローカルエリア内の音、および/または、例えば、ヘッドセット110に取り付けられたSLAMセンサのうちの1つもしくは複数によって、ヘッドセット110において決定される視覚情報を使用して、ローカルエリアの現在の構成についての1つまたは複数の音響パラメータを決定する。
通信モジュール355(例えば、トランシーバ)は、音声コントローラ350に結合され、音声コントローラ350の部分として統合され得る。通信モジュール355は、マッピングサーバ130における音響パラメータのセットの決定のため、ローカルエリアの少なくとも一部分を説明する情報をマッピングサーバ130に通信し得る。通信モジュール355は、マッピングサーバ130において物理的空間の視覚モデルを更新するため、音声コントローラ350から獲得される音声ストリームをマッピングサーバ130に選択的に通信し得る。例えば、通信モジュール355は、経時的なローカルエリアの音響状態の変化が、ローカルエリアの構成の変化に起因して、閾値変化を上回るという決定(例えば、モニタされた音に基づいて音声コントローラ350によって)に応答して、音声ストリームをマッピングサーバ130に通信し、これは、新規または更新された音響パラメータのセットを必要とする。いくつかの実施形態において、音声コントローラ350は、周囲音声ストリームを定期的に解析することによって、例えば、経時的に変化している音声ストリームからの残響時間を定期的に推定することによって、ローカルエリアの音響状態の変化が、閾値変化を上回ることを決定する。例えば、音響状態の変化は、部屋102の中の人間の占有レベル(例えば、無人、部分的に満員、満員)を変化させることによって、部屋102の中の窓を開閉すること、部屋102のドアを開閉すること、窓のカーテンを開閉すること、部屋102におけるヘッドセット110の場所を変化させること、部屋102における音源の場所を変化させること、部屋102における何らかの他の特徴を変化させること、またはこれらの組み合わせによって、引き起こされ得る。いくつかの実施形態において、通信モジュール355は、ローカルエリアの現在の構成と関連付けられた以前に決定された音響パラメータのセットと比較して、マッピングサーバ130において仮想モデルをおそらくは更新するため、音声コントローラ350によって決定される1つまたは複数の音響パラメータをマッピングサーバ130に通信する。
1つの実施形態において、通信モジュール355は、マッピングサーバ130からローカルエリアの現在の構成についての音響パラメータのセットを受信する。別の実施形態において、音声コントローラ350は、例えば、ヘッドセット110に取り付けられたSLAMセンサのうちの1つまたは複数によって決定されるローカルエリアの視覚情報、音響アセンブリ340によってモニタされるローカルエリア内の音、位置センサ440によって決定されるローカルエリア内のヘッドセット110の位置に関する情報、ローカルエリア内の音源の位置に関する情報などに基づいて、ローカルエリアの現在の構成についての音響パラメータのセットを決定する。さらに別の実施形態において、音声コントローラ350は、音声コントローラ350に結合されるコンピュータ可読データストレージ(すなわち、メモリ)(図3Bでは示されない)から音響パラメータのセットを獲得する。メモリは、物理的空間の限られた数の構成についての音響パラメータの異なるセット(室内インパルス応答)を記憶し得る。音響パラメータのセットは、ローカルエリアの現在の構成についての室内インパルス応答のパラメータ化形式を表し得る。
音声コントローラ350は、ローカルエリアの音響状態における変化を引き起こすローカルエリアの構成における経時的な変化に応答して、音響パラメータのセットを、調節された音響パラメータのセット(すなわち、再構築された室内インパルス応答)に選択的に外挿し得る。経時的なローカルエリアの音響状態の変化は、例えば、ローカルエリアの視覚情報、ローカルエリア内のモニタされた音、ローカルエリア内のヘッドセット110の位置における変化に関する情報、ローカルエリア内の音源の位置における変化に関する情報などに基づいて、音声コントローラ350によって決定され得る。セット内の一部の音響パラメータは、ローカルエリアの構成が変化するとき(例えば、ローカルエリア内のヘッドセット110および/または音源の移動に起因して)体系的様式で変化しているため、音声コントローラ350は、音響パラメータのうちの一部を動的に調節するために外挿スキームを提供し得る。
1つの実施形態において、音声コントローラ350は、部屋の幾何学的形状に関する情報および予め計算された虚音源(例えば、1つの反復における)に基づいて、例えば、直接音の振幅および方向、直接音と早期反射との間の遅延、ならびに/または早期反射の方向および振幅を、外挿スキームを使用して動的に調節する。別の実施形態において、音声コントローラ350は、例えば、データ駆動手法に基づいて、音響パラメータのうちの一部を動的に調節する。そのような場合、音声コントローラ350は、規定の数の部屋および音源/受信者位置の測定値でモデルを訓練し得、音声コントローラ350は、演繹的知識に基づいて、特定の新規の部屋および音源/受信者配置についてのインパルス応答を予測し得る。さらに別の実施形態において、音声コントローラ350は、聴取者が2つの部屋の間の連結部に近づくと、2つの部屋と関連付けられた音響パラメータを内挿することによって音響パラメータのうちの一部を動的に調節する。したがって、音響パラメータのセットで表される室内インパルス応答のパラメータ化された表現は、動的に適合され得る。音声コントローラ350は、動的に適合された室内インパルス応答に少なくとも部分的に基づいて、トランスデューサアセンブリ335のための音声命令を生成し得る。
音声コントローラ350は、マッピングサーバ130から受信される音響パラメータのセットに外挿スキームを適用することによって、ローカルエリアの特定の構成についての室内インパルス応答を再構築し得る。室内インパルス応答のパラメータ化形式を表し、知覚的に関連のある室内インパルス応答特徴に関連した音響パラメータは、複数の周波数帯の各々についての音源からヘッドセット110までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット110までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置、1つもしくは複数の他の音響パラメータ、またはそれらの組み合わせのうちの一部またはすべてを含み得る。
音声コントローラ350は、ローカルエリアの現在の構成についての再構築された室内インパルス応答を表す調節された音響パラメータのセットを獲得するために、受信した音響パラメータのセットに対して空間的外挿を実施し得る。空間的外挿を実施するとき、音声コントローラ350は、直接音の方向、残響に対する直接音の振幅、音源指向性に従う直接音等化、早期反射のタイミング、早期反射の振幅、早期反射の方向など、複数の音響パラメータを調節し得る。残響時間は、室内で一定のままであり得、また部屋同士の交線において調節される必要があり得るということに留意されたい。
1つの実施形態において、早期反射タイミング/振幅/方向を調節するため、音声コントローラ350は、サンプルまたは反射あたりの到来方向(DOA)に基づいて外挿を実施する。そのような場合、音声コントローラ350は、DOAベクトル全体にオフセットを適用し得る。早期反射のDOAは、ヘッドセット110に取り付けられたマイクのアレイによって獲得される音声データを処理することによって決定され得るということに留意されたい。早期反射のDOAは、例えば、部屋102の中のユーザの位置および部屋の幾何学的形状に関する情報に基づいて調節され得る。
別の実施形態において、部屋の幾何学的形状および音源/聴取者位置が知られているとき、音声コントローラ350は、虚音源モデル(ISM)に基づいて低次反射を識別し得る。聴取者が動くと、識別された反射のタイミングおよび方向が、ISMを実行することにより修正される。そのような場合、振幅が調節され得るが、カラレーションは操作されなくてもよい。ISMは、早期反射の音源位置を聴取者の位置とは独立して決定するシミュレーションモデルを表すということに留意されたい。次いで、早期反射方向が、虚音源から聴取者までトレースすることによって計算され得る。所与の音源のための虚音源を記憶および利用することが、部屋102の中の任意の聴取者位置についての早期反射方向を産出する。
さらに別の実施形態において、音声コントローラ350は、早期反射タイミング/振幅/方向に関連した音響パラメータを外挿するために、部屋102の「Shoeboxモデル」を適用し得る。「Shoeboxモデル」は、実際の空間とほぼ同じサイズの長方形の箱に基づいた部屋音響の近似である。「Shoeboxモデル」は、例えば、Sabineの式に基づいて、反射または残響時間を近似するために使用され得る。元の室内インパルス応答の最も強い反射(例えば、所与の音源/受信者配置について測定またはシミュレートされる)は、ラベル付けされ、除去される。次いで、最も強い反射が、「Shoeboxモデル」の低次ISMを使用して再導入されて、外挿された室内インパルス応答を獲得する。
図3Cは、1つまたは複数の実施形態に従う、物理的空間およびその物理的空間の音響特性を説明する仮想モデル360の例である。仮想モデル360は、仮想モデルデータベース305に記憶され得る。仮想モデル360は、世界中のすべての空間についての地理的に結びつけられた3つの情報(すなわち、物理的空間識別子(ID)365、空間構成ID370、および音響パラメータのセット375)を記憶する仮想記憶データベース305内の地理情報記憶領域を表し得る。
仮想モデル360は、各々が固有の物理的空間ID365により識別される、潜在的な物理的空間S1、S2、…、Snのリストを含む。物理的空間ID365は、特定のタイプの物理的空間を一意的に識別する。物理的空間ID365は、例えば、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルーム、何らかの他のタイプの物理的空間、またはそれらの何らかの組み合わせを含み得る。故に、各物理的空間ID365は、1つの特定のタイプの物理的空間に対応する。
各物理的空間ID365は、1つまたは複数の空間構成ID370と関連付けられる。各空間構成ID370は、特定の音響状態を有する物理的空間ID335によって識別される物理的空間の構成に対応する。空間構成ID370は、例えば、物理的空間における人間の占有レベルに関する識別、物理的空間の構成要素の状態に関する識別(例えば、開いた/閉じた窓、開いた/閉じたドアなど)、物理的空間内の物体および/または表面の音響材に関する表示、同じ空間内の音源および受信者の位置に関する表示、何らかの他のタイプの構成表示、またはそれらの何らかの組み合わせを含み得る。いくつかの実施形態において、同じ物理的空間の異なる構成は、物理的空間における様々な異なる状態に起因し得る。同じ物理的空間の異なる構成は、例えば、同じ物理的空間の異なる占有度、同じ物理的空間の構成要素の異なる状態(例えば、開いた/閉じた窓、開いた/閉じたドアなど)、同じ物理的空間内の物体および/または表面の異なる音響材、同じ物理的空間内の音源/受信者の異なる位置、物理的空間の何らかの他の特徴、またはそれらの何らかの組み合わせに関連し得る。各空間構成ID370は、物理的空間ID365の構成を識別する固有コードID(例えば、バイナリコード)として表され得る。例えば、図3Cに例証されるように、物理的空間S1は、各々が同じ物理的空間S1の異なる音響状態を表すp個の異なる空間構成S1C1、S1C2、…、S1Cpと関連付けられ得、物理的空間S2は、各々が同じ物理的空間S2の異なる音響状態を表すq個の異なる空間構成S2C1、S2C2、…、S2Cqと関連付けられ得、物理的空間Snは、各々が同じ物理的空間Snの異なる音響状態を表すr個の異なる空間構成SnC1、SnC2、…、SnCrと関連付けられ得る。マッピングモジュール315は、ヘッドセット110から受信される物理的空間の視覚情報に基づいて適切な空間構成ID370を見つけ出すために仮想モデル360を検索し得る。
各空間構成ID370は、仮想モデル360の対応する位置に記憶される音響パラメータのセット375と関連付けられる特定の音響状態を有する。図3Cに例証されるように、同じ物理的空間S1のp個の異なる空間構成S1C1、S1C2、…、S1Cpは、p個の異なる音響パラメータのセット{AP11}、{AP12}、…、{AP1p}と関連付けられる。同様に、図3Cにさらに例証されるように、同じ物理的空間S2のq個の異なる空間構成S2C1、S2C2、…、S2Cqは、q個の異なる音響パラメータのセット{AP21}、{AP22}、…、{AP2q}と関連付けられ、同じ物理的空間Snのr個の異なる空間構成SnC1、SnC2、…、SnCrは、r個の異なる音響パラメータのセット{APn1}、{APn2}、…、{APnr}と関連付けられる。音響解析モジュール320は、マッピングモジュール315が、ヘッドセット110が位置する物理的空間の現在の位置に対応する空間構成ID370を見つけ出すと、仮想モデル360から対応する音響パラメータのセット375を取り出し得る。
図4は、1つまたは複数の実施形態に従う、音声システムを含むヘッドセット110の透視図である。いくつかの実施形態において(図1に示されるように)、ヘッドセット110は、NEDとして実装される。代替の実施形態において(図1では示されない)、ヘッドセット100は、HMDとして実装される。一般に、ヘッドセット110は、コンテンツ(例えば、メディアコンテンツ)がヘッドセット110の片方または両方のレンズ410を使用して提示されるように、ユーザの顔に着用され得る。しかしながら、ヘッドセット110はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット110によって提示されるメディアコンテンツの例としては、1つまたは複数の画像、映像、音声、またはそれらの何らかの組み合わせが挙げられる。ヘッドセット110は、いくつかある構成要素の中でも特に、フレーム405、レンズ410、DCA425、PCA430、位置センサ440、および音声システムを含み得る。ヘッドセット110の音声システムは、例えば、左スピーカ415a、右スピーカ415b、音響センサのアレイ435、音声コントローラ420、1つまたは複数の他の構成要素、またはそれらの組み合わせを含む。ヘッドセット110の音声システムは、図3Bと併せて上に説明される音声システム330の実施形態である。DCA425およびPCA430は、ヘッドセット110の一部またはすべてを取り囲むローカルエリアの視覚情報を捕捉するための、ヘッドセット110に取り付けられたSLAMセンサの部分であり得る。図4は、ヘッドセット110における例示的な位置にヘッドセット110の構成要素を例証するが、構成要素は、ヘッドセット110の他の場所、ヘッドセット110とペアリングされた周辺デバイス、またはそれらの何らかの組み合わせに位置してもよい。
ヘッドセット110は、ユーザの視力を補正もしくは強化するか、ユーザの目を保護するか、またはユーザに画像を提供し得る。ヘッドセット110は、ユーザの視覚における欠陥を補正する眼鏡であり得る。ヘッドセット110は、ユーザの目を太陽から守るサングラスであり得る。ヘッドセット110は、ユーザの目を衝撃から守る安全眼鏡であり得る。ヘッドセット110は、夜間にユーザの視力を強化するための暗視装置または赤外線ゴーグルであり得る。ヘッドセット110は、ユーザのために人工現実コンテンツを生み出すニアアイディスプレイであり得る。代替的に、ヘッドセット110は、レンズ410を含まなくてもよく、音声コンテンツ(例えば、音楽、ラジオ、ポッドキャスト)をユーザに提供する音声システムを伴ったフレーム405であり得る。
フレーム405は、ヘッドセット110の構成要素を保持する。フレーム405は、レンズ410を保持する前部、およびユーザの頭部に装着するための末端部を含む。フレーム405の前部は、ユーザの鼻の上部に架かる。末端部(例えば、テンプル)は、ユーザのこめかみに装着されるフレーム405の部分である。末端部の長さは、異なるユーザにフィットするように調節可能であり得る(例えば、調節可能なテンプル長さ)。末端部はまた、ユーザの耳の裏に巻き付く部分を含み得る(例えば、テンプル先端、つる)。
レンズ410は、ヘッドセット110を着用しているユーザへ光を提供するか、または透過させる。レンズ410は、ユーザの視覚における欠陥を補正するのを助けるための度付きレンズ(例えば、単焦点、二焦点、および三焦点、または累進焦点)であり得る。度付きレンズは、ヘッドセット110を着用しているユーザへ周囲光を透過させる。透過された周囲光は、ユーザの視覚における欠陥を補正するために度付きレンズによって変更され得る。レンズ410は、ユーザの目を太陽から守るための偏光レンズまたは着色レンズであり得る。レンズ410は、画像光が導波路の端または縁を通じてユーザの目に結合される導波路ディスプレイの一部としての1つまたは複数の導波路であり得る。レンズ410は、画像光を提供するための電子ディスプレイを含み得、また、電子ディスプレイからの画像光を拡大するための光学ブロックを含み得る。
スピーカ415aおよび415bは、ユーザの耳のために音を生み出す。スピーカ415a、415bは、図3B内のトランスデューサアセンブリ335のトランスデューサの実施形態である。スピーカ415aおよび415bは、音を生成するために、音声コントローラ420から音声命令を受信する。左スピーカ415aは、音声コントローラ420から左音声チャネルを獲得し得、右スピーカ415bは、音声コントローラ420から右音声チャネルを獲得する。図4に例証されるように、各スピーカ415a、415bは、フレーム405の末端部に結合され、ユーザの対応する耳への入口の前に置かれる。スピーカ415aおよび415bは、フレーム405の外側に示されるが、スピーカ415aおよび415bは、フレーム405に囲まれてもよい。いくつかの実施形態において、各耳用の個別のスピーカ415aおよび415bの代わりに、ヘッドセット110は、例えば、提示された音声コンテンツの指向性を改善するためにフレーム405の末端部に統合されるスピーカアレイ(図4では示されない)を含む。
DCA425は、部屋などの、ヘッドセット110を取り囲むローカルエリアについての深さ情報を説明する深さ画像データを捕捉する。いくつかの実施形態において、DCA425は、投光器(例えば、構造化光および/または飛行時間のためのフラッシュ照明)、撮像デバイス、およびコントローラ(図4では示されない)を含み得る。捕捉データは、投光器によってローカルエリアに投影される光の撮像デバイスによって捕捉される画像であり得る。1つの実施形態において、DCA425は、コントローラ、およびステレオでローカルエリアの捕捉部分へ配向される2つ以上のカメラを含み得る。捕捉データは、ステレオでローカルエリアの2つ以上のカメラによって捕捉される画像であり得る。DCA425のコントローラは、捕捉データおよび深さ決定技法(例えば、構造化光、飛行時間、ステレオ撮像など)を使用して、ローカルエリアの深さ情報を計算する。深さ情報に基づいて、DCA425のコントローラは、ローカルエリア内のヘッドセット110の絶対位置情報を決定する。DCA425のコントローラはまた、ローカルエリアのモデルを生成し得る。DCA425は、ヘッドセット110と統合され得るか、またはヘッドセット110の外側にローカルエリア内に位置付けられ得る。いくつかの実施形態において、DCA425のコントローラは、例えば、さらなる処理およびマッピングサーバ130への通信のため、ヘッドセット110の音声コントローラ420に深さ画像データを伝送し得る。
PCA430は、カラー(例えば、RGB)画像データを生成する1つまたは複数のパッシブカメラを含む。能動的な光放出および反射を使用するDCA425とは異なり、PCA430は、カラー画像データを生成するためにローカルエリアの環境から光を捕捉する。撮像デバイスからの深さまたは距離を規定する画素値ではなく、カラー画像データの画素値は、画像データ内で捕捉される物体の可視色を規定し得る。いくつかの実施形態においてPCA430は、パッシブ撮像デバイスによって捕捉される光に基づいてカラー画像データを生成するコントローラを含む。PCA430は、例えば、さらなる処理およびマッピングサーバ130への通信のため、音声コントローラ420にカラー画像データを提供し得る。
音響センサのアレイ435は、ヘッドセット110の一部またはすべてを取り囲むローカルエリア内の音をモニタおよび記録する。音響センサのアレイ435は、図3Bの音響アセンブリ340の実施形態である。図4に例証されるように、音響センサのアレイ435は、ヘッドセット110上に位置付けられる複数の音響検出場所を伴う複数の音響センサを含む。音響センサのアレイ435は、記録した音を音声ストリームとして音声コントローラ420に提供し得る。
位置センサ440は、ヘッドセット110の動きに応答して1つまたは複数の測定信号を生成する。位置センサ440は、ヘッドセット110のフレーム405の一部分に位置し得る。位置センサ440は、位置センサ、内部測定ユニット(IMU)、または両方を含み得る。ヘッドセット110のいくつかの実施形態は、位置センサ440を含んでも含まなくてもよく、または2つ以上の位置センサ440を含んでもよい。位置センサ440がIMUを含む実施形態において、IMUは、位置センサ440からの測定信号に基づいてIMUデータを生成する。位置センサ440の例としては、1つもしくは複数の加速度計、1つもしくは複数のジャイロスコープ、1つもしくは複数の磁力計、動きを検出する別の好適なタイプのセンサ、IMUの誤り訂正のために使用されるタイプのセンサ、またはそれらの何らかの組み合わせが挙げられる。位置センサ440は、IMUの外部に、IMUの内部に、またはそれらの何らかの組み合わせで位置し得る。
1つまたは複数の測定信号に基づいて、位置センサ440は、ヘッドセット110の初期位置に対するヘッドセット110の現在の位置を推定する。推定位置は、ヘッドセット110の場所、および/またはヘッドセット110もしくはヘッドセット110を着用しているユーザの頭部の配向、あるいはそれらの何らかの組み合わせを含み得る。配向は、基準点に対する各耳の位置に対応し得る。いくつかの実施形態において、位置センサ440は、ヘッドセット110の現在の位置を推定するために、DCA425からの深さ情報および/または絶対位置情報を使用する。位置センサ440は、並進運動(前後、上下、左右)を測定するために複数の加速度計、および回転運動(例えば、ピッチ、ヨウ、ロール)を測定するために複数のジャイロスコープを含み得る。いくつかの実施形態において、IMUは、測定信号を迅速にサンプリングし、サンプリングしたデータからヘッドセット110の推定位置を計算する。例えば、IMUは、加速度計から受信される測定信号を経時的に統合して、速度ベクトルを推定し、この速度ベクトルを経時的に統合して、ヘッドセット110上の基準点の推定値を決定する。基準点は、ヘッドセット110の位置を説明するために使用され得る点である。基準点は、一般的には、空間内の点として規定され得るが、実際には、基準点は、ヘッドセット110内の点として規定される。
音声コントローラ420は、音響パラメータのセット(例えば、室内インパルス応答)を使用して音声コンテンツを生成することによって音を生成するため、スピーカ415a、415bに音声命令を提供する。音声コントローラ420は、図3Bの音声コントローラ350の実施形態である。音声コントローラ420は、例えば、ローカルエリアの現在の構成についての音響パラメータのセットを使用して音源音声信号を変換することによって、ローカルエリア内の物体(例えば、仮想物体または実物体)から生じているように思えるように音声コンテンツを提示する。
音声コントローラ420は、例えば、DCA425および/またはPCA430から、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。音声コントローラ420において獲得される視覚情報は、DCA425によって捕捉される深さ画像データを含み得る。音声コントローラ420において獲得される視覚情報は、PCA430によって捕捉されるカラー画像データをさらに含み得る。音声コントローラ420は、深さ画像データをカラー画像データと組み合わせて、音響パラメータのセットの決定のためにマッピングサーバ130に(例えば、図4では示されない、音声コントローラ420に結合される通信モジュールを介して)通信される視覚情報にし得る。1つの実施形態において、通信モジュール(例えば、トランシーバ)は、音声コントローラ420内に統合され得る。別の実施形態において、通信モジュールは、音声コントローラ420の外側にあり、音声コントローラ420に結合される別個のモジュール、例えば、図3Bの通信モジュール355として、フレーム405内に統合され得る。いくつかの実施形態において、音声コントローラ420は、例えば、音響センサのアレイ435によってモニタされるローカルエリア内の音に基づいて、音声ストリームを生成する。音声コントローラ420に結合される通信モジュールは、マッピングサーバ130において物理的空間の視覚モデルを更新するため、音声ストリームをマッピングサーバ130に選択的に通信し得る。
図5Aは、1つまたは複数の実施形態に従う、ヘッドセットの物理的な位置のための音響パラメータを決定するためのプロセス500を例証するフローチャートである。図5Aのプロセス500は、装置の構成要素、例えば、図3Aのマッピングサーバ130によって実施され得る。他のエンティティ(例えば、図4のヘッドセット110の構成要素および/または図6に示される構成要素)が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび/もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。
マッピングサーバ130は、ローカルエリアの少なくとも一部分を説明する情報に基づいて、ローカルエリア(例えば、部屋102)内のヘッドセット(例えば、ヘッドセット110)のための仮想モデル内の位置を(例えば、マッピングモジュール315を介して)決定する505。記憶された仮想モデルは、複数の空間およびそれらの空間の音響特性を説明し、仮想モデル内の位置は、ローカルエリア内のヘッドセットの物理的な位置に対応する。ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの表面(例えば、壁、床、および天井の表面)によって規定されるローカルエリアの少なくとも一部分の形状、ならびにローカルエリア内の1つまたは複数の物体(実および/または仮想)に関する情報を伴う深さ画像データを含み得る。ローカルエリアの少なくとも一部分を説明する情報は、音響材を、ローカルエリアの表面および1つまたは複数の物体の表面と関連付けるためのカラー画像データをさらに含み得る。いくつかの実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの位置情報、例えば、ローカルエリアの住所、ローカルエリアのGPS位置、ローカルエリアの緯度および経度に関する情報などを含み得る。いくつかの他の実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、深さ画像データ、カラー画像データ、ローカルエリアの少なくとも一部分についての音響材に関する情報、ローカルエリアの位置情報、何らかの他の情報、またはそれらの組み合わせを含む。
マッピングサーバ130は、仮想モデル内の決定された位置、および決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、ヘッドセットの物理的な位置と関連付けられた音響パラメータのセットを(例えば、音響解析モジュール320を介して)決定する510。いくつかの実施形態において、マッピングサーバ130は、ヘッドセット110が現在位置する空間構成と関連付けられた仮想モデル内の決定された位置から、仮想モデルからの音響パラメータのセットを取得する。いくつかの他の実施形態において、マッピングサーバ130は、ヘッドセット110から受信されるローカルエリアの少なくとも一部分を説明する情報に少なくとも部分的に基づいて、仮想モデル内の以前に決定された音響パラメータのセットを調節することによって、音響パラメータのセットを決定する。マッピングサーバ130は、ヘッドセット110から受信される音声ストリームを解析して、既存の音響パラメータのセット(利用可能な場合)が音声解析と一貫するか、または再計算される必要があるかを決定し得る。既存の音響パラメータが音声解析と一貫しない場合、マッピングサーバ130は、音響パラメータの新規セットを決定するために、ローカルエリアの少なくとも一部分を説明する情報(例えば、部屋の幾何学的形状、音響材特性の推定値)を使用して、音響シミュレーション(例えば、波ベースの音響シミュレーション、またはレイトレーシング音響シミュレーション)を実行し得る。
マッピングサーバ130は、音響パラメータのセットを使用してユーザに音声コンテンツを提示するため、決定した音響パラメータのセットをヘッドセットに通信する。マッピングサーバ130は、ヘッドセット110から音声ストリームを(例えば、通信モジュール310を介して)さらに受信する。マッピングサーバ130は、受信した音声ストリームを解析することに基づいて、1つまたは複数の音響パラメータを(例えば、音響解析モジュール320を介して)決定する。マッピングサーバ130は、1つまたは複数の音響パラメータを、ヘッドセット110が位置する物理的空間と関連付けられた仮想モデル内の記憶位置に記憶し得、故に、物理的空間の現在の音響構成がまだモデル化されていない場合、仮想モデル内に新規エントリを作成する。マッピングサーバ130は、1つまたは複数の音響パラメータを以前に決定された音響パラメータのセットと(例えば、音響解析モジュール320を介して)比較し得る。マッピングサーバ130は、比較に基づいて、音響パラメータのセット内の少なくとも1つの音響パラメータを1つまたは複数の音響パラメータと置き換えることによって、仮想モデルを更新し得る。いくつかの実施形態において、マッピングサーバ130は、例えば、サーバベースのシミュレーションアルゴリズム、ヘッドセット110からの制御測定、または2つ以上のヘッドセット間の測定に基づいて、音響パラメータのセットを再決定する。
図5Bは、1つまたは複数の実施形態に従う、マッピングサーバから音響パラメータのセットを獲得するためのプロセス520を例証するフローチャートである。図5Bのプロセス520は、装置の構成要素、例えば、図4のヘッドセット110によって実施され得る。他のエンティティ(例えば、図3Bの音声システム330の構成要素および/または図6に示される構成要素)が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび/もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。
ヘッドセット110は、ローカルエリア(例えば、部屋102)の少なくとも一部分を説明する情報を決定する525。情報は、ローカルエリアの表面(例えば、壁、床、および天井の表面)によって規定されるローカルエリアの少なくとも一部分の形状、ならびにローカルエリア内の1つまたは複数の物体(実および/または仮想)に関する情報を伴う深さ画像データ(例えば、ヘッドセット110のDCA425によって生成される)を含み得る。情報はまた、ローカルエリアの少なくとも一部分についてのカラー画像データ(例えば、ヘッドセット110のPCA430によって生成される)を含み得る。いくつかの実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、ローカルエリアの位置情報、例えば、ローカルエリアの住所、ローカルエリアのGPS位置、ローカルエリアの緯度および経度に関する情報などを含み得る。いくつかの他の実施形態において、ローカルエリアの少なくとも一部分を説明する情報は、深さ画像データ、カラー画像データ、ローカルエリアの少なくとも一部分についての音響材に関する情報、ローカルエリアの位置情報、何らかの他の情報、またはそれらの組み合わせを含む。
ヘッドセット110は、ローカルエリア内のヘッドセットの仮想モデル内の位置、および仮想モデル内の位置と関連付けられた音響パラメータのセットを決定するため、情報をマッピングサーバ130に(例えば、通信モジュール355を介して)通信する530。仮想モデル内の各位置は、ローカルエリア内のヘッドセット110の特定の物理的な位置に対応し、仮想モデルは、複数の空間およびそれらの空間の音響特性を説明する。ヘッドセット110はさらに、経時的なローカルエリアの音響状態の変化が閾値変化を上回るというヘッドセット110における決定に応答して音響パラメータのセットを更新するため、音声ストリームをマッピングサーバ130に(例えば、通信モジュール355を介して)選択的に通信し得る。ヘッドセット110は、ローカルエリア内の音をモニタすることによって音声ストリームを生成する。
ヘッドセット110は、マッピングサーバ130から音響パラメータのセットに関する情報を(例えば、通信モジュール355を介して)受信する535。例えば、受信した情報は、複数の周波数帯の各々についての音源からヘッドセット110までの残響時間、周波数帯ごとの残響レベル、周波数帯ごとの直間比、周波数帯ごとの音源からヘッドセット110までの直接音の方向、周波数帯ごとの直接音の振幅、音源からヘッドセットまでの音の早期反射の時間、周波数帯ごとの早期反射の振幅、早期反射の方向、室内モード周波数、室内モード位置などに関する情報を含む。
ヘッドセット110は、例えば、適切な音響命令を生成して、音声コントローラ420からスピーカ415a、415bへ(すなわち、音声コントローラ350からトランスデューサアセンブリ340)へ提供することによって、音響パラメータのセットを使用して音声コンテンツをヘッドセット110のユーザに提示する540。ローカルエリア(部屋環境)に変化が発生して、ローカルエリア内の音響状態において変化を引き起こすとき、ヘッドセット110は、マッピングサーバ130から、更新された音響パラメータのセットを要求および獲得し得る。そのような場合、ヘッドセット110は、更新された音響パラメータのセットを使用して、更新された音声コンテンツをユーザに提示する。代替的に、音響パラメータのセットは、マッピングサーバ130との通信なしに、ヘッドセット110においてローカルで決定され得る。ヘッドセット110は、ローカルエリアに関する入力情報、例えば、ローカルエリアの幾何学的形状に関する情報、ローカルエリア内の音響材特性の推定値などを使用して、音響シミュレーション(例えば、波ベースの音響シミュレーションまたはレイトレーシング音響シミュレーション)を実行することによって、音響パラメータのセットを(例えば、音声コントローラ350を介して)決定し得る。
図5Cは、1つまたは複数の実施形態に従う、ローカルエリアについてのインパルス応答を再構築するためのプロセス550を例証するフローチャートである。図5Cのプロセス550は、装置の構成要素、例えば、ヘッドセット110の音声システム330によって実施され得る。他のエンティティ(図6に示される構成要素)が、他の実施形態において、プロセスのステップのうちの一部またはすべてを実施し得る。同様に、実施形態は、異なるおよび/もしくは追加のステップを含み得るか、または異なる順序でステップを実施し得る。
ヘッドセット110は、ヘッドセット110の一部またはすべてを取り囲むローカルエリア(例えば、部屋102)についての音響パラメータのセットを獲得する555。1つの実施形態において、ヘッドセット130は、マッピングサーバ130から音響パラメータのセットを(例えば、通信モジュール355を介して)獲得する。別の実施形態において、ヘッドセット110は、深さ画像データ(例えば、ヘッドセット110のDCA425から)、カラー画像データ(例えば、ヘッドセット110のPCA430から)、ローカルエリア内の音(例えば、音響アセンブリ340によってモニタされる)、ローカルエリア内のヘッドセット110の位置(例えば、位置センサ440によって決定される)に関する情報、ローカルエリア内の音源の位置に関する情報などに基づいて、音響パラメータのセットを(例えば、音声コントローラ350を介して)決定する。別の実施形態において、ヘッドセット110は、音声コントローラ350に結合されたコンピュータ可読データストレージ(すなわち、メモリ)から音響パラメータのセットを(例えば、音声コントローラ350を介して)獲得する。音響パラメータのセットは、ローカルエリアの1つの固有の音響状態を特徴付けるローカルエリアの1つの構成についての室内インパルス応答のパラメータ化形式を表し得る。
ヘッドセット110は、ローカルエリアの構成における変化に応答して、音響パラメータのセットを外挿することによって、音響パラメータのセットを、調節された音響パラメータのセットへと(例えば、音声コントローラ420を介して)動的に調節する560。例えば、ローカルエリアの構成における変化は、ヘッドセットおよび音源(例えば、仮想音源)の空間的配置における変化に起因し得る。調節された音響パラメータのセットは、ローカルエリアの現在の(変化した)構成についての再構築された室内インパルス応答のパラメータ化形式を表し得る。例えば、早期反射の方向、タイミング、および振幅が、ローカルエリアの現在の構成についての再構築された室内インパルス応答を生成するために調節され得る。
ヘッドセット110は、再構築された室内インパルス応答を使用して音声コンテンツをヘッドセット110のユーザに提示する565。ヘッドセット110は、ユーザへの提示のために変換された音声信号を獲得するために、再構築された室内インパルス応答で音声信号を畳み込み得る(例えば、音声コントローラ350を介して)。ヘッドセット110は、変換された音声信号に対応する音を生成するため、適切な音響命令を生成して、トランスデューサアセンブリ335(例えば、スピーカ415a、415b)に提供し得る(例えば、音声コントローラ350を介して)。
システム環境
図6は、1つまたは複数の実施形態に従う、ヘッドセットのシステム環境600である。システム600は、人工現実環境、例えば、仮想現実、拡張現実、複合現実環境、またはそれらの何らかの組み合わせにおいて動作し得る。図6に示されるシステム600は、ヘッドセット110、マッピングサーバ130、およびコンソール645に結合される入力/出力(I/O)インターフェース640を含む。図6は、1つのヘッドセット110および1つのI/Oインターフェース640を含む例示的なシステム600を示すが、他の実施形態においては、任意の数のこれらの構成要素がシステム600に含まれ得る。例えば、各々が関連付けられたI/Oインターフェース640を有する複数のヘッドセット110が存在してもよく、各ヘッドセット110およびI/Oインターフェース640は、コンソール645と通信している。代替の構成において、異なるおよび/または追加の構成要素が、システム600に含まれ得る。追加的に、図6に示される構成要素のうちの1つまたは複数と併せて説明される機能性は、いくつかの実施形態において、図6と併せて説明されるものとは異なる様式で、構成要素間で分散され得る。例えば、コンソール645の機能性のうちの一部またはすべては、ヘッドセット110によって提供され得る。
図6は、1つまたは複数の実施形態に従う、ヘッドセットのシステム環境600である。システム600は、人工現実環境、例えば、仮想現実、拡張現実、複合現実環境、またはそれらの何らかの組み合わせにおいて動作し得る。図6に示されるシステム600は、ヘッドセット110、マッピングサーバ130、およびコンソール645に結合される入力/出力(I/O)インターフェース640を含む。図6は、1つのヘッドセット110および1つのI/Oインターフェース640を含む例示的なシステム600を示すが、他の実施形態においては、任意の数のこれらの構成要素がシステム600に含まれ得る。例えば、各々が関連付けられたI/Oインターフェース640を有する複数のヘッドセット110が存在してもよく、各ヘッドセット110およびI/Oインターフェース640は、コンソール645と通信している。代替の構成において、異なるおよび/または追加の構成要素が、システム600に含まれ得る。追加的に、図6に示される構成要素のうちの1つまたは複数と併せて説明される機能性は、いくつかの実施形態において、図6と併せて説明されるものとは異なる様式で、構成要素間で分散され得る。例えば、コンソール645の機能性のうちの一部またはすべては、ヘッドセット110によって提供され得る。
ヘッドセット110は、レンズ410、光学ブロック610、1つまたは複数の位置センサ440、DCA425、内部測定ユニット(IMU)615、PCA430、および音声システム330を含む。ヘッドセット110のいくつかの実施形態は、図6と併せて説明されるものとは異なる構成要素を有する。加えて、図6と併せて説明される様々な構成要素によって提供される機能性は、他の実施形態において、ヘッドセット110の構成要素間で異なって分散され得るか、またはヘッドセット110から離れた別個のアセンブリにおいて捕捉され得る。
レンズ410は、コンソール645から受信されるデータに従って2Dまたは3D画像をユーザに表示する電子ディスプレイを含み得る。様々な実施形態において、レンズ410は、単一の電子ディスプレイまたは複数の電子ディスプレイ(例えば、ユーザのそれぞれの目のためのディスプレイ)を備える。電子ディスプレイの例としては、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリクス有機発光ダイオードディスプレイ(AMOLED)、何らかの他のディスプレイ、またはそれらの何らかの組み合わせが挙げられる。
光学ブロック610は、電子ディスプレイから受信される画像光を拡大し、画像光と関連付けられた光学誤差を補正し、補正された画像光をヘッドセット110のユーザに提示する。様々な実施形態において、光学ブロック610は、1つまたは複数の光学素子を含む。光学ブロック610に含まれる例示的な光学素子としては、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学素子が挙げられる。さらには、光学ブロック610は、異なる光学素子の組み合わせを含み得る。いくつかの実施形態において、光学ブロック610内の光学素子のうちの1つまたは複数は、部分的に反射性のコーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック610による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的に小さくなること、軽くなること、および少ない電力を消費することを可能にする。加えて、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増大させ得る。例えば、表示されたコンテンツの視野は、表示されたコンテンツが、ユーザの視野の、ほぼすべて(例えば、およそ110度対角)、および場合によってはすべてを使用して提示されるようなものである。加えて、いくつかの実施形態において、拡大の量は、光学素子を追加または除去することによって調節され得る。
いくつかの実施形態において、光学ブロック610は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例としては、たる型もしくは糸巻き型の歪み、軸上色収差、または倍率色収差が挙げられる。他のタイプの光学誤差としては、球面収差、色収差、またはレンズ像面湾曲に起因する誤差、非点収差、または任意の他のタイプの光学誤差をさらに挙げることができる。いくつかの実施形態において、表示のために電子ディスプレイに提供されるコンテンツは、予め歪められ、光学ブロック610は、それが、コンテンツに基づいて生成された、電子ディスプレイからの画像光を受信するとき、歪みを補正する。
IMU615は、位置センサ440のうちの1つまたは複数から受信される測定信号に基づいてヘッドセット110の位置を示すデータを生成する電子デバイスである。位置センサ440は、ヘッドセット110の動きに応答して1つまたは複数の測定信号を生成する。位置センサ440の例としては、1つもしくは複数の加速度計、1つもしくは複数のジャイロスコープ、1つもしくは複数の磁力計、動きを検出する別の好適なタイプのセンサ、IMU615の誤り訂正のために使用されるタイプのセンサ、またはそれらの何らかの組み合わせが挙げられる。位置センサ440は、IMU615の外部に、IMU615の内部に、またはそれらの何らかの組み合わせで位置し得る。
DCA425は、部屋などのローカルエリアの深さ画像データを生成する。深さ画像データは、撮像デバイスからの距離を規定する画素値を含み、故に、深さ画像データ内で捕捉される位置の(例えば、3D)マッピングを提供する。DCA425は、投光器620、1つまたは複数の撮像デバイス625、およびコントローラ630を含む。投光器620は、ローカルエリア内の物体から反射され、深さ画像データを生成するために撮像デバイス625によって捕捉される、構造化光パターンまたは他の光を投影し得る。
例えば、投光器620は、ヘッドセット110を取り囲むローカルエリアの一部分に、異なるタイプ(例えば、線、格子、または点)の複数の構造化光(SL)要素を投影し得る。様々な実施形態において、投光器620は、エミッタおよびパターンプレートを備える。エミッタは、パターンプレートを光(例えば、赤外光)で照明するように構成される。照明されたパターンプレートは、複数のSL要素を含むSLパターンをローカルエリア内に投影する。例えば、照明されたパターンプレートによって投影されるSL要素の各々は、パターンプレート上の特定の位置と関連付けられた点である。
DCA425によって投影される各SL要素は、電磁スペクトルの赤外光部分に光を含む。いくつかの実施形態において、照明源は、それが人間の目に見えるように赤外光でパターンプレートを照明するように構成されるレーザである。いくつかの実施形態において、照明源は、パルス化され得る。いくつかの実施形態において、照明源は、可視であり、光が目に見えないようにパルス化され得る。
DCA425によってローカルエリア内に投影されるSLパターンは、それがローカルエリア内の様々な表面および物体に遭遇すると、変形する。1つまたは複数の撮像デバイス625は各々、ローカルエリアの1つまたは複数の画像を捕捉するように構成される。捕捉される1つまたは複数の画像の各々は、投光器620によって投影され、ローカルエリア内の物体によって反射される複数のSL要素(例えば、点)を含み得る。1つまたは複数の撮像デバイス625の各々は、検出器アレイ、カメラ、またはビデオカメラであり得る。
コントローラ630は、撮像デバイス625によって捕捉される光に基づいて深さ画像データを生成する。コントローラ630は、コンソール645、音声コントローラ420、または何らかの他の構成要素に深さ画像データをさらに提供し得る。
PCA430は、カラー(例えば、RGB)画像データを生成する1つまたは複数のパッシブカメラを含む。能動的な光放出および反射を使用するDCA425とは異なり、PCA430は、画像データを生成するためにローカルエリアの環境から光を捕捉する。撮像デバイスからの深さまたは距離を規定する画素値ではなく、画像データの画素値は、撮像データ内で捕捉される物体の可視色を規定し得る。いくつかの実施形態においてPCA430は、パッシブ撮像デバイスによって捕捉される光に基づいてカラー画像データを生成するコントローラを含む。いくつかの実施形態において、DCA425およびPCA430は、共通のコントローラを共有する。例えば、共通のコントローラは、可視スペクトル(例えば、画像データ)および赤外スペクトル(例えば、深さ画像データ)で捕捉される1つまたは複数の画像の各々を互いとマッピングし得る。1つまたは複数の実施形態において、共通のコントローラは、追加的または代替的に、ローカルエリアの1つまたは複数の画像を音声コントローラ420またはコンソール645に提供するように構成される。
音声システム330は、ヘッドセット110が位置するローカルエリアの音響特性を表す音響パラメータのセットを使用して、音声コンテンツをヘッドセット110のユーザに提示する。音声システム330は、音声コンテンツを、ローカルエリア内の物体(例えば、仮想物体または実物体)から生じていると思われるように提示する。音声システム330は、ローカルエリアの少なくとも一部分を説明する情報を獲得し得る。音声システム330は、マッピングサーバ130における音響パラメータのセットの決定のため、情報をマッピングサーバ130に通信し得る。音声システム330はまた、マッピングサーバ130から音響パラメータのセットを受信し得る。
いくつかの実施形態において、音声システム330は、ローカルエリアの音響状態の変化が閾値変化を上回ることに応答して、音響パラメータのセットを、ローカルエリアの特定の構成についての再構築されたインパルス応答を表す調節された音響パラメータのセットに選択的に外挿する。音声システム330は、再構築されたインパルス応答に少なくとも部分的に基づいて、音声コンテンツをヘッドセット110のユーザに提示し得る。
いくつかの実施形態において、音声システム330は、ローカルエリア内の音をモニタし、対応する音声ストリームを生成する。音声システム330は、音声ストリームに少なくとも部分的に基づいて、音響パラメータのセットを調節し得る。音声システム330はまた、経時的なローカルエリアの音響特性の変化が閾値変化を上回るという決定に応答して、様々な物理的空間およびそれらの空間の音響特性を説明する仮想モデルを更新するため、音声ストリームをマッピングサーバ130に選択的に通信し得る。ヘッドセット110の音声システム330およびマッピングサーバ130は、有線またはワイヤレス通信リンク(例えば、図1のネットワーク120)を介して通信し得る。
I/Oインターフェース640は、ユーザがアクション要求を送信し、コンソール645から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。例えば、アクション要求は、画像もしくは映像データの捕捉を開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース640は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスとしては、キーボード、マウス、ゲームコントローラ、または、アクション要求を受信し、コンソール645にアクション要求を通信するための任意の他の好適なデバイスが挙げられる。I/Oインターフェース640によって受信されるアクション要求は、コンソール645に通信され、コンソール645がアクション要求に対応するアクションを実施する。いくつかの実施形態において、I/Oインターフェース640は、上にさらに説明されるように、IMU615を含み、IMU615が、I/Oインターフェース640の初期位置に対するI/Oインターフェース640の推定位置を示す校正データを捕捉する。いくつかの実施形態において、I/Oインターフェース640は、コンソール645から受信した命令に従ってユーザに触覚フィードバックを提供し得る。例えば、触覚フィードバックは、アクション要求が受信されるときに提供されるか、またはコンソール645は、I/Oインターフェース640に命令を通信して、コンソール645がアクションを実施するときにI/Oインターフェース640に触覚フィードバックを生成させる。
コンソール645は、DCA425、PCA430、ヘッドセット110、およびI/Oインターフェース640のうちの1つまたは複数から受信される情報に従って処理するため、コンテンツをヘッドセット110に提供する。図6に示される例では、コンソール645は、アプリケーションストア650、トラッキングモジュール655、およびエンジン660を含む。コンソール645のいくつかの実施形態は、図6と併せて説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下にさらに説明される機能は、図6と併せて説明されるものとは異なる様式で、コンソール645の構成要素間で分散され得る。いくつかの実施形態において、コンソール645に関して本明細書で論じられる機能性は、ヘッドセット110、またはリモートシステムに実装され得る。
アプリケーションストア650は、コンソール645による実行のための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されるとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット110の運動またはI/Oインターフェース640を介してユーザから受信される入力に応答し得る。アプリケーションの例としては、ゲームアプリケーション、会議アプリケーション、映像再生アプリケーション、または他の好適なアプリケーションが挙げられる。
トラッキングモジュール655は、1つまたは複数の校正パラメータを使用してシステム600のローカルエリアを校正し、ヘッドセット110の位置またはI/Oインターフェース640の位置の決定における誤差を低減するために1つまたは複数の校正パラメータを調節し得る。例えば、トラッキングモジュール655は、DCA425の焦点を調節して、DCA425によって捕捉されるSL要素の位置をより正確に決定するために、校正パラメータをDCA425に通信する。トラッキングモジュール655によって実施される校正はまた、ヘッドセット110内のIMU615および/またはI/Oインターフェース640に含まれるIMU615から受信される情報を考慮する。加えて、ヘッドセット110のトラッキングが失われる(例えば、DCA425が少なくとも閾値数の投影されたSL要素の視線を失う)場合、トラッキングモジュール655は、システム600の一部またはすべてを再校正し得る。
トラッキングモジュール655は、DCA425、PCA430、1つもしくは複数の位置センサ440、IMU615、またはそれらの何らかの組み合わせからの情報を使用してヘッドセット110またはI/Oインターフェース640の運動を追跡する。例えば、トラッキングモジュール655は、ヘッドセット110からの情報に基づいて、ローカルエリアのマッピング内のヘッドセット110の基準点の位置を決定する。トラッキングモジュール655はまた、物体または仮想物体の位置を決定し得る。加えて、いくつかの実施形態において、トラッキングモジュール655は、IMU615からのヘッドセット110の位置を示すデータの部分、ならびにDCA425からのローカルエリアの表現を使用して、ヘッドセット110の将来の位置を予測し得る。トラッキングモジュール655は、ヘッドセット110またはI/Oインターフェース640の推定または予測した将来の位置をエンジン660に提供する。
エンジン660は、アプリケーションを実行し、ヘッドセット110の位置情報、加速情報、速度情報、予測した将来の位置、またはそれらの何らかの組み合わせをトラッキングモジュール655から受信する。受信した情報に基づいて、エンジン660は、ユーザへの提示のため、ヘッドセット110に提供するためのコンテンツを決定する。例えば、受信した情報が、ユーザが左を見たことを示す場合、エンジン660は、仮想ローカルエリア内または追加コンテンツでローカルエリアを拡張するローカルエリア内でのユーザの運動をミラーリングするヘッドセット110のためのコンテンツを生成する。加えて、エンジン660は、I/Oインターフェース640から受信されるアクション要求に応答してコンソール645に対して実行するアプリケーション内のアクションを実施し、アクションが実行されたというフィードバックをユーザに提供する。提供されたフィードバックは、ヘッドセット110を介した視覚もしくは聴覚フィードバック、またはI/Oインターフェース640を介した触覚フィードバックであり得る。
追加の構成情報
本開示の実施形態の前述の説明は、例証の目的のために提示されており、徹底的であること、または本開示を開示される正確な形態に制限することは意図されない。当業者は、多くの修正形態および変異形が上記開示に照らして可能であるということを理解するものとする。
本開示の実施形態の前述の説明は、例証の目的のために提示されており、徹底的であること、または本開示を開示される正確な形態に制限することは意図されない。当業者は、多くの修正形態および変異形が上記開示に照らして可能であるということを理解するものとする。
本説明のいくつかの部分は、情報に対する動作のアルゴリズムおよび象徴的表現に関して本開示の実施形態を説明する。これらのアルゴリズム的な説明および表現は、データ処理技術における当業者によって、他の当業者に自らの作業の要旨を効率的に伝えるために共通して使用される。これらの動作は、機能的、計算的、論理的に説明されるが、コンピュータプログラムもしくは等価の電気回路、マイクロコード、または同様のものによって実装されることが理解される。さらには、これらの動作の構成を、一般性を失うことなく、モジュールと称することが時として簡便であることも証明されている。説明される動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化され得る。
本明細書に説明されるステップ、動作、プロセスのいずれかは、1つまたは複数のハードウェアまたはソフトウェアモジュールにより、単独で、または他のデバイスと共同して、実施または実装され得る。1つの実施形態において、ソフトウェアモジュールは、説明されるステップ、動作、またはプロセスのうちのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行され得るコンピュータプログラムコードを含むコンピュータ可読媒体を備えるコンピュータプログラム製品により実装される。
本開示の実施形態はまた、本明細書内の動作を実施するための装置に関し得る。本装置は、必要な目的のために特別に構築され得、および/または、本装置は、コンピュータに記憶されるコンピュータプログラムによって選択的に作動または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的な有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得る。さらには、本明細書内で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または、増大したコンピューティング能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
本開示の実施形態はまた、本明細書に説明されるコンピューティングプロセスによって生成される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を含み得、この情報は、非一時的な有形コンピュータ可読記憶媒体に記憶され、本明細書に説明されるコンピュータプログラム製品または他のデータ組み合わせの任意の実施形態を含み得る。
最後に、本明細書で使用される言語は、原則的に、読みやすさおよび指導の目的のために選択されており、それは、発明の主題を叙述する、または制限するために選択されているものではない。したがって、本開示の範囲は、この詳細な説明によって制限されるのではなく、むしろこれに基づいた出願において発行する任意の請求項によって制限されるということが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に明記される本開示の範囲の例証であり、制限ではないということが意図される。
Claims (14)
- ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定することとを、を含み、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、方法。 - a)前記方法が、前記ヘッドセットから、前記ローカルエリアの少なくとも前記一部分を説明する情報を受信することであって、前記情報が、前記ローカルエリアの少なくとも前記一部分に関する視覚情報を含む、情報を受信することをさらに含むこと、または
b)前記複数の空間は、会議室、バスルーム、廊下、オフィス、寝室、ダイニングルーム、およびリビングルームを含むこと、または
c)前記音声コンテンツは、前記ローカルエリア内の物体から生じているように思われるように提示されること、または
d)前記音響パラメータのセットは、
複数の周波数帯の各々についての音源から前記ヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの前記音源から前記ヘッドセットまでの直接音の方向、
周波数帯ごとの前記直接音の振幅、
前記音源から前記ヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置、のうちの少なくとも1つを含むこと、
のうちの任意の1つまたは複数である、請求項1に記載の方法。 - 前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
前記少なくとも1つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶することと、をさらに含む、請求項1または2に記載の方法。 - 前記音声ストリームは、経時的な前記ローカルエリアの音響状態の変化が閾値変化を上回るという前記ヘッドセットにおける決定に応答して、前記ヘッドセットから提供される、請求項3に記載の方法。
- a)前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて前記音響パラメータのセットを更新することと、をさらに含み、
前記ヘッドセットによって提示される前記音声コンテンツは、更新された前記音響パラメータのセットに部分的に基づいて調節されること、または
b)1つまたは複数の音響パラメータを獲得することと、
前記1つまたは複数の音響パラメータを前記音響パラメータのセットと比較することと、
前記比較に基づいて、前記セット内の少なくとも1つの音響パラメータを前記1つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新することと、をさらに含むこと、または
c)前記ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、前記音響パラメータのセットを前記ヘッドセットに伝送することをさらに含むこと
のうちの任意の1つまたは複数である、請求項1から4のいずれか一項に記載の方法。 - ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定するように構成されるマッピングモジュールであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、マッピングモジュールと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに少なくとも部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定するように構成される音響モジュールと、を備え、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、装置。 - 前記ヘッドセットから、前記ローカルエリアの少なくとも前記一部分を説明する情報を受信するように構成される通信モジュールであって、前記情報が、前記ヘッドセットの1つまたは複数のカメラアセンブリにより捕捉される前記ローカルエリアの少なくとも前記一部分に関する視覚情報を含む、通信モジュールをさらに備える、請求項6に記載の装置。
- 前記音声コンテンツは、前記ローカルエリア内の仮想物体から生じているように思われるように提示される、請求項6または7に記載の装置。
- 前記音響パラメータのセットは、
複数の周波数帯の各々についての音源から前記ヘッドセットまでの残響時間、
周波数帯ごとの残響レベル、
周波数帯ごとの直間比、
周波数帯ごとの前記音源から前記ヘッドセットまでの直接音の方向、
周波数帯ごとの前記直接音の振幅、
音源からヘッドセットまでの音の早期反射の時間、
周波数帯ごとの早期反射の振幅、
早期反射の方向、
室内モード周波数、および
室内モード位置
のうちの少なくとも1つを含む、請求項6から8のいずれか一項に記載の装置。 - a)前記ヘッドセットから音声ストリームを受信するように構成される通信モジュールをさらに備え、
前記音響モジュールは、受信した前記音声ストリームに基づいて少なくとも1つの音響パラメータを決定するようにさらに構成され、前記装置は、
前記少なくとも1つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶するように構成される非一時的コンピュータ可読媒体をさらに備えること、または
b)前記音響モジュールは、
1つまたは複数の音響パラメータを獲得し、
前記1つまたは複数の音響パラメータを前記音響パラメータのセットと比較するようにさらに構成され、前記装置は、
前記比較に基づいて、前記セット内の少なくとも1つの音響パラメータを前記1つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新するように構成される非一時的コンピュータ可読記憶媒体をさらに備えること
のうちの任意の1つまたは複数である、請求項6から9のいずれか一項に記載の装置。 - 前記ローカルエリアの音響状態の変化が閾値変化を上回っていることに応答して、調節された音響パラメータのセットへの外挿のために、前記音響パラメータのセットを前記ヘッドセットに伝送するように構成される通信モジュールをさらに備える、請求項6から10のいずれか一項に記載の装置。
- 符号化された命令を有する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサにより実行されるとき、前記プロセッサに、
ローカルエリアの少なくとも一部分を説明する情報に基づいて、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することであって、前記仮想モデルが複数の空間およびそれらの空間の音響特性を説明し、前記仮想モデル内の前記位置は、前記ローカルエリア内の前記ヘッドセットの物理的な位置に対応する、前記ローカルエリア内のヘッドセットの仮想モデル内の位置を決定することと、
前記仮想モデル内の決定された前記位置、および前記決定された位置と関連付けられた任意の音響パラメータに部分的に基づいて、前記ヘッドセットの前記物理的な位置と関連付けられた音響パラメータのセットを決定することと、を行わせ、
音声コンテンツは、前記音響パラメータのセットを使用して前記ヘッドセットによって提示される、非一時的コンピュータ可読記憶媒体。 - 前記命令がさらに、前記プロセッサに、
前記ヘッドセットから音声ストリームを受信することと、
受信した前記音声ストリームに基づいて、少なくとも1つの音響パラメータを決定することと、
前記少なくとも1つの音響パラメータを、前記ヘッドセットが位置する物理的空間と関連付けられた前記仮想モデル内の記憶位置に記憶することと
を行わせ、前記仮想モデルが、前記非一時的コンピュータ可読記憶媒体に記憶される、請求項12に記載のコンピュータ可読媒体。 - 前記命令がさらに、前記プロセッサに、
1つまたは複数の音響パラメータを獲得することと、
前記1つまたは複数の音響パラメータを前記音響パラメータのセットと比較することと、
前記比較に基づいて、前記セット内の少なくとも1つの音響パラメータを前記1つまたは複数の音響パラメータと置き換えることによって、前記仮想モデルを更新することと
を行わせる、請求項12または13に記載のコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/366,484 | 2019-03-27 | ||
US16/366,484 US10674307B1 (en) | 2019-03-27 | 2019-03-27 | Determination of acoustic parameters for a headset using a mapping server |
PCT/US2020/023071 WO2020197839A1 (en) | 2019-03-27 | 2020-03-17 | Determination of acoustic parameters for a headset using a mapping server |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022526061A true JP2022526061A (ja) | 2022-05-23 |
Family
ID=70190243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021533833A Pending JP2022526061A (ja) | 2019-03-27 | 2020-03-17 | マッピングサーバを使用した、ヘッドセットのための音響パラメータの決定 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10674307B1 (ja) |
EP (1) | EP3949447A1 (ja) |
JP (1) | JP2022526061A (ja) |
KR (1) | KR20210141707A (ja) |
CN (1) | CN113597778A (ja) |
WO (1) | WO2020197839A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018353008B2 (en) | 2017-10-17 | 2023-04-20 | Magic Leap, Inc. | Mixed reality spatial audio |
JP2021514081A (ja) | 2018-02-15 | 2021-06-03 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 複合現実仮想反響音 |
CN114586382A (zh) * | 2019-10-25 | 2022-06-03 | 奇跃公司 | 混响指纹估计 |
US11246002B1 (en) * | 2020-05-22 | 2022-02-08 | Facebook Technologies, Llc | Determination of composite acoustic parameter value for presentation of audio content |
EP4325888A1 (en) * | 2021-04-12 | 2024-02-21 | Panasonic Intellectual Property Corporation of America | Information processing method, program, and information processing system |
CN115250412A (zh) * | 2021-04-26 | 2022-10-28 | Oppo广东移动通信有限公司 | 音频处理方法、装置、无线耳机及计算机可读介质 |
US20230104111A1 (en) * | 2021-09-21 | 2023-04-06 | Apple Inc. | Determining a virtual listening environment |
WO2023076823A1 (en) * | 2021-10-25 | 2023-05-04 | Magic Leap, Inc. | Mapping of environmental audio response on mixed reality device |
KR102610263B1 (ko) * | 2022-01-07 | 2023-12-06 | 한국전자통신연구원 | 장애물을 고려한 객체 기반의 오디오 신호의 렌더링 방법 및 장치 |
WO2023195048A1 (ja) * | 2022-04-04 | 2023-10-12 | マクセル株式会社 | 音声拡張現実オブジェクト再生装置、情報端末システム |
WO2023199815A1 (ja) * | 2022-04-14 | 2023-10-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音響処理方法、プログラム、及び音響処理システム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7792674B2 (en) * | 2007-03-30 | 2010-09-07 | Smith Micro Software, Inc. | System and method for providing virtual spatial sound with an audio visual player |
US9037468B2 (en) | 2008-10-27 | 2015-05-19 | Sony Computer Entertainment Inc. | Sound localization for user in motion |
US8976986B2 (en) | 2009-09-21 | 2015-03-10 | Microsoft Technology Licensing, Llc | Volume adjustment based on listener position |
US8767968B2 (en) * | 2010-10-13 | 2014-07-01 | Microsoft Corporation | System and method for high-precision 3-dimensional audio for augmented reality |
US9122053B2 (en) * | 2010-10-15 | 2015-09-01 | Microsoft Technology Licensing, Llc | Realistic occlusion for a head mounted augmented reality display |
US8831255B2 (en) * | 2012-03-08 | 2014-09-09 | Disney Enterprises, Inc. | Augmented reality (AR) audio with position and action triggered virtual sound effects |
US9226090B1 (en) * | 2014-06-23 | 2015-12-29 | Glen A. Norris | Sound localization for an electronic call |
CN106659936A (zh) * | 2014-07-23 | 2017-05-10 | Pcms控股公司 | 用于确定增强现实应用中音频上下文的系统和方法 |
WO2017100658A1 (en) | 2015-12-09 | 2017-06-15 | Xactware Solutions, Inc. | System and method for generating computerized models of structures using geometry extraction and reconstruction techniques |
EP3412039B1 (en) * | 2016-02-02 | 2020-12-09 | DTS, Inc. | Augmented reality headphone environment rendering |
US9906885B2 (en) * | 2016-07-15 | 2018-02-27 | Qualcomm Incorporated | Methods and systems for inserting virtual sounds into an environment |
WO2018182274A1 (ko) * | 2017-03-27 | 2018-10-04 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9942687B1 (en) * | 2017-03-30 | 2018-04-10 | Microsoft Technology Licensing, Llc | System for localizing channel-based audio from non-spatial-aware applications into 3D mixed or virtual reality space |
AU2018353008B2 (en) * | 2017-10-17 | 2023-04-20 | Magic Leap, Inc. | Mixed reality spatial audio |
US10206055B1 (en) * | 2017-12-28 | 2019-02-12 | Verizon Patent And Licensing Inc. | Methods and systems for generating spatialized audio during a virtual experience |
US10225656B1 (en) * | 2018-01-17 | 2019-03-05 | Harman International Industries, Incorporated | Mobile speaker system for virtual reality environments |
US10602298B2 (en) | 2018-05-15 | 2020-03-24 | Microsoft Technology Licensing, Llc | Directional propagation |
-
2019
- 2019-03-27 US US16/366,484 patent/US10674307B1/en active Active
-
2020
- 2020-03-17 WO PCT/US2020/023071 patent/WO2020197839A1/en unknown
- 2020-03-17 JP JP2021533833A patent/JP2022526061A/ja active Pending
- 2020-03-17 EP EP20717524.1A patent/EP3949447A1/en not_active Withdrawn
- 2020-03-17 CN CN202080022828.0A patent/CN113597778A/zh active Pending
- 2020-03-17 KR KR1020217034826A patent/KR20210141707A/ko unknown
- 2020-04-22 US US16/855,338 patent/US11122385B2/en active Active
-
2021
- 2021-08-13 US US17/402,012 patent/US11523247B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3949447A1 (en) | 2022-02-09 |
US20200314583A1 (en) | 2020-10-01 |
CN113597778A (zh) | 2021-11-02 |
US11122385B2 (en) | 2021-09-14 |
WO2020197839A8 (en) | 2021-08-05 |
KR20210141707A (ko) | 2021-11-23 |
US10674307B1 (en) | 2020-06-02 |
US11523247B2 (en) | 2022-12-06 |
WO2020197839A1 (en) | 2020-10-01 |
US20210377690A1 (en) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11122385B2 (en) | Determination of acoustic parameters for a headset using a mapping server | |
US10721521B1 (en) | Determination of spatialized virtual acoustic scenes from legacy audiovisual media | |
US10959038B2 (en) | Audio system for artificial reality environment | |
US11671784B2 (en) | Determination of material acoustic parameters to facilitate presentation of audio content | |
US11112389B1 (en) | Room acoustic characterization using sensors | |
CN113692750A (zh) | 使用声音场景分析和波束形成的声传递函数个性化 | |
US11218831B2 (en) | Determination of an acoustic filter for incorporating local effects of room modes | |
US10897570B1 (en) | Room acoustic matching using sensors on headset | |
US11638110B1 (en) | Determination of composite acoustic parameter value for presentation of audio content | |
CN114026880A (zh) | 经由波束成形推断耳廓信息以产生个性化的空间音频 | |
CN117981347A (zh) | 用于对虚拟声源进行空间化的音频系统 | |
US11012804B1 (en) | Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation | |
CN115280798A (zh) | 使用软骨传导确定头部相关传递函数 | |
US11598962B1 (en) | Estimation of acoustic parameters for audio system based on stored information about acoustic model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211013 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |