JP2023519487A - 軟骨伝導を使用した頭部伝達関数決定 - Google Patents
軟骨伝導を使用した頭部伝達関数決定 Download PDFInfo
- Publication number
- JP2023519487A JP2023519487A JP2022548632A JP2022548632A JP2023519487A JP 2023519487 A JP2023519487 A JP 2023519487A JP 2022548632 A JP2022548632 A JP 2022548632A JP 2022548632 A JP2022548632 A JP 2022548632A JP 2023519487 A JP2023519487 A JP 2023519487A
- Authority
- JP
- Japan
- Prior art keywords
- test
- user
- audio
- information
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000000845 cartilage Anatomy 0.000 title claims abstract description 74
- 238000012546 transfer Methods 0.000 title claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 337
- 230000005236 sound signal Effects 0.000 claims abstract description 147
- 210000003128 head Anatomy 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 49
- 230000004044 response Effects 0.000 claims abstract description 34
- 210000000613 ear canal Anatomy 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 65
- 238000004088 simulation Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 20
- 238000013461 design Methods 0.000 claims description 18
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 91
- 230000008569 process Effects 0.000 description 31
- 230000003287 optical effect Effects 0.000 description 21
- 230000009471 action Effects 0.000 description 16
- 210000001519 tissue Anatomy 0.000 description 15
- 210000000988 bone and bone Anatomy 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 11
- 210000005069 ears Anatomy 0.000 description 10
- 238000003384 imaging method Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000004075 alteration Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 210000004728 ear cartilage Anatomy 0.000 description 5
- 210000001508 eye Anatomy 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000746998 Tragus Species 0.000 description 4
- 238000013475 authorization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000003484 anatomy Anatomy 0.000 description 3
- 210000003625 skull Anatomy 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000000883 ear external Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102000005869 Activating Transcription Factors Human genes 0.000 description 1
- 108010005254 Activating Transcription Factors Proteins 0.000 description 1
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 241001183191 Sclerophthora macrospora Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000006117 anti-reflective coating Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000001595 mastoid Anatomy 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- PICXIOQBANWBIZ-UHFFFAOYSA-N zinc;1-oxidopyridine-2-thione Chemical class [Zn+2].[O-]N1C=CC=CC1=S.[O-]N1C=CC=CC1=S PICXIOQBANWBIZ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1091—Details not provided for in groups H04R1/1008 - H04R1/1083
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/30—Monitoring or testing of hearing aids, e.g. functioning, settings, battery power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
- H04R29/002—Loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- Stereophonic System (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
Abstract
実施形態は、軟骨伝導音を使用して、(たとえば、ヘッドセットの構成要素としての)オーディオシステムのユーザのための頭部伝達関数(HRTF)を較正することに関する。トランスデューサ(たとえば、軟骨伝導)を使用してユーザにテスト音が提示され、応答して、マイクロフォンを介してユーザの耳道への入口においてオーディオ信号が受信される。テスト音とオーディオ信号の組合せがオーディオサーバに提供され得、ここで、ユーザのための1つまたは複数のHRTFを決定するためのモデルが使用される。1つまたは複数のHRTFを表す情報が、ユーザにオーディオを提供するために使用されるためにオーディオシステムに提供される。オーディオサーバは、その組合せに基づいて、ユーザの耳殻を表す幾何学的情報を決定するためのモデルをも使用し得る。一実施形態では、幾何学的情報は、ユーザのための1つまたは複数のHRTFを決定するために使用される。【選択図】図2
Description
本開示は、一般にオーディオシステムに関し、より詳細には、軟骨伝導を使用して頭部伝達関数(HRTF)を決定することに関する。
2つの耳において知覚された音は、各耳に関する音ソースの方向およびロケーション、ならびに音が知覚された環境コンテキストに応じて、異なり得る。人間は、各耳において知覚された音を比較することによって音ソースのロケーションを決定する。人工現実コンテキストでは、「サラウンド音」(すなわち、空間オーディオ)は、HRTFを使用してシミュレートされ得る。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造により、人の各耳に固有である(および人に固有である)。音が人に当たるとき、人の頭部、耳、耳道のサイズおよび形状、鼻腔および口腔のサイズおよび形状により、音が変わり、音がユーザによってどのように知覚されるかに影響を及ぼす。
従来、人工現実システムのユーザのためのHRTFを決定することは、ユーザに対する多くの異なるソースロケーション(たとえば、一般に100個超のスピーカー)について消音室においてHRTFを直接測定することによって行われる。HRTFは、人工現実システムを使用しながら、ユーザのための「サラウンド音」体験を生成するために使用され得る。したがって、高品質サラウンド音のために、HRTFを決定することは、ユーザが、比較的複雑である特殊なシステム(たとえば、消音室、1つまたは複数のスピーカーアレイ、走査デバイスなど)と対話することを必要とする比較的長いプロセス(たとえば、1時間超)である。したがって、HRTFを取得するための従来の手法は、必要とされるハードウェアリソースおよび/または時間に関して非効率的である。
本発明の第1の態様によれば、オーディオシステムからテスト情報を受信することであって、テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、オーディオ信号は、ユーザの耳殻(pinna)に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳道への入口における音に対応する、テスト情報を受信することと、テスト情報と、オーディオ信号およびテスト音の組合せを対応する頭部伝達関数(HRTF)にマッピングするモデルとを使用して、ユーザのためのHRTFを決定することと、HRTFを表す情報をオーディオシステムに提供することとを含む、方法が提供される。
好ましくは、オーディオシステムは、軟骨伝導トランスデューサがユーザの耳殻上のテスト位置においてテスト音を提示したことに応答して、オーディオ信号をキャプチャする。
好ましくは、本方法は、軟骨伝導トランスデューサを耳殻上の複数のテスト位置に移動するようにユーザに促すための命令を生成することであって、各テスト位置において、オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、命令をオーディオシステムに提供することとをさらに含む。
好ましくは、各テスト位置において、オーディオシステムは複数のテスト音を提示し、各テスト音は同じである。
好ましくは、各テスト位置において、オーディオシステムは複数のテスト音を提示し、複数のテスト音のうちの少なくとも1つは、複数のテスト音のうちの別のものとは異なる。
好ましくは、テスト情報は、軟骨伝導トランスデューサがテスト音を提示したユーザの耳殻上の特定のテスト位置に関連付けられ、モデルは、軟骨伝導トランスデューサの様々なテスト位置について、オーディオ信号とテスト音との組合せを、対応するHRTFにマッピングする。
本発明のさらなる態様によれば、オーディオシステムからテスト情報を受信することであって、テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、オーディオ信号は、ユーザの耳殻に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳道への入口における音に対応する、テスト情報を受信することと、テスト情報と、オーディオ信号およびテスト音の組合せをユーザの耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、ユーザの耳殻を表す幾何学的情報を決定することと、幾何学的情報をオーディオシステムに提供することとを含む、方法が提供される。
好ましくは、オーディオシステムは、軟骨伝導トランスデューサがユーザの耳殻上のテスト位置においてテスト音を提示したことに応答して、オーディオ信号をキャプチャする。
好ましくは、本方法は、軟骨伝導トランスデューサを耳殻上の複数のテスト位置に移動するようにユーザに促すための命令を生成することであって、各テスト位置において、オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、命令をオーディオシステムに提供することとをさらに含む。
好ましくは、各テスト位置において、オーディオシステムは複数のテスト音を提示し、各テスト音は同じである。
好ましくは、各テスト位置において、オーディオシステムは複数のテスト音を提示し、複数のテスト音のうちの少なくとも1つは、複数のテスト音のうちの別のものとは異なる。
好ましくは、テスト情報は、軟骨伝導トランスデューサがテスト音を提示したユーザの耳殻上の特定のテスト位置に関連付けられ、モデルは、軟骨伝導トランスデューサの様々なテスト位置について、オーディオ信号とテスト音との組合せを、対応する幾何学的情報にマッピングする。
好ましくは、本方法は、幾何学的情報を使用して、ユーザのための頭部伝達関数(HRTF)を決定することと、HRTFを表す情報をオーディオシステムに提供することとをさらに含む。
好ましくは、HRTFを決定することは、HRTFを決定するために、幾何学的情報を使用するシミュレーションを実施することを含む。
好ましくは、本方法は、幾何学的情報を使用して、ウェアラブルデバイスを表す設計ファイルを生成することであって、設計ファイルがウェアラブルデバイスの作製において使用され、ウェアラブルデバイスが、ユーザの耳殻にフィットするようにカスタマイズされる、設計ファイルを生成することをさらに含む。
本発明のさらなる態様によれば、オーディオシステムからテスト情報を受信することであって、テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、オーディオ信号は、ユーザの耳殻に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳道への入口における音に対応する、テスト情報を受信することと、テスト情報と、オーディオ信号およびテスト音の組合せを、ユーザの耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、ユーザの耳殻を表す幾何学的情報を決定することと、幾何学的情報を使用して、ユーザのための頭部伝達関数(HRTF)を決定することと、HRTFを表す情報をオーディオシステムに提供することとを含む、方法が提供される。
好ましくは、オーディオシステムは、軟骨伝導トランスデューサがユーザの耳殻上のテスト位置においてテスト音を提示したことに応答して、オーディオ信号をキャプチャする。
好ましくは、本方法は、軟骨伝導トランスデューサを耳殻上の複数のテスト位置に移動するようにユーザに促すための命令を生成することであって、各テスト位置において、オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、命令をオーディオシステムに提供することとをさらに含む。
好ましくは、HRTFを決定することは、HRTFを決定するために、幾何学的情報を使用するシミュレーションを実施することを含む。
好ましくは、HRTFを決定することは、耳殻の幾何学的情報と、耳殻の幾何学的情報を、対応するHRTFにマッピングするモデルとを使用して、ユーザのためのHRTFを決定することを含む。
実施形態は、ユーザのための頭部伝達関数(HRTF)を決定するオーディオシステムに関する。オーディオシステムは、1つまたは複数の軟骨伝導トランスデューサと、1つまたは複数の音響センサーと、オーディオコントローラとを含む。オーディオシステムは、1つまたは複数の軟骨伝導トランスデューサを介して、ユーザの耳(たとえば、耳殻)上のロケーションから様々なテスト音を提示する。1つまたは複数のマイクロフォンは、耳の耳道への入口に置かれた少なくとも1つのマイクロフォンを含む。オーディオシステムは、少なくとも1つのマイクロフォンを介して、ユーザの耳道への入口におけるテスト音から生じたオーディオ信号を受信する。提示された音と受信されたオーディオ信号の組合せは、対応するHRTFを決定するために使用され得る。いくつかの実施形態では、テスト情報と、対応するオーディオ信号とを使用して、HRTFは直接決定される。いくつかの実施形態では、テスト情報と、対応するオーディオ信号とを使用して、耳殻ジオメトリが決定され得る。耳殻ジオメトリは、たとえば、ユーザの耳にフィットしたデバイスなどを設計するために使用されるHRTFを決定するために使用され得る。オーディオシステムは、ユーザのための3次元空間化オーディオを生成するために、決定されたHRTFを使用し得る。
いくつかの実施形態では、ユーザの1つまたは複数のHRTFを決定するための方法が説明される。テスト情報が、オーディオシステムから受信される。テスト情報は、ユーザのためのオーディオ信号およびテスト音を表す。オーディオ信号は、ユーザの耳殻に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳道への入口における音に対応する。テスト情報と、オーディオ信号およびテスト音の組合せを対応するHRTFにマッピングするモデルとを使用して、1つまたは複数のHRTFがユーザのために決定される。オーディオシステムへの1つまたは複数のHRTFを表す情報が、オーディオシステムに提供される。
いくつかの実施形態では、ユーザの耳殻を表す幾何学的情報を決定するための方法が説明される。テスト情報が、オーディオシステムから受信される。テスト情報は、ユーザのためのオーディオ信号およびテスト音を表す。オーディオ信号は、ユーザの耳殻に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳道への入口における音に対応する。テスト情報と、オーディオ信号およびテスト音の組合せを、ユーザの耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、ユーザの耳殻を表す幾何学的情報が決定される。幾何学的情報は、オーディオシステムに提供される。
いくつかの実施形態では、ユーザの1つまたは複数のHRTFを決定するための別の方法が説明される。テスト情報が、オーディオシステムから受信される。テスト情報は、ユーザのためのオーディオ信号およびテスト音を表す。オーディオ信号は、ユーザの耳殻に結合された軟骨伝導トランスデューサがユーザにテスト音を提示したことに応答した、ユーザの耳殻の耳道への入口における音に対応する。テスト情報と、オーディオ信号およびテスト音の組合せを、ユーザの耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、ユーザの耳殻を表す幾何学的情報が決定される。ユーザのための1つまたは複数のHRTFは、幾何学的情報を使用して決定される。1つまたは複数のHRTFを表す情報は、オーディオシステムに提供される。
図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
構成概観
本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス(たとえば、ヘッドセット)、独立型ウェアラブルデバイス(たとえば、ヘッドセット)、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
HRTFは、ユーザの外耳(たとえば、耳殻)が、耳に対する特定の位置における音ソースからどのように音を受信するかを特徴づける。いくつかの実施形態では、オーディオシステムは、1つまたは複数のトランスデューサ(たとえば、軟骨伝導トランスデューサ)を使用して、ユーザにテスト音を提示する。特に、オーディオシステムは、ユーザの一方または両方の耳に、それぞれの左耳トランスデューサおよび右耳トランスデューサを使用して、テスト音を提示し得る。オーディオシステムは、ユーザによって装着されるヘッドセットの一部であり得る。オーディオシステムは、生じた(たとえば、軟骨伝導トランスデューサによって作成された)オーディオ信号を、ユーザの耳道の入口に置かれたマイクロフォンを介して受信する。オーディオシステムは、ユーザの左耳道への入口に置かれた左耳マイクロフォン、およびユーザの右耳道への入口に置かれた右耳マイクロフォンの一方または両方において、オーディオ信号を受信し得る。
オーディオシステムは、ユーザにカスタマイズされたHRTFおよび/またはユーザの一方または両方の耳殻の幾何学的情報を決定するために、テスト音とオーディオ信号の組合せを使用する。いくつかの実施形態では、オーディオシステムは、テスト音とオーディオ信号の組合せを、オーディオシステムからリモートにあるリモートシステム(たとえば、オーディオサーバ、ユーザのモバイルフォン)に提供する。リモートシステムは、1つまたは複数の機械学習モデルを使用して、オーディオ信号およびテスト音を、ユーザの対応するHRTFおよび/または幾何学的情報にマッピングし得る。特に、リモートシステムは、オーディオ信号およびテスト音を、それぞれの左耳HRTFおよび/または幾何学的情報、ならびに右耳HRTFおよび/または幾何学的情報にマッピングし得る。リモートシステムは、(たとえば、数値シミュレーションパイプラインを使用して)1つまたは複数の対応するHRTFを決定するために、幾何学的情報をさらに使用し得る。マッピングを実施した後に、リモートシステムは、HRTFおよび/または幾何学的情報をオーディオシステムに提供し得る。
いくつかの実施形態では、リモートシステムの機能性の一部または全部が、オーディオシステムによって実施され得る。たとえば、リモートシステムは、1つまたは複数のHRTFモデルおよび/または耳殻ジオメトリモデルをオーディオシステムに提供し得、オーディオシステムは、テスト音およびオーディオ信号の組合せからユーザの一方または両方の耳殻の対応するHRTFおよび/または幾何学的情報へのマッピングを実施するために、HRTFモデルおよび耳殻ジオメトリモデルの一方または両方を使用し得る。
リモートシステムは、1つまたは複数のHRTFモデルおよび/または耳殻ジオメトリモデルをトレーニングするために、トレーニングユーザのセット(たとえば、ラボラトリ設定におけるテスト対象)のために収集された、テスト音およびオーディオ信号の組合せのトレーニングデータベースを使用し得る。特に、リモートシステムは、トレーニングHRTFで標示されたテスト音およびオーディオ信号の組合せを使用して、HRTFモデルをトレーニングし得る。データベースはまた、トレーニングユーザのセットの頭部関係ジオメトリおよび耳関係ジオメトリを表す幾何学的情報を含み得る。この幾何学的情報は、カメラおよび3次元スキャナによってキャプチャされ得る。リモートシステムは、幾何学的情報で標示されたテスト音およびオーディオ信号の組合せを使用して、耳殻ジオメトリモデルをトレーニングし得る。リモートシステムはまた、幾何学的情報を使用して、頭部関係ジオメトリおよび耳関係ジオメトリのこのセット上で、HRTFシミュレーションを実施し、HRTFモデルをトレーニングするための、またはオーディオシステムに提供するためのHRTFを決定し得る。
オーディオシステムは、オーディオ出力デバイス(たとえば、スピーカー、ヘッドフォン)を通して音コンテンツを提示するために、オーディオシステムのユーザのために決定されたHRTFを使用し得る。特に、決定されたHRTFは、空間化オーディオを(たとえば、トランスデューサアレイを介して)ユーザに提供するために使用され得る。
本明細書で説明される方法およびシステムは、オーディオシステムユーザのためのリアルタイムHRTF較正および/または頭部関係幾何学的情報較正のための効率的な手段を提供する。特に、説明されるシステムは、ユーザのためのテスト音およびオーディオ信号の組合せを使用して、対応するHRTFを決定し、これは、(大きいスピーカーアレイを使用して、消音室においてHRTFを直接測定することに対して)システムによって比較的容易に収集され得る。さらに、説明されるシステムは、ユーザの頭部の画像またはビデオをとること、あるいは頭部または耳の物理的寸法をキャプチャするための何らかの他の手段など、ユーザが余分な方策を実施することなしに、HRTFを構築するための情報を収集することができる。
ヘッドセット例
図1Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、オーディオシステムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的なロケーションにおけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあり得る。
フレーム110は、ヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前面部と、ユーザの頭部に取り付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム110の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
1つまたは複数のディスプレイ要素120は、ヘッドセット100を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット100を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光ソース(たとえば、2次元ソース、1つまたは複数の線ソース、1つまたは複数の点ソースなど)と、1つまたは複数の導波路とを含む。光ソースからの光は、1つまたは複数の導波路中に内部結合され、1つまたは複数の導波路は、ヘッドセット100のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合および/または外部結合が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光ソースからの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方が不透明であり、ヘッドセット100の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット100の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット100を装着しているユーザが中にいる部屋であり得、または、ヘッドセット100を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
いくつかの実施形態では、ディスプレイ要素120は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得る。光学ブロックは、ディスプレイ要素120からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
DCAは、ヘッドセット100の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス130と、DCAコントローラ(図1Aに図示せず)とを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は、ローカルエリアの一部分を光で照明する。光は、たとえば、赤外線(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間についてのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数のイメージングデバイス130は、照明器140からの光を含むローカルエリアの一部分の画像をキャプチャする。図示のように、図1Aは、単一の照明器140と2つのイメージングデバイス130とを示す。代替実施形態では、照明器140がなく、少なくとも2つのイメージングデバイス130がある。
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器140からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
オーディオシステムはオーディオコンテンツを提供する。オーディオシステムは、トランスデューサアレイと、センサーアレイと、オーディオコントローラ150とを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。
トランスデューサアレイは、ユーザに音を提示する。トランスデューサアレイは、少なくとも1つの組織トランスデューサを含む複数のトランスデューサを含む。トランスデューサは、スピーカー160または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160はフレーム110の外部に示されているが、スピーカー160はフレーム110に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット100は、提示されたオーディオコンテンツの方向性を改善するためにフレーム110に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ170は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。オーディオシステムは、ヘッドセット100のユーザにオーディオを提供するためのオーディオシステムを較正するために、組織トランスデューサ170を使用し得る。特に、組織トランスデューサ170は、ユーザのための対応するHRTFおよび/または幾何学的情報を決定するために、テスト音をヘッドセット100のユーザに提示し得る。組織トランスデューサ170は、可動であり得る。たとえば、トランスデューサ170は、部分フレーム110に沿って摺動可能であり、フレーム110上のいくつかの位置から取付け可能および分離可能であり、ならびに/またはヘッドセット100上の様々なロケーションに配置されるための任意の他の機能性を所有し得る。軟骨伝導を介してテスト音およびオーディオ信号を収集および使用することが、図2~図6A/Bを参照しながら以下でより詳細に説明される。トランスデューサの数および/またはロケーションは、図1Aに示されているものとは異なり得る。
センサーアレイは、ヘッドセット100のローカルエリア内の音を検出する。センサーアレイは、複数の音響センサー180を含む。音響センサー180は、ローカルエリア(たとえば、部屋)中の1つまたは複数の音ソースから発せられた音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサー180は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。
いくつかの実施形態では、1つまたは複数の音響センサー180は、各耳の耳道中に置かれ得る(たとえば、バイノーラルマイクロフォンとして働く)。いくつかの場合には、音響センサー180は、ヘッドセット100が使用されている間、各耳の耳道中に常に存在し得るが、他の場合には、音響センサー180は、(たとえば、オーディオシステムが較正された後に)取外し可能であり得る。1つまたは複数の音響センサー180は、組織トランスデューサ170によって提示されたテスト音に応答したオーディオ信号を受信するために使用され得、これは、図2および図4を参照しながら以下でより詳細に説明される。いくつかの実施形態では、音響センサー180は、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー180の数および/またはロケーションは、図1Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、音響検出ロケーションの数が増加され得る。音響検出ロケーションは、マイクロフォンが、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。
オーディオコントローラ150は、センサーアレイによって検出された音を表す、センサーアレイからの情報を処理する。オーディオコントローラ150は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ150は、到来方向(DOA)推定値を生成するか、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成するか、音ソースのロケーションを追跡するか、音ソースの方向にビームを形成するか、音ソースを分類するか、スピーカー160のための音フィルタを生成するか、またはそれらの何らかの組合せを行うように構成され得る。
オーディオコントローラ150は、さらに、オーディオシステムの動作を制御する。オーディオコントローラは、組織トランスデューサ170を使用することによってなど、ヘッドセット100のユーザのためのテスト情報を収集する。オーディオコントローラ150は、ユーザのHRTFおよび/またはユーザのための幾何学的情報を較正するためのテスト情報を収集するために、組織トランスデューサ170をユーザの耳上の様々な位置に配置するようにユーザに促し得る。ユーザは、オーディオコントローラ150が、ヘッドセット100によってキャプチャされたデータ(たとえば、テスト情報)をヘッドセットの外部のシステムに送信することを可能にすることをオプトインし(opt in)得、ユーザは、そのようなデータへのアクセスを制御するプライバシー設定を選択し得る。たとえば、オーディオコントローラ150は、ユーザのためのテスト情報をオーディオサーバに送信し得る。オーディオコントローラ150は、テスト情報に基づいて、オーディオサーバからユーザのための1つまたは複数のHRTFを表す情報を受信し得る。さらに、オーディオコントローラ150は、テスト情報に基づいて、オーディオサーバから幾何学的情報を受信し得る。オーディオコントローラおよびオーディオサーバによって実施されるこれらのプロセスの実施形態が、図2および図5を参照しながら以下でより詳細に説明される。
位置センサー190は、ヘッドセット100の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、ヘッドセット100のフレーム110の一部分に位置し得る。位置センサー190は、慣性測定ユニット(IMU)を含み得る。位置センサー190の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のRGBカメラを含み得る。いくつかの実施形態では、DCAのイメージングデバイス130の一部または全部が、PCAとしても機能し得る。PCAによってキャプチャされた画像と、DCAによって決定された深度情報とは、ローカルエリアのパラメータを決定するか、ローカルエリアのモデルを生成するか、ローカルエリアのモデルを更新するか、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー190は、部屋内のヘッドセット100の位置(たとえば、ロケーションおよび姿勢)を追跡する。ヘッドセット100の構成要素に関する追加の詳細は、図7に関して以下で説明される。
図1Bは、1つまたは複数の実施形態による、HMDとして実装されるヘッドセット105の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aを参照しながら上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、ディスプレイアセンブリと、DCAと、オーディオシステムと、位置センサー190とを含む。図1Bは、照明器140と、複数のスピーカー160と、複数のイメージングデバイス130と、複数の音響センサー180と、位置センサー190とを示す。スピーカー160は、(図示のように)バンド175に結合される、前面剛体115に結合されるなど、様々なロケーションにあり得、またはユーザの耳道内に挿入されるように構成され得る。
HRTFを決定するためのシステム環境
図2は、一実施形態による、ユーザ210にカスタマイズされたHRTFを決定するための、軟骨伝導音を使用したシステム200の概略図である。ユーザ210は、ネットワーク290を通してオーディオサーバ280に結合されたヘッドセット220を装着する。ヘッドセット220は、軟骨伝導音を収集して、ユーザ210のためのHRTFおよび/または幾何学的情報を決定するための、軟骨伝導トランスデューサ230とマイクロフォン240とを備えるオーディオシステムを含む。他の実施形態では、オーディオシステムは、ヘッドセット220以外の他のシステムまたはデバイスに組み込まれ得る。システム200のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
ヘッドセット220は、ユーザ210によって装着されるアイウェアデバイスである。図1Aまたは図1B中のヘッドセットは、ヘッドセット220の一実施形態であり得る。ヘッドセット220のオーディオシステム(たとえば、図1Aおよび図1Bのオーディオシステム)は、複数の軟骨伝導トランスデューサ230(たとえば、ユーザ210の両方の耳について1つ)および複数のマイクロフォン240または他の音響センサーを含み得る。ヘッドセット220の一方の側とユーザの単一の耳殻245に関するその機能とのみが図2に示されているが、本明細書のヘッドセット220の説明は、ユーザ210の左耳殻と右耳殻の両方に適用され得る。オーディオシステムは、図5を参照しながら以下でより詳細に説明される。
ヘッドセット220のオーディオシステムは、ユーザ210のためのテスト情報を収集する。オーディオシステム220は、ネットワーク290を介して、収集されたテスト情報をオーディオサーバ280に送信し得る。オーディオシステムは、オーディオサーバ280からのテスト情報を使用して決定された、HRTFおよび/または幾何学的情報を受信し得る。代替実施形態では、ヘッドセット220は、テスト音およびオーディオ信号の組合せに対応する、ユーザ210の耳のHRTFおよび/または幾何学的情報を決定するために、テスト情報自体を処理する。テスト情報という用語は、テスト音および/またはテスト音に応答してキャプチャされたオーディオ信号を表すオーディオデータである。テスト情報は、個々のテスト音とテスト音に応答して受信されたオーディオ信号の組合せを含み得る。たとえば、いくつかの実施形態では、テスト情報は、ユーザの耳殻上の位置においてトランスデューサ(たとえば、軟骨伝導トランスデューサ)によって提示されたテスト音と、ユーザの耳道への入口において(たとえば、1つまたは複数の音響センサーによって)キャプチャされた対応するオーディオ信号の組合せを含む。いくつかの実施形態では、テスト情報は、トランスデューサが提示することが可能であるテスト音の周波数のセットなど、トランスデューサの特性をも含み得る。オーディオ信号自体は、軟骨伝導トランスデューサ230から出力されたオーディオ信号の短期または中期のバーストに対応し得る。これらのオーディオ信号の周波数特性が、詳細には、ユーザ210のためのHRTFまたはユーザ210の耳の幾何学的情報と直接相関する何らかの有用なテスト情報を抽出するために、選定され得る。
軟骨伝導トランスデューサ230は、ヘッドセット220のオーディオシステムからの命令に従って、1つまたは複数のテスト音をユーザ210に提示するように構成される。いくつかの実施形態では、軟骨伝導トランスデューサ230は、ユーザ210の一方または両方の耳殻上の様々なテスト位置に置かれ、テスト位置の各々において1つまたは複数のテスト音を発するように構成される。たとえば、軟骨伝導トランスデューサ230自体は、ヘッドセット220の部分フレーム(たとえば、フレーム110)に沿って摺動可能であり、ならびに/またはヘッドセット220上のいくつかの位置から取付け可能および分離可能であるなど、可動であり得る。別の例として、ユーザ210は、軟骨伝導トランスデューサ230を移動するために、ヘッドセット220のフレーム全体を再配置し得る。図示の実施形態では、テスト位置は、概して、耳殻245の上部分、耳殻245の中間部分、および耳殻245の下部分に対応する、耳殻245上のテスト位置250、260、および270を含む。軟骨伝導トランスデューサ230は、(テスト位置260の暗い部分によって示されているように)図2中のテスト位置260に置かれる。オーディオシステムは、ユーザ210のためのテスト情報を収集するために、軟骨伝導トランスデューサ230をユーザ210の耳殻245上の様々な位置に配置するようにユーザに促し得る。たとえば、オーディオシステムは、テスト位置260において1つまたは複数のテスト音およびオーディオ信号の組合せを収集した後に、軟骨伝導トランスデューサ230をテスト位置250および/またはテスト位置270に移動するようにユーザに促し得る。テスト位置250、260、および270は例示的であるにすぎず、耳殻245上の他のロケーションが、テスト位置として使用され得ることに留意されたい。たとえば、耳殻245の耳珠上にテスト位置があり得る。
マイクロフォン240は、ユーザ210の耳道への入口における音に対応するオーディオ信号をキャプチャする。音は、たとえば、トランスデューサ(たとえば、軟骨伝導トランスデューサ230、軟骨伝導トランスデューサアレイのトランスデューサ)、ヘッドセット220上のHRTFスピーカーアレイのスピーカー、またはそれらの何らかの組合せからのものであり得る。図示の実施形態では、オーディオ信号は、軟骨伝導トランスデューサ230がテスト音を提示したことに応答して、ユーザ210の耳道の入口においてマイクロフォン240によってキャプチャされる。さらに、いくつかの実施形態では、ユーザ210の他方の耳の耳道への入口に配置された別のマイクロフォン240がある。マイクロフォン240は、キャプチャされたオーディオ信号を、ヘッドセット220のオーディオシステムの他の構成要素(たとえば、オーディオコントローラ)に提供する。
ユーザ210のために収集されたテスト情報は、オーディオシステムによって、(たとえば、ヘッドセット220およびネットワーク290を介して)オーディオサーバ280に送られる。ネットワーク290は、データ送信のための任意の好適な通信ネットワークであり得る。いくつかの例示的な実施形態では、ネットワーク290は、インターネットであり、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク290は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、3G、4G、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI expressアドバンストスイッチングなどの技術を使用するリンクを含むことができる。いくつかの例示的な実施形態では、エンティティは、上記で説明されたものの代わりに、またはそれに加えて、カスタムデータ通信技術および/または専用データ通信技術を使用する。
オーディオサーバ280は、ヘッドセット220のオーディオシステムから受信されたテスト情報を処理する。オーディオサーバ280は、ヘッドセットユーザのためのHRTFを決定するために、テスト情報を処理し得る。オーディオサーバ280は、所与のテスト音およびオーディオ信号の組合せのためのHRTFを予測するために、HRTFモデルを使用し得る。いくつかの実施形態では、オーディオサーバ280は、ユーザの耳殻のジオメトリを表す、ユーザのための幾何学的情報を決定し得る。幾何学的情報は、(たとえば、3次元メッシュ、サブ形状の集合、形状に関する表面法線の集合、ポイントクラウドの形態の形状に関するキーポイントおよびランドマークの集合などを介して)3次元オブジェクトを表すデータを指す。幾何学的情報は、ユーザの一方または両方の耳殻の一部または全部のジオメトリを表し得る。オーディオサーバ280は、所与のテスト音およびオーディオ信号の組合せのための幾何学的情報を予測するために、トレーニングされた耳殻ジオメトリモデルを使用し得る。オーディオサーバ280は、テスト情報に対応するHRTFを決定するために幾何学的情報を使用し得る。オーディオサーバ280は、ヘッドセット220の1つまたは複数のプロセスのために使用されるように、決定されたHRTFおよび/または幾何学的情報をヘッドセット220に提供し得る。たとえば、ヘッドセット220は、AR、VR、またはMRについての空間化オーディオをシミュレートするために、HRTFを使用し得る。オーディオサーバ280は、図3~図4を参照しながら以下でより詳細に説明される。代替実施形態では、オーディオサーバ280によって実施されるプロセスの一部または全部は、ヘッドセットまたは他のデバイスのオーディオシステムによって実施され得る(たとえば、ヘッドセット100のオーディオコントローラ150によって実施され得る)。
図3は、1つまたは複数の実施形態による、オーディオサーバ300のブロック図である。図3の実施形態では、オーディオサーバ300は、データストア310と、モデル生成モジュール320と、較正モジュール330と、HRTFマッピングモジュール340と、耳殻ジオメトリマッピングモジュール350と、HRTFシミュレーションモジュール360とを含む。オーディオサーバ300のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
データストア310は、オーディオサーバ300による使用のためのデータを記憶する。データストア310中のデータは、たとえば、1つまたは複数のテスト位置についてのテスト情報、1つまたは複数のテスト位置についてのトレーニングテスト情報、1人または複数のユーザのためのHRTF、1つまたは複数のモデル(たとえば、HRTFモデル、耳殻ジオメトリモデルなど)、頭部関係ジオメトリ情報、耳殻ジオメトリ、1つまたは複数のテスト音、トランスデューサ特性、耳道中のマイクロフォンの音響伝達関数、およびオーディオサーバ300による使用のために関連する他のデータ、またはそれらの任意の組合せを含み得る。トレーニングテスト情報は、1つまたは複数のモデルをトレーニングするために使用されるテスト情報である。トレーニングテスト情報は、HRTF(すなわち、トレーニングHRTF)および/または幾何学的情報(すなわち、トレーニング幾何学的情報)で標示された、トレーニングユーザのためのキャプチャされたテスト音およびオーディオ信号の組合せを含み得る。トレーニングテスト情報は、トレーニングオーディオシステムを使用してトレーニングするためにキャプチャされ得、これは、図4を参照しながら以下でより詳細に説明される。
モデル生成モジュール320は、オーディオシステム(たとえば、ヘッドセット220のオーディオシステム)から受信されたテスト情報を処理するためにオーディオサーバ300によって使用される1つまたは複数のモデルをトレーニングするためのトレーニングテスト情報を使用する。モデル生成モジュール320は、(たとえば、データストア310に記憶された)トレーニングテスト情報を使用して、ユーザのためのテスト音およびオーディオ信号の組合せをユーザのための対応するHRTFにマッピングするモデル(すなわち、HRTFモデル)を生成および/または更新し得る。HRTFモデルは、ユーザのための1つまたは複数のHRTFの表現を出力し得る。これらの表現は、(極座標系における仰角、方位角および半径によってパラメータ化された)3次元空間中の各ロケーションについてのスカラーのセットであり得る。これらの表現はまた、HRTFを生成するためにインパルス応答基底関数の別のセットとともに使用され得る、(たとえば、100未満の)数のセットであり得る。いくつかの実施形態では、HRTF表現はまた、上記で説明された、スカラーのセットと数のセットの組合せであり得る。追加または代替として、モデル生成モジュール320は、トレーニングテスト情報を使用して、テスト音およびオーディオ信号の組合せを、ユーザの耳殻を表す対応する幾何学的情報にマッピングするモデル(すなわち、耳殻ジオメトリモデル)を生成し得る。幾何学的情報は、ランドマークのキーポイントのセット、または3次元オブジェクトの2次元投影のセット、またはメッシュであり得るか、あるいは、幾何学的情報はまた、密なまたは疎なポイントクラウドであり得る。いくつかのインスタンス化では、幾何学的情報はまた、ポイントクラウドのメッシュによってキャプチャされた必要とされる情報を生成するために事前トレーニングされた基底関数のセットとともに使用され得る、スカラーのセットであり得る。
モデル生成モジュール320は、1つまたは複数のトレーニングユーザのためのHRTF(すなわち、トレーニングHRTF)を決定する。いくつかの実施形態では、モデル生成モジュール320は、トレーニング情報がトレーニングユーザの耳殻の形状についてのグランドトゥルースとしてそこから取得された、トレーニングユーザに固有の頭部関係ジオメトリを使用する。モデル生成モジュール320は、トレーニングユーザの頭部関係ジオメトリ(および、特に耳殻ジオメトリ)に固有のトレーニングユーザのためのHRTFをシミュレートし得る。そのシミュレーションは、以下でHRTFシミュレーションモジュール360によって実施されるようなシミュレーションと同じであり得る。いくつかの実施形態では、モデル生成モジュール320は、(たとえば、図4に関して以下で説明されるように)オーディオトレーニングシステムから、1人または複数のトレーニングユーザのためのHRTFを受信する。他の実施形態では、モデル生成モジュール320は、(たとえば、図4に関して以下で説明されるように)HRTFスピーカーアレイから発せられたテスト音に応答して耳道への入口においてマイクロフォンを介して受信されたオーディオ音が与えられれば、1人または複数のトレーニングユーザのためのHRTFを決定する。
モデル生成モジュール320は、限定はしないが、サポートベクターマシンと、人工ニューラルネットワークと、線形およびカーネル化(kernelized)回帰と、最近傍と、ブースティングおよびバギングと、単純ベイズおよびベイズ回帰と、デシジョンツリーと、ランダムフォレストと、関係する統計的および計算論的学習モデルとを含む、様々な教師あり学習技法を使用して、1つまたは複数のモデルをトレーニングし得る。モデル生成モジュール320は、1人または複数のトレーニングユーザから収集された情報を使用して、1つまたは複数のモデルをトレーニングし得る。情報は、各トレーニングユーザについて、たとえば、(たとえば、複数の異なるテスト位置についてのテスト音とオーディオ信号の組合せと標示された)トレーニングテスト情報、トレーニングユーザのための2つの形状情報(特に、耳殻の一方または両方を表す高解像度幾何学的情報)をキャプチャする頭部関係ジオメトリおよび耳関係ジオメトリ、ユーザのためのHRTF、1つまたは複数のトランスデューサ(すなわち、テスト音を発するために使用されるもの)の特性、テスト音についてオーディオ信号をキャプチャするために使用される音響センサーに対応する音響センサー伝達関数、またはそれらの何らかの組合せを含み得る。トレーニングされたモデルは、ユーザから決定されたテスト情報(たとえば、所与のテスト音についてのキャプチャされたオーディオ信号)が与えられれば、ユーザの一方または両方の耳殻を表すジオメトリ情報および/あるいはユーザのHRTFを表す情報を出力し得る。
いくつかの実施形態では、モデル生成モジュール320は、ユーザの一方または両方の耳殻を表すジオメトリ情報および/あるいはユーザのHRTFを表す情報を出力することができる単一のトレーニングされたモデルを生成する。他の実施形態では、モデル生成モジュール320は、ユーザからのテスト情報に基づいて、そのユーザの一方または両方の耳殻を表すジオメトリ情報を出力することができる単一のトレーニングされたモデル(すなわち、耳殻ジオメトリモデル)を生成し、ユーザからのテスト情報に基づいて、そのユーザのHRTFを表す情報を出力することができる単一のトレーニングされたモデル(すなわち、HRTFモデル)を生成する。いくつかの実施形態では、モデル生成モジュール320は、複数の耳殻ジオメトリモデルおよび/またはHRTFモデルを生成する。たとえば、モデル生成モジュール320によって受信されたテスト情報は、較正モジュール330に関して以下で説明されるような、複数のテスト位置から提示されるテスト音を含み得る。この場合、モデル生成モジュール320は、複数のテスト位置からの各テスト位置についてのHRTFモデルおよび/または耳殻ジオメトリモデルをトレーニングし得る。別の例として、モデル生成モジュール320は、ユーザの各耳殻について1つまたは複数の別個のHRTFモデルおよび/または耳殻ジオメトリモデル(たとえば、左耳HRTFモデルおよび右耳HRTFモデル)を生成し得る。
較正モジュール330は、オーディオサーバ300の1つまたは複数のプロセスにおいて使用するためのデータ収集を容易にし得る。較正モジュール330は、それぞれのテスト情報を収集するために、トランスデューサをユーザの耳殻上の1つまたは複数の位置に配置するように1つまたは複数のオーディオシステムのユーザに促すために、(たとえば、ネットワーク290を介して)1つまたは複数のオーディオシステムと(たとえば、ヘッドセット220のオーディオシステムと)通信し得る。たとえば、較正モジュール330は、トランスデューサを1つまたは複数の位置に配置するようにユーザに促すための命令を生成し、その命令を1つまたは複数のオーディオシステムに提供し得る。1つまたは複数の位置は、モデルをトレーニングするためにモデル生成モジュール320によって使用されるトレーニングテスト情報を収集するために使用される、1つまたは複数の位置に対応し得る。たとえば、モデル生成モジュール320は、ある位置に配置されたトレーニング軟骨伝導トランスデューサを含むトレーニングオーディオシステムから、トレーニングテスト情報を受信し得る。この場合、較正モジュール330は、トランスデューサをトレーニング軟骨伝導トランスデューサと同じ位置(たとえば、テスト位置260)に配置するようにユーザに促し得る。トレーニングオーディオシステムを用いてトレーニングテスト情報を収集することは、図4を参照しながら以下でより詳細に説明される。較正モジュール330は、オーディオシステムに、ユーザの耳殻の一方または両方上のあらかじめ定義されたテスト位置のセットについてのテスト情報を取得するように命令し得る。いくつかの実施形態では、複数のテスト音が発せられ、複数のテスト音は同じ(たとえば、同じ1つまたは複数の周波数)であり、トランスデューサの各テスト位置におけるテスト音についての複数のオーディオ信号がキャプチャされる。特定のテスト位置から発せられた特定のテスト音についてのデータの複数のインスタンスが、処理中のデータにおける誤差を低減するのを助け得る。いくつかの実施形態では、トランスデューサの各テスト位置において発せられた複数のテスト音があり、複数のテスト音のうちの少なくとも1つが、複数のテスト音のうちの別のテスト音とは異なる。たとえば、各々が異なる周波数(または周波数の範囲)を有するテスト音のセットがあり得、オーディオサーバ300は、オーディオシステムに、トランスデューサの各テスト位置についてのテスト音のセットの一部または全部を提示するように命令する。オーディオサーバ300は、オーディオシステムから(たとえば、ネットワーク290を介して)テスト情報を受信する。
いくつかの実施形態では、較正モジュール330は、1つまたは複数のオーディオシステムからのテスト情報を使用して、1つまたは複数のモデルを更新し得る。たとえば、較正モジュール330は、さらに、1つまたは複数のオーディオシステムのユーザからの情報を使用して、1つまたは複数のモデルをトレーニングし得る。情報は、各ユーザについて、たとえば、(たとえば、複数の異なるテスト位置についてのテスト音とオーディオ信号の組合せと標示された)テスト情報、1つまたは複数のトランスデューサ(すなわち、テスト音を発するために使用されるもの)の特性、テスト音についてオーディオ信号をキャプチャするために使用される音響センサーに対応する音響センサー伝達関数、またはそれらの何らかの組合せを含み得る。このようにして、較正モジュール330は、たとえば、ユーザのためのテスト情報が与えられれば、そのユーザのためのHRTFおよび/または幾何学的情報を予測する際の、1つまたは複数のモデルの有効性を増加させ続け得る。
HRTFマッピングモジュール340は、HRTFモデルを使用して、ユーザのためのテスト音とオーディオ信号の組合せを、対応するHRTFにマッピングする。HRTFマッピングモジュール340は、オーディオサーバ300の別の構成要素(たとえば、データストア310)から、および/またはオーディオシステム(たとえば、ヘッドセット220のオーディオシステム)から直接、テスト情報を取得し得る。HRTFマッピングモジュール340は、HRTFモデルを使用して、テスト音およびオーディオ信号の組合せのうちの1つまたは複数を、ユーザのためのHRTFのセットを表す情報にマッピングする。情報は、たとえば、ユーザのためのHRTF、テスト音周波数およびソース位置が与えられればHRTFを提供する関数および/またはモデル、ユーザのためのHRTFを決定するために使用され得る何らかの他の情報、あるいはそれらの何らかの組合せであり得る。HRTFは、いくつかの表現フォーマットのうちの1つにおいてオーディオシステムに提供され得る。これらの表現は、(極座標系における仰角、方位角および半径によってパラメータ化された)3次元空間中の各ロケーションについてのスカラーのセットであり得る。これらの表現はまた、インパルス応答基底関数の別のセットとともに利用されるとき、HRTFを生成することになる、(100未満の)数のセットであり得る。いくつかのインスタンス化では、HRTF表現はまた、上記の両方の組合せであり得る。
いくつかの実施形態では、HRTFマッピングモジュール340は、ユーザのために決定されたHRTFのセットの精度を改善するために、テスト音およびオーディオ信号の組合せのうちの1つまたは複数についてのHRTFモデルによって出力された情報を比較し(たとえば、組み合わせるか、平均化するか、または場合によっては処理し)得る。いくつかの実施形態では、HRTFマッピングモジュール340はまた、ユーザのためのHRTFのセットを表す情報を決定するためにHRTFモデルへの入力として、(1)所与のテスト音およびオーディオ信号の組合せを取得するために使用されるトランスデューサの特性、ならびに/または、(2)テスト音およびオーディオ信号の組合せについてオーディオ信号をキャプチャするために使用される音響センサーに対応する伝達関数(たとえば、マイクロフォン伝達関数)を使用する。HRTFマッピングモジュール340は、ユーザのためのHRTFのセットを表す情報をオーディオシステムに提供し得る。
耳殻ジオメトリマッピングモジュール350は、耳殻ジオメトリモデルを使用して、1人または複数のユーザのためのテスト音とオーディオ信号の組合せを、1人または複数のユーザの耳殻を表す対応する幾何学的情報にマッピングする。耳殻マッピングモジュール340は、オーディオサーバ300の別の構成要素(たとえば、データストア310)から、および/またはオーディオシステム(たとえば、ヘッドセット220のオーディオシステム)から直接、テスト情報を取得し得る。耳殻ジオメトリマッピングモジュール350は、耳殻ジオメトリモデルを使用して、テスト情報(たとえば、テスト音およびオーディオ信号の組合せ)を、ユーザの耳殻を表す対応する幾何学的情報にマッピングし得る。いくつかの実施形態では、耳殻ジオメトリマッピングモジュール350はまた、ユーザの耳殻を表す幾何学的情報を決定するために耳殻ジオメトリモデルへの入力として、(1)所与のテスト音およびオーディオ信号の組合せを取得するために使用されるトランスデューサの特性、ならびに/または、(2)テスト音およびオーディオ信号の組合せについてオーディオ信号をキャプチャするために使用される音響センサーに対応する伝達関数(たとえば、マイクロフォン伝達関数)を使用する。耳殻ジオメトリマッピングモジュール350は、幾何学的情報を、ユーザのオーディオシステム、さらなる処理のためのオーディオサーバ300の他の構成要素(たとえば、HRTFシミュレーションモジュール360)、製造システム、またはそれらの何らかの組合せに提供し得る。
HRTFシミュレーションモジュール360は、ユーザのための1つまたは複数のHRTFを決定するために、ユーザの頭部のシミュレートされた位置に対する異なるロケーションにおいて、オーディオソースからの音の伝搬をシミュレートする。HRTFシミュレーションモジュール360は、ユーザのHRTFを決定するために、(たとえば、耳殻ジオメトリマッピングモジュール350からの出力としての)頭部関係ジオメトリ、および詳細には、耳関係ジオメトリを表す幾何学的情報を使用し得る。たとえば、幾何学的情報は、ユーザの頭部および/または耳殻の3次元メッシュを含み得る。シミュレートされたHRTFを決定するために、シミュレーションモジュール350は、取得された幾何学的情報(たとえば、ユーザの耳殻ジオメトリおよび頭部/肩ジオメトリ)が与えられれば、シミュレートされた音ソースからユーザのシミュレートされた耳道に音がどのように伝搬するかをシミュレートするために、数値シミュレーションを使用し得る。たとえば、HRTFシミュレーションモジュール360は、参照により本明細書に組み込まれる、2018年5月11日に出願された、「Head-Related Transfer Function Personalization Using Simulation」と題する同時係属米国特許出願第62/670,628号(代理人整理番号#31718-36800)において説明される方法のいずれかを使用して、シミュレートされたHRTFを決定し得る。HRTFシミュレーションモジュール360は、シミュレーションの結果に基づいて、ユーザのためのシミュレートされたHRTFを作り出す。いくつかの実施形態では、HRTFシミュレーションモジュール360は、テスト音およびオーディオ信号の組合せならびに/または幾何学的情報が、対応するHRTFにマッピングするように、シミュレーション結果に基づいてHRTFモデルおよび/または耳殻ジオメトリモジュールを更新する。
いくつかの実施形態では、耳殻ジオメトリマッピングモジュール350によって決定された幾何学的情報は、ウェアラブルデバイスの設計および/または製造のために使用され得る。たとえば、オーディオサーバ300および/または製造システムは、幾何学的情報に対応する、ユーザにフィットするようにカスタマイズされたウェアラブルデバイス(たとえば、人工現実ヘッドセット)を表す設計ファイルを生成するために、幾何学的情報を使用し得る。設計ファイルは、イヤバッド、他のヘッドフォン、または組織トランスデューサなど、ユーザの耳にフィットし得るデバイス(たとえば、インイヤデバイス)のジオメトリを表す情報を含み得る。設計ファイルは、設計ファイルの仕様に基づいてインイヤデバイスを作製するために、たとえば、製造システムによって使用され得る。そうする際に、インイヤデバイスは、ユーザの耳の形状によりぴったりフィットすること、または一致することなど、ユーザの耳にフィットするようにカスタマイズされ得る。さらに、インイヤデバイスは、ヘッドセットデバイス(たとえば、ヘッドセット100またはヘッドセット105)など、別のデバイスの構成要素として製造され得る。同じまたは異なる実施形態では、オーディオサーバ300は、複数のユーザに対応する設計ファイルを(たとえば、データストア310に)記憶し得る。この場合、サーバ300またはサードパーティは、複数の設計ファイルのうちの1つまたは複数を使用して、1つまたは複数の設計ファイルに基づいて、集約された設計ファイルを生成し得る。たとえば、集約された設計ファイルは、1つまたは複数の設計ファイルにわたる平均仕様(たとえば、平均頭部直径、平均耳殻外周など)を含み得る。
図4は、一実施形態による、トレーニングユーザのためのトレーニングテスト情報を収集するためのトレーニングオーディオシステム400の斜視図である。トレーニングユーザ(たとえば、トレーニングユーザ440)は、1つまたは複数のモデルをトレーニングするための情報(たとえば、頭部関係幾何学的情報、HRTF)がそこから決定される、テスト対象である。テスト対象は、人間または人間の物理モデルであり得る。図4の実施形態では、トレーニングオーディオシステム400は、DCA410と、1つまたは複数のトランスデューサ(たとえば、トランスデューサ420)と、マイクロフォン425と、コントローラ430とを含む。トレーニングオーディオシステム400のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。いくつかの実施形態では、トレーニングオーディオシステム400の構成要素の一部または全部が、無響室中にある。図示のように、トレーニングユーザ440は、オーディオシステムを含むヘッドセット(たとえば、ヘッドセット100)を装着していないが、他の実施形態では、トレーニングユーザがヘッドセットを装着している間に、情報が収集される。これらのインスタンスでは、トレーニングオーディオシステム400の部分が、ヘッドセットの一部でもあり得る。たとえば、トランスデューサ320およびマイクロフォン425は、ヘッドセットのオーディオシステムの一部であり得る。さらに、トレーニングユーザ440の頭部の一方の側および単一の耳殻450のみが図4に示されているが、本明細書のトレーニングオーディオシステム400の説明は、ユーザ440の頭部のすべての側および左耳殻と右耳殻の両方に適用される。
DCA410は、複数のトレーニングユーザの頭部関係ジオメトリを表す幾何学的情報(すなわち、トレーニング幾何学的情報)を収集する。たとえば、図4では、DCA410は、トレーニングユーザ440の幾何学的情報を収集している。DCA410は、1つまたは複数のイメージングデバイスを含み、DCAコントローラを含み得る(図4に図示せず)。いくつかの実施形態では、1つまたは複数のイメージングデバイスは、トレーニングユーザの耳および頭部の部分の画像、ビデオ、または3次元走査をキャプチャするために使用される。画像は、トレーニングユーザの各々の一方または両方の耳殻を含む。DCA410は、いくつかの角度から(たとえば、トレーニングユーザの周りを移動すること、DCA410に対して回転するようにユーザに促すことなどによって)トレーニングユーザの画像走査を取得し得る。いくつかの実施形態では、DCA410は、トレーニングユーザのいくつかの部分(すなわち、耳殻)の高解像度走査を取得しながら、トレーニングユーザの他の部分(たとえば、頭部および肩)の低解像度走査を取得し得る。各トレーニングユーザについて、DCA410は、そのトレーニングユーザの走査を使用して、頭部関係ジオメトリを生成する。たとえば、図示のように、DCA410は、トレーニングユーザ440の頭部の一部分を画像化する。頭部の一部分は、トレーニングユーザの耳殻450を含む。DCA410は、頭部の画像化された部分の頭部関係ジオメトリを生成する。頭部関係ジオメトリは、トレーニングユーザの頭部の3次元ジオメトリを表す。頭部関係ジオメトリは、一方または両方の耳殻の3次元ジオメトリを表し、いくつかの実施形態では、頭部の他の部分、肩、またはそれらの何らかの組合せの3次元ジオメトリを表し得る。また、いくつかのインスタンスでは、頭部関係ジオメトリはヘッドセットを含み得る。いくつかのインスタンスでは、ヘッドセットは、頭部が走査された間、トレーニングユーザによって装着され得る。他の実施形態では、ヘッドセットは、頭部関係ジオメトリを生成するためにトレーニングユーザの頭部の3次元モデルと組み合わせられたヘッドセットの3次元仮想モデルである。いくつかの実施形態では、頭部関係ジオメトリは、3次元メッシュ、代表的3次元形状(たとえば、ボクセル)の組合せ、トレーニングユーザの頭部の走査された部分の何らかの他の表現、またはそれらの何らかの組合せであり得る。
トランスデューサ420は、コントローラ430からの命令に従って、1つまたは複数のテスト音をトレーニングユーザに提示するように構成される。図示のように、トランスデューサ420は、トレーニングテスト情報を収集するために使用される軟骨伝導トランスデューサ(すなわち、トレーニング軟骨伝導トランスデューサ)である。いくつかの実施形態では、トランスデューサ420は、トレーニングユーザの一方または両方の耳殻上の様々なテスト位置に置かれ、テスト位置の各々において1つまたは複数のテスト音を発するように構成される。これらの様々なテスト位置は、各々、ユーザのためのHRTFおよび/または幾何学的情報を決定するためにユーザのためのテスト情報を収集するためのヘッドセットデバイス(たとえば、ヘッドセット100、105、または220)によって使用される位置に対応し得る。たとえば、ヘッドセットデバイスは、テスト位置465、すなわち、トランスデューサ420が現在図4において配置されているところと同じ位置に配置されたトランスデューサを含み得る。図示の実施形態では、テスト位置は、概して、それぞれ、耳殻の上部分、耳殻の中間部分、耳殻の下部分、および耳殻の耳珠に対応する、テスト位置460、465、470、および475を含む。これらの部分は例示的であるにすぎず、耳殻上の他のロケーションが、テスト位置として使用され得ることに留意されたい。
示されていない実施形態では、トランスデューサ420は、複数の軟骨伝導トランスデューサを含む軟骨伝導トランスデューサアレイと置き換えられる。軟骨伝導トランスデューサは、耳殻450上の異なるテスト位置に位置し得る。たとえば、トレーニングユーザの各耳殻は、コントローラ430からの命令に従ってテスト音を発するように構成された軟骨伝導トランスデューサアレイとフィットし得る。
他の実施形態では、トランスデューサ320は、何らかの他のタイプのトランスデューサ(たとえば、空気または骨)であり得る。これらの他のタイプのトランスデューサは、図示されたものとは異なるテスト位置に置かれ得る。たとえば、骨伝導トランスデューサについてのテスト位置が、耳殻の後ろに位置し、耳殻の代わりに頭蓋骨(たとえば、乳様突起)に結合され得、空気伝導トランスデューサが、トレーニングユーザによって装着されたヘッドセット上に位置し得る、などである。
さらに、(示されていない)いくつかの実施形態では、トレーニングオーディオシステム400は、トレーニングユーザに対して異なるロケーションに配置された複数のスピーカーを含むHRTFスピーカーアレイを含む。スピーカーの各々は、スピーカーから発せられた音がトレーニングユーザ440に対する異なる相対位置にあるように配置される。発せられた音は、たとえば、チャープ、トーンなどであり得る。
マイクロフォン425は、トレーニングユーザの耳道への入口における音に対応するオーディオ信号をキャプチャする。音は、たとえば、トランスデューサ(たとえば、トランスデューサ420、軟骨伝導トランスデューサアレイのトランスデューサ)、トレーニングユーザ440によって装着されたヘッドセット上のトランスデューサ、HRTFスピーカーアレイのスピーカー、またはそれらの何らかの組合せからのものであり得る。図示の実施形態では、オーディオ信号は、トランスデューサ420がテスト音を提示したことに応答して、トレーニングユーザ440の耳道の入口490においてキャプチャされる。さらに、いくつかの実施形態では、トレーニングユーザ440の他方の耳の耳道への入口に配置された別のマイクロフォン425がある。マイクロフォン425は、キャプチャされたオーディオ信号をコントローラ430に提供する。
コントローラ430は、トレーニングオーディオシステム400の構成要素を制御する。コントローラ430は、トランスデューサ420、軟骨伝導トランスデューサアレイの1つまたは複数のトランスデューサ、ヘッドセット上の1つまたは複数のトランスデューサ、HRTFスピーカーアレイの1つまたは複数のスピーカー、またはそれらの何らかの組合せに、テスト音を発するように命令する。コントローラ430は、マイクロフォン425から、テスト音に対応するオーディオ信号を受信する。図示の実施形態では、コントローラ430は、トランスデューサ420に、1つまたは複数のテスト音を発するように命令し、対応するオーディオ信号が、マイクロフォン425から受信され、トランスデューサ420は、次いで、異なるテスト位置(たとえば、460、470、または475)に移動され、次いで、そのプロセスは繰り返す。このようにして、コントローラ430は、各テスト位置についてのテスト情報(すなわち、1つまたは複数のオーディオ信号および1つまたは複数の対応するテスト音)を収集する。
コントローラ430は、DCA410に、トレーニングユーザ440のための頭部関係ジオメトリを生成するように命令する。トレーニングユーザ440の一方または両方の耳殻の3次元ジオメトリを表す情報を含む頭部関係ジオメトリ。コントローラ430は、DCA410に、トレーニングユーザ440の異なる部分(たとえば、頭部の側面、顔、肩など)の走査をキャプチャするために、(たとえば、1つまたは複数のアクチュエータを介して)異なる位置に移動するように命令し得る。
コントローラ430は、トレーニングユーザの一方または両方の耳のためのHRTFを決定し得る。テスト音がHRTFスピーカーアレイから発せられる、実施形態では、コントローラ430は、検出された音に部分的に基づいて、トレーニングユーザの一方または両方の耳のためのHRTFを決定し得る。他の実施形態では、コントローラは、トレーニングユーザのためのHRTFをシミュレートするために、トレーニングユーザのための頭部関係ジオメトリを使用し得る。HRTFのシミュレーションは、図3を参照しながら上記で説明されたHRTFシミュレーションに関して上記で説明されたシミュレーションと同じであり得る。
コントローラ430は、テスト情報、上記で説明された頭部関係ジオメトリ、一方または両方の耳のためのHRTF、またはそれらの何らかの組合せを、オーディオサーバ280に提供し得る。オーディオサーバ280は、1つまたは複数のモデル(たとえば、HRTFモデル、耳殻ジオメトリモデル)をトレーニングするために、受信された情報を使用し得る。他の実施形態では、トレーニングオーディオシステム400は、図3を参照しながら上記で説明されたプロセスを使用して、1つまたは複数のモデルをトレーニングし得る。トレーニングオーディオシステム400は、次いで、トレーニングされた1つまたは複数のモデルを、たとえば、オーディオサーバ300に提供し得る。また、いくつかの実施形態では、トレーニングされた1つまたは複数のモデルは、(たとえば、ヘッドセットの一部である)1つまたは複数のオーディオシステム上にローカルにインストールされ得る。
図5は、1つまたは複数の実施形態による、オーディオシステム500のブロック図である。図1A、図1B、および/または図2中のオーディオシステムは、オーディオシステム500の一実施形態であり得る。オーディオシステム500は、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム500は、ユーザのためのオーディオコンテンツを生成するために1つまたは複数の音響伝達関数を使用し得る。図5の実施形態では、オーディオシステム500は、トランスデューサアレイ510と、センサーアレイ520と、オーディオコントローラ530とを含む。オーディオシステム500のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。
トランスデューサアレイ510は、オーディオコンテンツを提示するように構成される。トランスデューサアレイ510は、複数のトランスデューサを含む。トランスデューサは、オーディオコンテンツを提供するデバイスである。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー160)、組織トランスデューサ(たとえば、組織トランスデューサ170)、オーディオコンテンツを提供する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ510は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。たとえば、いくつかの実施形態では、トランスデューサアレイ510は、ユーザの各耳について単一の軟骨伝導トランスデューサを含む。いくつかの実施形態では、トランスデューサアレイ510は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介(auricle)の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ530から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
トランスデューサアレイ510は、オーディオコントローラ530からの命令に従ってオーディオコンテンツを生成する。いくつかの実施形態では、オーディオコンテンツが空間化される。空間化オーディオコンテンツは、特定の方向および/またはターゲット領域(たとえば、ローカルエリアにおけるオブジェクトおよび/または仮想オブジェクト)から発生するように思われるオーディオコンテンツである。たとえば、空間化オーディオコンテンツは、オーディオシステム500のユーザから部屋の向こうの仮想歌手から音が発生しているように思わせることができる。トランスデューサアレイ510は、ユーザのために較正されたHRTFを使用して、空間化オーディオコンテンツを生成し得る。トランスデューサアレイ510は、ウェアラブルデバイス(たとえば、ヘッドセット100またはヘッドセット105)に結合され得る。代替実施形態では、トランスデューサアレイ510は、ウェアラブルデバイスとは別個である(たとえば、外部コンソールに結合された)複数のスピーカーであり得る。
センサーアレイ520は、センサーアレイ520の周囲のローカルエリア内の音を検出する。センサーアレイ520は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)上に、ユーザ上に(たとえば、ユーザの耳道中に)、ネックバンド上に、またはそれらの何らかの組合せで配置され得る。センサーアレイ520は、各耳道の入口に置かれるべきマイクロフォンを含む。いくつかの実施形態では、これらのマイクロフォンは、一時的にセンサーアレイ520の一部であり、(たとえば、較正が行われた後に)センサーアレイ520から取り外され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ520は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ510によって生成されたオーディオコンテンツを監視するように構成される。センサーの数を増加させることは、トランスデューサアレイ510によって作り出された音場および/またはローカルエリアからの音を表す情報(たとえば、方向性)の精度を改善し得る。
オーディオコントローラ530は、オーディオシステム500の動作を制御する。図5の実施形態では、オーディオコントローラ530は、データストア535と、DOA推定モジュール540と、伝達関数モジュール550と、追跡モジュール560と、ビームフォーミングモジュール570と、音フィルタモジュール580と、較正モジュール590とを含む。オーディオコントローラ530は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ530のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラのいくつかの機能が、ヘッドセットの外部で実施され得る。ユーザは、オーディオコントローラ530が、ヘッドセットによってキャプチャされたデータをヘッドセットの外部のシステムに送信することを可能にすることをオプトインし得、ユーザは、そのようなデータへのアクセスを制御するプライバシー設定を選択し得る。
データストア535は、オーディオシステム500による使用のためのデータを記憶する。データストア535中のデータは、オーディオシステム500のローカルエリアにおいて録音された音、オーディオコンテンツ、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、音響センサーのうちの1つまたは複数のためのアレイ伝達関数(ATF)、音ソースロケーション、ローカルエリアの仮想モデル、到来方向推定値、音フィルタ、幾何学的情報、テスト音、(たとえば、テスト音の提示に応答して)耳道への入口においてマイクロフォンによってキャプチャされたオーディオ信号、テスト位置情報(たとえば、テスト音を提示するトランスデューサの位置)、オーディオシステム500の使用および/または較正のために関連する何らかの他のデータ、あるいはそれらの何らかの組合せを含み得る。
DOA推定モジュール540は、センサーアレイ520からの情報に部分的に基づいて、ローカルエリアにおける音ソースの位置を特定するように構成される。位置特定は、オーディオシステム500のユーザに対して音ソースがどこに位置するかを決定するプロセスである。DOA推定モジュール540は、ローカルエリア内の1つまたは複数の音ソースの位置を特定するためにDOA分析を実施する。DOA分析は、音が発生した方向を決定するために、センサーアレイ520において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム500が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、センサーアレイ520から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインに変換し、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ520が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、DOA推定モジュール540は、ローカルエリア内のオーディオシステム500の絶対位置に関するDOAをも決定し得る。センサーアレイ520の位置は、外部システム(たとえば、ヘッドセット、人工現実コンソール、オーディオサーバ、位置センサー(たとえば、位置センサー190)などの何らかの他の構成要素)から受信され得る。外部システムは、ローカルエリアとオーディオシステム500の位置とがマッピングされる、ローカルエリアの仮想モデルを作成し得る。受信された位置情報は、オーディオシステム500の一部または全部(たとえば、センサーアレイ520)のロケーションおよび/または配向を含み得る。DOA推定モジュール540は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
伝達関数モジュール550は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール550は、オーディオシステムに関連付けられた1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが空間中の点からどのように音を受信するかを特徴づける。
ATFは、音ソースとセンサーアレイ520中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音ソースについて、センサーアレイ520中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音ソースについて、対応するATFがある。音ソースは、たとえば、ローカルエリアにおける音を生成する誰かまたは何か、ユーザ、あるいはトランスデューサアレイ510の1つまたは複数のトランスデューサであり得ることに留意されたい。センサーアレイ520に対する特定の音ソースロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、センサーアレイ520のATFは、オーディオシステム500の各ユーザのために個人化される。
いくつかの実施形態では、伝達関数モジュール550は、オーディオシステム500のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定のソースロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、人の各耳に固有である(および人に固有である)。いくつかの実施形態では、伝達関数モジュール550は、較正モジュール590に関して以下で説明されるような、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数モジュール550は、ユーザに関する情報をリモートシステム(たとえば、オーディオシステム210)に提供し得る。ユーザは、伝達関数モジュール550がユーザに関する情報をリモートシステムに提供するのを可能にするかまたは防ぐように、プライバシー設定を調整し得る。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットをオーディオシステム500に提供する。
追跡モジュール560は、1つまたは複数の音ソースのロケーションを追跡するように構成される。追跡モジュール560は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム200は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュールは、現在のDOA推定値を前のDOA推定値と比較し得、音ソースについてのDOA推定値の変化に応答して、追跡モジュール560は、音ソースが移動したと決定し得る。いくつかの実施形態では、追跡モジュール260は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール560は、経時的に1つまたは複数の音ソースの移動を追跡し得る。追跡モジュール560は、各時点において音ソースの数と各音ソースのロケーションとについての値を記憶し得る。音ソースの数またはロケーションの値の変化に応答して、追跡モジュール560は、音ソースが移動したと決定し得る。追跡モジュール560は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。
ビームフォーミングモジュール570は、あるエリア内の音ソースからの音を選択的に強調するが、他のエリアからの音を強調しないように、1つまたは複数のATFを処理するように構成される。センサーアレイ520によって検出された音を分析する際に、ビームフォーミングモジュール570は、ローカルエリアの特定の領域からの関連付けられた音を強調するが、領域の外側からのものである音を強調しないために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール570は、たとえば、DOA推定モジュール540および追跡モジュール560からの異なるDOA推定値に基づいて、ローカルエリアにおける他の音ソースから、特定の音ソースからの音に関連付けられたオーディオ信号を分離し得る。したがって、ビームフォーミングモジュール570は、ローカルエリアにおける個別の音ソースを選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール570は、音ソースからの信号を拡張し得る。たとえば、ビームフォーミングモジュール570は、いくつかの周波数を上回る信号、それらを下回る信号、またはそれらの間の信号を除去する、音フィルタを適用し得る。信号拡張は、センサーアレイ520によって検出された他の音に対して所与の識別された音ソースに関連付けられた音を拡張するように働く。
音フィルタモジュール580は、トランスデューサアレイ510のための音フィルタを決定する。いくつかの実施形態では、音フィルタは、オーディオコンテンツがターゲット領域から発生するように思われるように、オーディオコンテンツが空間化されることを引き起こす。音フィルタモジュール580は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは、ローカルエリアの音響プロパティを表す。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール580は、音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール280は、(たとえば、図7に関して以下で説明されるように)オーディオサーバに音響パラメータを要求する。
音フィルタモジュール580は、トランスデューサアレイ510に音フィルタを提供する。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を引き起こし得る。
較正モジュール590は、ユーザに対するオーディオシステム500を較正する。いくつかの実施形態では、較正モジュール590は、トランスデューサアレイ510の1つまたは複数のトランスデューサ(たとえば、軟骨伝導)を、ユーザの一方または両方の耳殻上の対応するテスト位置に配置するようにユーザに促す。たとえば、較正モジュール590は、オーディオシステム500の構成要素(たとえば、スピーカー)を使用して、トランスデューサをどこに配置すべきかをユーザに命令するボイスコマンド(たとえば、「あなたの耳の上部にトランスデューサを置いてください」)を発し得る。テスト位置の各々において、較正モジュール590は、1つまたは複数のトランスデューサに、1つまたは複数のテスト音を提示するように命令する。較正モジュール590は、ユーザの耳道への入口に置かれた音響センサー(センサーアレイ520の一部)から、対応するオーディオ信号のセットを受信する。較正モジュール590は、次いで、トランスデューサを異なるテスト位置(たとえば、耳珠、耳の下部など)に移動するようにユーザに促す。較正モジュール590は、トランスデューサに、新しいテスト位置において1つまたは複数のテスト音を発するように命令し、対応するオーディオ信号が、耳道への入口において音響センサーから受信され、次いで、そのプロセスは繰り返す。このようにして、較正モジュール590は、複数のテスト位置の各テスト位置についてのテスト情報(すなわち、1つまたは複数のオーディオ信号および1つまたは複数の対応するテスト音)を収集する。較正モジュール590は、統計的に有意なデータサンプルを収集するために、各テスト音を一定の回数(たとえば、各々5回)提示することなど、あるデータ収集基準に基づいて、各テスト音を提示し得る。いくつかの実施形態では、較正モジュール590は、テスト情報をオーディオサーバ280に提供する。較正モジュール590は、次いで、オーディオサーバ280から、ユーザからの1つまたは複数のHRTFを表す情報を受信する。代替的に、オーディオサーバ280のいくつかのプロセスは、較正モジュール590によってローカルに実施され得る。たとえば、いくつかの実施形態では、較正モジュール590は、1つまたは複数のモデル(たとえば、HRTFモデル)と、テスト情報とを使用して、ユーザのためのHRTFを決定し得る。
HRTFを決定するための方法
図6Aは、1つまたは複数の実施形態による、ユーザのためのテスト情報を使用して、HRTFを決定するためのプロセス600を示すフローチャートである。図6Aに示されているプロセス600は、オーディオサーバ(たとえば、オーディオサーバ300)の構成要素によって実施され得る。他のエンティティが、他の実施形態において図6A中のステップの一部または全部を実施し得る。実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
オーディオサーバ300は、610において、テスト音とオーディオ信号とを含む、オーディオシステムのユーザのためのテスト情報を受信する。テスト情報は、軟骨伝導トランスデューサを使用してテスト音を提示することと、応答して、マイクロフォンを介してユーザの耳道への入口においてオーディオ信号を受信することとによって、オーディオシステム(たとえば、オーディオシステム500)によって収集されていることがある。たとえば、オーディオシステム500は、テスト音およびオーディオ信号の組合せを収集し、その組合せをオーディオサーバ300に提供し得る。
オーディオサーバ300は、620において、受信されたテスト情報と、オーディオ信号およびテスト音の組合せを対応するHRTFにマッピングする機械学習モデルとを使用して、ユーザのためのHRTFを決定する。たとえば、オーディオサーバ300は、テスト音およびオーディオ信号の組合せをHRTFモデルに適用して、その組合せに対応するHRTFを決定し得る。他の実施形態では、オーディオサーバ300は、テスト音およびオーディオ信号の組合せをジオメトリモデルに適用して、ユーザの耳殻のジオメトリを決定する。オーディオサーバ300は、次いで、耳殻の決定されたジオメトリに基づいて、ユーザのその耳のためのHRTFをシミュレートし得る。
オーディオサーバ300は、630において、HRTFをオーディオシステムに提供する。たとえば、オーディオサーバ300は、HRTFをオーディオシステム500に提供し得る。オーディオシステムは、空間化オーディオをユーザに提示するために、提供されたHRTFを使用し得る。
図6Bは、1つまたは複数の実施形態による、ユーザのためのテスト情報を使用して、ユーザの耳殻を表す幾何学的情報を決定するためのプロセス650を示すフローチャートである。図6Bに示されているプロセス650は、オーディオサーバ(たとえば、オーディオサーバ300)の構成要素によって実施され得る。他のエンティティが、他の実施形態において図6B中のステップの一部または全部を実施し得る。実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
オーディオサーバ300は、660において、テスト音とオーディオ信号とを含む、オーディオシステムのユーザのためのテスト情報を受信する。プロセス600に関して上記で説明されたように、テスト情報は、軟骨伝導トランスデューサを使用してテスト音を提示することと、応答して、マイクロフォンを介してユーザの耳道への入口においてオーディオ信号を受信することとによって、オーディオシステム(たとえば、オーディオシステム500)によって収集されていることがある。
オーディオサーバ300は、670において、受信されたテスト情報と、オーディオ信号およびテスト音の組合せを対応する幾何学的情報にマッピングする機械学習モデルとを使用して、ユーザの耳殻を表す幾何学的情報を決定する。たとえば、オーディオサーバ300は、テスト音およびオーディオ信号の組合せを、トレーニングされた耳殻ジオメトリモデルに適用して、その組合せに対応する幾何学的情報を決定し得る。
オーディオサーバ300は、680において、幾何学的情報をオーディオシステムに提供する。たとえば、オーディオサーバ300は、耳殻ジオメトリをオーディオシステム500に提供し得る。オーディオシステムは、ユーザのためのHRTFを決定するために、提供された幾何学的情報を使用し得る。同じまたは異なる実施形態では、オーディオサーバは、幾何学的情報を使用して、ユーザのための1つまたは複数のHRTFを決定し、さらに、1つまたは複数のHRTFをオーディオシステムに提供し得る。
図7は、1つまたは複数の実施形態による、ヘッドセット705を含むシステム700である。いくつかの実施形態では、ヘッドセット705は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム700は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)において動作し得る。図7によって示されているシステム700は、ヘッドセット705と、コンソール715に結合された入出力(I/O)インターフェース710と、ネットワーク720と、オーディオサーバ725とを含む。図7は、1つのヘッドセット705と1つのI/Oインターフェース710とを含む例示的なシステム700を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム700中に含まれ得る。たとえば、各々が、関連付けられたI/Oインターフェース710を有する、複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース710はコンソール715と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム700中に含まれ得る。さらに、図7に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図7に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール715の機能性の一部または全部がヘッドセット705によって提供され得る。
ヘッドセット705は、ディスプレイアセンブリ730と、光学ブロック735と、1つまたは複数の位置センサー740と、DCA745とを含む。ヘッドセット705のいくつかの実施形態は、図7に関して説明されるものとは異なる構成要素を有する。さらに、図7に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット705の構成要素の間で別様に分散されるか、またはヘッドセット705からリモートにある別個のアセンブリにおいて取り込まれ得る。
ディスプレイアセンブリ730は、コンソール715から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ730は、1つまたは複数のディスプレイ要素(たとえば、ディスプレイ要素120)を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ730は、単一のディスプレイ要素または複数のディスプレイ要素(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素120は光学ブロック735の機能性の一部または全部をも含み得ることに留意されたい。
光学ブロック735は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連付けられた光学誤差を補正し、補正された画像光をヘッドセット705の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック735は、1つまたは複数の光学要素を含む。光学ブロック735中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック735は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック735中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック735による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。
いくつかの実施形態では、光学ブロック735は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック735が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック735はそのひずみを補正する。
位置センサー740は、ヘッドセット705の位置を示すデータを生成する電子デバイスである。位置センサー740は、ヘッドセット705の運動に応答して1つまたは複数の測定信号を生成する。位置センサー190は、位置センサー740の一実施形態である。位置センサー740の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー740は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット705の推定された位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット705上の基準点の推定された位置を決定する。基準点は、ヘッドセット705の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット705内の点として定義される。
DCA745は、ローカルエリアの一部分についての深度情報を生成する。DCAは、1つまたは複数のイメージングデバイスとDCAコントローラとを含む。DCA745は照明器をも含み得る。DCA745の動作および構造は、図1Aに関して上記で説明された。
オーディオシステム750は、ヘッドセット705のユーザにオーディオコンテンツを提供する。オーディオシステム750は、上記で説明されたオーディオシステム500と実質的に同じである。オーディオシステム750は、1つまたは複数の音響センサーと、1つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。オーディオシステム750は、1つまたは複数の音響センサーとトランスデューサとを使用して、ユーザのためのテスト情報を収集し得る。オーディオシステム750は、収集されたテスト情報をオーディオサーバ725に送信し得、オーディオサーバ725からユーザのためのHRTFを受信し得る。代替的に、オーディオシステム725は、オーディオサーバ725から受信されたトレーニングされたHRTFモデルを使用することによってなど、HRTFをローカルに決定するために、収集されたテスト情報を使用し得る。オーディオシステム750は、(たとえば、ユーザのためのHRTFを使用して)空間化オーディオコンテンツをユーザに提供し得る。いくつかの実施形態では、オーディオシステム750は、ネットワーク720を介してオーディオサーバ725に音響パラメータを要求し得る。音響パラメータは、ローカルエリアの1つまたは複数の音響プロパティ(たとえば、室内インパルス応答、残響時間、残響レベルなど)を表す。オーディオシステム750は、たとえば、DCA745からのローカルエリアの少なくとも一部分を表す情報、および/または位置センサー740からのヘッドセット705についてのロケーション情報を提供し得る。オーディオシステム750は、オーディオサーバ725から受信された音響パラメータのうちの1つまたは複数を使用して、1つまたは複数の音フィルタを生成し、音フィルタを使用して、ユーザにオーディオコンテンツを提供し得る。
I/Oインターフェース710は、ユーザがアクション要求を送り、コンソール715から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース710は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール715に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース710によって受信されたアクション要求は、コンソール715に通信され、コンソール715は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース710は、I/Oインターフェース710の初期位置に対するI/Oインターフェース710の推定された位置を示す較正データをキャプチャするIMUを含む。いくつかの実施形態では、I/Oインターフェース710は、コンソール715から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール715がアクションを実施するときに、コンソール715が、I/Oインターフェース710に命令を通信して、I/Oインターフェース710が触覚フィードバックを生成することを引き起こす。
コンソール715は、DCA745とヘッドセット705とI/Oインターフェース710とのうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット705に提供する。図7に示されている例では、コンソール715は、アプリケーションストア755と、追跡モジュール760と、エンジン765とを含む。コンソール715のいくつかの実施形態は、図7に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図7に関して説明されるものとは異なる様式でコンソール715の構成要素の間で分散され得る。いくつかの実施形態では、コンソール715に関して本明細書で説明される機能性は、ヘッドセット705、またはリモートシステムにおいて実装され得る。
アプリケーションストア755は、コンソール715が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット705またはI/Oインターフェース710の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
追跡モジュール760は、DCA745からの情報、1つまたは複数の位置センサー740からの情報、またはそれらの何らかの組合せを使用して、ヘッドセット705またはI/Oインターフェース710の移動を追跡する。たとえば、追跡モジュール760は、ヘッドセット705からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット705の基準点の位置を決定する。追跡モジュール760は、オブジェクトまたは仮想オブジェクトの位置をも決定し得る。さらに、いくつかの実施形態では、追跡モジュール760は、ヘッドセット705の将来のロケーションを予測するために、位置センサー740からのヘッドセット705の位置を示すデータの部分ならびにDCA745からのローカルエリアの表現を使用し得る。追跡モジュール760は、ヘッドセット705またはI/Oインターフェース710の推定または予測された将来の位置をエンジン765に提供する。
エンジン765は、アプリケーションを実行し、追跡モジュール760から、ヘッドセット705の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン765は、ユーザへの提示のためにヘッドセット705に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン765は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット705のためのコンテンツを生成する。さらに、エンジン765は、I/Oインターフェース710から受信されたアクション要求に応答して、コンソール715上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット705を介した視覚または可聴フィードバック、あるいはI/Oインターフェース710を介した触覚フィードバックであり得る。
ネットワーク720は、ヘッドセット705および/またはコンソール715をオーディオサーバ725に結合する。ネットワーク720は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク720は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク720は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク720は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク720上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク720を介して交換されるデータは、2進形式(たとえば、ポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。
オーディオサーバ725は、ヘッドセット705とコンソール715とI/Oインターフェース710とのうちの1つまたは複数から受信された情報に従って処理するための情報をヘッドセット705に提供する。オーディオサーバ725は、上記で説明されたオーディオサーバ300と実質的に同じである。オーディオサーバ725は、ヘッドセット705のユーザのためのHRTFを決定するために、ヘッドセット705から受信されたテスト情報を処理する。オーディオサーバ725は、決定されたHRTFをヘッドセット705に提供し得る。いくつかの実施形態では、オーディオサーバ705は、ユーザの耳殻のジオメトリを表す、ヘッドセット705のユーザのための幾何学的情報を決定し得る。オーディオサーバ725は、決定された幾何学的情報を処理して、ユーザのためのHRTFを決定し得、および/または幾何学的情報をヘッドセット705に提供し得る。
オーディオサーバ725は、複数の空間を表す仮想モデルを記憶するデータベースを含み得、仮想モデル中の1つのロケーションが、ヘッドセット705のローカルエリアの現在の構成に対応する。オーディオサーバ725は、ヘッドセット705からネットワーク720を介して、ローカルエリアおよび/またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。ユーザは、ヘッドセット705が情報をオーディオサーバ725に送信するのを可能にするかまたは防ぐように、プライバシー設定を調整し得る。オーディオサーバ725は、受信された情報および/またはロケーション情報に基づいて、ヘッドセット705のローカルエリアに関連付けられた仮想モデル中のロケーションを決定する。オーディオサーバ725は、仮想モデル中の決定されたロケーションおよび決定されたロケーションに関連付けられた任意の音響パラメータに部分的に基づいて、ローカルエリアに関連付けられた1つまたは複数の音響パラメータを決定する(たとえば、取り出す)。オーディオサーバ725は、ローカルエリアのロケーションおよびローカルエリアに関連付けられた音響パラメータの任意の値をヘッドセット705に送信し得る。
システム700の1つまたは複数の構成要素は、ユーザデータ要素についての1つまたは複数のプライバシー設定を記憶するプライバシーモジュールを含んでいることがある。ユーザデータ要素は、ユーザまたはヘッドセット705を表す。たとえば、ユーザデータ要素は、ユーザの身体的特性、ユーザによって実施されるアクション、ヘッドセット705のユーザのロケーション、ヘッドセット705のロケーション、ユーザのためのHRTFなどを表し得る。ユーザデータ要素についてのプライバシー設定(または「アクセス設定」)は、たとえば、ユーザデータ要素に関連して、許可サーバ上のインデックス中で、別の好適な様式で、またはそれらの任意の好適な組合せなど、任意の好適な様式で記憶され得る。
ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素(またはユーザデータ要素に関連付けられた特定の情報)がどのようにアクセスされ、記憶され、または場合によっては使用され(たとえば、観察、共有、修正、コピー、実行、表面化、または識別され)得るかを指定する。いくつかの実施形態では、ユーザデータ要素についてのプライバシー設定は、ユーザデータ要素に関連付けられたある情報にアクセスしてはいけないエンティティの「ブロックリスト(blocked list)」を指定し得る。ユーザデータ要素に関連付けられたプライバシー設定は、許諾されるアクセスまたはアクセスの拒否の任意の好適なグラニュラリティを指定し得る。たとえば、一部のエンティティは、特定のユーザデータ要素が存在することを確かめるための許諾を有し得、一部のエンティティは、特定のユーザデータ要素のコンテンツを観察するための許諾を有し得、一部のエンティティは、特定のユーザデータ要素を修正するための許諾を有し得る。プライバシー設定は、他のエンティティが、有限時間期間の間、ユーザデータ要素にアクセスするかまたはユーザデータ要素を記憶することを可能にすることを、ユーザが可能にし得る。
プライバシー設定は、ユーザデータ要素がアクセスされ得る1つまたは複数の地理的ロケーションを、ユーザが指定することを可能にし得る。ユーザデータ要素へのアクセスまたはアクセスの拒否は、ユーザデータ要素にアクセスすることを試みているエンティティの地理的ロケーションに依存し得る。たとえば、ユーザは、ユーザデータ要素へのアクセスを可能にし、ユーザが特定のロケーションにいる間のみ、ユーザデータ要素がエンティティにとってアクセス可能であることを指定し得る。ユーザが特定のロケーションを離れた場合、ユーザデータ要素はエンティティにとって、もはやアクセス可能でないことがある。別の例として、ユーザは、ユーザデータ要素が、ユーザと同じローカルエリア内のヘッドセットの別のユーザなど、ユーザからしきい値距離内のエンティティのみにとってアクセス可能であることを指定し得る。その後、ユーザがロケーションを変更した場合、ユーザデータ要素へのアクセスをもつエンティティはアクセスを失い得るが、エンティティの新しいグループが、ユーザのしきい値距離内に自身が入るので、アクセスを獲得し得る。
システム700は、プライバシー設定を施行するための1つまたは複数の許可/プライバシーサーバを含み得る。特定のユーザデータ要素についてのエンティティからの要求が、要求に関連付けられたエンティティを識別し得、ユーザデータ要素は、ユーザデータ要素に関連付けられたプライバシー設定に基づいてエンティティがユーザデータ要素にアクセスすることを許可されると許可サーバが決定した場合、そのエンティティのみに送られ得る。要求元エンティティがユーザデータ要素にアクセスすることを許可されない場合、許可サーバは、要求されたユーザデータ要素が取り出されるのを防ぎ得るか、または要求されたユーザデータ要素がエンティティに送られるのを防ぎ得る。本開示は、特定の様式でプライバシー設定を施行することについて説明するが、本開示は、任意の好適な様式でプライバシー設定を施行することを企図する。
追加の構成情報
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して、多くの修正および変形が可能であることを諒解することができる。
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、計算量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるいずれかまたはすべてのステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。
実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された計算能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
実施形態はまた、本明細書で説明されるコンピューティングプロセスによって作り出される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。
Claims (15)
- オーディオシステムからテスト情報を受信することであって、前記テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、前記オーディオ信号は、前記ユーザの耳殻に結合された軟骨伝導トランスデューサが前記ユーザに前記テスト音を提示したことに応答した、前記ユーザの耳道への入口における音に対応する、テスト情報を受信することと、
前記テスト情報と、オーディオ信号およびテスト音の組合せを、対応する頭部伝達関数(HRTF)にマッピングするモデルとを使用して、前記ユーザのためのHRTFを決定することと、
前記HRTFを表す情報を前記オーディオシステムに提供することと
を含む、方法。 - 前記オーディオシステムは、前記軟骨伝導トランスデューサが前記ユーザの耳殻上のテスト位置において前記テスト音を提示したことに応答して、前記オーディオ信号をキャプチャする、請求項1に記載の方法。
- 前記方法は、
前記軟骨伝導トランスデューサを前記耳殻上の複数のテスト位置に移動するように前記ユーザに促すための命令を生成することであって、各テスト位置において、前記オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、
前記命令を前記オーディオシステムに提供することと
をさらに含む、請求項1に記載の方法。 - 各テスト位置において、前記オーディオシステムが複数のテスト音を提示し、各テスト音が同じである、請求項3に記載の方法。
- 各テスト位置において、前記オーディオシステムが複数のテスト音を提示し、前記複数のテスト音のうちの少なくとも1つが、前記複数のテスト音のうちの別のものとは異なる、請求項3に記載の方法。
- 前記テスト情報は、前記軟骨伝導トランスデューサが前記テスト音を提示した前記ユーザの前記耳殻上の特定のテスト位置に関連付けられ、前記モデルが、前記軟骨伝導トランスデューサの様々なテスト位置について、前記オーディオ信号と前記テスト音との組合せを、前記対応するHRTFにマッピングする、請求項1に記載の方法。
- オーディオシステムからテスト情報を受信することであって、前記テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、前記オーディオ信号は、前記ユーザの耳殻に結合された軟骨伝導トランスデューサが前記ユーザに前記テスト音を提示したことに応答した、前記ユーザの耳道への入口における音に対応する、テスト情報を受信することと、
前記テスト情報と、オーディオ信号およびテスト音の組合せを、前記ユーザの前記耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、前記ユーザの耳殻を表す幾何学的情報を決定することと、
前記幾何学的情報を前記オーディオシステムに提供することと
を含む、方法。 - 前記オーディオシステムは、前記軟骨伝導トランスデューサが前記ユーザの前記耳殻上のテスト位置において前記テスト音を提示したことに応答して、前記オーディオ信号をキャプチャする、請求項7に記載の方法。
- 前記方法は、
前記軟骨伝導トランスデューサを前記耳殻上の複数のテスト位置に移動するように前記ユーザに促すための命令を生成することであって、各テスト位置において、前記オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、
前記命令を前記オーディオシステムに提供することと
をさらに含む、請求項7に記載の方法。 - 各テスト位置において、前記オーディオシステムが複数のテスト音を提示し、各テスト音が同じである、請求項9に記載の方法。
- 各テスト位置において、前記オーディオシステムが複数のテスト音を提示し、前記複数のテスト音のうちの少なくとも1つが、前記複数のテスト音のうちの別のものとは異なる、請求項9に記載の方法。
- 前記テスト情報は、前記軟骨伝導トランスデューサが前記テスト音を提示した前記ユーザの耳殻上の特定のテスト位置に関連付けられ、前記モデルが、前記軟骨伝導トランスデューサの様々なテスト位置について、前記オーディオ信号と前記テスト音との組合せを、対応する幾何学的情報にマッピングする、請求項1に記載の方法。
- a)前記幾何学的情報を使用して、前記ユーザのための頭部伝達関数(HRTF)を決定することと、
前記HRTFを表す情報を前記オーディオシステムに提供することであって、その場合、随意に、前記HRTFを決定することが、
前記HRTFを決定するために、前記幾何学的情報を使用するシミュレーションを実施すること
を含む、前記HRTFを表す情報を前記オーディオシステムに提供することと
をさらに含む、または、
b)前記幾何学的情報を使用して、ウェアラブルデバイスを表す設計ファイルを生成することであって、前記設計ファイルが前記ウェアラブルデバイスの作製において使用され、前記ウェアラブルデバイスが、前記ユーザの前記耳殻にフィットするようにカスタマイズされる、設計ファイルを生成すること
をさらに含む、
のうちのいずれか1つである、請求項7に記載の方法。 - オーディオシステムからテスト情報を受信することであって、前記テスト情報が、ユーザのためのオーディオ信号およびテスト音を表し、前記オーディオ信号は、前記ユーザの耳殻に結合された軟骨伝導トランスデューサが前記ユーザに前記テスト音を提示したことに応答した、前記ユーザの耳道への入口における音に対応する、テスト情報を受信することと、
前記テスト情報と、オーディオ信号およびテスト音の組合せを、前記ユーザの前記耳殻を表す対応する幾何学的情報にマッピングするモデルとを使用して、前記ユーザの前記耳殻を表す幾何学的情報を決定することと、
前記幾何学的情報を使用して、前記ユーザのための頭部伝達関数(HRTF)を決定することと、
前記HRTFを表す情報を前記オーディオシステムに提供することと
を含む、方法。 - a)前記オーディオシステムは、前記軟骨伝導トランスデューサが前記ユーザの前記耳殻上のテスト位置において前記テスト音を提示したことに応答して、前記オーディオ信号をキャプチャする、または、
b)前記軟骨伝導トランスデューサを前記耳殻上の複数のテスト位置に移動するように前記ユーザに促すための命令を生成することであって、各テスト位置において、前記オーディオシステムが、1つまたは複数のそれぞれのテスト音を提示し、1つまたは複数の対応するオーディオ信号をキャプチャする、命令を生成することと、
前記命令を前記オーディオシステムに提供することと
をさらに含む、または、
c)前記HRTFを決定することが、
前記HRTFを決定するために、前記幾何学的情報を使用するシミュレーションを実施することを含む、または、
d)前記HRTFを決定することが、
前記耳殻の前記幾何学的情報と、耳殻の幾何学的情報を、対応するHRTFにマッピングするモデルとを使用して、前記ユーザのための前記HRTFを決定することを含む、
のうちのいずれか1つである、請求項14に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/837,940 US10966043B1 (en) | 2020-04-01 | 2020-04-01 | Head-related transfer function determination using cartilage conduction |
US16/837,940 | 2020-04-01 | ||
PCT/US2021/021289 WO2021202057A1 (en) | 2020-04-01 | 2021-03-08 | Head-related transfer function determination using cartilage conduction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023519487A true JP2023519487A (ja) | 2023-05-11 |
Family
ID=75164447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022548632A Pending JP2023519487A (ja) | 2020-04-01 | 2021-03-08 | 軟骨伝導を使用した頭部伝達関数決定 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10966043B1 (ja) |
EP (1) | EP4128819A1 (ja) |
JP (1) | JP2023519487A (ja) |
KR (1) | KR20220162694A (ja) |
CN (1) | CN115280798A (ja) |
WO (1) | WO2021202057A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2609014A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Inc | Audio personalisation method and system |
WO2024186981A1 (en) * | 2023-03-07 | 2024-09-12 | Meta Platforms Technologies, Llc | Hrtf determination using a headset and in-ear devices |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130342806A1 (en) * | 2012-06-22 | 2013-12-26 | Rhishikesh Ashok Sathe | Piezo beam device |
KR20180061399A (ko) * | 2012-06-29 | 2018-06-07 | 로무 가부시키가이샤 | 스테레오 이어폰 |
US9462374B2 (en) * | 2012-10-24 | 2016-10-04 | Kyocera Corporation | Vibration pickup device, vibration measurement device, measurement system, and measurement method |
JP6492331B2 (ja) | 2014-03-19 | 2019-04-03 | ソニー株式会社 | 音響出力装置 |
CN107113481B (zh) * | 2014-12-18 | 2019-06-28 | 株式会社精好 | 利用电磁型振动单元的软骨传导接听装置及电磁型振动单元 |
US10602258B2 (en) | 2018-05-30 | 2020-03-24 | Facebook Technologies, Llc | Manufacturing a cartilage conduction audio device |
US10743128B1 (en) * | 2019-06-10 | 2020-08-11 | Genelec Oy | System and method for generating head-related transfer function |
-
2020
- 2020-04-01 US US16/837,940 patent/US10966043B1/en active Active
-
2021
- 2021-02-19 US US17/180,466 patent/US11445318B2/en active Active
- 2021-03-08 EP EP21715070.5A patent/EP4128819A1/en active Pending
- 2021-03-08 JP JP2022548632A patent/JP2023519487A/ja active Pending
- 2021-03-08 WO PCT/US2021/021289 patent/WO2021202057A1/en unknown
- 2021-03-08 KR KR1020227031249A patent/KR20220162694A/ko active Search and Examination
- 2021-03-08 CN CN202180021939.4A patent/CN115280798A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115280798A (zh) | 2022-11-01 |
US10966043B1 (en) | 2021-03-30 |
WO2021202057A1 (en) | 2021-10-07 |
KR20220162694A (ko) | 2022-12-08 |
US20210314720A1 (en) | 2021-10-07 |
EP4128819A1 (en) | 2023-02-08 |
US11445318B2 (en) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10880668B1 (en) | Scaling of virtual audio content using reverberent energy | |
US11638110B1 (en) | Determination of composite acoustic parameter value for presentation of audio content | |
US11622223B2 (en) | Dynamic customization of head related transfer functions for presentation of audio content | |
JP2022546161A (ja) | 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること | |
CN114270879A (zh) | 使用用户耳朵的3d重建对音频输出进行个性化均衡 | |
JP2022548462A (ja) | オーディオ個人化のための空間ロケーションを選択すること | |
JP2022550235A (ja) | 組織トランスデューサのための調整機構 | |
JP2022546176A (ja) | ユーザの耳の識別された特徴を使用した音声出力の個人化された等化 | |
JP2022542755A (ja) | センサーアレイの音響センサーのサブセットを選択するための方法およびそのためのシステム | |
US11445318B2 (en) | Head-related transfer function determination using cartilage conduction | |
KR20230041755A (ko) | 외이의 변위에 기초한 가상 마이크 교정 | |
US11012804B1 (en) | Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation | |
US12003949B2 (en) | Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device | |
US11678103B2 (en) | Audio system with tissue transducer driven by air conduction transducer | |
US11598962B1 (en) | Estimation of acoustic parameters for audio system based on stored information about acoustic model | |
US20240305942A1 (en) | Spatial audio capture using pairs of symmetrically positioned acoustic sensors on a headset frame | |
US20220322028A1 (en) | Head-related transfer function determination using reflected ultrasonic signal | |
TW202348043A (zh) | 用於緩和風切聲之麥克風埠口架構 | |
CN118714486A (zh) | 使用遥感为开耳式头戴式设备进行主动降噪 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231215 |