JP2022521886A - サウンドシーン分析とビームフォーミングとを使用する音響伝達関数のパーソナライゼーション - Google Patents
サウンドシーン分析とビームフォーミングとを使用する音響伝達関数のパーソナライゼーション Download PDFInfo
- Publication number
- JP2022521886A JP2022521886A JP2021540813A JP2021540813A JP2022521886A JP 2022521886 A JP2022521886 A JP 2022521886A JP 2021540813 A JP2021540813 A JP 2021540813A JP 2021540813 A JP2021540813 A JP 2021540813A JP 2022521886 A JP2022521886 A JP 2022521886A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- wearable device
- transfer function
- sound source
- acoustic transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 142
- 230000006870 function Effects 0.000 title abstract description 132
- 238000004458 analytical method Methods 0.000 title description 12
- 230000033001 locomotion Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 26
- 230000009471 action Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 16
- 238000005259 measurement Methods 0.000 description 15
- 238000005457 optimization Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 210000003128 head Anatomy 0.000 description 10
- 238000003384 imaging method Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 210000003484 anatomy Anatomy 0.000 description 5
- 230000004438 eyesight Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 102000005869 Activating Transcription Factors Human genes 0.000 description 3
- 108010005254 Activating Transcription Factors Proteins 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000000576 coating method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/002—Damping circuit arrangements for transducers, e.g. motional feedback circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3023—Estimation of noise, e.g. on error signals
- G10K2210/30232—Transfer functions, e.g. impulse response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Abstract
ウェアラブルデバイスのためのオーディオシステムが、音響伝達関数を動的に更新する。オーディオシステムは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向(DoA)を推定するように構成されている。オーディオシステムは、それぞれの音源の移動を追跡することが可能である。オーディオシステムは、それぞれの音源の方向においてビームを形成することが可能である。オーディオシステムは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。DoAの推定、移動の追跡、およびビームフォーミングに基づいて、オーディオシステムは、音源に関する音響伝達関数を生成または更新する。【選択図】図4
Description
関連出願に対する相互参照
本出願は、2019年4月9日に出願された米国特許出願第16/379,450号からの優先権を主張するものであり、その内容の全体は、すべての目的のために参照により本明細書に組み込まれている。
本出願は、2019年4月9日に出願された米国特許出願第16/379,450号からの優先権を主張するものであり、その内容の全体は、すべての目的のために参照により本明細書に組み込まれている。
本開示は、全般的にはサウンドシーン分析に関し、詳細には、システムフィードバックを使用してサウンドシーン分析を改善することに関する。
2つの耳において知覚される音は、それぞれの耳に対する音源の方向および場所に、ならびにその音が知覚される部屋の環境に応じて、異なることがある。人間は、それぞれの耳において知覚される音を比較することによって、音源の場所を特定することが可能である。「サラウンドサウンド」システムにおいては、複数のスピーカーが、音響伝達関数を使用して音の方向性を再現する。音響伝達関数は、音源場所における音と、どのようにしてその音が検知されているか、たとえばマイクロフォンアレイによってか、または人によってかとの間における関係を表す。単一のマイクロフォンアレイ(またはマイクロフォンアレイを装着している人)は、そのマイクロフォンアレイを取り巻く(またはそのマイクロフォンアレイを装着している人を取り巻く)ローカルエリアにおけるいくつかの異なる音源場所に関するいくつかの関連付けられている音響伝達関数を有する場合がある。加えて、マイクロフォンアレイのための音響伝達関数は、ローカルエリアにおけるマイクロフォンアレイの位置および/または向きに基づいて異なる場合がある。さらに、マイクロフォンアレイの音響センサは、多くの可能な組合せで配置されることが可能であり、したがって、関連付けられている音響伝達関数は、そのマイクロフォンアレイに固有のものである。結果として、それぞれのマイクロフォンアレイのための音響伝達関数を特定することは、直接の評価を必要とすることがあり、これは、必要とされる時間およびリソースの点で長ったらしい高価なプロセスであることがある。
ウェアラブルデバイスのためのオーディオシステムが、音響伝達関数を動的に更新する。オーディオシステムは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向(DoA)を推定するように構成されている。オーディオシステムは、それぞれの音源の移動を追跡することが可能である。オーディオシステムは、それぞれの音源からの信号を分離することが可能である。オーディオシステムは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。DoAの推定、移動の追跡、および信号の分離に基づいて、オーディオシステムは、音源に関する音響伝達関数を生成または更新する。
音響伝達関数を動的に更新するためのシステム、方法、および製品が開示され、添付の特許請求の範囲において特許請求されている。
いくつかの実施形態においては、列挙されているコンポーネントは、ウェアラブルデバイスのマイクロフォンアレイを介して、ウェアラブルデバイスのローカルエリアにおける1つまたは複数の音源からの音を検知することと、それらの音に関連付けられている音響伝達関数を推定することと、1つまたは複数の音源のうちの1つの音源の到来方向(DoA)を推定することと、音源の移動を追跡することと、音源の移動に基づいて音響伝達関数を更新することとを含むアクションを実行することが可能である。
さまざまな実施形態においては、音源は、分類ライブラリに基づいて分類されることが可能である。
音源からの信号は、ウェアラブルデバイスのローカルエリアにおけるその他の音源から分離されることが可能である。
追跡することに関する第1の信頼水準、分類することに関する第2の信頼水準、およびビームフォーミングプロセスに関する第3の信頼水準が計算されることが可能である。
音響伝達関数は、第1の信頼水準、第2の信頼水準、または第3の信頼水準のうちの少なくとも1つに基づいて更新されることが可能である。
追跡することは、経時的に、1つまたは複数の音源の数および場所についての値を格納することと、数または場所のうちの少なくとも1つにおける変化を検知することとを含むことが可能である。
このシステムは、更新された音響伝達関数に基づいてサウンドフィルタを更新することが可能である。
このシステムは、更新されたサウンドフィルタに基づいてオーディオコンテンツを提示することが可能である。
これらの図は、例示という目的のためにのみ本発明のさまざまな実施形態を示している。本明細書において記述されている本発明の原理から逸脱することなく、本明細書において示されている構造および方法の代替実施形態が採用されることが可能であるということを当業者なら以降の論考から容易に認識するであろう。
ウェアラブルデバイスは、パーソナライズされた音響伝達関数を特定することが可能である。特定された音響伝達関数は次いで、サウンドシーンを分析するために、または人のためのサラウンドサウンド体験を生成するためになど、多くの目的のために使用されることが可能である。精度を改善するために、ウェアラブルデバイスにおけるそれぞれのスピーカーの場所(すなわち、それぞれのスピーカーが複数の個別の音を生成している)に関して複数の音響伝達関数が特定されることが可能である。
ウェアラブルデバイスにおけるオーディオシステムは、音源を検知してユーザのための1つまたは複数の音響伝達関数を生成する。一実施形態においては、オーディオシステムは、複数の音響センサとコントローラとを含むマイクロフォンアレイを含む。それぞれの音響センサは、マイクロフォンアレイを取り巻くローカルエリア内の音を検知するように構成されている。複数の音響センサのうちの少なくともいくつかは、ユーザによって装着されるように構成されているニアアイディスプレイ(NED)など、ウェアラブルデバイスに結合されている。
コントローラは、ローカルエリア内のウェアラブルデバイスの位置に対して、マイクロフォンアレイによって検知されたそれぞれの音源の到来方向(DoA)を推定するように構成されている。コントローラは、それぞれの音源の移動を追跡することが可能である。コントローラは、それぞれの音源に関するビームを形成することが可能である。コントローラは、それぞれの音源を音源の特性に基づいて識別および分類することが可能である。DoAの推定、移動の追跡、およびビームフォーミングに基づいて、コントローラは、音源に関する音響伝達関数を生成または更新する。
音響伝達関数は、音が空間におけるある点からどのようにして受信されているかを特徴付ける。具体的には、音響伝達関数は、音源場所における音のパラメータと、その音が、たとえば、マイクロフォンアレイまたはユーザの耳によって検知される際のパラメータとの間における関係を定義する。音響伝達関数は、たとえば、アレイ伝達関数(ATF)および/または頭部伝達関数(HRTF)であることが可能である。それぞれの音響伝達関数は、ローカルエリア内の特定の音源場所およびウェアラブルデバイスの特定の位置に関連付けられており、それによってコントローラは、ローカルエリア内で音源の位置が変わるにつれて新たな音響伝達関数を更新または生成することが可能である。いくつかの実施形態においては、オーディオシステムは、1つまたは複数の音響伝達関数を使用して、ウェアラブルデバイスを装着しているユーザのためのオーディオコンテンツ(たとえば、サラウンドサウンド)を生成する。
本発明の実施形態は、人工現実システムを含むこと、または人工現実システムとともに実施されることが可能である。人工現実とは、ユーザへの提示の前に何らかの様式で調整された現実の一形態であり、この形態は、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、またはそれらの何らかの組合せおよび/もしくは派生物を含むことが可能である。人工現実コンテンツは、完全に生成されたコンテンツ、または取り込まれた(たとえば、現実世界の)コンテンツと組み合わされた生成されたコンテンツを含むことが可能である。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含むことが可能であり、それらのいずれも、単一のチャネルにおいて、または複数のチャネル(視聴者に対する3次元効果をもたらすステレオビデオなど)において提示されることが可能である。加えて、いくつかの実施形態においては、たとえば、人工現実においてコンテンツを作成するために使用される、および/または人工現実においてその他の形で使用される(たとえば、人工現実においてアクティビティーを実行する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに人工現実が関連付けられることも可能である。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されているウェアラブルデバイス、スタンドアロンのウェアラブルデバイス、モバイルデバイスもしくはコンピューティングシステム、または、1人もしくは複数の視聴者に人工現実コンテンツを提供することが可能なその他の任意のハードウェアプラットフォームを含む、さまざまなプラットフォーム上で実施されることが可能である。
図1は、1つまたは複数の実施形態による、オーディオシステムを含むウェアラブルデバイス100を示す例である。示されているように、ウェアラブルデバイス100は、ユーザの頭に装着されるように設計されているアイウェアデバイスであることが可能である。その他の実施形態においては、ウェアラブルデバイス100は、ヘッドセット、ネックレス、ブレスレット、クリップオンデバイス、または、ユーザによって装着もしくは携帯されることが可能であるその他の任意の適切なデバイスであることが可能である。ウェアラブルデバイス100は、メディアをユーザに提示する。一実施形態においては、ウェアラブルデバイス100は、ニアアイディスプレイ(NED)を含むことが可能である。別の実施形態においては、ウェアラブルデバイス100は、ヘッドマウントディスプレイ(HMD)を含むことが可能である。いくつかの実施形態においては、ウェアラブルデバイス100は、ユーザの顔に装着されることが可能であり、それによってコンテンツ(たとえば、メディアコンテンツ)が、ウェアラブルデバイス100の一方または両方のレンズ110を使用して提示される。しかしながら、ウェアラブルデバイス100は、異なる様式でメディアコンテンツがユーザに提示されるように使用されることも可能である。ウェアラブルデバイス100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。ウェアラブルデバイス100は、オーディオシステムを含み、その他のコンポーネントのうちでも、フレーム105、レンズ110、およびセンサデバイス115を含むことが可能である。図1は、ウェアラブルデバイス100上の例示的な場所におけるウェアラブルデバイス100のコンポーネントを示しているが、それらのコンポーネントは、ウェアラブルデバイス100上のほかのどこかに、ウェアラブルデバイス100とペアにされている周辺デバイス上に、またはそれらの何らかの組合せで配置されることが可能である。
ウェアラブルデバイス100は、ユーザの視力を補正もしくは強化すること、ユーザの目を保護すること、またはユーザに画像を提供することが可能である。ウェアラブルデバイス100は、ユーザの視力における欠陥を補正する眼鏡であることが可能である。ウェアラブルデバイス100は、太陽からユーザの目を保護するサングラスであることが可能である。ウェアラブルデバイス100は、衝撃からユーザの目を保護する保護眼鏡であることが可能である。ウェアラブルデバイス100は、夜間のユーザの視力を強化するための暗視デバイスまたは赤外線ゴーグルであることが可能である。ウェアラブルデバイス100は、ユーザのための人工現実コンテンツを生成するニアアイディスプレイであることが可能である。あるいは、ウェアラブルデバイス100は、レンズ110を含まないことが可能であり、オーディオコンテンツ(たとえば、音楽、ラジオ、ポッドキャスト)をユーザに提供するオーディオシステムを備えたフレーム105であることが可能である。
レンズ110は、ウェアラブルデバイス100を装着しているユーザへ光を提供または透過する。レンズ110は、ユーザの視力における欠陥を補正するのを助けるために度付きレンズ(たとえば、単焦点、二焦点および三焦点、または累進多焦点)であることが可能である。度付きレンズは、ウェアラブルデバイス100を装着しているユーザへ周囲光を透過する。透過される周囲光は、ユーザの視力における欠陥を補正するために度付きレンズによって変更されることが可能である。レンズ110は、太陽からユーザの目を保護するために偏光レンズまたは色付きレンズであることが可能である。レンズ110は、導波管ディスプレイの一部としての1つまたは複数の導波管であることが可能であり、導波管ディスプレイにおいては、画像光が、導波管の端部または縁部を通じてユーザの目に結像される。レンズ110は、画像光を提供するための電子ディスプレイを含むことが可能であり、電子ディスプレイからの画像光を拡大するための光学ブロックを含むことも可能である。レンズ110に関するさらなる詳細は、図5に関して論じられている。
いくつかの実施形態においては、ウェアラブルデバイス100は、ウェアラブルデバイス100を取り巻くローカルエリアに関する奥行き情報を記述するデータを取り込む奥行きカメラアセンブリ(DCA)(図示せず)を含むことが可能である。いくつかの実施形態においては、DCAは、光プロジェクタ(たとえば、飛行時間に関する構造化光および/またはフラッシュ照明)、撮像デバイス、およびコントローラを含むことが可能である。取り込まれたデータは、光プロジェクタによってローカルエリア上へ投射された光の、撮像デバイスによって取り込まれた画像であることが可能である。一実施形態においては、DCAは、ローカルエリアの部分をステレオで取り込むように向けられている2つ以上のカメラと、コントローラとを含むことが可能である。取り込まれたデータは、ステレオでのローカルエリアの、2つ以上のカメラによって取り込まれた画像であることが可能である。コントローラは、取り込まれたデータと、奥行き特定技術(たとえば、構造化光、飛行時間、立体画像生成など)とを使用してローカルエリアの奥行き情報を算出する。奥行き情報に基づいて、コントローラは、ローカルエリア内のウェアラブルデバイス100の絶対位置情報を特定する。DCAは、ウェアラブルデバイス100と統合されることが可能であり、またはウェアラブルデバイス100の外部のローカルエリア内に配置されることが可能である。後者の実施形態においては、DCAのコントローラは、奥行き情報をウェアラブルデバイス100のコントローラ135へ送信することが可能である。
センサデバイス115は、ウェアラブルデバイス100の動きに応答して1つまたは複数の測定信号を生成する。センサデバイス115は、ウェアラブルデバイス100のフレーム105の一部分に配置されることが可能である。センサデバイス115は、位置センサ、慣性測定ユニット(IMU)、または両方を含むことが可能である。ウェアラブルデバイス100のいくつかの実施形態は、センサデバイス115を含むことが可能であり、もしくは含まないことが可能であり、または複数のセンサデバイス115を含むことが可能である。センサデバイス115がIMUを含む実施形態においては、IMUは、センサデバイス115からの測定信号に基づいてIMUデータを生成する。センサデバイス115の例は、1つもしくは複数の加速度計、1つもしくは複数のジャイロスコープ、1つもしくは複数の磁力計、動きを検知する別の適切なタイプのセンサ、IMUのエラー補正のために使用されるタイプのセンサ、またはそれらの何らかの組合せを含む。センサデバイス115は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで配置されることが可能である。
1つまたは複数の測定信号に基づいて、センサデバイス115は、ウェアラブルデバイス100の初期位置に対するウェアラブルデバイス100の現在の位置を推定する。推定位置は、ウェアラブルデバイス100の場所、および/またはウェアラブルデバイス100もしくはウェアラブルデバイス100を装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。向きは、基準点に対するそれぞれの耳の位置に対応することが可能である。いくつかの実施形態においては、センサデバイス115は、DCAからの奥行き情報および/または絶対位置情報を使用して、ウェアラブルデバイス100の現在の位置を推定する。センサデバイス115は、並進運動(前方/後方、上方/下方、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含むことが可能である。いくつかの実施形態においては、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからウェアラブルデバイス100の推定位置を計算する。たとえば、IMUは、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、経時的に速度ベクトルを統合してウェアラブルデバイス100上の基準点の推定位置を特定する。基準点とは、ウェアラブルデバイス100の位置を記述するために使用されることが可能である点である。基準点は、空間における点として一般的に定義されることが可能であるが、実際には基準点は、ウェアラブルデバイス100内の点として定義される。
オーディオシステムは、音源の動きを追跡し、音響伝達関数を動的に更新する。オーディオシステムは、マイクロフォンアレイ、コントローラ、およびスピーカーアレイを含む。しかしながら、その他の実施形態においては、オーディオシステムは、異なるおよび/または追加のコンポーネントを含むことが可能である。同様に、いくつかのケースにおいては、オーディオシステムのコンポーネントに関連して記述されている機能性は、ここで記述されているのとは異なる様式でコンポーネント間において分散されることが可能である。たとえば、コントローラの機能のうちのいくつかまたはすべてがリモートサーバによって実行されることが可能である。
マイクロフォンアレイは、ウェアラブルデバイス100のローカルエリア内の音を録音する。ローカルエリアとは、ウェアラブルデバイス100を取り巻く環境である。たとえば、ローカルエリアは、ウェアラブルデバイス100を装着しているユーザが内部にいる部屋である場合があり、またはウェアラブルデバイス100を装着しているユーザが外部にいる場合があり、ローカルエリアは、マイクロフォンアレイが音を検知することが可能である外部のエリアである。マイクロフォンアレイは、ウェアラブルデバイス100上に配置されている複数の音響検知場所を含む。音響検知場所は、音響センサまたはポートのいずれかを含む。ポートとは、ウェアラブルデバイス100のフレーム105における開口である。音響検知場所のケースにおいては、ポートは、ローカルエリアから音響導波管への音に関する結合点を提供し、音響導波管は、音を音響センサへ導く。音響センサは、ローカルエリア(たとえば、部屋)における1つまたは複数の音源から放出される音を取り込む。それぞれの音響センサは、音を検知して、検知された音を電子フォーマット(アナログまたはデジタル)へと変換するように構成されている。音響センサは、音響波センサ、マイクロフォン、音響変換器、または、音を検知するのに適している類似のセンサであることが可能である。
示されている構成においては、マイクロフォンアレイは、ウェアラブルデバイス100上の複数の音響検知場所、たとえば、音響検知場所120a、120b、120c、120d、120e、および120fを含む。音響検知場所は、ウェアラブルデバイス100の外面に配置されること、ウェアラブルデバイス100の内面に、ウェアラブルデバイス100とは別個に(たとえば、その他の何らかのデバイスの部分に)、またはそれらの何らかの組合せで配置されることが可能である。いくつかの実施形態においては、音響検知場所120a~fのうちの1つまたは複数は、それぞれの耳の外耳道に配置されることも可能である。マイクロフォンアレイの音響検知場所の構成は、図1を参照しながら記述されている構成とは異なることが可能である。音響検知場所の数および/または場所は、図1において示されているものとは異なることが可能である。たとえば、音響検知場所の数を増やして、収集されるオーディオ情報の量ならびにその情報の感度および/または精度を高めることが可能である。音響検知場所は、ウェアラブルデバイス100を装着しているユーザを取り巻く広範囲の方向における音をマイクロフォンアレイが検知することが可能であるように向けられることが可能である。それぞれの検知された音は、周波数、振幅、位相、時間、持続時間、またはそれらの何らかの組合せに関連付けられることが可能である。
スピーカーアレイは、ATFに基づいてオーディオコンテンツを提示する。スピーカーアレイは、ウェアラブルデバイス100上の複数の音響放出場所を含む。音響放出場所は、ウェアラブルデバイス100のフレーム105におけるスピーカーまたはポートの場所である。音響放出場所のケースにおいては、ポートは、音響導波管からの音の取り出し点を提供し、音響導波管は、スピーカーアレイのスピーカーをポートから切り離す。スピーカーから放出された音は、音響導波管を通って伝わり、次いでポートによってローカルエリアへと放出される。
示されている実施形態においては、スピーカーアレイは、音響放出場所125a、125b、125c、125d、125e、および125fを含む。その他の実施形態においては、スピーカーアレイは、異なる数の音響放出場所(より多くのまたはより少ない)を含むことが可能であり、それらは、フレーム105上の異なる場所に配置されることが可能である。たとえば、スピーカーアレイは、ユーザの耳を覆うスピーカー(たとえば、ヘッドフォンまたはイヤフォン)を含むことが可能である。示されている実施形態においては、音響放出場所125a~125fは、フレーム105の外面(すなわち、ユーザに面していない表面)に配置されている。代替実施形態においては、音響放出場所のうちのいくつかまたはすべては、フレーム105の内面(ユーザに面している面)に配置されることが可能である。音響放出場所の数を増やすと、オーディオコンテンツに関連付けられているサウンドシーン分析の精度(たとえば、どこに音源が位置しているか)および/または解像度(たとえば、個別の音源間の最小距離)を改善することが可能である。
いくつかの実施形態においては、それぞれの音響検知場所は、対応する音響放出場所と実質的に併置されている。実質的に併置されているとは、それぞれの音響検知場所が、対応する音響放出場所から4分の1波長未満離れていることを指す。音響検知場所および対応する音響放出場所の数および/または場所は、図1において示されているものとは異なることが可能である。たとえば、音響検知場所および対応する音響放出場所の数を増やして、サウンドシーン分析の精度を高めることが可能である。
コントローラ135は、マイクロフォンアレイによって検知された音について記述するマイクロフォンアレイからの情報を処理する。それぞれの検知された音ごとに、コントローラ135は、DoA推定を実行する。DoA推定は、検知された音がどこからマイクロフォンアレイの音響センサに到達したかの推定方向である。音がマイクロフォンアレイの少なくとも2つの音響センサによって検知された場合には、コントローラ135は、それらの音響センサの既知の位置関係と、それぞれの音響センサからのDoA推定とを使用して、たとえば三角測量を介して、検知された音の音源場所を推定することが可能である。コントローラ135は、音響伝達関数を使用して、DoA推定を実行することが可能である。音を検知した音響センサの数が増えるにつれて、および/または音を検知した音響センサ間の距離が増大するにつれて、音源場所推定の精度が高まることが可能である。
いくつかの実施形態においては、コントローラ135は、ウェアラブルデバイス100の外部のシステムからウェアラブルデバイス100の位置情報を受信することが可能である。位置情報は、ウェアラブルデバイス100の場所、ウェアラブルデバイス100もしくはウェアラブルデバイス100を装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。位置情報は、基準点に対して定義されることが可能である。向きは、基準点に対するそれぞれの耳の位置に対応することが可能である。システムの例は、撮像アセンブリ、コンソール(たとえば、図5において記述されているような)、同時位置特定およびマッピング(SLAM)システム、奥行きカメラアセンブリ、構造化照明システム、またはその他の適切なシステムを含む。いくつかの実施形態においては、ウェアラブルデバイス100は、SLAM計算のために使用されることが可能であるセンサを含むことが可能であり、SLAM計算は、コントローラ135によって全体的にまたは部分的に実行されることが可能である。コントローラ135は、システムから位置情報を継続的にまたはランダムなもしくは指定された間隔で受信することが可能である。
検知された音のパラメータに基づいて、コントローラ135は、オーディオシステムに関連付けられている1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、その他のタイプの音響伝達関数、またはそれらの何らかの組合せであることが可能である。ATFは、マイクロフォンアレイが空間におけるある点から音をどのようにして受信しているかを特徴付ける。具体的には、ATFは、音源場所における音のパラメータと、マイクロフォンアレイがその音を検知した際のパラメータとの間における関係を定義する。音に関連付けられるパラメータは、周波数、振幅、持続時間、DoA推定などを含むことが可能である。いくつかの実施形態においては、マイクロフォンアレイの音響センサのうちの少なくともいくつかは、ユーザによって装着されているNEDに結合されている。マイクロフォンアレイに対する特定の音源場所に関するATFは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造(たとえば、耳の形状、肩など)に起因してユーザごとに異なる場合がある。したがって、マイクロフォンアレイのATFは、NEDを装着しているそれぞれのユーザごとにパーソナライズされる。
HRTFは、耳が空間におけるある点から音をどのようにして受信しているかを特徴付ける。人に対する特定の音源場所に関するHRTFは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造(たとえば、耳の形状、肩など)に起因して人のそれぞれの耳に固有である(そして人に固有である)。たとえば、図1において、コントローラ135は、ユーザに関する2つのHRTFを、それぞれの耳ごとに1つずつ生成することが可能である。HRTFまたはHRTFのペアを使用して、空間における特定の点から来ているように感じられる音を含むオーディオコンテンツを作成することが可能である。いくつかのHRTFを使用して、(たとえば、ホームエンターテイメントシステム、シアタースピーカーシステム、没入型環境などのための)サラウンドサウンドオーディオコンテンツを作成することが可能であり、この場合、それぞれのHRTFまたはHRTFのそれぞれのペアは、空間における別々の点に対応し、それによってオーディオコンテンツは、空間におけるいくつかの異なる点から来ているように感じられる。いくつかの実施形態においては、コントローラ135は、それぞれの検知された音のDoA推定に基づいて既存の音響伝達関数を更新することが可能である。ウェアラブルデバイス100の位置がローカルエリア内で変わるにつれて、コントローラ135は、新たな音響伝達関数を生成すること、またはそれに応じて既存の音響伝達関数を更新することが可能である。
いくつかの実施形態においては、コントローラは、DoA推定を実行すること、音源の移動を追跡すること、別々の音源からの信号を分離すること、および音源を分類することが可能である。コントローラのオペレーションは、以降で図3および図4に関して詳細に記述されている。
示されている構成においては、オーディオシステムは、ユーザによって装着されるNEDへと埋め込まれている。代替実施形態においては、オーディオシステムは、ユーザによって装着されるヘッドマウントディスプレイ(HMD)へと埋め込まれることが可能である。上記の説明は、ユーザによって装着されるヘッドセットへと埋め込まれるものとしてオーディオアセンブリについて論じているが、オーディオアセンブリは、ユーザによってほかのどこかに装着されること、または装着されることなくユーザによって操作されることが可能である異なるウェアラブルデバイスへと埋め込まれることが可能であるということは、当業者にとって明らかであろう。
図2Aは、1つまたは複数の実施形態による、ローカルエリア205内のサウンドシーン235を分析するウェアラブルデバイス200を示している。ウェアラブルデバイス200は、ユーザ210によって装着され、オーディオシステム(たとえば、図1および図3~図5において記述されているような)を含む。ローカルエリア205は、複数の音源、具体的には、人215、人220、人225、およびファン230を含む。ウェアラブルデバイス200は、サウンドシーン分析を実行する。サウンドシーンは、たとえば、音源に関連付けられている音響伝達関数、音源の数、音源の場所、音源の移動、音源の分類、またはそれらの何らかの組合せを記述する。
ウェアラブルデバイス200は、それぞれの音源に関するDoAを推定する。ウェアラブルデバイス200の解像度と、音源の相対的な場所とに応じて、複数の音源が、ウェアラブルデバイス200による分析のために単一の音源としてともにグループ化されることが可能である。たとえば、人215および人220は、互いに隣り合って位置しており、ウェアラブルデバイス200は、少なくとも最初は、人215および人220を単一の音源として識別することが可能である。
DoA推定に基づいて、ウェアラブルデバイス200は、図3に関してさらに記述されているように、それぞれの検知された音源の方向において1つまたは複数のビームを形成する。ビームを形成すること(ビームフォーミングとも呼ばれる)は、ウェアラブルデバイス200が、ローカルエリアにおけるある音源によって生成された音をローカルエリア内のその他の音源から分離するおよび/または切り離すために使用する処理技術である。たとえば、ウェアラブルデバイス200は、ファン230の周りにビーム241を、人215および人220の周りにビーム242を、そして人225の周りにビーム243を形成する。それぞれの音源に関してビームを形成することによって、ウェアラブルデバイスは、それぞれの音源に関してマイクロフォンアレイによって受信されたデータを別々に処理することが可能である。ウェアラブルデバイス200は、ローカルエリア205におけるその他の音と比較して、ビーム内から受信されたオーディオ信号の相対的な差を増大させることが可能である。たとえば、ウェアラブルデバイス200は、ビーム内から受信されるオーディオ信号の振幅を増大させることが可能であり、ビームの外側から受信されるオーディオ信号を抑制することが可能であり、またはそれらの何らかの組合せである。
ウェアラブルデバイス200は、それぞれの音源を分類するように構成されている。たとえば、音源の特徴に基づいて、ウェアラブルデバイス200は、音源を人間、動物、器具、車両などとして分類することが可能である。異なる分類は、マイクロフォンアレイによって受信されてスピーカーアレイによって出力される音をウェアラブルデバイス200がどのようにして処理するかに影響を与える場合がある。トラッキング、ビームフォーミング、サウンド分類、またはそれらの何らかの組合せに基づいて、オーディオシステムは、サウンドフィルタを生成および/または更新し、それらのサウンドフィルタをスピーカーアレイに提供する。スピーカーアレイは、サウンドフィルタを使用してオーディオコンテンツを提示する。いくつかの実施形態においては、ユーザが会話を聞く能力を高めるために、ウェアラブルデバイス200は、サウンドフィルタを適用して、人間として分類されている音源を伴うビームからのオーディオ信号を増大させることが可能であり、ウェアラブルデバイス200は、サウンドフィルタを適用して、非人間として分類されている音源を伴うビームからのオーディオ信号を抑制することが可能である。
図2Bは、人225がウェアラブルデバイス200に対して移動した後のサウンドシーン235を分析するウェアラブルデバイス200を示している。ウェアラブルデバイス200は、経時的にサウンドシーン235をモニタおよび分析するように構成されている。人225が移動するにつれて、ウェアラブルデバイス200は、人225の移動を追跡することが可能である。いくつかの実施形態においては、ウェアラブルデバイス200は、音源の変化するDoA、ウェアラブルデバイス200によって受信された視覚情報、または外部データソースから受信された情報に基づいて、移動を検知することが可能である。ウェアラブルデバイス200と、人215、220、225のうちの1人または複数との間における相対的な位置付けが変わるにつれて、オーディオシステムは、人215、220、225を含み続けるようにビームの場所を動的に調整する。たとえば、人225が人215、225に向かって歩くにつれて、ウェアラブルデバイス200は、ビーム243が人225とともに移動するようにサウンドシーン分析を動的に更新する。ウェアラブルデバイス200は、音源のトラッキング、ビームフォーミング、および分類の結果をフィードバックとして利用して、ウェアラブルデバイス200によって生成される音響伝達関数の精度を評価することが可能である。ウェアラブルデバイス200は、フィードバックに基づいて音響伝達関数を更新することが可能である。更新された音響伝達関数を使用して、DoA推定、トラッキング、ビームフォーミング、および分類の精度を改善することが可能である。更新された音響伝達関数を使用して、スピーカーアレイに提供されるサウンドフィルタを更新することが可能である。
図3は、1つまたは複数の実施形態による、オーディオシステム300のブロック図である。図1、図2A、および図2Bにおけるオーディオシステムは、オーディオシステム300の実施形態であることが可能である。オーディオシステム300は、音を検知して、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム300は次いで、1つまたは複数の音響伝達関数を使用して、ユーザのためのオーディオコンテンツを生成することが可能である。図3の実施形態においては、オーディオシステム300は、マイクロフォンアレイ310、スピーカーアレイ320、およびコントローラ330を含む。オーディオシステム300のいくつかの実施形態は、ここで記述されているものとは異なるコンポーネントを有する。同様に、いくつかのケースにおいては、ここで記述されているのとは異なる様式でコンポーネント間において機能が分散されることが可能である。
マイクロフォンアレイ310は、マイクロフォンアレイ310を取り巻くローカルエリア内の音を検知する。マイクロフォンアレイ310は、複数の音響センサを含むことが可能であり、それらの音響センサは、音波の気圧変動をそれぞれ検知して、検知された音を電子フォーマット(アナログまたはデジタル)へと変換する。複数の音響センサは、アイウェアデバイス(たとえば、ウェアラブルデバイス100)に、ユーザに(たとえば、ユーザの外耳道に)、ネックバンドに、またはそれらの何らかの組合せで配置されることが可能である。マイクロフォンアレイ310のそれぞれの音響センサは、アクティブであること(電源がオンにされていること)または非アクティブであること(電源がオフにされていること)が可能である。音響センサは、コントローラ330からの命令に従ってアクティブ化または非アクティブ化される。いくつかの実施形態においては、マイクロフォンアレイ310における音響センサのうちのすべてが、音を検知するためにアクティブであることが可能であり、または複数の音響センサのサブセットがアクティブであることが可能である。アクティブなサブセットは、複数の音響センサのうちの少なくとも2つの音響センサを含む。アクティブなサブセットは、たとえば、1つおきの音響センサ、事前にプログラムされた初期サブセット、ランダムなサブセット、またはそれらの何らかの組合せを含むことが可能である。
スピーカーアレイ320は、ユーザとの間で音を送信するように構成されている。スピーカーアレイ320は、コントローラ330からのコマンドに従って、および/またはコントローラ330からのオーディオ特性化構成に基づいて動作することが可能である。オーディオ特性化構成に基づいて、スピーカーアレイ320は、空間における特定の点から来ているように感じられるバイノーラルサウンドを生成することが可能である。スピーカーアレイ320は、音のシーケンスおよび/またはサラウンドサウンドをユーザに提供することが可能である。いくつかの実施形態においては、スピーカーアレイ320およびマイクロフォンアレイ310をともに使用して、ユーザに音を提供することが可能である。いくつかの実施形態においては、スピーカーアレイ320は、サウンドシーンにおける特定の場所へ音を投射することが可能であり、またはスピーカーアレイ320は、サウンドシーンにおける特定の場所へ音が投射されるのを防止することが可能である。スピーカーアレイ320は、コントローラ330によって利用されるサウンドフィルタに従って音を提示することが可能である。
スピーカーアレイ320は、マイクロフォンアレイ310が結合されているウェアラブルデバイスに結合されることが可能である。代替実施形態においては、スピーカーアレイ320は、マイクロフォンアレイ310を装着しているユーザを取り囲む複数のスピーカーであることが可能である。一実施形態においては、スピーカーアレイ320は、マイクロフォンアレイ310の較正プロセス中にテスト音を送信する。コントローラ330は、テスト音を生成するようにスピーカーアレイ320に指示することが可能であり、次いで、マイクロフォンアレイ310によって受信されたテスト音を分析して、ウェアラブルデバイスのための音響伝達関数を生成することが可能である。さまざまな周波数、振幅、持続時間、またはシーケンスを有する複数のテスト音がスピーカーアレイ320によって生成されることが可能である。
コントローラ330は、マイクロフォンアレイ310からの情報を処理する。加えて、コントローラ330は、オーディオシステム300のその他のモジュールおよびデバイスを制御する。図3の実施形態においては、コントローラ330は、DoA推定モジュール340、伝達関数モジュール350、トラッキングモジュール360、ビームフォーミングモジュール370、分類モジュール380、サウンドフィルタモジュール385、およびパーソナルアシスタントモジュール390を含む。
DoA推定モジュール340は、検知された音に関してDoA推定を実行するように構成されている。音がマイクロフォンアレイの少なくとも2つの音響センサによって検知された場合には、コントローラ330は、それらの音響センサの位置関係と、それぞれの音響センサからのDoA推定とを使用して、たとえば三角測量を介して、検知された音の音源場所を推定することが可能である。推定された音源場所は、マイクロフォンアレイ310の位置に対するローカルエリアにおける音源場所の相対的な位置であることが可能である。マイクロフォンアレイ310の位置は、マイクロフォンアレイ310を有しているウェアラブルデバイス上の1つまたは複数のセンサによって特定されることが可能である。いくつかの実施形態においては、コントローラ330は、マイクロフォンアレイ310の絶対位置がローカルエリアにおいて既知である場合には、音源場所の絶対位置を特定することが可能である。マイクロフォンアレイ310の位置は、外部システム(たとえば、撮像アセンブリ、ARまたはVRコンソール、SLAMシステム、奥行きカメラアセンブリ、構造化照明システムなど)から受信されることが可能である。外部システムは、ローカルエリアの仮想モデルを作成することが可能であり、その仮想モデルにおいては、ローカルエリアと、マイクロフォンアレイ310の位置とがマップされる。受信された位置情報は、マップされたローカルエリアにおけるマイクロフォンアレイの場所および/または向きを含むことが可能である。コントローラ330は、検知された音の特定された音源場所を用いてローカルエリアのマッピングを更新することが可能である。コントローラ330は、外部システムから位置情報を継続的にまたはランダムなもしくは指定された間隔で受信することが可能である。
DoA推定モジュール340は、自分がDoA推定を実行する対象の検知された音を選択する。DoA推定モジュール340は、オーディオデータセットに情報を投入する。その情報は、検知された音と、それぞれの検知された音に関連付けられているパラメータとを含むことが可能である。例示的なパラメータは、周波数、振幅、持続時間、DoA推定、音源場所、測定の時刻、またはそれらの何らかの組合せを含むことが可能である。それぞれのオーディオデータセットは、マイクロフォンアレイ310に対する別々の音源場所に対応すること、およびその音源場所を有している1つまたは複数の音を含むことが可能である。DoA推定モジュール340は、音がマイクロフォンアレイ310によって検知される際にオーディオデータセットへの投入を行うことが可能である。DoA推定モジュール340は、それぞれの検知された音に関連付けられている格納されているパラメータを評価すること、および1つまたは複数の格納されているパラメータが、対応するパラメータ条件を満たしているかどうかを特定することが可能である。たとえば、パラメータがしきい値を上回っている、もしくは下回っている、または目標範囲内にある場合には、パラメータ条件が満たされることが可能である。パラメータ条件が満たされている場合には、DoA推定モジュール340は、検知された音に関してDoA推定を実行する。たとえば、DoA推定モジュール340は、ある周波数範囲内の周波数、あるしきい値振幅を上回っている振幅、あるしきい値持続時間範囲を下回っている持続時間、その他の類似のバリエーション、またはそれらの何らかの組合せを有する検知された音に関してDoA推定を実行することが可能である。パラメータ条件は、履歴データに基づいて、オーディオデータセットにおける情報の分析(たとえば、収集された情報をパラメータに関して評価し、平均を設定すること)に基づいて、またはそれらの何らかの組合せでオーディオシステム300のユーザによって設定されることが可能である。DoA推定モジュール340は、検知された音に関するDoA推定を実行する際に、オーディオデータセットに対するさらなる投入または更新を行うことが可能である。DoA推定モジュール340は、それぞれのDoA推定に関する信頼水準を計算することが可能である。信頼水準は、基礎となる空間スペクトルにおけるピークの鋭さに基づいて測定されることが可能である。到着ベースのアルゴリズムの時間差が採用されているいくつかの実施形態においては、信頼水準は、相互相関関数の鋭さに基づいて測定されることが可能である。DoA推定に関する信頼水準は、DoA推定モジュール340によって推定された場所に音源が位置している可能性を表すことが可能である。たとえば、信頼水準は、1~100の範囲であることが可能であり、この場合、100という理論上の信頼水準は、DoA推定において不確実性がゼロであるということを表し、1という信頼水準は、DoA推定における高い水準の不確実性を表す。
伝達関数モジュール350は、マイクロフォンアレイ310によって検知された音の音源場所に関連付けられている1つまたは複数の音響伝達関数を生成するように構成されている。一般には、伝達関数は、それぞれの可能な入力値ごとに、対応する出力値を与える数学関数である。それぞれの音響伝達関数は、マイクロフォンアレイまたは人の位置(すなわち、場所および/または向き)に関連付けられることが可能であり、その位置に固有であることが可能である。たとえば、音源の場所、および/またはマイクロフォンアレイもしくは人の頭の場所もしくは向きが変わるにつれて、音は、周波数、振幅などの点で異なって検知される場合がある。図3の実施形態においては、伝達関数モジュール350は、オーディオデータセットにおける情報を使用して、1つまたは複数の音響伝達関数を生成する。その情報は、検知された音と、それぞれの検知された音に関連付けられているパラメータとを含むことが可能である。DoA推定モジュール340からのDoA推定およびそれらのそれぞれの信頼水準を伝達関数モジュール350への入力として使用して、音響伝達関数の精度を改善することが可能である。加えて、伝達関数モジュール350は、音響伝達関数を更新するために、トラッキングモジュール360、ビームフォーミングモジュール370、および分類モジュール380からフィードバックを受信することが可能である。
いくつかの実施形態においては、DoA推定モジュール340は、直接音のみを事前に選択し、反射音を除去することが可能である。直接音を使用して、音響伝達関数を抽出することが可能である。音響伝達関数を抽出することに関するさらなる情報に関しては、2018年6月22日に出願された「AUDIO SYSTEM FOR DYNAMIC DETERMINATION OF PERSONALIZED ACOUSTIC TRANSFER FUNCTIONS」と題されている米国特許出願第16/015,879号を参照されたい。その内容は、それらの全体が参照によって本明細書に組み込まれている。フィードバックを使用して、適応プロセスを制御することが可能である。
DoA推定モジュール340、トラッキングモジュール360、ビームフォーミングモジュール370、および分類モジュール380からのフィードバックを使用して、音響伝達関数を更新することが可能である。それぞれのモジュールは、別々に重み付けされることが可能である。いくつかの実施形態においては、重みは、処理チェーンにおける順序に基づくことが可能である。たとえば、DoA推定モジュール340からのフィードバックは、0.4の重みを受け取ることが可能であり、トラッキングモジュール360からのフィードバックは、0.3の重みを受け取ることが可能であり、ビームフォーミングモジュール370からのフィードバックは、0.2の重みを受け取ることが可能であり、分類モジュール380からのフィードバックは、0.1の重みを受け取ることが可能である。しかしながら、これは単なる一例であり、多くの異なる重み付けスキームが使用されることが可能であり、いくつかの実施形態においては、重みは、試行錯誤によって、または実験データを使用して統計分析を実行することによって推測されることが可能であるということを当業者なら認識するであろう。
音響伝達関数は、以降でさらに詳細に論じられているさまざまな目的のために使用されることが可能である。いくつかの実施形態においては、伝達関数モジュール350は、検知された音のDoA推定に基づいて1つまたは複数の既存の音響伝達関数を更新することが可能である。音源またはマイクロフォンアレイ310の位置(すなわち、場所および/または向き)がローカルエリア内で変わるにつれて、コントローラ330は、新たな音響伝達関数を生成すること、またはそれに応じてそれぞれの位置に関連付けられるように既存の音響伝達関数を更新することが可能である。
いくつかの実施形態においては、伝達関数モジュール350は、アレイ伝達関数(ATF)を生成する。ATFは、マイクロフォンアレイ310が空間におけるある点から音をどのようにして受信しているかを特徴付ける。具体的には、ATFは、音源場所における音のパラメータと、マイクロフォンアレイ310がその音を検知した際のパラメータとの間における関係を定義する。伝達関数モジュール350は、検知された音の特定の音源場所、ローカルエリアにおけるマイクロフォンアレイ310の位置、またはそれらの何らかの組合せに関して1つまたは複数のATFを生成することが可能である。音がマイクロフォンアレイ310によってどのようにして受信されるかに影響を与える可能性があるファクタは、マイクロフォンアレイ310における音響センサの配置および/もしくは向き、音源とマイクロフォンアレイ310との間にある何らかの物体、マイクロフォンアレイ310を備えたウェアラブルデバイスを装着しているユーザの解剖学的構造、またはローカルエリアにおけるその他の物体を含むことが可能である。たとえば、マイクロフォンアレイ310を含むウェアラブルデバイスをユーザが装着している場合には、その人の解剖学的構造(たとえば、耳の形状、肩など)は、音波がマイクロフォンアレイ310に伝わる際にそれらの音波に影響を与える場合がある。別の例においては、マイクロフォンアレイ310を含むウェアラブルデバイスをユーザが装着していて、マイクロフォンアレイ310を取り巻くローカルエリアが、建物、木々、茂み、水域などを含む外部環境である場合には、それらの物体は、そのローカルエリアにおける音の振幅を減衰または増幅する場合がある。ATFを生成および/または更新することは、マイクロフォンアレイ310によって取り込まれるオーディオ情報の精度を改善する。
一実施形態においては、伝達関数モジュール350は、1つまたは複数のHRTFを生成する。HRTFは、人の耳が空間におけるある点から音をどのようにして受信しているかを特徴付ける。人に対する特定の音源場所に関するHRTFは、音が人の耳に伝わる際にその音に影響を与える人の解剖学的構造(たとえば、耳の形状、肩など)に起因して人のそれぞれの耳に固有である(そして人に固有である)。伝達関数モジュール350は、単一の人のために複数のHRTFを生成することが可能であり、この場合、それぞれのHRTFは、別々の音源場所、マイクロフォンアレイ310を装着している人の別々の位置、またはそれらの何らかの組合せに関連付けられることが可能である。加えて、それぞれの音源場所および/または人の位置に関して、伝達関数モジュール350は、2つのHRTFを、人のそれぞれの耳ごとに1つずつ生成することが可能である。一例として、伝達関数モジュール350は、単一の音源場所に対してローカルエリアにおいて特定の場所およびユーザの頭の特定の向きにあるユーザのために2つのHRTFを生成することが可能である。ユーザが自分の頭を異なる方向に向けた場合には、伝達関数モジュール350は、特定の場所および新たな向きにあるユーザのために2つの新たなHRTFを生成することが可能であり、または伝達関数モジュール350は、2つの既存のHRTFを更新することが可能である。したがって、伝達関数モジュール350は、別々の音源場所、ローカルエリアにおけるマイクロフォンアレイ310の別々の位置、またはそれらの何らかの組合せに関していくつかのHRTFを生成する。
いくつかの実施形態においては、伝達関数モジュール350は、ユーザのための複数のHRTFおよび/またはATFを使用して、ユーザのためのオーディオコンテンツを提供することが可能である。伝達関数モジュール350は、音(たとえば、ステレオサウンドまたはサラウンドサウンド)を生成するためにスピーカーアレイ320によって使用されることが可能であるオーディオ特性化構成を生成することが可能である。オーディオ特性化構成は、空間における特定の点から来ているように感じられるバイノーラルサウンドを合成するためにオーディオシステム300が使用することが可能である機能である。したがって、ユーザに固有のオーディオ特性評価構成は、オーディオシステム300が、音および/またはサラウンドサウンドをユーザに提供すること、またはサウンドシーンにおけるさまざまな場所に音を投射することを可能にする。オーディオシステム300は、スピーカーアレイ320を使用して音を提供することが可能である。いくつかの実施形態においては、オーディオシステム300は、スピーカーアレイ320とともに、またはスピーカーアレイ320の代わりにマイクロフォンアレイ310を使用することが可能である。一実施形態においては、複数のATF、複数のHRTF、および/またはオーディオ特性化構成は、コントローラ330上に格納されている。トラッキングモジュール360は、1つまたは複数の音源の場所を追跡するように構成されている。トラッキングモジュール360は、現在のDoA推定またはサウンドパラメータを比較すること、およびそれらを以前のDoA推定またはサウンドパラメータの格納されている履歴と比較することが可能である。いくつかの実施形態においては、オーディオシステム300は、1秒に1回、または1ミリ秒に1回など、周期的なスケジュールでDoA推定を再計算することが可能である。トラッキングモジュールは、現在のDoA推定を以前のDoA推定と比較することが可能であり、音源に関するDoA推定における変化に応答して、トラッキングモジュール360は、その音源が移動したということを特定することが可能である。いくつかの実施形態においては、トラッキングモジュール360は、ウェアラブルデバイスによって受信された視覚情報、または外部データソースから受信された情報に基づいて、場所における変化を検知することが可能である。トラッキングモジュール360は、経時的に1つまたは複数の音源の移動を追跡することが可能である。トラッキングモジュール360は、それぞれの時点における音源の数およびそれぞれの音源の場所を表す値を格納することが可能である。音源の数または場所の値における変化に応答して、トラッキングモジュール360は、音源が移動したということを特定することが可能である。トラッキングモジュール360は、局在化分散の推定を計算することが可能である。局在化分散は、移動における変化のそれぞれの特定のための信頼水準として使用されることが可能である。
ビームフォーミングモジュール370は、個別の音源からマイクロフォンアレイ310において受信された音の方向においてビームを形成するように構成されている。ビームフォーミングモジュール370は、DoA推定モジュール340およびトラッキングモジュール360からの別々のDoA推定に基づいて、ビーム内から受信されたオーディオ信号をローカルエリアにおけるその他の音源から分離することが可能である。ビームフォーミングは、空間フィルタリングとも呼ばれ、指向性受信のためのセンサアレイにおいて使用される信号処理技術である。ビームフォーミングモジュール370は、特定の角度から受信された信号が建設的な干渉を経験する一方でその他の信号が破壊的な干渉を経験するような方法でマイクロフォンアレイ310またはスピーカーアレイ320における要素を組み合わせることが可能である。アレイの方向性を変更するために、ビームフォーミングモジュールは、波面において建設的なおよび破壊的な干渉のパターンを作成する目的で、それぞれのマイクロフォンまたはスピーカーにおける信号の位相および相対振幅を制御することが可能である。マイクロフォンアレイ310によって検知された音を分析する際に、ビームフォーミングモジュール370は、予想される放射パターンが優先的に観察される方法で別々のマイクロフォンからの情報を組み合わせることが可能である。したがってビームフォーミングモジュール370は、ローカルエリアにおける個別の音源を選択的に分析することが可能である。いくつかの実施形態においては、ビームフォーミングモジュール370は、音源からの信号を強化することが可能である。たとえば、ビームフォーミングモジュール370は、特定の周波数を上回る、下回る、または特定の周波数間にある信号を除去するサウンドフィルタを適用することが可能である。信号強化は、所与の識別された音源に関連付けられている音を、マイクロフォンアレイ310によって検知されたその他の音と比較して強化するように作用する。
ビームフォーミングモジュール370は、ビームの場所またはその他の側面の精度に関する信頼水準を計算することが可能である。いくつかの実施形態においては、ビームフォーミングモジュール370は、信頼水準としてアレイゲイン計算を使用することが可能である。アレイゲインは、出力信号対雑音比(SNR)と入力SNRとの間における比率である。相対的に高いアレイゲインは、より高い信頼水準を表す。ビームフォーミングモジュール370は、音源からの分離された信号およびそれらのそれぞれの信頼水準を、音響伝達関数の精度を改善するための入力として使用されるように伝達関数モジュール350に提供することが可能である。
分類モジュール380は、検知された音源を分類するように構成されている。いくつかの実施形態においては、分類モジュール380は、識別された音源を、人間型または非人間型のいずれかであるものとして分類する。人間型の音源とは、人および/または人によって制御されるデバイス(たとえば、電話、会議デバイス、在宅勤務ロボット)である。非人間型の音源とは、人間型の音源として分類されない任意の音源である。非人間型の音源は、たとえば、テレビ、ラジオ、空調ユニット、ファン、人間型の音源として分類されない任意の音源、またはそれらの何らかの組合せを含むことが可能である。いくつかの実施形態においては、分類モジュール380は、音源を、男性、女性、犬、テレビ、車両等など、より狭いカテゴリーへと分類する。分類モジュール380は、分類ライブラリを格納することが可能である。分類ライブラリは、音源分類のリスト、ならびに音源が特定の分類を満たしているということを示すパラメータを格納することが可能である。たとえば、音源分類は、人間、動物、機械、デジタル、機器、車両などを含むことが可能である。いくつかの実施形態においては、音源分類は、サブ分類を含むことが可能である。たとえば、人間の分類は、男性、女性、大人、子供、話している、笑っている、叫んでいるなどのサブ分類を含むことが可能である。パラメータは、周波数、振幅、持続時間等などのカテゴリーを含むことが可能である。それぞれの分類またはサブ分類は、その分類を表すパラメータに関連付けられている。分類モジュール380は、音源のパラメータを分類ライブラリにおけるパラメータと比較して、音源を分類することが可能である。
加えて、いくつかの実施形態においては、ユーザは、ローカルエリアにおける物体および/または人々を手動で分類することが可能である。たとえば、ユーザは、ウェアラブルデバイス上のインターフェースを使用して、人を人間として識別することが可能である。音源が分類されると、分類モジュール380は、その音源に関連付けられている音響伝達関数を、同じタイプのものであるとして関連付ける。
分類モジュール380は、識別された音源に関連付けられている音響伝達関数、および/またはマイクロフォンアレイ310によって検知された音を分析することによって、音源のタイプを特定する。いくつかの実施形態においては、分類モジュール380は、ビームフォーミングモジュール370によって提供された分離された信号を分析して、音源を分類することが可能である。
分類モジュール380は、音源の分類に関する信頼水準を計算することが可能である。分類モジュールは、入力オーディオサンプルが所与のクラスに属する確率を表す数値を出力することが可能である。確率数値は、信頼水準として使用されることが可能である。分類モジュール380は、音源の分類およびそれらのそれぞれの信頼水準を、音響伝達関数の精度を改善するための入力として使用されるように伝達関数モジュール350に提供することが可能である。
オーディオシステム300は、マイクロフォンアレイ310から音を継続的に受信している。したがって、コントローラ330は、ウェアラブルデバイスと、ローカルエリア内のいずれかの音源との間において相対的な場所が変わるにつれて、音響伝達関数およびサウンドシーン分析を(たとえば、コントローラ330内のモジュールを介して)動的に更新することが可能である。更新された音響伝達関数は、DoA推定モジュール340、トラッキングモジュール360、ビームフォーミングモジュール370、および分類モジュール380によって使用されて、それぞれのモジュールのそれぞれの計算の精度を高めることが可能である。
サウンドフィルタモジュール385は、スピーカーアレイ320のためのサウンドフィルタを特定する。いくつかの実施形態においては、サウンドフィルタモジュール385およびビームフォーミングモジュール370は、バイノーラルビームフォーミングを利用することが可能であり、バイノーラルビームフォーミングは、音響伝達関数を使用してビームフォーミングおよび再生を単一のステップへと組み合わせる。そのようなケースにおいては、サウンドフィルタモジュール385およびビームフォーミングモジュール370は、最適化アルゴリズムを音響伝達関数に適用することによってサウンドフィルタを特定する。しかしながら、いくつかの実施形態においては、ビームフォーミングモジュール370は、サウンドフィルタモジュール385がサウンドフィルタを特定する前に、最適化アルゴリズムを音響伝達関数に適用する。最適化アルゴリズムは、1つまたは複数の制約を課される。制約とは、最適化アルゴリズムの結果に影響を与える可能性がある要件である。たとえば、制約は、たとえば、音源の分類、スピーカーアレイ320によって出力されたオーディオコンテンツがユーザの耳に提供されること、人間型として分類された音響伝達関数の合計のエネルギーおよび/もしくはパワーが最小化もしくは最大化されること、スピーカーアレイ320によって出力されたオーディオコンテンツがユーザの耳においてしきい値量未満の歪みを有すること、最適化アルゴリズムの結果に影響を与える可能性があるその他の何らかの要件、またはそれらの何らかの組合せであることが可能である。最適化アルゴリズムは、たとえば、線形制約付き最小分散(LCMV)アルゴリズム、最小分散歪みなし応答(MVDR)、または、サウンドフィルタを特定するその他の何らかの適応ビームフォーミングアルゴリズムであることが可能である。いくつかの実施形態においては、最適化アルゴリズムは、識別された音源からの音の到来方向、および/またはヘッドセットに対する1つもしくは複数の音源の相対的な場所を利用して、サウンドフィルタを特定することも可能である。最適化アルゴリズムは、サウンドフィルタを出力することが可能である。サウンドフィルタモジュール385は、サウンドフィルタをスピーカーアレイ320に提供する。サウンドフィルタは、オーディオ信号に適用された場合には、音源を増幅または減衰するオーディオコンテンツを提示することをスピーカーアレイ320に行わせる。いくつかの実施形態においては、サウンドフィルタは、人間の音源を増幅すること、および非人間の音源を減衰することをスピーカーアレイ320に行わせることが可能である。いくつかの実施形態においては、サウンドフィルタは、音源によって占められている1つまたは複数の減衰領域における低減された振幅を有する音場を生成することをスピーカーアレイ320に行わせることが可能である。
上述されているように、最適化アルゴリズムは、音源の分類タイプによって制約されることが可能である。たとえば、サウンドフィルタモジュール385および/またはビームフォーミングモジュール370は、人間型として分類された音響伝達関数のエネルギーの合計のエネルギーが最小化されるような様式で、最適化アルゴリズムを音響伝達関数に適用することが可能である。この様式で制約された最適化アルゴリズムは、減衰エリアが、人間型として分類された音源が存在している場所に配置されることになる一方で、非人間型として分類された音源が存在している場所には配置されないようにサウンドフィルタを生成することが可能である。分類の1つの利点として、分類は、音場内の減衰領域の数を潜在的に低減し、それによって音場およびスピーカーアレイ320に関するハードウェア仕様の複雑さ(たとえば、音響放出場所および音響検知場所の数)を低減することが可能である。減衰領域の数における低減は、使用される減衰領域の抑制を高めることも可能である。
伝達関数モジュール350が音響伝達関数を更新したことに応答して、サウンドフィルタモジュール385は、更新された音響伝達関数に最適化アルゴリズムを適用することが可能である。サウンドフィルタモジュール385は、更新されたサウンドフィルタをスピーカーアレイ320に提供することが可能である。サウンドシーンにおけるいくつかのまたはすべての音源を分類したら、サウンドフィルタを適用して、選択された音源を強調または抑制することが可能である。選択される音源は、所与のシナリオ、ユーザの入力、または、本明細書において記述されているようにデバイスによって採用されるさまざまなアルゴリズムに基づいて決定されることが可能である。
パーソナルアシスタントモジュール390は、サウンドシーン分析に関する有用な情報をユーザに提供するように構成されている。パーソナルアシスタントモジュール390は、スピーカーアレイ320、またはウェアラブルデバイス上の視覚的ディスプレイを介してユーザに情報を提供することが可能である。たとえば、パーソナルアシスタントモジュール390は、さまざまな音源の数、場所、および分類をユーザに提供することが可能である。パーソナルアシスタントモジュール390は、人間の音源からの発話を文字に起こすことが可能である。パーソナルアシスタントモジュール390は、特定の人が分類ライブラリにおいてリストアップされている場合のその人に関する情報、または機械的音源の型式およびモデルなど、音源に関する記述的な情報を提供することが可能である。
加えて、パーソナルアシスタントモジュール390は、サウンドシーンの予測分析を提供することが可能である。たとえば、パーソナルアシスタントモジュール390は、トラッキングモジュール360によって提供された空間情報に基づいて、分類モジュール380によって車両として識別された音源がユーザの方向に急速に移動しているということを特定することが可能であり、パーソナルアシスタントモジュール390は、その車両の移動についての通知を生成して、ユーザがその車両によって衝突される危険があるということを、スピーカーアレイ320または視覚的ディスプレイを介してユーザに警告することが可能である。いくつかの実施形態においては、パーソナルアシスタントモジュール390は、どの音源が増幅されるべきであり、どの音源が減衰されるべきであるかに関して、ユーザからの入力を予測または要求することが可能である。たとえば、パーソナルアシスタントモジュール390は、ユーザとの、またはその他のユーザとの以前に格納された対話に基づいて、ユーザにとって最も近い人間の音源からの音が増幅されるべきであり、その他のすべての音源が減衰されるべきであるということを特定することが可能である。これは、うるさい環境において会話をする際にユーザを支援することが可能である。上記の特定の例は、パーソナルアシスタントモジュール390およびオーディオシステム300に関する多くの利用可能な使用のうちのわずかな部分を表しているということを当業者なら認識するであろう。
図4は、1つまたは複数の実施形態による、オーディオシステム(たとえば、オーディオシステム300)を含むウェアラブルデバイス(たとえば、ウェアラブルデバイス100)のための音響伝達関数を生成および更新するプロセス400を示すフローチャートである。一実施形態においては、図4のプロセスは、オーディオシステムのコンポーネントによって実行される。その他のエンティティーが、このプロセスのステップのうちのいくつかまたはすべてをその他の実施形態において実行することが可能である(たとえば、コンソールまたはリモートサーバ)。同様に、実施形態は、異なるおよび/もしくは追加のステップを含むこと、またはステップを異なる順序で実行することが可能である。
オーディオシステムは、ウェアラブルデバイスを取り巻くローカルエリアにおける1つまたは複数の音源からの音を410で検知する。いくつかの実施形態においては、オーディオシステムは、それぞれの検知された音に関連付けられている情報をオーディオデータセットに格納する。
いくつかの実施形態においては、オーディオシステムは、ローカルエリアにおけるウェアラブルデバイスの位置を推定する。推定位置は、ウェアラブルデバイスの場所、および/またはウェアラブルデバイスもしくはウェアラブルデバイスを装着しているユーザの頭の向き、またはそれらの何らかの組合せを含むことが可能である。一実施形態においては、ウェアラブルデバイスは、ウェアラブルデバイスの動きに応答して1つまたは複数の測定信号を生成する1つまたは複数のセンサを含むことが可能である。オーディオシステムは、ウェアラブルデバイスの初期位置に対するウェアラブルデバイスの現在の位置を推定することが可能である。別の実施形態においては、オーディオシステムは、外部システム(たとえば、撮像アセンブリ、ARまたはVRコンソール、SLAMシステム、奥行きカメラアセンブリ、構造化照明システムなど)からウェアラブルデバイスの位置情報を受信することが可能である。
オーディオシステムは、検知された音に関連付けられている1つまたは複数の音響伝達関数を420で推定する。音響伝達関数は、アレイ伝達関数(ATF)または頭部伝達関数(HRTF)であることが可能である。したがって、それぞれの音響伝達関数は、検知された音の別々の音源場所、マイクロフォンアレイの別々の位置、またはそれらの何らかの組合せに関連付けられている。結果として、オーディオシステムは、ローカルエリアにおける特定の音源場所および/またはマイクロフォンアレイの位置に関して複数の音響伝達関数を推定することが可能である。
オーディオシステムは、ウェアラブルデバイスの位置に対して、それぞれの検知された音に関する到来方向(DoA)推定を430で実行する。DoA推定は、検知された音の推定音源場所と、ローカルエリア内のウェアラブルデバイスの位置との間におけるベクトルとして表されることが可能である。いくつかの実施形態においては、オーディオシステムは、パラメータ条件を満たしているパラメータに関連付けられている検知された音に関してDoA推定を実行することが可能である。たとえば、パラメータがしきい値を上回っている、もしくは下回っている、または目標範囲内にある場合には、パラメータ条件が満たされることが可能である。ウェアラブルデバイスは、それぞれのDoA推定に関する信頼水準を計算することが可能である。たとえば、信頼水準は、1~100の範囲であることが可能であり、この場合、100という理論上の信頼水準は、DoA推定において不確実性がゼロであるということを表し、1という信頼水準は、DoA推定における高い水準の不確実性を表す。DoA推定と、それらのDoA推定に関する信頼水準とに基づいて、オーディオシステムは、音響伝達関数を更新することが可能である。
オーディオシステムは、1つまたは複数の音源の場所における変化を440で検知する。オーディオシステムは、以前に推定されたDoAの履歴を格納することが可能である。いくつかの実施形態においては、オーディオシステムは、1秒に1回、または1ミリ秒に1回など、周期的なスケジュールでDoA推定を再計算することが可能である。オーディオシステムは、現在のDoAを以前のDoAと比較することが可能であり、音源に関するDoAにおける変化に応答して、オーディオシステムは、その音源が移動したということを特定することが可能である。いくつかの実施形態においては、ウェアラブルデバイスは、ウェアラブルデバイスによって受信された視覚情報、または外部データソースから受信された情報に基づいて、場所における変化を検知することが可能である。オーディオシステムは、経時的に1つまたは複数の音源の移動を追跡することが可能である。ウェアラブルデバイスは、移動における変化のそれぞれの特定のための信頼水準を計算することが可能である。音源のトラッキングと、場所における変化に関する信頼水準とに基づいて、オーディオシステムは、音響伝達関数を更新することが可能である。
マイクロフォンアレイの位置がローカルエリア内で変わった場合には、オーディオシステムは、1つもしくは複数の新たな音響伝達関数を生成すること、またはそれに応じて1つもしくは複数の既存の音響伝達関数を更新することが可能である。
オーディオシステムは、別々の音源の方向において450でビームを形成する。たとえば、オーディオシステムは、さらなる分析のために別々の音源からの信号を切り離すためにビームフォーミングプロセスを利用することが可能である。オーディオシステムは、それぞれのビームから受信された音を独立して分析および処理することが可能である。オーディオシステムは、それぞれのビームから受信された信号を強化することが可能である。オーディオシステムは、ビームフォーミングプロセスに関する信頼水準を計算し、音源からの分離された信号およびそれらのそれぞれの信頼水準を使用して、音響伝達関数を更新することが可能である。
オーディオシステムは、音源を460で分類することが可能である。オーディオシステムは、音源から受信された信号を、既知の分類に関連付けられている信号と比較することが可能である。たとえば、オーディオシステムは、分類ライブラリにおける人間の分類の特徴との類似性に基づいて、音源を人間として分類することが可能である。オーディオシステムは、分類に関する信頼水準を計算し、音源の分類およびそれらのそれぞれの信頼水準を使用して、音響伝達関数を更新することが可能である。
オーディオシステムは、スピーカーアレイを使用してサウンドコンテンツを470で提示することが可能である。トラッキング、ビームフォーミング、およびサウンド分類に基づいて、オーディオシステムは、サウンドフィルタを生成および/または更新し、それらのサウンドフィルタをスピーカーアレイに提供する。スピーカーアレイは、サウンドフィルタを使用してオーディオコンテンツを提示する。サウンドフィルタは、いくつかの音を増幅して、その他の音を抑制することをスピーカーアレイに行わせることが可能である。増幅および抑制に関する特定の使用は、任意の所望の目的をカバーすることが可能である。たとえば、サウンドフィルタは、人間の音源として識別されている音源からの音を増幅させる一方で、ファンなど、迷惑な音源として識別された音源からの音を抑制することをスピーカーアレイに行わせることが可能であり、サウンドフィルタは、発話を抑制し、ホワイトノイズを増幅して、作業の間の注意散漫を低減することが可能であり、サウンドフィルタは、接近する車両の音を増幅して、ユーザに警告することが可能であり、サウンドフィルタは、泣いている赤ん坊の音を増幅して、注意を引くことが可能である、といった具合である。
オーディオシステムは、音響伝達関数を480で調整することが可能である。オーディオシステムは、DoA推定、音源の場所における変化、音源の分離、または音源の分類のうちの少なくとも1つに基づいて音響伝達関数を調整することが可能である。加えて、オーディオシステムは、それぞれの入力に関する信頼水準を使用して、音響伝達関数を調整することが可能である。伝達関数モジュールは、現在の/既知の音響伝達関数を、オーディオ信号の最新の断片から抽出された新たな/新鮮な音響伝達関数と組み合わせることによって、音響伝達関数を調整する。音響伝達関数は、特定の重みと組み合わされ、それらの重みは、さまざまなモジュールからの信頼水準に基づいて選択されることが可能である。重みは、その他のすべてのモジュールから受け取られた全体的な信頼度に正比例することが可能である。たとえば、高い信頼度は、現在の音響伝達関数が正確であるということを意味し、したがって、適応が遅くなる、または停止される可能性があり、つまり、高い重み(たとえば、0.5よりも大きい)が、既知の音響伝達関数コンポーネントに割り振られることが可能であり、低い重み(たとえば、0.5未満)が、新たなデータに割り振られることが可能である。対照的に、組み合わされた信頼度が現在の音響伝達関数にとって低い場合には、迅速な適応が必要とされる可能性があり、そのケースにおいては、高い重みが、最近のオーディオデータから抽出された音響伝達関数に割り振られることが可能である。
いくつかの実施形態においては、オーディオシステムは、プロセス400全体の任意の時点で音響伝達関数を更新することが可能である。更新された音響関数を使用して、DoA推定を実行すること、音源を追跡すること、音源に関するビームを形成すること、音源を識別すること、サウンドフィルタをスピーカーアレイに提供すること、およびオーディオコンテンツを提示することが可能である。
プロセス400は、(たとえば、NEDに結合されている)マイクロフォンアレイを装着しているユーザがローカルエリアの中を移動するにつれて継続的に繰り返されることが可能であり、またはプロセス400は、マイクロフォンアレイを介して音を検知したときに開始されることが可能である。プロセス400のステップの結果を、音響伝達関数の推定のための入力であることが可能であるフィードバックとして使用することによって、音響伝達関数、ならびにオーディオシステムおよびウェアラブルデバイスの全体的なパフォーマンスが継続的に改善されることが可能である。
人工現実システムの例
図5は、1つまたは複数の実施形態による、オーディオシステム510を含むウェアラブルデバイス505のシステム環境である。システム500は、人工現実環境において動作することが可能である。図5によって示されているシステム500は、ウェアラブルデバイス505と、コンソール501に結合されている入力/出力(I/O)インターフェース515とを含む。ウェアラブルデバイス505は、ウェアラブルデバイス100の一実施形態であることが可能である。図5は、1つのウェアラブルデバイス505と、1つのI/Oインターフェース515とを含む例示的なシステム500を示しているが、その他の実施形態においては、任意の数のこれらのコンポーネントがシステム500に含まれることが可能である。たとえば、複数のウェアラブルデバイス505があることが可能であり、それらのそれぞれが、関連付けられているI/Oインターフェース515を有し、それぞれのウェアラブルデバイス505およびI/Oインターフェース515が、コンソール501と通信する。代替構成においては、異なるおよび/または追加のコンポーネントがシステム500に含まれることが可能である。加えて、図5において示されているコンポーネントのうちの1つまたは複数と関連して記述されている機能性は、いくつかの実施形態においては、図5と関連して記述されているのとは異なる様式でコンポーネント間において分散されることが可能である。たとえば、コンソール501の機能性のいくつかまたはすべては、ウェアラブルデバイス505によって提供される。
図5は、1つまたは複数の実施形態による、オーディオシステム510を含むウェアラブルデバイス505のシステム環境である。システム500は、人工現実環境において動作することが可能である。図5によって示されているシステム500は、ウェアラブルデバイス505と、コンソール501に結合されている入力/出力(I/O)インターフェース515とを含む。ウェアラブルデバイス505は、ウェアラブルデバイス100の一実施形態であることが可能である。図5は、1つのウェアラブルデバイス505と、1つのI/Oインターフェース515とを含む例示的なシステム500を示しているが、その他の実施形態においては、任意の数のこれらのコンポーネントがシステム500に含まれることが可能である。たとえば、複数のウェアラブルデバイス505があることが可能であり、それらのそれぞれが、関連付けられているI/Oインターフェース515を有し、それぞれのウェアラブルデバイス505およびI/Oインターフェース515が、コンソール501と通信する。代替構成においては、異なるおよび/または追加のコンポーネントがシステム500に含まれることが可能である。加えて、図5において示されているコンポーネントのうちの1つまたは複数と関連して記述されている機能性は、いくつかの実施形態においては、図5と関連して記述されているのとは異なる様式でコンポーネント間において分散されることが可能である。たとえば、コンソール501の機能性のいくつかまたはすべては、ウェアラブルデバイス505によって提供される。
ウェアラブルデバイス505は、コンピュータによって生成された要素(たとえば、2次元(2D)または3次元(3D)画像、2Dまたは3Dビデオ、サウンドなど)を伴う物理的な現実世界環境の拡張ビューを含むコンテンツをユーザに提示する。ウェアラブルデバイス505は、アイウェアデバイスまたはヘッドマウントディスプレイであることが可能である。いくつかの実施形態においては、提示されるコンテンツは、オーディオシステム300を介して提示されるオーディオコンテンツを含み、オーディオシステム300は、ウェアラブルデバイス505、コンソール501、または両方からオーディオ情報(たとえば、オーディオ信号)を受信し、そのオーディオ情報に基づいてオーディオコンテンツを提示する。
ウェアラブルデバイス505は、オーディオシステム510、奥行きカメラアセンブリ(DCA)520、電子ディスプレイ525、光学ブロック530、1つまたは複数の位置センサ535、および慣性測定ユニット(IMU)540を含む。電子ディスプレイ525および光学ブロック530は、図1のレンズ110の一実施形態である。位置センサ535およびIMU540は、図1のセンサデバイス115の一実施形態である。ウェアラブルデバイス505のいくつかの実施形態は、図5と関連して記述されているものとは異なるコンポーネントを有する。加えて、図5と関連して記述されているさまざまなコンポーネントによって提供される機能性は、その他の実施形態においてはウェアラブルデバイス505のコンポーネント間で異なって分散されること、またはウェアラブルデバイス505から離れている別個のアセンブリに取り込まれることが可能である。
オーディオシステム510は、音を検知して、ユーザのための1つまたは複数の音響伝達関数を生成する。オーディオシステム510は次いで、1つまたは複数の音響伝達関数を使用して、ユーザのためのオーディオコンテンツを生成することが可能である。オーディオシステム510は、オーディオシステム300の一実施形態であることが可能である。図3に関連して記述されているように、オーディオシステム510は、その他のコンポーネントのうちでも、マイクロフォンアレイ、コントローラ、およびスピーカーアレイを含むことが可能である。マイクロフォンアレイは、マイクロフォンアレイを取り巻くローカルエリア内の音を検知する。マイクロフォンアレイは、複数の音響センサを含むことが可能であり、それらの音響センサは、音波の気圧変動をそれぞれ検知して、検知された音を電子フォーマット(アナログまたはデジタル)へと変換する。コントローラは、マイクロフォンアレイによって検知された音に関してDoA推定を実行する。検知された音のDoA推定と、検知された音に関連付けられているパラメータとに部分的に基づいて、コントローラは、検知された音の音源場所に関連付けられている1つまたは複数の音響伝達関数を生成する。音響伝達関数は、ATF、HRTF、その他のタイプの音響伝達関数、またはそれらの何らかの組合せであることが可能である。コントローラは、空間におけるいくつかの異なる点から来ているように感じられるオーディオコンテンツをスピーカーアレイが放出するための命令を生成することが可能である。オーディオシステム510は、音の場所を追跡すること、音の場所の周りにビームを形成すること、および音を分類することが可能である。トラッキング、ビームフォーミング、および分類の結果、ならびにあらゆる関連付けられている信頼水準をコントローラに入力して、音響伝達関数を更新することが可能である。
DCA520は、ウェアラブルデバイス505のうちのいくつかまたはすべてを取り巻くローカル環境の奥行き情報を記述するデータを取り込む。DCA520は、光発生器(たとえば、飛行時間に関する構造化光および/またはフラッシュ)と、撮像デバイスと、光発生器および撮像デバイスの両方に結合されることが可能であるDCAコントローラとを含むことが可能である。光発生器は、たとえば、DCAコントローラによって生成された放出命令に従って、照明光でローカルエリアを照明する。DCAコントローラは、放出命令に基づいて、光発生器の特定のコンポーネントのオペレーションを制御するように、たとえば、ローカルエリアを照明する照明光の強度およびパターンを調整するように構成されている。いくつかの実施形態においては、照明光は、構造化光パターン、たとえば、ドットパターン、ラインパターンなどを含むことが可能である。撮像デバイスは、照明光で照らされているローカルエリアにおける1つまたは複数の物体の1つまたは複数の画像を取り込む。DCA520は、撮像デバイスによって取り込まれたデータを使用して奥行き情報を算出することが可能であり、またはDCA520は、DCA520からのデータを使用して奥行き情報を特定することが可能であるコンソール501などの別のデバイスへこの情報を送ることが可能である。
いくつかの実施形態においては、オーディオシステム510は、1つもしくは複数の潜在的な音源の方向、1つもしくは複数の音源の奥行き、1つもしくは複数の音源の移動、1つもしくは複数の音源の周りの音の活動、またはそれらの任意の組合せを識別する際に助けとなることが可能である奥行き情報を利用することが可能である。
電子ディスプレイ525は、コンソール501から受信されたデータに従って2Dまたは3D画像をユーザに表示する。さまざまな実施形態においては、電子ディスプレイ525は、単一の電子ディスプレイまたは複数の電子ディスプレイ(たとえば、ユーザのそれぞれの目のためのディスプレイ)を含む。電子ディスプレイ525の例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波管ディスプレイ、その他の何らかのディスプレイ、またはそれらの何らかの組合せを含む。
いくつかの実施形態においては、光学ブロック530は、電子ディスプレイ525から受信された画像光を拡大し、その画像光に関連付けられている光学エラーを補正し、補正された画像光をウェアラブルデバイス505のユーザに提示する。さまざまな実施形態においては、光学ブロック530は、1つまたは複数の光学要素を含む。光学ブロック530に含まれる例示的な光学要素は、導波管、アパーチャー、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または、画像光に影響を与えるその他の任意の適切な光学要素を含む。その上、光学ブロック530は、さまざまな光学要素の組合せを含むことが可能である。いくつかの実施形態においては、光学ブロック530における光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有することが可能である。
光学ブロック530による画像光の拡大および集束は、電子ディスプレイ525が、より大きなディスプレイよりも物理的に小さいこと、軽量であること、およびより少ない電力を消費することを可能にする。加えて、拡大は、電子ディスプレイ525によって提示されるコンテンツの視野を広げることが可能である。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角およそ110度)を、そしていくつかのケースにおいては、すべてを使用して提示されるようになっている。加えて、いくつかの実施形態においては、拡大の量は、光学要素を追加または除去することによって調整されることが可能である。
いくつかの実施形態においては、光学ブロック530は、1つまたは複数のタイプの光学エラーを補正するように設計されることが可能である。光学エラーの例は、たる形もしくは糸巻型歪み、縦色収差、または横色収差を含む。その他のタイプの光学エラーはさらに、球面収差、色収差、または、像面湾曲、非点収差、もしくはその他の任意のタイプの光学エラーに起因するエラーを含むことが可能である。いくつかの実施形態においては、表示のために電子ディスプレイ525に提供されるコンテンツは、事前に歪められており、光学ブロック530は、そのコンテンツに基づいて生成された電子ディスプレイ525からの画像光を受信する際に歪みを補正する。
IMU540は、位置センサ535のうちの1つまたは複数から受信された測定信号に基づいてウェアラブルデバイス505の位置を示すデータを生成する電子デバイスである。位置センサ535は、ウェアラブルデバイス505の動きに応答して1つまたは複数の測定信号を生成する。位置センサ535の例は、1つもしくは複数の加速度計、1つもしくは複数のジャイロスコープ、1つもしくは複数の磁力計、動きを検知する別の適切なタイプのセンサ、IMU540のエラー補正のために使用されるタイプのセンサ、またはそれらの何らかの組合せを含む。位置センサ535は、IMU540の外部に、IMU540の内部に、またはそれらの何らかの組合せで配置されることが可能である。1つまたは複数の実施形態においては、IMU540および/または位置センサ535は、オーディオシステム300によって提供されるオーディオコンテンツに対するユーザの応答をモニタすることが可能なモニタリングデバイスであることが可能である。
1つまたは複数の位置センサ535からの1つまたは複数の測定信号に基づいて、IMU540は、ウェアラブルデバイス505の初期位置に対するウェアラブルデバイス505の推定現在位置を示すデータを生成する。たとえば、位置センサ535は、並進運動(前方/後方、上方/下方、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、およびロール)を測定するための複数のジャイロスコープとを含む。いくつかの実施形態においては、IMU540は、測定信号を迅速にサンプリングし、サンプリングされたデータからウェアラブルデバイス505の推定現在位置を計算する。たとえば、IMU540は、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、経時的に速度ベクトルを統合してウェアラブルデバイス505上の基準点の推定現在位置を特定する。あるいは、IMU540は、サンプリングされた測定信号をコンソール501に提供し、コンソール501は、そのデータを解釈してエラーを低減する。基準点とは、ウェアラブルデバイス505の位置を記述するために使用されることが可能である点である。基準点は一般に、空間における点、またはアイウェアデバイス505の向きおよび位置に関連した位置として定義されることが可能である。
I/Oインターフェース515は、ユーザがアクション要求を送ってコンソール501から応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行するための要求である。たとえば、アクション要求は、画像もしくはビデオデータの取り込みを開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実行するための命令であることが可能である。I/Oインターフェース515は、1つまたは複数の入力デバイスを含むことが可能である。例示的な入力デバイスは、キーボード、マウス、ハンドコントローラ、またはアクション要求を受信してそれらのアクション要求をコンソール501に通信するためのその他の任意の適切なデバイスを含む。I/Oインターフェース515によって受信されたアクション要求は、コンソール501に通信され、コンソール501は、そのアクション要求に対応するアクションを実行する。いくつかの実施形態においては、I/Oインターフェース515は、上でさらに記述されているIMU540を含み、IMU540は、I/Oインターフェース515の初期位置に対するI/Oインターフェース515の推定位置を示す較正データを取り込む。いくつかの実施形態においては、I/Oインターフェース515は、コンソール501から受信された命令に従って触覚フィードバックをユーザに提供することが可能である。たとえば、アクション要求が受信されたときに触覚フィードバックが提供され、またはコンソール501が命令をI/Oインターフェース515に通信して、コンソール501がアクションを実行するときにI/Oインターフェース515に触覚フィードバックを生成させる。I/Oインターフェース515は、オーディオコンテンツの知覚された起点方向および/または知覚された起点場所を特定する際に使用するために、ユーザからの1つまたは複数の入力応答をモニタすることが可能である。
コンソール501は、ウェアラブルデバイス505およびI/Oインターフェース515のうちの1つまたは複数から受信された情報に従って処理するために、ウェアラブルデバイス505にコンテンツを提供する。図5において示されている例においては、コンソール501は、アプリケーションストア550、トラッキングモジュール555、およびエンジン545を含む。コンソール501のいくつかの実施形態は、図5と関連して記述されているものとは異なるモジュールまたはコンポーネントを有する。同様に、以降でさらに記述されている機能は、図5と関連して記述されているのとは異なる様式でコンソール501のコンポーネント間において分散されることが可能である。
アプリケーションストア550は、コンソール501による実行のための1つまたは複数のアプリケーションを格納する。アプリケーションは、命令のグループであり、このグループは、プロセッサによって実行されたときに、ユーザへの提示のためのコンテンツを生成する。アプリケーションによって生成されるコンテンツは、ウェアラブルデバイス505またはI/Oインターフェース515の動きを介してユーザから受信された入力に応答していることが可能である。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、またはその他の適切なアプリケーションを含む。
トラッキングモジュール555は、1つまたは複数の較正パラメータを使用してシステム環境500を較正し、1つまたは複数の較正パラメータを調整して、ウェアラブルデバイス505の、またはI/Oインターフェース515の位置の特定におけるエラーを低減することが可能である。トラッキングモジュール555によって実行される較正はまた、ウェアラブルデバイス505におけるIMU540、および/またはI/Oインターフェース515に含まれているIMU540から受信された情報を考慮する。加えて、ウェアラブルデバイス505のトラッキングが失われた場合には、トラッキングモジュール555は、システム環境500の一部または全部を再較正することが可能である。
トラッキングモジュール555は、1つまたは複数の位置センサ535、IMU540、DCA520、またはそれらの何らかの組合せからの情報を使用して、ウェアラブルデバイス505の、またはI/Oインターフェース515の移動を追跡する。たとえば、トラッキングモジュール555は、ウェアラブルデバイス505からの情報に基づいてローカルエリアのマッピングにおけるウェアラブルデバイス505の基準点の位置を特定する。トラッキングモジュール555は、それぞれ、IMU540からのウェアラブルデバイス505の位置を示すデータを使用して、またはI/Oインターフェース515に含まれているIMU540からのI/Oインターフェース515の位置を示すデータを使用して、ウェアラブルデバイス505の基準点またはI/Oインターフェース515の基準点の位置を特定することも可能である。加えて、いくつかの実施形態においては、トラッキングモジュール555は、IMU540からの位置またはウェアラブルデバイス505を示すデータの部分を使用して、ウェアラブルデバイス505の今後の位置を予測することが可能である。トラッキングモジュール555は、ウェアラブルデバイス505またはI/Oインターフェース515の推定または予測された今後の位置をエンジン545に提供する。いくつかの実施形態においては、トラッキングモジュール555は、サウンドフィルタを生成する際に使用するためにトラッキング情報をオーディオシステム300に提供することが可能である。
エンジン545はまた、システム環境500内でアプリケーションを実行し、トラッキングモジュール555からウェアラブルデバイス505の位置情報、加速度情報、速度情報、予測される今後の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン545は、ユーザへの提示のためにウェアラブルデバイス505に提供するためのコンテンツを特定する。たとえば、受信された情報が、ユーザが左を見たということを示している場合には、エンジン545は、仮想環境において、または追加のコンテンツを用いてローカルエリアを拡張する環境においてユーザの移動を反映するウェアラブルデバイス505のためのコンテンツを生成する。加えて、エンジン545は、I/Oインターフェース515から受信されたアクション要求に応答して、コンソール501上で実行しているアプリケーション内でアクションを実行し、そのアクションが実行されたというフィードバックをユーザに提供する。提供されるフィードバックは、ウェアラブルデバイス505を介した視覚フィードバックもしくは可聴式フィードバック、またはI/Oインターフェース515を介した触覚フィードバックであることが可能である。
さらなる構成情報
本開示の実施形態についての前述の記述は、例示の目的のために提示されており、網羅的であること、または開示されている厳密な形態に本開示を限定することを意図されているものではない。関連技術分野における技術者なら、上記の開示に照らせば多くの修正および変形が可能であるということを理解することが可能である。
本開示の実施形態についての前述の記述は、例示の目的のために提示されており、網羅的であること、または開示されている厳密な形態に本開示を限定することを意図されているものではない。関連技術分野における技術者なら、上記の開示に照らせば多くの修正および変形が可能であるということを理解することが可能である。
この記述のいくつかの部分は、情報上でのオペレーションのアルゴリズムおよびシンボル表示という点から本開示の実施形態について記述している。これらのアルゴリズム的な記述および表示は一般に、データ処理技術分野における技術者たちによって、それらの技術者たちの作業の実体を他の当業者たちに効果的に伝達するために使用されている。これらのオペレーションは、機能的に、計算処理的に、または論理的に記述されているが、コンピュータプログラムまたは均等な電気回路、マイクロコードなどによって実施されるということが理解される。さらに、一般性を失うことなく、モジュールとしてオペレーションのこれらのアレンジに言及することが時として好都合であることもわかっている。記述されているオペレーションおよびそれらの関連付けられているモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せで具体化されることが可能である。
本明細書において記述されているステップ、オペレーション、またはプロセスのうちのいずれも、1つもしくは複数のハードウェアモジュールもしくはソフトウェアモジュールを用いて、単独で、またはその他のデバイスと組み合わせて実行または実施されることが可能である。一実施形態においては、ソフトウェアモジュールは、記述されているステップ、オペレーション、またはプロセスのうちのいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されることが可能であるコンピュータプログラムコードを含むコンピュータ可読メディアを含むコンピュータプログラム製品とともに実装される。
本開示の実施形態は、本明細書におけるオペレーションを実行するための装置に関連することも可能である。この装置は、求められている目的のために特別に構築されることが可能であり、および/または、コンピュータに格納されているコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用コンピューティングデバイスを含むことが可能である。そのようなコンピュータプログラムは、コンピュータシステムバスへ結合されることが可能である、非一時的な有形のコンピュータ可読記憶媒体、または電子命令を格納するのに適している任意のタイプのメディアに格納されることが可能である。さらに、本明細書において言及されているあらゆるコンピューティングシステムは、シングルプロセッサを含むことが可能であり、またはコンピューティング機能を高めるためにマルチプロセッサ設計を採用しているアーキテクチャーであることが可能である。
本開示の実施形態は、本明細書において記述されているコンピューティングプロセスによって製造される製品に関連することも可能である。そのような製品は、コンピューティングプロセスから生じる情報を含むことが可能であり、それらの情報は、非一時的な有形のコンピュータ可読記憶媒体上に格納され、本明細書において記述されているコンピュータプログラム製品またはその他のデータの組合せの任意の実施形態を含むことが可能である。
最後に、本明細書において使用されている言葉は、主として読みやすさおよび教示上の目的で選択されており、本発明の主題の線引きまたは画定を行うために選択されてはいない場合がある。したがって、本開示の範囲は、この詳細な記述によってではなく、むしろ本明細書に基づく出願上で生じるあらゆる請求項によって限定されるということが意図されている。したがって、実施形態の開示は、本開示の範囲を例示するものであり、本開示の範囲を限定するものではないということが意図されており、本開示の範囲は、添付の特許請求の範囲において示されている。
Claims (15)
- ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける1つまたは複数の音源からの音を検知することと、
前記音に関連付けられている音響伝達関数を推定することと、
前記1つまたは複数の音源のうちの1つの音源の到来方向(DoA)を推定することと、
前記音源の移動を追跡することと、
前記音源の前記移動に基づいて前記音響伝達関数を更新することと
を含む、方法。 - 分類ライブラリに基づいて前記音源を分類することをさらに含む、請求項1に記載の方法。
- 前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離することをさらに含む、請求項1に記載の方法。
- 前記追跡することに関する第1の信頼水準、前記分類することに関する第2の信頼水準、およびビームフォーミングプロセスに関する第3の信頼水準を計算することをさらに含み、そのケースにおいては、任意選択で、前記第1の信頼水準、前記第2の信頼水準、または前記第3の信頼水準のうちの少なくとも1つに基づいて前記音響伝達関数を更新することをさらに含む、請求項2に記載の方法。
- a)前記追跡することが、
経時的に、1つもしくは複数の前記音源の数および場所についての値を格納することと、
前記数もしくは前記場所のうちの少なくとも1つにおける変化を検知することとを含むか、または
b)更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することと
をさらに含むか、
のうちのいずれか1つまたは複数である、請求項1に記載の方法。 - オーディオシステムであって、
前記オーディオシステムのローカルエリアにおける1つまたは複数の音源からの音を検知するように構成されているマイクロフォンアレイと、
コントローラとを備え、前記コントローラが、
ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける1つまたは複数の音源からの音を検知すること、
前記音に関連付けられている音響伝達関数を推定すること、
前記1つまたは複数の音源のうちの1つの音源の到来方向(DoA)を推定すること、
前記音源の移動を追跡すること、および
前記音源の前記移動に基づいて前記音響伝達関数を更新すること
を行うように構成されている、オーディオシステム。 - 前記コントローラがさらに、分類ライブラリに基づいて前記音源を分類するように構成されている、請求項6に記載のオーディオシステム。
- 前記コントローラがさらに、前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離するように構成されている、請求項6に記載のオーディオシステム。
- 前記コントローラがさらに、前記追跡することに関する第1の信頼水準、分類することに関する第2の信頼水準、およびビームフォーミングプロセスに関する第3の信頼水準を計算するように構成されており、そのケースにおいては、任意選択で、前記コントローラがさらに、前記第1の信頼水準、前記第2の信頼水準、または前記第3の信頼水準のうちの少なくとも1つに基づいて前記音響伝達関数を更新するように構成されている、請求項7に記載のオーディオシステム。
- a)前記移動の前記追跡が、
経時的に、1つもしくは複数の前記音源の数および場所についての値を格納することと、
前記数もしくは前記場所のうちの少なくとも1つにおける変化を検知することとを含むか、または
b)前記コントローラがさらに、
更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することとを行うように構成されているか、または、
c)前記コントローラがさらに、前記音源の前記移動の通知を生成するように構成されているか、
のうちのいずれか1つである、請求項6に記載のオーディオシステム。 - プロセッサによって実行可能な命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、実行されたときに、
ウェアラブルデバイスのマイクロフォンアレイを介して、前記ウェアラブルデバイスのローカルエリアにおける1つまたは複数の音源からの音を検知することと、
前記音に関連付けられている音響伝達関数を推定することと、
前記1つまたは複数の音源のうちの1つの音源の到来方向(DoA)を推定することと、
前記音源の移動を追跡することと、
前記音源の前記移動に基づいて前記音響伝達関数を更新することとを含むアクションを前記プロセッサに実行させる、非一時的コンピュータ可読記憶媒体。 - 前記アクションがさらに、分類ライブラリに基づいて前記音源を分類することを含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
- 前記アクションがさらに、前記音源からの信号を前記ウェアラブルデバイスの前記ローカルエリアにおけるその他の音源から分離することを含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
- 前記アクションがさらに、前記追跡することに関する第1の信頼水準、前記分類することに関する第2の信頼水準、およびビームフォーミングプロセスに関する第3の信頼水準を計算することを含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
- 前記アクションがさらに、
更新された前記音響伝達関数に部分的に基づいてサウンドフィルタを更新することと、
更新された前記サウンドフィルタに基づいてオーディオコンテンツを提示することとを含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/379,450 | 2019-04-09 | ||
US16/379,450 US10957299B2 (en) | 2019-04-09 | 2019-04-09 | Acoustic transfer function personalization using sound scene analysis and beamforming |
PCT/US2020/025942 WO2020210084A1 (en) | 2019-04-09 | 2020-03-31 | Acoustic transfer function personalization using sound scene analysis and beamforming |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022521886A true JP2022521886A (ja) | 2022-04-13 |
Family
ID=70296158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021540813A Pending JP2022521886A (ja) | 2019-04-09 | 2020-03-31 | サウンドシーン分析とビームフォーミングとを使用する音響伝達関数のパーソナライゼーション |
Country Status (6)
Country | Link |
---|---|
US (2) | US10957299B2 (ja) |
EP (1) | EP3954136A1 (ja) |
JP (1) | JP2022521886A (ja) |
KR (1) | KR20210148327A (ja) |
CN (1) | CN113692750A (ja) |
WO (1) | WO2020210084A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10728655B1 (en) | 2018-12-17 | 2020-07-28 | Facebook Technologies, Llc | Customized sound field for increased privacy |
EP3990937A1 (en) * | 2019-07-24 | 2022-05-04 | Huawei Technologies Co., Ltd. | Apparatus for determining spatial positions of multiple audio sources |
TWI740339B (zh) * | 2019-12-31 | 2021-09-21 | 宏碁股份有限公司 | 自動調整特定聲源的方法及應用其之電子裝置 |
US11064282B1 (en) * | 2020-04-24 | 2021-07-13 | Bose Corporation | Wearable audio system use position detection |
IT202000029336A1 (it) * | 2020-12-01 | 2022-06-01 | Acoesis S R L | Metodo di riproduzione di un segnale audio |
CN115938388A (zh) * | 2021-05-31 | 2023-04-07 | 华为技术有限公司 | 一种三维音频信号的处理方法和装置 |
KR20230063261A (ko) | 2021-11-01 | 2023-05-09 | 주식회사 엘지에너지솔루션 | 배터리 정보 압축 장치 및 방법 |
EP4191584A1 (en) * | 2021-12-02 | 2023-06-07 | Koninklijke Philips N.V. | An audio apparatus and method of operating therefor |
CN114257920B (zh) * | 2022-02-25 | 2022-07-29 | 北京荣耀终端有限公司 | 一种音频播放方法、系统和电子设备 |
GB2621590A (en) * | 2022-08-15 | 2024-02-21 | Sony Interactive Entertainment Europe Ltd | Method for generating a personalised HRTF |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040208324A1 (en) | 2003-04-15 | 2004-10-21 | Cheung Kwok Wai | Method and apparatus for localized delivery of audio sound for enhanced privacy |
EP1667487A4 (en) * | 2003-09-08 | 2010-07-14 | Panasonic Corp | AUDIO PICTURE DEVICE DEVICE TOOL AND AUDIO PICTURE CONTROLLER |
US20060109983A1 (en) | 2004-11-19 | 2006-05-25 | Young Randall K | Signal masking and method thereof |
US8059828B2 (en) | 2005-12-14 | 2011-11-15 | Tp Lab Inc. | Audio privacy method and system |
CN102257401B (zh) * | 2008-12-16 | 2014-04-02 | 皇家飞利浦电子股份有限公司 | 使用粒子滤波估计声源地点 |
WO2010122455A1 (en) * | 2009-04-21 | 2010-10-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesizing |
US11178489B2 (en) | 2012-02-02 | 2021-11-16 | Arris Enterprises Llc | Audio control module |
US9361903B2 (en) | 2013-08-22 | 2016-06-07 | Microsoft Technology Licensing, Llc | Preserving privacy of a conversation from surrounding environment using a counter signal |
US9263023B2 (en) | 2013-10-25 | 2016-02-16 | Blackberry Limited | Audio speaker with spatially selective sound cancelling |
EP2869599B1 (en) * | 2013-11-05 | 2020-10-21 | Oticon A/s | A binaural hearing assistance system comprising a database of head related transfer functions |
US9716939B2 (en) * | 2014-01-06 | 2017-07-25 | Harman International Industries, Inc. | System and method for user controllable auditory environment customization |
KR20170067682A (ko) | 2014-05-26 | 2017-06-16 | 블라디미르 셔먼 | 음향 신호 수집을 위한 코드 실행가능 방법, 회로, 장치, 시스템 및 관련 컴퓨터 |
US20160071526A1 (en) | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
US10142271B2 (en) | 2015-03-06 | 2018-11-27 | Unify Gmbh & Co. Kg | Method, device, and system for providing privacy for communications |
US9648438B1 (en) * | 2015-12-16 | 2017-05-09 | Oculus Vr, Llc | Head-related transfer function recording using positional tracking |
US9948256B1 (en) | 2017-03-27 | 2018-04-17 | International Business Machines Corporation | Speaker volume preference learning |
EP4184950A1 (en) * | 2017-06-09 | 2023-05-24 | Oticon A/s | A microphone system and a hearing device comprising a microphone system |
US10477310B2 (en) | 2017-08-24 | 2019-11-12 | Qualcomm Incorporated | Ambisonic signal generation for microphone arrays |
US11070912B2 (en) | 2018-06-22 | 2021-07-20 | Facebook Technologies, Llc | Audio system for dynamic determination of personalized acoustic transfer functions |
-
2019
- 2019-04-09 US US16/379,450 patent/US10957299B2/en active Active
-
2020
- 2020-03-31 JP JP2021540813A patent/JP2022521886A/ja active Pending
- 2020-03-31 CN CN202080027556.3A patent/CN113692750A/zh active Pending
- 2020-03-31 EP EP20720304.3A patent/EP3954136A1/en active Pending
- 2020-03-31 WO PCT/US2020/025942 patent/WO2020210084A1/en unknown
- 2020-03-31 KR KR1020217036292A patent/KR20210148327A/ko unknown
-
2021
- 2021-02-23 US US17/182,949 patent/US11361744B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR20210148327A (ko) | 2021-12-07 |
US20210183352A1 (en) | 2021-06-17 |
US20200327877A1 (en) | 2020-10-15 |
US11361744B2 (en) | 2022-06-14 |
EP3954136A1 (en) | 2022-02-16 |
WO2020210084A1 (en) | 2020-10-15 |
US10957299B2 (en) | 2021-03-23 |
CN113692750A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361744B2 (en) | Acoustic transfer function personalization using sound scene analysis and beamforming | |
JP7317115B2 (ja) | オーディオシステムのための修正されたオーディオ体験を生成すること | |
US10721521B1 (en) | Determination of spatialized virtual acoustic scenes from legacy audiovisual media | |
US10638252B1 (en) | Dynamic adjustment of signal enhancement filters for a microphone array | |
US11611826B1 (en) | Customized sound field for increased privacy | |
US11234092B2 (en) | Remote inference of sound frequencies for determination of head-related transfer functions for a user of a headset | |
KR20210141707A (ko) | 매핑 서버를 사용하는 헤드셋에 대한 음향 파라미터들의 결정 | |
CN113994715A (zh) | 用于人工现实环境的音频系统 | |
CN116134838A (zh) | 使用个性化声音简档的音频系统 | |
KR20220043164A (ko) | 센서 어레이의 음향 센서들의 서브세트 선택 방법 및 이를 위한 시스템 | |
KR20220034836A (ko) | 조직 전도 오디오 시스템에서의 누화 완화 | |
JP2022546161A (ja) | 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること | |
CN117981347A (zh) | 用于对虚拟声源进行空间化的音频系统 | |
CN115917353A (zh) | 音频源定位 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |