JP2022512075A - 環境のデータを使用するオーディオ増補 - Google Patents

環境のデータを使用するオーディオ増補 Download PDF

Info

Publication number
JP2022512075A
JP2022512075A JP2021526518A JP2021526518A JP2022512075A JP 2022512075 A JP2022512075 A JP 2022512075A JP 2021526518 A JP2021526518 A JP 2021526518A JP 2021526518 A JP2021526518 A JP 2021526518A JP 2022512075 A JP2022512075 A JP 2022512075A
Authority
JP
Japan
Prior art keywords
user
location
environment
audio
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021526518A
Other languages
English (en)
Inventor
アンドリュー ロビット,
スコット フィリップ セルフォン,
アントニオ ジョン ミラー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Facebook Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Facebook Technologies LLC filed Critical Facebook Technologies LLC
Publication of JP2022512075A publication Critical patent/JP2022512075A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/111Directivity control or beam pattern
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

予期される位置に従って方向性ビームフォーミングを実施するための開示されるコンピュータ実装方法は、環境内の音源を指示する環境データにアクセスすることを含み得る。デバイスは、ステアリング可能オーディオビームを生成するように構成された様々なオーディオハードウェア構成要素を含み得る。本方法は、アクセスされた環境データに基づいて環境内の音源のロケーションを識別することと、デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングすることとをも含み得る。様々な他の方法、システム、およびコンピュータ可読媒体も開示される。【選択図】図6

Description

関連出願の相互参照
本出願は、その開示全体がこの参照により組み込まれる、2018年12月4日に出願された米国非仮出願第16/208,596号の利益を主張する。
拡張現実(AR:augmented reality)デバイスおよび仮想現実(VR)デバイスは、ますます一般的になっている。ARデバイスは、一般に、ディスプレイと音源とを含む2つの主要構成要素を有し、VRデバイスは、一般に、ディスプレイと、音源と、触覚フィードバックをユーザに提供する触覚構成要素とを含む。ディスプレイは、VRの場合、フルヘッドセットであり得るか、または、ARの場合、一対の眼鏡であり得る。音源は、AR/VRデバイス自体に組み込まれるスピーカーを含み得るか、または、別個のイヤフォンを含み得る。
そのようなARシステムおよびVRシステムにおける現在のスピーカーは、一般に、多くのカスタマイゼーションなしにユーザのためのオーディオを再生するように設計される。いくつかの場合には、オーディオは、サラウンド音復号を使用して処理され得る。また、そのような場合、出力オーディオは、出力オーディオが、ある方向(たとえば、ユーザの前、横、または後ろ)から来ているように聞こえるように空間化され得る。ただし、オーディオ処理は、AR/VRデバイス自体が移動しているかどうか、またはデバイスがどこで移動しているか、または他のAR/VRデバイスがすぐ近くのエリア中に存在するかどうかを考慮に入れない。
以下でより詳細に説明されるように、本開示は、環境内の音源のロケーションを指示する環境データにアクセスし、次いで、オーディオ受信を改善するためにその方向にビームフォーミングする、方法およびシステムについて説明する。一例では、環境データに基づく方向性ビームフォーミングを実施するためのコンピュータ実装方法が、デバイスにおいて、環境内の少なくとも1つの音源の指示を含む環境データにアクセスすることを含み得る。オーディオビームを所与の人またはロケーションに「ビームフォーミング」するかまたはターゲットにするプロセスは、クリアでわかりやすいオーディオ信号をユーザに提供するプレイバックヘッドセットの能力を増加させ得る。オーディオビームは、オーディオ信号をキャプチャするためにマイクロフォンが向けられる集中領域であり得る。デバイスは、そのようなステアリング可能オーディオビームを生成するように構成されたオーディオハードウェア構成要素を含み得る。本方法は、アクセスされた環境データに基づいて環境内の音源のロケーションを識別することと、デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングすることとをも含み得る。
いくつかの例では、デバイスは、拡張現実(AR)または仮想現実(VR)デバイスであり得る。環境は複数のARまたはVRデバイスを含み得、各ARまたはVRデバイスはそれ自体のロケーションを記録する。いくつかの例では、環境は複数のARデバイスを含み得、各ARデバイスは、他のARデバイスのロケーションを、ARデバイスによってキャプチャされたセンサデータを使用して記録し得る。いくつかの例では、ARデバイスは、環境データを使用して複数の他のARデバイスのロケーションを追跡し得る。
いくつかの例では、履歴デバイス移動データが、音源(たとえば、人)が移動する可能性がある将来の音源ロケーションを識別するために実装され得る。将来の音源ロケーションは、継続的に更新されながら(on a continually updated basis)決定され得る。このようにして、デバイスのオーディオビームは、更新された将来の音源ロケーションに継続的にステアリングされ得る。
いくつかの例では、予期されるロケーションに基づいて方向的にビームフォーミングするための方法は、直接経路信号よりも高い信号レベルでデバイスにおいて残響信号が受信されたことを検出することを含み得る。本方法は、残響信号が進む潜在的経路を識別することと、次いで、残響信号が進む識別された経路に沿って進むようにオーディオビームをステアリングすることとをさらに含み得る。本方法は、デバイスが現在のデバイスロケーションと将来の音源ロケーションとの間で移動するにつれて、オーディオビームステアリングを直接経路に遷移することをも含み得る。
いくつかの例では、オーディオビームは、特定のビームフォーミングポリシーに基づいてステアリングされ得る。いくつかの実施形態は、オーディオビームを使用して再生されることになるオーディオ信号にアクセスすることと、他のデバイスのロケーションを識別することと、アクセスされたオーディオ信号を、他のデバイスから来ているかのように聞こえるようにオーディオ信号を空間的に再レンダリングするために、修正することとを含み得る。
いくつかの例では、デバイスは、リモートソースからあらかじめ生成された環境データまたは履歴環境のデータを受信し得、将来の音源ロケーションを識別するために、受信された環境データまたは履歴環境のデータを実装し得る。いくつかの例では、環境における他のデバイスは、環境データをサーバにあるいは別のローカルまたはリモートデバイスに提供し得る。サーバは、ターゲットデバイスの遅延および制約を考慮するように環境情報を増補し(augment)得る。
いくつかの例では、信号レベルを指定された最小レベルに上げるためにビームフォーミングが必要とされると決定すると、ステアリング制御信号が生成される。いくつかの例では、環境データのアクセスされた部分は、指定された方向において選択的アクティブ雑音消去を実施するために使用され得る。いくつかの例では、指定された方向からの音を選択的に除去するように、または指定された方向からの音を選択的に許容するように、様々なアクティブ雑音消去パラメータが調整され得る。さらなる例では、修正されたドライオーディオ信号が、修正されたドライオーディオ信号がユーザの現在の環境において発生したかのように聞こえるように、ドライオーディオ信号が様々な効果と合成され得る。
さらに、環境データに基づいて方向的にビームフォーミングするための対応するデバイスが、環境内の音源の指示を含む環境データにアクセスするように構成されたデータアクセスモジュールを含む、メモリに記憶されたいくつかのモジュールを含み得る。本デバイスは、ステアリング可能オーディオビームを生成するように構成されたオーディオハードウェア構成要素を含み得る。本デバイスは、アクセスされた環境データに基づいて環境内の音源のロケーションを識別するように構成されたロケーション識別モジュールをさらに含み得る。本デバイスは、本デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングするように構成されたビームステアリングモジュールをも含み得る。
いくつかの例では、上記で説明された方法は、コンピュータ可読媒体上のコンピュータ可読命令として符号化され得る。たとえば、コンピュータ可読媒体は、コンピューティングデバイスの少なくとも1つのプロセッサによって実行されたとき、コンピューティングデバイスに、環境内の音源の指示を含む環境データにアクセスすることと、アクセスされた環境データに基づいて環境内の音源のロケーションを識別することと、デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングすることとを行わせ得る1つまたは複数のコンピュータ実行可能命令を含み得る。
上述の実施形態のいずれかからの特徴が、本明細書で説明される一般的な原理に従って、互いと組み合わせて使用され得る。これらおよび他の実施形態、特徴、および利点は、添付の図面および特許請求の範囲とともに以下の発明を実施するための形態を読むとより十分に理解されよう。
添付の図面は、いくつかの例示的な実施形態を示し、本明細書の一部である。以下の説明とともに、これらの図面は、本開示の様々な原理を示し、それらの原理について説明する。
人工現実ヘッドセットの一実施形態を示す図である。 拡張現実ヘッドセットおよび対応するネックバンドの一実施形態を示す図である。 仮想現実ヘッドセットの一実施形態を示す図である。 環境データに基づいて方向的にビームフォーミングすることを含む、本明細書で説明される実施形態が実施され得る、一実施形態を示す図である。 環境データに基づいて方向的にビームフォーミングするための例示的な方法の流れ図である。 環境データに基づいて方向的にビームフォーミングすることを含む、本明細書で説明される実施形態が動作し得る、代替実施形態を示す図である。 環境データに基づいて方向的にビームフォーミングすることを含む、本明細書で説明される実施形態が動作し得る、代替実施形態を示す図である。 環境データに基づいて方向的にビームフォーミングすることを含む、本明細書で説明される実施形態が動作し得る、代替実施形態を示す図である。 環境データに基づいて方向的にビームフォーミングすることを含む、本明細書で説明される実施形態が動作し得る、代替実施形態を示す図である。
図面全体にわたって、同じ参照符号および記述は、同様であるが、必ずしも同じとは限らない、要素を指示する。本明細書で説明される例示的な実施形態は、様々な修正および代替形態が可能であるが、特定の実施形態が、図面において例として示されており、本明細書で詳細に説明される。しかしながら、本明細書で説明される例示的な実施形態は、開示される特定の形態に限定されるものではない。むしろ、本開示は、添付の特許請求の範囲内に入るすべての修正、均等物、および代替形態をカバーする。
本開示は、一般に、傾聴しているユーザに関係のあり得る音源を指示する環境データに基づく方向性ビームフォーミングを実施するための方法およびシステムを対象とする。以下でより詳細に説明されるように、本開示の実施形態は、ユーザが、人工現実(AR:artificial reality)ヘッドセットを使用しているときに他のユーザをより容易に聞くことを可能にし得る。たとえば、多数のユーザが部屋の中にいる場合、または、部屋の音響効果が悪い場合、ユーザは、互いを聞くのに苦労し得る。本明細書の実施形態では、ARヘッドセットは、所与の音源(たとえば、話しているユーザ)により良く集中するためにビームフォーミングを実施するように構成され得る。ビームフォーミングは、話しているユーザの現在のロケーションに向かうビームを形成し得るだけでなく、話しているユーザが新しいロケーションに移動することを予期して、ビームを新しいロケーションに向けることもある。
実際、本明細書の実施形態のうちの少なくともいくつかでは、ARヘッドセット(または、ARヘッドセットが通信可能に接続されたコンピュータシステム)は、話しているユーザがどこに移動する可能性があるかを決定するための論理を実装し得る。傾聴しているユーザのARヘッドセットは、現在の環境の知識、話しているユーザの過去の移動の知識、ならびに話しているユーザについての現在のロケーションおよび/または移動情報に基づいて、この決定を行い得る。この情報の一部または全部を使用して、傾聴しているユーザのARヘッドセットは、話しているユーザがどこに移動する可能性があるかを決定し得、移動に先立って、予想される移動方向にビームフォーミングし得る。次いで、話しているユーザがその方向に移動する場合、傾聴しているユーザのARヘッドセットは、その方向にすでにビームフォーミングしており、それにより、話しているユーザを聞く傾聴しているユーザの能力を向上させる。オーディオビームを所与の人またはロケーションに「ビームフォーミング」するかまたはターゲットにするプロセスは、クリアでわかりやすいオーディオ信号をユーザに提供するARヘッドセットの能力を増加させ得る。
本開示の実施形態は、様々なタイプの人工現実システムを含むか、またはそれらのシステムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。加えて、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および/または人工現実において(たとえば、人工現実におけるアクティビティを実施するために)別様に使用されるアプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。
人工現実システムは、様々な異なるフォームファクタおよび構成において実装され得る。いくつかの人工現実システムは、ニアアイディスプレイ(NED)なしで働くように設計され得、その一例が図1中のARシステム100である。他の人工現実システムは、現実世界への可視性をも提供するNEDを含む(たとえば、図2中のARシステム200)か、または人工現実にユーザを視覚的に没入させるNEDを含み得る(たとえば、図3中のVRシステム300)。いくつかの人工現実デバイスは独立型システムであり得るが、他の人工現実デバイスは、人工現実体験をユーザに提供するために外部デバイスと通信および/または協調し得る。そのような外部デバイスの例は、ハンドヘルドコントローラ、モバイルデバイス、デスクトップコンピュータ、ユーザによって装着されるデバイス、1人または複数の他のユーザによって装着されるデバイス、および/または任意の他の好適な外部システムを含む。
図1を参照すると、ARシステム100は、概して、ユーザの身体部分(たとえば、頭部)の周りに適合するように寸法決定されたウェアラブルデバイスを表す。図1に示されているように、システム100は、フレーム102と、フレーム102に結合され、ローカル環境を観測することによってローカル環境に関する情報を集めるように構成されたカメラアセンブリ104とを含み得る。ARシステム100は、出力オーディオトランスデューサ108(A)および108(B)ならびに入力オーディオトランスデューサ110など、1つまたは複数のオーディオデバイスをも含み得る。出力オーディオトランスデューサ108(A)および108(B)は、オーディオフィードバックおよび/またはコンテンツをユーザに提供し得、入力オーディオトランスデューサ110は、ユーザの環境におけるオーディオをキャプチャし得る。
示されているように、ARシステム100は、ユーザの眼の前に配置されるNEDを必ずしも含むとは限らない。NEDをもたないARシステムは、ヘッドバンド、ハット、ヘアバンド、ベルト、ウォッチ、リストバンド、アンクルバンド、リング、ネックバンド、ネックレス、胸バンド、アイウェアフレーム、および/あるいは任意の他の好適なタイプまたは形態の装置など、様々な形態をとり得る。ARシステム100はNEDを含まないことがあるが、ARシステム100は、他のタイプのスクリーンまたは視覚フィードバックデバイス(たとえば、フレーム102の側部に組み込まれたディスプレイスクリーン)を含み得る。
本開示で説明される実施形態は、1つまたは複数のNEDを含むARシステムにおいても実装され得る。たとえば、図2に示されているように、ARシステム200は、ユーザの眼の前で左ディスプレイデバイス215(A)および右ディスプレイデバイス215(B)を保持するように構成されたフレーム210をもつアイウェアデバイス202を含み得る。ディスプレイデバイス215(A)とディスプレイデバイス215(B)とは、画像または一連の画像をユーザに提示するために、一緒にまたは独立して働き得る。ARシステム200は、2つのディスプレイを含むが、本開示の実施形態は、単一のNEDまたは3つ以上のNEDをもつARシステムにおいて実装され得る。
いくつかの実施形態では、ARシステム200は、センサ240など、1つまたは複数のセンサを含み得る。センサ240は、ARシステム200の動きに応答して測定信号を生成し得、フレーム210の実質的に任意の部分上に位置し得る。センサ240は、位置センサ、慣性測定ユニット(IMU:inertial measurement unit)、深度カメラアセンブリ、またはそれらの任意の組合せを含み得る。いくつかの実施形態では、ARシステム200は、センサ240を含むことも含まないこともあり、または2つ以上のセンサを含み得る。センサ240がIMUを含む実施形態では、IMUは、センサ240からの測定信号に基づいて較正データを生成し得る。センサ240の例は、限定はしないが、加速度計、ジャイロスコープ、磁力計、動きを検出する他の好適なタイプのセンサ、IMUの誤差補正のために使用されるセンサ、またはそれらの何らかの組合せを含み得る。
ARシステム200は、まとめて音響センサ220と呼ばれる、複数の音響センサ220(A)~220(J)をもつマイクロフォンアレイをも含み得る。音響センサ220は、音波によって誘起された空気圧力変動を検出するトランスデューサであり得る。各音響センサ220は、音を検出し、検出された音を電子フォーマット(たとえば、アナログまたはデジタルフォーマット)にコンバートするように構成され得る。図2中のマイクロフォンアレイは、たとえば、10個の音響センサ、すなわち、ユーザの対応する耳の内部に置かれるように設計され得る220(A)および220(B)、フレーム210上の様々なロケーションに配置され得る音響センサ220(C)、220(D)、220(E)、220(F)、220(G)、および220(H)、ならびに/または、対応するネックバンド205上に配置され得る音響センサ220(I)および220(J)を含み得る。
マイクロフォンアレイの音響センサ220の構成は変動し得る。ARシステム200は、10個の音響センサ220を有するものとして図2に示されているが、音響センサ220の数は、10よりも大きくまたは小さくなり得る。いくつかの実施形態では、より高い数の音響センサ220を使用することは、収集されるオーディオ情報の量ならびに/またはオーディオ情報の感度および正確さを増加させ得る。逆に、より低い数の音響センサ220を使用することは、収集されたオーディオ情報を処理するためにコントローラ250によって必要とされる計算電力を減少させ得る。さらに、マイクロフォンアレイの各音響センサ220の位置は変動し得る。たとえば、音響センサ220の位置は、ユーザ上の画定された位置、フレーム210上の画定された座標、各音響センサに関連付けられた配向、またはそれらの何らかの組合せを含み得る。
音響センサ220(A)および220(B)は、耳介の後ろまたは外耳内もしくは窩内など、ユーザの耳の異なる部分上に配置され得る。あるいは、耳道の内部の音響センサ220に加えて、耳上にまたは耳の周囲に追加の音響センサがあり得る。ユーザの耳道の隣に音響センサが配置されると、マイクロフォンアレイは、音がどのように耳道に到来するかに関する情報を収集することが可能になり得る。(たとえば、バイノーラルマイクロフォンとして)ユーザの頭部の両側に音響センサ220のうちの少なくとも2つを配置することによって、ARデバイス200は、バイノーラル聴覚をシミュレートし、ユーザの頭部の周りの3Dステレオ音場をキャプチャし得る。いくつかの実施形態では、音響センサ220(A)および220(B)はワイヤード接続を介してARシステム200に接続され得、他の実施形態では、音響センサ220(A)および220(B)はワイヤレス接続(たとえば、Bluetooth接続)を介してARシステム200に接続され得る。さらに他の実施形態では、音響センサ220(A)および220(B)は、ARシステム200とともにまったく使用されないことがある。
フレーム210上の音響センサ220は、テンプルの長さに沿って、ブリッジにわたって、ディスプレイデバイス215(A)および215(B)の上方にまたは下方に、あるいはそれらの何らかの組合せにおいて配置され得る。音響センサ220は、マイクロフォンアレイが、ARシステム200を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。いくつかの実施形態では、マイクロフォンアレイにおける各音響センサ220の相対位置を決定するための最適化プロセスがARシステム200の製造中に実施され得る。
ARシステム200は、さらに、ネックバンド205など、外部デバイス(たとえば、ペアにされたデバイス)を含むかまたはそのデバイスに接続され得る。示されているように、ネックバンド205は、1つまたは複数のコネクタ230を介してアイウェアデバイス202に結合され得る。コネクタ230は、ワイヤードまたはワイヤレスコネクタであり得、電気的および/または非電気的(たとえば、構造的)構成要素を含み得る。いくつかの場合には、アイウェアデバイス202とネックバンド205とは、それらの間のワイヤードまたはワイヤレス接続なしに独立して動作し得る。図2は、アイウェアデバイス202およびネックバンド205上の例示的なロケーションにおけるアイウェアデバイス202およびネックバンド205の構成要素を示すが、それらの構成要素は、他の場所に位置し、ならびに/あるいはアイウェアデバイス202および/またはネックバンド205上に別様に分散され得る。いくつかの実施形態では、アイウェアデバイス202およびネックバンド205の構成要素は、アイウェアデバイス202、ネックバンド205、またはそれらの何らかの組合せとペアにされた、1つまたは複数の追加の周辺デバイス上に位置し得る。さらに、ネックバンド205は、概して、任意のタイプまたは形態のペアにされたデバイスを表す。したがって、ネックバンド205の以下の説明は、スマートウォッチ、スマートフォン、リストバンド、他のウェアラブルデバイス、ハンドヘルドコントローラ、タブレットコンピュータ、ラップトップコンピュータなど、様々な他のペアにされたデバイスにも適用され得る。
ネックバンド205など、外部デバイスをARアイウェアデバイスとペアリングすることは、アイウェアデバイスが、依然として、拡張能力のための十分なバッテリーおよび計算電力を提供しながら、一対の眼鏡のフォームファクタを達成することを可能にし得る。ARシステム200のバッテリー電力、計算リソース、および/または追加の特徴の一部または全部が、ペアにされたデバイスによって提供されるか、またはペアにされたデバイスとアイウェアデバイスとの間で共有され、したがって、依然として、所望の機能性を保ちながら、アイウェアデバイスの重量、熱プロファイル、およびフォームファクタを全体的に低減し得る。たとえば、ネックバンド205は、ユーザが、ユーザの頭の上で許容するであろうよりも重い重量負荷をユーザの肩の上で許容し得るので、通常ならばアイウェアデバイス上に含まれるであろう構成要素が、ネックバンド205中に含まれることを可能にし得る。ネックバンド205は、周辺環境に熱を発散および放散させるためのより大きい表面エリアをも有し得る。したがって、ネックバンド205は、通常ならばスタンドアロンアイウェアデバイス上で可能であることがあるよりも大きいバッテリーおよび計算容量を可能にし得る。ネックバンド205がもつ重量が、ユーザにとって、アイウェアデバイス202がもつ重量ほど侵襲的でないことがあるので、ユーザは、ユーザが重いスタンドアロンアイウェアデバイスを装着することを許容するであろうよりも長い時間の長さの間、より軽いアイウェアデバイスを装着し、ペアにされたデバイスを携帯または装着することを許容し、それにより、人工現実環境がユーザの日々の活動により完全に組み込まれることが可能になり得る。
ネックバンド205は、アイウェアデバイス202と、および/または他のデバイスに通信可能に結合され得る。他のデバイスは、ARシステム200にいくつかの機能(たとえば、追跡、位置を特定すること、深度マッピング、処理、ストレージなど)を提供し得る。図2の実施形態では、ネックバンド205は、マイクロフォンアレイの一部である(または潜在的にそれら自体のマイクロフォンサブアレイを形成する)2つの音響センサ(たとえば、220(I)および220(J))を含み得る。ネックバンド205は、コントローラ225と電源235とをも含み得る。
ネックバンド205の音響センサ220(I)および220(J)は、音を検出し、検出された音を電子フォーマット(たとえば、アナログまたはデジタル)にコンバートするように構成され得る。図2の実施形態では、音響センサ220(I)および220(J)は、ネックバンド205上に配置され、それにより、ネックバンド音響センサ220(I)および220(J)と、アイウェアデバイス202上に配置された他の音響センサ220との間の距離を増加させ得る。いくつかの場合には、マイクロフォンアレイの音響センサ220間の距離を増加させることは、マイクロフォンアレイを介して実施されるビームフォーミングの正確さを改善し得る。たとえば、音響センサ220(C)および220(D)によって音が検出され、音響センサ220(C)と音響センサ220(D)との間の距離が、たとえば、音響センサ220(D)と音響センサ220(E)との間の距離よりも大きい場合、検出された音の決定されたソースロケーションは、音が音響センサ220(D)および220(E)によって検出された場合よりも正確であり得る。
ネックバンド205のコントローラ225は、ネックバンド205および/またはARシステム200上のセンサによって生成された情報を処理し得る。たとえば、コントローラ225は、マイクロフォンアレイによって検出された音を表す、マイクロフォンアレイからの情報を処理し得る。各検出された音について、コントローラ225は、検出された音がマイクロフォンアレイに到来した方向を推定するために、DoA推定を実施し得る。マイクロフォンアレイが音を検出したとき、コントローラ225はオーディオデータセットを情報でポピュレートし得る。ARシステム200が慣性測定ユニットを含む実施形態では、コントローラ225は、アイウェアデバイス202上に位置するIMUからのすべての慣性算出および空間算出を計算し得る。コネクタ230は、ARシステム200とネックバンド205との間で、およびARシステム200とコントローラ225との間で情報を伝達し得る。その情報は、光データ、電気データ、ワイヤレスデータの形態、または任意の他の送信可能なデータ形態のものであり得る。ARシステム200によって生成された情報の処理をネックバンド205に移動することは、アイウェアデバイス202における重量および熱を低減し、アイウェアデバイス202は、ユーザにとってより快適になり得る。
ネックバンド205中の電源235は、アイウェアデバイス202および/またはネックバンド205に電力を提供し得る。電源235は、限定はしないが、リチウムイオンバッテリー、リチウムポリマーバッテリー、1次リチウムバッテリー、アルカリバッテリー、または任意の他の形態の電力ストレージを含み得る。いくつかの場合には、電源235はワイヤード電源であり得る。アイウェアデバイス202上ではなくネックバンド205上に電源235を含めることは、電源235によって生成された重量および熱をより良く分散するのを助け得る。
述べられたように、いくつかの人工現実システムが、人工現実を実際の現実と混合する代わりに、現実世界の、ユーザの感覚認知のうちの1つまたは複数を仮想体験と実質的に置き換え得る。このタイプのシステムの一例が、図3中のVRシステム300など、ユーザの視野をほぼまたは完全にカバーする頭部装着型ディスプレイシステムである。VRシステム300は、ユーザの頭部の周りに適合するように成形された前方剛体302とバンド304とを含み得る。VRシステム300は、出力オーディオトランスデューサ306(A)および306(B)をも含み得る。さらに、図3には示されていないが、前方剛体302は、人工現実体験を作り出すための、1つまたは複数の電子ディスプレイ、1つまたは複数の慣性測定ユニット(IMU)、1つまたは複数の追跡エミッタまたは検出器、および/あるいは任意の他の好適なデバイスまたはシステムを含む、1つまたは複数の電子要素を含み得る。
人工現実システムは、様々なタイプの視覚フィードバック機構を含み得る。たとえば、ARシステム200および/またはVRシステム300におけるディスプレイデバイスが、1つまたは複数の液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機LED(OLED)ディスプレイ、および/または任意の他の好適なタイプのディスプレイスクリーンを含み得る。人工現実システムは、両眼のための単一のディスプレイスクリーンを含み得るか、または各眼のためのディスプレイスクリーンを提供し得、これは、可変焦点調整のためのまたはユーザの屈折誤差を補正するための追加のフレキシビリティを可能にし得る。いくつかの人工現実システムは、ユーザがディスプレイスクリーンを観察し得る1つまたは複数のレンズ(たとえば、従来の凹レンズまたは凸レンズ、フレネルレンズ、調整可能な液体レンズなど)を有する光学サブシステムをも含み得る。
ディスプレイスクリーンを使用することに加えて、またはディスプレイスクリーンを使用する代わりに、いくつかの人工現実システムは、1つまたは複数の投影システムを含み得る。たとえば、ARシステム200および/またはVRシステム300におけるディスプレイデバイスは、周辺光が通過することを可能にするクリアなコンバイナレンズなど、ディスプレイデバイスに(たとえば、導波路を使用して)光を投影するマイクロLEDプロジェクタを含み得る。ディスプレイデバイスは、ユーザの瞳孔のほうへ、投影された光を屈折させ得、ユーザが、人工現実コンテンツと現実世界の両方を同時に観察することを可能にし得る。人工現実システムはまた、任意の他の好適なタイプまたは形態の画像投影システムで構成され得る。
人工現実システムは、様々なタイプのコンピュータビジョン構成要素およびサブシステムをも含み得る。たとえば、ARシステム100、ARシステム200、および/またはVRシステム300は、2次元(2D)または3次元(3D)カメラ、飛行時間深度センサ、単一ビームまたは掃引レーザー測距器、3D LiDARセンサ、および/あるいは任意の他の好適なタイプまたは形態の光センサなど、1つまたは複数の光センサを含み得る。人工現実システムは、ユーザのロケーションを識別するために、現実世界をマッピングするために、現実世界の周囲についてのコンテキストをユーザに提供するために、および/または様々な他の機能を実施するために、これらのセンサのうちの1つまたは複数からのデータを処理し得る。
人工現実システムは、1つまたは複数の入力および/または出力オーディオトランスデューサをも含み得る。図1および図3に示されている例では、出力オーディオトランスデューサ108(A)、108(B)、306(A)、および306(B)は、ボイスコイルスピーカー、リボンスピーカー、静電スピーカー、圧電スピーカー、骨伝導トランスデューサ、軟骨伝導トランスデューサ、および/あるいは任意の他の好適なタイプまたは形態のオーディオトランスデューサを含み得る。同様に、入力オーディオトランスデューサ110は、コンデンサマイクロフォン、ダイナミックマイクロフォン、リボンマイクロフォン、および/あるいは任意の他のタイプまたは形態の入力トランスデューサを含み得る。いくつかの実施形態では、単一のトランスデューサが、オーディオ入力とオーディオ出力の両方のために使用され得る。
図1~図3には示されていないが、人工現実システムは、タクティル(tactile)(すなわち、触覚)フィードバックシステムを含み得、これは、ヘッドウェア、グローブ、ボディスーツ、ハンドヘルドコントローラ、環境デバイス(たとえば、椅子、床マットなど)、および/あるいは任意の他のタイプのデバイスまたはシステムに組み込まれ得る。触覚フィードバックシステムは、振動、力、牽引力、テクスチャ、および/または温度を含む、様々なタイプの皮膚フィードバックを提供し得る。触覚フィードバックシステムは、動きおよびコンプライアンスなど、様々なタイプの運動感覚フィードバックをも提供し得る。触覚フィードバックは、モーター、圧電アクチュエータ、流体システム、および/または様々な他のタイプのフィードバック機構を使用して実装され得る。触覚フィードバックシステムは、他の人工現実デバイスから独立して、他の人工現実デバイス内に、および/または他の人工現実デバイスとともに実装され得る。
触覚感覚、可聴コンテンツ、および/または視覚コンテンツを提供することによって、人工現実システムは、様々なコンテキストおよび環境において、仮想体験全体を作り出すか、またはユーザの現実世界の体験を拡張し得る。たとえば、人工現実システムは、特定の環境内でのユーザの知覚、記憶、またはコグニションを支援または拡大し得る。いくつかのシステムが、現実世界における他の人々とのユーザの対話を拡張し得るか、または仮想世界における他の人々とのより没入型の対話を可能にし得る。人工現実システムは、教育目的のために(たとえば、学校、病院、政府団体、軍事団体、ビジネス企業などにおける教示またはトレーニングのために)、娯楽目的(たとえば、ビデオゲームをプレイすること、音楽を傾聴すること、ビデオコンテンツを視聴することなどを行うために)、および/またはアクセシビリティ目的のために(たとえば、補聴器、視覚補助器などとして)も使用され得る。本明細書で開示される実施形態は、これらのコンテキストおよび環境のうちの1つまたは複数における、ならびに/または他のコンテキストおよび環境における、ユーザの人工現実体験を可能にするかまたは拡張し得る。
いくつかのARシステムが、「同時ロケーションおよびマッピング」(SLAM:simultaneous location and mapping)と呼ばれる技法を使用してユーザの環境をマッピングし得る。SLAMマッピングおよびロケーション識別技法は、環境のマップを作り出すかまたは更新しながら、同時に、マッピングされた環境内でのユーザのロケーションを追跡することができる、様々なハードウェアおよびソフトウェアツールを伴い得る。SLAMは、マップを作り出し、マップ内のユーザの位置を決定するために、多くの異なるタイプのセンサを使用し得る。
SLAM技法は、たとえば、ユーザのロケーションを決定するための光センサを実装し得る。WiFi、Bluetooth、全地球測位システム(GPS)、セルラーまたは他の通信デバイスを含む無線機も、無線トランシーバまたはトランシーバのグループ(たとえば、WiFiルータ、またはGPS衛星のグループ)に対するユーザのロケーションを決定するために使用され得る。マイクロフォンアレイあるいは2Dまたは3Dソナーセンサなど、音響センサも、環境内のユーザのロケーションを決定するために使用され得る。(それぞれ、図1および図2のシステム100、200、および300などの)ARおよびVRデバイスが、ユーザの現在の環境のマップを作り出すことおよび継続的に更新することなどのSLAM動作を実施するために、これらのタイプのセンサのいずれかまたはすべてを組み込み得る。本明細書で説明される実施形態のうちの少なくともいくつかでは、これらのセンサによって生成されたSLAMデータは、「環境のデータ」と呼ばれることがあり、ユーザの現在の環境を指示し得る。このデータは、ローカルまたはリモートデータストア(たとえば、クラウドデータストア)に記憶され得、要求に応じてユーザのAR/VRデバイスに提供され得る。
ユーザが所与の環境においてARヘッドセットまたはVRヘッドセットを装着しているとき、ユーザは、他のユーザと、またはオーディオソースとして働く他の電子デバイスと対話していることがある。いくつかの場合には、オーディオソースがユーザに対してどこに位置するかを決定し、次いで、オーディオソースを、オーディオソースがオーディオソースのロケーションから来ているかのようにユーザに提示することが望ましいことがある。オーディオソースがユーザに対してどこに位置するかを決定するプロセスは、本明細書では「位置特定(localization)」と呼ばれることがあり、オーディオソース信号のプレイバックを、オーディオソース信号が特定の方向から来ているかのようにレンダリングするプロセスは、本明細書では「空間化(spatialization)」と呼ばれることがある。
オーディオソースの位置を特定することは、様々な異なるやり方で実施され得る。いくつかの場合には、ARまたはVRヘッドセットは、音源のロケーションを決定するために到来方向(DOA)分析を開始し得る。DOA分析は、音が発生した方向を決定するために、AR/VRデバイスにおいて、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、人工現実デバイスが位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、マイクロフォンから入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、到来方向を決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作り出すために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、到来方向を推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数領域にコンバートし、処理すべき時間周波数(TF)領域内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、マイクロフォンアレイが直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についての到来方向を識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、異なるユーザが、音源を、わずかに異なるロケーションから来るものとして知覚し得る。これは、各ユーザが一意の頭部伝達関数(HRTF)を有することの結果であり得、HRTFは、耳道の長さと鼓膜の配置とを含むユーザの解剖学的構造によって規定され得る。人工現実デバイスは、ユーザが、ユーザの一意のHRTFに基づいてユーザに提示される音信号をカスタマイズするために従い得る、整合および配向ガイドを提供し得る。いくつかの実施形態では、人工現実デバイスは、ユーザの環境内の音を傾聴するための1つまたは複数のマイクロフォンを実装し得る。ARまたはVRヘッドセットは、音についての到来方向を推定するために様々な異なるアレイ伝達関数(たとえば、上記で識別されたDOAアルゴリズムのいずれか)を使用し得る。到来方向が決定されると、人工現実デバイスは、ユーザの一意のHRTFに従ってユーザに音をプレイバックし得る。したがって、アレイ伝達関数(ATF)を使用して生成されたDOA推定は、音がそこからプレイされるべきである方向を決定するために使用され得る。プレイバック音は、さらに、HRTFに従ってその特定のユーザがどのように音を聞くかに基づいて、改良され得る。
DOA推定を実施することに加えて、またはその代替として、人工現実デバイスは、他のタイプのセンサから受信された情報に基づいて位置特定を実施し得る。これらのセンサは、カメラ、IRセンサ、熱センサ、動きセンサ、GPS受信機、またはいくつかの場合には、ユーザの眼球運動を検出するセンサを含み得る。たとえば、上述のように、人工現実デバイスは、ユーザがどこを見ているかを決定する眼トラッカーまたは視線検出器を含み得る。しばしば、ユーザの眼は、ほんの一時的にでも音源を見ることになる。ユーザの眼によって提供されるそのような手がかりは、さらに、音源のロケーションを決定するのを補助し得る。カメラ、熱センサ、およびIRセンサなど、他のセンサも、ユーザのロケーション、電子デバイスのロケーション、または別の音源のロケーションを指示し得る。上記の方法のいずれかまたはすべてが、音源のロケーションを決定するために個々にまたは組み合わせて使用され得、さらに、時間とともに音源のロケーションを更新するために使用され得る。
いくつかの実施形態は、ユーザのためのよりカスタマイズされた出力オーディオ信号を生成するために、決定されたDOAを実装し得る。たとえば、「音響伝達関数」が、音がどのように所与のロケーションから受信されたかを特徴づけるかまたは定義し得る。より詳細には、音響伝達関数は、音源ロケーションにおける音のパラメータと、音信号がそれによって検出されるパラメータ(たとえば、マイクロフォンアレイによって検出される、またはユーザの耳によって検出される)との間の関係を定義し得る。人工現実デバイスは、デバイスの範囲内の音を検出する1つまたは複数の音響センサを含み得る。人工現実デバイスのコントローラは、(たとえば、上記で識別された方法のいずれかを使用して)検出された音についてのDOAを推定し得、検出された音のパラメータに基づいて、デバイスのロケーションに固有である音響伝達関数を生成し得る。したがって、このカスタマイズされた音響伝達関数は、音が特定のロケーションから来るものとして知覚される、空間化された出力オーディオ信号を生成するために使用され得る。
実際、1つまたは複数の音源のロケーションが知られると、人工現実デバイスは、音信号を、その音源の方向から来ているかのように聞こえるように再レンダリング(すなわち、空間化)し得る。人工現実デバイスは、音信号の強度、スペクトル、または到来時間を改変する、フィルタまたは他のデジタル信号処理を適用し得る。デジタル信号処理は、音信号が、決定されたロケーションから発生するものとして知覚されるようなやり方で、適用され得る。人工現実デバイスは、いくつかの周波数を増幅または抑制するか、あるいは、信号が各耳に到来する時間を変え得る。いくつかの場合には、人工現実デバイスは、デバイスのロケーションおよび音信号の検出された到来方向に固有である、音響伝達関数を作り出し得る。いくつかの実施形態では、人工現実デバイスは、ステレオデバイスまたはマルチスピーカーデバイス(たとえば、サラウンド音デバイス)においてソース信号を再レンダリングし得る。そのような場合、各スピーカーに、別個で異なるオーディオ信号が送られ得る。これらのオーディオ信号の各々が、ユーザのHRTFに従って、ならびにユーザのロケーションおよび音源のロケーションの測定に従って、それらのオーディオ信号が音源の決定されたロケーションから来ているかのように聞こえるように、改変され得る。したがって、このようにして、人工現実デバイス(またはそのデバイスに関連付けられたスピーカー)は、オーディオ信号を、特定のロケーションから発生しているかのように聞こえるように再レンダリングし得る。
図4は、本明細書で説明される実施形態の多くが動作し得る、コンピューティングアーキテクチャ400を示す。コンピューティングアーキテクチャ400はコンピュータシステム401を含み得る。コンピュータシステム401は、少なくとも1つのプロセッサ402と少なくとも何らかのシステムメモリ403とを含み得る。コンピュータシステム401は、クラウドコンピュータシステムを含む、任意のタイプのローカルまたは分散型コンピュータシステムであり得る。コンピュータシステム401は、様々な異なる機能を実施するためのプログラムモジュールを含み得る。プログラムモジュールは、ハードウェアベースまたはソフトウェアベースであり得るか、あるいはハードウェアとソフトウェアの組合せを含み得る。各プログラムモジュールは、以下で本明細書で説明されるものを含む、指定された機能を実施するためのコンピューティングハードウェアおよび/またはソフトウェアを使用するかまたは表し得る。
たとえば、通信モジュール404が、他のコンピュータシステムと通信するように構成され得る。通信モジュール404は、他のコンピュータシステムとの間でデータを受信および/または送信することができる任意のワイヤードまたはワイヤレス通信手段を含み得る。これらの通信手段は、たとえば、ハードウェアベースの受信機405、ハードウェアベースの送信機406、またはデータを受信することと送信することの両方が可能な組み合わせられたハードウェアベースのトランシーバを含む、無線機を含み得る。無線機は、WIFI無線機、セルラー無線機、Bluetooth無線機、全地球測位システム(GPS)無線機、または他のタイプの無線機であり得る。通信モジュール404は、データベース、(モバイルフォンまたはタブレットなどの)モバイルコンピューティングデバイス、埋込みシステム、または他のタイプのコンピューティングシステムと対話するように構成され得る。
図4のコンピュータシステムは、データアクセスモジュール407をさらに含み得る。データアクセスモジュール407は、たとえば、データストア420中の環境のデータ408にアクセスし得る。環境のデータ421は、ユーザ413の現在の環境416中に存在する音源を含む、その環境に関する情報を含み得る。たとえば、ユーザ413は、部屋または建築物の中にいることがある。環境データ408は、そのロケーション422についての情報を含み得る。情報は、部屋サイズ情報、フローリングのタイプ、壁装飾のタイプ、天井の高さ、窓の位置、または部屋内の音響効果に影響を及ぼし得る他の情報を含み得る。環境データ408は、椅子、ベンチ、テーブル、あるいはユーザが環境内でその周りを移動する必要があるであろう他の家具または他の物体のロケーションをも含み得る。そのような知識は、ユーザがユーザの現在の位置からどこに移動する可能性があるかを決定するとき、有用であり得る。この環境のデータは、環境の変更が行われるとき、または人々が環境416を出入りするとき、継続的に更新され得る。
環境データ408は、様々なやり方で取得され得る。たとえば、特定のロケーションをマッピングするために3Dマッピングデバイスが使用され得る。3Dマッピングデバイスは、モバイルシャーシに取り付けられた複数の異なるカメラおよびセンサを含み得る。この3Dマッピングデバイスは、モバイルシャーシ上で部屋のあちこちに持ち運ばれ得、部屋の多くの異なる特性を記録およびマッピングし得る。これらの部屋特性は、ユーザの現在の周囲のマップを作り出すためにこれらが実装されるユーザのARヘッドセットに供給され得る。部屋特性も、データストア420に記憶され得る。3Dマッピングデバイスは、環境から周辺音をキャプチャするためのマイクロフォンをも含み得る。
追加または代替として、環境データ408は、ユーザの頭部に取り付けられた人工現実ヘッドセットを介して取得され得る。ARヘッドセット(たとえば、それぞれ、図1、図2または図3の100、200または300)は、ウェアラブルフレームがユーザの頭部に固定されたときにユーザのローカル環境をマッピングするマッピングサブシステムを含み得る。マッピングサブシステムは、ローカル環境に構造化光を投影するプロジェクタ、ローカル環境からの構造化光の反射をキャプチャする深度カメラのアレイ、ヘッドマウントディスプレイシステムのロケーションを決定する位置特定デバイス、および/またはローカル環境からの可視スペクトル光をキャプチャする写真カメラのアレイを含み得る。そのような実施形態では、深度カメラのアレイは、構造化光の反射をキャプチャして、各深度カメラと構造化光の反射との間の距離を検出し得る。加えて、これらの実施形態では、位置特定デバイスは、ローカル環境内のヘッドマウントディスプレイシステムの相対位置を決定するための画像データをキャプチャする位置特定カメラを含み得、ローカル環境内のヘッドマウントディスプレイシステムの移動を識別する位置特定センサをも含み得る。
またさらに、環境データ408は、機械知覚サブシステムを含むARヘッドセットによって生成され得、機械知覚サブシステムは、ARヘッドセットに結合され、ローカル環境を観測することによってローカル環境に関する情報を集める。ARヘッドセットは、ユーザのローカル環境に関するコンテキスト情報を出力する非視覚的通信サブシステムを含み得る。機械知覚サブシステムは、ローカル環境内の音の方向性検出を可能にするARヘッドセットに取り付けられた入力トランスデューサを有するオーディオ位置特定サブシステムを含み得る。オーディオ位置特定サブシステムは、ローカル環境における音が受信された方向を識別するために入力トランスデューサから受信された出力信号を比較するようにプログラムされたプロセッサを有し得る。非視覚的通信サブシステムは、ユーザにコンテキスト情報を通信する音波を生成するように構成された出力トランスデューサをも含み得る。
別の実施形態では、環境データ408は、限定はしないが、可視光カメラ、赤外線カメラ、熱カメラ、レーダーセンサ、または他の画像センサを含む、撮像デバイスによって提供され得る。撮像デバイスは、画像を撮り、画像データをハードウェアアクセラレータに送り得る。ハードウェアアクセラレータは、撮像デバイスから送られた撮像データのマルチスケール表現を生成し得る。次いで、画像ベース追跡サブシステムが、画像ベース追跡動作のセットのための入力データのセットを準備し、撮像データの生成されたマルチスケール表現と入力データの準備されたセットとを使用して画像ベース追跡動作のセットを実行するようにハードウェアアクセラレータユニットに指図し得る。このようにして、画像ベース追跡サブシステムは、ユーザが環境を通って移動するにつれてユーザのロケーションを追跡し得る。画像中で識別された環境の変化は、環境データ408を更新するためにも使用され得る。
環境データ408は、コンピュータシステム401のロケーション識別モジュール409に提供され得る。ロケーション識別モジュール409は、アクセスされた環境データに基づいて環境内の音源のロケーションを識別し得る。たとえば、環境416内に、多くの異なるユーザが存在し得る。各々は、ひとりで立っていることがあり、または誰かとしゃべっていることがある。環境が混雑しており、ユーザが誰かとしゃべっているかまたは誰かを傾聴することを希望している場合、その人を聞くことが困難であり得る。いくつかの場合には、その話しているユーザは、動き回っていることがあるかまたは自身の頭部の向きを変えていることがあり、したがって、聞くことが困難であり得る。いくつかの場合には、ロケーション識別モジュール409は、音源のロケーション(たとえば、話しているユーザの現在のロケーション422)を決定し得、環境データ408に基づいて、話しているユーザが環境416内でどこに移動する可能性があるかを決定し得る。決定されたロケーション410は、次いで、ビームステアリングモジュール411に提供され得る。
ビームステアリングモジュール411は、オーディオビーム417を環境内の音源の識別されたロケーション410のほうへ電子的におよび/または機械的にステアリングするように構成され得る。受信端に対するビームステアリングは、ユーザのARヘッドセット415または電子デバイス414上のマイクロフォンまたは他の信号受信機が、所与の方向からのオーディオ信号に集中することを可能にし得る。この集中は、ビーム外の他の信号が無視されるかまたは強度を低減されることを可能にし、ビーム417内のオーディオ信号が増幅されることを可能にする。したがって、傾聴しているユーザ413は、話しているユーザが環境416内でどこに移動するかにかかわらず、話しているユーザをクリアに聞くことが可能であり得る。これらおよび他の実施形態は、図5の方法500に関して、さらに図5~図8に関して、以下でより詳細に説明される。
図5は、予期されるロケーションに基づいて方向的にビームフォーミングするための例示的なコンピュータ実装方法500の流れ図である。図5に示されているステップは、図5に示されている(1つまたは複数の)システムを含む、任意の好適なコンピュータ実行可能コードおよび/またはコンピューティングシステムによって実施され得る。一例では、図5に示されているステップの各々が、その構造が複数のサブステップを含みおよび/または複数のサブステップによって表される、アルゴリズムを表し得、その例が以下でより詳細に提供される。
図5に示されているように、ステップ510において、本明細書で説明されるシステムは、環境内のデバイスまたは音源の現在のロケーションを指示する環境データの様々な部分にアクセスし得る。デバイスは、ステアリング可能オーディオビームを生成するように構成された1つまたは複数のオーディオハードウェア構成要素を含み得る。たとえば、データアクセスモジュール407は、データストア420からの環境データ408にアクセスし得る。環境データ408は、所与の環境(たとえば、416)が屋外であるのか屋内であるのか、環境が囲まれているのか開放されているのか、環境のサイズ、環境内に障害物が存在するかどうかなどを含む、環境に関する情報を含み得る。他の環境データ408は、環境についての音響データ、スピーカー、テレビジョン、または他の電気デバイスなどの音源の数および/またはロケーション、環境内の人の数を指示するデータ、ならびに場合によってはこれらの人のロケーション422を含み得る。いくつかの実施形態では、環境内の人々は、フォン、タブレット、ラップトップ、スマートウォッチ、または他の電子デバイスなど、モバイルデバイス414を有し得る。
追加または代替として、人々は、(それぞれ、図1、図2または図3のヘッドセット100、200または300と同様または同じであり得る)ARまたはVRヘッドセット415を有し得る。これらのヘッドセットは、環境内のこれらのヘッドセットの位置を通信する無線機(たとえば、WiFi、Bluetooth、セルラー、または全地球測位システム(GPS)無線機)を含み得る。各ARヘッドセットについての(および対応して、各ユーザについての)このロケーション情報422のすべては、データストア420に記憶され得、人々が環境416内で移動するにつれて継続的に更新され得る。したがって、ロケーションデータ422は、環境416にいるユーザのいずれかまたはすべてについての現在および過去のロケーションを含み得る。
環境データ408は、ユーザがどこにいるかと、ユーザが誰と会話しているかと、それらのユーザが互いを聞くのをどのように最も良く支援すべきかとを決定するために、コンピュータシステム401によって使用され得る。コンピュータシステムは、オーディオビーム(たとえば、417)をステアリングするための最良の方向を決定するために、ロケーション情報、音響情報、および他の環境データを使用し得る。最適な方向にオーディオビームをステアリングすることによって、ユーザは、ユーザが会話している人を聞く最良の機会を有する。代替的に、ユーザが映画を視聴しているかまたは別の音源に注意を払っている場合、音源の方向にビームをステアリングすることは、ユーザ413がオーディオソースを聞くのを支援し得る。以下でさらに説明されるように、マイクロフォンを、話している人に電子的にまたは機械的に集中させることは、ユーザの音声を検出するマイクロフォン能力を大幅に増加させ得る。話している人(または音の別のソース)をまっすぐにポイントし、それによりユーザの言葉の可聴性を増加させるために、オーディオビーム417の集中を改良するために、追加の電子処理が実施され得る。
図5の方法500は、次に、アクセスされた環境データに基づいて環境内の音源のロケーションを識別すること(ステップ520)を含む。本明細書の実施形態では、「音源」または「デバイス」は、AR/VRヘッドセット415またはモバイルデバイス414(たとえば、スマートフォン、タブレット、ラップトップ、ウェアラブルデバイスなど)、あるいはその両方を指し得る。そのようなデバイスは、一般に、ユーザによって保持または装着され、したがって、デバイスの位置を決めることは、一般に、関連するユーザの位置をも決める。ロケーション識別モジュール409は、したがって、環境データ408を使用して、いくつかの音源(たとえば、ユーザまたはユーザデバイス)が現在どこに配置されているかを識別し、各ユーザが前にどのロケーションに行ったかを識別し、ユーザの対応するARヘッドセット415またはデバイス414がどこにあったかに基づいて、ユーザが次にどのロケーションにおそらく移動するかを識別し得る。新しい将来のロケーション410は、ユーザが現在いる場所に近い(たとえば、わずか数インチ離れている)ことがあり、またはユーザが現在いる場所から遠く離れていることがある。将来のデバイス/ユーザロケーション410は、ユーザのデバイスが最適な方向におけるビームフォーミングを実施していることを保証するために、継続的に再算出され得る。
方法500は、デバイスの1つまたは複数のオーディオビームを環境内の音源の識別されたロケーションにステアリングすること(ステップ530)をも含む。ビームステアリングモジュール411は、オーディオビーム417を、ユーザが今いるロケーションまたはユーザが移動すると予期されるロケーションにステアリングするために、算出された将来のデバイスまたは音源ロケーション410を使用し得る。ビームステアリングモジュール411は、マイクロフォンを直接制御し得るか、または、ビームステアリングを制御するためのビームステアリング制御信号412をデバイスに送信し得る。実際、本明細書の実施形態では、コンピュータシステム401がユーザのARヘッドセット415の一部であり得るか、またはユーザのARヘッドセット415に組み込まれ得ることを理解されよう。代替的に、コンピュータシステム401は、ユーザの電子デバイス414の一部であり得る。またさらに、コンピュータシステム401は、ARヘッドセット415とユーザの電子デバイス414の両方に対してリモートであり得るが、これらのデバイスのいずれかまたは両方と通信していることがあり、本明細書で説明される算出を実施し得る。そのような場合、コンピュータシステム401は、ネットワークを通して到達可能なクラウドサーバまたは企業サーバであり得る。コンピュータシステム401のモジュールは、ARヘッドセット415内に埋め込まれるか、ユーザのモバイルデバイス414内に埋め込まれ得るか、あるいはデバイス414および/または415と通信している別個のコンピューティングシステムの一部であり得る。
本明細書の実施形態のうちのいくつかでは、ユーザ413は、ARヘッドセット(たとえば、415)を装着していることがある。VRヘッドセットまたは複合現実(MR)ヘッドセットも使用され得るが、単純さのために、本明細書では主にARヘッドセットが説明される。ユーザのARヘッドセット415は、ユーザが環境416の中を見ることを可能にする透明レンズを含み得る。透明レンズはまた、ヘッドセットに組み込まれた小型プロジェクタがユーザの眼の中に画像を投影し、反射することができるように、レンズの内部部分で少なくとも部分反射性であり得る。これらの画像は、ユーザには、現実の物体に並んで見え得る。したがって、環境416は、ドア、壁、椅子、テーブルまたは人々など、任意の現実の物体とともに、ユーザ(および場合によっては他のユーザ)に可視のデジタル物体を含むように、増補され得る。部分反射性レンズに加えて、ARヘッドセット415は、マイクロフォンおよび/あるいはスピーカーまたはイヤバッドを含み得る。スピーカーまたはイヤバッドは、ユーザ413が聞くためのオーディオ信号を再生する。マイクロフォンは、ARヘッドセットが外部オーディオ信号を検出することを可能にする。これらの外部オーディオ信号のうちのいくつかは、ユーザにとって他の外部オーディオ信号よりも重要であり得、したがって、ユーザにとって重要であるそれらの外部音に集中するように、ビームフォーミングが実施され得る。
図6は、環境600が複数の人々を含む一実施形態を示す。環境600は屋内の部屋として示されているが、環境600が実質的に任意のタイプの環境、すなわち屋内または屋外であり得ることを理解されよう。同様に、環境は3人の人々を示すが、実質的に任意の数の人々が所与の時間において環境600にいることがあることを理解されよう。ユーザ601は、ユーザ602と会話していることがある。ユーザ604は、同様にユーザ602を傾聴していることがあるか、または何か他のものを傾聴していることがある。ユーザ601は、ビーム605Aをユーザ602に集中させたARヘッドセットを装着しているものとして示されている。ユーザ602が初期位置603Aから新しい位置603Bに移動することを決めた場合、ユーザ601のARヘッドセットは、ユーザ602が移動することになる1つまたは複数の可能性があるロケーションを識別するために、図6の環境データ608を実装し得る。
図4のロケーション識別モジュール409は、たとえば、環境600内のユーザ602の過去のロケーションと、各ロケーションにおいて費やされた時間と、食卓、化粧室、ドア、椅子、または他のアイテムなど、部屋内のアイテムの知識とを考察し得る。各そのようなアイテムは、ユーザ602が、座るために、食品を手に入れるために、部屋から出るために、または別のユーザとしゃべるために、どこに行き得るかに関する手がかりを提供し得る。ユーザ602が新しいロケーション603Bに移動する可能性が最も高いと決定すると、ビームステアリングモジュール611は、ビーム605Bを新しいロケーション603Bのほうへステアリングし得る。次いで、ユーザ602がその位置に移動したとき、ビーム605Bは、その方向にすでにステアリングされている。
ロケーション識別モジュール609は、初期位置603Aと新しい位置603Bとの間の複数の中間位置をも算出し得る。したがって、ユーザが位置間を移動するにつれて、ビームステアリングモジュール611は、これがユーザ602の位置を(常に)追跡しているように、ビーム605Bの方向を継続的に調整し得る。ユーザ602が予期されなかったロケーションに移動した場合、ロケーション識別モジュール609は、新しい可能性がある将来のロケーション610を決定し、その方向にビームをステアリングするために、環境データ608を再び調べ得る。
いくつかの実施形態では、各ARデバイスは、それ自体のロケーションを記録し、いくつかの場合には、そのロケーションを、直接、または中間サーバを通してのいずれかで、他のARデバイスに送信するように構成され得る。追加または代替として、環境600内の各ARデバイスは、(ユーザ602および604によって装着されるARデバイスなどの)他のARデバイスのロケーションを、ARデバイスによってキャプチャされるセンサデータ(たとえば、SLAMデータ)を使用して記録するように構成され得る。センサデータは、Bluetoothまたは他のワイヤレス信号、赤外線センサ、熱センサ、動きセンサ、GPSトラッカー、あるいは他のセンサデータを含み得る。センサデータおよびロケーションデータのいずれかまたはすべてはまた、ローカルまたはリモートサーバ(たとえば、クラウドサーバ)に受け渡され得る。このデータを使用して、サーバは、各ユーザのARデバイスを使用して各ユーザのロケーションを連続的に監視し得る。サーバは、したがって、各ユーザが現在どこにいるかと、各ユーザが前にどこにいたかとに気づいていることがある。この履歴移動データ623は、ユーザの移動パターンを学習し、ユーザが次にどこに移動する可能性が最も高いかを決定するために、ロケーション識別モジュール609によって実装され得る。
いくつかの場合には、コンピュータシステム401のビームステアリングモジュール411は、複数の異なるビームを生成するように構成され得る。たとえば、図7に示されているように、ユーザ701は、位置Aにおけるユーザ704に向けられた初期ビーム703Aを形成するARヘッドセット702を装着していることがある。ロケーション識別モジュール409は、将来のデバイス/音源ロケーション410を継続的に更新されながら決定するように構成され得るので、ビームステアリングモジュール411は、あるビームをあるロケーションにステアリングし、別のビームを別のロケーションにステアリングすることを始め得る。したがって、複数のオーディオビームが、移動しているユーザ704のほうへ形成され得る。したがって、図7では、ユーザ704は、位置Aから位置Bに移動し、位置Cに移動し、次いで位置Dに移動し、ビームステアリングモジュール411は、位置Aにおいてビーム703Aを形成し、位置Bにおいてビーム703Bを形成し、位置Cにおいてビーム703Cを形成し、位置Dにおいてビーム703Dを形成し得る。いくつかの実施形態では、各ビームは別個に形成され得、他の実施形態では、いくつかのビームは同時に形成され得る。
たとえば、ビーム703Aとビーム703Bとは、同時に形成され得る。次いで、ユーザ704があるロケーションに到達したとき、ビームステアリングモジュール411は、ビーム703Aを形成することを停止し得、ビーム703Cを形成することを開始し得る。そのような例では、ビーム703Bとビーム703Cとは、同時に一緒にもたらされるであろう。ユーザ704が移動し続けるにつれて、ビーム703Dも同時にもたらされ得るか、あるいは、ビーム703Bおよび/またはビーム703Cが停止され得る。いくつかの場合には、同時に生成されるビームの数は、ユーザ704の速度、ARヘッドセット702中で利用可能なバッテリー電力の量、環境における干渉または雑音の量、あるいは他のファクタを含む、様々なファクタに依存し得る。
図8は、図4のコンピュータシステム401が、直接経路信号よりも高い信号レベルにある残響信号がユーザのARヘッドセットにおいて受信されたことを検出する、一実施形態を示す。たとえば、いくつかの環境では、壁、床または他の反射面は、音波を反射し得る。いくつかの場合には、これらの反射波は、直接経路オーディオ信号よりも減衰が少ない(したがって、直接経路オーディオ信号よりも強い)ことがある。図8の環境800では、たとえば、ユーザ801は、2つの信号、または同じ信号の2つのバージョンを受信するARヘッドセットを装着していることがある。バージョン802Aは直接経路信号であり、バージョン802Bは、壁から反射した反射信号である。ユーザ801のARヘッドセット(またはコンピュータシステム401)は、反射信号802Bが直接経路信号802Aよりも強いと決定し得る。ビームステアリングモジュール411は、次いで、反射または残響信号802Bの経路に沿って進むようにオーディオビームをステアリングし得る。相対信号強度の決定は、到来方向(時間周波数)分析を使用して行われ得、これは、どの信号が最も強いかを識別する。次いで、この決定を使用して、ビームステアリングモジュール411は、ユーザ803のほうではなく反射信号802のほうへオーディオビーム417をステアリングし得る。
図8のユーザ803が後で新しい位置に移動する場合、ユーザ801のARヘッドセットは、信号802Aおよび802Bの信号強度が変化したと決定し得る。この変化に基づいて、ロケーション識別モジュール409は、ユーザ803のための新しい将来のロケーション410を識別し得、ユーザが新しいロケーションに移動するにつれて、ビームステアリングモジュール411にオーディオビームを直接経路信号802Aに遷移させ得る。
いくつかの実施形態では、コンピュータシステム401のビームステアリングモジュール411は、指定されたビームフォーミングポリシーに従ってオーディオビーム417をステアリングするビームステアリング制御信号412を生成し得る。たとえば、ビームフォーミングポリシーは、オーディオビーム417が、ユーザ413が最後の15分で話した人々にステアリングされるべきであることを指示し得る。代替的に、そのポリシーは、オーディオビーム417がユーザ413の友人または家族である人々にステアリングされるべきであることを指示し得る。いくつかの実施形態では、環境データ408またはユーザのARヘッドセットは、ヘッドセットを装着しているユーザを識別し得る。コンピュータシステム401はまた、ソーシャルメディアアプリケーションまたはプラットフォーム上のユーザ413の連絡先リストまたは様々なソーシャルメディアアカウントへのアクセスを有し得る。このソーシャルメディア情報を使用して、ビームステアリングモジュール411は、特に、それらのソーシャルメディアプラットフォーム上のユーザ413と友人であるユーザをターゲットにし得る。他のポリシーは、家族、または(たとえば、試合における)同じチームのメンバー、または別のグループのメンバーが優先度を与えられ得ることを指示し得る。したがって、ビームステアリングモジュール411は、それらのユーザからの音信号を、他のユーザから受信された音信号を超えて増幅し得る。
いくつかの実施形態では、コンピュータシステム401は、オーディオビームを介して受信されるオーディオ信号を使用して再生されることになるオーディオ信号にアクセスするように構成され得る。たとえば、図4では、ユーザ401のARヘッドセットは、ユーザ402から来る音(たとえば、音声)を検出し得る。ARヘッドセットは、次いで、ユーザ402のARヘッドセットのロケーションを識別し得、検出された音を、ユーザ402から来ているかのように空間的に再レンダリングするために、修正し得る。たとえば、所与のオーディオソースが選択された場合、ARヘッドセットは、オーディオソースからのオーディオ信号を、オーディオソースのロケーションから来ているかのように空間的に聞こえるように再レンダリングし得る。この再レンダリングは、図1~図3に関して上記で説明されたように、カスタマイズされた頭部伝達関数およびDOA算出を実装し得る。したがって、話しているユーザが傾聴しているユーザの後ろで話している場合、傾聴しているユーザは、話しているユーザのオーディオを、話しているユーザが傾聴しているユーザの後ろに立っているかのように聞くであろう。これは、傾聴しているユーザが話者の実際のボイスを聞くことができないほど十分離れている場合でも当てはまるであろう。傾聴しているユーザのARヘッドセットによって検出された、再生されたバージョンは、音源の方向から来ているかのように聞こえるように空間的にレンダリングされ得る。他の処理も、検出された音信号に適用され得る。たとえば、音声強調が、フィルタおよび他のデジタル信号処理アルゴリズムを使用して実施され得る。そのような音声強調処理は、少なくともいくつかの実施形態では、音声ボリュームの12~15dBの増加を生じ得、加えて、明瞭性を上げるのを支援し得る。
本明細書で説明されるARデバイスはまた、リモートソースからあらかじめ生成された環境データおよび/または履歴環境のデータ(たとえば図4の423)を受信し、将来のデバイスロケーションを識別するために、受信された環境データまたは履歴環境のデータを実装するように構成され得る。たとえば、ARデバイスが、それ自体のロケーションを決定するための無線機またはセンサを欠く場合でも、ARデバイスは、あらかじめ生成された環境データおよび/または履歴環境のデータを受信し得、そのデータを使用して、どこにビームフォーミングすべきかを識別し得る。たとえば、図9に示されているように、ユーザ901は、クラウドサーバ904から環境データ902を受信するARデバイスを使用していることがある。ユーザのARヘッドセットは、環境900内のルータ903との通信を容易にするWiFiまたはBluetooth無線機を含み得る。ルータ904は、次いで、インターネット905への、および詳細にはクラウドサーバ904へのアクセスを提供する。クラウドサーバは、任意の環境に関係する環境データを生成および記憶し得、直接、あるいはルータおよび/またはファイアウォールを通してのいずれかで、ARデバイスに送信し得る。したがって、ARデバイスがそれ自体の無線機およびセンサを使用して環境データを生成する能力を欠く場合でも、ARデバイスは、他のソースからそのようなデータを受信し、そのデータを、どこにビームフォーミングすべきかを決定するときに使用し得る。
図6~図9に示されているように、各環境は可変数のユーザを含み得る。また、その環境内で、ユーザのうちの1人または複数は、ARヘッドセットまたはモバイルデバイスを有することも有しないこともある。本明細書の実施形態は、ARあるいはVRヘッドセットから、モバイルデバイスから、建築物または屋外ベニューの知識あるいは他のソースから入手可能なすべての情報をとり、その情報を使用して、ユーザがどこに移動する可能性があるかを決定するように設計される。ユーザのデバイスは、ユーザの移動パターンに関する、ユーザの環境に関する、または他のユーザに関する新しい情報を継続的に提供していることがある。図9のクラウドサーバ904は、現在のおよび/または将来の音源またはデバイスロケーションを計算するとき、これのすべてのいずれをも使用し得る。同様に、任意のARヘッドセットまたはモバイルデバイスが、それ自体のデータを収集し、そのデータを環境における他のものと共有することが可能であり得る。したがって、所与の環境におけるデバイスの一部または全部は、ユーザの最も可能性がある移動を決定するために使用され得る環境およびロケーションの知識のデータベースを作り出すために、互いと、およびバックエンドサーバと通信し得る。これらの決定された移動は、次いで、予期する様式でビームフォーミングするために使用され、それにより、最大レベルの信号品質および明瞭性を、傾聴しているユーザに提供し得る。
いくつかの場合には、クラウドサーバ904は、ターゲットデバイスの遅延および制約を考慮するように環境情報902を増補し得る。たとえば、サーバ904は、部屋からのものであると考えられる音についての残響を追加し得、その残響をユーザのARヘッドセットにプッシュし得る。圧縮、音声強調、空間再レンダリングを含む他の信号処理、または他のタイプの信号処理も、サーバによって実施され得る。たとえば、サーバ904は、修正されたドライオーディオ信号が、修正されたドライオーディオ信号が環境において発生したかのように聞こえるように、ドライオーディオ信号を1つまたは複数の効果と合成し得る。たとえば、ユーザが話していることがあり、ユーザのボイスは、傾聴しているユーザの現在の環境の特性を欠くドライオーディオ信号を生じる様式で記録され得る。いくつかの場合には、サーバ904は、記録されたボイス信号を処理して、そのボイス信号を、そのボイス信号が傾聴しているユーザの環境において記録されたかのように聞こえるようにする効果を追加し得る。したがって、話しているユーザが、異なる環境において遠く離れたところから話している場合でも、オーディオ処理は、傾聴しているユーザの環境において記録されたかのように聞こえる音信号を生成し得る。
いくつかの実施形態では、サーバ904は、所与のユーザが、耳が不自由であるか、または、背景雑音が極めて大きいコンサート会場にいることに気づいていることがある。したがって、サーバ904は、ユーザのARヘッドセットと通信し、これは、信号レベルを指定された最小レベルに上げるためにビームフォーミングが必要とされることを指示し得る。その指示が受信されると、ARデバイスは、信号レベルを指定された最小レベルに上げるためにステアリング制御信号を生成し得る。他の指示は、背景雑音が低いとき、またはユーザが自宅の自身のベッドルームにいるときなど、ビームフォーミングが必要とされないことがあることをも指示し得る。したがって、ビームフォーミングは、ユーザのロケーションに基づくか、あるいは、ユーザ選好または周辺雑音レベルなどの他の状況に従い得る。
またさらに、いくつかの実施形態では、環境データ(たとえば、408)は、指定された方向において選択的アクティブ雑音消去を実施するために使用され得る。たとえば、ユーザが、ある話しているユーザを聞くことを希望し、別の話しているユーザを聞くことを希望しなかった場合、ARヘッドセットは、不要な話しているユーザの方向においてアクティブ雑音消去を適用し得、所望の話しているユーザの方向にビームフォーミングし得る。そのような方向付けされたアクティブ雑音キャンセリングを実施するために他の環境データが使用され得る。たとえば、ユーザが集会の場におり、背景音楽がラウドスピーカーを通してプレイしている場合、ARデバイスは、アクティブ雑音消去をラウドスピーカーの方向に選択的に向け、ユーザが会話している人または人々の方向にビームフォーミングし得る。環境データ408は、そのようなラウドスピーカー、あるいは空調装置、クラクションを鳴らしている車または他の求められていない音源のロケーションを指示し得る。ARヘッドセットは、指定された方向からの音を選択的に除去するように、または指定された方向からの音を選択的に許容するように、プログラムされ得る。ARヘッドセットは、したがって、所与の音信号を検出し、その信号がアクティブ雑音消去を通して除去され得るようにその信号のためのフィルタを作り出すようにプログラムされ得る。
さらに、予期されるロケーションに基づいて方向的にビームフォーミングするための対応するシステムが、環境内の音源を指示する環境データにアクセスするように構成されたデータアクセスモジュールを含む、メモリに記憶されたいくつかのモジュールを含み得る。デバイスは、ステアリング可能オーディオビームを生成するように構成されたオーディオハードウェア構成要素を含み得る。システムは、アクセスされた環境データに基づいて環境内の音源のロケーションを識別するように構成されたロケーション識別モジュールをさらに含み得る。システムは、デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングするように構成されたビームステアリングモジュールをも含み得る。
いくつかの例では、上記で説明された方法は、コンピュータ可読媒体上のコンピュータ可読命令として符号化され得る。たとえば、コンピュータ可読媒体は、コンピューティングデバイスの少なくとも1つのプロセッサによって実行されたとき、コンピューティングデバイスに、環境内の音源を指示する環境データにアクセスすることと、アクセスされた環境データに基づいて環境内の音源のロケーションを識別することと、デバイスのオーディオビームを環境内の音源の識別されたロケーションにステアリングすることとを行わせ得る1つまたは複数のコンピュータ実行可能命令を含み得る。
したがって、本明細書で説明される実施形態は、ARヘッドセットが、音源が環境内のどこにあるかを決定し、音源の方向にビームフォーミングすることを可能にする、環境データを提供する。これは、ARヘッドセットユーザが、自分自身動き回り、異なるユーザを傾聴し、異なるユーザに注意を払い、その間ずっと、自身のヘッドセットで各ユーザをクリアに聞くことを可能にする。本明細書の実施形態は、したがって、ARヘッドセットを用いたユーザの体験を改善し、ヘッドセットを、より毎日装着しやすいものにし得る。
上記で詳述されたように、本明細書で説明および/または示されるコンピューティングデバイスおよびシステムは、本明細書で説明されるモジュール内に含まれているものなど、コンピュータ可読命令を実行することが可能な任意のタイプまたは形態のコンピューティングデバイスまたはシステムを広く表す。それらの最も基本的な構成では、(1つまたは複数の)これらのコンピューティングデバイスは、各々、少なくとも1つのメモリデバイスと少なくとも1つの物理プロセッサとを含み得る。
いくつかの例では、「メモリデバイス」という用語は、概して、データおよび/またはコンピュータ可読命令を記憶することが可能な、任意のタイプまたは形態の揮発性または不揮発性記憶デバイスまたは媒体を指す。一例では、メモリデバイスは、本明細書で説明されるモジュールのうちの1つまたは複数を記憶、ロード、および/または維持し得る。メモリデバイスの例は、限定はしないが、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、光ディスクドライブ、キャッシュ、上記のうちの1つまたは複数の変形形態または組合せ、あるいは任意の他の好適な記憶メモリを含む。
いくつかの例では、「物理プロセッサ」という用語は、概して、コンピュータ可読命令を解釈および/または実行することが可能な任意のタイプまたは形態のハードウェア実装処理ユニットを指す。一例では、物理プロセッサは、上記で説明されたメモリデバイスに記憶された1つまたは複数のモジュールにアクセスし、および/またはそれらのモジュールを修正し得る。物理プロセッサの例は、限定はしないが、マイクロプロセッサ、マイクロコントローラ、中央処理ユニット(CPU)、ソフトコアプロセッサを実装するフィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、上記のうちの1つまたは複数の部分、上記のうちの1つまたは複数の変形形態または組合せ、あるいは任意の他の好適な物理プロセッサを含む。
別個の要素として示されているが、本明細書で説明および/または示されるモジュールは、単一のモジュールまたはアプリケーションの部分を表し得る。さらに、いくつかの実施形態では、これらのモジュールのうちの1つまたは複数は、コンピューティングデバイスによって実行されたとき、コンピューティングデバイスに1つまたは複数のタスクを実施させ得る、1つまたは複数のソフトウェアアプリケーションまたはプログラムを表し得る。たとえば、本明細書で説明および/または示されるモジュールのうちの1つまたは複数は、本明細書で説明および/または示されるコンピューティングデバイスまたはシステムのうちの1つまたは複数上で稼働するように記憶および構成されたモジュールを表し得る。これらのモジュールのうちの1つまたは複数は、1つまたは複数のタスクを実施するように構成された1つまたは複数の専用コンピュータのすべてまたは部分をも表し得る。
さらに、本明細書で説明されるモジュールのうちの1つまたは複数は、データ、物理デバイス、および/または物理デバイスの表現をある形態から別の形態に変換し得る。たとえば、本明細書で具陳されるモジュールのうちの1つまたは複数は、変換されるべきデータを受信し、データを変換し、機能を実施するために変換の結果を出力し、機能を実施するために変換の結果を使用し、機能を実施するために変換の結果を記憶し得る。追加または代替として、本明細書で具陳されるモジュールのうちの1つまたは複数は、コンピューティングデバイス上で実行すること、コンピューティングデバイスにデータを記憶すること、および/または場合によっては、コンピューティングデバイスと対話することによって、物理コンピューティングデバイスのプロセッサ、揮発性メモリ、不揮発性メモリ、および/または任意の他の部分をある形態から別の形態に変換し得る。
いくつかの実施形態では、「コンピュータ可読媒体」という用語は、概して、コンピュータ可読命令を記憶または搬送することが可能な任意の形態のデバイス、キャリア、または媒体を指す。コンピュータ可読媒体の例は、限定はしないが、搬送波など、送信タイプ媒体、磁気記憶媒体など、非一時的タイプの媒体(たとえば、ハードディスクドライブ、テープドライブ、およびフロッピーディスク)、光記憶媒体(たとえば、コンパクトディスク(CD)、デジタルビデオディスク(DVD)、およびBLU-RAYディスク)、電子記憶媒体(たとえば、ソリッドステートドライブおよびフラッシュメディア)、および他の配信システムを含む。
本開示の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。加えて、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および/または人工現実において別様に使用される(たとえば、人工現実におけるアクティビティを実施する)アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ(HMD)、スタンドアロンHMD、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
本明細書で説明および/または示されるステップのプロセスパラメータおよびシーケンスは、単に例として与えられ、必要に応じて変動させられ得る。たとえば、本明細書で示されるおよび/または説明されるステップは特定の順序で示されるかまたは説明され得るが、これらのステップは、必ずしも、示されるかまたは説明される順序で実施される必要がない。本明細書で説明および/または示される様々な例示的な方法はまた、本明細書で説明されるかまたは示されるステップのうちの1つまたは複数を省略するか、あるいは、開示されるものに加えて追加のステップを含み得る。
先行する説明は、他の当業者が、本明細書で開示される例示的な実施形態の様々な態様を最も良く利用することを可能にするために提供された。この例示的な説明は、網羅的であること、または開示される正確な形態に限定することは意図されない。多くの修正および変形が、本開示の趣旨および範囲から逸脱することなく可能である。本明細書で開示される実施形態は、あらゆる点で、限定的ではなく例示的であると見なされるものとする。本開示の範囲を決定する際に、添付の特許請求の範囲およびそれらの均等物の参照が行われるべきである。
別段に記載されていない限り、本明細書および特許請求の範囲において使用される「に接続された(connected to)」および「に結合された(coupled to)」という用語(およびそれらの派生語)は、直接接続と間接接続(すなわち、他の要素または構成要素を介したもの)の両方を許容するものとして解釈されるべきである。さらに、本明細書および特許請求の範囲において使用される「1つの(a)」または「1つの(an)」という用語は、「少なくとも1つの」を意味するものとして解釈されるべきである。最後に、使いやすさのために、本明細書および特許請求の範囲において使用される「含む(including)」および「有する(having)」という用語(およびそれらの派生語)は、「備える、含む(comprising)」という単語と交換可能であり、その単語と同じ意味を有する。

Claims (20)

  1. デバイスにおいて、環境内の少なくとも1つの音源の指示を含む環境データの1つまたは複数の部分にアクセスすることであって、前記デバイスが、ステアリング可能オーディオビームを生成するように構成された1つまたは複数のオーディオハードウェア構成要素を含む、環境データの1つまたは複数の部分にアクセスすることと、
    アクセスされた前記環境データに基づいて前記環境内の前記音源のロケーションを識別することと、
    前記デバイスの前記1つまたは複数のオーディオビームを前記環境内の前記音源の識別された前記ロケーションにステアリングすることと
    を含む、コンピュータ実装方法。
  2. 前記デバイスが人工現実(AR)デバイスを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記環境データが、前記ARデバイスによって取得された同時ロケーションおよびマッピング(SLAM)センサデータを含む、請求項2に記載のコンピュータ実装方法。
  4. 前記環境が複数のARデバイスを含み、各ARデバイスがそれ自体のロケーションを記録する、請求項2に記載のコンピュータ実装方法。
  5. 前記環境が複数のARデバイスを含み、各ARデバイスが、他のARデバイスのロケーションを、前記ARデバイスによってキャプチャされたセンサデータを使用して記録する、請求項2に記載のコンピュータ実装方法。
  6. 履歴デバイス移動データの1つまたは複数の部分は、前記音源が移動する可能性がある将来の音源ロケーションを識別するために実装される、請求項1に記載のコンピュータ実装方法。
  7. 将来の音源ロケーションが、継続的に更新されながら決定され、したがって、前記デバイスの前記1つまたは複数のオーディオビームが、更新された前記将来の音源ロケーションに継続的にステアリングされる、請求項1に記載のコンピュータ実装方法。
  8. 直接経路信号よりも高い信号レベルで前記デバイスにおいて残響信号が受信されたことを検出することと、
    前記残響信号が進む少なくとも1つの潜在的経路を識別することと、
    前記残響信号が進む識別された経路に沿って進むように前記1つまたは複数のオーディオビームをステアリングすることと
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  9. 前記デバイスが現在のデバイスロケーションと将来のデバイスロケーションとの間で移動するにつれて、オーディオビームステアリングを直接経路に遷移することをさらに含む、請求項8に記載のコンピュータ実装方法。
  10. 前記デバイスが、スマートフォン、タブレット、ラップトップまたはウェアラブルデバイスのうちの少なくとも1つを含む、請求項1に記載のコンピュータ実装方法。
  11. 少なくとも1つの物理プロセッサと、
    物理メモリとを備えるデバイスであって、前記物理メモリは、前記物理プロセッサによって実行されたとき、前記物理プロセッサに、
    前記デバイスにおいて、環境内の少なくとも1つの音源の指示を含む環境データの1つまたは複数の部分にアクセスすることであって、前記デバイスが、ステアリング可能オーディオビームを生成するように構成された1つまたは複数のオーディオハードウェア構成要素を含む、環境データの1つまたは複数の部分にアクセスすることと、
    アクセスされた前記環境データに基づいて前記環境内の前記音源のロケーションを識別することと、
    前記デバイスの前記1つまたは複数のオーディオビームを前記環境内の前記音源の識別された前記ロケーションにステアリングすることと
    を行わせるコンピュータ実行可能命令を備える、デバイス。
  12. 前記1つまたは複数のオーディオビームを介して受信されるオーディオ信号を使用して再生されることになるオーディオ信号にアクセスすることと、
    第2のデバイスのロケーションを識別することと、
    アクセスされた前記オーディオ信号を、前記第2のデバイスから来ているかのように聞こえるように前記オーディオ信号を空間的に再レンダリングするために、修正することと
    をさらに含む、請求項11に記載のデバイス。
  13. 前記デバイスが、リモートソースからあらかじめ生成された環境データまたは履歴環境のデータを受信し、将来の音源ロケーションを識別するために、受信された前記環境データまたは履歴環境のデータを実装する、請求項11に記載のデバイス。
  14. 前記環境における1つまたは複数の他のデバイスが、環境データの1つまたは複数の部分をサーバにあるいは別のローカルまたはリモートデバイスに提供する、請求項11に記載のデバイス。
  15. 前記サーバが、ターゲットデバイスの遅延および制約を考慮するように環境情報を増補する、請求項14に記載のデバイス。
  16. 信号レベルを指定された最小レベルに上げるためにビームフォーミングが必要とされると決定すると、ステアリング制御信号が生成される、請求項11に記載のデバイス。
  17. 指定された方向において選択的アクティブ雑音消去を実施するために、環境データのアクセスされた部分を使用することをさらに含む、請求項11に記載のデバイス。
  18. 指定された方向からの音を選択的に除去するように、または指定された方向からの音を選択的に許容するように、1つまたは複数のアクティブ雑音消去パラメータを調整することをさらに含む、請求項17に記載のデバイス。
  19. 修正されたドライオーディオ信号が、前記修正されたドライオーディオ信号が前記環境において発生したかのように聞こえるように、ドライオーディオ信号を1つまたは複数の効果と合成することをさらに含む、請求項11に記載のデバイス。
  20. コンピューティングデバイスの少なくとも1つのプロセッサによって実行されたとき、前記コンピューティングデバイスに、
    環境内の少なくとも1つの音源の指示を含む環境データの1つまたは複数の部分にアクセスすることであって、前記コンピューティングデバイスが、ステアリング可能オーディオビームを生成するように構成された1つまたは複数のオーディオハードウェア構成要素を含む、環境データの1つまたは複数の部分にアクセスすることと、
    アクセスされた前記環境データに基づいて前記環境内の前記音源のロケーションを識別することと、
    前記デバイスの前記1つまたは複数のオーディオビームを前記環境内の前記音源の識別された前記ロケーションにステアリングするステアリング制御信号を生成することと
    を行わせる1つまたは複数のコンピュータ実行可能命令を備える、非一時的コンピュータ可読媒体。
JP2021526518A 2018-12-04 2018-12-20 環境のデータを使用するオーディオ増補 Pending JP2022512075A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/208,596 US10595149B1 (en) 2018-12-04 2018-12-04 Audio augmentation using environmental data
US16/208,596 2018-12-04
PCT/US2018/066942 WO2020117283A1 (en) 2018-12-04 2018-12-20 Audio augmentation using environmental data

Publications (1)

Publication Number Publication Date
JP2022512075A true JP2022512075A (ja) 2022-02-02

Family

ID=69779124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021526518A Pending JP2022512075A (ja) 2018-12-04 2018-12-20 環境のデータを使用するオーディオ増補

Country Status (6)

Country Link
US (2) US10595149B1 (ja)
EP (1) EP3891521A4 (ja)
JP (1) JP2022512075A (ja)
KR (1) KR20210088736A (ja)
CN (1) CN113396337A (ja)
WO (1) WO2020117283A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023199746A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10595149B1 (en) * 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data
US11361749B2 (en) 2020-03-11 2022-06-14 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11810595B2 (en) 2020-04-16 2023-11-07 At&T Intellectual Property I, L.P. Identification of life events for virtual reality data and content collection
US11153707B1 (en) * 2020-04-17 2021-10-19 At&T Intellectual Property I, L.P. Facilitation of audio for augmented reality
EP3945735A1 (en) 2020-07-30 2022-02-02 Koninklijke Philips N.V. Sound management in an operating room
CN113077779A (zh) * 2021-03-10 2021-07-06 泰凌微电子(上海)股份有限公司 一种降噪方法、装置、电子设备以及存储介质
CN113099348A (zh) * 2021-04-09 2021-07-09 泰凌微电子(上海)股份有限公司 降噪方法、降噪装置和耳机
US20230095410A1 (en) * 2021-09-24 2023-03-30 Zoox, Inc. System for detecting objects in an environment
US20230319476A1 (en) * 2022-04-01 2023-10-05 Georgios Evangelidis Eyewear with audio source separation using pose trackers

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120093320A1 (en) * 2010-10-13 2012-04-19 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
JP2017513535A (ja) * 2014-01-24 2017-06-01 マイクロソフト テクノロジー ライセンシング,エルエルシー オーディオナビゲーション支援
US20170230760A1 (en) * 2016-02-04 2017-08-10 Magic Leap, Inc. Technique for directing audio in augmented reality system
WO2018060549A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Gain control in spatial audio systems

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0120450D0 (en) * 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
CN101819774B (zh) * 2009-02-27 2012-08-01 北京中星微电子有限公司 声源定向信息的编解码方法和系统
US20130278631A1 (en) * 2010-02-28 2013-10-24 Osterhout Group, Inc. 3d positioning of augmented reality information
EP2656640A2 (en) * 2010-12-22 2013-10-30 Genaudio, Inc. Audio spatialization and environment simulation
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
CN103873127B (zh) * 2014-04-04 2017-04-05 北京航空航天大学 一种自适应波束成形中快速生成阻塞矩阵的方法
CN106659936A (zh) * 2014-07-23 2017-05-10 Pcms控股公司 用于确定增强现实应用中音频上下文的系统和方法
US10531187B2 (en) * 2016-12-21 2020-01-07 Nortek Security & Control Llc Systems and methods for audio detection using audio beams
US10158939B2 (en) * 2017-01-17 2018-12-18 Seiko Epson Corporation Sound Source association
US10595149B1 (en) * 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120093320A1 (en) * 2010-10-13 2012-04-19 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
JP2017513535A (ja) * 2014-01-24 2017-06-01 マイクロソフト テクノロジー ライセンシング,エルエルシー オーディオナビゲーション支援
US20170230760A1 (en) * 2016-02-04 2017-08-10 Magic Leap, Inc. Technique for directing audio in augmented reality system
WO2018060549A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Gain control in spatial audio systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023199746A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Also Published As

Publication number Publication date
US10979845B1 (en) 2021-04-13
EP3891521A4 (en) 2022-01-19
US10595149B1 (en) 2020-03-17
EP3891521A1 (en) 2021-10-13
WO2020117283A1 (en) 2020-06-11
KR20210088736A (ko) 2021-07-14
CN113396337A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
US10979845B1 (en) Audio augmentation using environmental data
US11869475B1 (en) Adaptive ANC based on environmental triggers
JP7284252B2 (ja) Arにおける自然言語翻訳
US20140328505A1 (en) Sound field adaptation based upon user tracking
JP2022518883A (ja) オーディオシステムのための修正されたオーディオ体験を生成すること
US11234073B1 (en) Selective active noise cancellation
US10819953B1 (en) Systems and methods for processing mixed media streams
US11758347B1 (en) Dynamic speech directivity reproduction
US20200162140A1 (en) Systems and methods for maintaining directional wireless links of motile devices
CN116076091A (zh) 相对于移动外围设备的空间化音频
US11902735B2 (en) Artificial-reality devices with display-mounted transducers for audio playback
US10979236B1 (en) Systems and methods for smoothly transitioning conversations between communication channels
US10674259B2 (en) Virtual microphone
US11132834B2 (en) Privacy-aware artificial reality mapping
JP2022518105A (ja) 人工現実に基づくユーザグループ
US10764707B1 (en) Systems, methods, and devices for producing evancescent audio waves
US11638111B2 (en) Systems and methods for classifying beamformed signals for binaural audio playback

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230707

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230718

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230810