CN113396337A - 使用环境数据的音频增强 - Google Patents

使用环境数据的音频增强 Download PDF

Info

Publication number
CN113396337A
CN113396337A CN201880100668.XA CN201880100668A CN113396337A CN 113396337 A CN113396337 A CN 113396337A CN 201880100668 A CN201880100668 A CN 201880100668A CN 113396337 A CN113396337 A CN 113396337A
Authority
CN
China
Prior art keywords
environment
user
location
audio
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880100668.XA
Other languages
English (en)
Inventor
安德鲁·洛维特
斯科特·菲利普·塞尔方
安东尼奥·约翰·米勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Facebook Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Facebook Technologies LLC filed Critical Facebook Technologies LLC
Publication of CN113396337A publication Critical patent/CN113396337A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/111Directivity control or beam pattern
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

所公开的用于根据预期位置执行定向波束成形的计算机实现的方法可以包括访问指示环境内声源的环境数据。该设备可以包括各种音频硬件部件,这些音频硬件部件被配置成生成可引导的音频波束。该方法还可以包括基于所访问的环境数据来识别声源在环境内的位置,然后将设备的音频波束引导到所识别的声源在环境内的位置。还公开了各种其他方法、系统和计算机可读介质。

Description

使用环境数据的音频增强
相关申请的交叉引用
本申请要求2018年12月4日提交的美国非临时申请第16/208,596号的权益,该申请的公开内容通过此引用以其整体被并入。
背景
增强现实(AR)和虚拟现实(VR)设备越来越普遍。AR设备通常具有两个主要部件,包括显示器和声源,而VR设备通常包括显示器、声源和向用户提供触觉反馈的触觉部件。显示器在VR的情况下可以是全头戴装置(full headset),或者在AR的情况下可以是一副眼镜。声源可以包括内置于AR/VR设备本身中的扬声器,或者可以包括单独的耳机。
目前在这种AR和VR系统中的扬声器通常被设计成无需大量定制即可为用户再现音频。在某些情况下,可以使用环绕声解码来处理音频。并且,在这种情况下,输出音频可以被空间化为听起来像是来自某个方向(例如,用户的前面、侧面或后面)。然而,音频处理没有考虑AR/VR设备本身是否在移动、或者设备移动到哪里、或者其他AR/VR设备是否存在于紧邻区域中。
概述
如下文将更详细描述的,本公开描述了访问指示环境内声源的位置的环境数据,然后在该方向上进行波束成形(beam form)以改善音频接收的方法和系统。在一个示例中,用于基于环境数据执行定向波束成形(directional beamforming)的计算机实现的方法可以包括在设备处访问环境数据,该环境数据包括对环境内的至少一个声源的指示。“波束成形”或将音频波束瞄准给定的人或位置的过程可以提高回放头戴装置向用户提供清晰和可理解的音频信号的能力。音频波束可以是麦克风为了捕获音频信号所指向的聚焦区域。该设备可以包括音频硬件部件,这些音频硬件部件被配置成生成这种可引导的音频波束。该方法还可以包括基于所访问的环境数据来识别声源在环境内的位置,然后将设备的音频波束引导到所识别的声源在环境内的位置。
在一些示例中,该设备可以是增强现实(AR)或虚拟现实(VR)设备。环境可以包括多个AR或VR设备,其中每个AR或VR设备记录其自身的位置。在一些示例中,环境可以包括多个AR设备,其中每个AR设备可以使用由AR设备捕获的传感器数据来记录其他AR设备的位置。在一些示例中,AR设备可以使用环境数据来跟踪多个其他AR设备的位置。
在一些示例中,可以实现历史设备移动数据来识别声源(例如,人)有可能移动到的未来声源位置。未来声源位置可以在不断更新的基础上确定。以这种方式,设备的音频波束可以被连续地引导到更新的未来声源位置。
在一些示例中,用于基于预期位置定向地波束成形的方法可以包括检测在设备处以比直接路径信号更高的信号水平接收到回响信号(reverberated signal)。该方法还可以包括识别回响信号传播的潜在路径,然后引导音频波束沿着所识别的回响信号传播的路径而传播。该方法还可以包括当设备在当前设备位置和未来声源位置之间移动时,将音频波束引导转换回直接路径。
在一些示例中,可以基于特定的波束成形策略来引导音频波束。一些实施例可以包括访问将使用音频波束来再现的音频信号,识别另一个设备的位置,以及修改所访问的音频信号以在空间上将音频信号重新渲染为听起来好像来自另一个设备。
在一些示例中,该设备可以从远程源接收预先生成的环境数据或历史环境数据,并且可以实现接收到的环境数据或历史环境数据以识别未来声源位置。在一些示例中,环境中的其他设备可以向服务器或另一本地或远程设备提供环境数据。服务器可以增强环境信息以考虑目标设备的延迟和约束。
在一些示例中,在确定需要波束成形来将信号水平提高到指定的最小水平时,生成引导控制信号。在一些示例中,环境数据的被访问部分可以用于在指定方向上执行选择性主动噪声消除。在一些示例中,可以调整各种主动噪声消除参数,以选择性地移除来自指定方向的声音,或者选择性地允许来自指定方向的声音。在进一步的例子中,原始音频信号(dry audio signal)可以与各种效果相结合,使得修改后的原始音频信号听起来好像修改后的原始音频信号源自用户的当前环境。
此外,用于基于环境数据定向地波束成形的对应设备可以包括存储在存储器中的几个模块,包括被配置为访问环境数据的数据访问模块,该环境数据包括环境内声源的指示。该设备可以包括被配置成生成可引导的音频波束的音频硬件部件。该设备还可以包括位置识别模块,该位置识别模块被配置为基于所访问的环境数据来识别声源在环境内的位置。该设备还可以包括波束引导模块,该波束引导模块被配置为将该设备的音频波束引导到所识别的声源在环境内的位置。
在一些示例中,上述方法可以被编码为在计算机可读介质上的计算机可读指令。例如,计算机可读介质可以包括一个或更多个计算机可执行指令,当由计算设备的至少一个处理器执行时,这些指令可以使计算设备访问包括环境内声源的指示的环境数据,基于所访问的环境数据来识别声源在环境内的位置,并且将设备的音频波束引导到所识别的声源在环境内的位置。
根据本文描述的一般原理,来自上面提到的实施例中的任一个的特征可以与彼此组合地被使用。通过结合附图和权利要求阅读以下详细描述,将会更全面地理解这些和其他实施例、特征和优点。
附图简述
附图示出了许多示例性实施例,并且是说明书的一部分。这些附图连同下面的描述一起展示并解释了本公开的各种原理。
图1示出了人工现实头戴装置的实施例。
图2示出了增强现实头戴装置和相应颈带的实施例。
图3示出了虚拟现实头戴装置的实施例。
图4示出了本文描述的实施例可以在其中执行的一个实施例,其包括基于环境数据定向地波束成形。
图5示出了基于环境数据定向地波束成形的示例性方法的流程图。
图6示出了本文描述的实施例可以在其中进行操作的替代实施例,其包括基于环境数据的定向波束成形。
图7示出了本文描述的实施例可以在其中进行操作的替代实施例,其包括基于环境数据的定向波束成形。
图8示出了本文描述的实施例可以在其中进行操作的替代实施例,其包括基于环境数据的定向波束成形。
图9示出了本文描述的实施例可以在其中进行操作的替代实施例,其包括基于环境数据的定向波束成形。
在全部附图中,相同的参考符号和描述指示相似的但不一定相同的元件。虽然本文描述的示例性实施例易于进行各种修改和替代形式,但是特定实施例已经在附图中以示例的方式被示出,并且将在本文详细描述。然而,本文描述的示例性实施例并不旨在局限于所公开的特定形式。更确切地,本公开覆盖了落入所附权利要求的范围内的所有修改、等同物和替代物。
示例性实施例的详细描述
本公开总体上涉及用于基于指示收听用户可能感兴趣的声源的环境数据来执行定向波束成形的方法和系统。如下文将更详细解释的,本公开的实施例可以允许用户在使用人工现实(AR)头戴装置时更容易听到其他用户。例如,如果大量用户在房间里,或者如果房间的传声效果很差,用户可能很难听到彼此的声音。在本文的实施例中,AR头戴装置可以被配置为执行波束成形,以更好地聚焦于给定的声源(例如,正在讲话的用户)。波束成形不仅可以形成朝向说话用户的当前位置的波束,还可以在预期说话用户移动到新位置时将波束指向新位置。
实际上,在本文的至少一些实施例中,AR头戴装置(或AR头戴装置通信地连接到的计算机系统)可以实现逻辑以确定说话的用户有可能移动到的位置。收听用户的AR头戴装置可以基于当前环境的知识、说话用户过去的移动的知识以及说话用户的当前位置和/或移动信息来做出该确定。使用这些信息中的一些或全部,收听用户的AR头戴装置可以确定说话用户有可能移动到的位置,并且在移动之前,可以在预期的移动方向上进行波束成形。然后,如果说话用户在那个方向上移动,则收听用户的AR头戴装置将已经在那个方向上波束成形,从而增强收听用户听到说话用户的能力。“波束成形”或将音频波束瞄准给定的人或位置的过程可以提高AR头戴装置向用户提供清晰和可理解的音频信号的能力。
本公开的实施例可以包括各种类型的人工现实系统或结合各种类型的人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式,其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality,MR)、混杂现实(hybrid reality)、或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与捕获的(例如,真实世界)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合,它们中的任何一个都可以在单个通道中或在多个通道中被呈现(例如向观看者产生三维效果的立体视频)。此外,在一些实施例中,人工现实还可以与用于例如在人工现实中创建内容和/或以其他方式在人工现实中被使用(例如,以在人工现实中执行活动)的应用、产品、附件、服务或其某种组合相关联。
可以在各种不同的形状因子和配置中实现人工现实系统。一些人工现实系统可以被设计成在没有近眼显示器(NED)的情况下工作,其示例是图1中的AR系统100。其他人工现实系统可以包括NED,该NED也提供对真实世界的可视性(例如,图2中的AR系统200),或者使用户在视觉上沉浸在人工现实中(例如,图3中的VR系统300)。虽然一些人工现实设备可以是自主式系统(self-contained system),但是其他人工现实设备可以与外部设备通信和/或协作以向用户提供人工现实体验。这种外部设备的示例包括手持控制器、移动设备、台式计算机、由用户穿戴的设备、由一个或更多个其他用户穿戴的设备、和/或任何其他合适的外部系统。
转到图1,AR系统100通常表示尺寸被定成适配用户的身体部位(例如,头部)的可穿戴设备。如图1所示,系统100可以包括框架102和相机组件104,相机组件104耦合到框架102并被配置为通过观察本地环境来收集关于本地环境的信息。AR系统100还可以包括一个或更多个音频设备,例如输出音频换能器108(A)和108(B)以及输入音频换能器110。输出音频换能器108(A)和108(B)可以向用户提供音频反馈和/或内容,并且输入音频换能器110可以捕获在用户的环境中的音频。
如所示,AR系统100可以不必包括位于用户的眼睛前方的NED。无NED的AR系统可以采用多种形式,例如头带、帽子、发带、腰带、手表、腕带、踝带、戒指、颈带、项链、胸带、眼镜框、和/或任何其他合适类型或形式的装置。虽然AR系统100可以不包括NED,但是AR系统100可以包括其他类型的屏幕或视觉反馈设备(例如,集成到框架102的一侧内的显示屏)。
也可以在包括一个或更多个NED的AR系统中实现在本公开中讨论的实施例。例如,如图2所示,AR系统200可以包括具有框架210的眼镜设备202,框架210被配置为将左显示设备215(A)和右显示设备215(B)保持在用户的眼睛的前方。显示设备215(A)和215(B)可以一起或独立地起作用来向用户呈现图像或一系列图像。虽然AR系统200包括两个显示器,但是本公开的实施例可以在具有单个NED或多于两个的NED的AR系统中被实现。
在一些实施例中,AR系统200可以包括一个或更多个传感器,例如传感器240。传感器240可以响应于AR系统200的运动而生成测量信号,并且可以实质上位于框架210的任何部分上。传感器240可以包括位置传感器、惯性测量单元(IMU)、深度相机组件、或其任何组合。在一些实施例中,AR系统200可以包括或可以不包括传感器240,或者可以包括多于一个的传感器。在传感器240包括IMU的实施例中,IMU可以基于来自传感器240的测量信号来生成校准数据。传感器240的示例可以包括但不限于加速度计、陀螺仪、磁力计、检测运动的其他合适类型的传感器、用于IMU的误差校正的传感器、或其某种组合。
AR系统200还可以包括具有多个声传感器(acoustic sensor)220(A)-220(J)(统称为声传感器220)的麦克风阵列。声传感器220可以是检测由声波引起的气压变化的换能器。每个声传感器220可以被配置成检测声音并将检测到的声音转换成电子格式(例如,模拟或数字格式)。图2中的麦克风阵列可以包括例如十个声传感器:220(A)和220(B),其可以被设计成放置在用户的相应耳朵内;声传感器220(C)、220(D)、220(E)、220(F)、220(G)和220(H),其可以被定位在框架210上的各个位置处;和/或声传感器220(I)和220(J),其可以被定位在相应的颈带205上。
麦克风阵列的声传感器220的配置可以变化。尽管AR系统200在图2中被示为具有十个声传感器220,但是声传感器220的数量可以大于或小于十。在一些实施例中,使用更高数量的声传感器220可以增加所收集的音频信息的量和/或音频信息的灵敏度和准确度。相反,使用更低数量的声传感器220可以降低控制器250处理所收集的音频信息所需的计算能力。此外,麦克风阵列的每个声传感器220的位置可以变化。例如,声传感器220的位置可以包括在用户身上的定义的位置、在框架210上的定义的坐标、与每个声传感器相关联的定向、或者其某种组合。
声传感器220(A)和220(B)可以位于用户的耳朵的不同部位上,例如在耳廓(pinna)后面或在耳廓(auricle)或窝(fossa)内。或者,除了在耳道内部的声传感器220之外,还可以有在耳朵上或耳朵周围的附加声传感器。将声传感器定位在用户的耳道旁边可以使麦克风阵列能够收集关于声音如何到达耳道的信息。通过将声传感器220中的至少两个定位在用户的头部的两侧上(例如,作为双耳麦克风),AR设备200可以模拟双耳听觉并捕获在用户的头部周围的3D立体声场。在一些实施例中,声传感器220(A)和220(B)可以经由有线连接来连接到AR系统200,并且在其他实施例中,声传感器220(A)和220(B)可以经由无线连接(例如,蓝牙连接)来连接到AR系统200。在还有其他实施例中,声传感器220(A)和220(B)可以根本不与AR系统200结合来被使用。
可以沿着眼镜腿(temple)的长度、横越镜梁(bridge)、在显示设备215(A)和215(B)的上方或下方、或者其某种组合来定位框架210上的声传感器220。声传感器220可以被定向成使得麦克风阵列能够在佩戴AR系统200的用户周围的宽范围的方向上检测声音。在一些实施例中,可以在AR系统200的制造期间执行优化过程以确定在麦克风阵列中的每个声传感器220的相对定位。
AR系统200还可以包括或连接到诸如颈带205的外部设备(例如,配对设备)。如所示,颈带205可以经由一个或更多个连接器230耦合到眼镜设备202。连接器230可以是有线或无线连接器,并且可以包括电气和/或非电气(例如,结构)部件。在一些情况下,眼镜设备202和颈带205可以独立地操作而在它们之间没有任何有线或无线连接。虽然图2示出了在眼镜设备202和颈带205上的示例位置中的眼镜设备202和颈带205的部件,但是这些部件可以位于眼镜设备202和/或颈带205的其他地方,和/或在眼镜设备202和/或颈带205上不同地分布。在一些实施例中,眼镜设备202和颈带205的部件可以位于与眼镜设备202、颈带205或其某种组合配对的一个或更多个附加外围设备上。此外,颈带205通常表示任何类型或形式的配对设备。因此,下面对颈带205的讨论也可以应用于各种其他配对设备,例如智能手表、智能电话、腕带、其他可穿戴设备、手持控制器、平板计算机、膝上型计算机等。
将诸如颈带205的外部设备与AR眼镜设备配对可以使眼镜设备能够实现一副眼镜的形状因子,同时仍然能够提供足够的电池和计算能力用于扩展的能力。AR系统200的电池电力、计算资源和/或附加特征中的一些或全部可以由配对设备提供或者在配对设备和眼镜设备之间共享,因而总体上减小眼镜设备的重量、热分布(heat profile)和形状因子,同时仍然保持期望的功能。例如,颈带205可以允许原本要被包括在眼镜设备上的部件被包括在颈带205中,因为用户可以在他们的肩膀上容忍比在他们的头上将容忍的重量负荷更重的重量负荷。颈带205也可以具有更大的表面积,以在该表面积上将热量扩散并分散到周围环境中。因此,颈带205可以允许比在独立眼镜设备上原本可能具有的电池和计算容量更大的电池和计算容量。因为在颈带205中承载的重量可能比在眼镜设备202中承载的重量对用户更低创,所以相比于用户容忍佩戴重的独立眼镜设备,用户可以在更长的时间段内容忍佩戴更轻的眼镜设备以及携带或佩戴配对设备,从而使人工现实环境能够更充分地融入用户的日常活动中。
颈带205可以与眼镜设备202和/或其他设备通信地耦合。其他设备可以向AR系统200提供某些功能(例如,跟踪、定位(localizing)、深度映射、处理、存储等)。在图2的实施例中,颈带205可以包括两个声传感器(例如,220(I)和220(J)),它们是麦克风阵列的一部分(或者潜在地形成它们自己的麦克风子阵列)。颈带205还可以包括控制器225和电源235。
颈带205的声传感器220(I)和220(J)可以被配置成检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。在图2的实施例中,声传感器220(I)和220(J)可以定位在颈带205上,从而增加在颈带声传感器220(I)和220(J)与定位在眼镜设备202上的其他声传感器220之间的距离。在一些情况下,增加在麦克风阵列的声传感器220之间的距离可以提高经由麦克风阵列执行的波束成形的准确度。例如,如果声音由声传感器220(C)和220(D)检测到并且在声传感器220(C)和220(D)之间的距离大于例如在声传感器220(D)和220(E)之间的距离,则检测到的声音的所确定的源位置可以比如果声音由声传感器220(D)和220(E)检测到时所确定的源位置更准确。
颈带205的控制器225可以处理由在颈带205和/或AR系统200上的传感器生成的信息。例如,控制器225可以处理来自麦克风阵列的描述由麦克风阵列检测到的声音的信息。对于每个检测到的声音,控制器225可以执行DoA估计以估计方向(检测到的声音从该方向到达麦克风阵列)。当麦克风阵列检测到声音时,控制器225可以用该信息填充音频数据集。在AR系统200包括惯性测量单元的实施例中,控制器225可以计算来自位于眼镜设备202上的IMU的所有惯性和空间计算。连接器230可以在AR系统200和颈带205之间以及在AR系统200和控制器225之间传送信息。信息可以是以光数据、电数据、无线数据的形式或任何其他可传输数据形式。将对由AR系统200生成的信息的处理移动到颈带205可以减少在眼镜设备202中的重量和热量,使它对用户来说更舒适。
颈带205中的电源235可以向眼镜设备202和/或颈带205提供电力。电源235可以包括但不限于锂离子电池、锂聚合物电池、一次锂电池、碱性电池或任何其他形式的电力储存装置。在一些情况下,电源235可以是有线电源。在颈带205上而不是在眼镜设备202上包括电源235可以帮助更好地分配由电源235生成的重量和热量。
如所提到的,一些人工现实系统可以实质上用虚拟体验代替用户对真实世界的一个或更多个感官知觉,而不是将人工现实与实际现实混合。这种类型的系统的一个示例是头戴式显示系统,例如图3中的VR系统300,其大部分或完全覆盖用户的视场。VR系统300可以包括前刚性主体302和被成形为适配在用户的头部周围的带304。VR系统300还可以包括输出音频换能器306(A)和306(B)。此外,虽然在图3中未示出,但是前刚性主体302可以包括一个或更多个电子元件,其包括一个或更多个电子显示器、一个或更多个惯性测量单元(IMU)、一个或更多个跟踪发射器或检测器、和/或用于创建人工现实体验的任何其他合适的设备或系统。
人工现实系统可以包括各种类型的视觉反馈机构。例如,在AR系统200和/或VR系统300中的显示设备可以包括一个或更多个液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、和/或任何其他合适类型的显示屏。人工现实系统可以包括用于双眼的单个显示屏,或者可以为每只眼睛提供显示屏,这可以为变焦调节或为校正用户的屈光不正提供附加的灵活性。一些人工现实系统还可以包括具有一个或更多个透镜(例如,传统的凹透镜或凸透镜、菲涅耳(Fresnel)透镜、可调液体透镜等)的光学子系统,用户可以通过这些透镜来观看显示屏。
除了或代替使用显示屏,一些人工现实系统还可以包括一个或更多个投影系统。例如,在AR系统200和/或VR系统300中的显示设备可以包括(使用例如波导)将光投射到显示设备中的微LED投影仪,例如允许环境光穿过的透明组合透镜。显示设备可以朝着用户的瞳孔折射所投射的光,并且可以使用户能够同时观看人工现实内容和真实世界。人工现实系统还可以配置有任何其他合适类型或形式的图像投影系统。
人工现实系统也可以包括各种类型的计算机视觉部件和子系统。例如,AR系统100、AR系统200和/或VR系统300可以包括一个或更多个光学传感器,例如二维(2D)或三维(3D)相机、飞行时间深度传感器、单光束或扫频激光测距仪、3D LiDAR传感器、和/或任何其他合适类型或形式的光学传感器。人工现实系统可以处理来自这些传感器中的一个或更多个的数据,以识别用户的位置、绘制真实世界的地图、向用户提供关于真实世界周围环境的上下文、和/或执行各种其他功能。
人工现实系统还可以包括一个或更多个输入和/或输出音频换能器。在图1和图3所示的示例中,输出音频换能器108(A)、108(B)、306(A)和306(B)可以包括音圈扬声器、带式扬声器、静电扬声器、压电扬声器、骨传导换能器、软骨传导换能器、和/或任何其他合适类型或形式的音频换能器。类似地,输入音频换能器110可以包括电容式麦克风(condensermicrophone)、电动式麦克风(dynamic microphone)、带式麦克风、和/或任何其他类型或形式的输入换能器。在一些实施例中,单个换能器可以用于音频输入和音频输出两者。
虽然在图1-图3中未示出,但是人工现实系统可以包括触觉(tactile)(即,触觉(haptic))反馈系统,其可以被合并到头饰、手套、紧身衣裤(body suits)、手持控制器、环境设备(例如,椅子、地板垫等)、和/或任何其他类型的设备或系统中。触觉反馈系统可以提供各种类型的皮肤反馈,包括振动、力、牵引力、纹理和/或温度。触觉反馈系统还可以提供各种类型的动觉反馈,例如运动和顺应性。可以使用电机、压电致动器、射流系统和/或各种其他类型的反馈机构来实现触觉反馈。可以独立于其他人工现实设备、在其他人工现实设备内、和/或与其他人工现实设备结合来实现触觉反馈系统。
通过提供触觉感觉、可听内容和/或视觉内容,人工现实系统可以创建整个虚拟体验或者增强用户在各种上下文和环境中的真实世界体验。例如,人工现实系统可以帮助或扩展用户在特定环境内的感知、记忆或认知。一些系统可以增强用户与真实世界中的其他人的交互,或者可以实现用户与虚拟世界中的其他人的更沉浸式的交互。人工现实系统还可以用于教育目的(例如,用于在学校、医院、政府组织、军事组织、商业企业等中的教学或培训)、娱乐目的(例如,用于玩视频游戏、听音乐、观看视频内容等)和/或用于可及性目的(例如,作为助听器、助视器等)。本文公开的实施例可以在这些上下文和环境中的一个或更多个中和/或在其他上下文和环境中实现或增强用户的人工现实体验。
一些AR系统可以使用被称为“即时定位与地图构建”(SLAM)的技术来绘制用户的环境地图。SLAM地图构建和位置识别技术可以涉及各种硬件和软件工具,其可以创建或更新环境的地图,而同时保持跟踪用户在所绘制地图的环境内的位置。SLAM可以使用许多不同类型的传感器来创建地图并确定用户在该地图内的位置。
SLAM技术可以例如实现光学传感器以确定用户的位置。包括WiFi、蓝牙、全球定位系统(GPS)、蜂窝或其他通信设备的无线电设备也可以用于确定用户相对于无线电收发器或收发器组(例如,WiFi路由器或GPS卫星组)的位置。诸如麦克风阵列的声传感器或者2D或3D声纳传感器也可以用于确定用户在环境内的位置。AR和VR设备(例如分别为图1和图2的系统100、200和300)可以结合这些类型的传感器中的任何一个或全部来执行SLAM操作(例如创建并持续地更新用户的当前环境的地图)。在本文描述的至少一些实施例中,由这些传感器生成的SLAM数据可以被称为“环境数据”,并且可以指示用户的当前环境。该数据可以存储在本地或远程数据储存器(例如,云数据储存器)中,并且可以按需提供给用户的AR/VR设备。
当用户在给定环境中佩戴AR头戴装置或VR头戴装置时,用户可能正在与用作音频源的其他用户或其他电子设备进行交互。在一些情况下,可能期望确定音频源相对于用户位于哪里且然后将音频源呈现给用户就好像它们来自音频源的位置一样。确定音频源相对于用户位于哪里的过程在本文可以被称为“定位”,并且渲染音频源信号的回放以看起来好像它来自特定方向的过程在本文可以被称为“空间化”。
可以以多种不同的方式来执行定位音频源。在一些情况下,AR或VR头戴装置可以发起到达方向(DOA)分析以确定声源的位置。DOA分析可以包括分析AR/VR设备处每个声音的强度、频谱和/或到达时间以确定声音源自的方向。在一些情况下,DOA分析可以包括用于分析人工现实设备所位于的周围声学环境的任何合适的算法。
例如,DOA分析可以被设计成从麦克风接收输入信号,并将数字信号处理算法应用于输入信号以估计到达方向。这些算法可以包括例如,延迟算法和求和算法,其中输入信号被采样,并且得到的采样信号的加权和延迟版本被一起取平均以确定到达方向。也可以实现最小均方(LMS)算法以创建自适应滤波器。该自适应滤波器然后可以用于例如,识别信号强度的差异或到达时间的差异。然后,这些差异可用于估计到达方向。在另一个实施例中,可以通过将输入信号转换到频域内并选择要处理的时频(TF)域内的特定单元(bin)来确定DOA。可以处理每个选定TF单元以确定该单元是否包括具有直接路径音频信号的音频频谱的一部分。然后可以分析具有直接路径信号的一部分的那些单元,以识别麦克风阵列接收直接路径音频信号的角度。然后,所确定的角度可以用于识别接收到的输入信号的到达方向。也可以单独地或者与上面的算法结合地使用上面没有列出的其他算法来确定DOA。
在一些实施例中,不同的用户可能将声源感知为来自稍微不同的位置。这可能是每个用户具有独特的头部相关传递函数(HRTF)的结果,该头部相关传递函数可以由用户的包括耳道长度和耳膜的定位的解剖结构决定。人工现实设备可以提供对准和定向指南,用户可以遵循该指南以基于他们的独特HRTF来定制呈现给用户的声音信号。在一些实施例中,人工现实设备可以实现一个或更多个麦克风以收听在用户的环境内的声音。AR或VR头戴装置可以使用各种不同的阵列传递函数(例如,上面识别的任一DOA算法)来估计声音的到达方向。一旦到达方向被确定,人工现实设备就可以根据用户的独特HRTF来向用户回放声音。因此,使用阵列传递函数(ATF)生成的DOA估计可以用于确定将要播放声音的方向。回放声音可以基于特定用户如何根据HRTF听到声音被进一步改善。
除了执行DOA估计之外或者作为执行DOA估计的备选方案,人工现实设备可以基于从其他类型的传感器接收的信息来执行定位。这些传感器可以包括相机、IR传感器、热传感器、运动传感器、GPS接收器、或者在一些情况下的检测用户的眼睛移动的传感器。例如,如上面所提到的,人工现实设备可以包括确定用户正在看哪里的眼睛跟踪器或注视检测器。用户的眼睛常常会看着声源,即使短暂地。由用户的眼睛提供的这样的线索可以进一步帮助确定声源的位置。诸如相机、热传感器和IR传感器的其他传感器也可以指示用户的位置、电子设备的位置、或另一声源的位置。任何或所有上述方法可以被单独或组合地使用以确定声源的位置,并且可以进一步用于随着时间来更新声源的位置。
一些实施例可以实现所确定的DOA来为用户生成更定制的输出音频信号。例如,“声学传递函数”可以表征或定义如何从给定位置接收声音。更具体地,声学传递函数可以定义声音在其源位置处的参数与通过其检测(例如,由麦克风阵列检测或由用户的耳朵检测)声音信号的参数之间的关系。人工现实设备可以包括检测在设备的范围内的声音的一个或更多个声传感器。人工现实设备的控制器可以(使用例如上面识别的任何方法)估计检测到的声音的DOA,并且基于检测到的声音的参数,可以生成特定于设备的位置的声学传递函数。因此,该定制的声学传递函数可以用于生成空间化的输出音频信号,其中声音被感知为来自特定位置。
事实上,一旦一个或更多个声源的位置是已知的,人工现实设备就可以将声音信号重新渲染(即,空间化)成听起来好像来自该声源的方向。人工现实设备可以应用滤波器或其他数字信号处理,其改变声音信号的强度、频谱或到达时间。数字信号处理可以以使得声音信号被感知为源自所确定的位置这样的方式被应用。人工现实设备可以放大或抑制某些频率或者改变信号到达每只耳朵的时间。在一些情况下,人工现实设备可以创建特定于设备的位置和声音信号的检测到的到达方向的声学传递函数。在一些实施例中,人工现实设备可以在立体声设备或多扬声器设备(例如,环绕声设备)中重新渲染源信号。在这种情况下,可以向每个扬声器发送单独且不同的音频信号。可以根据用户的HRTF以及根据对用户的位置和声源的位置的测量来将这些音频信号中的每一个改变成听起来好像它们来自声源的所确定的位置。因此,以这种方式,人工现实设备(或与该设备相关联的扬声器)可以将音频信号重新渲染为听起来好像源自特定位置。
图4示出了计算体系结构400,本文描述的许多实施例可以在该计算体系结构400中操作。计算体系结构400可以包括计算机系统401。计算机系统401可以包括至少一个处理器402和至少一些系统存储器403。计算机系统401可以是任何类型的本地或分布式计算机系统(包括云计算机系统)。计算机系统401可以包括用于执行各种不同功能的程序模块。程序模块可以是基于硬件的、基于软件的,或者可以包括硬件和软件的组合。每个程序模块可以使用或表示计算硬件和/或软件来执行指定的功能(包括本文在下面描述的那些功能)。
例如,通信模块404可以被配置为与其它计算机系统进行通信。通信模块404可以包括能够从其它计算机系统接收数据和/或将数据发送到其它计算机系统的任何有线或无线通信装置。这些通信装置可以包括无线电设备,例如包括基于硬件的接收器405、基于硬件的发射器406或能够接收和发送数据的组合的基于硬件的收发器。无线电设备可以是WIFI无线电设备、蜂窝无线电设备、蓝牙无线电设备、全球定位系统(GPS)无线电设备或其他类型的无线电设备。通信模块404可以被配置成与数据库、移动计算设备(例如移动电话或平板电脑)、嵌入式系统或其他类型的计算系统交互。
图4的计算机系统可以进一步包括数据访问模块407。例如,数据访问模块407可以访问数据储存器420中的环境数据408。环境数据421可以包括关于用户413的当前环境416的信息,包括该环境中存在的声源。例如,用户413可能在房间或建筑物中。环境数据408可以包括关于该位置422的信息。该信息可以包括房间尺寸信息、地板类型、墙壁装饰类型、天花板高度、窗户位置或可能影响房间内的传声效果的其他信息。环境数据408还可以包括椅子、长凳、桌子或其他家具或用户在环境内将会需要在其周围移动的其他对象的位置。当确定用户有可能从其当前位置移动到的位置时,这样的知识可能是有用的。该环境数据可以随着对环境做出的改变或者随着人们从环境416中来来去去而持续更新。
环境数据408可以以多种方式获取。例如,3D绘图设备可用于绘制特定位置的地图。3D绘图设备可以包括安装在移动底盘(mobile chassis)上的多个不同的相机和传感器。这种3D绘图设备可以在移动底盘上被携带到房间各处,并且可以记录和绘制房间的许多不同特征。这些房间特征可以被馈送到用户的AR头戴装置,在那里它们被实现以创建用户的当前周围环境的地图。房间特征也可以存储在数据储存器420中。3D绘图设备还可以包括麦克风,以从环境中捕获环境声音。
另外或替代地,环境数据408可以经由安装到用户的头部的人工现实头戴装置来获取。AR头戴装置(例如,分别是图1、图2或图3的100、200或300)可以包括绘图子系统,当可佩戴框架被固定到用户的头部时,该绘图子系统绘制用户的本地环境的地图。绘图子系统可以包括以下项:将结构光投射到本地环境中的投影仪、从本地环境中捕获结构光的反射的深度相机阵列、确定头戴式显示系统的位置的定位设备、和/或从本地环境中捕获可见光谱的光的摄影相机阵列。在这样的实施例中,深度相机阵列可以捕获结构光的反射,以检测每个深度相机和结构光的反射之间的距离。另外,在这些实施例中,定位设备可以包括定位相机,该定位相机捕获图像数据用于确定头戴式显示系统在本地环境内的相对位置,并且定位设备还可以包括定位传感器,该定位传感器识别头戴式显示系统在本地环境内的移动。
更进一步,环境数据408可以由AR头戴装置生成,该AR头戴装置包括机器感知子系统,该机器感知子系统耦合到AR头戴装置并且通过观察本地环境来收集关于本地环境的信息。AR头戴装置可以包括输出关于用户的本地环境的上下文信息的非视觉通信子系统。机器感知子系统可以包括音频定位子系统,该音频定位子系统具有附接到AR头戴装置的输入换能器,该输入换能器实现对本地环境内的声音的定向检测。音频定位子系统可以具有处理器,该处理器被编程为比较从输入换能器接收的输出信号,以识别接收本地环境中的声音的方向。非视觉通信子系统还可以包括输出换能器,该输出换能器被配置为生成声波,该声波将上下文信息传递给用户。
在另一个实施例中,环境数据408可以由成像设备提供,成像设备包括但不限于可见光相机、红外相机、热相机、雷达传感器或其他图像传感器。成像设备可以拍摄图像并将图像数据发送到硬件加速器。硬件加速器可以生成从成像设备发送的成像数据的多尺度表示。然后,基于图像的跟踪子系统可以为一组基于图像的跟踪操作准备一组输入数据,并指示硬件加速器单元使用所生成的成像数据的多尺度表示和所准备的一组输入数据来执行该组基于图像的跟踪操作。以这种方式,当用户在环境中移动时,基于图像的跟踪子系统可以跟踪用户的位置。在图像中识别的环境改变也可以用于更新环境数据408。
环境数据408可以被提供给计算机系统401的位置识别模块409。位置识别模块409可以基于所访问的环境数据来识别环境内声源的位置。例如,在环境416内,可能存在许多不同的用户。每个用户可能独自站着,也可能正在和某人说话。在环境拥挤并且用户正在和某人说话或者想要听某人说话的情况下,可能很难听到那个人的声音。在某些情况下,那个说话用户可能正在四处移动,或者可能正在转动他们的头,因此可能很难听到。在一些情况下,位置识别模块409可以确定声源的位置(例如,说话用户的当前位置422),并且可以基于环境数据408来确定说话用户在环境416内有可能移动到的位置。所确定的位置410然后可以被提供给波束引导模块411。
波束引导模块411可以被配置成将音频波束417电子地和/或机械地导向所识别的环境内声源的位置410。接收端上的波束引导可以允许用户的AR头戴装置415或电子设备414上的麦克风或其他信号接收器聚焦于来自给定方向的音频信号。这种聚焦允许波束外的其他信号被忽略或强度降低,并允许波束417内的音频信号被放大。这样,无论说话用户在环境416内移动到哪里,收听用户413都能够清楚地听到说话用户的声音。下面将参照图5的方法500以及进一步参照图5-8更详细地描述这些和其他实施例。
图5是用于基于预期位置定向地波束成形的示例性计算机实现的方法500的流程图。图5所示的步骤可以由任何合适的计算机可执行代码和/或计算系统(包括图5中示出的系统)来执行。在一个示例中,图5所示的每个步骤可以表示其结构包括多个子步骤和/或由多个子步骤表示的算法,其示例将在下面更详细地提供。
如图5所示,在步骤510,本文描述的系统可以访问指示设备或声源在环境内的当前位置的环境数据的各个部分。该设备可以包括一个或更多个音频硬件部件,该一个或更多个音频硬件部件被配置成生成可引导的音频波束。例如,数据访问模块407可以从数据储存器420中访问环境数据408。环境数据408可以包括关于给定环境(例如,416)的信息,该信息包括环境是室外还是室内、环境是封闭的还是开放的、环境的大小、环境内是否存在障碍物等。其他环境数据408可以包括环境的声学数据、诸如扬声器、电视或其他电子设备之类的声源的数量和/或位置、指示环境内的人数的数据、以及也许包括这些人的位置422。在一些实施例中,环境内的人可以具有移动设备414,例如电话、平板电脑、膝上型电脑、智能手表或其他电子设备。
此外或替代地,人们可以具有AR或VR头戴装置415(其可以分别与图1、图2或图3的头戴装置100、200或300类似或相同)。这些头戴装置可以包括无线电设备(例如,WiFi、蓝牙、蜂窝或全球定位系统(GPS)无线电设备),其传达它们在环境内的位置。每个AR头戴装置(以及相应地,每个用户)的所有这些位置信息422可以存储在数据储存器420中,并且可以随着人们在环境416内移动而持续更新。因此,位置数据422可以包括环境416中任何或所有用户的当前位置和过去位置。
计算机系统401可以使用环境数据408来确定用户在哪里、他们正在与谁交谈、以及如何最好地帮助那些用户听到彼此的声音。计算机系统可以使用位置信息、声学信息和其他环境数据来确定引导音频波束(例如,417)的最佳方向。通过在最佳方向上引导音频波束,用户将有最好的机会听到与他们交谈的人。替代地,如果用户正在观看电影或关注另一个声源,则在声源方向上引导波束可以帮助用户413听到音频源。如下文将进一步解释的,电子地或机械地将麦克风聚焦在正在说话的人上可以大大提高麦克风检测用户的语音的能力。可以执行额外的电子处理来细化音频波束417的聚焦,使其正好指向正在说话的人(或另一个声源),从而增加用户的话语的可听度。
图5的方法500接下来包括基于所访问的环境数据来识别声源在环境内的位置(步骤520)。在本文的实施例中,“声源”或“设备”可以指AR/VR头戴装置415或移动设备414(例如,智能手机、平板电脑、膝上型电脑、可穿戴设备等)或者两者。这样的设备通常由用户持有或佩戴,因此,定位该设备通常也定位相关联的用户。因此,位置识别模块409可以使用环境数据408,基于用户的对应AR头戴装置415或设备414所处的位置来识别某些声源(例如,用户或用户设备)当前所处的位置、每个用户先前去过的位置、以及用户接下来将有可能移动到的位置。新的未来位置410可以靠近用户当前所在的位置(例如,仅几英寸远),或者可以远离用户当前所在的位置。未来的设备/用户位置410可以被持续地重新计算,以确保用户的设备正在最佳方向上执行波束成形。
方法500还包括将设备的一个或更多个音频波束引导到所识别的环境内声源的位置(步骤530)。波束引导模块411可以使用计算出的未来设备或声源位置410来将音频波束417引导到用户现在所在的位置或用户预期移动到的位置。波束引导模块411可以直接控制麦克风,或者可以向设备发送波束引导控制信号412以控制波束引导。实际上,将会理解,在本文的实施例中,计算机系统401可以是用户的AR头戴装置415的一部分,或者可以内置在用户的AR头戴装置415中。替代地,计算机系统401可以是用户的电子设备414的一部分。此外,计算机系统401可以远离AR头戴装置415和用户的电子设备414,但是可以与这些设备中的一个或两个通信,并且可以执行本文描述的计算。在这种情况下,计算机系统401可以是通过网络可到达的云服务器或企业服务器。计算机系统401的模块可以嵌入在AR头戴装置415内、嵌入在用户的移动设备414内、或者可以是与设备414和/或415通信的独立计算系统的一部分。
在本文的一些实施例中,用户413可以佩戴AR头戴装置(例如,415)。尽管也可以使用VR或混合现实(MR)头戴装置,但是为了简单起见,本文将主要描述AR头戴装置。用户的AR头戴装置415可以包括允许用户向外看到环境416的透明透镜。透明透镜也可以在透镜的内部部分上至少是部分反射的,使得头戴装置中内置的小型投影仪可以将图像投射和反射到用户的眼睛中。这些图像可以与现实生活中的对象一起出现在用户面前。因此,环境416可以被增强以包括对用户(以及也许其他用户)可见的数字对象以及任何现实生活中的对象(例如门、墙、椅子、桌子或人)。除了部分反射透镜之外,AR头戴装置415可以包括麦克风和/或扬声器或耳塞。扬声器或耳塞再现音频信号供用户413听到。麦克风允许AR头戴装置检测外部音频信号。这些外部音频信号中的一些信号可能相比于其他信号对用户来说更重要,因此,可以执行波束成形来聚焦于那些对用户来说重要的外部声音。
图6示出了其中环境600包括多个人的实施例。虽然环境600被图示为室内房间,但是应当理解,环境600实质上可以是任何类型的环境,室内或室外。类似地,虽然环境示出了三个人,但是应当理解,在给定时间,环境600中实质上可以具有任意数量的人。用户601可以正在与用户602交谈。用户604可能也在听用户602,或者可能在听别的东西。用户601被示为佩戴了AR头戴装置,该AR头戴装置已经将波束605A聚焦在用户602上。如果用户602决定从初始位置603A移动到新位置603B,则用户601的AR头戴装置可以实现图6的环境数据608来识别用户602将移动到的一个或更多个可能的位置。
例如,图4的位置识别模块409可以查看用户602在环境600内的过去位置、在每个位置花费的时间以及房间内物品(例如餐桌、洗手间、门、椅子或其他物品)的知识。每个这样的物品可以提供关于用户602可能去哪里坐下、得到食物、离开房间或者与另一个用户交谈的线索。在确定用户602最有可能移动到新位置603B时,波束引导模块611可以将波束605B朝向新位置603B引导。然后,当用户602移动到该位置时,波束605B已经被引导到该方向上。
位置识别模块609还可以计算初始位置603A和新位置603B之间的多个中间位置。因此,当用户在位置之间移动时,波束引导模块611可以不断地调整波束605B的方向,使得它(持续地)跟踪用户602的位置。如果用户602移动到未被预期的位置,则位置识别模块609可以再次参考环境数据608来确定新的可能的未来位置610,并在该方向上引导波束。
在一些实施例中,每个AR设备可以被配置为记录其自身的位置,并且在一些情况下,直接地或通过中间服务器将该位置发送到其他AR设备。附加地或替代地,环境600内的每个AR设备可以被配置成使用由AR设备捕获的传感器数据(例如,SLAM数据)来记录其他AR设备(例如,用户602和604佩戴的那些AR设备)的位置。传感器数据可以包括蓝牙或其他无线信号、红外传感器数据、热传感器数据、运动传感器数据、GPS跟踪器数据或其他传感器数据。任何或所有传感器数据和位置数据也可以被传递到本地或远程服务器(例如,云服务器)。使用这些数据,服务器可以使用用户的AR设备来持续地监控每个用户的位置。因此,服务器可以知道每个用户当前在哪里、以及每个用户先前在哪里。该历史移动数据623可以由位置识别模块609实现,以学习用户的移动模式并确定用户接下来最有可能移动到的位置。
在一些情况下,计算机系统401的波束引导模块411可以被配置成生成多个不同的波束。例如,如图7所示,用户701可以戴着AR头戴装置702,该AR头戴装置702形成指向在位置A的用户704的初始波束703A。因为位置识别模块409可以被配置为在持续更新的基础上确定未来的设备/声源位置410,所以波束引导模块411可以将一个波束引导到一个位置,并开始将另一个波束引导到另一个位置。因此,可以朝着移动的用户704形成多个音频波束。因此,在图7中,当用户704从位置A移动到位置B、移动到位置C、然后移动到位置D时,波束引导模块411可以在位置A形成波束703A,在位置B形成波束703B,在位置C形成波束703C,并且在位置D形成波束703D。在一些实施例中,每个波束可以被单独形成,而在其他实施例中,某些波束可以被同时形成。
例如,波束703A和703B可以被同时形成。然后,当用户704已经到达某个位置时,波束引导模块411可以停止形成波束703A,并且可以开始形成波束703C。在这样的示例中,波束703B和703C将被同时一起产生。随着用户704继续移动,也可以同时产生波束703D,或者可以停止波束703B和/或703C。在一些情况下,同时生成的波束的数量可以取决于各种因素,包括用户704的速度、AR头戴装置702中可用的电池电量、环境中的干扰或噪声量或其他因素。
图8示出了一个实施例,其中图4的计算机系统401检测到在用户的AR头戴装置处接收到比直接路径信号处于更高信号水平的回响信号。例如,在某些环境中,墙壁、地板或其他反射表面可以反射声波。在某些情况下,这些反射波可以比直接路径音频信号衰减更少(因此更强)。例如,在图8的环境800中,用户801可以佩戴着AR头戴装置,该AR头戴装置接收到两个信号或同一信号的两个版本。版本802A是直接路径信号,而版本802B是从墙上反射的反射信号。用户801的AR头戴装置(或计算机系统401)可以确定反射信号802B比直接路径信号802A强。波束引导模块411然后可以引导音频波束沿着反射或回响信号802B的路径传播。可以使用到达方向(时间-频率)分析来确定相对信号强度,该分析识别哪个信号是最强的。然后,使用该确定,波束引导模块411可以朝着反射信号802而不是朝着用户803引导音频波束417。
如果图8的用户803稍后移动到新位置,则用户801的AR头戴装置可以确定信号802A和802B的信号强度已经改变。基于该改变,位置识别模块409可以为用户803识别新的未来位置410,并且可以在用户移动到新位置时,使波束引导模块411将音频波束转换回直接路径信号802A。
在一些实施例中,计算机系统401的波束引导模块411可以生成波束引导控制信号412,该波束引导控制信号412根据指定的波束成形策略来引导音频波束417。例如,波束成形策略可以指示音频波束417将被引导到用户413在过去15分钟内与之交谈过的人。替代地,策略可以指示音频波束417将被引导到作为用户413的朋友或家人的人。在一些实施例中,环境数据408或用户的AR头戴装置可以识别佩戴头戴装置的用户。计算机系统401还可以访问用户413的联系人列表或社交媒体应用或平台上的各种社交媒体账户。使用该社交媒体信息,波束引导模块411可以专门针对那些社交媒体平台上与用户413是朋友的那些用户。其他策略可以指示家人、或(例如,在游戏中的)同一团队的成员、或另一团体的成员可以被给予优先考虑。这样,波束引导模块411可以将来自那些用户的声音信号放大到高于从其他用户接收的声音信号。
在一些实施例中,计算机系统401可以被配置为访问将使用经由音频波束接收的音频信号来再现的音频信号。例如,在图4中,用户401的AR头戴装置可以检测来自用户402的声音(例如,语音)。AR头戴装置然后可以识别用户402的AR头戴装置的位置,并且可以修改检测到的声音以在空间上重新渲染它们,使它们好像来自用户402。例如,如果选择了给定的音频源,AR头戴装置可以将来自该音频源的音频信号重新渲染为在空间上听起来好像来自该音频源的位置。这种重新渲染可以实现定制的头部相关传递函数和DOA计算,如上面参考图1-3所述。因此,如果说话用户在收听用户的后面说话,则收听用户将会听到说话用户的音频,就好像说话用户正站在用户后面一样。即使收听用户离得足够远,以至于听不到说话者的真实话音,这也将成立。由收听用户的AR头戴装置检测到的再现版本可以在空间上被渲染为听起来好像来自声源的方向。其他处理也可以应用于检测到的声音信号。例如,可以使用滤波器和其他数字信号处理算法来执行语音增强。至少在一些实施例中,这种语音增强处理可以导致语音音量增加12-15dB,并且可以另外帮助提高清晰度。
本文描述的AR设备还可以被配置成从远程源接收预先生成的环境数据和/或历史环境数据(例如,图4的423),并实现接收的环境数据或历史环境数据以识别未来的设备位置。例如,即使AR设备缺少无线电设备或传感器来确定其自身的位置,AR设备也可以接收预先生成的环境数据和/或历史环境数据,并且可以使用该数据来识别在哪里进行波束成形。例如,如图9所示,用户901可以使用从云服务器904接收环境数据902的AR设备。用户的AR头戴装置可以包括有助于与环境900内的路由器903通信的WiFi或蓝牙无线电设备。然后,路由器904提供对互联网905的访问,特别是对云服务器904的访问。云服务器可以生成和存储与任何环境相关的环境数据,并且可以直接地或通过路由器和/或防火墙将其发送到AR设备。因此,即使AR设备缺乏使用其自身的无线电设备和传感器生成环境数据的能力,它也可以从其他源接收这样的数据,并在确定在哪里进行波束成形时使用它。
如图6-9所示,每个环境可以包括可变数量的用户。并且,在该环境中,一个或更多个用户可能具有或者可能没有AR头戴装置或移动设备。本文的实施例被设计成从AR或VR头戴装置、从移动设备、从建筑物或室外场地的知识或其他源获取所有可用的信息,并使用它来确定用户有可能移动到的位置。用户的设备可以持续提供关于他们的移动模式、关于他们的环境或关于其他用户的新信息。当计算当前和/或未来的声源或设备位置时,图9的云服务器904可以使用所有这些中的任何一个。类似地,任何AR头戴装置或移动设备都能够收集它自己的数据,并与环境中的其他设备共享该数据。因此,给定环境中的一些或所有设备可以相互通信并与后端服务器通信,以创建环境和位置知识的数据库,该数据库可以用于确定用户最可能的移动。然后,这些确定的移动可以用于以预期的方式进行波束成形,从而为收听用户提供最高水平的信号质量和清晰度。
在一些情况下,云服务器904可以增强环境信息902以考虑目标设备的延迟和约束。例如,服务器904可以为假定来自房间的声音添加回响,并且可以将该回响推送到用户的AR头戴装置。包括压缩、语音增强、空间重新渲染或其他类型的信号处理的其他信号处理也可以由服务器执行。例如,服务器904可以将原始音频信号与一个或更多个效果相结合,使得修改后的原始音频信号听起来好像它源自环境中。例如,用户可能正在说话,并且他们的话音可以以导致缺少收听用户的当前环境的特征的原始音频信号的方式被记录。在一些情况下,服务器904可以处理记录的话音信号,添加使话音信号听起来好像它是在收听用户的环境中被记录的效果。因此,即使说话的用户在不同的环境中从很远的地方说话,音频处理也可以生成听起来好像是在收听用户的环境中被记录的声音信号。
在一些实施例中,服务器904可能知道给定用户的听力不好或者正在背景噪声非常大的音乐会上。这样,服务器904可以与用户的AR头戴装置通信,指示需要波束成形来将信号水平提高到指定的最小水平。一旦接收到该指示,AR设备可以生成引导控制信号,以将信号水平提高到指定的最小水平。其他指示也可以指示可以不需要波束成形,例如当背景噪声低时,或者当用户在家在他们的卧室中时。因此,波束成形可以基于用户的位置、或者根据用户偏好或者诸如环境噪声水平的其他情况。
此外,在一些实施例中,环境数据(例如,408)可用于在指定方向上执行选择性主动噪声消除。例如,如果用户想要听到一个说话的用户,而不是另一个说话的用户,则AR头戴装置可以在不期望的说话的用户的方向上应用主动噪声消除,并且可以在期望的说话的用户的方向上波束成形。可以使用其他环境数据来执行这种定向主动噪声消除。例如,如果用户在开会,并且背景音乐通过扬声器播放,则AR设备可以选择性地在扬声器的方向上引导主动噪声消除,并且在用户正在与之交谈的人或人们的方向上波束成形。环境数据408可以指示这种扬声器或空调、鸣笛汽车或其他不想要的声源的位置。AR头戴装置可以被编程为选择性地移除来自特定方向的声音,或者选择性地允许来自特定方向的声音。因此,AR头戴装置可以被编程为检测给定的声音信号,并为该信号创建滤波器,从而可以通过主动噪声消除来移除该信号。
此外,用于基于预期位置定向地波束成形的对应系统可以包括存储在存储器中的几个模块,包括数据访问模块,该数据访问模块被配置为访问指示环境内声源的环境数据。该设备可以包括被配置成生成可引导的音频波束的音频硬件部件。该系统还可以包括位置识别模块,该位置识别模块被配置为基于所访问的环境数据来识别声源在环境内的位置。该系统还可以包括波束引导模块,该波束引导模块被配置为将设备的音频波束引导到所识别的声源在环境内的位置。
在一些示例中,上述方法可以被编码为计算机可读介质上的计算机可读指令。例如,计算机可读介质可以包括一个或更多个计算机可执行指令,当由计算设备的至少一个处理器执行时,该一个或更多个计算机可执行指令可以使计算设备访问指示环境内声源的环境数据,基于所访问的环境数据来识别环境内声源的位置,并且将设备的音频波束引导到所识别的环境内声源的位置。
因此,本文描述的实施例提供了环境数据,该环境数据允许AR头戴装置确定声源在环境内的位置,并在声源的方向上波束成形。这允许AR头戴装置用户在自己的周围移动、倾听和关注不同的用户,同时在他们的头戴装置中清楚地听到每个用户。因此,本文的实施例可以改善用户对AR头戴装置的体验,并且使得头戴装置更易于日常佩戴。
如上面所详述的,本文描述和/或示出的计算设备和系统广泛地表示能够执行计算机可读指令(例如在本文描述的模块内包含的那些指令)的任何类型或形式的计算设备或系统。在它们的最基本的配置中,这些计算设备(一个或多个)可以各自包括至少一个存储器设备和至少一个物理处理器。
在一些示例中,术语“存储器设备”通常指能够存储数据和/或计算机可读指令的任何类型或形式的易失性或非易失性存储设备或介质。在一个示例中,存储器设备可以存储、加载和/或维护本文描述的模块中的一个或更多个。存储器设备的示例包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、闪存、硬盘驱动器(HDD)、固态驱动器(SSD)、光盘驱动器、高速缓存、这些部件中的一个或更多个的变形或组合、或者任何其他合适的储存存储器。
在一些示例中,术语“物理处理器”通常指能够解析和/或执行计算机可读指令的任何类型或形式的硬件实现的处理单元。在一个示例中,物理处理器可以访问和/或修改存储在上述存储器设备中的一个或更多个模块。物理处理器的示例包括但不限于微处理器、微控制器、中央处理单元(CPU)、实现软核处理器的现场可编程门阵列(FPGA)、专用集成电路(ASIC)、这些部件中的一个或更多个的部分、这些部件中的一个或更多个的变形或组合、或任何其他合适的物理处理器。
尽管被示为单独的元件,但是本文描述和/或示出的模块可以表示单个模块或应用的部分。此外,在某些实施例中,这些模块中的一个或更多个可以表示一个或更多个软件应用或程序,该一个或更多个软件应用或程序在由计算设备执行时可以使计算设备执行一个或更多个任务。例如,本文描述和/或示出的一个或更多个模块可以表示被存储和配置为在本文描述和/或示出的一个或更多个计算设备或系统上运行的模块。这些模块中的一个或更多个还可以表示被配置为执行一个或更多个任务的一个或更多个专用计算机的全部或部分。
此外,本文描述的一个或更多个模块可以将数据、物理设备和/或物理设备的表示从一种形式变换成另一种形式。例如,本文所述的模块中的一个或更多个可以接收待变换的数据、对数据进行变换、输出变换的结果以执行功能、使用变换的结果来执行功能、以及存储变换的结果以执行功能。附加地或替代地,本文所述的模块中的一个或更多个可以通过在计算设备上执行、在计算设备上存储数据、和/或以其他方式与计算设备交互来将处理器、易失性存储器、非易失性存储器和/或物理计算设备的任何其他部分从一种形式变换成另一种形式。
在一些实施例中,术语“计算机可读介质”通常指能够存储或携带计算机可读指令的任何形式的设备、载体或介质。计算机可读介质的示例包括但不限于传输型介质(例如,载波)以及非暂时性类型的介质,例如,磁存储介质(例如,硬盘驱动器、磁带驱动器和软盘)、光存储介质(例如,光盘(CD)、数字视频盘(DVD)和BLU-RAY盘)、电子存储介质(例如,固态驱动器和闪存介质)以及其他分发系统。
本公开的实施例可以包括人工现实系统或者结合人工现实系统来实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式,其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与捕获的(例如,真实世界)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合,它们中的任何一个都可以在单个通道中或在多个通道中呈现(例如向观看者产生三维效果的立体视频)。此外,在一些实施例中,人工现实还可以与应用、产品、附件、服务或其某种组合相关联,这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如以在人工现实中执行活动)。可以在各种平台(包括连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、移动设备或计算系统、或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。
本文描述和/或示出的过程参数和步骤的顺序仅作为示例被给出,并且可以根据需要变化。例如,虽然本文示出和/或描述的步骤可以以特定顺序示出或讨论,但是这些步骤不一定需要以所示出或讨论的顺序执行。本文描述和/或示出的各种示例性方法也可以省略在本文描述或示出的一个或更多个步骤,或者包括除了那些所公开的步骤之外的附加步骤。
提供前面的描述以使本领域中的其他技术人员能够最好地利用本文公开的示例性实施例的各种方面。该示例性描述并不旨在是穷尽的或受限于所公开的任何精确形式。在不脱离本公开的精神和范围的情况下,许多修改和变化是可能的。本文公开的实施例应该被认为在所有方面都是说明性的,而不是限制性的。在确定本公开的范围时,应当参考所附权利要求及其等同物。
除非另有说明,否则如在说明书和权利要求中使用的术语“连接到”和“耦合到”(及其派生词)应被解释为允许直接和间接(即,经由其他元件或部件)连接。此外,如在说明书和权利要求中使用的术语“一个(a)”或“一个(an)”应被解释为意指“......中的至少一个”。最后,为了容易使用,如在说明书和权利要求中使用的术语“包括(including)”和“具有”(及其派生词)与词“包括(comprising)”可互换并具有与词“包括(comprising)”相同的含义。

Claims (20)

1.一种计算机实现的方法,包括:
在设备处访问环境数据的一个或更多个部分,所述环境数据包括对所述环境内至少一个声源的指示,所述设备包括被配置成生成可引导的音频波束的一个或更多个音频硬件部件;
基于所访问的环境数据来识别所述声源在所述环境内的位置;和
将所述设备的一个或更多个音频波束引导到所识别的所述声源在所述环境内的位置。
2.根据权利要求1所述的计算机实现的方法,其中,所述设备包括人工现实(AR)设备。
3.根据权利要求2所述的计算机实现的方法,其中,所述环境数据包括由所述AR设备获取的即时定位与地图构建(SLAM)传感器数据。
4.根据权利要求2所述的计算机实现的方法,其中,所述环境包括多个AR设备,每个AR设备记录其自身的位置。
5.根据权利要求2所述的计算机实现的方法,其中,所述环境包括多个AR设备,每个AR设备使用由所述AR设备捕获的传感器数据来记录其他AR设备的位置。
6.根据权利要求1所述的计算机实现的方法,其中,历史设备移动数据的一个或更多个部分被实现来识别所述声源有可能移动到的未来声源位置。
7.根据权利要求1所述的计算机实现的方法,其中,在持续更新的基础上确定未来声源位置,使得所述设备的所述一个或更多个音频波束被持续引导到更新的未来声源位置。
8.根据权利要求1所述的计算机实现的方法,还包括:
检测在所述设备处以比直接路径信号更高的信号水平接收到回响信号;
识别所述回响信号传播的至少一条潜在路径;以及
引导所述一个或更多个音频波束沿着所识别的所述回响信号传播的路径而传播。
9.根据权利要求8所述的计算机实现的方法,还包括当所述设备在当前设备位置和未来设备位置之间移动时,将音频波束引导转换回直接路径。
10.根据权利要求1所述的计算机实现的方法,其中,所述设备包括智能手机、平板电脑、膝上型电脑或可穿戴设备中的至少一个。
11.一种设备,包括:
至少一个物理处理器;
物理存储器,其包括计算机可执行指令,所述计算机可执行指令在由所述物理处理器执行时使所述物理处理器:
在所述设备处访问环境数据的一个或更多个部分,所述环境数据包括对所述环境内的至少一个声源的指示,所述设备包括被配置成生成可引导的音频波束的一个或更多个音频硬件部件;
基于所访问的环境数据来识别所述声源在所述环境内的位置;和
将所述设备的一个或更多个音频波束引导到所识别的所述声源在所述环境内的位置。
12.根据权利要求11所述的设备,还包括:
访问将使用经由所述一个或更多个音频波束接收的音频信号来再现的音频信号;
识别第二设备的位置;和
修改所访问的音频信号,以在空间上将所述音频信号重新渲染为听起来好像来自所述第二设备。
13.根据权利要求11所述的设备,其中,所述设备从远程源接收预先生成的环境数据或历史环境数据,并且实现所接收的环境数据或历史环境数据以识别未来声源位置。
14.根据权利要求11所述的设备,其中,所述环境中的一个或更多个其他设备向服务器或另一本地或远程设备提供环境数据的一个或更多个部分。
15.根据权利要求14所述的设备,其中,所述服务器增强所述环境信息以考虑目标设备的延迟和约束。
16.根据权利要求11所述的设备,其中,在确定需要波束成形来将信号水平提高到指定的最小水平时,生成引导控制信号。
17.根据权利要求11所述的设备,还包括使用所访问的环境数据的部分在指定方向上执行选择性主动噪声消除。
18.根据权利要求17所述的设备,还包括调整一个或更多个主动噪声消除参数,以选择性地移除来自指定方向的声音,或者选择性地允许来自指定方向的声音。
19.根据权利要求11所述的设备,还包括将原始音频信号与一个或更多个效果相结合,使得修改后的原始音频信号听起来好像所述修改后的原始音频信号源自所述环境中。
20.一种非暂时性计算机可读介质,包括一个或更多个计算机可执行指令,该一个或更多个计算机可执行指令在由计算设备的至少一个处理器执行时使所述计算设备:
访问环境数据的一个或更多个部分,所述环境数据包括对所述环境内至少一个声源的指示,所述计算设备包括被配置成生成可引导的音频波束的一个或更多个音频硬件部件;
基于所访问的环境数据来识别所述声源在所述环境内的位置;和
生成引导控制信号,所述引导控制信号将所述设备的一个或更多个音频波束引导到所识别的所述声源在所述环境内的位置。
CN201880100668.XA 2018-12-04 2018-12-20 使用环境数据的音频增强 Pending CN113396337A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/208,596 2018-12-04
US16/208,596 US10595149B1 (en) 2018-12-04 2018-12-04 Audio augmentation using environmental data
PCT/US2018/066942 WO2020117283A1 (en) 2018-12-04 2018-12-20 Audio augmentation using environmental data

Publications (1)

Publication Number Publication Date
CN113396337A true CN113396337A (zh) 2021-09-14

Family

ID=69779124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880100668.XA Pending CN113396337A (zh) 2018-12-04 2018-12-20 使用环境数据的音频增强

Country Status (6)

Country Link
US (2) US10595149B1 (zh)
EP (1) EP3891521A4 (zh)
JP (1) JP2022512075A (zh)
KR (1) KR20210088736A (zh)
CN (1) CN113396337A (zh)
WO (1) WO2020117283A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10595149B1 (en) * 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data
US11361749B2 (en) 2020-03-11 2022-06-14 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11810595B2 (en) 2020-04-16 2023-11-07 At&T Intellectual Property I, L.P. Identification of life events for virtual reality data and content collection
US11153707B1 (en) * 2020-04-17 2021-10-19 At&T Intellectual Property I, L.P. Facilitation of audio for augmented reality
EP3945735A1 (en) 2020-07-30 2022-02-02 Koninklijke Philips N.V. Sound management in an operating room
CN113077779A (zh) * 2021-03-10 2021-07-06 泰凌微电子(上海)股份有限公司 一种降噪方法、装置、电子设备以及存储介质
CN113099348A (zh) * 2021-04-09 2021-07-09 泰凌微电子(上海)股份有限公司 降噪方法、降噪装置和耳机
US20230095410A1 (en) * 2021-09-24 2023-03-30 Zoox, Inc. System for detecting objects in an environment
US20230319476A1 (en) * 2022-04-01 2023-10-05 Georgios Evangelidis Eyewear with audio source separation using pose trackers
WO2023199746A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819774A (zh) * 2009-02-27 2010-09-01 北京中星微电子有限公司 声源定向信息的编解码方法和系统
CN102413414A (zh) * 2010-10-13 2012-04-11 微软公司 用于扩展现实的高精度3维音频的系统和方法
CN103873127A (zh) * 2014-04-04 2014-06-18 北京航空航天大学 一种自适应波束成形中快速生成阻塞矩阵的方法
CN105934227A (zh) * 2014-01-24 2016-09-07 微软技术许可有限责任公司 音频导航辅助
US20170208415A1 (en) * 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
WO2018060549A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Gain control in spatial audio systems
CN108604439A (zh) * 2016-02-04 2018-09-28 奇跃公司 增强现实系统中定向音频的技术

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0120450D0 (en) * 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
US20130278631A1 (en) * 2010-02-28 2013-10-24 Osterhout Group, Inc. 3d positioning of augmented reality information
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
US10531187B2 (en) * 2016-12-21 2020-01-07 Nortek Security & Control Llc Systems and methods for audio detection using audio beams
US10158939B2 (en) * 2017-01-17 2018-12-18 Seiko Epson Corporation Sound Source association
US10595149B1 (en) 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819774A (zh) * 2009-02-27 2010-09-01 北京中星微电子有限公司 声源定向信息的编解码方法和系统
CN102413414A (zh) * 2010-10-13 2012-04-11 微软公司 用于扩展现实的高精度3维音频的系统和方法
CN105934227A (zh) * 2014-01-24 2016-09-07 微软技术许可有限责任公司 音频导航辅助
CN103873127A (zh) * 2014-04-04 2014-06-18 北京航空航天大学 一种自适应波束成形中快速生成阻塞矩阵的方法
US20170208415A1 (en) * 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
CN108604439A (zh) * 2016-02-04 2018-09-28 奇跃公司 增强现实系统中定向音频的技术
WO2018060549A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Gain control in spatial audio systems

Also Published As

Publication number Publication date
US10979845B1 (en) 2021-04-13
EP3891521A1 (en) 2021-10-13
WO2020117283A1 (en) 2020-06-11
KR20210088736A (ko) 2021-07-14
EP3891521A4 (en) 2022-01-19
JP2022512075A (ja) 2022-02-02
US10595149B1 (en) 2020-03-17

Similar Documents

Publication Publication Date Title
US10979845B1 (en) Audio augmentation using environmental data
US11869475B1 (en) Adaptive ANC based on environmental triggers
JP7284252B2 (ja) Arにおける自然言語翻訳
US10819953B1 (en) Systems and methods for processing mixed media streams
US11758347B1 (en) Dynamic speech directivity reproduction
US11234073B1 (en) Selective active noise cancellation
US11902735B2 (en) Artificial-reality devices with display-mounted transducers for audio playback
JP2022509772A (ja) 運動型デバイスの方向性ワイヤレスリンクを維持するためのシステムおよび方法
US10979236B1 (en) Systems and methods for smoothly transitioning conversations between communication channels
US10674259B2 (en) Virtual microphone
CN113260954B (zh) 基于人工现实的用户群组
US11132834B2 (en) Privacy-aware artificial reality mapping
WO2023147038A1 (en) Systems and methods for predictively downloading volumetric data
US10764707B1 (en) Systems, methods, and devices for producing evancescent audio waves
US11638111B2 (en) Systems and methods for classifying beamformed signals for binaural audio playback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: Yuan Platform Technology Co.,Ltd.

Address before: California, USA

Applicant before: Facebook Technologies, LLC

CB02 Change of applicant information